CN112016329A - 数据处理方法及装置 - Google Patents

数据处理方法及装置 Download PDF

Info

Publication number
CN112016329A
CN112016329A CN201910394645.0A CN201910394645A CN112016329A CN 112016329 A CN112016329 A CN 112016329A CN 201910394645 A CN201910394645 A CN 201910394645A CN 112016329 A CN112016329 A CN 112016329A
Authority
CN
China
Prior art keywords
user
corpus
target
historical user
entry
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910394645.0A
Other languages
English (en)
Inventor
李亚丽
温丽云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910394645.0A priority Critical patent/CN112016329A/zh
Publication of CN112016329A publication Critical patent/CN112016329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/632Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/686Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title or artist information, time, location or usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种数据处理方法及装置。其中,该方法包括:从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则;在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。本发明解决了相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。

Description

数据处理方法及装置
技术领域
本发明涉及自然语言理解技术领域,具体而言,涉及一种数据处理方法及装置。
背景技术
在用户与机器系统进行交互的过程中常常用的自然语言的理解与语义的识别,例如,用户在目标系统的操作界面输入指令文字,在语音输入模块中输入语音指令,人机交互系统初步构建成功后,往往会遇到的难题是,如何使用用户数据来不断的完善系统,让系统的语义识别功能越来越智能。
在相关技术中,为了完善目标系统的语义识别功能,提供了用户反馈渠道,通过用户对语义识别的结果的主动反馈提高系统的邢娜娜,例如,在一些音箱的应用程序中,用户可以点击某条结果不满意,来对该次语音交互行为进行评判,再例如,一些交互系统也可以提供用户电话投诉方式进行反馈。但是,由于用户主动反馈缺乏主观能动性,反馈的结果的数量过少,难以进一步提高系统的性能。此外,除了用户反馈机制,相关技术中出现了其他的完善系统语义识别功能的方法,例如,对用户日志随机抽样,标注,然后迭代训练模型,通过模型提高语义识别的准确性,但是。在该方法中,随机抽样缺乏针对性,需要抽样大量数据才能训练模型,达到预期效果,该方法工作量大,可操作性较差。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种数据处理方法及装置,以至少解决相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料;在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
根据本发明实施例的另一个方面,提供了另一种数据处理方法,包括:从电视关联的数据源中获取更新的词条,以扩充电视的词库,其中,电视基于用户输入的语料执行操作行为,词库中的每个词条在视频播放领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与电视进行交互时产生的语料;在电视根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:扩充单元,用于从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性;确定单元,用于基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料;获取单元,用于在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;修正单元,用于基于反馈信息修正语义识别规则。
在本发明实施例中,采用构造语义识别规则的方式,通过扩充目标系统的词库并确定词条的属性,以用户语料的语句构造和词条的属性为基础确定语义识别规则,并基于用户对目标操作行为的反馈信息修正语义识别规则,达到了提高目标系统的语义识别能力的目的,从而实现了在用户与目标系统进行交互的过程中完善目标系统的语料含义识别功能的技术效果,进而解决了相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据处理方法的计算机终端的硬件结构框图;
图2是根据本发明实施例的一种数据处理方法的流程图;
图3是根据本发明实施例的另一种数据处理方法的流程图;
图4是根据本发明实施例的一种数据处理装置的示意图;
图5是根据本申请实施例的一种可选的数据处理装置的示意图一;
图6是根据本申请实施例的一种可选的数据处理装置的示意图二;
图7是根据本申请实施例的一种可选的数据处理装置的示意图三;
图8是根据本申请实施例的一种可选的数据处理装置的示意图四;
图9是根据本申请实施例的一种可选的数据处理装置的示意图五;
图10是根据本申请实施例的一种可选的数据处理装置的示意图六;
图11是根据本申请实施例的一种可选的数据处理装置的示意图七;以及
图12是根据本申请实施例的一种计算机终端的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例1
根据本发明实施例,提供了一种数据处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例一所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端(或移动设备)的硬件结构框图。如图1所示,计算机终端10(或移动设备10)可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
存储器104可用于存储应用软件的软件程序以及模块,如本发明实施例中的数据处理方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的数据处理方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。
在上述运行环境下,本申请提供了如图2所示的数据处理方法。图2是根据本发明实施例一的数据处理方法的流程图。
步骤21,从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性。
需要说明的是,用户可以输入语料与目标系统进行交互,具体地,用户输入语料后,目标系统基于自身的自然语言理解功能识别用户语料的含义,由用户语料的含义转化为控制指令,控制目标系统执行操作行为,在该过程中,语料中的词条的识别为用户语料的含义的识别起关键作用,而实际生活中业务内容更新快,会不断的出现新的词条,因而,需要及时更新目标系统的词库,使得目标系统得以准确快速的识别更多的用户语料,从而更高效地执行相应的操作行为,提高用户的交互体验。
例如,在视频播放业务中,会不断的更新的电视剧、电影以及短视频等,为了便于用户语音或文字搜索新热视频,每日更新的新视频名是保障,在视频播放系统关联的数据源中获取更新的视频名,添加至视频播放系统的词库中;在导航业务里,由于建筑物、道路以及桥梁等的新设与变动,场所名称,尤其是新店名、地名的及时更新,也会使用户借助导航系统进行出行的体验更好,基于导航系统关联的数据源获取更新的场所名,添加至导航系统的词库中;在音频播放领域,例如,在用户与音箱进行语音交互,以指示音箱播放音频时,新歌曲名的识别及理解对音频播放的准确性至关重要,因而,获取音频播放系统关联的数据源中更新的音频名,添加至音频播放系统的词库中。
此外,需要说明的是,相同的词条在不同的领域可能具有不同的属性含义,而词条在相应领域中的属性影响用户语料的含义的识别,例如,“小猪佩奇”在视频领域可以是动画片、视频短片的名称,而在电商领域,“小猪佩奇”可以是玩具、衣物等的搜索标签,因而,在将获取到的词条添加至目标系统的词库中后,需要确定其在相应领域中的属性。
根据本申请上述实施例,从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库包括:至少从以下之一的数据源获取更新的词条:目标系统对应的搜索日志,目标系统的相关网页中的数据;将获取到的词条添加到目标系统的词库中,并为词库中的每个词条匹配相应的属性。
需要说明的是,目标系统对应的词库中的词条,来源于系统本地的日志中的词条,以及更新的词条,更新的词条从目标系统关联的数据源中获取,具体的,目标系统关联的数据源可以为在目标系统的相关垂类搜索日志,例如,对于视频播放系统,在搜索界面搜索视频、在视频展示界面点击视频产生的日志,对于音频播放系统,在搜索界面搜索音频、在音频展示界面点击音频产生的日志,对于导航系统,在导航界面搜索点击地点产生的日志。此外,也可以为从目标系统相关的网页上爬取的数据,例如,对于视频播放系统,可以从该视频播放系统以外的网页上爬取词条,例如,网站的首页通常会显示所属领域最新的词条,可以从其他的视频网站的首页中爬取词条,添加至该视频播放系统的词库中。对于音频播放系统,可以从该音频播放系统以外的音频网站的网页上爬取词条,添加至该音频播放系统的词库中。
此外,由于数据源来源多,噪音大,需要依据多种词频对词条数据进行清洗,例如,在视频领域,对于出现频率过高的词汇“你好”、“视频”等基础词汇进行清洗,不再加入系统词库,对于搜索词条、以及点击词条,设置相应的词频进行词条的清洗,具体地,对于搜索点击量过小的词频,将其加入词库对后续的语义识别的效用不大,反而会增加词汇属性标注的工作量,对这些词条进行清洗,不再加入系统词库。进一步地,对加入词库的词条进行回归测试,以确认没有对系统引入新的错误或导致其他错误的产生,本身不确定或者测试不通过的部分再让人工参与检查,从而完成词库的扩充。
步骤S22,基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料。
具体地,用户与目标系统进行交互的过程中会产生语料,例如,用户在历史时间内对导航系统语音输入信息即为该导航系统的历史用户语料,用户在视频播放软件上的搜索记录即为该视频播放软件的历史用户语料。
在识别语料的含义时,不仅需要识别词条的属性含义,还需要识别词条与词条的关系,例如,语料“我要看西游记”,确定语料的构造为“我+观看+视频名称”,“我”、“看”为基础词汇,不用标注其在视频领域的属性,“西游记”的属性可以为电视剧、动画片以及电影等,语义识别规则为“我要看+视频名称”,根据多条历史用户语料,进行规则的总结与抽取,获取有效的语义识别规则,以对用户输入的目标语料进行准确的语义识别。
步骤S23,在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息。
具体地,用户在目标系统输入目标语料,根据确定的语义识别规则识别出该目标语料在目标系统对应的领域中的含义,将含义转换为系统的执行命令,再基于执行命令执行目标操作行为,目标操作行为可能是用户所需要的预期行为,也可能是用户所不需要的,因而需要获取用户的反馈来评判对目标语料的语义识别结果。
根据本申请上述实施例,至少基于以下之一的反馈信息修正语义识别规则:用户对目标操作行为的否定性评价,用户纠正目标语料的输入,用户未与目标操作行为进行交互。
例如,在用户对音频播放工具语音输入“我要听A歌曲”,而音频播放工具播放了B歌曲,用户说“真傻,这都听错了”、“笨死了”,通过观察日志发现用户对系统的否认行为。
再例如,用户对视频播放系统说“我要看温暖的鞋”,展示的视频中无正确反馈,用户又修正为“我要看温暖的弦”,用户对导航系统说“找寻个加油地儿”,无正确反馈,修正为“寻找个加油站”,统计此类用户的自我修正行为,也即,统计用户在得不到系统正确反馈时,修正自己的发音或者表述,来获取正确的系统反馈的行为。
再例如,还可以通过用户的实际使用行为来进行语义识别规则的修正,具体地,是指用户在得到系统的响应后,是否有在真正使用系统返回的结果,例如,在视频播放系统中,系统给出播放视频的命令开始播放视频后,用户是否真正观看;在音频播放系统中,系统播放音乐后,用户是否真正收听;在导航系统中,系统给出搜索结果后,用户是否有选择,又是否进行路线规划及导航行为,系统给出导航结果后,用户是否真正使用导航结果,具体的,可以根据实际导航时长占本次导航总时长的比例来确定是否真正使用导航结果。
步骤S24,基于反馈信息修正语义识别规则。
具体的,可以通过用户对目标操作行为的否定性评价来获取可疑错误结果,对该目标语料涉及的词条的属性以及语义识别规则进行错误标注,从而修正语义识别规则。还可以通过用户在得不到正确反馈时纠正目标语料的输入,来增加系统召回错误的语义识别规则的能力。还可以通过查看用户是否与目标操作行为进行交互,来评判语义识别的效果,在用户是未与目标操作行为进行交互,说明存在语义识别效果不佳的可能性,对该语义识别规则进行标注和监测,从而提升交互系统的准确性。
根据本申请上述实施例,步骤S22,基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式;分别确定多条历史用户语料中不同的表达模式出现的次数;将出现次数大于预设次数的表达模式确定为第一模式;在第一模式与模式库中已存在的表达模式不同的情况下,将第一模式添加到模式库中,得到更新后的模式库;基于更新后的模式库确定语义识别规则。
例如,视频播放系统中的一条历史语料为"我要看小猪佩奇",“小猪佩奇”在视频领域的属性为“<video>”,用标签“<video>”对词条“小猪佩奇”进行标注,该条历史用户语料的表达模式为"我要看<video>",在多条历史用户语料中,统计表达模式“我要看<video>”出现的次数,若预设次数为300次,在表达模式“我要看<video>”出现的次数大于300次的情况下,说明该表达模式为高频表达模式,由于系统本身已存储了一些表达模式,为了对模式库中的表达模式进行扩充,需要选取高频表达模式中没有被模式库中已有的表达模式覆盖的表达模式,例如,若抽取出“<video>连续剧”属于高频,现有规则包括“我要看<video>”,“<video>电视剧”,不存在“<video>连续剧”,则将“<video>连续剧”添加至模式库中,模式库中的多个表达模式即构成语义识别规则,通过将目标语料的表达模式与模式库中的表达模式进行匹配,从而确定目标语料的表达含义。
通过本实施例,对历史用户语料作自动的表达模式的提取,抽取出没有被现有表达模式所覆盖的高频表达模式,并加入模式库中,从而为模式库中注入最新出现的高频表达模式,增加了语义识别规则的可适程度,提高了对新热语料的识别的准确度。
根据本申请上述实施例,该方法还包括:在基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性之前,在多条历史用户语料中存在相同的用户语料的情况下,对相同的用户语料进行去重操作。
需要说明的是,从日志中获取的历史用户语料数量巨大,为了提高表达模式的提取效率,在表达模式的提取之前,可以先对历史用户语料进行过滤,例如,相同的用户语料,用户可能一次性重复输入多次,为了避免对相同的用户语料重复多次词条属性标签的识别以及表达模式的确定,可以对完全相同的用户语料进行去重操作,删除重复的用户语料,减少工作量,提高表达模式的抽取效率。
根据本申请上述实施例,该方法还包括:在基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式之后,判断表达模式是否属于系统禁止的表达模式,其中,系统禁止的表达模式至少包括无法确定含义的表达模式;在表达模式属于系统禁止的表达模式的情况下,删除表达模式。
需要说明的是,一些高频表达模式可能属于系统禁止的、无效的表达模式,例如,存在一些措辞不文明的表达模式,将其加入模式库有违公序良俗,一些无法确定语料的语义的、仅作为高频说法的表达模式,将其加入模式库,占用存储空间的同时,对识别目标用户语料的含义不起效用,在添加到模式库之前,对高频用户语料进行测评与检查,删除系统禁止的表达模式,从而防止将系统禁止的表达模式加入模式库。
根据本申请上述实施例,步骤S22,基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:确定候选数据库中,历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于完成词条的标签标注的历史用户语料构建训练数据集;基于训练数据集中的数据训练得到目标模型;基于目标模型确定语义识别规则。
需要说明的是,在获取多个历史用户语料的基础上,除了抽取没有被现有表达模式覆盖的高频表达模式来确定语义识别规则,还可以采用模型训练的方式进行语义识别规则的确定。具体的,对获取的历史用户语料中的词条进行属性的标注,将标注后的历史用户语料作为深度学习的训练数据集,通过组合低层历史用户语料的特征,进行表征的学习,形成更加抽象的高层的表示属性类别,以发现语言表达分布式特征表示,得到用于识别语义的目标模型,在语义识别时,将目标用户语料输入模型,根据模型的输出确定该目标用户语料的含义,以提高语义识别的效率和准确性。
根据本申请上述实施例,该方法还包括:在基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则之前,按照预设规则对多条历史用户语料进行筛选,其中,预设规则至少包括以下之一:是否为目标系统对语料的语义存疑的用户语料,是否为多条历史用户语料中表达方式首次出现的用户语料;将满足预设规则的历史用户语料放入候选数据库中。
需要说明的是,在模型的训练前需要进行数据的标注,会耗费较大的人力,因而在将历史用户语料投送标注之前,对数据进行筛选,筛选出针对性的数据进行标注,例如,筛选出自然语言生成的过程中返回的不理解的历史用户语料,提高模型训练的针对性。再例如,相同表达模式的用户语料,只抽取一次,避免重复标注,例如“我要看西游记”、“我要看红楼梦”、“我要看水浒传”为相同表达模式的用户语料,只抽取一个进行标注,标注为“我要看<video>”,可至少节省一半以上的人力成本。再例如,存在一些可疑问题的日志,域名和intent值相同,但slot值不同的日志,将可疑问题日志中的用户语料筛选出来进行标注,在减少时间人力成本的情况下,使得模型训练更具有针对性。
根据本申请上述实施例,该方法还包括:根据每条历史用户语料中词条的标签的类型进行词条的扩充,并基于该条历史用户语料的语句构造以及扩充得到的词条进行用户语料的扩充;将扩充后得到的用户语料添加至训练数据集中。
需要说明的是,为了增加训练的基础数据的数量,使得模型的训练更为充分,用户语料标注完成后,会根据标注的类型进行用户语料的扩充,具体的,将“我要看西游记”标注为“我要看<video>”,可以根据“<video>”的类型进行词条的扩充,扩充出“三国演义”、“红楼梦”等词条,并得到扩充的用户语料“我要看三国演义”、“我要看红楼梦”等用户语料,并将扩充后的用户语料加入训练,使得训练数据的增量翻倍,训练更加充分。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
实施例2
在上述运行环境下,本申请提供了如图3所示的数据处理方法。图3是根据本发明实施例二的数据处理的方法的框架示意图。
本实施例提供的数据处理方法主要分为三部分,第一部分:在数据源进行词条以及语料数据的获取,第二部分:获取后对数据进行预处理,第三部分:基于预处理后的数据构建三个层次的闭环,以对目标系统的语义识别能力进行完善。
具体地,在数据源进行数据的获取时,可以从基础词库以及爬取词库中进行词条的获取,其中,基础词库为目标系统本地词库,爬取词库中的词条是基于目标系统相关的网页中爬取的,获取词条后,对数据进行清洗与排序,从而对系统的词典进行扩充,完成一级闭环的构建。
在数据源进行数据的获取时,可以以扩充后得到的词典为基础,同时基于用户例句、线上数据以及离线数据获取用户语料,具体地,线上数据、离线数据可以为用户点击搜索目标系统中的内容产生的线上日志或离线日志,对线上日志进行筛选、以及数据的标注,对离线日志先进行抓取和泛化,再进行数据的筛选和排序,并进行人工检查,以对二级闭环进行构建。需要说明的是,在构建时二级闭环时,可以构建规则闭环,也可以构建模型闭环,其中,规则闭环的构建先通过检测工具对用户语料进行去重筛选,再基于编写规则对筛选后的用户语料进行属性的标注,通过语法编辑确定各个用户语料的表达模式,并抽取没有被现有表达模式覆盖的高频表达模式,对现有的规则库进行扩充。模型闭环以经过属性标注的语料数据、以及规则闭环得到的表达模式为基础,进行模型的训练,在规则闭环和模型闭环构建完成后,进行回归测试以及发布上线。
此外,在数据源进行数据的获取时,还可以获取用户埋点数据,具体地,包括用户的自我修正数据、对系统的否定性评价、以及用户实际是否使用系统基于用户语料推送的内容,基于埋点数据构建问题自动反馈闭环,即三级闭环,并基于三级闭环对二级闭环进行修正。
通过本实施例,根据数据的获取和预处理,基于预处理的数据对系统的三个级别的闭环进行构建,从而得到对系统的语义识别功能进行完善,使得系统的语义识别功能进入良性迭代。
实施例3
根据本发明实施例,还提供了另一种数据处理方法,该方法包括:
从电视关联的数据源中获取更新的词条,以扩充电视的词库,其中,电视基于用户输入的语料执行操作行为,词库中的每个词条在视频播放领域中具有相应的属性。
具体地,在视频播放业务中,会不断的更新的电视剧、电影以及短视频等,为了便于用户语音或文字搜索新热视频,每日更新的新视频名是保障,在视频播放系统关联的数据源中获取更新的视频名,添加至视频播放系统的词库中。
基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与电视进行交互时产生的语料。
具体地,在识别语料的含义时,不仅需要识别词条的属性含义,还需要识别词条与词条的关系,例如,语料“我要看西游记”,确定语料的构造为“我+观看+视频名称”,“我”、“看”为基础词汇,不用标注其在视频领域的属性,“西游记”的属性可以为电视剧、动画片以及电影等,语义识别规则为“我要看+视频名称”,根据多条历史用户语料,进行规则的总结与抽取,获取有效的语义识别规则,以对用户输入的目标语料进行准确的语义识别。
在电视根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息。
需要说明的是,用户在目标系统输入目标语料,根据确定的语义识别规则识别出该目标语料在目标系统对应的领域中的含义,将含义转换为系统的执行命令,再基于执行命令执行目标操作行为,目标操作行为可能是用户所需要的预期行为,也可能是用户所不需要的,因而需要获取用户的反馈来评判对目标语料的语义识别结果。
基于反馈信息修正语义识别规则。
具体的,可以通过用户对目标操作行为的否定性评价来获取可疑错误结果,对该目标语料涉及的词条的属性以及语义识别规则进行错误标注,从而修正语义识别规则。还可以通过用户在得不到正确反馈时纠正目标语料的输入,来增加系统召回错误的语义识别规则的能力。还可以通过查看用户是否与目标操作行为进行交互,来评判语义识别的效果,在用户是未与目标操作行为进行交互,说明存在语义识别效果不佳的可能性,对该语义识别规则进行标注和监测,从而提升交互系统的准确性。
在本发明实施例中,采用构造语义识别规则的方式,通过扩充目标系统的词库并确定词条的属性,以用户语料的语句构造和词条的属性为基础确定语义识别规则,并基于用户对目标操作行为的反馈信息修正语义识别规则,达到了提高目标系统的语义识别能力的目的,从而实现了在用户与目标系统进行交互的过程中完善目标系统的语料含义识别功能的技术效果,进而解决了相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。
实施例4
根据本发明实施例,还提供了一种用于实施上述数据处理方法的装置,如图4所示,该装置包括:扩充单元41、确定单元42、获取单元43和修正单元44。
具体地,扩充单元41,用于从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性。
需要说明的是,用户可以输入语料与目标系统进行交互,具体地,用户输入语料后,目标系统基于自身的自然语言理解功能识别用户语料的含义,由用户语料的含义转化为控制指令,控制目标系统执行操作行为,在该过程中,语料中的词条的识别为用户语料的含义的识别起关键作用,而实际生活中业务内容更新快,会不断的出现新的词条,因而,需要及时更新目标系统的词库,使得目标系统得以准确快速的识别更多的用户语料,从而更高效地执行相应的操作行为,提高用户的交互体验。
例如,在视频播放业务中,会不断的更新的电视剧、电影以及短视频等,为了便于用户语音或文字搜索新热视频,每日更新的新视频名是保障,在视频播放系统关联的数据源中获取更新的视频名,添加至视频播放系统的词库中;在导航业务里,由于建筑物、道路以及桥梁等的新设与变动,场所名称,尤其是新店名、地名的及时更新,也会使用户借助导航系统进行出行的体验更好,基于导航系统关联的数据源获取更新的场所名,添加至导航系统的词库中;在音频播放领域,例如,在用户与音箱进行语音交互,以指示音箱播放音频时,新歌曲名的识别及理解对音频播放的准确性至关重要,因而,获取音频播放系统关联的数据源中更新的音频名,添加至音频播放系统的词库中。
此外,需要说明的是,相同的词条在不同的领域可能具有不同的属性含义,而词条在相应领域中的属性影响用户语料的含义的识别,例如,“小猪佩奇”在视频领域可以是动画片、视频短片的名称,而在电商领域,“小猪佩奇”可以是玩具、衣物等的搜索标签,因而,在将获取到的词条添加至目标系统的词库中后,需要确定其在相应领域中的属性。
确定单元42,用于基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料。
需要说明的是,用户与目标系统进行交互的过程中会产生语料,例如,用户在历史时间内对导航系统语音输入信息即为该导航系统的历史用户语料,用户在视频播放软件上的搜索记录即为该视频播放软件的历史用户语料。
在识别语料的含义时,不仅需要识别词条的属性含义,还需要识别词条与词条的关系,例如,语料“我要看西游记”,确定语料的构造为“我+观看+视频名称”,“我”、“看”为基础词汇,不用标注其在视频领域的属性,“西游记”的属性可以为电视剧、动画片以及电影等,语义识别规则为“我要看+视频名称”,根据多条历史用户语料,进行规则的总结与抽取,获取有效的语义识别规则,以对用户输入的目标语料进行准确的语义识别。
获取单元43,用于在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息。
需要说明的是,用户在目标系统输入目标语料,根据确定的语义识别规则识别出该目标语料在目标系统对应的领域中的含义,将含义转换为系统的执行命令,再基于执行命令执行目标操作行为,目标操作行为可能是用户所需要的预期行为,也可能是用户所不需要的,因而需要获取用户的反馈来评判对目标语料的语义识别结果。
修正单元44,用于基于反馈信息修正语义识别规则。
具体的,修正单元44可以通过用户对目标操作行为的否定性评价来获取可疑错误结果,对该目标语料涉及的词条的属性以及语义识别规则进行错误标注,从而修正语义识别规则。还可以通过用户在得不到正确反馈时纠正目标语料的输入,来增加系统召回错误的语义识别规则的能力。还可以通过查看用户是否与目标操作行为进行交互,来评判语义识别的效果,在用户是未与目标操作行为进行交互,说明存在语义识别效果不佳的可能性,对该语义识别规则进行标注和监测,从而提升交互系统的准确性。
此处需要说明的是,上述扩充单元41、确定单元42、获取单元43和修正单元44对应于实施例1中的步骤S21至步骤S24,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图5所示,确定单元42包括:第一确定模块421、第二确定模块422、第三确定模块423、第四确定模块424、第一添加模块425和第五确定模块426。
具体地,第一确定模块421,用于基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;
第二确定模块422,用于基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式;
第三确定模块423,用于分别确定多条历史用户语料中不同的表达模式出现的次数;
第四确定模块424,用于将出现次数大于预设次数的表达模式确定为第一模式;
第一添加模块425,用于在第一模式与模式库中已存在的表达模式不同的情况下,将第一模式添加到模式库中,得到更新后的模式库;
第五确定模块426,用于基于更新后的模式库确定语义识别规则。
例如,视频播放系统中的一条历史语料为"我要看小猪佩奇",“小猪佩奇”在视频领域的属性为“<video>”,用标签“<video>”对词条“小猪佩奇”进行标注,该条历史用户语料的表达模式为"我要看<video>",在多条历史用户语料中,统计表达模式“我要看<video>”出现的次数,若预设次数为300次,在表达模式“我要看<video>”出现的次数大于300次的情况下,说明该表达模式为高频表达模式,由于系统本身已存储了一些表达模式,为了对模式库中的表达模式进行扩充,需要选取高频表达模式中没有被模式库中已有的表达模式覆盖的表达模式,例如,若抽取出“<video>连续剧”属于高频,现有规则包括“我要看<video>”,“<video>电视剧”,不存在“<video>连续剧”,则将“<video>连续剧”添加至模式库中,模式库中的多个表达模式即构成语义识别规则,通过将目标语料的表达模式与模式库中的表达模式进行匹配,从而确定目标语料的表达含义。
通过本实施例,对历史用户语料作自动的表达模式的提取,抽取出没有被现有表达模式所覆盖的高频表达模式,并加入模式库中,从而为模式库中注入最新出现的高频表达模式,增加了语义识别规则的可适程度,提高了对新热语料的识别的准确度。
此处需要说明的是,上述第一确定模块421、第二确定模块422、第三确定模块423、第四确定模块424、第一添加模块425和第五确定模块426对应于实施例1中的步骤,六个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图6所示,确定单元4还包括:去重模块427。
具体地,去重模块427,用于在基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性之前,在多条历史用户语料中存在相同的用户语料的情况下,对相同的用户语料进行去重操作。
需要说明的是,从日志中获取的历史用户语料数量巨大,为了提高表达模式的提取效率,在表达模式的提取之前,可以先对历史用户语料进行过滤,例如,相同的用户语料,用户可能一次性重复输入多次,为了避免对相同的用户语料重复多次词条属性标签的识别以及表达模式的确定,可以对完全相同的用户语料进行去重操作,删除重复的用户语料,减少工作量,提高表达模式的抽取效率。
此处需要说明的是,上述去重模块427对应于实施例1中的步骤,该模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图7所示,确定单元42还包括:判断模块428和删除模块429。
具体地,判断模块428,用于在基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式之后,判断表达模式是否属于系统禁止的表达模式,其中,系统禁止的表达模式至少包括无法确定含义的表达模式;
删除模块429,用于在表达模式属于系统禁止的表达模式的情况下,删除表达模式。
需要说明的是,一些高频表达模式可能属于系统禁止的、无效的表达模式,例如,存在一些措辞不文明的表达模式,将其加入模式库有违公序良俗,一些无法确定语料的语义的、仅作为高频说法的表达模式,将其加入模式库,占用存储空间的同时,对识别目标用户语料的含义不起效用,为了防止将系统禁止的表达模式加入模式库,在添加到模式库之前,对高频用户语料进行测评与检查,删除系统禁止的表达模式。
此处需要说明的是,上述判断模块428和删除模块429对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图8所示,上述装置还包括:筛选单元81和添加单元82。
具体地,筛选单元81,用于在基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则之前,按照预设规则对多条历史用户语料进行筛选,其中,预设规则至少包括以下之一:是否为目标系统对语料的语义存疑的用户语料,是否为多条历史用户语料中表达方式首次出现的用户语料;
添加单元82,用于将满足预设规则的历史用户语料放入候选数据库中。
需要说明的是,在模型的训练前需要进行数据的标注,会耗费较大的人力,因而在将历史用户语料投送标注之前,对数据进行筛选,筛选出针对性的数据进行标注,例如,筛选出自然语言生成的过程中返回的不理解的历史用户语料,提高模型训练的针对性。再例如,相同表达模式的用户语料,只抽取一次,避免重复标注,例如“我要看西游记”、“我要看红楼梦”、“我要看水浒传”为相同表达模式的用户语料,只抽取一个进行标注,标注为“我要看<video>”,可至少节省一半以上的人力成本。再例如,存在一些可疑问题的日志,域名和intent值相同,但slot值不同的日志,将可疑问题日志中的用户语料筛选出来进行标注,在减少时间人力成本的情况下,使得模型训练更具有针对性。
此处需要说明的是,上述筛选单元81和添加单元82对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图9所示,确定单元42包括:第六确定模块4210、构建模块4211、训练模块4212和第七确定模块4213。
具体地,第六确定模块4210,用于确定候选数据库中,历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;
构建模块4211,用于基于完成词条的标签标注的历史用户语料构建训练数据集;
训练模块4212,用于基于训练数据集中的数据训练得到目标模型;
第七确定模块4213,用于基于目标模型确定语义识别规则。
需要说明的是,在获取多个历史用户语料的基础上,除了抽取没有被现有表达模式覆盖的高频表达模式来确定语义识别规则,还可以采用模型训练的方式进行语义识别规则的确定。具体的,对获取的历史用户语料中的词条进行属性的标注,将标注后的历史用户语料作为深度学习的训练数据集,通过组合低层历史用户语料的特征,进行表征的学习,形成更加抽象的高层的表示属性类别,以发现语言表达分布式特征表示,得到用于识别语义的目标模型,在语义识别时,将目标用户语料输入模型,根据模型的输出确定该目标用户语料的含义,以提高语义识别的效率和准确性。
此处需要说明的是,上述第六确定模块4210、构建模块4211、训练模块4212和第七确定模块4213对应于实施例1中的步骤,四个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,如图10所示,确定单元还包括:扩充模块4214和第二添加模块4215。
具体地,扩充模块4214,用于根据每条历史用户语料中词条的标签的类型进行词条的扩充,并基于该条历史用户语料的语句构造以及扩充得到的词条进行用户语料的扩充;
第二添加模块4215,用于将扩充后得到的用户语料添加至训练数据集中。
需要说明的是,为了增加训练的基础数据的数量,使得模型的训练更为充分,用户语料标注完成后,会根据标注的类型进行用户语料的扩充,具体的,将“我要看西游记”标注为“我要看<video>”,可以根据“<video>”的类型进行词条的扩充,扩充出“三国演义”、“红楼梦”等词条,并得到扩充的用户语料“我要看三国演义”、“我要看红楼梦”等用户语料,并将扩充后的用户语料加入训练,使得训练数据的增量翻倍,训练更加充分。
此处需要说明的是,上述扩充模块4214和第二添加模块4215对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
根据本申请上述实施例,其中:至少基于以下之一的反馈信息修正语义识别规则:用户对目标操作行为的否定性评价,用户纠正目标语料的输入,用户未与目标操作行为进行交互。
例如,在用户对音频播放工具语音输入“我要听A歌曲”,而音频播放工具播放了B歌曲,用户说“真傻,这都听错了”、“笨死了”,通过观察日志发现用户对系统的否认行为。
再例如,用户对视频播放系统说“我要看温暖的鞋”,展示的视频中无正确反馈,用户又修正为“我要看温暖的弦”,用户对导航系统说“找寻个加油地儿”,无正确反馈,修正为“寻找个加油站”,统计此类用户的自我修正行为,也即,统计用户在得不到系统正确反馈时,修正自己的发音或者表述,来获取正确的系统反馈的行为。
再例如,还可以通过用户的实际使用行为来进行语义识别规则的修正,具体地,是指用户在得到系统的响应后,是否有在真正使用系统返回的结果,例如,在视频播放系统中,系统给出播放视频的命令开始播放视频后,用户是否真正观看;在音频播放系统中,系统播放音乐后,用户是否真正收听;在导航系统中,系统给出搜索结果后,用户是否有选择,又是否进行路线规划及导航行为,系统给出导航结果后,用户是否真正使用导航结果,具体的,可以根据实际导航时长占本次导航总时长的比例来确定是否真正使用导航结果。
根据本申请上述实施例,如图11所示,获取单元43包括:获取模块431和第三添加模块432。
具体地,获取模块431,用于至少从以下之一的数据源获取更新的词条:目标系统对应的搜索日志,目标系统的相关网页中的数据;
第三添加模块432,用于将获取到的词条添加到目标系统的词库中,并为词库中的每个词条匹配相应的属性。
需要说明的是,目标系统对应的词库中的词条,来源于系统本地的日志中的词条,以及更新的词条,更新的词条从目标系统关联的数据源中获取,具体的,目标系统关联的数据源可以为在目标系统的相关垂类搜索日志,例如,对于视频播放系统,在搜索界面搜索视频、在视频展示界面点击视频产生的日志,对于音频播放系统,在搜索界面搜索音频、在音频展示界面点击音频产生的日志,对于导航系统,在导航界面搜索点击地点产生的日志。此外,也可以为从目标系统相关的网页上爬取的数据,例如,对于视频播放系统,可以从该视频播放系统以外的网页上爬取词条,例如,网站的首页通常会显示所属领域最新的词条,可以从其他的视频网站的首页中爬取词条,添加至该视频播放系统的词库中。对于音频播放系统,可以从该音频播放系统以外的音频网站的网页上爬取词条,添加至该音频播放系统的词库中。
此外,由于数据源来源多,噪音大,需要依据多种词频对词条数据进行清洗,例如,在视频领域,对于出现频率过高的词汇“你好”、“视频”等基础词汇进行清洗,不再加入系统词库,对于搜索词条、以及点击词条,设置相应的词频进行词条的清洗,具体地,对于搜索点击量过小的词频,将其加入词库对后续的语义识别的效用不大,反而会增加词汇属性标注的工作量,对这些词条进行清洗,不再加入系统词库。进一步地,对加入词库的词条进行回归测试,以确认没有对系统引入新的错误或导致其他错误的产生,本身不确定或者测试不通过的部分再让人工参与检查,从而完成词库的扩充。
此处需要说明的是,上述获取模块431和第三添加模块432对应于实施例1中的步骤,两个模块与对应的步骤所实现的实例和应用场景相同,但不限于上述实施例一所公开的内容。需要说明的是,上述模块作为装置的一部分可以运行在实施例一提供的计算机终端10中。
实施例5
本发明的实施例可以提供一种计算机终端,该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本实施例中,上述计算机终端也可以替换为移动终端等终端设备。
可选地,在本实施例中,上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
在本实施例中,上述计算机终端可以执行应用程序的数据处理方法中以下步骤的程序代码:从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料;在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
在本实施例中,上述计算机终端还可以执行应用程序的数据处理方法中以下步骤的程序代码:从电视关联的数据源中获取更新的词条,以扩充电视的词库,其中,电视基于用户输入的语料执行操作行为,词库中的每个词条在视频播放领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与电视进行交互时产生的语料;在电视根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
可选地,图12是根据本发明实施例的一种计算机终端的结构框图。如图12所示,该计算机终端A可以包括:一个或多个(图中仅示出一个)处理器、存储器。
其中,存储器可用于存储软件程序以及模块,如本发明实施例中的数据处理方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
处理器可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料;在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
可选的,上述处理器还可以执行如下步骤的程序代码:基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式;分别确定多条历史用户语料中不同的表达模式出现的次数;将出现次数大于预设次数的表达模式确定为第一模式;在第一模式与模式库中已存在的表达模式不同的情况下,将第一模式添加到模式库中,得到更新后的模式库;基于更新后的模式库确定语义识别规则。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性之前,在多条历史用户语料中存在相同的用户语料的情况下,对相同的用户语料进行去重操作。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式之后,判断表达模式是否属于系统禁止的表达模式,其中,系统禁止的表达模式至少包括无法确定含义的表达模式;在表达模式属于系统禁止的表达模式的情况下,删除表达模式。
可选的,上述处理器还可以执行如下步骤的程序代码:在基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则之前,按照预设规则对多条历史用户语料进行筛选,其中,预设规则至少包括以下之一:是否为目标系统对语料的语义存疑的用户语料,是否为多条历史用户语料中表达方式首次出现的用户语料;将满足预设规则的历史用户语料放入候选数据库中。
可选的,上述处理器还可以执行如下步骤的程序代码:基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:确定候选数据库中,历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于完成词条的标签标注的历史用户语料构建训练数据集;基于训练数据集中的数据训练得到目标模型;基于目标模型确定语义识别规则。
可选的,上述处理器还可以执行如下步骤的程序代码:根据每条历史用户语料中词条的标签的类型进行词条的扩充,并基于该条历史用户语料的语句构造以及扩充得到的词条进行用户语料的扩充;将扩充后得到的用户语料添加至训练数据集中。
可选的,上述处理器还可以执行如下步骤的程序代码:至少基于以下之一的反馈信息修正语义识别规则:用户对目标操作行为的否定性评价,用户纠正目标语料的输入,用户未与目标操作行为进行交互。
可选的,上述处理器还可以执行如下步骤的程序代码:至少从以下之一的数据源获取更新的词条:目标系统对应的搜索日志,目标系统的相关网页中的数据;将获取到的词条添加到目标系统的词库中,并为词库中的每个词条匹配相应的属性。采用本发明实施例,采用构造语义识别规则的方式,通过扩充目标系统的词库并确定词条的属性,以用户语料的语句构造和词条的属性为基础确定语义识别规则,并基于用户对目标操作行为的反馈信息修正语义识别规则,达到了提高目标系统的语义识别能力的目的,从而实现了在用户与目标系统进行交互的过程中完善目标系统的语料含义识别功能的技术效果,进而解决了相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。
处理器还可以通过传输装置调用存储器存储的信息及应用程序,以执行下述步骤:从电视关联的数据源中获取更新的词条,以扩充电视的词库,其中,电视基于用户输入的语料执行操作行为,词库中的每个词条在视频播放领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与电视进行交互时产生的语料;在电视根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
采用本发明实施例,采用构造语义识别规则的方式,通过扩充目标系统的词库并确定词条的属性,以用户语料的语句构造和词条的属性为基础确定语义识别规则,并基于用户对目标操作行为的反馈信息修正语义识别规则,达到了提高目标系统的语义识别能力的目的,从而实现了在用户与目标系统进行交互的过程中完善目标系统的语料含义识别功能的技术效果,进而解决了相关技术中难以基于用户与目标系统进行交互的过程中产生的用户数据完善目标系统的语料含义识别功能的技术问题。
本领域普通技术人员可以理解,图12所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图12其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图12中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图12所示不同的配置。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(RandomAccess Memory,RAM)、磁盘或光盘等。
实施例6
本发明的实施例还提供了一种存储介质。可选地,在本实施例中,上述存储介质可以用于保存上述实施例一所提供的数据处理方法所执行的程序代码。
可选地,在本实施例中,上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中,或者位于移动终端群中的任意一个移动终端中。
可选地,在本实施例中,存储介质被设置为存储用于执行以下步骤的程序代码:从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库,其中,目标系统基于用户输入的语料执行操作行为,词库中的每个词条在目标系统对应的领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与目标系统进行交互时产生的语料;在目标系统根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式;分别确定多条历史用户语料中不同的表达模式出现的次数;将出现次数大于预设次数的表达模式确定为第一模式;在第一模式与模式库中已存在的表达模式不同的情况下,将第一模式添加到模式库中,得到更新后的模式库;基于更新后的模式库确定语义识别规则。
在基于词库确定历史用户语料中的词条在目标系统对应的领域中的属性之前,在多条历史用户语料中存在相同的用户语料的情况下,对相同的用户语料进行去重操作。
在基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式之后,判断表达模式是否属于系统禁止的表达模式,其中,系统禁止的表达模式至少包括无法确定含义的表达模式;在表达模式属于系统禁止的表达模式的情况下,删除表达模式。
在基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则之前,按照预设规则对多条历史用户语料进行筛选,其中,预设规则至少包括以下之一:是否为目标系统对语料的语义存疑的用户语料,是否为多条历史用户语料中表达方式首次出现的用户语料;将满足预设规则的历史用户语料放入候选数据库中。
基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:确定候选数据库中,历史用户语料中的词条在目标系统对应的领域中的属性,并采用标签的形式对历史用户语料中的词条进行属性的标注;基于完成词条的标签标注的历史用户语料构建训练数据集;基于训练数据集中的数据训练得到目标模型;基于目标模型确定语义识别规则。
根据每条历史用户语料中词条的标签的类型进行词条的扩充,并基于该条历史用户语料的语句构造以及扩充得到的词条进行用户语料的扩充;将扩充后得到的用户语料添加至训练数据集中。
至少基于以下之一的反馈信息修正语义识别规则:用户对目标操作行为的否定性评价,用户纠正目标语料的输入,用户未与目标操作行为进行交互。
从目标系统关联的数据源中获取更新的词条,以扩充目标系统的词库包括:至少从以下之一的数据源获取更新的词条:目标系统对应的搜索日志,目标系统的相关网页中的数据;将获取到的词条添加到目标系统的词库中,并为词库中的每个词条匹配相应的属性。
可选地,在本实施例中,存储介质还被设置为存储用于执行以下步骤的程序代码:从电视关联的数据源中获取更新的词条,以扩充电视的词库,其中,电视基于用户输入的语料执行操作行为,词库中的每个词条在视频播放领域中具有相应的属性;基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,历史用户语料包括用户与电视进行交互时产生的语料;在电视根据语义识别规则确定用户输入的目标语料的含义,并基于目标语料的含义执行目标操作行为后,获取用户对目标操作行为的反馈信息;基于反馈信息修正语义识别规则。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (12)

1.一种数据处理方法,其中,包括:
从目标系统关联的数据源中获取更新的词条,以扩充所述目标系统的词库,其中,所述目标系统基于用户输入的语料执行操作行为,所述词库中的每个词条在所述目标系统对应的领域中具有相应的属性;
基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,所述历史用户语料包括用户与所述目标系统进行交互时产生的语料;
在所述目标系统根据所述语义识别规则确定用户输入的目标语料的含义,并基于所述目标语料的含义执行目标操作行为后,获取用户对所述目标操作行为的反馈信息;
基于所述反馈信息修正所述语义识别规则。
2.根据权利要求1所述的方法,其中,基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:
基于所述词库确定所述历史用户语料中的词条在所述目标系统对应的领域中的属性,并采用标签的形式对所述历史用户语料中的词条进行属性的标注;
基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式;
分别确定所述多条历史用户语料中不同的表达模式出现的次数;
将出现次数大于预设次数的表达模式确定为第一模式;
在所述第一模式与模式库中已存在的表达模式不同的情况下,将所述第一模式添加到所述模式库中,得到更新后的模式库;
基于所述更新后的模式库确定所述语义识别规则。
3.根据权利要求2所述的方法,其中,所述方法还包括:
在基于所述词库确定所述历史用户语料中的词条在所述目标系统对应的领域中的属性之前,在所述多条历史用户语料中存在相同的用户语料的情况下,对相同的用户语料进行去重操作。
4.根据权利要求2所述的方法,其中,所述方法还包括:
在基于一条历史用户语料的语句构造和词条的标签,确定该条历史用户语料的表达模式之后,判断所述表达模式是否属于系统禁止的表达模式,其中,所述系统禁止的表达模式至少包括无法确定含义的表达模式;
在所述表达模式属于系统禁止的表达模式的情况下,删除所述表达模式。
5.根据权利要求1所述的方法,其中,所述方法还包括:
在基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则之前,按照预设规则对所述多条历史用户语料进行筛选,其中,所述预设规则至少包括以下之一:是否为所述目标系统对语料的语义存疑的用户语料,是否为所述多条历史用户语料中表达方式首次出现的用户语料;
将满足所述预设规则的历史用户语料放入候选数据库中。
6.根据权利要求5所述的方法,其中,基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则包括:
确定所述候选数据库中,所述历史用户语料中的词条在所述目标系统对应的领域中的属性,并采用标签的形式对所述历史用户语料中的词条进行属性的标注;
基于完成词条的标签标注的所述历史用户语料构建训练数据集;
基于所述训练数据集中的数据训练得到目标模型;
基于所述目标模型确定所述语义识别规则。
7.根据权利要求6所述的方法,其中,所述方法还包括:
根据每条历史用户语料中词条的标签的类型进行词条的扩充,并基于该条历史用户语料的语句构造以及扩充得到的词条进行用户语料的扩充;
将扩充后得到的用户语料添加至所述训练数据集中。
8.根据权利要求1所述的方法,其中:
至少基于以下之一的所述反馈信息修正所述语义识别规则:用户对所述目标操作行为的否定性评价,用户纠正所述目标语料的输入,用户未与所述目标操作行为进行交互。
9.根据权利要求1所述的方法,其中,从目标系统关联的数据源中获取更新的词条,以扩充所述目标系统的词库包括:
至少从以下之一的数据源获取更新的词条:所述目标系统对应的搜索日志,所述目标系统的相关网页中的数据;
将获取到的词条添加到所述目标系统的词库中,并为所述词库中的每个词条匹配相应的属性。
10.一种数据处理方法,其中,包括:
从电视关联的数据源中获取更新的词条,以扩充所述电视的词库,其中,所述电视基于用户输入的语料执行操作行为,所述词库中的每个词条在视频播放领域中具有相应的属性;
基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,所述历史用户语料包括用户与所述电视进行交互时产生的语料;
在所述电视根据所述语义识别规则确定用户输入的目标语料的含义,并基于所述目标语料的含义执行目标操作行为后,获取用户对所述目标操作行为的反馈信息;
基于所述反馈信息修正所述语义识别规则。
11.一种数据处理装置,其中,包括:
扩充单元,用于从目标系统关联的数据源中获取更新的词条,以扩充所述目标系统的词库,其中,所述目标系统基于用户输入的语料执行操作行为,所述词库中的每个词条在所述目标系统对应的领域中具有相应的属性;
确定单元,用于基于多条历史用户语料中,每条历史用户语料的语句构造和词条的属性,确定语义识别规则,其中,所述历史用户语料包括用户与所述目标系统进行交互时产生的语料;
获取单元,用于在所述目标系统根据所述语义识别规则确定用户输入的目标语料的含义,并基于所述目标语料的含义执行目标操作行为后,获取用户对所述目标操作行为的反馈信息;
修正单元,用于基于所述反馈信息修正所述语义识别规则。
12.一种处理器,其中,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至10中任意一项所述的数据处理方法。
CN201910394645.0A 2019-05-13 2019-05-13 数据处理方法及装置 Pending CN112016329A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910394645.0A CN112016329A (zh) 2019-05-13 2019-05-13 数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910394645.0A CN112016329A (zh) 2019-05-13 2019-05-13 数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN112016329A true CN112016329A (zh) 2020-12-01

Family

ID=73500345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910394645.0A Pending CN112016329A (zh) 2019-05-13 2019-05-13 数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN112016329A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
US8180758B1 (en) * 2008-05-09 2012-05-15 Amazon Technologies, Inc. Data management system utilizing predicate logic
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106571140A (zh) * 2016-11-14 2017-04-19 Tcl集团股份有限公司 一种基于语音语义的电器智能控制方法及系统
CN106778927A (zh) * 2016-12-30 2017-05-31 深圳Tcl新技术有限公司 更新电视语义识别词库方法及装置
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解系统与方法
CN109213910A (zh) * 2018-09-12 2019-01-15 杭州数梦工场科技有限公司 一种政务智能客服服务方法、系统、电子设备和存储介质
CN109215641A (zh) * 2017-07-03 2019-01-15 九阳股份有限公司 基于云的家电语音控制方法及系统
CN109241533A (zh) * 2018-09-06 2019-01-18 科大国创软件股份有限公司 一种基于自然语言处理的语意理解系统及方法
CN109710914A (zh) * 2017-10-26 2019-05-03 饶竹一 基于业务模型的语义训练系统及其方法
CN109712613A (zh) * 2018-12-27 2019-05-03 北京百佑科技有限公司 语义分析库更新方法、装置及电子设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101013421A (zh) * 2007-02-02 2007-08-08 清华大学 基于规则的汉语基本块自动分析方法
US8180758B1 (en) * 2008-05-09 2012-05-15 Amazon Technologies, Inc. Data management system utilizing predicate logic
CN105677637A (zh) * 2015-12-31 2016-06-15 上海智臻智能网络科技股份有限公司 智能问答系统中抽象语义库的更新方法及更新装置
CN106571140A (zh) * 2016-11-14 2017-04-19 Tcl集团股份有限公司 一种基于语音语义的电器智能控制方法及系统
CN106778927A (zh) * 2016-12-30 2017-05-31 深圳Tcl新技术有限公司 更新电视语义识别词库方法及装置
CN107015969A (zh) * 2017-05-19 2017-08-04 四川长虹电器股份有限公司 可自我更新的语义理解系统与方法
CN109215641A (zh) * 2017-07-03 2019-01-15 九阳股份有限公司 基于云的家电语音控制方法及系统
CN109710914A (zh) * 2017-10-26 2019-05-03 饶竹一 基于业务模型的语义训练系统及其方法
CN109241533A (zh) * 2018-09-06 2019-01-18 科大国创软件股份有限公司 一种基于自然语言处理的语意理解系统及方法
CN109213910A (zh) * 2018-09-12 2019-01-15 杭州数梦工场科技有限公司 一种政务智能客服服务方法、系统、电子设备和存储介质
CN109712613A (zh) * 2018-12-27 2019-05-03 北京百佑科技有限公司 语义分析库更新方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZUXUAN WU ET AL.: "Exploring Inter-feature and Inter-class Relationships with Deep Neural Networks for Video Classification", 《MM \'14: PROCEEDINGS OF THE 22ND ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA》, 30 November 2014 (2014-11-30) *
罗容: "基于自然语言识别的自动答疑机", 青岛建筑工程学院学报, no. 02, 30 June 2001 (2001-06-30) *

Similar Documents

Publication Publication Date Title
US20180349355A1 (en) Artificial Intelligence Based Method and Apparatus for Constructing Comment Graph
CN106570180B (zh) 基于人工智能的语音搜索方法及装置
CN109726274B (zh) 问题生成方法、装置及存储介质
CN110765247B (zh) 一种用于问答机器人的输入提示方法及装置
WO2020197630A1 (en) Interactive dialog training and communication system using artificial intelligence (ai)
CN109947902B (zh) 一种数据查询方法、装置和可读介质
CN108932218B (zh) 一种实例扩展方法、装置、设备和介质
US10740406B2 (en) Matching of an input document to documents in a document collection
US20220019739A1 (en) Item Recall Method and System, Electronic Device and Readable Storage Medium
KR20210106372A (ko) 새로운 카테고리 라벨의 마이닝 방법 및 장치, 전자 기기 및 컴퓨터 판독 가능 매체 및 컴퓨터 프로그램 제품
CN104978314A (zh) 媒体内容推荐方法及装置
US20220414463A1 (en) Automated troubleshooter
CN110750975B (zh) 介绍文本生成方法及装置
CN111553138B (zh) 用于规范内容结构文档的辅助写作方法及装置
KR20200014047A (ko) 시맨틱 트리플 기반의 지식 확장 시스템, 방법 및 컴퓨터 프로그램
CN112579466A (zh) 测试用例的生成方法、装置及计算机可读存储介质
CN116974554A (zh) 代码数据处理方法、装置、计算机设备和存储介质
CN112579729A (zh) 文档质量评价模型的训练方法、装置、电子设备和介质
CN112883182A (zh) 一种基于机器阅读的问答匹配方法及装置
CN111488510A (zh) 小程序相关词的确定方法、装置、处理设备及搜索系统
CN113434631A (zh) 基于事件的情感分析方法、装置、计算机设备及存储介质
CN116185853A (zh) 代码校验方法及装置
CN112016329A (zh) 数据处理方法及装置
CN104102739B (zh) 一种扩充实体库的方法及装置
Bansal et al. Literature review of finding duplicate bugs in open source systems

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination