CN109922371B - 自然语言处理方法、设备及存储介质 - Google Patents

自然语言处理方法、设备及存储介质 Download PDF

Info

Publication number
CN109922371B
CN109922371B CN201910180348.6A CN201910180348A CN109922371B CN 109922371 B CN109922371 B CN 109922371B CN 201910180348 A CN201910180348 A CN 201910180348A CN 109922371 B CN109922371 B CN 109922371B
Authority
CN
China
Prior art keywords
error correction
result
target
error detection
correction result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910180348.6A
Other languages
English (en)
Other versions
CN109922371A (zh
Inventor
邵星阳
杨善松
成刚
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hisense Visual Technology Co Ltd
Original Assignee
Hisense Visual Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hisense Visual Technology Co Ltd filed Critical Hisense Visual Technology Co Ltd
Priority to CN201910180348.6A priority Critical patent/CN109922371B/zh
Publication of CN109922371A publication Critical patent/CN109922371A/zh
Application granted granted Critical
Publication of CN109922371B publication Critical patent/CN109922371B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明实施例提供一种自然语言处理方法、设备及存储介质,该方法包括:获取目标识别结果,该目标识别结果为通过识别用户语音得到的文本信息,用户语音用于查询用户需求;若确定识别结果不为影视名称,则通过预设纠错方法对识别结果进行纠错,得到纠错结果;若通过检错模型判断纠错结果是正确纠错结果,则通过统计分类将纠错结果分配到相应领域,定位相应业务;或者,若通过检错模型判断目标纠错结果是错误纠错结果,则通过统计分类将目标识别结果分配到相应领域,定位相应业务,其中检错模型是预先训练得到的机器学习二分类模型。在得到纠错结果之后,通过检错模型判断纠错结果的合理性,从而提升语义理解的准确度,改善用户体验。

Description

自然语言处理方法、设备及存储介质
技术领域
本发明实施例涉及自然语言处理技术,尤其涉及一种自然语言处理方法、设备及存储介质。
背景技术
随着语音识别技术及智能家居的不断发展,语音识别技术被广泛应用于智能家居。具体地,用户可通过语音控制实现智能家居。例如,用户可在智能电视上通过语音查询点播内容;对应地,智能电视对该语音进行识别、纠错、推荐点播内容等处理。实际应用中,考虑到用户可能记错、记不清想要查询的需求,或用户不能通顺表达、方言等原因,不能正确表达出想要查询的需求,因此,在语音识别之后,还要对识别结果进行纠错,以将不能正确表达的需求进行纠正,使得电视产品更加智能。
一种应对方法是:对包含有业务关键词的识别结果,即只要识别结果中包含业务关键词,例如,游戏,电影,诗等,都不进行纠错,直接通过统计分类将识别结果分配到相应领域,定位相应业务;若识别结果中不包含业务关键词,则对其进行纠错,并通过统计分类将纠错结果分配到相应领域,定位相应业务。其中,领域可以包括视频,音乐,教育,美食,游戏,票务,应用,天气,疾病,新闻,体育等。
然而,发明人分析智能电视的用户日志(logo)数据发现:上述技术虽能一定程度上改善语音识别的准确度,但还存在误纠的问题,即对不该纠正的识别结果进行了纠正,导致最后推荐的点播内容不符合用户预期。
发明内容
本发明实施例提供一种自然语言处理方法、设备及存储介质,以克服相关纠错方法存在的对识别结果进行误纠的问题,提升语义理解的准确度,改善用户体验。
第一方面,本发明实施例提供一种自然语言处理方法,包括:
获取目标识别结果,所述目标识别结果为通过识别用户语音得到的文本信息,所述用户语音用于查询用户需求;
若确定所述目标识别结果不为影视名称,则通过预设纠错方法对所述目标识别结果进行纠错,得到目标纠错结果;
若通过检错模型判断所述目标纠错结果是正确纠错结果,则通过统计分类将所述目标纠错结果分配到相应领域,定位相应业务,所述检错模型是预先训练得到的机器学习二分类模型;
或者,若通过所述检错模型判断所述目标纠错结果是错误纠错结果,则通过统计分类将所述目标识别结果分配到相应领域,定位相应业务。
在一种可能的实施方式中,所述方法还包括:
若确定所述目标识别结果为影视名称,则将所述目标识别结果分配到视频领域,定位视频业务。
第二方面,本发明实施例提供一种自然语言处理装置,包括:
获取模块,用于获取目标识别结果,所述目标识别结果为通过识别用户语音得到的文本信息,所述用户语音用于查询用户需求;
判断模块,用于确定所述目标识别结果是否为影视名称;
纠错模块,用于在所述判断模块确定所述目标识别结果不为影视名称时,通过预设纠错方法对所述目标识别结果进行纠错,得到目标纠错结果;
检错模块,用于在通过检错模型判断所述目标纠错结果是否为正确纠错结果;
统计分类模块,用于在所述检错模块确定所述目标纠错结果为正确纠错结果时,通过统计分类将所述目标纠错结果分配到相应领域,定位相应业务,或者,在所述检错模块确定所述目标纠错结果是错误纠错结果时,通过统计分类将所述目标识别结果分配到相应领域,定位相应业务,其中所述检错模型是预先训练得到的机器学习二分类模型。
在一种可能的实施方式中,所述统计分类模块,还用于在所述判断模块确定所述目标识别结果为影视名称时,将所述目标识别结果分配到视频领域,定位视频业务。
在上述第一方面和第二方面中任一可能的实施方式的基础上:
在一种可能的实施方式中,所述检错模型中特征是根据用户日志数据确定的,所述用户日志数据包括正确纠错数据和错误纠错数据,正确纠错数据包括识别结果和其对应的正确纠错结果,错误纠错数据包括识别结果和其对应的错误纠错结果。
在一种可能的实施方式中,所述检错模型中的特征,可以包括:
语言模型得分的比较结果,用于比较识别结果对应的语言模型得分和根据该识别结果得到的纠错结果对应的语言模型得分的结果;
通过依存句法分析判断是否为合理句法结构;
识别结果是否为搜索热词;
纠错结果是否为搜索热词;
识别结果经过字顺序调换是否能成为正常的影视名称;
等等。
在一种可能的实施方式中,所述语言模型是基于字的n-gram语言模型。
在一种可能的实施方式中,所述检错模型可以具体为SVM模型,但本发明实施例不以此为限,也就是说,检错模型还可以是其他机器学习分类模型。
第三方面,本发明实施例提供一种电子设备,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如第一方面中任一项所述的自然语言处理方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面中任一项所述的自然语言处理方法。
本发明实施例提供的自然语言处理方法、设备及存储介质,获取目标识别结果,该目标识别结果为通过识别用户语音得到的文本信息,用户语音用于查询用户需求;若确定目标识别结果不为影视名称,则通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果;若通过检错模型判断目标纠错结果是正确纠错结果,则通过统计分类将目标纠错结果分配到相应领域,定位相应业务;或者,若通过检错模型判断目标纠错结果是错误纠错结果,则通过统计分类将目标识别结果分配到相应领域,定位相应业务,其中检错模型是预先训练得到的机器学习二分类模型。本发明实施例在得到目标纠错结果之后,进一步地通过检错模型判断目标纠错结果的合理性,从而提升语义理解的准确度,改善用户体验。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的自然语言处理方法的流程示意图;
图2为本发明实施例提供的检错模型的输入输出示意图;
图3A为本发明另一实施例提供的自然语言处理方法的流程示意图;
图3B为本发明一实施例提供的加入检错模型的语义引擎流程图;
图4为SVM分类原理示意图;
图5为依存句法分析示意图;
图6为本发明一实施例提供的SVM的设计流程示意图;
图7为本发明一实施例提供的自然语言处理装置的结构示意图;
图8为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
本发明实施例的说明书、权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
和/或,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
其中,“/”表示或的逻辑关系。
发明人分析智能电视的用户日志(logo)数据发现:线上语义引擎对不该纠正的识别结果很容易误纠。例如,参考表1,其示例性地示出用户日志数据包含的正确纠错数据和错误纠错数据。其中,正确纠错数据包括识别结果和其对应的正确纠错结果,错误纠错数据包括识别结果和其对应的错误纠错结果。
表1 对识别结果进行正确纠错和错误纠错的实例
Figure BDA0001990994710000051
从表1中可以看到,纠错方法将本是合理的识别结果,例如,“最后一集”、“武林外传二”、“爱情电影”和“小崔说事儿”,分别误纠为“最后一击”、“武林外传”、“爱情电波”和“小明说事儿”。这种误纠影响严重,因为它把教育、游戏等意图的识别结果误纠为了视频意图,影响后续业务定位,比如:
“妈妈的诗”→“妈妈的手”,将教育领域的诗歌搜索意图“妈妈的诗”误纠为了影视名“妈妈的手”;
“明珠传奇”→“灵珠传奇”,将游戏领域的游戏名“明珠传奇”误纠为了影视名“灵珠传奇”。
因此,为防止误纠,在对识别结果进行纠错后,需判断纠错结果是否合理。基于这个需求,对纠错结果进行检错。其中,检错,又可以称为侦错、查错、错误识别(errordetection),可用于判断识别结果应不应该纠正,判断纠错结果是否为正确纠错结果。目前,与检错相关的研究较少,包括:
1)利用最大熵分类进行错误识别。然而,最大熵分类模型由于与约束函数数量和样本数目有关,导致迭代过程计算量巨大,实际应用较难。
2)基于字符级别的词向量进行查错。即给定待纠错的句子,对句子中每个字符进行判定,看给定上下文时该字符的条件概率是否超过一定阈值,如果没有超过,则判定有错。然而,对于智能电视语音查询来说,用户语音对应的识别结果只是一个简短的语句,没有该语句的上下文可以利用,所以,这类方法不能很好的应用于语音检错中。
3)使用双向字符级n-gram语言模型(Language Model,简称:LM)对句子里的字符打分,得分低的地方视为待纠错位置。将待纠错位置与上下文组合进行词典查词,当所有组合在词典中都查找不到,则将其视为错字。然而,并非全部用户语音对应的识别结果都为合理的语言结构,比如识别结果“武林外传二”,“美人鱼二”,这类识别结果的语言模型得分较低。此外,语言模型的阈值本身也是难以设定的。
上述相关技术都采用简单、单一的检错方法在纠错前对是否应该纠正进行判断。
与上述相关技术不同,本发明实施例应用自然语言处理和机器学习领域的相关知识,设计的检错模型是在纠错后对纠错结果的合理性进行判断。具体地,基于机器学习方法构造检错模型,将纠错结果的正确性判断转化为二分类问题:正确纠错结果和错误纠错结果,基于自然语言处理知识设计检错模型的特征,以很大程度上避免对目标识别结果的误纠,提高语义理解的准确率。
图1为本发明实施例提供的自然语言处理方法的流程示意图。本实施例提供一种自然语言处理方法,该方法可以由自然语言处理装置执行。该自然语言处理装置可以通过软件和/或硬件的方式实现。示例性地,该自然语言处理装置具体可以为智能电视等电子设备;或者,该自然语言处理装置可以集成于上述电子设备。本发明实施例以电子设备为执行主体进行示例说明。
如图1所示,该自然语言处理方法包括:
S101、电子设备获取目标识别结果。
其中,该目标识别结果为电子设备通过识别用户语音得到的文本信息,用户语音用于查询用户需求。
以智能电视为例,户可通过用户语音进行用户需求(例如电视节目等)的查询。其中,用户需求可涉及各个领域,例如,视频,教育,美食,票务,应用,游戏,天气,疾病,新闻,体育,等等。对应地,智能电视接收该用户语音,并对其进行识别,得到该用户语音对应的目标识别结果。为本领域技术人员所理解,目标识别结果即当前处理的用户语音对应的识别结果,为与其他用户语音对应的识别结果进行区分,特将其命名为目标识别结果,实质上,目标识别结果与识别结果相同,都是根据某一具体用户语音进行语音识别的结果。
对于识别用户语音所采用的语音识别技术,可参考相关技术,本发明实施例不对其进行限制。
在获取目标识别结果之后,电子设备首先确定该目标识别结果是否为影视名称。其中,影视名称包括但不限于电影名、电视剧名、短视频名,等等。
S102、若确定目标识别结果不为影视名称,则电子设备通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果。
具体地,预设纠错方法用于对目标识别结果进行纠错。例如,目标识别结果为“小马宝”,通过预设纠错方法对其进行纠错,得到“小马宝莉”;又例如,目标识别结果为“爱情电影”,通过预设纠错方法对其进行纠错,得到“爱情电波”,等等。其中,对于预设纠错方法的具体实现可参考现有技术中存在的相关纠错方法,此处不再赘述。
在得到目标纠错结果之后,进一步地,电子设备通过检错模型判断目标纠错结果是否为正确纠错结果。可以理解,若目标纠错结果不为正确纠错结果,也就是说,目标纠错结果为错误纠错结果。
其中,检错模型是预先训练得到的机器学习二分类模型。具体地,对大量训练数据进行机器学习,得到检错模型。其中,训练数据可以来源于用户日志数据,也即,对用户日志数据进行处理,得到训练检错模型的训练数据。
检错模型的输入为目标纠错结果对应的特征向量,检错模型的输出为正确纠错结果或错误纠错结果,如图2所示。其中,特征向量中涉及的特征,也就是,检错模型的特征,可以是根据用户日志数据确定的。
S103、若通过检错模型判断目标纠错结果是正确纠错结果,则电子设备通过统计分类将目标纠错结果分配到相应领域,定位相应业务。
该步骤中,若检错模型的输出为正确纠错结果,说明目标纠错结果是合理的,则电子设备通过统计分类将目标纠错结果分配到相应领域,定位相应业务。
S104、若通过检错模型判断目标纠错结果是错误纠错结果,则电子设备通过统计分类将目标识别结果分配到相应领域,定位相应业务。
该步骤中,若检错模型的输出为错误纠错结果,说明目标纠错结果是不合理的,则电子设备通过统计分类将目标识别结果分配到相应领域,定位相应业务。
本发明实施例中,电子设备,例如智能电视,获取目标识别结果,该目标识别结果为通过识别用户语音得到的文本信息,用户语音用于查询用户需求;若确定目标识别结果不为影视名称,则通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果;若通过检错模型判断目标纠错结果是正确纠错结果,则通过统计分类将目标纠错结果分配到相应领域,定位相应业务;或者,若通过检错模型判断目标纠错结果是错误纠错结果,则通过统计分类将目标识别结果分配到相应领域,定位相应业务,其中检错模型是预先训练得到的机器学习二分类模型。本发明实施例在得到目标纠错结果之后,进一步地通过检错模型判断目标纠错结果的合理性,从而提升语义理解的准确度,改善用户体验。
在上述实施例的基础上,对包含判断操作的流程进行补充,可得到如图3A所示的实施例,该实施例可以包括以下步骤:
S301、电子设备获取目标识别结果。
S302、电子设备确定目标识别结果是否为影视名称。
若确定目标识别结果为影视名称,则执行S303;若确定目标识别结果不为影视名称,则执行S304和S305。
S303、电子设备将目标识别结果分配到视频领域,定位视频业务。
S304、电子设备通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果。
S305、电子设备通过检错模型判断目标纠错结果是否为正确纠错结果。
若判断目标纠错结果为正确纠错结果,则执行S306;若判断目标纠错结果为错误纠错结果,则返回执行S307。
S306、电子设备通过统计分类将目标纠错结果分配到相应领域,定位相应业务。
S307、电子设备通过统计分类将目标识别结果分配到相应领域,定位相应业务。
也就是说,对于根据用户语音得到目标识别结果,先判断其是否为影视名称,若为影视名称则不纠错,直接将目标识别结果分配到视频领域,定位视频业务;若不为影视名称则通过预设纠错方法对其进行纠错,得到目标纠错结果,之后,通过检错模型判断该目标纠错结果是否合理,若合理则选择对目标纠错结果进行统计分类,将目标纠错结果分配到相应领域,定位相应业务;若不合理则选择对目标识别结果进行统计分类,将目标识别结果分配到相应领域,定位相应业务。其中,统计分类可以通过统计分类模型实现。
其中,加入检错模型的语义引擎流程图可如图3B所示。即:在获取目标识别结果之后,该目标识别结果为文本信息,语义引擎判断该目标识别结果是否为影视名称,若是,则将该目标识别结果分配到视频领域,定位视频业务;若否,则对其进行纠错、检错、通过统计分类分配到相应领域,定位相应业务。
可选地,检错模型可以为支持向量机(Support Vector Machine,简称:SVM)模型,但本发明实施例不以此为限制,也就是说,检错模型还可以是其他机器学习模型或深度学习模型。
其中,SVM模型被广泛应用于模式分类。与流行的深度学习模型相比,SVM模型对识别结果预测的响应时间更短,所以本发明实施例选择SVM模型作为检错模型。更进一步地,SVM模型可以选择使用LIBSVM,IBSVM是台湾大学林智仁(Lin Chih-Jen)教授等开发设计的一个简单、易于使用和快速有效的SVM模式分类的软件包。
SVM模型的主要思想是建立一个超平面作为决策曲面,使得正样本(如图4所示的深色圆点)和负样本(如图4所示的浅色圆点)之间的隔离边缘被最大化。
假设有L个训练样本
Figure BDA0001990994710000101
其中,xi是输入的特征向量,yi是输出的检错结果,即是否为正确纠错结果,yi∈{-1,+1}。
设用于分离的超平面方程是:
w·x-b=0 (1)
如图4所示,其中w是超平面的法向量,b是超平面的常数。SVM模型的训练过程即为寻找最优超平面的过程。
寻找最优超平面即正样本和负样本间隔最大化问题,最终可归结为一个二次最规划问题:
Figure BDA0001990994710000102
对于检错模型中特征的设计,可基于以下内容考虑:
常用的检错方法包括语言模型,依存句法分析,最长公共子串(Longest CommonSubsequence,简称:LCS),编辑距离(Levenshtein距离),最长前缀匹配等。
一个语言模型构建字符串的概率分布为p(W),p(W)是字符串(W=w1w2…wn)作为句子的概率。语言模型目前采用的主要是n元(n-gram)语法模型。根据马尔科夫假设,一个词的出现只和它前面n-1个词的相关性最高,这就是n-gram语法模型。这时,字符串W出现的概率可通过如下的方法得出:
Figure BDA0001990994710000103
一般来说,n取2或3。
假定整个语料库包含词的数量为N0,当构建一个字的三元模型时,统计出字符串zi-2zi-1zi在语料库中出现的次数Ci-2,i-1,i,在给定zi-2zi-1的条件下,下一个字是zi的概率为:
Figure BDA0001990994710000111
语言模型可用于评估一个句子是否合理,查找句子中的局部错误。这基于假设:对正确的语言现象,词与词之间的共现概率较高,对不符合语法的错误语言,词与词之间的共现概率较低。
语言模型的缺点:
(1)数据稀疏问题;
(2)无法较好的处理长距离依赖语言现象。
解决方法:
(1)数据稀疏问题可通过使用一个大规模的语料库作为训练集以及使用平滑技术解决。
平滑技术基本思想是“降低已出现n-gram的条件概率分布,以使未出现的n-gram条件概率分布非零。
(2)无法较好的处理长距离依赖语言现象可通过和依存树结合,利用依存树做长距离的中文纠错,用n-gram做短距离的中文纠错。
依存句法分析,描述的是句子中词与词之间的关系,这种句法关系是有方向的,表现为一个词支配另一个词,或者说,另一个词被这个词支配,这种支配和被支配关系是和语义相关联的,而不受距离的约束。在对语言的理解上,依存句法较n-gram语法更近了一步。
n-gram语法模型不能查找远距离搭配错误。由于依存句法指出了句子中各个词语在语义一级的搭配关系,而且这种搭配关系与距离无关,所以可以利用句子的依存分析结果查找文本中的全局错误。
例如:
“在那次火灾中,他身上的皮肤很多部分都浇了。”
句中,“烧”字错成了“浇”字,如对句子进行局部的分析,能够发现,“部分都浇了”和“部分都烧了”的概率相近,在局部范围内,符合语法规律,即这个错误属于n-gram语法模型无法查出的全局错误。
对这个句子进行依存句法分析,得到依存树如图5所示。由依存句法分析结果,得到“浇”字的远距离依存搭配对:(在←浇)(皮肤←浇),其中(皮肤←浇)属于远距离的搭配错误,如能利用已有知识,判定该搭配不合理,则应用依存句法分析,就能够查出文本中的全局错误。
因此,基于上述内容,在一些实施例中,检错模型中的特征可以包括:
语言模型得分的比较结果,用于比较识别结果对应的语言模型得分和根据该识别结果得到的纠错结果对应的语言模型得分的结果;
通过依存句法分析判断是否为合理句法结构;
识别结果是否为搜索热词;
纠错结果是否为搜索热词;
识别结果经过字顺序调换是否能成为正常的影视名称。
可选地,语言模型是基于字的n-gram语言模型。例如,语言模型是基于字的3-gram语言模型。
检错模型的设计过程如下
(1)检错模型的目标:判断通过预设纠错方法得出的目标纠错结果是否合理。
(2)检错算法的思想:通过机器学习算法,设计分类的特征,将目标纠错结果的选择转化为分类问题。
正例-正确纠错数据:小马宝→小马宝莉
负例-错误纠错数据:最后一集→最后一击
(3)如图6所示,检错模型设计步骤:
(Ⅰ)数据定义
首先对用户日志数据经纠错方法后的纠错结果进行分析,将纠错结果数据分为正确纠错数据和错误纠错数据两组。
(Ⅱ)特征定义
把误纠和正确纠错的情况归类后,分析正确纠错数据和错误纠错数据,把每种错误纠错数据和正确纠错数据类型做一个特征,梳理出用于建立检错模型的特征,最终可以得到一个特征向量。该特征向量中包含语言模型得分的比较结果,通过依存句法分析判断是否为合理句法结构,识别结果是否为搜索热词,纠错结果是否为搜索热词,识别结果经过字顺序调换是否能成为正常的影视名称等多个特征。本发明实施例以39维的特征向量为例进行检错模型的训练,但不以此维度为限制,具体可根据实际需求进行设定。
以语言模型得分的比较结果这一特征为例,其对应的特征值的确定,包括:比较识别结果和纠错结果的语言模型得分,若识别结果的语言模型得分大于纠错结果的语言模型得分,则特征值取0,否则,取值为1。
基于加州大学伯克利分校的n-gram语言模型berkeleylm训练语言模型。由于语言模型的训练包括基于字和基于词两种,因此首先需要对数据分词或者分字。分词是基于词典的,所以识别结果如果是一个影视名称,则会被分为一个词,基于这一原因,本发明实施例训练了基于字的3-gram语言模型。这里n-gram语言模型使用3-gram语言模型,是为避免过多召回引入噪声,阈值设定较严格。
正确纠错数据和错误纠错数据对应的语言模型得分实例如表2所示。是否为搜索热词如表3所示。示例性地,热词的判断可基于搜索风云榜,各领域排名前50的视为搜索热词。
表2
识别结果 语言模型得分 纠错结果 语言模型得分
正确纠错数据 小马宝 -0.850711 小马宝莉 -0.013504
错误纠错数据 最后一集 -1.488467 最后一击 -2.280027
表3
Figure BDA0001990994710000131
(Ⅲ)训练数据
训练数据即为应该纠正的正确纠错数据和不应该纠正的错误纠错数据,分别为正样本和负样本。
正样本正确纠错数据:小马宝→小马宝莉
负样本错误纠错数据:最后一集→最后一击
(Ⅳ)特征提取
对于每维特征编写特征抽取函数,每个函数得出一个特征的取值。
(Ⅴ)模型训练
为提高检错效率,首先将训练好的SVM模型进行保存;在应用于线上检错时,一次将训练好的SVM模型载入缓存,应用SVM模型对目标纠错结果的合理性进行判断。具体地,可采用最简单的线性核函数。例如选择JAVA语言实现软件设计。
检错模型工程实现步骤,包括:
(1)学习线上的纠错模块,分析当前纠错存在的问题;
(2)调研检错方法和梳理了检错思路;
(3)分析线上用户日志数据中的正确纠错数据和错误纠错数据,梳理出构建检错模型所用特征;
(4)基于线上用户日志数据准备了检错模型训练数据;
(5)完成特征提取函数编写;
(6)检错模块(整体算法框架)编写完成;
(7)把检错模块融入到线上系统;
(8)完成调试和单元测试。
通过检错模型可以避免纠错方法对目标识别结果进行误纠,这将提高电子设备,例如智能电视,语音助手语义引擎的性能,提高语义引擎理解的准确率。
下述为本发明装置实施例,可以用于执行本发明方法实施例。对于本发明装置实施例中未披露的细节,请参照本发明方法实施例。
图7为本发明一实施例提供的自然语言处理装置的结构示意图。如图7所示,本实施例提供一种自然语言处理装置70,包括:获取模块71、判断模块72、纠错模块73、检错模块74和统计分类模块75。其中,
获取模块71,用于获取目标识别结果。其中,目标识别结果为通过识别用户语音得到的文本信息;用户语音用于查询用户需求。
判断模块72,用于确定目标识别结果是否为影视名称。
纠错模块73,用于在判断模块72确定目标识别结果不为影视名称时,通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果。
检错模块74,用于通过检错模型判断目标纠错结果是否为正确纠错结果。
统计分类模块75,用于在检错模块74确定所述目标纠错结果为正确纠错结果时,对目标纠错结果进行统计分类;或者,在检错模块74确定目标纠错结果是错误纠错结果时,通过统计分类将目标识别结果分配到相应领域,定位相应业务。其中,检错模型是预先训练得到的机器学习二分类模型。
本发明实施例提供的自然语言处理装置,首先获取目标识别结果,该目标识别结果为通过识别用户语音得到的文本信息,用户语音用于查询用户需求,在确定目标识别结果不为影视名称时,通过预设纠错方法对目标识别结果进行纠错,得到目标纠错结果,进一步地,在通过检错模型判断目标纠错结果是正确纠错结果时,通过统计分类将目标纠错结果分配到相应领域,定位相应业务;或者,在通过检错模型判断目标纠错结果是错误纠错结果时,通过统计分类将目标识别结果分配到相应领域,定位相应业务,其中检错模型是预先训练得到的机器学习二分类模型。本发明实施例在得到目标纠错结果之后,进一步地通过检错模型判断目标纠错结果的合理性,从而提升语义理解的准确度,改善用户体验。
在上述基础上,统计分类模块75还可以用于在判断模块72确定目标识别结果为影视名称时,将目标识别结果分配到视频领域,定位视频业务。
其中,检错模型中特征可以是根据用户日志数据确定的。具体地,用户日志数据可以包括正确纠错数据和错误纠错数据,正确纠错数据可以包括识别结果和其对应的正确纠错结果,错误纠错数据可以包括识别结果和其对应的错误纠错结果。
进一步地,在任一实施例中,检错模型中的特征可以包括:
语言模型得分的比较结果,用于比较识别结果对应的语言模型得分和根据该识别结果得到的纠错结果对应的语言模型得分的结果;
通过依存句法分析判断是否为合理句法结构;
识别结果是否为搜索热词;
纠错结果是否为搜索热词;
识别结果经过字顺序调换是否能成为正常的影视名称;
等等。
可选地,上述语言模型可以是基于字的n-gram语言模型。例如,基于字的3-gram语言模型,其中,n的实际取值可以根据历史经验或实际需求进行设定。
一些实施例中,检错模型可以具体为SVM模型。
图8为本发明一实施例提供的电子设备的结构示意图。如图8所示,电子设备80包括存储器81和处理器82。
该存储器81,用于存储程序指令。
该处理器82,用于调用并执行存储器81中的程序指令。程序指令被处理器82执行时使得电子设备80实现如上述方法实施例中任一所述的自然语言处理方法。
可选地,电子设备80还可以包括显示屏(未示出),该显示屏用于显示、播放电子设备为用户推荐的点播内容。
本发明实施例提供一种计算机可读存储介质,其中,计算机存储介质存储有计算机程序,该计算机程序被处理器执行时实现如上述任一方法实施例所述的方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的计算机程序可以存储于计算机可读取存储介质中。该计算机程序在被处理器执行时,实现包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (9)

1.一种自然语言处理方法,其特征在于,包括:
获取目标识别结果,所述目标识别结果为通过识别用户语音得到的文本信息,所述用户语音用于查询用户需求;
若确定所述目标识别结果不为影视名称,则通过预设纠错方法对所述目标识别结果进行纠错,得到目标纠错结果;
若通过检错模型判断所述目标纠错结果是正确纠错结果,则通过统计分类将所述目标纠错结果分配到相应领域,定位相应业务,所述检错模型是预先训练得到的机器学习二分类模型;
或者,若通过所述检错模型判断所述目标纠错结果是错误纠错结果,则通过统计分类将所述目标识别结果分配到相应领域,定位相应业务,所述检错模型中特征是根据用户日志数据确定的,所述用户日志数据包括正确纠错数据和错误纠错数据,正确纠错数据包括识别结果和其对应的正确纠错结果,错误纠错数据包括识别结果和其对应的错误纠错结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若确定所述目标识别结果为影视名称,则将所述目标识别结果分配到视频领域,定位视频业务。
3.根据权利要求1所述的方法,其特征在于,所述检错模型中的特征包括:
语言模型得分的比较结果,用于比较识别结果对应的语言模型得分和根据该识别结果得到的纠错结果对应的语言模型得分的结果;
通过依存句法分析判断是否为合理句法结构;
识别结果是否为搜索热词;
纠错结果是否为搜索热词;
识别结果经过字顺序调换是否能成为正常的影视名称。
4.根据权利要求3所述的方法,其特征在于,所述语言模型是基于字的n-gram语言模型。
5.根据权利要求1或2所述的方法,其特征在于,所述检错模型包括支持向量机SVM模型。
6.一种自然语言处理装置,其特征在于,包括:
获取模块,用于获取目标识别结果,所述目标识别结果为通过识别用户语音得到的文本信息,所述用户语音用于查询用户需求;
判断模块,用于确定所述目标识别结果是否为影视名称;
纠错模块,用于在所述判断模块确定所述目标识别结果不为影视名称时,通过预设纠错方法对所述目标识别结果进行纠错,得到目标纠错结果;
检错模块,用于通过检错模型判断所述目标纠错结果是否为正确纠错结果;
统计分类模块,用于在所述检错模块确定所述目标纠错结果为正确纠错结果时,通过统计分类将所述目标纠错结果分配到相应领域,定位相应业务,或者,在所述检错模块确定所述目标纠错结果是错误纠错结果时,通过统计分类将所述目标识别结果分配到相应领域,定位相应业务,其中,所述检错模型是预先训练得到的机器学习二分类模型,所述检错模型中特征是根据用户日志数据确定的,所述用户日志数据包括正确纠错数据和错误纠错数据,正确纠错数据包括识别结果和其对应的正确纠错结果,错误纠错数据包括识别结果和其对应的错误纠错结果。
7.根据权利要求6所述的装置,其特征在于,所述统计分类模块还用于:
在所述判断模块确定所述目标识别结果为影视名称时,将所述目标识别结果分配到视频领域,定位视频业务。
8.一种电子设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用并执行所述存储器中的程序指令,执行如权利要求1至5中任一项所述的自然语言处理方法。
9.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的自然语言处理方法。
CN201910180348.6A 2019-03-11 2019-03-11 自然语言处理方法、设备及存储介质 Active CN109922371B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910180348.6A CN109922371B (zh) 2019-03-11 2019-03-11 自然语言处理方法、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910180348.6A CN109922371B (zh) 2019-03-11 2019-03-11 自然语言处理方法、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109922371A CN109922371A (zh) 2019-06-21
CN109922371B true CN109922371B (zh) 2021-07-09

Family

ID=66964152

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910180348.6A Active CN109922371B (zh) 2019-03-11 2019-03-11 自然语言处理方法、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109922371B (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110415679B (zh) * 2019-07-25 2021-12-17 北京百度网讯科技有限公司 语音纠错方法、装置、设备和存储介质
CN112447172B (zh) * 2019-08-12 2024-03-15 云号(北京)科技有限公司 一种语音识别文本的质量提升方法和装置
CN110532522A (zh) * 2019-08-22 2019-12-03 深圳追一科技有限公司 音频标注的检错方法、装置、计算机设备和存储介质
CN111125302A (zh) * 2019-11-29 2020-05-08 海信视像科技股份有限公司 用户输入语句检错方法、装置及电子设备
CN111125303A (zh) * 2019-11-29 2020-05-08 海信视像科技股份有限公司 用户输入语句误纠筛查方法及装置
CN111144101B (zh) * 2019-12-26 2021-12-03 北大方正集团有限公司 错别字处理方法和装置
CN111368918B (zh) * 2020-03-04 2024-01-05 拉扎斯网络科技(上海)有限公司 文本纠错方法、装置、电子设备及存储介质
CN112528980B (zh) * 2020-12-16 2022-02-15 北京华宇信息技术有限公司 Ocr识别结果纠正方法及其终端、系统
JP2022112292A (ja) * 2021-01-21 2022-08-02 Tvs Regza株式会社 音声コマンド処理回路、受信装置、サーバ、システム、方法およびプログラム
CN113705202A (zh) * 2021-08-31 2021-11-26 北京金堤科技有限公司 搜索输入信息纠错方法、装置以及电子设备、存储介质
CN114022279A (zh) * 2021-11-05 2022-02-08 税友软件集团股份有限公司 一种业务数据纠错方法、装置、设备及可读存储介质
CN116151226B (zh) * 2022-12-19 2024-02-23 四川师范大学 一种基于机器学习的聋哑人手语纠错方法、设备和介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN103871407A (zh) * 2012-12-07 2014-06-18 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN107147564A (zh) * 2017-05-09 2017-09-08 胡巨鹏 基于云端服务器的实时语音识别纠错系统及识别纠错方法
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质
CN108052195A (zh) * 2017-12-05 2018-05-18 广东小天才科技有限公司 一种麦克风设备的控制方法及终端设备
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN108877792A (zh) * 2018-05-30 2018-11-23 北京百度网讯科技有限公司 用于处理语音对话的方法、装置、电子设备以及计算机可读存储介质
CN109378015A (zh) * 2018-11-29 2019-02-22 西安交通大学 一种语音学习系统及方法
CN109408813A (zh) * 2018-09-30 2019-03-01 北京金山安全软件有限公司 一种文本纠正方法及装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103366741B (zh) * 2012-03-31 2019-05-17 上海果壳电子有限公司 语音输入纠错方法及系统
CN106997764B (zh) * 2016-01-26 2021-07-27 阿里巴巴集团控股有限公司 一种基于语音识别的即时通信方法和即时通信系统
CN105869634B (zh) * 2016-03-31 2019-11-19 重庆大学 一种基于领域的带反馈语音识别后文本纠错方法及系统
CN106776549B (zh) * 2016-12-06 2020-04-24 桂林电子科技大学 一种基于规则的英语作文语法错误纠正方法
CN107220235B (zh) * 2017-05-23 2021-01-22 北京百度网讯科技有限公司 基于人工智能的语音识别纠错方法、装置及存储介质
CN107357775A (zh) * 2017-06-05 2017-11-17 百度在线网络技术(北京)有限公司 基于人工智能的循环神经网络的文本纠错方法及装置
CN107622054B (zh) * 2017-09-26 2020-12-22 科大讯飞股份有限公司 文本数据的纠错方法及装置
CN107741928B (zh) * 2017-10-13 2021-01-26 四川长虹电器股份有限公司 一种基于领域识别的对语音识别后文本纠错的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1979638A (zh) * 2005-12-02 2007-06-13 中国科学院自动化研究所 一种语音识别结果纠错方法
CN101655837A (zh) * 2009-09-08 2010-02-24 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
CN103871407A (zh) * 2012-12-07 2014-06-18 浦项工科大学校产学协力团 语音识别错误的纠正方法及装置
CN106527756A (zh) * 2016-10-26 2017-03-22 长沙军鸽软件有限公司 一种对输入信息进行智能纠错的方法及装置
CN107147564A (zh) * 2017-05-09 2017-09-08 胡巨鹏 基于云端服务器的实时语音识别纠错系统及识别纠错方法
CN107239547A (zh) * 2017-06-05 2017-10-10 北京智能管家科技有限公司 用于语音点歌的语音纠错方法、终端及存储介质
CN108052195A (zh) * 2017-12-05 2018-05-18 广东小天才科技有限公司 一种麦克风设备的控制方法及终端设备
CN108595431A (zh) * 2018-04-28 2018-09-28 海信集团有限公司 语音交互文本纠错方法、装置、终端及存储介质
CN108877792A (zh) * 2018-05-30 2018-11-23 北京百度网讯科技有限公司 用于处理语音对话的方法、装置、电子设备以及计算机可读存储介质
CN109408813A (zh) * 2018-09-30 2019-03-01 北京金山安全软件有限公司 一种文本纠正方法及装置
CN109378015A (zh) * 2018-11-29 2019-02-22 西安交通大学 一种语音学习系统及方法

Also Published As

Publication number Publication date
CN109922371A (zh) 2019-06-21

Similar Documents

Publication Publication Date Title
CN109922371B (zh) 自然语言处理方法、设备及存储介质
CN109800414B (zh) 语病修正推荐方法及系统
US10210245B2 (en) Natural language question answering method and apparatus
CN105917327B (zh) 用于将文本输入到电子设备中的系统和方法
KR100682897B1 (ko) 사전 업데이트 방법 및 그 장치
US8521516B2 (en) Linguistic key normalization
CN108549656B (zh) 语句解析方法、装置、计算机设备及可读介质
US8762358B2 (en) Query language determination using query terms and interface language
RU2643467C1 (ru) Сопоставление разметки для похожих документов
US20060212433A1 (en) Prioritization of search responses system and method
EP3425532A1 (en) Information mining method and system, electronic device and readable storage medium
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
US7475005B2 (en) Translation system, dictionary updating server, translation method, and program and recording medium for use therein
CN104462085A (zh) 检索关键词纠错方法及装置
CN108345612B (zh) 一种问题处理方法和装置、一种用于问题处理的装置
WO2008145055A1 (fr) Procédé pour obtenir une information de mot de restriction et pour optimiser le système du procédé d'entrée et de sortie
CN110096599B (zh) 知识图谱的生成方法及装置
CN111832299A (zh) 一种中文分词系统
CN114154487A (zh) 文本自动纠错方法、装置、电子设备及存储介质
US11514034B2 (en) Conversion of natural language query
US8554539B2 (en) Method for analyzing morpheme using additional information and morpheme analyzer for executing the method
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
JP4431759B2 (ja) 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム
KR100617319B1 (ko) 영한 자동번역을 위하여 동사구 패턴 및 의미 벡터를 사용하는 동사/명사 대역어 선택 장치 및 그 방법
CN107168950B (zh) 一种基于双语语义映射的事件短语学习方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218

Applicant after: Hisense Video Technology Co., Ltd

Address before: 266555 Qingdao economic and Technological Development Zone, Shandong, Hong Kong Road, No. 218

Applicant before: HISENSE ELECTRIC Co.,Ltd.

GR01 Patent grant
GR01 Patent grant