CN109783808A - 一种修正自然语言理解模块的方法、装置及电子设备 - Google Patents

一种修正自然语言理解模块的方法、装置及电子设备 Download PDF

Info

Publication number
CN109783808A
CN109783808A CN201811577608.5A CN201811577608A CN109783808A CN 109783808 A CN109783808 A CN 109783808A CN 201811577608 A CN201811577608 A CN 201811577608A CN 109783808 A CN109783808 A CN 109783808A
Authority
CN
China
Prior art keywords
natural language
syntax rule
language understanding
supplement
understanding module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811577608.5A
Other languages
English (en)
Inventor
张贺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Volkswagen China Investment Co Ltd
Mobvoi Innovation Technology Co Ltd
Original Assignee
Chumen Wenwen Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chumen Wenwen Information Technology Co Ltd filed Critical Chumen Wenwen Information Technology Co Ltd
Priority to CN201811577608.5A priority Critical patent/CN109783808A/zh
Publication of CN109783808A publication Critical patent/CN109783808A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供了一种修正自然语言理解模块的方法、装置及电子设备,用于解决现有技术中采用人工的方式修正自然语言理解模块中的语法规则和统计模型浪费人力资源,修正速度比较低的问题。包括:获取自然语言理解模块解析错误的自然语言文本;根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。

Description

一种修正自然语言理解模块的方法、装置及电子设备
技术领域
本发明涉及自然语言处理技术领域,尤其涉及一种修正自然语言理解模块的方法、装置及电子设备。
背景技术
随着互联网应用的发展,任务型人机对话系统(Task Oriented Spoken DialogueSystem,TOSDS)的应用越来越广泛,在TOSDS中一般包括语音识别模块,自然语言理解(Natural Language Understanding,NLU)模块,对话管理模块,自然语言生成模块,和语音合成模块,其中,上述自然语言理解模块用于对语音识别模块输出的自然语言文本进行语义解析,即将非结构化的自然语言文本解析为符合自然语言理解协议的结构化知识。通过自然语言理解模块对自然语言文本进行语义解析时,经常会出现解析错误,具体的,自然语言理解错误实例包括垂直领域分类错误,领域意图分类错误和语义槽标注错误三种类型,例如,垂直领域分类错误指自然语言文本应该属于垂直领域A,但是被自然语言理解模块划分到垂直领域B;领域意图分类错误指自然语言文本应该属于领域意图C但是被自然语言理解模块划分到领域意图D;语义槽标注错误指自然语言理解模块未能正确的标注自然语言文本中的语义槽。
为了减少自然语言理解模块解析错误的自然语言理解错误实例,需要对自然语言理解模块进行修正,提高自然语言理解模块对自然语言文本进行语义解析时的准确性,现有技术中,根据自然语言理解错误实例采用人工的方式修正自然语言理解模块中的语法规则和统计模型,以提高自然语言理解模块对自然语言文本进行语义进行解析时的准确性。但采用人工的方式修正自然语言理解模块中的语法规则和统计模型不仅浪费人力资源,同时修正速度也比较低。
综上所述,如何修正自然语言理解模块中的语法规则和统计模型,才能减少人力资源浪费,提高修正速度是目前需要解决的问题。
发明内容
有鉴于此,本发明提供了一种修正自然语言理解模块的方法、装置及电子设备,用于解决现有技术中采用人工的方式修正自然语言理解模块中的语法规则和统计模型浪费人力资源,修正速度比较低的问题。
根据本发明实施例的第一个方面,提供了一种修正自然语言理解模块的方法,包括:获取自然语言理解模块解析错误的自然语言文本;根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。
在一个实施例中,所述根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型,具体包括:根据所述解析错误的自然语言文本生成具有预定方式的补充语法规则;根据所述补充语法规则,确定所述补充统计模型。
在一个实施例中,所述预设方式为正则表达式。
在一个实施例中,所述根据所述补充语法规则,确定所述补充统计模型,具体包括:响应于相同垂直领域下的所述补充语法规则的数量达到设定阈值,将所述达到设定阈值的所述补充语法规则添加到训练所述补充统计模型的训练集合;基于预定算法根据所述训练集合训练获取所述补充统计模型,其中,所述预定算法为最大熵算法、支持向量机算法或者神经网络算法。
在一个实施例中,所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,其中,所述模板根据所述解析错误的自然语言文本以及所述解析错误的自然语言文本对应的正确的解析结果确定的。
在一个实施例中,根据所述补充语法规则,确定所述补充统计模型之后,该方法还包括:根据所述补充统计模型解析所述解析错误的自然语言文本;响应于解析正确,将所述解析错误的自然语言文本以及对应的正确的解析结果添加到回归测试数据集。
在一个实施例中,所述根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块,具体包括:根据所述补充语法规则对所述自然语言理解模块中的原始语法规则进行修正,确定更新后的语法规则,同时根据所述补充统计模块对所述自然语言理解模块中的原始统计模块进行修正,确定更新后的统计模块;根据所述更新后的语法规则和所述更新后的统计模块确定更新后的自然语言理解模块。
根据本发明实施例的第二个方面,提供了一种修正自然语言理解模块的装置,包括:获取单元,用于获取自然语言理解模块解析错误的自然语言文本;确定单元,用于根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;修正单元,用于根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后自然语言理解模块。
在一个实施例中,所述确定单元具体用于:根据所述解析错误的自然语言文本生成具有预定方式的补充语法规则;根据所述补充语法规则,确定所述补充统计模型。
在一个实施例中,所述预定方式为正则表达式。
在一个实施例中,所述确定单元具体用于:响应于相同垂直领域下的所述补充语法规则的数量达到设定阈值,将所述达到设定阈值的所述补充语法规则添加到训练所述补充统计模型的训练集合;基于预定算法根据所述训练集合训练获取所述补充统计模型,其中,所述预定算法为最大熵算法、支持向量机算法或者神经网络算法。
在一个实施例中,所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,其中,所述模板根据所述解析错误的自然语言文本以及所述解析错误的自然语言文本对应的正确的解析结果确定的。
在一个实施例中,该装置还包括验证模块,用于根据所述补充统计模型解析所述解析错误的自然语言文本;响应于解析正确,将所述解析错误的自然语言文本以及对应的正确的解析结果添加到回归测试数据集。
在一个实施例中,所述修正单元具体用于:根据所述补充语法规则对所述自然语言理解模块中的原始语法规则进行修正,确定更新后的语法规则,同时根据所述补充统计模块对所述自然语言理解模块中的原始统计模块进行修正,确定更新后的统计模块;根据所述更新后的语法规则和所述更新后的统计模块确定更新后的自然语言理解模块。
根据本发明实施例的第三个方面,提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能所述的方法。
根据本发明实施例的第四个方面,提供了一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能所述的方法。
本发明实施例的有益效果包括:首先获取自然语言理解模块解析错误的自然语言文本,然后根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型,最后根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。通过上述方法,可以通过确定出的补充语法规则和补充统计模型自动修正所述自然语言理解模块,减少人力资源的浪费,并且提高自然语言理解模块的修正速度。
附图说明
通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:
图1是本发明实施例提供的一种修正自然语言理解模块的方法流程图;
图2是本发明实施例提供的另一种修正自然语言理解模块的方法流程图;
图3是本发明实施例提供的一种修正自然语言理解模块的装置示意图;
图4是本发明实施例提供的一种电子设备结构示意图。
具体实施方式
以下基于实施例对本发明进行描述,但是本发明并不仅仅限于这些实施例。在下文对本发明的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本申请。此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的。
除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。
在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,不代表顺序,也不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在现有技术中,任务型人机对话系统的应用越来越广泛,已经被成功应用到多种类型的设备,例如:手机、音箱、电视和可穿戴设备等。任务型人机对话系统TOSDS中包括的自然语言理解模块用于对语音识别模块输出的自然语言文本进行语义解析,将非结构化的自然语言文本解析为符合自然语言理解协议的结构化知识,其中,所述自然语言理解协议一般包括垂直领域,领域意图,语义槽三类信息。具体的,一个TOSDS包含至少一个垂直领域,垂直领域表示自然语言文本所属领域,例如:自然语言文本“播放周杰伦的七里香”属于音乐领域、自然语言文本“查看明天北京的天气”属于天气领域、自然语言文本“导航去天安门”属于导航领域。每个垂直领域都有相应的训练语料用于训练垂直领域分类模型。一个垂直领域包含至少一个领域意图,领域意图表示在垂直领域内,自然语言文本的具体意图,例如,在天气领域中,自然语言文本“明天北京下雨吗”属于询问是否下雨的意图、自然语言文本“今天空气质量好不好”属于询问空气质量的意图、自然语言文本“北京刮风呢吗”属于询问是否有风的意图。每个领域意图都有相应的训练语料用于训练领域意图分类模型。一个垂直领域包含零个或多个语义槽,语义槽表示在垂直领域内,自然语言文本限定的具体条件,例如,在天气领域中,一般包括“时间”和“地点”两种语义槽,自然语言文本“明天北京下雨吗”限定了“时间”条件为“明天”以及“地点”条件为“北京”、自然语言文本“今天空气质量好不好”限定了“时间”条件为“今天”、自然语言文本“北京刮风呢吗”限定了“地点”条件为“北京”,每个垂直领域都有相应的训练语料用于训练语义槽标注模型。
通过自然语言理解模块对自然语言文本进行解析时,首先通过语法规则对自然语言文本进行解析,若语法规则无法解析,则通过统计模型对上述自然语言文本进行解析,在自然语言理解模块解析自然语言文本的过程中,会出现解析错误,具体的,自然语言理解错误实例包括三种类型:垂直领域分类错误,领域意图分类错误和语义槽标注错误。垂直领域分类错误指自然语言文本应该属于垂直领域A,但是被自然语言理解模块划分到垂直领域B;领域意图分类错误指自然语言文本应该属于领域意图C,但是被自然语言理解模块划分到领域意图D;语义槽标注错误指自然语言理解模块未能正确的标注自然语言文本中的语义槽。
解析错误的自然语言文本也可以称为自然语言理解错误实例,为了减少自然语言理解模块解析错误的自然语言理解错误实例,需要对自然语言理解模块进行修正,提高自然语言理解模块对自然语言文本进行语义解析时的准确性,现有技术中,根据自然语言理解错误实例采用人工的方式修正自然语言理解模块中的语法规则和统计模型,以提高自然语言理解模块对自然语言文本进行语义进行解析时的准确性。但采用人工的方式修正自然语言理解模块中的语法规则和统计模型不仅浪费人力资源,同时修正速度也比较低。
为解决上述问题,本发明提供的一种修正自然语言理解模块的方法,具体如图1所示,包括:
步骤S100、获取自然语言理解模块解析错误的自然语言文本。
具体的,获取自然语言理解模块解析错误的自然语言文本的同时获取所述解析错误的自然语言文本对应的错误的解析结果。
举例说明,以自然语言文本为“打电话给110”划分垂直领域错误为例,自然语言理解模块将“打电话给110”划分为闹钟领域,而实际上是属于电话领域,因此自然语言理解模块解析错误该自然语言文本,因此获取到自然语言理解模块解析错误的自然语言文本“打电话给110”,同时获取到解析错误的结果“闹钟领域”。
步骤S101、根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型。
具体通过以下两种方式分别确定补充语法规则和补充统计模型。
方式一、根据所述解析错误的自然语言文本生成具有预定方式的补充语法规则,其中,所述预定方式为正则表达式,也可以为其他预定方式,本发明对其不做限定。
举例说明:假设根据上述自然语言文本“打电话给110”,解析错误的结果为“闹钟领域”,在自然语言文本的开头添加锚点符号“^”,在自然语言文本的末尾添加锚点符号“$”,将“闹钟领域”修改为“电话领域”,将自然语言文本中的阿拉伯数字替换为\d,即根据“打电话给110”确定语法规则“^打电话给\d\d\d$”。
可选的,所述语法规则还包括一个标识信息,所述标识信息可以取值为“是”或“否”,用于表示该语法规则是否已经被添加到训练集合中,其中,所述训练集合用于生成补充统计模型。
方式二、根据所述补充语法规则,确定所述补充统计模型。具体的,响应于相同垂直领域下的所述补充语法规则的数量达到设定阈值,将所述达到设定阈值的所述补充语法规则添加到训练所述补充统计模型的训练集合;基于预定算法根据所述训练集合训练获取所述补充统计模型,其中,所述预定算法为最大熵算法、支持向量机算法或者神经网络算法。所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,其中,所述模板根据所述解析错误的自然语言文本以及所述解析错误的自然语言文本对应的正确的解析结果确定的。
举例说明:方式一在相同处置领域下生成的语法规则达到设定阈值时,例如,该阈值为10,将生成的10条语法规则添加到训练集合,并将添加到训练集合是语法规则的标识信息设置为“是”,通过训练集合训练补充统计模型;所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,例如,根据自然语言文本“我想听周杰伦的音乐”和修正后的自然语言理解解析结果“我想听[周杰伦SINGER]的音乐”提取模版,SINGER表示歌手的语义槽,该文本对应的模版为我想听“SINGER的音乐”,其中,修正前错误的解析结果可能是垂直领域错误也可能是没有标注出语义槽,所述模板可以是垂直领域模板也可以为意图领域模板,根据领域知识库,对模版中的语义槽进行随机替换,产生训练数据,例如将“我想听SINGER的音乐”中的SINGER随机替换成领域知识库中的歌手姓名,如“刘德华”、“张学友”等,生成:“我想听刘德华的音乐”、“我想听张学友的音乐”,作为训练数据,上述训练数据审核合格后,添加到训练集合,用于训练补充统计模型。
步骤S102、根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。
具体的,根据所述补充语法规则对所述自然语言理解模块中的原始语法规则进行修正,确定更新后的语法规则,同时根据所述补充统计模块对所述自然语言理解模块中的原始统计模块进行修正,确定更新后的统计模块;根据所述更新后的语法规则和所述更新后的统计模块确定更新后的自然语言理解模块。
本发明实施例中,首先获取自然语言理解模块解析错误的自然语言文本,然后根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型,最后根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。通过上述方法,可以通过确定出的补充语法规则和补充统计模型自动修正所述自然语言理解模块,减少人力资源的浪费,并且提高自然语言理解模块的修正速度。
可选的,步骤S101之后,该方法还包括:根据所述补充统计模型解析所述解析错误的自然语言文本;响应于解析正确,将所述解析错误的自然语言文本以及对应的正确的解析结果添加到回归测试数据集。
具体的,针对解析错误的自然语言文本已经人工确定了正确的解析结果,通过补充统计模型对所述自然语言文本进行解析,若解析出来的结果与人工确定的正确解析结果相同,证明所述补充统计模型有效,根据该补充统计模型修正自然语言理解模块中原有的统计模型,并将上述自然语言文本和正确的解析结果添加到回归测试数据集,所述回归测试数据集中还包括经过自然语言理解模块解析正确的自然语言文本以及解析正确的自然语言文本对应的解析结果,当自然语言理解模块进行修正后,需要通过回归测试数据集中数据进行回归测试,确定修改后的自然语言理解模块不会产生新的自然语言理解错误实例,即原有的判断正确的自然语言文本经过修正后的自然语言理解模块可能会出现解析错误的情况,通过回归测试,判断该情况不会出现时,避免产生新的自然语言理解错误实例才能对自然语言理解模块进行修正。
下面通过一个具体实施例,对本发明提供的一种修正自然语言理解模块的方法进行详细的说明,具体如图2所示:
步骤S200、自然语言理解模块接收到自然语言文本。
步骤S201、判断所述自然语言文本的解析结果是否正确,若正确,则执行步骤S2021,若不正确,则执行步骤S2022。
步骤S2021、将解析正确的自然语言文本以及所述解析正确的自然语言文本对应的解析结果添加到回归测试数据集。
步骤S2022、根据解析错误的自然语言文本生成补充语法规则。
步骤S203、将所述补充语法规则添加到自然语言理解模型中的原有的语法规则。
步骤S204、判断相同垂直领域下所述补充语法规则的数量达到设定阈值。
步骤S205、将所述设定阈值的补充语法规则添加到补充统计模型的训练集合。
步骤S206、执行步骤S2022的同时执行步骤S206,通过领域知识库对模板进行扩展后确定的训练数据。
步骤S207、将所述训练数据添加到补充统计模型的训练集合。
步骤S208、根据所述步骤S205和步骤S207确定的训练集合训练补充统计模型。
步骤S209、通过补充统计模型解析上述解析错误的自然语言文本,解析补充统计模型的解析结果是否正确,若错误,执行步骤S210,若正确执行步骤S2021。
步骤S210、显示提示信息,提示解析错误。
可选的,步骤S2021之后,还包括步骤S211、执行回归测试,判断测试结果是否正确,若错误则执行步骤S210,若正确,执行步骤S212。
步骤S212、根据所述补充统计模型修正所述自然语言理解模块中原有的统计模型。
图3是本发明实施例提供的一种修正自然语言理解模块的装置示意图。如图3所示,本实施例的修正自然语言理解模块的装置包括:获取单元31、确定单元32和修正单元33。其中,所述获取单元31,用于获取自然语言理解模块解析错误的自然语言文本;确定单元32,用于根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;修正单元33,用于根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后自然语言理解模块。
在一个实施例中,所述确定单元具体用于:根据所述解析错误的自然语言文本生成具有预定方式的补充语法规则;根据所述补充语法规则,确定所述补充统计模型。
在一个实施例中,所述预定方式为正则表达式。
在一个实施例中,所述确定单元具体用于:响应于相同垂直领域下的所述补充语法规则的数量达到设定阈值,将所述达到设定阈值的所述补充语法规则添加到训练所述补充统计模型的训练集合;基于预定算法根据所述训练集合训练获取所述补充统计模型,其中,所述预定算法为最大熵算法、支持向量机算法或者神经网络算法。
在一个实施例中,所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,其中,所述模板根据所述解析错误的自然语言文本以及所述解析错误的自然语言文本对应的正确的解析结果确定的。
在一个实施例中,该装置还包括验证模块,用于根据所述补充统计模型解析所述解析错误的自然语言文本;响应于解析正确,将所述解析错误的自然语言文本以及对应的正确的解析结果添加到回归测试数据集。
在一个实施例中,所述修正单元具体用于:根据所述补充语法规则对所述自然语言理解模块中的原始语法规则进行修正,确定更新后的语法规则,同时根据所述补充统计模块对所述自然语言理解模块中的原始统计模块进行修正,确定更新后的统计模块;根据所述更新后的语法规则和所述更新后的统计模块确定更新后的自然语言理解模块。
图4是本发明实施例的电子设备的示意图。图4所示的电子设备为修正自然语言理解模块的装置,其包括通用的计算机硬件结构,其至少包括处理器41和存储器42。处理器41和存储器42通过总线43连接。存储器42适于存储处理器41可执行的指令或程序。处理器41可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器41通过执行存储器42所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线43将上述多个组件连接在一起,同时将上述组件连接到显示控制器44和显示装置以及输入/输出(I/O)装置45。输入/输出(I/O)装置45可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置45通过输入/输出(I/O)控制器46与系统相连。
如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。
可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪速存储器)、光纤、便携式光盘只读存储器(CD-ROM)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。
计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。
可以使用包括但不限于无线、有线、光纤电缆、RF等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。
用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如Java、Smalltalk、C++等;以及常规过程编程语言如“C”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(LAN)或广域网(WAN)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。
上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。
还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。
计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。
以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种修正自然语言理解模块的方法,其特征在于,包括:
获取自然语言理解模块解析错误的自然语言文本;
根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;
根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块。
2.如权利要求1所述的方法,其特征在于,所述根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型,具体包括:
根据所述解析错误的自然语言文本生成具有预定方式的补充语法规则;
根据所述补充语法规则,确定所述补充统计模型。
3.如权利要求2所述的方法,其特征在于,所述预定方式为正则表达式。
4.如权利要求2所述的方法,其特征在于,所述根据所述补充语法规则,确定所述补充统计模型,具体包括:
响应于相同垂直领域下的所述补充语法规则的数量达到设定阈值,将所述达到设定阈值的所述补充语法规则添加到训练所述补充统计模型的训练集合;
基于预定算法根据所述训练集合训练获取所述补充统计模型,其中,所述预定算法为最大熵算法、支持向量机算法或者神经网络算法。
5.如权利要求4所述的方法,其特征在于,所述训练集合中还包括通过领域知识库对模板进行扩展后确定的训练数据,其中,所述模板根据所述解析错误的自然语言文本以及所述解析错误的自然语言文本对应的正确的解析结果确定的。
6.如权利要求2所述的方法,其特征在于,根据所述补充语法规则,确定所述补充统计模型之后,该方法还包括:
根据所述补充统计模型解析所述解析错误的自然语言文本;
响应于解析正确,将所述解析错误的自然语言文本以及对应的正确的解析结果添加到回归测试数据集。
7.如权利要求1所述的方法,其特征在于,所述根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后的自然语言理解模块,具体包括:
根据所述补充语法规则对所述自然语言理解模块中的原始语法规则进行修正,确定更新后的语法规则,同时根据所述补充统计模块对所述自然语言理解模块中的原始统计模块进行修正,确定更新后的统计模块;
根据所述更新后的语法规则和所述更新后的统计模块确定更新后的自然语言理解模块。
8.一种修正自然语言理解模块的装置,其特征在于,包括:
获取单元,用于获取自然语言理解模块解析错误的自然语言文本;
确定单元,用于根据所述解析错误的自然语言文本确定补充语法规则和补充统计模型;
修正单元,用于根据所述补充语法规则和补充统计模型分别对所述自然语言理解模块进行修正,确定更新后自然语言理解模块。
9.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-7任一项所述的方法。
CN201811577608.5A 2018-12-20 2018-12-20 一种修正自然语言理解模块的方法、装置及电子设备 Pending CN109783808A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811577608.5A CN109783808A (zh) 2018-12-20 2018-12-20 一种修正自然语言理解模块的方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811577608.5A CN109783808A (zh) 2018-12-20 2018-12-20 一种修正自然语言理解模块的方法、装置及电子设备

Publications (1)

Publication Number Publication Date
CN109783808A true CN109783808A (zh) 2019-05-21

Family

ID=66497572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811577608.5A Pending CN109783808A (zh) 2018-12-20 2018-12-20 一种修正自然语言理解模块的方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN109783808A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128144A (zh) * 2019-10-16 2020-05-08 国网浙江省电力有限公司金华供电公司 一种语音电网调度系统及方法
CN112347793A (zh) * 2020-12-30 2021-02-09 北京智源人工智能研究院 一种基于规则与学习的语义解析方法、装置和电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
US20170212890A1 (en) * 2016-01-26 2017-07-27 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101650942A (zh) * 2009-08-26 2010-02-17 北京邮电大学 基于韵律短语的韵律结构生成方法
US20170212890A1 (en) * 2016-01-26 2017-07-27 International Business Machines Corporation Generation of a natural language resource using a parallel corpus
CN106407357A (zh) * 2016-09-07 2017-02-15 深圳市中易科技有限责任公司 一种文本数据规则模型开发的工程方法
CN107229612A (zh) * 2017-05-24 2017-10-03 重庆誉存大数据科技有限公司 一种网络信息语义倾向分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111128144A (zh) * 2019-10-16 2020-05-08 国网浙江省电力有限公司金华供电公司 一种语音电网调度系统及方法
CN112347793A (zh) * 2020-12-30 2021-02-09 北京智源人工智能研究院 一种基于规则与学习的语义解析方法、装置和电子设备

Similar Documents

Publication Publication Date Title
CN109036384B (zh) 语音识别方法和装置
US9767093B2 (en) Syntactic parser assisted semantic rule inference
CN104021784B (zh) 基于大语料库的语音合成方法和装置
US10248537B2 (en) Translation bug prediction classifier
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CN107239547B (zh) 用于语音点歌的语音纠错方法、终端及存储介质
US20070260449A1 (en) Instance-based sentence boundary determination by optimization
CN109582954A (zh) 用于输出信息的方法和装置
CN109783808A (zh) 一种修正自然语言理解模块的方法、装置及电子设备
CN108255702A (zh) 一种测试用例创建方法、装置、设备及存储介质
US20170300405A1 (en) Method, apparatus, and computer-readable medium for performing functional testing of software
WO2023029507A1 (zh) 基于数据分析的服务分发方法、装置、设备及存储介质
WO2022121158A1 (zh) 语音合成方法、装置、电子设备及存储介质
US20210365258A1 (en) Method and system for updating legacy software
CN110515944A (zh) 基于分布式数据库的数据存储方法、存储介质和电子设备
CN111081254B (zh) 一种语音识别方法和装置
US10319378B2 (en) Interaction apparatus and method
CN113032257B (zh) 自动化测试方法、装置、计算机系统和可读存储介质
CN111325031A (zh) 简历解析方法及装置
CN112764755B (zh) 代码转换方法、装置、设备以及存储介质
CN109783369A (zh) 一种自然语言理解模块回归测试方法、装置及电子设备
CN108257601A (zh) 用于语音识别文本的方法、设备、客户端装置及电子设备
US20140257816A1 (en) Speech synthesis dictionary modification device, speech synthesis dictionary modification method, and computer program product
KR20190096159A (ko) 사용자 맞춤형 언어 모델을 생성하는 장치, 단말 및 방법
CN110147556B (zh) 一种多向神经网络翻译系统的构建方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20211118

Address after: 210038 8th floor, building D11, Hongfeng science and Technology Park, Nanjing Economic and Technological Development Zone, Jiangsu Province

Applicant after: New Technology Co.,Ltd.

Applicant after: VOLKSWAGEN (CHINA) INVESTMENT Co.,Ltd.

Address before: 100190 1001, 10th floor, office building a, 19 Zhongguancun Street, Haidian District, Beijing

Applicant before: MOBVOI INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190521

RJ01 Rejection of invention patent application after publication