CN106601237B - 交互式语音应答系统及其语音识别方法 - Google Patents

交互式语音应答系统及其语音识别方法 Download PDF

Info

Publication number
CN106601237B
CN106601237B CN201611245325.1A CN201611245325A CN106601237B CN 106601237 B CN106601237 B CN 106601237B CN 201611245325 A CN201611245325 A CN 201611245325A CN 106601237 B CN106601237 B CN 106601237B
Authority
CN
China
Prior art keywords
semantic
question
standard
speech
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201611245325.1A
Other languages
English (en)
Other versions
CN106601237A (zh
Inventor
曾永梅
朱频频
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhizhen Intelligent Network Technology Co Ltd
China Electronics Standardization Institute
Original Assignee
Shanghai Zhizhen Intelligent Network Technology Co Ltd
China Electronics Standardization Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Zhizhen Intelligent Network Technology Co Ltd, China Electronics Standardization Institute filed Critical Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority to CN201611245325.1A priority Critical patent/CN106601237B/zh
Publication of CN106601237A publication Critical patent/CN106601237A/zh
Application granted granted Critical
Publication of CN106601237B publication Critical patent/CN106601237B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • G10L2015/0633Creating reference templates; Clustering using lexical or orthographic knowledge sources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种用于交互式语音应答系统的语音识别方法,该交互式语音应答系统包括知识库,该知识库包括知识点的集合,该语音识别方法包括基于该知识库中的知识点的集合获取语音训练语料;使用所得到的语音训练语料来训练语言模型;以及使用该语言模型来识别用户的语音输入。本发明大大提高了语料对于语言模型训练的针对性,使得以极少的训练成本获得了较高准确度的语言模型。

Description

交互式语音应答系统及其语音识别方法
技术领域
本发明涉及人机交互技术领域,尤其涉及用于交互式语音应答系统的语音识别方法及一种交互式语音应答系统。
背景技术
人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器,也可以是计算机化的系统和软件。例如,通过人机交互可以实现各种人工智能系统,例如,智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础,其能够对人类语言进行识别,以转换成机器能够理解的语言。
智能问答系统是人机交互的一种典型应用,其中当用户提出问题后,智能问答系统给出该问题的答案。为此,智能问答系统中有一套知识库,里面有大量的问题和与每个问题相对应的答案。智能问答系统首先需要识别用户所提出的问题,即从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。
交互式语音应答系统是一种特殊的智能问答系统,即用户提出的问题是以语音的形式输入的。因此,在交互式语音应答系统中,首先需要将语音形式的用户问题,即语音输入识别为文字形式的用户问题,然后再通过上述语义解析过程从知识库中找到与该用户问题所对应的问题,然后找出与该问题相匹配的答案。
如何提高语音识别的准确率,对交互式语音应答系统的性能有着至关重要的影响。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
根据本发明的一方面,提供了一种用于交互式语音应答系统的语音识别方法,该交互式语音应答系统包括知识库,该知识库包括知识点的集合,该语音识别方法包括基于该知识库中的知识点的集合获取语音训练语料;使用所得到的语音训练语料来训练语言模型;以及使用该语言模型来识别用户的语音输入。
根据本发明的另一方面,提供了一种交互式语音应答系统,包括:知识库,该知识库包括知识点的集合;语料获取模块,用于基于该知识库中的知识点的集合获取语音训练语料;语言模型训练模块,使用所得到的语音训练语料来训练语言模型;以及语音识别模块,用于使用该语言模型来识别用户的语音输入。
根据本发明的方案,充分利用了知识库中的知识点,获得了与用户问题相关的语料,大大提高了语料对于语言模型训练的针对性,使得以极少的训练成本获得了较高准确度的语言模型。
附图说明
在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。
图1是示出了根据本发明的一方面的用于交互式语音应答系统的语音识别方法的流程图;
图2是示出了根据本发明的一实施例对标准问进行扩展的方法的流程图;
图3是示出了根据本发明的一实施例的利用反问场景知识点获取语音训练语料的流程图;
图4是示出了根据本发明的另一实施例的利用反问场景知识点获取语音训练语料的流程图;
图5示出了根据本发明的一方面的交互式语音应答系统的框图;
图6是示出了根据本发明的一实施例的语料获取模块的框图;
图7是示出了根据本发明的另一实施例的语料获取模块的框图;以及
图8示出了根据本发明的再一实施例的语料获取模块的框图。
具体实施方式
以下结合附图和具体实施例对本发明作详细描述。注意,以下结合附图和具体实施例描述的诸方面仅是示例性的,而不应被理解为对本发明的保护范围进行任何限制。
对于交互式语音应答系统,用户以语音输入的形式提出问题。为了回答用户的问题,交互式语音应答系统的后台处理主要包括两个部分:语音识别部分和语义识别部分。语音识别部分的作用是对用户的语音输入进行语音识别,以获得文字形式的用户问题。语义识别部分是基于该文字形式的用户问题从知识库中寻找对应的答案。
语音识别技术主要由语言模型训练阶段和使用语言模型的识别阶段构成。上述的语音识别部分即为使用语言模型的识别阶段。
语言模型训练阶段是通过大量语料的训练进行语言模型的建模,例如采用SRILM工具进行建模。SRILM全称为Stanford Research Institute Language Modeling Toolkit(斯坦福研究所语言建模工具),主要目标是支持语言模型的估计和评测。在建立语言模型后,利用该语言模型对用户输入的语音进行识别。语音识别过程中,语言模型准确与否对于识别结果至关重要。越完善的语言模型可以越准确的语音识别结果。
知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ,一般的形式是“问-答”对。在本发明中,“标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。例如,“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。例如,对于用于控制系统的语义识别而言,用户的一个指令,例如“打开收音机”也应可以被理解为是一个“问”,此时对应的“答”可以是用于执行相应控制的控制程序的调用。
因此,语义识别部分即为基于语音识别结果从知识库中寻找标准问的过程,找到与其匹配的标准问,即可认为是“理解”了该语音识别结果的语义,从而可以将该匹配的标准问对应的“答”提供给用户。
实践中,可以通过语音识别结果与知识库中所有标准问的语义相似度计算来确定匹配的标准问。例如,具有最高语义相似度的标准问可以被确定为是所匹配的标准问,进而可以从该匹配的标准问确定用户希望办理的目标业务。
例如,若所匹配的标准问为“彩铃的资费”,则可以了解用户希望办理彩铃相关业务。
本发明关注的重点在语音识别部分,更具体而言是语言模型训练阶段。一方面,使用越大量的语料,得到的语言模型越准确。然而,随着语料数量的增加,训练以及识别的计算成本也随之增加。因此,实践中,往往在成本和性能的折衷基础上以一定的语料量进行训练。
另一方面,语料越有针对性,训练出的语言模型也越准确。例如,针对体育类的应用场合,可以使用与体育相关的大量术语作为语料进行训练,针对金融类的应用场合,可以使用与金融相关的大量术语作为语料进行训练。以此方式,在一定的成本下获得更准确的语言模型。
在本发明的方案中,特别对交互式语音应答系统用于语音识别过程的语言模型的训练语料进行了设计。通过提供更有针对性的语料,大大提高了语言模型的精准度。具体地,在本发明中,充分利用了知识库来获取语音训练语料,由于用户询问的问题一般与知识库中的知识点密切相关,因此,利用基于知识点获得的语音训练语料,对于语言模型的训练具有非常高的价值。
在此之前,首先对知识库及其中的知识点进行介绍。
为了更准确、高效地识别用户问题,智能问答系统还发展出了抽象语义的概念。抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种各样的具体语义。
每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由语义成分符表示,当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样的具体语义。
抽象语义的语义成分符可包括:
[concept]:表示主体或客体成份的词或短语。
比如:“彩铃如何开通”中的“彩铃”
[action]:表示动作成分的词或短语。
比如:“信用卡如何办理”中的“办理”
[attribute]:表示属性成份的词或短语。
比如:“iphone有哪些颜色”中的“颜色”
[adjective]:表示修饰成分的词或短语。
比如:“冰箱哪个品牌便宜”中的“便宜”
一些主要的抽象语义类别示例有:
概念说明[concept]是什么
属性构成[concept]有哪些[attribute]
行为方式[concept]如何[action]
行为地点[concept]在什么地方[action]
行为原因[concept]为什么会[action]
行为预测[concept]会不会[action]
行为判断[concept]有没有[attribute]
属性状况[concept]的[attribute]是不是[adjective]
属性判断[concept]是不是有[attribute]
属性原因[concept]的[attribute]为什么这么[adjective]
概念比较[concept1]和[concept2]的区别在哪里
属性比较[concept1]和[concept2]的[attribute]有什么不同之处
问句在抽象语义层面的成份判断可以通过词性标注来做一般的评判,concept对应的词性为名词,action对应的词性为动词、attribute对应的词性为名词、adjective对应的是形容词。
以类别为“行为方式”的抽象语义[concept]如何[action]为例,该类别的抽象语义集合下可包括多条抽象语义表达式:
抽象语义类别:行为方式
抽象语义表达式:
a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步骤?>
d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
上述a、b、c、d四个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别的。符号“|”表示“或”关系,符号“?”表示该成分可有可无。以上述抽象语义表达式c为例,可展开为以下的抽象语义表达:
c1.[concept]<的>[action]<方法>
c2.[concept]<的>[action]<方式>
c3.[concept]<的>[action]<步骤>
c4.[concept]<的>[action]
c5.[concept][action]<方法>
c6.[concept][action]<方式>
c7.[concept][action]<步骤>
c8.[concept][action]
在上述抽象语义表达式中,除了作为缺失语义成分的抽象的语义成分符之外,其他出现的具体的词如“如何”、“应该”、“方法”等等,这些词需要在抽象语义规则中被使用,所以可统称为语义规则词。
以上介绍了智能问答系统中关于知识点的一些基本概念,这对于理解本发明的内容有帮助。
图1是示出了根据本发明的一方面的用于交互式语音应答系统的语音识别方法的流程图。如图1所示,语音识别方法100可包括以下步骤:
步骤101:基于知识库中的知识点的集合获取语音训练语料。
交互式语音应答系统包括知识库,该知识库中的知识点与该交互式语音应答系统的用户的目标问题大致相关。例如,该交互式语音应答系统可能用于金融知识相关,则目标用户询问的问题一般围绕金融领域,因此,知识库中的知识点也都是金融领域相关的知识点。此时,利用知识库中的知识点来获取语音训练语料,可以大大提高语音模型训练的质量,进而提高语音识别阶段的正确率。
在一实例中,基于知识点的集合获取语音训练语料可包括扩展知识点中的标准问以得到若干扩展问作为语音训练语料。
如前所述,每个知识点包括标准问及对应的答案。然而,用户询问的问题可能会有各种形式,而不会严格按照一个标准问的形式提问。因此,可对这些标准问进行扩展,以获得扩展问。扩展问与标准问表达形式有略微差异,但是表达相同的含义。在本发明中,可利用扩展问作为语音训练语料。利用这些语音训练语料训练得到的语言模型对于用户的语音输入具有极高的识别率,以极小的成本提升了系统识别率,提升了用户体验。
图2示出了对标准问进行扩展的方法200的流程图。如图2所示,方法200可包括如下步骤。
步骤202,根据抽象语义数据库对该标准问进行抽象语义推荐处理,以获得与该标准问对应的一个或多个抽象语义表达式。
例如,一个标准问为:“怎么查违章”。
首先,需要找到抽象语义数据库中与该标准问相对应的抽象语义表达式。在一实例中,该抽象语义推荐首先对该标准问进行分词处理,得到若干单词,该单词为语义规则词或非语义规则词。
例如,“怎么查违章”可分为单词“怎么”、“查”、“违章”。这些单词中,“怎么”为语义规则词,“查”和“违章”是非语义规则词。
然后,分别对每个非语义规则词进行词性标注处理,例如“查”被标注为动词,“违章”被标注为名词。
之后,对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息。词类简单的理解即为一组有共性的词,这些词在语义上可以相似也可以不相似。
最后,根据这些词性信息和词类信息对抽象语义数据库进行搜索处理,得到与标准问“怎么查违章”匹配的抽象语义表达式。
实践中,与用户匹配的抽象语义表达式满足以下条件:
1)抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
2)抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
3)抽象语义表达式的顺序与标准问的表达顺序相同。
这里的表达顺序相同是指标准问与所定位到的抽象语义表达式填充后的结果完全一样。
在上述抽象语义类别“行为方式”中,抽象语义表达式e的缺失语义成分action的词性为动词,标准问“怎么查违章”对应的填充内容“查”也为动词,缺失语义成分concept的词性为名词,标准问“怎么查违章”对应的填充内容“违章”也为名词,因此符合上述条件1)。
其次,抽象语义表达式e中的语义规则词“如何”与标准问“怎么查违章”中对应的语义规则词“怎么”属于同一词类,因此符合上述条件2)。
最后,抽象语义表达式e的顺序也与标准问的表达顺序相同,符合上述条件3)。
因此,在抽象语义数据库中,找到与标准问“怎么查违章”匹配的抽象语义表达式e,即[如何][action]~[concept]。该抽象语义表达式属于“行为方式”类别,由于一个类别中的抽象语义表达式具有相同的表达含义,因此在本发明中,为上述标准问推荐“行为方式”这一类别的抽象语义表达式的集合。换言之,所匹配的抽象语义表达式所属的类别中的所有抽象语义表达式皆被推荐为与该标准问相对应的抽象语义表达式。
步骤204,从该标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与该标准问对应的一个或多个具体语义表达式。这些具体语义表达式作为该标准问的扩展问。
以上述标准问“怎么查违章”为例,推荐如下的抽象语义表达式:
a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]
b.{[concept]~[action]}
c.[concept]<的?>[action]<方法|方式|步骤?>
d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]
e.[如何][action]~[concept]
用上述抽象语义表达式对标准问“怎么查违章”进行扩充处理。
在一实例中,从标准问中提取与每一抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充至每一抽象语义表达式对应的缺失语义成分中以得到与该标准问对应的具体语义表达式。
以抽象语义表达式a:[concept][需要|应该?][如何]<才[可以]?><进行?>[action]为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:
concept对应的内容:“违章”
action对应的内容:“查”
因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章][需要|应该?][如何]<才[可以]?><进行?>[查询]。
以抽象语义表达式b.{[concept]~[action]}为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:
concept对应的内容:“违章”
action对应的内容:“查”
因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章][查询]。
以抽象语义表达式c.[concept]<的?>[action]<方法|方式|步骤?>为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:
concept对应的内容:“违章”
action对应的内容:“查”
因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:[违章]<的?>[查询]<方法|方式|步骤?>。
以抽象语义表达式d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]为例,从“怎么”、“查”、“违章”中提取与该表达式的缺失语义成分对应的内容:
concept对应的内容:“违章”
action对应的内容:“查”
因此,将“查”和“违章”违章填充至对应的缺失语义成分得到一具体语义表达式:<有哪些|有什么|有没有><通过|用|在>[违章][查询]<的?>[方法]。
上述描述了如何利用抽象语义数据库对标准问进行扩展的过程。
上述扩展问是具体语义表达式的形式,具体在将扩展问作为训练语料使用时,可将具体语义表达式形式的扩展问展开为正常的语句来使用。以下面的扩展问为例:
[违章]<的?>[查询]<方法|方式|步骤?>
上述扩展问可展开为:
违章的查询方法;
违章的查询方式;
违章的查询步骤;
违章查询方法;
违章查询方式;
违章查询步骤。
在另一实施例中,基于知识库中的知识点的集合获取语音训练语料是通过利用知识点中的反问场景知识点实现的。
知识点包括标准问和对应的标准答案。然而正如先前所述,这里的标准问中的“问”应广义的理解,同样的,这里的标准答案的“答案”也应广义的理解,这里的“答案”可能是用于执行相应控制的控制程序的调用,也可以是一个问句。
例如,一个知识点可能包括标准问:“发短信”,和相应的标准答案:“你要发短信给谁”。这种知识点往往用于用户给出的第一个问题缺失了一些要素的情况。当用户发出一个要发短信的输入,系统并不知道发送给谁,因此,对应于该用户问句的知识点中的标准答案是一个反问句,例如,你要发短信给谁。
在本发明中,将知识点中的标准答案的实质内容为反问句的知识点称为反问场景知识点。这里,利用反问场景知识点来获取语料。这是因为,反问场景知识点中的反问句将被输出给用户,用户的语音输入比如是响应于该反问句的,即用户语音输入的内容对应于该反问句的缺失要素。
图3示出了根据本发明的一实施例的利用反问场景知识点获取语音训练语料的流程图。如图3所示,首先在步骤301,针对知识库中的反问场景知识点,获取其中的反问句的缺失要素。这里的缺失要素即为反问句所询问的目标内容。例如,当反问句为“哪个城市的天气”,此时缺失要素为城市名称,则可以获取所有的城市名,例如用户定位所在地区的所有城市名称。再例如,当反问句为“给谁发短信”,此时的缺失要素为通讯录中的联系人名称。
获取到缺失要素之后,在步骤302,可将缺失要素进行扩展以作为语音训练语料。这里的扩展例如可将缺失要素扩展问语句形式。扩展可以结合缺失要素相应的反问句进行,例如,将确实要素填充至反问句中。例如,基于反问句“给谁发短信”获取到的缺失要素为通讯录中的所有联系人名称,则可以将这些联系人名称扩展为“给联系人名称发短信”,用此作为训练语料。
或者,扩展也可以结合相应反问句所对应的标准问进行,例如将该反问句对应的标准问和确实要素进行组合。例如,基于反问句“哪个城市的天气”获得的缺失要素为中国的所有城市名。反问句“哪个城市的天气”对应的标准问为“天气”,则可将这些城市名扩展为“城市名天气”。
将缺失要素扩展后作为语音训练语料获得的语音模型对于用户响应于系统给出的反问的语音输入具有极高的识别率,从而也是以较小的训练成本获得了更准确的语音模型。
上面介绍了利用反问句场景知识点中的反问句的缺失要素来获取语料。图4示出了根据本发明的另一实施例的利用反问场景知识点获取语音训练语料的流程图。
如图4所示,在步骤401,当用户的第一语音输入的识别结果通过语义解析被定位至反问场景知识点时,判断该反问场景知识点中的反问句的缺失要素是否因不同用户而异。
例如,交互式语音应答系统可能是与金融证券服务相关。此时,用户询问的问题可能与自己购买的股票名称密切相关,换言之,不同用户之间询问的问题可能相差较大。在此情形下,针对不同的用户,同一个反问句的缺失要素可能会有不同。
鉴于此,当用户的语音输入的识别结果通过语义解析被定位至反问场景知识点时,可判断该反问场景知识点中的反问句的缺失要素是否因不同用户而异。对于具有通用性的缺失要素,例如上述的城市名,可认为是不因用户而异。对于与个人具有较强相关性的缺失要素,例如上述的联系人名称,则可以认为是因用户而异。因此,在步骤402,响应于反问句的缺失要素因不同用户而异,则获取与用户相关联的缺失要素,从而在步骤403仅对该缺失要素进行扩展以作为语音训练语料。例如,对于上述缺失要素为通讯录中联系人名称的实例,可以仅获取该用户的客户端上的联系人名称以进行语料扩展。
此后,使用由所获取的缺失要素训练而成的语言模型来识别该用户响应于相应反问场景知识点中的反问句给出的第二语音输入。由于语音模型训练的成本随着语料的量的增大非线性地提高,所以对不同的用户利用不同的语音模型,可以降低语音模型的训练成本,同时又能保持较高的语音识别率。
在获得了语音训练语料后,在步骤102,使用所得到的语音训练语料来训练语言模型。使用语音训练语料训练模型可以使用任何合适的算法来执行。例如,采用SRILM工具进行建模。
获得语言模型后,在步骤103,可使用该语音模型来识别用户的语音输入。
此步骤的作用是将语音形式的用户输入识别为文字形式。进一步地,获得文字形式的用户输入后,可经由语义解析将该用户输入定位至知识库中的特定知识点。此过程可通过语义相似度计算来实现。即将文字形式的用户输入与知识库中所有知识点中的标准问执行语义相似度计算,将具有最高语义相似度的知识点作为所定位到的该特定知识点。然后,将该知识点中的标准答案提供给用户。
图5示出了根据本发明的一方面的交互式语音应答系统的框图。
如图5所示,交互式语音应答系统500可包括知识库510,语料获取模块520,语言模型训练模块530,以及语音识别模块540。
知识库510中可包括知识点的集合,语料获取模块520可用于基于知识库中的知识点的集合获取语音训练语料。
图6示出了根据本发明的一实施例的语料获取模块的框图。如图6所示,语料获取模块可包括扩展单元600,扩展单元600扩展知识点中的标准问以得到若干扩展问作为语音训练语料。
具体地,扩展单元600可根据抽象语义数据库对标准问进行抽象语义推荐处理,当获得与该标准问对应的一个或多个抽象语义表达式时,从该标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与该标准问对应的一个或多个具体语义表达式,该具体语义表达式作为该标准问的扩展问。
更具体地,扩展单元600可包括分词子单元610、词性标注子单元620、词类判断子单元630、以及搜索子单元640。
分词子单元610可用于对标准问进行分词处理,得到若干单词,这些单词为语义规则词或非语义规则词。词性标注子单元620可用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息。词类判断子单元630可用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息。最后搜索子单元640可根据这些词性信息和词类信息对抽象语义数据库进行搜索处理,得到与标准问匹配的抽象语义表达式。
抽象语义表达式还可包括语义规则词,与标准问匹配的抽象语义表达式需要满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
扩展单元600可定期执行该扩展或者当所述知识点的集合有更新时执行该扩展。
图7示出了根据本发明的另一实施例的语料获取模块的框图。如图7所示,语料获取模块可包括缺失要素获取单元710和缺失要素扩展单元720。
缺失要素获取单元710可针对知识库中的反问场景知识点,获取该反问场景知识点中的反问句的缺失要素,缺失要素扩展单元720可将缺失要素进行扩展以作为语音训练语料。
图8示出了根据本发明的再一实施例的语料获取模块的框图。如图8所示,语料获取模块可包括判断单元810、缺失要素获取单元820和缺失要素扩展单元830。
判断单元810可用于当用户的第一语音输入的识别结果通过语义解析被定位至反问场景知识点时,判断该反问场景知识点中的反问句的缺失要素是否因不同用户而异。缺失要素获取单元820可用于响应于该反问场景知识点中的反问句的缺失要素因不同用户而异而获取与该用户相关联的缺失要素。缺失要素扩展单元830可用于将所获取的缺失要素进行扩展以作为语音训练语料。
回到图5,在获得了语音训练语料后,语言模型训练模块530可以使用所得到的语音训练语料来训练语言模型,然后由语音识别模块540使用该语言模型来识别用户的语音输入。
在一实例中,交互式语音应答系统500还可包括语义解析模块550和输出模块560。语义解析模块550通过语义解析将用户的语音输入的识别结果定位至特定知识点,然后输出模块560将该特定知识点中的标准答案提供给用户。
根据本发明的方案,充分利用了知识库中的知识点,获得了与用户问题相关的语料,大大提高了语料对于语言模型训练的针对性,使得以极少的训练成本获得了较高准确度的语言模型。
本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不应被解读成导致脱离了本发明的范围。
结合本文所公开的实施例描述的各种解说性逻辑模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。
结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻留在用户终端中。
提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims (18)

1.一种用于交互式语音应答系统的语音识别方法,所述交互式语音应答系统包括知识库,所述知识库包括知识点的集合,每个知识点包括标准问及对应的标准答案,所述知识点的集合中包括反问场景知识点,每个反问场景知识点中的标准答案为反问句,所述语音识别方法包括:
基于所述知识库中的知识点的集合获取语音训练语料;
使用所得到的语音训练语料来训练语言模型;以及
使用所述语言模型来识别用户的语音输入;
所述基于所述知识库中的知识点的集合获取语音训练语料包括:
当用户的第一语音输入的识别结果通过语义解析被定位至反问场景知识点时,判断该反问场景知识点中的反问句的缺失要素是否因不同用户而异;
若是,则获取与所述用户相关联的缺失要素;以及
将所获取的缺失要素进行扩展以作为语音训练语料,
其中,所述使用所述语言模型来识别用户的语音输入包括:
使用由所获取的缺失要素训练而成的语言模型来识别所述用户响应于所述反问场景知识点中的反问句给出的第二语音输入;
所述使用所述语言模型来识别用户的语音输入包括:将文字形式的用户输入与知识库中所有知识点的标准问执行语义相似度计算,将具有最高语义相似度的知识点作为所定位到的特定知识点,并将特定知识点的标准答案提供给用户。
2.如权利要求1所述的语音识别方法,其特征在于,每个知识点包括标准问及对应的标准答案,所述基于所述知识库中的知识点的集合获取语音训练语料包括:
扩展所述知识点中的标准问以得到若干扩展问作为语音训练语料。
3.如权利要求2所述的语音识别方法,其特征在于,所述扩展所述知识点中的标准问包括:
提供抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理,当获得与所述标准问对应的一个或多个抽象语义表达式时,从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式,所述具体语义表达式作为所述标准问的扩展问。
4.如权利要求3所述的语音识别方法,其特征在于,所述抽象语义推荐处理包括:
对所述标准问进行分词处理,得到若干单词,所述单词为语义规则词或非语义规则词;
分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
根据所述词性信息和词类信息对抽象语义数据库进行搜索处理,得到与所述标准问匹配的抽象语义表达式。
5.如权利要求4所述的语音识别方法,其特征在于,所述抽象语义表达式还包括语义规则词,与所述标准问匹配的抽象语义表达式满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
6.如权利要求2所述的语音识别方法,其特征在于,所述扩展所述知识点中的标准问的步骤是定期执行的或者当所述知识点的集合有更新时执行的。
7.如权利要求1所述的语音识别方法,其特征在于,所述基于所述知识库中的知识点的集合获取语音训练语料包括:
针对所述知识库中的所述反问场景知识点,获取反问场景知识点中的反问句的缺失要素;以及
将所述缺失要素进行扩展以作为语音训练语料。
8.如权利要求1所述的语音识别方法,其特征在于,所述使用所得到的语音训练语料来训练语言模型包括:
采用SRILM工具训练所述语言模型。
9.如权利要求1所述的语音识别方法,其特征在于,每个知识点包括标准问及对应的标准答案,所述语音识别方法还包括:
经由语义解析将用户的所述语音输入的识别结果定位至特定知识点;以及
将所述特定知识点中的标准答案提供给用户。
10.一种交互式语音应答系统,包括:
知识库,所述知识库包括知识点的集合,每个知识点包括标准问及对应的标准答案,所述知识点的集合中包括反问场景知识点,每个反问场景知识点中的标准答案为反问句;
语料获取模块,用于基于所述知识库中的知识点的集合获取语音训练语料;
语言模型训练模块,使用所得到的语音训练语料来训练语言模型;以及
语音识别模块,用于使用所述语言模型来识别用户的语音输入;
所述语料获取模块包括:
判断单元,用于当用户的第一语音输入的识别结果通过语义解析被定位至反问场景知识点时,判断该反问场景知识点中的反问句的缺失要素是否因不同用户而异;
缺失要素获取单元,用于响应于该反问场景知识点中的反问句的缺失要素因不同用户而异而获取与所述用户相关联的缺失要素;以及
缺失要素扩展单元,用于将所获取的缺失要素进行扩展以作为语音训练语料,
其中所述语音识别模块使用由所获取的缺失要素训练而成的语言模型来识别所述用户响应于所述反问场景知识点中的反问句给出的第二语音输入;
所述语音识别模块用于将文字形式的用户输入与知识库中所有知识点的标准问执行语义相似度计算,将具有最高语义相似度的知识点作为所定位到的特定知识点,并将特定知识点的标准答案提供给用户。
11.如权利要求10所述的交互式语音应答系统,其特征在于,每个知识点包括标准问及对应的标准答案,所述语料获取模块包括:
扩展单元,用于扩展所述知识点中的标准问以得到若干扩展问作为语音训练语料。
12.如权利要求11所述的交互式语音应答系统,其特征在于,还包括:
抽象语义数据库,所述抽象语义数据库包括多个抽象语义表达式,所述抽象语义表达式包括缺失语义成分;
其中,所述扩展单元根据所述抽象语义数据库对所述标准问进行抽象语义推荐处理,当获得与所述标准问对应的一个或多个抽象语义表达式时,从所述标准问中提取与一个或多个抽象语义表达式的缺失语义成分对应的内容,并将提取的内容填充到对应的缺失语义成分中以得到与所述标准问对应的一个或多个具体语义表达式,所述具体语义表达式作为所述标准问的扩展问。
13.如权利要求12所述的交互式语音应答系统,其特征在于,所述扩展单元包括:
分词子单元,用于对所述标准问进行分词处理,得到若干单词,所述单词为语义规则词或非语义规则词;
词性标注子单元,用于分别对每个非语义规则词进行词性标注处理,得到每个非语义规则词的词性信息;
词类判断子单元,用于分别对每个语义规则词进行词类判断处理,得到每个语义规则词的词类信息;
搜索子单元,用于根据所述词性信息和词类信息对抽象语义数据库进行搜索处理,得到与所述标准问匹配的抽象语义表达式。
14.如权利要求13所述的交互式语音应答系统,其特征在于,所述抽象语义表达式还包括语义规则词,与所述标准问匹配的抽象语义表达式满足以下条件:
抽象语义表达式的缺失语义成分对应的词性包括标准问对应的填充内容的词性;
抽象语义表达式和标准问中对应的语义规则词相同或属于同一词类;
抽象语义表达式的顺序与标准问的表达顺序相同。
15.如权利要求11所述的交互式语音应答系统,其特征在于,所述扩展单元定期执行所述扩展或者当所述知识点的集合有更新时执行所述扩展。
16.如权利要求10所述的交互式语音应答系统,其特征在于,所述语料获取模块包括:
缺失要素获取单元,针对所述知识库中的所述反问场景知识点,获取所述反问场景知识点中的反问句的缺失要素;以及
缺失要素扩展单元,将所述缺失要素进行扩展以作为语音训练语料。
17.如权利要求10所述的交互式语音应答系统,其特征在于,所述语言模型训练模块采用SRILM工具训练所述语言模型。
18.如权利要求10所述的交互式语音应答系统,其特征在于,每个知识点包括标准问及对应的标准答案,所述交互式语音应答系统还包括:
语义解析模块,经由语义解析将用户的所述语音输入的识别结果定位至特定知识点;以及
输出模块,将所述特定知识点中的标准答案提供给用户。
CN201611245325.1A 2016-12-29 2016-12-29 交互式语音应答系统及其语音识别方法 Active CN106601237B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611245325.1A CN106601237B (zh) 2016-12-29 2016-12-29 交互式语音应答系统及其语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611245325.1A CN106601237B (zh) 2016-12-29 2016-12-29 交互式语音应答系统及其语音识别方法

Publications (2)

Publication Number Publication Date
CN106601237A CN106601237A (zh) 2017-04-26
CN106601237B true CN106601237B (zh) 2020-02-07

Family

ID=58605005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611245325.1A Active CN106601237B (zh) 2016-12-29 2016-12-29 交互式语音应答系统及其语音识别方法

Country Status (1)

Country Link
CN (1) CN106601237B (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107247726B (zh) * 2017-04-28 2018-06-08 北京神州泰岳软件股份有限公司 适用于多业务场景的智能机器人的实现方法及装置
CN107656965B (zh) * 2017-08-22 2021-10-15 北京京东尚科信息技术有限公司 订单查询的方法和装置
CN107644012B (zh) * 2017-08-29 2019-03-01 平安科技(深圳)有限公司 电子装置、问题识别确认方法和计算机可读存储介质
CN107909995B (zh) * 2017-11-16 2021-08-17 北京小米移动软件有限公司 语音交互方法和装置
CN108172226A (zh) * 2018-01-27 2018-06-15 上海萌王智能科技有限公司 一种可学习应答语音和动作的语音控制机器人
KR20190134107A (ko) * 2018-05-24 2019-12-04 삼성전자주식회사 사용자의 음성을 처리하는 전자 장치를 포함하는 시스템 및 전자 장치의 음성 인식 제어 방법
CN109857843B (zh) * 2018-12-25 2023-01-17 科大讯飞股份有限公司 基于文档的交互方法及系统
CN111382984A (zh) * 2018-12-27 2020-07-07 上海智臻智能网络科技股份有限公司 一种交互流程的创建方法及其装置
CN110111784A (zh) * 2019-04-11 2019-08-09 苏宁云计算有限公司 一种夜间无人店的顾客远程协助的处理方法及系统
CN111554269A (zh) * 2019-10-12 2020-08-18 南京奥拓软件技术有限公司 一种语音取号方法、系统及存储介质
CN110727783B (zh) * 2019-10-23 2021-03-02 支付宝(杭州)信息技术有限公司 一种基于对话系统对用户问句提出反问的方法和装置
CN111081252A (zh) * 2019-12-03 2020-04-28 深圳追一科技有限公司 语音数据处理方法、装置、计算机设备和存储介质
CN111159403B (zh) * 2019-12-27 2022-07-29 广东高乐教育科技有限公司 一种智能课堂感知的方法及系统
CN111833897B (zh) * 2020-09-02 2023-08-22 合肥分贝工场科技有限公司 一种用于交互式教育的语音增强方法
US11552966B2 (en) 2020-09-25 2023-01-10 International Business Machines Corporation Generating and mutually maturing a knowledge corpus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991965A (zh) * 2015-07-23 2015-10-21 上海智臻网络科技有限公司 用于基于标准问创建扩展问的方法和装置
CN105161097A (zh) * 2015-07-23 2015-12-16 百度在线网络技术(北京)有限公司 语音交互方法及装置
CN105450822A (zh) * 2015-11-11 2016-03-30 百度在线网络技术(北京)有限公司 智能语音交互方法和装置
CN105550360A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法及装置
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991965A (zh) * 2015-07-23 2015-10-21 上海智臻网络科技有限公司 用于基于标准问创建扩展问的方法和装置
CN105161097A (zh) * 2015-07-23 2015-12-16 百度在线网络技术(北京)有限公司 语音交互方法及装置
CN105450822A (zh) * 2015-11-11 2016-03-30 百度在线网络技术(北京)有限公司 智能语音交互方法和装置
CN105550360A (zh) * 2015-12-31 2016-05-04 上海智臻智能网络科技股份有限公司 优化抽象语义库的方法及装置
CN105608218A (zh) * 2015-12-31 2016-05-25 上海智臻智能网络科技股份有限公司 智能问答知识库的建立方法、建立装置及建立系统

Also Published As

Publication number Publication date
CN106601237A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106601237B (zh) 交互式语音应答系统及其语音识别方法
CN106649825B (zh) 语音交互系统及其创建方法和装置
CN107818781B (zh) 智能交互方法、设备及存储介质
US10997370B2 (en) Hybrid classifier for assigning natural language processing (NLP) inputs to domains in real-time
CN112100349B (zh) 一种多轮对话方法、装置、电子设备及存储介质
CN107797984B (zh) 智能交互方法、设备及存储介质
US9582757B1 (en) Scalable curation system
CN106649818B (zh) 应用搜索意图的识别方法、装置、应用搜索方法和服务器
CN106776544B (zh) 人物关系识别方法及装置和分词方法
CN110222045B (zh) 一种数据报表获取方法、装置及计算机设备、存储介质
CN110020424B (zh) 合同信息的提取方法、装置和文本信息的提取方法
CN106776532B (zh) 一种知识问答方法及装置
CN111708869B (zh) 人机对话的处理方法及装置
CN108647194B (zh) 信息抽取方法及装置
CN108959247B (zh) 一种数据处理方法、服务器及计算机可读介质
CN109388743B (zh) 语言模型的确定方法和装置
CN114757176B (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN109829045A (zh) 一种问答方法和装置
CN113342958B (zh) 问答匹配方法、文本匹配模型的训练方法和相关设备
JP6994289B2 (ja) キャラクタ属性に応じた対話シナリオを作成するプログラム、装置及び方法
CN108763355B (zh) 一种基于用户的智能机器人交互数据处理系统及方法
CN106970906A (zh) 一种基于语句分段的语义分析方法
CN106970909A (zh) 一种二次匹配语义的语义分析方法
CN111783425B (zh) 基于句法分析模型的意图识别方法及相关装置
KR20130068624A (ko) 화자 그룹 기반 음성인식 장치 및 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant