CN105632495A - 语音识别方法和装置 - Google Patents

语音识别方法和装置 Download PDF

Info

Publication number
CN105632495A
CN105632495A CN201511021289.6A CN201511021289A CN105632495A CN 105632495 A CN105632495 A CN 105632495A CN 201511021289 A CN201511021289 A CN 201511021289A CN 105632495 A CN105632495 A CN 105632495A
Authority
CN
China
Prior art keywords
language model
language
recognition result
answer
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201511021289.6A
Other languages
English (en)
Other versions
CN105632495B (zh
Inventor
彭星源
潘复平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201511021289.6A priority Critical patent/CN105632495B/zh
Publication of CN105632495A publication Critical patent/CN105632495A/zh
Application granted granted Critical
Publication of CN105632495B publication Critical patent/CN105632495B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

本发明提出一种语音识别方法和装置,上述语音识别方法包括:根据用户输入的语音向所述用户发出提问;接收所述用户针对所提问题的答案;根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴。本发明在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从而从整体上提高口语对话系统的性能。

Description

语音识别方法和装置
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音识别方法和装置。
背景技术
一个口语对话系统是一个能够通过自然语言与用户进行智能沟通的对话系统,通常是由一个语音识别模块、一个对话理解模块、一个对话管理模块、一个对话生成模块以及一个语音合成模块组成。通常,语音识别模块负责将语言转化为文字,然后交由对话理解模块、对话管理模块和对话生成模块生成答复文字,再交由语音合成模块生成语音,这几个模块的处理过程之间是相互独立的。语音识别的过程中并不会考虑对话的内容,而对话管理模块也仅仅是获得纯粹的文字信息,并不能从语音层面获得相应的信息。这样的对话系统虽然将对话过程分割清晰,实现简单,但缺失了一些尤为重要的信息,对话理解的准确性较低,口语对话系统的整体性能不高。
发明内容
本发明的目的旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的第一个目的在于提出一种语音识别方法。该方法在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从而从整体上提高口语对话系统的性能。
本发明的第二个目的在于提出一种语音识别装置。
为了实现上述目的,本发明第一方面实施例的语音识别方法,包括:根据用户输入的语音向所述用户发出提问;接收所述用户针对所提问题的答案;根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴的识别结果。
本发明实施例的语音识别方法中,根据用户输入的语音向上述用户发出提问,然后接收上述用户针对所提问题的答案,最后根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
为了实现上述目的,本发明第二方面实施例的语音识别装置,包括:提问模块,用于根据用户输入的语音向所述用户发出提问;接收模块,用于接收所述用户针对所提问题的答案;获得模块,用于根据所述提问模块所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述接收模块接收的答案的识别结果是否属于拒识范畴。
本发明实施例的语音识别装置中,提问模块根据用户输入的语音向上述用户发出提问,然后接收模块接收上述用户针对所提问题的答案,最后获得模块根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明语音识别方法一个实施例的流程图;
图2为本发明语音识别方法中语音识别模型一个实施例的示意图;
图3为本发明语音识别方法中非交叉模式一个实施例的示意图;
图4为本发明语音识别方法中交叉模式一个实施例的示意图;
图5为本发明语音识别装置一个实施例的结构示意图;
图6为本发明语音识别装置另一个实施例的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
图1为本发明语音识别方法一个实施例的流程图,如图1所示,上述语音识别方法可以包括:
步骤101,根据用户输入的语音向上述用户发出提问。
步骤102,接收上述用户针对所提问题的答案。
步骤103,根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
在传统的语音识别解码过程中,是采用一个通用语言模型,以应对各种领域下的语音识别,而当进行特定领域的语音识别任务的时候,本实施例针对特定领域构建与之对应的领域语言模型,如图2所示,图2为本发明语音识别方法中语音识别模型一个实施例的示意图。本实施例中,对每一个独立的受限领域构建其特定的解码空间;另外,本实施例中所涉及的领域均是受限领域,但由于面向受限的层度不同,需要针对不同层度的受限领域制定不同方法的解码器模式。
本发明图1所示实施例中,步骤103可以为:
如果所提问题属于强受限领域,则采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴;如果所提问题属于关键受限领域,则采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
本实施例中,当用于识别针对强受限领域的问题的答案的时候,采用非交叉方式进行正向语言模型和反向语言模型的竞争;而当用于识别针对关键受限领域的问题的答案的时候,则采用交叉方式进行正向语言模型和反向语言模型的竞争。
这是由于针对强受限领域的问题的答案基本上是处于常规说法被完全穷举的状态,因此一旦对话人说的是这些答案,则很容易由正向语言模型所解码出来;而一旦其中存在较多反向语言模型得分更高的N元文法,则容易由反向语言模型所解码。反向语言模型通常选用语音识别中通用情况下使用的语言模型(即通用语言模型)减去上述正向语言模型之后的模型。最终,非交叉模式下正反向语言模型的竞争结果,决定了上述答案的识别结果是否属于拒识范畴。
而针对关键受限领域的问题的答案则无法依靠关键词前后的上下文句式来实现准确的拒识,因此只能依靠关键部分的N元文法来实现,需要通过依靠关键词文法是由正向语言模型得出的特征信息,来判定上述答案的识别结果是否应该拒识。因此,对于上述答案的识别结果,可以根据每个词的正反向语言模型的归属,以及词本身是否是关键词来综合判定上述答案的识别结果是否应该被拒识。这里会训练一个简单的线性分类器来对以上两点的重要性做判定,得到最终的拒识结果。
具体地,图3为本发明语音识别方法中非交叉模式一个实施例的示意图,参见图3,采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴可以为:采用正向语言模型和反向语言模型分别对上述答案进行识别,分别获得正向语言模型对上述答案的识别结果的打分,以及反向语言模型对上述答案的识别结果的打分,其中,反向语言模型为通用语言模型减去正向语言模型之后的模型;然后,将上述正向语言模型对上述答案的识别结果的打分与反向语言模型对上述答案的识别结果的打分进行比较;如果正向语言模型对上述答案的识别结果的打分较高,则确定上述答案的识别结果不属于拒识范畴;如果反向语言模型对上述答案的识别结果的打分较高,则确定上述答案的识别结果属于拒识范畴。
图3中,WFST为加权有限状态转换器(WeightedFiniteStateTransducer)的缩写。
具体地,采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴可以为:采用正向语言模型和反向语言模型对上述答案中的每一项N元文法分别进行打分,取分值较高的识别结果作为上述答案中每一项N元文法的识别结果,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型;然后,根据最终获得的上述答案的识别结果中每个词和解析出上述词的语言模型的组合的重要程度,确定上述答案的识别结果是否属于拒识范畴。
参见图4,图4为本发明语音识别方法中交叉模式一个实施例的示意图,交叉模式指在解码过程允许语音的识别结果由不同的两个模型分别进行打分组合。例如,对于上述答案的识别结果w0,…,wn,上述识别结果中每一项N元文法的打分p(wi|w0...wi-1)可以由正向语言模型和反向语言模型分别进行打分,选取分值更高的结果胜出。对于最后的识别结果,每一个词都有可能是由正向语言模型或者反向语言模型中的某一个模型所得到,其本质是将正向语言模型和反向语言模型进行一种特殊的合并插值得到最终的合并WFST模型,如图4所示。对于最优的识别结果,将识别结果中的每个词和解析出上述词的语言模型的组合作为特征进入一个分类器中,根据上述词和解析出上述词的语言模型的组合的重要程度(由分类器输出),来判定最终的识别结果是否属于拒识范畴。具体来说,不包含关键受限领域中关键词的句子将更易于被判定为属于拒识范畴。
进一步地,本实施例步骤103之前,还可以包括:训练获得上述正向语言模型和上述反向语言模块,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型。
本实施例中,上述正向语言模型可以包括强受限领域语言模型和关键受限领域语言模型,也就是说,本实施例中,受限领域会被分为强受限领域和关键受限领域这两个层面的受限领域。所谓受限领域,是指在当前对话过程中,正确回答系统提问的结果是一定程度上可穷举的。而其中强受限领域是指,这种枚举是在整个回答的句子上是可穷举的;而关键受限领域则是,在回答的关键性信息上是可穷举。简单的说,强受限领域是指回答的整个句式都是基本可穷举的。例如,对“你是否要订明天的酒店?”这样的提问,回答的结果无外乎“是”与“不是”以及一些相似的回答,一旦可以穷举表示肯定或否定的常用句式,就可以用于构建这个领域的语言模型的训练数据。而对于关键受限领域,则是很难对回答的句式进行穷举,但是回答的关键性信息则是可以穷举的。例如,对“你想在北京哪个商圈居住?”这样的提问,回答的句式自然是多种多样,但是北京的商圈地点这个关键性信息是可穷举的,于是可以将领域的关键性信息进行穷举,以获得构建这个领域的语言模型的训练数据。
具体地,训练获得强受限领域语言模型可以为:通过正则表达式构造出类语言模型的原始语料;穷举上述类语言模型的原始语料中需要填充的类内语料;如果上述原始语料和上述类内语料组合生成的训练语料的规模小于或等于预定阈值,则对上述训练语料进行训练,生成上述强受限领域语言模型;如果上述原始语料和上述类内语料组合生成的训练语料的规模大于预定阈值,则生成上述类语言模型的原始语料中需要填充的类内语料的表述语言模型,将上述类语言模型与上述表述语言模型进行组合,生成上述强受限领域语言模型。
其中,上述预定阈值可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定阈值的大小不作限定。上述类语言模型的原始语料可以理解为句式,上述类语言模型的原始语料中需要填充的类内语料可以理解为上述句式中需要填充的内容。
具体地,训练获得关键受限领域语言模型可以为:通过正则表达式构造出类语言模型的原始语料;穷举上述类语言模型的原始语料中需要填充的类内关键词的所有语料;将上述原始语料与上述类内关键词的所有语料组合生成训练语料,并对上述训练语料进行训练,获得关键受限领域语言模型。
进一步地,在获得关键受限领域语言模型之后,还可以保留上述关键受限领域语言模型中上述类内关键词的语料的全部N元文法的概率,减小非类内关键词的语料的N元文法的概率。
举例来说,对于训练语料:“我想在北京订酒店”,其中“北京”为类内关键词。在3元语言模型中,对于3元文法需要保留“想在北京”、“在北京订”和“北京订酒店”这3个类内关键词的语料的3元文法的概率,而对于“我想在”等非类内关键词的语料的3元文法的概率则予以减小。
上述语音识别方法中,根据用户输入的语音向上述用户发出提问,然后接收上述用户针对所提问题的答案,最后根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
图5为本发明语音识别装置一个实施例的结构示意图,本实施例中的语音识别装置可以作为语音识别服务器,或者语音识别服务器的一部分实现本发明图1所示实施例的流程。
如图5所示,上述语音识别装置可以包括:提问模块51、接收模块52和获得模块53;
其中,提问模块51,用于根据用户输入的语音向上述用户发出提问;
接收模块52,用于接收上述用户针对所提问题的答案;
获得模块53,用于根据提问模块52所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得接收模块52接收的答案的识别结果是否属于拒识范畴。
在传统的语音识别解码过程中,是采用一个通用语言模型,以应对各种领域下的语音识别,而当进行特定领域的语音识别任务的时候,本实施例针对特定领域构建与之对应的领域语言模型,如图2所示。本实施例中,对每一个独立的受限领域构建其特定的解码空间;另外,本实施例中所涉及的领域均是受限领域,但由于面向受限的层度不同,需要针对不同层度的受限领域制定不同方法的解码器模式。
其中,获得模块53,具体用于当提问模块51所提问题属于强受限领域时,采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴;当提问模块51所提问题属于关键受限领域时,采用交叉方式进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴。
本实施例中,当用于识别针对强受限领域的问题的答案的时候,获得模块53采用非交叉方式进行正向语言模型和反向语言模型的竞争;而当用于识别针对关键受限领域的问题的答案的时候,则获得模块53采用交叉方式进行正向语言模型和反向语言模型的竞争。
这是由于针对强受限领域的问题的答案基本上是处于常规说法被完全穷举的状态,因此一旦对话人说的是这些答案,则很容易由正向语言模型所解码出来;而一旦其中存在较多反向语言模型得分更高的N元文法,则容易由反向语言模型所解码。反向语言模型通常选用语音识别中通用情况下使用的语言模型(即通用语言模型)减去上述正向语言模型之后的模型。最终,非交叉模式下正反向语言模型的竞争结果,决定了上述答案的识别结果是否属于拒识范畴。具体地,非交叉模式下正向语言模型和反向语言模型的竞争的示意图可以如图3所示。
而针对强受限领域的问题的答案则无法依靠关键词前后的上下文句式来实现准确的拒识,因此只能依靠关键部分的N元文法来实现,需要通过依靠关键词文法是由正向语言模型得出的特征信息,来判定上述答案的识别结果是否应该拒识。因此,对于上述答案的识别结果,获得模块53可以根据每个词的正反向语言模型的归属,以及词本身是否是关键词来综合判定上述答案的识别结果是否应该被拒识。这里会训练一个简单的线性分类器来对以上两点的重要性做判定,得到最终的拒识结果。
图6为本发明语音识别装置另一个实施例的结构示意图,与图5所示的语音识别装置相比,不同之处在于,获得模块53可以包括:打分子模块531、比较子模块532和确定子模块533;
本实施例的一种实现方式中,打分子模块531,用于采用正向语言模型和反向语言模型分别对上述答案进行识别,分别获得上述正向语言模型对上述答案的识别结果的打分,以及上述反向语言模型对上述答案的识别结果的打分,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型;
比较子模块532,用于将打分子模块531获得的正向语言模型对上述答案的识别结果的打分与打分子模块531获得的反向语言模型对上述答案的识别结果的打分进行比较;
确定子模块533,用于当上述正向语言模型对上述答案的识别结果的打分较高时,确定上述答案的识别结果不属于拒识范畴;当上述反向语言模型对上述答案的识别结果的打分较高时,确定上述答案的识别结果属于拒识范畴。
本实施例的另一种实现方式中,打分子模块531,用于采用正向语言模型和反向语言模型对上述答案中的每一项N元文法分别进行打分,其中,上述反向语言模型为通用语言模型减去所述正向语言模型之后的模型;
比较子模块532,用于取分值较高的识别结果作为上述答案中每一项N元文法的识别结果;
确定子模块533,用于根据最终获得的上述答案的识别结果中每个词和解析出上述词的语言模型的组合的重要程度,确定上述答案的识别结果是否属于拒识范畴。
参见图4,交叉模式指在解码过程允许语音的识别结果由不同的两个模型分别进行打分组合。例如,对于上述答案的识别结果w0,…,wn,上述识别结果中每一项N元文法的打分p(wi|w0...wi-1)可以由正向语言模型和反向语言模型分别进行打分,选取分值更高的结果胜出。对于最后的识别结果,每一个词都有可能是由正向语言模型或者反向语言模型中的某一个模型所得到,其本质是将正向语言模型和反向语言模型进行一种特殊的合并插值得到最终的合并WFST模型,如图4所示。对于最优的识别结果,确定子模块533将识别结果中的每个词和解析出上述词的语言模型的组合作为特征进入一个分类器中,根据上述词和解析出上述词的语言模型的组合的重要程度(由分类器输出),来判定最终的识别结果是否属于拒识范畴。具体来说,不包含关键受限领域中关键词的句子将更易于被判定为属于拒识范畴。
进一步地,上述语音识别装置还可以包括:
训练模块54,用于训练获得上述正向语言模型和上述反向语言模块,其中,上述反向语言模型为通用语言模型减去上述正向语言模型之后的模型。
本实施例中,上述正向语言模型可以包括强受限领域语言模型和关键受限领域语言模型,也就是说,本实施例中,受限领域会被分为强受限领域和关键受限领域这两个层面的受限领域。所谓受限领域,是指在当前对话过程中,正确回答系统提问的结果是一定程度上可穷举的。而其中强受限领域是指,这种枚举是在整个回答的句子上是可穷举的;而关键受限领域则是,在回答的关键性信息上是可穷举。简单的说,强受限领域是指回答的整个句式都是基本可穷举的。例如,对“你是否要订明天的酒店?”这样的提问,回答的结果无外乎“是”与“不是”以及一些相似的回答,一旦可以穷举表示肯定或否定的常用句式,就可以用于构建这个领域的语言模型的训练数据。而对于关键受限领域,则是很难对回答的句式进行穷举,但是回答的关键性信息则是可以穷举的。例如,对“你想在北京哪个商圈居住?”这样的提问,回答的句式自然是多种多样,但是北京的商圈地点这个关键性信息是可穷举的,于是可以将领域的关键性信息进行穷举,以获得构建这个领域的语言模型的训练数据。
具体地,训练模块54可以包括:构造子模块541、穷举子模块542和生成子模块543;
本实施例的一种实现方式中,构造子模块541,用于通过正则表达式构造出类语言模型的原始语料;
穷举子模块542,用于穷举构造子模块541构造的类语言模型的原始语料中需要填充的类内语料;
生成子模块543,用于当上述原始语料和上述类内语料组合生成的训练语料的规模小于或等于预定阈值时,对上述训练语料进行训练,生成上述强受限领域语言模型;当上述原始语料和上述类内语料组合生成的训练语料的规模大于预定阈值时,生成上述类语言模型的原始语料中需要填充的类内语料的表述语言模型,将上述类语言模型与上述表述语言模型进行组合,生成上述强受限领域语言模型。
其中,上述预定阈值可以在具体实现时根据实现需求和/或系统性能等自行设定,本实施例对上述预定阈值的大小不作限定。上述类语言模型的原始语料可以理解为句式,上述类语言模型的原始语料中需要填充的类内语料可以理解为上述句式中需要填充的内容。
本实施例的另一种实现方式中,构造子模块541,用于通过正则表达式构造出类语言模型的原始语料;
穷举子模块542,用于穷举构造子模块541构造的类语言模型的原始语料中需要填充的类内关键词的所有语料;
生成子模块543,用于将上述原始语料与上述类内关键词的所有语料组合生成训练语料,并对上述训练语料进行训练,获得关键受限领域语言模型。
进一步地,训练模块54还可以包括:
优化子模块544,用于在生成子模块543获得关键受限领域语言模型之后,保留上述关键受限领域语言模型中类内关键词的语料的全部N元文法的概率,减小非类内关键词的语料的N元文法的概率。
举例来说,对于训练语料:“我想在北京订酒店”,其中“北京”为类内关键词。在3元语言模型中,对于3元文法,优化子模块544需要保留“想在北京”、“在北京订”和“北京订酒店”这3个类内关键词的语料的3元文法的概率,而对于“我想在”等非类内关键词的语料的3元文法的概率则予以减小。
上述语音识别装置中,提问模块51根据用户输入的语音向上述用户发出提问,然后接收模块52接收上述用户针对所提问题的答案,最后获得模块53根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得上述答案的识别结果是否属于拒识范畴的识别结果,从而在为了完成特定任务的限定领域口语对话过程中,对整段语音切分后的语音文件进行有选择的识别,拒识无效尤其是杂音或其他领域的语音数据;同时,将领域信息直接用于语音识别端,提高了有效语音的识别率,并且可以为后续的对话理解模块提供有效的理解信息以辅助对话理解模块,从整体上提高口语对话系统的性能。
需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(ProgrammableGateArray;以下简称:PGA),现场可编程门阵列(FieldProgrammableGateArray;以下简称:FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,本发明各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (16)

1.一种语音识别方法,其特征在于,包括:
根据用户输入的语音向所述用户发出提问;
接收所述用户针对所提问题的答案;
根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴。
2.根据权利要求1所述的方法,其特征在于,所述根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴包括:
如果所提问题属于强受限领域,则采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴;
如果所提问题属于关键受限领域,则采用交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴。
3.根据权利要求2所述的方法,其特征在于,所述采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴包括:
采用正向语言模型和反向语言模型分别对所述答案进行识别,分别获得所述正向语言模型对所述答案的识别结果的打分,以及所述反向语言模型对所述答案的识别结果的打分,其中,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型;
将所述正向语言模型对所述答案的识别结果的打分与所述反向语言模型对所述答案的识别结果的打分进行比较;
如果所述正向语言模型对所述答案的识别结果的打分较高,则确定所述答案的识别结果不属于拒识范畴;如果所述反向语言模型对所述答案的识别结果的打分较高,则确定所述答案的识别结果属于拒识范畴。
4.根据权利要求2所述的方法,其特征在于,所述采用交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴包括:
采用正向语言模型和反向语言模型对所述答案中的每一项N元文法分别进行打分,取分值较高的识别结果作为所述答案中每一项N元文法的识别结果,其中,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型;
根据最终获得的所述答案的识别结果中每个词和解析出所述词的语言模型的组合的重要程度,确定所述答案的识别结果是否属于拒识范畴。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述根据所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴之前,还包括:
训练获得所述正向语言模型和所述反向语言模块,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型。
6.根据权利要求5所述的方法,其特征在于,所述正向语言模型包括强受限领域语言模型;
所述训练获得强受限领域语言模型包括:
通过正则表达式构造出类语言模型的原始语料;
穷举所述类语言模型的原始语料中需要填充的类内语料;
如果所述原始语料和所述类内语料组合生成的训练语料的规模小于或等于预定阈值,则对所述训练语料进行训练,生成所述强受限领域语言模型;
如果所述原始语料和所述类内语料组合生成的训练语料的规模大于预定阈值,则生成所述类语言模型的原始语料中需要填充的类内语料的表述语言模型,将所述类语言模型与所述表述语言模型进行组合,生成所述强受限领域语言模型。
7.根据权利要求5所述的方法,其特征在于,所述正向语言模型包括关键受限领域语言模型;
所述训练获得关键受限领域语言模型包括:
通过正则表达式构造出类语言模型的原始语料;
穷举所述类语言模型的原始语料中需要填充的类内关键词的所有语料;
将所述原始语料与所述类内关键词的所有语料组合生成训练语料,并对所述训练语料进行训练,获得关键受限领域语言模型。
8.根据权利要求7所述的方法,其特征在于,所述获得关键受限领域语言模型之后,还包括:
保留所述关键受限领域语言模型中所述类内关键词的语料的全部N元文法的概率,减小非类内关键词的语料的N元文法的概率。
9.一种语音识别装置,其特征在于,包括:
提问模块,用于根据用户输入的语音向所述用户发出提问;
接收模块,用于接收所述用户针对所提问题的答案;
获得模块,用于根据所述提问模块所提问题所属的受限领域,进行正向语言模型和反向语言模型的竞争,获得所述接收模块接收的答案的识别结果是否属于拒识范畴。
10.根据权利要求9所述的装置,其特征在于,
所述获得模块,具体用于当所述提问模块所提问题属于强受限领域时,采用非交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴;当所述提问模块所提问题属于关键受限领域时,采用交叉方式进行正向语言模型和反向语言模型的竞争,获得所述答案的识别结果是否属于拒识范畴。
11.根据权利要求10所述的装置,其特征在于,所述获得模块包括:
打分子模块,用于采用正向语言模型和反向语言模型分别对所述答案进行识别,分别获得所述正向语言模型对所述答案的识别结果的打分,以及所述反向语言模型对所述答案的识别结果的打分,其中,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型;
比较子模块,用于将所述打分子模块获得的正向语言模型对所述答案的识别结果的打分与所述打分子模块获得的反向语言模型对所述答案的识别结果的打分进行比较;
确定子模块,用于当所述正向语言模型对所述答案的识别结果的打分较高时,确定所述答案的识别结果不属于拒识范畴;当所述反向语言模型对所述答案的识别结果的打分较高时,确定所述答案的识别结果属于拒识范畴。
12.根据权利要求10所述的装置,其特征在于,所述获得模块包括:
打分子模块,用于采用正向语言模型和反向语言模型对所述答案中的每一项N元文法分别进行打分,其中,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型;
比较子模块,用于取分值较高的识别结果作为所述答案中每一项N元文法的识别结果;
确定子模块,用于根据最终获得的所述答案的识别结果中每个词和解析出所述词的语言模型的组合的重要程度,确定所述答案的识别结果是否属于拒识范畴。
13.根据权利要求9-12任意一项所述的装置,其特征在于,还包括:
训练模块,用于训练获得所述正向语言模型和所述反向语言模块,所述反向语言模型为通用语言模型减去所述正向语言模型之后的模型。
14.根据权利要求13所述的装置,其特征在于,所述正向语言模型包括强受限领域语言模型;
所述训练模块包括:
构造子模块,用于通过正则表达式构造出类语言模型的原始语料;
穷举子模块,用于穷举所述构造子模块构造的类语言模型的原始语料中需要填充的类内语料;
生成子模块,用于当所述原始语料和所述类内语料组合生成的训练语料的规模小于或等于预定阈值时,对所述训练语料进行训练,生成所述强受限领域语言模型;当所述原始语料和所述类内语料组合生成的训练语料的规模大于预定阈值时,生成所述类语言模型的原始语料中需要填充的类内语料的表述语言模型,将所述类语言模型与所述表述语言模型进行组合,生成所述强受限领域语言模型。
15.根据权利要求13所述的装置,其特征在于,所述正向语言模型包括关键受限领域语言模型;
所述训练模块包括:
构造子模块,用于通过正则表达式构造出类语言模型的原始语料;
穷举子模块,用于穷举所述构造子模块构造的类语言模型的原始语料中需要填充的类内关键词的所有语料;
生成子模块,用于将所述原始语料与所述类内关键词的所有语料组合生成训练语料,并对所述训练语料进行训练,获得关键受限领域语言模型。
16.根据权利要求15所述的装置,其特征在于,所述训练模块还包括:
优化子模块,用于在所述生成子模块获得关键受限领域语言模型之后,保留所述关键受限领域语言模型中所述类内关键词的语料的全部N元文法的概率,减小非类内关键词的语料的N元文法的概率。
CN201511021289.6A 2015-12-30 2015-12-30 语音识别方法和装置 Active CN105632495B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201511021289.6A CN105632495B (zh) 2015-12-30 2015-12-30 语音识别方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511021289.6A CN105632495B (zh) 2015-12-30 2015-12-30 语音识别方法和装置

Publications (2)

Publication Number Publication Date
CN105632495A true CN105632495A (zh) 2016-06-01
CN105632495B CN105632495B (zh) 2019-07-05

Family

ID=56047340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511021289.6A Active CN105632495B (zh) 2015-12-30 2015-12-30 语音识别方法和装置

Country Status (1)

Country Link
CN (1) CN105632495B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110294A (zh) * 2019-03-26 2019-08-09 北京捷通华声科技股份有限公司 一种动态反向解码的方法、装置及可读存储介质
CN110634480A (zh) * 2018-06-22 2019-12-31 株式会社日立制作所 语音对话系统与模型创建装置及其方法
CN111222331A (zh) * 2019-12-31 2020-06-02 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备
CN112017642A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060075533A (ko) * 2004-12-28 2006-07-04 엘지전자 주식회사 안티워드 모델을 이용한 음성인식 방법
CN101105939A (zh) * 2007-09-04 2008-01-16 安徽科大讯飞信息科技股份有限公司 发音指导方法
CN101452701A (zh) * 2007-12-05 2009-06-10 株式会社东芝 基于反模型的置信度估计方法及装置
KR20100068530A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
US20100161334A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word n-best recognition result
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060075533A (ko) * 2004-12-28 2006-07-04 엘지전자 주식회사 안티워드 모델을 이용한 음성인식 방법
CN101105939A (zh) * 2007-09-04 2008-01-16 安徽科大讯飞信息科技股份有限公司 发音指导方法
CN101452701A (zh) * 2007-12-05 2009-06-10 株式会社东芝 基于反模型的置信度估计方法及装置
KR20100068530A (ko) * 2008-12-15 2010-06-24 한국전자통신연구원 음성인식기에서 가비지 및 반단어 모델 기반의 거절 장치 및 방법
US20100161334A1 (en) * 2008-12-22 2010-06-24 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word n-best recognition result
CN102014278A (zh) * 2010-12-21 2011-04-13 四川大学 一种基于语音识别技术的智能视频监控方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张搏 等: "基于支持向量机的关键词拒识算法", 《微电子技术》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634480A (zh) * 2018-06-22 2019-12-31 株式会社日立制作所 语音对话系统与模型创建装置及其方法
CN110110294A (zh) * 2019-03-26 2019-08-09 北京捷通华声科技股份有限公司 一种动态反向解码的方法、装置及可读存储介质
CN110110294B (zh) * 2019-03-26 2021-02-02 北京捷通华声科技股份有限公司 一种动态反向解码的方法、装置及可读存储介质
CN112017642A (zh) * 2019-05-31 2020-12-01 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
WO2020238341A1 (zh) * 2019-05-31 2020-12-03 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN112017642B (zh) * 2019-05-31 2024-04-26 华为技术有限公司 语音识别的方法、装置、设备及计算机可读存储介质
CN111222331A (zh) * 2019-12-31 2020-06-02 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质
CN111222331B (zh) * 2019-12-31 2021-03-26 北京捷通华声科技股份有限公司 辅助解码方法、装置、电子设备及可读存储介质
CN111816165A (zh) * 2020-07-07 2020-10-23 北京声智科技有限公司 语音识别方法、装置及电子设备

Also Published As

Publication number Publication date
CN105632495B (zh) 2019-07-05

Similar Documents

Publication Publication Date Title
US11106983B2 (en) Intelligent interaction method and intelligent interaction system
CN105719649B (zh) 语音识别方法及装置
CN105632495A (zh) 语音识别方法和装置
CN111460115B (zh) 智能人机对话模型训练方法、模型训练装置及电子设备
CN108364650B (zh) 语音识别结果的调整装置及方法
CN111626062B (zh) 文本语义编码方法及系统
US20210193108A1 (en) Voice synthesis method, device and apparatus, as well as non-volatile storage medium
CN104573099A (zh) 题目的搜索方法及装置
CN110795532A (zh) 一种语音信息的处理方法、装置、智能终端以及存储介质
JP7300435B2 (ja) 音声インタラクションするための方法、装置、電子機器、およびコンピュータ読み取り可能な記憶媒体
CN105095186A (zh) 语义解析方法和装置
US11636272B2 (en) Hybrid natural language understanding
CN109408799B (zh) 语义决策方法和系统
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111539199B (zh) 文本的纠错方法、装置、终端、及存储介质
CN108932944A (zh) 解码方法及装置
CN117252957A (zh) 根据文字描述生成带精确文字图片的方法、装置及存储介质
CN111625629B (zh) 任务型对话机器人应答方法、装置及机器人、存储介质
CN113793599B (zh) 语音识别模型的训练方法和语音识别方法及装置
CN113132214B (zh) 一种对话方法、装置、服务器及存储介质
CN117370512A (zh) 回复对话的方法、装置、设备及存储介质
CN109002498B (zh) 人机对话方法、装置、设备及存储介质
CN116226338A (zh) 基于检索和生成融合的多轮对话系统及方法
CN111353035B (zh) 人机对话方法、装置、可读存储介质及电子设备
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant