CN105654946B

CN105654946B - 用于语音识别的设备和方法

Info

Publication number: CN105654946B
Application number: CN201510872727.3A
Authority: CN
Inventors: 崔喜烈; 李镐式
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-12-02
Filing date: 2015-12-02
Publication date: 2022-03-01
Anticipated expiration: 2035-12-02
Also published as: JP2016110087A; US20180226078A1; KR102380833B1; US20160155436A1; EP3029669B1; EP3029669A1; US9940933B2; JP6762701B2; KR20160066441A; CN105654946A; US11176946B2

Abstract

提供一种用于语音识别的设备和方法。一种语音识别方法包括：接收通过语音识别产生的句子；基于每个词与所述句子中的其它词的关系，计算所述句子中的每个词的适宜度；基于每个词的适宜度检测所述句子中的词之中的将被纠正的目标词；用与目标词相应的候选词中的任何一个来替换目标词。

Description

用于语音识别的设备和方法

本申请要求于2014年12月2日提交到韩国知识产权局的第 10-2014-0170818号韩国专利申请的权益，所述韩国专利申请的全部公开通过出于所有目的的引用包含于此。

技术领域

下面的实施例涉及一种用于语音识别的设备和方法。

背景技术

通常，应用于语音识别系统的当前语音识别方法在技术上不完美，并且因包括噪声的各种因素而不可避免地呈现识别错误。现有语音识别设备因这种错误而不能提供正确的候选答案，或者仅在解码操作中提供具有较高的成为正确答案的概率的候选答案，因此在语音识别中这种设备的准确性低。

发明内容

提供本发明内容以按照简化的形式来介绍对构思的选择，将在下面的具体实施方式中对所述构思进行进一步描述。本发明内容不意图确定所要求保护的主题的关键特征或必要特征，也不意图用作帮助确定所要求保护的主题的范围。

在一个总体方面，一种语音识别方法，包括：接收通过语音识别产生的句子；基于每个词与所述句子中的其它词的关系，计算所述句子中的每个词的适宜度；基于每个词的适宜度检测所述句子中的词之中的将要被纠正的目标词；用与目标词相应的候选词中的任何一个来替换目标词。

计算适宜度的步骤可包括：使用双向递归神经网络语言模型计算每个词的适宜度。

检测目标词的步骤可包括：进行以下操作中的一个或两者：检测具有低于预定阈值的适宜度的词和从最低适宜度开始按顺序检测预定数量的词。

替换目标词的步骤可包括：基于以下项中的任何一项或者以下项中的任何两项或更多项的组合来确定候选词：候选词与所述句子中的除了目标词之外的其它词的关系、候选词与目标词的音素序列的相似度和所述句子之前的另一句子的上下文。

确定候选词的步骤可包括：从预先提供的词典获得候选词。

替换目标词的步骤可包括：基于第一模型和第二模型中的一个或两者计算每个候选词的适宜度，其中，第一模型基于候选词与目标词的音素序列的相似度，第二模型基于候选词与所述句子中的除了目标词之外的其它词之间的关系。

替换目标词的步骤还可包括：设置第一模型的第一权重值和第二模型的第二权重值。

设置第一权重值和第二权重值的步骤可包括：基于与所述句子相关联的基于第一模型的概率分布动态地控制第一权重值和第二权重值。

产生句子的步骤包括：接收由用户表达的语音；从语音提取特征；使用声学模型从特征识别音素序列；通过使用语言模型从音素序列识别词来产生所述句子。

语言模型可包括二元语言模型。

在另一总体方面，一种非暂时性计算机可读存储介质，存储用于使计算硬件执行如上所述的方法的指令。

在另一总体方面，一种语音识别设备，包括：第一识别器，被配置为通过识别由用户表达的语音来产生句子；第二识别器，被配置为根据基于上下文的语言模型来纠正所述句子中的至少一个词。

第一识别器可包括：接收器，被配置为接收语音；提取器，被配置为从语音提取特征；解码器，被配置为从特征对音素序列进行解码；产生器，被配置为通过从音素序列识别词来产生所述句子。

基于上下文的语言模型可包括：双向递归神经网络语言模型。

第二识别器可包括：计算器，被配置为基于每个词与所述句子中的其它词的关系，计算所述句子中的每个词的适宜度；检测器，被配置为基于每个词的适宜度检测所述句子中的词之中的将被纠正的目标词；替换器，被配置为用与目标词相应的候选词中的任何一个来替换目标词。

检测器还可被配置为：进行以下操作中的一个或两者：检测具有低于预定阈值的适宜度的词和从最低适宜度开始按顺序检测预定数量的词。

替换器还可被配置为：基于以下项中的任何一项或者以下项中的任何两项或更多项的任何组合来确定候选词：目标词在所述句子中的位置、候选词与所述句子中的除了目标词之外的其它词的关系、候选词与目标词的音素序列的相似度和所述句子之前的另一句子的上下文。

替换器还可被配置为：从预先提供的词典获得候选词。

替换器还可被配置为：基于第一模型和第二模型中的任一个或两者计算每个候选词的适宜度，其中，第一模型基于与目标词的音素序列的相似度，第二模型基于与所述句子中的除了目标词之外的其它词之间的关系。

替换器还可被配置为：基于与所述句子相关联的基于第一模型的概率分布动态地控制针对第一模型的第一权重值和针对第二模型的第二权重值。

在另一总体方面，语音识别设备，包括：第一识别器，被配置为使用第一语言模型从由用户表达的语音识别句子；第二识别器，被配置为使用相比于第一语言模型具有更高复杂度的第二语言模型来提高所述句子的准确性。

第一识别器还可被配置为：使用声学模型从语音识别音素，并使用第一语言模型从音素识别所述句子。

第二识别器还可被配置为使用第二语言模型识别所述句子的所有词之中的在句子中最可能是错误的词，并利用第二语言模型用提高所述句子的准确性的词替换识别的词。

第二识别器还可被配置为：利用第二语言模型和声学模型用提高所述句子的精确性的词来替换识别的词。

第二识别器还可被配置为：基于识别的词获得候选词，并从候选词选择提高所述句子的准确性的词。

第二识别器还可被配置为：使用第二语言模型和声学模型中的一个或两者，基于识别的词和所述句子中的其它词从预先提供的词典获得候选词。

从以下具体实施方式、附图和权利要求书，其它特征和方面将是清楚的。

附图说明

图1是示出语音识别设备的示例的示图。

图2至图6是示出双向递归神经网络语言模型的示例的示图。

图7是示出语音识别设备的操作的示例的示图。

图8是示出第二识别器的示例的示图。

图9A至图13示出第二识别器的操作的示例的示图。

图14是示出第一识别器的示例的示图。

图15是示出语音识别设备的另一示例的示图。

图16至图18是示出语音识别方法的示例的流程图。

贯穿附图和具体实施方式，相同的标号表示相同的元件。附图可不成比例，并且为了清楚、说明和方便起见，可夸大附图中的元件的相对大小、比例和描绘。

具体实施方式

提供以下具体实施方式以帮助读者获取对描述在此的方法、设备和/或系统的全面理解。然而，对于本领域普通技术人员而言，在此描述的系统、设备和/或方法的各种改变、修改以及等同物将是清楚的。描述于此的操作的顺序仅为示例，除了操作必须按照特定顺序发生之外，操作的顺序不受在此阐述的顺序的限制，并且可如本领域技术人员中所知的那样改变。此外，为了更清楚和简明，对本领域普通技术人员公知的功能和结构的描述可被省略。

可以以不同形式来实施在此描述的特征，并且在此描述的特征不应被解释为受限于在此描述的示例。与之相反，已提供在此描述的示例使得本公开将是彻底且完整的，并且在此描述的示例将向本领域普通技术人员传达本公开的完整范围。

以下描述的示例可适用于语音识别方法并可用于各种装置和设备，诸如移动终端、智能家电、医疗设备、车辆控制装置和应用这种语音识别方法的其它计算装置。

图1是示出语音识别设备100的示例的示图。参照图1，语音识别设备 100包括第一识别器110和第二识别器120。第一识别器110通过识别由用户表达的语音来产生暂时识别结果。第一识别器110产生与暂时识别结果相应的句子。

第一识别器110基于第一语言模型识别语音以产生与暂时识别结果相应的句子。相比于由第二识别器120使用的第二语言模型，第一语言模型是更简单的模型，并且第一语言模型可包括例如n-元语言模型。因此，相比于第一语言模型，第二语言模型是更复杂的模型，或换言之，相比于第一语言模型，第二语言模型具有更高的复杂度。

第一识别器110可通过各种方式接收语音。例如，第一识别器110可接收通过麦克风输入的语音，接收存储在预先配备的存储器中的语音，或通过网络接收远程语音。下面将描述第一识别器110的详细操作。

第二识别器120基于暂时识别结果产生最终识别结果。如这里所使用的那样，最终识别结果是语音识别结果。第二识别器120基于第二语言模型纠正与暂时识别结果相应的句子中的至少一个词，并输出语音识别结果。语音识别结果是所述至少一个词被纠正的句子。因此，第二识别器120提高与第一识别器110识别的暂时识别结果相应的句子的准确性。

第二语言模型是基于句子的上下文的语言模型，并包括例如双向递归神经网络语言模型。在详细描述第二识别器120的操作之前，将参照图2至图 6简要描述双向递归神经网络语言模型。

图2至图6是示出双向递归神经网络语言模型的示例的示图。参照图2，神经网络200是使用通过连接线连接的多个人工神经元来对生物系统的可计算性进行仿真的识别模型。神经网络200使用这种具有生物神经元的简化功能的人工神经元。人工神经元还可被称为节点。人工神经元可通过具有各自的连接权重的连接线互连。神经网络200通过人工神经元执行人类认知或学习处理。

神经网络200包括层。例如，神经网络200包括输入层210、隐藏层220 和输出层230。输入层210接收用于执行学习的输入并将所述输入发送到隐藏层220，输出层230基于从隐藏层220接收的信号产生神经网络200的输出。隐藏层220位于输入层210与输出层230之间，并将通过输入层210发送的学习数据改变为可预测的值。

包括在输入层210中的输入节点和包括在隐藏层220中的隐藏节点通过具有各自的连接权重的连接线互连。包括在隐藏层220中的隐藏节点和包括在输出层230中的输出节点通过具有各自的连接权重的连接线互连。

在神经网络200的学习处理中，人工神经元之间的连接权重通过误差反向传播学习(error back-propagation learning)被更新。误差反向传播学习是通过对给定学习数据的正演计算来估计误差、并在沿从输出层230到隐藏层 220和输入层210的反向传播估计的误差时更新连接权重以减小所述误差的方法。

参照图3，递归神经网络300是在不同时间段中的隐藏节点之间具有递归连接的神经网络。相比于一般神经网络，递归神经网络300使用处理输入序列的内存储器。在先前时间段310中的隐藏节点的输出连接到当前时间段 320中的隐藏节点。类似地，在当前时间段320中的隐藏节点的输出连接到随后时间段330中的隐藏节点。

例如，先前时间段310中的第一隐藏节点311、当前时间段320中的第二隐藏节点321和随后时间段330中的第三隐藏节点331如图4所示连接。参照图4，第一隐藏节点311的输出被输入到第二隐藏节点321，第二隐藏节点321的输出被输入到第三隐藏节点331。

参照图5，双向递归神经网络500是在不同时间段中的隐藏节点之间具有双向递归连接的神经网络。与递归神经网络300类似，双向递归神经网络 500也使用处理输入序列的内存储器。在先前时间段510中的隐藏节点的输出连接到当前时间段520中的隐藏节点，在当前时间段520中的隐藏节点的输出连接到随后时间段530中的隐藏节点。此外，随后时间段530中的隐藏节点的输出连接到当前时间段520中的隐藏节点，当前时间段520中的隐藏节点的输出连接到先前时间段510的隐藏节点。

例如，在先前时间段510中的a 1-1隐藏节点511和a 1-2隐藏节点512、在当前时间段520中的a 2-1隐藏节点521和a 2-2隐藏节点522以及在随后时间段530中的a 3-1隐藏节点531和a 3-2隐藏节点532如图6所示连接。参照图6，3-1隐藏节点531的输出被输入到2-1隐藏节点521，2-1隐藏节点521的输出被输入到1-1隐藏节点511。此外，1-2隐藏节点512的输出被输入到2-2隐藏节点522，2-2隐藏节点522的输出被输入到3-2隐藏节点532。

双向递归神经网络语言模型是使用这种双向递归网络对语言的上下文、语法和其它特性进行训练的模型。返回参照图1，第二识别器120使用这样的双向递归神经网络语言模型基于句子的上下文纠正与暂时识别结果对应的句子中的词。例如，当与暂时识别结果相应的句子中的词对应于双向递归神经网络中的当前时间段时，位于所述词之前的词对应于双向递归神经网络中的先前时间段。类似地，位于所述词之后的词对应于双向递归神经网络中的随后时间段。

虽然为了便于描述将在这里描述第二识别器120使用双向递归神经网络语言模型的情况，但是第二识别器120的操作不限于这种情况。例如，第二识别器120可不使用基于双向递归神经网络的语言模型，而使用基于句子的上下文的任何语言模型，或者除了使用基于双向递归神经网络的语言模型之外，还可使用基于句子的上下文的任何语言模型。

图7是示出语音识别设备的操作的示例的示图。参照图7，图1的第一识别器110通过首先识别用户表达的语音710来产生暂时识别结果，图1的第二识别器120通过验证暂时识别结果来产生作为语音识别结果的最终识别结果。

在图7的示例中，第一识别器110接收语音710，例如，“Today my mom taught me astory”。第一识别器110因噪声715而不能正确地识别语音710。例如，在语音710的“taught”正被接收时发生噪声715的情况下，第一识别器110将“taught”错误地识别为“sought”。在这样的示例中，由第一识别器110产生的暂时识别结果为“Today my mom sought me astory”。

第二识别器120使用双向递归神经网络语言模型将“sought”确定为不适宜于上下文。由于“sought”被确定为不适宜，因此第二识别器120将“sought”纠正为“taught”。第二识别器120随时输出被纠正的句子。在这样的示例中，最终识别结果为“Today my momtaught me a story”。将参照图8至图13描述第二识别器120的详细操作。

图8是示出第二识别器120的示例的示图。参照图8，第二识别器120 包括计算器121、检测器122和替换器123。

计算器121基于与句子中的其它词的关系计算包括在由第一识别器110 产生的句子中的每个词的适宜度。检测器122基于计算的词的适宜度检测句子中的词之中的将被纠正的目标词。替换器123用与所检测的目标词对应的候选词中的任何一个来替换所述目标词。

在一个示例中，参照图9A，计算器121使用双向递归神经网络语言模型计算包括在与暂时识别结果相应的句子中的每个词的适宜度。双向递归神经网络语言模型接收与暂时识别结果相应的句子，并输出包括在句子中的词的各自的适宜度。

例如，双向递归神经网络语言模型基于句子的上下文输出“Today”的适宜度(s1)。“Today”的s1可以是条件概率。例如，“Today”的s1可被指示为在句子中其它词给定的条件下“Today”位于句子中的相应位置的概率。双向递归神经网络语言模型输出句子中的其它词的各自的适宜度，例如，“my”的适宜度(s2)、“mom”的适宜度(s3)、“sought”的适宜度(s4)、“me”的适宜度(s5)、“a”的适宜度(s6)和“story”的适宜度(s7)。

检测器122基于计算的适宜度(例如，s1至s7)检测要被纠正的目标词。例如，检测器122检测具有低于预定阈值的适宜度的词，或从最低适宜度的词开始按顺序检测预定数量的词。为了便于描述，将在下文中描述检测具有最低适宜度的词的情况。

图9A至图13示出第二识别器120的操作的示例的示图。

在图9A的示例中，在适宜度“s1至s7”之中，“sought”的s4最低。例如，由于“sought”与其它词不搭配并且不适合句子的上下文以及句子的语法和句法结构(例如，SVOC句子结构(主语+及物动词+宾语+宾语补足语))，因此“sought”的s4被计算为最低。在这样的示例中，检测器122将“sought”检测为要被纠正的目标词。

在另一示例中，参照图9B，计算器121基于“Today”与句子中的其它词中的每个词之间的关系，计算“Today”的适宜度“s1”。在图9B的示例中，“Today”与其它词之间的关系被指示为使用双向递归神经网络语言模型的分数。例如，计算器121计算对应于“Today”与“my”之间的关系的分数(s1-1)、对应于“Today”与“mom”之间的关系的分数(s1-2)、对应于“Today”与“sought”之间的关系的分数(s1-3)、对应于“Today”与“me”之间的关系的分数(s1-4)、对应于“Today”与“a”之间的关系的分数(s1-5)和对应于“Today”与“story”之间的关系的分数(s1-6)。

计算器121基于分数s1-1至s1-6计算“Today”的s1。例如，计算器 121使用各种统计(诸如分数s1-1至s1-6的和、平均值、离差和标准差) 计算“Today”的s1。计算器121使用用于计算“Today”的s1的方法来计算“my”的s2、“mom”的s3、“sought”的s4、“me”的s5、“a”的s6和“story”的s7。

参照图10，替换器123确定将被纠正的目标词的候选词，并从确定的候选词选择最佳候选词。替换器123使用各种方法来确定候选词。例如，替换器123基于目标词在与暂时识别结果对应的句子中的位置、候选词与句子中的除了目标词之外的其它词之间的关系、候选词与目标词的音素序列的相似度以及在与暂时识别结果相应的句子之前的句子的上下文，来确定候选词。

替换器123从预先提供的词典124获得候选词。替换器123基于目标词在与暂时识别结果相应的句子中的位置、候选词与句子中的除了目标词之外的其它词之间的关系、候选词与目标词的音素序列的相似度和在与暂时识别结果相应的句子之前的句子的上下文，从预先提供的词典124获得候选词。

例如，如图10中所示，替换器123基于候选词与除了目标词1010之外的其它词之间的关系，从词典124获得在上下文上可位于目标词1010的位置处的候选词1020。可选择地，替换器123可从词典124获得在语法上可位于目标词1010在与暂时识别结果相应的句子中的位置的候选词1020。可选择地，替换器123可从词典124获得与目标词1010的音素序列1015具有预定或更高的相似度的候选词1020，或者从一组候选词1020排除音素序列与目标词1010的音素序列1015具有预定差异度的词。可选择地，替换器123可基于与暂时识别结果相应的句子之前的句子的上下文，从词典124获得适宜置于目标词1010的位置的候选词1020。可选择地，替换器123可使用上述方法的各种组合从词典124获得候选词1020。

替换器123可使用上述第二语言模型从词典124获得候选词1020。可选择地，替换器123可使用上述第一语言模型从词典124获得候选词1020。可选择地，替换器123可使用以下针对图11描述的语言模型从词典124获得候选词。可选择地，替换器123可使用以下结合图11或图15描述的声学模型从词典124获得候选词1020。可选择地，替换器123可使用第二语言模型、第一语言模型、针对图11描述的语言模型、两个声学模型中的任何两个或更多个的组合，从词典124获得候选词1020。第二语言模型可以是以下针对图 11描述的语言模型，或图15中的第二语言模型1545，或另一语言模型。第一语言模型可以是以下针对图11描述的语言模型，或图15中的第一语言模型1535，或另一语言模型。声学模型可以是以下针对图11描述的声学模型，或图15中的声学模型1525，或另一声学模型。

在确定候选词1020之后，替换器123从候选词1020选择最佳候选词 1030。替换器123可使用各种方法选择最佳候选词1030。例如，替换器123 选择具有与目标词1010的音素序列1015最相似的音素序列的词作为最佳候选词1030。替换器123用最佳候选词1030来替换目标词1010。

例如，候选词1020包括如图10所示的“told”、“taught”、“said”和“asked”。替换器123从候选词1020选择具有与作为目标词1010的音素序列1015的“sought”的音素序列最相似的音素序列的“taught”作为最佳候选词1030。替换器123在与暂时识别结果相应的句子中将“sought”纠正为“taught”，并输出“sought”被纠正为“taught”的被纠正的句子。

替换器123根据基于语言模型的信息和基于声学模型的信息两者，从候选词1020选择最佳候选词1030。

参照图11，根据基于语言模型的信息1115和基于声学模型的信息1125 来计算每个候选词的适宜度1130。

基于语言模型的信息1115包括基于可以是双向递归神经网络语言模型的语言模型计算的候选词的各自的上下文分数。候选词的上下文分数可以是条件概率。例如，在句子中其它词给定的条件下，可基于语言模型计算候选词的各自的条件概率。

基于声学模型的信息1125包括基于声音模型计算的候选词的各自的语音分数。候选词的语音分数是音素序列中的相似度。例如，可基于声学模型计算目标词的音素序列与每个候选词的音素序列之间的相似度。

替换器123使用语言模型的权重值1110和声学模型的权重值1120调整基于语言模型的信息1115与基于声学模型的信息1125被反映在每个候选词的适宜度1130中的比率。在一个示例中，替换器123动态地控制语言模型的权重值1110和声学模型的权重值1120。例如，响应于声学模型的高可靠性，替换器123增大声学模型的权重值1120或减小语言模型的权重值1110。可选择地，响应于语言模型的高可靠性，替换器123增大语言模型的权重值或减小声学模型的权重值1120。

图12示出基于声学模型的可靠性对语言模型的权重值和声学模型的权重值进行动态控制的示例。参照图12，替换器123基于包括在暂时识别结果中的每个词的概率分布来确定声学模型的可靠性。当暂时识别结果产生时，从候选词选择在语音识别结果中包括的每个词。例如，当基于声学模型的概率分布集中在候选词(例如，候选词2)上时，如曲线图1200中的实线1210 所示，熵为低。低熵被解释为在从多个候选词选择候选词的操作中的高的识别可靠性，因此被解释为高可靠性的声学模型。在这样的示例中，替换器123 将声学模型的权重值设置为相对高于语言模型的权重值。可选择地，替换器 123将语言模型的权重值设置为相对低于声学模型的权重值。

作为另一示例，当如曲线图1200中的虚线1220所示，基于声学模型的概率分布针对候选词相对平坦时，熵为高。高熵被解释为在从多个候选词选择候选词的操作中的低的识别可靠性，因此被解释为低可靠性的声学模型。在这样的示例中，替换器123将声学模型的权重值设置为相对低于语言模型的权重值。可选择地，替换器123将语言模型的权重值设置为相对高于声学模型的权重值。

替换器123基于每个候选词的适宜度从候选词选择最佳候选词。例如，替换器123将具有最高适宜度的候选词选择为最佳候选词。

可以以各种方式实现图1的语音识别设备100的操作方法。参照图13，第一识别器110产生候选句子。第一识别器110基于接收的语音产生候选句子。

候选句子包括具有不同音素长度的词或不同数量的词。例如，第一候选句子1311中的第一词的音素长度短于第二候选句子1312中的第一词的音素长度。可选择地，第一候选句子1311和第二候选句子1312包括四个词，第三候选句子1313包括三个词。

每个候选句子被评估以获得句子分数。例如，第一候选句子1311、第二候选句子1312和第三候选句子1313的句子分数分别为70、65和50。

第二识别器120从每个候选句子检测将被纠正的至少一个目标词。第二识别器120使用上述方法将每个候选句子的目标词纠正为最佳候选词。这里，从单个候选句子选择至少两个目标词，第二识别器120顺序地或同时纠正目标词。

纠正的候选句子(例如，纠正的第一候选句子1321、纠正的第二候选句子1322和纠正的第三候选句子1323)被评估以获得句子分数。例如，纠正的第一候选句子1321、纠正的第二候选句子1322和纠正的第三候选句子1323 的句子分数分别为75、70和60。

第二识别器120重复纠正，直到具有预定或更高的句子分数的候选句子被产生为止。第二识别器120从纠正的候选句子检测目标词，并将检测的目标词纠正为最佳候选词。

候选句子的句子分数的次序可因重复纠正而颠倒。例如，再次纠正的第一候选句子1331、再次纠正的第二候选句子1322和再次纠正的第三候选句子1333的句子分数分别为80、90和70。第二识别器120随后输出再次纠正的第二候选句子1332作为最终结果。

第二识别器120不仅通过对候选句子再次打分来检测最佳候选句子，而且使用双向递归神经网络语言模型来纠正候选句子中的目标词。尽管因噪声和其它因素候选句子中不存在正确答案，第二识别器120也可提高语音识别的准确性。使用双向递归神经网络语言模型搜索词的第二识别器120的操作类似于由人类执行的语音识别机制。

图14是示出第一识别器110的示例的示图。参照图14，第一识别器110 包括接收器111、提取器112、解码器113和产生器114。

接收器111接收由用户表达的语音，提取器112从接收的语音提取特征。提取器112使用各种方法提取特征。例如，提取器112可使用线性预测编码 (LPC)方法、梅尔频率倒谱系数(MFCC)方法或本领域普通技术人员已知的从语音提取特征的任何其它方法，从语音提取特征。

解码器113从提取的特征对音素序列进行解码。例如，解码器113使用声学模型从提取的特征对音素序列进行解码。声学模型可使用基于模板对样式(pattern，图案)进行匹配的动态时间规整(DTW)方法和统计上识别样式 (pattern)的隐马尔可夫建模(HMM)方法。

产生器114通过从音素序列识别词来产生与暂时识别结果相应的句子。例如，产生器114使用第一语言模型从音素序列识别词。相比于由第二识别器120使用的第二语言模型，第一语言模型是更简单的语言模型，例如，二元语言模型(bigram linguistic model)。

虽然在图14中未示出，但是第一识别器110还可包括预处理器，所述预处理器从接收的语音提取识别区段，并执行预处理操作，例如，处理在识别区段中的噪声的操作。

图15是示出语音识别设备1500的另一示例的示图。参照图15，语音识别设备1500包括特征提取器1510、音素识别器1520、解码器1530、评估器 1540和采样器1550。

特征提取器1510从语音提取特征。特征提取器1510使用LPC方法、 MFCC方法或本领域普通技术人员已知的任何其它特征提取方法，从语音提取特征。音素识别器1520使用声学模型1525从特征识别音素。例如，声学模型1525可以是基于DTW的声学模型、基于HMM的声学模型或本领域普通技术人员已知的任何其它声学模型。解码器1530通过使用第一语言模型 1535从音素识别词来产生与暂时识别结果相应的句子。例如，第一语言模型 1535是n-元语言模型。

评估器1540评估与暂时识别结果相应的句子中的每个词的适宜度。评估器1540使用第二语言模型1545基于针对句子中的每个词的上下文评估每个词的适宜度。在一个示例中，第二语言模型1545是双向递归神经网络语言模型。评估器1540基于评估的结果确定句子中将被纠正的目标词的存在。例如，评估器1540计算句子中所有词的各自的条件概率，并基于条件概率检测目标词。

采样器1550对针对目标词的候选词进行推荐或采样。例如，采样器1550 基于第二语言模型1545推荐适宜于目标词的位置的词。例如，第二语言模型 1545是双向递归神经网络语言模型。采样器1550使用双向递归神经网络语言模型基于句子提供针对目标词的位置推荐的候选词的概率。例如，采样器 1550基于句子的从句子的前部至目标词的位置的第一部分和句子的从句子的后部至目标词的位置的第二部分计算适宜于目标词的位置的候选词的概率。在一个示例中，采样器1550从最高概率开始按顺序从词典1560选择预定数量的候选词。

如果必要，采样器1550将候选词的基于声学模型的音素序列与目标词的基于声学模型的音素序列之间的距离进行比较。在一个示例中，采样器1550 从一组候选词排除候选词的基于声学模型的音素序列与目标词的基于声学模型的音素序列之间具有预定距离或更长距离的候选词。在一个示例中，候选词的音素序列被存储在词典1560中。

采样器1550使用上下文信息推荐候选词。例如，采样器1550检测先前句子的主题，并基于检测的主题推荐随后句子中的候选词。在一个示例中，采样器1550将从先前句子检测的主题与和预先存储在词典1560中的词相关联的主题进行比较，并将具有与检测的主题类似的主题的词推荐为候选词。

评估器1540评估采样的词的适宜度。评估器1540通过将目标词与基于第二语言模型1545推荐的候选词进行比较来选择最佳候选词。在一个示例中，当将目标词与候选词进行比较时，评估器1540动态地控制第二语言模型 1545的权重值和声学模型1525的权重值。例如，当基于声学模型1525计算的概率分布集中在候选词上并且熵为低时，评估器1540将高的权重值分配给声学模型1525。相反，当基于声学模型1525计算的概率分布针对候选词相对平坦并且熵为高时，评估器1540将低的权重值分配给声学模型1525。

声学模型1525、第一语言模型1535和第二语言模型1545可被存储在预先配备在语音识别设备1500中的存储器中，或远程的服务器中。当声学模型 1525、第一语言模型1535和第二语言模型1545被存储在服务器中时，语音识别设备1500通过网络使用存储在服务器中的模型。

语音识别设备1500输出对事件类型噪声具有鲁棒性的语音识别的结果。在识别率因噪声和其它因素而降低的情况下，语音识别设备1500通过基于语言模型的采样提高识别率。

虽然在以上示例中，采样器1550使用第二语言模型1545来推荐候选词，但是这仅是示例，如第一语言模型1535与采样器1550之间的虚连接线所指示的那样，采样器可使用第一语言模型1535来推荐候选词，或者如声学模型 1525与采样器1550之间的虚连接线所指示的那样，采样器可使用声学模型 1525来推荐候选词，或者可使用第二语言模型1545、第一语言模型1535和声学模型1525中的任何两个或更多个的任何组合来推荐候选词。

图16至图18是示出语音识别方法的示例的流程图。

参照图16，语音识别方法的示例包括接收通过语音识别产生的句子的操作1610、基于与句子中的其它词的关系计算包括在句子中的每个词的适宜度的操作1620、基于计算的每个词的适宜度检测句子中的词之中的将被纠正的目标词的操作1630和用与目标词相应的候选词中的任一个来替换目标词的操作1640。图1的第二识别器120的操作的描述也可适用于图16中示出的操作，因此为了简洁，这里已省略重复描述。

参照图17，语音识别方法的示例包括接收由用户表达的语音的操作 1710、从语音提取特征的操作1720、使用声学模型从特征识别音素序列的操作1730和通过使用语言模型从音素序列识别词来产生句子的操作1740。图1 的第一识别器110的操作的描述也可适用于图17中示出的操作，因此为了简洁，这里已省略重复描述。

参照图18，语音识别方法的示例包括从语音提取特征的操作1810、从特征识别音素的操作1820、从音素对词进行解码的操作1830、评估词的操作 1840、确定不适当的词是否存在的操作1850和响应于存在不适当的词对候选词进行采样以替换不适当的词的操作1860。

更详细地，在操作1840，通过评估采样的候选词，最佳候选词被选择以替换不适当的词。操作1840至操作1860被重复直到不再存在不适当的词为止。在操作1870，当不存在适当的词时，最佳句子被输出。

对图15的语音识别设备1500的操作的描述也可适用于图18中示出的操作，因此为了简洁，这里已省略重复描述。

可通过硬件组件来实现执行这里针对图1至图18描述的操作的图1中的语音识别设备100、第一识别器110、和第二识别器120，图7中的第一识别器110和第二识别器120，图8中的第二识别器120、计算器121、检测器122 和替换器123，图9A中的双向递归神经网络语言模型，图14中的第一识别器110、接收器111、提取器112、解码器113和产生器114，图15中的语音识别设备1500、特征提取器1510、音素识别器1520、声学模型1525、解码器1530、第一语言模型1535、评估器1540、第二语言模型1545、采样器1550。硬件组件的示例包括控制器、传感器、产生器、模数(A/D)转换器、数模(D/A) 转换器和本领域普通技术人员已知的其它任何电子组件。在一个示例中，可通过计算硬件(例如，通过一个或更多个处理器或计算机)来实现硬件组件。通过一个或更多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元)、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或本领域普通技术人员已知的能够以限定的方式响应和执行指令以达到期望的结果的任何其它装置或装置的组合来实现处理器或计算机。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或更多个存储器。由处理器或计算机实现的硬件组件运行诸如操作系统(OS)和运行在OS上的一个或更多个软件应用的指令或软件，以执行这里针对图1 至图8描述的操作。硬件组件还可响应于指令或软件的执行来访问、操作、处理、创建和存储数据。为了简明的目的，术语“处理器”或“计算机”可用于这里描述的示例的描述中，但是在其它示例中，使用多个处理器或计算机，或者，处理器或计算机包括多个处理元件或多种类型的处理元件或者包括两者。在一个示例中，硬件组件包括多个处理器，在另一示例中，硬件组件包括处理器和控制器。硬件组件具有不同的处理构造中的任何一个或更多个，硬件组件的示例包括单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理设备、单指令多数据(SIMD) 多处理设备、多指令单数据(MISD)多处理设备和多指令多数据(MIMD)多处理设备。

可由如上所述的运行指令或软件以执行这里描述的操作的处理器或计算机来执行图16至图18中示出的执行这里针对图1至图18描述的操作的方法。

用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件可被写为计算机程序、代码段、指令或它们的任何组合，以用于独立地或共同地指示或配置处理器或计算机如机器或专用计算机一样操作以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码，诸如由编译器产生的机器代码。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程员可基于附图中示出的框图和流程图以及说明书中的相应描述容易地编写指令或软件，其中，附图中示出的框图和流程图以及说明书的描述公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

用于控制处理器或计算机实现硬件组件并执行上述方法的指令或软件以及任何关联的数据、数据文件和数据结构被记录、存储或固定在一个或更多个非暂时性计算机可读存储介质中。非暂时性计算机可读存储介质的示例包括只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、 CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、 BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘和本领域普通技术人员已知的能够以非暂时方式存储指令或软件以及任何关联的数据、数据文件和数据结构并将指令或软件以及任何关联的数据、数据文件和数据结构提供给处理器或计算机使得处理器或计算机可执行指令的任何装置。在一个示例中，软件或指令以及任何关联的数据、数据文件和数据结构分布在网络连接的计算机系统上，从而通过处理器或计算机以分布方式存储、访问并执行指令和软件以及任何关联的数据、数据文件和数据结构。

虽然本公开包括特定示例，但是本领域普通技术人员将清楚，在不脱离权利要求及其等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。这里描述的示例仅被考虑为描述性的，而不是限制的目的。每个示例中的特征或方面的描述将被认为可应用于其它示例中的类似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、结构、装置或电路中的组件以不同的方式被组合和/或被其它组件或其等同物代替或补充，则可获得适宜的结果。因而，本公开的范围不是由具体实施方式限定，而是由权利要求及其等同物限定，并且权利要求及其等同物的范围内的所有改变均被解释为包括在本公开内。

Claims

1.一种语音识别方法，包括：

接收通过语音识别产生的句子；

基于每个词与所述句子中的其它词的关系，计算所述句子中的每个词的适宜度，其中，每个词的适宜度指示在句子中其它词给定的条件下每个词位于句子中的相应位置的概率；

基于每个词的适宜度检测所述句子中的词之中的要被纠正的目标词；

用与目标词对应的候选词中的任何一个来替换目标词。

2.如权利要求1所述的语音识别方法，其中，计算适宜度的步骤包括：使用双向递归神经网络语言模型计算每个词的适宜度。

3.如权利要求1所述的语音识别方法，其中，检测目标词的步骤包括：

进行以下操作中的一个或两者：检测具有低于预定阈值的适宜度的词和从最低适宜度开始按顺序检测预定数量的词。

4.如权利要求1所述的语音识别方法，其中，替换目标词的步骤包括：基于以下项中的任何一项或者以下项中的任何两项或更多项的组合来确定候选词：候选词与所述句子中的除了目标词之外的其它词的关系、候选词与目标词的音素序列的相似度和所述句子之前的另一句子的上下文。

5.如权利要求4所述的语音识别方法，其中，确定候选词的步骤包括：从预先提供的词典获得候选词。

6.如权利要求1所述的语音识别方法，其中，替换目标词的步骤包括：基于第一模型和第二模型中的一个或两者计算每个候选词的适宜度，其中，第一模型基于候选词与目标词的音素序列的相似度，第二模型基于候选词与所述句子中的除了目标词之外的其它词之间的关系。

7.如权利要求6所述的语音识别方法，其中，替换目标词的步骤还包括：设置第一模型的第一权重值和第二模型的第二权重值。

8.如权利要求7所述的语音识别方法，其中，设置第一权重值和第二权重值的步骤包括：基于与所述句子相关联的基于第一模型的概率分布，来动态地控制第一权重值和第二权重值。

9.如权利要求1所述的语音识别方法，其中，产生句子的步骤包括：

接收由用户表达的语音；

从语音提取特征；

使用声学模型从特征识别音素序列；

通过使用语言模型从音素序列识别词来产生所述句子。

10.如权利要求9所述的语音识别方法，其中，语言模型包括二元语言模型。

11.一种非暂时性计算机可读存储介质，存储用于使计算硬件执行权利要求1的方法的指令。

12.一种语音识别设备，包括：

第一识别器，被配置为通过识别由用户表达的语音来产生句子；

第二识别器，被配置为根据基于上下文的语言模型来纠正所述句子中的至少一个词，

其中，第二识别器包括：

计算器，被配置为基于每个词与所述句子中的其它词的关系，计算所述句子中的每个词的适宜度，其中，每个词的适宜度指示在句子中其它词给定的条件下每个词位于句子中的相应位置的概率；

检测器，被配置为基于每个词的适宜度检测所述句子中的词之中的将要被纠正的目标词；

替换器，被配置为用与目标词对应的候选词中的任何一个来替换目标词。

13.如权利要求12所述的语音识别设备，其中，第一识别器包括：

接收器，被配置为接收语音；

提取器，被配置为从语音提取特征；

解码器，被配置为从特征对音素序列进行解码；

产生器，被配置为通过从音素序列识别词来产生所述句子。

14.如权利要求12所述的语音识别设备，其中，基于上下文的语言模型包括：双向递归神经网络语言模型。

15.如权利要求12所述的语音识别设备，其中，检测器还被配置为：进行以下操作中的一个或两者：检测具有低于预定阈值的适宜度的词和从最低适宜度开始按顺序检测预定数量的词。

16.如权利要求12所述的语音识别设备，其中，替换器还被配置为：基于以下项中的任何一项或者以下项中的任何两项或更多项的任何组合来确定候选词：目标词在所述句子中的位置、候选词与所述句子中的除了目标词之外的其它词的关系、候选词与目标词的音素序列的相似度以及所述句子之前的另一句子的上下文。

17.如权利要求16所述的语音识别设备，其中，替换器还被配置为：从预先提供的词典获得候选词。

18.如权利要求12所述的语音识别设备，其中，替换器还被配置为：基于第一模型和第二模型中的一个或两者计算每个候选词的适宜度，其中，第一模型基于候选词与目标词的音素序列的相似度，第二模型基于候选词与所述句子中的除了目标词之外的其它词之间的关系。

19.如权利要求18所述的语音识别设备，其中，替换器还被配置为：基于与所述句子相关联的基于第一模型的概率分布，来动态地控制第一模型的第一权重值和第二模型的第二权重值。

20.一种语音识别设备，包括：

第一识别器，被配置为使用第一语言模型从由用户表达的语音识别句子；

第二识别器，被配置为使用相比于第一语言模型具有更高复杂度的第二语言模型来提高所述句子的准确性，

其中，第二识别器，被配置为：

用与目标词对应的候选词中的任何一个来替换目标词。

21.如权利要求20所述的语音识别设备，其中，第一识别器还被配置为：使用声学模型从语音识别音素，并使用第一语言模型从音素识别所述句子。

22.如权利要求20所述的语音识别设备，其中，第二识别器还被配置为使用第二语言模型识别所述句子的所有词之中的在所述句子中最可能被纠正的目标词，并利用第二语言模型用提高所述句子的准确性的词替换识别的目标词。

23.如权利要求22所述的语音识别设备，其中，第二识别器还被配置为：利用第二语言模型和声学模型用提高所述句子的精确性的词来替换识别的目标词。

24.如权利要求23所述的语音识别设备，其中，第一识别器还被配置为：使用声学模型从语音识别音素，并使用第一语言模型从音素识别所述句子。

25.如权利要求22所述的语音识别设备，其中，第二识别器还被配置为：基于识别的词获得候选词，并从候选词选择提高所述句子的准确性的词。

26.如权利要求25所述的语音识别设备，其中，第二识别器还被配置为：使用第二语言模型和声学模型中的一个或两者，基于识别的词和所述句子中的其它词从预先提供的词典获得候选词。