CN112700778A

CN112700778A - 语音识别方法和语音识别设备

Info

Publication number: CN112700778A
Application number: CN202010325607.2A
Authority: CN
Inventors: 李知炫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2019-10-22
Filing date: 2020-04-23
Publication date: 2021-04-23
Also published as: US11631414B2; US20210118446A1; EP3813060A1; EP3813060B1; KR20210047709A; KR102577589B1

Abstract

公开了一种语音识别方法和语音识别设备。所述语音识别方法包括：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；响应于获得的候选文本中的当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，调整当前候选文本的分数；和在获得的候选文本和当前候选文本中确定与语音数据对应的目标文本。

Description

语音识别方法和语音识别设备

本申请要求于2019年10月22日在韩国知识产权局提交的第10-2019-0131618号韩国专利申请的权益，所述韩国专利申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及语音识别技术。

背景技术

语音识别是计算机通过解释人类说出的用于通信的语音而将该语音转换成文本数据的技术。语音识别技术随着用户对于便利性的需求而迅速发展。使用神经网络的用于语音识别的技术已经被积极研究。神经网络是通过数学表达式对人类的生物神经细胞的特性进行建模的模型，并且采用模拟人类大脑的学习能力的算法。神经网络具有基于学习的结果针对尚未用于训练的输入模式生成相对准确的输出的泛化能力。由于泛化能力，这种神经网络在语音识别的领域被广泛的应用。

发明内容

提供本发明内容以便以简化的形式介绍以下在具体实施方式中进一步描述的构思的选择。本发明内容不意在确定要求保护的主题的关键特征或必要特征，也不意在用于帮助确定要求保护的主题的范围。

在一个总体方面，一种语音识别方法包括：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；响应于获得的候选文本中的当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，调整当前候选文本的分数；和在获得的候选文本和当前候选文本中，确定与语音数据对应的目标文本。

所述语音识别方法还可包括：确定当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值是否满足所述条件。

基于获得的候选文本的文本长度确定的文本长度可以是获得的候选文本的文本长度的平均值。

基于获得的候选文本的文本长度确定的文本长度可以是排除获得的候选文本中的最大文本长度和最小文本长度之外的获得的候选文本的文本长度的平均值。

确定所述差值是否满足所述条件的步骤可包括：响应于所述差值大于基于获得的候选文本的文本长度的标准偏差确定的阈值，确定满足所述条件。

调整的步骤可包括：确定与当前候选文本对应的权重；和通过将所述权重调施加到当前候选文本的分数来确定加权分数。

确定所述权重的步骤可包括：基于当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值，确定将被施加到当前候选文本的权重。

在另一总体方面，一种语音识别方法包括：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；和响应于当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，基于除当前候选文本之外的获得的候选文本的分数来确定与语音数据对应的目标文本。

确定目标文本的步骤可包括：将获得的候选文本中的除当前候选文本之外的具有最高分数的候选文本确定为目标文本。

在另一总体方面，一种语音识别方法包括：接收语音数据；使用语音识别模型获得与语音数据对应的多个候选文本以及所述多个候选文本的各自的分数；基于所述多个候选文本的文本长度来调整候所述多个选文本的各自的分数；和基于调整的结果，在所述多个候选文本中确定与语音数据对应的目标文本。

调整的步骤可包括：确定与包括在获得的所述多个候选文本中的当前候选文本对应的权重；和通过将与当前候选文本对应的所述权重施加到当前候选文本的分数来确定加权分数。

确定所述权重的步骤可包括：基于当前候选文本的文本长度与基于获得的所述多个候选文本的文本长度确定的文本长度之间的差值，确定将被施加到当前候选文本的权重。

在另一总体方面，一种语音识别设备包括：一个或多个处理器，其中，所述一个或多个处理器被配置为：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；响应于获得的候选文本中的当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，调整当前候选文本的分数；和在获得的候选文本和当前候选文本中，确定与语音数据对应的目标文本。

在另一总体方面，一种语音识别设备包括：一个或多个处理器，其中，所述一个或多个处理器被配置为：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；和响应于当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，基于除当前候选文本之外的获得的候选文本的分数来确定与语音数据对应的目标文本。

在另一总体方面，一种语音识别设备包括：一个或多个处理器，其中，所述一个或多个处理器被配置为：接收语音数据；使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；基于候选文本的文本长度来调整候选文本的各自的分数；和基于调整的分数，在候选文本中确定与语音数据对应的目标文本。

在另一总体方面，一种处理器实现的方法包括：使用语音识别模型获得与接收的语音数据对应的候选文本以及每个候选文本的分数；基于各自的一个或多个候选文本中的每个候选文本的文本长度与基于多个获得的候选文本的文本长度计算的值之间的差值，调整候选文本中的一个或多个候选文本的分数；和在调整之后，基于候选文本的分数来选择与语音数据对应的目标文本，并且输出目标文本。

所述多个获得的候选文本可包括所有获得的候选文本。

所述多个获得的候选文本可包括除了具有最大文本长度或最小文本长度的至少一个获得的候选文本之外的所有获得的候选文本。

所述值可以是所述多个获得的候选文本的文本长度的平均文本长度。

所述值可基于所述多个获得的候选文本的文本长度的标准偏差。

从下面的具体实施方式、附图以及权利要求，其它特征和方面将是清楚的。

附图说明

图1示出语音识别系统的概述的示例。

图2示出语音识别设备的操作的示例。

图3示出后处理器的配置的示例。

图4示出语音识别方法的示例。

图5示出语音识别处理的示例。

图6示出语音识别方法的示例。

图7示出语音识别处理的示例。

图8示出语音识别方法的示例。

图9示出语音识别处理的示例。

图10示出语音识别设备的配置的示例。

贯穿附图和具体实施方式，除非另外描述或提供，否则相同的附图参考标号将被理解为表示相同的元件、特征和结构。附图可不按比例，并且为了清楚、说明和方便，附图中的元件的相对尺寸、比例和描绘可被夸大。

具体实施方式

提供下面的详细结构或功能描述仅作为示例，并且可对示例进行各种改变和修改。因此，示例不被解释为限于公开，而是应被理解为包括在公开的技术范围内的所有改变、等同物和替换。

在此可使用诸如第一、第二等的术语来描述组件。这些术语中的每个不用于定义相应的组件的本质、顺序或序列，而是仅用于将相应的组件与其它组件区分开。此外，应注意，如果描述第一组件“连接”、“结合”或“接合”到第二组件，则尽管第一组件可直接连接、结合或接合到第二组件，但是第三组件可“连接”、“结合”或“接合”在第一组件与第二组件之间。

除非上下文另外清楚地指示，否则单数形式也意在包括复数形式。还将理解，当术语“包括”和/或“包含”在此被使用时，说明存在陈述的特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或它们的组。

除非另有定义，否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员通常理解的含义相同的含义。除非在此明确地如此定义，否则术语(诸如，在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文中的含义一致的含义，并且不应被理想化或过于形式化地解释。

在下文中，将参照附图详细描述示例。在附图中同样的参考标号表示同样的元件，因此将省略它们的描述。

图1示出语音识别系统的概述的示例。

参照图1，语音识别系统100在一个或多个计算机或终端上运行。在一个示例中，用户通过语音输入120将预定的命令输入到语音识别系统100中。语音输入120包括多个词序列，并且每个词序列包括词、从属于词的子词、短语或句子。

语音识别系统100通过分析与来自用户的语音输入120对应的语音数据来估计与语音输入120对应的目标文本140。语音识别系统100从估计的目标文本140估计在目标文本140中隐含的来自用户的命令，并且向用户提供执行提取的命令的结果。例如，如果与语音输入120对应的目标文本140被识别为“Call Mark”，则语音识别系统100从联系人数据库检索Mark的电话号码，并且执行用Mark的电话号码进行呼叫的功能。除了识别包括在用户的语音输入120中的命令之外，语音识别系统100可用于各种应用(诸如，机器翻译和人机对话引擎)。

语音识别系统100包括被编程为接收语音输入120的语音数据并将语音输入120转换成目标文本140的语音识别设备110。语音识别设备110通过分析语音输入120的语音数据来生成与语音输入120对应的文本数据。语音识别设备110可由被配置为将包括在语音输入120中的词转换成文本的软件模块、硬件模块或它们的组合来实现。语音识别设备110可被嵌入在移动电话、蜂窝电话、智能电话、个人计算机、膝上型计算机、笔记本、上网本或平板、个人数字助理(PDA)、数码相机、游戏机、MP3播放器、个人多媒体播放器(PMP)、电子书(E-Book)、导航系统、盘播放器、机顶盒、家用电器以及其它电子装置中，或者可与移动电话、蜂窝电话、智能电话、个人计算机、膝上型计算机、笔记本、上网本或平板、个人数字助理(PDA)、数码相机、游戏机、MP3播放器、个人多媒体播放器(PMP)、电子书(E-Book)、导航系统、盘播放器、机顶盒、家用电器以及其它电子装置交互操作。此外，语音识别设备110可被嵌入在智能家用电器、智能车辆、自主车辆、智能家居环境、智能建筑环境、智能办公环境、智能电子安全系统、以及佩戴在用户上的可穿戴装置中，或者可与智能家用电器、智能车辆、自主车辆、智能家居环境、智能建筑环境、智能办公环境、智能电子安全系统、以及佩戴在用户上的可穿戴装置交互操作。

语音识别设备110使用存储在语言模型数据库130中的语言模型来提高语音识别结果的准确度。语言模型是构成自然语言处理引擎的组件，并且用于提供与识别语音输入的结果对应的自然表达。语言模型提供与词(包括子词)、短语和/或句子相关的概率值，并且语音识别设备110基于由语言模型提供的文本表达和文本表达的概率值来确定语音识别结果。一个或多个语言模型被用于确定语音识别结果。用于语音识别的语言模型包括例如独立于语音输入的域的通用语言模型、用包括主要用于每个域的语音表达的语料库训练的语言模型、以及基于用户信息或存储在用户终端(诸如，智能电话)上的信息(例如，联系人)的个性化语言模型(PLM)。语言模型数据库130包括在语音识别设备110中或位于语音识别设备110的外部。如果语言模型数据库130位于语音识别设备110的外部，则语言模型数据库130可存在于能够与语音识别设备110通信的服务器(未示出)中。

在确定目标文本140时，语音识别设备110首先获得可能与语音输入120对应的若干候选文本，从获得的候选文本选择最优的候选文本，并且将选择的候选文本确定为目标文本140。语音识别设备110获得候选文本的分数以及候选文本，并且基于分数从候选文本选择目标文本140。例如，分数是指示候选文本与期望的目标文本140对应的概率或可能性的指标。

通常，如果当语音输入被输入到语音识别设备中时周围存在大的噪声，或者取决于用于训练语音识别模型的训练数据的状态，则遗漏应被包括在语音输入中的语音的一部分的结果或一部分重复出现的结果可能被错误地确定为语音识别结果。用于确定语音识别结果的每个候选文本的分数基于构成候选文本的分量(例如，词或词法单元)的概率的乘积来确定。在这个示例中，分数随着候选文本的文本长度增大而减小，因此候选文本可能不利于被选择为目标文本。因此，当与用户的实际话语比较时，极短的目标文本可能被错误地确定为语音识别结果。为了解决将短的目标文本错误地确定为语音识别结果的问题，归一化可被使用。然而，归一化可能带来将极长的目标文本错误地确定为语音识别结果的问题。

根据在下文中阐述的示例，语音识别设备110防止遗漏话语的一部分的结果或一部分重复出现的结果被错误地确定为语音识别结果。例如，语音识别设备110考虑候选文本的文本长度来调整候选文本的分数，从而防止遗漏话语的一部分的结果或一部分重复出现的结果被确定为最终的语音识别结果。详细地，对于与其它候选文本具有大的文本长度差值的候选文本，语音识别设备110通过对候选文本施加惩罚来减小候选文本被选择为目标文本的概率。在另一示例中，在确定目标文本时，语音识别设备110排除候选文本中的与其它候选文本具有相对大的文本长度差值的候选文本，从而防止当与期望的目标文本比较时极短或极长的候选文本被确定为最终的语音识别结果。通过这样的技术特征，语音识别设备110提高语音识别结果的准确度。

在下文中，将描述由语音识别设备110执行的语音识别处理。

图2示出语音识别设备的操作的示例。

参照图2，语音识别设备包括候选文本确定器220和后处理器250。

候选文本确定器220接收语音输入210的语音数据，并且确定与语音输入210对应的候选文本以及候选文本的分数。候选文本确定器220使用基于编码器-解码器的语音识别模型(或语音识别引擎)来确定候选文本。例如，语音识别模型是被配置为接收语音输入210的语音数据并生成与语音输入210对应的候选文本的端到端自动语音识别(E2E ASR)模型。在另一示例中，语音识别模型是基于深度神经网络-隐马尔可夫模型(DNN-HMM)的语音识别模型。

语音识别模型包括被配置为从语音数据提取特征值(例如，特征向量)的编码器230，以及被配置为基于由编码器230提取的特征值来输出候选文本和候选文本的分数的解码器240。编码器230和解码器240可由单个神经网络实现或由分离的神经网络实现。

编码器230将语音数据转换成抽象特征向量，并且解码器240基于特征向量确定候选文本。例如，编码器230接收wav格式的语音数据，并且生成表示语音数据的信息的向量值。解码器240从编码器230接收向量值，并且确定与向量值对应的一个或多个候选文本。解码器240以词或子词为单位输出与语音数据对应的候选文本。在在此提供的示例中，除非另有提及，否则包括在候选文本中的“词”包括作为比“词”小的分量单元的“子词”。“词”由具有含义的“子词”的组合形成。例如，“子词”对应于词条、由字节对编码(BPE)算法分隔的词段、词法单元或字符。

解码器240基于从编码器230接收的特征值(例如，向量值)来选择具有相对高的与语音输入210对应的概率的N个候选文本，N是正整数。例如，解码器240使用波束搜索(beamsearch)来确定具有相对高的与目标文本对应的概率的N个候选文本。波束搜索是一种基于最佳优先搜索的技术，并且通过限制将被存储在存储器中的节点的数量来提高效率。解码器240通过在每个解码操作中确定构成候选文本的词的概率分布并以概率值的降序选择预定数量的词，以扩展候选文本的范围的方式选择候选文本。解码器240通过迭代地执行顺序地估计构成与语音输入210对应的整个文本的词的操作来确定候选文本。例如，解码器240基于从编码器230接收的特征值和在先前时间点确定的词来估计当前时间点的词。

候选文本确定器220使用存储在语言模型数据库245中的语言模型来提高关于语音识别模型未覆盖的表达的识别率。语言模型数据库245可包括在语音识别设备中，或者位于语音识别设备的外部。语言模型提供可使用语音输入210，例如基于神经网络、n元语法(n-gram)或词/字符串列表来提出的各种话语表达。多个这样的语言模型可被提供。例如，语言模型包括在预定的域中专用的语言模型。候选文本确定器220使用语言模型来确定由解码器240确定的候选文本的分数。例如，候选文本确定器220使用N-最佳重打分(N-bestrescoring)来计算候选文本的分数，N-最好重打分使用默认语言模型或外部语言模型。分数是候选文本对应于目标文本的期望值或概率值。例如，假设预定的候选文本的分数为0.75，则该分数指示候选文本对应于作为最终的语音识别结果的目标文本的相对概率为0.75。

后处理器250从候选文本确定器220接收候选文本和候选文本的分数，并且基于候选文本的相对文本长度来确定候选文本中的目标文本。文本长度是构成候选文本的词或子词(例如，词法单元或字符)的数量。

后处理器250基于候选文本的文本长度来调整一个或多个候选文本的分数，并且基于调整的结果来确定目标文本。例如，后处理器250基于候选文本的文本长度的平均值和标准偏差来调整一个或多个候选文本的分数。后处理器250通过仅将权重施加到具有与候选文本的文本长度的平均值极大不相同的文本长度的候选文本的分数，或者通过基于候选文本的文本长度的平均值和标准偏差将权重施加到候选文本的分数，来调整分数。这里，权重作为惩罚被施加。如果权重被施加到候选文本的分数，则候选文本被确定为目标文本的概率值或期望值减小。在分数调整处理之后，后处理器250基于候选文本的分数来确定目标文本。例如，后处理器250将具有最高分数的候选文本确定为作为最终的语音识别结果的目标文本(图2中的“Call Mark”)。

在另一示例中，如果候选文本的文本长度与候选文本的文本长度的平均值之间的差值大于或等于阈值，则后处理器250排除相应的候选文本，并且将剩余候选文本中的具有最高分数的候选文本确定为目标文本。在这个示例中，在不需要执行分数调整的情况下，当与其它候选文本比较时极短或极长的候选文本从目标文本的候选中被排除，并且后处理器250将剩余候选文本中的具有最高分数的候选文本确定为目标文本。

在通过波束搜索获得的候选文本中，当与其它候选文本比较时具有特别短或特别长的文本长度的候选文本可能异常地具有最高分数。然而，与正确答案对应的或接近正确答案的目标文本通常具有相似的文本长度。因此，通过使用候选文本的相对文本长度之间的差值来调整分数，可防止不接近正确答案的候选文本被确定为目标文本。例如，当与候选文本的文本长度的平均值比较时，后处理器250将惩罚施加到过短或过长的候选文本，或者排除过短或过长的候选文本，从而降低或防止候选文本被选择为目标文本的可能性。

通过以上描述的语音识别处理，语音识别设备即使在噪声环境中也提供稳定的语音识别性能(语音识别准确度的提高)，而不受训练数据的状态影响。

图3示出后处理器的配置的示例。

参照图3，后处理器250包括文本长度平均值确定器310、文本长度偏差确定器320、权重确定器330、分数调整器340以及目标文本确定器350。

文本长度平均值确定器310确定通过语音识别模型确定的多个候选文本的文本长度的平均值。例如，文本长度平均值确定器310计算候选文本的所有文本长度的平均值或文本长度中的除了最大文本长度和最小文本长度之外的剩余文本长度的平均值。文本长度偏差确定器320基于由文本长度平均值确定器310确定的平均值来确定文本长度的偏差(例如，标准偏差)。

权重确定器330确定将被施加到候选文本的权重。权重确定器330选择当与其它候选文本比较时具有过短或过长的文本长度的候选文本，并且确定将仅被施加到选择的候选文本的权重。例如，权重确定器330基于候选文本的文本长度的平均值和标准偏差来确定将被施加到选择的候选文本的权重。在另一示例中，与候选文本对应的权重基于候选文本的相对文本长度之间的差值来确定，并且权重确定器330基于文本长度之间的差值来确定将被施加到候选文本的权重。

分数调整器340通过将权重施加到候选文本的分数来调整需要分数调整的候选文本的分数。

目标文本确定器350基于调整的候选文本的分数信息从候选文本中选择与最终的语音识别结果对应的目标文本。例如，目标文本确定器350将具有最高分数的候选文本确定为目标文本。

在另一示例中，目标文本确定器350从目标文本的候选中排除具有与候选文本的文本长度的平均值极大不相同的文本长度的候选文本，并且将剩余候选文本中的具有最高分数的候选文本确定为目标文本。在这个示例中，不需要分数调整，因此权重确定器330和分数调整器340可从后处理器250省略。

图4示出语音识别方法的示例。

参照图4，在操作410中，语音识别设备接收语音数据。用户通过声音接口(诸如，麦克风)输入用于声音命令的语音或语音输入，并且输入语音的语音数据被发送到语音识别设备。

在操作420中，语音识别设备使用语音识别模型获得与语音数据对应的多个候选文本以及候选文本的各自的分数。例如，语音识别设备使用基于编码器-解码器的语音识别模型，该语音识别模型包括被配置为从语音数据提取向量值的编码器和被配置为基于由编码器提取的向量值输出与语音数据对应的候选文本的解码器。语音识别设备使用波束搜索基于分数获得前N个候选文本，N是正整数。语音识别设备使用语言模型确定候选文本的各自的分数。

在操作430中，语音识别设备确定当前候选文本的文本长度是否满足基于候选文本的文本长度确定的条件。这里，当前候选文本是任意一个候选文本。语音识别设备确定当前候选文本的文本长度与基于候选文本的文本长度确定的文本长度之间的差值是否满足条件。例如，基于候选文本的文本长度确定的文本长度是所有候选文本的文本长度的平均值或候选文本的文本长度中的除最大文本长度和最小文本长度之外的剩余文本长度的平均值。语音识别设备响应于差值大于基于候选文本的文本长度的标准偏差确定的阈值而确定条件被满足，并且响应于差值小于或等于阈值而确定条件未被满足。

在操作440中，响应于确定当前候选文本的文本长度满足条件，语音识别设备调整当前候选文本的分数。语音识别设备确定与当前候选文本对应的权重，并且通过将权重施加到当前候选文本的现有分数来确定加权分数。语音识别设备基于当前候选文本的文本长度与基于候选文本的文本长度确定的文本长度之间的差值来确定将被施加到当前候选文本的权重。随着差值增大，权重增大。当将权重被施加到当前候选文本的分数时，当前候选文本被确定为目标文本的概率值或期望值减小。

在操作450中，语音识别设备确定在操作430中所有候选文本是否被检查。在操作460中，响应于所有候选文本尚未被检查，语音识别设备选择后续候选文本作为当前候选文本。然后，语音识别设备针对选择的后续候选文本再次执行操作430。通过以上描述的处理，语音识别设备考虑候选文本的相对文本长度之间的差值来调整预定的候选文本的分数。

在操作470中，响应于所有候选文本被检查，语音识别设备基于调整分数的结果在候选文本中确定与语音数据对应的目标文本。例如，语音识别设备将在候选文本的加权分数和其它候选文本的未调整分数中的具有最高分数的候选文本确定为目标文本。

通过以上描述的处理，语音识别设备调整当与其它候选文本比较时具有相对短或相对长的文本长度的候选文本的分数，从而防止具有极短或极长的文本长度的候选文本被错误地确定为目标文本。因此，语音识别的准确度提高。

图5示出语音识别处理的示例。

语音识别设备基于候选文本的相对文本长度之间的差值来调整预定的候选文本的分数。语音识别设备计算候选文本的文本长度的平均值，并且响应于选择的用于比较的候选文本的文本长度与平均值之间的差值大于阈值来调整选择的候选文本的分数。例如，阈值是候选文本的文本长度的标准偏差。语音识别设备确定与将被调整分数的候选文本对应的权重，并且通过将权重施加到该候选文本的分数来调整该候选文本的分数。权重随着候选文本的文本长度与平均值之间的差值的增大而增大。

在一个示例中，调整满足等式1的条件的候选文本的分数。

[等式1]

|c.length-avg|>th

在等式1中，c.length表示当前候选文本的文本长度，并且avg表示候选文本的文本长度的平均值。avg是所有候选文本的文本长度的平均值，或者是候选文本的文本长度中的除最大文本长度和最小文本长度之外的剩余文本长度的平均值。th表示基于候选文本的文本长度的标准偏差确定的阈值。例如，th是通过将常数添加到标准偏差而获得的值。针对每个候选文本确定是否满足等式1的条件。基于等式2调整满足等式1的条件的候选文本的分数。

[等式2]

c.score2＝c.score1–const×|c.length–avg|

在等式2中，c.score1表示当前候选文本的原始分数，并且c.length表示当前候选文本的文本长度。const表示常数，并且avg表示候选文本的文本长度的平均值。const×|c.length–avg|表示与当前候选文本对应的权重，并且作为惩罚。c.score2表示被施加权重的当前候选文本的分数，即，当前候选文本的加权分数。

参照图5，上部的表示出与语音数据对应的候选文本、候选文本的各自的分数和文本长度、以及与文本长度对应的权重。在这个示例中，意在作为语音识别结果的正确答案是“Hi Bixby how can I get to the airport？”。然而，在候选文本中，尽管当与其它候选文本比较时文本长度极短，但是与错误答案对应的候选文本“Hi Bixby”具有最高分数。语音识别设备识别文本长度与其它候选文本具有很大差异的候选文本(比如候选文本“HiBixby”)，并且通过将权重施加到候选文本的分数来调整候选文本的分数。下部的表示出调整分数的结果。作为使用等式2调整分数的结果，候选文本“Hi Bixby”的初始分数为-3.46，并且通过将权重施加到分数来将分数调整到-7.46。在分数调整之前，由于候选文本“HiBixby”具有最高分数，所以候选文本“Hi Bixby”被选择为目标文本。相反，在分数调整之后，候选文本“Hi Bixby”在候选文本中具有最低分数，因此另一候选文本被选择为目标文本。

如上所述，考虑候选文本的文本长度的平均值和方差，具有极短或极长的文本长度的候选文本的惩罚被计算。通过施加惩罚来降低由于相对短的文本长度而可能被错误地选择为目标文本的候选文本的分数，语音误识别的概率被降低。

图6示出语音识别方法的示例。

参照图6，在操作610中，语音识别设备接收语音数据。在操作620中，语音识别设备使用语音识别模型获得与语音数据对应的多个候选文本以及候选文本的各自的分数。在操作630中，语音识别设备确定当前候选文本的文本长度是否满足基于候选文本的文本长度确定的条件。操作610至操作630对应于图4的操作410至操作430，因此将省略其详细描述。

在操作640中，响应于确定当前候选文本的文本长度满足条件，语音识别设备从目标文本的候选中排除当前候选文本。在操作650中，语音识别设备确定在操作630中所有候选文本是否被检查。在操作660中，响应于所有候选文本尚未被检查，语音识别设备选择后续候选文本作为当前候选文本。然后，语音识别设备针对选择的后续候选文本再次执行操作630。通过以上描述的处理，当与其它候选文本比较时具有极短或极长的文本长度的候选文本从目标文本的候选中被排除。

在操作670中，响应于所有候选文本被检查，语音识别设备在未从目标文本的候选中排除的候选文本中确定与语音数据对应的目标文本。因此，响应于确定候选文本的文本长度满足基于多个候选文本的文本长度确定的条件，语音识别设备基于除当前候选文本之外的剩余候选文本的分数来确定目标文本。例如，语音识别设备将剩余候选文本中的具有最高分数的候选文本确定为目标文本。

如上所述，通过考虑候选文本的文本长度的平均值和方差，从目标文本的候选中排除具有相当短或相当长的文本长度的候选文本，防止语音误识别的发生。

图7示出语音识别处理的示例。

语音识别设备基于候选文本的相对文本长度之间的差值，从目标文本的候选中排除预定的候选文本。语音识别设备计算候选文本的文本长度的平均值，并且响应于选择的用于比较的候选文本的文本长度与平均值之间的差值大于阈值，从目标文本的候选中排除选择的候选文本。在一个示例中，从目标文本的候选中排除满足以上描述的等式1的条件的候选文本。

参照图7，上部的表示出与语音数据对应的候选文本以及候选文本的各自的分数和文本长度。在这个示例中，意在作为语音识别结果的正确答案是“Hi Bixby how can Iget to the airport？”。然而，在候选文本中，尽管当与其它候选文本比较时文本长度极短，但是与错误答案对应的候选文本“Hi Bixby”具有最高分数。如果候选文本的文本长度满足基于其它候选文本的文本长度确定的等式1的条件，则候选文本从目标文本的候选的列表中被排除，如下部的表中所示。语音识别设备通过检查候选文本是否满足所述条件来确定是否从目标文本的候选的列表中排除每个候选文本，并且将未被排除的剩余候选文本中的具有最高分数的候选文本确定为目标文本。

图8示出语音识别方法的示例。

参照图8，在操作810中，语音识别设备接收语音数据。在操作820中，语音识别设备使用语音识别模型获得与语音数据对应的多个候选文本以及候选文本的各自的分数。操作810和操作820对应于图4的操作410和操作420，因此将省略其详细描述。

在操作830中，语音识别设备基于候选文本的文本长度来调整候选文本的分数。语音识别设备确定与包括在候选文本中的当前候选文本对应的权重，并且通过将确定的权重施加到当前候选文本的现有分数来确定加权分数。

语音识别设备基于当前候选文本的文本长度与基于候选文本的文本长度确定的文本长度之间的差值来确定将被施加到当前候选文本的权重。例如，基于候选文本的文本长度确定的文本长度是所有候选文本的文本长度的平均值或候选文本的文本长度中的除最大文本长度和最小文本长度之外的剩余文本长度的平均值。例如，如以下给出的等式3所表达，语音识别设备基于当前候选文本的文本长度与候选文本的平均文本长度之间的差值以及候选文本的文本长度的标准偏差来确定将被施加到当前候选文本的权重。语音识别设备通过将与候选文本对应的各个权重施加到候选文本的分数来总体调整候选文本的分数。

在操作840中，语音识别设备基于操作830的调整的结果在候选文本中确定与语音数据对应的目标文本。语音识别设备基于通过将候选文本的各自的权重施加到候选文本的分数而确定的加权分数来确定目标文本。例如，语音识别设备将具有最高加权分数的候选文本确定为目标文本。

图9示出语音识别处理的示例。

语音识别设备基于候选文本的相对文本长度之间的差值来总体调整候选文本的分数。语音识别设备计算候选文本的文本长度的平均值和标准偏差，并且基于平均值和标准偏差来确定将被施加到候选文本的各自的分数的权重。语音识别设备通过将候选文本的各自的权重施加到候选文本的分数来计算加权分数。例如，语音识别设备使用等式3来计算加权分数。

[等式3]

c.score2＝c.score1×|c.length-avg|/std

在等式3中，c.score1表示当前候选文本的原始分数，并且c.length表示当前候选文本的文本长度。avg表示候选文本的文本长度的平均值，并且std表示候选文本的文本长度的标准偏差。|c.length-avg|/std表示与当前候选文本对应的权重，并且c.score2表示被施加权重的当前候选文本的分数，即，当前候选文本的加权分数。语音识别设备使用等式3确定所有候选文本的加权分数。

参照图9，上部的表(在下文中，被称为“表1”)示出与语音数据对应的候选文本、候选文本的分数和文本长度、以及与文本长度对应的权重。权重基于候选文本的各自的文本长度与所有候选文本的平均文本长度之间的差值来确定，并且权重随着差值增大而增大。当权重被确定时，权重被分别施加到候选文本的分数。

下部的表(在下文中，被称为“表2”)示出通过施加权重来调整分数的结果。在表1中，候选文本“when do you get up on Sunday”具有最高分数，而根据表2中的调整分数的结果，候选文本“when you do get up on Sunday not Saturday”具有最高分数。语音识别设备基于加权分数将具有最高分数的候选文本确定为目标文本。因此，候选文本“when youdo get up on Sunday not Saturday”被确定为目标文本。

图10示出语音识别设备的配置的示例。

参照图10，语音识别设备1000包括一个或多个处理器1010、存储器1020以及输入/输出(I/O)接口1030。语音识别设备1000还包括被配置为存储一个或多个语言模型的数据库1040。

I/O接口1030包括被配置为接收语音输入的语音数据的声音接口(例如，麦克风)。此外，I/O接口1030包括输入接口(诸如，键盘、触摸屏或触摸板)和输出接口(诸如，显示装置或扬声器)。

存储器1020连接到一个或多个处理器1010，并且存储可由一个或多个处理器1010执行的指令、将由一个或多个处理器1010计算的数据、或由一个或多个处理器1010处理的数据。例如，存储器1020包括非暂时性计算机可读介质(诸如，高速随机存取存储器)和/或非易失性计算机可读存储介质(诸如，一个或多个盘存储装置、闪存装置或其它非易失性固态存储器装置)。

一个或多个处理器1010控制语音识别设备1000的总体操作，并且执行将在语音识别设备1000中执行的指令和/或功能。一个或多个处理器1010基于语音数据执行语音识别，并且执行以上参照图1至图9描述的关于语音识别处理的一个或多个操作。

一个或多个处理器1010接收语音数据，并且使用语音识别模型获得与语音数据对应的多个候选文本以及候选文本的各自的分数。响应于当前候选文本的文本长度满足基于候选文本的文本长度确定的条件，一个或多个处理器1010调整当前候选文本的分数。一个或多个处理器1010基于候选文本的文本长度来确定是否调整每个候选文本的分数，确定将被施加到将被调整的候选文本的分数的权重，并且通过将权重施加到分数来确定加权分数。一个或多个处理器1010基于调整分数的结果，在候选文本中确定与语音数据对应的目标文本。

在另一示例中，响应于候选文本的文本长度满足基于多个候选文本的文本长度确定的条件，一个或多个处理器1010从目标文本的候选中排除该候选文本。例如，当与候选文本的平均文本长度比较时具有极短或极长的文本长度的候选文本从目标文本的候选中被排除。一个或多个处理器1010基于未被排除的剩余候选文本的分数来确定目标文本。

在又一示例中，一个或多个处理器1010基于候选文本的文本长度来总体调整候选文本的分数。例如，一个或多个处理器1010基于包括在候选文本中的当前候选文本的文本长度与基于候选文本的文本长度确定的文本长度之间的差值来确定将被施加到当前候选文本的权重，并且通过将确定的权重施加到当前候选文本的分数来确定加权分数。一个或多个处理器1010在调整分数之后，将具有最高分数的候选文本确定为目标文本。

当目标文本通过以上处理被确定时，一个或多个处理器1010从目标文本提取用户命令，并且输出控制信号以执行提取的命令。

在此关于图1至图10描述的语音识别系统100、语音识别设备110、语音识别设备1000以及其它设备、单元、模块、装置和其它组件通过硬件组件来实现。可用于执行在本申请中描述的操作的硬件组件的示例在适当的情况下包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其它电子组件。在其它示例中，执行在本申请中描述的操作的硬件组件中的一个或多个通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。处理器或计算机可通过一个或多个处理元件(诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编程门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其它装置或装置的组合)来实现。在一个示例中，处理器或计算机包括或连接到存储由处理器或计算机执行的指令或软件的一个或多个存储器。由处理器或计算机实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和在OS上运行的一个或多个软件应用)，以执行在本申请中描述的操作。硬件组件也可响应于指令或软件的执行来访问、操控、处理、创建和存储数据。为了简单起见，单数术语“处理器”或“计算机”可用在本申请中描述的示例的描述中，但是在其它示例中，多个处理器或计算机可被使用，或者处理器或计算机可包括多个处理元件或多种类型的处理元件或二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来实现。一个或多个硬件组件可通过一个或多个处理器、或者处理器和控制器来实现，并且一个或多个其它硬件组件可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来实现。一个或多个处理器、或者处理器和控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有不同的处理配置中的任何一个或多个，不同的处理配置的示例包括：单个处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理以及多指令多数据(MIMD)多处理。

图1至图10中示出的执行在本申请中描述的操作的方法通过计算硬件(例如，通过一个或多个处理器或计算机)来执行，计算硬件被实现为如上所述地执行指令或软件，以执行在本申请中描述的由所述方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者处理器和控制器来执行。一个或多个操作可通过一个或多个处理器、或者处理器和控制器来执行，并且一个或多个其它操作可通过一个或多个其它处理器、或者另外的处理器和另外的控制器来执行。一个或多个处理器、或者处理器和控制器可执行单个操作或者两个或更多个操作。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件被编写为计算机程序、代码段、指令或它们的任意组合，以单独地或共同地指示或配置处理器或计算机如机器或专用计算机那样进行操作，以执行由如上所述的硬件组件和方法执行的操作。在一个示例中，指令或软件包括由处理器或计算机直接执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由处理器或计算机使用解释器执行的高级代码。本领域普通编程人员可基于附图中示出的框图和流程图以及说明书中的相应描述，容易地编写指令或软件，附图中示出的框图和流程图以及说明书中的相应描述公开了用于执行由如上所述的硬件组件和方法执行的操作的算法。

用于控制处理器或计算机以实现硬件组件并执行如上所述的方法的指令或软件以及任何相关联的数据、数据文件和数据结构被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中或一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取可编程只读存储器(PROM)、电可擦除可编程只读存储器(EEPROM)、随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)、闪存、非易失性存储器、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、蓝光或光盘存储装置、硬盘驱动器(HDD)、固态驱动器(SSD)、卡式存储器(诸如，多媒体卡或者微型卡(例如，安全数字(SD)或者极速数字(XD)))、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘、以及任何其它装置，其中，任何其它装置被配置为以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并将指令或软件以及任何相关联的数据、数据文件和数据结构提供给处理器或计算机，使得处理器或计算机可执行指令。

虽然本公开包括特定的示例，但是对于本领域普通技术人员来说将清楚的是，在不脱离权利要求及它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节上的各种改变。在此描述的示例仅被认为是描述性的，而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其它示例中的类似特征或方面。如果描述的技术以不同的顺序被执行，和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合，和/或由其它组件或它们的等同物替换或补充，则可实现合适的结果。因此，公开的范围不是由具体实施方式限定，而是由权利要求及它们的等同物限定，并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。

Claims

1.一种语音识别方法，包括：

接收语音数据；

使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；

响应于获得的候选文本中的当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，调整当前候选文本的分数；和

基于调整的结果，在获得的候选文本中确定与语音数据对应的目标文本。

2.根据权利要求1所述的语音识别方法，还包括：

确定当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值是否满足所述条件。

3.根据权利要求2所述的语音识别方法，其中，基于获得的候选文本的文本长度确定的文本长度是获得的候选文本的文本长度的平均值。

4.根据权利要求2所述的语音识别方法，其中，基于获得的候选文本的文本长度确定的文本长度是排除获得的候选文本中的最大文本长度和最小文本长度之外的获得的候选文本的文本长度的平均值。

5.根据权利要求2所述的语音识别方法，其中，确定所述差值是否满足所述条件的步骤包括：响应于所述差值大于基于获得的候选文本的文本长度的标准偏差确定的阈值，确定满足所述条件。

6.根据权利要求1所述的语音识别方法，其中，调整的步骤包括：

确定与当前候选文本对应的权重；和

通过将所述权重调施加到当前候选文本的分数来确定加权分数。

7.根据权利要求6所述的语音识别方法，其中，确定所述权重的步骤包括：基于当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值，确定将被施加到当前候选文本的分数的权重。

8.根据权利要求6所述的语音识别方法，其中，响应于所述权重被施加到当前候选文本的分数，当前候选文本被确定为目标文本的概率值或期望值减小。

9.根据权利要求6所述的语音识别方法，其中，确定目标文本的步骤包括：基于当前候选文本的加权分数和另外的候选文本的分数来确定目标文本。

10.一种存储指令的非暂时性计算机可读存储介质，所述指令在被处理器执行时，使得所述处理器执行权利要求1至权利要求9中的任意一项所述的语音识别方法。

11.一种语音识别方法，包括：

接收语音数据；

使用语音识别模型获得与语音数据对应的候选文本以及候选文本的各自的分数；和

响应于当前候选文本的文本长度满足基于获得的候选文本的文本长度确定的条件，基于除当前候选文本之外的获得的候选文本的分数来确定与语音数据对应的目标文本。

12.根据权利要求11所述的语音识别方法，还包括：

13.根据权利要求12所述的语音识别方法，其中，基于获得的候选文本的文本长度确定的文本长度是获得的候选文本的文本长度的平均值，或者是排除获得的候选文本中的最大文本长度和最小文本长度之外的获得的候选文本的文本长度的平均值。

14.根据权利要求12所述的语音识别方法，其中，确定所述差值是否满足所述条件的步骤包括：响应于所述差值大于基于获得的候选文本的文本长度的标准偏差确定的阈值，确定满足所述条件。

15.根据权利要求11所述的语音识别方法，其中，确定目标文本的步骤包括：将获得的候选文本中的除当前候选文本之外的具有最高分数的候选文本确定为目标文本。

16.一种语音识别方法，包括：

接收语音数据；

基于获得的候选文本的文本长度来调整候选文本的各自的分数；和

17.根据权利要求16所述的语音识别方法，其中，调整的步骤包括：

确定与包括在获得的候选文本中的当前候选文本对应的权重；和

通过将与当前候选文本对应的所述权重施加到当前候选文本的分数来确定加权分数。

18.根据权利要求17所述的语音识别方法，其中，确定所述权重的步骤包括：基于当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值，确定将被施加到当前候选文本的权重。

19.根据权利要求18所述的语音识别方法，其中，基于获得的候选文本的文本长度确定的文本长度是获得的候选文本的文本长度的平均值。

20.根据权利要求17所述的语音识别方法，其中，确定所述权重的步骤包括：基于当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值以及获得的候选文本的文本长度的标准偏差，确定将被施加到当前候选文本的权重。

21.根据权利要求17所述的语音识别方法，其中，确定目标文本的步骤包括：基于通过将获得的候选文本的权重施加到获得的候选文本的各自的分数而确定的加权分数来确定目标文本。

22.一种语音识别设备，包括：

一个或多个处理器，

其中，所述一个或多个处理器被配置为：

接收语音数据；

23.根据权利要求22所述的语音识别设备，其中，所述一个或多个处理器还被配置为：确定当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值是否满足所述条件。

24.根据权利要求22所述的语音识别设备，其中，所述一个或多个处理器还被配置为：响应于当前候选文本的文本长度满足所述条件，确定与当前候选文本对应的权重，并且通过将所述权重施加到当前候选文本的分数来确定加权分数。

25.一种语音识别设备，包括：

一个或多个处理器，

其中，所述一个或多个处理器被配置为：

接收语音数据；

26.一种语音识别设备，包括：

一个或多个处理器，

其中，所述一个或多个处理器被配置为：

接收语音数据；

基于调整的分数，在获得的候选文本中确定与语音数据对应的目标文本。

27.根据权利要求26所述的语音识别设备，其中，所述一个或多个处理器还被配置为：

基于包括在获得的候选文本中的当前候选文本的文本长度与基于获得的候选文本的文本长度确定的文本长度之间的差值，来确定将被施加到当前候选文本的权重；和

28.一种语音识别方法，包括：

使用语音识别模型获得与接收的语音数据对应的候选文本以及每个候选文本的分数；

基于一个或多个候选文本中的每个候选文本的文本长度与基于多个获得的候选文本的文本长度计算的值之间的差值，调整候选文本中的一个或多个候选文本的分数；和

在调整之后，基于候选文本的分数来选择与语音数据对应的目标文本，并且输出目标文本。

29.根据权利要求28所述的语音识别方法，其中，所述多个获得的候选文本包括所有获得的候选文本。

30.根据权利要求28所述的语音识别方法，其中，所述多个获得的候选文本包括除了具有最大文本长度和最小文本长度中的至少一个获得的候选文本之外的所有获得的候选文本。

31.根据权利要求28所述的语音识别方法，其中，所述值是所述多个获得的候选文本的文本长度的平均文本长度。

32.根据权利要求28所述的语音识别方法，其中，所述值基于所述多个获得的候选文本的文本长度的标准偏差。