CN106601240B

CN106601240B - 归一化声学模型的输入数据的设备和方法和语音识别设备

Info

Publication number: CN106601240B
Application number: CN201610900674.6A
Authority: CN
Inventors: 宋仁哲; 崔荣相; 罗辉栋
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-10-16
Filing date: 2016-10-17
Publication date: 2021-10-01
Anticipated expiration: 2036-10-17
Also published as: EP3157004A1; KR102192678B1; US20170110115A1; CN106601240A; JP2017076127A; JP6875819B2; EP3157004B1; KR20170045041A; US9972305B2

Abstract

提供归一化声学模型的输入数据的设备和方法和语音识别设备。一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；归一化器，被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

Description

归一化声学模型的输入数据的设备和方法和语音识别设备

本申请要求于2015年10月16日提交到韩国知识产权局的第10-2105-0144947号韩国专利申请的权益，该申请的全部公开出于所有目的通过引用包含于此。

技术领域

下面的描述涉及在语音识别中归一化声学模型的用于逐步解码的输入数据的技术。

背景技术

通常，语音识别引擎包括声学模型、语言模型和解码器。声学模型针对输入的语音信号的每一帧计算特定发音的概率，语言模型提供关于特定的单词或句子使用的频率的信息。解码器基于由声学模型和语言模型提供的信息来计算哪个单词或句子与输入语音相似，并且输出计算结果。高斯混合模型(GMM)声学模型已被普遍使用，并且随着深度神经网络(DNN)声学模型的出现，语音识别性能近来正在提高。双向循环深度神经网络(bidirectional recurrent deep neural network，BRDNN)考虑双向信息(即，之前和后续帧信息)，针对语音的每一帧来计算特定发音的概率，并因此接收全部语音。当在模型训练期间输入的语音信号的每一帧被表示为N维矢量时，BRDNN声学模型执行归一化，使得矢量的每一维的值在特定范围内。在归一化可基于全部训练数据或每一话语被总体执行的同时，BRDNN声学模型在话语的单元中执行归一化。

发明内容

提供本发明内容从而以简化的形式介绍将在下面的具体实施方式中被进一步描述的构思的选择。本发明内容不意在标识所要求保护主题的关键特征或必要特征，也不意在作为帮助确定所要求保护的主题的范围而被使用。

在一个总体方面中，一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗；归一化器，被配置为以提取的窗为单位归一化将被输入到声学模型的帧数据。

窗提取器还可被配置为：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

归一化器还可被配置为：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。

归一化器还可被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

归一化器还可被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

归一化器还可被配置为：响应于帧的总数小于参考值，从训练数据获取与帧的总数与参考值之间的差对应的数量的帧。

归一化器还可被配置为：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。

在另一总体方面中，一种归一化声学模型的输入数据的方法包括：从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗；以提取的窗为单位，归一化将被输入到声学模型的帧数据。

提取窗的步骤可包括：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

归一化帧数据的步骤可包括：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。

归一化帧数据的步骤可包括：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

归一化帧数据的步骤可包括：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

归一化帧数据的步骤可包括：响应于当前窗被提取，将属于当前窗和之前窗的帧的总数与参考值进行比较；响应于帧的总数小于参考值，从训练数据获取与帧的总数与参考值之间的差对应的数量的帧。

归一化帧数据的步骤可包括：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。

在另一总体方面中，一种非暂时性计算机可读介质存储由处理器执行时使得处理器执行如上所述的方法的指令。

在另一总体方面中，一种语音识别设备包括：预处理器，被配置为：从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗，以提取的窗为单位归一化将被输入到声学模型的帧数据；声学分数计算器，被配置为使用基于深度神经网络(DNN)的声学模型，以归一化的窗为单位计算声学分数；解释器，被配置为：解释以归一化的窗为单位计算的声学分数，并基于解释的分数来输出将被识别的语音的识别结果。

预处理器还可被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

预处理器还可被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

解释器还可被配置为：在将被识别的语音的输入正在进行的同时，响应于预定条件被满足或者用户的输入，输出当前窗的识别结果作为将被识别的全部语音的最终识别结果。

DNN可为双向循环深度神经网络(BRDNN)。

语音识别设备还可包括：语言分数计算器，被配置为使用语言模型来计算语言分数；解释器还可被配置为：基于语言分数和解释的分数来输出识别结果。

在另一总体方面中，一种用于归一化声学模型的输入数据的设备包括：窗提取器，被配置为从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗；归一化器，被配置为基于用于能够进行语音识别的充足数量的帧数据，来归一化将被输入到声学模型的帧数据。

归一化器还可被配置为：基于从第一提取的窗到当前提取的窗的所有提取的窗的帧，来归一化帧数据。

归一化器还可被配置为：基于从第一提取的窗到当前提取的窗的所有提取的窗的帧和训练数据的帧，来归一化帧数据。

训练数据的帧的数量可等于从第一提取的窗到当前提取的窗的所有提取的窗的帧的总数与表示用于能够进行语音识别的帧的最小数量的参考值之间的差。

归一化器还可被配置为：每当窗被提取时，归一化当前提取的窗的帧。

从下面的具体实施方式、附图和权利要求，其他特征和方面将是清楚的。

附图说明

图1是语音识别设备的示例的框图。

图2是归一化设备的示例的框图。

图3是归一化设备的另一示例的框图。

图4A至图4D是示出归一化方法的示例的示图。

图5是归一化方法的示例的流程图。

图6是归一化方法的另一示例的流程图。

图7是采用语音识别技术的电子装置的示例的框图。

贯穿附图和具体实施方式，相同的参考标号表示相同的元件。附图可不按比例，为了清楚、说明和方便，附图中的元件的相对大小、比例和描绘可被夸大。

具体实施方式

提供下面的描述以帮助读者获得对在此描述的方法、设备和/或系统的全面理解。然而，在理解了本申请的公开之后，在此描述的方法、设备和/或系统的各种变化、修改和等同物将是清楚的。例如，在此描述的操作的顺序仅是示例，并且操作的顺序不限于在此阐述的顺序，除了必需按特定顺序发生的操作之外，操作的顺序可被改变，这在理解了本申请的公开之后将是清楚的。此外，为了更加清楚和简洁，本领域中已知的特征的描述可被省略。

在此描述的特征可以以不同的形式被实现，并且不应被解释为受限于在此描述的示例。相反，在此描述的示例仅被提供用于示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些方式，这在理解了本申请的公开之后将是清楚的。

图1是语音识别设备的示例的框图。语音识别设备100可被实现为输出输入的语音信号的语音识别结果的独立的硬件装置，或者可作为硬件模块被安装在使用语音识别结果执行各种功能(例如，输入语音信号翻译或解释为另一语言、电视(TV)控制、车辆巡航控制、或导航控制)的电子装置中。

参照图1，语音识别设备100包括：预处理器110、声学分数计算器120、语言分数计算器130和解释器140。可单独地，或者与一个或多个其他元件组合地实现语音识别设备100的元件110、120、130、140中的每个元件。例如，预处理器110可被实现为将在下面参照图2描述的单独的归一化设备200。

当输入将被识别的语音信号时，预处理器110执行用于语音识别的预处理操作。

例如，当输入的语音信号为模拟信号时，预处理器110将模拟信号转换为数字信号，并将数字信号划分成多个语音帧。在一个示例中，与1秒钟对应的语音信号被划分成100帧。预处理器110使用划分的语音帧的数据来提取将被输入到声学模型的窗。预处理器110不会等到全部语音信号被输入，而是在正在输入语音信号时，每次输入了与窗大小对应的数量的帧时，就提取窗。

窗是将被输入到声学模型的帧数据的单位，窗大小是包括在窗中的帧的数量，并且可被设置为小于将被识别的语音信号的帧的总数量。可基于语音识别的应用领域、设备的计算性能和其他因素来设置和调整窗大小。例如，当语音识别的应用领域为翻译或解释时，准确性可能比速度更重要，窗大小可被设置为相对大。与此相反，当语音识别的应用领域为处理在设备(诸如，TV或其他装置)中嵌入的命令时，与设备相关的命令的数量被限制，迅速地处理命令可能更重要。因此，窗大小可被设置为相对小。

当用于将帧数据输入到声学模型的窗以这种方式被提取时，预处理器110以提取的窗为单位执行归一化。换句话说，每次提取窗时，预处理器110归一化属于提取的窗的帧。

声学分数计算器120使用声学模型以提取的窗为单位来计算声学分数。声学模型可为各种深度神经网络(DNN)声学模型中的任何一个，例如，双向循环深度神经网络(BRDNN)声学模型。当通过预处理器110提取窗并且归一化属于窗的帧时，声学分数计算器120通过将归一化的帧输入到声学模型中来计算声学分数。声学分数可为特定发音的概率。然而，用于计算分数的单位不限于发音，而是可为，例如，包括音素、词素、单词、短语和句子的各种语言识别单位中的任何一个。

预处理器110可将填充帧(padding frame)添加到提取的窗的两侧，使得声学分数计算器120可更准确地计算声学分数。可以预先设置是否添加填充帧以及将被添加的填充帧的数量。当提取当前窗并添加填充帧时，预处理器110假设添加的填充帧也属于窗，并且将窗的帧和添加的填充帧一起进行归一化。

当设置为添加填充帧时，预处理器110可添加与当前窗的第一帧相邻的一个或多个左侧帧和与当前窗的最后帧相邻的一个或多个右侧帧。不将填充帧添加到第一窗的左侧和最后窗的右侧。例如，如果两个填充帧将被添加，并且当前窗是包括帧1、帧2、帧3和帧4的第一窗，则不将帧添加到当前窗的左侧，而将帧5和帧6添加到当前窗的右侧。如果当前窗是包括帧5、帧6、帧7和帧8的第二窗，则将帧3和帧4添加到当前窗的左侧，并且将帧9和帧10添加到当前窗的右侧。如果当前窗是包括帧13、帧14、帧15和帧16的最后窗，则将帧11和帧12添加到当前窗的左侧，并且不将帧添加到当前窗的右侧。

当填充帧被添加到窗时，声学分数计算器120通过将窗的帧和添加的填充帧一起输入到DNN声学模型来计算声学分数。DNN声学模型可为BRDNN声学模型。声学分数计算器120可基于针对添加到之前窗的填充帧计算的声学分数，针对与填充帧重叠的当前窗的帧计算声学分数。在这种情况下，声学分数计算器120可将针对当前窗的重叠帧和填充帧而计算的声学分数的平均值，或者通过加权声学分数而获得的值的平均值用作为针对当前窗的重叠帧的声学分数。

例如，假设之前窗的帧是帧9、帧10、帧11和帧12，将帧7和帧8作为之前窗的填充帧添加到帧9的左侧，并且将帧13和帧14作为之前窗的填充帧添加到帧12的右侧。假设当前窗的帧是帧13、帧14、帧15和帧16。因此，当前窗的帧13与之前窗的填充帧13重叠。声学分数计算器120可根据等式Y＝(a+b)/2，使用针对当前窗的帧13和之前窗的填充帧13计算的声学分数的平均，其中，Y是当前窗的帧13的重新计算的声学分数，a是之前窗的填充帧13的声学分数，b是当前窗的帧13的声学分数。可选地，声学分数计算器120可根据等式Y＝((1-α)a+αb)/2，使用通过加权针对当前窗的帧13和之前窗的填充帧13计算的声学分数获得的值的平均，其中，Y是当前窗的帧13的重新计算的声学分数，α是权重值(0≤α≤1)，a是之前窗的填充帧13的声学分数，b是当前窗的帧13的声学分数。

语言分数计算器130使用语言模型和由声学分数计算器120计算的声学分数，来输出关于单词、句子和语音的其他部分的信息，例如，与单词或句子使用的频率有关的语言分数。语言模型可为n-gram语言模型或者神经网络语言模型。

解释器140使用各种解释技术，来解释以窗为单位从声学分数计算器120和语言分数计算器130输出的声学分数和语言分数，并输出以窗为单位的识别结果。换句话说，当当前窗的声学分数和语言分数被计算时，解释器140基于当前窗的声学分数和语言分数而不必须等待最后窗的声学分数和语言分数，来输出识别全部语音的结果。虽然图1示出声学分数计算器120具有两个输出，一个输出到语言分数计算器130，另一输出到解释器140，但是这仅是为了说明的方便，由声学分数计算器120计算的相同的声学分数可被输出到语言分数计算器130和解释器140二者。

当当前窗的识别结果满足预定条件或存在用户的输入时，解释器140可输出当前窗的识别结果，作为全部语音信号的最终识别结果。预定条件可以是提取的窗的数量或者识别结果的阈值。然而，这些仅是示例，预定条件不限于该示例。例如，当需要快速的语音识别时，相对小的提取的窗的数量(例如，2)可被设置为预定条件。在这种情况下，当第二窗的识别结果被输出时，解释器140可直到第二窗才输出识别结果，作为将被识别的全部语音信号的最终识别结果。作为另一示例，如果在第二窗时，使用特定的单词或句子的概率大于预定阈值(例如，70％)，则解释器140可直到第二窗才输出识别结果，作为将被识别的全部语音信号的最终识别结果。图2是归一化设备的示例的框图。归一化设备200是图1的预处理器110的示例，并且将进一步详细地描述提取声学模型的输入数据并归一化逐步解码所需的输入数据的方法。

参照图2，归一化设备200包括：窗提取器210和归一化器220。

当进行将被识别的语音信号的语音帧数据的输入时，窗提取器210以预设的窗大小为单位，顺序地提取将被输入到声学模型的帧数据的窗而不等待到所有帧被输入。

例如，当将被识别的语音信号的语音帧的数量为N并且设置的窗大小为K时，窗提取器210等待直到第1帧至第K帧已被输入，在第K帧被输入时提取第1帧至第K帧作为第一窗，并且在第2K帧被输入时，提取第(K+1)帧至第2K帧作为第二窗。这样的处理被重复地执行直到第N帧被输入。

此外，当窗被提取时，窗提取器210可将填充帧添加到提取的窗的两侧。换句话说，可以将填充帧添加到窗，从而可使用BRDNN声学模型来计算准确的声学分数。是否添加填充帧以及将被添加的填充帧的数量可被预先设置。添加到特定窗的填充帧可在计算窗的声学分数时与窗的帧一起被使用，并且还可被用于计算另一窗的声学分数。

当通过窗提取器210顺序地提取将被输入到声学模型的窗时，归一化器220以提取的窗为单位执行归一化。当当前窗被提取并且填充帧已被添加到当前窗时，归一化器220将添加的填充帧视为属于当前窗的帧，并基于当前窗的帧和添加的填充帧来执行归一化。

在一个示例中，归一化器220根据下面的等式1考虑属于当前窗的之前窗的帧的信息，来归一化属于当前窗的每一帧。假设当前窗的最后帧是第L帧(即，从第一窗到当前窗总共L帧已被提取)，并且提取的帧通过d维的矢量x来表示，d维的矢量x的值x[d]被归一化为

使得值

的分布具有0的平均值M(d)以及1的标准差SD(d)。这里，x_i表示第i帧的值，并且当填充帧已被添加到当前窗的右侧时，L为当前窗的最后帧的编号与已被添加到当前窗的右侧的填充帧的数量的和。例如，如果当前窗的最后帧的编号为16，并且2个填充帧被添加到当前窗的右侧，则L＝16+2＝18。

图3是归一化设备的另一示例的框图。

参照图3，归一化设备300包括：窗提取器310、归一化器320和训练数据330。窗提取器310和归一化器320与上面参照图2描述的元件210和元件220基本相同，因此将仅描述这些元件之间的差异。训练数据330可被存储在任意类型的存储器或其他存储装中，并且可以是被用于训练在图1的声学分数计算器120中包括的声学模型的训练数据。可在应用图1的语音识别设备100的领域中获得训练数据。因此，输入到语音识别设备100的输入语音信号可以是在训练数据330中包括的短语。

在这个示例中，归一化器320根据下面的等式2考虑属于当前窗的之前窗的帧以及训练数据330，来归一化属于当前窗的各个帧。具体地讲，当当前窗被提取时，归一化器320确定从第一窗的第一帧到当前窗的最后帧已经提取的帧的总数是否足以能够进行准确的语音识别，当帧的总数不足以能够进行准确的语音识别时考虑训练数据330。

例如，当当前窗被提取时，归一化器320将从第一窗的第一帧到当前窗的最后帧已经提取的帧的总数L与预设参考值G进行比较。当提取的帧的总数L小于参考值G时，归一化器320从训练数据330获取能够进行准确的语音识别所需要的数量的帧，例如，与参考值G和提取的帧的总数L之间的差G-L相等的数量的帧，并在归一化当前窗的帧时将获取的帧考虑在内。

为此，等式1中的平均值M(d)和标准差SD(d)的等式可被修改为下面的等式2中所示。

这里，x_j表示训练数据的第j帧的值，N表示训练数据的帧的总数。

当如等式2中所示考虑训练数据来计算平均值M(d)和标准差SD(d)时，归一化器320通过将计算的平均值和标准差插入到等式1的第一等式，将x[d]归一化为

根据图2和图3的示例，即使当将被识别的所有帧中的仅一些帧被输入到声学模型以逐步解码时，准确的语音识别也是可能的。换句话说，根据示例，即使当对不足以能够进行准确的语音识别的帧(诸如，第一窗或第二窗)执行归一化时，足以能够进行准确的语音识别的其他的帧也被考虑在内。因此，当不充足的帧不对应于用户的语音时，可以防止不充足的帧被误识别为用户的语音。

然而，归一化不限于图2和图3的示例。当充足数量的帧属于当前窗时(例如，当窗大小已被设置为对于准确的语音识别足够大时)，还可以在不考虑之前窗的帧或训练数据的帧的情况下，仅使用关于属于当前窗的帧的信息来执行归一化。

图4A至图4D是示出归一化方法的示例的示图。将通过参照图2至图4D的示例来描述执行归一化的示例。首先，假设将被识别的语音信号的帧的总数为18，窗大小为4。

图4A示出从将被识别的语音信号的帧数据提取将被输入到声学模型的窗的示例。当语音信号的帧数据从帧1开始顺序地输入时，窗提取器210或310等待直到帧4被输入并且窗大小4被满足，当帧4被输入时提取第一窗W1。随后，当被输入的帧达到帧8时，窗提取器210或310提取帧5至帧8作为第二窗W2。窗提取器210或310重复该处理，直到将被识别的语音信号的所有帧被输入。在这个示例中，最后窗不具有4帧，因为帧的总数18不是窗大小4的整数倍。如上所述，提取的窗被顺序地输入到声学模型，并且以窗为单位计算声学分数，例如，特定发音的概率。

图4B示出由归一化器220执行的归一化方法的示例，在该示例中，归一化器220仅考虑属于当前窗W3的帧9、帧10、帧11和帧12来执行归一化。当窗大小被设置为对于准确的语音识别足够大时，这个示例可被应用。

图4C示出由归一化器220执行的归一化方法的另一示例，在该示例中，归一化器220考虑属于之前窗的帧(即，帧1至帧8)来归一化当前窗W3。在这个示例中，等式1用于执行归一化。

图4D示出由归一化器320执行的归一化方法的示例。当预设的参考值为8并且第一窗W1被提取时，提取的帧的总数目前为4(即，小于参考值8)，因此，归一化器320从训练数据获取4帧(即，提取的参考值8与帧的总数4之间的差)，并考虑从训练数据获取的4帧来执行归一化。在这个示例中，归一化器320根据等式2来计算平均值和标准差，并使用根据等式2计算的平均值和标准差根据等式1来执行归一化。

图5是归一化方法的示例的流程图。

图5的归一化方法是由图2的归一化设备200执行的归一化方法的示例。归一化设备200顺序地接收将被识别的语音信号的帧(510)。

随后，在语音信号的帧正被输入的同时，当与预设的窗大小对应的数量的帧已被输入时，归一化设备200提取窗作为将被输入到声学模型的帧数据(520)。归一化设备200可将填充帧添加到当前提取的窗的两侧(未示出)。

随后，当将被输入到声学模型的窗被提取时，归一化设备200归一化当前提取的窗(530)。当填充帧已被添加到当前提取的窗时，归一化设备200考虑填充帧来执行归一化。为了更准确的语音识别，归一化设备200考虑关于属于之前已被提取的所有窗的帧的信息，来归一化属于当前提取的窗的帧。在这种情况下，等式1被用于归一化。然而，归一化方法不限于这种情况。可以仅使用之前窗中的一些窗来归一化当前提取的窗，并且当当前提取的窗的大小对于归一化足够大时，还可以仅使用属于当前提取的窗的帧来归一化当前提取的窗。

随后，归一化设备200确定是否存在将被提取的另一窗(即，当前提取的窗是否是最后窗)(540)。当当前提取的窗不是最后窗时，该处理进行到归一化设备200提取下一窗的操作520。

在操作530中，在对当前提取的窗执行归一化后，图1的语音识别设备100可通过将属于所述窗的归一化的帧输入到声学模型，来计算声学分数(550)。

图6是归一化方法的另一示例的流程图。

图6的归一化方法是由图3的归一化设备300执行的归一化方法的示例。归一化设备300顺序地接收将被识别的语音信号的帧(610)。

随后，在语音信号的帧正被输入的同时，当与预设的窗大小对应的数量的帧已被输入时，归一化设备300提取窗作为将被输入到声学模型的帧数据(620)。归一化设备300可将填充帧添加到当前提取的窗的两侧(未示出)。

随后，归一化设备300确定是否存在充足的信息来归一化属于当前提取的窗的帧(630)。例如，归一化设备300将已被提取的帧的总数(即，包括属于第一提取的窗的第一帧至属于当前提取的窗的最后帧的帧的总数)与预设的参考值进行比较，并在帧的总数小于参考值时确定没有充足的信息。

当确定没有充足的信息用于归一化帧时，归一化设备300从训练数据获取额外的帧(640)。例如，归一化设备300从训练数据获取与参考值和已被提取的帧的总数之间的差对应的数量的帧。

随后，归一化设备300考虑之前窗的帧和从训练数据获取的帧，来归一化属于当前提取的窗的帧(650)。归一化设备300根据等式2来计算平均值和标准差，并根据使用根据等式2计算的平均值和标准差的等式1来执行归一化。

随后，归一化设备300确定是否存在下一将被提取的另一窗(即，当前提取的窗是否是最后窗)(660)。当当前提取的窗不是最后窗时，该处理进行到归一化设备300提取下一窗的操作620。

在操作650中，当对当前提取的窗执行归一化时，图1的语音识别设备100可通过将属于所述窗的帧输入到声学模型，来计算声学分数(670)。

图7是采用语音识别技术的电子装置的示例的框图。

参照图7，电子装置700包括：语音输入单元710、语音识别器720和处理器730。语音识别器720可为图1的语音识别设备100。

语音输入单元710通过电子装置700的麦克风来接收由用户输入的语音信号。用户的语音信号可与嵌入到电子装置700中的命令的执行、语音信号翻译或解释为另一语言、TV控制、车辆巡航控制、或导航控制相关。

当输入的语音信号的帧被顺序地输入时，语音识别器720从输入的帧数据提取将被输入到声学模型的窗。语音识别器720以提取的窗为单位执行归一化，并当填充帧被添加到窗的两侧时，将窗的帧与添加的填充帧一起进行归一化。此外，当以窗为单位执行归一化时，语音识别器720可将归一化的窗输入到声学模型和语言模型，逐步地解释声学分数和语言分数，并输出识别结果。

当语音识别结果被输出时，处理器730执行与语音识别结果对应的操作。例如，处理器730可使用声音或以显示器上的文本的形式来输出语音识别结果，并执行处理嵌入在电子装置700中的命令(例如，TV控制(诸如，电源开/关和音量控制)、车辆巡航控制、或导航控制)的操作。此外，处理器730可执行翻译/解释。然而，处理器730的操作不限于此，并且处理器730可在除了上面提到的领域之外的各种领域中使用。

通过被配置为执行在本申请中描述的由硬件组件执行的操作的硬件组件，来实现执行在本申请中描述的操作的图1中的语音识别设备100、预处理器110、声学分数计算器120、语言分数计算器130和解释器140，图2中的归一化设备200、窗提取器210和归一化器220，图3中的归一化设备300、窗提取器310和归一化器320，和图7中的电子装置700、语音输入单元710、语音识别器720和处理器730。可用于执行在本申请中合适位置描述的操作的硬件组件的示例包括：控制器、传感器、生成器、驱动器、存储器、比较器、算术逻辑单元、加法器、减法器、乘法器、除法器、积分器和被配置为执行在本申请中描述的操作的任何其他电子组件。在其他示例中，执行在本申请中描述的操作的一个或多个硬件组件可通过计算硬件(例如，通过一个或多个处理器或计算机)来实现。可通过一个或多个处理元件，诸如，逻辑门阵列、控制器和算术逻辑单元、数字信号处理器、微型计算机、可编程逻辑控制器、现场可编辑门阵列、可编程逻辑阵列、微处理器或被配置为以限定的方式响应并执行指令以实现期望的结果的任何其他装置或装置的组合来实现处理器或计算机。在一个示例中，处理器或计算机包括或被连接到，存储由处理器或计算机执行的指令或软件的一个或多个存储器。通过处理器和计算器实现的硬件组件可执行指令或软件(诸如，操作系统(OS)和运行在OS上运行的一个或多个软件应用)，以执行在本申请中描述的操作。硬件组件还可响应于指令或软件的执行，访问、操纵、处理、创建和存储数据。为了简明，单数术语“处理器”或“计算机”可用于在本申请中描述的示例的描述，但是在其他示例中，多个处理器或计算机可被使用，或者一个处理器或一个计算机可包括多个处理器元件或多种类型的处理器元件或者二者。例如，单个硬件组件或者两个或更多个硬件组件可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来实现。一个或多个硬件组件可通过一个或多个处理器，或者一个处理器和一个控制器来实现，并且一个或多个其他硬件组件可通过一个或多个其他处理器，或者另一处理器和另一控制器来实现。一个或多个处理器或者一个处理器和一个控制器可实现单个硬件组件或者两个或更多个硬件组件。硬件组件可具有任何一个或多个不同的处理配置，其示例包括：单处理器、独立处理器、并行处理器、单指令单数据(SISD)多处理、单指令多数据(SIMD)多处理、多指令单数据(MISD)多处理、以及多指令多数据(MIMD)多处理。

可通过如上描述的被实现为执行指令或软件的计算硬件(例如，通过一个或多个处理器或计算机)来执行图5和图6中示出的执行在本申请中描述的操作的方法，其中，指令或软件用于执行在本申请中描述的由该方法执行的操作。例如，单个操作或者两个或更多个操作可通过单个处理器、或者两个或更多个处理器、或者一个处理器和一个控制器来执行。一个或多个操作可通过一个或多个处理器、或者一个处理器和一个控制器来执行，并且一个或多个其他操作可通过一个或多个其他处理器、或者另一处理器和另一控制器来执行。一个或多个处理器、或者一个处理器和一个控制器可执行单个操作、或者两个或更多个操作。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件可被编写为计算机程序、代码段、指令或它们的任何组合，以单独地或共同地指示或配置一个或多个处理器或计算机如机器或专用计算机一样进行工作，以执行由硬件组件执行的操作和如上所述的方法。在一个示例中，指令或软件包括直接地由一个或多个处理器或计算机执行的机器代码(诸如，由编译器产生的机器代码)。在另一示例中，指令或软件包括由一个或多个处理器或计算机使用解释器执行的高级代码。可基于附图中示出的框图和流程图和说明书中的相应描述使用任意编程语言来编写指令或软件，其中，附图中示出的框图和流程图和说明书中的相应描述公开了用于执行由硬件组件执行的操作和如上所述的方法的算法。

用于控制计算硬件(例如，一个或多个处理器或计算机)实现硬件组件并且执行如上所述的方法的指令或软件，以及任何相关联的数据、数据文件和数据结构可被记录、存储或固定在一个或多个非暂时性计算机可读存储介质中，或者被记录、存储或固定在一个或多个非暂时性计算机可读存储介质上。非暂时性计算机可读存储介质的示例包括：只读存储器(ROM)、随机存取存储器(RAM)、闪存、CD-ROM、CD-R、CD+R、CD-RW、CD+RW、DVD-ROM、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-R LTH、BD-RE、磁带、软盘、磁光数据存储装置、光学数据存储装置、硬盘、固态盘，以及任意其他装置，其中，任意其他装置被配置为：以非暂时性方式存储指令或软件以及任何相关联的数据、数据文件和数据结构，并且向一个或多个处理器或计算机提供指令或软件以及任何相关联的数据、数据文件和数据结构，以使得一个或多个处理器或计算机能够执行指令。在一个示例中，指令或软件以及任何相关联的数据、数据文件和数据结构分布在联网的计算机系统上，使得指令和软件以及任何相关联的数据、数据文件以及数据结构以分布的方式被一个或多个处理器或计算机存储、访问和执行。

尽管本公开包括特定的示例，但是在理解本申请的公开后将是清楚的是：在不脱离权利要求和它们的等同物的精神和范围的情况下，可在这些示例中进行形式和细节上各种改变。在此描述的示例将被认为仅是描述性意义，而非为了限制的目的。每个示例中的特征或方面的描述将被认为适用于其他示例中的相似的特征或方面。如果以不同的顺序执行描述的技术，和/或如果所描述的系统、架构、装置或电路中的组件以不同的方式来组合，和/或由其他组件或者它们的等同物来替换或补充，则可实现合适的结果。因此，本公开的范围不是通过具体实施方式所限定，而是由权利要求和它们的等同物来限定，并且在权利要求和它们的等同物的范围内的所有变化将被解释为被包括在本公开中。

Claims

1.一种用于归一化声学模型的输入数据的设备，所述设备包括：

窗提取器，被配置为：从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；

归一化器，被配置为：以提取的窗为单位，归一化将被输入到声学模型的帧数据，

其中，归一化器还被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

2.如权利要求1所述的设备，其中，窗提取器还被配置为：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

3.如权利要求1所述的设备，其中，归一化器还被配置为：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。

4.如权利要求1所述的设备，其中，归一化器还被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

5.如权利要求4所述的设备，其中，归一化器还被配置为：响应于帧的总数小于参考值，从训练数据获取与参考值和帧的总数之间的差对应的数量的帧，作为考虑的训练数据的帧。

6.如权利要求1所述的设备，其中，归一化器还被配置为：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。

7.一种归一化声学模型的输入数据的方法，所述方法包括：

从将被识别的语音的帧数据，提取将被输入到声学模型的帧数据的窗；

以提取的窗为单位，归一化将被输入到声学模型的帧数据，

其中，归一化帧数据的步骤包括：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

8.如权利要求7所述的方法，其中，提取窗的步骤包括：在将被识别的语音的帧数据正被输入的同时，以将被识别的语音的帧数据的预定数量的帧为单位，连续地提取窗。

9.如权利要求7所述的方法，其中，归一化帧数据的步骤包括：将属于当前窗的帧和添加到当前窗的两侧的填充帧一起进行归一化。

10.如权利要求7所述的方法，其中，归一化帧数据的步骤包括：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

11.如权利要求10所述的方法，其中，归一化帧数据的步骤包括：

响应于当前窗被提取，将属于当前窗和之前窗的帧的总数与参考值进行比较；

响应于帧的总数小于参考值，从训练数据获取与参考值和帧的总数之间的差对应的数量的帧，作为考虑的训练数据的帧。

12.如权利要求7所述的方法，其中，归一化帧数据的步骤包括：归一化属于提取的窗的帧数据，使得属于提取的窗的帧数据具有平均值0和标准差1。

13.一种语音识别设备，包括：

预处理器，被配置为：

从将被识别的语音的帧数据提取将被输入到声学模型的帧数据的窗，

以提取的窗为单位归一化将被输入到声学模型的帧数据；

声学分数计算器，被配置为：使用基于深度神经网络的声学模型，以归一化的窗为单位，通过将归一化的帧数据输入到所述声学模型中来计算声学分数；

解释器，被配置为：

解释以归一化的窗为单位计算的声学分数，

基于解释的声学分数来输出将被识别的语音的识别结果，

其中，预处理器还被配置为：考虑属于当前窗的之前窗的帧，来归一化属于当前窗的帧。

14.如权利要求13所述的语音识别设备，其中，预处理器还被配置为：响应于属于当前窗的帧和属于之前窗的帧的总数不足以进行语音识别，考虑属于之前窗的帧和训练数据的帧，来归一化属于当前窗的帧。

15.如权利要求13所述的语音识别设备，其中，解释器还被配置为：在将被识别的语音的输入正在进行的同时，响应于预定条件被满足或者用户的输入，来输出当前窗的识别结果作为将被识别的全部语音的最终识别结果。

16.如权利要求13所述的语音识别设备，其中，深度神经网络为双向循环深度神经网络(BRDNN)。

17.如权利要求13所述的语音识别设备，还包括：语言分数计算器，被配置为使用语言模型来计算语言分数；

其中，解释器还被配置为：基于语言分数和解释的声学分数来输出识别结果。

18.一种用于归一化声学模型的输入数据的设备，所述设备包括：

归一化器，被配置为：基于用于能够进行语音识别的充足数量的帧数据，来归一化将被输入到声学模型的帧数据，

其中，归一化器还被配置为：基于从第一提取的窗到当前提取的窗的所有提取的窗的帧，来归一化帧数据。

19.如权利要求18所述的设备，其中，归一化器还被配置为：基于从第一提取的窗到当前提取的窗的所有提取的窗的帧以及训练数据的帧，来归一化帧数据。

20.如权利要求19所述的设备，其中，训练数据的帧的数量等于表示用于能够进行语音识别的帧的最小数量的参考值与从第一提取的窗到当前提取的窗的所有提取的窗的帧的总数之间的差。

21.如权利要求18所述的设备，其中，归一化器还被配置为：每当窗被提取时，归一化当前提取的窗的帧。

22.一种存储指令的非暂时性计算机可读介质，当由处理器执行所述指令时使得处理器执行权利要求7所述的方法。