CN107004409B

CN107004409B - 利用运行范围归一化的神经网络语音活动检测

Info

Publication number: CN107004409B
Application number: CN201580063710.1A
Authority: CN
Inventors: E·维克斯
Original assignee: Cypher LLC
Current assignee: Lingyun Logic International Semiconductor Co.,Ltd.
Priority date: 2014-09-26
Filing date: 2015-09-26
Publication date: 2021-01-29
Anticipated expiration: 2035-09-26
Also published as: US20160093313A1; EP3198592A4; WO2016049611A1; US9953661B2; CN107004409A; EP3198592A1; JP2017530409A; JP6694426B2; KR20170060108A; KR102410392B1; US20180240472A1

Abstract

“运行范围归一化”方法包括计算对语音活动检测(VAD)有用的特征的数值范围的运行估计，并且通过将它们映射到期望范围来对特征进行归一化。运行范围归一化包括计算VAD特征的最小值和最大值的运行估计，以及通过将原始范围映射到期望范围来对特征值进行归一化。平滑系数被任选地选择以定向地偏置最小值和最大值的运行估计中的至少一个的变化率。归一化的VAD特征参数被用于训练机器学习算法以检测语音活动并使用经训练的机器学习算法来隔离或增强音频数据的话语分量。

Description

利用运行范围归一化的神经网络语音活动检测

相关申请的交叉引用

本申请要求2014年9月26日提交的美国临时申请序列号62/056,045和2015年9月25日提交的美国实用申请序列号14/866,824的优先权，二者标题均为“Neural NetworkVoice Activity Detection Employing Running Range Normalization”，其全部内容通过引用并入本文。

技术领域

本公开总体涉及用于处理音频信号的技术，包括用于隔离语音数据、从音频信号中去除噪声或者在输出音频信号之前以其它方式增强音频信号的技术。更具体地，本公开涉及语音活动检测(VAD)，且更具体地，涉及用于归一化来源于音频信号的一个或多个语音活动检测特征或特征参数的方法。还公开了用于处理音频信号的设备和系统。

背景技术

语音活动检测器长期以来一直用于增强音频信号中的话语并且用于包括话语识别或特定扬声器的语音识别的各种其它目的。

传统上，语音活动检测器依赖于模糊规则或试探法并结合诸如能级和过零率的特征来确定音频信号是否包括话语。在一些情况下，由传统语音活动检测器利用的阈值取决于音频信号的信噪比(SNR)，使得难以选择合适的阈值。此外，虽然传统语音活动检测器在音频信号具有高SNR的条件下工作良好，但是当音频信号的SNR低时，它们是不太可靠的。

通过使用诸如神经网络的机器学习技术已经改进了一些语音活动检测器，这些技术通常组合几个中等的语音活动检测(VAD)特征以提供更准确的语音活动估计。(这里使用的术语“神经网络”也可以指其它机器学习技术，诸如支持向量机、决策树、逻辑回归、统计分类器等)。虽然这些改进的语音活动检测器对于用于训练它们的音频信号来说工作良好，但是当应用于从不同环境(包括不同类型的噪声，或包括与用于训练语音活动检测器的音频信号不同的混响量)获得的音频信号时，其通常不太可靠。

已经使用称为“特征归一化”的技术来改善鲁棒性，具有该鲁棒性的语音活动检测器可以用于评估具有各种不同特性的音频信号。在均方差归一化(MVN)中，例如，特征向量的每个元素的均值和方差分别被归一化为零和一。除了改善对不同数据集的鲁棒性之外，特征归一化也隐含地提供关于当前时间帧如何与先前帧相比较的信息。例如，如果给定的隔离数据帧中的非归一化特征具有为0.1的数值，则可能提供关于该帧是否对应于话语的很少信息，特别是如果我们不知道SNR。然而，如果该特征已经基于记录的长期统计被归一化，则其提供了关于该帧如何与总体信号相比较的附加背景。

然而，诸如MVN的传统特征归一化技术通常对对应于话语的音频信号的百分比非常敏感(即人在说话的时间的百分比)。如果运行期间的在线话语数据与用于训练神经网络的数据具有明显不同的话语百分比，则VAD特征的平均值将相应地移位，产生误导结果。因此，在语音活动检测和特征归一化中寻求改进。

发明内容

在一些实施例中，本发明的一个方面的特征在于从音频信号获得归一化语音活动检测特征的方法。该方法在计算系统中执行并且包括以下步骤：将音频信号划分成时间帧的序列；针对每个时间帧计算音频信号的一个或多个语音活动检测特征；以及针对每个时间帧计算音频信号的一个或多个语音活动检测特征的最小值和最大值的运行估计。该方法进一步包括针对每个时间帧通过比较音频信号的一个或多个语音活动检测特征的最小值和最大值的运行估计来计算一个或多个语音活动检测特征的输入范围；以及针对每个时间帧将音频信号的一个或多个语音活动检测特征从输入范围映射到一个或多个期望目标范围，以获得一个或多个归一化语音活动检测特征。

在一些实施例中，指示口语语音数据的音频信号的一个或多个特征包括全频带能量、低频带能量、在主麦克风和参考麦克风中测量的能量的比率、方差值、频谱质心比、频谱方差、频谱差异的方差、频谱平坦度和过零率中的一个或多个。

在一些实施例中，一个或多个归一化语音活动检测特征被用于产生口语语音数据的可能性的估计。

在一些实施例中，该方法进一步包括将一个或多个归一化语音活动检测特征应用于机器学习算法以产生指示二进制话语/非话语命名和话语活动的可能性中的至少一个的语音活动检测估计。

在一些实施例中，该方法进一步包括使用语音活动检测估计来控制一个或多个自适应滤波器的自适应速率。

在一些实施例中，时间帧在时间帧的序列内是交叠的。

在一些实施例中，该方法进一步包括后处理一个或多个归一化语音活动检测特征，包括平滑化、量化和阈值化中的至少一个。

在一些实施例中，一个或多个归一化语音活动检测特征被用于通过噪声降低、自适应滤波、功率水平差计算和非话语帧的衰减中的一个或多个来增强音频信号。

在一些实施例中，该方法进一步包括产生包括基本上不含非语音数据的口语语音数据的净化音频信号。

在一些实施例中，一个或多个归一化语音活动检测特征被用于训练机器学习算法以检测话语。

在一些实施例中，计算一个或多个语音活动检测特征的最小值和最大值的运行估计包括对一个或多个语音活动检测特征应用不对称指数平均。在一些实施例中，该方法进一步包括将平滑系数设置为对应于所选择的时间常数以产生平滑的最小值估计和平滑的最大值估计中的一个估计的逐渐变化和快速变化中的一种变化。在一些实施例中，平滑系数被选择为使得最大值估计的连续更新快速响应于较高的语音活动检测特征值，并且响应于较低的语音活动检测特征值而更慢地衰减。在一些实施例中，平滑系数被选择为使得最小值估计的连续更新快速响应于较低的语音活动检测特征值，并且响应于较高的语音活动检测特征值而缓慢增加。

在一些实施例中，根据以下公式执行映射：归一化特征值＝2×(新特征值-特征下限)/(特征上限-特征下限)-1。

在一些实施例中，根据以下公式执行映射：归一化特征值＝(新特征值-特征下限)/(特征上限-特征下限)。

在一些实施例中，通过从最大值的运行估计中减去最小值的运行估计来执行计算一个或多个语音活动检测特征的输入范围。

在一些实施例中，本发明的另一方面的特征在于一种将语音活动检测特征归一化的方法。该方法包括以下步骤：将音频信号分割成时间帧的序列；计算用于语音活动检测特征的运行最小值估计和运行最大值估计；通过比较运行最小值估计和运行最大值估计来计算输入范围；以及通过将语音活动检测特征从输入范围映射到一个或多个期望目标范围来将语音活动检测特征归一化。

在一些实施例中，计算运行最小值估计和运行最大值估计包括选择平滑系数以建立用于运行最小值估计和运行最大值估计中的至少一个的定向偏置变化率。

在一些实施例中，平滑系数被选择为使得运行最大值估计更快地响应较高的最大值并且更慢地响应较低的最大值。

在一些实施例中，平滑系数被选择为使得运行最小值估计更快地响应较低的最小值并且更慢地响应较高的最小值。

在一些实施例中，本发明的另一方面的特征在于一种存储用于执行用于识别音频信号中的语音数据的方法的计算机程序的计算机可读介质，该计算机可读介质包括：计算机存储介质；以及存储在计算机存储介质上的计算机可执行指令，所述计算机可执行指令在由计算系统执行时被配置为使计算系统：计算多个语音活动检测特征；计算语音活动检测特征的最小值和最大值的运行估计；通过比较最小值和最大值的运行估计来计算语音活动检测特征的输入范围；以及将语音活动检测特征从输入范围映射到一个或多个期望目标范围以获得归一化的语音活动检测特征。

附图说明

通过在结合附图进行考虑时参考详细描述，可以获得对本发明的更完整的理解。

图1示出根据一个实施例的利用运行范围归一化的语音活动检测方法；

图2示出根据一个实施例的利用运行范围归一化来归一化VAD特征的方法的处理流程；

图3示出典型的非归一化VAD特征的时间变化，以及相应的下限值和上限值和所得的归一化VAD特征；

图4示出了根据一个实施例的用于训练语音活动检测器的方法；以及

图5示出根据一个实施例的用于测试语音活动检测器的方法的处理流程。

图6示出用于分析数字音频的计算机架构。

具体实施方式

以下描述仅是本发明的示例性实施例，并不意图限制本发明的范围、适用性或配置。相反，以下描述旨在提供用于实现本发明的各种实施例的方便的图示。显而易见的是，在不脱离本文所阐述的本发明的范围的情况下，可以在这些实施例中描述的元件的功能和布置中进行各种改变。因此，这里的详细描述仅是为了说明的目的而不是限制。

说明书中对“一个实施例”或“实施例”的引用旨在表示结合实施例描述的特定特征、结构或特性包括在本发明的至少一个实施例中。在说明书中的各个地方出现的短语“在一个实施例中”或“在实施例中”不一定都指代相同的实施例。

本发明扩展到用于分析数字数据的方法、系统和计算机程序产品。被分析的数字数据可以是例如数字音频文件、数字视频文件、实时音频流和实时视频流等的形式。本发明识别数字数据源中的模式，并使用所识别的模式来分析、分类和过滤数字数据，例如隔离或增强语音数据。本发明的具体实施例涉及数字音频。实施例被设计为执行与任何音频源的非破坏性音频隔离和分离。

在一个方面，公开了一种用于连续归一化一个或多个特征的方法，所述特征被用于确定音频信号(例如，由诸如电话、移动电话、音频记录设备等的音频装置的麦克风等接收的音频信号)包括对应于个人的语音的音频的可能性，这在本领域中被称为“语音活动检测(VAD)”。这种方法包括在此称为“运行范围归一化”的过程，其包括跟踪和可选地连续修改可能描述个人语音的各个方面的音频信号的特征的参数。非限制地，运行范围归一化可以包括计算音频信号的一个或多个特征的最小值和最大值的运行估计(即分别为特征下限估计和特征上限估计)，其可以指示构成至少一部分音频信号的个人语音。由于感兴趣的特征指示音频信号是否包括个人语音，所以这些特征可以被称为“VAD特征”。通过跟踪和修改特定VAD特征的下限估计和上限估计，关于音频信号的某些特征是否指示口语语音的存在的置信度可以被最大化。

VAD特征的一些非限制性示例包括全频带能量、包括低频带能量(例如，<1kHz)的各种频带中的能量、在主麦克风和参考麦克风中测量的能量的比率、方差值、频谱质心比、频谱方差、频谱差异的方差、频谱平坦度和过零率。

参考图1，示出了VAD方法100的实施例。VAD方法可以包括获得可以被划分成(可选地重叠的)时间帧的序列的一个或多个音频信号(“有噪声的话语”)(步骤102)。在一些实施例中，在确定音频信号是否包括语音活动之前，可以对音频信号进行一些增强处理。在每个时间帧处，可以评估每个音频信号以确定或计算一个或多个VAD特征(在“计算VAD特征”处)(步骤104)。使用来自特定时间帧的(多个)VAD特征，可以在这些VAD特征上执行运行范围归一化过程(在“运行范围归一化”处)(步骤106)。该运行范围归一化过程可以包括计算该时间帧的特征下限估计和特征上限估计。通过映射到特征下限估计和特征上限估计之间的范围，可以在多个时间帧上或在时间上对相应VAD特征的参数进行归一化(“归一化VAD特征”)(步骤108)。

然后可以(例如，由神经网络等)使用归一化的VAD特征来确定音频信号是否包括语音信号。可以重复该过程以便在处理音频信号时连续更新语音活动检测器。

在给定归一化VAD特征的序列的情况下，神经网络可以产生指示二进制话语/非话语决策的VAD估计、话语活动的可能性或可以可选地经历阈值以产生二进制话语/非话语决策的实数(步骤110)。由神经网络产生的VAD估计可以经历诸如量化、平滑化、阈值化、“孤立去除”等的进一步处理，从而产生可以用于控制音频信号的进一步处理的后处理的VAD估计(步骤112)。例如，如果在音频信号或一部分音频信号中没有检测到语音活动，则音频信号中的其它音频源(例如，噪声、音乐等)可以被从音频信号的相关部分移除，导致静音音频信号。VAD估计(具有可选的后处理)也可以用于控制自适应滤波器的自适应速率或控制其它话语增强参数。

音频信号可以用麦克风、用接收机、作为电信号或以任何其它合适的方式获得。音频信号可以被发送到计算机处理器、微控制器或任何其它合适的处理元件，当在适当编程的控制下操作时，其可以根据本文提供的公开内容来分析和/或处理音频信号。

作为非限制性实施例，音频信号可以由诸如电话、移动电话、音频记录设备等的音频装置的一个或多个麦克风接收。音频信号可以被转换成数字音频信号，并且然后被发送到音频装置的处理元件。处理元件可以将根据本公开的VAD方法应用于数字音频信号，并且在一些实施例中，可以对数字音频信号执行其它处理，以进一步净化该数字音频信号或从其中消除噪声。然后处理元件可以存储净化的音频信号，发送净化的音频信号和/或输出净化的音频信号。

在另一个非限制性实施例中，数字音频信号可以由诸如电话、移动电话、音频记录设备、音频回放设备等的音频装置接收。数字音频信号可以被传送到音频装置的处理元件，然后该处理元件可以对数字音频信号执行实现根据本公开的VAD方法的程序。另外，处理元件可以执行进一步提高数字音频信号的清晰度的一个或多个其它处理。然后，处理元件可以存储、发送和/或可听地输出净化的数字音频信号。

参考图2，运行范围归一化过程200被用于将一组非归一化的VAD特征转换为一组归一化的VAD特征。在每个时间帧内，针对每个特征计算更新的下限估计和上限估计(步骤202，204)。然后，每个特征被映射到基于下限估计和上限估计的范围(步骤206)，从而产生一组归一化的VAD特征(步骤208)。

特征下限估计和特征上限估计可以被初始化为零。可替代地，为了在音频信号的前几秒期间的最佳性能(例如，利用实时获得的音频信号)，特征下限估计和特征上限估计可以被初始化为(例如，在工厂等)预先确定的典型值。特征下限估计和特征上限估计(例如，在电话呼叫过程中，随着音频信号另外被接收和处理以检测语音和/或净化音频信号等)的进一步计算可以包括应用非对称指数平均以在多个时间帧内分别跟踪平滑的特征下限估计和平滑的特征上限估计。可以使用跟踪下限和/或上限估计的其它方法来代替非对称指数平均。例如，最小统计算法在有限窗口内跟踪有噪声的话语功率的最小值(可选地作为频率的函数)。

在特征下限估计的背景中，不对称指数平均的使用可以包括将来自音频信号的新VAD特征的值与特征下限估计进行比较，并且如果新VAD特征的值超过特征下限估计，则逐渐增加特征下限估计。可以通过将平滑系数设置为对应于诸如五秒(5秒)或更长时间的慢时间常数的值来实现特征下限估计的逐渐增加。在替代方案中，如果来自音频信号的新VAD特征的值小于特征下限估计，则可以快速减小特征下限估计。可以通过将平滑系数设置为对应于诸如一秒(1秒)或更短时间的快时间常数的值来实现特征下限估计的快速减少。下面的方程表示可以用于对特征下限估计应用不对称指数平均的算法：

featureFloor_new＝cFloor×featureFloor_previous+(1-cFloor)×newFeatureValue其中cFloor是当前下限平滑系数，featureFloor_previous是先前平滑的特征下限估计，newFeatureValue是最近的非归一化VAD特征，而featureFloor_new是新的平滑的特征下限估计。

在特征上限估计的背景中，不对称指数平均的使用可以包括将来自音频信号的新VAD特征的值与特征上限估计进行比较。如果新VAD特征的值小于特征上限估计，则可以逐渐减少特征上限估计。可以通过将平滑系数设置为对应于诸如五秒(5秒)或更长时间的慢时间常数的值来实现特征下限估计的逐渐减小。相反，如果新VAD特征大于特征上限估计，则可以快速增加特征上限估计。可以通过将平滑系数设置为对应于诸如一秒(1秒)或更短时间的快时间常数的值来实现特征上限估计的快速增加。在具体实施例中，下面的算法可以用于对特征上限估计应用不对称指数平均：

featureCeil_new＝cCeil*featureCeil_previous+(1-cCeil)*newFeatureValue。

其中cCeil是当前上限平滑系数，featureCeil_previous是先前平滑的特征上限估计，newFeatureValue是最近的非归一化VAD特征，并且featureCeil_new是新的平滑特征上限估计。

在图3的顶部曲线中示出了典型的一系列非归一化VAD特征值和相应的下限和上限值。实线描绘了非归一化的VAD特征值，它们随着帧而不同；虚线描绘相应的上限值；并且点划线描绘相应的下限值。特征上限估计快速响应新的峰值，但是响应于低特征值而缓慢衰减。类似地，特征下限估计快速响应小特征值，但响应于大值而缓慢增加。

通常使用大约0.25秒的时间常数的快速系数允许特征下限值和上限值在最小和最大特征值的运行估计上快速收敛，而慢系数可以使用比实际用于诸如MVN的归一化技术的时间常数更长的时间常数(诸如18秒)。慢时间常数使得运行范围归一化对于话语的百分比不太敏感，因为特征上限(featureCeil)值将倾向于记住长时间的沉默期间的最大特征值。当讲话者再次开始讲话时，快时间常数将帮助特征上限(featureCeil)快速接近新的最大特征值。此外，运行范围归一化可以对最小特征值进行显性估计，其对应于噪声下限。由于VAD阈值倾向于相对接近于噪声下限，所以这些显性最小特征估计被视为比通过跟踪平均值和方差获得的隐性估计值更有用。在一些应用中，对于下限和上限估计使用不同的一对时间常数可能是有利的，例如，比下限估计更快地适应上限估计，反之亦然。

一旦已经针对特定的VAD特征计算了特征下限估计和特征上限估计，则可以通过将特征下限估计和特征上限估计之间的范围映射到期望目标范围来将VAD特征归一化。期望目标范围可以可选地从-1延伸到+1。在具体实施例中，可以使用以下公式来执行该映射：

所得到的归一化特征值在图3的底部曲线图中示出，并且对应于图3的顶部曲线图中的非归一化特征值。在该示例中，归一化特征值倾向于大约占据从-1到+1的期望目标范围。这些归一化特征值通常对变化的环境条件更加鲁棒，并且对训练和应用VAD神经网络更有用。

类似地，如果期望目标范围是从0到+1，则可以使用以下公式来执行该映射：

也可以使用各种非线性映射。

由于平滑的下限和上限估计的延迟响应，常见的是非归一化VAD特征值偶尔会落在当前下限和上限估计之间的范围之外，导致归一化VAD特征值落在期望目标范围之外。这对于训练和应用神经网络的意图来说通常不是问题，但是如果需要，可以将大于目标范围的最大值的归一化特征值设置为目标范围的最大值；同样地，可以将小于目标范围的最小值的归一化特征设定为目标范围的最小值。

在另一方面，诸如上述公开的VAD方法可以用于训练语音活动检测器。这种训练方法可以包括使用包括噪声信号和干净话语信号的多个训练信号。噪声和干净话语信号可以以各种信噪比混合以产生有噪声的话语信号。

语音活动检测器的训练可以包括处理有噪声的话语信号以从其确定或计算多个VAD特征。诸如本文先前公开的运行范围归一化过程可以应用于VAD特征以提供归一化VAD特征。

另外，针对干净的话语被优化的语音活动检测器可以应用于对应于多个有噪声的音频信号的多个干净音频信号。通过用针对干净话语被优化的语音活动检测器处理干净音频信号，可以获得VAD特征的基础真值数据。

然后，可以使用基础真值数据和从有噪声的音频信号得到的归一化VAD特征来训练神经网络，因此它可以“学习”以将相似的归一化VAD特征集与相应的基础真值数据相关联。

参考图4，其示出了用于训练语音活动检测器400的方法的实施例。用于训练VAD的方法400可以包括将干净话语数据402与噪声数据404进行混合，以产生具有给定信噪比的“有噪声的话语”的示例(步骤406)。可以评估每个噪声话语信号以确定或计算每个时间帧的一个或多个VAD特征(在“计算VAD特征”处)(步骤408)。使用来自最近时间帧的(多个)VAD特征和可选地从一个或多个先前时间帧得到的特征信息，可以对这些VAD特征执行运行范围归一化过程(在“运行范围归一化”处)(步骤410)。运行范围归一化过程可以包括计算每个时间帧的特征下限估计和特征上限估计。通过将特征下限估计和特征上限估计之间的范围映射到期望目标范围，可以在多个时间帧内或在时间上对相应VAD特征的参数进行归一化(“归一化VAD特征”)(步骤412)。

可以通过手动标记干净的话语数据来获得“基础真值VAD数据”，或者其可以从输入是相同的干净话语数据的常规VAD中获得，其中有噪声的话语和VAD特征从该相同的干净话语数据得到(步骤414)。然后使用归一化VAD特征和基础真值VAD数据来训练神经网络，因此可以从归一化VAD特征的某些组合和/或序列对应于某些类型的基础真值VAD数据的事实进行推断(“学习”)(步骤416)。

一旦已经训练了语音活动检测器，则可以测试经训练的语音活动检测器以及其优化的归一化VAD特征。图5示出了用于测试语音活动检测器500的方法的实施例的处理流程。经训练的语音活动检测器的测试可以使用干净的话语数据502(例如，附加训练信号)和噪声数据504的一个或多个附加集合，其可以以各种信噪比混合在一起以产生有噪声的话语信号(步骤506)。在每个时间帧处，从有噪声的话语计算一组VAD特征(步骤508)，并且使用运行范围归一化处理来产生相应的一组归一化VAD特征(步骤210)。这些归一化VAD特征被应用于神经网络(步骤512)。神经网络被配置和训练以产生可以可选地被平滑化、量化、阈值化或以其它方式后处理的VAD估计(步骤514)。另外，干净的话语数据被应用于针对干净话语优化的VAD(步骤516)，以产生一组基础真值VAD数据518，其可以可选地被平滑化、量化、阈值化或以其它方式后处理(步骤520)。来自神经网络的(可选地后处理的)VAD估计和(可选地后处理的)基础真值VAD数据可以应用于计算诸如“精度”和“召回”的精度测量的过程，从而允许开发者精细调整该算法以获得最佳性能(步骤522)。

本发明的实施例还可以扩展到用于分析数字数据的计算机程序产品。这种计算机程序产品可能旨在用于在计算机处理器上执行计算机可执行指令，以便执行用于分析数字数据的方法。这种计算机程序产品可以包括具有编码于其上的计算机可执行指令的计算机可读介质，其中当在适当的计算机环境内的合适的处理器上执行时，这些计算机可执行指令执行如本文进一步描述的分析数字数据的方法。

本发明的实施例可以包括或利用包含计算机硬件(诸如例如一个或多个计算机处理器和数据存储装置或系统存储器)的专用或通用计算机，如下面更详细地讨论。本发明的范围内的实施例还包括用于运载或存储计算机可执行指令和/或数据结构的物理和其它计算机可读介质。这种计算机可读介质可以是可由通用或专用计算机系统访问的任何可用介质。存储计算机可执行指令的计算机可读介质是计算机存储介质。运载计算机可执行指令的计算机可读介质是传输介质。因此，作为示例而非限制，本发明的实施例可以包括至少两种明显不同种类的计算机可读介质：计算机存储介质和传输介质。

计算机存储介质包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储设备，或任何其它物理介质，其可用于以计算机可执行指令或数据结构的形式存储所需程序代码装置并且可由通用或专用计算机访问。

“网络”被定义为使得能够在计算机系统和/或模块和/或其它电子设备之间输送电子数据的一个或多个数据链路。当信息通过网络或其它通信连接(硬连线、无线或者硬连线或无线的组合)被转移或提供给计算机时，计算机将该连接正确地视为传输介质。传输介质可以包括网络和/或数据链路，其可以用于以可由通用或专用计算机接收或访问的计算机可执行指令和/或数据结构的形式运载或发送期望的程序代码装置。上述各项的组合也应包括在计算机可读介质的范围内。

此外，在到达各种计算机系统组件时，计算机可执行指令或数据结构形式的程序代码装置可以被自动地从传输介质转移到计算机存储介质(反之亦然)。例如，通过网络或数据链路接收的计算机可执行指令或数据结构可以在网络接口模块(例如，“NIC”)内的RAM中被缓冲，然后被最终转移到计算机系统RAM和/或计算机系统内的较不易失的计算机存储介质中。因此，应当理解，计算机存储介质可以被包括在也(或可能主要)利用传输介质的计算机系统组件中。

计算机可执行指令包括例如在处理器处被执行时使通用计算机、专用计算机或专用处理设备执行某一功能或一组功能的指令和数据。计算机可执行指令可以是例如可在处理器上直接执行的二进制文件，诸如汇编语言之类的中间格式指令，或甚至可能需要由针对特定机器或处理器的编译器编译的更高级别的源代码。虽然已经用特别针对结构特征和/或方法动作的语言描述了主题，但是应当理解，所附权利要求中限定的主题不一定限于上述所描述的特征或动作。相反，所描述的特征和动作被公开为实现权利要求的示例形式。

本领域技术人员将理解，本发明可以在具有许多类型的计算机系统配置的网络计算环境中实践，这些配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费类电子产品、网络PC、小型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机等。本发明也可以在分布式系统环境中实现，其中通过网络(通过硬连线数据链路、无线数据链路或通过硬连线和无线数据链路的组合)链接的本地和远程计算机系统都执行任务。在分布式系统环境中，程序模块可能位于本地和远程存储装置中。

参考图6，其示出了用于分析数字音频数据的示例性计算机架构600。计算机架构600(这里也称为计算机系统600)包括一个或多个计算机处理器602和数据存储装置。数据存储装置可以是计算系统600内的存储器604，并且可以是易失性或非易失性存储器。计算系统600还可以包括用于显示数据或其它信息的显示器612。计算系统600还可以包含允许计算系统600通过例如网络(例如，因特网610)与其它计算系统、装置或数据源进行通信的通信信道608。计算系统600还可以包括输入装置，例如麦克风606，其允许访问数字或模拟数据的源。这种数字或模拟数据可以是例如音频或视频数据。数字或模拟数据可以是诸如来自现场麦克风的实时流数据的形式，或者可以是从数据存储装置614访问的存储数据，该数据存储装置614可由计算系统600直接访问或者可以通过通信信道608或经由诸如因特网610的网络更远程地访问。

通信信道608是传输介质的示例。传输介质通常体现为诸如载波或其它输送机制的调制数据信号中的计算机可读指令、数据结构、程序模块或其它数据，并且包括任何信息传递介质。作为示例而非限制，传输介质包括有线介质(诸如有线网络和直接有线连接)以及无线介质(诸如声学、无线电、红外线和其它无线介质)。本文所用的术语“计算机可读介质”包括计算机存储介质和传输介质。

在本发明的范围内的实施例还包括用于运载或具有存储于其上的计算机可执行指令或数据结构的计算机可读介质。称为“计算机存储介质”的这种物理计算机可读介质可以是可由通用或专用计算机访问的任何可用物理介质。作为示例而非限制，这种计算机可读介质可以包括诸如RAM、ROM、EEPROM、CD-ROM或其它光盘存储装置、磁盘存储装置或其它磁存储装置的物理存储装置和/或存储介质，或可用于存储计算机可执行指令或数据结构的形式的所需程序代码装置并且可由通用或专用计算机访问的任何其它物理介质。

计算机系统可以通过网络(或作为其一部分)彼此连接，该网络诸如为局域网(LAN)、广域网(WAN)、无线宽带区域网(“WWAN”)以及甚至为因特网110。因此，所描绘的计算机系统以及任何其它连接的计算机系统及其组件中的每一个可以创建消息相关数据和交换消息相关数据(例如，因特网协议“IP”)数据报和通过网络利用IP数据报(诸如传输控制协议(TCP)、超文本传输协议(HTTP)、简单邮件传输协议(SMTP)等)的其它高层协议。

通过考虑上文提供的公开内容、附图和所附权利要求，所公开的主题的其它方面以及各方面的特征和优点对于本领域的普通技术人员来说是显而易见的。

尽管上述公开提供了许多具体细节，但是这些不应被解释为限制随后所附权利要求中任何一个的范围。可以设计出不脱离权利要求的范围的其它实施例。来自不同实施例的特征可以组合使用。

最后，虽然上面已经参考各种示例性实施例描述了本发明，但是在不偏离本发明的范围的情况下，可以对实施例进行许多改变、组合和修改。例如，虽然已经将本发明描述为用于话语检测，但是本发明的各方面可以容易地应用于其它音频、视频、数据检测方案。此外，各种元件、组件和/或过程可以以可替代的方式来实现。这些替代方案可以根据特定应用或考虑与方法或系统的实施或操作相关联的任何数量的因素来适当地选择。此外，本文描述的技术可以被扩展或修改以与其它类型的应用和系统一起使用。这些和其它改变或修改旨在被包括在本发明的范围内。

Claims

1.一种从音频信号获得归一化语音活动检测特征的方法，包括以下步骤：

在包括语音活动检测器的计算系统处将音频信号划分成时间帧的序列；

针对每个时间帧计算所述音频信号的一个或多个语音活动检测特征；

针对每个所述时间帧计算所述音频信号的所述一个或多个语音活动检测特征的最小值和最大值的运行估计，其中计算所述一个或多个语音活动检测特征的最小值和最大值的运行估计包括对所述一个或多个语音活动检测特征应用不对称指数平均；

针对每个所述时间帧通过比较所述音频信号的所述一个或多个语音活动检测特征的所述最小值和所述最大值的所述运行估计来计算所述一个或多个语音活动检测特征的输入范围；

针对每个所述时间帧将所述音频信号的所述一个或多个语音活动检测特征从所述输入范围映射到一个或多个期望目标范围，以获得一个或多个归一化语音活动检测特征；

将平滑系数设置为对应于所选择的时间常数以产生平滑的最小值估计和平滑的最大值估计中的一个估计的逐渐变化和快速变化中的一种变化；

其中所述平滑系数被选择为使得出现以下情况中的至少一个：

最大值估计的连续更新快速响应于较高的语音活动检测特征值，并且响应于较低的语音活动检测特征值而更慢地衰减；以及

最小值估计的连续更新快速响应于较低的语音活动检测特征值，并且响应于较高的语音活动检测特征值而缓慢增加；以及

其中所述平滑系数由所述语音活动检测器用来检测所述音频信号中的语音活动。

2.根据权利要求1所述的方法，其中指示口语语音数据的所述音频信号的所述一个或多个特征包括全频带能量、低频带能量、在主麦克风和参考麦克风中测量的能量的比率、方差值、频谱质心比、频谱方差、频谱差异的方差、频谱平坦度和过零率中的一个或多个。

3.根据权利要求1所述的方法，其中所述一个或多个归一化语音活动检测特征被用于产生口语语音数据的可能性的估计。

4.根据权利要求1所述的方法，其进一步包括将所述一个或多个归一化语音活动检测特征应用于机器学习算法以产生指示二进制话语/非话语命名和话语活动的可能性中的至少一个的语音活动检测估计。

5.根据权利要求4所述的方法，其进一步包括使用所述语音活动检测估计来控制一个或多个自适应滤波器的自适应速率，而与信号频率无关。

6.根据权利要求1所述的方法，其中所述时间帧在所述时间帧的序列内是交叠的。

7.根据权利要求1所述的方法，其进一步包括后处理所述一个或多个归一化语音活动检测特征，包括平滑化、量化和阈值化中的至少一个。

8.根据权利要求1所述的方法，其中所述一个或多个归一化语音活动检测特征被用于通过噪声降低、自适应滤波、功率水平差计算和非话语帧的衰减中的一个或多个来增强所述音频信号。

9.根据权利要求1所述的方法，其进一步包括产生包括基本上不含非语音数据的口语语音数据的净化音频信号。

10.根据权利要求1所述的方法，其中所述一个或多个归一化语音活动检测特征被用于训练机器学习算法以检测话语。

11.根据权利要求1所述的方法，其进一步包括将特征下限估计值和特征上限估计值初始化为预定值。

12.根据权利要求1所述的方法，其中所述映射是根据以下公式执行的：归一化特征值＝2×(新特征值-特征下限)/(特征上限-特征下限)-1。

13.根据权利要求1所述的方法，其中所述映射是根据以下公式执行的：归一化特征值＝(新特征值-特征下限)/(特征上限-特征下限)。

14.根据权利要求1所述的方法，其中通过从所述最大值的所述运行估计中减去所述最小值的所述运行估计来执行计算所述一个或多个语音活动检测特征的输入范围。

15.根据权利要求1所述的方法，其进一步包括设置平滑系数或时间常数中的至少一个的值，所述设置至少部分地基于将所述一个或多个语音活动检测特征与所述一个或多个语音活动检测特征的最小值和最大值的所述运行估计中的一个或多个进行比较。

16.一种将语音活动检测特征归一化的方法，包括以下步骤：

在包括语音活动检测器的计算系统处将音频信号分割成时间帧的序列；

计算用于语音活动检测特征的运行最小值估计和运行最大值估计，其中计算用于语音活动检测特征的运行最小值估计和运行最大值估计包括对一个或多个所述语音活动检测特征应用不对称指数平均；

通过比较所述运行最小值估计和所述运行最大值估计来计算输入范围；

通过将所述语音活动检测特征从所述输入范围映射到一个或多个期望目标范围来将所述语音活动检测特征归一化；

其中计算运行最小值估计和运行最大值估计包括选择平滑系数以建立用于所述运行最小值估计和所述运行最大值估计中的至少一个的定向偏置变化率；

所述运行最大值估计更快地响应较高的最大值并且更慢地响应较低的最大值；以及

所述运行最小值估计更快地响应较低的最小值并且更慢地响应较高的最小值；以及

17.一种存储用于执行用于识别音频信号中的语音数据的方法的计算机程序的非暂时性计算机可读介质，所述非暂时性计算机可读介质包括：存储在所述非暂时性计算机可读介质上的计算机可执行指令，所述计算机可执行指令在由包括语音活动检测器的计算系统执行时被配置为使所述计算系统：

计算多个语音活动检测特征；

计算所述语音活动检测特征的最小值和最大值的运行估计，其中计算所述语音活动检测特征的最小值和最大值的运行估计包括对一个或多个所述语音活动检测特征应用不对称指数平均；

通过比较所述最小值和所述最大值的所述运行估计来计算所述语音活动检测特征的输入范围；

将所述语音活动检测特征从所述输入范围映射到一个或多个期望目标范围以获得归一化的语音活动检测特征；

其中计算最小值和最大值的运行估计包括选择平滑系数以建立用于所述运行最小值估计和所述运行最大值估计中的至少一个的定向偏置变化率；

其中所述平滑系数由所述语音活动检测器用来识别所述音频信号中的语音数据。