CN109313893B

CN109313893B - 用于确定应用目标域的音频和声学特性的系统、表征目标应用声学域的方法及介质

Info

Publication number: CN109313893B
Application number: CN201780032505.8A
Authority: CN
Inventors: D·夏尔马; P·内勒; U·H·约斯特
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-03-28
Filing date: 2017-03-27
Publication date: 2024-03-05
Anticipated expiration: 2037-03-27
Also published as: US9922664B2; US20200312349A1; CN109313893A; WO2017172632A2; US20170278527A1; EP3437091A2; US11482241B2; WO2017172632A3

Abstract

本公开涉及用于确定应用目标域的音频和声学特性的系统、表征目标应用声学域的方法及介质。表征目标应用声学域的系统和方法分析来自于目标应用声学域的一个或更多个语音数据样本，以确定一个或更多个目标声学特性，该一个或更多个目标声学特性包括与语音数据样本相关联的编解码器类型和比特率。所确定的目标声学特性还可以包括目标语音数据样本的其它方面，诸如采样频率、有效带宽、噪声级、混响级、限幅级和语速。将所确定的目标声学特性作为目标声学数据简档存储在存储器中。数据简档可以被用来基于一个或更多个目标声学特性而选择和/或修改一个或更多个域外语音样本。

Description

用于确定应用目标域的音频和声学特性的系统、表征目标应用声学域的方法及介质

相关申请

本申请是2016年3月28日提交的美国申请No.15/082,349的继续申请。上述申请的全部教导通过引用并入本文。

背景技术

尽管在互联网上以及各种语音数据库中可以获得大量高度变化的非域(non-domain)语音数据，但是准确转录的、域特定训练数据的稀缺对更广泛和更成功部署自动语音识别(ASR)技术而言可能是最大的障碍。

作为示例，假定意大利的移动网络运营商(MNO)意图向其顾客提供以文本消息的形式发送顾客所接收的语音邮件的自动创建的转录的服务。在该示例中，“域”是MNO语音邮件环境，并且域特定训练数据包括由MNO语音邮件实用程序接收和存储的实际的语音邮件消息。

然而，数据安全立法或内部规则可能阻止MNO将其所接收的语音邮件保留超过数天，以及阻止消息用于ASR训练。此外，隐私问题可能要求不允许接收者以外的任何人收听消息，从而手动转录这些消息是不可行的。

但是可以例如从广播和电视节目、议会辩论以及所选择的联系中心数据等等获得大量的意大利语语音数据。然而，由于在域特定数据与非域数据之间的语音特性之间存在很大的不匹配，在这种数据上训练的ASR模型在语音邮件环境中表现非常差。在内容(例如，所讨论的话题和所使用的短语)方面也可能存在不匹配，但是这些不匹配超出了本说明书的范围。

众所周知，利用与应用目标域(ATD)良好匹配的准确标记的语音数据来训练ASR系统的声学模型对于高性能语音识别而言是必不可少的。然而，在许多实际应用中，无法直接从应用中获取用于ASR训练的标记语音数据—例如，当应用是新的时或者当隐私或安全问题禁止数据的使用和/或数据的手动标记时。

发明内容

本文所描述的特定实施方式包括一种用于确定来自于应用目标域(ATD)的语音数据的相关音频和声学特性的系统和/或方法。实施方式可以使用所确定的目标音频和声学特性来选择来自于ATD以外的可用源的语音数据(本文中称为域外(OOD)语音数据样本)。

所描述的实施方式可以基于所确定的目标音频和声学特性与来自于可用源的OOD语音数据的音频和声学特性之间的相似程度来选择语音数据。所描述的实施方式还可以通过基于所确定的目标音频和声学特性引入修改来调整所选择的OOD语音数据，以进一步降低目标音频和声学特性与来自于可用源的OOD语音数据的音频和声学特性之间的不匹配。

参考上文所阐述的示例，所描述的实施方式可以分析由MNO语音邮件实用程序实际应对和处理的语音邮件。该分析结果可以用于从具有与MNO语音邮件数据的音频和声学特性最匹配的音频和声学特性的可用OOD语音数据中选择语音数据。由于所选择的语音数据取自OOD源(即，MNO语音邮件网络以外的源)，所以所选择的语音数据的大部分将通过MNO网络中所使用的编解码器以外的编解码器进行编码。尽管术语编解码器通常是指语音的编码和解码二者，但是如本文所用的术语编解码器可以仅指编码，仅指解码，或者指编码和解码二者。各个编解码器赋予被编码的数据以独特的音频和声学特性，因此所选择的语音数据(通过一组编解码器进行编码)的音频和声学特性将必然在一定程度上与MNO语音邮件数据(通过不同的一组编解码器进行编码)的语音特性不匹配。所描述的实施方式可以标识用于对MNO语音邮件数据和OOD语音数据进行编码的编解码器，并且将所标识的用于对MNO语音邮件数据进行编码的编解码器的特性应用于适当选择的OOD语音数据。

所描述的实施方式可以从来自于特定目标域的相对小的语音数据样本自动地确定声学数据简档(即，一个或更多个声学性质)。样本可以自动地随机选择，或者根据确定性过程选择，或者二者兼具。由于这种自动确定不需要人为干预或标记，所以当将其应用于现有服务时不存在隐私问题。一旦确定数据简档，所描述的实施方式就可以选择以限定的匹配级别与所确定的数据简档进行匹配的可用标记语音数据，和/或调整可用标记OOD语音数据样本，以降低OOD语音数据样本与ATD语音数据样本之间的不匹配，而不论OOD语音数据样本被调整还是选择并调整。

在一个方面中，本发明的实施方式可以是一种用于确定应用目标域(ATD)的音频和声学特性的系统。该系统可以包括处理器以及存储有计算机代码指令的存储器。存储器在工作时连接到处理器，以便计算机代码指令使得处理器分析来自于ATD的一个或更多个语音数据样本，以确定一个或更多个目标音频和声学特性。该目标和声学特性可以包括编解码器类型、与一个或更多个语音数据样本相关联的比特率、与语音数据样本相关联的采样频率、与语音数据样本相关联的有效带宽、与语音数据样本相关联的噪声级、与语音数据样本相关联的混响级、与语音数据样本相关联的限幅级以及与语音数据样本相关联的语速中的一个或更多个。计算机代码指令还可以使得处理器在存储器中存储一个或更多个目标音频和声学特性作为目标数据简档。

在一个实施方式中，当使用来自于ATD以外的任何域的OOD语音数据样本来训练或调整自动语音识别时，计算机代码指令还可以使得处理器使用目标数据简档来提高在来自于ATD的语音数据样本上操作的自动语音识别的准确性。

在另一实施方式中，计算机代码指令还可以使得处理器在确定一个或更多个目标音频和声学特性之前预处理语音数据样本，以执行下列各项中的一个或更多个：(i)选择与语音数据样本相关联的目标语言；以及(ii)去除不表示可识别的语音的任何语音数据样本。

在另一实施方式中，计算机代码指令还可以使得处理器从一个或更多个语音数据样本中提取特征集，并且执行下列步骤中的一者或二者：(i)利用基于分类与回归树(CART)的特征提取分析来减小特征集的特征维度，以生成最终特征集；或者(ii)利用最终特征集或先前确定的特征集来训练深度神经网络(DNN)分类器。计算机代码指令还可以使得处理器执行下列步骤中的一者或二者：(i)应用所训练的DNN执行一个或更多个语音数据样本中的一个或更多个的编解码器类型分类，以生成与一个或更多个语音数据样本相关联的编解码器类型；或者(ii)应用所训练的DNN执行一个或更多个语音数据样本中的一个或更多个的比特率分类以及与一个或更多个语音数据样本相关联的比特率。

在一个实施方式中，特征集包括下列各项中的一个或更多个：线性预测编码(LPC)系数、线谱频率、梅尔频率倒谱(MFC)系数、速度特征、加速度特征、基于希尔伯特变换的特征、与LPC系数、线谱频率、MFC系数、速度特征、加速度特征和基于希尔伯特变换的特征中的一个或更多个相关联的统计数据、以及相对于平均语音频谱(LTASS)的长期频谱偏差。

在另一实施方式中，DNN分类器可以包括连接在输入层和输出层之间的多个节点，节点之间的各个连接按照系数来缩放，节点利用非线性激活函数来建模。

在实施方式中，计算机代码指令还可以使得处理器分析一个或更多个OOD语音数据样本，以确定与OOD语音数据样本相关联的OOD数据简档，将目标数据简档与OOD数据简档进行比较。基于比较，计算机代码指令还可以使得处理器选择OOD语音数据样本中的一个或更多个作为与来自于ATD的语音数据样本相似。OOD语音数据样本与来自于ATD的语音数据样本相似可以要求针对目标数据简档和OOD数据简档的各个音频和声学特性，(i)ATD语音数据样本所关联的音频和声学特性的值与(ii)OOD语音数据样本所关联的音频和声学特性的值之差在预定范围内。

一个实施方式可以包括语音破坏工具包，该语音破坏工具包被配置为按照降低OOD语音数据样本与ATD语音数据样本之间的不匹配的方式，基于ATD语音数据样本的一个或更多个音频和声学特性来修改一个或更多个OOD语音数据样本。该语音破坏工具包可以被配置为实现下列项中的一个或更多个：语音信道仿真器，其被配置为基于所确定的采样频率和所确定的混响级中的一者或二者来修改OOD语音样本；噪声信道仿真器，其被配置为基于所确定的噪声级来修改OOD语音样本；麦克风仿真器，其被配置为基于所确定的有效带宽来修改OOD语音样本；放大器仿真器，其被配置为基于所确定的限幅级来修改OOD语音样本；以及传输信道仿真器，其被配置为基于所确定的与一个或更多个语音数据样本相关联的编解码器类型和比特率中的一者或二者来修改OOD语音样本。

在一个方面中，本发明的实施方式可以是一种表征目标应用声学域的方法。该方法可以由在工作时连接到存储器的处理器实现，并且包括分析来自于ATD的一个或更多个语音数据样本，以确定一个或更多个目标音频和声学特性。该目标音频和声学特性可以包括下列各项中的一个或更多个：编解码器类型、与一个或更多个语音数据样本相关联的比特率、与语音数据样本相关联的采样频率、与语音数据样本相关联的有效带宽、与语音数据样本相关联的噪声级、与语音数据样本相关联的混响级、与语音数据样本相关联的限幅级以及与语音数据样本相关联的语速。该方法还可以包括在存储器中存储一个或更多个目标音频和声学特性作为目标数据简档。

一个实施方式还可以包括：当使用来自于ATD以外的任何其它域的OOD语音数据样本来训练或调整自动语音识别时，使用目标数据简档来提高在来自于ATD的语音数据样本上操作的自动语音识别的准确性。

一个实施方式还可以包括在确定一个或更多个目标音频和声学特性之前预处理语音数据样本，以确定下列项中的一个或更多个：(i)选择与语音数据样本相关联的目标语言；以及(ii)去除不表示可识别的语音的任何语音数据样本。

在一个实施方式中，分析来自于目标应用的一个或更多个语音数据样本以确定与语音数据样本相关联的编解码器类型和比特率的步骤还包括从一个或更多个语音数据样本中提取特征集，以及下列步骤中的一者或二者：(i)利用基于分类与回归树(CART)的特征提取分析来减小特征集的特征维度，以生成最终特征集；或者(ii)利用最终特征集或先前确定的特征集来训练深度神经网络(DNN)分类器。分析来自于目标应用的一个或更多个语音数据样本以确定与语音数据样本相关联的编解码器类型和比特率的步骤还可以包括下列步骤中的一者或二者：(i)应用所训练的DNN执行一个或更多个语音数据样本中的一个或更多个的编解码器类型分类，以生成与一个或更多个语音数据样本相关联的编解码器类型；或者(ii)应用所训练的DNN执行一个或更多个语音数据样本中的一个或更多个的比特率分类以及与一个或更多个语音数据样本相关联的比特率。

在一个实施方式中，该方法还可以包括分析一个或更多个OOD语音数据样本，以确定与OOD语音数据样本相关联的OOD数据简档，将目标数据简档与OOD数据简档进行比较，并且基于比较，选择OOD语音数据样本中的一个或更多个作为与来自于ATD的语音数据样本相似。

在一个实施方式中，该方法还可以包括通过针对目标数据简档和OOD数据简档的各个音频和声学特性，确定ATD语音数据样本所关联的音频和声学特性的值与OOD语音数据样本所关联的音频和声学特性的值之差，来确定OOD语音数据样本中的一个或更多个与来自于ATD的语音数据样本相似。该方法还可以包括确定所述差在预定范围内。

另一实施方式还可以包括基于一个或更多个目标声学特性来修改一个或更多个OOD语音样本。

另一实施方式可以包括下列步骤中的一个或更多个：基于所确定的采样频率来修改OOD语音样本；基于所确定的混响级来修改OOD语音样本；基于所确定的噪声级来修改OOD语音样本；基于所确定的有效带宽来修改OOD语音样本；基于所确定的限幅级来修改OOD语音样本；基于所确定的编解码器类型来修改OOD语音样本；以及基于所确定的与一个或更多个语音数据样本相关联的比特率来修改OOD语音样本。

在一个方面中，本发明的实施方式可以是一种存储有计算机代码指令的非暂时性计算机可读介质，所述计算机代码指令在由处理器执行时使得设备执行本文所描述的任何方法、本文所描述的所有方法或者本文所描述的方法的任何组合。

附图说明

根据如附图中所例示的本发明的示例实施方式的下列更详细的描述，前述内容将是显而易见的，其中，贯穿不同示图的附图标记表示相同的部分。附图不必按比例绘制，而是将重点放在例示本发明的实施方式上。

图1示出了ASR性能与编解码器比特率之间的依赖性的示例。

图2示出了根据本发明所描述的实施方式的编解码器类型和比特率确定的概览。

图3A示出了根据目标语音数据集来确定目标声学数据简档的系统和方法的示例实施方式。

图3B示出了用于将特定降级应用至OOD数据的示例配置文件。

图4示出了实现对域外语音数据的降级合成的示例语音破坏工具包。

图5示出了图4中所描绘的语音破坏工具包的详细示图。

图6示出了用于实现一个或更多个所描述的实施方式的示例计算机。

图7示出了根据所描述的实施方式的方法的一个示例。

具体实施方式

本发明的示例实施方式的描述如下。

本文所引用的所有专利、公开的申请和参考文献的教导整体通过引用并入本文。

如本文所述，来自于目标应用以外的应用的语音数据样本被称为域外(OOD)数据并且通常在本质和特性方面不同于与应用目标域(ATD)相关联的数据。

所描述的实施方式可以包括下列项中的一个或更多个：(1)确定与ATD相关联的语音数据的目标音频和声学特性；(2)基于目标音频和声学特性来选择OOD语音数据；以及(3)基于目标音频和声学特性来调整所选择的OOD语音数据。OOD语音数据的选择在本文中被称为“智能采样”。所选择的OOD语音数据的调整在本文中被称为“降级合成”。

确定与目标域应用相关联的语音的音频和声学特性

如本文所述，“目标应用”是指将要应用自动语音识别(ASR)处理的实体。“域”通常限定应用的属性，具体包括与应用相关联的数据的本质和特性。在上述示例中，MNO语音邮件实用程序是目标应用。与目标应用相关联的语音消息可以由表示一个或更多个音频和声学性质的数据简档表征。音频和声学性质也被称为语音特性。

用于特定目标应用的数据简档可以来源于代表性语音数据(即，与目标应用直接相关联的语音数据样本)的分析。如本文所使用的，与目标应用“直接相关联”意指语音数据样本(i)旨在由目标应用处理或者利用，(ii)已经由目标应用利用或者处理，或者二者兼有。在上述示例中，MNO语音邮件系统所存储的消息内的语音数据将是代表性语音数据。语音消息的分析可以确定特定音频和声学特性的分布，包括但不限于：

●采样频率

●有效带宽

●噪声级

●编解码器

●比特率

●混响级

●限幅量

●语速

采样频率—采样频率是指对基础信号进行采样以生成目标应用的语音数据的速率。在一些实施方式中，例如，使用诸如“窄”、“宽”和“超宽”的大类来表征采样频率。在其它实施方式中，使用特定频率来表征采样频率。特定采样频率可以用作声学性质。

有效带宽—有效带宽是指语音数据音频内容所占用的频谱量。有效带宽的高端、低端或者这二者可以由传输信道(诸如与ATD相关联的通信网络)的各方面和/或由ATD本身限制。一些实施方式可以通过规定上下频率边界来将有效带宽进行归类。其它实施方式可以通过规定滤波效果(例如，通过标识所检测的POTSBAND滤波器–即，限定标准为300Hz-3400Hz的电话带宽)来将有效带宽进行归类。还可以由通过利用具有对应特定响应的麦克风对信号进行录音而获得的特定滤波器形状来表征有效带宽。

噪声级—噪声级是指相对于语音音频本身，在语音消息音频内容中检测到的非信号背景噪声的量。噪声级通常由信噪比(SNR)进行说明，但是也可以使用本领域中已知的、规定噪声的其它方式。

编解码器类型和比特率—这些性质是指应用于语音数据音频内容的编解码器(编码器和/或解码器)装置的类型，以及编解码器生成编码的语音数据的速率(例如，千比特每秒；kb/s)。例如，本领域中已知的一种类型的编解码器是自适应多速率(AMR)编解码器，该AMR编解码器按照若干比特率(即，12.2千比特/秒、10.2千比特/秒、7.95千比特/秒、7.4千比特/秒、6.7千比特/秒、5.9千比特/秒、5.15千比特/秒和4.75千比特/秒)生成编码的数据。编解码器类型和比特率提供关于用于对语音数据进行编码的特定源编码算法的信息。

混响级—该声学性质涉及在初始接收声音之后声音的持续性。持续性是由于声音在诸如房间的封闭声学空间中的多径传播以及从表面的反射。本领域中已知的混响级的一个度量是所描述的一些实施方式所使用的C50，C50是早到的声音与晚到的声音之比，其中，早到的声音是从初始时间到初始时间之后50ms到达的声音，晚到的声音是超过初始时间之后50ms到达的声音。其它实施方式可以使用本领域中已知的、混响级的另选度量。

限幅量—该声学性质涉及当处理声学波形的放大器或其它组件被过度驱动并且无法适应波形的全动态范围时可能发生的语音数据声学波形的失真。放大器或其它组件基本上停在其最大输出能力处，从而对声学波形的极端部分进行“限幅”或平整。限幅量通常以百分比进行说明。

语速—该声学性质涉及说话者讲话有多快，并且测定为发出音素的速率(例如，音素/秒)。

在文献中众所周知非侵入式技术(意指仅使用观测到的数据而不使用参考信号的技术)用于确定包括噪声级、混响级和带宽的语音性质。然而，对于最重要的性质中的两个性质并非如此：编解码器类型和比特率。

ASR性能极度依赖于在识别处理之前用于传输或存储音频信号的编解码器的类型和比特率。图1中示出了这种依赖性的示例100，图1绘出了在三个噪声级下，针对五个不同的编解码器比特率的、作为百分比的误字率(WER)。示出了针对三个不同的输入SNR值102、104、106的编解码器相依性，其中30dB 106表明低噪声级，10dB 102表明高噪声级。已知编解码器性质显著影响语音信号的质量和语音识别性能。所描述的实施方式中的一个或更多个实施方式基于语音信号的分析来确定用于生成语音信号的编解码器的类型和比特率。

所描述的实施方式通过将目标语音数据分段为20ms不交叠的帧并且提取具有82维度每帧的特征向量来确定编解码器的类型和比特率。该特征向量包括使用基于快速傅里叶变换(FFT)、长期平均语音频谱(LTASS)和希尔伯特变换的特征计算的下列特征：映射到其线谱频率(LSF)表示的第10阶LPC(线性预测编码)系数、第12阶MFC(梅尔频率倒谱)系数、以及速度和加速度特征。

每帧特征还由在适当的一组帧上或者在语音发声中的所有帧上评估的每帧特征统计数据(包括均值、方差、偏度和峰度)表征，从而得到328个全局特征。另外，对表征长期频谱偏差的16个特征进行计算，从而得到344个全局特征。基于分类与回归树(CART)的特征提取被用于通过丢弃不太重要以及高计算复杂度的特征来减小特征维度(并且相应地，减小计算复杂度和实时因子)。

使用最终特征集来训练深度神经网络(DNN)分类器。作为DNN训练的预处理器，CART以系统的方式减小特征维度。图2示出了编解码器类型和比特率确定的概览。图2的左侧示出了测试阶段202，其中，特征提取204之后是评估DNN 206。在训练阶段208中，执行CART分析210，以标识特征的重要性以及特征的复杂度，做出修剪决策，之后是DNN训练212。

已经发现长期偏差(PLD)平整度的功率谱和希尔伯特包络特征可以用于比特率检测任务。信号的希尔伯特分解得到快速变化的精细结构分量和缓慢变化的包络，这已被证明是语音识别中的有用因素。所描述的实施方式可以确定用于被解码的语音数据的各个帧的包络以及包络的方差和动态范围。

DNN是具有连接在输入层和输出层之间的若干非线性隐藏单元(本文中也称为节点)的前馈人工神经网络。各个层中的节点与相邻层中的节点连接，并且各个连接按照系数来缩放。节点利用非线性激活函数来建模。示例实施方式使用S型函数，但是可以使用其它非线性激活函数。DNN的强大优势在于，其可以通过将测量期望输出与估计输出之差的成本函数的导数后向传播，并且在微调阶段使用例如L-BFGS的优化算法调节网络的权重来区分地训练。

非侵入式语速估计(NISE)通过计算语音数据信号的第12阶MFC系数来开始，该语音数据信号被窗口处理为50％交叠的20ms帧。然后计算ΔMFC系数，并且每时间帧计算其平方和。然后应用峰拾取技术，以检测该输出中的峰，然后根据预定阈值修剪小的峰。然后计算每秒峰的数量并利用中值滤波器来平滑。使用语音活动检测器(VAD)来去除信号中的任何长停顿。峰频率向量的平均值因此给出语音数据的音素语速的估计值。

图3A例示了根据目标语音数据集306来确定目标声学数据简档304的系统和方法的示例实施方式302。由预处理器执行预处理308，该预处理308可以包括诸如去除任何空消息以及目标语言的选择的任务。由非侵入式语音信号分析器接收预处理的数据310，以用于非侵入式语音信号分析312，如本文所述，非侵入式语音信号分析312可以包括采样频率分析、有效带宽分析、噪声级分析、混响分析、编解码器类型和比特率分析、限幅级分析和语速分析中的一个或更多个。基于这些分析，语音信号分析器生成目标声学数据简档304。

图3B例示了示例目标语音数据集306a，该目标语音数据集306a规定了8000Hz的采样频率320、由POTSBAND滤波器限定的有效带宽322、38.5dB SPL的噪声级324、GSM/AMR的编解码器类型326和7.4千比特/秒的编解码器比特率328，以及由1.349dB的C50值规定的混响级330。图3B的示例没有规定限幅量和语速，表明特定目标语音数据集可以包括本文所描述的音频和声学特性的任何组合。此外，示例目标语音数据集306a表明目标语音数据集中可以包括本文中没有具体描述的附加参数。例如，可以包括噪声源文件332以及噪声源距麦克风的距离334，以进一步表征目标应用的声学信道。

训练数据的选择和/或调整

所描述的实施方式考虑三种特性类型的ASR训练数据。第一种特性类型的训练数据包括洁净“实验室”录音形式的语音数据。实验室录音不包含诸如噪声或混响的“真实世界”音频或者编解码器的处理中遇到的降级信号性质。当以该第一种特性类型的语音数据开始时，整个语音降级机制必须被合成。

在第二种特性类型的训练数据中，语音数据为来自不同于目标域的应用域的语音数据样本的形式。这些语音数据样本包含一些语音信号性质，但通常不在与目标域相对应的分布中。在这种情景中，可能需要相关语音数据样本的适当子选择和降级合成的组合。

在第三种特性类型的训练数据中，语音数据为来自于目标应用域的语音数据样本的形式。这些语音数据样本包含音频和声学特性的代表性分布、降级以及其它性质。这些性质是计算信号分析以执行降级合成或子采样所需的。

在语音识别系统中利用可用训练数据的修改版本构建声学(或语言)模型在本领域中称为“训练集自适应”和“选择性训练”。当可用训练数据是OOD时(与上述第一种特性类型数据和第二种特性类型数据相对应)，或者当域内数据(与上述第三种特性类型数据相对应)的量不足时，这些方法可以是优选的。

然后可以通过使用适当的信号处理方法修改第一种特性类型的训练数据以使得修改后的训练集中的语音特性的分布与目标应用所关联的语音数据的预期语音特性分布相匹配来执行训练集自适应。

可以通过从第二种特性类型的训练数据中选择训练示例的子集以使得选择后的训练集的子集中的语音性质的分布与目标应用中的预期分布相匹配来执行选择性训练。

当以“洁净实验室”语音数据开始时，语音破坏工具包(SCT)可以用于将目标音频和声学特性应用于洁净实验室语音数据。SCT是一种端对端仿真工具，其具有对从声学信道到用于单声道音频的转码接收信号的整个降级链进行仿真的能力。图4示出了实现OOD语音数据的降级合成的示例SCT。

参照图4，SCT 402接收两个输入：目标声学数据简档404以及OOD语音数据406。SCT基于目标声学数据简档对OOD语音数据406进行修改，以生成已调整的语音数据408。

图5是示例SCT的更详细的例示。语音信道仿真器502将所确定的采样频率520与混响级522组合成适合于修改OOD语音数据406的形式。噪声信道仿真器504将所确定的噪声级524转换为适合于修改OOD语音数据406的形式。声学混合器506将语音信道仿真器502的输出和噪声仿真器504的输出与OOD语音数据406组合，并将结果提供给麦克风仿真器508。麦克风仿真器508将所确定的有效带宽526转换为适合于修改OOD数据的形式，并根据所确定的有效带宽526来修改声学混合器506的输出。放大器仿真器510根据所确定的限幅级528来修改麦克风仿真器的输出，并且传输信道仿真器512根据所确定的编解码器类型和比特率530来修改放大器仿真器510的输出。传输信道仿真器512的输出被存储为已调整的语音数据514。因此，已调整的语音数据514是通过与目标应用域相关联的采样频率520、混响级522、噪声级524、有效带宽526、限幅级528以及编解码器类型和比特率530修改的OOD语音数据。该示例实施方式示出了OOD语音数据修改的一个次序。其它实施方式可以实现不同顺序次序的处理。此外，其它实施方式可以将所示的处理框组合或分离。

图6是可以用于实现所描述的实施方式的部分的计算机600的示例内部结构的图。计算机600包括系统总线602，其中，总线是计算机或处理系统的组件中用于数据传送的硬件线的集合。系统总线602实质上是将计算机系统的不同元件(例如，处理器、磁盘存储器、存储器、输入/输出端口、网络端口等)进行连接的共享导线管，该共享导线管允许信息在元件之间的传送。附接到系统总线602的是用于将各种输入装置和输出装置(例如，键盘、鼠标、显示器、打印机、扬声器等)连接到计算机600的I/O装置接口604。网络接口606允许计算机连接到被附接至网络的各种其它装置。存储器608为用于实现所描述的实施方式中的一个或更多个的计算机软件指令代码610和数据612提供易失性存储。磁盘存储器614为用于实现本发明的实施方式的计算机软件指令610和数据612提供非易失性存储。中央处理器单元616也附接到系统总线602并提供用于执行计算机的指令。

在一个实施方式中，处理器指令610和数据612是计算机程序产品，包括提供用于所描述的实施方式的指令代码的至少一部分的非暂时性计算机可读介质(例如，诸如一个或更多个DVD-ROM、CD-ROM、磁盘、磁带等的可拆卸存储介质)。如本领域中众所周知的，计算机程序产品可以通过任何合适的软件安装过程来安装。在另一实施方式中，软件指令的至少一部分也可以通过有线通信和/或无线连接来下载。在其它实施方式中，本发明程序是在传播介质(例如，无线电波、红外波、激光波、声波、或者通过诸如互联网的全球网络或其它网络传播的电波)上的传播信号上具体实现的计算机程序传播信号产品。可以采用这些载波介质或信号来提供用于所描述的实施方式的软件指令610的至少一部分。

在另选实施方式中，传播信号是在传播介质上承载的模拟载波或数字信号。例如，传播信号可以是通过全球网络(例如，互联网)、电信网络或其它网络传播的数字化信号。在一个实施方式中，传播信号是在一段时间内通过传播介质传输的信号，诸如在毫秒、秒、分钟或更长的时间段内通过网络以分组发送的用于软件应用的指令。

图7例示了根据所描述的实施方式的方法700的一个示例。方法700可以包括预处理702语音数据样本，以确定下列项中的一个或更多个：(i)选择与语音数据样本相关联的目标语言；以及(ii)去除不表示可识别的语音的任何语音数据样本。方法700还可以包括分析704来自ATD的一个或更多个语音数据样本，以确定作为一个或更多个目标音频和声学特性的目标数据简档，并且将目标数据简档存储706在存储器中。方法700还可以包括分析708一个或更多个OOD语音数据样本，以确定与OOD语音数据样本相关联的OOD数据简档，将目标数据简档与OOD数据简档进行比较710，并且基于比较710来选择712OOD语音数据样本中的一个或更多个作为与来自于ATD的语音数据样本相似。方法700还可以包括基于一个或更多个目标声学特性来修改714一个或更多个OOD语音样本。根据本发明的实施方式可以包括上述步骤中的一个或更多个或全部，或者可以包括与本文所述的其它步骤组合的这些步骤中的一些或全部，或者可以包括本文所描述但在上述示例方法中未阐述的另选步骤。

本发明的实施方式或方面可以按照硬件、软件或固件的形式实现。如果以软件形式实现，则软件可以是能够执行与本文所公开的示例实施方式一致的操作的任何形式的软件。软件可以被存储在诸如RAM、ROM、磁盘或光盘的任何非暂时性计算机可读介质中。当由处理器加载并执行时，处理器被配置为执行与本文所公开的示例实施方式一致的操作。处理器可以是能够被配置为执行如本文所公开的操作的任何形式的处理器。

显而易见地，本文所描述的一个或更多个实施方式可以在许多不同形式的软件和硬件中实现。用于实现本文所描述的实施方式的软件代码和/或专用硬件不限制本文所描述的本发明的实施方式。因此，在不参考特定软件代码和/或专用硬件的情况下描述实施方式的操作和行为—将理解，人们将能够设计软件和/或硬件，以实现基于本文的描述的实施方式。

此外，本文所描述的示例实施方式的特定实施方式可以被实现为执行一个或更多个功能的逻辑。该逻辑可以是基于硬件、基于软件、或者基于硬件和基于软件的组合。该逻辑的一些或全部可以被存储在一个或更多个有形非暂时性计算机可读存储介质上，并且可以包括可以由控制器或处理器执行的计算机可执行指令。计算机可执行指令可以包括实现本发明的一个或更多个实施方式的指令。有形非暂时性计算机可读存储介质可以是易失性的或非易失性，并且可以包括例如闪存、动态存储器、可拆卸磁盘和不可拆卸磁盘。

尽管已参照本发明的示例实施方式具体示出和描述了本发明，但是本领域技术人员将理解，在不脱离由所附权利要求涵盖的本发明的范围的情况下，可以对其进行形式和细节上的各种改变。

Claims

1.一种用于确定应用目标域ATD的音频和声学特性的系统，该系统包括：

处理器；以及

存储有计算机代码指令的存储器，所述存储器在工作时连接到所述处理器，以便所述计算机代码指令使得所述处理器执行下列步骤：

通过仅使用观测到的语音数据样本而不使用参考信号分析来自于目标ATD的一个或更多个语音数据样本中的每一个来确定与来自于所述目标ATD的所述一个或更多个语音样本相关联的至少一个音频特性和声学特性的分布，所述至少一个音频特性和声学特性包括：

(a)编解码器类型；

(b)与所述一个或更多个语音数据样本相关联的比特率；

(c)与所述语音数据样本相关联的采样频率；

(d)与所述语音数据样本相关联的有效带宽；

(e)与所述语音数据样本相关联的噪声级；

(f)与所述语音数据样本相关联的混响级；

(g)与所述语音数据样本相关联的限幅级；

(h)与所述语音数据样本相关联的语速；以及

将所述一个或更多个目标音频和声学特性作为目标数据简档存储在所述存储器中；

从所述一个或更多个语音数据样本中提取特征集；

执行下列步骤中的一者或二者：

利用基于分类与回归树CART的特征提取分析来减小所述特征集的特征维度，以生成最终特征集；或者

利用先前确定的特征集或者利用基于分类与回归树CART的特征提取分析来减小所述特征集的特征维度而生成的最终特征集来训练深度神经网络DNN分类器；以及

执行下列步骤中的一者或二者：

应用所训练的DNN执行所述一个或更多个语音数据样本中的一个或更多个的编解码器类型分类，以生成与所述一个或更多个语音数据样本相关联的编解码器类型；或者

应用所训练的DNN执行所述一个或更多个语音数据样本中的一个或更多个的比特率分类以及与所述一个或更多个语音数据样本相关联的比特率。

2.根据权利要求1所述的系统，其中，当使用来自于所述ATD以外的任何域的域外OOD语音数据样本来训练或调整自动语音识别时，所述计算机代码指令还使得所述处理器使用所述目标数据简档来提高在来自于所述ATD的所述语音数据样本上操作的所述自动语音识别的准确性。

3.根据权利要求1所述的系统，其中，所述计算机代码指令还使得所述处理器在确定所述一个或更多个目标音频和声学特性之前预处理所述语音数据样本，以执行下列各项中的一个或更多个：(i)选择与所述语音数据样本相关联的目标语言；以及(ii)去除不表示可识别的语音的任何语音数据样本。

4.根据权利要求1所述的系统，其中，所述特征集包括下列各项中的一个或更多个：(i)线性预测编码LPC系数、(ii)线谱频率、(iii)梅尔频率倒谱MFC系数、(iv)速度特征、(v)加速度特征、(vi)基于希尔伯特变换的特征、(vii)与所述LPC系数、线谱频率、MFC系数、速度特征、加速度特征和基于希尔伯特变换的特征中的一个或更多个相关联的统计数据、以及(viii)相对于平均语音频谱LTASS的长期频谱偏差。

5.根据权利要求1所述的系统，其中，所述DNN分类器包括连接在输入层和输出层之间的多个节点，所述节点之间的各个连接按照系数来缩放，所述节点利用非线性激活函数来建模。

6.根据权利要求1所述的系统，其中，所述计算机代码指令还使得所述处理器执行下列步骤：

分析一个或更多个域外OOD语音数据样本，以确定与所述OOD语音数据样本相关联的OOD数据简档；

将所述目标数据简档与所述OOD数据简档进行比较；以及

基于所述比较，选择所述OOD语音数据样本中的一个或更多个作为与来自于所述ATD的所述语音数据样本相似。

7.根据权利要求6所述的系统，其中，所述域外OOD语音数据样本与来自所述ATD的所述语音数据样本相似要求针对所述目标数据简档和OOD数据简档的各个音频和声学特性，所述ATD语音数据样本所关联的所述音频和声学特性的值与所述OOD语音数据样本所关联的所述音频和声学特性的值之差在预定范围内。

8.一种表征目标应用声学域ATD的方法，该方法包括：

由在工作时连接到存储器的处理器执行以下步骤：

通过根据非侵入式技术分析来自于目标ATD的一个或更多个语音数据样本中的每一个来确定与来自于所述ATD的一个或更多个语音样本相关联的至少一个音频特性和声学特性的分布，至少一个音频特性和声学特性包括：

(a)编解码器类型；

(b)与所述一个或更多个语音数据样本相关联的比特率；

(c)与所述语音数据样本相关联的采样频率；

(d)与所述语音数据样本相关联的有效带宽；

(e)与所述语音数据样本相关联的噪声级；

(f)与所述语音数据样本相关联的混响级；

(g)与所述语音数据样本相关联的限幅级；

(h)与所述语音数据样本相关联的语速；以及

所述分析还包括：

从所述一个或更多个语音数据样本中提取特征集；

执行下列步骤中的一者或二者：

9.根据权利要求8所述的方法，该方法还包括：当使用来自于所述ATD以外的任何其它域的域外OOD语音数据样本来训练或调整自动语音识别时，使用所述目标数据简档来提高在来自于所述ATD的所述语音数据样本上操作的自动语音识别的准确性。

10.根据权利要求8所述的方法，该方法还包括：在确定所述一个或更多个目标音频和声学特性之前预处理所述语音数据样本，以确定下列各项中的一个或更多个：(i)选择与所述语音数据样本相关联的目标语言；以及(ii)去除不表示可识别的语音的任何语音数据样本。

11.根据权利要求8所述的方法，该方法还包括：

将所述目标数据简档与所述OOD数据简档进行比较；以及

12.根据权利要求11所述的方法，该方法还包括通过下列步骤确定所述OOD语音数据样本中的一个或更多个与来自于所述ATD的所述语音数据样本相似：

针对所述目标数据简档和所述OOD数据简档的各个音频和声学特性，确定所述ATD语音数据样本所关联的所述音频和声学特性的值与所述OOD语音数据样本所关联的所述音频和声学特性的值之差；以及

确定所述差在预定范围内。

13.一种在其上存储有计算机代码指令的非暂时性计算机可读介质，所述计算机代码指令在由处理器执行时使得设备执行下列步骤：

通过根据非侵入式技术分析来自于目标ATD的一个或更多个语数据音样本中的每一个来确定与来自于所述目标ATD的一个或更多个语音样本相关联的至少一个音频特性和声学特性的分布，所述至少一个音频特性和声学特性包括：

(a)编解码器类型；

(b)与所述一个或更多个语音数据样本相关联的比特率；

(c)与所述语音数据样本相关联的采样频率；

(d)与所述语音数据样本相关联的有效带宽；

(e)与所述语音数据样本相关联的噪声级；

(f)与所述语音数据样本相关联的混响级；

(g)与所述语音数据样本相关联的限幅级；

(h)与所述语音数据样本相关联的语速；以及

将所述一个或更多个目标音频和声学特性作为目标数据简档存储在存储器中；

从所述一个或更多个语音数据样本中提取特征集；

执行下列步骤中的一者或二者：

14.根据权利要求13所述的非暂时性计算机可读介质，当使用来自于所述ATD以外的任何其它域的域外OOD语音数据样本来训练或调整自动语音识别时，所述计算机指令在由处理器执行时还使得所述设备使用所述目标数据简档来提高在来自于所述ATD的所述语音数据样本上操作的自动语音识别的准确性。