CN110364168B

CN110364168B - 一种基于环境感知的声纹识别方法及系统

Info

Publication number: CN110364168B
Application number: CN201910662155.4A
Authority: CN
Inventors: 孙学京; 李旭阳; 许春生
Original assignee: Beijing Tuoling Xinsheng Technology Co ltd
Current assignee: Beijing Tuoling Xinsheng Technology Co.,Ltd.
Priority date: 2019-07-22
Filing date: 2019-07-22
Publication date: 2021-09-14
Anticipated expiration: 2039-07-22
Also published as: CN110364168A

Abstract

本发明实施例涉及一种基于环境感知的声纹识别方法及系统，其中，所述方法包括：从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型。本申请提供的技术方案，能够解决声纹识别过程中信道不匹配的问题。

Description

一种基于环境感知的声纹识别方法及系统

技术领域

本申请涉及数据处理技术领域，特别涉及一种基于环境感知的声纹识别方法及系统。

背景技术

声纹是指语音中所蕴含的、能表征和标识说话人的语音特征，以及基于这些特征所建立的语音模型的总称。随着科学技术的发展，人机交互应运而生，语音凭借简单易获取、具有特定性和稳定性等特点，成为人机交互的重要方式之一。声纹识别技术在军事、国防、政府、金融医疗、家用、银行和保密等领域都有很大的需求，很多学者和企业也一定程度上推动了声纹识别技术的发展，但是在现实生活中，声纹识别技术并没有被广泛应用，因为该技术还面临着一些难以攻克的问题。

目前，声纹识别主要面临的问题的有环境噪音、信道失配、语言失配、说话人自身干扰、假冒闯入和短语音等。针对上述问题，目前存在一定的解决办法。例如对于环境噪音而言，可以通过频谱减法(Spectral Subtraction)解决固定环境噪音，还可以利用滤波法消除信道缓慢变化的噪音。此外，还有许多算法用以提高特征鲁棒性，如主成分分析法、线性判别法和异方差线性判别分析等。

随着技术的不断发展，现有技术中可以通过深度神经网络来实现声纹识别，还可以通过语音合成、语音识别等方式实现声纹识别。然而，传统的声纹识别方法通常复杂度较高，并且无法有效地解决声纹识别过程中的信道不匹配的问题。

发明内容

本申请的目的在于提供一种基于环境感知的声纹识别方法及系统，能够解决声纹识别过程中信道不匹配的问题。

为实现上述目的，本申请提供一种基于环境感知的声纹识别方法，所述方法包括：从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型。

进一步地，训练得到背景模型和个人模型包括：

提取所述新的负样本数据和所述语音数据各自的特征，并根据提取的特征训练得到背景模型；其中，所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种；

加载所述背景模型，并提取所述语音数据的语音特征，并根据所述背景模型的类型和提取的所述语音特征，训练得到与所述背景模型相适配的个人模型。

进一步地，在训练得到背景模型和个人模型之后，所述方法还包括：

获取待测试的音频数据，并将所述待测试的音频数据载入所述声纹系统中；

在所述声纹系统中加载所述背景模型，并根据加载的所述背景模型，生成所述待测试的音频数据对应的个人模型；

将生成的所述个人模型与训练得到的个人模型进行对比，并利用对比结果表征训练得到的所述个人模型的精度。

进一步地，根据加载的所述背景模型，生成所述待测试的音频数据对应的个人模型包括：

若加载的所述背景模型属于高斯混合模型，通过最大后验概率算法生成所述待测试的音频数据对应的个人模型；

若加载的所述背景模型属于深度学习神经网络模型，提取所述待测试的音频数据的特征向量，并将所述特征向量作为所述待测试的音频数据对应的个人模型。

进一步地，将生成的所述个人模型与训练得到的个人模型进行对比包括：

若加载的所述背景模型属于高斯混合模型，按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的对数似然距离：

其中，log(X|s)表示所述对数似然距离，X表示生成的所述个人模型，s表示训练得到的所述个人模型，T表示指定的声学特征序列长度，C表示训练得到的所述个人模型中的分布数，γ_c表示第c个分布的权重，x_t表示生成的所述个人模型中的第t个数据，μ_c表示第c个分布的均值，∑c表示第c个分布的协方差矩阵，N(*)表示高斯运算。

若加载的所述背景模型属于深度学习神经网络模型，按照下述公式计算生成的所述个人模型和训练得到的个人模型之间的余弦距离：

其中，L表示所述余弦距离，A_i表示生成的所述个人模型中的第i个属性向量，B_i表示所述训练得到的个人模型中的第i个属性向量，n表示属性向量的总数。

为实现上述目的，本申请还提供一种基于环境感知的声纹识别系统，所述系统包括：数据分离单元，用于从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；数据混合单元，用于获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；模型训练单元，用于将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型。

进一步地，所述模型训练单元包括：

背景模型训练模块，用于提取所述新的负样本数据和所述语音数据各自的特征，并根据提取的特征训练得到背景模型；其中，所述背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种；

个人模型训练模块，用于加载所述背景模型，并提取所述语音数据的语音特征，并根据所述背景模型的类型和提取的所述语音特征，训练得到与所述背景模型相适配的个人模型。

进一步地，所述系统还包括：

音频数据获取单元，用于获取待测试的音频数据，并将所述待测试的音频数据载入所述声纹系统中；

个人模型生成单元，用于在所述声纹系统中加载所述背景模型，并根据加载的所述背景模型，生成所述待测试的音频数据对应的个人模型；

模型对比单元，用于将生成的所述个人模型与训练得到的个人模型进行对比，并利用对比结果表征训练得到的所述个人模型的精度。

进一步地，所述个人模型生成单元包括：

第一生成模块，用于若加载的所述背景模型属于高斯混合模型，通过最大后验概率算法生成所述待测试的音频数据对应的个人模型；

第二生成模块，用于若加载的所述背景模型属于深度学习神经网络模型，提取所述待测试的音频数据的特征向量，并将所述特征向量作为所述待测试的音频数据对应的个人模型。

由上可见，本申请提供的技术方案，在获取音频数据后，可以将音频数据分离为语音数据和背景噪音数据，并且可以将背景噪音数据和负样本音频数据进行混合，从而生成带有环境因素的新的负样本数据。这样，新的负样本数据与语音数据便可以拥有一致的环境因素，从而降低了由环境造成的信道不匹配的问题。后续，将新的负样本数据和语音数据输入声纹系统，可以分别训练得到背景模型和个人模型。在训练得到背景模型和个人模型后，还可以通过个人模型的校验匹配，从而评价训练得到的模型的精度，为模型校正提供了数据支持。由上可见，本申请提供的技术方案，能够解决声纹识别过程中信道不匹配的问题。

附图说明

图1为本申请实施例中基于环境感知的声纹识别方法的步骤图；

图2为本申请实施例中基于环境感知的声纹识别系统的功能模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施方式中的附图，对本申请实施方式中的技术方案进行清楚、完整地描述，显然，所描述的实施方式仅仅是本申请一部分实施方式，而不是全部的实施方式。基于本申请中的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施方式，都应当属于本申请保护的范围。

本申请提供一种基于环境感知的声纹识别方法，请参阅图1，所述方法包括：

S1：从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；

S2：获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；

S3：将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型。

在一个实施方式中，训练得到背景模型和个人模型包括：

在一个实施方式中，在训练得到背景模型和个人模型之后，所述方法还包括：

在一个实施方式中，根据加载的所述背景模型，生成所述待测试的音频数据对应的个人模型包括：

在一个实施方式中，将生成的所述个人模型与训练得到的个人模型进行对比包括：

具体地，在实际应用中，虽然声纹识别的唯一性很好，但实际上现有的设备和技术仍然很难做出准确分辨，特别是人的声音还具有易变性，易受身体状况、年龄、情绪等的影响。若在环境噪音较大和混合说话人的环境下，声纹特征也是很难提取和建模的。

虽然深度学习带给声纹识别带来极大的提升，甚至还有开源的相关算法，但是声纹识别的研究进展仍然不大，这仍然受制于声纹的采集和特征的建立。另外就是真实环境下的各种影响，混响和噪声对各类模型和方法都有非常大的影响，这和人类似，嘈杂环境中确实很难分辨出某个人的声音。为了在一定程度上解决上述的问题，本申请改进了训练方法，具体地，在训练模型过程中，可以执行以下步骤：

1.从拾音设备中获取到音频数据，发送到声纹系统。

2.声纹系统使用VAD(Voice Activity Detection，语音活动检测)算法分离语音数据和背景噪声数据。语音数据中包含当前的环境噪声不做降噪处理。

在实际应用中，VAD算法有多种方法，比如基于能量检测和LTSD(Long-TermSpectral Divergence，长期光谱发散)。基于能量的准则是检测信号的强度，并且假设语音能量大于背景噪声能量，这样当能量大于某一门限时，可以认为有语音存在。然而当噪声大到和语音一样时，能量这个特征无法区分语音还是纯噪声。LTSD的准则是认为语音是非稳态信号。普通语速通常每秒发出10～15个音素，音素的谱分布是不一样的，这就导致了随着时间变化语音统计特性也是变化的。另一方面，日常的绝大多数噪声是稳态的(变化比较慢的)，如白噪声/机器噪声。

3.准备负样本音频数据。负样本数据在没有收集到背景噪声之前，通常是一些噪声或非目标人声。

4.将得到的背景噪声数据和负样本音频数据随机混合，生成新的负样本数据，新的负样本数据中包含了当前的环境噪音。

5.得到一份混合后的负样本数据和一份训练用的语音数据。混合了环境噪音的负样本数据和语音数据两者在论理上拥有一致的环境因素，从而降低由环境造成的信道不匹配问题。

6.将新的负样本数据和语音数据输入声纹系统进行训练。具体地，将生成的新的负样本数据和语音数据都作为样本数据进行特征提取，然后执行语音检测、特征归一化、以及训练背景模型(UBM，Universal Background Model)训练等过程。背景模型可以用隐马尔可夫模型(HMM，Hidden Markov Model)或高斯混合模型(GMM，Gaussian Mixture Model)来表示，也可以用神经网络(Neural Network)来表示。

然后，声纹系统加载背景模型，同样对语音数据进行特征提取，然后经过能量检测、特征归一化、说话人模型训练等一系列步骤。如果背景模型是基于GMM的背景模型，则通过最大后验概率算法得到说话人模型，该说话人模型可以作为个人模型，个人模型都放置到模型库中。如果背景模型是以深度学习神经网络训练的背景模型，则通过获取d-vector来得到个人模型。

其中，隐马尔科夫模型和回归、分类那些处理相互独立的样本数据的模型不同，它用于处理时间序列数据，即样本之间有时间序列关系的数据。

高斯模型就是用高斯概率密度函数(正态分布曲线)精确地量化事物，将一个事物分解为若干的基于高斯概率密度函数(正态分布曲线)形成的模型。

对于深度神经网络而言，在开发阶段，深度神经网络经过训练，可以在帧级别对说话人进行分类。在说话人录入阶段，使用训练好的的深度神经网络模型用于提取来自最后隐藏层的语音特征。这些说话人特征或平均值，d-vector，用作说话人特征模型。深度神经网络训练好后，提取每一帧语音的Filterbank Energy特征作为深度神经网络的输入，从最后隐藏层提取Activations，再经过L2正则化，然后将其累加起来，得到的向量就被称为d-vector。在评估阶段，可以为每个话语提取d-vector与录入的说话人模型相比较，进行验证。

7.得到输出的背景模型和个人模型。

在测试验证过程中，可以执行以下步骤：

1.得到从拾音设备获取说话人的音频数据，输入到声纹系统。

2.声纹系统加载训练好的背景模型。加载背景模型的目的是下一步生成说话人模型需要。

3.对说话人数据进行特征提取，然后能量检测(VAD)、特征归一化、如果是基于GMM的背景模型，则通过最大后验概率算法(MAP)得到说话人模型。如果是以深度学习神经网络训练的背景模型，则通过获取d-vector来得到说话人模型。生成后的模型和模型库中的个人模型进行比对。

4.输出对比结果。结果为当前说话人和模型库中的模型匹配程度。如果是GMM模型，匹配程度是基于对数似然距离(log-likelihood)。如果是基于d-vector，通常是使用余弦距离(cosine distance)。其中，余弦距离给出的相似性范围从-1到1：-1意味着两个向量指向的方向正好截然相反，1表示它们的指向是完全相同的，0通常表示它们之间是独立的，而在这之间的值则表示中间的相似性或相异性。

请参阅图2，本申请还提供一种基于环境感知的声纹识别系统，所述系统包括：

数据分离单元，用于从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；

数据混合单元，用于获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；

模型训练单元，用于将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型。

在一个实施方式中，所述模型训练单元包括：

在一个实施方式中，所述系统还包括：

在一个实施方式中，所述个人模型生成单元包括：

上面对本申请的各种实施方式的描述以描述的目的提供给本领域技术人员。其不旨在是穷举的、或者不旨在将本发明限制于单个公开的实施方式。如上所述，本申请的各种替代和变化对于上述技术所属领域技术人员而言将是显而易见的。因此，虽然已经具体讨论了一些另选的实施方式，但是其它实施方式将是显而易见的，或者本领域技术人员相对容易得出。本申请旨在包括在此已经讨论过的本发明的所有替代、修改、和变化，以及落在上述申请的精神和范围内的其它实施方式。

Claims

1.一种基于环境感知的声纹识别方法，其特征在于，所述方法包括：

从拾音设备中获取音频数据，并将所述音频数据分离为语音数据和背景噪声数据；

获取负样本音频数据，并将所述负样本音频数据与所述背景噪声数据进行随机混合，生成新的负样本数据；

将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型；

声纹系统使用语音活动检测算法分离语音数据和背景噪声数据；

训练得到背景模型和个人模型包括：

提取所述新的负样本数据和所述语音数据各自的特征，并根据提取的特征训练得到背景模型；其中，背景模型包括隐马尔科夫模型、高斯混合模型和深度学习神经网络模型中的至少一种；

加载所述背景模型，并提取所述语音数据的语音特征，并根据所述背景模型的类型和提取的所述语音特征，训练得到与所述背景模型相适配的个人模型；

负样本音频数据是噪声或非目标人声。

2.根据权利要求1所述的方法，其特征在于，在训练得到背景模型和个人模型之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，根据加载的所述背景模型，生成所述待测试的音频数据对应的个人模型包括：

4.根据权利要求3所述的方法，其特征在于，将生成的所述个人模型与训练得到的个人模型进行对比包括：

5.根据权利要求4所述的方法，其特征在于，将生成的所述个人模型与训练得到的个人模型进行对比包括：

6.一种基于环境感知的声纹识别系统，其特征在于，所述系统包括：

模型训练单元，用于将所述新的负样本数据和所述语音数据输入声纹系统，以训练得到背景模型和个人模型；

所述模型训练单元包括：

个人模型训练模块，用于加载所述背景模型，并提取所述语音数据的语音特征，并根据所述背景模型的类型和提取的所述语音特征，训练得到与所述背景模型相适配的个人模型；

负样本音频数据是噪声或非目标人声。

7.根据权利要求6所述的系统，其特征在于，所述系统还包括：

8.根据权利要求7所述的系统，其特征在于，所述个人模型生成单元包括：