CN112992126B

CN112992126B - 语音真伪的验证方法、装置、电子设备及可读存储介质

Info

Publication number: CN112992126B
Application number: CN202110433396.9A
Authority: CN
Inventors: 郑榕; 郑尧曦
Original assignee: Beijing Yuanjian Information Technology Co Ltd
Current assignee: Beijing Yuanjian Information Technology Co Ltd
Priority date: 2021-04-22
Filing date: 2021-04-22
Publication date: 2022-02-25
Anticipated expiration: 2041-04-22
Also published as: CN112992126A

Abstract

本申请提供了语音真伪的验证方法、装置、电子设备及可读存储介质，包括：获取待识别语音；将待识别语音输入预先训练好的声音特征提取网络，得到目标特征向量；目标特征向量包含用于区分声音来源的待识别语音的时序信息以及音素长时对应信息；将目标特征向量输入至预先训练好的分类模型中，确定待识别语音是否为真实用户发出的；分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。这样，可以提取出针对于语音活体检测的声音特征，有助于提高识别待识别语音是否是来自于真实用户的准确率，同时利用区分度更高更不易混淆的分类模型进行分类，可以提高对声音分类的准确性，从而提高了对语音是否为真实用户发出的识别的准确性。

Description

语音真伪的验证方法、装置、电子设备及可读存储介质

技术领域

本申请涉及语音验证技术领域，尤其是涉及语音真伪的验证方法、装置、电子设备及可读存储介质。

背景技术

随着科学技术的飞速发展，针对不同的验证场景可以采取不同的验证方式进行验证，从而提高对用户验证的准确性，语音验证就是其中一种，在语音验证场景下，一般需要验证两种情况，一种为发出声音的是否是用户本人，另一种为是否是由真实用户发出的声音，称为语音活体检测，在语音活体检测的过程中特征提取以及分类是比较重要的环节，在现有技术中传统的特征提取方式以及分类方式，在语音活体检测中并不能很好地提取出对活体检测更为有意义的特征元素，并且在分类过程中也存在分类不准确的情况，如何提高语音活体检测中特征提取以及分类的准确性，进而更准确地对语音活体进行分类，成为了亟待解决的问题。

发明内容

有鉴于此，本申请的目的在于提供语音真伪的验证方法、装置、电子设备及可读存储介质，通过预选训练好的可以提取出语音的时序信息以及音素长时对应信息的声音特征提取网络对待识别语音进行特征提取，并将得到的目标特征向量输入至根据最大互信息准则训练的分类模型中，得到最终的语音是否为真实用户发出的分类结果，可以提取出针对于语音活体检测的声音特征，有助于提高识别待识别语音是否是来自于真实用户的准确率，同时利用区分度更高更不易混淆的分类模型进行分类，可以提高对声音分类的准确性，从而提高了对语音是否为真实用户发出的识别的准确性。

本申请实施例提供了一种语音真伪的验证方法，所述验证方法包括：

获取待识别语音；

将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；

将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

进一步的，通过以下步骤训练所述声音特征提取网络：

获取多个样本语音；

将每一个样本语音输入至基于初始特征提取网络预先训练过的瓶颈特征提取网络中，得到瓶颈特征向量；其中，所述瓶颈特征提取网络包括输入层、瓶颈层、输出层以及至少一个隐藏层；

基于每次迭代输出的多个瓶颈特征向量调整所述瓶颈特征提取网络中输入层与瓶颈层之间的网络参数，直至输出的瓶颈特征向量与前一次输出的瓶颈特征向量之间的差值小于预设向量差值阈值，确定所述瓶颈特征提取网络训练完毕；

基于所述瓶颈特征提取网络中输入层与瓶颈层之间的网络结构以及多个网络参数，得到所述声音特征提取网络。

进一步的，所述目标特征向量为与所述初始特征提取网络输出的初始样本特征向量维数一致的向量，或是与所述初始样本特征向量与所述瓶颈特征向量拼接后的向量维数一致的向量。

进一步的，通过以下步骤训练所述分类模型：

获取多个样本语音以及每个样本语音对应的样本特征向量，所述样本特征向量包括频谱特征向量或者瓶颈特征向量中的至少一种；

基于多个样本特征向量按照最大似然准则，训练预先构建的高斯混合模型，得到通用背景模型；

针对预先设定的每个分类类别，基于所述通用背景模型以及该分类类别下的样本特征向量，根据最大后验自适应方法，得到该分类类别对应的高斯混合模型，其中，所述高斯混合模型用于表征该分类类别自身的分布；

利用预先构建的目标函数对每个分类类别的高斯混合模型进行求导分解，得到对每个分类类别的高斯混合模型进行更新的参数更新公式；所述目标函数是基于最大互信息准则确定的；

基于所述参数更新公式对每个分类类别的高斯混合模型进行迭代更新，直至每个分类类别的高斯混合模型输出的输出数值与前一次输出的输出数值之间的分类差值小于预设输出差值阈值，确定每个分类类别的高斯混合模型训练完毕，基于每个分类类别的高斯混合模型，得到所述分类模型。

进一步的，通过以下步骤确定所述目标函数：

确定训练过程中高斯混合模型分类的类数以及每个分类类别对应的先验概率；

确定预先获取的观测声学特征集合在各个分类类别下的似然度数值；

确定每个声学特征对应的似然度数值之间的总似然度数值；

基于观测声学特征集合在各个分类类别下的似然度数值、每个分类类别对应的先验概率、所述总似然度数值以及预先设定的补偿因子，确定所述目标函数；所述补偿因子用于增加目标分类与混淆分类之间的混淆度。

本申请实施例还提供了一种语音真伪的验证装置，所述验证装置包括：

语音获取模块，用于获取待识别语音；

特征提取模块，用于将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；

语音验证模块，用于将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

进一步的，所述验证装置还包括特征提取网络训练模块，所述特征提取网络训练模块用于：

获取多个样本语音；

进一步的，所述验证装置还包括分类模型训练模块，所述分类模型训练模块用于：

进一步的，所述分类模型训练模块用于通过以下步骤确定所述目标函数：

确定每个声学特征对应的似然度数值之间的总似然度数值；

本申请实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的语音真伪的验证方法的步骤。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的语音真伪的验证方法的步骤。

本申请实施例提供的语音真伪的验证方法、装置、电子设备及可读存储介质，获取待识别语音；将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

这样，获取待识别语音，并将待识别语音输入至预先训练好的声音特征提取网络，得到待识别语音对应的还包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息的目标特征向量，将目标特征向量输入至预先根据最大互信息准则训练的分类模型中，确定所述待识别语音是否为真实用户发出的，从而提高了对语音是否为真实用户发出的识别的准确性。

为使本申请的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本申请实施例所提供的一种语音真伪的验证方法的流程图；

图2为基于深度神经网络的瓶颈特征提取网络示意图；

图3为本申请实施例所提供的一种语音真伪的验证装置的结构示意图之一；

图4为本申请实施例所提供的一种语音真伪的验证装置的结构示意图之二；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围，而是仅仅表示本申请的选定实施例。基于本申请的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例，都属于本申请保护的范围。

首先，对本申请可适用的应用场景进行介绍。本申请可应用于语音验证技术领域。

经研究发现，特征工程中，与通常的语音处理所使用的声学特征不同，语音活体检测需要开发专门的声学特征，例如，梅尔倒谱系数在语音活体检测中并不能够较好地区分真实语音和假体语音。当前主流的频谱特征及对频谱提取的改进（包括差分倒谱）存在以下缺陷：不能充分学习和利用语音特征序列的时序信息，忽略了学习声学特征和音素的长时对应关系，而这些时序信息和对应关系对提升语音活体检测的性能是有益的。

分类器训练中，目前基于传统机器学习的检测方法里，属于生成模型的高斯混合模型仍然是活体检测的主流方法之一，采用最大似然估计准则（Maximum Likelihoodestimation，MLE）训练调整模型参数以反映训练数据的概率分布。高斯混合模型从统计的角度表示数据的分布情况，能够反映同类数据本身的相似度，当样本容量增加的时候，学到的模型可以更快地收敛于实际模型分布。但语音活体检测在实际应用中的难题是攻防对抗活跃，即检测鉴别技术推出不久就有针对检测鉴别技术对抗方式出现，导致攻防对抗非常频繁，也就是说，样本数据容量终究是有限的，甚至是低资源的，这也是高斯混合模型成为主流方法的原因之一。因此，不足之处：首先，高斯混合模型缺少诸如判别方法在寻找不同真实/假体语音类别之间的最优分类面，无法反映不同类别数据之间的差异。其次，高斯混合模型没有利用训练数据的类别标识信息，不是对条件概率分布“P(类别|输入)”和决策函数“类别=f(输入)”的直接学习，学习的准确率有待改善。

基于此，本申请实施例提供了一种语音真伪的验证方法，以提高了对语音是否为真实用户发出的识别的准确性。

请参阅图1，图1为本申请实施例所提供的一种语音真伪的验证方法的流程图。如图1中所示，本申请实施例提供的语音真伪的验证方法，包括：

S101、获取待识别语音。

该步骤中，通过语音获取设备，获取待识别语音。

这里，当有声音检测需求时，通过声音获取设备获取用户的声音，例如，可以是通过麦克风获取用户的声音。

其中，待识别语音可以是待识别用户的一段语音，也可以是待识别用户的多段待识别语音。

S102、将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息。

该步骤中，在获取到的待识别语音之后，将获取到的待识别语音输入至预选训练好的声音特征提取网络中，由声音特征提取网络从待识别语音中提取出目标特征向量，用以后续根据目标特征向量对待识别声音的来源进行识别。

其中，所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息。

这里，在根据语音检测语音是否是真实语音的过程中，语音特征序列的时序信息以及音素长时对应信息对提升语音活体检测的性能（准确性）是有帮助的，所以在对声音特征提取网络进行训练时，需要训练网络可以学习到语音特征序列的时序信息以及音素长时对应信息。

现阶段，在现有技术中，常用的特征提取方式是对各种频谱特征及对频谱提取的改进，梅尔倒谱系数特征、线性倒谱系数，翻转梅尔倒谱系数特征，恒定Q倒谱系数特征，Gammatone滤波器组频谱等等，但是在对语音活体检测的过程中，上述方式却不能对真实语音以及假体语音进行有效区分，当前主流的频谱特征及对频谱提取的改进（包括差分倒谱）存在不能充分学习和利用语音特征序列的时序信息，忽略了学习声学特征和音素的长时对应关系的问题，因此，需要进行进一步的改进。

这里，本申请实施例中提出在声学特征网络的训练过程中，更好地保留和压缩原始特征中的有效信息，使得经由声学特征网络可以更好地获取待识别语音的特征，进而提升根据获取到的目标特征向量对声音进行区分。

进一步的，在本申请实施例中，通过以下步骤训练所述声音特征提取网络：

a1：获取多个样本语音。

该步骤中，获取多个样本语音，其中，样本语音包括真实样本语音以及假体样本语音两种。

其中，样本语音均是以三音子状态作为建模训练单元训练深度神经网络，同时用于提取深度瓶颈特征。

a2：将每一个样本语音输入至基于初始特征提取网络预先训练过的瓶颈特征提取网络中，得到瓶颈特征向量；其中，所述瓶颈特征提取网络包括输入层、瓶颈层、输出层以及至少一个隐藏层。

该步骤中，将步骤a1获取到的每一个样本语音输入至根据初始特征提取网络预先训练过的瓶颈特征提取网络中，得到对应的瓶颈特征向量。

进一步的，请参阅图2，图2为基于深度神经网络的瓶颈特征提取网络示意图，如图2所示，瓶颈特征提取网络包括输入层、瓶颈层、输出层以及至少一个隐藏层，在设计瓶颈特征提取网络时，瓶颈层是一个节点数较少的隐层，对于整个瓶颈特征提取网络，可以通过调整输入层和瓶颈层的单元数量（层数、输入节点数、隐层节点数）寻找最佳参数，进而优化声学模型系统的整体识别性能，由此学习得到语音特征序列的时序信息，训练声学特征和音素的长时对应关系，进而利用这些时序信息和对应关系提升语音活体检测的性能。

其中，在对瓶颈特征提取网络训练结束后，只需保留深度瓶颈特征提取器部分（输入层至瓶颈层）进行瓶颈语音特征的提取，在训练过程中瓶颈层之后至输出层的部分将不再保留。

这里，在对初始特征提取网络进行的预训练是一个无监督的学习过程，可以采取自底向上逐层学习，堆叠预训练方法，为后续模型训练提供一个较优的网络训练初值。在后续对瓶颈特征提取网络的训练过程中，首先随机初始化隐藏层与输出层之间的网络权重参数，然后采用反向传播（BP）算法对网络参数进行有监督的调整，得到对音素状态预测较为准确的瓶颈特征提取网络。

其中，初始特征提取网络可以是深度神经网络（DNN）等神经网络。

a3：基于每次迭代输出的多个瓶颈特征向量调整所述瓶颈特征提取网络中输入层与瓶颈层之间的网络参数，直至输出的瓶颈特征向量与前一次输出的瓶颈特征向量之间的差值小于预设向量差值阈值，确定所述瓶颈特征提取网络训练完毕。

该步骤中，在对瓶颈特征提取网络的训练过程中，需要进行多次迭代，根据每次迭代输出的多个瓶颈特征向量调整所述瓶颈特征提取网络中输入层与瓶颈层之间的网络参数，直至针对每一个样本语音来说，输出的瓶颈特征向量与前一次输出的瓶颈特征向量之间的差值小于预设向量差值阈值时，确定对该瓶颈特征提取网络训练完毕。

这里，对于瓶颈特征提取网络训练结束的标志是瓶颈特征提取网络收敛。

a4：基于所述瓶颈特征提取网络中输入层与瓶颈层之间的网络结构以及多个网络参数，得到所述声音特征提取网络。

该步骤中，从步骤a3中训练好的瓶颈特征提取网络中输入层以瓶颈层之间的网络结构以及多个网络参数，构成声音特征提取网络。

这里，由于声音特征提取网络提取声音特征之后，为了与分类模型进行对接，目标特征向量为与所述初始特征提取网络输出的初始样本特征向量维数一致的向量，或是与所述初始样本特征向量与所述瓶颈特征向量拼接后的向量维数一致的向量；即，在引入瓶颈特征的瓶颈层设置为与原有频谱特征相同的特征维数。

其中，存在两种瓶颈特征的使用方式：方式一：可以用瓶颈特征取代原有的频谱特征，用于后续分类器的训练；方式二：也可以将瓶颈特征与频谱特征进行拼接扩维，通过引入新的特征信息或者增加特征维度的方式，提升语音活体检测的分类性能。上述两种特征向量方式均可以应用在对分类器训练的特征向量中，在此不作具体限制。

这样，通过采用包含瓶颈特征提取的深度神经网络，1、可以作为原始语音特征的非线性压缩变换，而且针对不同说话人、噪声等干扰的鲁棒性和区分性更强，恰恰在语音活体检测中，说话人变化、环境噪声、信道噪声等都是干扰因素，需要进行抑制或补偿；2、因为初始特征提取网络训练的标注是基于隐马尔科夫模型的声学模型生成的，所以使用瓶颈特征能够为语音活体检测声学模型提供传统声学模型的先验信息；3、通过引入新的特征信息或者增加特征维度的方式，提升语音活体检测的分类性能。

S103、将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

该步骤中，将步骤S102得到的待识别语音的目标特征向量输入至预先训练好的分类模型中，根据分类模型的输出，确定出待识别语音是否为真实用户发出的。

其中，进行分类的分类模型是基于最大互信息准则进行训练的，用于更好地区分真实语音与伪造语音。

这里，最大互信息准则（Maximum Mutual Information，MMI）是一种典型的区分性训练准则，在语音转写等技术中得到成功应用。将MMI引入到语音活体检测的高斯混合模型中，即在模型域上，通过基于MMI的区分性训练准则，增强模型对于易混淆特征的建模能力，从而提升真实/假体模型之间的区分程度。

其中，与最大似然准则去最大化整体训练数据的似然度不同，最大互信息准则实质上是最大化训练数据真实类别的后验概率。

进一步的，在本申请实施例中，通过以下步骤训练所述分类模型：

b1：获取多个样本语音以及每个样本语音对应的样本特征向量，所述样本特征向量包括频谱特征向量或者瓶颈特征向量中的至少一种。

该步骤中，获取多个样本语音以及每个样本语音对应的样本特征向量，其中，样本特征向量中包括频谱特征向量或是瓶颈特征向量中的至少一种。

这里，对分类模型进行训练的样本特征向量可以是通过训练过后的瓶颈特征网络训练得到的，还可以是未经过瓶颈特征网络得到的频谱特征向量。

b2：基于多个样本特征向量按照最大似然准则，训练预先构建的高斯混合模型，得到通用背景模型。

该步骤中，将步骤b1中获取到的多个样本特征向量按照最大似然准则对预先构建的高斯混合模型进行训练，得到通用背景模型。

这里，通用背景模型可认为是所有活体检测类别模型的对比基础，可起到归一化参考的作用，并简化训练和测试的计算量。同时，通用背景模型可以设置较高的高斯混合数（例如1024或者2048个高斯），使得提供给MMI初始模型的描述能力得到增强。

b3：针对预先设定的每个分类类别，基于所述通用背景模型以及该分类类别下的样本特征向量，根据最大后验自适应方法，得到该分类类别对应的高斯混合模型，其中，所述高斯混合模型用于表征该分类类别自身的分布。

该步骤中，针对预先设定的每个分类类别，根据步骤b2确定出的通用背景模型以及该分类类别下的样本特征向量，根据最大后验自适应方法得到该分类类别对应的高斯混合模型。

其中，所述高斯混合模型用于表征该分类类别自身的分布。

这里，b2确定出的通用背景模型是基础，每个分类类别下的高斯混合模型均是基于通用背景模型，根据最大后验自适应方法训练得到的。

这里，分类类别是在进行分类时，需要进行分类的类别，可以是真实与假体两个类别。

b4：利用预先构建的目标函数对每个分类类别的高斯混合模型进行求导分解，得到对每个分类类别的高斯混合模型进行更新的参数更新公式；所述目标函数是基于最大互信息准则确定的。

该步骤中，利用预先构建的目标函数对步骤b3得到的每个分类类别的高斯混合模型进行求导分解，得到对每个分类类别的高斯混合模型进行更新的参数更新公式。

这里，对根据目标函数对每个分类类别的高斯混合模型进行求导分析，进而得到期望最大算法下的对每个分类类别的高斯混合模型进行更新的参数更新公式，在求解过程中有两部分高斯统计量需要在期望最大算法迭代的当前模型下进行求解，即语音帧分别各个活体检测类别模型下的单个高斯的占有率，以及每个语音帧在各个活体检测类别下的后验概率。

其中，预先构建好的目标函数是基于最大互信息准则确定出来的，在本申请实施例中，通过以下步骤确定所述目标函数：

c1：确定训练过程中高斯混合模型分类的类数以及每个分类类别对应的先验概率。

该步骤中，确定训练过程中高斯混合模型分类的类数，同时确定出每个分类类别对应的先验概率。

这里，高斯混合模型分类的类数是在进行分类时，需要进行分类的类别，可以是真实与假体两个类别，或者是真实与多个假体子类别等。

这里，在训练过程中，通常假定每个分类类别对应的先验概率相等，在具体计算过程中可以忽略。

c2：确定预先获取的观测声学特征集合在各个分类类别下的似然度数值。

这里，观测声学特征集在各个分类类别下的似然度值指的多段观测声学特征集合对应在各个分类类别下的似然度数值。

这里，观测声学特征集合可以表示为f_n={f_n,1,f_n,2,…, f_n,t,…, f_n,Tn }，其中，f_n,t表示第n段语音的第t帧的声学特征；T_n表示第n段语音的总特征帧数。

c3：确定每个声学特征对应的似然度数值之间的总似然度数值。

c4：基于观测声学特征集合在各个分类类别下的似然度数值、每个分类类别对应的先验概率、所述总似然度数值以及预先设定的补偿因子，确定所述目标函数；所述补偿因子用于增加目标分类与混淆分类之间的混淆度。

该步骤中，根据步骤c1-c3确定的观测声学特征集合在各个分类类别下的似然度数值、每个分类类别对应的先验概率、总似然度数值以及预先设定的补偿因子，确定出相应的目标函数。

这里，目标函数的表达式可以为：

其中，Q表示语音活体检测目标类别数目；q表示第q个类别；^表示高斯混合模型参数；^q表示类别q的高斯混合模型参数，可以记为：

其中，M为高斯混合模型的混合高斯数量；п表示权值参数；μ表示均值参数；∑表示方差参数。

其中，全体训练集合中语音段数N，表示为S={S₁,S₂,…,S_n,…,S_N }，提取得到的特征集合F={F₁,F₂,…,F_n,…,F_N}，这里，特征可以是频谱特征也可以是深度瓶颈特征；每段观测声学特征集合表示为f_n={f_n,1,f_n,2,…, f_n,t,…, f_n,Tn }，其中，f_n,t表示第n段语音的第t帧的声学特征；T_n表示第n段语音的总特征帧数。

其中，p(^q)表示q的先验概率；p（f_n|^q）表示观测声学特征集合f_n在类别q的模型下的似然度数值；

表示对所有活体检测类别进行计算；K_n表示补偿因子，k∈（0,1），即可以设置为0到1之间的数，用于增加目标模型（正确标记）和竞争模型（错误标记）间的混淆度。

b5：基于所述参数更新公式对每个分类类别的高斯混合模型进行迭代更新，直至每个分类类别的高斯混合模型输出的输出数值与前一次输出的输出数值之间的分类差值小于预设输出差值阈值，确定每个分类类别的高斯混合训练完毕，基于每个分类类别的高斯混合模型，得到所述分类模型。

该步骤中，根据预先确定出的参数更新公式对基于每个分类类别的高斯混合模型，进行迭代更新，直至基于每个分类类别的高斯混合模型，输出的输出值与前一次输出的输出值之间的分类差值小于预设输出差值阈值，即模型收敛，确定模型训练结束，得到训练好的分类模型。

这里，在对模型的实际更新过程中，一般只对均值和方差的参数进行更新，参数更新公式可以表示为：

其中，γ，X和Y分别表示0阶统计量，1阶统计量和2阶统计量；

表示第q类的第m个高斯上的分子统计量的0阶统计量；

表示特征集合F在第q类的第m个高斯上的分子统计量的1阶统计量；

表示特征集合F在第q类的第m个高斯上的分母统计量的2阶统计量；

D_q,m是与第q类第m个高斯相关的平滑因子常量，确保更新后的方差大于0，一般设置为

的一到二倍；上角标old表示更新前，new表示更新后。

这里，根据最大互信息准则对模型进行训练，旨在训练将分类过程中容易产生误分类的元素进行强化区分，降低了误分类的概率，因此在迭代过程中，不用进行过多次迭代，一般迭代6-10次就可满足收敛要求。

这样，本申请实施例中通过采用最大互信息准则对分类模型进行训练，可以存在下述有益效果：1、MMI侧重描述分类的边界，合理弱化了混淆度高，区分性低的特征，重点去拟合区分程度高的特征和语音段，使得分类更加准确，降低误分类的概率；2、）MMI从分类的准确率角度，最大化正确分类的语音段数为目标，这与语音活体检测任务的性能评价指标直接关联，即目标函数直接优化。

请参阅图3、图4，图3为本申请实施例所提供的一种语音真伪的验证装置的结构示意图之一，图4为本申请实施例所提供的一种语音真伪的验证装置的结构示意图之二。如图3中所示，所述验证装置300包括：

语音获取模块310，用于获取待识别语音；

特征提取模块320，用于将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；

语音验证模块330，用于将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

进一步的，如图4所示，所述验证装置300还包括特征提取网络训练模块340，所述特征提取网络训练模块340用于：

获取多个样本语音；

进一步的，所述验证装置300还包括分类模型训练模块350，所述分类模型训练模块350用于：

进一步的，所述分类模型训练模块350用于通过以下步骤确定所述目标函数：

确定每个声学特征对应的似然度数值之间的总似然度数值；

本申请实施例提供的语音真伪的验证装置，获取待识别语音；将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音。

请参阅图5，图5为本申请实施例所提供的一种电子设备的结构示意图。如图5中所示，所述电子设备500包括处理器510、存储器520和总线530。

所述存储器520存储有所述处理器510可执行的机器可读指令，当电子设备500运行时，所述处理器510与所述存储器520之间通过总线530通信，所述机器可读指令被所述处理器510执行时，可以执行如上述图1所示方法实施例中的语音真伪的验证方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的语音真伪的验证方法的步骤，具体实现方式可参见方法实施例，在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（Read-OnlyMemory，ROM）、随机存取存储器（Random Access Memory，RAM）、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本申请的具体实施方式，用以说明本申请的技术方案，而非对其限制，本申请的保护范围并不局限于此，尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

Claims

1.一种语音真伪的验证方法，其特征在于，所述验证方法包括：

获取待识别语音；

将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；其中，在对声音特征提取网络进行训练时，训练网络学习语音特征序列的时序信息以及音素长时对应信息，以使声音特征提取网络获取待识别语音的特征，得到所述目标特征向量对待识别语音进行区分；

将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音；

通过以下步骤训练所述分类模型：

基于所述参数更新公式对每个分类类别的高斯混合模型进行迭代更新，直至每个分类类别的高斯混合模型输出的输出数值与前一次输出的输出数值之间的分类差值小于预设输出差值阈值，确定每个分类类别的高斯混合模型训练完毕，基于每个分类类别的高斯混合模型，得到所述分类模型；

通过以下步骤确定所述目标函数：

确定每个声学特征对应的似然度数值之间的总似然度数值；

2.根据权利要求1所述的验证方法，其特征在于，通过以下步骤训练所述声音特征提取网络：

获取多个样本语音；

3.根据权利要求2所述的验证方法，其特征在于，所述目标特征向量为与所述初始特征提取网络输出的初始样本特征向量维数一致的向量，或是与所述初始样本特征向量与所述瓶颈特征向量拼接后的向量维数一致的向量。

4.一种语音真伪的验证装置，其特征在于，所述验证装置包括：

语音获取模块，用于获取待识别语音；

特征提取模块，用于将所述待识别语音输入预先训练好的声音特征提取网络，得到与所述待识别语音对应的目标特征向量；所述目标特征向量包含有用于区分声音来源的所述待识别语音的时序信息以及音素长时对应信息；其中，在对声音特征提取网络进行训练时，训练网络学习语音特征序列的时序信息以及音素长时对应信息，以使声音特征提取网络获取待识别语音的特征，得到所述目标特征向量对待识别语音进行区分；

语音验证模块，用于将所述目标特征向量输入至预先训练好的分类模型中，确定所述待识别语音是否为真实用户发出的；所述分类模型是基于最大互信息准则进行训练的，用于区分真实语音与伪造语音；

所述验证装置还包括分类模型训练模块，所述分类模型训练模块用于：

针对预先设定的每个分类类别，基于所述通用背景模型以及每个分类类别下的样本特征向量，采用最大后验自适应方法，得到该分类类别对应的高斯混合模型，其中，所述高斯混合模型用于表征该分类类别自身的分布；

所述分类模型训练模块用于通过以下步骤确定所述目标函数：

确定每个声学特征对应的似然度数值之间的总似然度数值；

5.根据权利要求4所述的验证装置，其特征在于，所述验证装置还包括特征提取网络训练模块，所述特征提取网络训练模块用于：

获取多个样本语音；

6.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过所述总线通信，所述机器可读指令被所述处理器执行时执行如权利要求1至3中任一所述的语音真伪的验证方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如权利要求1至3中任一所述的语音真伪的验证方法的步骤。