CN110600042B

CN110600042B - 一种伪装语音说话人性别识别的方法及系统

Info

Publication number: CN110600042B
Application number: CN201910959040.1A
Authority: CN
Inventors: 张晓�; 施正昱; 蔡立明; 董可欣
Original assignee: Third Research Institute of the Ministry of Public Security
Current assignee: Third Research Institute of the Ministry of Public Security
Priority date: 2019-10-10
Filing date: 2019-10-10
Publication date: 2020-10-23
Anticipated expiration: 2039-10-10
Also published as: CN110600042A

Abstract

本发明公开了一种伪装语音说话人性别识别的方法，其采集并清洗电子伪装语音的共振峰参数；接着利用构建的全连接神经网络模型，以共振峰参数作为输入矩阵，通过全连接的非线性变换堆叠层计算，确定电子伪装语音说话人性别分类。本发明提供的方案基于全连接神经网络对伪装语音说话人的性别进行识别，识别的准确率达95％以上，可有效克服现有技术所存在的问题。

Description

一种伪装语音说话人性别识别的方法及系统

技术领域

本发明涉及语音处理与识别技术，具体涉及伪装语音的说话人性别的识别技术。

背景技术

语音识别是司法鉴定中的一个重要领域。随着转换技术的普及与发展，电子伪装语音一旦被不法分子所利用，后果将十分严重。电子伪装语音的说话人身份鉴别已经成为了当前语音识别的关键问题。

目前在伪装语音识别中，尤其是在判断一段语音是否经过伪装的方法上，高斯混合模型(GMM)和支持向量机(SVM)有着广泛的应用。

GMM是混合模型学习算法中最快的算法，它是一个假设所有的数据点都是生成于一个混合的有限数量的并且未知参数的高斯分布的概率模型。这个算法仅仅只是最大化可能性，并不会使均值偏向于0，或是使聚类大小偏向于可能适用或者可能不适用的特殊结构。但是GMM对数据量有着较高的要求：当每个混合模型没有足够的数据点时，估算协方差变得困难起来，同时算法会发散并且找具有无穷大似然函数值的解，除非人为地对协方差进行正则化。在实际的司法鉴定中，由于用作证据的语音样本数据量大小不确定，当没有充足样本时，采用GMM难以实现准确的分类识别。

SVM使用铰链损失函数计算经验风险并在求解系统中加入了正则化项以优化结构风险，是一个具有稀疏性和稳健性的分类器。SVM有着优秀的泛化能力，训练好的分类器不仅在，对训练样本重新分类时能得到很小的误差，对未知样本进行分类也能得到较小的误差。但是在求解问题分类时，要求解函数的二次规划,这就需要大量的存储空间；且随着数据量的增长，所需的空间与时间开销激增。

再者，上述两种算法目前还仅应用于识别是否为伪装语音，并且在这两种技术的应用中所采用的语音特征为梅尔倒谱系数(Mel-scaleFrequency CepstralCoefficients，简称MFCC)。另外上述两种算法在用于识别是否为伪装语音时，在相应的实验中都需要采用数据量较大的样本，这将大大影响该方案的实用性。

而现有的自动说话人识别(ASV)系统虽然已经能够处理通讯场景与声道变化、说话者情绪与年龄变化等所带来的影响，但是对于伪装语音的说话者识别仍存在缺陷，在ASV系统中伪装语音的说话人识别平均错误率(EERs)高于40％。

张翠玲和赵晓波的研究(《电声伪装语音的声学研究》)验证了通过语音伪装，可以实现男女性的声音转换，转换后难以通过听觉来检验说话人性别，并且通过回归分析探讨了男性和女性的伪装语音与原始语音的关系，但并没有提出说话人的性别识别的方法。

张桂清等人在《电子伪装语音的变声研究》中比较了男性和女性说话人经电话变声器和耳机变声器变声后的声学特征(升调、音强和共振峰)的差异。但方案针对伪装语音说话人性别研究仍主要局限于传统的统计方法(如：计算平均值和标准差)，单纯比较这些统计值并不能实现高效的性别区分。

由此可见高效的识别出伪装语音的说话人性别为本领域的亟需解决的问题。

发明内容

针对现有伪装语音的说话人识别技术无法高效的识别出说话人性别的问题，需要一种新的伪装语音说话人识别技术。

为此，本发明的目的在于提供一种伪装语音说话人性别识别的方法，以实现伪装语音的说话人性别识别。

为了达到上述目的，本发明提供的伪装语音说话人性别识别的方法，包括：

采集并清洗电子伪装语音的共振峰参数；

利用构建的全连接神经网络模型，以共振峰参数作为输入矩阵，通过全连接的非线性变换堆叠层计算，确定电子伪装语音说话人性别分类。

进一步的，所述方法采集并清洗电子伪装语音的共振峰参数的步骤包括：

(1)通过LPC法提取电子伪装语音中每个字的韵母部分的共振峰参数；

(2)对于所提取的伪装语音共振峰参数数据，依次进行共振峰折损清洗、共振峰合并优化和共振峰序列调整的数据清洗操作。

进一步的，所述步骤(1)中首先通过线性预测法对输入的电子伪装语音信号进行解卷，将激励分量代入预测残差以得到分量，继而得到该分量的参数，接着，由此求得声道响应分量的谱峰，从而得到共振峰的各项参数。

进一步的，所述全连接神经网络模型由输入层、隐藏层和输出层构成，所述隐藏层至少为一层，并位于输入层与输出层之间；所述全连接神经网络模型的各层中上一层的任何一个神经元与下一层的所有神经元都有连接关系；所述全连接神经网络模型还配置有网格式的参数列表，为模型的自适应调参提供参数池。

进一步的，所述全连接神经网络模型中利用激活函数引入非线性的因素，以进行分层的非线性映射学习。

进一步的，所述全连接神经网络模型中的输出层采用Softmax函数对运算后的数据进行离散化分类。

进一步的，所述全连接神经网络模型中采用L-BFGS算法来求解相应的参数。

本发明提供的方案基于全连接神经网络对伪装语音说话人的性别进行识别，识别的准确率达95％以上，可有效克服现有技术所存在的问题。

再者，本方案可以适用于多种不同的语音伪装手段同时可实现小样本下的伪装语音的说话人性别识别，降低识别技术对数据的依赖性，具有很好的实用性。

附图说明

以下结合附图和具体实施方式来进一步说明本发明。

图1为本发明实例中伪装语音的说话人性别识别流程图；

图2为本发明实例中全连接神经网络结构示意图。

具体实施方式

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体图示，进一步阐述本发明。

针对电子伪装语音的说话人性别识别的问题，本实例通过构建全连接神经网络模型，并将电子伪装语音的共振峰参数作为输入矩阵，由此经全连接的非线性变换的堆叠层计算，由此确定电子伪装语音说话人性别。

参见图1，其所示为本实例基于上述原理对伪装语音进行说话人性别识别流程。

由图可知，对伪装语音进行说话人性别识别的过程主要包括如下步骤：

1.数据的采集与清洗。

(1.1)通过LPC法提取伪装语音中每个字的韵母部分的共振峰参数。这里的共振峰参数包括中心频率、带宽和强度。首先通过线性预测法对输入的语音信号进行解卷，即把激励分量代入预测残差以得到分量，继而可得该分量的参数，由此求得声道响应分量的谱峰，即可得共振峰的各项参数。

(1.2)由于通过LPC方法提取共振峰参数值存在虚假峰值、共振峰合并等问题。为此，本实例进一步对LPC法所提取的伪装语音共振峰参数数据，依次进行共振峰折损清洗、共振峰合并优化和共振峰序列调整的数据清洗操作，以减小虚假峰值和共振峰合并所带来的干扰。

2.伪装语音说话人性别识别。

本实例首先设计网格式的参数列表，用于为模型的自适应调参提供参数池。该参数池包括了隐藏层层数、隐藏层结构、正则化项参数、激活函数类别、迭代率等一系列参数。接着，据此构建全连接神经网络模型，该神经网络由输入层、隐藏层和输出层构成，隐藏层位于输入层与输出层之间，层数可以不止一层。同时，该全连接神经网络模型中层与层之间是全连接关系，即上一层的任何一个神经元与下一层的所有神经元都有连接关系(如图2所示)。

具体的，本全连接神经网络模型中的输入层，用于接收经共振峰折损清洗、共振峰合并优化和共振峰序列调整的一系列清洗操作后的共振峰特征数据；

本全连接神经网络模型中的隐藏层，用于加深神经网络，使得神经网络的对数据的拟合能力更好；

本全连接神经网络模型中的输出层，用于将数据结果进行离散化分类，最终输出伪装语音的说话人性别结果，即男/女。

进一步的，本全连接神经网络模型在每一层中，都存在着“数据先经激活函数处理，再进行线性组合”的过程；在输入层中接收输入数据后，再进行该过程，并将结果输出至紧邻的隐藏层；隐藏层接收了上一层的输出结果后，再进行该过程，并将结果输出至下一层隐藏层(如果下一层不是隐藏层，则输出至输出层)；输出层在接收了最后一层隐藏层的输出结果后，进行该过程，而后将计算结果经Softmax函数进行离散化分类处理，输出最终的说话人性别分类识别结果。

进一步的，本全连接神经网络模型中层与层之间是全连接关系，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。由此实现将伪装语音的共振峰特征数据由一个特征空间线性变换到另一个特征空间。

由于伪装语音说话人性别识别，从根本上而言，是要将高维的共振峰特征数据在特征空间上一分为二：一类对应男性说话人，另一类对应女性说话人。但在一般情况下，直接对高维的共振峰特征数据进行上述的分类并不容易。故，本全连接神经网络模型中通过采用全连接的方式，实现通过等价转换特征空间，使得转换后的高维数据变得更容易分割，从而可以帮助伪装语音说话人性别识别。

在此基础上，本实例为了使神经网络能更好地解决语音问题，利用激活函数将非线性的因素引入识别模型，使其具备分层的非线性映射学习能力。这里的采用的激活函数可以为Sigmoid、tanh和ReLU。

本实例在神经网络中引入非线性函数作为激励函数，有效提高深层神经网络表达能力，使其不再是输入的线性组合，而是几乎可以逼近任意函数。

若不用激活函数，这样的话每一层节点的输入都是上层输出的线性函数。在这种情况下，无论神经网络有多少层，输出的结果都是输入数据的线性组合，神经网络的逼近能力就相当有限。

进一步的，本全连接神经网络模型中的输出层采用Softmax函数对运算后的数据进行离散化分类。

这里采用Softmax函数，主要用于将一个N维的任意实数向量映射为一个各个元素的取值都在(0,1)中的N维向量，实现向量的归一化。在伪装语音说话人性别识别中主要解决了基于概率的多分类问题，也就是说模型最终输出的性别判断是由Softmax函数生成的。

另外在具体实现时，本全连接神经网络模型中优选采取L-BFGS算法作为求取全连接神经网络的参数优化求解算法。基于该算法优化计算效率高且能适应小样本的数据预测处理的性能，由此来得到全连接神经网络模型中各层的连接系数和偏置系数。

本实例在将原始采集的共振峰特征数据进行数据清洗后，将训练数据放入全连接神经网络模型中，同时放入全连接神经网络模型的还有每一条共振峰特征数据所对应的说话人的真实性别标签。训练数据连同标签一起，依次经过输入层、隐藏层和输出层进行拟合和有监督分类。即在全连接过程中所产生的特征空间线性变换并不是随机的，而是根据说话人的真实性别标签进行有目的的转换的。而该特征空间线性变换所对应的参数求解十分复杂，故本实例采用L-BFGS算法来求解相应的参数，由此，在本全连接神经网络模型训练完毕，可以用于伪装语音说话人性别识别，即仅输入其他的伪装语音共振峰特征测试数据，即可得到说话人性别识别结果的输出(男/女)。

这样基于本全连接神经网络模型，以采集并清洗电子伪装语音的共振峰参数作为输入矩阵，通过全连接的非线性变换堆叠层计算，即可输出伪装语音说话人性别识别的结果，即判断男性或女性。

基于上述方案构成的全连接神经网络模型，其具有非线性映射性和普适性，对于其中的非线性映射性，其利用激活函数引入非线性的因素，提升模型的分类识别性能；对于普适性，通过实验验证表明，对于tempo，rate，pitch 3种电子伪装方式转换的53种不同的电子伪装语音，该模型均表现出很好的适应性，对伪装语音的说话人性别识别准确率高。

作为举例，以下说明一下基于该全连接神经网络模型进行伪装语音说话人性别识别的过程。

整个过程主要包括如下步骤：

(1)数据预处理(即数据清洗)

将采集的原始共振峰特征数据进行共振峰折损清洗、共振峰合并优化和共振峰序列调整，在该过程中剔除异常值并填补了缺失值，为接下去的模型计算拟合做好准备。

(2)模型训练：

输入：清洗好的伪装语音共振峰特征数据、对应说话人的真实性别标签；

训练：将说话人的真实性别标签作为训练的监督项(即训练目标)，采用L-BFGS算法来拟合计算线性特征空间映射等的具体方式和参数；

输出：说话人性别识别结果；通过将此结果与输入的说话人真实性别标签做比较，来对模型的神经网络层数、神经元数量、迭代次数、激活函数等等进行调整。

(3)说话人性别识别：

使用步骤(2)中训练好的模型(通过模型训练过程获得了所需的全部参数)，即可实现伪装语音的说话人性别识别；

输入：其他的伪装语音共振峰特征测试数据；

识别计算：采用2中所训练的模型(拥有全部所需的具体参数值)进行拟合计算；

输出：伪装语音说话人性别识别结果。

针对上述方案，本实例进一步通过一系列实验来验证本方案的性能。

本实例在构建实验来验证本方案时，采用了SoundTouch三个基本变声功能音调(pitch)、节拍(tempo)和速度(rate)对男女声的自然语音进行了电子伪装。并且分别从神经网络层数构建、激活函数类别、对不同的语音伪装手段的普适性等三个角度进行了验证。

根据实验结果可以确定：

1.对于神经网络而言，网络结构会对其生成的结果产生重要的影响。过深的网络结构不仅会造成较大的时间开销，也容易产生过拟合等现象。本实例方案在较少的神经网络层数(隐藏层2-4层)下就可以在测试集达到97.89％的性别识别准确率。

2.实验中对比了Sigmoid、tanh和ReLU这3种激活函数的性别识别总体情况。在两层隐藏层的情况下，Sigmoid、tanh和ReLU这3种激活函数在测试集上的最优识别结果依次为96.96％、93.03％和96.73％。

3.本实例对不同的语音伪装手段均有良好的稳定性，能适用于多种不同的电子伪装手段的说话人性别识别，并能获得良好的识别分类结果。例如，本实例方案对tempo这一伪装手段更为敏感，测试集准确率最高达0.9937，基本实现无误差；本实例方案对pitch的敏感性次之；最低为rate，测试集准确率也可达0.9330。

通过上述实例可知，本实例给出的基于神经网络的伪装语音说话人识别方案，用以实现从共振峰的中心频率、带宽、音强等参数识别伪装语音说话人的性别。该模型以神经网络为框架，经全连接的非线性堆叠计算获取识别结果，并在模型的训练阶段采用L-BFGS进行优化参数的求解。实验结果表明，本实例方案可以高效实现电子伪装语音说话人性别识别，测试集上性别识别正确率最高可达97.89％。并且本实例方案对于不同伪装手段具有良好的普适性，在实验中，分别采用pitch、rate和tempo三种伪装手段制作伪装语音，本实例方案测试集上性别识别正确率最低为93.30％，最高可达99.37％。

最后需要说明的，本发明的方法，或特定系统单元、或其部份单元，为纯软件架构，可以透过程序代码布设于实体媒体，如硬盘、光盘片、或是任何电子装置(如智能型手机、计算机可读取的储存媒体)，当机器加载程序代码且执行(如智能型手机加载且执行)，机器成为用以实行本发明的装置。上述本发明的方法与装置亦可以程序代码型态透过一些传送媒体，如电缆、光纤、或是任何传输型态进行传送，当程序代码被机器(如智能型手机)接收、加载且执行，机器成为用以实行本发明的装置。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种伪装语音说话人性别识别的方法，其特征在于，所述方法只基于语音的共振峰参数，包括：

首先，采集并清洗电子伪装语音的共振峰参数，所述共振峰参数包括中心频率、带宽和强度；

接着，利用构建的全连接神经网络模型，以共振峰参数作为输入矩阵，通过全连接的非线性变换堆叠层计算，确定电子伪装语音说话人性别分类。

2.根据权利要求1所述的伪装语音说话人性别识别的方法，其特征在于，所述方法采集并清洗电子伪装语音的共振峰参数的步骤包括：

3.根据权利要求2所述的伪装语音说话人性别识别的方法，其特征在于，所述步骤(1)中首先通过线性预测法对输入的电子伪装语音信号进行解卷，将激励分量代入预测残差以得到分量，继而得到该分量的参数，接着，由此求得声道响应分量的谱峰，从而得到共振峰的各项参数。

4.根据权利要求2所述的伪装语音说话人性别识别的方法，其特征在于，所述全连接神经网络模型由输入层、隐藏层和输出层构成，所述隐藏层至少为一层，并位于输入层与输出层之间；所述全连接神经网络模型的各层中上一层的任何一个神经元与下一层的所有神经元都有连接关系；所述全连接神经网络模型还配置有网格式的参数列表，为模型的自适应调参提供参数池。

5.根据权利要求4所述的伪装语音说话人性别识别的方法，其特征在于，所述全连接神经网络模型中利用激活函数引入非线性的因素，以进行分层的非线性映射学习。

6.根据权利要求4所述的伪装语音说话人性别识别的方法，其特征在于，所述全连接神经网络模型中的输出层采用Softmax函数对运算后的数据进行离散化分类。

7.根据权利要求4所述的伪装语音说话人性别识别的方法，其特征在于，所述全连接神经网络模型中采用L-BFGS算法来求解相应的参数。