CN112885358A

CN112885358A - 一种基于双向长短期记忆网络的说话人确认欺骗检测方法

Info

Publication number: CN112885358A
Application number: CN202110087153.4A
Authority: CN
Inventors: 雷震春; 马明磊; 杨印根
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-06-01

Abstract

本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法，包括：获取真实语音数据及欺骗语音数据，计算线性频率倒谱系数特征；采用高斯混合模型对线性频率倒谱系数特征进行建模并进行训练，得到真实语音高斯混合模型和欺骗语音高斯混合模型；将语音线性频率倒谱系数特征在真实语音及欺骗语音高斯混合模型的基础上，计算相应的高斯概率特征；构建孪双向长短期记忆网络，将真实语音高斯混合模型及欺骗语音混合模型上得到的高斯概率特征分别作为输入进行训练；获取新的说话人语音，对语音进行欺骗检测。本发明采用高斯概率特征，使用孪生双向长短期记忆网络模型来捕捉语音帧前后依赖，从而提高语音欺骗检测系统性能。

Description

一种基于双向长短期记忆网络的说话人确认欺骗检测方法

技术领域

本发明属于说话人确认语音欺骗检测技术领域，具体涉及一种基于孪生双向长短期记忆网络的说话人确认欺骗检测方法。

背景技术

随着基于自动说话人确认(Automatic Speaker Verification，ASV)的用户验证身份的场景实例范围和频率都在不断增加，针对自动说话人确认系统的欺骗攻击也变得更加频繁。自动说话人确认系统本身的安全性对于金融交易、公共服务、刑事司法等至关重要，语音重放、语音合成和语音转换等欺骗攻击已经对自动说话人确认系统造成了威胁，设计有效的反欺骗对策来确保自动说话人确认系统安全可靠，意义重大。

高斯混合模型是人们常用的语音欺骗检测方法，它独立地累计语音特征序列所有帧在模型上的得分，不考虑每个高斯分量对最终分数的贡献，此外相邻帧之间的关系也被忽略，这与实际并不相符。本发明采用长短期记忆网络对高斯混合模型分量的得分进行建模，以提高语音欺骗检测性能。

发明内容

本发明的目的在于提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法。该方法采用高斯概率特征，并使用孪生双向长短期记忆网络模型来捕捉语音帧的前后依赖，从而提高欺骗语音检测系统性能。

为实现上述目的，本发明提供了如下方案：本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法，包括以下步骤：

S1、获取说话人真实语音数据及欺骗语音数据，计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征；

S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模，并分别在所述真实语音数据及所述欺骗语音数据上进行训练，得到真实语音高斯混合模型和欺骗语音高斯混合模型；

S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入，计算得到基于真实语音高斯混合模型的概率特征，同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入，计算得到基于欺骗语音高斯混合模型的概率特征；

S4、构建孪生双向长短期记忆网络，将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入，对所述孪生双向长短期记忆网络进行训练；

S5、获取新的说话人语音数据，采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对新的说话人语音进行欺骗检测。

优选地，所述步骤S1的具体过程为：

S1.1、对采集到的所述真实语音数据及所述欺骗语音数据进行语音信号预加重；

S1.2、将预加重后的语音数据分成若干短时语音帧；

S1.3采用汉明窗函数对每帧语音信号进行加窗处理，得到短时加窗的语音信号；

S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号，并计算频域信号的能量谱；

S1.5、采用三角滤波器对能量谱进行滤波，并对滤波后的输出进行离散余弦变换，得到初步线性频率倒谱系数特征；

S1.6、提取初步线性频率倒谱系数特征的动态差分参数，并与初步线性频率倒谱系数特征进行合并，得到最终的所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征。

优选地，所述步骤S1.2中，采用重叠取帧的方式进行语音分帧，相邻帧重叠部分为10ms；所述语音帧的每帧长为20ms。

优选地，所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。

优选地，所述步骤S3的具体过程为：

S3.1、计算所述真实语音数据或所述欺骗语音数据的线性频率倒谱系数特征x_i的高斯概率特征f_i＝{f_ij,j＝1…512}，其中每个分量f_ij计算公式为：

f_ij＝log(w_j·p_j(x_i)) 1

其中：w_j为高斯混合模型的第j个分量权重，p_j为特征在高斯混合模型第j个分量上的概率密度值；

S3.2、对f_i进行全局的均值方差归一化：

其中：μ_f和σ_f是所有所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征的均值与方差，f′_i为最终的高斯概率特征。

优选地，所述步骤S4的具体过程为：

S4.1、计算说话人语音的线性频率倒谱系数特征，并输入到所述真实语音高斯混合模型和欺骗语音高斯混合模型中，得到基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征；

S4.2、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量；

S4.3、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算，得到固定大小的四组一维向量；

S4.4、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类，输出分类结果；

S4.5、根据分类结果判断语音是正常语音还是欺骗语音。

优选地，所述步骤S4.5的过程为：

S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值；

S4.5.2、若正常语音得分值大于欺骗语音得分值，则判断说话人语音为正常语音；若欺骗语音得分值大于正常语音的得分值，则判断说话人语音为欺骗语音。

优选地，所述BLSTM层采用三层堆叠方式，隐状态大小设置为256。

本发明公开了以下技术效果：

本发明针对高斯混合模型不单独考虑特征向量在各个高斯分量上的得分，采用高斯概率特征用于语音欺骗检测；同时，针对高斯混合模型独立计算所有帧的得分，不考虑相邻帧之间的联系的缺点，采用孪生双向长短期记忆网络模型用于语音欺骗检测；将高斯概率特征和孪生双向长短期记忆神经网络结合起来，能够有效提高语音欺骗检测系统的性能。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于双向长短期记忆网络的说话人确认欺骗检测方法流程示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示，本发明提供一种基于双向长短期记忆网络的说话人确认欺骗检测方法，包括以下步骤：

S1、获取说话人真实语音数据及欺骗语音数据，计算所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征。

S1.1、对采集到的说话人真实语音数据及欺骗语音数据进行语音信号预加重：

说话人语音信号的第n个采样点位x[n]，预加重公式如下：

x′[n]＝x[n]-0.97*x[n-1] (1)

S1.2、将预加重后的语音数据分成若干短时语音帧：

将预加重后的语音分成短时语音帧，每帧帧长位20ms，为确保声学特征参数的平滑性，采用重叠取帧的方式，相邻帧重叠部分为10ms；

S1.3采用汉明窗函数对每帧语音信号进行加窗处理，得到短时加窗的语音信号：

对每帧信号进行加窗处理，采用汉明窗函数，得到短时加窗的语音信号：

x_l[n]＝w[n]*x[n+lL],0≤n≤N-1 (2)

其中：w[n]是窗函数，w[n]＝0.54-0.46cos(2πn/N-1)；N是窗长；l是帧索引；L是帧移。

S1.4、将短时加窗的语音信号进行傅里叶变换得到频域信号，并计算频域信号的能量谱：

将处理后的语音时序信号x(n)进行傅里叶变换，即得到频域信号X(k)：

将经过傅里叶变换得到的频域信号X(k)表示为：

X(k)＝acosθ_kk+jasinθ_kk＝a_k+jb_k (4)

然后计算能量谱：

S1.5、采用三角滤波器对能量谱进行滤波，并对滤波后的输出进行离散余弦变换，得到初步线性频率倒谱系数特征：

在刻度范围内，各个三角滤波器的中心频率是相等间隔的线性分布，第i个滤波器中心位置是：

其中：L为三角滤波器的数目，每个三角滤波器宽度为

设o(k),c(k),h(k)分别是第k个三角形滤波器的下限，中心，和上限频率,将三角滤波器组应用到能量谱上，每帧信号得到K个值，其中第k个值为：

S1.6、提取初步线性频率倒谱系数特征的动态差分参数，并与初步线性频率倒谱系数特征进行合并，得到最终的真实语音数据及欺骗语音数据的线性频率倒谱系数特征：

对滤波器输出进行离散余弦变换，得到LFCC特征：

进一步，提取的LFCC的一阶二阶差分，与原始特征合并后得到最终LFCC特征。

S2、采用高斯混合模型对所述真实语音数据及所述欺骗语音数据的线性频率倒谱系数特征分别进行建模，并分别在所述真实语音数据及所述欺骗语音数据上进行训练，得到真实语音高斯混合模型和欺骗语音高斯混合模型。

本实施例的高斯混合模型(Gaussian Mixture Model，GMM)由多个高斯分布加权组成，使用期望最大(Expectation Maximization，EM)算法进行训练。对于一个D维的特征向量x，第i个高斯分量满足正态分布N(μ_j,Σ_j)，其对应的概率分布密度函数为：

其中：p_i(x)为高斯密度函数，概率密度是由M个正态高斯密度函数p_i(x)组成：

其中：D为特征向量维度大小，μ_i和Σ_i分别是高斯密度函数的均值和协方差矩阵；

w_i为高斯混合分布的权重系数，满足：

S3、将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述真实语音高斯混合模型的输入，计算得到基于真实语音高斯混合模型的概率特征，同时将所述真实语音数据和所述欺骗语音数据的线性频率倒谱系数特征作为所述欺骗语音高斯混合模型的输入，计算得到基于欺骗语音高斯混合模型的概率特征。

S3.1、计算所述说话人语音数据的线性频率倒谱系数特征x_i的高斯概率特征f_i＝{f_ij,j＝1…512}，其中每个分量f_ij计算公式为：

f_ij＝log(w_j·p_j(x_i)) (13)

S3.2、对所有特征进行全局的均值方差归一化：

S4、构建孪生双向长短期记忆网络，将所述基于真实语音高斯混合模型的概率特征及所述基于欺骗语音高斯混合模型的概率特征分别作为输入，对孪生双向长短期记忆网络进行训练；获取新的说话人语音数据，采用所述真实语音高斯混合模型、所述欺骗语音高斯混合模型及训练好的孪生双向长短期记忆网络对说话人语音进行欺骗检测。

S4.1、采用BLSTM层将基于真实语音高斯混合模型的概率特征及基于欺骗语音高斯混合模型的概率特征转换成两组二维向量；

LSTM层的输入是步骤S3获得的高斯概率特征，设语音帧数为T，语音转换成大小为512*T的二维向量X，对第t帧x_t，LSTM层计算公式为：

h_t＝o_t·tanh(c_t) (17)

f_t＝σ(W_f·[h_t-1,x_t]+b_f) (18)

i_t＝σ(W_i·[h_t-1,x_t]+b_i) (19)

o_t＝σ(W_o·[h_t-1,x_t]+b_o) (20)

其中：

是候选状态；c_t为内部状态；h_t为外部状态；f_t为遗忘门，控制上一个时刻的内部状态需要遗忘多少信息；W_f是遗忘门的权重矩阵；b_f是遗忘门的偏置项；σ是sigmoid函数；i_t为输入门，控制当前时刻的候选状态有多少信息需要保存；W_i是输入门的权重矩阵，b_i是输入门的偏置项；o_t为输出门，控制当前时刻的内部状态有多少信息需要输出给外部状态；W_o是输出门的权重矩阵；b_o是输出门的偏置项。

在语音欺骗检测中，一个时刻的输出不但和过去时刻的信息有关，也和后续时刻的信息有关。模型采用双向长短期记忆网络(Bidirectional Long Short-Term Memory，BLSTM)对语音特征建模，由两个LSTM组成，它们的输入相同，只是信息传递的方向不同。此外，采用堆叠方式，将多个BLSTM进行组合，增加神经网络模型的深度。

模型中采用三层BLSTM堆叠方式，隐状态大小设置为256，语音高斯概率特征经过BLSTM层后，得到512*T大小的二维向量。高斯概率特征在高斯混合模型基础上计算得到，系统中包含两个不同的高斯混合模型，生成的高斯概率特征分别输入到两个结构相同的BLSTM中，组成孪生BLSTM结构。

S4.2、采用一维最大池化层和平均池化层对所述二维向量分别进行池化运算，得到固定大小的四组一维向量；

对BLSTM层的输出的二维向量，用一维最大池化层和平均池化层沿着时间方向进行池化运算，分别获得固定大小为512的一维向量，将其串接起来得到大小为1024的向量。由于前面特征提取的时候，根据两个高斯混合模型得到两组高斯概率特征，经过BLSTM层和池化层，得到四个大小为512的一维向量，将这四个向量简单串接起来得到大小为2048的一维向量。

S4.3、对所述固定大小的四组一维向量进行串接并输入到全连接层中进行分类，输出分类结果；

全连接层包含256个神经元节点，其中每个节点的输出P_i计算公式是：

其中：w_i,j是权重矩阵；b是偏移量；f是ReLU激活函数。

输出层包含2个神经元节点，分别表示分类的结果是真实语音Q₀还是欺骗语音Q₁；

其中：w_i,j是权重矩阵；b是偏移量；h是Sigmoid激活函数。

S4.4、根据分类结果得到正常语音和欺骗语音的得分值。

若正常语音得分值大于欺骗语音得分值，则判断说话人语音为正常语音；若欺骗语音得分值大于正常语音的得分值，则判断说话人语音为欺骗语音。

为了验证本发明的有效性，本实施例采用ASVspoof2019数据集对本发明方案进行验证，该数据集由真实和欺骗语音组成。ASVspoof2019挑战专注于文本语音合成(TTS)、语音转换(VC)攻击和语音重放这三种欺骗攻击类型进行欺骗检测。ASVspoof2019挑战分为逻辑访问(Logical Access，LA)场景和物理访问(Physical Access，PA)场景这两种评估场景，在这两种场景下又分别包含训练集、开发集和评估集三部分。实验采用等错误率(EER)作为性能指标，训练集用于训练模型参数，评估集用于比较模型的性能。实验结果如表1所示所示：

表1

从实验结果可以看出，本发明的孪生BLSTM性能明显优于传统的高斯混合模型。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.一种基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述步骤S1的具体过程为：

S1.2、将预加重后的语音数据分成若干短时语音帧；

3.根据权利要求2所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述步骤S1.2中，采用重叠取帧的方式进行语音分帧，相邻帧重叠部分为10ms；所述语音帧的每帧长为20ms。

4.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述真实语音高斯混合模型和欺骗语音高斯混合模型采用期望最大方法进行训练。

5.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述步骤S3的具体过程为：

S3.1、计算所述真实语音数据或所述欺骗语音数据的线性频率倒谱系数特征x_i的高斯概率特征f_i＝{f_ij，j＝1...512}，其中每个分量f_ij计算公式为：

f_ij＝log(w_j·p_j(x_i)) 1

S3.2、对f_i进行全局的均值方差归一化：

6.根据权利要求1所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述步骤S4的具体过程为：

S4.5、根据分类结果判断语音是正常语音还是欺骗语音。

7.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述步骤S4.5的过程为：

S4.5.1、根据分类结果得到正常语音和欺骗语音的得分值；

8.根据权利要求6所述的基于双向长短期记忆网络的说话人确认欺骗检测方法，其特征在于，所述BLSTM层采用三层堆叠方式，隐状态大小设置为256。