CN111613240B

CN111613240B - 一种基于注意力机制和Bi-LSTM的伪装语音检测方法

Info

Publication number: CN111613240B
Application number: CN202010439274.6A
Authority: CN
Inventors: 简志华; 金易帆; 钟华; 游林; 汪云路; 朱雅楠; 于佳祺
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2020-05-22
Filing date: 2020-05-22
Publication date: 2023-06-27
Anticipated expiration: 2040-05-22
Also published as: CN111613240A

Abstract

本发明公开了一种基于注意力机制和Bi‑LSTM的伪装语音检测方法，包括：S1.提取语音样本中与语音相对应的语音特征数据，并将提取出的语音特征数据转换为语音图像数据；S2.采用双向长短期记忆网络Bi‑LSTM对转换得到的语音图像数据进行处理，得到图像数据的深度特征；S3.采用注意力机制对所述得到的深度特征进行计算，得到注意力的概率分布；S4.采用DNN分类器对得到的注意力概率分布进行分类，得到最终的伪装语言检测结果。本发明将提取出来的特征数据转换成图像数据，再将图像数据作为双向长短期记忆网络的输入得到深度特征，然后用注意力模型对深度特征进行计算并得到注意力概率分布，最后用支持向量机模型对输出结果进行分类，得到欺骗检测结果。

Description

一种基于注意力机制和Bi-LSTM的伪装语音检测方法

技术领域

本发明涉及语音检测技术领域，尤其涉及一种基于注意力机制和Bi-LSTM的伪装语音检测方法。

背景技术

伪装语音检测是通过对说话人的声音进行分析，进而识别出它是真实说话人的语音还是人为恶意伪装的语音。伪装语音通常由设备回放、语音转换及语音合成技术生成，通过这些蓄意的操作能够伪装成特定的说话人声音，从而达到欺骗说话人识别系统的目的。伪装语音识别系统可针对恶意的伪装语音实现反伪装检测，提高说话人识别系统安全性能，具有广阔的应用前景。

说话人识别是根据特定说话人提供的语音样本的特性来自动识别说话人身份的一种技术。但是在一般的说话人识别系统中，系统很容易受到伪装语音欺骗攻击的影响而错误地对语音样本进行判别，因此要在说话人识别系统中加入欺骗攻击检测模块，对语音样本进行欺骗攻击检测。目前的欺骗攻击检测技术中常用的方法是先对语料库中的训练集数据做特征提取，例如常用的特征有梅尔频率倒谱系数(MFCC)、线性频率倒谱系数(LFCC)、群延迟特征(GD)、相对相移(RPS)以及基于深度神经网络(DNN)的特征，然后将提取出的特征用于训练模型，但是这种方法的欺骗检测效果不理想，在实际应用中对环境噪声的鲁棒性不强。

针对上述技术问题，本发明提出一种基于注意力机制和Bi-LSTM的伪装语音检测方法来解决上述问题。

发明内容

本发明的目的是针对现有技术的缺陷，提供了一种基于注意力机制和Bi-LSTM的伪装语音检测方法。

为了实现以上目的，本发明采用以下技术方案：

一种基于注意力机制和Bi-LSTM的伪装语音检测方法，包括：

S1.提取语音样本中与语音相对应的语音特征数据，并将所述提取出的语音特征数据转换为语音图像数据；

S2.采用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理，得到图像数据的深度特征；

S3.采用注意力机制对所述得到的深度特征进行计算，得到注意力的概率分布；

S4.采用DNN分类器对得到的注意力概率分布进行分类，得到最终的伪装语言检测结果。

进一步的，所述步骤S1中将所述提取出的特征数据转换为语音图像数据，具体包括：

S11.通过高通滤波器对语音特征数据的高频部分进行预增强；

S12.对语音特征数据进行分帧处理，得到语音特征数据的每一帧信号以及每一帧信号的样本点数；

S13.对所述得到的语音特征数据的每一帧信号进行加窗；

S14.对所述得到的每一帧信号的样本点数进行补零；

S15.对进行分帧、加窗处理后的语音特征数据做进行补零后样本点数的快速傅里叶变换FFT，得到语音特征数据的频谱，并对的所述语音特征数据的频谱进行取模运算，得到语音特征数据的功率谱；

S16.通过梅尔滤波器对语音特征数据的中低频部分进行处理，得到梅尔谱；并对所述得到的梅尔谱进行对数计算，得到对数梅尔谱；

S17.采用离散余弦变换DCT对得到的对数梅尔谱进行变换处理，得到梅尔倒谱，并输出语音特征数据每一帧的梅尔频率倒谱系数MFCC；

S18.将每一帧的梅尔频率倒谱系数MFCC按照数值大小转换为不同的颜色，最后生成语音图像数据。

进一步的，所述步骤S13中对得到的语音特征数据的每一帧信号进行加窗，所述加窗采用的是汉明窗，表示为：

w(n)＝0.54-0.46cos(2πn/L)

其中，L表示帧长。

进一步的，所述步骤S16中通过梅尔滤波器对语音特征数据的中低频部分进行处理，具体为：

计算梅尔滤波器的梅尔频率分布，把梅尔频率转换成实际频率，表示为：

计算梅尔频率分辨率，表示为：

f(i)＝floor((n+1)*h(i)/f_s)

其中，f_s表示语音的采样频率；

定义若干个带通滤波器H_m(k)，0≤m≤M，M是滤波器个数，每个带通滤波器的输出表示为：

其中，m表示第m个滤波器；f(m)表示第m个滤波器的中心频率；f(m-1)表示滤波器的上限频率；f(m+1)表示滤波器的下限频率。

滤波器组的输出的对数能量为：

进一步的，所述步骤S17中得到梅尔倒谱，表示为：

其中，c(n)表示n阶梅尔倒谱系数；S[m]表示梅尔滤波器组的输出信号的对数能量，M表示滤波器的个数。

进一步的，所述步骤S4中得到最终的伪装语言检测结果是通过计算接近真实语音的帧数来判断是否为欺骗语音。

进一步的，所述通过计算接近真实语音的帧数来判断是否为欺骗语音，表示为：

其中，P(h|F_i)表示真实语音节点的输出值；P(S_k|F_i)表示欺骗语音节点的输出值。

与现有技术相比，本发明将提取出来的特征数据转换成图像数据，再将图像数据作为双向长短期记忆网络(Bi-LSTM)的输入得到深度特征，然后用注意力模型对深度特征进行计算并得到注意力概率分布，就获得了每一帧在欺骗检测中的重要程度，最后用支持向量机模型对输出结果进行分类，得到欺骗检测结果。

附图说明

图1是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法流程图；

图2是优选实施例提供的一种基于注意力机制和Bi-LSTM的伪装语音检测方法框架结构图；

图3是优选实施例提供的LSTM内部结构图。

图4是优选实施例提供的遗忘门结构图；

图5是优选实施例提供的输入门结构图；

图6是优选实施例提供的状态更新结构图。

图7是优选实施例提供的输出门结构图；

图8是优选实施例提供的Bi-LSTM结构结构图；

图9是优选实施例提供的结合注意力机制的Bi-LSTM结构图；

图10是优选实施例提供的DNN分类器结构图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

本实施例提供一种基于注意力机制和Bi-LSTM的伪装语音检测方法，如图1-2所示，包括：

在步骤S1中，提取语音样本中与语音相对应的语音特征数据，并将所述提取出的语音特征数据转换为语音图像数据。具体包括为：

S11.通过高通滤波器对语音特征数据的高频部分进行预增强；

预增强：为了使语音特征数据的高频部分具有更高的分辨率，需要对语音特征数据的信号进行预增强，通过高通滤波器使高频部分更加突出，高通滤波器表示为：

其中，α表示增强系数，取值为0.95。

分帧：本实施例设定每帧的长度为25ms，重叠区为15ms，即每隔10ms取一帧。对于采样率为16kHz的语音，每帧样本点数为400。

S13.对所述得到的语音特征数据的每一帧信号进行加窗；

为了防止快速傅里叶变换FFT时两个端点发生突变，需要对每一帧加窗，本实施例选择汉明窗表示为：

w(n)＝0.54-0.46cos(2πn/L)

其中，L表示帧长，L＝400。

S14.对所述得到的每一帧信号的样本点数进行补零；

补零：快速傅里叶变换FFT要求数据长度为2k，本实施例把400个点补零为512个点。

快速傅里叶变换FFT：对分帧加窗后的信号做512点的FFT得到频谱，并对语音信号的频谱取模的平方得到功率谱。

梅尔滤波器：梅尔滤波器是基于人类听觉感知的，而人类对语音中的中低频域有较强的感知能力，对高频域感知能力弱，所以梅尔滤波器在低频段密度高，高频段密度低。

梅尔频率表示音调和频率之间的关系，转换公式表示为：

其中，f表示频率；

计算梅尔频率分辨率，表示为：

f(i)＝floor((n+1)*h(i)/f_s)

其中，f_s表示语音的采样频率；

取对数：将滤波器组的输出取对数。

N是FFT变换的点数。

离散余弦变换DCT：对对数能量梅尔谱进行离散余弦变换DCT变换，取前13维输出，得到梅尔倒谱，表示为：

在步骤S2中，用双向长短期记忆网络Bi-LSTM对所述转换得到的语音图像数据进行处理，得到图像数据的深度特征。

双向长短期记忆网络同时有一个正向LSTM和一个反向LSTM，分别捕获正向和反向的特征信息，然后将捕获的特征进行融合得到深度特征。Bi-LSTM的输出为：

其中，

表示正向线性关系的系数，/>

表示反向线性关系的系数，b_y表示线性关系的偏移，/>

和/>

表示正向和反向的LSTM的cell的输出。

本实施例采用双向长短期记忆网络(Bi-LSTM)来处理得到的语音图像数据，LSTM是一种时间循环神经网络，是循环神经网络(RNN)的一种，克服了RNN中存在的梯度消失的问题，更有利于模型的优化。LSTM模型与普通的RNN模型相比，LSTM模型的隐藏层中的每个节点都采用LSTM模块，其内部结构如图3所示。

图3中的C_t表示当前的细胞状态，即当前包含的信息，模块结构中包含遗忘门、输入门和输出门，信息的选择性通过一个sigmoid(σ)神经层和逐点相乘或相加操作来实现。tanh是双曲正切函数，表示为：

遗忘门如图4所示，决定要舍弃和保留的信息，这一过程中将h_t-1和x_t通过一个sigmoid层输出一个0到1之间的值给每个cell状态C_t-1中的数字，表示信息通过的权重比，0表示全部舍弃，1表示全部保留，表示为：

f_t＝σ(W_f×h_t-1+W_f×x_t+b_f)

其中，W和b是线性关系的系数和偏移，通过训练得到，h_t-1表示前一个cell的输出，x_t表示当前帧信息的输入，C_t-1表示前一个cell的细胞状态，C_t表示当前cell的细胞状态。

如图5所示，输入门决定要将多少新的信息加入到细胞状态中来，这里分成两部分，C_t1表示本次学习到的信息，i_t用于选择过滤本次学习到的信息，用过滤之后的信息对先前的信息进行补充，表示为：

i_t＝σ(W_i×h_t-1+W_i×x_t+b_i)

C_t1＝tanh(W_C×h_t-1+W_C×x_t+b_C)

如图6所示为状态更新图，更新后的状态表示为：

C_t＝f_t×C_t-1+i_t×C_t1

如图7所示，输出门决定最后的输出值，输出值是一个基于当前细胞状态的值，通过sigmoid神经层对细胞状态进行过滤得出当前的输出值。表示为：

o_t＝σ(W_o×h_t-1+W_o×x_t+b_o)

h_t＝o_t×tanh(C_t)

双向长短期记忆网络(Bi-LSTM)有两个独立的反向的长短期记忆网络组成，他的每个输出数据都同时和前后的信息具有相关性，其结构如图8所示。

在步骤S3中，采用注意力机制对所述得到的深度特征进行计算，得到注意力的概率分布。

对Bi-LSTM层的输出进行计算可以进一步得到每个时刻LSTM单元的输出对分类的重要程度，注意力层的计算公式如下：

M＝tanh(H)

a＝softmax(w^TM)

h^*＝tanh(Ha^T)

其中，H由LSTM的各个时刻的输出h_t,t＝1,2,3,....组合成，w是一个待训练的随机向量，a是注意力概率分布向量，h^*是计算得到的特征表示，最终通过h^*得到分类结果。

注意力是人类感知中的一个重要部分，因为人类视觉系统无法处理整个场景，观察事物时只关注某一部分这种特性可以更好的去捕捉某些特定的视觉信息，基于这种注意力机制的神经网络在处理数据的时候可以得到更全局性的信息，更全面的捕捉到某些特征信息。

对双向长短期记忆网络的输出计算可以得出一个注意力概率分布，由此可以得到不同帧的LSTM输出对欺骗检测的重要程度，结合注意力机制的双向长短期记忆网络如图9所示

在步骤S4中，采用DNN分类器对得到的注意力概率分布进行分类，得到最终的伪装语言检测结果。

本实施例采用包含五个隐藏层的神经网络来区分真是语音和欺骗语音，每个隐含层包含具有sigmoid激活函数的2048个节点，输出节点数为t+1，双向长短期记忆网络的输出作为分类器的输入，利用随机梯度下降法建立和训练神经网络。如图10所示。

分类时通过计算接近真实语音的帧数来判断是否为欺骗语音，即：真实语音节点的输出P(h|F_i)比0.5要大的语音帧数超过总的帧数一半，则认为该语音是真实语音，否则为欺骗语音。

决策得分由下式计算

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。