CN111666996B

CN111666996B - 一种基于attention机制的高精度设备源识别方法

Info

Publication number: CN111666996B
Application number: CN202010479743.7A
Authority: CN
Inventors: 曾春艳; 朱栋梁; 杨尧
Original assignee: Hubei University of Technology
Current assignee: Hubei University of Technology
Priority date: 2020-05-29
Filing date: 2020-05-29
Publication date: 2023-09-19
Anticipated expiration: 2040-05-29
Also published as: CN111666996A

Abstract

本发明提出了一种基于attention机制的高精度设备源识别方法。首先，提出在attention机制中加入卷积池化操作来提升特征的表征性，卷积池化层经过训练可以更好的捕捉设备源特征；其次，提出attention机制，使用神经网络为每一种特征自主学习一个权重，从而剔除原始特征数据的冗余信息和干扰数据，实现特征数据的精简；最后，本发明对将MFCC、高斯超矢量和i‑vector三种常见的特征作为设备源特征，并结合attention机制和深度神经网络，用于解决单一特征的局限性。本发明的设备源识别方法与传统设备源识别方法相比能够有效提升系统的识别性能，优化了系统结构，提高了相应设备源识别产品的竞争力。

Description

一种基于attention机制的高精度设备源识别方法

技术领域

本发明涉及一种高精度设备源识别方法，尤其是涉及一种基于attention机制的高精度设备源识别方法。

背景技术

现如今，数字媒体技术发展的越来越快，各类电子产品如电脑、相机、移动手机、打印机等设备在人们日常生活中扮演着不可或缺的角色，产生了大量的媒体文件。在人们的需求下，各种数字媒体编辑软件也逐渐走向便捷化。一方面，这些数字编辑软件给人们的生活带来便捷与欢乐，另一方面，也引入了许多具有挑战性的问题。例如，有一些不法份子通过一些录音设备和编辑软件，偷录、伪造出大量的语音数据，由此引发的一系列问题严重影响了司法公正和社会秩序，对社会造成了非常恶劣的影响。因此对数字媒体文件做出来源判断显得尤为重要。

目前现有技术都是先对语音信号进行预处理，主要包括去噪、加窗、分帧、提取静音段这几个步骤，然后在语音段中提取出能够反映出设备信道指纹信息的特征，最后使用特征数据构建各种机器学习模型或者深度神经网络的模型并进行评分。

随着深度学习的发展，人们在做分类识别的时候，深度学习成为了一种有效的手段，并且在数据处理能力和计算量上等方面大大优于传统方法。但是，构建深度神经网络进行设备源识别仍然存在如下问题：

(1)传统的深度神经网络的移动设备源识别方法的特征的表征性效率差；无法通过特征信息对移动设备进行充分的表征建模。

(2)传统大多数的方法直接将原始的特征数据用于构建算法模型，由于原始的特征数据存在大量的冗余和干扰信息，因此使得在构建算法模型时加大了计算量，也使得最终的算法模型不够精确。

(3)目前大多数的方法使用单一的特征数据对设备源特征进行建模。单一特征存在很大的局限性，因此模型的构建不够准确。

发明内容

本发明主要是解决现有技术所存在的技术问题；提供了一种可执行的高效的解决方案。针对问题一，我们提出在attention机制中加入卷积池化操作来提升特征的表征性，卷积池化层经过训练可以更好的捕捉设备源特征；针对问题二，我们提出attention机制，使用神经网络为每一种特征自主学习一个权重，从而剔除原始特征数据的冗余信息和干扰数据，实现特征数据的精简；针对问题三，本发明对将MFCC、高斯超矢量和i-vector三种常见的特征作为设备源特征，并结合attention机制和深度神经网络，用于解决单一特征的局限性。从而提出一种新的设备源识别系统。

本发明的上述技术问题主要是通过下述技术方案得以解决的：

一种基于attention机制的高精度设备源识别方法，其特征在于，包括:

步骤1、采集原始语音信号后对其进行预处理后，提取预处理后的设备源MFCC特征；

步骤2、从步骤1得到的设备源MFCC特征出抽出一组用于训练通用背景模型UBM，得到训练好的通用背景模型UBM；

步骤3、首先将目标设备源和待识别设备源的录音按步骤1提取出MFCC特征，然后利用步骤2训练好的中UBM模型对每个特征进行自适应MAP操作,得到高斯超向量GSV。同样利用UBM结合每段录音得到每段录音的Baum-Welch统计量，然后通过EM算法统计得到T矩阵，最后通过T矩阵和统计量得到i-vector估计值；

步骤4、首先将前面步骤中得到的三种特征组合起来，形成一个矩阵，然后将矩阵放入attention网络中学习参数，attention机制会给每个特征分配一个权重来决定每个特征对于设备源识别的重要性，基于attention机制的组合权重后，将特征拼接起来放入DNN中进一步拟合。

步骤5、进行设备源识别与决策，使用softmax层进行设备源的分类，将分类结果与真实标签进行比对，从而得出系统的识别准确率。

在上述的一种基于attention机制的高精度设备源识别方法，步骤1是将采集的原始语音信号依次进行预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)操作，具体包括

步骤1.1、预加重：为了消除录音过程中说话人造成的部分效应，来补偿录音信号中受到发音系统所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

式中a为预加重系数，设n时刻的语音采样率为x(n)，经过预加重处理后的结果为y；

步骤1.2、分帧：将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512

步骤1.3、加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性。

其中q(n)表示分帧之后的信号，s(n)表示加窗之后的信号。

步骤1.4、快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析

式中s(n)表示加窗之后的信号，S(n)表示经过快速傅里叶变换之后的频域信号，N表示傅里叶变换的帧数

步骤1.5、将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

步骤1.6、经离散余弦变换(DCT)得到MFCC系数：

将上述的对数能量带入离散余弦变换，式中M为三角滤波器的个数；L是MFCC系数的阶数，取12-16；

步骤1.7、差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度。一般常用的是一阶差分和二阶差分；

步骤1.8、倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性。

在上述的一种基于attention机制的高精度设备源识别方法，所述步骤2具体包括：

步骤2.1、若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

式中该密度函数由K个单高斯密度函数p_k(X_t)加权得到，其中每一个高斯分量的均值μ_k和协方差∑_k的大小分别为：1×D和D×D；

其中混合权重w_k满足假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化(EM)迭代训练得出；

步骤2.2、使用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

其中w_k代表混合权重，μk表均值和∑_k为协方差矩阵。

在上述的一种基于attention机制的高精度设备源识别方法，步骤3具体包括：

步骤3.1、首先对S个设备的特征向量通过MAP自适应得到特定设备源GMM,提取GMM的均值向量，也即均值超向量(GSV)。

步骤3.2、计算每段录音对应的Baum-Welch统计量

N_j，h(s)＝∑P(j|x_t，x_t) (8)

F_j，h(s)＝∑P(j|x_t，λ)x_t (9)

其中F_j,h(s)表示一阶统计量，N_j,h(s)表示零阶统计量矩阵；

然后用EM算法迭代10次训练出T矩阵，然后通过如下公式计算出i-vector估计值：

E[W_s，h]＝(I+T^T∑^-1N_h(s)T)^-1T^T∑^-1F_h(s) (10)

N_h(s)，F_h(s)分别表示上一步中提取的一阶统计量和零阶统计矩阵，T矩阵表示全局差异矩阵，E[W_s,h]表示高斯超向量，I表示i-vector向量；此时需要的三种特征便提取完毕。

在上述的一种基于attention机制的高精度设备源识别方法，步骤4具体包括：

步骤4.1、在attention网络模型中，特征信息包含三个来源，即为步骤1-3提取的MFCC、GSV特征和i-vector特征。Attention机制如何为每一个不同的特征产生注意是这个问题是至关重要的一步，我们利用卷积，池化，采用激活函数(类似于softmax)的方式来构建权重，从而重新调整特征映射。首先，我们将三种特征组合起来，为三种特征组合而成的输入特征，假设X有n个通道，第一层卷积层有m个卷积核，则经过m个卷积滤波之后，得到Y_n

其中Y_n代表的是经过卷积之后的输出，x_i代表的是输入特征的第i个通道，f_j代表的是第j个卷积核，代表卷积操作，/>代表激活函数，卷积操作不仅提取了特征的平坦的低频信息，同时也融合了各通道之间的信息，获得了各通道特征的相关性信息。

经过一层卷积后得到X₁∈R^H×W×C，为了得到不同特征之间的权值信息，我们将Y_n全局池化得到1×1×n的权重向量，这种全局池化的向量可以看做是局部特征的集合，这些局部特征的统计量一定程度上可以代表整个特征。

如12式所示，W_m为第m个特征对应的权重值。最后再将权重值与每个特征相乘得到权重组合。

步骤4.2、当完成基于attention机制的组合权重后，为了进一步增加拟合性，将组合权重后加入了两层DNN，并且在最后一层上增加一层softmax层，然后使用带标注的数据，利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数。

假设第0层为输入层，第L层为输出层，1到L-1为隐藏层。对于隐藏层l(l＝1,2,…,L-1)，其节点输出激励值可以计算为：

其中，W^l-1和b^l-1为权重矩阵和偏置，z^l为l层输入值的加权和，σ(·)为激活函数，一般使用sigmoid或tanh函数。

在上述的一种基于attention机制的高精度设备源识别方法，步骤5具体包括:

步骤5.1、在后端测试阶段，当给出一条测试语音经过融合后的特征之后，首先将该语音和所有设备源模型进行比对，得到测试分数，即测试所得分；

对于输出层，采用Softmax函数：

式中k为输出类别的索引，即目标设备源的类别索引，p_s表示待识别设备源在第s类的输出值，即输出概率。

步骤5.2、将最大得分对应的标签与真实的标签进行对比，如果相同，就认为这段语音是来自于所声称的设备的语音，否则就拒绝；

步骤5.3、计算所有测试语音正确识别设备的概率，即系统的识别率。

因此，本发明具有如下优点：本发明与传统设备源识别相比，将深度神经网络与设备源识别系统模型相融合，将attention机制用于结合MFCC、高斯超矢量和i-vector的多层结构在提高评价设备源表征能力方面的显著效果。本发明的设备源识别方法与传统设备源识别方法相比能够有效提升系统的识别性能，优化了系统结构，提高了相应设备源识别产品的竞争力。

附图说明

图1为基于MFCC,GSV和i-vector的算法流程图。

图2为MFCC特征提取流程图。

图3为高斯超矢量提取流程图。

图4为i-vector提取流程图。

图5为attention网络的模型。

具体实施方式

下面通过实施例，并结合附图，对本发明的技术方案作进一步具体的说明。

实施例：

本发明可以分为三部分：1)设备源特征提取；2)attention机制网络设计；3)设备源识别与决策(softmax)。

1)设备源特征提取，步骤如下：

A、采集原始录音信号并依次预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)等操作；

(A-1)为了消除录音过程中，说话人造成的部分效应，来补偿录音信号中受到发音系统所压抑的高频部分

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

(A-2)分帧：将N个采样点集合成一个观测单位，称为帧。通常情况下N的值为256或512

(A-3)加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性

其中q(n)表示分帧之后的信号，s(n)表示加窗之后的信号。

(A-4)快速傅里叶变换(FFT)：将时域信号转化到频域进行后续的频率分析

式中s(n)表示加窗之后的信号，S(n)表示经过快速傅里叶变换之后的频域信号，N表示傅里叶变换的帧数。

(A-5)将能量谱通过一组Mel尺度的三角形滤波器组，定义为一个有M个三角滤波器的滤波器组，中心频率为f(m)，m＝1,2,…,M；各f(m)之间的间隔与m值成正比；

(A-6)经离散余弦变换(DCT)得到MFCC系数：

(A-7)差分：为了使特征更能体现时域连续性，可以在特征维度增加前后帧信息的维度。常用的是一阶差分和二阶差分；

(A-8)倒谱均值和方差归一化可以消除平稳信道影响，提升特征的鲁棒性。

B、本发明将从设备源数据集按步骤A提取出39维MFCC特征，训练高斯数为64的通用背景模型(Universal Background Model，UBM)，然后利用B中UBM模型对每个特征进行最大后验概率(Maximum a posteriori,MAP)操作,得到高斯超矢量，其大小为64*39；

(B-1)若某条语音数据对应的特征为X，其中X＝{x₁,x₂,…x_T}，且假设其维度为D，用于计算其似然函数的公式为：

(B-2)一般用EM算法获取参数λ，先给予λ一个初始值，然后估计出新参数λ′，使得在λ′下的似然度更高，即p(X|λ′)≥p(X|λ)，新参数再作为当前参数进行训练，不断迭代，各参数的重估计公式为：

其中w_k代表混合权重，μ_k表均值和∑_k为协方差矩阵。

C、首先将目标设备源和待识别设备源的语音按步骤A提取出MFCC特征，然后利用B中UBM模型对每个特征进行自适应(Maximum a posteriori,MAP)操作,得到高斯超矢量，其大小为64*39，同时利用UBM结合每段录音得到每段录音的Baum-Welch统计量，然后通过EM算法统计得到T矩阵，最后通过T矩阵和统计量得到i-vector估计值。

(C-1)在此阶段，首先对S个设备源的特征向量通过MAP自适应得到特定设备的GMM，提取GMM的均值向量，也即是我们所需要的均值超向量(GSV)。

(C-2)主要步骤如下：

计算每段录音对应的Baum-Welch统计量

N_j，h(s)＝∑P(j|x_t，x_t) (8)

F_j，h(s)＝∑P(j|x_t，λ)x_t (9)

其中F_j,h(s)表示一阶统计量，N_j,h(s)表示零阶统计量矩阵。

E[W_s，h]＝(I+T^T∑^-1N_h(s)T)^-1T^T∑^-1F_h(s) (10)

N_h(s)，F_h(s)分别表示上一步中提取的一阶统计量和零阶统计矩阵，T矩阵表示全局差异矩阵，E[W_s,h]表示高斯超向量，I表示i-vector向量。此时需要的三种特征便提取完毕。

2)attention机制网络设计，步骤如下：

A、深度学习attention机制是对人类视觉注意力机制的仿生，本质上是一种资源分配机制。生理原理就是人类视觉注意力能够以高分辨率接收于图片上的某个区域，并且以低分辨率感知其周边区域，并且视点能够随着时间而改变。在本发明中，attention机制应用于MFCC、GSV与i-vector，学习三者的组合权重，目的在于获取更多细节信息和抑制其他无用信息。提高特征的高效性。

(A-1)基于attention机制的网络特征融合

本发明中提出了一个attention网络。它不仅利用对齐信息，还可以学习组合权重。在此模型中，特征信息包含三个来源，即为步骤1-3提取的MFCC、GSV特征和i-vector特征。Attention机制如何为每一个不同的特征产生注意是这个问题是至关重要的一步，我们利用卷积，池化，采用激活函数(类似于softmax)的方式来构建权重，从而重新调整特征映射。首先，我们将三种特征组合起来，为三种特征组合而成的输入特征，假设X有n个通道，第一层卷积层有m个卷积核，则经过m个卷积滤波之后，得到Y_n

(A-2)基于反向传播算法的参数训练

当完成基于attention机制的组合权重后，为了进一步增加拟合性，将组合权重后加入了两层DNN，并且在最后一层上增加一层softmax层，然后使用带标注的数据，利用传统神经网络的学习算法(如BP算法)来学习DNN的模型参数。

假设第0层为输入层，第L层为输出层，1到L-1为隐藏层。对于隐藏层l(l＝1,2,…,L-1),其节点输出激励值可以计算为：

3)设备源识别与决策(softmax)：

A、在后端测试阶段，当给出一条测试语音经过融合后的特征之后，首先将该语音和所有设备源模型进行比对，得到测试分数，即测试所得分；

对于输出层，采用Softmax函数：

式中k为输出类别的索引，即目标设备源的类别索引，p_s表示待识别设备源第s类的输出值，即输出概率。

B、将最大得分对应的标签与真实的标签进行对比，如果相同，就认为这段录是来自于所声称的设备的语音，否则就拒绝；

C计算所有测试语音正确识别设备的概率，即系统的识别率。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于attention机制的高精度设备源识别方法，其特征在于，包括:

步骤2、从步骤1得到的设备源MFCC特征中抽出一组用于训练通用背景模型UBM，得到训练好的通用背景模型UBM；

步骤3、首先将目标设备源和待识别设备源的录音按步骤1提取出MFCC特征，然后利用步骤2中训练好的UBM模型对每个特征进行自适应MAP操作,得到高斯超向量GSV特征；同样利用UBM结合每段录音得到每段录音的Baum-Welch统计量，然后通过EM算法统计得到T矩阵，最后通过T矩阵和Baum-Welch统计量得到i-vector特征；

步骤4、首先将前面步骤中MFCC特征、GSV特征和i-vector特征组合起来，形成一个矩阵，然后将矩阵放入attention网络中学习参数，attention机制会给每个特征分配一个权重来决定每个特征对于设备源识别的重要性，基于attention机制的权重对特征进行组合后，将组合后的特征拼接起来放入DNN中进一步拟合；

步骤5、进行设备源识别与决策，使用softmax层进行设备源的分类，softmax层的结点数即为设备源数据的种类数，将分类结果与真实标签进行比对，从而得出系统的识别准确率；

步骤4具体包括：

步骤4.1、在attention网络模型中，特征信息包含三个来源，即为步骤1-3提取的MFCC、GSV特征和i-vector特征；Attention机制为每一个不同的特征产生注意，利用卷积，池化，采用激活函数的方式来构建权重，从而重新调整特征映射；首先，我们将三种特征组合起来，得到由三种特征组合而成的输入特征X，假设X有n个通道，第一层卷积层有m个卷积核，则经过m个卷积滤波之后，得到Y_n

其中Y_n代表的是经过卷积之后的输出，x_i代表的是输入特征的第i个通道，f_j代表的是第j个卷积核，代表卷积操作，/>代表激活函数；

经过一层卷积后得到X₁∈R^H×W×C，为了得到不同特征之间的权值信息，将Y_n全局池化得到1×1×n的权重向量；

如12式所示，W_m为第m个特征对应的权重值；最后再将权重值与每个特征相乘得到权重组合后的特征；

步骤4.2、当完成基于attention机制的权重组合后，为了进一步增加拟合性，将组合权重后的特征加入了两层DNN，并且在最后一层上增加一层softmax层，然后使用带标注的数据，利用BP算法来学习DNN的模型参数；

假设第0层为输入层，第L层为输出层，1到L-1为隐藏层；对于隐藏层l(l＝1,2,…,L-1),其节点输出激励值可以计算为：

其中，W^l-1和b^l-1为权重矩阵和偏置，z^l为l层输入值的加权和，σ(·)为激活函数，使用sigmoid或tanh函数。

2.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法，其特征在于，步骤1是将采集的原始语音信号依次进行预加重、分帧、加窗，快速傅里叶变换(FFT)、三角窗滤波、求对数、离散傅里叶变换(DCT)、差分参数、倒谱均值和方差归一化(CMVN)操作，具体包括

y＝x(n)-a*x(n-1)，0.95＜a＜0.97 (1)

步骤1.2、分帧：将N个采样点集合成一个观测单位，称为帧；N的值为256或512；

步骤1.3、加窗：将每一帧乘以汉明窗，以增加帧左端和右端的连续性；

其中q(n)表示分帧之后的信号，s(n)表示加窗之后的信号；

步骤1.6、经离散余弦变换(DCT)得到MFCC系数：

步骤1.7、差分：为了使特征更能体现时域连续性，在特征维度增加前后帧信息的维度；采用一阶差分或二阶差分；

3.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法，其特征在于，所述步骤2具体包括：

其中混合权重w_k满足假设λ表示模型参数的集合，则有λ＝{w_k,μ_i,∑_k}，k＝1,2,…,K，该模型通过期望最大化算法(EM)迭代训练得出；

其中w_k代表混合权重，μ_k表均值和∑_k为协方差矩阵。

4.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法，其特征在于，步骤3具体包括：

步骤3.1、首先对S个设备的特征向量通过MAP自适应得到特定设备源GMM,提取GMM的均值向量，也即均值超向量(GSV)；

步骤3.2、计算每段录音对应的Baum-Welch统计量

N_j，h(s)＝∑P(j|x_t，x_t) (8)

F_j，h(s)＝∑P(j|x_t，λ)x_t (9)

其中F_j,h(s)表示一阶统计量，N_j,h(s)表示零阶统计量矩阵；

E[W_s，h]＝(I-T^TΣ^-1N_h(s)T)^-1T^TΣ^-1F_h(s) (10)

5.根据权利要求1所述的一种基于attention机制的高精度设备源识别方法，其特征在于，步骤5具体包括:

对于输出层，采用Softmax函数：

式中k为输出类别的索引，即目标设备源的类别索引，p_s表示待识别设备源在第s类的输出值，即输出概率；