CN110853668A

CN110853668A - 基于多种特征融合的语音篡改检测方法

Info

Publication number: CN110853668A
Application number: CN201910845466.4A
Authority: CN
Inventors: 包永强; 梁瑞宇; 谢跃; 唐闺臣; 王青云; 朱悦; 李明
Original assignee: Nanjing Institute of Technology
Current assignee: Nanjing Institute of Technology
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2020-02-28
Anticipated expiration: 2039-09-06
Also published as: CN110853668B

Abstract

本发明公开了一种基于多种特征融合的语音篡改检测方法，检测语音文件是否为拼接而成，包括以下步骤：步骤S1、将待检测的语音数据进行分帧，划分为多组语音数据帧；步骤S2、对每组语音数据帧提取多维特征；步骤S3、构建基于Attention‑RNN的模型作为分类器；步骤S4、将步骤S2中提取到的多维特征输入训练好的分类器，从而判断当前帧语音是否被篡改。本发明的方法通过提取帧级特征能够有效挖掘语音信号中前后特征的差异，将多种特征相结合，语音特征挖掘更加丰富，利用注意力机制为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征。

Description

基于多种特征融合的语音篡改检测方法

技术领域

本发明涉及语音篡改技术领域，具体涉及一种基于多种特征融合的语音篡改检测方法。

背景技术

数字语音技术的迅速发展，使得其应用范围越来越广泛。但强大的语音编辑软件的出现，破坏了语音的真实性与安全性。在法庭举证、历史文献备份等特殊场景下，要确保数字影像材料的真实性。因此，判定语音篡改与否是司法有关部门亟待解决的问题。

二十世纪九十年代以来，数字语音篡改鉴定技术兴起，并迅速发展。Farid于1999年提出了应用双谱分析检测语音信号篡改的办法；Grigoras提出利用ENF(ElectricNetwork Frequency)信息检测语音篡改的检测方法；姚秋明等人提出了基于期望最大化算法的语音重采样篡改的检测方法；Ding等人提出以子带频谱平滑方法检测语音信号是否被插值或拼接篡改，邵松年等人提出利用数字录音设备的本底噪声特性，来检测语音信号中有无被篡改入其他录音设备录制的语音的方法；Yang等人提出基于MP3格式语音帧位移的篡改检测方法。

随着机器学习和深度学习技术的发展，研究者们提出了多种有效地机器学习和深度学习识别模型。这些在声音分类问题上取得了巨大的成功。因此，针对语音篡改采用深度学习算法进行识别是未来的研究方向之一。目前针对语音篡改识别的研究相对较少。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于多维特征融合的语音篡改检测方法，其能够有效地识别和区分语音篡改情况，且鲁棒性好。

技术方案：为实现上述目的，本发明采用如下技术方案：

一种基于多种特征融合的语音篡改检测方法，检测语音文件是否为拼接而成，其特征在于，包括以下步骤：

步骤S1、将待检测的语音数据进行分帧，划分为多组语音数据帧；

步骤S2、对每组语音数据帧提取多维特征；

步骤S3、构建基于Attention-RNN的模型作为分类器；

步骤S4、将步骤S2中提取到的多维特征输入步骤S3中训练好的分类器中，从而判断当前帧语音是否被篡改。

优选地，所述步骤S3中，Attention-RNN的模型采用两层RNN层，其中第一层是双向RNN层，然后接入一个注意力层，随后是一个全连接Dense00层和一个用于减轻过拟合的dropout，最后将输入送到一个dense层，并送入softmax分类器，每个输入先传入bi-RNN，根据各自的状态产生中间状态，通过加权得到输出。

优选地，所述步骤S2中，每帧语音提取67维语音特征，67维语音特征包括如下：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号12-47：梅尔倒谱系数，一阶梅尔倒谱系数，二阶梅尔倒谱系数；

语音特征编号48-49：过零率，均方根；

语音特征编号50-59：谱图质心，P阶频谱图带宽，频谱图对比度，滚降频率；

语音特征编号60-62：用多项式拟合频谱图得到的多项式系数；

语音特征编号63-64：混沌关联维数，混沌熵；

语音特征编号65-67为：谐波能量特征、基频扰动特征、语音幅度扰动；

优选地，所述步骤S1中，每组语音数据帧的帧长为512，帧移为256。

有益效果：与现有技术相比，本发明的有益效果如下：

(1)、提取帧级特征能够有效挖掘语音信号中前后特征的差异；

(2)、将多种特征相结合，语音特征挖掘更加丰富；

(3)、利用注意力机制为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征。

附图说明

图1为本发明的步骤S3中采用Attention-RNN的结构示意图。

具体实施方式

下面结合附图对本发明作更进一步的说明。

本发明公开了一种基于多种特征融合的语音篡改检测方法，检测语音文件是否为拼接而成，其特征在于，包括以下步骤：

步骤S2、对每组语音数据帧提取多维特征；

步骤S3、构建基于Attention-RNN的模型作为分类器；

所述步骤S3中，Attention-RNN的模型作为分类器的方法为：

模型首先采用两层RNN层，其中第一层是双向RNN层，然后接入一个注意力层，随后是一个全连接Dense00层和一个用于减轻过拟合的dropout，最后将输入送到一个 dense层，并送入softmax分类器，每个输入先传入bi-RNN，根据各自的状态产生中间状态，通过加权得到输出，权重系数决定每个输入状态对输出状态的权重贡献，对双向 RNN层的输出向量分配不同的权值，使得模型可以将注意力集中在重点的语音特征上，降低其他无关特征的作用，

假设输出向量为h，权值为α，表示每个特征的重要性，则合并后的表示为：

其中，α的计算公式为：

其中，激活函数的隐层输出为

u_it＝tanh(W_wh_it+b_w) (3)。

所述步骤S2中，每帧语音提取67维语音特征，67维语音特征包括如下：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号48-49：过零率，均方根；

语音特征编号63-64：混沌关联维数，混沌熵；

混沌关联维数D(m)计算公式为：

其中，m表示重构相空间的嵌入维数，r是m维相空间的超球体半径，C_m(r)为该空间内信号的关联积分；

混沌熵定义为：

其中，σ为最大Lyapunov指数，p(i₁，…，i_σ)表示信号处于小空间的概率，τ为时间延迟；

谐波能量特征公式如下：

其中E_p和E_ap为分别为谐波成分能量和噪音成分能量；

基频扰动特征公式如下：

其中，F0_i为第i帧语音的基频；

语音幅度扰动公式如下：

其中，A_i为第i帧语音的振幅。

所述步骤S1中，每组语音数据帧的帧长为512，帧移为256。。

模型首先采用两层RNN层，其中第一层是双向RNN层，然后接入一个注意力层，随后是一个全连接Dense层和一个用于减轻过拟合的dropout，最后将输入送到一个dense层，并送入softmax分类器。

注意力机制(Attention)的原理是模拟人类的视觉注意力机制。当我们在关注一样东西的时候，注意力随着目光的移动也在移动，这就意味着我们视觉对目标的注意力分布是不同的。Attention机制在神经网络中最早被应用于计算机视觉领域，近几年来，有研究者将Attention机制引入到自然语言处理和语音中。迄今为止，Attention机制在文本摘要、序列标注、语音识别中取得了巨大成功。Attention机制可以为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征，提高模型的鲁棒性。模型输出为分类概率。

Attention-RNN网络结构的核心是在一个双向RNN层后接一层注意力层。如图1所示，每个输入先传入bi-RNN，根据各自的状态产生中间状态，通过加权得到输出，权重系数决定每个输入状态对输出状态的权重贡献，对双向RNN层的输出向量分配不同的权值，使得模型可以将注意力集中在重点的语音特征上，降低其他无关特征的作用。

其中，α的计算公式为：

其中，激活函数的隐层输出为

u_it＝tanh(W_wh_it+b_w) (3)

基于多种特征组合与Attention-RNN的语音篡改检测方法的准确率可达到92.6％。其特点在于：1)提取帧级特征能够有效挖掘语音信号中前后特征的差异；2)将多种特征相结合，语音特征挖掘更加丰富；3)利用注意力机制为同一样本的局部赋予不同的重要性，自动学习出时序信号的特征。因此，在实际应用中，能够有效地区分不同的录音设备。

模型	支撑向量机	标准循环神经网络	Attention-RNN网络
				平均识别率	81.5％	83.4％	92.6％

以上所述仅是本发明的优选实施方式，应当指出：对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于多种特征融合的语音篡改检测方法，检测语音文件是否为拼接而成，其特征在于，包括以下步骤：

步骤S2、对每组语音数据帧提取多维特征；

步骤S3、构建基于Attention-RNN的模型作为分类器；

2.根据权利要求1所述的基于多种特征融合的语音篡改检测方法，其特征在于：所述步骤S3中，Attention-RNN的模型采用两层RNN层，其中第一层是双向RNN层，然后接入一个注意力层，随后是一个全连接Dense00层和一个用于减轻过拟合的dropout，最后将输入送到一个dense层，并送入softmax分类器，每个输入先传入bi-RNN，根据各自的状态产生中间状态，通过加权得到输出。

3.根据权利要求1所述的基于多种特征融合的语音篡改检测方法，其特征在于：所述步骤S2中，每帧语音提取67维语音特征，67维语音特征包括如下：

语音特征编号1-11：从语音信号功率频谱图计算的色度图；

语音特征编号48-49：过零率，均方根；

语音特征编号63-64：混沌关联维数，混沌熵；

语音特征编号65-67为：谐波能量特征、基频扰动特征、语音幅度扰动。

4.根据权利要求1所述的基于多种特征融合的语音篡改检测方法，其特征在于：所述步骤S1中，每组语音数据帧的帧长为512，帧移为256。