CN109284717A

CN109284717A - 一种面向数字音频复制粘贴篡改操作的检测方法及系统

Info

Publication number: CN109284717A
Application number: CN201811120227.4A
Authority: CN
Inventors: 王志锋; 刘清堂; 邓伟; 赵刚; 魏艳涛; 姚璜; 夏丹; 田元
Original assignee: Huazhong Normal University
Current assignee: Huazhong Normal University; Central China Normal University
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2019-01-29

Abstract

本发明属于数字音频信号处理技术领域，公开了一种面向数字音频复制粘贴篡改操作的检测方法及系统，去除待测信号的静音段后，进行音节分割；接着对每个音节片段进行前后补零操作，绘制每个音节片段的语谱图，并保存为灰度图；通过对每张生成的语谱图，进行尺度不变特征变换(SIFT)，得到语谱图特征点描述符，可以描述音节特征；对两两音节语谱图的特征点描述符进行相似度匹配，通过统计规则判决两个音节之间是否发生复制‑粘贴操作。本发明提高了数字音频复制‑粘贴检测的准确度的同时降低了计算量，并能够快速完成音节之间的特征匹配过程，准确定位发生复制‑粘贴操作的区域。

Description

一种面向数字音频复制粘贴篡改操作的检测方法及系统

技术领域

本发明属于数字音频信号处理技术领域，尤其涉及一种面向数字音频复制粘贴篡改操作的检测方法及系统。

背景技术

目前，业内常用的现有技术是这样的：

随着多媒体传输设备的普及，语音信号在不同领域得到的广泛传播和应用。使用语音信号的便捷性和娱乐性给人们的生活带来诸多乐趣，同时也存在很大的安全隐患。一些不法分子对语音信号进行篡改，破坏原始语音信号的真实性和完整性，导致说话人的原意被歪曲，细节被掩盖，甚至伪造出一段语音，来获取利益、访问控制权、并在法庭取证中误导审判结果。近年来数字音频取证受到越来越多的信息安全领域研究者的关注，并取得了一定的研究成果，当判断一条语音信号存在插入或删除篡改操作时，接下来需要完成的任务就是判断篡改点的位置。精确判断篡改点的位置，不仅是对该条语音信号存在篡改操作的佐证，而且能够明确篡改者的意图或者犯罪手法，进一步在司法审判、知识发现、新闻公正等领域，维护社会信任秩序，打击犯罪，保障公民权益。

复制粘贴(Copy-Move)本音频文件中某个音节插入到该文件的其他位置是数字音频篡改操作中非常常见的一种篡改类型。这种操作一般用于说话人语义篡改，不易被人发现，可能造成严重的后果。基于片段相似性的定位方法其实是针对复制粘贴这种篡改类型的定位方法。语音信号具有微观不确定性，一段语音信号拥有音色、音高和响度等特征，这些特征完全是由人体的发声器官当时的状态决定的。在无处不在的噪声的影响下，即便是同一个人说相同的话，在语音波性特征上也会有细微的差别。若一段语音存在完全相同两个片段，可以使用穷举法在整段语音中搜索与它相同的片段，但这显然不是合理的做法，另外若语音信号在篡改操作完成后，还有其他的后处理(post-processing)比如，整段加噪或者MP3重压缩等等，那么这种穷举法将失去作用。低计算量和对后处理的鲁棒性该分类中衡量某一算法性能的重要标准。

目前国内外对于语音信号的复制-粘贴篡改操作检测相对较少，而在数字图像领域的复制-粘贴篡改检测较为成熟，因此将数字音频复制-粘贴篡改检测向图像领域迁移是一种通用的做法。同段语音信号的复制-粘贴篡改操作，令音频信号语谱图的相关区域会呈现相似的特性。可以将语音信号的语谱图当做是一幅图片，利用数字图像领域复制-粘贴篡改检测相关理论进行分析。王飞依据数字图像的处理思路，以语音信号的语谱图为目标，对其应用尺度不变特征变换算法(SIFT，Scale Invariant Feature Transform)，检测是否存在复制粘贴篡改。该方案没有进行音节分割，没有考虑到数字音频自身的特性，时间复杂度高，且存在很多的伪匹配对。

江佩佩使用基于伽马通(Gammatone)滤波器组得到的声谱图为分析对象，从GT声谱图中提取快速鲁棒性特征(SURF)的特征点，并用KD-Tree搜索算法完成特征点匹配工作，然后采用主水平偏移量方法对伪匹配对进行剔除，最后根据GT声谱图中匹配点聚集的区域以及GT声谱图与音频波形的对应关系定位存在复制-粘贴关系的音频片段。

综上所述，现有技术存在的问题是：

通用的音节匹配过程中，音节提取的过程十分重要，但是在端点检测和音节分割中难免会出现一些误差；

传统的音频复制-粘贴检测完全生搬数字图像的复制-粘贴检测理论，而没有考虑到数字音频本身的特殊属性；

大部分数字音频复制-粘贴篡改检测的时间复杂度高，决策条件模糊，对不同数据库信号的自适应性差；

现有大多数方法自动化程度不高、效果不佳。

解决上述技术问题的难度和意义：

端点检测和音节分割同样是数字信号处理领域重要的研究课题，有效地区分有声段和音节划分对数字音频处理的相关领域十分关键，但目前尚没有得到广泛认可的有效算法；音频信号和图像信号虽然都是数字信号，部分处理方式很相似，但是数字信号有自身的独特性，在套用数字图像的相关算法时要注意建立音频信号分析模型；数字音频复制-粘贴篡改检测涉及细致且精确的篡改音节定位，大多计算量较大，很难确定通用的决策条件；算法操作的复杂和困难自然导致其自动化程度不高，难以具有普遍推广的意义。

本发明将音频信号转化成了图像信号进行处理，弱化了端点检测和音节分割所带来的误差；并且考虑到音频信号的独特属性，在转化成数字图像时，尽力保留音频信号的自身特征不被损坏；另外数字图像的赋值-粘贴操作篡改检测已相对成熟，具有较高的检测精度，自动化程度相对较高。

发明内容

针对现有技术存在的问题，本发明提供了一种面向数字音频复制粘贴篡改操作的检测方法及系统。

本发明是这样实现的，一种面向数字音频复制粘贴篡改操作的检测方法，包括：

步骤一，通过端点检测去除待测信号的静音段后，对信号有声段进行音节分割；

步骤二，接着对每个音节片段进行前后补零操作，然后绘制每个音节片段的语谱图，并保存为灰度图；

步骤三，对每张生成的语谱图，进行尺度不变特征变换(scale invariantfeature transform,SIFT)，得到语谱图特征点描述符，可以描述音节特征；

步骤四，对两两音节语谱图的特征点描述符进行相似度匹配，通过统计规则判决两个音节之间是否发生复制-粘贴操作。本发明基于将数字音频复制-粘贴篡改操作的检测迁移到数字图像处理领域，并充分考虑数字音频信号的独特属性，在将音频信号转化为图片的过程中，尽可能令图片完整表示音频信号的特征，并减少算法复杂度，优化决策条件，提高整个检测算法的准确性。

进一步，步骤一，具体包括：

步骤1)：去除待测信号的静音段：基于对复制-粘贴篡改操作的检测，通过端点检测，去除语音信号的静音段；

步骤2)：对待测信号的有声段进行音节分割：通过多重分形去趋势波动分析MF-DFA法计算信号有声段的多重分形维数；对于每一个音频片段，搜索多重分形维数的一阶差分曲线极值；声母向韵母的过渡产生极值点，结合从左向右和从右向左的极值点搜索结果，找到所有的声、韵母过渡；根据音节组合特点，分别找到所有的声母和韵母音节类型、单韵母音节类型的分割点，得到一个个的音节片段。

进一步，步骤二，具体包括：

步骤A1：对每个音节片段进行前后补零操作；

步骤A2：分别绘制每个音节的语谱图，并保存为灰度图：对每个音节片段进行分帧；每帧作512点的快速傅里叶变换，得到每帧信号的频谱分析；将每一帧信号的时间点作为横坐标，频率段作为纵坐标，绘制成语谱图；并将每个保存为一张灰度语谱图。

进一步，步骤三中，生成图像特征点集的方法包括：

尺度空间极值检测：一个图像的尺度空间表示为L(x,y,σ)，为一个变化尺度的高斯函数G(x,y,σ)与原图像I(x,y)的卷积：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

在所有连续尺度的图像位置上搜索，通过在所有可能的尺度上搜索稳定的特征来确定检测图像的尺度变化中不变的位置，使用高斯函数作为尺度空间核，通过使用高斯函数的差分识别对尺度和方向保持不变的潜在兴趣点。

关键点定位：在连续的尺度空间中寻找极值点，初步确定为特征点，接着通过尺度空间的高斯差分函数进行曲线拟合寻找真正的极值点，剔除低对比度和不稳定的边缘响应点；

方向分配：获取特征点之后，根据局部图像梯度方向分配给每个关键点位置一个或多个方向；利用关键点邻域像素的梯度方向分布特征为每个关键点指定方向参数，使算子具备旋转不变性；关键点的梯度模值和方向:

θ(x,y)＝tan^-1((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

以该特征点处邻域梯度的主方向作为关键点的主方向。

关键点描述符转换：对于每一个拥有位置、尺度、以及方向信息的特征点，转换成允许显著水平的局部形状失真和照明变化的128维的特征点描述符。

对每个音节的语谱图应用尺度不变特征变换SIFT，得到若干图像的特征点，这些特征点可以完全表示该图像的细节。每个特征点有一个128维的特征点描述符，表示特征点的位置、尺度、方向等信息，具有局部特征的尺度不变特点。

进一步，步骤四，具体包括：

经过步骤一～步骤三，每个音节语谱图得到若干个特征点描述符，每个特征点描述符是一个128维向量，将所述特征点描述符与另一语谱图的所有特征点描述符求点积，对所得的所有反余弦值进行排序，若最小的角度值与第二小的角度值存在一定阶跃，则判定这两个特征点描述符是相互匹配的；

在整段待测音频中，若两个音节间的特征点匹配个数远远超过其他音节，在待测音频中，这两个音节间存在复制-粘贴操作。

本发明的另一目的在于提供一种计算机程序，所述计算机程序实现所述的面向数字音频复制粘贴篡改操作的检测方法。

本发明的另一目的在于提供一种终端，所述终端至少搭载实现所述面向数字音频复制粘贴篡改操作的检测方法的控制器。

本发明的另一目的在于提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行所述的面向数字音频复制粘贴篡改操作的检测方法。

本发明的另一目的在于提供一种实现所述检测方法的面向数字音频复制粘贴篡改操作的检测系统，所述面向数字音频复制粘贴篡改操作的检测系统包括：

音节分割模块，去除待测信号的静音段后，进行音节分割；

音节片段语谱图绘制模块，对每个音节片段进行前后补零操作，再绘制每个音节片段的语谱图，并保存为灰度图；

谱图特征点描述符获得模块，对每张生成的语谱图，进行尺度不变特征变换，得到语谱图特征点描述符；

复制粘贴操作模块，对两两音节语谱图的特征点描述符进行相似度匹配，通过统计规则判决两个音节之间是否发生复制-粘贴操作。

本发明的另一目的在于提供一种数字音频信号处理平台，所述数字音频信号处理平台至少搭载所述的面向数字音频复制粘贴篡改操作的检测系统。

综上所述，本发明的优点及积极效果为：

本发明创造性地将数字音频的复制-粘贴篡改检测迁移到数字图像处理领域，并充分考虑到数字音频自身的特殊性，提高算法的准确度；

本发明规避了音节长度的规整问题，弱化了时域上端点检测和音节分割造成的误差，使用频域特征来量化音节之间的相似度；

本发明降低数字音频复制-粘贴检测的时间复杂度，优化决策条件，着重分析音频处理的多样性导致结果的差异性，以及产生差异性结果的成因；

本发明为数字音频复制-粘贴篡改检测的准确性和自动化提出了一种广泛性的算法。

附图说明

图1是本发明实施例提供的面向数字音频复制粘贴篡改操作的检测方法流程图。

图2是本发明实施例提供的面向数字音频复制粘贴篡改操作的检测系统示意图。

图中：1、音节分割模块；2、音节片段语谱图绘制模块；3、谱图特征点描述符获得模块；4、复制粘贴操作模块。

图3是本发明实施例提供的一次保存后的灰度图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

现有技术中，通用的音节匹配过程中，音节提取的过程十分重要，但是在端点检测和音节分割中难免会出现一些误差；

现有大多数方法自动化程度不高、效果不佳。

下面结合附图对本发明作进一步描述。

图1，本发明实施例提供的面向数字音频复制粘贴篡改操作的检测方法，包括：

步骤1：去除待测信号的静音段后，进行音节分割；

具体实施包括以下子步骤：

步骤1.1：去除待测信号的静音段；

传统的活动语音检测方法是基于短时平均能量和短时平均过零率的二级判决来实现的，但是在噪音环境下会抑制这种处理方法的性能。本实施例测量语音和噪声之间长期的频谱差异，通过比较长期的频谱包络与平均噪声谱，建立语音/非语音判决规则，从而产生一个不依赖信号质量的判别决策规则。对信号分帧进行活动语音检测，得到语音活动区域指示指标。

步骤1.2：对待测信号的有声段进行音节分割；

本实施例中由于构成语音的音素呈现出混沌状态，而在一定限制条件下，不同的音素具有不同的规律性。多分形维数作为语音信号混沌特性的定量表征，能有效地反映信号的变化特征。因此，这样的维数可以用作语音信号分割的特征参数。

所有的汉字发音都是由23个声母和24个韵母组成的，汉字的音节类型是声母和韵母或者单韵母。首先通过多重分形去趋势波动分析(MF-DFA)法计算信号有声段的多重分形维数。对于每一个音频片段，搜索其多重分形维数的一阶差分曲线极值。研究证实声母向韵母的过渡会产生一个极值点，从左向右搜索可以得到音节类型为声母和韵母的音节，同理，从右向左可以得到单韵母音节。结合二者的结果可以得到信号中的所有音节片段。

步骤2：对每个音节片段前后进行补零操作后，绘制每个音节片段的语谱图，保存为灰度图；

具体实现包括以下子步骤：

步骤A1：对每个音节片段进行前后补零操作；

本实施例通过上述音节分割操作之后，为每个音节前后分别进行补零操作，增加两帧的长度，一方面可以增加音节的长度，在音节向图片的转化过程中，提供足够的空间；另一方面，补零操作对于短时傅里叶变换可以增加频谱密度。两个方面令之后的语谱图绘制更加接近音节片段的真实水平。

步骤A2：分别绘制每个音节的语谱图，并保存为灰度图；

本实施例对每个音节片段进行分帧，取帧长512，帧移256。每帧作512点的快速傅里叶变换，得到每帧信号的频谱分析，按频率分布，将频率幅度使用颜色深浅表示。将每一帧信号的时间点作为横坐标，频率段作为纵坐标，某一时间点某频率出现的可能性用颜色深浅表示，绘制成语谱图。并将每个保存为一张灰度语谱图。

步骤3：每张音节语谱图进行尺度不变特征变换，得到若干特征点描述符；

语谱图之间的匹配是本发明的关键问题所在，图像匹配是计算机视觉中许多问题的一个基本方面，包括目标或场景识别、从多个图像中求解三维结构、立体对应和运动跟踪。尺度不变特征变换(SIFT)是一种稳定的图像特征，适合于匹配不同图像中的同一对象或场景。该特征对图像缩放和旋转能够保持不变，它们在空间域和频域中都可以很好地定位，降低了因为遮挡、杂波或噪声破坏的概率。从图像中可以通过有效的算法提取出大量的特征点。此外，该特征是高度独特的，这允许单个特征与高概率的特征数据库正确匹配，为对象和场景识别提供了基础。

生成图像特征点集的步骤包括：

尺度空间极值检测：一个图像的尺度空间表示为L(x,y,σ)，定义为一个变化尺度的高斯函数G(x,y,σ)与原图像I(x,y)的卷积：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

其中，*表示卷积运算，σ是尺度空间因子，

在所有连续尺度的图像位置上搜索，通过在所有可能的尺度上搜索稳定的特征来确定检测图像的尺度变化中不变的位置，使用高斯函数来作为尺度空间核，通过使用高斯函数的差分来有效地识别对尺度和方向保持不变的潜在兴趣点。

关键点定位：在连续的尺度空间中寻找极值点，初步确定为特征点，接着通过尺度空间的高斯差分函数进行曲线拟合寻找真正的极值点，剔除低对比度和不稳定的边缘响应点。

方向分配：获取特征点之后，根据局部图像梯度方向分配给每个关键点位置一个或多个方向。利用关键点邻域像素的梯度方向分布特征为每个关键点指定方向参数，使算子具备旋转不变性。关键点的梯度模值和方向如下所示:

θ(x,y)＝tan^-1((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

以该特征点处邻域梯度的主方向作为该关键点的主方向。

所有将来对图像数据的操作都已经转化成相对于每个特征的分配的方向、尺度和位置上执行，从而提供对这些变换的不变性。

关键点描述符：对于每一个特征点都拥有位置、尺度、以及方向信息，这些关键点被转换成一种允许显著水平的局部形状失真和照明变化的表述，即一个128维的特征点描述符。SIFT描述符是关键点尺度空间邻域统计结果的一种表示，这个向量是该区域图像特征的一种抽象，具有唯一性。

步骤4：对两两音节语谱图的特征点描述符分别进行相似度匹配，通过统计规则判决两个音节之间是否发生复制-粘贴操作。

本实施例中经过步骤1～3，每个音节语谱图得到若干个特征点描述符，每个特征点描述符是一个128维向量，将该特征点描述符与另一语谱图的所有特征点描述符求点积，对所得的所有反余弦值进行排序，若最小的角度值与第二小的角度值存在一定阶跃，本发明此处阈值设定为vals(1)<0.6*vals(2)，则判定这两个特征点描述符是相互匹配的。

在整段待测音频中，若两个音节间的特征点匹配个数远远超过其他音节，可以认为在该段待测音频中，这两个音节间存在复制-粘贴操作。

如图2，本发明实施例提供的面向数字音频复制粘贴篡改操作的检测系统包括：

音节分割模块1，去除待测信号的静音段后，进行音节分割；

音节片段语谱图绘制模块2，对每个音节片段进行前后补零操作，再绘制每个音节片段的语谱图，并保存为灰度图；

谱图特征点描述符获得模块3，对每张生成的语谱图，进行尺度不变特征变换，得到语谱图特征点描述符；

复制粘贴操作模块4，对两两音节语谱图的特征点描述符进行相似度匹配，通过统计规则判决两个音节之间是否发生复制-粘贴操作。

下面结合具体分析对本发明作进一步描述。

本发明使用一段自录的干净的音频信号，其中包括10个音节，将其中第二个音节片段进行Copy后Move到第七个位置，经过步骤1后得到11个音节片段。在步骤2中，对每个音节片段前后补上两个零帧后，使用帧长512，帧移256，进行分帧，每帧进行512点的快速傅里叶变换，综合时域变化得到音节语谱图，一次保存为灰度图，共11张图，如图3所示。图3(1)-图3(11)分别对应音节1-音节11。

依步骤3，对每张音节语谱图进行尺度不变特征变换，分别得到若干特征点描述符。依步骤4，对两两音节语谱图的特征点描述符分别进行相似度匹配，其中第三个音节与第八个音节的特征点描述符匹配个数为279个，在数量级上远远超过其他同段音频中的其他匹配结果，可以判定为第三和第八个音节存在复制-粘贴篡改操作。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用全部或部分地以计算机程序产品的形式实现，所述计算机程序产品包括一个或多个计算机指令。在计算机上加载或执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘SolidState Disk(SSD))等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种面向数字音频复制粘贴篡改操作的检测方法，其特征在于，所述面向数字音频复制粘贴篡改操作的检测方法包括：

步骤一，去除待测信号的静音段后，进行音节分割；

步骤二，对每个音节片段进行前后补零操作，再绘制每个音节片段的语谱图，并保存为灰度图；

步骤三，对每张生成的语谱图，进行尺度不变特征变换，得到语谱图特征点描述符；

步骤四，对两两音节语谱图的特征点描述符进行相似度匹配，通过统计规则判决两个音节之间是否发生复制-粘贴操作。

2.如权利要求1所述的面向数字音频复制粘贴篡改操作的检测方法，其特征在于，步骤一，具体包括：

3.如权利要求1所述的面向数字音频复制粘贴篡改操作的检测方法，其特征在于，步骤二，具体包括：

步骤A1：对每个音节片段进行前后补零操作；

4.如权利要求1所述的面向数字音频复制粘贴篡改操作的检测方法，其特征在于，步骤三中，生成图像特征点集的方法包括：

L(x,y,σ)＝G(x,y,σ)*I(x,y)

θ(x,y)＝tan^-1((L(x,y+1)-L(x,y-1))/(L(x+1,y)-L(x-1,y)))

以该特征点处邻域梯度的主方向作为关键点的主方向。

5.如权利要求1所述的面向数字音频复制粘贴篡改操作的检测方法，其特征在于，步骤四，具体包括：

6.一种计算机程序，其特征在于，所述计算机程序实现权利要求1～5任意一项所述的面向数字音频复制粘贴篡改操作的检测方法。

7.一种终端，其特征在于，所述终端至少搭载实现权利要求1～5任意一项所述面向数字音频复制粘贴篡改操作的检测方法的控制器。

8.一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-5任意一项所述的面向数字音频复制粘贴篡改操作的检测方法。

9.一种实现权利要求1所述检测方法的面向数字音频复制粘贴篡改操作的检测系统，其特征在于，所述面向数字音频复制粘贴篡改操作的检测系统包括：

音节分割模块，去除待测信号的静音段后，进行音节分割；

10.一种数字音频信号处理平台，其特征在于，所述数字音频信号处理平台至少搭载权利要求9所述的面向数字音频复制粘贴篡改操作的检测系统。