CN113178199B

CN113178199B - 基于相位偏移检测的数字音频篡改取证方法

Info

Publication number: CN113178199B
Application number: CN202110727936.4A
Authority: CN
Inventors: 梁山; 聂帅; 陶建华; 易江燕
Original assignee: Institute of Automation of Chinese Academy of Science
Current assignee: Institute of Automation of Chinese Academy of Science
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-08-31
Anticipated expiration: 2041-06-29
Also published as: CN113178199A; US11521629B1

Abstract

本发明提供基于相位偏移检测的数字音频篡改取证方法，包括：将待鉴别信号与时间标签做乘积，得到待鉴别信号的调制信号；再对所述待鉴别信号和所述调制信号进行短时傅里叶变换，得到鉴别信号功率谱和调制信号功率谱；应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征；对所述群延迟特征做均值计算，再应用均值计算结果做平滑计算，得到当前帧信号的相位信息；应用所述当前帧信号的相位信息计算动态阈值，在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。

Description

基于相位偏移检测的数字音频篡改取证方法

技术领域

本发明涉及音频鉴伪领域，具体涉及基于相位偏移检测的数字音频篡改取证方法。

背景技术

音频篡改的主要原理是音频文件在录制过程中会记录录音设备的固有特征（比如麦克风底噪），或者音频处理（压缩、去噪）等软件的固有信息。原始没有被篡改的文件这些信息不会随着时间改变，统计信息稳定。目前常用的方案，包括基于背景噪声的能量分布差异进行篡改取证，基于环境混响的录音环境识别进行篡改取证等。这些方法只对某种压缩格式的文件比较有效，无法推广到所有的音频格式。

由于音频篡改后还需要进行第二次压缩，而第二次压缩之后会导致采样点的偏移（帧偏移），即量化特性会发生改变。因此，相对通用的方案是采用MDCT系数作为特征来检测帧偏移，以实现篡改鉴别、定位的目的。

专利号CN107274915B提供了一种基于特征融合的数字音频篡改自动检测方法，首先对待测信号进行下采样；然后以电网频率(Electric Network Frequency，ENF)标准频率为中心进行带通滤波得到信号中的ENF成分；接着分别提取ENF成分基于DFT0的相位特征，DFT1的相位特征和基于Hilbert变换的瞬时频率特征；经过特征融合，得到特征集；最后使用优化的支持向量机分类器对特征集中的部分数据进行训练，得到训练模型；使用训练模型可以对待测语音信号进行预测。本发明使用ENF信号中具有代表性的相位和瞬时频率特征进行特征融合，并使用支持向量机进行分类，得到分类模型。该模型对于信号的插入和删除情况均可得到很好的检测效果，相较于传统的判别方法更加直观和简单。

申请公布号CN109389992A公开了一种基于振幅和相位信息的语音情感识别方法，包括以下步骤：步骤一，输入数据准备：选择情感识别数据库，并对数据进行分段处理；步骤二，提取振幅和相位信息；步骤三，构建卷积神经网络，从振幅和相位的融合信息中提取深度特征；步骤四，构建长短时记忆网络，完成情感分类；最后，输出情感分类结果。本发明的语音情感识方法和现有技术相比，考虑到了语音的相位信息，有效利用相位和振幅信息的互补性，选用CNN自动从振幅和相位信息中同时提取深度情感相关特征，大大的提高了特征的丰富性，获得更好语音情感识别效果。

目前现有技术存在以下问题：

(1) MDCT特征能直接对应信号的能量分布信息，比如在16KHz以上能量分布异常情况，无法直接反应相位信息。

(2) 常用MDCT特征对音频压缩编码方式非常敏感，缺乏统一的框架来处理所有压缩编码方式的音频信号。

发明内容

有鉴于此，本发明提供一种基于相位偏移检测的数字音频篡改取证方法，具体地，本发明是通过如下技术方案实现的：

S1：将待鉴别信号与时间标签做乘积，得到待鉴别信号的调制信号；

再对待鉴别信号和所述调制信号进行短时傅里叶变换，得到鉴别信号功率谱和调制信号功率谱；

S2：应用鉴别信号功率谱和调制信号功率谱计算群延迟特征；

S3：对群延迟特征做均值计算，再应用均值计算结果做平滑计算，得到当前帧信号的相位信息；

S4：应用当前帧信号的相位信息计算动态阈值，再应用动态阈值和当前帧信号的相位信息来判定待鉴别信号是否被篡改。

优选地，对待鉴别信号和所述调制信号进行短时傅里叶变换的具体方法为：

其中，y(n)为待鉴别信号，n为时间标签，N为帧长取值512，w(n)为汉明窗，l为时间帧序号，k为频带序号。

优选地，应用鉴别信号功率谱和调制信号功率谱计算群延迟特征的具体方法为：

其中，Re(•)和Im(•)分别代表提取一个复数的实部和虚部。

优选地，对群延迟特征做均值计算，再应用均值计算结果做平滑计算的具体方法为：

其中，

τ(1,k)：群延迟特征；

Λ(l)：群延迟特征均值；

K：频带数量；

χ(l)：当前帧信号的相位信息；

χ(l-1)：前一帧信号的相位信息；

α：帧间平滑因子。

优选地，频带数量K的取值为256。

优选地，帧间平滑因子α的取值范围为：0.9-0.98。

优选地，应用当前帧信号的相位信息计算动态阈值的具体方法为：

其中，

ε(l)：动态阈值；

L：动态阈值计算窗长；

χ(l-m)：前m帧信号的相位信息。

优选地，动态阈值计算窗长L的取值范围为：20-30。

优选地，判定待鉴别信号是否被篡改的具体方法为：

其中，

H(l)：每一帧判定结果；

γ：设置阈值；

：帧信号的相位信息差异；

：动态阈值的模；

对于H(l)每一帧鉴定判定结果，如果当前帧信号的相位信息差异超过动态阈值的模γ倍，则代表当前帧信号有显著差异，判定为1，代表这一帧待鉴别信号为篡改数据；否则判定0，代表为正常语音信息。

优选地，设置阈值γ的取值范围为：1.5-2。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

(1) 所用特征与信号压缩编码方式无关，因此存在更高的鲁棒性，适用于各种编码方式的音频信号。

(2) 所提取的群延迟信息，可以直接表征信号的相位信息，篡改判定的准确率更高。

附图说明

图1为本发明实施例提供的基于相位偏移检测的数字音频篡改取证方法流程图；

图2为本发明实施例提供的汉明窗示例图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

如图1所示本申请实施例提供的基于相位偏移检测的数字音频篡改取证方法，包括：

再对所述待鉴别信号和所述调制信号进行短时傅里叶变换，得到鉴别信号功率谱和调制信号功率谱，具体方法为：

其中，y(n)为待鉴别信号，n为时间标签，N为帧长取值512， w(n)为汉明窗，窗长为512；l为时间帧序号，k为频带序号；如图2所示，给出了汉明窗示例图；

S2：应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征，具体方法为：

其中，Re(•)和Im(•)分别代表提取一个复数的实部和虚部；

S3：对所述群延迟特征做均值计算，再应用均值计算结果做平滑计算，得到当前帧信号的相位信息，具体方法为：

其中，

τ(1,k)：群延迟特征；

Λ(l)：群延迟特征均值；

K：频带数量，为256；

χ(l)：当前帧信号的相位信息；

χ(l-1)：前一帧信号的相位信息；

α：帧间平滑因子，为0.98；

S4：应用所述当前帧信号的相位信息计算动态阈值，具体方法为：

其中，

ε(l)：动态阈值；

L：窗长，取值为：20；

χ(l-m)：前m帧信号的相位信息：

再应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改具体方法为：

其中，

H(l)：每一帧判定结果；

γ：设置阈值，取值为：2；

如果当前帧信号的相位信息差异超过动态阈值的模γ倍，则代表当前帧信号有显著差异，判定为1，代表这一帧待鉴别信号为篡改数据，否则为0，代表为正常语音信息。

实施例

S1：以2019年ASV spoof音频鉴伪竞赛数据集为例，对任意一个音频信号与时间标签做乘积，得到待鉴别信号的调制信号；

其中，y(n)为待鉴别信号，n为时间标签，N为帧长取值512，w(n)为汉明窗，窗长为512；l为时间帧序号，k为频率序号；如图2所示，给出了汉明窗示例图；

其中，Re(•)和Im(•)分别代表提取一个复数的实部和虚部；

其中，

τ(1,k)：群延迟特征；

Λ(l)：群延迟特征均值；

K：频带数量，为257；

χ(l)：当前帧信号的相位信息；

χ(l-1)：前一帧信号的相位信息；

α：帧间平滑因子，为0.98；

其中，

ε(l)：动态阈值；

L：动态阈值计算的窗长，取值为：20；

χ(l-m)：前m帧信号的相位信息：

以文件PJ10001.wav数据为例，在第4秒处当前帧相位信息取值为χ(l)=0.8，动态阈值为ε(l)=0.21；

其中，

H(l)：每一帧判定结果；

γ：设置阈值，取值为：2；

：帧信号的相位信息差异；

：动态阈值的模；对于H(l)每一帧鉴定判定结果，如果当前帧信号的相位信息差异超过动态阈值的模γ倍，则代表当前帧信号有显著差异，判定为1，代表这一帧待鉴别信号为篡改数据；否则判定0，代表为正常语音信息；

应用上述方法计算当前帧信号的相位信息与历史平均值的差异为0.59，超过了动态阈值的2倍，因此判断为伪造数据，音频被成功检测出。

以等错误率(Equal error rate, EER)指标为数据集整体评估指标，相比于现有的两种方法，分别标记为LFCC-GMM和CQCC-GMM，本项发明的平均结果如下表所示：

在本发明使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

本说明书中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA（现场可编程门阵列）或ASIC（专用集成电路）来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理（PDA）、移动音频或视频播放器、游戏操纵台、全球定位系统（GPS）接收机、或例如通用串行总线（USB）闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备（例如EPROM、EEPROM和闪存设备）、磁盘（例如内部硬盘或可移动盘）、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本说明书包含许多具体实施细节，但是这些不应被解释为限制任何发明的范围或所要求保护的范围，而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。