CN105118503A

CN105118503A - 一种音频翻录检测方法

Info

Publication number: CN105118503A
Application number: CN201510407042.1A
Authority: CN
Inventors: 康显桂; 林晓丹
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2015-07-13
Filing date: 2015-07-13
Publication date: 2015-12-02

Abstract

本发明公开了一种翻录音频的检测方法，属于信息安全技术领域。将机器学习与信号处理方法巧妙结合，使最终学习到的音频特征能够区分原始音频和翻录音频。具体为：原始音频在录制过程中记录了当时电网频率的变化情况，音频在回放并翻录的过程中再次记录了当时的电网频率。利用机器学习的方法辨别音频中包含一个或两个电网频率信号，从而鉴别原始音频和翻录音频。本发明只需对音频中携带的电网频率成分进行分析，不受语音内容的影响，具有检测准确率高的优点。

Description

一种音频翻录检测方法

技术领域

本发明涉及信息安全领域范畴，具体而言，是一种基于深度学习的音频翻录检测技术。

背景技术

近年来，随着数字音频处理技术和硬件设备的发展，音频可以实现高保真的翻录，由此带来了一系列关于数字音频数据的原始性和安全性等问题，例如利用翻录音频实现音频指纹的拷贝，将翻录音频发布到互联网上等涉及媒体信息的版权保护问题，然而在不借助任何辅助信息的情况下，目前并没有可靠的方法来实现音频翻录检测，深度学习方法为我们解决这些问题提供了一种可行的路线。

由于音频翻录通常不涉及音频内容的完整性，其安全性问题一直没有得到重视。人们更多地关注于音频翻录带来的好处，确切地说是数字化带来的优势，例如通过音频的高保真翻录能够克服磁带等因为保存条件和使用年限长而失效的问题。然而近年来热门的声纹识别技术以及愈发严重的版权保护问题，音频数据的安全性面临着严峻的挑战。

脆弱水印技术可在原始音频数据中嵌入有意义的认证信息（水印），借助于该信息的完整和真实性也可实现翻录检测。例如，在翻录后的录音信号中无法检测到水印。然而目前的录音设备大多不支持这种技术，因此在不借助辅助信息下的盲检测方法实用性更高。

发明内容

本发明的目的是提供一种翻录音频的检测方法，对于一段待检测音频，能够可靠鉴别其是原始音频或是翻录音频。

为了实现上述目的，本发明采用的技术方案为：

一种翻录音频的检测方法，将翻录音频检测等效为一个二分类问题，采用基于深度学习的方法进行分类器的训练和样本分类，翻录音频的检测包括以下几个步骤：

S1.音频预处理，对任意采样率的音频进行降采样，对降采样后的音频信号进行滤波，去除语音内容的干扰，得到音频携带的电网频率基波及谐波分量；该滤波过程是采用电网频率的基波和各次谐波频率为带通中心的窄带滤波；

S2.构建训练样本，将上述滤波后的信号进行短时傅里叶变换，得到电网频率信号的时频特征；利用深度学习算法对电网频率信号的时频特征进行更精细的学习，该方法是有监督学习的二分类方法，利用预先标定的正负样本，将正负样本的电网频率信号时频特征作为输入，训练一个多层神经网络模型，正样本为翻录音频，负样本为原始音频；

S3.翻录检测：对待检测音频进行分段，将每个分段的时频特征输入训练好的分类器，网络将自动标记出每个分段的类别；若多数分段被标记为正样本，则该音频被判断为翻录音频，否则为原始音频。

电网频率信号的分析和学习：电网频率信号分析过程如下：1)降采样，由于我国使用的电网频率为50Hz，而录音信号的采样频率远高于电网频率，因此降采样可以有效降低该方法的运算复杂度；2)滤波，去除语音内容的干扰，只留下与电网频率信号有关的成分。对降采样后的信号，分别采用以电网频率的基波和各次谐波频率为带通中心的窄带滤波。经过窄带滤波后，剩下的主要成分为音频携带的电网频率基波分量及其谐波分量。

上述电网频率信号特征的学习过程：1)是将上述滤波后的信号进行短时傅里叶变换，得到电网频率信号的时频特征；2)利用深度学习算法对电网频率信号的时频特征进行更精细的学习，该方法是有监督学习的二分类方法，利用预先标定的正负样本，将正负样本的电网频率信号时频特征作为输入，训练一个多层神经网络，正样本为翻录音频，负样本为原始音频；3）翻录检测：对待检测音频进行分段，将每个分段的时频特征输入训练好的分类器，网络将自动标记出每个分段的类别；4)若多数分段被标记为正样本，则该音频被判断为翻录音频，否则为原始音频。

对于音频信号，将其进行短时傅里叶变换得到语谱图作为神经网络的输入，可以充分利用其时频特征；并且滤波后的信号语谱图可视为电网频率信号的图像表示，后续的训练和学习分类过程都可利用卷积神经网络，这类网络常用于图像的分类。

原始音频只记录了一次电网频率信号，翻录音频记录了两次电网频率信号。两个电网频率信号距离相近甚至发生混叠，因此用传统的信号处理方法难以进行区分。深度学习网络由于使用了多核卷积操作，能够对单个电网频率和两个电网频率信号作更精细的区分。

采用电网频率的基波及其谐波成分合成多通道作为深度学习网络的输入，可以充分利用各谐波成分的能量特征以及频率分辨率提高识别性能。

判断一段长的语音数据是否为翻录音频可采取的方法：将长音频按照深度学习网络的输入要求进行分段，随机选取多段音频进行判断，若多数被标记为正样本，则该音频被判断为翻录音频，否则为原始音频。该方法可以提高检测速度。

进一步的，所述步骤S1对音频进行预处理时，将音频均降采样为1000Hz，分别通过三个带通中心为50Hz，150Hz和250Hz的窄带滤波器，滤除语音成分，提取所需的电网频率基波成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。

进一步的，所述音频数据均采用wav格式。

与现有技术相比，本发明的有益效果为：（1）由于利用音频中包含的电网频率成分进行分析，因此不受音频内容、采样率的影响，可接受任何采样率的wav格式音频输入；（2）由于采用图像的方式来解释音频，并且借助深度学习的方法训练分类器，克服了短时音频频率分辨率低的缺点，可用于检测短音频；（3）检测可靠性高；（4）一旦分类器训练完成，不需要人工设置任何参数。

附图说明

图1是本发明所述音频翻录检测方法的流程图。

图2是本发明所述音频输入预处理（步骤S1）的流程图。

图3是本发明采用的分类器网络结构图。

具体实施方式

下面结合附图对本发明做进一步的描述，但本发明的实施方式并不限于此。

一种翻录音频的检测方法，将翻录音频检测等效为一个二分类问题，采用基于深度学习的方法进行分类器的训练和样本分类，音频数据均采用wav格式；翻录音频的检测包括以下几个步骤：

S1：音频预处理，对任意采样率的音频均降采样到1000Hz，分别通过三个带通中心为50Hz，150Hz和250Hz的窄带滤波器，滤除语音成分，提取所需的电网频率成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。

S2：构建训练样本，正样本为翻录音频，负样本为原始音频（一次录音），采用步骤S1得到的多层神经网络模型进行训练。

S3：翻录检测：将待检测音频按照训练样本的长度进行切分，根据步骤S1得到时频特征图，将三个通道的特征图作为已训练好的深度学习网络的输入，经由网络得到输出标记，若输出为1，则判定音频为翻录音频，否则为原始音频。

实施例1

一种翻录音频的检测方法，具体为：

（1）训练样本的构建：采用5000段长度为2秒的原始录音作为负样本，5000段长度同为2秒的翻录音频作为正样本训练网络。翻录音频与原始音频均采用8000Hz的采样率，量化位数16。

（2）利用CUDA加速多层神经网络的学习过程。和通用处理器相比，GPU在单位面积/单位功耗上拥有更高的计算能力和吞吐带宽。对于本发明中采用的多核卷积操作，基于CUDA的编程技术能充分利用GPU提供的并行计算能力从而有效提升网络的学习速度。

（3）分类器的构建及训练：构造如图3所示的卷积深度学习网络。第一个卷积层采用16个卷积核，每个卷积核的大小均为1×14。第一个池化层采用的池化核大小为1×4，池化方式为最大池化。即每四个相邻结点中抽取值最大的结点。第二个卷积层采用32个卷积核，每个卷积核的大小均为2×6。第二个池化层采用的池化核大小为1×3。每次池化操作后都对各个神经元结点进行一次非线性操作。全连接层使用700个神经元。

（4）将待检测音频按照2秒的长度进行分段，对分段后的短音频进行步骤S1所述的预处理，处理后得到的时频特征图输入到已训练好的深度神经网络，由网络自动给出0和1的判决结果。采用多数投票表决机制得到最终的检测结果。若1出现的频率高，则认为该音频是翻录音频，否则为原始音频。

本发明公开的一种翻录音频的检测方法，属于信息安全技术领域。将机器学习与信号处理方法巧妙结合，使最终学习到的音频特征能够区分原始音频和翻录音频。具体为：原始音频在录制过程中记录了当时电网频率的变化情况，音频在回放并翻录的过程中再次记录了当时的电网频率。利用机器学习的方法辨别音频中包含一个或两个电网频率信号，从而鉴别原始音频和翻录音频。本发明只需对音频中携带的电网频率成分进行分析，不受语音内容的影响，具有检测准确率高的优点。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种翻录音频检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的翻录音频检测方法，其特征在于，所述步骤S1对音频进行预处理时，将音频均降采样为1000Hz，分别通过三个带通中心为50Hz，150Hz和250Hz的窄带滤波器，滤除语音成分，提取所需的电网频率基波成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。

3.根据权利要求1所述的翻录音频检测方法，其特征在于，所述音频数据均采用wav格式。