CN105118503A - 一种音频翻录检测方法 - Google Patents

一种音频翻录检测方法 Download PDF

Info

Publication number
CN105118503A
CN105118503A CN201510407042.1A CN201510407042A CN105118503A CN 105118503 A CN105118503 A CN 105118503A CN 201510407042 A CN201510407042 A CN 201510407042A CN 105118503 A CN105118503 A CN 105118503A
Authority
CN
China
Prior art keywords
audio
frequency
time
grid frequency
harmonic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510407042.1A
Other languages
English (en)
Inventor
康显桂
林晓丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201510407042.1A priority Critical patent/CN105118503A/zh
Publication of CN105118503A publication Critical patent/CN105118503A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种翻录音频的检测方法,属于信息安全技术领域。将机器学习与信号处理方法巧妙结合,使最终学习到的音频特征能够区分原始音频和翻录音频。具体为:原始音频在录制过程中记录了当时电网频率的变化情况,音频在回放并翻录的过程中再次记录了当时的电网频率。利用机器学习的方法辨别音频中包含一个或两个电网频率信号,从而鉴别原始音频和翻录音频。本发明只需对音频中携带的电网频率成分进行分析,不受语音内容的影响,具有检测准确率高的优点。

Description

一种音频翻录检测方法
技术领域
本发明涉及信息安全领域范畴,具体而言,是一种基于深度学习的音频翻录检测技术。
背景技术
近年来,随着数字音频处理技术和硬件设备的发展,音频可以实现高保真的翻录,由此带来了一系列关于数字音频数据的原始性和安全性等问题,例如利用翻录音频实现音频指纹的拷贝,将翻录音频发布到互联网上等涉及媒体信息的版权保护问题,然而在不借助任何辅助信息的情况下,目前并没有可靠的方法来实现音频翻录检测,深度学习方法为我们解决这些问题提供了一种可行的路线。
由于音频翻录通常不涉及音频内容的完整性,其安全性问题一直没有得到重视。人们更多地关注于音频翻录带来的好处,确切地说是数字化带来的优势,例如通过音频的高保真翻录能够克服磁带等因为保存条件和使用年限长而失效的问题。然而近年来热门的声纹识别技术以及愈发严重的版权保护问题,音频数据的安全性面临着严峻的挑战。
脆弱水印技术可在原始音频数据中嵌入有意义的认证信息(水印),借助于该信息的完整和真实性也可实现翻录检测。例如,在翻录后的录音信号中无法检测到水印。然而目前的录音设备大多不支持这种技术,因此在不借助辅助信息下的盲检测方法实用性更高。
发明内容
本发明的目的是提供一种翻录音频的检测方法,对于一段待检测音频,能够可靠鉴别其是原始音频或是翻录音频。
为了实现上述目的,本发明采用的技术方案为:
一种翻录音频的检测方法,将翻录音频检测等效为一个二分类问题,采用基于深度学习的方法进行分类器的训练和样本分类,翻录音频的检测包括以下几个步骤:
S1.音频预处理,对任意采样率的音频进行降采样,对降采样后的音频信号进行滤波,去除语音内容的干扰,得到音频携带的电网频率基波及谐波分量;该滤波过程是采用电网频率的基波和各次谐波频率为带通中心的窄带滤波;
S2.构建训练样本,将上述滤波后的信号进行短时傅里叶变换,得到电网频率信号的时频特征;利用深度学习算法对电网频率信号的时频特征进行更精细的学习,该方法是有监督学习的二分类方法,利用预先标定的正负样本,将正负样本的电网频率信号时频特征作为输入,训练一个多层神经网络模型,正样本为翻录音频,负样本为原始音频;
S3.翻录检测:对待检测音频进行分段,将每个分段的时频特征输入训练好的分类器,网络将自动标记出每个分段的类别;若多数分段被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。
电网频率信号的分析和学习:电网频率信号分析过程如下:1)降采样,由于我国使用的电网频率为50Hz,而录音信号的采样频率远高于电网频率,因此降采样可以有效降低该方法的运算复杂度;2)滤波,去除语音内容的干扰,只留下与电网频率信号有关的成分。对降采样后的信号,分别采用以电网频率的基波和各次谐波频率为带通中心的窄带滤波。经过窄带滤波后,剩下的主要成分为音频携带的电网频率基波分量及其谐波分量。
上述电网频率信号特征的学习过程:1)是将上述滤波后的信号进行短时傅里叶变换,得到电网频率信号的时频特征;2)利用深度学习算法对电网频率信号的时频特征进行更精细的学习,该方法是有监督学习的二分类方法,利用预先标定的正负样本,将正负样本的电网频率信号时频特征作为输入,训练一个多层神经网络,正样本为翻录音频,负样本为原始音频;3)翻录检测:对待检测音频进行分段,将每个分段的时频特征输入训练好的分类器,网络将自动标记出每个分段的类别;4)若多数分段被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。
对于音频信号,将其进行短时傅里叶变换得到语谱图作为神经网络的输入,可以充分利用其时频特征;并且滤波后的信号语谱图可视为电网频率信号的图像表示,后续的训练和学习分类过程都可利用卷积神经网络,这类网络常用于图像的分类。
原始音频只记录了一次电网频率信号,翻录音频记录了两次电网频率信号。两个电网频率信号距离相近甚至发生混叠,因此用传统的信号处理方法难以进行区分。深度学习网络由于使用了多核卷积操作,能够对单个电网频率和两个电网频率信号作更精细的区分。
采用电网频率的基波及其谐波成分合成多通道作为深度学习网络的输入,可以充分利用各谐波成分的能量特征以及频率分辨率提高识别性能。
判断一段长的语音数据是否为翻录音频可采取的方法:将长音频按照深度学习网络的输入要求进行分段,随机选取多段音频进行判断,若多数被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。该方法可以提高检测速度。
进一步的,所述步骤S1对音频进行预处理时,将音频均降采样为1000Hz,分别通过三个带通中心为50Hz,150Hz和250Hz的窄带滤波器,滤除语音成分,提取所需的电网频率基波成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。
进一步的,所述音频数据均采用wav格式。
与现有技术相比,本发明的有益效果为:(1)由于利用音频中包含的电网频率成分进行分析,因此不受音频内容、采样率的影响,可接受任何采样率的wav格式音频输入;(2)由于采用图像的方式来解释音频,并且借助深度学习的方法训练分类器,克服了短时音频频率分辨率低的缺点,可用于检测短音频;(3)检测可靠性高;(4)一旦分类器训练完成,不需要人工设置任何参数。
附图说明
图1是本发明所述音频翻录检测方法的流程图。
图2是本发明所述音频输入预处理(步骤S1)的流程图。
图3是本发明采用的分类器网络结构图。
具体实施方式
下面结合附图对本发明做进一步的描述,但本发明的实施方式并不限于此。
一种翻录音频的检测方法,将翻录音频检测等效为一个二分类问题,采用基于深度学习的方法进行分类器的训练和样本分类,音频数据均采用wav格式;翻录音频的检测包括以下几个步骤:
S1:音频预处理,对任意采样率的音频均降采样到1000Hz,分别通过三个带通中心为50Hz,150Hz和250Hz的窄带滤波器,滤除语音成分,提取所需的电网频率成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。
S2:构建训练样本,正样本为翻录音频,负样本为原始音频(一次录音),采用步骤S1得到的多层神经网络模型进行训练。
S3:翻录检测:将待检测音频按照训练样本的长度进行切分,根据步骤S1得到时频特征图,将三个通道的特征图作为已训练好的深度学习网络的输入,经由网络得到输出标记,若输出为1,则判定音频为翻录音频,否则为原始音频。
实施例1
一种翻录音频的检测方法,具体为:
(1)训练样本的构建:采用5000段长度为2秒的原始录音作为负样本,5000段长度同为2秒的翻录音频作为正样本训练网络。翻录音频与原始音频均采用8000Hz的采样率,量化位数16。
(2)利用CUDA加速多层神经网络的学习过程。和通用处理器相比,GPU在单位面积/单位功耗上拥有更高的计算能力和吞吐带宽。对于本发明中采用的多核卷积操作,基于CUDA的编程技术能充分利用GPU提供的并行计算能力从而有效提升网络的学习速度。
(3)分类器的构建及训练:构造如图3所示的卷积深度学习网络。第一个卷积层采用16个卷积核,每个卷积核的大小均为1×14。第一个池化层采用的池化核大小为1×4,池化方式为最大池化。即每四个相邻结点中抽取值最大的结点。第二个卷积层采用32个卷积核,每个卷积核的大小均为2×6。第二个池化层采用的池化核大小为1×3。每次池化操作后都对各个神经元结点进行一次非线性操作。全连接层使用700个神经元。
(4)将待检测音频按照2秒的长度进行分段,对分段后的短音频进行步骤S1所述的预处理,处理后得到的时频特征图输入到已训练好的深度神经网络,由网络自动给出0和1的判决结果。采用多数投票表决机制得到最终的检测结果。若1出现的频率高,则认为该音频是翻录音频,否则为原始音频。
本发明公开的一种翻录音频的检测方法,属于信息安全技术领域。将机器学习与信号处理方法巧妙结合,使最终学习到的音频特征能够区分原始音频和翻录音频。具体为:原始音频在录制过程中记录了当时电网频率的变化情况,音频在回放并翻录的过程中再次记录了当时的电网频率。利用机器学习的方法辨别音频中包含一个或两个电网频率信号,从而鉴别原始音频和翻录音频。本发明只需对音频中携带的电网频率成分进行分析,不受语音内容的影响,具有检测准确率高的优点。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (3)

1.一种翻录音频检测方法,其特征在于,包括以下步骤:
S1.音频预处理,对任意采样率的音频进行降采样,对降采样后的音频信号进行滤波,去除语音内容的干扰,得到音频携带的电网频率基波及谐波分量;该滤波过程是采用电网频率的基波和各次谐波频率为带通中心的窄带滤波;
S2.构建训练样本,将上述滤波后的信号进行短时傅里叶变换,得到电网频率信号的时频特征;利用深度学习算法对电网频率信号的时频特征进行更精细的学习,该方法是有监督学习的二分类方法,利用预先标定的正负样本,将正负样本的电网频率信号时频特征作为输入,训练一个多层神经网络模型,正样本为翻录音频,负样本为原始音频;
S3.翻录检测:对待检测音频进行分段,将每个分段的时频特征输入训练好的分类器,网络将自动标记出每个分段的类别;若多数分段被标记为正样本,则该音频被判断为翻录音频,否则为原始音频。
2.根据权利要求1所述的翻录音频检测方法,其特征在于,所述步骤S1对音频进行预处理时,将音频均降采样为1000Hz,分别通过三个带通中心为50Hz,150Hz和250Hz的窄带滤波器,滤除语音成分,提取所需的电网频率基波成分及其第三、第五次谐波分量成分并计算得到三个通道的时频特征图。
3.根据权利要求1所述的翻录音频检测方法,其特征在于,所述音频数据均采用wav格式。
CN201510407042.1A 2015-07-13 2015-07-13 一种音频翻录检测方法 Pending CN105118503A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510407042.1A CN105118503A (zh) 2015-07-13 2015-07-13 一种音频翻录检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510407042.1A CN105118503A (zh) 2015-07-13 2015-07-13 一种音频翻录检测方法

Publications (1)

Publication Number Publication Date
CN105118503A true CN105118503A (zh) 2015-12-02

Family

ID=54666466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510407042.1A Pending CN105118503A (zh) 2015-07-13 2015-07-13 一种音频翻录检测方法

Country Status (1)

Country Link
CN (1) CN105118503A (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN106910494A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种音频识别方法和装置
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN107728142A (zh) * 2017-09-18 2018-02-23 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
CN108305515A (zh) * 2018-04-08 2018-07-20 郭裕 一种保护内容不易被复制的远程教育装置和系统方法
CN108903930A (zh) * 2018-04-26 2018-11-30 李坚强 一种胎心率曲线分类系统、方法及装置
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN109758141A (zh) * 2019-03-06 2019-05-17 清华大学 一种心理压力监测方法、装置及系统
CN110060703A (zh) * 2018-01-19 2019-07-26 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN110310660A (zh) * 2019-06-06 2019-10-08 上海工程技术大学 一种基于语谱图的语音重采样检测方法
CN114420100A (zh) * 2022-03-30 2022-04-29 中国科学院自动化研究所 语音检测方法及装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592588A (zh) * 2012-01-10 2012-07-18 清华大学 数字录音完整性检测方法
CN103048539A (zh) * 2012-12-28 2013-04-17 南京工程学院 一种音频取证中电网频率的精确采集装置及方法
US20140147097A1 (en) * 2012-11-29 2014-05-29 University Of Maryland, Office Of Technology Commercialization Environmental Signatures for Forensic Analysis and Alignment of Media Recordings
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
CN103905816A (zh) * 2014-03-31 2014-07-02 华南理工大学 一种基于enf相关系数的监控视频篡改盲检测方法
CN104102834A (zh) * 2014-07-10 2014-10-15 南京工程学院 录音地点的识别方法
CN104156578A (zh) * 2014-07-31 2014-11-19 南京工程学院 录音时间识别方法
US20150052073A1 (en) * 2013-08-15 2015-02-19 Lockheed Martin Corporation Inference of timestamp, location, and signature information using statistical signal processing of powerline data

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102592588A (zh) * 2012-01-10 2012-07-18 清华大学 数字录音完整性检测方法
US20140147097A1 (en) * 2012-11-29 2014-05-29 University Of Maryland, Office Of Technology Commercialization Environmental Signatures for Forensic Analysis and Alignment of Media Recordings
CN103048539A (zh) * 2012-12-28 2013-04-17 南京工程学院 一种音频取证中电网频率的精确采集装置及方法
US20150052073A1 (en) * 2013-08-15 2015-02-19 Lockheed Martin Corporation Inference of timestamp, location, and signature information using statistical signal processing of powerline data
CN103871405A (zh) * 2014-01-14 2014-06-18 中山大学 一种amr音频的鉴定方法
CN103905816A (zh) * 2014-03-31 2014-07-02 华南理工大学 一种基于enf相关系数的监控视频篡改盲检测方法
CN104102834A (zh) * 2014-07-10 2014-10-15 南京工程学院 录音地点的识别方法
CN104156578A (zh) * 2014-07-31 2014-11-19 南京工程学院 录音时间识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
D.P.NICOLADE ET AL: ""Audio authenticity based on the discontinuity of ENF higher harmonics"", 《CONFERENCE PROCESSINGS OF EUSIPCO 》 *
HUI SU ET AL: ""ENF ANALYSIS ON RECAPTURED AUDIO RECORDINGS"", 《2013IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS,SPEECH AND SIGNAL PROCESSING》 *
刘育明 等: ""基于电网频率的数字录音真伪鉴别研究"", 《仪器仪表学报》 *
沈忱: ""视频监控中的预处理、目标检测个跟踪方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *
王志飞: ""数字音频司法鉴定技术研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105702263B (zh) * 2016-01-06 2019-08-30 清华大学 语音重放检测方法和装置
CN105702263A (zh) * 2016-01-06 2016-06-22 清华大学 语音重放检测方法和装置
CN106910494A (zh) * 2016-06-28 2017-06-30 阿里巴巴集团控股有限公司 一种音频识别方法和装置
US11133022B2 (en) 2016-06-28 2021-09-28 Advanced New Technologies Co., Ltd. Method and device for audio recognition using sample audio and a voting matrix
US10910000B2 (en) 2016-06-28 2021-02-02 Advanced New Technologies Co., Ltd. Method and device for audio recognition using a voting matrix
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN107274915B (zh) * 2017-07-31 2020-08-07 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN107728142A (zh) * 2017-09-18 2018-02-23 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
CN107728142B (zh) * 2017-09-18 2021-04-27 西安电子科技大学 基于二维卷积网络的雷达高分辨距离像目标识别方法
CN108198561A (zh) * 2017-12-13 2018-06-22 宁波大学 一种基于卷积神经网络的翻录语音检测方法
CN110060703B (zh) * 2018-01-19 2021-05-04 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN110060703A (zh) * 2018-01-19 2019-07-26 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN108305515A (zh) * 2018-04-08 2018-07-20 郭裕 一种保护内容不易被复制的远程教育装置和系统方法
CN108903930A (zh) * 2018-04-26 2018-11-30 李坚强 一种胎心率曲线分类系统、方法及装置
CN109448749A (zh) * 2018-12-19 2019-03-08 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN109448749B (zh) * 2018-12-19 2022-02-15 中国科学院自动化研究所 基于有监督学习听觉注意的语音提取方法、系统、装置
CN109758141A (zh) * 2019-03-06 2019-05-17 清华大学 一种心理压力监测方法、装置及系统
CN110310660A (zh) * 2019-06-06 2019-10-08 上海工程技术大学 一种基于语谱图的语音重采样检测方法
CN110310660B (zh) * 2019-06-06 2021-10-08 上海工程技术大学 一种基于语谱图的语音重采样检测方法
CN114420100A (zh) * 2022-03-30 2022-04-29 中国科学院自动化研究所 语音检测方法及装置、电子设备及存储介质
CN114420100B (zh) * 2022-03-30 2022-06-21 中国科学院自动化研究所 语音检测方法及装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105118503A (zh) 一种音频翻录检测方法
CN109285538B (zh) 一种基于常q变换域的加性噪声环境下手机来源识别方法
CN108182949A (zh) 一种基于深度变换特征的高速公路异常音频事件分类方法
CN113555038B (zh) 基于无监督领域对抗学习的说话人无关语音情感识别方法及系统
CN112151067B (zh) 一种基于卷积神经网络的数字音频篡改被动检测方法
Jiang et al. An Improved Speech Segmentation and Clustering Algorithm Based on SOM and K‐Means
CN111933186B (zh) 用于对有载分接开关进行故障识别的方法、装置及系统
CN109034046A (zh) 一种基于声学检测的电能表内异物自动识别方法
CN115081473A (zh) 一种多特征融合的制动噪声分类识别方法
CN106531159A (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN106683687A (zh) 异常声音的分类方法和装置
Lin et al. Subband aware CNN for cell-phone recognition
CN111613240A (zh) 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
CN116758911A (zh) 一种基于语音信号处理的校园暴力监测方法及系统
Cui et al. Research on audio recognition based on the deep neural network in music teaching
CN105304091B (zh) 一种基于dct的语音篡改恢复方法
Jahanirad et al. Blind source mobile device identification based on recorded call
CN107274912A (zh) 一种手机录音的设备来源辨识方法
CN111445924B (zh) 基于自回归模型系数检测定位语音片段内平滑处理的方法
CN113903352A (zh) 一种单通道语音增强方法及装置
CN118410415A (zh) 基于MP-Convformer并行网络的电力系统故障诊断方法
CN118588108A (zh) 基于单类支持向量机的轨道音频异常检测系统和方法
CN114722964B (zh) 基于电网频率空间和时序特征融合的数字音频篡改被动检测方法及装置
Li et al. Unsupervised Anomalous Sound Detection for Machine Condition Monitoring Using Temporal Modulation Features on Gammatone Auditory Filterbank.
CN108510994B (zh) 一种利用字节帧间幅度谱相关性的音频同源篡改检测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20151202