CN113178199B - 基于相位偏移检测的数字音频篡改取证方法 - Google Patents

基于相位偏移检测的数字音频篡改取证方法 Download PDF

Info

Publication number
CN113178199B
CN113178199B CN202110727936.4A CN202110727936A CN113178199B CN 113178199 B CN113178199 B CN 113178199B CN 202110727936 A CN202110727936 A CN 202110727936A CN 113178199 B CN113178199 B CN 113178199B
Authority
CN
China
Prior art keywords
signal
digital audio
phase information
identified
current frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110727936.4A
Other languages
English (en)
Other versions
CN113178199A (zh
Inventor
梁山
聂帅
陶建华
易江燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202110727936.4A priority Critical patent/CN113178199B/zh
Publication of CN113178199A publication Critical patent/CN113178199A/zh
Application granted granted Critical
Publication of CN113178199B publication Critical patent/CN113178199B/zh
Priority to US17/668,104 priority patent/US11521629B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/14Fourier, Walsh or analogous domain transformations, e.g. Laplace, Hilbert, Karhunen-Loeve, transforms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Security & Cryptography (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提供基于相位偏移检测的数字音频篡改取证方法,包括:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;应用所述当前帧信号的相位信息计算动态阈值,在应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。

Description

基于相位偏移检测的数字音频篡改取证方法
技术领域
本发明涉及音频鉴伪领域,具体涉及基于相位偏移检测的数字音频篡改取证方法。
背景技术
音频篡改的主要原理是音频文件在录制过程中会记录录音设备的固有特征(比如麦克风底噪),或者音频处理(压缩、去噪)等软件的固有信息。原始没有被篡改的文件这些信息不会随着时间改变,统计信息稳定。目前常用的方案,包括基于背景噪声的能量分布差异进行篡改取证,基于环境混响的录音环境识别进行篡改取证等。这些方法只对某种压缩格式的文件比较有效,无法推广到所有的音频格式。
由于音频篡改后还需要进行第二次压缩,而第二次压缩之后会导致采样点的偏移(帧偏移),即量化特性会发生改变。因此,相对通用的方案是采用MDCT系数作为特征来检测帧偏移,以实现篡改鉴别、定位的目的。
专利号CN107274915B提供了一种基于特征融合的数字音频篡改自动检测方法,首先对待测信号进行下采样;然后以电网频率(Electric Network Frequency,ENF)标准频率为中心进行带通滤波得到信号中的ENF成分;接着分别提取ENF成分基于DFT0的相位特征,DFT1的相位特征和基于Hilbert变换的瞬时频率特征;经过特征融合,得到特征集;最后使用优化的支持向量机分类器对特征集中的部分数据进行训练,得到训练模型;使用训练模型可以对待测语音信号进行预测。本发明使用ENF信号中具有代表性的相位和瞬时频率特征进行特征融合,并使用支持向量机进行分类,得到分类模型。该模型对于信号的插入和删除情况均可得到很好的检测效果,相较于传统的判别方法更加直观和简单。
申请公布号CN109389992A公开了一种基于振幅和相位信息的语音情感识别方法,包括以下步骤:步骤一,输入数据准备:选择情感识别数据库,并对数据进行分段处理;步骤二,提取振幅和相位信息;步骤三,构建卷积神经网络,从振幅和相位的融合信息中提取深度特征;步骤四,构建长短时记忆网络,完成情感分类;最后,输出情感分类结果。本发明的语音情感识方法和现有技术相比,考虑到了语音的相位信息,有效利用相位和振幅信息的互补性,选用CNN自动从振幅和相位信息中同时提取深度情感相关特征,大大的提高了特征的丰富性,获得更好语音情感识别效果。
目前现有技术存在以下问题:
(1) MDCT特征能直接对应信号的能量分布信息,比如在16KHz以上能量分布异常情况,无法直接反应相位信息。
(2) 常用MDCT特征对音频压缩编码方式非常敏感,缺乏统一的框架来处理所有压缩编码方式的音频信号。
发明内容
有鉴于此,本发明提供一种基于相位偏移检测的数字音频篡改取证方法,具体地,本发明是通过如下技术方案实现的:
S1:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;
再对待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;
S2:应用鉴别信号功率谱和调制信号功率谱计算群延迟特征;
S3:对群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;
S4:应用当前帧信号的相位信息计算动态阈值,再应用动态阈值和当前帧信号的相位信息来判定待鉴别信号是否被篡改。
优选地,对待鉴别信号和所述调制信号进行短时傅里叶变换的具体方法为:
Figure 555574DEST_PATH_IMAGE001
Figure 214088DEST_PATH_IMAGE002
其中,y(n)为待鉴别信号,n为时间标签,N为帧长取值512,w(n)为汉明窗,l为时间帧序号,k为频带序号。
优选地,应用鉴别信号功率谱和调制信号功率谱计算群延迟特征的具体方法为:
Figure DEST_PATH_IMAGE003
其中,Re(•)和Im(•)分别代表提取一个复数的实部和虚部。
优选地,对群延迟特征做均值计算,再应用均值计算结果做平滑计算的具体方法为:
Figure 582753DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
其中,
τ(1,k):群延迟特征;
Λ(l):群延迟特征均值;
K:频带数量;
χ(l):当前帧信号的相位信息;
χ(l-1):前一帧信号的相位信息;
α:帧间平滑因子。
优选地,频带数量K的取值为256。
优选地,帧间平滑因子α的取值范围为:0.9-0.98。
优选地,应用当前帧信号的相位信息计算动态阈值的具体方法为:
Figure 617705DEST_PATH_IMAGE006
其中,
ε(l):动态阈值;
L:动态阈值计算窗长;
χ(l-m):前m帧信号的相位信息。
优选地,动态阈值计算窗长L的取值范围为:20-30。
优选地,判定待鉴别信号是否被篡改的具体方法为:
Figure DEST_PATH_IMAGE007
其中,
H(l):每一帧判定结果;
γ:设置阈值;
Figure 637482DEST_PATH_IMAGE008
:帧信号的相位信息差异;
Figure DEST_PATH_IMAGE009
:动态阈值的模;
对于H(l)每一帧鉴定判定结果,如果当前帧信号的相位信息差异超过动态阈值的模γ倍,则代表当前帧信号有显著差异,判定为1,代表这一帧待鉴别信号为篡改数据;否则判定0,代表为正常语音信息。
优选地,设置阈值γ的取值范围为:1.5-2。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
(1) 所用特征与信号压缩编码方式无关,因此存在更高的鲁棒性,适用于各种编码方式的音频信号。
(2) 所提取的群延迟信息,可以直接表征信号的相位信息,篡改判定的准确率更高。
附图说明
图1为本发明实施例提供的基于相位偏移检测的数字音频篡改取证方法流程图;
图2为本发明实施例提供的汉明窗示例图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
如图1所示本申请实施例提供的基于相位偏移检测的数字音频篡改取证方法,包括:
S1:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;
再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱,具体方法为:
Figure 732477DEST_PATH_IMAGE001
Figure 119596DEST_PATH_IMAGE002
其中,y(n)为待鉴别信号,n为时间标签,N为帧长取值512, w(n)为汉明窗,窗长为512;l为时间帧序号,k为频带序号;如图2所示,给出了汉明窗示例图;
S2:应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征,具体方法为:
Figure 958239DEST_PATH_IMAGE003
其中,Re(•)和Im(•)分别代表提取一个复数的实部和虚部;
S3:对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息,具体方法为:
Figure 52097DEST_PATH_IMAGE004
Figure 114731DEST_PATH_IMAGE005
其中,
τ(1,k):群延迟特征;
Λ(l):群延迟特征均值;
K:频带数量,为256;
χ(l):当前帧信号的相位信息;
χ(l-1):前一帧信号的相位信息;
α:帧间平滑因子,为0.98;
S4:应用所述当前帧信号的相位信息计算动态阈值,具体方法为:
Figure 677562DEST_PATH_IMAGE006
其中,
ε(l):动态阈值;
L:窗长,取值为:20;
χ(l-m):前m帧信号的相位信息:
再应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改具体方法为:
Figure 116633DEST_PATH_IMAGE007
其中,
H(l):每一帧判定结果;
γ:设置阈值,取值为:2;
如果当前帧信号的相位信息差异超过动态阈值的模γ倍,则代表当前帧信号有显著差异,判定为1,代表这一帧待鉴别信号为篡改数据,否则为0,代表为正常语音信息。
实施例
如图1所示本申请实施例提供的基于相位偏移检测的数字音频篡改取证方法,包括:
S1:以2019年ASV spoof音频鉴伪竞赛数据集为例,对任意一个音频信号与时间标签做乘积,得到待鉴别信号的调制信号;
再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱,具体方法为:
Figure 330577DEST_PATH_IMAGE001
Figure 564112DEST_PATH_IMAGE002
其中,y(n)为待鉴别信号,n为时间标签,N为帧长取值512,w(n)为汉明窗,窗长为512;l为时间帧序号,k为频率序号;如图2所示,给出了汉明窗示例图;
S2:应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征,具体方法为:
Figure 863507DEST_PATH_IMAGE003
其中,Re(•)和Im(•)分别代表提取一个复数的实部和虚部;
S3:对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息,具体方法为:
Figure 840690DEST_PATH_IMAGE010
Figure 909140DEST_PATH_IMAGE005
其中,
τ(1,k):群延迟特征;
Λ(l):群延迟特征均值;
K:频带数量,为257;
χ(l):当前帧信号的相位信息;
χ(l-1):前一帧信号的相位信息;
α:帧间平滑因子,为0.98;
S4:应用所述当前帧信号的相位信息计算动态阈值,具体方法为:
Figure 313577DEST_PATH_IMAGE006
其中,
ε(l):动态阈值;
L:动态阈值计算的窗长,取值为:20;
χ(l-m):前m帧信号的相位信息:
以文件PJ10001.wav数据为例,在第4秒处当前帧相位信息取值为χ(l)=0.8,动态阈值为ε(l)=0.21;
再应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改具体方法为:
Figure 349535DEST_PATH_IMAGE007
其中,
H(l):每一帧判定结果;
γ:设置阈值,取值为:2;
Figure 864830DEST_PATH_IMAGE008
:帧信号的相位信息差异;
Figure 318945DEST_PATH_IMAGE009
:动态阈值的模;对于H(l)每一帧鉴定判定结果,如果当前帧信号的相位信息差异超过动态阈值的模γ倍,则代表当前帧信号有显著差异,判定为1,代表这一帧待鉴别信号为篡改数据;否则判定0,代表为正常语音信息;
应用上述方法计算当前帧信号的相位信息与历史平均值的差异为0.59,超过了动态阈值的2倍,因此判断为伪造数据,音频被成功检测出。
以等错误率(Equal error rate, EER)指标为数据集整体评估指标,相比于现有的两种方法,分别标记为LFCC-GMM和CQCC-GMM,本项发明的平均结果如下表所示:
Figure DEST_PATH_IMAGE011
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述方法包括:
S1:将待鉴别信号与时间标签做乘积,得到待鉴别信号的调制信号;
再对所述待鉴别信号和所述调制信号进行短时傅里叶变换,得到鉴别信号功率谱和调制信号功率谱;
S2:应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征;
S3:对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算,得到当前帧信号的相位信息;
S4:应用所述当前帧信号的相位信息计算动态阈值,再应用所述动态阈值和所述当前帧信号的相位信息来判定所述待鉴别信号是否被篡改。
2.根据权利要求1所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述对所述待鉴别信号和所述调制信号进行短时傅里叶变换的具体方法为:
Figure 130410DEST_PATH_IMAGE001
Figure 833924DEST_PATH_IMAGE002
其中,y(n)为待鉴别信号,n为时间标签,N为帧长,取值512,w(n)为汉明窗,l为时间帧序号,k为频带序号。
3.根据权利要求2所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述应用所述鉴别信号功率谱和调制信号功率谱计算群延迟特征的具体方法为:
Figure 457803DEST_PATH_IMAGE003
其中,Re(•)和Im(•)分别代表提取一个复数的实部和虚部。
4.根据权利要求3所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述对所述群延迟特征做均值计算,再应用均值计算结果做平滑计算的具体方法为:
Figure 195952DEST_PATH_IMAGE004
Figure 761932DEST_PATH_IMAGE005
其中,
τ(1,k):群延迟特征;
Λ(l):群延迟特征均值;
K:频带数量;
χ(l):当前帧信号的相位信息;
χ(l-1):前一帧信号的相位信息;
α:帧间平滑因子。
5.根据权利要求4所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述频带数量K的取值为256。
6.根据权利要求5所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述帧间平滑因子α的取值范围为:0.9-0.98。
7.根据权利要求1所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述应用所述当前帧信号的相位信息计算动态阈值的具体方法为:
Figure 952742DEST_PATH_IMAGE006
其中,
ε(l):动态阈值;
L:窗长;
χ(l-m):前m帧信号的相位信息。
8.根据权利要求7所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述动态阈值计算窗长L的取值范围为:20-30。
9.根据权利要求1所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述判定所述待鉴别信号是否被篡改的具体方法为:
Figure 380312DEST_PATH_IMAGE007
其中,
H(l):每一帧判定结果;
γ:设置阈值;
Figure 441809DEST_PATH_IMAGE008
:帧信号的相位信息差异;
Figure 991739DEST_PATH_IMAGE009
:动态阈值的模;
对于H(l)每一帧鉴定判定结果,如果当前帧信号的相位信息差异
Figure 607528DEST_PATH_IMAGE010
超过动态阈值的模
Figure 901106DEST_PATH_IMAGE011
γ倍,则代表当前帧信号有显著差异,判定为1,代表这一帧待鉴别信号为篡改数据;否则判定为0,代表为正常语音信息。
10.根据权利要求9所述的基于相位偏移检测的数字音频篡改取证方法,其特征在于,所述设置阈值γ的取值范围为:1.5-2。
CN202110727936.4A 2021-06-29 2021-06-29 基于相位偏移检测的数字音频篡改取证方法 Active CN113178199B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202110727936.4A CN113178199B (zh) 2021-06-29 2021-06-29 基于相位偏移检测的数字音频篡改取证方法
US17/668,104 US11521629B1 (en) 2021-06-29 2022-02-09 Method for obtaining digital audio tampering evidence based on phase deviation detection

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110727936.4A CN113178199B (zh) 2021-06-29 2021-06-29 基于相位偏移检测的数字音频篡改取证方法

Publications (2)

Publication Number Publication Date
CN113178199A CN113178199A (zh) 2021-07-27
CN113178199B true CN113178199B (zh) 2021-08-31

Family

ID=76927942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110727936.4A Active CN113178199B (zh) 2021-06-29 2021-06-29 基于相位偏移检测的数字音频篡改取证方法

Country Status (2)

Country Link
US (1) US11521629B1 (zh)
CN (1) CN113178199B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113555037B (zh) * 2021-09-18 2022-01-11 中国科学院自动化研究所 篡改音频的篡改区域检测方法、装置及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271690A (zh) * 2008-05-09 2008-09-24 中国人民解放军重庆通信学院 保护音频数据的音频扩频水印处理方法
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN108831506A (zh) * 2018-06-25 2018-11-16 华中师范大学 基于gmm-bic的数字音频篡改点检测方法及系统
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5893057A (en) * 1995-10-24 1999-04-06 Ricoh Company Ltd. Voice-based verification and identification methods and systems
WO2005027517A1 (en) * 2003-09-12 2005-03-24 Koninklijke Philips Electronics N.V. Methods and apparatus for tamper detection in watermarking systems
CN101124623B (zh) * 2005-02-18 2011-06-01 富士通株式会社 语音认证系统及语音认证方法
WO2013035537A1 (ja) * 2011-09-08 2013-03-14 国立大学法人北陸先端科学技術大学院大学 電子透かし検出装置及び電子透かし検出方法、並びに電子透かしを用いた改ざん検出装置及び改ざん検出方法
US9111580B2 (en) * 2011-09-23 2015-08-18 Harman International Industries, Incorporated Time alignment of recorded audio signals
JP2013164572A (ja) * 2012-01-10 2013-08-22 Toshiba Corp 音声特徴量抽出装置、音声特徴量抽出方法及び音声特徴量抽出プログラム
US11069370B2 (en) * 2016-01-11 2021-07-20 University Of Tennessee Research Foundation Tampering detection and location identification of digital audio recordings
US11217076B1 (en) * 2018-01-30 2022-01-04 Amazon Technologies, Inc. Camera tampering detection based on audio and video
CN109389992A (zh) 2018-10-18 2019-02-26 天津大学 一种基于振幅和相位信息的语音情感识别方法
EP4078918B1 (en) * 2019-12-20 2023-11-08 Eduworks Corporation Real-time voice phishing detection
US11032415B1 (en) * 2020-03-05 2021-06-08 Mitel Networks Corporation System and method for audio content verification

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101271690A (zh) * 2008-05-09 2008-09-24 中国人民解放军重庆通信学院 保护音频数据的音频扩频水印处理方法
CN106941008A (zh) * 2017-04-05 2017-07-11 华南理工大学 一种基于静音段的异源音频拼接篡改盲检测方法
CN107274915A (zh) * 2017-07-31 2017-10-20 华中师范大学 一种基于特征融合的数字音频篡改自动检测方法
CN108831506A (zh) * 2018-06-25 2018-11-16 华中师范大学 基于gmm-bic的数字音频篡改点检测方法及系统
CN112151067A (zh) * 2020-09-27 2020-12-29 湖北工业大学 一种基于卷积神经网络的数字音频篡改被动检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Edit Detection in Speech Recordings via Instantaneous Electric Network Frequency Variations;Esquef, PAA 等;《IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》;20141231;全文 *
On Practical Issues of Electric Network Frequency Based Audio Forensics;Guang Hua 等;《 IEEE Access ( Volume: 5)》;20170105;全文 *

Also Published As

Publication number Publication date
CN113178199A (zh) 2021-07-27
US11521629B1 (en) 2022-12-06

Similar Documents

Publication Publication Date Title
KR102002681B1 (ko) 생성적 대립 망 기반의 음성 대역폭 확장기 및 확장 방법
AU2022201831B2 (en) Call classification through analysis of DTMF events
CN106531159B (zh) 一种基于设备本底噪声频谱特征的手机来源识别方法
CN106683687B (zh) 异常声音的分类方法和装置
CN107507626B (zh) 一种基于语音频谱融合特征的手机来源识别方法
CN104485102A (zh) 声纹识别方法和装置
CN100530354C (zh) 信息检测装置、方法和程序
CN105118503A (zh) 一种音频翻录检测方法
CN110942776B (zh) 一种基于gru的音频防拼接检测方法及系统
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
CN106971724A (zh) 一种防干扰声纹识别方法和系统
CN113178199B (zh) 基于相位偏移检测的数字音频篡改取证方法
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
Chen et al. Robust speech hash function
Mascia et al. Forensic and anti-forensic analysis of indoor/outdoor classifiers based on acoustic clues
Zhao et al. Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification
Pandey et al. Cell-phone identification from audio recordings using PSD of speech-free regions
US11798564B2 (en) Spoofing detection apparatus, spoofing detection method, and computer-readable storage medium
WO2006009035A1 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
CN113284508B (zh) 基于层级区分的生成音频检测系统
CN114333840A (zh) 语音鉴别方法及相关装置、电子设备和存储介质
CN113450806A (zh) 语音检测模型的训练方法以及相关方法、装置、设备
Zeng et al. Adaptive context recognition based on audio signal
US11763805B2 (en) Speaker recognition method and apparatus
CN112995135B (zh) 一种面向海量数字语音内容的批量内容认证方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant