CN108665905B - 一种基于频带带宽不一致性的数字语音重采样检测方法 - Google Patents
一种基于频带带宽不一致性的数字语音重采样检测方法 Download PDFInfo
- Publication number
- CN108665905B CN108665905B CN201810478441.0A CN201810478441A CN108665905B CN 108665905 B CN108665905 B CN 108665905B CN 201810478441 A CN201810478441 A CN 201810478441A CN 108665905 B CN108665905 B CN 108665905B
- Authority
- CN
- China
- Prior art keywords
- digital voice
- energy
- resampling
- elect
- voice
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012952 Resampling Methods 0.000 title claims abstract description 83
- 238000001514 detection method Methods 0.000 title claims abstract description 71
- 238000000034 method Methods 0.000 claims abstract description 61
- 238000005070 sampling Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 9
- 230000035945 sensitivity Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 3
- 230000000737 periodic effect Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000001228 spectrum Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- FPIPGXGPPPQFEQ-OVSJKPMPSA-N all-trans-retinol Chemical compound OC\C=C(/C)\C=C\C=C(/C)\C=C\C1=C(C)CCCC1(C)C FPIPGXGPPPQFEQ-OVSJKPMPSA-N 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 241000974485 Aricia shasta Species 0.000 description 1
- 239000011717 all-trans-retinol Substances 0.000 description 1
- 235000019169 all-trans-retinol Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012418 validation experiment Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/21—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于频带带宽不一致性的数字语音重采样检测方法,其通过解析待重采样检测的数字语音的头文件信息,得到采样率;然后根据采样率设计一个相应的带通滤波器;接着利用带通滤波器对待重采样检测的数字语音进行滤波操作;之后计算待重采样检测的数字语音和滤波操作后得到的信号各自的平均短时能量;再计算两个平均短时能量的能量对数比率;最后根据能量对数比率和一个最佳判定阈值,判定待重采样检测的数字语音是否为经重采样操作得到的数字语音;优点是其检测准确率高、稳定性好。
Description
技术领域
本发明涉及一种语音重采样检测技术,尤其是涉及一种基于频带带宽不一致性的数字语音重采样检测方法。
背景技术
网络技术的日益发展,使得多媒体已成为人们获取信息的主要途径。然而,伴随着低成本、简单易用的音频编辑软件的大量出现,使得人们对数字语音篡改的操作越来越多样化,因此,迫切需要在使用数字语音的同时也必须注意其原始性与真实性。所以,作为一种检测多媒体数据原始性、真实性、完整性的技术,多媒体取证技术已成为信息安全领域的重点研究对象。
多媒体取证技术主要有两类:主动取证技术和盲取证技术。主动取证技术是指提供者在多媒体篡改之前就预先嵌入了相关的信息如数字水印、数字指纹等先验信息,接收者得到嵌有先验信息的多媒体后提取先验信息,根据提取的先验信息与嵌入的先验信息是否一致来检测多媒体是否经过篡改,因此,主动取证技术要求在提供者和接收者共享算法和秘钥的前提条件下进行。盲取证技术是指接收者无需嵌入的先验信息,直接检测篡改遗留下的痕迹,是一种以不影响多媒体品质为前提的篡改检测技术,因此研究盲取证技术更具有实际意义。
数字语音在拼接、变速变调、重压缩、伪装高质量数字语音等常见伪造过程中,经常伴随着重采样操作。如:将两段不同采样率的数字语音进行拼接的伪造过程中,需要改变数字语音的采样率,使各部分特征趋于一致,从而降低伪造的可检测性。现有的数字语音重采样检测方法较少,大多是借鉴数字图像领域的重采样检测方法。如:Alin C.Popescu,Hany Farid.Exposing digital forgeries by detecting traces of resampling.IEEETransactions on Signal Processing,2005,53(2):758-767.(通过检测重采样痕迹来鉴别数字信号伪造,信号处理学报)提出了一种数字图像重采样检测方法,其根据Farid等观点:数字图像经过重采样操作之后会有相关的周期性,在频谱上反应的是峰值的周期性,根据这一明显的特征,通过期望最大化(EM)算法能够近似拟合这种相关性,并且进一步扩展到彩色图像的多通道插值检测等问题中(Alin C.Popescu,Hany Farid.Exposing digitalforgeries in color filter array interpolated images.IEEE Transactions onSignal Processing,2005,53(10):3948-3959(CFA插值图像伪造检测,信号处理学报))。姚秋明等人将Farid的方法运用在数字音频中,并结合了数字音频自身的特点进行了相应的改进,通过引入幅度直方图可更加准确的逼近数字音频信号的分布,提出了一种基于期望最大化算法的数字音频重采样检测方法,取得了较好的检测效果,但是该方法的计算复杂度大,且仅适用于线性插值采样。Gallagher A C.Detecting of linear and cubicinterpolation in JPEG compressed images.The 2nd Canadian Conference onComputer and Robot Vision.2005:65-72.(检测JPEG压缩图像中的线性和三次插值,第二届加拿大计算机和机器人视觉会议)中认为重采样后的JPEG压缩图像在作二阶差分后,其方差会出现周期性的变化,根据这种周期性变化可以检测出JPEG压缩图像是否经过重采样操作。Mahdian等人(Mahdian B,Saic S.Blind authentication using periodicproperties of interpolation.IEEE Transactions on Information Forensics andsecurity,2008,3(3):529-538(利用插值周期性实现盲取证,信息取证和安全))扩展了Gallagher等人提出的方法,并将其延续到k阶差分。侯丽敏等人将Gallagher等人提出的方法运用到数字音频领域,提出采用二阶差分的方法来检测重采样数字音频,从理论上证明了重采样的数字音频经过二阶差分处理之后,其频谱会出现明显的离散尖峰,实验结果表明,当重采样因子较大时,该方法具有较高的准确率,但是该方法的计算复杂度较大,且对数字语音重采样检测效果不是很理想。丁琦等人认为重采样会抑制高于截止频率段的信息,导致在该频率段的频谱值比较平滑,而正常的信号不会表现出这种特征,由此提出对重采样的数字音频作子带分析,提取子带频谱特征,达到了较好的检测效果,但是该方法对于某些单音数字音频以及经过线性插值或者最近邻插值得到的数字音频的检测效果较差。
直到目前,现有的数字语音重采样检测方法较少,且大多数是借鉴数字图像重采样检测中的方法,关键是数字语音重采样检测和数字图像重采样检测有所不同。因此,不能简单地将数字图像领域中的重采样检测方法运用到数字语音领域中,应当将数字语音本身的特性考虑进去,找到一种适应数字语音特点的重采样检测方法。
发明内容
本发明所要解决的技术问题是提供一种基于频带带宽不一致性的数字语音重采样检测方法,其检测准确率高、稳定性好。
本发明解决上述技术问题所采用的技术方案为:一种基于频带带宽不一致性的数字语音重采样检测方法,其特征在于包括以下步骤:
步骤一:将待重采样检测的数字语音记为X;
步骤二:解析X的头文件信息,得到X的采样率,记为SR;然后根据SR设计一个相应的带通滤波器;其中,带通滤波器的中心频率为C、带宽为B;
步骤三:利用带通滤波器对X进行滤波操作,将带通滤波器对X进行滤波操作后输出的信号记为Y;
步骤四:计算X和Y各自的平均短时能量,对应记为E1和E2;
步骤六:根据r和最佳判定阈值Th,判定X是否为经重采样操作得到的数字语音,若r<Th,则判定X为原始的数字语音;若r≥Th,则判定X为经重采样操作得到的数字语音。
所述的步骤四中, 其中,N1表示X中包含的帧的总帧数,1≤n1≤N1,E1(n1)表示X中的第n1帧的短时能量,M1表示X中的每帧包含的采样点信号的总数目,1≤m1≤M1,表示X中的第n1帧中的第m1个采样点信号,N2表示Y中包含的帧的总帧数,1≤n2≤N2,E2(n2)表示Y中的第n2帧的短时能量,M2表示Y中的每帧包含的采样点信号的总数目,1≤m2≤M2,表示Y中的第n2帧中的第m2个采样点信号,符号“||”为取绝对值符号。
所述的步骤六中的最佳判定阈值Th的获取过程为:
1)选取Nelect个时长大于或等于2秒的原始数字语音,并获取每个原始数字语音的重采样语音;然后将每个原始数字语音作为负样本,将每个原始数字语音的重采样语音作为正样本;其中,Nelect≥100;
2)按照步骤一至步骤五的过程,以相同的方式获取每个正样本对应的能量对数比率和每个负样本对应的能量对数比率;然后将所有正样本对应的能量对数比率和所有负样本对应的能量对数比率按从大到小的顺序排列,构成能量对数比率集,将能量对数比率集中的第nelect个能量对数比率记为relect;其中,nelect为正整数,1≤nelect≤2Nelect;
3)将能量对数比率集中的每个能量对数比率作为候选阈值;然后计算在每个候选阈值下的真正类率和假正类率,将在relect作为候选阈值下的真正类率和假正类率对应记为TPRelect和FPRelect;
4)根据在所有候选阈值下的真正类率和假正类率,绘制得到ROC曲线;然后以ROC曲线的敏感度和特异度同时达到最大时所对应的候选阈值作为最佳判定阈值Th。
与现有技术相比,本发明的优点在于:
1)本发明方法是在充分分析数字语音信号经过重采样操作之后,发现数字语音信号的频谱图中的频带带宽会出现与采样率的不一致性,并结合数字语音信号自身的特性而提出的。
2)大量实验结果表明本发明方法的平均检测准确率达到95%以上,特别是当重采样因子增加时,检测准确率达到了100%。
3)本发明方法充分考虑了数字语音信号的频谱特性的前提下,结合了数字语音信号本身的特点,因此本发明方法不仅填补了相关研究在数字语音信号领域的空白,而且本发明方法的稳定性好。
4)本发明方法通过计算滤波前后数字语音的能量对数比率,得到了一个区分度较好的特征,根据这个特征能够简单、快速、有效地检测重采样语音,与传统的EM算法、二阶差分算法相比,计算复杂度降低的同时避免了EM算法陷入局部最优的缺陷和二阶差分的计算量大的不足。
附图说明
图1为本发明方法的总体实现框图;
图2为运用本发明方法对采用Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图;
图3为运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图;
图4为运用本发明方法对采用Audition语音处理软件对UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。
具体实施方式
以下结合附图实施例对本发明作进一步详细描述。
本发明提出的一种基于频带带宽不一致性的数字语音重采样检测方法,其总体实现框图如图1所示,其包括以下步骤:
步骤一:将待重采样检测的数字语音记为X。
步骤二:解析X的头文件信息,得到X的采样率,记为SR;然后根据SR设计一个相应的带通滤波器;其中,带通滤波器的中心频率为C、带宽为B。
在现实生活中,常见的数字语音的采样率大多为:8KHZ、11.25KHZ、16KHZ、22.05KHZ、32KHZ、44.1KHZ、48KHZ。
在本实施例中,步骤二中,其中,δ为误差项,带通滤波器的起始频率为StartFreq,带通滤波器的截止频率为EndFreq,根据常见的数字语音的采样率设计的相应的带通滤波器如下:若采样率SR为8KHZ,且δ取值为1300,则带通滤波器的中心频率C=3300HZ、带宽B=500、起始频率StartFreq=2800HZ、截止频率EndFreq=3800HZ;若采样率为16KHZ,且δ取值为3300,则带通滤波器的中心频率C=7300HZ、带宽B=500、起始频率StartFreq=6800HZ、截止频率EndFreq=7800HZ;若采样率为32KHZ,且δ取值为7300,则带通滤波器的中心频率C=15300HZ、带宽B=500、起始频率StartFreq=14800HZ、截止频率EndFreq=15800HZ;若采样率为48KHZ,且δ取值为11300,则带通滤波器的中心频率C=23300HZ、带宽B=500、起始频率StartFreq=22800HZ、截止频率EndFreq=23800HZ。
步骤三:利用带通滤波器对X进行滤波操作,将带通滤波器对X进行滤波操作后输出的信号记为Y。
步骤四:计算X和Y各自的平均短时能量,对应记为E1和E2。
在本实施例中,步骤四中, 其中,N1表示X中包含的帧的总帧数,1≤n1≤N1,E1(n1)表示X中的第n1帧的短时能量,M1表示X中的每帧包含的采样点信号的总数目,1≤m1≤M1,表示X中的第n1帧中的第m1个采样点信号,N2表示Y中包含的帧的总帧数,1≤n2≤N2,E2(n2)表示Y中的第n2帧的短时能量,M2表示Y中的每帧包含的采样点信号的总数目,1≤m2≤M2,表示Y中的第n2帧中的第m2个采样点信号,符号“||”为取绝对值符号。
步骤六:如果X是原始的数字语音,那么由于X的频谱图中的频带带宽未被限制,因此r应该比较小;反之,如果X是经重采样操作得到的数字语音,那么r应该比较大,所以本发明根据r和最佳判定阈值Th,判定X是否为经重采样操作得到的数字语音,若r<Th,则判定X为原始的数字语音;若r≥Th,则判定X为经重采样操作得到的数字语音。
在本实施例中,步骤六中的最佳判定阈值Th的获取过程为:
1)选取Nelect个时长大于或等于2秒的原始数字语音,并获取每个原始数字语音的重采样语音;然后将每个原始数字语音作为负样本,将每个原始数字语音的重采样语音作为正样本;其中,Nelect≥100,在本实施例中直接选用TIMIT语音数据库。
2)按照步骤一至步骤五的过程,以相同的方式获取每个正样本对应的能量对数比率和每个负样本对应的能量对数比率;然后将所有正样本对应的能量对数比率和所有负样本对应的能量对数比率按从大到小的顺序排列,构成能量对数比率集,将能量对数比率集中的第nelect个能量对数比率记为relect;其中,nelect为正整数,1≤nelect≤2Nelect。
3)将能量对数比率集中的每个能量对数比率作为候选阈值;然后计算在每个候选阈值下的真正类率和假正类率,将在relect作为候选阈值下的真正类率和假正类率对应记为TPRelect和FPRelect。
4)根据在所有候选阈值下的真正类率和假正类率,绘制得到ROC曲线;然后以ROC曲线的敏感度和特异度同时达到最大时所对应的候选阈值作为最佳判定阈值Th,具体获取过程如下所述:不同候选阈值下,ROC曲线的敏感度和特异度是不同的,将候选阈值设为X轴,将敏感度和特异度分别设为Y轴,即将敏感度和候选阈值的曲线、特异度和候选阈值的曲线画在同一坐标系中,两条曲线的交点即为最佳判定阈值。
为了验证本发明方法的可行性和有效性,对本发明方法进行验证实验。
重采样检测方法的检测性能通过相关操作特征曲线(receiver operatingcharacteristic curve,ROC)来度量。ROC曲线能够反映出重采样检测方法随判定阈值的改变而动态变化的真正类、假正类,并且能够判定出真正类率和假负类率同时最大的临界点,即最佳的判定阈值Th。设定将原始的数字语音标记为负类,将经重采样操作得到的数字语音标记为正类。若输入为经重采样操作得到的数字语音,检测后判定为经重采样操作得到的数字语音时,称为真正类;判断为真正类的样本数与标记为正类的样本数的比值称为真正类率,记为TPR,其中,TP表示真正类的样本数,FN表示假反类的样本数。若输入为原始的数字语音,检测后判定为经重采样操作得到的数字语音时,称为假正类,判断为假正类的样本数与标记为负类的样本数的比值称为假正类率,记为FPR,其中,FP表示假正类的样本数,TN表示真反类的样本数。将重采样检测方法的检测准确率记为AUC,其中,P表示标记为正类的样本数,N表示标记为负类的样本数。
在验证试验中,采用TIMIT语音数据库和UME-ERJ(UME)语音数据库中的数字语音。TIMIT语音数据库包含630个说话人所说的6300个语音片段,平均持续时间为3秒;UME-ERJ(UME)语音数据库包含202个说话人所说的4040个语音片段,平均持续时间为5秒。两个语音数据库中的数字语音的文件格式是WAV,16KHZ采样率,16位量化和单声道。
以上述两个语音数据库中的数字语音为原始的数字语音为例,分别从不同语音处理软件、不同语音内容两个方面对本发明方法进行测试。
1)测试不同语音处理软件对本发明方法的影响。
由于语音处理软件的不同本质上是其插值滤波器的不同,而不同类型的重采样之间的差异体现在其所采用的插值滤波器中,因此,验证不同语音处理软件对重采样检测方法性能很有必要。
在此,选择TIMIT语音数据库,语音处理软件分别为Audition和Matlab,对TIMIT语音数据库中的数字语音进行重采样操作,重采样因子按照0.1的变化率从0.8递增到2.0(当重采样因子较大或较小时,重采样语音效果明显,即语音失真过大,容易被人听到,因此,在此考虑重采样因子按照0.1的变化率从0.8递增到2.0),然后运用本发明方法进行重采样检测,实验结果如表1所示。
表1运用本发明方法对采用Audition和Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的结果
从表1中可以看出,不同的语音处理软件对本发明方法并无太大的影响,语音处理软件的不同本质上是插值方法的不同,即表明本发明方法对不同的插值方法具有很好的检测效果。当重采样因子增大时,发现对数能量比的分布随着重采样因子的增加而增大,这是因为随着采样率的增加,语音的频谱图中的频带带宽并没有随着增加,这就造成了两者之间的比值逐渐增大;当重采样因子大于或等于1.2时,检测准确率已经达到93.41%,检测性能很好;当重采样因子继续增加时,即当重采样因子大于1.3时,实验结果表明检测准确率为100%,可以完全区分数字语音是否经过上采样操作;但当重采样因子小于1时,由于扩展频带的带宽几乎没受到限制,导致原始的数字语音和重采样数字语音会出现较大的重叠,因此对下采样采用本发明方法的检测率较低。
图2给出了运用本发明方法对采用Matlab语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图;图3给出了运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。从图2中可以看出,随着采样率的增加,检测准确率也随着增加,从实验的结果验证了本发明方法的可靠性。从图3中可以看出,图3和图2的曲线走势大致相同,其检测准确性也大致相等,验证了本发明方法的检测性能与语音处理软件无关。
2)测试不同语音内容对本发明方法的影响
由于本发明方法采用了能量对数比这一统计特征,而且不同语音内容本身所带有的能量不同,因此验证不同语音内容对本发明方法的检测性能十分必要。
在此,选择TIMIT和UME语音数据库,语音处理软件为Audition,对TIMIT语音数据库中的数字语音进行重采样操作,重采样因子按照0.1的变化率从0.8递增到2.0(当重采样因子较大或较小时,重采样语音效果明显,即语音失真过大,容易被人听到,因此,在此考虑重采样因子按照0.1的变化率从0.8递增到2.0),然后运用本发明方法进行重采样检测,实验结果如表2所示。
表2运用本发明方法对采用Audition语音处理软件对TIMIT和UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的结果
从表2中可以看出,不同的语音内容对本发明方法并无太大影响。由于数字语音的内容的不同,所产生的能量会有较大的差异。验证不同语音内容对本发明方法十分有必要。从表2中可以看出随着重采样因子的增加,其检测准确率也随着增加。
图3为运用本发明方法对采用Audition语音处理软件对TIMIT语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图;图4给出了运用本发明方法对采用Audition语音处理软件对UME语音数据库中的数字语音进行重采样操作后得到的数字语音进行重采样检测的检测率的ROC曲线图。从图3中可以看出,随着采样率的增加,检测准确率也随着增加,从实验的结果验证了本发明方法的可靠性。从图4中可以看出,图4和图3的曲线走势大致相同,其检测准确性也大致相等,验证了本发明方法的检测性能与语音内容并无太大的关系。
Claims (4)
1.一种基于频带带宽不一致性的数字语音重采样检测方法,其特征在于包括以下步骤:
步骤一:将待重采样检测的数字语音记为X;
步骤二:解析X的头文件信息,得到X的采样率,记为SR;然后根据SR设计一个相应的带通滤波器;其中,带通滤波器的中心频率为C、带宽为B;
步骤三:利用带通滤波器对X进行滤波操作,将带通滤波器对X进行滤波操作后输出的信号记为Y;
步骤四:计算X和Y各自的平均短时能量,对应记为E1和E2;
步骤六:根据r和最佳判定阈值Th,判定X是否为经重采样操作得到的数字语音,若r<Th,则判定X为原始的数字语音;若r≥Th,则判定X为经重采样操作得到的数字语音。
4.根据权利要求1至3中任一项所述的一种基于频带带宽不一致性的数字语音重采样检测方法,其特征在于所述的步骤六中的最佳判定阈值Th的获取过程为:
1)选取Nelect个时长大于或等于2秒的原始数字语音,并获取每个原始数字语音的重采样语音;然后将每个原始数字语音作为负样本,将每个原始数字语音的重采样语音作为正样本;其中,Nelect≥100;
2)按照步骤一至步骤五的过程,以相同的方式获取每个正样本对应的能量对数比率和每个负样本对应的能量对数比率;然后将所有正样本对应的能量对数比率和所有负样本对应的能量对数比率按从大到小的顺序排列,构成能量对数比率集,将能量对数比率集中的第nelect个能量对数比率记为relect;其中,nelect为正整数,1≤nelect≤2Nelect;
3)将能量对数比率集中的每个能量对数比率作为候选阈值;然后计算在每个候选阈值下的真正类率和假正类率,将在relect作为候选阈值下的真正类率和假正类率对应记为TPRelect和FPRelect;
4)根据在所有候选阈值下的真正类率和假正类率,绘制得到ROC曲线;然后以ROC曲线的敏感度和特异度同时达到最大时所对应的候选阈值作为最佳判定阈值Th。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810478441.0A CN108665905B (zh) | 2018-05-18 | 2018-05-18 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810478441.0A CN108665905B (zh) | 2018-05-18 | 2018-05-18 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108665905A CN108665905A (zh) | 2018-10-16 |
CN108665905B true CN108665905B (zh) | 2021-06-15 |
Family
ID=63776347
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810478441.0A Active CN108665905B (zh) | 2018-05-18 | 2018-05-18 | 一种基于频带带宽不一致性的数字语音重采样检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108665905B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109459612A (zh) * | 2019-01-09 | 2019-03-12 | 上海艾为电子技术股份有限公司 | 数字音频信号的采样频率的检测方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US20060239502A1 (en) * | 2005-04-26 | 2006-10-26 | Verance Corporation | Methods and apparatus for enhancing the robustness of watermark extraction from digital host content |
EP1760693A1 (en) * | 2005-09-01 | 2007-03-07 | Seet Internet Ventures Inc. | Extraction and matching of characteristic fingerprints from audio signals |
CN102592588A (zh) * | 2012-01-10 | 2012-07-18 | 清华大学 | 数字录音完整性检测方法 |
CN103345927A (zh) * | 2013-07-11 | 2013-10-09 | 暨南大学 | 一种检测与定位音频时域篡改的处理方法 |
CN104681038A (zh) * | 2013-11-29 | 2015-06-03 | 清华大学 | 音频信号质量检测方法及装置 |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
EP2739067A3 (en) * | 2012-12-03 | 2016-07-13 | Fujitsu Limited | Audio processing device and method |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103730128A (zh) * | 2012-10-13 | 2014-04-16 | 复旦大学 | 一种基于频谱sift特征描述子的音频片段认证方法 |
-
2018
- 2018-05-18 CN CN201810478441.0A patent/CN108665905B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4860360A (en) * | 1987-04-06 | 1989-08-22 | Gte Laboratories Incorporated | Method of evaluating speech |
US20060239502A1 (en) * | 2005-04-26 | 2006-10-26 | Verance Corporation | Methods and apparatus for enhancing the robustness of watermark extraction from digital host content |
EP1760693A1 (en) * | 2005-09-01 | 2007-03-07 | Seet Internet Ventures Inc. | Extraction and matching of characteristic fingerprints from audio signals |
CN102592588A (zh) * | 2012-01-10 | 2012-07-18 | 清华大学 | 数字录音完整性检测方法 |
EP2739067A3 (en) * | 2012-12-03 | 2016-07-13 | Fujitsu Limited | Audio processing device and method |
CN103345927A (zh) * | 2013-07-11 | 2013-10-09 | 暨南大学 | 一种检测与定位音频时域篡改的处理方法 |
CN104681038A (zh) * | 2013-11-29 | 2015-06-03 | 清华大学 | 音频信号质量检测方法及装置 |
CN105023581A (zh) * | 2015-07-24 | 2015-11-04 | 南京工程学院 | 一种基于时频域联合特征的音频篡改检测装置 |
CN105719660A (zh) * | 2016-01-21 | 2016-06-29 | 宁波大学 | 一种基于量化特性的语音篡改定位检测方法 |
CN106941008A (zh) * | 2017-04-05 | 2017-07-11 | 华南理工大学 | 一种基于静音段的异源音频拼接篡改盲检测方法 |
Non-Patent Citations (4)
Title |
---|
《An audio watermarking scheme based on VQ codebook pairing》;Yun Zhou et al.;《2010 3rd International Congress on Image and Signal Processing》;20101130;全文 * |
《Exposing digital forgeries by detecting traces of resampling》;A.C. Popescu et al.;《IEEE Transactions on Signal Processing ( Volume: 53, Issue: 2, Feb. 2005)》;20050131;全文 * |
《Fast Forgery Detection with the Intrinsic Resampling Properties》;Cheng-Chang Lien et al.;《2010 Sixth International Conference on Intelligent Infonnation Hiding and Multimedia Signal Processing》;20101231;全文 * |
《基于噪声一致性的数字语音异源拼接篡改检测算法》;杨帆等;《计算机应用》;20171231;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN108665905A (zh) | 2018-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zakariah et al. | Digital multimedia audio forensics: past, present and future | |
JP6535706B2 (ja) | データセットの3値ビットマップを作成するための方法 | |
Rodríguez et al. | Audio authenticity: Detecting ENF discontinuity with high precision phase analysis | |
Gupta et al. | Current developments and future trends in audio authentication | |
KR101269296B1 (ko) | 모노포닉 오디오 신호로부터 오디오 소스를 분리하는 뉴럴네트워크 분류기 | |
JP2006505821A (ja) | 指紋情報付マルチメディアコンテンツ | |
KR100492743B1 (ko) | 신호의 특성값의 양자화에 의한 워터마크 삽입 및 검출방법 | |
WO2015078121A1 (zh) | 音频信号质量检测方法及装置 | |
US9058384B2 (en) | System and method for identification of highly-variable vocalizations | |
CN105719660A (zh) | 一种基于量化特性的语音篡改定位检测方法 | |
CN112542174A (zh) | 基于vad的多维特征参数声纹识别方法 | |
Hu et al. | Frame-synchronized blind speech watermarking via improved adaptive mean modulation and perceptual-based additive modulation in DWT domain | |
CN108665905B (zh) | 一种基于频带带宽不一致性的数字语音重采样检测方法 | |
CN105632516A (zh) | 一种基于边信息统计特性的mp3录音文件来源识别方法 | |
Doets et al. | On the comparison of audio fingerprints for extracting quality parameters of compressed audio | |
CN102237093A (zh) | 一种基于前后向回声核的回声隐藏方法 | |
Zhao et al. | Anti-forensics of environmental-signature-based audio splicing detection and its countermeasure via rich-features classification | |
Doets et al. | Distortion estimation in compressed music using only audio fingerprints | |
Wang et al. | Speech Resampling Detection Based on Inconsistency of Band Energy. | |
CN108877816B (zh) | 基于qmdct系数的aac音频重压缩检测方法 | |
CN112927700B (zh) | 一种盲音频水印嵌入和提取方法及系统 | |
CN113990297A (zh) | 一种基于enf的音频篡改识别方法 | |
CN112581975A (zh) | 基于信号混叠和双声道相关性的超声波语音指令防御方法 | |
Korycki | Detection of montage in lossy compressed digital audio recordings | |
Pop et al. | On forensic speaker recognition case pre-assessment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240122 Address after: 313200 Room 337, Building 3, No. 266, Zhenxing Road, Yuyue Town, Deqing County, Huzhou City, Zhejiang Province Patentee after: Huzhou Chuangguan Technology Co.,Ltd. Country or region after: China Address before: 315211, Fenghua Road, Jiangbei District, Zhejiang, Ningbo 818 Patentee before: Ningbo University Country or region before: China |
|
TR01 | Transfer of patent right |