CN113035213A - 数字音频水印检测方法及装置 - Google Patents
数字音频水印检测方法及装置 Download PDFInfo
- Publication number
- CN113035213A CN113035213A CN202011551788.7A CN202011551788A CN113035213A CN 113035213 A CN113035213 A CN 113035213A CN 202011551788 A CN202011551788 A CN 202011551788A CN 113035213 A CN113035213 A CN 113035213A
- Authority
- CN
- China
- Prior art keywords
- audio
- watermark
- audio file
- load information
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 73
- 238000001228 spectrum Methods 0.000 claims abstract description 55
- 238000012545 processing Methods 0.000 claims abstract description 39
- 238000010801 machine learning Methods 0.000 claims description 71
- 238000012549 training Methods 0.000 claims description 38
- 238000000034 method Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 13
- 230000004913 activation Effects 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 6
- 238000007493 shaping process Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 11
- 238000012952 Resampling Methods 0.000 description 2
- 239000013065 commercial product Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000002360 preparation method Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000001413 cellular effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010008 shearing Methods 0.000 description 1
- 239000004984 smart glass Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明提供一种数字音频水印检测方法及装置,其中所述数字音频水印检测方法包括:获取待检测音频文件,将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱,将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。本发明还提供一种数字音频水印检测装置。通过本发明的数字音频水印检测方法和装置进行数字音频水印检测,不仅可以提高水印的抗攻击性,还能够保证检测出采用相同方案但不同参数添加的水印音频。
Description
技术领域
本说明书涉及音频处理技术领域,特别涉及数字音频水印的检测方法及装置。
背景技术
音频数字水印是基于音频数字内容生成或嵌入的一段标识,该标识可用于标识音频数字内容的版权归属,也可用于保护音频数字内容的完整性。当音频水印用于标识音频数字内容的版权归属时,在音频数字内容生成、管理、分发和使用的全生命周期中,音频水印被不可感知、不可剥离的方式添加在音频数字内容中,一旦发生版权纠纷时,只需从音频数字内容中提取出嵌入的水印信息,即可证明音頻数字内容的版权归属。类似于商品的商标是表明商品的生产厂家,音频水印的作用是表明音频数字内容的版权所有者,但这通常和所有者不是一个概念。而当音频水印用于保护音频数字内容的完整性时,一旦音频数字内容发生了篡改,某一部分发生了变化,其对应的音频水印信息也会发生变化,由此可以检测并定位篡改。
数字音频水印算法需要具备的特性主要有:1)水印必须嵌入到宿主音频数据中,而不能存储于文件头或单独文件。2)水印不应对原始音频的声音质量产生可听到的失真,即应具有透明性。3)水印必须具有一定的鲁棒性,能抵御宿主音频信号上的压缩、滤波、重采样、重量化、剪切、加噪声等一般信号处理操作。 4)水印应易于嵌入,提取和检测的计算量要低,以方便其集成到一般电子产品中。 5)水印算法必须具备某种同步机制,以对抗时间域上的同步攻击。6)原则上水印的检测不应需要原始音频,即实现盲检测,因为寻找原始音频是非常困难的。水印算法应该公开,安全性最好依赖于密钥而不是算法的秘密性。
由于具有以上的种种特性,数字水印其实是一种对抗性的研究领域,数字水印一直处于被攻击当中,其中包括主动攻击和被动攻击。当数字水印被攻击之后,通常的检测方法则不能完全检测出该数字音频是否添加了预设的水印,以致该水印失效。
发明内容
有鉴于此,本发明实施例提供了一种数字音频水印检测方法。本发明同时涉及一种数字音频水印检测装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。
根据本发明实施例的第一方面,提供了一种数字音频水印检测方法,包括:获取待检测音频文件;
将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;
将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述待检测音频文件的负载信息确定所述待检测音频文件是否包含预设水印负载信息。
可选的,所述水印检测模块包括第一机器学习模型,所述第一机器学习模型的训练输入至少包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的训练目标为未添加所述预设水印信息的音频文件的音频数据中提取的相应特征;所述第一机器学习模型的预测输入包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的预测输出为输入音频文件的音频数据对应的未添加所述预设水印负载信息的相应特征。
可选的,所述第一机器学习模型的训练输入还包括:
添加所述预设水印负载信息后的音频文件的音频数据中提取的特征,和/或未添加所述预设水印负载信息但受到所述攻击的音频文件的音频数据中提取的特征。
可选的,所述水印解码模块包括第二机器学习模型,所述第二机器学习模型的训练输入至少包括添加预设的水印信息过程中在各频段添加的0/1信息序列,所述第二机器学习模型的训练目标为实际添加的预设的水印信息对应的整形数值[0,255];所述第二机器学习模型的预测输入包括各频段添加预设的水印信息前后的能量对比映射成的0/1序列,所述第二机器学习模型的预测输出为输入序列对应的水印内容[0,255]。
可选的,所述第二机器学习模型的训练输入还包括:
未添加所述预设水印负载信息的音频文件的音频数据中提取的能量比特征序列。
可选的,所述第一机器学习模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,对所述多个音频区间添加预设水印负载信息,并将所述添加的预设水印负载信息对应的整数作为该音频区间的标签;
将添加了所述预设音频水印负载信息的音频区间特征作为输入,所述未添加所述预设水印信息的音频文件的音频数据的多个音频区间特征作为输出目标;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始第一机器学习模型进行训练,获得所述第一机器学习模型。
可选的,所述第二机器学习模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,对所述多个音频区间添加预设水印负载,并将所述添加的预设水印负载信息对应的整数作为该音频区间的标签;
将所述预设水印添加过程中的幅度谱变化0/1序列作为输入;所述音频区间对应的标签作为输出目标;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始第二机器学习模型进行训练,获得所述第二机器学习模型。
可选的,根据所述负载信息确定所述待检测音频文件是否包含预设水印负载信息,包括:
如果所述负载信息的值在预设阈值区间内,则判断所述待检测音频文件包含所述预设水印负载信息;
如果所述负载信息的值不在预设阈值区间内,则判断所述待检测音频文件不包含预设水印负载信息。
可选的,所述第一机器学习模型包括ResNet模型或ResNeXt模型;所述第二机器学习模型包括ResNet模型或ResNeXt模型。
可选的,所述第一机器学习模型的ResNet模型或ResNeXt模型为多个基本单元串联,激活函数为tanh函数。
可选的,所述第二机器学习模型的ResNet模型或ResNeXt模型为多个基本单元串联,激活函数为softmax函数。
根据本发明实施例的第二方面,提供了一种音频检测装置,包括:
获取模块,获取待检测音频文件;
处理模块,将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
确定模块,根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
根据本发明实施例的第三方面,提供了一种计算设备,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待检测音频文件;
将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
根据本发明实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述数字音频水印检测方法的步骤。
本发明提供的数字音频水印检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至数字音频水印检测模块和解码模块进行处理,获得所述待检测音频文件中的负载信息,从而判断所述待检测音频文件是否包含预设水印信息,不仅可以提高水印的抗攻击性,还能够保证检测出采用相同方案但不同参数添加的水印音频,进一步满足实际应用场景的音频处理需求。
附图说明
图1是本发明一实施例提供的一种数字音频水印检测方法的流程图;
图2是本发明一实施例提供的第一种机器学习模型的结构示意图;
图3是本发明一实施例提供的第二种机器学习模型的结构示意图;
图4是本发明一实施例提供的机器学习模型的基本单元示意图;
图5是本发明一实施例提供的一种数字音频水印检测装置的结构示意图;
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本发明能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施的限制。
在本发明一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明一个或多个实施例。在本发明一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本发明一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本发明中,提供了一种音频检测方法,本发明同时涉及一种音频检测装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1示出了根据本发明一实施例提供的一种音频检测方法的流程图,具体包括以下步骤:
步骤S101,获取待检测音频文件。
本发明提供的音频检测方法,为了提高检测数字音频水印的精度,以及提高检测处理效率,在获取到所述待检测音频文件之后,将待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息,最后根据所述负载信息确定所述待检测音频文件是否包含预设水印信息,实现不仅不仅可以提高水印的抗攻击性,还能够保证检测出采用相同方案但不同参数添加的水印音频。
具体实施时,所述待检测音频文件是指需要进行数字音频水印片段检测的音频文件,所述待检测音频文件可以是客户端上传的音频文件,或者,所述待检测音频文件也可以是待播放的音频文件,如在用户收听即时通讯场景中的语音信号;再或者,所述待检测音频文件也可以是待处理的音频文件,如在模型训练场景中,需要使用大量的音频文件训练翻译模型或语义识别模型。
本实施例将以待检测音频文件为客户端上传的音频文件的音频文件为例,对所述音频检测方法进行描述,其它音频文件中的音频片段的过程均可参见本实施例相应的描述内容,本实施例在此不作过多赘述。
步骤S102,将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱。
具体的,在上述获得所述待检测音频文件的基础上,进一步的,将需要对所述待检测音频文件进行处理,从而得出待检测音频文件对应的未添加所述预设水印负载信息的幅度谱。
其中,所述水印检测模块为第一机器学习模型,所述第一机器学习模型的训练输入至少包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的训练目标为未添加所述预设水印信息的音频文件的音频数据中提取的相应特征;所述第一机器学习模型的预测输入包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的预测输出为输入音频文件的音频数据对应的未添加所述预设水印负载信息的相应特征。
优选地,第一机器学习模型包括但不限于ResNet(深度残差网络,Deep residualnetwork)模型或ResNeXt模型,其中,ResNet模型的结构如图2所示, ResNeXt模型的结构如图3所示。图4为该机器学习模型的基本单元示意图,图中左侧为ResNet模型的基本单元结构示意图,右侧为ResNeXt模型的基本单元结构示意图。
下面以第一机器学习模型为ResNet模型或ResNeXt模型进行说明获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱的过程。
首先,将所述标准音频文件切分为多个音频区间,对所述多个音频区间添加预设水印负载信息,并将所述添加的预设水印负载信息对应的整数作为该音频区间的标签;
将添加了所述预设音频水印负载信息的音频区间特征作为输入,未添加所述预设水印信息的音频文件的音频数据的多个音频区间特征作为输出目标;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始第一机器学习模型进行训练,获得所述第一机器学习模型。
具体来说,对于ResNet模型或ResNeXt机器学习模型,首先进行训练数据制备。这里使用48kHz采样率,16bit量化的单通道音频数据格式,将大量未添加所述预设水印信息的音频文件按照所选用预设水印负载信息的要求,切成约 11s长度的片断(添加1byte负载所需的时间长度)。然后使用预设的水印添加工具给各片断分别添加1byte(8bit)预设水印负载,并将所添加的水印负载信息作为该音频片断的标签。最后对添加预设水印的片断进行压缩、滤波、重采样、重量化、剪切、加噪声、变速、变调等攻击,且标签不变,这样可以丰富数据类型,和未受攻击的数据一起,作为训练数据集使用。另外添加若干未添加预设水印负载信息,但受到各种攻击的音频数据作为干扰项,标签标注为预设水印负载信息中未使用到的预设水印负载信息内容,如FA等。
接下来就是进行音频特征提取。选择适当的预设水印负载信息将预设水印添加在上述音频片段的2kHz-7kHz频率之间。因此,这里选取音频数据stft或 mclt变换后的相应频段(2-7kHz)幅度谱作为模型输入。
然后,选取预设水印负载信息相应的帧长和窗型,这里选用42.7ms帧长和 Hann窗,帧移为帧长的50%,进行预设水印负载信息相应的2048阶stft/mclt 变化,获得1025维幅度谱。
进而,取上述1025维幅度谱中的第[76,331],共256维作为模型输入特征,添加频带上下各展宽10%。
接着,上述输入特征以42.7ms的时长单位组帧,50%重叠,每帧包含256 个stft/mclt频点的幅度谱值。输出数据格式与输入相同,输出的数据是每一频点对应的未添加水印的音频幅度谱。特别需要注意:当样本音频添加水印后受到变速攻击,会导致模型输入音频时长发生变化,但同一段音频需要切分的帧数是不变的,所以在组帧时需要相应调整帧移,以保证帧长和帧数与模型输出数据一致。
然后,就是对ResNet模型或ResNeXt学习模型训练。ResNet模型或ResNeXt 模型为多个基本单元串联,激活函数层为tanh函数,最后模型输出x作为幅度谱变化的指数参数。幅度谱变化为a-x,其中a由预设水印负载信息中设定的水印强度决定。
最后,就是得出该检测模块的输出。假设输入为Sin(f),输出为Sout(f),则 Sout(f)=Sin(f)·a-x。在训练时,该Sout(f)的目标取值为真实未添加水印数据的对应频带幅度谱。在预测时,将(-x+1)/2取四舍五入的整数取值作为水印解码模块中第二机器学习模型的输入。
需要说明的是,由于模型的训练需要不断的迭代才能够获得预测能力较好的模型,因此在训练所述第一机器学习模型的过程中,可以根据实际需求设定迭代停止条件,该条件可以基于损失函数设定,或者基于模型的预测精准度确定;每次完成一个阶段的训练之后,就使用检验样本音频对当前模型进行检测,若达到迭代停止条件,即可停止训练模型,将此时获得的模型作为所述数字音频水印检测模型;若未达到迭代停止条件,就继续训练模型,直至能够获得满足迭代停止条件的模型为止。例如,可以设置迭代停止条件为:两次迭代的误差小于门限值。本领域技术人员可以根据实际需要设置上述门限值和标准值,这里不做具体限定。
步骤S103,将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息。
在上述获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱的基础上,接下来说明获得所述待检测音频文件的负载信息的过程。
其中,所述水印解码模块包括第二机器学习模型,所述第二机器学习模型的训练输入至少包括添加预设的水印信息过程中在各频段添加的0/1信息序列,所述第二机器学习模型的训练目标为实际添加的预设的水印信息对应的整形数值[0,255];所述第二机器学习模型的预测输入包括各频段添加预设的水印信息前后的能量对比映射成的0/1序列,所述第二机器学习模型的预测输出为输入序列对应的水印内容[0,255]。第二机器学习模型的训练输入还包括未添加所述预设水印负载信息的音频文件的音频数据中提取的能量比特征序列。
优选地,第二机器学习模型包括但不限于ResNet(深度残差网络,Deep residualnetwork)模型或ResNeXt模型,其中,ResNet模型的结构如图2所示, ResNeXt模型的结构如图3所示。图4为该机器学习模型的基本单元示意图,图中左侧为ResNet模型的基本单元结构示意图,右侧为ResNeXt模型的基本单元结构示意图。
下面以第二机器学习模型为ResNet模型或ResNeXt模型进行说明获得所述待检测音频文件的负载信息的过程。
具体来说,对于ResNet模型或ResNeXt机器学习模型,仍是先进行训练数据的制备。我们使用48kHz采样率,16bit量化的单通道音频数据格式。将大量样本音频文件按照所选用预设水印负载信息的要求,切成约11s长度的片断(添加1byte负载所需的时间长度)。然后使用相应的预设水印负载信息给各片断分别添加1byte(8bit)预设水印负载,将添加过程中对各频点的幅度修正系数ax记录下来(其中a由预设水印负载信息中设定的水印强度决定),将(x+1)/2 作为模型输入特征,将所添加的预设水印负载信息对应的整数作为该音频片断的标签。另外添加若干预设水印负载信息不会用到的数列作为干扰项,标签也使用预设水印负载信息中未曾使用到的整数。
接下来,是ResNet模型或ResNeXt模型的训练。该模型为多个基本单元串联,然后通过softmax激活函数选择其中概率最高的一个分类作为输出,输出结果为该分类对应的整数,即所需要的负载信息。
需要说明的是,由于模型的训练需要不断的迭代才能够获得预测能力较好的模型,因此在训练所述第一机器学习模型的过程中,可以根据实际需求设定迭代停止条件,该条件可以基于损失函数设定,或者基于模型的预测精准度确定;每次完成一个阶段的训练之后,就使用检验样本音频对当前模型进行检测,若达到迭代停止条件,即可停止训练模型,将此时获得的模型作为所述数字音频水印检测模型;若未达到迭代停止条件,就继续训练模型,直至能够获得满足迭代停止条件的模型为止。例如,可以设置迭代停止条件为:两次迭代的误差小于门限值。本领域技术人员可以根据实际需要设置上述门限值和标准值,这里不做具体限定。
步骤S104,根据所述待检测音频文件的负载信息确定所述待检测音频文件是否包含预设水印负载信息。
具体的,若解码模块输出的负载信息在预设阈值范围内则认为待检测音频包含水印信息,使用过预设的水印添加工具进行添加操作;若输出的负载信息不在预设阈值内,则认为待检测音频未曾使用过预设的水印添加工具进行添加操作。在本实施例中,可以设置该预设阈值范围为(如00-0F,AA,BB,CC……)。本领域技术人员可以根据实际需要调整该预设阈值范围,这里不做具体限定。
本发明提供的数字音频水印检测方法,在获取到所述待检测音频文件之后,将待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息,最后根据所述负载信息确定所述待检测音频文件是否包含预设水印信息,实现不仅可以提高水印的抗攻击性,还能够保证检测出采用相同方案但不同参数添加的水印音频。
本实施例提供的数字音频水印检测方法均可参见上述实施例相应的描述内容,在此不作过多赘述。
与上述方法实施例相对应,本发明还提供了数字音频水印检测装置实施例,图5示出了本发明一实施例提供的一种数字音频水印检测装置的结构示意图。
如图5所示,该装置包括:
获取模块501,被配置为获取待检测音频文件;
处理模块502,被配置为将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
确定模块503,被配置为根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
一个可选的实施例中,所述待检测音频文件包括下述至少一项:
客户端上传的音频文件、待播放的音频文件、待处理的音频文件。
本实施例提供的数字音频水印检测装置,在获取到所述待检测音频文件之后,将待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息,最后根据所述负载信息确定所述待检测音频文件是否包含预设水印信息,实现不仅不仅可以提高水印的抗攻击性,还能够保证检测出采用相同方案但不同参数添加的水印音频,进一步满足实际应用场景的音频处理需求。
上述为本实施例的一种数字音频水印检测装置的示意性方案。需要说明的是,该数字音频水印检测装置的技术方案与上述的数字音频水印检测方法的技术方案属于同一构思,数字音频水印检测装置的技术方案未详细描述的细节内容,均可以参见上述数字音频水印检测方法的技术方案的描述。
下面说明根据本发明一实施例提供的一种计算设备(未图示)。该计算设备的部件包括但不限于存储器和处理器。处理器与存储器通过总线相连接,数据库用于保存数据。
计算设备还包括接入设备接入设备使得计算设备能够经由一个或多个网络通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网 (WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备740可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入 (Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本发明的一个实施例中,计算设备的上述部件以及其他部件也可以彼此相连接,例如通过总线。应当理解。
计算设备可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备还可以是移动式或静止式的服务器。
其中,处理器用于执行如下计算机可执行指令:
获取待检测音频文件;
将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数字音频水印检测方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数字音频水印检测方法的技术方案的描述。
本发明一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于:
获取待检测音频文件;
将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数字音频水印检测方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数字音频水印检测方法的技术方案的描述。
上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,发明中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本发明所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本发明优选实施例只是用于帮助阐述本发明。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本发明的内容,可作很多的修改和变化。本发明选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
Claims (14)
1.一种数字音频水印检测方法,其特征在于,包括:
获取待检测音频文件;
将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;
将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述待检测音频文件的负载信息确定所述待检测音频文件是否包含预设水印负载信息。
2.根据权利要求1所述的数字音频水印检测方法,其特征在于,
所述水印检测模块包括第一机器学习模型,所述第一机器学习模型的训练输入至少包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的训练目标为未添加所述预设水印信息的音频文件的音频数据中提取的相应特征;所述第一机器学习模型的预测输入包括添加所述预设水印负载信息并受到攻击后的音频文件的音频数据中提取的特征,所述第一机器学习模型的预测输出为输入音频文件的音频数据对应的未添加所述预设水印负载信息的相应特征。
3.根据权利要求2所述的数字音频水印检测方法,其特征在于,
所述第一机器学习模型的训练输入还包括:
添加所述预设水印负载信息后的音频文件的音频数据中提取的特征,和/或未添加所述预设水印负载信息但受到所述攻击的音频文件的音频数据中提取的特征。
4.根据权利要求1所述的数字音频水印检测方法,其特征在于,
所述水印解码模块包括第二机器学习模型,所述第二机器学习模型的训练输入至少包括添加预设的水印信息过程中在各频段添加的0/1信息序列,所述第二机器学习模型的训练目标为实际添加的预设的水印信息对应的整形数值[0,255];所述第二机器学习模型的预测输入包括各频段添加预设的水印信息前后的能量对比映射成的0/1序列,所述第二机器学习模型的预测输出为输入序列对应的水印内容[0,255]。
5.根据权利要求4所述的数字音频水印检测方法,其特征在于,
所述第二机器学习模型的训练输入还包括:
未添加所述预设水印负载信息的音频文件的音频数据中提取的能量比特征序列。
6.根据权利要求2所述的数字音频水印检测方法,其特征在于,
所述第一机器学习模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,对所述多个音频区间添加预设水印负载信息,并将所述添加的预设水印负载信息对应的整数作为该音频区间的标签;
将添加了所述预设音频水印负载信息的音频区间特征作为输入,未添加所述预设水印信息的音频文件的音频数据的多个音频区间特征作为输出目标;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始第一机器学习模型进行训练,获得所述第一机器学习模型。
7.根据权利要求4所述的数字音频水印检测方法,其特征在于,
所述第二机器学习模型通过如下方式训练:
获取样本音频文件,并对所述样本音频文件进行格式化处理,获得标准音频文件;
将所述标准音频文件切分为多个音频区间,对所述多个音频区间添加预设水印负载,并将所述添加的预设水印负载信息对应的整数作为该音频区间的标签;
将所述预设水印添加过程中的幅度谱变化0/1序列作为输入;所述音频区间对应的标签作为输出目标;
基于所述多个音频区间和添加标签的多个音频区间组成样本音频区间对,利用所述样本音频区间对初始第二机器学习模型进行训练,获得所述第二机器学习模型。
8.根据权利要求1所述的数字音频水印检测方法,其特征在于,根据所述负载信息确定所述待检测音频文件是否包含预设水印负载信息,包括:
如果所述负载信息的值在预设阈值区间内,则判断所述待检测音频文件包含所述预设水印负载信息;
如果所述负载信息的值不在预设阈值区间内,则判断所述待检测音频文件不包含预设水印负载信息。
9.根据权利要求2或4所述的数字音频水印检测方法,其特征在于,
所述第一机器学习模型包括ResNet模型或ResNeXt模型;所述第二机器学习模型包括ResNet模型或ResNeXt模型。
10.根据权利要求9所述的数字音频水印检测方法,其特征在于,
所述第一机器学习模型的ResNet模型或ResNeXt模型为多个基本单元串联,激活函数为tanh函数。
11.根据权利要求9所述的数字音频水印检测方法,其特征在于,
所述第二机器学习模型的ResNet模型或ResNeXt模型为多个基本单元串联,激活函数为softmax函数。
12.一种数字音频水印检测装置,其特征在于,包括:
获取模块,获取待检测音频文件;
处理模块,将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
确定模块,根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
13.一种计算设备,其特征在于,包括:
存储器和处理器;
所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,以实现下述方法:
获取待检测音频文件;
处理模块,将所述待检测音频文件输入至水印检测模块进行处理,获得所述待检测音频文件对应的未添加所述预设水印负载信息的幅度谱;将所述待检测音频文件的幅度谱与对应的未添加所述预设水印负载信息的幅度谱的比值序列输入至水印解码模块进行处理,获得所述待检测音频文件的负载信息;
根据所述负载信息确定所述待检测音频文件是否包含预设水印信息。
14.一种计算机可读存储介质,其特征在于,存储有计算机指令,该指令被处理器执行时实现权利要求1至11任意一项所述数字音频水印检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011551788.7A CN113035213B (zh) | 2020-12-24 | 2020-12-24 | 数字音频水印检测方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011551788.7A CN113035213B (zh) | 2020-12-24 | 2020-12-24 | 数字音频水印检测方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113035213A true CN113035213A (zh) | 2021-06-25 |
CN113035213B CN113035213B (zh) | 2022-07-22 |
Family
ID=76459113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011551788.7A Active CN113035213B (zh) | 2020-12-24 | 2020-12-24 | 数字音频水印检测方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113035213B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020107691A1 (en) * | 2000-12-08 | 2002-08-08 | Darko Kirovski | Audio watermark detector |
DE10129239C1 (de) * | 2001-06-18 | 2002-10-31 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal |
US20070055500A1 (en) * | 2005-09-01 | 2007-03-08 | Sergiy Bilobrov | Extraction and matching of characteristic fingerprints from audio signals |
CN101101754A (zh) * | 2007-06-25 | 2008-01-09 | 中山大学 | 一种基于傅立叶离散对数坐标变换的稳健音频水印方法 |
EP2362382A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Watermark signal provider and method for providing a watermark signal |
CN103077724A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种在音频中嵌入和解出水印的方法和装置 |
US20130318071A1 (en) * | 2012-05-23 | 2013-11-28 | Enswers Co., Ltd. | Apparatus and Method for Recognizing Content Using Audio Signal |
CN109690538A (zh) * | 2016-06-27 | 2019-04-26 | 脸谱公司 | 用于识别匹配内容的系统和方法 |
-
2020
- 2020-12-24 CN CN202011551788.7A patent/CN113035213B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020107691A1 (en) * | 2000-12-08 | 2002-08-08 | Darko Kirovski | Audio watermark detector |
DE10129239C1 (de) * | 2001-06-18 | 2002-10-31 | Fraunhofer Ges Forschung | Vorrichtung und Verfahren zum Einbetten eines Wasserzeichens in ein Audiosignal |
US20070055500A1 (en) * | 2005-09-01 | 2007-03-08 | Sergiy Bilobrov | Extraction and matching of characteristic fingerprints from audio signals |
CN101101754A (zh) * | 2007-06-25 | 2008-01-09 | 中山大学 | 一种基于傅立叶离散对数坐标变换的稳健音频水印方法 |
EP2362382A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Watermark signal provider and method for providing a watermark signal |
US20130318071A1 (en) * | 2012-05-23 | 2013-11-28 | Enswers Co., Ltd. | Apparatus and Method for Recognizing Content Using Audio Signal |
CN103077724A (zh) * | 2012-12-28 | 2013-05-01 | 中国科学院声学研究所 | 一种在音频中嵌入和解出水印的方法和装置 |
CN109690538A (zh) * | 2016-06-27 | 2019-04-26 | 脸谱公司 | 用于识别匹配内容的系统和方法 |
Non-Patent Citations (1)
Title |
---|
刘素楠等: "采用混沌加密和重复码的复倒谱音频水印算法", 《计算机工程与应用》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113035213B (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ali et al. | High capacity, transparent and secure audio steganography model based on fractal coding and chaotic map in temporal domain | |
CN101345054B (zh) | 用于声频文件的数字水印制作及识别方法 | |
Bhat K et al. | An audio watermarking scheme using singular value decomposition and dither-modulation quantization | |
Nematollahi et al. | An overview of digital speech watermarking | |
Li et al. | Detection of quantization index modulation steganography in G. 723.1 bit stream based on quantization index sequence analysis | |
CN104036788B (zh) | 音频文件的音质识别方法及装置 | |
CN101421780A (zh) | 音频编码和解码中的激励处理 | |
JP2006217340A5 (zh) | ||
Kanhe et al. | A DCT–SVD-based speech steganography in voiced frames | |
Yan et al. | Steganalysis for MP3Stego using differential statistics of quantization step | |
CN114596879A (zh) | 一种虚假语音的检测方法、装置、电子设备及存储介质 | |
CN111785303A (zh) | 模型训练方法、模仿音检测方法、装置、设备及存储介质 | |
Veerashetty | Secure communication over wireless sensor network using image steganography with generative adversarial networks | |
CN113035213B (zh) | 数字音频水印检测方法及装置 | |
CN116092503B (zh) | 联合时域和频域的伪造语音检测方法、装置、设备及介质 | |
Yang et al. | Approaching optimal embedding in audio steganography with GAN | |
Zhang | Audio dual watermarking scheme for copyright protection and content authentication | |
CN101350198B (zh) | 基于骨导的语音压缩水印方法 | |
CN116884431A (zh) | 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置 | |
Wang et al. | Speech Resampling Detection Based on Inconsistency of Band Energy. | |
US9742554B2 (en) | Systems and methods for detecting a synchronization code word | |
CN105283915B (zh) | 数字水印嵌入装置及方法以及数字水印检测装置及方法 | |
CN105741853A (zh) | 一种基于共振峰频率的数字语音感知哈希方法 | |
Li et al. | Perceptual audio hashing using rt and dct in wavelet domain | |
He et al. | A novel AMR-WB speech steganography based on diameter-neighbor codebook partition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20240105 Address after: 100086 Beijing city Haidian District Shuangyushu Academy Road No. 44 Patentee after: China Film Science and Technology Research Institute (Film Technology Quality Inspection Institute of the Central Propaganda Department) Address before: 100086 Beijing city Haidian District Shuangyushu Academy Road No. 44 Patentee before: CHINA FILM SCIENCE AND TECHNOLOGY INST. |
|
TR01 | Transfer of patent right |