CN111292756B - 一种抗压缩音频无声水印嵌入和提取方法及系统 - Google Patents
一种抗压缩音频无声水印嵌入和提取方法及系统 Download PDFInfo
- Publication number
- CN111292756B CN111292756B CN202010061508.8A CN202010061508A CN111292756B CN 111292756 B CN111292756 B CN 111292756B CN 202010061508 A CN202010061508 A CN 202010061508A CN 111292756 B CN111292756 B CN 111292756B
- Authority
- CN
- China
- Prior art keywords
- embedded
- watermark
- embedding
- audio
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000007906 compression Methods 0.000 title claims abstract description 37
- 230000006835 compression Effects 0.000 title claims abstract description 35
- 238000000605 extraction Methods 0.000 claims abstract description 11
- 238000005070 sampling Methods 0.000 claims description 34
- 238000013139 quantization Methods 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 16
- 238000012937 correction Methods 0.000 claims description 7
- 238000001914 filtration Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 230000003595 spectral effect Effects 0.000 claims description 5
- 238000001228 spectrum Methods 0.000 claims description 4
- 238000009432 framing Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000011002 quantification Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 238000012952 Resampling Methods 0.000 abstract description 2
- 238000006073 displacement reaction Methods 0.000 abstract description 2
- 238000004422 calculation algorithm Methods 0.000 description 11
- 230000000873 masking effect Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Editing Of Facsimile Originals (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明公开了一种抗压缩音频无声水印嵌入和提取方法及系统,该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。经过水印嵌入后与嵌入前的音频提供给专业人士辨认,需要仔细辨别才能区分,因此在只提供水印版音频时,可以认为该方法对音频音质几乎无影响;嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片,因此该方法具有较强的鲁棒性。
Description
技术领域
本发明属于音频数字水印技术领域,具体地说,涉及一种抗压缩音频无声水印嵌入和提取方法及系统。
背景技术
随着数字音频技术的不断发展,音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注,无声水印技术就是其中之一。由于人类听觉系统(HAS)极为灵敏,音频感知冗余较小,水印同时满足隐蔽性和鲁棒性的困难很大,同时音频压缩算法例如MP3(MPEG Layer3)因为其出色的压缩率和音质,随着网络时代的到来已经成为数字音频的主流压缩方式。MP3编码是一种有损压缩音频经过压缩后水印信息也将被破坏,因此音频水印的研究相对于图像水印算法更具有挑战性。
数字音频水印算法一般分为时域、频域和压缩域3类,时域方法最具代表的是最低意义位嵌入算法(LSB),回声域嵌入等;频域法通过离散傅里叶变换(DFT)、离散余弦变换(DCT)或离散小波变换(DWT)等变换方法转换为频域再实现水印嵌入;压缩域通常是在MPEG-2AAC、MP3等压缩域上进行嵌入,但是该算法被限制在MP3压缩过程中实现因此不具备通用性。
最低意义位嵌入算法(LSB):将水印转换为二进制数据,再根据音频文件本身的位深得到每一个采样点的最小位。通过改变最小位的值来实现水印的嵌入。最低意义位嵌入算法(LSB)实现简单同时隐蔽性好,但是鲁棒性很差。
频域DWT法:将音频分帧进行DWT转换,DWT变换后将得到近似系数设为Ac和细节系数设为Dc,通常认为低频具有更好的鲁棒性和隐蔽性,因此通常将水印嵌入在近似系数Ac中。定义一个嵌入强度系数δ,该系数将影响水印健壮性和隐蔽性,同时设水印转为二进制后的序列为w长度为l,则有嵌入后的近似系数Ac′:Ac′=Ac×δ×(1+w(i)),0≤i<1,将每帧进行嵌入后,对嵌入后的Ac′、Dc进行逆离散小波变换(IDWT)得到时域波形图,在写入文件即完成水印嵌入。频域DWT法相对复杂度高但是鲁棒性好,但是受到嵌入强度的制约强度值过大将产生噪音过小将丢失水印且在提取水印时需要原文件。
MP3(AAC)压缩后,音频的时域和幅值都将发生变化,因此上述2种算法嵌入的水印信息都将在压缩过程中丢失。
发明内容
针对现有技术中上述的不足,本发明提供一种抗压缩音频无声水印嵌入和提取方法及系统,该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。
为了达到上述目的,本发明采用的解决方案是:一种抗压缩音频无声水印嵌入方法,包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组,48kHz为CD级的质量的音频采样率,采样率更大,需要处理的数据量更多,音频质量更好;同时将水印信息构造为灰度图片,灰度图片用二进制表示,增加系统的鲁棒性。
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元,具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元,能量高的嵌入单元具有更好的鲁棒性;若嵌入帧中嵌入单元数量小于h*w,说明当前帧不足以嵌入完整的水印,则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序,提高算法鲁棒性同时避免了MP3压缩造成的时域平移问题。
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值,具体包括:
S301:对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT,每个区域得到nfft个FFT系数,nfft的大小与FFT函数的窗口大小有关;
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r,低频能量比值r的计算公式为:r的值始终大于1,量化后的值也存在能量差产生掩蔽效应减轻嵌入带来的对音质的破坏效果。
量化后的比值r’为:
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数,公式为:
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’,具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi;
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi;
S(j-2N)=SN,由于定位区域没有进行水印嵌入,因此定位区域信号保持不变,避免定位不准确的情况发生。
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
由于IFFT时可能会存在溢出的情况,因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值,这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况,优先保证音频质量而且对于一张图片部分位错误依然可以辨别。
一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件,频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r,包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量同理得到第二嵌入区域的低频能量/>低频能量比值/>
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
一种抗压缩音频无声水印嵌入和提取系统,包括数据处理模块,将音频转换为目标格式的音频文件,将欲嵌入的水印信息构造为灰度图片;
嵌入单元获取模块,过滤能量小于阈值的嵌入单元,并将剩下的嵌入单元按照能量降序排序,选出与水印大小相同数量的嵌入单元用于水印嵌入;
水印嵌入模块,计算嵌入单元对应的信号S’,并将信号S’写入音频文件,得到包括水印的音频文件;
以及水印提取模块,计算嵌入的信号值,并根据嵌入的信号值提取一帧中全部的信号记为水印的二进制数据,将水印的二进制数据转换为h×w的图片,得到初始水印。
所述的系统还包括破音修正模块,所述的破音修正模块用于对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值。
本发明的有益效果是:
(1)该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。
(2)经过水印嵌入后与嵌入前的音频提供给专业人士辨认,需要仔细辨别才能区分,因此在只提供水印版音频时可以认为该方法对音频音质几乎无影响;嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片,因此该方法具有较强的鲁棒性。
附图说明
图1为量化结果示意图;
图2为掩蔽效应示意图;
图3为WAV压缩后波形产偏移展示图;
图4为水印嵌入方法流程图;
图5为水印提取方法流程图;
图6为水印嵌入和提取系统框图。
具体实施方式
以下结合附图对本发明作进一步描述:
首先对几个技术原理进行介绍。
1.量化:将值映射在坐标系上,然后按照一个量化因子(步幅)对坐标系进行划分并假设其每一个步幅中所代表的值。在水印算法中通常代表0,1用来表示当前二进制位的值,下面假设量化因子为Δ,0-Δ代表0,Δ-2Δ代表1则有如图1所示的量化结果。从图中可以看出-Δ-0代表1,0-Δ代表0,Δ-2Δ代表1,2Δ-3Δ代表0,3Δ-4Δ代表1。
2.掩蔽效应:在人类听觉系统HAS中存在的一种效应,短时间内能量高的将遮蔽能量低的,使得人类只能听到能量高的部分。超前掩蔽即后部分能量高于前部分那么只能听到后部分,反之即有滞后掩蔽;同时掩蔽即前后能量高于当前部分那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如图2所示。
3.时域变化:音频经过MP3有损压缩后,时域上的表现不仅仅只是幅度的变化还存在时序上的偏移,因为MP3压缩正交重叠变化时头尾帧需要补0,从而产生边缘效应,解码后这部分数据也加入到音频之中,即压缩后产生了时序上的偏移,偏移效果如图3所示。
4.频域失真:MP3是一种有损压缩,利用声音的频域掩蔽效应使量化噪音处于频域掩蔽阈值之下,去除了音频感知的冗余部分,这就会导致高频压缩后变化大而低频变化相对较小。实验发现MP3压缩后10kHz以上的幅度变化超过了90%而3kHz以下的幅度变化在4%以内,因此中低频对MP3编解码具有较好的鲁棒性。
如图4所示,本发明提供了一种抗压缩音频无声水印嵌入方法,包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组,48kHz为CD级的质量的音频采样率,采样率更大,需要处理的数据量更多,音频质量更好;同时将水印信息构造为灰度图片,灰度图片用二进制表示,增加系统的鲁棒性。
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元,具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元,能量高的嵌入单元具有更好的鲁棒性;若嵌入帧中嵌入单元数量小于h*w,说明当前帧不足以嵌入完整的水印,则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序,提高算法鲁棒性。分帧并细化到水印每一位所需的音频采样嵌入单元,同时确保嵌入单元数大于水印长度,有效避免了MP3压缩造成的时域平移问题。
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值,具体包括:
S301:对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT,每个区域得到nfft个FFT系数,nfft的大小与FFT函数的窗口大小有关;
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r,低频能量比值r的计算公式为:r的值始终大于1,量化后的值也存在能量差产生掩蔽效应减轻嵌入带来的对音质的破坏效果。
量化后的比值r’为:
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数,公式为:
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’,具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi;
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi;
S(j-2N)=SN,定位区域由于没有进行水印嵌入,因此定位区域信号保持不变,避免定位不准确的情况发生。
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
由于IFFT时可能会存在溢出的情况,因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值,这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况,优先保证音频质量,而且对于一张图片部分位错误依然可以辨别。
本申请还提出了一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,如图5所示,包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件,频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r,包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量同理得到第二嵌入区域的低频能量/>低频能量比值/>
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
本申请还提出了一种抗压缩音频无声水印嵌入和提取系统,如图6所示,包括数据处理模块,将音频转换为目标格式的音频文件,将欲嵌入的水印信息构造为灰度图片;
嵌入单元获取模块,过滤能量小于阈值的嵌入单元,并将剩下的嵌入单元按照能量降序排序,选出与水印大小相同数量的嵌入单元用于水印嵌入;
水印嵌入模块,计算嵌入单元对应的信号S’,并将信号S’写入音频文件,得到包括水印的音频文件;
以及水印提取模块,计算嵌入的信号值,并根据嵌入的信号值提取一帧中全部的信号记为水印的二进制数据,将水印的二进制数据转换为h×w的图片,得到初始水印。
所述的系统还包括破音修正模块,所述的破音修正模块用于对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值。
在本发明中,嵌入长度N以及量化步长S2的值的大小对本方法的鲁棒性和隐蔽性都有影响。量化步长越大鲁棒性越好,但因为r改变的幅度也会增大,从而会导致隐蔽性下降,因此量化步长也可以称之为品质系数;N的大小影响着FFT后低频能量精度和信号嵌入的容量,N的值越大能量精度越高,但是嵌入一个信号位需要的采样点就越多。嵌入长度N以及量化步长S2值可以根据具体的需求具体设置,nfft的大小与FFT函数的窗口大小有关,FFT函数的窗口固定后nfft的大小也就固定了。在本发明的一个实施例中,S2=0.15,N=256,FFT函数的窗口大小与N相同,也就是说nfft=256。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
Claims (8)
1.一种抗压缩音频无声水印嵌入方法,其特征在于:包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,同时将水印信息构造为灰度图片;
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元;
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值;
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r;
S5:根据水印图片的嵌入值对低频能量比值r进行量化,计算得到量化后的比值r’;
S6:根据低频能量比值r和量化后的比值r’计算谱系数变化比例;
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数;
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’;
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
2.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组。
3.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的步骤S2具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元;若嵌入帧中嵌入单元数量小于h*w,则跳过该嵌入帧。
量化后的比值r’为:
所述的调整第一嵌入区域和第二嵌入区域的FFT系数的公式为:
所述的步骤S8具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi;
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi;
S(j-2N)=SN。
6.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将值重新调整为原始值。
7.一种基于权利要求1-6中任意一项所述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,其特征在于:包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件;
分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r;
根据量化步长S2对低频能量比值进行量化,得到嵌入的信号值;
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
8.根据权利要求7所述的抗压缩音频无声水印提取方法,其特征在于:所述的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
所述的计算第一嵌入区域和第二嵌入区域的低频能量比值r包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量同理得到第二嵌入区域的低频能量/>低频能量比值/>
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061508.8A CN111292756B (zh) | 2020-01-19 | 2020-01-19 | 一种抗压缩音频无声水印嵌入和提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010061508.8A CN111292756B (zh) | 2020-01-19 | 2020-01-19 | 一种抗压缩音频无声水印嵌入和提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111292756A CN111292756A (zh) | 2020-06-16 |
CN111292756B true CN111292756B (zh) | 2023-05-26 |
Family
ID=71023248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010061508.8A Active CN111292756B (zh) | 2020-01-19 | 2020-01-19 | 一种抗压缩音频无声水印嵌入和提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111292756B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968654B (zh) * | 2020-08-24 | 2022-09-16 | 成都潜在人工智能科技有限公司 | 一种自适应混合域音频水印嵌入方法 |
CN115831131B (zh) * | 2023-01-15 | 2023-06-16 | 中国科学技术大学 | 一种基于深度学习的音频水印嵌入提取的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847409A (zh) * | 2010-03-25 | 2010-09-29 | 北京邮电大学 | 一种基于数字指纹的语音完整性保护方法 |
CN102664013A (zh) * | 2012-04-18 | 2012-09-12 | 南京邮电大学 | 基于能量选择的离散余弦变换域的音频数字水印方法 |
EP2787503A1 (en) * | 2013-04-05 | 2014-10-08 | Movym S.r.l. | Method and system of audio signal watermarking |
CN106409302A (zh) * | 2016-06-22 | 2017-02-15 | 华中师范大学 | 基于嵌入区域选择的音频水印方法及系统 |
CN106504757A (zh) * | 2016-11-09 | 2017-03-15 | 天津大学 | 一种基于听觉模型的自适应音频盲水印方法 |
CN106898358A (zh) * | 2017-03-07 | 2017-06-27 | 武汉大学 | 从时频分析角度出发的鲁棒数字音频水印算法 |
US10043527B1 (en) * | 2015-07-17 | 2018-08-07 | Digimarc Corporation | Human auditory system modeling with masking energy adaptation |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2362385A1 (en) * | 2010-02-26 | 2011-08-31 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Watermark signal provision and watermark embedding |
-
2020
- 2020-01-19 CN CN202010061508.8A patent/CN111292756B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101847409A (zh) * | 2010-03-25 | 2010-09-29 | 北京邮电大学 | 一种基于数字指纹的语音完整性保护方法 |
CN102664013A (zh) * | 2012-04-18 | 2012-09-12 | 南京邮电大学 | 基于能量选择的离散余弦变换域的音频数字水印方法 |
EP2787503A1 (en) * | 2013-04-05 | 2014-10-08 | Movym S.r.l. | Method and system of audio signal watermarking |
US10043527B1 (en) * | 2015-07-17 | 2018-08-07 | Digimarc Corporation | Human auditory system modeling with masking energy adaptation |
CN106409302A (zh) * | 2016-06-22 | 2017-02-15 | 华中师范大学 | 基于嵌入区域选择的音频水印方法及系统 |
CN106504757A (zh) * | 2016-11-09 | 2017-03-15 | 天津大学 | 一种基于听觉模型的自适应音频盲水印方法 |
CN106898358A (zh) * | 2017-03-07 | 2017-06-27 | 武汉大学 | 从时频分析角度出发的鲁棒数字音频水印算法 |
Non-Patent Citations (2)
Title |
---|
Wen-Nung Lie,et al..Robust and high-quality time-domain audio watermarking based on low-frequency amplitued modification.《IEEE Transactions on Multimedia》.2006,第8卷(第1期),全文. * |
暴晋飞等.基于能量比的小波域音频水印算法.《计算机应用研究》.2010,第27卷(第3期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111292756A (zh) | 2020-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hu et al. | Robust, transparent and high-capacity audio watermarking in DCT domain | |
KR100898879B1 (ko) | 부수 정보에 응답하여 하나 또는 그 이상의 파라메터를변조하는 오디오 또는 비디오 지각 코딩 시스템 | |
Cvejic et al. | A wavelet domain LSB insertion algorithm for high capacity audio steganography | |
US8032361B2 (en) | Audio processing apparatus and method for processing two sampled audio signals to detect a temporal position | |
US9008811B2 (en) | Methods and systems for adaptive time-frequency resolution in digital data coding | |
KR20070045993A (ko) | 오디오 처리 | |
US8838442B2 (en) | Method and system for two-step spreading for tonal artifact avoidance in audio coding | |
CN111292756B (zh) | 一种抗压缩音频无声水印嵌入和提取方法及系统 | |
JP4021124B2 (ja) | デジタル音響信号符号化装置、方法及び記録媒体 | |
Shirali-Shahreza et al. | High capacity error free wavelet domain speech steganography | |
Huang et al. | Optimization-based embedding for wavelet-domain audio watermarking | |
CN113782041A (zh) | 一种基于音频变频域的嵌入和定位水印的方法 | |
Kaur et al. | A high payload audio watermarking algorithm robust against Mp3 compression | |
Attari et al. | Robust audio watermarking algorithm based on DWT using Fibonacci numbers | |
US20080273707A1 (en) | Audio Processing | |
Attari et al. | Robust and transparent audio watermarking based on spread spectrum in wavelet domain | |
Bao et al. | MP3-resistant music steganography based on dynamic range transform | |
Nematollahi et al. | Optimization of a blind speech watermarking technique against amplitude scaling | |
Dhar et al. | Audio watermarking in transform domain based on singular value decomposition and quantization | |
CN111968654B (zh) | 一种自适应混合域音频水印嵌入方法 | |
Irawati et al. | QR-based watermarking in audio subband using DCT | |
Yu et al. | Detecting MP3Stego using calibrated side information features. | |
Attari et al. | Robust and blind audio watermarking in wavelet domain | |
Zhang et al. | An AAC steganography scheme for adaptive embedding with distortion minimization model | |
Gupta et al. | Perceptually transparent & robust audio watermarking algorithm using multi resolution decomposition & Cordic QR decomposition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230508 Address after: Room 1210, 12 / F, unit 1, building 1, No. 722, middle section of Yizhou Avenue, high tech Zone, Chengdu, Sichuan 610000 Applicant after: Chengdu potential Artificial Intelligence Technology Co.,Ltd. Address before: 610041 Building No. 722, Building No. 1, Unit 12, Layer 121, Middle Section of Yizhou Avenue, Chengdu High-tech Zone, Sichuan Province Applicant before: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |