CN111292756B - 一种抗压缩音频无声水印嵌入和提取方法及系统 - Google Patents

一种抗压缩音频无声水印嵌入和提取方法及系统 Download PDF

Info

Publication number
CN111292756B
CN111292756B CN202010061508.8A CN202010061508A CN111292756B CN 111292756 B CN111292756 B CN 111292756B CN 202010061508 A CN202010061508 A CN 202010061508A CN 111292756 B CN111292756 B CN 111292756B
Authority
CN
China
Prior art keywords
embedded
watermark
embedding
audio
region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010061508.8A
Other languages
English (en)
Other versions
CN111292756A (zh
Inventor
尹学渊
王东明
江天宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Potential Artificial Intelligence Technology Co ltd
Original Assignee
Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Potential Artificial Intelligence Technology Co ltd filed Critical Chengdu Potential Artificial Intelligence Technology Co ltd
Priority to CN202010061508.8A priority Critical patent/CN111292756B/zh
Publication of CN111292756A publication Critical patent/CN111292756A/zh
Application granted granted Critical
Publication of CN111292756B publication Critical patent/CN111292756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)

Abstract

本发明公开了一种抗压缩音频无声水印嵌入和提取方法及系统,该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。经过水印嵌入后与嵌入前的音频提供给专业人士辨认,需要仔细辨别才能区分,因此在只提供水印版音频时,可以认为该方法对音频音质几乎无影响;嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片,因此该方法具有较强的鲁棒性。

Description

一种抗压缩音频无声水印嵌入和提取方法及系统
技术领域
本发明属于音频数字水印技术领域,具体地说,涉及一种抗压缩音频无声水印嵌入和提取方法及系统。
背景技术
随着数字音频技术的不断发展,音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注,无声水印技术就是其中之一。由于人类听觉系统(HAS)极为灵敏,音频感知冗余较小,水印同时满足隐蔽性和鲁棒性的困难很大,同时音频压缩算法例如MP3(MPEG Layer3)因为其出色的压缩率和音质,随着网络时代的到来已经成为数字音频的主流压缩方式。MP3编码是一种有损压缩音频经过压缩后水印信息也将被破坏,因此音频水印的研究相对于图像水印算法更具有挑战性。
数字音频水印算法一般分为时域、频域和压缩域3类,时域方法最具代表的是最低意义位嵌入算法(LSB),回声域嵌入等;频域法通过离散傅里叶变换(DFT)、离散余弦变换(DCT)或离散小波变换(DWT)等变换方法转换为频域再实现水印嵌入;压缩域通常是在MPEG-2AAC、MP3等压缩域上进行嵌入,但是该算法被限制在MP3压缩过程中实现因此不具备通用性。
最低意义位嵌入算法(LSB):将水印转换为二进制数据,再根据音频文件本身的位深得到每一个采样点的最小位。通过改变最小位的值来实现水印的嵌入。最低意义位嵌入算法(LSB)实现简单同时隐蔽性好,但是鲁棒性很差。
频域DWT法:将音频分帧进行DWT转换,DWT变换后将得到近似系数设为Ac和细节系数设为Dc,通常认为低频具有更好的鲁棒性和隐蔽性,因此通常将水印嵌入在近似系数Ac中。定义一个嵌入强度系数δ,该系数将影响水印健壮性和隐蔽性,同时设水印转为二进制后的序列为w长度为l,则有嵌入后的近似系数Ac′:Ac′=Ac×δ×(1+w(i)),0≤i<1,将每帧进行嵌入后,对嵌入后的Ac′、Dc进行逆离散小波变换(IDWT)得到时域波形图,在写入文件即完成水印嵌入。频域DWT法相对复杂度高但是鲁棒性好,但是受到嵌入强度的制约强度值过大将产生噪音过小将丢失水印且在提取水印时需要原文件。
MP3(AAC)压缩后,音频的时域和幅值都将发生变化,因此上述2种算法嵌入的水印信息都将在压缩过程中丢失。
发明内容
针对现有技术中上述的不足,本发明提供一种抗压缩音频无声水印嵌入和提取方法及系统,该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。
为了达到上述目的,本发明采用的解决方案是:一种抗压缩音频无声水印嵌入方法,包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组,48kHz为CD级的质量的音频采样率,采样率更大,需要处理的数据量更多,音频质量更好;同时将水印信息构造为灰度图片,灰度图片用二进制表示,增加系统的鲁棒性。
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元,具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S205:根据时间t计算一个嵌入帧的帧长FL
Figure BDA0002374648940000031
n为常量;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S207:设定位区域的信号为SN,定位区域能量为:
Figure BDA0002374648940000032
N为信号的长度;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元,能量高的嵌入单元具有更好的鲁棒性;若嵌入帧中嵌入单元数量小于h*w,说明当前帧不足以嵌入完整的水印,则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序,提高算法鲁棒性同时避免了MP3压缩造成的时域平移问题。
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值,具体包括:
S301:对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT,每个区域得到nfft个FFT系数,nfft的大小与FFT函数的窗口大小有关;
S302:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure BDA0002374648940000041
S303:同理得到第二嵌入区域的低频能量
Figure BDA0002374648940000042
Figure BDA0002374648940000043
第一嵌入区域和第二嵌入区域的低频能量计算式中n和k都一致。
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r,低频能量比值r的计算公式为:
Figure BDA0002374648940000044
r的值始终大于1,量化后的值也存在能量差产生掩蔽效应减轻嵌入带来的对音质的破坏效果。
S5:根据水印图片的嵌入值对低频能量比值r进行量化,计算得到量化后的比值r’,具体包括:设置量化步长为S2,水印图片的嵌入值为
Figure BDA0002374648940000045
低频能量比值r量化为:
Figure BDA0002374648940000046
其中Q(IQ(r))为奇数代表1,偶数代表0,中间量
Figure BDA0002374648940000047
量化后的比值r’为:
Figure BDA0002374648940000048
若r’=0,则将r’修改为S2×2;通过量化将r量化为距离最近的表示为wi的中间区域(S2/2)提高量化的鲁棒性。
S6:根据低频能量比值r和量化后的比值r’计算谱系数变化比例,具体包括:计算中间量
Figure BDA0002374648940000049
根据中间量计算谱系数变化比例b=(a-1)/(a+1)。
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数,公式为:
Figure BDA0002374648940000051
Figure BDA0002374648940000052
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’,具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
Figure BDA0002374648940000053
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi
S(j-2N)=SN,由于定位区域没有进行水印嵌入,因此定位区域信号保持不变,避免定位不准确的情况发生。
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
由于IFFT时可能会存在溢出的情况,因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值,这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况,优先保证音频质量而且对于一张图片部分位错误依然可以辨别。
一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件,频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序,具体包括:计算定位区域的能量:
Figure BDA0002374648940000061
并滤除能量低于能量阈值的嵌入单元,对嵌入帧中剩下的嵌入单元按照能量降序排序,选出水印嵌入单元;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r,包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure BDA0002374648940000062
同理得到第二嵌入区域的低频能量/>
Figure BDA0002374648940000063
低频能量比值/>
Figure BDA0002374648940000064
根据量化步长S2对低频能量比值进行量化,得到嵌入的信号值,具体包括:低频能量比值r量化为:
Figure BDA0002374648940000065
其中Q(r)为奇数代表1,偶数代表0,得到嵌入的信号值;
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
一种抗压缩音频无声水印嵌入和提取系统,包括数据处理模块,将音频转换为目标格式的音频文件,将欲嵌入的水印信息构造为灰度图片;
嵌入单元获取模块,过滤能量小于阈值的嵌入单元,并将剩下的嵌入单元按照能量降序排序,选出与水印大小相同数量的嵌入单元用于水印嵌入;
水印嵌入模块,计算嵌入单元对应的信号S’,并将信号S’写入音频文件,得到包括水印的音频文件;
以及水印提取模块,计算嵌入的信号值,并根据嵌入的信号值提取一帧中全部的信号记为水印的二进制数据,将水印的二进制数据转换为h×w的图片,得到初始水印。
所述的系统还包括破音修正模块,所述的破音修正模块用于对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值。
本发明的有益效果是:
(1)该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入,第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化,减轻对音质的破坏,对于数字音频版权保护和认证具有重要的现实意义;水印提取方法提取水印不需要原文件,能够实现盲水印提取;该系统应用该方法,简单易实施。
(2)经过水印嵌入后与嵌入前的音频提供给专业人士辨认,需要仔细辨别才能区分,因此在只提供水印版音频时可以认为该方法对音频音质几乎无影响;嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片,因此该方法具有较强的鲁棒性。
附图说明
图1为量化结果示意图;
图2为掩蔽效应示意图;
图3为WAV压缩后波形产偏移展示图;
图4为水印嵌入方法流程图;
图5为水印提取方法流程图;
图6为水印嵌入和提取系统框图。
具体实施方式
以下结合附图对本发明作进一步描述:
首先对几个技术原理进行介绍。
1.量化:将值映射在坐标系上,然后按照一个量化因子(步幅)对坐标系进行划分并假设其每一个步幅中所代表的值。在水印算法中通常代表0,1用来表示当前二进制位的值,下面假设量化因子为Δ,0-Δ代表0,Δ-2Δ代表1则有如图1所示的量化结果。从图中可以看出-Δ-0代表1,0-Δ代表0,Δ-2Δ代表1,2Δ-3Δ代表0,3Δ-4Δ代表1。
2.掩蔽效应:在人类听觉系统HAS中存在的一种效应,短时间内能量高的将遮蔽能量低的,使得人类只能听到能量高的部分。超前掩蔽即后部分能量高于前部分那么只能听到后部分,反之即有滞后掩蔽;同时掩蔽即前后能量高于当前部分那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如图2所示。
3.时域变化:音频经过MP3有损压缩后,时域上的表现不仅仅只是幅度的变化还存在时序上的偏移,因为MP3压缩正交重叠变化时头尾帧需要补0,从而产生边缘效应,解码后这部分数据也加入到音频之中,即压缩后产生了时序上的偏移,偏移效果如图3所示。
4.频域失真:MP3是一种有损压缩,利用声音的频域掩蔽效应使量化噪音处于频域掩蔽阈值之下,去除了音频感知的冗余部分,这就会导致高频压缩后变化大而低频变化相对较小。实验发现MP3压缩后10kHz以上的幅度变化超过了90%而3kHz以下的幅度变化在4%以内,因此中低频对MP3编解码具有较好的鲁棒性。
如图4所示,本发明提供了一种抗压缩音频无声水印嵌入方法,包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组,48kHz为CD级的质量的音频采样率,采样率更大,需要处理的数据量更多,音频质量更好;同时将水印信息构造为灰度图片,灰度图片用二进制表示,增加系统的鲁棒性。
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元,具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S205:根据时间t计算一个嵌入帧的帧长FL
Figure BDA0002374648940000091
n为常量,通常n取10;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S207:设定位区域的信号为SN,定位区域能量为:
Figure BDA0002374648940000101
N为信号的长度;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元,能量高的嵌入单元具有更好的鲁棒性;若嵌入帧中嵌入单元数量小于h*w,说明当前帧不足以嵌入完整的水印,则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序,提高算法鲁棒性。分帧并细化到水印每一位所需的音频采样嵌入单元,同时确保嵌入单元数大于水印长度,有效避免了MP3压缩造成的时域平移问题。
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值,具体包括:
S301:对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT,每个区域得到nfft个FFT系数,nfft的大小与FFT函数的窗口大小有关;
S302:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure BDA0002374648940000102
S303:同理得到第二嵌入区域的低频能量
Figure BDA0002374648940000103
Figure BDA0002374648940000104
第一嵌入区域和第二嵌入区域的低频能量计算式中n和k都一致。
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r,低频能量比值r的计算公式为:
Figure BDA0002374648940000111
r的值始终大于1,量化后的值也存在能量差产生掩蔽效应减轻嵌入带来的对音质的破坏效果。
S5:根据水印图片的嵌入值对低频能量比值r进行量化,计算得到量化后的比值r’,具体包括:设置量化步长为S2,水印图片的嵌入值为
Figure BDA0002374648940000112
低频能量比值r量化为:
Figure BDA0002374648940000113
其中Q(IQ(r))为奇数代表1,偶数代表0,中间量
Figure BDA0002374648940000114
量化后的比值r’为:
Figure BDA0002374648940000115
若r’=0,则将r’修改为S2×2;通过量化将r量化为距离最近的表示为wi的中间区域(S2/2)提高量化的鲁棒性。
S6:根据低频能量比值r和量化后的比值r’计算谱系数变化比例,具体包括:计算中间量
Figure BDA0002374648940000116
根据中间量计算谱系数变化比例b=(a-1)/(a+1)。
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数,公式为:
Figure BDA0002374648940000117
Figure BDA0002374648940000121
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’,具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
Figure BDA0002374648940000122
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi
S(j-2N)=SN,定位区域由于没有进行水印嵌入,因此定位区域信号保持不变,避免定位不准确的情况发生。
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
由于IFFT时可能会存在溢出的情况,因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值,这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况,优先保证音频质量,而且对于一张图片部分位错误依然可以辨别。
本申请还提出了一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,如图5所示,包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件,频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序,具体包括:计算定位区域的能量:
Figure BDA0002374648940000131
并滤除能量低于能量阈值的嵌入单元,对嵌入帧中剩下的嵌入单元按照能量降序排序,选出水印嵌入单元;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r,包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure BDA0002374648940000132
同理得到第二嵌入区域的低频能量/>
Figure BDA0002374648940000133
低频能量比值/>
Figure BDA0002374648940000134
根据量化步长S2对低频能量比值进行量化,得到嵌入的信号值,具体包括:低频能量比值r量化为:
Figure BDA0002374648940000135
其中Q(r)为奇数代表1,偶数代表0,得到嵌入的信号值;
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
本申请还提出了一种抗压缩音频无声水印嵌入和提取系统,如图6所示,包括数据处理模块,将音频转换为目标格式的音频文件,将欲嵌入的水印信息构造为灰度图片;
嵌入单元获取模块,过滤能量小于阈值的嵌入单元,并将剩下的嵌入单元按照能量降序排序,选出与水印大小相同数量的嵌入单元用于水印嵌入;
水印嵌入模块,计算嵌入单元对应的信号S’,并将信号S’写入音频文件,得到包括水印的音频文件;
以及水印提取模块,计算嵌入的信号值,并根据嵌入的信号值提取一帧中全部的信号记为水印的二进制数据,将水印的二进制数据转换为h×w的图片,得到初始水印。
所述的系统还包括破音修正模块,所述的破音修正模块用于对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将该值重新调整为原始值。
在本发明中,嵌入长度N以及量化步长S2的值的大小对本方法的鲁棒性和隐蔽性都有影响。量化步长越大鲁棒性越好,但因为r改变的幅度也会增大,从而会导致隐蔽性下降,因此量化步长也可以称之为品质系数;N的大小影响着FFT后低频能量精度和信号嵌入的容量,N的值越大能量精度越高,但是嵌入一个信号位需要的采样点就越多。嵌入长度N以及量化步长S2值可以根据具体的需求具体设置,nfft的大小与FFT函数的窗口大小有关,FFT函数的窗口固定后nfft的大小也就固定了。在本发明的一个实施例中,S2=0.15,N=256,FFT函数的窗口大小与N相同,也就是说nfft=256。
以上所述实施例仅表达了本发明的具体实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (8)

1.一种抗压缩音频无声水印嵌入方法,其特征在于:包括如下步骤:
S1:数据预处理,将音频转换为目标格式的音频文件,同时将水印信息构造为灰度图片;
S2:分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元;
S3:计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值;
S4:计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r;
S5:根据水印图片的嵌入值对低频能量比值r进行量化,计算得到量化后的比值r’;
S6:根据低频能量比值r和量化后的比值r’计算谱系数变化比例;
S7:根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数;
S8:对量化调整后的FFT系数进行IFFT,得到嵌入单元对应的信号S’;
S9:将嵌入单元对应的信号S’写入音频文件,得到包括水印的音频文件。
2.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件,并将wav读取到内存构造成2个Int16的数组。
3.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的步骤S2具体包括:
S201:定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元,每个区域的嵌入长度均为N,一个嵌入单元的长度即为3N;
S202:定义水印图片长和宽分别为h和w,水印数据长度为h*w;
S203:嵌入一次水印需要的采样点长度L为:L=h×w×N×3;
S204:根据采样频率fs计算嵌入一个完整的水印需要音频的时间t:t=L/fs;
S205:根据时间t计算一个嵌入帧的帧长FL
Figure FDA0004127167020000021
n为常量;
S206:根据帧长FL对音频文件进行分帧,将每一个嵌入帧划分为多个嵌入单元;
S207:设定位区域的信号为SN,定位区域能量为:
Figure FDA0004127167020000022
N为信号的长度;
S208:设置能量阈值E',E'>0,滤除嵌入帧中能量小于能量阈值的嵌入单元;
S209:对嵌入帧中剩下的嵌入单元按照能量降序排序,选出前h*w个作为水印的嵌入单元;若嵌入帧中嵌入单元数量小于h*w,则跳过该嵌入帧。
4.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的步骤S3具体包括:
S301:对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT,每个区域得到nfft个FFT系数;
S302:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure FDA0004127167020000031
S303:同理得到第二嵌入区域的低频能量
Figure FDA0004127167020000032
Figure FDA0004127167020000033
5.根据权利要求4所述的抗压缩音频无声水印嵌入方法,其特征在于:所述的低频能量比值r的计算公式为:
Figure FDA0004127167020000034
所述的步骤S5具体包括:设置量化步长为S2,水印图片的嵌入值为
Figure FDA0004127167020000035
低频能量比值r量化为:
Figure FDA0004127167020000036
其中Q(IQ(r))为奇数代表1,偶数代表0,中间量
Figure FDA0004127167020000037
量化后的比值r’为:
Figure FDA0004127167020000038
若r’=0,则将r’修改为S2×2;
所述的步骤S6具体包括:计算中间量
Figure FDA0004127167020000039
根据中间量计算谱系数变化比例b=(a-1)/(a+1);
所述的调整第一嵌入区域和第二嵌入区域的FFT系数的公式为:
Figure FDA00041271670200000310
Figure FDA0004127167020000041
所述的步骤S8具体包括:设嵌入单元的原始信号为S,则嵌入单元进行IFFT后的对应的信号S’为:
Figure FDA0004127167020000042
其中,S′xi=IFFT(C′xi),0≤i<nfft,表示第一嵌入区域中第i个采样点对应的信号,S′xj表示第一嵌入区域中第j个采样点对应的信号,当j=i时,S′xj=S′xi
S′yi=IFFT(C′yi),0≤i<nfft,表示第二嵌入区域中第i个采样点对应的信号,S′yj表示第二嵌入区域中第j-N个采样点对应的信号,当(j-N)=i时,S′y(j-N)=S′yi
S(j-2N)=SN
6.根据权利要求1所述的抗压缩音频无声水印嵌入方法,其特征在于:该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正:对每一个采样点嵌入前后的值进行对比,若变化幅度超过Int16的最大值的215-1,则将值重新调整为原始值。
7.一种基于权利要求1-6中任意一项所述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法,其特征在于:包括如下步骤:
对音频文件进行处理,得到与水印嵌入相同目标格式的音频文件;
分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序;
根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r;
根据量化步长S2对低频能量比值进行量化,得到嵌入的信号值;
提取一帧中全部的信号记为水印的二进制数据;
将水印的二进制数据转换为h×w的图片,得到初始水印。
8.根据权利要求7所述的抗压缩音频无声水印提取方法,其特征在于:所述的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件;
所述的分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序具体包括:计算定位区域的能量:
Figure FDA0004127167020000051
并滤除能量低于能量阈值的嵌入单元,对嵌入帧中剩下的嵌入单元按照能量降序排序,选出水印嵌入单元;
所述的计算第一嵌入区域和第二嵌入区域的低频能量比值r包括:设第一嵌入区域做FFT后得到的系数为Cx=Cx1,Cx2,Cx3,...,Cxnfft,第一嵌入区域的低频能量
Figure FDA0004127167020000052
同理得到第二嵌入区域的低频能量/>
Figure FDA0004127167020000053
低频能量比值/>
Figure FDA0004127167020000054
所述的根据量化步长S2对低频能量比值进行量化具体包括:低频能量比值r量化为:
Figure FDA0004127167020000055
其中Q(r)为奇数代表1,偶数代表0。/>
CN202010061508.8A 2020-01-19 2020-01-19 一种抗压缩音频无声水印嵌入和提取方法及系统 Active CN111292756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010061508.8A CN111292756B (zh) 2020-01-19 2020-01-19 一种抗压缩音频无声水印嵌入和提取方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010061508.8A CN111292756B (zh) 2020-01-19 2020-01-19 一种抗压缩音频无声水印嵌入和提取方法及系统

Publications (2)

Publication Number Publication Date
CN111292756A CN111292756A (zh) 2020-06-16
CN111292756B true CN111292756B (zh) 2023-05-26

Family

ID=71023248

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010061508.8A Active CN111292756B (zh) 2020-01-19 2020-01-19 一种抗压缩音频无声水印嵌入和提取方法及系统

Country Status (1)

Country Link
CN (1) CN111292756B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968654B (zh) * 2020-08-24 2022-09-16 成都潜在人工智能科技有限公司 一种自适应混合域音频水印嵌入方法
CN115831131B (zh) * 2023-01-15 2023-06-16 中国科学技术大学 一种基于深度学习的音频水印嵌入提取的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847409A (zh) * 2010-03-25 2010-09-29 北京邮电大学 一种基于数字指纹的语音完整性保护方法
CN102664013A (zh) * 2012-04-18 2012-09-12 南京邮电大学 基于能量选择的离散余弦变换域的音频数字水印方法
EP2787503A1 (en) * 2013-04-05 2014-10-08 Movym S.r.l. Method and system of audio signal watermarking
CN106409302A (zh) * 2016-06-22 2017-02-15 华中师范大学 基于嵌入区域选择的音频水印方法及系统
CN106504757A (zh) * 2016-11-09 2017-03-15 天津大学 一种基于听觉模型的自适应音频盲水印方法
CN106898358A (zh) * 2017-03-07 2017-06-27 武汉大学 从时频分析角度出发的鲁棒数字音频水印算法
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2362385A1 (en) * 2010-02-26 2011-08-31 Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. Watermark signal provision and watermark embedding

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101847409A (zh) * 2010-03-25 2010-09-29 北京邮电大学 一种基于数字指纹的语音完整性保护方法
CN102664013A (zh) * 2012-04-18 2012-09-12 南京邮电大学 基于能量选择的离散余弦变换域的音频数字水印方法
EP2787503A1 (en) * 2013-04-05 2014-10-08 Movym S.r.l. Method and system of audio signal watermarking
US10043527B1 (en) * 2015-07-17 2018-08-07 Digimarc Corporation Human auditory system modeling with masking energy adaptation
CN106409302A (zh) * 2016-06-22 2017-02-15 华中师范大学 基于嵌入区域选择的音频水印方法及系统
CN106504757A (zh) * 2016-11-09 2017-03-15 天津大学 一种基于听觉模型的自适应音频盲水印方法
CN106898358A (zh) * 2017-03-07 2017-06-27 武汉大学 从时频分析角度出发的鲁棒数字音频水印算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Wen-Nung Lie,et al..Robust and high-quality time-domain audio watermarking based on low-frequency amplitued modification.《IEEE Transactions on Multimedia》.2006,第8卷(第1期),全文. *
暴晋飞等.基于能量比的小波域音频水印算法.《计算机应用研究》.2010,第27卷(第3期),全文. *

Also Published As

Publication number Publication date
CN111292756A (zh) 2020-06-16

Similar Documents

Publication Publication Date Title
Hu et al. Robust, transparent and high-capacity audio watermarking in DCT domain
KR100898879B1 (ko) 부수 정보에 응답하여 하나 또는 그 이상의 파라메터를변조하는 오디오 또는 비디오 지각 코딩 시스템
Cvejic et al. A wavelet domain LSB insertion algorithm for high capacity audio steganography
US8032361B2 (en) Audio processing apparatus and method for processing two sampled audio signals to detect a temporal position
US9008811B2 (en) Methods and systems for adaptive time-frequency resolution in digital data coding
KR20070045993A (ko) 오디오 처리
US8838442B2 (en) Method and system for two-step spreading for tonal artifact avoidance in audio coding
CN111292756B (zh) 一种抗压缩音频无声水印嵌入和提取方法及系统
JP4021124B2 (ja) デジタル音響信号符号化装置、方法及び記録媒体
Shirali-Shahreza et al. High capacity error free wavelet domain speech steganography
Huang et al. Optimization-based embedding for wavelet-domain audio watermarking
CN113782041A (zh) 一种基于音频变频域的嵌入和定位水印的方法
Kaur et al. A high payload audio watermarking algorithm robust against Mp3 compression
Attari et al. Robust audio watermarking algorithm based on DWT using Fibonacci numbers
US20080273707A1 (en) Audio Processing
Attari et al. Robust and transparent audio watermarking based on spread spectrum in wavelet domain
Bao et al. MP3-resistant music steganography based on dynamic range transform
Nematollahi et al. Optimization of a blind speech watermarking technique against amplitude scaling
Dhar et al. Audio watermarking in transform domain based on singular value decomposition and quantization
CN111968654B (zh) 一种自适应混合域音频水印嵌入方法
Irawati et al. QR-based watermarking in audio subband using DCT
Yu et al. Detecting MP3Stego using calibrated side information features.
Attari et al. Robust and blind audio watermarking in wavelet domain
Zhang et al. An AAC steganography scheme for adaptive embedding with distortion minimization model
Gupta et al. Perceptually transparent & robust audio watermarking algorithm using multi resolution decomposition & Cordic QR decomposition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230508

Address after: Room 1210, 12 / F, unit 1, building 1, No. 722, middle section of Yizhou Avenue, high tech Zone, Chengdu, Sichuan 610000

Applicant after: Chengdu potential Artificial Intelligence Technology Co.,Ltd.

Address before: 610041 Building No. 722, Building No. 1, Unit 12, Layer 121, Middle Section of Yizhou Avenue, Chengdu High-tech Zone, Sichuan Province

Applicant before: CHENGDU HIFIVE TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant