CN111292756B

CN111292756B - 一种抗压缩音频无声水印嵌入和提取方法及系统

Info

Publication number: CN111292756B
Application number: CN202010061508.8A
Authority: CN
Inventors: 尹学渊; 王东明; 江天宇
Original assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Current assignee: Chengdu Potential Artificial Intelligence Technology Co ltd
Priority date: 2020-01-19
Filing date: 2020-01-19
Publication date: 2023-05-26
Anticipated expiration: 2040-01-19
Also published as: CN111292756A

Abstract

本发明公开了一种抗压缩音频无声水印嵌入和提取方法及系统，该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入，第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化，减轻对音质的破坏，对于数字音频版权保护和认证具有重要的现实意义；水印提取方法提取水印不需要原文件，能够实现盲水印提取；该系统应用该方法，简单易实施。经过水印嵌入后与嵌入前的音频提供给专业人士辨认，需要仔细辨别才能区分，因此在只提供水印版音频时，可以认为该方法对音频音质几乎无影响；嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片，因此该方法具有较强的鲁棒性。

Description

一种抗压缩音频无声水印嵌入和提取方法及系统

技术领域

本发明属于音频数字水印技术领域，具体地说，涉及一种抗压缩音频无声水印嵌入和提取方法及系统。

背景技术

随着数字音频技术的不断发展，音乐版权问题受到重视。用于音频版权保护的技术得到越来越多的研究与关注，无声水印技术就是其中之一。由于人类听觉系统(HAS)极为灵敏，音频感知冗余较小，水印同时满足隐蔽性和鲁棒性的困难很大，同时音频压缩算法例如MP3(MPEG Layer3)因为其出色的压缩率和音质，随着网络时代的到来已经成为数字音频的主流压缩方式。MP3编码是一种有损压缩音频经过压缩后水印信息也将被破坏，因此音频水印的研究相对于图像水印算法更具有挑战性。

数字音频水印算法一般分为时域、频域和压缩域3类，时域方法最具代表的是最低意义位嵌入算法(LSB)，回声域嵌入等；频域法通过离散傅里叶变换(DFT)、离散余弦变换(DCT)或离散小波变换(DWT)等变换方法转换为频域再实现水印嵌入；压缩域通常是在MPEG-2AAC、MP3等压缩域上进行嵌入，但是该算法被限制在MP3压缩过程中实现因此不具备通用性。

最低意义位嵌入算法(LSB)：将水印转换为二进制数据，再根据音频文件本身的位深得到每一个采样点的最小位。通过改变最小位的值来实现水印的嵌入。最低意义位嵌入算法(LSB)实现简单同时隐蔽性好，但是鲁棒性很差。

频域DWT法：将音频分帧进行DWT转换，DWT变换后将得到近似系数设为Ac和细节系数设为Dc，通常认为低频具有更好的鲁棒性和隐蔽性，因此通常将水印嵌入在近似系数Ac中。定义一个嵌入强度系数δ，该系数将影响水印健壮性和隐蔽性，同时设水印转为二进制后的序列为w长度为l，则有嵌入后的近似系数Ac′：Ac′＝Ac×δ×(1+w(i)),0≤i＜1,将每帧进行嵌入后，对嵌入后的Ac′、Dc进行逆离散小波变换(IDWT)得到时域波形图，在写入文件即完成水印嵌入。频域DWT法相对复杂度高但是鲁棒性好，但是受到嵌入强度的制约强度值过大将产生噪音过小将丢失水印且在提取水印时需要原文件。

MP3(AAC)压缩后，音频的时域和幅值都将发生变化，因此上述2种算法嵌入的水印信息都将在压缩过程中丢失。

发明内容

针对现有技术中上述的不足，本发明提供一种抗压缩音频无声水印嵌入和提取方法及系统，该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入，第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化，减轻对音质的破坏，对于数字音频版权保护和认证具有重要的现实意义；水印提取方法提取水印不需要原文件，能够实现盲水印提取；该系统应用该方法，简单易实施。

为了达到上述目的，本发明采用的解决方案是：一种抗压缩音频无声水印嵌入方法，包括如下步骤：

S1：数据预处理，将音频转换为目标格式的音频文件，目标格式的音频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件，并将wav读取到内存构造成2个Int16的数组，48kHz为CD级的质量的音频采样率，采样率更大，需要处理的数据量更多，音频质量更好；同时将水印信息构造为灰度图片，灰度图片用二进制表示，增加系统的鲁棒性。

S2：分帧获取包括第一嵌入区域、第二嵌入区域以及定位区域的水印嵌入单元，具体包括：

S201：定义一个包括第一嵌入区域、第二嵌入区域以及定位区域的嵌入单元，每个区域的嵌入长度均为N，一个嵌入单元的长度即为3N；

S202：定义水印图片长和宽分别为h和w，水印数据长度为h*w；

S203：嵌入一次水印需要的采样点长度L为：L＝h×w×N×3；

S204：根据采样频率fs计算嵌入一个完整的水印需要音频的时间t：t＝L/fs；

S205：根据时间t计算一个嵌入帧的帧长F_L：

n为常量；

S206：根据帧长F_L对音频文件进行分帧，将每一个嵌入帧划分为多个嵌入单元；

S207：设定位区域的信号为S_N，定位区域能量为：

N为信号的长度；

S208：设置能量阈值E'，E'＞0，滤除嵌入帧中能量小于能量阈值的嵌入单元；

S209：对嵌入帧中剩下的嵌入单元按照能量降序排序，选出前h*w个作为水印的嵌入单元，能量高的嵌入单元具有更好的鲁棒性；若嵌入帧中嵌入单元数量小于h*w，说明当前帧不足以嵌入完整的水印，则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序，提高算法鲁棒性同时避免了MP3压缩造成的时域平移问题。

S3：计算每个嵌入单元的第一嵌入区域以及第二嵌入区域的低频能量值，具体包括：

S301：对每个嵌入单元的第一嵌入区域和第二嵌入区域分别做FFT，每个区域得到nfft个FFT系数，nfft的大小与FFT函数的窗口大小有关；

S302：设第一嵌入区域做FFT后得到的系数为C_x＝C_x1,C_x2,C_x3,...,C_xnfft，第一嵌入区域的低频能量

S303：同理得到第二嵌入区域的低频能量

第一嵌入区域和第二嵌入区域的低频能量计算式中n和k都一致。

S4：计算第一嵌入区域以及第二嵌入区域的低频能量值中的最大值与最小值的比值作为低频能量比值r，低频能量比值r的计算公式为：

r的值始终大于1，量化后的值也存在能量差产生掩蔽效应减轻嵌入带来的对音质的破坏效果。

S5：根据水印图片的嵌入值对低频能量比值r进行量化，计算得到量化后的比值r’，具体包括：设置量化步长为S₂，水印图片的嵌入值为

低频能量比值r量化为：

其中Q(IQ(r))为奇数代表1，偶数代表0，中间量

量化后的比值r’为：

若r’＝0，则将r’修改为S₂×2；通过量化将r量化为距离最近的表示为w_i的中间区域(S₂/2)提高量化的鲁棒性。

S6：根据低频能量比值r和量化后的比值r’计算谱系数变化比例，具体包括：计算中间量

根据中间量计算谱系数变化比例b＝(a-1)/(a+1)。

S7：根据谱系数变化比例调整第一嵌入区域和第二嵌入区域的FFT系数，公式为：

S8：对量化调整后的FFT系数进行IFFT，得到嵌入单元对应的信号S’，具体包括：设嵌入单元的原始信号为S，则嵌入单元进行IFFT后的对应的信号S’为：

其中，S′_xi＝IFFT(C′_xi)，0≤i＜nfft，表示第一嵌入区域中第i个采样点对应的信号，S′_xj表示第一嵌入区域中第j个采样点对应的信号，当j＝i时，S′_xj＝S′_xi；

S′_yi＝IFFT(C′_yi)，0≤i＜nfft，表示第二嵌入区域中第i个采样点对应的信号，S′_yj表示第二嵌入区域中第j-N个采样点对应的信号，当(j-N)＝i时，S′_y(j-_N)＝S′_yi；

S_(j-_2N)＝S_N，由于定位区域没有进行水印嵌入，因此定位区域信号保持不变，避免定位不准确的情况发生。

S9：将嵌入单元对应的信号S’写入音频文件，得到包括水印的音频文件。

由于IFFT时可能会存在溢出的情况，因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正：对每一个采样点嵌入前后的值进行对比，若变化幅度超过Int16的最大值的2¹⁵-1，则将该值重新调整为原始值，这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况，优先保证音频质量而且对于一张图片部分位错误依然可以辨别。

一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法，包括如下步骤：

对音频文件进行处理，得到与水印嵌入相同目标格式的音频文件，频文件为采样率为44.1kHz或48kHz、立体声、16bit的wav文件；

分帧按能量大小过滤筛选出水印嵌入单元和嵌入顺序，具体包括：计算定位区域的能量：

并滤除能量低于能量阈值的嵌入单元，对嵌入帧中剩下的嵌入单元按照能量降序排序，选出水印嵌入单元；

根据每个嵌入单元计算第一嵌入区域和第二嵌入区域的低频能量比值r，包括：设第一嵌入区域做FFT后得到的系数为C_x＝C_x1,C_x2,C_x3,...,C_xnfft，第一嵌入区域的低频能量

同理得到第二嵌入区域的低频能量/>

低频能量比值/>

根据量化步长S₂对低频能量比值进行量化，得到嵌入的信号值，具体包括：低频能量比值r量化为：

其中Q(r)为奇数代表1，偶数代表0，得到嵌入的信号值；

提取一帧中全部的信号记为水印的二进制数据；

将水印的二进制数据转换为h×w的图片，得到初始水印。

一种抗压缩音频无声水印嵌入和提取系统，包括数据处理模块，将音频转换为目标格式的音频文件，将欲嵌入的水印信息构造为灰度图片；

嵌入单元获取模块，过滤能量小于阈值的嵌入单元，并将剩下的嵌入单元按照能量降序排序，选出与水印大小相同数量的嵌入单元用于水印嵌入；

水印嵌入模块，计算嵌入单元对应的信号S’，并将信号S’写入音频文件，得到包括水印的音频文件；

以及水印提取模块，计算嵌入的信号值，并根据嵌入的信号值提取一帧中全部的信号记为水印的二进制数据，将水印的二进制数据转换为h×w的图片，得到初始水印。

所述的系统还包括破音修正模块，所述的破音修正模块用于对每一个采样点嵌入前后的值进行对比，若变化幅度超过Int16的最大值的2¹⁵-1，则将该值重新调整为原始值。

本发明的有益效果是：

(1)该水印嵌入方法具有较好的隐蔽性、鲁棒性且适用于MP3及AAC编解码的音频水印嵌入，第一嵌入区域、第二嵌入区域的低频能量值之中的最大值与最小值的比值进行量化，减轻对音质的破坏，对于数字音频版权保护和认证具有重要的现实意义；水印提取方法提取水印不需要原文件，能够实现盲水印提取；该系统应用该方法，简单易实施。

(2)经过水印嵌入后与嵌入前的音频提供给专业人士辨认，需要仔细辨别才能区分，因此在只提供水印版音频时可以认为该方法对音频音质几乎无影响；嵌入后的音频经过mp3转码、重采样、裁剪、位移等方式均可获得水印图片，因此该方法具有较强的鲁棒性。

附图说明

图1为量化结果示意图；

图2为掩蔽效应示意图；

图3为WAV压缩后波形产偏移展示图；

图4为水印嵌入方法流程图；

图5为水印提取方法流程图；

图6为水印嵌入和提取系统框图。

具体实施方式

以下结合附图对本发明作进一步描述：

首先对几个技术原理进行介绍。

1.量化：将值映射在坐标系上，然后按照一个量化因子(步幅)对坐标系进行划分并假设其每一个步幅中所代表的值。在水印算法中通常代表0,1用来表示当前二进制位的值，下面假设量化因子为Δ，0-Δ代表0，Δ-2Δ代表1则有如图1所示的量化结果。从图中可以看出-Δ-0代表1，0-Δ代表0，Δ-2Δ代表1，2Δ-3Δ代表0，3Δ-4Δ代表1。

2.掩蔽效应：在人类听觉系统HAS中存在的一种效应，短时间内能量高的将遮蔽能量低的，使得人类只能听到能量高的部分。超前掩蔽即后部分能量高于前部分那么只能听到后部分，反之即有滞后掩蔽；同时掩蔽即前后能量高于当前部分那么当前部分将不会被听见而被前后的声音所掩蔽。掩蔽效应如图2所示。

3.时域变化：音频经过MP3有损压缩后，时域上的表现不仅仅只是幅度的变化还存在时序上的偏移，因为MP3压缩正交重叠变化时头尾帧需要补0，从而产生边缘效应，解码后这部分数据也加入到音频之中，即压缩后产生了时序上的偏移，偏移效果如图3所示。

4.频域失真：MP3是一种有损压缩，利用声音的频域掩蔽效应使量化噪音处于频域掩蔽阈值之下，去除了音频感知的冗余部分，这就会导致高频压缩后变化大而低频变化相对较小。实验发现MP3压缩后10kHz以上的幅度变化超过了90％而3kHz以下的幅度变化在4％以内，因此中低频对MP3编解码具有较好的鲁棒性。

如图4所示，本发明提供了一种抗压缩音频无声水印嵌入方法，包括如下步骤：

S202：定义水印图片长和宽分别为h和w，水印数据长度为h*w；

S203：嵌入一次水印需要的采样点长度L为：L＝h×w×N×3；

S205：根据时间t计算一个嵌入帧的帧长F_L：

n为常量，通常n取10；

S207：设定位区域的信号为S_N，定位区域能量为：

N为信号的长度；

S209：对嵌入帧中剩下的嵌入单元按照能量降序排序，选出前h*w个作为水印的嵌入单元，能量高的嵌入单元具有更好的鲁棒性；若嵌入帧中嵌入单元数量小于h*w，说明当前帧不足以嵌入完整的水印，则跳过该嵌入帧。利用定位区域能量值来确定嵌入区域和顺序，提高算法鲁棒性。分帧并细化到水印每一位所需的音频采样嵌入单元，同时确保嵌入单元数大于水印长度，有效避免了MP3压缩造成的时域平移问题。

S303：同理得到第二嵌入区域的低频能量

低频能量比值r量化为：

其中Q(IQ(r))为奇数代表1，偶数代表0，中间量

量化后的比值r’为：

根据中间量计算谱系数变化比例b＝(a-1)/(a+1)。

S′_yi＝IFFT(C′_yi)，0≤i＜nfft，表示第二嵌入区域中第i个采样点对应的信号，S′_yj表示第二嵌入区域中第j-N个采样点对应的信号，当(j-N)＝i时，S′_y(j-N)＝S′_yi；

S_(j-2N)＝S_N，定位区域由于没有进行水印嵌入，因此定位区域信号保持不变，避免定位不准确的情况发生。

由于IFFT时可能会存在溢出的情况，因此该方法在将嵌入单元对应的信号S’写入音频文件前还包括破音修正：对每一个采样点嵌入前后的值进行对比，若变化幅度超过Int16的最大值的2¹⁵-1，则将该值重新调整为原始值，这样虽然可能丢失了一个位的水印信号但是避免了音频破音的情况，优先保证音频质量，而且对于一张图片部分位错误依然可以辨别。

本申请还提出了一种基于前述的抗压缩音频无声水印嵌入方法嵌入的无声水印的提取方法，如图5所示，包括如下步骤：

同理得到第二嵌入区域的低频能量/>

低频能量比值/>

其中Q(r)为奇数代表1，偶数代表0，得到嵌入的信号值；

提取一帧中全部的信号记为水印的二进制数据；

将水印的二进制数据转换为h×w的图片，得到初始水印。

本申请还提出了一种抗压缩音频无声水印嵌入和提取系统，如图6所示，包括数据处理模块，将音频转换为目标格式的音频文件，将欲嵌入的水印信息构造为灰度图片；

在本发明中，嵌入长度N以及量化步长S₂的值的大小对本方法的鲁棒性和隐蔽性都有影响。量化步长越大鲁棒性越好，但因为r改变的幅度也会增大，从而会导致隐蔽性下降，因此量化步长也可以称之为品质系数；N的大小影响着FFT后低频能量精度和信号嵌入的容量，N的值越大能量精度越高，但是嵌入一个信号位需要的采样点就越多。嵌入长度N以及量化步长S₂值可以根据具体的需求具体设置，nfft的大小与FFT函数的窗口大小有关，FFT函数的窗口固定后nfft的大小也就固定了。在本发明的一个实施例中，S₂＝0.15，N＝256，FFT函数的窗口大小与N相同，也就是说nfft＝256。

以上所述实施例仅表达了本发明的具体实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。