CN116825116B

CN116825116B - 抗去同步攻击的鲁棒音频水印嵌入和提取方法

Info

Publication number: CN116825116B
Application number: CN202310885244.1A
Authority: CN
Inventors: 苏兆品; 张国富; 郑路璐; 翁兆芳; 岳峰
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2023-07-18
Filing date: 2023-07-18
Publication date: 2024-03-12
Anticipated expiration: 2043-07-18
Also published as: CN116825116A

Abstract

本发明提供了一种抗去同步攻击的鲁棒音频水印嵌入方法和系统、提取方法和系统，涉及数字水印技术领域。本发明通过引入嵌入参数，并基于量化调制方法在水印嵌入阶段根据水印信息的不同将原始载体数据量化到不同的量化区间，在水印提取时根据所属的量化区间来识别水印信息，可以实现盲检测。同时，在水印嵌入时，定义ASVD特征生成嵌入参数，可以根据不同的载体音频会得到不同的嵌入参数，实现了自适应的嵌入水印，使得水印的嵌入和提取的性能更优。

Description

抗去同步攻击的鲁棒音频水印嵌入和提取方法

技术领域

本发明涉及数字水印技术领域，具体涉及一种抗去同步攻击的鲁棒音频水印嵌入方法和系统、提取方法和系统。

背景技术

随着互联网技术和音频处理技术的发展，短视频平台快速崛起，观看短视频成为人们日常生活中用来娱乐消遣的重要方式之一。短视频在用户与音乐作品之间搭建了桥梁，其广泛传播拓宽了音频作品的传播渠道。与此同时，在线音频平台也使越来越多的用户有了分享和传播音频作品的空间，″耳朵经济″表现出无限的发展潜力。但随着用户规模的扩大，出现了不法分子在没有获得作者允许的情况下，使用盗版音频牟取非法利益的现象。该现象严重损害了音频所有者和出版者的利益。因此，如何有效地保护数字音频作品的版权完整是当前企业和用户都高度重视和关注的问题。

音频水印技术作为信息隐藏技术的重要分支，对音频作品版权保护十分有效，因此得到了越来越广泛的关注。其中，音频水印技术可以理解为：在不影响音频作品使用价值的前提下，在音频所有者上传音频作品之前，将特定的版权信息作为水印嵌入到音频文件中，并将嵌入水印后的音频文件进行上传。当发生版权纠纷问题时，可以通过提取水印，验证版权来进行版权保护，以使得未经授权用户很难将原始音频文件冒充成自己的音频作品。

但伴随着信息技术的发展，针对音频的各种攻击也是层出不穷，尤其是去同步攻击，给音频水印技术的发展带来了阻碍，鲁棒音频水印技术仍然有待进一步突破。现有技术中虽提出了许多有效的音频水印算法，但是仍存在着无法抵抗去同步攻击或者是无法同时抵抗多种攻击等问题。因此，如何有效地抵抗去同步攻击并恢复去同步攻击下的水印信息一直是音频水印中的一个紧迫问题。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种抗去同步攻击的鲁棒音频水印嵌入方法和系统、提取方法和系统，解决了无法有效地抵抗去同步攻击并恢复去同步攻击下的水印信息的技术问题。

(二)技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

在本发明的第一方面，提供了一种抗去同步攻击的鲁棒音频水印嵌入方法，所述方法包括：

S11、将原始音频信号进行分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为其中，A表示为原始音频信号，/>表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的左端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数；

S12、将水印序列中的每一比特水印嵌入至不同原始音频信号段中的左右两端语音信号中；其中，所述水印序列段的获取过程包括：根据预先给定的二进制水印图像，获取一维0-1水印序列，并按照所述原始音频段的段数进行等长分段；

S13、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT变换、SVD操作后得到的奇异值；A_l，i表示第i段原始音频信号的左端音频信号；y_r，i表示对A_r，i进行DCT变换、SVD操作后得到的奇异值，A_r，i表示第i段原始音频信号的右端音频信号；

S14、基于奇异值y_l，i、y_r，i和预设的公式，获取ASVD特征和RSVD特征；其中，获取ASVD特征的公式为：获取RSVD特征的公式为：f₂(i)＝|y_l，i-y_r，i|；f₁表示原始音频信号对应的ASVD特征，f₂(i)表示第i段原始音频信号对应的RSVD特征；

S15、基于所述ASVD特征得到自适应嵌入参数P₀和P₁；其中，P₀＝β₀*f₁，P₁＝β₁*f₁；β₀和β₁表示控制水印嵌入强度的影响因子，且0<β₀<β₁<1；

S16、基于预设的修改规则对奇异0y_l，i、y_r，i进行修改，得到修改后的奇异值y’_l，i和y’_r，i；其中，预设的修改规则包括：

当W(i)＝0时，判断f₂(i)<P₀是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

其中，W(i)表示在A_l，i与A_r，i两段语音信号之间嵌入的水印比特；

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

S17、对奇异值y’_l，i和y’_r，i分别进行SVD、IDCT操作，得到含水印的音频信号和并整合/>和/>得到/>其中，/>表示第i段含水印的音频段；

S18、整合所有含水印音频段，获取含水印音频信号。

可选的，在获取所述一维0-1水印序列后，所述方法还包括：根据m序列水印序列生成密钥；

具体包括：根据预先给定的本原多项式和初始状态，经过L位线性移位寄存器的移位，获取与所述一维0-1水印序列等长的m序列，将所述m序列与一维0-1水印序列进行异或，获取与所述一维0-1水印序列等长的密钥。

在本发明的第二方面，提供了一种抗去同步攻击的鲁棒音频水印嵌入系统，所述系统包括：

分段处理模块，用于S11、将原始音频信号进行分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为A＝{A_l，1，A_r，1，…A_l，Lw，A_r，Lw}；其中，A表示为原始音频信号，表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的左端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数；

水印嵌入模块，用于执行S12、将水印序列中的每一比特水印嵌入至不同原始音频信号段中的左右两端语音信号中；其中，所述水印序列段的获取过程包括：根据预先给定的二进制水印图像，获取一维0-1水印序列，并按照所述原始音频段的段数进行等长分段；

第一奇异值获取模块，用于执行Ｓ13、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT、SVD操作后得到的奇异值，A_l，i表示第i段原始音频信号的左端音频信号；y_r，i表示对A_r，i进行DCT、SVD操作后得到的奇异值，A_r，i表示第i段原始音频信号的右端音频信号；

特征获取模块，用于执行S14、基于奇异值y_l，i、y_r，i和预设的公式，获取ASVD特征和RSVD特征；其中，获取ASVD特征的公式为：获取RSVD特征的公式为：f₂(i)＝|y_l，i-y_r，i|；f₁表示ASVD特征，f₂(i)表示第i段语音信号对应的RSVD特征；

参数获取模块，用于执行S15、基于所述ASVD特征得到自适应嵌入参数P₀和P₁；其中，P₀＝β₀*f₁，P₁＝β₁*f₁；β₀和β₁表示控制水印嵌入强度的影响因子，且0<β₀<β₁<1；

第二奇异值获取模块，用于执行S16、基于预设的修改规则对奇异值y_l，i、y_r，i进行修改，得到修改后的奇异值y’_l，i和y’_r，i；其中，预设的修改规则包括：

当W(i)＝0时，判断f₂(i)<P₀是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

其中，W(i)表示在A_l，i与A_r，i之间嵌入的水印比特；

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

逆操作模块，用于执行S17、对奇异值y’_l，i和y’_r，i分别进行SVD、IDCT操作，得到含水印的音频信号和/>并整合/>和/>得到/>其中，/>表示第i段含水印的音频段；

整合模块，用于执行S18、整合所有含水印音频段，获取含水印音频信号。

在本发明的第三方面，提供了一种抗去同步攻击的鲁棒音频水印提取方法，当采用上述鲁棒音频水印嵌入方法获取的含水印音频信号遭受去同步攻击后，针对被攻击音频，该提取方法包括：

S20、令i＝1；

S21、引入滑动窗口截取被攻击音频，所述滑动窗口的长度等于原始音频段的长度；令滑动距离Dis＝0；初始化滑动窗口位置Loc，其中：

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

若i＞1且第i＝1次提取的水印段为全零段，令Loc＝Loc-Dis，采用回滚机制更新滑动窗口的位置为提取第i-1段水印的初始位置；

若i＞1且第i-1次提取的水印段为非全零段，令Loc＝Loc+|A_i|，更新滑动窗口的位置为当前位置加上一个原始音频段长|A_i|；

S22、计算滑动窗口的截取部分与含水印音频段的相似性，若相似性大于第一阈值，则令滑动步长step＝a，否则令滑动步长step＝b；其中，a<b；所述相似性表示为FFT的实部系数矩阵与DCT系数矩阵进行对应位置相除后的比值；

S23、将滑动窗口向前滑动一个step；若滑动窗口超出被攻击音频的终点，则直接转入S25，否则更新滑动距离Dis＝Dis+step；

S24、若Dis<|A_i|，转入S22；否则转入S25；

S25、从S22中获取的所有相似性中选取最大值，若最大值大于第二阈值，则提取水印比特，否则设置该水印比特为空；

S26、令i＝i+1，转入S21，直到遍历完水印序列段数后结束提取过程。

可选的，所述S22中计算相似性的过程包括：

其中，和/>分别是通过对/>和S执行FFT和DCT操作获得的比值；/>表示含水印音频段；S表示滑动窗口在被攻击音频上的截取部分；/>和/>分别表示/>和/>中的第k个系数之间的比值；/>和/>分别表示/>和/>的平均值。

可选的，所述S25中水印提取过程，包括：

获取滑动窗口S^*和ASVD特征；其中，S^*表示相似性最大值时对应的滑动窗口；

将所述滑动窗口S^*等分为两段：s_l ^*，S_r ^*，并基于所述ASVD特征得到自适应嵌入参数P₀和P₁；

对所述S_l ^*和S_r ^*对S_l ^*和S_r ^*分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；

基于所述奇异值y_l，i和y_r，i计算RSVD特征f₂；

判断f₂(i)＞(p₀+p₁)/4是否成立，若是，则若否，则/>其中，/>表示提取出的水印比特。

可选的，若S25中提取的水印为残缺水印，则采用m序列和密钥将所述残缺水印恢复成完整的二进制水印图像，具体包括：

S100、从所述残缺水印中随机选取一个空的水印比特，寻找所述空的水印比特最近的一个非全空比特段，从该非全空比特段中选取L个连续比特，将其与对应位置的L位密钥进行异或，获取L位m序列；其中，所述残缺水印表示提取的水印中包含空的水印比特；

S200、将所述L位m序列送到L级线性移位寄存器中，经过循环左移L+1次，得到第L+1位水印比特；

S300、将该第L+1位水印比特与对应位置的第L+1密钥进行异或，获取对应的水印并覆盖原本的空的水印比特；

S400、重复步骤S100～S300，直至所述残缺水印中所有空的水印比特均被覆盖，获取完整的一维0-1水印序列；

S500、解密所述一维0-1水印序列，获取所述二进制水印图像。

在本发明的第四方面，提供了一种抗去同步攻击的鲁棒音频水印提取系统，当采用如上述的鲁棒音频水印嵌入方法获取的含水印音频信号遭受去同步攻击后，针对被攻击音频，该提取系统包括：

起始模块，用于执行S20、令i＝1；

截取模块，用于执行S21、引入滑动窗口截取被攻击音频，所述滑动窗口的长度等于原始音频段的长度；令滑动距离Dis＝0；初始化滑动窗口位置Loc，其中：

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

若i＞1且第i-1次提取的水印段为全零段，令Loc＝Loc-Dis，采用回滚机制更新滑动窗口的位置为提取第i-1段水印的初始位置；

第一判断模块，用于执行S22、计算滑动窗口的截取部分与含水印音频段的相似性，若相似性大于第一阈值，则令滑动步长step＝a，否则令滑动步长step＝b；其中，a<b；所述相似性表示为FFT和DCT的比值；

滑动模块，用于执行S23、将滑动窗口向前滑动一个step；若滑动窗口超出被攻击音频的终点，则直接转入第三判断模块执行S25，否则更新滑动距离Dis＝Dis+step；

第二判断模块，用于执行S24、若Dis<|A_i|，转入第一判断模块执行S22；否则转入第三判断模块执行S25；

第三判断模块，用于执行S25、从第一判断模块执行S22中获取的所有相似性中选取最大值，若最大值大于第二阈值，则提取水印比特；否则设置该水印比特为空；

第四判断模块，用于执行S26、令i＝i+1，转入截取模块执行S21，直到遍历完水印序列段数后结束提取过程。

在本发明的第五方面，提供了一种存储介质，其存储有用于抗去同步攻击的鲁棒音频水印嵌入的计算机程序，其中，所述计算机程序使得计算机执行任一抗去同步攻击的鲁棒音频水印嵌入方法；或其存储有用于抗去同步攻击的鲁棒音频水印提取的计算机程序，其中，所述计算机程序使得计算机执行任一抗去同步攻击的鲁棒音频水印嵌入方法。

在本发明的第六方面，提供了一种电子设备，包括：

一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行任一抗去同步攻击的鲁棒音频水印嵌入或任一抗去同步攻击的鲁棒音频水印嵌入方法。

(三)有益效果

本发明提供了一种抗去同步攻击的鲁棒音频水印嵌入方法和系统、提取方法和系统。与现有技术相比，具备以下有益效果：

本发明通过引入嵌入参数，并基于量化调制方法在水印嵌入阶段根据水印信息的不同将原始载体数据量化到不同的量化区间，在水印提取时根据所属的量化区间来识别水印信息，可以实现盲检测且水印比特提取更为方便。同时，在水印嵌入时，定义ASVD特征生成嵌入参数，可以根据不同的载体音频会得到不同的嵌入参数，实现了自适应的嵌入水印，使得水印的嵌入和提取的性能更优。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种抗去同步攻击的鲁棒音频水印嵌入方法的流程图；

图2为本发明实施例提供的一种抗去同步攻击的鲁棒音频水印嵌入过程的示意图；

图3为本发明实施例提供的一种抗去同步攻击的鲁棒音频水印提取方法的流程图；

图4为本发明实施例提供的一种水印比特提取的流程示意图；

图5为本发明实施例提供的一种水印比特恢复的流程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本申请实施例通过提供一种抗去同步攻击的鲁棒音频水印嵌入方法和系统、提取方法和系统，解决了无法有效地恢复去同步攻击下的水印信息的技术问题。

本申请实施例中的技术方案为解决上述技术问题，总体思路如下：

正如背景技术中所言的，现有技术中无法有效地恢复去同步攻击下的水印信息。其中，该去同步攻击包括：大规模裁剪、变速不变调和变调不变速等攻击方式。

例如，文献[1]-Liu Z.，Huang Y.，Huang J.Patchwork-based audiowatermarking robust against de-synchronization and recapturing attacks[J].IEEE Transactions on Information Forensics and Security，2019，14(5)：1171-1180.该方案提出了一种基于拼接的PW-RFDLM方法，通过将同步码嵌入频域系数对数平均特征的残差中来抵抗去同步攻击。

文献[2]Liu C.，Zhang J.，Fang H.，et al.DeAR：A deep-learning-based audiore-recording resilient watermarking[C].The AAAI Conference on ArtificialIntelligence(AAAI)，2023。该方案提出一种基于深度学习的抗翻录水印算法(简称DeAR)，不仅能抵抗常见的电子信道失真，而且能抵抗翻录失真。

然而，上述的现有技术方案中，均存在着嵌入算法难以抵抗去同步攻击；或可以抵抗去同步攻击，但嵌入容量较小且计算效率不高的缺陷。基于此，本发明实施例开创性的提出一种抗去同步攻击的鲁棒音频水印技术，实现在音频经过去同步攻击后，仍然可以正确的提取出水印，并将提取出来的残缺水印恢复成完整水印，以保护音频作品版权。

本发明的方法主要涉及以下几个关键点：

第一、由于去同步攻击引起的干扰在短期内对相邻音频分段有类似的影响，本发明利用量化调制(Quantization Index Modulation，QIM)修改相邻音频分段的系数来嵌入水印，并且定义ASVD特征可以自适应的调整嵌入参数，从而提升了音频水印的抗去同步攻击能力。

其中，量化调制是根据水印信息的不同将原始载体数据量化到不同的量化区间，而在水印检测时根据所属的量化区间来识别水印信息。量化调制具有一系列适用于时域和频域、可以实现盲检测等优势。

第二、本发明提供的技术方案利用回滚机制和滑动窗口相结合，实现遭受去同步攻击后音频水印的提取。具体的，利用滑动窗口滑动比较相似性，找到水印提取的对应位置。当滑动窗口超出滑动阈值还未找到水印提取位置时，说明该水印比特丢失，滑动窗口则回滚寻找下一个水印比特，从而有效解决去同步攻击后音频水印的提取问题。

值得注意的是，由于单一的指标会在去同步攻击后发生变化，因此使用FFT与DCT之间稳定的关系作为相似性的比较指标。

第三、本发明提供的技术方案利用m序列实现攻击后的水印恢复。m序列是由n级移位寄存器和模2和组成的线性反馈移位寄存器生成的码序列。其中，m序列具有良好的周期性与伪随机性，不能预先确定但可以重复产生。

通过提取的水印与密钥异或可以得到部分m序列，再利用m序列的周期性恢复为空的水印比特对应的m序列，再进行异或进而恢复完整的水印，从而有效地保护音频与音频所有者的版权。

为了更好的理解上述技术方案，下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。

首先，有必要补充介绍本发明实施例中涉及的相关术语：

DCT：英文全称为Discrete Cosine Transform，中文释义为离散余弦变换。

SVD：英文全称为Singular Value Decomposition，中文释义为奇异值分解。

m序列：是最长线性移位寄存器序列的简称。

参见图1，图1为本发明实施例提供的一种抗去同步攻击的鲁棒音频水印嵌入方法的流程图，如图1所示，该方法包括以下步骤：

S11、将原始音频信号进行等长分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为其中，A表示为原始音频信号，/>表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，表示分段处理后的第L_w段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数。

S12、将水印序列中的每一比特水印嵌入至不同原始音频信号段中的左右两端语音信号中；其中，所述水印序列段的获取过程包括：根据预先给定的二进制水印图像，获取一维0-1水印序列。

S12、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT、SVD操作后得到的奇异值，y_r，i表示对A_r，i进行DCT、SVD操作后得到的奇异值；

S14、基于奇异值y_l，i、y_r，i和预设的公式，获取ASVD特征和RSVD特征；其中，获取ASVD特征的公式为：获取RSVD特征的公式为：f₂(i)＝|y_l，i-y_r，i|；f₁表示原始音频信号对应的ASVD特征，f₂(i)表示第i段原始音频信号对应的RSVD特征；；

S16、基于预设的修改规则对奇异值y_l，i、y_r，i进行修改，得到修改后的奇异值y’_l，i和y’_r，i；其中，预设的修改规则包括：

当W(i)＝0时，判断f₂(i)<P₀是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

S17、对奇异值y’_l，i和y’_r，i分别进行SVD、IDCT操作，得到含水印的音频信号和并整合/>和/>得到/>其中，/>表示第i段含水印的音频段。

S18、整合所有含水印音频段，获取含水印音频信号。

在一些实施例中，在执行步骤S1前，所述抗去同步攻击的鲁棒音频水印嵌入方法还包括水印图像预处理和密钥生成步骤，并分别用于后续的步骤以及水印提取过程。具体的：

为了使水印图像不可见并提高音频水印的安全性，首先采用分段非线性混沌映射对二进制水印图像进行加密，生成一维0-1水印序列。

在获得水印序列后，基于m序列和水印序列生成密钥。首先根据给定的本原多项式和初始状态，再经过线性移位寄存器的移位得到与所述一维0-1水印序列等长的m序列，将m序列与水印序列进行异或，从而获取与水印序列等长的密钥。

其中，m序列是由n级移位寄存器和模2和组成的线性反馈移位寄存器生成的码序列；m序列具有良好的周期性与伪随机性，其不能预先确定但可以重复产生。通过将m序列应用到数字音频水印中，使得含水印的音频在遭受去同步攻击之后，仍能在残缺的音频中完整地提取出整个水印，大大提高了水印的鲁棒性。

针对步骤S13，对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_i，l和y_r，i的过程包括：对A_l，i和A_r，i分别进行DCT变换，得到相关系数，从相关系数中选取低频和中频分量，再进行SVD操作，计算得到奇异值记为y_l，i和y_r，i。

针对步骤S16，得到修改后的奇异值y’_l，i和y’_r，i符合以下规则：

f’₂(i)＝|y_i，i-y’_r，i|，其中，f’₂(i)第i段原始音频信号修改后的RSVD特征。

针对步骤Ｓ17，IDCT变换表示DCT变换的逆变换。

基于上述处理，本发明利用量化调制的方法修改相邻音频分段的系数来嵌入水印，并且定义ASVD特征可以自适应的调整嵌入参数，可以有效提升水印的嵌入和提取的性能。参见图2，图2为本发明实施例提供的一种抗去同步攻击的鲁棒音频水印嵌入过程的示意图。

本发明还提供了一种鲁棒音频水印嵌入系统，其特征在于，所述系统包括：

分段处理模块，用于S11、将原始音频信号进行分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为其中，A表示为原始音频信号，/>表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的左端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数；

水印嵌入模块，用于执行S12、将水印序列中的每一比特水印嵌入至不同原始音频信号段中的左右两端语音信号中；其中，所述水印序列段的获取过程包括：根据预先给定的二进制水印图像，获取一维0-1水印序列；

第一奇异值获取模块，用于执行S13、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT、SVD操作后得到的奇异值，y_r，i表示对A_r，i进行DCT、SVD操作后得到的奇异值；

特征获取模块，用于执行S14、基于奇异值y_l，i、y_r，i和预设的公式，获取ASVD特征和RSVD特征；其中，获取ASVD特征的公式为：获取RSVD特征的公式为：f₂(i)＝|y_l，i-y_r，i|；f₁表示原始音频信号对应的ASVD特征，f₂(i)表示第i段原始音频信号对应的RSVD特征；；

当W(i)＝0时，判断f₂(i)<P0是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

其中，W(i)表示在A_l，i与A_r，i之间嵌入的水印比特；

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

逆操作模块，用于执行S17、对奇异值y’_l，i和y’_r，i分别进行SVD、IDCT操作，得到含水印的音频信号和/>并整合/>和/>得到/>

本发明实施例提供了一种存储介质，其存储有用于抗去同步攻击的鲁棒音频水印嵌入的计算机程序，其中，所述计算机程序使得计算机执行如上所述的鲁棒音频水印嵌入方法。

一种电子设备，包括：

一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的鲁棒音频水印嵌入方法。

可理解的是，本发明实施例提供的抗去同步攻击的鲁棒音频水印嵌入系统、存储介质和电子设备与本发明实施例提供的抗去同步攻击的鲁棒音频水印嵌入方法相对应，其有关内容的解释、举例和有益效果等部分可以参考抗去同步攻击的鲁棒音频水印嵌入方法中的相应部分，此处不再赘述。

参见图3，图3为本发明实施例提供了一种抗去同步攻击的鲁棒音频水印提取方法的流程图，当采用上述的鲁棒音频水印嵌入方法获取的含水印音频信号，遭受类似于变速不变调和变调不变速等去同步攻击时，针对被攻击音频，如图3所示，该提取方法包括：

S20、令i＝1；

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

S24、若Dis<|A_i|，转入S22；否则转入S25；

S25、从S22中获取的所有相似性中选取最大值，若最大值大于第二阈值，则提取水印比特；否则设置该水印比特为空；；

本发明实施例代替传统的同步码，利用滑动窗口比较相似性来寻找水印嵌入的起始位置；利用回滚机制和滑动窗口相结合，有利于实现遭受去同步攻击后音频水印的提取；利用m序列对提取水印进行恢复，实现了水印在遭受去同步攻击后的完整性恢复。

针对步骤S22，计算相似性的过程包括：

经过去同步攻击后的音频在时域与变换域都会有较大的改变，从而影响了水印嵌入的位置。现有技术中往往利用嵌入同步码的方式来定位水印嵌入的位置，无法解决同步码也被裁剪或者移位的问题。

基于上述处理，本发明利用滑动窗口滑动比较相似性，找到水印提取的对应位置。此外由于单一的指标会在去同步攻击后发生变化，因此使用FFT与DCT之间稳定的关系作为相似性的比较指标，可以使得水印比特的嵌入该是基于在受到去同步攻击后仍然保持稳定的系数上，有效提升了水印比特的鲁棒性和安全性。

针对步骤S25，水印提取过程包括以下步骤：

获取滑动窗口S^*和ASVD特征；其中，S^*表示相似性最大值时对应的滑动窗口。

将所述滑动窗口S^*等分为两段：S_l ^*，S_r ^*，并基于所述ASVD特征得到自适应嵌入参数P₀和P₁。

基于所述奇异值y_l，i和y_r，i计算RSVD特征f₂；

一种实现方式中，水印提取过程可以理解为：当定位水印的嵌入位置后，再通过滑动窗口和利用嵌入的逆过程，从受攻击的含水印音频信号中提取所有可能的/>提取不出来的水印比特记为空。滑动窗口提取水印示意图如图4所示。

一种实现方式中，由于去同步攻击会破坏水印的同步信息，导致提取出来的水印通常是不完整的(即可以理解为提取出的水印比特段中包含空的水印比特)，需要恢复成完整水印才能用于版权保护。因此在水印恢复阶段，基于m序列和提取的水印比特来恢复所有为空的水印比特。因为预处理过程中构造的线性反馈移位寄存器有L级，因此只要提取出来的残余水印与密钥异或之后可以得到连续L个m序列比特，就可以将其放入移位寄存器中，经过不断地循环左移更新寄存器的状态，从而生成后续的m序列比特。具体恢复过程如图5所示。

具体的，采用m序列和密钥将所述残缺水印恢复成完整的二进制水印图像，从而有效地保护音频与创作者的版权。该过程具体包括：

S200、将所述L位m序列送到L级线性移位寄存器中，经过循环左移L+1次，得到第L+1位水印；

S300、将该第L+1位水印与对应位置的第L+1密钥进行异或，获取对应的水印并覆盖原本的空的水印比特；

S500、解密所述一维0-1水印序列，获取所述二进制水印图像。

特别的，S500中采用分段非线性混沌映射算法的逆运算，用于解密所述一维0-1水印序列。

其中，m序列是由n级移位寄存器和模2和组成的线性反馈移位寄存器生成的码序列；m序列具有良好的周期性与伪随机性，其不能预先确定但可以重复产生。通过将m序列应用到数字音频水印中，使得含水印的音频在遭受去同步攻击之后，仍能在残缺的音频中完整地提取出整个水印，提高了水印的鲁棒性。

在一些实施例中，本发明提供了一种抗去同步攻击的鲁棒音频水印提取系统，其特征在于，当采用上述鲁棒音频水印嵌入方法获取的含水印音频信号遭受去同步攻击后，针对被攻击音频，该提取系统包括：

起始模块，用于执行S20、令i＝1；

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

本发明实施例提供了一种存储介质，其存储有用于抗去同步攻击的鲁棒音频水印嵌入的计算机程序，其中，所述计算机程序使得计算机执行如上所述的鲁棒音频水印嵌入方法；

或其存储有用于抗去同步攻击的鲁棒音频水印提取的计算机程序，其中，所述计算机程序使得计算机执行如上所述的鲁棒音频水印提取方法。

本发明实施例提供了一种电子设备，包括：

一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如上所述的鲁棒音频水印嵌入方法或如上所述的鲁棒音频水印提取方法。

可理解的是，本发明实施例提供的抗去同步攻击的鲁棒音频水印提取系统、存储介质和电子设备与本发明实施例提供的抗去同步攻击的鲁棒音频水印提取方法相对应，其有关内容的解释、举例和有益效果等部分可以参考抗去同步攻击的鲁棒音频水印提取方法中的相应部分，此处不再赘述。

为了更好地证明本发明实施例提供的去同步攻击的鲁棒音频水印嵌入、提取方案的优越性，现引入如下系统性能测试：

一、不可感知性测试结果

不可感知性是指：音频信号在嵌入水印信息后，对人类听觉感知产生的影响尽可能的小，不能引起人耳可感知的失真。其中，信噪比(Signal-to-noise Ratio，SNR)是衡量不可感知性的常用评价指标。SNR反映了含水印音频的整体失真，其值越大，音频信号的失真越小，水印的不可感知性也越好。ITU-R的BS.1387标准是目前国际上采用最多的评价音频不可听性的客观标准。该标准弥补了SNR没有考虑到人耳听觉系统特性的缺陷，其测试工具计算出的听觉质量客观区分度ODG是不可听性的衡量指标。ODG的评分标准如表1所示。从表中可以看出，ODG值越接近0，意味着嵌入水印的不可感知性越好。

表1听觉质量客观区分度ODG评价标准

ODG	描述
		0	不可感觉
-1	可感觉但不刺耳
		-2	轻微刺耳
-3	刺耳
		-4	非常刺耳

本次测试中，将对音频文件test1(blues，30s)和test2(folk，120s)(WAV格式，采样率44100，量化精度16bit)进行水印不可感知性测试。

将本申请的水印方案与采用PW-RFDLM方法的水印方案(文献[1])和采用DeAR方法(文献[2])的水印方案进行对比，其结果如表2所示。其中，表2为不可感知性的测试结果。

表2SNR和0DG测试结果

音频	方案	SNR	0DG
				testl	文献[1]	35.4096	-2.0764
test1	文献[2]	23.5861	-1.2061
				testl	本系统	43.0549	-0.3024
test2	文献[1]	35.2755	-2.1053
				test2	文献[2]	23.5861	-1.2061
test2	本系统	42.7621	-0.0782

由上述表2内容可见，本系统嵌入水印后的音频具有很好的不可感知性，SNR，ODG指标均优于其他方案。

二、鲁棒性测试

鲁棒性用于评价含水印音频在经过常规的信号处理操作或恶意的攻击后，从中检测到或提取出水印的能力的强弱。提取出来的水印与原始水印越接近，则表明该音频水印算法的鲁棒性越好。其中，误码率(Bit Error ratio，BER)是音频水印算法鲁棒性的评价标准之一，其准确地表示了原始水印和提取出来的水印之间不同比特的概率，BER值越接近于0，说明提取出的水印出错率越小。相关系数(Correlation Coefficient，Corr)也常用于表示原始水印与提取出来的水印的相似性，其取值范围为[-1，1]，该值越接近于1，说明水印的相似性越高，音频水印的鲁棒性越好。

对使用本本申请嵌入水印方案的音频文件test1(blues，30s)和test2(folk，120s)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使上述音频文件遭受常见的8种攻击，提取出的水印与平均误码率，平均相关系数如下表3所示。

表3本申请嵌入水印经过常规攻击后的误码率，相似性情况

其中，裁剪表示音频每隔400个样本点减去5个样本点。

对使用本申请嵌入水印方案的音频文件test3(folk，30s，从前端裁剪)和test4(jazz，60s，从中间裁剪)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使其遭受去同步攻击，提取出的水印与平均误码率，平均相关系数如下表4所示。

表4本算法嵌入水印经过去同步攻击后的误码率，相似性情况

当嵌入率不同(为20bps和30bps)时，对使用本申请嵌入水印方案的所有音频文件进行水印鲁棒性测试，使其遭受变速不变调和变调不变速攻击，提取出的水印与平均误码率，平均相关系数如下表5所示。

表5本申请嵌入水印经过变速不变调和变调不变速攻击后的误码率，相似性情况

对使用文献1算法嵌入水印的音频文件test1(blues，30s)和test2(folk，120s)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使其遭受常见的8种攻击，提取出的水印与平均误码率，平均相关系数如下表6所示。

表6文献1嵌入水印经过常规攻击后的误码率，相似性情况

对使用文献1算法嵌入水印的音频文件test3(folk，30s，从前端裁剪)和test4(jazz，60s，从中间裁剪)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使其遭受去同步攻击，提取出的水印与平均误码率，平均相关系数如下表7所示。

表7文献1嵌入水印经过去同步攻击后的误码率，相似性以及水印完整性情况

当嵌入率不同(为20bps和30bps)时，对使用文献1算法嵌入水印的所有音频文件进行水印鲁棒性测试，使其遭受变速不变调和变调不变速攻击，提取出的水印与平均误码率，平均相关系数如下表8所示。

表8文献1嵌入水印经过变速不变调和变调不变速攻击后的误码率，相似性情况

对使用文献2算法嵌入水印的音频文件test1(blues，30s)和test2(folk，120s)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使其遭受常见的8种攻击，提取出的水印与平均误码率，平均相关系数如下表9所示。

表9文献2嵌入水印经过常规攻击后的误码率，相似性情况

对使用文献2算法嵌入水印的音频文件test3(folk，30s，从前端裁剪)和test4(jazz，60s，从中间裁剪)(WAV格式，采样率44100，量化精度16bit)进行水印鲁棒性测试，使其遭受去同步攻击，提取出的水印与平均误码率，平均相关系数如下表10所示。

表10文献2嵌入水印经过去同步攻击后的误码率，相似性情况

当嵌入率不同(为20bps和30bps)时，对使用文献1算法嵌入水印的所有音频文件进行水印鲁棒性测试，使其遭受变速不变调和变调不变速攻击，提取出的水印与平均误码率，平均相关系数如下表11所示。

表11文献2嵌入水印经过变速不变调和变调不变速攻击后的误码率，相似性情况

综上所述，与现有技术相比，本发明提供的技术方案具备以下有益效果：

1、量化调制方法在水印嵌入阶段根据水印信息的不同将原始载体数据量化到不同的量化区间，在水印提取时根据所属的量化区间来识别水印信息，可以实现盲检测。本方案在水印嵌入时，定义ASVD特征生成嵌入参数，以实现自适应的嵌入水印，从而性能更优。

2、本发明引入了数据库中常用的一种错误处理机制-回滚机制。回滚(Rollback)指的是程序或数据处理错误，将程序或数据恢复到上一次正确状态的行为。在此水印算法中，若滑动窗口的滑动距离超出阈值，则将滑动的窗口进行回滚，将对比的音频段的段号增加1。在本水印方案中采用回滚机制，能够有效地防止由于去同步攻击所造成的水印提取失败，间接的增加了水印的鲁棒性。

3、由于m序列具有良好的周期性与伪随机性，本发明通过使用m序列与密钥，可以根据已提取出的残缺水印比特完整地恢复出整个水印，从而有效地保护音频与创作者的版权。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种抗去同步攻击的鲁棒音频水印嵌入方法，其特征在于，所述方法包括：

S11、将原始音频信号进行分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为其中，A表示为原始音频信号，表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的左端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数；

S12、将水印序列中的每一比特水印嵌入至不同原始音频信号段中的左右两端语音信号中；其中，所述水印序列段的获取过程包括：根据预先给定的二进制水印图像，获取一维0-1水印序列；

S13、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT变换、SVD操作后得到的奇异值，A_l，i表示第i段原始音频信号的左端音频信号；y_r，i表示对A_r，i进行DCT变换、SVD操作后得到的奇异值，A_r，i表示第i段原始音频信号的右端音频信号；

S15、基于所述ASVD特征得到自适应嵌入参数P₀和P₁；其中，P₀＝β₀*f₁，P₁＝β₁*f₁；β₀和β₁表示控制水印嵌入强度的影响因子，且0＜β₀＜β₁＜1；

S16、基于预设的修改规则对奇异值y_l，i、y_r，i进行修改，得到修改后的奇异值y′_l，i和y’_r，i；其中，预设的修改规则包括：

当W(i)＝0时，判断f₂(i)＜P₀是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则：

若否，则：

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

S17、对修改后的奇异值y’_l，i和y’_r，i分别进行SVD、IDCT操作，得到含水印的音频信号和/>并整合/>和/>得到/>其中，/>表示第i段含水印的音频段；

S18、整合所有含水印音频段，获取含水印音频信号。

2.根据权利要求1所述的方法，其特征在于，在获取所述一维0-1水印序列后，所述方法还包括：根据m序列水印序列生成密钥；

3.一种抗去同步攻击的鲁棒音频水印嵌入系统，其特征在于，所述系统包括：

分段处理模块，用于执行S11、将原始音频信号进行分段处理，并将每段原始音频信号均分为左右两端，作为待处理音频信号，分段处理的结果为其中，A表示为原始音频信号，/>表示待处理音频信号，A_l，1表示分段处理后的第一段原始音频信号的左端音频信号，A_r，1表示分段处理后的第一段原始音频信号的右端音频信号，/>表示分段处理后的第L_w段原始音频信号的左端音频信号，/>表示分段处理后的第L_w段原始音频信号的右端音频信号，L_w表示分段处理后的总段数；

第一奇异值获取模块，用于执行S13、对A_l，i和A_r，i分别进行DCT变换、SVD操作，得到对应的奇异值y_l，i和y_r，i；其中，y_l，i表示对A_l，i进行DCT变换、SVD操作后得到的奇异值，A_l，i表示第i段原始音频信号的左端音频信号；y_r，i表示对A_r，i进行DCT变换、SVD操作后得到的奇异值，A_r，i表示第i段原始音频信号的右端音频信号；

特征获取模块，用于执行S14、基于奇异值y_l，i、y_r，i和预设的公式，获取ASVD特征和RSVD特征；其中，获取ASVD特征的公式为：获取RSVD特征的公式为：f₂(i)＝|y_l，i-y_r，i|；f₁表示原始音频信号对应的ASVD特征，f₂(i)表示第i段原始音频信号对应的RSVD特征；

参数获取模块，用于执行S15、基于所述ASVD特征得到自适应嵌入参数P₀和P₁；其中，P₀＝β₀*f₁，P₁＝β₁*f₁；β₀和β₁表示控制水印嵌入强度的影响因子，且0＜β₀＜β₁＜1；

当W(i)＝0时，判断f₂(i)＜P₀是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

其中，W(i)表示在A_l，i与A_r，i之间嵌入的水印比特；

当W(i)＝1时，判断f₂(i)＞P₁是否成立；若是，则

若否，则继续判断y_l，i＞y_r，i是否成立，若是，则

若否，则

4.一种抗去同步攻击的鲁棒音频水印提取方法，其特征在于，当采用如权利要求1所述的鲁棒音频水印嵌入方法获取的含水印音频信号遭受去同步攻击后，针对被攻击音频，该提取方法包括：

S20、令i＝1；

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

S22、计算滑动窗口的截取部分与含水印音频段的相似性，若相似性大于第一阈值，则令滑动步长step＝a，否则令滑动步长step＝b；其中，a＜b；所述相似性表示为FFT的实部系数矩阵与DCT系数矩阵进行对应位置相除后的比值；

S24、若Dis＜|A_i|，转入S22，否则转入S25；

5.根据权利要求4所述的鲁棒音频水印提取方法，其特征在于，所述S22中计算相似性的过程包括：

6.根据权利要求4所述的鲁棒音频水印提取方法，其特征在于，所述S25中水印提取过程，包括：

基于所述奇异值y_l，i和y_r，i计算RSVD特征；

7.根据权利要求4所述的鲁棒音频水印提取方法，其特征在于，若S25中提取的水印为残缺水印，则采用m序列和密钥将所述残缺水印恢复成完整的二进制水印图像，具体包括：

S500、解密所述一维0-1水印序列，获取所述二进制水印图像。

8.一种抗去同步攻击的鲁棒音频水印提取系统，其特征在于，当采用如权利要求1所述的鲁棒音频水印嵌入方法获取的含水印音频信号遭受去同步攻击后，针对被攻击音频，该提取系统包括：

起始模块，用于执行S20、令i＝1；

若i＝1，将滑动窗口的左侧与被攻击音频的起点对齐；

第一判断模块，用于执行S22、计算滑动窗口的截取部分与含水印音频段的相似性，若相似性大于第一阈值，则令滑动步长step＝a，否则令滑动步长step＝b；其中，a＜b；所述相似性表示为FFT和DCT的比值；

第二判断模块，用于执行S24、若Dis＜|A_i|，转入第一判断模块执行S22，否则转入第三判断模块执行S25；

9.一种存储介质，其特征在于，其存储有用于抗去同步攻击的鲁棒音频水印嵌入的计算机程序，其中，所述计算机程序使得计算机执行如权利要求1～2任一项所述的鲁棒音频水印嵌入方法；或其存储有用于抗去同步攻击的鲁棒音频水印提取的计算机程序，其中，所述计算机程序使得计算机执行如权利要求4～7任一项所述的鲁棒音频水印提取方法。

10.一种电子设备，其特征在于，包括：

一个或多个处理器；存储器；以及一个或多个程序，其中所述一个或多个程序被存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序包括用于执行如权利要求1～2任一项所述的鲁棒音频水印嵌入方法或如权利要求4～7任一项所述的鲁棒音频水印提取方法。