CN111091841B

CN111091841B - 一种基于深度学习的身份认证音频水印算法

Info

Publication number: CN111091841B
Application number: CN201911271137.XA
Authority: CN
Inventors: 李雪威; 江波; 赵满坤; 徐天一; 于健; 王建荣; 喻梅; 于瑞国
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-09-30
Anticipated expiration: 2039-12-12
Also published as: CN111091841A

Abstract

本发明涉及一种基于深度学习的身份认证音频水印算法，其特征在于：所述算法的步骤为：1)对数据集进行人脸分割、静音去除和频谱转化预处理；2)训练设计的身份水印生成模型从音频中提取说话人的身份特征；3)训练设计的水印嵌入‑提取组合模型自适应完成水印的嵌入和提取；4)通过实验选取合适权重比参数，并添加噪声增强算法的鲁棒性；5)可视化完成说话人的身份认证。本发明基于生成对抗模型从说话人音频中生成动态的身份认证水印信息，并基于自编码器完成身份水印的嵌入和提取，最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证，保证音频信息的安全性。

Description

一种基于深度学习的身份认证音频水印算法

技术领域

本发明属于本发明属于信息安全、音频数字水印及深度学习领域，涉及水印信息生成、水印嵌入和提取、水印性能评估的整个音频水印流程，尤其涉及一种基于深度学习的身份认证音频水印算法。

背景技术

数字媒体技术作为互联网发展下的一种高效传播方式，得到了快速发展并被普遍应用，这使得数据的存储、传播和复制变得无比便捷。信息的高度数字化给人们带来极大便利的同时，由于保护措施的未及时跟进，信息安全存在极大隐患，数据泄露、网络盗版等各类信息安全问题近来频频发生。信息隐藏作为应对信息安全问题挑战的有效手段，以及信息安全本身的重要性，该领域吸引了越来越多研究者及研究机构的注意，并在过去的二十几年间得到迅速发展。音频作为一种重要的信息载体，日常使用中越来越频繁，经常被用来传递或存储一些重要的信息，如军事通讯、商业谈判、法庭证词等音频数据，这些音频信息往往携带重要的隐私或机密信息，不能被随意泄露或者更改。但是，随着各种音频编辑软件的盛行，人们可以轻易对音频数据进行修改，这种行为带来的潜在危害可能是巨大的。因此，认证音频数字水印技术的研究显得越来越重要。

通用的水印算法基础框架主要包含水印生成、水印嵌入、水印提取及性能评估四个部分。

水印生成部分，水印信息作为水印算法中重要的一部分，从目前已有研究来看，水印算法研究中专门进行水印信息的研究较少。由于音频水印算法研究的实际应用领域主要集中在认证方面，少部分根据实际需求会增强水印某方面的能力，比如攻击、定位和修复等。通常为使得水印算法具备认证功能，比如数字内容的版权保护，可以将商标或者任何能够标识所有权的认证信息作为水印信息，在数字媒体传播期间对版权进行标识，避免盗版问题。对于音频身份的认证水印也类似，一般可以将诸如说话人姓名、图片等一些身份标识信息作为水印用来认证，但这些信息偏表面化、直观化，在水印算法被泄露的情况下，容易遭到篡改伪造，安全性存疑。此外，这些信息是静态的，不能根据说话人自身状态的改变进行调整。

水印嵌入和提取部分，水印的嵌入和提取通常是一对互逆操作。目前，大多数音频水印算法仍然是人工在音频的时域和变换域上操作，传统方式也主要是分为时域和变换域算法。时域水印算法直接在音频本身执行嵌入操作，这种方式简单有效，但缺点也很明显，容易受到常规信号处理和恶意攻击的影响，鲁棒性不足。最为经典的便是LSB算法，该算法将水印信息嵌入到语音信号二进制位数的最低有效位上，由于最低有效位为比特中最后一位，使得水印信息对音频信号的影响可以达到最低，理论影响值为1/128，其LSB算法可分为两个过程：水印嵌入和提取。在时域LSB水印嵌入过程中，首先将原始语音信号和水印信息表示为二进制位形式，其次将水印信息以比特为单位逐个替换到对应的语音信号二进制位中的最低有效比特位，最后便可得到含水印语音。而时域LSB算法提取过程首先逐字节逐位的检查水印语音二进制数据，并从最低有效位中提取出水印比特位，其次拼接合并提取出的水印比特信息，最后还原得到水印信息，并和初始状态下未添加水印的语音进行比较。变换域水印算法则将嵌入操作限定在音频的各种变换域中，鲁棒性可以得到一定的保证，但嵌入容量上通常会有一定的限制。变换域水印算法则是在尚未嵌入水印位时，便通过数学变换将原始音频从时域转变为其他域，此时再将水印信息嵌入到频域系数之内。常用的数学变换方式有DCT、DWT、DFT和SVD等。基于变换域的水印算法，其不可感知性和鲁棒性通常要优于基于时域的水印算法。此外，部分研究专注于多种变换域混合处理，即使用两种或两种以上的变换，通过结合不同变换域的优点，通常能达到比单变换域更好的效果。其中DCT变换域水印算法是将水印信息映射到音频的DCT变换域中，并通过逆DCT得到带有水印的音频。根据人类听觉系统HAS，人耳在不同的频率下具有不同的敏感度，在1-4kHz的范围内最为敏感。此外，压缩等常规信号处理操作会给高频区域带来影响。故综合不可感知性和鲁棒性两种因素，DCT的频率嵌入位置一般选择在信号的中频或低频段。DCT水印算法的具体嵌入和提取的步骤为：DCT变换域水印嵌入首先将原始音频分成长度为d的帧，而后利用如DCT公式计算每帧的DCT系数，其中x(n)为帧信号，其次选择嵌入水印位的频带，然后根据水印比特数在选定的频带内重构DCT系数，最后利用逆DCT得到带水印的音频。对应的DCT变换域水印提取过程则首先将含水印音频信号同样分帧成相同大小d的帧，而后计算每个帧中带水印音频的DCT系数，其次选择嵌入部分的频带并从中找出重构的DCT系数，然后从重构的DCT系数中提取出水印比特，组合获取水印信息，最后便可利用逆DCT还原音频信号。在变换域音频水印算法中，对音频的处理策略也有不同方案。音频处理的最简方案是直接对整个音频信号进行处理，但这种方法由于直接处理长音频信号，故具有较大的计算成本，实际中使用的可能性很小。大多数变换域水印算法都是处理由音频信号分割而来的单独帧。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于深度学习的身份认证音频水印算法，该方法基于生成对抗模型从说话人音频中生成动态的身份认证水印信息，并基于自编码器完成身份水印的嵌入和提取，最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证，保证音频信息的安全性。

本发明解决其技术问题是通过以下技术方案实现的：

一种基于深度学习的身份认证音频水印算法，其特征在于：所述算法的步骤为：

S1、对数据集进行人脸分割、静音去除和频谱转化预处理：

S101、数据预处理：对图像进行人脸分割，使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐，并统一进行规范化处理；

S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除；

S103、通过短时傅里叶变换STFT进行频谱转化，并通过加窗分帧提取音频特征作为网络的输入；

S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征：

S201、设计身份水印生成模型：该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块，

编码器用于从说话人音频中提取与说话人身份相关的特征信息；

生成器充当解码器和编码器组合成一个自编码结构并执行解码功能，生成器则用来从编码的音频特征中还原出人物特征，同时生成器生成对抗网络中的一部分，将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果；

判别器主要用来评估生成的人物画像是否真实；

分类器则是用来对生成器生成的人脸图像进行身份认证分类，判断其对应的身份标签是否和说话者的实际身份标签相匹配；

S202、训练身份水印生成模型；

S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取：

S301、设计水印嵌入-提取组合模型：水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器，借助自编码器强大的编码和解码处理能力，通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取；该水印算法模型主要包含三个网络模块，分别是预处理模块、嵌入模块和提取模块；

水印预处理模块的设计目的主要是处理水印信息和音频数据大小不一致的情况，通过该网络对水印信息进行稀疏或者压缩预处理成与音频数据相同的格式进行同等匹配，使得水印信息能够被有效嵌入在音频的各个部分，而不是某些固定的区域内；

嵌入模块为自编码器的编码器，用来将水印信息自适应嵌入到音频信号中，输入包含预处理的水印编码和原始音频信息的频域信号两部分，输出的是嵌入水印的音频频谱图；

提取模块为自编码器的解码器，从含水印的音频信息中恢复水印信息；

S302、训练水印嵌入-提取组合模型；

S4、通过实验选取合适权重比参数，并添加噪声增强算法的鲁棒性步骤：

S401、试验不同权重比参数并进行最优选择：水印嵌入-提取模型训练完成后，对水印算法的性能进行评估，整体训练效果受音频间损失和水印间损失的权重影响，两者权重比值的大小代表设计的水印算法对水印提取和嵌入两部分的倾向性，通过实验调整两者权重比值大小选取实际场景下的最后权重参数；

S402、添加噪声增强模型鲁棒性：在提出的水印嵌入-提取组合中添加噪声增强鲁棒性，在嵌入网络的输出频谱图中添加噪声并进行训练，保持音频间权重损失与水印间权重取值固定；

S5、可视化动态身份水印进行身份认证：对水印进行可视化验证，利用训练好的编码器从音频数据中提取各说话人的身份水印，并通过生成器生成说话人的人脸图像，通过对生成的人脸图像进行分析，验证身份的有效性。

本发明的优点和有益效果为：

1、本发明基于深度学习的身份认证音频水印算法，区别于传统静态身份水印信息，借助提出的身份水印生成模型，通过合理的模型设计从声音中获取说话人的身份特征信息，该水印信息是动态的，能更好更有效认证说话人的身份，通过可视化也能更直观的表现出来。

2、本发明基于深度学习的身份认证音频水印算法，提出的水印嵌入-提取模型将水印的嵌入和提取过程一体化，通过各个网络的联动训练，嵌入网络能够有效学习到音频中适合添加水印的位置。

3、本发明基于深度学习的身份认证音频水印算法，水印嵌入-提取方案在不可感知性和有效嵌入容量上明显优于传统方案，对于传统的攻击方式也有一定的抵抗能力，具有较好的鲁棒性。

4、本发明基于深度学习的身份认证音频水印算法，基于生成对抗模型从说话人音频中生成动态的身份认证水印信息，并基于自编码器完成身份水印的嵌入和提取，最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证，保证音频信息的安全性。

附图说明

图1为现有技术的音频水印算法框架图；

图2为本发明身份水印生成模型原理图；

图3为本发明水印嵌入-提取组合模型图；

图4为本发明像素级错误率频数分布图；

图5为本发明分类器损失变化趋势曲线图；

图6为本发明原始语音与带有身份水印的语音对比图；

图7为本发明不同条件下水印嵌入前后的STFT频谱图效果对比图。

具体实施方式

下面通过具体实施例对本发明作进一步详述，以下实施例只是描述性的，不是限定性的，不能以此限定本发明的保护范围。

对比图1现有技术的音频水印算法框架图，本实施例的方法为：

S1、对数据集进行人脸分割、静音去除和频谱转化预处理：

S201、设计身份水印生成模型：该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块，设计的模型如图2所示；

判别器主要用来评估生成的人物画像是否真实；

S202、训练身份水印生成模型；

该模型的训练过程算法为：

输入：

训练集：不同说话人的音频数据集V和人脸图像数据集F；

网络参数：随机初始化网络参数E(θ₀)、G(θ₀)、D(θ₀)、C(θ₀)

输出：E(θ)、G(θ)、D(θ)、C(θ)

1：for iter＝1→T do

2：从V中随机采样m个音频{v₁，v₂，...，v_m}

3：从F中随机采样n张人脸图像{f₁，f₂，...，f_n}

4：根据式子

更新D(θ)

5：根据式子

更新C(θ)

6：根据下式更新E(θ)和G(θ)

7：end for

其中：E、G、D、C分别表示为编码器、生成器、判别器和分类器；

ID表示身份标签映射；

V为音频信息；

为人脸图像；

θ为模型网络参数；

T为训练轮；

当整个网络达到一定训练效果时，即生成的人脸效果逼真且身份标签趋于一致时，编码器从声音中提取出的特征信息便是说话人特征的一种隐藏编码，可以作为说话人身份的一种认证信息。

S301、设计水印嵌入-提取组合模型：水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器，借助自编码器强大的编码和解码处理能力，通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取；该水印算法模型主要包含三个网络模块，分别是预处理模块、嵌入模块和提取模块；设计的模型如图3所示；

S302、训练水印嵌入-提取组合模型；

该模型的训练过程算法为：

输入：

训练集：不同说话人的音频数据集V和身份水印数据集W，并进行数据标准归一化处理；

网络参数：随机初始化网络参数Pre(θ₀)、Em(θ₀)、Ex(θ₀)。

输出：Pre(θ)、Em(θ)、Ex(θ)

1、对V中所有Vi执行STFT，得到频谱数据集

2、for iter＝1→T do

3、从S中随机采样n个频谱图{s₁，s₂，...，s_n}

4、从W中获取对应n个身份认证信息{w₁，w₂，...，w_n}

5、根据下式更新Pre(θ)和Em(θ)

6、根据式子

更新Ex(θ)

7、end for

其中：Pre、Em、Ex分别为预训练网络模块、嵌入网络模块和提取网络模块；

STFT为短时傅里叶变换；

S为音频经STFT变换后的频谱图；

W为水印信息；

α为音频间损失权重；

β为水印间损失权重；

θ为模型网络参数；

T为训练轮次；

其中预处理、嵌入模块交由发送方使用，用来对音频信号进行身份认证水印的嵌入。提取模块则交由接受方使用，用来对含水印的音频信号进行解码操作。提取模块提取出的数据是身份水印信息，需要同身份水印生成模型中的人脸生成器配合使用。

如图4所示通过统计数据集中所有说话人对应的身份水印生成的人脸与真实人脸的之间的像素级错误率分析可得像素级错误率整体处于较低水平，主要分布在0.1％-0.4％范围内，且在0.15％左右处频数最大，说明从说话人音频中提取的身份水印能够很好的对应说话人人脸。

另外通过可视化模型训练过程中实验结果的分类器损失变化，如图5所示，无论是在英文还是中文数据集上的训练，模型中分类器的损失都是在前期快速下降，中期稍有震荡，但整体呈现下降趋势，在迭代训练超30000次后基本稳定在较小值，这说明训练完成后通过生成器生成的人脸图像的身份标签和说话人趋于一致。可以证明该身份水印生成模型提取的身份水印是有效的，能够用作说话人的身份认证。

本发明提出的的水印嵌入-提取模型将水印的嵌入和提取过程一体化，通过各个网络的联动训练，嵌入网络能够有效学习到音频中适合添加水印的位置。从损失权重比实验结果来看，如表1所示，嵌入损失比提取损失大的多，这是由于音频与含水印音频中多了水印信息，会对音频造成较大影响，嵌入损失较大，而对于水印信息来说，提取前后理论上是一致的，提取损失较小。此外，随着权重比值的增大，即水印间损失权重变大，提取损失在逐渐减小，嵌入损失逐渐增大，与此同时带水印音频的信噪比在变小，这一结果符合预期。

表1水印嵌入-提取实验结果表

这里给出权重相同情况下的原始音频波形图和由已经嵌入身份水印的频谱图经逆STFT变换得来的音频波形图，如图6所示。其中第一列是网络输入的原始语音，第二列是水印生成模型中嵌入网络生成的含水印语音。对比可以看出，峰值差别较小，在静音或者低音区域有变粗的倾向，说明一些身份水印信息可能被添加在这些不敏感的区域。鲁棒性实验表明添加噪声的情况如表2所示，水印嵌入-提取模型会损失部分水印嵌入性能，但可以提高接受方提取身份水印信息的鲁棒性，在传输信道情况较为复杂的情况下，可以尝试使用加噪训练模型。

表2水印嵌入-提取鲁棒性实验结果

提出的水印嵌入-提取组合模型在各种条件下的输入输出音频STFT频谱图如图7所示，从图中可以看出，频谱图中主要区域较为相似，整体表现效果在可接受的范围内。所提水印嵌入-提取方案在不可感知性和有效嵌入容量上明显优于传统方案，对于传统的攻击方式也有一定的抵抗能力，具有较好的鲁棒性。

尽管为说明目的公开了本发明的实施例和附图，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换、变化和修改都是可能的，因此，本发明的范围不局限于实施例和附图所公开的内容。

Claims

1.一种基于深度学习的身份认证音频水印算法，其特征在于：所述算法的步骤为：

S1、对数据集进行人脸分割、静音去除和频谱转化预处理：

判别器主要用来评估生成的人物画像是否真实；

S202、训练身份水印生成模型；

S302、训练水印嵌入-提取组合模型；