CN111091841B - 一种基于深度学习的身份认证音频水印算法 - Google Patents
一种基于深度学习的身份认证音频水印算法 Download PDFInfo
- Publication number
- CN111091841B CN111091841B CN201911271137.XA CN201911271137A CN111091841B CN 111091841 B CN111091841 B CN 111091841B CN 201911271137 A CN201911271137 A CN 201911271137A CN 111091841 B CN111091841 B CN 111091841B
- Authority
- CN
- China
- Prior art keywords
- watermark
- audio
- identity
- embedding
- extracting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 54
- 238000013135 deep learning Methods 0.000 title claims abstract description 13
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 19
- 230000000694 effects Effects 0.000 claims abstract description 14
- 230000000007 visual effect Effects 0.000 claims abstract description 9
- 238000002474 experimental method Methods 0.000 claims abstract description 8
- 238000001228 spectrum Methods 0.000 claims abstract description 8
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 230000011218 segmentation Effects 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000007781 pre-processing Methods 0.000 claims description 13
- 230000005236 sound signal Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000006835 compression Effects 0.000 claims description 3
- 238000007906 compression Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000004580 weight loss Effects 0.000 claims description 3
- 238000013461 design Methods 0.000 abstract description 5
- 230000003068 static effect Effects 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 8
- 238000011160 research Methods 0.000 description 6
- 230000005540 biological transmission Effects 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000011426 transformation method Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
- G06F21/16—Program or content traceability, e.g. by watermarking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/30—Authentication, i.e. establishing the identity or authorisation of security principals
- G06F21/31—User authentication
- G06F21/32—User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2209/00—Additional information or applications relating to cryptographic mechanisms or cryptographic arrangements for secret or secure communication H04L9/00
- H04L2209/60—Digital content management, e.g. content distribution
- H04L2209/608—Watermarking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Technology Law (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Processing (AREA)
Abstract
本发明涉及一种基于深度学习的身份认证音频水印算法,其特征在于:所述算法的步骤为:1)对数据集进行人脸分割、静音去除和频谱转化预处理;2)训练设计的身份水印生成模型从音频中提取说话人的身份特征;3)训练设计的水印嵌入‑提取组合模型自适应完成水印的嵌入和提取;4)通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性;5)可视化完成说话人的身份认证。本发明基于生成对抗模型从说话人音频中生成动态的身份认证水印信息,并基于自编码器完成身份水印的嵌入和提取,最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证,保证音频信息的安全性。
Description
技术领域
本发明属于本发明属于信息安全、音频数字水印及深度学习领域,涉及水印信息生成、水印嵌入和提取、水印性能评估的整个音频水印流程,尤其涉及一种基于深度学习的身份认证音频水印算法。
背景技术
数字媒体技术作为互联网发展下的一种高效传播方式,得到了快速发展并被普遍应用,这使得数据的存储、传播和复制变得无比便捷。信息的高度数字化给人们带来极大便利的同时,由于保护措施的未及时跟进,信息安全存在极大隐患,数据泄露、网络盗版等各类信息安全问题近来频频发生。信息隐藏作为应对信息安全问题挑战的有效手段,以及信息安全本身的重要性,该领域吸引了越来越多研究者及研究机构的注意,并在过去的二十几年间得到迅速发展。音频作为一种重要的信息载体,日常使用中越来越频繁,经常被用来传递或存储一些重要的信息,如军事通讯、商业谈判、法庭证词等音频数据,这些音频信息往往携带重要的隐私或机密信息,不能被随意泄露或者更改。但是,随着各种音频编辑软件的盛行,人们可以轻易对音频数据进行修改,这种行为带来的潜在危害可能是巨大的。因此,认证音频数字水印技术的研究显得越来越重要。
通用的水印算法基础框架主要包含水印生成、水印嵌入、水印提取及性能评估四个部分。
水印生成部分,水印信息作为水印算法中重要的一部分,从目前已有研究来看,水印算法研究中专门进行水印信息的研究较少。由于音频水印算法研究的实际应用领域主要集中在认证方面,少部分根据实际需求会增强水印某方面的能力,比如攻击、定位和修复等。通常为使得水印算法具备认证功能,比如数字内容的版权保护,可以将商标或者任何能够标识所有权的认证信息作为水印信息,在数字媒体传播期间对版权进行标识,避免盗版问题。对于音频身份的认证水印也类似,一般可以将诸如说话人姓名、图片等一些身份标识信息作为水印用来认证,但这些信息偏表面化、直观化,在水印算法被泄露的情况下,容易遭到篡改伪造,安全性存疑。此外,这些信息是静态的,不能根据说话人自身状态的改变进行调整。
水印嵌入和提取部分,水印的嵌入和提取通常是一对互逆操作。目前,大多数音频水印算法仍然是人工在音频的时域和变换域上操作,传统方式也主要是分为时域和变换域算法。时域水印算法直接在音频本身执行嵌入操作,这种方式简单有效,但缺点也很明显,容易受到常规信号处理和恶意攻击的影响,鲁棒性不足。最为经典的便是LSB算法,该算法将水印信息嵌入到语音信号二进制位数的最低有效位上,由于最低有效位为比特中最后一位,使得水印信息对音频信号的影响可以达到最低,理论影响值为1/128,其LSB算法可分为两个过程:水印嵌入和提取。在时域LSB水印嵌入过程中,首先将原始语音信号和水印信息表示为二进制位形式,其次将水印信息以比特为单位逐个替换到对应的语音信号二进制位中的最低有效比特位,最后便可得到含水印语音。而时域LSB算法提取过程首先逐字节逐位的检查水印语音二进制数据,并从最低有效位中提取出水印比特位,其次拼接合并提取出的水印比特信息,最后还原得到水印信息,并和初始状态下未添加水印的语音进行比较。变换域水印算法则将嵌入操作限定在音频的各种变换域中,鲁棒性可以得到一定的保证,但嵌入容量上通常会有一定的限制。变换域水印算法则是在尚未嵌入水印位时,便通过数学变换将原始音频从时域转变为其他域,此时再将水印信息嵌入到频域系数之内。常用的数学变换方式有DCT、DWT、DFT和SVD等。基于变换域的水印算法,其不可感知性和鲁棒性通常要优于基于时域的水印算法。此外,部分研究专注于多种变换域混合处理,即使用两种或两种以上的变换,通过结合不同变换域的优点,通常能达到比单变换域更好的效果。其中DCT变换域水印算法是将水印信息映射到音频的DCT变换域中,并通过逆DCT得到带有水印的音频。根据人类听觉系统HAS,人耳在不同的频率下具有不同的敏感度,在1-4kHz的范围内最为敏感。此外,压缩等常规信号处理操作会给高频区域带来影响。故综合不可感知性和鲁棒性两种因素,DCT的频率嵌入位置一般选择在信号的中频或低频段。DCT水印算法的具体嵌入和提取的步骤为:DCT变换域水印嵌入首先将原始音频分成长度为d的帧,而后利用如DCT公式计算每帧的DCT系数,其中x(n)为帧信号,其次选择嵌入水印位的频带,然后根据水印比特数在选定的频带内重构DCT系数,最后利用逆DCT得到带水印的音频。对应的DCT变换域水印提取过程则首先将含水印音频信号同样分帧成相同大小d的帧,而后计算每个帧中带水印音频的DCT系数,其次选择嵌入部分的频带并从中找出重构的DCT系数,然后从重构的DCT系数中提取出水印比特,组合获取水印信息,最后便可利用逆DCT还原音频信号。在变换域音频水印算法中,对音频的处理策略也有不同方案。音频处理的最简方案是直接对整个音频信号进行处理,但这种方法由于直接处理长音频信号,故具有较大的计算成本,实际中使用的可能性很小。大多数变换域水印算法都是处理由音频信号分割而来的单独帧。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于深度学习的身份认证音频水印算法,该方法基于生成对抗模型从说话人音频中生成动态的身份认证水印信息,并基于自编码器完成身份水印的嵌入和提取,最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证,保证音频信息的安全性。
本发明解决其技术问题是通过以下技术方案实现的:
一种基于深度学习的身份认证音频水印算法,其特征在于:所述算法的步骤为:
S1、对数据集进行人脸分割、静音去除和频谱转化预处理:
S101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;
S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;
S103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;
S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征:
S201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,
编码器用于从说话人音频中提取与说话人身份相关的特征信息;
生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;
判别器主要用来评估生成的人物画像是否真实;
分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;
S202、训练身份水印生成模型;
S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取:
S301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码处理能力,通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取;该水印算法模型主要包含三个网络模块,分别是预处理模块、嵌入模块和提取模块;
水印预处理模块的设计目的主要是处理水印信息和音频数据大小不一致的情况,通过该网络对水印信息进行稀疏或者压缩预处理成与音频数据相同的格式进行同等匹配,使得水印信息能够被有效嵌入在音频的各个部分,而不是某些固定的区域内;
嵌入模块为自编码器的编码器,用来将水印信息自适应嵌入到音频信号中,输入包含预处理的水印编码和原始音频信息的频域信号两部分,输出的是嵌入水印的音频频谱图;
提取模块为自编码器的解码器,从含水印的音频信息中恢复水印信息;
S302、训练水印嵌入-提取组合模型;
S4、通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性步骤:
S401、试验不同权重比参数并进行最优选择:水印嵌入-提取模型训练完成后,对水印算法的性能进行评估,整体训练效果受音频间损失和水印间损失的权重影响,两者权重比值的大小代表设计的水印算法对水印提取和嵌入两部分的倾向性,通过实验调整两者权重比值大小选取实际场景下的最后权重参数;
S402、添加噪声增强模型鲁棒性:在提出的水印嵌入-提取组合中添加噪声增强鲁棒性,在嵌入网络的输出频谱图中添加噪声并进行训练,保持音频间权重损失与水印间权重取值固定;
S5、可视化动态身份水印进行身份认证:对水印进行可视化验证,利用训练好的编码器从音频数据中提取各说话人的身份水印,并通过生成器生成说话人的人脸图像,通过对生成的人脸图像进行分析,验证身份的有效性。
本发明的优点和有益效果为:
1、本发明基于深度学习的身份认证音频水印算法,区别于传统静态身份水印信息,借助提出的身份水印生成模型,通过合理的模型设计从声音中获取说话人的身份特征信息,该水印信息是动态的,能更好更有效认证说话人的身份,通过可视化也能更直观的表现出来。
2、本发明基于深度学习的身份认证音频水印算法,提出的水印嵌入-提取模型将水印的嵌入和提取过程一体化,通过各个网络的联动训练,嵌入网络能够有效学习到音频中适合添加水印的位置。
3、本发明基于深度学习的身份认证音频水印算法,水印嵌入-提取方案在不可感知性和有效嵌入容量上明显优于传统方案,对于传统的攻击方式也有一定的抵抗能力,具有较好的鲁棒性。
4、本发明基于深度学习的身份认证音频水印算法,基于生成对抗模型从说话人音频中生成动态的身份认证水印信息,并基于自编码器完成身份水印的嵌入和提取,最终以可视化的动态效果自适应嵌入提取的方式区别于传统静态信息和手工设计方案进行身份认证,保证音频信息的安全性。
附图说明
图1为现有技术的音频水印算法框架图;
图2为本发明身份水印生成模型原理图;
图3为本发明水印嵌入-提取组合模型图;
图4为本发明像素级错误率频数分布图;
图5为本发明分类器损失变化趋势曲线图;
图6为本发明原始语音与带有身份水印的语音对比图;
图7为本发明不同条件下水印嵌入前后的STFT频谱图效果对比图。
具体实施方式
下面通过具体实施例对本发明作进一步详述,以下实施例只是描述性的,不是限定性的,不能以此限定本发明的保护范围。
对比图1现有技术的音频水印算法框架图,本实施例的方法为:
一种基于深度学习的身份认证音频水印算法,其特征在于:所述算法的步骤为:
S1、对数据集进行人脸分割、静音去除和频谱转化预处理:
S101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;
S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;
S103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;
S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征:
S201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,设计的模型如图2所示;
编码器用于从说话人音频中提取与说话人身份相关的特征信息;
生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;
判别器主要用来评估生成的人物画像是否真实;
分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;
S202、训练身份水印生成模型;
该模型的训练过程算法为:
输入:
训练集:不同说话人的音频数据集V和人脸图像数据集F;
网络参数:随机初始化网络参数E(θ0)、G(θ0)、D(θ0)、C(θ0)
输出:E(θ)、G(θ)、D(θ)、C(θ)
1:for iter=1→T do
2:从V中随机采样m个音频{v1,v2,...,vm}
3:从F中随机采样n张人脸图像{f1,f2,...,fn}
6:根据下式更新E(θ)和G(θ)
7:end for
其中:E、G、D、C分别表示为编码器、生成器、判别器和分类器;
ID表示身份标签映射;
V为音频信息;
θ为模型网络参数;
T为训练轮;
当整个网络达到一定训练效果时,即生成的人脸效果逼真且身份标签趋于一致时,编码器从声音中提取出的特征信息便是说话人特征的一种隐藏编码,可以作为说话人身份的一种认证信息。
S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取:
S301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码处理能力,通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取;该水印算法模型主要包含三个网络模块,分别是预处理模块、嵌入模块和提取模块;设计的模型如图3所示;
水印预处理模块的设计目的主要是处理水印信息和音频数据大小不一致的情况,通过该网络对水印信息进行稀疏或者压缩预处理成与音频数据相同的格式进行同等匹配,使得水印信息能够被有效嵌入在音频的各个部分,而不是某些固定的区域内;
嵌入模块为自编码器的编码器,用来将水印信息自适应嵌入到音频信号中,输入包含预处理的水印编码和原始音频信息的频域信号两部分,输出的是嵌入水印的音频频谱图;
提取模块为自编码器的解码器,从含水印的音频信息中恢复水印信息;
S302、训练水印嵌入-提取组合模型;
该模型的训练过程算法为:
输入:
训练集:不同说话人的音频数据集V和身份水印数据集W,并进行数据标准归一化处理;
网络参数:随机初始化网络参数Pre(θ0)、Em(θ0)、Ex(θ0)。
输出:Pre(θ)、Em(θ)、Ex(θ)
2、for iter=1→T do
3、从S中随机采样n个频谱图{s1,s2,...,sn}
4、从W中获取对应n个身份认证信息{w1,w2,...,wn}
5、根据下式更新Pre(θ)和Em(θ)
7、end for
其中:Pre、Em、Ex分别为预训练网络模块、嵌入网络模块和提取网络模块;
STFT为短时傅里叶变换;
S为音频经STFT变换后的频谱图;
W为水印信息;
α为音频间损失权重;
β为水印间损失权重;
θ为模型网络参数;
T为训练轮次;
其中预处理、嵌入模块交由发送方使用,用来对音频信号进行身份认证水印的嵌入。提取模块则交由接受方使用,用来对含水印的音频信号进行解码操作。提取模块提取出的数据是身份水印信息,需要同身份水印生成模型中的人脸生成器配合使用。
S4、通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性步骤:
S401、试验不同权重比参数并进行最优选择:水印嵌入-提取模型训练完成后,对水印算法的性能进行评估,整体训练效果受音频间损失和水印间损失的权重影响,两者权重比值的大小代表设计的水印算法对水印提取和嵌入两部分的倾向性,通过实验调整两者权重比值大小选取实际场景下的最后权重参数;
S402、添加噪声增强模型鲁棒性:在提出的水印嵌入-提取组合中添加噪声增强鲁棒性,在嵌入网络的输出频谱图中添加噪声并进行训练,保持音频间权重损失与水印间权重取值固定;
S5、可视化动态身份水印进行身份认证:对水印进行可视化验证,利用训练好的编码器从音频数据中提取各说话人的身份水印,并通过生成器生成说话人的人脸图像,通过对生成的人脸图像进行分析,验证身份的有效性。
如图4所示通过统计数据集中所有说话人对应的身份水印生成的人脸与真实人脸的之间的像素级错误率分析可得像素级错误率整体处于较低水平,主要分布在0.1%-0.4%范围内,且在0.15%左右处频数最大,说明从说话人音频中提取的身份水印能够很好的对应说话人人脸。
另外通过可视化模型训练过程中实验结果的分类器损失变化,如图5所示,无论是在英文还是中文数据集上的训练,模型中分类器的损失都是在前期快速下降,中期稍有震荡,但整体呈现下降趋势,在迭代训练超30000次后基本稳定在较小值,这说明训练完成后通过生成器生成的人脸图像的身份标签和说话人趋于一致。可以证明该身份水印生成模型提取的身份水印是有效的,能够用作说话人的身份认证。
本发明提出的的水印嵌入-提取模型将水印的嵌入和提取过程一体化,通过各个网络的联动训练,嵌入网络能够有效学习到音频中适合添加水印的位置。从损失权重比实验结果来看,如表1所示,嵌入损失比提取损失大的多,这是由于音频与含水印音频中多了水印信息,会对音频造成较大影响,嵌入损失较大,而对于水印信息来说,提取前后理论上是一致的,提取损失较小。此外,随着权重比值的增大,即水印间损失权重变大,提取损失在逐渐减小,嵌入损失逐渐增大,与此同时带水印音频的信噪比在变小,这一结果符合预期。
表1水印嵌入-提取实验结果表
这里给出权重相同情况下的原始音频波形图和由已经嵌入身份水印的频谱图经逆STFT变换得来的音频波形图,如图6所示。其中第一列是网络输入的原始语音,第二列是水印生成模型中嵌入网络生成的含水印语音。对比可以看出,峰值差别较小,在静音或者低音区域有变粗的倾向,说明一些身份水印信息可能被添加在这些不敏感的区域。鲁棒性实验表明添加噪声的情况如表2所示,水印嵌入-提取模型会损失部分水印嵌入性能,但可以提高接受方提取身份水印信息的鲁棒性,在传输信道情况较为复杂的情况下,可以尝试使用加噪训练模型。
表2水印嵌入-提取鲁棒性实验结果
提出的水印嵌入-提取组合模型在各种条件下的输入输出音频STFT频谱图如图7所示,从图中可以看出,频谱图中主要区域较为相似,整体表现效果在可接受的范围内。所提水印嵌入-提取方案在不可感知性和有效嵌入容量上明显优于传统方案,对于传统的攻击方式也有一定的抵抗能力,具有较好的鲁棒性。
尽管为说明目的公开了本发明的实施例和附图,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换、变化和修改都是可能的,因此,本发明的范围不局限于实施例和附图所公开的内容。
Claims (1)
1.一种基于深度学习的身份认证音频水印算法,其特征在于:所述算法的步骤为:
S1、对数据集进行人脸分割、静音去除和频谱转化预处理:
S101、数据预处理:对图像进行人脸分割,使用Python中的OpenCV、Imutils及Dlib库进行人脸检测及对齐,并统一进行规范化处理;
S102、通过WebRTC项目VAD提供的Python接口webrtcvad将音频中静音片段去除;
S103、通过短时傅里叶变换STFT进行频谱转化,并通过加窗分帧提取音频特征作为网络的输入;
S2、训练设计的身份水印生成模型并从音频中提取说话人的身份特征:
S201、设计身份水印生成模型:该身份水印生成模型主要包含编码器、生成器、判别器和分类器四个网络模块,
编码器用于从说话人音频中提取与说话人身份相关的特征信息;
生成器充当解码器和编码器组合成一个自编码结构并执行解码功能,生成器则用来从编码的音频特征中还原出人物特征,同时生成器生成对抗网络中的一部分,将解码输出的人物特征通过生成人脸图像的方式直观体现人物的刻画效果;
判别器主要用来评估生成的人物画像是否真实;
分类器则是用来对生成器生成的人脸图像进行身份认证分类,判断其对应的身份标签是否和说话者的实际身份标签相匹配;
S202、训练身份水印生成模型;
S3、训练设计的水印嵌入-提取组合模型自适应完成水印的嵌入和提取:
S301、设计水印嵌入-提取组合模型:水印嵌入-提取组合模型的主要结构是一个输入输出经过特殊处理的自编码器,借助自编码器强大的编码和解码处理能力,通过无监督的训练学习方式自适应高容量进行水印的嵌入和提取;该水印算法模型主要包含三个网络模块,分别是预处理模块、嵌入模块和提取模块;
水印预处理模块的设计目的主要是处理水印信息和音频数据大小不一致的情况,通过该网络对水印信息进行稀疏或者压缩预处理成与音频数据相同的格式进行同等匹配,使得水印信息能够被有效嵌入在音频的各个部分,而不是某些固定的区域内;
嵌入模块为自编码器的编码器,用来将水印信息自适应嵌入到音频信号中,输入包含预处理的水印编码和原始音频信息的频域信号两部分,输出的是嵌入水印的音频频谱图;
提取模块为自编码器的解码器,从含水印的音频信息中恢复水印信息;
S302、训练水印嵌入-提取组合模型;
S4、通过实验选取合适权重比参数,并添加噪声增强算法的鲁棒性步骤:
S401、试验不同权重比参数并进行最优选择:水印嵌入-提取模型训练完成后,对水印算法的性能进行评估,整体训练效果受音频间损失和水印间损失的权重影响,两者权重比值的大小代表设计的水印算法对水印提取和嵌入两部分的倾向性,通过实验调整两者权重比值大小选取实际场景下的最后权重参数;
S402、添加噪声增强模型鲁棒性:在提出的水印嵌入-提取组合中添加噪声增强鲁棒性,在嵌入网络的输出频谱图中添加噪声并进行训练,保持音频间权重损失与水印间权重取值固定;
S5、可视化动态身份水印进行身份认证:对水印进行可视化验证,利用训练好的编码器从音频数据中提取各说话人的身份水印,并通过生成器生成说话人的人脸图像,通过对生成的人脸图像进行分析,验证身份的有效性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911271137.XA CN111091841B (zh) | 2019-12-12 | 2019-12-12 | 一种基于深度学习的身份认证音频水印算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911271137.XA CN111091841B (zh) | 2019-12-12 | 2019-12-12 | 一种基于深度学习的身份认证音频水印算法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111091841A CN111091841A (zh) | 2020-05-01 |
CN111091841B true CN111091841B (zh) | 2022-09-30 |
Family
ID=70394886
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911271137.XA Active CN111091841B (zh) | 2019-12-12 | 2019-12-12 | 一种基于深度学习的身份认证音频水印算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111091841B (zh) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111341329B (zh) * | 2020-02-04 | 2022-01-21 | 北京达佳互联信息技术有限公司 | 水印信息添加方法、提取方法、装置、设备及介质 |
CN111899747B (zh) * | 2020-07-30 | 2023-03-07 | 抖音视界有限公司 | 用于合成音频的方法和装置 |
CN112364386B (zh) * | 2020-10-21 | 2022-04-26 | 天津大学 | 一种结合压缩感知和dwt的音频篡改检测与恢复方法 |
CN112507312B (zh) * | 2020-12-08 | 2022-10-14 | 电子科技大学 | 在深度学习系统中基于数字指纹的验证与追踪方法 |
CN112634120A (zh) * | 2020-12-30 | 2021-04-09 | 暨南大学 | 基于cnn预测的图像可逆水印方法 |
CN113129899B (zh) * | 2021-04-16 | 2023-01-20 | 广东电网有限责任公司 | 一种安全作业监管方法、设备和存储介质 |
CN114630130B (zh) * | 2022-03-17 | 2024-05-03 | 北京影数科技有限公司 | 一种基于深度学习的换脸视频溯源方法及系统 |
CN115021966A (zh) * | 2022-05-06 | 2022-09-06 | 深圳比特微电子科技有限公司 | 一种语音接入方法、用户接入设备和远端系统 |
CN117116275B (zh) * | 2023-10-23 | 2024-02-20 | 浙江华创视讯科技有限公司 | 多模态融合的音频水印添加方法、设备及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306305A (zh) * | 2011-07-06 | 2012-01-04 | 北京航空航天大学 | 一种基于生物特征水印的安全身份认证方法 |
CA2805783A1 (en) * | 2012-02-28 | 2013-08-28 | Rogers Communications Inc. | Method and system for dynamically watermarking media |
CN106504757A (zh) * | 2016-11-09 | 2017-03-15 | 天津大学 | 一种基于听觉模型的自适应音频盲水印方法 |
KR20190094319A (ko) * | 2019-03-12 | 2019-08-13 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020009208A1 (en) * | 1995-08-09 | 2002-01-24 | Adnan Alattar | Authentication of physical and electronic media objects using digital watermarks |
US7770013B2 (en) * | 1995-07-27 | 2010-08-03 | Digimarc Corporation | Digital authentication with digital and analog documents |
US20120259635A1 (en) * | 2011-04-05 | 2012-10-11 | Ekchian Gregory J | Document Certification and Security System |
US9401153B2 (en) * | 2012-10-15 | 2016-07-26 | Digimarc Corporation | Multi-mode audio recognition and auxiliary data encoding and decoding |
-
2019
- 2019-12-12 CN CN201911271137.XA patent/CN111091841B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102306305A (zh) * | 2011-07-06 | 2012-01-04 | 北京航空航天大学 | 一种基于生物特征水印的安全身份认证方法 |
CA2805783A1 (en) * | 2012-02-28 | 2013-08-28 | Rogers Communications Inc. | Method and system for dynamically watermarking media |
CN106504757A (zh) * | 2016-11-09 | 2017-03-15 | 天津大学 | 一种基于听觉模型的自适应音频盲水印方法 |
KR20190094319A (ko) * | 2019-03-12 | 2019-08-13 | 엘지전자 주식회사 | 음성 추출 필터를 이용하여 음성 제어를 수행하는 인공 지능 장치 및 그 방법 |
Non-Patent Citations (2)
Title |
---|
Free-Form Image Inpainting With Gated Convolution;Jiahui Yu et al.;《2019/IEEECVF International Conference on Computer Vision(ICCV)》;20191102;第4470-4479页 * |
基于图像载体的一种音频信号水印算法;张骏;《计算机技术与发展》;20110331;第21卷(第3期);第185-189页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111091841A (zh) | 2020-05-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111091841B (zh) | 一种基于深度学习的身份认证音频水印算法 | |
Jiang et al. | SmartSteganogaphy: Light-weight generative audio steganography model for smart embedding application | |
CN1311581A (zh) | 计算机实现的音频数据隐藏的方法和装置 | |
Kumsawat | A genetic algorithm optimization technique for multiwavelet-based digital audio watermarking | |
Dhar et al. | Digital watermarking scheme based on fast Fourier transformation for audio copyright protection | |
Kekre et al. | Increasing the capacity of the cover audio signal by using multiple LSBs for information hiding | |
Mosleh et al. | A robust intelligent audio watermarking scheme using support vector machine | |
Ye et al. | Heard more than heard: An audio steganography method based on gan | |
CN113990330A (zh) | 一种基于深度网络嵌入和识别音频水印的方法和装置 | |
Dhar | A blind audio watermarking method based on lifting wavelet transform and QR decomposition | |
Djebbar et al. | Controlled distortion for high capacity data-in-speech spectrum steganography | |
Baziyad et al. | Maximizing embedding capacity for speech steganography: a segment-growing approach | |
Gopalan | A unified audio and image steganography by spectrum modification | |
CN114999502B (zh) | 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法 | |
Dhar et al. | Audio watermarking in transform domain based on singular value decomposition and quantization | |
Liu et al. | Adaptive audio steganography scheme based on wavelet packet energy | |
Baziyad et al. | 64-bit quantization: taking payload capacity of speech steganography to the limits | |
Moorthy et al. | Generative adversarial analysis using U-lsb based audio steganography | |
Wei et al. | Controlling bitrate steganography on AAC audio | |
Kaur et al. | A blind watermarking algorithm for audio signals in multi-resolution and singular value decomposition | |
Muzaffar et al. | Compressed Sensing for Security and Payload Enhancement in Digital Audio Steganography. | |
Liu et al. | A multipurpose audio watermarking algorithm based on vector quantization in DCT domain | |
Trivedi et al. | An algorithmic digital audio watermarking in perceptual domain using direct sequence spread spectrum | |
Chowdhury | A Robust Audio Watermarking In Cepstrum Domain Composed Of Sample's Relation Dependent Embedding And Computationally Simple Extraction Phase | |
Chen et al. | Multipurpose audio watermarking algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |