CN114220443B - 基于bn优化sngan的自适应音频隐写模型的训练方法和系统 - Google Patents
基于bn优化sngan的自适应音频隐写模型的训练方法和系统 Download PDFInfo
- Publication number
- CN114220443B CN114220443B CN202111300321.XA CN202111300321A CN114220443B CN 114220443 B CN114220443 B CN 114220443B CN 202111300321 A CN202111300321 A CN 202111300321A CN 114220443 B CN114220443 B CN 114220443B
- Authority
- CN
- China
- Prior art keywords
- secret
- matrix
- audio
- carrier
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 40
- 238000005457 optimization Methods 0.000 title claims abstract description 20
- 239000011159 matrix material Substances 0.000 claims abstract description 195
- 229910052582 BN Inorganic materials 0.000 claims abstract description 41
- PZNSFCLAULLKQX-UHFFFAOYSA-N Boron nitride Chemical compound N#B PZNSFCLAULLKQX-UHFFFAOYSA-N 0.000 claims abstract description 41
- 230000006870 function Effects 0.000 claims description 49
- 238000010606 normalization Methods 0.000 claims description 18
- 230000004913 activation Effects 0.000 claims description 17
- 230000008569 process Effects 0.000 claims description 15
- 230000003595 spectral effect Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 description 13
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于BN优化SNGAN的自适应音频隐写模型的训练方法、系统、存储介质和电子设备,涉及音频隐写技术领域。本发明中,编码器通过训练学习,得到与载体矩阵高度相似的第二载密矩阵,可以生成载密音频,并分别送入提取器和分析器;提取器通过训练学习,得到第二秘密矩阵,可以恢复出尽可能准确的秘密音频;分析器通过训练学习,得到所述载体矩阵和第二载密矩阵的判别结果,可以尽可能准确检测载体音频和载密音频;通过三个网络的互相学习,使得音频隐写可以在隐写容量、不可感知性和抗隐写分析能力之间达到理想的均衡。
Description
技术领域
本发明涉及音频隐写技术领域,具体涉及一种基于BN优化SNGAN的自适应音频隐写模型的训练方法、系统、存储介质和电子设备。
背景技术
近年来,生成对抗网络(generative adversarial networks,GAN)的迅速发展给音频隐写带来了新的契机。GAN通常由生成器和判别器两部分构成,生成器是为了生成能够以假乱真的数据,而判别器是为了将生成器生成的数据和原先就存在的数据集区分。然而,传统的GAN存在训练困难、生成器和判别器的损失函数无法指导训练进程、生成样本缺乏多样性、收敛速度慢等问题。
为此,在GAN的判别器中采用频谱归一化(spectral normalization,SN),提出了一种SNGAN,其生成器采用了批处理归一化(batch normalization,BN),判别器采用了频谱归一化(SN)。具体来说,就是在GAN判别器的参数矩阵上加上Lipschitz约束,实现了输入的微小变化不会导致输出产生较大变化。对于多层的神经网络,每一层的输入先乘以参数矩阵进行线性运算,再送入激活函数,每层网络的网络参数除以该层参数矩阵的谱范数即可满足Lipschitz约束,因此SNGAN常应用于高质量的图像生成,图像修复以及数据增强等。
但是,如果仅仅只是将SNGAN直接应用于音频隐写,不可感知性和误码率都很难得到理想的结果。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于BN优化SNGAN的自适应音频隐写模型的训练方法、系统、存储介质和电子设备,解决了现有音频隐写模型不可感知性和误码率很难得到理想结果的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于BN优化SNGAN的自适应音频隐写模型的训练方法,所述基于BN优化SNGAN的自适应音频隐写模型包括编码器、提取器和分析器,所述训练方法具体包括:
根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程。
优选的,所述损失函数具体是指:
LE=λ1(1-C(Ac,Ar))+λ2LS+λ3LD
LS=ylog(S(Ar))+(1-y)log(1-S(Ac))
LD=1-C(As,Ae)
其中,LE表示编码器E的损失函数;LS表示分析器S的损失函数,具体为交叉熵损失函数,y表示标签,其中y取1表示编码后的载密音频,y取0表示载体音频;LD表示提取器D的损失函数;λ1,λ2,λ3分别表示各个损失的权重,且满足λ1+λ2+λ3=1;Ac、Ar、As和Ae分别表示载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵;C(As,Ae)表示As和Ae的矩阵相似度。
优选的,基于时域补零法,将任意长度的所述秘密音频调整为与所述载体音频等长。
优选的,采用短时傅里叶变换将所述秘密音频和载体音频转换为对应的第一秘密矩阵和载体矩阵。
优选的,所述编码器包括12个第一SNConvblock模块,任意一个所述第一SNConvblock模块包括对应的通过谱范数优化的第一二维卷积层、第一批处理归一化层以及第一激活函数层。
优选的,所述提取器包含7层网络结构,其中:
前五层用并行结构,每一层包括2个第二SNConvblock模块,分别用3*3和5*5的卷积核对所述第二载密矩阵进行卷积,后面两层每层包括1个第二SNConvblock模块,任意一个所述第二SNConvblock模块包括对应的通过谱范数优化的第二二维卷积层、第二批处理归一化层以及第二激活函数层。
优选的,所述分析器包括3个第三SNConvblock模块、3个全连接层和第三激活函数层,任意一个所述第三SNConvblock模块包括对应的通过谱范数优化的第三二维卷积层、第三批处理归一化层以及第三激活函数层。
一种基于BN优化SNGAN的自适应音频隐写模型的训练系统,所述基于BN优化的自适应音频隐写模型包括编码器、提取器和分析器,所述训练系统具体包括:
获取模块,用于根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
预处理模块,用于根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
编码模块,用于将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
提取模块,用于将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
判别模块,用于将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
训练模块,根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程。
一种存储介质,其存储有用于基于BN优化SNGAN的自适应音频隐写模型的训练的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法。
(三)有益效果
本发明提供了一种基于BN优化SNGAN的自适应音频隐写模型的训练方法、系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明中,编码器通过训练学习,得到与载体矩阵高度相似的第二载密矩阵,可以生成载密音频,并分别送入提取器和分析器;提取器通过训练学习,得到第二秘密矩阵,可以恢复出尽可能准确的秘密音频;分析器通过训练学习,得到所述载体矩阵和第二载密矩阵的判别结果,可以尽可能准确检测载体音频和载密音频;通过三个网络的互相学习,使得音频隐写可以在隐写容量、不可感知性和抗隐写分析能力之间达到理想的均衡。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种基于BN优化SNGAN的自适应音频隐写模型的训练方法的流程示意图;
图2为本发明实施例提供的一种BNSNGAN算法总体框架示意图;
图3为本发明实施例提供的一种时域补零法示意图;
图4为本发明实施例提供的一种编码器网络结构示意图;
图5为本发明实施例提供的一种提取器网络结构示意图;
图6为本发明实施例提供的一种分析器网络结构示意图;
图7为本发明实施例提供的载体音频和编码后的载密音频的语谱图对比结果;
图8为本发明实施例提供的待隐藏的秘密音频和提取器提取的秘密音频的语谱图对比结果;
图9为本发明实施例提供的一种基于BN优化SNGAN的自适应音频隐写模型的训练系统结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于BN优化SNGAN的自适应音频隐写模型的训练方法、系统、存储介质和电子设备,解决了现有音频隐写模型不可感知性和误码率很难得到理想结果的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例中,编码器通过训练学习,得到与载体矩阵高度相似的第二载密矩阵,可以生成载密音频,并分别送入提取器和分析器;提取器通过训练学习,得到第二秘密矩阵,可以恢复出尽可能准确的秘密音频;分析器通过训练学习,得到所述载体矩阵和第二载密矩阵的判别结果,可以尽可能准确检测载体音频和载密音频;通过三个网络的互相学习,使得音频隐写可以在隐写容量、不可感知性和抗隐写分析能力之间达到理想的均衡。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
实施例1:
第一方面,如图1所示,本发明实施例提供了一种基于BN优化SNGAN的自适应音频隐写模型的训练方法,所述基于BN优化SNGAN的自适应音频隐写模型包括编码器、提取器和分析器,所述训练方法具体包括:
S1、根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
S2、根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
S3、将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
S4、将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
S5、将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
S6、根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程。
本发明实施例中,编码器通过训练学习,得到与载体矩阵高度相似的第二载密矩阵,可以生成载密音频,并分别送入提取器和分析器;提取器通过训练学习,得到第二秘密矩阵,可以恢复出尽可能准确的秘密音频;分析器通过训练学习,得到所述载体矩阵和第二载密矩阵的判别结果,可以尽可能准确检测载体音频和载密音频;通过三个网络的互相学习,使得音频隐写可以在隐写容量、不可感知性和抗隐写分析能力之间达到理想的均衡。
下面将结合具体内容详细介绍上述技术方案的各个步骤:
首先需要说明的是,本发明实施例提供模型训练方法涉及BNSNGAN(batchnormalization optimized spectral normalization GAN)算法,其整体框架如图2所示,总共包括三个网络:将秘密音频嵌入到载体音频的编码器网络,将秘密音频从载密音频中恢复出来的提取器网络,以及判断音频是否含有秘密信息的隐写分析器网络。对于这三个网络,卷积层和线性层均使用谱范数来优化,即参数矩阵的奇异值来约束参数矩阵。
S1、根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵。
首先基于时域补零法,将任意长度的所述秘密音频调整为与所述载体音频等长,便于后续嵌入所述载体音频中,提高了音频隐写的不可感知性。
在隐写编码器的输入中,基于时域补零法对所述秘密音频进行预处理,实现了任意长度秘密音频的嵌入,提高了音频隐写的不可感知性。时域补零法如图3所示。
然后采用短时傅里叶变换将等长的秘密音频和载体音频转换为对应的第一秘密矩阵和载体矩阵。
短时傅里叶变换(STFT,short-time Fourier transform)是指选择一个时频局部化的窗函数,通过移动窗函数,使信号在不同的有限时间宽度内是平稳信号,从而计算出各个不同时刻的功率谱。
在本发明实施例中编码器的输入为一个矩阵。因此,需要对秘密音频和载体音频进行处理,以符合编码器的输入要求。通常的做法是分别对秘密音频和载体音频进行短时傅里叶变换,转化为复数矩阵后进行级联作为编码器输入。
此外,在后续步骤中,例如编码器获取第二载密矩阵、提取器获取第二秘密矩阵,还可以采用短时傅里叶逆变换转回对应的音频文件。
短时傅里叶逆变换(ISTFT,inverse short-time Fourier transform)是指将信号从频域转换到时域中,在发明实施例中编码器和提取器输出的载密矩阵和提取后的秘密矩阵都需要通过短时傅里叶逆变换转换为载密音频和提取后的秘密音频。
S2、根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵。
将所述第一秘密矩阵和载体矩阵级联,获取第一载密矩阵。
S3、将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵。
编码器网络实现秘密音频的嵌入,使得载密音频与载体音频尽可能相似,即提高音频隐写的不可感知性。
如图4所示,所述编码器包括12个第一SNConvblock模块,任意一个所述第一SNConvblock模块包括对应的通过谱范数优化的第一二维卷积层、第一批处理归一化层以及第一激活函数层。
对于编码器的网络结构中的参数设置通过在训练过程中调优得到的,最终的训练以及测试均通过图4中具体的网络结构实现的,每一层的参数用SNConvblock(p*p,q,r)这种形式表示,其中p*p是当前网络层卷积核的大小,q为当前网络层的输入通道,r为当前网络层的输出通道,即当前网络层的卷积核个数。
S4、将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵。
提取器网络实现秘密音频的恢复,使得恢复的秘密音频和原始秘密音频之间的误差尽可能小,提高了秘密信息提取的准确率。
如图5所示,所述提取器前五层用并行结构,每一层包括2个第二SNConvblock模块,分别用3*3和5*5的卷积核对所述第二载密矩阵进行卷积,后面两层每层包括1个第二SNConvblock模块,任意一个所述第二SNConvblock模块包括对应的通过谱范数优化的第二二维卷积层、第二批处理归一化层以及第二激活函数层。
其中为了使卷积后的特征大小可以进行融合,使用大小的卷积核时步长设置为1,填充为1,而大小的卷积核时步长设置为1,填充为2,将卷积后的结果进行特征融合作为下一层神经网络输入。
并行结构的好处是,在卷积时,不同大小的卷积核通过不同大小感受野提取到不同的信息,最后将不同卷积核提取的秘密信息进行融合,增强了提取器网络的秘密音频恢复性能。
对于提取器的网络结构中的参数设置同样是通过在训练过程中调优得到的,最终的训练以及测试均通过图5中具体的网络结构实现的,每一层的参数用SNConvblock(p*p/r)这种形式表示,其中p*p是当前网络层卷积核的大小,r为当前网络层的输出通道,即当前网络层的卷积核个数。融合后的参数SUM(m*n*z),其中m*n为神经网络中矩阵的特征图大小,z为当前网络层融合后输出通道。
S5、将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果。
分析器网络是载密音频和载体音频的判别器,目的是通过与编码器的训练提高隐写的抗检测性。
如图6所示,所述分析器包括3个第三SNConvblock模块、3个全连接层和第三激活函数层,任意一个所述第三SNConvblock模块包括对应的通过谱范数优化的第三二维卷积层、第三批处理归一化层以及第三激活函数层(例如softmax层)。
对于分析的网络结构中的参数设置通过在训练过程中调优得到的,最终的训练以及测试均通过图6中具体的网络结构实现的,三个SNConvblock(p*p,q,r)这种形式表示,其中p*p是当前网络层卷积核的大小,q为当前网络层的输入通道,r为当前网络层的输出通道,即当前网络层的卷积核个数。三个全连接层参数分别为(g,h),g,h分别为输入参数和输出参数,第一层的输入参数k为卷积后的特征图大小进行平铺运算得出的,即将第三层卷积网络输出的特征图转换为一维向量,最后一层全链接输出参数为2,需要输入到softmax层映射成概率。
其中,三个SNConvblock层可以很好的提取隐写分析的深度特征,三个全连接层可以融合学习到的深度特征,softmax层将全连接层输出的两个张量通过映射成[0,1]之间的两个概率,其中第一个概率标签为1,表示第二载密矩阵(载密音频)的概率,第二个概率标签为0,表示载体矩阵(载体音频)的概率。
不难理解的,上述步骤S4和S5在时序上没有任何限制,既可以先执行S4后执行S5,也可以先执行S5后执行S4。
S6、根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程。
损失函数是深度网络里最基础也是最为关键的一个要素,可以很好的反映模型与实际数据的差距。损失函数设计的越好,通常模型的性能越好。不同的模型用的损失函数一般也不一样。在本发明实施例中,音频均转化为矩阵作为网络的输入和输出,因此,以矩阵相似度来构造损失函数。
定义LE、LD和LS分别表示编码器E、提取器D和分析器S的损失函数,Ac、Ar、As和Ae分别表示载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵。
分析器作为模型的鉴别器,其损失函数采用交叉熵损失函数:
LS=ylog(S(Ar))+(1-y)log(1-S(Ac))
其中,y表示标签,将编码器产生的载密音频标签为1,将原始的载体音频标签为0。
对于提取器,训练学习的目的尽可能缩小原始秘密音频与提取后秘密音频之间的差距,故采用As与Ae之间的矩阵相似度作为衡量标准。需要注意的是,在采用梯度下降训练提取器网络时,是最小化损失函数,这与矩阵相似度的优化目标相悖,因此提取器损失函数LD用1减去矩阵相似度:
LD=1-C(As,Ae)
其中,C(As,Ae)表示As和Ae的矩阵相似度。
对于编码器,由于在整个模型中其与提取器和隐写分析器密切关联,这里采用隐写分析器损失与提取器损失以及载体音频和载密音频之间的矩阵相似度的加权来作为编码器的损失函数
LE=λ1(1-C(Ac,Ar))+λ2LS+λ3LD
其中,λ1,λ2,λ3分别表示各个损失的权重,且满足λ1+λ2+λ3=1。
基于上述确定的编码器损失函数LE,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程。
本发明实施例通过上述编码器、提取器和分析器这三个网络的互相学习,不仅可以实现任意长度秘密音频的嵌入,具有较高的秘密信息提取率,并且在隐写容量、不可感知性和抗检测性上可以达到一个较好的均衡。
通过与传统的隐写方法对比,本发明实施例将深度学习中频谱归一化生成对抗网络框架引入隐写模型中,提升音频隐写的不可感知性和抗隐写分析性能。此外网络结构单元上将批处理归一化与频谱归一化相结合,显著了提升SNGAN在音频隐写上的优势,解决了内部协变量偏移和反向传播中梯度消失的问题,增加了模型的泛化性能。
隐写容量、不可感知性和抗检测性是音频隐写的三个重要评价指标,呈现“三角关系”。一般秘密音频越长,隐写容量越大,不可感知性和抗检测性越差。在本发明实施例中,在三个网络的损失函数中均体现了隐写容量、不可感知性和抗检测性三个指标。而且BNSNGAN可以将SN和BN相结合,解决了内部协变量偏移和反向传播中梯度消失的问题。当三个网络通过协同训练达到收敛时,模型可以在隐写容量、不可感知性和抗检测性三个方面达到一个均衡状态。
以下通过具体的实验证明本发明实施例训练所得的音频隐写模型的优越性能:
实验数据选取了流行公开的Librispeech和TIMIT两组数据集。
以下是测试的具体实施方法,在模型训练结束时,分别保存了编码器和提取器的最优模型,在实际应用中,随机选取一条载体音频和一条秘密音频通过时域补零使秘密音频与载体音频等长,再将两条音频通过短时傅里叶变换转换为二维矩阵进行级联输入到编码器训练好的模型中,编码器输出为载密矩阵,载密矩阵输入到提取器训练好的最优模型中,输出秘密矩阵,将编码器输出的载密矩阵和提取器输出的秘密矩阵通过短时傅里叶逆变换得到载密音频和恢复出的秘密音频,测试时,用编码器输出的载密音频和编码器输入的载体音频做SNR和ODG计算,用编码器输入的秘密音频和提取器输出的秘密音频做BER计算。
1.不可感知性测试
音频隐写的不可感知性主要通过信噪比和客观等级差异来衡量,分别对使用本发明实施例在不同嵌入率下进行嵌入的2s,5s,10s载体音频文件(flac格式,采样率48k,量化精度32bit)进行不可感知性测试,平均SNR和平均ODG测试结果如表1所示。
其中嵌入率是指秘密音频相对于载体音频的长度比例,表1可以看出在嵌入率100%情况下仍然有较好不可感知性,此外,本发明实施例由于引入了时域补零,使得在隐写中嵌入率更加灵活,表1同时分别给出了嵌入率为1%,25%,50%,75%,100%的SNR和ODG。
表1 BNSNGAN在不同载体音频长度和不同嵌入率下的不可感知性测试结果
此外,不可感知性可以通过语谱图来直观的表达。语谱图是一种常用的语音信号直观表现形式,用二维平面表示三维频谱信息,纵轴为频率,横轴为时间,任一给定频率成分在给定时刻的强弱用色调的浓淡来表示,可以形象的展示载体音频嵌入秘密音频前后的变化情况以秘密信息嵌入前后的变化情况。
图7给出了10s的载体音频和编码后的载密音频的语谱图对比结果。从语谱图对比可以看出载密音频与载体音频具有很强的相似性,人耳很难分辨出差异。
2.秘密音频提取测试
本发明实施例采用流行的比特误码率(bit error ratio,BER),即提取秘密音频的错误比特数除以秘密音频的总比特数,来衡量音频经隐写后正确提取的性能。BER值越小,说明提取的信息越准确,隐写算法就越好。分别对使用本算法进行嵌入的2s,5s,10s秘密音频文件(flac格式,采样率48k,量化精度32bit)进行比特误码率测试,平均BER测试结果如表2所示。
表2 BNSNGAN在不同嵌入率下的BER均值
此外,相同的秘密音频的提取性能也可以通过语谱图来直观的表达,图8给出了10s的带隐藏的秘密音频和提取器提取的秘密音频的语谱图对比结果,可以看出,提取音频和原始秘密音频差异很小。
3.抗隐写分析性能测试
抗隐写分析是评价隐写算法最重要的指标之一,即载体音频在嵌入秘密音频后,具有不被检测到秘密信息存在的能力。
本发明实施例分别采用两种基于深度学习的隐写分析器(分别记为Analyzer1和Analyzer2)来测试本算法的抗检测能力。表3给出了本算法在不同时长载体100%嵌入下的抗检测能力测试结果,表4给出了BNSNGAN在不同隐写分析器和嵌入量下的抗检测结果。分别通过检测准确率(accuracy,ACC)、虚警率(false positive rate,FPR)和漏检率(falsenegative rate,FNR)来衡量。
表3 BNSNGAN在不同时长载体100%嵌入下不同隐写分析器的抗检测结果
表4 BNSNGAN在不同隐写分析器和嵌入率下的抗检测结果
第二方面,如图9所示,本发明实施例提供了一种基于BN优化的自适应音频隐写模型的训练系统,其特征在于,所述基于BN优化的自适应音频隐写模型包括编码器、提取器和分析器,所述训练系统具体包括:
获取模块,用于根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
预处理模块,用于根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
编码模块,用于将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
提取模块,用于将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
判别模块,用于将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
训练模块,根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化的自适应音频隐写模型的训练过程。
第三方面,本发明实施例提供了一种存储介质,其存储有用于基于BN优化的自适应音频隐写模型的训练的计算机程序,其中,所述计算机程序使得计算机执行如上所述的基于BN优化的自适应音频隐写模型的训练方法。
第四方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上所述的基于BN优化的自适应音频隐写模型的训练方法。
可理解的是,本发明实施例提供的基于BN优化的自适应音频隐写模型的训练系统、存储介质和电子设备与本发明实施例提供的基于BN优化的自适应音频隐写模型的训练方法相对应,其有关内容的解释、举例和有益效果等部分可以参考基于BN优化的自适应音频隐写模型的训练方法中的相应部分,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
本发明实施例中,编码器通过训练学习,得到与载体矩阵高度相似的第二载密矩阵,可以生成载密音频,并分别送入提取器和分析器;提取器通过训练学习,得到第二秘密矩阵,可以恢复出尽可能准确的秘密音频;分析器通过训练学习,得到所述载体矩阵和第二载密矩阵的判别结果,可以尽可能准确检测载体音频和载密音频;通过三个网络的互相学习,使得音频隐写可以在隐写容量、不可感知性和抗隐写分析能力之间达到理想的均衡。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (7)
1.一种基于BN优化SNGAN的自适应音频隐写模型的训练方法,其特征在于,所述基于BN优化SNGAN的自适应音频隐写模型包括编码器、提取器和分析器,所述训练方法具体包括:
根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程;
所述编码器包括12个第一SNConvblock模块,任意一个所述第一SNConvblock模块包括对应的通过谱范数优化的第一二维卷积层、第一批处理归一化层以及第一激活函数层;
所述提取器包含7层网络结构,其中:
前五层用并行结构,每一层包括2个第二SNConvblock模块,分别用3*3和5*5的卷积核对所述第二载密矩阵进行卷积,后面两层每层包括1个第二SNConvblock模块,任意一个所述第二SNConvblock模块包括对应的通过谱范数优化的第二二维卷积层、第二批处理归一化层以及第二激活函数层;
所述分析器包括3个第三SNConvblock模块、3个全连接层和第三激活函数层,任意一个所述第三SNConvblock模块包括对应的通过谱范数优化的第三二维卷积层、第三批处理归一化层以及第三激活函数层。
2.如权利要求1所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法,其特征在于,所述损失函数具体是指:
LE=λ1(1-C(Ac,Ar))+λ2LS+λ3LD
LS=ylog(S(Ar))+(1-y)log(1-S(Ac))
LD=1-C(As,Ae)
其中,LE表示编码器E的损失函数;LS表示分析器S的损失函数,具体为交叉熵损失函数,y表示标签,其中y取1表示编码后的载密音频,y取0表示载体音频;LD表示提取器D的损失函数;λ1,λ2,λ3分别表示各个损失的权重,且满足λ1+λ2+λ3=1;Ac、Ar、As和Ae分别表示载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵;C(As,Ae)表示As和Ae的矩阵相似度。
3.如权利要求2所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法,其特征在于,基于时域补零法,将任意长度的所述秘密音频调整为与所述载体音频等长。
4.如权利要求1~3任一项所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法,其特征在于,采用短时傅里叶变换将所述秘密音频和载体音频转换为对应的第一秘密矩阵和载体矩阵。
5.一种基于BN优化SNGAN的自适应音频隐写模型的训练系统,其特征在于,所述基于BN优化SNGAN的自适应音频隐写模型包括编码器、提取器和分析器,所述训练系统具体包括:
获取模块,用于根据载体音频和待隐藏的秘密音频,获取第一秘密矩阵和载体矩阵;
预处理模块,用于根据所述第一秘密矩阵和载体矩阵,获取第一载密矩阵;
编码模块,用于将所述第一载密矩阵输入所述编码器中,获取第二载密矩阵;
提取模块,用于将所述第二载密矩阵输入所述提取器中,获取第二秘密矩阵;
判别模块,用于将所述载体矩阵和第二载密矩阵输入所述分析器中,获取所述载体矩阵和第二载密矩阵的判别结果;
训练模块,根据所述载体矩阵、第二载密矩阵、第一秘密矩阵和第二秘密矩阵构建所述编码器的损失函数,完成所述基于BN优化SNGAN的自适应音频隐写模型的训练过程;
所述编码器包括12个第一SNConvblock模块,任意一个所述第一SNConvblock模块包括对应的通过谱范数优化的第一二维卷积层、第一批处理归一化层以及第一激活函数层;
所述提取器包含7层网络结构,其中:
前五层用并行结构,每一层包括2个第二SNConvblock模块,分别用3*3和5*5的卷积核对所述第二载密矩阵进行卷积,后面两层每层包括1个第二SNConvblock模块,任意一个所述第二SNConvblock模块包括对应的通过谱范数优化的第二二维卷积层、第二批处理归一化层以及第二激活函数层;
所述分析器包括3个第三SNConvblock模块、3个全连接层和第三激活函数层,任意一个所述第三SNConvblock模块包括对应的通过谱范数优化的第三二维卷积层、第三批处理归一化层以及第三激活函数层。
6.一种存储介质,其特征在于,其存储有用于基于BN优化SNGAN的自适应音频隐写模型的训练的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~4任一项所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~4任一项所述的基于BN优化SNGAN的自适应音频隐写模型的训练方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111300321.XA CN114220443B (zh) | 2021-11-04 | 2021-11-04 | 基于bn优化sngan的自适应音频隐写模型的训练方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111300321.XA CN114220443B (zh) | 2021-11-04 | 2021-11-04 | 基于bn优化sngan的自适应音频隐写模型的训练方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114220443A CN114220443A (zh) | 2022-03-22 |
CN114220443B true CN114220443B (zh) | 2023-04-07 |
Family
ID=80695683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111300321.XA Active CN114220443B (zh) | 2021-11-04 | 2021-11-04 | 基于bn优化sngan的自适应音频隐写模型的训练方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114220443B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115440234B (zh) * | 2022-11-08 | 2023-03-24 | 合肥工业大学 | 基于midi和对抗生成网络的音频隐写方法和系统 |
CN117132671B (zh) * | 2023-10-27 | 2024-02-23 | 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) | 基于深度自适应隐写网络的多任务隐写方法、系统及介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109587372B (zh) * | 2018-12-11 | 2020-06-16 | 北京邮电大学 | 一种基于生成对抗网络的不可见图像隐写术 |
CN111327785B (zh) * | 2020-01-15 | 2022-04-15 | 郑州埃文计算机科技有限公司 | 一种基于对抗生成网络的图像自动构建的信息隐写通信方法 |
CN111640444B (zh) * | 2020-04-17 | 2023-04-28 | 宁波大学 | 基于cnn的自适应音频隐写方法和秘密信息提取方法 |
-
2021
- 2021-11-04 CN CN202111300321.XA patent/CN114220443B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN114220443A (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110136731B (zh) | 空洞因果卷积生成对抗网络端到端骨导语音盲增强方法 | |
CN114220443B (zh) | 基于bn优化sngan的自适应音频隐写模型的训练方法和系统 | |
CN109587372B (zh) | 一种基于生成对抗网络的不可见图像隐写术 | |
CN108764270B (zh) | 一种利用卷积神经网络集成的信息隐藏检测方法 | |
CN104966517B (zh) | 一种音频信号增强方法和装置 | |
CN110276409A (zh) | 一种时间序列异常检测方法、装置、服务器和存储介质 | |
CN114359526B (zh) | 基于语义gan的跨域图像风格迁移方法 | |
CN106530200A (zh) | 一种基于深度学习模型的隐写图像检测方法及系统 | |
CN109496334A (zh) | 用于评估语音质量的设备和方法 | |
JP6272433B2 (ja) | ピッチ周期の正確性を検出するための方法および装置 | |
CN107610711A (zh) | 基于量化索引调制qim的g.723.1语音信息隐写分析方法 | |
He et al. | A visual residual perception optimized network for blind image quality assessment | |
Dettmer et al. | Joint time/frequency-domain inversion of reflection data for seabed geoacoustic profiles and uncertainties | |
Niu et al. | Detection of double JPEG compression with the same quantization matrix via convergence analysis | |
Krishnan et al. | A novel underwater image enhancement technique using ResNet | |
Chuchra et al. | A deep learning approach for splicing detection in digital audios | |
CN114596609B (zh) | 一种视听伪造检测方法及装置 | |
CN115910091A (zh) | 引入基频线索的生成式语音分离方法和装置 | |
CN116228520A (zh) | 基于Transformer生成对抗网络的图像压缩感知重建方法及系统 | |
CN110136741A (zh) | 一种基于多尺度上下文的单通道语音增强方法 | |
Wu et al. | LPC parameters substitution for speech information hiding | |
CN115035052A (zh) | 一种基于身份差异量化的伪造换脸图像检测方法和系统 | |
CN112927700A (zh) | 一种盲音频水印嵌入和提取方法及系统 | |
CN114745187B (zh) | 一种基于pop流量矩阵的内部网络异常检测方法及系统 | |
CN117292696B (zh) | 端到端音频隐写方法、系统、存储介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |