CN115440234B - 基于midi和对抗生成网络的音频隐写方法和系统 - Google Patents

基于midi和对抗生成网络的音频隐写方法和系统 Download PDF

Info

Publication number
CN115440234B
CN115440234B CN202211391388.3A CN202211391388A CN115440234B CN 115440234 B CN115440234 B CN 115440234B CN 202211391388 A CN202211391388 A CN 202211391388A CN 115440234 B CN115440234 B CN 115440234B
Authority
CN
China
Prior art keywords
midi
network
secret information
secret
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211391388.3A
Other languages
English (en)
Other versions
CN115440234A (zh
Inventor
张国富
史志远
苏兆品
岳峰
乔亚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN202211391388.3A priority Critical patent/CN115440234B/zh
Publication of CN115440234A publication Critical patent/CN115440234A/zh
Application granted granted Critical
Publication of CN115440234B publication Critical patent/CN115440234B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

本发明提供一种基于MIDI和对抗生成网络的音频隐写方法和系统,涉及音频处理技术领域。本发明预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络和判决器网络,并根据生成器网络构建提取器网络,该方法包括:首先对秘密信息进行预处理,得到秘密信息所映射的浮点数;通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;通过提取器网络对载密信息进行解密。本发明的生成式音频隐写方法,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性安全性。

Description

基于MIDI和对抗生成网络的音频隐写方法和系统
技术领域
本发明涉及音频处理技术领域,具体涉及一种基于MIDI和对抗生成网络的音频隐写方法和系统。
背景技术
音频隐写术是一种将秘密信息隐藏在普通的、非秘密的、可运行的音频文件中的技术。主要运用于军队情报的秘密通信和信息的加密领域。
以LSB隐写和量化指数调制为例,LSB隐写通过修改载体音频的最低有效位,并将这些最低有效位替换为想要隐藏的秘密信息。量化指数调制(QIM)经常被部署在编解码器的矢量量化中以嵌入秘密信息,这种方法能够以很小的延迟同时实现编码和隐蔽,同时能够最大限度的减少失真,保证载密音频的质量。
然而,无论是LSB隐写,还是量化指数调制,均需考虑载体音频本身的特性,会有载密音频失真和秘密信息泄露的风险,导致隐写效果差。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于MIDI和对抗生成网络的音频隐写方法和系统,解决了现有的有载体音频隐写术隐写效果差的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
第一方面,本发明提供一种基于MIDI和对抗生成网络的音频隐写方法,预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,该方法包括:
S1、对秘密信息进行预处理,得到秘密信息所映射的浮点数;
S2、通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;
S3、通过提取器网络对载密信息进行解密。
优选的,所述预先构建MIDI音符字典,包括:
获取MIDI数据,建立MIDI的语音数据库;
使用music21工具包分析MIDI的语音数据库中MIDI文件,构建包括索引及其代表的和弦或单音音符构成的MIDI音符字典。
优选的,所述MIDI音符字典包括:
Figure 351832DEST_PATH_IMAGE001
其中,j∈{1,2,…,q}代表和弦或单音的索引;q代表和弦或单音的总数;N tj 表示一组在和弦j中同时出现的音符号;N tq 表示一组在和弦q中同时出现的音符号。
优选的,所述采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,包括:
使用MIDI片段,基于对抗生成网络,对生成器网络、判决器网络以及提取器网络进行训练和测试;
其中,
判决器网络的训练过程中的目标函数为:
Figure 19574DEST_PATH_IMAGE002
其中:x g 代表载体MIDI;x r 代表载密MIDI;E[ ]代表期望;D()代表判决器网络的输出;E[D(.)]代表输入样本与真实样本之间的差距,其中.代表输入样本;
生成器网络的训练过程中的目标函数为:
Figure 157294DEST_PATH_IMAGE003
其中:λ代表0~1之间的一个小数;
提取器网络的训练过程中的目标函数为:
Figure 619499DEST_PATH_IMAGE004
其中:MSE代表均方误差,F S 代表真实的秘密信息,F S' 代表恢复出的秘密信息。
优选的,所述载密MIDI是指:
将生成器网络输出的MIDI音符字典的索引的归一化值通过以下公式转化为代表MIDI音符索引的整数ρ m
Figure 842670DEST_PATH_IMAGE005
其中:g m 是输出,N tq 表示一组在和弦q中同时出现的音符号;
通过ρ m 找到对应的单音或者和弦,使用music21中的python工具将多个ρ m 组合合成载密MIDI。
优选的,所述对秘密信息进行预处理,得到秘密信息所映射的浮点数,包括:
对于一个二进制秘密信息S={s1,s2,s3,…,sn},so∈{0,1},o=123,…,n,其中n代表二进制比特流秘密信息的长度,每一位用so表示,其只能为0或1,转化方式如下:
S101、将秘密信息分段,得到p段分段秘密信息;
S102、计算p段分段秘密信息的p个映射区间;
S103、在每个分段秘密信息所对应的映射区间中随机采样一个数作为所映射的浮点数。
优选的,所述计算p段分段秘密信息的p个映射区间,包括:
对于第i段秘密信息Si,其相关映射区间[x i ,y i ]的计算公式如下:
Figure 48524DEST_PATH_IMAGE006
其中:σ代表上述的秘密信息分段后的比特数;δ代表秘密信息至浮点数映射区间的间距;Sil表示秘密信息第i段秘密信息Si中的第l个比特,|S|表示二进制秘密信息S的长度。
第二方面,本发明提供一种基于MIDI和对抗生成网络的音频隐写系统,所述系统预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,所述系统包括:
预处理模块,用于对秘密信息进行预处理,得到秘密信息所映射的浮点数;
加密模块,用于通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;
解密模块,用于通过提取器网络对载密信息进行解密。
第三方面,本发明提供一种计算机可读存储介质,其特征在于,其存储用于基于MIDI和对抗生成网络的音频隐写的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于MIDI和对抗生成网络的音频隐写方法。
第四方面,本发明提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于MIDI和对抗生成网络的音频隐写方法。
(三)有益效果
本发明提供了一种基于MIDI和对抗生成网络的音频隐写方法和系统。与现有技术相比,具备以下有益效果:
本发明预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络和判决器网络,并根据生成器网络构建提取器网络,该方法包括:首先对秘密信息进行预处理,得到秘密信息所映射的浮点数;通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;通过提取器网络对载密信息进行解密。本发明的生成式音频隐写方法,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一种基于MIDI和对抗生成网络的音频隐写方法的框图;
图2为本发明实施例中一种基于MIDI和对抗生成网络的音频隐写方法的总体结构图;
图3为本发明实施例中秘密信息转化为生成器网络输入映射的方式示意图;
图4为本发明实施例中生成器网络的结构示意图;
图5为本发明实施例中判决器网络的结构示意图;
图6为本发明实施例中提取器网络的结构示意图;
图7为不同方法合成出的MIDI的MOS值的示意图;
图8为不同方法合成出的MIDI的tone span值的示意图;
图9a为真实音频的MIDI的分布示意图,图9b为MIDIGAN方法合成出的MIDI的分布示意图,图9c为C_RNN_GAN方法合成出的MIDI的分布示意图;图9d为LSTMGAN方法合成出的MIDI的分布示意图;
图10为不同的隐写分析方法对不同参数下的抗隐写分析检测率的示意图;
图11为同参数下的隐写恢复准确率的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于MIDI和对抗生成网络的音频隐写方法和系统,解决了现有的有载体音频隐写术隐写效果差的技术问题,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性和安全性。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
现有的有载体的音频隐写术,由于考虑载体音频本身的特性,会有载密音频失真和秘密信息泄露的风险。同时,通过改变载体特性嵌入秘密信息,无法抵抗基于深度学习的隐写分析器。为解决上述问题,本发明实施例设计一种生成式音频隐写方法,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性安全性。
本发明实施例提供一种基于MIDI和对抗生成网络的音频隐写方法,预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,如图1所示,该方法包括:
S1、对秘密信息进行预处理,得到秘密信息所映射的浮点数;
S2、通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;
S3、通过提取器网络对载密信息进行解密。
本发明实施例提出一种生成式音频隐写方法,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性安全性。
下面对各个步骤进行详细说明:
需要说明的是,MIDI是一种乐器数字接口文件。与普通音频文件不同,MIDI文件是一个可编辑的事件列表,描述了播放设备将采取的具体步骤,以产生某些声音。
一般来说,音乐有三种不同的表现形式:书面乐谱、录音表演和MIDI格式。数字格式的音乐大多以录音表演的形式出现(即MP3、FLAC或wave格式)。而MIDI格式是为电子乐器之间交换音乐数据而开发的。在本发明实施例中,由于MIDI文件很容易获得,并且其体积小,易于网络传输,使用广泛等,本发明实施例使用带有和弦的MIDI文件来隐藏秘密信息。由于音高是MIDI文件中最重要的因素。本发明实施例只对一个音轨中每个音符的音高进行建模,而不考虑起始和偏移时间。
本发明实施例中的基于MIDI和对抗生成网络的音频隐写方法的总体结构图如2所示。
在步骤S1中,对秘密信息进行预处理,得到秘密信息所映射的浮点数。具体实施过程如下:
预处理要做的就是构建秘密信息至神经网络输入的映射,秘密消息为了通用性,一般会以01比特流的形式出现,但这样形式的秘密信息无法满足神经网络的输入要求,因此需要构建一种映射机制使得秘密信息映射至想要的输入形式上。映射参考区间映射的方式,将秘密信息S(01比特流)转化为对抗生成网络常见的输入形式Z,对应方式如图3所示。
对于一个二进制秘密信息S={s1,s2,s3,…,sn}(so∈{0,1},o=123,…,n),其中n代表二进制比特流秘密信息的长度,每一位用so表示,其只能为0或1,转化方式如下:
S101、将秘密信息分段,得到p段分段秘密信息。具体为:
将秘密信息S分为p段,S1,S1,…Sp
S102、计算p段分段秘密信息的p个映射区间。具体为:
对于第i段秘密信息Si(i=1,2,…p),其相关映射区间[x i ,y i ]的计算公式如下:
Figure 40750DEST_PATH_IMAGE006
其中:σ代表上述的秘密信息分段后(即Si(i=1,2,…p))的比特数;δ代表秘密信息至浮点数映射区间的间距;Sil表示秘密信息第i段秘密信息Si中的第l个比特(只能为0或1)。
S103、在每个分段秘密信息所对应的映射区间中随机采样一个数作为所映射的浮点数。
在步骤S2中,通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息。具体实施过程如下:
MIDI音符字典的构建过程如下:
获取MIDI数据,建立MIDI的语音数据库。具体为:
获取互联网上常见的一些MIDI数据,并进行处理,得到MIDI的语音数据库。在本发明实施例中,主要包括307首钢琴MIDI谱,在本发明实施例中,为了训练和测试生成器网络、判决器网络以及提取器网络,将这307首钢琴MIDI谱分割至大约16000条MIDI片段,其中12000条用于训练,剩余的4000条用于测试。
使用music21工具包分析MIDI的语音数据库中MIDI文件,构建包括索引及其代表的和弦或单音音符构成的MIDI音符字典。具体为:
使用music21工具包分析MIDI的语音数据库中MIDI文件,该工具可以方便的读写和创建修改一个MIDI信息。一个MIDI文件的内容主要包括演奏的音符、持续时间以及每个音符所需的响度。MIDI格式的数字音频文件包含按音调分出了的128种音符。另外,加上乐理知识中的和弦(即三种或以上的音符同时发声),在本数据库中一共有570种不同的和弦和单音音符,因此,为这些和弦或者音符构建一个索引MIDI音符字典以方便后续的音符组装和数据类型转化是很有必要的。该索引为1~570,每个数字代表数据集中出现的某个和弦或单音音符。以上,索引及其代表的和弦或单音音符就构成了MIDI音符字典。具体形式如下:
Figure 736174DEST_PATH_IMAGE001
其中,j∈{1,2,…,q}代表和弦或单音的索引;q代表和弦或单音的总数;N tj 表示一组在和弦j中同时出现的音符号;N tq 表示一组在和弦q中同时出现的音符号。在本发明实施例中,q=570。最终将这个MIDI音符字典保存为python numpy工具包可读写的npy二进制文件;有了这个MIDI音符字典,就可以通过music21工具根据和弦或单索引方便的合成出一个MIDI文件。
如图4所示,本发明实施例中的生成器网络从输入到输出,依次包括一层线性层、一层批量归一化层、两个结构相同的卷积模块、一层卷积层和一层tanh激活函数,其中,卷积模块包括上一层采样层、一层卷积层、一层批量归一化层、一层leaky relu激活函数。
从上述描述可知,本发明实施例中的生成器网络包括三层卷积层,三层批量归一化层,两层上采样层,两层leaky relu激活函数,一层线性层和一层tanh激活函数。
其中,卷积层的参数设置为3*3的卷积核,该卷积核大小可以精确的提取出输入信息中的局部特征,而多层堆叠的卷积层则可以逐步扩大卷积的感受野,从整体序列的角度,提取合适的特征;并且为了加速的训练过程,使用了批量归一化技术。其中,上采样层的目的是为了扩展数据的维度。最终,tanh激活函数使得输出被归一化至-1~1。
需要说明的是,归一化值-1~1即索引的缩放范围,在本发明实施例中,将1~570缩放到-1~1。
例如,输入大小为100维的由秘密信息映射而来的随机小数,输出则是100维预先构建的MIDI音符中的索引的归一化值-1~1,因此接下来通过公式将这些索引的归一化值-1~1重新变为代表MIDI音符索引的整数ρ m
Figure 945176DEST_PATH_IMAGE005
其中:g m 是输出,ρ m 是1~570的整数,N tq 表示一组在和弦q中同时出现的音符号。
接下来通过ρ m 就可以找到对应的单音或者和弦,最后使用music21这个python工具就可以轻松的将这些ρ m 组合合成出载密MIDI。
需要说明的是,为了能使得生成的载密MIDI尽可能的逼近真实的载体MIDI,本发明实施例使用了判决器网络对生成器网络进行对抗训练。与生成器网络网路结构类似,这里也使用4层卷积模块提取特征,得到提取出的特征后,将此特征放入一个全连接层来得到载密MIDI和载体MIDI间的差异程度。
如图5所示。卷积模块包括一层卷积层和一层leaky relu激活函数。
对抗训练的要点就在于判决器网络的输入是载体MIDI和载密MIDI,计算出这两之间的样本的差异,当差距很小,说明此时的判决器网络无法判断出这两个哪个到底是载密MIDI哪个是载体MIDI,这时目标函数的设计就会加大判决器网络的惩罚,使得判决器网络参数能够被不断的更新直到能区分出两个样本间的区别。而当判决器网络能轻易区分出两者之间的区别时,目标函数的设计又使得生成器网络不断更新直到判决器网络无法将两者轻易区分。如此循环往复不断更新。直到生成与载体音频难分伯仲的载密音频。判决器网络的输入为100维的MIDI音符字典索引归一化至-1~1的值(可以是载体MIDI也可以是载密MIDI)。输出的值代表该载密MIDI与真实样本载体MIDI之间的差距。
在提出的隐写框架中,生成器网络将一个秘密信息映射出的随机小数转化为前文提到的MIDI音符字典中的索引;提取其网络负责从载密信息中尽可能的恢复出原始的秘密信息。而判决器网络同时接收一个载密样本和载体样本,计算出它两之间的差距,以方便生成器网络生成出更加真实的秘密载密音频。
其中,判决器网络的目标函数为:
Figure 689141DEST_PATH_IMAGE002
其中:x g 代表载体MIDI,x r 代表载密MIDI,E[ ]代表期望,D()代表判决器网络的输出。E[D(.)]代表输入样本与真实样本之间的差距,其中.代表输入样本,这里从公式上直观理解是对于判决器网络,希望其在输入为真样本时,输出的差距值尽可能小,而输入为假样本时,输出的差距值尽可能的大。
其中,生成器网络的训练过程中的目标函数为:
Figure 535875DEST_PATH_IMAGE003
生成器网络的损失函数由一部分提取器网络的损失函数和一部分判决器网络的损失函数组成,其中,λ代表0~1的一个小数,E[D(x g )]是判决器网络损失函数L D 一部分,代表载密信息与真实样本间的差距,表示对于生成器网络,希望其能够生成使得代表与真实样本间的差距小的载密信息,两者合在一起表示生成器网络的目标是同时使得提取器网络和判决器网络目标函数值越小越好。
在步骤S3中,通过提取器网络对载密信息进行解密。具体实施过程如下:
在本发明实施例中,输入首先经过了4层卷积模块,用来提取输入特征。接着使用三层线性层(即附图中全连接)来提升网络的非线性能力来增加网络的拟合能力。最后再经过一个tanh激活函数,将输出范围缩放至-1~1。这个输出可以恢复为秘密信息。其网络结构如图6所示:
本发明实施例的提取器网络设置步长为2,希望每次卷积可以看到更长的序列,融合更多的信息。这里的输入为100维的MIDI音符字典索引归一化至-1~1的值。输出值为100维的小数,从该小数恢复出秘密信息(01比特流)的过程是上述预处理过程中映射机制的逆过程,即将该小数所属的区间对应的秘密信息提取出来并按顺序组装就获得了恢复出的秘密信息。
其中,提取器网络的训练过程中的目标函数为:
Figure 339882DEST_PATH_IMAGE004
其中:MSE代表均方误差,F S 代表真实的秘密信息,F S' 代表恢复出的秘密信息。公式的简明含义可理解为希望真实的秘密信息和恢复出的秘密信息越接近越好。
为了验证本发明实施例的有效性,通过对比现有技术进行对比实验:
首先,评价标准包括以下三个:
(1)平均主观意见分(MOS)指标:来评价合成效果;对于MIDI文件的生成效果,常使用分布差异、音程差(tone span)进行对比,其中,分布差异指真实的分布和生成出的音频分布差异越小越好,而音程差这个指标则是越大越好;对于秘密信息的获取程度,常使用隐写恢复准确率来评价提取器网络的效果。平均主观意见分(MOS)指标包括5个等级:1无法接受、2非常恼人、3恼人、4令人满意、5完美。
(2)隐写分析器所能正确分类的样本比例:为了检验隐写方法的抗隐写检测分析能力,将其输入两个不同的隐写分析方法,进行抗隐写分析检测,其指标为隐写分析器所能正确分类的样本比例,记为Pe,这个值越接近0.5越好,表明隐写分析器无法区分出载密MIDI和载体MIDI。
(3)隐写的恢复准确率:数值越大,表示提取器网络效果越好
实验数据:
本次实验的数据库采用的是前面介绍的MIDI数据库,为16000条MIDI片段,并将其根据前文构建的字典转化为16000条整数序列,再归一化至-1~1,其中12000条用于训练发明中的生成器网络判决器网络和提取器网络,剩余的用于测试。待隐藏的秘密信息是根据一些文字对应的SCII码得到的16000条二进制比特流,同样的12000条用于训练,剩余的用于测试。
实验结果:
对于不同的评价标准,本验证过程分别实现上述提到的多种评价指标,这里本发明实施例取名自己的方法为MIDIGAN并且和其他两种已有方法C_RNN_GAN和LSTMGAN进行实验比对。其中,C_RNN_GAN是指文献O. Mogren, “C-rnn-gan: Continuous recurrentneural networks with adversarial training,” arXiv preprint arXiv:1611.09904,2016中的方法,LSTMGAN是指文献Y. Yu, A. Srivastava, and S. Canales,“Conditional LSTM-GAN for melody generation from lyrics,” ACM Transactions onMultimedia Computing, Communications and Applications, vol. 17, no. 1,article no. 35, 2021中的方法。
实验结果如下所示。
由图7中可看出本发明实施例的除真实音频外MOS值最高,说明本发明实施例的方法MIDI-GAN相较于其他方法听起来更加逼真。
由图8中可看出本发明实施例的除真实音频外Tone span值最高,说明本发明实施例的方法与另外两个方法相比音程变化大,更加悦耳。
由图9a~9d中可看出本发明实施例的分布与真实样本分布最接近,与真实样本的差异较小
由图10中可看出本发明实施例的方法在两种隐写分析器下Pe都接近0.5,意味着隐写分析器无法区分出载体和载密音频。
由图11看出本发明实施例的秘密信息的恢复准确率能达到98%朝上,能够在多数情况下恢复出本发明实施例所要的秘密信息。
综上,本发明实施例的方法是可行有效的。
本发明实施例提供一种基于MIDI和对抗生成网络的音频隐写系统,该系统预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,该系统包括:
预处理模块,用于对秘密信息进行预处理,得到秘密信息所映射的浮点数;
加密模块,用于通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;
解密模块,用于通过提取器网络对载密信息进行解密。
可理解的是,本发明实施例提供的基于MIDI和对抗生成网络的音频隐写系统与上述基于MIDI和对抗生成网络的音频隐写方法相对应,其有关内容的解释、举例、有益效果等部分可以参考基于MIDI和对抗生成网络的音频隐写方法中的相应内容,此处不再赘述。
本发明实施例还提供一种计算机可读存储介质,其存储用于基于MIDI和对抗生成网络的音频隐写的计算机程序,其中,所述计算机程序使得计算机执行如上述所述的基于MIDI和对抗生成网络的音频隐写方法。
本发明实施例还提供一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如上述所述的基于MIDI和对抗生成网络的音频隐写方法。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例提出一种生成式音频隐写方法,突破有载体隐写在不可感知性和抗隐写检测性的限制,将秘密信息转化为MIDI音频,从而提高载密音频的有效性安全性。
2、数据库及字典的构建采用了MIDI信息,比其他音频格式相比更加相比体积更小易于传输,理论上相对一般的音频格式更加隐蔽安全。
3、在预处理阶段,调节秘密信息至浮点数映射区间的间距可以使得的秘密信息至输入的映射机制使得同一个秘密信息可对应无数种不同的输入方式,从而对应不同的输出及载密MIDI,极大的提高了安全性。同时,在每个分段秘密信息所对应的映射区间中随机采样一个数作为所映射的浮点数,进一步提高安全性。
4、预处理阶段的分段映射及映射方式使得载密MIDI中的每个音符或和弦可携带多个秘密信息比特,提高了隐写容量。
5、对抗生成网络的使用使得本发明实施例生成的载体信息旨在学习MIDI数据库中的MIDI的分布而不是学习MIDI数据库中的MIDI本身,简言之,本发明实施例生成的载密MIDI具有一定的“创造性”,并不完全等同于已有MIDI,这也提高了隐写的安全性。
6、损失函数设计时,生成器网络的损失函数设计同时融入了判决器网络和提取器网络的损失函数,旨在生成高不可感知性的载密MIDI的同时使得该载密MIDI中的秘密信息易于被提取器网络提取,在生成质量和恢复准确率中达到了平衡。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (7)

1.一种基于MIDI和对抗生成网络的音频隐写方法,其特征在于,预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,该方法包括:
S1、对秘密信息进行预处理,得到秘密信息所映射的浮点数,包括:
对于一个二进制秘密信息S={s1,s2,s3,…,sn},so∈{0,1},o=123,…,n,其中n代表二进制比特流秘密信息的长度,每一位用so表示,其只能为0或1,转化方式如下:
S101、将秘密信息分段,得到p段分段秘密信息;
S102、计算p段分段秘密信息的p个映射区间,包括:对于第i段秘密信息Si,其相关映射区间[x i ,y i ]的计算公式如下:
Figure DEST_PATH_IMAGE001
其中:σ代表上述的秘密信息分段后的比特数;δ代表秘密信息至浮点数映射区间的间距;Sil表示秘密信息第i段秘密信息Si中的第l个比特,|S|表示二进制秘密信息S的长度;
S103、在每个分段秘密信息所对应的映射区间中随机采样一个数作为所映射的浮点数;
S2、通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息,
S3、通过提取器网络对载密信息进行解密。
2.如权利要求1所述的基于MIDI和对抗生成网络的音频隐写方法,其特征在于,所述预先构建带有索引的MIDI音符字典,包括:
获取MIDI数据,建立MIDI的语音数据库;
使用music21工具包分析MIDI的语音数据库中MIDI文件,构建包括索引及其代表的和弦或单音音符构成的MIDI音符字典。
3.如权利要求2所述的基于MIDI和对抗生成网络的音频隐写方法,其特征在于,所述MIDI音符字典包括:
Figure DEST_PATH_IMAGE002
其中,j∈{1,2,…,q}代表和弦或单音的索引;q代表和弦或单音的总数;N tj 表示一组在和弦j中同时出现的音符号;N tq 表示一组在和弦q中同时出现的音符号。
4.如权利要求1所述的基于MIDI和对抗生成网络的音频隐写方法,其特征在于,所述采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,包括:
使用MIDI片段,基于对抗生成网络,对生成器网络、判决器网络以及提取器网络进行训练和测试;
其中,
判决器网络的训练过程中的目标函数为:
Figure DEST_PATH_IMAGE003
其中:x g 代表载体MIDI;x r 代表载密MIDI;E[ ]代表期望;D()代表判决器网络的输出;E[D(.)]代表输入样本与真实样本之间的差距,其中.代表输入样本;
生成器网络的训练过程中的目标函数为:
Figure DEST_PATH_IMAGE004
其中:λ代表0~1之间的一个小数;
提取器网络的训练过程中的目标函数为:
Figure DEST_PATH_IMAGE005
其中:MSE代表均方误差,F S 代表真实的秘密信息,F S' 代表恢复出的秘密信息。
5.一种基于MIDI和对抗生成网络的音频隐写系统,其特征在于,所述系统预先构建带有索引的MIDI音符字典,采用对抗生成网络预先构建生成器网络、判决器网络以及提取器网络,所述系统包括:
预处理模块,用于对秘密信息进行预处理,得到秘密信息所映射的浮点数,包括:
对于一个二进制秘密信息S={s1,s2,s3,…,sn},so∈{0,1},o=123,…,n,其中n代表二进制比特流秘密信息的长度,每一位用so表示,其只能为0或1,转化方式如下:
S101、将秘密信息分段,得到p段分段秘密信息;
S102、计算p段分段秘密信息的p个映射区间,包括:对于第i段秘密信息Si,其相关映射区间[x i ,y i ]的计算公式如下:
Figure 724560DEST_PATH_IMAGE001
其中:σ代表上述的秘密信息分段后的比特数;δ代表秘密信息至浮点数映射区间的间距;Sil表示秘密信息第i段秘密信息Si中的第l个比特,|S|表示二进制秘密信息S的长度;
S103、在每个分段秘密信息所对应的映射区间中随机采样一个数作为所映射的浮点数;
加密模块,用于通过生成器网络对所述浮点数进行处理,输出MIDI音符字典的索引的归一化值作为载密信息;
解密模块,用于通过提取器网络对载密信息进行解密。
6.一种计算机可读存储介质,其特征在于,其存储用于基于MIDI和对抗生成网络的音频隐写的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~4任一所述的基于MIDI和对抗生成网络的音频隐写方法。
7.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~4任一所述的基于MIDI和对抗生成网络的音频隐写方法。
CN202211391388.3A 2022-11-08 2022-11-08 基于midi和对抗生成网络的音频隐写方法和系统 Active CN115440234B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211391388.3A CN115440234B (zh) 2022-11-08 2022-11-08 基于midi和对抗生成网络的音频隐写方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211391388.3A CN115440234B (zh) 2022-11-08 2022-11-08 基于midi和对抗生成网络的音频隐写方法和系统

Publications (2)

Publication Number Publication Date
CN115440234A CN115440234A (zh) 2022-12-06
CN115440234B true CN115440234B (zh) 2023-03-24

Family

ID=84253169

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211391388.3A Active CN115440234B (zh) 2022-11-08 2022-11-08 基于midi和对抗生成网络的音频隐写方法和系统

Country Status (1)

Country Link
CN (1) CN115440234B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150203A (zh) * 2008-03-20 2011-08-10 弗劳恩霍夫应用研究促进协会 一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法
CN103985389A (zh) * 2014-05-30 2014-08-13 武汉大学 一种针对amr音频文件的隐写分析方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8094949B1 (en) * 1994-10-21 2012-01-10 Digimarc Corporation Music methods and systems
US6011849A (en) * 1997-08-28 2000-01-04 Syndata Technologies, Inc. Encryption-based selection system for steganography
US7013301B2 (en) * 2003-09-23 2006-03-14 Predixis Corporation Audio fingerprinting system and method
JP3905743B2 (ja) * 2001-11-02 2007-04-18 興和株式会社 電子透かし埋め込み方法
JP3835370B2 (ja) * 2002-07-31 2006-10-18 ヤマハ株式会社 透かしデータ埋め込み装置およびコンピュータプログラム
US20060034481A1 (en) * 2003-11-03 2006-02-16 Farhad Barzegar Systems, methods, and devices for processing audio signals
US7402744B1 (en) * 2004-06-14 2008-07-22 The United States Of America As Represented By The Secretary Of The Air Force MIDI file steganography
JP2011197664A (ja) * 2010-02-25 2011-10-06 Yamaha Corp 音楽ファイル再生装置及びシステム
CN101847411B (zh) * 2010-05-28 2012-05-23 中国科学技术大学 一种midi音频隐写分析方法及装置
US20190043239A1 (en) * 2018-01-07 2019-02-07 Intel Corporation Methods, systems, articles of manufacture and apparatus for generating a response for an avatar
CN114220443B (zh) * 2021-11-04 2023-04-07 合肥工业大学 基于bn优化sngan的自适应音频隐写模型的训练方法和系统
CN114140309A (zh) * 2021-12-03 2022-03-04 中国人民武装警察部队工程大学 一种基于nice模型的新型图像隐写方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102150203A (zh) * 2008-03-20 2011-08-10 弗劳恩霍夫应用研究促进协会 一种用于把音频信号转换成参数化表示的装置和方法、一种用于修改参数化表示的装置和方法、一种用于合成音频信号的参数化表示的装置和方法
CN103985389A (zh) * 2014-05-30 2014-08-13 武汉大学 一种针对amr音频文件的隐写分析方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法

Also Published As

Publication number Publication date
CN115440234A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
Liu et al. Audioldm: Text-to-audio generation with latent diffusion models
Zhou et al. Vision-infused deep audio inpainting
AlSabhany et al. Digital audio steganography: Systematic review, classification, and analysis of the current state of the art
Wu et al. Automatic audio chord recognition with MIDI-trained deep feature and BLSTM-CRF sequence decoding model
Nachmani et al. Unsupervised singing voice conversion
Essid et al. Musical instrument recognition by pairwise classification strategies
Marafioti et al. GACELA: A generative adversarial context encoder for long audio inpainting of music
Park et al. A bi-directional transformer for musical chord recognition
EP4004916B1 (en) System and method for hierarchical audio source separation
Hu et al. Detection of heterogeneous parallel steganography for low bit-rate VoIP speech streams
Yang et al. Steganalysis of VoIP streams with CNN-LSTM network
CN115033734B (zh) 一种音频数据处理方法、装置、计算机设备以及存储介质
CN113053357A (zh) 语音合成方法、装置、设备和计算机可读存储介质
Yue et al. Reference-based speech enhancement via feature alignment and fusion network
Bonnici et al. Timbre transfer with variational auto encoding and cycle-consistent adversarial networks
Liu et al. Autoregressive Diffusion Transformer for Text-to-Speech Synthesis
Huang et al. DAVIS: High-Quality Audio-Visual Separation with Generative Diffusion Models
Ren et al. Who is speaking actually? robust and versatile speaker traceability for voice conversion
CN115440234B (zh) 基于midi和对抗生成网络的音频隐写方法和系统
He et al. A Novel AMR‐WB Speech Steganography Based on Diameter‐Neighbor Codebook Partition
CN116778946A (zh) 人声伴奏分离方法、网络训练方法、设备及存储介质
Kitahara et al. Instrogram: A new musical instrument recognition technique without using onset detection nor f0 estimation
Tegendal Watermarking in audio using deep learning
Ji et al. Instrument classification of solo sheet music images
Zong et al. Black-box audio adversarial example generation using variational autoencoder

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant