CN115457985A - 基于卷积神经网络的可视化音频隐写方法 - Google Patents

基于卷积神经网络的可视化音频隐写方法 Download PDF

Info

Publication number
CN115457985A
CN115457985A CN202211131489.7A CN202211131489A CN115457985A CN 115457985 A CN115457985 A CN 115457985A CN 202211131489 A CN202211131489 A CN 202211131489A CN 115457985 A CN115457985 A CN 115457985A
Authority
CN
China
Prior art keywords
secret
audio
image
gray
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211131489.7A
Other languages
English (en)
Other versions
CN115457985B (zh
Inventor
张茹
杨震
董浩
应文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN202211131489.7A priority Critical patent/CN115457985B/zh
Publication of CN115457985A publication Critical patent/CN115457985A/zh
Application granted granted Critical
Publication of CN115457985B publication Critical patent/CN115457985B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00884Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm
    • G11B20/00891Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving a watermark, i.e. a barely perceptible transformation of the original data which can nevertheless be recognised by an algorithm embedded in audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B20/00Signal processing not specific to the method of recording or reproducing; Circuits therefor
    • G11B20/00086Circuits for prevention of unauthorised reproduction or copying, e.g. piracy
    • G11B20/00572Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which change the format of the recording medium
    • G11B20/00579Circuits for prevention of unauthorised reproduction or copying, e.g. piracy involving measures which change the format of the recording medium said format change concerning the data encoding, e.g., modulation schemes violating run-length constraints, causing excessive DC content, or involving uncommon codewords or sync patterns

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于卷积神经网络的可视化音频隐写方法,属于信息隐藏领域;具体为:首先,从公开网络中获取灰度秘密图像和音频数据集,并进行预处理,从中随机选择k个音频载体和灰度秘密图像,将每个灰度秘密图像分别隐写嵌入到一个音频数据中,空域拼接成两通道图像,经过编码器得到k个载密音频信号经离散小波变换,分成k个载密高频信号送入解码器网络D,重构出k个秘密图像;通过对数据集不断训练,使得重构的秘密图像与拼接的两通道图像达到误差范围,反向更新编码器和解码器的参数,完成训练后直接对新图像嵌入新视频中的秘密图像进行提取。本发对音频载体进行的可视化处理,将灰度秘密图像嵌入到音频载体中,并能高质量地提取出来。

Description

基于卷积神经网络的可视化音频隐写方法
技术领域
本发明属于信息隐藏领域,涉及图像隐写和音频隐写,具体是基于卷积神经网络的可视化音频隐写方法。
背景技术
信息隐藏可以将秘密信息嵌入到可公开的媒体信息中而不改变其感知特性,通过载密载体在公开信道上的传递来完成秘密信息的传输。一个好的信息隐藏算法不但隐藏通信的内容,还隐藏了通信的行为。另外,信息隐藏还可以用于数字水印,可以很好地解决诸如版权保护和篡改鉴定之类的需求。它不同于密码学,密码只隐藏信息的内容,而信息隐藏不仅隐藏信息的内容,还隐藏信息的存在。图像、视频、语音和文本等多种数字媒体都可以作为信息隐藏的载体,但目前大多数的信息隐藏研究都围绕图像展开。
在计算机时代,信息隐藏不仅要让人的肉眼无法辨别,还要骗过计算机视觉的识别。隐写术通过改变载体的空间信息或变换域系数来嵌入信息,这样不可避免地会造成统计指标上的明显不自然。而隐写分析方法就是通过拟合统计特征来对载体进行分析。于是,隐写方法通过不断改变嵌入方式来尽量减少修改带来的统计特征的变化,使得对载体的修改不易被发现;但是,同时隐写分析方法要不断构造更有效的统计特征来对载体进行分析。两者之间不断促进前行,随着时间的推移,两者的发展逐渐来到瓶颈期,隐写方法很难再利用传统的方式找到更加优秀的嵌入方法以保证不会被隐写分析方法检测出来。
关于衡量隐写算法的性能指标,现有的文献通常从容量、透明性、安全性、鲁棒性和复杂性等角度来衡量。容量指嵌入到载体中的秘密信息量,在图像隐写算法中通常使用平均每像素中嵌入的秘密信息量来计算容量;透明性指载密载体和原始载体的相似度,常使用峰值信噪比(Peak Signal to Noise Ratio,PSNR)来衡量;安全性指载密载体抵抗隐写分析算法检测的能力,载密载体越容易被隐写分析算法检出,安全性越差;鲁棒性则是指载密载体出现“震动”(受到干扰)时,其中的秘密信息是否还能够恢复出来;复杂性则是指运行该隐写模型所需要的资源,该指标对数据量大、实时性高的一些场景很重要。
深度学习的崛起,迅速推动了各行各业的发展,尤其是卷积神经网络(CNN)与隐写分析的结合取得了成功,让专家们思考能否将深度学习应用于隐写术当中。通过深度学习,图像隐写算法可以摆脱很多图像处理的专家知识,并将隐写分析算法的对抗加入到隐写模型的训练过程中,使得隐写算法具有更高的安全性。
但就目前而言,基于卷积神经网络的信息隐藏模型都是围绕图像展开的,一方面是由于图像具有较大的冗余空间来隐藏信息,另一方面图像处理工具较多且隐藏效果很直观,而且卷积神经网络设计之初也是为图像而服务的。而音频作为另一种广为使用的数字媒体,其具有较高的冗余度和较高的数据传输效率,是一种很有发展潜力的载体对象,所以基于卷积神经网络的音频隐写算法研究目前还是一块空白领域,有很大的发展潜力,研究基于深度学习的音频隐写模型也是很有必要的。
发明内容
针对上述问题,本发明以ISGAN(基于生成对抗网络的图像隐写框架)为基础,基于编码器-解码器架构,提出了基于卷积神经网络的可视化音频隐写方法,可以对音频进行隐写,将灰度图像嵌入到音频载体中,并能高质量地提取,方便卷积神经网络对音频载体进行可视化处理。
所述的基于卷积神经网络的可视化音频隐写方法,包括以下步骤:
步骤一、从公开网络中以固定频率获取灰度秘密图像和音频数据集,并进行预处理,使得图像尺寸,音频时长和音频采样率均保持一致;
步骤二、从预处理后的数据集中随机选择k个音频载体和k个灰度秘密图像,将每个灰度秘密图像分别隐写嵌入到一个音频数据中,得到k个载密音频信号;
具体为:
步骤201,对k个音频载体分别以16kHz进行采样,形成数字信号;
第i个音频载体的数字信号如下:
fi=(fi(0),…,fi(x),…,fi(N-1)),i=1,…,k;
N表示该段音频的采样点数量。
步骤202,将当前各数字信号分别经离散小波变换后,得到每个音频载体的高频信号矩阵;
高频信号矩阵共k个;
第i个音频载体的高频信号矩阵hi,获取过程如下:
首先,计算数字信号fi的低频分量矩阵和高频分量矩阵:
Figure BDA0003846902760000021
Figure BDA0003846902760000022
其中
Figure BDA0003846902760000023
称为近似系数,表示数字信号fi的低频分量矩阵;Tψ,i(j,t)称为精细系数,表示数字信号fi的高频分量矩阵;N=2J
Figure BDA0003846902760000031
是离散小波变换的尺度函数,ψj,t(x)是离散小波变换的小波函数;j是小波函数的尺度,从0级到J-1级,而t表示对应级别小波函数的不同正交基函数分量,第j级的小波基函数共2j个。
然后,取精细系数的实部作为高频信号矩阵hi,其矩阵元素hi,j,t=Re(Tψ,i(j,t))。
步骤203,将k个高频信号矩阵变形为尺寸w×d的k个矩阵,再和k个灰度秘密图像进行空域拼接,形成k个尺寸为w×d×2的两通道图像;
每个灰度秘密图像的尺寸为w×d个像素,w×d=J·2J
第i个高频信号矩阵变形为矩阵hiwd,与灰度秘密图像mi拼接成两通道图像imi,拼接公式为:
imi(a,b,0)=mi(a,b),a=0,…,w-1;b=0,…d-1
imi(a,b,1)=hiwd(a,b),a=0,…,w-1;b=0,…d-1
mi(a,b)表示第i个灰度秘密图像mi的第a行第b列的像素点值;imi(a,b,0)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第0通道的像素点值;imi(a,b,1)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第1通道的像素点值。
步骤204,将k个两通道图像输入到编码器网络E,生成k个对应的载密高频信号实数矩阵。
第i个两通道图像imi生成的载密高频信号实数矩阵h′i为:
Figure BDA0003846902760000032
其中α是编码器网络E的参数,包括其内部的前馈层权重参数W1、偏置参数b1及激活层激活函数σ等。
步骤205,每个载密高频信号实数矩阵分别与各自对应的原始高频分量矩阵的虚部结合,得到各自的结合矩阵;
第i个载密高频信号实数矩阵h′i,对应的原始高频分量矩阵Tψ,i,得到结合矩阵T′ψ,i
T′ψ,i=h′i+Im(Tψ,i)。
步骤206,k个结合矩阵与各自原始的低频分量矩阵一起进行离散小波逆变换后,合成k个载密音频信号,从而结束嵌入过程。
第i个结合矩阵T′ψ,i,对应的原始低频分量矩阵
Figure BDA0003846902760000033
得到载密音频信号si
si=(si(0),…,si(x),…,si(N-1)),i=1,…,k
Figure BDA0003846902760000034
步骤三、将k个载密音频信号经离散小波变换,分成k个载密高频信号和k个低频信号。
第i个载密音频信号分成载密高频信号h′i和低频信号li,变换过程如下:
Figure BDA0003846902760000041
Figure BDA0003846902760000042
按照离散小波变换变换原理,
Figure BDA0003846902760000043
所以其对应的低频信号也是li
同理
Figure BDA0003846902760000044
因此载密音频信号si对应的高频信号
Figure BDA0003846902760000045
步骤四、将k个载密高频信号分别送入解码器网络D,重构出k个秘密图像;
重构第i个秘密图像mi′的公式为:
im′i=gβ(h′i)=σ(W2h′i+b2),i=1,…,k
m′i(a,b)=im′i(a,b,0),a=0,…,w-1;b=0,…d-1;i=1,…,k
其中β是解码器网络D的参数,包括其内部的前馈层权重参数W2、偏置参数b2及激活层激活函数σ等。
步骤五、通过对数据集不断训练,使得重构的秘密图像与拼接的两通道图像达到误差范围阈值,从而实现有效的秘密图像提取。
训练所用的损失函数为:
L(h,h′,m,m′)=α(MSE||h-h′||)+β(MSE||m-m′||)。
h,h’分别代表128×128的原始音频载体的高频信号和128×128的载密高频信号,m,m′分别代表128×128的原始灰度秘密图像和128×128的重构秘密图像,α,β表示超参数,用来衡量训练时每个损失的权重,MSE为度量损失的均方误差。
本发明的优点在于:
本发明基于卷积神经网络的可视化音频隐写方法,从人类视觉系统来看,原始灰度秘密图像和重构秘密图像之间基本看不出差别,载体音频频谱图和载密音频频谱图之间的波形形状和颜色也基本没有太大差异,对于听众来说也实际上是几乎无法区分的。
附图说明
图1为本发明基于卷积神经网络的可视化音频隐写方法流程图;
图2为本发明基于DWT的可视化将图像隐写到音频的过程示意图;
图3为本发明编码器网络结构示意图;
图4为本发明解码器网络结构示意图;
图5为本发明基于DWT模型的音频隐写表现示意图;
图6为本发明模型在载体和秘密图像上的表现示意图。
具体实施方式
下面结合附图对本发明作进一步的详细和深入描述;
为了详细说明本发明的特点和优越之处,接下来将从训练到应用的全流程对本发明作实际应用说明。
现有ISGAN模型可以在图像载体上嵌入灰度图片,基于编码器-解码器架构,将图像从RGB色彩空间转换到YCbCr色彩空间,然后将同尺寸的秘密灰度图像嵌入到Y通道中。本发明以该模型为基础,设计了基于卷积神经网络的可视化音频隐写方法,对音频载体进行可视化,方便卷积神经网络对音频进行处理;通过对音频进行隐写,将灰度秘密图像嵌入到音频载体中,并能高质量地提取出来。
所述基于卷积神经网络的可视化音频隐写方法,如图1所示,具体步骤如下:
步骤一、从公开网络中以固定频率获取灰度秘密图像和音频数据集,并进行预处理,使得图像尺寸,音频时长和音频采样率均保持一致;
灰度秘密图像和音频数据集可以选择网络的公开视频,或者从网络上选取公开的灰度图像数据集和音频数据集,为便于隐写模型的训练,需要确保数据集中的图像尺寸一致,音频时长和采样率一致;如果不满足以上图像尺寸、音频采样率和音频时长要求,则需要进行数据预处理以达到要求;
步骤二、从预处理后的数据集中随机选择k个音频载体和k个灰度秘密图像,将每个灰度秘密图像分别隐写嵌入到一个音频数据中,得到k个载密音频信号;
如图2所示,具体为:
步骤201,对k个音频载体分别以16kHz进行采样,形成数字信号;
第i个音频载体的数字信号如下:
fi=(fi(0),…,fi(x),…,fi(N-1)),i=1,…,k;
N表示该段音频的采样点数量;N=2J
步骤202,将当前各数字信号分别经离散小波变换(DWT)后,得到每个音频载体的高频信号矩阵和低频信号矩阵;
第i个音频载体的高频信号矩阵hi,获取过程如下:
首先,计算数字信号fi的低频分量矩阵和高频分量矩阵:
Figure BDA0003846902760000051
Figure BDA0003846902760000052
其中
Figure BDA0003846902760000053
称为近似系数,表示数字信号fi的低频分量矩阵;Tψ,i(j,t)称为精细系数,表示数字信号fi的高频分量矩阵;
Figure BDA0003846902760000061
是离散小波变换的尺度函数,ψj,t(x)是离散小波变换的小波函数,可以有多种不同的实现;j是小波函数的尺度,从0级到J-1级,而t表示对应级别小波函数的不同正交基函数分量,第j级的小波基函数共2j个。
然后,取精细系数的实部作为高频信号矩阵hi,其矩阵元素hi,j,t=Re(Tψ,i(j,t))。
DWT变换对每个音频数据得到表示其高频信号的实数矩阵,共有k个音频的高频信号矩阵。
步骤203,选取灰度秘密图像m,其尺寸为w×d像素,通过对音频进行裁剪等预处理,令w×d=J·2J
步骤204,将k个高频信号矩阵变形为尺寸w×d的k个矩阵,再和k个灰度秘密图像进行空域拼接,形成k个尺寸为w×d×2的两通道图像imi
第i个高频信号矩阵变形为矩阵hiwd,与灰度秘密图像mi拼接成两通道图像imi,拼接公式为:
imi(a,b,0)=mi(a,b),a=0,…,w-1;b=0,…d-1
imi(a,b,1)=hiwd(a,b),a=0,…,w-1;b=0,…d-1
mi(a,b)表示第i个灰度秘密图像mi的第a行第b列的像素点值;imi(a,b,0)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第0通道的像素点值;imi(a,b,1)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第1通道的像素点值。
步骤204,将k个两通道图像输入到编码器网络E,生成k个对应的载密高频信号实数矩阵。
编码器网络E的结构如图3所示;
第i个两通道图像imi生成的载密高频信号实数矩阵h′i为:
Figure BDA0003846902760000062
其中α是编码器网络E的参数,用于生成编码器网络E的具体参数,包括其内部的前馈层权重参数W1、偏置参数b1及激活层激活函数σ等。
步骤205,每个载密高频信号实数矩阵分别与各自对应的原始高频分量矩阵的虚部结合,得到各自的结合矩阵;
第i个载密高频信号实数矩阵h′i,对应的原始高频分量矩阵Tψ,i,得到结合矩阵T′ψ,i
T′ψ,i=h′i+Im(Tψ,i)。
步骤206,k个结合矩阵与各自原始的低频分量矩阵一起进行离散小波逆变换(IDWT)后,合成k个载密音频信号,从而结束嵌入过程。
第i个结合矩阵T′ψ,i,对应的原始低频分量矩阵
Figure BDA0003846902760000063
得到载密音频信号si
si=(si(0),…,si(x),…,si(N-1)),i=1,…,k
Figure BDA0003846902760000071
步骤三、将k个载密音频信号经离散小波变换,分成k个载密高频信号和k个低频信号。
第i个载密音频信号分成载密高频信号h′i和低频信号li,变换过程如下:
Figure BDA0003846902760000072
Figure BDA0003846902760000073
按照离散小波变换变换原理,
Figure BDA0003846902760000074
所以其对应的低频信号也是li
同理
Figure BDA0003846902760000075
因此载密音频信号si对应的高频信号
Figure BDA0003846902760000076
步骤四、将k个载密高频信号分别送入解码器网络D,重构出k个秘密图像;
解码器网络D的结构如图4所示,重构第i个秘密图像mi′的公式为:
im′i=gβ(h′i)=σ(W2h′i+b2),i=1,…,k
m′i(a,b)=im′i(a,b,0),a=0,…,w-1;b=0,…d-1;i=1,…,k
其中β是解码器网络D的参数,用于生成解码器网络D的具体参数,包括其内部的前馈层权重参数W2、偏置参数b2及激活层激活函数σ等。
步骤五、通过对数据集不断训练,使得重构的秘密图像与拼接的两通道图像达到误差范围阈值,反向更新编码器网络和解码器网络的参数,完成训练后,直接用于对新图像嵌入新视频中,实现有效的秘密图像提取。
训练所用的损失函数为:
L(h,h′,m,m′)=α(MSE||h-h′||)+β(MSE||m-m′||)。
h,h’分别代表128×128的原始音频载体的高频信号和128×128的载密高频信号,m,m’分别代表128×128的灰度秘密图像和128×128的重构秘密图像,α,β表示超参数,用来衡量训练时每个损失的权重,MSE(mean square error)为度量损失的均方误差。
本发明主要涵盖以下特征:
(1)、音频可视化处理:将音频信号转换到频域信号,生成二维频谱图;
具体为:以固定频率对训练集中随机k个音频载体采样,形成数字信号,再将数字信号经离散小波变换分成k个高频信号矩阵和k个低频信号矩阵,取变换后得到的k个高频信号实数矩阵作为音频可视化的二维频谱图。
(2)、生成载秘音频:将可视化音频图与原始灰度秘密图像经过编码器网络以及预处理的逆变换生成载密音频,完成嵌入过程;
具体为:
将变换后得到的k个高频信号实数矩阵和k个灰度秘密图像拼接,形成k个两通道图像。再将k个两通道图像输入到编码器网络E,生成k个载密高频信号。k个载密高频信号与对应的原始的低频信号经逆离散小波变换后合成k个载密音频信号。
(3)、秘密图像提取:将载密音频经可视化处理后送入解码器网络,重构出秘密图像。
完成提取过程;
(4)、训练所用的损失函数,使得重构的秘密图像与拼接的两通道图像达到误差范围阈值,从而实现有效的秘密图像提取。
实施例:
本发明实验时使用了LFW和TIMIT两个数据集。
LFW(Labeled Faces in the Wild)是一个人脸数据集,主要用来研究自然场景下的人脸识别问题;该数据集包含超过13000张来自互联网的人脸图像,这些图像属于超过1680人。随机选择2396张样本构成训练集的秘密图像,再从剩余的图像中随机选择880张样本构成测试集的秘密图像。
TIMIT(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus),是由德州仪器、麻省理工学院和SRI International合作构建的声学-音素连续语音语料库。语音采样频率为16kHz,一共包含6300个句子,由来自美国八个主要方言地区的630个人每人说出给定的10个句子,所有的句子都在音素级别(phone level)上进行了手动分割、标记。70%句子的说话者是男性;大多数说话者是成年白人。不过由于TIMIT数据集中各音频的长度不同,为了能有足够的容量将秘密图像嵌入,本实验舍弃了长度小于32768的音频。在筛选后剩下的3276段音频数据中,随机选择2396段音频作为模型训练集的载体数据,剩余的音频作为测试集。本实验中使用的秘密图像尺寸均为128×128,载体音频均使用前32768位进行嵌入。
在本实验中,模型初始学习率为le-4,批处理尺寸(batch size)设置为4。模型的超参数α,β分别设置为0.5,0.8。
一轮训练流程:从训练集中随机选择k个音频载体和k个秘密灰度图像,对音频载体以16kHz采样,形成数字信号,再将数字信号经DWT变换后分成高频信号和低频信号,将变换后得到的k个高频信号实数矩阵和k个灰度秘密图像拼接,形成k个两通道图像。再将k个两通道图像输入到编码器网络E,生成k个载密高频信号。k个载密高频信号与对应的原始的低频信号经IDWT后合成k个载密音频信号,嵌入过程到此结束。
在进行提取过程时,将k个载密音频信号经DWT变换分成k个载密高频信号和k个低频信号,再将k个载密高频信号送入解码器网络,重构出k个秘密图像。
完成嵌入、提取操作后,用损失函数计算载密实数矩阵和原始载体实数矩阵之间的误差,嵌入前原始灰度秘密图像和提取重构秘密图像之间的误差。
最后根据误差计算编码器网络和解码器网络的参数梯度,根据Adam优化器和学习率更新参数值,训练默认按100个epoch进行。
完成训练过程后,导出模型,用测试集对模型进行测试。
如图5所示,利用本发明的算法所生秘密图像,从人类视觉系统来看,和重构秘密图像之间基本看不出差别,载体音频频谱图和载密音频频谱图之间的波形形状和颜色也基本没有太大差异,对于听众来说也实际上是几乎无法区分的。秘密图像和重构秘密图像之间的峰值信噪比(PSNR,用以衡量图像质量)稍逊色于ISGAN模型的性能,而载体音频频谱图和载密音频频谱图之间的PSNR数值很高,如图6所示,但原则上来讲并不能与ISGAN模型的相比较,因为ISGAN模型的载体对象为图像,而本发明的载体对象为音频。

Claims (4)

1.基于卷积神经网络的可视化音频隐写方法,其特征在于,包括以下步骤:
首先,从公开网络中以固定频率获取灰度秘密图像和音频数据集,并进行预处理,使得图像尺寸,音频时长和音频采样率均保持一致;
然后,从预处理后的数据集中随机选择k个音频载体和k个灰度秘密图像,将每个灰度秘密图像分别隐写嵌入到一个音频数据中,空域拼接成两通道图像,输入到编码器并离散小波逆变换后,合成k个载密音频信号;
具体过程为:
步骤201,对k个音频载体分别以16kHz进行采样,形成数字信号;
第i个音频载体的数字信号如下:
fi=(fi(0),…,fi(x),…,fi(N-1)),i=1,…,k;
N表示该段音频的采样点数量;
步骤202,将当前各数字信号分别经离散小波变换后,得到每个音频载体的高频信号矩阵;
高频信号矩阵共k个;
第i个音频载体的高频信号矩阵hi,获取过程如下:
首先,计算数字信号fi的低频分量矩阵和高频分量矩阵:
Figure FDA0003846902750000011
Figure FDA0003846902750000012
其中
Figure FDA0003846902750000013
称为近似系数,表示数字信号fi的低频分量矩阵;Tψ,i(j,t)称为精细系数,表示数字信号fi的高频分量矩阵;N=2J
Figure FDA0003846902750000014
是离散小波变换的尺度函数,ψj,t(x)是离散小波变换的小波函数;j是小波函数的尺度,从0级到J-1级,而t表示对应级别小波函数的不同正交基函数分量,第j级的小波基函数共2j个;
然后,取精细系数的实部作为高频信号矩阵hi,其矩阵元素hi,j,t=Re(Tψ,i(j,t));
步骤203,将k个高频信号矩阵变形为尺寸w×d的k个矩阵,再和k个灰度秘密图像进行空域拼接,形成k个尺寸为w×d×2的两通道图像;
每个灰度秘密图像的尺寸为w×d个像素,w×d=J·2J
第i个高频信号矩阵变形为矩阵hiwd,与灰度秘密图像mi拼接成两通道图像imi,拼接公式为:
imi(a,b,0)=mi(a,b),a=0,…,w-1;b=0,…d-1
imi(a,b,1)=hiwd(a,b),a=0,…,w-1;b=0,…d-1
mi(a,b)表示第i个灰度秘密图像mi的第a行第b列的像素点值;imi(a,b,0)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第0通道的像素点值;imi(a,b,1)表示第i个灰度秘密图像mi对应的两通道图像imi的第a行第b列第1通道的像素点值;
步骤204,将k个两通道图像输入到编码器网络E,生成k个对应的载密高频信号实数矩阵;
第i个两通道图像imi生成的载密高频信号实数矩阵h′i为:
Figure FDA0003846902750000021
其中α是编码器网络E的参数,包括其内部的前馈层权重参数W1、偏置参数b1及激活层激活函数σ;
步骤205,每个载密高频信号实数矩阵分别与各自对应的原始高频分量矩阵的虚部结合,得到各自的结合矩阵;
第i个载密高频信号实数矩阵h′i,对应的原始高频分量矩阵Tψ,i,得到结合矩阵T′ψ,i
T′ψ,i=h′i+Im(Tψ,i)
步骤206,k个结合矩阵与各自原始的低频分量矩阵一起进行离散小波逆变换后,合成k个载密音频信号,从而结束嵌入过程;
第i个结合矩阵T′ψ,i,对应的原始低频分量矩阵
Figure FDA0003846902750000022
得到载密音频信号si
si=(si(0),…,si(x),…,si(N-1)),i=1,…,k
Figure FDA0003846902750000023
接着,将k个载密音频信号经离散小波变换,分成k个载密高频信号和k个低频信号,并将k个载密高频信号分别送入解码器网络D,重构出k个秘密图像;
最后,通过对数据集不断训练,使得重构的秘密图像与拼接的两通道图像达到误差范围阈值,反向更新编码器网络和解码器网络的参数,完成训练后,直接用于对新图像嵌入新视频中,实现有效的秘密图像提取。
2.根据权利要求1所述的方法,其特征在于,所述将k个载密音频信号经离散小波变换,分成k个载密高频信号和k个低频信号;针对第i个载密音频信号分成载密高频信号h′i和低频信号li,变换过程如下:
Figure FDA0003846902750000024
Figure FDA0003846902750000025
t=0,…,2j-1
按照离散小波变换变换原理,
Figure FDA0003846902750000031
所以其对应的低频信号也是li
同理
Figure FDA0003846902750000032
因此载密音频信号si对应的高频信号
Figure FDA0003846902750000033
3.根据权利要求1所述的方法,其特征在于,所述将k个载密高频信号分别送入解码器网络D,重构出k个秘密图像中,重构第i个秘密图像mi′的公式为:
im′i=gβ(h′i)=σ(W2h′i+b2),i=1,...,k
m′i(a,b)=im′i(a,b,0),a=0,…,w-1;b=0,…d-1;i=1,…,k
其中β是解码器网络D的参数,包括其内部的前馈层权重参数W2、偏置参数b2及激活层激活函数σ。
4.根据权利要求1所述的方法,其特征在于,所述对数据集训练所用的损失函数为:
L(h,h′,m,m′)=α(MSE||h-h′||)+β(MSE||m-m′||)
h,h’分别代表128×128的原始音频载体的高频信号和128×128的载密高频信号,m,m′分别代表128×128的原始灰度秘密图像和128×128的重构秘密图像,α,β表示超参数,用来衡量训练时每个损失的权重,MSE为度量损失的均方误差。
CN202211131489.7A 2022-09-15 2022-09-15 基于卷积神经网络的可视化音频隐写方法 Active CN115457985B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211131489.7A CN115457985B (zh) 2022-09-15 2022-09-15 基于卷积神经网络的可视化音频隐写方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211131489.7A CN115457985B (zh) 2022-09-15 2022-09-15 基于卷积神经网络的可视化音频隐写方法

Publications (2)

Publication Number Publication Date
CN115457985A true CN115457985A (zh) 2022-12-09
CN115457985B CN115457985B (zh) 2023-04-07

Family

ID=84304570

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211131489.7A Active CN115457985B (zh) 2022-09-15 2022-09-15 基于卷积神经网络的可视化音频隐写方法

Country Status (1)

Country Link
CN (1) CN115457985B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509551A (zh) * 2011-11-23 2012-06-20 北京邮电大学 基于倒谱和差分方差的音频隐写分析算法
US20150006390A1 (en) * 2013-06-26 2015-01-01 Visa International Service Association Using steganography to perform payment transactions through insecure channels
CN110120228A (zh) * 2019-04-28 2019-08-13 武汉大学 基于声谱图及深度残差网络的音频通用隐写分析方法及系统
CN110968845A (zh) * 2019-11-19 2020-04-07 天津大学 基于卷积神经网络生成的针对lsb隐写的检测方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法
CN111768792A (zh) * 2020-05-15 2020-10-13 宁波大学 基于卷积神经网络和领域对抗学习的音频隐写分析方法
CN111768803A (zh) * 2020-05-15 2020-10-13 宁波大学 基于卷积神经网络和多任务学习的通用音频隐写分析方法
CN112714230A (zh) * 2020-12-01 2021-04-27 中国科学院信息工程研究所 基于音频侧信道的鲁棒视频隐写方法和装置
CN113486932A (zh) * 2021-06-21 2021-10-08 北京邮电大学 一种面向卷积神经网络隐写分析的优化方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102509551A (zh) * 2011-11-23 2012-06-20 北京邮电大学 基于倒谱和差分方差的音频隐写分析算法
US20150006390A1 (en) * 2013-06-26 2015-01-01 Visa International Service Association Using steganography to perform payment transactions through insecure channels
CN110120228A (zh) * 2019-04-28 2019-08-13 武汉大学 基于声谱图及深度残差网络的音频通用隐写分析方法及系统
CN110968845A (zh) * 2019-11-19 2020-04-07 天津大学 基于卷积神经网络生成的针对lsb隐写的检测方法
CN111640444A (zh) * 2020-04-17 2020-09-08 宁波大学 基于cnn的自适应音频隐写方法和秘密信息提取方法
CN111768792A (zh) * 2020-05-15 2020-10-13 宁波大学 基于卷积神经网络和领域对抗学习的音频隐写分析方法
CN111768803A (zh) * 2020-05-15 2020-10-13 宁波大学 基于卷积神经网络和多任务学习的通用音频隐写分析方法
CN112714230A (zh) * 2020-12-01 2021-04-27 中国科学院信息工程研究所 基于音频侧信道的鲁棒视频隐写方法和装置
CN113486932A (zh) * 2021-06-21 2021-10-08 北京邮电大学 一种面向卷积神经网络隐写分析的优化方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUNQI WU ETC.: "Audio Steganography Based on Iterative Adversarial Attacks Against Convolutional Neural Networks" *
RU ZHANG 等: "A CNN Based Visual Audio Steganography Model" *
李敬轩等: "基于手工特征提取与结果融合的CNN音频隐写分析算法" *

Also Published As

Publication number Publication date
CN115457985B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Liu et al. Quaternion discrete fractional Krawtchouk transform and its application in color image encryption and watermarking
CN112288632B (zh) 基于精简esrgan的单图像超分辨率方法及系统
CN111091841A (zh) 一种基于深度学习的身份认证音频水印算法
Ahani et al. A sparse representation-based wavelet domain speech steganography method
Prabakaran et al. Dual transform based steganography using wavelet families and statistical methods
CN115345768A (zh) 基于神经网络的鲁棒水印攻击方法及系统
Jaiswal et al. Robust digital image watermarking using LWT and Random-Subspace-1DLDA with PCA based statistical feature reduction
CN115457985B (zh) 基于卷积神经网络的可视化音频隐写方法
Sharma et al. A daubechies DWT based image steganography using smoothing operation.
Duan et al. Image information hiding method based on image compression and deep neural network
Xintao et al. Hide the image in fc-densenets to another image
Khandelwal et al. W-VDSR: Wavelet-based secure image transmission using machine learning VDSR neural network
Hamsathvani Image hiding in video sequence based on MSE
Zhang et al. A CNN based visual audio steganography model
Tan et al. WaterDiff: Perceptual Image Watermarks Via Diffusion Model
Abdul-wahab et al. Theoretical Background of steganography
Maity et al. Reversible image watermarking using modified difference expansion
Khaleel High security and capacity of image steganography for hiding human speech based on spatial and cepstral domains
Gharavi et al. A robust steganography algorithm based on curvelet transform
CN112132775B (zh) 一种基于Fisher编码的屏幕内容图像无参考质量评价方法
Das et al. Digital Watermarking Using Discrete Wavelet Transform and Eigen Decomposition
CN117745612A (zh) 一种基于可逆神经网络的hdr多图信息隐藏方法
Alsaif et al. Contourlet transformation for text hiding in hsv color image
Saleh et al. A Novel Multiplicative Steganography Technique in Contourlet Domain
Krishnaveni et al. Intricacies in image steganography and innovative directions

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant