CN110120228A

CN110120228A - 基于声谱图及深度残差网络的音频通用隐写分析方法及系统

Info

Publication number: CN110120228A
Application number: CN201910347996.6A
Authority: CN
Inventors: 任延珍; 柳登凯; 熊翘楚; 傅建明; 王丽娜
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-04-28
Filing date: 2019-04-28
Publication date: 2019-08-13

Abstract

本发明公开了一种基于声谱图及深度残差网络的音频通用隐写分析方法及系统，本方法针对现有基于不同音频压缩标准的隐写算法通过修改不同音频压缩参数来进行隐写却没有一个通用的隐写分析算法的现状，综合考虑AAC等压缩编码标准中共有的MDCT变换特性，对重压缩后的音频原始信号域信号提取声谱图特征，利用深度残差网络S‑ResNet去挖掘音频信号的固有分布特性，提取分类特征以构建通用的音频隐写分析器。本发明的优势在于不局限于单一编码标准以及参数域，具有较好的通用性以及隐写分析检测性能。

Description

基于声谱图及深度残差网络的音频通用隐写分析方法及系统

技术领域

本发明属于多媒体信息内容安全技术领域，涉及一种音频通用隐写分析方法及系统，特别涉及一种面向AAC等基于MDCT变换的音频压缩编码的基于声谱图及深度残差网络的音频通用隐写分析方法及系统。

技术背景

随着数字化、互联网、无线通信技术的飞速发展，数字音频数据已经在人们的日常生活中无处不在。各类音频通信和服务系统已经得到了广泛应用，如目前蜂拥而起的各类音乐APP和电台APP应用，包括百度音乐，QQ音乐，酷狗音乐，喜马拉雅，酷听听书等。在各类视频应用中，音频作为必不可少的伴随式信息载体，得到了广泛使用，如各类视频点播分享服务，包括爱奇艺，优酷，土豆，Youtube等。AAC音频是3GPP组织制定的针对移动互联网音频压缩编码标准之一，其目的在于取代MP3编码标准。在相同码率的情况下，音质优于MP3编码标准，同时在相同音频的情况下，AAC音频文件的大小远远小于MP3文件，这大大促进了AAC音频在互联网上的使用和传播。

AAC音频被广泛使用的同时，也为信息隐藏带来了非常丰富的载体空间。目前已经出现多种针对AAC音频的隐写方法，根据AAC音频编码原理，主要的隐写嵌入域可分为以下三种：MDCT(Modified Discrete Cosine Transform)系数域、比例因子域、Huffman编码域。这些方法主要通过在音频编码过程中修改编码参数来实现秘密信息隐写，拥有良好的不可感知性和较大的隐藏容量。

针对已有的AAC隐写算法，现有的隐写分析方法主要通过对各类嵌入域参数的固有统计特性进行分析，设计具有差异性的隐写分析特征。这类通过专家经验设计构造的隐写分析特征检测层面有限，在面对同嵌入域未知隐写算法时，检测效果难以保证。同时这种粒度较小、特征覆盖面较窄的检测手段对少量样本的检测是非常有效的，但是面对海量检测样本空间时，完全的细粒度检测在时间效率和计算复杂度上是难以得到有效实施的。因此，实现针对AAC音频信号的通用且高效的隐写分析方法具有非常重要的意义。

本发明的隐写分析方法面向AAC等音频压缩标准，在发明内容陈述之前需要对AAC的编解码原理以及音频声谱图进行介绍。

AAC音频编码标准的编码流程如图1所示，主要分为编码必选模块和可选模块，其中在编码过程中的必选模块包括心理声学模型、增益控制、滤波器组、比例因子、量化、Huffman编码等，可选模块包括噪声整形、立体声耦合、预测等。在编码时根据具体需要选择合适的可选模块对音频进行编码。

在AAC编码标准中针对不同的应用场景定义了主框架、低复杂度框架和可变抽样率框架三种不同复杂度的编码架构，当音频编码时对音频质量要求较高且计算力足够的情况下采用主框架进行编码，当计算力和存储容量有限时采用低复杂度编码，当在传输过程中网络带宽变化较复杂时采用可变抽样编码。

以主框架为例，在进行AAC音频编码时，首先对输入的脉冲信号进行时频转换，根据心理声学模型以及增益控制得到的相应感知熵函数、最大可允许失真等信息，在时频转换过程中经过滤波器组MDCT变换，对变换后的MDCT系数值进行三种循环量化和Huffman编码，最后输出Huffman编码后的音频码流。

发明内容

本发明针对现有基于AAC或MP3压缩参数域的隐写算法都会对MDCT系数进行直接或者间接修改的倾向，设计了一种基于深度残差网络S-ResNet的隐写分析框架Spec-ResNet，从音频的原始信号域而不是音频编码过程中的具体嵌入域出发，采用声谱图这一能够同时反映音频时域和频域信息的特征作为深度残差网络的输入进行特征提取，综合考虑不同窗长的声谱图特征的影响，通过特征融合在二分类检测阶段利用组合分类的思想，采用SVM对样本进行分类，构建隐写分析器。本算法的优势在于不局限于单一编码标准以及参数域，具有较好的通用性以及隐写分析检测性能。

本发明的方法所采用的技术方案是：一种基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于，包括以下步骤：

步骤1：针对原始音频数据，进行声谱图特征提取和特征预处理，获得预处理的特征矩阵；

步骤2：对预处理的特征矩阵，送入残差网络S-ResNet，训练残差网络S-ResNet得到多个分类特征；

步骤3：利用SVM进行分类，判断是Cover还是Stego；其中，Cover表示载体音频，即未进行秘密信息嵌入的音频；Stego表示载密音频，即进行了秘密信息嵌入的音频。

本发明的系统所采用的技术方案是：一种基于声谱图及深度残差网络的音频通用隐写分析系统，其特征在于：包括声谱图特征预处理模块、残差网络S-ResNet模块、分类模块；

所述声谱图特征预处理模块，用于针对原始音频数据，进行声谱图特征提取和特征预处理，获得预处理的特征矩阵；

所述残差网络S-ResNet模块，用于对预处理的特征矩阵，送入残差网络S-ResNet，训练残差网络S-ResNet得到多个分类特征；

所述分类模块，用于利用SVM进行分类，判断是Cover还是Stego；其中，Cover表示载体音频，即未进行秘密信息嵌入的音频；Stego表示载密音频，即进行了秘密信息嵌入的音频。

相对于现有技术，本发明的有益效果是：一，对解压缩后音频提取声谱图来对多种不同嵌入域隐写算法的隐写嵌入行为进行检测，通用性高；二，利用深度残差网络来从大量数据中分析提取隐写分析特征，网络收敛速度快且避免了梯度消失的情况，隐写分析特征有效；三，提出了考虑多窗长声谱图特征单独训练再综合判断目标样本是否是隐写样本的方法，该方法比单窗口声谱图特征检测性能好。

附图说明

图1为背景技术中AAC编码框架原理图；

图2为本发明实施例中声谱图提取流程图；

图3为本发明实施例中基于相邻帧间和帧内的滤波器组；

图4为本发明实施例的系统原理图；

图5为本发明实施例中残差网络S-ResNet主体结构图；

图6为本发明实施例中三种不同通道数卷积单元结构；

图7为本发明实施例中残差单元结构示意图；

图8为本发明实施例中分类过程示意图。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，应当理解，此处所描述的实施示例仅用于说明和解释本发明，并不用于限定本发明。

本实施例中的相关术语解释为：

1)声谱图：对音频时域信号分帧加窗后做FFT(Fast Fourier Transformation)变换能够同时反映音频时域和频域信息的特征矩阵。

2)MDCT(Modified discrete cosine transform)变换：改进的离散余弦变换，具有时域混叠抵消特性的可逆变换。

本发明提供的一种基于声谱图及深度残差网络的音频通用隐写分析方法，包括以下步骤：

请见图2，本实施例中，声谱图特征的提取具体实现包括以下子步骤：

(1)对音频信号x进行分帧操作；

(2)对每一帧音频信号x(n)加窗操作；

本实施例中采用汉明窗作为滑动窗，窗与窗之间有50％的重叠；

(3)进行快速傅里叶变换，得到音频每一帧的频率表达；

其中，x_t(n)为当前帧的音频信号，t为音频帧索引；w(n)为滑动窗口函数，N表示滑动窗口的长度，采样率为f_s，则k表示频率索引，频率分辨率为f_s/2N；

(4)通过快速傅里叶变换得到音频每一帧的频率表达后，对其进行取绝对值操作并转换为对数表达，获得声谱图特征矩阵SP(k，t)；

SP(k，t)＝20×log₁₀|X_t(k)| (式2)

由于声谱图特征矩阵中包含了大量的音频内容信号，音频本身的噪声信号以及隐写引入的噪声信号等多种不同类型信号的特征，直接对音频的原始声谱图进行学习训练可能会使得深度神经网络模型在优化过程中，由于干扰因素过多导致网络模型失效，因此，本实施例设计相应的固定卷积滤波器对声谱图特征进行预处理，达到尽可能消除音频内容对隐写分析的干扰，降低隐写分析对音频内容的依赖性，提高隐写分析算法的泛化能力，以提高隐写分析检测正确率。

请见图3，本实施例中，特征预处理是通过帧内一阶二阶差分以及帧间一阶二阶差分固定卷积滤波器对声谱图特征进行预处理。

请见图4，本发明提供的一种基于声谱图及深度残差网络的音频通用隐写分析系统，包括声谱图特征预处理模块、残差网络S-ResNet模块、分类模块；

声谱图特征预处理模块，用于针对原始音频数据，进行声谱图特征提取和特征预处理，获得预处理的特征矩阵；

残差网络S-ResNet模块，用于对预处理的特征矩阵，送入残差网络S-ResNet，训练残差网络S-ResNet得到多个分类特征；

分类模块，用于利用SVM进行分类，判断是Cover还是Stego；其中，Cover表示载体音频，即未进行秘密信息嵌入的音频；Stego表示载密音频，即进行了秘密信息嵌入的音频。

请见图5，为本实施例的残差网络S-ResNet的主体结构图；在声谱图特征预处理模块后分别连接了10个A类型、10个B类型、10个C类型的卷积单元，其中每隔两个卷积单元进行一次shortcut残差连接，在图5中，带箭头弧线表示shortcut连接。在A、B类型和B、C类型卷积单元结构过渡时，由于卷积核个数增加了一倍，特征维度减小为原来的一半，因此在shortcut过程中对样本数据进行了步长为2的池化，保证卷积操作后得到的特征图维度一致，采用zero-padding的方式对通道数进行扩充。最后经过全局池化得到40维分类特征。

本实施例的残差网络S-ResNet，总共有三个子模块：卷积单元，残差单元，池化单元。

卷积单元总共有A，B，C三种类型，A、B、C三类卷积单元结构如图6所示，卷积核个数或者通道数分别为10个、20个、40个。每个卷积单元结构均包含批量归一化层(BatchNormalization,BN)、非线性激活函数层(Rectified Linear Unit,ReLU)以及卷积层(Convolutional layer,Conv)。

1)批量归一化层。对每一卷积层前的输入进行批量归一化使其分布保持一致以加快训练速度，对于有d维的输入x＝(x⁽¹⁾，...，x^(k)，...，x^(d))，批量归一化为均值为0方差为1的正态分布如公式(3)。

其中E[x^(k)]表示期望，表示标准差。

2)非线性激活函数层。在BN层后，附加一个修正线性单元(Rectified LinearUnit,ReLU)作为非线性激活函数来去掉输入信号的负数部分，ReLU的函数表达式如式4。

f(x)＝max(0，x) (式4)

3)卷积层。卷积核大小为3×3，步长为1，输入通道数与输出通道数一致，对应于三种类型的卷积单元，分别为10，20，40。

残差单元指的是每两个卷积单元之间通过一个shortcut连接将输入信号直接叠加到输出信号上，以加快收敛速度，而且可以有效减少梯度消失发生的可能性，在图5中以有向弧线表示，残差单元结构示意图如图7所示。

池化单元也即是池化层(Pooling layer)，在该网络中主要是不同类型卷积单元之间的平均池化以及分类模块前的全局平均池化。前者步长strides＝2，输出信号相比较于输入信号维度减半，通道数翻倍；后者从的信号通过全局平均池化变换得到一个40维的特征向量，用于后续利用SVM组合分类。

隐写分析网络的分类模块如图8所示。对于一段音频样本，声谱图窗口大小不同，所提取出来的特征在时频特性上也具有一定差异，所以利用不同窗口声谱图特征训练残差网络S-ResNet得到多个分类特征合并以后利用SVM进行分类可以有效提高隐写分析正确率。

本实施例利用SVM进行分类，从训练集和测试集音频切片中提取三种不同窗长声谱图通过残差网络获得3个40维特征拼接成120维特征，训练集得到的120维特征用于训练SVM分类器，基于训练好的SVM模型以及测试集的120维特征判断测试集中音频切片是否含有秘密信息。

本方法针对现有基于不同音频压缩标准(以Advanced Audio Coding，MPEG AudioLayer-3为代表)的隐写算法通过修改不同音频压缩参数来进行隐写却没有一个通用的隐写分析算法的现状，综合考虑AAC等压缩编码标准中共有的MDCT变换特性，对重压缩后的音频原始信号域信号提取声谱图特征，利用深度残差网络S-ResNet去挖掘音频信号的固有分布特性，提取分类特征以构建通用的音频隐写分析器。本算法的优势在于不局限于单一编码标准以及参数域，具有较好的通用性以及隐写分析检测性能。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于，步骤1中所述声谱图特征提取，具体实现包括以下子步骤：

(1)对音频信号x进行分帧操作；

(2)对每一帧音频信号加窗操作；

(3)进行快速傅里叶变换，得到音频每一帧的频率表达；

SP(k，t)＝20×log₁₀|X_t(k)| (式2)。

3.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于：步骤1中所述特征预处理，是通过帧内一阶二阶差分以及帧间一阶二阶差分固定卷积滤波器对声谱图特征进行预处理。

4.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于：步骤2中所述残差网络S-ResNet，包括10个A类型、10个B类型、10个C类型的卷积单元，其中每隔两个卷积单元进行一次shortcut残差连接；在A、B类型和B、C类型卷积单元结构过渡时，由于卷积核个数增加了一倍，特征维度减小为原来的一半，因此在shortcut过程中对样本数据进行了步长为2的池化，保证卷积操作后得到的特征图维度一致，采用zero-padding的方式对通道数进行扩充；最后经过全局池化得到40维分类特征。

5.根据权利要求4所述的基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于：每个卷积单元结构均包含批量归一化层、非线性激活函数层以及卷积层；

所述批量归一化层，用于对每一卷积层前的输入进行批量归一化使其分布保持一致以加快训练速度，对于有d维的输入x＝(x⁽¹⁾，...，x^(k)，...，x^(d))，批量归一化为均值为0方差为1的正态分布如公式(3)；

其中，E[x^(k)]表示期望，表示标准差；

在批量归一化层层后，附加一个修正线性单元(Rectified Linear Unit,ReLU)作为非线性激活函数来去掉输入信号的负数部分，ReLU的函数表达式如式(4)；

f(x)＝max(0，x) (式4)

所述卷积层，卷积核大小为3×3，步长为1，输入通道数与输出通道数一致，对应于三种类型的卷积单元，分别为10，20，40。

6.根据权利要求1所述的基于声谱图及深度残差网络的音频通用隐写分析方法，其特征在于，步骤3中所述利用SVM进行分类，从训练集和测试集音频切片中提取三种不同窗长声谱图通过残差网络获得3个40维特征拼接成120维特征，训练集得到的120维特征用于训练SVM分类器，基于训练好的SVM模型以及测试集的120维特征判断测试集中音频切片是否含有秘密信息。

7.一种基于声谱图及深度残差网络的音频通用隐写分析系统，其特征在于：包括声谱图特征预处理模块、残差网络S-ResNet模块、分类模块；