CN115295018A

CN115295018A - 基于贝叶斯网络的基音周期调制信息隐藏检测方法

Info

Publication number: CN115295018A
Application number: CN202210931810.3A
Authority: CN
Inventors: 杨洁; 高飞鹏; 王宇
Original assignee: Jiyang College of Zhejiang A&F University
Current assignee: Jiyang College of Zhejiang A&F University
Priority date: 2022-08-04
Filing date: 2022-08-04
Publication date: 2022-11-04

Abstract

本发明涉及信息隐藏技术领域，且公开了基于贝叶斯网络的基音周期调制信息隐藏检测方法，本发明从不同网络结构的角度来说，使用帧内、帧间和自身三个网络相结合的联合网络取得了最好的效果，从不同嵌入率的检测性能角度来说，本发明方法在较低嵌入率时的检测准确率优于现有的一些隐写分析方法；从PDBNS的大小来说，贝叶斯网络数量越少系统检测时间越短，在贝叶斯网络数量少时仍具有较高的检测准确率，能实现对对基音周期调制信息隐藏方法的实时检测；从不同时长的检测性能来说，本发明方法在嵌入率1.0下1秒到10秒音频检测率均为100％，优于现有一些算法。

Description

基于贝叶斯网络的基音周期调制信息隐藏检测方法

技术领域

本发明涉及信息隐藏技术领域，具体为基于贝叶斯网络的基音周期调制信息隐藏检测方法。

背景技术

近年来，随着移动设备的广泛普及，基于VoIP(Voice Over Internet Protocol，IP语音传输)的网络压缩语音成为了最常用的网络通讯方式之一，与此同时，语音安全问题时有发生，如伪造欺骗、隐私泄密、隐蔽通信等，语音隐蔽通讯是一种将秘密信息嵌入到语音通话中来躲避监管者的技术，非法分子可以利用语音传递秘密信息以进行违法犯罪活动，危害国家安全和社会稳定，因此，为了防止隐蔽通信在网络压缩语音中的非法滥用，对语音中的隐蔽通信进行隐写分析显得尤为重要。

现有的基音周期调制隐写分析方法虽然能获得较高的检测准确率，但是仍有一定的提升空间，特别是在低嵌入率和短时长的情况下，隐写分析性能提升空间更大，本申请文件以G.723.1 6.3kbit/s语音编码为例，分析了基音周期码元的条件概率在隐写前后变化较大的现象，并基于这一特性提出了一种新的基于贝叶斯网络的基音周期隐写分析方法。

发明内容

本发明提供如下技术方案：基于贝叶斯网络的基音周期调制信息隐藏检测方法，包括以下主要步骤；

步骤S1：基音延迟时空模型构建及指数量化；

步骤S2：基音延迟贝叶斯网络集构建与训练；

步骤S3：隐写检测过程。

优选的，所述步骤S1中的基音延迟时空模型构建及指数量化包括基音延迟时空模型构建和基音延迟时空模型指数量化。

优选的，所述基音延迟时空模型构建用于描述语音信号存在局部周期性，其主要表现为帧内和帧间的码元取值具有相关性，即同一帧的不同码元之间存在相关性以及相邻帧之间的码元存在相关性，所述基音延迟时空模型由顶点与有向边组成，顶点表示不同的码元，有向边描述两个码元之间的相关性联系，其定义如式(1-1)所示；

式(1-1)中D为整个网络，V为顶点集，每个顶点表示音频序列的一个基音预测码元，即vi,k表示语音序列第i帧中第k个基音子帧码元，E为边集，每条边表示音频序列的两个基音预测码元之间存在的相关性，即<vx,p, vy,q>表示有一条从顶点vx,p指向顶点vy,q的有向边，简称边，当x＝y时，边集E表示帧内码元之间的相关性联系，共有12条边，命名为基音延迟帧内网络，简称帧内网络；当y＝x+1时，边集表示帧间码元之间的相关性联系，共有16条边，命名为基音延迟帧间网络，简称帧间网络。

优选的，所述基音延迟时空模型指数量化通过分析基音周期隐写前后码元相关性变化，寻找帧内帧间隐写敏感特征，进而进行高效的信息隐藏检测，本申请文件将这种帧内帧间隐写敏感特征定义为基音延迟时空模型转移指数，简称转移指数；

基音延迟帧内帧间网络可以描述压缩语音码流片段各码元的转移关系，但每条边的转移强弱关系不同，该节将转移指数量化，用于探究网络中不同边之间的特征强弱关系；

对每条边而言，根据vx,p和vy,q取值范围的不同，将生成一个n×m 的转移指数矩阵M，如式(1-2)所示；

其中n的值为vx,p所能取到的最大值，m的值为顶点vy,q对应码元所能取到的最大值，Pi,j表示当vx,p＝i时vy,q＝j的概率，计算方法如式(1-3) 所示；

网络压缩语音在隐写前后转移指数矩阵R会发生变化，相应的Pi,j也会发生相应的改变，使用未隐写样本和隐写后样本分别计算载体转移指数矩阵Rc和隐写转移指数矩阵Rs，对应转移概率分别记为

和

得到隐写转移指数矩阵的残差，由于选取不同的顶点，转移指数矩阵R大小将发生变化，使得不同边的残差难以直接比较，将对正确刻画转移指数强弱产生影响，因此需要正则化过程，将转移概率残差正则化的方法如式(1-4)所示。

优选的，所述步骤S2中的基音延迟贝叶斯网络集构建与训练包括基音延迟贝叶斯网络集构建和基音延迟贝叶斯网络集训练。

优选的，所述基音延迟贝叶斯网络集构建包括以下步骤；

步骤S(1)：将训练样本类别C分为已隐写样本(记作1)和未隐写样本 (记作0)；

步骤S(2)：根据帧内每个基音周期码元的直方图构建不同的贝叶斯网络，将帧内每个基音周期码元作为样本类别的子节点连边并分别加入网络，该部分的贝叶斯网络只有两个节点与一条边；

步骤S(3)：根据基音延迟时空模型的每一条边构建不同的贝叶斯网络；将vx,p作为样本类别的子节点连边并分别加入对应网络，然后将vy,q作为样本类别C和vx,p的子节点，把C和vy,q以及vx,p和vy,q分别连边并分别加入对应网络，该部分的贝叶斯网络有三个节点和两条边。

优选的，所述基音延迟贝叶斯网络集训练用于在进行隐写分类之前，通过训练样本来训练基音延迟贝叶斯网络集，样本类别C记为X0，将当前子帧的四个基音周期码元(ACL0、ACL1、ACL2、ACL3)记为X1、X2、X3、X4，下一子帧的四个基音周期码元记为X5、X6、X7、X8，这些随机变量的值分别记作x0、x1、x2、x3、x4、x5、x6、x7、x8，那么x0∈{0,1}，x1，x3，x5，x7∈{0,1,…,127}，x2，x4，x6，x8∈{0,1,2,3}，所得条件概率如式(2-1)所示；

上式中，Xi表示一个随机变量，pa(Xi)表示随机变量Xi的父节点，P(Xi |pa(Xi))表示在父节点pa(Xi)发生的概率下，随机变量Xi发生的概率，PDBNS 训练过程是学习条件概率的过程，在学习之后每个贝叶斯网络的每个节点都能够得到一张CPT，记录了某个码元受类别以及其他码元值影响出现的概率， CPT大小由节点的取值范围和节点的所有父亲节点的取值范围共同决定。

优选的，所述步骤S3中的隐写检测过程包括特征提取过程和隐写分类流程。

优选的，所述特征提取过程包括使用一个包含n帧的语音片段，将其码元按码流顺序输入PDBNS，根据音频片段的码元特征，PDBNS的每个贝叶斯网络都将输出两个特征指数CI，包含预测的正样本特征指数CI0和负样本特征指数CI1，该指数用于刻画输入语音片段与网络对应类别的相似程度，预测的特征指数越高则表明是对应类别的可能性就越大，本发明定义的CI计算方法如式(3-1)所示；

式(3-1)的特征指数CI表示了语音在根节点C取到固定值时，对应 vx,p,、vy,q取值的条件概率总和；

对于一个网络压缩语音，首先需要提取其基音延迟值，然后将基音延迟输入PDBNS，每个贝叶斯网络都将计算出两个特征指数CI，分别是CI0和CI1，令输出的多个特征指数按顺序排列，得到特征向量，生成特征指数向量CIV 的算式如式(3-2)所示；

在式(3-2)中，

和

表示PDBNS第i个已训练的贝叶斯网络输出的两个特征指数，整个隐写分类过程中网络顺序不发生改变，即生成的特征指数向量在对应位置上的特征指数是相同网络输出的结果，使得分类时能根据特征正确分类，

优选的，所述隐写分类流程为进行隐写分类需要准备用作训练的未隐写压缩语音、隐写压缩语音样本和用作检测的待测压缩语音，首先利用已有分类的训练集训练PDBNS，得到网络参数；然后提取训练集的特征，即输出训练集样本在PDBNS上的特征指数所组成的向量，用于训练SVM分类器；接着提取未知类别隐写压缩语音的特征，输出待测样本在PDBNS上的特征向量；最后将所提取的训练集特征向量和待测样本特征向量送至SVM分类器进行分类，输出分类结果完成对待测样本的隐写分析。

有益效果

与现有技术相比，本发明提供了基于贝叶斯网络的基音周期调制信息隐藏检测方法，具备以下有益效果：

本发明从不同网络结构的角度来说，使用帧内、帧间和自身三个网络相结合的联合网络取得了最好的效果；从不同嵌入率的检测性能角度来说，本发明方法在较低嵌入率时的检测准确率优于现有的一些隐写分析方法；从 PDBNS的大小来说，贝叶斯网络数量越少系统检测时间越短，在贝叶斯网络数量少时仍具有较高的检测准确率，能实现对对基音周期调制信息隐藏方法的实时检测；从不同时长的检测性能来说，本发明方法在嵌入率1.0下1秒到 10秒音频检测率均为100％，优于现有一些算法。

附图说明

图1为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的基音延迟帧内帧间网络示意图；

图2为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的帧内帧间转移指数示意图；

图3为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的经过排序的网络转移指数示意图；

图4为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的基音延迟贝叶斯网络集中部分网络示意图；

图5为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的部分节点的条件概率示意图；

图6为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的未隐写语音与不同嵌入率下隐写语音样本的特征指数示意图；

图7为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的提取特征步骤示意图；

图8为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的隐写分类流程示意图；

图9为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的嵌入率下单个贝叶斯网络检测准确率(％)示意图；

图10为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的嵌入率下不同数量贝叶斯网络构成的PDBNS的检测准确率(％)示意图；

图11为本发明基于贝叶斯网络的基音周期调制信息隐藏检测方法的不同嵌入率隐写分析准确率(％)示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一；

请阅图1；基于贝叶斯网络的基音周期调制信息隐藏检测方法，包括基音延迟时空模型构建及指数量化，基音延迟时空模型构建及指数量化包括基音延迟时空模型构建和基音延迟时空模型指数量化，基音延迟时空模型构建用于描述语音信号存在局部周期性，其主要表现为帧内和帧间的码元取值具有相关性，即同一帧的不同码元之间存在相关性以及相邻帧之间的码元存在相关性，基音延迟时空模型由顶点与有向边组成，顶点表示不同的码元，有向边描述两个码元之间的相关性联系，其定义如式(1-1)所示。

式(1-1)中D为整个网络，V为顶点集，每个顶点表示音频序列的一个基音预测码元，即vi,k表示语音序列第i帧中第k个基音子帧码元。E为边集，每条边表示音频序列的两个基音预测码元之间存在的相关性，即<vx,p, vy,q>表示有一条从顶点vx,p指向顶点vy,q的有向边，简称边。当x＝y时，边集E表示帧内码元之间的相关性联系，共有12条边，命名为基音延迟帧内网络，简称帧内网络；当y＝x+1时，边集表示帧间码元之间的相关性联系，共有16条边，命名为基音延迟帧间网络，简称帧间网络。将帧内网络与帧间网络合并得到基音延迟帧内帧间网络，简称帧内帧间网络。

实施例二；

如图2和3所示。基音延迟时空模型指数量化通过分析基音周期隐写前后码元相关性变化，寻找帧内帧间隐写敏感特征，进而进行高效的信息隐藏检测，本申请文件将这种帧内帧间隐写敏感特征定义为基音延迟时空模型转移指数，简称转移指数；

对每条边而言，根据vx,p和vy,q取值范围的不同，将生成一个n×m 的转移指数矩阵M，如式(1-2)所示。

其中n的值为vx,p所能取到的最大值，m的值为顶点vy,q对应码元所能取到的最大值，Pi,j表示当vx,p＝i时vy,q＝j的概率，计算方法如式(1-3) 所示。

和

得到隐写转移指数矩阵的残差。由于选取不同的顶点，转移指数矩阵R大小将发生变化，使得不同边的残差难以直接比较，将对正确刻画转移指数强弱产生影响，因此需要正则化过程，将转移概率残差正则化的方法如式(1-4)所示。

本实施例分别随机选取9336个未隐写样本和0.1嵌入率的隐写样本计算帧内帧间不同边的转移指数，如图2所示。

在图2中，ACL0、ACL1、ACL2、ACL3表示当前子帧的码元，ACL0'、ACL1'、 ACL2'、ACL3'表示下一子帧的码元，用箭头表示从一个码元到另一个码元的转移指数，箭头中的具体数值表示转移指数数值，箭头粗细表示转移指数强弱，粗箭头表示转移指数强，细箭头表示转移指数弱。

通过图2可知，当顶点vx,p为7bit的ACL2和ACL0时，转移指数较强；当顶点vy,q为2bit的ACL3和ACL1时，转移指数较强；当顶点vy,q为7bit 的ACL2和ACL0时，转移指数较弱。另外，帧间的转移指数略高于帧内的转移指数。

将帧内和帧间网络的转移指数从大到小排序得到排序后的转移指数，将转移指数强的边命名为强转移指数边，将转移指数弱的边命名为弱转移指数边。排序后的转移指数示意图如图3所示。

从图3中可知，有8条边的转移指数低于0.03，有12条边的转移指数高于0.075，其他8条边的强度位于0.03与0.075之间。通过这种转移指数强弱关系可以描述某条边隐写前后的变化情况，从而快速找出隐写敏感特征。在构建网络时可以预先选择一个合适的阈值，通过阈值筛选出部分边，即在构建网络时尽可能选择强转移指数边，以通过较简单的基音延迟时空模型实现更高效的隐写分析。

实施例三

请阅图4；基于贝叶斯网络的基音周期调制信息隐藏检测方法，包括基音延迟贝叶斯网络集构建与训练，基音延迟贝叶斯网络集构建与训练包括基音延迟贝叶斯网络集构建和基音延迟贝叶斯网络集训练，基音延迟贝叶斯网络集构建包括以下步骤；

基音延迟贝叶斯网络集示意图如图4所示，图中分别展示了代表直方图特征的自身网络、帧内和帧间网络。

实施例四；

请阅图5；基音延迟贝叶斯网络集训练用于在进行隐写分类之前，通过训练样本来训练基音延迟贝叶斯网络集，该部分将图4中的帧内网络、帧间网络、自身网络分开进行叙述。样本类别C记为X0，将当前子帧的四个基音周期码元(ACL0、ACL1、ACL2、ACL3)记为X1、X2、X3、X4，下一子帧的四个基音周期码元记为X5、X6、X7、X8，这些随机变量的值分别记作x0、x1、x2、 x3、x4、x5、x6、x7、x8，那么x0∈{0,1}，x1，x3，x5，x7∈{0,1,…,127}， x2，x4，x6，x8∈{0,1,2,3}。所得条件概率如式(2-1)所示。

上式中，Xi表示一个随机变量，pa(Xi)表示随机变量Xi的父节点，P(Xi |pa(Xi))表示在父节点pa(Xi)发生的概率下，随机变量Xi发生的概率。PDBNS 训练过程是学习条件概率的过程，在学习之后每个贝叶斯网络的每个节点都能够得到一张CPT，记录了某个码元受类别以及其他码元值影响出现的概率。 CPT大小由节点的取值范围和节点的所有父亲节点的取值范围共同决定。图5 表示了未隐写样本和隐写样本在部分网络下中节点的条件概率。

在图5中，“Cover”表示载体，即未隐写样本，“Stego”表示隐写，即隐写样本，横坐标为节点的取值，纵坐标为条件概率，可以看出在隐写和未隐写不同条件下，四个节点的条件概率都有明显的差异，因此本发明通过训练出的PDBNS的条件概率可以反映隐写前后的变化情况。

实施例五；

请阅图6和7；基于贝叶斯网络的基音周期调制信息隐藏检测方法，包括隐写检测过程，隐写检测过程包括特征提取过程和隐写分类流程，特征提取过程包括使用一个包含n帧的语音片段，将其码元按码流顺序输入PDBNS，根据音频片段的码元特征，PDBNS的每个贝叶斯网络都将输出两个特征指数CI，包含预测的正样本特征指数CI0和负样本特征指数CI1，该指数用于刻画输入语音片段与网络对应类别的相似程度，预测的特征指数越高则表明是对应类别的可能性就越大，本发明定义的CI计算方法如式(3-1)所示。

式(3-1)的特征指数CI表示了语音在根节点C取到固定值时，对应 vx,p,、vy,q取值的条件概率总和，图6展示了未隐写语音与不同嵌入率下的隐写语音样本在其中一个贝叶斯网络下的CI指数，用横坐标表示CI0，纵坐标表示CI1；

由图6知，单个贝叶斯网络输出的两个CI指数在不同嵌入率下会发生明显变化。对于一个网络压缩语音，首先需要提取其基音延迟值，然后将基音延迟输入PDBNS，每个贝叶斯网络都将计算出两个特征指数CI，分别是CI0 和CI1，令输出的多个特征指数按顺序排列，得到特征向量。生成特征指数向量CIV的算式如式(3-2)所示；

在式(3-2)中，

和

表示PDBNS第i个已训练的贝叶斯网络输出的两个特征指数，整个隐写分类过程中网络顺序不发生改变，即生成的特征指数向量在对应位置上的特征指数是相同网络输出的结果，使得分类时能根据特征正确分类，特征提取步骤如图7。

实施例六；

请阅图8；隐写分类流程为进行隐写分类需要准备用作训练的未隐写压缩语音、隐写压缩语音样本和用作检测的待测压缩语音。首先利用已有分类的训练集训练PDBNS，得到网络参数；然后提取训练集的特征，即输出训练集样本在PDBNS上的特征指数所组成的向量，用于训练SVM分类器；接着提取未知类别隐写压缩语音的特征，输出待测样本在PDBNS上的特征向量；最后将所提取的训练集特征向量和待测样本特征向量送至SVM分类器进行分类，输出分类结果完成对待测样本的隐写分析，隐写分类流程示意图如图8所示。

实验例；

请阅图9、10和11；本实验例数据集包含41小时的中文演讲和72小时的英文演讲，每段语音时长10s，采用G723.1高速率6.3kb/s语音编码器。将中文和英文数据集按照3:1:1的比例划分为训练集、验证集和测试集，使用C++与Python语言进行实验，本实验例选用文献[22]、文献[23]和文献[24] 提出的隐写分析方法作为对比，将从不同网络结构、不同单个贝叶斯网络、不同数量贝叶斯网络、不同嵌入率以及不同语音时长方面进行性能分析。

(1)不同网络结构的检测性能分析

PDBNS中包含多个网络，并且多个网络之间可以相互组合，表6-1列出了网络之间进行不同组合在中文数据集和英文数据集不同嵌入率下的准确率情况。

从表6-1知，随着嵌入率的增长，音频修改的码元个数变多，因此不同网络结构判别率持续增加。从单个网络结构的准确率看，帧内网络和帧间网络相比自身网络的检测准确率更高，在中文数据集10％嵌入率下帧内网络判别成功率达87.72％，帧间网络判别成功率为86.71％，而自身网络判别准确率为81.35％。从两个网络结构的组合结果来看，帧内+帧间网络准确率最高，在中文数据集10％嵌入率下判别准确率达89.86％，且比单个的帧内和帧间网络结构的准确率高；帧内+自身网络的组合也取得了较好的效果，准确率均比单个的帧内和自身网络结构的准确率高；帧间+自身网络的准确率在中文数据集 10％嵌入率下仅为86.65％，较帧间网络在10％下的判别率86.71％低。从三个网络结构的组合结果来看，全部即帧内+帧间+自身网络取得了所有网络组合中最好的效果，英文数据集有着类似的结论。

(2)不同单个贝叶斯网络的检测性能分析

请阅图9，PDBNS中的每个贝叶斯网络在进行分类时将有不同的贡献度，本小节通过研究单个贝叶斯网络在0.1嵌入率下的中、英文不同数据集下的检测效果来研究不同贝叶斯网络的检测性能，实验结果如图9所示。且由图9 可知，单个不同的贝叶斯网络分类器在检测相同音频时表现出不同的检测准确率，部分分类器的准确率仅为50％，最好的单个分类器可以得到80％以上的准确率。

(3)不同数量贝叶斯网络的检测性能分析

请阅图10；PDBNS中的每个贝叶斯网络将输出两个特征指数用于构成特征向量，贝叶斯网络数量越多最终特征向量维度也会越多，提取特征用时也会增加。该部分使用本实验例提出的基音延迟时空网络模型量化指数来选择性构建PDBNS，通过增量方式，每次都选择剩下未选择的贝叶斯网络中对应量化指数最大的网络加入到PDBNS中，最后对每组PDBNS都在中文和英文0.1 嵌入率数据集下进行测试，检测准确率如图10所示。

从图10中可知，随着PDBNS中贝叶斯网络数量的增长，网络模型准确率逐渐上升，仅使用量化指数最大的1个贝叶斯网络对应的检测准确率为 76.24％，同时使用前12个量化指数最大的贝叶斯网络检测准确率达88.38％，因此可以通过选择适当数量的贝叶斯网络降低系统检测所需的时间。

本实验例在Intel(R)Xeon(R)Gold 5218R CPU@2.10GHz、128GB内存的Windows 10系统上使用VS 2019进行时间测试。经过实验，使用帧内、帧间和自身三个网络共32个贝叶斯网络进行分类，检测一段10秒语音所需平均时间为13毫秒，仅使用量化指数最大的1个贝叶斯网络进行分类检测相同音频所需平均时间为0.6毫秒，并且所用时长随着PDBNS越大呈现线性增长。

(4)不同嵌入率的检测性能分析

请阅图11；嵌入率是嵌入比特数量与嵌入容量的比值，可以通过降低嵌入率的方式使得隐写安全性得到提升并且降低修改码元对语音质量的影响。本实验例在10种不同嵌入率下(10％～100％)进行实验研究，研究模型隐写分析效率，并在数据集中分别使用文献[22]、文献[23]和文献[24]的隐写分析方法作为对比方法，实验结果如图11所示。

从图11知，随着嵌入率上升，音频中单帧内码元修改个数会增加，4种隐写分析算法准确率都有所上升。文献[23]和本实验例方法在总体上比文献 [24]和文献[22]方法有更好的精度，而本实验例方法在低嵌入率时，能够获得比文献[23]方法更好的效果。在中文数据集上，在嵌入率10％时，对比文献 [24]、文献[23]和文献[22]方法，本实验例方法分别获得了25.41％、5.63％、 0.94％的提升，在嵌入率低于40％时，本实验例方法获得了较其他三种方法更高的检测率，在嵌入率大于等于40％时，本实验例方法准确率对比文献[24]方法有较大提升，与文献[22]和文献[23]方法准确率持平，都接近100％。在英文数据集上有类似的结论，并且四种方法在英文数据集整体准确率较中文方法准确率有所提升。

(5)不同语音时长的检测性能分析

时间越长意味着能够获得更多帧内帧间关系，从而提取更多的特征，该部分从语音时长片段长度方面来评估实验例提出的PDBNS模型。在1.0嵌入率下的10种时长下进行了实验，实验结果如表6-2所示。

从表6-2可知，本实验例方法在1.0嵌入下的各时长准确率均达到100％，文献[24]算法在英文样本1.0嵌入率1秒时长检测率为87.25％，而文献[23] 方法检测率为99.84％。

自适应码本搜索通过预测基音周期值得到基音延迟码元，现有的基音周期预测方法的预测结果存在误差，无法实现精确预测。基于这一特性，现有基于自适应码本系数调制的信息隐藏方法在码本搜索阶段对基音周期结果进行微调，以实现秘密信息的隐藏。文献[10]将G.723.1语音编码4个子帧的闭环基音周期搜索范围分别划分为两组，秘密信息比特0/1分别对应一组搜索范围，从而实现信息隐藏。文献[11]对G.729a语音编码2个子帧的基音周期进行±1/3分数搜索范围进行调整进行秘密信息嵌入。文献[12]通过双层嵌入算法在G.723.1语音编码中嵌入3bit秘密信息，提高嵌入效率，降低语音隐写失真。文献[13]将小于误差阈值的基音周期预测值替换成秘密信息，从而实现在Speex中进行隐蔽通信。文献[14]基于AMR语音编码过程中小数基音延迟保持稳定的特性，利用小数基音延时实现秘密信息的嵌入，在保证语音质量的同时提高嵌入容量。

针对基于自适应码本系数调制的信息隐藏，目前也有一些隐写分析方法。这些方法主要分为两大类，一类是基于SVM的手工特征提取方法[18-21]，另一类是基于神经网络的自动特征提取方法[22-23]。早期的研究主要属于第一类，例如：李松斌等人[18]利用码本的相关性提出了一种基于码本关联网络的基音调制信息隐藏检测方法，该方法通过构建码本关联规则网络来提取样本特征，将提取特征进行主成分分析降维，送至SVM分类器训练并实现隐写分析；贾已真等人[19]利用隐写方法会改变基音周期估计共生特性的特点，以基音周期共生特性构造特征向量实现对G.729a基音调制信息隐藏的检测； Ren等人[20]提出了一种基于MSDPD(Markov transition probability matrix of the Second-orderDifference of Pitch Delay，基音延时二阶差分马尔科夫转移矩阵)的基音调制信息隐藏检测方法，该方法以MSDPD作为SVM分类器特征，并通过重压缩得到校准MSDPD特征进一步提高检测准确率；在文献[20]的基础上，文献[21]将子帧内的一阶马尔科夫转移概率特征和MSDPD 进行结合，提出了一种基于基音调制的信息隐藏检测框架。随着神经网络和深度学习的发展，基于深度学习的基音周期调制隐写分析方法相继出现。Hu 等人提出了一种隐写分析特征融合网络方法，该方法利用长短期记忆提取基音周期调制和量化索引调制特征，并利用卷积神经网络将两种特征进行融合，通过全连接网络实现信息隐藏检测；Li等人提出了一种基于码元嵌入、双向长短期记忆和卷积神经网络注意力机制的隐写分析方法，该方法能够同时检测多类信息隐藏，对基音周期信息隐藏也能取得较好的检测性能。

综上，本发明从不同网络结构的角度来说，使用帧内、帧间和自身三个网络相结合的联合网络取得了最好的效果；从不同嵌入率的检测性能角度来说，本实验例方法在较低嵌入率时的检测准确率优于现有的一些隐写分析方法；从PDBNS的大小来说，贝叶斯网络数量越少系统检测时间越短，在贝叶斯网络数量少时仍具有较高的检测准确率，能实现对对基音周期调制信息隐藏方法的实时检测；从不同时长的检测性能来说，本实验例方法在嵌入率1.0 下1秒到10秒音频检测率均为100％，优于现有一些算法。

需要说明的是，在本实验例中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：包括以下主要步骤；

步骤S1：基音延迟时空模型构建及指数量化；

步骤S2：基音延迟贝叶斯网络集构建与训练；

步骤S3：隐写检测过程。

2.根据权利要求1所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述步骤S1中的基音延迟时空模型构建及指数量化包括基音延迟时空模型构建和基音延迟时空模型指数量化。

3.根据权利要求2所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述基音延迟时空模型构建用于描述语音信号存在局部周期性，其主要表现为帧内和帧间的码元取值具有相关性，即同一帧的不同码元之间存在相关性以及相邻帧之间的码元存在相关性，所述基音延迟时空模型由顶点与有向边组成，顶点表示不同的码元，有向边描述两个码元之间的相关性联系，其定义如式(1-1)所示；

式(1-1)中D为整个网络，V为顶点集，每个顶点表示音频序列的一个基音预测码元，即vi,k表示语音序列第i帧中第k个基音子帧码元，E为边集，每条边表示音频序列的两个基音预测码元之间存在的相关性，即<vx,p,vy,q>表示有一条从顶点vx,p指向顶点vy,q的有向边，简称边，当x＝y时，边集E表示帧内码元之间的相关性联系，共有12条边，命名为基音延迟帧内网络，简称帧内网络；当y＝x+1时，边集表示帧间码元之间的相关性联系，共有16条边，命名为基音延迟帧间网络，简称帧间网络。

4.根据权利要求2所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述基音延迟时空模型指数量化通过分析基音周期隐写前后码元相关性变化，寻找帧内帧间隐写敏感特征，进而进行高效的信息隐藏检测，本申请文件将这种帧内帧间隐写敏感特征定义为基音延迟时空模型转移指数，简称转移指数；

对每条边而言，根据vx,p和vy,q取值范围的不同，将生成一个n×m的转移指数矩阵M，如式(1-2)所示；

其中n的值为vx,p所能取到的最大值，m的值为顶点vy,q对应码元所能取到的最大值，Pi,j表示当vx,p＝i时vy,q＝j的概率，计算方法如式(1-3)所示；

和

。

5.根据权利要求1所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述步骤S2中的基音延迟贝叶斯网络集构建与训练包括基音延迟贝叶斯网络集构建和基音延迟贝叶斯网络集训练。

6.根据权利要求5所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述基音延迟贝叶斯网络集构建包括以下步骤；

步骤S(1)：将训练样本类别C分为已隐写样本(记作1)和未隐写样本(记作0)；

7.根据权利要求5所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述基音延迟贝叶斯网络集训练用于在进行隐写分类之前，通过训练样本来训练基音延迟贝叶斯网络集，样本类别C记为X0，将当前子帧的四个基音周期码元(ACL0、ACL1、ACL2、ACL3)记为X1、X2、X3、X4，下一子帧的四个基音周期码元记为X5、X6、X7、X8，这些随机变量的值分别记作x0、x1、x2、x3、x4、x5、x6、x7、x8，那么x0∈{0,1}，x1，x3，x5，x7∈{0,1,…,127}，x2，x4，x6，x8∈{0,1,2,3}，所得条件概率如式(2-1)所示；

上式中，Xi表示一个随机变量，pa(Xi)表示随机变量Xi的父节点，P(Xi|pa(Xi))表示在父节点pa(Xi)发生的概率下，随机变量Xi发生的概率，PDBNS训练过程是学习条件概率的过程，在学习之后每个贝叶斯网络的每个节点都能够得到一张CPT，记录了某个码元受类别以及其他码元值影响出现的概率，CPT大小由节点的取值范围和节点的所有父亲节点的取值范围共同决定。

8.根据权利要求1所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述步骤S3中的隐写检测过程包括特征提取过程和隐写分类流程。

9.根据权利要求8所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述特征提取过程包括使用一个包含n帧的语音片段，将其码元按码流顺序输入PDBNS，根据音频片段的码元特征，PDBNS的每个贝叶斯网络都将输出两个特征指数CI，包含预测的正样本特征指数CI0和负样本特征指数CI1，该指数用于刻画输入语音片段与网络对应类别的相似程度，预测的特征指数越高则表明是对应类别的可能性就越大，本发明定义的CI计算方法如式(3-1)所示；

式(3-1)的特征指数CI表示了语音在根节点C取到固定值时，对应vx,p,、vy,q取值的条件概率总和；

对于一个网络压缩语音，首先需要提取其基音延迟值，然后将基音延迟输入PDBNS，每个贝叶斯网络都将计算出两个特征指数CI，分别是CI0和CI1，令输出的多个特征指数按顺序排列，得到特征向量，生成特征指数向量CIV的算式如式(3-2)所示；

在式(3-2)中，

和

表示PDBNS第i个已训练的贝叶斯网络输出的两个特征指数，整个隐写分类过程中网络顺序不发生改变，即生成的特征指数向量在对应位置上的特征指数是相同网络输出的结果，使得分类时能根据特征正确分类。

10.根据权利要求8所述的基于贝叶斯网络的基音周期调制信息隐藏检测方法，其特征在于：所述隐写分类流程为进行隐写分类需要准备用作训练的未隐写压缩语音、隐写压缩语音样本和用作检测的待测压缩语音，首先利用已有分类的训练集训练PDBNS，得到网络参数；然后提取训练集的特征，即输出训练集样本在PDBNS上的特征指数所组成的向量，用于训练SVM分类器；接着提取未知类别隐写压缩语音的特征，输出待测样本在PDBNS上的特征向量；最后将所提取的训练集特征向量和待测样本特征向量送至SVM分类器进行分类，输出分类结果完成对待测样本的隐写分析。