CN109817233A - 基于层次注意力网络模型的语音流隐写分析方法及系统 - Google Patents

基于层次注意力网络模型的语音流隐写分析方法及系统 Download PDF

Info

Publication number
CN109817233A
CN109817233A CN201910073812.1A CN201910073812A CN109817233A CN 109817233 A CN109817233 A CN 109817233A CN 201910073812 A CN201910073812 A CN 201910073812A CN 109817233 A CN109817233 A CN 109817233A
Authority
CN
China
Prior art keywords
voice
network model
voice flow
steganalysis
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910073812.1A
Other languages
English (en)
Other versions
CN109817233B (zh
Inventor
黄永峰
杨浩
杨忠良
鲍永健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201910073812.1A priority Critical patent/CN109817233B/zh
Publication of CN109817233A publication Critical patent/CN109817233A/zh
Application granted granted Critical
Publication of CN109817233B publication Critical patent/CN109817233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于层次注意力网络模型的语音流隐写分析方法及系统,其中,该方法包括以下步骤:采集网络上的语音流,将语音流作为训练数据,其中,训练数据包含原始语音流片段以及嵌入秘密信息的语音流片段;将训练数据在层次注意力网络模型上进行学习,获得训练后的语音流隐写分析模型;通过滑动窗口方法获得语音载荷经过压缩量化之后的量化系数向量,并在层次注意力网络模型上对量化系数向量矩阵进行检测,确定待检测的量化系数向量是否经过隐写之后的语音得到,若是,则确定原始语音流为隐写语音流。该方法通过自动学习创建盲检测模型并能非常快速且准确的辨别网络语音流当中的隐写语音数据,其性能大幅好于之前的网络语音流隐写分析方法。

Description

基于层次注意力网络模型的语音流隐写分析方法及系统
技术领域
本发明涉及信息安全技术领域,特别涉及一种基于层次注意力网络模型的语音流隐写分析方法及系统。
背景技术
在关于信息安全的专著中,香农(Shannon)总结了三个基本的信息安全系统:加密系统,隐私系统和隐藏系统。
具体地,加密系统以特殊方式对信息进行编码,以便只有授权方才能对其进行解码,而未经授权的方可以对其进行解码。它通过使消息难以读取来确保信息的安全性。
隐私系统主要是限制对信息的访问,以便只有授权用户才能访问重要信息。未经授权的用户在任何情况下都无法以任何方式访问它。然而,虽然这两个系统确保了信息安全,但它们也暴露了信息的存在和重要性,使其更容易受到攻击,如拦截和破解。
隐藏系统与这两个保密系统有很大不同。它通过在常见载体中嵌入机密信息,然后利用公共信道传输,隐藏机密信息的存在,以达到不容易被怀疑和攻击的目的。隐藏系统由于其极强的信息隐藏能力,在保护商业秘密,军事安全甚至国防安全方面发挥着重要作用。其中,隐写术是隐藏系统中的关键技术。隐写术的主要目标是基于公开的图像,语音以及文本等载体,嵌入尽可能多的信息,并尽量保证隐写前后载体的各种统计特征没有变化。隐写分析的目的是尽可能的检测各种嵌入的信息在所有可疑的载体当中。
随着网络带宽的持续增长以及网络融合趋势的增强,网络上流媒体的应用得到了空前的发展。流媒体技术是指在网络上采用流式传输方式进行传输的一种多媒体信息,比较典型的应用有VOD(视频点播,Vedio on demand)、AOD(音频点播,audio on demand)、IPTV(互联网协议电视,Internet Protocol Television)、VOIP(语音通话技术,Voiceover IP)。流媒体是一种动态媒体,具有实时性以及时变性,与基于静态媒体(图像,音频)的信息隐藏方法相比,其更加难以检测。
如图1所示,流媒体单元一般来说分为4个层次:音视频数据(一般来说经过压缩),IP报头,UDP报头,RTP报头。
流媒体当中的每个部分都可以作为隐藏数据的载荷。总的来说,基于流媒体技术的隐蔽通信技术可以分为三类:
基于网络协议的信息隐藏。主要是充分利用协议的头部一些没有使用的,或者是可选的区域进行。但是一般来说,由于网络协议都是公开的,一些区域总是固定值使得这类算法非常容易被检测。
基于载荷的信息隐藏。基于载荷的方式主要是通过修改流媒体当中载荷的冗余信息从而达到隐蔽通信的目的。一些常见的方法比如LSB(Least Significant Bits,最低位替换)替换,通过修改自适应搜索码本的量化索引调制等。
多维信息隐藏。主要是结合流媒体单元的多个维度,其中网络协议是一个维度,载荷是另外一个维度,通过对两个维度同时隐写达到多维隐写的目的。
本发明实施例所设计的模型主要是针对基于载荷的信息隐藏,特别的我们的检测载体是流媒体单元的语音载荷。
一般来说,为了减少带宽的消耗,网络语音流媒体数据一般在发送端对语音进行低速率压缩编码然后传输。常见的网络语音流媒体数据压缩标准有G.729,G.723.1等,都使用基于合成分析法的线性预测编码(Abs-LPC),LPC即线性预测编码分析。LPC分析所获得的LPC合成器如下式:
其中,ai为语音信号的第i阶LPC预测系数。由于语音具有短时平稳性,在编码时要将语音分割为具有较小时长的帧,对每一帧分别进行LPC分析。LPC系数并不适合直接进行量化,于是LPC系数会转换成线谱频率系数LSF并进行分裂矢量量化。LSF量化的结果可以表示为码字C=(c1,c2,c3),我们的隐写分析的模型输入就是单帧或者多帧拼接到的码字序列。任何对这个码字特征能够造成影响的隐写方法都可以被我们的模型所检测比如量化索引调制隐写以及基音周期隐写。一种常见的压缩语音隐写方法比如量化索引调制,通过改变码字C当中码本的范围从而对完成数据隐写。
如图2所示,相关技术中的对网络语音流的载荷隐写分析方法主要分为通用的语音隐写检测方法以及专有的语音隐写检测方法。一些通用的方法比如基于Mel倒谱系数(梅尔频率倒谱系数,MFCC)统计特征的音频信息隐藏盲检测方法,这些算法的检测效果不太可能好,因为压缩编码是语音产生了很大的失真,直接从解码后语音采样值提取特征其实很难反映原始语音所包含的特征信息。所以针对压缩编码的专用隐写分析方法大多直接在压缩域进行隐写检测。当前针对网络语音流压缩域的隐写分析方法也主要分成两种:一种是传统方式即使用人工提取的特征加上一些比较传统的分类器比如支持向量机来进行分类,另外一种方式是采用基于神经网络的方法对于问题进行建模。基于传统方式的检测方法主要是基于隐写数据前后对不同码字的统计特征的印象以及码字之间相关性的影响,一般来说这种方式需要通过手动设计特征,检测的时间复杂度取决于特征的复杂度,使用手工特征来进行检测的方式通常检测性能一般。基于神经网络的方式目前在网络语音流的隐写分析领域还非常少,之前最好的方法使用两层的LSTM(Long Short-Term Memory,长短期记忆网络)对压缩域的系数进行建模,取得了相对比较好的检测效果,但是这个方法的缺点在于检测时长线性依赖于语音长度,检测效率不高且其在低嵌入率的样本检测还需要进一步改进。综上所述,现有的方法要么是检测准确率不高要么是检测耗时太多。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于层次注意力网络模型的语音流隐写分析方法。该方法能非常快速且准确的辨别网络语音流当中的隐写语音数据,同时有非常低的检测时间。
本发明的另一个目的在于提出一种基于层次注意力网络模型的语音流隐写分析系统。
为达到上述目的,本发明一方面提出了基于层次注意力网络模型的语音流隐写分析方法,包括以下步骤:采集网络上的语音流,以将所述语音流作为训练数据,其中,所述训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据;将所述训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型;以及获得当前语音流经过压缩量化之后的量化系数向量,并在所述层次注意力网络模型上对所述量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
本发明实施例的基于层次注意力网络模型的语音流隐写分析方法,通过自动学习创建盲检测模型并能非常快速且准确的辨别网络语音流当中的隐写语音数据,能够实现实时的基于量化索引调制的网络语音流隐写分析,同时有非常低的检测时间,其性能大幅好于相关技术中的网络语音流隐写分析方法。
另外,根据本发明上述实施例的基于层次注意力网络模型的语音流隐写分析方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述将所述训练数据在层次注意力网络模型上进行学习,进一步包括:使用滑动窗口获取网络语音流当中的语音载荷数据;使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断所述原始语音是否包含隐写数据。
进一步地,在本发明的一个实施例中,所述卷积模块包括卷积层、批归一化层和激活函数层,其中,所述卷积层包含多个同样的卷积核,对每一个所述滑动窗口,每个所述卷积核产生一个特征图。
进一步地,在本发明的一个实施例中,在所述注意力机制中,每一个特征图对应各自的注意力权值,公式为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,比如tanh得到mi,对之前得到的mi进行线性变换并归一化之后便可以得到此前卷积向量gi的注意力权值,在线性变化当中,mi和bi为检测模型在训练时可以进行学习更新的参数,mi为线性系数,bi为线性偏置。
可选地,在本发明的一个实施例中,所述使用分类器判断所述原始语音是否包含隐写数据进一步包括:利用全连接方式对所述特征进行分类,最终的输出公式为:
其中,oi表示全连接层学习到的权值,vi表示之前卷积拼接得到的特征值,bi表示全连接层的线性偏置。
进一步地,在本发明的一个实施例中,还包括:
最终检测结果为:
其中,X表示为检测模型输出标签,stego speech表示隐写语音标签,coverspeech表示为正常语音标签,y表示为检测模型输出属于隐写语音标签的概率,threshold表示为判断模型标签的概率阈值。
为达到上述目的,本发明另一方面提出了一种基于层次注意力网络模型的语音流隐写分析系统,包括:采集模块用于采集网络上的语音流,以将所述语音流作为训练数据,其中,所述训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据;学习模块用于将所述训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型;检测模块用于获得当前语音流经过压缩量化之后的量化系数向量,并在所述层次注意力网络模型上对所述量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
本发明实施例的基于层次注意力网络模型的语音流隐写分析系统,通过自动学习创建盲检测模型并能非常快速且准确的辨别网络语音流当中的隐写语音数据,能够实现实时的基于量化索引调制的网络语音流隐写分析,同时有非常低的检测时间,其性能大幅好于相关技术中的网络语音流隐写分析系统。
另外,根据本发明上述实施例的基于层次注意力网络模型的语音流隐写分析系统还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述学习模块进一步用于:获取单元用于使用滑动窗口获取网络语音流当中的语音载荷数据;判断单元用于使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断所述原始语音是否包含隐写数据。
进一步地,在本发明的一个实施例中,所述卷积模块包括卷积层、批归一化层和激活函数层,其中,所述卷积层包含多个同样的卷积核,对每一个所述滑动窗口,每个所述卷积核产生一个特征图。
可选地,在本发明的一个实施例中,在所述注意力机制中,每一个特征图对应各自的注意力权值,公式为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,比如tanh得到mi,对之前得到的mi进行线性变换并归一化之后便可以得到此前卷积向量gi的注意力权值,在线性变化当中,mi和bi为检测模型在训练时可以进行学习更新的参数,mi为线性系数,bi为线性偏置。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的相关技术中流媒体单元分层示意图;
图2为根据本发明实施例的量化索引调制四分码本示意图;
图3为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析方法流程图;
图4为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析方法的算法使用场景示例;
图5为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析方法的监督训练框架示意;
图6为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析方法的滑动窗口法提取载荷示意图;
图7为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析方法可变长度编码示意图;
图8为根据本发明实施例的基于层次注意力网络模型的语音流隐写分析系统结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的基于层次注意力网络模型的语音流隐写分析方法及系统,首先将参照附图描述根据本发明实施例提出的基于层次注意力网络模型的语音流隐写分析方法。
图3是本发明一个实施例的基于层次注意力网络模型的语音流隐写分析方法流程图。
如图3所示,该基于层次注意力网络模型的语音流隐写分析方法包括以下步骤:
在步骤S101中,采集网络上的语音流,以将语音流作为训练数据,其中,训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据。
具体地,如图4所示,通过对网络上采集的语音流作为训练数据,训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,其中原始数据类被标记为无隐写数据,而嵌入信息的数据类被标记为有隐写数据。
在步骤S102中,将训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型。
简单来讲,如图5所示,对训练集在本发明实施例提出的层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型。
进一步地,如图6所示,在具体实施当中,首先使用滑动窗方法,从实时网络流中提取语音载荷。在处理当中首先对网络包进行过滤并捕获流媒体分组,然后对语音包进行拼接。
其中,如图7所示,将训练数据在层次注意力网络模型上进行学习进一步包括:使用滑动窗口获取网络语音流当中的语音载荷数据;使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断原始语音是否包含隐写数据。
对于从网络上获得的语音载荷,本发明实施例进行拼接得到量化索引矩阵,同时语音经过低速率语音编码压缩之后的量化系数向量。可以记为:
其中,N是语音帧的帧数。该矩阵是本发明实施例检测的模型的最终输入。
需要说明的是,卷积块包含卷积层,批归一化层,以及激活函数层。其中在本发明实施例的场景当中使用的卷积主要是一维卷积,通常一个卷积层有多个同样的卷积核。对一个卷积核大小为k的卷积块,卷积窗口可以表示为:
wj=[hj,hj+1,…,hj+k-1]
其中,j为卷积在X中开始的位置。卷积块中的批归一化层主要是对输入数据进行归一化,其可以很大程度上加快网络收敛。卷积块的最后一部分是激活函数,对每一个滑动窗口,每个卷积核都会产生一个特征图,其可以表示为:
所以在卷积块之后的输出可以表示成:
W=[g1;g2,…;gn]
后面两层卷积块操作都和上述的描述一致。
本发明实施例使用注意力模块对每个卷积层的输出进行选择从而选择重要特征并进行最终的分类,对于卷积层的输出,每一个特征图对应的注意力权值大小可以描述为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,比如tanh得到mi,对之前得到的mi进行线性变换并归一化之后便可以得到此前卷积向量gi的注意力权值。其中在线性变化当中,mi和bi为检测模型在训练时可以进行学习更新的参数,mi为线性系数,bi为线性偏置。
最终注意力模块的输出向量可以表示成:
r=∑iαigi
本发明实施例将来自不同注意力模块的特征进行拼接,得到r=[r1,r2,r3],其中ri为来自第i个注意力模块的输出。
本发明实施例使用全连接来对特征进行分类,全连接层最后一层的输出节点的激活函数为sigmoid,其可以表示成:
所以最终的输出可以表示为:
式中oi表示全连接层学习到的权值,vi表示之前卷积拼接得到的特征值,bi表示全连接层的线性偏置。
最终的检测结果可以表示成:
其中,X表示为检测模型输出标签,stego speech表示隐写语音标签,coverspeech表示为正常语音标签,y表示为检测模型输出属于隐写语音标签的概率,threshold表示为判断模型标签的概率阈值。
在步骤S103中,通过滑动窗口方法获得语音载荷经过压缩量化之后的量化系数向量,并在层次注意力网络模型上对量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
也就是说,在网络环境当中通过滑动窗口方法获得网络数据包中获得语音载荷经过压缩量化之后的不同长度的量化系数向量,并在层次注意力网络检测模型上进行检测,以确定待检语音是否为隐写语音流。
根据本发明实施例提出的基于层次注意力网络模型的语音流隐写分析方法,通过自动学习创建盲检测模型并能非常快速且准确的辨别网络语音流当中的隐写语音数据,能够实现实时的基于量化索引调制的网络语音流隐写分析,同时有非常低的检测时间,其性能大幅好于相关技术中的网络语音流隐写分析方法。
其次参照附图描述根据本发明实施例提出的基于层次注意力网络模型的语音流隐写分析系统。
图8是本发明一个实施例的基于层次注意力网络模型的语音流隐写分析系统结构示意图。
如图8所示,该基于层次注意力网络模型的语音流隐写分析系统10包括:采集模块100、学习模块200和检测模块300。
其中,采集模块100用于采集网络上的语音流,以将语音流作为训练数据。
需要说明的是,训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据。
学习模块200用于将训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型。
可选地,在本发明实施例中的学习模块进一步用于:获取单元用于使用滑动窗口获取网络语音流当中的语音载荷数据;判断单元用于使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断原始语音是否包含隐写数据。
需要说明的是,卷积模块包括卷积层、批归一化层和激活函数层,其中,卷积层包含多个同样的卷积核,对每一个滑动窗口,每个卷积核产生一个特征图。
进一步地,在本发明的一个实施例中,每一个特征图对应各自的注意力权值,公式为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,比如tanh得到mi,对之前得到的mi进行线性变换并归一化之后便可以得到此前卷积向量gi的注意力权值。其中在线性变化当中,mi和bi为检测模型在训练时可以进行学习更新的参数,mi为线性系数,bi为线性偏置。
检测模块300用于通过滑动窗口方法获得语音载荷经过压缩量化之后的量化系数向量,并在层次注意力网络模型上对量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
需要说明的是,前述对基于层次注意力网络模型的语音流隐写分析方法实施例的解释说明也适用于该系统,此处不再赘述。
根据本发明实施例提出的基于层次注意力网络模型的语音流隐写分析系统,通过自动学习创建盲检测模型并能非常快速且准确的辨别网络语音流当中的隐写语音数据,能够实现实时的基于量化索引调制的网络语音流隐写分析,同时有非常低的检测时间,其性能大幅好于相关技术中的网络语音流隐写分析系统。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (10)

1.一种基于层次注意力网络模型的语音流隐写分析方法,其特征在于,包括以下步骤:
采集网络上的语音流,以将所述语音流作为训练数据,其中,所述训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据;
将所述训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型;以及
通过滑动窗口方法获得语音载荷经过压缩量化之后的量化系数向量,并在所述层次注意力网络模型上对所述量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
2.根据权利要求1所述的基于层次注意力网络模型的语音流隐写分析方法,其特征在于,所述将所述训练数据在层次注意力网络模型上进行学习,进一步包括:
使用滑动窗口获取网络语音流当中的语音载荷数据;
使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断所述原始语音是否包含隐写数据。
3.根据权利要求2所述的基于层次注意力网络模型的语音流隐写分析方法,其特征在于,所述卷积模块包括卷积层、批归一化层和激活函数层,其中,所述卷积层包含多个同样的卷积核,对每一个所述滑动窗口,每个所述卷积核产生一个特征图。
4.根据权利要求2所述的基于层次注意力网络模型的语音流隐写分析方法,其特征在于,在所述注意力机制中,每一个特征图对应各自的注意力权值,公式为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,tanh得到mi,对之前得到的mi进行线性变换并归一化之后得到此前卷积向量gi的注意力权值,在线性变化当中,mi和bi为检测模型在训练时进行学习更新的参数,mi为线性系数,bi为线性偏置。
5.根据权利要求2所述的基于层次注意力网络模型的语音流隐写分析方法,其特征在于,所述使用分类器判断所述原始语音是否包含隐写数据进一步包括:
利用全连接方式对所述特征进行分类,输出公式为:
其中,oi表示全连接层学习到的权值,vi表示之前卷积拼接得到的特征值,bi表示全连接层的线性偏置。
6.根据权利要求5所述的基于层次注意力网络模型的语音流隐写分析方法,其特征在于,还包括:
检测结果为:
其中,X表示为检测模型输出标签,stego speech表示隐写语音标签,cover speech表示为正常语音标签,y表示为检测模型输出属于隐写语音标签的概率,threshold表示为判断模型标签的概率阈值。
7.一种基于层次注意力网络模型的语音流隐写分析系统,其特征在于,包括:
采集模块,用于采集网络上的语音流,以将所述语音流作为训练数据,其中,所述训练数据中包含原始语音流片段以及嵌入秘密信息的语音流片段,原始数据类被标记为无隐写数据,嵌入信息的数据类被标记为有隐写数据;
学习模块,用于将所述训练数据在层次注意力网络模型上进行学习,以获得训练后的语音流隐写分析模型;以及
检测模块,用于通过滑动窗口方法获得语音载荷经过压缩量化之后的量化系数向量,并在所述层次注意力网络模型上对所述量化系数向量矩阵进行检测,以确定待检测的量化系数向量是否经过隐写之后的语音得到,其中,若是,则确定原始语音流为隐写语音流。
8.根据权利要求7所述的基于层次注意力网络模型的语音流隐写分析系统,其特征在于,所述学习模块进一步用于:
获取单元,用于使用滑动窗口获取网络语音流当中的语音载荷数据;
判断单元,用于使用堆叠的卷积模块对原始语音进行层次化建模,使用注意力机制对各层次卷积抽取出的特征进行选择,并且使用分类器判断所述原始语音是否包含隐写数据。
9.根据权利要求8所述的基于层次注意力网络模型的语音流隐写分析系统,其特征在于,所述卷积模块包括卷积层、批归一化层和激活函数层,其中,所述卷积层包含多个同样的卷积核,对每一个所述滑动窗口,每个所述卷积核产生一个特征图。
10.根据权利要求8所述的基于层次注意力网络模型的语音流隐写分析系统,其特征在于,在所述注意力机制中,每一个特征图对应各自的注意力权值,公式为:
mi=tanh(gi)
其中,gi表示为经过卷积之后某一维度的向量值,该向量首先经过一个非线性函数,tanh得到mi,对之前得到的mi进行线性变换并归一化之后得到此前卷积向量gi的注意力权值,在线性变化当中,mi和bi为检测模型在训练时进行学习更新的参数,mi为线性系数,bi为线性偏置。
CN201910073812.1A 2019-01-25 2019-01-25 基于层次注意力网络模型的语音流隐写分析方法及系统 Active CN109817233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910073812.1A CN109817233B (zh) 2019-01-25 2019-01-25 基于层次注意力网络模型的语音流隐写分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910073812.1A CN109817233B (zh) 2019-01-25 2019-01-25 基于层次注意力网络模型的语音流隐写分析方法及系统

Publications (2)

Publication Number Publication Date
CN109817233A true CN109817233A (zh) 2019-05-28
CN109817233B CN109817233B (zh) 2020-12-01

Family

ID=66605040

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910073812.1A Active CN109817233B (zh) 2019-01-25 2019-01-25 基于层次注意力网络模型的语音流隐写分析方法及系统

Country Status (1)

Country Link
CN (1) CN109817233B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390941A (zh) * 2019-07-01 2019-10-29 清华大学 基于系数相关模型的mp3音频隐写分析方法及装置
CN110428846A (zh) * 2019-07-08 2019-11-08 清华大学 基于双向循环神经网络的网络语音流隐写分析方法及装置
CN110827806A (zh) * 2019-10-17 2020-02-21 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN110929842A (zh) * 2019-10-15 2020-03-27 中国人民解放军国防科技大学 非合作无线电信号突发时间区域精确智能检测方法
CN110968845A (zh) * 2019-11-19 2020-04-07 天津大学 基于卷积神经网络生成的针对lsb隐写的检测方法
CN111859897A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于动态路由胶囊网络的文本隐写分析方法
CN112862655A (zh) * 2021-03-08 2021-05-28 中山大学 一种基于通道空间注意力机制的jpeg图像隐写分析方法
CN113111200A (zh) * 2021-04-09 2021-07-13 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质
CN113111200B (zh) * 2021-04-09 2024-05-24 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494051A (zh) * 2008-01-23 2009-07-29 武汉大学 一种针对时域音频lsb隐写的检测方法
CN102097098A (zh) * 2011-02-25 2011-06-15 宁波大学 一种以压缩音频为掩蔽载体的数字隐写及提取方法
US20140025952A1 (en) * 2012-07-20 2014-01-23 Protected Mobility, Llc Hiding ciphertext using a linguistics algorithm with dictionaries
CN104681031A (zh) * 2014-12-08 2015-06-03 华侨大学 一种基于比特组合的低速率语音最低有效位隐写检测方法
CN107610711A (zh) * 2017-08-29 2018-01-19 中国民航大学 基于量化索引调制qim的g.723.1语音信息隐写分析方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101494051A (zh) * 2008-01-23 2009-07-29 武汉大学 一种针对时域音频lsb隐写的检测方法
CN102097098A (zh) * 2011-02-25 2011-06-15 宁波大学 一种以压缩音频为掩蔽载体的数字隐写及提取方法
US20140025952A1 (en) * 2012-07-20 2014-01-23 Protected Mobility, Llc Hiding ciphertext using a linguistics algorithm with dictionaries
CN104681031A (zh) * 2014-12-08 2015-06-03 华侨大学 一种基于比特组合的低速率语音最低有效位隐写检测方法
CN107610711A (zh) * 2017-08-29 2018-01-19 中国民航大学 基于量化索引调制qim的g.723.1语音信息隐写分析方法
CN108010514A (zh) * 2017-11-20 2018-05-08 四川大学 一种基于深度神经网络的语音分类方法
CN108460089A (zh) * 2018-01-23 2018-08-28 哈尔滨理工大学 基于Attention神经网络的多元特征融合中文文本分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZINAN LIN ET AL.: "RNN-SM: Fast Steganalysis of VoIP Streams Using Recurrent Neural Network", 《 IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110390941A (zh) * 2019-07-01 2019-10-29 清华大学 基于系数相关模型的mp3音频隐写分析方法及装置
CN110428846A (zh) * 2019-07-08 2019-11-08 清华大学 基于双向循环神经网络的网络语音流隐写分析方法及装置
CN110929842A (zh) * 2019-10-15 2020-03-27 中国人民解放军国防科技大学 非合作无线电信号突发时间区域精确智能检测方法
CN110929842B (zh) * 2019-10-15 2023-06-20 中国人民解放军国防科技大学 非合作无线电信号突发时间区域精确智能检测方法
CN111859897A (zh) * 2019-10-16 2020-10-30 沈阳工业大学 基于动态路由胶囊网络的文本隐写分析方法
CN110827806A (zh) * 2019-10-17 2020-02-21 清华大学深圳国际研究生院 一种语音关键词检测方法及系统
CN110968845A (zh) * 2019-11-19 2020-04-07 天津大学 基于卷积神经网络生成的针对lsb隐写的检测方法
CN110968845B (zh) * 2019-11-19 2023-10-27 天津大学 基于卷积神经网络生成的针对lsb隐写的检测方法
CN112862655A (zh) * 2021-03-08 2021-05-28 中山大学 一种基于通道空间注意力机制的jpeg图像隐写分析方法
CN112862655B (zh) * 2021-03-08 2024-04-05 中山大学 一种基于通道空间注意力机制的jpeg图像隐写分析方法
CN113111200A (zh) * 2021-04-09 2021-07-13 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质
CN113111200B (zh) * 2021-04-09 2024-05-24 百度在线网络技术(北京)有限公司 审核图片文件的方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN109817233B (zh) 2020-12-01

Similar Documents

Publication Publication Date Title
CN109817233A (zh) 基于层次注意力网络模型的语音流隐写分析方法及系统
Schönherr et al. Adversarial attacks against automatic speech recognition systems via psychoacoustic hiding
Camastra et al. Machine learning for audio, image and video analysis: theory and applications
CN108648746A (zh) 一种基于多模态特征融合的开放域视频自然语言描述生成方法
CN105681920A (zh) 一种具有语音识别功能的网络教学方法及系统
CN109524014A (zh) 一种基于深度卷积神经网络的声纹识别分析方法
US20220059077A1 (en) Training speech recognition systems using word sequences
US20220059075A1 (en) Word replacement in transcriptions
CN109192216A (zh) 一种声纹识别用训练数据集仿真获取方法及其获取装置
CN112837669B (zh) 语音合成方法、装置及服务器
Alexander Forensic automatic speaker recognition using Bayesian interpretation and statistical compensation for mismatched conditions
Yang et al. Steganalysis of VoIP streams with CNN-LSTM network
Kheddar et al. High capacity speech steganography for the G723. 1 coder based on quantised line spectral pairs interpolation and CNN auto-encoding
CN114328817A (zh) 一种文本处理方法和装置
CN115171731A (zh) 一种情绪类别确定方法、装置、设备及可读存储介质
CN110428846A (zh) 基于双向循环神经网络的网络语音流隐写分析方法及装置
CN113571048B (zh) 一种音频数据检测方法、装置、设备及可读存储介质
CN112489651B (zh) 语音识别方法和电子设备、存储装置
CN113823303A (zh) 音频降噪方法、装置及计算机可读存储介质
Wu et al. Adaptive speech information hiding method based on K-means
CN110390941A (zh) 基于系数相关模型的mp3音频隐写分析方法及装置
Drgas et al. Speaker recognition based on multilevel speech signal analysis on Polish corpus
Wei et al. Frame-level steganalysis of QIM steganography in compressed speech based on multi-dimensional perspective of codeword correlations
CN115273856A (zh) 语音识别方法、装置、电子设备及存储介质
CN110958417B (zh) 一种基于语音线索的视频通话类视频去除压缩噪声的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant