CN114242084A - 基于分层的低比特率语音流大容量隐写方法和系统 - Google Patents
基于分层的低比特率语音流大容量隐写方法和系统 Download PDFInfo
- Publication number
- CN114242084A CN114242084A CN202111339049.6A CN202111339049A CN114242084A CN 114242084 A CN114242084 A CN 114242084A CN 202111339049 A CN202111339049 A CN 202111339049A CN 114242084 A CN114242084 A CN 114242084A
- Authority
- CN
- China
- Prior art keywords
- layer
- embedding
- steganography
- bit
- embedded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 121
- 238000013139 quantization Methods 0.000 claims description 21
- 238000013507 mapping Methods 0.000 claims description 15
- 230000000739 chaotic effect Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000001965 increasing effect Effects 0.000 claims description 6
- 238000001514 detection method Methods 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013441 quality evaluation Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明提供一种基于分层的低比特率语音流大容量隐写方法、系统、存储介质和电子设备,涉及数字隐写技术领域。本发明按照iLBC编码比特流结构中敏感比特位的分级信息,将当前帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;提出的隐写位置分层方法,在iLBC编码比特流结构中按照嵌入容量和层次的优先级依次进行隐写,以尽可能的降低失真;对于不能嵌满的层,随机确定嵌入位置,以提升隐写的随机性和安全性。
Description
技术领域
本发明涉及数字隐写技术领域,具体涉及一种基于分层的低比特 率语音流大容量隐写方法、系统、存储介质和电子设备。
背景技术
音频隐写是利用人的听觉冗余和音频载体的统计冗余,在不损坏 音频质量的前提下,将秘密信息嵌入到音频载体中。其中,基于语音增 强、丢包补偿等技术的互联网低比特率编解码器 (Internet low bit rate codec,iLBC)在丢包率较高的网络环境下仍具有很好的语音质量,使得面向iLBC语音流的隐写成为近年来信息隐藏 领域的一个研究热点。
iLBC编码比特流结构包括:在iLBC编码过程中,首先进行线性预 测系数(linearpredictive coefficient,LPC)分析,得到的LPC系数对 每一语音的子帧计算残差值,除开始状态之外的其余5个子帧采用基 于动态码本搜索的矢量量化方法进行编码。矢量量化的每个阶段,在众 多的码本中搜索与感知加权矢量最匹配的矢量后再计算相应的增益值 并对其量化。
已有研究大多集中于iLBC中的线性频谱频率系数矢量量化过程、 动态码本搜索过程或增益量化过程,虽然具有较好的不可感知性,但通 常是以牺牲隐写容量为代价,而且难以抵抗基于深度学习的隐写分析 技术的检测。鉴于此,如何在隐写容量、不可感知性和抗检测性之间达 到一个理想的均衡,是iLBC音频隐写面临的一个难点问题。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种基于分层的低比特率语 音流大容量隐写方法、系统、存储介质和电子设备,解决了现有iLBC音 频隐写术无法在隐写容量、不可感知性和抗检测性之间达到理想均衡 的技术问题。
(二)技术方案
为实现以上目的,本发明通过以下技术方案予以实现:
一种基于分层的低比特率语音流大容量隐写方法,包括:
S1、获取iLBC语音流和秘密信息;
S2、计算每帧iLBC语音流平均需要嵌入的秘密信息的比特数,并 与提前设定的比特阈值30比较大小;当计算所得的比特数小于等于30, 则转入S3;
S3、按照iLBC编码比特流结构中敏感比特位的分级信息,将当前 帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要 嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满 嵌层对应需要嵌入的秘密信息随机选择嵌入位置;
S4、将当前帧数加一,重复S3,直到所有帧嵌入完成,完成所述 秘密信息的嵌入过程。
优选的,所述S3具体包括:
按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化 阶段的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和 第三阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次;
定义每帧嵌入比特数为n,若如果0<n<15,第一层不能嵌满, 则在第一层随机嵌入;如果15≤n<25,首先把第一层嵌满,再在第 二层随机嵌入(n-15)bits;如果25≤n<30,在第一、二层全部嵌入, 在第三层随机嵌入(n-25)bits;如果n=30,则三层刚好全部嵌满。
优选的,所述S2还包括,
若计算所得的比特数大于30,则通过增加所述iLBC语音流帧数满 足大小关系,转入S3。
优选的,所述S3中采用Logistic混沌映射方法为所述未满嵌层对 应需要嵌入的秘密信息随机选择嵌入位置
优选的,所述Logistic映射方法具体包括:
1)为所述未满嵌层的L个嵌入位置设置隐写标签tag(j),j= 0,1,…,L-1,并初始化为0;
2)Logistic混沌映射公式:Xm+1=μ×Xm×(1-Xm)
其中,m表示计算混沌随机数的次数;μ表示Logistic参数;Xm表 示第m次计算获取的混沌随机数;当μ∈(3.6,4)、X0∈(0,1)时,Logistic 映射工作于混沌状态;
根据Xm-1和μ,基于上述公式得到随机小数Xm,将Xm乘以1000并 取整,得到随机整数X′m;
将X′m对未满层的隐写总比特数取余,获得该未满层的隐写位置索 引j,即j=X′mmod L;
3)如果tag(j)=0,则在该未满层的隐写位置索引j处隐写,并赋 值tag(j)←1;否则m=m+1,转2);
4)继续上述过程,直到找到k个隐写位置为止,k表示所述未满嵌 层对应需要嵌入的秘密信息的比特数,且k<L。
一种基于分层的低比特率语音流大容量隐写系统,包括:
获取模块,用于执行S1、获取iLBC语音流和秘密信息;
计算模块,用于执行S2、计算每帧iLBC语音流平均需要嵌入的秘 密信息的比特数,并与提前设定的比特阈值30比较大小;当计算所得 的比特数小于等于30,则转入嵌入模块执行S3;
嵌入模块,用于执行S3、按照iLBC编码比特流结构中敏感比特位 的分级信息,将当前帧的隐写位置分为第一层、第二层和第三层,并将 所述当前帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未 满嵌层,并为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位 置;
完成模块,用于执行S4、将当前帧数加一,转入嵌入模块重复执 行S3,直到所有帧嵌入完成,完成所述秘密信息的嵌入过程。
优选的,所述嵌入模块,用于执行S3具体包括:
按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化 阶段的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和 第三阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次;
定义每帧嵌入比特数为n,若如果0<n<15,第一层不能嵌满, 则在第一层随机嵌入;如果15≤n<25,首先把第一层嵌满,再在第 二层随机嵌入(n-15)bits;如果25≤n<30,在第一、二层全部嵌入, 在第三层随机嵌入(n-25)bits;如果n=30,则三层刚好全部嵌满。
优选的,所述计算模块,用于执行S2还包括,
若计算所得的比特数大于30,则通过增加所述iLBC语音流帧数满 足大小关系,转入嵌入模块执行S3。
一种存储介质,其特征在于,其存储有用于基于分层的低比特率语 音流大容量隐写的计算机程序,其中,所述计算机程序使得计算机执行 如上所述的基于分层的低比特率语音流大容量隐写方法。
一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器 中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执 行如上所述的基于分层的低比特率语音流大容量隐写方法。
(三)有益效果
本发明提供了一种基于分层的低比特率语音流大容量隐写方法、 系统、存储介质和电子设备。与现有技术相比,具备以下有益效果:
本发明按照iLBC编码比特流结构中敏感比特位的分级信息,将当 前帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需 要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未 满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;提出的隐写位置 分层方法,在iLBC编码比特流结构中按照嵌入容量和层次的优先级依次进行隐写,以尽可能的降低失真;对于不能嵌满的层,随机确定嵌入 位置,以提升隐写的随机性和安全性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面 将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而 易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普 通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图 获得其他的附图。
图1为本发明实施例提供的一种基于分层的低比特率语音流大容 量隐写方法的流程示意图;
图2为本发明实施例提供的iLBC编码过程与隐写位置分布的关系 示意图;
图3为本发明实施例提供的不同时长下不同隐写位置的不可感知 性结果(MCD均值);
图4为本发明实施例提供的不同时长下不同隐写位置的不可感知 性结果(PESQ-MOS均值);
图5为本发明实施例提供的iLBC隐写位置的分层模型;
图6为本发明实施例提供的iLBC语音分层隐写方案;
图7为本发明实施例提供的不同隐写方法在2s语音、30ms帧下 的不可感知性结果(中文语音);
图8为本发明实施例提供的不同隐写方法在2s语音、30ms帧下 的不可感知性结果(英文语音);
图9为本发明实施例提供的不同隐写方法在5s语音、30ms帧下 的不可感知性结果(中文语音);
图10为本发明实施例提供的不同隐写方法在5s语音、30ms帧下 的不可感知性结果(英文语音);
图11为本发明实施例提供的不同隐写方法在10s语音、30ms帧下 的不可感知性结果(中文语音);
图12为本发明实施例提供的不同隐写方法在10s语音、30ms帧 下的不可感知性结果(英文语音);
图13为本发明实施例提供的不同隐写方法在2s语音、20ms帧下 的不可感知性结果(中文语音);
图14为本发明实施例提供的不同隐写方法在2s语音、20ms帧下 的不可感知性结果(英文语音);
图15为本发明实施例提供的不同隐写方法在5s语音、20ms帧下 的不可感知性结果(中文语音);
图16为本发明实施例提供的不同隐写方法在5s语音、20ms帧下 的不可感知性结果(英文语音);
图17为本发明实施例提供的不同隐写方法在10s语音、20ms帧 下的不可感知性结果(中文语音);
图18为本发明实施例提供的不同隐写方法在10s语音、20ms帧 下的不可感知性结果(英文语音);
图19为本发明实施例提供的不同隐写方在SpecResNet分析器上 的检测结果(中文语音);
图20为本发明实施例提供的不同隐写方在SpecResNet分析器上 的检测结果(英文语音);
图21为本发明实施例提供的一种基于分层的低比特率语音流大容 量隐写系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,对本发明实 施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本 发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本 领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。
本申请实施例通过提供一种基于分层的低比特率语音流大容量隐 写方法、系统、存储介质和电子设备,解决了现有iLBC音频隐写术无法 在隐写容量、不可感知性和抗检测性之间达到理想均衡的技术问题。
本申请实施例中的技术方案为解决上述技术问题,总体思路如下:
本发明实施例按照iLBC编码比特流结构中敏感比特位的分级信息, 将当前帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对 应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所 述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;提出的隐写 位置分层方法,在iLBC编码比特流结构中按照嵌入容量和层次的优先级依次进行隐写,以尽可能的降低失真;对于不能嵌满的层,随机确定 嵌入位置,以提升隐写的随机性和安全性。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体 的实施方式对上述技术方案进行详细的说明。
实施例1:
第一方面,如图1所示,本发明实施例提供了一种基于分层的低 比特率语音流大容量隐写方法,包括:
S1、获取iLBC语音流和秘密信息;
S2、计算每帧iLBC语音流平均需要嵌入的秘密信息的比特数,并 与提前设定的比特阈值30比较大小;当计算所得的比特数小于等于30, 则转入S3;
S3、按照iLBC编码比特流结构中敏感比特位的分级信息,将当前 帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要 嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满 嵌层对应需要嵌入的秘密信息随机选择嵌入位置;
S4、将当前帧数加一,重复S3,直到所有帧嵌入完成,完成所述 秘密信息的嵌入过程。
本发明实施例提出的隐写位置分层方法,在iLBC编码比特流结构 中按照嵌入容量和层次的优先级依次进行隐写,以尽可能的降低失真; 对于不能嵌满的层,随机确定嵌入位置,以提升隐写的随机性和安全性。
下面将结合具体的内容详细介绍上述技术方案的各个步骤:
S1、获取iLBC语音流S帧,以及秘密信息M比特。
S2、计算每帧iLBC语音流平均需要嵌入的秘密信息的比特数,并 与提前设定的比特阈值30比较大小;当计算所得的比特数小于等于30, 则转入S3;若计算所得的比特数大于30,则通过增加所述iLBC语音流 帧数满足大小关系,转入S3。
基于发明实施例所提出的隐写方法,每个iLBC帧可隐写的最大比 特数为30位。当给定隐写比特数1≤n≤30时,应尽可能的把秘密信 息隐写在对语音影响较小的位置,最大程度降低隐写带来的失真,以保 证隐写音频具有最佳的不可感知性。
S3、按照iLBC编码比特流结构中敏感比特位的分级信息,将当前 帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要 嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满 嵌层对应需要嵌入的秘密信息随机选择嵌入位置。
现有技术中iLBC编码支持20ms和30ms两种帧长度编码,以30ms 帧为例,如图2所示,在LSF系数矢量量化阶段,在两个阶段的量化 过程中均能嵌入3比特,分别记为LQ_1和LQ_2;在动态码本搜索过 程,除开始状态之外的剩余5个矢量分别进行3阶段的搜索,每个阶 段可以嵌入5比特,分别记为BS_1、BS_2和BS_3;在增益量化过程, 同样需要对5个矢量分别进行3阶段的增益系数量化,每个阶段可以 嵌入5比特,分别记为GQ_1、GQ_2和GQ_3。
为了分析不同隐写位置对语音不可感知性的影响,本发明实施例 以语音主观质量评估PESQ-MOS(perceptual evaluation of speech quality- mean opinion score)和平均倒谱失真MCD(Mel-cepstral distortion)为 评价指标,在时长为2s、5s和10s的语音上进行测试,每种时长的语 音均有440条。其中,PESQ-MOS值是采用ITU-TP.862标准给出的一 种客观MOS语音质量评价方法,是目前与主观语音评价质量相关度最 高的方法,取值范围在1.0~4.5之间。PESQ-MOS值越大,表明隐写语 音的失真越小,不可感知性越好。MCD是在语音数据失真测度基础上, 利用距离准则来测量隐写前后语音的相似程度:
对每种时长下的440条语音进行测试,分别求MCD和PESQ-MOS 的平均值,实验结果如图3~4所示,从图中可以看出,随着音频时长 的增加,不可感知性越来越好。
但综合看来,GQ_1、GQ_2和GQ_3对隐写最不敏感,BS_3和 BS_2稍有下降,BS_3敏感性适中,而LQ_1和LQ_2位置对隐写非常 敏感。
本发明实施例分析当前iLBC编码器的QIM隐写位置分布,提出 对比分析各个不同编码阶段的隐写效果,以语音主观质量评估PESQ- MOS(perceptual evaluation ofspeech quality-mean opinion score)和平均 倒谱失真MCD(Mel-cepstral distortion)为评价指标进行测试,并且根 据语音质量进行分层。
通过对上述iLBC编码比特流结构的分析,可以确定LSF系数占据 大量最敏感的比特位,而矢量量化模块中的增益量化参数占据敏感比 特位的数量远少于LSF系数。而编码参数占据敏感比特位的数量越少, 则表明对该参数进行修改导致的失真影响也越小。
基于此,如图5所示,对于30ms的iLBC语音帧,本发明实施例 按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化阶段 的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和第三 阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次。
图5中,每一行表示一种隐写位置,每一列VQi表示一个矢量量 化所经历的编码过程,每个隐写位置的数字表示该位置在iLBC编码过 程中的先后顺序,不同深浅的颜色代表隐写位置的不同层次,颜色越浅, 不可感知性越好,颜色越深则不可感知越低。
定义每帧嵌入比特数为n,如图6所示,若如果0<n<15,第一 层不能嵌满,则在第一层随机嵌入;如果15≤n<25,首先把第一层 嵌满,再在第二层随机嵌入(n-15)bits;如果25≤n<30,在第一、 二层全部嵌入,在第三层随机嵌入(n-25)bits;如果n=30,则三层刚 好全部嵌满。例如,当n=18,首先在第一层GQ_1、GQ_2和GQ_3 位置上嵌满15bits,此时第一层称为满嵌层;剩余3bits嵌入在第二层 BS_2和BS_3中,由于第二层共有10个嵌入位置,不需要嵌满,此时 称第二层为未满嵌层。
特别的,所述S3中采用Logistic混沌映射方法为所述未满嵌层对 应需要嵌入的秘密信息随机选择嵌入位置;所述Logistic映射方法具体 包括:
1)为所述未满嵌层的L个嵌入位置设置隐写标签tag(j),j= 0,1,…,L-1,并初始化为0;
2)Logistic混沌映射公式:Xm+1=μ×Xm×(1-Xm)
其中,m表示计算混沌随机数的次数;μ表示Logistic参数;Xm表 示第m次计算获取的混沌随机数;当μ∈(3.6,4)、X0∈(0,1)时,Logistic 映射工作于混沌状态;
根据Xm-1和μ,基于上述公式得到随机小数Xm,将Xm乘以1000并 取整,得到随机整数X′m;
将X′m对未满层的隐写总比特数取余,获得该未满层的隐写位置索 引j,即j=X′mmod L;
3)如果tag(j)=0,则在该未满层的隐写位置索引j处隐写,并赋 值tag(j)←1;否则m=m+1,转2);
4)继续上述过程,直到找到k个隐写位置为止,k表示所述未满嵌 层对应需要嵌入的秘密信息的比特数,且k<L。
以n=18为例,第二层为未满层,可能隐写的位置共有10个,需 要从中确定3个位置进行隐写。假设X0=0.52,μ=3.9,在此帧之前 已经计算混沌随机数49次,且X49=0.437,根据Logistic混沌映射公 式,可得X50=0.959,X51=0.15,X52=0.498,由此可得嵌入位置9、 0和8,对应图5中的29、3和23三个位置。
本发明实施例将分层之后的语音隐写分为满嵌层和未满嵌层,在 未满嵌的层提出一种混沌映射方法随机选择隐写的位置,增强秘密信 息的安全性。
为了验证本发明实施例提供的大容量iLBC语音分层隐写方法HS (hierarchicalsteganography)的有效性,以下将从隐写容量、不可感知 性和抗隐写分析三个方面与已有的QIMC方法、FCB方法和GQS三个 方法进行对比实验。
此外,为了对比的充分性,本发明实施例考虑30ms和20ms两种 帧长,以及2s、5s和10s三种不同的样本长度,每种情况下的语音各 440条,共5280条。
所有对比方法的代码均基于C++编写,并在Intel(R)Core(TM)i5- 8500CPU@3.00GHz、RAM 16.0GB、Windows 10操作系统的个人PC 上进行测试。
(1)隐写容量分析
以30ms帧为例,LSF系数量化有6次码本搜索,使得QIMC方法 最多可以隐藏6bits;动态码本搜索有15次码本搜索,FCB最多可以隐 藏15bits;GQS在增益量化的后两个阶段嵌入,最多可隐写10bits;本 发明实施例提供的HS方法将上述方法进行融合,最多可以隐写30bits。
表1给出了不同隐写方法在30ms和20ms帧格式下每帧可隐写的 最大比特数。
表1
从表中可以看出,HS方法显著提高了隐写容量,在30ms帧和20ms 帧上均提升了1倍。
(2)不可感知性测试
根据每种情况下的440条语音进行不可感知性测试,并计算PESQ- MOS和MCD的均值。
如图7~12所示,给出了四种隐写方法在30ms帧长、不同语言(中 文和英文语音)、不同时长(2s、5s或者10s)、不同嵌入量下的不可感 知性测试结果。
从图7~12中可以看出,当本发明实施例提供的HS方法每帧嵌入 约23bits的秘密信息时,其不可感知性几乎可以接近QIMC方法嵌入 2bits时的性能,而隐写容量提升了10多倍。当HS方法每帧嵌入30bits 时,其不可感知性与FCB最大隐写时的性能相差无几,而隐写容量提 升了1倍;当HS方法每帧嵌入15bits时,其不可感知性接近GQS最 大隐写时的性能,而隐写容量提升了50%。
如图13~18所示,给出了四种隐写方法在20ms帧长、不同语言 (中文和英文语音)、不同时长(2s、5s或者10s)、不同嵌入量下的不 可感知性结果。
从图13~18中可以看出,当本发明实施例提供的HS方法每帧嵌 入16bits的秘密信息时,其不可感知性接近QIMC方法隐写2bits时的 性能,而隐写容量提升了7倍。当HS方法每帧嵌入18bits时,其不可 感知性与FCB最大隐写时的性能相差无几,而隐写容量提升了1倍; 当HS方法每帧嵌入9bits时,其不可感知性接近GQS最大隐写时的性 能,而隐写容量提升了50%。
上述对比实验结果表明,与QIMC、FCB和GQS方法相比,本发 明实施例提供的HS方法在显著提升隐写容量的情况下,仍保持了较好 的不可感知性,并没有因为写入额外秘密信息而导致音频过度失真。
(3)抗检测性测试
为了检验本发明实施例提供的HS方法抵抗隐写分析的能力,此处 基于最新的深度学习隐写分析器SpecResNet进行测试。
为了对比的充分性,数据集考虑了中、英两种语言、30ms和20ms 两种帧长,以及2s、5s和10s三种不同样本长度。在每种情况下,均 包含4000条原始语音和4000条隐写后的语音,其中75%作为训练集, 25%作为测试集。
如图19~20所示,给出了四种隐写方法在SpecResNet分析器上的 检测结果。可以看到:
对于QIMC方法,在写入2bits时同样容易被SpecResNet分析器 检测出来。
GQS在30ms帧和20ms帧上均具有很好的抗检测性。
当隐写容量小于等于2bits时,FCB在30ms帧和20ms帧上均具 有较好的抗检测性,当隐写容量超过2bits时,FCB在SpecResNet上 的检测准确率达到80%以上,难以抵抗SpecResNet分析器的检测。
对于HS方法,在30ms帧上,当每帧隐写比特数小于等于18时, HS具有很好的抗检测性能;在20ms帧上,HS在0~12比特范围内呈 现出较好的抗检测性;但随着隐写容量的增加,HS的抗检测性能降低, 因为嵌入比特数过多可能会影响iLBC码流的总体特征。
需要注意的是,SpecResNet给出的准确率是所有样本在二分类时 取模型预测(正或者负)正确的概率值计算平均值所得的数据。
总之,根据隐写分析器的检测,QIMC几乎无法抵抗;GQS在30ms 帧上10bits以内、20ms帧上6bits以内可以很好的抵抗;FCB在2bits 以内可以很好的抵抗;本发明实施例提供的HS方法在30ms帧上18bits 以内、20ms帧上12bits以内可以很好的抵抗。这表明,HS方法在进一 步提升隐写容量的基础上,保持了较好的抗检测性。
第二方面,如图21所示,本发明实施例提供了一种基于分层的低 比特率语音流大容量隐写系统,包括:
获取模块,用于执行S1、获取iLBC语音流和秘密信息;
计算模块,用于执行S2、计算每帧iLBC语音流平均需要嵌入的秘 密信息的比特数,并与提前设定的比特阈值30比较大小;当计算所得 的比特数小于等于30,则转入嵌入模块执行S3;
嵌入模块,用于执行S3、按照iLBC编码比特流结构中敏感比特位 的分级信息,将当前帧的隐写位置分为第一层、第二层和第三层,并将 所述当前帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未 满嵌层,并为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位 置;
完成模块,用于执行S4、将当前帧数加一,转入嵌入模块重复执 行S3,直到所有帧嵌入完成,完成所述秘密信息的嵌入过程。
所述嵌入模块,用于执行S3具体包括:
按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化 阶段的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和 第三阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次;
定义每帧嵌入比特数为n,若如果0<n<15,第一层不能嵌满, 则在第一层随机嵌入;如果15≤n<25,首先把第一层嵌满,再在第 二层随机嵌入(n-15)bits;如果25≤n<30,在第一、二层全部嵌入, 在第三层随机嵌入(n-25)bits;如果n=30,则三层刚好全部嵌满。
所述计算模块,用于执行S2还包括,
若计算所得的比特数大于30,则通过增加所述iLBC语音流帧数满 足大小关系,转入嵌入模块执行S3。
第三方面,本发明实施例提供了一种存储介质,其存储有用于基于 分层的低比特率语音流大容量隐写的计算机程序,其中,所述计算机程 序使得计算机执行如上所述的基于分层的低比特率语音流大容量隐写 方法。
第四方面,本发明实施例提供了一种电子设备,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器 中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执 行如上所述的基于分层的低比特率语音流大容量隐写方法。
可理解的是,本发明实施例提供的基于分层的低比特率语音流大 容量隐写系统、存储介质和电子设备与本发明实施例提供的基于区块 链的基于分层的低比特率语音流大容量隐写方法相对应,其有关内容 的解释、举例和有益效果等部分可以参考基于分层的低比特率语音流 大容量隐写方法中的相应部分,此处不再赘述。
综上所述,与现有技术相比,具备以下有益效果:
1、本发明实施例按照iLBC编码比特流结构中敏感比特位的分级信 息,将当前帧的隐写位置分为第一层、第二层和第三层,并将所述当前 帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并 为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;提出的 隐写位置分层方法,在iLBC编码比特流结构中按照嵌入容量和层次的优先级依次进行隐写,以尽可能的降低失真;对于不能嵌满的层,随机 确定嵌入位置,以提升隐写的随机性和安全性。
2、本发明实施例分析当前iLBC编码器的QIM隐写位置分布,提 出对比分析各个不同编码阶段的隐写效果,以语音主观质量评估 PESQ-MOS(perceptual evaluation ofspeech quality-mean opinion score) 和平均倒谱失真MCD(Mel-cepstral distortion)为评价指标进行测试, 并且根据语音质量进行分层。
3、本发明实施例将分层之后的语音隐写分为满嵌层和未满嵌层, 在未满嵌的层提出一种混沌映射方法随机选择隐写的位置,增强秘密 信息的安全性。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅 用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要 求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。 而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包 含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过 程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由 语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方 法、物品或者设备中还存在另外的相同要素。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参 照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应 当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应 技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于分层的低比特率语音流大容量隐写方法,其特征在于,包括:
S1、获取iLBC语音流和秘密信息;
S2、计算每帧iLBC语音流平均需要嵌入的秘密信息的比特数,并与提前设定的比特阈值30比较大小;当计算所得的比特数小于等于30,则转入S3;
S3、按照iLBC编码比特流结构中敏感比特位的分级信息,将当前帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;
S4、将当前帧数加一,重复S3,直到所有帧嵌入完成,完成所述秘密信息的嵌入过程。
2.如权利要求1所述的基于分层的低比特率语音流大容量隐写方法,其特征在于,所述S3具体包括:
按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化阶段的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和第三阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次;
定义每帧嵌入比特数为n,若如果0<n<15,第一层不能嵌满,则在第一层随机嵌入;如果15≤n<25,首先把第一层嵌满,再在第二层随机嵌入(n-15)bits;如果25≤n<30,在第一、二层全部嵌入,在第三层随机嵌入(n-25)bits;如果n=30,则三层刚好全部嵌满。
3.如权利要求1或者2所述的基于分层的低比特率语音流大容量隐写方法,其特征在于,所述S2还包括,
若计算所得的比特数大于30,则通过增加所述iLBC语音流帧数满足大小关系,转入S3。
4.如权利要求3所述的基于分层的低比特率语音流大容量隐写方法,其特征在于,所述S3中采用Logistic混沌映射方法为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置。
5.如权利要求4所述的基于分层的低比特率语音流大容量隐写方法,其特征在于,所述Logistic映射方法具体包括:
1)为所述未满嵌层的L个嵌入位置设置隐写标签tag(j),j=0,1,…,L-1,并初始化为0;
2)Logistic混沌映射公式:Xm+1=μ×Xm×(1-Xm)
其中,m表示计算混沌随机数的次数;μ表示Logistic参数;Xm表示第m次计算获取的混沌随机数;当μ∈(3.6,4)、X0∈(0,1)时,Logistic映射工作于混沌状态;
根据Xm-1和μ,基于上述公式得到随机小数Xm,将Xm乘以1000并取整,得到随机整数X′m;
将X′m对未满层的隐写总比特数取余,获得该未满层的隐写位置索引j,即j=X′m modL;
3)如果tag(j)=0,则在该未满层的隐写位置索引j处隐写,并赋值tag(j)←1;否则m=m+1,转2);
4)继续上述过程,直到找到k个隐写位置为止,k表示所述未满嵌层对应需要嵌入的秘密信息的比特数,且k<L。
6.一种基于分层的低比特率语音流大容量隐写系统,其特征在于,包括:
获取模块,用于执行S1、获取iLBC语音流和秘密信息;
计算模块,用于执行S2、计算每帧iLBC语音流平均需要嵌入的秘密信息的比特数,并与提前设定的比特阈值30比较大小;当计算所得的比特数小于等于30,则转入嵌入模块执行S3;
嵌入模块,用于执行S3、按照iLBC编码比特流结构中敏感比特位的分级信息,将当前帧的隐写位置分为第一层、第二层和第三层,并将所述当前帧对应需要嵌入的秘密信息依次分层嵌入,获取满嵌层和未满嵌层,并为所述未满嵌层对应需要嵌入的秘密信息随机选择嵌入位置;
完成模块,用于执行S4、将当前帧数加一,转入嵌入模块重复执行S3,直到所有帧嵌入完成,完成所述秘密信息的嵌入过程。
7.如权利要求6所述的基于分层的低比特率语音流大容量隐写系统,其特征在于,所述嵌入模块,用于执行S3具体包括:
按照iLBC编码比特流结构中敏感比特位的分级信息,将增益量化阶段的第一、第二和第三阶段作为第一层次;将码本搜索阶段的第二和第三阶段作为第二层次;将码本搜索阶段的第一阶段作为第三层次;
定义每帧嵌入比特数为n,若如果0<n<15,第一层不能嵌满,则在第一层随机嵌入;如果15≤n<25,首先把第一层嵌满,再在第二层随机嵌入(n-15)bits;如果25≤n<30,在第一、二层全部嵌入,在第三层随机嵌入(n-25)bits;如果n=30,则三层刚好全部嵌满。
8.如权利要求6或者7所述的基于分层的低比特率语音流大容量隐写系统,其特征在于,所述计算模块,用于执行S2还包括,
若计算所得的比特数大于30,则通过增加所述iLBC语音流帧数满足大小关系,转入嵌入模块执行S3。
9.一种存储介质,其特征在于,其存储有用于基于分层的低比特率语音流大容量隐写的计算机程序,其中,所述计算机程序使得计算机执行如权利要求1~7任一项所述的基于分层的低比特率语音流大容量隐写方法。
10.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器;以及
一个或多个程序,其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行如权利要求1~7任一项所述的基于分层的低比特率语音流大容量隐写方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111339049.6A CN114242084B (zh) | 2021-11-12 | 2021-11-12 | 基于分层的低比特率语音流大容量隐写方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111339049.6A CN114242084B (zh) | 2021-11-12 | 2021-11-12 | 基于分层的低比特率语音流大容量隐写方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114242084A true CN114242084A (zh) | 2022-03-25 |
CN114242084B CN114242084B (zh) | 2023-03-10 |
Family
ID=80749248
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111339049.6A Active CN114242084B (zh) | 2021-11-12 | 2021-11-12 | 基于分层的低比特率语音流大容量隐写方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114242084B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1030290A2 (de) * | 1999-02-17 | 2000-08-23 | Frank Kurth | Verfahren zum unbemerkten übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals |
US7555432B1 (en) * | 2005-02-10 | 2009-06-30 | Purdue Research Foundation | Audio steganography method and apparatus using cepstrum modification |
CN102063907A (zh) * | 2010-10-12 | 2011-05-18 | 武汉大学 | 一种针对音频扩频隐写的隐写分析方法 |
CN110097887A (zh) * | 2019-04-28 | 2019-08-06 | 武汉大学 | 一种基于lsf系数统计分布特征的silk安全隐写方法 |
-
2021
- 2021-11-12 CN CN202111339049.6A patent/CN114242084B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1030290A2 (de) * | 1999-02-17 | 2000-08-23 | Frank Kurth | Verfahren zum unbemerkten übertragen und/oder Speichern von Zusatzinformationen innerhalb eines Signals, insbesondere Audiosignals |
US7555432B1 (en) * | 2005-02-10 | 2009-06-30 | Purdue Research Foundation | Audio steganography method and apparatus using cepstrum modification |
CN102063907A (zh) * | 2010-10-12 | 2011-05-18 | 武汉大学 | 一种针对音频扩频隐写的隐写分析方法 |
CN110097887A (zh) * | 2019-04-28 | 2019-08-06 | 武汉大学 | 一种基于lsf系数统计分布特征的silk安全隐写方法 |
Non-Patent Citations (2)
Title |
---|
王昱洁等: "一种以AAC压缩音频为载体的隐写方法", 《小型微型计算机系统》 * |
田晖等: "基于可量化性能分级的自适应IP语音隐写方法", 《电子学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114242084B (zh) | 2023-03-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113470662B (zh) | 生成和使用用于关键词检出系统的文本到语音数据和语音识别系统中的说话者适配 | |
Wan et al. | Google's Next-Generation Real-Time Unit-Selection Synthesizer Using Sequence-to-Sequence LSTM-Based Autoencoders. | |
Wright et al. | Uncovering spoken phrases in encrypted voice over IP conversations | |
JP6170172B2 (ja) | 符号化モード決定方法及び該装置、オーディオ符号化方法及び該装置、並びにオーディオ復号化方法及び該装置 | |
CN114023300A (zh) | 一种基于扩散概率模型的中文语音合成方法 | |
CN112786003A (zh) | 语音合成模型训练方法、装置、终端设备及存储介质 | |
KR101862982B1 (ko) | LPC-10e 보코더에서 DNN을 이용한 유무성음 판별 방법 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN112863480B (zh) | 端到端语音合成模型的优化方法及装置,电子设备 | |
CN112767968B (zh) | 基于区分性互补信息的语音客观评价最优特征组筛选方法 | |
CN114242084B (zh) | 基于分层的低比特率语音流大容量隐写方法和系统 | |
Su et al. | A steganographic method based on gain quantization for iLBC speech streams | |
CN117672176A (zh) | 基于语音自监督学习表征的重读可控语音合成方法及装置 | |
US8447594B2 (en) | Multicodebook source-dependent coding and decoding | |
CN112735377A (zh) | 语音合成方法、装置、终端设备及存储介质 | |
Salah-Eddine et al. | Robust coding of wideband speech immittance spectral frequencies | |
CN115985291A (zh) | 语音合成方法、装置、电子设备和存储介质 | |
CN111048065A (zh) | 文本纠错数据生成方法及相关装置 | |
Ren et al. | Silk steganography scheme based on the distribution of lsf parameter | |
CN110085242B (zh) | 一种基于最小失真代价的silk基音域自适应隐写方法 | |
CN1864202A (zh) | 语音识别系统的环境失配的自适应 | |
Li et al. | SANet: A Compressed Speech Encoder and Steganography Algorithm Independent Steganalysis Deep Neural Network | |
CN112634868B (zh) | 一种语音信号处理方法、装置、介质和设备 | |
CN115440234B (zh) | 基于midi和对抗生成网络的音频隐写方法和系统 | |
CN118643806B (zh) | 一种基于大模型的合成数据质量评估方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |