CN110085242B - 一种基于最小失真代价的silk基音域自适应隐写方法 - Google Patents
一种基于最小失真代价的silk基音域自适应隐写方法 Download PDFInfo
- Publication number
- CN110085242B CN110085242B CN201910347884.0A CN201910347884A CN110085242B CN 110085242 B CN110085242 B CN 110085242B CN 201910347884 A CN201910347884 A CN 201910347884A CN 110085242 B CN110085242 B CN 110085242B
- Authority
- CN
- China
- Prior art keywords
- pitch
- lag
- distortion
- frame
- candidate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005516 engineering process Methods 0.000 claims abstract description 7
- 239000011295 pitch Substances 0.000 claims description 136
- 239000013598 vector Substances 0.000 claims description 25
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 8
- 239000000654 additive Substances 0.000 claims description 6
- 230000000996 additive effect Effects 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 5
- 238000005311 autocorrelation function Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 238000012986 modification Methods 0.000 claims description 2
- 230000004048 modification Effects 0.000 claims description 2
- 230000006835 compression Effects 0.000 abstract description 6
- 238000007906 compression Methods 0.000 abstract description 6
- 230000006870 function Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 4
- 108090000623 proteins and genes Proteins 0.000 description 4
- 230000015556 catabolic process Effects 0.000 description 2
- 238000006731 degradation reaction Methods 0.000 description 2
- 210000001260 vocal cord Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/018—Audio watermarking, i.e. embedding inaudible data in the audio signal
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明公开了一种基于最小失真代价的SILK基音域自适应隐写方法,本方法基于SILK语音编码压缩参数中基音周期的预测不准确特性,提出基音周期参数域的隐写算法;基于STC自适应隐写编码框架,以统计安全性和听觉隐蔽性为目标,设计了基于基音周期编码参数与统计分布特性的失真函数,实现了基于最小失真代价的SILK基音域自适应隐写算法。本方法的优势在于首次实现了SILK语音编码载体上的隐写技术,有着良好的隐蔽性和安全性。
Description
技术领域
本发明属于多媒体信息内容安全技术领域,涉及一种SILK基音域自适应隐写方法,特别涉及一种基于最小失真代价的SILK基音域自适应隐写方法。
技术背景
近些年来,随着移动通信技术的迅速发展,网络带宽不断提高,随之而来的是语音通讯和音频会话业务的日趋成熟。互联网中的语音通讯变得越来越普遍,逐渐成为了日常生活中不可或缺的社交手段。语音数据在压缩编码过程中,既要保证语音质量,也要考虑压缩后的网络带宽,这样的需求下,SILK压缩编码得到广泛的应用。
SILK压缩语音编码由Skype公司开发,并被纳入IETF(The Internet EngineeringTask Force)标准。SILK编码采用了码本激励线性预测技术(CELP),结合iLBC与SpeeX编解码器的编码原理,设计了一种在低速率网络环境下编码效率较高的自适应编码技术。相比传统的CELP编码,SILK语音编码有着更低的码率和更高的语音质量,在较低的网络带宽下仍能正常工作。SILK编解码器自身的特性使得其在给定的码率下能够提高语音质量,同时在丢包的情况下仍然能保证音频的正常播放。基于SILK的高编码效率和良好的可拓展性,越来越多的语音通讯业务将SILK作为语音编解码标准。包括QQ、微信、Skype在内的通讯平台都将SILK作为语音载体。SILK的广泛使用,为音频载体上的信息隐藏技术提供了新的应用场景。
SILK压缩语音编码过程中,基音周期参数的编码过程如图1所示:计算基音延迟时,首先将信号降采样到4kHz,采用自相关方法计算当前采样率下的基音周期。因为降采样后的基音预测不一定准确,编码器将会保留若干个候选的基音周期值。如果信号的自相关性过小,当前帧会判定为清音帧,不进行基音周期的编码。若当前帧为浊音帧,将信号降采样到8kHz,同时将4kHz信号中的候选基音值映射到8kHz。编码器遍历所有的候选基音值,对于每一个候选基音,搜索码本中的每一个偏移矢量,找到使当前帧内所有子帧自相关函数之和最大的基音与偏移矢量,从而为每个子帧分配最优的基音延迟。
如果语音信号的采样率高于8kHz,将8kHz下最优的基音延迟映射到当前采样率,作为基音搜索的基准值。类似上一阶段,在基音基准值±2的范围内,遍历每一个基音值和偏移矢量,找到使信号自相关性最强的基音。
基音周期的参数包括两部分:基音延迟与偏移矢量。基音延迟描述了当前帧整体的周期性;而帧内每一子帧的延迟可能与整体的基音延迟存在偏差,因此通过偏移矢量描述这一差值。为了节省码率,编码器用矢量在码本中的索引来表示偏移矢量。每一帧内,各个子帧的基音周期参数如式1所示:其中sub_lagi为每一个子帧的基音延迟,1≤i≤4,lag为帧整体的基音延迟,CB为码本集合,Index(V)为偏移矢量V在码本中的索引。
sub_lagi=lag+CBIndex(V),i (1)
由于浊音帧中,声带的振动是准周期性的,因而很难精确地预测基音延迟值,编码过程中,基音周期参数的计算本来就存在误差。因此在合理的范围内修改SILK语音的基音参数,不会带来语音质量的明显下降。基于这一点,本方法以基音延为嵌入域,实现了SILK基因域的隐写算法。
基于载体内容的自适应隐写技术大多基于最小失真模型。通过衡量原始载体上每个元素的嵌入代价,定义失真函数,达到隐写之后载体失真最小的目的,文献[1]提出的STC编码可有效的使隐写后载体的失真逼近理论下限。本发明通过利用最小失真模型,减少了隐写过程对SILK语音带来的失真影响。
[1]Filler T,Judas J,Fridrich J.Minimizing additive distortion insteganography using syndrome-trellis codes[J].IEEE Transactions onInformation Forensics and Security,2011,6(3):920-935.
发明内容
为了提高隐写算法的隐蔽性与安全性,本发明提供了一种基于最小失真代价的SILK基音域自适应隐写方法。
本发明所采用的技术方案是:一种基于最小失真代价的SILK基音域自适应隐写方法,其特征在于,包括以下步骤:
步骤1:对原始信号进行第一次编码,得到每一浊音帧的偏移矢量v,并对基音搜索最后阶段的所有候选基音cl,计算参数编码失真C(cl,v);并记录原始基音延迟序列Optlag;
步骤2:对原始信号进行第二次编码,对每一个浊音帧的所有候选基音cl,计算每个候选基音在Optlag基础上带来的统计失真Sopt(cl);
步骤3:利用C(cl,v)和Sopt(cl),计算每个浊音帧各个候选基音延迟的失真ρ(cl);
步骤4:利用各个浊音帧基音延迟的失真ρ(cl),计算整个语音信号加性失真函数D(X,Y);利用STC编码,找到使D(X,Y)最小的修改后的基音延迟序列Stelag;
步骤5:对原始信号进行最后一次编码,用Stelag中的基音延迟替换原始基音延迟,完成嵌入。
本发明通过分析SILK语音的编码流程,在基音参数中找到理想的嵌入域。为了提高隐写算法的安全性,本发明基于最小失真自适应隐写框架与STC编码,设计失真函数,实现了基音域的自适应隐写算法。在设计失真函数时,方法同时考虑了修改基音延迟导致的编码参数失真与统计特性失真。本发明提出的方法有着较高的隐蔽性与安全性。
附图说明
图1为背景技术中SILK压缩语音总基因周期参数的编码流程图;
图2为本发明实施例的流程图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不用于限定本发明。
请见图2,本发明提供的一种基于最小失真代价的SILK基音域自适应隐写方法,包括以下步骤:
步骤1:对原始信号进行第一次编码,得到每一浊音帧的偏移矢量v,并对基音搜索最后阶段的所有候选基音cl,依据公式(3)计算参数编码失真C(cl,v);并记录原始基音延迟序列Optlag;
基音周期的参数包括两部分:基音延迟与偏移矢量。基音延迟描述了当前帧整体的周期性;而帧内每一子帧的延迟可能与整体的基音延迟存在偏差,因此通过偏移矢量描述这一差值。为了节省码率,编码器用矢量在码本中的索引来表示偏移矢量。每一帧内,各个子帧的基音周期参数如式1所示:其中sub_lagi为每一个子帧的基音延迟,1≤i≤4,lag为帧整体的基音延迟,CB为码本集合,Index(V)为偏移矢量V在码本中的索引。
sub_lagi=lag+CBIndex(V),i (1)
由于浊音帧中,声带的振动是准周期性的,因而很难精确地预测基音延迟值,编码过程中,基音周期参数的计算本来就存在误差。因此在合理的范围内修改SILK语音的基音参数,不会带来语音质量的明显下降。基于这一点,本方法以基因参数为嵌入域,实现了SILK基因域的隐写算法。
编码器以使当前帧信号互相关性最高为评判标准搜索最优的基音周期与偏移矢量,互相关性的计算如公式2所示,其中1≤i≤4为子帧的序列,SIGi为各子帧的信号,sub_lagi为第i个子帧的基音延迟,根据公式1经由整帧的基音延迟与偏移矢量计算得来,CorrF为自相关函数(自相关函数是包括SILK在内许多语音编码需要用到的函数,用以衡量信号的相关性,计算基音延迟),计算一段信号在特定基音周期下的相关性。
原始编码流程中,最优的基音延迟与偏移矢量会保证式2中的互相关性最大,记帧内信号最大的互相关性为Correlationmax。对于每个候选基音cl,根据式2,计算该候选基音及偏移矢量下的信号互相关性,记作Correlationcl,v。参数编码失真的计算如式3所示:
帧信号的互相关性反映了基音周期编码参数的准确性和重建语音信号的能力。选择不同的候选基音时,帧内信号互相关性越低,编码失真越严重,此时互相关性与理论上限的比值越小,C(cl,v)值越大。
步骤2:对原始信号进行第二次编码,对每一个浊音帧的所有候选基音cl,依据公式(5)计算每个候选基音在Optlag基础上带来的统计失真Sopt(cl);
原始SILK语音中,连续浊音帧的基音延迟之间存在明显的线性关系。记lagi为基音周期序列Optlag中第i个浊音帧的基音延迟,对于连续的浊音帧,其均值滤波残差R的计算如式4所示:
如果替换浊音帧的最优基音延迟,显然将破坏基音序列中R的统计分布。根据秘密信息,将lagi替换为某一候选基音cl,记此时连续浊音帧的均值滤波残差为Rcl,则替换最优基音对原始基音周期序列带来的统计失真如式5所示。
其中,Rcl是将原始基音替换为某一候选基音cl后,连续浊音帧的均值滤波残差;γ是大于0的常数,一般取0.001,防止出现除零错误。
步骤3:利用C(cl,v)和Sopt(cl),根据公式(6)计算每个浊音帧各个候选基音延迟的失真ρ(cl);
综合考虑编码参数失真与统计失真,对于某一个浊音帧,选择特定的候选基音cl时引入的嵌入失真函数如式6所示。
其中α,β分别为分配给参数编码失真及统计失真的权重,α+β=1。lagmin,lagmax为当前采样率下基音周期的最小,最大值。若cl超出这一范围,则不能选用当前候选基音,嵌入失真定义为正无穷。显然,当cl恰好等于最优基音延迟时,ρ(cl)为0。
步骤4:根据公式(7),利用各个浊音帧基音延迟的失真ρ(cl),计算整个语音信号加性失真函数D(X,Y);利用STC编码,找到使D(X,Y)最小的修改后的基音延迟序列Stelag;
对于任意一个原始音频样本,其浊音帧基音周期序列x=(x1,x2...xn)∈χ=In,通过修改基音延迟,得到嵌入秘密信息后的语音浊音帧基音延迟序列y=(y1,y2...yn)∈Y=Ii n,其中Ii为第i个浊音帧上候选基音的取值范围。则修改后整个音频基音域的加性失真D(X,Y)为:
其中n为浊音帧的总个数,ρi(cl)为将第i个浊音帧的基音延迟替换为候选基音cl所带来的嵌入失真。通过STC编码框架,找到使D(X,Y)最小修改方式,即可实现本发明的自适应隐写技术。
步骤5:对原始信号进行最后一次编码,用Stelag中的基音延迟替换原始基音延迟,完成嵌入。
本方法基于SILK语音编码压缩参数中基音周期的预测不准确特性,提出基音周期参数域的隐写算法;基于STC[2]自适应隐写编码框架,以统计安全性和听觉隐蔽性为目标,设计了基于基音周期编码参数与统计分布特性的失真函数,实现了基于最小失真代价的SILK基音域自适应隐写算法。本方法的优势在于首次实现了SILK语音编码载体上的隐写技术,有着良好的隐蔽性和安全性。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。
Claims (4)
1.一种基于最小失真代价的SILK基音域自适应隐写方法,其特征在于,包括以下步骤:
步骤1:对原始信号进行第一次编码,得到每一浊音帧的偏移矢量v,并对基音搜索最后阶段的所有候选基音cl,计算参数编码失真C(cl,v);并记录原始基音延迟序列Optlag;
所述参数编码失真C(cl,v),编码器以使当前帧信号互相关性最高为评判标准搜索最优的基音周期与偏移矢量,互相关性的计算如公式(2)所示,其中1≤i≤4为子帧的序列,SIGi为各子帧的信号,sub_lagi为第i个子帧的基音延迟,根据公式(1)经由整帧的基音延迟与偏移矢量计算得来,CorrF为自相关函数计算一段信号在特定基音周期下的相关性;
sub_lagi=lag+CBIndex(V),i (1)
其中,sub_lagi为第i个子帧的基音延迟,1≤i≤4,lag为帧整体的基音延迟,CB为码本集合,Index(V)为偏移矢量V在码本中的索引;
原始编码流程中,最优的基音延迟与偏移矢量会保证式(2)中的互相关性最大,记帧内信号最大的互相关性为Correlationmax;对于每个候选基音cl,根据式(2),计算该候选基音及偏移矢量下的信号互相关性,记作Correlationcl,v;参数编码失真的计算如式(3)所示:
帧信号的互相关性反映了基音周期编码参数的准确性和重建语音信号的能力;选择不同的候选基音时,帧内信号互相关性越低,编码失真越严重,此时互相关性与理论上限的比值越小,C(cl,v)值越大;
步骤2:对原始信号进行第二次编码,对每一个浊音帧的所有候选基音cl,计算每个候选基音在Optlag基础上带来的统计失真Sopt(cl);
步骤3:利用C(cl,v)和Sopt(cl),计算每个浊音帧各个候选基音延迟的失真ρ(cl);
步骤4:利用各个浊音帧基音延迟的失真ρ(cl),计算整个语音信号加性失真函数D(X,Y);利用STC编码,找到使D(X,Y)最小的修改后的基音延迟序列Stelag;
步骤5:对原始信号进行最后一次编码,用Stelag中的基音延迟替换原始基音延迟,完成嵌入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347884.0A CN110085242B (zh) | 2019-04-28 | 2019-04-28 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910347884.0A CN110085242B (zh) | 2019-04-28 | 2019-04-28 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110085242A CN110085242A (zh) | 2019-08-02 |
CN110085242B true CN110085242B (zh) | 2021-04-16 |
Family
ID=67417212
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910347884.0A Active CN110085242B (zh) | 2019-04-28 | 2019-04-28 | 一种基于最小失真代价的silk基音域自适应隐写方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110085242B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111462765B (zh) * | 2020-04-02 | 2023-08-01 | 宁波大学 | 一种基于一维卷积核的自适应音频复杂度表征方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714822A (zh) * | 2013-12-27 | 2014-04-09 | 广州华多网络科技有限公司 | 基于silk编解码器的子带编解码方法及装置 |
CN107545899A (zh) * | 2017-09-06 | 2018-01-05 | 武汉大学 | 一种基于清音基音延迟抖动特性的amr隐写方法 |
CN108231083A (zh) * | 2018-01-16 | 2018-06-29 | 重庆邮电大学 | 一种基于silk的语音编码器编码效率提高方法 |
-
2019
- 2019-04-28 CN CN201910347884.0A patent/CN110085242B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714822A (zh) * | 2013-12-27 | 2014-04-09 | 广州华多网络科技有限公司 | 基于silk编解码器的子带编解码方法及装置 |
CN107545899A (zh) * | 2017-09-06 | 2018-01-05 | 武汉大学 | 一种基于清音基音延迟抖动特性的amr隐写方法 |
CN108231083A (zh) * | 2018-01-16 | 2018-06-29 | 重庆邮电大学 | 一种基于silk的语音编码器编码效率提高方法 |
Non-Patent Citations (4)
Title |
---|
A Secure AMR Fixed Codebook Steganographic Scheme Based on Pulse Distribution Model;Yanzhen Ren, etc;<IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY>;20190318;第14卷(第10期);2649-2661 * |
Data Hiding in Pitch Delay Data of the Adaptive Multi-Rate Narrow-band Speech;Akira Nishimura;<2009 Fifth International Conference on Intelligent Information Hiding and Multimedia Signal Processing>;20090914;483-486 * |
Minimizing Additive Distortion in Steganography;Tomas Filler, etc;<IEEE TRANSACTIONS ON INFORMATION FORENSICS AND SECURITY>;20110405;第6卷(第3期);920-935 * |
SILK Steganography Scheme Based on the Distribution of LSF Parameter;Yanzhen Ren, etc;<Proceedings, APSIPA Annual Summit and Conference 2018>;20190307;539-548 * |
Also Published As
Publication number | Publication date |
---|---|
CN110085242A (zh) | 2019-08-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5996670B2 (ja) | オーディオデータの冗長送信に対するビット割振りのためのシステム、方法、装置、およびコンピュータ可読媒体 | |
RU2418324C2 (ru) | Поддиапазонный речевой кодекс с многокаскадными таблицами кодирования и избыточным кодированием | |
JP4390803B2 (ja) | 可変ビットレート広帯域通話符号化におけるゲイン量子化方法および装置 | |
JP6386376B2 (ja) | マルチレート・スピーチ/オーディオ・コーデックのためのフレーム損失隠匿 | |
CN101180676B (zh) | 用于谱包络表示的向量量化的方法和设备 | |
JP5009910B2 (ja) | レートスケーラブル及び帯域幅スケーラブルオーディオ復号化のレートの切り替えのための方法 | |
AU2007305960B2 (en) | Pitch lag estimation | |
KR102229487B1 (ko) | 리던던트 프레임 정보를 통신하는 시스템들 및 방법들 | |
CN102985969B (zh) | 编码装置、解码装置和编码方法、解码方法 | |
AU2014391078B2 (en) | Methods, encoder and decoder for linear predictive encoding and decoding of sound signals upon transition between frames having different sampling rates | |
US9293143B2 (en) | Bandwidth extension mode selection | |
JP2006525533A5 (zh) | ||
CN101494055A (zh) | 用于码分多址无线系统的方法和装置 | |
Wu et al. | An approach of steganography in G. 729 bitstream based on matrix coding and interleaving | |
US8090577B2 (en) | Bandwidth-adaptive quantization | |
JP2000357999A (ja) | 復号装置及び方法、並びにプログラム提供媒体 | |
KR100656788B1 (ko) | 비트율 신축성을 갖는 코드벡터 생성 방법 및 그를 이용한 광대역 보코더 | |
CN110085242B (zh) | 一种基于最小失真代价的silk基音域自适应隐写方法 | |
CN103117062B (zh) | 语音解码器中帧差错隐藏的谱参数代替方法及系统 | |
CN105374359B (zh) | 语音数据的编码方法和系统 | |
Nishimura | Data hiding in pitch delay data of the adaptive multi-rate narrow-band speech codec | |
KR20230129581A (ko) | 음성 정보를 갖는 개선된 프레임 손실 보정 | |
CN107545899B (zh) | 一种基于清音基音延迟抖动特性的amr隐写方法 | |
Chaouch et al. | Multiple description coding technique to improve the robustness of ACELP based coders AMR-WB | |
Merazka | Packet loss concealment by interpolation for speech over IP network services |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |