CN114999502A - 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法 - Google Patents

基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法 Download PDF

Info

Publication number
CN114999502A
CN114999502A CN202210544795.7A CN202210544795A CN114999502A CN 114999502 A CN114999502 A CN 114999502A CN 202210544795 A CN202210544795 A CN 202210544795A CN 114999502 A CN114999502 A CN 114999502A
Authority
CN
China
Prior art keywords
watermark
voice
speech
word
framing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210544795.7A
Other languages
English (en)
Other versions
CN114999502B (zh
Inventor
钱清
宋美鑫
周淑云
陈清容
赵小明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou University of Finance and Economics
Original Assignee
Guizhou University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou University of Finance and Economics filed Critical Guizhou University of Finance and Economics
Priority to CN202210544795.7A priority Critical patent/CN114999502B/zh
Publication of CN114999502A publication Critical patent/CN114999502A/zh
Application granted granted Critical
Publication of CN114999502B publication Critical patent/CN114999502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Quality & Reliability (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法,涉及语音加密及内容认证技术领域。解决了现有技术采用固定长度进行语音分帧导致的影响语音感知透明性、同时也增加了水印暴露可能性的问题。本发明所述的水印生成方法为:对原始语音信号按照固定长度进行分帧,得到语音帧,进一步通过短时能量和谱质心特征值识别出语音段和静音段;采用短时能量和谱质心特征实现自适应字分帧;特征融合并生成水印;将水印与字号结合生成二进制序列,然后再进行置乱加密。针对加有上述水印的语音信息进行完整性认证及篡改定位方法,通过端点检测技术实现语音内容的同步检测。本发明应用于各种语音信息的传递技术领域。

Description

基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容 的完整性认证及篡改定位方法
技术领域
本发明涉及语音加密以及内容认证技术领域。
背景技术
由于近年来音频压缩技术的成熟和音频处理软件的出现,数字语音被篡改伪造的事件层出不穷。数字语音作为传递信息的主要媒介,其中常常包含诸多个人隐私信息。若语音内容发生篡改或伪造,将给个人及集体带来经济损失。语音内容认证作为一种保护数字语音内容真实性和完整性的技术手段,成为信息安全领域研究的热点。数字水印作为信息隐藏的分支,可以很好的实现内容认证。在语音内容认证方面,对语音进行预处理时的常见操作是以固定帧长分帧、加窗和滤波,例如:
现有技术2021年公开的论文“A novel NMF-based authentication scheme forencrypted speech in cloud computing”(一种基于NMF的云计算加密语音认证方案)(Canghong Shi,Hongxia Wang,Yi Hu,Xiaojie Li.Multimedia Tools andApplications,2021,80:25773–25798.)利用非负矩阵分解提取原始语音的主要信息结合哈希技术生成水印,通过改变整数小波变换的近似系数进行水印嵌入,实现对于加密语音的认证。现有技术2020年公开的论文“A Fragile Watermarking Algorithm Based onAudio Content and Its Moving Average”(一种基于音频内容及其移动平均值的脆弱水印算法)(Xizi Peng,Jinquan Zhang,and Shibin Zhang.ICAIS,2020,328-340.)根据固定分段的语音中选择整数计算两个移动平均线,将从语音段中获取的水印信息嵌入到两个移动平均线的交叉处。
上述两篇论文均是以固定长度进行语音分帧。以固定长度分帧并生成水印时,生成的水印将包含大量静音段的冗余信息,从而造成水印数据量过大。此外,以固定长度分帧嵌入水印时,静音段也需要嵌入水印信息,这一操作将影响语音的感知透明性,与此同时,对语音信号而言,恶意的篡改攻击更多的是对整个字的篡改,而采用固定分帧的方式对语音内容进行篡改定位将降低篡改位置定位的精度。
发明内容
本发明的目的是解决现有采用固定长度进行语音分帧导致的影响语音的感知透明性、同时也增加了水印暴露的可能性的问题。
本发明提供了三个方案,一个是一种基于自适应字分帧的语音内容水印生成方法、水印嵌入方法,还有针对该方法获得的带有水印的语音进行语音内容的完整性认证及篡改定位方法。
为实现上述目的,本发明提供了如下方案:
方案一:一种基于自适应字分帧的语音内容水印生成方法,所述方法为:
端点检测步骤:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号;
自适应字分帧步骤:用于采用短时能量和谱质心特征实现自适应字分帧;
特征融合步骤:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数;
水印生成步骤:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W;
水印加密步骤:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'。
优选地,上述短时能量获取的步骤:根据
Figure BDA0003651737900000021
依次计算第i帧语音帧的短时能量,
FFT系数的获取步骤:将第i帧语音帧Si分为偶数序列Si1和奇数序列Si2,利用
Figure BDA0003651737900000022
计算第i帧语音的FFT系数Xi,Wn为窗函数,
上述谱质心特征值的获取步骤:根据获得的FFT系数,采用
Figure BDA0003651737900000023
优选地,上述特征融合步骤的进一步包括:
用于对An进行离散小波变换获得近似分量,提取近似分量的特征,其特征为短时傅里叶变换系数、梅尔频谱和均方根能量,依次求得各个特征值的均值,并记为stftM(n)、melM(n)和rmsM(n),采用特征融合和差异值哈希的方法生成水印W,
获得第n个字中计算得到的特征融合值:
f(n)=α1*stftM(n)+α2*melM(n)+α3*rmsM(n) (4)
其中α1、α2和α3为融合系数,获得第n个字生成的第l个二进制水印序列:
Figure BDA0003651737900000031
若后一位的融合特征值小于前一位,则设水印位为0,否则为1。
方案二:一种基于语音内容的水印嵌入方法,所述方法的步骤为:
嵌入位置确定步骤:用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置,采用本发明所述的方法获得水印W,利用离散小波变换与奇异值分解,结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印;
嵌入水印步骤:用于嵌入水印,通过量化奇异值的方法嵌入水印W',原始语音S变成含水印语音S’。
优选地,上述嵌入水印步骤的进一步包括:
用于水印嵌入,通过对An的细节分量进行奇异值分解嵌入水印W,嵌入细节为:
Figure BDA0003651737900000032
其中
Figure BDA0003651737900000033
这里Σ为奇异值,
Figure BDA0003651737900000034
表示向下取整,Δ为量化步长,mod为取模运算。
方案三:一种语音内容的完整性认证及篡改定位方法,所述语音内容为采用上述特征融合步骤或上述水印嵌入方法完成水印嵌入的语音内容,所述方法步骤为:
端点检测的步骤:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*的步骤:用于依次对每一个语音字A'n重构水印W*
获取水印W'和字号的步骤:用于根据上述的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号;
语音内容认证的步骤:用于将重构水印W*和提取水印W'计算其信息距离,若二者信息距离小于阈值,证明语音内容完整;反之,语音内容发生篡改;
篡改位置的步骤:用于用字号确定具体被篡改语音字的位置。
优选地,上述重构水印W*的步骤的进一步包括:
对A'n进行离散小波变换获得近似分量,提取近似分量的特征为短时傅里叶变换系数、梅尔频谱和均方根能量,求得各个特征值的均值,采用特征融合和差异值哈希的方法重构水印W*
一种基于自适应字分帧的语音内容水印生成装置,所述装置包括:
端点检测装置:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号的存储装置;
自适应字分帧装置:用于采用短时能量和谱质心特征实现自适应字分帧的存储装置;
特征融合装置:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数的存储装置;
水印生成装置:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W的存储装置;
水印加密装置:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'的存储装置。
一种语音内容的完整性认证及篡改定位装置,所述装置包括:
端点检测装置:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’的存储装置,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*装置:用于依次对每一个语音字A'n重构水印W*的存储装置;
获取水印W'和字号装置:用于根据上述的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置;
语音内容认证装置:用于将重构水印W*和提取水印W'计算其信息距离的存储装置;
篡改位置装置:用于用字号确定具体被篡改语音字的位置的存储装置。
一种计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行上述任意一项所述的方法。
技术效果
本发明的目的是解决现有技术采用固定长度进行语音分帧所导致的影响语音的感知透明性、同时也增加了水印暴露的可能性的问题,本发明所述的一种基于自适应字分帧的语音内容的水印嵌入方法,采用自适应字分帧方式进行基于语音内容的水印生成,有效减少无用的水印信息。与现有技术中都是以固定长度长分帧方式生成水印相比较,本发明没有采用相同的固有设计思想,而是以获得不同长度的自适字分帧的方式生成水印,克服了现有技术的偏见,并且获得的预料不到的技术效果。与现有技术相比,有益效果如下:
1、现有技术采用固定长度分帧方式生成水印时,生成的水印将包含大量静音段的冗余信息,从而造成水印数据量过大,本发明所述的水印生成方法采用自适应字分帧方式基于语音内容的水印生成,可以有效减少无用的水印信息。
2、现有技术采用固定长度分帧方式嵌入水印时,静音段也需要嵌入水印信息,这一操作将影响语音的感知透明性,同时也增加了水印暴露的可能性。本发明所述的水印生成方法采用自适应字分帧方式基于语音内容的水印嵌入时,可以提高嵌入水印的不可感知性和含水印语音的不可听性。
3、本发明所述的语音内容的完整性认证及篡改定位方法,是针对采用本发明所述的水印嵌入方法获得的带有水印的语音信息实现的。所述方法中,通过端点检测技术实现语音内容的同步,与现有技术中必须需要通过额外嵌入的同步码才能实现语音内容的同步技术方案相比较,无需额外嵌入同步码就能够实现对语音内容的同步攻击检测。
本发明适用于语音内容认证技术领域中,充分考虑了数字语音信号中语音段所携带的冗余,从降低嵌入容量和提高水印嵌入的不可听性出发,在不增加额外同步信息的前提下,能够实现去同步攻击的篡改检测与定位,能够应用于各种语音信息的传递技术领域。
附图说明
图1是本发明所述的一种基于自适应字分帧的语音内容水印生成及嵌入方法的原理框图。
图2是本发明所述的一种语音内容的完整性认证及篡改定位方法的原理框图。
具体实施方式
下面结合附图说明本申请所述的技术方案:
实施方式一.参见图1说明本实施方式,本实施方式所述的一种基于自适应字分帧的语音内容水印生成方法,所述方法步骤为:
端点检测步骤:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号;
自适应字分帧步骤:用于采用短时能量和谱质心特征实现自适应字分帧;
特征融合步骤:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数;
水印生成步骤:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W;
水印加密步骤:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'。
现有技术采用固定长度分帧方式生成水印时,生成的水印将包含大量静音段的冗余信息,从而造成水印数据量过大,而本实施方式所述的水印生成方法是采用自适应字分帧方式基于语音内容的水印生成,可以有效减少无用的水印信息,通过特征融合和差异值哈希生成水印,能够在保证篡改检测精度的前提下有效减少水印的数据量。
实施方式二.参见图1说明本实施方式,本实施方式是对实施方式一所述的一种基于自适应字分帧的语音内容水印生成方法中的端点检测步骤的进一步包括:
短时能量获取的步骤:根据
Figure BDA0003651737900000061
依次计算第i帧语音帧的短时能量,
FFT系数的获取步骤:将第i帧语音帧Si分为偶数序列Si1和奇数序列Si2,利用
Figure BDA0003651737900000071
计算第i帧语音的FFT系数Xi,Wn为窗函数,
谱质心特征值的获取步骤:根据获得的FFT系数,采用
Figure BDA0003651737900000072
依次计算获得第i帧语音谱质心特征值。
本实施方式采用的端点检测算法能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声和静音段的比特率,提高编码效率,因此,本方案采用端点检测,识别出语音内容以此为依据实现以字分帧,使得后续水印嵌入方案具有较好的不可听性。
实施方式三.参见图1说明本实施方式,本实施方式是对实施方式一所述的一种基于自适应字分帧的语音内容水印生成方法中的特征融合步骤的进一步包括:
用于对An进行离散小波变换获得近似分量,提取近似分量的特征,其特征为短时傅里叶变换系数、梅尔频谱和均方根能量,依次求得各个特征值的均值,并记为stftM(n)、melM(n)和rmsM(n),采用特征融合和差异值哈希的方法生成水印W,所述特征融合采用公式(4)获得第n个字中计算得到的特征融合值,
f(n)=α1*stftM(n)+α2*melM(n)+α3*rmsM(n) (4)
其中α1、α2和α3为融合系数,融合系数的取值可通过优化算法计算得到,所述差异值哈希采用公式(4),其中Wn,l表示第n个字生成的第l个二进制水印序列,
Figure BDA0003651737900000073
若后一位的融合特征值小于前一位,则设水印位为0,否则为1;
本实施方式通过特征融合可以有效的压缩特征值的个数以达到压缩数据量的目的,通过差异值哈希能够使得生成的水印具有较强的鲁棒性。
实施方式四.参见图1说明本实施方式,本实施方式所述的一种基于语音内容的水印嵌入方法,所述方法的步骤为:
嵌入位置确定步骤:用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置,采用实施方式一所述的方法获得水印W,利用离散小波变换与奇异值分解,结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印;
嵌入水印步骤:用于嵌入水印,通过量化奇异值的方法嵌入水印W',原始语音S变成含水印语音S’。
现有技术采用固定长度分帧方式嵌入水印时,静音段也需要嵌入水印信息,这一操作将影响语音的感知透明性,同时也增加了水印暴露的可能性。本实施方式所述的水印嵌入方法采用自适应字分帧方式基于语音内容的水印嵌入时,可以提高嵌入水印的不可感知性和含水印语音的不可听性。
实施方式五.参见图1说明本实施方式,本实施方式是对实施方式四所述的一种基于语音内容的水印嵌入方法中的嵌入水印步骤,进一步包括:
水印嵌入,通过对An的细节分量进行奇异值分解嵌入水印W,嵌入细节为:
Figure BDA0003651737900000081
其中
Figure BDA0003651737900000082
这里Σ为奇异值,
Figure BDA0003651737900000083
表示向下取整,Δ为量化步长,mod为取模运算。
本实施方式是对实施方式五的进一步限定,详细说明了奇异值分解的详细分解步骤,可以提高嵌入水印的不可感知性和含水印语音的不可听性。
实施方式六.参见图2说明本实施方式,本实施方式所述的一种语音内容的完整性认证及篡改定位方法,所述语音内容为实施方式三或实施方式四完成水印嵌入的语音内容,所述方法步骤为:
端点检测的步骤:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*的步骤:用于依次对每一个语音字A'n重构水印W*
获取水印W'和字号的步骤:用于根据实施方式四中的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号;
语音内容认证的步骤:用于将重构水印W*和提取水印W'计算其信息距离,若二者信息距离小于阈值,证明语音内容完整;反之,语音内容发生篡改;
篡改位置的步骤:用于用字号确定具体被篡改语音字的位置。
本实施方式所述的语音内容的完整性认证及篡改定位方法,是针对采用本发明所述的水印嵌入方法获得的带有水印的语音信息实现的。所述方法中,通过端点检测技术实现语音内容的同步,与现有技术中必须需要通过额外嵌入的同步码才能实现语音内容的同步技术方案相比较,无需额外嵌入同步码就能够实现对语音内容的同步攻击检测。
实施方式七.参见图2说明本实施方式,本实施方式是对实施方式六所述的一种语音内容的完整性认证及篡改定位方法中的重构水印W*的步骤,进一步包括:
对A'n进行离散小波变换获得近似分量,提取近似分量的特征为短时傅里叶变换系数、梅尔频谱和均方根能量,求得各个特征值的均值,采用特征融合和差异值哈希的方法重构水印W*
本实施方式通过特征融合可以有效的压缩特征值的个数以达到压缩数据量的目的,通过差异值哈希能够使得生成的水印具有较强的鲁棒性。
实施方式八.本实施方式所述的一种基于自适应字分帧的语音内容水印生成装置,所述装置包括:
端点检测装置:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号的存储装置;
自适应字分帧装置:用于采用短时能量和谱质心特征实现自适应字分帧的存储装置;
特征融合装置:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数的存储装置;
水印生成装置:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W的存储装置;
水印加密装置:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'的存储装置。
实施方式九.本实施方式所述的一种语音内容的完整性认证及篡改定位装置,所述装置包括:
端点检测装置:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’的存储装置,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*装置:用于依次对每一个语音字A'n重构水印W*的存储装置;
获取水印W'和字号装置:用于根据实施方式四中的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置;
语音内容认证装置:用于将重构水印W*和提取水印W'计算其信息距离的存储装置;
篡改位置装置:用于用字号确定具体被篡改语音字的位置的存储装置。
实施方式十.本实施方式所述的一种计算机设备包括存储器和处理器,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行根据实施方式1-7任意一项所述的方法。
以上所述仅为本发明的实施例而已,并不限制于本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所做的任何修改,等同替换、改进等。均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种基于自适应字分帧的语音内容水印生成方法,其特征在于,所述方法为:
端点检测步骤:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号;
自适应字分帧步骤:用于采用短时能量和谱质心特征实现自适应字分帧;
特征融合步骤:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数;
水印生成步骤:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W;
水印加密步骤:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'。
2.根据权利要求1所述的一种基于自适应字分帧的语音内容水印生成方法,其特征在于,所述端点检测步骤的进一步包括:
短时能量获取的步骤:根据
Figure FDA0003651737890000011
依次计算第i帧语音帧的短时能量,
FFT系数的获取步骤:将第i帧语音帧Si分为偶数序列Si1和奇数序列Si2,利用
Figure FDA0003651737890000012
计算第i帧语音的FFT系数Xi,Wn为窗函数,
谱质心特征值的获取步骤:根据获得的FFT系数,采用
Figure FDA0003651737890000021
依次计算获得第i帧语音谱质心特征值。
3.根据权利要求1所述的一种基于自适应字分帧的语音内容水印生成方法,其特征在于,所述特征融合步骤的进一步包括:
用于对An进行离散小波变换获得近似分量,提取近似分量的特征,其特征为短时傅里叶变换系数、梅尔频谱和均方根能量,依次求得各个特征值的均值,并记为stftM(n)、melM(n)和rmsM(n),采用特征融合和差异值哈希的方法生成水印W,
获得第n个字中计算得到的特征融合值:
f(n)=α1*stftM(n)+α2*melM(n)+α3*rmsM(n) (4)
其中α1、α2和α3为融合系数,
获得第n个字生成的第l个二进制水印序列:
Figure FDA0003651737890000022
若后一位的融合特征值小于前一位,则设水印位为0,否则为1。
4.一种基于语音内容的水印嵌入方法,其特征在于,所述方法的步骤为:
嵌入位置确定步骤:用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置,采用权利要求1所述的方法获得水印W,利用离散小波变换与奇异值分解,结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印;
嵌入水印步骤:用于嵌入水印,通过量化奇异值的方法嵌入水印W',原始语音S变成含水印语音S’。
5.根据权利要求4所述的一种基于语音内容的水印嵌入方法,其特征在于,所述嵌入水印步骤,进一步包括:
用于水印嵌入,通过对An的细节分量进行奇异值分解嵌入水印W’,嵌入细节为:
Figure FDA0003651737890000031
其中
Figure FDA0003651737890000032
这里Σ为奇异值,
Figure FDA0003651737890000033
表示向下取整,Δ为量化步长,mod为取模运算。
6.一种语音内容的完整性认证及篡改定位方法,其特征在于,所述语音内容为采用权利要求3和4完成水印嵌入的语音内容,所述方法步骤为:
端点检测的步骤:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*的步骤:用于依次对每一个语音字A'n重构水印W*;
获取水印W'和字号的步骤:用于根据权利要求4中的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号;
语音内容认证的步骤:用于将重构水印W*和提取水印W'计算其信息距离,若二者信息距离小于阈值,证明语音内容完整;反之,语音内容发生篡改;
篡改位置的步骤:用于用字号确定具体被篡改语音字的位置。
7.根据权利要求6所述的一种语音内容的完整性认证及篡改定位方法,其特征在于,所述重构水印W*的步骤,进一步包括:
对A'n进行离散小波变换获得近似分量,提取近似分量的特征为短时傅里叶变换系数、梅尔频谱和均方根能量,求得各个特征值的均值,采用特征融合和差异值哈希的方法重构水印W*
8.一种基于自适应字分帧的语音内容水印生成装置,其特征在于,所述装置包括:
端点检测装置:用于对原始语音信号S按照固定长度M进行分帧,得到语音帧S1,S2,...,Si,...,SLS,依次计算各帧语音的短时能量和谱质心特征值,从而实现端点检测,识别出语音段A(A1,A2,...,AN)和静音段B(B1,B2,...,BM'),An表示字,为原始语音的分帧,其长度为Ln,n表示字号,n=1,2,...,N,N为语音段的个数,即语音中字的个数,M'为静音段的个数,其中Ls为端点检测过程中固定分帧后得到的语音帧个数,{Si(1),Si(2),...,Si(m),...,Si(M)}为语音帧信号的存储装置;
自适应字分帧装置:用于采用短时能量和谱质心特征实现自适应字分帧的存储装置;
特征融合装置:用于得到特征融合,选择各语音段An中k个鲁棒特征F,F={f1,f2,...,fk},利用特征融合将多个特征按照公式F'=α1f12f2+...+αkfk进行融合,其中α为融合系数的存储装置;
水印生成装置:用于生成水印W,由鲁棒特征F得到的特征融合F',采用差异值哈希生成水印W的存储装置;
水印加密装置:用于将水印W与字号结合生成二进制序列,然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'的存储装置。
9.一种语音内容的完整性认证及篡改定位装置,其特征在于,所述装置包括:
端点检测装置:用于对含水印语音信号S’进行端点检测,识别出含水印语音段A’和含水印静音段B’的存储装置,其中语音段A’中的每段语音代表一个字A'n,其中n表示字号,共有N个语音段;
重构水印W*装置:用于依次对每一个语音字A'n重构水印W*的存储装置;
获取水印W'和字号装置:用于根据权利要求4中的嵌入水印算法从语音段A'n中的DWT-SVD域提取水印,对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置;
语音内容认证装置:用于将重构水印W*和提取水印W'计算其信息距离的存储装置;
篡改位置装置:用于用字号确定具体被篡改语音字的位置的存储装置。
10.一种计算机设备包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,当所述处理器运行所述存储器存储的计算机程序时,所述处理器执行权利要求1-7任意一项所述的方法。
CN202210544795.7A 2022-05-19 2022-05-19 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法 Active CN114999502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210544795.7A CN114999502B (zh) 2022-05-19 2022-05-19 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210544795.7A CN114999502B (zh) 2022-05-19 2022-05-19 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法

Publications (2)

Publication Number Publication Date
CN114999502A true CN114999502A (zh) 2022-09-02
CN114999502B CN114999502B (zh) 2023-01-06

Family

ID=83026630

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210544795.7A Active CN114999502B (zh) 2022-05-19 2022-05-19 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法

Country Status (1)

Country Link
CN (1) CN114999502B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116275A (zh) * 2023-10-23 2023-11-24 浙江华创视讯科技有限公司 多模态融合的音频水印添加方法、设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
WO2007042350A2 (en) * 2005-10-14 2007-04-19 Thomson Licensing Method and apparatus for watermarking a bit stream using identification data, and for regaining identification data from a watermarked bit stream
US20110066437A1 (en) * 2009-01-26 2011-03-17 Robert Luff Methods and apparatus to monitor media exposure using content-aware watermarks
EP2416520A1 (en) * 2010-08-03 2012-02-08 Thomson Licensing Method and system for protecting by watermarking against non-authorised use original audio or video data which are to be presented
US20120308071A1 (en) * 2011-06-06 2012-12-06 Scott Ramsdell Methods and apparatus for watermarking and distributing watermarked content
WO2015012680A2 (en) * 2013-07-22 2015-01-29 Universiti Putra Malaysia A method for speech watermarking in speaker verification
CN104700841A (zh) * 2015-02-10 2015-06-10 浙江省广电科技股份有限公司 一种基于音频内容分类的水印嵌入及检测方法
CN106373584A (zh) * 2015-07-24 2017-02-01 韶关学院 利用复合特征量和非对称分帧的鲁棒音频水印方法
CN107993669A (zh) * 2017-11-20 2018-05-04 西南交通大学 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
CN108877819A (zh) * 2018-07-06 2018-11-23 信阳师范学院 一种基于系数自相关度的语音内容取证方法
US20200098379A1 (en) * 2018-09-25 2020-03-26 Amazon Technologies, Inc. Audio watermark encoding/decoding
CN112153482A (zh) * 2020-09-16 2020-12-29 山东科技大学 一种音视频匹配零水印生成方法及音视频防篡改检测方法
CN113782041A (zh) * 2021-09-14 2021-12-10 随锐科技集团股份有限公司 一种基于音频变频域的嵌入和定位水印的方法
US20220148601A1 (en) * 2020-11-06 2022-05-12 Google Llc Multi-factor audio watermarking

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060227968A1 (en) * 2005-04-08 2006-10-12 Chen Oscal T Speech watermark system
WO2007042350A2 (en) * 2005-10-14 2007-04-19 Thomson Licensing Method and apparatus for watermarking a bit stream using identification data, and for regaining identification data from a watermarked bit stream
US20110066437A1 (en) * 2009-01-26 2011-03-17 Robert Luff Methods and apparatus to monitor media exposure using content-aware watermarks
EP2416520A1 (en) * 2010-08-03 2012-02-08 Thomson Licensing Method and system for protecting by watermarking against non-authorised use original audio or video data which are to be presented
US20120308071A1 (en) * 2011-06-06 2012-12-06 Scott Ramsdell Methods and apparatus for watermarking and distributing watermarked content
WO2015012680A2 (en) * 2013-07-22 2015-01-29 Universiti Putra Malaysia A method for speech watermarking in speaker verification
CN104700841A (zh) * 2015-02-10 2015-06-10 浙江省广电科技股份有限公司 一种基于音频内容分类的水印嵌入及检测方法
CN106373584A (zh) * 2015-07-24 2017-02-01 韶关学院 利用复合特征量和非对称分帧的鲁棒音频水印方法
CN107993669A (zh) * 2017-11-20 2018-05-04 西南交通大学 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
CN108877819A (zh) * 2018-07-06 2018-11-23 信阳师范学院 一种基于系数自相关度的语音内容取证方法
US20200098379A1 (en) * 2018-09-25 2020-03-26 Amazon Technologies, Inc. Audio watermark encoding/decoding
CN112153482A (zh) * 2020-09-16 2020-12-29 山东科技大学 一种音视频匹配零水印生成方法及音视频防篡改检测方法
US20220148601A1 (en) * 2020-11-06 2022-05-12 Google Llc Multi-factor audio watermarking
CN113782041A (zh) * 2021-09-14 2021-12-10 随锐科技集团股份有限公司 一种基于音频变频域的嵌入和定位水印的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
YIFAN LUO, DEZHONG PENG: "Dual Channel Audio Watermarking Algorithm Based on Embedded Strength Optimization", 《ICSP 2019》 *
邓宗元: "基于线性预测的语音水印检测系统设计", 《华北水利水电学院学报》 *
高银秋等: "数字音频产品中基于人耳听觉感知特性的水印嵌入系统设计", 《南京邮电大学学报(自然科学版)》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117116275A (zh) * 2023-10-23 2023-11-24 浙江华创视讯科技有限公司 多模态融合的音频水印添加方法、设备及存储介质
CN117116275B (zh) * 2023-10-23 2024-02-20 浙江华创视讯科技有限公司 多模态融合的音频水印添加方法、设备及存储介质

Also Published As

Publication number Publication date
CN114999502B (zh) 2023-01-06

Similar Documents

Publication Publication Date Title
Liu et al. Patchwork-based audio watermarking robust against de-synchronization and recapturing attacks
Wang et al. Centroid-based semi-fragile audio watermarking in hybrid domain
CN111091841B (zh) 一种基于深度学习的身份认证音频水印算法
CN107993669B (zh) 基于修改最低有效位数权重的语音内容认证和篡改恢复方法
Nosrati et al. Audio steganography: a survey on recent approaches
Ahani et al. A sparse representation-based wavelet domain speech steganography method
CN114999502B (zh) 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法
Liu et al. A security watermark scheme used for digital speech forensics
Liu et al. Tamper recovery algorithm for digital speech signal based on DWT and DCT
Huang et al. A reversible acoustic steganography for integrity verification
Li et al. Audio-lossless robust watermarking against desynchronization attacks
Mingguang et al. A wav-audio steganography algorithm based on amplitude modifying
Huang et al. A new approach of reversible acoustic steganography for tampering detection
Weina Digital audio blind watermarking algorithm based on audio characteristic and scrambling encryption
Qian et al. A fragile watermarking algorithm for speech authentication by modifying least significant digits
Liu et al. Audio watermarking algorithm for tracing the re-recorded audio source
Wei et al. Controlling bitrate steganography on AAC audio
Muzaffar et al. Compressed Sensing for Security and Payload Enhancement in Digital Audio Steganography.
CN108877819B (zh) 一种基于系数自相关度的语音内容取证方法
Chowdhury A Robust Audio Watermarking In Cepstrum Domain Composed Of Sample's Relation Dependent Embedding And Computationally Simple Extraction Phase
Liu et al. A multipurpose audio watermarking algorithm based on vector quantization in DCT domain
Yang et al. Lossless and secure watermarking scheme in MP3 audio by modifying redundant bit in the frames
Bhowal et al. Secured Genetic Algorithm Based Image Hiding Technique with Boolean Functions.
Chore et al. Survey on different methods of digital audio watermarking
Tegendal Watermarking in audio using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant