CN114999502A

CN114999502A - 基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法

Info

Publication number: CN114999502A
Application number: CN202210544795.7A
Authority: CN
Inventors: 钱清; 宋美鑫; 周淑云; 陈清容; 赵小明
Original assignee: Guizhou University of Finance and Economics
Current assignee: Guizhou University of Finance and Economics
Priority date: 2022-05-19
Filing date: 2022-05-19
Publication date: 2022-09-02
Anticipated expiration: 2042-05-19
Also published as: CN114999502B

Abstract

基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法，涉及语音加密及内容认证技术领域。解决了现有技术采用固定长度进行语音分帧导致的影响语音感知透明性、同时也增加了水印暴露可能性的问题。本发明所述的水印生成方法为：对原始语音信号按照固定长度进行分帧，得到语音帧，进一步通过短时能量和谱质心特征值识别出语音段和静音段；采用短时能量和谱质心特征实现自适应字分帧；特征融合并生成水印；将水印与字号结合生成二进制序列，然后再进行置乱加密。针对加有上述水印的语音信息进行完整性认证及篡改定位方法，通过端点检测技术实现语音内容的同步检测。本发明应用于各种语音信息的传递技术领域。

Description

基于自适应字分帧的语音内容水印生成、嵌入方法、语音内容的完整性认证及篡改定位方法

技术领域

本发明涉及语音加密以及内容认证技术领域。

背景技术

由于近年来音频压缩技术的成熟和音频处理软件的出现，数字语音被篡改伪造的事件层出不穷。数字语音作为传递信息的主要媒介，其中常常包含诸多个人隐私信息。若语音内容发生篡改或伪造，将给个人及集体带来经济损失。语音内容认证作为一种保护数字语音内容真实性和完整性的技术手段，成为信息安全领域研究的热点。数字水印作为信息隐藏的分支，可以很好的实现内容认证。在语音内容认证方面，对语音进行预处理时的常见操作是以固定帧长分帧、加窗和滤波，例如：

现有技术2021年公开的论文“A novel NMF-based authentication scheme forencrypted speech in cloud computing”(一种基于NMF的云计算加密语音认证方案)(Canghong Shi，Hongxia Wang，Yi Hu，Xiaojie Li.Multimedia Tools andApplications，2021，80:25773–25798.)利用非负矩阵分解提取原始语音的主要信息结合哈希技术生成水印，通过改变整数小波变换的近似系数进行水印嵌入，实现对于加密语音的认证。现有技术2020年公开的论文“A Fragile Watermarking Algorithm Based onAudio Content and Its Moving Average”(一种基于音频内容及其移动平均值的脆弱水印算法)(Xizi Peng,Jinquan Zhang,and Shibin Zhang.ICAIS，2020，328-340.)根据固定分段的语音中选择整数计算两个移动平均线，将从语音段中获取的水印信息嵌入到两个移动平均线的交叉处。

上述两篇论文均是以固定长度进行语音分帧。以固定长度分帧并生成水印时，生成的水印将包含大量静音段的冗余信息，从而造成水印数据量过大。此外，以固定长度分帧嵌入水印时，静音段也需要嵌入水印信息，这一操作将影响语音的感知透明性，与此同时，对语音信号而言，恶意的篡改攻击更多的是对整个字的篡改，而采用固定分帧的方式对语音内容进行篡改定位将降低篡改位置定位的精度。

发明内容

本发明的目的是解决现有采用固定长度进行语音分帧导致的影响语音的感知透明性、同时也增加了水印暴露的可能性的问题。

本发明提供了三个方案，一个是一种基于自适应字分帧的语音内容水印生成方法、水印嵌入方法，还有针对该方法获得的带有水印的语音进行语音内容的完整性认证及篡改定位方法。

为实现上述目的，本发明提供了如下方案：

方案一：一种基于自适应字分帧的语音内容水印生成方法，所述方法为：

端点检测步骤：用于对原始语音信号S按照固定长度M进行分帧，得到语音帧S₁，S₂，...，S_i,...，S_LS，依次计算各帧语音的短时能量和谱质心特征值，从而实现端点检测，识别出语音段A(A₁,A₂,...,A_N)和静音段B(B₁,B₂,...,B_M')，A_n表示字，为原始语音的分帧，其长度为L_n，n表示字号，n＝1，2，...，N，N为语音段的个数，即语音中字的个数，M＇为静音段的个数，其中Ls为端点检测过程中固定分帧后得到的语音帧个数，{S_i(1),S_i(2),...,S_i(m),...,S_i(M)}为语音帧信号；

自适应字分帧步骤：用于采用短时能量和谱质心特征实现自适应字分帧；

特征融合步骤：用于得到特征融合，选择各语音段A_n中k个鲁棒特征F，F＝{f₁,f₂，...,f_k}，利用特征融合将多个特征按照公式F'＝α₁f₁+α₂f₂+...+α_kf_k进行融合，其中α为融合系数；

水印生成步骤：用于生成水印W，由鲁棒特征F得到的特征融合F'，采用差异值哈希生成水印W；

水印加密步骤：用于将水印W与字号结合生成二进制序列，然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'。

优选地，上述短时能量获取的步骤：根据

依次计算第i帧语音帧的短时能量，

FFT系数的获取步骤：将第i帧语音帧S_i分为偶数序列S_i1和奇数序列S_i2，利用

计算第i帧语音的FFT系数X_i，W_n为窗函数，

上述谱质心特征值的获取步骤：根据获得的FFT系数，采用

优选地，上述特征融合步骤的进一步包括：

用于对A_n进行离散小波变换获得近似分量，提取近似分量的特征，其特征为短时傅里叶变换系数、梅尔频谱和均方根能量，依次求得各个特征值的均值，并记为stftM(n)、melM(n)和rmsM(n)，采用特征融合和差异值哈希的方法生成水印W，

获得第n个字中计算得到的特征融合值：

f(n)＝α₁*stftM(n)+α₂*melM(n)+α₃*rmsM(n) (4)

其中α₁、α₂和α₃为融合系数，获得第n个字生成的第l个二进制水印序列：

若后一位的融合特征值小于前一位，则设水印位为0，否则为1。

方案二：一种基于语音内容的水印嵌入方法，所述方法的步骤为：

嵌入位置确定步骤：用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置，采用本发明所述的方法获得水印W，利用离散小波变换与奇异值分解，结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印；

嵌入水印步骤：用于嵌入水印，通过量化奇异值的方法嵌入水印W'，原始语音S变成含水印语音S’。

优选地，上述嵌入水印步骤的进一步包括：

用于水印嵌入，通过对A_n的细节分量进行奇异值分解嵌入水印W，嵌入细节为：

其中

这里Σ为奇异值，

表示向下取整，Δ为量化步长，mod为取模运算。

方案三：一种语音内容的完整性认证及篡改定位方法，所述语音内容为采用上述特征融合步骤或上述水印嵌入方法完成水印嵌入的语音内容，所述方法步骤为：

端点检测的步骤：用于对含水印语音信号S’进行端点检测，识别出含水印语音段A’和含水印静音段B’，其中语音段A’中的每段语音代表一个字A'_n，其中n表示字号，共有N个语音段；

重构水印W^*的步骤：用于依次对每一个语音字A'_n重构水印W^*；

获取水印W'和字号的步骤：用于根据上述的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号；

语音内容认证的步骤：用于将重构水印W^*和提取水印W'计算其信息距离，若二者信息距离小于阈值，证明语音内容完整；反之，语音内容发生篡改；

篡改位置的步骤：用于用字号确定具体被篡改语音字的位置。

优选地，上述重构水印W^*的步骤的进一步包括：

对A'_n进行离散小波变换获得近似分量，提取近似分量的特征为短时傅里叶变换系数、梅尔频谱和均方根能量，求得各个特征值的均值，采用特征融合和差异值哈希的方法重构水印W^*。

一种基于自适应字分帧的语音内容水印生成装置，所述装置包括：

端点检测装置：用于对原始语音信号S按照固定长度M进行分帧，得到语音帧S₁，S₂，...，S_i,...，S_LS，依次计算各帧语音的短时能量和谱质心特征值，从而实现端点检测，识别出语音段A(A₁,A₂,...,A_N)和静音段B(B₁,B₂,...,B_M')，A_n表示字，为原始语音的分帧，其长度为L_n，n表示字号，n＝1，2，...，N，N为语音段的个数，即语音中字的个数，M＇为静音段的个数，其中Ls为端点检测过程中固定分帧后得到的语音帧个数，{S_i(1),S_i(2),...,S_i(m),...,S_i(M)}为语音帧信号的存储装置；

自适应字分帧装置：用于采用短时能量和谱质心特征实现自适应字分帧的存储装置；

特征融合装置：用于得到特征融合，选择各语音段A_n中k个鲁棒特征F，F＝{f₁,f₂，...,f_k}，利用特征融合将多个特征按照公式F'＝α₁f₁+α₂f₂+...+α_kf_k进行融合，其中α为融合系数的存储装置；

水印生成装置：用于生成水印W，由鲁棒特征F得到的特征融合F'，采用差异值哈希生成水印W的存储装置；

水印加密装置：用于将水印W与字号结合生成二进制序列，然后对生成的二进制序列进行置乱加密形成最终要嵌入的水印W'的存储装置。

一种语音内容的完整性认证及篡改定位装置，所述装置包括：

端点检测装置：用于对含水印语音信号S’进行端点检测，识别出含水印语音段A’和含水印静音段B’的存储装置，其中语音段A’中的每段语音代表一个字A'_n，其中n表示字号，共有N个语音段；

重构水印W^*装置：用于依次对每一个语音字A'_n重构水印W^*的存储装置；

获取水印W'和字号装置：用于根据上述的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置；

语音内容认证装置：用于将重构水印W^*和提取水印W'计算其信息距离的存储装置；

篡改位置装置：用于用字号确定具体被篡改语音字的位置的存储装置。

一种计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行上述任意一项所述的方法。

技术效果

本发明的目的是解决现有技术采用固定长度进行语音分帧所导致的影响语音的感知透明性、同时也增加了水印暴露的可能性的问题，本发明所述的一种基于自适应字分帧的语音内容的水印嵌入方法，采用自适应字分帧方式进行基于语音内容的水印生成，有效减少无用的水印信息。与现有技术中都是以固定长度长分帧方式生成水印相比较，本发明没有采用相同的固有设计思想，而是以获得不同长度的自适字分帧的方式生成水印，克服了现有技术的偏见，并且获得的预料不到的技术效果。与现有技术相比，有益效果如下：

1、现有技术采用固定长度分帧方式生成水印时，生成的水印将包含大量静音段的冗余信息，从而造成水印数据量过大，本发明所述的水印生成方法采用自适应字分帧方式基于语音内容的水印生成，可以有效减少无用的水印信息。

2、现有技术采用固定长度分帧方式嵌入水印时，静音段也需要嵌入水印信息，这一操作将影响语音的感知透明性，同时也增加了水印暴露的可能性。本发明所述的水印生成方法采用自适应字分帧方式基于语音内容的水印嵌入时，可以提高嵌入水印的不可感知性和含水印语音的不可听性。

3、本发明所述的语音内容的完整性认证及篡改定位方法，是针对采用本发明所述的水印嵌入方法获得的带有水印的语音信息实现的。所述方法中，通过端点检测技术实现语音内容的同步，与现有技术中必须需要通过额外嵌入的同步码才能实现语音内容的同步技术方案相比较，无需额外嵌入同步码就能够实现对语音内容的同步攻击检测。

本发明适用于语音内容认证技术领域中，充分考虑了数字语音信号中语音段所携带的冗余，从降低嵌入容量和提高水印嵌入的不可听性出发，在不增加额外同步信息的前提下，能够实现去同步攻击的篡改检测与定位，能够应用于各种语音信息的传递技术领域。

附图说明

图1是本发明所述的一种基于自适应字分帧的语音内容水印生成及嵌入方法的原理框图。

图2是本发明所述的一种语音内容的完整性认证及篡改定位方法的原理框图。

具体实施方式

下面结合附图说明本申请所述的技术方案：

实施方式一.参见图1说明本实施方式，本实施方式所述的一种基于自适应字分帧的语音内容水印生成方法，所述方法步骤为：

现有技术采用固定长度分帧方式生成水印时，生成的水印将包含大量静音段的冗余信息，从而造成水印数据量过大，而本实施方式所述的水印生成方法是采用自适应字分帧方式基于语音内容的水印生成，可以有效减少无用的水印信息，通过特征融合和差异值哈希生成水印，能够在保证篡改检测精度的前提下有效减少水印的数据量。

实施方式二.参见图1说明本实施方式，本实施方式是对实施方式一所述的一种基于自适应字分帧的语音内容水印生成方法中的端点检测步骤的进一步包括：

短时能量获取的步骤：根据

依次计算第i帧语音帧的短时能量，

计算第i帧语音的FFT系数X_i，W_n为窗函数，

谱质心特征值的获取步骤：根据获得的FFT系数，采用

依次计算获得第i帧语音谱质心特征值。

本实施方式采用的端点检测算法能在语音识别系统中减少数据的采集量，节约处理时间，还能排除无声段或噪声段的干扰，提高语音识别系统的性能，而且在语音编码中还能降低噪声和静音段的比特率，提高编码效率，因此，本方案采用端点检测，识别出语音内容以此为依据实现以字分帧，使得后续水印嵌入方案具有较好的不可听性。

实施方式三.参见图1说明本实施方式，本实施方式是对实施方式一所述的一种基于自适应字分帧的语音内容水印生成方法中的特征融合步骤的进一步包括：

用于对A_n进行离散小波变换获得近似分量，提取近似分量的特征，其特征为短时傅里叶变换系数、梅尔频谱和均方根能量，依次求得各个特征值的均值，并记为stftM(n)、melM(n)和rmsM(n)，采用特征融合和差异值哈希的方法生成水印W，所述特征融合采用公式(4)获得第n个字中计算得到的特征融合值，

f(n)＝α₁*stftM(n)+α₂*melM(n)+α₃*rmsM(n) (4)

其中α₁、α₂和α₃为融合系数，融合系数的取值可通过优化算法计算得到，所述差异值哈希采用公式(4)，其中W_n,l表示第n个字生成的第l个二进制水印序列，

若后一位的融合特征值小于前一位，则设水印位为0，否则为1；

本实施方式通过特征融合可以有效的压缩特征值的个数以达到压缩数据量的目的，通过差异值哈希能够使得生成的水印具有较强的鲁棒性。

实施方式四.参见图1说明本实施方式，本实施方式所述的一种基于语音内容的水印嵌入方法，所述方法的步骤为：

嵌入位置确定步骤：用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置，采用实施方式一所述的方法获得水印W，利用离散小波变换与奇异值分解，结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印；

现有技术采用固定长度分帧方式嵌入水印时，静音段也需要嵌入水印信息，这一操作将影响语音的感知透明性，同时也增加了水印暴露的可能性。本实施方式所述的水印嵌入方法采用自适应字分帧方式基于语音内容的水印嵌入时，可以提高嵌入水印的不可感知性和含水印语音的不可听性。

实施方式五.参见图1说明本实施方式，本实施方式是对实施方式四所述的一种基于语音内容的水印嵌入方法中的嵌入水印步骤，进一步包括：

水印嵌入，通过对A_n的细节分量进行奇异值分解嵌入水印W，嵌入细节为：

其中

这里Σ为奇异值，

表示向下取整，Δ为量化步长，mod为取模运算。

本实施方式是对实施方式五的进一步限定，详细说明了奇异值分解的详细分解步骤，可以提高嵌入水印的不可感知性和含水印语音的不可听性。

实施方式六.参见图2说明本实施方式，本实施方式所述的一种语音内容的完整性认证及篡改定位方法，所述语音内容为实施方式三或实施方式四完成水印嵌入的语音内容，所述方法步骤为：

获取水印W'和字号的步骤：用于根据实施方式四中的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号；

语音内容认证的步骤：用于将重构水印W*和提取水印W'计算其信息距离，若二者信息距离小于阈值，证明语音内容完整；反之，语音内容发生篡改；

本实施方式所述的语音内容的完整性认证及篡改定位方法，是针对采用本发明所述的水印嵌入方法获得的带有水印的语音信息实现的。所述方法中，通过端点检测技术实现语音内容的同步，与现有技术中必须需要通过额外嵌入的同步码才能实现语音内容的同步技术方案相比较，无需额外嵌入同步码就能够实现对语音内容的同步攻击检测。

实施方式七.参见图2说明本实施方式，本实施方式是对实施方式六所述的一种语音内容的完整性认证及篡改定位方法中的重构水印W*的步骤，进一步包括：

实施方式八.本实施方式所述的一种基于自适应字分帧的语音内容水印生成装置，所述装置包括：

实施方式九.本实施方式所述的一种语音内容的完整性认证及篡改定位装置，所述装置包括：

获取水印W'和字号装置：用于根据实施方式四中的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置；

实施方式十.本实施方式所述的一种计算机设备包括存储器和处理器，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行根据实施方式1-7任意一项所述的方法。

以上所述仅为本发明的实施例而已，并不限制于本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所做的任何修改，等同替换、改进等。均应包含在本发明的权利要求范围之内。

Claims

1.一种基于自适应字分帧的语音内容水印生成方法，其特征在于，所述方法为：

2.根据权利要求1所述的一种基于自适应字分帧的语音内容水印生成方法，其特征在于，所述端点检测步骤的进一步包括：

短时能量获取的步骤：根据

依次计算第i帧语音帧的短时能量，

计算第i帧语音的FFT系数X_i，W_n为窗函数，

谱质心特征值的获取步骤：根据获得的FFT系数，采用

依次计算获得第i帧语音谱质心特征值。

3.根据权利要求1所述的一种基于自适应字分帧的语音内容水印生成方法，其特征在于，所述特征融合步骤的进一步包括：

获得第n个字中计算得到的特征融合值：

f(n)＝α₁*stftM(n)+α₂*melM(n)+α₃*rmsM(n) (4)

其中α₁、α₂和α₃为融合系数，

获得第n个字生成的第l个二进制水印序列：

4.一种基于语音内容的水印嵌入方法，其特征在于，所述方法的步骤为：

嵌入位置确定步骤：用于在带嵌入水印的原始语音信号S中寻找嵌入水印的具体位置，采用权利要求1所述的方法获得水印W，利用离散小波变换与奇异值分解，结合优化算法寻找原始语音信号S中语音段A中的位置来嵌入水印；

5.根据权利要求4所述的一种基于语音内容的水印嵌入方法，其特征在于，所述嵌入水印步骤，进一步包括：

用于水印嵌入，通过对A_n的细节分量进行奇异值分解嵌入水印W’，嵌入细节为：

其中

这里Σ为奇异值，

表示向下取整，Δ为量化步长，mod为取模运算。

6.一种语音内容的完整性认证及篡改定位方法，其特征在于，所述语音内容为采用权利要求3和4完成水印嵌入的语音内容，所述方法步骤为：

重构水印W^*的步骤：用于依次对每一个语音字A'_n重构水印W*；

获取水印W'和字号的步骤：用于根据权利要求4中的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号；

7.根据权利要求6所述的一种语音内容的完整性认证及篡改定位方法，其特征在于，所述重构水印W^*的步骤，进一步包括：

8.一种基于自适应字分帧的语音内容水印生成装置，其特征在于，所述装置包括：

9.一种语音内容的完整性认证及篡改定位装置，其特征在于，所述装置包括：

获取水印W'和字号装置：用于根据权利要求4中的嵌入水印算法从语音段A'_n中的DWT-SVD域提取水印，对提取水印进行逆置乱解密操作并分别获取水印W'和字号的存储装置；

10.一种计算机设备包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，当所述处理器运行所述存储器存储的计算机程序时，所述处理器执行权利要求1-7任意一项所述的方法。