CN111445924B

CN111445924B - 基于自回归模型系数检测定位语音片段内平滑处理的方法

Info

Publication number: CN111445924B
Application number: CN202010192572.XA
Authority: CN
Inventors: 康显桂; 黎恩磊; 何自强
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-07-04
Anticipated expiration: 2040-03-18
Also published as: CN111445924A

Abstract

本发明提出一种基于自回归模型系数检测定位语音片段内平滑处理的方法，包括：S1.构造原始语音集和平滑语音集；S2.提取原始语音集的AR系数作为原始语音特征集；提取平滑语音集的AR系数作为平滑语音特征集；S3.分别随机筛选出原始语音特征集样本和平滑语音特征集样本，训练出SVM支持向量机分类器；S4.选取待测语音，将待测语音进行分帧，对每一帧待测语音信号分别提取AR系数，作为待测语音特征集；S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类，判断信号是否经过平滑处理，若经过平滑处理，则定位平滑处理的位置。本发明提出的方法不需要借助频率信息，减少了检测过程的计算量，提高了检测定位的准确率。

Description

基于自回归模型系数检测定位语音片段内平滑处理的方法

技术领域

本发明涉及语音片段平滑处理检测的技术领域，更具体地，涉及一种基于自回归模型系数检测定位语音片段内平滑处理的方法。

背景技术

随着多媒体技术的不断发展，人们可以轻易地获取各种各样的数字音频，而且随着一些专业的音频编辑软件如Audition等的普及和应用，人们可以轻易地使用音频编辑软件对数字音频进行编辑修改。数字音频作为证据在司法领域扮演着极为重要的角色，因此，有必要对数字音频的真实性进行检测。

平滑处理是一种常见的音频后处理手段，常被用于对数字音频篡改边缘的处理中。因此，可以通过检测数字音频中是否存在平滑处理，来辅助检测数字音频语音片段的真实性。

目前，现有使用频率信息如MFCC等特征检测语音片段平滑处理的方法，这些方法只适用于检测较长的语音片段，当语音片段很短时，语音片段中含有的频率信息非常有限，上述方法不能取得很好的检测效果；中山大学在2018年申请、公开号为CN110060703A的专利“一种检测并定位语音片段内的平滑处理的方法”以及Q.Yan,R.Yang和J.Huang 2019年在《IEEE Transactions on Information Forensics and Security》的期刊中公开了主题为“Detection of Speech Smoothing on Very Short Clips”的研究，均是针对语音片段的差分信号进行了分析，采用差分信号的标准差、差分信号高频分量的标准差、中值滤波残差的差分信号的标准差三个部分作为特征，来鉴别语音片段是否经过平滑处理，具有较高的检测准确率，能有效检测并定位出包括线性滤波器和非线性滤波器在内的6种常见的平滑处理操作，但是，需要进行多次差分计算和频率变换，而且当平滑处理的窗口较短时，不能取得很好的检测效果，稳定性不高。

自回归模型(Autoregressive Model，简称AR)是最常见的平稳时间序列模型之一，在统计上是一种处理时间序列的方法，AR被广泛运用在经济学、信息学、自然现象的预测上，主要对一维数据做时间序列分析，语音也属于一维数据，因此，提出一种基于AR系数检测定位语音片段内的平滑处理的方法具有重要意义。

发明内容

为克服现有技术检测较短语音片段或当平滑处理的窗口较短时，能借助的频率信息较少，具有检测准确率不高的缺陷，且计算量大，本发明提出一种基于自回归模型系数检测定位语音片段内平滑处理的方法，不需要借助频率信息，减少了检测过程的计算量，提高了检测准确率。

本发明旨在至少在一定程度上解决上述技术问题。

为了达到上述技术效果，本发明的技术方案如下：

一种基于自回归模型系数检测定位语音片段内平滑处理的方法，至少包括：

S1.构造原始语音集和平滑语音集；

S2.提取原始语音集的AR系数作为原始语音特征集；提取平滑语音集的AR系数作为平滑语音特征集；

S3.分别从原始语音特征集和平滑语音特征集中随机筛选出原始语音特征集样本和平滑语音特征集样本，训练出SVM支持向量机分类器；

S4.选取待测语音，将待测语音进行分帧，对每一帧待测语音信号分别提取AR系数，作为待测语音特征集；

S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类，判断信号是否经过平滑处理，若经过平滑处理，则定位平滑处理的位置。

由于待测语音的每一帧待测语音信号均提取了AR系数来作为待测语音特征集，AR系数是自回归系数，将每一帧待测语音信号的AR系数通过训练好的SVM支持向量机分类器进行分类，即可判断此帧待测语音信号是否经过了平滑处理，且通过判断待测语音特征集中待测语音信号被平滑处理的帧段可以定位平滑处理的位置。

优选地，步骤S1所述的构造原始语音集和平滑语音集的过程为：

S101.选取原始语音，从每段原始语音中截取100个样本点的、有声音的原始语音片段作为原始语音集；

S102.选定平滑滤波器，将平滑滤波器的滤波窗口长度分别设定为5、7、9、11、13、15和31；

S103.将原始语音集中的每一个原始语音片段利用平滑滤波器进行滤波处理，得到平滑语音集。

优选地，所述平滑滤波器包括：三角窗函数、均值滤波器、高斯滤波器和中值滤波器。

优选地，步骤S2所述的原始语音特征集是从原始语音集中提取的阶数为h的AR系数，h满足10≤h≤30；平滑语音特征集是从平滑语音集中提取的阶数为h的AR系数，h满足10≤h≤30，h表示正整数。

在此，由于原始语音集是从每段原始语音中截取的100个样本点的片段，因此，AR系数在1～99阶之间选定，但30阶之后的AR系数在提取之后应用时会出现信号波动，1～10阶之间的AR系数在应用时效果较差，因此提取原始语音集与平滑语音集的10～30阶之间任意一阶的AR系数作为特征集，然后特征集作为训练数据，训练出SVM支持向量机分类器，避免多次对语音信号进行差分计算和频率变换的麻烦，提高了检测平滑处理的效率。

优选地，步骤S3所述的从原始语音特征集随机筛选出的原始语音特征集样本的数量和从平滑语音特征集中随机筛选出的平滑语音特征集样本的数量相同。

优选地，步骤S4所述的待测语音特征集是对每一帧待测语音信号分别阶数为h的AR系数，h满足10≤h≤30，h表示正整数。

在此，若将每一帧待测语音信号的h阶AR系数通过训练好的SVM支持向量机分类器进行分类，即可判断此帧待测语音信号是否经过了平滑处理，语音片段内平滑处理的检测定位时不需进行语音差分处理，节省了检测时间。

优选地，步骤S5所述平滑处理的位置是通过判断待测语音特征集中信号被平滑处理的分帧帧段定位的。

与现有技术相比，本发明技术方案的有益效果是：

本发明提出了一种基于自回归模型系数检测定位语音片段内平滑处理的方法，提取AR系数作为原始语音特征集和平滑语音特征集，训练出SVM支持向量机分类器，将每一帧待测语音信号的AR系数作为待测语音特征集，由于每一帧待测语音信号均提取了AR系数来作为待测语音特征集，将每一帧待测语音信号的AR系数通过训练好的SVM支持向量机分类器进行分类，即可判断此帧待测语音信号是否经过了平滑处理，且通过判断待测语音特征集中信号被平滑处理的帧段可以定位平滑处理的位置，克服现有技术检测较短语音片段或当平滑处理的窗口较短时，因能借助的频率信息较少，具有检测准确率不高的缺陷，提高检测的准确率，而且减少了检测过程中多次进行差分计算和频率变换的麻烦，提高了平滑处理的检测定位效率。

附图说明

图1为基于自回归模型系数检测定位语音片段内平滑处理的方法流程示意图。

图2为窗口长度为15的三角窗函数示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

对于本领域技术人员来说，附图中某些公知说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

如图1所示，本发明提出的一种基于自回归模型系数检测定位语音片段内平滑处理的方法流程示意图，该方法用于分析判断语音片段是否被平滑处理并定位平滑处理的位置，包括以下步骤：

S1.构造原始语音集和平滑语音集；

S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类，判断信号是否经过平滑处理，若经过平滑处理，则定位平滑处理的位置，平滑处理的位置是通过判断待测语音特征集中信号被平滑处理的分帧帧段定位的。

步骤S1所述的构造原始语音集和平滑语音集的过程为：

在本实施例中，平滑滤波器包括：如图2所示的三角形窗函数、均值滤波器、高斯滤波器和中值滤波器，其中图2横坐标表示窗口长度，纵坐标表示权重。

在本实施例中，由于原始语音集是从每段原始语音中截取的100个样本点的片段，因此，AR系数在1～99阶之间选定，但30阶之后的AR系数在提取之后应用时会出现信号波动，1～10阶之间的AR系数在应用时效果较差，因此可以提取原始语音集与平滑语音集的10～30阶之间任意一阶的AR系数作为特征集，步骤S2所述的原始语音特征集是从原始语音集中提取阶数为20的AR系数；平滑语音特征集是从平滑语音集中提取的阶数为20的AR系数。

在本实施例中，步骤S4所述的待测语音特征集是对每一帧待测语音信号分别提取的20阶AR系数，将每一帧待测语音信号的h阶AR系数通过训练好的SVM支持向量机分类器进行分类，即可判断此帧待测语音信号是否经过了平滑处理，语音片段内平滑处理的检测定位时不需进行语音差分处理，节省了检测时间。

本实施例具体实施过程和效果如下：

本实施例采用一个包括6300段WAV格式语音文件的语音库，采样率为16000Hz，16bit。然后，从每段语音文件中截取100个样本点的有声音片段，得到6300段原始语音，组成原始语音集，对原始语音集中的6300段语音分别以5、7、9、11、13、15、31七种滤波窗口长度和中值滤波，三角窗函数，均值滤波，高斯滤波四种滤波窗口类型做平滑滤波处理，得到28组，共计176400段平滑语音，组成平滑语音集。

对上述得到的原始语音集和平滑语音集，分别提取其20阶的AR系数作为原始语音特征集和平滑语音特征集，原始语音特征集和平滑语音特征集各随机筛选出相同数量的样本，训练出SVM支持向量机分类器。

在本实施实例中共进行了两组实验，包括：根据本申请提出的方案进行的实验和利用语音差分信号特征进行平滑处理检测定位方法的比较实验。

第一组：对长度为100样本的语音片段进行实验，实验结果如表1所示：

表1：本发明提出的方法的检测率(语音片段长度为100个样本点)

其中，P_tp是平滑语音片段被判断为平滑语音片段的百分比，P_fp是原始语音被判断为平滑语音的片段的百分比，表1中的P_tp和P_fp是原始语音片段和平滑处理语音片段使用SVM支持向量机分类器分类的平均正确率。对于每种平滑处理操作，滤波器窗口分别有5、7、9、11、13、15和31七种长度。从表1的实验结果中可以看出，对于4种不同类型的平滑滤波操作，本申请提出的方法均能有效区分出语音片段是否经过平滑滤波处理，当滤波器窗口长度仅为5时，也能有效区分原始语音片段和平滑语音片段。

在已有的平滑处理检测方法的比较实验中，本实施例采用论文“Q.Yan,R.Yangand J.Huang,"Detection of Speech Smoothing on Very Short Clips,"in IEEETransactions on Information Forensics and Security,vol.14,no.9,pp.2441-2453,Sept.2019.”中提出的使用语音差分信号特征的方法作为对比实验，实验选取的语音片段长度为100个样本点，实验结果如表2所示：

表2：两种方法针对长度为100个样本点的语音片段的检测率

从表2的实验结果中可以看出，根据本申请的方案与采用语音差分信号特征的平滑处理检测方法的比较实验结果对比可知，本申请的方案进行四种滤波器类型的检测均值和标准差均优于采用语音差分信号特征的平滑处理检测方法，具有更高的准确率和稳定性，除此之外，还省去了多次差分计算和频率变换的过程。

上述两组实验表明，本申请提出的方法在检测语音片段内平滑处理方面有很好的效果。

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于自回归模型系数检测定位语音片段内平滑处理的方法，其特征在于，至少包括：

S1.构造原始语音集和平滑语音集；

步骤S1所述的构造原始语音集和平滑语音集的过程为：

S103.将原始语音集中的每一个原始语音片段利用平滑滤波器进行滤波处理，得到平滑语音集；

步骤S2所述的原始语音特征集是从原始语音集中提取的阶数为h的AR系数，h满足10≤h≤30，平滑语音特征集是从平滑语音集中提取的阶数为h的AR系数，h满足10≤h≤30，h表示正整数；

S3.分别从原始语音特征集和平滑语音特征集中随机筛选出原始语音特征集样本和平滑语音特征集样本，训练SVM支持向量机分类器；

步骤S3所述的从原始语音特征集随机筛选出的原始语音特征集样本的数量和从平滑语音特征集中随机筛选出的平滑语音特征集样本的数量相同；

步骤S4所述的待测语音特征集是对每一帧待测语音信号分别提取阶数为h的AR系数，h满足10≤h≤30，h表示正整数；

S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类，判断信号是否经过平滑处理，若经过平滑处理，则定位平滑处理的位置；

步骤S5所述平滑处理的位置是通过判断待测语音特征集中待测语音信号被平滑处理的分帧帧段定位的。

2.根据权利要求1所述的基于自回归模型系数检测定位语音片段内平滑处理的方法，其特征在于，所述平滑滤波器包括：三角窗函数、均值滤波器、高斯滤波器和中值滤波器。