CN111445924B - 基于自回归模型系数检测定位语音片段内平滑处理的方法 - Google Patents

基于自回归模型系数检测定位语音片段内平滑处理的方法 Download PDF

Info

Publication number
CN111445924B
CN111445924B CN202010192572.XA CN202010192572A CN111445924B CN 111445924 B CN111445924 B CN 111445924B CN 202010192572 A CN202010192572 A CN 202010192572A CN 111445924 B CN111445924 B CN 111445924B
Authority
CN
China
Prior art keywords
voice
feature set
original
smooth
detected
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010192572.XA
Other languages
English (en)
Other versions
CN111445924A (zh
Inventor
康显桂
黎恩磊
何自强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202010192572.XA priority Critical patent/CN111445924B/zh
Publication of CN111445924A publication Critical patent/CN111445924A/zh
Application granted granted Critical
Publication of CN111445924B publication Critical patent/CN111445924B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种基于自回归模型系数检测定位语音片段内平滑处理的方法,包括:S1.构造原始语音集和平滑语音集;S2.提取原始语音集的AR系数作为原始语音特征集;提取平滑语音集的AR系数作为平滑语音特征集;S3.分别随机筛选出原始语音特征集样本和平滑语音特征集样本,训练出SVM支持向量机分类器;S4.选取待测语音,将待测语音进行分帧,对每一帧待测语音信号分别提取AR系数,作为待测语音特征集;S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类,判断信号是否经过平滑处理,若经过平滑处理,则定位平滑处理的位置。本发明提出的方法不需要借助频率信息,减少了检测过程的计算量,提高了检测定位的准确率。

Description

基于自回归模型系数检测定位语音片段内平滑处理的方法
技术领域
本发明涉及语音片段平滑处理检测的技术领域,更具体地,涉及一种基于自回归模型系数检测定位语音片段内平滑处理的方法。
背景技术
随着多媒体技术的不断发展,人们可以轻易地获取各种各样的数字音频,而且随着一些专业的音频编辑软件如Audition等的普及和应用,人们可以轻易地使用音频编辑软件对数字音频进行编辑修改。数字音频作为证据在司法领域扮演着极为重要的角色,因此,有必要对数字音频的真实性进行检测。
平滑处理是一种常见的音频后处理手段,常被用于对数字音频篡改边缘的处理中。因此,可以通过检测数字音频中是否存在平滑处理,来辅助检测数字音频语音片段的真实性。
目前,现有使用频率信息如MFCC等特征检测语音片段平滑处理的方法,这些方法只适用于检测较长的语音片段,当语音片段很短时,语音片段中含有的频率信息非常有限,上述方法不能取得很好的检测效果;中山大学在2018年申请、公开号为CN110060703A的专利“一种检测并定位语音片段内的平滑处理的方法”以及Q.Yan,R.Yang和J.Huang 2019年在《IEEE Transactions on Information Forensics and Security》的期刊中公开了主题为“Detection of Speech Smoothing on Very Short Clips”的研究,均是针对语音片段的差分信号进行了分析,采用差分信号的标准差、差分信号高频分量的标准差、中值滤波残差的差分信号的标准差三个部分作为特征,来鉴别语音片段是否经过平滑处理,具有较高的检测准确率,能有效检测并定位出包括线性滤波器和非线性滤波器在内的6种常见的平滑处理操作,但是,需要进行多次差分计算和频率变换,而且当平滑处理的窗口较短时,不能取得很好的检测效果,稳定性不高。
自回归模型(Autoregressive Model,简称AR)是最常见的平稳时间序列模型之一,在统计上是一种处理时间序列的方法,AR被广泛运用在经济学、信息学、自然现象的预测上,主要对一维数据做时间序列分析,语音也属于一维数据,因此,提出一种基于AR系数检测定位语音片段内的平滑处理的方法具有重要意义。
发明内容
为克服现有技术检测较短语音片段或当平滑处理的窗口较短时,能借助的频率信息较少,具有检测准确率不高的缺陷,且计算量大,本发明提出一种基于自回归模型系数检测定位语音片段内平滑处理的方法,不需要借助频率信息,减少了检测过程的计算量,提高了检测准确率。
本发明旨在至少在一定程度上解决上述技术问题。
为了达到上述技术效果,本发明的技术方案如下:
一种基于自回归模型系数检测定位语音片段内平滑处理的方法,至少包括:
S1.构造原始语音集和平滑语音集;
S2.提取原始语音集的AR系数作为原始语音特征集;提取平滑语音集的AR系数作为平滑语音特征集;
S3.分别从原始语音特征集和平滑语音特征集中随机筛选出原始语音特征集样本和平滑语音特征集样本,训练出SVM支持向量机分类器;
S4.选取待测语音,将待测语音进行分帧,对每一帧待测语音信号分别提取AR系数,作为待测语音特征集;
S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类,判断信号是否经过平滑处理,若经过平滑处理,则定位平滑处理的位置。
由于待测语音的每一帧待测语音信号均提取了AR系数来作为待测语音特征集,AR系数是自回归系数,将每一帧待测语音信号的AR系数通过训练好的SVM支持向量机分类器进行分类,即可判断此帧待测语音信号是否经过了平滑处理,且通过判断待测语音特征集中待测语音信号被平滑处理的帧段可以定位平滑处理的位置。
优选地,步骤S1所述的构造原始语音集和平滑语音集的过程为:
S101.选取原始语音,从每段原始语音中截取100个样本点的、有声音的原始语音片段作为原始语音集;
S102.选定平滑滤波器,将平滑滤波器的滤波窗口长度分别设定为5、7、9、11、13、15和31;
S103.将原始语音集中的每一个原始语音片段利用平滑滤波器进行滤波处理,得到平滑语音集。
优选地,所述平滑滤波器包括:三角窗函数、均值滤波器、高斯滤波器和中值滤波器。
优选地,步骤S2所述的原始语音特征集是从原始语音集中提取的阶数为h的AR系数,h满足10≤h≤30;平滑语音特征集是从平滑语音集中提取的阶数为h的AR系数,h满足10≤h≤30,h表示正整数。
在此,由于原始语音集是从每段原始语音中截取的100个样本点的片段,因此,AR系数在1~99阶之间选定,但30阶之后的AR系数在提取之后应用时会出现信号波动,1~10阶之间的AR系数在应用时效果较差,因此提取原始语音集与平滑语音集的10~30阶之间任意一阶的AR系数作为特征集,然后特征集作为训练数据,训练出SVM支持向量机分类器,避免多次对语音信号进行差分计算和频率变换的麻烦,提高了检测平滑处理的效率。
优选地,步骤S3所述的从原始语音特征集随机筛选出的原始语音特征集样本的数量和从平滑语音特征集中随机筛选出的平滑语音特征集样本的数量相同。
优选地,步骤S4所述的待测语音特征集是对每一帧待测语音信号分别阶数为h的AR系数,h满足10≤h≤30,h表示正整数。
在此,若将每一帧待测语音信号的h阶AR系数通过训练好的SVM支持向量机分类器进行分类,即可判断此帧待测语音信号是否经过了平滑处理,语音片段内平滑处理的检测定位时不需进行语音差分处理,节省了检测时间。
优选地,步骤S5所述平滑处理的位置是通过判断待测语音特征集中信号被平滑处理的分帧帧段定位的。
与现有技术相比,本发明技术方案的有益效果是:
本发明提出了一种基于自回归模型系数检测定位语音片段内平滑处理的方法,提取AR系数作为原始语音特征集和平滑语音特征集,训练出SVM支持向量机分类器,将每一帧待测语音信号的AR系数作为待测语音特征集,由于每一帧待测语音信号均提取了AR系数来作为待测语音特征集,将每一帧待测语音信号的AR系数通过训练好的SVM支持向量机分类器进行分类,即可判断此帧待测语音信号是否经过了平滑处理,且通过判断待测语音特征集中信号被平滑处理的帧段可以定位平滑处理的位置,克服现有技术检测较短语音片段或当平滑处理的窗口较短时,因能借助的频率信息较少,具有检测准确率不高的缺陷,提高检测的准确率,而且减少了检测过程中多次进行差分计算和频率变换的麻烦,提高了平滑处理的检测定位效率。
附图说明
图1为基于自回归模型系数检测定位语音片段内平滑处理的方法流程示意图。
图2为窗口长度为15的三角窗函数示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
对于本领域技术人员来说,附图中某些公知说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
如图1所示,本发明提出的一种基于自回归模型系数检测定位语音片段内平滑处理的方法流程示意图,该方法用于分析判断语音片段是否被平滑处理并定位平滑处理的位置,包括以下步骤:
S1.构造原始语音集和平滑语音集;
S2.提取原始语音集的AR系数作为原始语音特征集;提取平滑语音集的AR系数作为平滑语音特征集;
S3.分别从原始语音特征集和平滑语音特征集中随机筛选出原始语音特征集样本和平滑语音特征集样本,训练出SVM支持向量机分类器;
S4.选取待测语音,将待测语音进行分帧,对每一帧待测语音信号分别提取AR系数,作为待测语音特征集;
S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类,判断信号是否经过平滑处理,若经过平滑处理,则定位平滑处理的位置,平滑处理的位置是通过判断待测语音特征集中信号被平滑处理的分帧帧段定位的。
步骤S1所述的构造原始语音集和平滑语音集的过程为:
S101.选取原始语音,从每段原始语音中截取100个样本点的、有声音的原始语音片段作为原始语音集;
S102.选定平滑滤波器,将平滑滤波器的滤波窗口长度分别设定为5、7、9、11、13、15和31;
S103.将原始语音集中的每一个原始语音片段利用平滑滤波器进行滤波处理,得到平滑语音集。
在本实施例中,平滑滤波器包括:如图2所示的三角形窗函数、均值滤波器、高斯滤波器和中值滤波器,其中图2横坐标表示窗口长度,纵坐标表示权重。
在本实施例中,由于原始语音集是从每段原始语音中截取的100个样本点的片段,因此,AR系数在1~99阶之间选定,但30阶之后的AR系数在提取之后应用时会出现信号波动,1~10阶之间的AR系数在应用时效果较差,因此可以提取原始语音集与平滑语音集的10~30阶之间任意一阶的AR系数作为特征集,步骤S2所述的原始语音特征集是从原始语音集中提取阶数为20的AR系数;平滑语音特征集是从平滑语音集中提取的阶数为20的AR系数。
在本实施例中,步骤S4所述的待测语音特征集是对每一帧待测语音信号分别提取的20阶AR系数,将每一帧待测语音信号的h阶AR系数通过训练好的SVM支持向量机分类器进行分类,即可判断此帧待测语音信号是否经过了平滑处理,语音片段内平滑处理的检测定位时不需进行语音差分处理,节省了检测时间。
本实施例具体实施过程和效果如下:
本实施例采用一个包括6300段WAV格式语音文件的语音库,采样率为16000Hz,16bit。然后,从每段语音文件中截取100个样本点的有声音片段,得到6300段原始语音,组成原始语音集,对原始语音集中的6300段语音分别以5、7、9、11、13、15、31七种滤波窗口长度和中值滤波,三角窗函数,均值滤波,高斯滤波四种滤波窗口类型做平滑滤波处理,得到28组,共计176400段平滑语音,组成平滑语音集。
对上述得到的原始语音集和平滑语音集,分别提取其20阶的AR系数作为原始语音特征集和平滑语音特征集,原始语音特征集和平滑语音特征集各随机筛选出相同数量的样本,训练出SVM支持向量机分类器。
在本实施实例中共进行了两组实验,包括:根据本申请提出的方案进行的实验和利用语音差分信号特征进行平滑处理检测定位方法的比较实验。
第一组:对长度为100样本的语音片段进行实验,实验结果如表1所示:
表1:本发明提出的方法的检测率(语音片段长度为100个样本点)
Figure BDA0002416441640000061
其中,Ptp是平滑语音片段被判断为平滑语音片段的百分比,Pfp是原始语音被判断为平滑语音的片段的百分比,表1中的Ptp和Pfp是原始语音片段和平滑处理语音片段使用SVM支持向量机分类器分类的平均正确率。对于每种平滑处理操作,滤波器窗口分别有5、7、9、11、13、15和31七种长度。从表1的实验结果中可以看出,对于4种不同类型的平滑滤波操作,本申请提出的方法均能有效区分出语音片段是否经过平滑滤波处理,当滤波器窗口长度仅为5时,也能有效区分原始语音片段和平滑语音片段。
在已有的平滑处理检测方法的比较实验中,本实施例采用论文“Q.Yan,R.Yangand J.Huang,"Detection of Speech Smoothing on Very Short Clips,"in IEEETransactions on Information Forensics and Security,vol.14,no.9,pp.2441-2453,Sept.2019.”中提出的使用语音差分信号特征的方法作为对比实验,实验选取的语音片段长度为100个样本点,实验结果如表2所示:
表2:两种方法针对长度为100个样本点的语音片段的检测率
Figure BDA0002416441640000071
从表2的实验结果中可以看出,根据本申请的方案与采用语音差分信号特征的平滑处理检测方法的比较实验结果对比可知,本申请的方案进行四种滤波器类型的检测均值和标准差均优于采用语音差分信号特征的平滑处理检测方法,具有更高的准确率和稳定性,除此之外,还省去了多次差分计算和频率变换的过程。
上述两组实验表明,本申请提出的方法在检测语音片段内平滑处理方面有很好的效果。
附图中描述位置关系的用于仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (2)

1.一种基于自回归模型系数检测定位语音片段内平滑处理的方法,其特征在于,至少包括:
S1.构造原始语音集和平滑语音集;
步骤S1所述的构造原始语音集和平滑语音集的过程为:
S101.选取原始语音,从每段原始语音中截取100个样本点的、有声音的原始语音片段作为原始语音集;
S102.选定平滑滤波器,将平滑滤波器的滤波窗口长度分别设定为5、7、9、11、13、15和31;
S103.将原始语音集中的每一个原始语音片段利用平滑滤波器进行滤波处理,得到平滑语音集;
S2.提取原始语音集的AR系数作为原始语音特征集;提取平滑语音集的AR系数作为平滑语音特征集;
步骤S2所述的原始语音特征集是从原始语音集中提取的阶数为h的AR系数,h满足10≤h≤30,平滑语音特征集是从平滑语音集中提取的阶数为h的AR系数,h满足10≤h≤30,h表示正整数;
S3.分别从原始语音特征集和平滑语音特征集中随机筛选出原始语音特征集样本和平滑语音特征集样本,训练SVM支持向量机分类器;
步骤S3所述的从原始语音特征集随机筛选出的原始语音特征集样本的数量和从平滑语音特征集中随机筛选出的平滑语音特征集样本的数量相同;
S4.选取待测语音,将待测语音进行分帧,对每一帧待测语音信号分别提取AR系数,作为待测语音特征集;
步骤S4所述的待测语音特征集是对每一帧待测语音信号分别提取阶数为h的AR系数,h满足10≤h≤30,h表示正整数;
S5.利用训练好的SVM支持向量机分类器对待测语音特征集进行分类,判断信号是否经过平滑处理,若经过平滑处理,则定位平滑处理的位置;
步骤S5所述平滑处理的位置是通过判断待测语音特征集中待测语音信号被平滑处理的分帧帧段定位的。
2.根据权利要求1所述的基于自回归模型系数检测定位语音片段内平滑处理的方法,其特征在于,所述平滑滤波器包括:三角窗函数、均值滤波器、高斯滤波器和中值滤波器。
CN202010192572.XA 2020-03-18 2020-03-18 基于自回归模型系数检测定位语音片段内平滑处理的方法 Active CN111445924B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010192572.XA CN111445924B (zh) 2020-03-18 2020-03-18 基于自回归模型系数检测定位语音片段内平滑处理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010192572.XA CN111445924B (zh) 2020-03-18 2020-03-18 基于自回归模型系数检测定位语音片段内平滑处理的方法

Publications (2)

Publication Number Publication Date
CN111445924A CN111445924A (zh) 2020-07-24
CN111445924B true CN111445924B (zh) 2023-07-04

Family

ID=71629334

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010192572.XA Active CN111445924B (zh) 2020-03-18 2020-03-18 基于自回归模型系数检测定位语音片段内平滑处理的方法

Country Status (1)

Country Link
CN (1) CN111445924B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111921061B (zh) * 2020-08-04 2022-04-19 四川大学 一种分形与掩蔽结合的耳鸣康复音合成方法及系统
CN112967712A (zh) * 2021-02-25 2021-06-15 中山大学 一种基于自回归模型系数的合成语音检测方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072833B2 (en) * 2000-06-02 2006-07-04 Canon Kabushiki Kaisha Speech processing system
JP4576612B2 (ja) * 2005-09-13 2010-11-10 独立行政法人産業技術総合研究所 音声認識方法および音声認識装置
CN102708861A (zh) * 2012-06-15 2012-10-03 天格科技(杭州)有限公司 基于支持向量机的不良语音识别方法
CN105719660B (zh) * 2016-01-21 2019-08-20 宁波大学 一种基于量化特性的语音篡改定位检测方法
CN110060703B (zh) * 2018-01-19 2021-05-04 深圳大学 一种检测并定位语音片段内的平滑处理的方法
CN109192196A (zh) * 2018-08-22 2019-01-11 昆明理工大学 一种抗噪的svm分类器的音频特征选择方法

Also Published As

Publication number Publication date
CN111445924A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
Chou et al. Robust singing detection in speech/music discriminator design
CN111445924B (zh) 基于自回归模型系数检测定位语音片段内平滑处理的方法
EP2413313B1 (en) Method and device for audio signal classification
CN107274915B (zh) 一种基于特征融合的数字音频篡改自动检测方法
CN101221762A (zh) 一种mp3压缩域音频分割方法
CN100530354C (zh) 信息检测装置、方法和程序
CN108538312B (zh) 基于贝叶斯信息准则的数字音频篡改点自动定位的方法
CN108509558B (zh) 一种抗变速干扰的采样计数音频检索方法
CN104021785A (zh) 一种提取会议中最重要嘉宾语音的方法
CN110264999A (zh) 一种音频处理方法、设备及计算机可读介质
CN110767248B (zh) 一种抗变调干扰的音频指纹提取方法
CN103165127A (zh) 声音分段设备和方法以及声音检测系统
CN111429943B (zh) 音频中音乐及音乐相对响度的联合检测方法
Delacourt et al. Speaker-based segmentation for audio data indexing
Liang et al. Feature analysis and extraction for audio automatic classification
Chandra et al. Usable speech detection using the modified spectral autocorrelation peak to valley ratio using the LPC residual
CN110060703B (zh) 一种检测并定位语音片段内的平滑处理的方法
CN116884431A (zh) 基于cfcc特征的鲁棒音频复制粘贴篡改检测方法及装置
Wang et al. Automatic audio segmentation using the generalized likelihood ratio
CN106503181A (zh) 一种音频数据处理方法及装置
CN113990297A (zh) 一种基于enf的音频篡改识别方法
Baskoro et al. Analysis of Voice Changes in Anti Forensic Activities Case Study: Voice Changer with Telephone Effect
JP2002062892A (ja) 音響分類装置
Kobatake et al. Linear predictive coding of speech signals in a high ambient noise environment
CN111009263A (zh) 一种用于肺部啰音识别的系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant