CN106328168B - 一种语音信号相似度检测方法 - Google Patents

一种语音信号相似度检测方法 Download PDF

Info

Publication number
CN106328168B
CN106328168B CN201610756211.7A CN201610756211A CN106328168B CN 106328168 B CN106328168 B CN 106328168B CN 201610756211 A CN201610756211 A CN 201610756211A CN 106328168 B CN106328168 B CN 106328168B
Authority
CN
China
Prior art keywords
sound bite
measured
voice signal
similarity
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610756211.7A
Other languages
English (en)
Other versions
CN106328168A (zh
Inventor
张洪英
张杰良
成立然
郑泽俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CHENGDU PTLC COMMUNICATIONS TECHNOLOGY Co Ltd
Original Assignee
CHENGDU PTLC COMMUNICATIONS TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CHENGDU PTLC COMMUNICATIONS TECHNOLOGY Co Ltd filed Critical CHENGDU PTLC COMMUNICATIONS TECHNOLOGY Co Ltd
Priority to CN201610756211.7A priority Critical patent/CN106328168B/zh
Publication of CN106328168A publication Critical patent/CN106328168A/zh
Application granted granted Critical
Publication of CN106328168B publication Critical patent/CN106328168B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Time-Division Multiplex Systems (AREA)

Abstract

本发明公开了一种语音信号相似度检测方法,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。本发明应用时能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。

Description

一种语音信号相似度检测方法
技术领域
本发明涉及音频处理技术领域,具体是一种语音信号相似度检测方法。
背景技术
音频是多媒体应用的一种重要媒体,人们能听见的音频信号的频率范围大约在20Hz~20kHz,而其中语音信号大约分布在300Hz~4kHz之内。在音频信号的传输过程中常常会涉及信号传输通道性能的检测,目前人们普遍通过检测待测通道与基准通道两者语音片段相似度来测试待测通道的性能。采用现有方式检测语音片段相似度时,受偶发性噪声干扰的影响,检测的准确率较低,衡量待测通道性能时参考意义不大。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种语音信号相似度检测方法,其能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。
本发明的目的主要通过以下技术方案实现:一种语音信号相似度检测方法,包括以下步骤:
步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;
步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;
步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。本发明通过对语音信号连续采集,获取连续片段,取片段相似度的累积算术平均值,以抵消偶发性噪声干扰。
进一步的,所述步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:
步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;
步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;
步骤1.3、计算短时能量,并调整能量门限;
步骤1.4、端点检测,并提取语音片段。语音信号是连续的信号,本发明通过分帧将一次接收到的一大块语音信号分割成多个小块语音信号进行处理。本发明通过计算短时平均过零率(即计算每帧内信号通过零值的次数)来反应频率信息,得到频谱特性。因语音信号的能量随时间变化较明显,而短时能量能有效的判断信号幅度的大小,故本发明通过计算短时能量,用于有声或无声的判断。因语音信号的能量随时间变化比较明显,故本发明在判断信号是有声还是无声时,对每帧的信号门限做出了相应的调整。本发明在端点检测时,具体根据步骤1.2中计算的短时平均过零率和步骤1.3中计算的短时能量,与每帧数据做比较来判断是否是语音信号。
进一步的,所述步骤1.2中计算短时平均过零率的公式为:
其中,Zn为短时平均过零率,m为经矩形窗处理后数据的索引,n为原始信号数据索引,x(m)为经过加窗处理后的信号。
进一步的,所述步骤1.3中计算短时能量的公式为:
其中,En为短时能量,Q为窗函数的长度。
进一步的,所述步骤1.3中调整能量门限的公式如下:
a其中,amp1为能量门限的上限值,amp2为能量门限的下限值。
本发明在调整能量门限时,限定上限值为10与max(En)/4中的较小值,下限值为2与max(En)/8中的较小值,低于下限的情况,则认定为静音,高于上限的情况,则认定为偶发的噪声。
进一步的,所述步骤2中计算相似度包括以下步骤:
步骤2.1、对待测语音信号的语音片段及其对应的基准语音信号的语音片段均进行FFT变换;
步骤2.2、计算功率;
步骤2.3、计算相似度。语音信号是时域信号,本发明通过FFT变换以获得时域信号的频谱特性,进而获得语音信号的频率,相位,功率等特性。
进一步的,所述步骤2.1中FFT变换的公式如下:
其中,X(k)为经过FFT变换后的数据,k为经FFT变换后数据索引,x(n)为原始数据,n为原始信号数据索引,i为虚数,M为变换数据的个数。
进一步的,所述步骤2.2计算功率的公式如下:
其中,T为信号数据长度,Ps(ω)为语音片段音频数据点所对应的功率。
进一步的,所述步骤2中计算语音片段相似度的公式如下:
其中,S为语音片段相似度,i表示语音片段,Xi为基准语音信号第i段语音片段音频数据点所对应的功率,Yi为待测语音信号第i段语音片段音频数据点所对应的功率,为基准语音信号的平均功率,为待测语音信号的平均功率。
进一步的,所述步骤3中所述累积平均值计算方法采用的公式如下:
综上所述,本发明具有以下有益效果:本发明应用时先通过将基准通道中基准语音信号和待测通道中待测语音信号均分为N段语音片段,再计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度,然后计算累积相似度平均值,所获得的相似度值为多次检测相似度的累积平均值,其能降低偶发性噪声干扰的影响,检测值更接近于真实值,能提升检测待测通道相对于基准通道的语音相似度的准确率,进而便于在衡量待测通道性能方面进行推广应用。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1为本发明一个具体实施例的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
实施例:
如图1所示,一种语音信号相似度检测方法,包括以下步骤:步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。
本实施例步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;步骤1.3、计算短时能量,并调整能量门限;步骤1.4、端点检测,并提取语音片段。本实施例步骤1.4中端点检测具体操作步骤为:根据步骤1.2中计算的短时平均过零率和步骤1.3中计算的短时能量,对这每个片段做判断,超过平均过零率且在能量门限范围内的,则为语音片段,多个连续的语音片段组合在一起,就能获得一大块信号的语音。
本实施例步骤1.2中加矩形窗形成加窗信号的具体操作步骤如下:用矩形窗函数与分帧后的信号相乘,形成加窗信号。矩形窗函数为:
其中,j为数据下标,Q为窗函数长度。
步骤1.2中计算短时平均过零率的公式为:
其中,Zn为短时平均过零率,m为经矩形窗处理后数据的索引,n为原始信号数据索引,x(m)为经过加窗处理后的信号。
本实施例步骤1.3中计算短时能量的公式为:
其中,En为短时能量。
本实施例步骤1.3中调整能量门限的公式如下:
其中,amp1为能量门限的上限值,amp2为能量门限的下限值。
本实施例步骤2中计算相似度包括以下步骤:步骤2.1、对待测语音信号的语音片段及其对应的基准语音信号的语音片段均进行FFT变换;步骤2.2、计算功率;步骤2.3、计算相似度。本实施例所述步骤2.1中FFT变换的公式如下:
其中,X(k)为经过FFT变换后的数据,k为经FFT变换后数据索引,x(n)为原始数据,n为原始信号数据索引,i为虚数,M为变换数据的个数。
本实施例步骤2.2计算功率的公式如下:
其中,T为信号数据长度,Ps(ω)为语音片段音频数据点所对应的功率。
本实施例步骤2中计算语音片段相似度的公式如下:
其中,S为累积相似度平均值,i表示语音片段,Xi为基准语音信号第i段语音片段音频数据点所对应的功率,Yi为待测语音信号第i段语音片段音频数据点所对应的功率,为基准语音信号的平均功率,为待测语音信号的平均功率。
本实施例步骤3中所述累积平均值计算方法采用的公式如下:
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种语音信号相似度检测方法,其特征在于,包括以下步骤:
步骤1、将基准通道中基准语音信号和待测通道中待测语音信号均提取得到N段语音片段,对N段基准语音信号的语音片段和N段待测语音信号的语音片段分别进行排序,并使N段基准语音信号的语音片段与N段待测语音信号的语音片段一一对应;其中,N为不小于2的整数;
步骤2、逐一计算每段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度;所述步骤2中计算相似度包括以下步骤:
步骤2.1、对待测语音信号的语音片段及其对应的基准语音信号的语音片段均进行FFT变换;
步骤2.2、计算功率;
步骤2.3、计算相似度;
步骤3、待N段待测语音信号的语音片段及其对应的基准语音信号的语音片段的相似度均计算完成后,采用累积平均值计算方法计算累积相似度平均值。
2.根据权利要求1所述的一种语音信号相似度检测方法,其特征在于,所述步骤1中提取基准语音信号和待测语音信号两者的语音片段时包括以下步骤:
步骤1.1、分帧,其中,每帧语音信号对应一段语音片段;
步骤1.2、加矩形窗形成加窗信号,计算短时平均过零率;
步骤1.3、计算短时能量,并调整能量门限;
步骤1.4、端点检测,并提取语音片段。
3.根据权利要求2所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.2中计算短时平均过零率的公式为:
其中,Zn为短时平均过零率,m为经矩形窗处理后数据的索引,n为原始信号数据索引,x(m)为经过加窗处理后的信号。
4.根据权利要求3所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.3中计算短时能量的公式为:
其中,En为短时能量,Q为窗函数的长度。
5.根据权利要求4所述的一种语音信号相似度检测方法,其特征在于,所述步骤1.3中调整能量门限的公式如下:
其中,amp1为能量门限的上限值,amp2为能量门限的下限值。
6.根据权利要求1所述的一种语音信号相似度检测方法,其特征在于,所述步骤2.1中FFT变换的公式如下:
其中,X(k)为经过FFT变换后的数据,k为经FFT变换后数据索引,x(n)为原始数据,n为原始信号数据索引,i为虚数,M为变换数据的个数。
7.根据权利要求6所述的一种语音信号相似度检测方法,其特征在于,所述步骤2.2计算功率的公式如下:
其中,T为信号数据长度,Ps(ω)为语音片段音频数据点所对应的功率。
CN201610756211.7A 2016-08-30 2016-08-30 一种语音信号相似度检测方法 Active CN106328168B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610756211.7A CN106328168B (zh) 2016-08-30 2016-08-30 一种语音信号相似度检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610756211.7A CN106328168B (zh) 2016-08-30 2016-08-30 一种语音信号相似度检测方法

Publications (2)

Publication Number Publication Date
CN106328168A CN106328168A (zh) 2017-01-11
CN106328168B true CN106328168B (zh) 2019-10-18

Family

ID=57788467

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610756211.7A Active CN106328168B (zh) 2016-08-30 2016-08-30 一种语音信号相似度检测方法

Country Status (1)

Country Link
CN (1) CN106328168B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887241A (zh) 2016-10-12 2017-06-23 阿里巴巴集团控股有限公司 一种语音信号检测方法与装置
CN107659888A (zh) * 2017-08-21 2018-02-02 广州酷狗计算机科技有限公司 识别伪立体声音频的方法、装置及存储介质
CN108051677B (zh) * 2017-12-13 2020-02-14 杭州欣扬科技有限公司 滑环信号传输性能检测装置及控制方法
CN108711437A (zh) * 2018-03-06 2018-10-26 深圳市沃特沃德股份有限公司 语音处理方法和装置
CN108922561A (zh) * 2018-06-04 2018-11-30 平安科技(深圳)有限公司 语音区分方法、装置、计算机设备及存储介质
CN108881652B (zh) * 2018-07-11 2021-02-26 北京大米科技有限公司 回音检测方法、存储介质和电子设备
CN108962268B (zh) * 2018-07-26 2020-11-03 广州酷狗计算机科技有限公司 确定单声道的音频的方法和装置
CN112863547B (zh) * 2018-10-23 2022-11-29 腾讯科技(深圳)有限公司 虚拟资源转移处理方法、装置、存储介质及计算机设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100359559C (zh) * 2004-04-01 2008-01-02 凌阳科技股份有限公司 自动音源相似度比对方法及装置
CN100514446C (zh) * 2004-09-16 2009-07-15 北京中科信利技术有限公司 一种基于语音识别及语音分析的发音评估方法
CN102496366B (zh) * 2011-12-20 2014-04-09 上海理工大学 一种与文本无关的说话人识别方法
CN102664016B (zh) * 2012-04-23 2014-05-14 安徽科大讯飞信息科技股份有限公司 唱歌评测方法及系统
CN103236260B (zh) * 2013-03-29 2015-08-12 京东方科技集团股份有限公司 语音识别系统
CN104732977B (zh) * 2015-03-09 2018-05-11 广东外语外贸大学 一种在线口语发音质量评价方法和系统

Also Published As

Publication number Publication date
CN106328168A (zh) 2017-01-11

Similar Documents

Publication Publication Date Title
CN106328168B (zh) 一种语音信号相似度检测方法
CN103871418B (zh) 一种扩声系统啸叫频点的检测方法及装置
CN104464722A (zh) 基于时域和频域的语音活性检测方法和设备
JP2004254322A5 (zh)
EP3172906B1 (en) Method and apparatus for wind noise detection
CN102436821B (zh) 一种自适应调节音效的方法和设备
WO2015196760A1 (zh) 一种麦克风阵列语音检测方法及装置
CA2458428A1 (en) System for suppressing wind noise
CN105308985B (zh) 一种声反馈消除模块、用于抑制不期望的啸叫声音的方法及音频系统
CN104157295A (zh) 用于检测及抑制瞬态噪声的方法
CA2699316A1 (en) Apparatus and method for calculating bandwidth extension data using a spectral tilt controlled framing
CN105872910A (zh) 一种音频信号啸叫检测方法
CN106226739A (zh) 融合子带分析的双声源定位方法
CN102606891A (zh) 漏水检测仪及检测系统、及检测方法
CN102801861A (zh) 一种应用于手机的语音增强方法和装置
CN105261359A (zh) 手机麦克风的消噪系统和消噪方法
CN104464728A (zh) 基于gmm噪声估计的语音增强方法
CN110782910A (zh) 一种高检出率的啸叫音频检测系统
CN103996399B (zh) 语音检测方法和系统
Towsey Noise removal from wave-forms and spectrograms derived from natural recordings of the environment
CN105590630A (zh) 基于指定带宽的定向噪音抑制方法
CN103905656A (zh) 残留回声的检测方法及装置
WO2013170610A1 (zh) 检测基音周期的正确性的方法和装置
CN103268766A (zh) 双麦克风语音增强方法及装置
CN104021791B (zh) 数字音频波形突变的检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Voice signal similarity detection method

Effective date of registration: 20200422

Granted publication date: 20191018

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU LINKON COMMUNICATIONS DEVICE Co.,Ltd.

Registration number: Y2020980001705

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20210526

Granted publication date: 20191018

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU LINKON COMMUNICATIONS DEVICE Co.,Ltd.

Registration number: Y2020980001705

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A speech signal similarity detection method

Effective date of registration: 20210713

Granted publication date: 20191018

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU LINKON COMMUNICATIONS DEVICE Co.,Ltd.

Registration number: Y2021980006061

PE01 Entry into force of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20220811

Granted publication date: 20191018

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU LINKON COMMUNICATIONS DEVICE CO.,LTD.

Registration number: Y2021980006061

PC01 Cancellation of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method of Speech Signal Similarity Detection

Effective date of registration: 20230210

Granted publication date: 20191018

Pledgee: Chengdu SME financing Company Limited by Guarantee

Pledgor: CHENGDU LINKON COMMUNICATIONS DEVICE CO.,LTD.

Registration number: Y2023980032413

PE01 Entry into force of the registration of the contract for pledge of patent right