CN107331393A - 一种自适应语音活动检测方法 - Google Patents

一种自适应语音活动检测方法 Download PDF

Info

Publication number
CN107331393A
CN107331393A CN201710694057.XA CN201710694057A CN107331393A CN 107331393 A CN107331393 A CN 107331393A CN 201710694057 A CN201710694057 A CN 201710694057A CN 107331393 A CN107331393 A CN 107331393A
Authority
CN
China
Prior art keywords
quote
comparing result
threshold
activity detection
voice activity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710694057.XA
Other languages
English (en)
Other versions
CN107331393B (zh
Inventor
何云鹏
张来
高君效
许兵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Leader Technology Co Ltd
Chipintelli Technology Co Ltd
Original Assignee
Chengdu Leader Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Leader Technology Co Ltd filed Critical Chengdu Leader Technology Co Ltd
Priority to CN201710694057.XA priority Critical patent/CN107331393B/zh
Publication of CN107331393A publication Critical patent/CN107331393A/zh
Application granted granted Critical
Publication of CN107331393B publication Critical patent/CN107331393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Complex Calculations (AREA)

Abstract

本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法,本发明通过对语音系统里的语音是否在活动进行检测,来控制设备的工作状态,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而能够降低设备运算要求和功耗同时对于语音通信设备来讲,降低通信带宽。

Description

一种自适应语音活动检测方法
技术领域
本发明涉及语音信号处理领域,特别是涉及到一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
背景技术
目前语音识别作为一种常用的人机交互技术,已广泛应用于各类电子产品中,以其自然方便的交互方式收到了消费者的喜爱,逐渐成为了智能产品时代的主流交互控制方式,在语音处理领域,作为所有的语音信号处理的起点,语音活动检测技术的结算结果直接决定了后续各种处理是否实行,同时对于语音识别系统来讲,语音活动检测是实现低功耗和提高识别率中非常重要的一步。目前的难点主要在于,1)多特征激活时,不同的特征的选择来实现不同的频率选择特性和同时兼顾频域和时域特性的不同特征选择。2)多门槛特征如何合理利用语音活动检测的结果,反过来更新门槛值。
为解决上述问题,需要发明一种基于时域和频域特征提取的混合三门限的自适应语音活动检测方法。
发明内容
本发明的目的在于克服现有技术中所存在的上述不足,提供一种基于时域能量的门限检查、噪音频谱估计的双门限及粗检测的门限更新的自适应语音活动检测方法。
为了达到上述目的,本发明提供了如下技术方案。
一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量特征;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用 QUOTE 、 QUOTE 、 QUOTE 表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前c个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,c为10到30之间的任一数值,如果所述增长函数特性、谱通量及能量的操纵符特征前d帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前d个特征数据中的最大值作为新的门槛一、门槛二和门槛三,d为10到30之间的任一数值;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中超过一半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前s帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0,s为10到30之间的任一数值。
作为本发明的优选方案,所述单帧频域信息通过以下公式获得: QUOTE
其中:QUOTE ,QUOTE 为偶数序列和基数序列,QUOTE 为权重系数,
QUOTE
作为本发明的优选方案,所述增长函数特征通过公式 QUOTE 获得,其中i代表第i帧。
作为本发明的优选方案,所述谱通量通过公式 QUOTE 获得。
作为本发明的优选方案,所述能量的操作符特征通过公式 QUOTE 来实现提取,通过调整k的大小来实现频率的选择。
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
作为本发明的优选方案,所述步骤七通过公式 QUOTE 来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能,T越大,语音误检率会降低,但是漏检率会增高;反之,误检率会增高,但是漏检率会降低。
作为本发明的优选方案,所述步骤八的更新过程如下:
if QUOTE
TH(l)=max(F(i-d:i,l))
End。
作为本发明的优选方案,所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息。
与现有技术相比,本发明的有益效果:
本发明提供了一种自适应语音活动检测方法,该方法可以对语音系统里的语音是否在活动进行检测,当语音不活动的时候,设备可以处于低功耗或者挂起状态,从而在降低设备运算要求和功耗的同时降低了语音通信设备的通信带宽。
附图说明
图1为本发明流程图。
具体实施方式
下面结合实施例及具体实施方式对本发明作进一步的详细描述,但不应将此理解为本发明上述主体的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
如图1所示,一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号,在本实施例中帧长时间为32毫秒,帧移时间为16毫秒;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用 QUOTE 、 QUOTE 、 QUOTE 表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三,选择所述增长函数特性、谱通量及能量的操纵符特征的特征缓冲区内前15个最小值与所述门槛一、门槛二和门槛三做对比,选择二者中的最大值,作为新的门槛一、门槛二和门槛三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧的语音检测结果都为0,则选择所述增长函数特性、谱通量及能量的操纵符特征前15个特征数据中的最大值作为新的门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中超过1半的时间帧取值为1则代表检测到了语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前15帧语音全部判定为检测到语音,全部取值为1,如果所述增长函数特性、谱通量及能量的操纵符特征前15帧语音对比结果中少于1半的时间帧取值为1则代表未检测到语音信息,把所述增长函数特性、谱通量及能量的操纵符特征的前s帧语音全部判定为未检测到语音,全部取值为0。
单帧频域信息通过以下公式获得:QUOTE
其中: QUOTE ,QUOTE 为偶数序列和基数序列,QUOTE 为权重系数,
QUOTE ,公式中N取值为512,k取值为18。
所述增长函数特征通过公式 QUOTE 获得,其中i代表第i帧,i代表当前帧的标号,随着算法的运行,每判定完1帧,取值自动增加1。
所述谱通量通过公式QUOTE 获得。
所述能量的操作符特征通过公式 QUOTE 来实现提取,通过调整k的大小来实现频率的选择,本实施例中k取值18。
合适的选择增长函数中的不同的频带和能量操作符中的参数k,可以实现不同的频带选择特性。
步骤七通过公式 QUOTE 来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能,T越大,语音误检率会降低,但是漏检率会增高;反之,误检率会增高,但是漏检率会降低。
步骤八的更新过程如下:
if QUOTE
TH(l)=max(F(i-d:i,l))
End。
步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展,获得平滑的对比结果信息,前述公式中a取值为5。

Claims (8)

1.一种自适应语音活动检测方法,其包括以下步骤:
步骤一 进行时域信号分割,根据设定的帧长时间和帧移时间,将一长段所述时域信号分割成一帧一帧的单帧时域信号;
步骤二 使用汉明窗对所述单帧时域信号进行加窗处理,在单帧频域范围内对所述单帧时域信号进行快速傅立叶变换,得到所述单帧时域信号的单帧频域信息;
步骤三 使用迭代更新噪音估计计算,再对比所述单帧频域信息的频带和噪音估计的频带得到信噪比,同时计算增长函数特征;
步骤四 计算所述单帧频域信息的所有的频带与上一帧对应频带的差值的平方和得到谱通量;
步骤五 根据快速傅立叶变换之前的所述时域数据,进行能量的操作符特征的提取;
步骤六 对所述增长函数特性、谱通量及能量的操作符特征进行编号,分别用 QUOTE 、 QUOTE 、 QUOTE 表示;
步骤七 对比所述增长函数特性与门槛一得到对比结果一,对比所述谱通量与门槛二得到对比结果二,对比能量的操纵符特征与门槛三得到对比结果三,将所述对比结果一、对比结果二和对比结果三进行综合,得到所述单帧频域信息的语音活动信息;
步骤八 根据所述语音活动信息更新所述门槛一、门槛二和门槛三;
步骤九 延展所述对比结果一、对比结果二和对比结果三,获得新的对比结果一、对比结果二和对比结果三。
2.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述单帧频域信息通过以下公式获得: QUOTE
其中: QUOTE , QUOTE 分别为偶数序列和基数序列, QUOTE 为权重系数,
QUOTE
3.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述增长函数特征通过公式 QUOTE 获得,其中i代表第i帧。
4.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述谱通量通过公式 QUOTE 获得。
5.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述能量的操作符特征通过公式 QUOTE 来实现提取,通过调整k的大小来实现频率的选择。
6.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤七通过公式 QUOTE 来进行综合,其中T为特征激活参数,调整T的大小,可改变语音活动检测的性能。
7.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤八通过以下公式进行更新: QUOTE
if QUOTE
TH(l)=max(F(i-d:i,l))
End;
首先选择特征缓冲区内前c个最小值与当前特征阈值做对比,选择二者中的最大值,作为新的特征阈值;
然后,如果前d帧的语音检测结果都为0,则选择前d个特征数据中的最大值作为新的阈值,如果前d帧的语音检测结果有一个不为,则不更新阈值。
8.根据权利要求1所述的一种自适应语音活动检测方法,其特征在于:所述步骤九通过公式If(sum(cVAD(i-s:i))>0.5*s)和FVAD(i-s-a:i+b)=1进行延展。
CN201710694057.XA 2017-08-15 2017-08-15 一种自适应语音活动检测方法 Active CN107331393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710694057.XA CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710694057.XA CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Publications (2)

Publication Number Publication Date
CN107331393A true CN107331393A (zh) 2017-11-07
CN107331393B CN107331393B (zh) 2020-05-12

Family

ID=60226143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710694057.XA Active CN107331393B (zh) 2017-08-15 2017-08-15 一种自适应语音活动检测方法

Country Status (1)

Country Link
CN (1) CN107331393B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346062A (zh) * 2018-12-25 2019-02-15 苏州思必驰信息科技有限公司 语音端点检测方法及装置
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN113470623A (zh) * 2021-08-12 2021-10-01 成都启英泰伦科技有限公司 一种自适应语音端点检测方法及检测电路
CN115579013A (zh) * 2022-12-09 2023-01-06 深圳市锦锐科技股份有限公司 一种新型低功耗音频解码器

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1557820B1 (en) * 2004-01-22 2006-10-18 Siemens S.p.A. Voice activity detection operating with compressed speech signal parameters
EP2088586A1 (en) * 1998-08-24 2009-08-12 Mindspeed Technologies, Inc. Adaptive codebook gain control for speech coding
KR20100115033A (ko) * 2009-04-17 2010-10-27 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
CN102809742A (zh) * 2011-06-01 2012-12-05 杜比实验室特许公司 声源定位设备和方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法
CN107004427A (zh) * 2014-12-12 2017-08-01 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2088586A1 (en) * 1998-08-24 2009-08-12 Mindspeed Technologies, Inc. Adaptive codebook gain control for speech coding
EP1557820B1 (en) * 2004-01-22 2006-10-18 Siemens S.p.A. Voice activity detection operating with compressed speech signal parameters
KR20100115033A (ko) * 2009-04-17 2010-10-27 고려대학교 산학협력단 모음 특징을 이용한 음성구간 검출 시스템 및 방법과 이에 사용되는 음향 스펙트럼 유사도 측정 방법
CN102809742A (zh) * 2011-06-01 2012-12-05 杜比实验室特许公司 声源定位设备和方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN107004427A (zh) * 2014-12-12 2017-08-01 华为技术有限公司 增强多声道音频信号内语音分量的信号处理装置
CN105825871A (zh) * 2016-03-16 2016-08-03 大连理工大学 一种无前导静音段语音的端点检测方法

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109346062A (zh) * 2018-12-25 2019-02-15 苏州思必驰信息科技有限公司 语音端点检测方法及装置
CN109346062B (zh) * 2018-12-25 2021-05-28 思必驰科技股份有限公司 语音端点检测方法及装置
CN112102818A (zh) * 2020-11-19 2020-12-18 成都启英泰伦科技有限公司 结合语音活性检测和滑动窗噪声估计的信噪比计算方法
CN113470623A (zh) * 2021-08-12 2021-10-01 成都启英泰伦科技有限公司 一种自适应语音端点检测方法及检测电路
CN113470623B (zh) * 2021-08-12 2023-05-16 成都启英泰伦科技有限公司 一种自适应语音端点检测方法及检测电路
CN115579013A (zh) * 2022-12-09 2023-01-06 深圳市锦锐科技股份有限公司 一种新型低功耗音频解码器
CN115579013B (zh) * 2022-12-09 2023-03-10 深圳市锦锐科技股份有限公司 一种低功耗音频解码器

Also Published As

Publication number Publication date
CN107331393B (zh) 2020-05-12

Similar Documents

Publication Publication Date Title
CN107331393A (zh) 一种自适应语音活动检测方法
Ramırez et al. SVM-based speech endpoint detection using contextual speech features
WO2018107874A1 (zh) 一种音频数据的自动增益控制方法与装置
CN105825871B (zh) 一种无前导静音段语音的端点检测方法
CN104091603B (zh) 基于基频的端点检测系统及其计算方法
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
WO2013142659A2 (en) Method and system for signal transmission control
EP2339575B1 (en) Signal classification method and device
US11315591B2 (en) Voice activity detection method
CN104699447B (zh) 一种基于能量统计的语音音量自动调整方法
CN102646415B (zh) 一种语音识别中的特征参数提取方法
CN104269177B (zh) 一种语音处理方法及电子设备
CN105513614A (zh) 一种基于噪声功率谱Gamma分布统计模型的有音区检测方法
CN106971714A (zh) 一种应用于机器人的语音去噪识别方法及装置
CN101625858A (zh) 语音端点检测中短时能频值的提取方法
EP3803861B1 (en) Dialog enhancement using adaptive smoothing
CN106571138B (zh) 一种信号端点的检测方法、检测装置及检测设备
CN107969164B (zh) 适应性信道间判别再缩放滤波器
CN104867493B (zh) 基于小波变换的多重分形维数端点检测方法
Baljekar et al. A comparison of waveform fractal dimension techniques for voice pathology classification
WO2017128910A1 (zh) 一种语音出现概率的确定方法、装置及电子设备
CN110580917B (zh) 一种语音数据质量检测方法、装置、服务器及存储介质
CN112466328B (zh) 呼吸音检测方法、装置和电子设备
CN106790963A (zh) 音频信号的控制方法及装置
KR102054066B1 (ko) 근전도 신호를 이용한 동작 추론 장치 및 그 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant