CN107039035A - 一种语音起始点和终止点的检测方法 - Google Patents

一种语音起始点和终止点的检测方法 Download PDF

Info

Publication number
CN107039035A
CN107039035A CN201710015492.5A CN201710015492A CN107039035A CN 107039035 A CN107039035 A CN 107039035A CN 201710015492 A CN201710015492 A CN 201710015492A CN 107039035 A CN107039035 A CN 107039035A
Authority
CN
China
Prior art keywords
signal
voice
frequency
detected
voice signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710015492.5A
Other languages
English (en)
Inventor
陈桂林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Excellent Technology Co Ltd
Original Assignee
Shanghai Excellent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Excellent Technology Co Ltd filed Critical Shanghai Excellent Technology Co Ltd
Priority to CN201710015492.5A priority Critical patent/CN107039035A/zh
Publication of CN107039035A publication Critical patent/CN107039035A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • G10L15/05Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/87Detection of discrete points within a voice signal

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种语音起始点的检测方法,包括以下步骤,S1,接收输入的待检测语音信号;S2,对待检测语音信号进行时频变换;S3,在频域对经步骤S2处理后的信号进行滤波;S4,对步骤S3处理后的信号进行增强处理;S5,在频域计算经步骤S4处理后的信号的共振峰的个数以及不同频带的能量占比;S6,在时域计算经步骤S4处理后的信号的过零交叉率和最大最小幅值比;S7,通过步骤S5和S6的计算值判定语音信号的起点。该检测方法,综合了时域和频域的处理方法,检测精度高,同计算复杂程度低,且抗噪能力腔,通过信号增强和特定频带的检测,可以抑制大部分低频信号分量和高频信号分量的干扰,提升鲁棒性。

Description

一种语音起始点和终止点的检测方法
技术领域
本发明涉及一种检测方法,特别是一种判断语音起始点和终止点的检测方法。
背景技术
语音识别,也称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类语音转换为计算机可读的文字或指令,是模式识别的一个重要分支。一个完整的语音识别系统一般包括语音信号预处理、特征提取、模型训练、声学模型、语言模型以及自然语言后处理等几大模块。
语音信号预处理阶段可对语音进行降噪、增强以处理原始语音信号,部分消除噪声和不同说话人带来的影响,使处理后的信号更能反映语音的本质特征。
特征参数提取是指从语音信号中提取出有关的特征参数,如语音识别建模中常用的梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)或滤波器组系数(Filterbank Coefficient)等等。
声学模型的主要作用是用来辨识用户发什么样的音。目前占据主流地位的建模方法为深度神经网络模型(DNN/CNN/RNN)等。
语言模型的作用是帮助辨识用户发出的音对应于什么文字,利用前后词汇的搭配信息来选取更为准确的词汇序列。目前主要使用N-Gram统计语言模型。
识别器的主要作用是进行搜索,在搜索空间中确定跟用户语音吻合度最高的词序列。比较经典的搜索算法为时间同步的Viterbi搜索。
自然语言后处理阶段一般是利用语言知识库或模型进一步提升语音识别的精度。对自然语言的识别和理解。首先必须将连续的讲话分解为词、音素等单位,其次要建立一个理解语义的规则,根据上下文的约束对识别结果进行纠正和修改。
在实际应用过程中,语音端点检测(Voice Activity Detect,VAD或者VoiceEndpoint Detect)是语音识别前端(FrontEnd)中一个非常重要的模块,它的重要性可以简要概括如下:
摒除一些非语音信号,如偶发的咳嗽声、键盘敲击声、拍掌声、类似汽车发动机的低频噪声、雷声和雨声等等。这样可以降低语音识别的误识别率,避免后续的误操作。
降低不必要的计算量和系统的功耗水平。对于很多应用场合,如智能玩具和智能家居等,我们多部署嵌入式语音识别系统,控制和降低功耗非常重要。这些场合用户使用语音识别技术的频度不是很高,但识别系统必须随时处于待命状态,一旦用户发出指令,能够及时响应。而待命时的功耗水平控制很严,这些场合,一个复杂度相对较低、准确检测语音端点的VAD模块非常重要。
远场支持由于麦克风等拾音设备物理上的限制,一旦说话人和麦克风相距较远(比如5米以上)的时候,录出来的语音信号幅度很小,即使周围环境的噪声水平很低,语音信号也可能淹没在噪声信号中。如果不能把语音信号通过端点检测从背景噪声中分离出来,识别精度是无法保证的。借助于先进的端点检测技术,可以更好地支持远场语音识别。
此外,在现代通信系统中,也使用语音端点技术来检测语音的开始。对于非语音信号,通过端点检测在本地排除,并不发送给远端的接收方。这样可以降低通信中的带宽需求。
现有的方法也存在一些问题,如算法的稳定性不够、抗噪声能力不够强或者计算复杂度过高,不太适合应用需求,上述问题亟待解决。
发明内容
针对现有技术存在的上述问题,本发明的目的在于提供一种语音起始点和终点的检测方法。
本发明提供了一种语音起始点的检测方法,包括以下步骤,
S1,接收输入的待检测语音信号;
S2,对待检测语音信号进行时频变换;
S3,在频域对经步骤S2处理后的信号进行滤波;
S4,对步骤S3处理后的信号进行增强处理;
S5,在频域计算经步骤S4处理后的信号的共振峰的个数以及不同频带的能量占比;
S6,在时域计算经步骤S4处理后的信号的过零交叉率和最大最小幅值比;
S7,通过步骤S5和S6的计算值判定语音信号的起点。
优选地,所述步骤S3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
优选地,所述步骤S4包括以下步骤,
S41,选取待检测语音信号前一段时间的语音信号作为背景信号;
S42,将待检测语音信号减去背景信号的频谱。
优选地,所述步骤S41中选取待检测语音信号前100-150ms的语音信号作为背景信号。
优选地,所述步骤S1采用中滑动窗口协议用于接收待检测的语音信号。
本发明还提供了一种语音终止点的检测方法,包括以下步骤,
Sa1,接收输入的待检测语音信号;
Sa2,对待检测语音信号进行时频变换;
Sa3,在频域对经步骤Sa2处理后的信号进行滤波;
Sa4,在频域计算经步骤Sa3处理后的信号的共振峰的个数以及不同频带的能量占比;
Sa5,在时域计算经步骤Sa3处理后的信号的过零交叉率和最大最小幅值比;
Sa6,通过步骤Sa4和Sa5的计算值判定语音信号的终点。
优选地,所述步骤Sa3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
综上所述,本发明具有以下优点:
本发明的语音起始点和终止点的检测方法,综合了时域和频域的处理方法,检测精度高,同计算复杂程度低,且抗噪能力腔,通过信号增强和特定频带的检测,可以抑制大部分低频信号分量和高频信号分量的干扰,提升鲁棒性。
附图说明
图1为本发明实施例的语音起始点检测方法流程图;
图2为本发明实施例的语音终止点的检测方法流程图。
具体实施方式
下面结合实施方式及附图对本发明作进一步详细、完整地说明。
如图1-2所示,一种语音起始点的检测方法,包括以下步骤,
S1,接收输入的待检测语音信号;
S2,对待检测语音信号进行时频变换;
S3,在频域对经步骤S2处理后的信号进行滤波;
S4,对步骤S3处理后的信号进行增强处理;
S5,在频域计算经步骤S4处理后的信号的共振峰的个数以及不同频带的能量占比;
S6,在时域计算经步骤S4处理后的信号的过零交叉率和最大最小幅值比;
S7,通过步骤S5和S6的计算值判定语音信号的起点。
所述步骤S3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
所述步骤S4包括以下步骤,
S41,选取待检测语音信号前一段时间的语音信号作为背景信号;
S42,将待检测语音信号减去背景信号的频谱。
所述步骤S41中选取待检测语音信号前100-150ms的语音信号作为背景信号。
所述步骤S1采用中滑动窗口协议用于接收待检测的语音信号。
语音起始点的判决使用了背景信号的信息。在带通滤波的基础上进行语音信号增强。经过时频变换后,在频域对信号进行滤波,只选取特定频带的分量供后续分析和处理。选取语音开始前一段时间的语音信号作为背景参考信号,在检测语音端点时,先减去参考信号的频谱,以增强语音信号、提升信噪比和端点检测的抗噪声能力。
在频域计算共振峰的个数,以及不同频带的能量占比。这样可排除金属声乃至频带单一的乐曲声。浊音(Voiced)部分有基频和谐波,而频带单一的周期性信号不具备类似特征,即使它们周期性明显,也通不过语音起始点的检测。
在时域通过零交叉率(Zero Cross Rate)和最大最小幅值比进行判决。对于语音的起始点,我们先找到浊音(Voiced)部分,相对于清音(Unvoiced)部分,浊音部分幅值更大、周期性强、与背景噪声的区分程度高,辨识的可靠性更高。因此先判决浊音,然后再倒推200~300毫秒作为语音的起始点。对于语音的结束点,主要考虑当前幅值与前400~500毫秒内的最大幅值之比,如果下降明显,则作为语音的结束点。
一种语音终止点的检测方法,包括以下步骤,
Sa1,接收输入的待检测语音信号;
Sa2,对待检测语音信号进行时频变换;
Sa3,在频域对经步骤Sa2处理后的信号进行滤波;
Sa4,在频域计算经步骤Sa3处理后的信号的共振峰的个数以及不同频带的能量占比;
Sa5,在时域计算经步骤Sa3处理后的信号的过零交叉率和最大最小幅值比;
Sa6,通过步骤Sa4和Sa5的计算值判定语音信号的终点。
所述步骤Sa3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
语音终止点的检测流程如图2所示。考虑到终止点之前的信号为正常语音信号,不能作为背景参考信号,因此终止点的检测不再进行语音增强,主要使用过零率和最大最小比值。
同时本发明上述实施例仅为说明本发明技术方案之用,仅为本发明技术方案的列举,并不用于限制本发明的技术方案及其保护范围。采用等同技术手段、等同设备等对本发明权利要求书及说明书所公开的技术方案的改进应当认为是没有超出本发明权利要求书及说明书所公开的范围。

Claims (7)

1.一种语音起始点的检测方法,其特征在于,包括以下步骤,
S1,接收输入的待检测语音信号;
S2,对待检测语音信号进行时频变换;
S3,在频域对经步骤S2处理后的信号进行滤波;
S4,对步骤S3处理后的信号进行增强处理;
S5,在频域计算经步骤S4处理后的信号的共振峰的个数以及不同频带的能量占比;
S6,在时域计算经步骤S4处理后的信号的过零交叉率和最大最小幅值比;
S7,通过步骤S5和S6的计算值判定语音信号的起点。
2.如权利要求1所述的一种语音起始点的检测方法,其特征在于,所述步骤S3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
3.如权利要求1所述的一种语音起始点的检测方法,其特征在于,所述步骤S4包括以下步骤,
S41,选取待检测语音信号前一段时间的语音信号作为背景信号;
S42,将待检测语音信号减去背景信号的频谱。
4.如权利要求3所述的一种语音起始点的检测方法,其特征在于,所述步骤S41中选取待检测语音信号前100-150ms的语音信号作为背景信号。
5.如权利要求1所述的一种语音起始点的检测方法,其特征在于,所述步骤S1采用中滑动窗口协议用于接收待检测的语音信号。
6.一种语音终止点的检测方法,其特征在于,包括以下步骤,
Sa1,接收输入的待检测语音信号;
Sa2,对待检测语音信号进行时频变换;
Sa3,在频域对经步骤Sa2处理后的信号进行滤波;
Sa4,在频域计算经步骤Sa3处理后的信号的共振峰的个数以及不同频带的能量占比;
Sa5,在时域计算经步骤Sa3处理后的信号的过零交叉率和最大最小幅值比;
Sa6,通过步骤Sa4和Sa5的计算值判定语音信号的终点。
7.如权利要求6所述的一种语音终止点的检测方法,其特征在于,所述步骤Sa3中滤波时,选取频带范围为200-2500Hz的分量供后续步骤使用。
CN201710015492.5A 2017-01-10 2017-01-10 一种语音起始点和终止点的检测方法 Pending CN107039035A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710015492.5A CN107039035A (zh) 2017-01-10 2017-01-10 一种语音起始点和终止点的检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710015492.5A CN107039035A (zh) 2017-01-10 2017-01-10 一种语音起始点和终止点的检测方法

Publications (1)

Publication Number Publication Date
CN107039035A true CN107039035A (zh) 2017-08-11

Family

ID=59530998

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710015492.5A Pending CN107039035A (zh) 2017-01-10 2017-01-10 一种语音起始点和终止点的检测方法

Country Status (1)

Country Link
CN (1) CN107039035A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN109065027A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
CN112581941A (zh) * 2020-11-17 2021-03-30 北京百度网讯科技有限公司 音频识别方法、装置、电子设备及存储介质
CN112771609A (zh) * 2018-08-01 2021-05-07 森田公司 包括神经形态处理模块的传感器处理系统及其方法
WO2021139425A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0100773A1 (en) * 1982-08-06 1984-02-22 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN103886871A (zh) * 2014-01-28 2014-06-25 华为技术有限公司 语音端点的检测方法和装置
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN104869217A (zh) * 2014-02-21 2015-08-26 宇龙计算机通信科技(深圳)有限公司 标记通讯信息的方法及终端
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN106228995A (zh) * 2016-08-02 2016-12-14 成都普创通信技术股份有限公司 一种音频信号中断检测方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0100773A1 (en) * 1982-08-06 1984-02-22 Nissan Motor Co., Ltd. Speech recognition system for an automotive vehicle
CN101206858A (zh) * 2007-12-12 2008-06-25 北京中星微电子有限公司 一种孤立词语音端点检测的方法及系统
CN101625858A (zh) * 2008-07-10 2010-01-13 新奥特(北京)视频技术有限公司 语音端点检测中短时能频值的提取方法
CN102579010A (zh) * 2012-03-01 2012-07-18 上海大学 据鼾声确定阻塞性睡眠呼吸暂停与低通气综合症的方法
CN103646649A (zh) * 2013-12-30 2014-03-19 中国科学院自动化研究所 一种高效的语音检测方法
CN103886871A (zh) * 2014-01-28 2014-06-25 华为技术有限公司 语音端点的检测方法和装置
CN104869217A (zh) * 2014-02-21 2015-08-26 宇龙计算机通信科技(深圳)有限公司 标记通讯信息的方法及终端
CN103854662A (zh) * 2014-03-04 2014-06-11 中国人民解放军总参谋部第六十三研究所 基于多域联合估计的自适应语音检测方法
CN104091603A (zh) * 2014-05-23 2014-10-08 普强信息技术(北京)有限公司 基于基频的端点检测系统及其计算方法
CN105976811A (zh) * 2016-04-27 2016-09-28 四川大学 一种包含声母的音节切分方法及装置
CN106228995A (zh) * 2016-08-02 2016-12-14 成都普创通信技术股份有限公司 一种音频信号中断检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
罗艾洲: "《语音增强 理论与实践》", 31 December 2012 *
郭继云、王守觉、刘学刚: "一种改进的基于频能比的端点检测算法", 《计算机工程与应用》 *
陆虎敏: "《飞机座舱显示与控制技术》", 31 December 2015 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107799126A (zh) * 2017-10-16 2018-03-13 深圳狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN107799126B (zh) * 2017-10-16 2020-10-16 苏州狗尾草智能科技有限公司 基于有监督机器学习的语音端点检测方法及装置
CN109065027A (zh) * 2018-06-04 2018-12-21 平安科技(深圳)有限公司 语音区分模型训练方法、装置、计算机设备及存储介质
CN112771609A (zh) * 2018-08-01 2021-05-07 森田公司 包括神经形态处理模块的传感器处理系统及其方法
CN110335612A (zh) * 2019-07-11 2019-10-15 招商局金融科技有限公司 基于语音识别的会议记录生成方法、装置及存储介质
WO2021139425A1 (zh) * 2020-07-31 2021-07-15 平安科技(深圳)有限公司 语音端点检测方法、装置、设备及存储介质
CN112581941A (zh) * 2020-11-17 2021-03-30 北京百度网讯科技有限公司 音频识别方法、装置、电子设备及存储介质
CN113345472A (zh) * 2021-05-08 2021-09-03 北京百度网讯科技有限公司 语音端点检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN107039035A (zh) 一种语音起始点和终止点的检测方法
Kurzekar et al. A comparative study of feature extraction techniques for speech recognition system
KR100679051B1 (ko) 복수의 신뢰도 측정 알고리즘을 이용한 음성 인식 장치 및방법
CN102543073B (zh) 一种沪语语音识别信息处理方法
KR100631786B1 (ko) 프레임의 신뢰도를 측정하여 음성을 인식하는 방법 및 장치
US7319959B1 (en) Multi-source phoneme classification for noise-robust automatic speech recognition
US20120316879A1 (en) System for detecting speech interval and recognizing continous speech in a noisy environment through real-time recognition of call commands
CN106548775B (zh) 一种语音识别方法和系统
CN108922541A (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
CN109215634A (zh) 一种多词语音控制通断装置的方法及其系统
CN103985390A (zh) 一种基于伽马通相关图语音特征参数提取方法
Chuangsuwanich et al. Robust Voice Activity Detector for Real World Applications Using Harmonicity and Modulation Frequency.
EP3574499B1 (en) Methods and apparatus for asr with embedded noise reduction
WO2023029615A1 (zh) 语音唤醒的方法、装置、设备、存储介质及程序产品
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
Maganti et al. Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms
Sahoo et al. MFCC feature with optimized frequency range: An essential step for emotion recognition
CN112908310A (zh) 一种智能电器中的语音指令识别方法及识别系统
Li et al. Voice-based recognition system for non-semantics information by language and gender
Islam et al. Improvement of text dependent speaker identification system using neuro-genetic hybrid algorithm in office environmental conditions
Sudhakar et al. Automatic speech segmentation to improve speech synthesis performance
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Poorna Deep Learning Based Language Identification System from Speech
KR100677224B1 (ko) 안티워드 모델을 이용한 음성인식 방법
Chaudhary Short-term spectral feature extraction and their fusion in text independent speaker recognition: A review

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170811

RJ01 Rejection of invention patent application after publication