CN104134440B - 用于便携式终端的语音检测方法和语音检测装置 - Google Patents

用于便携式终端的语音检测方法和语音检测装置 Download PDF

Info

Publication number
CN104134440B
CN104134440B CN201410374671.4A CN201410374671A CN104134440B CN 104134440 B CN104134440 B CN 104134440B CN 201410374671 A CN201410374671 A CN 201410374671A CN 104134440 B CN104134440 B CN 104134440B
Authority
CN
China
Prior art keywords
speech
movement
voice
portable terminal
sound source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410374671.4A
Other languages
English (en)
Other versions
CN104134440A (zh
Inventor
刘俊启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201410374671.4A priority Critical patent/CN104134440B/zh
Publication of CN104134440A publication Critical patent/CN104134440A/zh
Application granted granted Critical
Publication of CN104134440B publication Critical patent/CN104134440B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Telephone Function (AREA)

Abstract

本发明提供一种用于便携式终端的语音检测方法和语音检测装置。所述语音检测方法包括:检测所述便携式终端的运动;根据检测到的所述运动相对于语音声源的改变,设置用于语音识别的语音能量阈值。通过检测便携式终端的运动并且根据该运动相对于语音声源的改变,动态地设置用于语音识别的语音能量阈值;基于动态设置的语音能量阈值,可较为准确地识别用户语音的开始点和结束点,提高语音识别的准确性。

Description

用于便携式终端的语音检测方法和语音检测装置
技术领域
本发明涉及语音识别技术领域,尤其涉及一种用于便携式终端的语音检测方法和装置。
背景技术
在例如语音识别的涉及语音检测的技术中,需要准确地检测语音的开始点和结束点,获取有效的语音数据并执行相应的处理(例如,录音并将录音数据上传至服务器)。
现有技术中,对语音开始点与结束点的检测均需参照预先设置的语音能量阈值,将检测到的语音的能量从低于所述语音能量阈值变为高于所述语音能量阈值的时间点认为是用户语音(讲话)的开始点;将检测到的语音的能量从高于所述语音能量阈值变为低于所述语音能量阈值且保持一段时间不变,认为是用户语音(讲话)的结束点。
然而,针对不同的用户、不同的场景,设置统一的语音能量阈值影响语音检测的准确性和效果。图3~图5示出了现有技术的语音能量检测效果图。
图3示出了当用户讲话的语音能量较小或便携式终端距离语音声源较远时,语音能量的检测效果图。可以看出,便携式终端的录音数据的音量偏低。在这种情况下,如果便携式终端的语音识别的语音能量阈值设置较高,则可能导致语音数据的丢失和影响语音识别的准确性,甚至无法录音。
图4示出了在用户讲话的语音能量较大或便携式终端距离语音声源较近的情况下语音能量的检测效果图。与图3示出的刚好相反,图4中录音数据的音量偏高。在这种情况下,如果便携式终端的语音识别的语音能量阈值设置较低,则可能在录音过程中引入噪声,从而影响语音识别的准确性。
图5示出了在环境较嘈杂或便携式终端与语音声源距离变化,且语音识别的语音能量阈值设置较低情况下,语音能量的检测效果图。可以看出,在语音检测过程中,由于语音能量阈值设置较低,将背景音(噪声)认为是有效数据,导致语音识别的开始点认定过早;而如果将语音能量阈值设置较高,则在如图3中所示的情况下,又可能检测不到语音的开始点。
此外,在例如智能手机、平板电脑等的便携式终端在运动状态下使用语音识别功能时,会导致接收到的语音能量和录音的音量不稳定,从而影响语音数据的识别的准确性以及用户语音的开始点和结束点的检测。
发明内容
本发明的目的在于提供一种用于便携式终端的语音检测方法和装置,根据便携式终端的运动相对于语音声源的改变设置用于识别的语音能量阈值,从而在运动状态下能够较为准确地识别有效的语音数据。
根据本发明的一方面,提供一种用于便携式终端的语音检测方法,包括:检测所述便携式终端的运动;根据检测到的所述运动相对于语音声源的改变,设置用于语音识别的语音能量阈值。
根据本发明的另一方面,提供一种用于便携式终端的语音检测装置,所述语音检测装置包括:运动检测单元,用于检测所述便携式终端的运动;阈值设置单元,用于根据所述运动检测单元检测到的所述运动相对于语音声源的改变,设置用于语音识别的语音能量阈值。
本发明的用于便携式终端的语音检测方法和装置通过检测便携式终端的运动并且根据该运动相对于语音声源的改变,动态地设置用于语音识别的语音能量阈值;基于动态设置的语音能量阈值,可较为准确地识别用户语音的开始点和结束点,提高语音识别的准确性。
此外,对于需要通过网络上传语音数据的情形,根据便携式终端的运动相对于语音声源的改变来调整录音数据的音量,对采集的语音数据进行调优处理,有助于进行更清晰、稳定的语音识别。
附图说明
图1为本发明实施例的语音检测方法的流程图;
图2为本发明实施例的语音检测装置的结构框图;
图3为现有技术的语音检测能量效果图之一;
图4为现有技术的语音检测能量效果图之二;
图5为现有技术的语音检测能量效果图之三。
具体实施方式
在运动状态下进行语音识别时,由于便携式终端与语音声源的距离处于变化状态导致接收到的语音能量不一致,所以用于识别语音端点(即语音开始和语音结束)的语音能量阈值不同时适用于运动状态和静止状态时语音的检测。
本发明的总体构思是,通过检测便携式终端的运动并根据检测到的运动相对于语音声源的改变来动态地设置用于语音识别的语音能量阈值,从而通过所述动态设置的语音能量阈值可较为准确地检测用户语音的开始点和结束点,对用户语音的检测进行调优处理,提高识别结果的准确性。在此基础上,还根据检测到的运动相对于语音声源的改变来对录制的语音数据的音量进行调整,对录音数据进行调优处理。
下面结合附图对本发明实施例一种用于便携式终端的语音检测方法和装置进行详细描述。
图1示出了本发明实施例的用于便携式终端的语音检测方法的流程图。
参照图1,在步骤S110,检测便携式终端的运动。例如,可通过便携式终端内置的环境光感应器、加速度传感器或距离传感器检测便携式终端的运动,检测到的便携式终端的运动可以是便携式终端的运动方向、运动加速度以及相距语音声源的距离,但不限于这几种运动参数。
对于便携式终端来说,在用户执行语音识别功能时,用户通常是对着便携式终端的屏幕讲话,因此根据本发明的示例性实施例,所述语音声源与所述便携式终端的屏幕朝向相应。
通过检测的运动参数可确定便携式终端的运动是朝向靠近语音声源的方向,还是朝向远离语音声源的方向。
步骤S120,根据在步骤S110检测到的运动相对于语音声源的改变,设置用于语音识别的语音能量阈值。
如上所述,根据本发明的示例性实施例,语音声源与所述便携式终端的屏幕朝向相应,例如,可将屏幕朝向作为语音声源的方向。在步骤S120,具体地,如果便携式终端的运动为朝向靠近语音声源的方向,则提高语音识别的语音能量阈值;如果便携式终端的运动为朝向远离语音声源的方向,则降低语音识别的语音能量阈值。通过对语音识别的语音能量阈值的调整,提高语音识别的准确性以及精确划分语音识别的有效数据。在此基础上,根据本发明的示例性实施例,在所述用于便携式终端的语音检测方法中,并行地检测便携式终端的运动并且检测语音信号。可根据现有的语音信号识别技术执行所述语音信号的检测。
语音信号具有语音数据信息和语音能量。根据本发明的示例性实施例,在检测到语音信号后,根据用于语音识别的语音能量阈值及检测到的语音信号确定用户语音的开始点和结束点,并对确定检测到的用户语音信号进行录音。
具体地,将检测到的用户讲话的语音能量与用于语音识别的语音能量阈值进行比较,如果检测到的语音能量从小于语音能量阈值状态变为大于语音能量阈值状态,则可以确定用户语音开始;如果检测到的语音能量从大于语音能量阈值状态变为小于语音能量阈值状态,并保持一段时间不变,则可以确定用户语音结束。自检测到用户语音的开始起对用户语音进行录音,当检测到用户语音结束时,终止用户语音的录音。
由于语音能量阈值是根据便携式终端的运动相对于语音声源改变的,靠近声源时,检测到的语音能量较高,相应提高语音识别的语音能量阈值;远离声源时,检测到的语音能量较低,相应降低语音识别的语音能量阈值,能有效避免环境噪声引起的语音开始点和结束点的错误判断,还能有效保障语音数据的完整性。
此外,便携式终端的运动变化会影响录音数据的稳定性,例如,便携式终端靠近语音声源时,录音音量会较大;反之,录音音量会较小。根据本发明的优选实施例,本发明提供的语音检测方法还包括根据检测到的运动相对于语音声源的改变,调整录音的音量。例如,如果便携式终端的运动为朝向靠近所述语音声源的方向,则调低录音的音量;反之,则调高录音的音量。通过上述对录音音量的调整,对录音数据进行了调优处理,使得录制的语音数据相对稳定、平衡。
本发明的另一方面,还提供了一种应用上述语音检测方法的语音检测装置,图2示出了本发明实施例的语音检测装置的结构框图。
参照图2,本发明实施例的语音检测装置包括运动检测单元210和阈值设置单元220。
运动检测单元210用于检测便携式终端的运动。具体地,运动检测单元210可通过便携式终端内置的环境光感应器、加速度传感器或距离传感器检测便携式终端的运动,例如运动方向、运动加速度以及相距语音声源的距离等参数,但不限于这几种参数的检测。通过对这些参数的检测,确定便携式终端的运动是朝向语音声源的方向,还是朝向远离声源的方向。根据本发明的优选实施例,语音声源与便携式终端的屏幕朝向相应,即便携式终端的屏幕朝向为声源方向。
阈值设置单元220用于根据运动检测单元210检测到的便携式终端的运动相对语音声源的改变,设置用于语音识别的语音能量阈值。具体地,如果运动检测单元210检测到的便携式终端的运动为朝向靠近语音声源的方向,则阈值设置单元220提高语音识别的语音能量阈值;如果运动检测单元210检测到的便携式终端的运动为朝向远离语音声源的方向,则阈值设置单元220降低语音识别的语音能量阈值。通过本发明实施例的语音检测装置对语音识别的语音能量阈值的调整,保障语音识别的准确性和稳定性。
根据本发明优选实施例,本发明实施例的语音检测装置还包括语音检测单元230和语音录制单元240。
语音检测单元230用于检测语音信号。
语音录制单元240用于根据阈值设置单元220设置的所述语音能量阈值和语音检测单元230检测到的语音信号确定用户语音的开始和结束,并对确定检测到的用户语音进行录音。
此外,根据本发明的示例性实施例,语音录制单元240还用于根据运动检测单元210检测到的所述运动相对于语音声源的改变,调整所述录音的音量。具体地,如果运动检测单元210检测到的所述运动为朝向靠近所述语音声源的方向,则语音录制单元240调低所述录音的音量;如果运动检测单元210检测到的所述运动为朝向远离所述语音声源的方向,则语音录制单元240调高所述录音的音量。
本发明提供的用于便携式终端的语音检测方法和装置检测便携式终端的运动,根据该运动相对于语音声源的改变动态地设置用于语音识别的语音能量阈值。基于动态设置的语音能量阈值,可较为准确地识别用户语音的开始点和结束点,提高语音识别的准确性。
此外,根据并且对于需要通过网络上传语音数据的情形,便携式终端的运动相对于语音声源的改变来调整录音数据的音量,对采集的语音数据进行调优处理,有助于进行更清晰的语音识别。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种用于便携式终端的语音检测方法,其特征在于,所述语音检测方法包括:
检测所述便携式终端的运动;
根据检测到的所述运动相对于语音声源的改变,设置用于语音识别的语音能量阈值;其中,所述语音声源与所述便携式终端的屏幕朝向相应;如果所述运动为朝向靠近所述语音声源的方向,则提高所述语音能量阈值;如果所述运动为朝向远离所述语音声源的方向,则降低所述语音能量阈值。
2.根据权利要求1所述的语音检测方法,其特征在于,所述语音检测方法还包括:
检测语音信号;
根据所述语音能量阈值和检测到的语音信号确定用户语音的开始和结束,并对确定检测到的用户语音进行录音。
3.根据权利要求2所述的语音检测方法,其特征在于,所述语音检测方法还包括:
根据检测到的所述运动相对于语音声源的改变,调整所述录音的音量。
4.根据权利要求3所述的语音检测方法,其特征在于,所述根据检测到的所述运动相对于语音声源的改变,调整所述录音的音量包括:
如果所述运动为朝向靠近所述语音声源的方向,则调低所述录音的音量;
如果所述运动为朝向远离所述语音声源的方向,则调高所述录音的音量。
5.根据权利要求4所述的语音检测方法,其特征在于,通过所述便携式终端内置的环境光感应器、加速度传感器或距离传感器检测所述便携式终端的运动。
6.一种用于便携式终端的语音检测装置,其特征在于,所述语音检测装置包括:
运动检测单元,用于检测所述便携式终端的运动;
阈值设置单元,用于根据所述运动检测单元检测到的所述运动相对于语音声源的改变,设置用于语音识别的语音能量阈值;其中,所述语音声源与所述便携式终端的屏幕朝向相应;如果运动检测单元检测到的所述运动为朝向靠近所述语音声源的方向,则阈值设置单元提高所述语音能量阈值;如果运动检测单元检测到的所述运动为朝向远离所述语音声源的方向,则阈值设置单元降低所述语音能量阈值。
7.根据权利要求6所述的语音检测装置,其特征在于,所述语音检测装置还包括:
语音检测单元,用于检测语音信号;
语音录制单元,用于根据所述语音能量阈值和语音检测单元检测到的语音信号确定用户语音的开始和结束,并对确定检测到的用户语音进行录音。
8.根据权利要求7所述的语音检测装置,其特征在于,语音录制单元还用于根据检测到的所述运动相对于语音声源的改变,调整所述录音的音量。
9.根据权利要求8所述的语音检测装置,其特征在于,
如果运动检测单元检测到的所述运动为朝向靠近所述语音声源的方向,则语音录制单元调低所述录音的音量;
如果运动检测单元检测到的所述运动为朝向远离所述语音声源的方向,则语音录制单元调高所述录音的音量。
10.根据权利要求9所述的语音检测装置,其特征在于,运动检测单元通过所述便携式终端内置的环境光感应器、加速度传感器或距离传感器检测所述便携式终端的运动。
CN201410374671.4A 2014-07-31 2014-07-31 用于便携式终端的语音检测方法和语音检测装置 Active CN104134440B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410374671.4A CN104134440B (zh) 2014-07-31 2014-07-31 用于便携式终端的语音检测方法和语音检测装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410374671.4A CN104134440B (zh) 2014-07-31 2014-07-31 用于便携式终端的语音检测方法和语音检测装置

Publications (2)

Publication Number Publication Date
CN104134440A CN104134440A (zh) 2014-11-05
CN104134440B true CN104134440B (zh) 2018-05-08

Family

ID=51807091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410374671.4A Active CN104134440B (zh) 2014-07-31 2014-07-31 用于便携式终端的语音检测方法和语音检测装置

Country Status (1)

Country Link
CN (1) CN104134440B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104751852B (zh) * 2015-03-20 2018-07-24 广东小天才科技有限公司 一种声音处理的方法和装置
CN105609118B (zh) * 2015-12-30 2020-02-07 生迪智慧科技有限公司 语音检测方法及装置
CN108711430B (zh) * 2018-04-28 2020-08-14 广东美的制冷设备有限公司 语音识别方法、智能设备及存储介质
CN109859773A (zh) * 2019-02-14 2019-06-07 北京儒博科技有限公司 一种声音的录制方法、装置、存储介质及电子设备
CN109767792B (zh) * 2019-03-18 2020-08-18 百度国际科技(深圳)有限公司 语音端点检测方法、装置、终端和存储介质
CN112687273B (zh) * 2020-12-26 2024-04-16 科大讯飞股份有限公司 一种语音转写方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN102708857A (zh) * 2011-03-02 2012-10-03 微软公司 基于运动的语音活动检测
CN102804261A (zh) * 2009-10-19 2012-11-28 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
CN102884575A (zh) * 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
CN103677234A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103730118A (zh) * 2012-10-11 2014-04-16 百度在线网络技术(北京)有限公司 语音信号采集方法和移动终端

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6757651B2 (en) * 2001-08-28 2004-06-29 Intellisist, Llc Speech detection system and method
JP4854533B2 (ja) * 2007-01-30 2012-01-18 富士通株式会社 音響判定方法、音響判定装置及びコンピュータプログラム
US8954324B2 (en) * 2007-09-28 2015-02-10 Qualcomm Incorporated Multiple microphone voice activity detector
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101903948A (zh) * 2007-12-19 2010-12-01 高通股份有限公司 用于基于多麦克风的语音增强的系统、方法及设备
CN102804261A (zh) * 2009-10-19 2012-11-28 瑞典爱立信有限公司 用于语音编码器的方法和语音活动检测器
CN102884575A (zh) * 2010-04-22 2013-01-16 高通股份有限公司 话音活动检测
CN102708857A (zh) * 2011-03-02 2012-10-03 微软公司 基于运动的语音活动检测
CN103677234A (zh) * 2012-09-17 2014-03-26 联想(北京)有限公司 一种信息处理的方法及电子设备
CN103730118A (zh) * 2012-10-11 2014-04-16 百度在线网络技术(北京)有限公司 语音信号采集方法和移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于复合能量和自适应阈值的语音端点检测";姜占才 等;《计算机工程与科学》;20100430;第32卷(第04期);全文 *

Also Published As

Publication number Publication date
CN104134440A (zh) 2014-11-05

Similar Documents

Publication Publication Date Title
CN104134440B (zh) 用于便携式终端的语音检测方法和语音检测装置
US9706303B2 (en) Speaker equalization for mobile devices
US20140168057A1 (en) Gyro aided tap gesture detection
US9702899B2 (en) Pedometer with lag correction
TWI489397B (zh) 用於提供適應性手勢分析之方法、裝置及電腦程式產品
US11751811B2 (en) Wearing prompt method for wearable device and apparatus
KR101829865B1 (ko) 멀티센서 음성 검출
US20140074431A1 (en) Wrist Pedometer Step Detection
CN105228041B (zh) 一种信息处理方法及声音输出设备
EP3940517A1 (en) Electrical capacitance detection method for touch display panel, electrical capacitance detection circuit for touch display panel, and touch display panel
CN106356070B (zh) 一种音频信号处理方法,及装置
CN103631375B (zh) 根据电子设备中的情形感知控制振动强度的方法和设备
JP2018523149A (ja) レンズの1つ以上の光学パラメータを決定するための機器、システム、および方法
US20200251124A1 (en) Method and terminal for reconstructing speech signal, and computer storage medium
WO2016078405A1 (zh) 调整对象属性信息的方法及装置
CN108335703B (zh) 确定音频数据的重音位置的方法和装置
CN108027684B (zh) 电磁干扰信号检测
CN108470571A (zh) 一种音频检测方法、装置及存储介质
CN110931048A (zh) 语音端点检测方法、装置、计算机设备及存储介质
US9008639B2 (en) Controlling audio of a device
US20230014836A1 (en) Method for chorus mixing, apparatus, electronic device and storage medium
CN112614507B (zh) 检测噪声的方法和装置
CN110059569A (zh) 活体检测方法和装置、模型评估方法和装置
KR102084209B1 (ko) 전자기 방해 신호 검출
CN107800863B (zh) 用于通过无线通信设备进行实时场景检测的控制方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant