CN109256134B - 一种语音唤醒方法、存储介质及终端 - Google Patents

一种语音唤醒方法、存储介质及终端 Download PDF

Info

Publication number
CN109256134B
CN109256134B CN201811401047.3A CN201811401047A CN109256134B CN 109256134 B CN109256134 B CN 109256134B CN 201811401047 A CN201811401047 A CN 201811401047A CN 109256134 B CN109256134 B CN 109256134B
Authority
CN
China
Prior art keywords
awakening
user
doubt
voice
confidence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811401047.3A
Other languages
English (en)
Other versions
CN109256134A (zh
Inventor
皮碧虹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Tongxingzhe Technology Co ltd
Original Assignee
Shenzhen Tongxingzhe Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Tongxingzhe Technology Co ltd filed Critical Shenzhen Tongxingzhe Technology Co ltd
Priority to CN201811401047.3A priority Critical patent/CN109256134B/zh
Publication of CN109256134A publication Critical patent/CN109256134A/zh
Application granted granted Critical
Publication of CN109256134B publication Critical patent/CN109256134B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Abstract

本发明公开了一种语音唤醒方法、存储介质及终端,所述方法包括:步骤A、采集用户录音并进行预处理,之后将预处理后的录音数据进行计算识别,得到识别的结果与置信度;步骤B、判断置信度是否达到预设的可信度阈值,若达到则触发第一类唤醒,若结果存疑则进入步骤C,其中,所述结果存疑为置信度接近但未达到可信度阈值;步骤C、判断最近预定时间内是否有相同的存疑事件记录,当有时则触发第二类唤醒,并反馈给用户确认;步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作,若否,则自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习,提升语音识别唤醒率,降低语音识别的误唤醒率。

Description

一种语音唤醒方法、存储介质及终端
技术领域
本发明涉及语音唤醒技术领域,尤其涉及的是一种语音唤醒方法、存储介质及终端。
背景技术
目前市场上语音唤醒引擎的工作模式是录音收集用户录音,对录音进行计算分析,匹配搜索,当匹配到唤醒词达到一定置信度时,触发唤醒逻辑。当用户处于不同的状态和环境下时,无法对置信度做出调整,不能提升语音唤醒率和降低误唤醒率。
因此,现有技术还有待于改进和发展。
发明内容
鉴于上述现有技术中的不足之处,本发明的目的在于提供一种语音唤醒方法、存储介质及终端,从而克服现有的语音唤醒技术,当用户处于不同的状态和环境下时,无法对置信度做出调整,不能提升语音唤醒率和降低误唤醒率的问题。
本发明解决技术问题所采用的技术方案如下:
一种语音唤醒方法,其中,包括:
步骤A、采集用户录音并进行预处理,之后将预处理后的录音数据进行计算识别,得到识别的结果与置信度;
步骤B、判断置信度是否达到预设的可信度阈值,若达到,则触发第一类唤醒,若结果存疑,则进入步骤C,其中,所述结果存疑为置信度接近但未达到可信度阈值;
步骤C、判断最近预定时间内是否有相同的存疑事件记录,当有时,则触发第二类唤醒,并反馈给用户确认;
步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作,若否,则自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。
所述的语音唤醒方法,其中,所述步骤D还包括步骤:若用户确认本次第二类唤醒是误唤醒操作,则维持可信度阈值不变。
所述的语音唤醒方法,其中,所述步骤D中,通过检测预定时间内是否有接收到触发取消唤醒的操作,判断用户是否确认本次第二类唤醒属于误唤醒操作。
所述的语音唤醒方法,其中,所述方法还包括:
步骤E、触发第一类唤醒后反馈给用户,判断用户是否确认本次第一类唤醒为误唤醒操作,若是,则自动提高可信度阈值,并学习保存当前的用户状态和对应的环境条件。
所述的语音唤醒方法,其中,所述步骤E还包括:
若用户确认本次第一类唤醒不是误唤醒操作,则维持可信度阈值不变。
所述的语音唤醒方法,其中,所述步骤C还包括:
当最近预定时间内没有相同的存疑事件记录时,则不触发唤醒,同时学习记录当前发生的存疑事件。
所述的语音唤醒方法,其中,所述步骤A中,预处理过程包括:增加有效信号的信噪比。
所述的语音唤醒方法,其中,所述步骤A中,采用基于语音引擎的语音识别算法对预处理后的录音数据进行计算识别。
一种存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序能够被执行以实现如上任一项所述的语音唤醒方法。
一种终端,其中,包括:处理器、与处理器通信连接的存储器,所述存储器存储有计算机程序,所述计算机程序用于被执行时实现如上任一项所述的语音唤醒方法;所述处理器用于调用所述存储器中的计算机程序,以实现如上任一项所述的语音唤醒方法。
有益效果:本发明所述语音唤醒方法,当最近预定时间内有与当前录音识别结果相同的存疑事件记录时,触发唤醒,并反馈给用户确认是否为误唤醒操作,若否时,自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习,提升语音识别唤醒率,降低语音识别的误唤醒率,增强设备在使用场景中的抗干扰能力及响应率,提升用户体验。
附图说明
图1是本发明较佳实施例的语音唤醒方法的流程图。
图2是本发明较佳实施例的语音唤醒方法具体实施的原理图。
图3是本发明较佳实施例的语音唤醒方法具体实施例的流程图。
图4是本发明所述终端的功能原理框图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
请参见图1,图1为本发明较佳实施例的语音唤醒方法的流程图。参见图1所示,所述语音唤醒方法包括:
步骤S100、采集用户录音并进行预处理,之后将预处理后的录音数据进行计算识别,得到识别的结果与置信度;
步骤S200、判断置信度是否达到预设的可信度阈值,若达到,则触发第一类唤醒,若结果存疑,则进入步骤S300,其中,所述结果存疑为置信度接近但未达到可信度阈值;
步骤S300、判断最近预定时间内是否有相同的存疑事件记录,当有时,则触发第二类唤醒,并反馈给用户确认;
步骤S400、判断用户是否确认本次第二类唤醒为误唤醒操作,若否,则自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。
本发明所述语音唤醒方法,当最近预定时间内有与当前录音识别结果相同的存疑事件记录时,触发唤醒,并反馈给用户确认是否为误唤醒操作,若否时,自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。本发明通过对用户行为和环境的的自主学习,提升语音识别唤醒率,降低语音识别的误唤醒率,增强设备在使用场景中的抗干扰能力及响应率,提升用户体验。
进一步地,本实施例中,所述步骤S100中,采集录音的设备包括不限于通讯设备的麦克风、麦克风阵列。具体实施时,参见图2所示,可以采用录音数据采集模块(M01)的形式,采集主叫说话的声音数据。所述预处理过程包括:增加有效信号的信噪比,具体包括但不限于噪声抑制(NS)、自动增益控制(AGC)、静音检测(VAD)、回音消除(AEC)、重采样、自适应滤波等。具体实施时,参见图2所示,可以采用录音数据处理模块(M02)的形式,预处理主叫的声音数据,对声音进行预处理操作。本发明优选采用基于语音引擎的语音识别算法,对预处理后的录音数据(声音信号)进行计算识别。所述语音引擎包括但不限于科大讯飞、云知声、思必驰、Nuance等语音唤醒技术,所述语音识别算法包括但不限于包括人工神经网络识别算法、统计模式识别算法等。具体实施时,参见图2所示,可以采用录音数据识别模块(M03)的形式,调用识别引擎技术,对录音数据进行匹配搜索,给出识别的结果与置信度。
进一步地,本实施例中,所述步骤S200中,判断置信度是否达到预设的可信度阈值,并判断结果是否存疑,所述结果存疑为置信度接近但未达到可信度阈值,也即是置信度处于接近但没有达到可信度阈值的预设区间内,本领域技术人员可以理解,此预设区间可以根据需要上下调整。
进一步地,本实施例中,所述步骤S400还包括:
步骤S420、若用户确认本次第二类唤醒是误唤醒操作,则维持可信度阈值不变。
进一步地,本实施例中,所述步骤S400中,通过检测预定时间内是否有接收到触发取消唤醒的操作,判断用户是否确认本次第二类唤醒属于误唤醒操作。
进一步地,本实施例中,所述语音唤醒方法,还包括:
步骤S500、触发第一类唤醒后反馈给用户,判断用户是否确认本次第一类唤醒为误唤醒操作,若是,则自动提高可信度阈值,并学习保存当前的用户状态和对应的环境条件。
进一步地,本实施例中,所述步骤S500还包括:
步骤S520、若用户确认本次第一类唤醒不是误唤醒操作,则维持可信度阈值不变。
进一步地,本实施例中,所述步骤S300还包括:当最近预定时间内没有相同的存疑事件记录时,则不触发唤醒,同时学习记录当前发生的存疑事件。其中,记录的存疑事件包括存疑时间、置信度、用户状态和对应的环境条件等,学习过程是对当前环境和人的状态做出的统筹判断。
具体实施时,一并参见图2、图3所示,本发明所述步骤S300、步骤S400和步骤S500可以以结果分析模块(M04)、结果反馈模块(M05)、以及学习模块(M06)的形式实现功能,其中,所述结果分析模块(M04):用于分析本次识别的结果,是否触发唤醒。结果反馈模块(M05):用于针对录音数据识别模块的处理结果,并将交互结果返回给结果学习模块。学习模块(M06):用于学习用户状态和环境,对阈值做出调整,反馈给结果分析模块。
具体的,结果分析模块对结果的置信度进行判定,达到可信阈值时触发唤醒,认为结果可能存疑时启动学习模块,进入学习状态,当最近发生过同样的存疑记录时,认为用户已多次进行唤醒,降低可信度阈值,否则记录最近的存疑记录,并启动学习状态定时器。当学习状态超时,没有用户新的状态发生时,关闭学习学习模块,退出学习状态。当触发唤醒后,启动学习模块,进入学习模式,同时进行唤醒后的交互,启动结果反馈模块,由用户交互确认本次属于误唤醒操作(如用户取消操作或超时未对唤醒操作做出回复),则对唤醒置信度阈值做出调整,提升唤醒置信度阈值(可能是环境噪音引发的误唤醒,则说明环境有一定的误唤醒,需要更高的置信度来降低误唤醒);当用户交互确定本次是正常唤醒行为(用户发出了唤醒后的后续指令),不对阈值做出调整。
本发明语音唤醒方法,能够有效提升语音唤醒率,降低误唤醒率,为了便于理解,以下以一个具体应用实施例进一步解释本发明的技术思路。基于人与人交流时的模式:假定场景A(可认为是用户)需要和B(可认为是设备)发起交流时,即为唤醒操作。有以下场景:
1)、B听到了A在喊他的名字并且非常确定(超过可信度阈值),则直接回应A;如果A收到回应后告诉B,我刚刚没有喊你,则B学习到了,原来刚才这样喊不是在真的喊我(提高可信度阈值);
2)、B听到了A在喊他的名字,但不是太确定,那么我再等一会,看看A是不是会再喊我;如果A又喊了我,说明刚才我没有听错,那么下次A这么喊我时我就可以直接回应(降低可信度阈值),同时回应A。
本发明通过在不同用户场景和环境下,通过数据反馈,自主学习,优化不同环境和不同场景的置信度,能够大大提升唤醒率和降低误唤醒率。
本发明还提供了一种终端,如图4所示,所述终端包括:处理器(processor)10、存储器(memory)20、通信接口(Communications Interface)30和通信总线40;其中,
所述处理器10、存储器20、通信接口30通过所述通信总线40完成相互间的通信;
所述通信接口30用于所述终端的通信设备之间的信息传输;
所述处理器10用于调用所述存储器20中的计算机程序,以执行上述各方法实施例所提供的方法,例如包括:采集用户录音并进行预处理,之后将预处理后的录音数据进行计算识别,得到识别的结果与置信度;判断置信度是否达到预设的可信度阈值,若达到,则触发第一类唤醒,若结果存疑,则判断最近预定时间内是否有相同的存疑事件记录,当有相同的存疑事件记录时,则触发第二类唤醒,并反馈给用户确认,其中,所述结果存疑为置信度接近但未达到可信度阈值;判断用户是否确认本次第二类唤醒为误唤醒操作,若否,则自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件。
本发明还提供一种存储介质,其中,所述存储介质存储有计算机程序,所述计算机程序能够被执行以实现所述的语音唤醒方法。
当然,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关硬件(如处理器,控制器等)来完成,所述的程序可存储于一计算机可读取的存储介质中,该程序在执行时可包括如上述各方法实施例的流程。其中所述的存储介质可为存储器、磁碟、光盘等。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (5)

1.一种语音唤醒方法,其特征在于,包括:
步骤A、采集用户录音并进行预处理,之后将预处理后的录音数据进行计算识别,得到识别的结果与置信度;
步骤B、判断置信度是否达到预设的可信度阈值;
若达到,则触发第一类唤醒,步骤E、触发第一类唤醒后反馈给用户,判断用户是否确认本次第一类唤醒为误唤醒操作,若是,则自动提高可信度阈值,并学习保存当前的用户状态和对应的环境条件;
若结果存疑,则进入步骤C,其中,所述结果存疑为置信度接近但未达到可信度阈值;
步骤C、判断最近预定时间内是否有相同的存疑事件记录,当有时,则触发第二类唤醒,并反馈给用户确认;
步骤D、判断用户是否确认本次第二类唤醒为误唤醒操作,若否,则自动降低可信度阈值,并学习保存当前的用户状态和对应的环境条件;
其中,所述步骤D还包括步骤:若用户确认本次第二类唤醒是误唤醒操作,则维持可信度阈值不变;
其中,所述步骤D中,通过检测预定时间内是否有接收到触发取消唤醒的操作,判断用户是否确认本次第二类唤醒属于误唤醒操作;
其中,所述步骤E还包括:
若用户确认本次第一类唤醒不是误唤醒操作,则维持可信度阈值不变;
其中,所述步骤C还包括:
当最近预定时间内没有相同的存疑事件记录时,则不触发唤醒,同时学习记录当前发生的存疑事件。
2.根据权利要求1所述的语音唤醒方法,其特征在于,所述步骤A中,预处理过程包括:增加有效信号的信噪比。
3.根据权利要求1所述的语音唤醒方法,其特征在于,所述步骤A中,采用基于语音引擎的语音识别算法对预处理后的录音数据进行计算识别。
4.一种存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序能够被执行以实现如权利要求1~3任一项所述的语音唤醒方法。
5.一种终端,其特征在于,包括:处理器、与处理器通信连接的存储器,所述存储器存储有计算机程序,所述计算机程序用于被执行时实现如权利要求1~3任一项所述的语音唤醒方法;所述处理器用于调用所述存储器中的计算机程序,以实现如权利要求1~3任一项所述的语音唤醒方法。
CN201811401047.3A 2018-11-22 2018-11-22 一种语音唤醒方法、存储介质及终端 Active CN109256134B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811401047.3A CN109256134B (zh) 2018-11-22 2018-11-22 一种语音唤醒方法、存储介质及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811401047.3A CN109256134B (zh) 2018-11-22 2018-11-22 一种语音唤醒方法、存储介质及终端

Publications (2)

Publication Number Publication Date
CN109256134A CN109256134A (zh) 2019-01-22
CN109256134B true CN109256134B (zh) 2021-11-02

Family

ID=65042101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811401047.3A Active CN109256134B (zh) 2018-11-22 2018-11-22 一种语音唤醒方法、存储介质及终端

Country Status (1)

Country Link
CN (1) CN109256134B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200141860A (ko) 2019-06-11 2020-12-21 삼성전자주식회사 전자 장치 및 그 제어 방법
CN110297705B (zh) * 2019-06-27 2021-12-14 百度在线网络技术(北京)有限公司 功能切换处理方法、装置、设备和存储介质
CN110197663B (zh) * 2019-06-30 2022-05-31 联想(北京)有限公司 一种控制方法、装置及电子设备
CN110288997B (zh) * 2019-07-22 2021-04-16 苏州思必驰信息科技有限公司 用于声学组网的设备唤醒方法及系统
CN111445907B (zh) * 2020-02-28 2023-04-18 云知声智能科技股份有限公司 一种降低误唤醒率的方法和装置
CN113066488B (zh) * 2021-03-26 2023-10-27 深圳市欧瑞博科技股份有限公司 语音唤醒智能控制方法、装置、电子设备及存储介质
CN113160815B (zh) * 2021-04-15 2023-08-29 深圳市欧瑞博科技股份有限公司 语音唤醒的智能控制方法、装置、设备及存储介质
CN113335205B (zh) * 2021-06-09 2022-06-03 东风柳州汽车有限公司 语音唤醒方法、装置、设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
US20170206901A1 (en) * 2012-10-30 2017-07-20 Google Technology Holdings LLC Voice Control User Interface with Progressive Command Engagement
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN108447472A (zh) * 2017-02-16 2018-08-24 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN108766423A (zh) * 2018-05-25 2018-11-06 三星电子(中国)研发中心 一种基于场景的主动唤醒方法和装置
CN108847219A (zh) * 2018-05-25 2018-11-20 四川斐讯全智信息技术有限公司 一种唤醒词预设置信度阈值调节方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104584118A (zh) * 2012-06-22 2015-04-29 约翰逊控制技术公司 多遍车辆语音识别系统和方法
US20170206901A1 (en) * 2012-10-30 2017-07-20 Google Technology Holdings LLC Voice Control User Interface with Progressive Command Engagement
CN103700368A (zh) * 2014-01-13 2014-04-02 联想(北京)有限公司 用于语音识别的方法、语音识别装置和电子设备
CN108447472A (zh) * 2017-02-16 2018-08-24 腾讯科技(深圳)有限公司 语音唤醒方法及装置
CN108335696A (zh) * 2018-02-09 2018-07-27 百度在线网络技术(北京)有限公司 语音唤醒方法和装置
CN108766423A (zh) * 2018-05-25 2018-11-06 三星电子(中国)研发中心 一种基于场景的主动唤醒方法和装置
CN108847219A (zh) * 2018-05-25 2018-11-20 四川斐讯全智信息技术有限公司 一种唤醒词预设置信度阈值调节方法及系统

Also Published As

Publication number Publication date
CN109256134A (zh) 2019-01-22

Similar Documents

Publication Publication Date Title
CN109256134B (zh) 一种语音唤醒方法、存储介质及终端
EP3574500B1 (en) Audio device filter modification
EP0996110B1 (en) Method and apparatus for speech activity detection
CN109920419B (zh) 语音控制方法和装置、电子设备及计算机可读介质
KR100631608B1 (ko) 음성 판별 방법
CN109272991B (zh) 语音交互的方法、装置、设备和计算机可读存储介质
CN110189746B (zh) 一种应用于地空通信的话音识别方法
WO2022222045A1 (zh) 语音信息处理方法及设备
CN113271430B (zh) 网络视频会议中防干扰方法、系统、设备及存储介质
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
CN115567336B (zh) 一种基于智慧家居的无唤醒语音控制系统及方法
KR100429896B1 (ko) 잡음 환경에서의 음성신호 검출방법 및 그 장치
CN115083412B (zh) 语音交互方法及相关装置、电子设备、存储介质
CN111292723A (zh) 一种语音识别系统
CN110197663B (zh) 一种控制方法、装置及电子设备
CN112669837A (zh) 智能终端的唤醒方法、装置及电子设备
CN114664288A (zh) 一种语音识别方法、装置、设备及可存储介质
KR20200109826A (ko) 스피치 인식 방법을 실행 시키기 위한 프로그램이 기록된 컴퓨터에서 읽을 수 있는 기록매체
CN112885341A (zh) 一种语音唤醒方法、装置、电子设备和存储介质
CN115472161A (zh) 语音唤醒方法、装置、设备和存储介质
CN112349298A (zh) 声音事件识别方法、装置、设备和存储介质
CN116486797A (zh) 一种减少误唤醒的方法、装置、电子设备及介质
CN114387955A (zh) 语音检测方法、装置、计算机设备及可读存储介质
CN116682457A (zh) 一种语音呼梯方法、装置、设备及存储介质
CN113781742A (zh) 一种基于声纹识别的儿童手表智能报警方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant