CN112634894A - 一种唤醒方法、装置及终端 - Google Patents

一种唤醒方法、装置及终端 Download PDF

Info

Publication number
CN112634894A
CN112634894A CN202011565487.XA CN202011565487A CN112634894A CN 112634894 A CN112634894 A CN 112634894A CN 202011565487 A CN202011565487 A CN 202011565487A CN 112634894 A CN112634894 A CN 112634894A
Authority
CN
China
Prior art keywords
awakening
wake
around
primary
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011565487.XA
Other languages
English (en)
Other versions
CN112634894B (zh
Inventor
王文成
董芳芳
樊冰玉
吴翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AI Speech Ltd
Original Assignee
AI Speech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AI Speech Ltd filed Critical AI Speech Ltd
Priority to CN202011565487.XA priority Critical patent/CN112634894B/zh
Publication of CN112634894A publication Critical patent/CN112634894A/zh
Application granted granted Critical
Publication of CN112634894B publication Critical patent/CN112634894B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01VGEOPHYSICS; GRAVITATIONAL MEASUREMENTS; DETECTING MASSES OR OBJECTS; TAGS
    • G01V8/00Prospecting or detecting by optical means
    • G01V8/10Detecting, e.g. by using light barriers
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Automation & Control Theory (AREA)
  • Signal Processing (AREA)
  • Geophysics (AREA)
  • General Life Sciences & Earth Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开一种唤醒方法、装置及终端,应用于人工智能语音技术领域,本发明提供的方案中,通过监听用户对载有唤醒功能的设备输入的语音,并在监听到该语音含有唤醒词的情况下或者在确定唤醒校验结果可能引起误唤醒的情况下,启动设备上的传感器检测设备周围是否有人存在,以辅助确认本次语音唤醒为成功唤醒还是误唤醒,实现了降低误唤醒,提高唤醒准确率。本发明提供的方案解决了现有技术中因为了降低误唤醒率提高唤醒阈值时而同时导致唤醒率降低的问题,也解决了因增加新模型训练以适应新环境的方案会导致人力、物力、时间等成本的增加,不能有效地快速地适应新场景的问题。

Description

一种唤醒方法、装置及终端
技术领域
本发明涉及人工智能技术领域,尤其涉及一种唤醒方法、装置及终端。
背景技术
目前的语音交互技术中,在开始交互前大多都需要唤醒语音交互系统,才能进一步进行语音交互功能。在唤醒过程中容易出现误唤醒的情况。目前解决或者降低误唤醒的方案主要有两种:
一种是通过手动配置提高唤醒阈值方式来降低如卖场、展会等杂乱环境的误唤醒,其目的都是为了在一些嘈杂环境情况下降低误唤醒率。这一类技术方案虽是完成了对误唤醒的规避,但由于唤醒阈值的提升,同时也导致唤醒率的降低,因此不是一套真正的优化误唤醒的方案。
另一种是通过单方面控制唤醒模型方式来降低误唤醒,即如使唤醒模型学习各种各样的新场景,从而使得唤醒模型适应各种新的场景,进而降低误唤醒率,但是这种方案通常的缺陷在于,每遇到一个新的环境或者场景,都需要增加新的模型训练,需要大量的新的训练数据,而这些训练数据的采集、标注以及模型的训练都会带来很大的人力、物力、时间等成本,不能有效地快速地适应新场景。
综上,第一种提高唤醒阈值方案在降低误唤醒率的同时会导致唤醒率降低,第二种增加新模型训练以适应新环境的方案会导致人力、物力、时间等成本的增加,不能有效地快速地适应新场景。
发明内容
本发明实施例提供一种唤醒方法、装置及终端,用于至少解决上述技术问题之一。
第一方面,本发明实施例提供一种唤醒方法,包括:
接收用户对唤醒装置输入的语音;
在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在;
若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。
在一种可行的实现方式中,所述在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,包括:
在监听到所述语音含有唤醒词的情况下,进行一级唤醒,得到一级唤醒结果;
在所述一级唤醒结果为唤醒成功的情况下,对所述一级唤醒结果进行二级校验,得到二级校验结果;
当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值时,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述确认所述唤醒装置周围是否有人存在,包括:
启动距离传感器检测所述唤醒装置周围物体相对于所述唤醒装置的距离信息;
基于所述距离信息,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述基于所述距离信息,确定所述唤醒装置周围是否有人存在,包括:
当所述距离信息大于等于第一距离阈值且小于第二距离阈值时,确定所述唤醒装置周围有人存在。
在一种可行的实现方式中,在所述确认所述唤醒装置周围是否有人存在之前,所述方法还包括:获取所述唤醒词的声音强度;
所述确认所述唤醒装置周围是否有人存在,包括:
根据所述唤醒词的声音强度和所述距离信息,查找预设的声音强度-距离对应关系,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述确认所述唤醒装置周围是否有人存在,包括:
启动红外传感器检测所述唤醒装置周围的红外特征信息;
基于所述红外特征信息,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述基于所述红外特征信息,确认所述唤醒装置周围是否有人存在,包括:
判断所述红外特征信息是否符合人体红外特征信息;
当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在。
在一种可行的实现方式中,在所述确认所述唤醒装置周围是否有人存在之前,所述方法还包括:获取所述唤醒词的声音强度;
所述当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在,包括:
根据所述唤醒词的声音强度和所述人体红外特征的强度,查找预设的声音强度-人体红外特征强度对应关系,确认所述唤醒装置周围是否有人存在。
第二方面,本发明实施例提供一种唤醒装置,包括:
接收模块,用于接收用户对唤醒装置输入的语音;
唤醒控制模块,用于在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。
在一种可行的实现方式中,所述唤醒控制模块包括:
一级唤醒模块,用于在监听到所述语音含有唤醒词的情况下,进行一级唤醒,得到一级唤醒结果;
二级校验模块,用于在所述一级唤醒结果为唤醒成功的情况下,对所述一级唤醒结果进行二级校验,得到二级校验结果;
主控模块,用于当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值时,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述主控模块还用于:
当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值时,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述主控模块还用于:
启动距离传感器检测所述唤醒装置周围物体相对于所述唤醒装置的距离信息;
基于所述距离信息,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述主控模块还用于:
当所述距离信息大于第一距离阈值且小于第二距离阈值时,确定所述唤醒装置周围有人存在。
在一种可行的实现方式中,所述主控模块还用于:
获取所述唤醒词的声音强度;
根据所述唤醒词的声音强度和所述距离信息,查找预设的声音强度-距离对应关系,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述主控模块还用于:
启动红外传感器检测所述唤醒装置周围的红外特征信息;
基于所述红外特征信息,确认所述唤醒装置周围是否有人存在。
在一种可行的实现方式中,所述主控模块还用于:判断所述红外特征信息是否符合人体红外特征信息,以及当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在。
在一种可行的实现方式中,所述主控模块还用于:
获取所述唤醒词的声音强度;
根据所述唤醒词的声音强度和所述人体红外特征的强度,查找预设的声音强度-人体红外特征强度对应关系,确认所述唤醒装置周围是否有人存在。
第三方面,本发明实施例提供一种终端,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器、麦克风、距离传感器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任意一项所述方法的步骤。
第四方面,本发明实施例提供一种存储介质,所述存储介质中存储有一个或多个包括执行指令的程序,所述执行指令能够被电子设备(包括但不限于计算机,服务器,或者网络设备等)读取并执行,以用于执行本发明上述任一项唤醒方法。
第五方面,本发明实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行上述任一项一种唤醒方法。
本发明实施例的有益效果包括:
首先,本发明通过距离传感器或者红外传感器与常规唤醒方案的结合,给出了一种新的唤醒方案,在确定含有唤醒词的情况下,对周围物体进行检测,进而进一步在确定有人的情况下,最终确认唤醒是否成功,有效解决了常规唤醒方案中误唤醒率高的问题。
其次,本发明通过距离传感器或者红外传感器与二级唤醒方案结合,在一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值时,借助距离传感器或者和红外传感器确认唤醒装置周围是否有人存在,进而确定最终的唤醒结果是否真的为唤醒成功。通过该方案,可以有效解决一级唤醒结果校验得分处于不确定情况下可能所导致的误唤醒问题,进而进一步提高唤醒的准确率,降低误唤醒率。
再者,本发明通过获取唤醒词的声强、唤醒装置周围物体的距离信息、人体红外特征强度,借助声音强度-距离信息的对应关系、声音强度-人体红外特征强度对应关系,进而辅助最终确认唤醒是否成功,进一步提高了唤醒的准确率,降低了误唤醒率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种唤醒方法的流程图;
图2为本发明实施例二提供的一种唤醒装置的结构框图;
图3为本发明实施例二提供的一种终端的结构框图;
图4为图3所示终端执行图1所示方法时的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本发明,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
在本发明中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
如图1所示,本发明的实施例一提供的一种唤醒方法,该方法包括以下步骤:
S10:接收用户对唤醒装置输入的语音。
通常情况下,载有语音交互功能的机器、设备,一般通过拾音器,即麦克风来采集用户语音输入唤醒词(例如,小易小易等词),进而唤醒机器/设备,以便用户与机器/设备进行语音交互,或者以便机器/设备被唤醒后,开始执行某些其他操作,例如语音解锁,语音开启照明灯等。
具体地址,本实施例中的唤醒装置指的是机器、设备中用于配合运行唤醒应用程序的相关硬件/软件组成的有序集合。例如,由处理器、存储器、传感器构成的唤醒装置,可参考图3所示的唤醒装置。
S11:在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在。
通常情况下,一般载有语音交互功能的机器、设备都配有唤醒功能,而唤醒功能通常由运行在处理器中的唤醒模型来实现,而在本实施例一中,可结合唤醒模型和用于检测唤醒装置/机器设备周围是否有人的传感器(例如距离传感器,可以是红外距离传感器)来实现。
具体地,在机器设备没有被唤醒之前,唤醒模型处于监听状态,时刻监听麦克风采集的语音,当监听到该语音中含有唤醒词时,开始执行确认唤醒装置周围是否有人存在的步骤,具体地,该步骤的执行过程可以包括:
S111:启动距离传感器检测所述唤醒装置周围物体相对于所述唤醒装置的距离信息。
具体地,唤醒装置周围物体可以是唤醒装置所在机器/设备前的物体,即机器/设备在被用户正常使用时,朝向用户的方向。通过启动设置在机器/设备前的距离传感器,即可检测到所述唤醒装置周围物体相对于所述唤醒装置的距离信息。
S112:基于所述距离信息,确认所述唤醒装置周围是否有人存在。
具体地址,确认所述唤醒装置周围是否有人存在,可以是当所述距离信息大于等于第一距离阈值且小于第二距离阈值时,则确定所述唤醒装置周围有人存在,执行步骤S12,反之则无人存在,由唤醒模型继续执行监听。
由于有些执行主体在被用户使用时,用户与执行主体之间会有一个常规的距离,例如手机、智能音箱、带有语音控制的空调等,用户与手机的距离通常来讲有要小一些,而用户与空调的距离通常要大一些。因此,本实施例中的第一距离阈值、第二距离阈值可以根据本唤醒方法的执行主体(即机器、设备、终端等产品)进行设定,此处不做具体的限制。
S12:若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。
具体地,当确定所述唤醒装置周围有人存在,则可以认为用户本次输入的带有唤醒词语音成功实现唤醒。
综上,本实施例一通过距离传感器与常规唤醒方案的结合,给出了一种新的唤醒方案,在确定含有唤醒词的情况下,对周围物体进行检测,进而进一步在确定有人的情况下,确认唤醒成功,有效解决了常规唤醒方案中误唤醒率高的问题。
改进方案一,进一步地,对图1所示的方法改进,具体改进如下:
(1)对步骤S11“在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在”进行改进,即采用两级唤醒的方案针对用户语音含有唤醒词的情况进行唤醒处理,具体如下:
步骤S11:在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,包括:
S113:在监听到所述语音含有唤醒词的情况下,进行一级唤醒,得到一级唤醒结果。
具体地,可采用一级唤醒模型对用户输入的语音进行监听,并在监听到唤醒词的时候,进行一级唤醒处理,当一级唤醒处理给出的以及唤醒结果为唤醒成功时,将该结果发送给二级唤醒模型,即则执行步骤S114的二级校验过程。
S114:在所述一级唤醒结果为唤醒成功的情况下,对所述一级唤醒结果进行二级校验,得到二级校验结果。
具体地,可采用二级唤醒模型对来自一级唤醒模型的一级唤醒结果进行二级校验,具体包括:
对所述一级唤醒结果进行打分;
将一级唤醒结果的得分与第一唤醒阈值比对;
若所述一级唤醒结果的得分小于第一唤醒阈值(低阈值),则认为本次唤醒为误唤醒,是一次反例的误唤醒,二级唤醒模型将本次唤醒为误唤醒的结果反馈给一级唤醒模型,一级唤醒继续执行监听任务;
若所述一级唤醒结果的得分大于等于第二唤醒阈值(高阈值),则认为本次唤醒为成功唤醒,即这是一次非常完美的正例唤醒;
若所述一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值。
S115:当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值时,确认所述唤醒装置周围是否有人存在。
在本改进方案中,所述一级唤醒结果的得分大于等于第一唤醒阈值且小于第二唤醒阈值,则认为本次的唤醒有可能是误唤醒也有可能是一次模糊的正例唤醒,此时需要借助确认唤醒装置周围是否有人存在来确定最终的唤醒结果是否真的为唤醒成功。通过该改进方案,可以有效解决一级唤醒结果校验得分处于不确定情况下可能所导致的误唤醒问题,进而进一步提高唤醒的准确率,降低误唤醒率。
改进方案二,进一步地,对图1所示的方法改进,具体改进如下:
(2)预先配置声音强度-距离的对应关系,并存储;
(3)对步骤S112进行改进,即在“确认所述唤醒装置周围是否有人存”之前,增加步骤:获取所述唤醒词的声音强度。
而步骤S112中“确认所述唤醒装置周围是否有人存在”则具体可以包括:
S116:根据所述唤醒词的声音强度和所述距离信息,查找预设的声音强度-距离对应关系,确认所述唤醒装置周围是否有人存在。
具体地,图1所示的方法中,唤醒装置周围有物体存在且其相对于唤醒装置的距离满足大于等于第一距离阈值且小于第二距离阈值时,也不能完全代表唤醒装置会有人存在,例如唤醒词的声音强度(简称声强)很大,检测到的物体距离很远,但仍然将其判断为有人存在,这样就很可能引起误判断。由于用户在使用设备的唤醒功能时,通常其发出的语音的声音强度和用户相对设备的距离存在一定的对应关系,即声音强度-距离的对应关系为正相关的关系(唤醒词的声强与用户相对于唤醒装置的距离存在正相关的关系),因此为了解决这一问题,进一步提高唤醒准确率,可以提前在唤醒装置中配置声音强度-距离的对应关系,当监听到唤醒词时,获取唤醒词的声强,结合检测到的距离信息,判断该唤醒词的声强和该物体的距离是否符合声音强度-距离的对应关系,若符合,则确定所述唤醒装置周围有人存在,反之无人存在。
改进方案三,进一步地,对图1所示的方法改进,具体改进如下:
(4)对步骤S11“在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在”进行改进,具体如下:
步骤S11“在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在”,包括:
S117:启动红外传感器检测所述唤醒装置周围的红外特征信息。
具体地,由于步骤S11的实施过程中,传感器采用的是距离传感器,因此会存在这样一个缺陷,即如果本唤醒装置所在的设备前是一个物体而不是人时,上述方案仍然会将物体误判为人,进而认为这是一次成功的唤醒(因为上述方案根据距离信息只能判断设备前有没有物体,而无法判断该物体是不是人)。为了解决这一问题,可增加红外传感器,可以是人体红外传感器(本公开中定义为用于探测人体红外特征的传感器)或者采用红外传感器替换距离传感器,以解决将物体误判为人的缺陷。
S118:基于所述红外特征信息,确认所述唤醒装置周围是否有人存在。
具体地,基于所述红外特征信息,确认所述唤醒装置周围是否有人存在,包括:
S1181:判断所述红外特征信息是否符合人体红外特征信息。
由于人体的红外特征有别于其他物体或者生物,因此在实施过程中,先记录配置人体的红外特征,当红外传感器检测到周围物体红外特征时,将检测到的周围物体红外特征与事先配置的人体红外特征进行比对,若符合人体红外特征,则确定所述唤醒装置周围有人存在,反之则确定无人存在。
S1182:当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在。
本改进方案三,通过采用红外传感器来检测唤醒装置周围的物体信息,可有效解决了将物体误判为人的问题,进而进一步提高了唤醒的准确性。
改进方案四,进一步完善改进方案三,具体改进如下:
(5)预先配置声音强度-距离的对应关系,并存储;
(6)在步骤S118“确认所述唤醒装置周围是否有人存在”之前,增加一个步骤S1183:获取所述唤醒词的声音强度;
(7)对S1182改进,即“基于所述红外特征信息,确认所述唤醒装置周围是否有人存在”,还包括:
S11821:根据唤醒词的声音强度和人体红外特征的强度,查找预设的声音强度-人体红外特征强度对应关系,确认所述唤醒装置周围是否有人存在。
具体地,当所述红外特征信息符合人体红外特征信息时,也不能完全代表唤醒装置会有人存在,例如唤醒词的声音强度(简称声强)很大,检测到的人体红外特征弱,仅能确定其为人体,例如该用户离唤醒装置很远的情况,如果认为这次唤醒操作为该用户做出的,则很可能引起误判断。
由于用户在使用设备的唤醒功能时,通常其发出的语音的声音强度和用户相对设备的距离存在一定的对应关系,而用户的人体红外特征的强弱和距离也存在一定的相关关系,因此为了解决这一问题,进一步提高唤醒准确率,可以提前在唤醒装置中配置声音强度-人体红外特征强度的对应关系(唤醒词的声强与用户的人体红外特征强度存在正相关的关系),当监听到唤醒词时,获取唤醒词的声强,结合检测到的人体红外特征信息,判断该唤醒词的声强和该人体红外特征强度是否符合声音强度-人体红外特征强度的对应关系,若符合,则确定所述唤醒装置周围有人存在,反之无人存在。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作合并,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
如图2所示,本发明的实施例二还提供的一种唤醒装置200,该装置包括:
接收模块210,用于接收用户对唤醒装置输入的语音。用户的语音经麦克风输入,由接收模块210接收。
唤醒控制模块220,用于在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。具体地,唤醒控制模块220包括:
一级唤醒模块,用于在监听到所述语音含有唤醒词的情况下,进行一级唤醒,得到一级唤醒结果;具体地,一级唤醒模块中运行用于在监听用户输入语音是否含有唤醒词,并在监听到唤醒词的情况下执行以及唤醒任务,具体过程参见上述实施例一中的方法,此处不在赘述。
二级校验模块,用于在所述一级唤醒结果为唤醒成功的情况下,对所述一级唤醒结果进行二级校验,得到二级校验结果;具体地,二级校验模块中运行用于对一级唤醒模型给出的唤醒结果进行二级校验的二级唤醒模型,具体过程参见上述实施例一中的方法,此处不在赘述。
主控模块,用于当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值时,确认所述唤醒装置周围是否有人存在。具体地,主控模块用于根据二级校验结果控制相关操作,包括:
当所述二级校验结果为所述一级唤醒结果的得分大于等于第一唤醒阈值时,启动传感器确认所述唤醒装置周围是否有人存在。具体过程及其他控制参见上述实施例一中的方法,此处不在赘述。
如图3所示,本发明的实施例三还提供了一种终端300,该终端包括:麦克风310、第一处理器320、传感器330、第二处理器340、存储器350;麦克风310、存储器350分别与第一处理器320连接,并可进行数据传输通信;第一处理器320、传感器330、存储器350分别与第二处理器340连接,并可进行数据传输通信;具体的,麦克风310、第一处理器320、传感器330、第二处理器340的具体介绍如下:
麦克风310,用于采集用户的语音。
第一处理器320,用于运行一级唤醒模型,一级唤醒模型用于监听其所处环境是否有语音输入,进而确定是否执行一级唤醒任务。一级唤醒模型在监听到唤醒词的情况下进行一级唤醒,并将唤醒结果发送给第二处理器中的二级唤醒模型。由于一级唤醒模型执行监听任务时,需要运行在一个其功耗极低的处理器中,以便节省能源,因此所述第一处理器可以采用功耗极低的数字信号处理器(DSP,Digital Signal Processor),DSP是一种低算力的处理器,其功耗极低,可以满足用于起监听作用的一级唤醒模型的运行。
传感器330,用于检测周边信息,所述周边信息包括物体距离信息、红外特征信息等中的至少一种。所述传感器可以采用距离传感器,例如红外距离传感器,也可以采用红外传感器,例如人体红外传感器,或者可以同时采用距离传感器和红外传感器。距离传感器用于检测该唤醒装置周围物体相对于该唤醒装置的距离信息,由第二处理器分析所述距离信息,进而判断所述唤醒装置周边是否有人存在。红外传感器用于探测唤醒装置周围人体相对于该唤醒装置的红外特征信息,由第二处理器判断所述唤醒装置周边是否有人存在。
第二处理器340,用于运行二级唤醒模型,该二级唤醒模型用于唤醒校验,即对一级唤醒模型给出的唤醒结果进行校验。第二处理器还用于根据上述传感器检测的周边信息,判断本唤醒装置周边是否有人存在。第二处理器根据唤醒校验的结果或者结合唤醒校验的结果和对所述周边信息的判断结果,确定一级唤醒模型给出的唤醒结果是否正确。为保证二级唤醒模型唤醒算法的鲁棒性,二级唤醒模型需要运行在一个算力较强的处理器中,因此所述第二处理器可以采用算力较强的应用处理器(AP,Application Processor)。
存储器350,用于存储包括声音强度-距离对应关系数据、声音强度-人体红外特征强度对应关系数据,以及该终端设备执行本唤醒方案时的其他相关数据。
如图4所示,图3所示唤醒装置执行图1所示方法的实现过程如下:
第一处理器中运行的一级唤醒模型处于监听状态,即监听用户的语音输入。当一级唤醒模型监听到所述语音输入中未含有唤醒词时,一级唤醒模型未被唤醒(即一级唤醒模型得到的一级唤醒结果为唤醒失败),此时一级唤醒模型保持监听状态,继续执行监听任务;当一级唤醒模型监听到所述语音输入中含有唤醒词时,此时一级唤醒模型被成功唤醒(即一级唤醒模型得到的一级唤醒结果为唤醒成功),并将所述一级唤醒结果发送给第二处理器中的二级唤醒模型。
当二级唤醒模型接收到一级唤醒模型传来的唤醒结果时,开始进行二级校验(即唤醒校验)的逻辑判断。唤醒校验的逻辑判断为:
首先,二级模型中预设有第一唤醒阈值和第二唤醒阈值,其中,第二唤醒阈值大于等于第一唤醒阈值。
其次,二级唤醒模型接收到一级唤醒模型上传的唤醒结果后,对该唤醒结果给出打分,得到唤醒结果的得分。
再者,二级唤醒模型将该唤醒结果的得分与所述第一唤醒阈值进行比对,若所述一级唤醒结果的得分小于第一唤醒阈值(低阈值),则认为本次唤醒为误唤醒,是一次反例的误唤醒,二级唤醒模型将本次唤醒为误唤醒的结果反馈给一级唤醒模型,一级唤醒继续执行监听任务;若所述一级唤醒结果的得分大于等于第二唤醒阈值(高阈值),则认为本次唤醒为成功唤醒,即这是一次非常完美的正例唤醒,并将本次唤醒为正确的结果通知第二处理器的主控模块,由主控模块启动所述唤醒装置所在设备的相关系统,例如该设备的语音交互系统。
此外,若所述一级唤醒结果的得分大于等于第一唤醒阈值(低阈值)且小于第二唤醒阈值(高阈值),则认为本次的唤醒有可能是误唤醒也有可能是一次模糊的正例唤醒,此时通知第二处理器的主控模块,由该主控模块启动所述传感器检测周围信息,并由主控模块根据所述传感器检测到周围信息,判断所述唤醒装置前方是否有人存在,若有人存在,则确定本次唤醒为成功唤醒,即本次唤醒是一次正例唤醒,进而启动所述唤醒装置所在设备的相关系统。若有人存在,则确定本次唤醒为误唤醒,进而通知一级唤醒模型继续执行监听任务。主控模块断所述唤醒装置周围是否有人存在的逻辑具体如下:
本实施例中采用的传感器为距离传感器。将所述距离传感器设置在设备朝向用户的一侧(即设备被用户正常使用时该设备朝向用户的一侧),例如手机屏幕所在一侧。主控模块的判断逻辑为:若主控模块接收到所述距离传感器检测的距离信息,则确定所述唤醒装置前有人存在,此时则确定本次唤醒为成功唤醒。若主控模块没有接收到所述距离传感器检测的距离信息,则确定所述唤醒装置前无人存在,此时确定本次唤醒为误唤醒,通知一级唤醒模型继续执行监听任务。
由于所述一级唤醒结果的得分大于等于第一唤醒阈值(低阈值)且小于第二唤醒阈值(高阈值)时,一级唤醒给出的唤醒结果有可能是不准确的,因此通过本实施例的方案,借助距离传感器确认设备前是否有人来进一步确认所述一级唤醒结果的正确性,进而提高唤醒的准确率。
进一步地,由于上述方案中,传感器仅采用距离传感器,因此会存在这样一个缺陷,即如果本唤醒装置所在的设备前是一个物体而不是人时,上述方案仍然会将物体误判为人,进而认为这是一次成功的唤醒(因为上述方案根据距离信息只能判断设备前有没有物体,而无法判断该物体是不是人)。为了解决这一问题,可增加红外传感器,以解决本方案将物体误判为人的缺陷,具体如下:
本实施例中采用的传感器包括距离传感器和红外传感器。将所述距离传感器、红外传感器设置在设备朝向用户的一侧。此时,主控模块的判断逻辑为:若主控模块接收到红外传感器探测的红外特征信息,且该红外特征信息符合人体红外特征信息时,则确定所述唤醒装置前有人存在,此时确定本次唤醒为成功唤醒。若主控模块仅接收到所述距离传感器检测的距离信息,而没有接收到所述红外传感器探测的红外特征信息或者所述红外传感器探测的红外特征信息不符合人体红外特征信息时,则确定所述唤醒装置前无人存在,此时则确定本次唤醒为误唤醒,通知一级唤醒模型继续执行监听任务。
进一步地,由于上述改进方案采用了两种传感器,无形中增加了设备的成本,因此为了在保持唤醒准确率的基础上降低上述方案的成本,传感器可仅采用红外传感器。所述红外传感器同样地设置在设备朝向用户的一侧。此时,主控模块的判断逻辑为:若主控模块接收到所述红外传感器探测的红外特征信息符合人体红外特征时,则确定所述唤醒装置前有人存在,此时确定本次唤醒为成功唤醒。若主控模块没有接收到所述人体红外传感器探测的人体红外特征信息或者所述红外特征信息不符合人体红外特征信息,则确定所述唤醒装置前无人存在,此时则确定本次唤醒为误唤醒,通知一级唤醒模型继续执行监听任务。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (11)

1.一种唤醒方法,其特征在于,包括:
接收用户对唤醒装置输入的语音;
在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在;
若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。
2.根据权利要求1所述的唤醒方法,其特征在于,所述在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,包括:
在监听到所述语音含有唤醒词的情况下,进行一级唤醒,得到一级唤醒结果;
在所述一级唤醒结果为唤醒成功的情况下,对所述一级唤醒结果进行二级校验,得到二级校验结果;
当所述二级校验结果为所述一级唤醒结果的得分大于或等于第一唤醒阈值且小于第二唤醒阈值时,确认所述唤醒装置周围是否有人存在。
3.根据权利要求1所述的唤醒方法,其特征在于,所述确认所述唤醒装置周围是否有人存在,包括:
启动距离传感器检测所述唤醒装置周围物体相对于所述唤醒装置的距离信息;
基于所述距离信息,确认所述唤醒装置周围是否有人存在。
4.根据权利要求3所述的唤醒方法,其特征在于,所述基于所述距离信息,确定所述唤醒装置周围是否有人存在,包括:
当所述距离信息大于等于第一距离阈值且小于第二距离阈值时,确定所述唤醒装置周围有人存在。
5.根据权利要求3所述的唤醒方法,其特征在于,在所述确认所述唤醒装置周围是否有人存在之前,所述方法还包括:获取所述唤醒词的声音强度;
所述确认所述唤醒装置周围是否有人存在,包括:
根据所述唤醒词的声音强度和所述距离信息,查找预设的声音强度-距离对应关系,确认所述唤醒装置周围是否有人存在。
6.根据权利要求1所述的唤醒方法,其特征在于,所述确认所述唤醒装置周围是否有人存在,包括:
启动红外传感器检测所述唤醒装置周围的红外特征信息;
基于所述红外特征信息,确认所述唤醒装置周围是否有人存在。
7.根据权利要求6所述的唤醒方法,其特征在于,所述基于所述红外特征信息,确认所述唤醒装置周围是否有人存在,包括:
判断所述红外特征信息是否符合人体红外特征信息;
当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在。
8.根据权利要求7所述的唤醒方法,其特征在于,在所述确认所述唤醒装置周围是否有人存在之前,所述方法还包括:获取所述唤醒词的声音强度;
所述当所述红外特征信息符合人体红外特征信息时,确定所述唤醒装置周围有人存在,包括:
根据所述唤醒词的声音强度和所述人体红外特征的强度,查找预设的声音强度-人体红外特征强度对应关系,确认所述唤醒装置周围是否有人存在。
9.一种唤醒装置,其特征在于,所述唤醒装置包括:
接收模块,用于接收用户对唤醒装置输入的语音;
唤醒控制模块,用于在监听到所述语音含有唤醒词的情况下,确认所述唤醒装置周围是否有人存在,若所述唤醒装置的周围有人存在,则确定本次语音唤醒为唤醒成功。
10.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器、麦克风、距离传感器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任意一项所述方法的步骤。
11.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-8中任意一项所述方法的步骤。
CN202011565487.XA 2020-12-25 2020-12-25 一种唤醒方法、装置及终端 Active CN112634894B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011565487.XA CN112634894B (zh) 2020-12-25 2020-12-25 一种唤醒方法、装置及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011565487.XA CN112634894B (zh) 2020-12-25 2020-12-25 一种唤醒方法、装置及终端

Publications (2)

Publication Number Publication Date
CN112634894A true CN112634894A (zh) 2021-04-09
CN112634894B CN112634894B (zh) 2023-02-24

Family

ID=75325220

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011565487.XA Active CN112634894B (zh) 2020-12-25 2020-12-25 一种唤醒方法、装置及终端

Country Status (1)

Country Link
CN (1) CN112634894B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113593544A (zh) * 2021-06-11 2021-11-02 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114363105A (zh) * 2022-01-17 2022-04-15 深圳市海曼科技股份有限公司 一种基于语音识别的智能设备控制方法
WO2022222847A1 (zh) * 2021-04-23 2022-10-27 美的集团(上海)有限公司 设备唤醒方法及系统、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147780A (zh) * 2018-08-15 2019-01-04 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN109920420A (zh) * 2019-03-08 2019-06-21 四川长虹电器股份有限公司 一种基于环境检测的语音唤醒系统
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110910877A (zh) * 2019-11-27 2020-03-24 广东美的制冷设备有限公司 家电设备的控制方法、装置和家电设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109147780A (zh) * 2018-08-15 2019-01-04 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
CN109920420A (zh) * 2019-03-08 2019-06-21 四川长虹电器股份有限公司 一种基于环境检测的语音唤醒系统
CN110600029A (zh) * 2019-09-17 2019-12-20 苏州思必驰信息科技有限公司 用于智能语音设备的自定义唤醒方法和装置
CN110910877A (zh) * 2019-11-27 2020-03-24 广东美的制冷设备有限公司 家电设备的控制方法、装置和家电设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022222847A1 (zh) * 2021-04-23 2022-10-27 美的集团(上海)有限公司 设备唤醒方法及系统、电子设备和存储介质
CN113593544A (zh) * 2021-06-11 2021-11-02 青岛海尔科技有限公司 设备的控制方法和装置、存储介质及电子装置
CN114363105A (zh) * 2022-01-17 2022-04-15 深圳市海曼科技股份有限公司 一种基于语音识别的智能设备控制方法

Also Published As

Publication number Publication date
CN112634894B (zh) 2023-02-24

Similar Documents

Publication Publication Date Title
CN112634894B (zh) 一种唤醒方法、装置及终端
CN109378000B (zh) 语音唤醒方法、装置、系统、设备、服务器及存储介质
CN106782554B (zh) 基于人工智能的语音唤醒方法和装置
US10991372B2 (en) Method and apparatus for activating device in response to detecting change in user head feature, and computer readable storage medium
CN107277672B (zh) 一种支持唤醒模式自动切换的方法和装置
CN111599361A (zh) 一种唤醒方法、装置、计算机存储介质及空调器
CN110363888B (zh) 门锁管理方法、装置、电子设备及可读取存储介质
CN112489648A (zh) 唤醒处理阈值调整方法、语音家电、存储介质
CN110097884B (zh) 一种语音交互方法和装置
CN111508493A (zh) 语音唤醒方法、装置、电子设备及存储介质
CN111954868A (zh) 一种多语音助手控制方法、装置、系统及计算机可读存储介质
CN111325877B (zh) 电子设备的控制方法、装置及电子设备
CN117274177A (zh) 一种基于图像识别的输电线路防外破方法及装置
CN111179924B (zh) 一种基于模式切换的唤醒性能优化的方法及系统
CN113160815A (zh) 语音唤醒的智能控制方法、装置、设备及存储介质
CN111739515B (zh) 语音识别方法、设备、电子设备和服务器、相关系统
CN114582052A (zh) 智能门锁的控制方法、装置、智能门锁及存储介质
CN111007732A (zh) 基于尺度变化空调视觉免唤醒识别方法、系统、智能家居
CN110401775B (zh) 一种闹钟设定方法、闹钟设定装置及移动终端
CN113420631A (zh) 一种基于图像识别的安全报警方法及装置
CN112989101A (zh) 适用于听力障碍患者的提醒方法、装置、设备及存储介质
WO2016123862A1 (zh) 应用启动方法及装置
CN115249474A (zh) 语音信息的识别方法、系统、设备和存储介质
CN109639541A (zh) 一种智能家居的语音识别系统
US20220122593A1 (en) User-friendly virtual voice assistant

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant