CN115249475A - 语音控制方法、装置、设备、介质及程序产品 - Google Patents

语音控制方法、装置、设备、介质及程序产品 Download PDF

Info

Publication number
CN115249475A
CN115249475A CN202110460964.4A CN202110460964A CN115249475A CN 115249475 A CN115249475 A CN 115249475A CN 202110460964 A CN202110460964 A CN 202110460964A CN 115249475 A CN115249475 A CN 115249475A
Authority
CN
China
Prior art keywords
user
response
determining
information
target control
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110460964.4A
Other languages
English (en)
Inventor
丁晓鹏
许升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao Haier Washing Machine Co Ltd
Haier Smart Home Co Ltd
Original Assignee
Qingdao Haier Washing Machine Co Ltd
Haier Smart Home Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao Haier Washing Machine Co Ltd, Haier Smart Home Co Ltd filed Critical Qingdao Haier Washing Machine Co Ltd
Priority to CN202110460964.4A priority Critical patent/CN115249475A/zh
Publication of CN115249475A publication Critical patent/CN115249475A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Selective Calling Equipment (AREA)

Abstract

本申请提供了一种语音控制方法、装置、设备、介质及程序产品,通过接收多个待控制设备发送的声音采集信息,声音采集信息与用户发出的语音指令相对应,然后利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,响应设备与应答方式相对应,最后根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。解决了如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题,达到了提高用户对分布式多设备语音控制系统的使用体验感的技术效果。

Description

语音控制方法、装置、设备、介质及程序产品
技术领域
本申请涉及语音控制技术领域,具体涉及一种语音控制方法、装置、设备、介质及程序产品。
背景技术
分布式多设备语音控制系统中,若多个设备使用同一套唤醒机制时,为了避免多个设备同时响应造成混乱的现象,一般采用就近唤醒或就近响应的语音控制策略。
然而这也迫使用户要准确控制某个或某些设备时,只能走到该设备附件,才能完成准确控制该设备。对某些行动不便的用户,或者是某些放在角落的设备,要靠近目标控制设备很困难,这就给用户的实际使用造成了诸多不便。
因此,如何避免就近唤醒机制中,需要用户靠近目标控制设备才能进行精确唤醒及控制成为了亟需解决的技术问题。
发明内容
本申请提供了一种语音控制方法、装置、设备、介质及程序产品,解决了如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题。
第一方面,本申请提供了一种语音控制方法,包括:
接收多个待控制设备发送的声音采集信息,声音采集信息与用户发出的语音指令相对应;
利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,响应设备与应答方式相对应;
根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。
在一种可能的设计中,应答方式包括:自响应模式以及就近响应模式,响应设备包括:第一响应设备以及第二响应设备;
其中,第一响应设备与自响应模式相对应,第一响应设备包括:目标控制设备;
第二响应设备与就近响应模式相对应,第二响应设备被配置为:与用户的距离满足预设距离要求,且包括至少一个待控制设备。
在一种可能的设计中,利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,包括:
利用语义解析模型,对声音采集信息进行语义解析,以确定控制指令以及目标控制设备;
利用位姿解析模型,根据声音采集信息,判断目标控制设备与用户的相对位置及姿态是否满足非就近响应要求;
若是,则确定应答方式为自响应模式;
若否,则确定应答方式为就近响应模式。
在一种可能的设计中,利用位姿解析模型,根据声音采集信息,判断目标控制设备与用户的相对位置及姿态是否满足非就近响应要求,包括:
利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息,位置信息用于表示用户相对于目标控制设备的位置,朝向信息用于表示用户所面对的方向;
根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求。
在一种可能的设计中,根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求,包括:
根据位置信息判断用户与目标控制设备的距离是否小于或等于第一预设距离;
若是,则根据朝向信息以及预设角度阈值,判断用户是否面向目标控制设备;
若是,则确定满足非就近响应要求。
在一种可能的设计中,在根据朝向信息以及预设角度阈值,判断用户是否面向目标控制设备之后,还包括:
若否,则根据位置信息,判断用户与目标控制设备的距离小于或等于第二预设距离;
若是,则确定满足非就近响应要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求,包括:
根据朝向信息以及预设角度阈值,确定用户面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第一预设距离,则确定满足预设要求。
在一种可能的设计中,根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求,包括:
根据朝向信息以及预设角度阈值,确定用户不面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第二预设距离,则确定满足预设要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,预设距离要求包括:与用户的距离最近。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号,利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息,包括:
计算直达波信号以及反射波信号的比值;
若比值大于或等于预设比率,则确定用户面向待控制设备。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号,利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息,包括:
利用DRR数字重建放射影像模型,根据声波信号,确定用户的声学三维影像;
利用图像分析模型,根据声学三维影像,确定朝向信息。
第二方面,本申请提供一种语音控制装置,包括:
接收模块,用于接收多个待控制设备发送的声音采集信息,所述声音采集信息与用户发出的语音指令相对应;
处理模块,用于利用预设解析模型,根据所述声音采集信息,确定控制指令、目标控制设备、响应设备以及对所述语音指令的应答方式,所述响应设备与所述应答方式相对应;
处理模块,还用于根据所述控制指令控制所述目标控制设备执行目标任务,并控制所述响应设备向所述用户反馈所述目标任务的执行情况。
在一种可能的设计中,应答方式包括:自响应模式以及就近响应模式,响应设备包括:第一响应设备以及第二响应设备;
其中,第一响应设备与自响应模式相对应,第一响应设备包括:目标控制设备;
第二响应设备与就近响应模式相对应,第二响应设备被配置为:与用户的距离满足预设距离要求,且包括至少一个待控制设备。
在一种可能的设计中,所述处理模块,具体用于:
利用语义解析模型,对声音采集信息进行语义解析,以确定控制指令以及目标控制设备;
利用位姿解析模型,根据声音采集信息,判断目标控制设备与用户的相对位置及姿态是否满足非就近响应要求;
若是,则确定应答方式为自响应模式;
若否,则确定应答方式为就近响应模式。
在一种可能的设计中,所述处理模块,具体用于:
利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息,位置信息用于表示用户相对于目标控制设备的位置,朝向信息用于表示用户所面对的方向;
根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求。
在一种可能的设计中,所述处理模块,具体用于:
根据位置信息判断用户与目标控制设备的距离是否小于或等于第一预设距离;
若是,则根据朝向信息以及预设角度阈值,判断用户是否面向目标控制设备;
若是,则确定满足非就近响应要求。
在一种可能的设计中,所述处理模块,具体用于:
若否,则根据位置信息,判断用户与目标控制设备的距离小于或等于第二预设距离;
若是,则确定满足非就近响应要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,处理模块,具体用于:
根据朝向信息以及预设角度阈值,确定用户面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第一预设距离,则确定满足预设要求。
在一种可能的设计中,所述处理模块,具体用于:
根据朝向信息以及预设角度阈值,确定用户不面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第二预设距离,则确定满足预设要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,预设距离要求包括:与用户的距离最近。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号;
所述处理模块,具体用于:
计算直达波信号以及反射波信号的比值;
若比值大于或等于预设比率,则确定用户面向待控制设备。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号;
所述处理模块,具体用于:
利用DRR数字重建放射影像模型,根据声波信号,确定用户的声学三维影像;
利用图像分析模型,根据声学三维影像,确定朝向信息。
第三方面,本申请提供一种电子设备,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令,执行第一方面所提供的任意一种可能的语音控制方法。
第四方面,本申请还提供一种存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序用于执行第一方面所提供的任意一种可能的语音控制方法。
第五方面,本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现第一方面所提供的任意一种可能的语音控制方法。
本申请提供了一种语音控制方法、装置、设备、介质及程序产品,通过接收多个待控制设备发送的声音采集信息,声音采集信息与用户发出的语音指令相对应,然后利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,响应设备与应答方式相对应,最后根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。解决了如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题,达到了提高用户对分布式多设备语音控制系统的使用体验感的技术效果。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的一种语音控制方法的应用场景示意图;
图2为本申请实施例提供的一种语音控制方法的流程示意图;
图3a-3b为本实施例提供的一种音频采集器阵列的示意图;
图4为本申请实施例提供的另一种语音控制方法的流程示意图;
图5为本申请提供的一种语音控制装置的结构示意图;
图6为本申请提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,包括但不限于对多个实施例的组合,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
目前分布式多设备语音控制系统为了防止一呼百应的情况,选择就近唤醒机制进行处理,但是这样也出现了一个问题,就是用户必须要走近目标控制设备才能对其准确唤醒及控制,这在多个待控制设备并存,且相互之间的位置比较集中时,就会给用户在使用过程中造成很大的困扰。
或者是,当目标控制设备处于难以靠近的位置,如角落或悬挂在屋顶某一角时,用户很难去靠近。
亦或是,如果用户腿脚行动不便时,要达到在多个待控制设备中精确唤醒并控制目标控制设备,就近唤醒或就近响应机制就给用户造成了诸多不便。
对于上述如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题,本申请的发明构思是:
多个待控制设备同时接收用户的语音指令,通过语音指令对应的声波信号在被不同待控制设备接收时的时间,和/或角度差,分析出用户的位置及当时用户所面对的方向,再结合语音指令所对应的任务,自动识别出目标控制设备。如果目标控制设备与用户的距离满足预设要求,则以目标控制设备来响应及反馈语音指令的执行情况;若不满足,则让用户附近的待控制设备反馈语音指令的执行情况,并由服务器远程下达控制指令来控制目标控制设备。这样就可以有效解决就近唤醒或就近响应机制,需要用户靠近目标控制设备才可以精准控制的缺陷。
下面结合附图来具体说明本申请提供的语音控制方法。
图1为本申请提供的一种语音控制方法的应用场景示意图。如图1所示,分布式多设备语音控制系统包括多个待控制设备:待控制设备121至待控制设备126,用户11在各个待控制设备所处空间的任意位置向其中一个待控制设备发出语音指令,虚线圈所示为声波的传播范围。
本申请提供的语音控制方法,无需用户靠近目标控制设备,如图1中,待控制设备121至待控制设备126都接收到了用户的语音指令,通过预设解析模型或算法对所接收到的声波信号进行分析,从而确定目标控制设备,并且根据目标控制设备与用户的距离来决定是否由目标控制设备来响应或反馈任务的执行情况。
例如,用户11发出“洗衣机开启快洗”的语音指令,各个待控制设备都接收到此语音指令所对应的声波信号,将其发送给服务器后,服务器分析出,目标控制设备是洗衣机,如图1中假设待控制设备125代表洗衣机,则向洗衣机发送快洗开启控制指令。然后服务器,根据用户和洗衣机的位置,或者是洗衣机是否有语音响应或反馈功能,来决定是否由洗衣机来进行响应或反馈。如洗衣机超出了用户5m米的预设范围内,则,利用就近响应机制,通过离用户最近的待控制设备121来向用户反馈洗衣机的快洗任务执行情况,如给出语音播报:“收到,洗衣机快洗模式已开启。”
下面结合几个实施例,对本申请所提供的语音控制方法的具体步骤进行详细介绍。
图2为本申请实施例提供的一种语音控制方法的流程示意图。如图2所示,该语音控制方法的具体步骤,包括:
S201、多个待控制设备同时采集用户发出的语音指令,以确定声音采集信息。
在本步骤中,在待控制设备中设置有至少一个音频采集器阵列,如麦克风阵列组,每个音频采集阵列中至少包括两个独立的采集模块,如两个独立的麦克风。
用户在任意位置说出语音指令,对应的声波信号传递到用户所处环境中,被各个待控制设备上的音频采集器阵列所接收到。
图3a-3b为本实施例提供的一种音频采集器阵列的示意图,如图3a所示,待控制设备300中的音频采集器阵列包括:麦克风301和麦克风302。两个麦克风所处的位置分别用A和B代表,线段AB的长度就是两个麦克风之间的距离,用户301说出语音指令后,由于两个麦克风的位置不同,所接收到直达声波的时间存在差别,这样就可以利用预设算法来计算出声波源即用户所处的位置。
进一步的,如图3b所示,音频采集器阵列包括:麦克风301、麦克风302和麦克风303,三个麦克风所处的位置分别用A、B和C来表示。任意两个麦克风的组合即可计算出声源位置,即用户所在位置,而图3b中可以配置出3组组合,即麦克风301和麦克风302,麦克风301和麦克风303,麦克风302和麦克风303。
在一种可能的设计中,仅采用其中一组来进行声源位置识别,而另外两组作为备用。
在另一种可能的设计中,选择其中两组作为声源位置识别的接收器,通过两组分别得到两个声源位置,然后通过两组间的位置关系,通过矫正算法,来进一步提高声源位置的定位精度。而另一组可以作为备用,在任意一组出现问题时,及时进行自动替换。
在又一种可能的设计中,三组麦克风都可以作为声源位置识别的接收器,这样可以识别出三维空间内用户的具体位置,比如,用户是在一楼向二楼的设备发出语音控制指令时,三维定位能够更加准确的识别出用户具体的位置。
需要说明的是,三组之间的位置,即三角形ABC,可以是任意形状的三角形。根据待控制设备所放置的方式,可以对应设置为正三角形或者是非正三角形。例如,设备放置在房间的靠近中间的位置,此时,可以将三角形ABC设置为正三角形;当设备放置在靠墙的角落时,将三角形ABC设置为三条边长不相等的三角形。
当然,通过上述图3a和图3b的例子可以知道,音频采集器阵列也可以采用更多数量的麦克风,组成任意形状的多边形,包括:空间多边形(即各个麦克风的位置作为空间多面体的顶点)、平面正多边形、平面非正多边形等等。
S202、向中控设备发送声音采集信息。
在本步骤中,各个待控制设备将音频采集器阵列所接收到的声音采集信息发送给中控设备。
需要说明的是,中控设备的实现方式包括:云端服务器、本地服务器、独立中控单元、预设的某个待控制设备等中至少一种。
S203、接收多个待控制设备发送的声音采集信息。
在本步骤中,服务器或中控设备接收多个待控制设备上报的声音采集信息,在该声音采集信息中除了包含语音声波信号外,还包括了音频采集器阵列在采集时所附加上的定位参数,包括:接收时间、接收角度、直达声波信号、反射声波信号等等。
S204、利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式。
在本步骤中,响应设备与应答方式相对应。
具体的,利用语义解析模型,对声音采集信息进行语义解析,以确定目标控制设备以及控制指令;
例如,将声音采集信息中的声音内容进行识别,并转为对应的文字,然后对文字进行语义识别,提取出目标控制设备。
如,声音内容识别出来的文字是“标准模式清洗牛仔裤”,则语义识别出目标控制设备为洗衣机,控制指令是开启标准模式。
需要说明的是,在一种可能的实施方式中,语音指令可以不包括唤醒词,这样可以给予用户更加智能化的使用体验。也避免了,同一唤醒词可以唤醒多个设备时,多个设备同时应答造成的混乱,或者是避免激活就近唤醒机制。
利用位姿解析模型,根据声音采集信息,确定用户的位置信息以及朝向信息,以此分析出是否需要用目标控制设备来给用户发出回应,或者说是由目标控制设备来给出响应反馈,即确定应答方式,其中,位置信息用于表示用户相对于目标控制设备的位置,朝向信息用于表示用户所面对的方向。
在一种可能的设计中,应答方式包括:自响应模式以及就近响应模式,响应设备包括:第一响应设备以及第二响应设备。
第一响应设备与自响应模式相对应,第一响应设备包括:目标控制设备。
第二响应设备与就近响应模式相对应,第二响应设备被配置为:与用户的距离满足预设距离要求,且包括至少一个待控制设备。
在一种可能的设计中,当用户与目标控制设备的距离在预设范围内,且用户面向目标控制设备时,如5米内时,选择自响应模式进行应答;
当用户与目标控制设备的距离在预设范围内,但用户不面向目标控制设备时,给用户与目标控制设备的距离乘以一个权重系数,若所得的乘积仍然在预设范围内,则选择自响应模式进行应答;
当用户与目标控制设备的距离在预设范围之外时,选择就近响应模式进行应答。
当目标控制设备不具备语音反馈装置(如扬声器)时,选择就近响应模式进行应答,且第二响应设备选择具备语音反馈装置的待控制设备。
在一种可能的设计中,根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求,具体包括:
根据朝向信息以及预设角度阈值,确定用户面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第一预设距离,则确定满足预设要求。
进一步的,根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求,还包括:
根据朝向信息以及预设角度阈值,确定用户不面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第二预设距离,则确定满足预设要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
S205、根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。
在本步骤中,中控设备向目标控制设备发送控制指令,以使目标控制设备开始执行对应的目标任务,若上一步确定以自响应模式进行应答,则目标控制设备直接向用户反馈目标任务的执行情况;若上一步确定以就近响应模式进行应答,则目标控制设备将执行的情况反馈给中控设备,再由中控设备将反馈的信息发送给第二响应设备,通过第二响应设备向用户进行反馈。
具体的,在一种可能的实施方式中,自响应模式可以理解为用目标控制设备来应答用户的语音指令,如发出语音播报“收到,现在为您开启快洗模式”,在任务结束后,发出语音播报“快洗任务已完成”这些响应反馈信息。
就近响应模式可以理解为,利用与用户距离最近的设备来应答用户的语音指令。如用户距离冰箱最近,但是发出的是洗衣机清洗指令,则冰箱发出语音播报“洗衣机已为您开启快洗模式”。
本实施例提供一种语音控制方法,通过接收多个待控制设备发送的声音采集信息,声音采集信息与用户发出的语音指令相对应,然后利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,响应设备与应答方式相对应,最后根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。解决了如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题,达到了提高用户对分布式多设备语音控制系统的使用体验感的技术效果。
下面进一步说明步骤S204~S205的可能的具体实施方式。
图4为本申请实施例提供的另一种语音控制方法的流程示意图。如图4所示,该语音控制方法的具体步骤包括:
S401、多个待控制设备同时采集用户发出的语音指令,以确定声音采集信息。
S402、向中控设备发送声音采集信息。
步骤S401~S402的具体解释参考图2所示实施例的S201~S202,在此不再赘述。
S403、利用语义解析模型,对声音采集信息进行语义解析,以确定控制指令以及目标控制设备。
在本步骤中,将声音采集信息中的声音内容进行识别,并转为对应的文字,然后对文字进行语义识别,提取出目标控制设备以及控制指令。
如,声音内容识别出来的文字是“标准模式清洗牛仔裤”,则语义识别出目标控制设备为洗衣机,控制指令是开启标准模式。
S404、利用位姿解析模型,根据声音采集信息,判断目标控制设备与用户的相对位置及姿态是否满足非就近响应要求。
在本实施例中,应答方式包括:自响应模式以及就近响应模式,所述响应设备包括:第一响应设备以及第二响应设备。
其中,第一响应设备与自响应模式相对应,第一响应设备包括:目标控制设备;
第二响应设备与就近响应模式相对应,第二响应设备被配置为:与用户的距离满足预设距离要求,且包括至少一个待控制设备。
在本步骤中,若是,则确定应答方式为自响应模式,执行步骤S405和S406;若否,则确定应答方式为就近响应模式,执行步骤S405和S407。
在一种可能的设计中,利用位姿解析模型,根据所述声音采集信息,判断所述目标控制设备与所述用户的相对位置及姿态是否满足非就近响应要求,具体包括:
S4041、利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息。
在本步骤中,位置信息用于表示用户相对于目标控制设备的位置,朝向信息用于表示用户所面对的方向,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号。
具体的,计算直达波信号以及反射波信号的比值;
若比值大于或等于预设比率,则确定用户面向待控制设备。
需要说明的是,当应用场景或者说使用环境是在室内时,用户发出的语音指令,其对应的声波信号有部分直接传递到待控制设备的接收装置中,即所谓的直达波信号,而另一部分则是通过周围硬质表面如墙面的反射才到达待控制设备的,即反射波信号,通过直达波信号与反射波信号的比例,通过预设算法的计算就可以得知用户是否面向目标控制设备。
在另一种可能的设计中,利用DRR(Digitally Reconstructured Radiograph)数字重建放射影像模型,根据声波信号,确定用户的声学三维影像;
利用图像分析模型,根据声学三维影像,确定朝向信息。
需要说明的是,DRR数字重建放射影像模型一般是用来处理医学检查成像的,如对医疗CT(Computed Tomography,电子计算机断层扫描)图像的构建。而本实施例打破了该技术的使用惯性或者说是使用限制,用其来识别用户的姿态,判断用户是否朝向目标控制设备。
即利用DRR技术来构建一个声学三维影像,通过训练好的图像分析模型来识别此声学三维影像,从而得到用户此时是否面向目标控制设备。
还需要说明的是,声波信号与语音指令相对应(即语音指令的载体就是声波信号),声波信号为待控制设备中的音频采集模块所接收到的。
S4042、根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求。
具体的,根据位置信息判断用户与目标控制设备的距离是否小于或等于第一预设距离;
若是,则根据朝向信息以及预设角度阈值,判断用户是否面向目标控制设备,若是,则确定满足非就近响应要求;
若否,则根据位置信息,判断用户与目标控制设备的距离小于或等于第二预设距离,若是,则确定满足非就近响应要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
需要说明的是,当用户面向目标控制设备预设权重值的取值范围为[0,1],即大于或等于0,且小于或等于1;当用户不面向目标控制设备时,预设权重值的取值范围大于1。
还需要说明的是,对于在工作时不允许用户靠近,或其工作时可能会产生对人体有害的光辐射或热辐射,如微波炉、电热炉等,可以将上述权重值的取值范围对调,即当用户面向目标控制设备预设权重值的取值范围大于1,当用户不面向目标控制设备时,预设权重值的取值范围为[0,1]。以避免用户收到伤害。
在一种可能的设计中,还可以根据声音采集信息中声波信号的频率,进一步识别出用户的身份,根据不同的用户身份,设置不同的权重值,如对于腿脚不方便的用户,权重值的取值偏小,以扩大用户可以进行语音控制的范围。
S405、根据控制指令控制目标控制设备执行目标任务。
S406、目标控制设备向用户反馈目标任务的执行情况。
S407、控制根据预设筛选规则从待控制设备中筛选出的第二响应设备,向用户反馈目标任务的执行情况。
在本实施例中,预设筛选规则为:根据每个待控制设备与用户的距离,筛选出其中与用户距离最近的待控制设备设备作为第二响应设备。
本实施例提供一种语音控制方法,通过接收多个待控制设备发送的声音采集信息,声音采集信息与用户发出的语音指令相对应,然后利用预设解析模型,根据声音采集信息,确定控制指令、目标控制设备、响应设备以及对语音指令的应答方式,响应设备与应答方式相对应,最后根据控制指令控制目标控制设备执行目标任务,并控制响应设备向用户反馈目标任务的执行情况。解决了如何避免就近唤醒机制中需要用户靠近目标控制设备才能进行精确唤醒及控制的技术问题,达到了提高用户对分布式多设备语音控制系统的使用体验感的技术效果。
图5为本申请提供的一种语音控制装置的结构示意图。该语音控制装置可以通过软件、硬件或者两者的结合实现。
如图5所示,本实施例提供的语音控制装置500,包括:
接收模块501,用于接收多个待控制设备发送的声音采集信息,所述声音采集信息与用户发出的语音指令相对应;
处理模块502,用于利用预设解析模型,根据所述声音采集信息,确定控制指令、目标控制设备、响应设备以及对所述语音指令的应答方式,所述响应设备与所述应答方式相对应;
处理模块502,还用于根据所述控制指令控制所述目标控制设备执行目标任务,并控制所述响应设备向所述用户反馈所述目标任务的执行情况。
在一种可能的设计中,应答方式包括:自响应模式以及就近响应模式,响应设备包括:第一响应设备以及第二响应设备;
其中,第一响应设备与自响应模式相对应,第一响应设备包括:目标控制设备;
第二响应设备与就近响应模式相对应,第二响应设备被配置为:与用户的距离满足预设距离要求,且包括至少一个待控制设备。
在一种可能的设计中,所述处理模块502,具体用于:
利用语义解析模型,对声音采集信息进行语义解析,以确定控制指令以及目标控制设备;
利用位姿解析模型,根据声音采集信息,判断目标控制设备与用户的相对位置及姿态是否满足非就近响应要求;
若是,则确定应答方式为自响应模式;
若否,则确定应答方式为就近响应模式。
在一种可能的设计中,所述处理模块502,具体用于:
利用位姿解析模型,根据声音采集信息,确定位置信息以及朝向信息,位置信息用于表示用户相对于目标控制设备的位置,朝向信息用于表示用户所面对的方向;
根据位置信息以及朝向信息,判断目标控制设备与用户之间是否满足非就近响应要求。
在一种可能的设计中,所述处理模块502,具体用于:
根据位置信息判断用户与目标控制设备的距离是否小于或等于第一预设距离;
若是,则根据朝向信息以及预设角度阈值,判断用户是否面向目标控制设备;
若是,则确定满足非就近响应要求。
在一种可能的设计中,所述处理模块502,具体用于:
若否,则根据位置信息,判断用户与目标控制设备的距离小于或等于第二预设距离;
若是,则确定满足非就近响应要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,处理模块502,具体用于:
根据朝向信息以及预设角度阈值,确定用户面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第一预设距离,则确定满足预设要求。
在一种可能的设计中,所述处理模块502,具体用于:
根据朝向信息以及预设角度阈值,确定用户不面向目标控制设备;
若根据位置信息确定用户与目标控制设备的距离小于或等于第二预设距离,则确定满足预设要求;
其中,第二预设距离等于第一预设距离与预设权重值的乘积。
在一种可能的设计中,预设距离要求包括:与用户的距离最近。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号;
所述处理模块502,具体用于:
计算直达波信号以及反射波信号的比值;
若比值大于或等于预设比率,则确定用户面向待控制设备。
在一种可能的设计中,声音采集信息包括待控制设备所接收到的声波信号,声波信号包括:直达波信号以及反射波信号;
所述处理模块502,具体用于:
利用DRR数字重建放射影像模型,根据声波信号,确定用户的声学三维影像;
利用图像分析模型,根据声学三维影像,确定朝向信息。
值得说明的是,图5所示实施例提供的语音控制装置,可以执行上述任一方法实施例所提供的方法,其具体实现原理、技术特征、专业名词解释以及技术效果类似,在此不再赘述。
图6为本申请提供的一种电子设备的结构示意图。如图6所示,该电子设备600可以包括:至少一个处理器601和存储器602。图6示出的是以一个处理器为例的电子设备。
存储器602,用于存放程序。具体地,程序可以包括程序代码,程序代码包括计算机操作指令。
存储器602可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
处理器601用于执行存储器602存储的计算机执行指令,以实现以上各方法实施例所述的方法。
其中,处理器601可能是一个中央处理器(central processing unit,简称为CPU),或者是特定集成电路(application specific integrated circuit,简称为ASIC),或者是被配置成实施本申请实施例的一个或多个集成电路。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。当所述存储器602是独立于处理器601之外的器件时,所述电子设备600,还可以包括:
总线603,用于连接所述处理器601以及所述存储器602。总线可以是工业标准体系结构(industry standard architecture,简称为ISA)总线、外部设备互连(peripheralcomponent,PCI)总线或扩展工业标准体系结构(extended industry standardarchitecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器602和处理器601集成在一块芯片上实现,则存储器602和处理器601可以通过内部接口完成通信。
本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random accessmemory,RAM)、磁盘或者光盘等各种可以存储程序代码的介质,具体的,该计算机可读存储介质中存储有程序指令,程序指令用于上述各实施例中的方法。
本申请还提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各实施例中的方法。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims (13)

1.一种语音控制方法,其特征在于,包括:
接收多个待控制设备发送的声音采集信息,所述声音采集信息与用户发出的语音指令相对应;
利用预设解析模型,根据所述声音采集信息,确定控制指令、目标控制设备、响应设备以及对所述语音指令的应答方式,所述响应设备与所述应答方式相对应;
根据所述控制指令控制所述目标控制设备执行目标任务,并控制所述响应设备向所述用户反馈所述目标任务的执行情况。
2.根据权利要求1所述的语音控制方法,其特征在于,所述应答方式包括:自响应模式以及就近响应模式,所述响应设备包括:第一响应设备以及第二响应设备;
其中,所述第一响应设备与所述自响应模式相对应,所述第一响应设备包括:所述目标控制设备;
所述第二响应设备与所述就近响应模式相对应,所述第二响应设备被配置为:与所述用户的距离满足预设距离要求,且包括至少一个所述待控制设备。
3.根据权利要求2所述的语音控制方法,其特征在于,所述利用预设解析模型,根据所述声音采集信息,确定控制指令、目标控制设备、响应设备以及对所述语音指令的应答方式,包括:
利用语义解析模型,对所述声音采集信息进行语义解析,以确定所述控制指令以及所述目标控制设备;
利用位姿解析模型,根据所述声音采集信息,判断所述目标控制设备与所述用户的相对位置及姿态是否满足非就近响应要求;
若是,则确定所述应答方式为所述自响应模式;
若否,则确定所述应答方式为所述就近响应模式。
4.根据权利要求3所述的语音控制方法,其特征在于,所述利用位姿解析模型,根据所述声音采集信息,判断所述目标控制设备与所述用户的相对位置及姿态是否满足非就近响应要求,包括:
利用所述位姿解析模型,根据所述声音采集信息,确定位置信息以及朝向信息,所述位置信息用于表示所述用户相对于所述目标控制设备的位置,所述朝向信息用于表示所述用户所面对的方向;
根据所述位置信息以及所述朝向信息,判断所述目标控制设备与所述用户之间是否满足所述非就近响应要求。
5.根据权利要求4所述的语音控制方法,其特征在于,所述根据所述位置信息以及所述朝向信息,判断所述目标控制设备与所述用户之间是否满足所述非就近响应要求,包括:
根据所述位置信息判断所述用户与所述目标控制设备的距离是否小于或等于第一预设距离;
若是,则根据所述朝向信息以及预设角度阈值,判断所述用户是否面向所述目标控制设备;
若是,则确定满足所述非就近响应要求。
6.根据权利要求5所述的语音控制方法,其特征在于,在所述根据所述朝向信息以及预设角度阈值,判断所述用户是否面向所述目标控制设备之后,还包括:
若否,则根据所述位置信息,判断所述用户与所述目标控制设备的距离小于或等于第二预设距离;
若是,则确定满足所述非就近响应要求;
其中,所述第二预设距离等于所述第一预设距离与预设权重值的乘积。
7.根据权利要求2-6中任意一项所述的语音控制方法,其特征在于,所述预设距离要求包括:与所述用户的距离最近。
8.根据权利要求4-6中任意一项所述的语音控制方法,其特征在于,所述声音采集信息包括所述待控制设备所接收到的声波信号,所述声波信号包括:直达波信号以及反射波信号,利用所述位姿解析模型,根据所述声音采集信息,确定位置信息以及朝向信息,包括:
计算所述直达波信号以及所述反射波信号的比值;
若所述比值大于或等于预设比率,则确定所述用户面向所述待控制设备。
9.根据权利要求4-6中任意一项所述的语音控制方法,其特征在于,所述声音采集信息包括所述待控制设备所接收到的声波信号,所述声波信号包括:直达波信号以及反射波信号,利用所述位姿解析模型,根据所述声音采集信息,确定位置信息以及朝向信息,包括:
利用DRR数字重建放射影像模型,根据所述声波信号,确定所述用户的声学三维影像;
利用图像分析模型,根据所述声学三维影像,确定所述朝向信息。
10.一种语音控制装置,其特征在于,包括:
接收模块,用于接收多个待控制设备发送的声音采集信息,所述声音采集信息与用户发出的语音指令相对应;
处理模块,用于利用预设解析模型,根据所述声音采集信息,确定控制指令、目标控制设备、响应设备以及对所述语音指令的应答方式,所述响应设备与所述应答方式相对应;
处理模块,还用于根据所述控制指令控制所述目标控制设备执行目标任务,并控制所述响应设备向所述用户反馈所述目标任务的执行情况。
11.一种电子设备,其特征在于,包括:
处理器;以及,
存储器,用于存储所述处理器的可执行计算机程序;
其中,所述处理器配置为经由执行所述可执行计算机程序来执行权利要求1至9任一项所述的语音控制方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的语音控制方法。
13.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至9中任意一项所述的语音控制方法。
CN202110460964.4A 2021-04-27 2021-04-27 语音控制方法、装置、设备、介质及程序产品 Pending CN115249475A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110460964.4A CN115249475A (zh) 2021-04-27 2021-04-27 语音控制方法、装置、设备、介质及程序产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110460964.4A CN115249475A (zh) 2021-04-27 2021-04-27 语音控制方法、装置、设备、介质及程序产品

Publications (1)

Publication Number Publication Date
CN115249475A true CN115249475A (zh) 2022-10-28

Family

ID=83697579

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110460964.4A Pending CN115249475A (zh) 2021-04-27 2021-04-27 语音控制方法、装置、设备、介质及程序产品

Country Status (1)

Country Link
CN (1) CN115249475A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115529530A (zh) * 2022-11-24 2022-12-27 深圳市百泰实业股份有限公司 一种多功能移动电源音箱的内部功能的智能控制方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115529530A (zh) * 2022-11-24 2022-12-27 深圳市百泰实业股份有限公司 一种多功能移动电源音箱的内部功能的智能控制方法

Similar Documents

Publication Publication Date Title
ES2953525T3 (es) Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire
CN107591152B (zh) 基于耳机的语音控制方法、装置及其设备
CN107728482A (zh) 控制系统、控制处理方法及装置
JP6243126B2 (ja) 超音波システム及び方法
CN109002759A (zh) 文本识别方法、装置、移动终端以及存储介质
CN106291523A (zh) 手持装置、物件定位方法与计算机可读的记录介质
CN107261339B (zh) 乳腺定位膜的生成方法及装置
CN112130918B (zh) 智能设备唤醒方法、装置、系统及智能设备
CN111709277B (zh) 人体摔倒检测方法、装置、计算机设备和存储介质
JP5514918B2 (ja) 頭部認識方法
CN111160309B (zh) 一种图像处理方法和相关设备
EP3124368A1 (en) Method and device for making a balancing transporter stay-put
CN105469819A (zh) 麦克选择方法及装置
CN108769964B (zh) 一种蓝牙设备连接方法、装置及设备
US20230062672A1 (en) Ultrasonic diagnostic apparatus and method for operating same
CN115249475A (zh) 语音控制方法、装置、设备、介质及程序产品
CN107479710A (zh) 智能镜及其控制方法、装置、设备及存储介质
JP2017507754A (ja) 関心領域を区分化するための画像処理機器及び方法
CN108634985A (zh) B超探头无盲区扫查方法和系统
CN113905670A (zh) 引导式超声成像
CN110197496A (zh) 一种医疗系统控制方法、装置、设备及介质
CN113344926B (zh) 胆胰超声图像识别方法、装置、服务器及存储介质
CN106600619A (zh) 一种数据处理方法和装置
CN110765926A (zh) 图画书识别方法、装置、电子设备和存储介质
CN108108709B (zh) 一种识别方法及装置、计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination