CN114171019A - 一种控制方法及装置、存储介质 - Google Patents

一种控制方法及装置、存储介质 Download PDF

Info

Publication number
CN114171019A
CN114171019A CN202111340879.0A CN202111340879A CN114171019A CN 114171019 A CN114171019 A CN 114171019A CN 202111340879 A CN202111340879 A CN 202111340879A CN 114171019 A CN114171019 A CN 114171019A
Authority
CN
China
Prior art keywords
attitude
information
control instruction
directional
instruction information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111340879.0A
Other languages
English (en)
Inventor
陈科鑫
曾理
张晓帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Douku Software Technology Co Ltd
Original Assignee
Hangzhou Douku Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Douku Software Technology Co Ltd filed Critical Hangzhou Douku Software Technology Co Ltd
Priority to CN202111340879.0A priority Critical patent/CN114171019A/zh
Publication of CN114171019A publication Critical patent/CN114171019A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本申请实施例提供了一种控制方法及装置、存储介质,装置包括:姿态动作分析模块,用于采集定向姿态动作信息,并根据定向姿态动作信息确定姿态控制指令信息;语音指令识别模块,用于识别语音控制指令信息;决策模块,用于对姿态控制指令信息和语音控制指令信息进行时间对齐,得到姿态控制指令信息和语音控制指令信息之间的对应关系;基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到第一姿态控制指令信息对应的第一识别结果数据和第一语音控制指令信息对应的第二识别结果数据;根据第一识别结果数据和第二识别结果数据确定目标设备和对目标设备的设备控制参数值。

Description

一种控制方法及装置、存储介质
技术领域
本申请涉及物联网领域,尤其涉及一种控制方法及装置、存储介质。
背景技术
随着智能物联网(Internet of Thing,IOT)设备的不断发展、迭代与丰富,万物互融逐渐成为智能家居、智能办公等的智能交互场景。多设备、多模态、互联、智能化是当前智能交互场景的新特点。在现有智能交互场景中,是通过语音交互来实现对多设备的控制。具体的,智能音箱等控制设备接收用户说出的语音控制指令,并解析语音控制指令,得到用户意图控制的设备以及对该设备的控制参数值,在用户表达不清楚存在歧义的情况下,需要控制设备与用户之间通过多轮对话或者概率选择的方法消除歧义,会导致设备控制的步骤繁琐和设备控制的准确性低的问题。
发明内容
本申请实施例提供一种控制方法及装置、存储介质,能够减少设备控制的步骤,提高设备控制的准确性。
本申请的技术方案是这样实现的:
第一方面,本申请实施例提出一种控制装置,所述装置包括:姿态动作分析模块、语音指令识别模块和决策模块;其中,
所述姿态动作分析模块,用于采集定向姿态动作信息,并根据所述定向姿态动作信息确定姿态控制指令信息;
所述语音指令识别模块,用于识别语音控制指令信息;
所述决策模块,用于对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到所述第一姿态控制指令信息对应的第一识别结果数据和所述第一语音控制指令信息对应的第二识别结果数据;根据所述第一识别结果数据和所述第二识别结果数据确定目标设备和对所述目标设备的设备控制参数值;以利用所述设备控制参数值,对所述目标设备进行控制。
第二方面,本申请实施例提出一种控制方法,应用于上述控制装置中,所述方法包括:
采集定向姿态动作信息,并根据所述定向姿态动作信息确定姿态控制指令信息;
识别语音控制指令信息;
对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;
基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到所述第一姿态控制指令信息对应的第一识别结果数据和所述第一语音控制指令信息对应的第二识别结果数据;
根据所述第一识别结果数据和所述第二识别结果数据确定目标设备和对所述目标设备的设备控制参数值;以利用所述设备控制参数值,对所述目标设备进行控制。
第三方面,本申请实施例提出一种存储介质,其上存储有计算机程序,其该计算机程序被处理器执行时实现如上述控制方法。
本申请实施例提供了一种控制方法及装置、存储介质,该装置包括:姿态动作分析模块、语音指令识别模块和决策模块;姿态动作分析模块,用于采集定向姿态动作信息,并根据定向姿态动作信息确定姿态控制指令信息;语音指令识别模块,用于识别语音控制指令信息;决策模块,用于对姿态控制指令信息和语音控制指令信息进行时间对齐,得到姿态控制指令信息和语音控制指令信息之间的对应关系;基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到第一姿态控制指令信息对应的第一识别结果数据和第一语音控制指令信息对应的第二识别结果数据;根据第一识别结果数据和第二识别结果数据确定目标设备和对目标设备的设备控制参数值;以利用设备控制参数值,对目标设备进行控制。采用上述装置实现方案,控制装置中还包括了姿态动作分析模块,可以采集姿态动作信息;在语音控制指令信息存在歧义时,决策模块进行确定过程中,可以结合姿态动作信息对应的姿态控制指令信息直接确定出目标设备和对目标设备的控制参数值,能够减少设备控制的步骤,提高设备控制的准确性。
附图说明
图1为本申请实施例提供的一种控制装置的结构示意图;
图2为本申请实施例提供的一种示例性的语音指令识别模块的部署方式;
图3为本申请实施例提供的一种示例性的语音指令识别模块的结构示意图;
图4为本申请实施例提供的一种姿态动作分析模块的结构示意图;
图5为本申请实施例提供的一种示例性的决策设备的排布队列示意图;
图6为本申请实施例提供的一种控制方法的流程图。
具体实施方式
为了能够更加详尽地了解本申请实施例的特点与技术内容,下面结合附图对本申请实施例的实现进行详细阐述,所附附图仅供参考说明之用,并非用来限定本申请实施例。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。还需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
目前,基于语音信号控制多个可执行设备的过程中,存在以下的不足:
1、对于场景中同时存在多个可执行设备,如用户表达“打开空调”但是场景中包括多个空调时,无法确定需要打开哪一个空调,此时,会出现决策错误的可能性,导致决策出的可执行设备并非用户意愿的可执行设备,从而影响用户体验。
2、对于用户未明确表达待控制的可执行设备,如用户表达“调到25度”,表达的语音信号不足以决策出用户需要控制的设备,此时会出现决策失败的情况,进而影响控制设备的性能。
为解决上述问题,本申请实施例提供一种控制装置,如图1所示,该装置1可以包括:姿态动作分析模块10、语音指令识别模块11和决策模块12;其中,
所述姿态动作分析模块10,用于采集定向姿态动作信息,并根据所述定向姿态动作信息确定姿态控制指令信息;
所述语音指令识别模块11,用于识别语音控制指令信息;
所述决策模块12,用于对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到所述第一姿态控制指令信息对应的第一识别结果数据和所述第一语音控制指令信息对应的第二识别结果数据;根据所述第一识别结果数据和所述第二识别结果数据确定目标设备和对所述目标设备的设备控制参数值;以利用所述设备控制参数值,对所述目标设备进行控制。
本申请实施例提出的一种控制装置适用于利用姿态信息和语音信息共同控制执行设备执行相应的功能的场景下。
本申请实施例中,执行设备可以为智能台灯、智能音箱等智能家居设备,智能空调、智能冰箱、智能电视等智能家电设备,还可以为智能手机、平板电脑、掌上电脑、移动台(Mobile Station,MS)、移动终端(Mobile Terminal)等可执行智能终端,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
本申请实施例中,控制装置中的姿态动作分析模块负责采集用户的定向姿态动作信息并根据定向姿态动作信息确定姿态控制指令信息,之后将姿态控制指令信息发送至决策模块;控制装置中的语音指令识别模块负责采集用户的语音信号并进行识别,在识别出语音信号对应的信息类型为语音控制时,则将语音信号对应的信息确定为语音控制指令信息,之后将语音控制指令信息发送至决策模块;决策模块根据语音控制指令信息和姿态控制指令信息共同确定出待执行的目标设备以及对目标设备的设备控制参数值,决策模块基于设备控制参数值对目标设备执行相应的控制操作。
需要说明的是,在本申请实施例中,姿态动作分析模块与语音指令识别模块之间是独立运作的,在时序上可以是同步,也可以是不同步的,决策模块负责对语音控制指令信息和姿态控制指令信息进行对齐、映射和融合处理后,得到用户的真实意图,进而决策出需要控制的执行设备。
本申请实施例中,语音指令识别模块位于每个带有麦克风的智能终端设备的音频处理单元上,如智能音箱、智能电视、智能空调等,语音指令识别模块的数量可以为一个、也可以为多个,其中,多个语音指令识别模块在同一个空间进行分布式部署,且每个语音指令识别模块之间是相互独立运行的。由于每个语音指令识别模块之间是相互独立运行的,会存在多个语音指令识别模块同时处于唤醒状态下,且输出相同的语音控制指令信息,此时,会方便用户进行远距离的设备控制。
示例性的,如图2所示,在客厅部署智能电视、智能音箱、智能空调,在卧室部署智能音箱,此时,用户在卧室发出语音信号来控制客厅的智能终端设备。
在本申请实施例中,如图3所示,每个语音指令识别模块可以包括唤醒检测子模块、语音识别子模块和语义识别子模块,其中,唤醒检测装置的作用是在接收到语音信息的情况下,将语音信息与预先设定的唤醒词进行匹配,若匹配成功,则输出唤醒激活信号,并唤醒语音指令识别模块,唤醒检测装置中可以附加声纹验证也可以不添加声纹验证,若唤醒检测装置中添加了声纹验证,则唤醒检测装置的执行逻辑变更为:检测到正确的唤醒词且检测到语音信息的声纹为有效声纹时,输出唤醒激活信号。此时,语音识别装置在接收到唤醒激活信号后持续工作,将接收到的语音信号转换问文本数据,并在接收到最后一段语音数据后继续等待一个阈值时间后,若未接收到新的语音信号,则语音识别装置停止工作并返回休眠状态。语义识别装置对文本数据进行分类,确定文本数据对应的信息类型是否为语音控制,若文本数据对应的信息类型为语音控制,则将该文本数据输出值决策模块。
可选的,如图4所示,姿态动作分析模块10包括:姿态动作采集子模块100和姿态动作检测子模块101;其中,
所述姿态动作采集子模块100,用于采集目标对象的定向姿态动作信息;
所述姿态动作检测子模块101,用于从所述定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息,并将所述第一定向姿态动作信息作为所述姿态控制指令信息。
本申请实施例中,姿态动作采集子模块可以为普通摄像头、深度摄像头、可穿戴设备上的惯性测量单元(Inertial Measurement Unit,IMU)等具备采集姿态动作信息的设备,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
本申请实施例中,目标对象的定向姿态动作信息可以包括目标对象的面向姿态动作信息和/或目标对象的指向姿态动作信息,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
需要说明的是,普通摄像头和深度摄像头能够有效检测出面向姿态动作信息和指向姿态动作信息,而IMU可以检测出指向姿态动作信息,但无法检测出面向姿态动作信息。
需要说明的是,用户在分布姿态动作采集装置的场景中活动时,并非每时每刻产生的定向姿态动作信息均用于控制设备,其中包含了大量且长时间的无效姿态动作信息,因此在姿态动作采集装置采集到目标对象对应的定向姿态动作信息后,姿态动作检测装置需要从定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息。其中,预设设备控制姿态为表征对执行设备的控制相关的姿态信息。
需要说明的是,姿态动作检测装置在筛选满足预设设备控制姿态的第一定向姿态动作信息的过程中,可以采用轻量级的姿态检测深度学习网络,本申请实施例不对具体的网络模型类型作限定。如基于IMU的第一定向姿态动作信息的筛选过程可以采用相关滤波(Correlation Filter,CF)算法进行,也可以采用其他的快速信号检测算法进行。
需要说明的是,普通摄像头采集到的是RGB图像,其对应的第一定向姿态动作信息是通过将RGB图像输入检测网络中得到的;深度摄像头采集到的是RGDB图像,其对应的第一定向姿态动作信息是通过将RGDB图像输入检测网络中得到的;IMU传感器采集到的是角速率和加速度参数,其对应的第一定向姿态动作信息是通过将角速率和加速度参数输入到数字信号检测算法中得到的。
可选的,所述姿态动作采集子模块包括至少一组姿态动作采集设备,所述至少一组姿态动作采集设备中的每组姿态动作采集设备的设备类型相同,且每组姿态动作采集设备对应一个姿态动作检测子模块。
在本申请实施例中,可以通过至少一组姿态动作采集设备来采集目标对象的定向姿态动作信息,其中,每一组姿态动作采集设备中可以包括一台姿态动作采集设备,或多台姿态动作采集设备,具体的每一组姿态动作采集设备的数量不做具体限定,只需注意每一组姿态动作采集设备的设备类型一致即可。
示例性的,若一共包括一个深度摄像头、两个普通摄像头和一个智能手表,则两个普通摄像头共同组成姿态动作采集设备1,一个深度摄像头构成姿态动作采集设备2,一个智能手表构成姿态动作采集设备3。
可选的,若第一姿态动作检测子模块对应的一组姿态动作采集设备为多个姿态动作采集设备,则所述第一姿态动作检测子模块,还用于分别确定多个第一定向姿态动作信息中、每两个第一定向姿态动作信息之间的角度差值,得到多个姿态角度差值;根据所述多个姿态角度差值,从所述多个第一定向姿态动作信息中确定异常定向姿态动作信息;并从所述多个第一定向姿态动作信息中删除所述异常定向姿态动作信息,得到第二定向姿态动作信息;将所述第二定向姿态动作信息作为所述姿态控制指令信息。
需要说明的是,若同一组的两个定向姿态动作采集设备采集到的用户正面面向的是两个不同的方向,那么对应的第一姿态动作检测子模块确定出的两个第一定向姿态动作信息中存在异常定向姿态动作信息。基于此,针对多个姿态动作采集设备组成的一组姿态动作检测设备而言,则与多个姿态动作采集设备关联的一个第一姿态动作检测子模块不仅用于从每个姿态动作采集设备采集的定向姿态动作信息中,筛选一个第一定向姿态动作信息,还用于针对多个第一定向姿态动作信息,删除其中的异常定向姿态动作信息,得到第二定向姿态动作信息,之后,才将该第二定向姿态动作信息作为姿态控制指令信息。
示例性的,一组姿态动作检测设备包括i个姿态动作采集设备,其中,t时刻i个姿态动作采集设备采集到的定向姿态动作信息总和如公式(1)所示,
Figure BDA0003351919680000081
其中,
Figure BDA0003351919680000082
为t时刻i个姿态动作采集设备采集到的定向姿态动作信息集合,Xi(t)为t时刻第i个姿态动作采集设备采集到的第一定向姿态动作信息。
之后,从
Figure BDA0003351919680000083
中任意查找两个第一定向姿态动作信息作为
Figure BDA0003351919680000084
的子集
Figure BDA0003351919680000085
如公式(2)所示,
Figure BDA0003351919680000086
之后,对
Figure BDA0003351919680000087
中的两个第一定向姿态动作信息进行角度差值的计算,并将角度差值小于或者等于15度的第一定向姿态动作信息确定为第二定向姿态动作信息添加至
Figure BDA0003351919680000088
集合中,则,表征角度差值大于15度的第一定向姿态动作信息为异常定向姿态动作信息,之后将
Figure BDA0003351919680000089
集合中的第二定向姿态动作信息发送至后续的模块进行处理。此时就完成了从多个第一定向姿态动作信息中确定异常定向姿态动作信息的过程。具体的如公式(3)所示,
Figure BDA0003351919680000091
其中,x1,x2为
Figure BDA0003351919680000092
中的两个第一定向姿态动作信息,θ(x1,x2)为两个第一定向姿态动作信息之间的角度差值。需要说明的是,两个第一定向姿态动作信息之间的角度差值可以为两个指向姿态动作信息之间的差值,也可以为两个面向姿态动作信息之间的差值。
需要说明的是,15度仅为一种示例性的角度差值阈值,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
可选的,若所述姿态动作检测子模块101包括多个姿态动作检测子模块,则参考图4,所述姿态动作分析模块10还包括:姿态动作对齐子模块102;
所述姿态动作对齐子模块102,还用于从所述多个姿态动作检测子模块获取多个定向姿态动作信息;并基于预设时间阈值,对所述多个定向姿态动作信息进行时间对齐,得到所述姿态控制指令信息;所述多个定向姿态动作信息包括所述第一定向姿态动作信息和第二定向姿态动作信息中的至少一个。
需要说明的是,姿态动作对齐子模块负责将不同种类的姿态动作采集设备采集到的姿态动作信息进行时间上、量级上的对齐。一般来说,基于可穿戴设备的IMU传感器的姿态动作检测子模块的处理速度远快于基于摄像头、和/或深度摄像头的姿态动作检测子模块的处理速度,因此,姿态动作对齐子模块会在接收到基于IMU传感器的姿态动作检测子模块的定向姿态动作信息后的预设时间阈值内,等待接收来自基于摄像头、和/或深度摄像头的姿态动作检测子模块的定向姿态动作信息,若在预设时间阈值内接收到来自基于摄像头、和/或深度摄像头的姿态动作检测子模块的定向姿态动作信息,则将整个时段内的定向姿态动作数据记录为一段姿态动作信息,并将该一段定向姿态动作信息确定为姿态控制指令信息传输至决策模块。
需要说明的是,预设时间阈值的具体取值可以基于实际情况进行调整,确保一段定向姿态动作信息中只包含一次用于控制设备的定向姿态动作信息即可,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
本申请实施例中,相应的,姿态动作对齐子模块对一段定向姿态动作信息记录的定义为:姿态动作对齐子模块从任一姿态动作检测子模块接收到定向姿态动作信息的时间节点为起始节点,在预设时间阈值内,若接收到其他姿态动作检测子模块传输的定向姿态动作信息时,则重新监听一个预设时间阈值,直至在预设时间阈值内未接收到其他姿态动作检测子模块传输的定向姿态动作信息时,将从起始节点开始,接收到的全部定向姿态动作信息确定为一段定向姿态动作信息。
可选的,所述控制装置包括至少一个决策设备,所述决策模块为所述至少一个决策设备中设备状态为空闲状态、且设备性能最高的决策设备。
本申请实施例中,常见的决策设备包括智能手机、平板电脑、智能电视、智能音箱等具有决策处理能力的分布式智能终端设备,具体的可以根据实际情况进行选择,本申请实施例不做具体的限定。
在本申请实施例中,在决策节点初始化过程中,多个决策设备会参与构建设备优先队列,如图5所示,按照优先级将多个决策设备构建成二叉树队列,其中,优先级可以根据设备性能和设备状态来确定,如将设备状态处于空闲状态的决策设备的优先级提前,并按照设备性能从高到低的顺序依次排序,之后在依次排列设备状态处于占用状态、关闭状态或宕机状态的决策设备,需要说明的是,二叉树队列中的决策设备的排序是实时更新的,确保了从二叉树队列中确定的决策模块总是可用的,在需要决策模块来执行姿态控制指令信息和语音控制指令信息之间的融合并确定目标设备和对目标设备的设备控制参数值时,从二叉树队列中查找当前优先级别最高的决策设备。
可选的,所述决策模块包括:语音解析子模块、姿态解析子模块、信息对齐子模块和执行决策子模块;
所述信息对齐子模块,用于对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;
所述姿态解析子模块,用于基于所述待识别特征类型,对所述第一姿态控制指令信息进行姿态识别,得到至少包括所述目标设备的所述第一识别结果数据;
所述语音解析子模块,用于基于所述待识别特征类型,对与所述第一姿态控制指令信息对应的所述第一语音控制指令信息进行语义识别,得到至少包括设备控制类型的所述第二识别结果数据;
所述执行决策子模块,用于对所述第一识别结果数据和所述第二识别结果数据进行融合,得到所述目标设备和对所述目标设备的设备控制参数值;利用所述控制参数值,对所述目标设备进行控制。
本申请实施例中,在决策模块接收到姿态控制指令信息和语音控制指令信息后,信息对齐子模块主要负责姿态控制指令信息和语音控制指令信息在时间上的对齐操作,对于短时间内仅接收到一条姿态控制指令信息和一条语音控制指令信息的情况,确定为是一一对应的关系,对于接收到连续的多条姿态控制指令信息和多条语音控制指令信息的情况,可以采用预设时间对齐算法,如动态时间规整(Dynamic Time Warping,DTW)算法进行时间对齐。
需要说明的是,所述对应关系为一条姿态控制指令信息对应多条语音控制指令信息、一条姿态控制指令信息对应一条语音控制指令信息、多条姿态控制指令信息对应一条语音控制指令信息的任一种。
在实际应用过程中,一条姿态控制指令信息对应多条语音控制指令信息的场景可以为:指向电视,并语音输出“启动并调至32频道”;多条姿态控制指令信息对应一条语音控制指令信息的场景可以为:分别指向冰箱和空调,并语音输出“调整温度至8度”。
本申请实施例中,语音解析子模块首先对第一语音控制指令信息对应的文本信息进行文本哈希,并剔除已被执行的指令,之后对来自多个语音指令识别模块的文本信息进行对齐归并,对齐后对于相同的文本信息,仅保留一个语音控制指令信息。之后采用长短期记忆网络(Long Short-Term Memory,LSTM)模型,对文本信息进行自然语言理解,识别出待识别特征类型对应的第二识别结果数据,其中,待识别特征类型包括执行设备、执行动作和执行参数这三个类型,对第一语音控制指令信息的第二识别结果数据必须包括执行动作对应的结果数据。
示例性的,如对于“把音箱的音量调高”,对应的第二识别结果数据为:“执行设备:音箱;执行动作:调节音量;执行参数:调高”。又如“把这个关了”的对应识别槽位结果即是“执行设备:无;执行动作:关闭;执行参数:无”此处执行设备不明,就需要结合姿态控制指令信息进行进一步的融合决策。
本申请实施例中,决策模块基于待识别特征类型对第一姿态控制指令信息进行姿态识别,得到至少包括目标设备的第一识别结果数据,此时可以结合第一识别结果数据和第二识别结果数据,确定出目标设备和对目标设备的设备控制参数值。
示例性的,厨房和客厅分别有一台智能冰箱,用户指向厨房的智能冰箱,并说“温度调高一度”,则决策模块基于姿态控制指令信息确定出执行设备为厨房的智能冰箱,基于语音控制指令信息确定出执行动作为调节温度,执行参数为调高一度。再示例性的,厨房和客厅分别有一台智能冰箱,用户指向厨房的智能冰箱并抬手,并说“调节温度”,则决策模块基于姿态控制指令信息确定出执行设备为厨房的智能冰箱,确定出执行参数为调高,基于语音控制指令信息确定出执行动作为调节温度。
可以理解的是,控制装置中还包括了姿态动作分析模块,可以采集姿态动作信息;在语音控制指令信息存在歧义时,决策模块进行确定过程中,可以结合姿态动作信息对应的姿态控制指令信息直接确定出目标设备和对目标设备的控制参数值,能够减少设备控制的步骤,提高设备控制的准确性。
基于上述实施例,本申请实施例还提供一种设备控制方法。如图6所示,该方法包括:
S101、采集定向姿态动作信息,并根据定向姿态动作信息确定姿态控制指令信息。
在本申请实施例中,采集定向姿态动作信息的具体过程参见姿态动作采集子模块的描述,在此不再赘述。
在本申请实施例中,从定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息;并将第一定向姿态动作信息作为姿态控制指令信息。具体的参见姿态动作检测子模块的描述,在此不再赘述。
在本申请实施例中,若第一定向姿态动作信息为姿态动作分析模块中、属于一组姿态动作采集设备的多个姿态动作采集设备对应的多个第一定向姿态动作信息,则在从定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息之后,分别确定多个第一定向姿态动作信息中、每两个第一定向姿态动作信息之间的角度差值,得到多个姿态角度差值;根据多个姿态角度差值,从多个第一定向姿态动作信息中确定异常定向姿态动作信息;并从多个第一定向姿态动作信息中删除异常定向姿态动作信息,得到第二定向姿态动作信息;将第二定向姿态动作信息作为姿态控制指令信息。具体的,参见第一姿态动作检测子模块的描述,在此不再赘述。
在本申请实施例中,若定向姿态动作信息为包括第一定向姿态动作信息和/或第二定向姿态动作信息的多个定向姿态动作信息,则基于预设时间阈值,对多个定向姿态动作信息进行时间对齐,得到姿态控制指令信息。具体的,参见姿态动作对齐子模块的描述,在此不再赘述。
S102、识别语音控制指令信息。
需要说明的是,具体的语音控制指令信息的识别过程参见语音指令识别模块的描述,在此不再赘述。
S103、对姿态控制指令信息和语音控制指令信息进行时间对齐,得到姿态控制指令信息和语音控制指令信息之间的对应关系。
需要说明的是,具体的姿态控制指令信息和语音控制指令信息之间的对应关系的确定过程参见信息对齐子模块的描述,在此不再赘述。
S104、基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到第一姿态控制指令信息对应的第一识别结果数据和第一语音控制指令信息对应的第二识别结果数据。
需要说明的是,具体的,得到第一姿态控制指令信息对应的第一识别结果数据和第一语音控制指令信息对应的第二识别结果数据的过程参见姿态解析子模块和语音解析子模块的描述,在此不再赘述。
S105、根据第一识别结果数据和第二识别结果数据确定目标设备和对目标设备的设备控制参数值;以利用设备控制参数值,对目标设备进行控制。
需要说明的是,具体的,确定目标设备和对目标设备的设备控制参数值的过程参见执行决策子模块的描述,在此不再赘述。
可以理解的是,本申请通过融合姿态动作信息与语音控制指令信息,提供了一种自然、无感、流畅的控制多设备的解决方案,利用摄像头、深度摄像头、智能可穿戴设备的IMU传感器识别用户发出语音控制指令信息时的指向、面向等姿态控制指令信息,结合对语音控制指令信息的自然语言理解,精准的感知到用户想要表达的真实意图。本申请中使用的姿态动作采集子模块可以根据场景限制、成本、空间等因素布置不同的姿态动作识别方案。采用的分布式语音指令识别模块,符合当前多设备、多场景的智能家居、智能办公需求。本技术方案的交互方式为符合人直觉的自然无感交互方式,利用指向姿态动作信息、面向姿态动作信息赋能语音操控多设备,对用户端几乎零学习成本。本方案准确性高,面向姿态动作信息、指向姿态动作信息为强选择意图,几乎无失误可能性,用于消除单纯语音信号的识别歧义,能明显提升使用体验。
本申请实施例提供一种存储介质,其上存储有计算机程序,上述计算机可读存储介质存储有一个或者多个程序,上述一个或者多个程序可被一个或者多个处理器执行,应用于控制装置中,该计算机程序实现如上述的控制方法。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台图像显示设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本公开各个实施例所述的方法。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。

Claims (13)

1.一种控制装置,其特征在于,所述装置包括:姿态动作分析模块、语音指令识别模块和决策模块;其中,
所述姿态动作分析模块,用于采集定向姿态动作信息,并根据所述定向姿态动作信息确定姿态控制指令信息;
所述语音指令识别模块,用于识别语音控制指令信息;
所述决策模块,用于对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到所述第一姿态控制指令信息对应的第一识别结果数据和所述第一语音控制指令信息对应的第二识别结果数据;根据所述第一识别结果数据和所述第二识别结果数据确定目标设备和对所述目标设备的设备控制参数值;以利用所述设备控制参数值,对所述目标设备进行控制。
2.根据权利要求1所述的装置,其特征在于,所述姿态动作分析模块包括:姿态动作采集子模块和姿态动作检测子模块;其中,
所述姿态动作采集子模块,用于采集目标对象的定向姿态动作信息;
所述姿态动作检测子模块,用于从所述定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息,并将所述第一定向姿态动作信息作为所述姿态控制指令信息。
3.根据权利要求2所述的装置,其特征在于,所述姿态动作采集子模块包括至少一组姿态动作采集设备,所述至少一组姿态动作采集设备中的每组姿态动作采集设备的设备类型相同,且每组姿态动作采集设备对应一个姿态动作检测子模块。
4.根据权利要求3所述的装置,其特征在于,若第一姿态动作检测子模块对应的一组姿态动作采集设备为多个姿态动作采集设备,则所述第一姿态动作检测子模块,还用于分别确定多个第一定向姿态动作信息中、每两个第一定向姿态动作信息之间的角度差值,得到多个姿态角度差值;根据所述多个姿态角度差值,从所述多个第一定向姿态动作信息中确定异常定向姿态动作信息;并从所述多个第一定向姿态动作信息中删除所述异常定向姿态动作信息,得到第二定向姿态动作信息;将所述第二定向姿态动作信息作为所述姿态控制指令信息。
5.根据权利要求4所述的装置,其特征在于,若所述姿态动作检测子模块包括多个姿态动作检测子模块,则所述姿态动作分析模块还包括:姿态动作对齐子模块;
所述姿态动作对齐子模块,还用于从所述多个姿态动作检测子模块获取多个定向姿态动作信息;并基于预设时间阈值,对所述多个定向姿态动作信息进行时间对齐,得到所述姿态控制指令信息;所述多个定向姿态动作信息包括所述第一定向姿态动作信息和第二定向姿态动作信息中的至少一个。
6.根据权利要求1所述的装置,其特征在于,所述控制装置包括至少一个决策设备,所述决策模块为所述至少一个决策设备中设备状态为空闲状态、且设备性能最高的决策设备。
7.根据权利要求6所述的装置,其特征在于,所述决策模块包括:语音解析子模块、姿态解析子模块、信息对齐子模块和执行决策子模块;
所述信息对齐子模块,用于对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;
所述姿态解析子模块,用于基于所述待识别特征类型,对所述第一姿态控制指令信息进行姿态识别,得到至少包括所述目标设备的所述第一识别结果数据;
所述语音解析子模块,用于基于所述待识别特征类型,对与所述第一姿态控制指令信息对应的所述第一语音控制指令信息进行语义识别,得到至少包括设备控制类型的所述第二识别结果数据;
所述执行决策子模块,用于对所述第一识别结果数据和所述第二识别结果数据进行融合,得到所述目标设备和对所述目标设备的设备控制参数值;利用所述控制参数值,对所述目标设备进行控制。
8.根据权利要求1或7所述的装置,其特征在于,所述对应关系为一条姿态控制指令信息对应多条语音控制指令信息、一条姿态控制指令信息对应一条语音控制指令信息、多条姿态控制指令信息对应一条语音控制指令信息的任一种。
9.一种控制方法,其特征在于,应用于权利要求1-8任一项所述的控制装置中,所述方法包括:
采集定向姿态动作信息,并根据所述定向姿态动作信息确定姿态控制指令信息;
识别语音控制指令信息;
对所述姿态控制指令信息和所述语音控制指令信息进行时间对齐,得到所述姿态控制指令信息和所述语音控制指令信息之间的对应关系;
基于待识别特征类型,对具备对应关系的第一姿态控制指令信息和第一语音控制指令信息分别进行识别,得到所述第一姿态控制指令信息对应的第一识别结果数据和所述第一语音控制指令信息对应的第二识别结果数据;
根据所述第一识别结果数据和所述第二识别结果数据确定目标设备和对所述目标设备的设备控制参数值;以利用所述设备控制参数值,对所述目标设备进行控制。
10.根据权利要求9所述的方法,其特征在于,所述根据所述定向姿态动作信息确定姿态控制指令信息,包括:
从所述定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息;并将所述第一定向姿态动作信息作为所述姿态控制指令信息。
11.根据权利要求10所述的方法,其特征在于,所述第一定向姿态动作信息为姿态动作分析模块中、属于一组姿态动作采集设备的多个姿态动作采集设备对应的多个第一定向姿态动作信息,所述从所述定向姿态动作信息中,筛选出满足预设设备控制姿态的第一定向姿态动作信息之后,所述方法还包括:
分别确定所述多个第一定向姿态动作信息中、每两个第一定向姿态动作信息之间的角度差值,得到多个姿态角度差值;
根据所述多个姿态角度差值,从所述多个第一定向姿态动作信息中确定异常定向姿态动作信息;并从所述多个第一定向姿态动作信息中删除所述异常定向姿态动作信息,得到第二定向姿态动作信息;
将所述第二定向姿态动作信息作为所述姿态控制指令信息。
12.根据权利要求11所述的方法,其特征在于,所述定向姿态动作信息为包括所述第一定向姿态动作信息和/或所述第二定向姿态动作信息的多个定向姿态动作信息,所述根据所述定向姿态动作信息确定姿态控制指令信息,包括:
基于预设时间阈值,对所述多个定向姿态动作信息进行时间对齐,得到所述姿态控制指令信息。
13.一种存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求9-12任一项所述的方法。
CN202111340879.0A 2021-11-12 2021-11-12 一种控制方法及装置、存储介质 Pending CN114171019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111340879.0A CN114171019A (zh) 2021-11-12 2021-11-12 一种控制方法及装置、存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111340879.0A CN114171019A (zh) 2021-11-12 2021-11-12 一种控制方法及装置、存储介质

Publications (1)

Publication Number Publication Date
CN114171019A true CN114171019A (zh) 2022-03-11

Family

ID=80478714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111340879.0A Pending CN114171019A (zh) 2021-11-12 2021-11-12 一种控制方法及装置、存储介质

Country Status (1)

Country Link
CN (1) CN114171019A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863517A (zh) * 2022-04-22 2022-08-05 支付宝(杭州)信息技术有限公司 一种面部识别中的风险控制方法、装置以及设备
CN115437266A (zh) * 2022-10-10 2022-12-06 四川长虹电器股份有限公司 一种语音控制物联设备的定位方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110970023A (zh) * 2019-10-17 2020-04-07 珠海格力电器股份有限公司 语音设备的控制装置、语音交互方法、装置及电子设备
CN111477230A (zh) * 2020-04-17 2020-07-31 歌尔科技有限公司 一种智能音箱系统、智能音箱系统的控制方法及存储介质
CN112053683A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 一种语音指令的处理方法、设备及控制系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102945672A (zh) * 2012-09-29 2013-02-27 深圳市国华识别科技开发有限公司 一种多媒体设备语音控制系统及方法
CN112053683A (zh) * 2019-06-06 2020-12-08 阿里巴巴集团控股有限公司 一种语音指令的处理方法、设备及控制系统
CN110675870A (zh) * 2019-08-30 2020-01-10 深圳绿米联创科技有限公司 一种语音识别方法、装置、电子设备及存储介质
CN110970023A (zh) * 2019-10-17 2020-04-07 珠海格力电器股份有限公司 语音设备的控制装置、语音交互方法、装置及电子设备
CN111477230A (zh) * 2020-04-17 2020-07-31 歌尔科技有限公司 一种智能音箱系统、智能音箱系统的控制方法及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114863517A (zh) * 2022-04-22 2022-08-05 支付宝(杭州)信息技术有限公司 一种面部识别中的风险控制方法、装置以及设备
CN114863517B (zh) * 2022-04-22 2024-06-07 支付宝(杭州)信息技术有限公司 一种面部识别中的风险控制方法、装置以及设备
CN115437266A (zh) * 2022-10-10 2022-12-06 四川长虹电器股份有限公司 一种语音控制物联设备的定位方法

Similar Documents

Publication Publication Date Title
US11031000B2 (en) Method and device for transmitting and receiving audio data
US20220317641A1 (en) Device control method, conflict processing method, corresponding apparatus and electronic device
CN105045122A (zh) 一种基于音频和视频的智能家居自然交互系统
WO2017071645A1 (zh) 语音控制方法、装置及系统
CN114171019A (zh) 一种控制方法及装置、存储介质
CN109032039A (zh) 一种语音控制的方法及装置
CN110519636A (zh) 语音信息播放方法、装置、计算机设备及存储介质
CN110837758B (zh) 一种关键词输入方法、装置及电子设备
KR20220082800A (ko) 인공지능 모듈 맵 기반 이용 목적에 따른 인공지능 모듈 추천 방법
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
CN105374357B (zh) 一种语音识别方法、装置及语音控制系统
US20180307462A1 (en) Electronic device and method for controlling electronic device
CN111251307A (zh) 应用于机器人的语音采集方法和装置、一种机器人
KR20210044475A (ko) 대명사가 가리키는 객체 판단 방법 및 장치
CN108063909A (zh) 视频会议系统、图像跟踪采集方法及装置
CN111881740A (zh) 人脸识别方法、装置、电子设备及介质
US20170206898A1 (en) Systems and methods for assisting automatic speech recognition
CN113342170A (zh) 手势控制方法、装置、终端和存储介质
WO2014031457A1 (en) Target object angle determination using multiple cameras
CN116301381A (zh) 一种交互方法及相关设备和系统
US20240073518A1 (en) Systems and methods to supplement digital assistant queries and filter results
CN114299978A (zh) 音频信号的处理方法、装置、设备及存储介质
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备
US10783616B2 (en) Method and apparatus for sharing and downloading light field image
US20220406308A1 (en) Electronic apparatus and method of controlling the same

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination