CN114613362A - 设备控制方法和装置、电子设备和介质 - Google Patents
设备控制方法和装置、电子设备和介质 Download PDFInfo
- Publication number
- CN114613362A CN114613362A CN202210242711.4A CN202210242711A CN114613362A CN 114613362 A CN114613362 A CN 114613362A CN 202210242711 A CN202210242711 A CN 202210242711A CN 114613362 A CN114613362 A CN 114613362A
- Authority
- CN
- China
- Prior art keywords
- target
- speed
- dimension parameter
- dynamic gesture
- adjustment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 230000009471 action Effects 0.000 claims abstract description 28
- 230000004044 response Effects 0.000 claims abstract description 21
- 230000033001 locomotion Effects 0.000 claims description 121
- 238000001514 detection method Methods 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 16
- 230000033228 biological regulation Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 230000000694 effects Effects 0.000 description 18
- 238000013528 artificial neural network Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000003993 interaction Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 10
- 238000005259 measurement Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000036544 posture Effects 0.000 description 5
- 238000013473 artificial intelligence Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004807 localization Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000005265 energy consumption Methods 0.000 description 1
- 230000003631 expected effect Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002650 habitual effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000006798 recombination Effects 0.000 description 1
- 238000005215 recombination Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/017—Gesture based interaction, e.g. based on a set of recognized hand gestures
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/87—Detection of discrete points within a voice signal
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
本公开实施例公开了一种设备控制方法和装置、电子设备和介质,其中,设备控制方法包括:响应于接收到语音控制指令,对所述语音控制指令进行语音识别,得到第一语音识别结果;基于所述第一语音识别结果,确定所述语音控制指令对应的目标设备;响应于检测到预设动态手势,基于所述动态手势的持续动作对所述目标设备的状态进行连续调节。本公开实施例可以提高目标设备选取的效率和便利性,并实现了对目标设备的连续性操作控制,使得对目标设备的状态的调节更灵活、精细、精确。
Description
技术领域
本公开涉及人工智能技术,尤其是一种设备控制方法和装置、电子设备和介质。
背景技术
人机交互是指人与机器之间使用某种对话语言,以一定的交互方式,为完成确定任务的人与机器之间的信息交换过程。传统的人机交互主要通过键盘、鼠标、显示器等输入输出设备实现,而随着人工智能等技术的发展,人与机器之间已经能够通过类似于自然语言的方式进行交互。
随着智能车辆的普及,智能车辆上的车载设备逐渐增多,可实现的辅助功能也越来越多。对于行驶过程中的驾驶员来说,手动操作控制车载设备实现相应的功能,存在着诸多不方便性和不安全性。
发明内容
为了解决上述技术问题,提出了本公开。本公开的实施例提供了一种设备控制方法和装置、电子设备和介质。
根据本公开实施例的一个方面,提供一种设备控制方法,包括:
响应于接收到语音控制指令,对所述语音控制指令进行语音识别,得到第一语音识别结果;
基于所述第一语音识别结果,确定所述语音控制指令对应的目标设备;
响应于检测到预设动态手势,基于所述动态手势的持续动作对所述目标设备的状态进行连续调节。
根据本公开实施例的又一个方面,提供一种设备控制装置,包括:
语音识别模块,用于响应于接收到语音控制指令,对所述语音控制指令进行语音识别,得到第一语音识别结果;
确定模块,用于基于所述语音识别模块得到的所述第一语音识别结果,确定所述语音控制指令对应的目标设备;
检测模块,用于检测预设动态手势;
调节模块,用于响应于所述检测模块检测到所述预设动态手势,基于所述动态手势的持续动作对所述目标设备的状态进行连续调节。
根据本公开实施例的又一个方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本公开上述任一实施例所述的设备控制方法。
根据本公开实施例的再一个方面,提供一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以本公开上述任一实施例所述的设备控制方法。
基于本公开上述实施例提供的设备控制方法和装置、电子设备和介质,在接收到语音控制指令时,通过对该语音控制指令进行语音识别,得到第一语音识别结果,然后,基于该第一语音识别结果确定语音控制指令对应的目标设备,并且,在检测到预设动态手势时,基于该动态手势的持续动作对对应的目标设备的状态进行连续调节。由此,本公开实施例可以基于语音控制指令确定需要调节的目标设备,而无需手动选择目标设备,可以提高目标设备选取的效率和便利性,有效避免手动选择目标设备存在的不方便性问题;另外,基于动态手势的持续动作对该目标设备的状态进行连续调节,实现了对目标设备的连续性操作控制,使得对目标设备的状态的调节更灵活、精细、精确,从而提高了对目标设备的控制效果。
本公开实施例可用于对家电设备、车载设备、终端设备等任意设备的状态调节。本公开实施例应用于车辆时,可以提高选取和操作控制车载设备的效率、便利性和安全性,有效避免驾驶员在行驶过程中手动操作控制车载设备存在的不方便性和不安全性问题;并且,基于动态手势的持续动作实现了对车载设备的连续性操作控制,使得对车载设备的状态的调节更灵活、精细、精确,从而提高了对车载设备的控制效果。
下面通过附图和实施例,对本公开的技术方案做进一步的详细描述。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是本公开所适用的系统图。
图2是本公开一示例性实施例提供的设备控制方法的流程示意图。
图3是本公开实施例中一根根手指画圈的一个示意图。
图4是本公开另一示例性实施例提供的设备控制方法的流程示意图。
图5是本公开又一示例性实施例提供的设备控制方法的流程示意图。
图6是本公开再一示例性实施例提供的设备控制方法的流程示意图。
图7是本公开还一示例性实施例提供的设备控制方法的流程示意图。
图8是本公开又一示例性实施例提供的设备控制方法的流程示意图。
图9是本公开一示例性实施例提供的设备控制装置的结构示意图。
图10是本公开另一示例性实施例提供的设备控制装置的结构示意图。
图11是本公开一示例性实施例提供的电子设备的结构示意图。
具体实施方式
下面,将参考附图详细地描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
本领域技术人员可以理解,本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等,既不代表任何特定技术含义,也不表示它们之间的必然逻辑顺序。
还应理解,在本公开实施例中,“多个”可以指两个或两个以上,“至少一个”可以指一个、两个或两个以上。
还应理解,对于本公开实施例中提及的任一部件、数据或结构,在没有明确限定或者在前后文给出相反启示的情况下,一般可以理解为一个或多个。
另外,本公开中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本公开中字符“/”,一般表示前后关联对象是一种“或”的关系。
还应理解,本公开对各个实施例的描述着重强调各个实施例之间的不同之处,其相同或相似之处可以相互参考,为了简洁,不再一一赘述。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备,其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于:个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境,等等。
终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常,程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等,它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施,分布式云计算环境中,任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中,程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。
申请概述
人工智能(Artificial Intelligence,AI)是使机器能够胜任一些通常需要人类智能才能完成的复杂工作,为了执行人的指令,高效、准确的人机交互是必需的。近年来,随着AI技术的不断发展,语音识别技术在车载设备中的应用越来越受到业内的关注。
为了避免行驶过程中驾驶员手动操作控制车载设备存在的不方便性和不安全性问题,相关技术中,通过语音命令操作控制车载设备。
然而,本发明人通过研究发现,通过语音命令操作控制车载设备的方法,无法实现对车载设备的连续性操作控制,对车载设备的控制效果较差。例如,通过语音命令“开窗”控制打开车辆窗户时,只能按照默认设置控制车辆窗户的打开幅度,无法精确控制车辆窗户的打开幅度,如果打开幅度未达到用户的预期程度,则需要多次语音命令“开窗”多次控制增大车辆窗户的打开幅度,控制效率低下;而如果车辆窗户的打开幅度超出用户的预期程度,则无法精确减小车辆窗户的打开幅度,从而无法满足用户需求。
有鉴于此,本公开实施例提出一种设备控制方法和装置、电子设备和介质,以提高选取和操作控制车载设备的效率、便利性和安全性,同时实现对目标设备的连续性操作控制。
本公开实施例通过语音控制指令确定需要调节的目标设备,通过动态手势的持续动作对目标设备的状态进行连续调节,既无需手动选择目标设备,可以提高目标设备选取的效率和便利性,有效避免手动选择目标设备存在的不方便性问题,又实现了对目标设备的连续性操作控制,使得对目标设备的状态的调节更灵活、精细、精确,从而提高了对目标设备的控制效果。
本公开实施例可用于对家电设备、车载设备、终端设备等任意设备的状态调节。本公开实施例应用于车辆时,可以提高选取和操作控制车载设备的效率、便利性和安全性,有效避免驾驶员在行驶过程中手动操作控制车载设备存在的不方便性和不安全性问题;并且,基于动态手势的持续动作实现了对车载设备的连续性操作控制,使得对车载设备的状态的调节更灵活、精细、精确,从而提高了对车载设备的控制效果。
示例性系统
图1是本公开所适用的系统图。如图1所示,通过音频采集模块102(例如麦克风等)采集得到语音控制指令,该语音控制指令或该语音控制指令经前端信号处理后,输入本公开实施例的设备控制装置104。由设备控制装置104对接收到的语音控制指令进行语音识别,得到第一语音识别结果后,基于该语音识别结果确定语音控制指令对应的目标设备106,调用图像采集模块108(例如摄像头等)采集视频流,并针对图像采集模块108采集的视频流进行预设动态手势检测,在检测到预设动态手势时,基于该动态手势的持续动作对目标设备106的状态进行连续调节。
本公开实施例可用于对家电设备、车载设备、终端设备等任意设备的状态调节,即上述目标设备106可以是家电设备、车载设备、终端设备等任意设备。上述目标设备106为车载设备时,本公开实施例针对座舱内的各种交互场景,基于语音和动态手势混合进行人机交互,通过对语音控制指令进行语音识别获得对待操控设备的操控权,进而通过动态手势来对待操控设备进行各种可能的连续性操作控制,在对待操控设备进行连续性操作控制的过程中,还可以通过动态手势的运动速度控制待操控设备的调节速度,可以提高选取和操作控制车载设备的效率、便利性和安全性,有效避免驾驶员在行驶过程中手动操作控制车载设备存在的不方便性和不安全性问题;并且,基于动态手势的持续动作实现了对车载设备的连续性操作控制,使得对车载设备的状态的调节更灵活、精细、精确,从而提高了对车载设备的控制效果。本公开实施例充分调用了语音控制优秀的权限接口能力和动态手势的精细调节能力,具备操作简单、鲁棒性好、调节精细、交互效率高、功能广泛的特点。
示例性方法
图2是本公开一示例性实施例提供的设备控制方法的流程示意图。本实施例可应用在电子设备上,如图2所示,本实施例的设备控制方法包括如下步骤:
步骤202,响应于接收到语音控制指令,对该语音控制指令进行语音识别,得到第一语音识别结果。
本公开实施例中的语音控制指令,是通过音频采集模块(例如麦克风等)直接采集得到原始语音控制指令,或者对音频采集模块采集到的原始语音控制指令进行前端信号处理后得到的语音控制指令,本公开实施例对此不做限制。
其中,前端信号处理例如可以包括但不限于:语音活动检测(VoiceActivityDetection,VAD)、降噪、声学回声消除(Acoustic Echo Cancellaction,AEC)、去混响处理、设备控制、波束形成(Beam Forming,BF)等。
语音活动检测又称语音端点检测、语音边界检测,是指在噪声环境中检测音频信号中语音的存在与否,准确的检测出音频信号中语音段起始位置,通常用于语音编码、语音增强等语音处理系统中,起到降低语音编码速率、节省通信带宽、减少移动设备能耗、提高识别率等作用。VAD的起点是从静音到语音,VAD的结束点是从语音到静音,VAD的结束点的判断需要一段静音。原始音频信号经前端信号处理得到的语音,包括从VAD的起点到结束点的语音,因此,本公开实施例中的语音控制指令,在语音段后还可能包括一段静音。
步骤204,基于第一语音识别结果,确定语音控制指令对应的目标设备。
该语音控制指令对应的目标设备,即需要对其状态进行调节的设备。该目标设备可以是家电设备、车载设备、终端设备等任意设备,其中的车载设备即车辆上设备,例如可以包括但不限于车辆上的以下设备:左后视镜、右后视镜、车辆内部后视镜、各窗户、各空调、各座椅、音响、各灯等等。本公开实施例对目标设备的范围和车载设备的具体范围不做限制。
步骤206,响应于检测到预设动态手势,基于该动态手势的持续动作对目标设备的状态进行连续调节。
通过该步骤206,用户可以通过持续做出动态手势实现对目标设备的状态的连续调节,直至目标设备的状态达到用户预期的状态效果,例如车辆的窗户降到用户预期的高度,停止该动态手势动作,可以停止对目标设备的状态的调节。
基于本实施例,可以基于语音控制指令确定需要调节的目标设备,而无需手动选择目标设备,可以提高目标设备选取的效率和便利性,有效避免手动选择目标设备存在的不方便性问题;另外,基于动态手势的持续动作对该目标设备的状态进行连续调节,实现了对目标设备的连续性操作控制,使得对目标设备的状态的调节更灵活、精细、精确,从而提高了对目标设备的控制效果。
本公开实施例中的预设动态手势可以考虑以下特点设计:(1)符合自然习惯,易于做出,以提高动作便利性;(2)动态手势,相对于单帧图像中的静态手部动作,鲁棒性好;(3)与日常习惯性动作相区别,误报为其他动作的概率低;(4)具有不同的运动方向,可以复用。
基于上述特点,在其中一些实现方式中,上述预设动态手势例如可以为:画圈,即隔空手势画圈,例如可以包括但不限于左手画圈、右手画圈、双手画圈,任意一根或多根手指画圈,握拳画圈,屈指画圈等等。如图3所示,为一根根手指画圈的一个示意图。本公开实施例的预设动态手势不限于此,可以为任意以上特点的动态手势。
本实施例中的预设动态手势可以同时满足以上特点,具备鲁棒性高、少而精、符合自然习惯、识别准确性高、易于复用,从而可以提高识别稳定性和准确性,有助于对设备的连续性操作控制。
图4是本公开另一示例性实施例提供的设备控制方法的流程示意图。如图4所示,在上述图2所示实施例的基础上,本实施例的设备控制方法还可以包括如下步骤:
步骤205,确定目标设备的待调节的目标维度参数。
其中的目标维度参数,即需要对目标设备的状态进行调节的维度参数。例如,目标设备为车辆上的窗户时,目标维度参数可以是窗户的升降维度;目标设备为车辆上的座椅时,目标维度参数可以是座椅的前后维度、高低维度、靠背后倾角度维度等;目标设备为车辆上的灯时,目标维度参数可以是灯的亮度维度、色彩维度等;目标设备为车辆上的左后视镜、右后视镜时,目标维度参数可以是左后视镜、右后视镜的俯仰角度维度、偏航角度维度。再如,目标设备为家电设备例如电视时,目标维度参数可以是电视的频道维度、音量维度、亮度维度等。本公开实施例中,目标设备的待调节的目标维度参数,可以是目标设备的可调节的任意维度参数,本公开实施例对可调节的维度参数不做限制。
相应地,该实施例中,步骤206可以包括:
步骤2062,响应于检测到预设动态手势,确定该动态手势的运动方向。
步骤2064,基于动态手势的运动方向,确定目标设备在目标维度参数上的目标调节方向。
可选地,在其中一些实现方式中,可以预先设定动态手势的运动方向与设备、设备的维度参数、以及调节方向四者之间的对应关系。在确定该动态手势的运动方向后,可以基于该动态手势的运动方向、目标设备和目标维度参数,查询该对应关系得到目标调节方向。如下表1所示,为本公开实施例中,动态手势为画圈时,画圈方向与设备、设备的维度参数、以及调节方向四者之间的对应关系的一个部分内容示例,不够成对本公开实施例动态手势的运动方向与设备、设备的维度参数、以及调节方向四者之间的对应关系具体内容的限制。
表1
步骤2066,基于动态手势在该动态手势的运动方向上的持续动作,对目标设备在目标维度参数上,向目标调节方向进行连续调节。
基于本实施例,在确定目标设备的待调节的目标维度参数后,可以通过动态手势的运动方向确定目标设备在目标维度参数上的目标调节方向,由此可以确定出目标设备待调节的目标维度参数和目标调节方向,进而,基于动态手势在该运动方向上的持续动作,便可以实现对目标设备在目标维度参数上向目标调节方向的连续调节,从而实现了对目标设备在目标维度参数上向目标调节方向的连续性操作控制。
本公开实施例中的目标设备,可以是基于一个维度参数确定状态的设备,即该设备的状态基于一个维度参数确定,该设备只有一个维度参数可调节,该维度参数上的各参数值分别对应于设备的一个状态。例如,车辆上的窗户即为基于升降维度这一个维度参数确定状态的设备,窗户在升降维度上的不同高度值分别对应于窗户的一个状态。
或者,本公开实施例中的目标设备,也可以是基于多个维度参数确定状态的目标设备,即该设备的状态基于该多个维度参数共同确定,该设备有多个维度参数可调节,该多个维度参数上的一组参数值分别对应于设备的一个状态,在该多个维度参数中任意一个维度参数上的参数值变化时,设备的状态便发生了变化。例如,车辆上的左后视镜、右后视镜即为基于俯仰角度维度、偏航角度维度这两个维度参数共同确定状态的设备,每一组(俯仰角度维度上的角度值、偏航角度维度上的角度值)分别对应于左后视镜、右后视镜的一个状态,俯仰角度维度和偏航角度维度上任一维度参数或全部参数维度的角度值发生变化时,左后视镜、右后视镜的状态也便发生了变化。
在其中一些实现方式中,本公开实施例中,在目标设备的状态基于一个维度参数确定的情况下,在步骤205中,可以直接确定目标设备的该一个维度参数为目标维度参数。
基于本实施例,在目标设备的状态基于一个维度参数确定时,该目标设备只有一个维度参数可调节,则可以直接确定目标设备的该一个维度参数为目标维度参数,而无需用户指定需要调节的目标维度参数,有助于提高目标维度参数的确定效率,从而提高对目标设备的控制效率。
在其中一些实现方式中,本公开实施例中,在目标设备的状态基于多个维度参数确定的情况下,在步骤205中,可以基于第一语音识别结果,确定目标维度参数。
本实施例中,用户可以通过语音控制指令直接携带需要调节的目标维度参数的相关信息,例如,语音控制指令可以是语音“我要调节主驾座椅的前后”、“我要调节主驾座椅,前后调整”、“我要向前调主驾座椅”、“我要调左后视镜的俯仰”等,本公开实施例对语音控制指令中携带目标维度参数的相关信息的内容形式和格式不做限制。则对该语音控制指令进行语音识别得到的文本形式的第一语音识别结果中,即包括目标维度参数的相关信息,基于该目标维度参数的相关信息便可以确定目标维度参数。
例如,在具体实现中,可以预先设定各设备的维度参数,对该语音控制指令进行语音识别得到第一语音识别结果后,针对目标设备,确定该第一语音识别结果中目标维度参数的相关信息关联的或最接近的维度参数,作为待调节的目标维度参数。例如针对主驾座椅这一目标设备,其存在前后维度、高低维度、靠背后倾角度维度共三个维度,则基于第一语音识别结果“我要调节主驾座椅的前后”中目标维度参数的相关信息“前后”,基于第一语音识别结果“我要调节主驾座椅,前后调整”中目标维度参数的相关信息“前后调整”,基于第一语音识别结果“我要向前调主驾座椅”中目标维度参数的相关信息“向前调”,可以确定目标维度参数的相关信息“前后”、“前后调整”、“向前调”关联的或最接近的维度参数为前后维度,作为主驾座椅的待调节的目标维度参数。
另外,在具体实现中,可以采用预设确定方式,针对目标设备,确定第一语音识别结果中目标维度参数的相关信息关联的或最接近的维度参数。例如,可以确定目标设备的维度参数名称中,与第一语音识别结果中目标维度参数的相关信息中相同字符最多的维度参数,为关联的或最接近的维度参数。又如,可以预先设定一个信息列表,该信息列表包括各设备的各维度参数可能对应的相关信息,则基于第一语音识别结果中目标维度参数的相关信息,可以针对目标设备查询信息列表,得到匹配的维度参数,作为关联的或最接近的维度参数。另外,本公开实施例也可以采用其他方式确定第一语音识别结果中目标维度参数的相关信息关联的或最接近的维度参数,本公开实施例对此不做限制。
基于本实施例,在目标设备的状态基于多个维度参数确定时,用户可以直接通过语音控制指令指定需要调节的目标维度参数,而无需再单独指定需要调节的目标维度参数,有助于提高目标维度参数的确定效率,从而提高对目标设备的控制效率。
在另一些实现方式中,在目标设备的状态基于多个维度参数确定的情况下,在步骤205中,响应于接收到维度参数语音指令,可以对该维度参数语音指令进行语音识别,得到第二语音识别结果,然后,基于该第二语音识别结果,确定目标维度参数。
本实施例中,用户可以在发送语音控制指令后,直接发送维度参数语音指令,例如,用户可以在发送语音控制指令“我要调节主驾座椅”后,直接发送维度参数语音指令“前后调整”。或者,也可以由实现本公开实施例的装置在接收到用户发送的语音控制指令后,输出维度参数询问语音,并接收用户针对该维度参数询问语音发送的维度参数语音指令,例如,用户发送语音控制指令“我要调节主驾座椅”,由实现本公开实施例的装置在接收到该语音控制指令“我要调节主驾座椅”后,输出维度参数询问语音“好的,请问您希望如何调整?”,并接收用户针对该维度参数询问语音发送的维度参数语音指令“前后调整”。则对该维度参数语音指令进行语音识别,得到第二语音识别结果后,可以基于该第二语音识别结果确定目标维度参数。
在具体实现中,可以预先设定各设备的维度参数,对维度参数语音指令进行语音识别得到的第二语音识别结果后,针对目标设备,确定该第二语音识别结果关联的或最接近的维度参数,作为待调节的目标维度参数。
在具体实现中,可以采用预设确定方式,针对目标设备,确定第二语音识别结果关联的或最接近的维度参数。具体的确定方式,可以参考上述实施例确定第一语音识别结果中目标维度参数的相关信息关联的或最接近的维度参数的实现方式,此处不再赘述。
基于本实施例,在目标设备的状态基于多个维度参数确定时,用户可以通过单独的维度参数语音指令指定需要调节的维度参数,由此即可确定目标设备需要调节的目标维度参数。
在又一些实现方式中,在目标设备的状态基于多个维度参数确定的情况下,在步骤205中,也可以获取动态手势对应的手部形态信息,然后,基于该手部形态信息确定目标维度参数。
其中的手部形态信息,例如可以包括但不限于以下任意一项:手指伸出形式、手指数量、单双手信息等。其中,手指伸出形式例如可以是伸直、弯曲等;手指数量例如可以是一根、两根等;单双手信息例如可是左手、右手、或者双手等。
具体来说,可以预先设定的手部形态信息与设备、以及设备的维度参数三者之间的对应关系,在步骤205中获取到动态手势对应的手部形态信息后,基于目标设备和获取到的手部形态信息,从上述对应关系中获取与该目标设备和获取到的手部形态信息对应的维度参数,作为目标维度参数。
如下表2所示,为本公开实施例中,手部形态信息为手指数量、设备为车载设备时,手部形态信息与车载设备、以及车载设备的维度参数三者之间的对应关系的一个部分内容示例。
表2
如下表3所示,为本公开实施例中,手部形态信息为单双手信息、设备为车载设备时,手部形态信息与车载设备、以及车载设备的维度参数三者之间的对应关系的一个部分内容示例。
表3
以上表2和表3仅示例性示出手部形态信息与设备、以及设备的维度参数三者之间的对应关系的部分内容,对于手部形态信息为表2和表3外的其他手部形态信息、设备为表2和表3外的其他设备(例如其他车载设备、家电设备、终端设备等)的情况,在内容结构上可以参考表2和表3,本公开实施例不再赘述。
基于本实施例,在目标设备的状态基于多个维度参数确定时,可以通过用户的手部形态信息实现对目标设备需要调节的目标维度参数的确定。
图5是本公开又一示例性实施例提供的设备控制方法的流程示意图。如图5所示,在上述图4所示实施例的基础上,步骤2066可以包括如下步骤:
步骤20662,在动态手势的持续动作期间,实时或者按照预设调节周期,获取该动态手势的运动速度。
为了实现对目标设备的状态的实时、动态调节效果,其中的预设调节周期的取值可以设置的较小,例如0.01s,本公开实施例可以根据具体操控的设备、以及调节效果预先设置,并可以根据需要更新。
步骤20664,基于动态手势的运动速度,确定目标设备在目标维度参数上的目标调节速度。
步骤20666,对目标设备在目标维度参数上,以目标调节速度向目标调节方向进行调节。
其中,在该步骤20666中,可以对目标设备在目标维度参数上的状态限度范围内,以目标调节速度向目标调节方向进行调节,当目标设备在该目标维度参数上达到状态限度范围边界时,例如车辆上窗户降到最低或者升到最高时,便不再对该目标设备在目标维度参数上向目标调节方向进行调节,以避免损坏目标设备。
基于本实施例,可以基于动态手势的运动速度确定目标设备在目标维度参数上的目标调节速度,并对目标设备以该目标调节速度向目标调节方向进行调节,这样,动态手势的运动速度越快,设备调节速度越快,反之,动态手势的运动速度越慢,设备调节速度越慢,从而实现了基于动态手势的运动速度对设备调节速度的动态控制,实现了对设备调节速度的可视化控制,提高了目标设备的调节效率和用户的操作体验。
可选地,在其中一些实现方式中,可以获取目标设备在目标维度参数上的调节速度配置信息,该调节速度配置信息用于确定在目标设备的各维度参数上,手势运动速度和设备调节速度之间的关系,例如针对车辆上的窗户,在升降维度上,手势运动速度和窗户升降速度之间的关系,可以将手势运动速度和设备调节速度进行线性对应。相应地,在步骤20664中,可以基于获取到的调节速度配置信息,确定在目标维度参数上,通过步骤20662获取到的动态手势的运动速度对应的设备调节速度为目标调节速度。
基于本实施例,可以根据预先设置的调节速度配置信息,基于动态手势的运动速度客观、准确的确定目标设备在目标维度参数上的目标调节速度,以实现对目标设备状态的调节速度的准确控制。
在一些具体实现方式中,可以从第一语音识别结果中获取目标设备在目标维度参数上的调节速度配置信息。
本实施例中,用户可以通过语音控制指令直接携带调节速度配置信息,例如,语音控制指令可以是语音“我要调节主驾车窗,转三圈能升起整面窗户”,其中包括调节速度配置信息“转三圈能升起整面窗户”,本公开实施例对语音控制指令中携带调节速度配置信息的内容形式和格式不做限制。则对该语音控制指令进行语音识别得到第一语音识别结果后,便可以从第一语音识别结果中获取目标设备在目标维度参数上的调节速度配置信息,从而确定在目标设备的目标维度参数上,手势运动速度和设备调节速度之间的关系。
基于本实施例,用户可以在对设备的操控过程中,直接通过语音控制指令设置目标设备在目标维度参数上的调节速度配置信息,从而实现具体场景中对调节速度配置信息的实时、动态配置,实现对设备调节效果的个性化配置。
或者,在另一些具体实现方式中,也可以采用如下方式获取目标设备在目标维度参数上的调节速度配置信息:响应于接收到调节速度配置语音指令,对该调节速度配置语音指令进行语音识别,得到第三语音识别结果,然后,从该第三语音识别结果中获取目标设备在目标维度参数上的调节速度配置信息,从而确定在目标设备的目标维度参数上,手势运动速度和设备调节速度之间的关系。其中的调节速度配置语音指令,可以是用户主动发送的调节速度配置语音指令,例如,用户在发送语音控制指令“我要向前调主驾座椅”后主动发送了调节速度配置语音指令“转三圈可以升起整个窗户”;或者,也可以是用户根据用于实现本公开实施例的装置输出的调节速度提示语音发送的调节速度配置语音指令,例如,用户在发送语音控制指令“我要向前调主驾座椅”后,根据用于实现本公开实施例的装置输出的调节速度提示语音“好的,请问您希望按照什么速度调整?”,发送调节速度配置语音指令“转三圈可以升起整个窗户”,本公开实施例对用户发送调节速度配置语音指令的方式和具体内容不做限制。
基于本实施例,用户可以在对设备的操控过程中,通过一条单独的指令来设置目标设备在目标维度参数上的调节速度配置信息,从而实现具体场景中对调节速度配置信息的实时、动态配置,实现对设备调节效果的个性化配置。
或者,在又一些具体实现方式中,还可以从预先配置的调节速度配置信息中获取目标设备在目标维度参数上的调节速度配置信息,从而确定在目标设备的目标维度参数上,手势运动速度和设备调节速度之间的关系。
其中,该预先配置的调节速度配置信息可以是用户预先配置的。以车载设备为例,用户可以通过车辆的中控系统提供的调节速度配置页面,例如,通过该调节速度配置页面中关于各车载设备的配置选项,或者通过该调节速度配置页面进行人机语音交互的方式,来设置或更新各车载设备的调节速度配置信息。或者,用户也可以通过人机语音交互的方式,接入中控系统提供的调节速度配置权限,并通过人机语音交互的方式来设置各车载设备的调节速度配置信息。针对其他设备(例如家电设备、终端设备等),可以通过对这些设备进行统一控制的控制设备提供的调节速度配置页面,采用与车载设备类似的方式,来设置或更新各设备的调节速度配置信息。
在用户未预先配置调节速度配置信息时,可以获取中控系统(对于车载设备)、控制设备(对于家电设备、终端设备等其他设备)等出厂时的预设信息作为预先配置的调节速度配置信息。
基于本实施例,可以在用户未针对当前场景设置调节速度配置信息时,从预先配置的调节速度配置信息中获取目标设备在目标维度参数上的调节速度配置信息,以用于确定当前场景中对目标设备的目标调节速度。
例如,在具体应用中,可以通过如下方式预先配置调节速度配置信息:
通过设置接口,例如中控系统(对于车载设备)、控制设备(对于家电设备、终端设备等其他设备)提供的调节速度配置页面上的接口,接收用户发送的调节速度配置请求,该调节速度配置请求包括设备标识(ID)、维度参数ID、手势运动幅度(例如一圈)和设备调节幅度(例如0.5cm)信息,其中的设备ID用于唯一标识一个设备,维度参数ID用于唯一标识一个维度参数;
基于调节速度配置请求中的手势运动幅度和设备调节幅度信息,确定手势运动速度和设备调节速度之间的关系;
基于调节速度配置请求中的设备ID、维度参数ID、手势运动速度和设备调节速度之间的关系,配置该设备ID所标识的设备在该维度参数ID所标识的维度参数上的调节速度配置信息;或者,基于调节速度配置请求中的设备ID、维度参数ID、手势运动速度和设备调节速度之间的关系,更新预先配置的调节速度配置信息中该设备ID和该维度参数ID对应的调节速度配置信息。
基于本实施例,实现了针对设备在维度参数上的调节速度配置信息的配置或更新。
另外,在上述实施例中,在执行步骤206或者2066的过程中,响应于接收到调节速度更新语音指令,对该调节速度更新语音指令进行语音识别,得到第四语音识别结果,并从该第四语音识别结果中获取调节速度更新配置信息,其中的调节速度更新配置信息用于表示在目标设备的各维度参数上,更新后的手势运动速度和设备调节速度之间的关系;然后,在动态手势的后续持续动作期间,实时或者按照预设调节周期,获取该动态手势的运动速度,并基于上述调节速度更新配置信息,确定在目标维度参数上,该动态手势的运动速度对应的更新设备调节速度,进而,对目标设备在目标维度参数上,以该更新调节速度向目标调节方向进行调节。
在对目标设备进行连续调节的过程中,用户可能会发现对目标设备的调节速度过快或过慢,基于本实施例,用户可以在对目标设备进行调节的过程中,根据调节效果需求发送调节速度更新语音指令来更新调节速度配置信息,从而实现对目标设备调节速度的实时更新,进一步提高了对目标设备的调节效率、调节效果和用户的操作体验。
另外,在本公开上述实施例中,还可以包括预设动态手势检测的步骤。
图6是本公开再一示例性实施例提供的设备控制方法的流程示意图。如图6所示,在其中一些实现方式中,可以通过如下方式进行预设动态手势的检测:
步骤302,确定发送语音控制指令的声源对象的位置。
例如,可以通过音区定位方式,确定发送语音控制指令的声源对象的位置。
步骤304,基于声源对象的位置,获取包括声源对象的手部的图像序列。
其中,该图像序列包括具有时序关系的多帧图像。
确定声源对象的位置后,便可以调用图像采集模块(例如摄像头等)针对该声源对象进行图像采集,并对采集到的图像进行手部检测和跟踪,得到包括该声源对象的手部的视频流,从该视频流中按照预设方式选取(例如连续选取或者隔帧选取等)具有时序关系的多帧图像,作为声源对象的手部的图像序列,或者,进一步从选取的多帧图像中分别截取出包含手部的、统一尺寸的图像,从而得到声源对象的手部的图像序列。
从选取的多帧图像中截取得到手部的图像序列的方式,相对于声源对象的图像序列,由于图像中包含的背景信息较少,干扰较小,可以提高手势检测结果的准确性。
在具体实现中,可以通过一个第一神经网络,例如卷积神经网络(convolutionalneural network,CNN),对采集到的图像进行手部检测和跟踪,得到包括该声源对象的手部的视频流。该第一神经网络可以预先利用包括手部的样本图像对神经网络模型进行训练得到。
步骤306,依次对图像序列中的各帧图像进行手部关键点检测,得到手部关键点序列。
其中,该手部关键点序列由各帧图像中的手部关键点基于时序关系形成。
在具体实现中,可以通过一个第二神经网络,例如CNN,对各帧图像进行手部关键点检测,得到手部关键点。该第二神经网络可以预先利用标注有手部关键点信息的样本图像对神经网络模型进行训练得到。
步骤308,基于手部关键点序列,进行预设动态手势检测。
在具体实现中,可以将手部关键点序列输入一个第三神经网络,例如CNN,经该第三神经网络输出是否预设动态手势的预设手势检测结果。该第三神经网络可以预先利用做出预设动态手势的样本视频进行训练得到。
基于本实施例,通过获取包括声源对象的手部的图像序列,基于视觉技术的方式实现了对预设动态手势的检测,以便在检测到预设动态手势时触发对目标设备的状态的调节。
相应地,在图6所示实施例的基础上,可以基于步骤306得到的手部关键点序列,来确定动态手势的运动方向。例如,可以根据手部关键点序列的轨迹对应的方向,来确定动态手势的运动方向。
基于本实施例,通过图像序列对应的手部关键点序列,基于视觉技术的方式实现了动态手势运动方向的确定。
另外,可以基于步骤304获取到的图像序列中最后一帧图像中的手部关键点和前一帧图像中的手部关键点、以及该最后一帧图像的采集时刻和该前一帧图像的采集时刻,获取动态手势的运动速度。其中的前一帧图像,可以是图像序列中位于该最后一帧图像之前的任意一帧图像,例如可以是该最后一帧图像相邻的前一帧图像,也可以是与该最后一帧图像间隔若干帧的图像,本公开实施例对此不做限制。
例如,可以根据图像序列中最后一帧图像中的手部关键点和前一帧图像中的手部关键点之间的距离,以及该最后一帧图像的采集时刻和该前一帧图像的采集时刻之间的时间,来计算得到动态手势的运动速度。其中,最后一帧图像中的手部关键点和前一帧图像中的手部关键点之间的距离,可以是最后一帧图像和前一帧图像中各对应手部关键点之间距离的平均值,也可以是最后一帧图像和前一帧图像中预设手部关键点(例如指尖关键点)之间的距离,等等,本公开实施例对此不做限制。
在具体实现中,可以将手部关键点序列输入上述第三神经网络,经该第三神经网络输出该手部关键点序列对应的动态手势的运动方向和运动幅度(例如转圈角度),然后基于该运动幅度和图像序列对应的时间,可以计算得到动态手势的运动速度。或者,也可以将携带有采集时刻信息并标注手部关键点的图像序列输入上述第三神经网络,经该第三神经网络输出该手部关键点序列对应的动态手势的运动方向和运动速度,等等。本公开实施例对此不做限制。
基于本实施例,通过图像序列中两帧图像对应的手部关键点和图像采集时刻,可以精确确定动态手势的运动速度。
图7是本公开还一示例性实施例提供的设备控制方法的流程示意图。如图7所示,在另一些实现方式中,也可以通过如下方式进行预设动态手势的检测:
步骤402,确定发送语音控制指令的声源对象的位置。
例如,可以通过音区定位方式,确定发送语音控制指令的声源对象的位置。
步骤404,基于声源对象的位置,利用光学飞行时间(Time ofFlight,ToF)传感器,测量声源对象的手部各点与ToF传感器之间的距离信息,得到一组距离信息。
确定声源对象的位置后,便可以利用ToF传感器测量该声源对象的手部各点与ToF传感器之间的距离,在各测量时刻得到的一组距离信息,包括该测量时刻声源对象的手部各点与ToF传感器之间的距离信息。
步骤406,基于具有时序关系的多组距离信息,得到距离信息序列。
步骤408,基于距离信息序列,进行预设动态手势检测。
可选地,在其中一些实现方式中,基于该距离信息序列,可以获知声源对象的手部各点与ToF传感器之间的距离随时间的变化,从而可以根据该距离变化情况是否符合预设动态手势对应的距离变化规律,确定声源对象的手部是否做出预设动态手势。
或者,在另一些实现方式中,可以基于距离信息序列中的各组距离信息分别进行三维(three dimensional,3D)建模得到相应的手部姿态,由距离信息序列对应的手部姿态可以确定声源对象的手部是否做出预设动态手势。
基于本实施例,通过ToF传感器实现了方式实现了对预设动态手势的检测,以便在检测到预设动态手势时触发对目标设备的状态的调节。
相应地,在图7所示实施例的基础上,可以基于步骤406得到的距离信息序列,确定动态手势的运动方向。例如,可以根据预设动态手势在不同运动方向对应的距离的变化规律,确定步骤406得到的距离信息序列对应的动态手势的运动方向。
基于本实施例,通过ToF传感器检测到与声源对象的手部各点之间的距离变化,实现了动态手势运动方向的确定。
另外,可以基于步骤406得到的距离信息序列中最后一组距离信息和前一组距离信息、以及该最后一组距离信息对应的测量时刻和该前一组距离信息对应的测量时刻,获取动态手势的运动速度。其中的前一组距离信息,可以是距离信息序列中位于该最后一组距离信息之前的任意一组距离信息,例如可以是该最后一组距离信息相邻的前一组距离信息,也可以是与该最后一组距离信息间隔若干组距离信息的一组距离信息,本公开实施例对此不做限制。
例如,可以根据距离信息序列中最后一组距离信息和前一组距离信息之间的距离变化,以及该最后一组距离信息对应的测量时刻和该前一组距离信息对应的测量时刻之间的时间,来计算得到动态手势的运动速度。其中,最后一组距离信息和前一组距离信息之间的距离变化,可以是最后一组距离信息和前一组距离信息中手部各对应点之间的距离变化的平均值,也可以是最后一组距离信息和前一组距离信息中预设手部点(例如指尖)之间的距离变化,等等,本公开实施例对此不做限制。
基于本实施例,通过距离信息序列中的两组距离信息和测量时刻,可以精确确定动态手势的运动速度。
图8是本公开又一示例性实施例提供的设备控制方法的流程示意图。如图8所示,在又一些实现方式中,还可以通过如下方式进行预设动态手势的检测:
步骤502,确定发送语音控制指令的声源对象的位置。
例如,可以通过音区定位方式,确定发送语音控制指令的声源对象的位置。
步骤504,基于声源对象的位置,利用穿戴设备,获取声源对象的手部各点的位置,得到手部位置信息。
其中的手部位置信息包括手部各点的位置信息。
本公开实施例中的穿戴设备,例如可以是智能手套、智能眼镜等智能设备,其中的智能手套可以直接定位任意时刻手部各点的位置,智能眼镜可以通过视觉方式获取手部各点的位置,本公开实施例对具体采用的穿戴设备及其获取声源对象的手部各点的位置的方式不做限制。
步骤506,基于手部位置信息确定手部的姿态。
步骤508,基于多个时刻的手部的姿态,确定手部的动作。
步骤510,确认手部的动作是否为预设动态手势的动作。
步骤512,响应于手部的动作为预设动态手势的动作,确认检测到预设动态手势。
否则,响应于手部的动作不为预设动态手势的动作,确认未检测到预设动态手势。
基于本实施例,利用穿戴设备可以直接获取声源对象的手部各点的位置,进而确定手部的姿态,基于多个时刻的手部的姿态确定手部的动作,从而可确认是否为预设动态手势,以便在检测到预设动态手势时触发对目标设备的状态的调节。
相应地,在图8所示实施例的基础上,可以基于步骤506确定的多个时刻手部的姿态,确定动态手势的运动方向。例如,可以根据基于多个时刻手部的姿态的变化,确定动态手势的运动方向。或者,也可以基于步骤508确定的手部的动作,直接确定动态手势的运动方向。
基于本实施例,通过穿戴设备获取手部位置信息,实现了动态手势运动方向的确定。
另外,可以基于步骤504得到的多个时刻中最后一个时刻和前一个时刻、以及该最后一个时刻的手部位置信息和该前一个时刻的手部位置信息,获取动态手势的运动速度。其中的时刻可以是穿戴设备获取声源对象的手部各点的位置的信息采集时刻,穿戴设备可以按照预设信息采集周期(例如0.01s)获取声源对象的手部各点的位置,则两个信息采集时刻之间的时间间隔为0.01s。其中的前一个时刻,可以是该最后一个时刻之前的一个时刻,也可以是位于该最后一个时刻之前、与该最后一个时刻间隔预设数量个时刻(例如2个)的一个时刻,本公开实施例对此不做限制。
例如,可以根据该最后一个时刻的手部位置信息和该前一个时刻的手部位置信息之间的变化,以及该最后一个时刻和该前一个时刻的测量时刻之间的时间,来计算得到动态手势的运动速度。其中,最后一个时刻的手部位置信息和前一个时刻的手部位置信息之间的变化,可以是最后一个时刻和前一个时刻的手部位置信息中手部各对应点之间的距离变化的平均值,也可以是最后一个时刻和前一个时刻的手部位置信息中预设手部点(例如指尖)之间的距离变化,等等,本公开实施例对此不做限制。
基于本实施例,利用穿戴设备获取的声源对象在不同时刻的手部位置信息,可以精确确定动态手势的运动速度。
如下所示,为本公开实施例的几个示例性应用场景:
场景一,调节车辆窗户(车窗):
用户发送语音控制指令“我要手势调节主驾车窗”,实现本公开实施例的装置在接收到用户发送的语音控制指令后,进行语音识别,基于得到的第一语音识别结果确定目标设备为主驾车窗,并接入主驾窗户的控制权限;用户顺时针画圈,主驾车窗连续上升。在主驾车窗连续下降的过程中,用户发送调节速度更新语音指令“太慢了,转三圈能升起整面窗户”,实现本公开实施例的装置据此确定用户的画圈动作对应的更新设备调节速度,进而,控制主驾车窗以该更新调节速度上升。用户继续画圈动作,直到主驾车窗调节到用户预期的高度。
场景二,调节车辆上的座椅的前后:
用户发送语音控制指令“我要向前调节主驾座椅,转一圈向前一厘米”,实现本公开实施例的装置在接收到用户发送的语音控制指令后,进行语音识别,基于得到的第一语音识别结果确定目标设备为主驾座椅、目标维度参数为前后、调节速度配置信息为“转一圈向前一厘米”,接入主驾座椅的控制权限;用户顺时针画圈,主驾座椅连续向前。用户继续画圈动作,直到主驾座椅调节到用户预期的位置。
场景三,基于手部形态信息调节车辆上的左后视镜:
用户发送语音控制指令“我要手势调节左后视镜”,实现本公开实施例的装置在接收到用户发送的语音控制指令后,进行语音识别,基于得到的第一语音识别结果确定目标设备为左后视镜,接入左后视镜的控制权限;用户右手逆时针画圈,左后视镜连续低头;用户顺势针画圈,左后视镜连续抬头;用户左手逆时针画圈,左后视镜连续向外;用户顺势针画圈,左后视镜连续向内。或者,用户右手伸出食指逆时针画圈,左后视镜连续低头;用户顺势针画圈,左后视镜连续抬头;用户右手同时伸出食指和中指逆时针画圈,左后视镜连续向外;用户顺势针画圈,左后视镜连续向内。具体的调节速度可以获取预先配置的调节速度配置信息确定,或者,也可以参考上述场景一和场景二,通过用户语音命令的方式配置调节速度配置信息。用户继续画圈动作,直到左后视镜调节到用户预期的方向。
场景四,调节空调的风量:
用户发送语音控制指令“我要手势调节空掉的风量”,实现本公开实施例的装置在接收到用户发送的语音控制指令后,进行语音识别,基于得到的第一语音识别结果确定目标设备为空调、目标维度参数为风量,并接入空调的控制权限;用户顺时针画圈,空调的风量加大;用户逆时针画圈,空调的风量减小,具体的调节速度可以获取预先配置的调节速度配置信息确定。在空调风量的调节过程中,用户发送调节速度更新语音指令更新空调风量的调节速度。用户继续画圈动作,直到空调的风量达到用户预期效果。
用户可以采用类似方式调节空调的温度、方向等,此处不再赘述。
本公开实施例提供的任一种设备控制方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端设备和服务器等。或者,本公开实施例提供的任一种设备控制方法可以由处理器执行,如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种设备控制方法。下文不再赘述。
示例性装置
本公开实施例的设备控制装置可用于实现本公开上述各实施例的设备控制方法。
图9是本公开一示例性实施例提供的设备控制装置的结构示意图。如图9所示,该实施例的设备控制装置包括:语音识别模块602,第一确定模块604,检测模块606和调节模块608。其中:
语音识别模块602,用于响应于接收到语音控制指令,对该语音控制指令进行语音识别,得到第一语音识别结果。
第一确定模块604,用于基于语音识别模块602得到的第一语音识别结果,确定所述语音控制指令对应的目标设备。
该语音控制指令对应的目标设备,即需要对其状态进行调节的设备。该目标设备可以是家电设备、车载设备、终端设备等任意设备,其中的车载设备即车辆上设备,例如可以包括但不限于车辆上的以下设备:左后视镜、右后视镜、车辆内部后视镜、各窗户、各空调、各座椅、音响、各灯等等。本公开实施例对目标设备的范围和车载设备的具体范围不做限制。
检测模块606,用于检测预设动态手势。
本公开实施例中的检测预设动态手势,例如可以包括但不限于画圈等。
调节模块608,用于响应于检测模块606检测到预设动态手势,基于该动态手势的持续动作对第一确定模块604确定的目标设备的状态进行连续调节。
基于本实施例,可以基于语音控制指令确定需要调节的目标设备,而无需手动选择目标设备,可以提高目标设备选取的效率和便利性,有效避免手动选择目标设备存在的不方便性问题;另外,基于动态手势的持续动作对该目标设备的状态进行连续调节,实现了对目标设备的连续性操作控制,使得对目标设备的状态的调节更灵活、精细、精确,从而提高了对目标设备的控制效果。
图10是本公开另一示例性实施例提供的设备控制装置的结构示意图。如图10所示,在图9所示实施例的基础上,该实施例的设备控制装置中,还可以包括:第二确定模块702,用于确定目标设备的待调节的目标维度参数。
相应地,调节模块608可以包括:第一确定单元6082,用于确定动态手势的运动方向;第二确定单元6084,用于基于动态手势的运动方向,确定目标设备在目标维度参数上的目标调节方向;调节单元6086,用于基于动态手势在运动方向上的持续动作,对目标设备在目标维度参数上,向目标调节方向进行连续调节。
可选地,在其中一些实现方式中,目标设备的状态基于一个维度参数确定。相应地,该实施例中,第二确定模块702,具体用于确定目标设备的一个维度参数为目标维度参数。
可选地,在另一些实现方式中,目标设备的状态基于多个维度参数确定。相应地,该实施例中,第二确定模块702,具体用于基于第一语音识别结果,确定目标维度参数。
可选地,在又一些实现方式中,目标设备的状态基于多个维度参数确定。相应地,该实施例中,语音识别模块602,还用于响应于接收到维度参数语音指令,对维度参数语音指令进行语音识别,得到第二语音识别结果。第二确定模块702,具体用于基于第二语音识别结果,确定目标维度参数。
可选地,在再一些实现方式中,目标设备的状态基于多个维度参数确定。相应地,再参见图10,该实施例的设备控制装置中,还可以包括:第一获取模块704,具体用于获取动态手势对应的手部形态信息,其中的手部形态信息,例如可以包括但不限于以下任意一项:手指伸出形式、手指数量、单双手信息等。其中,手指伸出形式例如可以是伸直、弯曲等;手指数量例如可以是一根、两根等;单双手信息例如可是左手、右手、或者双手等。相应地,第二确定模块702,具体用于基于第一获取模块704获取到的手部形态信息,确定目标维度参数。
再参见图10,在又一实施例的设备控制装置中,还可以包括:第二获取模块706和第三确定模块708。其中,第二获取模块706,用于在动态手势的持续动作期间,实时或者按照预设调节周期,获取动态手势的运动速度。第三确定模块708,用于基于动态手势的运动速度,确定目标设备在目标维度参数上的目标调节速度。相应地,该实施例中,调节单元6086,具体用于对目标设备在目标维度参数上,以目标调节速度向目标调节方向进行调节。
再参见图10,在又一实施例的设备控制装置中,还可以包括:第三获取模块710,用于获取目标设备在目标维度参数上的调节速度配置信息,调节速度配置信息用于表示在目标设备的各维度参数上,手势运动速度和设备调节速度之间的关系。相应地,该实施例中,第三确定模块708,具体用于基于调节速度配置信息,确定在目标维度参数上,动态手势的运动速度对应的设备调节速度为目标调节速度。
可选地,在其中一些实现方式中,第三获取模块710,具体用于从第一语音识别结果中获取目标设备在目标维度参数上的调节速度配置信息。
或者,在另一些实现方式中,第三获取模块710,具体用于从预先配置的调节速度配置信息中获取目标设备在目标维度参数上的调节速度配置信息。
或者,再参见图10,在又一些实现方式中,语音识别模块602,还可用于响应于接收到调节速度配置语音指令,对调节速度配置语音指令进行语音识别,得到第三语音识别结果。相应地,该实施例中,第三获取模块710,具体用于从第三语音识别结果中获取目标设备在目标维度参数上的调节速度配置信息;
再参见图10,在又一实施例的设备控制装置中,还可以包括:配置模块712,用于通过设置接口接收调节速度配置请求,调节速度配置请求包括设备标识、维度参数标识、手势运动幅度和设备调节幅度信息,设备标识用于唯一标识一个设备,维度参数标识用于唯一标识一个维度参数;基于手势运动幅度和设备调节幅度信息,确定手势运动速度和设备调节速度之间的关系;基于设备标识、维度参数标识、手势运动速度和设备调节速度之间的关系,配置设备标识所标识的设备在维度参数标识所标识的维度参数上的调节速度配置信息;或者,基于设备标识、维度参数标识、手势运动速度和设备调节速度之间的关系,更新预先配置的调节速度配置信息中设备标识和维度参数标识对应的调节速度配置信息。
可选地,在其中一些实现方式中,语音识别模块602,还用于在基于动态手势在运动方向上的持续动作,对目标设备在目标维度参数上,向目标调节方向进行连续调节的过程中,响应于接收到调节速度更新语音指令,对调节速度更新语音指令进行语音识别,得到第四语音识别结果。相应地,该实施例中,第三获取模块710,还用于从第四语音识别结果中获取调节速度更新配置信息,调节速度更新配置信息用于表示在目标设备的各维度参数上,更新后的手势运动速度和设备调节速度之间的关系。第二获取模块706,还用于在动态手势的后续持续动作期间,实时或者按照预设调节周期,获取动态手势的运动速度。第三确定模块708,还用于基于调节速度更新配置信息,确定在目标维度参数上,动态手势的运动速度对应的更新设备调节速度。调节单元6086,还用于对目标设备在目标维度参数上,以更新调节速度向目标调节方向进行调节。
再参见图10,在又一实施例的设备控制装置中,还可以包括:第四确定模块714,用于确定发送语音控制指令的声源对象的位置。
相应地,在其中一些实现方式中,检测模块606具体用于:基于声源对象的位置,获取包括声源对象的手部的图像序列,图像序列包括具有时序关系的多帧图像;依次对图像序列中的各帧图像进行手部关键点检测,得到手部关键点序列,手部关键点序列由各帧图像中的手部关键点基于时序关系形成;基于手部关键点序列,进行预设动态手势检测。
相应地,在该实施例中,第一确定单元6082,具体用于基于手部关键点序列,确定动态手势的运动方向。
相应地,在该实施例中,第二获取模块706,具体用于基于图像序列中最后一帧图像中的手部关键点和前一帧图像中的手部关键点、以及最后一帧图像的采集时刻和前一帧图像的采集时刻,获取动态手势的运动速度。
相应地,在另一些实现方式中,检测模块606具体用于:基于声源对象的位置,利用ToF传感器,测量声源对象的手部各点与ToF传感器之间的距离信息,得到一组距离信息;基于具有时序关系的多组距离信息,得到距离信息序列;基于距离信息序列,进行预设动态手势检测。
相应地,在该实施例中,第一确定单元6082,具体用于基于距离信息序列,确定动态手势的运动方向。
相应地,在该实施例中,第二获取模块706,具体用于基于距离信息序列中最后一组距离信息和前一组距离信息、以及最后一组距离信息对应的测量时刻和前一组距离信息对应的测量时刻,获取动态手势的运动速度。
相应地,在又一些实现方式中,检测模块606具体用于:基于声源对象的位置,利用穿戴设备,获取声源对象的手部各点的位置,得到手部位置信息,手部位置信息包括手部各点的位置信息;确定获取的手部位置信息确定手部的姿态;基于多个时刻手部的姿态,确定手部的动作;确认该手部的动作是否为预设动态手势的动作,响应于手部的动作是否为预设动态手势的动作,确认检测到预设动态手势。
相应地,在该实施例中,第一确定单元6082,具体用于基于所述多个时刻手部的姿态,确定动态手势的运动方向。
相应地,在该实施例中,第二获取模块706,具体用于基于所述多个时刻中最后一个时刻和前一个时刻、以及最后一个时刻的手部位置信息和前一个时刻的手部位置信息,获取动态手势的运动速度。
示例性电子设备
图11是本公开一示例性实施例提供的电子设备的结构示意图。下面,参考图11来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备,该单机设备可以与第一设备和第二设备进行通信,以从它们接收所采集到的输入信号。
如图11所示,电子设备包括一个或多个处理器802和存储器804。
处理器802可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器804可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器802可以运行所述程序指令,以实现上文所述的本公开的各个实施例的设备控制方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。
在一个示例中,电子设备还可以包括:输入装置806和输出装置808,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
例如,在该电子设备是第一设备100或第二设备200时,该输入装置806可以是上述的麦克风或麦克风阵列,用于捕捉声源的输入信号。在该电子设备是单机设备时,该输入装置806可以是通信网络连接器,用于从第一设备100和第二设备200接收所采集的输入信号。
此外,该输入设备806还可以包括例如键盘、鼠标等等。
该输出装置808可以向外部输出各种信息,包括确定出的距离信息、方向信息等。该输出设备808可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图11中仅示出了该电子设备中与本公开有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本公开的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的设备控制方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Java、C++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本公开的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的设备控制方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本公开的方法和装置。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
还需要指出的是,在本公开的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。
Claims (17)
1.一种设备控制方法,包括:
响应于接收到语音控制指令,对所述语音控制指令进行语音识别,得到第一语音识别结果;
基于所述第一语音识别结果,确定所述语音控制指令对应的目标设备;
响应于检测到预设动态手势,基于所述动态手势的持续动作对所述目标设备的状态进行连续调节。
2.根据权利要求1所述的方法,还包括:
确定所述目标设备的待调节的目标维度参数;
所述基于所述动态手势的持续动作对所述目标设备的状态进行连续调节,包括:
确定所述动态手势的运动方向;
基于所述动态手势的运动方向,确定所述目标设备在所述目标维度参数上的目标调节方向;
基于所述动态手势在所述运动方向上的持续动作,对所述目标设备在所述目标维度参数上,向所述目标调节方向进行连续调节。
3.根据权利要求2所述的方法,其中,所述目标设备的状态基于一个维度参数确定;
所述确定所述目标设备的待调节的目标维度参数,包括:
确定所述目标设备的所述一个维度参数为所述目标维度参数。
4.根据权利要求2所述的方法,其中,所述目标设备的状态基于多个维度参数确定;
所述确定所述目标设备的待调节的目标维度参数,包括:
基于所述第一语音识别结果,确定所述目标维度参数。
5.根据权利要求2所述的方法,其中,所述目标设备的状态基于多个维度参数确定;
所述确定所述目标设备的待调节的目标维度参数,包括:
响应于接收到维度参数语音指令,对所述维度参数语音指令进行语音识别,得到第二语音识别结果;
基于所述第二语音识别结果,确定所述目标维度参数。
6.根据权利要求2所述的方法,其中,所述目标设备的状态基于多个维度参数确定;
所述确定所述目标设备的待调节的目标维度参数,包括:
获取所述动态手势对应的手部形态信息,所述手部形态信息包括以下任意一项:手指伸出形式,手指数量,单双手信息;
基于所述手部形态信息,确定所述目标维度参数。
7.根据权利要求2-6任一所述的方法,其中,所述基于所述动态手势在所述运动方向上的持续动作,对所述目标设备在所述目标维度参数上,向所述目标调节方向进行连续调节,包括:
在所述动态手势的持续动作期间,实时或者按照预设调节周期,获取所述动态手势的运动速度;
基于所述动态手势的运动速度,确定所述目标设备在所述目标维度参数上的目标调节速度;
对所述目标设备在所述目标维度参数上,以所述目标调节速度向所述目标调节方向进行调节。
8.根据权利要求7所述的方法,还包括:
获取所述目标设备在所述目标维度参数上的调节速度配置信息,所述调节速度配置信息用于表示在所述目标设备的各维度参数上,手势运动速度和设备调节速度之间的关系;
所述基于所述动态手势的运动速度,确定所述目标设备在所述目标维度参数上的目标调节速度,包括:
基于所述调节速度配置信息,确定在所述目标维度参数上,所述动态手势的运动速度对应的设备调节速度为所述目标调节速度。
9.根据权利要求8所述的方法,其中,所述获取所述目标设备在所述目标维度参数上的调节速度配置信息,包括:
从所述第一语音识别结果中获取所述目标设备在所述目标维度参数上的调节速度配置信息;或者,
响应于接收到调节速度配置语音指令,对所述调节速度配置语音指令进行语音识别,得到第三语音识别结果;
从所述第三语音识别结果中获取所述目标设备在所述目标维度参数上的调节速度配置信息;或者,
从预先配置的调节速度配置信息中获取所述目标设备在所述目标维度参数上的调节速度配置信息。
10.根据权利要求9所述的方法,其中,预先配置所述调节速度配置信息,包括:
通过设置接口接收调节速度配置请求,所述调节速度配置请求包括设备标识、维度参数标识、手势运动幅度和设备调节幅度信息,所述设备标识用于唯一标识一个设备,所述维度参数标识用于唯一标识一个维度参数;
基于所述手势运动幅度和所述设备调节幅度信息,确定手势运动速度和设备调节速度之间的关系;
基于所述设备标识、所述维度参数标识、所述手势运动速度和设备调节速度之间的关系,配置所述设备标识所标识的设备在所述维度参数标识所标识的维度参数上的调节速度配置信息;或者,基于所述设备标识、所述维度参数标识、所述手势运动速度和设备调节速度之间的关系,更新预先配置的调节速度配置信息中所述设备标识和所述维度参数标识对应的调节速度配置信息。
11.根据权利要求7-10任一所述的方法,还包括:
在所述基于所述动态手势在所述运动方向上的持续动作,对所述目标设备在所述目标维度参数上,向所述目标调节方向进行连续调节的过程中,响应于接收到调节速度更新语音指令,对所述调节速度更新语音指令进行语音识别,得到第四语音识别结果;
从所述第四语音识别结果中获取调节速度更新配置信息,所述调节速度更新配置信息用于表示在所述目标设备的各维度参数上,更新后的手势运动速度和设备调节速度之间的关系;
在所述动态手势的后续持续动作期间,实时或者按照预设调节周期,获取所述动态手势的运动速度;
基于所述调节速度更新配置信息,确定在所述目标维度参数上,所述动态手势的运动速度对应的更新设备调节速度;
对所述目标设备在所述目标维度参数上,以所述更新调节速度向所述目标调节方向进行调节。
12.根据权利要求7-11任一所述的方法,还包括:
确定发送所述语音控制指令的声源对象的位置;
基于所述声源对象的位置,获取包括所述声源对象的手部的图像序列,所述图像序列包括具有时序关系的多帧图像;
依次对所述图像序列中的各帧图像进行手部关键点检测,得到手部关键点序列,所述手部关键点序列由所述各帧图像中的手部关键点基于所述时序关系形成;
基于所述手部关键点序列,进行预设动态手势检测。
13.根据权利要求12所述的方法,其中,所述确定所述动态手势的运动方向,包括:
基于所述手部关键点序列,确定所述动态手势的运动方向。
14.根据权利要求12或13所述的方法,其中,所述获取所述动态手势的运动速度,包括:
基于所述图像序列中最后一帧图像中的手部关键点和前一帧图像中的手部关键点、以及所述最后一帧图像的采集时刻和所述前一帧图像的采集时刻,获取所述动态手势的运动速度。
15.一种设备控制装置,包括:
语音识别模块,用于响应于接收到语音控制指令,对所述语音控制指令进行语音识别,得到第一语音识别结果;
确定模块,用于基于所述语音识别模块得到的所述第一语音识别结果,确定所述语音控制指令对应的目标设备;
检测模块,用于检测预设动态手势;
调节模块,用于响应于所述检测模块检测到所述预设动态手势,基于所述动态手势的持续动作对所述目标设备的状态进行连续调节。
16.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-14任一所述的设备控制方法。
17.一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-14任一所述的设备控制方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210242711.4A CN114613362A (zh) | 2022-03-11 | 2022-03-11 | 设备控制方法和装置、电子设备和介质 |
PCT/CN2023/074997 WO2023169123A1 (zh) | 2022-03-11 | 2023-02-08 | 设备控制方法和装置、电子设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210242711.4A CN114613362A (zh) | 2022-03-11 | 2022-03-11 | 设备控制方法和装置、电子设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114613362A true CN114613362A (zh) | 2022-06-10 |
Family
ID=81863083
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210242711.4A Pending CN114613362A (zh) | 2022-03-11 | 2022-03-11 | 设备控制方法和装置、电子设备和介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN114613362A (zh) |
WO (1) | WO2023169123A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023169123A1 (zh) * | 2022-03-11 | 2023-09-14 | 深圳地平线机器人科技有限公司 | 设备控制方法和装置、电子设备和介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316158B (zh) * | 2023-11-28 | 2024-04-12 | 科大讯飞股份有限公司 | 一种交互方法、装置、控制设备及存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200201442A1 (en) * | 2017-06-21 | 2020-06-25 | Mitsubishi Electric Corporation | Gesture operation device and gesture operation method |
CN109886070A (zh) * | 2018-12-24 | 2019-06-14 | 珠海格力电器股份有限公司 | 一种设备控制方法、装置、存储介质及设备 |
CN112545373B (zh) * | 2019-09-26 | 2022-08-05 | 珠海一微半导体股份有限公司 | 扫地机器人的控制方法、扫地机器人及介质 |
CN110936797B (zh) * | 2019-12-02 | 2021-08-27 | 恒大恒驰新能源汽车科技(广东)有限公司 | 一种汽车天窗控制方法及电子设备 |
CN112487958A (zh) * | 2020-11-27 | 2021-03-12 | 苏州思必驰信息科技有限公司 | 手势控制方法及系统 |
CN114613362A (zh) * | 2022-03-11 | 2022-06-10 | 深圳地平线机器人科技有限公司 | 设备控制方法和装置、电子设备和介质 |
-
2022
- 2022-03-11 CN CN202210242711.4A patent/CN114613362A/zh active Pending
-
2023
- 2023-02-08 WO PCT/CN2023/074997 patent/WO2023169123A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023169123A1 (zh) * | 2022-03-11 | 2023-09-14 | 深圳地平线机器人科技有限公司 | 设备控制方法和装置、电子设备和介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023169123A1 (zh) | 2023-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023169123A1 (zh) | 设备控制方法和装置、电子设备和介质 | |
CN104049721B (zh) | 信息处理方法及电子设备 | |
JP7487276B2 (ja) | 検出された口運動および/または注視に基づく自動化アシスタントの適応 | |
EP3656094B1 (en) | Controlling a device based on processing of image data that captures the device and/or an installation environment of the device | |
US20160350071A1 (en) | Multimodal input system | |
CN103970264B (zh) | 手势辨识与控制方法及其装置 | |
CN111128157B (zh) | 一种智能家电的免唤醒语音识别控制方法、计算机可读存储介质及空调 | |
EP3647914B1 (en) | Electronic apparatus and controlling method thereof | |
JP2022095768A (ja) | インテリジェントキャビン用の対話方法、装置、機器および媒体 | |
WO2020125038A1 (zh) | 语音控制方法及装置 | |
US20230078074A1 (en) | Methods and devices for hand-on-wheel gesture interaction for controls | |
WO2022262538A1 (zh) | 车辆控制方法、装置、电子设备及存储介质 | |
CN115291724A (zh) | 人机交互的方法、装置、存储介质和电子设备 | |
CN109448705A (zh) | 一种语音切分方法及装置、计算机装置和可读存储介质 | |
CN110737335A (zh) | 机器人的交互方法、装置、电子设备及存储介质 | |
WO2022262292A1 (zh) | 引导操作体进行隔空操作的方法和装置 | |
CN112835484B (zh) | 基于操作体的动态显示方法、装置、存储介质及电子设备 | |
CN113593572A (zh) | 在空间区域内进行音区定位方法和装置、设备和介质 | |
CN109688512B (zh) | 一种拾音方法及装置 | |
CN106486111B (zh) | 基于智能机器人的多tts引擎输出语速调节方法及系统 | |
CN114598963A (zh) | 语音处理的方法、装置、计算机可读存储介质及电子设备 | |
CN113448429A (zh) | 基于手势控制电子设备的方法及装置、存储介质和电子设备 | |
JP7152908B2 (ja) | 仕草制御装置及び仕草制御プログラム | |
CN113380242A (zh) | 一种语音控制多媒体播放内容的方法及系统 | |
CN117289803A (zh) | 一种家用厨房智能机器人及其控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |