CN115113727A - 设备控制方法、设备控制装置、电子设备及存储介质 - Google Patents
设备控制方法、设备控制装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115113727A CN115113727A CN202210045037.0A CN202210045037A CN115113727A CN 115113727 A CN115113727 A CN 115113727A CN 202210045037 A CN202210045037 A CN 202210045037A CN 115113727 A CN115113727 A CN 115113727A
- Authority
- CN
- China
- Prior art keywords
- target
- control
- controllable
- user
- target user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000004913 activation Effects 0.000 claims abstract description 36
- 238000004590 computer program Methods 0.000 claims description 21
- 230000006698 induction Effects 0.000 claims description 11
- 238000010187 selection method Methods 0.000 abstract description 5
- 230000003213 activating effect Effects 0.000 abstract 1
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 241000282326 Felis catus Species 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000002618 waking effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/167—Audio in a user interface, e.g. using voice commands for navigating, audio feedback
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
Abstract
本申请公开了一种设备控制方法、设备控制装置、电子设备及存储介质,该方法包括:捕捉车内目标用户的视线;基于视线确定目标用户对车内各个可控设备的控制意图;基于控制意图从各个可控设备中确定待控制的目标可控设备;将目标可控设备保持或者切换为免唤醒激活状态,处于免唤醒激活状态下的可控设备能够执行目标用户的语音指令。本申请通过目标用户的视线确定目标用户想要控制的可控设备,即目标可控设备,并在确定出目标可控设备之后,通过保持或者切换目标可控设备的状态至免唤醒激活状态下,以高效响应目标用户的语音指令。该方法能够基于用户的视线确定目标可控设备,简化可控设备的选择方法,提高设备控制的便捷性,从而提升用户体验。
Description
技术领域
本申请属于设备控制技术领域,尤其涉及一种设备控制方法、设备控制装置、电子设备及计算机可读存储介质。
背景技术
随着智能座舱技术的发展,车内人员可以通过语音控制的方法控制车舱内的终端设备执行指定的操作,该方法为用户带来极大的便利的同时,还能辅助安全驾驶。常见的设备控制方法是先通过预设的关键词唤醒终端设备,并在终端设备被唤醒后说出明确的控制操作以控制终端设备完成相应的操作。显然,现有技术中的对可控设备的控制方法过于繁琐,不够简化。
发明内容
本申请提供了一种设备控制方法、设备控制装置、电子设备及计算机可读存储介质,可以通过目标用户的视线确定目标可控设备,简化对可控设备的选择方法,提高设备控制的便捷性,从而提升用户体验。
第一方面,本申请提供了一种设备控制方法,包括:
捕捉车内目标用户的视线;
基于视线确定目标用户对各个可控设备的控制意图;
基于控制意图从各个可控设备中确定待控制的目标可控设备;
将目标可控设备保持或者切换为免唤醒激活状态,其中,处于免唤醒激活状态下的可控设备能够执行目标用户的语音指令。
第二方面,本申请提供了一种设备控制装置,包括:
捕捉模块,用于捕捉车内目标用户的视线;
第一确定模块,用于基于视线确定目标用户对各个可控设备的控制意图;
第二确定模块,用于基于控制意图从各个可控设备中确定待控制的目标可控设备;
第一控制模块,用于将目标可控设备保持或者切换为免唤醒激活状态,其中,处于免唤醒激活状态下的可控设备能够执行目标用户的语音指令。
第三方面,本申请提供了一种电子设备,上述电子设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面的方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面的方法的步骤。
第五方面,本申请提供了一种计算机程序产品,上述计算机程序产品包括计算机程序,上述计算机程序被一个或多个处理器执行时实现如上述第一方面的方法的步骤。
本申请与现有技术相比存在的有益效果是:通过捕捉目标用户的视线确定目标用户对车内各个可控设备的控制意图,然后根据控制意图确定出目标用户想要控制的可控设备,即确定出目标可控设备,通过将目标可控设备的状态维持或者切换至免唤醒激活状态,以高效响应目标用户的语音指令。该方法能够基于用户的视线确定目标可控设备,简化对可控设备的选择方法,提高设备控制的便捷性,从而提升用户体验。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种设备控制方法的流程示意图;
图2是本申请实施例提供的一种人脸关键点示意图;
图3是本申请实施例提供的视线估计模型的结构示意图;
图4是本申请实施例提供的车内控制区域的划分示意图;
图5是本申请实施例提供的一种应用场景中的设备控制方法的流程示意图;
图6是本申请实施例提供的设备控制装置的结构示意图;
图7是本申请实施例提供的电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请实施例提供的设备控制方法可以应用于搭载有控制器的智能汽车以及其它电子设备,例如手机、平板电脑、车载设备、增强现实(augmented reality,AR)/虚拟现实(virtual reality,VR)设备、笔记本电脑、超级移动个人计算机(ultra-mobile personalcomputer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等电子设备上,本申请实施例对电子设备的具体类型不作任何限制。
现有技术中,对特定的可控设备进行设备控制,要在通过预设的唤醒指令来唤醒该可控设备后,才能通过语音指令来控制该可控设备。例如目前市场上流行的智能音箱,其可以为用户播放音乐、阅读故事以及控制智能家具等。要控制该智能音响,首先需要通过预设的唤醒指令来唤醒该智能音箱。假定唤醒指令为该智能音箱的名称,那么则需要先呼叫该智能音响,在得到该智能音箱的回应后,才可以通过语音指令对该智能音响进行控制。仅作为示例,在控制天猫精灵的时候,需要先对天猫精灵说:“天猫精灵”,天猫精灵在接收到该唤醒指令后,会反馈信息“我在”,以提示用户该天猫精灵已被唤醒。这时候,用户可以对天猫精灵说其他指令来控制天猫精灵完成各指令所对应的操作。该控制过程,显然过于繁琐。在用户不方便通过语音唤醒可控设备时,降低用户体验感。与该控制方法相类似的,针对汽车内各个可控设备的控制也需要先唤醒对应可控设备,然后才能对该可控设备进行控制。也即对于车内各个可控设备的控制也存在过于繁琐的问题。针对该问题,本申请提出了一种设备控制方法,能够基于用户的视线确定目标可控设备,简化对可控设备的选择方法,提高设备控制的便捷性,从而提升用户体验。为了说明本申请所提出的技术方案,下面通过具体实施例来进行说明。
图1示出了本申请提供的设备控制方法的示意性流程图,作为示例而非限定,该方法可以应用于上述任意一种电子设备。
步骤110、捕捉车内目标用户的视线。
为了提高设备控制的便捷性,减少设备控制过程中用户与可控设备之间的交互,可以通过用户视线确定用户所想要控制的可控设备。也即,可以先捕捉目标用户的视线,以待后续基于该视线确定该目标用户所想要控制的可控设备。其中,目标用户可以为车内满足特定要求的人,例如为拥有对车内各个可控设备的控制权限的用户。
步骤120、基于视线确定目标用户对各个可控设备的控制意图。
为了提高设备控制方法的便捷性,可以预先设定不同的视线关注度,对应不同的强度的控制意图。也即,倾向于认为,当用户的视线停留在某个可控设备所述的区域内时,该用户对该可控设备的控制意图较为强烈。因此,可以基于目标用户的视线确定用户的控制意图,之后再根据控制意图的强弱进一步确定出目标用户所想要控制的可控设备。
步骤130、基于控制意图从各个可控设备中确定待控制的目标可控设备。
在确定出目标用户的控制意图后,即可根据该控制意图,从当前车内的各个可控设备中确定用户所想要控制的可控设备,也即确定出目标可控设备,以等待用户对其进行控制。仅作为示例,假定车内的可控设备包括雨刷、左右车窗、空调以及仪表盘,拥有对车内各个可控设备的控制权限的角色为司机。经过捕捉司机的视线,发现司机的视线落在空调上,则可以认为司机对空调有控制的想法,该想法可以理解为控制意图。相应地,与该控制意图所对应的可控设备即为目标可控设备。也就是说,在本示例中,基于司机的控制意图所确定出来的目标可控设备即为空调。
步骤140、将目标可控设备保持或者切换为免唤醒激活状态。
在目标可控设备确定出来之后,可以先获取目标可控设备的状态,以确定该目标可控设备是否处于免唤醒激活状态。如果目标可控设备已处于该免唤醒激活状态,则可以维持该目标可控设备当前的状态;如果目标可控设备未处于该免唤醒激活状态,则可以将该目标可控设备当前的状态切换为免唤醒激活状态。其中,处于免唤醒激活状态下的可控设备能够执行目标用户的语音指令。例如,可控设备a处于免唤醒激活状态,则可控设备a可以在监听到用户发出的语音指令后,立即响于应该语音指令,执行该语音指令所对应的操作。由上可知,通过将目标可控设备控制在免唤醒激活状态下,可使得该目标可控设备高效响应目标用户的语音指令,使得设备控制效率有所提高,从而提升用户的体验感。
本申请实施例通过捕捉目标用户的视线确定目标用户对车内各个可控设备的控制意图,然后根据控制意图确定出目标用户想要控制的可控设备,即确定出目标可控设备,通过将目标可控设备的状态维持或者切换至免唤醒激活状态,以高效响应目标用户的语音指令。该方法能够基于用户的视线确定目标可控设备,简化对可控设备的选择方法,提高设备控制的便捷性,从而提升用户体验。并且在该控制过程中,不仅简化了用户与可控设备之间的交互,而且使得可控设备能够更高效地响应用户的语音指令,显著提升了用户体验。
在一些实施例中,为了准确捕捉目标用户的视线,上述步骤110具体包括:
步骤111、获取车内用户的人脸图像。
车内可配备专门用于采集用户人脸图像的摄像头,例如驾驶员监控系统(DriverMonitor System,DMS)摄像头,或者车内人员监控系统(Occupant Monitoring System,OMS)摄像头等。在摄像头对车内用户的人脸图像完成采集后,即可获取对应的人脸图像。
步骤112、若识别人脸图像中的用户为目标用户,则在人脸图像中定位目标用户的眼部位置。
为了提高设备控制的可靠性,在得到人脸图像之后,可以对人脸图像进行识别,以判断当前人脸图像所对应的用户是否为目标用户,假定目标用户为对车内的各个可控设备有控制权限的用户,那么可以通过确定人脸图像中的用户否有对车内的各个可控设备进行控制的权限来确定该用户是否为目标用户。仅作为示例,可以提取人脸图像中的人脸特征,和预设的目标用户所对应人脸特征进行比较,计算两个人脸特征之间的相似度,并在计算出相似度之后,将相似度的值和预设的相似度阈值进行比较,以判断当前人脸图像中的用户是否为目标用户。假定计算得到的相似度为0.86,相似度阈值为0.85,那么可以确定该用户即为目标用户。
在确定人脸图像中所对应的用户为目标用户之后,可以进一步定位人脸图像中目标用户的眼部位置。要准确定位人脸图像中的眼部位置,可以先对人脸图像进行处理,即先标定出人脸图像中的人脸关键点,这些人脸关键点可以刻画出图像中人脸的轮廓,包括面部、眼部、鼻子以及嘴唇的轮廓。参见图2,标定的时候,每个人脸关键点有对应的标号,不同的轮廓可以由特定的几个标号所对应的人脸关键点进行标定。例如,对于眼部轮廓,可以利用36~47这几个标号所对应的关键点进行标定,其中36~41标定左眼,42~47标定右眼。因此,在提取出人脸关键点之后,可以根据特定标号的人脸关键点确定眼部在人脸图像中的位置。
步骤113、基于眼部位置所对应的眼部图像进行视线估计,以捕捉目标用户的视线。
在确定出人脸图像中的眼部位置之后,可以针对眼部位置所对应的眼部图像进行视线估计,从而捕捉目标用户的视线。具体地,可以采用深度学习来对眼部图像进行视线估计。该视线估计的模型结构可以参阅图3,眼部图像可以包括左眼图像和右眼图像。在眼部图像输入模型后,可以分别对两个图像进行特征提取,并通过多级特征处理分别输出目标用户的视线方向和控制区域的类别。其中,视线方向可以由偏航角、俯仰角以及滚动角来表示,控制区域的所有类别是通过预先对车内的区域划分得到的。仅作为示例,划分示意图可以如图4所示,该图中一个白色方框代表一个控制区域,每个控制区域可以用一个字母进行标识。因为一个控制区域对应一个可控设备,那么图4中各个字母与各个可控设备之间的对应关系也是一一对应的,具体对应关系为:A对应左车窗,B对应雨刷,C对应仪表盘,D对应车灯,E对应空调,F对应右车窗。可以将字母理解为控制区域的类别,也即控制区域的不同类别实际上代表了不同的控制区域。当某一个类别输出概率较高时,可以认为该类别所对应的控制区域为视线关注度最高的区域,可以认为该区域为确定目标用户的视线所落入的控制区域,也即后文提到的目标控制区域。
在本申请实施例中,是先通过人脸识别人脸图像中的用户是否为目标用户,并在确定人脸图像中的用户为目标用户之后,才基于该人脸图像进行视线估计,以捕捉目标用户的视线,基于该视线所确定的目标用户的控制意图,能够确保设备控制的可靠性。在基于人脸图像进行视线估计的过程中,是基于人脸关键点的提取,以准确定位目标用户的眼部图像,之后基于该眼部图像进行视线估计,能够提高视线捕捉的准确性,进而提高设备控制的准确性。
在一些实施例中,为了准确确定用户的控制意图,上述步骤120具体包括:
步骤121、基于视线确定目标控制区域,目标控制区域为预设的至少两个控制区域中视线所落入的控制区域,每个控制区域对应一个可控设备。
步骤122、基于目标控制区域确定目标用户对各个可控设备的控制意图。
经过对目标用户的视线进行估计,可以得到目标用户的视线方向以及该视线所对应的控制区域的类别。也即,可以基于视线从预设的至少两个控制区域中确定出视线所落入的控制区域,即目标控制区域。在确定出目标控制区域后,即可进一步确认用户所想要控制的可控设备;也就是说,可以确定出目标用户对各个可控设备的控制意图。
在本申请实施例中,在得到目标用户的视线后,基于该实现的方向可以确定目标用户的视线落入了哪个控制区域内,即确定出目标控制区域。通过目标控制区域所对应的可控设备,即可准确地确定目标用户的控制意图。
在一些实施例中,为了准确确定出目标控制区域,上述步骤121具体包括:
步骤1211、计算视线落入各个控制区域的概率值。
步骤1212、检测候选控制区域的数量。
步骤1213、基于候选控制区域的数量所对应的目标控制区域确定标准,确定目标控制区域。
在对控制区域进行分类的时候,可以先根据视线估计中的视线方向确定目标用户的视线落入每个控制区域的可能性,即视线落入各个控制区域的概率值。然后可基于概率值从各个控制区域中确定出候选控制区域,该候选控制区域指的是最大概率值所对应的控制区域。仅作为示例,假定共有5个控制区域,经过计算,视线落入这5个控制区域的概率值分别为85%、10%、4%、0.8%以及0.2%,那么可以将85%所对应的控制区域确定为候选控制区域,且此种情况下,所确定出的候选控制区域的数量为1。
但是,在确定候选控制区域的时候,有可能因为用户的视线恰好停留在多个控制区域之间,使得视线落入这多个控制区域的概率值相同。此时,如果该概率值是所有概率值中的最大值,那么可以将该多个控制区域均确定为候选控制区域,即候选控制区域的数量为多个,也即2个以上。
可选地,可以根据候选控制区域的数量采取不同的方法来确定目标控制区域,以提高目标控制区域确定的准确性。
在本申请实施例中,通过视线落入各个控制区域的概率值,先确定出最大概率值所对应的候选控制区域,也即确定出目标用户想要控制的可控设备所属的区域。其中,根据候选控制区域数量的不同,可以选择不同的目标候选控制区域确定标准,从而提高目标控制区域确定的准确性。
在一些实施例中,上述步骤1213具体包括:
A1、若候选控制区域的数量为1个,且候选控制区域的概率值大于候选控制区域所对应的预设概率阈值,则将候选控制区域确定为目标控制区域。
A2、若候选控制区域的数量为2个以上,则通过语音询问目标用户,以从候选控制区域中确定目标控制区域。
不同数量的候选控制区域,对应有不同的目标控制区域确定标准。具体地,可以分别为每个候选控制区域设置对应的预设概率阈值。当候选控制区域的数量为1时,电子设备可将该唯一的候选控制区域的概率值(也即最大的概率值)与该候选控制区域所对应的预设概率阈值进行比较。当候选控制区域的概率值大于该预设概率阈值时,就可将该候选控制区域确定为目标控制区域。当候选控制区域的数量为2个以上时,认为目标用户的当前视线不可信,此时可以通过语音询问的方式,根据用户的语音回答在这2个以上候选控制区域中准确确定目标控制区域,进而提高目标可控设备确定的准确性。
可选地,对于存在2个及以上候选控制区域的情况,除了直接通过语音询问目标用户的控制意向的方式来确定目标可控设备以外,还可以通过大量的相关数据预先对目标控制区域的选择模型进行训练,以使得选择模型无需通过语音询问直接基于目标用户的视线确定出目标可控设备,提升用户的体验感。
在本申请实施例中,通过区分候选控制区域的数量,选择改数量所对应的的目标可控设备确定标准来确定出目标可控设备,能够提高目标可控设备确定的准确性。并且为了进一步提升用户的体验感,针对候选控制区域数量为2个以上的情况,可以通过相关数据预先对选择模型进行训练,从而更高效准确地确定出目标可控设备。
在一些实施例中,为了进一步提高目标可控设备确定的准确性,在上述步骤140之后,还包括:
控制目标可控设备开启感应灯。
在实际应用的过程中,为了让目标用户能够知道当前自己的视线是否落入了想要控制的可控设备所属的控制区域内,可以为每个可控设备配置一个肉眼可见的感应灯,用于提示用户当前是哪个可控设备处于免唤醒激活状态,便于用户确认是否需要变更目标可控设备。具体地,可以在根据目标用户的视线确定出目标可控设备之后,控制该目标可控设备开启对应的感应灯。目标用户在观察到感应灯之后,可以判断该目标可控设备和自己真实想要控制的可控设备是否一致。如果一致,目标用户就可以通过语音指令控制该目标可控设备。
可以理解的是,除了可以通过感应灯进行信息反馈,还可以通过语音播报的方式来提示用户,当前处于免唤醒激活状态的可控设备是哪一个。仅作为示例,语音播报内容可以是“XX已激活”。
在本申请实施例中,通过感应灯或者语音播报的设置,能够让目标用户能够清楚地知道自己的视线是否准确落入想要控制的可控设备所属的区域内,便于目标用户及时五认定是否有必要根据提示信息(即点亮的感应灯或者语音播报)更换目标可控设备,提高设备控制方法的可靠性。对于所属控制区域有重叠的各个可控设备,通过该方法也能够避免目标可控设备确定出错,以提高目标可控设备确定的准确性。
在一些实施例中,若在目标可控设备所对应的感应灯开启后(或是已通过语音播报的方式告知用户当前所确定的目标可控设备后),未接收到目标用户针对该目标可控设备所发出的变更指令,则认为该目标控制设备确实为用户当前真正想要控制的可控设备。此时,由于目标可控设备已处于免唤醒激活状态,因而其可直接响应后续用户所可能发出的各项语音指令,此处不作赘述。也就是说,在未接收到目标用户对目标可控设备发出的变更指令时,可认为当前所确定的目标可控设备是准确的。
在本申请实施例中,可以直接通过确定是否接收到目标用户的更换指令来确定当前目标可控设备确定的准确性。即当接收到更换指令时,则说明当前目标可控设备并非是目标用户所想要控制的可控设备,因此可以根据该更换指令重新确定目标可控设备,以提高设备控制方法的可靠性。可以理解的是在更换目标可控设备之前,若当前的目标可控设备处于免唤醒激活状态,可先将当前的目标可控设备切换至未唤醒激活状态,从而避免当目标可控设备更换后,存在两个处于免唤醒激活状态的可控设备。当接收到语音指令时,有且仅有一个可控设备处于免唤醒激活状态,即目标可控设备,该目标可控设备便能够高效地响应该语音指令,从而提高设备控制的效率和准确性。
在一些实施例中,为了提高设备控制方法的准确性,如果目标可控设备和自己真实想要控制的可控设备不一致,目标用户可以通过变更指令更换目标可控设备。作为示例而非限定,由于左车窗所属的控制区域和左后视镜所属的控制区域之间存在重叠区域,当目标用户看向左边时,虽然目标用户本意是想要控制左车窗,但是可能通过捕捉目标用户的视线所确定出的目标可控设备为左后视镜,这就会导致此时目标可控设备和目标用户本意不一致。为了提高设备控制的准确性,在左后视镜的感应灯点亮后,目标用户可输出一针对目标可控设备的变更指令,通过该变更指令唤醒左车窗,从而实现目标可控设备的变更。在变更完成后,目标用户即可通过语音指令对左车窗实现高效控制。其中,该更换指令可以通过语音的形式输出,或者可以通过视线的形式输出,此处不作限定。
在本申请实施例中,当视线所落入的区域和目标用户的本意不一致时,目标用户可以通过调整视线或者语音指令更换目标可控设备,从而进一步提高目标可控设备确定的准确性。
在一些实施例中,为了提高设备控制的便捷性,目标用户可以使用更为简洁的语音指令对目标可控设备进行控制。例如,同样是控制左车窗的打开,现有技术需要先唤醒控制器,然后通过“打开左车窗”这样完整的语音指令对左车窗实现控制。但在本申请中,首先,鉴于目标可控设备已被设置为免唤醒激活状态,因此可以省略对左车窗的唤醒激活步骤;其次,针对已选定的目标可控设备,可以直接通过“打开”这样简短的语音指令对左车窗实现控制,也即无需在语音指令中指定其执行主体。当然,为了提升用户的体验感,目标用户也可以通过预先设置更符合自身说话习惯的语音指令对目标可控设备进行控制。
在本申请实施例中,通过语音指令的设置,能够让设备控制方法更贴近用户的实用习惯,更个性化。
在一些实施例中,为了避免目标用户因闲聊的过程中包含某个语音指令的关键词,导致目标可控设备执行了该语音指令所对应的操作,在上述步骤140之后,还包括:若接收到目标用户针对目标可控设备的解除指令,或者,在预设的时间段内未接收到目标用户的语音指令,可以将目标可控设备切换为未唤醒激活状态。其中,处于未唤醒激活状态下的可控设备不执行目标用户的语音指令。
当目标用户控制目标可控设备完成某一操作后,可以解除该目标可控设备的免唤醒激活状态,即此时不存在目标可控设备。例如,当目标用户的视线从目标可控设备转移至别处,此时可以理解为目标用户暂时没有对目标可控设备的控制意图,该目标可控设备即可被设置为未唤醒激活状态。其中,处于未唤醒激活状态下的可控设备不执行目标用户的语音指令。当目标用户想要再次控制某个可控设备时,电子设备可以通过捕捉该目标用户的视线确定新的目标可控设备。当然,除了通过转移视线的方式来解除目标可控设备的免唤醒激活状态,还可以直接通过语音指令的方式来解除目标可控设备的免唤醒激活状态。其中,解除的语音指令可以是“解除”或者“取消”等,具体内容在此不作限定。
或者,如果目标可控设备在预设时间段内未接收到目标用户所发出的任何语音指令,也可以将目标可控设备切换至未唤醒激活状态。通过上述对目标可控设备的状态切换,可以避免目标用户在闲聊的过程中因闲聊内容包含某个语音指令的关键词,导致目标可控设备执行了该语音指令所对应的操作,从而提高用户体验。
在本申请实施例中,通过目标可控设备的解除方法,能够将目标可控设备的状态切换至未唤醒激活状态,以避免目标用户在闲聊的过程中因闲聊内容包含某个语音指令的关键词,导致目标可控设备执行了该语音指令所对应的操作,提高了设备控制的可靠性。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
为便于理解,下面以实际应用场景来说明本申请提出的设备控制方法。
图5示出了一种设备控制方法的流程示意图,假定目标用户为司机,该设备控制方法包括:
501、获取用户的人脸图像。在基于视线确定司机想要控制的可控设备之前,可以先进行权限确认,以确保设备控制的可靠性,因此可以先获取用户的人脸图像。
502、提取人脸图像中的特征信息。在获取到人脸图像之后,为了能够快速确定人脸图像中的用户是否为司机,可以提取该人脸图像中的特征信息。
503、计算特征信息和预设特征信息之间的相似度。在计算出特征信息之后,可以将该特征信息和预先收集的司机的预设特征信息进行比较,计算两者之间的相似度。
504、判断相似度的值是否大于相似度阈值。在得到相似度之后,可以将该相似度与相似度阈值进行比较,以确定人脸图像中的用户是否为司机。
505、人脸图像中的用户为司机,提取人脸图像中的人脸关键点。判断相似度的值是否大于相似度阈值。当判断结果为相似度的值大于相似度阈值,可以确定当前人脸图像中的用户为司机,并执行后续步骤。为了实现对视线的捕捉,可以基于人脸图像中的眼部图像进行视线估计。要实现视线估计,需要先获取眼部图像,也即可以先提取人脸图像中的人脸关键点。
506、根据人脸关键点定位人脸图像中的眼部位置。对人脸图像进行关键点提取之后,可以得到与图2相似的图像,根据眼部图像中特定标号的人脸关键点,即可在人脸图像中确定出左眼位置和右眼位置。
507、基于眼部位置确定司机的眼部图像。根据左眼位置和右眼位置,可以从人脸图像中截取出左眼图像和右眼图像。
508、基于眼部图像确定视线方向。将左眼图像和右眼图像分别输入视线估计模型中,分别对两个图像进行特征提取,可以通过多级特征处理可以输出司机的视线方向。
509、基于视线方向确定视线落入每个控制区域的概率值。在确定出司机的视线方向之后,可以确定该视线落入每个控制区域的可能性,即视线落入每个控制区域的概率值。
510、基于概率值确定候选控制区域的数量N。在确定出每个候选控制区域的概率值之后,可以将最大概率值对应的控制区域确定为候选控制区域,并检测候选控制区域的数量。
511、判断N是否等于1。
511a1、如果N=1,则判断候选控制区域的概率值(也即该最大概率值)是否大于候选控制区域所对应的预设概率阈值。
511a2、将候选控制区域确定为目标控制区域。当确定候选控制区域的概率值大于该预设概率阈值时,可以将该候选控制区域确定为目标控制区域。
511b1、如果N不等于1,则确定N是否大于等于2。
511b2、如果N大于等于2,可以通过语音询问目标用户,以从N个候选控制区域中确定目标控制区域。
512、基于目标控制区域确定目标可控设备。鉴于每个控制区域仅对应有一个可控设备,因此可以直接将目标控制区域所对应的可控设备确定为目标可控设备。
513、判断目标可控设备是否处于免唤醒激活状态。在可控设备被确定为目标可控设备之后,可以将目标可控设备的状态保持或者切换至免唤醒激活状态,具体是保持还是切换,可根据目标可控设备当前的状态进行确定。可以理解的是,若目标可控设备已处于免唤醒激活状态,则只需控制该目标可控设备保持在该免唤醒激活状态。
514、将目标可控设备切换至免唤醒激活状态。若目标可控设备还未处于免唤醒激活状态,则需要控制该目标可控设备切换至该免唤醒激活状态。
514、控制目标可控设备监听语音指令。若目标设备处于免唤醒激活状态下,目标可控设备可对用户的语音进行监听,并在监听到语音指令后,立即执行该语音指令所对应的操作。
本申请实施例先通过检测用户对车内设备的控制权限,以确保设备控制方法的可靠性;然后通过捕捉有权限控制的用户的视线,确定出该用户所想要控制的可控设备,即目标可控设备;最后在确定出目标可控设备后,通过将目标可控设备保持或者切换为免唤醒激活状态,从而使得用户所想要控制的可控设备无需唤醒激活,即,可实现对目标可控设备的控制。该方法减少了用户与可控设备之间的交互,使得设备控制更加智能化。
对应于上文实施例所述的设备控制方法,图6示出了本申请实施例提供的设备控制装置6的结构框图,为了便于说明,仅示出了与本申请实施例相关的部分。
参照图6,该设备控制装置6包括:
捕捉模块601,用于捕捉车内目标用户的视线;
第一确定模块602,用于基于视线确定目标用户对各个可控设备的控制意图;
第二确定模块603,用于基于控制意图从各个可控设备中确定待控制的目标可控设备;
控制模块604,用于将目标可控设备保持或者切换为免唤醒激活状态,其中,处于免唤醒激活状态下的可控设备能够执行目标用户的语音指令。
可选地,上述捕捉模块601可以包括:
获取子模块,用于获取车内用户的人脸图像;
定位子模块,用于若识别人脸图像中的用户为目标用户,则在人脸图像中定位目标用户的眼部位置;
捕捉子模块,用于基于眼部位置所对应的眼部图像进行视线估计,以捕捉目标用户的视线。
可选地,上述第一确定模块602可以包括:
第一确定子模块,用于基于视线确定目标控制区域,目标控制区域为预设的至少两个控制区域中视线所落入的控制区域,每个控制区域对应一个可控设备;
第二确定子模块,用于基于目标控制区域确定目标用户对各个可控设备的控制意图。
可选地,上述第一确定子模块可以包括:
计算单元,用于计算视线落入各个控制区域的概率值;
检测单元,用于检测候选控制区域的数量,其中,候选控制区域为最大的概率值所对应的控制区域;
确定单元,用于基于候选控制区域的数量所对应的目标控制区域确定标准,确定目标控制区域。
可选地,上述确定单元可以包括:
第一确定子单元,用于若候选控制区域的数量为1个,且候选控制区域的概率值大于候选控制区域所对应的预设概率阈值,则将候选控制区域确定为目标控制区域;
第二确定子单元,用于若候选控制区域的数量为2个以上,则通过语音询问目标用户,以从候选控制区域中确定目标控制区域。
可选地,上述设备控制装置6还可以包括:
第二控制模块,用于在将目标可控设备保持或者切换为免唤醒激活状态之后,控制目标可控设备开启感应灯。
可选地,上述设备控制装置6还可以包括:
第三控制模块,用于若接收到目标用户针对目标可控设备的解除指令,或者,在预设的时间段内未接收到目标用户的语音指令,则将目标可控设备切换为未唤醒激活状态,其中,处于未唤醒激活状态下的可控设备不执行目标用户的语音指令。
需要说明的是,上述装置/单元之间的信息交互和执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
图7为本申请一实施例提供的电子设备的结构示意图。如图7所示,该实施例的电子设备7包括:至少一个处理器70(图7中仅示出一个)处理器、存储器71以及存储在存储器71中并可在至少一个处理器70上运行的计算机程序72,处理器70执行计算机程序72时实现上述任意设备控制方法实施例中的步骤,例如图1所示出的步骤110-140。
所称处理器70可以是中央处理单元(Central Processing Unit,CPU),该处理器70还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器71在一些实施例中可以是电子设备7的内部存储单元,例如电子设备7的硬盘或内存。存储器71在另一些实施例中也可以是电子设备7的外部存储设备,例如电子设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器71还可以既包括终端设备7的内部存储单元也包括外部存储设备。存储器71用于存储操作装置、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如计算机程序的程序代码等。存储器71还可以用于暂时地存储已经输出或者将要输出的数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/电子设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (10)
1.一种设备控制方法,其特征在于,所述设备控制方法包括:
捕捉车内目标用户的视线;
基于所述视线确定所述目标用户对各个所述可控设备的控制意图;
基于所述控制意图从各个所述可控设备中确定待控制的目标可控设备;
将所述目标可控设备保持或者切换为免唤醒激活状态,其中,处于所述免唤醒激活状态下的所述可控设备能够执行所述目标用户的语音指令。
2.如权利要求1所述的设备控制方法,其特征在于,所述捕捉车内目标用户的视线,包括:
获取车内用户的人脸图像;
若识别所述人脸图像中的用户为所述目标用户,则在所述人脸图像中定位所述目标用户的眼部位置;
基于所述眼部位置所对应的眼部图像进行视线估计,以捕捉所述目标用户的视线。
3.如权利要求1所述的设备控制方法,其特征在于,所述基于所述视线确定所述目标用户对各个所述可控设备的控制意图,包括:
基于所述视线确定目标控制区域,所述目标控制区域为预设的至少两个控制区域中所述视线所落入的控制区域,每个所述控制区域对应一个所述可控设备;
基于所述目标控制区域确定所述目标用户对各个所述可控设备的控制意图。
4.如权利要求3所述的设备控制方法,其特征在于,所述基于所述视线确定目标控制区域,包括:
计算所述视线落入各个所述控制区域的概率值;
检测候选控制区域的数量,其中,所述候选控制区域为最大的所述概率值所对应的控制区域;
基于所述候选控制区域的数量所对应的目标控制区域确定标准,确定所述目标控制区域。
5.如权利要求4所述的设备控制方法,其特征在于,所述基于所述候选控制区域的数量所对应的目标控制区域确定标准,确定所述目标控制区域,包括:
若所述候选控制区域的数量为1个,且所述候选控制区域的概率值大于所述候选控制区域所对应的预设概率阈值,则将所述候选控制区域确定为所述目标控制区域;
若所述候选控制区域的数量为2个以上,则通过语音询问所述目标用户,以从所述候选控制区域中确定所述目标控制区域。
6.如权利要求1-5任意一项所述的设备控制方法,其特征在于,在所述将所述目标可控设备保持或者切换为免唤醒激活状态之后,还包括:
控制所述目标可控设备开启感应灯。
7.如权利要求1-5任意一项所述的设备控制方法,其特征在于,在所述将所述目标可控设备保持或者切换为免唤醒激活状态之后,还包括:
若接收到所述目标用户针对所述目标可控设备的解除指令,或者,在预设的时间段内未接收到所述目标用户的语音指令,则将所述目标可控设备切换为未唤醒激活状态,其中,处于所述未唤醒激活状态下的可控设备不执行所述目标用户的语音指令。
8.一种设备控制装置,其特征在于,所述设备控制装置包括:
捕捉模块,用于捕捉车内目标用户的视线;
第一确定模块,用于基于所述视线确定所述目标用户对各个所述可控设备的控制意图;
第二确定模块,用于基于所述控制意图从各个所述可控设备中确定待控制的目标可控设备;
第一控制模块,用于将所述目标可控设备保持或者切换为免唤醒激活状态,其中,处于所述免唤醒激活状态下的所述可控设备能够执行所述目标用户的语音指令。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的设备控制方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的设备控制方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045037.0A CN115113727A (zh) | 2022-01-14 | 2022-01-14 | 设备控制方法、设备控制装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210045037.0A CN115113727A (zh) | 2022-01-14 | 2022-01-14 | 设备控制方法、设备控制装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115113727A true CN115113727A (zh) | 2022-09-27 |
Family
ID=83325050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210045037.0A Pending CN115113727A (zh) | 2022-01-14 | 2022-01-14 | 设备控制方法、设备控制装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115113727A (zh) |
-
2022
- 2022-01-14 CN CN202210045037.0A patent/CN115113727A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110047487B (zh) | 车载语音设备的唤醒方法、装置、车辆以及机器可读介质 | |
CN104816694B (zh) | 一种驾车状态智能调整装置和方法 | |
US10640123B2 (en) | Driver monitoring system | |
CN111653277A (zh) | 车辆语音控制方法、装置、设备、车辆及存储介质 | |
CN111145750A (zh) | 车载智能语音设备的控制方法及装置 | |
CN112540677A (zh) | 车载智能设备的控制方法、装置、系统和计算机可读介质 | |
CN115113727A (zh) | 设备控制方法、设备控制装置、电子设备及存储介质 | |
US20230161304A1 (en) | Method and system for interaction between vehicle and smart device | |
EP4029716A1 (en) | Vehicle interactive system and method, storage medium, and vehicle | |
CN107832726B (zh) | 使用者识别和确认装置及车用中央控制系统 | |
CN113561988A (zh) | 一种基于视线追踪的语音控制方法、汽车及可读存储介质 | |
CN114765027A (zh) | 用于车辆语音控制的控制设备、车载系统和方法 | |
US10446018B1 (en) | Controlled display of warning information | |
CN110365681A (zh) | 控制方法、控制装置、车载终端和车辆 | |
CN112259091B (zh) | 生成辅助操作语音的方法、车载终端及计算机存储介质 | |
CN115273843B (zh) | 场景自适应的车载语音交互系统及方法 | |
CN115116439A (zh) | 一种语音控制方法、装置、终端设备及存储介质 | |
CN117785091A (zh) | 信息显示方法、装置、车辆及计算机存储介质 | |
CN116080565A (zh) | 车载智能设备的控制方法、装置、车辆及存储介质 | |
CN114954224A (zh) | 车辆星空顶的多模式控制处理方法、车辆及可存储介质 | |
CN113534780A (zh) | 一种遥控泊车参数及功能定义方法、汽车及可读存储介质 | |
CN117153160A (zh) | 语音信息的识别方法、装置、电子设备及存储介质 | |
CN115366613A (zh) | 一种车内空调的调节方法、装置、终端设备及存储介质 | |
CN117275483A (zh) | 一种车载语音控制辅助方法、装置和汽车 | |
CN116705082A (zh) | 车载录音设备的控制方法、装置、车辆及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |