CN110727346B - 一种人机交互方法、装置、车辆及存储介质 - Google Patents

一种人机交互方法、装置、车辆及存储介质 Download PDF

Info

Publication number
CN110727346B
CN110727346B CN201910903943.8A CN201910903943A CN110727346B CN 110727346 B CN110727346 B CN 110727346B CN 201910903943 A CN201910903943 A CN 201910903943A CN 110727346 B CN110727346 B CN 110727346B
Authority
CN
China
Prior art keywords
instruction
information
command
target
intention
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910903943.8A
Other languages
English (en)
Other versions
CN110727346A (zh
Inventor
祁旭
王祎男
裴丽珊
曲白雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
FAW Group Corp
Original Assignee
FAW Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by FAW Group Corp filed Critical FAW Group Corp
Priority to CN201910903943.8A priority Critical patent/CN110727346B/zh
Publication of CN110727346A publication Critical patent/CN110727346A/zh
Application granted granted Critical
Publication of CN110727346B publication Critical patent/CN110727346B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本发明实施例公开了一种人机交互方法、装置、车辆及存储介质。该方法包括:解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合,采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种,根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认。与现有技术相比,本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标,无需多轮对话,提高了指令目标确定的准确性和快速性。

Description

一种人机交互方法、装置、车辆及存储介质
技术领域
本发明实施例涉及人机交互技术领域,尤其涉及一种人机交互方法、装置、车辆及存储介质。
背景技术
随着技术的发展,越来越多的车辆上增加了语音识别或手势识别等功能,通过语音或手势与车机系统交互,使车机系统明确驾驶员的指令目标,从而减少驾驶员的手动操作,避免驾驶员分心,增强驾驶安全。
这种交互方式目前只适用于简单的功能,例如打开多媒体,当需要实现复杂功能时,通常需要进行多轮对话,甚至需要配合手动操作,无法快速定位驾驶员的指令目标。
发明内容
本发明实施例提供一种人机交互方法、装置、车辆及存储介质,以在复杂应用场景中快速定位用户指令对应的目标。
第一方面,本发明实施例提供一种人机交互方法,包括:
解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合;
采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种;
根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认。
第二方面,本发明实施例还提供一种人机交互装置,该装置包括:
解析模块,用于解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合;
信息采集模块,用于采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种;
目标确定模块,用于根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认。
第三方面,本发明实施例还提供一种车辆,包括:
车机系统,用于与用户交互;
通信终端,用于与其他终端通信;
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的人机交互方法。
第四方面,本发明实施例还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的人机交互方法。
本发明实施例提供一种人机交互方法、装置、车辆及存储介质,通过解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合,然后采集用户的多模态信息,根据用户的多模态信息,确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比,本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标,无需多轮对话,提高了指令目标确定的准确性和快速性。
附图说明
图1为本发明实施例一提供的一种人机交互方法的流程图;
图2为本发明实施例二提供的一种人机交互方法的流程图;
图3为本发明实施例二提供的一种人机交互方法的实现过程示意图;
图4为本发明实施例三提供的一种人机交互装置的结构图;
图5为本发明实施例四提供的一种车辆的结构图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
图1为本发明实施例一提供的一种人机交互方法的流程图,本实施例可适用于人机交互的情况,该方法可以由人机交互装置来执行,该装置可以采用软件和/或硬件的方式实现,该装置可配置于车辆中。参考图1,该方法可以包括如下步骤:
S110、解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合。
语音指令是用户与车辆上的交互对象交互时发出的语音信号,车辆行驶过程中为了避免驾驶员分心,保证驾驶安全,实施例以语音指令为主,结合手势信息、肢体信息和/或面部信息等确定满足驾驶员需求的目标。可选的,与驾驶员进行交互的交互对象为车机系统。
指令意图是用户希望达到的目的,可选的,指令意图包括但不限于:导航、通话、多媒体和车身控制。指令意图可以通过对语音指令解析得到,例如语音指令为“去吃饭”,指令意图为用餐,表示用户想去用餐,再如语音指令为“打电话”,指令意图为通话,表示用户想要通话。指令目标是指令意图所对应的目标,例如指令意图为吃饭,指令目标可以是吃饭的地点,再如指令意图为通话,指令目标可以是通话的对象。同一指令意图对应的指令目标可能有多个,例如指令意图为通话时,通话的对象可以有多个,这多个通话对象作为多个指令目标形成指令目标集合。
需要说明的是,车机系统所捕获到的语音指令中可能只包含指令意图,也可能既包含指令意图也包含指令目标。为了快速、准确的定位用户的需求目标,需要明确指令意图和指令意图对应的指令目标,可选的,车机系统在捕获到语音指令后,对语音指令进行解析,先明确用户的指令意图,当语音指令中包含指令目标时,通过解析语音指令可以确定指令意图对应的指令目标,当语音指令中不包含指令目标时,可以根据指令意图初步选定至少一个指令目标。例如语音指令为“打开导航去A地”,车机系统通过对捕获到的语音指令解析,得到指令意图为导航,指令目标为A地。再如语音指令为“去吃饭”,车机系统通过解析可以得到指令意图为吃饭,并确定指令意图对应的指令目标位于车外,此时可以结合车辆当前的位置信息、前视摄像头以及高精地图等信息初步选定几个可以吃饭的地点,地点的数量可以根据实际情况确定,实施例不进行限定,由此可以得到可供选择的地点集合。
可以理解的是,车辆行驶过程中,车内的用户可能在聊天,车机系统可以一直捕获用户的语音信号,为了提高捕获信号的有效性,可以预先设置唤醒信号,当捕获到唤醒信号时,车机系统的解析功能被唤醒,可以对后续捕获到的语音指令进行解析,定位指令目标。唤醒信号可以根据车型设置,例如车型为红旗,唤醒信号可以是“你好,红旗”、或“你好,旗宝”等。
S120、采集用户的多模态信息。
其中,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种。可以理解的是,语音指令在一定程度上虽然可以满足用户的需求,但当用户发出复杂的语音指令或仅包含指令意图的语音指令时,通常需要用户与车机系统进行多轮对话,容易造成驾驶员的分心,影响驾驶安全。为此,实施例在解析语音指令的基础上,进一步结合手势信息、肢体信息和面部信息中的一种或多种进一步锁定指令目标,既节省了时间,又提高了准确度。其中,面部信息可以包括眼球的视线方向和面部表情。车机系统可以对手势信息、肢体信息和面部信息进行识别,根据识别结果,结合之前确定的指令目标集合即可锁定最终的指令目标。示例性的,捕获到的语音指令为“通话”,车机系统通过解析调出通话名单,展示给用户,用户通过手势指向其中的一个名字,而且视线指向手势所指的名字,车机系统通过对手势信息和眼球的视线方向可以锁定用户通话的对象。
S130、根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认。
多模态信息用于辅助确定指令目标,减少用户与车机系统对话的次数,提高指令目标的准确度。车机系统在解析语音指令的同时可以捕获用户的手势信息、肢体信息以及面部信息等,在初步确定指令意图对应的指令目标集合后,结合手势信息、肢体信息和/或面部信息的识别结果,进一步锁定指令目标,并将锁定的指令目标反馈给用户由用户进行确认。
本发明实施例一提供一种人机交互方法,通过解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合,然后采集用户的多模态信息,根据用户的多模态信息,确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比,本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标,无需多轮对话,提高了指令目标确定的准确性和快速性。
实施例二
图2为本发明实施例二提供的一种人机交互方法的流程图,本实施例是在上述实施例的基础上进行优化,参考图2,该方法可以包括如下步骤:
S210、捕获唤醒信号,唤醒与用户交互的交互对象。
为了提高所捕获信号的有效性,可以预先设置唤醒信号,当捕捉到唤醒信号时,对所捕获到的语音指令进行解析,否则,不进行任何处理,避免了无效信号的处理,节省了资源。可选的,唤醒信号为“你好,xx”,“xx”可以是车辆的车型,交互对象为车机系统,需要说明的是,实施例所述的唤醒交互对象,既可以是唤醒交互对象,使交互对象由待机状态进入工作状态,也可以是唤醒交互对象的某项功能。
S220、解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合。
可选的,可以通过如下方式确定语音指令中指令意图对应的指令目标集合:
捕捉用户的语音指令;
对所述语音指令中的关键词进行语义解析,得到所述语音指令对应的指令意图;
根据所述指令意图,确定对应的指令目标集合,所述指令目标集合中包含至少一个符合所述指令意图的指令目标。
可选的,车机系统的解析功能被唤醒后,对所捕捉到的语音指令中的关键词进行语义解析,得到语音指令对应的指令意图,如果语音指令中包含指令目标,解析后还可以得到对应的指令目标,供后续用户确认,如果语音指令中不包含指令目标,可以根据指令意图初步确定候选的指令目标。以语音指令中不包含指令目标为例,根据指令意图初步确定指令目标位于车内还是车外,例如语音指令为“听歌”,可以确定指令目标为车内目标,再如语音指令为“学校”,可以确定指令目标为车外目标。可选的,当指令目标为车内目标时,可以根据指令意图和用户的触摸或按键等信息确定车内符合指令意图的指令目标集合,缩小指令目标的范围。当指令目标为车外目标时,可以根据车辆中的前视摄像头、高精地图和/或V2X模块等缩小车外指令目标的范围,提高指令目标确定的准确度。其中,前视摄像头可以获取车辆前方的图像,V2X模块可以获取云端信息,为指令目标的确定提供依据。可选的,为了提高指令目标确定的准确度,车机系统在捕捉到语音指令后,可以对语音指令进行预处理,消除语音指令中的噪声。
S230、采集用户的多模态信息。
S240、识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情。
车机系统可以对捕获到的手势信息、肢体信息和面部信息进行识别,确定对应的手势动作、肢体动作、眼球的视线以及面部表情,根据手势动作、肢体动作、眼球的视线和/或面部表情辅助确定指令目标的方向、位置等信息,完成对指令目标的校验或从指令目标集合中锁定最终的指令目标。实施例对手势信息、肢体信息和面部信息的识别过程不进行限定。
S250、根据所述手势动作、肢体动作、眼球的视线和/或面部表情,确定所述指令目标集合中与所述多模态信息匹配的指令目标。
本实施例以语音指令为主,结合手势动作、肢体动作、眼球的视线以及面部表情等模态信息提高了指令目标确定的快速性和准确性,减少了与车机系统的交互次数,保障了驾驶安全。
S260、接收所述用户对所述指令目标的确认信息。
车机系统在锁定最终的指令目标后可以反馈给用户,由用户进行确认,可选的,可以通过对话框的形式展示在车内的显示屏上,若用户选择“是”,表示最终的指令目标符合用户的需求,可以响应所确定的指令目标,例如导航到达目的地A,若用户选择“否”,表示最终锁定的指令目标不符合用户的需求,可以进一步捕获用户的手势信息、肢体信息和/或面部信息,重新锁定指令目标,直至收到用户的确认信息。
S270、响应所述指令目标。
示例性的,参考图3,图3为本发明实施例二提供的一种人机交互方法的实现过程示意图。首先通过语音指令触发,车机系统解析捕获的语音指令,确定指令意图,指令意图包括导航、通话、多媒体和车身控制等,除此之外,还可以根据解析结果初步确定指令目标位于车内还是车外,如果位于车内,可以结合用户的触摸或硬按键等信息确定车内目标集合,如果标位于车外,可以结合前视摄像头、高精地图以及V2X模块等确定车外目标集合,车内目标集合和车外目标集合统称指令目标集合,与此同时,还可以采集用户的多模态信息,如手势信息、肢体信息和面部信息等,其中,面部信息包括眼球的视线和面部表情,通过识别用户的多模态信息,锁定最终的指令目标,并反馈给用户确认。
本发明实施例二提供一种人机交互方法,在上述实施例的基础上,以语音指令为主,结合用户的多模态信息,在复杂的应用场景下可以快速、准确的定位出满足用户需求的目标,避免了与车机系统的多次交互,保证了驾驶安全。
实施例三
图4为本发明实施例三提供的一种人机交互装置的结构图,该装置可以执行上述实施例所述的人机交互方法,参考图4,该装置可以包括:
解析模块310,用于解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合;
信息采集模块320,用于采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种;
目标确定模块330,用于根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认。
本发明实施例三提供一种人机交互装置,通过解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合,然后采集用户的多模态信息,根据用户的多模态信息,确定指令目标集合中与多模态信息匹配的指令目标。与现有技术相比,本方案在语音指令的基础上结合用户的多模态信息锁定最终的指令目标,无需多轮对话,提高了指令目标确定的准确性和快速性。
在上述实施例的基础上,解析模块310,具体用于:
捕捉用户的语音指令;
对所述语音指令中的关键词进行语义解析,得到所述语音指令对应的指令意图;
根据所述指令意图,确定对应的指令目标集合,所述指令目标集合中包含至少一个符合所述指令意图的指令目标。
在上述实施例的基础上,目标确定模块330,具体用于:
识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情;
根据所述手势动作、肢体动作、眼球的视线和/或面部表情,确定所述指令目标集合中与所述多模态信息匹配的指令目标。
在上述实施例的基础上,该装置还包括:
唤醒模块,用于在解析所捕捉的语音指令之前,捕获唤醒信号,唤醒与用户交互的交互对象。
在上述实施例的基础上,该装置还包括:
确认信息接收模块,用于在反馈给所述用户确认之后,接收所述用户对所述指令目标的确认信息;
响应模块,用于响应所述指令目标。
本发明实施例三提供的人机交互装置可执行本发明上述实施例所提供的人机交互方法,具备执行方法相应的功能模块和有益效果。
实施例四
图5为本发明实施例四提供的一种车辆的结构图,参考图5,该车辆包括:处理器410、存储器420、车机系统430、通信终端440、输入装置450和输出装置460,其中,车机系统430,用于与用户交互,通信终端440,用于与其他终端通信,以辅助确定指令目标,其他终端可以是手机或其他车辆上的通信终端等。图5中的处理器410、存储器420、车机系统430、通信终端440、输入装置450和输出装置460可以通过总线或其他方式连接,图5中以通过总线连接为例。
存储器420作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中人机交互方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块,从而执行车辆的各种功能应用以及数据处理,即实现上述实施例的人机交互方法。
存储器420主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器420可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器420可进一步包括相对于处理器410远程设置的存储器,这些远程存储器可以通过网络连接至车辆。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置450可用于接收输入的数字或字符信息,以及产生与车辆的用户设置以及功能控制有关的键信号输入。输出装置460可包括显示屏等显示设备、扬声器以及蜂鸣器等音频设备。
本发明实施例四提供的车辆与上述实施例提供的人机交互方法属于同一发明构思,未在本实施例中详尽描述的技术细节可参见上述实施例,并且本实施例具备执行人机交互方法相同的有益效果。
实施例五
本发明实施例五还提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明上述实施例所述的人机交互方法。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的人机交互方法中的操作,还可以执行本发明任意实施例所提供的人机交互方法中的相关操作,且具备相应的功能和有益效果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的人机交互方法。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (9)

1.一种人机交互方法,其特征在于,包括:
解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合;
采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种;
根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认;
对所捕捉到的语音指令中的关键词进行语义解析,得到语音指令对应的指令意图,若语音指令中包含指令目标,解析后得到对应的指令目标,若语音指令中不包含指令目标,根据指令意图初步确定候选的指令目标,包括根据指令意图初步确定指令目标位于车内还是车外;
根据所述指令意图,确定对应的指令目标集合,所述指令目标集合中包含至少一个符合所述指令意图的指令目标;
所述指令目标集合包含车内目标集合和车外目标集合,其中,车内目标集合基于结合用户的触摸或硬按键信息确定;车外目标集合基于前视摄像头、高精地图以及V2X模块确定。
2.根据权利要求1所述的方法,其特征在于,所述根据所述多模态信息,确定所述指令目标集中与所述多模态信息匹配的指令目标,包括:
识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情;
根据所述手势动作、肢体动作、眼球的视线和/或面部表情,确定所述指令目标集合中与所述多模态信息匹配的指令目标。
3.根据权利要求1-2任一项所述的方法,其特征在于,在解析所捕捉的语音指令之前,还包括:
捕获唤醒信号,唤醒与用户交互的交互对象。
4.根据权利要求3所述的方法,其特征在于,在反馈给所述用户确认之后,还包括:
接收所述用户对所述指令目标的确认信息;
响应所述指令目标。
5.一种人机交互装置,其特征在于,包括:
解析模块,用于解析所捕捉的语音指令,得到所述语音指令中指令意图对应的指令目标集合;
信息采集模块,用于采集用户的多模态信息,所述多模态信息包括手势信息、肢体信息和面部信息中的至少一种;
目标确定模块,用于根据所述多模态信息,确定所述指令目标集合中与所述多模态信息匹配的指令目标,并反馈给所述用户确认;
对所捕捉到的语音指令中的关键词进行语义解析,得到语音指令对应的指令意图,若语音指令中包含指令目标,解析后得到对应的指令目标,若语音指令中不包含指令目标,根据指令意图初步确定候选的指令目标,包括根据指令意图初步确定指令目标位于车内还是车外;
根据所述指令意图,确定对应的指令目标集合,所述指令目标集合中包含至少一个符合所述指令意图的指令目标;
所述指令目标集合包含车内目标集合和车外目标集合,其中,车内目标集合基于结合用户的触摸或硬按键信息确定;车外目标集合基于前视摄像头、高精地图以及V2X模块确定。
6.根据权利要求5所述的装置,其特征在于,所述解析模块,具体用于:
捕捉用户的语音指令;
对所述语音指令中的关键词进行语义解析,得到所述语音指令对应的指令意图;
根据所述指令意图,确定对应的指令目标集合,所述指令目标集合中包含至少一个符合所述指令意图的指令目标。
7.根据权利要求5所述的装置,其特征在于,所述目标确定模块,具体用于:
识别所述手势信息对应的手势动作、肢体信息对应的肢体动作以及面部信息中眼球的视线和面部表情;
根据所述手势动作、肢体动作、眼球的视线和/或面部表情,确定所述指令目标集合中与所述多模态信息匹配的指令目标。
8.一种车辆,其特征在于,包括:
车机系统,用于与用户交互;
通信终端,用于与其他终端通信;
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-4中任一项所述的人机交互方法。
9.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一项所述的人机交互方法。
CN201910903943.8A 2019-09-24 2019-09-24 一种人机交互方法、装置、车辆及存储介质 Active CN110727346B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910903943.8A CN110727346B (zh) 2019-09-24 2019-09-24 一种人机交互方法、装置、车辆及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910903943.8A CN110727346B (zh) 2019-09-24 2019-09-24 一种人机交互方法、装置、车辆及存储介质

Publications (2)

Publication Number Publication Date
CN110727346A CN110727346A (zh) 2020-01-24
CN110727346B true CN110727346B (zh) 2022-09-23

Family

ID=69218327

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910903943.8A Active CN110727346B (zh) 2019-09-24 2019-09-24 一种人机交互方法、装置、车辆及存储介质

Country Status (1)

Country Link
CN (1) CN110727346B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507402A (zh) * 2020-04-17 2020-08-07 北京声智科技有限公司 一种确定响应方式的方法、装置、介质和设备
CN111696548A (zh) * 2020-05-13 2020-09-22 深圳追一科技有限公司 显示行车提示信息的方法、装置、电子设备以及存储介质
CN111881691A (zh) * 2020-06-15 2020-11-03 惠州市德赛西威汽车电子股份有限公司 一种利用手势增强车载语义解析的系统及方法
CN111966212A (zh) * 2020-06-29 2020-11-20 百度在线网络技术(北京)有限公司 基于多模态的交互方法、装置、存储介质及智能屏设备
CN111966320B (zh) * 2020-08-05 2022-02-01 湖北亿咖通科技有限公司 用于车辆的多模态交互方法、存储介质以及电子设备
CN112506125B (zh) * 2020-11-19 2024-07-09 北京海云捷迅科技股份有限公司 一种多模态控制方法、装置和系统
CN112363626B (zh) * 2020-11-25 2021-10-01 广东魅视科技股份有限公司 基于人体姿态和手势姿态视觉识别的大屏幕交互控制方法
CN112464830A (zh) * 2020-12-01 2021-03-09 恒大新能源汽车投资控股集团有限公司 驾驶员分心检测方法和装置
CN112908328B (zh) * 2021-02-02 2023-07-07 安通恩创信息技术(北京)有限公司 设备操控方法、系统、计算机设备及存储介质
CN113591659B (zh) * 2021-07-23 2023-05-30 重庆长安汽车股份有限公司 一种基于多模态输入的手势操控意图识别方法及系统
CN113723528B (zh) * 2021-09-01 2023-12-29 斑马网络技术有限公司 车载语视融合多模态交互方法及系统、设备、存储介质
CN114043987B (zh) * 2021-10-13 2024-07-09 北京集度科技有限公司 指令处理方法、装置、终端和存储介质
CN114312818A (zh) * 2022-01-29 2022-04-12 中国第一汽车股份有限公司 一种车辆控制方法、装置、车辆及介质
CN114800432B (zh) * 2022-03-08 2024-02-06 广州美术学院 一种办公室交互系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327894A (zh) * 2016-07-24 2017-01-11 宋晓伟 汽车间交流及车载广告综合系统
CN107972626A (zh) * 2017-12-05 2018-05-01 刘祉锖 一种无人汽车作为智能终端的语音和摄像视频验证系统
CN109409301A (zh) * 2018-10-30 2019-03-01 奇瑞汽车股份有限公司 交通信号灯的信息获取方法、装置及存储介质

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012013503B4 (de) * 2012-07-06 2014-10-09 Audi Ag Verfahren und Steuerungssystem zum Betreiben eines Kraftwagens
CN204129661U (zh) * 2014-10-31 2015-01-28 柏建华 可穿戴装置及具有该可穿戴装置的语音控制系统
US10166995B2 (en) * 2016-01-08 2019-01-01 Ford Global Technologies, Llc System and method for feature activation via gesture recognition and voice command
CN107126224B (zh) * 2017-06-20 2018-02-06 中南大学 一种基于Kinect的轨道列车驾驶员状态的实时监测预警方法与系统
CN109814448A (zh) * 2019-01-16 2019-05-28 北京七鑫易维信息技术有限公司 一种车载多模态控制方法及系统
CN109933272A (zh) * 2019-01-31 2019-06-25 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态深度融合机载座舱人机交互方法
CN109976515B (zh) * 2019-03-11 2023-07-07 阿波罗智联(北京)科技有限公司 一种信息处理方法、装置、车辆及计算机可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106327894A (zh) * 2016-07-24 2017-01-11 宋晓伟 汽车间交流及车载广告综合系统
CN107972626A (zh) * 2017-12-05 2018-05-01 刘祉锖 一种无人汽车作为智能终端的语音和摄像视频验证系统
CN109409301A (zh) * 2018-10-30 2019-03-01 奇瑞汽车股份有限公司 交通信号灯的信息获取方法、装置及存储介质

Also Published As

Publication number Publication date
CN110727346A (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN110727346B (zh) 一种人机交互方法、装置、车辆及存储介质
US10867607B2 (en) Voice dialog device and voice dialog method
CN109309751B (zh) 语音记录方法、电子设备及存储介质
US11257497B2 (en) Voice wake-up processing method, apparatus and storage medium
CN112492442A (zh) 一种蓝牙耳机的连接切换方法、装置、设备及存储介质
EP2933607A1 (en) Navigation system having language category self-adaptive function and method of controlling the system
CN111737670B (zh) 多模态数据协同人机交互的方法、系统及车载多媒体装置
EP4184506A1 (en) Audio processing
US11817082B2 (en) Electronic device for performing voice recognition using microphones selected on basis of operation state, and operation method of same
CN111884908B (zh) 联系人标识显示方法、装置及电子设备
CN111696553B (zh) 一种语音处理方法、装置及可读介质
CN112309395A (zh) 人机对话方法、装置、机器人、计算机设备和存储介质
WO2023231211A1 (zh) 语音识别方法、装置、电子设备、存储介质及产品
CN112185388B (zh) 语音识别方法、装置、设备及计算机可读存储介质
CN111833870A (zh) 车载语音系统的唤醒方法、装置、车辆和介质
CN117789710A (zh) 车辆的语音交互方法、装置、设备及车辆
CN110889953A (zh) 一种事件提醒方法、装置、车辆及存储介质
CN109725798B (zh) 智能角色的切换方法及相关装置
CN117198281A (zh) 语音交互方法、装置、电子设备及车辆
CN113838477B (zh) 音频数据包的丢包恢复方法、装置、电子设备及存储介质
CN115412634A (zh) 消息显示方法和装置
CN112863511B (zh) 信号处理方法、装置以及存储介质
CN116204253A (zh) 一种语音助手显示方法及相关装置
CN113448429B (zh) 基于手势控制电子设备的方法及装置、存储介质和电子设备
CN114120983A (zh) 音频数据处理方法及装置、设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant