CN115830724A

CN115830724A - 基于多模态识别的车载识别交互方法及系统

Info

Publication number: CN115830724A
Application number: CN202211582221.5A
Authority: CN
Inventors: 余晓雪; 廖玉竹; 夏勇; 王友兰
Original assignee: Chery Automobile Co Ltd
Current assignee: Chery Automobile Co Ltd
Priority date: 2022-12-09
Filing date: 2022-12-09
Publication date: 2023-03-21

Abstract

本发明提供了一种基于多模态识别的车载识别交互方法及系统，获取车内驾乘人员的手势信号、头势信号和语音信号；根据手势信号、头势信号和语音信号，分别得到手势识别结果、头势识别结果和语音识别结果；根据手势识别结果、头势识别结果和语音识别结果，进行对应的车机系统控制，其中，所述车机系统控制，至少包括：疲劳驾驶缓解控制、乘客睡觉关怀控制、个人问候控制、情绪抚慰控制和音响音量控制；本发明实现了多模态技术从“功能辅助”到“全面人机交互指导”的跨越，极大的提高了驾驶体验。

Description

基于多模态识别的车载识别交互方法及系统

技术领域

本发明涉及人机交互技术领域，特别涉及一种基于多模态识别的车载识别交互方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术，并不必然构成现有技术。

目前，车辆已经成为了人们生产生活中不可或缺的一部分，智能座舱内的车机交互方式是车企技术研发的重要一环。为了提升HMI人机交互的效率，零层级的操作方式、语音手势等免触控的交互形式逐渐成为智能座舱的发展趋势。

多模态技术作为一种新的交互方式，已经逐渐应用于各类车辆使用场景中，例如多模态驱动驾驶技术、多模态自动驾驶技术等；多模态交互能够实现与机器或计算机更自然的交互，因此，以多模态设计为基础的车辆人机交互系统设计将会成为未来车辆人机交互界面的重要方向。

发明人发现，现有的多模态交互方式大多基于手势实现，结合语音识别进行更精确的控制，例如专利号CN110096139A公开了一种车载人机交互系统，其通过手势进行命令识别，通过语音进行车机系统的更精准控制，但是其还停留在进行功能辅助的阶段，尚无法结合其他多种信号实现更全面的人机交互；专利号CN114916936A公开了一种基于多模态技术的驾驶状态检测预警系统及方法，其需要借助专业的头盔来进行人机交互，不仅成本较高而且适用性较差。

发明内容

为了解决现有技术的不足，本发明提供了一种基于多模态识别的车载识别交互方法及系统，基于行为树架构将头姿控制方式、手势控制方式和语音控制方式集成为多模态人机交互控制方式，实现了多模态技术从“功能辅助”到“全面人机交互指导”的跨越，极大的提高了驾驶体验。

为了实现上述目的，本发明采用如下技术方案：

本发明第一方面提供了一种基于多模态识别的车载识别交互方法。

一种基于多模态识别的车载识别交互方法，包括以下过程：

获取车内驾乘人员的手势信号、头势信号和语音信号；

根据手势信号、头势信号和语音信号，分别得到手势识别结果、头势识别结果和语音识别结果；

根据手势识别结果、头势识别结果和语音识别结果，进行对应的车机系统控制，其中，所述车机系统控制，至少包括：疲劳驾驶缓解控制、乘客睡觉关怀控制、个人问候控制、情绪抚慰控制和音响音量控制。

作为本发明第一方面可选的一种实现方式，每种手势对应一种自定义交互事件，或者多种连续手势对应一种自定义交互事件；或者，每种头势对应一种自定义交互事件，或者多种连续头势对应一种自定义交互事件。

作为本发明第一方面可选的一种实现方式，所述语音识别，包括：对语音的内容进行识别以及对语音的位置进行识别，将语音内容和语音位置用于车机系统控制。

作为本发明第一方面进一步的限定，若用户语音指令为开启车窗，定位开窗指令的声源位置，根据语音识别的结果和声源位置的定位结果，开启特定车窗。

作为本发明第一方面可选的一种实现方式，疲劳驾驶缓解控制，包括：

根据头势识别结果，当检测到疲劳事件时，车机弹窗显示第一提醒消息，弹窗弹起第一提醒消息，同时进行语音播报，车机情景模式切换至醒神模式，若此后连续设定时间内未检测到主驾处于疲劳状态事件，则关闭疲劳驾驶缓解控制。

作为本发明第一方面可选的一种实现方式，个人问候控制，包括：

若本次行程首次打开音乐应用，启动音乐应用的同时进行语音播报；若用户本次行程首次打开导航应用，启动导航应用的同时进行语音播报；

根据头势识别结果，识别出用户个人信息，根据用户个人信息使用特定称谓进行个问候，并根据用户个人信息发出特定的问候语。

作为本发明第一方面可选的一种实现方式，音响音量控制，包括：

根据头势识别结果，当检测到副驾打电话时，若此时多媒体正在播放且音量大于第一设定分贝值时，则进行车机多媒体音量调节以低于第一设定分贝值，当检测到打电话动作结束，多媒体音量恢复至正常值。

作为本发明第一方面可选的一种实现方式，乘客睡觉关怀控制，包括：

根据头势识别结果，检测到车内有乘客睡觉或瞌睡信号事件，若此时有多媒体正在播放，且音量高于第二设定分贝值，则弹窗显示并语音播报第二提醒消息；

若检测到副驾睡觉或瞌睡信号事件，当空调开启且为制冷状态时，则弹窗显示并播报第三提醒消息，并降低空调风量。

作为本发明第一方面可选的一种实现方式，情绪抚慰控制，包括：

根据头势识别结果或者头势识别与声音识别的融合结果，当检测到车内有人处于开心情绪或不开心情绪，弹窗显示并语音播报第四提醒消息，当音乐播放指令被确认时，进行开心情绪歌单列表的推荐。

作为本发明进一步的限定，在情绪歌单唤醒时，同时给用户两个可选项，选择第一选项则播放情绪歌单，选择第二选项退出当前弹窗，并支持通过语音输入或者触屏输入或者按键输入完成选项操作。

本发明第二方面提供了一种基于多模态识别的车载识别交互系统。

一种基于多模态识别的车载识别交互系统，包括：

数据获取模块，被配置为：获取车内驾乘人员的手势信号、头势信号和语音信号；

信号识别模块，被配置为：根据手势信号、头势信号和语音信号，分别得到手势识别结果、头势识别结果和语音识别结果；

交互控制模块，被配置为：根据手势识别结果、头势识别结果和语音识别结果，进行对应的车机系统控制，其中，所述车机系统控制，至少包括：疲劳驾驶缓解控制、乘客睡觉关怀控制、个人问候控制、情绪抚慰控制和音响音量控制。

本发明第三方面提供了一种基于多模态识别的车载识别交互系统。

一种基于多模态识别的车载识别交互系统，包括：

域控制器以及与域控制器通信的信号接收器；

域控制器，被配置为：通过多模人机交互控制方式与自主控制释放控制操作信号至信号接收器，并根据信号接收器发送的检测信号，执行本发明第一方面所述的基于多模态识别的车载识别交互方法；

信号接收器，被配置为：接收多模态化的操作信号，并将检测信号发送至域控制器。

作为本发明第三方面可选的一种实现方式，信号接收器，至少包括：麦克风阵列、手势传感器、视觉传感器和头姿传感器。

本发明第四方面提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于多模态识别的车载识别交互方法中的步骤。

本发明第五方面提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于多模态识别的车载识别交互方法中的步骤。

与现有技术相比，本发明的有益效果是：

1、本发明创新性的提出了一种基于多模态识别的车载识别交互方法及系统，基于行为树架构将头姿控制方式、手势控制方式、语音控制方式和操纵杆控制方式集成为多模态人机交互控制方式，实现了多模态技术从“功能辅助”到“全面人机交互指导”的跨越，实现多模态人机交互控制方式间的无缝切换，极大的提高了驾驶体验。

2、本发明基于域控制器的控制与计算，通过多模人机交互控制方式与自主控制释放控制操作信号，信号接收器(麦克风阵列、手势传感器、视觉传感器、头姿传感器)接收多模态化的操作信号，最后经过域控制器进行数据处理分析，实现了对车机系统的精确控制。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于多模态识别的车载识别交互方法的流程示意图。

图2为本发明实施例1提供的车辆多模态技术识别类型示意图；

图3为本发明实施例1提供的智慧识别模块开关示意图；

图4为本发明实施例1提供的手势识别界面设置示意图；

图5为本发明实施例1提供的TTS播报内容详情示意图；

图6为本发明实施例1提供的情绪歌单弹框示意图；

图7为本发明实施例1提供的情绪歌单唤醒示意图；

图8为本发明实施例1提供的手势识别区域示意图；

图9为本发明实施例1提供的手势功能设置示意图；

图10为本发明实施例2提供的基于多模态识别的车载识别交互系统的示意图；

图11为本发明实施例3提供的基于多模态识别的车载识别交互系统的示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1：

多模语音技术的主要优点主要体现在“跨界”图像信息的引入、误唤醒的控制以及音区个数的增加，免唤醒跨场景多意图的语音透传式的交互非常重要；

而车辆手势识别的应用，却可以让驾驶者降低寻找按钮、屏幕触控的频次，弥补AI语音识别带来的局限性，从而更精准地识别讯息，控制车辆各项功能。利用车载手势控制系统，只需轻轻挥挥手，便能轻松快捷地完成各种操作，能够有效降低驾驶者因操作屏幕而导致驾驶分心的频次，同时提高了车辆行驶的安全系数；

对于驾驶员来说，座舱多模感知系统可以通过分心感知、疲劳感知、行为感知等，时刻监督行车状况，从多个维度守护驾驶安全，乘客多模感知，可以更加敏锐地捕捉乘客的小情绪，多模感知系统将会调动媒体、灯光、空调等智能硬件，与乘客形成共情交互；

有鉴于此，本发明实施例1提供了一种基于多模态识别的车载识别交互方法，如图1所示，包括以下过程：

获取车内驾乘人员的手势信号、头势信号和语音信号；

具体的，包括：

S1：多模态脑认知表征

如图2所示，描述了用户在车机上可被收集的表征类型，车机可以通过对这些数据的分析自行做出操作，包括：

手势识别：上下移动、左右移动、比心、比耶和比大拇指；

头势识别：点头、摇头、睡眠、打电话、年龄和情绪；

语音识别：语音唤醒、声源定位和免唤醒。

S2：交互布局

智慧识别界面(如图3所示)，分为安全驾驶检测、主动关怀、智能车控三个模块，图3中，包括：①模块名称；②功能名称；③功能详细解释说明；④对应功能模块开关入口；⑤功能简介及图示说明；⑥手势识别设置功能入口；⑦功能评价功能入口，点击跳转到评价模块。

手势识别设置页(如图4所示)，包括：①子功能标题，点击返回上一级页面；②五种手势功能及对应执行事件，比心及点赞等支持自定义交互事件；③自定义手势功能入口。

按此布局，构建智慧识别交互系统，首先在智慧识别界面开启安全驾驶检测、主动关怀、智能车控功能，设置好个人动作偏好后，车机即可在用户做出动作后及时给予反馈，无需操作屏幕即可控制智能座舱；通过智慧识别的交互系统构建，不但能够有效提升智能座舱的车机控制的自动化程度；用户反馈系统更能引导交互方式的有效改进，提高驾驶安全效能。

S3：交互布局

疲劳驾驶提醒：当摄像头通过头势识别检测到疲劳事件时，车机弹窗显示“检测到您很疲劳，即将为您开启醒神模式”；弹窗弹起同时进行TTS播报“检测到您很疲劳，即将为您开启醒神模式”，车机情景模式切换至醒神模式，若此后连续10分钟内未检测到主驾处于疲劳状态事件，则关闭“醒神模式”；

手势识别支持手势包括左右、上下、胜利、比心、点赞等等，其中，左右—代表音乐、有声、新闻、电台播放列表切换上一首/下一首；上下—代表调高调低系统音量；胜利—代表拍照启动相机并倒计时拍照；比心—代表导航回家；点赞—代表导航去公司；

头势识别，包括点头、摇头，点头—代表是/确认；摇头—代表否/取消(在特定的选择交互场景中生效，其他场景无响应)；同时根据点头的频率和头势的姿态判断是否在打瞌睡。

个人问候：若用户本次行程首次打开音乐应用，启动应用同时TTS播报；若用户本次行程首次打开导航应用，启动应用同时TTS播报，播报内容(如图5所示)；

智能音量：当检测到副驾打电话时，若此时多媒体正在播放且音量过大时，则将车机多媒体音量调节低音量，当监测到打电话动作结束，音量恢复至正常值；

乘客睡觉关怀：检测到车内有乘客睡觉或瞌睡信号事件，若此时有多媒体正在播放，且音量高于15，则弹窗显示并TTS播报“有人要睡咯，即将为您降低音量，可以安心打个盹”；若检测到副驾睡觉或瞌睡信号事件，空调开启且为制冷，则弹窗显示并TTS播报“有人要睡咯，即将为您降低空调风量，可以安心打个盹”；

情绪歌单：检测到车内有人处于开心情绪或不开心情绪(可通过头势识别中的人脸识别进行情绪识别，或者结合驾乘人员的声音，例如唉声叹气结合人脸识别结果进行情绪识别，或者，结合驾乘人员的车内说话声音的内容以及说话的声音强度，结合人脸识别进行情绪识别)，TTS播报“今天心情不错哦，要听听歌嘛，您可以回答“确定”或“取消”，同时文字显示“开启音乐播放”，用户若选择“确定”则开启音乐播放，进入推荐开心情绪歌单列表(如图6所示)；

本实施例中，在情绪歌单唤醒时，同时给用户两个选择按钮(如图7所示)，选择“确定”则播放情绪歌单，选择“取消”退出当前弹窗；同时支持语音可见即可说功能，通过语音选择“确定”或“取消”，可通过语音输入完成选项操作。

本实施例中，支持基于语音识别的声源定位，若用户语音指令为开启车窗，麦克风阵列定位声源位置，根据语音识别的结果和声源定位的结果开启特定车窗，具体的，给出一些优选的示例：

例如，当接收的语音为“开窗”且语音定位结果为驾驶员的发音时，此时未指定开哪个窗户，则可以打开车辆左前方窗户，如再次接收到驾驶员“开窗”且未指定哪个窗户时，则可以开启所有窗户；

或者，当接收到的语音为“开窗”，且定位结果为右后侧乘客时，此时未指定开哪个窗户，则可以打开右后侧窗户，如再次接收到右后侧乘客的“开窗”语音指令时，则打开右前侧窗户，当第三次接收到右后侧乘客的“开窗”语音指令时，可以打开全部车窗，或者向驾驶员发送是否开窗的确认指令；可以理解的，在其他一些实现方式中，任意乘客(非驾驶员)的开窗语音指令均可以经主驾驶员确认后再实施，这里不再赘述；

或者，在其他一些实现方式中，也可以是当接收到主驾驶员的明确开哪个窗户的指令后，直接进行对应的窗户开启控制；当接收到乘客的明确开哪个窗户的指令后，如果是靠近乘客位置的窗户，则直接开启或者经主驾驶员确认后开启，如果不是靠近乘客位置的窗户，则经主驾驶员确认后开启。

手势识别区域(如图8)，包括：点击①弹窗关闭；区域②为真实场景识别区域标识。

手势功能设置(如图9)，包括：①弹窗关闭取消自定义手势功能；②为当前正在使用的手势功能；③为已被其他手势占用，不支持选中；可选择④切换的手势功能，选择成功后即关闭弹窗，更改对应手势功能；点击⑤后确定当前设置并退出弹窗。

实施例2：

如图10所示，本发明实施例2提供了一种基于多模态识别的车载识别交互系统，包括：

所述系统的工作方法与实施例1提供的基于多模态识别的车载识别交互方法相同，这里不再赘述。

实施例3：

如图11所示，本发明实施例3提供了一种基于多模态识别的车载识别交互系统，包括：

域控制器以及与域控制器通信的信号接收器；

域控制器，被配置为：通过多模人机交互控制方式与自主控制释放控制操作信号至信号接收器，并根据信号接收器发送的检测信号，执行本发明实施例1所述的基于多模态识别的车载识别交互方法；

可以理解的，本实施例中的域控制器是指在“域”模式下，至少有一台服务器负责每一台联入网络的电脑和用户的验证工作，相当于一个单位的门卫一样，域控制器存储着目录数据并管理用户域的交互关系，其中包括用户登录过程、身份验证和目录搜索等，一个域可以有多个域控制器，为了获得高可用性和容错能力，规模较小的域只需两个域控制器，一个实际使用，另一个用于容错性检査。

可以理解的，本实施例中，信号接收器，至少包括：麦克风阵列、手势传感器、视觉传感器和头姿传感器等传感元器件，其作为一种多传感器的集合体，具备信号接收和信号发送的功能，用于实现车内多模态信号的感知和发送。

实施例4：

本发明实施例4提供了一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明实施例1所述的基于多模态识别的车载识别交互方法中的步骤。

实施例5：

本发明实施例5提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明实施例1所述的基于多模态识别的车载识别交互方法中的步骤。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多模态识别的车载识别交互方法，其特征在于，包括以下过程：

获取车内驾乘人员的手势信号、头势信号和语音信号；

2.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

每种手势对应一种自定义交互事件，或者多种连续手势对应一种自定义交互事件；或者，每种头势对应一种自定义交互事件，或者多种连续头势对应一种自定义交互事件。

3.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

疲劳驾驶缓解控制，包括：

4.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

个人问候控制，包括：

5.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

音响音量控制，包括：

6.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

乘客睡觉关怀控制，包括：

7.如权利要求1所述的基于多模态识别的车载识别交互方法，其特征在于，

情绪抚慰控制，包括：

8.一种基于多模态识别的车载识别交互系统，其特征在于，包括：

9.一种基于多模态识别的车载识别交互系统，其特征在于，包括：

域控制器以及与域控制器通信的信号接收器；

域控制器，被配置为：通过多模人机交互控制方式与自主控制释放控制操作信号至信号接收器，并根据信号接收器发送的检测信号，执行权利1-7任一项所述的基于多模态识别的车载识别交互方法；

10.如权利要求9所述的基于多模态识别的车载识别交互系统，其特征在于，

信号接收器，至少包括：麦克风阵列、手势传感器、视觉传感器和头姿传感器。

11.一种计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于多模态识别的车载识别交互方法中的步骤。

12.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于多模态识别的车载识别交互方法中的步骤。