CN116400805A

CN116400805A - 车载娱乐交互方法、装置、车辆及存储介质

Info

Publication number: CN116400805A
Application number: CN202310324935.4A
Authority: CN
Inventors: 胡春华; 贺刚; 王永亮; 平涛; 苏鹏飞
Original assignee: Chongqing Changan Automobile Co Ltd
Current assignee: Chongqing Changan Automobile Co Ltd
Priority date: 2023-03-29
Filing date: 2023-03-29
Publication date: 2023-07-07

Abstract

本申请涉及车载娱乐技术领域，特别涉及一种车载娱乐交互方法、装置、车辆及存储介质，其中，方法包括：检测车辆是否进入多模态娱乐交互模式；在车辆进入多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；根据体态信息、手势信息、视觉感知信息和音频信息中的一种或多种确定车辆的一个或多个交互组件的交互参数，利用交互参数控制一个或多个交互组件执行交互动作。由此，解决了相关技术中车载娱乐系统基于中控屏幕显示和语音控制交互的局限性，人机交互的互动维度、趣味性和氛围感不足，科技化和智能化体验不高等问题。

Description

车载娱乐交互方法、装置、车辆及存储介质

技术领域

本申请涉及车载娱乐技术领域，特别涉及一种车载娱乐交互方法、装置、车辆及存储介质。

背景技术

随着汽车行业智能网联领域技术的不断发展，人们对车载娱乐系统的使用体验要求变得越来越高。

在相关技术中，公开了一种互动投影板装置以及一种多媒体互动设备，该互动投影板装置包含有彼此电连通的触控互动结构及双频电子装置，使触控互动结构上的触控投影面形成至少两个触控投影区，可供使用者书写操作、投影光束以及触控操作，以能根据使用者具体触控第一触控投影区和/或第二触控投影区产生相应的触控信号，进而使触控互动模块和双频电子装置提供至少一画面信息实时显示于第一触控投影区和/或第二触控投影区，且该画面信息也能随用户触控移动在两个触控投影区上的显示位置，不会有延迟、断讯现象。据此，提供互动投影板装置兼具可书写及多媒体触控、投影互动功能。

还公开了一种沉浸式隧道型多媒体交互展示系统及方法，包括屏幕、播放系统、音响系统、人机交互系统、演示装置、机械步道和舞台，舞台中央设机械步道、左右设隧道式背投屏幕、正上方设特效设备、前方左右设投影机、左上或右上设动作传感器，机械步道左右外设音响装置，交互式多媒体内容生成器由信号线分别连接特效服务器、动作捕捉器、视频播放器、音频播放器和机械步道控制器，特效演示装置由信号线连接特效服务器，动作传感器由信号线连接动作捕捉服务器，显示设备由线连接视频播放器信号线，音响系统由信号线连接音频系统，机械步道由信号线连接机械步道控制器，具有更有效、能更好地提供客户体验的特点。

还公开了一种基于多模态的交互方法、装置、存储介质及智能屏设备，涉及人工智能技术领域，多模态交互技术领域。具体实现方案为：基于多模态交互技术识别用户特征，并基于所述多模态交互技术获取用户的交互场景信息；根据所述用户特征结合所述交互场景信息，分析用户的交互意图；获取与所述交互意图对应的目标交互指令，从而采用所述目标交互指令对所述智能屏设备进行交互控制。

综上，相关技术中车载娱乐系统的交互设计主要为基于中控屏幕显示和语音控制交互设计，其人机交互的维度、趣味性和氛围感都有待提升，科技化和智能化的使用体验也有待增强。

发明内容

本申请提供一种车载娱乐交互方法、装置、车辆及存储介质，以解决相关技术中车载娱乐系统基于中控屏幕显示和语音控制交互的局限性，人机交互的互动维度、趣味性和氛围感不足，科技化和智能化体验不高等问题。

本申请第一方面实施例提供一种车载娱乐交互方法，包括以下步骤：检测车辆是否进入多模态娱乐交互模式；在所述车辆进入所述多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，利用所述交互参数控制所述一个或多个交互组件执行交互动作。

根据上述技术手段，本申请实施例可以通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息控制交互组件执行交互动作，从而实现多模态娱乐交互，有效提升了车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

可选地，在本申请的一个实施例中，所述交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR(Augmented Reality，增强现实)、灯光系统和香氛系统中的任意一种，所述体态信息包括头部及身躯的第一晃动幅度、所述手势信息包括手势类型和手势的第二晃动幅度，所述视觉感知信息包括视线信息和/或唇动信息，所述音频信息包括声源位置和/或声音强度。

可选地，在本申请的一个实施例中，所述根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，包括：根据所述手势类型匹配显示器显示的多媒体和/或所述香氛系统的控制动作，利用所述控制动作控制所述多媒体和/或所述香氛系统执行对应动作；和/或，根据所述第一晃动幅度、所述第二晃动幅度和声音强度中的一种或多种匹配所述灯光系统的最佳灯光参数，利用所述最佳灯光参数调整所述灯光系统中灯光的当前参数；和/或，根据所述声源位置和/或所述唇动信息定位用户的实际位置，根据所述实际位置修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果；和/或，根据所述视线信息确定所述用户的视线聚焦点，根据所述视线聚焦点修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果。

根据上述技术手段，本申请实施例可以通过手势类型匹配控制动作，以此执行相应动作，通过晃动幅度和声音强度匹配最佳灯光参数，以此调节灯光，通过声源位置和唇动信息中的一种或多种定位用户的实际位置，以此修正显示效果，通过视线信息确定用户的视线聚焦点，以此修正显示效果，从而可以有效提升车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

可选地，在本申请的一个实施例中，所述检测车辆是否进入多模态娱乐交互模式，包括：识别用户的进入所述多模态娱乐交互模式的实际意图；若所述实际意图为进入意图时，检测所述车辆是否满足预设进入条件；若所述车辆满足所述预设进入条件，则控制所述车辆进入所述多模态娱乐交互模式，否则生成风险提示。

根据上述技术手段，本申请实施例可以通过识别用户的实际意图和检测车辆的预设进入条件，来判断车辆是否进入多模态娱乐交互模式，可以有效避免行车过程中进入，保证车辆的安全性。

本申请第二方面实施例提供一种车载娱乐交互装置，包括：检测模块，用于检测车辆是否进入多模态娱乐交互模式；识别模块，用于在所述车辆进入所述多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；执行模块，用于根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，利用所述交互参数控制所述一个或多个交互组件执行交互动作。

可选地，在本申请的一个实施例中，所述交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR、灯光系统和香氛系统中的任意一种，所述体态信息包括头部及身躯的第一晃动幅度、所述手势信息包括手势类型和手势的第二晃动幅度，所述视觉感知信息包括视线信息和/或唇动信息，所述音频信息包括声源位置和/或声音强度。

可选地，在本申请的一个实施例中，所述执行模块进一步用于：根据所述手势类型匹配显示器显示的多媒体和/或所述香氛系统的控制动作，利用所述控制动作控制所述多媒体和/或所述香氛系统执行对应动作；和/或，根据所述第一晃动幅度、所述第二晃动幅度和声音强度中的一种或多种匹配所述灯光系统的最佳灯光参数，利用所述最佳灯光参数调整所述灯光系统中灯光的当前参数；和/或，根据所述声源位置和/或所述唇动信息定位用户的实际位置，根据所述实际位置修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果；和/或，根据所述视线信息确定所述用户的视线聚焦点，根据所述视线聚焦点修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果。

可选地，在本申请的一个实施例中，所述检测模块进一步用于：识别用户的进入所述多模态娱乐交互模式的实际意图；若所述实际意图为进入意图时，检测所述车辆是否满足预设进入条件；若所述车辆满足所述预设进入条件，则控制所述车辆进入所述多模态娱乐交互模式，否则生成风险提示。

本申请第三方面实施例提供一种车辆，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的车载娱乐交互方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的车载娱乐交互方法。

由此，本申请至少具有如下有益效果：

1、本申请实施例可以通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息控制交互组件执行交互动作，从而实现多模态娱乐交互，有效提升了车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

2、本申请实施例可以通过手势类型匹配控制动作，以此执行相应动作，通过晃动幅度和声音强度匹配最佳灯光参数，以此调节灯光，通过声源位置和唇动信息中的一种或多种定位用户的实际位置，以此修正显示效果，通过视线信息确定用户的视线聚焦点，以此修正显示效果，从而可以有效提升车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

3、本申请实施例可以通过识别用户的实际意图和检测车辆的预设进入条件，来判断是否进入多模态娱乐交互模式，可以有效避免行车过程中进入，保证车辆的安全性。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的车载娱乐交互方法的流程图；

图2为根据本申请实施例提供的交互方案的主要流程图；

图3为根据本申请实施例提供的主要的车载软硬件的示意图；

图4为根据本申请实施例提供的用户确认进入多模模式选择弹窗的示例图；

图5为根据本申请实施例提供的非驻车状态的警示弹窗的示例图；

图6为根据本申请实施例提供的手势定义及显示呈现方式的示意图；

图7为根据本申请实施例提供的AR HUD(Head Up Display，平视显示器)歌词显示的示例图；

图8为根据本申请实施例提供的设备异常提示弹窗的示例图；

图9为根据本申请实施例提供的打碟器的呈现的示例图；

图10为根据本申请实施例提供的车内灯光控制效果的示例图；

图11为根据本申请实施例提供的映射灯光控制系统说明的示例图；

图12为根据本申请实施例提供的人体检测骨骼模型的示例图；

图13为根据本申请实施例提供的关键点置信度计算，关键点亲和度向量计算，关键点聚类和关键点匹配连接的示例图；

图14为根据本申请实施例提供的体态数据输出的流程图；

图15为根据本申请实施例提供的控制灯光的流程图；

图16为根据本申请实施例提供的手势同步渲染显示的流程图；

图17为根据本申请实施例提供的映射图像关系的示例图；

图18为根据本申请实施例提供的世界坐标系、相机坐标系、图像坐标系和像素坐标系的关系的示例图；

图19为根据本申请实施例提供的世界坐标系、相机坐标系、图像坐标系和像素坐标系的转换公式的示例图；

图20为根据本申请实施例提供的车载娱乐交互装置的示例图；

图21为根据本申请实施例提供的车辆的结构示例图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的车载娱乐交互方法、装置、车辆及存储介质。针对上述背景技术中提到的问题，目前多媒体的交互设计及技术方案，基本都是基于中控屏幕点击和语音控制的方案设计，本申请主要是基于座舱内视觉、手势、视线、体态等多模信息设计的多媒体交互方案，以及座舱体态、手势、视觉、音频的综合模型设计方案，其中，本申请提供了一种基于体态、视觉感知的多媒体娱乐交互系统，其目的在于将现有的车载娱乐媒体软件系统结合车载上成熟的声学、视觉等先进的算法技术和硬件能力，设计架构智能化的座舱媒体娱乐互动方案，使得车载媒体娱乐系统将座舱内人员的手势信息、唇动信息、声源定位信息、视线方向信息和体态信息等和座舱内各显示器、熏香、投屏、AR和灯光系统等联动起来，其中，灯光系统如氛围灯等，从而有效增加座舱内媒体模块人机交互的互动维度，如听觉、视觉和体态等方面，趣味性及娱乐氛围感，另外，基于车载现有能力下也提升了整车座舱的科技感。

具体而言，图1为本申请实施例所提供的一种车载娱乐交互方法的流程示意图。

如图1所示，该车载娱乐交互方法包括以下步骤：

在步骤S101中，检测车辆是否进入多模态娱乐交互模式。

其中，多模态娱乐交互模式可以为一种基于座舱内视觉、手势、视线、体态等多模信息的多媒体交互模式。

可以理解的是，本申请实施例中车辆进入多模态娱乐交互模式的前提条件是车辆为驻车状态，由此可确保车辆的安全性。

可选地，在本申请的一个实施例中，检测车辆是否进入多模态娱乐交互模式，包括：识别用户的进入多模态娱乐交互模式的实际意图；若实际意图为进入意图时，检测车辆是否满足预设进入条件；若车辆满足预设进入条件，则控制车辆进入多模态娱乐交互模式，否则生成风险提示。

其中，预设进入条件可以为车辆为驻车状态，当检测到车辆为驻车状态时，即判断为车辆满足进入条件。

其中，风险提示可以为多种，如在人机交互界面弹出显示框，提示用户该状态不可使用该模式，或者利用智能语音系统进行语音播报提示等，不作具体限定。

可以理解的是，本申请实施例可以通过识别用户的实际意图和检测车辆的预设进入条件，来判断车辆是否进入多模态娱乐交互模式，可以有效避免行车过程中进入，保证车辆的安全性。

具体而言，车机上电开机后，进入媒体娱乐系统，首先和用户交互确认是否进入多模态娱乐交互模式，中控界面会显示确认弹框选项，同时语音tts播报提示，进入用户选择阶段，其中，可通过语音识别选择确认，若选择取消或者N秒超时后，其中，N可以为3s、5s、15s等，不作具体限定，则进入默认日常听歌模式，常态化利用喇叭放歌，若选择确认，首先判断前提条件：整车是否处于驻车状态，如果不是，则提示用户风险项，该模式只能处于驻场状态才可使用，如果已满足安全条件，则进入基于体验、视觉感知的多媒体娱乐交互系统。

在步骤S102中，在车辆进入多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种。

其中，体态信息包括头部及身躯的第一晃动幅度，手势信息包括手势类型和手势的第二晃动幅度，视觉感知信息包括视线信息和唇动信息中的一种或多种，音频信息包括声源位置和声音强度的一种或多种，不作具体限定。

可以理解的是，本申请实施例通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息来实现多模态娱乐交互模式，可以有效提升车内人机交互的互动维度、趣味性和氛围感，同时提升科技感和智能感的使用体验。

在步骤S103中，根据体态信息、手势信息、视觉感知信息和音频信息中的一种或多种确定车辆的一个或多个交互组件的交互参数，利用交互参数控制一个或多个交互组件执行交互动作。

其中，交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR、灯光系统和香氛系统中的任意一种，不作具体限定。

可以理解的是，本申请实施例可以通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息控制交互组件执行交互动作，从而实现多模态娱乐交互，有效提升了车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

可选地，在本申请的一个实施例中，根据体态信息、手势信息、视觉感知信息和音频信息中的一种或多种确定车辆的一个或多个交互组件的交互参数，包括：根据手势类型匹配显示器显示的多媒体和/或香氛系统的控制动作，利用控制动作控制多媒体和/或香氛系统执行对应动作；和/或，根据第一晃动幅度、第二晃动幅度和声音强度中的一种或多种匹配灯光系统的最佳灯光参数，利用最佳灯光参数调整灯光系统中灯光的当前参数；和/或，根据声源位置和/或唇动信息定位用户的实际位置，根据实际位置修正各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果；和/或，根据视线信息确定用户的视线聚焦点，根据视线聚焦点修正各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果。

其中，第一晃荡幅度在本申请实施例中可以为身躯的晃动幅度，第二晃动幅度可以为手势的晃动幅度。

可以理解的是，本申请实施例可以通过手势类型匹配控制动作，以此执行相应动作，通过晃动幅度和声音强度匹配最佳灯光参数，以此调节灯光，通过声源位置和唇动信息中的一种或多种定位用户的实际位置，以此修正显示效果，通过视线信息确定用户的视线聚焦点，以此修正显示效果，从而可以有效提升车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

根据本申请实施例提出的车载娱乐交互方法，通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息控制交互组件执行交互动作，从而实现多模态娱乐交互，有效提升了车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

下面通过另一个实施例对本申请实施例提出的车载娱乐交互方法进行进一步阐述，其中，为了使得座舱内的媒体娱乐系统拥有更好的交互体验，且更加有效地利用现有车载生态软硬件能力，同时，也为车载娱乐系统增加更多的趣味性和科技感，本申请主要通过针对媒体娱乐系统与显示、灯光系统进行融合，提出一种基于体态、视觉感知的媒体娱乐交互系统方案，主要包括车载媒体与手势、唇动、声源定位、视线追踪等算法和各类座舱各显示器、投屏、AR、灯光系统的联动设计方案和基于体态、手势、视觉、音频的综合模型设计方案，如图2所示，具体内容如下：

1、如图3所示，该系统方案涉及的车载硬件主要包括：车内摄像头、车内灯光系统，主要是氛围灯、香氛系统、AR HUD显示系统、3D(3Dimensions，三维)投影系统和座椅传感器系统，软件及算法方面主要包含：手势识别算法、视线追踪算法、声源定位算法、体态识别算法、人脸识别算法、车控和媒体软件，通过摄像头和传感器等获取数据，利用算法提取信息，根据多模媒体交互方案，实现软件的显示呈现及硬件控制。

2、如图4所示，车机上电开机，车机系统正常运行进入媒体娱乐系统后，用户意向使用多媒体娱乐系统软件，首先和用户交互确认是否进入多模态娱乐交互模式，此时中控界面会显示确认弹框选项，同时语音tts播报提示，进入用户选择阶段，其中，可以通过语音识别选择确认。

(1)如图5所示，如果进入多模媒体娱乐模式，首先判断汽车是否已处于驾驶状态，包括D/R档，若是，则弹出显示框，提示用户该状态不可使用该模式，若不是，包括P/N档，则进入基于体验、视觉感知的多媒体娱乐交互系统。

(2)若选择取消或者N秒超时后，其中，N可以为1s、5s、15s等，则进入默认日常听歌模式，常态化利用喇叭放歌。

3、如图6所示，手势识别映射控制打碟器功能，旨在设计模拟真实场景下的一种打碟器显示呈现及控制座舱内部音效音响机制，另外，一方面，可以利用手势识别定义特殊手势，映射媒体常见控制功能，完成基本的媒体控制操作，如切歌/收藏/暂停/播放等，另一方面，将打碟的操作控制模式的物理映射与座舱内人员的手势动作结合起来，其中，手势的识别可以通过利用座舱内摄像头捕捉画面以识别手势动作。

(1)如图7所示，打碟器显示呈现机制，可以是AR HUD在舱内挡风玻璃上显示呈现，如图6所示，也可以是3D虚拟投屏显示。

(2)如图8所示，进入手势识别的模拟打碟模式下，前提条件是需要检测车内摄像头是否正常工作，如果异常，则进行异常交互提示。

(3)如图8所示，检测3D虚拟投影是否正常工作，如果异常，则进行异常交互提示。

(4)如图8所示，检测AR HUD显示是否正常工作，如果异常，则进行异常交互提示。

(5)设备正常，则与用户交互，让用户选择打碟模拟互动显示呈现区域，其中，可以让用户选择固定显示打碟器呈现方式，也可以结合视线追踪算法，根据视线的焦点，判断呈现的方式。

(6)记忆用户选择的显示模式，下次启用时，在条件符合的情况下，快速进入并开始该娱乐交互模式。

(7)如图9所示，手势识别控制打碟器功能，识别用户的手势动作，对比真实场景下针对打碟器的手势操控动作，将其映射到不同的显示器上，呈现出模拟真实的打碟器效果，且模拟打碟器的操控真实对应着座舱内具体的音效相关控制系统。

(8)手势媒体控制功能，用户学习记忆特殊的手势，可以根据使用场景摆出特定的手势。

4、如图10和图11所示，结合手势识别技术，体态识别技术，座椅传感器及麦克风传入的音频综合计算映射到灯光参数，控制灯光系统。

(1)结合手势识别技术，检测手势晃动幅度信息，加以计算配比权重，控制车内灯光控制系统。

(2)结合体态识别技术，检测头部及身躯的晃动幅度信息，加以计算配比权重，控制车内灯光控制系统。

(3)结合座椅传感器系统，检测用户的晃动幅度信息，加以计算配比权重，控制车内灯光控制系统。

(4)结合麦克风输入音频信息，分析其人声响度能量大小，加以计算配比权重，控制车内灯光控制系统。

(5)综合手势、体态、传感器、麦克风信息和数字化信息结合歌曲的风格及能量傅里叶能量值计算出合理的最佳场景交互灯光效果，主要是映射出氛围灯的模式，如温馨、情感、激情等，以及闪动状态等，其中，最终参数值映射实时调整。

5、根据实时手势识别信息分析，定义一系列香氛模式打开特殊组合手势，比如，手掌握紧到张开的手势就代表打开香氛，在用户娱乐互动过程中，随心、随用户情绪，控制座舱的香氛系统。

6、结合声源定位技术，获取用户交互方位，精确针对性进行交互体验设计。

(1)精确定位设计灯光视觉效果，如识别到用户在主驾区域，则灯光控制系统可针对主驾视线广度区域特殊化显示集中的一些效果体验。

(2)精确定位设计中控屏显示效果，其中，包括中控显示屏/AR HUD等，如定位到主驾区域交互，则可以将显示呈现移至仪表盘，AR HUD的显示移至主驾对应的左侧挡风玻璃上，如定位右侧，则将显示呈现移至副驾显示屏或者中控显示屏，AR HUD移至副驾对应的右侧挡风玻璃上。

7、结合视线追踪算法技术，获取用户视线聚焦点信息，精确针对性进行交互体验设计。

(1)精确定位设计灯光视觉效果，打碟器及歌曲等信息显示，如歌名、歌词，可根据用户视线聚焦的信息来呈现，如用户视线平视前方，聚焦挡风玻璃上，则显示交互信息通过AR HUD呈现，如用户视线聚焦中控或者仪表，则将显示交互信息通过中控屏呈现。

8、基于体态、手势、视觉、音频的综合模型设计方案。

(1)如图12、图13和图14所示，对于人体的检测，数据集本申请实施例可以选择适当的方式进行标注，如人脸70个点，肢体18个点，手部2*21个点来标注，网络模型设计方式可以采用top-down的结构，以mobilenetv3为backbone，以FPN(Fortified ProviderNetwork，强化供应商网络)和PAN(Personal Area Network，个人局域网)为neck，以人体分类、检验框和关键点为head，通过多任务的方式最终输出是否是人体、检验框和关键点的信息。

其中，整体流程分为特征提取、特征增强、人体分类、检验框和关键点计算。

a.特征提取主要使用mobilenetv3来提取。

b.特征增强部分使用FPN和PAN来融合多尺度的信息。

c.设置不同层输出不同的head信息。

d.对于检验框，计算IOU(Innovation Optimization Utilization，创新)，再用NMS(Network management system，网络管理系统)方法，如非极大值抑制，获取最终结果。

e.根据获得的检验框输出对应的关键点坐标值。

(2)如图15和图16所示，通过以上过程可以得到每个人的关键点，本申请实施例可以选取人脸中左眼、右眼、鼻翼、下巴、人脸左下边缘、人脸右下边缘的坐标偏移值来标定头部动作幅度，对于肢体，本申请实施例可以主要选择胳膊以及肩膀的坐标偏移值来标定肢体动作幅度，对于手势，本申请实施例可以选择21个点的坐标偏移值来标定手势动作幅度，若视频帧率为30FPS，本申请实施例可以选择每两帧的偏移值计算输出一次结果传递给应用端，应用端根据这些数值和权重系数来控制灯光和渲染显示律动效果。

(3)对于打碟手势，本申请实施例可以选取特定的区域来交互，同时定义支持的手势动作类型，通过获取的坐标值计算手部姿态，位置和角度变化，结合手部姿态，位置和角度变化计算输出最终的手势类型。

(4)如图17所示，为了使手部的动作能够同步到其他区域，本申请实施例可以进行透视变换，本申请实施例定义了原始图像区域和目标图像区域，需要在原始图像区域内做手势动作，通过透视变换将原始图像区域映射到目标图像区域，经过与中控屏缩放或者放大对齐后，可同步渲染在中控屏显示。

(5)如图18所示，为世界坐标系、相机坐标系、图像坐标系和像素坐标系的关系。

(6)如图19所示，为世界坐标系、相机坐标系、图像坐标系和像素坐标系的转换公式。

另外，本申请不仅仅针对舱内媒体娱乐系统，通过交互方式结合体态和视觉丰富了更多交互设计方案，使其产品的体验趣味性更强，科技化、智能化感觉更高，如基于体态、手势、视线的多模信息与车外灯光、场景、人的交互设计方案，其中，在智能家居、KTV(Karaoke Television，卡拉OK电视台)等场景下的媒体娱乐交互系统均可以参考本申请，如基于体态、手势、视线的多模信息在智能家居、媒体娱乐场景的交互设计方案。

由此，解决了相关技术中车载娱乐系统基于中控屏幕显示和语音控制交互的局限性，人机交互的互动维度、趣味性和氛围感不足，科技化和智能化体验不高等问题。

其次参照附图描述根据本申请实施例提出的车载娱乐交互装置。

图20是本申请实施例的车载娱乐交互装置的方框示意图。

如图20所示，该车载娱乐交互装置10包括：检测模块100、识别模块200和执行模块300。

其中，检测模块100，用于检测车辆是否进入多模态娱乐交互模式；识别模块200，用于在车辆进入多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；执行模块300，用于根据体态信息、手势信息、视觉感知信息和音频信息中的一种或多种确定车辆的一个或多个交互组件的交互参数，利用交互参数控制一个或多个交互组件执行交互动作。

可选地，在本申请的一个实施例中，交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR、灯光系统和香氛系统中的任意一种，体态信息包括头部及身躯的第一晃动幅度、手势信息包括手势类型和手势的第二晃动幅度，视觉感知信息包括视线信息和/或唇动信息，音频信息包括声源位置和/或声音强度。

可选地，在本申请的一个实施例中，执行模块300进一步用于：根据手势类型匹配显示器显示的多媒体和/或香氛系统的控制动作，利用控制动作控制多媒体和/或香氛系统执行对应动作；和/或，根据第一晃动幅度、第二晃动幅度和声音强度中的一种或多种匹配灯光系统的最佳灯光参数，利用最佳灯光参数调整灯光系统中灯光的当前参数；和/或，根据声源位置和/或唇动信息定位用户的实际位置，根据实际位置修正各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果；和/或，根据视线信息确定用户的视线聚焦点，根据视线聚焦点修正各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果。

可选地，在本申请的一个实施例中，检测模块100进一步用于：识别用户的进入多模态娱乐交互模式的实际意图；若实际意图为进入意图时，检测车辆是否满足预设进入条件；若车辆满足预设进入条件，则控制车辆进入多模态娱乐交互模式，否则生成风险提示。

需要说明的是，前述对车载娱乐交互方法实施例的解释说明也适用于该实施例的车载娱乐交互装置，此处不再赘述。

根据本申请实施例提出的车载娱乐交互装置，通过基于车内人员的体态信息、手势信息、视觉感知信息和音频信息控制交互组件执行交互动作，从而实现多模态娱乐交互，有效提升了车载娱乐人机交互的互动维度、趣味性及娱乐氛围感，提升了整车内部的科技化与智能化的体验。

图21为本申请实施例提供的车辆的结构示意图。该车辆可以包括：

存储器2101、处理器2102及存储在存储器2101上并可在处理器2102上运行的计算机程序。

处理器2102执行程序时实现上述实施例中提供的车载娱乐交互方法。

进一步地，车辆还包括：

通信接口2103，用于存储器2101和处理器2102之间的通信。

存储器2101，用于存放可在处理器2102上运行的计算机程序。

存储器2101可能包含高速RAM(Random Access Memory，随机存取存储器)存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。

如果存储器2101、处理器2102和通信接口2103独立实现，则通信接口2103、存储器2101和处理器2102可以通过总线相互连接并完成相互间的通信。总线可以是ISA(IndustryStandard Architecture，工业标准体系结构)总线、PCI(Peripheral Component，外部设备互连)总线或EISA(Extended Industry Standard Architecture，扩展工业标准体系结构)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图21中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器2101、处理器2102及通信接口2103，集成在一块芯片上实现，则存储器2101、处理器2102及通信接口2103可以通过内部接口完成相互间的通信。

处理器2102可能是一个CPU(Central Processing Unit，中央处理器)，或者是ASIC(Application Specific Integrated Circuit，特定集成电路)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的车载娱乐交互方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不是必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列，现场可编程门阵列等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种车载娱乐交互方法，其特征在于，包括以下步骤：

检测车辆是否进入多模态娱乐交互模式；

在所述车辆进入所述多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；

根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，利用所述交互参数控制所述一个或多个交互组件执行交互动作。

2.根据权利要求1所述的方法，其特征在于，所述交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR、灯光系统和香氛系统中的任意一种，所述体态信息包括头部及身躯的第一晃动幅度、所述手势信息包括手势类型和手势的第二晃动幅度，所述视觉感知信息包括视线信息和/或唇动信息，所述音频信息包括声源位置和/或声音强度。

3.根据权利要求2所述的方法，其特征在于，所述根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，包括：

根据所述手势类型匹配显示器显示的多媒体和/或所述香氛系统的控制动作，利用所述控制动作控制所述多媒体和/或所述香氛系统执行对应动作；

和/或，根据所述第一晃动幅度、所述第二晃动幅度和声音强度中的一种或多种匹配所述灯光系统的最佳灯光参数，利用所述最佳灯光参数调整所述灯光系统中灯光的当前参数；

和/或，根据所述声源位置和/或所述唇动信息定位用户的实际位置，根据所述实际位置修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果；

和/或，根据所述视线信息确定所述用户的视线聚焦点，根据所述视线聚焦点修正所述各类座舱显示器、投屏设备、虚拟现实设备AR和灯光系统中一种或多种的显示效果。

4.根据权利要求1-3任意一项所述的方法，其特征在于，所述检测车辆是否进入多模态娱乐交互模式，包括：

识别用户的进入所述多模态娱乐交互模式的实际意图；

若所述实际意图为进入意图时，检测所述车辆是否满足预设进入条件；

若所述车辆满足所述预设进入条件，则控制所述车辆进入所述多模态娱乐交互模式，否则生成风险提示。

5.一种车载娱乐交互装置，其特征在于，包括：

检测模块，用于检测车辆是否进入多模态娱乐交互模式；

识别模块，用于在所述车辆进入所述多模态娱乐交互模式时，识别车内人员的体态信息、手势信息、视觉感知信息和音频信息中的一种或多种；

执行模块，用于根据所述体态信息、所述手势信息、所述视觉感知信息和所述音频信息中的一种或多种确定所述车辆的一个或多个交互组件的交互参数，利用所述交互参数控制所述一个或多个交互组件执行交互动作。

6.根据权利要求5所述的装置，其特征在于，所述交互组件为各类座舱显示器、投屏设备、虚拟现实设备AR、灯光系统和香氛系统中的任意一种，所述体态信息包括头部及身躯的第一晃动幅度、所述手势信息包括手势类型和手势的第二晃动幅度，所述视觉感知信息包括视线信息和/或唇动信息，所述音频信息包括声源位置和/或声音强度。

7.根据权利要求6所述的装置，其特征在于，所述执行模块进一步用于：

8.根据权利要求5-7任意一项所述的装置，其特征在于，所述检测模块进一步用于：

识别用户的进入所述多模态娱乐交互模式的实际意图；

9.一种车辆，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-4任一项所述的车载娱乐交互方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述的车载娱乐交互方法。