CN113723528B

CN113723528B - 车载语视融合多模态交互方法及系统、设备、存储介质

Info

Publication number: CN113723528B
Application number: CN202111022401.3A
Authority: CN
Inventors: 王琪; 朱燕青; 吴颖谦; 袁志俊; 杨扬; 王恺
Original assignee: Zebred Network Technology Co Ltd
Current assignee: Zebred Network Technology Co Ltd
Priority date: 2021-09-01
Filing date: 2021-09-01
Publication date: 2023-12-29
Anticipated expiration: 2041-09-01
Also published as: CN113723528A

Abstract

本发明提供一种车载语视融合多模态交互方法及装置、终端设备、存储介质，其中，车载语视融合多模态交互方法包括获取与当前车辆相关的图像信息，其中，所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种；获取与所述图像信息同时间段内的车内驾乘人员的语音信息；将所述图像信息与所述语音信息进行融合处理，得到推断结果；基于所述推断结果，确定执行内容。该交互方法提升交互过程中的自然性，使得机器在对话时获得除语义之外更多维度的感知信息；该交互方法在当前人驾驶为主的场景提供更便捷的“所见即可交互”的用户体验。

Description

车载语视融合多模态交互方法及系统、设备、存储介质

技术领域

本申请涉及车载人机交互技术领域，尤其涉及一种车载语视融合多模态交互方法及系统、设备、存储介质。

背景技术

当前，汽车已从简单的交通工具载体，经过智能化、电动化、网联化和共享化的赋能，成为解决用户核心出行需求、提升出行舒适性和安全性的智能产品，甚至未来成为集移动办公，起居室，娱乐室，睡眠环境于一体的“第二空间”。而其中，智能化和网联化又成为当前智能网联车在体验创新上与传统燃油车辆最具差异之处，是整个汽车制造业数字化转型的启动点，也是人工智能、通讯技术、5G、云服务等蓬勃发展的ICT技术在汽车行业应用创新的必争之地。

对于智能网联汽车，驾驶智能、交互智能、服务智能是三大元素。其中，驾驶智能通过整车计算能力的升级以及感知决策的算法升级，将人从繁重的驾驶任务中解放出来。比如：ADAS(Advanced Driving Assistance System，高级驾驶辅助系统)、360°环视等功能，全天候保障人员的驾乘安全。为驾驶员全天候安全驾驶保驾护航。而智能服务注重对用户的闭环管理，通过实时的场景数据获取分析，以及对用户偏好的理解，达到更主动更精准的提供有价值的服务，获得用户信任。而交互智能作为人机行为的接口，通过多种维度例如：人脸、手势、声纹、触摸等，更自然和高效的接受和理解用户意图，并提供反馈。

基于驾乘人员在驾驶过程中交互安全性和高效性的需求，也伴随人工智能技术语音识别领域的应用突破，当前智能网联车已形成语音为主、其他方式(触控、手势等)为辅的多模态交互体系，满足用户在不同场景的交互需求。然而，当前车载交互体系中各模态往往是独立作用，对于语音交互，因为语言表达的多样化和背景语境的缺乏，表达中需提供具体的描述性信息，帮助机器识别对话意图和执行对象，因此相较于人人交互不可避免的降低自然性。比如：舱内乘员想通过语音操控打开副驾的车窗，必须以如下方式说出：“打开副驾位置的车窗”；而无法采用类似人与人交互的方式，如：指向副驾车窗方位并说“打开它”。这是由于对话系统接收的语义信息中缺乏了人通过视线或动作等传达的信息，这些信息往往可由视觉系统来进行感知。

发明内容

有鉴于此，本申请提供一种车载语视融合多模态交互方法及系统，该交互方法及系统通过对语音、车辆相关的图像信息进行融合处理，以发声者同样的视角理解交互意图和执行对象。

为解决上述技术问题，本申请采用以下技术方案：

一方面，根据本发明实施例提供一种车载语视融合多模态交互方法，包括：

获取与当前车辆相关的图像信息，其中，所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种；

获取与所述图像信息同时间段内的车内驾乘人员的语音信息；

将所述图像信息与所述语音信息进行融合处理，得到推断结果；

基于所述推断结果，确定执行内容。

优选地，将所述图像信息与所述语音信息进行融合处理，得到推断结果，包括：

将所述图像信息与所述语音信息通过融合理解模型进行所述融合处理，其中所述融合理解模型根据样本通过机器学习方法训练形成。

对于所述图像信息进行视觉特征解析，得到特征数据包，所述特征数据包包括当前时间戳与结构化信息；

将所述特征数据包按照时间顺序进行排序并进行缓存；

对所述语音信息进行解析，得到意图理解以及语音特征；

对所述语音特征与缓存的所述特征数据包进行融合处理，得到依赖信息；

基于所述依赖信息与所述意图理解，得到所述推断结果。

优选地，所述特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。

优选地，对所述图像信息进行目标识别，得到所述结构化信息，所述结构化信息包括车外的结构化信息和/或车内的结构化信息，其中，

所述车外的结构化信息包括：车外目标及其属性的检测信息、车外道路的道路信息、车外标识的标识信息、车外的参考设施信息中的一种或多种，所述车内的结构化信息包括车内人员信息；

对所述图像信息进行特征提取，得到所述非结构化信息，所述非结构化特征数据包括感兴趣区域框、目标提案框、特征嵌入数据中的一种或多种；

对所述图像信息进行检测处理，得到所述检测信息，所述检测信息包括交通事件、驾乘状态和驾乘行为中的一种或多种；

对所述图像信息进行目标追踪，得到所述目标追踪数据，所述目标追踪数据至少包括环境目标追踪数据与车内目标追踪数据。

优选地，所述特征数据包中，同一物理目标的连续图像数据，附带有同样的身份标识。

优选地，将所述特征数据包按照时间顺序进行排序并进行缓存，包括：

所述特征数据包以第一目标为单元进行缓存，并设定缓存的所述特征数据包的生命周期，所述第一目标至少包括道路上或车内的人或物；以及，

一段所述图像信息序列中的同一个所述第一目标的若干特征数据更新在同一个缓存单元中。

优选地，对所述语音信息进行解析，得到意图理解以及语音特征，包括：

对所述语音信息进行解析，得到包括始时间的字符序列；

基于对所述字符序列的理解，得到所述意图理解及语音特征。

优选地，所述意图理解包括所述语音信息的序列始时间以及意图，所述语音特征包括关键语义槽位特征和/或语义嵌入特征。

优选地，所述意图包括执行指令或表述当前状态，所述依赖信息包括执行对象、执行方式；

基于所述执行指令，得到所述语音信息中的第二目标。

优选地，基于所述依赖信息与所述意图理解，得到所述推断结果，包括：

基于所述始时间、意图理解和语音特征，得到时间窗；

判断缓存的所述特征数据包是否全部参与融合推断处理；若否，

判断当前所述特征数据包的生命周期是否与所述时间窗有重叠；若是，

基于所述第二目标对应的所述语音特征与所述第一目标的属性及属性置信度，推断所述第一目标与第二目标的匹配置信度；

对所述特征数据包中的若干所述第一目标与第二目标的匹配置信度进行排序，并得出所述推断结果。

优选地，基于所述推断结果，确定执行内容，包括：

判断所述意图是否存在执行指令；

若存在，则根据所述执行指令以及所述依赖信息确定所述执行内容中的执行动作，其中，所述执行动作包括执行功能、执行对象和执行方式；

若不存在，则基于所述意图进行服务搜索，并基于搜索结果进行推荐。

第二方面，本发明还提供一种车载语视融合多模态交互系统，包括：

图像输入模块，其被配置用于获取与当前车辆相关的图像信息，其中，所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种；

语音输入模块，其被配置用于获取与所述图像信息同时间段内的车辆内的驾乘人员的语音信息；

语视融合理解模块，其被配置用于将所述图像信息与所述语音信息进行融合处理，得到推断结果；

应用决策模块，其被配置用于基于所述推断结果，确定执行内容。

第三方面，本发明还提供一种车机终端，所述车机终端包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行车载语视融合多模态交互方法。

第四方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器运行时，使得所述处理器执行车载语视融合多模态交互方法。

本申请的上述技术方案至少具有如下有益效果之一：

根据本申请实施例的一种车载语视融合多模态交互方法，通过获取与车辆相关的图像信息与车辆内的驾乘人员的语音信息并对二者进行融合处理，基于推断结果确定执行内容。该交互方法提升交互过程中的自然性，使得机器在对话时获得除语义之外更多维度的感知信息；该交互方法不仅在当前人驾驶为主的场景提供更便捷的“所见即可交互”的体验，也可在未来车辆具有自动驾驶能力后支撑类似人与人交互的表达方式给予车辆指令；通过语音、车外环境目标感知、对内摄像头感知用户姿态动作等融合处理，以发声者同样的视角理解交互意图和执行对象。

附图说明

图1为本发明实施例提供的场景示意图；

图2为本申请实施例的车载语视融合多模态交互方法的整体流程图；

图3为本申请实施例的车载语视融合多模态交互方法中融合处理的流程图；

图4为本申请实施例的车载语视融合多模态交互方法中基于依赖信息与意图理解获取推断结果的流程图；

图5为图4所示流程的逻辑示意图；

图6为本申请实施例的车载语视融合多模态交互系统的整体模块图；

图7为本申请一个实施例的车载语视融合多模态交互系统的模块图；

图8为本申请一个实施例的车载语视融合多模态交互系统的模块图；

图9为本申请一个实施例的车载语视融合多模态交互系统的应用决策模块的模块图；

图10为本申请一个实施例的车载语视融合多模态交互系统的视觉解析单元的模块图；

图11为本申请一个实施例的车载语视融合多模态交互系统的缓存单元的模块图图；

图12为本申请一个实施例的车载语视融合多模态交互系统的语音解析单元的模块图。

附图标记：

10、图像输入模块；20、语音输入模块；30、语视融合处理模块；310、融合理解模型单元；320、视觉解析单元；321、特征提取子单元；322、识别子单元；323、追踪子单元；324、检测子单元；325、身份标识子单元；330、缓存单元；331、第一目标缓存单元；332、第二目标缓存单元；333、第三目标存储单元；340、语音解析单元；341、解析子单元；342、理解子单元；343、意图子单元；344、语义特征提取子单元；350、融合单元；360、推断单元；40、应用决策模块；410、意图决策单元；420、意图执行单元；430、场景和画像信息单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了提升人机交互的自然性，让机器在对话时获取除语义之外更多纬度的感知信息，本发明实施例提供一种融合语音和视觉感知的多模态交互系统，该系统不仅在当前人驾驶为主的场景提供更便捷的“所见即所交互”体验，也可在车辆具备自动驾驶能力的情况下支撑类似人与人交互的表达方式给予车辆指令。例如：“停在右前方有公交站牌的地方”，或“跟着前方红色SUV转弯进停车库”。

图1示出了本发明实施例提供的场景框架示意图。如图1所示，当车上用户给予指令“跟着前面黑色的小轿车进入右边岔道”，根据本发明实施例提供的多模态交互系统将通过语音、车外环境目标感知、对内摄像头感知用户姿态动作等进行融合处理，以发声者同样的视角理解交互意图和执行对象。在车载环境中进行人机交互时需提供具体的描述性信息，在仅通过语音对话进行理解说话意图存在不准确性，通过本发明实施例提供的语音与视觉信息融合的方式，实现可见即可交互，提高表达自然性与准确性。

下面通过结合具体的附图对本申请的各个实施例进行详细的说明。

如图2所示，本申请一实施例提供的车载语视融合多模态交互方法，具体包括如下步骤：

S1、获取与当前车辆相关的图像信息，其中，图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种。

也就是说，根据交互内容的不同获取不同的图像信息，比如用户指令为“跟着前面黑色的小轿车进入右边岔道”，则需要获取道路前方路况信息与车辆周边路况信息的图像信息。

S2、获取与所述图像信息同时段内的车内驾乘人员的语音信息。

接收驾乘的语音对话输入，驾乘的语音包括但不限于座舱前排与后排mic。

S3、将图像信息与语音信息进行融合处理，得到推断结果。

也就是说，将步骤S1中的图像信息与步骤S2中的语音信息两种不同模式的数据同步进行解析和理解的融合处理。

S4、基于推断结果，确定执行内容。

本发明实施例提供的多模态交互方法，通过语音与视觉信息的融合，使得机器在对话过程中获取除语义以外更多维度的感知信息，提高交互过程中的自然性与准确性，给予当前驾驶员提供一种所见即可交互的用户体验，满足用户安全性与高效性的需求。

基于步骤S3中的推断结果输出理解的意图和下一阶段执行决策所需要的的关键信息。

在一实施例中，将图像信息与语音信息进行融合处理，得到推断结果(即步骤S3)包括：

也就是说，步骤S1中的图像信息与步骤S2中的语音信息两种不同模式的数据输入融合理解模型进行融合处理，其中融合理解模型根据样本通过机器学习方法训练形成。

在本实施例中通过大量的数据进行训练得到融合理解模型，利用该融合理解模型即可输出推断结果。该方法较为依赖融合理解模型，即融合理解模型的精度决定输出的推断结果的准确性。

在一实施例中，如图3所示，在步骤S3中包括如下步骤：

S31、对于图像信息进行视觉特征解析，得到特征数据包，特征数据包包括当前时间戳与结构化信息。

特征数据包包括参考同一个时钟源的当前时间戳。

在一实施例中，结构化信息包括车外的结构化信息和/或车内的结构化信息，其中，所述车外的结构化信息包括：车外目标及其属性的检测信息、车外道路的道路信息、车外标识的标识信息、车外的参考设施信息中的一种或多种，所述车内的结构化信息包括车内人员信息。

作为示例，车外目标及其属性的检测信息，比如：车辆、行人、车辆种类、车辆颜色、车辆方位、车辆牌照、车辆事件等。车外道路的结构化信息，比如：车道线及其类别、道路标识、相对自车的方位信息等。车外标识的结构化信息，比如：交通标志牌及其类别、形状、颜色、相对自车的方位信息等。车外可用于导航定位的典型设施，比如：公交车站、加油站、便利店、路口、高架桥和地标景观建筑等。目标属性包括但不限定：颜色、形状、类型。对应运动的目标还包括其速度、方位等。

车内驾乘人员的结构化信息，比如：驾驶座舱内的驾驶员、乘员、宠物、典型物品(如包等)、电脑、手机等。目标属性包括车内驾驶员和乘客的数量、性别、年龄、乘坐位置、乘坐时间以及各自的乘驾状态、注意力方向、动作等。另外，属性的数值为范围限定的分类值，则对于每一个属性，还应有对应的判别概率。比如，颜色可以包括但不限于：白、灰、黑、红、橙、黄、绿等；类型可以包括但不限于：小轿车、SUV、公交车、卡车等；方位包括但不限于：前方、左前方、右前方等。当然上述示例只是作为结构化信息的其中部分示例。

在一实施例中，特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。

对图像信息进行特征提取，得到非结构化信息，非结构化特征数据包括感兴趣区域框、目标提案框、特征嵌入数据中的一种或多种。优选地，通过规则计算或机器学习模型从图像信息中提取对车载内、外摄像头输入的图像数据进行计算提取非结构化特征数据。

对图像信息进行检测处理，得到检测信息，检测信息包括交通事件、驾乘状态和驾乘行为中的一种或多种。基于预设的算法规则对第一目标的行为或状态进行检测；或者，基于机器学习模型对一个或多个第一目标在一段连续的图像序列中发生的事件进行检测，得到目标检测信息。利用算法规则或机器学习模型对第一目标的状态进行检测，比如：驾乘人员的精神状态(正常、分神、疲劳、情绪激动等)。对第一目标的行为进行检测，比如：乘员在打电话、抽烟、休息、化妆、阅读、看向车内某个区域、指向某个方位和座舱内的物品或其他乘客的互动等。还可以包括对第一目标的事件进行检测，比如交通违章事件(违章变道、违章停车等)。

对图像信息进行目标追踪，得到目标追踪数据，目标追踪数据至少包括环境目标追踪数据与车内目标追踪数据。

进一步的，在特征数据包中，同一物理目标的连续图像数据，附带有同样的身份标识。

也就是说，将连续的图像信息序列中识别到的相同的第一目标赋予同一个id，得到连续图像数据。对于一段图像序列中的同一个目标id不变，比如对于一个自车摄像头图片覆盖的机动车目标，其属性包括：开始缓存时间、类别、车类型、颜色、与自车的方位关系、历史轨迹、与相邻车辆的方位关系等，还包括参与的交通事件与多分类标签的判决概率等。

在一实施例中，还包括对获取的图像信息进行预处理，也就是说，将输入的前视摄像头或内视摄像头做特定的预处理，预处理包括：图像尺寸变换、格式转换、图像矫正、图像增强，当然上述预处理只是示例性，还可以包括其他预处理方式。

S32、将特征数据包按照时间顺序进行排序并进行缓存。

也就是说，将步骤S31中解析得到的若干特征数据包按照时间顺序进行排序用于索引，以支持交互过程中对应历史信息的回溯计算。

在一实施例中，特征数据包以第一目标为单元进行缓存，并设定缓存的特征数据包的生命周期，第一目标至少包括道路上或车内的人或物；以及，一段图像信息序列中的同一个第一目标的若干特征数据更新在同一个缓存单元中。特征数据包的生命周期以先进先出的原则对过期信息进行覆盖或删除。特征数据包的生命周期为其预设的最大存储时长Tmax，如果开始缓存时间Ts与当前帧时间T0的时间差超过Tmax，则对该目标单元进行删除或覆盖。

S33、对语音信息进行解析，得到意图理解以及语音特征。

意图理解与语音特征包括但不限于：指令时间、意图、关键语义槽位和语义特征嵌入。比如：当语音输入为“停靠在前方红色的SUV右边的车位”，则解析输出的意图为“停靠车位”，关键词槽位为“前方”、“红色”、“SUV”和“右边”。

进一步的，对语音信息进行解析，得到包括始时间的字符序列；基于对字符序列的理解，得到意图理解及语音特征。其中，意图理解包括语音信息的序列始时间以及意图，语音特征包括关键语义槽位特征和/或语义嵌入特征。

S34、对语音特征与缓存的特征数据包进行融合处理，得到依赖信息。

进一步的，意图包括执行指令或表述当前状态，依赖信息包括执行对象、执行方式；基于执行指令，得到语音信息中的第二目标。比如：当语音输入为“停靠在前方红色的SUV右边的车位”，其中“车位”即是语音信息中的第二目标。

S35、基于依赖信息与意图理解，得到推断结果。

在一实施例中，如图4与图5所示，在步骤S35中包括如下步骤：

S351、基于始时间、意图理解和语音特征，得到时间窗。

其中，始时间是系统接收到语音指令的时间，根据意图理解与语音特征确定推断时间长度T_reason，用于后续回溯计算的时间跨度参考。比如：语音执行指令为“前方有超速违章拍照”，系统在接收到该语音执行指令后将在始时间后的一段时间进行执行。又比如：系统接收的语音指令为“刚刚是不是经过某某专卖店，现在导航回去”，系统接收到该指令后则将获取在始时间之前的一段时间的信息。故一般的，时间窗根据意图理解与语音特征进行设定时间窗。时间窗的公式包括：

T_reason＝T_pre+T_post；

其中，T_pre为语音执行指令之后的一段时间，T_post为语音执行指令之前的一段时间。

用于融合推断处理的时间窗P_reason为：

[T_query-T_per，T_query-T_post]；其中，T_query为语音指令的始时间。

S352、判断缓存的所述特征数据包是否全部参与融合推断处理；若否，进入步骤S353；若是，则进行排序得出融合结果即进入步骤S355。

S353、判断当前所述特征数据包的生命周期是否与所述时间窗有重叠。

通过判断生命周期与时间窗是否有重叠来判断当前目标单元是否参与融合处理；若是，进入步骤S354；

S354、基于所述第二目标对应的所述语音特征与所述第一目标的属性及属性置信度，推断所述第一目标与第二目标的匹配置信度；比如：用户指令为“停靠在前方红色的SUV右边的车位”，语音信息中的红色SUV即为第二目标，将缓存的第一目标的属性及其属性置信度与第二目标进行匹配。

在一实施例中，推断处理包括但不限于如下步骤：

计算第二目标的某个属性qlabel_i与目标单元中的某个属性vlabel_i之间的距离di，di可以用如下公式表示：

d_i＝f(qlabel_i,vlabel_i,prob_i)；

进一步的，计算第二目标的所有属性与目标单元中描述标签的距离之和Di，Di可以用如下公式表示：

其中，w_i为属性对应的权重。

S355、对所述特征数据包中的若干所述第一目标与第二目标的匹配置信度进行排序，并得出所述推断结果。输出的推断结果包括但不限于：用户在交互中所指代的第二目标，或是与第二目标相关联的可操作对象。

在一实施例中，基于推断结果，确定执行内容(即步骤S4)包括：

判断意图是否存在执行指令；

若存在，则根据执行指令以及依赖信息确定执行内容中的执行动作，其中，执行动作包括执行功能、执行对象和执行方式；

若不存在，则基于意图进行服务搜索，并基于搜索结果进行推荐。

作为一个示例，比如：语音指令为“停靠在前方红色的SUV的右边的车位”该指令将输出明确的指令意图即“停靠车位”，则启动自动泊车的功能，根据融合推断结果定位到相应的目标车位。而对于无明确执行指令的意图，比如:用户表述为“前面的景色真不错”的感叹，系统识别到用户所描述的景象为“夕阳”，则会根据场景进行主动服务推荐计算，比如：推送景点信息等。本发明实施例更加自然与高效的接收和理解用户意图，并提供反馈，满足用户在不同场景的交互需求。

本发明还提供一种车载语视融合多模态交互系统，如图6所示，包括：

图像输入模块10用于获取与当前车辆相关的图像信息，其中，所述图像信息包括道路前方路况信息、车辆周边路况信息和车内驾乘信息中的一种或多种；

语音输入模块20用于获取与所述图像信息同时间段内的车辆内的驾乘人员的语音信息；

语视融合处理模块30用于将所述图像信息与所述语音信息进行融合处理，得到推断结果；

应用决策模块40用于基于所述推断结果，确定执行内容。

在一实施例中，如图7所示，所述语视融合处理模块30包括融合理解模型单元310，融合理解模型单元310用于将所述图像信息与所述语音信息通过融合理解模型进行所述融合处理，其中所述融合理解模型根据样本通过机器学习方法训练形成。

在一实施例中，如图8所示，语视融合处理模块30包括视觉解析单元320、缓存单元330、语音解析单元340、融合单元350和推断单元360。

视觉解析单元320用于对于所述图像信息进行视觉特征解析，得到特征数据包，所述特征数据包包括当前时间戳与结构化信息。

进一步的，特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。

缓存单元330用于将所述特征数据包按照时间顺序进行排序并进行缓存。

语音解析单元340用于对所述语音信息进行解析，得到意图理解以及语音特征。

融合单元350用于对所述语音特征与缓存的所述特征数据包进行融合处理，得到依赖信息。

推断单元360用于基于所述依赖信息与所述意图理解，得到所述推断结果。

进一步的，如图10所示，视觉解析单元320包括识别子单元322，识别子单元322用于对所述图像信息进行目标识别，得到所述结构化信息，所述结构化信息包括车外的结构化信息和/或车内的结构化信息，其中，所述车外的结构化信息包括：车外目标及其属性的检测信息、车外道路的道路信息、车外标识的标识信息、车外的参考设施信息中的一种或多种，所述车内的结构化信息包括车内人员信息。

视觉解析单元还包括特征提取子单元321，特征提取子单元321用于对所述图像信息进行特征提取，得到所述非结构化信息，所述非结构化特征数据包括感兴趣区域框、目标提案框、特征嵌入数据中的一种或多种。

视觉解析单元320还包括检测子单元324，检测子单元324用于对所述图像信息进行检测处理，得到所述检测信息，所述检测信息包括交通事件、驾乘状态和驾乘行为中的一种或多种。

视觉解析单元320还包括追踪子单元323，追踪子单元323用于对所述图像信息进行目标追踪，得到所述目标追踪数据，所述目标追踪数据至少包括环境目标追踪数据与车内目标追踪数据。

进一步的，视觉解析单元320还包括身份标识子单元325，身份标识子单元325用于所述特征数据包中，同一物理目标的连续图像数据，附带有同样的身份标识。

进一步的，如图11所示，缓存单元330包括第一目标缓存子单元331，第一目标缓存子单元331用于所述特征数据包以第一目标为单元进行缓存，并设定缓存的所述特征数据包的生命周期，所述第一目标至少包括道路上或车内的人或物；以及，

一段所述图像信息序列中的同一个所述第一目标的若干特征数据更新在同一个缓存单元中。例如图11中的第一目标缓存单元、第二目标缓存单元和第三目标缓存单元。

进一步的，如图12所示，语音解析单元340包括解析子单元341，解析子单元341用于对所述语音信息进行解析，得到包括始时间的字符序列。

语音解析单元340包括理解子单元342，理解子单元342用于基于对所述字符序列的理解，得到所述意图理解及语音特征。

进一步的，语音解析单元340还包括语义特征提取子单元344，语义特征提取子单元344用于基于意图理解提取语音信息的序列始时间以及意图，所述语音特征包括关键语义槽位特征和/或语义嵌入特征。

进一步的，语音解析单元340还包括意图子单元343，意图子单元343用于所述意图包括执行指令或表述当前状态，所述依赖信息包括执行对象、执行方式；基于所述执行指令，得到所述语音信息中的第二目标。

在一实施例中，推断单元360包括时间窗子单元、判断子单元、推断子单元和排序子单元。

时间窗子单元用于基于所述始时间、意图理解和语音特征，得到时间窗。

判断子单元用于判断缓存的所述特征数据包是否全部参与融合推断处理；若否，

判断当前所述特征数据包的生命周期是否与所述时间窗有重叠。

推断子单元用于基于所述第二目标对应的所述语音特征与所述第一目标的属性及属性置信度，推断所述第一目标与第二目标的匹配置信度。

排序子单元用于对所述特征数据包中的若干所述第一目标与第二目标的匹配置信度进行排序，并得出所述推断结果。

在一实施例中，如图9所示，应用决策模块40包括意图决策单元410、意图执行单元420和场景和画像信息单元430。

意图决策单元410用于判断所述意图是否存在执行指令；

意图执行单元420用于根据所述执行指令以及所述依赖信息确定所述执行内容中的执行动作，其中，所述执行动作包括执行功能、执行对象和执行方式。

场景和画像信息单元430用于基于所述意图进行服务搜索，并基于搜索结果进行推荐。

本发明还提供一种车机终端，所述车机终端包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行上述一种车载语视融合多模态交互方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器运行时，使得所述处理器执行上述一种车载语视融合多模态交互方法。

需要说明的是，在本专利的示例和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者装置中还存在另外的相同要素。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种车载语视融合多模态交互方法，其特征在于，包括：

基于所述推断结果，确定执行内容；

将所述图像信息与所述语音信息进行融合处理，得到推断结果，包括：

将所述特征数据包按照时间顺序进行排序并进行缓存；

对所述语音信息进行解析，得到意图理解以及语音特征；

基于所述依赖信息与所述意图理解，得到所述推断结果；

将所述特征数据包按照时间顺序进行排序并进行缓存，包括：

一段所述图像信息序列中的同一个所述第一目标的若干特征数据更新在同一个缓存单元中；

所述意图理解包括所述语音信息的序列始时间以及意图，所述语音特征包括关键语义槽位特征和/或语义嵌入特征

所述意图包括执行指令或表述当前状态，所述依赖信息包括执行对象、执行方式；

基于所述执行指令，得到所述语音信息中的第二目标；

基于所述依赖信息与所述意图理解，得到所述推断结果，包括：

基于所述始时间、意图理解和语音特征，得到时间窗；

2.根据权利要求1所述的方法，其特征在于，所述特征数据包还包括非结构化特征数据、检测信息和目标追踪数据中的一种或多种。

3.根据权利要求2所述的方法，其特征在于，对所述图像信息进行目标识别，得到所述结构化信息，所述结构化信息包括车外的结构化信息和/或车内的结构化信息，其中，

4.根据权利要求2所述的方法，其特征在于，所述特征数据包中，同一物理目标的连续图像数据，附带有同样的身份标识。

5.根据权利要求1所述的方法，其特征在于，对所述语音信息进行解析，得到意图理解以及语音特征，包括：

对所述语音信息进行解析，得到包括始时间的字符序列；

6.根据权利要求1所述的方法，其特征在于，基于所述推断结果，确定执行内容，包括：

判断所述意图是否存在执行指令；

7.一种车载语视融合多模态交互系统，其特征在于，包括：

语视融合处理模块，其被配置用于将所述图像信息与所述语音信息进行融合处理，得到推断结果；

应用决策模块，其被配置用于基于所述推断结果，确定执行内容；

所述语视融合处理模块包括：

视觉解析单元，其被配置用于对于所述图像信息进行视觉特征解析，得到特征数据包，所述特征数据包包括当前时间戳与结构化信息；

缓存单元，其被配置用于将所述特征数据包按照时间顺序进行排序并进行缓存；

语音解析单元，其被配置用于对所述语音信息进行解析，得到意图理解以及语音特征；

融合单元，其被配置用于对所述语音特征与缓存的所述特征数据包进行融合处理，得到依赖信息；

推断单元，其被配置用于基于所述依赖信息与所述意图理解，得到所述推断结果；

所述缓存单元包括第一目标缓存子单元，所述第一目标缓存子单元用于所述特征数据包以第一目标为单元进行缓存，并设定缓存的所述特征数据包的生命周期，所述第一目标至少包括道路上或车内的人或物；以及，

所述语音解析单元还包括语义特征提取子单元，所述语义特征提取子单元用于基于意图理解提取语音信息的序列始时间以及意图，所述语音特征包括关键语义槽位特征和/或语义嵌入特征；

所述语音解析单元还包括意图子单元，所述意图子单元用于所述意图包括执行指令或表述当前状态，所述依赖信息包括执行对象、执行方式；基于所述执行指令，得到所述语音信息中的第二目标；

所述推断单元包括：

时间窗子单元，其被配置用于基于所述始时间、意图理解和语音特征，得到时间窗；

判断子单元，其被配置用于判断缓存的所述特征数据包是否全部参与融合推断处理；若否，判断当前所述特征数据包的生命周期是否与所述时间窗有重叠；

推断子单元，其被配置用于基于所述第二目标对应的所述语音特征与所述第一目标的属性及属性置信度，推断所述第一目标与第二目标的匹配置信度；

排序子单元，其被配置用于对所述特征数据包中的若干所述第一目标与第二目标的匹配置信度进行排序，并得出所述推断结果。

8.一种车机终端，其特征在于，所述车机终端包括：处理器；和存储器，在所述存储器中存储有计算机程序指令，其中，在所述计算机程序指令被所述处理器运行时，使得所述处理器执行如权利要求1-6任一项所述的方法。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器运行时，使得所述处理器执行如权利要求1-6任一项所述的方法。