CN111966320B

CN111966320B - 用于车辆的多模态交互方法、存储介质以及电子设备

Info

Publication number: CN111966320B
Application number: CN202010778862.2A
Authority: CN
Inventors: 李林峰; 黄海荣; 刘晓俊
Original assignee: Hubei Ecarx Technology Co Ltd
Current assignee: Ecarx Hubei Tech Co Ltd
Priority date: 2020-08-05
Filing date: 2020-08-05
Publication date: 2022-02-01
Anticipated expiration: 2040-08-05
Also published as: CN111966320A

Abstract

本发明提供了一种用于车辆的多模态交互方法、存储介质以及电子设备，在多模态交互方法中，可对车内语音信号进行自然语言处理识别以得到文本对应的意图描述和文本中包括的词槽，同时可对车内图像进行动作识别以得到动作类型，进而基于文本对应的意图描述和动作类型对应的意图描述进行融合处理以得到融合后的意图。使用本发明可以在语音交互的基础上，通过对车内图像进行动作识别后的动作类型来判断用户意图，使得车机语音交互系统能够融合语音和动作的多模态进行用户意图的理解，进而更准确理解用户意图，以便更好地和用户进行交互，从而提升用户体验。

Description

用于车辆的多模态交互方法、存储介质以及电子设备

技术领域

本发明涉及人工智能算法技术领域，特别是涉及一种用于车辆的多模态交互方法、存储介质以及电子设备。

背景技术

现有的车机语音交互系统一般通过语音和用户进行交互，其主要是由语音识别模块、自然语言处理模块、对话管理模块、命令意图处理模块、回复生成模块以及文字转语音模块构成。

语音识别模块在对车内语音信号进行语音识别处理时，由于车内通常存在各种噪声，例如，路噪、风噪、发动机等机械构件噪声等，这些噪声会和用户发出的语音命令叠加，容易造成语音识别模块识别错误，从而导致车机语音交互系统不能正确理解用户意图，用户体验较差。此外，车内除了存在噪声外，还存在噪声以外的其它声音，例如，交谈声音、手机播放的音乐声等与用户命令语音无关的背景语音，这样一来，车机语音交互系统在和用户进行语音交互时，不能够准确分辨出用户命令语音和背景语音，从而也会导致车机语音交互系统不能正确理解用户意图，降低了用户使用体验。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的用于车辆的多模态交互方法、存储介质以及电子设备。

本发明的一个的目的是要融合语音信号对应的意图描述和动作类型对应的意图描述来准确判断用户的意图，以便更准确、更方便的和用户交互。

本发明的一个进一步的目的是通过将动作类型对应的动作与预设场景下的预期动作进行比较来判断动作是否有效，从而更好的理解用户意图。

本发明的又一个进一步的目的是在特定的预设场景下开启图像采集设备以采集车内图像，避免图像采集设备一直处于开启状态导致资源浪费。

特别地，本发明提供了一种用于车辆的多模态交互方法，其包括：

基于获取到的车内语音信号进行自然语言处理识别，得到文本对应的意图描述和文本中包括的词槽，该文本为基于获取到的车内语音信号进行语音转文字处理后得到的文本；

基于获取到的车内图像进行动作识别，得到动作类型，并确定与动作类型对应的意图描述；

基于文本对应的意图描述和动作类型对应的意图描述融合处理，得到融合后的意图描述，并确定与融合后的意图描述对应的内容服务商；

将融合后的意图描述和文本中包括的词槽发送至内容服务商，接收内容服务商基于融合后的意图描述和文本中包括的词槽反馈的查询结果；

基于查询结果生成对话命令格式的查询内容。

可选地，基于文本对应的意图描述和动作类型对应的意图描述进行融合处理，得到融合后的意图描述包括：

判断动作类型对应的动作是否有效；

若有效，则将文本对应的意图描述和动作类型对应的意图描述进行融合，得到融合后的意图描述；

若无效，则将文本对应的意图描述作为融合后的意图描述。

可选地，判断动作类型对应的动作是否有效包括：

获取当前对话的对话信息，对话信息包括垂域、场景描述、对话状态和支持动作；

根据对话信息判断当前对话的场景是否为预设场景；

在判定当前对话的场景为预设场景时，将动作和预设场景下的预期动作进行比较，判断动作与预期动作是否相匹配；

在动作与预期动作相匹配时，判定动作类型对应的动作有效；

在动作与预期动作不匹配时，判定动作类型对应的动作无效。

可选地，获取当前对话的对话信息包括：

获取当前对话的历史对话的历史文本对应的意图描述和历史文本中包括的历史词槽，历史文本为基于历史获取到的车内语音信号进行语音转文字处理后得到的历史文本；

根据历史文本对应的意图描述和历史词槽，以及文本对应的意图描述和文本中包括的词槽，获取当前对话的对话信息。

可选地，将文本对应的意图描述和动作类型对应的意图描述进行融合，得到融合后的意图描述包括：

判断文本对应的意图描述和动作类型对应的意图描述是否相符合；

若不符合，则选择动作类型对应的意图描述作为融合后的意图描述；

若符合，则选择文本对应的意图描述或动作类型对应的意图描述作为融合后的意图描述。

可选地，在判定当前对话的场景为预设场景之后，还包括：

控制开启图像采集设备以采集车内图像。

可选地，基于获取到的车内语音信号进行自然语言处理识别，得到文本对应的意图描述和文本中包括的词槽包括：

将车内语音信号转换成文本；

对文本进行分类处理，得到文本的至少一个类别标签以及该至少一个类别标签的置信度；

根据置信度从至少一个类别标签中选择最佳的类别标签作为文本对应的意图描述；

对文本进行命名实体识别处理，得到词槽。

可选地，基于查询结果生成对话命令格式的查询内容包括：

按照预设的特定用户命令对查询结果进行调整；

基于调整后的查询结果生成对话命令格式的查询内容。

特别地，本发明还提供了一种存储介质，存储介质存储有计算机程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上述任一的用于车辆的多模态交互方法。

特别地，本发明还提供了一种电子设备，其包括：

处理器；

存储器，存储有计算机程序代码，当计算机程序代码被处理器运行时，导致电子设备执行上述任一的用于车辆的多模态交互方法。

本发明通过对车内语音信号进行自然语言处理识别以及对多车内图像进行动作识别，得到文本对应的意图描述、文本中包括的词槽和动作类型，进而在确定动作类型对应的意图描述后，融合文本对应的意图描述和动作类型对应的意图描述，得到融合后的意图描述，然后，将融合后的意图描述和文本中包括的词槽发送至与融合后的意图描述对应的内容服务商，并接收内容服务商基于融合后的意图描述和文本中包括的词槽反馈的查询结果，之后，基于查询结果生成对话命令格式的查询内容。采用本发明的方案可以在语音交互的基础上，通过对车内图像进行动作识别后的动作类型来判断用户意图，使得车机对用户的意图理解更准确，更方便和用户交互，从而提升用户体验。

进一步地，本发明通过将动作类型对应的动作与预设场景下的预期动作进行比较来判断动作是否有效，进而在动作无效时，能够通过语音理解用户意图，在动作有效时，能够通过语音和动作的融合来理解用户意图，使得对用户意图的理解更灵活。

更进一步地，本发明在特定的预设场景下开启图像采集设备以采集车内图像，避免图像采集设备一直处于开启状态导致资源浪费。

根据下文结合附图对本发明具体实施例的详细描述，本领域技术人员将会更加明了本发明的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本发明的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是现有的车机语音交互系统的示意性结构框图；

图2是现有的车机语音交互系统支持多轮对话的示意图，其中示出了用户与车机语音交互系统的一种多轮确认和多轮选择的语音交互示意；

图3是根据本发明一个实施例的用于车辆的多模态交互方法；

图4是一种典型的双流卷积网络；

图5是使用TSM进行动作识别过程中的空间卷积矩阵示意图；

图6是一种特征映射在时间轴上的移位示意图；

图7是另一种特征映射在时间轴上的移位示意图；

图8是根据本发明一个实施例的进行动作识别的MobileNet+TSM架构示意图；

图9是根据本发明一个实施例的用于车辆的多模态交互方法的示意性逻辑图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1是现有的车机语音交互系统100的示意性结构框图。如图1所示，现有的车机语音交互系统100主要由语音识别模块110、自然语言处理模块120、对话管理模块130、命令意图处理模块140、回复生成模块150以及文字转语音模块160。其中，语音识别模块110用于接收车内语音信号，对车内语音信号进行语音识别后输出对应的文本。自然语言处理模块120用于从语言识别模块接收文本，对文本进行自然语言理解识别后输出文本对应的意图描述和文本中包括的词槽。对话管理模块130用于对车机语音交互系统中控制人机对话的过程，根据历史对话信息，决定此刻对用户的反应。命令意图处理模块140用于将文本对应的意图描述和文本中包括的词槽发送给对应的内容服务商200，并接收内容服务商200基于文本对应的意图描述和文本中包括的词槽反馈的语音查询结果。回复生成模块150用于基于语音查询结果生成对话命令格式的语音查询内容。文字转语音模块160用于将语音查询内容转换成语音输出。

图2是现有的车机语音交互系统支持多轮对话的示意图，其中示出了用户与车机语音交互系统的一种多轮确认和多轮选择的语音交互示意。如图2所示，多轮确认的语音交互过程为：首先用户可发送命令，如，帮我买明天上午10点钟从北京去上海的火车票，其次，车机语音交互系统可响应于用户发送的命令反馈语音形式的确认询问给用户，如，已查询到火车票，确认购买吗？最后，用户可对车机语音交互系统反馈的确认询问给出语音形式的确认回复或否认回复，如，确认回复为是的，从而完成了一种多轮确认的语音交互。多轮选择的语音交互过程为：首先用户可发送命令，如，帮我查一下附近的大酒店，其次，车机语音交互系统可响应于用户发送的命令反馈语音形式的选择询问给用户，如，查询到如下酒店，请选择查看详情，最后，用户可对车机语音交互系统反馈的确认询问给出语音形式的选择回复，如，第二个或下一个，从而完成了一种多轮选择的语音交互。

为解决上述技术问题，本发明实施例提供了一种用于车辆的多模态交互方法，该多模态的交互方法能够融合语言和动作等多模态进行用户意图理解，进而能够更准确理解用户意图，从而提升用户体验。图3是根据本发明一个实施例的用于车辆的多模态交互方法。如图3所示，该实施例的用于车辆的多模态交互方法至少包括步骤S302至步骤310。

步骤S302，基于获取到的车内语音信号进行自然语言处理识别，得到文本对应的意图描述和文本中包括的词槽。这里的文本为基于获取到的车内语音信号进行语音转文字处理后得到的文本。

步骤S304，基于获取到的车内图像进行动作识别，得到动作类型，并确定与动作类型对应的意图描述。获取到的车内图像可以为单帧图像，也可以是多帧图像。动作类型可如表2中的支持动作一栏以及如表3中的名字一栏所示。

步骤S306，基于文本对应的意图描述和动作类型对应的意图描述进行融合处理，得到融合后的意图描述，并确定与融合后的意图描述对应的内容服务商。

步骤S308，将融合后的意图描述和文本中包括的词槽发送至内容服务商，接收内容服务商基于融合后的意图描述和文本中包括的词槽反馈的查询结果。

步骤S310，基于查询结果生成对话命令格式的查询内容。

采用本发明实施例可以在语音交互的基础上，通过对车内图像进行动作识别后的动作类型来判断用户意图，使得车机语音交互系统能够融合语音和动作的多模态进行用户意图的理解，进而能够更准确理解用户意图，以便更好地和用户进行交互，从而提升用户体验。

在执行步骤S302之前，需要先获取车内语音信号。车内语音信号可以包括用户的语音信号，也可以包括噪声等音频信号。用户的语音信号进一步又可包括用户命令语音对应的音频信号和背景语音对应的音频信号。在一实施例中，车内语音信号可通过设置在车辆上的麦克风采集。在另一些实施例中，用于车辆的多模态交互方法可适用于移动终端(如，手机)，此时，车内语音信号还可通过移动终端的扬声器采集。

对于步骤S302，本发明一实施例提供了一种实施方式，即首先将获取到的车内语音信号转换成文本，接着对文本进行分类处理，以得到文本的至少一个类别标签以及该至少一个类别标签的置信度，进而根据置信度从至少一个类别标签中选择最佳的类别标签作为文本对应的意图描述，同时对文本进行命名实体识别处理，以得到文本中包括的词槽。每一个类别标签代表一种意图描述，置信度则代表每一个类别标签对应的类别的概率。置信度的值可设置为0～1的浮点数，值越大代表概率越大，从而类别标签对应的类别的可信度则越大，此时，与类别标签对应的意图描述也越符合实际的用户意图。这里的最佳的类别标签可以理解为可信度最大的类别对应的类别标签，也即是置信度最大的类别标签。基于该实施例的方案，由于选择了最佳的类别标签作为文本对应的意图描述，因此，可以提升对用户意图理解的准确性。

命令实体识别处理可以使用双向长短期记忆网络(Long-Short Term Memory，LSTM)来实现。通过对文本进行命令实体识别处理，不仅可以获得文本中包括的词槽和词槽类型，还可以获得词槽在文本中对应的位置，以便于理解用户意图。举例而言，假设文本为：我要听刘德华的忘情水，进行命名实体识别处理后可得到如下表1的处理结果：

表1

Name	类型	Start	End
				刘德华	歌手	4	6
忘情水	歌名	8	10

表中Name一栏中的“刘德华”和“忘情水”即为文本中包括的词槽，Starst和End两栏中的数字为词槽在文本中的位置。

需要说明的是，对文本的分类处理和命名实体识别处理可以是统计模型的，也可以是基于神经网络的，本发明对此不作限制。

在执行步骤S304之前，需要先获取车内图像，具体的，可通过图像采集设备(如，摄像头)获取车内图像。车内图像可为图像采集设备采集的单帧图像，也可以是多帧图像。在支持单目标动作识别的情况下，也就是每一帧图像中只能识别出一个人的动作，此时，可将图像采集设备设置在对准驾驶员的位置，以使图像采集设备能够采集到驾驶员的图像，进而对采集到驾驶员的图像进行动作识别，从而识别出驾驶员的动作，以用于交互。

对于步骤S304中的确定与动作类型对应的意图描述，具体可预先建立动作类型和意图描述之间的映射关系，在通过动作识别得到动作类型后，进而根据映射关系确定与动作类型对应的意图描述。

对于步骤S304中的基于获取到的车内图像进行动作识别，可以以双流卷积网络架构：空间流卷积网络和时间流卷积网络进行动作识别。空间流是指传统的二维静态图像，通过神经网络来提取特征，例如多种卷积核的卷积、池化来提取图像特征。时间流是指采集一个时间段的视频流，利用神经网络来提取不同帧的特征。双流卷积网络(two-streamconvNet)同时集合了空域和时域的不同特征，融合起来分类出目标动作。

图4是一种典型的双流卷积网络。如图4所示，当对一段视频进行基于双流卷积网络的动作识别时，首先需要将这一段视频分流为2路，以分别进行空间域处理和时间域处理，得到空间域处理结果以及时间域处理结果，之后将这两个处理结果融合分类，即可分类出最终的动作。空间域处理过程主要是将分流后的一路视频流进行图片采样处理，以将该路视频流抽样为一副图片，进而进行卷积/池化、全连接、sofmax(即，归一化概率)等处理，以得到空间域处理结果。时间域处理过程主要是将分流后的另一路视频流中的每一帧图像取出来，进而计算每一个连续的前后帧之间的光流，然后也是进行卷积/池化、全连接、归一化概率等处理，以得到时间域处理结果。这里的卷积/池化、全连接均可进行一次或多次。

光流是指提取的连续两帧之间的关系的特征，每一个像素提取两个特征，称为移动矢量场。一段视频的空间光流就是w*h*2*p，其中参数w是图像宽度，参数h是图像高度，参数p是视频帧数。

归一化概率的目的是将各个分类映射成为(0,1)的值，这些值的累积和为1满足概率的性质。

融合分类的过程即是将空间域处理结果以及时间域处理结果综合起来，得出最终的分类。融合分类可以为直接简单的比较概率大小，以选取概率大的处理结果对应的分类的动作作为最终的识别的动作，也可以是对空间域处理结果以及时间域处理结果加上设定权重后进行比较，以确定最终的识别的动作。

另外，也可对车内图像使用改进型双流卷积网络、时域移位网络(Temporal ShiftModule，简称TSM)进行动作识别。

TSM为使用若干层的二维空间卷积提取特征的时域移位网络。其处理过程为：首先将一段视频分成若干副图片，然后经过空间卷积以后输出如图5所示的矩阵[w,h,c,t]，这就相当于在原来的图像卷积结果上增加了时间维度，其中参数w是图像宽度，参数h是图像高度，参数c是图像通道数，参数t是采样的图像帧数。图5中示出的第一行可代表某一时刻所有通道的图像特征，每一行代表每一时刻，也就是每一帧的特征映射。使用TSM进行动作识别就是在每一层卷积以后加入了移位操作，移位的对象是如图5所示的矩阵[w,h,c,t]。

图6是一种特征映射在时间轴上的移位示意图。如图6所示，相邻的前4个通道中每2个通道内容进行前后移位，且移位方向相反，其中2个通道往前移动，2个通道往后移动。例如第3/4通道(如图6示出的第三列)T时刻用T-1时刻的内容，T-1时刻用T-2时刻的内容，0时刻用0补充，原始的T时刻内容丢弃。图7是另一种特征映射在时间轴上的移位示意图。如图7所示，相邻的前4个通道中每2个通道内容进行循环移位，例如4个通道分成2路以顺时针方向移动。

需要说明的是，在进行时域移位中每次参与的通道数不能太多，太多了就会破坏原有每一帧的特征映射，例如所有通道都参与移位，则在同一时刻没有一行(代表原始图像)数据是原始数据，这样会丢失原始图像在空间域的二维特征。然而，如果参与移动的通道太少，就不能够获取足够的时域特征，不利于图像识别，为解决此问题可使用残差连接各时域移位。

在一些实施例中，在根据车内图像进行动作识别时，可选择用于图像识别的多层卷积网络，如MobileNet、ResNet、AlexNet、VGG等作为基础框架，来采集静态二维图像的特征映射，同时加入TSM，来获取一段视频不同时间段，也就是时域的特征映射，最终考虑了空间、时间域的特征分类出动作。优选可使用如图8所示的MobileNet+TSM架构。由于MobileNet卷积过程使用了深度可分离卷积，与普通卷积相比，大大降低了计算量，同时权重参数规模也显著变小。

执行步骤S306，在基于文本对应的意图描述和动作类型对应的意图描述进行融合处理时，可以首先判断动作类型对应的动作是否有效，若有效，则将文本对应的意图描述和动作类型对应的意图描述进行融合，得到融合后的意图描述。若无效，则将文本对应的意图描述作为融合后的意图描述。通过对动作类型对应的动作的有效性进行判断，使得融合后的意图描述具有多样性，即可以是文本对应的意图描述和动作类型对应的意图描述的融合，也可以是单独的文本对应的意图描述，从而增加交互的灵活性。

考虑到车内语音信号存在干扰信号和背景噪声等音频信号，所以自然语言处理识别的置信度不高，因此，在文本对应的意图描述和动作类型对应的意图描述进行融合时，可以设定动作类型对应的意图描述的优先级大于文本对应的意图描述。也就是说，当自然语言处理识别出的文本对应的意图描述和文本中包括的词槽与动作识别出的动作类型对应的意图描述不匹配时，会优先选择动作识别出的动作类型对应的意图描述作为最终的用户意图描述。例如，在等待确认的场景下，基于获取到的车内语音信号进行语音转文字处理后得到的文本为：你是谁，而基于获取到的车内图像进行动作识别的动作类型为“确定”，因为在此等待确认场景下只有“是”或者“不是”等确认语句是合法的，这时采用动作识别出的“确定”来确定用户意图，而语音转文字处理后得到的文本“你是谁”可能是背景噪声。

考虑到并不是所有动作都是有效的，特定场景只有特定动作是有效的，比如在“确认”场景，只有“确认”“否认”动作是有意义的，在这个场景下其余动作都被忽略掉。针对这种情况，在一实施例中，可以获取当前对话的对话信息，进而根据对话信息判断当前对话的场景是否为预设场景，然后在判定当前对话的场景为预设场景时，将动作和预设场景下的预期动作进行比较，以判断动作与预期动作是否相匹配，从而在动作与预期动作相匹配时，判定动作类型对应的动作有效，在动作与预期动作不匹配时，判定动作类型对应的动作无效。例如，假设在等待确认的某一场景中，动作识别出“点头”或者“摇头”的动作类型，则认为“点头”或者“摇头”的动作类型对应的动作是有效的。如果此时动作识别出的是“上一个”或“下一个”的动作类型，则认为此时“上一个”或“下一个”的动作类型对应的动作是无效的。

该实施例通过将动作类型对应的动作和预设场景下的预期动作进行比较来判断动作是否有效，从而可以对动作识别出的动作类型对应的动作进行过滤，避免识别出无效动作影响正确理解用户意图。

上文实施例中的对话信息可包括垂域、场景描述、对话状态和支持动作等内容。可以通过获取当前对话的历史对话的历史文本对应的意图描述和历史文本中包括的历史词槽，进而根据历史文本对应的意图描述和历史词槽，以及文本对应的意图描述和文本中包括的词槽，以获取当前对话的对话信息。其中，历史文本为基于历史获取到的车内语音信号进行语音转文字处理后得到的历史文本。

预设场景可以是确定场景、选择场景、音乐控制场景等，预期动作可以是某个场景对应的支持动作，可以预先设置支持动作对应的动作描述。举例而言，参照下述表2和表3所示，对于垂域为订餐，场景描述为多家商家列表选择，对话状态为选择的情况下，该场景为选择场景，在选择场景下预期动作可以是“上一个”，对应的动作描述可以是“手掌(五指并拢)从右往左移动”，或者是“下一个”，对应的动作描述可以是“手掌(五指并拢)从左往右移动”。对于垂域为购物，场景描述为下单前确认，对话状态为确认的情况下，该场景为确认场景，在确认场景下的预期动作可以是“确认/是”，对应的动作描述可以是“点头”，或者是“否认”，对应的动作描述可以是“摇头”。对于垂域为音乐，场景描述为音乐控制，对话状态为任意的情况下，该场景为音乐控制场景，在音乐控制场景下的预期动作可以是“静音”、“恢复声音”、“音量调高一点”、或“音量调低一点”，分别对应的动作描述可以为“手掌(五指并拢)，掌心朝外，向前推进”、“点赞的手势，大拇指朝上，由下方往上方移动”、“手掌(五指并拢)放水平，掌心朝上，向上方移动”以及“手掌(五指并拢)放水平，掌心朝下，向下方移动”。

表2

表3

如果判断出场景为选择场景、确认场景或者音乐控制场景时，将动作识别出的动作和预设场景下的预期动作(即，某个场景对应的动作描述对应的支持动作)进行比较，若二者相符，则说明动作识别出的动作有效，若二者不符，则说明动作识别出的动作是无效的，需要将其过滤掉或忽略，使无效的动作不参与到对用户意图的理解过程中。

需要说明的是，在对车内图像进行动作识别时，可能会出现识别失败的情况，例如，用户并没有做出动作，因此没有识别出动作，从而导致识别失败，或者用户做出了动作，但是由于用户做出的动作不标准或者车内光线暗等原因导致识别失败。当识别失败时，可直接将文本的意图描述作为最终的用户意图描述，以进行语音的单模态交互。

在另一些实施例中，在判定当前对话的场景为预设场景之后，用于车辆的多模态交互方法进一步还可包括控制开启图像采集设备以采集车内图像。本实施例仅在当前对话为预设场景时，才会控制开启图像采集设备以采集车内图像，由此可以避免图像采集设备一直处于开启状态导致资源浪费。

此外，在未控制开启图像采集设备以采集车内图像时，进而也就没有进行动作识别，此时，可直接将文本的意图描述作为最终的用户意图描述，以进行语音的单模态交互。

步骤S306中的融合后的意图描述即为用户意图描述。可根据用户意图描述以及文本中包括的词槽确定用户的意图是什么，例如用户的意图为需要去与用户意图描述对应的内容服务商查询数据。

在向内容服务商查询数据时，可以将用户意图描述和文本中的词槽发送至与该用户意图描述对应的内容服务商，并接收内容服务商基于用户意图描述和文本中包括的词槽反馈的查询结果。例如，用户意图描述为查询天气，文本中包括的词槽为上海+明天，则可以确定用户的意图为“查询上海明天的天气”，则将意图描述：查询天气，以及词槽：“上海+明天”发送给到提供天气预报数据的内容服务商进行查询，并接收提供天气预报数据的内容服务商反馈的据此的查询结果，即上海明天的天气查询结果。

对于步骤S310，在一些实施例中，基于查询结果生成对话命令格式的查询内容可以包括按照预设的特定用户命令对查询结果进行调整，基于调整后的查询结果生成对话命令格式的查询内容。由于内容服务商反馈的查询结果包括针对用于意图的具体内容，对于语音对话而言，即反馈给用户的为语音内容，此时，可以按照预设的特定用户命令对内容服务商反馈的查询结果进行完善和修改，以得到特定用户命令的语音查询内容。例如，按照更符合用户接受的方式进行处理，得到提升用户体验的语音查询内容。

图9是根据本发明一个实施例的用于车辆的多模态交互方法的示意性逻辑图。由图9可知，用于车辆的多模态交互方法可包括：

步骤S902，获取车内语音信号，将车内语音信号转换成文本；

步骤S904，将文本通过自然语言理解识别后输出文本对应的意图描述和文本中包括的词槽；

步骤S906，采集车内图像，对车内图像进行动作识别后输出动作类型；

步骤S908，判断动作类型对应的动作与预设场景下的预期动作是否相匹配；若是，执行步骤S910；若否，执行步骤S934；

步骤S910，判断动作有效；

步骤S912，确定动作类型对应的意图描述；

步骤S914，将文本对应的意图描述和动作类型对应的意图描述进行融合，得到融合后的意图描述；

步骤S916，获取当前对话的对话信息，根据对话信息确定当前对话的场景；

步骤S918，确定与融合后的意图描述对应的内容服务商；

步骤S920，将融合后的意图描述和文本中包括的词槽发送至内容服务商；

步骤S922，接收内容服务商基于融合后的意图描述和词槽反馈的查询结果；

步骤S924，按照预设的特定用户命令对查询结果进行调整；

步骤S926，基于调整后的查询结果生成对话命令格式的查询内容；

在执行步骤S916之后，继续执行步骤S928；

步骤S928，根据对话信息判断当前对话的场景是否为预设场景，若是，执行步骤S930；若否，执行步骤S932；

步骤S930，控制开启图像采集设备；

步骤S932，控制关闭图像采集设备；

步骤S934，判定动作无效，并继续执行步骤S906。

使用本发明实施例可以在语音交互的基础上，通过对车内图像进行动作识别后的动作类型来判断用户意图，使得车机对用户的意图理解更准确，更方便和用户交互，从而提升用户体验。

基于同一发明构思，在本发明一实施例中，还提供了一种存储介质。存储介质中存储有计算程序代码，当计算机程序代码在计算设备上运行时，导致计算设备执行上述任一实施例中的用于车辆的多模态交互方法。

基于同一发明构思，在本发明一实施例中，还提供了一种电子设备。该电子设备可包括处理器以及存储器。其中，存储器内存储有计算程序代码，当计算机程序代码被处理器运行时，导致电子设备执行上述任一实施例中的用于车辆的多模态交互方法。

至此，本领域技术人员应认识到，虽然本文已详尽示出和描述了本发明的多个示例性实施例，但是，在不脱离本发明精神和范围的情况下，仍可根据本发明公开的内容直接确定或推导出符合本发明原理的许多其他变型或修改。因此，本发明的范围应被理解和认定为覆盖了所有这些其他变型或修改。

Claims

1.一种用于车辆的多模态交互方法，其特征在于，包括：

基于获取到的车内语音信号进行自然语言处理识别，得到文本对应的意图描述和文本中包括的词槽，所述文本为基于获取到的所述车内语音信号进行语音转文字处理后得到的文本；

基于获取到的车内图像进行动作识别，得到动作类型，并确定与所述动作类型对应的意图描述；

基于所述文本对应的意图描述和所述动作类型对应的意图描述进行融合处理，得到融合后的意图描述，并确定与所述融合后的意图描述对应的内容服务商；

将所述融合后的意图描述和所述词槽发送至所述内容服务商，接收所述内容服务商基于所述融合后的意图描述和所述词槽反馈的查询结果；

基于所述查询结果生成对话命令格式的查询内容；

其中，所述基于所述文本对应的意图描述和所述动作类型对应的意图描述进行融合处理，得到融合后的意图描述包括：

获取当前对话的对话信息，所述对话信息包括垂域、场景描述、对话状态和支持动作；

根据所述对话信息判断所述当前对话的场景是否为预设场景；

在判定所述当前对话的场景为所述预设场景时，将所述动作和所述预设场景下的预期动作进行比较，判断所述动作与所述预期动作是否相匹配；

在所述动作与所述预期动作相匹配时，判定所述动作类型对应的动作有效，并判断所述文本对应的意图描述和所述动作类型对应的意图描述是否相符合；

若不符合，则选择所述动作类型对应的意图描述作为所述融合后的意图描述；

若符合，则选择所述文本对应的意图描述或所述动作类型对应的意图描述作为所述融合后的意图描述；

在所述动作与所述预期动作不匹配时，判定所述动作类型对应的动作无效，将所述文本对应的意图描述作为所述融合后的意图描述。

2.根据权利要求1所述的用于车辆的多模态交互方法，其特征在于，所述获取当前对话的对话信息包括：

获取所述当前对话的历史对话的历史文本对应的意图描述和所述历史文本中包括的历史词槽，所述历史文本为基于历史获取到的车内语音信号进行语音转文字处理后得到的历史文本；

根据所述历史文本对应的意图描述和所述历史词槽，以及所述文本对应的意图描述和所述词槽，获取所述当前对话的对话信息。

3.根据权利要求1所述的用于车辆的多模态交互方法，其特征在于，在判定所述当前对话的场景为所述预设场景之后，还包括：

控制开启图像采集设备以采集车内图像。

4.根据权利要求1所述的用于车辆的多模态交互方法，其特征在于，基于获取到的车内语音信号进行自然语言处理识别，得到文本对应的意图描述和文本中包括的词槽包括：

将所述车内语音信号转换成所述文本；

对所述文本进行分类处理，得到所述文本的至少一个类别标签以及该至少一个类别标签的置信度；

根据所述置信度从所述至少一个类别标签中选择最佳的类别标签作为所述文本对应的意图描述；

对所述文本进行命名实体识别处理，得到所述词槽。

5.根据权利要求1所述的用于车辆的多模态交互方法，其特征在于，所述基于所述查询结果生成对话命令格式的查询内容包括：

按照预设的特定用户命令对所述查询结果进行调整；

基于调整后的查询结果生成所述对话命令格式的查询内容。

6.一种存储介质，其特征在于，所述存储介质存储有计算机程序代码，当所述计算机程序代码在计算设备上运行时，导致所述计算设备执行权利要求1-5中任一项所述的用于车辆的多模态交互方法。

7.一种电子设备，其特征在于，包括：

处理器；

存储器，存储有计算机程序代码，当所述计算机程序代码被所述处理器运行时，导致所述电子设备执行权利要求1-5中任一项所述的用于车辆的多模态交互方法。