CN116403576A

CN116403576A - 车辆智能座舱的交互方法、装置、设备及存储介质

Info

Publication number: CN116403576A
Application number: CN202310231367.3A
Authority: CN
Inventors: 于波; 季栋辉; 李金超; 毕淳
Original assignee: China Automotive Innovation Corp
Current assignee: China Automotive Innovation Corp
Priority date: 2023-03-10
Filing date: 2023-03-10
Publication date: 2023-07-07

Abstract

本申请公开一种车辆智能座舱的交互方法、装置、设备及存储介质，涉及智能汽车技术领域，能够提高用户意图指令识别的准确性，进而可以提高车辆座舱交互的智能性。具体方案包括：在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧；对第一声音信息进行识别处理，得到第一声音识别结果，并对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图；根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果；对第一语音意图和注视结果进行意图融合处理，得到目标意图，并控制座舱执行目标意图。

Description

车辆智能座舱的交互方法、装置、设备及存储介质

技术领域

本申请涉及智能汽车技术领域，尤其涉及一种车辆智能座舱的交互方法、装置、设备及存储介质。

背景技术

汽车座舱是汽车与司乘人员交互最为密切的部分，随着智能座舱和自动驾驶技术的不断发展，汽车不再仅是协助人们出行的工具，而汽车座舱也逐渐成为人们多元化生活空间中的一环。因此，智能座舱中的人机交互显的尤为重要，一套优秀的座舱交互系统不仅能给司乘人员带来更友好的驾乘体检，尤为重要的，更人性化、智能化的座舱交互系统更是能在安全驾驶方面起到不可估量的作用。

目前汽车座舱人机交互最为普遍的方式是语音交互，即司乘人员通过语音的方式向车载语音引擎发送命令，语音引擎经过语音识别、语义理解和语音合成等处理过程后与用户对话，最终帮助用户完成一项意图。但这种交互方法在下发语音指令时，如果有其他多种混叠的声音，例如车内其他人员交谈声音或者影音设备的声音，在这种情况下语音引擎无法从这类声音中分辨出用户真正表达意图的声音，从而导致无法帮助用户达成意图。

发明内容

本申请提供一种车辆智能座舱的交互方法、装置、设备及存储介质，能够提高用户意图指令识别的准确性，进而可以提高车辆座舱交互的智能性。

为达到上述目的，本申请采用如下技术方案：

本申请实施例提供了一种车辆智能座舱的交互方法，该方法包括：

在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧；

对第一声音信息进行识别处理，得到第一声音识别结果，并对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；

对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图；

根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，注视结果用于指示目标用户注视的目标区域以及目标区域包括的目标设备；

对第一语音意图和注视结果进行意图融合处理，得到目标意图，并控制座舱执行目标意图。

在一个实施例中，方法还包括：

在未接收到唤醒指令时，获取实时采集的座舱中的第二声音信息和第二座舱图像帧；

对第二声音信息进行识别处理，得到第二声音识别结果，并对第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果；

将用户行为识别结果与预设的用户行为意图数据进行匹配，得到行为意图；

将行为意图与第二声音识别结果进行意图融合处理，得到感知意图，并控制座舱执行感知意图。

在一个实施例中，对第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果之后，方法还包括：

将第二声音识别结果与预设的用户语音意图数据进行匹配，得到第二语音意图；

将第二语音意图与对应的用户行为识别结果进行意图融合处理，得到感知意图，并控制座舱执行感知意图。

在一个实施例中，对第一声音信息进行识别处理，得到第一声音识别结果；

获取第一声音信息中的振幅特征因子、频率特征因子和波形特征因子；

根据振幅特征因子、频率特征因子和波形特征因子，得到第一声音识别结果。

在一个实施例中，对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果，包括：

获取第一座舱图像帧中各用户的唇部的关键点之间的距离，得到各用户的第一唇距；

获取第一座舱图像帧的前一帧中各用户的唇部的关键点之间的距离，得到各用户的第二唇距；

根据各用户的第一唇距和对应的第二唇距之间的差值，得到唇语识别结果。

在一个实施例中，根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，包括：

根据第一座舱图像帧中目标用户的瞳孔位置，确定目标用户的瞳孔在座舱中的空间坐标，得到瞳孔空间坐标；

根据多个第一座舱图像帧中瞳孔的变化情况确定出目标用户的视线向量；

根据瞳孔空间坐标和视线向量确定出目标用户的注视区域范围；

将注视区域范围与预设的座舱中各区域的坐标进行匹配，确定出目标用户的注视结果。

在一个实施例中，根据第一座舱图像帧中目标用户的瞳孔位置，确定目标用户的瞳孔在座舱中的空间坐标，得到瞳孔空间坐标，包括：

根据目标用户的瞳孔在第一座舱图像帧中的坐标和预设的第一坐标转换矩阵，确定出瞳孔基于图像采集设备的坐标，得到设备坐标，第一坐标转换矩阵用于指示图像采集设备与采集到的图像之间的坐标转换关系；

根据设备坐标和预设的第二坐标转换矩阵，得到瞳孔空间坐标，第二坐标转换矩阵用于指示图像采集设备与座舱之间的坐标转换关系。

本申请实施例第二方面，提供了一种车辆智能座舱的交互装置，该装置包括：

第一获取模块，用于在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧；

第一语音识别模块，用于对第一声音信息进行识别处理，得到第一声音识别结果；

唇动检测模块，用于对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；

第一融合模块，用于对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图；

视线检测模块，用于根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，注视结果用于指示目标用户注视的目标区域以及目标区域包括的目标设备；

第一融合模块，还用于对第一语音意图和注视结果进行意图融合处理，得到目标意图；

第一意图执行模块，用于控制座舱执行目标意图。

本申请实施例第三方面，提供了一种电子设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时实现本申请实施例第一方面中的车辆智能座舱的交互方法。

本申请实施例第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现本申请实施例第一方面中的车辆智能座舱的交互方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

本申请实施例提供的车辆智能座舱的交互方法，通过在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧，并对第一声音信息进行识别处理，得到第一声音识别结果，并对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果，以及对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图。然后，根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，注视结果是指目标用户注视的目标区域以及目标区域包括的目标设备。最后，对第一语音意图和注视结果进行意图融合处理，得到目标意图，并控制座舱执行目标意图，完成一次智能座舱的人机交互。本申请实施例提供的车辆智能座舱的交互方法中的用户意图指令的确定是同时根据用户的语音信息、唇语信息和视线注视结果融合和共同确定的，因此，相较于简单的语音交互，可以提高用户意图指令识别的准确性和完整性，进而可以提高车辆座舱交互的智能性。

附图说明

图1为本申请实施例提供的一种电子设备的内部结构示意图；

图2为本申请实施例提供的一种车辆智能座舱的交互方法的流程图一；

图3为本申请实施例提供的一种车辆智能座舱的交互方法的流程图二；

图4为本申请实施例提供的一种车辆智能座舱的交互装置的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。

另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出的值。

目前汽车座舱人机交互最为普遍的方式是语音交互，即司乘人员通过语音的方式向车载语音引擎发送命令，语音引擎经过语音识别、语义理解对用户所说的文字进行解析，再结合云端数据、用户使用数据和对话历史生成响应，将响应生成的文本通过语音合成进行播报，产生与用户对话的过程，最终帮助用户完成一项意图。这种传统的交互方式，在汽车座舱追求更智能化的背景下，存在以下两点缺陷。

一、用户的意图仅通过语音表达，这种单模态的交互容易造成意图与实际结果存在差异，当车内同时存在多种混叠的声音时，例如驾驶员通过说话表达意图时，同时车内其他人员在交谈，语音引擎无法从这类声音中分辨出用户真正表达意图的声音，从而导致无法帮助用户达成意图。

二、需要由用户主动发起交互以达成用户的显式意图，这样的交互体验并不够沉浸式和智能化，用户的隐式意图无法被达成，例如疲劳缓解、负面情绪缓解、场景智能推荐等。

为了解决上述问题，本申请实施例提供了一种车辆智能座舱的交互方法，通过在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧，并对第一声音信息进行识别处理，得到第一声音识别结果，并对第一座舱帧中各用户的唇动进行检测，确定出各用户的唇语识别结果，以及对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图。然后，根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，注视结果是指目标用户注视的目标区域以及目标区域包括的目标设备。最后，对第一语音意图和注视结果进行意图融合处理，得到目标意图，并控制座舱执行目标意图，完成一次智能座舱的人机交互。本申请实施例提供的车辆智能座舱的交互方法中的用户意图指令的确定是同时根据用户的语音信息、唇语信息和视线注视结果融合和共同确定的，因此，相较于简单的语音交互，可以提高用户意图指令识别的准确性和完整性，进而可以提高车辆座舱交互的智能性。

本申请实施例提供的车辆智能座舱的交互方法的执行主体可以为电子设备，该电子设备可以为车辆控制器，该车辆控制器可以为车辆智能座舱的域控制器或者车辆智能座舱中的总控制器，或者，该电子设备还可以集成于车辆智能座舱中的域控制器或者车辆智能座舱中的总控制器中。本申请实施例对此不作具体限定。

图1为本申请实施例提供的一种电子设备的内部结构示意图。如图1所示，该电子设备包括通过系统总线连接的处理器和存储器。其中，该处理器用于提供计算和控制能力。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以上各个实施例提供的一种车辆智能座舱的交互方法的步骤。内存储器为非易失性存储介质中的操作系统和计算机程序提供高速缓存的运行环境。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的电子设备的限定，具体的电子设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

基于上述执行主体，本申请实施例提供了一种车辆智能座舱的交互方法，如图2所示，该方法包括以下步骤：

步骤201、在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧。

其中，唤醒指令可以通过自定义的方式进行设置，例如“小度小度”，“hi，Siri”，或者“小爱同学”等。

在接收到第一唤醒指令后，开始获取车辆中的传感器采集到的声音信息和图像采集设备采集到的座舱视频信息。其中，座舱视频信息时由多张座舱图像帧组成的。

步骤202、对第一声音信息进行识别处理，得到第一声音识别结果。

可选的，在对第一声音信息进行识别时，可以通过提取第一声音信息中的振幅特征因子、频率特征因子和波形特征因子，然后根据振幅特征因子、频率特征因子和波形特征因子来计算出第一声音识别结果，这样根据三维特征因子来进行声音识别，可以提高声音识别的准确性。

步骤203、对第一座舱图像帧中各用户的唇动进行检测，确定出各用户的唇语识别结果。

可选的，可以通过获取第一座舱图像帧中各用户的唇部的关键点之间的距离，得到各用户的第一唇距，然后获取第一座舱图像帧的前一帧中各用户的唇部的关键点之间的距离，得到各用户的第二唇距，最后根据各用户的第一唇距和对应的第二唇距之间的差值，得到唇语识别结果。

其中，唇部的关键点可以自定义，例如，该关键点可以为上嘴唇的中心点和下嘴唇的中心点，此外，唇部的关键点可以为两个或者两个以上。

当唇部的关键点为两个时，示例的，第一唇距即为第一座舱图像帧中用户上嘴唇的中心点和下嘴唇的中心点之间的距离。

进一步的，还可以在一个唇上选取多个点作为关键点，分别计算各关键点之间的距离，得到一个用户的多个第一唇距，同样的，在计算出一个用户的多个第二唇距，最后，根据每个第一唇距对应的第二唇距之间差值，来得到唇语识别结果。这样可以提高唇语识别的准确性。

步骤204、对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图。

需要说明的是，在将第一声音识别结果和唇语识别结果进行语义匹配处理之前，需要先将第一声音识别结果和唇语识别结果分别转换为文本信息，得到第一声音识别文本结果和唇语识别文本结果后，然后进行语义匹配处理。

其中，对第一声音识别文本结果和唇语识别文本结果进行语音匹配处理的过程可以为：将第一声音识别文本结果和唇语识别文本结果输入至预设的语义匹配模型中，得到第一语音意图。

可选的，语义匹配模型可以为：基于LSTM的语义匹配模型、基于RNN的语义匹配模型等，本申请实施例对此不作具体限定。

步骤205、根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果。

其中，注视结果用于指示目标用户注视的目标区域以及目标区域包括的目标设备。

可选的，可以根据第一座舱图像帧中目标用户的瞳孔位置，确定目标用户的瞳孔在座舱中的空间坐标，得到瞳孔空间坐标，然后根据多个第一座舱图像帧中瞳孔的变化情况确定出目标用户的视线向量，以及根据瞳孔空间坐标和视线向量确定出目标用户的注视区域范围，最后将注视区域范围与预设的座舱中各区域的坐标进行匹配，确定出目标用户的注视结果。

具体的，上述根据第一座舱图像帧中目标用户的瞳孔位置，确定目标用户的瞳孔在座舱中的空间坐标，得到瞳孔空间坐标的过程可以为：

根据目标用户的瞳孔在第一座舱图像帧中的坐标和预设的第一坐标转换矩阵，确定出瞳孔基于图像采集设备的坐标，得到设备坐标，然后，根据设备坐标和预设的第二坐标转换矩阵，得到瞳孔空间坐标。

其中，第一坐标转换矩阵用于指示图像采集设备与采集到的图像之间的坐标转换关系，第二坐标转换矩阵用于指示图像采集设备与座舱之间的坐标转换关系。

也就是说，通过对第一座舱图像帧中目标用户的瞳孔位置进行两次坐标转换，可以得到目标用户的瞳孔在座舱中的空间坐标，也即瞳孔空间坐标，然后在根据瞳孔的变化情况确定出目标用户的视线向量，基于瞳孔空间坐标对该视线向量进行延伸，就可以得到目标用户的注视区域坐标，最后将注视区域坐标与座舱中的区域标定坐标进行匹配，就可以得到目标用户的注视结果。

步骤206、对第一语音意图和注视结果进行意图融合处理，得到目标意图，并控制座舱执行目标意图。

可选的，可以将第一语音意图和注视结果输入至意图融合模型中进行意图融合，得到目标意图。

其中，意图融合模型可以为：双向长短时记忆模型，(Bi-LSTM，Bi-directionalLong Shot-Term Memory)或者基于RNN的多模态融合模型等。

可以理解的是，在实际复杂的座舱环境中，由于噪音或遮挡等因素的影响，交互过程中识别到的声音识别结果、唇语识别结果以及注视结果均可能为用户下发指令中的一部分，因此，可以通过对用户的声音信息、唇动信息和瞳孔的注视信息进行信息融合，最终得到用户的目标意图。示例的，上述场景可以为“用户注视着空调说大一点”那么中融合处理后的目标意图即为“增大空调风量”。这样可以提高用户意图指令识别的准确性和完整性，进而可以提高车辆座舱交互的智能性。

如图3所示，本申请实施例还提供了一种车辆智能座舱的交互方法，该方法包括以下步骤：

步骤301、在未接收到唤醒指令时，获取实时采集的座舱中的第二声音信息和第二座舱图像帧。

步骤302、对第二声音信息进行识别处理，得到第二声音识别结果，并对第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果。

步骤303、将用户行为识别结果与预设的用户行为意图数据进行匹配，得到行为意图。

步骤304、将行为意图与第二声音识别结果进行意图融合处理，得到感知意图，并控制座舱执行感知意图。

可以理解的是，上述图2中提供的车辆智能座舱的交互方法是一种用户主动向与智能座舱的车辆控制器下发交互指令的交互的过程，这种交互方法是在接收到用户的唤醒指令后触发的。那么图3中提供的车辆智能座舱的交互方法是一种车辆控制器是在未接收到用户的唤醒指令的时间里，实时感知用户的声音、表情和行为，并根据用户的声音、表情或行为来主动生成感知意图。例如：在检测到用户打电话，那么车辆控制器主动通过语音播报的方式提醒注意驾驶安全，并主动控制开启辅助驾驶，以及主动降低车内多媒体音量；或者，在检测到车内有儿童哭闹，那么车辆控制器主动语音播报进行安抚、或者主动进行儿童曲目和故事推荐等，这样可以提高交互体验的沉浸度和智能性。

为了便于区分和理解，将接收到用户主动下发唤醒指令后采集的声音信息和佐餐图像信息称为第一声音信息和第一座舱图像信息，将没有接收到用户的唤醒指令时，实时采集的声音信息和座舱图像信息称为第二声音信息和第二座舱图像信息。

其中，车辆控制器或者服务器中预存储了大量的用户行为以及各用户行为对应的用户行为意图数据之间的映射关系，例如：用户行为为：接听电话，那么该用户行为对应的用户行为意图数据则可以为：通过语音播报的方式提醒注意驾驶安全，并主动控制开启辅助驾驶，以及主动降低车内多媒体音量。

示例的，上述步骤303中将用户行为识别结果与预设的用户行为意图数据进行匹配，得到行为意图的过程可以为：将通过第二座舱图像中识别到的用户行为与预存储的用户行为进行匹配，若匹配到预存储了该用户行为，则得到该用户行为对应的用户行为意图数据。

可选的，还可以将第二声音识别结果与预设的用户语音意图数据进行匹配，得到第二语音意图，然后将第二语音意图与对应的用户行为识别结果进行意图融合处理，得到感知意图，并控制座舱执行感知意图。

同样的，车辆控制器或者服务器中预存储了大量的声音信息以及各声音信息对应的用户语音意图数据之间的映射关系，例如：声音信息为：小孩啼哭的声音，那么对应的语音意图数据可以为：主动语音播报进行安抚、或者主动进行儿童曲目或故事推荐。通过这种实时感知方式来自动生成感知意图，可以提高交互体验的沉浸度和智能性。

如图4所示，本申请实施例还提供了一种车辆智能座舱的交互装置，装置包括：

获取模块11，用于在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧；

语音识别模块12，用于对第一声音信息进行识别处理，得到第一声音识别结果；

唇动检测模块13，用于对第一座舱图像帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；

融合模块14，用于对第一声音识别结果和各唇语识别结果进行语义匹配处理，确定出目标用户以及目标用户的第一语音意图；

视线检测模块15，用于根据第一座舱图像帧中目标用户的瞳孔位置和瞳孔变化情况，确定目标用户的注视结果，注视结果用于指示目标用户注视的目标区域以及目标区域包括的目标设备；

融合模块14，还用于对第一语音意图和注视结果进行意图融合处理，得到目标意图；

意图执行模块17，用于控制座舱执行目标意图。

在一个实施例中，获取模块11还用于：

语音识别模块12，还用于对第二声音信息进行识别处理，得到第二声音识别结果；

该装置还包括行为检测模块16，用于对第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果，以及将用户行为识别结果与预设的用户行为意图数据进行匹配，得到行为意图；

融合模块14，还用于将行为意图与第二声音识别结果进行意图融合处理，得到感知意图；

意图执行模块17，还用于控制座舱执行感知意图。

在一个实施例中，

语音识别模块12，还用于将第二声音识别结果与预设的用户语音意图数据进行匹配，得到第二语音意图；

融合模块14，还用于将第二语音意图与对应的用户行为识别结果进行意图融合处理，得到感知意图；

意图执行模块17，还用于控制座舱执行感知意图。

在一个实施例中，语音识别模块12具体用于：

在一个实施例中，唇动检测模块13具体用于：

在一个实施例中，视线检测模块15具体用于：

本实施例提供的车辆智能座舱的交互装置，可以执行上述方法实施例，其实现原理和技术效果类似，在此不再多加赘述。

关于车辆智能座舱的交互装置的具体限定可以参见上文中对于车辆智能座舱的交互方法的限定，在此不再赘述。上述车辆智能座舱的交互装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于电子设备中的处理器中，也可以以软件形式存储于电子设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本申请的另一实施例中，还提供一种车辆，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例的车辆智能座舱的交互方法的步骤。

本申请另一实施例中，还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如本申请实施例的车辆智能座舱的交互方法的步骤。

本申请另一实施例中，还提供一种计算机程序产品，该计算机程序产品包括计算机指令，当计算机指令在车辆智能座舱的交互装置上运行时，使得车辆智能座舱的交互装置执行上述方法实施例所示的方法流程中车辆智能座舱的交互方法执行的各个步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件程序实现时，可以全部或部分地以计算机程序产品的形式来实现。该计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机执行指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或者数据中心通过有线(例如同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可以用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质(例如，软盘、硬盘、磁带)，光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种车辆智能座舱的交互方法，其特征在于，所述方法包括：

对所述第一声音信息进行识别处理，得到第一声音识别结果，并对所述第一座舱图像帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；

对所述第一声音识别结果和各所述唇语识别结果进行语义匹配处理，确定出目标用户以及所述目标用户的第一语音意图；

根据所述第一座舱图像帧中所述目标用户的瞳孔位置和瞳孔变化情况，确定所述目标用户的注视结果，所述注视结果用于指示所述目标用户注视的目标区域以及所述目标区域包括的目标设备；

对所述第一语音意图和所述注视结果进行意图融合处理，得到目标意图，并控制所述座舱执行所述目标意图。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

在未接收到所述唤醒指令时，获取实时采集的座舱中的第二声音信息和第二座舱图像帧；

对所述第二声音信息进行识别处理，得到第二声音识别结果，并对所述第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果；

将所述用户行为识别结果与预设的用户行为意图数据进行匹配，得到行为意图；

将所述行为意图与所述第二声音识别结果进行意图融合处理，得到感知意图，并控制所述座舱执行所述感知意图。

3.根据权利要求2所述的方法，其特征在于，所述对所述第二座舱图像帧中的用户表情和肢体动作进行识别，得到用户行为识别结果之后，所述方法还包括：

将所述第二声音识别结果与预设的用户语音意图数据进行匹配，得到第二语音意图；

将所述第二语音意图与对应的所述用户行为识别结果进行意图融合处理，得到感知意图，并控制所述座舱执行所述感知意图。

4.根据权利要求1所述的方法，其特征在于，所述对所述第一声音信息进行识别处理，得到第一声音识别结果；

获取所述第一声音信息中的振幅特征因子、频率特征因子和波形特征因子；

根据所述振幅特征因子、所述频率特征因子和所述波形特征因子，得到所述第一声音识别结果。

5.根据权利要求1所述的方法，其特征在于，所述对所述第一座舱图像帧中各用户的唇动进行检测，确定出各用户的唇语识别结果，包括：

获取所述第一座舱图像帧中各用户的唇部的关键点之间的距离，得到各用户的第一唇距；

获取所述第一座舱图像帧的前一帧中各用户的唇部的关键点之间的距离，得到各用户的第二唇距；

根据各用户的第一唇距和对应的第二唇距之间的差值，得到所述唇语识别结果。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一座舱图像帧中所述目标用户的瞳孔位置和瞳孔变化情况，确定所述目标用户的注视结果，包括：

根据所述第一座舱图像帧中所述目标用户的瞳孔位置，确定所述目标用户的瞳孔在所述座舱中的空间坐标，得到瞳孔空间坐标；

根据多个所述第一座舱图像帧中瞳孔的变化情况确定出所述目标用户的视线向量；

根据所述瞳孔空间坐标和所述视线向量确定出所述目标用户的注视区域范围；

将所述注视区域范围与预设的座舱中各区域的坐标进行匹配，确定出所述目标用户的注视结果。

7.根据权利要求6所述的方法，其特征在于，所述根据所述第一座舱图像帧中所述目标用户的瞳孔位置，确定所述目标用户的瞳孔在所述座舱中的空间坐标，得到瞳孔空间坐标，包括：

根据所述目标用户的瞳孔在所述第一座舱图像帧中的坐标和预设的第一坐标转换矩阵，确定出所述瞳孔基于图像采集设备的坐标，得到设备坐标，所述第一坐标转换矩阵用于指示图像采集设备与采集到的图像之间的坐标转换关系；

根据所述设备坐标和预设的第二坐标转换矩阵，得到所述瞳孔空间坐标，所述第二坐标转换矩阵用于指示所述图像采集设备与所述座舱之间的坐标转换关系。

8.一种车辆智能座舱的交互装置，其特征在于，所述装置包括：

获取模块，用于在接收到唤醒指令后，获取采集的第一声音信息和第一座舱图像帧；

语音识别模块，用于对所述第一声音信息进行识别处理，得到第一声音识别结果；

唇动检测模块，用于对所述第一座舱图像帧中各用户的唇动进行检测，确定出各用户的唇语识别结果；

融合模块，用于对所述第一声音识别结果和各所述唇语识别结果进行语义匹配处理，确定出目标用户以及所述目标用户的第一语音意图；

视线检测模块，用于根据所述第一座舱图像帧中所述目标用户的瞳孔位置和瞳孔变化情况，确定所述目标用户的注视结果，所述注视结果用于指示所述目标用户注视的目标区域以及所述目标区域包括的目标设备；

所述融合模块，还用于对所述第一语音意图和所述注视结果进行意图融合处理，得到目标意图；

意图执行模块，用于控制所述座舱执行所述目标意图。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时实现权利要求1-7任一项所述的车辆智能座舱的交互方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的车辆智能座舱的交互方法。