CN116935063B

CN116935063B - 智能座舱环境下司机状态文本的生成方法及相关设备

Info

Publication number: CN116935063B
Application number: CN202310905528.2A
Authority: CN
Inventors: 胡敏; 宁欣; 唐小江; 李爽; 周嵘; 候旭晴; 李冬冬
Original assignee: Beijing Zhongke Ruitu Technology Co ltd
Current assignee: Beijing Zhongke Ruitu Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2024-03-08
Anticipated expiration: 2043-07-24
Also published as: CN116935063A

Abstract

本发明公开了一种智能座舱环境下司机状态文本的生成方法及相关设备，该方法包括：获取智能座舱环境中司机的RGB图像、红外图像和语音数据；基于预设图像编码器对RGB图像和红外图像进行特征提取，获取图像编码特征；对语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；根据图像编码特征和文本编码特征生成融合特征；基于预设文本解码器对融合特征进行解码，生成与司机状态对应的文本信息，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，从而提高了描述智能座舱环境下司机状态的文本的准确性，进而可更加准确的对司机状态进行监测。

Description

智能座舱环境下司机状态文本的生成方法及相关设备

技术领域

本申请涉及智能座舱技术领域，更具体地，涉及一种智能座舱环境下司机状态文本的生成方法及相关设备。

背景技术

智能座舱旨在集成多种IT和人工智能技术，打造全新的车内一体化数字平台，为驾驶员提供智能体验，促进行车安全。

智能座舱中的司机状态监测，对于驾驶的安全性至关重要。现有技术中，大部分技术采用图像分类技术，预先对司机的状态定义不同的类别，然后采集司机的图像信息，并通过视觉算法按各类别对图像信息进行分类，以实现对司机的状态进行分类，进而根据分类结果进行司机状态监测。然而，这种模式只能提供司机状态的类别，无法提供司机状态的具体描述，同时现有技术一般只采集RGB图像，座舱内光线不足时，RGB图像的可辨识度较低，这造成了在生成文本时对司机状态描述不准确、不全面的问题。

因此，如何提高描述智能座舱环境下司机状态的文本的准确性，是目前有待解决的技术问题。

发明内容

本申请实施例提出了一种智能座舱环境下司机状态文本的生成方法及相关设备，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，以提高描述智能座舱环境下司机状态的文本的准确性。

第一方面，提供一种智能座舱环境下司机状态文本的生成方法，所述方法包括：获取智能座舱环境中司机的RGB图像、红外图像和语音数据；基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；根据所述图像编码特征和所述文本编码特征生成融合特征；基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息。

第二方面，提供一种智能座舱环境下司机状态文本的生成装置，所述装置包括：获取模块，用于获取智能座舱环境中司机的RGB图像、红外图像和语音数据；图像编码模块，用于基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；文本编码模块，用于对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；融合模块，用于根据所述图像编码特征和所述文本编码特征生成融合特征；解码模块，用于基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的智能座舱环境下司机状态文本的生成方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现第一方面所述的智能座舱环境下司机状态文本的生成方法。

通过应用以上技术方案，先获取智能座舱环境中司机的RGB图像、红外图像和语音数据，再基于预设图像编码器对RGB图像和红外图像进行特征提取，获取图像编码特征，同时，对语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征，然后根据图像编码特征和文本编码特征生成融合特征，最后基于预设文本解码器对融合特征进行解码，生成与司机状态对应的文本信息，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，从而提高了描述智能座舱环境下司机状态的文本的准确性，进而可更加准确的对司机状态进行监测。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种智能座舱环境下司机状态文本的生成方法的流程示意图；

图2示出了本发明实施例提出的一种智能座舱环境下司机状态文本的生成方法的原理示意图；

图3示出了本发明实施例提出的一种智能座舱环境下司机状态文本的生成装置的结构示意图；

图4示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请实施例提供一种智能座舱环境下司机状态文本的生成方法，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，从而提高了描述司机状态的文本的准确性，进而可更加准确的对司机状态进行监测，如图1所示，该方法包括以下步骤：

步骤S101，获取智能座舱环境中司机的RGB图像、红外图像和语音数据。

本实施例中，智能座舱环境中设置有RGB摄像头、红外摄像头和麦克风，通过RGB摄像头对司机拍摄，获取RGB图像，通过红外摄像头对司机拍摄，获取红外图像，通过麦克风可采集到司机的语音数据，其中，语音数据可包括司机发出的语音指令(如打开空调的语音指令等)、司机打电话时发出的语音以及其他情况下司机发出的语音等。

可选的，可在检测到司机进入驾驶位置时，获取RGB图像、红外图像和语音数据，也可在检测到车辆启动后，获取RGB图像、红外图像和语音数据。

步骤S102，基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征。

预先训练出预设图像编码器，在获取RGB图像和红外图像后，将RGB图像和红外图像输入预设图像编码器进行特征提取，根据特征提取结果获取图像编码特征。

在本申请一些实施例中，所述预设图像编码器包括N级红外特征提取层和N级RGB特征提取层，各级红外特征提取层的输入为所述红外图像或前一级红外特征提取层的输出，各级红外特征提取层的输出与本级RGB特征提取层的输出拼接为本级图像融合特征，各级RGB特征提取层的输入为所述RGB图像或前一级图像融合特征，最后一级图像融合特征为所述图像编码特征，N为大于1的整数。

本实施例中，预设图像编码器包括N级红外特征提取层和N级RGB特征提取层，将红外图像输入第1级红外特征提取层，第1级红外特征提取层对红外图像进行特征提取，并将提取的特征输入第2级红外特征提取层，以及与第1级RGB特征提取层的输出拼接为第1级图像融合特征，同时，将RGB图像输入第1级RGB特征提取层，第1级RGB特征提取层对RGB图像进行特征提取，第1级图像融合特征被输入第2级RGB特征提取层进行特征提取，依此类推，直至得到最后一级图像融合特征，并将其作为图像编码特征。

通过将各级红外特征提取层的输出与本级RGB特征提取层的输出进行拼接，利用红外特征提取层输出的红外特征(即司机的体温特征)对RGB特征提取层输出的RGB特征进行增强，从而得到更加符合司机状态的图像编码特征。

本领域技术人员可以理解到的是，部分实施例中所提及到的前一级，其概念相对于某一级别而言。示例性地，如若当前级别为第3级，则对于该级别而言的前一级为第2级。最后一级为各级中的最下一级，例如，若包括4级，则最后一级为第4级。

在本申请一些实施例中，第一级RGB特征提取层的输入端设置有patch Embedding模块，所述RGB图像经所述patchEmbedding模块处理后进入第一级RGB特征提取层。

本实施例中，通过先将RGB图像输入patchEmbedding模块处理，利用patchEmbedding模块提取RGB图像中每个小区域的视觉特征，并嵌入位置信息，实现更加准确的对RGB图像进行特征提取，进而提高了图像编码特征的准确性。

在本申请一些实施例中，各级红外特征提取层采用卷积神经网络，各级RGB特征提取层采用Swin-Transformer。

卷积神经网络即CNN，CNN的基本模块是由输入和输出层以及多个隐藏层组成，隐藏层可分为卷积层，池化层、RELU层和全连接层，与其他图像分类算法相比，CNN使用相对较少的预处理。Transformer神经网络可以实现完全并行的计算，可计算全局的依赖关系，并可处理不定长序列和多模态数据，支持迁移学习。Swin-Transformer为一种层级式网络结构，可解决视觉图像的多尺度问题，还提出ShiftedWindows，极大降低了Transformer的计算复杂度。

通过基于卷积神经网络进行红外特征提取，利用Swin-Transformer进行RGB特征提取，从而进一步提高了图像编码特征的准确性。

步骤S103，对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征。

本实施例中，预先训练出预设文本编码器，在获取语音数据后，先对语音数据进行语音识别，得到文本数据，然后将文本数据输入预设文本编码器，预设文本编码器对文本数据进行编码后输出文本编码特征。

其中，可通过预设语音识别算法对语音数据进行语音识别，可选的，预设语音识别算法可以为包括基于动态时间规整(DTW)算法、基于非参数模型的矢量量化(VQ)方法、基于参数模型的隐马尔可夫模型(HMM)的方法、基于人工神经网络(ANN)和支持向量机等算法的任一种。

可选的，预设文本编码器包括多个文本编码层，各文本编码层采用Transformer神经网络。

步骤S104，根据所述图像编码特征和所述文本编码特征生成融合特征。

在获取图像编码特征和文本编码特征，将两者进行特征融合，生成融合特征。

在本申请一些实施例中，所述根据所述图像编码特征和所述文本编码特征生成融合特征，包括：

基于预设的全连接层对所述图像编码特征进行处理，并将处理结果与所述文本编码特征进行拼接，获取拼接特征；

对所述拼接特征进行MLP操作并基于预设自注意力模块进行特征融合，生成所述融合特征。

本实施例中，先基于预设的全连接层对图像编码特征进行处理，然后将处理结果与所述文本编码特征进行拼接，得到拼接特征，再将拼接特征进行MLP(MultilayerPerceptron，多层感知器)操作，最后基于预设自注意力模块进行特征融合，生成融合特征，从而使融合特征更加符合司机状态，提高了融合特征的准确性。

步骤S105，基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息。

本实施例中，将融合特征输入预设文本解码器，由预设文本解码器进行解码处理，生成与司机状态对应的文本信息。

在本申请一些实施例中，所述预设文本解码器包括多级采用Transformer的解码层，各级解码层的输入为所述融合特征和前一级解码层的输出，最后一级解码层的输出为所述文本信息。

本实施例中，预设文本解码器中包括多级解码层，各解码层采用Transformer神经网络，各级解码层均输入融合特征进行解码，从而提高了文本信息的准确性。

在本申请一些实施例中，在获取智能座舱环境中司机的RGB图像、红外图像和语音数据之前，还包括：

对在所述智能座舱环境中的司机进行数据采集，获取预设数量的RGB样本图像、红外样本图像和语音样本数据，并对司机的状态进行文本描述，生成数据集；

根据所述数据集对预设初始图像编码器、预设初始文本编码器和预设初始文本解码器进行训练，在满足预设训练完成条件时，获取所述预设图像编码器、所述预设文本编码器和所述预设文本解码器。

本实施例中，对在智能座舱环境中的司机进行RGB图像采集、红外图像采集和语音数据采集，获取预设数量的RGB样本图像、红外样本图像和语音样本数据，并通过人工对司机的状态进行文本描述，生成数据集。其中，在采集数据时，可通过改变智能座舱环境的光照强度或使车辆处于不同的外部环境，并可对RGB样本图像和红外样本图像进行随机缩放、裁剪和翻转，以及对不同司机进行相应的数据采集，以提高数据集中样本的获取效率。

然后，按与预设图像编码器、预设文本编码器和预设文本解码器的结构分别构建预设初始图像编码器、预设初始文本编码器和预设初始文本解码器，利用数据集对预设初始图像编码器、预设初始文本编码器和预设初始文本解码器进行训练，在满足预设训练完成条件时，获取预设图像编码器、预设文本编码器和预设文本解码器。训练完成条件可以为损失值小于预设阈值或达到预设迭代次数，从而提高了预设图像编码器、预设文本编码器和预设文本解码器的准确性。

本申请实施例中的智能座舱环境下司机状态文本的生成方法，先获取智能座舱环境中司机的RGB图像、红外图像和语音数据，再基于预设图像编码器对RGB图像和红外图像进行特征提取，获取图像编码特征，同时，对语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征，然后根据图像编码特征和文本编码特征生成融合特征，最后基于预设文本解码器对融合特征进行解码，生成与司机状态对应的文本信息，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，从而提高了描述智能座舱环境下司机状态的文本的准确性，进而可更加准确的对司机状态进行监测。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种智能座舱环境下司机状态文本的生成方法，包括以下步骤：

步骤S1，对在智能座舱环境中的司机进行数据采集，获取预设数量的RGB样本图像、红外样本图像和语音样本数据，并对司机的状态进行文本描述，生成数据集。

步骤S2，根据数据集对预设初始图像编码器、预设初始文本编码器和预设初始文本解码器进行训练，在满足预设训练完成条件时，获取预设图像编码器、预设文本编码器和预设文本解码器。

步骤S3，获取智能座舱环境中司机的RGB图像、红外图像和语音数据。

步骤S4，基于预设图像编码器对RGB图像和红外图像进行特征提取，获取图像编码特征。

如图2所示，预设图像编码器包括4级红外特征提取层(Layer1-I、Layer2-I、Layer3-I、Layer4-I)和4级RGB特征提取层(Layer1、Layer2、Layer3、Layer4)，将红外图像输入Layer1-I，Layer1-I对红外图像进行特征提取，并将提取的特征输入Layer2-I，以及与Layer1的输出拼接为第1级图像融合特征，以对Layer1输出的RGB特征进行增强，同时，将RGB图像经patchEmbedding模块处理后输入Layer1，由Layer1进行特征提取，第1级图像融合特征被输入Layer2进行特征提取，依此类推，直至得到最后一级图像融合特征，并将其作为图像编码特征。

其中，各级红外特征提取层采用卷积神经网络，各级RGB特征提取层采用Swin-Transformer。

步骤S5，对语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征。

如图2所示，预设文本编码器包括6个文本编码层(Encoderlayer1-Encoderlayer6)，各文本编码层采用Transformer神经网络。

步骤S6，基于预设的全连接层对图像编码特征进行处理，并将处理结果与文本编码特征进行拼接，获取拼接特征，对拼接特征进行MLP操作，并基于预设自注意力模块(SelfAttention)进行特征融合，生成融合特征。

步骤S7，基于预设文本解码器对融合特征进行解码，生成与司机状态对应的文本信息。

如图2所示，预设文本解码器中包括6级解码层(Decoderlayer1-Decoderlayer6)，各解码层采用Transformer神经网络，各级解码层的输入为融合特征和前一级解码层的输出，最后一级解码层的输出为文本信息。

通过应用以上技术方案，基于预设图像编码器、预设文本编码器和预设文本解码器构建出端到端的司机状态文本生成模型，通过对RGB图像、红外图像和语音数据进行特征提取和特征融合，结合三种不同维度进行状态文本生成，从而提高了司机状态描述的完整性和可理解性，进而可更加准确的对司机状态进行监测。

本申请实施例还提出了一种智能座舱环境下司机状态文本的生成装置，如图3所示，所述装置包括：获取模块301，用于获取智能座舱环境中司机的RGB图像、红外图像和语音数据；图像编码模块302，用于基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；文本编码模块303，用于对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；融合模块304，用于根据所述图像编码特征和所述文本编码特征生成融合特征；解码模块305，用于基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息。

本发明实施例还提供了一种电子设备，如图4所示，包括处理器401、通信接口402、存储器403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信，

存储器403，用于存储处理器的可执行指令；

处理器401，被配置为经由执行所述可执行指令来执行：

获取智能座舱环境中司机的RGB图像、红外图像和语音数据；基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；根据所述图像编码特征和所述文本编码特征生成融合特征；基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息。

上述通信总线可以是PCI(PeripheralComponentInterconnect，外设部件互连标准)总线或EISA(ExtendedIndustryStandardArchitecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(RandomAccessMemory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(CentralProcessingUnit，中央处理器)、NP(NetworkProcessor，网络处理器)等；还可以是DSP(DigitalSignal Processing，数字信号处理器)、ASIC(ApplicationSpecificIntegratedCircuit，专用集成电路)、FPGA(FieldProgrammableGateArray，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的智能座舱环境下司机状态文本的生成方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的智能座舱环境下司机状态文本的生成方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种智能座舱环境下司机状态文本的生成方法，其特征在于，所述方法包括：

获取智能座舱环境中司机的RGB图像、红外图像和语音数据；

基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；

对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；

根据所述图像编码特征和所述文本编码特征生成融合特征；

基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息；其中，所述预设文本编码器包括文本编码层，所述文本编码层采用Transformer神经网络；

所述预设图像编码器包括N级红外特征提取层和N级RGB特征提取层，第一级红外特征提取层的输入为所述红外图像，其他各级红外特征提取层的输入为前一级红外特征提取层的输出，各级红外特征提取层的输出与本级RGB特征提取层的输出拼接为本级图像融合特征，各级RGB特征提取层的输入为所述RGB图像或前一级图像融合特征，最后一级图像融合特征为所述图像编码特征，N为大于1的整数；

第一级RGB特征提取层的输入端设置有patchEmbedding模块，所述RGB图像经所述patchEmbedding模块处理后进入第一级RGB特征提取层；

所述根据所述图像编码特征和所述文本编码特征生成融合特征，包括：

对所述拼接特征进行MLP操作，再基于预设自注意力模块进行特征融合，生成所述融合特征；

其中，各级红外特征提取层采用卷积神经网络，各级RGB特征提取层采用Swin-Transformer；

所述预设文本解码器包括多级采用Transformer的解码层，第一级解码层的输入为所述融合特征，其他各级解码层的输入为所述融合特征和前一级解码层的输出，最后一级解码层的输出为所述文本信息。

2.如权利要求1所述的方法，其特征在于，在获取智能座舱环境中司机的RGB图像、红外图像和语音数据之前，还包括：

3.一种智能座舱环境下司机状态文本的生成装置，其特征在于，所述装置包括：

获取模块，用于获取智能座舱环境中司机的RGB图像、红外图像和语音数据；

图像编码模块，用于基于预设图像编码器对所述RGB图像和所述红外图像进行特征提取，获取图像编码特征；

文本编码模块，用于对所述语音数据进行语音识别，并基于预设文本编码器对识别到的文本数据进行编码，获取文本编码特征；

融合模块，用于根据所述图像编码特征和所述文本编码特征生成融合特征；

解码模块，用于基于预设文本解码器对所述融合特征进行解码，生成与司机状态对应的文本信息；其中，所述预设文本编码器包括文本编码层，所述文本编码层采用Transformer神经网络；

4.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～2中任意一项所述的智能座舱环境下司机状态文本的生成方法。

5.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～2中任意一项所述的智能座舱环境下司机状态文本的生成方法。