CN116563920B

CN116563920B - 一种基于多模态信息的座舱环境下年龄识别方法和装置

Info

Publication number: CN116563920B
Application number: CN202310504058.9A
Authority: CN
Inventors: 胡敏; 李冬冬; 宁欣; 李爽; 周嵘; 唐小江; 姜丽敏
Original assignee: Beijing Zhongke Ruitu Technology Co ltd
Current assignee: Beijing Zhongke Ruitu Technology Co ltd
Priority date: 2023-05-06
Filing date: 2023-05-06
Publication date: 2023-10-13
Anticipated expiration: 2043-05-06
Also published as: CN116563920A

Abstract

本发明公开了一种基于多模态信息的座舱环境下年龄识别方法和装置，该方法包括：基于数据集对年龄识别模型进行训练，训练完成后得到目标年龄识别模型；获取智能座舱环境下目标人的目标人脸图像和目标语音，并将目标人脸图像和目标语音输入目标年龄识别模型，得到目标人的年龄；其中，年龄识别模型包括预设个数的依次连接的层，每个层后连接一个特征融合模块，特征融合模块用于获取前一个层输出的图像特征和语音特征，并基于语音特征对图像特征进行补充后输出新的图像特征，以此基于多个特征融合模块对人脸图像特征和语音特征进行多阶段深层次的特征融合，从而进一步提高了智能座舱环境下的年龄识别精度。

Description

一种基于多模态信息的座舱环境下年龄识别方法和装置

技术领域

本申请涉及智能汽车技术领域，更具体地，涉及一种基于多模态信息的座舱环境下年龄识别方法和装置。

背景技术

随着人工智能技术的不断发展，其应用场景更加多元化和专业化。目前来说，很多应用场景需要采集用户的年龄，以汽车智能座舱为例，需要获取用户的年龄信息，以便基于用户的年龄信息提供更好的服务。

现有技术中，一般通过采集用户的人脸图像信息或者声音信息，利用深度学习、机器学习等方法单一的处理人脸信息或者语音信息进行年龄识别。然而，现有技术在根据单一类型的人脸或者声音数据来训练年龄识别模型时，由于不同年龄阶段，不同职业，不同地域等，使得单一类型数据对于年龄识别依然存在识别精度不高的问题。

因此，如何进一步提高智能座舱环境下的年龄识别精度，是目前有待解决的技术问题。

发明内容

本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法和装置，用以进一步提高智能座舱环境下的年龄识别精度。

第一方面，提供一种基于多模态信息的座舱环境下年龄识别方法，所述方法包括：获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；搭建基于预设神经网络的年龄识别模型；基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；其中，所述年龄识别模型包括预设个数的依次连接的层，每个所述层后连接一个特征融合模块，非最后一个所述特征融合模块的输出连接下一个所述层，最后一个所述特征融合模块的输出连接一个预设分类器，所述预设分类器的输出连接一个全连接层，所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。

第二方面，提供一种基于多模态信息的座舱环境下年龄识别装置，所述装置包括：获取模块，用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；建模模块，用于搭建基于预设神经网络的年龄识别模型；训练模块，用于基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；确定模块，用于获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；其中，所述年龄识别模型包括预设个数的依次连接的层，每个所述层后连接一个特征融合模块，非最后一个所述特征融合模块的输出连接下一个所述层，最后一个所述特征融合模块的输出连接一个预设分类器，所述预设分类器的输出连接一个全连接层，所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。

第三方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行第一方面所述的基于多模态信息的座舱环境下年龄识别方法。

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序所述计算机程序被处理器执行时实现第一方面所述的基于多模态信息的座舱环境下年龄识别方法。

通过应用以上技术方案，获取预设数量的人脸图像数据和与人脸图像数据关联的语音数据，对人脸图像数据和语音数据进行标注，得到数据集；搭建基于预设神经网络的年龄识别模型；基于数据集对年龄识别模型进行训练，训练完成后得到目标年龄识别模型；获取智能座舱环境下目标人的目标人脸图像和目标语音，并将目标人脸图像和目标语音输入目标年龄识别模型，根据目标年龄识别模型的输出结果确定目标人的年龄；其中，年龄识别模型包括预设个数的依次连接的层，每个层后连接一个特征融合模块，非最后一个特征融合模块的输出连接下一个层，最后一个特征融合模块的输出连接一个预设分类器，预设分类器的输出连接一个全连接层，特征融合模块用于获取前一个层输出的图像特征和语音特征，并基于语音特征对图像特征进行补充后输出新的图像特征，以此通过分别提取人脸特征和声音特征，并基于多个特征融合模块对人脸图像特征和语音特征进行多阶段深层次的特征融合，从而进一步提高了智能座舱环境下的年龄识别精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例提出的一种基于多模态信息的座舱环境下年龄识别方法的流程示意图；

图2示出了本发明实施例中年龄识别模型的结构示意图；

图3示出了本发明实施例中特征融合模块的原理示意图；

图4示出了本发明实施例提出的一种基于多模态信息的座舱环境下年龄识别装置的结构示意图；

图5示出了本发明实施例提出的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由权利要求部分指出。

应当理解的是，本申请并不局限于下面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

本申请可用于众多通用或专用的计算装置环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法，如图1所示，该方法包括以下步骤：

步骤S101，获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集。

本实施例中，需要通过数据集对后续搭建的年龄识别模型进行训练，因此，先获取数据集，具体的，可基于图像采集设备(如摄像头)采集预设数量的人脸图像数据，并基于语音采集设备(如麦克风)采集与人脸图像数据关联的语音数据，即，每个人脸图像数据和与其关联的语音数据是与同一个人对应的。然后对采集到的人脸图像数据和所述语音数据进行标注，从而得到便于进行模型训练的数据集。另外，标注的具体过程对于本领域技术人员是显而易见的，在此不再赘述。

步骤S102，搭建基于预设神经网络的年龄识别模型。

通过基于预设神经网络的年龄识别模型进行年龄预测，按预设网络结构搭建年龄识别模型，其中，年龄识别模型包括预设个数的依次连接的层(即神经网络中的Layer)，每个层后连接一个特征融合模块，非最后一个特征融合模块的输出连接下一个层，最后一个特征融合模块的输出连接一个预设分类器，预设分类器的输出连接一个全连接层，特征融合模块用于获取前一个层输出的图像特征和语音特征，并基于语音特征对图像特征进行补充后输出新的图像特征，其中，特征融合模块即FFM(Fusion feature module)。以此基于特征融合模块将各层输出的图像特征和语音特征进行多阶段深层次融合，实现将与年龄相关的多模态信息融合，从而可提高年龄识别模型的准确性。

可选的，预设神经网络为包括resnet系列(resnet的各种变体)、NAS网络系列(RegNet)、Mobilenet系列、Darknet系列、HRNet系列、Transformer系列和ConvNeXt的神经网络类型中的任一种。

在本申请一些实施例中，首个所述层将输入的人脸图像处理后输入首个所述特征融合模块，首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层，非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块，除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层，最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块。

本实施例中，人脸图像和语音从首个层输入，经各层和各特征融合模块处理后输入预设分类器和后续的全连接层，以此将特征融合模块嵌入到不同的阶段，实现多阶段深层次的特征融合，不同模态之间的特征互补提高了年龄识别模型的识别准确率。

在本申请一些实施例中，所述预设神经网络为Transformer神经网络，所述年龄识别模型的Backbone采用Swin-Transformer，所述预设个数为四，第一、二、四个所述层分别包括两个SwinTransformerBlock，第三个所述层包括六个Swin Transformer Block。

本实施例中，Transformer神经网络可以实现完全并行的计算，更好地捕捉长距离的依赖关系，计算全局的依赖关系，更容易地解释预测结果，并可处理不定长序列和多模态数据，支持迁移学习。Swin-transformer是可以用于计算机视觉任务的通用主干网络，可以用于图像分类、图像分割、目标检测等一系列视觉下游任务。Swin-Transformer为一种层级式网络结构，可解决视觉图像的多尺度问题，还提出Shifted Windows，极大降低了Transformer的计算复杂度。通过采用基于Transformer神经网络的年龄识别模型，并采用Swin-Transformer作为Backbone，进一步提高了年龄识别模型的预测精度和效率。

另外，本领域技术人员可根据实际需要采用其他类型的预设神经网络，其他类型的Backbone，不同预设个数的层，以及各层的其他具体结构，这并不影响本申请的保护范围。

在本申请一些实施例中，所述特征融合模块获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括：

设F_img为所述图像特征，F_voice为所述语音特征，将大小为的F_img转换为大小，其中N＝H×W，并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Q_img，并得到与图像Q向量Q_img对应的图像K向量K_img和图像V向量V_img；

对F_voice经过一次转置、第一MLP(Multilayer Perceptron，多层感知机)、二次转置，得到尺寸为的向量，并经线性Embedding操作后生成大小为/>的语音Q向量Q_voice，并得到与语音Q向量Q_voice对应的语音向量K_voice和语音V向量V_voice：

根据图像Q向量Q_img、图像K向量K_img、图像V向量V_img、语音Q向量Q_voice、语音向量K_voice和语音V向量V_voice确定图像注意力结果U_img和语音注意力结果U_voice；

将图像注意力结果U_img和语音注意力结果U_voice进行拼接后输入到第二MLP中，并将第二MLP输出的结果与残差向量F_Res拼接后输入到第三MLP中，将第三MLP输出的结果转化为大小的向量后与F_img进行残差计算，得到新的图像特征F_merge。

本实施例中，通过特征融合模块的上述处理过程，实现了更加准确的将图像特征和语音特征进行融合。

另外，将图像注意力结果U_img和语音注意力结果U_voice进行拼接后输入到第二MLP中，并将第二MLP输出的结果与残差向量F_Res拼接后输入到第三MLP中，将第三MLP输出的结果转化为大小的向量后与F_img进行残差计算，得到新的图像特征F_merge，可通过以下公式四表示：

其中，Concatenate为拼接函数，为元素相加。

需要说明的是，以上实施例的方案仅为本申请所提出的一种具体实现方案，其他对图像特征和语音特征进行融合的方式均属于本申请的保护范围。

在本申请一些实施例中，所述根据图像Q向量Q_img、图像K向量K_img、图像V向量V_img、语音Q向量Q_voice、语音向量K_voice和语音V向量V_voice确定图像注意力结果U_img和语音注意力结果U_voice，包括：

根据公式一确定图像全局上下文特征向量G_img和语音全局上下文特征向量G_voice，所述公式一为：

根据公式二确定图像注意力结果U_img和语音注意力结果U_voice，所述公式二为：

U_img＝Q_imgSoftmax(G_voice)

U_voice＝Q_voiceSoftmax(G_img)。

本实施例中，通过交叉注意力机制将语音特征补充到图像特征中，进一步提高了年龄识别模型的识别精度。

步骤S103，基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型。

本实施例中，在搭建好年龄识别模型后，基于数据集对年龄识别模型进行训练，不断对年龄识别模型的超参数进行调优，训练完成后得到目标年龄识别模型。

在本申请一些实施例中，所述预设分类器用于按多个预设年龄区间进行分类并得到粗粒度分类结果，所述全连接层用于对粗粒度分类结果进行分类并得到预测年龄。

本实施例中，年龄识别模型的预测过程分为两个阶段，第一阶段通过预设分类器按多个预设年龄区间进行分类并得到粗粒度分类结果，第二阶段基于全连接层对粗粒度分类结果进行分类并得到预测年龄，以此通过第一阶段实现年龄粗粒度分类，通过第二阶段实现年龄精确识别，从而进一步提高了年龄识别精度。

可选的，预设分类器可以为xgboost分类器或其他类型的分类器，本领域技术人员可灵活选用。

可选的，预设年龄区间包括儿童(0-11岁)、少年(12-18岁)、青年人(19-44岁)、中年人(45-60岁)、年轻老人(61-75岁)、老年人(75岁以上)。

在本申请一些实施例中，所述年龄识别模型的损失函数由公式三确定，所述公式三为：

其中，loss为损失值，其中n为所述数据集中的样本数量，y₁和y′₁分别为与所述预设分类器对应的真实年龄区间和预测年龄区间，y₂和y′₂分别为与所述全连接层对应的真实年龄和预测年龄。

本实施例中，加号“+”之前为预设分类器对应分类损失，加号“+”之后全连接层对应回归损失，上述损失函数同时考虑了分类损失和回归损失，进一步提高了年龄识别模型的年龄识别准确度。

步骤S104，获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄。

本实施例中，智能座舱是智能汽车中的驾驶空间和乘坐空间，能够通过各种智能化手段满足不同人在车内的不同需求，将带来更为智能、安全的交互体验，同时也是高级辅助驾驶、自动驾驶和人工智能等技术的关键接口。在智能座舱中存在待识别的目标人时，通过智能座舱中的摄像头对目标人进行拍摄，获取目标人的目标人脸图像，并通过智能座舱中的麦克风对目标人发出的语音进行采集，获取目标人的目标语音。然后将目标人脸图像和目标语音输入已经训练完成的目标年龄识别模型，根据目标年龄识别模型的输出结果确定目标人的年龄，从而实现准确的对目标人的年龄进行识别。

为了进一步阐述本发明的技术思想，现结合具体的应用场景，对本发明的技术方案进行说明。

本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法，包括以下步骤：

步骤S1，构建数据集。

具体的，通过RGB摄像头采集预设数量的人脸图像数据，并基于麦克风采集与人脸图像数据关联的语音数据，然后对采集到的人脸图像数据和所述语音数据进行标注，从而得到便于进行模型训练的数据集。

步骤S2，搭建基于Transformer神经网络的具有双分枝结构的年龄识别模型。

年龄识别模型的具体结构如图2所示，年龄识别模型的整体结构包括图像分枝和语音分枝。年龄识别模型的层包括Layer1、Layer2、Layer3和Layer4，每个层后连接一个特征融合模块FFM。年龄识别模型的Backbone采用Swin-Transformer，Layer1、Layer2、Layer4分别包含两个SwinTransformer Block，Layer3包含6个SwinTransformerBlock。

输入的人脸图像首先经过Layer1处理后输入FFM，输入的语音经过Layer1处理后分别输入FFM和Layer2中。经过Layer1处理后的图像特征和语音特征输入FFM，FFM利用语音特征对图像特征进行特征补充，完成多模态特征融合，之后将输出的新的图像特征输入Layer2中，之后同样的过程以此类推，经过Layer4处理的图像特征和语音特征输入最后一个FFM进行特征融合，最后一个FFM将输出的新的图像特征输入分类器(即预设分类器)，实现第一阶段的年龄粗粒度分类，经过分类器分类后输入到最后的全连接层进行年龄预测，实现第二阶段的年龄精确识别。

其中，分类器为xgboost分类器，与分类器对应的预设年龄区间包括儿童(0-11岁)、少年(12-18岁)、青年人(19-44岁)、中年人(45-60岁)、年轻老人(61-75岁)、老年人(75岁以上)。

其中，如图3所示，FFM按以下过程进行特征融合：

步骤S21，设F_img为所述图像特征，F_voice为所述语音特征，将大小为的F_img转换为/>大小，其中N＝H×W，并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Q_img，并得到与图像Q向量Q_img对应的图像K向量K_img和图像V向量V_img；

步骤S22，对F_voice经过一次转置、第一MLP、二次转置，得到尺寸为的向量，并经线性Embedding操作后生成大小为/>的语音Q向量Q_voice，并得到与语音Q向量Q_voice对应的语音向量K_voice和语音V向量V_voice；

步骤S23，根据公式一确定图像全局上下文特征向量G_img和语音全局上下文特征向量G_voice，所述公式一为：

步骤S24，根据公式二确定图像注意力结果U_img和语音注意力结果U_voice，所述公式二为：

U_img＝Q_imgSoftmax(G_voice)

U_voice＝Q_voiceSoftmax(G_img)；

步骤S25，将图像注意力结果U_img和语音注意力结果U_voice进行拼接后输入到第二MLP中，并将第二MLP输出的结果与残差向量F_Res(即Residual)拼接后输入到第三MLP中，将第三MLP输出的结果转化为大小的向量后与F_img进行残差计算，得到新的图像特征F_merge。具体的，步骤S25可通过以下公式四表示：

其中，Concatenate为拼接函数，为元素相加。

F_merge将会作为图像分枝的下一层输入进行后续的计算。

步骤S3，基于数据集对年龄识别模型进行训练，训练完成后得到目标年龄识别模型。

在搭建好年龄识别模型后，基于数据集对年龄识别模型进行训练，不断对年龄识别模型的超参数进行调优，训练完成后得到目标年龄识别模型。

年龄识别模型的损失函数由公式三确定，公式三为：

其中，loss为损失值，其中n为数据集中的样本数量，y₁和y′₁分别为与预设分类器对应的真实年龄区间和预测年龄区间，y₂和y′₂分别为与全连接层对应的真实年龄和预测年龄。

加号“+”之前为预设分类器对应分类损失，加号“+”之后全连接层对应回归损失，上述损失函数同时考虑了分类损失和回归损失，进一步提高了年龄识别模型的年龄识别准确度。

步骤S4，获取智能座舱环境下目标人的目标人脸图像和目标语音，并将目标人脸图像和目标语音输入目标年龄识别模型，根据目标年龄识别模型的输出结果确定目标人的年龄。

在智能座舱中存在待识别的目标人时，通过智能座舱中的摄像头对目标人进行拍摄，获取目标人的目标人脸图像，并通过智能座舱中的麦克风对目标人发出的语音进行采集，获取目标人的目标语音。然后将目标人脸图像和目标语音输入已经训练完成的目标年龄识别模型，根据目标年龄识别模型的输出结果确定目标人的年龄，从而实现准确的对目标人的年龄进行识别。

通过应用以上技术方案，采用双分枝模型框架分别提取人脸图像特征和声音特征，同时设计了人脸与声音的跨模态特征融合，将特征融合模块嵌入到不同的阶段，实现多阶段深层次的特征融合，不同模态之间的特征互补提高了年龄识别的准确率。同时采用的两阶段年龄预测策略实现了年龄从粗粒度到细粒度的预测，损失函数计算两个阶段的总体损失，进一步提高了模型的年龄识别准确度。

本申请实施例还提出了一种基于多模态信息的座舱环境下年龄识别装置，如图4所示，所述装置包括：获取模块401，用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；建模模块402，用于搭建基于预设神经网络的年龄识别模型；训练模块403，用于基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；确定模块404，用于获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；其中，所述年龄识别模型包括预设个数的依次连接的层，每个所述层后连接一个特征融合模块，非最后一个所述特征融合模块的输出连接下一个所述层，最后一个所述特征融合模块的输出连接一个预设分类器，所述预设分类器的输出连接一个全连接层，所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。

本发明实施例还提供了一种电子设备，如图5所示，包括处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信，

存储器503，用于存储处理器的可执行指令；

处理器501，被配置为经由执行所述可执行指令来执行：

获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；搭建基于预设神经网络的年龄识别模型；基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；其中，所述年龄识别模型包括预设个数的依次连接的层，每个所述层后连接一个特征融合模块，非最后一个所述特征融合模块的输出连接下一个所述层，最后一个所述特征融合模块的输出连接一个预设分类器，所述预设分类器的输出连接一个全连接层，所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。

上述通信总线可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(Extended Industry Standard Architecture，扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述终端与其他设备之间的通信。

存储器可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital Signal Processing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于多模态信息的座舱环境下年龄识别方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行如上所述的基于多模态信息的座舱环境下年龄识别方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种基于多模态信息的座舱环境下年龄识别方法，其特征在于，所述方法包括：

获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；

搭建基于预设神经网络的年龄识别模型；

基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；

获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；

其中，所述年龄识别模型包括预设个数的依次连接的层，每个所述层后连接一个特征融合模块，非最后一个所述特征融合模块的输出连接下一个所述层，最后一个所述特征融合模块的输出连接一个预设分类器，所述预设分类器的输出连接一个全连接层，所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征；

首个所述层将输入的人脸图像处理后输入首个所述特征融合模块，首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层，非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块，除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层，最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块，所述预设分类器用于按多个预设年龄区间进行分类并得到粗粒度分类结果，所述全连接层用于对粗粒度分类结果进行分类并得到预测年龄。

2.如权利要求1所述的方法，其特征在于，所述预设神经网络为Transformer神经网络，所述年龄识别模型的Backbone采用Swin-Transformer，所述预设个数为四，第一、二、四个所述层分别包括两个Swin Transformer Block，第三个所述层包括六个Swin TransformerBlock。

3.如权利要求1所述的方法，其特征在于，所述特征融合模块获取前一个所述层输出的图像特征和语音特征，并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括：

设F_img为所述图像特征，F_voice为所述语音特征，将大小为的F_img转换为/>大小，其中N＝H×W，并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Q_img，并得到与图像Q向量Q_img对应的图像K向量K_img和图像V向量V_img；

对F_voice经过一次转置、第一MLP、二次转置，得到尺寸为的向量，并经线性Embedding操作后生成大小为/>的语音Q向量Q_voice，并得到与语音Q向量Q_voice对应的语音K向量K_voice和语音V向量V_voice；

根据图像Q向量Q_img、图像K向量K_img、图像V向量V_img、语音Q向量Q_voice、语音K向量K_voice和语音V向量V_voice确定图像注意力结果U_img和语音注意力结果U_voice；

4.如权利要求3所述的方法，其特征在于，所述根据图像Q向量Q_img、图像K向量K_img、图像V向量V_img、语音Q向量Q_voice、语音K向量K_voice和语音V向量V_voice确定图像注意力结果U_img和语音注意力结果U_voice，包括：

U_img＝Q_imgSoftmax(G_voice)

U_voice＝Q_voiceSoftmax(G_img)。

5.如权利要求1所述的方法，其特征在于，所述年龄识别模型的损失函数由公式三确定，所述公式三为：

6.一种基于多模态信息的座舱环境下年龄识别装置，其特征在于，所述装置包括：

获取模块，用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据，对所述人脸图像数据和所述语音数据进行标注，得到数据集；

建模模块，用于搭建基于预设神经网络的年龄识别模型；

训练模块，用于基于所述数据集对所述年龄识别模型进行训练，训练完成后得到目标年龄识别模型；

确定模块，用于获取智能座舱环境下目标人的目标人脸图像和目标语音，并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型，根据所述目标年龄识别模型的输出结果确定所述目标人的年龄；

7.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1～5中任意一项所述的基于多模态信息的座舱环境下年龄识别方法。

8.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1～5中任意一项所述的基于多模态信息的座舱环境下年龄识别方法。