CN116563920B - 一种基于多模态信息的座舱环境下年龄识别方法和装置 - Google Patents
一种基于多模态信息的座舱环境下年龄识别方法和装置 Download PDFInfo
- Publication number
- CN116563920B CN116563920B CN202310504058.9A CN202310504058A CN116563920B CN 116563920 B CN116563920 B CN 116563920B CN 202310504058 A CN202310504058 A CN 202310504058A CN 116563920 B CN116563920 B CN 116563920B
- Authority
- CN
- China
- Prior art keywords
- voice
- age
- vector
- image
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 claims abstract description 83
- 238000012549 training Methods 0.000 claims abstract description 31
- 230000008569 process Effects 0.000 claims description 23
- 238000013528 artificial neural network Methods 0.000 claims description 21
- 230000001502 supplementing effect Effects 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 6
- 239000000203 mixture Substances 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000002372 labelling Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004891 communication Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009469 supplementation Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/178—Human faces, e.g. facial parts, sketches or expressions estimating age from face image; using age information for improving recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- General Health & Medical Sciences (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多模态信息的座舱环境下年龄识别方法和装置,该方法包括:基于数据集对年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将目标人脸图像和目标语音输入目标年龄识别模型,得到目标人的年龄;其中,年龄识别模型包括预设个数的依次连接的层,每个层后连接一个特征融合模块,特征融合模块用于获取前一个层输出的图像特征和语音特征,并基于语音特征对图像特征进行补充后输出新的图像特征,以此基于多个特征融合模块对人脸图像特征和语音特征进行多阶段深层次的特征融合,从而进一步提高了智能座舱环境下的年龄识别精度。
Description
技术领域
本申请涉及智能汽车技术领域,更具体地,涉及一种基于多模态信息的座舱环境下年龄识别方法和装置。
背景技术
随着人工智能技术的不断发展,其应用场景更加多元化和专业化。目前来说,很多应用场景需要采集用户的年龄,以汽车智能座舱为例,需要获取用户的年龄信息,以便基于用户的年龄信息提供更好的服务。
现有技术中,一般通过采集用户的人脸图像信息或者声音信息,利用深度学习、机器学习等方法单一的处理人脸信息或者语音信息进行年龄识别。然而,现有技术在根据单一类型的人脸或者声音数据来训练年龄识别模型时,由于不同年龄阶段,不同职业,不同地域等,使得单一类型数据对于年龄识别依然存在识别精度不高的问题。
因此,如何进一步提高智能座舱环境下的年龄识别精度,是目前有待解决的技术问题。
发明内容
本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法和装置,用以进一步提高智能座舱环境下的年龄识别精度。
第一方面,提供一种基于多模态信息的座舱环境下年龄识别方法,所述方法包括:获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;搭建基于预设神经网络的年龄识别模型;基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。
第二方面,提供一种基于多模态信息的座舱环境下年龄识别装置,所述装置包括:获取模块,用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;建模模块,用于搭建基于预设神经网络的年龄识别模型;训练模块,用于基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;确定模块,用于获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。
第三方面,提供一种电子设备,包括:处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行第一方面所述的基于多模态信息的座舱环境下年龄识别方法。
第四方面,提供一种计算机可读存储介质,其上存储有计算机程序所述计算机程序被处理器执行时实现第一方面所述的基于多模态信息的座舱环境下年龄识别方法。
通过应用以上技术方案,获取预设数量的人脸图像数据和与人脸图像数据关联的语音数据,对人脸图像数据和语音数据进行标注,得到数据集;搭建基于预设神经网络的年龄识别模型;基于数据集对年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将目标人脸图像和目标语音输入目标年龄识别模型,根据目标年龄识别模型的输出结果确定目标人的年龄;其中,年龄识别模型包括预设个数的依次连接的层,每个层后连接一个特征融合模块,非最后一个特征融合模块的输出连接下一个层,最后一个特征融合模块的输出连接一个预设分类器,预设分类器的输出连接一个全连接层,特征融合模块用于获取前一个层输出的图像特征和语音特征,并基于语音特征对图像特征进行补充后输出新的图像特征,以此通过分别提取人脸特征和声音特征,并基于多个特征融合模块对人脸图像特征和语音特征进行多阶段深层次的特征融合,从而进一步提高了智能座舱环境下的年龄识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提出的一种基于多模态信息的座舱环境下年龄识别方法的流程示意图;
图2示出了本发明实施例中年龄识别模型的结构示意图;
图3示出了本发明实施例中特征融合模块的原理示意图;
图4示出了本发明实施例提出的一种基于多模态信息的座舱环境下年龄识别装置的结构示意图;
图5示出了本发明实施例提出的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由权利要求部分指出。
应当理解的是,本申请并不局限于下面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
本申请可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法,如图1所示,该方法包括以下步骤:
步骤S101,获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集。
本实施例中,需要通过数据集对后续搭建的年龄识别模型进行训练,因此,先获取数据集,具体的,可基于图像采集设备(如摄像头)采集预设数量的人脸图像数据,并基于语音采集设备(如麦克风)采集与人脸图像数据关联的语音数据,即,每个人脸图像数据和与其关联的语音数据是与同一个人对应的。然后对采集到的人脸图像数据和所述语音数据进行标注,从而得到便于进行模型训练的数据集。另外,标注的具体过程对于本领域技术人员是显而易见的,在此不再赘述。
步骤S102,搭建基于预设神经网络的年龄识别模型。
通过基于预设神经网络的年龄识别模型进行年龄预测,按预设网络结构搭建年龄识别模型,其中,年龄识别模型包括预设个数的依次连接的层(即神经网络中的Layer),每个层后连接一个特征融合模块,非最后一个特征融合模块的输出连接下一个层,最后一个特征融合模块的输出连接一个预设分类器,预设分类器的输出连接一个全连接层,特征融合模块用于获取前一个层输出的图像特征和语音特征,并基于语音特征对图像特征进行补充后输出新的图像特征,其中,特征融合模块即FFM(Fusion feature module)。以此基于特征融合模块将各层输出的图像特征和语音特征进行多阶段深层次融合,实现将与年龄相关的多模态信息融合,从而可提高年龄识别模型的准确性。
可选的,预设神经网络为包括resnet系列(resnet的各种变体)、NAS网络系列(RegNet)、Mobilenet系列、Darknet系列、HRNet系列、Transformer系列和ConvNeXt的神经网络类型中的任一种。
在本申请一些实施例中,首个所述层将输入的人脸图像处理后输入首个所述特征融合模块,首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层,非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块,除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层,最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块。
本实施例中,人脸图像和语音从首个层输入,经各层和各特征融合模块处理后输入预设分类器和后续的全连接层,以此将特征融合模块嵌入到不同的阶段,实现多阶段深层次的特征融合,不同模态之间的特征互补提高了年龄识别模型的识别准确率。
在本申请一些实施例中,所述预设神经网络为Transformer神经网络,所述年龄识别模型的Backbone采用Swin-Transformer,所述预设个数为四,第一、二、四个所述层分别包括两个SwinTransformerBlock,第三个所述层包括六个Swin Transformer Block。
本实施例中,Transformer神经网络可以实现完全并行的计算,更好地捕捉长距离的依赖关系,计算全局的依赖关系,更容易地解释预测结果,并可处理不定长序列和多模态数据,支持迁移学习。Swin-transformer是可以用于计算机视觉任务的通用主干网络,可以用于图像分类、图像分割、目标检测等一系列视觉下游任务。Swin-Transformer为一种层级式网络结构,可解决视觉图像的多尺度问题,还提出Shifted Windows,极大降低了Transformer的计算复杂度。通过采用基于Transformer神经网络的年龄识别模型,并采用Swin-Transformer作为Backbone,进一步提高了年龄识别模型的预测精度和效率。
另外,本领域技术人员可根据实际需要采用其他类型的预设神经网络,其他类型的Backbone,不同预设个数的层,以及各层的其他具体结构,这并不影响本申请的保护范围。
在本申请一些实施例中,所述特征融合模块获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括:
设Fimg为所述图像特征,Fvoice为所述语音特征,将大小为的Fimg转换为大小,其中N=H×W,并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Qimg,并得到与图像Q向量Qimg对应的图像K向量Kimg和图像V向量Vimg;
对Fvoice经过一次转置、第一MLP(Multilayer Perceptron,多层感知机)、二次转置,得到尺寸为的向量,并经线性Embedding操作后生成大小为/>的语音Q向量Qvoice,并得到与语音Q向量Qvoice对应的语音向量Kvoice和语音V向量Vvoice:
根据图像Q向量Qimg、图像K向量Kimg、图像V向量Vimg、语音Q向量Qvoice、语音向量Kvoice和语音V向量Vvoice确定图像注意力结果Uimg和语音注意力结果Uvoice;
将图像注意力结果Uimg和语音注意力结果Uvoice进行拼接后输入到第二MLP中,并将第二MLP输出的结果与残差向量FRes拼接后输入到第三MLP中,将第三MLP输出的结果转化为大小的向量后与Fimg进行残差计算,得到新的图像特征Fmerge。
本实施例中,通过特征融合模块的上述处理过程,实现了更加准确的将图像特征和语音特征进行融合。
另外,将图像注意力结果Uimg和语音注意力结果Uvoice进行拼接后输入到第二MLP中,并将第二MLP输出的结果与残差向量FRes拼接后输入到第三MLP中,将第三MLP输出的结果转化为大小的向量后与Fimg进行残差计算,得到新的图像特征Fmerge,可通过以下公式四表示:
其中,Concatenate为拼接函数,为元素相加。
需要说明的是,以上实施例的方案仅为本申请所提出的一种具体实现方案,其他对图像特征和语音特征进行融合的方式均属于本申请的保护范围。
在本申请一些实施例中,所述根据图像Q向量Qimg、图像K向量Kimg、图像V向量Vimg、语音Q向量Qvoice、语音向量Kvoice和语音V向量Vvoice确定图像注意力结果Uimg和语音注意力结果Uvoice,包括:
根据公式一确定图像全局上下文特征向量Gimg和语音全局上下文特征向量Gvoice,所述公式一为:
根据公式二确定图像注意力结果Uimg和语音注意力结果Uvoice,所述公式二为:
Uimg=QimgSoftmax(Gvoice)
Uvoice=QvoiceSoftmax(Gimg)。
本实施例中,通过交叉注意力机制将语音特征补充到图像特征中,进一步提高了年龄识别模型的识别精度。
步骤S103,基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型。
本实施例中,在搭建好年龄识别模型后,基于数据集对年龄识别模型进行训练,不断对年龄识别模型的超参数进行调优,训练完成后得到目标年龄识别模型。
在本申请一些实施例中,所述预设分类器用于按多个预设年龄区间进行分类并得到粗粒度分类结果,所述全连接层用于对粗粒度分类结果进行分类并得到预测年龄。
本实施例中,年龄识别模型的预测过程分为两个阶段,第一阶段通过预设分类器按多个预设年龄区间进行分类并得到粗粒度分类结果,第二阶段基于全连接层对粗粒度分类结果进行分类并得到预测年龄,以此通过第一阶段实现年龄粗粒度分类,通过第二阶段实现年龄精确识别,从而进一步提高了年龄识别精度。
可选的,预设分类器可以为xgboost分类器或其他类型的分类器,本领域技术人员可灵活选用。
可选的,预设年龄区间包括儿童(0-11岁)、少年(12-18岁)、青年人(19-44岁)、中年人(45-60岁)、年轻老人(61-75岁)、老年人(75岁以上)。
在本申请一些实施例中,所述年龄识别模型的损失函数由公式三确定,所述公式三为:
其中,loss为损失值,其中n为所述数据集中的样本数量,y1和y′1分别为与所述预设分类器对应的真实年龄区间和预测年龄区间,y2和y′2分别为与所述全连接层对应的真实年龄和预测年龄。
本实施例中,加号“+”之前为预设分类器对应分类损失,加号“+”之后全连接层对应回归损失,上述损失函数同时考虑了分类损失和回归损失,进一步提高了年龄识别模型的年龄识别准确度。
步骤S104,获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄。
本实施例中,智能座舱是智能汽车中的驾驶空间和乘坐空间,能够通过各种智能化手段满足不同人在车内的不同需求,将带来更为智能、安全的交互体验,同时也是高级辅助驾驶、自动驾驶和人工智能等技术的关键接口。在智能座舱中存在待识别的目标人时,通过智能座舱中的摄像头对目标人进行拍摄,获取目标人的目标人脸图像,并通过智能座舱中的麦克风对目标人发出的语音进行采集,获取目标人的目标语音。然后将目标人脸图像和目标语音输入已经训练完成的目标年龄识别模型,根据目标年龄识别模型的输出结果确定目标人的年龄,从而实现准确的对目标人的年龄进行识别。
通过应用以上技术方案,获取预设数量的人脸图像数据和与人脸图像数据关联的语音数据,对人脸图像数据和语音数据进行标注,得到数据集;搭建基于预设神经网络的年龄识别模型;基于数据集对年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将目标人脸图像和目标语音输入目标年龄识别模型,根据目标年龄识别模型的输出结果确定目标人的年龄;其中,年龄识别模型包括预设个数的依次连接的层,每个层后连接一个特征融合模块,非最后一个特征融合模块的输出连接下一个层,最后一个特征融合模块的输出连接一个预设分类器,预设分类器的输出连接一个全连接层,特征融合模块用于获取前一个层输出的图像特征和语音特征,并基于语音特征对图像特征进行补充后输出新的图像特征,以此通过分别提取人脸特征和声音特征,并基于多个特征融合模块对人脸图像特征和语音特征进行多阶段深层次的特征融合,从而进一步提高了智能座舱环境下的年龄识别精度。
为了进一步阐述本发明的技术思想,现结合具体的应用场景,对本发明的技术方案进行说明。
本申请实施例提供一种基于多模态信息的座舱环境下年龄识别方法,包括以下步骤:
步骤S1,构建数据集。
具体的,通过RGB摄像头采集预设数量的人脸图像数据,并基于麦克风采集与人脸图像数据关联的语音数据,然后对采集到的人脸图像数据和所述语音数据进行标注,从而得到便于进行模型训练的数据集。
步骤S2,搭建基于Transformer神经网络的具有双分枝结构的年龄识别模型。
年龄识别模型的具体结构如图2所示,年龄识别模型的整体结构包括图像分枝和语音分枝。年龄识别模型的层包括Layer1、Layer2、Layer3和Layer4,每个层后连接一个特征融合模块FFM。年龄识别模型的Backbone采用Swin-Transformer,Layer1、Layer2、Layer4分别包含两个SwinTransformer Block,Layer3包含6个SwinTransformerBlock。
输入的人脸图像首先经过Layer1处理后输入FFM,输入的语音经过Layer1处理后分别输入FFM和Layer2中。经过Layer1处理后的图像特征和语音特征输入FFM,FFM利用语音特征对图像特征进行特征补充,完成多模态特征融合,之后将输出的新的图像特征输入Layer2中,之后同样的过程以此类推,经过Layer4处理的图像特征和语音特征输入最后一个FFM进行特征融合,最后一个FFM将输出的新的图像特征输入分类器(即预设分类器),实现第一阶段的年龄粗粒度分类,经过分类器分类后输入到最后的全连接层进行年龄预测,实现第二阶段的年龄精确识别。
其中,分类器为xgboost分类器,与分类器对应的预设年龄区间包括儿童(0-11岁)、少年(12-18岁)、青年人(19-44岁)、中年人(45-60岁)、年轻老人(61-75岁)、老年人(75岁以上)。
其中,如图3所示,FFM按以下过程进行特征融合:
步骤S21,设Fimg为所述图像特征,Fvoice为所述语音特征,将大小为的Fimg转换为/>大小,其中N=H×W,并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Qimg,并得到与图像Q向量Qimg对应的图像K向量Kimg和图像V向量Vimg;
步骤S22,对Fvoice经过一次转置、第一MLP、二次转置,得到尺寸为的向量,并经线性Embedding操作后生成大小为/>的语音Q向量Qvoice,并得到与语音Q向量Qvoice对应的语音向量Kvoice和语音V向量Vvoice;
步骤S23,根据公式一确定图像全局上下文特征向量Gimg和语音全局上下文特征向量Gvoice,所述公式一为:
步骤S24,根据公式二确定图像注意力结果Uimg和语音注意力结果Uvoice,所述公式二为:
Uimg=QimgSoftmax(Gvoice)
Uvoice=QvoiceSoftmax(Gimg);
步骤S25,将图像注意力结果Uimg和语音注意力结果Uvoice进行拼接后输入到第二MLP中,并将第二MLP输出的结果与残差向量FRes(即Residual)拼接后输入到第三MLP中,将第三MLP输出的结果转化为大小的向量后与Fimg进行残差计算,得到新的图像特征Fmerge。具体的,步骤S25可通过以下公式四表示:
其中,Concatenate为拼接函数,为元素相加。
Fmerge将会作为图像分枝的下一层输入进行后续的计算。
步骤S3,基于数据集对年龄识别模型进行训练,训练完成后得到目标年龄识别模型。
在搭建好年龄识别模型后,基于数据集对年龄识别模型进行训练,不断对年龄识别模型的超参数进行调优,训练完成后得到目标年龄识别模型。
年龄识别模型的损失函数由公式三确定,公式三为:
其中,loss为损失值,其中n为数据集中的样本数量,y1和y′1分别为与预设分类器对应的真实年龄区间和预测年龄区间,y2和y′2分别为与全连接层对应的真实年龄和预测年龄。
加号“+”之前为预设分类器对应分类损失,加号“+”之后全连接层对应回归损失,上述损失函数同时考虑了分类损失和回归损失,进一步提高了年龄识别模型的年龄识别准确度。
步骤S4,获取智能座舱环境下目标人的目标人脸图像和目标语音,并将目标人脸图像和目标语音输入目标年龄识别模型,根据目标年龄识别模型的输出结果确定目标人的年龄。
在智能座舱中存在待识别的目标人时,通过智能座舱中的摄像头对目标人进行拍摄,获取目标人的目标人脸图像,并通过智能座舱中的麦克风对目标人发出的语音进行采集,获取目标人的目标语音。然后将目标人脸图像和目标语音输入已经训练完成的目标年龄识别模型,根据目标年龄识别模型的输出结果确定目标人的年龄,从而实现准确的对目标人的年龄进行识别。
通过应用以上技术方案,采用双分枝模型框架分别提取人脸图像特征和声音特征,同时设计了人脸与声音的跨模态特征融合,将特征融合模块嵌入到不同的阶段,实现多阶段深层次的特征融合,不同模态之间的特征互补提高了年龄识别的准确率。同时采用的两阶段年龄预测策略实现了年龄从粗粒度到细粒度的预测,损失函数计算两个阶段的总体损失,进一步提高了模型的年龄识别准确度。
本申请实施例还提出了一种基于多模态信息的座舱环境下年龄识别装置,如图4所示,所述装置包括:获取模块401,用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;建模模块402,用于搭建基于预设神经网络的年龄识别模型;训练模块403,用于基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;确定模块404,用于获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。
本发明实施例还提供了一种电子设备,如图5所示,包括处理器501、通信接口502、存储器503和通信总线504,其中,处理器501,通信接口502,存储器503通过通信总线504完成相互间的通信,
存储器503,用于存储处理器的可执行指令;
处理器501,被配置为经由执行所述可执行指令来执行:
获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;搭建基于预设神经网络的年龄识别模型;基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征。
上述通信总线可以是PCI(Peripheral Component Interconnect,外设部件互连标准)总线或EISA(Extended Industry Standard Architecture,扩展工业标准结构)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述终端与其他设备之间的通信。
存储器可以包括RAM(Random Access Memory,随机存取存储器),也可以包括非易失性存储器,例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括CPU(Central Processing Unit,中央处理器)、NP(Network Processor,网络处理器)等;还可以是DSP(Digital Signal Processing,数字信号处理器)、ASIC(Application Specific Integrated Circuit,专用集成电路)、FPGA(Field Programmable Gate Array,现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于多模态信息的座舱环境下年龄识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行如上所述的基于多模态信息的座舱环境下年龄识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种基于多模态信息的座舱环境下年龄识别方法,其特征在于,所述方法包括:
获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;
搭建基于预设神经网络的年龄识别模型;
基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;
获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;
其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征;
首个所述层将输入的人脸图像处理后输入首个所述特征融合模块,首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层,非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块,除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层,最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块,所述预设分类器用于按多个预设年龄区间进行分类并得到粗粒度分类结果,所述全连接层用于对粗粒度分类结果进行分类并得到预测年龄。
2.如权利要求1所述的方法,其特征在于,所述预设神经网络为Transformer神经网络,所述年龄识别模型的Backbone采用Swin-Transformer,所述预设个数为四,第一、二、四个所述层分别包括两个Swin Transformer Block,第三个所述层包括六个Swin TransformerBlock。
3.如权利要求1所述的方法,其特征在于,所述特征融合模块获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征的具体过程包括:
设Fimg为所述图像特征,Fvoice为所述语音特征,将大小为的Fimg转换为/>大小,其中N=H×W,并通过线性Embedding操作生成大小为/>的残差向量和大小为/>的图像Q向量Qimg,并得到与图像Q向量Qimg对应的图像K向量Kimg和图像V向量Vimg;
对Fvoice经过一次转置、第一MLP、二次转置,得到尺寸为的向量,并经线性Embedding操作后生成大小为/>的语音Q向量Qvoice,并得到与语音Q向量Qvoice对应的语音K向量Kvoice和语音V向量Vvoice;
根据图像Q向量Qimg、图像K向量Kimg、图像V向量Vimg、语音Q向量Qvoice、语音K向量Kvoice和语音V向量Vvoice确定图像注意力结果Uimg和语音注意力结果Uvoice;
将图像注意力结果Uimg和语音注意力结果Uvoice进行拼接后输入到第二MLP中,并将第二MLP输出的结果与残差向量FRes拼接后输入到第三MLP中,将第三MLP输出的结果转化为大小的向量后与Fimg进行残差计算,得到新的图像特征Fmerge。
4.如权利要求3所述的方法,其特征在于,所述根据图像Q向量Qimg、图像K向量Kimg、图像V向量Vimg、语音Q向量Qvoice、语音K向量Kvoice和语音V向量Vvoice确定图像注意力结果Uimg和语音注意力结果Uvoice,包括:
根据公式一确定图像全局上下文特征向量Gimg和语音全局上下文特征向量Gvoice,所述公式一为:
根据公式二确定图像注意力结果Uimg和语音注意力结果Uvoice,所述公式二为:
Uimg=QimgSoftmax(Gvoice)
Uvoice=QvoiceSoftmax(Gimg)。
5.如权利要求1所述的方法,其特征在于,所述年龄识别模型的损失函数由公式三确定,所述公式三为:
其中,loss为损失值,其中n为所述数据集中的样本数量,y1和y′1分别为与所述预设分类器对应的真实年龄区间和预测年龄区间,y2和y′2分别为与所述全连接层对应的真实年龄和预测年龄。
6.一种基于多模态信息的座舱环境下年龄识别装置,其特征在于,所述装置包括:
获取模块,用于获取预设数量的人脸图像数据和与所述人脸图像数据关联的语音数据,对所述人脸图像数据和所述语音数据进行标注,得到数据集;
建模模块,用于搭建基于预设神经网络的年龄识别模型;
训练模块,用于基于所述数据集对所述年龄识别模型进行训练,训练完成后得到目标年龄识别模型;
确定模块,用于获取智能座舱环境下目标人的目标人脸图像和目标语音,并将所述目标人脸图像和所述目标语音输入所述目标年龄识别模型,根据所述目标年龄识别模型的输出结果确定所述目标人的年龄;
其中,所述年龄识别模型包括预设个数的依次连接的层,每个所述层后连接一个特征融合模块,非最后一个所述特征融合模块的输出连接下一个所述层,最后一个所述特征融合模块的输出连接一个预设分类器,所述预设分类器的输出连接一个全连接层,所述特征融合模块用于获取前一个所述层输出的图像特征和语音特征,并基于所述语音特征对所述图像特征进行补充后输出新的图像特征;
首个所述层将输入的人脸图像处理后输入首个所述特征融合模块,首个所述层将输入的语音处理后分别输入首个所述特征融合模块和第二个所述层,非首个所述层将前一个所述特征融合模块输入的新的图像特征处理后输入下一个所述特征融合模块,除首个和最后一个以外的所述层将前一个所述层输入的语音特征处理后分别输入下一个所述特征融合模块和下一个所述层,最后一个所述层将前一个所述层输入的语音特征处理后输入下一个所述特征融合模块,所述预设分类器用于按多个预设年龄区间进行分类并得到粗粒度分类结果,所述全连接层用于对粗粒度分类结果进行分类并得到预测年龄。
7.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1~5中任意一项所述的基于多模态信息的座舱环境下年龄识别方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~5中任意一项所述的基于多模态信息的座舱环境下年龄识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504058.9A CN116563920B (zh) | 2023-05-06 | 2023-05-06 | 一种基于多模态信息的座舱环境下年龄识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310504058.9A CN116563920B (zh) | 2023-05-06 | 2023-05-06 | 一种基于多模态信息的座舱环境下年龄识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116563920A CN116563920A (zh) | 2023-08-08 |
CN116563920B true CN116563920B (zh) | 2023-10-13 |
Family
ID=87487369
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310504058.9A Active CN116563920B (zh) | 2023-05-06 | 2023-05-06 | 一种基于多模态信息的座舱环境下年龄识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116563920B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
CN114170654A (zh) * | 2021-11-26 | 2022-03-11 | 深圳数联天下智能科技有限公司 | 年龄识别模型的训练方法、人脸年龄识别方法及相关装置 |
WO2022253074A1 (zh) * | 2021-06-01 | 2022-12-08 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN115641533A (zh) * | 2022-10-21 | 2023-01-24 | 湖南大学 | 目标对象情绪识别方法、装置和计算机设备 |
CN115732076A (zh) * | 2022-11-16 | 2023-03-03 | 四川大学华西医院 | 一种多模态抑郁数据的融合分析方法 |
CN115862597A (zh) * | 2022-06-17 | 2023-03-28 | 南京地平线集成电路有限公司 | 人物类型的确定方法、装置、电子设备和存储介质 |
-
2023
- 2023-05-06 CN CN202310504058.9A patent/CN116563920B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460334A (zh) * | 2018-01-23 | 2018-08-28 | 北京易智能科技有限公司 | 一种基于声纹和人脸图像特征融合的年龄预测系统及方法 |
WO2022253074A1 (zh) * | 2021-06-01 | 2022-12-08 | 华为技术有限公司 | 一种数据处理方法及相关设备 |
CN114170654A (zh) * | 2021-11-26 | 2022-03-11 | 深圳数联天下智能科技有限公司 | 年龄识别模型的训练方法、人脸年龄识别方法及相关装置 |
CN115862597A (zh) * | 2022-06-17 | 2023-03-28 | 南京地平线集成电路有限公司 | 人物类型的确定方法、装置、电子设备和存储介质 |
CN115641533A (zh) * | 2022-10-21 | 2023-01-24 | 湖南大学 | 目标对象情绪识别方法、装置和计算机设备 |
CN115732076A (zh) * | 2022-11-16 | 2023-03-03 | 四川大学华西医院 | 一种多模态抑郁数据的融合分析方法 |
Non-Patent Citations (2)
Title |
---|
Min Xia.Multi-Stage Feature Constraints Learning for Age Estimation.《IEEE Transactions on Information Forensics and Security》.2020,第15卷(第1期),全文. * |
方尔庆 等.基于视听信息的自动年龄估计方法.《软件学报》.2011,第22卷(第07期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116563920A (zh) | 2023-08-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3399460B1 (en) | Captioning a region of an image | |
CN113762322B (zh) | 基于多模态表示的视频分类方法、装置和设备及存储介质 | |
WO2022156561A1 (zh) | 一种自然语言处理方法以及装置 | |
US11755889B2 (en) | Method, system and apparatus for pattern recognition | |
CN113627447B (zh) | 标签识别方法、装置、计算机设备、存储介质及程序产品 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
US20180336469A1 (en) | Sigma-delta position derivative networks | |
CN116720004B (zh) | 推荐理由生成方法、装置、设备及存储介质 | |
CN113516227B (zh) | 一种基于联邦学习的神经网络训练方法及设备 | |
CN113361593B (zh) | 生成图像分类模型的方法、路侧设备及云控平台 | |
WO2023280113A1 (zh) | 数据处理方法、神经网络模型的训练方法及装置 | |
WO2022253074A1 (zh) | 一种数据处理方法及相关设备 | |
WO2024083121A1 (zh) | 一种数据处理方法及其装置 | |
CN113159283A (zh) | 一种基于联邦迁移学习的模型训练方法及计算节点 | |
WO2023231753A1 (zh) | 一种神经网络的训练方法、数据的处理方法以及设备 | |
CN109446897B (zh) | 基于图像上下文信息的场景识别方法及装置 | |
CN111738403A (zh) | 一种神经网络的优化方法及相关设备 | |
CN118246537B (zh) | 基于大模型的问答方法、装置、设备及存储介质 | |
CN116541492A (zh) | 一种数据处理方法及相关设备 | |
WO2024179503A1 (zh) | 一种语音处理方法及其相关设备 | |
CN117216536A (zh) | 一种模型训练的方法、装置和设备及存储介质 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN114692624A (zh) | 一种基于多任务迁移的信息抽取方法、装置及电子设备 | |
CN116563920B (zh) | 一种基于多模态信息的座舱环境下年龄识别方法和装置 | |
CN116524261A (zh) | 一种基于多模态小样本持续学习的图像分类方法及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |