CN117746479A

CN117746479A - 图像识别的可视化方法、装置、电子设备及介质

Info

Publication number: CN117746479A
Application number: CN202311760769.9A
Authority: CN
Inventors: 张萌萌; 王永前; 牟庆阳; 姚若冲; 胡茂盛
Original assignee: Xiangyu Technology Beijing Co ltd
Current assignee: Xiangyu Technology Beijing Co ltd
Priority date: 2023-12-20
Filing date: 2023-12-20
Publication date: 2024-03-22

Abstract

一种图像识别的可视化方法、装置、电子设备及介质，涉及计算机视觉技术领域；能够将年龄识别的过程进行可视化。该方法包括获取面部图像；将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层；获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别；对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

Description

图像识别的可视化方法、装置、电子设备及介质

技术领域

本申请涉及计算机视觉技术领域，尤其涉及一种图像识别的可视化方法、装置、电子设备及介质。

背景技术

采用图像识别技术对用户面部的图像进行识别，预测用户的年龄，是用户常用的功能之一。通常是采用深度学习算法训练一个模型，将用户面部的图像输入到模型中，得到对用户的年龄的预测结果。但是，在这个过程中，模型具体考虑了哪些人脸特征或者人脸区域，用户无从知晓，对于用户来说可解释性较差，这可能限制了该技术在年龄预测方面的应用。

发明内容

本申请提供一种图像识别的可视化方法、装置、电子设备及介质，能够对年龄识别过程进行可视化，将识别过程更加直观地体现给用户，丰富信息的呈现方式。

第一方面，本申请提供一种图像识别的可视化方法，包括：获取面部图像；

将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层；

获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别；

对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

采用本方案，将用户的面部图像输入到预设的人脸年龄识别模型中，该人脸年龄识别模型通过提取面部图像的特征，对特征进行映射，得到对应的分类结果。在该过程中，可以获取人脸年龄识别模型提取的特征图，采用类激活映射技术对该特征图进行映射，得到热力图，再将热力图叠加至原始的面部图像上，叠加有热力图的面部图像可以直观地体现出分类结果中占比较大的图像区域，对用户来说识别过程更加直观，能够提高识别过程的可视化程度，并为用户、识别过程的优化等方面提供参考和数据依据。

在本申请的一种示例性的实施方式中，所述将所述热力图与所述面部图像进行叠加，显示叠加后的图像，包括：

对所述热力图进行归一化处理，得到归一化图像；

将所述归一化图像进行上采样，得到上采样图；

将所述上采样图与所述面部图像进行叠加，显示叠加后的图像。

在本申请的一种示例性的实施方式中，所述将所述归一化图像进行上采样，得到上采样图，包括：

采用三次立方重采样对所述归一化图像进行上采样，得到上采样图，所述上采样图的尺寸与所述面部图像的尺寸相同。

在本申请的一种示例性的实施方式中，所述将所述面部图像输入预设的人脸年龄识别模型，得到所述人脸年龄识别模型中的卷积层提取的特征图，包括：

对所述面部图像进行标准化处理，并调整所述标准化处理后的面部图像的亮度、对比度；

将调整后的图像输入所述人脸年龄识别模型，得到所述人脸年龄识别模型中的卷积层提取的特征图。

在本申请的一种示例性的实施方式中，所述人脸年龄识别模型包括多个，所述方法还包括：

将所述面部图像进行分割，得到多个面部区域图像；

分别将所述面部区域图像输入对应的人脸年龄识别模型中，得到各个所述面部区域图像对应的年龄类别；

将各个所述面部区域图像对应的年龄类别进行显示。

第二方面，本申请提供一种图像识别的可视化装置，包括：

图像获取模块，用于获取面部图像；

模型输入模块，用于将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层；

特征提取模块，用于获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别；

可视化模块，用于对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

在本申请的一种示例性的实施方式中，所述可视化模块具体可以包括：

归一化模块，用于对所述热力图进行归一化处理，得到归一化图像；

上采样模块，用于将所述归一化图像进行上采样，得到上采样图；

图像叠加模块，用于将所述上采样图与所述面部图像进行叠加，显示叠加后的图像。

在本申请的一种示例性的实施方式中，该图像识别的可视化装置还包括：

图像分割模块，用于将所述面部图像进行分割，得到多个面部区域图像；

区域年龄识别模块，用于分别将所述面部区域图像输入对应的人脸年龄识别模型中，得到各个所述面部区域图像对应的年龄类别；

显示模块，用于将各个所述面部区域图像对应的年龄类别进行显示。

在本申请的一种示例性的实施方式中，上采样模块具体可以用于：

在本申请的一种示例性的实施方式中，模型输入模块具体可以包括：

第三方面，本申请提供一种电子设备，该电子设备包括存储器、一个或多个处理器。其中，该存储器中存储有一个或多个计算机程序，计算机程序包括指令，当该指令被处理器执行时，可使得电子设备执行如第一方面中的图像识别的可视化方法。

第四方面，本申请提供一种计算机可读介质，该计算机可读介质中存储有指令，当该指令在电子设备上运行时，使得电子设备执行如第一方面中的图像识别的可视化方法。

第五方面，本申请提供一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得该电子设备执行如第一方面所述的图像识别的可视化方法。

可以理解地，上述提供的图像识别的可视化装置、电子设备、计算机可读介质、计算机程序产品所能达到的有益效果，可参考第一方面中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种图像识别的可视化方法的框架图；

图2为本申请实施例提供的图像识别的可视化方法装置的框架图；

图3为本申请实施例提供的电子设备的结构示意图。

具体实施方式

为了便于清楚描述本申请实施例的技术方案，在本申请的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分。例如，第一芯片和第二芯片仅仅是为了区分不同的芯片，并不对其先后顺序进行限定。本领域技术人员可以理解“第一”、“第二”等字样并不对数量和执行次序进行限定，并且“第一”、“第二”等字样也并不限定一定不同。需要说明的是，本申请实施例中，“示例性的”或者“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例性的”或者“例如”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言，使用“示例性的”或者“例如”等词旨在以具体方式呈现相关概念。本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。

需要说明的是，本申请实施例中的“在……时”，可以为在某种情况发生的瞬时，也可以为在某种情况发生后的一段时间内，本申请实施例对此不作具体限定。

本实施例提供一种图像识别的可视化方法，可以应用于个人计算机、工业电脑、车机、手机、虚拟现实/增强现实设备、可穿戴设备等各种电子设备，也可以应用于服务器、云端、服务器集群等各种。

下面将结合附图对本实施例的实施方式进行详细描述。

图1示出了本申请实施例提供的图像识别的可视化方法的流程示意图。

如图1所示，该图像识别的可视化方法包括如下：

步骤101：获取面部图像。

步骤102：将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层。

步骤103：获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别。

步骤104：对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

其中，面部图像是对用户的面部进行拍摄得到的图像。预设的人脸年龄识别模型指的是通过训练数据集预先训练得到的模型。该人脸年龄识别模型可以包括VGG模型、resnext模型等各种深度学习模型。示例性的，人脸年龄识别模型可以为se_resnext模型，该模型结合了squeeze-and-excitation networks(简称SE)和resnext模型，SE模块可以自适应地学习特征通道之间的相关性，并将更多的注意力放在有用的特征上，提升特征提取能力和通道依赖关系的建模能力。举例来说，人脸年龄识别模型可以为se_resnext50_32x4d模型，该模型是在resnext基础上的改进，并且引入了SE模块，使得该模型在保证表征能力的基础上，具有更少的参数量和计算量，从而具有较高的性能。

可理解的，人脸年龄识别模型还可以为其他深度学习模型等，本实施方式不限于此。

通过收集一定数量的人脸图像，作为人脸年龄识别模型的训练数据集，对该人脸年龄识别模型模型进行训练，直到模型收敛，得到训练后的人脸年龄识别模型。再通过该训练后的人脸年龄识别模型对步骤101中的待识别的面部图像进行识别。

人脸年龄识别模型中可以包括多个依次相连的卷积层，这些卷积层能够对面部图像进行特征提取，每个卷积层提取到的特征图可以作为下一个卷积层的输入，再次进行特征提取，得到越来越深层次的特征。最后一个卷积层输出的特征图再通过分类层映射到对应的年龄类别。分类层可以通过softmax确定特征图属于的年龄类别。

热力图指的是通过颜色来区分不同区域间差异的数据，例如以冷暖色调来区分受关注的区域，较大的值用较暖的颜色表示，较小的值用较冷的颜色表示。

类激活映射(class activation mapping，CAM)是一种基于深度学习的计算机视觉技术，用于将卷积神经网络对图像的关注区域进行可视化，通过生成热力图表示网络对于不同区域的关注程度。具体的，CAM通过使用全局平均池化来将特征图转换为一个特征向量，再将该特征向量与分类层的权重进行加权相乘，然后通过非线性激活函数如softmax得到最终的结果。

示例性的实施方式中，对于人脸年龄识别模型的任意一个卷积层提取的特征图，均可以进行类激活映射，获得特征图对应的热力图。该热力图能够体现模型将面部图像划分到对应的年龄类别时所依据的像素点。热力图中较深的颜色表示对分类影响较大，较浅的颜色则表示对分类的影响较小。

对于多层卷积层来说，最后一层的特征图具有最强的表征力，包含的语义信息最丰富。最后一层卷积层输出的特征图输入到分类层中，得到最终的年龄类别，也就是说，最后一层卷积层的特征图可以直接影响识别结果。基于此，在人脸年龄识别模型对面部图像进行识别时，可以获取人脸年龄识别模型中最后一层卷积层的特征图。将最后一层卷积层的特征图进行类激活映射，得到对应的热力图。

将得到的热力图与原始的面部图像进行叠加，显示叠加后的图像以及识别出来的年龄类别。通过热力图用户可以直观地查看模型在进行年龄分类时注意的特征，可以确定被注意的特征是否为与年龄相关的正确的特征，从而为模型优化提供数据依据和参考，有利于模型识别时准确率的提升。对于用户来说，叠加后的图像可以作为参考信息，使得用户直观地查看自己面部影响年龄分类的部分，从而为用户在医美、整形等方面，提供数据依据。

示例性的实施方式中，在将面部图像输入人脸年龄识别模型之前，可以对面部图像进行标准化处理，并调整标准化处理后的面部图像的亮度、对比度；将调整后的图像输入人脸年龄识别模型，得到人脸年龄识别模型中的卷积层提取的特征图和分类层输出的年龄类别。

为了避免不同的面部图像的不同类型的取值，通过标准化处理可以将面部图像处理为统一的取值类型和范围。例如将面部图像标准化处理为0至255之间的值等。并且可以将标准化处理后的面部图像的亮度、对比度调整成预设的值。通过标准化处理与亮度、对比度的调整，得到最终调整后的图像，基于该调整后的图像进行年龄识别，可以减少模型的识别误差。

示例性的，对上述调整后的图像还可以进行去噪、去除背景等图像处理，进一步减少面部图像中的干扰信息，从而减小识别误差，提高识别准确性。

在示例性的实施方式中，得到热力图后，将热力图与面部图像进行叠加，显示叠加后的图像包括：对热力图进行归一化处理，得到归一化图像；将归一化图像进行上采样，得到上采样图；将上采样图与面部图像进行叠加，显示叠加后的图像。

通过归一化处理将热力图的取值范围映射到0至1之间，得到归一化图像。通过对该归一化图像进行上采样，可以将其转换成与面部图像尺寸相同的图像，从而便于将两者进行叠加。示例性的，采用三次立方重采样可以对归一化图像进行上采样，得到上采样图，上采样图的尺寸与面部图像的尺寸相同。或者，采用其他算法，例如双线性重采样、最邻近重采样等也可以对归一化图像进行上采样，得到与面部图像尺寸相同的上采样图。然后将上采样图与面部图像进行叠加，得到叠加后的图像。该叠加后的图像中既有原始的面部信息又有热力图信息，能够清晰地呈现年龄感知权重在全脸的分布情况，使用户能够直观地理解和分析年龄识别结果。对于医美领域来说，与热力图叠加后的图像能够体现出影响年龄识别的重点区域，从而便于为用户提供脸部区域的医美干预建议或参考信息。

示例性的实施方式中，人脸年龄识别模型可以包括多个，每个人脸年龄识别模型用于对人脸其中一个部位进行年龄识别。预先可以针对脸部各个部位训练得到一个人脸年龄识别模型。例如，眼部的人脸年龄识别模型、嘴巴的人脸年龄识别模型、鼻子的人脸年龄识别模型等等。

进而，将待识别的面部图像进行分割，得到多个面部区域图像；分别将面部区域图像输入到对应的人脸年龄识别模型中，得到各个面部区域图像对应的年龄类别；然后将各个面部区域图像对应的年龄类别进行显示。本实施方式能够针对脸部各个部分进行年龄识别，为用户提供更加丰富的信息，用户可以查看各个部分的年龄类别，从而为用户提供更加准确的参考信息。

根据人脸年龄识别模型识别出来的年龄分类与用户真实年龄还可以对人脸年龄识别模型进行调整、优化。再次获取到待识别的面部图像时，可以采用优化后的人脸年龄识别模型进行识别，提高年龄类别的准确性，从而提高参考信息的可用性。

进一步的，本实施方式还提供一种图像识别的可视化装置，可用于执行上述图像识别的可视化方法。

如图2所示，该图像识别的可视化装置200可以包括：图像获取模块201，用于获取面部图像；模型输入模块202，用于将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层；特征提取模块203，用于获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别；可视化模块204，用于对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

在一种示例性的实施方式中，所述可视化模块204具体可以包括：归一化模块，用于对所述热力图进行归一化处理，得到归一化图像；上采样模块，用于将所述归一化图像进行上采样，得到上采样图；图像叠加模块，用于将所述上采样图与所述面部图像进行叠加，显示叠加后的图像。

在一种示例性的实施方式中，该图像识别的可视化装置200还包括：图像分割模块，用于将所述面部图像进行分割，得到多个面部区域图像；区域年龄识别模块，用于分别将所述面部区域图像输入对应的人脸年龄识别模型中，得到各个所述面部区域图像对应的年龄类别；显示模块，用于将各个所述面部区域图像对应的年龄类别进行显示。

在一种示例性的实施方式中，上采样模块具体可以用于：采用三次立方重采样对所述归一化图像进行上采样，得到上采样图，所述上采样图的尺寸与所述面部图像的尺寸相同。

在一种示例性的实施方式中，模型输入模块202具体可以包括：对所述面部图像进行标准化处理，并调整所述标准化处理后的面部图像的亮度、对比度；将调整后的图像输入所述人脸年龄识别模型，得到所述人脸年龄识别模型中的卷积层提取的特征图。

上述图像识别的可视化装置中各模块或单元的具体细节已经在对应的图像识别的可视化方法中进行了详细的描述，因此此处不再赘述。

本申请实施例还提供了一种电子设备，图3示出了适于用来实现本公开实施例的电子设备的结构示意图。图3示出的电子设备300仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图3所示，电子设备300包括中央处理单元(CPU)301，其可以根据存储在只读存储器(ROM)302中的程序或者从存储部分308加载到随机访问存储器(RAM)303中的程序而执行各种适当的动作和处理。在RAM303中，还存储有系统操作所需的各种程序和数据。CPU301、ROM 302以及RAM 303通过总线304彼此相连。输入/输出(I/O)接口305也连接至总线304。

以下部件连接至I/O接口305：包括键盘、鼠标等的输入部分306；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分307；包括硬盘等的存储部分308；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分309。通信部分309经由诸如因特网的网络执行通信处理。驱动器310也根据需要连接至I/O接口305。可拆卸介质311，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器310上，以便于从其上读出的计算机程序根据需要被安装入存储部分308。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分309从网络上被下载和安装，和/或从可拆卸介质311被安装。在该计算机程序被中央处理单元(CPU)301执行时，执行本申请实施例中限定的上述功能。

例如，该计算机程序被中央处理单元(CPU)301执行时，可以执行如下：获取面部图像；将所述面部图像输入预设的人脸年龄识别模型，所述人脸年龄识别模型中包括多个卷积层和一个分类层；获取所述卷积层从所述面部图像中提取的特征图以及所述分类层输出的年龄类别；对所述特征图进行类激活映射，得到热力图，并将所述热力图与所述面部图像进行叠加，显示叠加后的图像以及所述年龄类别。

需要说明的是，本公开所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，该一个或多个程序中包括指令，当该指令被电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本申请的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

以上内容，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何在本申请揭露的技术范围内的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种图像识别的可视化方法，其特征在于，包括：

获取面部图像；

2.根据权利要求1所述的图像识别的可视化方法，其特征在于，所述将所述热力图与所述面部图像进行叠加，显示叠加后的图像，包括：

对所述热力图进行归一化处理，得到归一化图像；

将所述归一化图像进行上采样，得到上采样图；

3.根据权利要求2所述的图像识别的可视化方法，其特征在于，所述将所述归一化图像进行上采样，得到上采样图，包括：

4.根据权利要求1所述的图像识别的可视化方法，其特征在于，所述将所述面部图像输入预设的人脸年龄识别模型，得到所述人脸年龄识别模型中的卷积层提取的特征图，包括：

5.根据权利要求1所述的图像识别的可视化方法，其特征在于，所述人脸年龄识别模型包括多个，所述方法还包括：

将所述面部图像进行分割，得到多个面部区域图像；

将各个所述面部区域图像对应的年龄类别进行显示。

6.一种图像识别的可视化装置，其特征在于，包括：

图像获取模块，用于获取面部图像；

7.根据权利要求6所述的图像识别的可视化装置，其特征在于，所述可视化模块包括：

8.根据权利要求6所述的图像识别的可视化装置，其特征在于，还包括：

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述电子设备执行时，使得所述电子设备执行权利要求1-5中任一项所述的图像识别的可视化方法。

10.一种计算机可读介质，所述计算机可读介质中存储有指令，其特征在于，当所述指令在电子设备上运行时，使得电子设备执行权利要求1-5中任一项所述的图像识别的可视化方法。