CN113627221A

CN113627221A - 图像处理方法、装置、电子设备及计算机可读存储介质

Info

Publication number: CN113627221A
Application number: CN202010388859.XA
Authority: CN
Inventors: 王建国; 张超; 汪彪
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-05-09
Filing date: 2020-05-09
Publication date: 2021-11-09

Abstract

本公开实施例公开了一种图像处理方法、装置、电子设备及计算机可读存储介质，所述图像处理方法包括获取预设对象在待处理图像中的位置信息和置信度，所述预设对象包括多个对象，所述位置信息表示所述预设对象在所述待处理图像中的位置，所述置信度表示所述待处理图像在所述位置包含所述预设对象的概率；基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P；基于所述概率P，确定所述待处理图像的种类。该技术方案通过将待处理图像以及待处理图像中的预设对象的位置信息和置信度等多种信息进行融合处理，提高了检测的准确率。

Description

图像处理方法、装置、电子设备及计算机可读存储介质

技术领域

本公开涉及计算机应用技术领域，具体涉及一种图像处理方法、装置、电子设备及计算机可读存储介质。

背景技术

随着互联网技术的发展，可以通过数据采集设备采集的视频/图像进行人脸识别。在一些人脸识别的应用场景中，需要检测用户是否佩戴口罩或者用户是否佩戴好口罩。例如，在人脸识别的过程中，若识别到用户佩戴口罩，则需要提醒用户取下口罩进行人脸识别；又例如，在大规模的传染病疫情中，需要检测公共场所中的市民是否佩戴口罩或者市民是否佩戴好口罩，以便于进行疫情控制。因此，基于视频/图像，如何检测用户是否佩戴口罩或者用户是否佩戴好口罩成为亟待解决的技术问题。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种图像处理方法、装置、电子设备及计算机可读存储介质。

第一方面，本公开实施例中提供了一种图像处理方法。

具体地，所述图像处理方法，包括：

获取预设对象在待处理图像中的位置信息和置信度，所述预设对象包括多个对象，所述位置信息表示所述预设对象在所述待处理图像中的位置，所述置信度表示所述待处理图像在所述位置包含所述预设对象的概率；

基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P；

基于所述概率P，确定所述待处理图像的种类。

结合第一方面，本公开在第一方面的第一种实现方式中，所述获取预设对象在待处理图像中的位置信息和置信度，包括：

将所述待处理图像输入目标检测模型，获取所述预设对象在所述待处理图像中的所述位置信息和所述置信度。

结合第一方面，本公开在第一方面的第二种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P，包括：

基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率P。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述神经网络模型包括第一卷积神经网络模型，所述概率P包括第一概率P_cls1，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，获取所述预设对象的注意力热力图；

基于所述待处理图像以及所述预设对象的注意力热力图，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1。

结合第一方面的第二种实现方式，本公开在第一方面的第四种实现方式中，所述神经网络模型包括第二卷积神经网络模型，所述概率P包括第二概率P_cls2，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

将所述待处理图像输入图像分类模型，获取所述待处理图像属于预设种类的第三概率P₁；

基于所述第三概率P₁、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2。

结合第一方面的第二种实现方式，本公开在第一方面的第五种实现方式中，所述神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1；

基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2；

基于所述第一概率P_cls1和所述第二概率P_cls2，确定所述概率P。

结合第一方面的第五种实现方式，本公开在第一方面的第六种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

结合第一方面的第六种实现方式，本公开在第一方面的第七种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

结合第一方面的第三种实现方式或第六种实现方式，本公开在第一方面的第八种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，获取所述预设对象的注意力热力图，包括：

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

基于所述预设对象的所述初始化矩阵Mi、所述位置信息和所述置信度，获取所述预设对象的注意力热力图。

结合第一方面的第三种实现方式或第六种实现方式，本公开在第一方面的第九种实现方式中，所述基于所述待处理图像以及所述预设对象的注意力热力图，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

将所述待处理图像以及所述预设对象的注意力热力图按照像素进行拼接，获取矩阵X₁；

将所述矩阵X₁输入第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1。

结合第一方面的第四种实现方式或第一方面的第七种实现方式，本公开在第一方面的第十种实现方式中，所述基于所述第三概率P₁、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

将所述第三概率P₁、所述预设对象的所述位置信息和所述置信度进行拼接，获取向量X₂；

将所述向量X₂输入第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2。

结合第一方面的第五种实现方式，本公开在第一方面的第十一种实现方式中，所述基于所述第一概率P_cls1和所述第二概率P_cls2，确定所述概率P，包括：

确定所述第一概率P_cls1所对应的权重λ₁以及所述第二概率P_cls2所对应的权重λ₂；

将所述第一概率P_cls1、所述权重λ₁、所述第二概率P_cls2和所述权重λ₂进行加权求和，确定所述概率P。

结合第一方面，本公开在第一方面的第十二种实现方式中，所述预设对象包括遮蔽对象和遮蔽图像，所述遮蔽图像用于遮蔽所述遮蔽对象；或者

所述预设对象包括遮蔽对象、遮蔽图像和暴露对象，所述暴露对象是不应当被所述遮蔽对象遮蔽的对象。

第二方面，本公开实施例中提供了一种图像处理装置。

具体地，所述图像处理装置，包括：

获取模块，被配置为获取预设对象在待处理图像中的位置信息和置信度，所述预设对象包括多个对象，所述位置信息表示所述预设对象在所述待处理图像中的位置，所述置信度表示所述待处理图像在所述位置包含所述预设对象的概率；

第一确定模块，被配置为基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P；

第二确定模块，被配置为基于所述概率P，确定所述待处理图像的种类。

结合第二方面，本公开在第二方面的第一种实现方式中，所述获取预设对象在待处理图像中的位置信息和置信度，包括：

结合第二方面，本公开在第二方面的第二种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P，包括：

结合第二方面的第二种实现方式，本公开在第二方面的第三种实现方式中，所述神经网络模型包括第一卷积神经网络模型，所述概率P包括第一概率P_cls1，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

结合第二方面的第二种实现方式，本公开在第二方面的第四种实现方式中，所述神经网络模型包括第二卷积神经网络模型，所述概率P包括第二概率P_cls2，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

结合第二方面的第二种实现方式，本公开在第二方面的第五种实现方式中，所述神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

结合第二方面的第五种实现方式，本公开在第二方面的第六种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

结合第二方面的第六种实现方式，本公开在第二方面的第七种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

结合第二方面的第三种实现方式或第六种实现方式，本公开在第二方面的第八种实现方式中，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，获取所述预设对象的注意力热力图，包括：

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

结合第二方面的第三种实现方式或第六种实现方式，本公开在第二方面的第九种实现方式中，所述基于所述待处理图像以及所述预设对象的注意力热力图，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

结合第二方面的第四种实现方式或第二方面的第七种实现方式，本公开在第二方面的第十种实现方式中，所述基于所述第三概率P₁、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

结合第二方面的第五种实现方式，本公开在第二方面的第十一种实现方式中，所述基于所述第一概率P_cls1和所述第二概率P_cls2，确定所述概率P，包括：

结合第二方面，本公开在第二方面的第十二种实现方式中，所述预设对象包括遮蔽对象和遮蔽图像，所述遮蔽图像用于遮蔽所述遮蔽对象；或者

第三方面，本公开实施例提供了一种电子设备，包括存储器和处理器，其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如第一方面、第一方面的第一种实现方式至第十二种实现方式任一项所述的方法。

第四方面，本公开实施例中提供了一种计算机可读存储介质，其上存储有计算机指令，该计算机指令被处理器执行时实现如第一方面、第一方面的第一种实现方式至第十二种实现方式任一项所述的方法。

根据本公开实施例提供的技术方案，获取预设对象在待处理图像中的位置信息和置信度，预设对象包括多个对象，位置信息表示预设对象在待处理图像中的位置，置信度表示待处理图像在上述位置包含预设对象的概率，基于待处理图像、预设对象的位置信息和置信度，确定待处理图像属于预设种类的概率P，基于概率P，确定待处理图像的种类。本公开实施例通过将待处理图像以及待处理图像中的预设对象的位置信息和置信度等多种信息进行融合处理，用于判断用户是否佩戴口罩或者用户是否佩戴好口罩，提高了检测的准确率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

结合附图，通过以下非限制性实施方式的详细描述，本公开的其它特征、目的和优点将变得更加明显。在附图中：

图1示出根据本公开的实施例的图像处理方法的流程图；

图2示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图；

图3示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图；

图4示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图；

图5示出根据本公开实施例的图像处理方法的应用场景示意图；

图6示出根据本公开的实施例的图像处理装置的结构框图；

图7示出根据本公开的实施例的电子设备的结构框图；

图8示出适于用来实现根据本公开实施例的图像处理方法的计算机系统的结构示意图。

具体实施方式

下文中，将参考附图详细描述本公开的示例性实施例，以使本领域技术人员可容易地实现它们。此外，为了清楚起见，在附图中省略了与描述示例性实施例无关的部分。

在本公开中，应理解，诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在，并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。

另外还需要说明的是，在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。

现有技术一般采用单一或少量信息检测用户是否佩戴口罩。例如，对于获取的包含人脸区域的图像，通过图像分类模型确定上述包含人脸区域的图像的种类，以便于判断用户是否佩戴口罩；又例如，通过目标检测模型检测上述包含人脸区域的图像中是否包括人脸和口罩，以便于判断用户是否佩戴口罩。同时，对于检测用户是否佩戴好口罩，现有技术一般采用简易的判断标准用于判断用户是否佩戴好口罩，例如，上述包含人脸区域的图像中的口罩是否完全遮挡住嘴和鼻翼。

然而，在实际应用场景中，通过数据采集设备采集到的视频/图像并不都是姿态、光照、成像好的图像，例如，在一些应用场景中，对于大角度的侧脸、逆光或摄像机成像质量差等场景下采集到的图像，倘若采用现有技术难以分辨图像中的对象，容易出现错误的识别结果。因此，基于视频/图像，如何提高检测用户是否佩戴口罩或者用户是否佩戴好口罩的准确率成为亟待解决的技术问题。

为解决发明人发现的现有技术中的问题而提出本公开。

图1示出根据本公开的实施例的图像处理方法的流程图。如图1所示，所述图像处理方法包括以下步骤S101-S103：

在步骤S101中，获取预设对象在待处理图像中的位置信息和置信度，所述预设对象包括多个对象，所述位置信息表示所述预设对象在所述待处理图像中的位置，所述置信度表示所述待处理图像在所述位置包含所述预设对象的概率；

在步骤S102中，基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P；

在步骤S103中，基于所述概率P，确定所述待处理图像的种类。

根据本公开的实施例，可以对原始图像进行预处理，获取待处理图像，其中，原始图像可以为数据采集设备采集的视频图像和/或图像。本公开对预处理方式不做具体限定，可以根据实际需要进行选择，例如，可以对原始图像进行脸部检测，获取包括脸部的图像A1，然后对图像A1进行扩大处理，获取包括脸部或者包括脸部以及口罩的图像A。根据本公开的实施例，待处理图像可以包括图像A。

根据本公开的实施例，所述步骤S101，即所述获取预设对象在待处理图像中的位置信息和置信度，包括：

根据本公开的实施例，可以获取预设对象在待处理图像中的位置信息和置信度，例如，可以将待处理图像输入目标检测模型，获取预设对象在待处理图像中的位置信息和置信度，其中，预设对象可以包括多个对象，比如，第一对象、第二对象、第三对象或第四对象等。本公开对目标检测模型不做具体限定，可以根据实际需要进行选择，例如，目标检测模型可以包括以下模型中任意一种或多种模型：SSD(Single Shot Multibox Detection)模型、FCOS(Fully Convolutional One-Stage)模型或Faster RCNN(Faster RegionConvolutional Neural Networks)m模型等。

根据本公开的实施例，所述预设对象包括遮蔽对象和遮蔽图像，所述遮蔽图像用于遮蔽所述遮蔽对象；或者所述预设对象包括遮蔽对象、遮蔽图像和暴露对象，所述暴露对象是不应当被所述遮蔽对象遮蔽的对象。

例如，所述待处理图像可以包括用遮蔽图像遮蔽原始图像中的遮蔽对象后得到的图像。在直播场景中，原始图像可以包括不希望观众看到的对象，例如不希望在当前环节出现的物品等。可以通过遮蔽图像，例如预设的花朵、卡通图像等，对原始图像中的遮蔽对象进行遮蔽，从而观众不会看到遮蔽对象。根据本公开的实施例的技术方案，可以确定待处理图像属于“对遮蔽对象完全遮蔽”、“对遮蔽对象部分遮蔽”和“对遮蔽对象未遮蔽”的概率，从而检测遮蔽图像对遮蔽对象的遮蔽效果。

根据本公开的实施例，原始图像还可以包括暴露对象，例如当前环节要向观众展示的物品等。在用遮蔽图像来对遮蔽对象进行遮蔽时，不希望遮蔽图像对暴露对象形成遮蔽。根据本公开的实施例的技术方案，可以确定待处理图像属于“对遮蔽对象完全遮蔽”、“对遮蔽对象部分遮蔽”、“对遮蔽对象未遮蔽”、“对暴露对象完全遮蔽”、“对暴露对象部分遮蔽”、“对暴露对象未遮蔽”的概率，从而检测遮蔽图像对遮蔽对象的遮蔽效果，同时检测遮蔽图像是否对暴露对象形成遮蔽。

应理解，本公开实施例将以预设对象包括第一对象为脸部、第二对象为口罩、第三对象为鼻尖和第四对象为嘴部为例进行说明，应当了解的是，该示例仅为示例使用，并非是对于本公开的限制。

根据本公开的实施例，预设对象在待处理图像中的位置信息包括第一对象的位置信息R_face、第二对象的位置信息R_mask、第三对象的位置信息R_nose和第四对象的位置信息R_mouth，其中，预设对象的位置信息表示预设对象在待处理图像中的位置(比如，包围预设对象的检测矩形框的位置)。本公开对位置信息的表达方式不做具体限定，可以根据实际需要进行选择。例如，预设对象的位置信息可以为预设对象所对应的检测矩形框的四条边距离待处理图像所对应的四条边的四个长度。又例如，在确定预设对象所对应的检测矩形框的四个顶点中任意一个顶点的坐标之后，可以基于上述对应检测矩形框的长度和宽度，确定预设对象所对应的检测矩形框的四个顶点的四个坐标，并将四个顶点的四个坐标确定为预设对象的位置信息。

根据本公开的实施例，预设对象在待处理图像中的置信度包括第一对象的置信度C_face、第二对象的置信度C_mask、第三对象的置信度C_nose和第四对象的置信度C_mouth，其中，置信度表示待处理图像在对应位置包含预设对象的概率。例如，第一对象的置信度C_face表示待处理图像在位置信息R_face所对应位置(检测矩形框)包含第一对象的概率。

根据本公开的实施例，所述步骤S102，即所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P，包括：

根据本公开的实施例，基于待处理图像、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth，可以确定待处理图像属于预设种类的概率P，例如，可以利用神经网络模型确定待处理图像属于预设种类的概率P，其中，预设种类包括但不限于“非人脸”、“未戴口罩”、“戴好口罩”、“未戴好口罩”等种类。“戴好口罩”可以指口罩同时遮挡住第三对象“鼻尖”和第四对象“嘴部”，“未戴好口罩”可以指口罩没有遮挡住第三对象“鼻尖”和/或第四对象“嘴部”。

根据本公开的实施例，可以根据上述概率P，确定待处理图像的种类。例如，将概率P最大时所对应的预设种类确定为待处理图像的种类。比如，待处理图像属于预设种类“非人脸”的概率P为10％、属于预设种类“未戴口罩”的概率P为10％、属于预设种类“戴好口罩”的概率P为70％、属于预设种类“未戴好口罩”的概率P为10％，可以将概率P为70％时所对应的预设种类“戴好口罩”确定为待处理图像的种类。

根据本公开的实施例，所述神经网络模型包括第一卷积神经网络模型，所述概率P包括第一概率P_cls1，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

图2示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图。

如图2所示，可以根据待处理图像200、第一对象的位置信息R_face和置信度C_face获取第一对象的注意力热力图M_face；可以根据待处理图像200、第二对象的位置信息R_mask和置信度C_mask获取第二对象的注意力热力图M_mask；可以根据待处理图像200、第三对象的位置信息R_nose和置信度C_nose获取第三对象的注意力热力图M_nose；可以根据待处理图像200、第四对象的位置信息R_mouth和置信度C_mouth获取第四对象的注意力热力图M_mouth。

根据本公开的实施例，可以根据待处理图像200、第一对象的注意力热力图M_face、第二对象的注意力热力图M_mask、第三对象的注意力热力图M_nose和第四对象的注意力热力图M_mouth，通过第一卷积神经网络模型201，确定待处理图像200属于预设种类的第一概率P_cls1，并将第一概率P_cls1作为概率P用于确定待处理图像200的种类。本公开对第一卷积神经网络模型201不做具体限定，可以根据实际需要进行选择，例如，第一卷积神经网络模型201可以为训练好的Resnet网络模型。

根据本公开的实施例，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，获取所述预设对象的注意力热力图，包括：

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

如图2所示，假设待处理图像200包括图像A，假设图像A的像素矩阵为M0，假设像素矩阵M0为w行，h列的矩阵。可以构造和像素矩阵M0相同行列数的初始化矩阵Mi，即矩阵Mi为w行，h列的矩阵，其中，矩阵Mi中的数值可以为预设数值，比如：0。不同矩阵Mi中的预设数值可以相同，也可以不相同，本公开对其不做具体限定。

根据本公开的实施例，可以基于第一对象的初始化矩阵M1、位置信息R_face和置信度C_face，获取第一对象的注意力热力图M_face。具体地，可以将初始化矩阵M1中位置信息R_face所对应的位置(比如检测矩形框)中的预设数值替换为置信度C_face，而初始化矩阵M1中位置信息R_face所对应的位置之外的预设数值保持不变，从而得到第一对象的注意力热力图M_face。可以采用上述类似的处理方式分别获取第二对象的注意力热力图M_mask、第三对象的注意力热力图M_nose和第四对象的注意力热力图M_mouth。例如，可以将初始化矩阵M2中位置信息R_mask所对应的位置(比如检测矩形框)中的预设数值替换为置信度C_mask，而初始化矩阵M2中位置信息R_mask所对应的位置之外的预设数值保持不变，从而得到第二对象的注意力热力图M_mask。可以将初始化矩阵M3中位置信息R_nose所对应的位置(比如检测矩形框)中的预设数值替换为置信度C_nose，而初始化矩阵M3中位置信息R_nose所对应的位置之外的预设数值保持不变，从而得到第三对象的注意力热力图M_nose。可以将初始化矩阵M4中位置信息R_mouth所对应的位置(比如检测矩形框)中的预设数值替换为置信度C_mouth，而初始化矩阵M5中位置信息R_mouth所对应的位置之外的预设数值保持不变，从而得到第四对象的注意力热力图M_mouth。

根据本公开的实施例，所述基于所述待处理图像以及所述预设对象的注意力热力图，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

如图2所示，可以将待处理图像200所对应的像素矩阵M0、第一对象的注意力热力图M_face、第二对象的注意力热力图M_mask、第三对象的注意力热力图M_nose和第四对象的注意力热力图M_mouth按照像素进行拼接，获取矩阵X₁。

例如，当待处理图像200为RGB(或YUV)3通道图像时，拼接后可以获取w*h*7的矩阵X₁，其中，矩阵X₁的行数为w，列数为h，每个像素对应于7个数值，分别为该像素的3通道像素值、C_face或预设数值、C_mask或预设数值、C_nose或预设数值、C_mouth或预设数值。

根据本公开的实施例，可以将矩阵X₁输入训练好的第一卷积神经网络模型201，确定待处理图像200属于预设种类的第一概率P_cls1，并基于第一概率P_cls1确定待处理图像200的种类。

根据本公开实施例提供的技术方案，通过将待处理图像200、第一对象的注意力热力图、第二对象的注意力热力图、第三对象的注意力热力图和第四对象的注意力热力图所包含的多种信息进行融合，用于判断用户是否佩戴口罩或者用户是否佩戴好口罩，可以提高检测的准确率。

根据本公开的实施例，所述神经网络模型包括第二卷积神经网络模型，所述概率P包括第二概率P_cls2，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

图3示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图。

如图3所示，可以将待处理图像300输入图像分类模型，获取待处理图像300属于预设种类的第三概率P₁，本公开对图像分类模型不做具体限定，可以根据实际需要进行选择，例如，图像分类模型可以为Resnet网络模型。

如上文所述，若仅根据第三概率P₁确定待处理图像300的种类，识别准确率不高。根据本公开的实施例，为了提高识别的准确率，可以基于第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth，通过第二卷积神经网络模型301，确定待处理图像300属于预设种类的第二概率P_cls2，并将第二概率P_cls2作为概率P用于确定待处理图像300的种类。本公开对第二卷积神经网络模型301不做具体限定，可以根据实际需要进行选择，例如，第二卷积神经网络模型301可以为训练好的Resnet网络模型。

根据本公开的实施例，所述基于所述第三概率P₁、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

如图3所示，可以将第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth进行拼接，获取向量X₂。可以将向量X₂输入第二卷积神经网络模型301，确定待处理图像300属于预设种类的第二概率P_cls2，并将第二概率P_cls2作为概率P用于确定待处理图像300的种类。

根据本公开实施例提供的技术方案，通过将第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth进行融合，用于判断用户是否佩戴口罩或者用户是否佩戴好口罩，可以提高检测的准确率。

根据本公开的实施例，所述神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

图4示出根据本公开实施例的基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率的示意图。

如图4所示，基于待处理图像400、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth，可以利用第一卷积神经网络模型401，确定待处理图像400属于预设种类的第一概率P_cls1。

根据本公开的实施例，基于待处理图像400、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth，可以利用第二卷积神经网络模型402，确定待处理图像400属于预设种类的第二概率P_cls2。

根据本公开的实施例，可以根据第一概率P_cls1和第二概率P_cls2，确定待处理图像400属于预设种类的概率P，可以根据概率P确定待处理图像400的种类。

根据本公开的实施例，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

根据本公开的实施例，可以根据待处理图像400、第一对象的位置信息R_face和置信度C_face获取第一对象的注意力热力图M_face；可以根据待处理图像400、第二对象的位置信息R_mask和置信度C_mask获取第二对象的注意力热力图M_mask；可以根据待处理图像400、第三对象的位置信息R_nose和置信度C_nose获取第三对象的注意力热力图M_nose；可以根据待处理图像400、第四对象的位置信息R_mouth和置信度C_mouth获取第四对象的注意力热力图M_mouth。

根据本公开的实施例，可以根据待处理图像400、第一对象的注意力热力图M_face、第二对象的注意力热力图M_mask、第三对象的注意力热力图M_nose和第四对象的注意力热力图M_mouth，通过第一卷积神经网络模型401，确定待处理图像400属于预设种类的第一概率P_cls。本公开对第一卷积神经网络模型401不做具体限定，可以根据实际需要进行选择，例如，第一卷积神经网络模型401可以为训练好的Resnet网络模型。

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

如图4所示，假设待处理图像400包括图像A，假设图像A的像素矩阵为M0，假设像素矩阵M0为w行，h列的矩阵。可以构造和像素矩阵M0相同行列数的初始化矩阵Mi，即矩阵Mi为w行，h列的矩阵，其中，矩阵Mi中的数值可以为预设数值，比如：0。不同矩阵Mi中的预设数值可以相同，也可以不相同，本公开对其不做具体限定。

如图4所示，可以将待处理图像400所对应的像素矩阵M0、第一对象的注意力热力图M_face、第二对象的注意力热力图M_mask、第三对象的注意力热力图M_nose和第四对象的注意力热力图M_mouth按照像素进行拼接，获取矩阵X₁。

例如，当待处理图像200为RGB(或YUV)3通道图像时，拼接后可以获取w*h*7的矩阵X₁，其中，矩阵X₁的行数为w，列数为h，每个像素对应于7个数值，分别为该像素的3通道像素值、C_face或预设数值、C_mask或预设数值、C_nose或预设数值、C_mouth或预设数值。可以将矩阵X₁输入训练好的第一卷积神经网络模型，确定待处理图像400属于预设种类的第一概率P_cls1。

根据本公开的实施例，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

如图4所示，可以将待处理图像400输入图像分类模型，获取待处理图像400属于预设种类的第三概率P₁，本公开对图像分类模型不做具体限定，可以根据实际需要进行选择，例如，图像分类模型可以为Resnet网络模型。

如上文所述，若仅根据第三概率P₁确定待处理图像400的种类，识别准确率不高。根据本公开的实施例，为了提高识别的准确率，可以基于第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth，通过第二卷积神经网络模型402，确定待处理图像400属于预设种类的第二概率P_cls2。本公开对第二卷积神经网络模型402不做具体限定，可以根据实际需要进行选择，例如，第二卷积神经网络模型402可以为训练好的Resnet网络模型。

如图4所示，可以将第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth进行拼接，获取向量X₂。可以将向量X₂输入第二卷积神经网络模型402，确定待处理图像400属于预设种类的第二概率P_cls2。

根据本公开的实施例，所述基于所述第一概率P_cls1和所述第二概率P_cls2，确定所述概率P，包括：

如图4所示，可以确定第一概率P_cls1所对应的权重λ₁以及第二概率P_cls2所对应的权重λ₂，本公开对确定权重的方法不做具体限定，可以根据实际需要进行选择。例如，可以根据经验进行确定，或者可以通过训练好的模型进行确定。可以将第一概率P_cls1、权重λ₁、第二概率P_cls2和权重λ₂进行加权求和，确定概率P，即P＝λ₁*P_cls1+λ₂*P_cls2，并基于概率P确定待处理图像400的种类。

根据本公开实施例提供的技术方案，通过将待处理图像400、第一对象的注意力热力图、第二对象的注意力热力图、第三对象的注意力热力图和第四对象的注意力热力图所包含的多种信息进行融合，确定待处理图像400属于预设种类的第一概率P_cls1；通过将第三概率P₁、第一对象的位置信息R_face和置信度C_face、第二对象的位置信息R_mask和置信度C_mask、第三对象的位置信息R_nose和置信度C_nose、第四对象的位置信息R_mouth和置信度C_mouth进行融合，确定待处理图像400属于预设种类的第二概率P_cls2；并利用第一概率P_cls1、第一概率P_cls1所对应的权重λ₁、第二概率P_cls2、第二概率P_cls2所对应的权重λ₂确定最终的概率P。从而实现了从不同的角度，利用多种信息检测用户是否佩戴口罩或者用户是否佩戴好口罩，可以提高检测的准确率。

图5示出根据本公开实施例的图像处理方法的应用场景示意图。如图5所示，应用场景包括服务器500，为了描述的方便，图5的应用场景中仅绘制了一个服务器500和一张待处理图像501，应当了解的是，该示例仅为示例使用，并非是对于本公开的限制，本公开中的服务器500和待处理图像501的数量可以根据实际需要进行设定，本公开对此不作具体限定。同时，本公开实施例的应用场景将以检测是否佩戴口罩或者是否佩戴好口罩为例进行说明，但本公开不限于此，而是也适用于其他应用场景。

服务器500可以获取待处理图像501，待处理图像501可以包括图像A。由于第一对象“脸部”、第二对象“口罩”与第三对象“鼻尖”和第四对象“嘴部”的大小差异较大，目标检测模型可以包括第一FCOS模型和第二FCOS模型。可以将待处理图像501输入第一FCOS模型，分别获取“脸部”的位置信息R_face和置信度C_face以及“口罩”的位置信息R_mask和置信度C_mask；可以将待处理图像501输入第二FCOS模型，分别获取“鼻尖”的位置信息R_nose和置信度C_nose以及“嘴部”的位置信息R_mouth和置信度C_mouth。

根据本公开的实施例，基于待处理图像501、“脸部”的位置信息R_face和置信度C_face、“口罩”的位置信息R_mask和置信度C_mask、“鼻尖”的位置信息R_nose和置信度C_nose、“嘴部”的位置信息R_mouth和置信度C_mouth，分别获取“脸部”的注意力热力图、“口罩”的注意力热力图、“鼻尖”的注意力热力图和“嘴部”的注意力热力图。

根据本公开的实施例，可以将待处理图像501所对应的像素矩阵M0、“脸部”的注意力热力图、“口罩”的注意力热力图、“鼻尖”的注意力热力图和“嘴部”的注意力热力图按照像素进行拼接，获取矩阵X₁。可以将矩阵X₁输入第一卷积神经网络模型，确定待处理图像501属于预设种类的第一概率P_cls。

根据本公开的实施例，可以将待处理图像501输入图像分类模型，获取待处理图像501属于预设种类的第三概率P₁。可以将第三概率P₁、“脸部”的位置信息R_face和置信度C_face、“口罩”的位置信息R_mask和置信度C_mask、“鼻尖”的位置信息R_nose和置信度C_nose、“嘴部”的位置信息R_mouth和置信度C_mouth进行拼接，获取向量X₂。可以将向量X₂输入第二卷积神经网络模型，确定待处理图像501属于预设种类的第二概率P_cls2。

根据本公开的实施例，可以将第一概率P_cls1、第一概率P_cls1所对应的权重λ₁、第二概率P_cls2、第二概率P_cls2所对应的权重λ₂进行加权求和，确定待处理图像501属于预设种类的概率P，即分别确定待处理图像501属于预设种类“非人脸”、“未戴口罩”、“戴好口罩”以及“未戴好口罩”的概率P，并将概率P最大时所对应的预设种类确定为待处理图像的种类。

根据本公开实施例提供的技术方案，通过将待处理图像501、“脸部”的注意力热力图、“口罩”的注意力热力图、“鼻尖”的注意力热力图和“嘴部”的注意力热力图所包含的多种信息进行融合，确定待处理图像501属于预设种类的第一概率P_cls1；通过将第三概率P₁、“脸部”的位置信息R_face和置信度C_face、“口罩”的位置信息R_mask和置信度C_mask、“鼻尖”的位置信息R_nose和置信度C_nose、“嘴部”的位置信息R_mouth和置信度C_mouth进行融合，确定待处理图像501属于预设种类的第二概率P_cls2；并利用第一概率P_cls1、第一概率P_cls1所对应的权重λ₁、第二概率P_cls2、第二概率P_cls2所对应的权重λ₂确定最终的概率P，并基于概率P确定待处理图像501的种类。从而实现了从不同的角度利用多种信息检测用户是否佩戴口罩或者用户是否佩戴好口罩，可以提高检测的准确率。

图6示出根据本公开的实施例的图像处理装置的结构框图。其中，该装置可以通过软件、硬件或者两者的结合实现成为电子设备的部分或者全部。如图6所示，所述图像处理装置600包括获取模块610、第一确定模块620和第二确定模块630。

所述获取模块610被配置为获取预设对象在待处理图像中的位置信息和置信度，所述预设对象包括多个对象，所述位置信息表示所述预设对象在所述待处理图像中的位置，所述置信度表示所述待处理图像在所述位置包含所述预设对象的概率；

所述第一确定模块620被配置为基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P；

所述第二确定模块630被配置为基于所述概率P，确定所述待处理图像的种类。

根据本公开的实施例，所述获取预设对象在待处理图像中的位置信息和置信度，包括：

根据本公开的实施例，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P，包括：

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

根据本公开的实施例，所述预设对象包括遮蔽对象和遮蔽图像，所述遮蔽图像用于遮蔽所述遮蔽对象；或者

本公开还公开了一种电子设备，图7示出根据本公开的实施例的电子设备的结构框图。

如图7所示，所述电子设备700包括存储器701和处理器702；其中，

所述存储器701用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器702执行以实现根据本公开的实施例的方法。

图8示出适于用来实现根据本公开实施例图像处理方法的计算机系统的结构示意图。

如图8所示，计算机系统800包括处理单元801，其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行上述实施例中的各种处理。在RAM 803中，还存储有系统800操作所需的各种程序和数据。处理单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。其中，所述处理单元801可实现为CPU、GPU、TPU、FPGA、NPU等处理单元。

特别地，根据本公开的实施例，上文描述的方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括有形地包含在及其可读介质上的计算机程序，所述计算机程序包含用于执行上述方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现，也可以通过可编程硬件的方式来实现。所描述的单元或模块也可以设置在处理器中，这些单元或模块的名称在某种情况下并不构成对该单元或模块本身的限定。

作为另一方面，本公开还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中电子设备或计算机系统中所包含的计算机可读存储介质；也可以是单独存在，未装配入设备中的计算机可读存储介质。计算机可读存储介质存储有一个或者一个以上程序，所述程序被一个或者一个以上的处理器用来执行描述于本公开的方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离所述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种图像处理方法，其特征在于，包括：

基于所述概率P，确定所述待处理图像的种类。

2.根据权利要求1所述的方法，其特征在于，所述获取预设对象在待处理图像中的位置信息和置信度，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，确定所述待处理图像属于预设种类的概率P，包括：

4.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括第一卷积神经网络模型，所述概率P包括第一概率P_cls1，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

5.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括第二卷积神经网络模型，所述概率P包括第二概率P_cls2，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

6.根据权利要求3所述的方法，其特征在于，所述神经网络模型包括第一卷积神经网络模型和第二卷积神经网络模型，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，利用神经网络模型，确定所述待处理图像属于预设种类的概率，包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

8.根据权利要求7所述的方法，其特征在于，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

9.根据权利要求4或7所述的方法，其特征在于，所述基于所述待处理图像、所述预设对象的所述位置信息和所述置信度，获取所述预设对象的注意力热力图，包括：

基于所述待处理图像，获取第i个预设对象的初始化矩阵Mi；

10.根据权利要求4或7所述的方法，其特征在于，所述基于所述待处理图像以及所述预设对象的注意力热力图，通过所述第一卷积神经网络模型，确定所述待处理图像属于预设种类的第一概率P_cls1，包括：

11.根据权利要求5或8所述的方法，其特征在于，所述基于所述第三概率P₁、所述预设对象的所述位置信息和所述置信度，通过所述第二卷积神经网络模型，确定所述待处理图像属于预设种类的第二概率P_cls2，包括：

12.根据权利要求6所述的方法，其特征在于，所述基于所述第一概率P_cls1和所述第二概率P_cls2，确定所述概率P，包括：

13.根据权利要求1所述的方法，其特征在于：

所述预设对象包括遮蔽对象和遮蔽图像，所述遮蔽图像用于遮蔽所述遮蔽对象；或者

14.一种图像处理装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求1-13任一项所述的方法步骤。

16.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-13任一项所述的方法步骤。