CN113177469A

CN113177469A - 人体属性检测模型的训练方法、装置、电子设备及介质

Info

Publication number: CN113177469A
Application number: CN202110462302.0A
Authority: CN
Inventors: 李超; 辛颖; 冯原; 张滨; 王云浩; 王晓迪; 谷祎; 龙翔; 彭岩; 郑弘晖; 贾壮; 韩树民
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-04-27
Filing date: 2021-04-27
Publication date: 2021-07-27
Anticipated expiration: 2041-04-27
Also published as: WO2022227772A1; CN113177469B; US20230153387A1

Abstract

本公开提供了人体属性检测模型的训练方法、装置、电子设备及介质，涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域，可应用于智能云和安全巡检场景下。具体实现方案：获取与多种人体属性类别分别对应的正样本子图像和负样本子图像；确定与多个正样本子图像分别对应的多个第一标注属性；和与多个负样本子图像分别对应的多个第二标注属性；及根据多个正样本子图像、多个负样本子图像、多个第一标注属性及多个第二标注属性训练人工智能模型，得到人体属性检测模型，使得训练得到的人体属性检测模型能够有效建模人体的细粒度的属性，能够提升人体属性检测模型对人体图像的特征表达能力，有效提升人体属性检测的准确性和检测效率。

Description

人体属性检测模型的训练方法、装置、电子设备及介质

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域，可应用于智能云和安全巡检场景下，尤其涉及人体属性检测模型的训练方法、装置、电子设备及介质。

背景技术

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术以及机器学习/深度学习、大数据处理技术、知识图谱技术等几大方向。

相关技术中用于人体属性检测的模型，对用于识别的人体图像的特征表达能力不佳，从而影响人体属性检测的准确性。

发明内容

提供了一种人体属性检测模型的训练方法、人体属性识别方法、装置、电子设备、存储介质及计算机程序产品。

根据第一方面，提供了一种人体属性检测模型的训练方法，包括：获取与多种人体属性类别分别对应的多个样本图像；对所述多个样本图像分别进行检测，以得到与所述多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像；根据所述多种人体属性类别，确定与所述多个正样本子图像分别对应的多个第一标注属性；根据所述多种人体属性类别，确定与所述多个负样本子图像分别对应的多个第二标注属性；以及根据所述多个正样本子图像、所述多个负样本子图像、所述多个第一标注属性以及所述多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

根据第二方面，提供了一种人体属性识别方法，包括：获取待测人体图像；将所述待测人体图像输入至如上述人体属性检测模型的训练方法训练得到的人体属性检测模型之中，以得到所述人体属性检测模型输出的目标人体属性。

根据第三方面，提供了一种人体属性检测模型的训练装置，包括：第一获取模块，用于获取与多种人体属性类别分别对应的多个样本图像；检测模块，用于对所述多个样本图像分别进行检测，以得到与所述多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像；第一确定模块，用于根据所述多种人体属性类别，确定与所述多个正样本子图像分别对应的多个第一标注属性；第二确定模块，用于根据所述多种人体属性类别，确定与所述多个负样本子图像分别对应的多个第二标注属性；以及训练模块，用于根据所述多个正样本子图像、所述多个负样本子图像、所述多个第一标注属性以及所述多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

根据第四方面，提供了一种人体属性识别装置，包括：第二获取模块，用于获取待测人体图像；识别模块，用于将所述待测人体图像输入至如上述人体属性检测模型的训练装置训练得到的人体属性检测模型之中，以得到所述人体属性检测模型输出的目标人体属性。

根据第五方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开实施例的人体属性检测模型的训练方法，或者执行本公开实施例的人体属性识别方法。

根据第六方面，提出了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行本公开实施例公开的人体属性检测模型的训练方法，或者执行本公开实施例的人体属性识别方法。

根据第七方面，提出了一种计算机程序产品，包括计算机程序，当所述计算机程序由处理器执行时实现本公开实施例公开的人体属性检测模型的训练方法，或者执行本公开实施例的人体属性识别方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的示意图；

图2是本公开实施例中的样本图像示意图；

图3是根据本公开第二实施例的示意图；

图4是根据本公开第三实施例的示意图；

图5是根据本公开第四实施例的示意图；

图6是根据本公开第五实施例的示意图；

图7是根据本公开第六实施例的示意图；

图8是根据本公开第七实施例的示意图；

图9是用来实现本公开实施例的人体属性检测模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开第一实施例的示意图。

其中，需要说明的是，本实施例的人体属性检测模型的训练方法的执行主体为人体属性检测模型的训练装置，该装置可以由软件和/或硬件的方式实现，该装置可以配置在电子设备中，电子设备可以包括但不限于终端、服务器端等。

本公开实施例涉及人工智能技术领域，具体涉及计算机视觉、深度学习等技术领域，可应用于智能云和安全巡检场景下，提升安全巡检场景下人体属性检测识别的准确性和检测识别效率。

其中，人工智能(Artificial Intelligence)，英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字，图像和声音等数据的解释有很大的帮助。深度学习的最终目标是让机器能够像人一样具有分析学习能力，能够识别文字、图像和声音等数据。

计算机视觉，指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。

而安全巡检场景，例如厂区的安全作业生产环境中，需要对工作人员进行安全帽佩戴检测、吸烟检测与打电话检测等的巡检场景，需要说明的是，通常在该场景下，对工作人员所进行的人体属性检测，均是为了保障正常的安全作业。

如图1所示，该人体属性检测模型的训练方法包括：

S101：获取与多种人体属性类别分别对应的多个样本图像。

其中，用于描述人体属性分类的类别，可以被称为人体属性类别，本公开实施例中，为了结合安全巡检场景的需要，可以确定多种人体属性类别，例如，抽烟类别、着装类别、佩戴安全帽类别、打电话类别等，对此不做限制。

上述在确定了多种人体属性类别后，可以从样本图像池中获取与多种人体属性类别分别对应的多个样本图像，该样本图像可以被用于训练人工智能模型以得到人体属性检测模型。

也即是说，样本图像池中可以预先存储了与多种候选的人体属性类别分别对应的多个候选样本图像，从而可以基于所确定的多种人体属性类别，从中选取出匹配的多个候选的人体属性类别，而将与候选的人体属性类别对应的候选样本图像，作为上述所确定的样本图像，对此不做限制。

多个样本图像，例如，与抽烟类别对应的一个或者多个样本图像、与着装类别对应的一个或者多个样本图像、与佩戴安全帽类别对应的一个或者多个样本图像、与打电话类别对应的一个或者多个样本图像，与一种人体属性类别对应的样本图像可以是一个或者多个，本公开实施例对此不做限制。

S102：对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像。

上述在获取与多种人体属性类别分别对应的多个样本图像，可以采用一些图像处理算法，结合相应的人体属性类别处理样本图像，以得到相应人体属性类别的正样本子图像和负样本子图像。

其中，正样本子图像和负样本子图像，可以具体结合人体属性检测模型的功能进行划分，例如正样本子图像可以是携带未抽烟特征的子图像，负样本子图像可以是携带抽烟特征的子图像，对此不做限制。

本公开实施例中，可以采用匈牙利算法对多个样本图像分别进行检测，以得到与多个样本图像分别对应的多个正样本检测框和多个负样本检测框，并将多个正样本检测框覆盖的图像分别作为多个正样本子图像，并将多个负样本检测框覆盖的图像分别作为多个负样本子图像，从而实现在训练人体属性检测模型之前，即起到及时判断检测框所标定的正负样本的作用，从而实现预测值与真值实现最大的匹配，并且是一一对应，不会多个预测检测框匹配至相同真实检测框上，使得人体属性检测模型能够及时地处理重复检测的问题，避免非极大值抑制的后处理，从而提升人体属性检测效率。

其中，匈牙利算法是基于Hall定理(Hall定理是二分图匹配问题中匈牙利算法的基础)中充分性证明的思想，它是部图匹配最常见的算法，该算法的核心就是寻找增广路径，它是一种用增广路径求二分图最大匹配的算法。

上述在采用匈牙利算法对多个样本图像分别进行检测，以得到与多个样本图像分别对应的多个正样本检测框和多个负样本检测框，该正样本检测框之中比如可以包含携带未抽烟特征人体部位，例如，人体嘴部，该嘴部指示该人体未抽烟，该负样本检测框之中比如可以包含携带抽烟特征人体部位，例如，人体嘴部，该嘴部指示该人体抽烟，当然，正样本检测框和负样本检测框也可以基于其他人体属性类别进行划分，对此不做限制。

上述在得到与多个样本图像分别对应的多个正样本检测框和多个负样本检测框，可以直接将多个正样本检测框覆盖的图像分别作为多个正样本子图像，并将多个负样本检测框覆盖的图像分别作为多个负样本子图像，即将上述携带未抽烟特征人体部位，映射至正样本检测框的局部图像，作为正样本子图像，而将上述携带抽烟特征人体部位，映射至负样本检测框的局部图像，作为负样本子图像，对此不做限制。

在另外一些实施例中，上述采用匈牙利算法对多个样本图像分别进行检测，以得到与多个样本图像分别对应的多个正样本检测框和多个负样本检测框，还可以基于图像识别方法，确定正样本检测框框出的局部图像的图像特征(携带未抽烟特征)，以及确定负样本检测框框出的局部图像的图像特征(携带抽烟特征)，而后可以执行后续的步骤。

S103：根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性。

S104：根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性。

也即是说，在对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像之后，可以结合上述的多种人体属性类别，来确定与多个正样本子图像分别对应的多个第一标注属性，并确定与多个负样本子图像分别对应的多个第二标注属性。

其中，与正样本子图像对应的标注属性，可以被称为第一标注属性，与负样本子图像对应的标注属性，可以被称为第二标注属性，而标注属性，可以被用于训练人体属性检测模型时作为参考标注。

针对步骤S103和S104的举例说明可以一并如下：

根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性，可以例如，

假设与正样本子图像对应的图像特征是携带未抽烟特征，则表示该正样本子图像是基于抽烟类别的样本图像分割得到，从而该正样本子图像的第一标注属性，可以确定为未抽烟类别属性；

假设与正样本子图像对应的图像特征是携带佩戴安全帽特征，则表示该正样本子图像是基于佩戴安全帽类别的样本图像分割得到，从而该正样本子图像的第一标注属性，可以确定为佩戴安全帽属性；

假设与正样本子图像对应的图像特征是携带未打电话特征，则表示该正样本子图像是基于打电话类别的样本图像分割得到，从而该正样本子图像的第一标注属性，可以确定为未打电话属性。

相应的，根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性，可以例如，

假设与负样本子图像对应的图像特征是携带抽烟特征，则表示该负样本子图像是基于抽烟类别的样本图像分割得到，从而该负样本子图像的第二标注属性，可以确定为抽烟类别属性；

假设与负样本子图像对应的图像特征是携带未佩戴安全帽特征，则表示该负样本子图像是基于佩戴安全帽类别的样本图像分割得到，从而该负样本子图像的第二标注属性，可以确定为未佩戴安全帽属性；

假设与负样本子图像对应的图像特征是携带打电话特征，则表示该负样本子图像是基于打电话类别的样本图像分割得到，从而该负样本子图像的第二标注属性，可以确定为打电话属性。

也即是说，上述的第一标注属性和第二标注属性的标注划分，可以是参见预配置的多种人体属性类别，以及厂区安全巡检应用中的安全规则设定的，对此不做限制。

如图2所示，图2是本公开实施例中的样本图像示意图，其中包含多个样本检测框，不同的样本检测框框出的局部图像的图像特征可以相同或者不相同，其中，样本检测框21框出的局部图像的图像特征可以例如携带佩戴安全帽特征，样本检测框22框出的局部图像的图像特征可以例如携带打电话特征，样本检测框23框出的局部图像的图像特征可以例如携带抽烟特征，而后，可以基于局部图像所携带的图像特征，对样本检测框21、样本检测框22，以及样本检测框23划分出正样本子图像和负样本子图像，并确定出正样本子图像对应的第一标注属性，和负样本子图像对应的第二标注属性。

S105：根据多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

上述在根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性，并确定与多个负样本子图像分别对应的多个第二标注属性之后，可以根据多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

其中，初始人工智能模型可以例如为神经网络模型、机器学习模型，或者也可以是图神经网络模型，当然，也可以采用其它任意可能的能够执行图像处理任务的模型，对此不做限制。

也即是说，可以将多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性输入至初始的人工智能模型，并采用任意可能的方式来确定初始的人工智能模型的收敛时机，直至人工智能模型满足一定的收敛条件时，将训练得到的人工智能模型作为人体属性检测模型。

本实施例中，通过获取与多种人体属性类别分别对应的多个样本图像，并对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像，根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性，根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性，以及根据多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型，由于是基于人体属性类别对多个样本图像进行了细粒度的标注属性划分，拓展了训练用标注数据的特征维度，从而使得训练得到的人体属性检测模型能够有效地建模人体的细粒度的属性，能够提升人体属性检测模型对人体图像的特征表达能力，有效提升人体属性检测的准确性和检测效率。

图3是根据本公开第二实施例的示意图。

如图3所示，该人体属性检测模型的训练方法包括：

S301：获取与多种人体属性类别分别对应的多个样本图像。

S302：对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像。

S303：根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性。

S301-S303的举例说明可以参见上述实施例，在此不再赘述。

S304：生成与多个正样本子图像分别对应的多个正样本特征图。

其中，图像特征主要有图像的颜色特征、纹理特征、形状特征和空间关系特征等，而特征图则可以用于描述这些图像特征，该特征图可以具体是基于时域维度呈现，或者基于频域维度呈现，对此不做限制。

上述与正样本子图像对应的特征图，可以被称为正样本特征图。

本实施例中，生成的与多个正样本子图像分别对应的多个正样本特征图可以被用于确定正样本特征图之中关键位置的图像区域的相对重要性，该相对重要性可以被用于后续训练人工智能模型。

S305：采用注意力机制处理多个正样本特征图，以得到与多个正样本特征图分别对应的多个第一权重特征，第一权重特征用于描述正样本特征图之中关键位置的图像区域的相对重要性。

上述正样本特征图之中关键位置，可以例如正样本特征图中有用区域的特征对应的位置，假设正样本特征图对应携带佩戴安全帽特征，则相应的，由于安全帽是佩戴在头部的，则头部对应于正样本特征图中的位置，可以被称为关键位置，而该关键位置对应的区域，相对于其他图像位置的重要性，可以被称为相对重要性，该相对重要性可以采用一定的数值来标注，对此不做限制。

本实施例中在训练人工智能模型时，该人工智能模型可以是用于端到端目标检测的可变形检测器(Deformable Transformers for End-to-End Object Detection，Deformable DETR)，从而本公开实施例中通过生成与多个正样本子图像分别对应的多个正样本特征图，能够使得训练用样本数据能够更好地与模型相适配，减少模型的数据处理量，并通过采用注意力机制处理多个正样本特征图，学习识别到正样本特征图之中关键位置的图像区域的相对重要性，将正样本子图像和相应的多个第一权重特征均作为模型的输入，能够有效提升人工智能模型对正样本子图像的特征表达能力，且在保障模型训练效果的同时，能够有效地提升模型训练的效率。

上述的注意力机制，可以具体例如相关技术中的自注意力机制或者通道注意力机制，对此不做限制。

也即是说，在训练人工智能模型之前，可以采用注意力机制处理多个正样本特征图，得到与多个正样本特征图分别对应的多个第一权重特征，并采用该第一权重特征来辅助训练人工智能模型，能够有效提升训练得到的人体属性检测模型对图像中有用信息的敏感度，从而能够辅助提升人体属性检测模型的检测识别效果。

S306：根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性。

S306的举例说明可以参见上述实施例，在此不再赘述。

S307：生成与多个负样本子图像分别对应的多个负样本特征图。

上述与负样本子图像对应的特征图，可以被称为负样本特征图。

本实施例中，生成的与多个负样本子图像分别对应的多个负样本特征图可以被用于确定负样本特征图之中关键位置的图像区域的相对重要性，该相对重要性可以被用于后续训练人工智能模型。

S308：采用注意力机制处理多个负样本特征图，以得到与多个负样本特征图分别对应的多个第二权重特征，第二权重特征用于描述负样本特征图之中关键位置的图像区域的相对重要性。

上述负样本特征图之中关键位置，可以例如负样本特征图中有用区域的特征对应的位置，假设负样本特征图对应携带未佩戴安全帽特征，则相应的，由于安全帽是佩戴在头部的，则头部对应于负样本特征图中的位置，可以被称为关键位置，而该关键位置对应的区域，相对于其他图像位置的重要性，可以被称为相对重要性，该相对重要性可以采用一定的数值来标注，对此不做限制。

本公开实施例中通过生成与多个负样本子图像分别对应的多个负样本特征图，能够使得训练用样本数据能够更好地与模型相适配，减少模型的数据处理量，并通过采用注意力机制处理多个负样本特征图，学习识别到负样本特征图之中关键位置的图像区域的相对重要性，将负样本子图像和相应的多个第一权重特征均作为模型的输入，能够有效提升人工智能模型对负样本子图像的特征表达能力，且在保障模型训练效果的同时，能够有效地提升模型训练的效率。

也即是说，在训练人工智能模型之前，可以采用注意力机制处理多个负样本特征图，得到与多个负样本特征图分别对应的多个第二权重特征，并采用该第二权重特征来辅助训练人工智能模型，能够有效提升训练得到的人体属性检测模型对图像中有用信息的敏感度，从而能够辅助提升人体属性检测模型的检测识别效果。

S309：将多个正样本子图像、多个负样本子图像、多个第一权重特征，以及多个第二权重特征输入至初始的人工智能模型。

上述在得到多个正样本子图像、多个负样本子图像、多个第一权重特征，以及多个第二权重特征之后，可以采用前述内容来训练初始的人工智能模型。

初始的人工智能模型可以例如为用于端到端目标检测的可变形检测器Deformable DETR模型，即，采用多个正样本子图像、多个负样本子图像、多个第一权重特征，以及多个第二权重特征Deformable DETR模型，由于多个正样本子图像、多个负样本子图像是基于人体属性类别标注划分得到的，且第一权重特征能够用于描述正样本特征图之中关键位置的图像区域的相对重要性，第二权重特征用于描述负样本特征图之中关键位置的图像区域的相对重要性。

从而本公开实施例中，能够有效提升训练得到的人体属性检测模型对图像中有用信息的敏感度，从而能够辅助提升人体属性检测模型的检测识别效果，有效提升人体属性检测模型的鲁棒性。

S310：根据人工智能模型输出的多个第一预测属性、多个第二预测属性，多个第一标注属性以及多个第二标注属性训练人工智能模型。

其中，第一预测属性，是人工智能模型根据正样本子图像和对应的第一权重特征预测得到的，第二预测属性，是人工智能模型根据负样本子图像和对应的第二权重特征预测得到的。

其中，人工智能模型根据正样本子图像和对应的第一权重特征预测得到的预测属性，可以被称为第一预测属性，人工智能模型根据负样本子图像和对应的第二权重特征预测得到的预测属性，可以被称为第二预测属性，而在训练过程中，人工智能模型输出的人体属性，可以被称为预测属性。

例如，假设针对Deformable DETR模型输入的是上述图2中各个检测框包含的正样本子图像和负样本子图像，并且还向Deformable DETR模型输入上述基于注意力机制所运算出的第一权重特征和第二权重特征，则Deformable DETR模型可以基于该输入进行相应的模型运算，输出包含了所有目标(与正样本子图像和负样本子图像分别对应的预测属性)的无序集合，而后，可以基于第一预测属性和第二预测属性确定模型收敛的时机。

本实施例中，通过获取与多种人体属性类别分别对应的多个样本图像，并对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像，根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性，根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性，以及根据多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型，由于是基于人体属性类别对多个样本图像进行了细粒度的标注属性划分，拓展了训练用标注数据的特征维度，从而使得训练得到的人体属性检测模型能够有效地建模人体的细粒度的属性，能够提升人体属性检测模型对人体图像的特征表达能力，有效提升人体属性检测的准确性和检测效率。并且，由于所训练得到的人体属性检测模型是基于样本图像中的局部图像和标注属性训练得到的，从而人体属性检测模型的输出结果能够呈现出实时图像或者视频帧中的目标的局部区域，以及针对该局部区域识别到的人体属性，从而本公开实施例中，通过对检测到的作业人员整体与人体属性的局部图像区域进行匹配，有效避免了分别单独检测时的漏检和错检现象，提升检测准确性和检测鲁棒性。

图4是根据本公开第三实施例的示意图。

如图4所示，该人体属性检测模型的训练方法包括：

S401：确定多个第一预测属性和对应的多个第一标注属性之间的多个第一损失值。

在根据人工智能模型输出的多个第一预测属性、多个第二预测属性，多个第一标注属性以及多个第二标注属性训练人工智能模型时，可以动态地确定多个第一预测属性和对应的多个第一标注属性之间的差异，并采用一定的运算方式对该差异进行量化处理，将量化处理的值作为第一损失值。

S402：确定多个第二预测属性和对应的多个第二标注属性之间的多个第二损失值。

在根据人工智能模型输出的多个第一预测属性、多个第二预测属性，多个第一标注属性以及多个第二标注属性训练人工智能模型时，可以动态地确定多个第二预测属性和对应的多个第二标注属性之间的差异，并采用一定的运算方式对该差异进行量化处理，将量化处理的值作为第二损失值。

另外一些实施例中，也可以针对Deformable DETR模型配置损失函数，采用该损失函数来拟合上述差异，该损失函数可以具体运算三个方面的损失值，并对三个方面的损失值进行加权，例如，人工智能模型针对样本子图像中的关键区域的预测框和真实框之间的损失值，预测属性和标注属性之间的损失值，以及预测框和真实框之间的交并比损失值，对此不做限制。

在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。

S403：如果多个第一损失值和多个第二损失值满足设定条件，则将训练得到的人工智能模型作为人体属性检测模型。

上述在确定Deformable DETR模型的收敛时机时，可以是多个第一损失值和多个第二损失值满足设定条件，如果多个第一损失值和对应的多个第二损失值满足设定条件，则将训练得到的Deformable DETR模型作为人体属性检测模型。

上述在确定多个第一损失值和多个第二损失值后，可以实时地确定多个第一损失值和多个第二损失值是否满足设定条件(例如，多个第一损失值和多个第二损失值中设定数量的损失值小于损失阈值，则判定多个第一损失值和多个第二损失值满足设定条件，该损失阈值可以是预先标定的，判定初始的Deformable DETR模型收敛的损失值的门限值)，如果多个第一损失值和多个第二损失值中设定数量的损失值小于损失阈值，则将训练得到的Deformable DETR模型作为人体属性检测模型，即Deformable DETR模型训练完成，此时的人体属性检测模型满足了预先设定的收敛条件。

上述在训练得到人体属性检测模型之后，可以采用该人体属性检测模型对智能云和安全巡检场景中的人体属性进行识别检测，例如，利用训练好的人体属性检测模型，可以以安全生产工厂的实时图像或者视频帧作为输入，得到人体属性检测模型的输出，输出包括：工作人员位置、佩戴安全帽的头部和未佩戴安全帽的头部，是否有吸烟、打电话。

而后，可以将未佩戴安全帽的头部、吸烟、打电话的检测结果与行人位置进行匹配，来进一步消除错检，匹配上的目标则被判定为有危险隐患的场景；对于人体属性检测模型检测出的可能有危险隐患的目标，系统自动在画面中标为特定颜色，而后，还可以支持统计相应人数。同时，还可以将相应的检测结果和统计信息由电子设备发送至巡检人员的智能设备中，以进行报警提醒，从而一站式地保障安全巡检场景的巡检效率，大幅度低降低安全生产工厂的安全隐患。

本实施例中，在根据人工智能模型输出的多个第一预测属性、多个第二预测属性，多个第一标注属性以及多个第二标注属性训练人工智能模型时，可以是确定多个第一预测属性和对应的多个第一标注属性之间的多个第一损失值，确定多个第二预测属性和对应的多个第二标注属性之间的多个第二损失值，并在多个第一损失值和多个第二损失值满足设定条件，则将训练得到的人工智能模型作为人体属性检测模型，使得训练得到的人体属性检测模型能够有效地建模出智能云和安全巡检场景中的人体属性的图像特征，提升人体属性检测模型针对智能云和安全巡检场景中的人体属性的表征能力，能够有效地提升人体属性检测模型的人体属性检测识别效果。

图5是根据本公开第四实施例的示意图。

如图5所示，该人体属性识别方法，包括：

S501：获取待测人体图像。

其中，当前待对其进行识别检测的人体图像，可以被称为待测人体图像。

该待测人体图像，可以是智能云和安全巡检场景中的摄像装置所捕获得到，对此不做限制。

S502：将待测人体图像输入至如上述人体属性检测模型的训练方法训练得到的人体属性检测模型之中，以得到人体属性检测模型输出的目标人体属性。

上述在获取待测人体图像之后，可以实时地将待测人体图像输入至如上述人体属性检测模型的训练方法训练得到的人体属性检测模型之中，以得到人体属性检测模型输出的目标人体属性。

该目标人体属性可以例如为抽烟属性、不抽烟属性、打电话属性，或者未打电话属性等，对此不做限制。

本实施例中，通过获取待测人体图像，并将待测人体图像输入至如上述人体属性检测模型的训练方法训练得到的人体属性检测模型之中，以得到人体属性检测模型输出的目标人体属性，由于训练得到的人体属性检测模型能够有效地建模出智能云和安全巡检场景中的人体属性的图像特征，从而能够有效地提升人体属性识别效果。

图6是根据本公开第四实施例的示意图。

如图6所示，该人体属性检测模型的训练装置60，包括：

第一获取模块601，用于获取与多种人体属性类别分别对应的多个样本图像；

检测模块602，用于对多个样本图像分别进行检测，以得到与多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像；

第一确定模块603，用于根据多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性；

第二确定模块604，用于根据多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性；以及

训练模块605，用于根据多个正样本子图像、多个负样本子图像、多个第一标注属性以及多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

在本公开的一些实施例中，如图7所示，图7是根据本公开第五实施例的示意图，该人体属性检测模型的训练装置70，包括：第一获取模块701、检测模块702、第一确定模块703、第二确定模块704、训练模块705，该装置70，还包括：

第一生成模块706，用于生成与多个正样本子图像分别对应的多个正样本特征图；

第一处理模块707，用于采用注意力机制处理多个正样本特征图，以得到与多个正样本特征图分别对应的多个第一权重特征，第一权重特征用于描述正样本特征图之中关键位置的图像区域的相对重要性。

在本公开的一些实施例中，如图7所示，还包括：

第二生成模块708，用于生成与多个负样本子图像分别对应的多个负样本特征图；

第二处理模块709，用于采用注意力机制处理多个负样本特征图，以得到与多个负样本特征图分别对应的多个第二权重特征，第二权重特征用于描述负样本特征图之中关键位置的图像区域的相对重要性。

在本公开的一些实施例中，如图7所示，其中，训练模块705，包括：

获取子模块7051，用于将多个正样本子图像、多个负样本子图像、多个第一权重特征，以及多个第二权重特征输入至初始的人工智能模型；

训练子模块7052，用于根据人工智能模型输出的多个第一预测属性、多个第二预测属性，多个第一标注属性以及多个第二标注属性训练人工智能模型；

在本公开的一些实施例中，其中，训练子模块7052，具体用于：

确定多个第一预测属性和对应的多个第一标注属性之间的多个第一损失值；

确定多个第二预测属性和对应的多个第二标注属性之间的多个第二损失值；

如果多个第一损失值和多个第二损失值满足设定条件，则将训练得到的人工智能模型作为人体属性检测模型。

在本公开的一些实施例中，其中，检测模块702，具体用于：

采用匈牙利算法对多个样本图像分别进行检测，以得到与多个样本图像分别对应的多个正样本检测框和多个负样本检测框；

将多个正样本检测框覆盖的图像分别作为多个正样本子图像，并将多个负样本检测框覆盖的图像分别作为多个负样本子图像。

可以理解的是，本实施例附图7中的人体属性检测模型的训练装置70与上述实施例中的人体属性检测模型的训练装置60，第一获取模块701与上述实施例中的第一获取模块601，检测模块702与上述实施例中的检测模块602，第一确定模块703与上述实施例中的第一确定模块603，第二确定模块704与上述实施例中的第二确定模块604，训练模块705与上述实施例中的训练模块605，可以具有相同的功能和结构。

需要说明的是，前述对人体属性检测模型的训练方法的解释说明也适用于本实施例的人体属性检测模型的训练装置，此处不再赘述。

图8是根据本公开第七实施例的示意图。

如图8所示，该人体属性识别装置80，包括：

第二获取模块801，用于获取待测人体图像；

识别模块802，用于将待测人体图像输入至如上述权利要求8-13任一项的人体属性检测模型的训练装置训练得到的人体属性检测模型之中，以得到人体属性检测模型输出的目标人体属性。

需要说明的是，前述对人体属性识别方法的解释说明也适用于本实施例的人体属性识别装置，此处不再赘述。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9是用来实现本公开实施例的人体属性检测模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如，人体属性检测模型的训练方法，或者人体属性识别方法。

例如，在一些实施例中，人体属性检测模型的训练方法，或者人体属性识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM903并由计算单元901执行时，可以执行上文描述的人体属性检测模型的训练方法，或者人体属性识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行人体属性检测模型的训练方法，或者人体属性识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的人体属性检测模型的训练方法，或者人体属性识别方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网及区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种人体属性检测模型的训练方法，包括：

获取与多种人体属性类别分别对应的多个样本图像；

对所述多个样本图像分别进行检测，以得到与所述多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像；

根据所述多种人体属性类别，确定与所述多个正样本子图像分别对应的多个第一标注属性；

根据所述多种人体属性类别，确定与所述多个负样本子图像分别对应的多个第二标注属性；以及

根据所述多个正样本子图像、所述多个负样本子图像、所述多个第一标注属性以及所述多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

2.根据权利要求1所述的方法，在所述根据所述多种人体属性类别，确定与多个正样本子图像分别对应的多个第一标注属性后，还包括：

生成与所述多个正样本子图像分别对应的多个正样本特征图；

采用注意力机制处理所述多个正样本特征图，以得到与所述多个正样本特征图分别对应的多个第一权重特征，所述第一权重特征用于描述所述正样本特征图之中关键位置的图像区域的相对重要性。

3.根据权利要求2所述的方法，在所述根据所述多种人体属性类别，确定与多个负样本子图像分别对应的多个第二标注属性后，还包括：

生成与所述多个负样本子图像分别对应的多个负样本特征图；

采用注意力机制处理所述多个负样本特征图，以得到与所述多个负样本特征图分别对应的多个第二权重特征，所述第二权重特征用于描述所述负样本特征图之中关键位置的图像区域的相对重要性。

4.根据权利要求3所述的方法，其中，所述根据所述多个正样本子图像、所述多个负样本子图像、所述多个第一标注属性以及所述多个第二标注属性训练人工智能模型，以得到人体属性检测模型，包括：

将所述多个正样本子图像、所述多个负样本子图像、所述多个第一权重特征，以及所述多个第二权重特征输入至初始的人工智能模型；

根据所述人工智能模型输出的多个第一预测属性、多个第二预测属性，所述多个第一标注属性以及所述多个第二标注属性训练所述人工智能模型；

其中，所述第一预测属性，是所述人工智能模型根据所述正样本子图像和对应的所述第一权重特征预测得到的，所述第二预测属性，是所述人工智能模型根据所述负样本子图像和对应的所述第二权重特征预测得到的。

5.根据权利要求4所述的方法，其中，所述根据所述人工智能模型输出的多个第一预测属性、多个第二预测属性，所述多个第一标注属性以及所述多个第二标注属性训练所述人工智能模型，包括：

确定所述多个第一预测属性和对应的所述多个第一标注属性之间的多个第一损失值；

确定所述多个第二预测属性和对应的所述多个第二标注属性之间的多个第二损失值；

如果所述多个第一损失值和所述多个第二损失值满足设定条件，则将训练得到的人工智能模型作为所述人体属性检测模型。

6.根据权利要求1所述的方法，其中，所述对所述多个样本图像分别进行检测，以得到与所述多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像，包括：

采用匈牙利算法对所述多个样本图像分别进行检测，以得到与所述多个样本图像分别对应的多个正样本检测框和多个负样本检测框；

将所述多个正样本检测框覆盖的图像分别作为所述多个正样本子图像，并将所述多个负样本检测框覆盖的图像分别作为所述多个负样本子图像。

7.一种人体属性识别方法，包括：

获取待测人体图像；

将所述待测人体图像输入至如上述权利要求1-6任一项所述的人体属性检测模型的训练方法训练得到的人体属性检测模型之中，以得到所述人体属性检测模型输出的目标人体属性。

8.一种人体属性检测模型的训练装置，包括：

第一获取模块，用于获取与多种人体属性类别分别对应的多个样本图像；

检测模块，用于对所述多个样本图像分别进行检测，以得到与所述多种人体属性类别分别对应的多个正样本子图像和多个负样本子图像；

第一确定模块，用于根据所述多种人体属性类别，确定与所述多个正样本子图像分别对应的多个第一标注属性；

第二确定模块，用于根据所述多种人体属性类别，确定与所述多个负样本子图像分别对应的多个第二标注属性；以及

训练模块，用于根据所述多个正样本子图像、所述多个负样本子图像、所述多个第一标注属性以及所述多个第二标注属性训练初始的人工智能模型，以得到人体属性检测模型。

9.根据权利要求8所述的装置，还包括：

第一生成模块，用于生成与所述多个正样本子图像分别对应的多个正样本特征图；

第一处理模块，用于采用注意力机制处理所述多个正样本特征图，以得到与所述多个正样本特征图分别对应的多个第一权重特征，所述第一权重特征用于描述所述正样本特征图之中关键位置的图像区域的相对重要性。

10.根据权利要求9所述的装置，还包括：

第二生成模块，用于生成与所述多个负样本子图像分别对应的多个负样本特征图；

第二处理模块，用于采用注意力机制处理所述多个负样本特征图，以得到与所述多个负样本特征图分别对应的多个第二权重特征，所述第二权重特征用于描述所述负样本特征图之中关键位置的图像区域的相对重要性。

11.根据权利要求10所述的装置，其中，所述训练模块，包括：

获取子模块，用于将所述多个正样本子图像、所述多个负样本子图像、所述多个第一权重特征，以及所述多个第二权重特征输入至初始的人工智能模型；

训练子模块，用于根据所述人工智能模型输出的多个第一预测属性、多个第二预测属性，所述多个第一标注属性以及所述多个第二标注属性训练所述人工智能模型；

12.根据权利要求11所述的装置，其中，所述训练子模块，具体用于：

13.根据权利要求8所述的装置，其中，所述检测模块，具体用于：

14.一种人体属性识别装置，包括：

第二获取模块，用于获取待测人体图像；

识别模块，用于将所述待测人体图像输入至如上述权利要求8-13任一项所述的人体属性检测模型的训练装置训练得到的人体属性检测模型之中，以得到所述人体属性检测模型输出的目标人体属性。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-6中任一项所述的方法，或者执行权利要求7所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法，或者执行权利要求7所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法，或者执行权利要求7所述的方法。