CN114550201A

CN114550201A - 服装规范化检测方法及装置

Info

Publication number: CN114550201A
Application number: CN202011328749.0A
Authority: CN
Inventors: 陆瑞智; 谢奕; 喻晓源; 陈普
Original assignee: Huawei Cloud Computing Technologies Co Ltd
Current assignee: Huawei Cloud Computing Technologies Co Ltd
Priority date: 2020-11-24
Filing date: 2020-11-24
Publication date: 2022-05-27
Also published as: EP4239520A4; EP4239520A1; US20230298348A1; WO2022111271A1

Abstract

本申请提供服装规范化检测方法及装置，涉及人工智能领域，能够降低模型定制化成本，提高服装规范化检测的准确率。该方法包括：服装规范化检测装置获取视频帧子图和参考子图。视频帧子图来自第一场景的视频帧图像，视频帧图像包括目标对象的图像，视频帧子图包括目标对象的目标部位在第一场景下第一穿戴样式的图像。参考子图来自第一场景的目标参考集，目标参考集中包括参考对象的图像，参考子图包括参考对象的目标部位在第一场景下标准穿戴样式的图像。然后，采用目标模型处理视频帧子图和参考子图，得到第一处理结果。目标模型是经过训练的人工智能AI模型，第一处理结果指示目标对象的第一穿戴样式与参考对象的标准穿戴样式的相似度。

Description

服装规范化检测方法及装置

技术领域

本申请涉及人工智能技术领域，尤其涉及一种服装规范化检测方法及装置。

背景技术

服装规范化是指，在特定的场景下，基于一些考虑因素(如安全因素)，对目标对象着装制定的统一要求。例如，建筑工地的建筑工人需要穿戴工服、工帽等。服装规范化检测是指，通过计算机视觉(computer vision)的处理方法识别出目标对象是否按照规定着装。例如，计算机采用分类器识别目标对象着装，判断目标对象着装是否规范。其中，分类器是定制化训练的，即分类器是针对某一种样式的穿戴衣物进行训练。

然而，在不同场景下，目标对象需要穿戴衣物的样式不同，所以，定制化训练分类器的成本大。若未针对某一种样式的穿戴衣物训练分类器，则无法判断目标对象是否按照规定穿戴该样式的衣物，导致服装规范化检测的准确率低。

发明内容

本申请实施例提供一种服装规范化检测方法及装置，能够降低模型的定制化成本，提高服装规范化检测的准确率。

为达到上述目的，本申请实施例采用如下技术方案：

第一方面，本申请实施例提供一种服装规范化检测方法，该方法的执行主体可以是服装规范化检测装置。该方法包括：服装规范化检测装置获取视频帧子图和参考子图。其中，视频帧子图来自第一场景的视频帧图像，视频帧图像包括目标对象的图像，视频帧子图包括目标对象的目标部位在第一场景下第一穿戴样式的图像。参考子图来自第一场景的目标参考集，目标参考集中包括参考对象的图像，参考子图包括参考对象的目标部位在第一场景下标准穿戴样式的图像。然后，服装规范化检测装置采用目标模型处理视频帧子图和参考子图，得到第一处理结果。其中，目标模型是经过训练的人工智能AI模型，第一处理结果指示目标对象的第一穿戴样式与参考对象的标准穿戴样式的相似度。

在本申请实施例服装规范化检测方法中，由于目标模型具备通用特征的识别能力，所以，在不同场景下，目标模型以参考子图作为参考，来确定自身自用于识别的特征，如目标部位的穿戴样式，从而确定目标部位在第一场景下第一穿戴样式与目标穿戴样式之间的相似度。换言之，即使场景发生变化，无需针对“变化后的场景”来训练目标模型，目标模型根据“变化后的场景”下的参考子图即可完成任务，降低模型的定制化成本，提高了服装规范化检测的准确率。

在一种可能的设计中，服装规范化检测装置获取参考子图，包括：服装规范化检测装置获取目标参考集，检测目标参考集中的图像，得到第一检测结果。其中，第一检测结果包括以下至少一项：目标参考集中参考对象的目标部位的骨骼关节点、或第一指示信息；第一指示信息指示参考对象的目标部位在目标参考集的图像中的区域。服装规范化检测装置确定第一检测结果的置信度。其中，置信度指示第一检测结果的可信程度。服装规范化检测装置根据第一检测结果的置信度，从目标参考集的图像中提取参考子图。

如此，服装规范化检测装置结合第一检测结果和第一检测结果的置信度提取参考子图，由于第一检测结果包括以下至少一项信息：参考对象的骨骼关节点的检测结果、或参考对象的目标部位在图像中的区域，所以，服装规范化检测装置能够精准地定位参考对象的目标部位在目标参考集的图像中的区域，以提高“参考子图提取”的精准度。

在一种可能的设计中，参考子图包括第一指示信息所指区域的图像，且位于第一指示信息所指区域中的骨骼关节点的置信度满足第一预设条件，以使参考子图包括参考对象的目标部位的图像，提高参考子图提取的精准度。

在一种可能的设计中，服装规范化检测装置获取视频帧子图，包括：服装规范化检测装置获取视频帧图像，检测视频帧图像，得到第二检测结果。其中，第二检测结果包括以下至少一项：视频帧图像中目标对象的目标部位的骨骼关节点、或第二指示信息；第二指示信息指示目标对象的目标部位在视频帧图像中的区域。服装规范化检测装置确定第二检测结果的置信度。其中，置信度指示第二检测结果的可信程度。服装规范化检测装置根据第二检测结果的置信度，从视频帧图像中提取视频帧子图。

如此，服装规范化检测装置结合第二检测结果和第二检测结果的置信度提取视频帧子图，由于第二检测结果包括以下至少一项信息：目标对象的骨骼关节点的检测结果、或目标对象的目标部位在图像中的区域，所以，服装规范化检测装置能够精准地定位目标对象的目标部位在视频帧图像中的区域，以提高“视频帧子图提取”的精准度。

在一种可能的设计中，视频帧子图包括第二指示信息所指区域的图像，且位于第二指示信息所指区域中的骨骼关节点的置信度满足第二预设条件，以使视频帧子图包括目标对象的目标部位的图像，提高视频帧子图提取的精准度。

在一种可能的设计中，目标参考集包括以下至少一项：参考对象的标准穿戴样式在至少一种角度下的图像、或参考对象的标准穿戴样式在至少一种亮度下的图像。如此，在目标参考集的图像中，存在与视频帧子图的角度或亮度贴合的图像，有助于提高目标模型的处理效率和判断精度。

在一种可能的设计中，目标参考集是基于验证集中穿戴图像之间的相似度更新后的参考集。其中，验证集包括以下至少一项：验证对象的目标部位在第一场景中至少两种角度下的穿戴图像、或验证对象的目标部位在第一场景中至少两种亮度下的穿戴图像。也就是说，目标参考集是更新后的参考集，更贴合第一场景。

在一种可能的设计中，服装规范化检测装置采用目标模型处理第一候选集和验证集，得到第二处理结果。其中，第一候选集是候选集中的一个集合，候选集包括目标参考集。验证集包括以下至少一项：验证对象的目标部位在第一场景中至少两种角度下的穿戴图像、或验证对象的目标部位在第一场景中至少两种亮度下的穿戴图像。第二处理结果是以第一候选集为参考确定的验证集中穿戴图像之间的相似度。然后，服装规范化检测装置根据第二处理结果指示的相似度，确定第一候选集为目标参考集。

也就是说，服装规范化检测装置是根据目标模型在以第一候选集为参考的情况下，对验证集的处理结果来确定目标参考集的，以使目标参考集中的图像更贴合第一场景。

在一种可能的设计中，服装规范化检测装置采用目标模型处理第一参考集和验证集，以得到第三处理结果。其中，第一参考集是在确定目标参考集之前，为目标模型提供参考图像的集合。第三处理结果是以第一参考集为参考确定的验证集中穿戴图像之间的相似度。服装规范化检测装置根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第三处理结果指示的相似度，则服装规范化检测装置将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

在一种可能的设计中，服装规范化检测装置根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第一阈值，则服装规范化检测装置将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

在一种可能的设计中，第一候选集包括参考对象的目标部位在第一场景下第二穿戴样式的图像。其中，第二穿戴样式的图像满足以下至少一项：第二穿戴样式与标准穿戴样式的相似度大于第二阈值；第二穿戴样式与标准穿戴样式的相似度在相似度分布中满足预设状况。其中，相似度分布包括第二穿戴样式与标准穿戴样式在多个时刻的相似度。

在一种可能的设计中，服装规范化检测装置通过显示单元向用户提供可视化信息。其中，可视化信息包括以下至少一项：第一处理结果指示的相似度、标识第一处理结果的相似度低于第一阈值的目标对象、或标识第一处理结果的相似度低于第二阈值的目标部位，以方便用户浏览服装规范化检测结果。

第二方面，本申请实施例提供一种服装规范化检测方法，该方法的执行主体可以是服装规范化检测装置，也可以是应用于服装规范化检测装置中的芯片。下面以执行主体是服装规范化检测装置为例进行描述。该方法包括：服装规范化检测装置获取第一训练样本和第二训练样本。其中，第一训练样本包括至少一个样本的图像，第二训练样本包括样本的目标部位的至少一种穿戴样式的图像，样本包括目标部位。服装规范化检测装置采用第一训练样本进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。服装规范化检测装置采用第二训练样本进行模型训练，修正分支网络的模型参数，得到目标模型。

如此，服装规范化检测装置基于第一训练样本进行训练，得到目标模型的模型参数，使得目标模型具备识别通用特征的能力。服装规范化检测装置再基于第二训练样本进行训练，调整目标模型的分支网络的模型参数，提高目标模型识别局部部位的能力。由于目标模型能够识别不同的特征，所以，目标模型能够应用于不同的场景，无需针对某一场景单独训练模型，降低了模型的定制化成本。

在一种可能的设计中，服装规范化检测装置采用第一训练样本进行模型训练，以得到骨干网络的模型参数和分支网络的模型参数，包括：服装规范化检测装置将第一训练样本分为至少一个第一训练样本组。其中，第一训练样本组包括第一正类样本和第一负类样本。第一正类样本包括标识第一标签的图像，第一负类样本包括未标识第一标签的图像，第一标签指示至少一个样本中的一个样本。服装规范化检测装置采用第一训练样本组进行模型训练，得到骨干网络的模型参数和分支网络的模型参数，使得目标模型对通用特征的二分类能力得到提升。

在一种可能的设计中，服装规范化检测装置采用第二训练样本进行模型训练，以修正分支网络的模型参数，包括：服装规范化检测装置将第二训练样本分为至少一个第二训练样本组。其中，第二训练样本组包括第二正类样本和第二负类样本。第二正类样本包括标识第二标签的图像，第二负类样本包括未标识第二标签的图像，第二标签指示至少一种穿戴样式中的一种穿戴样式。服装规范化检测装置采用第二训练样本组进行模型训练，修正分支网络的模型参数，使得目标模型对具体特征的二分类能力得到提升。

第三方面，本申请实施例提供一种服装规范化检测装置，该服装规范化检测装置可以为上述第一方面或第一方面任一种可能的设计中的装置，或者实现上述功能的芯片；所述服装规范化检测装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或means可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

该服装规范化检测装置包括获取单元和处理单元。其中，获取单元，用于获取视频帧子图和参考子图。其中，视频帧子图来自第一场景的视频帧图像，视频帧图像包括目标对象的图像，视频帧子图包括目标对象的目标部位在第一场景下第一穿戴样式的图像。参考子图来自第一场景的目标参考集，目标参考集中包括参考对象的图像，参考子图包括参考对象的目标部位在第一场景下标准穿戴样式的图像。处理单元，用于采用目标模型处理视频帧子图和参考子图，得到第一处理结果，其中，目标模型是经过训练的人工智能AI模型，第一处理结果指示目标对象的第一穿戴样式与参考对象的标准穿戴样式的相似度。

在一种可能的设计中，获取单元，具体用于：获取目标参考集，检测目标参考集中的图像，得到第一检测结果。其中，第一检测结果包括以下至少一项：目标参考集中参考对象的目标部位的骨骼关节点、或第一指示信息；第一指示信息指示参考对象的目标部位在目标参考集的图像中的区域。确定第一检测结果的置信度。其中，置信度指示第一检测结果的可信程度。根据第一检测结果的置信度，从目标参考集的图像中提取参考子图。

在一种可能的设计中，参考子图包括第一指示信息所指区域的图像，且位于第一指示信息所指区域中的骨骼关节点的置信度满足第一预设条件。

在一种可能的设计中，获取单元，具体用于：获取视频帧图像，检测视频帧图像，得到第二检测结果。其中，第二检测结果包括以下至少一项：视频帧图像中目标对象的目标部位的骨骼关节点、或第二指示信息；第二指示信息指示目标对象的目标部位在视频帧图像中的区域。确定第二检测结果的置信度。其中，置信度指示第二检测结果的可信程度。根据第二检测结果的置信度，从视频帧图像中提取视频帧子图。

在一种可能的设计中，视频帧子图包括第二指示信息所指区域的图像，且位于第二指示信息所指区域中的骨骼关节点的置信度满足第二预设条件。

在一种可能的设计中，目标参考集包括以下至少一项：参考对象的标准穿戴样式在至少一种角度下的图像、或参考对象的标准穿戴样式在至少一种亮度下的图像。

在一种可能的设计中，目标参考集是基于验证集中穿戴图像之间的相似度更新后的参考集。其中，验证集包括以下至少一项：验证对象的目标部位在第一场景中至少两种角度下的穿戴图像、或验证对象的目标部位在第一场景中至少两种亮度下的穿戴图像。

在一种可能的设计中，处理单元，还用于：采用目标模型处理第一候选集和验证集，得到第二处理结果。其中，第一候选集是候选集中的一个集合，候选集包括目标参考集。验证集包括以下至少一项：验证对象的目标部位在第一场景中至少两种角度下的穿戴图像、或验证对象的目标部位在第一场景中至少两种亮度下的穿戴图像。第二处理结果是以第一候选集为参考确定的验证集中穿戴图像之间的相似度。根据第二处理结果指示的相似度，确定第一候选集为目标参考集。

在一种可能的设计中，处理单元，还用于采用目标模型处理第一参考集和验证集，以得到第三处理结果。其中，第一参考集是在确定目标参考集之前，为目标模型提供参考图像的集合。第三处理结果是以第一参考集为参考确定的验证集中穿戴图像之间的相似度。处理单元用于根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第三处理结果指示的相似度，则处理单元用于将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

在一种可能的设计中，处理单元用于根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第一阈值，则处理单元用于将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

在一种可能的设计中，该服装规范化检测装置还包括：显示单元，用于向用户提供可视化信息，其中，可视化信息包括以下至少一项：第一处理结果指示的相似度、标识第一处理结果的相似度低于第一阈值的目标对象、或标识第一处理结果的相似度低于第二阈值的目标部位。

第四方面，本申请实施例提供一种服装规范化检测装置，该服装规范化检测装置可以为上述第二方面或第二方面任一种可能的设计中的装置，或者实现上述功能的芯片；所述服装规范化检测装置包括实现上述方法相应的模块、单元、或手段(means)，该模块、单元、或means可以通过硬件实现，软件实现，或者通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块或单元。

该服装规范化检测装置包括获取单元和处理单元。其中，获取单元，用于获取第一训练样本和第二训练样本。其中，第一训练样本包括至少一个样本的图像，第二训练样本包括样本的目标部位的至少一种穿戴样式的图像，样本包括目标部位。处理单元，用于采用第一训练样本进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。处理单元，还用于采用第二训练样本进行模型训练，修正分支网络的模型参数，得到目标模型。

在一种可能的设计中，处理单元，具体用于：将第一训练样本分为至少一个第一训练样本组。其中，第一训练样本组包括第一正类样本和第一负类样本。第一正类样本包括标识第一标签的图像，第一负类样本包括未标识第一标签的图像，第一标签指示至少一个样本中的一个样本。采用第一训练样本组进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。

在一种可能的设计中，处理单元，具体用于：将第二训练样本分为至少一个第二训练样本组。其中，第二训练样本组包括第二正类样本和第二负类样本。第二正类样本包括标识第二标签的图像，第二负类样本包括未标识第二标签的图像，第二标签指示至少一种穿戴样式中的一种穿戴样式。采用第二训练样本组进行模型训练，修正分支网络的模型参数。

第五方面，本申请实施例提供一种设备，该设备包括处理器和存储器。该处理器和该存储器进行相互的通信。该处理器用于执行该存储器中存储的指令，以使得设备执行如第一方面或第一方面的任一种设计中的服装规范化检测方法，或执行如第二方面或第二方面的任一种设计中的服装规范化检测方法。

第六方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，该指令用于指示设备执行上述第一方面或第一方面的任一种设计中的服装规范化检测方法，或执行上述第二方面或第二方面的任一种设计中的服装规范化检测方法。

第七方面，本申请提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面或第一方面的任一种设计中的服装规范化检测方法，或执行上述第二方面或第二方面的任一种设计中的服装规范化检测方法。

其中，第三方面至第七方面中任一种设计所带来的技术效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的一种系统架构示意图；

图2为本申请实施例提供的一种小样本学习模型的结构示意图；

图3为本申请实施例提供的一种服装规范化检测方法的流程示意图；

图4a为本申请实施例提供的再一种模型训练方法的流程示意图；

图4b为本申请实施例提供的又一种模型训练方法的流程示意图；

图5为本申请实施例提供的再一种服装规范化检测方法的流程示意图；

图6为本申请实施例提供的又一种服装规范化检测方法的流程示意图；

图7为本申请实施例提供的一种参考子图的示意图；

图8为本申请实施例提供的一种输出结果的示意图；

图9为本申请实施例提供的又一种服装规范化检测方法的流程示意图；

图10为本申请实施例提供的又一种服装规范化检测方法的流程示意图；

图11为本申请实施例提供的再一种设备的结构示意图。

具体实施方式

本申请的说明书以及附图中的术语“第一”和“第二”等是用于区别不同的对象，或者用于区别对同一对象的不同处理，而不是用于描述对象的特定顺序。此外，本申请的描述中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是，本申请实施例中，“示例性地”或者“例如”等词用于表示作例子、例证或说明。本申请实施例中被描述为“示例性地”或者“例如”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用“示例性地”或者“例如”等词旨在以具体方式呈现相关概念。

为了使得本申请更加的清楚，首先对本申请提到的部分概念和处理流程作简单介绍。

1、小样本学习(few-shot learning，FSL)、FSL模型

小样本学习，是一类计算机视觉(computer vision)处理技术。小样本学习的基本思想如下：首先，FSL模型先在大规模数据集上进行预训练。然后，对于某一应用场景，FSL模型基于该场景的少量图片作为参考，即可完成相应的任务，以降低人工智能定制化的成本，在实际应用中具有巨大的应用价值。

2、场景

场景，是指按照一定的条件，对目标对象所处的环境进行划分的结果。例如，在“目标对象是人物”的情况下，按照工作类型划分，建筑工人所处的工地，可以描述为“建筑工地”场景，厨师所处的饭堂厨房，可以描述为“饭堂厨房”场景，出席会议的工作人员所处的会场，可以描述为“会议现场”场景。其中，场景，也可以描述为“场合”、“情景”等。

3、通用特征、具体特征

通用特征，是指未与场景关联的特征，如头部、上身、下身、手部、或颜色等。

具体特征，是指与场景关联的特征。例如，在“建筑工地”这一场景下，建筑工人要穿戴工服、工帽。此种场景下，具体特征包括：“头部”的工帽穿戴样式、“上身”的工服穿戴样式。再如，在“饭堂厨房”这一场景下，工作人员需要穿戴工作服、卫生帽、口罩。此种场景下，具体特征包括：“头部”的卫生帽穿戴样式、“头部”的口罩穿戴样式、“上身”的工作服穿戴样式。又如，在“会议现场”这一场景下，出席人员需要穿着统一样式的正装。此种场景下，具体特征包括：“上身”的正装穿戴样式、“下身”的正装穿戴样式。

4、服装规范化

服装规范化，是指在特定的场景下，基于一些考虑因素，对目标对象着装制定的统一要求。例如，在“建筑工地”这一场景下，目标对象为建筑工人。基于安全因素考虑，建筑工人需要穿戴工服、工帽等。再如，在“饭堂厨房”这一场景下，目标对象为工作人员。基于卫生因素考虑，工作人员需要穿戴工作服、卫生帽、口罩等。又如，在会议现场等场景下，目标对象为出席人员。基于仪容仪表因素考虑，出席人员需要穿着统一样式的正装等。由此可知，在不同的场景下，人们需要穿戴衣物的样式不同。

5、服装规范化检测

服装规范化检测是指，通过计算机视觉(computer vision)的处理方法识别出目标对象着装是否规范。例如，计算机采用分类器识别目标对象着装，以判断目标对象着装是否规范。其中，分类器是定制化训练的，即分类器是针对某一种样式的穿戴衣物进行训练。

下面，再对服装规范化检测的方法进行介绍。

方法一、基于目标对象的属性分类

在训练阶段，先用大量训练样本训练分类器，使得给定一张目标对象的全身图像，分类器即可识别出目标对象的各个部位穿戴是否规范。其中，训练样本包括穿戴了特定服装的目标对象的图像、以及没有穿戴特定服装的目标对象的图像。在应用阶段，采用分类器对目标对象的全身图像进行属性分类，以确定目标对象的各个部位穿戴是否规范。

由此可知，在方法一中，一方面，分类器基于目标对象的全身图像进行属性分类，由于人体的特定部位通常占目标对象的全身图像很小的一部分，所以，输入分类器的数据信噪比较低，加大了分类器分类的难度，导致分类准确率低。另一方面，分类器是定制化训练的，即采用大量包含穿戴特定样式服装的图像对分类器进行训练，成本过高。进一步地，在针对一种穿戴样式训练一个分类器的情况下，由于应用过程中的场景多种多样，且不同的场景对不同部位的穿戴样式的要求也不同。所以，分类器的定制化训练成本进一步加大。

方法二、基于局部部位的属性分类

在训练阶段，先用大量训练样本训练分类器，使得给定一张目标对象的局部部位的图像，分类器即可识别出该部位穿戴是否规范。其中，训练样本包括穿戴了特定服装的局部部位的图像、以及没有穿戴特定服装的局部部位的图像。在应用阶段，首先，采用检测模型对视频帧图像进行检测，以得到目标对象的全身图像。然后，采用人体姿态估计模型对目标对象的全身图像进行检测，以得到目标对象的局部部位图像。最后，采用分类器对各个局部部位图像进行属性分类，以确定各个部位穿戴是否规范。

由此可知，在方法二中，一方面，分类器是定制化训练的，成本过高，详见方法一种“另一方面”的分析过程，此处不再赘述。另一方面，人体姿态估计模型是通过计算骨骼关节点来识别局部部位。然而，在一些局部部位(如头部)，骨骼关节点的信息不足或预测误差较大，导致该局部部位定位的偏差较大，进而影响分类器对该部位穿戴是否规范的判断。

综上，以上两种方法都是先训练分类器。然而，在不同场景下，目标对象需要穿戴衣物的样式不同，所以，定制化训练分类器的成本大。若未针对某一种样式的穿戴衣物训练分类器，则无法判断目标对象是否按照规定穿戴该样式的衣物，导致服装规范化检测的准确率低。

有鉴于此，本申请实施例提供了一种服装规范化检测方法。在该方法中，首先，获取视频帧子图和参考子图。其中，视频帧子图来自第一场景的视频帧图像，视频帧图像包括目标对象的图像，视频帧子图包括目标对象的目标部位在第一场景下第一穿戴样式的图像。参考子图来自第一场景的目标参考集，目标参考集中包括参考对象的图像，参考子图包括参考对象的目标部位在第一场景下标准穿戴样式的图像。然后，采用目标模型处理视频帧子图和参考子图，得到第一处理结果。其中，目标模型是经过训练的人工智能(artificial intelligence，AI)模型，具备通用特征的识别能力。第一处理结果指示目标对象的第一穿戴样式与参考对象的标准穿戴样式的相似度。由于目标模型是以参考子图作为参考来确定待识别哪些特征，进而第一处理结果，所以，即使场景发生变化，不同场景下的参考子图也不一样，目标模型基于新的参考子图确定待识别哪些特征即可，无需重新训练目标模型，从而降低了模型的定制化成本。

本申请实施例提供的服装规范化检测方法可以应用于包括但不限于如图1所示的系统架构中。

如图1所示，该系统架构中包括第一设备101和第二设备102。第一设备01为图像采集设备，该图像采集设备具体可以是摄像机、图像传感器等。第二设备102为处理设备，该处理设备具有中央处理器(central processing unit，CPU)和/或图形处理器(graphicsprocessing unit，GPU)，用于对图像采集设备采集的视频帧图像进行处理，从而实现服装规范化检测。

需要说明的是，第二设备102可以是物理设备或物理设备集群，例如终端、服务器、或服务器集群。当然，第二设备102也可以是虚拟化的云设备，例如云计算集群中的至少一个云计算设备。第一设备101和第二设备102可以是独立的设备，也可以合设。例如，第一设备101是第二设备102的一部分，本申请实施例对此不作限定。在本申请实施例中，以“第一设备101和第二设备102是独立的设备”为例，进行描述。

在具体实现时，第一设备101采集一段视频流，例如一个建筑工地在某一个时间段的多帧视频帧图像。然后第一设备101向第二设备102发送该视频流或某一帧视频帧图像。第二设备102中部署有服装规范化检测装置1020，服装规范化检测装置1020包括获取单元1021、处理单元1022和显示单元1023。获取单元1021用于获取上述视频帧子图和参考子图。处理单元1022用于调用目标模型，采用目标模型处理视频帧子图和参考子图，得到上述第一处理结果。可选的，显示单元1023用于显示可视化信息，如第一处理结果指示的相似度、未规范化穿戴的目标对象、未规范化穿戴的目标部分。

为了使得本申请的技术方案更加清楚、易于理解，下面对本申请实施例提供的服装规范化检测方法进行介绍。

在模型训练阶段，本申请实施例提供一种模型训练方法，用于训练目标模型。其中，目标模型包括骨干网络和分支网络。目标模型包括FSL模型。FSL模型是一种“主干—多分支”的网络结构，即FSL模型的网络结构包括骨干网络和分支网络，如图2所示。骨干网络，也可以描述为主干网络、或主干结构。骨干网络可以是任意神经网络的主干结构。首先，骨干网络对输入图像(如视频帧子图、参考子图)进行处理，得到骨干网络的处理结果。然后，以不同的切分粒度，将骨干网络的处理结果输入到分支网络中，得到分支网络的处理结果，即输入图像的特征向量。在输入图像为视频帧子图的情况下，FSL模型即可得到视频帧子图的特征向量；在输入图像为参考子图的情况下，FSL模型即可得到参考子图的特征向量。然后，FSL模型基于视频帧子图的特征向量和参考子图的特征向量，计算两个特征向量之间的距离，即视频帧子图与参考子图之间的相似度。

参见图3，模型训练阶段的步骤如下：

S301、第一服装规范化检测装置获取第一训练样本和第二训练样本。

其中，第一服装规范化检测装置用于训练目标模型。第一训练样本包括至少一个样本的图像。样本可以是人物、动物等。在本申请实施例中，以人物为例进行说明。

示例性的，第一训练样本可以包括大量样本的图像。第一训练样本包括N_train张图像，记为

其中，P_train表示第一训练样本，

表示第一训练样本中第一张图像，

表示第一训练样本中第二张图像，

表示第一训练样本中第N_train张图像。以“一张样本的图像包括一个人像”为例，在“一个人像对应一个标签”的情况下，第一训练样本对应的标签，记为

其中，Y_train表示第一训练样本对应的样本的标签，

表示第一个人像的标签，

表示第二个人像的标签，

表示第N_train个人像的标签。

其中，第二训练样本包括目标部位的至少一种穿戴样式的图像。目标部位是样本上的一个或多个部位。例如，在样本是人物的情况下，目标部位可以例如但不限于如下部位中的至少一项：头部、上身、或下身。示例性的，第二训练样本可以包括以下图像中的至少一项：头部图像、上身图像、或下身图像。其中，在头部图像中，头部所戴帽子的样式可以是一种或多种。在上身图像中，上衣的样式可以是一种或多种。在下身图像中，下衣的样式可以是一种或多种。

例如，第二训练样本可以包括头部图像。第二训练样本中包括头部的图像有N_train张，记为

其中，H_train表示第二训练样本中包括头部的图像。在包括头部的图像中，

表示第一张图像，

表示第二张图像，

表示第N_train张图像。以“一张图像包括一个头部图像”为例，在“一个头部图像对应一个标签”的情况下，第二训练样本的头部图像对应的标签，记为

其中，HY_train表示第二训练样本的头部图像对应的标签，

表示第一个头部图像的标签，

表示第二个头部图像的标签，

表示第N_train个头部图像的标签。

再如，第二训练样本可以包括上身图像。第二训练样本中包括上身的图像有N_train张，记为

其中，U_train表示第二训练样本中包括上身的图像。在包括上身的图像中，

表示第一张图像，

表示第二张图像，

表示第N_train张图像。以“一张图像包括一个上身图像”为例，在“一个上身图像对应一个标签”的情况下，第二训练样本的上身图像对应的标签，记为

其中，UY_train表示第二训练样本的上身图像对应的标签，

表示第一个上身图像的标签，

表示第二个上身图像的标签，

表示第N_train个上身图像的标签。

又如，第二训练样本可以包括下身图像。第二训练样本中包括下身的图像有N_train张，记为

其中，L_train表示第二训练样本中包括下身的图像。在包括下身的图像中，

表示第一张图像，

表示第二张图像，

表示第N_train张图像。以“一张图像包括一个下身图像”为例，在“一个下身图像对应一个标签”的情况下，第二训练样本的下身图像对应的标签，记为

其中，LY_train表示第二训练样本的下身图像对应的标签，

表示第一个下身图像的标签，

表示第二个下身图像的标签，

表示第N_train个下身图像的标签。

需要说明的是，第一训练样本和第二训练样本与第一场景不存在关联关系。其中，第一场景是模型应用阶段涉及的场景，详见S501a的介绍，此处不再赘述。仍以样本是人物为例，第一训练样本中的图像可以是样本在任意场景下的图像，第二训练样本中的图像可以是任意部分的图像，且该部位上的穿戴样式可以是在任意场景下的穿戴样式。如此，基于第一训练样本和第二训练样本训练得到的目标模型，具备通用特征的识别能力，能够应用于不同的场景，无需针对不同场景训练不同的模型，以降低模型定制化成本。

S302、第一服装规范化检测装置采用第一训练样本进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。

其中，模型参数可以例如但不限于模型的权重。

示例性的，参见图4a，S302的实现过程如下：

S302a、第一服装规范化检测装置将第一训练样本分为至少一个第一训练样本组。

其中，第一训练样本组包括第一正类样本和第一负类样本。第一正类样本包括标识第一标签的图像，第一负类样本包括未标识第一标签的图像。第一标签用于指示至少一个样本中的一个样本。

示例性的，首先，第一服装规范化检测装置将第一训练样本中样本的图像进行随机分组，得到至少一个第一训练样本组。每个第一训练样本组包括4张属于同一标签的样本的图像、以及4张与上述标签相异的样本的图像。每个第一样本训练组E如下：

其中，E表示一个第一样本训练组，上述上标a至h中每个字母的取值为整数，且数值范围可以是[1，N_train]。

然后，第一服装规范化检测装置对上述第一样本训练组E中的标签进行重定义，即第一样本训练组E中的标签满足：

其中，

和

属于第一标签，用于标识一个样本的图像；

和

不属于第一标签，用于标识上述样本图像中除“第一标签标识的样本”之外的其他样本的图像。

S302b、第一服装规范化检测装置采用至少一个第一训练样本组进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。

示例性的，第一服装规范化检测装置基于第一样本训练组E和重定义后的标签，通过梯度下降法和反向传播方法，进行迭代式的参数学习，得到骨干网络的模型参数和分支网络的模型参数。

如此，第一服装规范化检测装置基于第一正类样本和第一负类样本进行模型训练，以提高目标模型对通用特征的二分类能力。如此，实际应用场景下，目标模型以参考子图作为参考，即可完成任务。

S303、第一服装规范化检测装置采用第二训练样本进行模型训练，修正分支网络的模型参数，得到目标模型。

其中，目标模型可以例如但不限于FSL模型。

示例性的，参见图4b，S303的实现过程如下：

S303a、第一服装规范化检测装置将第二训练样本分为至少一个第二训练样本组。

其中，第二训练样本组包括第二正类样本和第二负类样本。第二正类样本包括标识第二标签的图像，第二负类样本包括未标识第二标签的图像。第二标签用于指示至少一种穿戴样式中的一种穿戴样式。

示例性的，以头部图像为例，首先，第一服装规范化检测装置将第二训练样本中的头部图像进行随机分组，得到至少一个第二训练样本组。每个第二训练样本组包括4张属于同一标签的头部图像、以及4张与上述标签相异的头部图像。即每个第二样本训练组F如下：

其中，F表示一个第二样本训练组，上述上标a至h中每个字母的取值为整数，且数值范围可以是[1，N_train]。

然后，第一服装规范化检测装置对上述第二样本训练组F中的标签进行重定义，即第二样本训练组F中的标签满足：

其中，

和

属于第二标签，用于标识一个样本的头部的图像；

和

不属于第二标签，用于标识上述头部图像中除“第一标签标识的样本”之外的其他样本的头部的图像。

S303b、第一服装规范化检测装置采用至少一个第二训练样本组进行模型训练，修正分支网络的模型参数。

示例性的，第一服装规范化检测装置基于第二样本训练组F和重定义后的标签，通过梯度下降法和反向传播方法，进行迭代式的参数学习，以修正分支网络的模型参数，从而得到具备头部识别功能的目标模型。

需要说明的是，针对上身图像，第一服装规范化检测装置执行S303，以得到具备上身识别功能的目标模型，处理过程可以参见头部图像的处理过程。类似的，针对下身图像，第一服装规范化检测装置执行S303，以得到具备下身识别功能的目标模型，处理过程可以参见头部图像的处理过程，此处不再赘述。

如此，第一服装规范化检测装置基于第一训练样本进行训练，以得到目标模型的模型参数，使得目标模型具备识别通用特征的能力。第一服装规范化检测装置再基于第二训练样本进行训练，以调整目标模型的分支网络的模型参数，提高目标模型识别局部部位的能力。由于目标模型能够识别不同的特征，所以，目标模型能够应用于不同的场景，无需针对某一场景单独训练模型，降低了模型的定制化成本。

在模型应用阶段，该服装规范化检测方法包括如下三个阶段：

第一阶段、目标参考集预处理阶段。在此阶段中，第二服装规范化检测装置从目标参考集的图像中提取参考子图。其中，第二服装规范化检测装置与第一服装规范化检测装置可以相同，也可以不同。参见图5，第一阶段包括如下步骤：

S501a、第二服装规范化检测装置获取目标参考集。

其中，目标参考集用于为目标模型提供参考子图，以使目标模型作为参考，完成任务。目标模型是“模型训练阶段”得到的模型。目标参考集包括参考对象的目标部位在第一场景下标准穿戴样式的图像。例如，参考对象的标准穿戴样式在至少一种角度下的图像、或参考对象的标准穿戴样式在至少一种亮度下的图像。第一场景可以例如但不限于如下场景中的一种：建筑工地、饭堂厨房、或会议现场。参考对象可以是人物、动物等。

示例性的，在“目标参考集包括参考对象的图像”的情况下，目标参考集包括N_s张图像，记为

其中，S表示目标参考集，s₁表示目标参考集中的第一张图像，s₂表示目标参考集中的第二张图像，

表示目标参考集中的第N_s张图像。以图6为例，图6示出的场景为“建筑工地”。目标参考集包括3张图像。

在“目标参考集包括参考对象的图像”的情况下，第二服装规范化检测装置对目标参考集中的图像进行预处理(即执行S502a至S504a)，以得到参考子图，即参考对象的目标部位在第一场景下标准穿戴样式的图像。其中，关于“目标部位”的介绍可以参见S301的相关说明，此处不再赘述。

S502a、第二服装规范化检测装置检测目标参考集的图像，得到第一检测结果。

其中，第一检测结果包括以下至少一项：目标参考集中目标部位的骨骼关节点、或第一指示信息。第一指示信息指示参考对象的目标部位在目标参考集的图像中的区域。

示例性的，i∈{1，2，…，N_s}，以目标参考集中的一张图像s_i为例，将图像s_i输入人体姿态估计模型，以检测人像中骨骼关节点，得到骨骼关节点在目标参考集的图像中的位置信息。其中，人体姿态估计模型可以是AlphaPose模型。骨骼关节点可以例如但不限于如下目标部位上的关节点：左肩、右肩、胯部左侧、胯部右侧、左膝盖、右膝盖、左踝、右踝、鼻尖、左眼、右眼、左耳、或右耳。图6中示出的骨骼关节点如下：左肩、右肩、胯部左侧、胯部右侧、左膝盖、右膝盖、左踝、右踝、左耳、右耳。将图像s_i输入目标检测模型，以得到第一指示信息。其中，目标检测模型所检测的目标区域(包括目标部位的区域)与第一场景相关。例如，在“建筑工地”这一场景下，目标区域是包括头部的区域，如图6所示。第一指示信息指示目标部位在目标参考集的图像中的区域，如头部在目标参考集的图像中的区域。目标检测模型可以是YOLOv3模型。

S503a、第二服装规范化检测装置确定第一检测结果的置信度。

其中，第一检测结果的置信度指示第一检测结果的可信程度。

示例性的，第二服装规范化检测装置结合第一检测结果和目标参考集中的图像确定第一检测结果的置信度，具体过程可以参见现有技术，此处不再赘述。

S504a、第二服装规范化检测装置根据第一检测结果的置信度，从目标参考集中提取参考子图。

其中，参考子图包括第一指示信息所指区域的图像，且位于第一指示信息所指区域中的骨骼关节点的置信度满足预设条件a。预设条件a可以例如但不限于如下至少一项：

第一项、第一指示信息所指区域中骨骼关节点的置信度大于置信度阈值a1。其中，置信度阈值a1可以是0.1、或0.3，置信度阈值a1也可以是其他数值。

第二项、在第一指示信息所指区域中，大于置信度阈值a1的骨骼关节点的数量超过一定的数量，如大于数量阈值a2。其中，数量阈值a2可以是4，数量阈值a2也可以是其他数值。

示例性的，第二服装规范化检测装置执行如下步骤：

步骤1a、如果骨骼关节点中左肩、右肩、胯部左侧和胯部右侧4个点的纵坐标最大值，大于胯部左侧、胯部右侧、左膝盖、右膝盖、左踝和右踝6个点的纵坐标最小值，说明图像s_i中的人像是弯腰的图像，第二服装规范化检测装置丢弃该图像s_i，以过滤掉难以识别的人体姿态，避免识别错误。否则，第二服装规范化检测装置执行步骤2a、步骤3a和步骤4a中的至少一项。

步骤2a、将骨骼关节点的左肩、右肩、胯部左侧和胯部右侧4个点围成四边形的最小外接矩形，作为上衣区域。若这4个关节点中置信度大于置信度阈值a1(如0.1)的个数少于3个，则第二服装规范化检测装置丢弃该区域，否则，第二服装规范化检测装置将该区域作为上衣区域，即包括上身在第一场景下标准穿戴样式的参考子图。

示例性的，从图像s_i中提取的参考子图，记为

其中，

表示图像s_i中提取的参考子图，

表示图像s_i中提取的第一个目标部位(如上身)的参考子图。

需要说明的是，步骤2a是可选的步骤。在目标部位包括上身的情况下，第二服装规范化检测装置执行步骤2a。在目标部位不包括上身的情况下，第二服装规范化检测装置不执行步骤2a。

步骤3a、将骨骼关节点的胯部左侧、胯部右侧、左膝盖、右膝盖、左踝和右踝6个点所围成多边形的最小外接矩形，作为下装区域。若这6个关节点中置信度大于置信度阈值a1(如0.1)的个数少于5个，则第二服装规范化检测装置丢弃该区域，否则，第二服装规范化检测装置将该区域作为下装区域，即包括下身在第一场景下标准穿戴样式的参考子图。

示例性的，从图像s_i中提取的参考子图，记为

其中，

表示图像s_i中提取的参考子图，

表示图像s_i中提取的第二个目标部位(如下身)的参考子图。

需要说明的是，步骤3a是可选的步骤。在目标部位包括下身的情况下，第二服装规范化检测装置执行步骤3a。在目标部位不包括下身的情况下，第二服装规范化检测装置不执行步骤3a。

步骤4a、在第一指示信息指示的区域(如头部的区域)中，骨骼关节点包括如下5个部位的关节点，即中鼻尖、左耳、右耳、左眼和右眼5个部位的关节点，若这5个关节点中置信度大于置信度阈值a1(如0.1)的个数小于数量阈值a2(如4)，则第二服装规范化检测装置丢弃第一指示信息指示的区域，否则，第二服装规范化检测装置判断第一指示信息指示的区域的置信度是否满足要求。若第一指示信息指示的区域的置信度低于置信度阈值a1(如0.3)，则第二服装规范化检测装置丢弃第一指示信息指示的区域，否则，第二服装规范化检测装置将该区域作为头部区域，即包括头部在第一场景下标准穿戴样式的参考子图。

示例性的，从图像s_i中提取的参考子图，记为

其中，

表示图像s_i中提取的参考子图，

表示图像s_i中提取的第三个目标部位(如头部)的参考子图。

需要说明的是，步骤4a是可选的步骤。在目标部位包括头部的情况下，第二服装规范化检测装置执行步骤4a。在目标部位不包括头部的情况下，第二服装规范化检测装置不执行步骤4a。

示例性的，在目标部位包括上身、下身和头部的情况下，第二服装规范化检测装置执行上述步骤2a、步骤3a和步骤4a，从目标参考集的图像s_i中提取的参考子图，记为

如图7所示，图7所示的场景为“饭堂厨房”，第二服装规范化检测装置得到的参考子图如下：头部戴卫生帽的子图、上身着卫生服的子图、和下身着卫生服的子图。在i遍历{1，2，…，N_s}的情况下，第二服装规范化检测装置即可从目标参考集的图像中提取出更多的参考子图。

其中，参考子图记为

需要说明的是，“S502a至S504a”的处理步骤是可选的。在“目标参考集包括参考对象的图像”的情况下，第二服装规范化检测装置执行“S502a至S504a”中至少一项处理步骤，以得到参考子图。在“目标参考集是参考子图的集合”的情况下，即目标参考集中的图像是提取后的目标部位在第一场景下标准穿戴样式的参考子图，第二服装规范化检测装置无需执行“S502a至S504a”的处理步骤，即可得到参考子图。

第二阶段、视频帧图像处理阶段。在此阶段中，第二服装规范化检测装置从视频帧图像中提取视频帧子图。

S501b、第二服装规范化检测装置获取视频帧图像。

其中，视频帧图像包括目标对象在第一场景下的图像。目标对象可以是人物、动物等。第一场景可以例如但不限于如下场景中的一种：建筑工地、饭堂厨房、或会议现场。目标对象包括至少一个目标部位，关于“目标部位”的介绍可以参见S301的相关说明，此处不再赘述。视频帧子图包括目标对象的目标部位的图像。所以，视频帧图像包括至少一个视频帧子图。

示例性的，第一设备101采集一段视频流，并传输至第二服装规范化检测装置。其中，视频流包括多帧视频帧图像，即目标对象在第一场景下的图像。例如，视频流记为I＝{I₁，I₂，...I_T}。其中，I表示视频流，I₁表示视频流中时刻1的视频帧图像，I₂表示视频流中时刻2的视频帧图像，I_T表示视频流中时刻T的视频帧图像。在S501b中，第二服装规范化检测装置获取的视频帧图像，可以是视频流中某一时刻(如t时刻)的视频帧图像，记为I_t。

S502b、第二服装规范化检测装置检测视频帧图像，得到第二检测结果。

其中，第二检测结果包括以下至少一项：视频帧图像中目标对象的目标部位的骨骼关节点、或第二指示信息。第二指示信息指示目标对象的目标部位在视频帧图像中的区域。

示例性的，将视频帧图像I_t输入目标对象检测模型，以检测视频帧图像I_t中的人像，得到目标对象检测结果，记为

其中，

表示视频帧图像I_t中的第一个人像，

表示视频帧图像I_t中的第二个人像，

表示视频帧图像I_t中的第N_p个人像。图6中以“一个人像”为例，示出了“目标对象检测结果”。

在i′∈{1，2，…，N_p}的情况下，以视频帧图像I_t中的人像

为例，将人像

输入人体姿态估计模型，以检测人像

中骨骼关节点，得到骨骼关节点在视频帧图像I_t中的位置信息，可以参见图6中第二检测结果所在方框中骨骼关节点的图像所示。将人像

输入目标检测模型，以得到第二指示信息，可以参见图6中目标区域的图像所示。S502b的实现过程可以参见S502a的相关说明，此处不再赘述。

S503b、第二服装规范化检测装置确定第二检测结果的置信度。

其中，第二检测结果的置信度指示第二检测结果的可信程度。与S503a的实现过程相比，S503b的区别点在于，处理对象为第二检测结果，S503b的实现过程可以参见S503a的相关说明，此处不再赘述。

S504b、第二服装规范化检测装置根据第二检测结果的置信度，从视频帧图像中提取视频帧子图。

其中，视频帧子图包括第二指示信息所指区域的图像，且位于第二指示信息所指区域中的骨骼关节点的置信度满足预设条件b。预设条件b可以例如但不限于如下至少一项：

第一项、第二指示信息所指区域中骨骼关节点的置信度大于置信度阈值b1。其中，置信度阈值b1可以是0.1、或0.3，置信度阈值b1也可以是其他数值。置信度阈值b1与置信度阈值a1可以相同，也可以不同，本申请实施例对此不作限定。

第二项、在第二指示信息所指区域中，大于置信度阈值b1的骨骼关节点的数量超过一定的数量，如大于数量阈值b2。其中，数量阈值b2可以是4，数量阈值b2也可以是其他数值。数量阈值b2与数量阈值b1可以相同，也可以不同，本申请实施例对此不作限定。

示例性的，针对人像

得到的骨骼关节点的信息和第二指示信息，第二服装规范化检测装置进行处理，以得到人像

中目标部位的视频帧子图，如图6中“头部”和“上身”的图像所示。与S504a的实现过程相比，S504b的区别点在于，处理对象为第二检测结果，具体过程可以参见S504a的相关说明，此处不再赘述。在目标部位包括上身、下身和头部的情况下，第二服装规范化检测装置从人像

中提取的视频帧子图，记为

其中，

表示人像

中提取的视频帧子图，

表示人像

中提取的第一个目标部位(如上身)的视频帧子图，

表示人像

中提取的第二个目标部位(如下身)的视频帧子图，

表示人像

中提取的第三个目标部位(如头部)的视频帧子图。在i′遍历{1，2，…，N_p}的情况下，第二服装规范化检测装置即可从视频帧图像I_t中提取视频帧子图。

如此，第二服装规范化检测装置能够检测视频帧图像中的骨骼关节点和目标部位所在的区域，结合骨骼关节点的检测信息和目标部位所在的区域，定位目标部位，以解决骨骼关节点检测不精准的弊端，有助于提高目标模型的处理精准度。

需要说明的是，第二服装规范化检测装置可以先执行“第一阶段”的处理步骤，再执行“第二阶段”的处理步骤。或者，第二服装规范化检测装置也可以先执行“第二阶段”的处理步骤，再执行“第一阶段”的处理步骤。或者，第二服装规范化检测装置还可以同时执行“第一阶段”和“第二阶段”的处理步骤，本申请实施例对此不作限定。

第三阶段、识别阶段。在此阶段中，第二服装规范化检测装置确定第一处理结果。其中，第一处理结果指示视频帧图像中目标对象的第一穿戴样式与参考子图中参考对象的标准穿戴样式之间的相似度。例如，采用特征向量之间的距离表征相似度。距离越小，则表征相似度越高，反之，距离越大，则表征相似度越低。

S505、第二服装规范化检测装置采用目标模型处理视频帧子图和参考子图，得到第一处理结果。

其中，目标模型是模型训练阶段得到的模型，具备识别通用特征的能力，与第一场景无关。例如，目标模型能够识别头部、上身、下身、手部、或颜色等。目标模型能够基于参考子图确定自身用于识别目标部位的穿戴样式。换言之，目标模型以参考子图作为参考，确定自身用于识别哪些具体特征。例如，在参考子图包括头部的情况下，目标模型确定自身用于识别的具体特征包括“头部”的穿戴样式。在参考子图包括上身的情况下，目标模型确定自身用于识别的具体特征包括“上身”的穿戴样式。

示例性的，S505的实现过程如下：

例如，在“目标部位包括上身”的情况下，目标模型的输入信息包括如下两项：视频帧子图

参考子图

目标模型提取视频帧子图

的特性向量，记为

目标模型提取包括头部图像的参考子图

的特性向量，记为

计算视频帧子图

与参考子图

之间的最小距离

其中，最小距离

满足：

其中，

表示视频帧子图

与参考子图

之间的最小距离，

表示视频帧子图

的特征向量，

表示参考子图

的特征向量，D(·)表示距离度量计算方法，如欧氏距离的计算方法。

再如，在“目标部位包括下身”的情况下，目标模型执行上述过程，以得到视频帧子图

与参考子图

之间的最小距离

可以参见“最小距离

”的处理过程，此处不再赘述。

又如，在“目标部位包括头部”的情况下，目标模型执行上述过程，以得到视频帧子图

与参考子图

之间的最小距离

可以参见“最小距离

”的处理过程，此处不再赘述。

综上，在目标部位包括上身、下身和头部的情况下，对于视频帧图像I_t中的人像

而言，第二服装规范化检测装置得到人像

各部位的距离

第二服装规范化检测装置综合视频流中的多帧视频帧图像，对人像

中的目标对象进行跟踪处理，以得到该目标对象在视频流I中的距离，记为

其中，

表示人像

中的目标对象在视频流I中各部位的第一穿戴样式与标准穿戴样式之间的距离，

表示人像

中的目标对象在视频流I中时刻1时各部位的第一穿戴样式与标准穿戴样式之间的距离，

表示人像

中的目标对象在视频流I中时刻2时各部位的第一穿戴样式与标准穿戴样式之间的距离，

表示人像

中的目标对象在视频流I中时刻T时各部位的第一穿戴样式与标准穿戴样式之间的距离。

对于某一部位而言，若连续三个时刻的距离大于距离阈值(如0.6)，则第二服装规范化检测装置确定人像

中的该部位的穿戴样式不规范。对于判定为没有规范化穿戴的目标对象，第二服装规范化检测装置的输出结果可以例如但不限于如下信息：可视化信息。例如，在视频帧图像中用矩形框标识出没有规范化穿戴的目标对象(如图6所示)、或该目标对象没有规范化穿戴的目标部位(图6中“工帽穿戴不规范，工服穿戴不规范”的文字提示)。或者，如图8所示，在“饭堂厨房”场景下，针对某一帧视频帧图像，第二服装规范化检测装置的输出结果如下：采用方框标识未规范穿戴的工作人员，且输出“上衣穿戴不规范”这一文字提示信息。

本申请实施例提供的服装规范化检测方法，目标模型以参考子图提供的参考对象的目标部位在第一场景下的标准穿戴样式的图像为参考，对视频帧子图和参考子图进行处理，以确定视频帧子图中目标对象的目标部位在第一场景下第一穿戴样式与目标穿戴样式之间的相似度。由于目标模型具备通过特征的识别能力，所以，在不同场景下，目标模型以参考子图作为参考，来确定自身自用于识别的特征，如目标部位的穿戴样式，从而确定目标部位在第一场景下第一穿戴样式与目标穿戴样式之间的相似度。换言之，即使场景发生变化，无需针对“变化后的场景”来训练目标模型，目标模型根据“变化后的场景”下的参考子图即可完成任务，降低模型的定制化成本，提高了服装规范化检测的准确率。

需要说明的是，以上均以“一帧视频帧图像I_t”为例，示出了第二服装规范化检测装置的处理过程。在针对“某一视频流I”或“不同视频流”的处理过程中，目标参考集是在一定条件下更新后的集合，以使参考子图更贴合实际场景，进而提升目标模型所确定的相似度的准确率。示例性的，参见图9，关于“获取目标参考集”的过程可以包括如下步骤：

步骤a1、第二服装规范化检测装置确定第一候选集。

其中，第一候选集是候选集中的一个集合，候选集包括至少一个集合，且至少一个集合中包括目标参考集。第一候选集包括第一部分图像和第二部分图像，如图10所示。两部分图像的介绍如下：

第一部分图像与第一参考集中的图像相同。第一参考集是目标参考集确定之前，为目标模型提供参考子图的集合，可以记为L＝{l1，l2，...，ln}。其中，L表示第一参考集，l1表示第一参考集中的第一张图像，l2表示第一参考集中的第二张图像，ln表示第一参考集中的第n张图像。

第二部分图像选自待更新图像集S。待更新图像集S的图像中第二穿戴样式与标准穿戴样式满足预设条件。其中，预设条件包括以下至少一项：

第一项、第二穿戴样式与标准穿戴样式的相似度大于相似度阈值x1。

示例性的，以“第二服装规范化检测装置存储历史获取的视频帧子图”为例，第二服装规范化检测装置确定某一视频帧图像(或视频帧子图)中的第二穿戴样式与标准穿戴样式之间的相似度大于相似度阈值x1，则第二服装规范化检测装置确定存储该视频帧图像(或视频帧子图)，以作为待更新图像集S中的一张图像。

第二项、第二穿戴样式与标准穿戴样式的相似度在相似度分布中满足预设状况。其中，相似度分布包括第二穿戴样式与标准穿戴样式在多个时刻的相似度。

示例性的，以“第二服装规范化检测装置存储历史获取的视频帧子图”为例，作为一种示例，第二服装规范化检测装置确定某一视频流中至少三个时刻的视频帧图像(或视频帧子图)中的第二穿戴样式与标准穿戴样式之间的相似度小于相似度阈值x2(如0.4)，且至少一个时刻的视频帧图像(或视频帧子图)中的第二穿戴样式与标准穿戴样式之间的相似度大于相似度阈值x3，则第二服装规范化检测装置确定存储该视频帧图像(或视频帧子图)，以作为待更新图像集S中的一张图像。

作为另一种示例，第二服装规范化检测装置确定某一视频流中至少三个时刻的视频帧图像(或视频帧子图)中的第二穿戴样式与标准穿戴样式之间的相似度小于相似度阈值x2(如0.4)，且该视频流中的目标部位确定为“未规范穿戴”，则第二服装规范化检测装置确定该视频流中该目标部位的第二穿戴样式与标准穿戴样式之间的相似度最低的视频帧图像(或视频帧子图)，以作为待更新图像集S中的一张图像。以图10为例，图10中的曲线示出了某一验证对象在某一时间段内的相似度变化。其中，细曲线表示低于相似度阈值x2的时间段，粗曲线表示高于相似度阈值x2的时间段。待更新图像包括相似度最高的一帧视频帧图像。

步骤a2、第二服装规范化检测装置确定验证集。

其中，验证集包括以下至少一项：目标部位在第一场景中至少两种角度下的穿戴图像、或目标部位在第一场景中至少两种亮度下的穿戴图像。

示例性的，第二服装规范化检测装置预存储一定数量的验证对象的运动轨迹的图像。首先，第二服装规范化检测装置从验证对象的运动轨迹的图像中提取目标部位的子图，以构成基础图像，如图10所示。其中，基础图像包括以下至少一项：目标部位在第一场景中第一角度下的穿戴图像、或目标部位在第一场景中第一亮度下的穿戴图像。例如，基础图像记为

其中，

表示基础图像，

表示基础图像中第一张图像，

表示基础图像中第二张图像，

表示基础图像中第五十张图像。

然后，第二服装规范化检测装置对基础图像中每张图像随机地进行图像增强，如进行角度变换、或亮度变换，以得到增强图像。其中，增强图像

包括以下至少一项：验证对象的目标部位在第一场景中第二角度下的穿戴图像、或验证对象的目标部位在第一场景中第二亮度下的穿戴图像。增强图像

包括以下至少一项：验证对象的目标部位在第一场景中第三角度下的穿戴图像、或验证对象的目标部位在第一场景中第三亮度下的穿戴图像。增强图像

中的穿戴图像可以此类推。如图10所示，图10中仅示出了两组增强图像，两组增强图像是对基础图像进行亮度变换后的图像。

需要说明的是，第二服装规范化检测装置可以先执行步骤a1，再执行步骤a2。或者，第二服装规范化检测装置也可以先执行步骤a2，再执行步骤a1。或者，第二服装规范化检测装置还可以同时执行步骤a1和步骤a2，本申请实施例对此不作限定。

步骤a3、第二服装规范化检测装置采用目标模型处理第一候选集和验证集，得到第二处理结果。

其中，第二处理结果是以第一候选集为参考确定的验证集中穿戴图像之间的相似度。

示例性的，首先，目标模型以第一候选集为参考，对验证集进行处理，以得到对应的距离

其中，

表示以第一候选集为参考确定的验证集中基础图像的穿戴图像之间的相似度。

表示以第一候选集为参考确定的验证集中增强图像

的穿戴图像之间的相似度。

表示以第一候选集为参考确定的验证集中增强图像

的穿戴图像之间的相似度。

然后，确定验证集的相似度的一致性。其中，验证集的相似度的一致性满足：

其中，Sim表示验证集的相似度的一致性，Var(·)表示方差计算。

步骤a4、第二服装规范化检测装置根据第二处理结果指示的相似度，确定第一候选集为目标参考集。

例如，在“第二处理结果指示的相似度大于第一阈值”的情况下，第二服装规范化检测装置将第一候选集作为目标参考集。

也就是说，在第二处理结果指示的相似度满足一定要求的情况下，第二服装规范化检测装置可以将该第一候选集作为目标参考集，更贴合实际场景。

再如，第二服装规范化检测装置还执行步骤a0：

步骤a0、第二服装规范化检测装置采用目标模型处理第一参考集和验证集，得到第三处理结果。

其中，第三处理结果是以第一参考集为参考确定的验证集中穿戴图像之间的相似度。

此种情况下，步骤a4实现为如下步骤：在“第二处理结果指示的相似度大于第三处理结果指示的相似度”的情况下，第二服装规范化检测装置将第一候选集作为目标参考集。例如，第二服装规范化检测装置将第一候选集替换为目标参考集。

第一场景中的环境因素是动态变化的。例如，在第一场景中的光照变化的情况下，目标部位上穿戴衣物的亮度可能发生变化。再如，在第一场景中图像采集时的角度变化的情况下，目标部位的形状可能发生变化。由于目标参考集是基于相似度确定的集合，相似度能够评价目标参考集更新效果的有效性，如在目标模型以目标参考集为参考的情况下，目标模型对验证集进行识别，所得识别结果的一致性，而验证集是验证对象在第一场景中不同角度、不同亮度下的穿戴图像，所以，目标参考集中的图像更贴合实际场景中的亮度、角度，目标参考集为目标模型提供的参考子图也更贴合实际场景。由于目标模型是以参考子图作为参考，来执行任务的，所以，目标模型的处理精准度得到提升。

需要说明的是，在“候选集的数量是一个”的情况下，第二服装规范化检测装置通过执行上述步骤(步骤a0至步骤a4)，以得到目标参考集。

在“候选集的数量是多个”的情况下，第二服装规范化检测装置针对候选集中的每一个集合，执行上述步骤(步骤a0至步骤a4)，以得到目标参考集。其中，任意两个候选集中至少一张图像不同。示例性的，第一参考集记为L＝{l1，l2，...，ln}。其中，L表示第一参考集，l1表示第一参考集中的第一张图像，l2表示第一参考集中的第二张图像，ln表示第一参考集中的第n张图像。候选集的数量是n个。第一候选集记为

其中，S₁表示第一候选集，

表示待更新图像集中的第k张图像。第二候选集记为

其中，S₂表示第二候选集。第n候选集记为

其中，S_n表示第n候选集。也就是说，待更新图像

逐一替换第一参考集中的每张图像，以得到多个候选集。

上述主要从方法的角度对本申请实施例提供的方案进行了介绍。下面将结合附图，描述根据本申请所提供的服装规范化检测装置1020和第二设备102。

参见图1所示的系统架构图中服装规范化检测装置1020的结构示意图，如图1所示，该服装规范化检测装置1020包括：获取单元1021、处理单元1022和显示单元1023。

在模型应用阶段，获取单元1021，用于获取视频帧子图和参考子图。其中，视频帧子图来自第一场景的视频帧图像，视频帧图像包括目标对象的图像，视频帧子图包括目标对象的目标部位在第一场景下第一穿戴样式的图像。参考子图来自第一场景的目标参考集，目标参考集中包括参考对象的图像，参考子图包括参考对象的目标部位在第一场景下标准穿戴样式的图像。处理单元1022，用于采用目标模型处理视频帧子图和参考子图，得到第一处理结果，其中，目标模型是经过训练的人工智能AI模型，第一处理结果指示目标对象的第一穿戴样式与参考对象的标准穿戴样式的相似度。

其中，获取单元1021的具体实现可以参见图5所示实施例中S501a至S504a、S501b至S504b相关内容描述，处理单元1022的具体实现可以参见图5所示实施例中S505相关内容描述，在此不再赘述。

在一种可能的设计中，获取单元1021，具体用于：获取目标参考集，检测目标参考集中的图像，得到第一检测结果。其中，第一检测结果包括以下至少一项：目标参考集中参考对象的目标部位的骨骼关节点、或第一指示信息；第一指示信息指示参考对象的目标部位在目标参考集的图像中的区域。确定第一检测结果的置信度。其中，置信度指示第一检测结果的可信程度。根据第一检测结果的置信度，从目标参考集的图像中提取参考子图。

其中，获取单元1021的具体实现可以参见图5所示实施例中S501a至S504a相关内容描述在此不再赘述。

在一种可能的设计中，获取单元1021，具体用于：获取视频帧图像，检测视频帧图像，得到第二检测结果。其中，第二检测结果包括以下至少一项：视频帧图像中目标对象的目标部位的骨骼关节点、或第二指示信息；第二指示信息指示目标对象的目标部位在视频帧图像中的区域。确定第二检测结果的置信度。其中，置信度指示第二检测结果的可信程度。根据第二检测结果的置信度，从视频帧图像中提取视频帧子图。

其中，获取单元1021的具体实现可以参见图5所示实施例中S501b至S504b相关内容描述，在此不再赘述。

在一种可能的设计中，处理单元1022，还用于：采用目标模型处理第一候选集和验证集，得到第二处理结果。其中，第一候选集是候选集中的一个集合，候选集包括目标参考集。验证集包括以下至少一项：验证对象的目标部位在第一场景中至少两种角度下的穿戴图像、或验证对象的目标部位在第一场景中至少两种亮度下的穿戴图像。第二处理结果是以第一候选集为参考确定的验证集中穿戴图像之间的相似度。根据第二处理结果指示的相似度，确定第一候选集为目标参考集。

其中，获取单元1021的具体实现可以参见图9所示实施例中步骤a3至步骤a4相关内容描述，在此不再赘述。

在一种可能的设计中，处理单元1022，还用于采用目标模型处理第一参考集和验证集，以得到第三处理结果。其中，第一参考集是在确定目标参考集之前，为目标模型提供参考图像的集合。第三处理结果是以第一参考集为参考确定的验证集中穿戴图像之间的相似度。处理单元1022用于根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第三处理结果指示的相似度，则处理单元1022用于将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

其中，获取单元1021的具体实现可以参见图9所示实施例中步骤a0和步骤a4相关内容描述，在此不再赘述。

在一种可能的设计中，处理单元1022用于根据第二处理结果指示的相似度，确定第一候选集为目标参考集，包括：若第二处理结果指示的相似度大于第一阈值，则处理单元1022用于将第一候选集作为目标参考集，以使目标参考集中的图像与第一场景更贴合。

在一种可能的设计中，该服装规范化检测装置还包括：显示单元1023，用于向用户提供可视化信息，其中，可视化信息包括以下至少一项：第一处理结果指示的相似度、标识第一处理结果的相似度低于第一阈值的目标对象、或标识第一处理结果的相似度低于第二阈值的目标部位。

在模型训练阶段，获取单元1021，用于获取第一训练样本和第二训练样本。其中，第一训练样本包括至少一个样本的图像，第二训练样本包括样本的目标部位的至少一种穿戴样式的图像，样本包括目标部位。处理单元1022，用于采用第一训练样本进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。处理单元1022，还用于采用第二训练样本进行模型训练，修正分支网络的模型参数，得到目标模型。

其中，获取单元1021的具体实现可以参见图3所示实施例中S301相关内容描述，处理单元1022的具体实现可以参见图3所示实施例中SS302、S303相关内容描述，在此不再赘述。

在一种可能的设计中，处理单元1022，具体用于：将第一训练样本分为至少一个第一训练样本组。其中，第一训练样本组包括第一正类样本和第一负类样本。第一正类样本包括标识第一标签的图像，第一负类样本包括未标识第一标签的图像，第一标签指示至少一个样本中的一个样本。采用第一训练样本组进行模型训练，得到骨干网络的模型参数和分支网络的模型参数。

其中，处理单元1022的具体实现可以参见图4a所示实施例中S302a和S302b相关内容描述，在此不再赘述。

在一种可能的设计中，处理单元1022，具体用于：将第二训练样本分为至少一个第二训练样本组。其中，第二训练样本组包括第二正类样本和第二负类样本。第二正类样本包括标识第二标签的图像，第二负类样本包括未标识第二标签的图像，第二标签指示至少一种穿戴样式中的一种穿戴样式。采用第二训练样本组进行模型训练，修正分支网络的模型参数。

其中，处理单元1022的具体实现可以参见图4b所示实施例中S303a和S303b相关内容描述，在此不再赘述。

根据本申请实施例的服装规范化检测装置1020可对应于执行本申请实施例中描述的方法，并且服装规范化检测装置1020中的各个模块的上述和其它操作和/或功能分别为了实现图3、图4a、图4b、图5、图9中的各个方法的相应流程，为了简洁，在此不再赘述。

另外需说明的是，以上所描述的实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，模块之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。

本申请实施例还提供了一种第二设备102，用于实现上述图1所示的系统架构图中服装规范化检测装置1020的功能。其中，第二设备102可以是物理设备或物理设备集群，也可以是虚拟化的云设备，如云计算集群中的至少一个云计算设备。为了便于理解，本申请以第二设备102为独立的物理设备对该第二设备102的结构进行示例说明。

图11提供了一种第二设备102的结构示意图，如图11所示，第二设备102包括总线1101、处理器1102、通信接口1103和存储器1104。处理器1102、存储器1104和通信接口1103之间通过总线1101通信。总线1101可以是外设部件互连标准(peripheral componentinterconnect，PCI)总线或扩展工业标准结构(extended industry standardarchitecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口1103用于与外部通信。例如，获取视频帧图像和参考图像等。

其中，处理器1102可以为中央处理器(central processing unit，CPU)。存储器1104可以包括易失性存储器(volatile memory)，例如随机存取存储器(random accessmemory，RAM)。存储器1104还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，硬盘驱动器(hard disk drive，HDD)或固态盘(solid-state disk，SSD)。

存储器1104中存储有可执行代码，处理器1102执行该可执行代码以执行前述服装规范化检测方法。

具体地，在实现图1所示实施例的情况下，且图1实施例中所描述的服装规范化检测装置1020的各模块为通过软件实现的情况下，执行图1中的获取单元1021、处理单元1022功能所需的软件或程序代码存储在存储器1104中。处理器1102执行存储器1104中存储的各模块对应的程序代码，如获取单元1021和处理单元1022对应的程序代码，以提取出参考子图和视频帧子图，进而得到第一处理结果。如此，通过计算目标对象的第一穿戴样式与参考对象的标准穿戴样式之间的相似度，从而实现服装规范化检测。

当然，执行显示单元1023功能所需的代码也可以存储在存储器1104中。处理器1102还可以执行显示单元1023功能所需的程序代码，以使显示单元1023向用户提供可视化信息，以方便用户浏览服装规范化检测结果。

本申请实施例还提供了一种计算机可读存储介质，该计算机可读存储介质包括指令，所述指令指示第二设备102执行上述应用于服装规范化检测装置1020的服装规范化检测方法。

本申请实施例还提供了一种计算机程序产品，所述计算机程序产品被计算机执行时，所述计算机执行前述街道的异常事件检测方法的任一方法。该计算机程序产品可以为一个软件安装包，在需要使用前述街道的异常事件检测方法的任一方法的情况下，可以下载该计算机程序产品并在计算机上执行该计算机程序产品。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。但是，对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在可读取的存储介质中，如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，训练设备，或者网络设备等)执行本申请各个实施例所述的方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、训练设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、训练设备或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的训练设备、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质等。

Claims

1.一种服装规范化检测方法，其特征在于，包括：

获取视频帧子图和参考子图，其中，所述视频帧子图来自第一场景的视频帧图像，所述视频帧图像包括目标对象的图像，所述视频帧子图包括所述目标对象的目标部位在所述第一场景下第一穿戴样式的图像；所述参考子图来自所述第一场景的目标参考集，所述目标参考集中包括参考对象的图像，所述参考子图包括所述参考对象的所述目标部位在所述第一场景下标准穿戴样式的图像；

采用目标模型处理所述视频帧子图和所述参考子图，得到第一处理结果，其中，所述目标模型是经过训练的人工智能AI模型，所述第一处理结果指示所述目标对象的第一穿戴样式与所述参考对象的标准穿戴样式的相似度。

2.根据权利要求1所述的方法，其特征在于，所述获取参考子图，包括：

获取所述目标参考集；

检测所述目标参考集中的图像，得到第一检测结果，其中，所述第一检测结果包括以下至少一项：所述目标参考集中所述参考对象的所述目标部位的骨骼关节点、或第一指示信息；所述第一指示信息指示所述参考对象的所述目标部位在所述目标参考集的图像中的区域；

确定所述第一检测结果的置信度，其中，所述置信度指示所述第一检测结果的可信程度；

根据所述第一检测结果的置信度，从所述目标参考集的图像中提取所述参考子图。

3.根据权利要求2所述的方法，其特征在于，

所述参考子图包括所述第一指示信息所指区域的图像，且位于所述第一指示信息所指区域中的骨骼关节点的置信度满足第一预设条件。

4.根据权利要求1至3任一项所述的方法，其特征在于，所述获取视频帧子图，包括：

获取所述视频帧图像；

检测所述视频帧图像，得到第二检测结果，其中，所述第二检测结果包括以下至少一项：所述视频帧图像中所述目标对象的所述目标部位的骨骼关节点、或第二指示信息；所述第二指示信息指示所述目标对象的所述目标部位在所述视频帧图像中的区域；

确定所述第二检测结果的置信度，其中，所述置信度指示所述第二检测结果的可信程度；

根据所述第二检测结果的置信度，从所述视频帧图像中提取所述视频帧子图。

5.根据权利要求4所述的方法，其特征在于，

所述视频帧子图包括所述第二指示信息所指区域的图像，且位于所述第二指示信息所指区域中的骨骼关节点的置信度满足第二预设条件。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述目标参考集包括以下至少一项：

所述参考对象的标准穿戴样式在至少一种角度下的图像、或所述参考对象的标准穿戴样式在至少一种亮度下的图像。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述目标参考集是基于验证集中穿戴图像之间的相似度更新后的参考集；

其中，所述验证集包括以下至少一项：验证对象的所述目标部位在所述第一场景中至少两种角度下的穿戴图像、或所述验证对象的所述目标部位在所述第一场景中至少两种亮度下的穿戴图像。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述方法还包括：

采用所述目标模型处理第一候选集和验证集，得到第二处理结果，其中，所述第一候选集是候选集中的一个集合，所述候选集包括所述目标参考集；所述验证集包括以下至少一项：验证对象的所述目标部位在所述第一场景中至少两种角度下的穿戴图像、或所述验证对象的所述目标部位在所述第一场景中至少两种亮度下的穿戴图像；所述第二处理结果是以所述第一候选集为参考确定的所述验证集中所述穿戴图像之间的相似度；

根据所述第二处理结果指示的相似度，确定所述第一候选集为所述目标参考集。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述方法还包括：

通过显示单元向用户提供可视化信息，其中，所述可视化信息包括以下至少一项：

所述第一处理结果指示的相似度；

标识所述第一处理结果的相似度低于第一阈值的目标对象；

标识所述第一处理结果的相似度低于第二阈值的目标部位。

10.一种服装规范化检测装置，其特征在于，包括：

获取单元，用于获取视频帧子图和参考子图，其中，所述视频帧子图来自第一场景的视频帧图像，所述视频帧图像包括目标对象的图像，所述视频帧子图包括所述目标对象的目标部位在所述第一场景下第一穿戴样式的图像；所述参考子图来自所述第一场景的目标参考集，所述目标参考集中包括参考对象的图像，所述参考子图包括所述参考对象的所述目标部位在所述第一场景下标准穿戴样式的图像；

处理单元，用于采用目标模型处理所述视频帧子图和所述参考子图，得到第一处理结果，其中，所述目标模型是经过训练的人工智能AI模型，所述第一处理结果指示所述目标对象的第一穿戴样式与所述参考对象的标准穿戴样式的相似度。

11.根据权利要求10所述的装置，其特征在于，所述获取单元，具体用于：

获取所述目标参考集；

12.根据权利要求11所述的装置，其特征在于，

13.根据权利要求10至12任一项所述的装置，其特征在于，所述获取单元，具体用于：

获取所述视频帧图像；

14.根据权利要求13所述的装置，其特征在于，

15.根据权利要求10至14任一项所述的装置，其特征在于，所述目标参考集包括以下至少一项：

16.根据权利要求10至15任一项所述的装置，其特征在于，所述目标参考集是基于验证集中穿戴图像之间的相似度更新后的参考集；

17.根据权利要求10至16任一项所述的装置，其特征在于，所述处理单元，还用于：

18.根据权利要求10至17任一项所述的装置，其特征在于，所述装置还包括：

显示单元，用于向用户提供可视化信息，其中，所述可视化信息包括以下至少一项：

所述第一处理结果指示的相似度；

标识所述第一处理结果的相似度低于第一阈值的目标对象；

标识所述第一处理结果的相似度低于第二阈值的目标部位。

19.一种设备，其特征在于，包括：处理器和存储器，所述处理器和所述存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时，如权利要求1至9中任一项所述的服装规范化检测方法被执行。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储程序，所述程序被处理器调用时，权利要求1至9中任一项所述的服装规范化检测方法被执行。