CN113837154A

CN113837154A - 一种基于多任务辅助的开放集过滤系统及方法

Info

Publication number: CN113837154A
Application number: CN202111411082.5A
Authority: CN
Inventors: 苏慧; 程乐超; 宋明黎
Original assignee: Zhejiang Lab
Current assignee: Zhejiang Lab
Priority date: 2021-11-25
Filing date: 2021-11-25
Publication date: 2021-12-24
Anticipated expiration: 2041-11-25
Also published as: CN113837154B

Abstract

本发明公开了一种基于多任务辅助的开放集过滤系统及方法，用于解决监控场景下属性分类过程中的开放集干扰问题。该系统包括图像划分层、池化层和全连接层，图像划分层与池化层之间的每个网络阶段，包括固定窗口多头自注意力机制块和移动窗口多头自注意力机制块，将每个网络阶段的固定窗口多头自注意力机制块串联；该方法利用transformer能够实现全网络感受野不变的特点，在构建的属性分类网络上，加入分割分支实现图像块分割，利用图像块分割过滤属性分类中的开放集，针对图像块分割过程中背景、前景数量不均衡问题，实施一种新的基于特征增广的惩罚公式，提升图像块分割分支前景、背景的识别效果。

Description

一种基于多任务辅助的开放集过滤系统及方法

技术领域

本发明涉及图像分类领域，尤其是涉及存在开放集（openset）条件下图像分类的系统及方法。

背景技术

计算机视觉领域已经广泛应用到各行各业。目前应用中，绝大多数的视觉算法都采用了封闭集的评估方式，即神经网络训练时已知所有的测试类别。然而在实际视觉应用中，待评估数据类别往往会出现未知的情形，极大影响视觉算法的应用效果。例如监控安防场景中的属性报警应用：建筑工地工人安全帽佩戴、着装规范报警应用中，报警执行流程为先检测并跟踪场景中的目标，对目标进行属性分类，当属性类别不符合设定要求时进行报警操作。检测不可避免存在误检情况，将背景误判为目标，输入分类网络中。分类网络仅对前景目标图片进行属性分类的训练，从未见过、从未训练背景图片，对背景图片的网络分类能力差，甚至无法判断背景图片的属性类别是否存在，这必将导致报警系统中频繁误报或频繁漏报的情形发生。

对神经网络而言未知类别对应的数据，称之为开放集数据。如何实现对开放集数据的判断和过滤，从而提升神经网络的应用效果，在近几年得到了大量关注。目前最常见的开放集判断算法，是计算测试数据经过分类器后的特征与各个类别聚类中心特征的距离，利用特征距离的远近判断是否是开放集，如：OpenMax算法、G-OpenMax算法和CROSR算法，都是基于该方法做出的改进。然而开放集数据的缺失，使得判断距离远近的决策边界的制定难以精准，从而导致这类方法离真实落地还有一定距离。同时，在监控场景的属性分类问题中，如何有效利用已有数据挖掘更多的开放集信息，从而有效识别开放集，研究得相对较少。

发明内容

为解决现有技术的不足，实现过滤开放集的目的，本发明采用如下的技术方案：

一种基于多任务辅助的开放集过滤方法，包括如下步骤：

S1，构建属性多标签分类网络，基于transformer分类网络，利用transformer网络输入为图像块，且能够保持多个层感受野不变的特点，构建图像块分割网络分支，用于同时支持图像多标签属性分类和图像块分割；

S2，图像块分割网络中，将待预测属性分类的目标作为前景，其余作为背景；

S3，预测过程中，通过待预测属性分类的图像中，所有图像块前景像素数，判断图像是否有前景目标，当有前景目标时，输出属性结果，否则，不输出结果。

进一步地，S1中训练数据集

的每个样本图像，对应

个属性分类标签、前景背景分割标签，

表示第

个样本图像，

表示第

个样本图像的属性分类标签，

表示属性集，

表示第

个样本图像的分割标签，S表示行人（前景）、非行人（背景）的分割，

表示样本图像的数量，多任务的网络结构同时得出属性分类

和分割结果

，

包含第

个样本图像所有属性的测试结果，

包含第

个样本图像所有像素的分割结果，根据以下损失函数对

对应的多个属性结果和分割结果进行训练：

其中，

表示第

个属性，

表示第

个样本图像的第

个属性的真值，

表示第

个样本图像第

个属性的测试结果，

表示超参数，用于平衡分类损失和分割损失，

和

分别表示样本图像的宽和高，

表示第

个样本图像的第

行、第

列的分割真值，

表示第

个样本图像第

行、第

列像素的分割结果，

为

的独热编码形式，

为

的独热编码形式，

表示网络测试结果，

表示网络映射函数，

表示网络参数。

进一步地，S2中由于分类图像中背景图像块数量少而种类多，前景目标部件图像块数量多而种类少，针对前景、背景的特定特性和差异，提出一种新的基于特征增广的惩罚公式，进行图像块分割，提高图像块分割能力，特征增广的惩罚公式

如下：

其中，

为所有真值为背景（0值）的位置的分割特征平均值，

表示真值为背景的特征数，

和

分别表示图像块分割特征的宽和高，

表示第

行、第

列位置的分割特征，

表示第

行、第

列位置的分割真值，

表示所有真值为前景（1值）的位置的分割特征平均值，

表示真值为前景的特征数，

表示特征增广后得到的第

行、第

列分割测试结果，

表示网络分割分支最后一层的映射，

表示网络分割分支最后一层参数，

表示控制特征增广的超参数。

进一步地，训练过程中，

为0到0.2之间随机取值。

进一步地，S3中通过待属性分类的图像中，所有图像块前景像素数的占比情况，判断图像是否有前景目标，公式如下：

其中，

、

分别表示网络判断为前景、背景的像素数目，

表示图像中所有图像块前景像素数的占比，

表示网络分割分支的误差冗余。为防止分割误差影响分类精度，通过设置分割分支的误差冗余，当未超过误差冗余时，直接设置前景像素数占比为0。

进一步地，transformer网络是swin transformer结构。

进一步地，输入属性多标签分类网络前，重塑训练集数据的尺寸，包括样本图像的宽、高。

进一步地，图像块分割网络，将图像划分为

*

个高、宽均为

的图像块，对每个图像块进行全局特征分析，完成图像块分割。

一种基于多任务辅助的开放集过滤系统，包括transformer分类网络，基于transformer分类网络构建图像块分割网络，用于同时支持图像多标签属性分类和图像块分割，预测过程中，图像块分割网络将待预测属性分类的目标作为前景，其余作为背景，通过待预测属性分类的图像中，所有图像块前景像素数，判断图像是否有前景目标，当有前景目标时，输出属性结果，否则，不输出结果。

进一步地，transformer分类网络采用swin transformer结构，包括图像划分层、池化层和全连接层，所述图像划分层与池化层之间的每个网络阶段（stage），包括固定窗口多头自注意力机制块（W-MSA）和移动窗口多头自注意力机制块（SW-MSA），将每个网络阶段的固定窗口多头自注意力机制块串联，作为图像块分割网络，固定窗口多头自注意力机制块用于操作每个图像块内部特征，移动窗口多头子注意力机制块用于图像块之间特征的关联分析。

本发明的优势和有益效果在于：

本发明主要解决当前基于深度神经网络的图像分类任务中，对存在开放集的图像数据进行属性分类的问题。现有的卷积神经网络主要解决已知类别的闭合集数据，难以处理类别未知的开放集数据，目前常用的开放集判断方法大都未考虑挖掘已有数据中的开放集信息，且效果受限于决策边界制定的准确性。本发明利用transformer能够实现全网络感受野不变的特点，在构建的属性分类网络上，加入分割分支实现图像块分割，利用图像块分割识别背景像素，挖掘数据中的开发集信息，在属性分类过程中过滤开放集，从而解决了监控场景下属性分类过程中的开放集干扰问题。针对数据图片中前景、背景种类和数量不均衡对图像块分割的干扰，本发明实施了一种新的基于特征增广的惩罚公式，提高图像块分割能力。

附图说明

图1是本发明方法的流程图。

图2是本发明中行人闭合集数据。

图3是本发明中非行人开放集数据。

图4是本发明中监控场景下的属性分类的数据集示意图。

图5是本发明系统的结构示意图。

图6是本发明中行人分割比较图。

图7是本发明中非行人分割比较图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

基于多任务辅助的开放集过滤方法，本方法使用Pytorch框架进行实验，在Swin-Transformer基础上扩增图像块分割分支，构建网络模型，使用初始学习率为0.001的AdamW优化器与余弦退火调度器。训练80000次迭代，批处理大小为16，图像尺寸为448*448，前1000次迭代使用warmup（预热）操作。实验均为从零开始训练。如图1所示，包括如下步骤：

步骤S1：使用swin transformer结构构建属性多标签分类网络，在分类网络基础上，利用transformer网络输入为图像块，且能够保持多个层感受野不变的特点，构建新的分割分支，实现同时支持图像多标签属性分类和图像块分割的多任务功能。

给定

个样本图像的训练集数据，训练集数据主要使用market1501公开数据集，共12936张；测试挑选market1501测试集中人体相对完整的图片1k张作为闭合集，如图2所示。market1501测试集中非常不完整的图像以及ImageNet测试集中随机挑出非人体数据1k张作为开放集，如图3所示。Market1501数据集使用5个高清摄像头和1个低清摄像头拍摄19732张数据，共拍摄1501个行人。训练数据中每个样本图像对应

个属性（K=7包括性别、年龄、发型、帽子、上衣颜色、下衣颜色、背包，如图4所示）分类标签、前景背景分割标签：

，

为样本图像，

为属性分类标签，C表示属性集，

为分割标签，S表示行人（前景）、非行人（背景）的分割。

和

分别用于表示样本图像的宽和高（网络输入前，将训练集数据的宽、高都resize到448。因此

，

），网络测试结果为

，其中

为网络参数，

为网络映射函数，多任务的网络结构同时跑出属性分类

和分割结果

，

包含第

个样本所有属性的测试结果，

包含第

个样本所有像素的分割结果。则根据以下损失函数判断

对应的多个属性结果和分割结果。

其中

为第

个样本图像，

表示第

个属性，

表示第

个样本的第

个属性的真值，

为第

个样本的第

行、第

列的分割真值。

表示第

个样本第

个属性的测试结果，

表示第

个样本第

行、第

列像素的分割结果，

为

的独热编码形式，

为

的独热编码形式。

构建的网络模型如图5所示，实现图像分类功能的transformer的网络输入本身是图像块，且swin transformer的每个网络阶段（stage）由固定窗口多头自注意力机制块（W- MSA）和移动窗口多头自注意力机制块（SW-MSA）组成。其中固定窗口多头自注意力机制，仅操作每个图像小块内部特征，图像块之间特征的关联分析操作在每个阶段的第二个块，即移动窗口多头子注意力机制块实现。将swin transformer的每个网络阶段的固定窗口多头自注意力机制块串联一起，构建图像块分割分支，将图像划分看作

*

个宽为

，本发明将图像四等分，k=2，图像块高、宽都是224，高为

的图像小块，对每个图像块进行全局特征分析从而实现图像块分割功能。

步骤S2：图像块分割网络分支中，将待测试属性目标作为前景，其余作为背景。分类图像中背景图像块数量少而背景种类多，前景目标部件图像块数量多而种类少。针对前景、背景的特定特性和差异，提出一种新的基于特征增广的惩罚公式提高图像块分割能力：

其中

为第

行、第

列位置的分割特征，

为所有真值为背景（0值）的位置的分割特征平均值，

为所有真值为前景（1值）的位置的分割特征平均值，表示真值为背景的特征数，

表示真值为前景的特征数，

和

分别为图像块分割特征的宽和高（值都为 224），

为第

行、第

列位置的分割真值，

为网络分割分支最后一层的映射，

为网络分割分支最后一层参数，

为控制特征增广的超参数，训练过程中在0到0.2之间随机取值，

为特征增广后得到的第

行、第

列分割测试结果。

为特征增广的惩罚公式。

步骤S3：测试过程中，利用待属性分类的图像中所有图像块前景像素数的占比情况，判断图像是否有前景目标，如果有，输出属性结果；如果没有，不输出结果。

其中，

、

分别表示网络判断为前景、背景的像素数目，

为图像中所有图像块前景像素数的占比。

表示网络分割分支的误差冗余。

如图6、7所示，图片都resize到448*448的大小。图6中包含行人，前景（行人）像素数目为122113，背景（非人）像素数目为78591，图像块前景像素的占比

为60.84%；图7中不包含行人，但是因为网络分割误差，导致分割图中包含行人像素，行人像素数目为10443，背景像素为190261，图像的前景像素占比

为5.20%。为防止分割误差影响分类精度，本发明设分割分支的误差冗余为10%，若图像的前景像素

占比小于10%，直接设置

。

测试准确率效果：

使用监控下行人数据作为闭合集，使用监控下非行人数据、imagenet公开集中的非行人数据作为开放集。开放集和闭合集各随机挑选1k张，比对使用openmax和本发明方法对开放集、闭合集判断的准确率情况，结果如表1所示。

表1 openmax与本发明方法结果比对表格

	Openmax_d0	Openmax_d1	Openmax_d2	Openmax_d3	Openmax_d4	本发明方法
							准确率	62.57%	65.76%	66.19%	66.55%	68.84%	81.23%

Openmax方法中，计算训练集所有数据与类特征中心的最小、最大特征距离。 Openmax_d0、Openmax_d1、Openmax_d2、Openmax_d3、Openmax_d4分别表示在最小特征距离、最大特征距离中间，等间隔采样特征距离

，作为开放集、闭合集判断依据。公式如下所示：

；

其中，

表示样本特征与类特征中心的距离。

从表1可以看出，本发明方法因为在分割分支中充分利用数据中的背景信息，使得对开放集数据判断能力有明显提升，能够有效过滤开放集数据。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于多任务辅助的开放集过滤方法，其特征在于包括如下步骤：

S1，构建属性多标签分类网络，基于transformer分类网络构建图像块分割网络分支，用于同时支持图像属性分类和图像块分割；

S3，预测过程中，通过待预测属性分类的图像中，图像块前景像素数，判断图像是否有前景目标，当有前景目标时，输出属性结果。

2.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于所述S1中，训练数据集

的每个样本图像，对应

个属性分类标签、前景背景分割标签，

表示第

个样本图像，

表示第

个样本图像的属性分类标签，

表示属性集，

表示第

个样本图像的分割标签，S表示前景、背景的分割，

表示样本图像的数量，多任务的网络结构同时得出属性分类

和分割结果

，

包含第

个样本图像所有属性的测试结果，

包含第

个样本图像所有像素的分割结果，根据以下损失函数对

对应的多个属性结果和分割结果进行训练：

其中，

表示第

个属性，

表示第

个样本图像的第

个属性的真值，

表示第

个样本图像第

个属性的测试结果，

表示超参数，用于平衡分类损失和分割损失，

和

分别表示样本图像的宽和高，

表示第

个样本图像的第

行、第

列的分割真值，

表示第

个样本图像第

行、第

列像素的分割结果，

为

的独热编码形式，

为

的独热编码形式，

表示网络测试结果，

表示网络映射函数，

表示网络参数。

3.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于所述S2中，基于特征增广的惩罚，进行图像块分割，特征增广的惩罚公式

如下：

其中，

为真值为背景的位置的分割特征平均值，

表示真值为背景的特征数，

和

分别表示图像块分割特征的宽和高，

表示第

行、第

列位置的分割特征，

表示第

行、第

列位置的分割真值，

表示真值为前景的位置的分割特征平均值，

表示真值为前景的特征数，

表示特征增广后得到的第

行、第

列分割测试结果，

表示网络分割分支最后一层的映射，

表示网络分割分支最后一层参数，

表示控制特征增广的超参数。

4.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于训练过程中，

为0到0.2之间随机取值。

5.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于所述S3中，通过待属性分类的图像中，图像块前景像素数的占比，判断图像是否有前景目标，公式如下：

其中，

、

分别表示网络判断为前景、背景的像素数目，

表示图像中图像块前景像素数的占比，

表示网络分割分支的误差冗余。

6.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于所述transformer网络是swin transformer结构。

7.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于输入属性多标签分类网络前，重塑训练集数据的尺寸。

8.根据权利要求1所述的一种基于多任务辅助的开放集过滤方法，其特征在于所述图像块分割网络，将图像划分为

*

个高、宽均为

9.一种基于多任务辅助的开放集过滤系统，包括transformer分类网络，其特征在于基于transformer分类网络构建图像块分割网络，用于同时支持图像多标签属性分类和图像块分割，预测过程中，图像块分割网络将待预测属性分类的目标作为前景，其余作为背景，通过待预测属性分类的图像中，图像块前景像素数，判断图像是否有前景目标，当有前景目标时，输出属性结果。

10.根据权利要求9所述的种基于多任务辅助的开放集过滤系统，所述transformer分类网络采用swin transformer结构，包括图像划分层、池化层和全连接层，其特征在于所述图像划分层与池化层之间的每个网络阶段，包括固定窗口多头自注意力机制块和移动窗口多头自注意力机制块，将每个网络阶段的固定窗口多头自注意力机制块串联，作为图像块分割网络，固定窗口多头自注意力机制块用于操作每个图像块内部特征，移动窗口多头子注意力机制块用于图像块之间特征的关联分析。