CN114882273A

CN114882273A - 应用于狭小空间的视觉识别方法、装置、设备和存储介质

Info

Publication number: CN114882273A
Application number: CN202210434725.6A
Authority: CN
Inventors: 董乐; 张宁; 赵浩然
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-04-24
Filing date: 2022-04-24
Publication date: 2022-08-09
Anticipated expiration: 2042-04-24
Also published as: CN114882273B

Abstract

本申请涉及视觉识别技术领域，公开了一种应用于狭小空间的视觉识别方法、装置、设备和存储介质，所述方法包括：将待识别图像输入完成联合训练的特征提取器和第一分类器，获得第一分类器输出的待识别图像在各类别下的分类概率；将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块，获得平衡特征；将平衡特征输入第二分类器，获得待识别图像的识别结果。本申请解决了在对狭小空间内呈长尾分布的待识别图像数据进行视觉识别时，会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性的问题。

Description

应用于狭小空间的视觉识别方法、装置、设备和存储介质

技术领域

本申请涉及视觉识别技术领域，具体是指一种应用于狭小空间的视觉识别方法、装置、设备和存储介质。

背景技术

在视觉识别技术领域，视觉识别任务往往是通过具体的视觉识别模型完成的，具体是通过将采集获得的待识别图像数据输入到视觉识别模型中，再通过视觉识别模型输出识别结果。但是对于在狭小空间场景下的视觉识别任务，比如无人机、无人车在避障、导航过程中对室内狭小空间场景中物体的视觉识别任务，由于狭小空间下的物体样本分布自然呈现长尾分布形态，在对狭小空间下收集的待识别图像数据进行识别时，会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性。

申请内容

基于以上技术问题，本申请提供了一种应用于狭小空间的视觉识别方法、装置、设备和存储介质，解决了在对狭小空间内呈长尾分布的待识别图像数据进行视觉识别时，会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性的问题。

为解决以上技术问题，本申请采用的技术方案如下：

一种应用于狭小空间的视觉识别方法，包括：

将待识别图像输入完成联合训练的特征提取器和第一分类器，获得第一分类器输出的待识别图像在各类别下的分类概率；

将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块，获得平衡特征；

将平衡特征输入第二分类器，获得待识别图像的识别结果；

其中，获取第二分类的方法包括：

获取无参数的第二分类器，第二分类器的结构与第一分类器相同；

提取完成联合训练的第一分类器中的权重参数，并对权重参数进行归一化平衡操作；

将归一化平衡操作后的权重参数赋值到无参数的第二分类器中，获得最终的第二分类器。

一种应用于狭小空间的视觉识别装置，包括：

第一分类识别模块，第一分类识别模块用于将待识别图像输入完成联合训练的特征提取器和第一分类器，获得第一分类器输出的待识别图像在各类别下的分类概率；

平衡特征获取模块，平衡特征获取模块用于将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块，获得平衡特征；

第二分类识别模块，第二分类识别模块用于将平衡特征输入第二分类器，获得待识别图像的识别结果；

其中，获取第二分类的方法包括：

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行上述应用于狭小空间的视觉识别方法的步骤。

与现有技术相比，本申请的有益效果是：

上述应用于狭小空间的视觉识别方法、装置、设备和存储介质，通过在特征提取阶段融合进因果干预操作，对长尾分布的待识别图像数据的头尾部类数据，尤其是尾部类数据进行类似困难样本挖掘的调整方法，去除了混杂因子对于表征学习的影响。以及在特征分类阶段采取温和的头尾部类数据特征归一化平衡操作，减弱了头部类数据和尾部类深度在识别决策边界上的巨大差异。从而通过在表征学习阶段进行平衡操作，使得在不需要人工对数据进行类别均衡操作时也能得到鲁棒的特征，并在视觉识别任务上取得符合要求的表现，提高了相应视觉识别模型的识别准确性。

此外，由于减少了长尾数据由于类别数据不均衡问题带来的人工类别均衡操作的需求，本申请还实现了视觉识别模型训练阶段，将呈长尾分布的训练数据在视觉识别模型的直接使用，由此减少了训练数据准备阶段的时间成本和人力成本，提高了训练数据采集阶段的效率。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。其中：

图1为应用于狭小空间的视觉识别方法的流程示意图。

图2为获取所述第二分类的方法的流程示意图。

图3为联合训练特征提取器和第一分类器的方法的流程示意图。

图4为因果干预涉及的结构因果模型(SCM)的示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

参阅图1，在一些实施例中，一种应用于狭小空间的视觉识别方法，包括：

S101，将待识别图像输入完成联合训练的特征提取器和第一分类器，获得第一分类器输出的待识别图像在各类别下的分类概率；

具体的，待识别图像是指在狭小空间内采集的需要识别的图像数据。

具体的，对于待识别图像，其是属于类别总数M中的其中一类，在第一分类器对其进行识别分类时，第一分类器输出的结果是p₁,…,_m，其中，p_m表示待识别图像属于类别m的概率。

具体的，特征提取器可以选择ResNet-10网络、ResNeXt-50网络或更大的ResNeXt-152网络。

具体的，第一分类器为线性多层感知机。

具体的，对于特征提取器和第一分类器也可以现有的视觉识别模型，后续可以在现有视觉识别模型上进行叠加改进，即在现有视觉识别模型上增设因果干预策略模块和第二分类器，具有较高的可嫁接性，具备优良的重复利用性和可嵌入性。

S102，将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块，获得平衡特征；

其中，因果干预策略模块的目的去除待识别图像在视觉识别过程中的混杂因子，以保证待识别图像最终识别结果的准确性。

其中，平衡特征的具体公式为：

其中，c表示平衡特征，M表示识别分类的类别总数，i表示类别总数M中的第i个类别，p_p表示待识别图像属于类别i的分类概率，μ_p表示类别i的平均特征。

具体的，以下将对利用平衡特征c去除待识别图像在视觉识别过程中的混杂因子的具体原理进行说明：

首先，可知在视觉识别模型训练阶段，训练集S中的混杂因子(“类别”)可以采用Judea Pearl提出的后门调整公式进行去除，后门调整公式如下：

其中，X、Y指的是在类别均衡的测试集上的输入和输出；输入的是样本x的图片信息；输出是样本x的所属类别信息Y。视觉识别任务下模型的目标就是正确度量P(Y|X)，即使用训练后得到的模型识别实际狭小空间下的物体样本x的正确类别(此过程可用类别平衡的测试集进行模拟)。而混杂因子会对视觉识别模型正确地度量输入X和输出Y的关系(此关系可用条件概率P(Y|X)表示)起到负面作用，所以应该去除混杂因子。

其中，后门调整公式的目的，便在于去除训练数据中的混杂因子。而对于长尾分布的数据最明显的混杂因子就是“类别”，所以先对“类别”进行去混杂操作，后续的基于特征的调整可以看作一种补偿机制。因为无法完全发掘所有的混杂因子，同时由于在去混杂部分混杂因子后，效果会逐步提升。所以在去混杂操作了“类别”之后，在长尾数据集上学到的特征维度上进一步去混杂操作，是对学到的特征中的其他混杂因子的一种“去混杂”操作，可以将之看作是一种补偿措施。

其中，D是通过训练集S在联合训练阶段得到的特征提取器的参数，可以看作一种先验知识，C是测试集中的样本x在特征提取器的参数的参数空间(可以看作一种知识D的流形)上的投影。

其中，上述公式对应到的结构因果模型(SCM)示意图如图4所示。

设训练集S中的类别数为m，表示成B＝{b1,...,bm}，“混杂因子D”在本实施例中被定义为D:＝{d1,...,dm}，即di＝bi，即类别就是混杂因子。

具体的，下面给出上述后门公式各部分的计算方法：

首先，

其中P(bi|x)是联合训练的分类器输出的样本x属于类别bi的概率，

是训练集S中属于类别bi的所有样本的平均特征；

然后，继续推导地，P(Y|X,D,C)＝P(Y|g(x,di))；

其中，

m表示数据集S的总类别数，P(di)值为

即对每个类别均匀采样。

上述的类别级别的后门调整可以整体表示为：

上述公式在建模实现上使用归一化加权几何平均(NWGM)进行近似计算，将条件概率外的累加移到了条件概率内部，得到如下公式：

上述过程是对因果干预策略模块的建模方法的理论推导，最后得到的公式对应的就是之前计算平衡特征c的公式，这里省去

相当于对所有权重同时增大，所以对权重间的大小关系不作改变，且使得公式更简洁，故隐去，最终得到平衡特征公式：

S103，将平衡特征输入第二分类器，获得待识别图像的识别结果；

具体的，第二分类器为线性多层感知机。

具体的，第二分类器输出的待识别图像的识别结果，是将第二分类器输出的最大的概率值对应的类别作为识别结果。

参阅图2，优选的，获取第二分类的方法包括：

S201，获取无参数的第二分类器，第二分类器的结构与第一分类器相同；

S202，提取完成联合训练的第一分类器中的权重参数，并对权重参数进行归一化平衡操作；

具体的，对权重参数进行归一化平衡操作的具体公式为：

其中，

表示归一化权重参数，w_i∈R^d是分类器中类别i对应的权重参数，||·||代表L2归一化操作；

其中，归一化平衡操作后的权重参数矩阵的具体公式为：

其中，

表示归一化权重参数矩阵。

具体的，在归一化平衡操作之后，第二分类器的输出变为以下形式：

其中，

表示分类器的输出结果，f(x)表示分类器最后一层的输入，x表示输入的样本图像。

注意到这里与传统的操作相比去掉了偏移项b，因为在这里偏移项不管是对于分类器的输出还是对最终识别任务的结果的影响都很小，所以将之省略。

S203，将归一化平衡操作后的权重参数赋值到无参数的第二分类器中，获得最终的第二分类器。

参阅图3，在一些实施例中，联合训练特征提取器和第一分类器的方法包括：

S301，获取训练集，训练集由多个呈长尾分布的训练图像组成；

其中，长尾分布的训练集是指训练集中某一些类别训练图像的样本数占总样本数的大多数，称为头部类数据，而另一些类别训练图像的样本数占总样本数的少数，称为尾部类数据。

优选的，获取训练集包括：获取自然呈现长尾分布的数据集；对数据集进行实例均衡采样，得到训练集；

其中，如果采集的数据集的样本数据较多，那么就需要从数据集中选取一部分样本数据作为训练集用于特征提取器和第一分类器的训练。在本实施例中，训练集的采样采用实例均衡采样算法进行选取，得到的训练集与数据集相同，也是呈现长尾分布。

具体的，实例均衡采样的具体公式为：

其中，C表示数据集中的样本类别总数，i表示样本类别总数C中的第i个类别，j表示样本类别总数C中的第j个类别，

表示数据集中属于类别j的样本图像数量，

表示数据集中属于类别i个的样本图像数量，q是一个指数参数，设定为1,p_j表示从类别j中采集一个样本图像的分类概率。

因此，实例均衡采用按照概率p_j对每个类别中的样本图像进行选择，然后再对数据集内部的数据均匀采样。这样从类别j中采样出样本图像的概率是按照各类别样本图像数量占样本图像总数的比例进行。换句话说，整个长尾分布的数据集中每一个样本图像被采样出到训练集的概率是相等的。

S302，将训练图像输入待训练的特征提取器，提取训练图像的样本特征；

S303，将样本特征输入待训练的第一分类器，得到训练图像的分类结果；

S304，根据分类结果与训练图像的类别信息，获取误差信息；

S305，基于误差信息对特征提取器和第一分类器进行优化，得到训练完成的特征提取器和第一分类器。

本实施例中，由现有技术可知，对于视觉识别模型的构建，是通过采集相应的训练集数据训练完成的。在传统的视觉识别模型构建过程中，直接使用呈现长尾分布的训练集数据会使得到的视觉识别模型更偏向于头部类，即在类别均衡的测试集上的头部类的分类结果会更好，而尾部类的结果很差。为解决上述问题，通常在训练时使用数据类别的分布往往都受到了人工的均衡，即不同类别的训练样本数据数量无明显差异。使用均衡后的训练数据固然大大简化了对算法鲁棒性的要求，也一定程度上保障了训练得到的视觉识别模型的可靠性，但随着关注类别数量的逐渐增加，维持各个类别数据之间均衡就将带来指数级别增长的数据采集成本。

因此，又通过采用以下方式，用来解决上述训练数据采集效率低和成本高的问题。

第一类是在数据分布上的重采样策略，比如对头部类数据的下采样和对尾部类数据的过采样，但是这种方法存在数据集的充分利用问题，头部类数据的下采样使得数据采集阶段时的一些成本付出没有得到充分利用，尾部类数据的上采样又有样本分布于原始分布差异的问题；

第二类是重加权，即在训练阶段对损失函数的处理上，不同于重采样，重加权的方法因为损失函数计算的灵活性和简便性的优势，在很多需要用到复杂建模方式的下游任务上实施更加方便而得到广泛使用，但重加权的视觉识别模型其可解释性不强；

第三种是迁移学习，这种方式是立足于长尾数据的不平衡分布，充分学习头部类数据的样本，并将学到的知识使用到尾部类数据的特征学习之中，比如利用头部类数据的分布知识来进行尾部类数据的样本增强，但这种方式往往需要额外的记忆模块，且模型复杂。

而由于本申请在视觉识别阶段可以排除长尾数据的影响，因此在视觉模型训练阶段可以将呈长尾分布的训练数据在视觉识别模型上直接使用，由此减少了训练数据准备阶段的时间成本和人力成本，提高了训练数据采集阶段的效率。获得的视觉识别模型相较于现有的迁移学习方法模型更加简单；相较于现有的重采样策略更好的利用了自然获取的长尾数据，减少数据采样阶段的沉默成本；相较于现有的重加权方法具有更好的理论支撑，模型可解释性更强。

优选的，平均特征的具体公式为：

其中，μ_i表示属于类别i的平均特征，m_i表示属于类别i的训练图像数量，α_j表示属于类别i的第j个训练图像的样本特征。

其中，由平均特征的具体公式可知，平均特征是指将特征提取器从训练集中提取的样本特征进行分类，并将属于同一类别的所有样本特征相加后除以该类别的训练图像总数，从而得到该类别的平均特征。

在一些实施例中，还公开了一种应用于狭小空间的视觉识别装置，包括：

其中，获取第二分类的方法包括：

为解决上述技术问题，本申请还公开了一种计算机设备，其特征在于，包括存储器和处理器，存储器中存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。

其中，所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器可以是所述计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，所述存储器也可以是所述计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(Secure Digital，SD)卡，闪存卡(Flash Card)等。当然，所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中，所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件，例如所述应用于狭小空间的视觉识别方法的程序代码等。此外，所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中，所述处理器用于运行所述存储器中存储的程序代码或者处理数据，例如运行所述应用于狭小空间的视觉识别方法的程序代码。

为解决上述技术问题，本申请还公开了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。

其中，所述计算机可读存储介质存储有界面显示程序，所述界面显示程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的应用于狭小空间的视觉识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器或者网络设备等)执行本申请各个实施例所述的方法。

如上即为本申请的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述申请的验证过程，并非用以限制本申请的专利保护范围，本申请的专利保护范围仍然以其权利要求书为准，凡是运用本申请的说明书及附图内容所作的等同结构变化，同理均应包含在本申请的保护范围内。