CN114882273B - 应用于狭小空间的视觉识别方法、装置、设备和存储介质 - Google Patents

应用于狭小空间的视觉识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN114882273B
CN114882273B CN202210434725.6A CN202210434725A CN114882273B CN 114882273 B CN114882273 B CN 114882273B CN 202210434725 A CN202210434725 A CN 202210434725A CN 114882273 B CN114882273 B CN 114882273B
Authority
CN
China
Prior art keywords
classifier
training
class
image
balance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210434725.6A
Other languages
English (en)
Other versions
CN114882273A (zh
Inventor
董乐
张宁
赵浩然
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210434725.6A priority Critical patent/CN114882273B/zh
Publication of CN114882273A publication Critical patent/CN114882273A/zh
Application granted granted Critical
Publication of CN114882273B publication Critical patent/CN114882273B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及视觉识别技术领域,公开了一种应用于狭小空间的视觉识别方法、装置、设备和存储介质,所述方法包括:将待识别图像输入完成联合训练的特征提取器和第一分类器,获得第一分类器输出的待识别图像在各类别下的分类概率;将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;将平衡特征输入第二分类器,获得待识别图像的识别结果。本申请解决了在对狭小空间内呈长尾分布的待识别图像数据进行视觉识别时,会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性的问题。

Description

应用于狭小空间的视觉识别方法、装置、设备和存储介质
技术领域
本申请涉及视觉识别技术领域,具体是指一种应用于狭小空间的视觉识别方法、装置、设备和存储介质。
背景技术
在视觉识别技术领域,视觉识别任务往往是通过具体的视觉识别模型完成的,具体是通过将采集获得的待识别图像数据输入到视觉识别模型中,再通过视觉识别模型输出识别结果。但是对于在狭小空间场景下的视觉识别任务,比如无人机、无人车在避障、导航过程中对室内狭小空间场景中物体的视觉识别任务,由于狭小空间下的物体样本分布自然呈现长尾分布形态,在对狭小空间下收集的待识别图像数据进行识别时,会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性。
申请内容
基于以上技术问题,本申请提供了一种应用于狭小空间的视觉识别方法、装置、设备和存储介质,解决了在对狭小空间内呈长尾分布的待识别图像数据进行视觉识别时,会由于待识别图像数据类别不均衡的特征影响视觉识别模型识别结果的准确性的问题。
为解决以上技术问题,本申请采用的技术方案如下:
一种应用于狭小空间的视觉识别方法,包括:
将待识别图像输入完成联合训练的特征提取器和第一分类器,获得第一分类器输出的待识别图像在各类别下的分类概率;
将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
将平衡特征输入第二分类器,获得待识别图像的识别结果;
其中,获取第二分类的方法包括:
获取无参数的第二分类器,第二分类器的结构与第一分类器相同;
提取完成联合训练的第一分类器中的权重参数,并对权重参数进行归一化平衡操作;
将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的第二分类器。
一种应用于狭小空间的视觉识别装置,包括:
第一分类识别模块,第一分类识别模块用于将待识别图像输入完成联合训练的特征提取器和第一分类器,获得第一分类器输出的待识别图像在各类别下的分类概率;
平衡特征获取模块,平衡特征获取模块用于将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
第二分类识别模块,第二分类识别模块用于将平衡特征输入第二分类器,获得待识别图像的识别结果;
其中,获取第二分类的方法包括:
获取无参数的第二分类器,第二分类器的结构与第一分类器相同;
提取完成联合训练的第一分类器中的权重参数,并对权重参数进行归一化平衡操作;
将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的第二分类器。
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述应用于狭小空间的视觉识别方法的步骤。
与现有技术相比,本申请的有益效果是:
上述应用于狭小空间的视觉识别方法、装置、设备和存储介质,通过在特征提取阶段融合进因果干预操作,对长尾分布的待识别图像数据的头尾部类数据,尤其是尾部类数据进行类似困难样本挖掘的调整方法,去除了混杂因子对于表征学习的影响。以及在特征分类阶段采取温和的头尾部类数据特征归一化平衡操作,减弱了头部类数据和尾部类深度在识别决策边界上的巨大差异。从而通过在表征学习阶段进行平衡操作,使得在不需要人工对数据进行类别均衡操作时也能得到鲁棒的特征,并在视觉识别任务上取得符合要求的表现,提高了相应视觉识别模型的识别准确性。
此外,由于减少了长尾数据由于类别数据不均衡问题带来的人工类别均衡操作的需求,本申请还实现了视觉识别模型训练阶段,将呈长尾分布的训练数据在视觉识别模型的直接使用,由此减少了训练数据准备阶段的时间成本和人力成本,提高了训练数据采集阶段的效率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。其中:
图1为应用于狭小空间的视觉识别方法的流程示意图。
图2为获取所述第二分类的方法的流程示意图。
图3为联合训练特征提取器和第一分类器的方法的流程示意图。
图4为因果干预涉及的结构因果模型(SCM)的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例的附图,对本公开实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于所描述的本公开的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
应当理解,本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而,如果其他词语可实现相同的目的,则可通过其他表达来替换所述词语。
如本说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的步骤和元素,而这些步骤和元素不构成一个排它性的罗列,方法或者设备也可能包含其它的步骤或元素。
本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是,前面或后面操作不一定按照顺序来精确地执行。相反,可以按照倒序或同时处理各个步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步操作。
参阅图1,在一些实施例中,一种应用于狭小空间的视觉识别方法,包括:
S101,将待识别图像输入完成联合训练的特征提取器和第一分类器,获得第一分类器输出的待识别图像在各类别下的分类概率;
具体的,待识别图像是指在狭小空间内采集的需要识别的图像数据。
具体的,对于待识别图像,其是属于类别总数M中的其中一类,在第一分类器对其进行识别分类时,第一分类器输出的结果是p1,…,m,其中,pm表示待识别图像属于类别m的概率。
具体的,特征提取器可以选择ResNet-10网络、ResNeXt-50网络或更大的ResNeXt-152网络。
具体的,第一分类器为线性多层感知机。
具体的,对于特征提取器和第一分类器也可以现有的视觉识别模型,后续可以在现有视觉识别模型上进行叠加改进,即在现有视觉识别模型上增设因果干预策略模块和第二分类器,具有较高的可嫁接性,具备优良的重复利用性和可嵌入性。
S102,将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
其中,因果干预策略模块的目的去除待识别图像在视觉识别过程中的混杂因子,以保证待识别图像最终识别结果的准确性。
其中,平衡特征的具体公式为:
Figure BDA0003612546520000041
其中,c表示平衡特征,M表示识别分类的类别总数,i表示类别总数M中的第i个类别,pp表示待识别图像属于类别i的分类概率,μp表示类别i的平均特征。
具体的,以下将对利用平衡特征c去除待识别图像在视觉识别过程中的混杂因子的具体原理进行说明:
首先,可知在视觉识别模型训练阶段,训练集S中的混杂因子(“类别”)可以采用Judea Pearl提出的后门调整公式进行去除,后门调整公式如下:
Figure BDA0003612546520000042
其中,X、Y指的是在类别均衡的测试集上的输入和输出;输入的是样本x的图片信息;输出是样本x的所属类别信息Y。视觉识别任务下模型的目标就是正确度量P(Y|X),即使用训练后得到的模型识别实际狭小空间下的物体样本x的正确类别(此过程可用类别平衡的测试集进行模拟)。而混杂因子会对视觉识别模型正确地度量输入X和输出Y的关系(此关系可用条件概率P(Y|X)表示)起到负面作用,所以应该去除混杂因子。
其中,后门调整公式的目的,便在于去除训练数据中的混杂因子。而对于长尾分布的数据最明显的混杂因子就是“类别”,所以先对“类别”进行去混杂操作,后续的基于特征的调整可以看作一种补偿机制。因为无法完全发掘所有的混杂因子,同时由于在去混杂部分混杂因子后,效果会逐步提升。所以在去混杂操作了“类别”之后,在长尾数据集上学到的特征维度上进一步去混杂操作,是对学到的特征中的其他混杂因子的一种“去混杂”操作,可以将之看作是一种补偿措施。
其中,D是通过训练集S在联合训练阶段得到的特征提取器的参数,可以看作一种先验知识,C是测试集中的样本x在特征提取器的参数的参数空间(可以看作一种知识D的流形)上的投影。
其中,上述公式对应到的结构因果模型(SCM)示意图如图4所示。
设训练集S中的类别数为m,表示成B={b1,...,bm},“混杂因子D”在本实施例中被定义为D:={d1,...,dm},即di=bi,即类别就是混杂因子。
具体的,下面给出上述后门公式各部分的计算方法:
首先,
Figure BDA0003612546520000051
其中P(bi|x)是联合训练的分类器输出的样本x属于类别bi的概率,
Figure BDA0003612546520000052
是训练集S中属于类别bi的所有样本的平均特征;
然后,继续推导地,P(Y|X,D,C)=P(Y|g(x,di));
其中,
Figure BDA0003612546520000053
m表示数据集S的总类别数,P(di)值为
Figure BDA0003612546520000054
即对每个类别均匀采样。
上述的类别级别的后门调整可以整体表示为:
Figure BDA0003612546520000055
上述公式在建模实现上使用归一化加权几何平均(NWGM)进行近似计算,将条件概率外的累加移到了条件概率内部,得到如下公式:
Figure BDA0003612546520000056
上述过程是对因果干预策略模块的建模方法的理论推导,最后得到的公式对应的就是之前计算平衡特征c的公式,这里省去
Figure BDA0003612546520000057
相当于对所有权重同时增大,所以对权重间的大小关系不作改变,且使得公式更简洁,故隐去,最终得到平衡特征公式:
Figure BDA0003612546520000058
S103,将平衡特征输入第二分类器,获得待识别图像的识别结果;
具体的,第二分类器为线性多层感知机。
具体的,第二分类器输出的待识别图像的识别结果,是将第二分类器输出的最大的概率值对应的类别作为识别结果。
参阅图2,优选的,获取第二分类的方法包括:
S201,获取无参数的第二分类器,第二分类器的结构与第一分类器相同;
S202,提取完成联合训练的第一分类器中的权重参数,并对权重参数进行归一化平衡操作;
具体的,对权重参数进行归一化平衡操作的具体公式为:
Figure BDA0003612546520000059
其中,
Figure BDA00036125465200000510
表示归一化权重参数,wi∈Rd是分类器中类别i对应的权重参数,||·||代表L2归一化操作;
其中,归一化平衡操作后的权重参数矩阵的具体公式为:
Figure BDA0003612546520000061
其中,
Figure BDA0003612546520000062
表示归一化权重参数矩阵。
具体的,在归一化平衡操作之后,第二分类器的输出变为以下形式:
Figure BDA0003612546520000063
其中,
Figure BDA0003612546520000064
表示分类器的输出结果,f(x)表示分类器最后一层的输入,x表示输入的样本图像。
注意到这里与传统的操作相比去掉了偏移项b,因为在这里偏移项不管是对于分类器的输出还是对最终识别任务的结果的影响都很小,所以将之省略。
S203,将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的第二分类器。
参阅图3,在一些实施例中,联合训练特征提取器和第一分类器的方法包括:
S301,获取训练集,训练集由多个呈长尾分布的训练图像组成;
其中,长尾分布的训练集是指训练集中某一些类别训练图像的样本数占总样本数的大多数,称为头部类数据,而另一些类别训练图像的样本数占总样本数的少数,称为尾部类数据。
优选的,获取训练集包括:获取自然呈现长尾分布的数据集;对数据集进行实例均衡采样,得到训练集;
其中,如果采集的数据集的样本数据较多,那么就需要从数据集中选取一部分样本数据作为训练集用于特征提取器和第一分类器的训练。在本实施例中,训练集的采样采用实例均衡采样算法进行选取,得到的训练集与数据集相同,也是呈现长尾分布。
具体的,实例均衡采样的具体公式为:
Figure BDA0003612546520000065
其中,C表示数据集中的样本类别总数,i表示样本类别总数C中的第i个类别,j表示样本类别总数C中的第j个类别,
Figure BDA0003612546520000066
表示数据集中属于类别j的样本图像数量,
Figure BDA0003612546520000067
表示数据集中属于类别i个的样本图像数量,q是一个指数参数,设定为1,pj表示从类别j中采集一个样本图像的分类概率。
因此,实例均衡采用按照概率pj对每个类别中的样本图像进行选择,然后再对数据集内部的数据均匀采样。这样从类别j中采样出样本图像的概率是按照各类别样本图像数量占样本图像总数的比例进行。换句话说,整个长尾分布的数据集中每一个样本图像被采样出到训练集的概率是相等的。
S302,将训练图像输入待训练的特征提取器,提取训练图像的样本特征;
S303,将样本特征输入待训练的第一分类器,得到训练图像的分类结果;
S304,根据分类结果与训练图像的类别信息,获取误差信息;
S305,基于误差信息对特征提取器和第一分类器进行优化,得到训练完成的特征提取器和第一分类器。
本实施例中,由现有技术可知,对于视觉识别模型的构建,是通过采集相应的训练集数据训练完成的。在传统的视觉识别模型构建过程中,直接使用呈现长尾分布的训练集数据会使得到的视觉识别模型更偏向于头部类,即在类别均衡的测试集上的头部类的分类结果会更好,而尾部类的结果很差。为解决上述问题,通常在训练时使用数据类别的分布往往都受到了人工的均衡,即不同类别的训练样本数据数量无明显差异。使用均衡后的训练数据固然大大简化了对算法鲁棒性的要求,也一定程度上保障了训练得到的视觉识别模型的可靠性,但随着关注类别数量的逐渐增加,维持各个类别数据之间均衡就将带来指数级别增长的数据采集成本。
因此,又通过采用以下方式,用来解决上述训练数据采集效率低和成本高的问题。
第一类是在数据分布上的重采样策略,比如对头部类数据的下采样和对尾部类数据的过采样,但是这种方法存在数据集的充分利用问题,头部类数据的下采样使得数据采集阶段时的一些成本付出没有得到充分利用,尾部类数据的上采样又有样本分布于原始分布差异的问题;
第二类是重加权,即在训练阶段对损失函数的处理上,不同于重采样,重加权的方法因为损失函数计算的灵活性和简便性的优势,在很多需要用到复杂建模方式的下游任务上实施更加方便而得到广泛使用,但重加权的视觉识别模型其可解释性不强;
第三种是迁移学习,这种方式是立足于长尾数据的不平衡分布,充分学习头部类数据的样本,并将学到的知识使用到尾部类数据的特征学习之中,比如利用头部类数据的分布知识来进行尾部类数据的样本增强,但这种方式往往需要额外的记忆模块,且模型复杂。
而由于本申请在视觉识别阶段可以排除长尾数据的影响,因此在视觉模型训练阶段可以将呈长尾分布的训练数据在视觉识别模型上直接使用,由此减少了训练数据准备阶段的时间成本和人力成本,提高了训练数据采集阶段的效率。获得的视觉识别模型相较于现有的迁移学习方法模型更加简单;相较于现有的重采样策略更好的利用了自然获取的长尾数据,减少数据采样阶段的沉默成本;相较于现有的重加权方法具有更好的理论支撑,模型可解释性更强。
优选的,平均特征的具体公式为:
Figure BDA0003612546520000081
其中,μi表示属于类别i的平均特征,mi表示属于类别i的训练图像数量,αj表示属于类别i的第j个训练图像的样本特征。
其中,由平均特征的具体公式可知,平均特征是指将特征提取器从训练集中提取的样本特征进行分类,并将属于同一类别的所有样本特征相加后除以该类别的训练图像总数,从而得到该类别的平均特征。
在一些实施例中,还公开了一种应用于狭小空间的视觉识别装置,包括:
第一分类识别模块,第一分类识别模块用于将待识别图像输入完成联合训练的特征提取器和第一分类器,获得第一分类器输出的待识别图像在各类别下的分类概率;
平衡特征获取模块,平衡特征获取模块用于将分类概率和特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
第二分类识别模块,第二分类识别模块用于将平衡特征输入第二分类器,获得待识别图像的识别结果;
其中,获取第二分类的方法包括:
获取无参数的第二分类器,第二分类器的结构与第一分类器相同;
提取完成联合训练的第一分类器中的权重参数,并对权重参数进行归一化平衡操作;
将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的第二分类器。
为解决上述技术问题,本申请还公开了一种计算机设备,其特征在于,包括存储器和处理器,存储器中存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。
其中,所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或D界面显示存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器可以是所述计算机设备的内部存储单元,例如该计算机设备的硬盘或内存。在另一些实施例中,所述存储器也可以是所述计算机设备的外部存储设备,例如该计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器还可以既包括所述计算机设备的内部存储单元也包括其外部存储设备。本实施例中,所述存储器常用于存储安装于所述计算机设备的操作系统和各类应用软件,例如所述应用于狭小空间的视觉识别方法的程序代码等。此外,所述存储器还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器通常用于控制所述计算机设备的总体操作。本实施例中,所述处理器用于运行所述存储器中存储的程序代码或者处理数据,例如运行所述应用于狭小空间的视觉识别方法的程序代码。
为解决上述技术问题,本申请还公开了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述应用于狭小空间的视觉识别方法的步骤。
其中,所述计算机可读存储介质存储有界面显示程序,所述界面显示程序可被至少一个处理器执行,以使所述至少一个处理器执行如上述的应用于狭小空间的视觉识别方法的步骤。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器或者网络设备等)执行本申请各个实施例所述的方法。
如上即为本申请的实施例。上述实施例以及实施例中的具体参数仅是为了清楚表述申请的验证过程,并非用以限制本申请的专利保护范围,本申请的专利保护范围仍然以其权利要求书为准,凡是运用本申请的说明书及附图内容所作的等同结构变化,同理均应包含在本申请的保护范围内。

Claims (7)

1.应用于狭小空间的视觉识别方法,其特征在于,包括:
将待识别图像输入完成联合训练的特征提取器和第一分类器,获得所述第一分类器输出的所述待识别图像在各类别下的分类概率;
将所述分类概率和所述特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
将所述平衡特征输入第二分类器,获得所述待识别图像的识别结果;
其中,获取所述第二分类器的方法包括:
获取无参数的第二分类器,所述第二分类器的结构与所述第一分类器相同;
提取完成联合训练的第一分类器中的权重参数,并对所述权重参数进行归一化平衡操作;
将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的所述第二分类器;其中,联合训练特征提取器和第一分类器的方法包括:
获取训练集,所述训练集由多个呈长尾分布的训练图像组成;
将所述训练图像输入待训练的特征提取器,提取所述训练图像的样本特征;
将所述样本特征输入待训练的第一分类器,得到所述训练图像的分类结果;
根据所述分类结果与所述训练图像的类别信息,获取误差信息;
基于所述误差信息对所述特征提取器和所述第一分类器进行优化,得到训练完成的所述特征提取器和所述第一分类器;
其中,所述平均特征的具体公式为:
Figure FDA0004058290490000011
其中,μi表示属于类别i的平均特征,mi表示属于类别i的训练图像数量,αj表示属于类别i的第j个训练图像的样本特征;
其中,所述平衡特征的具体公式为:
Figure FDA0004058290490000012
其中,c表示平衡特征,M表示识别分类的类别总数,i表示类别总数M中的第i个类别,pi表示待识别图像属于类别i的分类概率,μi表示类别i的平均特征。
2.根据权利要求1所述的应用于狭小空间的视觉识别方法,其特征在于,获取训练集包括:
获取自然呈现长尾分布的数据集;
对所述数据集进行实例均衡采样,得到训练集;
其中,所述实例均衡采样的具体公式为:
Figure FDA0004058290490000021
其中,C表示数据集中的样本类别总数,i表示样本类别总数C中的第i个类别,j表示样本类别总数C中的第j个类别,
Figure FDA0004058290490000022
表示数据集中属于类别j的样本图像数量,
Figure FDA0004058290490000023
表示数据集中属于类别i个的样本图像数量,q是一个指数参数,设定为1,pj表示从类别j中采集一个样本图像的分类概率。
3.根据权利要求1所述的应用于狭小空间的视觉识别方法,其特征在于:
所述第一分类器和所述第二分类器为线性多层感知机。
4.根据权利要求1所述的应用于狭小空间的视觉识别方法,其特征在于,对所述权重参数进行归一化平衡操作的具体公式为:
Figure FDA0004058290490000024
其中,
Figure FDA0004058290490000025
表示归一化权重参数,wi∈Rd是分类器中类别i对应的权重参数,||·||代表L2归一化操作;
其中,归一化平衡操作后的权重参数矩阵的具体公式为:
Figure FDA0004058290490000026
其中,
Figure FDA0004058290490000027
表示归一化权重参数矩阵。
5.应用于狭小空间的视觉识别装置,其特征在于,包括:
第一分类识别模块,所述第一分类识别模块用于将待识别图像输入完成联合训练的特征提取器和第一分类器,获得所述第一分类器输出的所述待识别图像在各类别下的分类概率;
平衡特征获取模块,所述平衡特征获取模块用于将所述分类概率和所述特征提取器在联合训练阶段获得的各类别下的平均特征输入因果干预策略模块,获得平衡特征;
第二分类识别模块,所述第二分类识别模块用于将所述平衡特征输入第二分类器,获得所述待识别图像的识别结果;
其中,获取所述第二分类的方法包括:
获取无参数的第二分类器,所述第二分类器的结构与所述第一分类器相同;
提取完成联合训练的第一分类器中的权重参数,并对所述权重参数进行归一化平衡操作;
将归一化平衡操作后的权重参数赋值到无参数的第二分类器中,获得最终的所述第二分类器;
其中,联合训练特征提取器和第一分类器的方法包括:
获取训练集,所述训练集由多个呈长尾分布的训练图像组成;
将所述训练图像输入待训练的特征提取器,提取所述训练图像的样本特征;
将所述样本特征输入待训练的第一分类器,得到所述训练图像的分类结果;
根据所述分类结果与所述训练图像的类别信息,获取误差信息;
基于所述误差信息对所述特征提取器和所述第一分类器进行优化,得到训练完成的所述特征提取器和所述第一分类器;
其中,所述平均特征的具体公式为:
Figure FDA0004058290490000031
其中,μi表示属于类别i的平均特征,mi表示属于类别i的训练图像数量,αj表示属于类别i的第j个训练图像的样本特征;
其中,所述平衡特征的具体公式为:
Figure FDA0004058290490000032
其中,c表示平衡特征,M表示识别分类的类别总数,i表示类别总数M中的第i个类别,pi表示待识别图像属于类别i的分类概率,μi表示类别i的平均特征。
6.一种计算机设备,其特征在于:包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述应用于狭小空间的视觉识别方法的步骤。
7.一种计算机可读存储介质,其特征在于:存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至4中任一项所述应用于狭小空间的视觉识别方法的步骤。
CN202210434725.6A 2022-04-24 2022-04-24 应用于狭小空间的视觉识别方法、装置、设备和存储介质 Active CN114882273B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210434725.6A CN114882273B (zh) 2022-04-24 2022-04-24 应用于狭小空间的视觉识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210434725.6A CN114882273B (zh) 2022-04-24 2022-04-24 应用于狭小空间的视觉识别方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN114882273A CN114882273A (zh) 2022-08-09
CN114882273B true CN114882273B (zh) 2023-04-18

Family

ID=82671828

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210434725.6A Active CN114882273B (zh) 2022-04-24 2022-04-24 应用于狭小空间的视觉识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114882273B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117689961B (zh) * 2024-02-02 2024-05-07 深圳大学 视觉识别模型训练、视觉识别方法、系统、终端及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372666A (zh) * 2016-08-31 2017-02-01 同观科技(深圳)有限公司 一种目标识别方法及装置
US9697433B1 (en) * 2015-06-03 2017-07-04 Amazon Technologies, Inc. Pixel-structural reference image feature extraction
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN113449613A (zh) * 2021-06-15 2021-09-28 北京华创智芯科技有限公司 多任务长尾分布图像识别方法、系统、电子设备及介质
CN113627422A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像分类方法及其相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273387A (zh) * 2016-04-08 2017-10-20 上海市玻森数据科技有限公司 面向高维和不平衡数据分类的集成
CN112749737A (zh) * 2020-12-30 2021-05-04 北京知因智慧科技有限公司 图像分类方法及装置、电子设备、存储介质
CN113378919B (zh) * 2021-06-09 2022-06-14 重庆师范大学 融合视觉常识和增强多层全局特征的图像描述生成方法
CN113723239B (zh) * 2021-08-18 2023-10-20 广东工业大学 一种基于因果关系的磁共振图像分类方法及系统
CN114154612A (zh) * 2021-11-17 2022-03-08 中国航空工业集团公司沈阳飞机设计研究所 一种基于因果关系推断的智能体行为模型构建方法
CN114154266B (zh) * 2021-12-03 2024-02-20 合肥工业大学 基于偏秩相关的流因果结构学习的燃气轮机故障预测方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9697433B1 (en) * 2015-06-03 2017-07-04 Amazon Technologies, Inc. Pixel-structural reference image feature extraction
CN106372666A (zh) * 2016-08-31 2017-02-01 同观科技(深圳)有限公司 一种目标识别方法及装置
CN109934293A (zh) * 2019-03-15 2019-06-25 苏州大学 图像识别方法、装置、介质及混淆感知卷积神经网络
CN111738301A (zh) * 2020-05-28 2020-10-02 华南理工大学 一种基于双通道学习的长尾分布图像数据识别方法
CN113449613A (zh) * 2021-06-15 2021-09-28 北京华创智芯科技有限公司 多任务长尾分布图像识别方法、系统、电子设备及介质
CN113627422A (zh) * 2021-06-30 2021-11-09 华为技术有限公司 一种图像分类方法及其相关设备

Also Published As

Publication number Publication date
CN114882273A (zh) 2022-08-09

Similar Documents

Publication Publication Date Title
CN112184508B (zh) 一种用于图像处理的学生模型的训练方法及装置
CN108345827B (zh) 识别文档方向的方法、系统和神经网络
CN110232373A (zh) 人脸聚类方法、装置、设备和存储介质
CN109492674B (zh) 用于目标检测的ssd框架的生成方法及装置
CN110222780A (zh) 物体检测方法、装置、设备和存储介质
CN111428557A (zh) 基于神经网络模型的手写签名的自动校验的方法和装置
CN110929836B (zh) 神经网络训练及图像处理方法和装置、电子设备、介质
CN112288831A (zh) 基于生成对抗网络的场景图像生成方法和装置
CN114419363A (zh) 基于无标注样本数据的目标分类模型训练方法及装置
CN114882273B (zh) 应用于狭小空间的视觉识别方法、装置、设备和存储介质
CN111027582B (zh) 基于低秩图学习的半监督特征子空间学习方法及装置
CN115907970A (zh) 信贷风险识别方法、装置、电子设备及存储介质
CN114282258A (zh) 截屏数据脱敏方法、装置、计算机设备及存储介质
CN114120454A (zh) 活体检测模型的训练方法、装置、电子设备及存储介质
CN111611917A (zh) 模型训练方法、特征点检测方法、装置、设备及存储介质
CN110929731A (zh) 一种基于探路者智能搜索算法的医疗影像处理方法及装置
CN113961765B (zh) 基于神经网络模型的搜索方法、装置、设备和介质
CN115019057A (zh) 图像特征提取模型确定方法及装置、图像识别方法及装置
CN115170919A (zh) 图像处理模型训练及图像处理方法、装置、设备和存储介质
CN110750598B (zh) 一种物品标签预测方法、装置、终端设备及存储介质
CN114299340A (zh) 模型训练方法、图像分类方法、系统、设备及介质
CN113362249A (zh) 文字图像合成方法、装置、计算机设备及存储介质
CN112686099A (zh) 适用于用电业扩报装申请的图文资料自动识别方法及系统
CN111798376A (zh) 图像识别方法、装置、电子设备及存储介质
CN113111957B (zh) 基于特征去噪的防伪方法、装置、设备、产品及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant