CN114202659A - 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 - Google Patents
基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 Download PDFInfo
- Publication number
- CN114202659A CN114202659A CN202111587972.1A CN202111587972A CN114202659A CN 114202659 A CN114202659 A CN 114202659A CN 202111587972 A CN202111587972 A CN 202111587972A CN 114202659 A CN114202659 A CN 114202659A
- Authority
- CN
- China
- Prior art keywords
- feature
- local
- features
- feature extraction
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,包括:将图像输入到深度卷积网络中得到特征图;将特征图输入到对称化局部区域提取模块中进行局部区域特征提取;利用注意力机制捕获特征之间的上下文关系;利用双向循环神经网络将空间结构信息与特征信息进行融合;以聚类的方式将所有特征用若干个聚类中心进行表示,联合所有聚类中心进行分类,得到目标类别。该方法克服了局部特征提取时,特征之间的空间信息丢失问题,同时提出的不规则区域特征提取模板能够有效的对目标的不规则的关键性的局部区域特征进行提取,最大程度上保留局部信息完整性和减少无关信息,能够提高细粒度图像分类的精度。
Description
技术领域
本发明涉及图像处理技术领域,特别是一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
背景技术
细粒度图像分类是图像分类的一个重要发展,相比于通用图像分类更加具有实际的应用价值,例如用于智能零售、智能交通和生物多样性监测等,同时也更加具有挑战性。通用图像分类是区分不同类别的物体,这些物体具有较大的差异,从样貌、形状、颜色等特征就能进行区分,所以该模型更加注重全局特征。而细粒度图像分类则是在通用分类的基础上,进一步进行类别的细分,由于任务是区分同种类物体的不同子类,更加细微的局部特征。与通用图像分类相比,难点在于:细粒度图像具有较小的类间差异和较大的类内差异。
近些年很多关于细粒度图像分类的方法大多是基于定位的方法,利用额外的标注信息,先训练模型对物体关键性部位的识别能力,然后将这些关键性区域进行特征提取,再根据这些关键性区域的特征进行细分类。在实际应用中,这些额外的标签往往是需要专家花费大量的时间去标记,代价是昂贵的。而不使用额外的标记框会使得模型寻找区分性部位变得困难,同时找到的局部特征也未必是有用的,这样导致了分类难度的加大。另一方面由于大多是矩形候选框提取的局部信息往往是不完整的或者还是含有大量的背景信息,这样提取的区分性部位用于分类是不精确的。
发明内容
本发明的目的在于提供一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
本发明的目的可以通过采用如下技术方案达到:
一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,包括以下步骤:
将图像输入到深度卷积网络中得到该图的特征图;
将该特征图输入到对称化局部区域提取模块中进行局部区域特征提取,该模块通过使用不规则区域特征提取模板进行特征提取,从而得到一个局部特征集合;
利用注意力机制捕获特征之间的上下文关系,突出重要的局部特征,抑制其他局部特征;
利用双向循环网络将空间结构信息与特征信息进行融合,从而得到语义信息更丰富的特征集合;
以聚类的方式将所有特征用聚类中心进行表示,从而去除冗余的信息,联合所有聚类中心进行分类,得到目标的类别。
一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
本发明与现有的技术相比,其显著优点在于:(1)通过空间对称化局部区域特征提取,能够在局部特征提取的同时最大程度上保留这些局部特征之间的空间逻辑观关系,后续使用双向循环神经网络将空间信息和特征信息进行融合;(2)利用对规则的矩形候选框,对其进行几何变换得到等面积的不规则的候选框尽可能地模拟那些不规则的局部区域的形状,使得对目标局部特征提取的时有用信息尽量完整,同时使得背景信息尽可能少;(3)对于提取的特征集合采用聚类方式用若干个聚类中心表示所有特征,有效去除冗余特征,得到更好的图像表示。
下面结合附图详细说明本发明提供的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
附图说明
图1为按照本发明的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法流程图。
图2为按照本发明的对成化的局部区域提取模块工作原理图。
图3为按照本发明的规则化的局部区域特征提取模板。
图4为按照本发明的不规则的局部区域特征提取模板。
具体实施方式
本发明提出一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,设计了对称化局部区域特征提取模块,在提取局部特征的同时保存特征之间的空间信息,提出了不规则局部区域特征提取模板,能够地充分地提取了完整的局部信息且能够包好较少的背景信息,利用注意力机制去捕获特征之间的上下文关系后,再使用双向循环神经网路将特征之间的空间关系信息与特征信息进行融合,最后使用聚类的方式去除冗余的信息,得到较为完整且有效的图像表示,用以分类,具有良好的应用前景。
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作近一步详细的描述,但本发明的实施方式不限于此。
结合图1,基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,具体步骤如下:
步骤1,对于输入图片利用深度卷积神经网络计算得出其特征图:
(1.1)对于任意给定大小的图像先进行图像预处理:利用双线性插值将图像放缩到规定大小,再将每个像素点进行标准化;
(1.2)将预处理过的图像输入深度卷积网络中,经过多次卷积运算进行特征提取,从而得到该图像的特征图F。
步骤2,将该特征图输入到对称化局部区域提取模块中进行局部区域特征提取,如图2~图4所示,该模块通过使用不规则区域特征提取模板进行特征提取,从而得到一个局部特征集合:
(2.1)对于给定的规则矩形的候选框,对其进行几何变换得到等面积但不规则的候选框集合:
R_list=[R1,R2,......,Rn]
I_list=[I1,I2,......,In]
Ii=T(Ri)
S(Ii)=S(Ri)
其中Ri表示规则的候选框,Ii表示不规则的候选框,T()表示对Ri按行或列对其进行左右或上下移位,S()表示候选框面积,i=1,2,...,n;。
(2.2)用这些不规则的候选框在特征图的不同位置提取局部特征,再将这些特征按照再原图上的空间位置关于中心对称,随着特征的增多,这些的特征囊括的范围逐渐增大:
f_list=[f1,f2,f3,……,fn]
A(f1)∩…∩A(fn-i)+ΔA=A(f1)∩…∩A(fn-i+1)
步骤3,利用注意力机制捕获特征之间的上下文关系,突出重要的局部特征,抑制其他局部特征:
(3.1)将上述的集合中的各种形状的局部特征采用双线性插值函数放缩到规定大小:
f=Bilinear(f)
(3.2)利用注意力机制捕获上下文关系,具体地,自注意力的公式为:
先计算特征t,t’之间的相似度,这里采用先对两个特征进行全连接映射再加和的方式求出相似向量gt,t′:
gt,t′=tanh(Wgft+Wg′ft′+bg)
再将得到的向量gt,t′输入全连接中计算出注意力值αt,t′:
αt,t′=σ(Wagt,t′+ba)
用这些注意力值对整个特征集合进行加权求和得出新的等数量的特征集合I:
其中W表示需要学习的矩阵,b表示需要学习的偏置,σ表示激活函数。
步骤4,利用双向循环神经网络将空间结构信息与特征信息进行融合,从而得到语义信息更丰富的特征集合:
新产生的特征ht由特征(I1,I2,……,It)的所有信息共同产生,具体地:
根据输入的It和上一个网络状态ht-1来计算这次输入信息比率it:
it=σ(Wi·[ht-1,It]+bi)
根据输入的It和上一个网络状态ht-1来计算是这次信息丢弃的比率ot:
ot=σ(Wo[ht-1,It]+bo)
由ot和网络变量Ct来更新网络状态ht:
ht=ot*tanh(Ct)
其中W表示待学习的矩阵,b表示待学习的偏置,σ表示激活函数。
步骤5,以聚类的方式将所有特征用聚类中心进行表示,从而去除冗余的信息,联合所有聚类中心进行分类,得到目标的类别:
(5.1)计算每个特征与聚类中心的聚类的距离,根据距离比例将该特征配到每个聚类中心:
其中,hi表示特征向量,ck表示聚类中心;
(5.2)根据求得的比例,将每个特征按照该比例分配到各个聚类中心:
(5.3)用这些聚类中心表示整幅图像,再利用多层感知机进行分类:
predict=MLP(V)
classid=argmax(predict)
其中classid表示图像类别,MLP表示由全连接组成的多层感知机,argmax表示最大值的索引。
本发明设计了对称化局部区域提取模块,克服了局部特征提取时,特征之间的空间信息丢失问题,同时提出的不规则区域特征提取模板能够有效的对目标的不规则的关键性的局部区域特征进行提取,最大程度上保留局部信息完整性和减少无关信息的含量,能够提高细粒度图像分类的精度。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (8)
1.一种基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,包括以下步骤:
将图像输入到深度卷积网络中得到该图的特征图;
将该特征图输入到对称化局部区域提取模块中进行局部区域特征提取,该模块通过使用不规则区域特征提取模板进行特征提取,从而得到一个局部特征集合;
利用注意力机制捕获特征之间的上下文关系,突出重要的局部特征,抑制其他局部特征;
利用双向循环网络将空间结构信息与特征信息进行融合,从而得到语义信息更丰富的特征集合;
以聚类的方式将所有特征用聚类中心进行表示,从而去除冗余的信息,联合所有聚类中心进行分类,得到目标的类别。
2.根据权利要求1所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,所述的将图像输入到深度卷积网络中得到该图的特征图,具体如下:
对于任意给定大小的图像先进行图像预处理:利用双线性插值将图像放缩到规定大小,再将每个像素点进行标准化;
将预处理过的图像输入深度卷积网络中,经过多次卷积运算进行特征提取,从而得到该图像的特征图。
3.根据权利要求1所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,所述的将该特征图输入到对称化局部区域提取模块中进行局部区域特征提取,该模块通过使用不规则区域特征提取模板进行特征提取,从而得到一个局部特征集合,具体如下:
对于给定的规则矩形的候选框,对其进行几何变换得到等面积但不规则的候选框集合:
R_list=[R1,R2,......,Rn]
I_list=[I1,I2,......,In]
Ii=T(Ri)
S(Ii)=S(Ri)
其中Ri表示规则的候选框,Ii表示不规则的候选框,T()表示对Ri按行或列对其进行左右或上下移位,S()表示候选框面积;i=1,2,...,n;
用这些不规则的候选框在特征图的不同位置提取局部特征,再将这些特征按照再原图上的空间位置关于中心对称,随着特征的增多,这些特征囊括的范围逐渐增大:
f_list=[f1,f2,f3,……,fn]
A(f1)∩…∩A(fn-i)+ΔA=A(f1)∩…∩A(fn-i+1)
4.根据权利要求3所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,所述的利用注意力机制捕获特征之间的上下文关系,突出重要的局部特征,抑制其他局部特征,具体如下:
将上述的集合中的各种形状的局部特征采用双线性插值函数放缩到规定大小:
f=Bilinear(f)
利用注意力机制捕获上下文关系,具体为:
先计算特征t,t’之间的相似度,采用先对两个特征进行全连接映射再加和的方式求出相似向量gt,t′:
gt,t′=tanh(Wgft+Wg′ft′+bg)
再将得到的向量gt,t′输入全连接中计算出注意力值αt,t′:
αt,t′=σ(Wagt,t′+ba)
用对应注意力值对整个特征集合进行加权求和得出新的等数量的特征集合I:
其中W表示需要学习的矩阵,b表示需要学习的偏置,σ表示激活函数。
5.根据权利要求4所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,所述的利用双向循环神经网络将空间结构信息与特征信息进行融合,从而得到语义信息更丰富的特征集合,具体如下:
新产生的特征ht由特征(I1,I2,……,It)的所有信息共同产生;
根据输入的It和上一个网络状态ht-1来计算这次输入信息比率it:
it=σ(Wi·[ht-1,It]+bi)
根据输入的It和上一个网络状态ht-1来计算是这次信息丢弃的比率ot:
ot=σ(Wo[ht-1,It]+bo)
由ot和网络变量Ct来更新网络状态ht:
ht=ot*tanh(Ct)
其中W表示待学习的矩阵,b表示待学习的偏置,σ表示激活函数。
6.根据权利要求5所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法,其特征在于,所述的以聚类的方式将所有特征用聚类中心进行表示,从而去除冗余的信息,集合所有聚类中心进行分类,得到目标的类别,具体如下:
计算每个特征与聚类中心的聚类的距离,根据距离比例将该特征配到每个聚类中心:
其中,hi表示特征向量,ck表示聚类中心;
根据求得的比例,将每个特征按照该比例分配到各个聚类中心:
用这些聚类中心表示整幅图像,再利用多层感知机进行分类:
predict=MLP(V)
classid=argmax(predict)
其中classid表示图像类别,MLP表示由全连接组成的多层感知机,argmax表示最大值的索引。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6中任一所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的基于空间对称化不规则局部区域特征提取的细粒度图像分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111587972.1A CN114202659A (zh) | 2021-12-23 | 2021-12-23 | 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111587972.1A CN114202659A (zh) | 2021-12-23 | 2021-12-23 | 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114202659A true CN114202659A (zh) | 2022-03-18 |
Family
ID=80656158
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111587972.1A Pending CN114202659A (zh) | 2021-12-23 | 2021-12-23 | 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114202659A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708466A (zh) * | 2022-06-08 | 2022-07-05 | 南京智莲森信息技术有限公司 | 零部件异常细粒度分类方法、系统、存储介质及计算设备 |
-
2021
- 2021-12-23 CN CN202111587972.1A patent/CN114202659A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708466A (zh) * | 2022-06-08 | 2022-07-05 | 南京智莲森信息技术有限公司 | 零部件异常细粒度分类方法、系统、存储介质及计算设备 |
CN114708466B (zh) * | 2022-06-08 | 2022-09-09 | 南京智莲森信息技术有限公司 | 零部件异常细粒度分类方法、系统、存储介质及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaur et al. | A comprehensive review of object detection with deep learning | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
Li et al. | Adaptive deep convolutional neural networks for scene-specific object detection | |
Vo et al. | Semantic image segmentation using fully convolutional neural networks with multi-scale images and multi-scale dilated convolutions | |
CN110555481A (zh) | 一种人像风格识别方法、装置和计算机可读存储介质 | |
Jiang et al. | Hyperspectral image classification with spatial consistence using fully convolutional spatial propagation network | |
CN111178208A (zh) | 基于深度学习的行人检测方法、装置及介质 | |
Li et al. | Pedestrian detection based on deep learning model | |
Li et al. | Real-time object tracking via compressive feature selection | |
Aich et al. | Improving object counting with heatmap regulation | |
Nawaz et al. | AI-based object detection latest trends in remote sensing, multimedia and agriculture applications | |
Zhao et al. | Maximal granularity structure and generalized multi-view discriminant analysis for person re-identification | |
Zhou et al. | Enhance the recognition ability to occlusions and small objects with Robust Faster R-CNN | |
Zhang et al. | Weakly supervised human fixations prediction | |
Yuan et al. | Half-CNN: a general framework for whole-image regression | |
Wang et al. | Neural koopman pooling: Control-inspired temporal dynamics encoding for skeleton-based action recognition | |
Zhang et al. | Bioinspired scene classification by deep active learning with remote sensing applications | |
CN115527269A (zh) | 一种人体姿态图像智能识别方法及系统 | |
CN112966629B (zh) | 基于图像变换和BoF模型的遥感图像场景分类方法 | |
Jiang et al. | A survey on artificial intelligence in posture recognition | |
CN114202659A (zh) | 基于空间对称化不规则局部区域特征提取的细粒度图像分类方法 | |
Chen et al. | IGS-Net: Seeking good correspondences via interactive generative structure learning | |
Li et al. | Spatial and temporal information fusion for human action recognition via Center Boundary Balancing Multimodal Classifier | |
CN105718858A (zh) | 一种基于正负广义最大池化的行人识别方法 | |
Zhang et al. | Scene categorization by deeply learning gaze behavior in a semisupervised context |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |