CN116721284A - 一种基于图增强的图像分类方法、装置、设备及介质 - Google Patents
一种基于图增强的图像分类方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116721284A CN116721284A CN202310600001.9A CN202310600001A CN116721284A CN 116721284 A CN116721284 A CN 116721284A CN 202310600001 A CN202310600001 A CN 202310600001A CN 116721284 A CN116721284 A CN 116721284A
- Authority
- CN
- China
- Prior art keywords
- image
- images
- classification
- features
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000004927 fusion Effects 0.000 claims abstract description 62
- 238000000605 extraction Methods 0.000 claims abstract description 34
- 238000006243 chemical reaction Methods 0.000 claims abstract description 31
- 238000013145 classification model Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 17
- 230000003993 interaction Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 8
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于图增强的图像分类方法、装置、设备及介质,其中,方法包括:获取待分类的图像;将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。本发明能够利用图信息来辅助图像分类,从而提升图像分类的准确性。
Description
技术领域
本发明涉及图像分类技术领域,特别是涉及一种基于图增强的图像分类方法、装置、设备及介质。
背景技术
现有的图像分类方法是将一张图片输入至神经网络模型中,经过神经网络模型处理后输出类别。上述方式没有考虑到将图像转换为图(Graph,包含edge和node)作为输入来增强图像分类的识别效果,整个神经网络模型只有图像作为信息传递,没有考虑将Graph与图像做信息的交互。本发明的发明人发现,现有技术没有将图像转换为图作为输入的主要原因是,如果将图像直接作为Graph的话,会导致Graph的node(顶点)和edge(边)过于多,假如图像的分辨率为224*224,将每个像素点作为node,那么node的数量就有224*224=50276个,如此相当耗费资源,不利于网络推理。
发明内容
本发明所要解决的技术问题是提供一种基于基于图增强的图像分类方法、装置、设备及介质,能够利用Graph信息来辅助图像分类,从而提升图像分类的准确性。
本发明解决其技术问题所采用的技术方案是:提供一种基于图增强的图像分类方法,包括以下步骤:
获取待分类的图像;
将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
所述图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
所述特征融合模块包括:
初级特征融合单元,用于将到图像综合特征、图的顶点信息和图的边缘信息进行交叉注意处理,得到交互信息;
深层特征融合单元,用于将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行特征融合,得到融合特征。
所述分类模块包括:
第一分类单元,用于基于所述图像综合特征进行分类,得到第一分类结果;
第二分类单元,用于基于所述融合特征进行分类,得到第二分类结果;
加权单元,用于将第一分类结果与第二分类结果进行加权求和,得到图像的分类结果。
本发明解决其技术问题所采用的技术方案是:提供一种基于图增强的图像分类装置,包括:
获取部分,用于获取待分类的图像;
分类部分,用于将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
所述图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
本发明解决其技术问题所采用的技术方案是:提供一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的基于图增强的图像分类方法的步骤。
本发明解决其技术问题所采用的技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于图增强的图像分类方法的步骤。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明将图像转换为图,并将图与图像进行特征融合,以此来辅助图像分类,提升图像分类的准确性。
附图说明
图1是本发明第一实施方式的流程图;
图2是本发明第一实施方式中分类模型的方框图;
图3是本发明第一实施方式中提取出的边缘信息示意图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明的第一实施方式涉及一种基于图增强的图像分类方法,如图1所示,包括以下步骤:获取待分类的图像;将所述待分类的图像输入至分类模型中得到图像的分类结果;如图2所示,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
本实施方式中的图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
所述特征融合模块包括:
初级特征融合单元,用于将到图像综合特征、图的顶点信息和图的边缘信息进行交叉注意处理,得到交互信息;
深层特征融合单元,用于将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行特征融合,得到融合特征。
所述分类模块包括:
第一分类单元,用于基于所述图像综合特征进行分类,得到第一分类结果;
第二分类单元,用于基于所述融合特征进行分类,得到第二分类结果;
加权单元,用于将第一分类结果与第二分类结果进行加权求和,得到图像的分类结果。
本实施方式的分类模型在进行图像分类时,其流程如下:
1)图像处理:
a.将待分类的图像resize到280*280的分辨率;
b.利用2Dconv对待分类的图像进行特征抽取,获取到5*5=25个patchembedding,每个patchembedding为长度768的向量;
c.经过N次TransformerEncoderBlock获取到图像特征A;
d.经过Blip(图像特征抽取器,图像描述生成器),分别获取到图像的全局特征B和文字描述;
2)文本处理:将图像处理中获取到的文字描述通过Bert(文本特征抽取器)获取到文本特征C;
3)将图像特征A、图像的全局特征B和文本特征C直接求和,得到最终的图像综合特征;
4)Graph处理(Image2GraphProcessor):
a.将待分类的图像resize到280*280的分辨率;
b.顶点(node)信息提取:利用2Dconv对待分类的图像进行特征抽取,设置卷积的移动步长和卷积核的大小一致,卷积核的数量为768,获取到5*5=25个Graphembedding,每个Graphembedding为长度768的向量,将这25个Graphembbeding作为Graph的node信息;
c.边缘(edge)信息提取:将b步中的5*5个的node信息看作为一个嵌入图像,那么该嵌入图像的分辨率为5*5,初始化一个邻接矩阵,该邻接矩阵的形状为(5*5,5*5),默认值均设为0,当所述嵌入图像的一个像素点与另一个像素点是相邻的话,则将邻接矩阵中对应位置的值设置为1。如图3所示,图中的灰色方块代表值为1,其余则为0,用此矩阵来作为Graph的edge信息。
d.将node和edge分别经过一个FC全连接层,将各自的维度都投影到768维。
5)初级特征融合:对图像综合特征、图的顶点信息和图的边缘信息做N次Cross-Attention,交互node、edge和Image的信息,得到交互信息;
6)深层特征融合:将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行N次FeatureFusionBlock高级特征的信息融合,得到融合特征
7)加权求概率:对Fusionhead和Imagehead的输出结果进行0.6*FusionHead+0.4*ImageHead的加权,得到最后的分类结果,其中,Fusionhead的输出结果是基于融合特征进行分类的结果,Imagehead的输出结果是基于图像综合特征进行分类的结果。
不难发现,本发明将图像转换为图,并将图与图像进行特征融合,以此来辅助图像分类,提升图像分类的准确性。
本发明的第二实施方式涉及一种基于图增强的图像分类装置,包括:
获取部分,用于获取待分类的图像;
分类部分,用于将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
所述图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
所述特征融合模块包括:
初级特征融合单元,用于将到图像综合特征、图的顶点信息和图的边缘信息进行交叉注意处理,得到交互信息;
深层特征融合单元,用于将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行特征融合,得到融合特征。
所述分类模块包括:
第一分类单元,用于基于所述图像综合特征进行分类,得到第一分类结果;
第二分类单元,用于基于所述融合特征进行分类,得到第二分类结果;
加权单元,用于将第一分类结果与第二分类结果进行加权求和,得到图像的分类结果。
本发明的第三实施方式涉及一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一实施方式的基于图增强的图像分类方法的步骤。
本发明的第四实施方式涉及一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一实施方式的基于图增强的图像分类方法的步骤。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。本发明实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于图增强的图像分类方法,其特征在于,包括以下步骤:
获取待分类的图像;
将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
2.根据权利要求1所述的基于图增强的图像分类方法,其特征在于,所述图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
3.根据权利要求1所述的基于图增强的图像分类方法,其特征在于,所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
4.根据权利要求1所述的基于图增强的图像分类方法,其特征在于,所述特征融合模块包括:
初级特征融合单元,用于将到图像综合特征、图的顶点信息和图的边缘信息进行交叉注意处理,得到交互信息;
深层特征融合单元,用于将交互信息、图的顶点信息和图像综合特征交替作为Q、K、V进行特征融合,得到融合特征。
5.根据权利要求1所述的基于图增强的图像分类方法,其特征在于,所述分类模块包括:
第一分类单元,用于基于所述图像综合特征进行分类,得到第一分类结果;
第二分类单元,用于基于所述融合特征进行分类,得到第二分类结果;
加权单元,用于将第一分类结果与第二分类结果进行加权求和,得到图像的分类结果。
6.一种基于图增强的图像分类装置,其特征在于,包括:
获取部分,用于获取待分类的图像;
分类部分,用于将所述待分类的图像输入至分类模型中得到图像的分类结果;其中,所述分类模型包括:
图像特征提取模块,用于从所述待分类的图像中提取出图像综合特征;
图像转换模块,用于将所述待分类的图像转换为图,并提取出图的顶点信息和边缘信息;
特征融合模块,用于将所述图像综合特征与所述图的顶点信息和边缘信息进行特征融合,得到融合特征;
分类模块,用于基于图像综合特征和融合特征对待分类的图像进行分类,得到图像的分类结果。
7.根据权利要求6所述的基于图增强的图像分类装置,其特征在于,所述图像特征提取模块包括:
图像特征提取单元,包括卷积层、转换编码层、图像特征抽取器和图像描述生成器,所述卷积层用于对所述待分类的图像进行特征提取,得到N*N个块嵌入;所述转换编码层用于对N*N个块嵌入进行转换编码得到图像特征;所述图像特征抽取器用于对所述待分类的图像进行特征抽取,得到图像全局特征;所述图像描述生成器用于对所述待分类的图像进行文字描述;
文本特征抽取器,用于从所述待分类的图像的文字描述抽取特征,得到文本特征;
求和单元,用于将所述图像特征、图像全局特征和文本特征进行求和,得到图像综合特征。
8.根据权利要求6所述的基于图增强的图像分类装置,其特征在于,所述图像转换模块包括:
顶点信息提取单元,用于对所述待分类的图像进行特征提取,得到N*N个图嵌入,并将N*N个图嵌入作为图的顶点信息;
边缘信息提取单元,用于将所述N*N个图嵌入作为一个嵌入图像,并初始化一个形状为(N*N,N*N)、默认值均为0的邻接矩阵,当所述嵌入图像的一个像素点与另一个像素点是相邻的,则将邻接矩阵中对应位置的值设置为1,并用更新后的邻接矩阵作为图的边缘信息。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-5中任一所述的基于图增强的图像分类方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的基于图增强的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310600001.9A CN116721284B (zh) | 2023-05-25 | 2023-05-25 | 一种基于图增强的图像分类方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310600001.9A CN116721284B (zh) | 2023-05-25 | 2023-05-25 | 一种基于图增强的图像分类方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116721284A true CN116721284A (zh) | 2023-09-08 |
CN116721284B CN116721284B (zh) | 2024-08-09 |
Family
ID=87865199
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310600001.9A Active CN116721284B (zh) | 2023-05-25 | 2023-05-25 | 一种基于图增强的图像分类方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116721284B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112712127A (zh) * | 2021-01-07 | 2021-04-27 | 北京工业大学 | 一种结合图卷积神经网络的图像情感极性分类方法 |
CN114863182A (zh) * | 2022-05-23 | 2022-08-05 | 北京百度网讯科技有限公司 | 图像分类方法、图像分类模型的训练方法及装置 |
CN116091847A (zh) * | 2023-03-29 | 2023-05-09 | 中国工商银行股份有限公司 | 像素点分类方法、装置、处理器及电子设备 |
-
2023
- 2023-05-25 CN CN202310600001.9A patent/CN116721284B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112712127A (zh) * | 2021-01-07 | 2021-04-27 | 北京工业大学 | 一种结合图卷积神经网络的图像情感极性分类方法 |
CN114863182A (zh) * | 2022-05-23 | 2022-08-05 | 北京百度网讯科技有限公司 | 图像分类方法、图像分类模型的训练方法及装置 |
CN116091847A (zh) * | 2023-03-29 | 2023-05-09 | 中国工商银行股份有限公司 | 像素点分类方法、装置、处理器及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN116721284B (zh) | 2024-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108256562B (zh) | 基于弱监督时空级联神经网络的显著目标检测方法及系统 | |
US10614574B2 (en) | Generating image segmentation data using a multi-branch neural network | |
WO2018153322A1 (zh) | 关键点检测方法、神经网络训练方法、装置和电子设备 | |
CN112016543A (zh) | 一种文本识别网络、神经网络训练的方法以及相关设备 | |
CN111914654B (zh) | 一种文本版面分析方法、装置、设备和介质 | |
Liu et al. | Oiflow: Occlusion-inpainting optical flow estimation by unsupervised learning | |
CN113076957A (zh) | 一种基于跨模态特征融合的rgb-d图像显著性目标检测方法 | |
CN116152611B (zh) | 一种多级多尺度点云补全方法、系统、设备及存储介质 | |
CN117078930A (zh) | 基于边界感知和注意力机制的医学图像分割方法 | |
CN117523593B (zh) | 患者病历数据处理方法及系统 | |
CN112639830A (zh) | 利用深度学习将图片分离成前景和背景的设备和方法 | |
CN114926734B (zh) | 基于特征聚合和注意融合的固体废弃物检测装置及方法 | |
CN116434033A (zh) | 面向rgb-d图像稠密预测任务的跨模态对比学习方法及系统 | |
CN117593633A (zh) | 面向海洋场景的图像识别方法、系统、设备和存储介质 | |
CN116266259A (zh) | 图像文字结构化输出方法、装置、电子设备和存储介质 | |
CN114511702A (zh) | 一种基于多尺度分权注意力的遥感图像分割方法和系统 | |
CN116721284B (zh) | 一种基于图增强的图像分类方法、装置、设备及介质 | |
Saire et al. | Global and Local Features Through Gaussian Mixture Models on Image Semantic Segmentation | |
CN113554655B (zh) | 基于多特征增强的光学遥感图像分割方法及装置 | |
CN115810152A (zh) | 基于图卷积的遥感图像变化检测方法、装置和计算机设备 | |
CN111047571B (zh) | 一种具有自适应选择训练过程的图像显著目标检测方法 | |
CN116778951B (zh) | 一种基于图增强的音频分类方法、装置、设备及介质 | |
JP7238510B2 (ja) | 情報処理装置、情報処理方法及びプログラム | |
CN112651926A (zh) | 一种基于递归注意力机制的裂纹检测的方法及装置 | |
CN116662543A (zh) | 一种基于图增强的文本分类方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 301AB, No. 10, Lane 198, Zhangheng Road, Free Trade Pilot Zone, Pudong New Area, Shanghai, 200120 Applicant after: Shanghai Mido Technology Co.,Ltd. Address before: Room 301AB, No. 10, Lane 198, Zhangheng Road, Free Trade Pilot Zone, Pudong New Area, Shanghai, 200120 Applicant before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |