CN116612287B - 图像识别方法、装置、计算机设备和存储介质 - Google Patents
图像识别方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN116612287B CN116612287B CN202310872101.7A CN202310872101A CN116612287B CN 116612287 B CN116612287 B CN 116612287B CN 202310872101 A CN202310872101 A CN 202310872101A CN 116612287 B CN116612287 B CN 116612287B
- Authority
- CN
- China
- Prior art keywords
- channel
- feature
- features
- enhancement
- image block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000004927 fusion Effects 0.000 claims abstract description 385
- 238000010586 diagram Methods 0.000 claims abstract description 193
- 238000004590 computer program Methods 0.000 claims abstract description 27
- 230000004913 activation Effects 0.000 claims description 71
- 230000003213 activating effect Effects 0.000 claims description 33
- 230000002776 aggregation Effects 0.000 claims description 29
- 238000004220 aggregation Methods 0.000 claims description 29
- 238000006243 chemical reaction Methods 0.000 claims description 22
- 230000002829 reductive effect Effects 0.000 claims description 15
- 238000000605 extraction Methods 0.000 claims description 9
- 230000001965 increasing effect Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 description 41
- 238000004891 communication Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 9
- 239000013598 vector Substances 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 238000012549 training Methods 0.000 description 7
- 238000004422 calculation algorithm Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 101100153586 Caenorhabditis elegans top-1 gene Proteins 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 3
- 101100370075 Mus musculus Top1 gene Proteins 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000004973 liquid crystal related substance Substances 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 102100031315 AP-2 complex subunit mu Human genes 0.000 description 1
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 241000385654 Gymnothorax tile Species 0.000 description 1
- 101000796047 Homo sapiens AP-2 complex subunit mu Proteins 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000379 polymerizing effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请涉及一种图像识别方法、装置、计算机设备、存储介质和计算机程序产品。该方法包括:提取待识别图像对应的各个图像块特征,并将各个图像块特征分别进行划分,得到各个第一通道特征和各个第二通道特征;基于各个第一通道特征之间的相似程度建立第一特征连接图,并基于各个图像块的图像位置建立第二特征连接图;将特征连接图中的通道特征和通道特征对应的邻居节点特征进行特征融合,得到融合特征;将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个目标图像块特征,并基于各个目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。采用本方法能够提高图像识别的准确性。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
随着人工智能技术的发展,出现了图像识别技术,图像识别是指利用计算机对图像进行处理、分析和理解,以识别各种不同模式的目标和对象的技术。目前,通常使用卷积神经网络来进行图像识别。即通过将待识别的图像输入到已训练的卷积神经网络模型中进行特征提取,然后使用提取得到的特征进行图像分类识别,得到图像分类识别结果。然而,使用卷积神经网络对图像进行特征提取,存在特征提取不连续的问题,导致提取得到的图像特征的准确性降低,进而导致图像识别的准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够图像识别准确性的图像识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种图像识别方法。所述方法包括:
获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
第二方面,本申请还提供了一种图像识别装置。所述装置包括:
特征提取模块,用于获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
特征划分模块,用于将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
连接图建立模块,用于基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
特征融合模块,用于基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
识别模块,用于基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
上述图像识别方法、装置、计算机设备、存储介质和计算机程序产品,通过将待识别图像进行划分,得到各个图像块,再将各个图像块的特征进行划分,得到第一通道特征集和第二通道特征集。然后基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图。再基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。即通过建立的不同的特征连接图进行特征融合,使得到的融合特征聚合有邻居节点特征的信息,从而提高了得到的融合特征的准确性,然后将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,使得到的目标图像块特征聚合有图像信息和位置信息,进一步提高了得到的目标图像块特征的准确性,最后使用各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果,提高了得到的图像分类识别结果的准确性。
附图说明
图1为一个实施例中图像识别方法的应用环境图;
图2为一个实施例中图像识别方法的流程示意图;
图3为一个具体实施例中特征融合的示意图;
图4为一个实施例中得到目标图像分类识别结果的流程示意图;
图5为一个具体实施例中融合特征进行激活的示意图;
图6为一个具体实施例中激活函数对比的示意图;
图7为一个实施例中得到增强图像分类识别结果的流程示意图;
图8为一个实施例中得到第三增强特征连接图的流程示意图;
图9为一个具体实施例中特征通道转移的架构示意图;
图10为一个实施例中得到目标增强图像块特征的流程示意图;
图11为一个具体实施例中图像识别方法的流程示意图;
图12为一个具体实施例中图像分类识别模型的框架示意图;
图13为一个具体实施例中对比测试结果的示意图;
图14为另一个具体实施例中对比测试结果的示意图;
图15为一个具体实施例中图像识别结果的示意图;
图16为一个实施例中图像识别装置的结构框图;
图17为一个实施例中计算机设备的内部结构图;
图18为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的图像识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。服务器104可以从数据存储系统中获取到待识别图像,也可以是从终端102获取到待识别图像。然后服务器104将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征。服务器104将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集。服务器104基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图。服务器104基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。服务器104基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,如图2所示,提供了一种图像识别方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,该方法包括以下步骤:
S202,获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征。
其中,待识别图像是指需要识别的图像。该待识别图像可以是各种类型的图像,比如,待识别图像可以是动物图像、植物图像、地点图像、人物图像和物体图像等,该待识别图像可以是不同图像文件存储格式的图像,比如,图像文件存储格式可以是JPG/JPEG(图像文件格式)、PNG(Portable Network Graphics,便携式网络图形)、TIFF(TagImage FileFormat,标签图像文件格式)、PSD(Photoshop Document,图像文件格式)以及SVG(ScalableVector Graphics,可缩放的矢量图形)等。图像块是指待识别图像中的区域,所有的图像块可以拼接得到待识别图像。图像块特征是指用于表征图像块的特征向量,该图像块特征可以包括图像块内容特征和图像块位置特征。图像块内容特征用于表征图像块的具体内容,比如,可以是根据图像块的像素值得到的特征。图像块位置特征用于表征图像块在待识别图像中的位置,比如,可以是根据图像块的位置坐标得到的特征。
具体地,服务器可以从数据库中获取到待识别图像。服务器也可以获取到终端上传的待识别图像。服务器也可以从提供图像识别服务的服务方获取到待识别图像。服务器还可以从互联网中获取到待识别图像。然后服务器将待识别图像进行划分,得到各个图像块,其中,可以按照预先设置好的划分得到的图像块数量来对待识别图像进行划分,可以按照预先设置好的图像块的大小对待识别图像进行划分。划分后得到的各个图像块的交集为零,各个图像块的并集是整个待识别图像。然后服务器提取每个图像块的特征,可以提取得到图像块的图像内容特征和图像位置特征,根据图像内容特征和图像位置特征得到图像块特征。
S204,将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集。
其中, 特征通道是指图像特征的通道,特征通道的数量和特征维度数相同,即特征向量中的每一个向量元素值对应一个特征通道。第一通道特征是指图像块特征中的各个第一通道的特征值组成的特征。第二通道特征是指图像块特征中的各个第二通道的特征值组成的特征。即将一个图像块特征划分为两部分,一部分为第一通道特征,另一部分为第二通道特征,比如,图像块特征为(1,0,1,1,1,0,0,0),将该图像块特征划分为两部分,得到的第一通道特征为(1,0,1,1),第二通道特征为(1,0,0,0)。第一通道特征集是指每个图像块对应的第一通道特征的集合。第二通道特征集是指每个图像块对应的第二通道特征的集合
具体地,服务器依次将每个各个图像块特征划分为两部分,其中,可以按照预先设置好的第一通道特征的通道数量和第二通道特征的通道数量进行划分,得到每个图像块特征对应的第一通道特征和每个图像块特征对应的第二通道特征。第一通道特征的通道数量和第二通道特征的通道数量的总和是图像块特征的通道数量。其中,第一通道特征的通道数量和第二通道特征的通道数量可以是相同的,比如,图像块特征的特征通道数量为50,可以将特征通道进行平均划分,从而得到第一通道特征和第二通道特征,该第一通道特征的特征通道数量,即特征维度为25,第二通道特征的特征通道数量,即特征维度也为25。第一通道特征的通道数量也可以小于第二通道特征的通道数量,第一通道特征的通道数量也可以大于第二通道特征的通道数量,可以根据需求设置。
S206,基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图。
其中, 第一特征连接图是指使用各个第一通道特征和相似程度建立的连接图。图像块的图像位置是指图像块在待识别图像中的位置,可以使用位置坐标来标识。第二特征连接图是指使用各个第二通道特征和图像块的图像位置建立的连接图
具体地,服务器使用相似度算法计算第一通道特征集中各个第一通道特征之间的相似程度,该相似度算法可以是距离相似度算法、余弦相似度算法等等。然后根据相似程度来确定各个第一通道特征之间的相似关系,然后将各个第一通道特征作为图节点,按照各个第一通道特征之间的相似关系将图节点进行连接,得到第一通道特征集对应的第一特征连接图。然后服务器获取到各个图像块的图像位置,根据各个图像块的图像位置来确定相邻的图像块,从而得到图像块的位置关系,然后将各个第二通道特征作为图节点,按照各个第二通道特征之间的位置关系将图节点进行连接,得到第二通道特征集对应的第二特征连接图。
S208,基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。
其中,第一通道特征对应的邻居节点特征是指第一特征连接图中与第一通道特征所在的图节点连接的图节点对应的第一通道特征。第一融合特征是指将第一通道特征的邻居节点特征进行聚合并对第一通道特征进行更新后得到的特征。第二通道特征对应的邻居节点特征是指第二特征连接图中与第二通道特征所在的图节点连接的图节点对应的第二通道特征。第二融合特征是指将第二通道特征的邻居节点特征进行聚合并对第二通道特征进行更新后得到的特征。
具体地,服务器将第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,其中,可以是将第一通道特征对应的所有邻居节点特征进行信息聚合并对第一通道特征进行更新,得到第一通道特征对应的第一融合特征。并将第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征,其中,可以是将第二通道特征对应的所有邻居节点特征进行信息聚合并对第二通道特征进行更新,得到第二通道特征对应的第二融合特征。
S210,基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
其中,目标图像块特征是根据第一融合特征和第二融合特征图像块特征得到的特征。图像分类识别结果用于表征待识别图像对应的图像内容识别结果。不同类型的图像有不同的图像分类识别结果,比如,物体图像识别结果可以是物体信息,动物图像识别结果可以是动物信息等,植物图像识别结果可以是植物信息、地点图像识别结果可以是地点信息、人物图像识别结果可以是人物信息等
具体地,服务器将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,其中,可以将第一融合特征作为首部,将第二融合特征作为尾部进行首尾拼接,得到拼接后的目标图像块特征,也可以将第二融合特征作为首部,将第一融合特征作为尾部进行首尾拼接,得到拼接后的目标图像块特征。服务器依次遍历拼接每个图像块特征对应的第一融合特征和第二融合特征,从而得到每个图像块特征对应的目标图像块特征。然后使用各个图像块特征分别对应的目标图像块特征进行图像分类识别,其中,可以将各个图像块特征分别对应的目标图像块特征一起通过全连接运算和归一化算法进行图像分类识别,得到待识别图像对应的图像分类识别结果。
上述图像识别方法、装置、计算机设备、存储介质和计算机程序产品,通过将待识别图像进行划分,得到各个图像块,再将各个图像块的特征进行划分,得到第一通道特征集和第二通道特征集。然后基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图。再基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。即通过建立的不同的特征连接图进行特征融合,使得到的融合特征聚合有邻居节点特征的信息,从而提高了得到的融合特征的准确性,然后将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,使得到的目标图像块特征聚合有图像信息和位置信息,进一步提高了得到的目标图像块特征的准确性,最后使用各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果,提高了得到的图像分类识别结果的准确性。
在一个实施例中,S202,提取各个图像块的特征,得到各个图像块特征,包括步骤:
提取各个图像块的像素特征,得到各个图像块像素特征;获取各个图像块的图像位置,将各个图像块的图像位置进行向量化,得到各个图像块位置特征;将各个图像块像素特征和对应的图像块位置特征进行融合,得到各个图像块特征。
其中,图像块像素特征是指用于表征图像块的内容的特征。图像块位置特征是指用于表征图像块在待识别图像中的位置的特征。
具体地,服务器获取到每个图像块中像素点的像素值,将每个图像块中像素点的像素值进行向量化,得到每个图像块对应的图像块像素特征。然后服务求获取各个图像块在待识别图像中的图像位置,该图像位置可以是图像块的横纵坐标,该图像块的横纵坐标可以是图像块中心位置像素点的坐标,也可以是图像块其他位置像素点的坐标,比如左上角、右上角、左下角、右下角的像素点的坐标。然后,服务器将每个图像块的图像位置,即将像素点的坐标进行向量化,可以通过位置编码嵌入对坐标进行编码,得到输出的相邻,即得到每个图像块对应的图像块位置特征。
最后服务器将每个图像块对应的图像块像素特征和图像块位置特征进行融合,该融合可以是将图像块像素特征和图像块位置特征进行特征向量运算,比如,可以进行特征向量的加和运算,乘积运算等等,从而得到每个图像块对应的图像块特征。
在上述实施例中,通过提取图像块像素特征和图像块位置特征,然后将图像块像素特征和对应的图像块位置特征进行融合,得到各个图像块特征,从而使图像块特征具有位置信息和图像内容信息,提高了图像块特征的准确性。
在一个实施例中,S206,基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,包括步骤:
计算各个第一通道特征之间的特征相似程度,基于特征相似程度确定各个第一通道特征之间的相似连接关系;将各个第一通道特征分别作为图节点,并按照相似连接关系将各个第一通道特征进行相连,得到第一特征连接图。
其中,特征相似程度是指用于表征第一通道特征之间的相似度,特征相似程度越高,说明该第一通道特征越相似,第一通道特征之间的联系就越紧密。相似连接关系是指根据特征相似程度确定的第一通道特征之间的连接关系。
具体地,服务器依次计算每个第一通道特征与其他第一通道特征之间的相似度,得到每个第一通道特征对应的各个特征相似程度。然后根据该特征相似度来确定每个第一通道特征与其他第一通道特征之间的相似连接关系,其中,可以确定特征相似度超过预设阈值的特征相似程度对应的两个第一通道特征之间具有相似连接关系。还可以将每个第一通道特征对应的各个特征相似程度进行排序,选取排序前列的预设数量的第一通道特征作为关联的其他第一通道特征,比如,计算当前的第一通道特征与其他所有第一通道特征的特征相似程度,然后将得到的各个特征相似程度进行排序,选取排序前9的其他第一通道特征,确定该9个其他第一通道特征与当前第一通道特征具有相似关联关系,即在建立连接图时,将该9个其他第一通道特征与当前第一通道特征进行连接。然后将每个第一通道特征作为连接图的图节点对应的特征,并按照相似连接关系将各个第一通道特征进行相连,得到第一特征连接图。
在上述实施例中,通过计算各个第一通道特征之间的特征相似程度确定各个第一通道特征之间的相似连接关系。然后将各个第一通道特征分别作为图节点,并按照相似连接关系将各个第一通道特征进行相连,从而得到的具备节点特征相似性信息的第一特征连接图,从而提高了第一特征连接图的准确性。
在一个实施例,S204,基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图,包括步骤:
基于各个图像块的图像位置确定各个图像块特征分别对应的第二通道特征的特征位置,基于特征位置确定第二通道特征集中各个第二通道特征之间的位置关系;将各个第二通道特征分别作为图节点,并按照位置关系将各个第二通道特征进行相连,得到第二特征连接图。
其中,特征位置是指用于表征第二通道特征的特征位置。位置关系是指根据特征位置确定的各个第二通道特征之间的连接关系。
具体地,服务器根据各个图像块的图像位置来确定位置相邻的图像块,然后根据位置相邻的图像块来确定位置相邻的第二通道特征,然后根据位置相邻的第二通道特征来确定各个第二通道特征之间的位置关系,即将位置相邻的各个第二通道特征之间建立连接关系。最后服务器将每个第二通道特征作为连接图中的图节点特征,然后将相邻位置的各个第二通道特征进行连接,得到第二特征连接图。比如,一个第二通道特征与其相邻的8个第二通道特征进行连接。当第二通道特征未存在相邻的8个第二通道特征,将缺失的第二通道特征使用“0”进行补齐,遍历每个第二通道特征,得到第二特征连接图。
在上述实施例中,通过使用各个图像块的图像位置确定第二通道特征集中各个第二通道特征之间的位置关系。然后将各个第二通道特征分别作为图节点,并按照位置关系将各个第二通道特征进行相连,从而得到的具备节点特征位置信息的第二特征连接图,从而提高了第二特征连接图的准确性。
在一个实施例中,S208,基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,包括步骤:
计算第一通道特征对应的邻居节点特征的平均特征,得到第一平均特征,并计算第一通道特征与第一通道特征对应的邻居节点特征之间的差值特征,得到第一差值特征;将第一通道特征、第一差值特征和第一平均特征进行拼接,得到第一拼接特征,并基于第一拼接特征进行全连接运算,得到第一通道特征对应的第一融合特征;遍历第一特征连接图中的各个第一通道特征,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征。
具体地,服务器从第一特征连接图确定第一通道特征对应的各个邻居节点特征,然后计算各个邻居节点特征的平均特征,即计算各个邻居节点特征的特征总和与特征数量,然后计算特征总和与特征数量的比值,得到第一平均特征。然后计算第一通道特征与每个邻居节点特征之间的差值,得到差值特征,然后比较的差值特征值的大小,将最大的差值特征作为第一差值特征。然后将第一通道特征、第一差值特征和第一平均特征进行拼接,其中,可以是将第一通道特征作为首部,将第一差值特征作为中间,并将第一平均特征作为尾部进行首尾拼接,得到第一拼接特征。最后服务器获取到预先训练好的全连接参数,使用全连接参数对第一拼接特征进行全连接运算,得到第一通道特征对应的第一融合特征。最后,服务器依次遍历第一特征连接图中每个第一通道特征,从而得到每个第一通道特征对应的第一融合特征。
在一个具体的实施例中,可以使用如下所示的公式(1)计算通道特征对应的融合特征,该通道特征可以是任意的通道特征,比如,可以使第一通道特征,也可以使第二通道特征。
公式(1)
其中,是指融合特征,w是指全连接权重,/>是指通道特征,/>是指邻居节点特征。/>是指通道特征与邻居节点特征之间最大的差值特征。/>是指邻居节点特征的平均特征。
在上述实施例中,通过计算第一平均特征和第一差值特征。然后将第一通道特征、第一差值特征和第一平均特征进行拼接,得到第一拼接特征,并基于第一拼接特征进行全连接运算,得到第一通道特征对应的第一融合特征,使得到的融合特征能够聚合邻居节点的特征信息,从而提高了第一融合特征的准确性。
在一个实施例中,S208,基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征,包括步骤:
计算第二通道特征对应的邻居节点特征的平均特征,得到第二平均特征,并计算第二通道特征与第二通道特征对应的邻居节点特征之间的差值特征,得到第二差值特征;将第二通道特征、第二差值特征和第二平均特征进行拼接,得到第二拼接特征,并基于第二拼接特征进行全连接运算,得到第二通道特征对应的第二融合特征;遍历第二特征连接图中的各个第二通道特征,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。
具体地,服务器从第二特征连接图确定第二通道特征对应的各个邻居节点特征,然后计算第二通道特征对应的各个邻居节点特征的平均特征,即计算各个邻居节点特征的特征总和与特征数量,然后计算特征总和与特征数量的比值,得到第二平均特征。然后计算第二通道特征与每个邻居节点特征之间的特征差值,然后比较的特征差值的大小,将最大的特征差值作为第二差值特征。然后将第二通道特征、第二差值特征和第一平均特征进行拼接,其中,可以是将第二通道特征作为首部,将第二差值特征作为中间,并将第二平均特征作为尾部进行首尾拼接,得到第二拼接特征。最后服务器获取到预先训练好的全连接参数,使用全连接参数对第二拼接特征进行全连接运算,得到第二通道特征对应的第二融合特征。最后,服务器依次遍历第二特征连接图中每个第二通道特征,从而得到每个第二通道特征对应的第二融合特征。
在一个具体的实施例中,如图3所示,为特征融合的示意图,具体来说:服务器计算特征连接图中每个通道特征的最大池化值Max-pooling,该最大池化值是指通道特征与特征连接图中各个邻居节点特征之间的最大差值。然后计算特征连接图中每个通道特征的最大池化值的数学期望值Expectation,该数学期望值是指通道特征在特征连接图中各个邻居节点特征的均值。然后将通道特征ldentit、最大池化值Max-pooling以及数学期望值Expectation进行拼接,再将拼接特征通过MLP(一种全连接神经网络)进行全连接运算,得到每个通道特征对应的融合特征。
在上述实施例中,通过计算第二平均特征和第二差值特征。然后将第二通道特征、第二差值特征和第二平均特征进行拼接,得到第二拼接特征,并基于第二拼接特征进行全连接运算,得到第二通道特征对应的第二融合特征,使得到的融合特征能够聚合邻居节点的特征信息,从而提高了第二融合特征的准确性。
在一个实施例中,如图4所示,S210,基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果,包括:
S402,获取第一信息增强参数,基于第一信息增强参数将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
其中, 第一信息增强参数是用于在对第一融合特征进行激活的过程中能够保留较多细节信息的参数,该第一信息增强参数可以是预先进行训练得到的参数。第一信息增强特征是指通过第一信息增强参数对第一融合特征进行激活后得到的特征。
具体地,服务器可以从数据库中获取到第一信息增强参数,然后使用第一信息增强参数通过激活函数将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,其中,可以是非线性激活,该激活函数可以是ReLu (Rectified Linear Unit,线性整流函数)激活函数,GELU(Gaussian Error Linear Unit,高斯误差线性单元)激活函数等等。服务器遍历每个第一通道特征对应的第一融合特征,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
S404,基于第一信息增强参数将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
S406,将同一个图像块特征分别对应的第一信息增强特征和第二信息增强特征进行拼接,得到各个图像块特征分别对应的增强图像块特征,并基于各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到待识别图像对应的目标图像分类识别结果。
其中,第二信息增强特征是指通过第一信息增强参数对第二融合特征进行激活后得到的特征。增强图像块特征是指将第一信息增强特征和第二信息增强特征进行拼接后得到的图像块特征。
具体地,服务器使用第一信息增强参数通过激活函数对每个第二通道特征对应的第二融合特征进行激活,从而得到每个第二通道特征对应的第二信息增强特征。然后服务器将同一个图像块对应的第一信息增强特征和第二信息增强特征进行首尾拼接,其中,可以是将第一信息增强特征作为首部,将第二信息增强特征作为尾部进行拼接,也可以按照图像块特征划分时的划分顺序进行拼接,比如,图像块特征划分得到的第一通道特征在首部,则第一通道特征对应的第一信息增强特征作为首部进行拼接。或者图像块特征划分得到的第二通道特征在首部,则第二通道特征对应的第二信息增强特征作为首部进行拼接。然后服务器可以获取到分类识别参数,该分类识别参数可以是预先训练得到的用于进行图像分类的参数。然后使用各个图像块特征分别对应的增强图像块特征通过分类识别参数进行图像分类识别,得到待识别图像对应的目标图像分类识别结果。
在上述实施例中,通过对第一融合特征和第二融合特征使用第一信息增强参数进行信息增强,能够使得到第一信息增强特征和第二信息增强特征保留较多的细节信息,避免使得到的特征过平滑的问题。然后根据第一信息增强特征和第二信息增强特征得到各个图像块特征分别对应的增强图像块特征,进一步提高的得到的增强图像块特征的准确性,最后使用强图像块特征进行图像分类识别,得到待识别图像对应的目标图像分类识别结果,提高了图像分类识别的准确性。
在一个实施例中,S402,基于第一信息增强参数将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征,包括:
基于第一信息增强参数对第一通道特征集中各个第一通道特征分别对应的第一融合特征进行非线性转换,得到第一通道特征集中各个第一通道特征分别对应的第一非线性特征,并计算第一非线性特征对应的高斯误差值,得到第一高斯误差值;将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行加权,得到第一通道特征集中各个第一通道特征分别对应的第一加权特征;计算第一加权特征与第一高斯误差值的乘积,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
其中,第一非线性特征是指第一融合特征对应的非线性转换后的特征。第一高斯误差值是指通过高斯误差函数对第一非线性特征进行计算后得到的值。第一加权特征是指使用预先设置好的权重对第一融合特征进行加权后得到的特征。
具体地,服务器使用第一信息增强参数对每个第一通道特征对应的第一融合特征进行非线性转换,其中,可以是计算第一融合特征与第一信息增强参数之间的比值,也可以对第一信息增强参数进行非线性转换后,计算第一融合特征与转换后的参数的比值,从而得到第一融合特征对应的第一非线性特征,该第一信息增强参数越小,最后得到的第一信息增强特征中保留的细节信息就越多,反之,该第一信息增强参数越大,最后得到的第一信息增强特征中保留的细节信息就越少。然后使用高斯误差函数计算第一非线性特征对应的第一高斯误差值,该高斯误差函数可以是erf(error function or Gauss errorfunction,高斯误差函数)函数。然后服务器对每个第一融合特征使用预先设置好的权重进行加权,得第一加权特征,该预先设置好的权重可以是0.5。最后服务器计算第一加权特征与第一高斯误差值的乘积,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
在上述实施例中,通过使用第一信息增强参数对第二融合特征进行非线性转换,得到第一非线性特征,然后计算第一非线性特征对应的高斯误差值,得到第一高斯误差值。再对第一融合特征进行加权,得到第一加权特征。最后计算第一加权特征与第一高斯误差值的乘积,得到各个第一通道特征分别对应的第一信息增强特征,能使得到的第一信息增强特征保留更多的细节信息,提高了得到的第一信息增强特征的准确性。
在一个实施例中,S404,基于第一信息增强参数将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征,包括:
基于第一信息增强参数对第二通道特征集中各个第二通道特征分别对应的第二融合特征进行非线性转换,得到第二通道特征集中各个第二通道特征分别对应的第二非线性特征,并计算第二非线性特征对应的高斯误差值,得到第二高斯误差值;将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行加权,得到第二通道特征集中各个第二通道特征分别对应的第二加权特征;计算第二加权特征与第二高斯误差值的乘积,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
其中,第二非线性特征是指第二融合特征对应的非线性转换后的特征。第二高斯误差值是指通过高斯误差函数对第二非线性特征进行计算后得到的值。第二加权特征是指使用预先设置好的权重对第二融合特征进行加权后得到的特征。
具体地,服务器使用第一信息增强参数对每个第二通道特征对应的第二融合特征进行非线性转换,其中,可以是计算第二融合特征与第一信息增强参数之间的比值,也可以对第一信息增强参数进行非线性转换后,计算第二融合特征与转换后的参数的比值,从而得到第二融合特征对应的第二非线性特征,该第一信息增强参数越小,最后得到的第二信息增强特征中保留的细节信息就越多,反之,该第二信息增强参数越大,最后得到的第二信息增强特征中保留的细节信息就越少。然后使用高斯误差函数计算第二非线性特征对应的第二高斯误差值,该高斯误差函数可以是erf(error function or Gauss errorfunction,高斯误差函数)函数。然后服务器对每个第二融合特征使用预先设置好的权重进行加权,得第二加权特征,该预先设置好的权重可以是0.5,与对第一融合特征进行加权时使用的权重相同。最后服务器计算第二加权特征与第二高斯误差值的乘积,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
在上述实施例中,通过使用第一信息增强参数对第二融合特征进行非线性转换,得到第二非线性特征,然后计算第二非线性特征对应的高斯误差值,得到第二高斯误差值。再对第二融合特征进行加权,得到第二加权特征。最后计算第二加权特征与第二高斯误差值的乘积,得到各个第二通道特征分别对应的第二信息增强特征,能使得到的第二信息增强特征保留更多的细节信息,提高了得到的第二信息增强特征的准确性。
在一个具体的实施例中,如图5所示,为融合特征进行激活的示意图,其中,通过将融合特征的连接图作为输入图,该融合特征可以是第一融合特征,也可以是第二融合特征。然后使用图误差线性激活函数对融合特征的连接图中融合特征进行图误差线性激活,从而得到输出的连接图,该输出的连接图中的增强特征包含有较多的细节信息,比如,图中阴影圆圈对应的节点为增强了细节的特征。
在一个具体的实施例中,也可以使用如下所示的公式(2)进行非线性激活,从而得到融合特征对应的信息增强特征,该融合特征可以是第一融合特征,也可以是第二融合特征。
公式(2)
其中,GraphLU(x)是指通过图误差线性激活函数GraphLU进行激活后得到的增强特征。X是指输入的融合特征。是指信息增强参数,是预先进行训练得到的。/>是指对融合特征进行非线性转换后得到的非线性特征。/>是指通过高斯误差函数erf进行计算得到的高斯误差值。0.5x是指计算得到的加权特征。如图6所示,为激活函数对比的示意图,具体来说:图误差线性激活函数GraphLU相对比于其他激活函数RELU激活函数以及GELU激活函数,在低特征值区域可以使输出的特征保留更加的细节信息,比如,输入为(4.79,0.21,…-2.72,-3.17)的融合特征,通过RELU激活函数进行激活,得到(4.79,0.21,…0,0),通过GELU激活函数进行激活,得到(4.79,0.12,…-0.01,0),明显的,低特征值区域的特征值为0或者接近0缺失细节信息。而通过GraphLU激活函数进行激活后得到的增强特征为(4.78,0.12,…-0.15,-0.10),明显的保留了较多的细节信息。即通过GraphLU激活函数可以使输入的融合特征增强低值信息,减少图网络的细节信息压缩,从而缓解过度平滑问题。
在一个实施例中,如图7所示,S306,基于各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到待识别图像对应的目标图像分类识别结果,包括:
S702,将各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集,第二增强通道特征集中第二增强通道特征的通道数量和第三增强通道特征集第三增强通道特征的通道数量之和与第二通道特征的通道数量相同。
其中,第一增强通道特征是指增强图像块特征中各个第一特征通道的特征值组成的特征。第二增强通道特征是指增强图像块特征中各个第二特征通道的特征值组成的特征。第三增强通道特征是指增强图像块特征中各个第三特征通道的特征值组成的特征。通道数量是指特征通道的数量,可以理解为特征维度,比如,128通道的特征,即是128维度的特征。第一增强通道特征、第二增强通道特征以及第三增强通道特征的特征通道的数量总和与增强图像块特征的特征通道数量相同。
具体地,服务器将增强图像块特征划分为三部分,第一部分的特征通道数量与第一通道特征的特征通道数量相同,第一部分的特征通道与第一通道特征的特征通道相同,将划分得到的第一部分作为第一增强通道特征。第二部分的特征通道数量以及第三部分的特征通道数量的总和与第二通道特征的特征通道数量相同,第二部分的特征通道以及第三部分的特征通道与第二通道特征的特征通道相同。即在划分时,维持第一通道特征的特征通道不变,直接作为第一增强通道特征的特征通道,将第二通道特征对应的特征通道划分为两部分,一部分为第二增强通道特征的特征通道,另一部分为第三增强通道特征的特征通道,然后获取到特征通道的特征值,得到第一增强通道特征、第二增强通道特征集和第三增强通道特征。比如,图像块特征有15个特征通道,在划分时,前5个特征通道的特征值划分到一起,得到第一通道特征,后10个特征通道的特征值划分到一起,得到第二通道特征。则将增强图像块特征的15个特征通道进行划分时,将前5个特征通道的特征值划分到一起,得到第一增强通道特征,将后10个特征通道的划分为2部分,一部分为4个特征通道,获取到该4个特征通道的特征值,得到第二增强通道特征,另一部为6个特征通道,获取到该6个特征通道的特征值,得到第三增强通道特征。
服务器将每个增强图像块特征进行划分,得到每个增强图像块特征对应的第一增强通道特征,即得到第一增强通道特征集,同时得到每个增强图像块特征对应的第二增强通道特征,即得到第二增强通道特征集以及得到每个增强图像块特征对应的第三增强通道特征,即得到第三增强通道特征集。
在一个实施例中,在对增强图像块特征进行划分之前,可以获取到图像块的位置特征,然后计算图像块的位置特征与对应的增强图像块特征的特征和,得到图像块的待划分特征,然后将待划分特征进行划分,得到第一增强通道特征、第二增强通道特征和第三增强通道特征,从而可以使特征具有位置信息,避免位置信息的遗失,提高图像块特征的准确性。
S704,基于第一增强通道特征集中各个第一增强通道特征之间的相似程度建立第一增强通道特征集对应的第一增强特征连接图,并基于各个图像块的图像位置建立第二增强通道特征集对应的第二增强特征连接图。
其中,第一增强特征连接图是指使用各个第一增强通道特征和各个第一增强通道特征之间的相似程度关系建立的连接图。第二增强特征连接图是指使用各个第二增强通道特征和各个第二增强通道特征之间的相邻位置关系建立的连接图。
具体地,服务器计算各个第一增强通道特征之间的相似程度,即计算第一增强通道特征与其他第一增强通道特征之间的相似程度,根据相似程度从其他第一增强通道特征中选取与该第一增强通道特征具有相似关系的第一增强通道特征,比如可以选取相似程度排序前列的预设数量的其他第一增强通道特征作为与该第一增强通道特征具有相似关系的第一增强通道特征,将具有相似关系的第一增强通道特征进行连接,得到第一增强特征连接图。然后,服务器根据各个图像块的图像位置来确定对应的第二增强通道特征之间的位置关系,比如,图像块之间的位置是相邻的,则对应的第二增强通道特征之间具有相邻的位置关系,然后将具有相邻位置关系的第二增强特征进行连接,得到第二增强特征连接图。
S706,基于各个图像块的图像位置确定第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征,基于第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立第三增强通道特征集对应的第三增强特征连接图。
其中,相邻增强通道特征是指与第三增强通道特征具有相邻位置关系的增强通道特征。第三增强特征连接图是指使用各个第三增强特征和相邻增强通道特征之间的相似程度建立的连接图。
具体地,服务器根据图像块与第三增强通道特征的对应关系来确定第三增强通道特征对应的相邻增强通道特征,即两个图像块是相邻的,则对应的第三增强通道特征是相邻的。每一个第三增强通道特征可以对应有多个相邻增强通道特征,然后可以计算多个相邻增强通道特征的平均增强通道特征,从而得到该第三增强通道特征对应的最终的相邻增强通道特征。服务器遍历计算每个第三增强通道特征对应的相邻增强通道特征,然后使用相似度算法计算相邻增强通道特征之间的相似程度,将相邻增强通道特征之间的相似程度作为对应第三增强通道特征之间的相似程度,然后选取与第三增强通道特征的相似程度超过预设阈值的其他第三增强通道特征,得到与该第三增强通道特征具有相似关系的其他第三增强通道特征。然后服务器将每个第三增强通道特征作为连接图中的图节点,然后将具有相似关系的第三增强通道特征进行连接,从而得到第三增强特征连接图,即通过在确定连接关系时,不仅考虑图节点本身特征,还考虑了图节点的邻居节点的特征的相似性,从而使得到的相似关系更加准确,进而使得到的第三增强特征连接图更加的准确。
S708,基于第一增强特征连接图中的第一增强通道特征和第一增强通道特征对应的邻居节点特征进行特征融合,得到第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征。
S710,基于第二增强特征连接图中第二增强通道特征和第二增强通道特征分别对应的邻居节点特征进行特征融合,得到第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征。
其中,第一融合增强特征是指使用邻居节点特征对第一增强通道特征进行信息聚合和更新后得到的特征。第二融合增强特征是指使用邻居节点特征对第二增强通道特征进行信息聚合和更新后得到的特征。
具体地,服务器可以计算第一增强通道特征对应的邻居节点特征的平均特征,然后计算第一增强通道特征与第一增强通道特征对应的邻居节点特征之间的差值特征,最后将第一增强通道特征、对应的平均特征和差值特征进行拼接,最后将拼接结果进行全连接运算,得到第一增强通道特征对应的第一融合增强特征。同理,服务器可以计算第二增强通道特征对应的邻居节点特征的平均特征,然后计算第二增强通道特征与第二增强通道特征对应的邻居节点特征之间的差值特征,最后将第二增强通道特征、对应的平均特征和差值特征进行拼接,最后将拼接结果进行全连接运算,得到第二增强通道特征对应的第二融合增强特征,比如,服务器可以直接使用公式(1)来计算第一增强通道特征对应的第一融合增强特征,也可以直接使用公式(1)来计算第二增强通道特征对应的第二融合增强特征,其中,不同的通道特征使用不同的全连接权重进行全连接运算,该全连接权重是预先训练好的,比如,计算第一增强通道特征对应的第一融合增强特征时,使用对应的第一全连接权重进行全连接运算,计算第二增强通道特征对应的第二融合增强特征时,使用对应的第二全连接权重进行全连接运算。
S712,基于第三增强特征连接图中第三增强通道特征和第三增强通道特征分别对应的邻居节点特征进行特征融合,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征。
其中,第三融合增强特征是指使用邻居节点特征对第三增强通道特征进行信息聚合和更新后得到的特征。
具体地,服务器从第三增强特征连接图中获取到第三增强通道特征对应的邻居节点特征,然后计算第三增强通道特征对应的所有邻居节点特征的平均特征,然后计算第三增强通道特征与第三增强通道特征对应的邻居节点特征之间的差值特征,该差值特征可以是第三增强通道特征与邻居节点特征之间的最大差值的特征。最后将第三增强通道特征、对应的平均特征和差值特征进行拼接,最后将拼接结果进行全连接运算,得到第三增强通道特征对应的第三融合增强特征。即服务器可以直接使用公式(1)来计算第三增强通道特征对应的第三融合增强特征,其中,全连接权重可以使用第三增强特征连接图对应的训练好的全连接权重。
S714,基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征。
S716,基于各个图像块特征分别对应的目标增强图像块特征进行图像分类识别,得到待识别图像对应的增强图像分类识别结果。
其中,目标增强图像块特征是指进一步对增强图像块特征进行信息增强后得到的图像块特征。
具体地,服务器再将同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到每个图像块特征分别对应的目标增强图像块特征,然后再使用目标增强图像块特征进行图像分类识别,得到待识别图像对应的增强图像分类识别结果。
在上述实施例中,通过将增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集,然后分别建立对应的增强特征连接图,最后使用增强特征连接图将邻居节点特征进行聚合并更新图节点的增强通道特征,从而得到融合增强特征,提高了得到的图像块特征的准确性。最后将同一个图像块特征的融合增强特征进行拼接后,得到目标融合增强特征,即逐步将第二通道特征的特征通道进行划分,得到第二增强通道特征和第三增强通道特征,即增强了通过相似程度建立连接图的特征通道,减少了通过图像位置建立连接图的特征通道,从而使特征通道发生变化的特征具有邻居节点相似程度的信息,从而使得到的目标融合增强特征更加准确。然后使用目标融合增强特征进行图像分类识别,提高了图像分类识别的准确性。
在一个实施例中,如图8所示,S704,基于第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立第三增强通道特征集对应的第三增强特征连接图,包括:
S802,从各个第三增强通道特征中选取当前特征和目标特征。
S804,基于各个图像块的图像位置从各个第三增强通道特征中确定当前特征对应的各个当前相邻特征,将各个当前相邻特征进行信息聚合,得到当前聚合相邻特征。
其中,当前特征是指当前的第三增强通道特征,目标特征可以是指除当前特征以外的任意一个第三增强通道特征,即是需要与当前特征计算相似程度的第三增强通道特征。
具体地,服务器从各个第三增强通道特征中依次选取当前特征和目标特征。然后根据各个图像块的图像位置来确定对应的第三增强通道特征的位置,然后根据图像块的相邻位置关系来确定当前特征对应的各个当前相邻特征,获取到与当前特征对应图像块相邻的图像块对应的第三增强通道特征,将相邻的图像块对应的第三增强通道特征作为各个当前相邻特征。然后计算各个当前相邻特征进行信息聚合,比如,可以计算各个当前相邻特征的平均特征,或者可以计算各个当前相邻特征的特征和等等,从而得到当前聚合相邻特征。
S806,基于各个图像块的图像位置从各个第三增强通道特征中确定目标特征对应的各个目标相邻特征,将各个目标相邻特征进行信息聚合,得到目标聚合相邻特征。
具体地,服务器根据图像位置确定与目标特征对应的图像块相邻的各个图像块,然后将该相邻的各个图像块对应的第三增强通道特征作为目标特征对应的各个目标相邻特征。然后可以计算各个目标相邻特征的平均特征,得到目标聚合相邻特征,也可以计算各个目标相邻特征的特征和,得到目标聚合相邻特征。
S808,计算当前聚合相邻特征与目标聚合相邻特征的相似程度,得到当前特征和目标特征之间的相似程度。
S810,遍历各个第三增强通道特征,得到各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度,将各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度作为各个第三增强通道特征之间的目标相似程度。
S812,基于目标相似程度确定各个第三增强通道特征之间的目标连接关系,并将各个第三增强通道特征分别作为图节点,按照目标连接关系将各个第三增强通道特征进行相连,得到第三增强特征连接图。
具体地,服务器使用相似度算法计算当前聚合相邻特征与目标聚合相邻特征的相似程度,将该相似程度作为当前特征和目标特征之间的相似程度。服务器计算每个第三增强通道特征与其他第三增强通道特征的相似程度,然后根据相似程度选取与每个第三增强通道特征具有目标连接关系的其他第三增强通道特征,比如,将第三增强通道特征与其他第三增强通道特征的相似程度进行排序,选取排序前三的相似程度对应的其他第三增强通道特征作为与该第三增强通道特征具有目标连接关系的第三增强通道特征。然后将各个第三增强通道特征分别作为图节点,按照目标连接关系将各个第三增强通道特征进行相连,得到第三增强特征连接图。
在一个具体的实施例中,如图9所示,为特征通道转移的架构示意图,具体来说:图像块对应的图像块特征示意图中的每一列代表一个图像块特征,每一行代表一个特征通道。每一列中的圆圈代表特征通道中的特征值。将图像块特征进行划分后,每一列中所有的白色的圆圈是指第一通道特征,其中,h表示第一通道特征的通道特征数量,表示第h个特征通道的特征值,该特征值是图像块特征的特征值,k用于表示图像块特征。每一列中所有的黑色的圆圈是指第二通道特征/>,/>表示图像块特征的通道数量,/>表示第/>个特征通道的特征值。然后根据各个第一通道特征建立对应的第一特征连接图,根据各个第二通道特征建立对应的第二特征连接图。然后对特征连接图中的图节点特征进行特征融合和激活,从而得到第一信息增强特征的连接图和第二信息增强特征的连接图,该第一信息增强特征的连接图中的图节点是第一通道特征对应的第一信息增强特征,连接关系是第一通道特征之间的相似连接关系。第二信息增强特征的连接图中的图节点是第二通道特征对应的第二信息增强特征,连接关系是第二通道特征之间的位置关系。
根据第一信息增强特征的连接图和第二信息增强特征的连接图得到增强图像块特征。然后将增强图像块特征进行划分,在划分时,进行特征通道的转移,其中,第个特征通道到第/>个特征通道是可以发生转移的特征通道。即将一部分第二通道特征对应的特征通道划分为第一通道特征的特征通道,从而得到发生转移的特征通道的特征,将该发生转移的特征通道的特征作为第二增强通道特征,将未转移的特征通道的特征作为第三增强通道特征,第一通道特征对应的特征通道的增强通道特征直接作为第一增强通道特征。即图像块对应的增强图像块特征示意图中的每一列代表一个增强图像块特征,每一行代表一个特征通道。每一列中的圆圈代表特征通道中的特征值。将图像块特征进行划分后,每一列中所有的白色的圆圈是指第一增强通道特征/>,/>表示第h个特征通道的特征值,该特征值是增强图像块特征的特征值,k+1用于表示图像块特征迭代一次后得到的增强图像块特征。每一列中颜色从黑色变化为白色的圆圈是指第二增强通道特征/>,即从第h+1个的特征通道到第m个的特征通道发生了变化,每一列中所有的黑色的圆圈是指第三增强通道特征/>。然后使用根据各个第一增强通道特征建立对应的第一增强特征连接图,根据各个第二增强通道特征建立对应的第二增强特征连接图,根据第各个三增强通道特征建立对应的第三增强特征连接图。
在上述实施例中,通过计算当前特征对应的当前聚合相邻特征与目标特征对应的目标聚合相邻特征的相似程度,得到当前特征和目标特征之间的相似程度,然后根据相似程度来确定目标连接关系,最后使用各个第三增强通道特征和目标连接关系来建立第三增强特征连接图,从而使建立的第三增强特征连接图能够具有邻居节点特征的相似信息,从而提高了第三增强特征连接图的准确性。
在一个实施例中,如图10所示,S714,基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征,包括:
S1002,获取第二信息增强参数,基于第二信息增强参数将第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征进行激活,得到第一增强通道特征集中各个第一增强通道特征分别对应的第一激活特征。
S1004,基于第二信息增强参数将第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征进行激活,得到第二增强通道特征集中各个第二增强通道特征分别对应的第二激活特征。
S1006,基于第二信息增强参数将第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征;
S1008,将同一个图像块特征分别对应的第一激活特征、第二激活增强特征和第三激活特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征。
其中,第二信息增强参数是指在对融合增强特征进行激活时使用的信息增强参数,该第二信息增强参数用于在激活时保留融合增强特征中的细节信息。
具体地,服务器获取第二信息增强参数,然后使用第二信息增强参数分别对第一增强通道特征、第二增强通道特征以及第三增强通道特征进行激活,从而得到每个图像块特征对应的目标增强图像块特征。其中,在进行激活时,可以使用公式(2)进行非线性激活,即通过使用图误差线性激活函数GraphLU对第一增强通道特征、第二增强通道特征以及第三增强通道特征分别进行计算,得到输出的第一激活特征、第二激活特征以及第三激活特征。
在上述实施例中,通过使用第二信息增强参数将同一个图像块特征对应的增强通道特征进行激活,得到激活特征,最后将激活特征进行拼接得到各个图像块特征分别对应的目标增强图像块特征,从而使得到的目标增强图像块特征能够保留更加的细节信息,从而提高了到的目标增强图像块特征的准确性。
在一个实施例中,S806,基于第二信息增强参数将第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征,包括:
基于第二信息增强参数对第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行非线性转换,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三非线性特征,并计算第三非线性特征对应的高斯误差值,得到第三高斯误差值;
将第三增强通道特征集中各个第三增强通道特征分别对应的第二融合增强特征进行加权,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三加权特征;
计算第三加权特征与第三高斯误差值的乘积,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征。
其中,第三非线性特征是指第三增强通道特征对应的非线性转换后的特征。第三高斯误差值是指通过高斯误差函数对第三非线性特征进行计算后得到的值。第三加权特征是指使用预先设置好的权重对第三增强通道特征进行加权后得到的特征。第三激活特征是指使用第二信息增强参数对第三增强通道特征进行激活后得到的特征。
具体地,服务器使用第二信息增强参数对每个第三增强通道特征进行非线性转换,其中,可以是计算第三增强通道特征与第二信息增强参数之间的比值,也可以对第二信息增强参数进行非线性转换后,计算第三增强通道特征与转换后的参数的比值,从而得到第三非线性特征,该第二信息增强参数越小,最后得到的第二信息增强特征中保留的细节信息就越多,反之,该第二信息增强参数越大,最后得到的第二信息增强特征中保留的细节信息就越少。然后使用高斯误差函数计算第三非线性特征对应的第三高斯误差值,该高斯误差函数可以是erf(error function or Gauss error function,高斯误差函数)函数。然后服务器对每个第三增强通道特征使用预先设置好的权重进行加权,得第三加权特征,该预先设置好的权重可以是0.5。最后服务器计算第三加权特征与第三高斯误差值的乘积,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征。
在上述实施例中,通过使用第二信息增强参数对第二第三增强通道特征进行非线性转换,得到第三非线性特征,然后计算第三非线性特征对应的高斯误差值,得到第三高斯误差值。再对第三增强通道特征进行加权,得到第三加权特征。最后计算第三加权特征与第三高斯误差值的乘积,得到各个第三增强通道特征分别对应的第三激活特征,能使得到的第三激活特征保留更多的细节信息,从而提高了得到的第三信息增强特征的准确性。
在一个实施例中,图像识别方法,还包括:
将目标增强图像块特征作为增强图像块特征,并返回将各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加,第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少;
直到达到预设迭代完成条件时,得到各个图像块特征分别对应的最终图像块特征,并基于各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到待识别图像对应的最终图像分类识别结果。
其中,预设数量是指预先设置好的要进行转移的特征通道数量,即需要将第三增强通道特征中的部分特征通道转移到第二增强通道特征的特征通道中。预设迭代完成条件是指预先设置好的图像块的特征提取完成的条件。
具体地,服务器每次迭代时,按照预先设置好的要减少的特征通道数将第三增强通道特征的特征通道进行减少,并将减少的特征通道增加到第二增强通道特征的特征通道中。其中,每次迭代时要减少的特征通道数可以相同,也可以不同,可以根据需求设置。比如,第一迭代时,划分得到的第三增强通道特征的特征通道为30,第三增强通道特征的特征通道为10,预先设置好的要减少的特征通道数为5,则第二次迭代时,划分得到的第三增强通道特征的特征通道可以为25,第三增强通道特征的特征通道可以为15,第一增强通道特征的特征通道数量保持不变,从而使第二增强通道特征对应的图节点的特征就逐步具有邻居节点的相似信息。直到达到预先设置好的迭代次数或者达到预先设置好的第三增强通道特征的特征通道数量的下限值,达到预设迭代完成条件。此时,服务器将最后一次迭代得到的目标增强图像块特征作为最终图像块特征,从而得到每个图像块特征对应的最终图像块特征,并使用每个图像块特征对应的最终图像块特征进行图像分类识别,得到待识别图像对应的最终图像分类识别结果
在上述实施例中,通过将目标增强图像块特征作为增强图像块特征,并返回将各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加,第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少;直到达到预设迭代完成条件时,得到各个图像块特征分别对应的最终图像块特征,能够使最终图像块特征能够具有邻居节点的相似信息,从而提高了得到最终图像块特征的准确性。然后使用各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到待识别图像对应的最终图像分类识别结果,提高了图像分类识别的准确性。
在一个实施例中,S210,即基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果,包括:
将图像块特征分别对应的目标图像块特征进行划分,得到第一目标通道特征集、第二目标通道特征集和第三目标通道特征集,第二目标通道特征集中第二目标通道特征的通道数量和第三目标通道特征集第三目标通道特征的通道数量之和与第二通道特征的通道数量相同;
基于第一目标通道特征集中各个第一目标通道特征之间的相似程度建立第一目标通道特征集对应的第一目标特征连接图,并基于各个图像块的图像位置建立第二目标通道特征集对应的第二目标特征连接图;
基于各个图像块的图像位置确定第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征,基于第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征之间的相似程度建立第三目标通道特征集对应的第三目标特征连接图;
基于第一目标通道特征连接图中的第一目标通道特征和第一目标通道特征对应的邻居节点特征进行特征融合,得到第一目标通道特征集中各个第一目标通道特征分别对应的第一融合目标特征;
基于第二目标特征连接图中第二目标通道特征和第二目标通道特征分别对应的邻居节点特征进行特征融合,得到第二目标通道特征集中各个第二目标通道特征分别对应的第二融合目标特征;
基于第三目标特征连接图中第三目标通道特征和第三目标通道特征分别对应的邻居节点特征进行特征融合,得到第三目标通道特征集中各个第三目标通道特征分别对应的第三融合目标特征;
基于同一个图像块特征分别对应的第一融合目标特征、第二融合目标特征和第三融合目标特征进行拼接,得到各个图像块特征分别对应的当前图像块特征;
基于各个图像块特征分别对应的当前图像块特征进行图像分类识别,得到待识别图像对应的当前图像分类识别结果。
具体地,服务器也可以直接使用目标图像特征进行划分,得到第一目标通道特征集、第二目标通道特征集和第三目标通道特征集,然后建立对应的第一目标特征连接图、第二目标特征连接图和第三目标特征连接图,再使用第一目标特征连接图、第二目标特征连接图和第三目标特征连接图进行特征融合,得到第一融合目标特征、第二融合目标特征和第三融合目标特征,最后将同一个图像块特征分别对应的第一融合目标特征、第二融合目标特征和第三融合目标特征进行拼接后,得到当前图像块特征,最后使用当前图像块特征进行分类识别,得到当前图像分类识别结果。即服务器可以直接将目标图像块特征作为增强图像块特征,然后可以实现上述实施例中使用增强图像块特征进行图像分类识别的任意一实施例中的步骤。
在上述实施例中,通过对目标图像块特征进行划分,得到第一目标通道特征集、第二目标通道特征集和第三目标通道特征集,然后建立对应的第一目标特征连接图、第二目标特征连接图和第三目标特征连接图,再使用第一目标特征连接图、第二目标特征连接图和第三目标特征连接图进行特征融合,得到第一融合目标特征、第二融合目标特征和第三融合目标特征,最后将同一个图像块特征分别对应的第一融合目标特征、第二融合目标特征和第三融合目标特征进行拼接后进行分类识别,即直接对目标图像特征进行划分,减少了信息增强的步骤,然后进行分类识别,提高了分类识别的效率。
在一个实施例中,图像识别方法,还包括:
将待识别图像输入到图像分类识别模型中,通过图像分类识别模型将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
通过图像分类识别模型将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
通过图像分类识别模型使用第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
通过图像分类识别模型使用第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
通过图像分类识别模型将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到输出的待识别图像对应的图像分类识别结果。
其中,图像分类识别模型是预先训练好的图神经网络模型,该图神经网络模型用于对图像进行分类识别。在训练时,使用训练图像作为输入,使用训练图像对应的分类识别结果作为标签进行训练,并使用分类损失函数来计算分类损失信息,并不断进行迭代更新,直到训练完成时,得到该图像分类识别模型。分类损失函数可以是交叉熵损失函数。
具体地,服务器对模型参数初始化的图像分类识别模型进行训练得到图像分类识别模型,然后将图像分类识别模型进行部署。当获取到待识别图像时,调用图像分类识别模型对待识别图像进行分类识别,得到图像分类识别结果。其中,该图像分类识别模型可以通过实现上述任意一个实施例中的步骤来得到图像分类识别结果。
在上述实施例中,通过图像分类识别模型提取得到待识别图像对应的各个目标图像块特征,提高了得到的目标图像块特征的准确性,然后使用待识别图像对应的各个目标图像块特征进行分类识别,提高了图像分类识别的准确性。
在一个具体的实施例中,如图11所示,为图像识别方法的流程示意图,由计算机设备执行,该计算机设备可以服务器,也可以是终端,具体来说:
S1102,获取待识别图像,将待识别图像输入到图像分类识别模型中,通过图像分类识别模型将待识别图像进行划分,得到各个图像块,并提取各个图像块的像素特征,得到各个图像块像素特征。获取各个图像块的图像位置,将各个图像块的图像位置进行向量化,得到各个图像块位置特征;将各个图像块像素特征和对应的图像块位置特征进行融合,得到各个图像块特征。
S1104,通过图像分类识别模型将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集。
S1106,通过图像分类识别模型基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图。
S1108,通过图像分类识别模型基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。
S1110,通过图像分类识别模型获取第一信息增强参数,基于第一信息增强参数将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征;基于第一信息增强参数将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征;将同一个图像块特征分别对应的第一信息增强特征和第二信息增强特征进行拼接,得到各个图像块特征分别对应的增强图像块特征。
S1112,通过图像分类识别模型计算各个图像块分别对应的图像块位置特征和增强图像块特征的和,得到各个图像块分别对应的待划分图像块特征,并将各个图像块分别对应的待划分图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集。基于第一增强通道特征集中各个第一增强通道特征之间的相似程度建立第一增强通道特征集对应的第一增强特征连接图,并基于各个图像块的图像位置建立第二增强通道特征集对应的第二增强特征连接图。
S1114,通过图像分类识别模型基于各个图像块的图像位置确定第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征,基于第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立第三增强通道特征集对应的第三增强特征连接图。
S1116,通过图像分类识别模型基于第一增强特征连接图中的第一增强通道特征和第一增强通道特征对应的邻居节点特征进行特征融合,得到第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征。基于第二增强特征连接图中第二增强通道特征和第二增强通道特征分别对应的邻居节点特征进行特征融合,得到第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征;
S1118,通过图像分类识别模型基于第三增强特征连接图中第三增强通道特征和第三增强通道特征分别对应的邻居节点特征进行特征融合,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征;基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征。
S1120,通过图像分类识别模型将目标增强图像块特征作为增强图像块特征,并返回计算各个图像块分别对应的图像块位置特征和增强图像块特征的和,得到各个图像块分别对应的待划分图像块特征,并将各个图像块分别对应的待划分图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少,第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加;直到达到预设迭代完成条件时,得到各个图像块特征分别对应的最终图像块特征,并基于各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到待识别图像对应的最终图像分类识别结果
在上述实施例中,通过图像分类识别模型进行分类识别,能够提高图像分类识别的精度,并且图像分类识别模型的模型参数减少,从而提高了模型的运行速度。
在一个具体的实施例中,如图12所示,提供一种图像分类识别模型的框架示意图,该图像分类识别模型是一种渐进式视觉图(Progressive Vision Graph,PVG)架构,采用级联的四段式,每个阶段开始时获取位置编码嵌入(Patch Embedding)。即将图片切块,每个图像块有一个横纵坐标,位置编码嵌入(Patch Embedding)是对图像块的横纵坐标进行编码,输出一个向量并与图像块的像素特征进行相加得到新的图像块特征。然后紧接着的是PVG的网络块(Block),该网络块至少存在一个。每个网络块中包括三个模块,即图构建模块,图节点融合模块以及激活模块。其中,图构建模块(PSGC,ProgressivelySeparatedGraph Construction)通过逐渐增加相似连接图分支的通道数和减少位置连接图分支的通道数来引入邻居节点的相似性。该图构建模块的构建示意图可以是如图9所示的示意图。图节点融合模块(MaxE,Max pooling and mathematical Expectation)通过使用最大池化和数学期望来聚合丰富的邻居信息,主要包括三个操作:恒等映射、邻居节点的数学期望和最大池化。该图节点融合模块的结构示意图可以是如图3所示的示意图。激活模块GraphLU是来增强低值信息,以减少图网络的细节信息压缩,从而缓解过度平滑问题该激活模块GraphLU的示意图可以是如图5所示的示意图。然后,当所有的网络块都执行完成时,进入下一个阶段重复迭代执行,每个阶段中模型参数不同,直到4个阶段都执行完成时,得到该待识别图像对应的每个图像块的最终图像块特征,然后使用每个图像块的最终图像块特征进行分类识别,可以使用模型的输出层进行分类识别,该输出层可以是使用全连接神经网络建立的,然后得到输出的图像分类识别结果。
然后使用测试数据对上述图像分类识别模型和现有的图像分类识别模型进行对比测试,首先,在ImageNet(一个用于视觉对象识别软件研究的大型可视化数据库)上进行对比测试,得到的测试结果如图13所示,其中,Model是指模型,是要进行对比测试的模型,包括ResNet(深度残差网络)模型、ConvNeXt(由标准的ConvNet模块构成的)模型、PVT(用于密集预测任务的纯Transformer主干网络)模型、T2T-ViT(Tokens-to-Token ViT,一种渐进式tokens化模块的ViT)模型、Swin模型、ViT(Vision Transformer,纯Transformer模型)模型、Focal(小目标检测模型)模型、CrossFormer(基于跨尺度注意力的视觉Transformer)模型、RegionViT(改进的ViT模型)模型、ViG(Vision GNN,通用视觉模型)模型以及本申请的PVG模型。Mixing Type是指混合类型,包括Conv(卷积)、Attn(注意力)以及Graph(图)。Resolution是指图像的分辨。#param是指参数量,以M(兆)为单位。flops是指计算速度,以G(每秒十亿次)为单位。top-1是指排名第一的类别与实际结果相符的准确率。在进行对比测试时,将本申请的PVG小模型即PVG-S模型与对应的其他模型的小模型进行对比测试,将本申请的PVG中模型即PVG-M模型与对应的其他模型的中型模型进行对比测试,将本申请的PVG大模型即PVG-B模型与对应的其他模型的大模型进行对比测试。然后,在COCO目标检测数据集使用本申请的PVG小模型上与对应的其他模型的小模型进行对比测试,得到的测试结果如图14所示,其中,是指对大目标的平均精度,/>是指对小目标的平均精度(Average Precision),用于衡量模型的检测精度。AP50指的是计算平均精度(AveragePrecision,简称AP)时,使用0.5作为IoU(Intersection over Union)的阈值。AP75指的是计算平均精度(Average Precision,简称AP)时,使用0.75作为IoU(IntersectionoverUnion)的阈值,MASK R-CNN 1x Schedule是指用于目标检测的卷积神经网络对比表。本申请的PVG小模型在ImageNet-1K上获得了83.0%的Top-1准确率,参数减少了18.5%,而最大的PVG模型获得了84.2%的Top-1准确率。此外,本申请的PVG小模型在COCO数据集上获得了1.3 boxAP和0.4mask AP的提升。如图15所示,为本申请的图像分类识别模型在COCO数据集上进行分类识别得到图像识别结果示意图,包括,稀疏对象( Sparse objects)图像的识别结果示意图,(密集对象Dense objects)图像的识别结果示意图和移动对象(Movingobjects)图像的识别结果示意图,每个识别得到的对象都是通过方框选中的。明显可以看本申请的图像分类识别模型相对于其他的模型能够明显的提高了图像分类识别的精度,并且相对于其他的模型本申请的图像识别分类模型的模型参数少,从而能够提高模型运行速度,提高图像识别性能。该图像识别方法可以应用到商场超市等商品图像的识别分类中,也可以应用到地铁场景中的图像检测中,也可以应用到工业产品图像的缺陷检测中等。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的图像识别方法的图像识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个图像识别装置实施例中的具体限定可以参见上文中对于图像识别方法的限定,在此不再赘述。
在一个实施例中,如图16所示,提供了一种图像识别装置1600,包括:特征提取模块1602、特征划分模块1604、连接图建立模块1606、特征融合模块1608和识别模块1610,其中:
特征提取模块1602,用于获取待识别图像,将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;
特征划分模块1604,用于将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
连接图建立模块1606,用于基于第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;
特征融合模块1608,用于基于第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
识别模块1610,用于基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到待识别图像对应的图像分类识别结果。
在一个实施例中,特征提取模块1602还用于提取各个图像块的像素特征,得到各个图像块像素特征;获取各个图像块的图像位置,将各个图像块的图像位置进行向量化,得到各个图像块位置特征;将各个图像块像素特征和对应的图像块位置特征进行融合,得到各个图像块特征。
在一个实施例中,连接图建立模块1606还用于计算各个第一通道特征之间的特征相似程度,基于特征相似程度确定各个第一通道特征之间的相似连接关系;将各个第一通道特征分别作为图节点,并按照相似连接关系将各个第一通道特征进行相连,得到第一特征连接图。
在一个实施例中,连接图建立模块1606还用于基于各个图像块的图像位置确定各个图像块特征分别对应的第二通道特征的特征位置,基于特征位置确定第二通道特征集中各个第二通道特征之间的位置关系;将各个第二通道特征分别作为图节点,并按照位置关系将各个第二通道特征进行相连,得到第二特征连接图。
在一个实施例中,特征融合模块1608还用于计算第一通道特征对应的邻居节点特征的平均特征,得到第一平均特征,并计算第一通道特征与第一通道特征对应的邻居节点特征之间的差值特征,得到第一差值特征;将第一通道特征、第一差值特征和第一平均特征进行拼接,得到第一拼接特征,并基于第一拼接特征进行全连接运算,得到第一通道特征对应的第一融合特征;遍历第一特征连接图中的各个第一通道特征,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征。
在一个实施例中,特征融合模块1608还用于计算第二通道特征对应的邻居节点特征的平均特征,得到第二平均特征,并计算第二通道特征与第二通道特征对应的邻居节点特征之间的差值特征,得到第二差值特征;将第二通道特征、第二差值特征和第二平均特征进行拼接,得到第二拼接特征,并基于第二拼接特征进行全连接运算,得到第二通道特征对应的第二融合特征;遍历第二特征连接图中的各个第二通道特征,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征。
在一个实施例中,识别模块1610,包括:
第一激活单元,用于获取第一信息增强参数,基于第一信息增强参数将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征;
第二激活单元,用于基于第一信息增强参数将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征;
图像识别单元,用于将同一个图像块特征分别对应的第一信息增强特征和第二信息增强特征进行拼接,得到各个图像块特征分别对应的增强图像块特征,并基于各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到待识别图像对应的目标图像分类识别结果。
在一个实施例中,第一激活单元还用于基于第一信息增强参数对第一通道特征集中各个第一通道特征分别对应的第一融合特征进行非线性转换,得到第一通道特征集中各个第一通道特征分别对应的第一非线性特征,并计算第一非线性特征对应的高斯误差值,得到第一高斯误差值 ;将第一通道特征集中各个第一通道特征分别对应的第一融合特征进行加权,得到第一通道特征集中各个第一通道特征分别对应的第一加权特征 ;计算第一加权特征与第一高斯误差值的乘积,得到第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
在一个实施例中,第二激活单元还用于基于第一信息增强参数对第二通道特征集中各个第二通道特征分别对应的第二融合特征进行非线性转换,得到第二通道特征集中各个第二通道特征分别对应的第二非线性特征,并计算第二非线性特征对应的高斯误差值,得到第二高斯误差值 ;将第二通道特征集中各个第二通道特征分别对应的第二融合特征进行加权,得到第二通道特征集中各个第二通道特征分别对应的第二加权特征 ;计算第二加权特征与第二高斯误差值的乘积,得到第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
在一个实施例中,图像识别单元还用于将各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集,第二增强通道特征集中第二增强通道特征的通道数量和第三增强通道特征集第三增强通道特征的通道数量之和与第二通道特征的通道数量相同;基于第一增强通道特征集中各个第一增强通道特征之间的相似程度建立第一增强通道特征集对应的第一增强特征连接图,并基于各个图像块的图像位置建立第二增强通道特征集对应的第二增强特征连接图;基于各个图像块的图像位置确定第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征,基于第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立第三增强通道特征集对应的第三增强特征连接图;基于第一增强特征连接图中的第一增强通道特征和第一增强通道特征对应的邻居节点特征进行特征融合,得到第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征;基于第二增强特征连接图中第二增强通道特征和第二增强通道特征分别对应的邻居节点特征进行特征融合,得到第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征;基于第三增强特征连接图中第三增强通道特征和第三增强通道特征分别对应的邻居节点特征进行特征融合,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征;基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征;基于各个图像块特征分别对应的目标增强图像块特征进行图像分类识别,得到待识别图像对应的增强图像分类识别结果。
在一个实施例中,图像识别单元还用于从各个第三增强通道特征中选取当前特征和目标特征;基于各个图像块的图像位置从各个第三增强通道特征中确定当前特征对应的各个当前相邻特征,将各个当前相邻特征进行信息聚合,得到当前聚合相邻特征;基于各个图像块的图像位置从各个第三增强通道特征中确定目标特征对应的各个目标相邻特征,将各个目标相邻特征进行信息聚合,得到目标聚合相邻特征;计算当前聚合相邻特征与目标聚合相邻特征的相似程度,得到当前特征和目标特征之间的相似程度;遍历各个第三增强通道特征,得到各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度,将各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度作为各个第三增强通道特征之间的目标相似程度;基于目标相似程度确定各个第三增强通道特征之间的目标连接关系,并将各个第三增强通道特征分别作为图节点,按照目标连接关系将各个第三增强通道特征进行相连,得到第三增强特征连接图。
在一个实施例中,图像识别单元还用于获取第二信息增强参数,基于第二信息增强参数将第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征进行激活,得到第一增强通道特征集中各个第一增强通道特征分别对应的第一激活特征;基于第二信息增强参数将第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征进行激活,得到第二增强通道特征集中各个第二增强通道特征分别对应的第二激活特征;基于第二信息增强参数将第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征;将同一个图像块特征分别对应的第一激活特征、第二激活增强特征和第三激活特征进行拼接,得到各个图像块特征分别对应的目标增强图像块特征。
在一个实施例中,图像识别单元还用于基于第二信息增强参数对第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行非线性转换,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三非线性特征,并计算第三非线性特征对应的高斯误差值,得到第三高斯误差值;将第三增强通道特征集中各个第三增强通道特征分别对应的第二融合增强特征进行加权,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三加权特征;计算第三加权特征与第三高斯误差值的乘积,得到第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征。
在一个实施例中,图像识别装置,还包括:
迭代模块,用于将目标增强图像块特征作为增强图像块特征,并返回将各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加,第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少;直到达到预设迭代完成条件时,得到各个图像块特征分别对应的最终图像块特征,并基于各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到待识别图像对应的最终图像分类识别结果。
在一个实施例中,图像识别装置,还包括:
模型识别模块,用于将待识别图像输入到图像分类识别模型中,通过图像分类识别模型将待识别图像进行划分,得到各个图像块,并提取各个图像块的特征,得到各个图像块特征;通过图像分类识别模型将各个图像块特征分别进行划分,得到各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到各个图像块特征分别对应的第二通道特征,组成第二通道特征集;通过图像分类识别模型使用第一通道特征集中各个第一通道特征之间的相似程度建立第一通道特征集对应的第一特征连接图,并基于各个图像块的图像位置建立第二通道特征集对应的第二特征连接图;通过图像分类识别模型使用第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到第二通道特征集中各个第二通道特征分别对应的第二融合特征;
通过图像分类识别模型将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到各个图像块特征分别对应的目标图像块特征,并基于各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到输出的待识别图像对应的图像分类识别结果。
上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图17所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待识别图像、图像识别模型以及图像分类识别结果等等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像分类识别方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图18所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种图像识别方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置,显示屏可以是液晶显示屏或电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图17或者图18中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random AccessMemory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (34)
1.一种图像识别方法,其特征在于,所述方法包括:
获取待识别图像,将所述待识别图像进行划分,得到各个图像块,并提取所述各个图像块的特征,得到各个图像块特征;
将所述各个图像块特征分别进行划分,得到所述各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到所述各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
基于所述第一通道特征集中各个第一通道特征之间的相似程度建立所述第一通道特征集对应的第一特征连接图,并基于所述各个图像块的图像位置建立所述第二通道特征集对应的第二特征连接图;
基于所述第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于所述第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征;
基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到所述各个图像块特征分别对应的目标图像块特征,并基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到所述待识别图像对应的图像分类识别结果。
2.根据权利要求1所述的方法,其特征在于,所述提取所述各个图像块的特征,得到各个图像块特征,包括:
提起所述各个图像块的像素特征,得到各个图像块像素特征;
获取所述各个图像块的图像位置,将所述各个图像块的图像位置进行向量化,得到各个图像块位置特征;
将所述各个图像块像素特征和对应的图像块位置特征进行融合,得到所述各个图像块特征。
3.根据权利要求1所述的方法,其特征在于,所述基于所述第一通道特征集中各个第一通道特征之间的相似程度建立所述第一通道特征集对应的第一特征连接图,包括:
计算所述各个第一通道特征之间的特征相似程度,基于所述特征相似程度确定所述各个第一通道特征之间的相似连接关系;
将所述各个第一通道特征分别作为图节点,并按照所述相似连接关系将所述各个第一通道特征进行相连,得到所述第一特征连接图。
4.根据权利要求1所述的方法,其特征在于,所述基于所述各个图像块的图像位置建立所述第二通道特征集对应的第二特征连接图,包括:
基于所述各个图像块的图像位置确定所述各个图像块特征分别对应的第二通道特征的特征位置,基于所述特征位置确定所述第二通道特征集中各个第二通道特征之间的位置关系;
将所述各个第二通道特征分别作为图节点,并按照所述位置关系将所述各个第二通道特征进行相连,得到所述第二特征连接图。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征,包括:
计算所述第一通道特征对应的邻居节点特征的平均特征,得到第一平均特征,并计算所述第一通道特征与所述第一通道特征对应的邻居节点特征之间的差值特征,得到第一差值特征;
将所述第一通道特征、所述第一差值特征和所述第一平均特征进行拼接,得到第一拼接特征,并基于所述第一拼接特征进行全连接运算,得到所述第一通道特征对应的第一融合特征;
遍历所述第一特征连接图中的各个第一通道特征,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征。
6.根据权利要求1所述的方法,其特征在于,所述基于所述第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征,包括:
计算所述第二通道特征对应的邻居节点特征的平均特征,得到第二平均特征,并计算所述第二通道特征与所述第二通道特征对应的邻居节点特征之间的差值特征,得到第二差值特征;
将所述第二通道特征、所述第二差值特征和所述第二平均特征进行拼接,得到第二拼接特征,并基于所述第二拼接特征进行全连接运算,得到所述第二通道特征对应的第二融合特征;
遍历所述第二特征连接图中的各个第二通道特征,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征。
7.根据权利要求1所述的方法,其特征在于,所述基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到所述各个图像块特征分别对应的目标图像块特征,并基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到所述待识别图像对应的图像分类识别结果,包括:
获取第一信息增强参数,基于所述第一信息增强参数将所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到所述第一通道特征集中各个第一通道特征分别对应的第一信息增强特征;
基于所述第一信息增强参数将所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到所述第二通道特征集中各个第二通道特征分别对应的第二信息增强特征;
将同一个图像块特征分别对应的第一信息增强特征和第二信息增强特征进行拼接,得到所述各个图像块特征分别对应的增强图像块特征,并基于所述各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到所述待识别图像对应的目标图像分类识别结果。
8.根据权利要求7所述的方法,其特征在于,所述基于所述第一信息增强参数将所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到所述第一通道特征集中各个第一通道特征分别对应的第一信息增强特征,包括:
基于所述第一信息增强参数对所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行非线性转换,得到所述第一通道特征集中各个第一通道特征分别对应的第一非线性特征,并计算所述第一非线性特征对应的高斯误差值,得到第一高斯误差值;
将所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行加权,得到所述第一通道特征集中各个第一通道特征分别对应的第一加权特征;
计算所述第一加权特征与所述第一高斯误差值的乘积,得到所述第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
9.根据权利要求7所述的方法,其特征在于,所述基于所述第一信息增强参数将所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到所述第二通道特征集中各个第二通道特征分别对应的第二信息增强特征,包括:
基于所述第一信息增强参数对所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行非线性转换,得到所述第二通道特征集中各个第二通道特征分别对应的第二非线性特征,并计算所述第二非线性特征对应的高斯误差值,得到第二高斯误差值;
将所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行加权,得到所述第二通道特征集中各个第二通道特征分别对应的第二加权特征;
计算所述第二加权特征与所述第二高斯误差值的乘积,得到所述第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
10.根据权利要求7所述的方法,其特征在于,所述基于所述各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到所述待识别图像对应的目标图像分类识别结果,包括:
将所述各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集,所述第二增强通道特征集中第二增强通道特征的通道数量和所述第三增强通道特征集第三增强通道特征的通道数量之和与所述第二通道特征的通道数量相同;
基于所述第一增强通道特征集中各个第一增强通道特征之间的相似程度建立所述第一增强通道特征集对应的第一增强特征连接图,并基于所述各个图像块的图像位置建立所述第二增强通道特征集对应的第二增强特征连接图;
基于所述各个图像块的图像位置确定所述第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征,基于所述第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立所述第三增强通道特征集对应的第三增强特征连接图;
基于所述第一增强特征连接图中的第一增强通道特征和第一增强通道特征对应的邻居节点特征进行特征融合,得到所述第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征;
基于所述第二增强特征连接图中第二增强通道特征和第二增强通道特征分别对应的邻居节点特征进行特征融合,得到所述第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征;
基于所述第三增强特征连接图中第三增强通道特征和第三增强通道特征分别对应的邻居节点特征进行特征融合,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征;
基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到所述各个图像块特征分别对应的目标增强图像块特征;
基于所述各个图像块特征分别对应的目标增强图像块特征进行图像分类识别,得到所述待识别图像对应的增强图像分类识别结果。
11.根据权利要求10所述的方法,其特征在于,所述基于所述第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立所述第三增强通道特征集对应的第三增强特征连接图,包括:
从所述各个第三增强通道特征中选取当前特征和目标特征;
基于所述各个图像块的图像位置从所述各个第三增强通道特征中确定所述当前特征对应的各个当前相邻特征,将所述各个当前相邻特征进行信息聚合,得到当前聚合相邻特征;
基于所述各个图像块的图像位置从所述各个第三增强通道特征中确定所述目标特征对应的各个目标相邻特征,将所述各个目标相邻特征进行信息聚合,得到目标聚合相邻特征;
计算所述当前聚合相邻特征与所述目标聚合相邻特征的相似程度,得到所述当前特征和所述目标特征之间的相似程度;
遍历所述各个第三增强通道特征,得到所述各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度,将所述各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度作为各个第三增强通道特征之间的目标相似程度;
基于所述目标相似程度确定所述各个第三增强通道特征之间的目标连接关系,并将所述各个第三增强通道特征分别作为图节点,按照所述目标连接关系将所述各个第三增强通道特征进行相连,得到所述第三增强特征连接图。
12.根据权利要求10所述的方法,其特征在于,所述基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到所述各个图像块特征分别对应的目标增强图像块特征,包括:
获取第二信息增强参数,基于所述第二信息增强参数将所述第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征进行激活,得到所述第一增强通道特征集中各个第一增强通道特征分别对应的第一激活特征;
基于所述第二信息增强参数将所述第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征进行激活,得到所述第二增强通道特征集中各个第二增强通道特征分别对应的第二激活特征;
基于所述第二信息增强参数将所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征;
将同一个图像块特征分别对应的第一激活特征、第二激活增强特征和第三激活特征进行拼接,得到所述各个图像块特征分别对应的目标增强图像块特征。
13.根据权利要求12所述的方法,其特征在于,所述基于所述第二信息增强参数将所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征,包括:
基于所述第二信息增强参数对所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行非线性转换,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三非线性特征,并计算所述第三非线性特征对应的高斯误差值,得到第三高斯误差值;
将所述第三增强通道特征集中各个第三增强通道特征分别对应的第二融合增强特征进行加权,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三加权特征;
计算所述第三加权特征与所述第三高斯误差值的乘积,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征。
14.根据权利要求10所述的方法,其特征在于,所述方法,还包括:
将所述目标增强图像块特征作为增强图像块特征,并返回将所述各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,所述第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加,所述第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少;
直到达到预设迭代完成条件时,得到所述各个图像块特征分别对应的最终图像块特征,并基于所述各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到所述待识别图像对应的最终图像分类识别结果。
15.根据权利要求1所述的方法,其特征在于,所述基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到所述待识别图像对应的图像分类识别结果,包括:
将所述图像块特征分别对应的目标图像块特征进行划分,得到第一目标通道特征集、第二目标通道特征集和第三目标通道特征集,所述第二目标通道特征集中第二目标通道特征的通道数量和所述第三目标通道特征集第三目标通道特征的通道数量之和与所述第二通道特征的通道数量相同;
基于所述第一目标通道特征集中各个第一目标通道特征之间的相似程度建立所述第一目标通道特征集对应的第一目标特征连接图,并基于所述各个图像块的图像位置建立所述第二目标通道特征集对应的第二目标特征连接图;
基于所述各个图像块的图像位置确定所述第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征,基于所述第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征之间的相似程度建立所述第三目标通道特征集对应的第三目标特征连接图;
基于所述第一目标通道特征连接图中的第一目标通道特征和第一目标通道特征对应的邻居节点特征进行特征融合,得到所述第一目标通道特征集中各个第一目标通道特征分别对应的第一融合目标特征;
基于所述第二目标特征连接图中第二目标通道特征和第二目标通道特征分别对应的邻居节点特征进行特征融合,得到所述第二目标通道特征集中各个第二目标通道特征分别对应的第二融合目标特征;
基于所述第三目标特征连接图中第三目标通道特征和第三目标通道特征分别对应的邻居节点特征进行特征融合,得到所述第三目标通道特征集中各个第三目标通道特征分别对应的第三融合目标特征;
基于同一个图像块特征分别对应的第一融合目标特征、第二融合目标特征和第三融合目标特征进行拼接,得到所述各个图像块特征分别对应的当前图像块特征;
基于所述各个图像块特征分别对应的当前图像块特征进行图像分类识别,得到所述待识别图像对应的当前图像分类识别结果。
16.根据权利要求1至15任意一项所述的方法,其特征在于,所述方法,还包括:
将所述待识别图像输入到图像分类识别模型中,通过所述图像分类识别模型将所述待识别图像进行划分,得到各个图像块,并提取所述各个图像块的特征,得到各个图像块特征;
通过所述图像分类识别模型将所述各个图像块特征分别进行划分,得到所述各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到所述各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
通过所述图像分类识别模型使用所述第一通道特征集中各个第一通道特征之间的相似程度建立所述第一通道特征集对应的第一特征连接图,并基于所述各个图像块的图像位置建立所述第二通道特征集对应的第二特征连接图;
通过所述图像分类识别模型使用所述第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于所述第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征;
通过所述图像分类识别模型将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到所述各个图像块特征分别对应的目标图像块特征,并基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到输出的所述待识别图像对应的图像分类识别结果。
17.一种图像识别装置,其特征在于,所述装置包括:
特征提取模块,用于获取待识别图像,将所述待识别图像进行划分,得到各个图像块,并提取所述各个图像块的特征,得到各个图像块特征;
特征划分模块,用于将所述各个图像块特征分别进行划分,得到所述各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到所述各个图像块特征分别对应的第二通道特征,组成第二通道特征集;
连接图建立模块,用于基于所述第一通道特征集中各个第一通道特征之间的相似程度建立所述第一通道特征集对应的第一特征连接图,并基于所述各个图像块的图像位置建立所述第二通道特征集对应的第二特征连接图;
特征融合模块,用于基于所述第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于所述第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征;
识别模块,用于基于同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到所述各个图像块特征分别对应的目标图像块特征,并基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到所述待识别图像对应的图像分类识别结果。
18.根据权利要求17所述的装置,其特征在于,所述特征提取模块还用于提起所述各个图像块的像素特征,得到各个图像块像素特征;获取所述各个图像块的图像位置,将所述各个图像块的图像位置进行向量化,得到各个图像块位置特征;将所述各个图像块像素特征和对应的图像块位置特征进行融合,得到所述各个图像块特征。
19.根据权利要求17所述的装置,其特征在于,所述连接图建立模块还用于计算所述各个第一通道特征之间的特征相似程度,基于所述特征相似程度确定所述各个第一通道特征之间的相似连接关系;将所述各个第一通道特征分别作为图节点,并按照所述相似连接关系将所述各个第一通道特征进行相连,得到所述第一特征连接图。
20.根据权利要求17所述的装置,其特征在于,所述连接图建立模块还用于基于所述各个图像块的图像位置确定所述各个图像块特征分别对应的第二通道特征的特征位置,基于所述特征位置确定所述第二通道特征集中各个第二通道特征之间的位置关系;将所述各个第二通道特征分别作为图节点,并按照所述位置关系将所述各个第二通道特征进行相连,得到所述第二特征连接图。
21.根据权利要求17所述的装置,其特征在于,所述特征融合模块还用于计算所述第一通道特征对应的邻居节点特征的平均特征,得到第一平均特征,并计算所述第一通道特征与所述第一通道特征对应的邻居节点特征之间的差值特征,得到第一差值特征;将所述第一通道特征、所述第一差值特征和所述第一平均特征进行拼接,得到第一拼接特征,并基于所述第一拼接特征进行全连接运算,得到所述第一通道特征对应的第一融合特征;遍历所述第一特征连接图中的各个第一通道特征,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征。
22.根据权利要求17所述的装置,其特征在于,所述特征融合模块还用于计算所述第二通道特征对应的邻居节点特征的平均特征,得到第二平均特征,并计算所述第二通道特征与所述第二通道特征对应的邻居节点特征之间的差值特征,得到第二差值特征;将所述第二通道特征、所述第二差值特征和所述第二平均特征进行拼接,得到第二拼接特征,并基于所述第二拼接特征进行全连接运算,得到所述第二通道特征对应的第二融合特征;遍历所述第二特征连接图中的各个第二通道特征,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征。
23.根据权利要求17所述的装置,其特征在于,所述识别模块,包括:
第一激活单元,用于获取第一信息增强参数,基于所述第一信息增强参数将所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行激活,得到所述第一通道特征集中各个第一通道特征分别对应的第一信息增强特征;
第二激活单元,用于基于所述第一信息增强参数将所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行激活,得到所述第二通道特征集中各个第二通道特征分别对应的第二信息增强特征;
图像识别单元,用于将同一个图像块特征分别对应的第一信息增强特征和第二信息增强特征进行拼接,得到所述各个图像块特征分别对应的增强图像块特征,并基于所述各个图像块特征分别对应的增强图像块特征进行图像分类识别,得到所述待识别图像对应的目标图像分类识别结果。
24.根据权利要求23所述的装置,其特征在于,所述第一激活单元还用于基于所述第一信息增强参数对所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行非线性转换,得到所述第一通道特征集中各个第一通道特征分别对应的第一非线性特征,并计算所述第一非线性特征对应的高斯误差值,得到第一高斯误差值;将所述第一通道特征集中各个第一通道特征分别对应的第一融合特征进行加权,得到所述第一通道特征集中各个第一通道特征分别对应的第一加权特征;计算所述第一加权特征与所述第一高斯误差值的乘积,得到所述第一通道特征集中各个第一通道特征分别对应的第一信息增强特征。
25.根据权利要求23所述的装置,其特征在于,所述第二激活单元还用于基于所述第一信息增强参数对所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行非线性转换,得到所述第二通道特征集中各个第二通道特征分别对应的第二非线性特征,并计算所述第二非线性特征对应的高斯误差值,得到第二高斯误差值;将所述第二通道特征集中各个第二通道特征分别对应的第二融合特征进行加权,得到所述第二通道特征集中各个第二通道特征分别对应的第二加权特征;计算所述第二加权特征与所述第二高斯误差值的乘积,得到所述第二通道特征集中各个第二通道特征分别对应的第二信息增强特征。
26.根据权利要求23所述的装置,其特征在于,所述图像识别单元还用于将所述各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集,所述第二增强通道特征集中第二增强通道特征的通道数量和所述第三增强通道特征集第三增强通道特征的通道数量之和与所述第二通道特征的通道数量相同;基于所述第一增强通道特征集中各个第一增强通道特征之间的相似程度建立所述第一增强通道特征集对应的第一增强特征连接图,并基于所述各个图像块的图像位置建立所述第二增强通道特征集对应的第二增强特征连接图;基于所述各个图像块的图像位置确定所述第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征,基于所述第三增强通道特征集中各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度建立所述第三增强通道特征集对应的第三增强特征连接图;基于所述第一增强特征连接图中的第一增强通道特征和第一增强通道特征对应的邻居节点特征进行特征融合,得到所述第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征;基于所述第二增强特征连接图中第二增强通道特征和第二增强通道特征分别对应的邻居节点特征进行特征融合,得到所述第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征;基于所述第三增强特征连接图中第三增强通道特征和第三增强通道特征分别对应的邻居节点特征进行特征融合,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征;基于同一个图像块特征分别对应的第一融合增强特征、第二融合增强特征和第三融合增强特征进行拼接,得到所述各个图像块特征分别对应的目标增强图像块特征;基于所述各个图像块特征分别对应的目标增强图像块特征进行图像分类识别,得到所述待识别图像对应的增强图像分类识别结果。
27.根据权利要求26所述的装置,其特征在于,所述图像识别单元还用于从所述各个第三增强通道特征中选取当前特征和目标特征;基于所述各个图像块的图像位置从所述各个第三增强通道特征中确定所述当前特征对应的各个当前相邻特征,将所述各个当前相邻特征进行信息聚合,得到当前聚合相邻特征;基于所述各个图像块的图像位置从所述各个第三增强通道特征中确定所述目标特征对应的各个目标相邻特征,将所述各个目标相邻特征进行信息聚合,得到目标聚合相邻特征;计算所述当前聚合相邻特征与所述目标聚合相邻特征的相似程度,得到所述当前特征和所述目标特征之间的相似程度;遍历所述各个第三增强通道特征,得到所述各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度,将所述各个第三增强通道特征分别对应的相邻增强通道特征之间的相似程度作为各个第三增强通道特征之间的目标相似程度;基于所述目标相似程度确定所述各个第三增强通道特征之间的目标连接关系,并将所述各个第三增强通道特征分别作为图节点,按照所述目标连接关系将所述各个第三增强通道特征进行相连,得到所述第三增强特征连接图。
28.根据权利要求26所述的装置,其特征在于,所述图像识别单元还用于获取第二信息增强参数,基于所述第二信息增强参数将所述第一增强通道特征集中各个第一增强通道特征分别对应的第一融合增强特征进行激活,得到所述第一增强通道特征集中各个第一增强通道特征分别对应的第一激活特征;基于所述第二信息增强参数将所述第二增强通道特征集中各个第二增强通道特征分别对应的第二融合增强特征进行激活,得到所述第二增强通道特征集中各个第二增强通道特征分别对应的第二激活特征;基于所述第二信息增强参数将所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行激活,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征;将同一个图像块特征分别对应的第一激活特征、第二激活增强特征和第三激活特征进行拼接,得到所述各个图像块特征分别对应的目标增强图像块特征。
29.根据权利要求28所述的装置,其特征在于,所述图像识别单元还用于基于所述第二信息增强参数对所述第三增强通道特征集中各个第三增强通道特征分别对应的第三融合增强特征进行非线性转换,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三非线性特征,并计算所述第三非线性特征对应的高斯误差值,得到第三高斯误差值;将所述第三增强通道特征集中各个第三增强通道特征分别对应的第二融合增强特征进行加权,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三加权特征;计算所述第三加权特征与所述第三高斯误差值的乘积,得到所述第三增强通道特征集中各个第三增强通道特征分别对应的第三激活特征。
30.根据权利要求26所述的装置,其特征在于,所述装置,还包括:
迭代模块,用于将所述目标增强图像块特征作为增强图像块特征,并返回将所述各个图像块特征分别对应的增强图像块特征进行划分,得到第一增强通道特征集、第二增强通道特征集和第三增强通道特征集的步骤执行,所述第二增强通道特征集中第二增强通道特征的通道数量按照预设数量增加,所述第三增强通道特征集第三增强通道特征的通道数量按照预设数量减少;直到达到预设迭代完成条件时,得到所述各个图像块特征分别对应的最终图像块特征,并基于所述各个图像块特征分别对应的最终图像块特征进行图像分类识别,得到所述待识别图像对应的最终图像分类识别结果。
31.根据权利要求17所述的装置,其特征在于,所述识别模块还用于将所述图像块特征分别对应的目标图像块特征进行划分,得到第一目标通道特征集、第二目标通道特征集和第三目标通道特征集,所述第二目标通道特征集中第二目标通道特征的通道数量和所述第三目标通道特征集第三目标通道特征的通道数量之和与所述第二通道特征的通道数量相同;基于所述第一目标通道特征集中各个第一目标通道特征之间的相似程度建立所述第一目标通道特征集对应的第一目标特征连接图,并基于所述各个图像块的图像位置建立所述第二目标通道特征集对应的第二目标特征连接图;基于所述各个图像块的图像位置确定所述第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征,基于所述第三目标通道特征集中各个第三目标通道特征分别对应的相邻目标通道特征之间的相似程度建立所述第三目标通道特征集对应的第三目标特征连接图;基于所述第一目标通道特征连接图中的第一目标通道特征和第一目标通道特征对应的邻居节点特征进行特征融合,得到所述第一目标通道特征集中各个第一目标通道特征分别对应的第一融合目标特征;基于所述第二目标特征连接图中第二目标通道特征和第二目标通道特征分别对应的邻居节点特征进行特征融合,得到所述第二目标通道特征集中各个第二目标通道特征分别对应的第二融合目标特征;基于所述第三目标特征连接图中第三目标通道特征和第三目标通道特征分别对应的邻居节点特征进行特征融合,得到所述第三目标通道特征集中各个第三目标通道特征分别对应的第三融合目标特征;基于同一个图像块特征分别对应的第一融合目标特征、第二融合目标特征和第三融合目标特征进行拼接,得到所述各个图像块特征分别对应的当前图像块特征;基于所述各个图像块特征分别对应的当前图像块特征进行图像分类识别,得到所述待识别图像对应的当前图像分类识别结果。
32.根据权利要求17至31任意一项所述的装置,其特征在于,所述装置,还包括:
模型识别模块,用于将所述待识别图像输入到图像分类识别模型中,通过所述图像分类识别模型将所述待识别图像进行划分,得到各个图像块,并提取所述各个图像块的特征,得到各个图像块特征;通过所述图像分类识别模型将所述各个图像块特征分别进行划分,得到所述各个图像块特征分别对应的第一通道特征,组成第一通道特征集,以及得到所述各个图像块特征分别对应的第二通道特征,组成第二通道特征集;通过所述图像分类识别模型使用所述第一通道特征集中各个第一通道特征之间的相似程度建立所述第一通道特征集对应的第一特征连接图,并基于所述各个图像块的图像位置建立所述第二通道特征集对应的第二特征连接图;通过所述图像分类识别模型使用所述第一特征连接图中的第一通道特征和第一通道特征对应的邻居节点特征进行特征融合,得到所述第一通道特征集中各个第一通道特征分别对应的第一融合特征,并基于所述第二特征连接图中第二通道特征和第二通道特征对应的邻居节点特征进行特征融合,得到所述第二通道特征集中各个第二通道特征分别对应的第二融合特征;通过所述图像分类识别模型将同一个图像块特征分别对应的第一融合特征和第二融合特征进行拼接,得到所述各个图像块特征分别对应的目标图像块特征,并基于所述各个图像块特征分别对应的目标图像块特征进行图像分类识别,得到输出的所述待识别图像对应的图像分类识别结果。
33.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至16中任一项所述的方法的步骤。
34.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至16中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310872101.7A CN116612287B (zh) | 2023-07-17 | 2023-07-17 | 图像识别方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310872101.7A CN116612287B (zh) | 2023-07-17 | 2023-07-17 | 图像识别方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116612287A CN116612287A (zh) | 2023-08-18 |
CN116612287B true CN116612287B (zh) | 2023-09-22 |
Family
ID=87682107
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310872101.7A Active CN116612287B (zh) | 2023-07-17 | 2023-07-17 | 图像识别方法、装置、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116612287B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021004402A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳数字生命研究院 | 图像识别方法及装置、存储介质和处理器 |
WO2021169723A1 (zh) * | 2020-02-27 | 2021-09-02 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN114549849A (zh) * | 2020-11-25 | 2022-05-27 | 顺丰科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
CN115731172A (zh) * | 2022-11-15 | 2023-03-03 | 山东沂蒙抽水蓄能有限公司 | 基于图像增强和纹理提取的裂缝检测方法、装置及介质 |
WO2023040247A1 (zh) * | 2021-09-18 | 2023-03-23 | 浙江大学 | 一种基于图像和点云融合网络的道路区域图像识别方法 |
WO2023056889A1 (zh) * | 2021-10-09 | 2023-04-13 | 百果园技术(新加坡)有限公司 | 模型训练和场景识别方法、装置、设备及介质 |
-
2023
- 2023-07-17 CN CN202310872101.7A patent/CN116612287B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021004402A1 (zh) * | 2019-07-05 | 2021-01-14 | 深圳数字生命研究院 | 图像识别方法及装置、存储介质和处理器 |
WO2021169723A1 (zh) * | 2020-02-27 | 2021-09-02 | Oppo广东移动通信有限公司 | 图像识别方法、装置、电子设备及存储介质 |
CN114549849A (zh) * | 2020-11-25 | 2022-05-27 | 顺丰科技有限公司 | 图像识别方法、装置、计算机设备和存储介质 |
WO2023040247A1 (zh) * | 2021-09-18 | 2023-03-23 | 浙江大学 | 一种基于图像和点云融合网络的道路区域图像识别方法 |
WO2023056889A1 (zh) * | 2021-10-09 | 2023-04-13 | 百果园技术(新加坡)有限公司 | 模型训练和场景识别方法、装置、设备及介质 |
CN115731172A (zh) * | 2022-11-15 | 2023-03-03 | 山东沂蒙抽水蓄能有限公司 | 基于图像增强和纹理提取的裂缝检测方法、装置及介质 |
Non-Patent Citations (1)
Title |
---|
深度扩展网络在图像识别中的应用;钱淑娟;计算机技术与发展;第30卷(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116612287A (zh) | 2023-08-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102477794B1 (ko) | 이미지 처리 방법, 디바이스 및 장치, 그리고 저장 매체 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
CN112990010B (zh) | 点云数据处理方法、装置、计算机设备和存储介质 | |
CN111047630B (zh) | 神经网络和基于神经网络的目标检测及深度预测方法 | |
CN111860233B (zh) | 基于选择注意力网络的sar图像复杂建筑物提取方法及系统 | |
US11875424B2 (en) | Point cloud data processing method and device, computer device, and storage medium | |
CN116580257A (zh) | 特征融合模型训练及样本检索方法、装置和计算机设备 | |
CN115147606B (zh) | 医学图像的分割方法、装置、计算机设备和存储介质 | |
WO2023030182A1 (zh) | 图像生成方法及装置 | |
CN113487523B (zh) | 图形轮廓优化方法、装置、计算机设备和存储介质 | |
CN117078790B (zh) | 图像生成方法、装置、计算机设备和存储介质 | |
Mosella-Montoro et al. | 2D–3D geometric fusion network using multi-neighbourhood graph convolution for RGB-D indoor scene classification | |
CN115272250B (zh) | 确定病灶位置方法、装置、计算机设备和存储介质 | |
CN113112518A (zh) | 基于拼接图像的特征提取器生成方法、装置和计算机设备 | |
CN116863194A (zh) | 一种足溃疡图像分类方法、系统、设备及介质 | |
CN112348056A (zh) | 点云数据分类方法、装置、设备及可读存储介质 | |
CN116597267B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN117576402A (zh) | 一种基于深度学习的多尺度聚合Transformer遥感图像语义分割方法 | |
CN112183303A (zh) | 变电设备图像分类方法、装置、计算机设备和介质 | |
CN116612287B (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN116386803A (zh) | 一种基于图的细胞病理报告生成方法 | |
CN116310308A (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN115544190A (zh) | 语义地图更新方法、装置、计算机设备和存储介质 | |
CN116894802B (zh) | 图像增强方法、装置、计算机设备和存储介质 | |
CN114898094B (zh) | 点云上采样方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40092193 Country of ref document: HK |