CN117935022A - 图像识别方法、装置、电子设备及可读存储介质 - Google Patents
图像识别方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN117935022A CN117935022A CN202410160658.2A CN202410160658A CN117935022A CN 117935022 A CN117935022 A CN 117935022A CN 202410160658 A CN202410160658 A CN 202410160658A CN 117935022 A CN117935022 A CN 117935022A
- Authority
- CN
- China
- Prior art keywords
- image
- identified
- matrix corresponding
- feature matrix
- dimension
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000011159 matrix material Substances 0.000 claims abstract description 634
- 230000009467 reduction Effects 0.000 claims abstract description 247
- 238000012545 processing Methods 0.000 claims abstract description 180
- 239000013598 vector Substances 0.000 claims abstract description 115
- 230000007246 mechanism Effects 0.000 claims abstract description 72
- 238000000605 extraction Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims description 164
- 238000011176 pooling Methods 0.000 claims description 113
- 230000006835 compression Effects 0.000 claims description 61
- 238000007906 compression Methods 0.000 claims description 61
- 230000004913 activation Effects 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 17
- 125000004122 cyclic group Chemical group 0.000 claims description 5
- 238000013507 mapping Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 17
- 230000006870 function Effects 0.000 description 25
- 238000010586 diagram Methods 0.000 description 15
- 238000009825 accumulation Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000004891 communication Methods 0.000 description 5
- 238000012935 Averaging Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 241001465754 Metazoa Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本公开涉及图像识别技术领域,提供了一种图像识别方法、装置、电子设备及可读存储介质。该方法包括:对待识别图像对应的特征矩阵进行多层卷积堆叠,得到第一降维特征矩阵;通过软注意力机制,对第一降维特征矩阵进行处理,得到第一加权特征矩阵;同样的方式得到第二降维特征矩阵、第二加权特征矩阵、第三降维特征矩阵、以及第三加权特征矩阵;根据第三加权特征矩阵,确定特征向量;根据特征向量和预设特征向量,确定待识别图像中的对象是否为预设目标对象,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
Description
技术领域
本公开涉及图像识别技术领域,尤其涉及一种图像识别方法、装置、电子设备及可读存储介质。
背景技术
图像识别技术是一门重要的技术,其产生目的是为了让计算机代替人类去处理大量的物理信息,随着计算机技术的发展,人类对图像识别技术的认识越来越深刻,图像识别技术现已大规模用于空间洞察系统中进行行人识别的任务,但图像识别的结果仍然存在精确度不足的情况,常规情况下,现有空间洞察系统中会通过图像识别技术来对行人进行重识别,为了提高行人重识别的精度,现有算法往往选用很重的模型,虽然对识别精度上有所提升,但大大增加了识别时间。
由此可见,现有技术中存在由于常规图像识别模型的结构复杂,参数量过大,计算量过多导致的图像识别处理效率低,提取的对象特征精度不高的问题。
发明内容
有鉴于此,本公开实施例提供了一种图像识别方法、装置、电子设备及可读存储介质,以解决现有技术中由于常规图像识别模型的结构复杂,参数量过大,计算量过多导致的图像识别处理效率低,提取的对象特征精度不高的问题。
本公开实施例的第一方面,提供了一种图像识别方法,包括:对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵;通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵;将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;通过软注意力机制,对待识别图像对应的第二降维特征矩阵进行处理,得到待识别图像对应的第二加权特征矩阵;将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象。
本公开实施例的第二方面,提供了一种图像识别装置,包括:第一处理模块,用于对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵;第二处理模块,用于通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵;第三处理模块,用于将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;第四处理模块,用于通过软注意力机制,对待识别图像对应的第二降维特征矩阵进行处理,得到待识别图像对应的第二加权特征矩阵;第五处理模块,用于将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;第六处理模块,用于通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;第一确定模块,用于根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;第二确定模块,用于根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象。
本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
本公开实施例的第四方面,提供了一种可读存储介质,该可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
本公开实施例与现有技术相比存在的有益效果是:通过对待识别图像对应的特征矩阵进行多层卷积堆叠,用于提取待识别图像的特征信息,并降低待识别图像的维度,便于模型进行学习,得到待识别图像对应的第一降维特征矩阵;对待识别图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第一加权特征矩阵;将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;对待识别图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第二加权特征矩阵;将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
附图说明
为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本公开实施例的应用场景的场景示意图;
图2是本公开实施例提供的一种图像识别方法的流程示意图;
图3是本公开实施例提供的图像识别模型的结构示意图;
图4是本公开实施例提供的Inception模块的结构示意图;
图5是本公开实施例提供的软注意力模块的结构示意图;
图6是本公开实施例提供的一种图像识别装置的结构示意图;
图7是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
下面将结合附图详细说明根据本公开实施例的一种图像识别方法和装置。
图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备1、2和3、服务器4以及网络5。
终端设备1、2和3可以是硬件,也可以是软件。当终端设备1、2和3为硬件时,其可以是具有显示屏且支持与服务器4通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备1、2和3为软件时,其可以安装在如上的电子设备中。终端设备1、2和3可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限制。进一步地,终端设备1、2和3上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
服务器4可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器4可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
需要说明的是,服务器4可以是硬件,也可以是软件。当服务器4为硬件时,其可以是为终端设备1、2和3提供各种服务的各种电子设备。当服务器4为软件时,其可以是为终端设备1、2和3提供各种服务的多个软件或软件模块,也可以是为终端设备1、2和3提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
网络5可以是采用同轴电缆、双绞线和光纤连接的有线网络,也可以是无需布线就能实现各种通信设备互联的无线网络,例如,蓝牙(Bluetooth)、近场通信(Near FieldCommunication,NFC)、红外(Infrared)等,本公开实施例对此不作限制。
用户可以通过终端设备1、2和3经由网络5与服务器4建立通信连接,以接收或发送信息等。具体地,服务器4可以从终端设备1、2和/或3获取待识别图像,并将待识别图像进行特征提取,得到待识别图像对应的特征矩阵,对待识别图像对应的特征矩阵进行多层卷积堆叠,用于提取待识别图像的特征信息,并降低待识别图像的维度,便于模型进行学习,得到待识别图像对应的第一降维特征矩阵;对待识别图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第一加权特征矩阵;将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;对待识别图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第二加权特征矩阵;将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象。
需要说明的是,终端设备1、2和3、服务器4以及网络5的具体类型、数量和组合可以根据应用场景的实际需求进行调整,本公开实施例对此不作限制。
图2是本公开实施例提供的一种图像识别方法的流程示意图。图2的图像识别方法可以由图1的服务器执行。如图2所示,该图像识别方法包括:
步骤201,对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵。
具体的,可以通过Inception结构对待识别图像对应的特征矩阵进行处理,例如,Inception结构内可以包含多个不同的卷积层可以设置成不同的卷积支线,各个卷积支线用于并行处理该待识别图像对应的特征矩阵,其中,待识别图像可以为包含待识别对象的图像,待识别对象可以是人、动物、植物、或者物品等,在此处不做限定,卷积层可以用于对待识别图像进行点积和累加操作,得到一个特征图矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
例如,可以通过Inception结构中的4条卷积支线进行并行处理,其中第一条卷积支线可以将待识别图像对应的特征矩阵通过1*1卷积层进行降维处理,得到第一分支降维矩阵;第二条卷积支线可以对待识别图像对应的特征矩阵进行平均池化处理,通过平均池化将输入的待识别图像划分为多个矩形区域,对每个子区域输出所有元素的平均值,平均池化取每个矩形区域中的平均值,可以提取待识别图像中所有特征的信息进入下一层,用于保留更多待识别图像的背景信息,将平均池化后的特征矩阵通过1*1卷积层进行降维处理,得到第二分支降维矩阵;第三条卷积支线可以通过1*1卷积层,对待识别图像对应的特征矩阵进行降维处理,并可以将降维结果通过3*3卷积层进行特征提取,得到第三分支降维矩阵;第四条卷积支线可以通过1*1卷积层,对待识别图像对应的特征矩阵进行降维处理,并可以将降维结果通过多个3*3卷积层进行特征提取,3*3卷积层的个数包括不限于2、3、或者4层,其中3*3卷积层可以通过3*3的卷积核在降维结果上滑动,并对每个位置的像素进行卷积运算,以提取局部特征,得到第四分支降维矩阵;可以将第一分支降维矩阵、第二分支降维矩阵、第三分支降维矩阵、以及第四分支降维矩阵进行拼接叠加,融合成待识别图像对应的第一降维特征矩阵,第一降维特征矩阵可以为通过多个卷积层或者Inception结构对待识别图像对应的特征矩阵进行处理得到的特征矩阵,通过降维处理,降低了矩阵维度,以此增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
步骤202,通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵。
具体的,可以对待识别图像对应的第一降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别图像对应的第一加权特征矩阵,其中,软注意力机制可以为一种确定性的注意力机制,软注意力机制的处理对象是局部重要区域或通道,根据特征之间的关系得到权重分布,并通过神经网络算出梯度,以及前向传播和后向反馈来学习获得注意力的权重,待识别图像对应的第一加权特征矩阵可以为待识别图像对应的第一降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,软注意力机制可以通过多个不同分支并行处理,包括但不限于直接输出分支、空间池化分支、以及通道池化分支等。
例如,可以将输入的待识别图像对应的第一降维特征矩阵通过3条分支并行处理,其中空间池化分支可以通过空间全局平均池化层处理,空间全局平均池化层可以用于将卷积层输出的所有特征图在空间维度上进行平均池化,最终得到一个特定大小的特征向量,将5*5*100的特征图进行空间尺寸降维,得到1*1*100的特征图,进而可以将该1*1*100的特征图通过1*1卷积层进行降维,得到待识别图像对应的空间压缩矩阵;上述通道池化分支可以通过通道全局平均池化层处理,通道全局平均池化层可以用于将每个通道的特征图在空间维度上进行平均池化,最终得到一个特定大小的特征向量,将5*5*100的特征图进行通道压缩,得到5*5*1的特征图,进而可以将该5*5*1的特征图通过多层3*3卷积层进行特征提取,提取到更高阶的语义信息,得到待识别图像对应的通道压缩矩阵;将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵进行矩阵相乘,为方便后续处理,乘积结果可以通过1*1卷积层进行降维处理,再通过激活函数进行激活加权,激活函数可以为Sigmoid函数、ReLU函数、或者Tanh函数等,在此处不做限定,将激活矩阵和直接输出分支输出的待识别图像对应的第一降维特征矩阵进行矩阵相乘,得到待识别图像对应的第一加权特征矩阵,以此提高了该图像识别模型的任务处理效率和准确性,缓解了信息过载的计算量压力,提升了该图像识别模型的灵活性,提高了处理速度。
步骤203,将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵。
具体的,可以通过对待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵进行相乘,乘积结果可以通过多个不同的卷积层或者Inception结构对待识别图像进行处理,在这里不做限定,通过多条卷积支线进行并行处理,卷积层可以用于对待识别图像进行点积和累加操作,得到一个特征图矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
例如,可以对待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵进行相乘处理,得到第一乘积结果,通过Inception结构中的4条卷积支线进行并行处理,其中第一条卷积支线还可以将第一乘积结果,通过1*1卷积层进行降维处理,得到第一乘积结果对应的第一分支降维矩阵;第二条卷积支线还可以对第一乘积结果进行平均池化处理,通过平均池化将输入的待识别图像划分为多个矩形区域,对每个子区域输出所有元素的平均值,平均池化取每个矩形区域中的平均值,可以提取待识别图像中所有特征的信息进入下一层,用于保留更多待识别图像的背景信息,将平均池化后的特征矩阵通过1*1卷积层进行降维处理,得到第一乘积结果对应的第二分支降维矩阵;第三条卷积支线还可以通过1*1卷积层,对第一乘积结果进行降维处理,并可以将降维结果通过3*3卷积层进行特征提取,得到第一乘积结果对应的第三分支降维矩阵;第四条卷积支线还可以通过1*1卷积层,对第一乘积结果进行降维处理,并可以将降维结果通过多个3*3卷积层进行特征提取,3*3卷积层的个数包括不限于2、3、或者4层,其中3*3卷积层可以通过3*3的卷积核在降维结果上滑动,并对每个位置的像素进行卷积运算,以提取局部特征,得到第一乘积结果对应的第四分支降维矩阵;可以将第一乘积结果对应的第一分支降维矩阵、第一乘积结果对应的第二分支降维矩阵、第一乘积结果对应的第三分支降维矩阵、以及第一乘积结果对应的第四分支降维矩阵进行拼接叠加,融合成待识别图像对应的第二降维特征矩阵,第二降维特征矩阵可以为通过Inception结构对第一乘积结果进行处理得到的特征矩阵,通过降维处理,降低了矩阵维度,以此进一步增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
步骤204,通过软注意力机制,对待识别图像对应的第二降维特征矩阵进行处理,得到待识别图像对应的第二加权特征矩阵。
具体的,可以对待识别图像对应的第二降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别图像对应的第二加权特征矩阵,待识别图像对应的第二加权特征矩阵可以为待识别图像对应的第二降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,软注意力机制可以通过多个不同分支并行处理,包括但不限于直接输出分支、空间池化分支、以及通道池化分支等。
例如,可以将输入的待识别图像对应的第二降维特征矩阵通过3条分支并行处理,其中空间池化分支还可以通过空间全局平均池化层处理,将5*5*100的特征图进行空间尺寸降维,得到1*1*100的特征图,进而可以将该1*1*100的特征图通过1*1卷积层进行降维,得到第二降维特征矩阵对应的空间压缩矩阵;上述通道池化分支还可以通过通道全局平均池化层处理,将5*5*100的特征图进行通道压缩,得到5*5*1的特征图,进而可以将该5*5*1的特征图通过多层3*3卷积层进行特征提取,提取到更高阶的语义信息,得到第二降维特征矩阵对应的通道压缩矩阵;将第二降维特征矩阵对应的空间压缩矩阵和第二降维特征矩阵对应的通道压缩矩阵进行矩阵相乘,为方便后续处理,乘积结果可以通过1*1卷积层进行降维处理,再通过激活函数进行激活加权,激活函数可以为Sigmoid函数、ReLU函数、或者Tanh函数等,在此处不做限定,将第二降维特征矩阵对应的激活矩阵和直接输出分支输出的第二降维特征矩阵进行矩阵相乘,得到待识别图像对应的第二加权特征矩阵,以此进一步提高了该图像识别模型的任务处理效率和准确性,缓解了信息过载的计算量压力,提升了该图像识别模型的灵活性,提高了处理速度。
步骤205,将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵。
具体的,可以通过对待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵进行相乘,乘积结果可以通过多个不同的卷积层或者Inception结构对待识别图像进行处理,在这里不做限定,通过多条卷积支线进行并行处理,卷积层可以用于对待识别图像进行点积和累加操作,得到待识别图像对应的第三降维特征矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
例如,可以对待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵进行相乘处理,得到第二乘积结果,通过Inception结构中的4条卷积支线进行并行处理,其中第一条卷积支线还可以将第二乘积结果,通过1*1卷积层进行降维处理,得到第二乘积结果对应的第一分支降维矩阵;第二条卷积支线还可以对第二乘积结果进行平均池化处理,通过平均池化将输入的待识别图像划分为多个矩形区域,对每个子区域输出所有元素的平均值,平均池化取每个矩形区域中的平均值,可以提取待识别图像中所有特征的信息进入下一层,用于保留更多待识别图像的背景信息,将平均池化后的特征矩阵通过1*1卷积层进行降维处理,得到第二乘积结果对应的第二分支降维矩阵;第三条卷积支线还可以通过1*1卷积层,对第二乘积结果进行降维处理,并可以将降维结果通过3*3卷积层进行特征提取,得到第二乘积结果对应的第三分支降维矩阵;第四条卷积支线还可以通过1*1卷积层,对第二乘积结果进行降维处理,并可以将降维结果通过多个3*3卷积层进行特征提取,3*3卷积层的个数包括不限于2、3、或者4层,其中3*3卷积层可以通过3*3的卷积核在降维结果上滑动,并对每个位置的像素进行卷积运算,以提取局部特征,得到第二乘积结果对应的第四分支降维矩阵;可以将第二乘积结果对应的第一分支降维矩阵、第二乘积结果对应的第二分支降维矩阵、第二乘积结果对应的第三分支降维矩阵、以及第二乘积结果对应的第四分支降维矩阵进行拼接叠加,融合成待识别图像对应的第三降维特征矩阵,第三降维特征矩阵可以为通过Inception结构对第二乘积结果进行处理得到的特征矩阵,通过降维处理,降低了矩阵维度,以此进一步增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
步骤206,通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵。
具体的,可以对待识别图像对应的第三降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别图像对应的第三加权特征矩阵,待识别图像对应的第三加权特征矩阵可以为待识别图像对应的第三降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,包含了高阶的语义信息,便于后续进行分类识别,软注意力机制可以通过多个不同分支并行处理,包括但不限于直接输出分支、空间池化分支、以及通道池化分支等。
例如,可以将输入的待识别图像对应的第三降维特征矩阵通过3条分支并行处理,其中空间池化分支还可以通过空间全局平均池化层处理,将5*5*100的特征图进行空间尺寸降维,得到1*1*100的特征图,进而可以将该1*1*100的特征图通过1*1卷积层进行降维,得到第三降维特征矩阵对应的空间压缩矩阵;通道池化分支还可以通过通道全局平均池化层处理,将5*5*100的特征图进行通道压缩,得到5*5*1的特征图,进而可以将该5*5*1的特征图通过多层3*3卷积层进行特征提取,提取到更高阶的语义信息,得到第三降维特征矩阵对应的通道压缩矩阵;将第三降维特征矩阵对应的空间压缩矩阵和第三降维特征矩阵对应的通道压缩矩阵进行矩阵相乘,为方便后续处理,乘积结果可以通过1*1卷积层进行降维处理,再通过激活函数进行激活加权,激活函数可以为Sigmoid函数、ReLU函数、或者Tanh函数等,在此处不做限定,将第三降维特征矩阵对应的激活矩阵和直接输出分支输出的第三降维特征矩阵进行矩阵相乘,得到待识别图像对应的第三加权特征矩阵,以此进一步提高了该图像识别模型的任务处理效率和准确性,缓解了信息过载的计算量压力,提升了该图像识别模型的灵活性,提高了处理速度。
步骤207,根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量。
具体的,可以通过全局最大池化层,将待识别图像对应的第三加权特征矩阵进行降维池化处理,得到降维向量,进而降维向量可以通过全连接层进行特征提取,得到待识别图像对应的特征向量,其中待识别图像对应的特征向量可以为包含了待识别图像中待识别对象特征的向量,用于表征待识别对象的特征信息。
例如,可以将待识别图像对应的第三加权特征矩阵通过全局最大池化层进行池化处理,全局最大池化层可以用于将卷积层输出的特征图在空间维度上进行最大池化,最终得到一个特定大小降维后的特征向量,进而可以将降维向量通过全连接层进行特征提取,得到待识别图像对应的特征向量,待识别图像对应的特征向量表征的可以为待识别图像中待识别对象的特征信息,包括但不限于颜色特征、纹理特征、形状特征、或者空间关系特征等,以此降低了特征图的维度,减少了该图像识别模型的参数数量和计算复杂度,提高了该图像识别模型的分类准确率,提升了该图像识别模型的鲁棒性。
步骤208,根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象。
具体的,可以计算待识别图像对应的特征向量和预设图像对应的特征向量之间的相似度分数,其中,预设图像可以为用于该图像识别模型训练的包含目标对象的原始图像,预设图像对应的特征向量可以为预设图像中目标对象的特征信息,包括但不限于颜色特征、纹理特征、形状特征、或者空间关系特征等。
将相似度分数和预设相似度阈值进行大小比较,如果相似度分数大于等于预设相似度阈值,则待识别图像中的对象为预设图像中的目标对象;如果相似度分数小于预设相似度阈值,则待识别图像中的对象不是预设图像中的目标对象,其中预设相似度阈值可以为预先设置的相似度分数满足条件,用于衡量待识别图像对应的特征向量和预设图像对应的特征向量之间的相似程度,包括但不限于20%、40%、或者60%等,以此提升了结果确定的准确性,提高了该图像识别模型的鲁棒性,提升了图像识别速度,增强了该图像识别模型的可扩展性和灵活性。
例如,可以计算待识别图像对应的特征向量a和预设图像对应的特征向量b之间的相似度,相似度的计算方法可以是余弦相似度计算、欧氏距离、或者皮尔逊相关系数计算方法,在此处不做限定,将得到的相似度分数65%和预设相似度阈值60%进行比较,由于65%大于60%,则可以确定待识别图像中的对象为预设图像中的目标对象。
根据本公开实施例提供的技术方案,通过对待识别图像对应的特征矩阵进行多层卷积堆叠,用于提取待识别图像的特征信息,并降低待识别图像的维度,便于模型进行学习,得到待识别图像对应的第一降维特征矩阵;对待识别图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第一加权特征矩阵;将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;对待识别图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第二加权特征矩阵;将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
在一些实施例中,对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵,包括:将待识别图像对应的特征矩阵降维,得到第一分支降维矩阵;对待识别图像对应的特征矩阵进行池化处理,并将池化结果进行降维,得到第二分支降维矩阵;对待识别图像对应的特征矩阵进行降维处理,并将第一降维结果进行特征提取,得到第三分支降维矩阵;对待识别图像对应的特征矩阵进行降维处理,并将第二降维结果进行多层特征提取,得到第四分支降维矩阵;将第一分支降维矩阵、第二分支降维矩阵、第三分支降维矩阵、以及第四分支降维矩阵进行拼接,得到待识别图像对应的第一降维特征矩阵。
具体的,可以通过多个不同的卷积层或者Inception结构对待识别图像对应的特征矩阵进行处理,在这里不做限定,通过多条卷积支线进行并行处理,其中,卷积层可以用于对待识别图像进行点积和累加操作,得到一个特征图矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
例如,可以通过Inception结构中的4条卷积支线进行并行处理,第一条卷积支线还可以将待识别图像对应的特征矩阵通过1*1卷积层进行降维处理,得到第一分支降维矩阵;第二条卷积支线可以对待识别图像对应的特征矩阵进行平均池化处理,通过平均池化将输入的待识别图像划分为多个矩形区域,对每个子区域输出所有元素的平均值,平均池化取每个矩形区域中的平均值,可以提取待识别图像中所有特征的信息进入下一层,用于保留更多待识别图像的背景信息,将平均池化后的特征矩阵通过1*1卷积层进行降维处理,得到第二分支降维矩阵;第三条卷积支线还可以通过1*1卷积层,对待识别图像对应的特征矩阵进行降维处理,并可以将降维结果通过3*3卷积层进行特征提取,得到第三分支降维矩阵;第四条卷积支线还可以通过1*1卷积层,对待识别图像对应的特征矩阵进行降维处理,并可以将降维结果通过多个3*3卷积层进行特征提取,3*3卷积层的个数包括不限于2、3、或者4层,其中3*3卷积层可以通过3*3的卷积核在降维结果上滑动,并对每个位置的像素进行卷积运算,以提取局部特征,得到第四分支降维矩阵;可以将第一分支降维矩阵、第二分支降维矩阵、第三分支降维矩阵、以及第四分支降维矩阵进行拼接叠加,融合成待识别图像对应的第一降维特征矩阵,第一降维特征矩阵可以为通过多个卷积层或者Inception结构对待识别图像对应的特征矩阵进行处理得到的特征矩阵,通过降维处理,降低了矩阵维度。
根据本公开实施例提供的技术方案,通过第一条处理支线上对待识别图像对应的特征矩阵进行降维处理,得到第一分支降维矩阵;第二条支线上对待识别图像对应的特征矩阵进行平均池化,并对池化结果进行降维得到第二分支降维矩阵;第三条支线上对待识别图像对应的特征矩阵进行降维处理,并将降维结果进行特征提取,得到第三分支降维矩阵;第四条支线上对待识别图像对应的特征矩阵进行降维处理,并将降维结果进行多次特征提取,用于提取到更高阶的语义信息,得到第四分支降维矩阵,以此增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
在一些实施例中,通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵,包括:对待识别图像对应的第一降维特征矩阵进行空间池化处理,并将空间池化结果进行降维处理,得到待识别图像对应的空间压缩矩阵;对待识别图像对应的第一降维特征矩阵进行通道池化处理,并将通道池化结果进行特征提取,得到待识别图像对应的通道压缩矩阵;根据待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵,确定待识别图像对应的第一加权特征矩阵。
具体的,可以对待识别图像对应的第一降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别图像对应的第一加权特征矩阵,待识别图像对应的第一加权特征矩阵可以为待识别图像对应的第一降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,软注意力机制可以通过多个不同分支并行处理,包括但不限于直接输出分支、空间池化分支、以及通道池化分支等。
例如,可以将输入的待识别图像对应的第一降维特征矩阵通过3条分支并行处理,其中空间池化分支还可以通过空间全局平均池化层处理,空间全局平均池化层可以用于将卷积层输出的所有特征图在空间维度上进行平均池化,最终得到一个特定大小的特征向量,将5*5*100的特征图进行空间尺寸降维,得到1*1*100的特征图,进而可以将该1*1*100的特征图通过1*1卷积层进行降维,得到待识别图像对应的空间压缩矩阵;通道池化分支还可以通过通道全局平均池化层处理,通道全局平均池化层可以用于将每个通道的特征图在空间维度上进行平均池化,最终得到一个特定大小的特征向量,将5*5*100的特征图进行通道压缩,得到5*5*1的特征图,进而可以将该5*5*1的特征图通过多层3*3卷积层进行特征提取,提取到更高阶的语义信息,得到待识别图像对应的通道压缩矩阵;可以通过将直接输出分支输出的待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵进行处理,得到待识别图像对应的第一加权特征矩阵。
根据本公开实施例提供的技术方案,通过对待识别图像对应的第一降维特征矩阵进行空间池化处理,将待识别图像对应的第一降维特征矩阵进行维度上的压缩,同时对待识别图像对应的第一降维特征矩阵进行通道池化处理,降低了待识别图像对应的第一降维特征矩阵的通道数,进而将待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵进行处理,得到待识别图像对应的第一加权特征矩阵,以此提高了该图像识别模型的任务处理效率和准确性,缓解了信息过载的计算量压力,提升了该图像识别模型的灵活性,提高了处理速度。
在一些实施例中,根据待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵,确定待识别图像对应的第一加权特征矩阵,包括:将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵相乘,得到乘积矩阵;对乘积矩阵进行降维处理,并将第三降维结果进行激活加权,得到激活矩阵;将待识别图像对应的第一降维特征矩阵和激活矩阵相乘,得到待识别图像对应的第一加权特征矩阵。
具体的,可以将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵进行矩阵相乘,为方便后续处理,乘积结果可以通过1*1卷积层进行降维处理,再通过激活函数进行激活加权,激活函数可以为Sigmoid函数、ReLU函数、或者Tanh函数等,在此处不做限定,将激活矩阵和待识别图像对应的第一降维特征矩阵进行矩阵相乘,得到待识别图像对应的第一加权特征矩阵。
例如,可以通过相乘的方式将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵进行融合,将乘积结果通过1*1卷积层进行降维,可以通过1*1卷积层的前后尺度一致性进行特征通道对齐处理,进而通过Sigmoid函数进行激活加权,将激活后的矩阵和待识别图像对应的第一降维特征矩阵进行矩阵相乘,得到待识别图像对应的第一加权特征矩阵。
根据本公开实施例提供的技术方案,通过将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵相乘,将二者融合得到乘积矩阵,可以通过1*1卷积层对乘积矩阵进行降维对齐处理,进而可以通过Sigmoid函数进行激活加权,将激活后的矩阵和待识别图像对应的第一降维特征矩阵进行矩阵相乘,得到待识别图像对应的第一加权特征矩阵,以此提高了该图像识别模型的任务处理效率和准确性,提升了该图像识别模型的灵活性,提高了处理速度。
在一些实施例中,根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象,包括:对待识别图像对应的特征向量和预设图像对应的特征项向量进行相似度计算,得到待识别图像对应的相似度分数;根据待识别图像对应的相似度分数和预设相似度阈值,确定待识别图像中的对象是否为预设图像中的目标对象;如果待识别图像对应的相似度分数大于等于预设相似度阈值,则确定待识别图像中的对象为预设图像中的目标对象;如果待识别图像对应的相似度分数小于预设相似度阈值,则确定待识别图像中的对象不是预设图像中的目标对象。
具体的,可以计算待识别图像对应的特征向量和预设图像对应的特征向量之间的相似度分数,将相似度分数和预设相似度阈值进行大小比较,如果相似度分数大于等于预设相似度阈值,则待识别图像中的对象为预设图像中的目标对象;如果相似度分数小于预设相似度阈值,则待识别图像中的对象不是预设图像中的目标对象,其中预设相似度阈值可以为预先设置的相似度分数满足条件,用于衡量待识别图像对应的特征向量和预设图像对应的特征向量之间的相似程度,包括但不限于20%、40%、或者60%等。
例如,可以计算待识别图像对应的特征向量a和预设图像对应的特征向量b之间的相似度,相似度的计算方法可以是余弦相似度计算、欧氏距离、或者皮尔逊相关系数计算方法,在此处不做限定,将得到的相似度分数65%和预设相似度阈值60%进行比较,由于65%大于60%,则可以确定待识别图像中的对象为预设图像中的目标对象。
根据本公开实施例提供的技术方案,通过计算待识别图像对应的特征向量和预设图像对应的特征向量之间的相似度分数,将相似度分数和预设相似度阈值进行大小比较,如果相似度分数大于等于预设相似度阈值,则待识别图像中的对象为预设图像中的目标对象;如果相似度分数小于预设相似度阈值,则待识别图像中的对象不是预设图像中的目标对象,以此提升了结果确定的准确性,提高了该图像识别模型的鲁棒性,提升了图像识别速度,增强了该图像识别模型的可扩展性和灵活性。
在一些实施例中,根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量,包括:对待识别图像对应的第三加权特征矩阵进行全局最大池化处理,得到待识别图像对应的池化向量;对待识别图像对应的池化向量进行特征提取,得到待识别图像对应的特征向量。
具体的,可以通过全局最大池化层,将待识别图像对应的第三加权特征矩阵进行降维池化处理,得到降维向量,进而降维向量可以通过全连接层进行特征提取,得到待识别图像对应的特征向量。
例如,可以将待识别图像对应的第三加权特征矩阵通过全局最大池化层进行池化处理,全局最大池化层可以用于将卷积层输出的特征图在空间维度上进行最大池化,最终得到一个特定大小降维后的特征向量,进而可以将降维向量通过全连接层进行特征提取,得到待识别图像对应的特征向量,待识别图像对应的特征向量表征的可以为待识别图像中待识别对象的特征信息,包括但不限于颜色特征、纹理特征、形状特征、或者空间关系特征等。
根据本公开实施例提供的技术方案,通过全局最大池化层,将待识别图像对应的第三加权特征矩阵进行降维池化处理,得到降维向量,进而降维向量可以通过全连接层进行特征提取,得到待识别图像对应的特征向量,以此降低了特征图的维度,减少了该图像识别模型的参数数量和计算复杂度,提高了该图像识别模型的分类准确率,提升了该图像识别模型的鲁棒性。
在一些实施例中,在对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵之前,还包括:获取待识别训练图像集合,待识别训练图像集合包含多个待识别训练图像和待识别训练图像中对象的标签,待识别训练图像中对象的标签用于表征待识别训练图像中对象的真实类别;将待识别训练图像集合输入至图像识别模型,并对各个待识别训练图像进行特征提取,得到待识别训练图像对应的特征矩阵;对待识别训练图像对应的特征矩阵进行多层卷积堆叠,得到待识别训练图像对应的第一降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第一降维特征矩阵进行处理,得到待识别训练图像对应的第一加权特征矩阵;将待识别训练图像对应的第一降维特征矩阵和待识别训练图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别训练图像对应的第二降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第二降维特征矩阵进行处理,得到待识别训练图像对应的第二加权特征矩阵;将待识别训练图像对应的第二降维特征矩阵和待识别训练图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别训练图像对应的第三降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第三降维特征矩阵进行处理,得到待识别训练图像对应的第三加权特征矩阵;根据待识别训练图像对应的第三加权特征矩阵,确定待识别训练图像对应的特征向量;对待识别训练图像对应的特征向量进行类别映射,得到待识别训练图像中对象对应的分类结果,并根据待识别训练图像中对象对应的分类结果和待识别训练图像中对象的标签确定图像识别模型的损失;通过循环迭代的方式,根据图像识别模型的损失更新图像识别模型中的参数。
具体的,可以获取待识别训练图像集合,集合中包含多个待识别训练图像和待识别训练图像中训练对象的标签,标签用于表征待识别训练图像中训练对象的真实类别,待识别训练图像可以为包含训练对象的图像,训练对象可以是人、动物、植物、或者物品等,在此处不做限定,将待识别训练图像集合输入至图像识别模型,可以通过卷积层进行特征提取,卷积层可以用于对待识别图像进行点积和累加操作,得到一个特征图矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等,得到待识别训练图像对应的特征矩阵。
可以通过多个不同的卷积层或者Inception结构对待识别训练图像对应的特征矩阵进行处理,在这里不做限定,通过多条卷积支线进行并行处理,例如,可以通过Inception结构中的4条卷积支线进行并行处理,第一条卷积支线可以将待识别训练图像对应的特征矩阵通过1*1卷积层进行降维处理,得到待识别训练图像对应的第一分支降维矩阵;第二条卷积支线可以对待识别训练图像对应的特征矩阵进行平均池化处理,通过平均池化将输入的待识别训练图像划分为多个矩形区域,对每个子区域输出所有元素的平均值,平均池化取每个矩形区域中的平均值,可以提取待识别训练图像中所有特征的信息进入下一层,用于保留更多待识别训练图像的背景信息,将平均池化后的特征矩阵通过1*1卷积层进行降维处理,得到待识别训练图像对应的第二分支降维矩阵;第三条卷积支线可以通过1*1卷积层,对待识别训练图像对应的特征矩阵进行降维处理,并可以将降维结果通过3*3卷积层进行特征提取,得到待识别训练图像对应的第三分支降维矩阵;第四条卷积支线可以通过1*1卷积层,对待识别训练图像对应的特征矩阵进行降维处理,并可以将降维结果通过多个3*3卷积层进行特征提取,3*3卷积层的个数包括不限于2、3、或者4层,其中3*3卷积层可以通过3*3的卷积核在降维结果上滑动,并对每个位置的像素进行卷积运算,以提取局部特征,得到待识别训练图像对应的第四分支降维矩阵;可以将待识别训练图像对应的第一分支降维矩阵、待识别训练图像对应的第二分支降维矩阵、待识别训练图像对应的第三分支降维矩阵、以及待识别训练图像对应的第四分支降维矩阵进行拼接叠加,融合成待识别训练图像对应的第一降维特征矩阵,待识别训练图像对应的第一降维特征矩阵可以为通过多个卷积层或者Inception结构对待识别训练图像对应的特征矩阵进行处理得到的特征矩阵。
可以对待识别训练图像对应的第一降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别训练图像对应的第一加权特征矩阵,待识别训练图像对应的第一加权特征矩阵可以为待识别训练图像对应的第一降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵。
可以通过对待识别训练图像对应的第一降维特征矩阵和待识别训练图像对应的第一加权特征矩阵进行相乘,乘积结果可以通过多个不同的卷积层或者Inception结构对待识别训练图像进行处理,在这里不做限定,通过多条卷积支线进行并行处理,卷积层可以用于对待识别训练图像进行点积和累加操作,得到一个特征图矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
可以对待识别训练图像对应的第二降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别训练图像对应的第二加权特征矩阵,待识别训练图像对应的第二加权特征矩阵可以为待识别训练图像对应的第二降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,软注意力机制可以通过多个不同分支并行处理。
可以通过对待识别训练图像对应的第二降维特征矩阵和待识别训练图像对应的第二加权特征矩阵进行相乘,乘积结果可以通过多个不同的卷积层或者Inception结构对待识别训练图像进行处理,在这里不做限定,通过多条卷积支线进行并行处理,卷积层可以用于对待识别训练图像进行点积和累加操作,得到待识别训练图像对应的第三降维特征矩阵,不同的卷积层之间的卷积核大小不同,包括但不限于1*1或者3*3等。
可以对待识别训练图像对应的第三降维特征矩阵进行软注意力机制中多个分支的并行处理,得到待识别训练图像对应的第三加权特征矩阵,待识别训练图像对应的第三加权特征矩阵可以为待识别训练图像对应的第三降维特征矩阵通过软注意力机制处理,通过加权得到的特征矩阵,包含了高阶的语义信息,便于后续进行分类识别。
可以通过全局最大池化层,将待识别训练图像对应的第三加权特征矩阵进行降维池化处理,得到训练降维向量,进而训练降维向量可以通过全连接层进行特征提取,得到待识别训练图像对应的特征向量,其中待识别训练图像对应的特征向量可以为包含了待识别训练图像中对象特征的向量,用于表征待识别训练图像中对象的特征信息。
可以计算待识别训练图像对应的特征向量和预设原始图像对应的特征向量之间的相似度分数,其中,预设原始图像可以为用于该图像识别模型训练的包含待识别训练图像中对象的原始图像,预设原始图像对应的特征向量可以为预设原始图像中对象的特征信息,包括但不限于颜色特征、纹理特征、形状特征、或者空间关系特征等。
并根据待识别训练图像中对象对应的分类结果和待识别训练图像中对象的标签,确定该图像识别模型损失,图像识别模型损失可以通过交叉熵损失计算方法、均方误差损失计算方法、或者均方根误差损失计算方法等得到,在此处不做限定,最后通过循环迭代的方式,根据图像识别模型损失更新该图像识别模型中的参数。
根据本公开实施例提供的技术方案,通过获取待识别训练图像集合,将待识别训练图像集合输入至该图像识别模型中,可以通过卷积层对各个待识别训练图像进行特征提取,得到待识别训练图像对应的特征矩阵,可以将特征矩阵通过Inception结构进行多层卷积堆叠,得到待识别训练图像对应的第一降维特征矩阵,对待识别训练图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别训练图像对应的第一加权特征矩阵,通过多层不同卷积核尺寸的卷积层对待识别训练图像对应的第一降维特征矩阵和待识别训练图像对应的第一加权特征矩阵进行多层卷积堆叠处理,得到待识别训练图像对应的第二降维特征矩阵,对待识别训练图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别训练图像对应的第二加权特征矩阵,将待识别训练图像对应的第二降维特征矩阵和待识别训练图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别训练图像对应的第三降维特征矩阵,通过软注意力机制,对待识别训练图像对应的第三降维特征矩阵进行处理得到待识别训练图像对应的第三加权特征矩阵,对待识别训练图像对应的第三加权特征矩阵进行全局最大池化处理,并将处理结果进行全连接层的特征提取,得到待识别训练图像对应的特征向量,对待识别训练图像对应的特征向量进行类别映射,得到待识别训练图像中对象对应的分类结果,根据待识别训练图像对应的分类结果和待识别训练图像中对象的标签确定该图像识别模型的损失,通过循环迭代的方式,根据该图像识别模型的损失更新图像识别模型中的参数,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
图3是本公开实施例提供的图像识别模型的结构示意图,如图3所示,该图像识别模型的结构示意图包括:
卷积层301,用于对待识别图像进行特征提取,得到待识别图像对应的特征矩阵;
第一Inception模块302,用于对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵;
第一软注意力模块303,用于通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵;
第二Inception模块304,用于将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;
第二软注意力模块305,用于通过软注意力机制,对待识别图像对应的第二降维特征矩阵进行处理,得到待识别图像对应的第二加权特征矩阵;
第三Inception模块306,用于将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;
第三软注意力模块307,用于通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;
全局最大池化层308,用于对待识别图像对应的第三加权特征矩阵进行全局最大池化处理,得到待识别图像对应的池化向量;
全连接层309,用于对待识别图像对应的池化向量进行特征提取,得到待识别图像对应的特征向量。
根据本公开实施例提供的技术方案,通过卷积层301对待识别图像进行特征提取,得到待识别图像对应的特征矩阵,通过第一Inception模块302对待识别图像对应的特征矩阵进行多层卷积堆叠,用于提取待识别图像的特征信息,并降低待识别图像的维度,便于模型进行学习,得到待识别图像对应的第一降维特征矩阵;通过第一软注意力模块303对待识别图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第一加权特征矩阵;通过第二Inception模块304将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;通过第二软注意力模块305对待识别图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第二加权特征矩阵;通过第三Inception模块306将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过第三软注意力模块307对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;通过全局最大池化层308对待识别图像对应的第三加权特征矩阵进行全局最大池化处理,得到待识别图像对应的池化向量;通过全连接层309对待识别图像对应的池化向量进行特征提取,得到待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
图4是本公开实施例提供的Inception模块的结构示意图,如图4所示,该Inception模块的结构示意图包括:
第一1*1卷积层401,用于将待识别图像对应的特征矩阵降维,得到第一分支降维矩阵;
平均池化层402,用于对待识别图像对应的特征矩阵进行池化处理;
第四1*1卷积层403,用于将池化结果进行降维,得到第二分支降维矩阵;
第二1*1卷积层404,用于对待识别图像对应的特征矩阵进行降维处理;
第一3*3卷积层405,用于将第一降维结果进行特征提取,得到第三分支降维矩阵;
第三1*1卷积层406,用于对待识别图像对应的特征矩阵进行降维处理;
第二3*3卷积层407,用于将第二降维结果进行特征提取;
第三3*3卷积层408,用于将上述特征提取结果再进行特征提取,得到第四分支降维矩阵。
根据本公开实施例提供的技术方案,通过第一1*1卷积层401将待识别图像对应的特征矩阵降维,得到第一分支降维矩阵;通过平均池化层402对待识别图像对应的特征矩阵进行池化处理,并通过第四1*1卷积层403将池化结果进行降维,得到第二分支降维矩阵;通过第二1*1卷积层404对待识别图像对应的特征矩阵进行降维处理,并通过第一3*3卷积层405将第一降维结果进行特征提取,得到第三分支降维矩阵;通过第三1*1卷积层406对待识别图像对应的特征矩阵进行降维处理,并通过第二3*3卷积层407和第三3*3卷积层408将第二降维结果进行多层特征提取,得到第四分支降维矩阵;将第一分支降维矩阵、第二分支降维矩阵、第三分支降维矩阵、以及第四分支降维矩阵进行拼接,得到待识别图像对应的第一降维特征矩阵,以此增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
图5是本公开实施例提供的软注意力模块的结构示意图,如图5所示,该软注意力模块的结构示意图包括:
空间全局平均池化层501,用于对待识别图像对应的第一降维特征矩阵进行空间池化处理;
第五1*1卷积层502,用于将空间池化结果进行降维处理,得到待识别图像对应的空间压缩矩阵;
通道全局平均池化层503,用于对待识别图像对应的第一降维特征矩阵进行通道池化处理;
第四3*3卷积层504,用于将通道池化结果进行特征提取;
第五3*3卷积层505,用于将上述提取结果再次进行特征提取,得到待识别图像对应的通道压缩矩阵;
第六1*1卷积层506,用于将乘积结果进行降维处理,得到降维矩阵。
根据本公开实施例提供的技术方案,通过空间全局平均池化层501对待识别图像对应的第一降维特征矩阵进行空间池化处理,并通过第五1*1卷积层502将空间池化结果进行降维处理,得到待识别图像对应的空间压缩矩阵;通过通道全局平均池化层503对待识别图像对应的第一降维特征矩阵进行通道池化处理,并通过第四3*3卷积层504将通道池化结果进行特征提取,再通过第五3*3卷积层505将上述提取结果再次进行特征提取,得到待识别图像对应的通道压缩矩阵;将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵相乘,得到乘积矩阵;通过第六1*1卷积层506对乘积矩阵进行降维处理,并将第三降维结果进行激活加权,得到激活矩阵;将待识别图像对应的第一降维特征矩阵和激活矩阵相乘,得到待识别图像对应的第一加权特征矩阵,以此增加了该图像识别模型的非线性表达能力,减少了计算量和参数数量,提升了该图像识别模型的处理效率,降低了过拟合的可能性,保证了提取信息的精细度,扩大了该图像识别模型的适用性,提高了该图像识别模型的处理速度。
上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
下述为本公开装置实施例,可以用于执行本公开方法实施例。对于本公开装置实施例中未披露的细节,请参照本公开方法实施例。
图6是本公开实施例提供的一种图像识别装置的示意图。如图6所示,该图像识别装置包括:
第一处理模块601,用于对待识别图像对应的特征矩阵进行多层卷积堆叠,得到待识别图像对应的第一降维特征矩阵;
第二处理模块602,用于通过软注意力机制,对待识别图像对应的第一降维特征矩阵进行处理,得到待识别图像对应的第一加权特征矩阵;
第三处理模块603,用于将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;
第四处理模块604,用于通过软注意力机制,对待识别图像对应的第二降维特征矩阵进行处理,得到待识别图像对应的第二加权特征矩阵;
第五处理模块605,用于将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;
第六处理模块606,用于通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;
第一确定模块607,用于根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;
第二确定模块608,用于根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象。
根据本公开实施例提供的技术方案,通过对待识别图像对应的特征矩阵进行多层卷积堆叠,用于提取待识别图像的特征信息,并降低待识别图像的维度,便于模型进行学习,得到待识别图像对应的第一降维特征矩阵;对待识别图像对应的第一降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第一加权特征矩阵;将待识别图像对应的第一降维特征矩阵和待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第二降维特征矩阵;对待识别图像对应的第二降维特征矩阵进行软注意力机制处理,得到待识别图像对应的第二加权特征矩阵;将待识别图像对应的第二降维特征矩阵和待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别图像对应的第三降维特征矩阵;通过软注意力机制,对待识别图像对应的第三降维特征矩阵进行处理,得到待识别图像对应的第三加权特征矩阵;根据待识别图像对应的第三加权特征矩阵,确定待识别图像对应的特征向量;根据待识别图像对应的特征向量和预设图像对应的特征向量,确定待识别图像中的对象是否为预设图像中的目标对象,以此提高了特征提取的丰富度,保证了图像识别结果的准确性,降低了识别过程的运作时间,提高了识别效率。
在一些实施例中,第一处理模块601具体用于,将待识别图像对应的特征矩阵降维,得到第一分支降维矩阵;对待识别图像对应的特征矩阵进行池化处理,并将池化结果进行降维,得到第二分支降维矩阵;对待识别图像对应的特征矩阵进行降维处理,并将第一降维结果进行特征提取,得到第三分支降维矩阵;对待识别图像对应的特征矩阵进行降维处理,并将第二降维结果进行多层特征提取,得到第四分支降维矩阵;将第一分支降维矩阵、第二分支降维矩阵、第三分支降维矩阵、以及第四分支降维矩阵进行拼接,得到待识别图像对应的第一降维特征矩阵。
在一些实施例中,第二处理模块602具体用于,对待识别图像对应的第一降维特征矩阵进行空间池化处理,并将空间池化结果进行降维处理,得到待识别图像对应的空间压缩矩阵;对待识别图像对应的第一降维特征矩阵进行通道池化处理,并将通道池化结果进行特征提取,得到待识别图像对应的通道压缩矩阵;根据待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵,确定待识别图像对应的第一加权特征矩阵。
在一些实施例中,根据待识别图像对应的第一降维特征矩阵、待识别图像对应的空间压缩矩阵、以及待识别图像对应的通道压缩矩阵,确定待识别图像对应的第一加权特征矩阵具体用于,将待识别图像对应的空间压缩矩阵和待识别图像对应的通道压缩矩阵相乘,得到乘积矩阵;对乘积矩阵进行降维处理,并将第三降维结果进行激活加权,得到激活矩阵;将待识别图像对应的第一降维特征矩阵和激活矩阵相乘,得到待识别图像对应的第一加权特征矩阵。
在一些实施例中,第二确定模块608具体用于,对待识别图像对应的特征向量和预设图像对应的特征项向量进行相似度计算,得到待识别图像对应的相似度分数;根据待识别图像对应的相似度分数和预设相似度阈值,确定待识别图像中的对象是否为预设图像中的目标对象;如果待识别图像对应的相似度分数大于等于预设相似度阈值,则确定待识别图像中的对象为预设图像中的目标对象;如果待识别图像对应的相似度分数小于预设相似度阈值,则确定待识别图像中的对象不是预设图像中的目标对象。
在一些实施例中,第一确定模块607具体用于,对待识别图像对应的第三加权特征矩阵进行全局最大池化处理,得到待识别图像对应的池化向量;对待识别图像对应的池化向量进行特征提取,得到待识别图像对应的特征向量。
在一些实施例中,上述图像识别装置还用于,获取待识别训练图像集合,待识别训练图像集合包含多个待识别训练图像和待识别训练图像中对象的标签,待识别训练图像中对象的标签用于表征待识别训练图像中对象的真实类别;将待识别训练图像集合输入至图像识别模型,并对各个待识别训练图像进行特征提取,得到待识别训练图像对应的特征矩阵;对待识别训练图像对应的特征矩阵进行多层卷积堆叠,得到待识别训练图像对应的第一降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第一降维特征矩阵进行处理,得到待识别训练图像对应的第一加权特征矩阵;将待识别训练图像对应的第一降维特征矩阵和待识别训练图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到待识别训练图像对应的第二降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第二降维特征矩阵进行处理,得到待识别训练图像对应的第二加权特征矩阵;将待识别训练图像对应的第二降维特征矩阵和待识别训练图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到待识别训练图像对应的第三降维特征矩阵;通过软注意力机制,对待识别训练图像对应的第三降维特征矩阵进行处理,得到待识别训练图像对应的第三加权特征矩阵;根据待识别训练图像对应的第三加权特征矩阵,确定待识别训练图像对应的特征向量;对待识别训练图像对应的特征向量进行类别映射,得到待识别训练图像中对象对应的分类结果,并根据待识别训练图像中对象对应的分类结果和待识别训练图像中对象的标签确定图像识别模型的损失;通过循环迭代的方式,根据图像识别模型的损失更新图像识别模型中的参数。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
图7是本公开实施例提供的电子设备7的示意图。如图7所示,该实施例的电子设备7包括:处理器701、存储器702以及存储在该存储器702中并且可在处理器701上运行的计算机程序703。处理器701执行计算机程序703时实现上述各个方法实施例中的步骤。或者,处理器701执行计算机程序703时实现上述各装置实施例中各模块/单元的功能。
电子设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等电子设备。电子设备7可以包括但不仅限于处理器701和存储器702。本领域技术人员可以理解,图7仅仅是电子设备7的示例,并不构成对电子设备7的限定,可以包括比图示更多或更少的部件,或者不同的部件。
处理器701可以是中央处理单元(Central Processing Unit,CPU),也可以是其它通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
存储器702可以是电子设备7的内部存储单元,例如,电子设备7的硬盘或内存。存储器702也可以是电子设备7的外部存储设备,例如,电子设备7上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。存储器702还可以既包括电子设备7的内部存储单元也包括外部存储设备。存储器702用于存储计算机程序以及电子设备所需的其它程序和数据。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个可读存储介质(例如计算机可读存储介质)中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质等。
以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围,均应包含在本公开的保护范围之内。
Claims (10)
1.一种图像识别方法,其特征在于,包括:
对待识别图像对应的特征矩阵进行多层卷积堆叠,得到所述待识别图像对应的第一降维特征矩阵;
通过软注意力机制,对所述待识别图像对应的第一降维特征矩阵进行处理,得到所述待识别图像对应的第一加权特征矩阵;
将所述待识别图像对应的第一降维特征矩阵和所述待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别图像对应的第二降维特征矩阵;
通过所述软注意力机制,对所述待识别图像对应的第二降维特征矩阵进行处理,得到所述待识别图像对应的第二加权特征矩阵;
将所述待识别图像对应的第二降维特征矩阵和所述待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别图像对应的第三降维特征矩阵;
通过所述软注意力机制,对所述待识别图像对应的第三降维特征矩阵进行处理,得到所述待识别图像对应的第三加权特征矩阵;
根据所述待识别图像对应的第三加权特征矩阵,确定所述待识别图像对应的特征向量;
根据所述待识别图像对应的特征向量和预设图像对应的特征向量,确定所述待识别图像中的对象是否为所述预设图像中的目标对象。
2.根据权利要求1所述的图像识别方法,其特征在于,所述对待识别图像对应的特征矩阵进行多层卷积堆叠,得到所述待识别图像对应的第一降维特征矩阵,包括:
将所述待识别图像对应的特征矩阵降维,得到第一分支降维矩阵;
对所述待识别图像对应的特征矩阵进行池化处理,并将池化结果进行降维,得到第二分支降维矩阵;
对所述待识别图像对应的特征矩阵进行降维处理,并将第一降维结果进行特征提取,得到第三分支降维矩阵;
对所述待识别图像对应的特征矩阵进行降维处理,并将第二降维结果进行多层特征提取,得到第四分支降维矩阵;
将所述第一分支降维矩阵、所述第二分支降维矩阵、所述第三分支降维矩阵、以及所述第四分支降维矩阵进行拼接,得到所述待识别图像对应的第一降维特征矩阵。
3.根据权利要求1所述的图像识别方法,其特征在于,所述通过软注意力机制,对所述待识别图像对应的第一降维特征矩阵进行处理,得到所述待识别图像对应的第一加权特征矩阵,包括:
对所述待识别图像对应的第一降维特征矩阵进行空间池化处理,并将空间池化结果进行降维处理,得到所述待识别图像对应的空间压缩矩阵;
对所述待识别图像对应的第一降维特征矩阵进行通道池化处理,并将通道池化结果进行特征提取,得到所述待识别图像对应的通道压缩矩阵;
根据所述待识别图像对应的第一降维特征矩阵、所述待识别图像对应的空间压缩矩阵、以及所述待识别图像对应的通道压缩矩阵,确定所述待识别图像对应的第一加权特征矩阵。
4.根据权利要求3所述的图像识别方法,其特征在于,所述根据所述待识别图像对应的第一降维特征矩阵、所述待识别图像对应的空间压缩矩阵、以及所述待识别图像对应的通道压缩矩阵,确定所述待识别图像对应的第一加权特征矩阵,包括:
将所述待识别图像对应的空间压缩矩阵和所述待识别图像对应的通道压缩矩阵相乘,得到乘积矩阵;
对所述乘积矩阵进行降维处理,并将第三降维结果进行激活加权,得到激活矩阵;
将所述待识别图像对应的第一降维特征矩阵和所述激活矩阵相乘,得到所述待识别图像对应的第一加权特征矩阵。
5.根据权利要求1所述的图像识别方法,其特征在于,所述根据所述待识别图像对应的特征向量和预设图像对应的特征向量,确定所述待识别图像中的对象是否为所述预设图像中的目标对象,包括:
对所述待识别图像对应的特征向量和预设图像对应的特征项向量进行相似度计算,得到所述待识别图像对应的相似度分数;
根据所述待识别图像对应的相似度分数和预设相似度阈值,确定所述待识别图像中的对象是否为所述预设图像中的目标对象;
如果所述待识别图像对应的相似度分数大于等于所述预设相似度阈值,则确定所述待识别图像中的对象为所述预设图像中的目标对象;
如果所述待识别图像对应的相似度分数小于所述预设相似度阈值,则确定所述待识别图像中的对象不是所述预设图像中的目标对象。
6.根据权利要求1所述的图像识别方法,其特征在于,所述根据所述待识别图像对应的第三加权特征矩阵,确定所述待识别图像对应的特征向量,包括:
对所述待识别图像对应的第三加权特征矩阵进行全局最大池化处理,得到所述待识别图像对应的池化向量;
对所述待识别图像对应的池化向量进行特征提取,得到所述待识别图像对应的特征向量。
7.根据权利要求1所述的图像识别方法,其特征在于,在所述对待识别图像对应的特征矩阵进行多层卷积堆叠,得到所述待识别图像对应的第一降维特征矩阵之前,还包括:
获取待识别训练图像集合,所述待识别训练图像集合包含多个所述待识别训练图像和所述待识别训练图像中对象的标签,所述待识别训练图像中对象的标签用于表征所述待识别训练图像中对象的真实类别;
将所述待识别训练图像集合输入至图像识别模型,并对各个所述待识别训练图像进行特征提取,得到所述待识别训练图像对应的特征矩阵;
对所述待识别训练图像对应的特征矩阵进行多层卷积堆叠,得到所述待识别训练图像对应的第一降维特征矩阵;
通过软注意力机制,对所述待识别训练图像对应的第一降维特征矩阵进行处理,得到所述待识别训练图像对应的第一加权特征矩阵;
将所述待识别训练图像对应的第一降维特征矩阵和所述待识别训练图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别训练图像对应的第二降维特征矩阵;
通过软注意力机制,对所述待识别训练图像对应的第二降维特征矩阵进行处理,得到所述待识别训练图像对应的第二加权特征矩阵;
将所述待识别训练图像对应的第二降维特征矩阵和所述待识别训练图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别训练图像对应的第三降维特征矩阵;
通过软注意力机制,对所述待识别训练图像对应的第三降维特征矩阵进行处理,得到所述待识别训练图像对应的第三加权特征矩阵;
根据所述待识别训练图像对应的第三加权特征矩阵,确定所述待识别训练图像对应的特征向量;
对所述待识别训练图像对应的特征向量进行类别映射,得到所述待识别训练图像中对象对应的分类结果,并根据所述待识别训练图像中对象对应的分类结果和所述待识别训练图像中对象的标签确定所述图像识别模型的损失;
通过循环迭代的方式,根据所述图像识别模型的损失更新所述图像识别模型中的参数。
8.一种图像识别装置,其特征在于,包括:
第一处理模块,用于对待识别图像对应的特征矩阵进行多层卷积堆叠,得到所述待识别图像对应的第一降维特征矩阵;
第二处理模块,用于通过软注意力机制,对所述待识别图像对应的第一降维特征矩阵进行处理,得到所述待识别图像对应的第一加权特征矩阵;
第三处理模块,用于将所述待识别图像对应的第一降维特征矩阵和所述待识别图像对应的第一加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别图像对应的第二降维特征矩阵;
第四处理模块,用于通过所述软注意力机制,对所述待识别图像对应的第二降维特征矩阵进行处理,得到所述待识别图像对应的第二加权特征矩阵;
第五处理模块,用于将所述待识别图像对应的第二降维特征矩阵和所述待识别图像对应的第二加权特征矩阵相乘后进行多层卷积堆叠,得到所述待识别图像对应的第三降维特征矩阵;
第六处理模块,用于通过所述软注意力机制,对所述待识别图像对应的第三降维特征矩阵进行处理,得到所述待识别图像对应的第三加权特征矩阵;
第一确定模块,用于根据所述待识别图像对应的第三加权特征矩阵,确定所述待识别图像对应的特征向量;
第二确定模块,用于根据所述待识别图像对应的特征向量和预设图像对应的特征向量,确定所述待识别图像中的对象是否为所述预设图像中的目标对象。
9.一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述方法的步骤。
10.一种可读存储介质,所述可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160658.2A CN117935022A (zh) | 2024-02-02 | 2024-02-02 | 图像识别方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410160658.2A CN117935022A (zh) | 2024-02-02 | 2024-02-02 | 图像识别方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117935022A true CN117935022A (zh) | 2024-04-26 |
Family
ID=90762959
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410160658.2A Pending CN117935022A (zh) | 2024-02-02 | 2024-02-02 | 图像识别方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117935022A (zh) |
-
2024
- 2024-02-02 CN CN202410160658.2A patent/CN117935022A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109446430B (zh) | 产品推荐的方法、装置、计算机设备及可读存储介质 | |
CN109117781B (zh) | 多属性识别模型的建立方法、装置及多属性识别方法 | |
CN112651438A (zh) | 多类别图像的分类方法、装置、终端设备和存储介质 | |
CN112395979B (zh) | 基于图像的健康状态识别方法、装置、设备及存储介质 | |
CN111914908A (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
CN112766284B (zh) | 图像识别方法和装置、存储介质和电子设备 | |
WO2024060684A1 (zh) | 模型训练方法、图像处理方法、设备及存储介质 | |
CN111223128A (zh) | 目标跟踪方法、装置、设备及存储介质 | |
CN114399808A (zh) | 一种人脸年龄估计方法、系统、电子设备及存储介质 | |
CN115100717A (zh) | 特征提取模型的训练方法、卡通对象的识别方法及装置 | |
CN114155388B (zh) | 一种图像识别方法、装置、计算机设备和存储介质 | |
CN110163095B (zh) | 回环检测方法、回环检测装置及终端设备 | |
CN117876709A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
CN108496174B (zh) | 用于面部识别的方法和系统 | |
CN117894038A (zh) | 一种图像中对象姿态生成方法和装置 | |
CN113139490B (zh) | 一种图像特征匹配方法、装置、计算机设备及存储介质 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN115359390A (zh) | 一种图像处理方法及装置 | |
CN117935022A (zh) | 图像识别方法、装置、电子设备及可读存储介质 | |
CN111784787B (zh) | 图像生成方法和装置 | |
CN110826726B (zh) | 目标处理方法、目标处理装置、目标处理设备及介质 | |
CN107609645B (zh) | 用于训练卷积神经网络的方法和装置 | |
CN113255824A (zh) | 训练分类模型和数据分类的方法和装置 | |
CN113780324A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN111814865A (zh) | 一种图像识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |