CN115761356A

CN115761356A - 图像识别方法、装置、电子设备和存储介质

Info

Publication number: CN115761356A
Application number: CN202211480583.3A
Authority: CN
Inventors: 闫润强; 李亚飞; 邓柯珀
Original assignee: Henan Xunfei Artificial Intelligence Technology Co ltd
Current assignee: Henan Xunfei Artificial Intelligence Technology Co ltd
Priority date: 2022-11-23
Filing date: 2022-11-23
Publication date: 2023-03-07

Abstract

本发明提供一种图像识别方法、装置、电子设备和存储介质，其中方法包括：获取待识别图像；对所述待识别图像进行局部特征提取，得到局部特征；基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；对所述全局特征表示进行识别，得到图像识别结果。本发明提供的图像识别方法、装置、电子设备和存储介质，通过基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，由此得到的全局特征表示具有局部细微特征的表征能力，同时又具备全局语义信息的表征能力，基于该全局特征表示进行图像识别能够减少误分类，提高识别的准确率。

Description

图像识别方法、装置、电子设备和存储介质

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种图像识别方法、装置、电子设备和存储介质。

背景技术

在农业生产中，农作物病害的发生是引起农作物产量和质量下降的主要因素，直接影响农业的经济效益。为确保农作物的高质量、高产量，准确及时地发现农作物病害并及时治疗，成为农业生产中必不可少的一部分。

传统的农作物病害鉴别方法主要是依赖人工，不仅成本高昂、耗时耗力，而且要求鉴别人员具备一定水平的病害知识。现有的深度学习的方法虽然可以有效解放人力成本，但在农作物病害识别中一直表现欠佳，识别效率和准确性有待提高。

发明内容

本发明提供一种图像识别方法、装置、电子设备和存储介质，用以解决现有技术中图像识别效率和准确性欠佳的缺陷。

本发明提供一种图像识别方法，包括：

获取待识别图像；

对所述待识别图像进行局部特征提取，得到局部特征；

基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；

对所述全局特征表示进行识别，得到图像识别结果。

根据本发明提供的图像识别方法，所述基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示，包括：

基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到特征序列；

基于所述特征序列中各图块特征的重要性，对所述特征序列进行特征选择，得到所述全局特征表示。

根据本发明提供的图像识别方法，所述基于所述特征序列中各图块特征的重要性，对所述特征序列进行特征选择，包括：

基于所述特征序列中每两个图块特征之间的相关度，确定各图块特征的重要性得分；

基于所述各图块特征的重要性得分，对所述特征序列进行特征选择。

根据本发明提供的图像识别方法，所述基于所述各图块特征的重要性得分，对所述特征序列进行特征选择，包括：

基于所述重要性得分，从所述各图块特征中选择第一数量个固定图块特征；

基于初始图块特征的数量，以及所述重要性得分对应的累计分布信息，从所述各图块特征中选择第一数量个动态图块特征；

基于所述第一数量个固定图块特征和所述第二数量个动态图块特征，对所述特征序列进行特征选择。

根据本发明提供的图像识别方法，所述基于所述特征序列中各图块特征的重要性，对所述特征序列进行特征选择，得到所述全局特征表示，包括：

基于上一次的全局特征表示中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到当前次的特征序列；

基于所述当前次的特征序列中各图块特征的重要性，对所述当前次的特征序列进行特征选择，得到当前次的全局特征表示；

将所述当前次的全局特征表示作为上一次的全局特征表示，返回执行构建图像的全局特征表示，直至所述构建图像的全局特征表示的执行次数达到预设次数。

根据本发明提供的图像识别方法，所述对所述待识别图像进行局部特征提取，得到局部特征，基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示，对所述全局特征表示进行识别，得到图像识别结果，包括：

将所述待识别图像输入至图像识别模型，得到所述图像识别模型输出的图像识别结果；

其中，所述图像识别模型是基于样本图像和所述样本图像的标签训练得到的。

根据本发明提供的图像识别方法，所述待识别图像为农作物图像，所述图像识别结果为农作物病害识别结果。

本发明还提供一种图像识别装置，包括：

图像获取单元，用于获取待识别图像；

局部特征提取单元，用于对所述待识别图像进行局部特征提取，得到局部特征；

全局特征表示构建单元，用于基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；

识别单元，用于对所述全局特征表示进行识别，得到图像识别结果。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述图像识别方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述图像识别方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述图像识别方法。

本发明提供的图像识别方法、装置、电子设备和存储介质，通过基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，由此得到的全局特征表示具有局部细微特征的表征能力，同时又具备全局语义信息的表征能力，基于该全局特征表示进行图像识别能够减少误分类，提高识别的准确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的图像识别方法的流程示意图之一；

图2是本发明提供的图像识别方法中步骤130的流程示意图之一；

图3是本发明提供的特征选择方法的流程示意图之一；

图4是本发明提供的特征选择方法的流程示意图之二；

图5是本发明提供的特征选择方法的流程示意图之三；

图6是本发明提供的图像识别模型的结构示意图；

图7是本发明提供的图像识别方法的流程示意图之二；

图8是本发明提供的图像识别装置的结构示意图；

图9是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有方案中，农作物病害识别方法通常可分为以下两种方式：

(1)传统的农作物病害鉴别方法

传统的农作物病害鉴别方法主要是依赖人工。通过对采集的农作物病害样本进行人为观察或借助相关设备分析，结合病害知识来判断农作物是否发生病害及病害类型。

该方法要求鉴别人员具备一定水平的病害知识，对普通农户来说要求较高，很难达到较好的农作物病害识别效果。而对于具备专业知识的技术人员来说，虽然可以达到较好的农作物病害识别效果，但无疑存在较高的人力成本，效率低，不适合广泛应用。

(2)使用深度学习方法进行鉴别

深度学习的方法多数是以图像分类的思想来实现，通过使用卷积神经网络对农作物病害图像进行特征提取，结合提取到的特征对图像进行分类，达到对农作物病害自动识别的目的。

该方法相较于传统鉴别方法，虽然可以有效解放人力成本，快速识别农作物病害的发生并确定病害的类型，但在农作物病害识别中一直表现欠佳。其主要原因在于与常规的图像分类任务相比，农作物病害具有多样性和相似性，现有方法对具有辨别性的细微特征提取能力不足，且易受农作物叶片形状、背景等因素的影响学习到冗余特征，引发对农作物病害的误识别，从而导致准确性欠佳。

基于此，本发明提供一种图像识别方法，通过提取待识别图像的局部特征，并基于局部特征中各图块之间的相关性，以及各图块的位置信息构建图像的全局特征表示，由此得到的全局特征表示具有局部细微特征的表征能力，同时又具备图像全局语义信息的表征能力，基于该全局特征进行图像识别能够减少误分类，提高识别的准确率。

需说明的是，本发明提供的图像识别方法不仅可应用在农作物的病害识别场景，还可以应用在其他类别之间具有多样性和相似性的场景，比如面部表情识别、医学图像识别或文本识别等等，本发明实施例对此不作具体限定。

下面将结合附图详细描述本发明的图像识别方法的技术方案。图1是本发明提供的图像识别方法的流程示意图之一，该方法可应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现，也可以为区块链中的节点。如图1所示，本发明实施例提供的图像识别方法可以包括如下步骤：

步骤110，获取待识别图像。

具体地，待识别图像可以是任意需要进行图像识别的图像，例如，待识别图像是农作物图像、人脸图像、医学图像等。待识别图像的数量为至少一个。

本发明实施例不对待识别图像的获取方式做限定，待识别图像可以是采用扫描仪设备进行扫描，或者采用高拍仪、移动设备等拍摄的图像，也可以是从网下下载的图像，或者是从设备接收到的图像，还可以是视频中的图像。示例性的，待识别图像可以是用户从其他设备中导入的图像，例如，用户将通用串行总线(Universal Serial Bus，USB)闪存盘中的某个图像导入电子设备中，使得电子设备获取到该图像，即电子设备获取到待识别图像。

步骤120，对待识别图像进行局部特征提取，得到局部特征。

具体地，考虑到例如农作物病害识别时，农作物病害具有多样性和相似性，为了进一步提高病害识别的准确性，需关注到待识别图像中具有辨别性的细微特征，即局部特征。此处的局部特征能够反映待识别图像中需要重点关注的具有辨别性的细微特征。

为了得到局部特征，可通过对待识别图像进行局部特征提取实现。进一步地，可通过局部特征提取模块实现。考虑到卷积神经网络(Convolutional Neural Network，CNN)能够很好的提取图像的局部特征，此处的局部特征提取模块具体可以是CNN模块，局部特征提取模块可包括多个串联的子模块，每一子模块均包括卷积层、归一化层和激活层。其中，卷积层用于对待识别图像进行卷积操作；归一化层用于对卷积得到的图像特征进行层归一化处理，以防止梯度爆炸和梯度消失；激活层用于加入非线性因素，将图像特征映射到高维的非线性区间。

需说明的是，当然还可以采用除CNN模块之外的其他模型进行局部特征提取，比如尺度不变特征转换算法SIFT(Scale-invariant feature transform，SIFT)等，根据实际需要灵活选择。

步骤130，基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，得到全局特征表示。

具体地，考虑到局部特征能够表征具有辨别性的细微特征，但对待识别图像的全局特征的表示能力不够，因此可在得到局部特征的基础上，进一步构建图像的全局特征表示。

为了得到全局特征表示，可通过基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示实现。构建图像的全局特征表示可通过全局特征表示构建模块实现。

优选地，全局特征表示构建模块可以是基于注意力机制的编码模块，将局部特征进行张量扁平化操作后，划分成多个大小相同的图块，得到各个图块。此处各图块的位置信息具体可以是通过公式计算得到的位置编码，也可以是通过训练好的位置编码器对各图块进行位置编码后，得到的位置编码信息。

全局特征表示构建模块可以包括一层或多层串联的子模块，每一层子模块均由具有残差结构的多头自注意力(Multi-Head Attention，MSA)和多层感知机(MultilayerPerceptron，MLP)组成，局部特征在输入这两个模块之前均利用Layer norm(LN)进行标准化处理。

将各图块的局部特征以及各图块的位置信息输入全局特征表示构建模块，全局特征表示构建模块对待识别图像构建图像的全局特征表示时，可以基于各图块之间的相关性，捕获特征的长距离表示，使得得到的全局特征表示具备图像全局表征的能力。

优选地，考虑到全局特征表示中可能包含对图像识别并不重要的图块，因此为了进一步减少模型的计算量，可对全局特征表示中各图块进行特征筛选，基于特征筛选后的特征序列确定全局特征表示。

步骤140，对全局特征表示进行识别，得到图像识别结果。

具体地，得到全局特征表示之后，可采用分类层对全局特征表示进行识别，得到图像识别结果。

例如，当待识别图像是农作物相关的图像时，通过上述步骤可得到农作物图像的全局特征表示，并基于全局特征表示进行病害识别，以识别出农作物是否有病害，以及病害的类别；

当待识别图像是医学图像时，可得到该医学图像的全局特征表示，并基于全局特征表示进行病灶类型识别，以识别出医学图像中的病灶类型等。

本发明实施例提供的方法，通过基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，由此得到的全局特征表示具有局部细微特征的表征能力，同时又具备构建图像全局语义信息的表征能力，基于该全局特征表示进行图像识别能够减少误分类，提高识别的准确率。

基于上述实施例，图2是本发明提供的图像识别方法中步骤130的流程示意图之一，如图2所示，步骤130具体包括：

步骤131，基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，得到特征序列；

步骤132，基于特征序列中各图块特征的重要性，对特征序列进行特征选择，得到全局特征表示。

具体地，可采用Tokens-to-Tokens Vision Transformer模型(T2T-ViT模型)构建图像的全局特征表示，将各图块的局部特征、各图块的位置信息，以及分类token输入T2T-ViT模型中，得到模型输出的与待识别图像对应的特征序列(Token序列)，作为全局特征表示。

考虑到在使用Transformer网络构建图像的全局特征表示时，网络会根据给定数量的token输入序列，通过网络结构中的自注意力机制将序列中的token任意两两之间关联起来迭代学习特征表示，这样模型的复杂度与输入的token数量成二次关系，特别是在较大尺寸的图像输入时，模型的运算量急剧增大，带来了明显的资源消耗和时间成本。

针对此，本发明提出了一种特征选择方法，基于特征序列中各图块特征的重要性进行特征选择，将重要性较高的图块特征保留，删除重要性相对较低的图块特征。

特征序列中包括分类特征和图块特征，其中各图块特征的重要性是针对分类特征而言。任一图块特征与分类特征的关联程度越高，说明该图块特征至少在当前阶段对于判别输入图像类别的分类特征越重要，则该图块特征的重要性越高，在进行特征选择时，该图块特征被保留的概率越大；反之，如果任一图块的重要性越低，在进行特征选择时，该图块特征被保留的概率越小。

本发明实施例提供的方法，基于各图块特征的重要性进行特征选择，减少图块特征数量，从而降低计算成本，避免冗余图块特征对特征提取的影响，进一步加强特征表征能力，从而提高后续图像识别的准确性。

基于上述任一实施例，图3是本发明提供的特征选择方法的流程示意图之一，如图3所示，步骤132具体包括：

步骤132-1，基于特征序列中每两个图块特征之间的相关度，确定各图块特征的重要性得分；

步骤132-2，基于各图块特征的重要性得分，对特征序列进行特征选择。

具体地，各图块特征的重要性可通过重要性得分来衡量，通过特征序列中每两个图块特征之间的相关度，能够得到各图块特征的重要性得分。特征序列中每两个图块特征之间的相关度可通过自注意力矩阵确定。

假设transformer layer之后输出的自注意力矩阵为A，token数量为m+1，其中1表示的是特征序列中的第一个分类token。自注意力矩阵表示每两个图块特征之间的相关度。各图块特征的重要性得分可通过如下公式计算得到：

公式(1)中，a_1,i和a_1,j分别表示自注意力矩阵A中第1行第i列，第1行第j列的元素；h_j为第j个图块特征的得分。

得到各图块的重要性得分的基础上，可根据重要性得分从自注意矩阵中删除部分图块特征。例如按照重要性得分从高到低的顺序，删除重要性得分较低的图块特征，保留重要性得分较高的图块特征，实现特征选择。

基于上述任一实施例，图4是本发明提供的特征选择方法的流程示意图之二，如图4所示，步骤132-2具体包括：

步骤132-21，基于重要性得分，从各图块特征中选择第一数量个固定图块特征；

步骤132-22，基于初始图块特征的数量，以及重要性得分对应的累计分布信息，从各图块特征中选择第二数量个动态图块特征；

步骤132-23，基于第一数量个固定图块特征和第二数量个动态图块特征，进行特征选择。

具体地，考虑到构建全局特征表示和特征选择可能会有多次，如果仅筛选出得分最高的一些图块特征将其保留，那些被丢弃的低分图块特征对于最后的分类来说并不是一定不重要。不同的图块特征在不同的阶段可能有不同的作用，代表不同特征意义，如果仅根据某个中间阶段中图块特征的得分较低就直接将其删除掉，那么被删除的图块特征就无法参与后续的构建全局特征表示，但它可能在后面某个阶段有重要的作用，这样反而会影响最后的识别结果。

基于此，本发明实施例提出了一种固定图块特征选择和动态图块特征选择相结合的自适应动态选择方法。

固定图块特征是针对图块特征的重要性得分进行从高到底进行排序，选择一定数量为n的高得分图块特征，比如可以按照得分从高到低选择3-7个图块特征作为第一数量个固定图块特征。

动态图块特征是根据各图块特征的重要性分数来选择，使得高得分的图块特征有更大的概率被保留，低得分的图块特征有更小的概率被保留。

具体实现策略为计算图块特征得分对应的累积分布函数，计算公式如下：

公式(2)中，j＝2表示排除第一个分类特征，从第二个特征开始。在得到累积分布函数CDF之后，可以根据其逆形式得到图块特征选择函数，公式如下：

η(α)＝CDF^-1(α) (3)

其中α值在0到1之间。具体操作为从0到1之间均匀分布随机选取一个数α，计算η(α)，然后选择最近的整数作为选择的图块特征索引。这个操作重复执行R次，在这R次中可能会出现一个图块特征被多次选中的情况，这样实际的动态图块特征数量为r，r≤R。

由此可看出，动态图块特征的数量不仅与各图块的重要性分数相关，还与初始图块特征的数量相关，通常实际中R的值可设置为初始阶段输入图块特征数量的70％取整。

最后选择的图块特征为n和r中所有选择的图块特征，并去除重复后加上分类特征，得到特征选择后的全局特征表示。

本发明实施例提供的基于固定图块特征和动态图块特征的特征选择方法，自适应动态选择图块特征。此方法应用在每个transformer layer之后进行特征选择，不仅可以去除冗余特征信息，加强特征表征能力，也可以起到对网络剪枝的作用，从而降低计算成本，构建轻量化的网络结构。

基于上述任一实施例，图5是本发明提供的特征选择方法的流程示意图之三，如图5所示，步骤132具体包括：

步骤132-3，基于上一次的全局特征表示中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，得到当前次的特征序列；

步骤132-4，基于当前次的特征序列中每两个图块之间的相关度，对当前次的特征序列进行特征选择，得到当前次的全局特征表示；

步骤132-5，将当前次的全局特征表示作为上一次的全局特征表示，返回执行构建图像的全局特征表示，直至构建图像的全局特征表示的执行次数达到预设次数。

具体地，为了使得构建得到的全局特征表示具有更加准确的全局表征能力，构建全局特征表示和特征选择可以执行多次，并且在执行每一次构建全局特征表示之后进行一次特征选择，直至构建全局特征表示的执行次数达到预设次数。

在一些实施例中，构建全局特征表示的次数可以是12次，则全局特征表示构建模块可包括12层，每一层用于构建当前次的全局特征表示。相应地，特征选择模块也包括12层，每一层用于进行当前次的特征选择。

可理解的是，将局部特征输入全局特征表示构建模块的首层，经首次构建全局特征表示之后得到首次特征序列，将首次特征序列输入特征选择模块的首层之后，经特征选择后得到首次全局特征表示；再将首次全局特征表示输入全局特征表示构建模块的第二层，经第二次构建全局特征表示之后得到第二次特征序列，将第二次特征序列输入特征选择模块的第二层之后，经特征选择后得到第二次全局特征表示，以此类推，经过12次全局特征表示构建和特征选择之后，得到最后的全局特征表示。

本发明实施例提供的方法，通过多层全局特征表示构建和特征选择之后，得到最终的全局特征表示，在每一次全局特征表示构建之后进行特征选择，不仅可以去除冗余特征信息，加强关键特征的表征能力，也可以起到对网络剪枝的作用，从而降低计算成本，构建轻量化的网络结构。

基于上述任一实施例，步骤110-140具体可以包括：

将待识别图像输入至图像识别模型，得到图像识别模型输出的图像识别结果；

其中，图像识别模型是基于样本图像和样本图像的标签训练得到的。

具体地，本发明实施例提供的图像识别方法可通过图像识别模型实现，获取待识别图像之后，可以对待识别图像进行预处理，包括尺度调整、归一化等操作，接着将待识别图像输入到训练好图像识别模型中，经过模型推理得到各预设类别的得分，选择得分最高的类别作为识别结果。

在此之前，可构建初始识别模型，基于样本图像和样本图像的标签对初始识别模型进行训练，得到训练好的图像识别模型。

在一些实施例中，待识别图像为农作物图像，图像识别结果为农作物病害识别结果。

图6是本发明提供的图像识别模型的结构示意图，如图6所示，图像识别模型包括局部特征提取模块，用于对待识别图像进行局部特征提取，得到局部特征，局部特征提取模块可以是CNN模块。

还包括全局特征表示构建模块，用于基于局部特征中各图块之间的相关性和所述各图块的位置信息，对待识别图像构建图像的全局特征表示，得到全局特征表示，全局特征表示构建模块可以是Transformer编码模块。

还包括识别模块，用于对全局特征表示进行识别，得到图像识别结果。

优选的，图像识别模型还可以包括特征选择模块，用于基于特征序列中各图块特征的重要性，对特征序列进行特征选择，得到全局特征表示。特征选择的方法可参考上述实施例的描述。

CNN模块由5个CNN-block串联组成，对输入的农作物病害图像进行不同层次的特征提取。Transformer编码模块由12个Transformer Layer组成，用于构建图像的全局特征表示。在每一个Transformer Layer后会经过特征选择模块(Feature selection module)，从Token维度对提取到的特征进行选择，保留关键性特征，去除冗余特征信息。最后通过分类层(识别模块)获得最终分类结果。

CNN模块由5个CNN-block组成，每个CNN-block均包括卷积层、归一化层和激活层。CNN模块的前4个CNN-block的结构相同，均使用卷积核大小3×3，步长为2的卷积操作对输入图像提取不同层次的局部特征。最后一个CNN-block使用卷积核大小1×1，步长为1的卷积操作，用于加强通道之间的信息融合，并调整通道数量以满足后续使用。输入图像首先经过尺寸调整，调整为448*448*3固定大小后输入到CNN模块进行特征提取，输出为28*28*768大小的特征向量。

对经过CNN模块得到的28*28*768大小的特征向量，通过Flatten操作将特征向量的维度压缩成784*768，并加入位置编码向量和分类token，输入到Transformer编码模块中。

Transformer编码模块中由12个Transformer Layer组成。相应地，特征选择模块有12层特征选择层，每一层Transformer Layer后接入一层特征选择层。

Transformer Layer由具有残差结构的多头自注意力(Multi-Head Attention，MSA)和多层感知机(Multilayer Perceptron，MLP)组成，数据在输入这两个模块之前均利用Layer norm(LN)进行标准化处理。视觉Transformer不同于CNN仅能构建相邻区域像素的关系，它可以捕获特征的长距离表示，拥有更加强健的构建图像全局表征的能力。对最后一层的Transformer layer的输出经过分类头获得最终分类结果。

在此基础上，对构建好的模型进行训练，训练流程可以包括如下：

1)数据采集与标注：采集大量样本图像，建立数据库。例如，可采用摄像头针对农作物病害区域进行拍摄，拍摄时以病害区域为中心选取近距离视角，采集不同病害类型的RGB图像。对样本图像进行筛选整理、剔除无效数据后，对每张图像进行标签标注。

2)数据处理：对标注过后的数据按9:1划分训练集和测试集。对训练集中的数据进行预处理，包括：尺度调整、随机剪裁、颜色调整、水平翻转等。

3)模型训练：使用训练集对模型进行训练。训练中采用交叉熵损失(Binary CrossEntropy Loss，BCE loss)损失函数。交叉熵损失函数公式为：

公式(4)中，m为样本图像数量，n为病害类别数，p(x_i,j)为真实值，q(x_i,j)为预测值。根据训练数据中各个类别的样本数量，调整损失函数的加权系数可以应对训练样本不平衡的问题，加快模型收敛，提高模型性能。

4)模型性能测试与迭代优化：使用训练集对模型训练，直到模型收敛。对训练好的模型进行测试，并不断迭代优化，达到性能要求。至此，得到图像识别模型，可用于对农作物图像进行病害识别。

本发明实施例提供的方法将CNN网络和视觉Transform网络进行融合，使模型可以提取不同层次的图像局部特征，同时具备图像全局表征的能力，提高在图像分类中对具有辨别性细微特征的提取能力，减少模型误分类的情况。

此外，本发明根据自注意力矩阵来计算其他token与分类token之间的关联程度，根据关联程度自适应动态选择token。此方法应用在每个transformer layer之后进行特征选择，不仅可以去除冗余特征信息，加强特征表征能力，也可以起到对网络剪枝的作用，从而降低计算成本，构建轻量化的网络结构。

图7是本发明提供的图像识别方法的流程示意图之二，如图7所示，基于构建好的图像识别模型，以及样本图像和标签进行模型训练，并使用训练好的图像识别模型对农作物图像进行病害识别。

下面对本发明提供的图像识别装置进行描述，下文描述的图像识别装置与上文描述的图像识别方法可相互对应参照。

基于上述任一实施例，图8是本发明提供的图像识别装置的结构示意图，如图8所示，图像识别装置包括：

图像获取单元810，用于获取待识别图像；

局部特征提取单元820，用于对所述待识别图像进行局部特征提取，得到局部特征；

全局特征表示构建单元830，用于基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；

识别单元840，用于对所述全局特征表示进行识别，得到图像识别结果。

本发明实施例提供的图像识别装置，通过基于局部特征中各图块之间的相关性和各图块的位置信息，对待识别图像构建图像的全局特征表示，由此得到的全局特征表示具有局部细微特征的表征能力，同时又具备构建图像的全局语义信息的表征能力，基于该全局特征表示进行图像识别能够减少误分类，提高识别的准确率。

基于上述任一实施例，全局特征表示构建单元进一步用于：

基于初始图块特征的数量，以及所述重要性得分对应的累计分布信息，从所述各图块特征中选择第二数量个动态图块特征；

基于上述任一实施例，全局特征表示构建单元进一步用于：

基于上述任一实施例，还包括模型识别单元，用于：

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)910、通信接口(Communications Interface)920、存储器(memory)930和通信总线940，其中，处理器910，通信接口920，存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令，以执行图像识别方法，该方法包括：获取待识别图像；对所述待识别图像进行局部特征提取，得到局部特征；基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；对所述全局特征表示进行识别，得到图像识别结果。

此外，上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的图像识别方法，该方法包括：获取待识别图像；对所述待识别图像进行局部特征提取，得到局部特征；基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；对所述全局特征表示进行识别，得到图像识别结果。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的图像识别方法，该方法包括：获取待识别图像；对所述待识别图像进行局部特征提取，得到局部特征；基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示；对所述全局特征表示进行识别，得到图像识别结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种图像识别方法，其特征在于，包括：

获取待识别图像；

对所述待识别图像进行局部特征提取，得到局部特征；

对所述全局特征表示进行识别，得到图像识别结果。

2.根据权利要求1所述的图像识别方法，其特征在于，所述基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示，包括：

3.根据权利要求2所述的图像识别方法，其特征在于，所述基于所述特征序列中各图块特征的重要性，对所述特征序列进行特征选择，包括：

4.根据权利要求3所述的图像识别方法，其特征在于，所述基于所述各图块特征的重要性得分，对所述特征序列进行特征选择，包括：

5.根据权利要求2所述的图像识别方法，其特征在于，所述基于所述特征序列中各图块特征的重要性，对所述特征序列进行特征选择，得到所述全局特征表示，包括：

6.根据权利要求1-5中任一项所述的图像识别方法，其特征在于，所述对所述待识别图像进行局部特征提取，得到局部特征，基于所述局部特征中各图块之间的相关性和所述各图块的位置信息，对所述待识别图像构建图像的全局特征表示，得到全局特征表示，对所述全局特征表示进行识别，得到图像识别结果，包括：

7.根据权利要求6所述的图像识别方法，其特征在于，所述待识别图像为农作物图像，所述图像识别结果为农作物病害识别结果。

8.一种图像识别装置，其特征在于，包括：

图像获取单元，用于获取待识别图像；

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述图像识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述图像识别方法。