CN114758190A

CN114758190A - 训练图像识别模型的方法、图像识别方法、装置和农机

Info

Publication number: CN114758190A
Application number: CN202210366840.4A
Authority: CN
Inventors: 常志中; 汪国会; 王香珊
Original assignee: Heilongjiang Huida Technology Development Co ltd
Current assignee: Heilongjiang Huida Technology Development Co ltd
Priority date: 2022-04-08
Filing date: 2022-04-08
Publication date: 2022-07-15

Abstract

本申请实施例提供了训练图像识别模型的方法、图像识别方法、装置和农机，涉及人工智能领域，具体涉及图像识别领域，该方法包括：获取地块的N张图像，N＞1，且为正整数；将所述N张图像输入到第一神经网络，得到第一输入序列；将所述第一输入序列输入到转换器transformer模型，得到所述transformer模型的预测数据，其中所述transformer模型包括M个transformer层，M≥1，且为正整数；根据所述预测数据调整所述图像识别模型的模型参数，得到所述图像识别模型。本申请实施例的将多张图像同时进行训练，并利用自注意力机制关联该多张图像，提高了训练效率和图像识别准确率。

Description

训练图像识别模型的方法、图像识别方法、装置和农机

技术领域

本申请实施例涉及人工智能领域，并且更具体地，涉及训练图像识别模型的方法、图像识别方法、装置和农机。

背景技术

随着人工智能技术的不断发展，人工智能技术在不同的领域都发挥着重要作用。在农业领域，为了推进免耕播种作业，可以将整个地块的多张图像输入到神经网络中得到该多张图像中每一张图像的识别结果，例如，每一张图像对应的地块是否包括秸秆以及秸秆的类型、秸秆量，然后将该多张图像的识别结果汇总得到该整个地块的秸秆量，从而可以基于得到的结果进行免耕播种作业。但是目前在上述过程中，由于该多张图像可能包括无效图像，从而可能影响识别精度，因此如何提高地块识别的精度成为了亟需解决的技术问题。

发明内容

本申请实施例提供了训练图像识别模型的方法、图像识别方法、装置和农机，可以同时将多张地块图像输入到图像识别模型中，并利用图像模型的注意力机制关联该多张图像，该图像识别模型是序列化结构，可以同时输出地块图像对应的秸秆类型和/或秸秆覆盖率。

第一方面，提供了一种训练图像识别模型的方法，其特征在于，该方法包括：获取地块的N张图像，N＞1，且为正整数；将该N张图像输入到第一神经网络，得到第一输入序列；将该第一输入序列输入到转换器transformer模型，得到该transformer模型的预测数据，其中该transformer模型包括M个transformer层，M≥1，且为正整数；根据该预测数据调整该图像识别模型的模型参数，得到该图像识别模型。

本申请实施例提供的图像识别模型的训练方法，获取多张地块图像的特征直接进行学习，并通过自注意力机制关联该多张地块图像，从而得到对应的输出结果，训练效率高，鲁棒性高，有效的避免了模型欠拟合和过拟合的问题。

结合第一方面，在第一方面的某些实现方式中，该将该N张图像输入到第一神经网络，得到第一输入序列，包括：将该N张图像输入到该第一神经网络，展开得到N个张量；堆叠该N个张量，得到第一序列。

结合第一方面，在第一方面的某些实现方式中，该N个张量的大小为W₁×H₁，其中W₁表示宽度，H₁表示高度。

结合第一方面，在第一方面的某些实现方式中，H₁＝768，W₁＝1。

结合第一方面，在第一方面的某些实现方式中，该transformer模型包括M个transformer层，包括：

该transformer模型包括第一模块、第二模块、第三模块和第四模块，该第一模块包括M₁个transformer层，该第二模块包括M₂个transformer层，该第三模块包括M₃个transformer层，该第四模块包括M₄个transformer层，其中，M₁+M₂+M₃+M₄＝M，M₁≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数；

该第一模块中的每一个transformer层包括K₁个自注意力头，该第二模块中的每一个transformer层包括K₂个自注意力头，该第三模块中的每一个transformer层包括K₃个自注意力头，该第四模块中的每一个transformer层包括K₄个自注意力头，其中，K₁≥1，且为正整数，K₂≥1，且为正整数，K₃≥1，且为正整数，K₄≥1，且为正整数，且K₁＜K₂＜K₃＜K₄；

该第一模块和该第二模块之间包括第一过渡层，该第二模块和该第三模块之间包括第二过渡层，该第三模块和该第四模块之间包括第三过渡层，其中，该第一过渡层用于提升该第一模块的输出序列的维度，该第二过渡层用于提升该第二模块的输出序列的维度，该第三过渡层用于提升该第三模块的输出序列的维度。

本申请的图像识别模型可以包括多个尺度的transformer层，可以有效降低计算量。

结合第一方面，在第一方面的某些实现方式中，该M个transformer层的每一个transformer层的自注意力头数量相同。

结合第一方面，在第一方面的某些实现方式中，其特征在于，该预测数据包括：该地块的秸秆类型和/或该地块的秸秆量。

第二方面，提供了一种图像识别方法，其特征在于，该方法包括：获取地块的L张图像；利用图像识别模型对该L张图像进行处理，得到该L张图像的识别结果，其中该图像识别模型通过训练图像识别模型的方法得到，该训练图像识别模型的方法，包括：获取地块的N张图像，N＞1，且为正整数；将该N张图像输入到第一神经网络，得到第一输入序列；将该第一输入序列输入到转换器transformer模型，得到该transformer模型的预测数据，其中该transformer模型包括M个transformer层，M≥1，且为正整数；根据该预测数据调整该图像识别模型的模型参数，得到该图像识别模型。

结合第二方面，在第二方面的某些实现方式中，该将该N张图像输入到第一神经网络，得到第一输入序列，包括：将该N张图像输入到该第一神经网络，展开得到N个张量；堆叠该N个张量，得到第一序列。

结合第二方面，在第二方面的某些实现方式中，该N个张量的大小为W₁×H₁。

结合第二方面，在第二方面的某些实现方式中，H₁＝768，W₁＝1。

结合第二方面，在第二方面的某些实现方式中，该transformer模型包括M个transformer层，包括：该transformer模型包括第一模块、第二模块、第三模块和第四模块，该第一模块包括M₁个transformer层，该第二模块包括M₂个transformer层，该第三模块包括M₃个transformer层，该第四模块包括M₄个transformer层，其中，M₁+M₂+M₃+M₄＝M，M₁≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数；该第一模块中的每一个transformer层包括K₁个自注意力头，该第二模块中的每一个transformer层包括K₂个自注意力头，该第三模块中的每一个transformer层包括K₃个自注意力头，该第四模块中的每一个transformer层包括K₄个自注意力头，其中，K₁≥1，且为正整数，K₂≥1，且为正整数，K₃≥1，且为正整数，K₄≥1，且为正整数，且K₁＜K₂＜K₃＜K₄；该第一模块和该第二模块之间包括第一过渡层，该第二模块和该第三模块之间包括第二过渡层，该第三模块和该第四模块之间包括第三过渡层，其中，该第一过渡层用于提升该第一模块的输出序列的维度，该第二过渡层用于提升该第二模块的输出序列的维度，该第三过渡层用于提升该第三模块的输出序列的维度。

结合第二方面，在第二方面的某些实现方式中，该M个transformer层的每一个transformer层的自注意力头数量相同。

结合第二方面，在第二方面的某些实现方式中，该预测数据包括：该地块的秸秆类型和/或该地块的秸秆量。

第三方面，提供了一种训练装置，其特征在于，该训练装置在农机上，该训练装置包括获取单元和处理单元，其中，该获取单元，用于获取地块的N张图像；该处理单元，用于将该N张图像输入到第一神经网络，得到第一输入序列；该处理单元，还用于将该第一输入序列输入到转换器transformer模型，得到该transformer模型的预测数据，其中该transformer模型包括M个transformer层，M≥1，且为正整数；该处理单元，还用于根据该预测数据调整该图像识别模型的模型参数，得到该图像识别模型。

结合第三方面，在第三方面的某些实现方式中，该处理单元，具体用于：将该N张图像输入到该第一神经网络，展开得到N个张量；堆叠该N个张量，得到第一序列。

结合第三方面，在第三方面的某些实现方式中，该N个张量的大小为W1×H1。

结合第三方面，在第三方面的某些实现方式中，H1＝768，W1＝1。

结合第三方面，在第三方面的某些实现方式中，该transformer模型包括M个transformer层，包括：该transformer模型包括第一模块、第二模块、第三模块和第四模块，该第一模块包括M1个transformer层，该第二模块包括M2个transformer层，该第三模块包括M3个transformer层，该第四模块包括M4个transformer层，其中，M1+M2+M3+M4＝M，M1≥1，且为正整数，M2≥1，且为正整数，M3≥1，且为正整数，M4≥1，且为正整数，M≥4，且为正整数；该第一模块中的每一个transformer层包括K1个自注意力头，该第二模块中的每一个transformer层包括K2个自注意力头，该第三模块中的每一个transformer层包括K3个自注意力头，该第四模块中的每一个transformer层包括K4个自注意力头，其中，K1≥1，且为正整数，K2≥1，且为正整数，K3≥1，且为正整数，K4≥1，且为正整数，且K1＜K2＜K3＜K4；该第一模块和该第二模块之间包括第一过渡层，该第二模块和该第三模块之间包括第二过渡层，该第三模块和该第四模块之间包括第三过渡层，其中，该第一过渡层用于提升该第一模块的输出序列的维度，该第二过渡层用于提升该第二模块的输出序列的维度，该第三过渡层用于提升该第三模块的输出序列的维度。

结合第三方面，在第三方面的某些实现方式中，该M个transformer层的每一个transformer层的自注意力头数量相同。

结合第三方面，在第三方面的某些实现方式中，其特征在于，该预测数据包括：该地块的秸秆类型和/或该地块的秸秆量。

第四方面，提供了一种图像识别装置，其特征在于，该训练装置在农机上，该训练装置包括获取单元和处理单元，其中，该获取单元，用于获取地块的L张图像；该处理单元，用于利用图像识别模型对该L张图像进行处理，得到该L张图像的识别结果，其中该图像识别模型通过训练图像识别模型的方法得到，该训练图像识别模型的方法，包括：获取地块的N张图像，N＞1，且为正整数；将该N张图像输入到第一神经网络，得到第一输入序列；将该第一输入序列输入到转换器transformer模型，得到该transformer模型的预测数据，其中该transformer模型包括M个transformer层，M≥1，且为正整数；根据该预测数据调整该图像识别模型的模型参数，得到该图像识别模型。

第五方面，提供了一种农机，包括：如第三方面或第三方面任一一种可能的实现方式提供的训练装置或如第四方面提供的图像识别装置。

附图说明

图1是本申请实施例提供的一种图像识别系统示意图。

图2是本申请实施例提供的另一种图像识别系统示意图。

图3是本申请实施例提供的训练图像识别模型的方法的示意性流程图。

图4是根据本申请实施例提供的训练图像识别模型的方法的一例示意性流程图。

图5是本申请实施例提供的transformer层的结构示意图。

图6是本申请实施例提供的图像识别方法的示意性流程图。

图7是本申请实施例的图像识别模型的训练装置的示意性框图。

图8本申请实施例提供的图像识别装置的示意性框图。

图9本申请实施例提供的农机的硬件结构示意图。

具体实施方式

以下实施例中所使用的术语只是为了描述特定实施例的目的，而并非旨在作为对本申请的限制。如在本申请的说明书和所附权利要求书中所使用的那样，单数表达形式“一个”、“一种”、“所述”、“上述”、“该”和“这一”旨在也包括例如“一个或多个”这种表达形式，除非其上下文中明确地有相反指示。还应当理解，在本申请以下各实施例中，“至少一个”、“一个或多个”是指一个、两个或两个以上。术语“和/或”，用于描述关联对象的关联关系，表示可以存在三种关系；例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A、B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。

在本说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

图1示出了一种图像识别系统，该图像识别系统包括作业设备以及数据处理设备。其中，作业设备可以是免耕播种机，或包括免耕播种功能的农机等智慧农机。作业设备为自图像识别的发起端，作为图像识别的发起方，通常作业者通过作业设备发起请求。

上述数据处理设备可以是云服务器、网络服务器、应用服务器以及管理服务器等具有数据处理功能的设备或服务器。数据处理设备通过交互接口接收来自作业设备的图像识别请求，再通过存储数据的存储器以及数据处理的处理器环节进行机器学习，深度学习，搜索，推理，决策等方式的图像识别处理。数据处理设备中的存储器可以是一个统称，包括本地存储以及存储历史数据的数据库，数据库可以再数据处理设备上，也可以在其它网络服务器上。

示例性地，作业设备可以获取待识别的图像，然后向数据处理设备发起请求，使得数据处理设备对该待识别的图像进行识别，从而得到针对该待识别的图像的分类结果。

例如，在图1中数据处理设备可以执行本申请实施例的图像识别方法。

图2示出了另一种图像识别系统，在图2中，作业设备直接作为数据处理设备，该作业设备能够直接获取待识别图像并直接由作业设备本身的硬件进行处理，具体过程与图1相似，可参考上面的描述，在此不再赘述。

在图2中，作业设备自身就可以执行本申请实施例的图像识别方法。

图1和图2中的处理器可以通过神经网络模型或者其它模型进行数据训练/机器学习/深度学习，并利用数据最终训练或者学习得到的模型对输入的待识别图像进行处理，从而得到图像识别结果。

由于本申请实施例涉及大量神经网络的应用，为了便于理解，下面先对本申请实施例可能涉及的神经网络的相关术语和概念进行介绍。

(1)神经网络

神经网络可以是由神经单元组成的，神经单元可以是指以x_s和截距1为输入的运算单元，该运算单元的输出可以为：

其中，s＝1、2、……n，n为大于1的自然数，W_s为x_s的权重，b为神经单元的偏置。f为神经单元的激活函数(activation functions)，用于将非线性特性引入神经网络中，来将神经单元中的输入信号转换为输出信号。该激活函数的输出信号可以作为下一层卷积层的输入，激活函数可以是sigmoid函数。神经网络是将多个上述单一的神经单元联结在一起形成的网络，即一个神经单元的输出可以是另一个神经单元的输入。每个神经单元的输入可以与前一层的局部接受域相连，来提取局部接受域的特征，局部接受域可以是由若干个神经单元组成的区域。

(2)深度神经网络

深度神经网络(deep neural network，DNN)，也称多层神经网络，可以理解为具有多层隐含层的神经网络。按照不同层的位置对DNN进行划分，DNN内部的神经网络可以分为三类：输入层，隐含层，输出层。一般来说第一层是输入层，最后一层是输出层，中间的层数都是隐含层。层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是就每一层的工作来说，其实并不复杂，简单来说就是如下线性关系表达式：

其中，

是输入向量，

是输出向量，

是偏移向量，W是权重矩阵(也称系数)，α()是激活函数。每一层仅仅是对输入向量

经过如此简单的操作得到输出向量

由于DNN层数多，系数W和偏移向量

的数量也比较多。这些参数在DNN中的定义如下所述：以系数W为例：假设在一个三层的DNN中，第二层的第4个神经元到第三层的第2个神经元的线性系数定义为

上标3代表系数W所在的层数，而下标对应的是输出的第三层索引2和输入的第二层索引4。

综上，第L-1层的第k个神经元到第L层的第j个神经元的系数定义为

需要注意的是，输入层是没有W参数的。在深度神经网络中，更多的隐含层让网络更能够刻画现实世界中的复杂情形。理论上而言，参数越多的模型复杂度越高，“容量”也就越大，也就意味着它能完成更复杂的学习任务。训练深度神经网络的也就是学习权重矩阵的过程，其最终目的是得到训练好的深度神经网络的所有层的权重矩阵(由很多层的向量W形成的权重矩阵)。

(3)卷积神经网络

卷积神经网络(convolutional neuron network，CNN)是一种带有卷积结构的深度神经网络。卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器，该特征抽取器可以看作是滤波器。卷积层是指卷积神经网络中对输入信号进行卷积处理的神经元层。在卷积神经网络的卷积层中，一个神经元可以只与部分邻层神经元连接。一个卷积层中，通常包含若干个特征平面，每个特征平面可以由一些矩形排列的神经单元组成。同一特征平面的神经单元共享权重，这里共享的权重就是卷积核。共享权重可以理解为提取图像信息的方式与位置无关。卷积核可以以随机大小的矩阵的形式化，在卷积神经网络的训练过程中卷积核可以通过学习得到合理的权重。另外，共享权重带来的直接好处是减少卷积神经网络各层之间的连接，同时又降低了过拟合的风险。

(4)损失函数

在训练深度神经网络的过程中，因为希望深度神经网络的输出尽可能的接近真正想要预测的值，所以可以通过比较当前网络的预测值和真正想要的目标值，再根据两者之间的差异情况来更新每一层神经网络的权重向量(当然，在第一次更新之前通常会有初始化的过程，即为深度神经网络中的各层预先配置参数)，比如，如果网络的预测值高了，就调整权重向量让它预测低一些，不断地调整，直到深度神经网络能够预测出真正想要的目标值或与真正想要的目标值非常接近的值。因此，就需要预先定义“如何比较预测值和目标值之间的差异”，这便是损失函数(loss function)或目标函数(objective function)，它们是用于衡量预测值和目标值的差异的重要方程。其中，以损失函数举例，损失函数的输出值(loss)越高表示差异越大，那么深度神经网络的训练就变成了尽可能缩小这个loss的过程。

(5)注意力机制(attention mechanism)

注意力机制模仿了生物观察行为的内部过程，即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制，能够利用有限的注意力资源从大量信息中快速筛选出高价值信息。注意力机制可以快速提取稀疏数据的重要特征。而自注意力机制(self-attention mechanism)是注意力机制的改进，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。注意力机制的本质思想可以改写为如下公式：

其中，Lx＝||Source||代表Source的长度，公式含义即将Source中的构成元素想象成是由一系列的数据对构成，此时给定目标Target中的某个元素Query(简记为Q)，通过计算Query和各个Key(简记为K)的相似性或者相关性，得到每个Key对应Value(简记为V)的权重系数，即得到了最终的Attention数值。所以本质上Attention机制是对Source中元素的Value值进行加权求和，而Query和Key用来计算对应Value的权重系数。从概念上理解，把Attention可以理解为从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上，忽略大多不重要的信息。聚焦的过程体现在权重系数的计算上，权重越大越聚焦于其对应的Value值上，即权重代表了信息的重要性，而Value是其对应的信息。自注意力机制可以理解为内部Attention(intra attention)，Attention机制发生在Target的元素Query和Source中的所有元素之间，自注意力机制指的是在Source内部元素之间或者Target内部元素之间发生的Attention机制，也可以理解为Target＝Source这种特殊情况下的注意力计算机制，其具体计算过程是一样的，只是计算对象发生了变化而已。

多头注意力(multi-head attention)机制是利用多个Q，来平行地计算从输入信息中选取多个信息，每个注意力关注输入信息的不同部分。多头注意力机制包括多个自注意力机制。基于一个自注意力机制对待处理数据键处理时，需要先对待处理数据进行矩阵投影，得到Q、K和V，并根据自注意力机制处理Q、K、V，得到基于Q和K的计算权重，即权重＝Q×K，然后根据该权重对V加权，再进行线性变换后输出处理结果。自注意力机制的计算过程包括：首先将输入的数据转化为向量或张量；然后根据向量或张量得到Q、K和V三个目标向量或张量；然后为每个目标向量或张量计算一个分数，即权重；为了梯度的稳定，还会使用权重归一化；对权重施以softmax激活函数；softmax点乘Value值V，得到加权的每个输入向量或张量的评分V；最后将每一个输入向量或张量的评分V相加得到输出结果。

(6)转化器(transformer)模型

transformer模型也可以称为transformer模块、或transformer结构等。transformer模型是一种基于自注意力模块的多层神经网络。目前主要是用于处理自然语言任务，transformer模型主要由层叠的多头自注意力模块与前馈神经网络(feed forwardneural networks，FFN)组成。transformer模型可进一步分成编码器(也可称为编码模块)和解码器(也可称为解码模块)，其构成大致相似，也有所不同。

(6)视觉转化器(vision transformer，ViT)模型

ViT模型是将计算机视觉和自然语言处理领域指示结合起来，对输入的图片进行分块，展平成序列，输入到transformer模型编码器部分，然后通过接入一个全连接层对图片进行分类。

在农业领域，为了推进免耕播种作业，可以将整个地块的多张图像输入到神经网络中得到该多张图像中每一张图像的识别结果，例如，每一张图像对应的地块是否包括秸秆以及秸秆的类型、秸秆量，然后将该多张图像的识别结果汇总得到该整个地块的秸秆量，从而可以基于得到的结果进行免耕播种作业。但是目前在上述过程中，由于该多张图像可能包括无效图像，从而可能影响识别精度，因此如何提高地块识别的精度成为了亟需解决的技术问题。基于此，本申请实施例提供了一种训练图像识别模型的方法、图像识别方法以及装置。

图3示出了本申请实施例提供的训练图像识别模型的方法300的示意性流程图，如图3所示，方法300包括：

S301，获取地块的N张图像。

具体的，在训练图像识别模型时，可以获取地块的N张图像，该N张图像可以构成整个地块的图像。换句话说，该N张图像的每一张图像对应整个地块的一部分。

可以理解的是，该N张图像是已经进行标注的图像。

示例性的，可以根据图像中的秸秆类型进行标注。例如该N张图像包括第一图像和第二图像，其中第一图像对应的秸秆为玉米秸秆，第二图像对应的秸秆大豆秸秆，则可以将第一图像和第二图像对应的秸秆分别标注为玉米秸秆和大豆秸秆。

示例性的，可以根据图像中的秸秆覆盖率进行标注。例如该N张图像包括第一图像和第二图像，其中第一图像对应的秸秆覆盖率为20％，第二图像对应的秸秆覆盖率为50％，则可以标注第一图像对应的秸秆覆盖率为20％，第二图像对应的秸秆覆盖率为50％。

示例性的，可以根据图像中的秸秆类型和秸秆覆盖率进行标注。例如该N张图像包括第一图像和第二图像，其中第一图像对应的秸秆为玉米秸秆，秸秆覆盖率为20％，第二图像对应的秸秆为大豆秸秆，秸秆覆盖率为50％，则可以标注第一图像对应的秸秆为玉米秸秆，秸秆覆盖率为20％，第二图像对应的秸秆为大豆秸秆，秸秆覆盖率为50％。

示例性的，可以根据图像中的秸秆类型和秸秆覆盖率等级进行标注。例如该N张图像包括第一图像和第二图像，其中第一图像对应的秸秆为玉米秸秆，秸秆覆盖率为20％，该秸秆覆盖率对应的秸秆覆盖率等级为第一等级，第二图像对应的秸秆为大豆秸秆，秸秆覆盖率为50％，则可以标注第一图像对应的秸秆为玉米秸秆，秸秆覆盖率等级为第一等级。第二图像对应的秸秆为大豆秸秆，秸秆覆盖率为50％，该秸秆覆盖率对应的秸秆覆盖率等级为第三等级，则可以标注第二图像对应的秸秆为大豆秸秆，秸秆覆盖率等级为第三等级。

可选的，在一些实施例中，该N张图像可以是经过数据增强的图像。

在训练图像识别模型时，为了提高图像识别模型的鲁棒性可以对采集的训练集图像键数据增强处理以提高图像识别模型的泛化能力。数据增强可以理解为在不实质性增加数据的情况下，使有限的数据产生等价于更多数据的价值。

应理解，本申请实施例中，对于数据增强的方法并不限定，例如，本申请实施例中可以采取翻转、旋转、缩放比例、裁剪、移位、噪声、插值、模糊、颜色变换、擦除、填充等一项或多项数据增强的方法。

S302，将该N张图像输入到第一神经网络，得到第一输入序列。

具体的，通过第一神经网络将该N张图像输入到第一神经网络中，可以得到第一输入序列。

图4示出了根据本申请实施例提供的训练图像识别模型的方法的一例示意性流程图，如图4所示，将该N张图像输入到第一神经网络，得到第一输入序列，包括：

S3021，将该N张图像输入到第一神经网路，得到N个张量。

具体的，通过将该N张图像输入到第一神经网络中，展开得到N个张量。

示例性的，第一神经网络可以是卷积神经网络。该N张图像中的每一张图像可以使用张量表示，将该N张图像输入到卷积神经网路中，可以变换该N张图像中的每一张图像的张量的大小。

例如，该N张图像包括第一图像，第一图像的可以使用张量表示，则第一图像的大小可以理解为张量的大小，则第一图像的大小表示可以理解为(C,W,H)大小的张量，其中，C,H,W分别表示第一图像的颜色通道的数量，第一图像的宽度和第一图像的高度。第一图像的张量的大小也可以表示为C×W×H。将第一图像输入到卷积神经网络中，可以对(C,W,H)大小的第一图像进行特征提取，得到(W₁,H₁)大小的第一张量，该第一张量可以理解为第一图像的一个图像特征。

需要说明的是，本申请实施例中，并不限定该N张图像的大小是否相同。

在一些实施例中，该N张图像中的每一张图像的大小均相同。例如，该N张图像包括第一图像和第二图像，第一图像和第二图像大小为C×W×H。

在另一些实施例中，该N张图像中的至少包括两种大小的图像。例如，该N张图像包括第一图像和第二图像，第一图像的大小为C×W×H，第二图像的大小为C×W₂×H₂。可以理解的是，W≠W₂，H≠H₂。

还需要说明的是，将该N张图像输入到卷积神经网络中可以得到大小相同的张量。

例如，第一图像和第二图像大小为C×W×H，将第一图像和第二图像输入到卷积神经网络，可以得到两个(W₁,H₁)大小的张量。

再例如，第一图像的大小为C×W×H，第二图像为C×W₂×H₂，将第一图像和第二图像输入到卷积神经网络，也可以得到两个(W₁,H₁)大小的张量。

可选的，在一些实施例中，W₁＝1，H₁＝768。

S3022，堆叠该N个张量，得到第一输入序列。

具体的，在S3022中可以得到N个张量，然后堆叠该N个张量，得到第一输入序列。

例如，将256张图像展开可以得到256个大小为(W₁,H₁)的张量，即为Z₁、Z₂、Z₃、Z₄、Z₅……Z₂₅₆。堆叠上述256个张量可以得到第一输入序列，可以将第一输入序列记为Z＝[Z₁；Z₂；Z₃；Z₄；Z₅……；Z₂₅₆]。

可选的，在一些实施例中，第一输入序列还可以包括位置编码。

可以理解的是，在S301-S302中将N张图像序列化以输入到transformer模型。

S303，将第一输入序列输入到transformer模型，得到该transformer模型的预测数据。

具体的，得到第一输入序列后，可以使用transformer模型作为编码器，用以提取N张图像的特征并最终输出预测数据，其中该transformer模型包括M个transformer层，M＞1，且为正整数。

本申请实施例中的transformer模型包括M个transformer层，前一层的transformer层的输出是下一层transformer层的输入。Transformer层也可以称为transformer模块、transformer块等。图5所示为transformer层的结构示意图，如图5所示，transformer层包括间隔设置的一个多头注意力模块和一个多层感知器(multi-layerperception，MLP)模块，其中多头注意力模块和多层感知器模块之间设置有一个层标准化模块。该多头注意力模块包括多个自注意力头。

本申请实施例中的transformer模型包括第一输出头，该第一输出头用于输出秸秆覆盖率。

可选的，在一些实施例中，transformer模型还包括第二输出头，该第二输出头用于输出秸秆类型。

可选的，在一些实施例中，transformer模型中的每一transformer层的结构相同，即每一transformer层中的多头注意力模块中的自注意力头数量相同。

例如，本申请实施例中的transformer模型包括12个transformer层，每一个transformer层的多头注意力模块包括8个自注意力头。

将第一输入序列输入到该transformer模型的第一个transformer层中，经过层标准化模块进行处理后得到标准化输入序列，并将标准化输入序列输入到多头注意力模块进行特征提取，得到注意力特征，然后将注意力特征输入到层标准化进行处理，得到标准化处理结果输入到多层感知器模块得到第一个transformer层的输出特征。将第一个transformer层的输出特征作为第二个transformer层的输入序列，得到第二个transformer层的输出特征。依次类推，可以得到预测数据。

一种可能的实现方式，预测数据可以是该N张图像对应的秸秆覆盖率。

例如，整个地块由3张图像构成，即N＝3，该预测数据为第一张图像的秸秆覆盖率为20％，第二张图像的秸秆覆盖率为20％，第三张图像的秸秆覆盖率为40％，该地块的秸秆覆盖率为30％。

一种可能的实现方式，预测数据可以是该N张图像对应的秸秆覆盖率和秸秆类型。

例如，整个地块由3张图像构成，即N＝3，该预测数据为第一张图像的秸秆覆盖率为20％，秸秆类型为大豆，第二张图像的秸秆覆盖率为20％，秸秆类型为大豆，第三张图像的秸秆覆盖率为40％，秸秆类型为玉米，该地块的秸秆覆盖率为30％，秸秆类型为玉米和大豆。

下面将介绍第一输入序列输入到transformer模型中的计算过程。以第一输入序列为Z，将第一输入序列输入第一transformer层为例，第一输入序列经过第一个transformer层的层标准化模块，可以使用公式1表示：

Z’_1-l＝LN(Z) (1)

将Z’_1-l作为多头注意力模块的输入，该多头注意力模块由h个自注意头组成。自注意头的输入是三个矩阵Q,P,V，Q,P,V的计算公式如公式2所示，自注意头的计算过程如公式3所示：

Q＝Z’_1-lW^Q，P＝Z’_1-lW^P，V＝Z’_1-lW^V (2)

SA(Q,P,V)＝softmax(f(Q,P,V)) (3)

多头注意力模块的计算过程如公式4所示:

MSA(Z’_1-l)＝concat(SA₁,SA₁,SA₁……SA_h)W⁰ (4)

其中，concat表示将h个自注意力头的输出矩阵合并成一个矩阵，W⁰表示权重参数。

得到多头注意力模块的输出后，将该输出输入到层标准模块，如公式5所示：

Z”＝LN(MSA(Z’_1-l)) (5)

将Z”输入到多层感知器模块，可以使用式6表示：

Z₁＝MLP(Z”) (6)

得到第一个transformer层的输入Z₁后，将Z₁输入到第二个transformer层以得到第二个transformer层的输出。以此类的，得到预测数据。

可选的，在另一些实施例中，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括M₁个transformer层，第二模块包括M₂个transformer层，第三模块包括M₃个transformer层，第四模块包括M₄个transformer层，其中，M₁+M₂+M₃+M₄＝M，M₁≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数，M₁、M₂、M₃、M₄中至少有两个不相等。第一模块和第二模块之间包括第一过渡层，第二模块和第三模块之间第二过渡层，第三模块和第四模块之间包括第四过渡层。第一过渡层用于提升第一模块输出序列的维度，第二过渡层用于提升第二模块输出序列的维度，第三过渡层用于提升第三模块输出序列的维度。第一模块中的每一个transformer层包括K个自注意力头，第二模块中的每一个transformer层包括K个自注意力头，第三模块中的每一个transformer层包括K个自注意力头，第四模块中的每一个transformer层包括K个自注意力头，其中，K＞1，且为正整数。

例如，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括8个transformer层，第二模块包括8个transformer层，第三模块包括12个transformer层，第四模块包括16个transformer层，第一模块中的每一个transformer层包括8个自注意力头，第二模块中的每一个transformer层包括8个自注意力头，第三模块中的每一个transformer层包括8个自注意力头，第四模块中的每一个transformer层包括8个自注意力头。

将第一输入序列输入到该transformer模型中，该transformer模型包括四个模块，且四个模块之间包括过渡层用于提升输出序列的维度。第一输入序列依次经过第一模块、第一过渡层、第二模块、第二过渡层、第三模块、第三过渡层、第四模块的处理，可以得到高维的输出结果，有着更加丰富的空间细节，有助于提升识别精度。

应理解，针对将第一输入序列输入到transformer模型中的描述，可以参见上文，为了简洁，在此不再赘述。

可选的，在另一些实施例中，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括M₁个transformer层，第二模块包括M₁个transformer层，第三模块包括M₁个transformer层，第四模块包括M₁个transformer层，其中，4×M₁＝M，M₁≥1，且为正整数，M≥4，且为正整数。第一模块和第二模块之间包括第一过渡层，第二模块和第三模块之间第二过渡层，第三模块和第四模块之间包括第四过渡层。第一过渡层用于提升第一模块输出序列的维度，第二过渡层用于提升第二模块输出序列的维度，第三过渡层用于提升第三模块输出序列的维度。第一模块包括K₁个自注意力头，第二模块包括K₂个自注意力头，第三模块包括K₃个自注意力头，第四模块包括K₄个自注意力头，其中，K₁、K₂、K₃、K₄中至少有两个不相等，K₁≥1，且为正整数，K₂≥1，且为正整数，K₃≥1，且为正整数，K₄≥1，且为正整数。

例如，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括8个transformer层，第二模块包括8个transformer层，第三模块包括8个transformer层，第四模块包括8个transformer层，第一模块中的每一个transformer层包括4个自注意力头，第二模块中的每一个transformer层包括8个自注意力头，第三模块中的每一个transformer层包括8个自注意力头，第四模块中的每一个transformer层包括16个自注意力头。

进一步的，在该些实施例中，K₁＜K₂＜K₃＜K₄。

增加transformer层的自注意力头的数量，可以提升图像识别模型的性能。为了匹配增加的自注意力头，可以通过过渡层提升输出序列的维度，从而保证每一个自注意力头的维度。例如，第一输入序列的维度为768，第一模块中的每一个transformer层的自注意力头的数量为4，则每一个自注意力头的维度为192。假设第二模块中的每一个transformer层的自注意力头的数量为8，为了保证二模块中的每一个transformer层的自注意力头的维度与第一模块中的每一个transformer层的自注意力头相同，则第一过渡层需要将第一模块的输出序列的维度由768提升为1536。类似地，随着第三模块中的每一个transformer层的自注意力头数量和第四模块中的每一个transformer层的自注意力头数量的增加，第二过渡层和第三过渡层可以分别提升第二输出模块的输出序列的维度和第三过渡层提升第三模块的输出序列的维度。

可选的，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括M₁个transformer层，第二模块包括M₂个transformer层，第三模块包括M₃个transformer层，第四模块包括M₄个transformer层，其中，M₁+M₂+M₃+M₄＝M，M₁≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数，M₁、M₂、M₃、M₄中至少有两个不相等。第一模块和第二模块之间包括第一过渡层，第二模块和第三模块之间第二过渡层，第三模块和第四模块之间包括第四过渡层。第一过渡层用于提升第一模块输出序列的维度，第二过渡层用于提升第二模块输出序列的维度，第三过渡层用于提升第三模块输出序列的维度。第一模块包括K₁个自注意力头，第二模块包括K₂个自注意力头，第三模块包括K₃个自注意力头，第四模块包括K₄个自注意力头，其中，K₁、K₂、K₃、K₄中至少有两个不相等，K₁≥1，且为正整数，K₂≥1，且为正整数，K₃≥1，且为正整数，K₄≥1，且为正整数。

例如，transformer模型包括第一模块、第二模块、第三模块、第四模块，第一模块包括2个transformer层，第二模块包括2个transformer层，第三模块包括18个transformer层，第四模块包括2个transformer层，第一模块中的每一个transformer层包括4个自注意力头，第二模块中的每一个transformer层包括8个自注意力头，第三模块中的每一个transformer层包括16个自注意力头，第四模块中的每一个transformer层包括8个自注意力头。

进一步的，在该些实施例中，K₁＜K₂＜K₃＜K₄。

应理解，针对过渡层、自注意力头和将第一输入序列输入到transformer模型的描述，可以参见上文，为了简洁，在此不再赘述。

S304，根据预测数据调整图像识别模型的模型参数，得到图像识别模型。

本申请实施例中，可以将多张图像输入到transformer模型中得到预测数据，然后根据预测数据构建损失参数，用于平衡预测值与目标值的差距，损失函数的输出值越高表示差异越大，因此可以调整图像识别模型的模型参数，以降低损失函数的输出值。

在一些实施例中，损失函数可以如公式(7)所示，包括3部分。

L_total＝α₁L_cls+α₂L_reg+α₃L_exp (7)

其中L_total表示本申请实施例中的图像识别模型的损失函数；

L_cls表示分类损失函数；

L_reg表示量化损失函数；

L_exp表示期望损失函数；

α₁、α₂、α₃是平衡各部分损失函数的超参数。

超参数可以理解为定义模型的结构或者优化策略或者控制模型的动作状态，通过超参数可以优化损失函数，从而保证模型不欠拟合和过拟合。常见的超参数包括神经网络的层数、核函数等，超参数的选取可以是组合的，本申请实施例中对于超参数并不作限定，可以是上述两种超参数，也可以是其他的超参数。

下面将介绍图像文本识别模型的损失函数各部分的损失函数。

在一些实施例中，分类损失函数可以根据公式(8)构建，在构建分类损失函数时，采用交叉熵损失函数。

其中，N表示输入到图像识别模型的图像数量；

w_i表示超参数；

c_i表示分类目标值；

表示分类预测值。

在一些实施例中，量化损失函数可以根据公式(9)构建，在构建分类损失函数时，采用均分误差函数。

其中，N表示输入到图像识别模型的图像数量；

s_i表示量化目标值；

表示分类预测值。

在一些实施例中，期望损失函数可以根据公式(10)构建。

通过不断地训练，缩小损失函数的输出值，最后输出训练结果，训练结果包括训练得到的图像识别模型。训练结果还可以图像识别模型对部分训练数据的处理结果，以及每个训练数据中对处理结果影响最大的部分的突出显示标记。例如，可以对训练数据的图像中对处理结果影响最大的部分像素进行高亮以突出显示。

根据每个训练数据中对处理结果影响最大的部分的突出显示标记，可以通过人工判断影响训练得到的神经网络模型精度的原因。该原因例如可以包括训练数据的较差，和/或进行训练的超参数需要进一步优化等。

进一步的，本申请的图像识别模型可以包括多个尺度的transformer层，可以有效降低计算量。

图6示出了本申请实施例提供的图像识别方法600的示意性流程图，图6所示的方法可以由图像识别设备、服务器设备或者农机来执行，该流程包括：

方法600包括步骤S601至步骤S602，下面对步骤S601至步骤S602进行详细说明。

S601，获取地块的L张图像。

可选地，农机可以包括摄像头，可以通过摄像头获取地块的L张图像；或者，还可以是从数据存储系统中获取该L张图像，例如数据存储系统中存储的图像，或者还可以从云端获取图像，本申请实施例中对于获取该L张图像的方式并不限定。

S602，利用图像识别模型对L张图像进行处理，得到L张图像的识别结果。

其中，该图像文本识别模型可以通过方法300得到，在此不再赘述。

下面结合图7至图8对本申请实施例的装置进行说明。应理解，下面描述的装置能够执行前述本申请实施例的方法，为了避免不必要的重复，下面在介绍本申请实施例的装置时适当省略重复的描述。

图7是本申请实施例的图像识别模型的训练装置的示意性框图。图7所示训练装置700包括获取单元710和处理单元720。

获取单元710和处理单元720可以用于执行本申请实施例的训练图像识别模型的方法，具体地，可以用于执行方法300。

获取单元710，用于获取地块的N张图像。

处理单元720，用于将N张图像输入到第一神经网络，得到第一输入序列。

处理单元720，还用于将第一输入序列输入到transformer模型，得到transformer模型的预测数据。

处理单元720，还用于根据预测数据调整图像识别模型的模型参数，得到图像识别模型。

需要说明的是，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，在此不再赘述。本申请实施例提供的图像识别模型的训练装置，用于执行上述训练图像识别模型的方法，因此可以达到与上述相同的效果。

图8是本申请实施例提供的图像识别装置的示意性框图。图8所示的装置800包括获取单元810和处理单元820。

获取单元810和处理单元820可以用于执行本申请实施例的图像识别方法，例如，可以用于执行方法600。

获取单元810，用于获取地块的L张图像。

处理单元820，用于利用图像识别模型对L张图像进行处理，得到识别结果。

其中，该图像识别模型可以通过方法300得到，在此不再赘述。

需要说明的是，上述训练装置700以及装置800以功能单元的形式体现。这里的术语“单元”可以通过软件和/或硬件形式实现，对此不作具体限定。

例如，“单元”可以是实现上述功能的软件程序、硬件电路或二者结合。所述硬件电路可能包括应用特有集成电路(application specific integrated circuit，ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。

因此，在本申请的实施例中描述的各示例的单元，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

图9是本申请实施例提供的农机的硬件结构示意图。图9所示的农机900包括存储器901、处理器902、、摄像头903、通信接口904以及总线905。其中，存储器901、处理器902、摄像头903、通信接口904通过总线905实现彼此之间的通信连接。

存储器901可以是只读存储器(read only memory，ROM)，静态存储设备，动态存储设备或者随机存取存储器(random access memory，RAM)。存储器901可以存储程序，当存储器901中存储的程序被处理器902执行时，处理器902用于执行本申请实施例的训练图像识别模型的方法的各个步骤或图像识别方法的各个步骤。具体地，处理器902可以执行上文中图3所示的方法300或图6所示的方法600。

处理器902可以采用通用的中央处理器(central processing unit，CPU)，微处理器，应用专用集成电路(application specific integrated circuit，ASIC)，图形处理器(graphics processing unit，GPU)或者一个或多个集成电路，用于执行相关程序，以实现本申请方法实施例的训练图像识别模型的方法。

上述处理器902还可以是通用处理器、数字信号处理器(digital signalprocessing，DSP)、专用集成电路(ASIC)、现成可编程门阵列(field programmable gatearray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器901，处理器902读取存储器901中的信息，结合其硬件完成图7所示的训练装置中包括的单元所需执行的功能。

通信接口904使用例如但不限于收发器一类的收发装置，来实现农机900与其他设备或通信网络之间的通信。

总线905可包括在装置900各个部件(例如，存储器901、处理器902、摄像头903、通信接口904)之间传送信息的通路。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令或计算机程序。在计算机上加载或执行所述计算机指令或计算机程序时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以为通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集合的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质。半导体介质可以是固态硬盘。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况，其中A,B可以是单数或者复数。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系，但也可能表示的是一种“和/或”的关系，具体可参考前后文进行理解。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

应理解，在本申请的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种训练图像识别模型的方法，其特征在于，所述方法包括：

获取地块的N张图像，N＞1，且为正整数；

将所述N张图像输入到第一神经网络，得到第一输入序列；

将所述第一输入序列输入到转换器模型，得到所述转换器模型的预测数据，其中所述转换器模型包括M个转换器层，M≥1，且为正整数；

根据所述预测数据调整所述图像识别模型的模型参数，得到所述图像识别模型。

2.根据权利要求1所述的方法，其特征在于，所述将所述N张图像输入到第一神经网络，得到第一输入序列，包括：

将所述N张图像输入到所述第一神经网络，展开得到N个张量；

堆叠所述N个张量，得到第一序列。

3.根据权利要求2所述的方法，其特征在于，所述N个张量的大小为W₁×H₁，其中W₁表示宽度，H₁表示高度。

4.根据权利要求3所述的方法，其特征在于，H₁＝768，W₁＝1。

5.根据权利要求3所述的方法，其特征在于，所述转换器模型包括M个转换器层，包括：

所述转换器模型包括第一模块、第二模块、第三模块和第四模块，所述第一模块包括M₁个转换器层，所述第二模块包括M₂个转换器层，所述第三模块包括M₃个转换器层，所述第四模块包括M₄个转换器层，其中，M₁+M₂+M₃+M₄＝M，M₁≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数；

所述第一模块中的每一个转换器层包括K₁个自注意力头，所述第二模块中的每一个转换器层包括K₂个自注意力头，所述第三模块中的每一个转换器层包括K₃个自注意力头，所述第四模块中的每一个转换器层包括K₄个自注意力头，其中，K₁≥1，且为正整数，K₂≥1，且为正整数，K₃≥1，且为正整数，K₄≥1，且为正整数，且K₁＜K₂＜K₃＜K₄；

所述第一模块和所述第二模块之间包括第一过渡层，所述第二模块和所述第三模块之间包括第二过渡层，所述第三模块和所述第四模块之间包括第三过渡层，其中，所述第一过渡层用于提升所述第一模块的输出序列的维度，所述第二过渡层用于提升所述第二模块的输出序列的维度，所述第三过渡层用于提升所述第三模块的输出序列的维度。

6.根据权利要求4所述的方法，其特征在于，所述M个转换器层的每一个转换器层的自注意力头数量相同。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述预测数据包括：

所述地块的秸秆类型和/或所述地块的秸秆量。

8.一种图像识别方法，其特征在于，所述方法包括：

获取地块的L张图像；

利用图像识别模型对所述L张图像进行处理，得到所述L张图像的识别结果，其中所述图像识别模型通过训练图像识别模型的方法得到，所述训练图像识别模型的方法，包括：获取地块的N张图像，N＞1，且为正整数；将所述N张图像输入到第一神经网络，得到第一输入序列；将所述第一输入序列输入到转换器模型，得到所述转换器模型的预测数据，其中所述转换器模型包括M个转换器层，M≥1，且为正整数；根据所述预测数据调整所述图像识别模型的模型参数，得到所述图像识别模型。

9.根据权利要求1所述的方法，其特征在于，所述将所述N张图像输入到第一神经网络，得到第一输入序列，包括：

堆叠所述N个张量，得到第一序列。

10.根据权利要求9所述的方法，其特征在于，所述N个张量的大小为W₁×H₁。

11.根据权利要求9所述的方法，其特征在于，H₁＝768，W₁＝1。

12.根据权利要求10所述的方法，其特征在于，所述转换器模型包括M个转换器层，包括：

13.根据权利要求11所述的方法，其特征在于，所述M个转换器层的每一个转换器层的自注意力头数量相同。

14.根据权利要求1至13中任一项所述的方法，其特征在于，所述预测数据包括：

所述地块的秸秆类型和/或所述地块的秸秆量。

15.一种训练装置，其特征在于，所述训练装置在农机上，所述训练装置包括获取单元和处理单元，其中，

所述获取单元，用于获取地块的N张图像；

所述处理单元，用于将所述N张图像输入到第一神经网络，得到第一输入序列；

所述处理单元，还用于将所述第一输入序列输入到转换器转换器模型，得到所述转换器模型的预测数据，其中所述转换器模型包括M个转换器层，M≥1，且为正整数；

所述处理单元，还用于根据所述预测数据调整所述图像识别模型的模型参数，得到所述图像识别模型。

16.根据权利要求15所述的训练装置，其特征在于，所述处理单元，具体用于：

堆叠所述N个张量，得到第一序列。

17.根据权利要求15所述的训练装置，其特征在于，所述N个张量的大小为W₁×H₁。

18.根据权利要求17所述的训练装置，其特征在于，H₁＝768，W₁＝1。

19.根据权利要求17所述的训练装置，其特征在于，所述转换器模型包括M个转换器层，包括：

所述转换器模型包括第一模块、第二模块、第三模块和第四模块，所述第一模块包括M₁个转换器层，所述第二模块包括M₂个转换器层，所述第三模块包括M₃个转换器层，所述第四模块包括M₄个转换器层，其中，M₁+M₂+M₃+M₄＝M，M1≥1，且为正整数，M₂≥1，且为正整数，M₃≥1，且为正整数，M₄≥1，且为正整数，M≥4，且为正整数；

20.根据权利要求18所述的训练装置，其特征在于，所述M个转换器层的每一个转换器层的自注意力头数量相同。

21.根据权利要求15至20中任一项所述的训练装置，其特征在于，所述预测数据包括：

所述地块的秸秆类型和/或所述地块的秸秆量。

22.一种图像识别装置，其特征在于，所述训练装置在农机上，所述训练装置包括获取单元和处理单元，其中，

所述获取单元，用于获取地块的L张图像；

所述处理单元，用于利用图像识别模型对所述L张图像进行处理，得到所述L张图像的识别结果，其中所述图像识别模型通过训练图像识别模型的方法得到，所述训练图像识别模型的方法，包括：获取地块的N张图像，N＞1，且为正整数；将所述N张图像输入到第一神经网络，得到第一输入序列；将所述第一输入序列输入到转换器模型，得到所述转换器模型的预测数据，其中所述转换器模型包括M个转换器层，M≥1，且为正整数；根据所述预测数据调整所述图像识别模型的模型参数，得到所述图像识别模型。

23.一种农机，其特征在于，包括：如上述权利要求15至21中任一项所述的训练装置或如权利要求22所述的图像识别装置。

24.一种农机，其特征在于，所述农机包括一个或多个处理器；一个或多个存储器；所述一个或多个存储器存储有一个或多个计算机程序，所述一个或多个计算机程序包括指令，当所述指令被所述一个或多个处理器执行时，使得如权利要求1至7中任一项所述的方法或权利要求8至14中任一项所述的方法被执行。