CN113869337A

CN113869337A - 图像识别模型的训练方法及装置、图像识别方法及装置

Info

Publication number: CN113869337A
Application number: CN202010616614.8A
Authority: CN
Inventors: 宋振旗; 李长亮; 唐剑波
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd
Priority date: 2020-06-30
Filing date: 2020-06-30
Publication date: 2021-12-31

Abstract

本申请提供图像识别模型的训练方法及装置、图像识别方法及装置，其中所述图像识别模型包括编码器和解码器，所述图像识别模型的训练方法包括：获取训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的样本描述信息；将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果；根据所述解码结果与所述样本描述信息计算损失值；根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型，通过本方法在解码器可以融合至少两个图像特征的图像特征向量，参考各个尺度下图像特征的差异，提高图像识别的准确率。

Description

图像识别模型的训练方法及装置、图像识别方法及装置

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质。

背景技术

随着科技的进步和互联网技术的飞速发展，图像已经成为人们记录和分享信息的主要方式，识别图像中记载的文字或数学公式在生活中的应用越来越广泛。

当前针对文字或数学公式的图像识别通常使用seq2seq模型，在模型的编码器使用CNN提取单一的图像特征，再将图像特征输入至模型的解码器做解码，在编码器中提取图像单一的图像特征只能关注当前尺度的特征信息，会导致特征信息的遗漏和不全面，从而导致图像识别有信息的遗漏，图像识别的效果不理想，准确率不高。

因此如何提高图像识别的准确率，就成为技术人员亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种图像识别模型的训练方法，所述图像识别模型包括编码器和解码器，所述方法包括：

获取训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的样本描述信息；

将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果；

根据所述解码结果与所述样本描述信息计算损失值；

根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。

可选的，在将所述样本图像输入至所述编码器之前，还包括：

对所述样本图像进行处理，将所述样本图像调整到预设尺寸。

可选的，将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量，包括：

将所述样本图像输入至所述编码器，提取所述样本图像的至少两个二维图像特征；

根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。

可选的，在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前，还包括：

为每个所述二维图像特征添加特征位置编码。

可选的，所述解码器包括n个依次连接的解码层，其中，n≥1；

将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果，包括：

S51、获取所述样本描述信息对应的样本描述信息向量；

S52、将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理，得到第1个解码层输出的解码向量；

S53、将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n；

S54、将j自增1，判断j是否大于n，若是，则输出解码结果，若否，继续执行步骤S53。

可选的，将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理，得到第1个解码层输出的解码向量，包括：

将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；

根据每个所述解码子向量生成第1个解码层的解码向量。

可选的，根据每个所述解码子向量生成第1个解码层的解码向量，包括：

根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。

可选的，将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，包括：

将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；

根据每个所述解码子向量生成第j个解码层的解码向量。

可选的，根据每个所述解码子向量生成第j个解码层的解码向量，包括：

根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。

可选的，其特征在于，根据所述解码结果与所述样本描述信息计算损失值，包括：

根据第n个解码层输出的解码向量与所述样本描述信息向量计算损失值。

根据本申请实施例的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述第一方面中任意一项图像识别模型的训练方法训练获得，包括编码器和解码器；

将所述待识别图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

将每个所述图像特征向量和初始参考解码向量输入至所述解码器，获得所述解码器输出的所述待识别图像对应的识别结果。

根据本申请实施例的第三方面，提供了一种图像识别模型的训练装置，所述图像识别模型包括编码器和解码器，所述装置包括：

第一获取模块，被配置为获取训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的样本描述信息；

编码模块，被配置为将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

解码模块，被配置为将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果；

计算模块，被配置为根据所述解码结果与所述样本描述信息计算损失值；

调参模块，被配置为根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。

根据本申请实施例的第四方面，提供了一种图像识别装置，包括：

第二获取模块，被配置为获取待识别图像；

输入识别模型模块，被配置为将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述第一方面中任意一项图像识别模型的训练方法训练获得，包括编码器和解码器；

编码器输入模块，被配置为将所述待识别图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

解码器输入模块，被配置为将每个所述图像特征向量和初始参考解码向量输入至所述解码器，获得所述解码器输出的所述待识别图像对应的识别结果。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述图像识别模型的训练方法或图像识别方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述图像识别模型的训练方法或图像识别方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述图像识别模型的训练方法或图像识别方法的步骤。

本申请实施例提供的图像识别模型的训练方法，通过在图像识别模型的编码器中，提取样本图像的两个尺度的图像特征，并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码，在解码器可以融合至少两个图像特征的图像特征向量，可以参考各个尺度下图像特征的差异，提高图像识别的准确率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的图像识别模型的训练方法的流程图；

图3是本申请实施例提供的样本图像的示意图；

图4是本申请实施例提供的提取样本图像的图像特征示意图；

图5是本申请实施例提供的解码器输出解码结果的流程示意图；

图6是本申请实施例提供的解码层的结构示意图；

图7是本申请另一实施例提供的图像识别模型的训练方法的流程图；

图8是本申请另一实施例提供的样本图像的示意图；

图9是本申请实施例提供的图像识别方法的流程图；

图10是本申请实施例提供的图像识别方法中待识别图像的示意图；

图11是本申请实施例的图像识别模型的训练装置的结构示意图；

图12是本申请实施例的图像识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

样本图像：用于训练图像识别模型的训练图像，样本图像中为文字或数学公式。

样本描述信息：样本图像对应的描述信息，如图像中的文字内容，数学公式对应的描述信息，如公式为

描述信息为：“y＝\sum_(i＝1)^{3}2x^i”。

图像特征向量：经过编码器处理获得的样本图像对应的向量。

二维图像特征：经CNN提取的图像特征。

特征位置编码：用于记录空间位置关系的编码，解决了字符空间位置的关系。

注意力机制：根据需要的不同，把注意力集中放在重要的点上，而忽略其他不重要的因素。

在本申请中，提供了一种图像识别模型的训练方法及装置、图像识别方法及装置、计算设备和计算机可读存储介质，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示图像识别模型的训练方法中的步骤。图2示出了根据本申请一实施例的图像识别模型的训练方法的流程图，所述图像识别模型包括编码器和解码器，包括步骤202至步骤210。

步骤202：获取训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的样本描述信息。

训练数据包括样本图像和所述样本图像对应的样本描述信息，样本图像为公式图像，样本图像对应的样本描述信息为公式对应的描述信息。

在本申请提供的实施例中，参见图3，图3示出了样本图像的示意图，图3中样本图像对应的描述信息为：“\mathcal{J}＝-\frac{1}{\tau}\operatorname{log}\left(P_{r}(\boldsymbol{y}|\boldsymbol{a})\right)+\lambda_{R}\mathcal{R}”。

步骤204：将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量。

所述图像识别模型为Transformer模型，包括编码器和解码器，将样本图像输入至图像识别模型的编码器中，在编码器中对样本图像做卷积处理提取图像特征，提取图像特征可以为残差网络、全卷积网络、efficient网络，在本申请中不对卷积的方法做限定。

可选的，将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量，包括：将所述样本图像输入至所述编码器，提取所述样本图像的至少两个二维图像特征；根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。

在编码器中通过卷积处理提取样本图像的至少两个尺度的二维图像特征，相同的样本图像在不同尺度下提取的特征是不同的，公式上大多为字符，尺度太小，可能较小的字符和细节将会消失，本申请中优选使用32*4和64*8两个尺度的图像特征。通过获取样本图像至少两个尺度的二维图像特征，可以尽可能多的从各个角度获取样本图像的特征，再将每个二维图像特征进行特征拉伸，获得每个二维图像特征对应的图像特征向量。

在本申请提供的实施例中，图像识别模型的编码器利用efficientNet提取样本图像的图像特征的过程中，特征尺寸会逐渐减小，如原始尺寸为1024*128，经过一次下采样后会变为512*64，经过第二次下采样后会变为256*32，经过第三次下采样后会变为128*16，依次类推。参见图4，图4示出了提取样本图像的图像特征示意图。

通常图像特征为四维的表示(batch，channel，w，h)，其中，batch为图像的个数，channel为通道数，w为图像的宽，h为图像的高。

样本图像为(batch，1，128，1024)，经过一次下采样后为(batch，16，64，512)，再经过一次下采样后为(batch，32，32，256)，为了便于表示，在本申请中，用宽和高表示卷积块输出的图像特征的大小，在本申请提供的实施例中，获取样本图像对应的两个尺度的图像特征F₁(64*8)和F₂(32*4)。

对每个尺度的图像特征做特征拉伸，得到每个尺度的图像特征对应的图像特征向量的形式有很多，在本申请提供的实施例中，将宽为w和高为h的图像特征转换为w*h的图像特征向量。

因此，将图像特征F₁(64*8)转换为512维的图像特征向量Fc₁，将图像特征F₂(32*4)转换为128维的图像特征向量Fc₂。

具体地，在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前，还包括：为每个所述二维图像特征添加特征位置编码。

在实际应用中，在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前，还需要为每个图像特征添加二维位置编码，用以标注图像特征的空间位置关系，保证公式中字符的顺序。

可选的，在将所述样本图像输入至所述编码器之前，还包括：对所述样本图像进行处理，将所述样本图像调整到预设尺寸。

在实际应用中，样本图像的图像大小不一，简短的公式图像会比较小，复杂的公式图像会比较大，但通常卷积神经网络的输入图像的大小是固定的，如用于目标检测的YOLOv3的输入大小是224*224，在本申请中，需要对样本图像进行标准化处理，将所述样本图像调整到预设尺寸，优选的，在本申请中将预设尺寸设计为1024*128，需要注意的是，在本申请中预设尺寸1024*128仅做适宜性说明，预设尺寸的设置可以根据实际情况进行调整，在本申请对此不做限定。

在实际应用中，为了保证图像的识别准确率，还会随机替换公式图像的背景图像，进行模糊滤波等操作，对此以实际应用为准，本申请中不做限制。

在本申请提供的实施例中，将图3所示的样本图像调整到1024*128的大小。

步骤206：将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果。

将每个图像特征向量和样本描述信息输入至图像识别模型的解码器中，图像识别模型的解码器包括N个解码层，每个解码层接收所述图像识别模型的编码层输出的图像特征向量和上一个解码层输出的解码向量进行解码处理，在每个解码层中将每个图像特征向量分别与样本描述信息做注意力计算，最后一个解码层输出最终的解码向量，再经过线性层和softmax层输出最终的结果。

可选的，所述解码器包括n个依次连接的解码层，其中，n≥1，参见图5，步骤206可以通过下述步骤502至步骤510实现。

步骤502：获取所述样本描述信息对应的样本描述信息向量。

将样本描述信息输入至解码器的嵌入层做嵌入化处理，获得样本描述信息对应的样本描述信息向量。

在本申请提供的实施例中，沿用上例，将样本描述信息“\mathcal{J}＝-\frac{1}{\tau}\operatorname{log}\left(P_{r}(\boldsymbol{y}|\boldsymbol{a})\right)+\lambda_{R}\mathcal{R}”做嵌入化处理后获得样本描述信息向量T。

步骤504：将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理，得到第1个解码层输出的解码向量。

解码器包括N个解码层，对于第1个解码层，接收编码器输出的图像特征向量和样本描述信息向量在解码层中做解码处理，获得第1个解码层输出的解码向量。

可选的，步骤504包括：将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；根据每个所述解码子向量生成第1个解码层的解码向量。

在本申请提供的实施例中，沿用上例，参见图6，图6示出了图像识别模型的N个解码层的结构示意图，对于第1个解码层，X为样本描述信息向量T，在第1个解码层中，样本描述信息向量T经过自注意力层的自注意力计算，将计算结果做归一化处理后得到样本描述信息向量T₁，图像特征向量Fc₁与样本描述信息向量T₁在注意力层1中做注意力计算获得与图像特征向量Fc₁对应的解码子向量SA₁，图像特征向量Fc₂与样本描述信息向量T₁在注意力层2中做注意力计算获得与图像特征向量Fc₂对应的解码子向量SA₂，需要注意的是，每个图像特征向量与样本描述信息向量在各自独立的注意力层中做注意力计算。

具体的，根据每个所述解码子向量生成第1个解码层的解码向量包括：根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。

在实际应用中，根据每个解码子向量和其对应的权重生成第1个解码层的解码向量，通过每个解码子向量和其对应的权重融合解码子向量。

在本申请提供的实施例中，沿用上例，解码子向量SA₁对应的权重为Q₁，解码子向量SA₂对应的权重为Q₂，则第1解码层输出的解码向量E₁＝Q₁*SA₁+Q₂*SA₂，在训练过程中，解码子向量对应权重也在不断地训练调整直至保证对图像识别贡献大的特征具有更大的权重，使得图像识别效果更好。

步骤506：将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n。

对于除去第1个解码层的其他解码层，接收编码器发送的图像特征向量和上一个解码层输出的解码向量，在当前解码层中经过解码处理，输出当前解码层的解码向量。

可选的，步骤506包括：将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；根据每个所述解码子向量生成第j个解码层的解码向量。

具体的，根据每个所述解码子向量生成第j个解码层的解码向量，包括：根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。

在本申请提供的实施例中，沿用上例，对于第j个解码层，其中2≤j≤n，X为第j-1个解码层输出的解码向量E_J-1，解码向量E_J-1经过自注意力层的自注意力计算，将计算结果做归一化处理后得到解码向量E_(J-1)1，在第j个解码层中，图像特征向量Fc₁和Fc₂分别与解码向量E_(J-1)1做注意力计算生成对应的解码子向量，进而根据每个解码子向量及其权重生成第j个解码层的解码向量E_J。

需要注意的是，同一个图像特征向量在不同的解码层中对应的权重也不是固定的，每个权重都是经过训练获得。

步骤508：将j自增1，判断j是否大于n，若是，则执行步骤510，若否，执行步骤506。

将j自增1，当j<n的情况下，还没有到解码器的最后一个解码层，执行步骤506，当j＝n时，已经到最后一个解码层，执行步骤510。

步骤510：输出解码结果。

将第j个解码层输出的解码向量作为解码器的解码结果。

步骤208：根据所述解码结果与所述样本描述信息计算损失值。

可选的，根据所述解码结果与所述样本描述信息计算损失值包括根据最后一个解码层输出的解码向量与所述样本描述信息向量计算损失值。

在本申请提供的实施例中，当j＝n时，根据第j个解码层输出的解码向量与样本描述信息向量计算损失值。

步骤210：根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。

具体的，将计算获得的损失值反向传播以调整所述图像识别模型中的参数，达到训练所述图像识别模型的目的。

图7示出了本申请一实施例的图像识别模型的训练方法的流程图，包括步骤702至步骤718。

步骤702：获取样本图像和所述样本图像对应的样本描述信息。

在本申请提供的实施例中，参见图8，图8示出了本申请实施例提供的样本图像，所述样本图像对应的样本描述信息为“ds^{2}＝-H^{-1}dt^{2}H\delta_{mn}dx^{m}dx^{n}”。

步骤704：对所述样本图像进行处理，将所述样本图像调整到预设尺寸。

在本申请提供的实施例中，将样本图像进行标准化处理，调整到1024*128大小的预设尺寸。

步骤706：将所述样本图像输入至图像识别模型的编码器，提取所述样本图像的至少两个尺度的二维图像特征。

在本申请提供的实施例中，利用efficientNet提取样本图像的图像特征，获取所述样本图像的两个尺度的图像特征F1(64*8)和F2(32*4)。

步骤708：为每个所述二维图像特征添加特征位置编码。

在本申请提供的实施例中，为每个二维图像特征添加特征位置编码，特征位置编码用于记住空间位置关系。

步骤710：根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。

在本申请提供的实施例中，将两个尺度的图像特征F1(64*8)和F2(32*4)分别做特征拉伸，获得512维的图像特征向量Fc1和128维的图像特征向量Fc2。

步骤712：获取所述样本描述信息对应的样本描述信息向量。

在本申请提供的实施例中，将样本描述信息“ds^{2}＝-H^{-1}dt^{2}H\delta_{mn}dx^{m}dx^{n}”做嵌入化处理，获得样本描述信息向量X。

步骤714：将每个所述图像特征向量和所述样本描述信息向量输入至所述图像识别模型的解码器，获得所述解码器输出的解码结果。

在本申请提供的实施例中，将图像特征向量Fc1、图像特征向量Fc2和样本描述信息向量X输入至图像识别模型的解码器中。

对于第1个解码层，样本描述信息向量X经过自注意力层的自注意力计算，将计算结果做归一化处理后得到样本描述信息向量X₁，图像特征向量Fc₁与样本描述信息向量X₁在注意力层1中做注意力计算获得与图像特征向量Fc₁对应的解码子向量SA₁，图像特征向量Fc₂与样本描述信息向量X₁在注意力层2中做注意力计算获得与图像特征向量Fc₂对应的解码子向量SA₂，根据解码子向量SA₁和对应的权重Q₁，解码子向量SA₂和对应的权重Q₂生成解码向量E₁＝Q₁*SA₁+Q₂*SA₂。并将E₁作为第1个解码层的输出结果。

对于除去第1个解码层的其他解码层，接收上一个解码层输出的解码向量，经过当前解码层的自注意力层的自注意力计算，将计算结果做归一化处理后得到的结果分别与图像特征向量Fc₁和图像特征向量Fc₂做注意力计算生成对应的解码子向量，再根据各自对应的权重生成当前解码层输出的解码向量。

步骤716：根据所述解码结果与所述样本描述信息向量计算损失值。

在本申请提供的实施例中，将第n个解码层输出的解码向量作为最终的编码结果，与样本描述信息向量计算交叉熵损失值。

步骤718：根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。

在本申请提供的实施例中，根据损失值反向传播，调整所述图像识别模型的参数以训练所述图像识别模型。

本申请实施例提供的图像识别模型的训练方法，通过在图像识别模型的编码器中，提取样本图像的两个尺度的图像特征，并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码，在解码器的每个解码层中使每个图像特征向量分别与样本描述信息向量进行注意力计算，可以参考各个尺度下图像特征的差异，解决了transformer无法参考不同级别图像特征差异的问题，提高图像识别的准确率。

处理器120可以执行图9所示图像识别方法中的步骤。图9示出了根据本申请一实施例的图像识别方法的流程图，包括步骤902至步骤908。

步骤902：获取待识别图像。

在实际应用中，待识别图像为公式图像。

在本申请提供的一实施例中，获取待识别图像如图10所示，图10示出了本申请一实施例提供的待识别图像。

步骤904：将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述图像识别模型的训练方法训练获得，所述图像识别模型包括编码器和解码器。

在本申请提供的一实施例中，将图10所示的待识别图像输入至图像识别模型，其中，所述图像识别模型为经过上述图像识别模型的训练方法训练获得。

步骤906：将所述待识别图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量。

在本申请提供的实施例中，将所述待识别图像输入至所述图像识别模型的编码器中，获得所述样本图像对应的两个图像特征向量。

步骤908：将每个所述图像特征向量和初始参考解码向量输入至所述解码器，获得所述解码器输出的所述待识别图像对应的识别结果。

在本申请提供的实施例中，将每个所述图像特征向量和初始参考解码向量输入至所述图像识别模型的解码器中，获得所述解码器输出的所述待识别图像对应的识别结果“\sum_{i＝1}^{n}S_i”。

本申请实施例提供的图像识别方法，通过图像识别模型的编码器提取待识别图像的至少两个尺度的图像特征信息，并将每个尺度的图像特征信息输入至图像识别模型的解码器中，在解码器中根据多个尺度的图像特征信息进行注意力计算，参考各个尺度下图像特征的差异，解决了单一的图像特征输入到解码层中出现的忽略不同级别图像特征的差异问题，提高了图像识别的准确率。

与上述图像识别模型的训练方法实施例相对应，本申请还提供了图像识别模型的训练装置实施例，图11示出了本申请一个实施例的图像识别模型的训练装置的结构示意图。所述图像识别模型包括编码器和解码器，如图11所示，该装置包括：

第一获取模块1102，被配置为获取训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的样本描述信息；

编码模块1104，被配置为将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

解码模块1106，被配置为将每个所述图像特征向量和所述样本描述信息输入至所述解码器，获得所述解码器输出的解码结果；

计算模块1108，被配置为根据所述解码结果与所述样本描述信息计算损失值；

调参模块1110，被配置为根据所述损失值调整所述图像识别模型的参数以训练所述图像识别模型。

可选的，所述装置还包括：标准化模块，被配置为对所述样本图像进行处理，将所述样本图像调整到预设尺寸。

可选的，所述编码模块1104，进一步被配置为将所述样本图像输入至所述编码器，提取所述样本图像的至少两个二维图像特征；根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量。

可选的，所述编码模块1104，进一步被配置为为每个所述二维图像特征添加特征位置编码。

所述解码模块1106，进一步被配置为获取所述样本描述信息对应的样本描述信息向量；将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理，得到第1个解码层输出的解码向量；将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，其中2≤j≤n；将j自增1，判断j是否大于n，若是，则输出解码结果，若否，继续执行将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层的操作。

可选的，所述解码模块1106，进一步被配置为将每个所述图像特征向量分别与所述样本描述信息向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；根据每个所述解码子向量生成第1个解码层的解码向量。

可选的，所述解码模块1106，进一步被配置为根据每个所述解码子向量及其对应的权重生成第1个解码层输出的解码结果。

可选的，所述解码模块1106，进一步被配置为将每个所述图像特征向量分别与第j-1个解码层输出的解码向量做注意力计算，得到每个所述图像特征向量对应的解码子向量；根据每个所述解码子向量生成第j个解码层的解码向量。

可选的，所述解码模块1106，进一步被配置为根据每个所述解码子向量及其对应的权重生成第j个解码层输出的解码结果。

可选的，所述计算模块1108，进一步被配置为根据第n个解码层输出的解码向量与所述样本描述信息向量计算损失值。

本申请实施例提供的图像识别模型的训练装置，通过在图像识别模型的编码器中，提取样本图像的两个尺度的图像特征，并将这两个图像特征和样本图像对应的样本描述信息输入至解码器进行解码，在解码器的每个解码层中使每个图像特征向量分别与样本描述信息向量进行注意力计算，可以参考各个尺度下图像特征的差异，解决了transformer无法参考不同级别图像特征差异的问题，提高图像识别的准确率。

与上述图像识别方法实施例相对应，本申请还提供了图像识别装置实施例，图12示出了本申请一个实施例的图像识别装置的结构示意图。如图12所示，该装置包括：

第二获取模块1202，被配置为获取待识别图像；

输入识别模型模块1204，被配置为将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得，包括编码器和解码器；

编码器输入模块1206，被配置为将所述待识别图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量；

解码器输入模块1208，被配置为将每个所述图像特征向量和初始参考解码向量输入至所述解码器，获得所述解码器输出的所述待识别图像对应的识别结果。

本申请实施例提供的图像识别装置，通过图像识别模型的编码器提取待识别图像的至少两个尺度的图像特征信息，并将每个尺度的图像特征信息输入至图像识别模型的解码器中，在解码器中根据多个尺度的图像特征信息进行注意力计算，参考各个尺度下图像特征的差异，解决了单一的图像特征输入到解码层中出现的忽略不同级别图像特征的差异问题，提高了图像识别的准确率。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的图像识别模型的训练方法或图像识别方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像识别模型的训练方法或图像识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像识别模型的训练方法或图像识别方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像识别模型的训练方法，其特征在于，所述图像识别模型包括编码器和解码器，所述方法包括：

根据所述解码结果与所述样本描述信息计算损失值；

2.如权利要求1所述的图像识别模型的训练方法，其特征在于，在将所述样本图像输入至所述编码器之前，还包括：

3.如权利要求1所述的图像识别模型的训练方法，其特征在于，将所述样本图像输入至所述编码器，获得所述样本图像对应的至少两个图像特征向量，包括：

4.如权利要求3所述的图像识别模型的训练方法，其特征在于，在根据每个所述二维图像特征确定每个所述二维图像特征对应的图像特征向量之前，还包括：

为每个所述二维图像特征添加特征位置编码。

5.如权利要求1所述的图像识别模型的训练方法，其特征在于，所述解码器包括n个依次连接的解码层，其中，n≥1；

S51、获取所述样本描述信息对应的样本描述信息向量；

6.如权利要求5所述的图像识别模型的训练方法，其特征在于，将每个所述图像特征向量和所述样本描述信息向量输入至第1个所述解码层做解码处理，得到第1个解码层输出的解码向量，包括：

根据每个所述解码子向量生成第1个解码层的解码向量。

7.如权利要求6所述的图像识别模型的训练方法，其特征在于，根据每个所述解码子向量生成第1个解码层的解码向量，包括：

8.如权利要求5所述的图像识别模型的训练方法，其特征在于，将每个所述图像特征向量和第j-1个解码层输出的解码向量输入至第j个解码层，得到第j个解码层输出的解码向量，包括：

根据每个所述解码子向量生成第j个解码层的解码向量。

9.如权利要求8所述的图像识别模型的训练方法，其特征在于，根据每个所述解码子向量生成第j个解码层的解码向量，包括：

10.如权利要求5至8任意一项所述的图像识别模型的训练方法，其特征在于，根据所述解码结果与所述样本描述信息计算损失值，包括：

11.一种图像识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得，包括编码器和解码器；

12.一种图像识别模型的训练装置，其特征在于，所述图像识别模型包括编码器和解码器，所述装置包括：

13.一种图像识别装置，其特征在于，包括：

第二获取模块，被配置为获取待识别图像；

输入识别模型模块，被配置为将所述待识别图像输入至图像识别模型，其中，所述图像识别模型根据上述权利要求1-10任意一项图像识别模型的训练方法训练获得，包括编码器和解码器；

14.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-10或者11任意一项所述方法的步骤。

15.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-10或者11任意一项所述方法的步骤。