CN110458247A

CN110458247A - 图像识别模型的训练方法及装置、图像识别方法及装置

Info

Publication number: CN110458247A
Application number: CN201910842910.7A
Authority: CN
Inventors: 史红亮; 廖敏鹏; 李长亮
Original assignee: Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd; Beijing Jinshan Digital Entertainment Technology Co Ltd
Priority date: 2019-09-06
Filing date: 2019-09-06
Publication date: 2019-11-15

Abstract

本申请提供图像识别模型的训练方法及装置、图像识别方法及装置，所述图像识别模型的训练方法包括：获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。通过注意力调整机制，使图像识别模型在识别样本图像过程中，能有效关注样本图像的局部特征，避免重复关注样本图像的同一局部特征，提高图像识别模型的识别准确率，提高图像识别模型的训练效率。

Description

图像识别模型的训练方法及装置、图像识别方法及装置

技术领域

本申请涉及机器学习技术领域，特别涉及图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片。

背景技术

在实际应用中，很多时候需要通过图像识别模型获取图像的描述信息，例如识别图像中的内容生成表格或公式，识别图像的内容生成描述信息等。

在训练和使用图像识别模型时，多采用编码-解码框架，并在解码过程中并结合注意力机制，识别图像中的内容。但是，在结合注意力机制对图像进行解码的过程中，经常会出现多次重复地注意同一位置，造成识别过程耗时严重，识别生成的内容不准确，从而影响图像识别模型的训练效率和图像识别的准确率。

那么如何解决上述问题，提高图像识别模型的训练效率，提高图像识别的准确率，就成为目前亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种图像识别模型的训练方法，包括：

获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；

将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；

根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。

可选的，将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息，包括：

将所述样本图像输入至所述图像识别模型的编码端进行编码，获得所述样本图像的局部特征向量集合和全局编码向量；

根据所述样本图像的局部特征向量集合获取注意力分布；

将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。

可选的，将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息，包括：

S31、根据所述注意力分布对所述全局编码向量进行解码，生成解码字符集；

S32、判断所述图像识别模型的解码端是否完成解码，若否，执行S33，若是，则执行S34；

S33、根据模型的注意力调整机制调整所述注意力分布，执行S31；

S34、根据所述解码字符集生成所述图像的描述信息。

可选的，根据模型的注意力调整机制调整所述注意力分布，包括：

获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量；

根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量，获取注意力参数向量；

根据所述注意力参数向量和关注次数向量，获取上一次注意力分布的衰减率；

根据所述上一次注意力分布和所述上一次注意力分布的衰减率，获得当前次的注意力分布。

可选的，根据所述注意力分布对所述全局编码向量进行解码，生成解码字符集，包括：

将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。

可选的，所述图像识别模型的训练方法，还包括：

在所述损失值小于预设阈值的情况下，停止调整所述图像识别模型的模型参数和注意力调整机制参数。

根据本申请实施例的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过上述任意一项所述的图像识别模型训练方法得到的图像识别模型；

所述图像识别模型响应于所述待识别图像作为输入，根据模型的注意力调整机制获取所述待识别图像的描述信息。

可选的，所述图像识别模型包括编码端和解码端；

所述图像识别模型响应于所述待识别图像作为输入，根据模型的注意力调整机制获取所述待识别图像的描述信息，包括：

将所述待识别图像输入至所述图像识别模型的编码端进行编码，获得所述待识别图像的局部特征向量集合和全局编码向量；

根据所述待识别图像的局部特征向量集合获取注意力分布；

将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述待识别图像的描述信息。

根据本申请实施例的第三方面，提供了一种图像识别模型的训练装置，包括：

第一获取模块，被配置为获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；

输入识别模块，被配置为将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；

调整模块，被配置为根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。

可选的，所述输入识别模块，包括：

编码单元，被配置为将所述样本图像输入至所述图像识别模型的编码端进行编码，获得所述样本图像的局部特征向量集合和全局编码向量；

获取单元，被配置为根据所述样本图像的局部特征向量集合获取注意力分布；

解码单元，被配置为将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。

可选的，所述解码单元，包括：

解码子单元，被配置为根据所述注意力分布对所述全局编码向量进行解码，生成解码字符集；

判断子单元，被配置为判断所述图像识别模型的解码端是否完成解码；

调整子单元，被配置为根据模型的注意力调整机制调整所述注意力分布；

生成子单元，被配置为根据所述解码字符集生成所述图像的描述信息。

可选的，所述调整子单元，进一步被配置为获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量；根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量，获取注意力参数向量；根据所述注意力参数向量和关注次数向量，获取上一次注意力分布的衰减率；根据所述上一次注意力分布和所述上一次注意力分布的衰减率，获得当前次的注意力分布。

可选的，所述解码子单元，进一步被配置为将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。

可选的，所述调整模块，进一步被配置为在所述损失值小于预设阈值的情况下，停止调整所述图像识别模型的模型参数和注意力调整机制参数。

根据本申请实施例的第四方面，提供了一种图像识别装置，包括：

第二获取模块，被配置为获取待识别图像；

输入模块，被配置为将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过根据上述任意一项所述的图像识别模型训练方法得到的图像识别模型；

响应模块，被配置为所述图像识别模型响应于所述待识别图像作为输入，根据模型的注意力调整机制获取所述待识别图像的描述信息。

可选的，所述图像识别模型包括编码端和解码端；

所述响应模块，进一步被配置为将所述待识别图像输入至所述图像识别模型的编码端进行编码，获得所述待识别图像的局部特征向量集合和全局编码向量；根据所述待识别图像的局部特征向量集合获取注意力分布；将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述待识别图像的描述信息。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

本申请实施例中提供的图像识别模型的训练方法，通过获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。在模型训练时，根据模型的注意力调整机制在识别样本图像过程中，能有效关注样本图像的局部特征区域，避免重复关注样本图像的同一局部特征区域，提高图像识别模型的识别准确率和图像识别模型的训练效率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的图像识别模型的训练方法的流程图；

图3是本申请另一实施例提供的图像识别模型的训练方法的流程图；

图4是本申请实施例提供的图像识别方法的流程图；

图5是本申请实施例提供的图像识别模型的结构示意图；

图6是本申请实施例提供的图像识别模型识别公式图像的示意图；

图7是本申请实施例提供的图像识别模型的训练装置的结构示意图；

图8是本申请实施例提供的图像识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

注意力机制：根据需要的不同，把注意力集中放在重要的点上，而忽略其他不重要的因素。

超参数：在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

隐状态：隐状态是用来输出的，用来控制此刻对上文依赖的选择，是长短期记忆网络(LSTM)中各种门控的结果。

在本申请中，提供了图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示图像识别模型的训练方法中的步骤。图2示出了根据本申请一实施例的图像识别模型的训练方法的流程图，包括步骤202至步骤206。

步骤202：获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息。

预训练的图像识别模型是深度学习架构，已经过训练以执行大量数据上的图像识别任务。使用预训练模型可以在解决图像识别的问题时不用从零开始训练一个新的模型，可以在已经经过训练的模型的基础上进行深度训练，提高训练模型的效率。

训练数据包括样本图像和所述样本图像对应的标准描述信息，样本图像可以是公式图像，可以是风景图像，可以是人物图像等，所述样本图像对应的标准描述信息即为样本图像经过图像识别模型进行识别后输出的标准描述信息。例如以一个公式图像为例，图像中的公式为该公式图像对应的标准描述信息为：“y＝\sum_(i＝1)^{3}2x^i”，以一个风景图像为例，图像为大海中的一座岛屿，该风景图像的标准描述信息为“大海中有一座岛屿”，以一个人物图像为例，图像为一群小朋友在踢足球，该人物图像的标准描述信息为“一群小朋友在踢足球”。

本申请提供的一实施例中，以公式图像为例，图像中的公式为该公式图像对应的标准描述信息为：“y＝\sum_(i＝1)^{3}2x^i”。

步骤204：将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息。

将所述样本图像输入至所述图像识别模型，所述图像识别模型在识别所述样本图像的过程中，根据模型的注意力调整机制调整所述图像识别模型的注意力分布，完整有效地关注样本图像的局部特征区域，从而获取所述样本图像的描述信息，模型的注意力调整机制用于调整注意力分布用以确定每次对样本图像进行识别时需要重点关注的局部特征区域。

所述样本图像识别模型包括编码端和解码端，可选的，步骤204可以通过下述步骤S2041至步骤S2043实现。

S2041、将所述样本图像输入至所述图像识别模型的编码端进行编码，获得所述样本图像的局部特征向量集合和全局编码向量。

将所述样本图像输入至所述图像识别模型的编码端，所述图像识别模型的编码端接收样本图像，并将所述样本图像进行编码，获得所述样本图像的局部特征向量集合，将所述局部特征向量集合经过池化层，获得所述样本图像的全局编码向量。

在本申请的实施例中，以公式图像为例，将公式图像中的公式输入到图像识别模型中，图像识别模型的编码端接收到公式图像，并将公式图像进行编码，获得公式图像的局部特征向量集合将所述局部特征向量集合进行池化，得到全局编码向量[X₁，…，X_n]。

S2042、根据所述样本图像的局部特征向量集合获取注意力分布。

根据所述样本图像的局部特征向量集合获取所述样本图像对应的注意力分布[α₁，…，α_m]，其中α₁为局部特征向量[A₁，…，A_n]对应的局部特征的注意力权值，α_m为局部特征向量[M₁，…，M_n]对应的局部特征的注意力权值。

S2043、将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息。

将所述全局编码向量输入至所述图像识别模型的解码端，所述图像识别模型的解码端在每次对所述全局编码向量解码时，根据模型的注意力调整机制，通过降低已经关注过的区域的权重的方法调整所述注意力分布，从而获取所述样本图像的描述信息。

在本申请提供的实施例中，以公式图像为例，通过调整注意力分布[α₁，…，α_m]，降低已关注区域的注意力权重的方法，对全局编码向量[X₁，…，X_n]进行解码，从而获得所述公式图像的描述信息。

步骤206：根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。

根据所述描述信息和所述样本图像对应的标准描述信息之间的差异，计算损失值，并通过将所述损失值反向传播，调整所述图像识别模型中的模型参数和注意力调整机制参数，从而达到训练所述图像识别模型的目的。

可选的，在所述损失值小于预设阈值的情况下，停止调整所述图像识别模型的模型参数和注意力调整机制参数。

当训练数据集中的全部训练数据的训练次数达到预设次数的情况下，暂停训练所述图像识别模型，判断此时损失值是否小于预设阈值，如果损失值大于预设阈值，说明图像识别模型的训练还没有达到效果，需要继续调整所述图像识别模型的模型参数和注意力调整机制参数，如果损失值小于等于预设阈值，则停止调整所述图像识别模型的模型参数和注意力调整机制参数。

本申请提供的图像识别模型的训练方法，通过模型的注意力调整机制调整图像识别模型的注意力分布，保证在图像识别过程中，能完整有效地关注样本图像的局部特征区域，避免重复关注样本图像的同一局部特征区域，提高图像识别模型识别样本图像的准确率，通过样本图像的描述信息和标准描述信息计算损失值，并用损失值调整所述图像识别模型的模型参数和注意力调整机制参数，进一步的加快图像识别模型的训练效率。

图3示出了本申请另一实施例的图像识别模型的训练方法，包括步骤302至步骤316。

步骤302：获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息。

步骤302与上述步骤202的方法一致，关于步骤302的具体解释，参见前述实施例中步骤202的详细内容，在此就不再赘述。

在本申请提供的实施例中，样本图像为一群小朋友在踢足球，样本图像对应的标准描述信息为“一群小朋友在踢足球”。

步骤304：将所述样本图像输入至所述图像识别模型的编码端进行编码，获得所述样本图像的局部特征向量集合和全局编码向量。

在本申请提供的实施例中，获取样本图像的局部特征向量集合和全局编码向量。

步骤306：根据所述样本图像的局部特征向量集合获取注意力分布。

在本申请提供的实施例中，获取样本图像的注意力分布为[0.1，0.1，0.2，0.2，0.3，0.1]。

步骤304～步骤306与上述步骤S2041～步骤S2042的方法一致，关于步骤304～步骤306的具体解释，参见前述实施例中步骤S2041～步骤S2042的详细内容，在此就不再赘述。

步骤308：根据所述注意力分布对所述全局编码向量进行解码，生成解码字符集。

可选的，将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据所述参考编码向量、所述全局编码向量和所述注意力分布生成当前次的解码字符集。

在解码过程中，所述图像识别模型的解码端对所述全局编码向量进行解码，第一次解码时，设置初始参考编码向量，根据所述初始参考编码向量和当前次的注意力分布对所述全局编码向量进行解码，获得当前次的解码字符集，在除去第一次解码外的解码时，将上一次输出的解码字符集作为参考编码向量，根据所述参考编码向量和当前次的注意力分布对所述全局编码向量进行解码，获得当前次的解码字符集。

步骤310：判断所述图像识别模型的解码端是否完成解码，若否，执行步骤312，若是，则执行步骤314。

判断所述图像识别模型的解码端是否完成对所述图像的全局编码向量的解码，如果解码还没有完成则执行步骤312，如果解码已经完成则执行步骤314。

步骤312：根据模型的注意力调整机制调整所述注意力分布，执行步骤308。

可选的，根据模型的注意力调整机制调整所述注意力分布可以通过下述S3121至S3124实现。

S3121、获取所述图像识别模型的超参数、上一次的隐状态和关注次数向量。

关注次数向量用以记录不同局部特征被注意过的次数，关注次数向量的维度与注意力分布的维度相同。

获取预先设置的图像识别模型的超参数n、上一次图像识别模型的隐状态h_t-1和关注次数向量count。

S3122、根据所述图像识别模型的超参数、上一次的隐状态和全局编码向量，获取注意力参数向量。

注意力参数向量[e₁，…e_n，w₁，…，w_n]通过公式(1)获取，其中[e₁，…，e_n]中的元素代表不同的衰减策略，每个衰减策略均为0到1之间的小数，多种不同的衰减策略组合用以获得最终的衰减率，衰减策略的数量与所述图像识别模型超参数相同。[w₁，…，w_n]为不同的衰减策略分别对应的比例，其中，w₁+w₂+…+w_n＝1。v为全局编码向量，h_t-1为上一次图像识别模型的隐状态。

[e₁,…,e_n,w₁,…,w_n]＝Linear(v,h_t-1) (1)

S3123、根据所述注意力参数向量和关注次数向量，获取上一次注意力分布的衰减率。

上一次注意力分布的衰减率rate通过公式(2)获得，其中，e为衰减策略，w为衰减策略对应的比例，count为关注次数向量，n为所述图像识别模型的超参数。

在本申请提供的实施例中，经过计算获得的注意力分布的衰减率rate为[0.8，0.6，0.7，0.8，0.5，0.8]。

S3124、根据所述上一次注意力分布和所述上一次注意力分布的衰减率，获得当前次的注意力分布。

获取上一次的注意力分布α，通过公式(3)获取当前次的注意力分布。

α＝rate*α (3)

上一次的注意力分布α为[0.1，0.1，0.2，0.2，0.3，0.1]，上一次注意力分布的衰减率为[0.8，0.6，0.7，0.8，0.5，0.8]，本次的注意力分布为[0.8*0.1，0.6*0.1，0.7*0.2，0.8*0.1，0.5*0.3，0.8*0.1]，即[0.08，0.06，0.14，0.08，0.15，0.08]。

步骤314：根据所述解码字符集生成所述图像的描述信息。

将每次生成的解码字符集按照输出顺序组合，组成所述图像的描述信息。

在本申请提供的实施例中，将每次生成的解码字符集“一群”、“小朋友”、“在”、“踢足球”组合起来，组成所述图像的描述信息“一群小朋友在踢足球”。

步骤316：根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。

步骤316与上述步骤206的方法一致，关于步骤316的具体解释，参见前述实施例中步骤206的详细内容，在此就不再赘述。

本申请提供的图像识别模型的训练方法，在每次编码过程中，通过统计每个局部特征区域的关注次数，并结合注意力参数向量，计算上一次编码过程中注意力分布的衰减率，并根据上一次的注意力分布和注意力分布的衰减率，获取当前次的注意力分布。保证在图像识别过程中，能完整有效地关注样本图像的局部特征区域，避免重复关注样本图像的同一局部特征区域，提高图像识别模型识别样本图像的准确率，通过样本图像的描述信息和标准描述信息计算损失值，并用损失值调整所述图像识别模型的模型参数和注意力调整机制参数，更进一步的加快图像识别模型的训练效率。

图4示出了本申请一实施例的图像识别方法，包括步骤402至步骤406。

步骤402：获取待识别图像。

待识别图像就是等待被识别的图像，可以是从互联网中获取，也可以是预先存储于设备中，获取待识别的图像。

步骤404：将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过上述任意一项所述的图像识别模型训练方法得到的图像识别模型。

在本申请提供的实施例中，如图5所示，以风景图像为例，Image即为所述风景图像，所述风景图像为大海中有一座岛屿，将所述风景图像输入到被预先训练好的图像识别模型中，所述预先训练好的图像识别模型被训练于根据输入的风景图像，输出所述风景图像的描述信息。

步骤406：所述图像识别模型响应于所述待识别图像作为输入，根据模型的注意力调整机制获取所述待识别图像的描述信息。

所述图像识别模型包括编码端和解码端。图5示出图像识别模型的结构示意图，如图5所示，CNN为所述图像识别模型的编码端，LSTM为所述图像识别模型的解码端，MLP为多层感知器，用以输出识别结果，Attention为所述图像识别模型的解码端中的注意力机制。

所述图像识别模型的解码端接收输入的待识别图像，对所述待识别图像进行编码，获得所述待识别图像的编码向量，并将所述编码向量输入至所述图像识别模型的解码端。

所述图像识别模型的解码端接收所述待识别图像的编码向量，在每一次的解码过程中，将接收上一次的输出作为本次解码的参考编码向量，并通过调整所述图像识别模型的注意力分布对所述编码向量进行解码，生成本次解码字符集。

可选的，步骤406以通过下述S4061～S4063实现。

S4061、将所述待识别图像输入至所述图像识别模型的编码端进行编码，获得所述待识别图像的局部特征向量集合和全局编码向量。

在本申请提供的实施例中，将风景图像Image输入到图像识别模型的编码端进行编码，获得所述风景图像的局部特征向量集合V，并将所述局部特征向量集合经过池化层，获得所述风景图像的全局编码向量V_mean。

S4062、根据所述待识别图像的局部特征向量集合获取注意力分布。

在本申请提供的实施例中，根据风景图像对应的局部特征向量集合，获取所述风景图像的注意力分布α_old。

S4063、将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述待识别图像的描述信息。

在本申请提供的实施例中，如图5所示，将所述风景图像Image的全局编码向量V_mean输入至所述图像识别模型的解码端。解码端通过上一次的隐状态h_t-1和全局编码向量V_mean获取注意力参数向量，并结合关注次数向量count，计算出上一次注意力分布的衰减率rate。通过上一次的注意力分布α_old和上一次注意力分布的衰减率rate，计算出当前次的注意力分布α_new，通过调整所述注意力分布降低已经注意过的局部特征区域的权重，同时LSTM接收上一次输入的解码结果y_t-1作为参考编码向量，完成对所述风景图像的全局编码向量的解码并通过MLP输出解码结果y_t，当所述解码端完成对所述编码向量的解码后，最终获取所述风景图像的描述信息为：“大海中有一座岛屿”。

在本申请提供的实施例中，如图6所示，图6以对一张公式图像进行识别为例，示出了对所述公式图像中注意力分布进行调整的示意图，公式图像被分为601-609共9个区域，在预先被训练好的图像识别模型对图示公式进行识别过程中，当601区域已经被注意过之后，按照预先训练好的注意力调整机制，对所述公式图像的注意力分布进行调整，降低601区域的注意力分布的权重，602至609区域同样按照预先训练好的注意力调整机制，降低已经被注意过区域的注意力分布的权重，使所述图像识别模型快速准确地识别所述公式图像，最终识别所述公式图像的描述信息为“y＝\sum_(i＝1)^{3}2x^i”。

本申请提供的图像识别方法，将输入的待识别图像经过编码端的编码获得编码向量和注意力分布，再将编码向量输入到待识别图像的解码端，在解码端解码生成字符时，根据被训练好的模型的注意力调整机制调整所述注意力分布，降低已经注意过的特征区域的权重，能有效地关注图像完整的局部特征区域，提高图像识别模型的识别效率和准确率。

与上述图像识别模型的训练方法实施例相对应，本申请还提供了图像识别模型的训练装置实施例，图7示出了本申请一个实施例的图像识别模型的训练装置的结构示意图。如图7所示，该装置包括：

第一获取模块702，被配置为获取预训练的图像识别模型和训练数据，其中，所述训练数据包括样本图像和所述样本图像对应的标准描述信息；

输入识别模块704，被配置为将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息；

调整模块706，被配置为根据所述描述信息和所述样本图像对应的标准描述信息计算损失值，调整所述图像识别模型的模型参数和注意力调整机制参数。

可选的，所述输入识别模块704，包括：

可选的，所述解码单元，包括：

可选的，所述调整模块706，进一步被配置为在所述损失值小于预设阈值的情况下，停止调整所述图像识别模型的模型参数和注意力调整机制参数。

本申请提供的图像识别模型的训练装置，在每次编码过程中，通过统计每个局部特征区域的关注次数，并结合注意力参数向量，计算上一次编码过程中注意力分布的衰减率，并根据上一次的注意力分布和注意力分布的衰减率，获取当前次的注意力分布。保证在图像识别过程中，能完整有效地关注样本图像的局部特征区域，避免重复关注样本图像的同一局部特征区域，提高图像识别模型识别样本图像的准确率，通过样本图像的描述信息和标准描述信息计算损失值，并用损失值调整所述图像识别模型的模型参数和注意力调整机制参数，更进一步的加快图像识别模型的训练效率。

与上述图像识别方法实施例相对应，本申请还提供了图像识别装置实施例，图8示出了本申请一个实施例的图像识别装置的结构示意图。如图8所示，该装置包括：

第二获取模块802，被配置为获取待识别图像；

输入模块804，被配置为将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过根据权利要求1-6任意一项所述的图像识别模型训练方法得到的图像识别模型；

响应模块806，被配置为所述图像识别模型响应于所述待识别图像作为输入，根据模型的注意力调整机制获取所述待识别图像的描述信息。

可选的，所述图像识别模型包括编码端和解码端；

所述响应模块806，进一步被配置为将所述待识别图像输入至所述图像识别模型的编码端进行编码，获得所述待识别图像的局部特征向量集合和全局编码向量；根据所述待识别图像的局部特征向量集合获取注意力分布；将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述待识别图像的描述信息。

本申请提供的图像识别装置，将输入的待识别图像经过编码端的编码获得编码向量和注意力分布，再将编码向量输入到待识别图像的解码端，在解码端解码生成字符时，根据被训练好的模型的注意力调整机制调整所述注意力分布，降低已经注意过的特征区域的权重，能有效地关注图像完整的局部特征区域，提高图像识别模型的识别效率和准确率。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述的图像识别模型的训练方法或图像识别方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的图像识别模型的训练方法或图像识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像识别模型的训练方法或图像识别方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或图像识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

2.如权利要求1所述的图像识别模型的训练方法，其特征在于，将所述样本图像输入所述图像识别模型，根据模型的注意力调整机制获取所述样本图像的描述信息，包括：

根据所述样本图像的局部特征向量集合获取注意力分布；

3.如权利要求2所述的图像识别模型的训练方法，其特征在于，将所述全局编码向量输入至所述图像识别模型的解码端，根据模型的注意力调整机制调整所述注意力分布获取所述样本图像的描述信息，包括：

S34、根据所述解码字符集生成所述图像的描述信息。

4.如权利要求3所述的图像识别模型的训练方法，其特征在于，根据模型的注意力调整机制调整所述注意力分布，包括：

5.如权利要求3所述的图像识别模型的训练方法，其特征在于，根据所述注意力分布对所述全局编码向量进行解码，生成解码字符集，包括：

6.如权利要求1所述的图像识别模型的训练方法，其特征在于，还包括：

7.一种图像识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过根据权利要求1-6任意一项所述的图像识别模型训练方法得到的图像识别模型；

8.如权利要求7所述的图像识别方法，其特征在于，所述图像识别模型包括编码端和解码端；

根据所述待识别图像的局部特征向量集合获取注意力分布；

9.一种图像识别模型的训练装置，其特征在于，包括：

10.一种图像识别装置，其特征在于，包括：

第二获取模块，被配置为获取待识别图像；

输入模块，被配置为将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型是通过根据权利要求1-6任意一项所述的图像识别模型训练方法得到的图像识别模型；

11.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7-8任意一项所述方法的步骤。

12.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7-8任意一项所述方法的步骤。