CN110458243B

CN110458243B - 图像识别模型的训练方法及装置、图像识别方法及装置

Info

Publication number: CN110458243B
Application number: CN201910760045.1A
Authority: CN
Inventors: 史红亮; 廖敏鹏; 李长亮
Original assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Current assignee: Beijing Kingsoft Digital Entertainment Co Ltd; Chengdu Kingsoft Digital Entertainment Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2022-05-13
Anticipated expiration: 2039-08-16
Also published as: CN110458243A

Abstract

本申请提供图像识别模型的训练方法及装置、图像识别方法及装置，其中所述图像识别模型的训练方法包括：获取预训练的图像识别模型和样本数据，其中，所述样本数据包括图像和所述图像对应的真值序列；将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列；根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值；通过对所述损失值进行反向传播以训练所述图像识别模型。增强图像识别模型的训练，提高图像识别模型的训练效率。

Description

图像识别模型的训练方法及装置、图像识别方法及装置

技术领域

本申请涉及机器学习技术领域，特别涉及图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片。

背景技术

在实际应用中，很多时候需要通过图像识别模型获取图像的描述信息，例如识别图像中的内容生成表格或公式，识别图像的内容生成描述信息等。

在训练和使用图像识别模型时，通常会因为图像内容比较复杂，尤其是对于公式图像，对于大量复杂的数学公式，在图像识别模型的训练过程中，因为训练集图像中公式内容复杂，细节较多，例如有特殊的计算符号、复杂的嵌套公式等，识别难度大，从而造成训练难度大，训练时间长且效果差。由于训练效果差，导致在图像识别模型应用过程中，对于复杂数学公式的图像的识别会因为图片复杂，编辑难度大，识别度低，导致对图像的识别难度大，出现公式字符的错误识别问题，从而影响识别准确性。

那么如何提高图像识别模型的训练效率，提高图像识别的准确性，就成为目前亟待解决的问题。

发明内容

有鉴于此，本申请实施例提供了图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片，以解决现有技术中存在的技术缺陷。

根据本申请实施例的第一方面，提供了一种图像识别模型的训练方法，包括：

获取预训练的图像识别模型和样本数据，其中，所述样本数据包括图像和所述图像对应的真值序列；

将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列；

根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值；

通过对所述损失值进行反向传播以训练所述图像识别模型。

根据本申请实施例的第二方面，提供了一种图像识别方法，包括：

获取待识别图像；

将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息；

所述图像识别模型响应于所述待识别图像作为输入而获取所述待识别图像的描述信息。

根据本申请实施例的第三方面，提供了一种图像识别模型的训练装置，包括：

第一获取模块，被配置为获取预训练的图像识别模型和样本数据，其中，所述样本数据包括图像和所述图像对应的真值序列；

确定模块，被配置为将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列；

计算模块，被配置为根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值；

反向传播模块，被配置为通过对所述损失值进行反向传播以训练所述图像识别模型。

根据本申请实施例的第四方面，提供了一种图像识别装置，包括：

第二获取模块，被配置为获取待识别图像；

输入模块，被配置为将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息；

响应识别模块，被配置为所述图像识别模型响应于所述待识别图像作为输入而获取所述待识别图像的描述信息。

根据本申请实施例的第五方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

根据本申请实施例的第六方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

根据本申请实施例的第七方面，提供了一种芯片，其存储有计算机指令，该指令被芯片执行时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

本申请提供的图像识别模型的训练方法，通过获取预训练的图像识别模型和样本数据，其中，所述样本数据包括图像和所述图像对应的真值序列；将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列；根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值；通过对所述损失值进行反向传播以训练所述图像识别模型。在模型训练过程中，通过随机策略获取随机策略序列，确定策略获取确定策略序列，将复杂的图像内容转换为简单的字符序列，再将两种策略获取到的两种序列再与真值序列比较，获取与真值序列更接近的序列，字符序列之间的运算，减小了运算难度，节省了运算资源，再通过计算损失值并将损失值进行反向传播以训练图像识别模型调整权重，提升获得与真值序列更接近的序列的概率，最终提高图像识别模型的训练效率。

附图说明

图1是本申请实施例提供的计算设备的结构框图；

图2是本申请实施例提供的图像识别模型的训练方法的流程图；

图3a是本申请实施例提供的使用随机策略获取随机策略序列方法的流程图；

图3b是本申请实施例提供的使用随机策略获取随机策略序列方法的结构框图；

图4a是本申请实施例提供的使用确定策略获取确定策略序列方法的流程图；

图4b是本申请实施例提供的使用确定策略获取确定策略序列方法的结构框图；

图5是本申请实施例提供的图像识别方法的流程图；

图6是本申请实施例提供的图像识别模型生成图像描述信息方法的流程图；

图7是本申请实施例提供的图像识别模型的训练装置的结构示意图；

图8是本申请实施例提供的图像识别装置的结构示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本发明一个或多个实施例涉及的名词术语进行解释。

强化学习(Reinforcement Learning)：通常由两部分组成，一个是智能体(agent)，另外一个是环境(environment)。环境指智能体执行动作(action)时所处的场景，智能体表示强化学习算法。环境首先向智能体发送一个状态(state)，然后智能体基于其知识采取动作来响应状态，之后，环境发送下一个状态，并把奖励(reward)返回给智能体。智能体用环境所返回的奖励来更新其知识，对上一个动作来评估。智能体与环境不断的交互从而产生更多的数据，强化学习算法利用产生的数据修改自身的动作策略，再与环境交互，经过数次迭代学习后，智能体能最终学到完成相应任务的最优动作。

策略(Policy)：指智能体(agent)的行为，是从state到action的映射，分为确定策略与随机策略，确定策略就是某一状态下的确定动作，随机策略以概率描述，即某一状态下执行这一动作的概率。

编辑距离(Edit Distance)：是指两个字符之间，从一个字符串变成另一个字符串所需要的最小编辑操作次数。

真值序列：图像识别模型对图像进行识别后输出的准确的描述信息。

随机策略序列：图像识别模型对图像进行识别并使用随机策略生成的图像描述信息。

确定策略序列：图像识别模型对图像进行识别并使用确定策略生成的图像描述信息。

在本申请中，提供了图像识别模型的训练方法及装置、图像识别方法及装置、计算设备、计算机可读存储介质和芯片，在下面的实施例中逐一进行详细说明。

图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本申请的一个实施例中，计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本申请范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示图像识别模型的训练方法中的步骤。

图2示出了根据本申请一实施例的图像识别模型的训练方法的流程图，包括步骤202至步骤208。

步骤202：获取预训练的图像识别模型和样本数据。

预训练的图像识别模型是深度学习架构，已经过训练以执行大量数据上的图像识别任务。使用预训练模型可以在解决图像识别的问题时不用从零开始训练一个新的模型，可以在已经经过训练的模型的基础上进行深度训练，提高训练模型的效率。

样本数据包括图像和所述图像对应的真值序列，图像可以是公式图像，可以是风景图像，可以是任务图像等，所述图像对应的真值序列即为图像经过图像识别模型进行识别后输出的准确的描述信息。例如以一个人物图像为例，图像为一位老师在讲课，该人物图像对应的真值序列为“一名老师在讲课”；以一个风景图片为例，图像为一座高山，该风景图像对应的真值序列为“一座高山”。

在本申请的实施例中，以公式图像为例，图像中的公式为

该公式图像对应的真值序列为“y＝\sum_(i＝1)^{3}2x^i”。

步骤204：将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列。

将样本数据中的图像输入到预训练的图像识别模型中，使用随机策略在生成的候选词中选择组成最终序列的词，获取随机策略序列，使用确定策略在生成的候选词中选择组成最终序列的词，获取确定策略序列。

所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息，在获取所述描述信息的过程中，所述图像识别模型根据输入的图像依次获取所述描述信息的每个字符，在每次获取字符时会生成该字符的多个候选字符和每个候选字符的概率，并在多个候选字符中选取一个字符作为最终的输出字符。

在多个候选字符中选取相应的字符时，通过随机方式选取字符作为最终的输出字符，从而获得图像描述信息的策略叫做随机策略，通过随机策略获取的图像描述信息为随机策略序列。

在多个候选字符中选取相应的字符时，通过确定方式选取字符作为最终的输出字符，从而获得图像描述信息的策略叫做确定策略，所述确定方式即选取多个候选字符中概率最大的候选字符作为最终输出字符，通过确定策略获取的图像描述信息为确定策略序列。

随机策略序列与确定策略序列为同一个图像的描述信息，都是简单的字符序列，两者的获取方式不同，在模型训练阶段使用随机策略序列是因为在获取图像描述信息时，确定策略序列可能不是最好的结果，随机策略序列会比确定策略序列更接近真值序列，所以需要提升获取随机策略序列的概率，修正模型的参数权重，以便更好的训练图像识别模型。

可选的，参见图3a，使用随机策略获取随机策略序列可通过下述步骤302至步骤310实现。

步骤302：将所述图像在所述图像识别模型的编码端进行编码，获得所述图像的编码向量。

预训练的图像识别模型的编码端接收样本数据中的图像，并将所述图像进行编码，获得所述图像的编码向量。

在本申请的实施例中，以公式图像为例，将图像中的公式为

输入到图像识别模型中，图像识别模型的编码端接收到公式图像，并将公式图像进行编码，获得公式图像的编码向量。

步骤304：将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集。

将步骤302中的编码向量输入到所述图像识别模型的解码端，所述图像识别模型的解码端对所述编码向量进行解码，将解码获得的可能的字符组成解码字符集。

在本申请的实施例中，以公式图像为例，在解码第一个字符时，候选字符有[x，y，z]，概率分别为[0.2，0,3，0.5]，因此第一个字符的字符集为[x(0.2)，y(0.3)，z(0.5)]，在解码第二个字符时，候选字符有[＝，>，<]，概率分别为[0.8，0,1，0.1]，因此第二个字符的字符集为[＝(0.8)，>(0.1)，<(0.1)]。

步骤306：使用随机策略在所述解码字符集中随机选取解码字符。

使用随机策略在解码字符集中选取解码字符，在选取解码字符的过程中，根据解码字符集中每个候选字符的权重，随机选取一个候选字符作为解码字符。

在本申请的实施例中，在第一个字符的候选字符集中选取“x(0.2)”作为第一个字符的解码字符，在第二个字符的候选字符集中选取“>(0.1)”作为第二个字符的解码字符，以此类推，使用随机策略在解码字符集中随机选取候选字符作为解码字符。

步骤308：判断所述图像识别模型的解码端是否完成解码，若是，则执行步骤310，若否，执行步骤302。

判断所述图像识别模型的解码端是否完成对所述图像的编码向量的解码，如果解码已经完成则执行步骤310，如果解码还没有完成则执行步骤302。

步骤310：根据随机选取的解码字符生成随机策略序列。

将根据步骤306中的随机策略选取的解码字符组合，生成随机策略序列。

在本申请的实施例中，参见图3b，h₀，c₀为LSTM模型初始的隐状态和细胞状态，<start>为解码向量的初始参考解码向量，p_θ(w|h₁)表示本次生成的解码字符集，

为本次选取的解码字符，

为随机策略序列，将根据随机策略选取的每个解码字符组合，生成随机策略序列为：“x>\sum_(i＝1)^{3}2x^i”。

可选的，参见图4a，使用确定策略获取确定策略序列可通过下述步骤402至步骤410实现。

步骤402至步骤404的具体操作方法与步骤302至步骤304相同，在此就不在赘述。

步骤406：使用确定策略在所述解码字符集中选取最大概率的解码字符。

使用确定策略在解码字符集中选取解码字符，确定策略即为在选取字符过程中，在解码字符集的候选字符中选取概率最大的候选字符为解码字符。

在本申请的实施例中，在第一个字符的候选字符集中选取“z(0.5)”作为第一个字符的解码字符，在第二个字符的候选字符集中选取“＝(0.8)”作为第二个字符的解码字符，以此类推，使用确定策略在解码字符集中选取概率最大的候选字符作为解码字符。

步骤408：判断所述图像识别模型的解码端是否完成解码，若是，则执行步骤410，若否，执行步骤402。

判断所述图像识别模型的解码端是否完成对所述图像的编码向量的解码，如果解码已经完成则执行步骤410，如果解码还没有完成则执行步骤402。

步骤410：根据最大概率选取的解码字符生成确定策略序列。

将根据步骤406中的确定策略选取的解码字符组合，生成确定策略序列。

在本申请的实施例中，参见图4b，h′₀，c′₀为LSTM模型初始的隐状态和细胞状态，<start>为解码向量的初始参考解码向量，p_θ(w|h′₁)表示本次生成的解码字符集，

为本次选取的解码字符，

为确定策略序列，将根据确定策略选取的每个解码字符组合，生成确定策略序列为：“z＝\sun_(i＝1)^{3}2x^l”。

可选的，将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集，包括：

将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据所述参考编码向量和所述图像的编码向量生成当前次的解码字符集。

在解码过程中，每个字符在解码生成解码字符集时，都会将上一个选好的字符作为参考编码向量输入至所述图像识别模型的解码端，解码端根据参考编码向量和图像的编码向量生成当前字符的解码字符集。

步骤206：根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值。

可选的步骤206可以通过下述步骤S2061至S2063实现。

S2061、将所述随机策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取随机策略奖励。

编辑距离指从一个字符串变成另一个字符串所需要的最小编辑操作次数，通过编辑距离计算奖励，即为编辑距离越小，说明编辑次数越少，那获得的奖励就越大。根据随机策略序列和样本数据中图像对应真值序列通过编辑距离计算奖励，获取所述随机策略序列的随机策略奖励。

在本申请的实施例中，随机策略序列为“x>\sum_(i＝1)^{3}2x^i”，真值序列为“y＝\sum_(i＝1)^{3}2x^i”，从随机策略序列变成真值序列需要改动2个字符，即将“x>”改为“y＝”。真值序列的字符数为20个，改动数为2，因此随机策略奖励为18。

S2062、将所述确定策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取确定策略奖励。

在本申请提供的实施例中，确定策略序列为“z＝\sun_(i＝1)^{3}2x^l”，真值序列为“y＝\sum_(i＝1)^{3}2x^i”，从随机策略序列变成真值序列需要改动3个字符，即将“x”、“n”、“l”改为“y”、“m”、“i”。真值序列的字符数为20个，改动数为3，因此随机策略奖励为17。

S2063、根据所述随机策略奖励、所述确定策略奖励和所述随机策略序列计算损失值。

根据所述随机策略奖励、所述确定策略奖励和所述随机策略序列通过公式(1)计算损失值。

其中，r(w^s)为随机策略奖励，r(w^∧)为确定策略奖励，w^s为随机策略序列，

为对每个字符概率对数的和计算梯度，如果不进行对数计算而直接计算梯度，会出现当序列太长时，pθ的值将会非常接近于0的情况，不利于计算损失值。

步骤208：通过对所述损失值进行反向传播以训练所述图像识别模型。

可选的，在损失值大于预设阈值范围最大值的情况下，所述随机策略奖励大于所述确定策略奖励，所述图像识别模型增加获取随机策略解码序列的参数权重。

在损失值大于预设阈值范围的最大值的情况下，说明所述随机策略奖励大于所述确定策略奖励，从而说明随机策略序列相比于确定策略序列而言更接近于真值序列，因此需要增加获取随机策略序列的参数权重。

可选的，在损失值小于预设阈值范围最小值的情况下，所述随机策略奖励小于所述确定策略奖励，所述图像识别模型减少获取随机策略解码序列的参数权重。

在损失值小于预设阈值范围的最小值的情况下，说明所述随机策略奖励小于所述确定策略奖励，从而说明确定策略序列相比于随机策略序列而言更接近于真值序列，因此需要减少获取随机策略序列的参数权重。

可选的，在损失值在预设阈值范围内的情况下，停止训练所述图像识别模型。

当样本数据集中的全部样本数据训练的次数达到预设次数的情况下，暂停训练所述图像识别模型，判断此时的损失值是否在预设阈值的范围内，如果损失值不在预设阈值的范围内，说明图像识别模型的训练还没有达到效果，需要继续训练，如果损失值在预设阈值的范围内，则停止模型训练。

本申请提供的图像识别模型的训练方法，将样本数据的图像通过使用随机策略选取随机策略序列，使用确定策略选取确定策略序列，将复杂的图像内容转换为简单的字符序列，再分别计算随机策略序列和确定策略序列与样本数据中的真值序列的编辑距离，字符序列之间的运算，减小了运算难度，节省了运算资源，编辑距离小的说明与真值序列更接近，更符合训练需要达到的目的，因此编辑距离小的序列获得的奖励更大，通过调整选取随机策略序列的权重，提升获得与真值序列更接近的序列的概率，强化训练模型，提高图像识别模型的训练效率。

图5示出了根据本申请一实施例的图像识别方法的流程图，包括步骤502至步骤506。

步骤502：获取待识别图像。

待识别图像就是等待别识别的图像，可以是从互联网中获取，也可以是预先存储于设备中，获取待识别的图像。

步骤504：将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息。

将获取的待识别图像输入到被预先训练好的图像识别模型中，所述被预先训练好的图像识别模型被训练于根据输入的图像，获取所述图像的描述信息。

在本申请的实施中，以公式图像为例，将公式图像输入到预先被训练好的图像识别模型中。

步骤506：所述图像识别模型响应于所述待识别图像作为输入而获取所述待识别图像的描述信息。

可选的，所述图像识别模型包括编码端和解码端，参见图6，步骤506可通过下述步骤602至步骤608实现。

步骤602：所述编码端接收待识别所述待识别图像，将所述待识别图像在所述图像识别模型的编码端进行编码，获得所述待识别图像的编码向量。

所述图像识别模型包括编码端和解码端，所述解码端接收输入的待识别图像，对所述待识别图像进行编码，获得所述待识别图像的编码向量，并将所述编码向量输入至所述图像识别模型的解码端。

步骤604：所述解码端接收所述待识别图像的编码向量，将所述待识别图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集。

可选的，将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据参考编码向量和所述待识别图像的编码向量生成当前次的解码字符集。

所述图像识别模型的解码端接收所述待识别图像的编码向量，并对所述编码向量进行解码，在每一次的解码过程中，解码端接收上一次解码输出的解码向量作为本次参考编码向量，结合待识别图像的编码向量，生成本次解码字符集，将上一次的解码输出的解码向量作为本次参考编码向量，可以更准确地为生成本次解码字符集中的候选字符提供参考，提高解码端的工作效率。

步骤606：在所述解码字符集中选取最大概率的解码字符。

预先被训练好的图像识别模型，在所述解码字符集中只选取当前字符集中最大概率的字符作为解码字符，这样最终的解码序列会更接近于真实的图片描述信息，使最终的输出受到图像识别模型的控制。

步骤608：根据选取的最大概率的解码字符生成并输出所述待识别图像的描述信息。

根据每次在解码字符集中选取的解码字符生成最终的解码序列，并将所述解码序列输出为所述待识别图像的描述信息。

本申请提供的图像识别方法，将输入的待识别图像经过编码端的编码获得编码向量，再将编码向量输入到待识别图像的解码端，在解码端解码生成字符时，在通过解码获得的解码字符集中选择概率最高的待选字符作为最终的字符。提升了图像识别模型的识别准确性，提高了图像识别效率。

与上述图像识别模型的训练方法实施例相对应，本申请还提供了图像识别模型的训练装置实施例，图7示出了本申请一个实施例的图像识别模型的训练装置的结构示意图。如图7所示，该装置包括：

第一获取模块702，被配置为获取预训练的图像识别模型和样本数据，其中，所述样本数据包括图像和所述图像对应的真值序列。

确定模块704，被配置为将所述样本数据中的图像输入所述图像识别模型，使用随机策略获取随机策略序列，使用确定策略获取确定策略序列。

可选的，所述确定模块704，包括：

编码子单元，被配置为将所述图像在所述图像识别模型的编码端进行编码，获得所述图像的编码向量。

解码子单元，被配置为将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集。

随机选取子单元，被配置为使用随机策略在所述解码字符集中随机选取解码字符。

判断子单元，被配置为判断所述图像识别模型的解码端是否完成解码。

生成随机序列子单元，被配置为根据随机选取的解码字符生成随机策略序列。

可选的，所述确定模块704，包括：

编码子单元，被配置为将所述图像在所述图像识别模型的编码端进行编码，获得所述图像的编码向量；

解码子单元，被配置为将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集；

确定选取子单元，被配置为使用确定策略在所述解码字符集中选取最大概率的解码字符；

判断子单元，被配置为判断所述图像识别模型的解码端是否完成解码；

生成确定序列子单元，被配置为根据最大概率选取的解码字符生成确定策略序列。

可选的，所述确定模块704中的解码子单元进一步被配置为将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据所述参考编码向量和所述图像的编码向量生成当前次的解码字符集。

计算模块706，被配置为根据所述随机策略序列、所述确定策略序列和所述样本数据中图像对应的真值序列计算损失值。

可选的，所述计算模块706，进一步被配置为将所述随机策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取随机策略奖励；将所述确定策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取确定策略奖励；根据所述随机策略奖励、所述确定策略奖励和所述随机策略序列计算损失值。

反向传播模块708，被配置为通过对所述损失值进行反向传播以训练所述图像识别模型。

可选的，所述反向传播模块708，进一步被配置为在损失值大于预设阈值范围最大值的情况下，所述随机策略奖励大于所述确定策略奖励，所述图像识别模型增加获取随机策略解码序列的参数权重；在损失值小于预设阈值范围最小值的情况下，所述随机策略奖励小于所述确定策略奖励，所述图像识别模型减少获取随机策略解码序列的参数权重。

可选的，所述反向传播模块708，进一步被配置在损失值在预设阈值范围内的情况下，停止训练所述图像识别模型。

本申请提供的图像识别模型的训练装置，将样本数据的图像通过使用随机策略选取随机策略序列，使用确定策略选取确定策略序列，分别计算随机策略序列和确定策略序列与样本数据中的真值序列的编辑距离，编辑距离小的说明与真值序列更接近，更符合训练需要达到的目的，因此编辑距离小的序列获得的奖励更大，通过调整选取随机策略序列的权重，用来强化训练模型，提高模型的训练效率。

与上述图像识别方法实施例相对应，本申请还提供了图像识别装置实施例，图8示出了本申请一个实施例的图像识别装置的结构示意图。如图8所示，该装置包括：

第二获取模块802，被配置为获取待识别图像。

输入模块804，被配置为将所述待识别图像输入预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息。

响应识别模块806，被配置为所述图像识别模型响应于所述待识别图像作为输入而获取所述待识别图像的描述信息。

可选的，所述响应识别模块806，进一步被配置为所述编码端接收待识别所述待识别图像，将所述待识别图像在所述图像识别模型的编码端进行编码，获得所述待识别图像的编码向量；所述解码端接收所述待识别图像的编码向量，将所述待识别图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集；在所述解码字符集中选取最大概率的解码字符；根据选取的最大概率的解码字符生成并输出所述待识别图像的描述信息。

可选的，所述响应识别模块806，进一步被配置为将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据参考编码向量和所述待识别图像的编码向量生成当前次的解码字符集。

本申请提供的图像识别装置，将输入的待识别图像经过编码端的编码获得编码向量，再将编码向量输入到待识别图像的解码端，在解码端解码生成字符时，在通过解码获得的解码字符集中选择概率最高的待选字符作为最终的字符。提升了图像识别模型的识别准确性，提高了图像识别效率。

本申请一实施例中还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述图像识别模型的训练方法或所述图像识别方法的步骤。

本申请一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或所述图像识别方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述图像识别模型的训练方法或所述图像识别方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述图像识别模型的训练方法或所述图像识别方法的技术方案的描述。

本申请实施例公开了一种芯片，其存储有计算机指令，该指令被处理器执行时实现如前所述图像识别模型的训练方法或所述图像识别方法的步骤。

上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本申请的内容，可作很多的修改和变化。本申请选取并具体描述这些实施例，是为了更好地解释本申请的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种图像识别模型的训练方法，其特征在于，包括：

将所述随机策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取随机策略奖励；

将所述确定策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取确定策略奖励；

根据所述随机策略奖励、所述确定策略奖励和所述随机策略序列计算损失值；

通过对所述损失值进行反向传播以训练所述图像识别模型。

2.如权利要求1所述的图像识别模型的训练方法，其特征在于，使用随机策略获取随机策略序列，包括：

S21、将所述图像在所述图像识别模型的编码端进行编码，获得所述图像的编码向量；

S22、将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集；

S23、使用随机策略在所述解码字符集中随机选取解码字符；

S24、判断所述图像识别模型的解码端是否完成解码，若是，则执行S25，若否，执行S21；

S25、根据随机选取的解码字符生成随机策略序列。

3.如权利要求1所述的图像识别模型的训练方法，其特征在于，使用确定策略获取确定策略序列，包括：

S31、将所述图像在所述图像识别模型的编码端进行编码，获得所述图像的编码向量；

S32、将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集；

S33、使用确定策略在所述解码字符集中选取最大概率的解码字符；

S34、判断所述图像识别模型的解码端是否完成解码，若是，则执行S35，若否，执行S31；

S35、根据最大概率选取的解码字符生成确定策略序列。

4.如权利要求2或3所述的图像识别模型的训练方法，其特征在于，将所述图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集，包括：

5.如权利要求1所述的图像识别模型的训练方法，其特征在于，通过对所述损失值进行反向传播以训练所述图像识别模型，包括：

在损失值大于预设阈值范围最大值的情况下，所述随机策略奖励大于所述确定策略奖励，所述图像识别模型增加获取随机策略解码序列的参数权重；

在损失值小于预设阈值范围最小值的情况下，所述随机策略奖励小于所述确定策略奖励，所述图像识别模型减少获取随机策略解码序列的参数权重。

6.如权利要求1所述的图像识别模型的训练方法，其特征在于，通过对所述损失值进行反向传播以训练所述图像识别模型，包括：

在损失值在预设阈值范围内的情况下，停止训练所述图像识别模型。

7.一种图像识别方法，其特征在于，包括：

获取待识别图像；

将所述待识别图像输入利用如权利要求1-6任意一项所述的图像识别模型训练方法预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息；

8.如权利要求7所述的图像识别方法，其特征在于，所述图像识别模型包括编码端和解码端；

所述图像识别模型响应于所述待识别图像作为输入而获取所述待识别图像的描述信息，包括：

所述编码端接收待识别所述待识别图像，将所述待识别图像在所述图像识别模型的编码端进行编码，获得所述待识别图像的编码向量；

所述解码端接收所述待识别图像的编码向量，将所述待识别图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集；

在所述解码字符集中选取最大概率的解码字符；

根据选取的最大概率的解码字符生成并输出所述待识别图像的描述信息。

9.如权利要求8所述的图像识别方法，其特征在于，将所述待识别图像的编码向量在所述图像识别模型的解码端进行解码，生成解码字符集，包括：

将上一次的输出作为参考编码向量输入至所述图像识别模型的解码端，解码端根据参考编码向量和所述待识别图像的编码向量生成当前次的解码字符集。

10.一种图像识别模型的训练装置，其特征在于，包括：

计算模块，被配置为将所述随机策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取随机策略奖励；将所述确定策略序列和所述样本数据中图像对应的真值序列通过编辑距离计算奖励，获取确定策略奖励；根据所述随机策略奖励、所述确定策略奖励和所述随机策略序列计算损失值；

11.如权利要求10所述的图像识别模型的训练装置，其特征在于，

所述确定模块，包括：

随机选取子单元，被配置为使用随机策略在所述解码字符集中随机选取解码字符；

12.一种图像识别装置，其特征在于，包括：

第二获取模块，被配置为获取待识别图像；

输入模块，被配置为将所述待识别图像输入利用如权利要求1-6任一项所述的图像识别模型训练方法预先训练好的图像识别模型，所述图像识别模型被训练于根据输入的图像获取所述图像的描述信息；

13.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-6或者7-9任意一项所述方法的步骤。

14.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-6或者7-9任意一项所述方法的步骤。

15.一种芯片，其存储有计算机指令，其特征在于，该指令被芯片执行时实现权利要求1-6或者7-9任意一项所述方法的步骤。