CN114049634B

CN114049634B - 一种图像识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114049634B
Application number: CN202210029856.6A
Authority: CN
Inventors: 张芯韵; 沈小勇; 吕江波
Original assignee: Beijing Simou Intelligent Technology Co ltd; Shenzhen Smartmore Technology Co Ltd
Current assignee: Beijing Simou Intelligent Technology Co ltd; Shenzhen Smartmore Technology Co Ltd
Priority date: 2022-01-12
Filing date: 2022-01-12
Publication date: 2022-05-13
Anticipated expiration: 2042-01-12
Also published as: CN114049634A

Abstract

本申请涉及一种图像识别方法、装置和计算机设备。方法包括：获取训练图像；获取第一字符图像以及第二字符图像；第一字符图像和训练图像进行拼接，得第一拼接图像；第二字符图像和训练图像进行拼接，得第二拼接图像；待训练的图像识别模型对第一拼接图像进行特征提取，得第一拼接图像中各个字符分别对应的第一特征向量；待训练的图像识别模型对第二拼接图像进行特征提取，得第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与第一向量距离成正相关关系；模型损失值调整模型参数，得已训练的模型。本方法能够提高图像识别的准确率。

Description

一种图像识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及人工智能技术领域，特别是涉及一种图像识别方法、装置、计算机设备和存储介质。

背景技术

随着人工智能技术的发展，出现了图像识别技术，随着该技术的广泛使用，越来越多的领域用上了图像识别，例如识别图像中的字符。

对于模糊不清的图片，该方法存在一个很大问题，进行图像识别的时候经常会出现识别错误，漏识别和乱码的情况，特别是大量识别的时候，出现上述问题的地方将会很多，需要人工去复查，修改识别的错误，增加人员的负担，造成了文字识别的准确率低，效率不高。

发明内容

基于此，有必要针对上述技术问题，提供一种能够图像识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种图像识别方法。所述方法包括：获取训练图像；获取第一字符图像以及第二字符图像；将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像；将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到模型损失值，所述模型损失值与所述第一向量距离成正相关关系；基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

在其中一个实施例中，所述获取第一字符图像以及第二字符图像包括：基于第一字符重新排序策略对所述训练图像中的字符进行排序，将排序得到的图像作为所述第一字符图像；基于第二字符重新排序策略对所述训练图像中的字符进行排序，将排序得到图像作为所述第二字符图像。

在其中一个实施例中，所述图像识别模型包括特征提取层以及字符分类层，通过所述特征提取层进行特征提取，所述基于所述第一向量距离得到模型损失值包括：基于所述第一向量距离得到特征提取损失值，所述特征提取损失值与所述第一向量距离成正相关关系；将所述第一特征向量和所述第二特征向量分别输入字符分类层，基于所述字符分类层分类得到的分类概率得到字符分类层损失值；对所述特征提取损失值和所述字符分类层损失值进行加权计算，得到所述模型损失值。

在其中一个实施例中，所述对所述特征提取损失值和字符分类层损失值进行加权计算，得到所述模型损失值包括：获取所述特征提取损失值的比重和所述字符分类层损失值的比重，所述字符分类层损失值的比重大于所述特征提取损失值的比重；将所述特征提取损失值的比重与所述特征提取损失值相乘，得到第一损失值；将所述字符分类层损失值的比重与所述字符分类层损失值相乘，得到第二损失值；对所述第一损失值和第二损失值进行求和计算，得到所述模型损失值。

在其中一个实施例中，所述基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型包括：基于所述特征提取损失值对所述特征提取层的参数进行调整，得到已训练的特征提取层；基于所述字符分类损失值对所述字符分类层的参数进行调整，得到已训练的字符分类层；基于所述已训练的特征提取层和所述已训练的字符分类层，得到已训练的所述图像识别模型。

在其中一个实施例中，所述基于所述第一向量距离得到模型损失值包括：基于所述第一向量距离得到相同字符损失值，所述相同字符损失值与所述第一向量距离正相关关系；计算不同字符对应的所述第一特征向量与所述第二特征向量之间的第二向量距离；基于所述第二向量距离得到不同字符损失值，所述不同字符损失值与所述第二向量距离负相关关系；对所述相同字符损失值以及所述不同字符损失值进行求和计算，得到所述模型损失值。

第二方面，本申请还提供了一种图像识别装置。所述装置包括：训练图像获取模块，用于获取训练图像；字符图像获取模块，用于获取第一字符图像以及第二字符图像；拼接图像得到模块，用于将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像，将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像；特征向量得到模块，用于基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量，基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；模型损失值得到模块，用于计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于所述第一向量距离得到模型损失值，所述模型损失值与所述向量距离成正相关关系；图像识别模型得到模块，用于基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

在其中一个实施例中，字符图像获取模块，用于：基于第一字符重新排序策略对所述训练图像中的字符进行排序，将排序得到的图像作为所述第一字符图像；基于第二字符重新排序策略对所述训练图像中的字符进行排序，将排序得到图像作为所述第二字符图像。

在其中一个实施例中，所述图像识别模型包括特征提取层以及字符分类层，通过所述特征提取层进行特征提取，模型损失值得到模块，用于：基于所述第一向量距离得到特征提取损失值，所述特征提取损失值与所述第一向量距离成正相关关系；将所述第一特征向量和所述第二特征向量分别输入字符分类层，基于所述字符分类层分类得到的分类概率得到字符分类层损失值；对所述特征提取损失值和所述字符分类层损失值进行加权计算，得到所述模型损失值。

在其中一个实施例中，模型损失值得到模块，用于：获取所述特征提取损失值的比重和所述字符分类层损失值的比重，所述字符分类层损失值的比重大于所述特征提取损失值的比重；将所述特征提取损失值的比重与所述特征提取损失值相乘，得到第一损失值；将所述字符分类层损失值的比重与所述字符分类层损失值相乘，得到第二损失值；对所述第一损失值和第二损失值进行求和计算，得到所述模型损失值。

在其中一个实施例中，图像识别模型得到模块，用于：基于所述特征提取损失值对所述特征提取层的参数进行调整，得到已训练的特征提取层；基于所述字符分类损失值对所述字符分类层的参数进行调整，得到已训练的字符分类层；基于所述已训练的特征提取层和所述已训练的字符分类层，得到已训练的所述图像识别模型。

在其中一个实施例中，模型损失值得到模块，用于：基于所述第一向量距离得到相同字符损失值，所述相同字符损失值与所述第一向量距离正相关关系；计算不同字符对应的所述第一特征向量与所述第二特征向量之间的第二向量距离；基于所述第二向量距离得到不同字符损失值，所述不同字符损失值与所述第二向量距离负相关关系；对所述相同字符损失值以及所述不同字符损失值进行求和计算，得到所述模型损失值。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：获取训练图像；获取第一字符图像以及第二字符图像；将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像；将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到模型损失值，所述模型损失值与所述第一向量距离成正相关关系；基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：获取训练图像；获取第一字符图像以及第二字符图像；将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像；将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到模型损失值，所述模型损失值与所述第一向量距离成正相关关系；基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：获取训练图像；获取第一字符图像以及第二字符图像；将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像；将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到模型损失值，所述模型损失值与所述第一向量距离成正相关关系；基于所述模型损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

上述图像识别方法、装置、计算机设备、存储介质和计算机程序产品，通过获取训练图像；获取第一字符图像以及第二字符图像；将第一字符图像和训练图像进行拼接，得到第一拼接图像；将第二字符图像和训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对第一拼接图像进行特征提取，得到第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的图像识别模型对第二拼接图像进行特征提取，得到第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与第一向量距离成正相关关系；基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型。通过训练图像获得两组字符图像，对两组字符图像和训练图像进行拼接，得到两组拼接图像，拼接后的拼接图像相比训练图像具有增强字符在不同语意上下文的效果，基于这两组拼接图像提取它们的特征，得到了这两组拼接图像中各个字符的特征向量，然后对这两组特征向量进行运算，得到两组特征向量的距离，并且通过向量的距离得到模型损失值，因为第一向量距离和模型损失值具有正相关关系，相同字符的对应的特征向量距离越小，损失值越小，因此通过调整模型的参数，使得图像识别模型针对不同图像或者相同图像中的相同的字符，所识别得到的特征向量越来越相似，故提高了模型参数的准确性，获得训练好的图像识别模型，能够使图像识别准确率提高。

附图说明

图1为一个实施例中图像识别方法的应用环境图；

图2为一个实施例中图像识别方法的流程示意图；

图3为串联的注意力机制的解码器示意图；

图4为并联的注意力机制的解码器示意图；

图5为图像识别模型的识别效果示意图；

图6为一个实施例中图像识别步骤的流程示意图；

图7为一个实施例中图像识别步骤的流程示意图；

图8为一个实施例中图像识别步骤的流程示意图；

图9为一个实施例中图像识别步骤的流程示意图；

图10为一个实施例中图像识别步骤的流程示意图；

图11为对比损失原理示意图；

图12为一个实施例图像识别装置的结构框图；

图13为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的图像识别方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上，也可以放在云上或其他网络服务器上。终端102接收训练操作，响应于该操作，向服务器发送训练指令，服务器104通过获取训练图像；进而获取第一字符图像以及第二字符图像；将第一字符图像和训练图像进行拼接，得到第一拼接图像；将第二字符图像和训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对第一拼接图像进行特征提取，得到第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的图像识别模型对第二拼接图像进行特征提取，得到第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与向量距离成正相关关系；基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种图像识别方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤S202，获取训练图像。

其中，训练图像可以是用作训练人工智能模型的图像，使用该图像训练人工智能模型能使人工智能模型的参数优化，损失值变小。

具体地，服务器获取多个需要用来训练模型的图像。

在一个实施例中，摄像头拍摄了一个广告牌照片，需要用这张照片训练图像识别模型，则服务器从摄像头终端获取该照片。

步骤S204，获取第一字符图像以及第二字符图像。

其中，字符图像中包括一个或者多个字符，一个字符可以是一个数字、一个字母或者一个含有语义的文字。字符图像可以是服务器内部预设用做模型训练的图像，也可以是基于训练图像得到的重新排序的图像，第一字符图像以及第二字符图像可以是训练图像中的字符进行两次重新排序所得到的图像，第一次重新排序得到的图像叫做第一字符图像，第二次重新排序得到的图像叫做第二字符图像，如果两次重新排序得到相同的字符图像，则后续的拼接不一样。

具体的，对训练图像的字符进行两次重新排序，得到两个不同的字符图像，两个字符图像的排序不一样。

在一个实施例中，训练图像中的字符依次为A、B和C，重新排序后得到两个不同的图像的字符依次为“C、B和A”以及“B、C和A”。

步骤S206，将第一字符图像和训练图像进行拼接，得到第一拼接图像。

其中，拼接可以是把第一字符图像和训练图像合成为一个图像，该拼接为水平拼接，拼接后可以是第一字符图像在前，训练图像在后，也可以训练图像在前，第一字符图像在后；第一拼接图像是第一字符图像和训练图像合成之后得到的图像。

具体的，把训练图像进行了重新排序后，得到的第一字符图像与训练图像进行拼接，合成具有两者的字符的一个新的图像。

在一个实施例中，第一字符图像的字符依次为C、B和A，而训练图像的字符依次为A、B和C，两者进行拼接后的第一拼接图像的字符依次为C、B、A、A、B、C或者A、B、C、C、B、A。

步骤S208，将第二字符图像和训练图像进行拼接，得到第二拼接图像。

其中，第二拼接图像可以是第二字符图像和训练图像合成之后的图像，它跟第一拼接图像可以是字符序列的不同，也可以是拼接方法的不同，也可以是两者都不同。

在一个实施例中，第一字符图像的字符依次为C、A和B，而训练图像的字符依次为A、B和C，两者进行拼接后的第一拼接图像的字符依次为C、A、B、A、B、C或者A、B、C、C、A、B。

步骤S210，基于待训练的图像识别模型对第一拼接图像进行特征提取，得到第一拼接图像中各个字符分别对应的第一特征向量。

其中，图像识别模型可以是可以被训练的人工智能模型，该模型可以为卷积神经网络（Convolutional Neural Networks, CNN），是一类包含卷积计算且具有深度结构的前馈神经网络，同时该模型包含特征提取层和字符分类层，特征提取层可以提取图像中的特征向量，而字符分类层根据识别后输出一个概率，然后服务器把图像归入某一个类别；特征提取可以是图像识别模型对图片的特征的地方进行提取，并用特征向量来表示；第一特征向量可以是从第一拼接图像中的各个字符提取出来的特征向量。特征向量是利用骨干神经网络提取特征，之后将得到的特征图送进基于注意力的解码器，得到每个字符对应的特征向量。骨干网络是采用了残差神经网络，在不同模块之前加入了残差连接，可以在训练时避免梯度消失的问题；注意力机制的解码器（Attention-based decoder）一共有两种实现方式，一种是串行的解码器，另一种是并行的解码器。串行的解码器一般是基于递归神经网络的结构，前次的解码输出作为后面的解码输入，从而实现一个串行的解码过程。并行的解码器有固定个数的查询向量，然后每个查询向量通过注意力解码器计算出一个对应的字符特征向量。串行的注意力机制的解码器如图3所示，F是特征图（feature map），‘S’是输入的字符，s_t和g_t是t时刻不同的两个特征。s_t经过转换之后得到g_t，g_t再预测得到第t个字符，LSTM是神经网络，‘EOS’是指识别结束，y_t-1是t-1时刻的字符的向量表示，‘T’是得到的字符。并行的注意力机制的解码器如图4所示，F是特征图（feature map），q1~q5是输入到注意力解码器的特征，g1~g5是输出的特征，“S”、“T”和“E”是输出的字符。

具体的，给待训练的图像识别模型输入一张经过拼接后的图片，拼接后的图片具有语义增强，该模型对拼接后的图片中的字符进行特征提取，得到拼接图片中的每一个字符的特征向量。

在一个实施例中，拼接后的图片字符依次为A、B、C、C、B、A，经过模型的特征提取后，用向量的方式来分别表示A、B、C、C、B、A这些字符的特征。即一个字符对应的一个第一特征向量，如果第一拼接图中有6个字符，则得到6个第一特征向量。

步骤S212，基于待训练的图像识别模型对第二拼接图像进行特征提取，得到第二拼接图像中各个字符分别对应的第二特征向量。

其中，第二特征向量可以是从第二拼接图像中提取出来的特征向量。

在一个实施例中，拼接后的图片字符依次为C、A、B、A、B、C，经过模型的特征提取后，用向量的方式来分别表示C、A、B、A、B、C这些字符的特征。

步骤S214，计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与第一向量距离成正相关关系。

其中，第一向量距离是同字符的第一特征向量和第二特征向量这两个向量进行运算后所得到的值，代表的是向量的距离；模型损失值（loss）越小，模型的可信度越高。

具体的，把同一个字符的第一特征向量和第二特征向量进行数学运算，运算结果为两个特征向量的距离，根据该距离的大小可以计算得到模型损失值，该损失值与第一向量距离成正相关，也就是第一向量距离越大，模型损失值越大。特征向量的距离计算如（1）式所示：

其中，

代表两个特征向量

的欧氏距离（二范数），

表示样本的特征维数。

在一个实施例中，计算相同字符中第一特征向量和第二向量特征而得到的第一向量距离为D1，且基于第一向量距离得到模型损失值为L1，那么L1和D1的关系是属于正相关关系。

步骤S216，基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型。

其中，模型参数是模型内部的配置变量，可以用损失值调整它的值。

具体的，通过损失值，朝着使损失值变小的方向不断地调整模型参数，使得模型收敛，则得到需要的模型参数。计算损失值的公式如（2）式所示：

其中，

代表两个特征向量

的欧氏距离（二范数），

表示特征向量的特征维数，

为两个特征向量是否匹配的标签，

代表两个特征向量匹配，即特征向量均对应相同的字符为匹配，则

代表两个特征向量不匹配，

为设定的阈值，

为样本个数，例如为字符对的个数，

为基于向量距离所得到的损失值。

在一个实施例中，向量距离为D，而损失值为L，通过不断地对模型进行训练和调整模型参数，使得图像识别模型收敛，则该模型参数就确定下来，也得到了训练好的模型。如图5所示：Methods为模型名称，Training Data为训练数据，训练数据集为MJ[6]和ST[7]，测试数据集为IC13[8]，IC15[9]，IIIT[10]，SVT[11]，SVTP[12]，CUTE80[13] 以及OutText。其中OutText为合成数据集，训练后使用方法（ConCLR）结合上ABINet上得到了极大的提升。另外，在OutText上，本算法相比现有技术也有4.5%的提升，证明了其确实改善了模型的表现。

上述图像识别方法中，获取训练图像；获取第一字符图像以及第二字符图像；将第一字符图像和训练图像进行拼接，得到第一拼接图像；将第二字符图像和训练图像进行拼接，得到第二拼接图像；基于待训练的图像识别模型对第一拼接图像进行特征提取，得到第一拼接图像中各个字符分别对应的第一特征向量；基于待训练的图像识别模型对第二拼接图像进行特征提取，得到第二拼接图像中各个字符分别对应的第二特征向量；计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与第一向量距离成正相关关系；基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型。通过训练图像获得两组字符图像，对两组字符图像和训练图像进行拼接，得到两组拼接图像，拼接后的拼接图像相比训练图像具有增强字符在不同语意上下文的效果，基于这两组拼接图像提取它们的特征，得到了这两组拼接图像中各个字符的特征向量，然后对这两组特征向量进行运算，得到两组特征向量的距离，并且通过向量的距离得到模型损失值，因为第一向量距离和模型损失值具有正相关关系，相同字符的对应的特征向量距离越小，损失值越小，因此通过调整模型的参数，使得图像识别模型针对不同图像或者相同图像中的相同的字符，所识别得到的特征向量越来越相似，故提高了模型参数的准确性，获得训练好的图像识别模型，能够使图像识别准确率提高。

在一个实施例中，如图6所示，获取第一字符图像以及第二字符图像包括：

步骤S302，基于第一字符重新排序策略对训练图像中的字符进行排序，将排序得到的图像作为第一字符图像。

其中，第一字符重新排序策略可以是对训练图像进行排序而获得第一字符图像的一种方式。

具体的，训练图像中有若干个按照固定顺序排列的字符，通过一定的排序方法进行重新排序，获得一个新的字符图像，该字符图像与训练字符图像可以是相同的排序，也可以是不同的排序。

在一个实施例中，训练图像中的字符依次为A、B、C，通过排序方法后进行重新排序，获得第一字符图像为C、B、A。

步骤S304，基于第二字符重新排序策略对训练图像中的字符进行排序，将排序得到图像作为第二字符图像。

其中，第二字符重新排序策略可以是对训练图像进行排序而获得第二字符图像的一种方法。

在一个实施例中，训练图像中的字符依次为A、B、C，通过排序方法后进行重新排序，获得第一字符图像为C、A、B。

本实施例中，通过训练图像进行重新排序，获得第一字符图像和第二字符图像，能够有助于后面进行拼接后得到不同语意用于训练识别模型。

在一个实施例中，如图7所示，图像识别模型包括特征提取层以及字符分类层，通过特征提取层进行特征提取，基于第一向量距离得到模型损失值包括：

步骤S402，基于第一向量距离得到特征提取损失值，特征提取损失值与第一向量距离成正相关关系。

具体的，将得到的第一向量距离代入到对比的公式（2）进行计算，可以得到特征提取损失值，从该公式可以得知，第一向量距离与损失值是呈正相关关系。

在一个实施例中，当第一向量距离为D1的时候，可以得到特征提取损失值为L1，当第一向量距离变小到D'时，特征提取损失值也相应变小到L'，同样当第一向量距离增大到D''时，特征提取损失值也相应增大到L''，

步骤S404，将第一特征向量和第二特征向量分别输入字符分类层，基于字符分类层分类得到的分类概率得到字符分类层损失值。

其中，字符分类层可以是把特征提取层中提取得到的特征进行分类，给出该字符的概率；分类概率可以是字符分类层里面进行分类后得出的每一个字符所对应的概率，字符分类层损失值可以是通过分类概率计算出来的值，该值跟分类概率呈负相关，分类概率越大，字符分类层损失值越小，可以使用交叉熵获得分类层损失值。

具体的，把第一特征向量和第二特征向量分别输入到字符分类层，字符分类层根据输入的特征向量进行识别，识别后会给出两个特征向量所包含的字符所对应的概率，通过这个概率获得分类层损失值。

在一个实施例中，第一特征向量和第二特征向量分别输入字符分类层，分类得到第一特征向量的字符的概率为0.8，损失值为F'，第二特征向量字符的概率为0.1，损失值为F''，则字符分类层的损失值为F=F'+F''。

步骤S406，对特征提取损失值和字符分类层损失值进行加权计算，得到模型损失值。

具体的，分别获取特征提取损失值和字符分类损失值的比重，然后把两个比重分别与特征提取损失值和字符分类损失值进行相乘，得到的积再进行相加，得到整个模型的损失值。

在一个实施例中，例如特征提取损失值是L，它的比重为0.2，而字符分类损失值是F，它的比重为1，则整个模型的损失值K=0.2L+1F。

本实施例中，通过特征提取层从第一向量距离计算中得到特征提取损失值，字符分类层从第一向量特征和第二向量特征计算到字符分类层损失值，并且把这两个损失值进行加权计算，能够从特征提取层和字符分类层加权后的损失值的参考中修改模型参数，获得更好的模型参数。通过对不同的损失值使用不同的比重进行加权，得到的加权值进行求和，得到这个模型的损失值，能够按照不同层所占有的模型损失值的比重进行分配，使得模型的参数调整具有更大的自由度，更容易获得适用的模型。

在一个实施例中，如图8所示，对特征提取损失值和字符分类层损失值进行加权计算，得到模型损失值包括：

步骤S502，获取特征提取损失值的比重和字符分类层损失值的比重，字符分类层损失值的比重大于特征提取损失值的比重。

具体的，预先设置特征提取损失值所占的比重，预先设置字符分类层损失值所占的比重，但是字符分类层损失值所占的比重要比特征提取损失值所占的比重要大。

在一个实施例中，给服务器中的模型的特征特区损失值输入的比重是0.5，而字符分类层损失值输入的比重为0.9。

步骤S504，将特征提取损失值的比重与特征提取损失值相乘，得到第一损失值。

其中第一损失值可以是特征提取损失值和它所对应的比重相乘得到的结果，例如：比重为0.7，特征提取损失值为L，则第一损失值为0.7L。

具体的，输入特征提取损失值的比重，然后让特征提取损失值与它对应的比重进行相乘运算，获取计算的结果。

步骤S506，将字符分类层损失值的比重与字符分类层损失值相乘，得到第二损失值。

其中第二损失值可以是字符分类层损失值和它所对应的比重相乘得到的结果，例如：比重为1.0，字符分类层损失值为F，则第二损失值为1.0F。

具体的，输入字符分类层损失值的比重，然后让字符分类层损失值与它对应的比重进行相乘运算，获取计算的结果。

步骤S508，对第一损失值和第二损失值进行求和计算，得到模型损失值。

具体的，将于对应的损失值进行相乘计算所得到的第一损失值和第二损失值进行求和计算，得到的结果为整个图像识别模型的损失值。

在一个实施例中，特征提取损失值的比重为0.7，特征提取损失值为L，则第一损失值为0.7L，字符分类层损失值的比重为1.0，字符分类层损失值为F，则第二损失值为1.0F，则整个模型的损失值K=0.7L+1.0F。

本实施例中，通过特征提取损失值获得第一损失值和分类层损失值获得第二损失值，能够适当地关注特征提取层给整个图像识别模型的参数所带来的影响。

在一个实施例中，如图9所示，基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型包括：

步骤S602，基于特征提取损失值对特征提取层的参数进行调整，得到已训练的特征提取层。

具体的，使用梯度下降算法，进行反向传播，对特征提取层的参数进行调整，同时使得特征提取损失值朝着变小的方向越来越小，得到训练好的特征提取层。

在一个实施例中，开始的时候特征提取损失值为L，通过调整特征提取层的参数，同时使用梯度下降算法，进行反向传播，使得L逐渐变小，得到训练好的特征提取层。

步骤S604，基于字符分类损失值对字符分类层的参数进行调整，得到已训练的字符分类层。

其中，字符分类层可以是对不同字符的特征向量进行分类，得到每个字符所对应的概率，最后每个字符所对应的概率得到损失值。

具体的，根据字符分类损失值对字符分类层的参数进行调整，使得字符分类损失值朝着变小的方向越来越小，得到训练好的字符分类层。

在一个实施例中，开始的时候字符分类层损失值为F，通过调整字符分类层的参数，使得F逐渐变小，得到训练好的字符分类层。

步骤S606，基于已训练的特征提取层和已训练的字符分类层，得到已训练的图像识别模型。

具体的，将已经训练好的特征提取层和字符分类层拼接起来，成为可以使用的图像识别模型，该图像识别模型可以用于对图像中的字符进行识别。由于根据特征提取损失值调整特征提取层的参数，第一向量距离的不断减小，使得特征提取层的损失值越来越小，因此可以使得特征提取层的模型所提取得到的特征越来越准确；根据分类层损失值调整分类层的参数，使得分类层的损失值越来越小，因此可以使得分类层的模型所识别取得到的字符越来越准确。

本实施例中，通过分别调整特征提取层和字符分类层的参数，使得特征提取层和字符分类层的损失值分别变小，得到训练好的特征提取层和字符分类层，结合训练好的特征提取层和字符分类层，能够得到训练好的图像识别模型。

可以理解，也可以是采用模型损失值调整分类层以及特征提取层的模型参数。

在一个实施例中，如图10所示，基于第一向量距离得到模型损失值包括：

步骤S702，基于第一向量距离得到相同字符损失值，相同字符损失值与第一向量距离正相关关系。

其中，相同字符损失值可以是相同字符的第一向量距离通过计算所得到的损失值。

具体的，对于相同字符，使用第一向量距离进行计算，得到图像中相同字符的损失值，该损失值与相同字符的向量距离有正相关关系，也就是说向量距离越大，损失值越大。

在一个实施例中，相同字符A的第一向量距离为D1，得到的损失值为L1，当第一向量距离为D1变大的时候，损失值为L1也跟随着变大。

步骤S704，计算不同字符对应的第一特征向量与第二特征向量之间的第二向量距离。

其中，第二向量距离可以是不同字符之间所对应的第一特征向量和第二特征向量经过运算所得到的向量距离。

具体的，把不同字符的第一特征向量和第二特征向量进行数学运算，运算结果为两个特征向量的距离，根据该距离的大小可以计算得到这两个向量的相差概率，该损失值与第二向量距离成负相关，也就是第二向量距离越大，损失值越小。特征向量的距离计算如（1）式所示：

在一个实施例中，计算相同字符中第一特征向量和第二向量特征而得到的第二向量距离为D2，且基于第二向量距离得到模型损失值为L2。

步骤S706，基于第二向量距离得到不同字符损失值，不同字符损失值与第二向量距离负相关关系。

其中，不同字符损失值可以是不同字符的第二向量距离通过计算所得到的损失值；成负相关关系可以是第二向量距离越远，损失值越小。

具体的，对于不同字符，使用第二向量距离进行计算，得到图像中不同字符的损失值，该损失值与不同字符的向量距离有负相关关系，也就是说向量距离越大，损失值越小。

在一个实施例中，不同字符的第二向量距离为D2，得到的损失值为L2，当第一向量距离为D2变大的时候，损失值为L2也跟随着变小。

步骤S708，对相同字符损失值以及不同字符损失值进行求和计算，得到模型损失值。

具体的，将于对应的相同字符损失值以及不同字符损失值进行求和计算，得到的结果为整个图像识别模型的损失值。

在一个实施例中，相同字符损失值为L1，不同字符损失值为L2，则整个模型的损失值K=L1+L2。

对比损失函数，如图11所示：图中最左和最右的是输入的两个具有字符的图像，通过特征提取后，得到了各自的特征向量，位于图中间进行对比的是标准向量空间。图中左边的字符“I、S、8”得到了每个字符所对应的第一特征向量，而图中右边的字符“4、I、S”得到了每个字符所对应的第二特征向量。通过一个对比损失函数，图中左边的I、S和右边的I、S是相同的字符，调整模型参数时需要将它们的距离拉近，即图中左边的I和右边的I的距离越小，损失值越小，图中左边的S和右边的S的距离越小，损失值越小。图中左边的8和右边的4是不同的字符，将它们的距离拉远，图中左边的8和右边的4的距离越大，损失值越小，通过这种方式使得模型对于不同上下文的字符得到一致的预测结果，从而减少语意信息对于训练时字典外的词语的识别产生的干扰，模型可以学习到一个在不同语意环境下更加鲁棒的表现。

本实施例中，通过第一向量距离所得到的相同字符损失值和第二向量距离所得到的不同字符损失值，得到整个图像识别模型的损失值，能够更好地调节模型参数，获得更好的模型。

应该理解的是，虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的图像识别方法的图像识别装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个图像识别装置实施例中的具体限定可以参见上文中对于图像识别方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种图像识别装置，包括：训练图像获取模块、字符图像获取模块、拼接图像得到模块、特征向量得到模块、模型损失值得到模块和图像识别模型得到模块，其中：

训练图像获取模块802，用于获取训练图像；

字符图像获取模块804，用于获取第一字符图像以及第二字符图像；

拼接图像得到模块806，用于将第一字符图像和训练图像进行拼接，得到第一拼接图像，将第二字符图像和训练图像进行拼接，得到第二拼接图像；

特征向量得到模块808，用于基于待训练的图像识别模型对第一拼接图像进行特征提取，得到第一拼接图像中各个字符分别对应的第一特征向量，基于待训练的图像识别模型对第二拼接图像进行特征提取，得到第二拼接图像中各个字符分别对应的第二特征向量；

模型损失值得到模块810，用于计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于第一向量距离得到模型损失值，模型损失值与向量距离成正相关关系；

图像识别模型得到模块812，用于基于模型损失值调整图像识别模型的模型参数，得到已训练的图像识别模型。

在其中一个实施例中，字符图像获取模块，用于：基于第一字符重新排序策略对训练图像中的字符进行排序，将排序得到的图像作为第一字符图像；基于第二字符重新排序策略对训练图像中的字符进行排序，将排序得到图像作为第二字符图像。

在其中一个实施例中，模型损失值得到模块，用于：图像识别模型包括特征提取层以及字符分类层，通过特征提取层进行特征提取，基于第一向量距离得到特征提取损失值，特征提取损失值与第一向量距离成正相关关系；将第一特征向量和第二特征向量分别输入字符分类层，基于字符分类层分类得到的分类概率得到字符分类层损失值；对特征提取损失值和字符分类层损失值进行加权计算，得到模型损失值。

在其中一个实施例中，模型损失值得到模块，用于：获取特征提取损失值的比重和字符分类层损失值的比重，字符分类层损失值的比重大于特征提取损失值的比重；将特征提取损失值的比重与特征提取损失值相乘，得到第一损失值；将字符分类层损失值的比重与字符分类层损失值相乘，得到第二损失值；对第一损失值和第二损失值进行求和计算，得到模型损失值。

在其中一个实施例中，模型损失值得到模块，用于：基于特征提取损失值对特征提取层的参数进行调整，得到已训练的特征提取层；基于字符分类损失值对字符分类层的参数进行调整，得到已训练的字符分类层；基于已训练的特征提取层和已训练的字符分类层，得到已训练的图像识别模型。

在其中一个实施例中，模型损失值得到模块，用于：基于第一向量距离得到相同字符损失值，相同字符损失值与第一向量距离正相关关系；计算不同字符对应的第一特征向量与第二特征向量之间的第二向量距离；基于第二向量距离得到不同字符损失值，不同字符损失值与第二向量距离负相关关系；对相同字符损失值以及不同字符损失值进行求和计算，得到模型损失值。

上述图像识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储服务器数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种图像识别方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种图像识别方法，其特征在于，所述方法包括：

获取训练图像；

获取第一字符图像以及第二字符图像；

将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像；

将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像，所述第二拼接图像与所述第一拼接图像为字符顺序不同的拼接图像；

基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量；

基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；

计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到相同字符损失值，所述相同字符损失值与所述第一向量距离成正相关关系，计算不同字符对应的所述第一特征向量与所述第二特征向量之间的第二向量距离，基于所述第二向量距离得到不同字符损失值，所述不同字符损失值与所述第二向量距离成负相关关系；

基于所述相同字符损失值以及所述不同字符损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

2.根据权利要求1所述的方法，其特征在于，所述获取第一字符图像以及第二字符图像包括：

基于第一字符重新排序策略对所述训练图像中的字符进行排序，将排序得到的图像作为所述第一字符图像；

基于第二字符重新排序策略对所述训练图像中的字符进行排序，将排序得到图像作为所述第二字符图像。

3.根据权利要求1所述的方法，其特征在于，所述图像识别模型包括特征提取层以及字符分类层，通过所述特征提取层进行特征提取，所述计算相同字符对应的所述第一特征向量与所述第二特征向量之间的第一向量距离，基于所述第一向量距离得到相同字符损失值包括：

基于所述第一向量距离得到特征提取损失值，所述特征提取损失值与所述第一向量距离成正相关关系；

将所述第一特征向量和所述第二特征向量分别输入字符分类层，基于所述字符分类层分类得到的分类概率得到字符分类层损失值；

对所述特征提取损失值和所述字符分类层损失值进行加权计算，得到模型损失值。

4.根据权利要求3所述的方法，其特征在于，所述对所述特征提取损失值和字符分类层损失值进行加权计算，得到所述模型损失值包括：

获取所述特征提取损失值的比重和所述字符分类层损失值的比重，所述字符分类层损失值的比重大于所述特征提取损失值的比重；

将所述特征提取损失值的比重与所述特征提取损失值相乘，得到第一损失值；

将所述字符分类层损失值的比重与所述字符分类层损失值相乘，得到第二损失值；

对所述第一损失值和第二损失值进行求和计算，得到所述模型损失值。

5.根据权利要求3所述的方法，其特征在于，所述基于所述相同字符损失值以及所述不同字符损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型包括：

基于所述特征提取损失值对所述特征提取层的参数进行调整，得到已训练的特征提取层；

基于所述字符分类层损失值对所述字符分类层的参数进行调整，得到已训练的字符分类层；

基于所述已训练的特征提取层和所述已训练的字符分类层，得到已训练的所述图像识别模型。

6.根据权利要求3所述的方法，其特征在于，所述通过所述特征提取层进行特征提取包括：

获取解码数量的阈值；

若所述解码数量少于对应的阈值，则输入至串行的解码器进行解码；

若所述解码数量大于或者等于对应的阈值，则输入至并行的解码器进行解码。

7.一种图像识别装置，其特征在于，所述装置包括：

训练图像获取模块，用于获取训练图像；

字符图像获取模块，用于获取第一字符图像以及第二字符图像；

拼接图像得到模块，用于将所述第一字符图像和所述训练图像进行拼接，得到第一拼接图像，将所述第二字符图像和所述训练图像进行拼接，得到第二拼接图像，所述第二拼接图像与所述第一拼接图像为字符顺序不同的拼接图像；

特征向量得到模块，用于基于待训练的图像识别模型对所述第一拼接图像进行特征提取，得到所述第一拼接图像中各个字符分别对应的第一特征向量，基于待训练的所述图像识别模型对所述第二拼接图像进行特征提取，得到所述第二拼接图像中各个字符分别对应的第二特征向量；

模型损失值得到模块，用于计算相同字符对应的第一特征向量与第二特征向量之间的第一向量距离，基于所述第一向量距离得到相同字符损失值，所述相同字符损失值与所述向量距离成正相关关系，计算不同字符对应的所述第一特征向量与所述第二特征向量之间的第二向量距离，基于所述第二向量距离得到不同字符损失值，所述不同字符损失值与所述第二向量距离成负相关关系；

图像识别模型得到模块，用于基于所述相同字符损失值以及所述不同字符损失值调整所述图像识别模型的模型参数，得到已训练的所述图像识别模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。