CN113971806B

CN113971806B - 一种模型训练、字符识别方法、装置、设备及存储介质

Info

Publication number: CN113971806B
Application number: CN202111248583.6A
Authority: CN
Inventors: 徐杨柳; 谢群义; 陈毅; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2023-05-05
Anticipated expiration: 2041-10-26
Also published as: CN113971806A; JP2022191470A; US20230042234A1

Abstract

本公开提供了一种模型训练、字符识别方法、装置、设备及存储介质，涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景下。具体实现方案为：获得场景图像、所述场景图像中的第二实际字符和第二构建图像；采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型。应用本公开实施例提供的方案能够训练得到用于进行字符识别的模型。

Description

一种模型训练、字符识别方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体为计算机视觉和深度学习技术领域，可应用于OCR光学字符识别等场景下。

背景技术

近年来OCR(Optical Character Recognition，光学字符识别)技术在金融、交通、教育等各行各业得到了广泛关注和应用。电子设备基于OCR技术能够将图像中的字符翻译成计算机可识别的字符，实现字符识别。

另外，当前人工智能技术也得到了快速发展，人工智能技术逐渐被引入字符识别场景，越来越多的人意识到使用神经网络模型实现字符识别，能够显著提高字符识别的效率和准确度。因此，如何训练神经网络模型，得到用于进行字符识别的模型成为一个亟需待解决的问题。

发明内容

本公开提供了一种模型训练、字符识别方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种模型训练方法，包括：

采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型。

根据本公开的另一方面，提供了一种字符识别方法，包括：

获得待识别图像；

将所述待识别图像输入字符识别模型，得到所述字符识别模型输出的识别字符，其中，所述字符识别模型为按照上述模型训练方法进行训练得到的模型。

根据本公开的另一方面，提供了一种模型训练装置，包括：

模型获得模块，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

第一图像获得模块，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

字符确定模块，用于采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

特征确定模块，用于采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

第一模型训练模块，用于基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型。

根据本公开的另一方面，提供了一种字符识别装置，包括：

第二图像获得模块，用于获得待识别图像；

字符识别模块，用于将所述待识别图像输入字符识别模型，得到所述字符识别模型输出的识别字符，其中，所述字符识别模型为按照上述模型训练装置进行训练得到的模型。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述模型训练或字符识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述模型训练或字符识别方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述模型训练或字符识别方法。

由以上可见，应用本公开实施例提供的方案进行模型训练时，基于第一识别字符、第二实际字符、第一特征和第二特征，对待训练模型的模型参数进行调整，实现模型训练。

一方面，第一识别字符是待训练模型对场景图像进行字符识别得到的字符，第二实际字符是场景图像中真实包含的字符，因此，第一识别字符和第二实际字符间差异能够反映待训练模型对场景图像进行字符识别的能力。另一方面，第一特征是待训练模型提取得到的场景图像中字符的特征，第二特征是辅助训练模型提取得到的第二构建图像中字符的特征，由于辅助训练模型是采用构建图像训练得到的，所以，第二特征能够准确的表征第二构建图像中的字符。又由于第二构建图像中的字符与场景图像中的字符相同，因此，第一特征和第二特征间差异能够反映待训练模型对场景图像中的字符进行特征提取的能力。

综合上述两方面，基于第一识别字符、第二实际字符、第一特征以及第二特征训练得到的待训练模型既能够学习到提取场景图像中字符的特征的规律，又能够学习对场景图像进行字符识别的规律。可见，应用本公开实施例提供的方案能够训练得到用于进行字符识别的模型。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的第一种模型训练方法的流程示意图；

图2a为本公开实施例提供的第一种构建图像；

图2b为本公开实施例提供的一种场景图像；

图2c为本公开实施例提供的第二种构建图像；

图3为本公开实施例提供的第二种模型训练方法的流程示意图；

图4a为本公开实施例提供的第三种模型训练方法的流程示意图；

图4b为本公开实施例提供的一种辅助训练模型的结构示意图；

图5为本公开实施例提供的第四种模型训练方法的流程示意图；

图6a为本公开实施例提供的第三种构建图像；

图6b为本公开实施例提供的第四种构建图像；

图7为本公开实施例提供的一种待训练模型、辅助训练模型的结构示意图；

图8为本公开实施例提供的一种字符识别方法的流程示意图；

图9为本公开实施例提供的第一种模型训练装置的结构示意图；

图10为本公开实施例提供的第二种模型训练装置的结构示意图；

图11为本公开实施例提供的第三种模型训练装置的结构示意图；

图12为本公开实施例提供的第四种模型训练装置的结构示意图；

图13为本公开实施例提供的一种字符识别装置的结构示意图；

图14是用来实现本公开实施例的模型训练或字符识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

参见图1，图1为本公开实施例提供的第一种模型训练方法的流程示意图，上述方法包括以下步骤S101-S105。

步骤S101：采用第一构建图像和第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型。

上述第一构建图像是指人为构建出来的图像，而并非由图像采集设备针对场景采集的图像。上述第一构建图像中可以包含多种不同类型的构建图像，具体类型可以参见后续图6a、图6b所示的图像以及对应实施例。

在构建图像的过程中可以采用各种不同的图像生成算法构建图像。其中，上述图像生成算法可以是现有技术中的各种用于生成图像的算法，本公开实施例并不对此进行限定。

上述第一实际字符是指：第一构建图像中真实包含的字符。该第一实际字符可以在构建第一构建图像时一并得到。

以图2a为例，图2a所示的图像为构建图像。该构建图像中“KD89RT299UDFJ26”是构建图像中真实包含的字符，也就是第一实际字符。

上述初始神经网络模型可以是未经过任何训练的神经网络模型。例如：初始神经网络模型可以是CNN(Convolutional Neural Networks，卷积神经网络)模型、RNN(Recurrent Neural Network，循环神经网络)模型等。

采用第一构建图像和上述第一实际字符对初始神经网络模型进行训练的训练过程称为预训练过程，训练后的初始神经网络模型称为预训练模型。

在采用第一构建图像和第一实际字符对初始神经网络模型进行训练时，可以以第一实际字符作为监督信息，进行有监督训练。这样经过有监督训练后得到的预训练模型学习到了对图像进行字符识别的能力。可以将采用第一构建图像和第一实际字符对初始神经网络模型进行训练的过程称为预训练过程。相较于未进行过预训练的初始神经网络模型，预训练模型后续能够基于所学习到的字符识别能力对场景图像、第二构建图像、第三构建图像进行快速准确的处理，从而缩短对待训练模型进行训练的时间，提高了训练效率。

另外，由于预训练模型是以构建图像为训练样本训练得到的模型，而构建图像可以无上限构建，因此，在对初始神经网络模型进行训练时，可以获得大批量的第一构建图像作为训练样本，通过大批量的训练样本对初始神经网络模型进行训练，使得训练结束后得到的预训练模型具有较优的字符识别能力。

上述预训练模型可以是通过以下两种方式获得的：

第一种实现方式中，上述预训练模型可以是预先训练得到的模型，这种情况下，可以直接获得上述预先训练得到的预训练模型。

第二种实现方式中，可以获得第一构建图像和第一实际字符，将第一构建图像输入初始神经网络模型，得到初始神经网络模型输出的识别字符，根据识别字符与第一实际字符，计算初始神经网络模型进行字符识别的损失值，根据损失值调整初始神经网络模型的模型参数，重复上述过程，直至满足第一结束条件，这样实现了对初始神经网络模型的训练，得到预训练模型。

上述第一结束条件可以为：在构建图像形成的验证集上，网络模型对第一构建图像的字符识别准确率接近100％等。

具体的，可以采用梯度下降法等参数调整算法进行模型参数调整。

待训练模型、辅助训练模型是与预训练模型相同的模型，均具备字符识别的能力。一种实现方式中，将所获得的预训练模型作为待训练模型，可通过复制预训练模型得到辅助训练模型。

步骤S102：获得场景图像、场景图像中的第二实际字符和第二构建图像。

场景图像是指对真实场景进行图像采集得到的图像。上述场景图像所对应的真实场景是训练得到的模型在后续实际应用过程的应用场景，所以，上述真实场景是与训练得到的模型的应用场景相对应。

例如：若需要训练得到应用于道路场景、对车牌图像进行字符识别的模型时，上述场景图像为上述道路场景中的车牌图像；若需要训练得到应用于教育场景、对书籍图像进行字符识别的模型时，上述场景图像为上述教育场景中的书籍图像。

第二实际字符是指场景图像中真实包含的字符。该第二实际字符可以采用人为标注的方式得到。

第二构建图像是指人为构建出来的图像，而并非由图像采集设备针对场景采集的图像。

上述第二构建图像中的字符与第二实际字符相同。以图2b、图2c为例，图2b所示的图像为场景图像，图2c所示的图像为第二构建图像。图2b所示的场景图像是对金融场景中的发票进行图像采集得到的图像，上述图像中“1490984”表示发票的编号，是场景图像中的第二实际字符；图2b所示的第二构建图像所包含的字符为“1490984”，与第二实际字符相同。

一种实现方式中，数据库中预先存储了场景图像、场景图像中的实际字符以及所包含字符的上述实际字符相同的构建图像，基于此，可以从上述数据库中获得场景图像、第二实际字符以及第二构建图像。

上述步骤S101、步骤S102，可以是并行执行的，也可以串行执行的，例如：可以先执行步骤S101，后执行步骤S102，或者先执行步骤S102、后执行步骤S101。

步骤S103：采用待训练模型对场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符。

采用待训练模型对场景图像进行字符识别时，首先将场景图像输入待训练模型，然后待训练模型中的网络层对场景图像的字符进行特征提取，并根据提取得到的特征进行字符识别，得到识别结果，

具体的，上述网络层可以基于Attention(注意力)机制对场景图像的字符进行特征提取。

鉴于上述情况，上述第一特征是待训练模型对场景图像中的字符进行特征提取得到的特征。上述第一特征可以是场景图像中每个字符的特征。

上述第一识别字符是待训练模型对场景图像进行字符识别得到的识别结果。

步骤S104：采用辅助训练模型对第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征。

采用辅助训练模型对第二构建图像进行字符识别时，首先将第二构建图像输入辅助训练模型，然后辅助训练模型中的网络层对第二构建图像的字符进行特征提取，并根据提取到的特征进行字符识别，得到识别结果。

鉴于上述情况，上述第二特征是辅助训练模型对第二构建图像中的字符进行特征提取得到的特征。

上述步骤S103、步骤S104，可以是并行执行的，也可以串行执行的，例如：可以先执行步骤S103、后执行步骤S104，或者先执行步骤S103、后执行步骤S104。

步骤S105：基于第一识别字符、第二实际字符、第一特征和第二特征，对待训练模型的模型参数进行调整，得到字符识别模型。

在调整模型参数时，采用了第一特征和第二特征。第一特征与第二特征之间的差异反映了两个模型针对包含相同字符的两张图像中的字符的特征提取能力。通过对比第一特征和第二特征，能够对待训练模型进行训练，实现对比学习。

在对比学习过程中，将所包含字符相同的图像作为对比学习的基准，基于这两张图像中字符的特征进行对比学习。所以，在本实施例中进行对比学习时，认为两张图像为相同图像的判定原则是：所包含字符相同，也即，图像及图像的含义均相同，这样相较于认为图像特征相同为相同图像的判定原则，有效、充分地利用了图像中的字符的信息。

具体的，在对比第一特征和第二特征时，可以基于BYOL(Bootstrap Your OwnLatent，自带许可)的算法思想实现特征对比。

对模型参数进行调整的其他实现方式可以参见后续图5对应的实施例，在此不进行详述。

模型训练的过程中，可以重复执行上述步骤S102、S103、S104、S105，直至满足第二结束条件。上述第二结束条件可以为：达到预设的训练次数、待训练模型收敛、待训练模型对场景图像的识别准确率不再上升等。

一方面，第一识别字符是待训练模型对场景图像进行字符识别得到的识别字符，第二实际字符是场景图像中真实包含的字符，因此，第一识别字符与第二实际字符间差异能够反映待训练模型对场景图像进行字符识别的能力。另一方面，第一特征是待训练模型提取得到的场景图像中字符的特征，第二特征是辅助训练模型提取得到的第二构建图像中字符的特征，由于辅助训练模型是采用构建图像训练得到的，所以，第二特征能够准确的表征第二构建图像中的字符。又由于第二构建图像中的字符与场景图像中的字符相同，因此，第一特征与第二特征间差异能够反映待训练模型对场景图像中的字符进行特征提取的能力。

综合上述两方面，基于第一识别字符、第二实际字符、第一特征以及第二特征训练得到的的待训练模型既能够学习到提取场景图像中的字符的特征的规律，又能够学习对场景图像进行字符识别的规律。可见，应用本公开实施例提供的方案能够训练得到用于进行字符识别的模型。

又由于待训练模型提取字符特征的能力影响字符识别的能力，本公开实施例提供的方案在模型训练过程中，从提取字符特征的角度进行了模型参数调整，因此，能够提高训练得到的待训练模型进行字符识别的准确度。另外，在训练待训练模型时，基于第一特征和第二特征实现对比学习，在这一过程中，认为两张图像为相同图像的判定原则是：所包含字符相同，相较于认为图像特征相同为相同图像的判定原则，有效、充分地利用了图像中的字符的信息。排除了图像中的非字符信息的干扰，进一步提高了训练得到的待训练模型进行字符识别的准确度。再者，由于在模型训练过程中引入了对比学习，因此，可以减少模型训练过程所需的负样本数量。

在对待训练模型进行训练的过程中，除了引入辅助训练模型辅助进行训练外，还可以采用多轮训练的方式完成模型训练，以使得训练后的待训练模型更加准确的进行字符识别。

具体的，参见图3，图3为本公开实施例提供的第二种模型训练方法的流程示意图，在上述图1所示实施例的基础上，待训练模型满足训练结束条件后，可以对辅助训练模型也进行训练，以使得辅助训练模型更加准确，更好的辅助待训练模型完成多轮模型训练。在此基础上，上述方法还可以包括以下步骤S306-S307。

具体的，本实施例中模型训练方法包括以下步骤S301-S307。

步骤S301：采用第一构建图像和第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型。

步骤S302：获得场景图像、场景图像中的第二实际字符和第二构建图像。

其中，第二构建图像中的字符与第二实际字符相同。

步骤S303：采用待训练模型对场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符。

步骤S304：采用辅助训练模型对第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征。

步骤S305：基于第一识别字符、第二实际字符、第一特征和第二特征，对待训练模型的模型参数进行调整，得到字符识别模型。

其中，上述步骤S301-S305分别与上述图1所述实施例中步骤S101-S105相同，这里不再详述。

步骤S306：在待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整辅助训练模型的模型参数。

由于训练后的待训练模型既学习到了提取场景图像中的字符的特征的规律，又学习到了对场景图像进行字符识别的规律，根据训练后的待训练模型的模型参数，调整辅助训练模型的模型参数，使得辅助训练模型也会具备提取场景图像中的字符的特征的能力，还会具备对场景图像进行字符识别的能力。

具体的，可以通过以下两种不同的方式调整辅助训练模型的模型参数。

第一种实现方式中，将辅助训练模型的模型参数调整为训练后的待训练模型的模型参数。

具体的，可以复制训练后的待训练模型的模型参数，将辅助训练模型的模型参数调整为复制得到的模型参数。

由于将辅助训练模型的模型参数调整为训练后的待训练模型的模型参数，使得辅助训练模型的模型参数为训练后的待训练模型的完整模型参数，这样辅助训练模型也具备了训练后的待训练模型的字符识别以及字符特征提取的能力。

第二种实现方式中，将训练后的待训练模型的模型参数与辅助训练模型的模型参数进行融合，将辅助训练模型的模型参数调整为融合后的模型参数。

具体的，可以按照预设权重，对训练后的待训练模型的模型参数与辅助训练模型的模型参数进行加权求和，作为融合后的模型参数。

例如：训练后的待训练模型的模型参数为M1，辅助训练模型的模型参数为M2，待训练模型的模型参数对应的预设权重为0.8，辅助训练模型的模型参数对应的预设权重为0.2，对上述两个模型参数进行加权求和，得到(0.8*M1+0.2*M2)，作为融合后的模型参数。

将训练后的待训练模型的模型参数与辅助训练模型的模型参数进行融合，融合后的模型参数不仅与待训练模型的模型参数有关，还与辅助训练模型的模型参数有关。基于上述融合后的模型参数调整辅助训练模型的模型参数时，所调整的参数与辅助训练模型自身的模型参数有关，不需要大幅度调整辅助训练模型的模型参数，实现了调整上述模型参数的平滑过渡。

步骤S307：采用第三构建图像和第三构建图像中的第三实际字符，对调整模型参数后的辅助训练模型进行训练；在辅助训练模型满足训练结束条件后，返回步骤S302，重新对待训练模型进行训练。

上述第三构建图像可以是与第二构建图像相同的图像，在这种情况下，可以将第二构建图像确定为第三构建图像，将第一实际字符确定为第三实际字符。

上述第三构建图像也可以是与第二构建图像不同的图像，在这种情况下，需要获得第三构建图像，并获得第三构建图像中的第三实际字符。

在获得第三构建图像和第三实际字符时，可以从预先存储的构建图像库中获得第三构建图像以及第三构建图像中的第三实际字符。还可以采用图像生成算法生成图像，作为第三构建图像，并确定所生成的图像中的实际字符，作为第三实际字符。

在对调整模型参数后的辅助训练模型进行训练时，可以将第三构建图像输入上述辅助训练模型，得到上述辅助训练模型输出的识别字符，根据识别字符与第三实际字符，计算上述辅助训练模型进行字符识别的损失值，根据损失值调整上述辅助训练模型的模型参数，若未满足训练结束条件，则重新获得第三构建图像和第三实际字符，并重复执行上述过程，直至满足第三结束条件，实现对调整模型参数后的辅助训练模型的训练。

训练上述辅助训练模型的其他实施方式可以参见图4a所示的实施例中步骤S407-S408，这里暂不详述。

上述第三结束条件为上述步骤307中提及的训练结束条件。上述第三结束条件可以是辅助训练模型收敛、达到预设的训练次数等。

在辅助训练模型满足训练结束条件时，返回上述步骤S302，重复执行步骤S302-S307，重新对待训练模型进行训练。

本实施例中将对待训练模型进行多次参数调整，使得待训练模型满足训练结束条件的过程，称为一轮训练。

具体的，可以设定循环轮数，在达到所设定的循环轮数后，得到训练后的待训练模型，实现待训练模型的训练。例如：上述循环次数可以为两次、三次等。

由以上可见，在本实施例提供的方案中对待训练模型进行了多轮训练，在每一轮训练中，对待训练模型进行多阶段的参数调整。后一阶段的参数调整是在前一阶段的参数调整后的基础上进行的，由于前一阶段参数调整后的待训练模型已经具备较好的字符特征提取能力以及字符识别能力，并且前一阶段训练得到的辅助训练模型针对场景图像、构建图像均具备较好的字符特征提取能力，这样，在后一阶段基于上述辅助训练模型辅助对上述待训练模型辅助进行训练时，能够得到更加准确的对比结果，进一步加强了待训练模型特征提取和字符识别的能力，提高了待训练模型进行字符识别的准确度。

本领域技术人员可以理解的是，神经网络模型一般包括网络层，因此，辅助训练模型也可以包括多个网络层，在这种情况下，上述步骤S307中对调整参数后的辅助训练模型进行训练，可以按照图4a所示的实施例中步骤S407-S409实现。

具体的，本实施例中图像搜索方法包括以下步骤S401-S409。

步骤S401：采用第一构建图像和第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型。

步骤S402：获得场景图像、场景图像中的第二实际字符和第二构建图像。

其中，第二构建图像中的字符与第二实际字符相同。

步骤S403：采用待训练模型对场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符。

步骤S404：采用辅助训练模型对第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征。

步骤S405：基于第一识别字符、第二实际字符、第一特征和第二特征，对待训练模型的模型参数进行调整，得到字符识别模型。

步骤S406：在待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整辅助训练模型的模型参数。

其中，上述步骤S401-S406分别与上述图3所述实施例中步骤S301-S306相同，这里不再详述。

步骤S407：从多个网络层中确定调整层。

上述调整层是指：当前待调整模型参数的网络层。

具体的，可以通过以下两种不同的方式确定调整层。

第一种实现方式中，按照各网络层之间的连接顺序，选择网络层作为调整层。选择网络层时，每次可以按照连接顺序，选择预设数量个未作为过调整层的网络层。其中，上述预设数量可以为1、2等。

例如：假设，辅助训练模型包括网络层1、网络层2、网络层3，各网络层之间的连接顺序为：网络层1→网络层2→网络层3，预设数量为1，按照上述连接顺序，第一次确定网络层1为调整层，第二次确定网络层2为调整层，第三次确定网络层3为调整层。若当前是第二次确定调整层，则选择网络层2作为调整层。

第二种实现方式中，从多个网络层中随机选择预设数量个网络层，作为调整层。

步骤S408：采用第三构建图像和第三构建图像中的第三实际字符，以调整调整层的模型参数的方式，对辅助训练模型进行训练。

在对辅助训练模型进行训练时，是通过调整调整层的模型参数的方式进行训练，上述调整层是辅助训练模型所包含的所有网络层中的部分网络层。所以，在每次调整模型参数时，仅针对部分网络层的模型参数进行调整，而不调整未确定为调整层的网络层的模型参数。所以，本实施例提供的方案中在对辅助训练模型进行训练过程中，每一次调整模型参数的方式为：仅调整部分网络层的模型参数，固定其他网络层的模型参数。

一种实现方式中，将第三构建图像输入调整模型参数后的辅助训练模型，得到上述辅助训练模型输出的识别字符，根据识别字符与第三实际字符，计算上述辅助训练模型进行字符识别的损失值，根据损失值调整调整层的模型参数，若未满足第四结束条件，则返回获得第三构建图像以及第三实际字符的步骤，并执行将第三构建图像输入调整模型参数后的辅助训练模型的步骤，直至满足第四结束条件，实现对辅助训练的训练。

上述第四结束条件可以是：上述辅助训练模型收敛、达到预设的训练次数、在构建图像形成的验证集上辅助训练模型对第三构建图像的识别准确率不再上升或者趋近100％等。

步骤S409：在辅助训练模型满足训练结束条件后，从未确定为调整层的网络层中确定调整层，返回步骤S408，直至遍历所有网络层。

在从未确定为调整层的网络层中确定调整层，可以按照步骤S408中确定调整层相同的方式进行确定，在此不再赘述。

在辅助训练模型满足训练结束条件时，表示已对当前所确定的调整层的模型参数调整结束，在这种情况下，继续从未确定为调整层的网络层中确定调整层，调整所确定的调整层的模型参数。当遍历完所有的网络层，实现对辅助训练模型的训练。在实现对辅助训练模型的训练后，返回步骤S402，开始执行步骤S402-S405，实现对待训练模型的训练。

本公开一个实施例中，在训练辅助训练模型的过程中，还可以引入学习率，通过学习率，控制辅助训练模型的训练进度。

上述学习率可以设定为小于预设学习率阈值的数值。

由以上可见，在对调整模型参数后的辅助训练模型进行训练时，每一次调整模型参数的方式为：仅调整部分网络层的模型参数，固定其他网络层的模型参数。当结束调整上述部分网络层的模型参数后，遍历其他网络层。在一个遍历周期内，有针对性地仅对部分网络层调整模型参数，提高了调整上述部分网络层模型参数的准确度，进而提高了训练辅助训练模型的准确度。

以下结合图4b所示的辅助训练模型，对图4a中辅助训练模型训练的具体过程进行详细说明。

图4b中的辅助训练模型包括两个网络层，分别为特征提取层和字符识别层。

其中，特征提取层用于对输入的图像中的字符进行特征提取，并将提取得到的特征输入字符识别层；

字符识别层用于基于特征提取层输入的特征进行字符识别，得到识别结果。

在对上述辅助训练模型进行训练过程中，

第一步：获得标准乱序字符图像以及上述图像中的实际字符。

标准乱序字符图像是指：图像背景为预设背景、且图像中所包含字符是随机组合的图像，上述预设背景可以是颜色全白背景。上述标准乱序字符图像是一种第三构建图像。

第二步：将字符识别层确定为调整层，调整字符识别层的模型参数，固定特征提取层的模型参数。

调整模型参数过程中，将标准乱序字符图像输入辅助训练模型，得到辅助训练模型输出的识别字符，根据上述识别字符与标准乱序字符图像中的实际字符，计算辅助训练模型进行字符识别的损失值，基于损失值调整字符识别层的模型参数，若未满足第五结束条件，返回将标准乱序字符图像输入辅助训练模型的步骤，直至满足第五结束条件，实现对字符识别层的模型参数调整。

第三步：将特征提取层确定为调整层，调整特征提取层的模型参数，固定第二步调整后的特征提取层的模型参数。

调整模型参数过程中，采用上述第二步相同的方式，实现对特征提取层的模型参数调整。

至此，结束了对辅助训练模型的各个网络层的遍历和模型参数调整，实现了辅助训练模型的训练。

本公开的一个实施例中，与上述训练辅助训练模型的过程相对应的，在训练待训练模型时，也可以采用相同的训练构思对待训练模型进行训练。

具体的，确定待训练模型所包含的多个网络层中的调整层，在上述步骤S405中，可以基于第一识别字符、第二实际字符、第一特征和第二特征，以调整所确定的调整层的模型参数的方式，对待训练模型进行训练；在待训练模型满足训练结束条件后，从未确定为调整层的网络层中确定调整层，返回基于第一识别字符、第二实际字符、第一特征和第二特征，以调整所确定的调整层的模型参数的方式，对待训练模型进行训练的步骤，直至遍历所有网络层，实现对待训练模型的训练。

上述图1所示实施例的步骤S105中，对待训练模型的模型参数进行调整的具体实施方式可以参见图5中步骤S505-S508。

具体的，本实施例中模型训练方法包括以下步骤S501-S508。

步骤S501：采用第一构建图像和第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型。

步骤S502：获得场景图像、场景图像中的第二实际字符和第二构建图像。

其中，第二构建图像中的字符与第二实际字符相同。

步骤S503：采用待训练模型对场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符。

步骤S504：采用辅助训练模型对第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征。

其中，上述步骤S501-S504分别与上述图1所述实施例中步骤S101-S104相同，这里不再详述。

步骤S505：根据第一识别字符和第二实际字符，确定待训练模型进行字符识别的第一损失值。

一种实施方式中，将第一识别字符和第二实际字符，作为第一损失函数输入参数的取值，输入第一损失函数，获得基于第一损失函数计算得到的第一损失值。

上述第一损失函数可以是交叉熵损失函数、感知损失函数等。

步骤S506：计算第一特征和第二特征之间的的相似度。

一种实施方式中，计算第一特征与第二特征之间的距离，将上述距离转换为相似度，作为第一特征和第二特征之间的相似度。

上述距离可以是欧式距离、余弦距离等。

可以根据预设的距离与相似度之间的对应关系，将计算得到的距离转换为相对应的相似度。

步骤S507：根据相似度，确定待训练模型进行字符识别的第二损失值。

一种实施方式中，确定第一特征与第二特征之间的实际相似度，根据计算得到的相似度与实际相似度，确定待训练模型进行字符识别的第二损失值。

由于第二构建图像中的字符与场景图像中的第二实际字符是相同的，所以场景图像中的字符的特征与第二构建图像中的字符的特征实际上是相同的。

基于此，可以将第一特征与第二特征之间的实际相似度确定为大于预设相似度的相似度，上述预设相似度可以为95％、98％等。

具体的，可以计算得到的相似度与实际相似度，作为第一损失函数输入参数的取值，输入第二损失函数，获得基于第二损失函数计算得到的第二损失值。上述第二损失函数可以为交叉熵损失函数、感知损失函数等。

步骤S508：根据第一损失值和第二损失值，对待训练模型的模型参数进行调整，得到字符识别模型。

具体的，可以通过以下两种不同的方式调整待训练模型的模型参数。

一种实施方式中，对第一损失值和第二损失值进行数据融合，基于融合后的损失值对待训练模型的模型参数进行调整。

具体的，可以按照第一损失值对应的第一权重以及第二损失值对应的第二权重，对第一损失值和第二损失值进行加权求和，将计算得到的损失值确定为融合后的损失值，基于融合后的损失值对待训练模型的模型参数进行调整。

另一种实施方式中，对第一损失值和第二损失值进行调整，对调整后的第一损失值和第二损失值进行数据融合，基于融合后的损失值对待训练模型的模型参数进行调整。

由以上可见，第一损失值是根据第一识别字符和第二实际字符确定得到的，第一损失值能够较为准确地反映待训练模型进行字符识别的能力；第二损失值根据第一特征和第二特征之间的相似度确定得到的，第二损失值能够较为准确地反映待训练模型进行特征提取的能力；基于第一损失值和第二损失值，对待训练模型的模型参数进行调整，既能够从反映待训练模型进行字符识别的能力的角度对待训练模型的模型参数进行调整，又能够从反映待训练模型进行特征提取的能力的角度对待训练模型的模型参数进行调整，使得调整后的待训练模型参数综合能力较高，提高待训练模型的字符识别的准确度。

上述图1所述实施例的第一构建图像可以包含多种不同类型的构建图像，以下对第一构建图像所包括的构建图像进行说明。

本公开一个实施例中，上述第一构建图像可以包括以下两种图像中的至少一种：

第一种，不具有场景背景且所包含字符不属于场景语料的构建图像。

图像不具有场景背景是指：图像的背景不是应用场景的背景。例如：应用场景的背景具有底纹，当图像的背景是全白或全黑时，该背景不是应用场景的背景，所以，该图像不具有场景背景。

字符不属于场景语料是指：字符不是应用场景中的字符。例如：应用场景中的字符是按照预设规则排列的，当图像中的字符是随机组合的字符时，该字符不是应用场景中的字符，所以，该图像所包含字符不属于场景语料。

以图6a为例，图6a所示的图像为构建图像。上述图像的背景全白，不是应用场景的场景，所以，该图像不具有场景背景；且图像所包含字符是随机组合的，不是应用场景中的字符，所以，该图像所包含字符不属于场景语料。

当构建图像为不具有场景背景且所包含字符不属于场景语料的构建图像时，在构建上述图像时，不需要考虑太多信息，可以在短时间内快速构建得到大量的图像，从而能够提高构建图像获得的效率。

在此基础上，由于有充足的图像作为训练样本对模型进行训练，所以，能够很好地训练模型，从而可以得到字符识别能力较强的模型。

第二种，具有场景背景且所包含字符不属于场景语料的构建图像。

图像具有场景背景是指：图像的背景是应用场景的场景。例如：应用场景的背景具有底纹的，当图像的背景具有底纹时，表示该背景是应用场景的背景。

上述构建图像的背景可以是上述场景图像的背景的相似背景。这样，基于上述构建图像对模型进行预训练时，模型能够学习到针对相似背景图像进行字符识别的规律，在后续进行模型训练时，能够使得模型较快学习到针对场景图像进行字符识别的规律。

以图6b为例，图6b所示的图像为构建图像。在上述图像中，背景是金融场景中的发票图像的场景，具有场景背景；图像所包含字符是随机组合的，不是金融场景中的发票图像中的字符。

在采用上述构建图像对模型进行预训练时，由于构建图像为具有场景背景且所包含字符不属于场景语料的构建图像时预训练得到的模型具备对具有场景背景的图像字符识别的能力，在后续进行模型训练时，能够快速学习如何识别场景图像中的字符的规律。

以下结合图7所示的模型结构图，对本公开实施例提供的模型训练方法进行具体说明。

图7中包括两个模型，左侧模型为待训练模型，右侧模型为辅助训练模型。待训练模型和辅助训练模型是相同的模型，且与对初始神经网络模型进行预训练得到的预训练模型相同。

上述待训练模型、辅助训练模型中均包括特征提取层和字符识别层。

特征提取层，用于对输入的图像中的字符进行特征提取，并将提取得到的特征输入字符识别层。

字符识别层，用于基于输入的特征进行字符识别，得到识别字符。

上述特征提取层中包括视觉特征提取子网络层、编码子网络层、解码子网络层。

其中，视觉特征提取子网络层，用于将输入的图像转换为高度抽象的特征序列，并将得到的特征序列输入至编码单元。视觉特征提取单元可以基于ResNet(ResidualNetwork，残差网络)的网络结构进行特征序列的转换。进一步的，在转换为特征序列时，可以首先对输入的图像进行矫正，将图像质量不佳或尺度扭曲的图像矫正为图像质量高、文字排布平直的图像。

编码子网络层，用于强化视觉特征之间的语义联系，得到图像中的字符的语义信息，并将得到的语义信息输入至解码单元。编码单元可以基于RNN网络结构强化语义联系。

解码子网络层，用于将语义信息转换为计算机可以理解的文字，得到图像中的字符的特征。解码单元可以基于CTC(Connectionist Temporal Classification，连接时间分类算法)算法或基于注意力机制(Attention)的算法。

在训练待训练模型时，第一步，将场景图像输入待训练模型中，并将第二构建图像输入辅助训练模型中。

其中，场景图像中所包含的实际字符与第二构建图像中所包含的实际字符相同。

第二步，得到待训练模型输出的第一识别字符，并得到待训练模型中特征提取层输出的第一特征，以及得到辅助训练模型中特征提取层输出的第二特征。

第三步，根据第一识别字符、场景图像所包含的实际字符、第一特征和第二特征，调整待训练模型的模型参数，若不满足训练结束条件，返回第一步，直至满足训练结束条件。

第四步，根据训练后的待训练模型的模型参数，调整辅助训练模型的模型参数。

第五步，采用第三构建图像和第三构建图像中的第三实际字符，对调整参数后的辅助训练模型进行训练。

第六步，在辅助训练模型满足训练结束条件后，返回第一步，重新对待训练模型进行训练。

与上述模型训练方法相对应的，本公开还提供了一种字符识别方法。

参见图8，图8为本公开实施例提供的一种字符识别方法的流程示意图，上述方法包括以下步骤S801-S802。

步骤S801：获得待识别图像。

步骤S802：将待识别图像输入字符识别模型，得到字符识别模型输出的识别字符。

上述字符识别模型为按照本公开实施例提供的模型训练方法进行训练得到的模型。

由以上可见，应用本公开实施例提供的方案进行字符识别时，由于字符识别模型是采用大量的场景图像、构建图像作为训练样本进行模型训练得到的，字符识别模型具备较优的识别图像中的字符的能力，使得在应用上述字符识别模型时，能够较为准确地识别待识别图像中的字符。

与上述模型训练方法相对应的，本公开实施例提供了一种模型训练装置。

参见图9，图9为本公开实施例提供的第一种模型训练装置的结构示意图，上述装置包括以下模块901-905。

模型获得模块901，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

第一图像获得模块902，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

字符确定模块903，用于采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

特征确定模块904，用于采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

第一模型训练模块905，用于基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型。

参见图10，图10为本公开实施例提供的第二种模型训练装置的结构示意图，上述装置包括以下模块1001-1008。

模型获得模块1001，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

第一图像获得模块1002，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

字符确定模块1003，用于采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

特征确定模块1004，用于采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

第一损失值确定子模块1005，用于根据所述第一识别字符和所述第二实际字符，确定所述待训练模型进行字符识别的第一损失值；

相似度计算子模块1006，用于计算所述第一特征和所述第二特征之间的的相似度；

第二损失值确定子模块1007，用于根据所述相似度，确定所述待训练模型进行字符识别的第二损失值；

参数调整子模块1008，用于根据所述第一损失值和所述第二损失值，对所述待训练模型的模型参数进行调整，得到字符识别模型。

参见图11，图11为本公开实施例提供的第三种模型训练装置的结构示意图，上述装置包括以下模块1101-1107。

模型获得模块1101，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

第一图像获得模块1102，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

字符确定模块1103，用于采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

特征确定模块1104，用于采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

第一模型训练模块1105，用于基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型；

参数调整模块1106，用于在所述待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整所述辅助训练模型的模型参数；

第二模型训练模块1107，用于采用第三构建图像和所述第三构建图像中的第三实际字符，对调整模型参数后的辅助训练模型进行训练；在所述辅助训练模型满足训练结束条件后，触发所述第一图像获得模块，重新对所述待训练模型进行训练。

参见图12，图12为本公开实施例提供的第四种模型训练装置的结构示意图，所述辅助训练模型包括多个网络层，上述模块1107，包括以下模块1201-1209。

模型获得模块1201，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型；

第一图像获得模块1202，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同；

字符确定模块1203，用于采用所述待训练模型对所述场景图像进行字符识别，得到字符识别过程中提取的字符的第一特征和第一识别字符；

特征确定模块1204，用于采用所述辅助训练模型对所述第二构建图像进行字符识别，得到字符识别过程中提取的字符的第二特征；

第一模型训练模块1205，用于基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型。

参数调整模块1206，用于在所述待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整所述辅助训练模型的模型参数；

第一调整层确定子模块1207，用于从所述多个网络层中确定调整层；

模型训练子模块1208，用于采用第三构建图像和所述第三构建图像中的第三实际字符，以调整所述调整层的模型参数的方式，对所述辅助训练模型进行训练；

第二调整层确定子模块1209，用于在所述辅助训练模型满足训练结束条件后，从未确定为调整层的网络层中确定调整层，触发模型训练子模块，直至遍历所有网络层。

本公开的一个实施例中，上述参数调整模块，具体用于将所述辅助训练模型的模型参数调整为训练后的待训练模型的模型参数；或将训练后的待训练模型的模型参数与所述辅助训练模型的模型参数进行融合，将所述辅助训练模型的模型参数调整为融合后的模型参数。

由于将辅助训练模型的模型参数调整为训练后的待训练模型的模型参数，使得辅助训练模型的模型参数为训练后的待训练模型的完整模型参数，这样辅助训练模型也具备了训练后的待训练模型的字符识别以及字符特征提取的能力；并且，由于将训练后的待训练模型的模型参数与辅助训练模型的模型参数进行融合，融合后的模型参数不仅与待训练模型的模型参数有关，还与辅助训练模型的模型参数有关。基于上述融合后的模型参数调整辅助训练模型的模型参数时，所调整的参数与辅助训练模型自身的模型参数有关，不需要大幅度调整辅助训练模型的模型参数，实现了调整上述模型参数的平滑过渡。

本公开的一个实施例中，上述第一构建图像包括以下图像中的至少一种：不具有场景背景且所包含字符不属于场景语料的构建图像；具有场景背景且所包含字符不属于场景语料的构建图像。

当构建图像为具有场景背景且所包含字符不属于场景语料的构建图像时，在采用构建图像对模型进行预训练时，预训练得到的模型具备对具有场景背景的图像字符识别的能力，在后续进行模型训练时，能够快速学习如何识别场景图像中的字符的规律。

与上述字符识别方法相对应的，本公开实施例提供了一种字符识别装置。

参见图13，图13为本公开实施例提供的一种字符识别装置的结构示意图，上述装置包括以下模块1301-1302。

第二图像获得模块1301，用于获得待识别图像；

字符识别模块1302，用于将所述待识别图像输入字符识别模型，得到所述字符识别模型输出的识别字符，其中，所述字符识别模型为上述模型训练装置进行训练得到的模型。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开实施例提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行模型训练或字符识别方法。

本公开实施例提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行模型训练或字符识别方法。

本公开实施例提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现模型训练或字符识别方法。

图14示出了可以用来实施本公开的实施例的示例电子设备1400的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图14所示，设备1400包括计算单元1401，其可以根据存储在只读存储器(ROM)1402中的计算机程序或者从存储单元1408加载到随机访问存储器(RAM)1403中的计算机程序，来执行各种适当的动作和处理。在RAM 1403中，还可存储设备1400操作所需的各种程序和数据。计算单元1401、ROM 1402以及RAM 1403通过总线1404彼此相连。输入/输出(I/O)接口1405也连接至总线1404。

设备1400中的多个部件连接至I/O接口1405，包括：输入单元1406，例如键盘、鼠标等；输出单元1407，例如各种类型的显示器、扬声器等；存储单元1408，例如磁盘、光盘等；以及通信单元1409，例如网卡、调制解调器、无线通信收发机等。通信单元1409允许设备1400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1401的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1401执行上文所描述的各个方法和处理，例如模型训练或字符识别方法。例如，在一些实施例中，模型训练或字符识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1402和/或通信单元1409而被载入和/或安装到设备1400上。当计算机程序加载到RAM 1403并由计算单元1401执行时，可以执行上文描述的模型训练或字符识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1401可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行模型训练或字符识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种模型训练方法，包括：

采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型，所述第一构建图像包括以下图像中的至少一种：不具有场景背景且所包含字符不属于场景语料的构建图像；具有场景背景且所包含字符不属于场景语料的构建图像；所述构建图像是指人为构建出来的图像；

获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同，所述场景图像是指对真实场景进行图像采集得到的图像；

基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型；

所述基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型，包括：

根据所述第一特征与第二特征之间的特征差异、以及所述第一识别字符与第二实际字符是否相同，对所述待训练模型的模型参数进行调整，得到字符识别模型。

2.根据权利要求1所述的方法，其中，所述基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，包括：

根据所述第一识别字符和所述第二实际字符，确定所述待训练模型进行字符识别的第一损失值；

计算所述第一特征和所述第二特征之间的的相似度；

根据所述相似度，确定所述待训练模型进行字符识别的第二损失值；

根据所述第一损失值和所述第二损失值，对所述待训练模型的模型参数进行调整。

3.根据权利要求1或2所述的方法，所述方法还包括：

在所述待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整所述辅助训练模型的模型参数；

采用第三构建图像和所述第三构建图像中的第三实际字符，对调整模型参数后的辅助训练模型进行训练；

在所述辅助训练模型满足训练结束条件后，返回所述获得场景图像、所述场景图像中的第二实际字符和第二构建图像的步骤，重新对所述待训练模型进行训练。

4.根据权利要求3所述的方法，其中，所述辅助训练模型包括多个网络层，所述采用第三构建图像和所述第三构建图像中的第三实际字符，对调整模型参数后的辅助训练模型进行训练，包括：

从所述多个网络层中确定调整层；

采用第三构建图像和所述第三构建图像中的第三实际字符，以调整所述调整层的模型参数的方式，对所述辅助训练模型进行训练；

在所述辅助训练模型满足训练结束条件后，从未确定为调整层的网络层中确定调整层，返回所述采用第三构建图像和所述第三构建图像中的第三实际字符，以调整所述调整层的模型参数的方式，对所述辅助训练模型进行训练的步骤，直至遍历所有网络层。

5.根据权利要求3所述的方法，其中，所述根据训练后的待训练模型的模型参数，调整所述辅助训练模型的模型参数，包括：

将所述辅助训练模型的模型参数调整为训练后的待训练模型的模型参数；

或

将训练后的待训练模型的模型参数与所述辅助训练模型的模型参数进行融合，将所述辅助训练模型的模型参数调整为融合后的模型参数。

6.一种字符识别方法，包括：

获得待识别图像；

将所述待识别图像输入字符识别模型，得到所述字符识别模型输出的识别字符，其中，所述字符识别模型为按照权利要求1-5中任一项所述的方法进行训练得到的模型。

7.一种模型训练装置，包括：

模型获得模块，用于采用第一构建图像和所述第一构建图像中的第一实际字符对初始神经网络模型进行训练得到待训练模型和辅助训练模型，所述第一构建图像包括以下图像中的至少一种：不具有场景背景且所包含字符不属于场景语料的构建图像；具有场景背景且所包含字符不属于场景语料的构建图像；所述构建图像是指人为构建出来的图像；

第一图像获得模块，用于获得场景图像、所述场景图像中的第二实际字符和第二构建图像，其中，所述第二构建图像中的字符与所述第二实际字符相同，所述场景图像是指对真实场景进行图像采集得到的图像；

第一模型训练模块，用于基于所述第一识别字符、第二实际字符、第一特征和第二特征，对所述待训练模型的模型参数进行调整，得到字符识别模型；

所述第一模型训练模块，具体用于根据所述第一特征与第二特征之间的特征差异、以及所述第一识别字符与第二实际字符是否相同，对所述待训练模型的模型参数进行调整，得到字符识别模型。

8.根据权利要求7所述的装置，其中，所述第一模型训练模块，包括：

第一损失值确定子模块，用于根据所述第一识别字符和所述第二实际字符，确定所述待训练模型进行字符识别的第一损失值；

相似度计算子模块，用于计算所述第一特征和所述第二特征之间的的相似度；

第二损失值确定子模块，用于根据所述相似度，确定所述待训练模型进行字符识别的第二损失值；

参数调整子模块，用于根据所述第一损失值和所述第二损失值，对所述待训练模型的模型参数进行调整，得到字符识别模型。

9.根据权利要求7或8所述的装置，所述装置还包括：

参数调整模块，用于在所述待训练模型满足训练结束条件后，根据训练后的待训练模型的模型参数，调整所述辅助训练模型的模型参数；

第二模型训练模块，用于采用第三构建图像和所述第三构建图像中的第三实际字符，对调整模型参数后的辅助训练模型进行训练；在所述辅助训练模型满足训练结束条件后，触发所述第一图像获得模块，重新对所述待训练模型进行训练。

10.根据权利要求9所述的装置，其中，所述辅助训练模型包括多个网络层，所述第二模型训练模块，包括：

第一调整层确定子模块，用于从所述多个网络层中确定调整层；

模型训练子模块，用于采用第三构建图像和所述第三构建图像中的第三实际字符，以调整所述调整层的模型参数的方式，对所述辅助训练模型进行训练；

第二调整层确定子模块，用于在所述辅助训练模型满足训练结束条件后，从未确定为调整层的网络层中确定调整层，触发模型训练子模块，直至遍历所有网络层。

11.根据权利要求9所述的装置，其中，所述参数调整模块，具体用于将所述辅助训练模型的模型参数调整为训练后的待训练模型的模型参数；或将训练后的待训练模型的模型参数与所述辅助训练模型的模型参数进行融合，将所述辅助训练模型的模型参数调整为融合后的模型参数。

12.一种字符识别装置，包括：

第二图像获得模块，用于获得待识别图像；

字符识别模块，用于将所述待识别图像输入字符识别模型，得到所述字符识别模型输出的识别字符，其中，所述字符识别模型为按照权利要求7-11中任一项所述的装置进行训练得到的模型。

13.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5或6中任一项所述的方法。

14.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5或6中任一项所述的方法。