CN113313022B

CN113313022B - 文字识别模型的训练方法和识别图像中文字的方法

Info

Publication number: CN113313022B
Application number: CN202110587936.9A
Authority: CN
Inventors: 徐杨柳; 谢群义; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-11-10
Anticipated expiration: 2041-05-27
Also published as: CN113313022A

Abstract

本公开提供了一种文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质，应用于人工智能技术领域，具体应用于计算机视觉和深度学习技术领域，可应用于图像识别场景下。文字识别模型的训练方法的具体实现方案为：以第一目标图像作为第一文字识别模型的输入，获得第一特征图；以样本图像作为第二文字识别模型的输入，获得第二特征图，其中，第二文字识别模型以第一文字识别模型作为初始模型；基于第一特征图和第二特征图的差异，确定第一损失值；以及基于第一损失值，对第二文字识别模型进行训练。其中，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。

Description

文字识别模型的训练方法和识别图像中文字的方法

技术领域

本公开涉及人工智能技术领域，具体涉及计算机视觉技术领域和深度学习技术领域，可应用于图像识别场景下。

背景技术

随着电子技术的发展，具有通过电子设备将图像上的文字翻译成计算机文字的需求的场景越来越多，通常采用文字识别技术来满足上述需求。

文字识别技术不仅会受到图像清晰度、拍摄角度和光照条件等外在条件的干扰，还会受到文字的字体和风格等的影响。针对字体和风格的影响，通常采用收集或生成相近或相同字体及风格的样本，基于该样本对文字识别模型进行训练的方法。该方法需要消耗较大的开发成本，且收集或生成的样本很难覆盖所有场景。

发明内容

提供了一种降低成本且提高模型精度的文字识别模型的训练方法和识别图像中文字的方法、装置、电子设备和存储介质。

根据本公开的一个方面，提供了一种文字识别模型的训练方法，包括：以第一目标图像作为第一文字识别模型的输入，获得第一特征图；以样本图像作为第二文字识别模型的输入，获得第二特征图，其中，第二文字识别模型以第一文字识别模型作为初始模型；基于第一特征图和第二特征图的差异，确定第一损失值；以及基于第一损失值，对第二文字识别模型进行训练，其中，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。

根据本公开的另一个方面，提供了一种识别图像中文字的方法，包括：以待识别图像作为文字识别模型的输入，获得文字识别模型输出的文字序列；以及确定文字序列为待识别图像中的文字，其中，文字识别模型是采用前述的文字识别模型的训练方法训练的第二文字识别模型。

根据本公开的另一个方面，提供了一种文字识别模型的训练装置，该装置包括：第一特征获得模块，用于以第一目标图像作为第一文字识别模型的输入，获得第一特征图；第二特征获得模块，用于以样本图像作为第二文字识别模型的输入，获得第二特征图，其中，第二文字识别模型以第一文字识别模型作为初始模型；第一损失确定模块，用于基于第一特征图和第二特征图的差异，确定第一损失值；以及训练模块，用于基于第一损失值，对第二文字识别模型进行训练，其中，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。

根据本公开的另一个方面，提供了一种识别图像中文字的装置，包括：文字序列获得模块，用于以待识别图像作为文字识别模型的输入，获得文字识别模型输出的文字序列；以及文字确定模块，用于确定文字序列为待识别图像中的文字，其中，文字识别模型是采用上述的文字识别模型的训练装置训练的第二文字识别模型。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的文字识别模型的训练方法和/或识别图像中文字的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的文字识别模型的训练方法和/或识别图像中文字的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开提供的文字识别模型的训练方法和/或识别图像中文字的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的文字识别模型的训练方法和识别图像中文字的方法和装置的应用场景示意图；

图2是根据本公开实施例的文字识别模型的训练方法的流程图；

图3是根据本公开实施例的文字识别模型的训练方法的原理示意图；

图4是根据本公开实施例的确定样本图像中的预测文字的原理示意图；

图5是根据本公开实施例的确定第一损失值的原理示意图；

图6是根据本公开实施例另一实施例的文字识别模型的训练方法的原理示意图；

图7是根据本公开实施例的识别图像中文字的方法的流程示意图；

图8是根据本公开实施例的文字识别模型的训练装置的结构框图；

图9是根据本公开实施例的识别图像中文字的装置的结构框图；以及

图10是用来实施本公开实施例的文字识别模型的训练方法和/或识别图像中文字的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种文字识别模型的训练方法，该方法包括特征图获得阶段、损失值确定阶段和模型训练阶段。在特征图获得阶段中，以第一目标图像作为第一文字识别模型的输入，获得第一特征图；并以样本图像作为第二文字识别模型的输入，获得第二特征图。其中，第二文字识别模型以第一文字识别模型作为初始模型。在损失值确定阶段，基于第一特征图和第二特征图的差异，确定第一损失值。在模型训练阶段，基于第一损失值，对第二文字识别模型进行训练。其中，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的文字识别模型的训练方法和识别图像中文字的方法和装置的应用场景示意图。

如图1所示，该应用场景100包括终端设备110，该终端设备可以为具有处理功能的任意电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该终端设备110例如可以对输入的图像120进行处理，具体可以对输入的图像中的文字进行识别，从而得到图像中包括的文字，例如可以得到文字XXXX 130。其中，该终端设备110例如可以采用文字识别模型来对输入的图像120进行处理。通过对图像中文字的识别，可以将图像中的文字转化为计算机文字，在财务报销、智能交通和安防领域都可以发挥至关重要的作用。

根据本公开的实施例，如图1所示，该应用场景100还可以包括服务器140。终端设备110可以通过网络与服务器140通信连接，网络可以包括有线或无线通信链路。

示例性地，服务器140可以用于训练文字识别模型，并响应于终端设备110发送的模型获取请求，将训练好的文字识别模型150发送给终端设备110。

示例性地，服务器例如可以是提供各种服务的服务器，例如可以为对终端设备110上运行的应用程序提供支持的后台管理服务器。例如，该服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

根据本公开的实施例，如图1所示，该应用场景100还可以包括数据库160，该数据库160例如可以维护有包括文字的海量的图像。服务器140例如可以访问该数据库160，并从数据库中的海量的图像中随机抽取部分图像，将抽取的图像作为训练样本对文字识别模型进行训练。

根据本公开的实施例，对图像中文字的识别精度往往会受到图像清晰度、拍摄角度和拍摄时的光照条件等外在条件的干扰，还会受到图像中文字的字体、风格的影响。可以采用样本生成的方式或风格去除的方式来降低识别精度受字体、风格的影响。

其中，样本生成的方式可以包括基于OpenCV等开源软件库的生成方法和基于深度学习的风格迁移方法。基于OpenCV等开源软件库的生成方法，可以通过在电子设备生成的画布上生成不同字体的文字，并对文字进行扭曲、变形、颜色填充，形成多个文字模板的方式来实现。或者可以通过先找寻自然场景图片中适合写字的平面，随后通过开源软件库在该平面上生成文字，模拟自然场景中的文字的方式来实现。或者可以通过在虚拟3D模型的平面中生成文字，模拟自然场景中的角度和形变，从而形成多个文字模板的方式来实现。基于深度学习的风格迁移方法例如可以基于生成对抗网络(Generative AdversarialNetworks，GAN)来实现。例如可以通过GAN学习文字的轮廓和风格，并将学习到的轮廓和风格迁移到其他文字上的方式来实现。

其中，风格去除的方式则通过网络学习来使得不同风格的文字特征向无风格的文字特征靠拢。例如可以采用连续时间分类算法(Connectionist TemporalClassification，CTC)和GAN相结合的方法，以使得其他风格的文字特征序列与标准的文字特征序列相同或近似。或者可以采用注意力机制，利用GAN来将识别得到的文字特征向标准字池中单字的特征靠拢，从而使得识别结果不受文字背景和文字风格等的影响。或者，采用GAN，分别从标准的文字序列和带有风格的文字序列中分别提取单字特征，并基于两个文字序列中的两个单字特征判断两个字是否为相同的字，从而使得识别结果不受文字背景和文字风格等的影响。

在一实施例中，终端设备110与服务器140例如可以为同一设备，该同一设备中包括用于识别图像中文字的第一处理模块和训练文字识别模型的第二处理模块。该第一处理模块和第二处理模块之间可以通过网络协议进行通信。

需要说明的是，本公开所提供的识别图像中文字的方法可以由终端设备110执行。相应地，本公开所提供的识别图像中文字的装置可以设置于终端设备110中。本公开所提供的文字识别模型的训练方法可以由服务器140执行。相应地，本公开所提供的文字识别模型的训练装置可以设置于服务器140中。

应该理解，图1中的终端设备、服务器和数据库的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的终端设备、服务器和数据库。

基于上述应用场景，本公开提供了一种文字识别模型的训练方法，以使得训练得到的文字识别模型在识别文字时可以忽略文字的背景及风格。并因此提高文字识别精度。以下将结合图2对该方法进行详细描述。

图2是根据本公开实施例的文字识别模型的训练方法的流程图。

如图2所示，该实施例的文字识别模型的训练方法200可以包括操作S210～操作S240。

在操作S210，以第一目标图像作为第一文字识别模型的输入，获得第一特征图。

在操作S220，以样本图像作为第二文字识别模型的输入，获得第二特征图。

根据本公开的实施例，第一目标图像和样本图像为包括相同文字的任意图像，且第一目标图像中的文字以目标格式表示。该目标格式例如可以为用目标字体表示的格式，目标字体可以为宋体、黑体、国际楷体等。在一实施例中，目标格式还可以为不包括背景颜色的格式等，本公开对此不做限定。例如，第一目标图像和样本图像例如可以都包括文字“专心致志”，第一目标图像中的“专心致志”为宋体格式，样本图像中的“专心致志”为手写体或者艺术字体等。

根据本公开的实施例，第二文字识别模型的初始模型为第一文字识别模型。操作S220中的第二文字识别模型可以为采用该实施例的训练方法对第一文字识别模型训练至少一个轮次所得到的模型，也可以为第一文字识别模型。第一文字识别模型可以包括用于将文字图像转化为特征图的模型，例如可以为卷积神经网络模型等，以定位第一目标图像中包括文字的区域，并提取该区域的视觉特征，该提取的识别特征可以构成特征图。

示例性地，第一文字识别模型可以为卷积循环神经网络模型(ConvolutionalRecurrent Neural Network，CRNN)等端到端模型，以读取输入的图像，提取图像特征并根据该图像特征确定图像中的文字。第一特征图和第二特征图可以为文字识别模型包括的多个处理层中，除最后一层外任一处理层输出的数据，且第一文字识别模型中输出第一特征图的处理层与第二文字识别模型中输出第二特征图的处理层相对应。

在操作S230，基于第一特征图和第二特征图的差异，确定第一损失值。

在得到第一特征图和第二特征图后，可以将该第一特征图和第二特征图之间的欧式距离、余弦距离、汉明距离或交叉熵损失值等作为第一损失值。在一实施例中，还可以采用后文描述的确定第一损失值的原理来确定第一损失值，在此不再赘述。

在操作S240，基于第一损失值，对第二文字识别模型进行训练。

在得到第一损失值后，可以采用反向梯度算法或者反向传播算法等对第二文字识别模型进行训练，具体可以训练第二文字识别模型中得到第二特征图的处理层及位于该处理层之前的其他层。以此在后续使用时，使得经由第二文字识别模型得到的特征图与从包括目标格式文字的图像中提取的特征图更为接近。

在一实施例中，可以在第一损失值的取值小于预定值，或者相邻两个轮次的训练中确定的第一损失值的差值小于预定差值的情况下，确定完成对第二文字识别模型的训练。其中，预定值和预定差值可以根据实际需求进行设定，本公开对此不做限定。

该实施例的训练方法通过上述流程，可以使得文字识别模型在从图像中提取特征时，忽略第二文字识别模型的输入图像中文字的背景和格式，从而使得提取到的特征图更能够体现文字特征，提高文字识别模型输出的预测文字的准确性。

在一实施例中，样本图像例如可以具有指示图像中实际文字的标签，第一目标图像例如可以基于该标签指示的实际文字生成，以使得第一目标图像和样本图像包括相同的文字。其中，可以基于前文描述的OpenCV等开源软件库的生成方法来生成第一目标图像。在生成该第一目标图像时，无需收集大量的场景字体来模拟实际场景的文字，只需生成目标格式的字体。因此该第一目标图像的生成具有成本低廉、生成速度快的有益效果。并因此，可以降低第二文字识别模型的训练成本。

在一实施例中，该文字识别模型的训练方法还可以通过以样本图像作为第二文字识别模型的输入，获得预测文字。通过比对预测文字和实际文字的差异来对第二文字识别模型进行整体训练。例如，可以根据预测文字和实际文字的差异，确定第二损失值。随后基于该第二损失值，采用反向梯度算法或者反向传播算法等对第二文字识别模型进行训练。在该实施例中，可以在预测文字与实际文字之间的编辑距离等小于预定距离时，确定完成对第二文字识别模型的训练。其中，预定距离可以根据实际需求进行设定，本公开对此不做限定。

在一实施例中，在得到第一损失值和第二损失值后，可以确定第一损失值和第二损失值的加权和。随后根据该加权和来训练第二文字识别模型。

图3是根据本公开实施例的文字识别模型的训练方法的原理示意图。

如图3所示，在一实施例300中，第一文字识别模型310可以包括特征提取层311和转换层312，类似的，第二文字识别模型320包括特征提取层321和转换层322。

其中，特征提取层311和特征提取层321用于提取输入的图像中文字的视觉特征。该特征提取层可以基于残差网络(Residual Network，ResNet)、深度卷积神经网络VGG或轻量化模型Squeeze Net等构建。

其中，转换层322用于对特征提取层提取的视觉特征进行处理，得到图像中的预测文字。该转换层可以基于循环神经网络模型构建。在一实施例中，该转换层322可以包括编码层和解码层等。该转换层322还可以用于基于视觉特征提取上下文信息，例如可以对该视觉特征进行上下文互信息编码，随后对编码得到的信息进行解码，得到识别的预测文字。

如图3所示，该实施例中，可以以第一目标图像330作为第一文字识别模型310中特征提取层311的输入，将该特征提取层311输出的视觉特征信息作为第一特征图350。类似地，以样本图像340作为第二文字识别模型320中特征提取层321的输入，将该特征提取层321输出的视觉特征信息作为第二特征图360。在得到第一特征图350和第二特征图360后，即可基于该第一特征图350和第二特征图360得到第一损失值370。

在该实施例中，在得到第一损失值370后，可以基于该第一损失值370对特征提取层321进行训练。

在该实施例将特征提取层提取的视觉特征作为特征图的基础上，转换层用于基于特征图确定图像中的预测文字。例如，特征提取层321输出的第二特征图360在输入转换层后，经由转换层322处理可以得到样本图像的预测文字380。类似的，特征提取层311输出的第一特征图经由转换层312处理可以得到第一目标图像的预测文字。

在一实施例中，由于第一文字识别模型用于提取采用目标格式表示文字的图像的特征，提取的特征不会受到文字风格或背景等的影响。为了将该第一文字识别模型提取的特征图作为对第二文字识别模型中特征提取层进行训练的参考，使得特征提取层321提取的特征图更贴合特征提取层311提取的第一目标图像的特征图，在整个训练过程中，可以将该第一文字识别模型的参数作为固定值，不再进行更新调整。

在一实施例中，还可以基于样本图像340的标签指示的实际文字和预测文字380之间的差异确定第二损失值。随后基于第一损失值和第二损失值对特征提取层321进行训练。基于第二损失值对转换层322进行训练。其中，第二损失值例如可以由实际文字与预测文字380之间的编辑距离等来表示，或者该第二损失值可以由连接时序分类损失函数等计算得到，本公开对此不做限定。

示例性地，在对特征提取层321进行训练时，可以先确定第一损失值和第二损失值的加权和。随后基于该加权和对特征提取层321进行训练。其中，在确定加权和时，为第一损失值和第二损失值分配的权重可以根据实际需求进行设定，本公开对此不做限定。

本公开实施例通过以特征提取层的输出作为特征图，并对目标图像的特征图与样本图像的特征图进行比对来确定第一损失值，并基于该第一损失值对特征提取层进行训练，可以使得特征提取层提取的视觉特征更为关注文字本身的特征，而忽略文字的背景或风格的特征。基于此，便于提高后续转换层确定的预测文字的准确性。在转换层包括有提取上下文信息的编码层时，则通过以提取上下文信息之前的视觉特征作为特征图，可以使得确定的第一损失值不会受提取的上下文信息的干扰，使得该第一损失值能够更好地体现样本图像和目标图像中文字的轮廓差异，并因此便于提高文字识别模型的精度。

图4是根据本公开实施例的确定样本图像中的预测文字的原理示意图。

在一实施例中，前述的转换层例如可以包括基于注意力机制(Attention)构建的解码层。该解码层例如可以基于循环神经网络的架构构成，例如可以基于长短期记忆网络模型(Long Short-Term Memory，LSTM)及其变形，或者Transformer模型等构建得到。该转换层在确定预测文字时，可以基于输入信息，采用注意力机制获得输入信息的至少一组权重系数。随后基于该至少一组权重系数对输入信息进行加权，获得至少一个单字特征。以基于该至少一个单字特征确定预测文字。若输入信息为第二文字识别模型得到的第二特征图，该预测文字即为样本图像中文字的预测值。通过基于注意力机制的解码层来确定预测文字，可以从特征图中提取出单字特征，并因此可以避免将左右结构的字识别为两个字的情形等，从而可以提高文字识别模型的精度。

示例性地，得到权重系数和单字特征的过程例如可以为循环执行的。该解码层在确定预测文字时，可以循环地确定输入信息包括的多个部分中一个部分的局部信息，随后基于该输入信息的整体特征和确定的局部信息的特征，来确定为该输入信息中的各个部分分配的权重，得到一组权重系数。将该一组权重系数对对应的各部分的特征计算加权和，从而得到一个单字特征。

在一实施例中，前述的转换层例如可以包括基于循环神经网络构建的编码层和解码层。该解码层可以为前述的基于注意力机制构建的解码层或者其他任意的解码器。其中，编码层用于提取特征图的上下文信息，例如经由该编码层处理，可以使得特征图的上下文语义信息产生关联。

示例性地，确定样本图像中的预测文字时，可以将第二特征图作为第二文字识别模型中编码层的输入，获得包含上下文信息的文字特征序列。该文字特征序列作为解码层的输入，则可以获得样本图像中的预测文字。通过编码层的设置，可以在预测文字时，充分考虑特征图的上下文语义信息，并因此利于提高最终确定的预测文字的准确性。

示例性地，编码层可以用于对特征图进行上下文互信息编码，从而得到文字特征序列。其中，互信息(Mutual Information)是信息论中有用等信息度量，可以看成是一个随机变量中包含的关于另一个随机变量等信息量，或者一个随机变量由于已知另一个随机变量而减少的不确定性。

如图4所示，在一实施例400中，第一文字识别模型和第二文字识别模型包括特征提取层401和转换层，且转换层包括编码层402和解码层403。编码层402可以为前述基于循环神经网络构建的编码层，解码层403可以为前述基于自注意力机制构建的解码层。

在确定样本图像的预测文字时，可以将样本图像410作为第二文字识别模型中特征提取层401的输入，由特征提取层401输出样本图像的特征图420。该特征图420输入编码层402后，经由编码层402处理可以输出得到文字特征序列430。该文字特征序列430输入解码层403后，可以得到预测文字440。该第二文字识别模型例如可以为端到端模型，编码层和解码层可以整体构成Transformer架构，或者任意的用于基于视觉特征得到预测文字的文字识别架构，本公开对此不做限定。

图5是根据本公开实施例的确定第一损失函数的原理示意图。

如图5所示，在一实施例500中，可以将前述第二文字识别模型中的特征提取层作为生成对抗网络(Generative Adversarial Network，GAN)中的生成器，基于GAN中的判别器来确定第一损失值。并基于对GAN进行训练的方法来对第二文字识别模型中的特征提取层进行训练。

根据本公开的实施例，在基于判别器确定第一损失值时，可以先将特征图转换为单字特征，并经由判别器来基于该单字特征判断图像中文字为目标格式表示的真实文字的概率。以此，可以避免在基于判别器确定第一损失值时，由于样本图像和第一目标图像中的文字宽度间距等有较大差异，导致判别器判断得到的概率不准确，并使得第一损失值的取值受该文字宽度间距不一致的情况。从而便于提高确定的第一损失值的准确性。如此，该实施例在经由特征提取层获得特征图后，可以采用与上述基于Attention的解码层的处理方法类似的方法，来将特征图转换为单字特征。

示例性地，考虑到不同的文字序列，采用注意力机制确定的权重系数会有不同，该实施例可以采用前述基于Attention的解码层中确定的至少一组权重系数来将特征图转换为单字特征。以此提高确定的单字特征的准确性，并进一步提高确定的第一损失值的准确性。

例如，在确定第一损失值时，如图5所示，可以将第一目标图像510输入第一文字识别模型中的特征提取层(即第一特征提取层501)中，得到第一特征图520。同时获取第一文字识别模型中解码层确定的至少一组权重系数(即第一权重系数530)。类似地，将样本图像540输入第二文字识别模型中的特征提取层(即第二特征提取层502)中，得到第二特征图550。同时获取第二文字识别模型中解码层确定的至少一组权重系数(即第二权重系数560)。则对于该第一特征图520和第二特征图550中的任一特征图，可以根据获得该任一特征图的文字识别模型所确定的至少一组权重系数，对该任一特征图进行加权，获得针对该任一特征图的至少一个第二单字特征。随后将该至少一个第二单字特征输入预定判别器503中，可以获得针对该任一特征图的概率值。

例如，根据第一权重系数530对第一特征图520进行加权，可以得到至少一个第二单字特征570。将该第二单字特征570输入预定判别器503后，由预定判别器503输出第一概率值590。类似地，根据第二权重系数560对第二特征图550进行加权，可以得到至少一个第二单字特征580。将该第二单字特征580输入预定判别器503后，由预定判别器503输出第二概率值5100。

在得到针对第一特征图520的概率值(即第一概率值590)和针对第二特征图550的概率值(即第二概率值5100)后，可以基于该两个概率值确定第一损失值5110。例如，可以将第一特征图520转换得到的第二单字特征作为真实样本，将第二特征图550转换得到的第二单字特征作为生成样本，将该两个概率值输入GAN损失函数中，得到第一损失值5110。在此基础上，可以采用GAN的训练方法，对第二特征提取层502和预定判别器503进行训练，从而实现对第二文字识别模型中特征提取层的训练。

该实施例通过基于GAN网络来确定第一损失值，相较于直接根据两个特征图之间的欧式距离等确定第一损失值的方法，可以在一定程度上提高确定的第一损失值的准确性。通过将特征提取层作为GAN网络的生成器进行训练，可以进一步提高训练得到的特征提取层的精度。

图6是根据本公开实施例另一实施例的文字识别模型的训练方法的原理示意图。

在一实施例中，在通过第一文字识别模型获得特征图之前，该实施例的文字识别模型的训练方法可以先获取初始文字识别模型，通过对该初始文字识别模型的训练，来得到第一文字识别模型。从而可以使得生成参考信息的第一文字识别模型更为精准，便于提高训练效率和训练精度。

示例性地，文字识别模型的训练方法还包括通过以下方式获得第一文字识别模型：将以目标格式表示文字的第二目标图像作为训练样本来训练初始文字识别模型，获得第一文字识别模型。该初始文字识别模型的架构与第一文字识别模型相同，区别在于该初始文字识别模型中的参数为预先设定的初始参数。其中，第二目标图像中可以包括多个文字，该多个文字可以为词语或短语等。

在一实施例中，可以维护有字库，该实施例可以从字库中随机抽取多个文字，并采用前述生成第一目标图像的方法来基于抽取的多个文字生成第二目标图像。其中，第二目标图像中包括的多个文字可以随机排列。通过该方式，可以避免因某个字在词语或短语中的出现频率过低，使得文字识别模型无法学习到该某个字的特征的情况。

基于此，如图6所示，该实施例600的文字识别模型的训练方法可以包括预训练阶段和训练阶段。

在预训练阶段中，对初始文字识别模型610进行训练。该初始文字识别模型610包括特征提取层611、编码层612和解码层613。在该预训练阶段中，可以采用包括目标格式表示的随机文字“赵Xs鞍留f”的第二目标图像601作为训练样本，输入该初始文字识别模型610中，经过该初始文字识别模型610中各层的处理，可以得到预测文字602。其中，第二目标图像可以基于无语料的乱序字符串生成，该乱序字符串为从使用场景中的字符集中随机抽取到的。随后基于该预测文字与随机文字的差异，来对初始文字识别模型610中的各层进行训练，得到具有一定的特征提取能力的模型，并将该模型作为第一文字识别模型620和第二文字识别模型630的初始模型。则第一文字识别模型620包括特征提取层621、编码层622和解码层623，第二文字识别模型630包括特征提取层631、编码层632和解码层633。

在训练阶段，保持第一文字识别模型的网络参数为不变量。从预定图像库中随机抽取具有标签的一部分图像，作为样本图像606。该标签指示样本图像中包括的实际文字。随后，基于该实际文字生成第一目标图像603，并将该第一目标图像60输入第一文字识别模型620中，经由该第一文字识别模型620处理后得到预测的文字“专心致志”604。同时，将特征提取层621的输出作为第一特征图605。类似地，将该样本图像606输入第二文字识别模型630中，经由该第二文字识别模型630处理后得到预测文字607。同时，将特征提取层631的输出作为第二特征图608。将该第二特征图608和第一特征图605输入对齐处理模块640中，可以得到第一损失值609。其中，对齐处理模块640可以采用前述的确定第一损失值的原理基于第一特征图605和第二特征图608得到第一损失值609。随后可以基于该第一损失值609和预测文字607，对第二文字识别模型630进行训练。

通过该实施例的文字识别模型的训练方法，可以在减少所需的场景样本数量的基础上，实现对文字识别模型的训练精度。同时由于目标图像的生成仅需遵循目标格式即可，无需收集多种格式多种风格的图像作为模板，因此可以在一定程度上降低训练成本。

基于上文描述的文字识别模型的训练方法，本公开还提供了一种识别图像中文字的方法，该方法可以采用上述描述的文字识别模型训练得到的第二文字识别模型。以下将结合图7对该方法进行详细描述。

图7是根据本公开实施例的识别图像中文字的方法的流程示意图。

如图7所示，该实施例的识别图像中文字的方法700可以包括操作S710～操作S720。

在操作S710，以待识别图像作为文字识别模型的输入，获得文字识别模型输出的文字序列。

在操作S720，确定文字序列为待识别图像中的文字。

根据本公开的实施例，将待识别图像输入文字识别模型后，采用上述得到预测文字的类似方法可以得到文字序列，该文字序列表示的文字即为识别得到的图像中的文字。待识别图像可以为包括文字的任意图像，可以从预定数据库中获取，也可以实时拍摄，本公开对此不做限定。

基于上述的文字识别模型的训练方法，本公开还提供了一种文字识别模型的训练装置，以下将结合图8对该装置进行详细描述。

图8是根据本公开实施例的文字识别模型的训练装置的结构框图。

如图8所示，该实施例的文字识别模型的训练装置800可以包括第一特征获得模块810、第二特征获得模块820、第一损失确定模块830和训练模块840。

第一特征获得模块810用于以第一目标图像作为第一文字识别模型的输入，获得第一特征图。在一实施例中，第一特征获得模块810用于执行前文描述的操作S210，在此不再赘述。

第二特征获得模块820用于以样本图像作为第二文字识别模型的输入，获得第二特征图。其中，第二文字识别模型以第一文字识别模型作为初始模型，第一目标图像与样本图像包括相同的文字，且第一目标图像以目标格式表示文字。在一实施例中，第二特征获得模块820用于执行前文描述的操作S220，在此不再赘述。

第一损失确定模块830用于基于第一特征图和第二特征图的差异，确定第一损失值。在一实施例中，第一损失确定模块830用于执行前文描述的操作S230，在此不再赘述。

训练模块840用于基于第一损失值，对第二文字识别模型进行训练。在一实施例中，训练模块840用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，第一文字识别模型包括特征提取层和转换层。第一特征获得模块810用于以第一目标图像作为第一文字识别模型中特征提取层的输入，获得第一特征图。第二特征获得模块820用于以样本图像作为第二文字识别模型中特征提取层的输入，获得第二特征图。训练模块840用于基于第一损失值，对特征提取层进行训练。其中，转换层用于基于特征图确定图像中的预测文字。

根据本公开的实施例，转换层包括基于循环神经网络构建的编码层和解码层。上述文字识别模型的训练装置800还可以包括预测文字确定模块，用于通过以下方式确定样本图像中的预测文字：以第二特征图作为第二文字识别模型中编码层的输入，获得包含上下文信息的文字特征序列；以及以文字特征序列作为第二文字识别模型中解码层的输入，获得预测文字。

根据本公开的实施例，转换层包括基于注意力机制构建的解码层。上述文字识别模型的训练装置800中的预测文字确定模块用于：基于第二文字识别模型中解码层的输入信息，采用注意力机制获得针对输入信息的至少一组权重系数；基于至少一组权重系数分别对输入信息进行加权，获得至少一个第一单字特征；以及基于至少一个单字特征，确定样本图像中的预测文字。

根据本公开的实施例，上述第一损失确定模块包括单字特征获得子模块、概率值获得子模块和损失值确定子模块。单字特征获得子模块用于针对第一特征图和第二特征图中的任一特征图，根据获得任一特征图的文字识别模型所确定的至少一组权重系数，分别对任一特征图进行加权，获得针对任一特征图的至少一个第二单字特征。概率值获得子模块用于将至少一个第二单字特征输入预定判别器中，获得针对任一特征图的概率值。损失值确定子模块用于基于针对第一特征图的概率值和针对第二特征图的概率值，确定第一损失值。

根据本公开的实施例，上述样本图像具有指示实际文字的标签。上述文字识别模型的训练装置800还包括第二损失值确定模块，用于基于实际文字和样本图像中的预测文字的差异，确定第二损失值。上述训练模块840包括第一训练子模块和第二训练子模块。第一训练子模块用于基于第二损失值，对转换层进行训练。第二训练子模块用于基于第一损失值和第二损失值，对特征提取层进行训练。

根据本公开的实施例，第二训练子模块包括加权和确定单元和训练单元。加权和确定单元用于确定第一损失值和第二损失值的加权和。训练单元用于基于加权和，对特征提取层进行训练。

根据本公开的实施例，上述文字识别模型的训练装置800还包括模型获得模块，用于通过以下方式获得第一文字识别模型：将以目标格式表示文字的第二目标图像作为训练样本来训练初始文字识别模型，获得该第一文字识别模型。其中，第二目标图像中的文字包括随机排列的多个文字。

基于上述的识别图像中文字的方法，本公开还提供了一种识别图像中文字的装置。以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的识别图像中文字的装置的结构框图。

如图9所示，该实施例的识别图像中文字的装置900可以包括文字序列获得模块910和文字确定模块920。

文字序列获得模块910用于以待识别图像作为文字识别模型的输入，获得文字识别模型输出的文字序列。其中，文字识别模型是采用前文描述的文字识别模型的训练装置训练的第二文字识别模型。在一实施例中，文字序列获得模块910可以用于执行前文描述的操作S710，在此不再赘述。

文字确定模块920用于确定文字序列为待识别图像中的文字。在一实施例中，文字确定模块920可以用于执行前文描述的操作S720，在此不再赘述。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的获取、存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图10示出了可以用来实施本公开的实施例的文字识别模型的训练方法和/或识别图像中文字的方法的示例电子设备1000的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1001执行上文所描述的各个方法和处理，例如文字识别模型的训练方法和/或识别图像中文字的方法。例如，在一些实施例中，文字识别模型的训练方法和/或识别图像中文字的方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM 1003并由计算单元1001执行时，可以执行上文描述的文字识别模型的训练方法和/或识别图像中文字的方法的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文字识别模型的训练方法和/或识别图像中文字的方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务(″Virtual Private Server″，或简称″VPS″)中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文字识别模型的训练方法，包括：

以第一目标图像作为第一文字识别模型中特征提取层的输入，获得第一特征图；所述第一文字识别模型还包括转换层；

以样本图像作为第二文字识别模型中特征提取层的输入，获得第二特征图，其中，所述第二文字识别模型以所述第一文字识别模型作为初始模型，所述样本图像具有指示实际文字的标签；

基于所述第一特征图和所述第二特征图的差异，确定第一损失值；

基于所述实际文字和所述样本图像中的预测文字的差异，确定第二损失值；以及

基于所述第一损失值，对所述第二文字识别模型进行训练，包括：基于所述第一损失值和所述第二损失值，对所述特征提取层进行训练；基于所述第二损失值，对所述转换层进行训练；

其中，所述第一目标图像与所述样本图像包括相同的文字，且所述第一目标图像以目标格式表示文字；

其中，所述转换层用于基于特征图确定图像中的预测文字；所述转换层还用于提取图像中文字的上下文信息。

2.根据权利要求1所述的方法，其中，所述转换层包括基于循环神经网络构建的编码层和解码层；所述方法还包括通过以下方式确定所述样本图像中的预测文字：

以所述第二特征图作为所述第二文字识别模型中所述编码层的输入，获得包含上下文信息的文字特征序列；以及

以所述文字特征序列作为所述第二文字识别模型中所述解码层的输入，获得所述样本图像中的预测文字。

3.根据权利要求1或2所述的方法，其中，所述转换层包括基于注意力机制构建的解码层；确定所述样本图像中的预测文字包括：

基于所述第二文字识别模型中所述解码层的输入信息，采用所述注意力机制获得针对所述输入信息的至少一组权重系数；

基于所述至少一组权重系数分别对所述输入信息进行加权，获得至少一个第一单字特征；以及

基于所述至少一个第一单字特征，确定所述样本图像中的预测文字。

4.根据权利要求3所述的方法，其中，基于所述第一特征图和所述第二特征图的差异，确定第一损失值包括：

针对所述第一特征图和所述第二特征图中的任一特征图，根据获得所述任一特征图的文字识别模型所确定的至少一组权重系数，分别对所述任一特征图进行加权，获得针对所述任一特征图的至少一个第二单字特征；

将所述至少一个第二单字特征输入预定判别器中，获得针对所述任一特征图的概率值；以及

基于针对所述第一特征图的概率值和针对所述第二特征图的概率值，确定所述第一损失值。

5.根据权利要求1所述的方法，其中，所述基于所述第一损失值和所述第二损失值，对所述特征提取层进行训练包括：

确定所述第一损失值和所述第二损失值的加权和；以及

基于所述加权和，对所述特征提取层进行训练。

6.根据权利要求1所述的方法，还包括通过以下方式获得所述第一文字识别模型：

将以所述目标格式表示文字的第二目标图像作为训练样本来训练初始文字识别模型，获得所述第一文字识别模型，

其中，所述第二目标图像中的文字包括随机排列的多个文字。

7.一种识别图像中文字的方法，包括：

以待识别图像作为文字识别模型的输入，获得所述文字识别模型输出的文字序列；以及

确定所述文字序列为所述待识别图像中的文字，

其中，所述文字识别模型是采用权利要求1～6中任一项所述的方法训练的第二文字识别模型。

8.一种文字识别模型的训练装置，包括：

第一特征获得模块，用于以第一目标图像作为第一文字识别模型中特征提取层的输入，获得第一特征图；所述第一文字识别模型还包括转换层；

第二特征获得模块，用于以样本图像作为第二文字识别模型中特征提取层的输入，获得第二特征图，其中，所述第二文字识别模型以所述第一文字识别模型作为初始模型，所述样本图像具有指示实际文字的标签；

第一损失确定模块，用于基于所述第一特征图和所述第二特征图的差异，确定第一损失值；

第二损失值确定模块，用于基于所述实际文字和所述样本图像中的预测文字的差异，确定第二损失值；以及

训练模块，用于基于所述第一损失值，对所述第二文字识别模型进行训练，

其中，所述训练模块包括：

第一训练子模块，用于基于所述第二损失值，对所述转换层进行训练；以及

第二训练子模块，用于基于所述第一损失值和所述第二损失值，对所述特征提取层进行训练；

9.根据权利要求8所述的装置，其中，所述转换层包括基于循环神经网络构建的编码层和解码层；所述装置还包括预测文字确定模块，用于通过以下方式确定所述样本图像中的预测文字：

以所述文字特征序列作为所述第二文字识别模型中所述解码层的输入，获得所述预测文字。

10.根据权利要求8或9所述的装置，其中，所述转换层包括基于注意力机制构建的解码层；所述装置中的预测文字确定模块用于：

11.根据权利要求10所述的装置，其中，所述第一损失确定模块包括：

单字特征获得子模块，用于针对所述第一特征图和所述第二特征图中的任一特征图，根据获得所述任一特征图的文字识别模型所确定的至少一组权重系数，分别对所述任一特征图进行加权，获得针对所述任一特征图的至少一个第二单字特征；

概率值获得子模块，用于将所述至少一个第二单字特征输入预定判别器中，获得针对所述任一特征图的概率值；以及

损失值确定子模块，用于基于针对所述第一特征图的概率值和针对所述第二特征图的概率值，确定所述第一损失值。

12.根据权利要求8所述的装置，其中，所述第二训练子模块包括：

加权和确定单元，用于确定所述第一损失值和所述第二损失值的加权和；以及

训练单元，用于基于所述加权和，对所述特征提取层进行训练。

13.根据权利要求8所述的装置，还包括模型获得模块，用于通过以下方式获得所述第一文字识别模型：

14.一种识别图像中文字的装置，包括：

文字序列获得模块，用于以待识别图像作为文字识别模型的输入，获得所述文字识别模型输出的文字序列；以及

文字确定模块，用于确定所述文字序列为所述待识别图像中的文字，

其中，所述文字识别模型是采用权利要求8～13中任一项所述的装置训练的第二文字识别模型。

15.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1～7中任一项所述的方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1～7中任一项所述的方法。

17.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1～7中任一项所述的方法。