CN111402164B

CN111402164B - 矫正网络模型的训练方法和装置、文本识别方法和装置

Info

Publication number: CN111402164B
Application number: CN202010190907.4A
Authority: CN
Inventors: 程苗苗; 蔡晓聪; 侯军
Original assignee: Beijing Sensetime Technology Development Co Ltd
Current assignee: Beijing Sensetime Technology Development Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2023-10-24
Anticipated expiration: 2040-03-18
Also published as: CN111402164A

Abstract

本公开实施例提供一种矫正网络模型的训练方法和装置、文本识别方法和装置，其中，矫正网络模型的训练方法可以包括：通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果；基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果；利用样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数。

Description

矫正网络模型的训练方法和装置、文本识别方法和装置

技术领域

本公开涉及机器学习技术，具体涉及一种矫正网络模型的训练方法和装置、文本识别方法和装置。

背景技术

文本识别可以在多种场景中有多种应用，例如，招牌文本识别、车牌识别等。而真实场景下的文本可能会是一些不规则的文本，比如，角度不正，文字弯曲、文字倾斜等，这种不规则文本难以用原图扫描识别。相关技术中进行文本识别时，可以先将文本图像矫正成规则的形状，再通过对矫正后的图像进行识别得到图像中的文本。但是实践发现，上述这种识别方式的识别效果仍然有待提高。

发明内容

有鉴于此，本公开实施例至少提供一种矫正网络模型的训练方法和装置、文本识别方法和装置。

第一方面，提供一种矫正网络模型的训练方法，所述方法包括：

通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果；

基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果；

利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数。

在一些实施例中，所述利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，包括：通过分割网络模型对所述样本文本图像进行分割处理，得到所述参考分割结果，并根据所述参考分割结果对所述第一图像分割结果进行监督。

在一些实施例中，所述基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果，包括：对所述矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。

在一些实施例中，所述矫正网络模型包括特征提取子网络；所述通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果，包括：通过所述矫正网络模型中的特征提取子网络对所述样本文本图像进行特征提取，得到特征提取结果；所述利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数，包括：利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型中的特征提取子网络的网络参数。

在一些实施例中，所述矫正网络模型包括矫正子网络，所述方法还包括：通过所述矫正子网络对所述特征提取结果进行处理，得到多个矫正点，并基于所述多个矫正点和所述样本文本图像获得矫正样本图像；所述方法还包括：基于对所述矫正样本图像的样本文本识别结果，调整矫正网络模型的网络参数。

在一些实施例中，所述方法用于训练文本识别网络模型，其中，所述文本识别网络模型包括：所述矫正网络模型和识别网络模型；所述方法还包括：通过所述识别网络模型对所述矫正网络模型得到的矫正样本图像进行识别处理，得到样本文本识别结果；根据所述样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

在一些实施例中，所述根据所述样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数，包括：基于所述样本文本识别结果与所述样本文本图像的标签信息，得到识别损失；基于所述识别损失、以及通过所述第一图像分割结果和参考分割结果得到的分割损失，得到总网络损失；基于所述总网络损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。

第二方面，提供一种文本识别方法，所述方法由文本识别网络模型执行，所述方法包括：

通过所述文本识别网络模型中的矫正网络模型对待识别的文本图像进行矫正处理，得到矫正图像；

通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果，其中，所述矫正网络模型是通过本公开任一实施例所述的训练方法训练得到。

在一些实施例中，所述待识别的文本图像包括：不规则文本的文本图像。

第三方面，提供一种矫正网络模型的训练装置，所述装置包括：

特征提取模块，用于通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果；

图像分割模块，用于基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果；

参数调整模块，用于利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数。

在一些实施例中，所述参数调整模块，具体用于：通过分割网络模型对所述样本文本图像进行分割处理，得到所述参考分割结果，并根据所述参考分割结果对所述第一图像分割结果进行监督。

在一些实施例中，所述图像分割模块，具体用于：对所述矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。

在一些实施例中，所述特征提取模块，具体用于：通过所述矫正网络模型中的特征提取子网络对所述样本文本图像进行特征提取，得到特征提取结果；所述参数调整模块，具体用于：利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型中的特征提取子网络的网络参数。

在一些实施例中，所述装置还包括：矫正处理模块，用于通过所述矫正网络模型包括的矫正子网络对所述特征提取结果进行处理，得到多个矫正点，并基于所述多个矫正点和所述样本文本图像获得矫正样本图像；所述参数调整模块，还用于基于对所述矫正样本图像的样本文本识别结果，调整所述矫正网络模型的网络参数。

在一些实施例中，所述装置还包括：识别处理模块，用于通过识别网络模型对所述矫正网络模型得到的矫正样本图像进行识别处理，得到样本文本识别结果；待训练的文本识别网络模型包括所述识别网络模型和矫正网络模型；所述参数调整模块，还用于根据所述识别网络模型得到的样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

在一些实施例中，所述参数调整模块，在用于调整所述矫正网络模型和识别网络模型中的至少一种的网络参数时，包括：基于所述样本文本识别结果与所述样本文本图像的标签信息，得到识别损失；基于所述识别损失、以及通过所述第一图像分割结果和参考分割结果得到的分割损失，得到总网络损失；基于所述总网络损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。

第四方面，提供一种文本识别装置，所述装置包括：

图像矫正模块，用于通过文本识别网络模型中的矫正网络模型对待识别的文本图像进行矫正处理，得到矫正图像；

图像识别模块，用于通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果，其中，所述矫正网络模型是通过本公开任一实施例所述的方法训练得到。

第五方面，提供一种电子设备，包括：存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机指令，实现本公开任一实施例所述的矫正网络模型的训练方法，或者本公开任一实施例所述的文本识别方法。

第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的矫正网络模型的训练方法，或者本公开任一实施例所述的文本识别方法。

第七方面，提供一种计算机程序，所述程序被处理器执行时实现本公开任一实施例所述的矫正网络模型的训练方法，或者本公开任一实施例所述的文本识别方法。

本公开实施例提供的矫正网络模型的训练方法和装置、文本识别方法和装置，通过利用样本文本图像的参考分割结果对第一图像分割结果进行监督，使得矫正网络模型的训练中获得了图像分割的监督，有助于帮助矫正网络模型得到更好的特征提取结果，从而提高训练得到的矫正网络的矫正效果，进而提高对文本图像尤其是不规则文本的文本图像的文本识别精度。

附图说明

为了更清楚地说明本公开一个或多个实施例或相关技术中的技术方案，下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开一个或多个实施例中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出了本公开至少一个实施例提供的一种矫正网络模型的训练方法；

图2示出了本公开至少一个实施例提供的一种矫正网络模型的训练框架；

图3示出了本公开至少一个实施例提供的一种文本识别网络模型的训练框架示意图；

图4示出了图3对应的文本识别网络模型的训练过程；

图5示出了本公开至少一个实施例提供的一种文本识别方法的流程图；

图6示出了本公开至少一个实施例提供的一种矫正网络模型的训练装置；

图7示出了本公开至少一个实施例提供的一种矫正网络模型的训练装置；

图8示出了本公开至少一个实施例提供的一种文本识别装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开一个或多个实施例中的技术方案，下面将结合本公开一个或多个实施例中的附图，对本公开一个或多个实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本公开一部分实施例，而不是全部的实施例。基于本公开一个或多个实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本公开保护的范围。

文本识别可以使用先矫正再识别的两阶段法，例如，对于弯曲或者倾斜等不规则的文本图像，可以先通过矫正网络模型对该文本图像进行矫正，再通过识别网络模型对矫正后的图像进行识别，得到最终的识别文字。当然，文本识别不局限于文字的识别，还包括对图像中的数字、字符等其他类型文本内容的识别。

本公开实施例中，提供了一种对矫正网络模型的训练方法，如图1所示，该方法可以包括如下处理：

在步骤100中，通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果。

本公开实施例中，训练该矫正网络模型时使用的文本图像可以称为样本文本图像。该矫正网络模型可以对样本文本图像进行特征提取，得到特征提取结果，并基于样本提取结果，得到图像矫正结果，即矫正样本图像。示例性的，可以通过卷积层、池化层等网络结构对样本文本图像进行特征提取，例如，可以通过卷积神经网络CNN网络对样本文本图像进行特征提取，得到所述特征提取结果，例如，提取的一个或多个特征图。

在步骤102中，基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果。

本步骤中，可以根据步骤100中得到的特征提取结果，进行图像分割处理，得到的分割结果可以称为第一图像分割结果。示例性的，当特征提取结果包括特征图时，可以基于该特征图进行分割，得到第一图像分割结果。该第一图像分割结果可选地可以是前背景分割结果。例如，第一图像分割结果可以指示图像中哪些像素区域属于文本，哪些图像像素区域属于背景。

在步骤104中，利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数。

本公开实施例中，可以利用参考分割结果对第一图像分割结果进行监督，例如可以获取第一图像分割结果与参考分割结果之间的误差，以根据该误差调整矫正网络模型的网络参数。作为一个例子，可以调整该矫正网络模型中特征提取部分的参数，以使得该特征提取部分提取到更有效的特征。其中，该参考分割结果可以是通过其他方式获得的对样本文本图像的分割结果(本公开实施例不限制该参考分割结果的获得方式)，例如从网络获取该参考分割结果，从一些专用图像集获取该参考分割结果，或者，将训练好的分割网络对样本文本图像的分割结果作为参考分割结果，等等。在一些例子中，该参考分割结果也可以指示图像中哪些像素区域属于文本，哪些图像像素区域属于背景，并且将该参考分割结果作为第一图像分割结果的监督信息。

在一些实施例中，在该矫正网络模型的训练中，不局限于使用上述图像分割结果的监督，还可以使用其他的监督信息，并将其他监督信息与图像分割结果一起对矫正网络模型进行监督训练，以使得矫正网络模型得到更好的训练效果。

本公开实施例的矫正网络模型的训练方法，通过利用样本文本图像的参考分割结果对第一图像分割结果进行监督，使得矫正网络模型的训练中获得了图像分割的监督，有助于帮助矫正网络模型得到更好的特征提取结果，从而提高训练得到的矫正网络的矫正效果，进而提高对文本图像尤其是不规则文本的文本图像的文本识别精度。

实际实施中，矫正网络模型既可以与用于进行文本识别的识别网络模型一起进行端到端的训练，也可以与识别网络模型分开训练，例如，预先训练好识别网络模型，并利用预先训练好的识别网络模型训练矫正网络模型，或者反之。请继续参见图2，如图2所示，该矫正网络模型可以包括特征提取子网络21和矫正子网络22。

在训练阶段进行文本识别时，可以具体是通过所述矫正网络模型中的特征提取子网络21对样本文本图像进行特征提取，得到特征提取结果。再通过矫正子网络22对所述特征提取结果进行处理，得到矫正样本图像，例如，基于特征提取结果，对样本文本图像进行矫正处理，得到矫正样本图像。在一个例子中，矫正子网络22可以基于特征提取结果得到多个矫正点，并基于所述多个矫正点和样本文本图像获得矫正样本图像，也可以采取矫正点以外的其他方式获得矫正样本图像，本公开实施例对此不做限定。

其中，在一些实施例中，矫正网络模型训练时，可以是对矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。例如，如图2所示，可以通过上采样网络23对特征提取子网络21输出的特征提取结果进行上采样，得到第一图像分割结果。

在一个例子中，在利用样本文本图像的参考分割结果对所述第一图像分割结果进行监督时，可以是先通过图2中的分割网络模型24对所述样本文本图像进行分割处理，得到参考分割结果。再根据所述参考分割结果对所述第一图像分割结果进行监督。

例如，在训练阶段调整矫正网络模型的网络参数时，可以是根据所述样本文本图像的参考分割结果与第一图像分割结果得到分割loss，并根据该分割loss调整所述矫正网络模型的网络参数，例如，调整矫正网络模型中的特征提取子网络21的网络参数。

在另一个例子中，在训练阶段调整矫正网络模型的网络参数时，除了上述的分割loss，还可以基于对所述矫正样本图像的样本文本识别结果，调整所述矫正网络模型的网络参数。例如，可以结合分割loss、以及样本文本识别结果及其对应的监督信息，调整所述矫正网络模型的网络参数。

在其他的实施例中，矫正网络模型还可以与识别网络模型一起训练。例如，用于对文本图像进行识别的文本识别网络模型可以包括：所述矫正网络模型和识别网络模型。可以通过矫正网络模型对样本文本图像进行矫正得到矫正样本图像，并通过识别网络模型对矫正样本图像进行识别处理，得到样本文本识别结果，再根据样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

请参见图3所示，图3示出了本公开至少一个实施例提供的一种文本识别网络模型的训练框架示意图。该文本识别网络模型可以用于对任何类型文本的识别，包括但不限于正常文字、不规则文字、数字、字符等。

其中，该文本识别网络模型包括“矫正”和“识别”两个处理阶段。例如，以不规则文字为例，该不规则文字可以是一个弯曲的“ABC”，当将该弯曲ABC的文本图像输入文本识别网络模型后，网络将先对该文本图像做“矫正”处理，矫正后的文本图像中的ABC可以是正常的不再弯曲的形状。然后再对该矫正后的文本图像进行文字识别得到文本识别结果“ABC”。

该文本识别网络模型可以包括：特征提取子网络21、矫正子网络22、上采样网络23、分割网络模型24和识别网络模型25。其中，特征提取子网络21和矫正子网络22属于矫正网络模型，而上采样网络23和分割网络模型24是用于对矫正网络模型进行分割监督而增加的结构。

如下的图4将结合图3，描述文本识别网络模型的训练过程，如下的描述不限制各个步骤间的执行顺序，比如，待识别的文本图像可以同时输入到分割网络模型和特征提取子网络，还可以将分割loss的计算与矫正子网络的处理同步进行，等。

在步骤400中，通过矫正网络模型中的特征提取子网络，提取样本文本图像的图像特征，得到图像特征图。

例如，待识别的样本文本图像可以输入到文本识别网络模型的特征提取子网络21中，输出其图像特征图。该图像特征图就可以称为对样本文本图像进行特征提取得到的特征提取结果。

其中的特征提取子网络21可以采用CNN(Convolutional Neural Networks，卷积神经网络)网络。

在步骤402中，通过矫正网络模型中的矫正子网络对所述图像特征图进行处理，得到多个矫正点；并通过上采样网络对图像特征图进行上采样得到第一图像分割结果。

例如，CNN输出的图像特征图可以输出至矫正子网络22中，该矫正子网络22可以是一个双层全连接网络，得到输出的多个矫正点，例如，可以是20个矫正点。另一方面，该CNN输出的图像特征图还可以输入到上采样网络23中进行上采样处理，得到输出的第一图像分割结果。

在步骤404中，将样本文本图像输入预训练的分割网络模型，得到所述参考分割结果，并与上述第一图像分割结果计算得到分割loss。

本实施例中，待识别的样本文本图像可以输入到预训练的分割网络模型24中，例如，该分割网络模型24可以是CRAFT网络。例如，以样本文本图像中包括文字为例，不论是第一图像分割结果还是参考分割结果，都是对文字区域和非文字区域进行了区分识别，根据该第一图像分割结果还是参考分割结果可以计算两者之间的差异，获得分割损失(也称分割loss)。示例性的，可以采用交叉熵loss计算所述分割loss。并可以通过softmax交叉熵loss计算得到该参考分割结果与第一图像分割结果之间的分割loss。当然也可以采用其他损失函数，例如，还可以使用sigmoid loss。

在步骤406中，基于所述多个矫正点和样本文本图像，获得矫正样本图像。

例如，可以基于输入的待识别的样本文本图像和上述得到的20个矫正点，利用TPS(Tin Plate Spline，薄板样条插值)的方法得到矫正样本图像。

TPS法是指在对薄板中的N个点An形变到对应的N个点Bn时，采用的使得薄板弯曲能量最小的插值方法。弯曲变形能量小，意味着薄板整体的变形较为平滑，凹凸的部分被抹平了很多。此原理类似物理学中的能量守恒定理，将空间的所有点移动到势能最低的面。对于二维的图像来说，采用弯曲能量最小的原则，意味着变形后的图像更加平滑，不易出现文字的扭曲变形。例如，可以使用TPS法对图像进行柔性变换，比如，对于透视、弯曲等不规则文字的形状可以具有较好的矫正效果。

如上，在矫正阶段，可以将输入的样本文本图像矫正并转换成一个新的图像，该新的图像例如可以是将原文本图像中的不规则文本做矫正后的矫正图像。

在步骤408中，通过识别网络模型对所述矫正样本图像进行识别处理，得到样本文本识别结果。

例如，该识别网络模型25可以是Seq2Seq、LSTM+CTC等，本实施例不限制具体的识别网络模型的结构。矫正样本图像可以通过识别网络模型的识别处理，得到最终的样本文本识别结果，例如，预测出的文本图像中的文字是“ABC”。

在步骤410中，根据所述样本文本识别结果与所述样本文本图像的标签信息，得到识别损失。

在步骤412中，结合所述分割损失和识别损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。

例如，可以基于所述识别损失、以及通过所述第一图像分割结果和参考分割结果得到的分割损失，得到总网络损失。并可以根据所述总损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。比如，可以反向传播调整网络参数。

请结合参见图3所示，可以将分割loss和识别loss加和后，据此反向传播调整网络参数。例如可以调整图3中的特征提取子网络21、上采样网络23、矫正子网络22和识别网络模型25的网络参数。

本实施例的训练方法，通过根据图像特征图得到第一图像分割结果，并利用该第一图像分割结果与参考分割结果之间的分割损失对文本识别网络模型的训练进行监督，使得该文本识别网络模型的训练可以结合识别loss和分割loss进行监督，有了更多的监督信息，从而能够使得文本识别网络模型的训练效果更好；并且还可以通过分割网络模型自动生成参考分割结果，非常方便和快速。

通过上述训练方法训练后的文本识别网络模型，由于在训练阶段加强了对文本识别网络模型的监督，尤其是加强了对矫正网络模型的监督，使得在应用阶段样本文本识别结果时，精度将更好，提升了模型的鲁棒性。经过实验证明，相对于原有文本识别网络模型，采用本公开实施例的训练方法训练后，文本识别网络模型在不规则数据集上都有1到2个百分点的提升，如ICDAR15数据集精度从0.783提升到0.804，SVT-P从0.837提升到0.854。

并且，在文本识别网络模型的应用阶段，由于网络结构和预测流程不变，仍然是包括矫正网络模型和识别网络模型，具体包括特征提取子网络、矫正子网络等子网络，该文本识别网络模型的预测时间不会大幅增加，从而实现了在文字识别时间不增加的情况下提升了识别精度。该文本识别网络模型可以用于对多种场景中的文字进行识别，例如弯曲，倾斜等不规则文字，例如还可以对智能视频分析中的视频帧中的文字进行识别。

其中，需要说明的是，在训练中，该分割网络模型24可以用于生成参考分割结果，但是可以理解的是，参考分割结果的生成方式不限制于此，比如，还可以进行人工标注。此外，该上采样网络23和分割网络模型24只是在文本识别网络模型的训练过程中使用，在训练完成之后的网络应用阶段就不再存在。

图5示出了本公开至少一个实施例提供的一种文本识别方法的流程图，该方法可以由训练好的文本识别网络模型执行，如图5所示，该方法可以包括：

在步骤500中，通过所述文本识别网络模型中的矫正网络模型对待识别的文本图像进行矫正处理，得到矫正图像。

例如，所述待识别的文本图像可以包括：不规则文本的文本图像。比如，弯曲或倾斜的文字的图像。其中，文本识别网络模型中的所述矫正网络模型可以是通过本公开任一实施例的矫正网络模型的训练方法训练得到。

本步骤中，可以通过矫正网络模型对待识别的文本图像进行矫正处理，得到矫正图像，例如，该矫正图像可以是对不规则的文本图像中的形状进行了矫正处理后的图像。

在步骤502中，通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果。

例如，可以通过识别网络模型对所述矫正图像进行识别处理，得到文本识别结果。该文本识别结果可以是文本图像中包括的文字是ABC。

本实施例的文本识别方法，由于在训练阶段加强了对文本识别网络模型的监督，尤其是加强了对矫正网络模型的监督，使得在应用阶段样本文本识别结果时，精度将更好，提升了模型的鲁棒性。

图6提供了一种矫正网络模型的训练装置，该装置可以包括：特征提取模块61、图像分割模块62和参数调整模块63。

特征提取模块61，用于通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果。

图像分割模块62，用于基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果。

参数调整模块63，用于利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数。

在一个例子中，参数调整模块63，具体用于：通过分割网络模型对所述样本文本图像进行分割处理，得到所述参考分割结果，并根据所述参考分割结果对所述第一图像分割结果进行监督。

在一个例子中，图像分割模块62，具体用于：对所述矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。

在一个例子中，特征提取模块61，具体用于：通过所述矫正网络模型中的特征提取子网络对所述样本文本图像进行特征提取，得到特征提取结果。参数调整模块63具体用于：利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型中的特征提取子网络的网络参数。

在一个例子中，如图7所示，该装置还可以包括：矫正处理模块64。

矫正处理模块64，用于通过所述矫正网络模型包括的矫正子网络对所述特征提取结果进行处理，得到多个矫正点，并基于所述多个矫正点和所述样本文本图像获得矫正样本图像。

所述参数调整模块63，还用于基于对所述矫正样本图像的样本文本识别结果，调整所述矫正网络模型的网络参数。

在一个例子中，该装置还可以包括：识别处理模块65，用于通过识别网络模型对所述矫正网络模型得到的矫正样本图像进行识别处理，得到样本文本识别结果；待训练的文本识别网络模型包括所述识别网络模型和矫正网络模型。

参数调整模块63，还用于根据所述识别网络模型得到的样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

在一个例子中，所述参数调整模块63，在用于调整所述矫正网络模型和识别网络模型中的至少一种的网络参数时，包括：

基于所述样本文本识别结果与所述样本文本图像的标签信息，得到识别损失；基于所述识别损失、以及通过所述第一图像分割结果和参考分割结果得到的分割损失，得到总网络损失；基于所述总网络损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。

图8提供了一种文本识别装置，该装置可以包括：图像矫正模块81和图像识别模块82。

图像矫正模块81，用于通过文本识别网络模型中的矫正网络模型对待识别的文本图像进行矫正处理，得到矫正图像。例如，所述待识别的文本图像包括：不规则文本的文本图像。

图像识别模块82，用于通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果。其中，所述矫正网络模型是通过本公开任一实施例所述的方法训练得到。

在一些实施例中，上述装置可以用于执行上文所述的对应任意方法，为了简洁，这里不再赘述。

本公开实施例还提供了一种电子设备，所述设备包括存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机指令，实现本说明书任一实施例的方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现本说明书任一实施例的方法。

本领域技术人员应明白，本公开一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本公开一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本公开一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开实施例还提供一种计算机可读存储介质，该存储介质上可以存储有计算机程序，所述程序被处理器执行时实现本公开任一实施例描述的用于文字识别的神经网络的训练方法的步骤，和/或，实现本公开任一实施例描述的文字识别方法的步骤。

其中，本公开实施例所述的“和/或”表示至少具有两者中的其中一个，例如，“多和/或B”包括三种方案：多、B、以及“多和B”。

本公开中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于数据处理设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

上述对本公开特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的行为或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本公开中描述的主题及功能操作的实施例可以在以下中实现：数字电子电路、有形体现的计算机软件或固件、包括本公开中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本公开中描述的主题的实施例可以实现为一个或多个计算机程序，即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地，程序指令可以被编码在人工生成的传播信号上，例如机器生成的电、光或电磁信号，该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。

本公开中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行，以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPG多(现场可编程门阵列)或多SIC(专用集成电路)来执行，并且装置也可以实现为专用逻辑电路。

适合用于执行计算机程序的计算机包括，例如通用和/或专用微处理器，或任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备，例如磁盘、磁光盘或光盘等，或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据，抑或两种情况兼而有之。然而，计算机不是必须具有这样的设备。此外，计算机可以嵌入在另一设备中，例如移动电话、个人数字助理(PD多)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备，仅举几例。

适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备，例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。

虽然本公开包含许多具体实施细节，但是这些不应被解释为限制任何公开的范围或所要求保护的范围，而是主要用于描述特定公开的具体实施例的特征。本公开内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面，在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外，虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护，但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除，并且所要求保护的组合可以指向子组合或子组合的变型。

类似地，虽然在附图中以特定顺序描绘了操作，但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行，以实现期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离，并且应当理解，所描述的程序组件和系统通常可以一起集成在单个软件产品中，或者封装成多个软件产品。

由此，主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下，权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外，附图中描绘的处理并非必需所示的特定顺序或顺次顺序，以实现期望的结果。在某些实现中，多任务和并行处理可能是有利的。

以上所述仅为本公开一个或多个实施例的较佳实施例而已，并不用以限制本公开一个或多个实施例，凡在本公开一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本公开一个或多个实施例保护的范围之内。

Claims

1.一种矫正网络模型的训练方法，其特征在于，所述方法包括：

利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数；

其中，所述利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，包括：

通过分割网络模型对所述样本文本图像进行分割处理，得到所述参考分割结果，并根据所述参考分割结果对所述第一图像分割结果进行监督。

2.根据权利要求1所述的方法，其特征在于，所述基于所述矫正网络模型得到的所述特征提取结果，得到第一图像分割结果，包括：对所述矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。

3.根据权利要求1或2所述的方法，其特征在于，所述矫正网络模型包括特征提取子网络；

所述通过所述矫正网络模型对样本文本图像进行特征提取，得到特征提取结果，包括：通过所述矫正网络模型中的特征提取子网络对所述样本文本图像进行特征提取，得到特征提取结果；

所述利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数，包括：

利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型中的特征提取子网络的网络参数。

4.根据权利要求1或2所述的方法，其特征在于，所述矫正网络模型包括矫正子网络，所述方法还包括：通过所述矫正子网络对所述特征提取结果进行处理，得到多个矫正点，并基于所述多个矫正点和所述样本文本图像获得矫正样本图像；

所述方法还包括：基于对所述矫正样本图像的样本文本识别结果，调整所述矫正网络模型的网络参数。

5.根据权利要求1或2所述的方法，其特征在于，所述方法用于训练文本识别网络模型，其中，所述文本识别网络模型包括：所述矫正网络模型和识别网络模型；

所述方法还包括：

通过所述识别网络模型对所述矫正网络模型得到的矫正样本图像进行识别处理，得到样本文本识别结果；

根据所述样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

6.根据权利要求5所述的方法，其特征在于，所述根据所述样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数，包括：

基于所述样本文本识别结果与所述样本文本图像的标签信息，得到识别损失；

基于所述识别损失、以及通过所述第一图像分割结果和参考分割结果得到的分割损失，得到总网络损失；

基于所述总网络损失，调整所述文本识别网络模型中的矫正网络模型和识别网络模型中的至少一种的网络参数。

7.一种文本识别方法，其特征在于，所述方法由文本识别网络模型执行，所述方法包括：

通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果，其中，所述矫正网络模型是通过权利要求1～6任一所述的方法训练得到。

8.根据权利要求7所述的方法，其特征在于，所述待识别的文本图像包括：不规则文本的文本图像。

9.一种矫正网络模型的训练装置，其特征在于，所述装置包括：

参数调整模块，用于利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型的网络参数；

其中，所述参数调整模块，具体用于：通过分割网络模型对所述样本文本图像进行分割处理，得到所述参考分割结果，并根据所述参考分割结果对所述第一图像分割结果进行监督。

10.根据权利要求9所述的装置，其特征在于，

所述图像分割模块，具体用于：对所述矫正网络模型得到的所述特征提取结果进行上采样处理，得到第一图像分割结果。

11.根据权利要求9或10所述的装置，其特征在于，

所述特征提取模块，具体用于：通过所述矫正网络模型中的特征提取子网络对所述样本文本图像进行特征提取，得到特征提取结果；

所述参数调整模块，具体用于：利用所述样本文本图像的参考分割结果对所述第一图像分割结果进行监督，以调整所述矫正网络模型中的特征提取子网络的网络参数。

12.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

矫正处理模块，用于通过所述矫正网络模型包括的矫正子网络对所述特征提取结果进行处理，得到多个矫正点，并基于所述多个矫正点和所述样本文本图像获得矫正样本图像；

所述参数调整模块，还用于基于对所述矫正样本图像的样本文本识别结果，调整所述矫正网络模型的网络参数。

13.根据权利要求9或10所述的装置，其特征在于，所述装置还包括：

识别处理模块，用于通过识别网络模型对所述矫正网络模型得到的矫正样本图像进行识别处理，得到样本文本识别结果；待训练的文本识别网络模型包括所述识别网络模型和矫正网络模型；

所述参数调整模块，还用于根据所述识别网络模型得到的样本文本识别结果，调整所述矫正网络模型和识别网络模型中的至少一种的网络参数。

14.根据权利要求13所述的装置，其特征在于，所述参数调整模块，在用于调整所述矫正网络模型和识别网络模型中的至少一种的网络参数时，包括：

15.一种文本识别装置，其特征在于，所述装置包括：

图像识别模块，用于通过所述文本识别网络模型中的识别网络模型对所述矫正图像进行识别处理，得到文本识别结果，其中，所述矫正网络模型是通过权利要求1至6任一所述的方法训练得到。

16.根据权利要求15所述的装置，其特征在于，所述待识别的文本图像包括：不规则文本的文本图像。

17.一种电子设备，其特征在于，包括：存储器、处理器，所述存储器用于存储计算机可读指令，所述处理器用于调用所述计算机可读指令，实现权利要求1至6任一所述的方法，或者权利要求7和8任一所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现权利要求1至6任一所述的方法，或者权利要求7和8任一所述的方法。