CN115909376A

CN115909376A - 文本识别方法、文本识别模型训练方法、装置及存储介质

Info

Publication number: CN115909376A
Application number: CN202211356777.2A
Authority: CN
Inventors: 吕鹏原; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-11-01
Filing date: 2022-11-01
Publication date: 2023-04-04

Abstract

本公开提供了一种文本识别方法、文本识别模型训练方法、装置及存储介质。涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。具体实现方案为：获取目标图片的目标特征；获取N个参考特征序列，N为正整数；基于目标特征和N个参考特征序列，得到N个D维特征序列，D为正整数；基于所述N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系；基于字符位置、字符类别和字符间的连接关系，得到目标图片的文本识别结果。根据本公开的方案，能提高文本检测与识别的准确度。

Description

文本识别方法、文本识别模型训练方法、装置及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、图像处理、计算机视觉技术领域，可应用于光学字符识别等场景。

背景技术

文字检测与识别技术可以被广泛应用于社会的各行各业，如教育、医疗、金融等领域。相关技术中，大多采用基于文本粒度的方式进行文字检测和识别，但是，在大字符间距、中文行列难以区分等文本场景下，很难基于视觉信息判断出文本的粒度，进而导致检测与识别的准确性较差。

发明内容

本公开提供了一种文本识别方法、文本识别模型训练方法、装置及存储介质。

根据本公开的第一方面，提供了一种文本识别方法，包括：

获取目标图片的目标特征；

获取N个参考特征序列，N为正整数；

基于目标特征和N个参考特征序列，得到N个D维特征序列，D为正整数；

基于N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系；

基于字符位置、字符类别和字符间的连接关系，得到目标图片的文本识别结果。

根据本公开的第二方面，提供了一种文本识别模型训练方法，包括：

获取待训练图片；

获取N个参考特征序列，N为正整数；

将待训练图片和N个参考特征序列输入待训练模型，得到待训练模型输出的待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；

通过字符的位置预测值、类别预测值和字符间连接关系预测值，以及待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对待训练模型进行训练，获得文本识别模型。

根据本公开的第三方面，提供了一种文本识别装置，包括：

第一获取模块，用于获取目标图片的目标特征；

第二获取模块，用于获取N个参考特征序列，N为正整数；

第一确定模块，用于基于目标特征和N个参考特征序列，得到N个D维特征序列，D为正整数；

第二确定模块，用于基于N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系；

识别模块，用于基于字符位置、字符类别和字符间的连接关系，得到目标图片的文本识别结果。

根据本公开的第四方面，提供了一种文本识别模型训练装置，包括：

第三获取模块，用于获取待训练图片；

第四获取模块，用于获取N个参考特征序列，N为正整数；

第三确定模块，用于将待训练图片和N个参考特征序列输入待训练模型，得到待训练模型输出的待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；

训练模块，用于通过字符的位置预测值、类别预测值和字符间连接关系预测值，以及待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对待训练模型进行训练，获得文本识别模型。

根据本公开的第五方面，提供了一种电子设备，包括：

至少一个处理器；

与至少一个处理器通信连接的存储器；

存储器存储有可以被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面提供的文本识别方法和/或第二方面提供的文本识别模型训练方法。

根据本公开的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行第一方面提供的文本识别方法和/或第二方面提供的文本识别模型训练方法。

根据本公开的第七方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现第一方面提供的文本识别方法和/或第二方面提供的文本识别模型训练方法。

根据本公开的技术方案，能提高文本检测与识别的准确度。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本申请进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本申请公开的一些实施方式，而不应将其视为是对本申请范围的限制。

图1是根据本公开实施例的文本识别方法的流程示意图；

图2是根据本公开实施例的文本识别模型中解码模型的处理示意图；

图3是根据本公开实施例的文本识别模型中预测模型的处理示意图；

图4是根据本公开实施例的任意形状文本图片示意图；

图5是根据本公开实施例的文本识别处理流程示意图；

图6是根据本公开实施例的文本识别效果示意图；

图7是根据本公开实施例的文本识别模型训练方法的流程示意图；

图8是根据本公开实施例的文本识别装置的结构示意图；

图9是根据本公开实施例的文本识别模型训练装置的结构示意图；

图10是根据本公开实施例的文本识别的场景示意图；

图11是根据本公开实施例的文本识别模型训练的场景示意图；

图12是用来实现本公开实施例的文本识别模型训练方法和/或文本识别方法的电子设备的结构示意图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的说明书实施例和权利要求书及上述附图中的术语“第一”、“第二”和“第三”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元。方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

相关技术中，为了应对任意形状的文本识别场景，文本检测识别方案主要为基于候选框的两级方案：首先得到文本候选框，然后再对框内的文本做细粒度的检测和识别。基于文本粒度的检测和识别，在大字符间距的文本场景下往往很难基于视觉信息判断出文本的粒度。此外，对于中文行列难以区分的场景，也难以得到比较准确的结果。

本公开为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题，提出了一种文本识别方法，能提高文本检测与识别的准确度。

本公开实施例提供了一种文本识别方法，图1是根据本公开实施例的文本识别方法的流程示意图，该文本识别方法可以应用于文本识别装置。该文本识别装置位于电子设备。该电子设备包括但不限于固定设备和/或移动设备。例如，固定设备包括但不限于服务器，服务器可以是云服务器或普通服务器。例如，移动设备包括但不限于：手机、平板电脑、车载终端。在一些可能的实现方式中，该文本识别方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示，该文本识别方法包括：

S101：获取目标图片的目标特征；

S102：获取N个参考特征序列，N为正整数；

S103：基于目标特征和N个参考特征序列，得到N个D维特征序列，D为正整数；

S104：基于N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系；

S105：基于字符位置、字符类别和字符间的连接关系，得到目标图片的文本识别结果。

本公开实施例中，目标图片为待识别的图片。目标图片包括文本内容。

本公开实施例中，可采用任何可行实现方式来获取目标图片。例如，可通过拍摄获得目标图片。又例如，可从本地获取目标图片。再比如，可接收其他设备发送的目标图片。以上仅为示例性说明，不作为对目标图片全部可能的获取方式的限定，只是这里不做穷举。

本公开实施例中，参考特征序列是文本识别时所参考的特征序列。参考特征序列可通过自学习获得。比如，给定初始学习特征，通过自学习模型来获取N个参考特征序列。N个参考特征序列可跟随自学习情况进行不断更新。以识别英文文本为例，可基于26个英文字母、0～9十个数字、1个非字符，得到37个参考特征序列。以识别中文文本为例，可基于字典中汉字、0～9十个数字、1个非字符，得到成百上千个参考特征序列。

本公开实施例中，D维是指特征序列的维度数。比如，D＝2；又比如，D＝3，再比如，D＝5等。D的取值可根据识别精度进行设置或调整，也可根据识别速度进行设置或调整。以D＝3为例，3维特征序列，包括字符位置维度上的特征序列，字符类别维度上的特征序列，字符与其他字符间关系维度上的特征序列。以上仅为示例性说明，不作为对D维特征序列全部可能的方式的限定，只是这里不做穷举。

本公开实施例中，字符位置可以是字符在目标图片中的位置，可以理解为字符框位置。本公开实施例不对字符框的形状进行限定。比如，字符框可以是矩形，还可以是圆形，也可以是椭圆形等等。

本公开实施例中，字符类别可以是字符所属的类别。比如，字符是属于字母，还是属于数字，还是属于汉字，还是属于非字符，等等。

本公开实施例中，字符间的连接关系可以是当前字符与其他字符之间的连接关系。这里，连接关系可以用字符之间的位置关系来表示。比如，目标图片中有M个字符，可以用任一字符与其他M-1个字符的位置之间的距离，表示该任一字符与其他M-1个字符间的连接关系。

本公开实施例中，基于N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系，包括：基于N个D维特征序列，分别确定出目标图片的字符位置、目标图片的字符类别和目标图片的字符间的连接关系。这里，目标图片的字符位置、目标图片的字符类别和目标图片的字符间的连接关系，可以是同时确定出的。如此，有助于提高文本别识别速度。

本公开实施例的技术方案，获取目标图片的目标特征；获取N个参考特征序列；基于目标特征和N个参考特征序列，得到N个D维特征序列，能为文本识别提供统一的数据支撑，提高文本识别所依据的特征序列的正确性；基于N个D维特征序列，确定目标图片的字符位置、字符类别和字符间的连接关系，能同时确定出字符位置、字符类别和字符间的连接关系，进而有助于提高文本识别的速度；基于字符位置、字符类别和字符间的连接关系，得到目标图片的文本识别结果，在进行文本识别时，考虑了字符间的连接关系，能够提高文本识别的准确性，尤其能提高任意形状文本场景下的文本识别效果。

在一些实施例中，S101可包括：

S101a：通过文本识别模型中特征提取模型获取目标图片的初始特征；

S101b：为初始特征添加位置编码，得到目标特征。

本公开实施例中，文本识别模型是预先训练好的模型，特征提取模型是文本识别模型的一个组成部分。具体如何训练文本识别模型将在后文详细描述，在此不再赘述。

这里，特征提取模型可使用卷积神经网络(Convolutional Neural Networks，CNN)，且可以采用任意结构的卷积神经网络。诸如视觉几何群网络(Visual GeometryGroup Network，VGG)模型、主干特征提取网络(renset)、密集卷积网络(DenseNet)、轻量级卷积神经网络(MobileNet)等，以及一些可用于改善网络效果的算子，诸如可变形卷积(deformconv Deformable Conv)、空洞卷积(dilated convolution)、空洞卷积变体(inception(dilated))等，都可以被用于本方案。为了同时获取局部特征和更深层次的语义特征，特征金字塔(Feature Pyramid Networks，FPN)、路径聚合网络(Path AggregationNetwork，PAN)等网络结构也可以被用于提取图片特征。

在一些实施方式中，先将目标图片输入文本识别模型中的特征提取模型，获取该特征提取模型输出的目标图片的初始特征；再为初始特征添加位置编码(Positionalencoding)，得到目标特征。具体如何添加位置编码可采用任何可行的位置编码添加方式，在此不再列举。如此，能够提升确定出的目标特征的易识别性，进而有助于提升确定出的M维特征序列的准确性，从而有助于提升文本识别效果。

在一些实施方式中，直接将目标图片输入文本识别模型中的特征提取模型，获取该特征提取模型输出的目标图片的初始特征；将初始特征确定为目标图片的目标特征。如此，能够提升确定出的目标特征的速度，进而有助于提升M维特征序列的确定速度，从而有助于提升文本识别速度。

如此，能够提升确定出的目标特征的易识别性，进而有助于提升确定出M维特征序列的准确性，从而有助于提升文本识别效果。

在一些实施例中，S102可包括：

S102a：将随机初始化特征输入文本识别模型中搜索模型；

S102b：获取搜索模型输出的N个参考特征序列。

本公开实施例中，文本识别模型是预先训练好的模型，搜索模型(query模型)是文本识别模型的一个组成部分。具体如何训练文本识别模型将在后文详细描述，在此不再赘述。

这里，随机初始化特征可根据预识别的内容进行调整，以使随机初始化特征更适合目标图片，从而有助于提高文本识别结果的准确性。其中，随机初始化特征可从已知数据库中提取。

在一些实施方式中，基于将随机初始化特征输入query模型，获取query模型生成的N个参考特征序列。如此，能够提高获取N个参考特征序列的速度，有助于提高文本识别流程的统一性。

这里，query模型自动会学习的过程中，会不断更新N个参考特征序列。N个参考特征序列可通过嵌入(Embedding)学习得到，也可以通过预先设定的函数得到，在此不再列举。

在一些实施方式中，获取N个参考特征序列，包括：根据预识别目标从数据库中获取与该预识别目标相对应的N个参考特征序列。这里，预识别目标可以是中文，还可以是外文。如此，能够提高获取N个参考特征序列的准确度。

如此，能够提高获取N个参考特征序列的速度，有助于提高文本识别流程的统一性。

在一些实施例中，S103可包括：

S103a：将目标特征和N个参考特征序列输入文本识别模型中解码模型；

S103b：获取解码模型输出的N个D维特征序列。

本公开实施例中，文本识别模型是预先训练好的模型，解码模型(transformerdecoder模型)是文本识别模型的一个组成部分。具体如何训练文本识别模型将在后文详细描述，在此不再赘述。

在一些实施方式中，将目标特征和N个参考特征序列输入文本识别模型中的解码模型，获取该解码模型输出的目标图片的N个D维特征序列。D的取值可根据识别精度进行设置或调整，也可根据识别速度进行设置或调整，在此不再列举。

图2示出了文本识别模型中解码模型的处理示意图，如图2所示，将目标图片的图片特征和N个参考特征序列输入解码模型(transformer decoder模型)，由解码模型输出N个D维特征序列。

如此，能够依据N个参考特征序列，结合目标图片的目标特征确定出N个D维特征序列，能为文本识别提供数据支撑，提高文本识别所依据的特征序列的正确性。

在一些实施例中，S104可包括：

S104a：将N个D维特征序列分别输入文本识别模型的第一预测模型、第二预测模型和第三预测模型；

S104b：获得第一预测模型输出的目标图片的字符位置，第二预测模型输出的目标图片的字符类别，以及第三预测模型输出的目标图片的字符间的连接关系。

本公开实施例中，第一预测模型用于预测字符的位置，第二预测模型用于预测字符的类别，第三预测模型用于预测字符间连接关系。

本公开实施例中，预测模型包括第一预测模型、第二预测模型和第三预测模型。

本公开实施例中，文本识别模型是预先训练好的模型，预测模型是文本识别模型的一个组成部分。具体如何训练文本识别模型将在后文详细描述，在此不再赘述。

在一些实施方式中，将每个D维特征序列分别输入文本识别模型的第一预测模型、第二预测模型和第三预测模型，获取第一预测模型输出的针对该D维特征序列的字符位置，第二预测模型输出的针对该D维特征序列的字符类别，以及第三预测模型输出的针对该D维特征序列的字符间的连接关系。

图3示出了文本识别模型中预测模型的处理示意图，如图3所示，将目标图片的每个D维特征序列，分别输入第一预测模型、第二预测模型和第三预测模型，由第一非线性模块输出字符的位置，由第二非线性模块输出字符的类别，由第三非线性模块输出字符与其他字符之间的连接关系。其中，第一预测模型、第二预测模型和第三预测模型均采用非线性前馈网络(Feedforward Networks，FFN)结构，且三者之间的参数不共享。如此，使用多任务并行的方式，同时预测字符位置、字符类别和字符间的连接关系，能高效的得到文本检测识别结果。

如此，能够基于N个D维特征序列，同时对目标图片的字符位置、字符类别，字符间的连接关系进行预测，有助于提升文本识别的速度。

在一些实施例中，文本识别结果包括文本的包围框和字符串。S105可包括：

S105a：基于字符类别确定候选字符；

S105b：基于字符位置确定候选字符的位置；

S105c：基于字符间的连接关系和候选字符的位置，得到目标图片包括的文本的包围框和字符串。

这里，候选字符是符合识别目标的字符。例如，目标图片包括M个字符，其中2个字符的字符类别为非字符，则目标图片中包括M-2个候选字符。

这里，基于字符位置确定候选字符的位置，包括：基于各个字符对应的字符的位置，能够确定出各候选字符的位置。

在一些实施方式中，基于字符间的连接关系和候选字符的位置，得到目标图片包括的文本的包围框和字符串，包括：基于各候选字符的位置，确定文本的包围框；基于字符间的连接关系，确定出每个候选字符的相邻字符，进而得到字符串。

图4是根据本公开实施例的任意形状文本图片示意图，如图4所示，该图片中包括字符串“OYSTER”、“COMPANY”，这两个字符串并不位于同一水平线上，属于任意形状文本；该图片中的“T O M A L E S B A Y”、“Since 1909”、“Quality Oysters”和“The best…youdepend on it！”属于正常形状文本。

图5是根据本公开实施例的文本识别处理的示意图，将图4所示图片输入文本识别模型，文本识别模型确定目标图片的字符位置、字符类别和字符间的连接关系；基于字符位置(可记为box)、字符类别(可记为cls)和字符间的连接关系(可记为linking)，得到目标图片的文本识别结果，即得到文本实例的包围框以及对应的字符串。

将图4所示图片输入文本识别模型，可得到图6示出的文本识别效果。如图6所示，无论是正常文本，还是任意形状文本，均能得到正确的识别，能处理现有模型难以处理的长文本，任意形状文本，提高文本检测与识别精度。

如此，在进行文本识别时，同时考虑字符类别、字符位置、字符间的连接关系，能够提高文本识别的准确性，尤其能提高任意形状文本场景下的文本识别效果。

应理解，图2、图3、图4、图5和图6所示的示意图仅仅是示例性而不是限制性的，并且其是可扩展的，本领域技术人员可以基于图2、图3、图4、图5和图6的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例提供了一种文本识别模型训练方法，该文本识别模型训练方法可以应用于电子设备。以下，将结合图7所示流程示意图，对本公开实施例提供的一种文本识别模型训练方法进行说明。需要说明的是，虽然在流程示意图中示出了逻辑顺序，但是，在某些情况下，也可以以其他顺序执行所示出或描述的步骤。

S701：获取待训练图片；

S702：获取N个参考特征序列，N为正整数；

S703：将待训练图片和N个参考特征序列输入待训练模型，得到该待训练模型输出的待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；

S704：通过字符的位置预测值、类别预测值和字符间连接关系预测值，以及待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对该待训练模型进行训练，获得文本识别模型。

本公开不对S701和S702的执行顺序进行限定。S701和S702可以同时执行。或者，S701先于S702执行。或者，S702先于S701执行。

本公开实施例中，待训练图片的字符的位置真值、类别真值和字符间连接关系真值，可以是人为标注的真值，也可以是从数据源获取的可信的真值。需要说明的是，本公开不对真值的来源进行限定。

本公开实施例中，文本识别模型用于根据输入的图片输出文本识别结果。文本识别结果可包括文本内容和文本的包围框。

其中，待训练模型用于根据待训练图片和N个参考特征序列，实现待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值，输出文本识别结果，文本识别结果包括文本的包围框和字符串。基于此，可以理解的是，本公开实施例中，待训练模型可以包括至少一个特征提取模型，至少用于提取目标图片的目标特征；至少一个搜索模型，至少用于获取N个参考特征序列；至少一个预测模型，用于预测待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值，该预测模型至少包括第一预测模型、第二预测模型和第三预测模型，其中，第一预测模型用于预测字符的位置，第二预测模型用于预测字符的类别，第三预测模型用于预测字符间的连接关系。文本识别模型是通过待训练图片对待训练模型进行训练获得的，因此，与待训练模型具有相同的模型结构，区别在于模型参数在经过训练后被更新。

如此，相对于先得到文本候选框，然后再对框内的文本做细粒度的检测和识别的处理方案而言，可以提高文本检测与识别的速度，还能提升文本检测与识别的准确性。

在一些实施例中，待训练模型包括第一预测模型、第二预测模型和第三预测模型。其中，第一预测模型用于预测字符的位置；第二预测模型用于预测字符的类别；第三预测模型用于预测字符间连接关系。

在一些实施例中，S703可包括：

S703a：基于字符的位置预测值和字符的位置真值确定第一损失函数；

S703b：基于字符的类别预测值和字符的类别真值确定第二损失函数；

S703c：基于字符间连接关系预测值和字符间连接关系真值确定第三损失函数；

S703d：分别使用第一损失函数训练第一预测模型，使用第二损失函数训练第二预测模型，使用第三损失函数训练第三预测模型。

这里，第一损失函数可以是交叉熵损失函数(Cross Entropy，CE)。可以理解，第一损失函数还可以是可用于多分类任务的其他类型损失函数。

这里，第二损失函数可以是SmoothL1。可以理解，第二损失函数还可以是可用于回归任务的其他类型损失函数。

这里，第三损失函数可以是二元交叉熵损失函数(Binary Cross Entrop，BCE)。可以理解，第三损失函数还可以是可用于二分类任务的其他类型损失函数。

本公开不对S703a、S703b和S703c的执行顺序进行限定。S703a、S703b和S703c可以同时执行。或者，S703a先于S703b和S703c执行，S703b和S703c同时执行。或者，S703b先于S703a和S703c执行，S703a和S703c同时执行。或者，S703c先于S703a和S703b执行，S703a和S703b同时执行。或者，按照S703a、S703b、S703c的顺序依次执行。或者，按照S703a、S703c、S703b的顺序依次执行。或者，按照S703b、S703a、S703c的顺序依次执行。或者，按照S703b、S703c、S703a的顺序依次执行。或者，按照S703c、S703a、S703b的顺序依次执行。或者，按照S703c、S703b、S703a的顺序依次执行。

如此，能够更好地确定损失函数，能够提高文本识别模型的训练速度，以进一步提高文本检测与识别的准确性。

在一些实施例中，S704可包括：

S704a：确定字符的位置预测值和字符的位置真值的交并比(Intersection overUnion，IOU)；

S704b：基于交并比得到M*N矩阵，N为参考特征序列的个数，M为待训练图片包括的字符的个数；

S704c：基于M*N矩阵，得到字符的位置预测值和字符的位置真值的匹配关系；

S704d：基于匹配关系，将匹配到位置真值的参考特征序列对应的类别，设置为字符的类别；

S704e：基于匹配到位置真值的参考特征序列，将属于同一个文本实例的连接关系的真值设置为1，将不在同一个文本实例的连接关系的真值设置为0，其中，1表示有连接关系，0表示无连接关系。

基于此，执行对待训练模型的训练。

对于训练数据S＝{I,{L₁,L₂…L_n}}，其中，I为图片，L_i＝{L_i1,L_i2…L_im}为文本实例，L_ij为第i个文本实例对应的第j个字符框及其类别。将I输入到网络中，网络将输出预测结果P＝{p₁,p₂,p₃}，其中，p_i＝{cls_i,loc_i,link_i}分别对应第i个query的字符类别预测，位置预测和连接关系预测。本公开实施例，可通过匈牙利算法(Hungarian algorithm)，将字符类别预测值，位置预测值和连接关系预测值，与各自对应的真值(label)进行匹配，动态地指定每一个预测结果P的真值。

示例性地，具体训练过程如下：

步骤1：计算预测的字符框(简称预测框)和字符框label(简称真值框)的两两之间的IOU得到一个M*N的矩阵；

步骤2：基于步骤1得到的矩阵，通过匈牙利算法，得到预测框(是指字符框)和真值框的匹配关系。

步骤3：基于步骤2得到的匹配关系，把匹配到真值框的query对应的分类任务的label设置为对应的字符类别，没有匹配到的设置为0(0表示非字符)。同时，基于匹配到的query，将属于同一个文本实例的连接关系的label设置为1(1表示有连接关系)，不在同一个文本实例的连接关系的label设置为0(0表示没有连接关系)。

步骤4：分别使用CE、SmoothL1和BCE三个损失函数对分类任务、定位任务(字符框位置预测)，字符连接任务进行优化，直至收敛达到预设截止条件。这里，预设截止条件可以是精度达到预设阈值，或者，在预设时间内精度不再提升。

如此，能够提高文本识别模型的训练优化效果，进一步提高文本识别模型进行文本检测与识别的准确性。

本公开提出了一种高效率高精度的任意形状文本检测识别方案，能进一步提升文本尤其是对现有模型难以处理的长文本，任意形状文本的检测识别精度，为其他文字识别及理解相关的应用带来更高的精度，提高文本识别效果。另外，还能节省文本识别消耗的流量，节省流量资源。

本公开实施例提供了一种文本识别装置，如图8所示，该文本识别装置可以包括：第一获取模块801，用于获取目标图片的目标特征；第二获取模块802，用于获取N个参考特征序列，N为正整数；第一确定模块803，用于基于该目标特征和该N个参考特征序列，得到N个D维特征序列，D为正整数；第二确定模块804，用于基于该N个D维特征序列，确定该目标图片的字符位置、字符类别和字符间的连接关系；识别模块805，用于基于字符位置、字符类别和字符间的连接关系，得到该目标图片的文本识别结果。

在一些实施例中，该第一获取模块801，用于：通过文本识别模型中特征提取模型获取目标图片的初始特征；为该初始特征添加位置编码，得到目标特征。

在一些实施例中，该第二获取模块802，用于：将随机初始化特征输入文本识别模型中搜索模型；获取该搜索模型输出的该N个参考特征序列。

在一些实施例中，该第一确定模块803，用于：将该目标特征和该N个参考特征序列输入文本识别模型中解码模型；获取该解码模型输出的该N个D维特征序列。

在一些实施例中，该第二确定模块804，用于：将该N个D维特征序列分别输入文本识别模型的第一预测模型、第二预测模型和第三预测模型；获得该第一预测模型输出的该目标图片的字符位置，该第二预测模型输出的该目标图片的字符类别，以及该第三预测模型输出的该目标图片的字符间的连接关系。

在一些实施例中，该识别模块805，用于：基于该字符类别确定候选字符；基于该字符位置确定该候选字符的位置；基于该字符间的连接关系和该候选字符的位置，得到该目标图片包括的文本的包围框和字符串，该文本识别结果包括该文本的包围框和字符串。

本领域技术人员应当理解，本公开实施例的文本识别装置中各处理模块的功能，可参照前述的文本识别方法的相关描述而理解，本公开实施例的文本识别装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的文本识别装置，能提高文本检测与识别的准确度。

本公开实施例提供了文本识别模型训练装置，如图9所示，该装置可以包括：第三获取模块901，用于获取待训练图片；第四获取模块902，用于获取N个参考特征序列，N为正整数；第三确定模块903，用于将该待训练图片和该N个参考特征序列输入待训练模型，得到该待训练模型输出的该待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；训练模块904，用于通过该字符的位置预测值、类别预测值和字符间连接关系预测值，以及该待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对该待训练模型进行训练，获得文本识别模型。

在一些实施例中，待训练模型包括，第一预测模型、第二预测模型和第三预测模型，该训练模块904，用于：基于该字符的位置预测值和该字符的位置真值确定第一损失函数；基于该字符的类别预测值和该字符的类别真值确定第二损失函数；基于该字符间连接关系预测值和该字符间连接关系真值确定第三损失函数。

分别使用该第一损失函数训练该第一预测模型，使用该第二损失函数训练该第二预测模型，使用该第三损失函数训练该第三预测模型，该第一预测模型用于预测字符的位置，该第二预测模型用于预测字符的类别，该第三预测模型用于预测字符间连接关系。

在一些实施例中，该训练模块904，还用于：确定该字符的位置预测值和该字符的位置真值的交并比；基于该交并比得到M*N矩阵，N为参考特征序列的个数，M为该待训练图片包括的字符的个数；基于该M*N矩阵，得到该字符的位置预测值和该字符的位置真值的匹配关系；基于该匹配关系，将匹配到位置真值的参考特征序列对应的类别，设置为该字符的类别；基于匹配到位置真值的参考特征序列，将属于同一个文本实例的连接关系的真值设置为1，将不在同一个文本实例的连接关系的真值设置为0，其中，1表示有连接关系，0表示无连接关系。

本领域技术人员应当理解，本公开实施例的文本识别模型训练装置中各处理模块的功能，可参照前述的文本识别模型训练方法的相关描述而理解，本公开实施例的文本识别模型训练装置中各处理模块，可通过实现本公开实施例该的功能的模拟电路而实现，也可以通过执行本公开实施例该的功能的软件在电子设备上的运行而实现。

本公开实施例的文本识别模型训练装置，能提高文本检测与识别的准确度。

本公开实施例提供了一种文本识别的场景示意图，如图10所示。

如前所述的，本公开实施例提供的文本识别方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

获取目标图片的目标特征；

获取N个参考特征序列，N为正整数；

基于该目标特征和该N个参考特征序列，得到N个D维特征序列，D为正整数；

基于该N个D维特征序列，确定该目标图片的字符位置、字符类别和字符间的连接关系；

基于该字符位置、该字符类别和该字符间的连接关系，得到该目标图片的文本识别结果。

其中，目标图片的目标特征，以及参考特征序列可以从图片数据源获取。图片数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。图片数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，图片数据源与用户终端可以是同一设备。

应理解，图10所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图10的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开实施例还提供了一种文本识别模型训练装置，如图11所示。

如前所述的，本公开实施例提供的文本识别模型训练方法应用于电子设备。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。

获取待训练图片；

获取N个参考特征序列，N为正整数；

其中，待训练图片，以及参考特征序列可以从图片数据源获取。图片数据源可以是各种形式的数据存储设备，例如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。图片数据源还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。此外，图片数据源与用户终端可以是同一设备。

应理解，图11所示的场景图仅仅是示意性而非限制性的，本领域技术人员可以基于图11的例子进行各种显而易见的变化和/或替换，得到的技术方案仍属于本公开实施例的公开范围。

本公开的技术方案中，所涉及的用户个人信息的获取，存储和应用等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质、一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字助理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(Read-Only Memory，ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RandomAccess Memory，RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM1203通过总线1204彼此相连。输入/输出(Input/Output，I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(Central Processing Unit，CPU)、图形处理单元(Graphics Processing Unit，GPU)、各种专用的人工智能(ArtificialIntelligence，AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(Digital Signal Processor，DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如文本识别方法/文本识别模型训练方法。例如，在一些实施例中，文本识别方法/文本识别模型训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的文字识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文本识别方法/文本识别模型训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(Field Programmable Gate Array，FPGA)、专用集成电路(Application Specific Integrated Circuit，ASIC)、专用标准产品(Application-Specific Standard Products，ASSP)、芯片上系统的系统(System on Chip，SOC)、复杂可编程逻辑设备(Complex Programmable Logic Device，CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器、只读存储器、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、快闪存储器、光纤、便捷式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，阴极射线管(Cathode Ray Tube，CRT)或者液晶显示器(Liquid Crystal Display，LCD)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入、或者触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(Local Area Network，LAN)、广域网(Wide Area Network，WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端和服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文本识别方法，包括：

获取目标图片的目标特征；

获取N个参考特征序列，N为正整数；

基于所述目标特征和所述N个参考特征序列，得到N个D维特征序列，D为正整数；

基于所述N个D维特征序列，确定所述目标图片的字符位置、字符类别和字符间的连接关系；

基于所述字符位置、所述字符类别和所述字符间的连接关系，得到所述目标图片的文本识别结果。

2.根据权利要求1所述的方法，其中，所述获取目标图片的目标特征，包括：

通过文本识别模型中特征提取模型获取所述目标图片的初始特征；

为所述初始特征添加位置编码，得到所述目标特征。

3.根据权利要求1所述的方法，其中，所述获取N个参考特征序列，包括：

将随机初始化特征输入文本识别模型中搜索模型；

获取所述搜索模型输出的所述N个参考特征序列。

4.根据权利要求1所述的方法，其中，所述基于所述目标特征和所述N个参考特征序列，得到N个D维特征序列，包括：

将所述目标特征和所述N个参考特征序列输入文本识别模型中解码模型；

获取所述解码模型输出的所述N个D维特征序列。

5.根据权利要求1所述的方法，其中，所述基于所述N个D维特征序列，确定所述目标图片的字符位置、字符类别和字符间的连接关系，包括：

将所述N个D维特征序列分别输入文本识别模型的第一预测模型、第二预测模型和第三预测模型；

获得所述第一预测模型输出的所述目标图片的字符位置，所述第二预测模型输出的所述目标图片的字符类别，以及所述第三预测模型输出的所述目标图片的字符间的连接关系。

6.根据权利要求1所述的方法，其中，所述基于所述字符位置、所述字符类别和所述字符间的连接关系，得到所述目标图片的文本识别结果，包括：

基于所述字符类别确定候选字符；

基于所述字符位置确定所述候选字符的位置；

基于所述字符间的连接关系和所述候选字符的位置，得到所述目标图片包括的文本的包围框和字符串，所述文本识别结果包括所述文本的包围框和字符串。

7.一种文本识别模型训练方法，包括：

获取待训练图片；

获取N个参考特征序列，N为正整数；

将所述待训练图片和所述N个参考特征序列输入待训练模型，得到所述待训练模型输出的所述待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；

通过所述字符的位置预测值、类别预测值和字符间连接关系预测值，以及所述待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对所述待训练模型进行训练，获得文本识别模型。

8.根据权利要求7所述的方法，其中，所述待训练模型包括第一预测模型、第二预测模型和第三预测模型，所述通过所述字符的位置预测值、类别预测值和字符间连接关系预测值，以及所述待训练图片包括的字符的位置真值、类别真值和字符间连接关系真值，对所述待训练模型进行训练，包括：

基于所述字符的位置预测值和所述字符的位置真值确定第一损失函数；

基于所述字符的类别预测值和所述字符的类别真值确定第二损失函数；

基于所述字符间连接关系预测值和所述字符间连接关系真值确定第三损失函数；

分别使用所述第一损失函数训练所述第一预测模型，使用所述第二损失函数训练所述第二预测模型，使用所述第三损失函数训练所述第三预测模型，所述第一预测模型用于预测字符的位置，所述第二预测模型用于预测字符的类别，所述第三预测模型用于预测字符间连接关系。

9.根据权利要求7或8所述的方法，其中，所述通过所述字符的位置预测值、类别预测值和字符间连接关系预测值，以及所述待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对所述待训练模型进行训练，包括：

确定所述字符的位置预测值和所述字符的位置真值的交并比；

基于所述交并比得到M*N矩阵，N为参考特征序列的个数，M为所述待训练图片包括的字符的个数；

基于所述M*N矩阵，得到所述字符的位置预测值和所述字符的位置真值的匹配关系；

基于所述匹配关系，将匹配到位置真值的参考特征序列对应的类别，设置为所述字符的类别；

基于匹配到位置真值的参考特征序列，将属于同一个文本实例的连接关系的真值设置为1，将不在同一个文本实例的连接关系的真值设置为0，其中，1表示有连接关系，0表示无连接关系。

10.一种文本识别装置，包括：

第一获取模块，用于获取目标图片的目标特征；

第二获取模块，用于获取N个参考特征序列，N为正整数；

第一确定模块，用于基于所述目标特征和所述N个参考特征序列，得到N个D维特征序列，D为正整数；

第二确定模块，用于基于所述N个D维特征序列，确定所述目标图片的字符位置、字符类别和字符间的连接关系；

识别模块，用于基于所述字符位置、所述字符类别和所述字符间的连接关系，得到所述目标图片的文本识别结果。

11.根据权利要求10所述的装置，其中，所述第一获取模块，用于：

为所述初始特征添加位置编码，得到所述目标特征。

12.根据权利要求10所述的装置，其中，所述第二获取模块，用于：

将随机初始化特征输入文本识别模型中搜索模型；

获取所述搜索模型输出的所述N个参考特征序列。

13.根据权利要求10所述的装置，其中，所述第一确定模块，用于：

获取所述解码模型输出的所述N个D维特征序列。

14.根据权利要求10所述的装置，其中，所述第二确定模块，用于：

15.根据权利要求10所述的装置，其中，所述识别模块，用于：

基于所述字符类别确定候选字符；

基于所述字符位置确定所述候选字符的位置；

16.一种文本识别模型训练装置，包括：

第三获取模块，用于获取待训练图片；

第四获取模块，用于获取N个参考特征序列，N为正整数；

第三确定模块，用于将所述待训练图片和所述N个参考特征序列输入待训练模型，得到所述待训练模型输出的所述待训练图片的字符的位置预测值、类别预测值和字符间连接关系预测值；

训练模块，用于通过所述字符的位置预测值、类别预测值和字符间连接关系预测值，以及所述待训练图片的字符的位置真值、类别真值和字符间连接关系真值，对所述待训练模型进行训练，获得文本识别模型。

17.根据权利要求16所述的装置，其中，所述待训练模型包括第一预测模型、第二预测模型和第三预测模型，所述训练模块，用于：

18.根据权利要求16或17所述的装置，其中，所述训练模块，还用于：

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

21.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-9中任一项所述的方法。