CN113486881B

CN113486881B - 一种文本识别方法、装置、设备及介质

Info

Publication number: CN113486881B
Application number: CN202111034114.4A
Authority: CN
Inventors: 曹润东; 刘辉; 刘霄
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-09-03
Filing date: 2021-09-03
Publication date: 2021-12-07
Anticipated expiration: 2041-09-03
Also published as: CN113486881A

Abstract

本公开涉及一种文本识别方法、装置、设备及介质，该方法包括：获取包含文本内容的原始文本图像；对原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和第一检测框的第一位置坐标；对原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和第二检测框的第二位置坐标；根据第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，有效检测框为包含有效文本内容的第二检测框；对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果。本公开能够提升文本识别准确率。

Description

一种文本识别方法、装置、设备及介质

技术领域

本公开涉及文本识别技术领域，尤其涉及一种文本识别方法、装置、设备及介质。

背景技术

文本识别是指对文本图像进行文本提取，从而将文本图像所包含的文本内容转化为易于处理的文本信息。传统的文本识别技术对常规场景下的文本图像，已经能够取得较好的识别效果。但是实际应用中，存在大量文本内容复杂的文本图像，比如：文本图像中的文本内容为手写文本，文本图像上版面为多栏布局以及版面编排形式无规律、变化多样等；对于文本内容复杂的文本图像，现有的文本识别技术很难做到有效地文本提取，导致识别出的文本准确率低。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种文本识别方法、装置、设备及介质。

根据本公开的一方面，提供了一种文本识别方法，包括：

获取包含文本内容的原始文本图像；对所述原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和所述第一检测框的第一位置坐标；对所述原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和所述第二检测框的第二位置坐标；根据所述第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，所述有效检测框为包含有效文本内容的第二检测框；对有序排列的所述有效检测框对应的区域图像进行识别，得到文本识别结果。

根据本公开的另一方面，提供了一种文本识别装置，包括：

图像获取模块，用于获取包含文本内容的原始文本图像；第一检测模块，用于对所述原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和所述第一检测框的第一位置坐标；第二检测模块，用于对所述原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和所述第二检测框的第二位置坐标；检测框确定模块，用于根据所述第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，所述有效检测框为包含有效文本内容的第二检测框；文本识别模块，用于对有序排列的所述有效检测框对应的区域图像进行识别，得到文本识别结果。

根据本公开的另一方面，提供了一种电子设备，所述电子设备包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据上述文本识别方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据文本识别方法。

本公开实施例提供的技术方案与现有技术相比具有如下优点：

本公开实施例提供了一种文本识别方法、装置、设备及介质，该方法包括：首先对原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框及其第一位置坐标；以及，对原始图像进行文本行的检测，得到每个文本行对应的第二检测框及其第二位置坐标；然后根据第一检测框、第一位置坐标和第二位置坐标，从第二检测框中确定有序排列的有效检测框；最后对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果。本公开能够提升文本识别准确率。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的文本识别方法流程图；

图2为本公开实施例提供的确定有效检测框的方法流程图；

图3为本公开实施例提供的文本识别装置的结构示意图；

图4为本公开实施例提供的电子设备的结构示意图。

具体实施方式

为了能够更清楚地理解本公开的上述目的、特征和优点，下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

考虑到对于文本内容复杂的文本图像，现有的文本识别技术很难做到有效地文本提取，导致识别出的文本准确率低。本公开实施例提供了一种文本识别方法、装置、设备及介质。为便于理解，以下对本公开实施例进行详细介绍。

参照图1提供的一种文本识别方法流程图，该方法可以包括如下步骤：

步骤S102，获取包含文本内容的原始文本图像。在实际应用中，原始图像可以是用户通过在终端中的图像选择操作、图像拍摄操作或图像上传操作等方式获取的图像。原始图像所包含的文本内容诸如为：手写作文、试卷、卡证票据、办公文档等。

步骤S104，对原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和第一检测框的第一位置坐标。

本实施例可以利用预先训练好的文本行检测模型对原始文本图像中的各个文本区域进行检测，得到包围各个文本区域的第一检测框及其第一位置坐标；上述区域检测模型可以采用Yolo（You Only Look Once，只看一眼）模型。其中，第一位置坐标为第一检测框中多个关键点的位置坐标，该关键点比如四个顶点、中心点。

步骤S106，对原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和第二检测框的第二位置坐标。

本实施例可以利用预先训练好的文本行检测模型对原始文本图像中的各个文本行进行检测，得到包围各个文本行的第二检测框及其第二位置坐标；上述文本行检测模型可以采用TextSnake（文字蛇）模型。其中，第二位置坐标为第二检测框中顶点、中心点等多个关键点的位置坐标。通常，每个文本区域可以包括至少一个文本行，相应地，每个第一检测框中可以包围至少一个第二检测框。

步骤S108，根据第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，有效检测框为包含有效文本内容的第二检测框。

在本实施例中，针对同一第一检测框内的各第二检测框，根据第一位置坐标和第二位置坐标逐一判断各第二检测框是否为包含有效文本内容的检测框，并将判断结果为是的第二检测框确定为有效检测框。在确定有效检测框之后，可以根据有效检测框的第二位置坐标，将有效检测框进行有序排列，令有效检测框的排列顺序与原始文本图像中文本行的版面布局相同。确定有序排列的有效检测框的具体实现方式将在下文展开描述。

步骤S110，对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果。

在本实施例中，将原始文本图像上各个有效检测框对应的区域图像输入至预先训练好的文本识别模型，通过文本识别模型对各个区域图像进行识别，将全部区域图像的文本识别结果作为原始文本图像最终的文本识别结果。

本公开实施例提供的文本识别方法，首先检测原始文本图像，得到文本区域对应的第一检测框及其第一位置坐标，以及得到文本行对应的第二检测框及其第二位置坐标；然后根据第一检测框、第一位置坐标和第二位置坐标，从第二检测框中确定有序排列的有效检测框；相对于尺寸较大的文本区域对应的第一检测框，有效检测框是尺寸较小的文本行对应的检测框且包含效文本内容，对于文本内容复杂的图像，利用该有效检测框能够提升有效文本内容的检测召回率和准确率，进而对有序排列的有效检测框对应的区域图像进行识别，能够提升文本识别准确率。

考虑到不同场景下获取的原始文本图像的图像数据不统一，可能会影响文本框检测效果。基于此，在对原始文本图像进行检测之前，本实施例可以参照如下方式对原始文本图像进行预先处理：

根据不同的预设尺寸对原始文本图像进行缩放，分别得到第一尺寸的文本图像和第二尺寸的文本图像；对第一尺寸的文本图像的像素值进行归一化，得到第一图像；对第二尺寸的文本图像的像素值进行标准化，得到第二图像。

在具体实施例中，将原始文本图像缩放到指定的第一尺寸（如320*320），并进行矩阵化，得到第一尺寸的文本图像；而后对第一尺寸的文本图像的像素值进行归一化，也即将每一个像素值除以255，将像素值从0-255的范围转换成0-1的范围，得到第一图像。

将原始文本图像缩放到指定的第二尺寸（736*736），并进行矩阵化，得到第二尺寸的文本图像；而后对第二尺寸的文本图像的像素值进行标准化，也即将每一个像素值减去均值再除以标准差，得到第二图像。上述第一尺寸和第二尺寸可以相同或者不同。

在该实施例中，归一化不改变图像信息，在实际图像检测中能够加快训练网络模型的收敛性；标准化能够将图像数据拉至同一个量级，在实际图像检测中使网络模型更容易学习，能增加网络模型的泛化能力。此外，归一化后的第一图像能够突出文本区域与非文本区域之间的差别，从而易于复杂文本图像中主要文本区域（如手写作文的主区域）的检测；标准化后的第二图像，能够突出像素点之间的分布排列，易于文本行的检测。

在对原始文本图像进行文本区域的检测的具体实施例中，可以通过预设的YOLO模型对第一图像进行文本区域的检测，得到包围文本区域的第一候选框；该YOLO模型诸如为YOLOv5模型。

根据NMS（Non-Maximum Suppression，非极大值抑制）算法对第一候选框进行筛选，得到文本区域对应的第一检测框。具体的，根据NMS算法，可以设置第一检测框的置信度阈值（如0.35），根据第一候选框的置信度对第一候选框进行降序排列，选取置信度最高的第一候选框A，计算第一候选框A与所有第一候选框的IoU（Intersection over Union，交并比）值，将IoU值高于IoU阈值（如0.45）的第一候选框删除。重复上述过程，直至剩余一个第一候选框，将其作为第一检测框。

在对原始文本图像进行文本行的检测的具体实施例中，可以通过预设的TextSnake模型对第二图像进行文本行的检测，得到第二候选框；在TextSnake模型中，第二候选框表征为以对称轴为中心的有序的、重叠的圆盘序列，每个圆盘的几何参数包括：中心点坐标和半径。而后，参照前述实施例，根据NMS算法对第二候选框进行筛选，得到每个文本行对应的第二检测框。

本实施例利用第一图像和YOLO模型，能够提升对文本区域这种大尺寸检测框的检测准确性，利用第二图像和TextSnake模型，能够提升对文本行这种小尺寸检测框的检测准确性。

为了避免出现第一检测框无法完全包围第二检测框的情况，本实施例可以沿宽度或者高度的方向对第一检测框进行扩展，以高度方向为例，对第一检测框进行扩展的方式包括：

根据第一位置坐标判断第一检测框的高度是否小于宽度。具体的，根据第一位置坐标中四个顶点的位置坐标计算第一检测框的高度和宽度，判断第一检测框的高度是否小于宽度；如果是，则根据预设的高度扩展参数，将第一检测框沿着高度方向进行扩展，得到第三检测框和第三检测框的第三位置坐标。其中，高度扩展参数是第一检测框的高度h的指定倍数，该倍数如0.2倍，在此情况下，第三位置坐标中各个顶点的位置坐标可以参照如下公式所示：

n'_左上= n_左上 + h*0.2，其中，n'_左上为第三检测框中左上顶点的位置坐标，n_左上为第一检测框中左上顶点的位置坐标；

n'_左下= n_左下- h*0.2，其中，n'_左下为第三检测框中左下顶点的位置坐标，n_左下为第一检测框中左下顶点的位置坐标；

第三检测框中右上顶点、右下顶点以及其他关键点的位置坐标可参照上述左上顶点、左上顶点的位置坐标的计算方式，在此不再展开描述。

在本实施例中，第一检测框和第三检测框均是文本区域对应的检测框，为便于描述，可以将同一文本区域对应的第一检测框或第三检测框均称为目标检测框，换言之，目标检测框为第一检测框或者为与第一检测框对应的第三检测框。目标检测框为至少一个，且每个目标检测框中一般包围多个第二检测框。针对同一目标检测框中的多个第二检测框，在此提供一些基于第二检测框确定有效检测框的实施例。

本实施例针对同一目标检测框内的各第二检测框，可以根据预设的第一判断规则或者第二判断规则逐一判断第二检测框是否为有效检测框。

其中，第一判断规则包括以下中的至少一项：目标检测框与第二检测框之间的重叠面积、目标检测框与第二检测框对应的相同位置的顶点之间的坐标差异值和第二检测框内圆盘的几何参数；第二判断规则包括以下中的至少一项：第二检测框内圆盘的数量和圆盘的中心点的数量。

以下分别就第一判断规则和第二判断规则，对判断第二检测框是否为有效检测框的方式展开描述。

参照图2，根据预设的第一判断规则逐一判断第二检测框是否为有效检测框包括：

步骤S202，将同一目标检测框内的各第二检测框逐一作为当前第二检测框。

步骤S204，根据目标位置坐标和当前第二检测框的第二位置坐标，判断目标检测框与当前第二检测框之间的重叠面积是否达到预设的面积阈值；其中，与目标检测框相对应，目标位置坐标为第一位置坐标或者第三位置坐标。如果达到面积阈值，表示第二检测框所包围的文本行与目标检测框所包围的文本区域是重叠的，第二检测框中包含的文本行内容是有效的，在此情况下，执行如下步骤S206；如果未达到面积阈值，则执行如下步骤S208。

步骤S206，确定当前第二检测框为有效检测框。

步骤S208，判断当前第二检测框中预设顶点处的第二位置坐标，与目标检测框中相同位置顶点处的目标位置坐标之间的坐标差异值是否满足第一条件；其中，第一条件为：横坐标差异值dx₁与目标检测框的宽度w之间的比值小于第一比值k1，且纵坐标差异值dy₁与目标检测框的高度h之间的比值小于第二比值k2。上述第一比值k1和第二比值k2可以相同或者不同，比如均为1/10。

具体的，预设顶点以左上顶点为例，根据第二检测框中左上顶点处的第二位置坐标和目标检测框中左上顶点处的目标位置坐标，计算两个检测框的左上顶点之前的横坐标差异和纵坐标差异；如果满足如下第一条件：dx₁/w＜1/10，且dy₁/h＜1/10,则执行上述步骤S206，确定当前第二检测框为有效检测框；如果不满足第一条件，则执行如下步骤S210。

步骤S210，判断当前第二检测框内圆盘的几何参数是否满足第二条件；其中，第二条件为：当前第二检测框内的圆盘数量m1大于第一数量，相邻圆盘的中心点坐标之间的横坐标差异dx₂与目标检测框的宽度w之间的比值小于第三比值k3，以及多个圆盘的中心点坐标之间的最大纵坐标差异dy₂与目标检测框的高度h之间的比值小于第四比值k4。具体的，第二条件例如为：m1＞10，dx₂/w＜0.2以及dy₂/h＜0.3。

如果圆盘的几何参数满足第二条件，则执行上述步骤S206，确定当前第二检测框为有效检测框；如果不满足第二条件，则执行如下步骤S212。

步骤S212，确定当前第二检测框不是有效检测框。

至此，基于第一判断规则可以从第二检测框中确定出有效检测框。

在目标检测框为多个的情况下，本实施例还可以提供一种更加简单高效地确定有效检测框的方法，也即根据预设的第二判断规则逐一判断第二检测框是否为有效检测框，参照如下所示：

步骤1，将同一目标检测框内的各第二检测框逐一作为当前第二检测框。

步骤2，判断在第二检测框与目标检测框的重叠区域内，当前第二检测框对应的圆盘的第二数量m2，与表征当前第二检测框的圆盘的总数量m1之间的比值是否超过第五比值k5。通常，第五比值k5大于0.5，如果超过第五比值，比如m2/m1＞0.8，则表示第二检测框对应的80%以上的圆盘均落入第二检测框与目标检测框的重叠区域内，第二检测框中包含的文本行内容是有效的，在此情况下，执行如下步骤3。如果未超过第五比值，则执行如下步骤4补充的判断过程。

步骤3，确定当前第二检测框为有效检测框。

步骤4，判断在第二检测框与目标检测框的重叠区域内，当前第二检测框对应的圆盘的中心点的第三数量，与表征当前第二检测框的圆盘的总数量之间的比值是否超过第五比值。

具体的，在步骤2中，会仅有圆盘的局部在第二检测框与目标检测框的重叠区域内，该圆盘不会被统计进第二数量中，但该圆盘的中心点却在上述重叠区域内；在此情况下，该圆盘所表示的文本区域是有较高概率存在效文本内容的。从而，本实施例遍历第二检测框的圆盘的中心点，统计在第二检测框与目标检测框的重叠区域内，圆盘的中心点的第三数量m3。计算第三数量m3与圆盘总数量m1之间的第五比值k5；通常，k5≥k4。如果超过第五比值，则执行上述步骤3，也即确定当前第二检测框为有效检测框；如果未超过第五比值，则执行如下步骤5。

步骤5，确定当前第二检测框不是有效检测框。

在目标检测框为多个的情况下，本实施例提供的根据第二判断规则确定有效检测框的方式，能够更加简单高效。

根据以上实施例确定各个目标检测框内的多个有效检测框后，本实施例可以对有效检测框进行有序排列。针对同一目标检测框内的多个有效检测框，有序排列的实现方式可参照如下所示。

在一种实施例中，可以根据有效检测框中各个圆盘的中心点坐标，统计中心点的纵坐标均值，按照纵坐标均值的大小对有效检测框进行有序排列。比如，当将原始文本图像的左下顶点作为原点时，纵坐标均值越大，有效检测框所表示的文本行越靠上，基于此，可以按照纵坐标均值由大到小的顺序对有效检测框进行有序排列。

在另一种实施例中，可以根据第二位置坐标获取各有效检测框指定位置处的纵坐标，并按照纵坐标将有效检测框进行有序排列。该指定位置比如有效检测框的某个顶点、中心点等位置。按照纵坐标将有效检测框进行有序排列的方式，与按照中心点的纵坐标均值对有效检测框进行有序排列的方式相近，在此不再展开描述。

在以上两种实施例中，当目标检测框为多个时，本实施例可以根据目标位置坐标对目标检测框进行有序排列或者进行版面布局；根据目标检测框的排列顺序或者版面布局，对不同目标检测框内有序排列的有效检测框进行输出。

此外，在实际应用中，当未检测到第一检测框时，可以只对第二检测框进行有序排列。

接下来，对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果。

在教育领域，手写作文的一种常见的文字识别场景，同时，文本内容是手写作文的原始文本图像具有标题、分段等版面信息。根据以上实施例提供的文本识别方法，本实施例还可以提供一种针对手写作文的标题、段落的判断方法。

本实施例提供一种标题的判断方法，包括如下步骤（1）-（5）：

（1）根据第二位置坐标确定相邻两个有效检测框之间的左边界偏移值和右边界偏移值。

具体的，根据第二位置坐标计算各有效检测框的左边界l和右边界r，根据各有效检测框的左边界l和右边界r计算每两个相邻有效检测框之间的左边界偏移值dl和右边界偏移值dr。

（2）根据左边界偏移值、右边界偏移值和圆盘的半径R，确定有效检测框之间相对的缩排位置关系。缩排位置关系表示为：[dl / R，dr / R]；其中，dl / R为左边界缩排参数和dr / R为右边界缩排参数。

（3）判断有序排列的首行有效检测框和次行有效检测框之间对应的缩排位置关系是否满足预设的关系条件。通常，标题具有居中的特点，基于此，当首行有效检测框和次行有效检测框之间对应的缩排位置关系中，左边界缩排参数dl / R满足预设的第三缩排参数阈值，且右边界缩排参数dr / R满足预设的第四缩排参数阈值时，确定满足预设的关系条件，否则为不满足关系条件。

（4）如果满足关系条件，则判断首行有效检测框的尺寸大小是否满足预设尺寸条件。通常，相比于正文中的文本行，标题具有长度较短的特点，基于此，可以判断首行有效检测框的尺寸大小是否满足预设尺寸条件，该尺寸条件可以表示为有效检测框的宽与高之间的比值。

（5）如果满足尺寸条件，则确定首行有效检测框为标题。

当然，如果不满足上述关系条件或者尺寸条件，则可以确定该首行有效检测框为常规的文本行。

本实施例提供一种分段方法，包括：

针对任一有效检测框，判断该有效检测框与相邻的下一行有效检测框之间对应的左边界缩排参数是否满足第一缩排参数阈值；如果满足第一缩排参数阈值，则判断该有效检测框与相邻的上一行有效检测框之间对应的右边界缩排参数是否满足第二缩排参数阈值；如果满足第二缩排参数阈值，则确定该有效检测框为分段文本的段落首行。如果不满足第一缩排参数阈值或第二缩排参数阈值，则确定该有效检测框不是分段文本的段落首行。

通过上述分段方法确定出多个为段落首行的有效检测框后，可以根据有效检测框的排列顺序，将其他非段落首行的有效检测框加入至各个表示段落首行的有效检测框之间，由此将有效检测框组成段落。

本实施例根据第二位置坐标、标题和段落首行，确定版面信息；其中，版面信息至少包括：标题的位置坐标和各段落的位置坐标。

对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果的实施例包括：

第一步，根据版面信息在原始文本图像中确定出与有效检测框对应的区域图像。具体的，可以根据标题的位置坐标和各段落的位置坐标，在原始文本图像中确定出与有效检测框对应的区域图像，该区域图像包括标题对应的区域图像和各段落对应的区域图像。

第二步，提取各区域图像的文本字符概率矩阵，并对文本字符概率矩阵进行解码。本实施例可以将区域图像输入至训练好的CRNN模型得到文本字符概率矩阵；提取概率值最高的前K个字符概率矩阵，并对提取出的字符概率矩阵进行解码。

第三步，将全部区域图像对应的解码结果确定为原始文本图像的文本识别结果。

本实施例利用标题和分段的版面信息获取区域图像，再对区域图像进行文字识别，能够有效提升作文文本识别的应用效果。

本实施例提供的文本识别方法进一步包括：输出结构体文本识别信息，结构体文本识别信息包括：文本识别结果、版面信息、各字符的中心坐标和各字符的置信度。输出的结构体文本识别信息可以便于方便后续NLP（Natural Language Processing，自然语言处理）和业务方使用。

综上，对于文本内容复杂的图像，本公开实施例利用该有效检测框能够提升有效文本内容的检测召回率和准确率，进而对有序排列的有效检测框对应的区域图像进行识别，能够提升文本识别准确率。

根据上述实施例提供的文本识别方法，本公开实施例提供一种文本识别装置。参照图3，该装置包括：

图像获取模块302，用于获取包含文本内容的原始文本图像；

第一检测模块304，用于对原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和第一检测框的第一位置坐标；

第二检测模块306，用于对原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和第二检测框的第二位置坐标；

检测框确定模块308，用于根据第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，有效检测框为包含有效文本内容的第二检测框；

文本识别模块310，用于对有序排列的有效检测框对应的区域图像进行识别，得到文本识别结果。

本实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序，所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。

参考图4，现将描述可以作为本公开的服务器或客户端的电子设备400的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图4所示，电子设备400包括计算单元401，其可以根据存储在只读存储器（ROM）402中的计算机程序或者从存储单元408加载到随机访问存储器（RAM）403中的计算机程序，来执行各种适当的动作和处理。在RAM 403中，还可存储设备400操作所需的各种程序和数据。计算单元401、ROM 402以及RAM 403通过总线404彼此相连。输入/输出（I/O）接口405也连接至总线404。

电子设备400中的多个部件连接至I/O接口405，包括：输入单元406、输出单元407、存储单元408以及通信单元409。输入单元406可以是能向电子设备400输入信息的任何类型的设备，输入单元406可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元407可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元404可以包括但不限于磁盘、光盘。通信单元409允许电子设备400通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。

计算单元401可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元401的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元401执行上文所描述的各个方法和处理。例如，在一些实施例中，文本识别方法或识别网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元408。在一些实施例中，计算机程序的部分或者全部可以经由ROM 402和/或通信单元409而被载入和/或安装到电子设备400上。在一些实施例中，计算单元401可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文本识别方法或识别网络的训练方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(PLD))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种文本识别方法，其特征在于，包括：

获取包含文本内容的原始文本图像；

对所述原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和所述第一检测框的第一位置坐标；

对所述原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和所述第二检测框的第二位置坐标；

根据所述第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，所述有效检测框为包含有效文本内容的第二检测框；所述方法还包括：根据所述第二位置坐标获取各所述有效检测框指定位置处的纵坐标，并按照纵坐标将所述有效检测框进行有序排列；

对有序排列的所述有效检测框对应的区域图像进行识别，得到文本识别结果。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据所述第一位置坐标判断所述第一检测框的高度是否小于宽度；

如果是，则根据预设的高度扩展参数，将所述第一检测框沿着高度方向进行扩展，得到第三检测框和所述第三检测框的第三位置坐标。

3.根据权利要求2所述的方法，其特征在于，所述第二检测框表征为以对称轴为中心的有序的、重叠的圆盘序列，每个圆盘的几何参数包括：中心点坐标和半径；

所述有效检测框的确定过程包括：

针对同一目标检测框内的各所述第二检测框，根据预设的第一判断规则或者第二判断规则逐一判断所述第二检测框是否为有效检测框；

其中，所述目标检测框为所述第一检测框或者为与所述第一检测框对应的第三检测框；

所述第一判断规则包括以下中的至少一项：所述目标检测框与所述第二检测框之间的重叠面积、所述目标检测框与所述第二检测框对应的相同位置的顶点之间的坐标差异值和所述第二检测框内圆盘的几何参数；

所述第二判断规则包括以下中的至少一项：所述第二检测框内圆盘的数量和圆盘的中心点的数量。

4.根据权利要求3所述的方法，其特征在于，所述根据预设的第一判断规则逐一判断所述第二检测框是否为有效检测框，包括：

将同一所述目标检测框内的各所述第二检测框逐一作为当前第二检测框；

根据目标位置坐标和所述当前第二检测框的第二位置坐标，判断所述目标检测框与所述当前第二检测框之间的重叠面积是否达到预设的面积阈值；其中，与所述目标检测框相对应，所述目标位置坐标为所述第一位置坐标或者第三位置坐标；

如果达到所述面积阈值，则确定所述当前第二检测框为所述有效检测框；

如果未达到所述面积阈值，则判断所述当前第二检测框中预设顶点处的第二位置坐标，与所述目标检测框中相同位置顶点处的目标位置坐标之间的坐标差异值是否满足第一条件；其中，所述第一条件为：横坐标差异值与所述目标检测框的宽度之间的比值小于第一比值，且纵坐标差异值与所述目标检测框的高度之间的比值小于第二比值；

如果满足所述第一条件，则确定所述当前第二检测框为所述有效检测框；

如果不满足所述第一条件，则判断所述当前第二检测框内圆盘的几何参数是否满足第二条件；其中，所述第二条件为：所述当前第二检测框内的圆盘数量大于第一数量，相邻圆盘的中心点坐标之间的横坐标差异与所述目标检测框的宽度之间的比值小于第三比值，以及多个圆盘的中心点坐标之间的最大纵坐标差异与所述目标检测框的高度之间的比值小于第四比值；

如果满足所述第二条件，则确定所述当前第二检测框为所述有效检测框；

如果不满足所述第二条件，则确定所述当前第二检测框不是所述有效检测框。

5.根据权利要求3所述的方法，其特征在于，所述根据预设的第二判断规则逐一判断所述第二检测框是否为有效检测框，包括：

判断在所述第二检测框与所述目标检测框的重叠区域内，所述当前第二检测框对应的圆盘的第二数量，与表征所述当前第二检测框的圆盘的总数量之间的比值是否超过第五比值；

如果超过所述第五比值，则确定所述当前第二检测框为所述有效检测框；

如果未超过所述第五比值，则判断在所述第二检测框与所述目标检测框的重叠区域内，所述当前第二检测框对应的圆盘的中心点的第三数量，与表征所述当前第二检测框的圆盘的总数量之间的比值是否超过第五比值；

如果未超过所述第五比值，则确定所述当前第二检测框不是所述有效检测框。

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

针对同一所述目标检测框内的多个所述有效检测框，根据所述第二位置坐标获取各所述有效检测框指定位置处的纵坐标，并按照纵坐标将所述有效检测框进行有序排列。

7.根据权利要求3所述的方法，其特征在于，所述圆盘的几何参数还包括：半径；所述方法还包括：

根据所述第二位置坐标确定相邻两个所述有效检测框之间的左边界偏移值和右边界偏移值；

根据所述左边界偏移值、右边界偏移值和所述半径，确定所述有效检测框之间相对的缩排位置关系；

判断有序排列的首行有效检测框和次行有效检测框之间对应的所述缩排位置关系是否满足预设的关系条件；

如果满足所述关系条件，则判断所述首行有效检测框的尺寸大小是否满足预设尺寸条件；

如果满足所述尺寸条件，则确定所述首行有效检测框为标题。

8.根据权利要求7所述的方法，其特征在于，所述圆盘的几何参数还包括：半径；所述缩排位置关系包括：左边界缩排参数和右边界缩排参数；所述方法还包括：

针对任一所述有效检测框，判断该有效检测框与相邻的下一行有效检测框之间对应的左边界缩排参数是否满足第一缩排参数阈值；

如果满足所述第一缩排参数阈值，则判断该有效检测框与相邻的上一行有效检测框之间对应的右边界缩排参数是否满足第二缩排参数阈值；

如果满足所述第二缩排参数阈值，则确定该有效检测框为分段文本的段落首行。

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述第二位置坐标、所述标题和所述段落首行，确定版面信息；其中，所述版面信息包括：标题的位置坐标和段落的位置坐标。

10.根据权利要求9所述的方法，其特征在于，所述对有序排列的所述有效检测框对应的区域图像进行识别，得到文本识别结果，包括：

根据所述版面信息在所述原始文本图像中确定出与所述有效检测框对应的区域图像；

提取各所述区域图像的文本字符概率矩阵，并对所述文本字符概率矩阵进行解码；

将全部所述区域图像对应的解码结果确定为所述原始文本图像的文本识别结果。

11.根据权利要求9所述的方法，其特征在于，所述方法还包括：

输出结构体文本识别信息，所述结构体文本识别信息包括：所述文本识别结果、所述版面信息、各字符的中心坐标和各字符的置信度。

12.根据权利要求1所述的方法，其特征在于，所述方法还包括：

根据不同的预设尺寸对所述原始文本图像进行缩放，分别得到第一尺寸的文本图像和第二尺寸的文本图像；

对所述第一尺寸的文本图像的像素值进行归一化，得到第一图像；

对所述第二尺寸的文本图像的像素值进行标准化，得到第二图像。

13.根据权利要求12所述的方法，其特征在于，

所述对所述原始文本图像进行文本区域的检测，包括：通过预设的YOLO模型对所述第一图像进行文本区域的检测；

所述对所述原始文本图像进行文本行的检测，包括：通过预设的TextSnake对所述第二图像进行文本行的检测。

14.一种文本识别装置，其特征在于，包括：

图像获取模块，用于获取包含文本内容的原始文本图像；

第一检测模块，用于对所述原始文本图像进行文本区域的检测，得到文本区域对应的第一检测框和所述第一检测框的第一位置坐标；

第二检测模块，用于对所述原始文本图像进行文本行的检测，得到每个文本行对应的第二检测框和所述第二检测框的第二位置坐标；

检测框确定模块，用于根据所述第一检测框、第一位置坐标和第二位置坐标，确定有序排列的有效检测框；其中，所述有效检测框为包含有效文本内容的第二检测框；所述装置还包括：根据所述第二位置坐标获取各所述有效检测框指定位置处的纵坐标，并按照纵坐标将所述有效检测框进行有序排列；

文本识别模块，用于对有序排列的所述有效检测框对应的区域图像进行识别，得到文本识别结果。

15.一种电子设备，其特征在于，所述电子设备包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1至13任一所述的文本识别方法。

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1至13任一所述的文本识别方法。