CN112580594A

CN112580594A - 文档识别方法、装置、计算机设备和存储介质

Info

Publication number: CN112580594A
Application number: CN202011597748.6A
Authority: CN
Inventors: 李亚红; 陈媛媛
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-30

Abstract

本申请涉及一种文档识别方法，其中，该文档识别方法包括：获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到；基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置；获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像；对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。通过本申请，解决了文档识别速度较慢的技术问题，实现了快速识别文本内容的技术效果。

Description

文档识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及图像处理领域，特别是涉及文档识别方法、装置、计算机设备和存储介质。

背景技术

世界正在飞速趋于数字化，数字化文档的使用正在代替纸质文档迅速增长，随着扫描文档技术的迅猛发展，对文档进行智能识别并从中提取有用的数据成为了一个备受关注的研究问题。其中，表格作为一种高效的数据组织和展现形式，是文档页面中最重要的数据对象之一。此外，基于一些特殊需要，许多电子文档还含有内部水印，这给文档文字识别带来了一定挑战。因此，准确高效识别含表格与水印的文档内容，一直是该领域研究者关注的研究问题。

目前针对相关技术中文档识别速度较慢，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种文档识别方法、装置、计算机设备和存储介质，以至少解决相关技术中文档识别速度较慢的问题。

第一方面，本申请实施例提供了一种文档识别方法，包括：获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到；基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置；获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像；对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：对所述第一文档图像进行二值化处理，得到与所述第一文档图像对应的二值图像；对所述二值图像进行形态学处理，得到包含表格线的掩膜图像，所述形态学处理至少包括膨胀和腐蚀；根据所述掩膜图像，获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：获取与所述第一文档图像对应的掩膜图像；根据所述掩膜图像，获取所述掩膜图像父轮廓区域内的横竖线交点数量；若所述交点数量大于或等于预设交点数量，则以所述父轮廓区域作为表格区域；对所述表格区域进行子轮廓检测，将所述子轮廓作为单元格；根据所述单元格得到所述表格结构信息；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：根据所述第一文档图像获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；根据所述表格结构信息去除所述第一文档图像中的表格线并获取单元格图像；将所述单元格图像进行投影定位，获取所述第一文本图像位置信息。

在其中一个实施例中，所述将所述单元格图像进行投影定位包括：将所述单元格图像进行水平方向像素投影，获取所述第一文本图像在竖直方向上的位置信息；将所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息；根据所述第一文本图像在竖直方向的位置信息以及所述第一文本在水平方向上的位置信息，获得所述第一文本图像位置信息。

在其中一个实施例中，所述对所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息包括：标记所述第一文本图像的第一起始位置和第一末尾位置；自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向靠近所述第一起始位置的方向查找水平起始位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一起始位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平起始位置，所述水平起始位置为所述第一文本图像在水平方向上的起始位置；自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向远离所述第一末尾位置的方向查找水平末尾位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一末尾位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平末尾位置，所述水平末尾位置为所述第一文本图像在水平方向上的末尾位置。

在其中一个实施例中，所述对所述第二文本图像进行识别包括：获取半灰度阈值；若所述第二文本图像中的原始像素点的当前灰度值小于等于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值不变；若所述第二文本图像中的所述原始像素点的当前灰度值大于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值变为预设灰度值；将经过半灰度化处理后的所述第二文本图像输入识别网络进行识别。

第二方面，本申请实施例提供了一种文档识别方法，包括：

文档获取模块：用于获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到；

文本定位模块：用于基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置；

文本转换模块：用于获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像；

文本识别模块：用于对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。

第三方面，本申请实施例提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述第一方面所述的文档识别方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述第一方面所述的文档识别方法。

相比于相关技术，本申请实施例提供的文档识别方法，通过获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到；基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置；获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像；对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果，解决了文档识别速度较慢的问题，实现了快速识别文档内容的技术效果。

本申请的一个或多个实施例的细节在以下附图和描述中提出，以使本申请的其他特征、目的和优点更加简明易懂。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是本申请实施例的文档识别方法的流程图；

图2是根据本申请实施例的文档识别方法的表格倾斜示意图；

图3是根据本申请实施例的文档识别方法的第一文本图像示意图；

图4-a是根据本申请实施例的文档识别方法的识别效果示意图；

图4-b是根据本申请另一实施例的文档识别方法的识别效果示意图；

图4-c是根据本申请另一实施例的文档识别方法的识别效果示意图；

图4-d是根据本申请另一实施例的文档识别方法的识别效果示意图；

图5是根据本申请实施例的文档识别装置的结构框图；

图6为根据本申请实施例的计算机设备的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

目前，相关技术中对文本数据的识别大多是直接对文本图像进行识别，在文本图像上提取表格信息并对单元格内容使用OCR(Optical Character Recognition，光学字符识别)技术进行识别，其缺陷在于该方法是在原始文档图像上进行图像处理并提取表格信息的，由于原始图像的分辨率较高，因而提取表格信息的速度较慢。而在文档识别的过程中，获取的表格信息与文本位置信息并不需要太高的分辨率，因此本申请的文档识别方法对原始图像进行了预处理，即降分辨率处理，对降低了分辨率后的文档图像进行表格信息以及文本位置信息的获取，大大减少了表格结构识别和文本定位的时间。

本实施例提供了一种文档识别方法。图1是根据本申请实施例的文档识别方法的流程图，如图1所示，该流程包括如下步骤：

步骤S101，获取第一文档图像。

具体的，所述第一文档图像由初始文档图像降低分辨率得到。首先获取初始文档图像，该初始文档图像可由纸质文档扫描得到，也可以是数字文档。文档的格式可以为文档格式或图片格式等等，本发明对此不作限定。表格识别的识别效率与图像大小相关，低分辨率图像有利于提高表格识别模块的运行效率。因此，获得初始文档图像后，对该初始文档图像进行降分辨率操作，获得第一文档图像。本申请对降低图像分辨率的方法不作限定，可实现图像分辨率降低的效果即可。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：根据所述第一文档图像获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；根据所述表格结构信息去除所述第一文档图像中的表格线并获取单元格图像；将所述单元格图像进行投影定位，获取所述第一文本图像位置信息。具体的，根据第一文档图像获取表格结构信息，该表格结构信息包括表格中的单元格在第一文档图像中的位置信息和尺寸信息。尺寸信息包括单元格的宽度和高度。根据该表格结构信息即可重构出第一文档图像中的表格结构。获取表格结构信息后去除第一文档图像中的表格线。去除表格线的目的是消除文档倾斜时表格线对文本定位与识别带来的干扰，提高文档识别的准确率。根据表格结构信息，在第一文档图像中切割单元格图像，对单元格图像进行像素投影，获得单元格中各个文本图像的位置，对文本图像进行定位。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：对所述第一文档图像进行二值化处理，得到与所述第一文档图像对应的二值图像；对所述二值图像进行形态学处理，得到包含表格线的掩膜图像，所述形态学处理至少包括腐蚀和膨胀；根据掩膜图像，获取所述表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置。具体的，对第一文档图像进行图像二值化，图像二值化就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中，二值图像占有非常重要的地位，图像的二值化使图像中的数据量大为减少，可以凸显出目标的轮廓。对第一文档图像对应的二值图像进行形态学处理，获取包含表格线的掩膜图像，即mask图，根据mask图获取表格结构信息。该形态学处理包括腐蚀和膨胀。其中，膨胀是形态学中的一种基本运算，用于二值图像时的效果相当于把每个前景像素扩展为结构元的值而得到一个新的像素集。腐蚀用于形态学处理中去除图像的某些部分。本实施例提供了一种通过mask图获取表格结构信息的方法，在本技术领域中可采取其他技术手段获取表格结构信息的方法也可用于本申请的文档识别方法。在得到表格结构信息之后，依据表格结构信息去除第一文档图像中的表格线并获取单元格图像，将单元格图像进行投影定位，获取第一文本图像位置信息。

在其中一个实施例中，为了消除表格线在基于投影方法对文本进行定位时的影响，需要将单元格周边的表格线去除。通过将第一文档图像对应的掩膜图像与第一文档图像对应的第一灰度图像进行位操作，可将表格线主题去除。该第一灰度图像为第一文档图像的灰度图。位操作是程序设计中对位模式按位或二进制数的一元和二元操作。位运算比加减运算略快，比乘除运算要快很多。本申请所采用的位运算包括但不限于取反、按位或、按位异或以及按位与运算。在其中一个实施例中，采用位或操作去除表格线。其中，掩膜图像即mask图像为黑底白线，第一灰度图像为白底黑字。

表1

表1是根据本申请实施例的位或操作示意表。如表1所示，mask图中的背景部分与第一灰度图像中的字符部分经过位或操作得到的位或结果显示字符；mask图中的背景部分与第一灰度图像中的背景部分经过位或操作得到的位或结果显示背景；mask图中的表格线部分与第一灰度图像中的字符部分经过位或操作得到的位或结果显示背景；mask图中的表格线部分与第一灰度图像中的背景部分经过位或操作得到的位或结果显示背景。经过该位或操作后，得到白底黑字的位或结果，此时第一文档图像的表格线被去除。去除表格线的目的是消除表格线对后续使用投影方法进行文本定位的影响。若文档页面轻微倾斜，处理得到的单元格定位框会包含部分表格线，在投影时造成干扰，所以需要先去除表格线。

在其中一个实施例中，表格线主体去除后，表格线附近还存在一些噪点干扰，例如文本的边缘处可能仍存在一些细微线段。这是因为mask图像中检测出的表格线与第一文档图像中的表格线并不能达到像素级的完全匹配，因此可对去除表格线后的第一文档图像进行图像二值化处理，以去除噪点干扰。图2是根据本申请实施例的文档识别方法的表格倾斜示意图，如图2所示，由于文档页面轻微倾斜，表格也随之倾斜，单元格定位框将表格线也切割进了单元格图像中。若直接对该单元格图像进行二值化定位投影，投影后的文本图像即为图2的二值化结果图，表格线会给投影定位以及后续的文字识别带来干扰。因此，去除了表格线之后，再将单元格图像二值化并进行投影定位，得到的图像如图3所示，图3是根据本申请实施例的文档识别方法的第一文本图像示意图。从图3可以看出，经过去表格线处理以及二值化处理后的单元格图像，投影定位后得到的第一文本图像完全去除了表格线的干扰。

在上述实施例中，在去除表格线的第一文档图像的基础上进行投影定位可以加强投影定位方法的鲁棒性，可以更好的支持轻微倾斜的表格结构识别。使用第一文档图像的mask图与第一灰度图像进行位操作去除表格线的方法与现有技术中直接在原图上检测直线并去除的操作方法相比，大大提升了运行效率。

在其中一个实施例中，所述基于所述第一文档图像获取第一文本图像位置信息包括：获取与所述第一文档图像对应的掩膜图像；根据所述掩膜图像，获取所述掩膜图像父轮廓区域内的横竖线交点数量；若所述交点数量大于或等于预设交点数量，则以所述父轮廓区域作为表格区域；对所述表格区域进行子轮廓检测，将所述子轮廓作为单元格；根据所述单元格得到所述表格结构信息；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。具体的，通过对第一文档图像进行二值化处理，得到与第一文档图像对应的二值图像；对二值图像进行膨胀和腐蚀，得到包含表格线的mask图像。对mask图像检测父轮廓，并判断父轮廓区域内横竖线交点数是否满足所要检测的表格最少交点个数，即预设交点数量，若该交点数大于或等于预设的表格最少交点个数，则判定该父轮廓即表格外边框。对父轮廓区域搜索最小外接矩形；最小外接矩形是指以二维坐标表示的若干二维形状(例如点、直线以及多边形)的最大范围，即以给定的二维形状各顶点中的最大横坐标、最小横坐标、最大纵坐标以及最小纵坐标定下边界的矩形。在本实施例中，轮廓信息是点的集合，以矩形左上顶点坐标、矩形宽度以及矩形高度表示最小外接矩形，对父轮廓区域搜索最小外接矩形，并以该最小外接矩形作为最终表格检测的输出形式。例如：将所有单元格矩形按照左上顶点坐标的y坐标排序，可以得到表格从上到下的每一行的位置和高度。然后将每行的矩形按照左上顶点坐标的x坐标排序，可以得到表格每行从左到右的每一列的位置和高度。进而得到表格结构信息。本实施例通过检测mask图像父轮廓和子轮廓确定表格和单元格区域，此外，还可基于单元格识别程序对单元格进行识别，本发明对此不作限定。另外，本发明将单元格左上顶点作为确定表格结构信息的依据，在其他的实施例中，还可以左下顶点、右上顶点、右下顶点或单元格宽线中点和高线中点作为确定表格结构信息的依据，本发明对此亦不作限定。获取表格结构信息之后，基于表格结构信息以及所述第一文档图像获取第一文本图像位置信息。

步骤S102，基于所述第一文档图像获取第一文本图像位置信息。

具体的，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置。基于去除表格线后的第一文档图像，根据表格结构信息对其进行单元格图像切割，对单元格图像进行水平方向和竖直方向上的像素投影，从而获取第一文本图像位置信息。

在其中一个实施例中，将所述单元格图像进行投影定位包括：所述将所述单元格图像进行水平方向像素投影，获取所述第一文本图像在竖直方向上的位置信息；将所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息；根据所述第一文本图像在竖直方向的位置信息以及所述第一文本在水平方向上的位置信息，获得所述第一文本图像位置信息。具体的，对第一文本图像在水平方向进行像素投影，获取第一文本图像在竖直方向上的位置信息；对第一文本图像在竖直方向上进行采用基于二分法的优化投影方法进行像素投影，获取第一文本图像在水平方向上的位置信息；根据该竖直方向上的位置信息以及水平方向上的位置信息，获取第一文本图像在第一文档图像上的位置信息。

具体的，对第一文本图像在竖直方向上的投影采用基于二分法的优化投影方法。对该第一文本图像的第一起始位置和第一末尾位置标记为[start，end]，其中，start＝0，end＝len-1，len表示第一文本图像的宽度，即单元格的像素宽度。将第一文本图像进行竖直投影后确认的水平起始位置和水平末尾位置分别记为[start_new，end_new]。若查询水平起始位置，则在[0，len-1]区间采用二分法确定目标起始点位置，自(len-1)/2的位置在该区间内向左查询，即向靠近第一起始位置的方向查询，查询条件是该点位置的像素投影值(即黑色像素数)为0，且前k个像素投影值也为0。在本实施例中优选的第一预设值和第二预设值都为0，但本申请并不对第一预设值和第二预设值进行限定，第一预设值和第二预设值也可以是其他数值。k值即表示预设距离，可根据字符间距像素数选取。一般k值选取比文本中间连续数值投影像素数为0的最大长度稍大的值。设置k值的目的是避免误将文本图像的水平起始位置或水平末尾位置定位在像素与像素之间的空白处，从而提高定位的准确率。在查询水平起始位置时，向左查询当前位置的像素投影值为0且当前位置左边k个像素投影值也为0的位置，将该位置作为水平起始位置；若当前位置投影值为0，当前位置左方k个像素投影值存在不为0的值，则说明此时当前位置位于文本中间的空白处，并未位于真正的文本起始位置。若查询水平末尾位置，则采用二分法在[0，len-1]区间内向右，即向靠近第一末尾位置的方向查询，若当前位置的竖直像素投影值，即竖直方向黑色像素个数为0，且当前位置右方k个像素投影值均为0，此时才可认为到达了文本行的末尾。若后k个像素投影值存在不为0的值，则说明当前位置位于文本中间的空白处，并未位于真正的水平末尾位置。针对水平起始位置的单次查询，若当前位置到达水平起始位置，或当前位置到达查询区间左端点，即第一文本图像最左端，则查询停止；针对水平末尾位置的单次查询，若当前位置达到水平末尾位置，或当前位置达到查询区间右端点，即第一文本图像最右端，查询停止。

在其中一个实施例中，当表格内容居左或居中，且文本行内容连续时，可认为start_new∈[0，(len-1)/2]，end_new∈[(len-1)/2，len-1]。采用在区间[0，(len-1)/2]内直接查找文本起始位置，在[(len-1)/2，len-1]内直接查找文本末尾位置，从而提高文本定位速度。

步骤S103，获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像。

具体的，由于低分辨率的文档图像会降低文档识别的准确率，因此，将第一文本图像的位置信息反变换到初始文档图像中的对应位置，获取第二文本图像。由于第一文档图像是由初始文档图像降低分辨率得到的，因此，一般情况下第一文本图像在第一文档图像中的位置信息，与第二文本图像在初始文档图像中的位置信息相同。在其中一个实施例中，第一文本图像的位置信息也可通过坐标变换等操作反变换至第二文本图像中。

步骤S104，对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。

具体的，若第二文本图像不含水印，则直接将第二文本图像直接输入识别网络进行识别，得到文本识别结果，即获取第二文本图像中的文本内容。将该文本内容结合实际需求进行数据处理，结合表格结构信息实现结构化输出，得到文档识别结果。

在其中一个实施例中，所述对所述第二文本图像进行识别包括：获取半灰度阈值；若所述第二文本图像中的原始像素点的当前灰度值小于等于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值不变；若所述第二文本图像中的所述原始像素点的当前灰度值大于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值变为预设灰度值；将经过半灰度化处理后的所述第二文本图像输入识别网络进行识别。具体的，在文档识别领域，有时需要对文档水印进行去水印操作。针对文本水印，现有技术一般采用定义水印模板的方式对水印位置定位，再对水印做像素级处理，以实现水印去除。但该方法需要首先定义一个水印模板，而很多情况下难以定义出这样的一个通用水印模板。为避免文档水印对字符识别准确率的影响，本申请将第二文本图像变换为半灰度图输入crnn(Convolutional Recurrent Neural Network，卷积循环神经网络)进行识别。卷积循环神经网络是一种基于图像的序列识别网络，可以对不定长的文字序列进行端到端的识别。由于文档水印灰度值高于字符灰度值，因此可以使用图像二值化去除水印。然而，由于叠加水印的像素点灰度值小于字符像素点的灰度值，因此二值化处理会同时去除一些水印叠加的字符像素点，导致字符的一些关键像素点缺失引起识别错误。为降低水印影响，同时保留字符内部像素的连贯性，本实施例对图像进行半灰度化处理，半灰度化处理的公式如下：

其中，G(i′,j′)是半灰度化处理后的灰度值，G(i,j)是原始像素点(,j)的灰度值，thres是设定的半灰度阈值，半灰度阈值的具体数值以不破坏字符像素间连贯性为准。

图4-a是根据本申请实施例的文档识别方法的识别效果示意图；图4-a设置的半灰度阈值为170，图4-a中的“话”字左半部首的二值图锐化效果更明显；图4-b是根据本申请另一实施例的文档识别方法的识别效果示意图，图4-b设置的半灰度阈值为180；图4-c是根据本申请另一实施例的文档识别方法的识别效果示意图，图4-c设置的半灰度阈值为190；图4-d是根据本申请另一实施例的文档识别方法的识别效果示意图，图4-d设置的半灰度阈值为200，从图4-d上可以看出水印干扰较为强烈。从以上四张图可以看出，当半灰度阈值较低时，字符边缘锐利；半灰度阈值较高时，水印干扰强烈。用户可根据待识别的数据集自定义设置半灰度阈值。在经过半灰度化处理后，将第二文本图像输入卷积循环神经网络进行识别，得到文档识别结果。

通过上述步骤，本申请提供了一种文档识别方法，本方法首先对初始文本图像进行降分辨率，获得第一文档图像，在低分辨率的第一文档图像上提取表格结构信息，进行文本定位，再反变换到高分辨率的初始文档图像上进行文档识别，极大的提高了文本的识别速度。在其中一个实施例中，本申请对2479×3596分辨率的图像降低一半分辨率进行文本定位，再反变换到原分辨率进行文档识别，实验数据显示，该次文档识别总体运行时间提高了34％，用户还可以根据具体的实验数据试验降低分辨率的比例极限，从而进一步提高文档识别速度。本申请的文档识别方法解决了相关技术中文档识别速度较慢的问题，实现了快速识别文本的技术效果。

并且，本申请采用位操作去除图像中的表格线。该去除表格线的方法相比相关技术中先检测直线再逐像素去除直线的方法，在较大程度上提高了运行效率。

此外，本申请在进行文本定位，确定文本水平方向起始位置和末尾位置时，采用二分法分别定位起始位置和末尾位置，同时设计起始位置前k个投影值和末尾位置后k个投影值均为0的校验规则来排除文本字符间空白区域干扰，极大地提高了宽尺寸单元格文本的定位效率。

最后，对于文档中存在的水印干扰，本申请提出了一种半灰度化的处理方法，既大大减少了水印干扰，同时又保留了字符间的连贯性，避免了直接二值化导致的字符像素缺少，与直接采用二值化去水印的方法相比，本申请提出的方法在不增加计算量的同时极大地提高了文档识别的准确率。

需要说明的是，在上述流程中或者附图的流程图中示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例还提供了一种文档识别装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”、“单元”、“子单元”等可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图5是根据本申请实施例的文档识别装置的结构框图，如图5所示，该装置包括：

文档获取模块10：用于获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到。

文本定位模块20：用于基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置。

文本转换模块30：用于获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像。

文本识别模块40：用于对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。

文本定位模块20，还用于对所述第一文档图像进行二值化处理，得到与所述第一文档图像对应的二值图像；对所述二值图像进行形态学处理，得到包含表格线的掩膜图像，所述形态学处理至少包括膨胀和腐蚀；根据所述掩膜图像，获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。

文本定位模块20，还用于获取与所述第一文档图像对应的掩膜图像；根据所述掩膜图像，获取所述掩膜图像父轮廓区域内的横竖线交点数量；若所述交点数量大于或等于预设交点数量，则以所述父轮廓区域作为表格区域；对所述表格区域进行子轮廓检测，将所述子轮廓作为单元格；根据所述单元格得到所述表格结构信息；基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。

文本定位模块20，还用于格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；根据所述表格结构信息去除所述第一文档图像中的表格线并获取单元格图像；将所述单元格图像进行投影定位，获取所述第一文本图像位置信息。

文本定位模块20，还用于将所述单元格图像进行水平方向像素投影，获取所述第一文本图像在竖直方向上的位置信息；将所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息；根据所述第一文本图像在竖直方向的位置信息以及所述第一文本在水平方向上的位置信息，获得所述第一文本图像位置信息。

文本定位模块20，还用于标记所述第一文本图像的第一起始位置和第一末尾位置；自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向靠近所述第一起始位置的方向查找水平起始位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一起始位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平起始位置，所述水平起始位置为所述第一文本图像在水平方向上的起始位置；自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向远离所述第一末尾位置的方向查找水平末尾位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一末尾位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平末尾位置，所述水平末尾位置为所述第一文本图像在水平方向上的末尾位置。

文本识别模块40，还用于获取半灰度阈值；若所述第二文本图像中的原始像素点的当前灰度值小于等于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值不变；若所述第二文本图像中的所述原始像素点的当前灰度值大于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值变为预设灰度值；将经过半灰度化处理后的所述第二文本图像输入识别网络进行识别。

需要说明的是，上述各个模块可以是功能模块也可以是程序模块，既可以通过软件来实现，也可以通过硬件来实现。对于通过硬件来实现的模块而言，上述各个模块可以位于同一处理器中；或者上述各个模块还可以按照任意组合的形式分别位于不同的处理器中。

另外，结合图1描述的本申请实施例文档识别方法可以由计算机设备来实现。图6为根据本申请实施例的计算机设备的硬件结构示意图。

计算机设备可以包括处理器61以及存储有计算机程序指令的存储器62。

具体地，上述处理器61可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

其中，存储器62可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器82可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(SolidState Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(Universal SerialBus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器62可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器62可在数据处理装置的内部或外部。在特定实施例中，存储器62是非易失性(Non-Volatile)存储器。在特定实施例中，存储器62包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器62可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器61所执行的可能的计算机程序指令。

处理器61通过读取并执行存储器62中存储的计算机程序指令，以实现上述实施例中的任意一种文档识别方法。

在其中一些实施例中，计算机设备还可包括通信接口63和总线60。其中，如图6所示，处理器61、存储器62、通信接口63通过总线60连接并完成相互间的通信。

通信接口63用于实现本申请实施例中各模块、装置、单元和/或设备之间的通信。通信端口63还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线60包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线60包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(Control Bus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线60可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(Front Side Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线60可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以基于获取到的计算机程序指令，执行本申请实施例中的文档识别方法，从而实现结合图1描述的文档识别方法。

另外，结合上述实施例中的文档识别方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种文档识别方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种文档识别方法，其特征在于，包括：

获取第一文档图像，所述第一文档图像由初始文档图像降低分辨率得到；

基于所述第一文档图像获取第一文本图像位置信息，所述第一文本图像位置信息表示待识别文本图像在所述第一文档图像中的位置；

获取所述初始文档图像中与所述第一文本图像位置信息对应的第二文本图像；

对所述第二文本图像进行识别，获取文本内容，进而得到文档识别结果。

2.根据权利要求1所述的文档识别方法，其特征在于，所述基于所述第一文档图像获取第一文本图像位置信息包括：

对所述第一文档图像进行二值化处理，得到与所述第一文档图像对应的二值图像；

对所述二值图像进行形态学处理，得到包含表格线的掩膜图像，所述形态学处理至少包括膨胀和腐蚀；

根据所述掩膜图像，获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；

基于所述表格结构信息以及所述第一文档图像获取所述第一文本图像位置信息。

3.根据权利要求1所述的文档识别方法，其特征在于，所述基于所述第一文档图像获取第一文本图像位置信息包括：

获取与所述第一文档图像对应的掩膜图像；

根据所述掩膜图像，获取所述掩膜图像父轮廓区域内的横竖线交点数量；

若所述交点数量大于或等于预设交点数量，则以所述父轮廓区域作为表格区域；

对所述表格区域进行子轮廓检测，将所述子轮廓作为单元格；

根据所述单元格得到所述表格结构信息；

4.根据权利要求1所述的文档识别方法，其特征在于，所述基于所述第一文档图像获取第一文本图像位置信息包括：

根据所述第一文档图像获取表格结构信息，所述表格结构信息包括单元格在所述第一文档图像中的位置和尺寸；

根据所述表格结构信息去除所述第一文档图像中的表格线并获取单元格图像；

将所述单元格图像进行投影定位，获取所述第一文本图像位置信息。

5.根据权利要求4所述的文档识别方法，其特征在于，所述将所述单元格图像进行投影定位包括：

将所述单元格图像进行水平方向像素投影，获取所述第一文本图像在竖直方向上的位置信息；

将所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息；

根据所述第一文本图像在竖直方向的位置信息以及所述第一文本在水平方向上的位置信息，获得所述第一文本图像位置信息。

6.根据权利要求5所述的文档识别方法，其特征在于，所述对所述第一文本图像进行竖直方向的像素投影并采用二分法确定所述第一文本图像在水平方向上的位置信息包括：

标记所述第一文本图像的第一起始位置和第一末尾位置；

自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向靠近所述第一起始位置的方向查找水平起始位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一起始位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平起始位置，所述水平起始位置为所述第一文本图像在水平方向上的起始位置；

自所述第一起始位置和所述第一末尾位置的中间位置开始，采用二分法向远离所述第一末尾位置的方向查找水平末尾位置，若当前位置的像素投影值为第一预设值，且当前位置靠近所述第一末尾位置方向的预设距离的像素投影值为第二预设值，则以所述当前位置为所述水平末尾位置，所述水平末尾位置为所述第一文本图像在水平方向上的末尾位置。

7.根据权利要求1所述的文档识别方法，其特征在于，所述对所述第二文本图像进行识别包括：

获取半灰度阈值；

若所述第二文本图像中的原始像素点的当前灰度值小于等于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值不变；

若所述第二文本图像中的所述原始像素点的当前灰度值大于所述半灰度阈值，则半灰度化处理后的所述原始像素点的灰度值变为预设灰度值；

将经过半灰度化处理后的所述第二文本图像输入识别网络进行识别。

8.一种文档识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的文档识别方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至7中任一项所述的文档识别方法。