CN113221632A

CN113221632A - 文档图片识别方法、装置以及计算机设备

Info

Publication number: CN113221632A
Application number: CN202110306269.2A
Authority: CN
Inventors: 王占一; 李宁; 安梦涛; 闫嵩
Original assignee: Secworld Information Technology Beijing Co Ltd; Qax Technology Group Inc
Current assignee: Secworld Information Technology Beijing Co Ltd; Qax Technology Group Inc
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2021-08-06

Abstract

本发明公开了一种文档图片识别方法，该方法包括：检测出待识别文档图片中的文字检测框集合；对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到对应的已识别文字并记录到预设的已识别文字集合中；根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；按照预设的排版顺序将所述已处理文本区块输出。本发明还提供一种文档图片识别装置、计算机设备以及计算机可读存储介质。本发明能够可以有效识别出文档排版格式，提升了文档图片识别的效果，提高了用户阅读体验。

Description

文档图片识别方法、装置以及计算机设备

技术领域

本发明涉及互联网信息技术领域，尤其涉及一种文档图片识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

OCR(Optical Character Recognition，光学字符识别)，是指电子设备，例如扫描仪或数码相机，检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。通过OCR技术，能够对包含文字的图像，也就是对文档图片进行识别，从而将文档图片中的文字以可编辑文本输出。OCR技术通常应用在字幕识别、截图识别、网络图片识别和稿件编辑校对等领域。例如，在公司办公过程中，将接收到的其他方的文本文件，可以通过OCR识别技术直接扫描并转换成可编辑文本，不仅提高了办事效率，也方便电子化存储和管理，包括后期查阅检索、编辑管理等。

然而，当前对于OCR技术的运用，仅仅是将文字的识别结果按检测框逐个输出，而对于不规则文档，比如，包括多个不同文字区域的文档图片，现有的 OCR技术识别出的结果，包括的文本内容并不能很好体现出原有文档图片的排版情况或者文字块的排序情况，因此，导致识别效果不佳，识别结果阅读不便。

发明内容

有鉴于此，本发明提出一种文档图片识别方法、装置、计算机设备及计算机可读存储介质，能够解决上述的文档图片识别过程中识别效果不佳、识别结果不便于阅读的问题。

首先，为实现上述目的，本发明提供一种文档图片识别方法，所述方法包括：

对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容；对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；按照预设的排版顺序将所述已处理文本区块输出。

优选地，所述对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合包括：通过预设的文字区域检测模型对所述待识别文档图片进行检测，检测出所述待识别文档图片上的每一个文字检测框，记录为文字检测框集合，其中，所述文字区域检测模型是基于深度学习方式从采样的图片文字数据中训练得到的。

优选地，所述对所述文字检测框集合中的目标文字检测框的文字内容进行识别包括：通过预设的文字识别模型对所述文字检测框集合中的目标文字检测框的文字内容进行识别，其中，所述文字识别模型是基于深度学习方式从采样的文字数据中训练得到的。

优选地，所述根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块包括：描绘出每一个已识别文字的文字轮廓，并分别获取每一个已识别文字的文字轮廓的坐标；根据每一个已识别文字的文字轮廓的坐标生成对应的最小外接矩形；计算相邻的已识别文字对应的两个最小外接矩形之间的距离，并记录为最小外接矩形距离；分别判断每一组相邻的已识别文字的所述最小外接矩形距离是否小于预设阈值；以及，将所述最小外接矩形距离小于预设阈值的相邻的已识别文字划分为同一个文本区块。

优选地，所述描绘出每一个已识别文字的文字轮廓包括：依次对所述待识别文档图片执行灰度化、二值化、去除噪声以及形态学变化以描绘出所述待识别文档图片中的已识别文字的轮廓。

优选地，所述根据预设段落格式对每一个文本区块中的已识别文字进行段落划分包括：

获取每一个已识别文字对应的文字检测框的坐标；判断相邻的两个文字检测框是否为同一行且横向间距是否小于第一阈值；若相邻两个文字检测框为同一行且横向间距小于第一阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若相邻两个文字检测框不是同一行时，则判断所述两个文字检测框的纵向间距是否小于第二阈值、两个文字检测框的左边界横坐标距离是否小于第三阈值以及两个文字检测框的右边界横坐标距离是否小于第四阈值，其中，左边界横向坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的左边界横坐标之间的距离，右边界横坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的右边界横坐标之间的距离；若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且两个文字检测框的右边界横坐标距离小于第四阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且所述右边界横坐标距离不小于第四阈值时，则判断所述两个文字检测框的所述右边界横坐标距离是否大于第五阈值；若所述右边界横坐标距离大于第五阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离不小于第三阈值时，则判断所述两个文字检测框的左边界横坐标距离是否大于第六阈值；若所述左边界横坐标距离大于第六阈值，则将所述两个文字检测框对应的已识别文字拆分为不同段落。

优选地，所述按照预设的排版顺序将所述已处理文本区块输出包括：根据从上到下、从左到右的顺序将已处理文本区块进行输出。

此外，为实现上述目的，本发明还提供一种文档图片识别装置，所述装置包括：

文字检测模块，用于对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容；文字识别模块，用于对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；文字排版模块，用于根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；输出模块，用于按照预设的排版顺序将所述已处理文本区块输出。

进一步地，本发明还提出一种计算机设备，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如上述的文档图片识别方法的步骤。

进一步地，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如上述的文档图片识别方法的步骤。

相较于现有技术，本发明所提出的文档图片识别方法、装置、计算机设备及计算机可读存储介质，能够对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合；对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；按照预设的排版顺序将所述已处理文本区块输出。本发明能够将待识别文档图片进行文字识别后根据已识别文字在所述待识别文档图片上的位置关系以及预算段落格式对已识别文字进行排版，因此，可以有效识别出文档排版格式，提升了文档图片识别的效果，提高了用户阅读体验。

附图说明

图1是本发明一实施例的应用环境示意图；

图2是本发明文档图片识别方法一具体实施例的流程示意图；

图3是本发明一示例性例子中对文本区块中的已识别文字进行段落划分的效果图；

图4是本发明一示例性例子中所述计算机设备1实现文档图片的文字识别和排版的功能效果图；

图5是本发明一示例性例子中检测出待识别文档图片的文字检测框的效果图；

图6是是基于图5的一示例性例子中将文字检测框进行文本区块划分的效果图；

图7是本发明文档图片识别装置一实施例的程序模块示意图；

图8是本发明计算机设备一可选的硬件架构的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

图1是本申请一实施例的应用环境示意图。参阅图1所示，所述计算机设备1可作为手机、平板、便携设备、PC机、服务器或者其他具有拍摄功能和显示功能的电子设备等。所述计算机设备1能够通过拍摄的方式获取一张待识别文档图片；然后对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容；对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；按照预设的排版顺序将所述已处理文本区块输出到显示界面的预设显示窗口。

当然，在其他实施例中，所述计算机设备1可以通过连接到其他终端设备，从所述终端设备获取到待识别文档图片，也可以直接从所述计算机设备1自身的存储单元获取到待识别文档图片。然后，所述计算机设备1对所述待识别文档图片执行文字识别和排版；最后，输出排版好的可编辑文档，反馈给所述终端设备或直接进行存储。也就是说，在该实施例中，所述计算机设备1也可以不用具备拍摄功能和显示功能。

实施例一

图2是本申请文档图片识别方法一实施例的流程示意图。可以理解，本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备1为执行主体进行示例性描述。

如图2所示，所述文档图片识别方法可以包括步骤S200～S206。

步骤S200，对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容。

具体的，所述计算机设备1先获取待识别文档图片，比如，通过自身摄像头拍摄获取文档图片，或者通过与其他终端设备连接并接收其他终端设备发送的待识别文档图片，再或者直接从自身存储单元中获取待识别文档图片。然后，所述计算机设备1对所述待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合。

在一具体实施例中，所述计算机设备1通过预设的文字区域检测模型对所述待识别文档图片进行检测，检测出所述待识别文档图片上的每一个文字检测框，记录为文字检测框集合，其中，所述文字区域检测模型是基于深度学习方式从采样的图片文字数据中训练得到的。例如，所述计算机设备1利用EAST， PSENet，CTPN，DBNet等深度学习算法构建文字区域检测模型，然后直接将采样的图片文字数据对所述文字区域检测模型进行训练，所述文字区域检测模型能够基于采样的图片文字数据中的有效特征自我学习和完善，从而训练出精确度较高的文字区域检测模型。最后，所述计算机设备1根据所述文字区域检测模型对所述待识别文档图片进行文字检测，也就是定位出所述待识别文档图片上的文字的位置并标记为文字检测框。

步骤S202，对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框。

具体的，所述计算机设备1将所述待识别文档图片上的文字进行定位并标记为文字检测框之后，还会进一步对对所述文字检测框集合中的目标文字检测框的文字内容进行识别。在本实施例中，所述计算机设备1通过预设的文字识别模型对所述文字检测框集合中的目标文字检测框的文字内容进行识别，其中，所述文字识别模型是基于深度学习方式从采样的文字数据中训练得到的。例如，所述计算机设备1CRNN,Attention等深度学习算法构建文字识别模型，然后直接将采样的文字数据对所述文字识别模型进行训练，所述文字识别模型能够基于采样的文字数据中的有效特征自我学习和完善，从而训练出精确度较高的文字识别模型。最后，所述计算机设备1根据所述文字识别模型对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中。

步骤S204，根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块。

具体的，所述计算机设备1在识别出所述文字检测框集合对应的已识别文字之后，还会根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，然后再根据预设的段落格式对每一个文本块中的已识别文字进行段落划分，从而得到已处理文本块。

在本实施例中，所述计算机设备1描绘出每一个已识别文字的文字轮廓，并分别获取每一个已识别文字的文字轮廓的坐标；根据每一个已识别文字的文字轮廓的坐标生成对应的最小外接矩形；计算相邻的已识别文字对应的两个最小外接矩形之间的距离，并记录为最小外接矩形距离；分别判断每一组相邻的已识别文字的所述最小外接矩形距离是否小于预设阈值；以及，将所述最小外接矩形距离小于预设阈值的相邻的已识别文字划分为同一个文本区块。其中，所述计算机设备1描绘出每一个已识别文字的文字轮廓的步骤包括：依次对所述待识别文档图片执行灰度化、二值化、去除噪声以及形态学变化以描绘出所述待识别文档图片中的已识别文字的轮廓。例如，所述计算机设备1首先对文档图片进行图像处理，包括灰度化，二值化，中值或高斯滤波去除噪声，以及形态学变化；经由以上处理之后的文档图片中的相邻的文字则会变为白色连续区域，然后将白色文字块从黑色背景中分割出来，得到文字块轮廓；接着，所述计算机设备1计算每一个文字块轮廓在所述文档图片中的坐标；最后，根据文字块轮廓的坐标点描绘出每个文字块轮廓最小外接矩形，从而实现文本块区域的划分。其中，对于两个文字块轮廓的最小外接矩形有重叠部分的，则将两个文字块轮廓对应的两个已识别文字合并到一个文本区块。

接着，所述计算机设备1根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，具体包括：获取每一个已识别文字对应的文字检测框的坐标；判断相邻的两个文字检测框是否为同一行且横向间距是否小于第一阈值；若相邻两个文字检测框为同一行且横向间距小于第一阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若相邻两个文字检测框不是同一行时，则判断所述两个文字检测框的纵向间距是否小于第二阈值、两个文字检测框的左边界横坐标距离是否小于第三阈值以及两个文字检测框的右边界横坐标距离是否小于第四阈值，其中，左边界横向坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的左边界横坐标之间的距离，右边界横坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的右边界横坐标之间的距离；若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且两个文字检测框的右边界横坐标距离小于第四阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且所述右边界横坐标距离不小于第四阈值时，则判断所述两个文字检测框的所述右边界横坐标距离是否大于第五阈值；若所述右边界横坐标距离大于第五阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离不小于第三阈值时，则判断所述两个文字检测框的左边界横坐标距离是否大于第六阈值；若所述左边界横坐标距离大于第六阈值，则将所述两个文字检测框对应的已识别文字拆分为不同段落。

在一具体实施例中，例如，所述计算机设备1将每一个已识别文字对应的文字检测框按照从上到下，从左到右的顺序进行排序；接着，所述计算机设备1 根据上述顺序获取每个文字检测框坐标，判断相邻的两个文字检测框是否为同一行(即坐标中Y轴对应的值相等或近似相等时)且横向间距是否小于预设的第一阈值，若相邻两个文字检测框为同一行且横向间距小于第一阈值，则合并两个文字检测框对应的两个已识别文字成一个段落；若相邻两个文字检测框不是同一行时，那么，所述计算机设备1则判断两个文字检测框的纵向间距是否小于预设的第二阈值，并判断左边界横坐标距离或右边界横坐标距离是否分别小于预设第三阈值和第四阈值，其中，左边界横向坐标距离和右边界横向左边距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的左边界横坐标距离或右边界横坐标距离，若纵向间距小于第二阈值且左边界横坐标距离小于第三阈值或右边界横坐标距离小于第四阈值，则判断两个文字检测框对应的两个已识别文字属于同一段落，并合并两个文字检测框对应的两个已识别文字成一个段落；当若纵向间距小于第二阈值的情况下，而左边界横坐标距离不小于第三阈值或右边界横坐标距离不小于第四阈值时，那么所述计算机设备1继续判断两个相邻的文字检测框的右边界横坐标距离大于预设的第五阈值或者两个相邻的文字检测框的左边界横坐标距离大于预设的第六阈值，若两个相邻的文字检测框的右边界横坐标距离大于第五阈值，则认为两个文字检测框属于同一个段落，且该两个文字检测框为一个段落的结束点；若两个相邻的文字检测框的左边界横坐标距离大于第六阈值，则认为两个文字检测框不属于同一个段落，且该两个文字检测框为两个段落的分界点。

参阅图3所示，是本发明一示例性例子中对文本区块中的已识别文字进行段落划分的效果图。其中，所述计算机设备1对待识别文档图片进行识别并划分为文本区块后，得到一个文本区块，该文本区块包括6个文字检测框对应的已识别文字：1“那时候不知道谈些什么”，2“只记得”，3“闰土很高兴”，4“说是上城之后，见了许”，6“第二日，我便要他捕鸟”。接着，所述计算机设备1根据每一对相邻两个文字检测框的横向间距x_gap，纵向间距y_gap，左边界横坐标距离left_gap，右边界横坐标距离right_gap，判断该两个相邻的文字检测框对应的已识别文字是否属于同一段落。其中，编号1的已识别文字与编号2的已识别文字横向间距小于第一阈值，属于同一段落；编号3的已识别文字与编号4的已识别文字横向间距小于第一阈值，属于同一段落；编号4的已识别文字与编号2 的已识别文字纵向间距小于第二阈值且右边界横坐标距离小于第四阈值，属于同一段落；编号5的已识别文字与编号3的已识别文字纵向间距小于第二阈值且左边界横坐标距离小于第三阈值，属于同一段落；而编号6的已识别文字与编号 5的已识别文字纵向间距小于第二阈值且左边界横坐标距离大于第五阈值，不属于同一段落，且编号6的已识别文字与编号5的已识别文字为两个段落的分界点。

参阅图4所示，是本发明一示例性例子中所述计算机设备1实现文档图片的文字识别和排版的功能效果图。所述计算机设备1通过检测模块检测检测文档图片中的文字区域；通过识别模块对检测出来的文字区域进行内容识别；通过版面分析模块找到图片中的文字区域块。例如：双栏论文会切分为左右两块，多区域文本会将各个区域分开；最后通过排版模块对各个区域块内的文字识别结果进行排版，并将最终结果展示给用户。

参阅图5所示，是本发明一示例性例子中检测出待识别文档图片的文字检测框的效果图。其中，所述计算机设备1的检测模块通过文字区域检测模型对待识别文档图片中的文字区域进行检测，从而检测出其中包括的文字检测框，包括： “板块对PC门户的需求”，“PC门户栏目设置，包括匿名页和工作台，目前匿名页包含了要闻、企业文化、工会园地、XX等，工作台主要是公告、人事任免、全民营销，除此之外板块有没有其他需求和建议。”，“01”，“02”，“自定义板块页面。板块设置个性化的页面，放置板块的通知公告、人事、制度、模板等。”， “03”和“对PC门户设计的建议”共7个文字检测框。

参阅图6所示，是基于图5的一示例性例子中将文字检测框进行文本区块划分的效果图。其中，所述计算机设备1根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块，从而得到文本区块包括：“板块对PC门户的需求”，“PC门户栏目设置，包括匿名页和工作台，目前匿名页包含了要闻、企业文化、工会园地、XX等，工作台主要是公告、人事任免、全民营销，除此之外板块有没有其他需求和建议。”，“01”，“02”，“自定义板块页面。板块设置个性化的页面，放置板块的通知公告、人事、制度、模板等。”和“对PC门户设计的建议03”共6个文本区块。

步骤S206，按照预设的排版顺序将所述已处理文本区块输出。

具体的，所述计算机设备1在划分出文本区块以及对文本区块中的已识别文字进行段落划分之后，则会进一步按照预设的排版顺序将所有的所述已处理文本区块输出，具体包括：根据从上到下、从左到右的顺序将已处理文本区块进行输出。

例如，所述计算机设备1对于待识别文档图片通过步骤S200-S204的执行，得到已处理文本区块为：

′那时候不知道谈些什么，′，′只记得′，′闰土很高兴，′，′说是上城之后，见了许′，′多没有见过的东西。′′第二日，我便要他捕鸟。′

最后，所述计算机设备1根据从上到下、从左到右的顺序将上述已处理文本区块进行输出，得到：

′那时候不知道谈些什么，只记得闰土很高兴，说是上城之后，见了许多没有见过的东西。′′第二日，我便要他捕鸟。′

当然，在另一具体实施例中，所述计算机设备1也可以通过现有的OCR技术实现以上所述的步骤S200和步骤S202中的文字框检测和文字框集合中的文字内容识别的步骤；然后经由步骤S204和步骤S206执行对于已识别文字的排版和输出过程。

所述计算机设备1通过以上步骤的执行，对于文字检测框之间存在断开的情况，能够进行自动合并，保持文字内容的完整性；通过对已识别文字集合的已识别文字进行分块、分段处理，方便用户进行阅读。因此，所述计算机设备1 能够识别的文档图片的内容识别不仅限于正规文档，还可以对杂乱的排版的杂志文件对应的文档图片进行识别，解决了双栏文档、分块文档识别结果排列错乱，难以阅读的问题，泛化能力较强。

综上所述，本实施例所提出的文档图片识别方法能够对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合；对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；按照预设的排版顺序将所述已处理文本区块输出。本发明能够将待识别文档图片进行文字识别后根据已识别文字在所述待识别文档图片上的位置关系以及预算段落格式对已识别文字进行排版，因此，可以有效识别出文档排版格式，提升了文档图片识别的效果，提高了用户阅读体验。

实施例二

图7示意性示出了根据本申请实施例二的文档图片识别装置的框图，该文档图片识别装置可以被分割成一个或多个程序模块，一个或者多个程序模块被存储于存储介质中，并由一个或多个处理器所执行，以完成本申请实施例。本申请实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段，以下描述将具体介绍本实施例中各程序模块的功能。

如图7所示，该文档图片识别装置400可以包括文字检测模块410、文字识别模块420、文字排版模块430和输出模块440，其中：

文字检测模块410，用于对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容。

文字识别模块420，用于对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框。

文字排版模块430，用于根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块。

输出模块440，用于按照预设的排版顺序将所述已处理文本区块输出。

在示例性的实施例中，文字检测模块410，还用于：通过预设的文字区域检测模型对所述待识别文档图片进行检测，检测出所述待识别文档图片上的每一个文字检测框，记录为文字检测框集合，其中，所述文字区域检测模型是基于深度学习方式从采样的图片文字数据中训练得到的。

在示例性的实施例中，文字识别模块420，还用于：通过预设的文字识别模型对所述文字检测框集合中的目标文字检测框的文字内容进行识别，其中，所述文字识别模型是基于深度学习方式从采样的文字数据中训练得到的。

在示例性的实施例中，文字排版模块430，还用于：

描绘出每一个已识别文字的文字轮廓，并分别获取每一个已识别文字的文字轮廓的坐标；根据每一个已识别文字的文字轮廓的坐标生成对应的最小外接矩形；计算相邻的已识别文字对应的两个最小外接矩形之间的距离，并记录为最小外接矩形距离；分别判断每一组相邻的已识别文字的所述最小外接矩形距离是否小于预设阈值；以及，将所述最小外接矩形距离小于预设阈值的相邻的已识别文字划分为同一个文本区块。其中，所述描绘出每一个已识别文字的文字轮廓包括：依次对所述待识别文档图片执行灰度化、二值化、去除噪声以及形态学变化以描绘出所述待识别文档图片中的已识别文字的轮廓。以及，获取每一个已识别文字对应的文字检测框的坐标；判断相邻的两个文字检测框是否为同一行且横向间距是否小于第一阈值；若相邻两个文字检测框为同一行且横向间距小于第一阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若相邻两个文字检测框不是同一行时，则判断所述两个文字检测框的纵向间距是否小于第二阈值、两个文字检测框的左边界横坐标距离是否小于第三阈值以及两个文字检测框的右边界横坐标距离是否小于第四阈值，其中，左边界横向坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的左边界横坐标之间的距离，右边界横坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的右边界横坐标之间的距离；若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且两个文字检测框的右边界横坐标距离小于第四阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且所述右边界横坐标距离不小于第四阈值时，则判断所述两个文字检测框的所述右边界横坐标距离是否大于第五阈值；若所述右边界横坐标距离大于第五阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，若所述纵向间距小于第二阈值、所述左边界横坐标距离不小于第三阈值时，则判断所述两个文字检测框的左边界横坐标距离是否大于第六阈值；若所述左边界横坐标距离大于第六阈值，则将所述两个文字检测框对应的已识别文字拆分为不同段落。

在示例性的实施例中，输出模块440，还用于：根据从上到下、从左到右的顺序将已处理文本区块进行输出。

实施例三

图8示意性示出了根据本申请实施例三的适于实现文档图片识别方法的计算机设备1的硬件架构示意图。本实施例中，计算机设备1是一种能够按照事先设定或者存储的指令，自动进行数值计算和/或信息处理的设备。例如，可以是具有网关功能的机架式服务器、刀片式服务器、塔式服务器或机柜式服务器 (包括独立的服务器，或者多个服务器所组成的服务器集群)等。如图8所示，计算机设备1至少包括但不限于：可通过系统总线相互通信链接存储器510、处理器520、网络接口530。其中：

存储器510至少包括一种类型的计算机可读存储介质，可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，存储器510可以是计算机设备1的内部存储模块，例如该计算机设备1的硬盘或内存。在另一些实施例中，存储器510 也可以是计算机设备1的外部存储设备，例如该计算机设备1上配备的插接式硬盘，智能存储卡(Smart Media Card，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，存储器510还可以既包括计算机设备1的内部存储模块也包括其外部存储设备。本实施例中，存储器510 通常用于存储安装于计算机设备10的操作系统和各类应用软件，例如文档图片识别方法的程序代码等。此外，存储器510还可以用于暂时地存储已经输出或者将要输出的各类数据。

处理器520在一些实施例中可以是中央处理器(Central Processing Unit，简称为CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器 520通常用于控制计算机设备1的总体操作，例如执行与计算机设备1进行数据交互或者通信相关的控制和处理等。本实施例中，处理器520用于运行存储器510中存储的程序代码或者处理数据。

网络接口530可包括无线网络接口或有线网络接口，该网络接口530通常用于在计算机设备1与其他计算机设备之间建立通信链接。例如，网络接口530 用于通过网络将计算机设备1与外部终端相连，在计算机设备1与外部终端之间的建立数据传输通道和通信链接等。网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication，简称为GSM)、宽带码分多址(Wideband CodeDivision Multiple Access，简称为WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。

需要指出的是，图8仅示出了具有部件510-530的计算机设备，但是应理解的是，并不要求实施所有示出的部件，可以替代的实施更多或者更少的部件。

在本实施例中，存储于存储器510中的文档图片识别方法的程序代码，或者文档图片识别方法的程序代码还可以被分割为一个或者多个程序模块，并由一个或多个处理器(本实施例为处理器520)所执行，以完成本申请实施例。

实施例四

本实施例还提供一种计算机可读存储介质，计算机可读存储介质其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

本实施例中，计算机可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，计算机可读存储介质可以是计算机设备的内部存储单元，例如该计算机设备的硬盘或内存。在另一些实施例中，计算机可读存储介质也可以是计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡(Smart MediaCard，简称为SMC)，安全数字(Secure Digital，简称为SD)卡，闪存卡(Flash Card)等。当然，计算机可读存储介质还可以既包括计算机设备的内部存储单元也包括其外部存储设备。本实施例中，计算机可读存储介质通常用于存储安装于计算机设备的操作系统和各类应用软件，例如实施例中文档图片识别方法的程序代码等。此外，计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的各类数据。

显然，本领域的技术人员应该明白，上述的本申请实施例的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请实施例不限制于任何特定的硬件和软件结合。

以上仅为本申请实施例的优选实施例，并非因此限制本申请实施例的专利范围，凡是利用本申请实施例说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请实施例的专利保护范围内。

Claims

1.一种文档图片识别方法，其特征在于，所述方法包括：

对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框的区域内包括至少一个文字内容；

对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；

根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；

按照预设的排版顺序将所述已处理文本区块输出。

2.如权利要求1所述的文档图片识别方法，其特征在于，所述对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合包括：

通过预设的文字区域检测模型对所述待识别文档图片进行检测，检测出所述待识别文档图片上的每一个文字检测框，记录为文字检测框集合，其中，所述文字区域检测模型是基于深度学习方式从采样的图片文字数据中训练得到的。

3.如权利要求1中所述的文档图片识别方法，其特征在于，所述对所述文字检测框集合中的目标文字检测框的文字内容进行识别包括：

通过预设的文字识别模型对所述文字检测框集合中的目标文字检测框的文字内容进行识别，其中，所述文字识别模型是基于深度学习方式从采样的文字数据中训练得到的。

4.如权利要求1所述的文档图片识别方法，其特征在于，所述根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块包括：

描绘出每一个已识别文字的文字轮廓，并分别获取每一个已识别文字的文字轮廓的坐标；

根据每一个已识别文字的文字轮廓的坐标生成对应的最小外接矩形；

计算相邻的已识别文字对应的两个最小外接矩形之间的距离，并记录为最小外接矩形距离；

分别判断每一组相邻的已识别文字的所述最小外接矩形距离是否小于预设阈值；以及，

将所述最小外接矩形距离小于预设阈值的相邻的已识别文字划分为同一个文本区块。

5.如权利要求4所述的文档图片识别方法，其特征在于，所述描绘出每一个已识别文字的文字轮廓包括：

依次对所述待识别文档图片执行灰度化、二值化、去除噪声以及形态学变化以描绘出所述待识别文档图片中的已识别文字的轮廓。

6.如权利要求1所述的文档图片识别方法，其特征在于，所述根据预设段落格式对每一个文本区块中的已识别文字进行段落划分包括：

获取每一个已识别文字对应的文字检测框的坐标；

判断相邻的两个文字检测框是否为同一行且横向间距是否小于第一阈值；

若相邻两个文字检测框为同一行且横向间距小于第一阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，

若相邻两个文字检测框不是同一行时，则判断所述两个文字检测框的纵向间距是否小于第二阈值、两个文字检测框的左边界横坐标距离是否小于第三阈值以及两个文字检测框的右边界横坐标距离是否小于第四阈值，其中，左边界横向坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的左边界横坐标之间的距离，右边界横坐标距离是指排序相邻的两个文字检测框中的后一个文字检测框相对于前一个文字检测框的右边界横坐标之间的距离；

若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且两个文字检测框的右边界横坐标距离小于第四阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，

若所述纵向间距小于第二阈值、所述左边界横坐标距离小于第三阈值且所述右边界横坐标距离不小于第四阈值时，则判断所述两个文字检测框的所述右边界横坐标距离是否大于第五阈值；

若所述右边界横坐标距离大于第五阈值，则合并所述两个文字检测框对应的已识别文字成一个段落；和/或，

若所述纵向间距小于第二阈值、所述左边界横坐标距离不小于第三阈值时，则判断所述两个文字检测框的左边界横坐标距离是否大于第六阈值；

若所述左边界横坐标距离大于第六阈值，则将所述两个文字检测框对应的已识别文字拆分为不同段落。

7.如权利要求1-6中任一项所述的文档图片识别方法，其特征在于，所述按照预设的排版顺序将所述已处理文本区块输出包括：

根据从上到下、从左到右的顺序将已处理文本区块进行输出。

8.一种文档图片识别装置，其特征在于，所述装置包括：

文字检测模块，用于对待识别文档图片进行文字检测，得到包括多个文字检测框的文字检测框集合，其中，每一个文字检测框区域内包括至少一个文字内容；

文字识别模块，用于对所述文字检测框集合中的目标文字检测框的文字内容进行识别，得到所述目标文字检测框对应的已识别文字，并记录到预设的已识别文字集合中，其中，所述目标文字检测框为所述文字检测框集合中的任一文字检测框；

文字排版模块，用于根据已识别文字在所述待识别文档图片上的位置关系将所述已识别文字集合中的已识别文字划分为文本区块，以及根据预设段落格式对每一个文本区块中的已识别文字进行段落划分，得到已处理文本区块；

输出模块，用于按照预设的排版顺序将所述已处理文本区块输出。

9.一种计算机设备，其特征在于，所述计算机设备包括存储器、处理器，所述存储器上存储有可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1-7中任一项所述的文档图片识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序可被至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-7中任一项所述的文档图片识别方法的步骤。