CN114495142A

CN114495142A - 文档段落位置提取装置

Info

Publication number: CN114495142A
Application number: CN202111529231.8A
Authority: CN
Inventors: 宗天睿; 张鹤; 李沄沨; 许若华; 杨林; 吴冠昊; 蔡欣达
Original assignee: Cetc Digital Intelligence Technology Beijing Co ltd
Current assignee: Cetc Digital Intelligence Technology Beijing Co ltd
Priority date: 2021-12-14
Filing date: 2021-12-14
Publication date: 2022-05-13

Abstract

本发明提供了一种文档段落位置提取装置，所述装置包括：处理模块，用于对待处理文档的页面进行图像化处理，得到第一图像；清理模块，用于根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓；分栏模块，用于根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息；分割模块，用于根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置。本发明从图像处理角度出发，通过融合轮廓信息，对待处理文档进行清理、分栏并分割段落，提高了文档段落位置定位的普适性、准确性和可靠性。

Description

文档段落位置提取装置

技术领域

本发明涉及计算机技术领域，具体涉及一种文档段落位置提取装置。

背景技术

在数字出版技术快速发展的今天，绝大多数期刊或学术会议的论文都会以电子文档形式发行。PDF(Portable Document Format，便携式文档格式)由于其可以由word文档或者latex文档直接转换生成、字体内嵌、支持高压缩图片、文件体积小便于传输、支持跨平台显示、不易修改、安全性高等特点，是期刊论文广泛使用的电子发行格式。

随着数字信息技术的发展，越来越多的文献检索机构希望可以使用计算机分段落自动提取期刊论文中的文本信息，而能否准确地分割段落信息，是准确提取文本的基础，也是关键。现有段落分割技术分为两种：一种是通过对PDF文档中的流数据进行分析来定位段落位置信息；另一种是采用OCR(Optical Character Recognition，光学字符识别)获取字符的位置，继而推导段落位置信息。

然而，基于流数据分析的方法要求PDF文档的流数据中必须包含文字及段落信息，但是实际上很多PDF文档中的流数据中并不含有此类信息，例如通过扫描仪生成或者由图片转化的PDF文档，因此此类方法无法从此类PDF文档中获取准确的段落位置信息。

而另一种基于OCR的技术方案则高度依赖OCR工具的准确性。例如，现有的OCR工具对标点、希腊字母、数字、符号等特殊字符的位置信息提取准确率不高，很容易造成对段落信息的错位判断。同时，OCR的准确率对于文档使用的语言有很高依赖性，对于英文文档有效的OCR工具很可能完全无法被用于中文文档。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种文档段落位置提取装置。

具体地，本发明实施例提供了以下技术方案：

本发明实施例提供了一种文档段落位置提取装置，包括：

处理模块，用于对待处理文档的页面进行图像化处理，得到第一图像；

清理模块，用于根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓；

分栏模块，用于根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息；

分割模块，用于根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置。

进一步地，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓时，具体用于：

根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库；

对所述第一轮廓信息库中包括的非文字轮廓进行清理，确定所述第一图像中的文字轮廓。

进一步地，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库时，具体用于：

对所述第一图像进行二值化处理，得到二值化图像；

定位所述二值化图像中的非空白区域的像素点，建立第一像素坐标库；

通过第一像素坐标库融合轮廓、区分不相接的轮廓，确定所述第一图像中包括的第一轮廓信息库。

进一步地，所述清理模块在对所述第一图像进行二值化处理，得到二值化图像时，具体用于：

计算动态阈值，根据所述动态阈值对所述第一图像进行二值化处理，得到二值化图像。

进一步地，所述清理模块在对所述第一轮廓信息库中包括的非文字轮廓进行清理，确定所述第一图像中的文字轮廓时，具体用于：

根据第一预设条件对所述第一轮廓信息库中的轮廓进行筛选，定位文字轮廓和非文字轮廓；

若存在非文字轮廓，将所述非文字轮廓从所述第一轮廓信息库中排除；

统计所有的文字轮廓，截取有效信息图像；

计算所述有效信息图像的页面尺寸，并根据所述页面尺寸修正并更新所有的文字轮廓信息。

进一步地，所述分栏模块在根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息时，具体用于：

在所述有效信息图像中，定位文字轮廓，将除文字轮廓外的区域确定为空白区域，并建立第二像素坐标库以记录空白区域信息；

通过所述第二像素坐标库融合轮廓、区分不相接的轮廓并建立第二轮廓信息库；

在所述第二轮廓信息库中，将相邻方向接近的轮廓进行合并整理；

根据第二预设条件对第二轮廓信息库中的轮廓进行筛选，确定所述第一图像中是否包括分栏信息。

进一步地，所述分割模块在根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置时，具体用于：

若确定所述页面不存在分栏轮廓，则将所述页面视为单栏；否则在所述有效信息图像内，根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏；

其中，在同一文字栏中，在水平方向上，将距离小于第一预设距离阈值的文字轮廓进行合并整理；

在同一文字栏中，在垂直方向上，将距离小于第二预设距离阈值的文字轮廓进行合并整理；

根据整理后的文字轮廓信息，确定所述待处理文档的页面的文档段落位置。

进一步地，所述待处理文档包括PDF文档或WORD文档。

根据上面的技术方案可知，本发明实施例提供的文档段落位置提取装置，从图像处理角度出发，通过融合轮廓信息，对待处理文档进行清理、分栏并分割段落，避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题，提高了PDF文档段落位置定位的普适性、准确性和可靠性。

需要说明的是，本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的文档段落位置提取装置的结构示意图；

图2是本发明一实施例提供的文档段落位置提取装置的实现过程示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

根据背景技术的介绍可知，基于流数据分析的方法要求PDF文档的流数据中必须包含文字及段落信息，然而很多PDF文档中的流数据中并不含有此类信息，例如通过扫描仪生成或者由图片转化的PDF文档。因此此类方法无法从此类PDF文档中获取准确的段落位置信息。而基于OCR的技术方案则高度依赖OCR工具的准确性。然而，现有的OCR工具对标点、希腊字母、数字、符号等特殊字符的位置信息提取准确率不高，很容易造成对段落信息的错位判断。同时，OCR的准确率对于文档使用的语言有很高依赖性，对于英文文档有效的OCR工具很可能完全无法被用于中文文档。针对现有方法的缺点，本发明实施例从图像处理角度出发，通过融合轮廓信息，对待处理文档进行清理、分栏并分割段落。不仅对任何类型的PDF文档都有效，包括通过扫描仪生成或者由图片转化的PDF文档，同时定位准确，且不依赖于文档的语言种类。此外，需要说明的是，本发明实施例提供的文档段落位置提取装置也可以适用于有需要的WORD文档。下面将通过具体实施例对本发明提供的文档段落位置提取装置进行详细说明。

图1示出了本发明一实施例提供的文档段落位置提取装置的结构示意图，参见图1，本发明实施例提供的段落位置提取装置，包括：

处理模块20，用于对待处理文档的页面进行图像化处理，得到第一图像；

清理模块21，用于根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓；

分栏模块22，用于根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息；

分割模块23，用于根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置。

在本实施例中，将待处理文档进行分页，对于每一页文档，分别进行图像化处理，得到对应的第一图像。其中，在将待处理文档的页面转化为图像时，可根据算力将图像尺寸调整为适合大小。

在本实施例中，待处理文档可以为WORD文档，也可以为PDF文档。这里的PDF文档可以为横版PDF期刊论文，PDF文档中的每一页对应期刊论文中的一个单页。PDF文档可以是任何类型的PDF文档，包括通过扫描仪生成和由图片转化的PDF文档。页面内容可以是黑白，也可以是彩色。

在本实施例中，将与每个页面对应的第一图像转化为二维灰度值图像，整体统筹所有像素点的像素值分布，然后可以使用通过设置一个全局阈值将图像二值化，也可以在图像局部使用加权均值及大津算法等局部阈值将图像二值化。然后定位所有黑色像素点，并建立第一轮廓信息库。

在本实施例中，首先定位所有像素值为黑色的像素点，建立第一像素坐标库；然后根据预设条件，融合上、下、左、右四个方向上接近的像素为同一轮廓，同时区分不接近的轮廓，建立第一轮廓信息库。然后清理非文字轮廓信息，并截取有效信息图像。具体地，首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值，对轮廓的尺寸、面积等信息进行筛选，将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓，则将其从第一轮廓信息库中剔除，并将剩余轮廓定义为文字轮廓。综合所有文字轮廓，计算包含所有文字轮廓的最小有效信息图像页面尺寸，并根据有效信息图像的边界坐标，更新第一轮廓信息库中的轮廓坐标信息。在本实施例中，在得到的有效信息图像中，定位所有白色像素位置，并建立第二轮廓信息库。具体地，首先在有效信息图像中定位所有像素值为白色的像素点，建立第二像素坐标库。若像素坐标包含于上述的非文字轮廓，则将其从第二像素坐标库中剔除。后根据预设条件，融合上、下、左、右四个方向上接近的像素为同一轮廓，同时区分不接近的轮廓，建立第二轮廓信息库，对第二轮廓信息库进行整理并采用标准化形式记录。

然后定位分栏轮廓，并分割文字轮廓。具体地，通过预设阈值，对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选，将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选，定位分栏轮廓。

在本实施例中，通过对轮廓的尺寸及面积进行筛选，定位分栏轮廓。若不存在分栏轮廓，则将页面视为单栏；否则在有效信息图像内，根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。

在本实施例中，在同一文字栏中，对于所有的文字轮廓，首先根据预设阈值，将水平方向上所有相近的文字轮廓合并，形成行轮廓，不接近的行轮廓应隶属于不同轮廓；然后在垂直方向上，将所有相近的行轮廓合并，形成段轮廓，不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。

根据上面的技术方案可知，本发明实施例从图像处理角度出发，通过融合轮廓信息，对待处理文档进行清理、分栏并分割段落，避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题，提高了PDF文档段落位置定位的普适性、准确性和可靠性。

基于上述实施例的内容，在本实施例中，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓时，具体用于：

在本实施例中，在根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓时，可以采用的手段为：根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库；对所述第一轮廓信息库中包括的非文字轮廓进行清理，确定所述第一图像中的文字轮廓。由此可见，本实施例通过对第一图像中的非空白区域进行处理，得到所有的轮廓，然后再对非文字轮廓进行清理，从而得到对于段落分割真正有用的文字轮廓，从而提高段落提取的准确度。

基于上述实施例的内容，在本实施例中，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库时，具体用于：

对所述第一图像进行二值化处理，得到二值化图像；

在本实施例中，在根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库时，可以采用的手段为：对所述第一图像进行二值化处理，得到二值化图像；定位所述二值化图像中的非空白区域的像素点，建立第一像素坐标库；通过第一像素坐标库融合轮廓、区分不相接的轮廓，确定所述第一图像中包括的第一轮廓信息库。由此可见，本实施例首先通过对第一图像进行二值化处理，然后再定位二值化图像中非空白区域的像素点的方式，建立第一像素坐标库，最后基于第一像素坐标库，通过第一像素坐标库融合轮廓以及区分不相接的轮廓的方式，确定所述第一图像中包括的所有轮廓信息，由此可见，通过这种轮廓确定方式，可以很简单方便地找全第一图像中包括的所有轮廓，从而为后续对非文字轮廓进行清理，进而确定对于段落分割真正有用的文字轮廓提供了基础。

基于上述实施例的内容，在本实施例中，所述清理模块在对所述第一图像进行二值化处理，得到二值化图像时，具体用于：

在本实施例中，通过依据计算动态阈值，并根据动态阈值对第一图像进行二值化处理，从而使得得到的二值化图像更为准确，更能反映文档本身的实际情况。

基于上述实施例的内容，在本实施例中，所述清理模块在对所述第一轮廓信息库中包括的非文字轮廓进行清理，确定所述第一图像中的文字轮廓时，具体用于：

统计所有的文字轮廓，截取有效信息图像；

在本实施例中，首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值，对轮廓的尺寸、面积等信息进行筛选，将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓，则将其从第一轮廓信息库中剔除，并将剩余轮廓定义为文字轮廓。综合所有文字轮廓，计算包含所有文字轮廓的最小有效信息图像页面尺寸，并根据有效信息图像的边界坐标，更新第一轮廓信息库中的轮廓坐标信息。

基于上述实施例的内容，在本实施例中，所述分栏模块在根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息时，具体用于：

在本实施例中，首先在有效信息图像中定位所有像素值为白色的像素点，建立第二像素坐标库。若像素坐标包含于上述的非文字轮廓，则将其从第二像素坐标库中剔除。后根据预设条件，融合上、下、左、右四个方向上接近的像素为同一轮廓，同时区分不接近的轮廓，建立第二轮廓信息库，对第二轮廓信息库进行整理并采用标准化形式记录。定位分栏轮廓，并分割文字轮廓。首先通过预设阈值，对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选，将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选，定位分栏轮廓。

基于上述实施例的内容，在本实施例中，所述分割模块在根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置时，具体用于：

在本实施例中，若不存在分栏轮廓，则将页面视为单栏；否则在有效信息图像内，根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。合并同一文字栏中的轮廓，并提取段落位置信息。在本步骤中，在同一文字栏中，对于所有的文字轮廓，首先根据预设阈值，将水平方向上所有相近的文字轮廓合并，形成行轮廓，不接近的行轮廓应隶属于不同轮廓；然后在垂直方向上，将所有相近的行轮廓合并，形成段轮廓，不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。

图2为本发明实施例提供的文档段落位置提取装置的实现过程示意图，所述装置除包括处理模块20以外，还主要包括清洗模块21、分栏模块22和分割模块23。清洗模块21用于提取并融合文字轮廓。若融合后的轮廓不符合预设的尺寸、面积等阈值，则判断其为非文字轮廓并清洗。分栏模块22用于提取有效信息图像中的分栏信息，并将文字轮廓分对应至相应的文字栏。分割模块23用于将每个文字栏中的文字轮廓分割为不同段落，并记录段落的矩形轮廓信息。优选的，清洗模块21包括图像转化单元211、轮廓定位单元212和页面清理单元213。其中，图像转化单元211用于将PDF文档分页图像化并二值化，轮廓定位单元212用于定位并融合非空白的像素点并获得轮廓信息，页面清理单元213用于判断并清洗非文字轮廓信息并生成有效信息图像。优选的，分栏模块22包括空白定位单元221和分栏分割单元222。其中，空白定位单元221用于定位空白矩形分栏轮廓，分栏分割单元222用于将文字轮廓基于分栏轮廓信息划分为不同文字栏。

本发明实施例提供的文档段落位置提取装置尤其适用于横版PDF期刊论文，下面以PDF文档为例对所述装置的工作过程进行说明：

步骤11，将PDF文档分页，并转化为图像文件。

在本步骤中，PDF文档为横版PDF期刊论文，PDF文档中的每一页对应期刊论文中的一个单页。PDF文档可以是任何类型的PDF文档，包括通过扫描仪生成和由图片转化的PDF文档。页面内容可以是黑白，也可以是彩色。在转化为图像时，可根据算力将图片尺寸调整为适合大小，并相应调整阈值。

步骤12，将单页图像转化为只含有纯黑色和纯白色的图像。

在本步骤中，可先将图像转化为二维灰度值图像，整体统筹所有像素点的像素值分布。然后可以使用通过设置一个全局阈值将图像二值化，也可以在图像局部使用加权均值及大津算法等局部阈值将图像二值化。

步骤13，定位所有黑色像素点，并建立第一轮廓信息库。

在本步骤中，首先定位所有像素值为黑色的像素点，建立第一像素坐标库；然后根据预设条件，融合上、下、左、右四个方向上接近的像素为同一轮廓，同时区分不接近的轮廓，建立第一轮廓信息库。

步骤14，清理非文字轮廓信息，并截取有效信息图像。

在本步骤中，首先对第一轮廓信息库进行整理并采用标准化形式记录。然后通过预设阈值，对轮廓的尺寸、面积等信息进行筛选，将不满足条件的轮廓定义为非文字轮廓。若存在非文字轮廓，则将其从第一轮廓信息库中剔除，并将剩余轮廓定义为文字轮廓。综合所有文字轮廓，计算包含所有文字轮廓的最小有效信息图像页面尺寸，并根据有效信息图像的边界坐标，更新第一轮廓信息库中的轮廓坐标信息。

步骤15，在有效信息图像中，定位所有白色像素位置，并建立第二轮廓信息库。

在本步骤中，首先在有效信息图像中定位所有像素值为白色的像素点，建立第二像素坐标库。若像素坐标包含于步骤14中的非文字轮廓，则将其从第二像素坐标库中剔除。后根据预设条件，融合上、下、左、右四个方向上接近的像素为同一轮廓，同时区分不接近的轮廓，建立第二轮廓信息库，对第二轮廓信息库进行整理并采用标准化形式记录。

步骤16，定位分栏轮廓，并分割文字轮廓。

在本步骤中，首先通过预设阈值，对第二轮廓信息库中轮廓的尺寸、面积等信息进行筛选，将满足条件的轮廓定义为分栏轮廓。通过对轮廓的尺寸及面积进行筛选，定位分栏轮廓。若不存在分栏轮廓，则将页面视为单栏；否则在有效信息图像内，根据分栏轮廓将文字轮廓从上至下、从左至右划分为不同文字栏。

步骤17，合并同一文字栏中的轮廓，并提取段落位置信息。

在本步骤中，在同一文字栏中，对于所有的文字轮廓，首先根据预设阈值，将水平方向上所有相近的文字轮廓合并，形成行轮廓，不接近的行轮廓应隶属于不同轮廓；然后在垂直方向上，将所有相近的行轮廓合并，形成段轮廓，不接近的段轮廓应隶属于不同轮廓。最终的段轮廓信息即为提取出的段落位置信息。

本发明实施例从图像处理角度出发，通过融合轮廓信息，对待处理文档进行清理、分栏并分割段落，避免了现有方法要求PDF文档的流数据中必须含有文字及段落信息、严重依赖OCR工具准确性、严重依赖文档的语言种类等问题，提高了PDF文档段落位置定位的普适性、准确性和可靠性。

Claims

1.一种文档段落位置提取装置，其特征在于，包括：

2.根据权利要求1所述的文档段落位置提取装置，其特征在于，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中的文字轮廓时，具体用于：

3.根据权利要求2所述的文档段落位置提取装置，其特征在于，所述清理模块在根据所述第一图像中包括的非空白区域，确定所述第一图像中包括的第一轮廓信息库时，具体用于：

对所述第一图像进行二值化处理，得到二值化图像；

4.根据权利要求3所述的文档段落位置提取装置，其特征在于，所述清理模块在对所述第一图像进行二值化处理，得到二值化图像时，具体用于：

5.根据权利要求3所述的文档段落位置提取装置，其特征在于，所述清理模块在对所述第一轮廓信息库中包括的非文字轮廓进行清理，确定所述第一图像中的文字轮廓时，具体用于：

统计所有的文字轮廓，截取有效信息图像；

6.根据权利要求5所述的文档段落位置提取装置，其特征在于，所述分栏模块在根据所述第一图像以及所述第一图像中包括的文字轮廓，确定所述第一图像中是否包括分栏信息时，具体用于：

7.根据权利要求6所述的文档段落位置提取装置，其特征在于，所述分割模块在根据所述第一图像中是否包括分栏信息，确定所述待处理文档的页面的文档段落位置时，具体用于：

8.根据权利要求1～7任一项所述的文档段落位置提取装置，其特征在于，所述待处理文档包括PDF文档或WORD文档。