CN116958995A

CN116958995A - 一种基于字符在平面位置信息的分段方法

Info

Publication number: CN116958995A
Application number: CN202310967084.5A
Authority: CN
Inventors: 肖盼; 郑侃炜
Original assignee: Shanghai Hudun Information Technology Co ltd
Current assignee: Shanghai Hudun Information Technology Co ltd
Priority date: 2023-08-03
Filing date: 2023-08-03
Publication date: 2023-10-27

Abstract

本发明涉及一种基于字符在平面位置信息的分段方法，包括以下步骤：步骤S1、文本位置校正：对文本进行位置校正，以保证文本的位置信息准确无误；步骤S2、文本聚类：对文本进行聚类，将标题文本和内容文本区分开来，利用文字大小、位置、颜色信息进行分析，以识别出标题文本和内容文本；步骤S3、布局分析：通过字符的联通性检测出内容的布局信息，如左右结构、上下结构，这一步骤利用字符的连通性特征和字形信息进行分析，以识别出文本的布局结构；步骤S4、分段识别：根据标点符号以及不同内容的行间距、字间距特征将内容分段，这一步骤利用标点符号、行间距、字间距特征进行分析，以识别出文本的段落结构。

Description

一种基于字符在平面位置信息的分段方法

技术领域

本发明涉及计算机算法技术领域，尤其是涉及一种基于字符在平面位置信息的分段方法。

背景技术

目前存在一些基于字符位置信息的文本分段方法，其中比较常见的是基于纵向对齐和水平间距的分段方法。这些方法通常将文本看做是由一系列具有相同字符高度的字符行组成的，然后根据字符行之间的间距和纵向对齐程度将文本分成不同的段落。这些方法通常能够识别出文本的段落结构，但是由于字符行之间的间距不一定始终存在，因此这些方法可能会存在一定的误差。

现有的技术中，除此之外，还有一些基于文本语义的分段方法，如基于标点符号、段落开头关键词、标题等进行文本分段的方法。这些方法通常能够识别出文本的段落结构，但是需要对文本语义有一定的理解和分析能力，因此可能存在一定的错误率和复杂度。

另外，还有一些基于机器学习和深度学习的方法，如基于卷积神经网络(CNN)和循环神经网络(RNN)的文本分段方法。这些方法通常能够在一定程度上解决文本分段问题，但是需要大量的训练数据和计算资源，且对文本的格式和结构较为敏感，因此在处理复杂多变的文本时可能存在一定的限制。

发明内容

针对现有技术存在的不足，本发明的目的是提供一种基于字符在平面位置信息的分段方法，其能够有效地识别出文本的段落和段落间的顺序，后续可以应用到文档提取大纲、AI文档阅读等功能中。

本发明的上述发明目的是通过以下技术方案得以实现的：

一种基于字符在平面位置信息的分段方法，包括以下步骤：

步骤S1、文本位置校正：对文本进行位置校正，以保证文本的位置信息准确无误；

步骤S2、文本聚类：对文本进行聚类，将标题文本和内容文本区分开来，利用文字大小、位置、颜色信息进行分析，以识别出标题文本和内容文本；

步骤S3、布局分析：通过字符的联通性检测出内容的布局信息，如左右结构、上下结构，这一步骤利用字符的连通性特征和字形信息进行分析，以识别出文本的布局结构；

步骤S4、分段识别：根据标点符号以及不同内容的行间距、字间距特征将内容分段，这一步骤利用标点符号、行间距、字间距特征进行分析，以识别出文本的段落结构。

本发明在一较佳示例中可以进一步配置为：在步骤S1中，对于PDF文档等格式的文本，先尝试直接获取文本及对应的位置信息，如果无法获取则将PDF文本转换为图片；

对于图片通过OCR识别出文本及对应的位置信息；

通过计算文本位置的矩形与水平线之间的角度，将矩形旋转相应的角度，然后对文本进行校正。

本发明在一较佳示例中可以进一步配置为：在步骤S2中，统计文字的大小和对应字数、空间上的距离，通过K-Means算法将文字分为A、B两类，若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。

本发明在一较佳示例中可以进一步配置为：在步骤S3中，通过文字的联通性检测出内容的布局信息的具体步骤如下：对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记，检查竖直联通的空白区域，如果空白联通区域包含3行及以上文本则将文本分为左右结构；

仅考虑内容部分文本，统计行间距众数L，行间距超过L*1.1的位置划分为上下结构，重复对上下结构分出的区域检测左右结构，对左右结构分出的区域检测上下结构，最终形成一颗结构树。

本发明在一较佳示例中可以进一步配置为：在统计行间距众数L时，对于文本矩形A，向下查找距离最近的内容文本B，AB之间的距离为文本A的行间距，如果距离最近的是标题则不参与统计。

本发明在一较佳示例中可以进一步配置为：在步骤S4中，所有左右结构的分割线记为集合V,所有上下结构的分割线记为H，计算由V和H划分出的若干个矩形块，合并矩形块中的文字就是识别出来的段落；

再通过先序遍历布局结构树从左到右从上到下的方式，对段落进行排序就得到了分割好的段落及对应的文本内容。

本发明在一较佳示例中可以进一步配置为：在步骤S2中，所述文本聚类具体包括以下步骤：

利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类，并给出聚类结果的准确率，包括以下步骤：

(1)输入包含N个文档的特征向量集X和聚类簇的个数K；

(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点；

(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心；

(4)计算剩余的每个文档与K个簇的相似度，并将其分派到最相似的簇中；

(5)重新计算已得到的各个簇的初始聚类中心；

(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值，聚类过程结束；

(7)计算提取的孤立点与各个簇的相似程度，将每个孤立点放入与其相似程度高的簇中。

综上所述，本发明包括以下至少一种有益技术效果：

本发明公开了一种基于字符在平面位置信息的分段方法，此方法能够较为准确地识别出文本的段落结构，从而可以更好地进行文本提取和分析。同时，此方法也考虑到了文本的多样性和复杂性，能够适用于不同格式和结构的文本。

相比现有技术，本申请提出的基于字符在平面位置信息的分段方法具有以下几个优点：

更加精准：现有的OCR图文识别技术和PDF文件提取技术只能提取到单词的位置信息，不能有效的识别出段落。而本申请的方法可以通过多个步骤进行文本校正、聚类、布局分析和分段识别，从而能够更加精准地识别出文本的段落结构。

适用范围广：本申请的方法可以适用于不同格式和结构的文本，包括PDF文档、OCR识别的文本等。同时，此方法也考虑到了文本的多样性和复杂性，能够应对不同类型的文本。

更高的识别率：本申请的方法采用了多种分析方法进行文本分析，同时也考虑到了文本的多个特征，如文字大小、位置、颜色、行间距、字间距等，从而可以更好地识别出文本的段落结构，提高了文本分析的准确率和识别率。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述；显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

实施例一：

参照图1，为本发明公开的一种基于字符在平面位置信息的分段方法，包括以下步骤：

在步骤S1中，对于PDF文档等格式的文本，先尝试直接获取文本及对应的位置信息，如果无法获取则将PDF文本转换为图片；对于图片通过OCR识别出文本及对应的位置信息；通过计算文本位置的矩形与水平线之间的角度，将矩形旋转相应的角度，然后对文本进行校正。

在步骤S2中，统计文字的大小和对应字数、空间上的距离，通过K-Means算法将文字分为A、B两类，若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。

在步骤S2中，文本聚类具体包括以下步骤：

(1)输入包含N个文档的特征向量集X和聚类簇的个数K；

(5)重新计算已得到的各个簇的初始聚类中心；

在步骤S3中，通过文字的联通性检测出内容的布局信息的具体步骤如下：对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记，检查竖直联通的空白区域，如果空白联通区域包含3行及以上文本则将文本分为左右结构；

在统计行间距众数L时，对于文本矩形A，向下查找距离最近的内容文本B，AB之间的距离为文本A的行间距，如果距离最近的是标题则不参与统计。

在步骤S4中，所有左右结构的分割线记为集合V,所有上下结构的分割线记为H，计算由V和H划分出的若干个矩形块，合并矩形块中的文字就是识别出来的段落；再通过先序遍历布局结构树从左到右从上到下的方式，对段落进行排序就得到了分割好的段落及对应的文本内容。

综合考虑多种因素：本申请的方案综合考虑了文本的位置信息、文字大小、位置、颜色等特征、字符联通性特征、标点符号、行间距、字间距等特征，从多个角度对文本进行分析，可以更加准确地识别出文本的段落结构。

根据布局分析文本结构：本申请的方案通过字符的联通性检测出内容的布局信息，如左右结构、上下结构等，从而可以更好地理解文本的结构，进一步提高了文本分段的准确性。

能够适用于不同格式和结构的文本：本申请的方案考虑到了文本的多样性和复杂性，能够适用于不同格式和结构的文本，如PDF文档、OCR识别的文本等

本发明的实施原理为：本发明公开了一种基于字符在平面位置信息的分段方法，此方法能够较为准确地识别出文本的段落结构，从而可以更好地进行文本提取和分析。同时，此方法也考虑到了文本的多样性和复杂性，能够适用于不同格式和结构的文本。

相比现有技术，本申请提出的基于字符在平面位置信息的分段方法具有以下几个优点：更加精准：现有的OCR图文识别技术和PDF文件提取技术只能提取到单词的位置信息，不能有效的识别出段落。而本申请的方法可以通过多个步骤进行文本校正、聚类、布局分析和分段识别，从而能够更加精准地识别出文本的段落结构。

本具体实施方式的实施例均为本发明的较佳实施例，并非依此限制本发明的保护范围，故：凡依本发明的结构、形状、原理所做的等效变化，均应涵盖于本发明的保护范围之内。

Claims

1.一种基于字符在平面位置信息的分段方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S1中，对于PDF文档等格式的文本，先尝试直接获取文本及对应的位置信息，如果无法获取则将PDF文本转换为图片；

对于图片通过OCR识别出文本及对应的位置信息；

3.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S2中，统计文字的大小和对应字数、空间上的距离，通过K-Means算法将文字分为A、B两类，若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。

4.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S3中，通过文字的联通性检测出内容的布局信息的具体步骤如下：对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记，检查竖直联通的空白区域，如果空白联通区域包含3行及以上文本则将文本分为左右结构；

5.根据权利要求4所述的一种基于字符在平面位置信息的分段方法，其特征在于，在统计行间距众数L时，对于文本矩形A，向下查找距离最近的内容文本B，AB之间的距离为文本A的行间距，如果距离最近的是标题则不参与统计。

6.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S4中，所有左右结构的分割线记为集合V,所有上下结构的分割线记为H，计算由V和H划分出的若干个矩形块，合并矩形块中的文字就是识别出来的段落；

7.根据权利要求1所述的一种基于字符在平面位置信息的分段方法，其特征在于，在步骤S2中，所述文本聚类具体包括以下步骤：

(1)输入包含N个文档的特征向量集X和聚类簇的个数K；

(5)重新计算已得到的各个簇的初始聚类中心；