CN116958995A - 一种基于字符在平面位置信息的分段方法 - Google Patents

一种基于字符在平面位置信息的分段方法 Download PDF

Info

Publication number
CN116958995A
CN116958995A CN202310967084.5A CN202310967084A CN116958995A CN 116958995 A CN116958995 A CN 116958995A CN 202310967084 A CN202310967084 A CN 202310967084A CN 116958995 A CN116958995 A CN 116958995A
Authority
CN
China
Prior art keywords
text
position information
content
characters
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310967084.5A
Other languages
English (en)
Inventor
肖盼
郑侃炜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hudun Information Technology Co ltd
Original Assignee
Shanghai Hudun Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Hudun Information Technology Co ltd filed Critical Shanghai Hudun Information Technology Co ltd
Priority to CN202310967084.5A priority Critical patent/CN116958995A/zh
Publication of CN116958995A publication Critical patent/CN116958995A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明涉及一种基于字符在平面位置信息的分段方法,包括以下步骤:步骤S1、文本位置校正:对文本进行位置校正,以保证文本的位置信息准确无误;步骤S2、文本聚类:对文本进行聚类,将标题文本和内容文本区分开来,利用文字大小、位置、颜色信息进行分析,以识别出标题文本和内容文本;步骤S3、布局分析:通过字符的联通性检测出内容的布局信息,如左右结构、上下结构,这一步骤利用字符的连通性特征和字形信息进行分析,以识别出文本的布局结构;步骤S4、分段识别:根据标点符号以及不同内容的行间距、字间距特征将内容分段,这一步骤利用标点符号、行间距、字间距特征进行分析,以识别出文本的段落结构。

Description

一种基于字符在平面位置信息的分段方法
技术领域
本发明涉及计算机算法技术领域,尤其是涉及一种基于字符在平面位置信息的分段方法。
背景技术
目前存在一些基于字符位置信息的文本分段方法,其中比较常见的是基于纵向对齐和水平间距的分段方法。这些方法通常将文本看做是由一系列具有相同字符高度的字符行组成的,然后根据字符行之间的间距和纵向对齐程度将文本分成不同的段落。这些方法通常能够识别出文本的段落结构,但是由于字符行之间的间距不一定始终存在,因此这些方法可能会存在一定的误差。
现有的技术中,除此之外,还有一些基于文本语义的分段方法,如基于标点符号、段落开头关键词、标题等进行文本分段的方法。这些方法通常能够识别出文本的段落结构,但是需要对文本语义有一定的理解和分析能力,因此可能存在一定的错误率和复杂度。
另外,还有一些基于机器学习和深度学习的方法,如基于卷积神经网络(CNN)和循环神经网络(RNN)的文本分段方法。这些方法通常能够在一定程度上解决文本分段问题,但是需要大量的训练数据和计算资源,且对文本的格式和结构较为敏感,因此在处理复杂多变的文本时可能存在一定的限制。
发明内容
针对现有技术存在的不足,本发明的目的是提供一种基于字符在平面位置信息的分段方法,其能够有效地识别出文本的段落和段落间的顺序,后续可以应用到文档提取大纲、AI文档阅读等功能中。
本发明的上述发明目的是通过以下技术方案得以实现的:
一种基于字符在平面位置信息的分段方法,包括以下步骤:
步骤S1、文本位置校正:对文本进行位置校正,以保证文本的位置信息准确无误;
步骤S2、文本聚类:对文本进行聚类,将标题文本和内容文本区分开来,利用文字大小、位置、颜色信息进行分析,以识别出标题文本和内容文本;
步骤S3、布局分析:通过字符的联通性检测出内容的布局信息,如左右结构、上下结构,这一步骤利用字符的连通性特征和字形信息进行分析,以识别出文本的布局结构;
步骤S4、分段识别:根据标点符号以及不同内容的行间距、字间距特征将内容分段,这一步骤利用标点符号、行间距、字间距特征进行分析,以识别出文本的段落结构。
本发明在一较佳示例中可以进一步配置为:在步骤S1中,对于PDF文档等格式的文本,先尝试直接获取文本及对应的位置信息,如果无法获取则将PDF文本转换为图片;
对于图片通过OCR识别出文本及对应的位置信息;
通过计算文本位置的矩形与水平线之间的角度,将矩形旋转相应的角度,然后对文本进行校正。
本发明在一较佳示例中可以进一步配置为:在步骤S2中,统计文字的大小和对应字数、空间上的距离,通过K-Means算法将文字分为A、B两类,若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。
本发明在一较佳示例中可以进一步配置为:在步骤S3中,通过文字的联通性检测出内容的布局信息的具体步骤如下:对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记,检查竖直联通的空白区域,如果空白联通区域包含3行及以上文本则将文本分为左右结构;
仅考虑内容部分文本,统计行间距众数L,行间距超过L*1.1的位置划分为上下结构,重复对上下结构分出的区域检测左右结构,对左右结构分出的区域检测上下结构,最终形成一颗结构树。
本发明在一较佳示例中可以进一步配置为:在统计行间距众数L时,对于文本矩形A,向下查找距离最近的内容文本B,AB之间的距离为文本A的行间距,如果距离最近的是标题则不参与统计。
本发明在一较佳示例中可以进一步配置为:在步骤S4中,所有左右结构的分割线记为集合V,所有上下结构的分割线记为H,计算由V和H划分出的若干个矩形块,合并矩形块中的文字就是识别出来的段落;
再通过先序遍历布局结构树从左到右从上到下的方式,对段落进行排序就得到了分割好的段落及对应的文本内容。
本发明在一较佳示例中可以进一步配置为:在步骤S2中,所述文本聚类具体包括以下步骤:
利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K;
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中。
综上所述,本发明包括以下至少一种有益技术效果:
本发明公开了一种基于字符在平面位置信息的分段方法,此方法能够较为准确地识别出文本的段落结构,从而可以更好地进行文本提取和分析。同时,此方法也考虑到了文本的多样性和复杂性,能够适用于不同格式和结构的文本。
相比现有技术,本申请提出的基于字符在平面位置信息的分段方法具有以下几个优点:
更加精准:现有的OCR图文识别技术和PDF文件提取技术只能提取到单词的位置信息,不能有效的识别出段落。而本申请的方法可以通过多个步骤进行文本校正、聚类、布局分析和分段识别,从而能够更加精准地识别出文本的段落结构。
适用范围广:本申请的方法可以适用于不同格式和结构的文本,包括PDF文档、OCR识别的文本等。同时,此方法也考虑到了文本的多样性和复杂性,能够应对不同类型的文本。
更高的识别率:本申请的方法采用了多种分析方法进行文本分析,同时也考虑到了文本的多个特征,如文字大小、位置、颜色、行间距、字间距等,从而可以更好地识别出文本的段落结构,提高了文本分析的准确率和识别率。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一:
参照图1,为本发明公开的一种基于字符在平面位置信息的分段方法,包括以下步骤:
步骤S1、文本位置校正:对文本进行位置校正,以保证文本的位置信息准确无误;
步骤S2、文本聚类:对文本进行聚类,将标题文本和内容文本区分开来,利用文字大小、位置、颜色信息进行分析,以识别出标题文本和内容文本;
步骤S3、布局分析:通过字符的联通性检测出内容的布局信息,如左右结构、上下结构,这一步骤利用字符的连通性特征和字形信息进行分析,以识别出文本的布局结构;
步骤S4、分段识别:根据标点符号以及不同内容的行间距、字间距特征将内容分段,这一步骤利用标点符号、行间距、字间距特征进行分析,以识别出文本的段落结构。
在步骤S1中,对于PDF文档等格式的文本,先尝试直接获取文本及对应的位置信息,如果无法获取则将PDF文本转换为图片;对于图片通过OCR识别出文本及对应的位置信息;通过计算文本位置的矩形与水平线之间的角度,将矩形旋转相应的角度,然后对文本进行校正。
在步骤S2中,统计文字的大小和对应字数、空间上的距离,通过K-Means算法将文字分为A、B两类,若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。
在步骤S2中,文本聚类具体包括以下步骤:
利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K;
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中。
在步骤S3中,通过文字的联通性检测出内容的布局信息的具体步骤如下:对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记,检查竖直联通的空白区域,如果空白联通区域包含3行及以上文本则将文本分为左右结构;
仅考虑内容部分文本,统计行间距众数L,行间距超过L*1.1的位置划分为上下结构,重复对上下结构分出的区域检测左右结构,对左右结构分出的区域检测上下结构,最终形成一颗结构树。
在统计行间距众数L时,对于文本矩形A,向下查找距离最近的内容文本B,AB之间的距离为文本A的行间距,如果距离最近的是标题则不参与统计。
在步骤S4中,所有左右结构的分割线记为集合V,所有上下结构的分割线记为H,计算由V和H划分出的若干个矩形块,合并矩形块中的文字就是识别出来的段落;再通过先序遍历布局结构树从左到右从上到下的方式,对段落进行排序就得到了分割好的段落及对应的文本内容。
综合考虑多种因素:本申请的方案综合考虑了文本的位置信息、文字大小、位置、颜色等特征、字符联通性特征、标点符号、行间距、字间距等特征,从多个角度对文本进行分析,可以更加准确地识别出文本的段落结构。
根据布局分析文本结构:本申请的方案通过字符的联通性检测出内容的布局信息,如左右结构、上下结构等,从而可以更好地理解文本的结构,进一步提高了文本分段的准确性。
能够适用于不同格式和结构的文本:本申请的方案考虑到了文本的多样性和复杂性,能够适用于不同格式和结构的文本,如PDF文档、OCR识别的文本等
本发明的实施原理为:本发明公开了一种基于字符在平面位置信息的分段方法,此方法能够较为准确地识别出文本的段落结构,从而可以更好地进行文本提取和分析。同时,此方法也考虑到了文本的多样性和复杂性,能够适用于不同格式和结构的文本。
相比现有技术,本申请提出的基于字符在平面位置信息的分段方法具有以下几个优点:更加精准:现有的OCR图文识别技术和PDF文件提取技术只能提取到单词的位置信息,不能有效的识别出段落。而本申请的方法可以通过多个步骤进行文本校正、聚类、布局分析和分段识别,从而能够更加精准地识别出文本的段落结构。
适用范围广:本申请的方法可以适用于不同格式和结构的文本,包括PDF文档、OCR识别的文本等。同时,此方法也考虑到了文本的多样性和复杂性,能够应对不同类型的文本。
更高的识别率:本申请的方法采用了多种分析方法进行文本分析,同时也考虑到了文本的多个特征,如文字大小、位置、颜色、行间距、字间距等,从而可以更好地识别出文本的段落结构,提高了文本分析的准确率和识别率。
本具体实施方式的实施例均为本发明的较佳实施例,并非依此限制本发明的保护范围,故:凡依本发明的结构、形状、原理所做的等效变化,均应涵盖于本发明的保护范围之内。

Claims (7)

1.一种基于字符在平面位置信息的分段方法,其特征在于,包括以下步骤:
步骤S1、文本位置校正:对文本进行位置校正,以保证文本的位置信息准确无误;
步骤S2、文本聚类:对文本进行聚类,将标题文本和内容文本区分开来,利用文字大小、位置、颜色信息进行分析,以识别出标题文本和内容文本;
步骤S3、布局分析:通过字符的联通性检测出内容的布局信息,如左右结构、上下结构,这一步骤利用字符的连通性特征和字形信息进行分析,以识别出文本的布局结构;
步骤S4、分段识别:根据标点符号以及不同内容的行间距、字间距特征将内容分段,这一步骤利用标点符号、行间距、字间距特征进行分析,以识别出文本的段落结构。
2.根据权利要求1所述的一种基于字符在平面位置信息的分段方法,其特征在于,在步骤S1中,对于PDF文档等格式的文本,先尝试直接获取文本及对应的位置信息,如果无法获取则将PDF文本转换为图片;
对于图片通过OCR识别出文本及对应的位置信息;
通过计算文本位置的矩形与水平线之间的角度,将矩形旋转相应的角度,然后对文本进行校正。
3.根据权利要求1所述的一种基于字符在平面位置信息的分段方法,其特征在于,在步骤S2中,统计文字的大小和对应字数、空间上的距离,通过K-Means算法将文字分为A、B两类,若A类字数大于B类,则将A归类为内容、B归类为标题,否则将A归类为标题、B归类为内容。
4.根据权利要求1所述的一种基于字符在平面位置信息的分段方法,其特征在于,在步骤S3中,通过文字的联通性检测出内容的布局信息的具体步骤如下:对于文本矩形A向右查找距离最近的文本B,如果AB之间有空白区域则标记,检查竖直联通的空白区域,如果空白联通区域包含3行及以上文本则将文本分为左右结构;
仅考虑内容部分文本,统计行间距众数L,行间距超过L*1.1的位置划分为上下结构,重复对上下结构分出的区域检测左右结构,对左右结构分出的区域检测上下结构,最终形成一颗结构树。
5.根据权利要求4所述的一种基于字符在平面位置信息的分段方法,其特征在于,在统计行间距众数L时,对于文本矩形A,向下查找距离最近的内容文本B,AB之间的距离为文本A的行间距,如果距离最近的是标题则不参与统计。
6.根据权利要求1所述的一种基于字符在平面位置信息的分段方法,其特征在于,在步骤S4中,所有左右结构的分割线记为集合V,所有上下结构的分割线记为H,计算由V和H划分出的若干个矩形块,合并矩形块中的文字就是识别出来的段落;
再通过先序遍历布局结构树从左到右从上到下的方式,对段落进行排序就得到了分割好的段落及对应的文本内容。
7.根据权利要求1所述的一种基于字符在平面位置信息的分段方法,其特征在于,在步骤S2中,所述文本聚类具体包括以下步骤:
利用带孤立点检测改进的K-means算法对所述特征向量集进行聚类,并给出聚类结果的准确率,包括以下步骤:
(1)输入包含N个文档的特征向量集X和聚类簇的个数K;
(2)采用预设孤立点检测条件对特征向量集中的孤立点进行检测并提取检测到的孤立点;
(3)采用预设初始聚类中心确定规则对提取孤立点后的向量集X’中选择K个文档作为初始聚类中心;
(4)计算剩余的每个文档与K个簇的相似度,并将其分派到最相似的簇中;
(5)重新计算已得到的各个簇的初始聚类中心;
(6)重复步骤(4)和(5)直至新的初始聚类中心与原初始聚类中心相等或小于指定阈值,聚类过程结束;
(7)计算提取的孤立点与各个簇的相似程度,将每个孤立点放入与其相似程度高的簇中。
CN202310967084.5A 2023-08-03 2023-08-03 一种基于字符在平面位置信息的分段方法 Pending CN116958995A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310967084.5A CN116958995A (zh) 2023-08-03 2023-08-03 一种基于字符在平面位置信息的分段方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310967084.5A CN116958995A (zh) 2023-08-03 2023-08-03 一种基于字符在平面位置信息的分段方法

Publications (1)

Publication Number Publication Date
CN116958995A true CN116958995A (zh) 2023-10-27

Family

ID=88458201

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310967084.5A Pending CN116958995A (zh) 2023-08-03 2023-08-03 一种基于字符在平面位置信息的分段方法

Country Status (1)

Country Link
CN (1) CN116958995A (zh)

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
KR100658119B1 (ko) 문자 인식 장치 및 방법
Rothfeder et al. Using corner feature correspondences to rank word images by similarity
CN111091124B (zh) 一种书脊文字识别方法
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
KR19980023917A (ko) 패턴 인식 장치 및 방법
CN113158808A (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
KR20010093764A (ko) 어근 모델에 근거한 초서체 한자 주석의 검색법
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
Chamchong et al. Character segmentation from ancient palm leaf manuscripts in Thailand
Okamoto et al. Performance evaluation of a robust method for mathematical expression recognition
Biswas et al. Writer identification of Bangla handwritings by radon transform projection profile
CN115240213A (zh) 表格图像识别方法、装置、电子设备及存储介质
JP2000315247A (ja) 文字認識装置
Nguyen et al. A segmentation method of single-and multiple-touching characters in offline handwritten japanese text recognition
CN100356393C (zh) 一种基于字体预测的字符识别方法
JP2000339406A (ja) 帳票認識方法
Kumar et al. Line based robust script identification for indianlanguages
CN116958995A (zh) 一种基于字符在平面位置信息的分段方法
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN115147846A (zh) 多语言票据识别方法、装置、设备及存储介质
JP4194020B2 (ja) 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置
US10657404B2 (en) Character recognition device, character recognition method, and character recognition program
Liu et al. An improved algorithm for Identifying Mathematical formulas in the images of PDF documents
CN102262614A (zh) 纵向校对方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination