CN112507938A - 一种文本图元的几何特征计算方法及识别方法、装置 - Google Patents

一种文本图元的几何特征计算方法及识别方法、装置 Download PDF

Info

Publication number
CN112507938A
CN112507938A CN202011492328.1A CN202011492328A CN112507938A CN 112507938 A CN112507938 A CN 112507938A CN 202011492328 A CN202011492328 A CN 202011492328A CN 112507938 A CN112507938 A CN 112507938A
Authority
CN
China
Prior art keywords
text
primitive
determining
target
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011492328.1A
Other languages
English (en)
Inventor
孙建军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glodon Co Ltd
Original Assignee
Glodon Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glodon Co Ltd filed Critical Glodon Co Ltd
Priority to CN202011492328.1A priority Critical patent/CN112507938A/zh
Publication of CN112507938A publication Critical patent/CN112507938A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种文本图元的几何特征计算方法及识别方法、装置,其中文本图元的几何特征计算方法,包括:获取目标文本图元的文字线集合;遍历文字线集合中的所有文字线,存储所有文字线的起点与终点,形成二维点集;基于二维点集生成目标文本图元对应的凸多边形;根据目标文本图元对应的凸多边形确定目标文本图元的几何特征。本发明通过文字线集合的所有文字线的端点坐标确定二维点集,进而确定目标文本图元的包围盒,然后利用包围盒及文字线的端点坐标,确定目标文本图元的几何特征;计算方法不依赖于文字的结构,并且能够适用于多种场景及复杂的文本图元,进而保证了文本图元的几何特征计算准确率,进一步提高了图纸的识别准确率。

Description

一种文本图元的几何特征计算方法及识别方法、装置
技术领域
本发明涉及文本数据处理技术领域,具体涉及一种文本图元的几何特征计算方法及识别方法、装置。
背景技术
随着信息技术的发展,通过计算机识图的需求越来越多,在图纸绘制过程中,会将线条图元和文本图元之间设置一定的几何位置关系,在对图纸识图过程中,会用到线条图元和文本图元的几何位置关系,或者基于文本图元的方向,进而提高识别的准确率。但是在图纸的导入过程中,文本图元会被打散成文字线无法直接获取文字信息,为了便于识别则需要将文字线还原成文本图元,然而对于文本图元的还原又依赖于其几何特征,例如文本图元的包围盒、插入点、方向和大小等特征,传统的文本图元的几何特征计算方法不仅依赖语言文字结构,并且仅适用于简单的文本图元,只能粗略的计算几何特征,准确率不高,进而导致对图纸的识别准确率无法保证。
发明内容
有鉴于此,本发明实施例提供了一种文本图元的几何特征计算方法及识别方法、装置,解决了传统的文本图元的几何特征计算方法依赖语言文字结构,并且适用于简单的文本图元的问题。
根据第一方面,本发明实施例提供了一种文本图元的几何特征计算方法,包括:
获取目标文本图元的文字线集合;
遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集;
基于所述二维点集生成所述目标文本图元对应的凸多边形;
根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征。
本发明实施例提供的文本图元的几何特征计算方法,通过文字线集合的所有文字线的端点坐标确定二维点集,进而确定目标文本图元的包围盒,然后利用包围盒及文字线的端点坐标,确定所述目标文本图元的几何特征;计算方法不依赖于文字的结构,并且能够适用于多种场景及复杂的文本图元,进而保证了文本图元的几何特征计算准确率,进一步提高了图纸的识别准确率。
结合第一方面,在第一方面第一实施方式中,所述根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征,包括:
基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,确定所述目标文本图元的包围盒;
根据所述目标文本图元的包围盒确定目标文本图元的方向、插入点及大小。
本发明实施例提供的文本图元的几何特征计算方法,通过凸多边形的各个顶点以及各个顶点对应的边的方向,确定所述目标文本图元的包围盒,进而确定目标文本图元的方向、插入点及大小;保证了文本图元的几何特征的计算准确率,提高了计算效率。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,确定所述目标文本图元的包围盒,包括:
基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,构造所述凸多边形的外接矩形轮廓;
比较所述凸多边形的各个外接矩形轮廓的面积,确定所述目标文本图元的包围盒。
本发明实施例提供的文本图元的几何特征计算方法,利用二维点集中各个点的坐标,生成目标文本图元对应的凸多边形,进而构造凸多边形的外接矩形轮廓,通过比较接矩形轮廓的面积,确定所述目标文本图元的包围盒;进而通过包围盒辅助进行目标文本图元的几何特征的识别。
结合第一方面第二实施方式,在第一方面第三实施方式中,所述基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,构造所述凸多边形的外接矩形轮廓,包括:
分别以各个顶点为起始点,以所述起始点对应的边的方向为起始方向;
基于所述凸多边形的各个顶点、所述起始点及所述起始方向,分别构造所述凸多边形对应的外接矩形轮廓,并记录所述起始点和所述起始方向与所述外接矩形轮廓的映射关系。
本发明实施例提供的文本图元的几何特征计算方法,分别利用不同的起始方向确定多个外接矩形轮廓,并且保存起始点和起始方向与外接矩形轮廓的映射关系,便于通过外接矩形轮廓确定方向,进而保证面积及目标文本图元的几何特征计算的简便性。
结合第一方面第三实施方式,在第一方面第四实施方式中,所述比较所述凸多边形的各个外接矩形轮廓的面积,确定所述目标文本图元的包围盒,包括:
比较所述凸多边形的各个外接矩形轮廓的面积,确定面积最小的外接矩形轮廓,以得到目标外接矩形轮廓;
根据所述目标外接矩形轮廓确定对应的映射关系;
利用所述映射关系及所述二维点集中各个点的坐标,确定所述目标文本图元的包围盒。
本发明实施例提供的文本图元的几何特征计算方法,将多个外接矩形轮廓中面积最小的外接矩形轮廓确定为目标外接矩形轮廓,并得到相应的映射关系,便于通过外接矩形轮廓确定方向,进而保证面积及目标文本图元的几何特征计算的简便性。
结合第一方面第四实施方式,在第一方面第五实施方式中,所述利用所述映射关系及所述二维点集中各个点的坐标,确定所述目标文本图元的包围盒,包括:
以所述映射关系中的起始点为原点,起始方向为轴线,建立局部坐标系;
基于二维点集中各个点的坐标,将对应的外接矩形轮廓的各个顶点转换至局部坐标系,以确定外接矩形轮廓的各个顶点的局部坐标;
根据各个局部坐标确定所述目标文本图元的包围盒。
本发明实施例提供的文本图元的几何特征计算方法,通过确定局部坐标系下的包围盒,进而保证外接矩形轮廓的面积计算的便捷性,并且将各个局部坐标转换至世界坐标系,以确定所述目标文本图元的包围盒,有助于文本图元的几何特征计算。
结合第一方面第一实施方式,在第一方面第六实施方式中,所述文字线集合还包括各个所述文字线的索引,所述索引用于表示各个所述文字线的书写顺序,所述根据所述目标文本图元的包围盒确定目标文本图元的方向、插入点及大小,包括:
利用所述文字集合中所有文字线的端点坐标和所述文字线的索引,确定目标文本图元的起点和终点;
利用所述目标文本图元的起点和终点,确定初始文字方向;
基于所述初始文字方向以及所述目标文本图元的包围盒,确定目标文本图元的方向、插入点及大小。
本发明实施例提供的文本图元的几何特征计算方法,利用文字线的端点坐标和文字线的索引,确定目标文本图元的起点和终点,进一步确定初始文字方向,以便于计算目标文本图元的几何特征。
结合第一方面第六实施方式,在第一方面第七实施方式中,所述基于所述初始文字方向以及所述目标文本图元的包围盒,确定目标文本图元的方向、插入点及大小,包括:
将所述目标文本图元的包围盒的各个顶点转换至世界坐标系,以确定所述目标外接矩形轮廓的边长及中心点;
基于所述目标外接矩形轮廓的各个边,确定与各个边对应的四个辅助方向;
确定各个辅助方向与所述初始文字方向的夹角,将所述夹角最小的辅助方向确定为目标文本图元的方向;
基于所述目标外接矩形轮廓的的中心点,以确定目标文本图元的插入点;
根据所述目标文本图元的方向以及所述目标外接矩形轮廓的的边长,确定目标文本图元的大小。
本发明实施例提供的文本图元的几何特征计算方法,通过确定的包围盒,利用包围盒的特征以及二维点集,确定文本图元的各个几何特征,目标文本图元的方向、插入点以及大小。
结合第一方面,在第一方面第八实施方式中,所述遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集,包括:
遍历文字线集合中的所有文字线,确定所有文字线的起点与终点的端点坐标,将重复的端点进行筛选,以确定所述目标文本图元的二维点集。
本发明实施例提供的文本图元的几何特征计算方法,通过将重复的端点进行筛选,保证二维点集的准确性与唯一性,进而保证几何特征的计算效率与准确率。
根据第二方面,本发明实施例提供了一种文本图元的识别方法,所述方法包括:
基于第一方面或者第一方面任一实施方式中所述的文本图元的几何特征计算方法,确定文本图元的几何特征;
利用所述文本图元的几何特征对所述文本图元进行文字识别,确定识别结果。
本发明实施例提供的文本图元的识别方法,通过将文本图元的几何特征利用到文本图元进行文字识别,进而保证了最后识别结果的准确率。
根据第三方面,本发明实施例提供了一种文本图元的几何特征计算装置,包括:
第一处理模块,用于获取目标文本图元的文字线集合;
第二处理模块,用于遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集;
第三处理模块,用于基于所述二维点集生成所述目标文本图元对应的凸多边形;
第四处理模块,用于根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征。
根据第四方面,本发明实施例提供了一种文本图元的识别装置,包括:
几何特征确定模块,用于基于第三方面所述的文本图元的几何特征计算装置,确定文本图元的几何特征;
识别模块,用于利用所述文本图元的几何特征对所述文本图元进行文字识别,确定识别结果。
根据第五方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的文本图元的几何特征计算方法,或者执行第二方面中所述的文本图元的识别方法。
根据第六方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的文本图元的几何特征计算方法,或者执行第二方面中所述的文本图元的识别方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的文本图元的几何特征计算方法的流程图;
图2是根据本发明实施例的文本图元的文字线集合的示意图;
图3是根据本发明实施例的文本图元的具体文字线集合编号的示意图;
图4是根据本发明实施例的二维点集的示意图;
图5是根据本发明优选实施例的确定目标文本图元的包围盒的流程图;
图6是根据本发明实施例的jarvis步进法的示意图;
图7是根据本发明实施例的二维点集的凸多边形的示意图;
图8是根据本发明实施例的凸多边形的外接矩形轮廓的示意图;
图9是根据本发明实施例的文本图元确定索引顺序的示意图;
图10是根据本发明实施例的确定具体文本图元的几何特征的示意图;
图11是根据本发明实施例的文本图元的包围盒的示意图;
图12是根据本发明优选实施例的二维点集的形成的流程图;
图13是根据本发明实施例的文本图元的识别方法的流程图;
图14是根据本发明实施例的文本图元的几何特征计算装置的示意图;
图15是根据本发明实施例的文本图元的识别装置的示意图;
图16是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的文本图元的几何特征计算方法,可以应用于市政算量图纸例如PDF图纸的几何特征计算与识别,也可以应用于其他类型图纸的识别,例如DWG或者其他CAD图纸。在本发明中对文本图元的几何特征计算方法的具体应用场景并不作任何限制,在下文的描述中,以对PDF图纸的几何特征为例进行详细描述。
建筑工程图纸主要以二维矢量PDF图纸为主,由于线条描述的局限性,各图纸中还会包含标注及相关文字描述。其中线条主要描述物体的几何形状,文本用以描述物体的几何参数及相关属性,可对物体进行全面的表达。二维矢量PDF图纸具有绘图简单、便于打印传播的特性,在工程领域得到广泛的应用。用户在绘制图纸时,会将线条图元和文本图元设置一定的几何位置关系,如平行、垂直、重叠、距离等,程序在识别时,会用到线条图元和文本图元的几何位置关系,提高识别准确率。
目前为了防止原始图纸被篡改,通常使用CAD软件(AutoCAD软件)将原始图纸转化为PDF图纸,然后识别转化后的图纸的业务数据。在转化的过程中原始图纸中的文本会被打散,转化为几何图形变成二维线段集合(文字线集合)。由于图纸中文本被打散,因此无法直接获取文字信息,对于文本的识别,文本的几何特征有助于辅助识别算法提高文本识别的准确性。传统上,针对矢量图PDF文字线的几何特征计算,常用如下几种方式:
文本方向:依赖语言文字结构(如汉字当中的上下结构“学”、左右结构“旧”),根据多组文字线计算出多个方向,然后再取平均值。
文本大小/文本插入点:将每个文字线的世界坐标下的包围盒合并,得到整体文字线的包围盒,将min(包围盒的长度,包围盒的宽度)算作文本大小,将包围盒中心点算作文本的插入点。
其中传统的方式只能粗略的计算文字线几何特征,准确率不高:与原始图纸中的文字线相比,文本方向、大小、插入点均有偏差,并且对不同国家的文字几何特征计算需各自实现,由此就不能够准确的将文字线转化为CAD文本图元。
根据本发明实施例,提供了一种文本图元的几何特征计算方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种文本图元的几何特征计算方法,可用于电子设备,例如电脑、手机、平板电脑等。图1是根据本发明实施例的文本图元的几何特征计算方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取目标文本图元的文字线集合。
其中,文字线集合包括目标文本图元的所有文字线,将图纸输入到现有的CAD软件中,则图纸中的目标文本图元则被打散,成有序的文字线集合。例如图纸中某图元的批注信息(文本图元)为“CH.0+850”,如图2所示,此文本图元“CH.0+850”全部被打散成文字线,将所有的文字线组成文字线集合,其中,此文本中的“C”形成的各个文字线如图3所示,“C”形成了17个线段都有其对应的编号,其中图中省略了部分编号,按照书写方向可以得到文本图元的文字线集合。
目标文本图元的文字线集合可以是电子设备直接从外界获取到的,也可以是利用电子设备中的文字线采集装置采集得到的,在此对电子设备获取目标文本图元的文字线集合的方式并不做任何限制,只需保证电子设备能够获取到目标文本图元的文字线集合即可。
S12,遍历文字线集合中的所有文字线,存储所有文字线的起点与终点,形成二维点集。
电子设备在上述S11中得到文字线集合之后,对文字线集合进行遍历,利用文字线集合中所有的文字线的端点坐标,将各个文字线的端点存入二维点集中,以文本图元中的“CH”为例,如图4所示,形成二维点集。本实施例中仅以“CH”为例进行说明二维点集的形成过程,在实际应用中只需要将所有文字线的端点坐标进行存储即可,本实施例并不以此为限。
S13,基于二维点集生成目标文本图元对应的凸多边形。
基于形成的二维点集中的各个点的坐标,确定出最小的且能够将此二维点集正好包围住的对应于目标文本图元的凸多边形,就是将此二维点集中最外围的所有点连接成线,形成凸多边形。
S14,根据目标文本图元对应的凸多边形确定目标文本图元的几何特征。
结合目标文本图元对应的凸多边形以及文字线集合中所有文字线的端点坐标,确定目标文本图元的几何特征,因此可以利用上述几何特征提高文本识别的准确性,支持多国文字、高效的计算文字线几何特征,解决了二维矢量PDF图纸中文字线几何特征准确率不高的问题。
本实施例提供的文本图元的几何特征计算方法,通过文字线集合的所有文字线的端点坐标确定二维点集,进而确定目标文本图元的包围盒,然后利用包围盒及文字线的端点坐标,确定目标文本图元的几何特征;计算方法不依赖于文字的结构,并且能够适用于多种场景及复杂的文本图元,进而保证了文本图元的几何特征计算准确率,进一步提高了图纸的识别准确率。
在本实施例中提供了一种文本图元的几何特征计算方法,图5是根据本发明实施例的文本图元的几何特征计算方法的流程图,如图5所示,该流程包括如下步骤:
S21,获取目标文本图元的文字线集合。
详细请参见图1所示实施例的S11,在此不再赘述。
S22,遍历文字线集合中的所有文字线,存储所有文字线的起点与终点,形成二维点集。
详细请参见图1所示实施例的S12,在此不再赘述。
S23,基于二维点集生成目标文本图元对应的凸多边形。
利用二维点集中各个点的坐标,可以采用jarvis步进法计算二维点集的凸多边形,进而生成目标文本图元对应的凸多边形,本实施例仅举例说明采用jarvis步进法计算凸多边形,在实际应用中还可以根据实际需求选择其他方法,例如Graham扫描法,本实施例并不以此为限。
由于jarvis步进法复杂度低,复杂度O(nH),H为点的个数;并且实现简单,因此本实施例选择jarvis步进法进行凸多边形的计算,其中如图6所示,jarvis步进法算法思路如下:
a.先找到纵坐标最小点p0(如果出现纵坐标最小的点有多个,那么在这些点中找到横坐标最小的点,即点集中最左下角的点)入栈,遍历剩下的点,找到与水平方向夹角最小的点p1入栈;
b.遍历所有点找到与栈顶两个点连线夹角最小(如果两个点的夹角相等,则选远端的点)的点pn入栈,重复该过程,直道找不出下一个pn;
c.栈里的所有点就是凸多边形上的点,由此便可以形成凸多边形。
其中,凸多边形的意义就是需要将二维点集中左右的点都完整的包含在其中,因此在实际应用中选择任何能够实现的算法,只要能够形成凸多边形即可,以上述文本图元为列,形成的凸多边形如图7所示。
S24,根据目标文本图元的包围盒以及文字线集合中所有文字线的端点坐标,确定目标文本图元的几何特征。
具体地,作为本实施例的一种可选实施方式,上述S24可以包括如下步骤:
S241,基于凸多边形的各个顶点以及各个顶点对应的边的方向,确定目标文本图元的包围盒。
通过凸多边形的各个顶点以及各个顶点对应的边的方向,确定目标文本图元的包围盒,其中包围盒是求解离散点集最优包围空间,基本思想是用体积稍大且特性简单的几何体(称为包围盒)来近似地代替复杂的几何对象。
S242,根据目标文本图元的包围盒确定目标文本图元的方向、插入点及大小。
具体地,上述S241还包括:
S2411,基于凸多边形的各个顶点以及各个顶点对应的边的方向,构造凸多边形的外接矩形轮廓。
在确定了凸多边形后,便可基于凸多边形的各个顶点及各个顶点对应的边的方向,分别构造对应的凸多边形的外接矩形轮廓,下文将具体说明构造外接矩形轮廓的实现步骤。
S2412,比较凸多边形的各个外接矩形轮廓的面积,确定目标文本图元的包围盒。
构造完成了凸多边形的各个外接矩形轮廓后,可以确定各个外接矩形轮廓的面积,其中外接矩形轮廓的面积的计算方法就是利用现有技术进行计算,只要能够求解出外接矩形轮廓的面积即可,本实施例并不以此为限。
作为本实施例的一种可选实施方式,上述S2411可以包括如下步骤:
(1)分别以各个顶点为起始点,以起始点对应的边的方向为起始方向。
为了方便理解,本实施例举例说明凸多边形的外接矩形轮廓的形成过程,如图8所示,首先确定凸多边形的起始点和起始方向,可以分别以凸多边形的各个边为起始方向,以起始方向的线段开始的点为起始点。
需要说明的是,本实施例仅以其中一个外接矩形轮廓的形成为例进行说明,其他的外接矩形轮廓均是按照此方法形成,本发明并不以此为限。
(2)基于凸多边形的各个顶点、起始点及起始方向,分别构造凸多边形对应的外接矩形轮廓,并记录起始点和起始方向与外接矩形轮廓的映射关系。
基于凸多边形的各个顶点、起始点及起始方向,分别构造凸多边形对应的外接矩形轮廓,并记录起始点和起始方向与外接矩形轮廓的映射关系,其中映射关系就是将确定当前外接矩形轮廓的起始点和起始方向与此外接矩形轮廓进行关联。如图8所示,以一个起始点和起始方向为例进行说明,对于凸多边形的一条边a,其起始点、起始方向如图中所示,则需要至少确定三个点,即可得到对应的外接矩形轮廓。确定a边相对于起始点最右点、最左点和最远点,然后以起始方向为基准,即可确定外接矩形轮廓。
需要说明的是,本实施例仅以a边为例进行说明,以凸多边形其他边建立外接矩形轮廓的确定方法与上述相同,在此不再赘述,因此可以确定凸多边形的每个边对应的外接矩形轮廓。
具体地,上述S242包括如下步骤:
S2421,利用文字集合中所有文字线的端点坐标和文字线的索引,确定目标文本图元的起点和终点。
上述确定的文字线集合还包括各个文字线的索引,索引用于表示各个文字线的书写顺序,在使用CAD软件将原始图纸转化为PDF图纸的过程中,如图9所示,以上述“CH”为例,原始图纸中的文本被打散变成二维线段集合是根据书写顺序确定的,并且根据书写顺序为各个文字线进行索引确定,因此文字线集合中的各个文字线是有序且索引唯一的文字线。文字集合中所有文字线的端点坐标和文字线的索引,确定目标文本图元的起点和终点。
S2422,利用目标文本图元的起点和终点,确定初始文字方向。
利用目标文本图元的起点和终点,确定初始文字方向,如图10所示,以上述“CH.0+850”为例,可以根据目标文本图元的起点和终点,确定初始文字方向,即图中包围盒中的箭头的方向。
S2423,基于初始文字方向以及目标文本图元的包围盒,确定目标文本图元的方向、插入点及大小。
作为本实施例的一种可选实施方式,上述S2423可以包括如下步骤:
(1)将目标文本图元的包围盒的各个顶点转换至世界坐标系,以确定目标外接矩形轮廓的边长及中心点。
首先将目标文本图元的包围盒的各个顶点转换至世界坐标系,然后获取世界坐标系下的目标外接矩形轮廓的边长及中心点。
(2)基于目标外接矩形轮廓的各个边,确定与各个边对应的四个辅助方向。
基于基于目标外接矩形轮廓的各个边,确定与各个边对应的四个辅助方向,平行于各个边并且根据形成方向,确定与各个边对应的四个辅助方向,如图10所示的平行于四个边的四个有方向的线段为四个辅助方向。
(3)确定各个辅助方向与初始文字方向的夹角,将夹角最小的辅助方向确定为目标文本图元的方向。
确定各个辅助方向与初始文字方向的夹角,计算各个辅助方向与分别与初始文字方向的夹角,将夹角最小的辅助方向确定为目标文本图元的方向。
(4)基于目标外接矩形轮廓的的中心点,以确定目标文本图元的插入点。
获取得到的目标文本图元的包围盒的中心点,将中心点确定目标文本图元的插入点。
(5)根据目标文本图元的方向以及目标外接矩形轮廓的的边长,确定目标文本图元的大小。
确定了目标文本图元的方向之后,即可根据目标文本图元的包围盒各个边的边长,确定目标文本图元的大小。如图10,目标文本图元的方向为平行于边b,则边a的边长就为目标文本图元的大小。
作为本实施例的一种可选实施方式,上述S2412可以包括如下步骤:
S01,比较凸多边形的各个外接矩形轮廓的面积,确定面积最小的外接矩形轮廓,以得到目标外接矩形轮廓。
确定了各个外接矩形轮廓之后,其面积就能够计算得到,然后比较凸多边形的各个外接矩形轮廓的面积,确定面积最小的外接矩形轮廓,以得到目标外接矩形轮廓。
S02,根据目标外接矩形轮廓确定对应的映射关系。
上述步骤S01确定了目标外接矩形轮廓之后,就能够得到对应的映射关系,其中映射关系如上述实施例中的步骤可以确定,在此不再赘述。
S03,利用映射关系及二维点集中各个点的坐标,确定目标文本图元的包围盒。
作为本实施例的一种可选实施方式,上述S03可以包括如下步骤:
(1)以映射关系中的起始点为原点,起始方向为轴线,建立局部坐标系。
为了便于理解并且更准确的将目标文本图元的几何特征进行计算,可以将局部坐标下的包围盒转换为世界坐标下进行计算。首先以映射关系中的起始点为原点,起始方向为轴线,建立局部坐标系。
(2)基于二维点集中各个点的坐标,将对应的外接矩形轮廓的各个顶点转换至局部坐标系,以确定外接矩形轮廓的各个顶点的局部坐标。
将已知的二维点集中各个点的坐标中外接矩形轮廓的各个顶点转换至局部坐标系,以确定外接矩形轮廓的各个顶点的局部坐标,便于确定局部坐标系下的包围盒,并且对于计算外接矩形轮廓的面积可以更加方便。
(3)根据各个局部坐标确定目标文本图元的包围盒。
最后将各个局部坐标转换至世界坐标系,以确定目标文本图元的包围盒,如图11所示,为上述示例中最后确定的包围盒,以对后续进行文本图元的几何特征的计算奠定基础。
在本实施例中提供了一种文本图元的几何特征计算方法,图12是根据本发明实施例的文本图元的几何特征计算方法的流程图,如图12所示,该流程包括如下步骤:
S31,获取目标文本图元的文字线集合。
详细请参见图1所示实施例的S11,在此不再赘述。
S32,遍历文字线集合中的所有文字线,存储所有文字线的起点与终点,形成二维点集。
具体地,上述S32可以包括如下步骤:
S321,遍历文字线集合中的所有文字线,确定所有文字线的起点与终点的端点坐标,将重复的端点进行筛选,以确定目标文本图元的二维点集。
其中,在将文字线集合中所有文字线的端点坐标进行入栈操作时,可以首先判断需要入栈的端点坐标是否已经存在,将会重复的端点进行筛选;另外还可以是先将遍历的所有的端点都进行入栈,然后根据端点坐标,将重复的端点进行筛选,最终确定目标文本图元的二维点集。需要说明的是,本实施例仅举例说明去除重复点的过程,只要能实现对重复点的过滤即可,本实施例并不以此为限。
S33,基于二维点集生成目标文本图元对应的凸多边形。
详细请参见图1所示实施例的S13,在此不再赘述。
S34,根据目标文本图元对应的凸多边形确定目标文本图元的几何特征。
详细请参见图1所示实施例的S14,在此不再赘述。
本实施例提供的文本图元的几何特征计算方法,通过文字线集合的所有文字线的端点坐标确定二维点集,进而确定目标文本图元的包围盒,然后利用包围盒及文字线的端点坐标,确定目标文本图元的几何特征;计算方法不依赖于文字的结构,并且能够适用于多种场景及复杂的文本图元,进而保证了文本图元的几何特征计算准确率,进一步提高了图纸的识别准确率。
在本实施例中提供了一种文本图元的识别方法,图13是根据本发明实施例的文本图元的识别方法的流程图,如图13所示,该流程包括如下步骤:
S41,基于文本图元的几何特征计算方法,确定文本图元的几何特征。
利用上述任一个实施例的文本图元的几何特征计算方法,确定文本图元的几何特征。
S42,利用文本图元的几何特征对文本图元进行文字识别,确定识别结果。
然后利用文本图元的几何特征对文本图元进行文字识别,确定识别结果。在CAD识别领域,有很多识别算法依赖于CAD文本图元的几何特征提高识别率,(如利用CAD文本图元与其他CAD线式图元的距离/方向范围约束、特征查找等等);在矢量PDF文字识别领域(识别文本内容),根据PDF文字线的几何特征,能将任意角度的文字线旋转到水平方向(利用计算出的“文字方向”),且做归一化操作(将PDF文字线缩放到固定高度,利用计算出的“文字高度”),最后将PDF文字线输出到图片中进行识别,(传统的图像识别技术,不能有效的计算出几何特征:将水平的文字分别转90°、180°、270°,opencv中的“Hough变换检测线”不能准确计算方向)。因此可以利用文本图元的几何特征对文本图元进行文字识别,确定识别结果。需要说明的是,本实施例仅举例说明了利用文本图元的几何特征辅助文字识别的作用,也可以通过其他形式将文本图元的几何特征利用在文字识别过程中,只要能够提高识别准确率即可,本实施例并不以此为限。
本实施例提供的文本图元的识别方法,通过将文本图元的几何特征利用到文本图元进行文字识别,进而保证了最后识别结果的准确率。
在本实施例中还提供了一种文本图元的几何特征计算装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种文本图元的几何特征计算装置,如图14所示,包括:第一处理模块1,用于获取目标文本图元的文字线集合;第二处理模块2,用于遍历文字线集合中的所有文字线,存储所有文字线的起点与终点,形成二维点集;第三处理模块3,用于基于二维点集生成目标文本图元对应的凸多边形;第四处理模块4,用于根据目标文本图元对应的凸多边形确定目标文本图元的几何特征。
本实施例提供一种文本图元的识别装置,如图15所示,包括:几何特征确定模块01,用于上述实施例中的文本图元的几何特征计算装置,确定文本图元的几何特征;识别模块02,用于利用文本图元的几何特征对文本图元进行文字识别,确定识别结果。
本实施例中的文本图元的几何特征计算装置,或者文本图元的识别装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图14或者图15所示的文本图元的几何特征计算装置或者文本图元的识别装置。
请参阅图16,图16是本发明可选实施例提供的一种电子设备的结构示意图,如图16所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图14或者图15所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图16中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请图1、5和12实施例中所示的文本图元的几何特征计算方法,或者实现如本申请图13实施例中所示的文本图元的识别方法。
本发明实施例还提供了一种非暂态计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本图元的几何特征计算方法,或者执行上述任意方法实施例中的文本图元的识别方法。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random AccessMemory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (14)

1.一种文本图元的几何特征计算方法,其特征在于,所述方法包括:
获取目标文本图元的文字线集合;
遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集;
基于所述二维点集生成所述目标文本图元对应的凸多边形;
根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征,包括:
基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,确定所述目标文本图元的包围盒;
根据所述目标文本图元的包围盒确定目标文本图元的方向、插入点及大小。
3.根据权利要求2所述的方法,其特征在于,所述基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,确定所述目标文本图元的包围盒,包括:
基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,构造所述凸多边形的外接矩形轮廓;
比较所述凸多边形的各个外接矩形轮廓的面积,确定所述目标文本图元的包围盒。
4.根据权利要求3所述的方法,其特征在于,所述基于所述凸多边形的各个顶点以及各个顶点对应的边的方向,构造所述凸多边形的外接矩形轮廓,包括:
分别以各个顶点为起始点,以所述起始点对应的边的方向为起始方向;
基于所述凸多边形的各个顶点、所述起始点及所述起始方向,分别构造所述凸多边形对应的外接矩形轮廓,并记录所述起始点和所述起始方向与所述外接矩形轮廓的映射关系。
5.根据权利要求4所述的方法,其特征在于,所述比较所述凸多边形的各个外接矩形轮廓的面积,确定所述目标文本图元的包围盒,包括:
比较所述凸多边形的各个外接矩形轮廓的面积,确定面积最小的外接矩形轮廓,以得到目标外接矩形轮廓;
根据所述目标外接矩形轮廓确定对应的映射关系;
利用所述映射关系及所述二维点集中各个点的坐标,确定所述目标文本图元的包围盒。
6.根据权利要求5所述的方法,其特征在于,所述利用所述映射关系及所述二维点集中各个点的坐标,确定所述目标文本图元的包围盒,包括:
以所述映射关系中的起始点为原点,起始方向为轴线,建立局部坐标系;
基于二维点集中各个点的坐标,将对应的外接矩形轮廓的各个顶点转换至局部坐标系,以确定外接矩形轮廓的各个顶点的局部坐标;
根据各个局部坐标确定所述目标文本图元的包围盒。
7.根据权利要求2所述的方法,其特征在于,所述文字线集合还包括各个所述文字线的索引,所述索引用于表示各个所述文字线的书写顺序,所述根据所述目标文本图元的包围盒确定目标文本图元的方向、插入点及大小,包括:
利用所述文字集合中所有文字线的端点坐标和所述文字线的索引,确定所述目标文本图元的起点和终点;
利用所述目标文本图元的起点和终点,确定初始文字方向;
基于所述初始文字方向以及所述目标文本图元的包围盒,确定目标文本图元的方向、插入点及大小。
8.根据权利要求7所述的方法,其特征在于,所述基于所述初始文字方向以及所述目标文本图元的包围盒,确定目标文本图元的方向、插入点及大小,包括:
将所述目标文本图元的包围盒的各个顶点转换至世界坐标系,以确定目标外接矩形轮廓的边长及中心点;
基于所述目标外接矩形轮廓的各个边,确定与各个边对应的四个辅助方向;
确定各个辅助方向与所述初始文字方向的夹角,将所述夹角最小的辅助方向确定为目标文本图元的方向;
基于所述目标外接矩形轮廓的的中心点,以确定目标文本图元的插入点;
根据所述目标文本图元的方向以及所述目标外接矩形轮廓的的边长,确定目标文本图元的大小。
9.根据权利要求1所述的方法,其特征在于,所述遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集,包括:
遍历文字线集合中的所有文字线,确定所有文字线的起点与终点的端点坐标,将重复的端点进行筛选,以确定所述目标文本图元的二维点集。
10.一种文本图元的识别方法,其特征在于,所述方法包括:
基于权利要求1-9中任一项所述的文本图元的几何特征计算方法,确定文本图元的几何特征;
利用所述文本图元的几何特征对所述文本图元进行文字识别,确定识别结果。
11.一种文本图元的几何特征计算装置,其特征在于,包括:
第一处理模块,用于获取目标文本图元的文字线集合;
第二处理模块,用于遍历文字线集合中的所有文字线,存储所述所有文字线的起点与终点,形成二维点集;
第三处理模块,用于基于所述二维点集生成所述目标文本图元对应的凸多边形;
第四处理模块,用于根据所述目标文本图元对应的凸多边形确定所述目标文本图元的几何特征。
12.一种文本图元的识别装置,其特征在于,包括:
几何特征确定模块,用于基于权利要求11所述的文本图元的几何特征计算装置,确定文本图元的几何特征;
识别模块,用于利用所述文本图元的几何特征对所述文本图元进行文字识别,确定识别结果。
13.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行如权利要求1-9中任一项所述的文本图元的几何特征计算方法,或者执行如权利要求10所述的文本图元的识别方法。
14.一种计算机存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行如权利要求1-9中任一项所述的文本图元的几何特征计算方法,或者执行如权利要求10所述的文本图元的识别方法。
CN202011492328.1A 2020-12-16 2020-12-16 一种文本图元的几何特征计算方法及识别方法、装置 Pending CN112507938A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011492328.1A CN112507938A (zh) 2020-12-16 2020-12-16 一种文本图元的几何特征计算方法及识别方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011492328.1A CN112507938A (zh) 2020-12-16 2020-12-16 一种文本图元的几何特征计算方法及识别方法、装置

Publications (1)

Publication Number Publication Date
CN112507938A true CN112507938A (zh) 2021-03-16

Family

ID=74921646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011492328.1A Pending CN112507938A (zh) 2020-12-16 2020-12-16 一种文本图元的几何特征计算方法及识别方法、装置

Country Status (1)

Country Link
CN (1) CN112507938A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191310A (zh) * 2021-05-19 2021-07-30 广联达科技股份有限公司 矢量pdf图纸实体填充的边界识别方法、装置及设备
CN113191311A (zh) * 2021-05-19 2021-07-30 广联达科技股份有限公司 矢量pdf图纸的填充边界识别方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113191310A (zh) * 2021-05-19 2021-07-30 广联达科技股份有限公司 矢量pdf图纸实体填充的边界识别方法、装置及设备
CN113191311A (zh) * 2021-05-19 2021-07-30 广联达科技股份有限公司 矢量pdf图纸的填充边界识别方法、装置、设备及存储介质
CN113191310B (zh) * 2021-05-19 2023-10-31 广联达科技股份有限公司 矢量pdf图纸实体填充的边界识别方法、装置及设备
CN113191311B (zh) * 2021-05-19 2024-04-16 广联达科技股份有限公司 矢量pdf图纸的填充边界识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110008809B (zh) 表格数据的获取方法、装置和服务器
US9014480B2 (en) Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region
KR101690981B1 (ko) 형태 인식 방법 및 디바이스
US9697423B1 (en) Identifying the lines of a table
CN110502985B (zh) 表格识别方法、装置及表格识别设备
CN109697414B (zh) 一种文本定位方法及装置
CN108334879B (zh) 一种区域提取方法、系统及终端设备
WO2022134771A1 (zh) 表格处理方法、装置、电子设备及存储介质
CN107545223B (zh) 图像识别方法及电子设备
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN112507938A (zh) 一种文本图元的几何特征计算方法及识别方法、装置
CN113343740A (zh) 表格检测方法、装置、设备和存储介质
CN110751156A (zh) 用于表格线大块干扰去除方法、系统、设备及介质
CN112800824B (zh) 扫描文件的处理方法、装置、设备及存储介质
CN115620321B (zh) 表格识别方法及装置、电子设备和存储介质
TWM623309U (zh) 英文字體影像辨識系統
CN113269153B (zh) 一种表格识别方法以及装置
CN111753573B (zh) 二维码图像识别方法、装置、电子设备以及可读存储介质
CN111709419A (zh) 一种纸币冠字号的定位方法、系统、设备及可读存储介质
JP4648084B2 (ja) 記号認識方法及び装置
TWI775634B (zh) 英文字體影像辨識方法
US10410052B2 (en) Stroke based skeletonizer
CN111860608B (zh) 发票图像配准方法、设备及计算机存储介质
CN113392811B (zh) 一种表格提取方法、装置、电子设备及存储介质
CN115376136A (zh) 一种字符识别方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination