CN116229497A - 版面文本的识别方法、装置及电子设备 - Google Patents
版面文本的识别方法、装置及电子设备 Download PDFInfo
- Publication number
- CN116229497A CN116229497A CN202111476719.9A CN202111476719A CN116229497A CN 116229497 A CN116229497 A CN 116229497A CN 202111476719 A CN202111476719 A CN 202111476719A CN 116229497 A CN116229497 A CN 116229497A
- Authority
- CN
- China
- Prior art keywords
- text
- determining
- region
- title
- paragraph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 58
- 230000015654 memory Effects 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 27
- 238000012545 processing Methods 0.000 abstract description 17
- 238000004891 communication Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 7
- 238000000926 separation method Methods 0.000 description 6
- 238000013145 classification model Methods 0.000 description 3
- 238000007621 cluster analysis Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/08—Construction
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Document Processing Apparatus (AREA)
- Character Input (AREA)
Abstract
本发明涉及版面识别技术领域,具体涉及版面文本的识别方法、装置及电子设备,所述识别方法包括获取目标总说明图纸;将所述目标总说明图纸转换为元素矢量信息,确定目标总说明图纸中的标题属性;根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;基于所述各个段落的位置信息确定所述各个段落下的文本。通过将目标总说明图纸转换为元素矢量信息,基于该元素矢量信息进行文本识别,可以保证识别的准确率;且仅针对文本区域中的文本进行识别,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,提高了识别的准确率及效率。
Description
技术领域
本发明涉及版面识别技术领域,具体涉及版面文本的识别方法、装置及电子设备。
背景技术
版面分析目前多用于将纸制文档内容转化为电子信息,以便进一步通过版面理解实现版面数字化。常用的实现方式是计算机视觉CV+字符识别OCR,具体地,首先将纸质文档转化为原始图像数据,然后根据收集的原始图像数据集样本进行模型训练,将复杂的版面同构化为同质化的单一区域,针对文本的区域,再通过OCR技术将其准化为文本格式的字符序列,进而通过字符提取、字符识别实现文档版面理解和重构。
然而,当将上述方案应用到建筑行业的总说明图纸时,在将总说明图纸转化为图片时,会根据图纸的大小转成为不同的分辨率,识别率依赖图片的清晰度。而CV的实现方式依赖训练集,实现周期长,而且对于特征不明显的数据识别准确率低,比如针对建筑行业总说明图纸中有表格背景的图纸,效果很差。
发明内容
有鉴于此,本发明实施例提供了一种版面文本的识别方法、装置及电子设备,以解决版面文字识别的效率及准确率偏低的问题。
根据第一方面,本发明实施例提供了一种版面文本的识别方法,包括:
获取目标总说明图纸;
将所述目标总说明图纸转换为元素矢量信息,确定所述目标总说明图纸中的标题属性;
根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;
基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;
基于所述各个段落的位置信息确定所述各个段落下的文本。
本发明实施例提供的版面文本的识别方法,通过将目标总说明图纸转换为元素矢量信息,基于该元素矢量信息进行文本识别,可以保证识别的准确率;且仅针对文本区域中的文本进行识别,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,提高了识别的准确率及效率。
结合第一方面,在第一方面第一实施方式中,所述根据各个区域类型的特征在所述元素矢量信息中确定出文本区域,包括:
获取所述元素矢量信息中各个文本之间的间距,确定分割线;
利用所述分割线对所述元素矢量信息进行分栏,确定至少一个区域;
基于所述至少一个区域的特征确定出所述文本区域。
本发明实施例提供的版面文本的识别方法,通过文本之间的间距确定出分割线,再利用分割线进行分栏进行区域划分,由于间距的大小是区域区别与文本间隙的最简单的方式,基于该方式确定出分割线,简化了处理流程提高了识别效率。
结合第一方面第一实施方式,在第一方面第二实施方式中,所述获取所述元素矢量信息中各个文本之间的间距,确定分割线,包括:
获取所述各个文本的坐标;
基于所述各个文本的坐标,确定相邻所述文本之间的坐标差值是否超出阈值;
当相邻所述文本之间的坐标差值超出所述阈值时,确定所述分割线位于相邻所述文本之间。
本发明实施例提供的版面文本的识别方法,将坐标差值与阈值进行比较,可以准确地确定出分割线。
结合第一方面第一实施方式,在第一方面第三实施方式中,所述基于所述至少一个区域的特征确定出所述文本区域,包括:
获取图签位置规律以及图签关键词;
基于所述图签位置规律以及所述图签关键词,识别出所述至少一个区域中的图签区域;
基于所述至少一个区域中的相交线段,识别出所述至少一个区域中的表格区域;
在所述至少一个区域中排除所述图签区域以及所述表格区域,确定所述文本区域。
本发明实施例提供的版面文本的识别方法,通过准确地识别出图签区域以及表格区域,在此基础上,就可以从至少一个区域中准确地确定出文本区域,保证了文本区域识别的准确性。
结合第一方面,在第一方面第四实施方式中,所述标题属性包括标题层级和标题样式,所述基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息,包括:
获取所述目标总说明图纸的设计依据,以确定所述标题属性,所述标题属性包括标题层级和标题样式;
基于所述标题属性在所述文本区域中进行匹配,确定所述各个标题;
基于所述各个标题确定所述对应的段落的位置信息。
本发明实施例提供的版面文本的识别方法,在文本区域中进行标题的确定,在确定出标题之后,就可以确定各个段落的位置信息,可以保证所确定出的位置信息的可靠性。
结合第一方面,在第一方面第五实施方式中,所述基于所述各个段落的位置信息确定所述各个段落下的文本,包括:
利用所述各个段落的位置信息,确定各个段落下的各行文本;
对每行文本进行拼接,确定各个所述标题下的每行文本。
本发明实施例提供的版面文本的识别方法,由于每行文本可能由多个图元组成,通过对每行文本拼接可以减少后续文本处理的成本。
结合第一方面第五实施方式,在第一方面第六实施方式中,所述对每行文本进行拼接,确定各个所述标题下的每行文本,包括:
依据预设顺序对所述每行文本进行聚类拼接,确定各个所述标题下的每行文本。
本发明实施例提供的版面文本的识别方法,因为整个文本区域的文字会非常多,可能会跨段落,如果都拼接在一起,会把之前的数据特征模糊掉,不利于下游环节的处理;基于此,以行为单位进行聚类拼接,可以保证下游环节处理的准确性。
根据第二方面,本发明实施例还提供了一种版面文本的识别装置,包括:
获取模块,用于获取目标总说明图纸;
转换模块,用于将所述目标总说明图纸转换为元素矢量信息,确定所述目标总说明图纸中的标题属性;
区域确定模块,用于根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;
段落确定模块,用于基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;
文本确定模块,用于基于所述各个段落的位置信息确定所述各个段落下的文本。
本发明实施例提供的版面文本的识别装置,通过将目标总说明图纸转换为元素矢量信息,基于该元素矢量信息进行文本识别,可以保证识别的准确率;且仅针对文本区域中的文本进行识别,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,提高了识别的准确率及效率。
根据第三方面,本发明实施例提供了一种电子设备,包括:存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行第一方面或者第一方面的任意一种实施方式中所述的版面文本的识别方法。
根据第四方面,本发明实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行第一方面或者第一方面的任意一种实施方式中所述的版面文本的识别方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的版面文本的识别方法的流程图;
图2是根据本发明实施例的版面文本的识别方法的流程图;
图3是根据本发明实施例的版面文本的识别方法的流程图;
图4是根据本发明实施例的版面文本的识别方法的流程图;
图5是根据本发明实施例的版面文本的识别装置的结构框图;
图6是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的版面文本的识别方法,用于对建筑行业的总说明图纸进行版面分析和版面理解,以识别出版面文本区域的文本。其中,版面分析:将整个版面分割成为不同的区域,并标定所有区域的类型(文本、表格、图签);版面理解:获取文档的逻辑结构,包括各区域的逻辑属性、图纸的层次关系等。
行业的总说明图纸包括文本区域、图签区域以及表格区域,此外在总说明图纸中还包括有设计依据,该设计依据用于标题属性,例如标题层级和标题样式等等。在此对其并不做任何限定,只需保证在总说明图纸中具有相应的设计依据即可。
本发明实施例提供的版面文本的识别方法,首先将图纸转化为元素矢量信息后,确定出文本区域,避免对非文本区域进行处理;其次只针对文本区域进行版面分析,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,以段落为单位来进行版面筛选,从而实现总说明图纸的版面分析和版面理解方法。该版本文本的识别方法,是为了识别文本区域每行的数据,最终给出的是每行的文字及其所属的标题。
进一步地,有了版面分析的结果,可以更加准确高效的进行总说明图纸的文本解析和总说明中表格的解析。根据版面分析的结果,文本解析不仅可以实现针对某个段落的解析,还可以根据版面分析的结果中的图签和表格区域不进行解析,从而大大提高了文本识别的效率。关于后续基于版面分析的结果进行的处理,在此对其并不做任何限定,具体可以根据实际需求进行相应的设置即可。
根据本发明实施例,提供了一种版面文本的识别方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种版面文本的识别方法,可用于电子设备,如电脑、平板电脑等,图1是根据本发明实施例的版面文本的识别方法的流程图,如图1所示,该流程包括如下步骤:
S11,获取目标总说明图纸。
在目标总说明图纸中包括有文本区域,也可以包括有表格区域或图签区域等等。对于一个文本区域而言,可能包括多个段落,段落均对应有相应的标题。例如,一个段落对应一个标题,或多个段落对应一个标题,等等。对于一个段落而言,可能包括一行文本,多行文本。
S12,将目标总说明图纸转换为元素矢量信息,确定目标总说明图纸中的标题属性。
其中,针对DWG格式的图纸,电子设备可以用特定的解析工具(teigha)将DWG图纸中包含的各个元素的矢量信息进行提取转化。针对其他格式的总说明图纸,可以利用其他对应的解析工具进行矢量信息的转化,也可以先转换为DWG格式,再转换为元素矢量信息。相较于位图,图片需再采用OCR技术进行文字识别,文字准确率没有矢量信息的准确率高,通过矢量信息进行文本识别的准确率为100%。
标题属性是从目标总说明图纸的设计依据中提取出的,该标题属性包括但不限于标题的层级关系、标题的样式以及标题的序号等等,这些属性用于后续确定段落的位置。即,电子设备先通过定位到标题,再识别各个标题下的段落,进而确定各个段落中的文本。在确定出各个段落中的文本之后,利用段落与标题的对应关系,就可以确定出各行文本对应的标题。
S13,根据各个区域类型的特征在元素矢量信息中确定出文本区域。
电子设备可以对元素矢量信息进行分析,划分出至少一个区域。例如,对元素矢量信息进行聚类分析,得到至少一个区域。也可以是,先基于元素矢量信息对目标总说明图纸进行分栏,从而得到至少一个区域。其中,分栏是通过文本之间的间距确定的。
在划分得到至少一个区域之后,电子设备基于各个区域类型的特征,例如,图签区域、表格区域以及文本区域,分别对各个区域进行特征识别,确定出文本区域。例如,获取分类模型,该分类模型的输入为各个区域的元素矢量信息,输出为该区域的类型。
或者,电子设备也可以分别提取各个区域的特征,再将各个区域的特征与各个区域类型的特征进行相似度计算,将相似度对稿的区域类型确定为该区域的类型。
关于该步骤具体将在下文中进行详细描述。
S14,基于标题属性在文本区域中确定各个标题对应的段落的位置信息。
如上文所述,标题属性包括但不限于标题的层级关系、标题样式以及标题的序号等等。电子设备利用标题属性在各个文本区域中进行标题匹配,确定各个文本区域中的标题位置。当确定出标题位置之后,标题对应段落也就相应确定,进而可以确定出各个标题对应的段落的位置信息。
关于该步骤具体将在下文中进行详细描述。
S15,基于各个段落的位置信息确定各个段落下的文本。
各个段落的位置信息确定之后,依据相应的顺序,依次确定各行文本从而确定各个段落下的文本。各个段落下的文本可能是一行,两行或多行等等,相应地,将各个段落与标题对应,就可以确定出各个段落下的文本所属的标题。
关于该步骤具体将在下文中进行详细描述。
本实施例提供的版面文本的识别方法,通过将目标总说明图纸转换为元素矢量信息,基于该元素矢量信息进行文本识别,可以保证识别的准确率;且仅针对文本区域中的文本进行识别,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,提高了识别的准确率及效率。
在本实施例中提供了一种版面文本的识别方法,可用于电子设备,如电脑、平板电脑等,图2是根据本发明实施例的版面文本的识别方法的流程图,如图2所示,该流程包括如下步骤:
S21,获取目标总说明图纸。
详细请参见图1所示实施例的S11,在此不再赘述。
S22,将目标总说明图纸转换为元素矢量信息,确定目标总说明图纸中的标题属性。
详细请参见图2所示实施例的S12,在此不再赘述。
S23,根据各个区域类型的特征在元素矢量信息中确定出文本区域。
具体地,上述S23包括:
S231,获取元素矢量信息中各个文本之间的间距,确定分割线。
电子设备对元素矢量信息进行处理,根据整个版面的编排找到分割线间隙进行版面分栏。其中,分割线为竖向分割线,通过确定竖向间隙,对版面进行分栏,其对应的处理包括将文本图元与线段图元分隔开,去除掉噪声图元(比如斜线、比如没有坐标信息的元素),获取行平均间距。
由于在上述步骤中将目标总说明图纸转换为元素矢量信息,对元素矢量信息进行聚类分析,确定各个文本之间的间距。通过设置间距阈值,将各个文本的间距与该间距阈值进行比较,即可确定出分割线。
在本实施例的一些可选实施方式中,上述S231可以包括:
(1)获取各个文本的坐标。
(2)基于各个文本的坐标,确定相邻文本之间的坐标差值是否超出阈值。
(3)当相邻文本之间的坐标差值超出阈值时,确定分割线位于相邻文本之间。
如上文所述,通过对元素矢量信息进行聚类分析,确定出各个文本,进而确定出各个文本的坐标。通过分别比较相邻文本的横坐标,以确定竖向分割线;比较相邻文本之间的纵坐标,以确定横向分割线。
如上文所述,分割线为竖向分割线,电子设备中设置有横坐标对应的阈值,计算相邻文本的横坐标的差值,并将该差值与阈值进行比较,当差值大于阈值时,表示相邻文本之间存在竖向分割线。电子设备在确定出各个相邻文本之间的竖向分割线之后,将竖向分割线进行连接,即可实现版面分栏。通过将坐标差值与阈值进行比较,可以准确地确定出分割线。
例如,对文本根据横轴坐标从小到大进行排序,若相邻两个文本之间的横坐标差值异常(比如很大),则从此处为分割线。样例:
文本1 文本2 文本3 文本4
通过横坐标的分析可知,文本3和文本4之间间距异常,则文本3和文本4中间为分割线。
S232,利用分割线对元素矢量信息进行分栏,确定至少一个区域。
电子设备基于确定出的分割线,对元素矢量信息进行分栏,即可确定出至少一个区域。其中,各个区域是通过元素矢量信息表示的。
S233,基于至少一个区域的特征确定出文本区域。
如上文所述,电子设备可以先提取各个区域的特征,再将提取出的特征与各个区域类型的特征进行相似度计算,以确定文本区域;或者,结合分类模型对各个区域所属的类型进行分类。
在本实施例的一些可选实施方式中,上述S233可以包括:
(1)获取图签位置规律以及图签关键词。
(2)基于图签位置规律以及图签关键词,识别出至少一个区域中的图签区域。
(3)基于至少一个区域中的相交线段,识别出至少一个区域中的表格区域。
(4)在至少一个区域中排除图签区域以及表格区域,确定文本区域。
具体地,在电子设备预先设置有图签位置规律以及图签关键词,其可以是根据经验总结得到的,也可以通过其他方式得到。电子设备根据图签位置规律和图签关键词信息来识别图签区域;根据竖线横线相交,标题位置以及图纸竖向分割线识别表格区域。即,通过“CV+设计依据”的融合算法,识别出图签以及表格,排除了表格、图签区域外的则为文本区域。基于此,表格的准确率提高了,文本区域的精度也会提升。
通过准确地识别出图签区域以及表格区域,在此基础上,就可以从至少一个区域中准确地确定出文本区域,保证了文本区域识别的准确性。
S24,基于标题属性在文本区域中确定各个标题对应的段落的位置信息。
详细请参见图1所示实施例的S14,在此不再赘述。
S25,基于各个段落的位置信息确定各个段落下的文本。
详细请参见图1所示实施例的S15,在此不再赘述。
本实施例提供的版面文本的识别方法,通过文本之间的间距确定出分割线,再利用分割线进行分栏进行区域划分,由于间距的大小是区域区别与文本间隙的最简单的方式,基于该方式确定出分割线,简化了处理流程提高了识别效率。
在本实施例中提供了一种版面文本的识别方法,可用于电子设备,如电脑、平板电脑等,图3是根据本发明实施例的版面文本的识别方法的流程图,如图3所示,该流程包括如下步骤:
S31,获取目标总说明图纸。
其中,所述标题属性包括标题层级和标题样式。
详细请参见图2所示实施例的S21,在此不再赘述。
S32,将目标总说明图纸转换为元素矢量信息,确定所述目标总说明图纸中的标题属性。
详细请参见图2所示实施例的S22,在此不再赘述。
S33,根据各个区域类型的特征在元素矢量信息中确定出文本区域。
详细请参见图2所示实施例的S23,在此不再赘述。
S34,基于标题属性在文本区域中确定各个标题对应的段落的位置信息。
具体地,上述S34包括:
S341,基于标题属性在文本区域中进行匹配,确定各个标题。
根据标题层级和标题序号的样式,在文本区域中进行匹配,寻找更多的同级标题。在找到设计依据所在的标题后,根据序号的编排规则,找到同级的标题。例如,标题层级包括一级标题以及二级标题,可以在确定出标题之后,再依据各个标题的序号与标题层级的序号的对应关系,相应确定出哪些是一级标题,哪些是二级标题。
S342,基于各个标题确定对应的段落的位置信息。
电子设备在定位到各个标题之后,就可以确定出各个标题对应的段落的位置信息。
S35,基于各个段落的位置信息确定各个段落下的文本。
具体地,上述S35包括:
S351,利用各个段落的位置信息,确定各个段落下的各行文本。
S352,对每行文本进行拼接,确定各个标题下的每行文本。
在DWG图纸中会存在一行是由多个文本组成的,对每行的文本进行拼接,得到各个标题下的每行文字。其中,拼接采用聚类拼接的方式,即,对行范围内的文字进行拼接,指根据文字位置找出同行的文本,拼成一行。
依据预设顺序对所述每行文本进行聚类拼接,确定各个所述标题下的每行文本。因为整个文本区域的文字会非常多,可能会跨段落,如果都拼接在一起,会把之前的数据特征模糊掉,不利于下游环节的处理;基于此,以行为单位进行聚类拼接,可以保证下游环节处理的准确性。
本实施例提供的版面文本的识别方法,在文本区域中进行标题的确定,在确定出标题之后,就可以确定各个段落的位置信息,可以保证所确定出的位置信息的可靠性。由于每行文本之间可能存在间隙,通过对每行文本进行拼接可以去除该间隙,减少了后续文本分析的数据量。
在本实施例的一个具体应用实例中,以总说明图纸为DWG格式的图纸为例。如图4所示,上述的版面文本的识别方法包括:
S51,输入DWG总说明图纸;
S52,对DWG图纸解析,确定元素矢量信息以及设计规则;
S53,确定竖向间隙进行版面分割;
S54,区域分割,确定文本区域、表格区域以及图签区域,以及各个区域的坐标位置;
S55,基于文本区域进行一级标题识别;
S56,进行文本拼接,标题段落位置的确定;
S57,确定行所属段落信息。
本实施例提供的版面文本的识别方法,是一种基于整个版面的编排找到竖向间隙的间隙分割版面分割方法,根据不同的版面区域的数据特征,提出了不同版面区域的分类方法,比如根据关键词规则以及图签位置规律进行图签的分类识别;根据从左往右顺序遍历竖线,查找其可能组成的表格进行表格的分类识别。在识别过程中先进行一级标题的识别,根据标题位置以及版面分割的结果,划定每个标题下段落的位置,从而更加准确高效的进行总说明图纸的文本解析。后续根据版面分析的结果,文本解析不仅可以实现针对某个段落的解析,还可以根据版面分析的结果中的图签和表格区域不进行解析,从而大大提高了文本识别的效率。
在本实施例中还提供了一种版面文本的识别装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种版面文本的识别装置,如图5所示,包括:
获取模块41,用于获取目标总说明图纸;
转换模块42,用于将所述目标总说明图纸转换为元素矢量信息,确定所述目标总说明图纸中的标题属性;
区域确定模块43,用于根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;
段落确定模块44,用于基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;
文本确定模块45,用于基于所述各个段落的位置信息确定所述各个段落下的文本。
本实施例提供的版面文本的识别装置,通过将目标总说明图纸转换为元素矢量信息,基于该元素矢量信息进行文本识别,可以保证识别的准确率;且仅针对文本区域中的文本进行识别,无需基于文本进行语义分析,而是利用段落划分处理所得到的各个段落的坐标信息,提高了识别的准确率及效率。
本实施例中的版面文本的识别装置是以功能单元的形式来呈现,这里的单元是指ASIC电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
上述各个模块的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本发明实施例还提供一种电子设备,具有上述图5所示的版面文本的识别装置。
请参阅图6,图6是本发明可选实施例提供的一种电子设备的结构示意图,如图6所示,该电子设备可以包括:至少一个处理器601,例如CPU(Central Processing Unit,中央处理器),至少一个通信接口603,存储器604,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,通信接口603可以包括显示屏(Display)、键盘(Keyboard),可选通信接口603还可以包括标准的有线接口、无线接口。存储器604可以是高速RAM存储器(Random Access Memory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器604可选的还可以是至少一个位于远离前述处理器601的存储装置。其中处理器601可以结合图5所描述的装置,存储器604中存储应用程序,且处理器601调用存储器604中存储的程序代码,以用于执行上述任一方法步骤。
其中,通信总线602可以是外设部件互连标准(peripheral componentinterconnect,简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture,简称EISA)总线等。通信总线602可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器604可以包括易失性存储器(英文:volatile memory),例如随机存取存储器(英文:random-access memory,缩写:RAM);存储器也可以包括非易失性存储器(英文:non-volatile memory),例如快闪存储器(英文:flash memory),硬盘(英文:hard diskdrive,缩写:HDD)或固态硬盘(英文:solid-state drive,缩写:SSD);存储器604还可以包括上述种类的存储器的组合。
其中,处理器601可以是中央处理器(英文:central processing unit,缩写:CPU),网络处理器(英文:network processor,缩写:NP)或者CPU和NP的组合。
其中,处理器601还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specific integrated circuit,缩写:ASIC),可编程逻辑器件(英文:programmable logic device,缩写:PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(英文:complex programmable logic device,缩写:CPLD),现场可编程逻辑门阵列(英文:field-programmable gate array,缩写:FPGA),通用阵列逻辑(英文:generic arraylogic,缩写:GAL)或其任意组合。
可选地,存储器604还用于存储程序指令。处理器601可以调用程序指令,实现如本申请任一实施例中所示的版面文本的识别方法。
本发明实施例还提供了一种非暂态计算机存储介质,所述计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的版面文本的识别方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)、随机存储记忆体(Random Access Memory,RAM)、快闪存储器(Flash Memory)、硬盘(Hard DiskDrive,缩写:HDD)或固态硬盘(Solid-State Drive,SSD)等;所述存储介质还可以包括上述种类的存储器的组合。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
Claims (10)
1.一种版面文本的识别方法,其特征在于,包括:
获取目标总说明图纸;
将所述目标总说明图纸转换为元素矢量信息,确定所述目标总说明图纸中的标题属性;
根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;
基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;
基于所述各个段落的位置信息确定所述各个段落下的文本。
2.根据权利要求1所述的方法,其特征在于,所述根据各个区域类型的特征在所述元素矢量信息中确定出文本区域,包括:
获取所述元素矢量信息中各个文本之间的间距,确定分割线;
利用所述分割线对所述元素矢量信息进行分栏,确定至少一个区域;
基于所述至少一个区域的特征确定出所述文本区域。
3.根据权利要求2所述的方法,其特征在于,所述获取所述元素矢量信息中各个文本之间的间距,确定分割线,包括:
获取所述各个文本的坐标;
基于所述各个文本的坐标,确定相邻所述文本之间的坐标差值是否超出阈值;
当相邻所述文本之间的坐标差值超出所述阈值时,确定所述分割线位于相邻所述文本之间。
4.根据权利要求2所述的方法,其特征在于,所述基于所述至少一个区域的特征确定出所述文本区域,包括:
获取图签位置规律以及图签关键词;
基于所述图签位置规律以及所述图签关键词,识别出所述至少一个区域中的图签区域;
基于所述至少一个区域中的相交线段,识别出所述至少一个区域中的表格区域;
在所述至少一个区域中排除所述图签区域以及所述表格区域,确定所述文本区域。
5.根据权利要求1所述的方法,其特征在于,所述标题属性包括标题层级和标题样式,所述基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息,包括:
基于所述标题属性在所述文本区域中进行匹配,确定所述各个标题;
基于所述各个标题确定所述对应的段落的位置信息。
6.根据权利要求1所述的方法,其特征在于,所述基于所述各个段落的位置信息确定所述各个段落下的文本,包括:
利用所述各个段落的位置信息,确定各个段落下的各行文本;
对每行文本进行拼接,确定各个所述标题下的每行文本。
7.根据权利要求6所述的方法,其特征在于,所述对每行文本进行拼接,确定各个所述标题下的每行文本,包括:
依据预设顺序对所述每行文本进行聚类拼接,确定各个所述标题下的每行文本。
8.一种版面文本的识别装置,其特征在于,包括:
获取模块,用于获取目标总说明图纸;
转换模块,用于将所述目标总说明图纸转换为元素矢量信息,以确定所述目标总说明图纸中的标题属性;
区域确定模块,用于根据各个区域类型的特征在所述元素矢量信息中确定出文本区域;
段落确定模块,用于基于所述标题属性在所述文本区域中确定各个标题对应的段落的位置信息;
文本确定模块,用于基于所述各个段落的位置信息确定所述各个段落下的文本。
9.一种电子设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1-7中任一项所述的版面文本的识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行权利要求1-7中任一项所述的版面文本的识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476719.9A CN116229497A (zh) | 2021-12-06 | 2021-12-06 | 版面文本的识别方法、装置及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111476719.9A CN116229497A (zh) | 2021-12-06 | 2021-12-06 | 版面文本的识别方法、装置及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116229497A true CN116229497A (zh) | 2023-06-06 |
Family
ID=86589742
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111476719.9A Pending CN116229497A (zh) | 2021-12-06 | 2021-12-06 | 版面文本的识别方法、装置及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116229497A (zh) |
-
2021
- 2021-12-06 CN CN202111476719.9A patent/CN116229497A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10853638B2 (en) | System and method for extracting structured information from image documents | |
CN110334346B (zh) | 一种pdf文件的信息抽取方法和装置 | |
EP3117369B1 (en) | Detecting and extracting image document components to create flow document | |
CN110942074B (zh) | 字符切分识别方法、装置、电子设备、存储介质 | |
Antonacopoulos et al. | ICDAR2005 page segmentation competition | |
JP2020511726A (ja) | 電子文書からのデータ抽出 | |
Ray Choudhury et al. | An architecture for information extraction from figures in digital libraries | |
RU2631168C2 (ru) | Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа | |
JP6951905B2 (ja) | 手書きテキスト画像に対する行及び単語切り出し方法 | |
Wilkinson et al. | Neural Ctrl-F: segmentation-free query-by-string word spotting in handwritten manuscript collections | |
RU2643465C2 (ru) | Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы | |
KR101377601B1 (ko) | 모바일 카메라를 이용한 자연 영상 다국어 문자 인식과 번역 시스템 및 방법 | |
US9183636B1 (en) | Line segmentation method | |
JP7396568B2 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
Ayesh et al. | A robust line segmentation algorithm for Arabic printed text with diacritics | |
CN113033269B (zh) | 一种数据处理方法及装置 | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN115546809A (zh) | 基于单元格约束的表格结构识别方法及其应用 | |
RU2625533C1 (ru) | Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы | |
Liang et al. | Performance evaluation of document layout analysis algorithms on the UW data set | |
CN115545009B (zh) | 一种获取目标文本的数据处理系统 | |
US10769429B2 (en) | Method and system for extracting text from an engineering drawing | |
WO2020211380A1 (zh) | 页面设计中前端代码的智能识别方法及相关设备 | |
Yu et al. | An effective method for figures and tables detection in academic literature | |
US9811726B2 (en) | Chinese, Japanese, or Korean language detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |