CN104112287A - 切分图片中文字的方法和装置 - Google Patents

切分图片中文字的方法和装置 Download PDF

Info

Publication number
CN104112287A
CN104112287A CN201310133965.3A CN201310133965A CN104112287A CN 104112287 A CN104112287 A CN 104112287A CN 201310133965 A CN201310133965 A CN 201310133965A CN 104112287 A CN104112287 A CN 104112287A
Authority
CN
China
Prior art keywords
word
lattice
picture
cutting
line segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201310133965.3A
Other languages
English (en)
Other versions
CN104112287B (zh
Inventor
高玉军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Original Assignee
Peking University Founder Group Co Ltd
Beijing Founder Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University Founder Group Co Ltd, Beijing Founder Electronics Co Ltd filed Critical Peking University Founder Group Co Ltd
Priority to CN201310133965.3A priority Critical patent/CN104112287B/zh
Publication of CN104112287A publication Critical patent/CN104112287A/zh
Application granted granted Critical
Publication of CN104112287B publication Critical patent/CN104112287B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明提供了一种切分图片中文字的方法和装置,方法包括:在图片上勾画出方形区域;在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;根据每个格的边与格中字体边缘的距离,调整所述线段的位置;切分所述调整后的包含文字的格。通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高切分效率。

Description

切分图片中文字的方法和装置
技术领域
本发明涉及计算机领域,具体而言,涉及一种切分图片中文字的方法和装置。
背景技术
中文的文字是记录并推动历史、文化起源、演变以及发展的重要工具。每个年代的文字的不同演化阶段都有着丰富的历史人文和文化背景。
随着信息化的深入,需要整理历史年代的文字,其整理、研究的汉字范围涵盖古今,数量巨大,并且汉字由古代演变至今文字的种类变化层出不穷。例如,汉字可分为古代汉字、现代汉字、书法字体等等,具体古代汉字还可以划分为甲骨文、金文、战国文字、以及小篆等等。古代汉字中的甲骨文又可以分为甲骨文合集、花园庄东地甲骨文、小屯南地甲骨等等种类繁多。
这些古代汉字以书法、字画等载体形式保存,为了便于研究同一字在不同年代的变化,通常将这些载体上的内容电子化。这些电子化的载体上的内容,需要将每个载体上的每一个字单独分割,并存储。目前的技术手段以人工方式裁切,效率较低。
发明内容
本发明旨在提供一种切分图片中文字的方法和装置,以解决上述采用手工裁切,效率较低的问题。
本发明提供了一种切分图片中文字的方法,包括:在图片上勾画出方形区域;在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;根据每个格的边与格中字体边缘的距离,调整所述线段的位置;切分所述调整后的包含文字的格。
本发明提供了一种切分图片中文字的装置,包括:区域选择模块,用于在图片上勾画出方形区域;分割模块,用于在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;调整模块,用于根据每个格的边与格中字体边缘的距离,调整所述线段的位置;切分模块,用于切分所述调整后的包含文字的格。
通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高切分效率。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了实施例的流程图;
图2示出了实施例中图片的示意图;
图3示出了实施例中图片选择方形区域后的示意图;
图4示出了实施例中分成方格后的示意图;
图5示出了实施例中将建立古汉字的数据记录的流程图;
图6示出了实施例中显示多个古文字演变历史的流程图;
图7示出了装置实施例的结构框图。
具体实施方式
下面将参考附图并结合实施例,来详细说明本发明。参见图1,包括以下步骤:
S11:在图片上勾画出方形区域;
S12:在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;
S13:根据每个格的边与格中字体边缘的距离,调整所述线段的位置;
S14:切分所述调整后的包含文字的格。
通过上述过程,可快速将图片上勾画的方形区域切分,得到方形区域中的各个字。特别是对于古汉字,即字体形状大小不一的汉字,由于字体的高度不同,上下相邻的字之间的空白通常不在一行上。对于这样的字的切分,本发明的方案与现有技术相比,能显著提高切分效率。
下面通过附图详细说明每个步骤,参见图2,图2为一幅古汉字的书法的图片。图片上面的文字按列排列,形成多个竖行。
参见图3,在该图片上勾画出方形区域,方向区域可以是一个或多个。在图3中,选择出包含全部古汉字的一个区域。
优选地,所述生成延伸的线段的过程包括:
如果在所述行或列之间的空白位置,存在的两条相邻线段之间的距离小于阈值,则合并成一条线段。
例如,图3中,线段A和线段B之间的垂直距离不小于阈值,则保持为两条线段。线段C为多条线段合并成一条线段的结果。
经过步骤S13的步骤,根据每个格的边与格中字体边缘的距离,调整所述线段的位置;形成图4中包含每个字的方格,如果构成一个方格的边的线段与两个相邻字之间的距离均大于阈值,则分解为两个线段,各作为相邻两个字的一个边。
对图4中的每个格进行切分,得到每个格中的字。
由于同一个字在不同年代的载体上,其字形不同。因此,为便于后续对不同载体上的同一个字进行比较,需要建立每个载体上古汉字的属性及位置,并将其他载体上的相同的字并排比较,以便于分析研究,为实现上述功能,本发明采用以下实施例中的步骤,参见图5,包括:
S21:开始,启动程序;
S22:对文献图片画网格,对文献图片分类;
对于文献图片画网格的过程,可参见步骤S11和步骤S12;文献图片可按照其存在的不同年代分类。例如,分为汉代、清代等。
记录古文字图片文档的编号,如朝代(秦朝、汉朝、魏朝等)、文字类型(如甲骨、小篆、魏碑等),如QINCHAOXIAOZHUAN001.GIF为后续多张不同的图中,进行标注相同的某个汉字的演变历史、古今对照、追溯等做好准备。例如,在竹简上的的甲骨文字体文献图片其编号为QINCHAOXIAOZHUAN001.GIF。
S23:判断网格线的分布是否符合要求,如果是,则执行S25,如果否,则执行S24;
S24:对网格线进行调整;
网络线为前面实施例中的线段,通过判断同一个空白位置处的相邻线段的距离,判断是否符合要求。小于阈值,不符合要求,进行合并;不小于阈值,符合要求,可存在两条线段,如图3中的线段A和线段B。
S25:网络群组解散,记录一级位置;
一级位置为当前格内的文字的编号,例如图中的汉字“少”,位于选中的区域第二行、第二列;选中的区域为第一区域,则一级位置为010202。
S26:判断每个格的边是否符合要求;
根据每个格的边与格中字体边缘的距离,调整所述线段的位置;如果该距离在阈值之内,则不需要调整,执行S28;如果超出阈值,则进行调整,执行S27。
S27:调整每个格的边与该格内字之间的距离,并记录二级位置。
二级位置位坐标位置,例如图3中的“少”字坐标为,X12356Y58456表示X坐标12356,Y坐标58456;
除了上述坐标位置之外,还可建立每个图片上划分的每个格的属性;其中,所述属性包括:该格所归属的方形区域编号、所归属的图片的编号、以及该格在归属的方形区域的行列位置。
还可通过以下方式调整作为每个格的边,可以利用用鼠标左键单击来选中一个包含字体的矩形框,选中后会以蓝线显示其边界,
例如在图4中用蓝线显示的矩形就表示当前选中的矩形。然后对选中的蓝色单元格四边进行位置调节,把鼠标放到所选择的蓝色矩形一边的中心,鼠标以双箭头形式显示,然后按下鼠标并拖动,可以改边矩形边的位置。并且要对一些没用的矩形进行删除,比如字体每列间的空单元格,用鼠标单击选中,并选择删除。
如果图中的一些空单元格相邻且数量较多,可以批量删除这些连续的几个单元格,可以先选择第一个单元格,再按下组合键后,用鼠标点击另一个单元格,就会选择上两个单元格之间的所有单元格,然后选择删除选项。在图中我们可以看到大部分矩形的位置已经调整完毕,并且位于每列字体间的间隙上的矩形已经批量删除掉,并且整理得效果即是一个字体被相应的单元格所包含,并且字体位于单元格的中间位置。
S28:切分所述调整后的包含文字的格;
S29:将切分后的字保存为单字图片存储在单字词库;同时,还存储每个字的属性。
如下表所示:
现代汉字 单字图编号 大图编号 一级位置 二级位置
B00926 Shangchaojiaguwe001 010202 X12356Y58456
L34840 QINCHAOXIAOZHUAN001 020304 X25687Y96568
上述信息,在切割完毕后,点击为切分后的字建立的其归属图片的链接,按照所述坐标位置及其属性,定位到其在归属图片上的位置。可以即时还原定位到各个不同的原始大图上,并悬浮显示。如图6所示,对于“少”字,通过属性信息定位后,在切分前的大图上,定位源自与其它图片上不同朝代的“少”字演变过程,且各个大图可以叠加窗口切换。
优选地,可通过光标停留的形式触发链接,识别每个格中的文字,建立与其它图片中相同的字的对应关系;
当光标停留在当前格上时,按照所述对应关系,按照字产生的时间顺序,显示与该格文字相同的一个或多个字。
优选地,还包括:参见图6,显示与格中文字相同的一个或多个字的过程中,显示每个字所归属的图片的编号。
上述显示多个朝代汉字的过程,可通过以下步骤实现。
S30:现代汉字古今对照。
参见图6,在每个格的文字旁边显示对应的现代汉字。
S31:显示字形演变过程;
参见图6,在悬浮窗上,显示了各个朝代“少”字的演变过程。
S32:根据每个格中的文字的属性,将同一个字定位到原始文献图库的图片上。
单个古文字图切字完毕后,根据唯一性编号顺序,与现代汉字进行对照;与汉字的对照关系,可由古文字研究人员确定,对应关系有多种:一个古文字图与一个现代汉字对应,一个古文字图与多个现代汉字对应,
多个古文字图与一个现代汉字对应,多个古文字图与多个现代汉字对应等;
各个对应关系可以交叉变更;
最终确认通过后,存储到数据库的记录中;拥有了对应的现代汉字对应关系后,可以根据现代汉字进行检索定位还原;该对应关系在下一步的定位还原后,会自动漂浮显示在原始文献图的单字网格上。
通过现代汉字与古文字的对照关系,以及每个汉字的属性,确定定位还原索引值,包括属于那个古文献原始图编号、属于原始图中的哪个子区域属编号,以及在子区域内的单个四边网格顺序编号,前一个和后一个相邻的网格编号等属性,通过索引值中的这些多级索引,依次从古文献原始图编号、子区域编号、四边网格顺序编号确定了该字在整个文献图中的精确位置坐标,就可以快速还原定位到某单字图在原始文献中的精确位置,并显著标示出来。
还原完成后,还可以通过交互界面做进一步网格修正工作,并重复上述的切割、对应现代汉字工作;如表一中的“少”字,可以根据某个单字图唯一编码,确定其在小篆Shangchaojiaguwe001中,表示是商朝的甲骨文编号第一的大图,其一级位置010202表示位于Shangchaojiaguwe001.GIF中第一块区域的第二行第二列的交叉,进一步,其二级位置坐标X12356Y58456表示X坐标12356,Y坐标58456;这样就快速定位还原出“少”字在商朝甲骨文哪个图中的哪个具体位置。如果要查找“少”字对应的所有古代文字所在的所有的朝代的大图,同理可以快速全部的定位,并以显著的颜色框选出来,特别方便后续的古文字分析,提高了古文字的研究效率;当然,也可以直接通过定位还原索引值直接去还原定位位置;
定位还原时,标示的时候可以多个四边网格同时标注,也可以单个网格单独标注;通过前一个和后一个相邻的网格编号索引,确定周边的网格标注。
定位还原后,单字每个网格会至少显示一个对应的现代汉字,对于多个对应关系的,可以点击进一步展现出来;甚至多个交叉对应关系,以及该字型在多文献、多历史时期的字型演变,也可以直观的显示出来;特别方便古文字与现代汉字对应关系、汉字演变历史研究多映射的需要。
同时,一个现代汉字可以对应几张原始大图中的单字图上,同时进行标注。
本发明还提供一种切分图片中文字的装置,参见图7,包括:
区域选择模块,用于在图片上勾画出方形区域;
分割模块,用于在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;
调整模块,用于根据每个格的边与格中字体边缘的距离,调整所述线段的位置;
切分模块,用于切分所述调整后的包含文字的格。
优选地,还包括:
坐标模块,用于确定所述分割模块分割后的每个格在所述图片中的坐标位置;
属性模块,用于建立所述分割模块分割后的每个格的属性;其中,所述属性包括:该格所归属的方形区域编号、所归属的图片的编号、以及该格在归属的方形区域的行列位置。
优选地,还包括:
存储模块,用于存储所述切分模块切分后的字、所述坐标位置及其属性;
连接模块,用于点击所述切分模块为切分后的字建立的其归属图片的链接,按照所述坐标位置及其属性,定位到其在归属图片上的位置。
优选地,还包括:
识别模块,用于识别分割模块分割后的每个格中的文字,建立与其它图片中相同的字的对应关系;
显示模块,用于当光标停留在分割模块分割后的当前格上时,按照所述对应关系,按照字产生的时间顺序,显示与该格文字相同的一个或多个字。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种切分图片中文字的方法,其特征在于,包括:
在图片上勾画出方形区域;
在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;
根据每个格的边与格中字体边缘的距离,调整所述线段的位置;
切分所述调整后的包含文字的格。
2.根据权利要求1所述的方法,其特征在于,所述生成延伸的线段的过程包括:
如果在所述行或列之间的空白位置,存在的两条相邻线段之间的距离小于阈值,则合并成一条线段。
3.根据权利要求1所述的方法,其特征在于,所述切分操作之前,还包括:
确定每个格在所述图片中的坐标位置;
建立每个格的属性;其中,所述属性包括:该格所归属的方形区域编号、所归属的图片的编号、以及该格在归属的方形区域的行列位置。
4.根据权利要求3所述的方法,其特征在于,还包括:
存储所述切分后的字、所述坐标位置及其属性;
点击为切分后的字建立的其归属图片的链接,按照所述坐标位置及其属性,定位到其在归属图片上的位置。
5.根据权利要求1所述的方法,其特征在于,还包括:
识别每个格中的文字,建立与其它图片中相同的字的对应关系;
当光标停留在当前格上时,按照所述对应关系,按照字产生的时间顺序,显示与该格文字相同的一个或多个字。
6.根据权利要求5所述的方法,其特征在于,还包括:
显示与该格文字相同的一个或多个字的过程中,显示每个字所归属的图片的编号。
7.一种切分图片中文字的装置,其特征在于,包括:
区域选择模块,用于在图片上勾画出方形区域;
分割模块,用于在所述方形区域的相邻行和列的文字之间,根据空白位置的宽度,生成至少一条延伸的线段,形成分割所述方形区域的多个格;其中,所述线段的两端与任一延伸的线段或所述方形区域的边融合;
调整模块,用于根据每个格的边与格中字体边缘的距离,调整所述线段的位置;
切分模块,用于切分所述调整后的包含文字的格。
8.根据权利要求7所述的装置,其特征在于,还包括:
坐标模块,用于确定每个格在所述图片中的坐标位置;
属性模块,用于建立每个格的属性;其中,所述属性包括:该格所归属的方形区域编号、所归属的图片的编号、以及该格在归属的方形区域的行列位置。
9.根据权利要求8所述的装置,其特征在于,还包括:
存储模块,用于存储所述切分后的字、所述坐标位置及其属性;
连接模块,用于点击为切分后的字建立的其归属图片的链接,按照所述坐标位置及其属性,定位到其在归属图片上的位置。
10.根据权利要求7所述的装置,其特征在于,还包括:
识别模块,用于识别每个格中的文字,建立与其它图片中相同的字的对应关系;
显示模块,用于当光标停留在当前格上时,按照所述对应关系,按照字产生的时间顺序,显示与该格文字相同的一个或多个字。
CN201310133965.3A 2013-04-17 2013-04-17 切分图片中文字的方法和装置 Expired - Fee Related CN104112287B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310133965.3A CN104112287B (zh) 2013-04-17 2013-04-17 切分图片中文字的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310133965.3A CN104112287B (zh) 2013-04-17 2013-04-17 切分图片中文字的方法和装置

Publications (2)

Publication Number Publication Date
CN104112287A true CN104112287A (zh) 2014-10-22
CN104112287B CN104112287B (zh) 2017-05-24

Family

ID=51709064

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310133965.3A Expired - Fee Related CN104112287B (zh) 2013-04-17 2013-04-17 切分图片中文字的方法和装置

Country Status (1)

Country Link
CN (1) CN104112287B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980857A (zh) * 2017-02-24 2017-07-25 浙江工业大学 一种基于碑帖的毛笔字分割识别方法
CN108874257A (zh) * 2017-05-08 2018-11-23 珠海金山办公软件有限公司 一种图片展示方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526170B1 (en) * 1993-12-14 2003-02-25 Nec Corporation Character recognition system
CN101025791A (zh) * 2007-04-06 2007-08-29 清华大学 印刷蒙古文文本切分方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
JP4504702B2 (ja) * 2004-02-25 2010-07-14 株式会社リコー 文書処理装置、文書処理方法、および文書処理プログラム
CN101984426A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
CN102968789A (zh) * 2012-10-25 2013-03-13 清华大学 基于数字图像处理的出土简帛字形图像的提取方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6526170B1 (en) * 1993-12-14 2003-02-25 Nec Corporation Character recognition system
JP4504702B2 (ja) * 2004-02-25 2010-07-14 株式会社リコー 文書処理装置、文書処理方法、および文書処理プログラム
CN101025791A (zh) * 2007-04-06 2007-08-29 清华大学 印刷蒙古文文本切分方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置
CN101984426A (zh) * 2010-10-21 2011-03-09 优视科技有限公司 用于对网页图片进行字符切分的方法及装置
CN102968789A (zh) * 2012-10-25 2013-03-13 清华大学 基于数字图像处理的出土简帛字形图像的提取方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CASEY R G ET AL.: "A Survey of Methods and Strategies in Charaeter Segmentation", 《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENE》 *
刘瑛: "OCR技术在简犊图像数字化中的应用", 《成都理工大学硕士学位论文》 *
李钊: "中英文混排文字识别系统的设计与实现", 《中国优秀硕士学位论文全文数据库_信息科技辑》 *
玛日耶姆古丽·米吉提 ET AL.: "基于复杂背景的彩色图像中维吾尔文字切分", 《计算机工程与科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980857A (zh) * 2017-02-24 2017-07-25 浙江工业大学 一种基于碑帖的毛笔字分割识别方法
CN106980857B (zh) * 2017-02-24 2020-05-05 浙江工业大学 一种基于碑帖的毛笔字分割识别方法
CN108874257A (zh) * 2017-05-08 2018-11-23 珠海金山办公软件有限公司 一种图片展示方法及装置
CN108874257B (zh) * 2017-05-08 2021-09-24 珠海金山办公软件有限公司 一种图片展示方法及装置
US11556237B2 (en) 2017-05-08 2023-01-17 Beijing Kingsoft Office Software, Inc. Picture presentation method and device

Also Published As

Publication number Publication date
CN104112287B (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
US10592184B2 (en) Method and device for parsing tables in PDF document
US20190294663A1 (en) Method and device for positioning table in pdf document
CN101876967B (zh) 一种pdf文本段落生成的方法
CN110968667B (zh) 一种基于文本状态特征的期刊文献表格抽取方法
CN101375278A (zh) 用于处理注释的策略
CN102156865A (zh) 手写文本行字符切分方法、识别方法
US7149967B2 (en) Method and system for creating a table version of a document
CN102567300A (zh) 图片文档的处理方法及装置
CN101971204A (zh) 利用基于相对位置的控制在页面上布置图形对象
CN102592268A (zh) 一种分割前景图像的方法
CN103838933A (zh) 一种基于数字化技术的三维模型集成标注方法
CN112668289A (zh) 一种嵌套表格的提取方法及装置、存储介质
CN110659527A (zh) 电子表单中的表格检测
CN103279455A (zh) 电子表格的样式处理方法和装置
CN110070087A (zh) 图片识别方法及装置
CN116311259A (zh) 一种pdf业务文档的信息抽取方法
US7027071B2 (en) Selecting elements from an electronic document
CN116644729A (zh) 表格文件处理方法、装置、计算机设备和存储介质
CN101877062A (zh) 图像版面区域轮廓分析方法
CN104112287B (zh) 切分图片中文字的方法和装置
CN109408674B (zh) 基于仙人掌树的数据可视化方法、装置、设备及存储介质
CN110413962A (zh) 文档图像中的无边框表格解析技术
CN114296660A (zh) 一种基于Vue框架的标签打印方法
CN113591827A (zh) 文本图像的处理方法、装置、电子设备及可读存储介质
CN110377559B (zh) 一种pdf文件数据提取方法、装置及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170524

Termination date: 20190417

CF01 Termination of patent right due to non-payment of annual fee