CN102081732A - 一种版式识别模板方法及系统 - Google Patents
一种版式识别模板方法及系统 Download PDFInfo
- Publication number
- CN102081732A CN102081732A CN 201010610885 CN201010610885A CN102081732A CN 102081732 A CN102081732 A CN 102081732A CN 201010610885 CN201010610885 CN 201010610885 CN 201010610885 A CN201010610885 A CN 201010610885A CN 102081732 A CN102081732 A CN 102081732A
- Authority
- CN
- China
- Prior art keywords
- page
- template
- tag block
- layout recognition
- format
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000000284 extract Substances 0.000 claims description 6
- 238000004891 communication Methods 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 5
- 230000008878 coupling Effects 0.000 claims description 4
- 238000010168 coupling process Methods 0.000 claims description 4
- 238000005859 coupling reaction Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000008521 reorganization Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005452 bending Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000013011 mating Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本发明涉及一种版式识别模板方法及系统,属于文字识别技术领域,包括如下步骤:对于扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式模板;将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息;切去已识别的所述标记块,提交给后续识别流程。本发明通过采用区域识别模板对版面固定格式区域版面进行识别,并将其从识别目标中剥离,提升了页面区域内识别的效率,采用本发明所述的方法,简化了一般扫描页面识别的内容,并且基于此模板能够方便的通过人工进行识别管理。
Description
技术领域
本发明属于OCR文字识别技术领域,具体涉及一种版式识别模板方法及系统。
背景技术
页眉页脚处在文档中每个页面的顶部和底部区域,常用于显示文档的附加信息,可以插入页码,图形,公司logo,文档标题,文件名及作者姓名等,这些信息对于文档的管理非常重要。
在OCR文字识别技术领域中,页眉页脚信息简单,但是对于整个文档识别的管理非常重要。但同时,页眉页脚的信息有时又相对重复,例如公司logo,文档标题,文件名及作者姓名等信息,在每个页面中无论是位置还是内容,都是相同的,对于现有的页面识别方法或系统,如果对多个页面的这些相同内容进行重复识别,会浪费大量时间,同时大大降低页面区域内识别的效率。而对于页眉页脚的有些非常重要的信息,例如页码信息,如果某个页面中的页码信息被污点遮盖,造成无法识别或者无法准确识别,那么对于整个文档的后续管理会有很大影响。
发明内容
本发明的目的在于针对现有OCR文字识别技术中存在的问题,提供一种对文档扫描件进行识别的版式识别模板方法及系统,以提高页面区域内识别的效率。
本发明的技术方案如下:一种版式识别模板方法,包括如下步骤:
(S1)对扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式模板;
(S2)将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息;
(S3)切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给后续识别流程。
进一步,如上所述的版式识别模板方法,步骤(S1)中还包括对扫描页面进行归一化处理的操作。
更进一步,如上所述的版式识别模板方法,所述归一化处理是指将扫描中造成的页面变形进行矫正,归一化处理包括:
a)根据识别的行列的拟合曲线,计算出页面的倾斜曲率;
b)对页面按照所述的倾斜曲率进行矫正。
进一步,如上所述的版式识别模板方法,该方法还包括,对已识别的标记块中的信息,与其他页面同样标记块中识别出的信息进行对比分析,并自动矫正标记块的内容。
进一步,如上所述的版式识别模板方法,在步骤(S1)之前,还包括模板库的构建,或者向模板库中添加新版式模板的操作。
进一步,如上所述的版式识别模板方法,所述的版式模板是由定义与页面近似大小的矩形框以及用于标记页面中页眉页脚的大小和分布的标记块组成,所述的标记块为一个矩形区域,以及记录该区域文字类型的版面块。
进一步,如上所述的版式识别模板方法,步骤(S2)中,将版式模板中的标记块与页面信息连通域按照位置匹配,当两个区域矩形重合率达到设定阀值即认为该信息连通域与该标记块匹配。
更进一步,如上所述的版式识别模板方法,步骤(S2)中,提取与页面中页眉页角信息匹配的标记块,对提取的标记块内文字信息进行识别,并记录在标记块内。
一种版式识别模板系统,包括:
模板库,用于保存页面识别的版式模板;
识别模块,用于将版式模板中标记块与页面信息连通域按照位置匹配,并将标记块内文字进行识别;
评价模块,用于对多页中识别的同标记块内容进行准确度评价及自动矫正;
切分模块,用于将已识别的标记块对应的页面信息连通区域擦除。
进一步,如上所述的一种版式识别模板系统,系统可带有多个模板库。
进一步,如上所述的一种版式识别模板系统,系统中版式模板与页面按照指定顺序匹配。
本发明的有益效果如下:本发明通过采用区域识别模板对版面固定格式区域进行识别,并将其从识别目标中剥离,提升了页面区域内识别的效率,采用本发明所述的方法,简化了一般扫描页面识别的内容,并且基于此模板能够方便的通过人工进行识别管理。另外,本发明可以依据相同位置识别的页眉页角信息进行对比分析,自动矫正其内容。
附图说明
图1为本发明实施例中一种版式识别模板系统结构图;
图2为本发明实施例中一个版式识别模板方法流程图;
图3为本发明实施例中一个原始扫描页面;
图4为实施例中图3经过归一化处理后的效果;
图5为实施例中的最适合图3的版式模板图样;
图6为实施例中切去标记块后的页面图样。
具体实施方式
下面结合说明书附图对本发明的具体实施方式进行详细说明。
如图1所示,本发明提供了一种版式识别模板系统,包括:
模板库11,用于保存页面识别的版式模板;
识别模块12,用于将版式模板中标记块与页面连通域按照位置匹配,并将标记块内文字进行OCR识别;
评价模块13,用于对多页中识别的同标记块内容进行准确度评价及自动矫正;
切分模块14,用于将已识别的标记块对应的页面连通区域擦除。
版式识别模板系统中可以带有多个模板库,模板库的构建是本发明所实现的版式识别模板方法的前提。在不存在模板库的情况下,应该先进行模板库的构建,并向模板库中添加版式模板。同时,模板库又是随时动态更新的,在有新型结构的扫描页面出现时,首先应该构建相应的版式模板,保存在模板库中,以供页面识别时调用。
系统模板库中的版式模板与具体文档的页面是按照指定顺序进行匹配的,如先匹配左页,再匹配右页。
上述系统所实现的一种版式识别模板方法如图2所示,该方法包括如下步骤:
S1:对于扫描页面进行轮廓分析,在模板库中查找最适合的版式模板。
本发明实施例中,版式模板是由定义与页面近似大小的矩形框以及手工标记的标记块组成,标记块用于标记页面中页眉页脚的大小和分布,标记块是一定大小的矩形区域,及记录该区域文字类型的版面块。
本发明实施例中,还包括,根据查找的最适合的版式模板,对扫描页面进行归一化处理。归一化处理是指,将扫描中造成的页面变形进行矫正,典型如页面弯曲,大小有轻微变化。扫描页面的归一化处理所采用的都是一些公知的图像处理技术。
S2:将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息。
本发明实施例中,版式模板中标记块与页面连通域按照位置匹配,即两个区域矩形重合率达到设定阀值即认为该信息连通域与该标记块匹配。
本发明实施例中,提取与页面中页眉页角信息匹配的标记块,对提取的标记块内文字信息进行识别,并记录在标记块内。
本发明实施例中,还包括,对已识别的标记块中的信息,与其他页面同样标记块中识别出的信息进行对比分析,并自动矫正标记块的内容。对于同一个文档当中的不同页面的同样标记块所对应的信息,一般是相同的,或者是呈现规律性变化的(如页码),对这些信息进行对比分析,可实现系统的准确度评价以及自动矫正,通过编程来实现这一功能对于本领域的技术人员来说是很容易实现的技术手段。
S3:切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给后续识别流程。
下面为本发明具体的实施例描述,以详细说明版式识别模板方法的具体技术细节。
图3为本发明实施例中一个原始扫描页面。由图中可以看出,该原始扫描页面有些倾斜,整个页面内容由三部分组成,页眉、主页面及页脚。页眉分为三部分,左边部分是公司的logo和简称,中间部分是所属章节编号,右边部分是所属章节名称。页脚分为两个部分,左边是公司的全称及联系方式,右边页码及公司的logo。
图4为实施例中图3经过归一化处理后的效果。由图中可以看出,经过归一化处理,原始扫描页面的倾斜问题有了很大改善。本发明中,所述归一化处理是指,将扫描中造成的页面变形进行矫正。
现有技术中对页面进行归一化处理的方法有很多,本实施例中,对页面倾斜进行归一化处理,包括:
a)根据识别的行列的拟合曲线,计算出页面的倾斜曲率;
b)对页面按照所述的倾斜曲率进行矫正。
图5为实施例中的最适合图3的版式模板图样。在模板库中,根据页面轮廓分析,查找最适合的版式模板,本实施例中,如图5所示的版式模板。
由图中可以看出,该版式模板由模板外框31、版芯区32和标记块33组成。其中,模板外框31设定了整个页面的大小,版芯区32设定了页面中主体信息的大小,标记块33则标记出页面中页眉及页脚的大小和分布,同时标记块还设置了该块内的文字类型。
本实施例中,标记块a设定为不识别区域的标记块,标记块b设定为章节编号区的标记块,标记块c设定为页码区的标记块,标记块d设定为章节名称区的标记块。
在识别模块中,首先将版式模板中标记块与页面连通域按照位置匹配,即两个区域矩形重合率达到设定阀值即认为该连通域与该标记块匹配。这种位置匹配技术为本领域的公知技术,此处就不再过多的进行介绍,在本实施例中,阀值设定为85%,即版式模板中标记块与页面连通域的重合率达到85%以上,就认为该连通域与该标记块匹配。
接下来,识别已匹配标记块的内容,将识别的文字记录在标记块内。
本实施例中,标记块b中记录了“第三章”,标记块c中记录了“page 3”,标记块d中记录了“政府资助项目一览”,标记块a为不识别区域,所以不对标记块a的内容进行识别。
本发明中,在评价模块中,对于多页中识别的同标记块内容进行准确度评价及自动矫正。例如,对于扫描的同一个文档的多个页面中,对标记块c的内容进行评价。标记块c设定为页码区,那么对标记块c的内容进行准确的评价,判断页码内容是否准确,及自动校正。通过编程来实现这一功能对于本领域的技术人员来说是很容易实现的技术手段。准确度的评价可以通过页码数字排布是否符合正常的逻辑顺序来加以判断,自动校正的手段可以参考目前各种软件中对页码的自动编辑功能来加以实现。
图6为实施例中切去标记块后的页面图样。实施例中,切去已识别的标记块,将处理后的扫描页面提交给后续识别流程。实施例中,版式模板中的模板外框以及与标记块对应的图像连通区域被擦除,不再参与后续页面内容识别。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (11)
1.一种版式识别模板方法,包括如下步骤:
(S1)对扫描页面进行轮廓分析,查找出与页面连通域重合率达到设定阀值的版式模板;
(S2)将所述版式模板中的标记块与扫描页面中的信息进行匹配,提取并识别已匹配标记块的页眉页角信息;
(S3)切去扫描页面中已识别的标记块所对应的信息,将处理后的扫描页面提交给后续识别流程。
2.如权利要求1所述的版式识别模板方法,其特征在于:步骤(S1)中还包括对扫描页面进行归一化处理的操作。
3.如权利要求2所述的版式识别模板方法,其特征在于:所述归一化处理是指将扫描中造成的页面变形进行矫正,归一化处理包括:
a)根据识别的行列的拟合曲线,计算出页面的倾斜曲率;
b)对页面按照所述的倾斜曲率进行矫正。
4.如权利要求1所述的版式识别模板方法,其特征在于:该方法还包括,对已识别的标记块中的信息,与其他页面同样标记块中识别出的信息进行对比分析,并自动矫正标记块的内容。
5.如权利要求1所述的版式识别模板方法,其特征在于:在步骤(S1)之前,还包括模板库的构建,或者向模板库中添加新版式模板的操作。
6.如权利要求1或4或5所述的版式识别模板方法,其特征在于:所述的版式模板是由定义与页面近似大小的矩形框以及用于标记页面中页眉页脚的大小和分布的标记块组成,所述的标记块为一个矩形区域,以及记录该区域文字类型的版面块。
7.如权利要求1所述的版式识别模板方法,其特征在于:步骤(S2)中,将版式模板中的标记块与页面信息连通域按照位置匹配,当两个区域矩形重合率达到设定阀值即认为该信息连通域与该标记块匹配。
8.如权利要求7所述的版式识别模板方法,其特征在于:如上所述的版式识别模板方法,步骤(S2)中,提取与页面中页眉页角信息匹配的标记块,对提取的标记块内文字信息进行识别,并记录在标记块内。
9.一种版式识别模板系统,包括:
模板库,用于保存页面识别的版式模板;
识别模块,用于将版式模板中标记块与页面信息连通域按照位置匹配,并将标记块内文字进行识别;
评价模块,用于对多页中识别的同标记块内容进行准确度评价及自动矫正;
切分模块,用于将已识别的标记块对应的页面信息连通区域擦除。
10.如权利要求9所述的一种版式识别模板系统,其特征在于:系统可带有多个模板库。
11.如权利要求9所述的一种版式识别模板系统,其特征在于:系统中版式模板与页面按照指定顺序匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010610885 CN102081732B (zh) | 2010-12-29 | 2010-12-29 | 一种版式识别模板方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010610885 CN102081732B (zh) | 2010-12-29 | 2010-12-29 | 一种版式识别模板方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102081732A true CN102081732A (zh) | 2011-06-01 |
CN102081732B CN102081732B (zh) | 2013-06-05 |
Family
ID=44087688
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010610885 Expired - Fee Related CN102081732B (zh) | 2010-12-29 | 2010-12-29 | 一种版式识别模板方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102081732B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102938061A (zh) * | 2012-12-05 | 2013-02-20 | 上海合合信息科技发展有限公司 | 方便电子化的专业笔记本及其页码自动识别方法 |
CN102968638A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于关键字光学字符识别的影像清晰度判断的方法 |
CN103020619A (zh) * | 2012-12-05 | 2013-04-03 | 上海合合信息科技发展有限公司 | 一种自动切分电子化笔记本中手写条目的方法 |
CN103034842A (zh) * | 2012-12-05 | 2013-04-10 | 上海合合信息科技发展有限公司 | 一种方便电子化的专业笔记本及其电子缩略图显示方法 |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
CN103246751A (zh) * | 2013-05-28 | 2013-08-14 | 国家电网公司 | 二次图纸信息识别及阅读系统 |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
CN105046253A (zh) * | 2015-06-24 | 2015-11-11 | 山西同方知网数字出版技术有限公司 | 一种基于ocr的论文封皮自动识别系统及方法 |
CN107273892A (zh) * | 2017-06-12 | 2017-10-20 | 北京智芯原动科技有限公司 | 一种车牌字符分割方法及装置 |
CN109086738A (zh) * | 2018-08-23 | 2018-12-25 | 深圳市深晓科技有限公司 | 一种基于模板匹配的字符识别方法及装置 |
CN110188755A (zh) * | 2019-05-30 | 2019-08-30 | 北京百度网讯科技有限公司 | 一种图像识别的方法、装置和计算机可读存储介质 |
CN111401021A (zh) * | 2018-12-17 | 2020-07-10 | 北大方正集团有限公司 | 出版物模板构建方法、装置、设备及计算机可读存储介质 |
CN117217185A (zh) * | 2023-11-07 | 2023-12-12 | 江西五十铃汽车有限公司 | 一种文档生成方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101017479A (zh) * | 2007-02-09 | 2007-08-15 | 北京大学 | 一种自动识别数字文档版心的方法 |
JP3994625B2 (ja) * | 2000-05-11 | 2007-10-24 | コニカミノルタビジネステクノロジーズ株式会社 | 画像形成装置、画像形成方法および画像形成プログラムを記憶したコンピュータ読取り可能な記録媒体 |
CN101149801A (zh) * | 2007-10-23 | 2008-03-26 | 北京大学 | 一种复杂结构文档图像倾斜快速检测方法 |
CN101276362A (zh) * | 2007-03-26 | 2008-10-01 | 国际商业机器公司 | 优化和差异化网页浏览的装置和方法 |
CN101876999A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种生成传真索引的方法、报文分析装置和传真检索系统 |
-
2010
- 2010-12-29 CN CN 201010610885 patent/CN102081732B/zh not_active Expired - Fee Related
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3994625B2 (ja) * | 2000-05-11 | 2007-10-24 | コニカミノルタビジネステクノロジーズ株式会社 | 画像形成装置、画像形成方法および画像形成プログラムを記憶したコンピュータ読取り可能な記録媒体 |
CN101017479A (zh) * | 2007-02-09 | 2007-08-15 | 北京大学 | 一种自动识别数字文档版心的方法 |
CN101276362A (zh) * | 2007-03-26 | 2008-10-01 | 国际商业机器公司 | 优化和差异化网页浏览的装置和方法 |
CN101149801A (zh) * | 2007-10-23 | 2008-03-26 | 北京大学 | 一种复杂结构文档图像倾斜快速检测方法 |
CN101876999A (zh) * | 2009-12-04 | 2010-11-03 | 中国人民解放军信息工程大学 | 一种生成传真索引的方法、报文分析装置和传真检索系统 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102968638A (zh) * | 2011-08-31 | 2013-03-13 | 上海夏尔软件有限公司 | 基于关键字光学字符识别的影像清晰度判断的方法 |
CN102968638B (zh) * | 2011-08-31 | 2016-06-08 | 上海夏尔软件有限公司 | 基于关键字光学字符识别的影像清晰度判断的方法 |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
WO2014086277A1 (zh) * | 2012-12-05 | 2014-06-12 | 上海合合信息科技发展有限公司 | 方便电子化的专业笔记本及其页码自动识别方法 |
CN103034842A (zh) * | 2012-12-05 | 2013-04-10 | 上海合合信息科技发展有限公司 | 一种方便电子化的专业笔记本及其电子缩略图显示方法 |
CN102938061A (zh) * | 2012-12-05 | 2013-02-20 | 上海合合信息科技发展有限公司 | 方便电子化的专业笔记本及其页码自动识别方法 |
CN103020619B (zh) * | 2012-12-05 | 2016-04-20 | 上海合合信息科技发展有限公司 | 一种自动切分电子化笔记本中手写条目的方法 |
CN103020619A (zh) * | 2012-12-05 | 2013-04-03 | 上海合合信息科技发展有限公司 | 一种自动切分电子化笔记本中手写条目的方法 |
CN103246751A (zh) * | 2013-05-28 | 2013-08-14 | 国家电网公司 | 二次图纸信息识别及阅读系统 |
CN103246751B (zh) * | 2013-05-28 | 2016-04-20 | 国家电网公司 | 二次图纸信息识别及阅读系统 |
CN104951429A (zh) * | 2014-03-26 | 2015-09-30 | 阿里巴巴集团控股有限公司 | 版式电子文档的页眉页脚识别方法及装置 |
CN104966051A (zh) * | 2015-06-03 | 2015-10-07 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
CN104966051B (zh) * | 2015-06-03 | 2018-07-17 | 中国科学院信息工程研究所 | 一种文档图像的版式识别方法 |
CN105046253B (zh) * | 2015-06-24 | 2018-05-11 | 山西同方知网数字出版技术有限公司 | 一种基于ocr的论文封皮自动识别系统及方法 |
CN105046253A (zh) * | 2015-06-24 | 2015-11-11 | 山西同方知网数字出版技术有限公司 | 一种基于ocr的论文封皮自动识别系统及方法 |
CN107273892A (zh) * | 2017-06-12 | 2017-10-20 | 北京智芯原动科技有限公司 | 一种车牌字符分割方法及装置 |
CN107273892B (zh) * | 2017-06-12 | 2020-06-16 | 北京智芯原动科技有限公司 | 一种车牌字符分割方法及装置 |
CN109086738A (zh) * | 2018-08-23 | 2018-12-25 | 深圳市深晓科技有限公司 | 一种基于模板匹配的字符识别方法及装置 |
CN109086738B (zh) * | 2018-08-23 | 2021-05-11 | 深圳市同维通信技术有限公司 | 一种基于模板匹配的字符识别方法及装置 |
CN111401021A (zh) * | 2018-12-17 | 2020-07-10 | 北大方正集团有限公司 | 出版物模板构建方法、装置、设备及计算机可读存储介质 |
CN110188755A (zh) * | 2019-05-30 | 2019-08-30 | 北京百度网讯科技有限公司 | 一种图像识别的方法、装置和计算机可读存储介质 |
CN110188755B (zh) * | 2019-05-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 一种图像识别的方法、装置和计算机可读存储介质 |
CN117217185A (zh) * | 2023-11-07 | 2023-12-12 | 江西五十铃汽车有限公司 | 一种文档生成方法及系统 |
CN117217185B (zh) * | 2023-11-07 | 2024-03-01 | 江西五十铃汽车有限公司 | 一种文档生成方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN102081732B (zh) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102081732B (zh) | 一种版式识别模板方法及系统 | |
CN107622230B (zh) | 一种基于区域识别与分割的pdf表格数据解析方法 | |
CN109635268B (zh) | Pdf文件中表格信息的提取方法 | |
CN107133621B (zh) | 基于ocr的格式化传真的分类和信息提取方法 | |
EP1052593B1 (en) | Form search apparatus and method | |
CN101957919B (zh) | 基于图像局部特征检索的文字识别方法 | |
US7970213B1 (en) | Method and system for improving the recognition of text in an image | |
CN101908136B (zh) | 一种表格识别处理方法及系统 | |
CN101770446B (zh) | 一种版式文件中表格识别方法及系统 | |
CN101923643B (zh) | 通用表格识别方法 | |
EP1907946B1 (en) | A method for finding text reading order in a document | |
CN104966051A (zh) | 一种文档图像的版式识别方法 | |
CN110705515A (zh) | 一种基于ocr文字识别的医院纸质档案归档方法及系统 | |
WO2009047366A3 (en) | Methods and systems for processing of video data | |
CN102194117B (zh) | 文稿页面方向检测方法和装置 | |
CN103577818A (zh) | 一种图像文字识别的方法和装置 | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN104598577A (zh) | 一种网页正文的提取方法 | |
CN102024138A (zh) | 字符识别方法和字符识别装置 | |
CN103678280A (zh) | 翻译任务碎片化的方法 | |
CN104376317B (zh) | 一种将纸质文件转换为电子文件的方法 | |
CN109726369A (zh) | 一种基于标准文献的智能模板化题录技术实现方法 | |
CN104268545A (zh) | 一种电子档版式文件中的表格区域识别与内容栅格化方法 | |
CN106934918A (zh) | 利用基本语料库辅助进行票据字符识别的方法和装置 | |
EP1684199A3 (en) | Digitization of microfiche |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130605 Termination date: 20141229 |
|
EXPY | Termination of patent right or utility model |