CN101782896A - 结合ocr技术的pdf文字提取方法 - Google Patents
结合ocr技术的pdf文字提取方法 Download PDFInfo
- Publication number
- CN101782896A CN101782896A CN200910076809A CN200910076809A CN101782896A CN 101782896 A CN101782896 A CN 101782896A CN 200910076809 A CN200910076809 A CN 200910076809A CN 200910076809 A CN200910076809 A CN 200910076809A CN 101782896 A CN101782896 A CN 101782896A
- Authority
- CN
- China
- Prior art keywords
- character
- coding
- page
- font
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明提供了一种结合OCR技术的PDF文字提取方法,属于模式识别技术领域,该方法包括:(1)PDF数据提取;(2)结合OCR技术确认字符内容;(3)对字符的第二编码进行处理;(4)根据字符的位置、字体和字号,导出经过步骤(3)处理的字符的第二编码。本发明中,在字符计算机内码确认过程中结合OCR技术,有效提高了PDF文字提取的准确性,解决了部分PDF文件字符内容无法提取的问题。
Description
技术领域
本发明涉及模式识别技术领域,特别涉及在PDF文件中提取文字的方法。
背景技术
PDF是Portable Document Format的缩写,是由Adobe公司开发的一种开放式的电子文件格式。PDF由PostScript编程语言发展而来,而PostScript当前依然作为主流的打印机编程语言广泛应用于专业出版领域。PDF大量延续了PostScript中的页面描述方式,采用了PostScript中定义的字符编码方式。
PDF文件格式的优点在于,文件格式与软硬件以及操作系统平台无关,无论在Windows、Unix还是在苹果公司的Mac OS操作系统中都可以无障碍的使用,并且可以达到相同的显示效果。这一特点使得PDF成为Internet上主要的电子文档格式,在数字化信息传播中充当着重要角色。
PDF文件格式产生的初衷即在于精确的描绘页面,满足电子出版领域高质量的要求。而将文件内容编辑的需要置于较为次要的位置。因此,在实际应用中时常出现PDF文件“只能看不能改”的现象。
PDF文字提取方法即是提取出PDF文件中包含的文字信息,并通过系列的信息处理过程,转换为便于编辑的文件格式。
目前对PDF的文字提取存在两种方法,一种是利用OCR识别技术,将PDF转换成图像,经过版面分析,行字切分、文字识别,将结果输出,此方法在上述各个步骤中都需要做智能分析,都可能引入错误,存在识别率不够高的问题;另一种方法是利用PDF文件进行解析,提取文字信息,直接将结果输出,但是,在PDF文件中,允许编码和显示的字符不完全对应,这样,导致该方法无法通过提取所有字符的计算机内码来提取字符。为了内容提取的需要,PDF格式规范定义了部分字体的编码到Unicode编码的映射,但仍然有部分PDF字体无法实现由字体编码到Unicode编码的映射。所以也不理想。
发明内容
本发明的目的在于提供一种结合OCR技术的PDF文字提取方法,以克服现有技术缺陷,提高PDF文字提取的准确性并解决部分PDF文件字符内容无法提取的问题。
为实现上述目的,本发明提供了一种结合OCR技术的PDF文字提取方法,该方法包括以下步骤:
(1)PDF数据提取:提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号;
(2)结合OCR技术确认字符内容:基于字符的点阵图像数据进行字符的OCR识别,获得识别结果以及识别可信度,根据识别结果、识别可信度与步骤(1)中提取到的字符的第一编码,得到字符第二编码;
(3)对可靠的字符编码进行处理:对字符的第二编码进行排序以及聚类操作,并根据需要进行版面重构;
(4)根据字符的位置、字体和字号,导出经过步骤(3)处理的字符的第二编码。
优选地,步骤(1)中PDF数据提取包括以下步骤:
(11)提取PDF页面描述指令:解析PDF文件结构并进行数据解码,根据页号获取相应页面的页面描述指令;
(12)分析页面描述指令:将页面描述指令中对文字的描述分解为对单个字符的描述,并提取单个字符的第一编码、位置、字体和字号;
(13)按照设定的图像分辨率,将提取的字符的第一编码转换为字符的点阵图像数据;
(14)如果页面描述指令中还有其他的待处理字符,则重复以上(12)、(13)步骤。
优选地,步骤(2)中结合OCR技术确认字符内容包括以下步骤:
(21)用OCR技术识别字符的点阵图像数据,得到识别结果和识别可信度;
(22)将步骤(12)中得到的字符的第一编码与识别结果进行比对;
如果一致,将字符的第一编码视为字符的第二编码;
如果不一致,则判断识别可信度是否高于预先设定的阈值,识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码。
优选地,步骤(3)中进行有效的排序是根据所述的字符的位置进行排序输出。
优选地,步骤(3)中进行聚类操作是根据所述的字符的位置、字体和字号,计算字符输出时所处的行、列和段落,使得解析或识别前位于同一块或同一段落的字符,在输出时依然保留原有的相对位置。
优选地,步骤(3)中进行版面重构是按照字符输出时所处的行、列和段落,输出每一个字符,并且与原有版面保持一致。
本发明中,在字符计算机内码确认过程中结合OCR(Optical CharacterRecognition,光学字符识别)技术,通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息,有效提高了PDF文字提取的准确性,解决了部分PDF文件字符内容无法提取的问题。
附图说明
图1是表示本发明思想的示意图;
图2是本发明的方法的步骤流程图;
图3是根据本发明的方法,提取PDF数据的具体步骤流程图;
图4是根据本发明的方法,结合OCR技术确认字符内容的具体步骤流程图;
图5是根据本发明的方法,对可靠的字符编码进行处理的具体步骤流程图。
具体实施方式
图1是表示本发明思想的示意图。如图1所示,通过对PDF文件进行信息的提取,获得PDF文档中文字的编码信息、文字的图像信息和文字的坐标信息,对文字的图像信息进行ORC识别,得到文字编码信息形式的识别结果,然后将文字的编码信息与识别结果进行综合决策得出可靠的文字编码信息,再结合文字的坐标信息等以特定版式和格式输出文字。
图2是本发明的方法的步骤流程图,下面结合该图详细解释本发明的方法。如图2所示,本发明的PDF文字提取方法结合了OCR技术,其包括步骤:
(201)PDF数据提取:提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号。
(202)结合OCR技术确认字符内容:基于步骤(201)中得到的字符的点阵图像数据进行字符的OCR识别,获得识别结果以及识别可信度,根据识别结果、识别可信度与步骤(201)中提取到的字符的第一编码,得到字符的第二编码。这里得到的字符的第二编码视为可靠的字符编码。
(203)对可靠的字符编码进行处理:对字符的第二编码进行有效的排序以及聚类操作,并根据需要进行版面重构;
(204)以正确的文件格式导出:根据字符的位置、字体和字号,导出经过步骤(3)处理的作为可靠的字符编码的字符的第二编码。例如以txt、doc或rtf等文件格式导出字符的第二编码。
具体地,图3是根据本发明的方法,提取PDF数据的具体步骤。如图3所示,提取PDF数据可以但不局限于包括:
(301)解析PDF文件结构并进行数据解码,根据页号获取相应页面的页面描述指令;
(302)分析页面描述指令,将页面描述指令中对文字的描述分解为对单个字符的描述;
(303)进行坐标变换和编码转换,提取单个字符的第一编码、位置、字体和字号,字符的第一编码可以采用Unicode编码的形式;
(304)按照设定的图像分辨率,将提取的字符的第一编码转换为字符点阵图像数据。
通过步骤(302)至(304),得到了PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号,还可以根据需要得出其它字符相关的信息。在下面根据字符的第一编码和点阵图像数据进一步获取可靠的字符编码,根据字符的位置、字体和字号等能够计算字符的位置以便于按正确的版面输出。
(305)如果页面描述指令中还有其他的待处理字符,则重复以上(303)、(304)步骤;如果没有待处理字符,则进行步骤(202)。
具体地,图4是根据本发明的方法,结合OCR技术确认字符内容的具体步骤,如图4所示,结合OCR技术确认字符内容可以但不局限于包括:
(401)用OCR技术识别字符的点阵图像数据,得到识别结果和识别可信度;
(402)将步骤(203)中得到的字符的第一编码与识别结果进行比对;
如果字符的第一编码与识别结果一致,则视为可靠的字符编码,即字符的第二编码;
如果字符的第一编码与识别结果不一致,则判断识别可信度是否高于预先设定的阈值,识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码,否则采用步骤(303)中得到的字符的第一编码作为字符的第二编码。识别可信度指的是识别正确的概率,通过计算点阵图像数据与字典数据之间的差异得到。识别可信度的高低可以通过将识别可信度与预先设置的阈值相比较,高于阈值视为识别可信度高。
具体地,图5是根据本发明的方法,对可靠的字符编码进行处理的具体步骤,如图5所示,对可靠的字符编码进行处理可以但不局限于包括:
(501)进行有效的排序:根据所述的字符的位置进行排序输出。
(502)进行聚类操作:根据所述的字符的位置、字体和字号,计算字符输出时所处的行、列和段落,使得解析或识别前位于同一块或同一段落的字符,在输出时依然保留原有的相对位置。
(503)进行版面重构:按照字符输出时所处的行、列和段落,输出每一个字符,并且与原有版面保持一致。
本实施例中,在字符计算机内码确认过程中结合OCR(Optical CharacterRecognition,光学字符识别)技术,通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息,有效提高了PDF文字提取的准确性,解决了部分PDF文件字符内容无法提取的问题。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (6)
1.一种结合OCR技术的PDF文字提取方法,其特征在于,该方法包括以下步骤:
(1)PDF数据提取:提取PDF文件中字符的第一编码、点阵图像数据、位置、字体和字号;
(2)结合OCR技术确认字符内容:基于字符的点阵图像数据进行字符的OCR识别,获得识别结果以及识别可信度,根据识别结果、识别可信度与步骤(1)中提取到的字符的第一编码,得到字符的第二编码;
(3)对字符的第二编码进行处理:对字符的第二编码进行排序以及聚类操作,并根据需要进行版面重构;
(4)根据字符的位置、字体和字号,导出经过步骤(3)处理的字符的第二编码。
2.如权利要求1所述的PDF文字提取方法,其特征在于,步骤(1)中PDF数据提取包括以下步骤:
(11)提取PDF页面描述指令:解析PDF文件结构并进行数据解码,根据页号获取相应页面的页面描述指令;
(12)分析页面描述指令:将页面描述指令中对文字的描述分解为对单个字符的描述,并提取单个字符的第一编码、位置、字体和字号;
(13)按照设定的图像分辨率,将提取的字符的第一编码转换为字符的点阵图像数据;
(14)如果页面描述指令中还有其他的待处理字符,则重复以上(12)、(13)步骤。
3.如权利要求2所述的PDF文字提取方法,其特征在于,步骤(2)中结合OCR技术确认字符内容包括以下步骤:
(21)用OCR技术识别字符的点阵图像数据,得到识别结果和识别可信度;
(22)将步骤(12)中得到的字符的第一编码与识别结果进行比对;
如果一致,将字符的第一编码视为字符的第二编码;
如果不一致,则判断识别可信度是否高于预先设定的阈值,识别可信度高于预先设定的阈值则采用OCR识别结果作为字符的第二编码。
4.如权利要求1所述的PDF文字提取方法,其特征在于,步骤(3)中进行有效的排序是根据所述的字符的位置进行排序输出。
5.如权利要求4所述的PDF文字提取方法,其特征在于,步骤(3)中进行聚类操作是根据所述的字符的位置、字体和字号,计算字符输出时所处的行、列和段落,使得解析或识别前位于同一块或同一段落的字符,在输出时依然保留原有的相对位置。
6.如权利要求5所述的PDF文字提取方法,其特征在于,步骤(3)中进行版面重构是按照字符输出时所处的行、列和段落,输出每一个字符,并且与原有版面保持一致。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100768091A CN101782896B (zh) | 2009-01-21 | 2009-01-21 | 结合ocr技术的pdf文字提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100768091A CN101782896B (zh) | 2009-01-21 | 2009-01-21 | 结合ocr技术的pdf文字提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101782896A true CN101782896A (zh) | 2010-07-21 |
CN101782896B CN101782896B (zh) | 2011-11-30 |
Family
ID=42522896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100768091A Active CN101782896B (zh) | 2009-01-21 | 2009-01-21 | 结合ocr技术的pdf文字提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101782896B (zh) |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101980133A (zh) * | 2010-10-29 | 2011-02-23 | 方正国际软件有限公司 | 双层电子文件文本选择区域偏差的检测方法和系统 |
CN101984419A (zh) * | 2010-10-21 | 2011-03-09 | 优视科技有限公司 | 用于对网页图片内容进行段落重排的方法及装置 |
CN103092957A (zh) * | 2013-01-18 | 2013-05-08 | 百度在线网络技术(北京)有限公司 | 基于网络的文摘信息提供方法、系统、移动终端和服务器 |
CN103136166A (zh) * | 2011-12-01 | 2013-06-05 | 北大方正集团有限公司 | 字体确定方法和设备 |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN104346616A (zh) * | 2013-08-09 | 2015-02-11 | 北大方正集团有限公司 | 字符识别装置和字符识别方法 |
CN104463153A (zh) * | 2013-09-25 | 2015-03-25 | 北大方正集团有限公司 | 一种提高版式文档中字符识别率的方法和系统 |
CN105404683A (zh) * | 2015-11-30 | 2016-03-16 | 北大方正集团有限公司 | 一种版式文档处理方法及装置 |
CN105843783A (zh) * | 2016-03-21 | 2016-08-10 | 哈尔滨工程大学 | 一种面向网络流传输的中文pdf文件文本内容提取方法 |
CN105893912A (zh) * | 2014-10-29 | 2016-08-24 | 北京节点通网络技术有限公司 | 直接标记字符检测方法 |
CN105988975A (zh) * | 2014-08-18 | 2016-10-05 | 葆光信息有限公司 | 自动切割章节方法 |
CN106960206A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 字符识别方法和字符识别系统 |
CN107145859A (zh) * | 2017-05-04 | 2017-09-08 | 北京小米移动软件有限公司 | 电子书转换处理方法、装置及计算机可读存储介质 |
CN107203763A (zh) * | 2016-03-18 | 2017-09-26 | 北大方正集团有限公司 | 文字识别方法和装置 |
CN108038093A (zh) * | 2017-11-10 | 2018-05-15 | 万兴科技股份有限公司 | Pdf文字提取方法和装置 |
CN109447055A (zh) * | 2018-10-17 | 2019-03-08 | 甘肃万维信息技术有限责任公司 | 一种基于ocr字形相近文字识别方法 |
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN109739981A (zh) * | 2018-12-17 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种pdf文件类别判定方法及文字提取方法 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN114529930A (zh) * | 2022-01-13 | 2022-05-24 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004078672A (ja) * | 2002-08-20 | 2004-03-11 | Canon Inc | 検索可能な文書フォーマットでのスキャン装置 |
CN100363945C (zh) * | 2005-08-10 | 2008-01-23 | 北京北大方正电子有限公司 | 一种基于预览图的彩色页面快速识别的方法 |
JP4482536B2 (ja) * | 2006-03-29 | 2010-06-16 | 京セラミタ株式会社 | 画像形成装置 |
-
2009
- 2009-01-21 CN CN2009100768091A patent/CN101782896B/zh active Active
Cited By (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101984419A (zh) * | 2010-10-21 | 2011-03-09 | 优视科技有限公司 | 用于对网页图片内容进行段落重排的方法及装置 |
CN101984419B (zh) * | 2010-10-21 | 2013-08-28 | 优视科技有限公司 | 用于对网页图片内容进行段落重排的方法及装置 |
CN101980133B (zh) * | 2010-10-29 | 2012-07-04 | 方正国际软件有限公司 | 双层电子文件文本选择区域偏差的检测方法和系统 |
CN101980133A (zh) * | 2010-10-29 | 2011-02-23 | 方正国际软件有限公司 | 双层电子文件文本选择区域偏差的检测方法和系统 |
CN103136166B (zh) * | 2011-12-01 | 2015-06-17 | 北大方正集团有限公司 | 字体确定方法和设备 |
CN103136166A (zh) * | 2011-12-01 | 2013-06-05 | 北大方正集团有限公司 | 字体确定方法和设备 |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
CN103092957A (zh) * | 2013-01-18 | 2013-05-08 | 百度在线网络技术(北京)有限公司 | 基于网络的文摘信息提供方法、系统、移动终端和服务器 |
CN104063364A (zh) * | 2013-03-19 | 2014-09-24 | 福建福昕软件开发股份有限公司北京分公司 | 一种pdf文档识别方法 |
CN104346616A (zh) * | 2013-08-09 | 2015-02-11 | 北大方正集团有限公司 | 字符识别装置和字符识别方法 |
CN104346616B (zh) * | 2013-08-09 | 2017-12-12 | 北大方正集团有限公司 | 字符识别装置和字符识别方法 |
CN104463153A (zh) * | 2013-09-25 | 2015-03-25 | 北大方正集团有限公司 | 一种提高版式文档中字符识别率的方法和系统 |
CN104463153B (zh) * | 2013-09-25 | 2018-09-04 | 北大方正集团有限公司 | 一种提高版式文档中字符识别率的方法和系统 |
CN105988975A (zh) * | 2014-08-18 | 2016-10-05 | 葆光信息有限公司 | 自动切割章节方法 |
CN105893912A (zh) * | 2014-10-29 | 2016-08-24 | 北京节点通网络技术有限公司 | 直接标记字符检测方法 |
CN105404683A (zh) * | 2015-11-30 | 2016-03-16 | 北大方正集团有限公司 | 一种版式文档处理方法及装置 |
CN107203763B (zh) * | 2016-03-18 | 2020-03-06 | 北大方正集团有限公司 | 文字识别方法和装置 |
CN107203763A (zh) * | 2016-03-18 | 2017-09-26 | 北大方正集团有限公司 | 文字识别方法和装置 |
CN105843783A (zh) * | 2016-03-21 | 2016-08-10 | 哈尔滨工程大学 | 一种面向网络流传输的中文pdf文件文本内容提取方法 |
CN106960206A (zh) * | 2017-02-08 | 2017-07-18 | 北京捷通华声科技股份有限公司 | 字符识别方法和字符识别系统 |
CN107145859A (zh) * | 2017-05-04 | 2017-09-08 | 北京小米移动软件有限公司 | 电子书转换处理方法、装置及计算机可读存储介质 |
CN108038093A (zh) * | 2017-11-10 | 2018-05-15 | 万兴科技股份有限公司 | Pdf文字提取方法和装置 |
CN108038093B (zh) * | 2017-11-10 | 2021-06-15 | 深圳市亿图软件有限公司 | Pdf文字提取方法和装置 |
CN109492199A (zh) * | 2018-10-17 | 2019-03-19 | 四川译讯信息科技有限公司 | 一种基于ocr预判断的pdf文件转换方法 |
CN109447055A (zh) * | 2018-10-17 | 2019-03-08 | 甘肃万维信息技术有限责任公司 | 一种基于ocr字形相近文字识别方法 |
CN109447055B (zh) * | 2018-10-17 | 2022-05-03 | 中电万维信息技术有限责任公司 | 一种基于ocr字形相近文字识别方法 |
CN109739981A (zh) * | 2018-12-17 | 2019-05-10 | 四川译讯信息科技有限公司 | 一种pdf文件类别判定方法及文字提取方法 |
CN113033269A (zh) * | 2019-12-25 | 2021-06-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN113033269B (zh) * | 2019-12-25 | 2023-08-25 | 华为技术服务有限公司 | 一种数据处理方法及装置 |
CN114529930A (zh) * | 2022-01-13 | 2022-05-24 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
CN114529930B (zh) * | 2022-01-13 | 2024-03-01 | 上海森亿医疗科技有限公司 | 基于非标准映射字体的pdf修复方法、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101782896B (zh) | 2011-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101782896B (zh) | 结合ocr技术的pdf文字提取方法 | |
CN108415887B (zh) | 一种pdf文件向ofd文件转化的方法 | |
CN107622230B (zh) | 一种基于区域识别与分割的pdf表格数据解析方法 | |
Ray Choudhury et al. | An architecture for information extraction from figures in digital libraries | |
US8175388B1 (en) | Recognizing text at multiple orientations | |
CN101441713B (zh) | 一种pdf文件的光学字符识别方法及装置 | |
CN104732228B (zh) | 一种pdf文档乱码的检测、校正的方法 | |
RU2631168C2 (ru) | Способы и устройства, которые преобразуют изображения документов в электронные документы с использованием trie-структуры данных, содержащей непараметризованные символы для определения слов и морфем на изображении документа | |
CN101996160B (zh) | 一种字体数据的处理方法及系统 | |
US8340425B2 (en) | Optical character recognition with two-pass zoning | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
JPH05307638A (ja) | ビットマップ・イメージ・ドキュメントのコード化データへの変換方法 | |
US20220108556A1 (en) | Method of comparing documents, electronic device and readable storage medium | |
RU2643465C2 (ru) | Устройства и способы, которые используют иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы | |
EP1894144A2 (en) | Grammatical parsing of document visual structures | |
JP5664174B2 (ja) | 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法 | |
US20150235097A1 (en) | Segmentation of an Input by Cut Point Classification | |
CN108038093B (zh) | Pdf文字提取方法和装置 | |
CN106372053B (zh) | 句法分析的方法和装置 | |
Clausner et al. | Efficient ocr training data generation with aletheia | |
Nayak et al. | Odia characters recognition by training tesseract OCR engine | |
Din et al. | Line and ligature segmentation in printed Urdu document images | |
RU2625533C1 (ru) | Устройства и способы, которые строят иерархически упорядоченную структуру данных, содержащую непараметризованные символы, для преобразования изображений документов в электронные документы | |
Chaudhuri et al. | An approach for recognition and interpretation of mathematical expressions in printed document | |
US20150186738A1 (en) | Text Recognition Based on Recognition Units |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220520 Address after: 430014 No. 28, Jiangda Road, Jiang'an District, Wuhan City, Hubei Province Patentee after: Wuhan Rongguan Technology Development Co.,Ltd. Address before: 100193, No. 5, building 8, No. three northeast Wang Xi Road, Beijing, Haidian District Patentee before: HANWANG TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |