CN110263740A - 基于ocr技术的不同类型印刷体文档转录方法 - Google Patents

基于ocr技术的不同类型印刷体文档转录方法 Download PDF

Info

Publication number
CN110263740A
CN110263740A CN201910558404.5A CN201910558404A CN110263740A CN 110263740 A CN110263740 A CN 110263740A CN 201910558404 A CN201910558404 A CN 201910558404A CN 110263740 A CN110263740 A CN 110263740A
Authority
CN
China
Prior art keywords
picture
text
block letter
document
ocr technique
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910558404.5A
Other languages
English (en)
Inventor
吴信朝
李开宇
翟恩荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan XW Bank Co Ltd
Original Assignee
Sichuan XW Bank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan XW Bank Co Ltd filed Critical Sichuan XW Bank Co Ltd
Priority to CN201910558404.5A priority Critical patent/CN110263740A/zh
Publication of CN110263740A publication Critical patent/CN110263740A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及基于OCR技术的不同类型印刷体文档转录方法,包括:A.通过图片转换工具将不同类型的印刷体文档转成相同格式的图片;B.对所述图片进行行投影,通过OCR技术对图片中的文本行进行切分和预处理;C.通过OCR技术对步骤B切分出的所有文本行分别进行文字识别;D.将识别出的文字按照文本行的切分顺序组合成完整文档。本发明基于OCR技术的不同类型印刷体文档转录方法,能够通过统一的方式对各种不同类型的印刷体文档进行字符转录,不需要多种转录工具包,极大的提高了转录效率和转录的便捷程度,同时也明显提高了转录的准确性。

Description

基于OCR技术的不同类型印刷体文档转录方法
技术领域
本发明涉及图像识别的方法,具体讲是基于OCR技术的不同类型印刷体文档转录方法。
背景技术
在实际应用中,有很多时候都需要把图片、pdf文件、word\wps\xml等中的文字转录成字符串保存下来,如果依靠人工录入,需要花费大量的时间和精力,并且随着打字人员的疲劳加深,出错率也会增高。因此自动转录系统应运而生了。
当前,对不同的数据源有专门对应的工具包用来转录文字,例如通过第三方工具解析进行转录,工具包有tabula、pdfminer、pdf2htmlEX、python-docx和xlrd等。这些工具包的一个共有特点是:数据源文件类型和工具包一一对应。一个工具包只能解决一种类型的文档,如果有其他新的数据源文件需要转录则要安装其对应的工具包。
因此很明显,现有的转录方式的不足包括了:
(1)工具包不统一,当遇到不同类型的文件则需要安装对应的工具包,非常繁琐不便。
(2)当文件中的表格是插入的图片时,通过工具包没有办法解析表格及其中的内容。
(3)当遇到图片格式时,没有办法解析图表。
(4)当工具包和被转录文档的格式不兼容时,解析失败。
发明内容
本发明提供了一种基于OCR技术的不同类型印刷体文档转录方法,以对各种不同类型的印刷体文档进行统一方式的字符转录,提高工作效率和转录的便捷程度。
本发明基于OCR技术的不同类型印刷体文档转录方法,包括:
A.通过图片转换工具将不同类型的印刷体文档转成相同格式的图片;
B.对所述图片进行行投影,通过OCR(光学字符识别)技术对图片中的文本行进行切分和预处理;
C.通过OCR技术对步骤B切分出的所有文本行分别进行文字识别;
D.将识别出的文字按照文本行的切分顺序组合成完整文档。
目前在常见的OCR(光学字符识别)技术主要有:基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等。通过OCR技术可以识别出图片中的文字信息,因此可以先通过现有的图片转换工具将印刷体文档统一转换成相同格式图片,如png、jpg格式等,然后通过OCR对其中的字符进行识别。通过这种方式便不需要对各种类型的印刷体文档准备相对应的转换工具包了,并且也可以对其中的表格、图片信息进行识别转录,极大的提高了便携性和准确性。
进一步的,步骤A中,对多页的印刷体文档每页转换的图片按统一格式进行命名,这样便于对多页的印刷体文档统一管理,避免混乱。
优选的,所述的统一格式中包括原文档名和当前页码数,这种方式直观、简单,能够方便对图片页张的归属进行识别。
进一步的,步骤B所述的预处理包括:
B1.根据所述的行投影,剪切掉行图片上边沿和下边沿的空白部分;
B2.对所述图片进行列投影,根据列投影,剪切掉行图片的左边沿和右边沿的空白部分。
以去掉图片中与专利的文档信息无关的空白内容。
本发明基于OCR技术的不同类型印刷体文档转录方法,能够通过统一的方式对各种不同类型的印刷体文档进行字符转录,不需要多种转录工具包,极大的提高了转录效率和转录的便捷程度,同时也明显提高了转录的准确性。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明基于OCR技术的不同类型印刷体文档转录方法的流程图。
具体实施方式
如图1所示本发明基于OCR技术的不同类型印刷体文档转录方法,包括:
A.通过常见的图片转换工具将不同类型的印刷体文档转成相同格式的图片,如png、jpg格式等。对多页的印刷体文档每页转换的图片按统一格式进行命名,例如“原文档名”+“当前页码数”,这样能够直观、简单、方便的对图片页张的归属进行识别,也避免了对多页的印刷体文档的管理混乱。
B.对所述图片进行行投影,通过OCR(光学字符识别)技术对图片中的文本行进行切分和预处理。目前在常见的OCR(光学字符识别)技术主要有:基于监督学习的文字分类、cnn(卷积神经网络)和CRNN+CTC等。所述的预处理包括:
B1.根据所述的行投影,剪切掉行图片上边沿和下边沿的空白部分;
B2.对所述图片进行列投影,根据列投影,剪切掉行图片的左边沿和右边沿的空白部分。通过以上方式去掉图片中与专利的文档信息无关的空白内容。
C.通过OCR技术对步骤B切分出的所有文本行分别进行文字识别。
D.将识别出的文字按照文本行的切分顺序组合成完整文档。
通过这种方式不需要对各种类型的印刷体文档准备相对应的转换工具包,并且也可以对其中的表格、图片信息进行识别转录,极大的提高了便携性和准确性,同时还提高了文档转录的扩展性。

Claims (4)

1.基于OCR技术的不同类型印刷体文档转录方法,其特征包括:
A.通过图片转换工具将不同类型的印刷体文档转成相同格式的图片;
B.对所述图片进行行投影,通过OCR技术对图片中的文本行进行切分和预处理;
C.通过OCR技术对步骤B切分出的所有文本行分别进行文字识别;
D.将识别出的文字按照文本行的切分顺序组合成完整文档。
2.如权利要求1所述的基于OCR技术的不同类型印刷体文档转录方法,其特征为:步骤A中,对多页的印刷体文档每页转换的图片按统一格式进行命名。
3.如权利要求2所述的基于OCR技术的不同类型印刷体文档转录方法,其特征为:所述的统一格式中包括原文档名和当前页码数。
4.如权利要求1所述的基于OCR技术的不同类型印刷体文档转录方法,其特征为:步骤B所述的预处理包括:
B1.根据所述的行投影,剪切掉行图片上边沿和下边沿的空白部分;
B2.对所述图片进行列投影,根据列投影,剪切掉行图片的左边沿和右边沿的空白部分。
CN201910558404.5A 2019-06-26 2019-06-26 基于ocr技术的不同类型印刷体文档转录方法 Pending CN110263740A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910558404.5A CN110263740A (zh) 2019-06-26 2019-06-26 基于ocr技术的不同类型印刷体文档转录方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910558404.5A CN110263740A (zh) 2019-06-26 2019-06-26 基于ocr技术的不同类型印刷体文档转录方法

Publications (1)

Publication Number Publication Date
CN110263740A true CN110263740A (zh) 2019-09-20

Family

ID=67921615

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910558404.5A Pending CN110263740A (zh) 2019-06-26 2019-06-26 基于ocr技术的不同类型印刷体文档转录方法

Country Status (1)

Country Link
CN (1) CN110263740A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705515A (zh) * 2019-10-18 2020-01-17 山东健康医疗大数据有限公司 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN110927184A (zh) * 2019-11-15 2020-03-27 扬州迪飞特测控设备有限公司 芯片封装缺陷的视觉检测方法
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106778586A (zh) * 2016-12-08 2017-05-31 武汉理工大学 离线手写签名鉴别方法及系统
CN107506341A (zh) * 2017-08-30 2017-12-22 深圳市览网络股份有限公司 文件转换方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106778586A (zh) * 2016-12-08 2017-05-31 武汉理工大学 离线手写签名鉴别方法及系统
CN107506341A (zh) * 2017-08-30 2017-12-22 深圳市览网络股份有限公司 文件转换方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110705515A (zh) * 2019-10-18 2020-01-17 山东健康医疗大数据有限公司 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN110927184A (zh) * 2019-11-15 2020-03-27 扬州迪飞特测控设备有限公司 芯片封装缺陷的视觉检测方法
CN111339910A (zh) * 2020-02-24 2020-06-26 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置
CN111339910B (zh) * 2020-02-24 2023-11-28 支付宝实验室(新加坡)有限公司 文本的处理、文本分类模型的训练方法及装置

Similar Documents

Publication Publication Date Title
CN110263740A (zh) 基于ocr技术的不同类型印刷体文档转录方法
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN101221530B (zh) 一种测试用例自动导入方法
IES20020647A2 (en) A data quality system
CN110083580B (zh) 一种Word文档向PowerPoint文档转换的方法及系统
CN109817210A (zh) 语音写作方法、装置、终端和存储介质
CN111178079B (zh) 一种三元组抽取方法及装置
CN112114771A (zh) 一种演示文稿播放控制方法和装置
CN108664973A (zh) 文本处理方法和装置
CN110390082A (zh) 一种通信矩阵对比方法及系统
WO2011074942A1 (en) System and method of converting data from a multiple table structure into an edoc format
CA2900532C (en) User interface operation based on similar spelling of tokens in text
US10318590B2 (en) User interface operation based on token frequency of use in text
CN113033162A (zh) 一种可控制编辑规则的电子文档转换方法
CN106021359A (zh) Cad文件的修改方法及装置
CN110825874A (zh) 一种中文文本分类方法和装置及计算机可读存储介质
CN106991083A (zh) 一种电子文档处理的方法及装置
CN103678424A (zh) 一种文档校对的方法和装置
CN104866607A (zh) 一种东巴文释读数据库建立方法
CN111967274A (zh) 标签转换处理方法、装置、电子设备及可读存储介质
CN105808783B (zh) 一种不同域名格式的大文件数据差异性分析方法
US20200117852A1 (en) Method for tracking in office file conversion and modification processes
CN111178016A (zh) 一种用于协同编辑及生成文档的方法
CN109446308A (zh) 一种辅助快速写稿的系统
CN110232182A (zh) 语义识别方法、装置和语音对话系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190920