CN108121966A - 一种基于ocr技术的表单自动录入方法、电子设备和存储介质 - Google Patents

一种基于ocr技术的表单自动录入方法、电子设备和存储介质 Download PDF

Info

Publication number
CN108121966A
CN108121966A CN201711396731.2A CN201711396731A CN108121966A CN 108121966 A CN108121966 A CN 108121966A CN 201711396731 A CN201711396731 A CN 201711396731A CN 108121966 A CN108121966 A CN 108121966A
Authority
CN
China
Prior art keywords
list
image
character
cell
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711396731.2A
Other languages
English (en)
Inventor
陈礼豪
李磊
方维亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
European Puzhi Ltd By Share Ltd
Original Assignee
European Puzhi Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by European Puzhi Ltd By Share Ltd filed Critical European Puzhi Ltd By Share Ltd
Priority to CN201711396731.2A priority Critical patent/CN108121966A/zh
Publication of CN108121966A publication Critical patent/CN108121966A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/174Form filling; Merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于OCR技术的表单自动录入的方法、装置、电子设备和存储介质,通过对待录入的表单进行扫描获得该表单的电子图像,然后把表单的电子图像进行单元格内的连续文字块选定和图像优化,之后对单元格内的连续文字块进行切割获得单个文字图像并对这些切割获得的文字图像进行基于OCR技术的文字识别,最后把识别结果填充至该表单的对应电子模板内。本发明与传统的人工录入表单能有效降低用时,提高录入效率,为企业节省成本。

Description

一种基于OCR技术的表单自动录入方法、电子设备和存储介质
技术领域
本发明涉及图像识别领域,尤其涉及一种基于OCR技术的表单自动录入方法、电子设备和存储介质。
背景技术
OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。
企业的货物交易一般通过表单作为商品交易的记录凭证,传统的表单需要存档时,需要员工对着表单的每个单元格的内容进行人工录入,但是传统的人工录入表单耗时较长,效率不高。
发明内容
为解决上述的问题,本发明的目的之一在于提供了一种基于OCR技术的表单自动录入方法,其能解决人工录入表单耗时高的问题。
本发明目的之二提供了一种装置,其能解决人工录入表单耗时高的问题。
本发明的目的之三在于提供一种电子设备,其能解决人工录入表单耗时高的问题。
本发明的目的之四在于提供一种可读存储介质,其能解决人工录入表单耗时高的问题计算机。
本发明的目的之一采用如下技术方案实现:
一种基于OCR技术的表单自动录入方法,包括以下步骤:
扫描表单步骤:对纸质表单进行扫描获得待录入表单的图像;
表单图像预处理步骤:划分待录入表单的图像里每个单元格的文字块图像区域,并切割所述文字块图像区域获得多个单独的文字图像;
文字识别步骤:利用OCR技术对多个通过所述表单图像预处理步骤获得的文字进行识别;
表单文字还原步骤:将识别结果以字符形式自动填充至待录入表单的电子模板内。
进一步地,所述表单图像预处理步骤包括以下子步骤:
图像缩放步骤:对待录入表单的图像缩放至该表单充斥于整个图像窗口;
表单轮廓选定步骤:对表单的四个顶点和四条边线选定后进行矩形变换;
单元格轮廓选定步骤:对表单的单元格线条选定后分割出单独的单元格,并对每一个单元格进行矩形变换;
文字切割步骤:寻找单元格内的连续文字块图像,若该连续文字块图像长度大于设定值,则判定该连续文字块图像由两个以上的字符组成,并对该连续文字块图像进行切割获得单个文字图像。
进一步地,所述文字识别步骤包括以下子步骤:
中文字库识别步骤:把每个通过切割获得的所述文字图像导入中文字库进行识别;
英文字库识别步骤:把每个通过切割获得的所述文字图像导入英文字库进行识别;
对比结果择优步骤:将所述中文字库识别步骤和所述英文字库识别步骤两者的识别结果进行对比,选取与待录入表单内容逻辑相符合的字符作为识别结果。
进一步地,如所述单元格轮廓选定步骤和所述文字切割步骤之间还包括以下步骤:
灰度修正步骤:利用加权平均算法对文字图像的R、G、B分量进行灰度修正,加权平均算法的公式为:
0.2989R+0.5870G+0.1140B;
图像二值化步骤:把文字块图像的像素点的灰度值设置为黑色或白色,前景信息为黑色,背景信息为白色。
本发明的目的之二采用如下技术方案实现:
一种基于OCR技术的表单自动录入装置,所述装置包括以下模块:
表单扫描模块:用于对待录入的纸质表单进行扫描以获得该表单的电子图像;
表单图像预处理模块:用于减少所述电子图像的无用特征并选定文字块图像区域,从选定的文字块图像区域内切割出单独的文字;
OCR文字识别模块:该模块通过OCR技术对所述表单图像预处理模块切割获得的文字进行识别;
字符填充模块:将识别结果以字符形式自动填充至待录入表单的电子模板内。
进一步地,所述表单图像预处理模块还包括以下子模块:
选定模块:用于选定待录入表单的轮廓和表单内单元格的轮廓,并在选定后对二者的轮廓进行优化处理;
二值化处理模块:用于把每个单元格内的文字块图像灰度进行优化并把该文字块图像的背景像素调整为黑色,文字轮廓像素调整为白色;
文字切割模块:用于寻找单元格内的连续文字块,若该连续文字块长度大于设定值,则判定该连续文字块由两个以上的字符组成,并对该连续文字块进行切割获得单个文字图像。
进一步地,所述OCR文字识别模块还包括对比模块,所述对比模块用于把对多个对比结果进行择优,选取与表单内容逻辑相符合的字符作为识别结果。
本发明的目的之三采用如下技术方案实现:
一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上面所述的方法。
本发明的目的之四采用如下技术方案实现:
一种计算机可读存储介质,其上存储计算机程序,该程序被处理器执行所述程序时实现上面所述的方法。
相比现有技术,本发明的有益效果在于:
本发明公开的一种基于OCR技术的表单自动录入方法、电子设备和存储介质,通过扫描待录入的纸质表单获得表单图像,然后对表单图像的色彩优化处理,之后对该表单图像的每个单元格的连续文字块进行切割获得单个文字图像,最后利用OCR技术对该文字进行识别,并把识别结果自动填充至该表单的电子模板内,本发明与传统的人工录入表单能有效降低用时,提高录入效率,为企业节省成本。
附图说明
图1是一种基于OCR技术的表单自动录入的装置原理框图;
图2是本发明的二值化处理效果图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
实施例一
如图1所示,本发明公开了一种基于OCR技术的表单自动录入的装置,一种基于OCR技术的表单自动录入装置,装置包括以下模块:
表单扫描模块:用于对待录入的纸质表单进行扫描以获得该表单的电子图像。
表单图像预处理模块:用于减少电子图像的无用特征并选定文字块图像区域,从选定的文字块图像区域内切割出单独的文字。表单图像预处理模块还包括以下子模块。选定模块:用于选定待录入表单的轮廓和表单内单元格的轮廓,并在选定后对二者的轮廓进行优化处理。二值化处理模块:用于把每个单元格内的文字块图像转化为只呈现黑色和白色的视觉效果。
文字切割模块:用于寻找单元格内的连续文字块,若该连续文字块长度大于设定值,则判定该连续文字块由两个以上的字符组成,并对该连续文字块进行切割获得单个文字图像。
OCR文字识别模块:该模块通过OCR技术对所述表单图像预处理模块切割获得的文字进行识别。
对比模块:用于把对多个对比结果进行择优,选取与表单内容逻辑相符合的字符作为识别结果。
字符填充模块:将识别结果以字符形式自动填充至待录入表单的电子模板。
进一步而言,本发明所公开的装置执行一种基于OCR技术的表单自动录入的方法,包括以下步骤:
扫描表单步骤:通过扫描仪对待录入的纸质表单进行扫描后获得待录入表单的电子图像。
表单图像预处理步骤:划分待录入表单的图像里每个单元格的文字块图像区域,并切割文字块图像区域获得多个单独的文字,该步骤包括以下子步骤:
图像缩放步骤:为了降低通过扫描获得的表单图像内其他无用特征对识别结果的影响,需要对表单图像进行缩放,使该表单图像缩放至整个图像窗口,把无用特征裁剪至图像窗口外。
表单轮廓选定步骤:缩放后的表单图像需要对该表单图像的倾斜进行消除,使其在图像窗口内处于平铺状态,通过对表单的四个顶点和四条边线选定后进行矩形变换使其转化为平铺状态以有助于识别步骤的进行。
单元格轮廓选定步骤:每个表单都包含若干个单元格以记录并区分不同类型的内容,需要对表单的每个单元格的线条进行选定,并把这些挤在一个表单内的所有单元格进行分割,从而获得单独的一个单元格,对分割出的每一个单元格进行矩形变换以有助于识别步骤的进行。
进一步而言,对单元格进行选定后,为了将单元格内的背景信息与所需要的文字信息进行分离,需要执行以下步骤:
字灰度修正步骤:对文字图像的R、G、B分量进行加权平均算法:
0.2989R+0.5870G+0.1140B;
图像二值化步骤:把文字图像的像素点的灰度值设置为黑色或白色,前景信息为黑色,背景信息为白色,经过上述步骤获得的文字块图像视觉效果如图2 所示。
文字切割步骤:寻找单元格内的连续文字块图像,若该连续文字块图像长度大于设定值,则判定该连续文字块图像由两个以上的字符组成,并对该连续文字块图像进行切割获得单个文字图像。
文字识别步骤:利用OCR技术对多个通过所述表单图像预处理步骤获得的文字进行识别,该步骤还包括以下子步骤:
中文字库识别步骤:把每个通过切割获得的文字图像导入中文字库进行识别,该中文字库囊括使用者所处行业的表单出现频率较高的字体。
英文字库识别步骤:把每个通过切割获得的所述文字图像导入英文字库进行识别,该英文字库囊括使用者所处行业的表单出现频率较高的字体。
对比结果择优步骤:由于OCR的识别率并无法达到完全正确,为了加强比对的正确性,需要对中文字库的识别结果和英文字库的识别结果进行择优。将所述中文字库识别步骤和所述英文字库识别步骤两者的识别结果通过欧式空间的比对方法、松弛比对法、动态程序比对法和类神经网络的数据库进行对比分析,利用比对后的识别文字与其可能的相似候选字群中,根据表单前后的识别内容中找出最合乎逻辑的字符,选取这个最合乎逻辑的字符作为识别结果。
表单文字还原步骤:将识别结果以字符形式自动填充至待录入表单的电子模板内,该电子模板根据使用者所处行业的表单进行设计,纸质表单的单元格标签都需要填写对应的内容,该模板已经设置好与纸质表单一模一样的标签,然后经过OCR技术获得的识别结果将自动作为内容填充至对应标签的内单元格内。
实施例二
实施例二公开了一种电子设备,该电子设备包括处理器、存储器以及程序,其中处理器和存储器均可采用一个或多个,程序被存储在存储器中,并且被配置成由处理器执行,处理器执行该程序时,实现实施例一的一种基于OCR技术的表单自动录入的方法。该电子设备可以是手机、电脑、平板电脑等等一系列的电子设备。
实施例三
实施例三公开了一种可读的计算机存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的一种基于OCR技术的表单自动录入的方法。
上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。

Claims (9)

1.一种基于OCR技术的表单自动录入方法,其特征在于,包括以下步骤:
扫描表单步骤:对纸质表单进行扫描获得待录入表单的图像;
表单图像预处理步骤:划分待录入表单的图像里每个单元格的文字块图像区域,并切割所述文字块图像区域获得多个单独的文字图像;
文字识别步骤:利用OCR技术对多个通过所述表单图像预处理步骤获得的文字进行识别;
表单文字还原步骤:将识别结果以字符形式自动填充至待录入表单的电子模板内。
2.如权利要求1所述的基于OCR技术的表单自动录入方法,其特征在于,所述表单图像预处理步骤包括以下子步骤:
图像缩放步骤:对待录入表单的图像缩放至该表单充斥于整个图像窗口;
表单轮廓选定步骤:对表单的四个顶点和四条边线选定后进行矩形变换;
单元格轮廓选定步骤:对表单的单元格线条选定后分割出单独的单元格,并对每一个单元格进行矩形变换;
文字切割步骤:寻找单元格内的连续文字块图像,若该连续文字块图像长度大于设定值,则判定该连续文字块图像由两个以上的字符组成,并对该连续文字块图像进行切割获得单个文字图像。
3.如权利要求1所述的基于OCR技术的表单自动录入方法,其特征在于,所述文字识别步骤包括以下子步骤:
中文字库识别步骤:把每个通过切割获得的所述文字图像导入中文字库进行识别;
英文字库识别步骤:把每个通过切割获得的所述文字图像导入英文字库进行识别;
对比结果择优步骤:将所述中文字库识别步骤和所述英文字库识别步骤两者的识别结果进行对比,选取与待录入表单内容逻辑相符合的字符作为识别结果。
4.如权利要求2所述的基于OCR技术的表单自动录入方法,其特征在于,所述单元格轮廓选定步骤和所述文字切割步骤之间还包括以下步骤:
灰度修正步骤:利用加权平均算法对文字图像的R、G、B分量进行灰度修正,加权平均算法的公式为:
0.2989R+0.5870G+0.1140B;
图像二值化步骤:把文字块图像的像素点的灰度值设置为黑色或白色,前景信息为黑色,背景信息为白色。
5.一种基于OCR技术的表单自动录入装置,其特征在于,所述装置包括以下模块:
表单扫描模块:用于对待录入的纸质表单进行扫描以获得该表单的电子图像;
表单图像预处理模块:用于减少所述电子图像的无用特征并选定文字块图像区域,从选定的文字块图像区域内切割出单独的文字;
OCR文字识别模块:该模块通过OCR技术对所述表单图像预处理模块切割获得的文字进行识别;
字符填充模块:将识别结果以字符形式自动填充至待录入表单的电子模板内。
6.如权利要求5所述的装置,其特征在于,所述表单图像预处理模块还包括以下子模块:
选定模块:用于选定待录入表单的轮廓和表单内单元格的轮廓,并在选定后对二者的轮廓进行优化处理;
二值化处理模块:用于把每个单元格内的文字块图像灰度进行优化并把该文字块图像的背景像素调整为黑色,文字轮廓像素调整为白色;
文字切割模块:用于寻找单元格内的连续文字块,若该连续文字块长度大于设定值,则判定该连续文字块由两个以上的字符组成,并对该连续文字块进行切割获得单个文字图像。
7.如权利要求5所述的装置,其特征在于:所述OCR文字识别模块还包括对比模块,所述对比模块用于把对多个对比结果进行择优,选取与表单内容逻辑相符合的字符作为识别结果。
8.一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现权利要求1-4任意一项所述的方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-4任意一项所述的方法。
CN201711396731.2A 2017-12-21 2017-12-21 一种基于ocr技术的表单自动录入方法、电子设备和存储介质 Pending CN108121966A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711396731.2A CN108121966A (zh) 2017-12-21 2017-12-21 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711396731.2A CN108121966A (zh) 2017-12-21 2017-12-21 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Publications (1)

Publication Number Publication Date
CN108121966A true CN108121966A (zh) 2018-06-05

Family

ID=62231090

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711396731.2A Pending CN108121966A (zh) 2017-12-21 2017-12-21 一种基于ocr技术的表单自动录入方法、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN108121966A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109145879A (zh) * 2018-09-30 2019-01-04 金蝶软件(中国)有限公司 一种打印字体识别的方法、设备及存储介质
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN109344831A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109583405A (zh) * 2018-12-06 2019-04-05 中国银行股份有限公司 一种信息录入方法及系统
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109858336A (zh) * 2018-12-21 2019-06-07 苏州道博环保技术服务有限公司 一种高效环保管理视觉识别系统
CN110348804A (zh) * 2019-06-19 2019-10-18 深圳壹账通智能科技有限公司 基于ai的订单录入方法、装置、计算机设备及存储介质
CN110427949A (zh) * 2019-07-31 2019-11-08 中国工商银行股份有限公司 表单校验的方法、装置、计算设备和介质
CN110705515A (zh) * 2019-10-18 2020-01-17 山东健康医疗大数据有限公司 一种基于ocr文字识别的医院纸质档案归档方法及系统
WO2020143325A1 (zh) * 2019-01-08 2020-07-16 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN111767818A (zh) * 2020-06-23 2020-10-13 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN112257396A (zh) * 2020-10-20 2021-01-22 浪潮云信息技术股份公司 一种基于人工智能技术的手机端辅助填表方法
CN112434508A (zh) * 2020-12-10 2021-03-02 清研灵智信息咨询(北京)有限公司 一种基于深度学习的研究报告自动生成方法
CN112464629A (zh) * 2019-09-09 2021-03-09 钉钉控股(开曼)有限公司 表单填写方法及装置
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质
CN113887277A (zh) * 2021-08-23 2022-01-04 福建数博讯信息科技有限公司 一种手持身份证阅读器及基于该装置信息采集与签到方法
CN114419303A (zh) * 2021-12-11 2022-04-29 麒麟软件有限公司 基于扫描软件的文字识别方法及扫描系统
CN114578961A (zh) * 2022-01-15 2022-06-03 广东睿盟计算机科技有限公司 基于动作录制的数据自动化录入系统
CN114783584A (zh) * 2022-03-09 2022-07-22 广州方舟信息科技有限公司 一种药品随货同行单的录单方法及装置

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344831A (zh) * 2018-08-22 2019-02-15 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109344831B (zh) * 2018-08-22 2024-04-05 中国平安人寿保险股份有限公司 一种数据表识别方法、装置及终端设备
CN109190629A (zh) * 2018-08-28 2019-01-11 传化智联股份有限公司 一种电子运单生成方法及装置
CN109145879A (zh) * 2018-09-30 2019-01-04 金蝶软件(中国)有限公司 一种打印字体识别的方法、设备及存储介质
CN109145879B (zh) * 2018-09-30 2021-01-12 金蝶软件(中国)有限公司 一种打印字体识别的方法、设备及存储介质
CN109583405A (zh) * 2018-12-06 2019-04-05 中国银行股份有限公司 一种信息录入方法及系统
CN109658062A (zh) * 2018-12-13 2019-04-19 广州华资软件技术有限公司 一种基于深度学习的电子档案智能处理方法
CN109858336A (zh) * 2018-12-21 2019-06-07 苏州道博环保技术服务有限公司 一种高效环保管理视觉识别系统
WO2020134991A1 (zh) * 2018-12-29 2020-07-02 益萃网络科技(中国)有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
WO2020143325A1 (zh) * 2019-01-08 2020-07-16 平安科技(深圳)有限公司 一种电子文档的生成方法及设备
CN110348804A (zh) * 2019-06-19 2019-10-18 深圳壹账通智能科技有限公司 基于ai的订单录入方法、装置、计算机设备及存储介质
CN110427949A (zh) * 2019-07-31 2019-11-08 中国工商银行股份有限公司 表单校验的方法、装置、计算设备和介质
CN112464629A (zh) * 2019-09-09 2021-03-09 钉钉控股(开曼)有限公司 表单填写方法及装置
CN112464629B (zh) * 2019-09-09 2024-01-16 钉钉控股(开曼)有限公司 表单填写方法及装置
CN110705515A (zh) * 2019-10-18 2020-01-17 山东健康医疗大数据有限公司 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN111767818A (zh) * 2020-06-23 2020-10-13 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN111767818B (zh) * 2020-06-23 2024-04-26 北京思特奇信息技术股份有限公司 一种业务智能受理的方法和装置
CN112257396A (zh) * 2020-10-20 2021-01-22 浪潮云信息技术股份公司 一种基于人工智能技术的手机端辅助填表方法
CN112434508A (zh) * 2020-12-10 2021-03-02 清研灵智信息咨询(北京)有限公司 一种基于深度学习的研究报告自动生成方法
CN113779065A (zh) * 2021-08-23 2021-12-10 深圳价值在线信息科技股份有限公司 数据比对的验证方法、装置、终端设备及介质
CN113887277A (zh) * 2021-08-23 2022-01-04 福建数博讯信息科技有限公司 一种手持身份证阅读器及基于该装置信息采集与签到方法
CN113887277B (zh) * 2021-08-23 2024-01-02 福建数博讯信息科技有限公司 一种手持身份证阅读器及基于该装置信息采集与签到方法
CN114419303A (zh) * 2021-12-11 2022-04-29 麒麟软件有限公司 基于扫描软件的文字识别方法及扫描系统
CN114578961A (zh) * 2022-01-15 2022-06-03 广东睿盟计算机科技有限公司 基于动作录制的数据自动化录入系统
CN114783584A (zh) * 2022-03-09 2022-07-22 广州方舟信息科技有限公司 一种药品随货同行单的录单方法及装置

Similar Documents

Publication Publication Date Title
CN108121966A (zh) 一种基于ocr技术的表单自动录入方法、电子设备和存储介质
US10970535B2 (en) System and method for extracting tabular data from electronic document
CN111401372B (zh) 一种扫描文档图文信息提取与鉴别的方法
Gatos et al. Automatic table detection in document images
EP2288135B1 (en) Deblurring and supervised adaptive thresholding for print-and-scan document image evaluation
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
Mehri et al. Texture feature benchmarking and evaluation for historical document image analysis
US9965871B1 (en) Multi-binarization image processing
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
CN109784342B (zh) 一种基于深度学习模型的ocr识别方法及终端
US7386171B2 (en) Activity detector
JP4494563B2 (ja) トークン化によるイメージ分割を用いたイメージ処理方法および装置
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
JPH03119486A (ja) 記入済書式に含まれている情報を記憶または伝送のために圧縮する方法
CN110766017B (zh) 基于深度学习的移动终端文字识别方法及系统
US10423851B2 (en) Method, apparatus, and computer-readable medium for processing an image with horizontal and vertical text
US10586125B2 (en) Line removal method, apparatus, and computer-readable medium
US10169650B1 (en) Identification of emphasized text in electronic documents
Belaïd et al. Handwritten and printed text separation in real document
CN109635805A (zh) 图像文本定位方法及装置、图像文本识别方法及装置
CN102737240A (zh) 分析数字文档图像的方法
US20240144711A1 (en) Reliable determination of field values in documents with removal of static field elements
Chakraborty et al. Marginal Noise Reduction in Historical Handwritten Documents--A Survey
Boiangiu et al. Methods of bitonal image conversion for modern and classic documents
CN112837329A (zh) 一种藏文古籍文档图像二值化方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination