CN102968638B - 基于关键字光学字符识别的影像清晰度判断的方法 - Google Patents

基于关键字光学字符识别的影像清晰度判断的方法 Download PDF

Info

Publication number
CN102968638B
CN102968638B CN201110255911.5A CN201110255911A CN102968638B CN 102968638 B CN102968638 B CN 102968638B CN 201110255911 A CN201110255911 A CN 201110255911A CN 102968638 B CN102968638 B CN 102968638B
Authority
CN
China
Prior art keywords
file
recognition
template
keyword
definition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201110255911.5A
Other languages
English (en)
Other versions
CN102968638A (zh
Inventor
黄火德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI SHARE SOFTWARE CO Ltd
Original Assignee
SHANGHAI SHARE SOFTWARE CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI SHARE SOFTWARE CO Ltd filed Critical SHANGHAI SHARE SOFTWARE CO Ltd
Priority to CN201110255911.5A priority Critical patent/CN102968638B/zh
Publication of CN102968638A publication Critical patent/CN102968638A/zh
Application granted granted Critical
Publication of CN102968638B publication Critical patent/CN102968638B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于关键字光学字符识别的影像清晰度判断的方法,包括:提供配置工具,对特定类型的电子文件配置识别的区域坐标、识别的文字结果、电子文件的基准点,形成识别模板库;识别客户端通过读取识别模板库信息,自动定位需要识别电子文件的关键字区域;识别客户端对指定的关键字区域进行光学字符识别OCR文字识别,得出识别结果与识别模板库配置进行对比,得出识别率;由识别率通过清晰度配置,得出电子文件的清晰度结果。本发明通过计算机光学字符识别OCR技术的自动化优势,代替人力,大大节省了人力成本,提高了服务效率;大大减少因为人为主观因素造成的检查结果的偏差;检查的结果量化度高,可为整体质量检查提供较为信服的依据。

Description

基于关键字光学字符识别的影像清晰度判断的方法
技术领域
本发明适用于纸质资料电子化领域,特别是海量纸质单据或者档案资料,需要对电子化的图像进行清晰度检查的时候。
背景技术
近年来,随着计算机等信息技术的发展,计算机在的日常工作中应用的越来越广泛。随着计算机硬件设备的普及,内部网络和外部骨干网络的不断的建立和完善,“无纸化办公”类软件的发展,现在无纸化办公的软硬件环境已经基本准备充分,越来越多的单位和企业采用了内部办公系统(OA系统)来提高效率,节约成本。新的办公系统启用之后,新产生的文档将采用电子化的方式,通过网络进行流转和使用,而庞大的历史资料和现有电子化系统的对接的问题越来越突出。随之,扫描加工外包服务应运而生,这个服务,可以使客户的历史纸质资料快速、准确、高性价比的成为电子档案。
海量纸质文档的电子化过程,需要投入大量的扫描仪、计算机、网络和生产人员、管理人员。在电子化的过程中,电子文件的清晰度至关重要。为了保证最终的加工质量,需要投入大量的质检人员进行清晰度的检查工作。由于质检人员的检查存在较大的主观因素,其检查结果会因人为因素产生偏差,将对产品的最终质量带来直接的影响;同时质检人员进行人工检查,会耗费大量的人力,直接拉高了电子化过程的成本。如何保证对电子文件清晰度的检查尽量不受人为因素的影响,最大的接近客观实际情况,并且最大程度节省人力成本,减少检查过程中人力的参与,成为海量纸质文档的电子化过程中关于影像清晰度检查的一大挑战。
发明内容
本发明所要解决的技术问题是提供一种基于基于关键字光学字符识别的影像清晰度判断的方法,它可以保证对电子文件清晰度的检查尽量不受人为因素的影响,最大的接近客观实际情况,并且最大程度节省人力成本,减少检查过程中人力的参与。
为了解决以上技术问题,本发明提供了一种基于关键字光学字符识别的影像清晰度判断的方法,包括:提供配置工具,对特定类型的电子文件配置识别的区域坐标、识别的文字结果、电子文件的基准点,形成识别模板库;识别客户端通过读取识别模板库信息,自动定位需要识别电子文件的关键字区域;识别客户端对指定的关键字区域进行光学字符识别OCR文字识别,得出识别结果与识别模板库配置进行对比,得出识别率;由识别率通过清晰度配置,得出电子文件的清晰度结果。
本发明的有益效果在于:通过计算机光学字符识别(OCR)技术的自动化优势,代替人力,大大节省了人力成本,提高了服务效率;大大减少因为人为主观因素造成的检查结果的偏差;检查的结果量化度高,可为整体质量检查提供较为信服的依据。
所述识别模板的配置中,包括:确定需要识别清晰度的电子文件的类型和标准的电子文件模板;对电子文件模板上的关键字区域进行框选,记录框选的位置坐标,并记录到对应的配置信息库中;将框选的关键字区域的文字内容,一并记录到配置信息库中;配置模板的基准点,使实际检查的电子文件与模板中框选的位置进行对应;定义清晰度的等级。
在识别的客户端中,实现过程如下:通过读取当前的电子文件描述信息,确认电子文件的类型;到识别模板库中读取对应电子文件类型的模板配置信息;通过基准点和识别模板库中框选区域坐标,确定当前电子文件需要光学字符识别(OCR)识别的区域;对选定的区域进行光学字符识别(OCR)识别,对识别的文字和识别模板库中配置的文字进行比较,得出其识别正确率;通过识别正确率得出电子文件的清晰度。
识别模板的配置包括以下步骤:步骤一、新建一个识别模板;步骤二、载入模板文件;步骤三、配置模板文件的基准点;步骤四、新建一个关键字识别区域;步骤五、框选识别区域,记录其坐标位置;步骤六、配置待识别的文字信息;步骤七、配置信息入配置信息库;步骤八、判断是否继续新建识别区域;如是,重复步骤四;如否,继续;步骤九、判断是否继续新建识别模板;如是,重复步骤一;如否,继续;结束。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细说明。
图1是本发明所述方法识别模板的配置示意图。
具体实施方式
本发明提供了一种高效、可靠且大大节省人力成本的电子化文件清晰度检查方法。将本软件部署在扫描加工服务的生产线上,可以无需人力干预,即可较为高效、迅速而客观的体现电子化文件的清晰度方面的质量情况。
本发明的基于光学字符识别(OCR)关键字文字识别的影像清晰度判断的方法主要由2个部分组成,分别为识别模板的配置和识别的客户端。
在识别模板的配置中,可以设置如下内容:
1、确定需要识别清晰度的电子文件的类型和标准的电子文件模板;
2、对电子文件模板上的关键字区域进行框选,记录框选的位置坐标,并记录到对应的配置信息库中;
3、将框选的关键字区域的文字内容,一并记录到配置信息库中;
4、可配置模板的基准点,方便实际检查的电子文件与模板中框选的位置进行对应;
5、定义清晰度的等级,如识别率100%为很清晰;90%-100%为清晰;80%-90%为较清晰;80%以下为不清晰。
在识别的客户端中,实现过程如下:
1、首先,通过读取当前的电子文件描述信息,确认电子文件的类型;
2、到识别模板库中读取对应电子文件类型的模板配置信息;
3、通过基准点和识别模板库中框选区域坐标,确定当前电子文件需要光学字符识别(OCR)识别的区域;
4、对选定的区域进行光学字符识别(OCR)识别,对识别的文字和识别模板库中配置的文字进行比较,得出其识别正确率;
5、通过识别正确率得出电子文件的清晰度。
本发明的具体的实施步骤如下:
1、安装识别模板的配置工具。
2、对识别模板库进行初始化,即:对需要进行关键字光学字符识别(OCR)识别的电子文件类型进行相应配置,确定其基准点、识别坐标、识别文字结果等。
3、安装客户端识别软件,挂接光学字符识别(OCR)文字识别引擎。
4、客户端识别软件,读取识别模板库信息,对电子文件进行识别,并得出电子文件的识别率,从而得到影像的清晰度。
本发明并不限于上文讨论的实施方式。以上对具体实施方式的描述旨在于为了描述和说明本发明涉及的技术方案。基于本发明启示的显而易见的变换或替代也应当被认为落入本发明的保护范围。以上的具体实施方式用来揭示本发明的最佳实施方法,以使得本领域的普通技术人员能够应用本发明的多种实施方式以及多种替代方式来达到本发明的目的。

Claims (3)

1.一种基于关键字光学字符识别的影像清晰度判断的方法,包括:
配置识别模板,对特定类型的电子文件配置识别的区域坐标、识别的文字结果、电子文件的基准点,形成识别模板库;
识别客户端通过读取识别模板库信息,自动定位需要识别电子文件的关键字区域;
识别客户端对指定的关键字区域进行光学字符识别文字识别,得出识别结果与识别模板库进行对比,得出识别率;
由清晰度通过识别率配置,得出电子文件的清晰度结果;其特征在于:识别模板的配置包括以下步骤:
步骤一、新建一个识别模板;
步骤二、载入模板文件;
步骤三、配置模板文件的基准点;
步骤四、新建一个关键字识别区域;
步骤五、框选识别区域,记录其坐标位置;
步骤六、配置待识别的文字信息;
步骤七、配置信息入配置信息库;
步骤八、判断是否继续新建识别区域;如是,重复步骤四;如否,继续;
步骤九、判断是否继续新建识别模板;如是,重复步骤一;如否,继续;
结束。
2.如权利要求1所述的基于关键字光学字符识别的影像清晰度判断的方法,其特征在于,所述识别模板的配置中,包括:
确定需要识别清晰度的电子文件的类型和标准的电子文件模板;
对电子文件模板上的关键字区域进行框选,记录框选的位置坐标,并记录到对应的配置信息库中;
将框选的关键字区域的文字信息,一并记录到配置信息库中;
配置模板的基准点,使实际检查的电子文件与模板中框选的位置进行对应;
定义清晰度的等级。
3.如权利要求1所述的基于关键字光学字符识别的影像清晰度判断的方法,其特征在于,在识别的客户端中,实现过程如下:
通过读取当前的电子文件描述信息,确认电子文件的类型;
到识别模板库中读取对应电子文件类型的模板配置信息;
通过基准点和识别模板库中框选区域坐标,确定当前电子文件需要光学字符识别的区域;
对选定的区域进行光学字符识别,对识别出的文字和识别模板库中配置的文字进行比较,得出其识别正确率;
根据识别正确率得出电子文件的清晰度等级。
CN201110255911.5A 2011-08-31 2011-08-31 基于关键字光学字符识别的影像清晰度判断的方法 Active CN102968638B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201110255911.5A CN102968638B (zh) 2011-08-31 2011-08-31 基于关键字光学字符识别的影像清晰度判断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201110255911.5A CN102968638B (zh) 2011-08-31 2011-08-31 基于关键字光学字符识别的影像清晰度判断的方法

Publications (2)

Publication Number Publication Date
CN102968638A CN102968638A (zh) 2013-03-13
CN102968638B true CN102968638B (zh) 2016-06-08

Family

ID=47798769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201110255911.5A Active CN102968638B (zh) 2011-08-31 2011-08-31 基于关键字光学字符识别的影像清晰度判断的方法

Country Status (1)

Country Link
CN (1) CN102968638B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105590111B (zh) * 2015-09-17 2019-05-10 中国银联股份有限公司 用于识别电子文件中的专用区域的方法
CN106446193A (zh) * 2016-09-29 2017-02-22 广州鹤互联网科技有限公司 一种签核文件管理方法及装置
CN106230994A (zh) * 2016-09-29 2016-12-14 广州鹤互联网科技有限公司 一种签核文件获取及上传方法、装置
CN107808154B (zh) * 2017-12-08 2021-03-30 上海慧银信息科技有限公司 提取收银票据信息的方法和装置
CN109918633B (zh) * 2019-03-06 2023-06-30 福建慧政通信息科技有限公司 一种信息快速填写方法及终端
CN112419257A (zh) * 2020-11-17 2021-02-26 深圳壹账通智能科技有限公司 文本录制视频清晰度检测方法、装置、计算机设备及存储介质
CN112990035B (zh) * 2021-03-23 2023-10-31 北京百度网讯科技有限公司 一种文本识别的方法、装置、设备以及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770569A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 基于ocr的菜名识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1482572A (zh) * 2003-06-27 2004-03-17 杭州信雅达系统工程股份有限公司 票据图象处理装置
CN102081732A (zh) * 2010-12-29 2011-06-01 方正国际软件有限公司 一种版式识别模板方法及系统

Also Published As

Publication number Publication date
CN102968638A (zh) 2013-03-13

Similar Documents

Publication Publication Date Title
CN102968638B (zh) 基于关键字光学字符识别的影像清晰度判断的方法
CN105654072B (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN109378052B (zh) 图像标注的预处理方法及系统
CN110472524B (zh) 基于深度学习的发票信息管理方法、系统和可读介质
CN1198236C (zh) 单据读出系统和单据读出方法
CN101060436A (zh) 一种用于通信设备的故障分析方法及装置
CN103617415A (zh) 一种自动识别发票的装置和方法
AU2014360023B2 (en) Automatic fault diagnosis method and device for sorting machine
CN110020417A (zh) 一种巡检报告生成方法
CN105787418A (zh) 原始凭证智能识别及识别信息自动生成单据的方法和装置
CN1719865A (zh) 图像处理系统及图像处理方法
CN109190611A (zh) 一种基于众包的互联网编修家谱系统
CN107590490A (zh) 发票的全票面信息获取方法、装置及计算机可读存储介质
CN107633201B (zh) 一种答题卡智能识别方法和系统
CN111369133A (zh) 一种大数据风险监测系统
CN102968627A (zh) 基于区域关键字位置识别的精确图像切分方法
CN101989322A (zh) 自动提取恶意代码内存特征的方法和系统
CN105718499A (zh) 地质资料数据清洗方法及系统
CN116798061A (zh) 一种票据审核识别方法、装置、终端和存储介质
CN111008635A (zh) 一种基于ocr的多票据自动识别方法及识别系统
CN104992136A (zh) 识别条形码的方法及装置
CN103699482A (zh) 控件合理性检测方法和装置
CN102955834A (zh) 基于条码位置识别的精确图像切分方法
CN114283442A (zh) 一种二次接线图智能识别方法、装置及存储介质
CN111104187A (zh) 一种基于接口聚合服务器的接口聚合方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant