CN110490181A - 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 - Google Patents

一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 Download PDF

Info

Publication number
CN110490181A
CN110490181A CN201910750982.9A CN201910750982A CN110490181A CN 110490181 A CN110490181 A CN 110490181A CN 201910750982 A CN201910750982 A CN 201910750982A CN 110490181 A CN110490181 A CN 110490181A
Authority
CN
China
Prior art keywords
audit
image
list
pending
fills
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910750982.9A
Other languages
English (en)
Other versions
CN110490181B (zh
Inventor
汪明浩
唐天浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Situ Scene Data Technology Service Co Ltd
Original Assignee
Beijing Situ Scene Data Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Situ Scene Data Technology Service Co Ltd filed Critical Beijing Situ Scene Data Technology Service Co Ltd
Priority to CN201910750982.9A priority Critical patent/CN110490181B/zh
Publication of CN110490181A publication Critical patent/CN110490181A/zh
Application granted granted Critical
Publication of CN110490181B publication Critical patent/CN110490181B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Multimedia (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及计算机图像识别技术领域,公开了一种基于OCR识别技术的表单填写审核方法、装置、设备以及计算机存储介质。通过本发明创造,可将整个表单填写审核过程自动化,大大加快审核速度、节省人力成本和避免人工出错。此外,还可对填写内容、盖章、客户签字和勾选项等常见审核项进行深度审核,并通过多种技术交叉验证来保证准确性,具有实现方法巧妙、速度快和资源占有少等优点,便于实际应用和推广。

Description

一种基于OCR识别技术的表单填写审核方法、装置、设备以及 计算机存储介质
技术领域
本发明属于计算机图像识别技术领域,具体涉及一种基于OCR识别技术的表单填写审核方法、装置、设备以及计算机存储介质。
背景技术
目前主流的自定义通用OCR识别技术(即Optical Character Recognition,光学字符识别,是指使用诸如扫描仪或数码相机等的电子设备来检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程),主要用于解决任意尺寸文件的固定字段识别。这种方法的主要问题在于仅对于目标区域进行文字识别,并不能解决诸如文件审核类等的绝大多数其他问题。
在文件审核类的工作中,以表单填写的审核场景为例,可以但不限于需要审核如下内容:表格中必填项是否填写;勾选框是否勾选;客户是否在指定区域签字/盖章等。目前这些基本审核工作并不能通过单一的文字识别技术来自动实现,即目前业内的相应解决方案是:先通过部分图像识别算法进行文件的分类和简单裁剪,然后主要通过人工审核来进行文件校验或核对,如此明显存在自动化程度低、审核速度慢、人力成本高和易人工出错等问题。
发明内容
为了解决当前表单填写审核场景所存在的自动化程度低、审核速度慢、人力成本高和易人工出错的问题,本发明目的在于提供一种基于OCR识别技术的表单填写审核方法、装置、设备以及计算机存储介质。
本发明所采用的技术方案为:
一种基于OCR识别技术的表单填写审核方法,包括如下步骤:
S101.生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和 /或最多可填字符数目;
S102.获取待审核的表单填写待审图像;
S103.基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容;
S104.通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域;
S105.针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过;
S106.输出并展示所述表单填写待审图像的审核结果。
优化的,在所述步骤S103之前,还包括有如下步骤:
S201.采用图像清晰度评价算法计算所述表单填写待审图像的图像清晰度指标,若计算所得的图像清晰度指标低于预设的图像清晰度阈值,则返回执行步骤S102,否则许可执行步骤S103。
优化的,在所述步骤S103之前,还包括有如下步骤:
S202.对所述表单填写待审图像进行图像清晰度增强处理,其中,所述图像清晰度增强处理的方式包括图片清洗、像素还原和/或降噪处理方式。
优化的,在所述步骤S104中,对所述表单填写模板图像与所述表单填写待审图像进行图像配准的方式包括变换矩阵方式和透视变换方式。
优化的,在所述步骤S105中,按照如下方式判断位于所述待审核区域中的图像识别内容是否与审核参数相匹配:
当所述审核参数包括有效的文字需求指示位时,若所述图像识别内容中包含文字类字符,则匹配,否则不匹配;
当所述审核参数包括有效的盖章需求指示位时,若所述图像识别内容中包含有可通过轮廓提取算法得到的盖章图案,则匹配,否则不匹配;
当所述审核参数包括有效的单选需求指示位时,若所述图像识别内容中包含有仅位于一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括有效的多选需求指示位时,若所述图像识别内容中包含有位于至少一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括最多可填字符数目时,若所述图像识别内容中包含的字符总数不超过该最多可填字符数目,则匹配,否则不匹配。
优化的,若所述审核类型还包括选填项类型,则在所述步骤S105中,还包括如下:在该审核类型为选填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过。
优化的,在所述步骤S106中,按照如下方式输出并展示所述表单填写待审图像的审核结果:
输出所述表单填写待审图像,并在所述表单填写待审图像中标注已通过审核的待审核区域和/或未通过审核的待审核区域。
本发明所采用的另一种技术方案为:
一种基于OCR识别技术的表单填写审核装置,包括模板图像生成模块、待审图像获取模块、OCR识别处理模块、图像配准处理模块、区域填写审核模块和审核结果显示模块;
所述模板图像生成模块,用于生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和/或最多可填字符数目;
所述待审图像获取模块,用于获取待审核的表单填写待审图像;
所述OCR识别处理模块,通信连接所述待审图像获取模块,用于基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容;
所述图像配准处理模块,分别通信连接所述模板图像生成模块和所述待审图像获取模块,用于通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域;
所述区域填写审核模块,分别通信连接所述OCR识别处理模块和所述图像配准处理模块,用于针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过;
所述审核结果显示模块,通信连接所述区域填写审核模块,用于输出所述表单填写待审图像的审核结果。
本发明所采用的另一种技术方案为:
一种基于OCR识别技术的表单填写审核设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如前所述基于 OCR识别技术的表单填写审核方法步骤。
本发明所采用的另一种技术方案为:
一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如前所述基于OCR识别技术的表单填写审核方法步骤。
本发明的有益效果为:
(1)本发明创造提供了一种利用OCR识别技术可自动完成表单填写审核任务的新方法、装置、设备和计算机存储介质,可将整个表单填写审核过程自动化,大大加快审核速度、节省人力成本和避免人工出错,便于实际应用和推广;
(2)该方法可对填写内容、盖章、客户签字和勾选项等常见审核项进行深度审核,并通过多种技术交叉验证来保证准确性,还具有实现方法巧妙、速度快和资源占有少等优点;
(3)由于只需要通过一张模板图像就可以对同类型的表单进行审核分析,因此不同于许多深度学习算法会受到训练数据量的限制,无需客户提供大量额外样本;
(4)与市面上许多定制化开发相比,该方法无需二次开发,由客户本人经简单引导后就可以完全实现自行定制化。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的表单填写审核方法的流程示意图。
图2是本发明提供的表单填写审核装置的结构示意图。
图3是本发明提供的表单填写审核设备的结构示意图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步阐述。在此需要说明的是,对于这些实施例方式的说明用于帮助理解本发明,但并不构成对本发明的限定。本文公开的特定结构和功能细节仅用于描述本发明的示例实施例。然而,可用很多备选的形式来体现本发明,并且不应当理解为本发明限制在本文阐述的实施例中。
应当理解,在本文描述的一些流程中,包含了按照特定顺序出现的多个操作,但是这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如S101、S102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作同样按顺序执行或并行执行。
应当理解,尽管本文可以使用术语第一、第二等等来描述各种单元,这些单元不应当受到这些术语的限制。这些术语仅用于区分一个单元和另一个单元。例如可以将第一单元称作第二单元,并且类似地可以将第二单元称作第一单元,同时不脱离本发明的示例实施例的范围。
应当理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,单独存在B,同时存在A和B三种情况,本文中术语“/和”是描述另一种关联对象关系,表示可以存在两种关系,例如,A/ 和B,可以表示:单独存在A,单独存在A和B两种情况,另外,本文中字符“/”,一般表示前后关联对象是一种“或”关系。
应当理解,当将单元称作与另一个单元“连接”、“相连”或“耦合”时,它可以与另一个单元直相连接或耦合,或中间单元可以存在。相対地,当将单元称作与另一个单元“直接相连”或“直接耦合”时,不存在中间单元。应当以类似方式来解释用于描述单元之间关系的其他单词(例如,“在……之间”对“直接在……之间”,“相邻”对“直接相邻”等等)。
本文使用的术语仅用于描述特定实施例,并不意在限制本发明的示例实施例。如本文所使用的,单数形式“一”、“一个”以及“该”意在包括复数形式,除非上下文明确指示相反意思。还应当理解术语“包括”、“包括了”、“包含”和/或“包含了”在本文中使用时,指定所声明的特征、整数、步骤、操作、单元和/或组件的存在性,并且不排除一个或多个其他特征、数量、步骤、操作、单元、组件和/或他们的组合存在性或增加。
还应当注意到在一些备选实施例中,所出现的功能/动作可能与附图出现的顺序不同。例如,取决于所涉及的功能/动作,实际上可以实质上并发地执行,或者有时可以以相反的顺序来执行连续示出的两个图。
在下面的描述中提供了特定的细节,以便于对示例实施例的完全理解。然而,本领域普通技术人员应当理解可以在没有这些特定细节的情况下实现示例实施例。例如可以在框图中示出系统,以避免用不必要的细节来使得示例不清楚。在其他实例中,可以不以不必要的细节来示出众所周知的过程、结构和技术,以避免使得示例实施例不清楚。
实施例一
如图1所示,本实施例提供的所述基于OCR识别技术的表单填写审核方法,可以但不限于包括如下步骤S101~S106。
S101.生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数可以但不限于包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和/或最多可填字符数目等。
在所述步骤S101中,所述表单填写模板图像为一张高清晰的且填写规范的标准图像,然后通过人机交互界面,可由用户来标注所述定位点和所述目标审核区域,并选择确定所述目标审核区域的审核类型和审核参数,其中,所述定位点可具体为参考点字段或精确的相对位置。此外详细的,所述文字需求指示位用于指示在审核区域内需要有填写的文字(可用“1”表示有效),所述盖章需求指示位用于指示在审核区域内需要有盖章图案(同样可用“1”表示有效),所述单选需求指示位用于指示在审核区域内的多个勾选框中仅允许有一个勾选符号(例如二选一或四选一的单向选择,同样可用“1”表示有效),所述多选需求指示位用于指示在审核区域内的多个勾选框中至少有一个勾选符号(例如不定项选择,同样可用“1”表示有效),所述最多可填字符数目用于指示在审核区域内许可填写的最多字符数目(例如数目为100时,表示填写内容不允许超过100字)。
S102.获取待审核的表单填写待审图像。
在所述步骤S102中,所述表单填写待审图像可以但不限于使用诸如扫描仪或数码相机等的电子设备对待审表单进行采集获取。
S103.基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容。
在所述步骤S103之前,考虑OCR识别技术对所述表单填写待审图像有一定的清晰度要求,为了避免运算资源的浪费,可包括有如下步骤:S201.采用图像清晰度评价算法计算所述表单填写待审图像的图像清晰度指标,若计算所得的图像清晰度指标低于预设的图像清晰度阈值,则返回执行步骤S102,否则许可执行步骤S103。所述图像清晰度评价算法为现有算法,例如可将计算求得的灰度变化率和的平均值作为图像清晰度指标,实现图像质量的有效判别。此外优化的,还可在所述步骤S103之前包括如下步骤:S202.对所述表单填写待审图像进行图像清晰度增强处理,其中,所述图像清晰度增强处理的方式可以但不限于包括图片清洗、像素还原和/或降噪处理方式等。所述图像清晰度增强处理的方式以及具体的图片清洗、像素还原和/或降噪处理方式等均为现有计算机视觉技术中的常规手段,于此不再赘述。
在所述步骤S103中,基于OCR识别技术对所述表单填写待审图像进行文字识别的方法为现有技术,例如经过最新OCR识别技术的且基于深度学习的文字识别和定位方法进行文字识别。
S104.通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域。
在所述步骤S104中,通过匹配定位点的方式对所述表单填写模板图像与所述表单填写待审图像进行图像配准也为现有技术,可以但不限于具体包括变换矩阵方式和透视变换方式等。
S105.针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过。
在所述步骤S105中,具体的,可以但不限于按照如下方式判断位于所述待审核区域中的图像识别内容是否与审核参数相匹配:
当所述审核参数包括有效的文字需求指示位时,若所述图像识别内容中包含文字类字符,则匹配,否则不匹配;
当所述审核参数包括有效的盖章需求指示位时,若所述图像识别内容中包含有可通过轮廓提取算法(其为现有算法)得到的盖章图案,则匹配,否则不匹配;
当所述审核参数包括有效的单选需求指示位时,若所述图像识别内容中包含有仅位于一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括有效的多选需求指示位时,若所述图像识别内容中包含有位于至少一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括最多可填字符数目时,若所述图像识别内容中包含的字符总数(可通过常规的统计方式得到)不超过该最多可填字符数目,则匹配,否则不匹配。
此外,若所述审核类型还包括选填项类型,则还可以对选填项区域进行填写审核,即在所述步骤S105中,还包括如下:在该审核类型为选填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过。其中的匹配判断方式可参照前述方式实现,于此不再赘述。
S106.输出并展示所述表单填写待审图像的审核结果。
在所述步骤S106中,具体可以但不限于按照如下方式输出并展示所述表单填写待审图像的审核结果:输出所述表单填写待审图像,并在所述表单填写待审图像中标注已通过审核的待审核区域和/或未通过审核的待审核区域。具体的,可通过绿色线条框标注已通过审核的待审核区域,通过红色线条框标注未通过审核的待审核区域,以及针对未通过审核的待审核区域,还可以标注对应目标审核区域的审核类型和/或审核参数等信息。
综上,采用本实施例所提供的基于OCR识别技术的表单填写审核方法,具有如下技术效果:
(1)本实施例提供了一种利用OCR识别技术可自动完成表单填写审核任务的新方法,可将整个表单填写审核过程自动化,大大加快审核速度、节省人力成本和避免人工出错,便于实际应用和推广;
(2)该方法可对填写内容、盖章、客户签字和勾选项等常见审核项进行深度审核,并通过多种技术交叉验证来保证准确性,还具有实现方法巧妙、速度快和资源占有少等优点;
(3)由于只需要通过一张模板图像就可以对同类型的表单进行审核分析,因此不同于许多深度学习算法会受到训练数据量的限制,无需客户提供大量额外样本;
(4)与市面上许多定制化开发相比,该方法无需二次开发,由客户本人经简单引导后就可以完全实现自行定制化。
实施例二
如图2所示,本实施例提供了一种实现实施例一所述基于OCR识别技术的表单填写审核方法的装置,包括模板图像生成模块、待审图像获取模块、OCR识别处理模块、图像配准处理模块、区域填写审核模块和审核结果显示模块;
所述模板图像生成模块,用于生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和/或最多可填字符数目;
所述待审图像获取模块,用于获取待审核的表单填写待审图像;
所述OCR识别处理模块,通信连接所述待审图像获取模块,用于基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容;
所述图像配准处理模块,分别通信连接所述模板图像生成模块和所述待审图像获取模块,用于通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域;
所述区域填写审核模块,分别通信连接所述OCR识别处理模块和所述图像配准处理模块,用于针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过;
所述审核结果显示模块,通信连接所述区域填写审核模块,用于输出所述表单填写待审图像的审核结果。
本实施例提供的所述装置的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例三
如图3所示,本实施例提供了一种实现实施例一所述基于OCR识别技术的表单填写审核方法的硬件设备,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如实施例一所述基于OCR识别技术的表单填写审核方法步骤。
本实施例提供的所述硬件设备的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
实施例四
本实施例提供了一种存储包含实施例一所述基于OCR识别技术的表单填写审核方法的计算机程序的计算机存储介质,即在所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如实施例一所述基于OCR识别技术的表单填写审核方法步骤。其中,计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置,也可以是移动智能设备(如智能手机、PAD或ipad等)。
本实施例提供的计算机存储介质的工作过程、工作细节和技术效果,可以参见实施例一,于此不再赘述。
以上所描述的多个实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备执行各个实施例或者实施例的某些部分所述的方法。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
最后应说明的是,本发明不局限于上述可选的实施方式,任何人在本发明的启示下都可得出其他各种形式的产品。上述具体实施方式不应理解成对本发明的保护范围的限制,本发明的保护范围应当以权利要求书中界定的为准,并且说明书可以用于解释权利要求书。

Claims (10)

1.一种基于OCR识别技术的表单填写审核方法,其特征在于,包括如下步骤:
S101.生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和/或最多可填字符数目;
S102.获取待审核的表单填写待审图像;
S103.基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容;
S104.通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域;
S105.针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过;
S106.输出并展示所述表单填写待审图像的审核结果。
2.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,在所述步骤S103之前,还包括有如下步骤:
S201.采用图像清晰度评价算法计算所述表单填写待审图像的图像清晰度指标,若计算所得的图像清晰度指标低于预设的图像清晰度阈值,则返回执行步骤S102,否则许可执行步骤S103。
3.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,在所述步骤S103之前,还包括有如下步骤:
S202.对所述表单填写待审图像进行图像清晰度增强处理,其中,所述图像清晰度增强处理的方式包括图片清洗、像素还原和/或降噪处理方式。
4.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,在所述步骤S104中,对所述表单填写模板图像与所述表单填写待审图像进行图像配准的方式包括变换矩阵方式和透视变换方式。
5.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,在所述步骤S105中,按照如下方式判断位于所述待审核区域中的图像识别内容是否与审核参数相匹配:
当所述审核参数包括有效的文字需求指示位时,若所述图像识别内容中包含文字类字符,则匹配,否则不匹配;
当所述审核参数包括有效的盖章需求指示位时,若所述图像识别内容中包含有可通过轮廓提取算法得到的盖章图案,则匹配,否则不匹配;
当所述审核参数包括有效的单选需求指示位时,若所述图像识别内容中包含有仅位于一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括有效的多选需求指示位时,若所述图像识别内容中包含有位于至少一个勾选框中的勾选字符,则匹配,否则不匹配;
当所述审核参数包括最多可填字符数目时,若所述图像识别内容中包含的字符总数不超过该最多可填字符数目,则匹配,否则不匹配。
6.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,若所述审核类型还包括选填项类型,则在所述步骤S105中,还包括如下:在该审核类型为选填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过。
7.如权利要求1所述的一种基于OCR识别技术的表单填写审核方法,其特征在于,在所述步骤S106中,按照如下方式输出并展示所述表单填写待审图像的审核结果:
输出所述表单填写待审图像,并在所述表单填写待审图像中标注已通过审核的待审核区域和/或未通过审核的待审核区域。
8.一种基于OCR识别技术的表单填写审核装置,其特征在于:包括模板图像生成模块、待审图像获取模块、OCR识别处理模块、图像配准处理模块、区域填写审核模块和审核结果显示模块;
所述模板图像生成模块,用于生成标注有定位点和目标审核区域的表单填写模板图像,其中,针对所述目标审核区域记录有对应的审核类型和审核参数,所述审核类型包括必填项类型/和选填项类型,所述审核参数包括文字需求指示位、盖章需求指示位、单选需求指示位、多选需求指示位和/或最多可填字符数目;
所述待审图像获取模块,用于获取待审核的表单填写待审图像;
所述OCR识别处理模块,通信连接所述待审图像获取模块,用于基于OCR识别技术,对所述表单填写待审图像进行文字识别,获取图像识别内容;
所述图像配准处理模块,分别通信连接所述模板图像生成模块和所述待审图像获取模块,用于通过匹配定位点的方式,对所述表单填写模板图像与所述表单填写待审图像进行图像配准,获取所述表单填写待审图像的且与所述表单填写模板图像中目标审核区域一一对应的待审核区域;
所述区域填写审核模块,分别通信连接所述OCR识别处理模块和所述图像配准处理模块,用于针对所述待审核区域,获取对应目标审核区域的审核类型和审核参数,并在该审核类型为必填项类型时,若位于所述待审核区域中的图像识别内容与该审核参数相匹配,则审核通过,否则审核不通过;
所述审核结果显示模块,通信连接所述区域填写审核模块,用于输出所述表单填写待审图像的审核结果。
9.一种基于OCR识别技术的表单填写审核设备,其特征在于,包括通信相连的存储器和处理器,其中,所述存储器用于存储计算机程序,所述处理器用于执行所述计算机程序实现如权利要求1~7任意一项所述基于OCR识别技术的表单填写审核方法步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1~7任意一项所述基于OCR识别技术的表单填写审核方法步骤。
CN201910750982.9A 2019-08-14 2019-08-14 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质 Active CN110490181B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910750982.9A CN110490181B (zh) 2019-08-14 2019-08-14 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910750982.9A CN110490181B (zh) 2019-08-14 2019-08-14 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质

Publications (2)

Publication Number Publication Date
CN110490181A true CN110490181A (zh) 2019-11-22
CN110490181B CN110490181B (zh) 2022-04-22

Family

ID=68551029

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910750982.9A Active CN110490181B (zh) 2019-08-14 2019-08-14 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质

Country Status (1)

Country Link
CN (1) CN110490181B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111860502A (zh) * 2020-07-15 2020-10-30 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
CN112861865A (zh) * 2021-01-29 2021-05-28 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质
CN113674091A (zh) * 2021-09-03 2021-11-19 中国银行股份有限公司 信息填写方法及装置、存储介质及电子设备
CN116663509A (zh) * 2023-08-02 2023-08-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人
CN117952563A (zh) * 2024-03-21 2024-04-30 武汉市特种设备监督检验所 一种电梯信息系统中快速注册及审查方法及系统
US11995905B2 (en) 2020-02-10 2024-05-28 Beijing Baidu Netcom Science Technology Co., Ltd. Object recognition method and apparatus, and electronic device and storage medium

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103606045A (zh) * 2013-11-20 2014-02-26 国家电网公司 报表生成方法和报表系统
CN104036060A (zh) * 2013-03-07 2014-09-10 纬衡浩建科技(深圳)有限公司 一种工程图在线审核方法和系统
CN104915808A (zh) * 2015-07-10 2015-09-16 丰镇市农村信用联社股份有限公司 电子印章管理实现方法及系统
CN105260841A (zh) * 2015-10-16 2016-01-20 国网甘肃省电力公司天水供电公司 一种配电网故障抢修回单审核系统
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN107093059A (zh) * 2017-03-31 2017-08-25 南京钧元网络科技有限公司 一种便携式认证智能审核系统及其审核方法
CN107133221A (zh) * 2017-06-09 2017-09-05 北京京东尚科信息技术有限公司 信息审核方法、装置、计算机可读介质和电子设备
CN206975668U (zh) * 2017-05-31 2018-02-06 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN108009928A (zh) * 2017-11-23 2018-05-08 平安科技(深圳)有限公司 电子保单加签方法、装置、计算机设备及存储介质
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN108537218A (zh) * 2018-04-12 2018-09-14 湖南诚壹文化产业有限公司 一种答题卡的识别处理方法及装置
CN109214382A (zh) * 2018-07-16 2019-01-15 顺丰科技有限公司 一种基于crnn的票据信息识别算法、设备及存储介质
CN109447820A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN110008933A (zh) * 2019-04-18 2019-07-12 江苏曲速教育科技有限公司 一种通用智能阅卷系统和方法
CN110097329A (zh) * 2019-03-16 2019-08-06 平安科技(深圳)有限公司 信息审核方法、装置、设备及计算机可读存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104036060A (zh) * 2013-03-07 2014-09-10 纬衡浩建科技(深圳)有限公司 一种工程图在线审核方法和系统
CN103606045A (zh) * 2013-11-20 2014-02-26 国家电网公司 报表生成方法和报表系统
CN104915808A (zh) * 2015-07-10 2015-09-16 丰镇市农村信用联社股份有限公司 电子印章管理实现方法及系统
CN105260841A (zh) * 2015-10-16 2016-01-20 国网甘肃省电力公司天水供电公司 一种配电网故障抢修回单审核系统
CN105678612A (zh) * 2015-12-30 2016-06-15 远光软件股份有限公司 移动端原始凭证电子化智能填单系统及方法
CN107093059A (zh) * 2017-03-31 2017-08-25 南京钧元网络科技有限公司 一种便携式认证智能审核系统及其审核方法
CN206975668U (zh) * 2017-05-31 2018-02-06 北京空间飞行器总体设计部 一种财务报销全票据智能审核系统
CN107133221A (zh) * 2017-06-09 2017-09-05 北京京东尚科信息技术有限公司 信息审核方法、装置、计算机可读介质和电子设备
CN108009928A (zh) * 2017-11-23 2018-05-08 平安科技(深圳)有限公司 电子保单加签方法、装置、计算机设备及存储介质
CN108198591A (zh) * 2017-12-28 2018-06-22 泰康保险集团股份有限公司 用于远程审核单据的方法与装置
CN108537218A (zh) * 2018-04-12 2018-09-14 湖南诚壹文化产业有限公司 一种答题卡的识别处理方法及装置
CN109214382A (zh) * 2018-07-16 2019-01-15 顺丰科技有限公司 一种基于crnn的票据信息识别算法、设备及存储介质
CN109447820A (zh) * 2018-09-18 2019-03-08 平安科技(深圳)有限公司 数据处理方法、装置、计算机设备及存储介质
CN110097329A (zh) * 2019-03-16 2019-08-06 平安科技(深圳)有限公司 信息审核方法、装置、设备及计算机可读存储介质
CN110008933A (zh) * 2019-04-18 2019-07-12 江苏曲速教育科技有限公司 一种通用智能阅卷系统和方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11995905B2 (en) 2020-02-10 2024-05-28 Beijing Baidu Netcom Science Technology Co., Ltd. Object recognition method and apparatus, and electronic device and storage medium
CN111860502A (zh) * 2020-07-15 2020-10-30 北京思图场景数据科技服务有限公司 图片表格的识别方法、装置、电子设备及存储介质
CN112861865A (zh) * 2021-01-29 2021-05-28 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN112861865B (zh) * 2021-01-29 2024-03-29 国网内蒙古东部电力有限公司 一种基于ocr技术的辅助审计方法
CN113674091A (zh) * 2021-09-03 2021-11-19 中国银行股份有限公司 信息填写方法及装置、存储介质及电子设备
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质
CN113569863B (zh) * 2021-09-26 2022-01-25 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质
CN116663509A (zh) * 2023-08-02 2023-08-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人
CN116663509B (zh) * 2023-08-02 2023-09-29 四川享宇科技有限公司 一种银行业复杂系统的信息自动获取填入机器人
CN117952563A (zh) * 2024-03-21 2024-04-30 武汉市特种设备监督检验所 一种电梯信息系统中快速注册及审查方法及系统

Also Published As

Publication number Publication date
CN110490181B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN110490181A (zh) 一种基于ocr识别技术的表单填写审核方法、装置、设备以及计算机存储介质
CN109508681A (zh) 生成人体关键点检测模型的方法和装置
CN108229341A (zh) 分类方法和装置、电子设备、计算机存储介质、程序
CN108537135A (zh) 对象识别及对象识别网络的训练方法和装置、电子设备
CN107403424A (zh) 一种基于图像的车辆定损方法、装置及电子设备
CN108664897A (zh) 票据识别方法、装置及存储介质
CN107392125A (zh) 智能模型的训练方法/系统、计算机可读存储介质及终端
CN108683562A (zh) 异常检测定位方法、装置、计算机设备及存储介质
CN109165645A (zh) 一种图像处理方法、装置以及相关设备
CN105118048A (zh) 翻拍证件图片的识别方法及装置
CN112699775A (zh) 基于深度学习的证件识别方法、装置、设备及存储介质
CN110032990A (zh) 一种发票文本识别方法、系统及相关组件
CN111126481A (zh) 一种神经网络模型的训练方法及装置
CN109992569A (zh) 集群日志特征提取方法、装置及存储介质
CN109154938A (zh) 使用离散非踪迹定位数据将数字图中的实体分类
CN109102176A (zh) 一种基于区块链的贸易金融评估方法及装置
CN109618250B (zh) 一种光纤网络节点管理方法及系统
CN112132812B (zh) 证件校验方法、装置、电子设备及介质
CN110033016A (zh) 数字键盘识别模型的训练方法、数字键盘识别方法及系统
Naim et al. A fully AI-based system to automate water meter data collection in Morocco country
CN109102324A (zh) 模型训练方法、基于模型的红包物料铺设预测方法及装置
CN108447047A (zh) 抗酸杆菌检测方法及装置
CN108182444A (zh) 基于场景分类的视频质量诊断的方法及装置
CN107402878A (zh) 测试方法和装置
CN107122653A (zh) 一种图片验证码处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant