CN115116068B - 一种基于ocr的档案智能归档系统 - Google Patents
一种基于ocr的档案智能归档系统 Download PDFInfo
- Publication number
- CN115116068B CN115116068B CN202210790973.4A CN202210790973A CN115116068B CN 115116068 B CN115116068 B CN 115116068B CN 202210790973 A CN202210790973 A CN 202210790973A CN 115116068 B CN115116068 B CN 115116068B
- Authority
- CN
- China
- Prior art keywords
- module
- identification
- rule
- archive
- rule base
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 claims description 25
- 238000000034 method Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 claims description 6
- 238000012790 confirmation Methods 0.000 claims description 4
- 238000003702 image correction Methods 0.000 claims description 4
- 238000012550 audit Methods 0.000 claims description 2
- 238000001514 detection method Methods 0.000 claims description 2
- 238000007689 inspection Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 claims description 2
- 238000012015 optical character recognition Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012552 review Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012384 transportation and delivery Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Library & Information Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于OCR的档案智能归档系统,包括规则库模块、档案目录模块、任务识别模块、预审模块、归档模块、检索模块;规则库模块是基于OCR功能对特定格式的电子化文件进行规则的设定;档案目录模块是对档案存储结构以及内容的定义;任务识别模块对接受到的一系列电子化档案进行识别;预审模块是基于规则库定义的内容与识别结果进行比对;归档模块是将预审结果通过的电子化信息进行复核确认;检索模块是对已经归档成功的档案进行检索,支持根据档案目录以及标签进行检索。本发明系统对电子化档案归档进行智能分类,并根据规则库支持自动预审,提高了工作的效率以及质量。
Description
技术领域
本发明属于档案管理领域,尤其涉及一种基于OCR的档案智能归档系统。
背景技术
随着AI、人工智能、机器学习技术的不断成熟,电子图像信息识别的精准度越来越高,目前以及达到商业应用的相关标准,目前OCR(Optical Character Recognition,光学字符识别)识别技术受到了广泛的应用,主要应用于停车场车牌识别、身份证识别、快递地址识别等场景,由于OCR技术的加持,大大提高了相关场景下的工作效率,越来越多的应用场景正在逐步增多,减轻了工作人员的压力和成本的节约。
针对目前电子化档案存在比较传统的人工整理、审核的方法,既不便利,且耗时耗力,成本高,并且经常存在审核出错返工等情况。
结合当前现状,引入OCR识别进行档案智能归档的手段是必要的。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种能够节约时间及人力成本,以高效优良的方式实现档案智能归档的系统。
本发明具体提供了一种基于OCR的档案智能归档系统,包括规则库模块、档案目录模块、任务识别模块、预审模块、归档模块、检索模块。
所述规则库模块用于,基于OCR功能对特定格式的电子化档案样本进行上传,并根据需要进行规则的设定,规则库包括电子化档案样本以及基于样本设定的相关规则;
所述档案目录模块用于,对档案存储结构和内容进行定义,所述对档案存储结构进行定义是指创建一系列目录结构用于对档案的分类,如“/2022年/技术部/报销单”是创建了一个2022年,技术部的报销单目录,当前目录下存储内容即为2022年技术部门的报销单,所述对档案存储内容进行定义是指关联规则库,只有满足规则库的档案,才能够通过归档;
所述任务识别模块用于,将所有需要进行电子化识别的档案加入任务队列,根据任务逐个识别每个档案,结合规则库中的规则进行识别,包括:对电子化档案进行二值化处理,并进行去噪,检查是否存在倾斜,存在倾斜情况进行矫正,然后对字符进行OCR字符识别,根据坐标对圈选区域内的文字进行识别,通过比对规则库中的样本,进行分类识别,最后将电子化档案和识别结果信息放入对应的档案目录中;
所述预审模块用于,将任务识别模块得到的识别结果与规则库中的规则进行比对,通过比对结果决定预审是否通过;
所属归档模块用于,将预审结果通过的电子化信息进行人工复核确认,将确认通过的档案进行最终归档;对预审未通过的电子化信息进行人工检查,如果发现预审结果出错的电子化信息,则优化规则库的规则;
所述检索模块用于,对已经归档成功的档案进行检索,支持根据档案目录以及标签进行检索,并能够根据用户角色进行权限相关设定。
所述规则包括:样本规则、区域识别规则、印章规则、签字规则;
所述样本规则为一个或两个以上电子化样本,当对文件进行OCR规则识别与样本比对后,相似率达到阈值则满足样本规则,阈值能够根据档案整理需求实际情况进行设置,默认情况下阈值为80%;
所述区域识别规则是根据两组以上的坐标区域的内容进行识别,至少需要包含3组坐标,才能够形成区域识别规则,坐标原点为文件左上角,坐标原点横坐标x和纵坐标y分别为:x=0、y=0,单位为像素,所有坐标基于原点进行计算,对区域内的信息进行识别提取;区域规则设置后,任务识别模块会将圈选区域内的文字进行提取;
所述印章规则,用于判断设定的一个区域内是否存在印章;所述印章包括企业印章和个人印章,包括但不限于:合同章、财务章、法人章、公章;
所述签字规则,用于判断设定的一个区域内是否存在签字;所述签字包括手写体签字、印刷体签字。
所述任务队列是一组先进先出的容器,通过容器能够实现异步处理电子化识别任务;
所述二值化处理能够把电子化档案转换成二值图像,把大于临界灰度值(临界灰度值是OCR技术领域的常见说法,就是图片由彩色变成黑白色,这样就能够容易识别图片中的文字)的像素灰度设为灰度极大值,把小于临界灰度值的像素灰度设为灰度极小值;二值化的作用就是将图像分成黑和白,更加有利于做图像处理识别。
所述去噪是指将电子化档案形成过程中产生的干扰进行处理。如对采集、传输、成像、人为等产生的噪声干扰进行处理,使得电子化档案尽可能的接近原始图像。
所述规则库模块具体执行如下步骤:
步骤1-1,创建规则库,对规则库进行名称定义;
步骤1-2,将规则对应样本进行上传,一个规则支持两个以上样本(一个规则库包含多个样本,一个样本对应两个以上规则,举例:
如租房合同有3页:
创建一个名称为租房合同的规则,包含3个样本,分别是租房合同第一页、第二页、第三页;对第一圈选某个区域识别甲方名称、乙方名称;对第三页圈选某个区域识别盖章、签字);
步骤1-3,对样本进行设置规则;
步骤1-3具体包括如下步骤:
步骤1-3-1,在样本文件上圈选指定区域;
步骤1-3-2,对指定区域进行添加关键信息文字识别;
步骤1-3-3,设置指定区域添加印章识别检查;
步骤1-3-4,设置指定区域添加签字识别检查。
所述档案目录模块具体执行如下步骤:
步骤2-1,根据需要对档案目录进行创建,设定目录名称;
步骤2-2,对档案目录名称进行合法性检查,包括特殊字符检查、重复检查;
步骤2-3,对目录设置可访问的用户、角色、组织,并根据需要添加访问期限,对于需要长期使用的用户则设置永久访问,所述用户是指系统登录人,所述角色包括系统管理员、档案管理员、以及其他自定义角色,所述组织是指当前用户所属部门,所述访问期限是指对用户只可在期限内查阅指定目录下的内容,不在期限范围内,则无法查阅;
步骤2-4,将档案目录进行关联规则库,比如在自己的电脑的某个盘创建一个目录, /和空格或者是名称相同的都会创建不成功,创建不成功则无法进行档案归档。
所述任务识别模块具体执行如下步骤:
步骤3-1,用户上传电子化档案;
步骤3-2,将电子化档案加入任务队列;
步骤3-3,从任务队列中获取电子化档案进行识别;
步骤3-3具体包括如下步骤:
步骤3-3-1,对电子化档案进行二值化处理;
步骤3-3-2,对于电子化档案进行去噪处理;
步骤3-3-3,对电子化档案进行图像矫正处理;
步骤3-3-4,对指定区域进行OCR字符识别;
步骤3-3-5,对指定区进行印章识别;
步骤3-3-6,对指定区进行签字识别。
步骤3-4,结合规则库中的规则,将识别结果传递给预审模块,识别结果包含档案内容、标签信息、印章信息、签字信息等。
所述预审模块具体执行如下步骤:
步骤4-1,获取任务识别模块识别结果信息;
步骤4-2,结合档案目录中的规则进行审核(档案目录中的规则是步骤2-4中关联的),对审核通过或失败的电子档案进行标注;
步骤4-3,将标注结果传递给归档模块。
所述归档模块具体执行如下步骤:
步骤5-1,获取预审模块的标注结果,对标注结果进行复核;
步骤5-2,人工检查通过的电子化档案,确认识别准确性;
步骤5-3,人工检查不通过的电子化档案,查看不通过原因是否成立;如果成立则进行驳回操作;如果不成立,将当前电子化档案状态修改为成功状态,并且优化规则库样本文件,将当前识别错误的样本进行上传,提高后期预审准确率;
步骤5-4,将当前识别电子化档案最终归档。
所述检索模块具体执行如下步骤:
步骤6-1,获取当前用户拥有权限访问的档案目录;
步骤6-2,检查当前用户权限是否过期;
步骤6-3,根据标签进行检索,并将查询电子化档案结果信息进行返回。
所述系统具体执行如下步骤:
步骤a1,创建规则库,将需要归档的电子化档案样本进行上传规则库;
步骤a2,圈选识别区域,通过圈选识别区域获取信息;
步骤a3,圈选印章识别区域;
步骤a4,圈选签字识别区域;
步骤a5,识别区域设置完成,即规则库创建成功;
步骤a6,创建档案归档目录;
步骤a7,对当前目录仅设定可访问用户权限以及权限有效时间,拥有访问权限并且在有效期内的用户才能够进行查看;
步骤a8,规则库关联档案目录;
步骤a9,用户上传需要归档的电子化档案后,将待归档电子化档案加入任务队列;
步骤a10,任务队列根据先进先出原则,结合规则库规则逐一对文件进行任务识别,包括:对电子化档案进行二值化处理、去噪处理、图像矫正处理;
对电子化档案进行字符识别,通过与规则库样本比对;
步骤a11,根据规则库,获取圈选指定区域(指定区域是步骤1-3-1中圈选的)以及识别规则,根据规则不同进行文字识别或印章识别或签字识别,将识别结果推送预审模块;
步骤a12,预审模块接受到识别结果进行检查,检查关键信息是否识别成功,印章区域是否存在印章,签字区域是否存在签字,对满足规则识别结果的添加成功标识,否则添加失败标识,并将结果推送归档模块;
步骤a13,根据预审模块判定结果进行检查,对检查正确的档案进行归档处理;
步骤a14,如果预审模块存在检错的情况,则需要优化规则库;
步骤a15,档案利用时,根据档案利用用户的权限结合归档后的关键信息识别结果进行检索,并将结果响应对用户。
本发明具有如下有益效果:
(1)本发明系统对电子化档案归档进行智能分类,并根据规则库支持自动预审,提高了工作的效率以及质量。
(2)高可扩展性,支持增量规则库定义,从而适应各种电子化档案,应用更广泛。
(3)高容错性,支持对电子档案智能审核出现错误的进行复审,并更新规则库,从而逐步提高智能归档的准确性。
(4)档案的归档流程更规范化,对每个环节进行留痕,产生相应操作日志,便于后期追溯。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和/ 或其他方面的优点将会变得更加清楚。
图1是本发明系统的结构组成图。
图2是本发明系统的工作流程图。
图3是归档电子化档案样本,以及圈选的区域示意图。
图4是需要归档的报销电子化档案,存在印章以及签字。
图5是需要归档的报销电子化档案,不存在印章以及签字。
图6是不满足规则库中的电子化档案。
图7是需要归档的报销电子化档案,不存在印章以及签字,二值化后的效果。
图8是需要归档的报销电子化档案,去噪、矫正后的效果。
具体实施方式
本发明提供了一种基于OCR的档案智能归档系统,如图1所示为本系统的组成图:包括规则库模块、档案目录模模块、任务识别模块、预审模块、归档模块、检索模块。
所述规则库模块是基于OCR功能对特定格式的电子化档案进行规则的设定,为了后期识别以及预审提供支撑,规则库中的规则包括:样本规则、区域识别规则、印章规则、签字规则。
所述样本规则为一个或两个以上电子化样本,当对文件进行OCR规则识别与样本比对后,相似率达到阈值则满足样本规则,阈值能够根据档案整理需求实际情况进行设置,默认情况下阈值为80%;
所述区域识别规则是根据两组以上的坐标区域的内容进行识别,至少需要包含3组坐标,才能够形成区域识别规则,坐标原点为文件左上角,坐标原点横坐标x和纵坐标y分别为:x=0、y=0,单位为像素,所有坐标基于原点进行计算,对区域内的信息进行识别提取(比如图6是圈选的区域,会将图片内容的文件信息进行识别);区域规则设置后,任务识别模块会将圈选区域内的文字进行提取;
所述印章规则,用于判断设定的一个区域内是否存在印章;所述印章包括企业印章和个人印章,包括但不限于:合同章、财务章、法人章、公章;
所述签字规则,用于判断设定的一个区域内是否存在签字;所述签字包括手写体签字、印刷体签字。
所述档案目录模块是对档案存储结构以及内容的定义,所述结构定义是指创建一系列目录结构用于对档案的分类,所述内容的定义是指关联规则库,只有满足规格库的规则,才能够通过归档;
所述任务识别模块是将所有需要进行电子化识别的档案加入任务队列,根据任务逐个识别每个档案,结合规则库设定的规则,将档案以及识别结果信息放入对应的档案目录中;
所述预审模块是基于规则库定义的内容与识别结果进行比对,通过比对结果决定预审是否通过;
所属归档模块是将预审结果通过的电子化信息进行人工复核确认,将确认通过的档案进行最终归档,同时对预审未通过的电子化信息进行检查,如发现正确的电子化信息,则进行优化规则库的规则,从而实现更准确的归档。
所述检索模块是对已经归档成功的档案进行检索,支持根据档案目标以及标签进行检索,并可以根据用户角色进行权限相关设定。
如图2所示为本系统的工作流程图,具体包括如下步骤:
步骤a1,创建规则库,将需要归档的电子化档案样本进行上传规则库,如图3,当前样本为报销单样本。
步骤a2,圈选识别区域,如图3中标识的1为原点坐标,2、3、4、5个为圈选区域,需要分别识别“申请时间”、“申请人”、“申请金额”、“收款账户”。
步骤a3,圈选印章识别区域,如图3中标识6的区域。
步骤a4,圈选签字识别区域,如图3中标识7的区域。
步骤a5,识别区域设置完成,即规则库创建成功,当前创建的是报销单规则,当前规则由一张电子档案图像样本以及圈选的“申请时间”、“申请人”、“申请金额”、“收款账户”、“印章识别”、“签字识别”组成。
步骤a6,创建档案归档目录,目录名称定义为报销单,创建目录:/2022/报销单。
步骤a7,对当前目录添加财务部门访问权限,设定权限访问时间有效期永久,通过权限设定,当前目录下只有财务部门下的用户才可以进行查看。
步骤a8,规则库关联档案目录,对a1~a5创建的报销规则与a6~a7创建的目录进行目录与规则的关联,关联之后当前目录下仅能够对报销单进行归档,并且只有财务部门下的人才可以进行查阅。
步骤a9,用户上传电子化档案,将待归档电子化档案加入任务列表,上传电子化档案如图4、图5、图6所示。
步骤a10,任务列表根据先进先出原则,结合规则库规则将逐一对文件进行任务识别。
步骤a10-1,获取任务队列电子化档案,开始对图4、图5、图6电子化档案分别进行识别。
步骤a10-2,分别对图4、图5、图6进行二值化处理,处理后,电子化档案如图7,将整个图像呈现出明显的只有黑和白的视觉效果。
步骤a10-3,分别对图4、图5、图6进行降噪处理,处理后,电子化档案如图8,降噪使得图像信息更为清晰,便于文字识别。
步骤a10-4,根据规则库设置的规则样本与二值化、降噪后的电子化档案进行匹配,验证,如果匹配成功规则库相似度达到默认阈值80%,则认为当前档案数据匹配中的规则库,如果图4、图5、图6只有图4和图5匹配与规则库中的报销规则相似度达到默认阈值80%,图6则认为未匹配任何规则,将不进行后续归档操作。
步骤a10-5,根据报销单规则库,获取图4圈选区域以及识别规则,识别出关键信息包括“申请时间”为20220101、“申请人”为张三、“申请金额”为500、“收款账户”为6222000000000001,识别印章区域内存在印章,印章内容为“永山窍档案管理有限公司财务”,识别签字区域内存在签字,签字内容为“张三”,将识别结果推送预审模块。
步骤a10-6,根据报销单规则库,获取图5圈选区域以及识别规则,识别出关键信息包括“申请时间”为20220222、“申请人”为空、“申请金额”为900、“收款账户”为6222000000900001,识别印章区域内不存在印章,印章内容为空,识别签字区域内不存在签字,签字内容为空,将识别结果推送预审模块。
步骤a11,预审模块接受到识别结果进行检查,检查关键信息是否识别成功,印章区域内存在印章信息,通过印章识别检查,签字区域存在签字信息,通过签字识别检查,“申请时间”、“申请人”、“申请金额”、“收款账户”区域内都识别到了关键信息,当前结果报销规则,添加成功标识,讲成功结果推送档案归档模块。图4满足规则识别结果的进行添加成功标识,图5不满足识别结果添加失败标识,并将结果推送归档模块。
步骤a12,复核人员根据预审模块判定结果进行检查,对检查正确的图4进行档案进行归档处理。
步骤a12,复核人员根据预审模块判定结果进行检查,对检查错误的图5进行档案进行驳回处理,将图5标识未错误的,并将错误原因“缺少印章”、“缺少签字”,反馈给上传者,上传者根据错误信息进行修改,然后再次进行申请上传执行a9步骤。
步骤a13,如果预审模块存在检错的情况,则需要优化规则库,对规则库增加样本数据,从而提高后期的检查正确性。
步骤a13-1,如图7为新版本报销电子档案样式,在进行预审时发现错误,人工检查得出当前为新报销规则库模板,需要对规则库进行新和样本上传。
步骤a13-2,在规则库模块进行添加报销规则库样本,后期在进行新样式报销电子档案上传时候,识别模块就可以识别正确。
步骤a14,档案利用时,根据档案利用用户的权限结合归档后的关键信息识别结果进行检索,并将结果响应对用户。
步骤a14-1,根据规则库圈选区域进行检索,如根据“申请时间”、“申请人”、“申请金额”、“收款账户”字段进行检索,将所搜到已经归档的档案相关信息。
步骤a14-2,对检索到的档案进行检查当前用户是否拥有访问权限,当前报销单档案只有财务部门能够查看,非财务部门则查询值为空列表。
具体实现中,本申请提供计算机存储介质以及对应的数据处理单元,其中,该计算机存储介质能够存储计算机程序,所述计算机程序通过数据处理单元执行时可运行本发明提供的一种基于OCR的档案智能归档系统的发明内容以及各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(read-only memory,ROM) 或随机存储记忆体(random access memory,RAM)等。
本领域的技术人员可以清楚地了解到本发明实施例中的技术方案可借助计算机程序以及其对应的通用硬件平台的方式来实现。基于这样的理解,本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机程序即软件产品的形式体现出来,该计算机程序软件产品可以存储在存储介质中,包括若干指令用以使得一台包含数据处理单元的设备(可以是个人计算机,服务器,单片机。MUU或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本发明提供了一种基于OCR的档案智能归档系统,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。
Claims (9)
1.一种基于OCR的档案智能归档系统,其特征在于,包括规则库模块、档案目录模块、任务识别模块、预审模块、归档模块、检索模块;
所述规则库模块用于,基于OCR功能对特定格式的电子化档案样本进行上传,并根据需要进行规则的设定,规则库包括电子化档案样本以及基于样本设定的相关规则;
所述档案目录模块用于,对档案存储结构和内容进行定义,所述对档案存储结构进行定义是指创建一系列目录结构用于对档案的分类,所述对档案存储内容进行定义是指关联规则库,只有满足规则库的档案,才能够通过归档;
所述任务识别模块用于,将所有需要进行电子化识别的档案加入任务队列,根据任务逐个识别每个档案,结合规则库中的规则进行识别,包括:对电子化档案进行二值化处理,并进行去噪,检查是否存在倾斜,存在倾斜情况进行矫正,然后对字符进行OCR字符识别,根据坐标对圈选区域内的文字进行识别,通过比对规则库中的样本,进行分类识别,最后将电子化档案和识别结果信息放入对应的档案目录中;
所述预审模块用于,将任务识别模块得到的识别结果与规则库中的规则进行比对,通过比对结果决定预审是否通过;
所属归档模块用于,将预审结果通过的电子化信息进行复核确认,将确认通过的档案进行最终归档;对预审未通过的电子化信息进行检查,如果发现预审结果出错的电子化信息,则优化规则库的规则;
所述检索模块用于,对已经归档成功的档案进行检索,支持根据档案目录以及标签进行检索,并能够根据用户角色进行权限相关设定;
所述规则包括:样本规则、区域识别规则、印章规则、签字规则;
所述样本规则为一个或两个以上电子化样本,当对文件进行OCR规则识别与样本比对后,相似率达到阈值则满足样本规则,阈值能够根据档案整理需求实际情况进行设置;
所述区域识别规则是根据两组以上的坐标区域的内容进行识别,至少需要包含3组坐标,才能够形成区域识别规则,坐标原点为文件左上角,坐标原点横坐标x和纵坐标y分别为:x=0、y=0,单位为像素,所有坐标基于原点进行计算,对区域内的信息进行识别提取;
所述印章规则,用于判断设定的一个区域内是否存在印章;所述印章包括企业印章和个人印章,包括但不限于:合同章、财务章、法人章、公章;
所述签字规则,用于判断设定的一个区域内是否存在签字;所述签字包括手写体签字、印刷体签字。
2.根据权利要求1所述的系统,其特征在于,所述任务队列是一组先进先出的容器,通过容器能够实现异步处理电子化识别任务;
所述二值化处理能够把电子化档案转换成二值图像,把大于临界灰度值的像素灰度设为灰度极大值,把小于临界灰度值的像素灰度设为灰度极小值;
所述去噪是指将电子化档案形成过程中产生的干扰进行处理。
3.根据权利要求2所述的系统,其特征在于,所述规则库模块具体执行如下步骤:
步骤1-1,创建规则库,对规则库进行名称定义;
步骤1-2,将规则对应样本进行上传,一个规则支持两个以上样本;
步骤1-3,对样本进行设置规则;
其中,步骤1-3具体包括如下步骤:
步骤1-3-1,在样本文件上圈选指定区域;
步骤1-3-2,对指定区域进行添加关键信息文字识别;
步骤1-3-3,设置指定区域添加印章识别检查;
步骤1-3-4,设置指定区域添加签字识别检查。
4.根据权利要求3所述的系统,其特征在于,所述档案目录模块具体执行如下步骤:
步骤2-1,根据需要对档案目录进行创建,设定目录名称;
步骤2-2,对档案目录名称进行合法性检查,包括特殊字符检查、重复检查;
步骤2-3,对目录设置可访问的用户、角色、组织,并根据需要添加访问期限;
步骤2-4,将档案目录关联规则库。
5.根据权利要求4所述的系统,其特征在于,所述任务识别模块具体执行如下步骤:
步骤3-1,用户上传电子化档案;
步骤3-2,将电子化档案加入任务队列;
步骤3-3,从任务队列中获取电子化档案进行识别;
步骤3-4,结合规则库中的规则,将识别结果传递给预审模块,识别结果包含档案内容、标签信息、印章信息、签字信息;
其中,步骤3-3具体包括如下步骤:
步骤3-3-1,对电子化档案进行二值化处理;
步骤3-3-2,对于电子化档案进行去噪处理;
步骤3-3-3,对电子化档案进行图像矫正处理;
步骤3-3-4,对指定区域进行OCR字符识别;
步骤3-3-5,对指定区进行印章识别;
步骤3-3-6,对指定区进行签字识别。
6.根据权利要求5所述的系统,其特征在于,所述预审模块具体执行如下步骤:
步骤4-1,获取任务识别模块识别结果信息;
步骤4-2,结合档案目录中的规则进行审核,对审核通过或失败的电子档案进行标注;
步骤4-3,将标注结果传递给归档模块。
7.根据权利要求6所述的系统,其特征在于,所述归档模块具体执行如下步骤:
步骤5-1,获取预审模块的标注结果,对标注结果进行复核;
步骤5-2,检查通过的电子化档案,确认识别准确性;
步骤5-3,检查不通过的电子化档案,查看不通过原因是否成立;如果成立则进行驳回操作;如果不成立,将当前电子化档案状态修改为成功状态,并且将当前识别错误的样本进行上传;
步骤5-4,将当前识别电子化档案最终归档。
8.根据权利要求7所述的系统,其特征在于,所述检索模块具体执行如下步骤:
步骤6-1,获取当前用户拥有权限访问的档案目录;
步骤6-2,检查当前用户权限是否过期;
步骤6-3,根据标签进行检索,并将查询电子化档案结果信息进行返回。
9.根据权利要求8所述的系统,其特征在于,所述系统具体执行如下步骤:
步骤a1,创建规则库,将需要归档的电子化档案样本进行上传规则库;
步骤a2,圈选识别区域,通过圈选识别区域获取信息;
步骤a3,圈选印章识别区域;
步骤a4,圈选签字识别区域;
步骤a5,识别区域设置完成,即规则库创建成功;
步骤a6,创建档案归档目录;
步骤a7,对当前目录仅设定可访问用户权限以及权限有效时间,拥有访问权限并且在有效期内的用户才能够进行查看;
步骤a8,规则库关联档案目录;
步骤a9,用户上传需要归档的电子化档案后,将待归档电子化档案加入任务队列;
步骤a10,任务队列根据先进先出原则,结合规则库规则逐一对文件进行任务识别,包括:对电子化档案进行二值化处理、去噪处理、图像矫正处理;
对电子化档案进行字符识别,通过与规则库样本比对;
步骤a11,根据规则库,获取圈选指定区域以及识别规则,根据规则不同进行文字识别或印章识别或签字识别,将识别结果推送预审模块;
步骤a12,预审模块接受到识别结果进行检查,检查关键信息是否识别成功,印章区域是否存在印章,签字区域是否存在签字,对满足规则识别结果的添加成功标识,否则添加失败标识,并将结果推送归档模块;
步骤a13,根据预审模块判定结果进行检查,对检查正确的档案进行归档处理;
步骤a14,如果预审模块存在检错的情况,则需要优化规则库;
步骤a15,档案利用时,根据档案利用用户的权限结合归档后的关键信息识别结果进行检索,并将结果响应对用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210790973.4A CN115116068B (zh) | 2022-07-05 | 2022-07-05 | 一种基于ocr的档案智能归档系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210790973.4A CN115116068B (zh) | 2022-07-05 | 2022-07-05 | 一种基于ocr的档案智能归档系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115116068A CN115116068A (zh) | 2022-09-27 |
CN115116068B true CN115116068B (zh) | 2024-05-10 |
Family
ID=83332027
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210790973.4A Active CN115116068B (zh) | 2022-07-05 | 2022-07-05 | 一种基于ocr的档案智能归档系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115116068B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116126790B (zh) * | 2023-04-17 | 2023-07-11 | 百盛联合杭温铁路有限公司 | 铁路工程档案归档方法、装置、电子设备、存储介质 |
CN116189210A (zh) * | 2023-04-23 | 2023-05-30 | 福昕鲲鹏(北京)信息科技有限公司 | 一种图像ocr识别方法、电子设备和存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097606A (ja) * | 1996-09-19 | 1998-04-14 | Toshiba Corp | Ocr装置と連携したファイリングシステム及びファイリング方法 |
CN103870826A (zh) * | 2014-03-31 | 2014-06-18 | 深圳市远行科技有限公司 | 一种电子档案扫描识别建档的方法及系统 |
CN113810554A (zh) * | 2021-08-26 | 2021-12-17 | 广州和辰信息科技有限公司 | 一种档案数字化快速加工的方法和装置 |
WO2021259080A1 (zh) * | 2020-06-24 | 2021-12-30 | 苏宁易购集团股份有限公司 | 票据信息归档方法、装置、计算机设备和存储介质 |
CN114117171A (zh) * | 2021-11-16 | 2022-03-01 | 华中师范大学 | 一种基于赋能思维的工程档案智能收整方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070271303A1 (en) * | 2006-05-18 | 2007-11-22 | Manuel Emilio Menendez | Personal file version archival management and retrieval |
EP3196654B1 (en) * | 2016-01-22 | 2023-06-21 | Roche Diagnostics GmbH | Method and device for transferring sample tubes between a laboratory automation system and a sample archiving system |
-
2022
- 2022-07-05 CN CN202210790973.4A patent/CN115116068B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH1097606A (ja) * | 1996-09-19 | 1998-04-14 | Toshiba Corp | Ocr装置と連携したファイリングシステム及びファイリング方法 |
CN103870826A (zh) * | 2014-03-31 | 2014-06-18 | 深圳市远行科技有限公司 | 一种电子档案扫描识别建档的方法及系统 |
WO2021259080A1 (zh) * | 2020-06-24 | 2021-12-30 | 苏宁易购集团股份有限公司 | 票据信息归档方法、装置、计算机设备和存储介质 |
CN113810554A (zh) * | 2021-08-26 | 2021-12-17 | 广州和辰信息科技有限公司 | 一种档案数字化快速加工的方法和装置 |
CN114117171A (zh) * | 2021-11-16 | 2022-03-01 | 华中师范大学 | 一种基于赋能思维的工程档案智能收整方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115116068A (zh) | 2022-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115116068B (zh) | 一种基于ocr的档案智能归档系统 | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
CN109887153B (zh) | 一种财税处理方法和处理系统 | |
CN107423732A (zh) | 基于Android平台的车辆VIN识别方法 | |
US9384393B2 (en) | Check data lift for error detection | |
US20070033118A1 (en) | Document Scanning and Data Derivation Architecture. | |
US9454545B2 (en) | Automated field position linking of indexed data to digital images | |
US20150286860A1 (en) | Method and Device for Generating Data from a Printed Document | |
CN110888881B (zh) | 图片关联方法、装置、计算机设备及存储介质 | |
US20150120563A1 (en) | Check data lift for ach transactions | |
US9378416B2 (en) | Check data lift for check date listing | |
US20210110447A1 (en) | Partial Perceptual Image Hashing for Invoice Deconstruction | |
CN113379526A (zh) | 智能发票报销方法、装置、电子设备及计算机存储介质 | |
CN112149401A (zh) | 一种基于ocr的文档对比识别方法和系统 | |
CN114218467B (zh) | 一种数字档案管理方法和系统 | |
US11620842B2 (en) | Automated data extraction and document generation | |
CN109214362B (zh) | 单据处理方法及相关设备 | |
TW202018616A (zh) | 智能會計帳務系統與會計憑證的辨識入帳方法 | |
CN116343210B (zh) | 档案数字化的管理方法及装置 | |
CN109359878B (zh) | 档案数据处理方法、计算机装置及计算机可读存储介质 | |
CN116798061A (zh) | 一种票据审核识别方法、装置、终端和存储介质 | |
TWM575887U (zh) | 智能會計帳務系統 | |
CN116403233A (zh) | 一种基于数字化档案图像定位及识别方法 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
CN112766892A (zh) | 结合rpa和ai的资金配比的方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |