CN113239893A - 一种文档录入复核方法、系统、电子设备及介质 - Google Patents

一种文档录入复核方法、系统、电子设备及介质 Download PDF

Info

Publication number
CN113239893A
CN113239893A CN202110649717.9A CN202110649717A CN113239893A CN 113239893 A CN113239893 A CN 113239893A CN 202110649717 A CN202110649717 A CN 202110649717A CN 113239893 A CN113239893 A CN 113239893A
Authority
CN
China
Prior art keywords
element image
identification information
primary
quality inspection
image slices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110649717.9A
Other languages
English (en)
Inventor
蔡超伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Zhizisi Technology Co ltd
Original Assignee
Shenzhen Zhizisi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Zhizisi Technology Co ltd filed Critical Shenzhen Zhizisi Technology Co ltd
Priority to CN202110649717.9A priority Critical patent/CN113239893A/zh
Publication of CN113239893A publication Critical patent/CN113239893A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Abstract

本发明提供了一种文档录入复核方法、系统、电子设备及介质,该方法通过获取初次录入文档对应的原始要素影像,并对原始要素影像进行切分,得到若干个要素影像切片,获取要素影像切片所对应的初次录入文档的初次识别信息,根据初次识别信息对要素影像切片进行标注并分类,得到若干个要素影像类别,按照要素影像类别对要素影像切片分组进行二次识别,得到要素影像切片的二次识别信息,根据初次识别信息与二次识别信息确定复核结果,由于对要素影像切片分组后再按组别进行二次识别,对于同一类别的要素影像切片处理效率更高,避免了重复性工作,提升了工作效率、降低了文档录入成本,减少资源浪费。

Description

一种文档录入复核方法、系统、电子设备及介质
技术领域
本发明涉及数据处理技术领域,尤其涉及一种文档录入复核方法、系统、电子设备及介质。
随着无纸化办公的进一步推广,越来越多的纸质档案、纸质单据等资料需要进行数字化储存。由于录入过程中不可避免的会存在一定的误差,因此,往往需要对录入的文档进行复核,以便提升录入准确率,提升所录入文档的可靠性。
相关技术中往往通过两次文档录入的方式得到两个版本的录入文档,再通过对两个版本的录入文档进行比对,进而完成文档录入的复核。但由于通常情况下任意一个版本的录入文档的错误率都远小于正确率,因此,重复的两次文档录入工作,通过对一个要素进行重复处理来确保录入文档的准确,存在大量的重复性工作,工作效率低、文档录入成本高、造成了资源浪费。
发明内容
鉴于以上所述现有技术的缺点,本发明提供一种,以解决上述技术问题。
本发明提供的一种文档录入复核方法,所述方法包括:
获取初次录入文档对应的原始要素影像,并对所述原始要素影像进行切分,得到若干个要素影像切片;
获取所述要素影像切片所对应的所述初次录入文档的初次识别信息;
根据所述初次识别信息对所述要素影像切片进行标注并分类,得到若干个要素影像类别;
按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息;
根据所述初次识别信息与二次识别信息确定复核结果。
可选的,对所述原始要素影像进行切分,得到若干个要素影像切片包括:
对所述原始要素影像按照字符进行切分,得到若干个包括一个字符的所述要素影像切片。
可选的,所述按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息包括以下任意之一:
按照所述要素影像类别对所述要素影像切片进行任务分发,按照所述要素影像类别分别显示所述要素影像切片,获取所述要素影像切片的二次识别信息;
按照所述要素影像类别对所述要素影像切片进行任务分发,根据分类中的所述要素影像切片所对应的所述初次识别信息确定预设单字符识别模型,将分类中的所述要素影像切片输入所述预设单字符识别模型,若所述预设单字符识别模型识别成功,得到所述要素影像切片的二次识别信息,若所述预设单字符识别模型识别失败,将所述要素影像切片输入预设全字符识别模型,得到所述要素影像切片的二次识别信息;
按照所述要素影像类别对所述要素影像切片进行任务分发,根据分类中的所述要素影像切片所对应的所述初次识别信息确定预设全字符识别模型,将分类中的所述要素影像切片输入所述预设全字符识别模型,得到所述要素影像切片的二次识别信息。
可选的,所述根据所述初次识别信息与二次识别信息确定复核结果包括以下至少之一:
若同一所述要素影像切片所对应的所述初次识别信息与二次识别信息相同,所述初次识别信息的复核结果包括复核成功;
若同一所述要素影像切片所对应的所述初次识别信息与二次识别信息不相同,所述初次识别信息的复核结果包括复核失败,所述方法还包括,对所述初次识别信息所对应的所述要素影像切片进行三次识别,并进行再次复核。
可选的,根据所述初次识别信息与二次识别信息确定复核结果包括:
将所述二次识别信息按照所对应的所述要素影像切片在所述原始要素影像中的排序顺序进行重组,得到二次录入文档;
根据所述初次识别信息和二次识别信息对所述初次录入文档和二次录入文档进行比对,得到比对结果;
若所述比对结果包括所述初次录入文档和二次录入文档一致,所述初次录入文档的复核结果包括复核成功;
若所述比对结果包括所述初次录入文档和二次录入文档不一致,所述初次录入文档的复核结果包括复核失败,对所述原始要素影像进行三次识别,并进行再次复核。
可选的,所述方法还包括:
获取若干个复核结果包括复核成功的所述初次识别信息所对应的原始要素影像,作为质检要素影像,并对所述质检要素影像按照字符进行切分,得到若干个质检要素影像切片;
根据所述初次识别信息对所述质检要素影像切片进行标注并分类;
根据分类中的所述质检要素影像切片所对应的所述初次识别信息确定预设单字符识别模型,将分类中的所述质检要素影像切片输入所述预设单字符识别模型,若各所述质检要素影像切片在所述预设单字符识别模型中均识别成功,质检合格,若存在至少一个所述质检要素影像切片在所述预设单字符识别模型中识别失败,质检不合格,或,按照分类分别显示所述质检要素影像切片,并获取输入的质检结果,所述质检结果包括质检合格和质检不合格。
可选的,若所述质检结果包括质检不合格,所述方法还包括:
获取质检不合格的所述质检要素影像切片所对应的初次识别信息;
获取各初次识别信息的质检合格率,所述质检合格率根据所述质检要素影像切片的总数和所述初次识别信息所对应的所述质检要素影像切片的数量确定;
若存在异常识别信息,根据所述异常识别信息对预设单字符识别模型和/ 或预设全字符识别模型进行重训练,所述异常识别信息包括所述质检合格率低于预设质检合格率阈值的所述初次识别信息。
本发明还提供了一种文档录入复核系统,所述系统包括:
影像切分模块,用于获取初次录入文档对应的原始要素影像,并对所述原始要素影像进行切分,得到若干个要素影像切片;
初次识别信息获取模块,用于获取所述要素影像切片所对应的所述初次录入文档的初次识别信息;
分类模块,用于根据所述初次识别信息对所述要素影像切片进行标注并分类,得到若干个要素影像类别;
识别模块,用于按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息;
确定模块,用于根据所述初次识别信息与二次识别信息确定复核结果。
本发明还提供了一种电子设备,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如上述实施例中任一项所述的方法。
本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如上述实施例中任一项所述的方法。
本发明的有益效果:本发明提供了一种文档录入复核方法、系统、电子设备及介质,该方法通过获取初次录入文档对应的原始要素影像,并对原始要素影像进行切分,得到若干个要素影像切片,获取要素影像切片所对应的初次录入文档的初次识别信息,根据初次识别信息对要素影像切片进行标注并分类,得到若干个要素影像类别,按照要素影像类别对要素影像切片分组进行二次识别,得到要素影像切片的二次识别信息,根据初次识别信息与二次识别信息确定复核结果,避免了重复性工作,提升了工作效率、降低了文档录入成本,减少资源浪费。
附图说明
图1是本发明实施例中文档录入复核方法的一种流程示意图。
图2是本发明实施例中原始要素影像拆分分类的一种过程示意图。
图3是本发明实施例中文档录入复核系统的一种结构示意图。
图4是本发明一实施例中电子设备的一种结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
在下文描述中,探讨了大量细节,以提供对本发明实施例的更透彻的解释,然而,对本领域技术人员来说,可以在没有这些具体细节的情况下实施本发明的实施例是显而易见的,在其他实施例中,以方框图的形式而不是以细节的形式来示出公知的结构和设备,以避免使本发明的实施例难以理解。
相关技术中,针对纸质文档主要采用OCR(Optical Character Recognition,光学字符识别)自动识别或人工录入的方式进行处理来实现文档的数字化录入,为了确保数字化文档录入结果的准确,一般采用重复作业和结果比对的方式来确保最终结果可靠。
在一个实施例中,数字化文档录入工作主要分为:影像采集、业务要素提取/切分、第一次识别/录入、第二次识别/录入、结果校验、人工质检,具体工作流程如下:
影像采集:将凭证、票据、单据等纸质文档通过扫描、拍照等方式形成符合标准的图片;
业务要素提取/切分:系统按照不同的文档格式模板和数字化要求进行要素定位和提取、分割,比如姓名、地址、账号、金额、电话等,各自形成要素影像切片;
第一次识别/录入:通过系统调度将要素影像切片分发给不同的自动OCR 作业程序(以下简称机器人)或作业人员形成第一次识别/录入结果。如果是机器人通过OCR识别形成对应的结果,如果是作业人员则按照切片影像内容手工录入形成对应结果。
第二次识别/录入:通过系统调度将要素影像切片再次进行分发,确保同一切片会分发给与第一次识别/录入不同的作业人员或机器人再次处理,形成第二次识别/录入结果。
结果校验:如果对同一切片的前后两次识别/录入处理结果均相同,认为该切片对应的结果数据正确,如果不相同则认为结果存在错误,需要进行重新处理;
人工质检:抽取一定比例(比例取值区间为[0%,100%],例如10%)已经完成了两次处理的切片,分发给做作业人员进行质检(质检的手段可以是录入或查看),如果确认结果正确则校验成功,否者重新进行两次识别/录入处理。
在上述流程中,由于在绝大多数情况下“第一次识别/录入”环节自动作业和人工录入结果都是正确的,只有少数结果会出现偏差。所以我们可以发现“第二次识别/录入”和“质检抽查”这两个环节都是按照与“第一次识别/录入”环节同样或类似的工作方式,对同一个要素进行反复处理来确保结果准确,因此这两个环节存在大量的重复性工作,如果能提高这两部分的工作效率,则能有效提升整体工作效率。
实施例一
如图1所示,本实施例中的一种文档录入复核方法,包括:
S101:获取初次录入文档对应的原始要素影像,并对原始要素影像进行切分,得到若干个要素影像切片。
可选的,初次录入文档中的一部分或全部是通过对原始要素影像进行识别所得到的。换句话说,原始要素影像可以是整个初次录入文档所对应的影像集合,也可以是影像集合中的一部分。例如,初次录入文档是根据1000个要素影像处理得到的,原始要素影像可以是这1000个要素影像,也可以是从其中选取 100个要素影像。通过对要素影像进行分批处理,可以减少每一次所处理的要素影像的数量,所需要的资源相对较少,更加易于操作。
可选的,原始要素影像中的要素可以是同一个种类,例如均为数字,这样处理起来相对较为容易,速度也更快。
可选的,原始要素影像中的要素可以是多个种类,例如包括文字、数字、符号等,这样处理起来相对于同一种类的原始要素影像较为复杂一点,但采用本实施例所提供的文档录入复核方法进行文档的复核也是同样较为简单,易操作。
在一些实施例中,在步骤S101执行之前,该方法还包括:
获取待录入文档的标准图像,并对标准图像进行切片,得到若干个要素影像,生成要素影像集合;
对该要素影像集合进行识别,得到初次录入文档;
从要素影像集合中选取若干个要素影像,作为原始要素影像。
其中,原始要素影像可以是全部的要素影像,也可以是要素影像集合中的部分要素影像。
在一些实施例中,一种初次录入文档的获取方式包括:
对原始要素影像进行OCR识别和/或人工识别,得到初次录入文档。
可选的,原始要素影像可以通过对凭证、票据、单据等纸质文档通过扫描、拍照等方式形成符合标准的标准图像,在对该图像按照原始排布顺序进行要素提取/切分,录入按照对应的文档格式模板和数字化文档录入要求进行要素定位和提取分割,切割生成若干个包括要素的原始要素影像。
可选的,原始要素影像也可以直接就是标准图像,通过对要素进行定位,在该标准图像中设定有若干个要素区域,各要素区域中均包括要素,后续在进行切分时,仅对要素区域中的图像进行切分处理。其中,要素区域的确定可以是通过图像识别的方式确定,也可以是通过人工标注,自然语言处理(如语义识别)等方式来实现。
可选的,要素可以是姓名、地址、账号、金额、电话等本领域技术人员所规定的文档信息。
在一些实施例中,对原始要素影像进行切分,得到若干个要素影像切片包括:
对原始要素影像按照字符进行切分,得到若干个包括一个字符的要素影像切片。
换句话说,每一个要素影像切片中包括且仅包括一个字符。例如,要素为数字,则一个要素影像切片中仅包括一个数字。
通过对原始要素影像按照字符进行切分,可以得到包括且仅包括一个字符的要素影像切片,这样在后续处理的过程中,要素影像切片中的要素信息较为单一,更加方便处理,可以有效的提升处理速度。
当然,对于原始要素影像进行切分的方式还可以是按照多个字符进行切分,例如,每两位字符进行切分。又例如,在进行身份证号码录入时,往往同一地区的身份证前面4位或者前面6位均是相同的,因此可以采用前面4位切分一次,而后连着的10位号码每两位切分一次,最后4位号码每个字符切分一次,切分效果如下:1234/05/19/91/01/01/2/2/2/2。切分的方式还可以是其他本领域技术人员需要的方式。
可选的,一种要素影像切片是按照字符进行切分的方式可以通过提取对应的字符坐标,根据字符坐标切分要素,可形成单字符切片(要素影像切片)。该过程可以基于预先训练好的字符识别模型来实现。当然,要素影像切片的获取也可以采用本领域技术人员所知晓的其他方式实现。
S102:获取要素影像切片所对应的初次录入文档的初次识别信息。
可选的,初次识别信息可以是要素影像切片中的字符信息,例如要素影像切片的图像为“1”,则对应的初次录入文档的初次识别信息也即为“1”;初次识别信息也可以是其他标识信息,该标识信息可以标识素影像切片中的字符信息,例如要素影像切片的图像为“张”,则对应的初次识别信息可以是“zhang”,也即在初次录入文档中“张”的标识信息。
可选的,为了后续人工识别的方便,初次识别信息可以就是要素影像切片的字符含义。也即,要素影像切片中为“0”,则初次识别信息也为“0”。
可选的,可以通过对原始要素影像进行身份识别信息的标注,在后续得到的初次录入文档中该原始要素影像所识别得到的初次识别信息也具有相同的身份识别信息,后续该原始要素影像所切分得到的要素影像切片也具有相同的身份识别信息,以及该要素影像切片在原始要素影像中的字符位置信息,这样,就可以通过要素影像切片得到对应的初次识别信息。例如,原始要素影像中的字符为“0123654”,身份识别信息为X,其所得到的初次录入文档的初次识别信息为“0123654”,对该原始要素影像进行切分,按照字符顺序得到了第一要素影像切片、第二要素影像切片、第三要素影像切片、第四要素影像切片、第五要素影像切片、第六要素影像切片、第七要素影像切片,则第七要素影像切片的身份识别信息为“X”,字符位置信息为“第7位”,其所对应的初次识别信息为“4”。
S103:根据初次识别信息对要素影像切片进行标注并分类,得到若干个要素影像类别。
可选的,通过初次识别信息对要素影像切片进行标注,再根据标注结果对各要素影像切片进行分类,这样可以得到若干个要素影像类别。以数字为例,当要素影像切片中均包括一个数字时,则要素影像切片的最别做多为10类,每一个要素影像类别中的要素影像切片中均包括相同的一个数字。
S104:按照要素影像类别对要素影像切片分组进行二次识别,得到要素影像切片的二次识别信息。
也即,对于同属于一个要素影像类别的要素影像切片进行同步识别,一类一类的进行识别,这样每一次识别的一组要素影像切片中的绝大多数都是同一个字符(要素),对于其中混入的其他字符(要素)则可以很容易的被查找出来,这样可以更加快速方便的实现对于录入文档的复核。
在一些实施例中,按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息包括以下至少之一:
按照要素影像类别对要素影像切片进行任务分发,按照要素影像类别分别显示要素影像切片,获取要素影像切片的二次识别信息;
按照要素影像类别对要素影像切片进行任务分发,根据分类中的要素影像切片所对应的初次识别信息确定预设单字符识别模型,将分类中的要素影像切片输入预设单字符识别模型,若预设单字符识别模型识别成功,得到要素影像切片的二次识别信息,若预设单字符识别模型识别失败,将要素影像切片输入预设全字符识别模型,得到要素影像切片的二次识别信息;
按照要素影像类别对要素影像切片进行任务分发,根据分类中的要素影像切片所对应的初次识别信息确定预设全字符识别模型,将分类中的要素影像切片输入预设全字符识别模型,得到要素影像切片的二次识别信息。
在一些实施例中,在对要素影像切片按照分组进行二次识别之前,该方法还包括:
对要素影像切片进行图像增强处理和归一化处理,以提升要素影像切片的清晰度,同时对要素影像切片的尺寸进行归一化处理,更加便于后续的显示、人工识别或机器识别。
可选的,对要素影像切片进行二次识别,可以通过人工识别的方式实现,由于是根据要素影像类别对要素影像切片进行任务分发,这样,对于每一个拿到任务的人来说,收到的均是对同一个字符的识别,其显示设备中所显示的要素影像切片理论上应该均是同样的字符,若存在异常字符,也即存在与其他字符不一样的字符,则很容易被发现,这样可以有效的提升二次识别的效率。
可选的,对要素影像切片进行二次识别,可以通过机器视觉识别的方式实现,例如,可以通过对各个分类中的要素影像切片进行聚类处理,若存在离散的要素影像切片,再对离散的要素影像切片进行识别,得到识别结果,作为二次识别信息。
可选的,预设单字符识别模型可以是预先设定的,对于某一个字符识别的模型,对于单一字符进行识别的模型较为容易训练,且识别的准确度比价有保障。
可选的,预设全字符识别模型可以是预先设定的,其可以识别各种原始要素影像中的要素。对于某一分类的要素影像切片的二次识别信息理论上应当是一致的,若在某一分类中的二次识别信息中存在“独特”的字符,则可以很容易的被发现。
关于预设单字符识别模型、预设全字符识别模型的训练可以采用本领域的相关技术手段实现,在此不做限定。
在一些实施例中,二次识别信息可以是既使用相同字符/要素的识别模型 (预设单字符识别模型)进行识别,又使用全字符/全要素识别的模型(预设全字符识别模型)进行识别,若两个模型的识别结果一致,则作为二次识别信息。由于预设单字符识别模型是针对于单一字符/要素进行识别,预设全字符识别模型是针对全部的字符/要素进行识别,两者的识别方式存在显著差异,双方的识别结果可以形成交叉校验,进而可以进一步保证二次识别信息的准确性,相应的可以确保后续文档录入复核的准确性、可靠性。
S105:根据初次识别信息与二次识别信息确定复核结果。
可选的,复核结果包括复核成功和复核失败。
在一些实施例中,根据初次识别信息与二次识别信息确定复核结果包括以下至少之一:
若同一要素影像切片所对应的初次识别信息与二次识别信息相同,初次识别信息的复核结果包括复核成功;
若同一要素影像切片所对应的初次识别信息与二次识别信息不相同,初次识别信息的复核结果包括复核失败。
可选的,同一要素影像切片所对应的初次识别信息与二次识别信息相同,可以说明初次录入文档中的初次识别信息部分的识别是准确的。后续通过对初次录入文档所对应的全部要素影像进行复核,若全部要素影像的要素影像切片均复核成功,则该初次录入文档复核成功。
在一些实施例中,若初次识别信息的复合结果包括复核失败,对初次识别信息所对应的要素影像切片进行三次识别,并进行再次复核。
其中,三次识别的方式可以是跟初次识别的方式相同,也可以不同。例如,初次识别采用的是预设全字符识别模型进行识别,三次识别可以采用预设全字符识别模型进行识别,也可以采用人工识别的方式进行识别录入。再次复核的方式与本实施例所提供的复核方法相同,也即,对初次识别信息复核失败的原始要素影像进行切分,再按照初次识别信息进行分类,进而进行复核。
在一些实施例中,根据初次识别信息与二次识别信息确定复核结果包括:
将二次识别信息按照所对应的要素影像切片在原始要素影像中的排序顺序进行重组,得到二次录入文档;
根据初次识别信息和二次识别信息对初次录入文档和二次录入文档进行比对,得到比对结果;
若比对结果包括初次录入文档和二次录入文档一致,初次录入文档的复核结果包括复核成功;
若比对结果包括初次录入文档和二次录入文档不一致,初次录入文档的复核结果包括复核失败,对原始要素影像进行三次识别,并进行再次复核。
可选的,根据初次识别信息和二次识别信息对初次录入文档和二次录入文档进行比对,也即对初次录入文档和二次录入文档的文档内容进行比对。
可选的,对原始要素影像进行三次识别,并进行再次复核中,三次识别的方式可以与初次录入文档的获取方式相同,再次复核采用的也是本实施例中所提供的文档录入复核方法,在此不再赘述。
可选的,若比对结果包括初次录入文档和二次录入文档不一致,获取差异位置所对应的要素影像切片,对要素影像切片进行三次识别,并进行再次复核。差异位置也即初次录入文档和二次录入文档中存在不同的录入内容所在的位置,对不同的录入内容所对应的要素影像切片整体再进行三次识别,再进行再次复核,可以有效的将识别失误的文档信息及时更正,保证准确。其中三次识别和再次复核的过程与前述类似,再次不再赘述。
可选的,对于单字符处理结果(二次识别信息)进行回拼(重组),再对得到的二次录入文档与初次录入文档进行比对,以得到原始要素影像最终复核结果。其中,重组的一种示例性的方式为:
在对原始要素影像进行切分时,记录编号为id的要素影像切片S(id)对应的编号为x的原始要素影像E(x),以及S(id)在原始要素影像中的位置索引为i,即一定存在一个图像切分函数f,使得S(id)=f(E(x),i);即一定存在一个id映射函数g,使得id=g(x,i)。令每个id的要素影像切片的二次识别信息为result(id),则result(id)=result(g(x,i)),令原始要素影像E(x)的识别结果(初次识别信息)为R(x),则根据x,对应的要素影像切片的二次识别信息result(g(x,i))可关联至原始要素影像E(x)的识别结果(初次识别信息) R(x),根据此规则可实现二次识别信息的重组(回拼)。可选的,要素影像切片在所述原始要素影像中的排序顺序也即该要素影响切片所对应的字符在原始要素影像中字符集合的位置。
在一些实施例中,该方法还包括:
获取若干个复核结果包括复核成功的初次识别信息所对应的原始要素影像,作为质检要素影像,并对质检要素影像按照字符进行切分,得到若干个质检要素影像切片;
根据初次识别信息对质检要素影像切片进行标注并分类;
根据分类中的质检要素影像切片所对应的初次识别信息确定预设单字符识别模型,将分类中的质检要素影像切片输入预设单字符识别模型,若各质检要素影像切片在预设单字符识别模型中均识别成功,质检合格,若存在至少一个质检要素影像切片在预设单字符识别模型中识别失败,质检不合格,或,按照分类分别显示质检要素影像切片,并获取输入的质检结果,质检结果包括质检合格和质检不合格。
可选的,质检要素影像切片可以是从要素影像切片中随机选取的,例如,从要素影像切片中选取20%作为质检要素影像切片。质检要素影像切片的数量大于0且小于或等于复核成功的要素影像切片数量。
对质检要素影像切片进行标注和分类的方式可以参见复核过程中的标注和分类,在此不再赘述。
可选的,质检的过程可以采用人工和/或机器识别来实现。例如,通过将一部分质检要素影像切片按照其分类进行显示,进而通过人工识别的方式确定质检结果,并输入,另一部分质检要素影像切片按照其分类分别输入对应的预设单字符识别模型,该预设单字符识别模型仅能识别这一类的初次识别信息,进而得到质检结果。综合上述两个部分的质检结果,若均是合格,则质检合格,否则,质检不合格。
在一些实施例中,若质检结果包括质检不合格,方法还包括:
获取质检不合格的质检要素影像切片所对应的初次识别信息;
获取各初次识别信息的质检合格率,质检合格率根据质检要素影像切片的总数和初次识别信息所对应的质检要素影像切片的数量确定;
若存在异常识别信息,根据异常识别信息对预设单字符识别模型和/或预设全字符识别模型进行重训练,异常识别信息包括质检合格率低于预设质检合格率阈值的初次识别信息。
可选的,若存在异常识别信息,说明采用的预设单字符识别模型和/或预设全字符识别模型准确性存在问题,因此需要对其根据异常识别信息进行重训练,以提升识别准确率。
可选的,当采用人工识别、复核或质检时,将异常识别信息与要素影像切片或质检要素影像切片共同显示。
本实施例提供的方法利用“第一次识别/录入”环节形成的结果数据,对原始图像按要素的结果字符进行拆分和归类,提高“第二次识别/录入”和“质检抽查”这两个环节的工作效率。下面,通过一个示例性的说明对本实施例汇总的文档录入复核方法进行说明:
进行影像采集。例如将凭证、票据、单据等纸质文档通过扫描、拍照等方式形成符合标准的图片。
业务要素提取/切分(按原始方式):系统按照不同的文档格式模板和数字化要求进行要素定位和提取、分割,比如姓名、地址、账号、金额、电话等,各自形成原始要素影像。
第一次识别/录入:通过系统调度将要原始素影像分发给不同的自动OCR 作业程序(以下简称机器人)或作业人员形成第一次识别/录入结果。如果是机器人通过OCR识别形成对应的结果,如果是作业人员则按照切片影像内容手工录入形成对应结果。
第二次识别/录入(录入文档复核):根据第一次识别/录入产生的结果,对原始要素影像进行分批次处理,首先对各要素按字符进行拆分,然后根据字符重新归类和分批处理,处理完毕后将结果按原始要素进行回拼,形成第二次识别/录入结果。以处理数字要素为例(其他字符依次类推),一种示例性的采用模型识别的处理方式如下:
对已经进行过第一次识别/录入处理的原始要素影像按预设数量(例如100 片)分批;
对每个原始要素影像根据第一次识别/录入处理的结果按单个字符进行切分,形成单字符切片(要素影像切片),并按结果(初次识别信息)进行标记,例如:所有的数字字符切片均会分别按处理结果标记为0~9中的某个字符。
对单字符切片(要素影像切片)按照标记的结果字符进行分类,然后分批处理,对于分批后的字符,每批应该都是相同的字符,例如先处理所有标记为 0的字符,再处理所有标记为1的字符,依次类推……
对于上述按标记的结果字符分批的单字符切片(要素影像切片),再次进行任务分发,输入预设全字符识别模型、预设单字符识别模型或作业人员进行再次识别/录入处理。由于每个任务中的字符绝大多数对是同一个字符,如果是人工录入则效率更高;如果是机器人自动OCR识别则可采用指定的单字符识别模型来提高识别效果。
对于单字符切片的处理结果,按照原要素进行回拼,形成第二次识别/录入结果。
结果校验:如果对同一原始要素影像的前后两次识别/录入处理结果均相同,认为该原始要素影像对应的结果数据正确,如果不相同则认为结果存在错误,需要进行重新识别/录入处理;
一种示例性的采用人工识别的处理方式如下:
抽取一定比例,比例取值区间为[0%,100%],例如10%,已经完成了两次处理的切片,分发给做作业人员进行质检,质检的手段可以是录入或查看。根据校验后的结果,对原始要素图片进行分批次处理,首先对各要素按字符进行拆分,然后根据字符重新归类和分批处理,处理完毕后将结果按原始要素进行回拼还原,将字符的质检结果与原始要素进行关联,形成原始要素的质检结果。具体如下,以处理数字要素为例,其他字符依次类推:
对已经校验完毕的原始要素影像按预设数量(例如100片)分批;
对每个质检要素影像根据复核后的初次识别信息(或二次识别信息)按单个字符进行切分,形成单字符切片(质检要素影像切片),并按结果进行标记,例如:所有的数字字符切片均会分别按处理结果标记为0~9中的某个字符。
对质检要素影像切片按照标记的结果字符进行分类,然后分批处理,对于分批后的字符,每批应该都是相同的字符,例如先处理所有标记为0的字符,再处理所有标记为1的字符,依次类推……
对于上述按标记的结果字符分批的质检要素影像切片,再次进行任务分发,交由机器人或作业人员进行检查。因为每个任务中的字符在通过前述步骤的两次识别/录入和校验处理之后,绝大多数字符均是正确的,因此分类之后的单个字符,每一批中绝大多数也都是同一个字符,所以如果任务屏幕展示的都是同一字符则校验成功,完成质检工作;如果其中出现其他字符则说明存在结果错误,需重新进行两次识别/录入处理。
对于校验操作可采用人工或模型识别进行判断。
人工操作:一般来说人工在一批同一个字符中发现不同字符,更为清楚。
识别模型:此处为在同一个字符批次中发现不同的字符的专用模型(预设单字符识别模型),与前述步骤中的识别模型(预设全字符识别模型)不同,预设全字符识别模型是对不同的字符进行识别。
对于质检要素影像切片的质检结果,可以关联回拼至原始要素影像,如果原始要素影像中所有字符都质检成功,则整个原始要素影像质检成功;如果原始要素影像中存在某个字符质检失败,则整个原始要素影像检失败,这样形成原始要素影像的最终质检结果。
参见图2,图2提供了一种原始要素影像(原始要素)拆分成要素影像切片(质检要素影像切片,也即图中的拆分成单字符切片),再进行按字符分类分批处理的示意图。
本方案利用“第一次识别/录入”环节的结果大概率为正确的特点,根据处理结果对字符图片进行切分和分类,实现对字符图片的分批处理。对于分批后的同一字符,由于无需进行不同字符的切换,人工录入时效率更高,在人工质检时能更快发现错误。在OCR处理时由于可以根据字符选择指定识别模型(预设单字符识别模型),所以也能取得更好的识别效果。综上,本实施例提供的文档录入复核方法能提升文档数字化流程的整体工作效率。
本实施例提供了一种文档录入复核方法,通过获取初次录入文档对应的原始要素影像,并对原始要素影像进行切分,得到若干个要素影像切片,获取要素影像切片所对应的初次录入文档的初次识别信息,根据初次识别信息对要素影像切片进行标注并分类,得到若干个要素影像类别,按照要素影像类别对要素影像切片分组进行二次识别,得到要素影像切片的二次识别信息,根据初次识别信息与二次识别信息确定复核结果,由于对要素影像切片分组后再按组别进行二次识别,对于同一类别的要素影像切片处理效率更高,避免了重复性工作,提升了工作效率、降低了文档录入成本,减少资源浪费。
可选的,根据录入结果(初次识别信息)对原始要素影像进行单字符切分和分类,在后续自动识别、人工录入和人工质检环节实现按单字符分批处理,提升工作效率。
可选的,本实施例提供的方法,通过对原始要素影像进行单字符切分,按照切分后的单字符进行分类、分批处理,可以实现人工录入时反复录入同一批次中的相同字符,OCR机器人自动识别时根据字符分类指定特定的预设单字符识别模型,人工质检时在同一屏幕的相同字符中发现不同的错误结果,可以有效的提升工作效率,提升工作准确性。
实施例二
参见图3,本发明实施例还提供了文档录入复核系统300,系统包括:
影像切分模块301,用于获取初次录入文档对应的原始要素影像,并对原始要素影像进行切分,得到若干个要素影像切片;
初次识别信息获取模块302,用于获取要素影像切片所对应的初次录入文档的初次识别信息;
分类模块303,用于根据初次识别信息对要素影像切片进行标注并分类,得到若干个要素影像类别;
识别模块304,用于按照要素影像类别对要素影像切片分组进行二次识别,得到要素影像切片的二次识别信息;
确定模块305,用于根据初次识别信息与二次识别信息确定复核结果。
在本实施例中,该系统执行上述任一实施例所述的方法,具体功能和技术效果参照上述实施例即可,此处不再赘述。
请参阅图4,本申请实施例还提供了一种电子设备400,该电子设备400 包括处理器401、存储器402和通信总线403;
所述通信总线403用于将所述处理器401和存储器402连接;
所述处理器401用于执行所述存储器402中存储的计算机程序,以实现如上述任一实施例所述的方法。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的实施例一所包含步骤的指令(instructions)。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序用于使所述计算机执行如实施例一中任一个所述的方法。
上述实施例仅示例性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,但凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (10)

1.一种文档录入复核方法,其特征在于,所述方法包括:
获取初次录入文档对应的原始要素影像,并对所述原始要素影像进行切分,得到若干个要素影像切片;
获取所述要素影像切片所对应的所述初次录入文档的初次识别信息;
根据所述初次识别信息对所述要素影像切片进行标注并分类,得到若干个要素影像类别;
按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息;
根据所述初次识别信息与二次识别信息确定复核结果。
2.如权利要求1所述的文档录入复核方法,其特征在于,对所述原始要素影像进行切分,得到若干个要素影像切片包括:
对所述原始要素影像按照字符进行切分,得到若干个包括一个字符的所述要素影像切片。
3.如权利要求2所述的文档录入复核方法,其特征在于,所述按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息包括以下任意之一:
按照所述要素影像类别对所述要素影像切片进行任务分发,按照所述要素影像类别分别显示所述要素影像切片,获取所述要素影像切片的二次识别信息;
按照所述要素影像类别对所述要素影像切片进行任务分发,根据分类中的所述要素影像切片所对应的所述初次识别信息确定预设单字符识别模型,将分类中的所述要素影像切片输入所述预设单字符识别模型,若所述预设单字符识别模型识别成功,得到所述要素影像切片的二次识别信息,若所述预设单字符识别模型识别失败,将所述要素影像切片输入预设全字符识别模型,得到所述要素影像切片的二次识别信息;
按照所述要素影像类别对所述要素影像切片进行任务分发,根据分类中的所述要素影像切片所对应的所述初次识别信息确定预设全字符识别模型,将分类中的所述要素影像切片输入所述预设全字符识别模型,得到所述要素影像切片的二次识别信息。
4.如权利要求1-3任一项所述的文档录入复核方法,其特征在于,所述根据所述初次识别信息与二次识别信息确定复核结果包括以下至少之一:
若同一所述要素影像切片所对应的所述初次识别信息与二次识别信息相同,所述初次识别信息的复核结果包括复核成功;
若同一所述要素影像切片所对应的所述初次识别信息与二次识别信息不相同,所述初次识别信息的复核结果包括复核失败,所述方法还包括,对所述初次识别信息所对应的所述要素影像切片进行三次识别,并进行再次复核。
5.如权利要求1-3任一项所述的文档录入复核方法,其特征在于,根据所述初次识别信息与二次识别信息确定复核结果包括:
将所述二次识别信息按照所对应的所述要素影像切片在所述原始要素影像中的排序顺序进行重组,得到二次录入文档;
根据所述初次识别信息和二次识别信息对所述初次录入文档和二次录入文档进行比对,得到比对结果;
若所述比对结果包括所述初次录入文档和二次录入文档一致,所述初次录入文档的复核结果包括复核成功;
若所述比对结果包括所述初次录入文档和二次录入文档不一致,所述初次录入文档的复核结果包括复核失败,对所述原始要素影像进行三次识别,并进行再次复核。
6.如权利要求1-3任一项所述的文档录入复核方法,其特征在于,所述方法还包括:
获取若干个复核结果包括复核成功的所述初次识别信息所对应的原始要素影像,作为质检要素影像,并对所述质检要素影像按照字符进行切分,得到若干个质检要素影像切片;
根据所述初次识别信息对所述质检要素影像切片进行标注并分类;
根据分类中的所述质检要素影像切片所对应的所述初次识别信息确定预设单字符识别模型,将分类中的所述质检要素影像切片输入所述预设单字符识别模型,若各所述质检要素影像切片在所述预设单字符识别模型中均识别成功,质检合格,若存在至少一个所述质检要素影像切片在所述预设单字符识别模型中识别失败,质检不合格,或,按照分类分别显示所述质检要素影像切片,并获取输入的质检结果,所述质检结果包括质检合格和质检不合格。
7.如权利要求6所述的文档录入复核方法,其特征在于,若所述质检结果包括质检不合格,所述方法还包括:
获取质检不合格的所述质检要素影像切片所对应的初次识别信息;
获取各初次识别信息的质检合格率,所述质检合格率根据所述质检要素影像切片的总数和所述初次识别信息所对应的所述质检要素影像切片的数量确定;
若存在异常识别信息,根据所述异常识别信息对预设单字符识别模型和/或预设全字符识别模型进行重训练,所述异常识别信息包括所述质检合格率低于预设质检合格率阈值的所述初次识别信息。
8.一种文档录入复核系统,其特征在于,所述系统包括:
影像切分模块,用于获取初次录入文档对应的原始要素影像,并对所述原始要素影像进行切分,得到若干个要素影像切片;
初次识别信息获取模块,用于获取所述要素影像切片所对应的所述初次录入文档的初次识别信息;
分类模块,用于根据所述初次识别信息对所述要素影像切片进行标注并分类,得到若干个要素影像类别;
识别模块,用于按照所述要素影像类别对所述要素影像切片分组进行二次识别,得到所述要素影像切片的二次识别信息;
确定模块,用于根据所述初次识别信息与二次识别信息确定复核结果。
9.一种电子设备,其特征在于,包括处理器、存储器和通信总线;
所述通信总线用于将所述处理器和存储器连接;
所述处理器用于执行所述存储器中存储的计算机程序,以实现如权利要求1-7中任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序用于使所述计算机执行如权利要求1-7中任一项所述的方法。
CN202110649717.9A 2021-06-10 2021-06-10 一种文档录入复核方法、系统、电子设备及介质 Pending CN113239893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110649717.9A CN113239893A (zh) 2021-06-10 2021-06-10 一种文档录入复核方法、系统、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110649717.9A CN113239893A (zh) 2021-06-10 2021-06-10 一种文档录入复核方法、系统、电子设备及介质

Publications (1)

Publication Number Publication Date
CN113239893A true CN113239893A (zh) 2021-08-10

Family

ID=77139677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110649717.9A Pending CN113239893A (zh) 2021-06-10 2021-06-10 一种文档录入复核方法、系统、电子设备及介质

Country Status (1)

Country Link
CN (1) CN113239893A (zh)

Similar Documents

Publication Publication Date Title
CN109993112B (zh) 一种图片中表格的识别方法及装置
CN101542504B (zh) 后光学字符识别处理中的形状聚类
CN110097329B (zh) 信息审核方法、装置、设备及计算机可读存储介质
CN105590101A (zh) 基于手机拍照的手写答题卡自动处理和阅卷方法及系统
US20210192129A1 (en) Method, system and cloud server for auto filing an electronic form
US6760490B1 (en) Efficient checking of key-in data entry
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111444795A (zh) 票据数据识别方法、电子设备、存储介质及装置
CN112381087A (zh) 结合rpa和ai的图像识别方法、装置、计算机设备和介质
CN111444792A (zh) 票据识别方法、电子设备、存储介质及装置
CN112580108A (zh) 签名和印章完整性验证方法及计算机设备
US7694216B2 (en) Automatic assignment of field labels
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
CN110956087B (zh) 一种图片中表格的识别方法、装置、可读介质和电子设备
CN102637256B (zh) 后光学字符识别处理中的形状聚类
CN111126030B (zh) 标签排版处理方法及装置、系统
CN112613367A (zh) 票据信息文本框获取方法、系统、设备及存储介质
CN113239893A (zh) 一种文档录入复核方法、系统、电子设备及介质
US20020186885A1 (en) Verifying results of automatic image recognition
CN113111869B (zh) 提取文字图片及其描述的方法和系统
JP2001126010A (ja) 帳票処理装置、帳票定義作成方法、領域抽出方法及び記憶媒体
JP5657401B2 (ja) 文書処理装置、及び文書処理プログラム
JP2000020640A (ja) 分類システム、検索システム、分類方法及び記録媒体
CN111444794B (zh) 基于ocr的票据识别辅助方法、设备、存储介质及装置
JPH0962758A (ja) 帳票認識処理システム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination