CN116343227A - 凭证的检验方法及装置、存储介质和电子设备 - Google Patents
凭证的检验方法及装置、存储介质和电子设备 Download PDFInfo
- Publication number
- CN116343227A CN116343227A CN202310258242.XA CN202310258242A CN116343227A CN 116343227 A CN116343227 A CN 116343227A CN 202310258242 A CN202310258242 A CN 202310258242A CN 116343227 A CN116343227 A CN 116343227A
- Authority
- CN
- China
- Prior art keywords
- target
- certificate
- information
- attribute information
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 96
- 238000003860 storage Methods 0.000 title claims abstract description 19
- 239000012634 fragment Substances 0.000 claims abstract description 121
- 238000005520 cutting process Methods 0.000 claims abstract description 92
- 238000012545 processing Methods 0.000 claims abstract description 71
- 238000007781 pre-processing Methods 0.000 claims description 26
- 238000012795 verification Methods 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 13
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000012015 optical character recognition Methods 0.000 description 68
- 238000007689 inspection Methods 0.000 description 63
- 238000010586 diagram Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 19
- 230000006870 function Effects 0.000 description 14
- 238000004590 computer program Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 5
- 230000000295 complement effect Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000004806 packaging method and process Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000001502 supplementing effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种凭证的检验方法及装置、存储介质和电子设备,涉及人工智能技术领域。该方法包括:获取目标凭证的图像,其中,目标凭证为打印的纸质凭证;对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果。通过本申请,解决了相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题。
Description
技术领域
本申请涉及人工智能技术领域,具体而言,涉及一种凭证的检验方法及装置、存储介质和电子设备。
背景技术
相关技术中,金融机构的凭证发放流程如图1所示,具体为先由打印岗打印相关凭证,然后通过智能设备将打印的凭证交接给质检岗,然后质检岗检验打印岗打印的相关凭证中的内容是否正确,如果质检通过,则由质检岗交接给复检岗,如果没有通过质检岗的检验,则由质检岗交接给补打印岗进行补打印,然后将补打印的相关凭证再次交接给质检岗进行检验,同理,复检岗再次对打印的相关凭证进行检验,如果通过复检岗的质检,则直接通过智能设备下发给客户,如果不通过复检岗的质检,则由复检岗交接给补打印岗进行补打印,补打印之后,将补打印的相关凭证再次交接给质检岗进行检验,如果通过质检岗的检验,则再交接给复检岗进行检验。也即,相关技术中金融机构的凭证发放流程为根据系统流程,打印相关凭证,再根据系统二次查询,人工逐项检查是否打印正确,包括姓名、金额、日期等关键信息,同时需要质检印章等关键因素,需要打印岗、补打印岗、质检岗、复检岗等多个岗位人员处理,过程冗长,较为繁琐并容易出错。而且,相关技术中金融机构的凭证发放流程规范性差,缺乏规范化管理;大量人工操作使得业务处理速率慢,运营效率低;人工监督压力大,增加成本。
针对相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种凭证的检验方法及装置、存储介质和电子设备,以解决相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种凭证的检验方法。该方法包括:获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
进一步地,依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果包括:判断每个可信值是否不小于预设阈值;若每个可信值不小于所述预设阈值,则获取所述目标凭证对应的电子凭证;确定所述电子凭证中的多个目标信息,其中,所述多个目标信息至少包括:所述电子凭证的属性信息和第一对象的属性信息,所述第一对象为申请所述电子凭证的对象;依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果。
进一步地,依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果包括:依据N个目标文字信息,确定所述目标凭证中所述目标凭证的属性信息和目标对象的属性信息,所述目标对象为申请所述目标凭证的对象;判断所述目标凭证的属性信息和所述电子凭证的属性信息是否相同,并判断所述目标对象的属性信息和所述第一对象的属性信息是否相同;若所述目标凭证的属性信息和所述电子凭证的属性信息相同,且所述目标对象的属性信息和所述第一对象的属性信息相同,则确定所述检验结果为所述目标凭证的内容正确;若所述目标凭证的属性信息和所述电子凭证的属性信息不相同,和/或,所述目标对象的属性信息和所述第一对象的属性信息不相同,则确定所述检验结果为所述目标凭证的内容错误。
进一步地,将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值包括:对N个碎片进行预处理,得到碎片集合,其中,所述碎片集合中至少包括N个经过预处理后的碎片,所述预处理为以下至少之一:去除噪声处理和矫正处理;采用特征提取方法,从所述碎片集合中提取出N个原始文字信息;对N个原始文字信息进行更正处理,得到目标文字集合,其中,所述目标文字集合中至少包括N个目标文字信息;将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,所述数值集合中至少包括N个可信值。
进一步地,对所述图像进行切割处理,得到切割后的N个碎片包括:获取所述目标凭证的版式信息;依据所述目标凭证的版式信息,确定对所述图像进行切割时的切割位置;基于所述切割位置,对所述图像进行切割处理,得到切割后的N个碎片。
进一步地,获取目标凭证的图像包括:获取所述目标凭证;对所述目标凭证进行扫描处理,得到所述目标凭证的图像。
进一步地,获取所述目标凭证包括:获取模板库,其中,所述模板库用于存储多种凭证对应的模板;从所述模板库中确定所述目标凭证对应的目标模板;依据所述目标模板,确定所述目标凭证的内容信息;基于所述目标模板和所述目标凭证的内容信息,得到所述目标凭证。
为了实现上述目的,根据本申请的另一方面,提供了一种凭证的检验装置。该装置包括:第一获取单元,用于获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;第一处理单元,用于对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;第二处理单元,用于将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;第一确定单元,用于依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
进一步地,所述第一确定单元包括:第一判断模块,用于判断每个可信值是否不小于预设阈值;第一获取模块,用于若每个可信值不小于所述预设阈值,则获取所述目标凭证对应的电子凭证;第一确定模块,用于确定所述电子凭证中的多个目标信息,其中,所述多个目标信息至少包括:所述电子凭证的属性信息和第一对象的属性信息,所述第一对象为申请所述电子凭证的对象;第二确定模块,用于依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果。
进一步地,所述第二确定模块包括:第一确定子模块,用于依据N个目标文字信息,确定所述目标凭证中所述目标凭证的属性信息和目标对象的属性信息,所述目标对象为申请所述目标凭证的对象;第一判断子模块,用于判断所述目标凭证的属性信息和所述电子凭证的属性信息是否相同,并判断所述目标对象的属性信息和所述第一对象的属性信息是否相同;第二确定子模块,用于若所述目标凭证的属性信息和所述电子凭证的属性信息相同,且所述目标对象的属性信息和所述第一对象的属性信息相同,则确定所述检验结果为所述目标凭证的内容正确;第三确定子模块,用于若所述目标凭证的属性信息和所述电子凭证的属性信息不相同,和/或,所述目标对象的属性信息和所述第一对象的属性信息不相同,则确定所述检验结果为所述目标凭证的内容错误。
进一步地,所述第二处理单元包括:第一处理模块,用于对N个碎片进行预处理,得到碎片集合,其中,所述碎片集合中至少包括N个经过预处理后的碎片,所述预处理为以下至少之一:去除噪声处理和矫正处理;第一提取模块,用于采用特征提取方法,从所述碎片集合中提取出N个原始文字信息;第二处理模块,用于对N个原始文字信息进行更正处理,得到目标文字集合,其中,所述目标文字集合中至少包括N个目标文字信息;第一比对模块,用于将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,所述数值集合中至少包括N个可信值。
进一步地,所述第一处理单元包括:第二获取模块,用于获取所述目标凭证的版式信息;第三确定模块,用于依据所述目标凭证的版式信息,确定对所述图像进行切割时的切割位置;第三处理模块,用于基于所述切割位置,对所述图像进行切割处理,得到切割后的N个碎片。
进一步地,所述第一获取单元包括:第三获取模块,用于获取所述目标凭证;第四处理模块,用于对所述目标凭证进行扫描处理,得到所述目标凭证的图像。
进一步地,所述第三获取模块包括:第一获取子模块,用于获取模板库,其中,所述模板库用于存储多种凭证对应的模板;第四确定子模块,用于从所述模板库中确定所述目标凭证对应的目标模板;第五确定子模块,用于依据所述目标模板,确定所述目标凭证的内容信息;第六确定子模块,用于基于所述目标模板和所述目标凭证的内容信息,得到所述目标凭证。
为了实现上述目的,根据本申请的另一方面,提供了一种计算机可读存储介质,所述存储介质存储程序,其中,所述程序执行上述的任意一项所述的凭证的检验方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,所述电子设备包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述的任意一项所述的凭证的检验方法。
通过本申请,采用以下步骤:获取目标凭证的图像,其中,目标凭证为打印的纸质凭证;对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果,其中,检验结果用于表示目标凭证的内容是否正确,解决了相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题。通过对打印的纸质凭证的图像进行切割处理,得到切割后的N个碎片,并将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,再依据N个目标文字信息和N个可信值检验打印的纸质凭证的内容是否正确,进而提升了检验打印的凭证的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据现有技术提供的一种金融机构的凭证发放流程的示意图;
图2是根据本申请实施例提供的凭证的检验方法的流程图;
图3是本申请实施例中凭证打印流程的示意图;
图4是本申请实施例中定义的切割的碎片位置的示意图;
图5是根据本申请实施例提供的可选的凭证的检验方法的示意图;
图6是根据本申请实施例提供的凭证的检验装置的结构的示意图;
图7是本申请实施例中碎片切割OCR识别模块的示意图;
图8是本申请实施例中凭证模型质检模块的示意图;
图9是根据本申请实施例提供的凭证的检验装置的示意图;
图10是根据本申请实施例提供的电子设备的示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
下面结合优选的实施步骤对本发明进行说明,图2是根据本申请实施例提供的凭证的检验方法的流程图,如图2所示,该方法包括如下步骤:
步骤S201,获取目标凭证的图像,其中,目标凭证为打印的纸质凭证。
例如,可以扫描相关打印的凭证(上述的目标凭证)形成凭证影像(上述的图像),并上传发放记录至服务器。然后可以从服务器中获取凭证影像(上述的图像)。
步骤S202,对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数。
例如,对获取到的凭证影像(上述的图像)进行切割,可以形成凭证ID【A】下的碎片集合【a,b,c...】(上述的N个碎片)。
步骤S203,将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度。
例如,将凭证ID【A】下的碎片集合【a,b,c...】中的每个碎片输入OCR识别模型,输出每个碎片对应的凭证信息串(上述的目标文字信息)和各自的可信值(上述的可信值)。
步骤S204,依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果,其中,检验结果用于表示目标凭证的内容是否正确。
例如,获取OCR识别模型输出的多个凭证信息串,即凭证ID【A】下的碎片集合【a,b,c...】对应的凭证信息,通过多个凭证信息串(上述的N个目标文字信息)和后台中存储的凭证信息进行对比,结合碎片可信值(上述的N个可信值),确认质检的结果,即确定相关打印的凭证中的内容是否正确。
通过上述的步骤S201至S204,通过对打印的纸质凭证的图像进行切割处理,得到切割后的N个碎片,并将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,再依据N个目标文字信息和N个可信值检验打印的纸质凭证的内容是否正确,进而提升了检验打印的凭证的效果。
可选地,在本申请实施例提供的凭证的检验方法中,获取目标凭证包括:获取模板库,其中,模板库用于存储多种凭证对应的模板;从模板库中确定目标凭证对应的目标模板;依据目标模板,确定目标凭证的内容信息;基于目标模板和目标凭证的内容信息,得到目标凭证。
例如,图3是本申请实施例中凭证打印流程的示意图,如图3所示,用于打印凭证的凭证打印模块分为模板导入阶段和打印阶段。
而且,凭证模板导入阶段的实现方案可以为:
(1)建立凭证模板库,凭证库中包括凭证类型字典,各种凭证打印的信息组件,凭证打印的坐标,印章库,打印词汇表以及数据字典,凭证类型字典包括所有支持打印的凭证字典,例如:个人资信证明、理财证明、基金证明等;印章库包括业务专用章、法人章;打印词汇表包括常用8国语言,即汉语、日语、英语、俄语、法语、德语、葡萄牙语、西班牙语。
(2)以不同凭证模板输入作为打印样本,并将模板处理后进行归一化操作。
(3)支持凭证模板导入后验证打印样例,并可根据业务需求调整打印的样式,达到打印模板的微调,支持多样化配置。
另外,打印阶段的实现方案可以为:
(1)操作人员输入相关任务指令,具体以智能设备对装置进行调起。
(2)凭证自动识别封包装置处理输入信号,根据客户申请信息自动判断打印模板类型。
(3)从后台数据中对客户信息和凭证所需内容进行特征提取,以获得关键信息,根据模板组件自动匹配相关信息。
(4)利用凭证模板库进行组件打印,输出凭证打印结果。
(5)支持凭证质检不通过的自动补打印。
通过上述的方案,根据凭证模板库中的模板可以实现自动打印相关凭证的效果。
可选地,在本申请实施例提供的凭证的检验方法中,获取目标凭证的图像包括:获取目标凭证;对目标凭证进行扫描处理,得到目标凭证的图像。
例如,扫描相关打印的凭证(上述的目标凭证)形成凭证影像(上述的图像),并上传发放记录至服务器。
通过上述的方案,可以快速准确的将打印的凭证扫描成图像。
可选地,在本申请实施例提供的凭证的检验方法中,对图像进行切割处理,得到切割后的N个碎片包括:获取目标凭证的版式信息;依据目标凭证的版式信息,确定对图像进行切割时的切割位置;基于切割位置,对图像进行切割处理,得到切割后的N个碎片。
例如,在对扫描的凭证影像进行切割时,可以先定义各种凭证的版式,定义切割的碎片位置。而且,图4是本申请实施例中定义的切割的碎片位置的示意图,如图4所示,可以将如图4所示的凭证的版式切割为6个碎片。然后再根据版式,对影像进行切割,并可以形成切割后的多个碎片。
通过上述的方案,根据定义的版式的切割位置可以快速准确的将凭证图像切割为多个碎片。
可选地,在本申请实施例提供的凭证的检验方法中,将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值包括:对N个碎片进行预处理,得到碎片集合,其中,碎片集合中至少包括N个经过预处理后的碎片,预处理为以下至少之一:去除噪声处理和矫正处理;采用特征提取方法,从碎片集合中提取出N个原始文字信息;对N个原始文字信息进行更正处理,得到目标文字集合,其中,目标文字集合中至少包括N个目标文字信息;将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,数值集合中至少包括N个可信值。
例如,OCR识别阶段的实现方案可以为:
(1)影像前处理:从一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。
(2)文字特征抽取:采取2种特征提取方法:一为统计的特征,如文字区域内的黑/白点数比:当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,二为结构的特征,如文字影像细线化后,取得字的笔划端。点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法。
(3)对比数据库:当输入文字算完特征后,根据比对数据库或特征数据库来进行比对,数据库的内容应对比数据库,根据与输入文字一样的特征抽取方法所得的特征群组。
(4)对比识别:根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(DynamicProgramming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)等方法,得出碎片信息的可信值,为了使识别的结果更稳定,利用各种特征比对方法的相异互补性,使识别出的结果,其可信值更高。
(5)字词后处理:由于OCR的识别率并无法达到百分之百,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
(6)人工校正:可设置人工校对的操作环节,通过人工判断OCR识别结果和凭证之前的正确性。
(7)结果输出:根据凭证ID【A】下的碎片集合【a,b,c...】识别的结果,输出凭证信息串和各自的可信值。
通过上述的方案,可以快速准确的得到每个碎片凭证对应的文字信息和每个文字信息的可信值。
可选地,在本申请实施例提供的凭证的检验方法中,依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果包括:判断每个可信值是否不小于预设阈值;若每个可信值不小于预设阈值,则获取目标凭证对应的电子凭证;确定电子凭证中的多个目标信息,其中,多个目标信息至少包括:电子凭证的属性信息和第一对象的属性信息,第一对象为申请电子凭证的对象;依据N个目标文字信息、电子凭证的属性信息和第一对象的属性信息,确定对目标凭证的检验结果。
例如,在根据OCR识别模型输出的每个碎片对应的文字信息和每个文字信息的可信值检验打印的凭证的内容是否正确时,可以先将每个文字信息对应的可信值与预先设置的阈值进行比较,且在每个文字信息对应的可信值都达到目标水平后,再获取后台存储的电子凭证的相关信息(上述的电子凭证的属性信息和第一对象的属性信息),再根据OCR识别模型输出的每个碎片对应的文字信息、获取到的后台存储的电子凭证的相关信息检验打印的凭证的内容是否正确。也即,当预先设置的阈值(上述的目标水平)为3时,OCR识别模型输出的每个文字信息的可信值分别为6、5、4,表示OCR识别模型输出的每个文字信息的可信值都大于预先设置的阈值(上述的目标水平)3,然后再从后台获取事先存储的电子凭证的相关信息。
综上所述,通过判断OCR识别模型输出的每个文字信息的可信值,可以提升检验打印凭证的内容是否正确的效率。
可选地,在本申请实施例提供的凭证的检验方法中,依据N个目标文字信息、电子凭证的属性信息和第一对象的属性信息,确定对目标凭证的检验结果包括:依据N个目标文字信息,确定目标凭证中目标凭证的属性信息和目标对象的属性信息,目标对象为申请目标凭证的对象;判断目标凭证的属性信息和电子凭证的属性信息是否相同,并判断目标对象的属性信息和第一对象的属性信息是否相同;若目标凭证的属性信息和电子凭证的属性信息相同,且目标对象的属性信息和第一对象的属性信息相同,则确定检验结果为目标凭证的内容正确;若目标凭证的属性信息和电子凭证的属性信息不相同,和/或,目标对象的属性信息和第一对象的属性信息不相同,则确定检验结果为目标凭证的内容错误。
例如,在OCR识别模型输出的每个文字信息对应的可信值都达到目标水平后,获取碎片切割OCR识别模块输出的凭证信息串(上述的N个目标文字信息),即凭证ID【A】下的碎片集合【a,b,c...】对应的凭证信息,通过碎片信息(上述的N个目标文字信息)和凭证后台信息进行对比,确认质检的结果,如通过则发放客户,否则就触发补打印,作废原凭证。
将碎片信息(上述的N个目标文字信息)和凭证后台信息进行对比的步骤具体可以为:
(1)根据碎片识别的信息(上述的N个目标文字信息),结合凭证切割模板配置,和后台信息实现一对一确认。
(2)凭证申请信息可以包括客户姓名、客户编号(ID)、客户个人证件信息、凭证相关所需客户账户等信息(上述的目标对象的属性信息和第一对象的属性信息)。
(3)凭证验证信息可以包括凭证名称、凭证编号、凭证种类、凭证数量、凭证打印样式、凭证打印日期,印章信息(上述的目标凭证的属性信息和电子凭证的属性信息)。
(4)如质检不通过,则将相关凭证进行作废处理,并将相关任务退回至凭证打印模块以备再次进行补打印,同时通知相关操作人员处理相关质检的信息。
通过上述的方案,可以快速准确的确定打印的凭证的内容是否正确。
例如,图5是根据本申请实施例提供的可选的凭证的检验方法的示意图,如图5所示,本申请实施例提供的可选的凭证的检验方法主要涉及三个部分:凭证打印模块、碎片切割OCR识别模块以及凭证模型质检模块。
凭证打印模块的主要功能是接收凭证打印的内容,获取印章等信息,对相关信息进行文字和图像转换,进行组装并打印出凭证,同时支持质检不通过的自动补打印。
碎片切割OCR识别模块主要负责扫描打印模块打印的凭证形成影像,按照凭证模板信息库的坐标切割影像,利用OCR识别碎片,形成凭证信息串和对应的碎片信息可信值。
凭证模型质检模块的功能是根据凭证后台信息,对比碎片切割OCR识别模块输出的凭证信息串,在可信值达到目标水平后,对比信息是否一致,如果可信值达标,同时信息对比一致,则代表质检通过,否则代表质检不通过,此模块支持将凭证作废,再次形成补打印任务,下传给到凭证打印模块。
服务器中预先建立接收业务申请客户信息信息库以及各类凭证模板信息的数据库,业务申请客户信息包括客户姓名、客户编号(Identity documen,ID)、客户申请提交信息,客户个人相关信息等;凭证信息包括凭证名称、凭证编号、凭证种类、凭证打印方式、凭证印章、碎片切割坐标、可信值等信息。
另外,图6是根据本申请实施例提供的凭证的检验装置的结构的示意图,如图6所示,本申请实施例提供的凭证的检验装置包括凭证打印模块、OCR切割识别质检(包括上述的碎片切割OCR识别模块和凭证模型质检模块)、基于OCR碎片识别模型的凭证质检封包装置、服务器和数据库。也即,基于OCR碎片识别模型的凭证质检封包装置中可以包含凭证打印模块,通过凭证打印模块打印出凭证之后,上传数据至数据库,然后通过OCR切割识别质检,将上传至数据库的数据和服务器中预先存储的数据进行比对,从而检验打印的凭证的内容是否正确。
另外,图5中的凭证打印模块、碎片切割OCR识别模块和凭证模型质检模块三个模块的实现方案可以为:
1、凭证打印模块可以分为模板导入阶段和打印阶段。
模板导入阶段的实现方案可以为:
(1)建立凭证模板库,凭证库中包括凭证类型字典,各种凭证打印的信息组件,凭证打印的坐标,印章库,打印词汇表以及数据字典,凭证类型字典包括所有支持打印的凭证字典,例如:个人资信证明、理财证明、基金证明等;印章库包括业务专用章、法人章;打印词汇表包括常用8国语言,即汉语、日语、英语、俄语、法语、德语、葡萄牙语、西班牙语。
(2)以不同凭证模板输入作为打印样本,并将模板处理后进行归一化操作。
(3)支持凭证模板导入后验证打印样例,并可根据业务需求调整打印的样式,达到打印模板的微调,支持多样化配置。
打印阶段的实现方案可以为:
(1)操作人员输入相关任务指令,具体以智能设备对装置进行调起。
(2)处理输入信号,根据客户申请信息自动判断打印模板类型。
(3)对客户信息和凭证所需内容进行特征提取,以获得关键信息,根据模板组件自动匹配相关信息。
(4)利用凭证模板库进行组件打印,输出凭证打印结果。
(5)支持凭证质检不通过的自动补打印。
2、碎片切割OCR识别模块:分为碎片切割阶段和OCR识别阶段。而且,图7是本申请实施例中碎片切割OCR识别模块的示意图,如图7所示,通过凭证模板切割影像碎片,并由OCR识别模块输出的凭证信息和对应的可信值。从影像到结果输出,须经过影像碎片输入、影像碎片前处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正,将结果输出。
碎片切割阶段的实现方案可以为:
(1)扫描相关打印的凭证形成凭证影像,并上传发放记录至服务器。
(2)定义各种凭证的版式,定义切割的碎片位置。
(3)根据版式,对影像进行切割,可以形成凭证ID【A】下的碎片集合【a,b,c...】。
OCR识别阶段的实现方案可以为:
(1)OCR(光学字符识别,Optical Character Recognition)是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程。
(2)影像前处理:从一个不是黑就是白的二值化影像,或灰阶、彩色的影像,到独立出一个个的文字影像的过程,都属于影像前处理。包含了影像正规化、去除噪声、影像矫正等的影像处理,及图文分析、文字行与字分离的文件前处理。
(3)文字特征抽取:采取2种特征提取方法:一为统计的特征,如文字区域内的黑/白点数比:当文字区分成好几个区域时,这一个个区域黑/白点数比之联合,就成了空间的一个数值向量,二为结构的特征,如文字影像细线化后,取得字的笔划端。点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法。
(4)对比数据库:当输入文字算完特征后,根据比对数据库或特征数据库来进行比对,数据库的内容应对比数据库,根据与输入文字一样的特征抽取方法所得的特征群组。
(5)对比识别:根据不同的特征特性,选用不同的数学距离函数,较有名的比对方法有,欧式空间的比对方法、松弛比对法(Relaxation)、动态程序比对法(DynamicProgramming,DP),以及类神经网络的数据库建立及比对、HMM(Hidden Markov Model)等方法,得出碎片信息的可信值,为了使识别的结果更稳定,利用各种特征比对方法的相异互补性,使识别出的结果,其可信值更高。
(6)字词后处理:由于OCR的识别率并无法达到百分之百,一些除错或甚至帮忙更正的功能,也成为OCR系统中必要的一个模块。字词后处理就是一例,利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。
(7)人工校正:可设置人工校对的操作环节,通过人工判断OCR识别结果和凭证之前的正确性。
(8)结果输出:根据凭证ID【A】下的碎片集合【a,b,c...】识别的结果,输出凭证信息串和各自的可信值。
3、凭证模型质检模块:获取碎片切割OCR识别模块输出的凭证信息串,即凭证ID【A】下的碎片集合【a,b,c...】对于的凭证信息,通过碎片信息和凭证后台信息进行对比,结合碎片可信值,确认质检的结果,如通过则发放客户,否则就触发补打印,作废原凭证。且图8是本申请实施例中凭证模型质检模块的示意图。
另外,验证信息如下:
(1)根据碎片识别的信息,结合凭证切割模板配置,和后台信息实现一对一确认。
(2)凭证申请信息包括客户姓名、客户编号(ID)、客户个人证件信息、凭证相关所需客户账户等信息。
(3)凭证验证信息包括凭证名称、凭证编号、凭证种类、凭证数量、凭证打印样式、凭证打印日期,印章信息。
(4)如质检不通过,则将相关凭证进行作废处理,并将相关任务退回至凭证打印模块以备再次进行补打印,同时通知相关操作人员处理相关质检的信息。
质检模块功能以接口封装,以调用的方法使用。
因此,通过上述的方案可以取消人工打印、人工质检、人工复检等,实现自动化操作,提高发放效率,建立凭证流转全生命周期跟踪、事前存档事后核对、发放过程可追溯的线上化管理平台。
另外,目前凭证在金融机构通过后台打印等方式进行质检和复检。相关凭证打印质检操作比较繁琐,工作量太大,影响发放效率,并且由于是通过线下凭证发放方式进行发放,没有线上的数据采集,对发放过程历史档案不利于查询。基于OCR碎片识别模型的凭证质检装置可以快速进行凭证进行打印、质检、存档等操作,降低生产成本,提高工作效率。
而且,针对凭证发放工作量大,质检耗时且存在误差,业务处理效率低、无法采集线上数据等问题,本实施例中基于OCR碎片识别模型的凭证质检装置结合切割碎片、OCR识别、后台质检等技术实现凭证的质检、打印和发放,将发放结果记录线上,对金融机构凭证发放场景进行优化处理,从而达到降低发放成本、降低发放工作量、提高发放效率的目的。且本申请实施例提供的方法通过后台自动打印、碎片切割OCR识别凭证,并后台自动质检,可以完成凭证的系统质检、存档以及打印,提高发放效率。
通过本申请实施例提供的方法,可以实现以下效果:
(1)人工成本低。通过3个模块的组合进行凭证发放,仅需要操作人员进行任务提交操作,降低大量人力物力成本,同时由系统自动识别质检打印,降低了质检错误造成的成本;
(2)业务处理效率高。以本方法可以实现凭证自动快速打印、质检和发放,降低业务处理时间,同时由装置后台自动质检,大大降低了人工失误,提高了质检的速度和有效性;
(3)提高凭证可追溯性和安全性。本方法将凭证影像信息上传至服务器,提高了数据和凭证信息的安全,且支持事后检查和追溯;
(4)凭证模板库支持灵活配置,可根据各种凭证配置碎片坐标等信息,支持多种凭证的切割识别。
另外,还可以通过其他线上方式将凭证打印交付,或者通过人工质检方式核查凭证正确性,或者通过手工拍照的方式进行记录,或者通过手工上传至可存储数据的设备进行记录。
综上,本申请实施例提供的凭证的检验方法,通过获取目标凭证的图像,其中,目标凭证为打印的纸质凭证;对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果,其中,检验结果用于表示目标凭证的内容是否正确,解决了相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题。通过对打印的纸质凭证的图像进行切割处理,得到切割后的N个碎片,并将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,再依据N个目标文字信息和N个可信值检验打印的纸质凭证的内容是否正确,进而提升了检验打印的凭证的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种凭证的检验装置,需要说明的是,本申请实施例的凭证的检验装置可以用于执行本申请实施例所提供的用于凭证的检验方法。以下对本申请实施例提供的凭证的检验装置进行介绍。
图9是根据本申请实施例的凭证的检验装置的示意图。如图9所示,该装置包括:第一获取单元901、第一处理单元902、第二处理单元903和第一确定单元904。
具体地,第一获取单元901,用于获取目标凭证的图像,其中,目标凭证为打印的纸质凭证;
第一处理单元902,用于对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;
第二处理单元903,用于将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度;
第一确定单元904,用于依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果,其中,检验结果用于表示目标凭证的内容是否正确。
综上,本申请实施例提供的凭证的检验装置,通过第一获取单元901获取目标凭证的图像,其中,目标凭证为打印的纸质凭证;第一处理单元902对图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;第二处理单元903将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过OCR识别模型输出的每个目标文字信息的准确程度;第一确定单元904依据N个目标文字信息和N个可信值,确定对目标凭证的检验结果,其中,检验结果用于表示目标凭证的内容是否正确,解决了相关技术中采用人工的方式检验打印的凭证是否正确,导致检验打印的凭证的效果较差的问题。通过对打印的纸质凭证的图像进行切割处理,得到切割后的N个碎片,并将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,再依据N个目标文字信息和N个可信值检验打印的纸质凭证的内容是否正确,进而提升了检验打印的凭证的效果。
可选地,在本申请实施例提供的凭证的检验装置中,第一确定单元包括:第一判断模块,用于判断每个可信值是否不小于预设阈值;第一获取模块,用于若每个可信值不小于预设阈值,则获取目标凭证对应的电子凭证;第一确定模块,用于确定电子凭证中的多个目标信息,其中,多个目标信息至少包括:电子凭证的属性信息和第一对象的属性信息,第一对象为申请电子凭证的对象;第二确定模块,用于依据N个目标文字信息、电子凭证的属性信息和第一对象的属性信息,确定对目标凭证的检验结果。
可选地,在本申请实施例提供的凭证的检验装置中,第二确定模块包括:第一确定子模块,用于依据N个目标文字信息,确定目标凭证中目标凭证的属性信息和目标对象的属性信息,目标对象为申请目标凭证的对象;第一判断子模块,用于判断目标凭证的属性信息和电子凭证的属性信息是否相同,并判断目标对象的属性信息和第一对象的属性信息是否相同;第二确定子模块,用于若目标凭证的属性信息和电子凭证的属性信息相同,且目标对象的属性信息和第一对象的属性信息相同,则确定检验结果为目标凭证的内容正确;第三确定子模块,用于若目标凭证的属性信息和电子凭证的属性信息不相同,和/或,目标对象的属性信息和第一对象的属性信息不相同,则确定检验结果为目标凭证的内容错误。
可选地,在本申请实施例提供的凭证的检验装置中,第二处理单元包括:第一处理模块,用于对N个碎片进行预处理,得到碎片集合,其中,碎片集合中至少包括N个经过预处理后的碎片,预处理为以下至少之一:去除噪声处理和矫正处理;第一提取模块,用于采用特征提取方法,从碎片集合中提取出N个原始文字信息;第二处理模块,用于对N个原始文字信息进行更正处理,得到目标文字集合,其中,目标文字集合中至少包括N个目标文字信息;第一比对模块,用于将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,数值集合中至少包括N个可信值。
可选地,在本申请实施例提供的凭证的检验装置中,第一处理单元包括:第二获取模块,用于获取目标凭证的版式信息;第三确定模块,用于依据目标凭证的版式信息,确定对图像进行切割时的切割位置;第三处理模块,用于基于切割位置,对图像进行切割处理,得到切割后的N个碎片。
可选地,在本申请实施例提供的凭证的检验装置中,第一获取单元包括:第三获取模块,用于获取目标凭证;第四处理模块,用于对目标凭证进行扫描处理,得到目标凭证的图像。
可选地,在本申请实施例提供的凭证的检验装置中,第三获取模块包括:第一获取子模块,用于获取模板库,其中,模板库用于存储多种凭证对应的模板;第四确定子模块,用于从模板库中确定目标凭证对应的目标模板;第五确定子模块,用于依据目标模板,确定目标凭证的内容信息;第六确定子模块,用于基于目标模板和目标凭证的内容信息,得到目标凭证。
凭证的检验装置包括处理器和存储器,上述第一获取单元901、第一处理单元902、第二处理单元903和第一确定单元904等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升检验打印的凭证的效果。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现所述凭证的检验方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述凭证的检验方法。
如图10所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
处理器执行程序时还实现以下步骤:依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果包括:判断每个可信值是否不小于预设阈值;若每个可信值不小于所述预设阈值,则获取所述目标凭证对应的电子凭证;确定所述电子凭证中的多个目标信息,其中,所述多个目标信息至少包括:所述电子凭证的属性信息和第一对象的属性信息,所述第一对象为申请所述电子凭证的对象;依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果。
处理器执行程序时还实现以下步骤:依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果包括:依据N个目标文字信息,确定所述目标凭证中所述目标凭证的属性信息和目标对象的属性信息,所述目标对象为申请所述目标凭证的对象;判断所述目标凭证的属性信息和所述电子凭证的属性信息是否相同,并判断所述目标对象的属性信息和所述第一对象的属性信息是否相同;若所述目标凭证的属性信息和所述电子凭证的属性信息相同,且所述目标对象的属性信息和所述第一对象的属性信息相同,则确定所述检验结果为所述目标凭证的内容正确;若所述目标凭证的属性信息和所述电子凭证的属性信息不相同,和/或,所述目标对象的属性信息和所述第一对象的属性信息不相同,则确定所述检验结果为所述目标凭证的内容错误。
处理器执行程序时还实现以下步骤:将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值包括:对N个碎片进行预处理,得到碎片集合,其中,所述碎片集合中至少包括N个经过预处理后的碎片,所述预处理为以下至少之一:去除噪声处理和矫正处理;采用特征提取方法,从所述碎片集合中提取出N个原始文字信息;对N个原始文字信息进行更正处理,得到目标文字集合,其中,所述目标文字集合中至少包括N个目标文字信息;将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,所述数值集合中至少包括N个可信值。
处理器执行程序时还实现以下步骤:对所述图像进行切割处理,得到切割后的N个碎片包括:获取所述目标凭证的版式信息;依据所述目标凭证的版式信息,确定对所述图像进行切割时的切割位置;基于所述切割位置,对所述图像进行切割处理,得到切割后的N个碎片。
处理器执行程序时还实现以下步骤:获取目标凭证的图像包括:获取所述目标凭证;对所述目标凭证进行扫描处理,得到所述目标凭证的图像。
处理器执行程序时还实现以下步骤:获取所述目标凭证包括:获取模板库,其中,所述模板库用于存储多种凭证对应的模板;从所述模板库中确定所述目标凭证对应的目标模板;依据所述目标模板,确定所述目标凭证的内容信息;基于所述目标模板和所述目标凭证的内容信息,得到所述目标凭证。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果包括:判断每个可信值是否不小于预设阈值;若每个可信值不小于所述预设阈值,则获取所述目标凭证对应的电子凭证;确定所述电子凭证中的多个目标信息,其中,所述多个目标信息至少包括:所述电子凭证的属性信息和第一对象的属性信息,所述第一对象为申请所述电子凭证的对象;依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果包括:依据N个目标文字信息,确定所述目标凭证中所述目标凭证的属性信息和目标对象的属性信息,所述目标对象为申请所述目标凭证的对象;判断所述目标凭证的属性信息和所述电子凭证的属性信息是否相同,并判断所述目标对象的属性信息和所述第一对象的属性信息是否相同;若所述目标凭证的属性信息和所述电子凭证的属性信息相同,且所述目标对象的属性信息和所述第一对象的属性信息相同,则确定所述检验结果为所述目标凭证的内容正确;若所述目标凭证的属性信息和所述电子凭证的属性信息不相同,和/或,所述目标对象的属性信息和所述第一对象的属性信息不相同,则确定所述检验结果为所述目标凭证的内容错误。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值包括:对N个碎片进行预处理,得到碎片集合,其中,所述碎片集合中至少包括N个经过预处理后的碎片,所述预处理为以下至少之一:去除噪声处理和矫正处理;采用特征提取方法,从所述碎片集合中提取出N个原始文字信息;对N个原始文字信息进行更正处理,得到目标文字集合,其中,所述目标文字集合中至少包括N个目标文字信息;将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,所述数值集合中至少包括N个可信值。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:对所述图像进行切割处理,得到切割后的N个碎片包括:获取所述目标凭证的版式信息;依据所述目标凭证的版式信息,确定对所述图像进行切割时的切割位置;基于所述切割位置,对所述图像进行切割处理,得到切割后的N个碎片。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:获取目标凭证的图像包括:获取所述目标凭证;对所述目标凭证进行扫描处理,得到所述目标凭证的图像。
当在数据处理设备上执行时,还适于执行初始化有如下方法步骤的程序:获取所述目标凭证包括:获取模板库,其中,所述模板库用于存储多种凭证对应的模板;从所述模板库中确定所述目标凭证对应的目标模板;依据所述目标模板,确定所述目标凭证的内容信息;基于所述目标模板和所述目标凭证的内容信息,得到所述目标凭证。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种凭证的检验方法,其特征在于,包括:
获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;
对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;
将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;
依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
2.根据权利要求1所述的方法,其特征在于,依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果包括:
判断每个可信值是否不小于预设阈值;
若每个可信值不小于所述预设阈值,则获取所述目标凭证对应的电子凭证;
确定所述电子凭证中的多个目标信息,其中,所述多个目标信息至少包括:所述电子凭证的属性信息和第一对象的属性信息,所述第一对象为申请所述电子凭证的对象;
依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果。
3.根据权利要求2所述的方法,其特征在于,依据N个目标文字信息、所述电子凭证的属性信息和所述第一对象的属性信息,确定对所述目标凭证的检验结果包括:
依据N个目标文字信息,确定所述目标凭证中所述目标凭证的属性信息和目标对象的属性信息,所述目标对象为申请所述目标凭证的对象;
判断所述目标凭证的属性信息和所述电子凭证的属性信息是否相同,并判断所述目标对象的属性信息和所述第一对象的属性信息是否相同;
若所述目标凭证的属性信息和所述电子凭证的属性信息相同,且所述目标对象的属性信息和所述第一对象的属性信息相同,则确定所述检验结果为所述目标凭证的内容正确;
若所述目标凭证的属性信息和所述电子凭证的属性信息不相同,和/或,所述目标对象的属性信息和所述第一对象的属性信息不相同,则确定所述检验结果为所述目标凭证的内容错误。
4.根据权利要求1所述的方法,其特征在于,将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值包括:
对N个碎片进行预处理,得到碎片集合,其中,所述碎片集合中至少包括N个经过预处理后的碎片,所述预处理为以下至少之一:去除噪声处理和矫正处理;
采用特征提取方法,从所述碎片集合中提取出N个原始文字信息;
对N个原始文字信息进行更正处理,得到目标文字集合,其中,所述目标文字集合中至少包括N个目标文字信息;
将每个目标文字信息与数据库中的文字信息进行比对,得到数值集合,其中,所述数值集合中至少包括N个可信值。
5.根据权利要求1所述的方法,其特征在于,对所述图像进行切割处理,得到切割后的N个碎片包括:
获取所述目标凭证的版式信息;
依据所述目标凭证的版式信息,确定对所述图像进行切割时的切割位置;
基于所述切割位置,对所述图像进行切割处理,得到切割后的N个碎片。
6.根据权利要求1所述的方法,其特征在于,获取目标凭证的图像包括:
获取所述目标凭证;
对所述目标凭证进行扫描处理,得到所述目标凭证的图像。
7.根据权利要求6所述的方法,其特征在于,获取所述目标凭证包括:
获取模板库,其中,所述模板库用于存储多种凭证对应的模板;
从所述模板库中确定所述目标凭证对应的目标模板;
依据所述目标模板,确定所述目标凭证的内容信息;
基于所述目标模板和所述目标凭证的内容信息,得到所述目标凭证。
8.一种凭证的检验装置,其特征在于,包括:
第一获取单元,用于获取目标凭证的图像,其中,所述目标凭证为打印的纸质凭证;
第一处理单元,用于对所述图像进行切割处理,得到切割后的N个碎片,其中,N为大于1的正整数;
第二处理单元,用于将N个碎片输入OCR识别模型进行识别处理,得到N个目标文字信息和N个可信值,其中,每个目标文字信息为每个碎片对应的目标文字信息,每个可信值用于表示通过所述OCR识别模型输出的每个目标文字信息的准确程度;
第一确定单元,用于依据N个目标文字信息和N个可信值,确定对所述目标凭证的检验结果,其中,所述检验结果用于表示所述目标凭证的内容是否正确。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储程序,其中,所述程序执行权利要求1至7中任意一项所述的凭证的检验方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的凭证的检验方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258242.XA CN116343227A (zh) | 2023-03-10 | 2023-03-10 | 凭证的检验方法及装置、存储介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258242.XA CN116343227A (zh) | 2023-03-10 | 2023-03-10 | 凭证的检验方法及装置、存储介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116343227A true CN116343227A (zh) | 2023-06-27 |
Family
ID=86885138
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310258242.XA Pending CN116343227A (zh) | 2023-03-10 | 2023-03-10 | 凭证的检验方法及装置、存储介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116343227A (zh) |
-
2023
- 2023-03-10 CN CN202310258242.XA patent/CN116343227A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3511868A1 (en) | Document authenticity determination | |
US5923792A (en) | Screen display methods for computer-aided data entry | |
CN110889402A (zh) | 一种基于深度学习的营业执照内容识别方法及系统 | |
CN109670477B (zh) | 面向pdf表格的自动识别系统和方法 | |
CN103390319A (zh) | 一种银行票据自动处理机及其应用方法 | |
CN110110320B (zh) | 自动合同审查方法、装置、介质以及电子设备 | |
CN114358798A (zh) | 一种基于图片识别的企业信息认证的方法、装置及系统 | |
CN111539414B (zh) | 一种ocr图像字符识别和字符校正的方法及系统 | |
CN117037198A (zh) | 一种银行对账单的识别方法 | |
CN115171138A (zh) | 一种身份证图片文本检测方法、系统及设备 | |
CN111414889B (zh) | 基于文字识别的财务报表识别方法及装置 | |
Salah et al. | OCR performance prediction using cross-OCR alignment | |
CN115688107B (zh) | 一种涉诈app检测系统和方法 | |
CN116343227A (zh) | 凭证的检验方法及装置、存储介质和电子设备 | |
CN111104853A (zh) | 图像信息录入方法、装置、电子设备及存储介质 | |
CN113343968A (zh) | 多模板证书快速审证方法、系统、介质及装置 | |
RU2739342C1 (ru) | Способ и система интеллектуальной обработки документа | |
CN112580334A (zh) | 一种文案处理方法、装置、服务器及存储介质 | |
CN113158988A (zh) | 财务报表处理方法、装置以及计算机可读存储介质 | |
CN111292179A (zh) | 柜面业务的处理系统、方法、设备及存储介质 | |
EP3220311A1 (en) | Investigating the validity of identity documents | |
CN114418740A (zh) | 违规货币管理方法及系统 | |
CN114937282A (zh) | 一种企业数据核验方法及装置、存储介质及电子设备 | |
CN117831052A (zh) | 金融表单的识别方法及其装置、电子设备及存储介质 | |
CN117473333A (zh) | 证件资质的检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |