CN114639173B - 基于ocr技术的稽查佐证材料智能审核方法及装置 - Google Patents

基于ocr技术的稽查佐证材料智能审核方法及装置 Download PDF

Info

Publication number
CN114639173B
CN114639173B CN202210535492.9A CN202210535492A CN114639173B CN 114639173 B CN114639173 B CN 114639173B CN 202210535492 A CN202210535492 A CN 202210535492A CN 114639173 B CN114639173 B CN 114639173B
Authority
CN
China
Prior art keywords
image
signature
area
preset
labeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210535492.9A
Other languages
English (en)
Other versions
CN114639173A (zh
Inventor
金家红
严华江
陆艳
朱林
马亮
刘欢
洪忠河
项秋涛
骆跃武
陈能塔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Zhejiang Electric Power Co Ltd
Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Zhejiang Electric Power Co Ltd, Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Zhejiang Electric Power Co Ltd
Priority to CN202210535492.9A priority Critical patent/CN114639173B/zh
Publication of CN114639173A publication Critical patent/CN114639173A/zh
Application granted granted Critical
Publication of CN114639173B publication Critical patent/CN114639173B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明提供一种基于OCR技术的稽查佐证材料智能审核方法及装置,包括:对稽查佐证材料处理得到至少一个内容提取区域和至少一个签字提取区域;对内容提取区域的内容进行提取得到第一设备信息、第一数量信息以及第一财务信息;确定相对应的预设财务信息,基于预设财务信息对第一数量信息和第一财务信息进行一次验证得到一次验证结果;若一次验证结果符合第一验证要求,则将第一设备信息与预设设备信息比对得到至少一个预设签字图像;对签字提取区域内的图像进行提取得到第一签字图像,若第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果,本方案采用两次验证,较为准确的对稽查佐证材料的内容以及签字进行智能审核。

Description

基于OCR技术的稽查佐证材料智能审核方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于OCR技术的稽查佐证材料智能审核方法及装置。
背景技术
稽查佐证材料是例如可以是合同材料、报表、凭证等材料,一般来说,稽查佐证材料包括有内容部分以及签字部分,内容部分例如可以是格式条款、销售的设备名称、价格等内容,其内容和签字均需要具备高度准确性,否则会为公司带来较大损失。
现有技术中,对稽查佐证材料通常采用人工的方式进行审核,然而,人工审核的方式效率低下,且人工无法对签字是否真实做出较为准确的判断,因此,如何对稽查佐证材料进行准确的审核成为了急需解决的问题。
发明内容
本发明实施例提供一种基于OCR技术的稽查佐证材料智能审核方法及装置,采用两次验证,较为准确地对稽查佐证材料的内容以及签字进行智能审核。
本发明实施例的第一方面,提供基于OCR技术的稽查佐证材料智能审核方法,包括:
在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域;
基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息;
基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果;
若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像;
对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果;
在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果。
可选地,在第一方面的一种可能实现方式中,在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域的步骤中,具体包括:
建立与所述材料图像的尺寸相对应的透明标注图层,将所述透明标注图层叠加于所述材料图像的上部,对叠加透明标注图层后的材料图像进行显示;
若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹,则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域;
若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹,则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域;
将所述第一标注区域与所述第二标注区域比对,若第一标注区域与所述第二标注区域中具有重复标注区域,则提取材料图像与所述重复标注区域相对应的重复子图像;
根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域;
提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域,提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域。
可选地,在第一方面的一种可能实现方式中,所述根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域,包括:
提取重复子图像中所有第一像素点的像素值,若判断所有第一像素点的像素值都处于第一像素区间内,则确定重复子图像的所有中部第一像素点得到图像分界线,根据所述图像分界线得到重复子图像的区域分界线;
基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域;
将第一重复区域划分为与其相接的第一标注区域;将第二重复区域划分为与其相接的第二标注区域。
可选地,在第一方面的一种可能实现方式中,还包括:
若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内;
则将所述重复标注区域划分为第二标注区域。
可选地,在第一方面的一种可能实现方式中,所述基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果具体包括:
基于所述第一数量信息和第一财务信息得到平均财务信息,将所述平均财务信息和预设财务信息比对得到一次验证结果,所述一次验证结果包括平均财务信息大于预设财务信息或平均财务信息小于等于预设财务信息中的任意一个;
所述若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像具体包括:
若所述一次验证结果为平均财务信息小于等于预设财务信息,即判断一次验证结果符合第一验证要求;
确定与第一设备信息相对应的预设设备信息,提取相对应的预设设备信息预设签字图像,所述预设签字图像为相应人员预先录入的。
可选地,在第一方面的一种可能实现方式中,所述对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果具体包括:
对签字提取区域内的图像基于OCR技术进行识别得到第二文字数据,确定第二文字数据中的模板性文字;
对签字提取区域内的图像与所述模板性文字所对应的像素点进行锁定得到第二像素点,对所述第二像素点的像素值进行透明调整生成调整后的第一签字图像;
获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像;
获取所述第一规格图像中的第一笔迹属性、第二规格图像的预设笔迹属性,若判断所述第一笔迹属性和预设笔迹属性相对应,则判断第一签字图像与任意一个预设签字图像相对应。
可选地,在第一方面的一种可能实现方式中,所述获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像具体包括:
以所述第一签字图像的第一边缘点为坐标原点对所述第一签字图像进行坐标化处理,得到第一签字图像中每个像素点的第一坐标;
确定所有处于第二像素区间内的像素点的所有第一坐标,提取所有第一坐标中的纵坐标值,对纵坐标值去重处理后按照降序方式得到降序序列;
若所述降序序列为连续的,则判断所述签字数量为1个;
若所述降序序列为非连续的,则判断所述签字数量为多个,将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值;
确定所述第一分隔坐标值和第二分隔坐标值的中间坐标值,以所述中间坐标值生成对应的Y轴分割线;
基于所述Y轴分割线将所述第一签字图像分割为多个子签字图像;
基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像。
可选地,在第一方面的一种可能实现方式中,所述基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像具体包括:
若所述签字数量为1,则获取所述第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量;
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量生成第一规格横向数量和第一规格纵向数量;
通过以下公式得到第一规格横向数量和第一规格纵向数量,
Figure 165463DEST_PATH_IMAGE001
其中,
Figure 410499DEST_PATH_IMAGE002
为第一规格横向数量,
Figure 455816DEST_PATH_IMAGE003
为第一横向数量,
Figure 54287DEST_PATH_IMAGE004
为第二横向数量,
Figure 134239DEST_PATH_IMAGE005
为 横向规格权重,
Figure 32400DEST_PATH_IMAGE006
为第一纵向数量,
Figure 768275DEST_PATH_IMAGE007
为第二纵向数量,
Figure 967175DEST_PATH_IMAGE008
为第一规格纵向数量,
Figure 901633DEST_PATH_IMAGE009
为 纵向规格权重;
基于所述第一规格横向数量和第一规格纵向数量对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像;
通过以下公式计算第一规格图像的第一改变倍数和第二规格图像的第二改变倍数,
Figure 222893DEST_PATH_IMAGE010
其中,
Figure 242801DEST_PATH_IMAGE011
为第一规格图像的第一改变倍数,
Figure 183076DEST_PATH_IMAGE012
为横向归一化值,
Figure 972040DEST_PATH_IMAGE013
为纵向归一 化值,
Figure 480513DEST_PATH_IMAGE014
为第一放大权重值,
Figure 987718DEST_PATH_IMAGE015
为第二规格图像的第二改变倍数,
Figure 466104DEST_PATH_IMAGE016
为第二放大权重值;
根据所述第一改变倍数和第二改变倍数对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像。
可选地,在第一方面的一种可能实现方式中,所述基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像具体包括:
若所述签字数量为多个,则分别获取所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量;
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量,生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量;
基于所述第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。
本发明实施例的第二方面,提供一种基于OCR技术的稽查佐证材料智能审核装置,具体包括:
划分模块,用于在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域;
提取模块,用于基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息;
一次验证模块,用于基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果;
比对模块,用于若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像;
二次验证模块,对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果;
输出模块,用于在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果。
本发明实施例的第三方面,提供一种电子设备,包括:存储器、处理器以及计算机程序,所述计算机程序存储在所述存储器中,所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。
本发明实施例的第四方面,提供一种存储介质,所述存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。
本发明的有益效果如下:
1、本方案采用透明标注图层与材料图像结合的方式,可以让用户主动输入数据,服务器对数据处理得到至少一个内容提取区域和至少一个签字提取区域;之后,本方案存在两次验证过程,第一次验证过程是对内容提取区域内的信息进行自动验证处理,验证内容包括第一设备信息、第一数量信息以及第一财务信息,验证之后得到第一验证结果,用于指示内容提取区域内的文本是否符合验证要求;第二次验证过程会对签字提取区域内的签名进行处理,本方案会首先根据内容提取区域提取的内容来确定对应的预设设备信息,然后在服务器内找到与预设设备信息对应的至少一个预设签字图像,与签字提取区域内的签字信息进行比对,得到第二验证结果;综上,本方案通过两次验证,可以对稽查佐证材料的内容以及签字同时验证,使得稽查佐证材料审核的准确性较高;
2、本方案在生成内容提取区域和签字提取区域的过程中,还会采用像素值区分的方式来对内容提取区域和签字提取区域的重复区域进行归类,使得第二标注区域不会缺失内容,从而确保能够提取完整的用户签名。其中,本方案根据情况不同采用不同的方式进行归类,第一种情况(判断所有第一像素点的像素值都处于第一像素区间内),本方案会生成图像分界线,来将重复区域换分为第一重复区域和第二重复区域,然后将第一重复区域和第二重复区域分别划分为与其相接的第一标注区域和第二标注区域;第二种情况(判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内),本方案会将所述重复标注区域划分为第二标注区域,在确保使得第二标注区域不会缺失内容的情况下,去除干扰区域,并且可以减少数据处理量;
3、本方案考虑到提取的签字图像与预设签字图像之间的规格会存在差异,在进行数据比对时,会导致比对结果不够精准,本方案采集第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量,以及预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量,根据以上数量生成第一规格横向数量和第一规格纵向数量,然后再利用第一规格横向数量和第一规格纵向数量得到对应第一规格图像的第一改变倍数和第二规格图像的第二改变倍数,最后,利用第一改变倍数和第二改变倍数对第一签字图像和预设签字图像进行规格化处理,得到规格相同的第一规格图像和第二规格图像,以进行准确比对;此外,本方案还考虑到签名可能有一个,也可能有多个,在只有一个签名时,本方案直接对第一签字图像进行规格化处理即可,在有多个时,会依据签名数量来对签字图像中的签名进行划分,得到多个子签字图像,然后对子签字图像进行规格化处理,提高本方案的灵活性以及规格化时的准确性。
附图说明
图1是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核方法的流程示意图;
图2是本发明实施例提供的一种区域划分的流程示意图;
图3是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核装置的结构示意图;
图4是本发明实施例提供的一种电子设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
参见图1,是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核方法的流程示意图,图1所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个:用户设备、网络设备等。其中,用户设备可以包括但不限于计算机、智能手机、个人数字助理(Personal Digital Assistant,简称:PDA)及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机组成的一个超级虚拟计算机,本实施例对此不做限制。本发明实施例包括步骤S1至步骤S6,具体如下:
S1,在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域。
其中,稽查佐证材料可以是合同、采购单等需要签字审核的文体,本方案以合同为例进行说明,但不做此限制。
具体的,由于合同文本内文字内容(包括模板性文字以及用户签字)较多,为了对签字进行审核,首选需要对签字进行定位,本方案先获取到稽查佐证材料的材料图像,可以是扫描、拍照等方式获取,然后再对材料图像进行区域划分,将其划分为至少一个内容提取区域和至少一个签字提取区域。
可以理解的是,稽查佐证材料内存在有较多的模板性的文本内容,例如格式条款、机打文字等,内容提取区域即为上述内容所在区域;稽查佐证材料内还存在有用户签字的区域,签字提取区域即为上述的签字区域,其包括用户签字以及其他信息,其他信息例如是甲方、乙方、年、月、日等。
在一些实施例中,在步骤S1(在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域) 的步骤中,具体包括步骤S11至步骤S16,具体如下:
S11,建立与所述材料图像的尺寸相对应的透明标注图层,将所述透明标注图层叠加于所述材料图像的上部,对叠加透明标注图层后的材料图像进行显示。
首先,本方案为了获取到内容提取区域和签字提取区域,设置有供用户进行触发操作的透明标注图层,透明标注图层叠加在所述材料图像的上部,且透明标注图层的尺寸与材料图像的尺寸相同,用户可以在透明标注图层上进行操作,服务器可以采集到用户的操作数据并进行处理。
可以理解的是,本方案的透明标注图层是透明的,当透明标注图层叠加到材料图像上之后,用户可以透过透明标注图层清晰地看到材料图像上的文字信息。
在实际应用中,透明标注图层可以设置在服务器内,在响应用户的调用操作后进行显示,且透明标注图层的大小可以调节,以适应材料图像的尺寸。
S12,若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹,则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域。
S13,若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹,则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域。
具体的,为了区分内容提取区域和签字提取区域,本方案的步骤S112和S113采用两种不同的方式来对透明标注图层进行触发操作,形成不同的触发痕迹,根据不同的触发痕迹来形成第一标注区域和第二标注区域,从而协助区分内容提取区域和签字提取区域。
其中,为了识别用户是采用第一触发方式还是采用第二触发方式来进行触发操作的,可以在透明标注图层上设置有供用户选择第一触发方式或者第二触发方式的虚拟按钮,用户在需要采用第一触发方式进行操作时,点击对应的第一触发方式的按钮即可,同理,用户在需要采用第二触发方式进行操作时,点击对应的第二触发方式的按钮即可。
示例性的,用户为了标记出材料图像中的内容提取区域,可以点击对应的第一触发方式的按钮,服务器检测到操作后,会自动以第一触发痕迹来记录用户接下来的触发操作,此时,用户可以利用鼠标或者电子笔在电子屏幕上的透明标注图层区域内进行滑动操作,例如可以是从上往下或者从下往上进行滑动操作,用户滑动的区域需要对应内容提取区域,通过上述方式可以形成对应的第一标注区域。
另一示例性的,用户为了标记出材料图像中的签字提取区域,可以点击对应的第二触发方式的按钮,服务器检测到操作后,会自动以第二触发痕迹来记录用户接下来的触发操作,此时,用户可以利用鼠标或者电子笔在电子屏幕上的透明标注图层区域内进行滑动操作,例如可以是从上往下或者从下往上进行滑动操作,用户滑动的区域需要对应签字提取区域,通过上述方式可以形成对应的第二标注区域。
S14,将所述第一标注区域与所述第二标注区域比对,若第一标注区域与所述第二标注区域中具有重复标注区域,则提取材料图像与所述重复标注区域相对应的重复子图像。
由于用户在进行触发操作(例如滑动操作)时,会出现不够精准的操作,例如,第一标注区域或第二标注区域滑动时滑多了一部分,此时,第一标注区域与第二标注区域中具有重复标注区域,为了对区域进行精准的划分,本方案提取材料图像与重复标注区域相对应的重复子图像,进行以下的精准处理操作。
S15,根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域。
具体的,本方案利用重复子图像中所有第一像素点的像素值进行判断,对重复标注区域进行划分,使其归类为第一标注区域和/或第二标注区域。
在一些实施例中,步骤S15可以包括以下步骤,具体如下:
提取重复子图像中所有第一像素点的像素值,若判断所有第一像素点的像素值都处于第一像素区间内,则确定重复子图像的所有中部第一像素点得到图像分界线,根据所述图像分界线得到重复子图像的区域分界线。
本方案利用像素值来对重复子区域进行确定,其基本构思为:
由于内容提取区域内的文字均为模板性文字(机打文字),其区域只存在一种像素值,而签字区域的文字肯定会包括模板性文字(例如甲方、乙方、年、月、日等)以及用户用签字笔写的文字(例如可以是甲方的名字、乙方的名字、2022、1、1),其区域会存在两种不同的像素值,本方案采用上述两种文字的像素值不同来对重复子区域进行确定,具体参见下文。
首先,本方案可以提取重复子图像中所有第一像素点的像素值,第一像素点的像素值例如可以是指黑色字体的像素值,空白区域的像素值本方案不做提取,即本方案首先提取出重复子图像中所有字体的像素值,然后判断所有第一像素点的像素值是否都处于第一像素区间内,若是,则表明其区域只存在一种像素值。
在一种方式中,本方案确定重复子图像只存在一种像素值时,说明重复子图像有极大可能是属于内容提取区域的,因此本方案可以直接将其归类为第一标注区域。
在另一种方式中,本方案考虑到重复子图像可能会包含第二标注区域的内容,例如甲方、乙方、年、月、日等内容,因此本方案在确定所有第一像素点的像素值都处于第一像素区间内时,本方案还会确定重复子图像的所有中部第一像素点得到图像分界线,即本方案会根据所有中部第一像素点生成图像分界线来对重复子图像进行分割,以将一半区域分割给第二标注区域,防止将具有签名的区域错误的划分到第一标注区域中。
本方案会基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域。
将第一重复区域划分为与其相接的第一标注区域;将第二重复区域划分为与其相接的第二标注区域。
本方案利用图像分界线来对重复子图像进行分割处理,将重复标注区域划分为重复标注区域,并将第一重复区域和第二重复区域分别划分为与其相接的第一标注区域和第二标注区域,实现对重复标注区域的重新归类。
在另一些实施例中,若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内,则将所述重复标注区域划分为第二标注区域。
可以理解的是,本方案提取的所有第一像素点的像素值位于两个像素区间内,说明该区域即存在机打文字,还存在手写文字,表明其为第二标注区域的内容,此时,本方案直接将其划分为第二标注区域即可。
本方案通过以上方式,可以准确的将重复子图像进行归类,防止对后续签字判定的影响。
S16,提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域,提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域。
在步骤S15得到较为精准的第一标注区域和第二标注区域后,将材料图像中与第一标注区域相对应的区域作为内容提取区域,将材料图像中与所述第二标注区域相对应的区域作为签字提取区域,以实现对稽查佐证材料的区域划分。
S2,基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息。
具体的,本步骤可以基于设备合同来进行举例分析,设备合同里面一般会存在有设备名称、设备价格、设备数量等信息。
在步骤S1得到内容提取区域和签字提取区域之后,会先对内容提取区域的内容进行提取得到第一文字数据,然后对第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息。
其中,第一设备信息可以是变压器A、变压器B等设备型号信息,第一数量信息可以是变压器A的数量为3个,变压器B的数量为4个,第一财务信息可以是变压器A的总价格为1.2万,变压器B的总价格为0.8万。
S3,基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果。
具体的,本方案会先对合同中的财务信息进行验证,得到相应的验证结果。
在得到第一设备信息后,可以在服务器中查找对应的预设财务信息,第一设备信息可以是变压器A,预设财务信息例如可以是变压器A单价为0.4万,然后利用该预设财务信息对合同中的财务信息进行验证。
在一些实施例中,基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果具体包括:
基于所述第一数量信息和第一财务信息得到平均财务信息,将所述平均财务信息和预设财务信息比对得到一次验证结果,所述一次验证结果包括平均财务信息大于预设财务信息或平均财务信息小于等于预设财务信息中的任意一个。
可以理解的是,本方案先基于所述第一数量信息和第一财务信息得到平均财务信息,然后将平均财务信息和预设财务信息比对得到一次验证结果。
示例性的,变压器A有3个,变压器A的总价格为1.2万,那么变压器A的平均财务信息为0.4万,若预设财务信息是变压器A单价为0.4万,那么得到的一次验证结果为正确,若预设财务信息是变压器A单价为0.7万,那么得到的一次验证结果为错误。
可以理解的是,本方案的验证结果为平均财务信息大于预设财务信息时,说明价格超标,不符合要求;验证结果为平均财务信息小于等于预设财务信息中时,说明价格未超标,符合要求。
S4,若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像。
在一些实施例中,步骤S4包括:
若所述一次验证结果为平均财务信息小于等于预设财务信息,即判断一次验证结果符合第一验证要求;确定与第一设备信息相对应的预设设备信息,提取相对应的预设设备信息预设签字图像,所述预设签字图像为相应人员预先录入的。
本方案在所述一次验证结果符合第一验证要求(例如第一次验证结果为平均财务信息小于等于预设财务信息)之后,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,其中,每个预设设备信息具有与其对应的至少一个预设签字图像。
其中,第一设备信息可以是变压器A、变压器B,预设设备信息可以是变压器A、变压器B的统称,例如可以是变压器,而对于变压器可以有专门人员的审核,例如可以是人员A和人员B专门审核,预设签字图像可以是对应人员A和人员B设置的预先签字图像,预先签字图像会预先存储在服务器内。
S5,对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果。
本方案在得到较为准确的签字提取区域后,会对签字提取区域内的图像进行提取得到第一签字图像,例如得到人员A和/或人员B的签名,然后与预先签字图像进行比对,得到二次验证结果。
S6,在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果。
可以理解的是,本方案得到一次验证结果和二次验证结果之后,可以依据一次验证结果和二次验证结果来得到智能审核结果。
示例性的,一次验证结果或二次验证结果指示稽查佐证材料有误的,智能审核结果可以是不通过,一次验证结果和二次验证结果指示稽查佐证材料无误的,智能审核结果可以是通过。
参见图2,在上述实施例的基础上步骤S5(对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果)的具体实现方式可以包括步骤S51至步骤S54,具体如下:
S51,对签字提取区域内的图像基于OCR技术进行识别得到第二文字数据,确定第二文字数据中的模板性文字。
可以理解的是,签字提取区域的文字会包括模板性文字(例如甲方、乙方、年、月、日等)以及用户用签字笔写的文字(例如可以是甲方的名字、乙方的名字、2022、1、1),本方案会首先将签字提取区域内的模板性文字确定下来。
S52,对签字提取区域内的图像与所述模板性文字所对应的像素点进行锁定得到第二像素点,对所述第二像素点的像素值进行透明调整生成调整后的第一签字图像。
本方案在得到签字提取区域内的模板性文字后,需要将模板性文字去除,以在签字提取区域内只留下用户的签名。
首先,本方案会对签字提取区域内的图像与模板性文字所对应的像素点进行锁定得到第二像素点,即锁定模板性文字,然后将模板性文字的像素值调整,例如可以将其像素值调整为与空白区域相同的像素值,调整后即可将模板性文字去除,以得到只留下用户的签名的第一签字图像。
S53,获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像。
可以理解的是,有时文件一人签名即可,有时候需要多人签名,本方案会获取第一签字图像中的签字数量,然后利用签字数量对第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像。
其中,规格化处理是为了将第一签字图像和预设签字图像转换为相同大小的图像,即第一规格图像和第二规格图像,以便于后续第一签字图像和预设签字图像的精准比对。
在一些实施例中,步骤S53(获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像)可以包括步骤S531至 S537,具体如下:
S531,以所述第一签字图像的第一边缘点为坐标原点对所述第一签字图像进行坐标化处理,得到第一签字图像中每个像素点的第一坐标。
本方案会先确定第一签字图像中的第一边缘点,然后确定第一边缘点为坐标原点,然后对第一签字图像坐标化,得到第一签字图像中每个像素点的第一坐标。
其中,第一签字图像中的第一边缘点可以是第一签字图像中边缘上的任一点,在此不再赘述,本方案对其不做限制。
S532,确定所有处于第二像素区间内的像素点的所有第一坐标,提取所有第一坐标中的纵坐标值,对纵坐标值去重处理后按照降序方式得到降序序列。
其中,第二像素区间为用户签字的像素区间。
在一些实施例中,可能存在多用户签名或者单用户签名的情况,多个用户签名时需要是纵向排列签名,在实际应用中,可以采用模板要求或者格式要求的方式让签字人员纵向排列签名,例如,有人员A和人员B的签名,那么人员B的签名可以位于人员A签名的正下方。
本方案在得到第一坐标后,需要确定用户签字对应像素点的第一坐标,第一坐标例如可以是
Figure 375154DEST_PATH_IMAGE017
,然后会获取到所有第一坐标中的纵坐标值,对纵坐标值去重处理后按照降序方式得到降序序列。
可以理解的是,由于签字是范围性的,会有一些纵坐标值是相同的,本方案为了减少数据量的处理,可以将相同的纵坐标值去除,即上述的纵坐标值去重处理。
S533,若所述降序序列为连续的,则判断所述签字数量为1个。
可以理解的是,若只有一个人员,那么降序序列的纵坐标值是连续的,若降序序列的纵坐标值是非连续的,那么服务器会判断所述签字数量存在多个。
S534,若所述降序序列为非连续的,则判断所述签字数量为多个,将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值。
在判断签字数量有多个时,本方案会将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值。
S535,确定所述第一分隔坐标值和第二分隔坐标值的中间坐标值,以所述中间坐标值生成对应的Y轴分割线。
在得到第一分隔坐标值和第二分隔坐标值之后,本方案会计算第一分隔坐标值和第二分隔坐标值的中间坐标值,并且会以中间坐标值生成对应的Y轴分割线。
示例性的,以一组第一分隔坐标值和第二分隔坐标值举例,其中一个第一分隔坐 标值可以是
Figure 38216DEST_PATH_IMAGE018
,其中一个对应的第二分隔坐标值可以是
Figure 32717DEST_PATH_IMAGE019
,那么其中间 坐标值为
Figure 314794DEST_PATH_IMAGE020
,可以理解的是,本方案存在多组第一分隔坐标值和第二分隔 坐标值,会形成多个中间坐标值,以多个中间左边值生成对应的Y轴分割线。
S536,基于所述Y轴分割线将所述第一签字图像分割为多个子签字图像。
本方案在得到Y轴分割线后,可以利用Y轴分割线来将第一签字图像分割为多个子签字图像,即将多个签名分开,以便于签名的一一比对。
S537,基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像。
为了使得签字图像与预设签字图像较好的比对,需要将签字大小调整为一致,以便于精准的比对笔迹。
示例性的,本方案可以将第一签字图像或多个子签字图像进行规格化处理为第一规格图像,并将预设签字图像规格化处理为第二规格图像,第一规格图像和第二规格图像大小相同,以实现上述精准比对笔迹的效果。
为了实现上述方案,本实施例会根据签字数量的不同采用两种实施方式计算,具体如下:
第一种实施方式针对签字数量为1的情况,具体如下:
若所述签字数量为1,则获取所述第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量;
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量生成第一规格横向数量和第一规格纵向数量;
通过以下公式得到第一规格横向数量和第一规格纵向数量,
Figure 78350DEST_PATH_IMAGE021
其中,
Figure 928626DEST_PATH_IMAGE022
为第一规格横向数量,
Figure 144844DEST_PATH_IMAGE023
为第一横向数量,
Figure 230611DEST_PATH_IMAGE024
为第二横向数量,
Figure 848674DEST_PATH_IMAGE025
为 横向规格权重,
Figure 119119DEST_PATH_IMAGE026
为第一纵向数量,
Figure 822633DEST_PATH_IMAGE027
为第二纵向数量,
Figure 446512DEST_PATH_IMAGE028
为第一规格纵向数量,
Figure 184661DEST_PATH_IMAGE009
为 纵向规格权重。
可以理解的是,本方案会先统计第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量,以统计出第一签字图像中签字的宽度和长度,同时统计预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量,以统计出预设签字图像中签字的宽度和长度。
然后,本方案利用第一横向数量和第二横向数量的均值得到第一规格横向数量,然后利用第一纵向数量以及第二纵向数量得到第一规格纵向数量。
其中,在得到第一规格横向数量时,会利用横向规格权重
Figure 376739DEST_PATH_IMAGE005
来对初始的第一规格 横向数量进行调整,横向规格权重
Figure 567549DEST_PATH_IMAGE005
可以是人为设置的,以得到较为精准的第一规格横向 数量;同理,在得到第二规格横向数量时,会利用纵向规格权重
Figure 995119DEST_PATH_IMAGE009
来对初始的第一规格纵 向数量进行调整,纵向规格权重
Figure 322195DEST_PATH_IMAGE009
可以是人为设置的,以得到较为精准的第一规格纵向数 量。
在得到第一规格横向数量和第一规格纵向数量之后,本方案可以利用第一规格横向数量和第一规格纵向数量对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像。
具体的,本方案可以通过以下公式计算第一规格图像的第一改变倍数和第二规格图像的第二改变倍数,
Figure 934442DEST_PATH_IMAGE029
其中,
Figure 612548DEST_PATH_IMAGE011
为第一规格图像的第一改变倍数,
Figure 843809DEST_PATH_IMAGE012
为横向归一化值,
Figure 290971DEST_PATH_IMAGE013
为纵向归一 化值,
Figure 568062DEST_PATH_IMAGE014
为第一放大权重值,
Figure 733464DEST_PATH_IMAGE015
为第二规格图像的第二改变倍数,
Figure 502837DEST_PATH_IMAGE016
为第二放大权重值;
根据所述第一改变倍数和第二改变倍数对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像。
可以理解的是,本方案利用第一横向数量
Figure 70084DEST_PATH_IMAGE003
与第一规格横向数量
Figure 758555DEST_PATH_IMAGE002
的比值得到 横向改变系数,并通过设置的横向归一化值
Figure 411253DEST_PATH_IMAGE012
来对横向改变系数进行调整得到较为精准 的横向改变系数;同理,本方案利用第一纵向数量
Figure 984317DEST_PATH_IMAGE006
与第一规格纵向数量
Figure 140491DEST_PATH_IMAGE008
的比值得到 纵向改变系数,并通过设置的纵向归一化值
Figure 16175DEST_PATH_IMAGE013
来对纵向改变系数进行调整得到较为精准 的纵向改变系数;然后利用横向改变系数和纵向改变系数得到第一规格图像的第一改变倍 数,并最终利用设置的第一放大权重值
Figure 890590DEST_PATH_IMAGE014
对得到的第一改变倍数进行调整,得到较为精准 的第一改变倍数。
同理,本方案利用第二横向数量
Figure 267344DEST_PATH_IMAGE004
与第一规格横向数量
Figure 543605DEST_PATH_IMAGE002
的比值得到横向改变 系数,并通过设置的横向归一化值
Figure 839457DEST_PATH_IMAGE012
来对横向改变系数进行调整得到较为精准的横向改 变系数;同理,本方案利用第二纵向数量
Figure 201168DEST_PATH_IMAGE007
与第一规格纵向数量
Figure 116035DEST_PATH_IMAGE008
的比值得到纵向改变 系数,并通过设置的纵向归一化值
Figure 246802DEST_PATH_IMAGE013
来对纵向改变系数进行调整得到较为精准的纵向改 变系数;然后利用横向改变系数和纵向改变系数得到预设签字图像的第二改变倍数,并最 终利用设置的第二放大权重值
Figure 464288DEST_PATH_IMAGE016
对得到的第二改变倍数进行调整,得到较为精准的第二 改变倍数。
之后利用得到的第一改变倍数来对第一签字图像进行倍数改变处理,并利用得到的第二改变倍数来对预设签字图像进行倍数改变处理,使得签字大小调整为近似大小,使得签字图像与预设签字图像较好的比对,实现笔迹的精准比对。
需要说明的是,上述的倍数改变可以是放大也可以是缩小,例如可以是第一签字图像进行放大处理,第二签字图像进行缩小处理,也可以是第一签字图像进行缩小处理,第二签字图像进行放大处理,使得二者大小调整为一致即可。
第二种实施方式针对签字数量为多个的情况,具体如下:
若所述签字数量为多个,则分别获取所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量。
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量,生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量;
基于所述第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。
可以理解的是,本方案与第一种实施方式的区别是本方案里存在多个子签字图像,本方式需要对多个子签字图像进行改变处理。
本方案会先分别得到所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量,并得到所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量,然后第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量,生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量。
然后,利用第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。
需要说明的是,其实现原理和方式与第一种实施方式类似,在此不再赘述。
S54,获取所述第一规格图像中的第一笔迹属性、第二规格图像的预设笔迹属性,若判断所述第一笔迹属性和预设笔迹属性相对应,则判断第一签字图像与任意一个预设签字图像相对应。
可以理解的是,在上述步骤得到第一规格图像和第二规格图像后,本方案可以对第一规格图像和第二规格图像中的第一笔迹属性和预设笔迹属性进行比对,如果第一笔迹属性和预设笔迹属性相对应,则判断第一签字图像与任意一个预设签字图像相对应,即签字没问题。
在一些实施例中,在比对第一笔迹属性和预设笔迹属性可以是对签名中对应的笔画进行比对处理,例如笔画中的“丿”、“-”、 “丨”等,比对第一笔迹属性和预设笔迹属性中笔画的相似度,此处比对为现有技术,本方案不再赘述。
参见图3,是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核装置的结构示意图,该基于OCR技术的稽查佐证材料智能审核装置具体包括:
划分模块,用于在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域;
提取模块,用于基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息;
一次验证模块,用于基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果;
比对模块,用于若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像;
二次验证模块,对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果;
输出模块,用于在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果。
图3所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤,其实现原理和技术效果类似,此处不再赘述。
参见图4,是本发明实施例提供的一种电子设备的硬件结构示意图,该电子设备40包括:处理器41、存储器42和计算机程序;其中
存储器42,用于存储所述计算机程序,该存储器还可以是闪存(flash)。所述计算机程序例如是实现上述方法的应用程序、功能模块等。
处理器41,用于执行所述存储器存储的计算机程序,以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。
可选地,存储器42既可以是独立的,也可以跟处理器41集成在一起。
当所述存储器42是独立于处理器41之外的器件时,所述设备还可以包括:
总线43,用于连接所述存储器42和处理器41。
本发明还提供一种可读存储介质,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits,简称:ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述设备的实施例中,应理解,处理器可以是中央处理单元(英文:CentralProcessing Unit,简称:CPU),还可以是其他通用处理器、数字信号处理器(英文:DigitalSignal Processor,简称:DSP)、专用集成电路(英文:Application Specific IntegratedCircuit,简称:ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (7)

1.基于OCR技术的稽查佐证材料智能审核方法,其特征在于,包括:
在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域;
基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息;
基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果;
若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像;
对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果;
在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果;
在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层不同的触发方式,对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域的步骤中,包括:
建立与所述材料图像的尺寸相对应的透明标注图层,将所述透明标注图层叠加于所述材料图像的上部,对叠加透明标注图层后的材料图像进行显示;
若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹,则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域;
若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹,则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域;
将所述第一标注区域与所述第二标注区域进行比对,若第一标注区域与所述第二标注区域具有重复标注区域,则提取材料图像与所述重复标注区域相对应的重复子图像;
根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域;
提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域,提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域;
根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域,包括:
提取重复子图像中所有第一像素点的像素值,若判断所有第一像素点的像素值都处于第一像素区间内,则确定重复子图像的所有中部第一像素点得到图像分界线,根据所述图像分界线得到重复子图像的区域分界线;
基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域;
将第一重复区域划分为与其相接的第一标注区域;将第二重复区域划分为与其相接的第二标注区域;
还包括:
若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内,则将所述重复标注区域划分为第二标注区域。
2.根据权利要求1所述的基于OCR技术的稽查佐证材料智能审核方法,其特征在于,
基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果,包括:
基于所述第一数量信息和第一财务信息得到平均财务信息,将所述平均财务信息和预设财务信息比对得到一次验证结果,所述一次验证结果包括平均财务信息大于预设财务信息或平均财务信息小于等于预设财务信息中的任意一个;
若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,每个预设设备信息具有与其对应的至少一个预设签字图像,包括:
若所述一次验证结果为平均财务信息小于等于预设财务信息,即判断一次验证结果符合第一验证要求;
确定与第一设备信息相对应的预设设备信息,提取相对应的预设设备信息预设签字图像,所述预设签字图像由相应人员预先录入。
3.根据权利要求2所述的基于OCR技术的稽查佐证材料智能审核方法,其特征在于,
对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果,包括:
对签字提取区域内的图像基于OCR技术进行识别得到第二文字数据,确定第二文字数据中的模板性文字;
对签字提取区域内的图像与所述模板性文字所对应的像素点进行锁定得到第二像素点,对所述第二像素点的像素值进行透明调整生成调整后的第一签字图像;
获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像;
获取所述第一规格图像中的第一笔迹属性、第二规格图像的预设笔迹属性,若判断所述第一笔迹属性和预设笔迹属性相对应,则判断第一签字图像与任意一个预设签字图像相对应。
4.根据权利要求3所述的基于OCR技术的稽查佐证材料智能审核方法,其特征在于,
获取所述第一签字图像中的签字数量,基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像,包括:
以所述第一签字图像的第一边缘点为坐标原点对所述第一签字图像进行坐标化处理,得到第一签字图像中每个像素点的第一坐标;
确定所有处于第二像素区间内的像素点的所有第一坐标,提取所有第一坐标中的纵坐标值,对纵坐标值去重处理后按照降序方式得到降序序列;
若所述降序序列为连续的,则判断所述签字数量为1个;
若所述降序序列为非连续的,则判断所述签字数量为多个,将两个相邻且非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值;
确定所述第一分隔坐标值和第二分隔坐标值的中间坐标值,以所述中间坐标值生成对应的Y轴分割线;
基于所述Y轴分割线将所述第一签字图像分割为多个子签字图像;
基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像。
5.根据权利要求4所述的基于OCR技术的稽查佐证材料智能审核方法,其特征在于,
基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像,包括:
若所述签字数量为1,则获取所述第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量;
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量生成第一规格横向数量和第一规格纵向数量;
通过以下公式得到第一规格横向数量和第一规格纵向数量:
Figure 27798DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为第一规格横向数量,
Figure 305458DEST_PATH_IMAGE004
为第一横向数量,
Figure DEST_PATH_IMAGE005
为第二横向数量,
Figure 209829DEST_PATH_IMAGE006
为横向规 格权重,
Figure DEST_PATH_IMAGE007
为第一纵向数量,
Figure 965557DEST_PATH_IMAGE008
为第二纵向数量,
Figure DEST_PATH_IMAGE009
为第一规格纵向数量,
Figure 852699DEST_PATH_IMAGE010
为纵向规格 权重;
基于所述第一规格横向数量和第一规格纵向数量对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像;
通过以下公式计算第一规格图像的第一改变倍数和第二规格图像的第二改变倍数:
Figure 612844DEST_PATH_IMAGE012
其中,
Figure DEST_PATH_IMAGE013
为第一规格图像的第一改变倍数,
Figure 958506DEST_PATH_IMAGE014
为横向归一化值,
Figure DEST_PATH_IMAGE015
为纵向归一化值,
Figure 16461DEST_PATH_IMAGE016
为第一放大权重值,
Figure DEST_PATH_IMAGE017
为第二规格图像的第二改变倍数,
Figure 514701DEST_PATH_IMAGE018
为第二放大权重值;
根据所述第一改变倍数和第二改变倍数对所述第一签字图像和预设签字图像进行规格化处理,得到第一规格图像和第二规格图像。
6.根据权利要求4所述的基于OCR技术的稽查佐证材料智能审核方法,其特征在于,
基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像,包括:
若所述签字数量为多个,则分别获取所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量;
获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量;
基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量,生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量;
基于所述第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。
7.基于OCR技术的稽查佐证材料智能审核装置,其特征在于,包括:
划分模块,用于在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹,根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域;
提取模块,用于基于OCR技术对内容提取区域的内容进行提取得到第一文字数据,对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息;
一次验证模块,用于基于所述第一设备信息确定相对应的预设财务信息,基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果;
比对模块,用于若所述一次验证结果符合第一验证要求,则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像,其中,每个预设设备信息具有与其对应的至少一个预设签字图像;
二次验证模块,用于对签字提取区域内的图像进行提取得到第一签字图像,若所述第一签字图像与任意一个预设签字图像相对应,则得到二次验证结果;
输出模块,用于在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后,输出智能审核结果;
在稽查佐证材料的材料图像上叠加透明标注图层,根据用户对所述透明标注图层不同的触发方式,对所述材料图像进行区域划分,得到至少一个内容提取区域和至少一个签字提取区域的步骤中,包括:
建立与所述材料图像的尺寸相对应的透明标注图层,将所述透明标注图层叠加于所述材料图像的上部,对叠加透明标注图层后的材料图像进行显示;
若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹,则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域;
若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹,则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域;
将所述第一标注区域与所述第二标注区域进行比对,若第一标注区域与所述第二标注区域具有重复标注区域,则提取材料图像与所述重复标注区域相对应的重复子图像;
根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域;
提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域,提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域;
根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域,包括:
提取重复子图像中所有第一像素点的像素值,若判断所有第一像素点的像素值都处于第一像素区间内,则确定重复子图像的所有中部第一像素点得到图像分界线,根据所述图像分界线得到重复子图像的区域分界线;
基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域;
将第一重复区域划分为与其相接的第一标注区域;将第二重复区域划分为与其相接的第二标注区域;
还包括:
若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内,则将所述重复标注区域划分为第二标注区域。
CN202210535492.9A 2022-05-18 2022-05-18 基于ocr技术的稽查佐证材料智能审核方法及装置 Active CN114639173B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210535492.9A CN114639173B (zh) 2022-05-18 2022-05-18 基于ocr技术的稽查佐证材料智能审核方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210535492.9A CN114639173B (zh) 2022-05-18 2022-05-18 基于ocr技术的稽查佐证材料智能审核方法及装置

Publications (2)

Publication Number Publication Date
CN114639173A CN114639173A (zh) 2022-06-17
CN114639173B true CN114639173B (zh) 2022-08-09

Family

ID=81953269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210535492.9A Active CN114639173B (zh) 2022-05-18 2022-05-18 基于ocr技术的稽查佐证材料智能审核方法及装置

Country Status (1)

Country Link
CN (1) CN114639173B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115880705B (zh) * 2023-02-17 2023-06-02 佰聆数据股份有限公司 基于图像识别的材料审核方法、装置、设备及存储介质
CN116469120B (zh) * 2023-05-31 2023-09-05 国网浙江省电力有限公司营销服务中心 电费单据自动数据处理方法、装置及存储介质
CN116757886B (zh) * 2023-08-16 2023-11-28 南京尘与土信息技术有限公司 数据分析方法及分析装置
CN117093548B (zh) * 2023-10-20 2024-01-26 公诚管理咨询有限公司 一种招投标管理稽核系统
CN117474502A (zh) * 2023-12-27 2024-01-30 国网浙江省电力有限公司金华供电公司 财务数据处理方法、系统及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599857A (zh) * 2016-12-20 2017-04-26 广东欧珀移动通信有限公司 图像识别方法、装置、计算机可读存储介质及终端设备
CN109754266A (zh) * 2018-12-25 2019-05-14 国家消防工程技术研究中心 认证信息图像显示方法、装置、服务器及存储介质
CN110990827A (zh) * 2019-10-28 2020-04-10 上海隔镜信息科技有限公司 一种身份信息验证方法、服务器及存储介质
CN111949954A (zh) * 2020-07-10 2020-11-17 深圳市信锐网科技术有限公司 一种登录验证方法、系统和计算机存储介质
CN113095307A (zh) * 2021-06-09 2021-07-09 国网浙江省电力有限公司 一种财务凭证信息自动识别方法
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质
CN113704823A (zh) * 2021-08-30 2021-11-26 长城计算机软件与系统有限公司 一种报销处理方法、系统、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111144394A (zh) * 2019-12-13 2020-05-12 中国平安财产保险股份有限公司 基于人工智能的自动审核方法、装置、设备及存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106599857A (zh) * 2016-12-20 2017-04-26 广东欧珀移动通信有限公司 图像识别方法、装置、计算机可读存储介质及终端设备
CN109754266A (zh) * 2018-12-25 2019-05-14 国家消防工程技术研究中心 认证信息图像显示方法、装置、服务器及存储介质
CN110990827A (zh) * 2019-10-28 2020-04-10 上海隔镜信息科技有限公司 一种身份信息验证方法、服务器及存储介质
CN111949954A (zh) * 2020-07-10 2020-11-17 深圳市信锐网科技术有限公司 一种登录验证方法、系统和计算机存储介质
CN113095307A (zh) * 2021-06-09 2021-07-09 国网浙江省电力有限公司 一种财务凭证信息自动识别方法
CN113704823A (zh) * 2021-08-30 2021-11-26 长城计算机软件与系统有限公司 一种报销处理方法、系统、存储介质及电子设备
CN113569863A (zh) * 2021-09-26 2021-10-29 广东电网有限责任公司中山供电局 一种单据稽查的方法、系统、电子设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
OCR 技术下的医保费用智能审核研究--以蚌埠市为例;姚慧慧;《信息化建设》;20200415;第31-32页 *
Secure Ring Signature based privacy preserving of Public Auditing mechanism for outsourced data in cloud computing paradigm;D Srivaishnavi等;《2021 International Conference on Computing, Communication, Electrical and Biomedical Systems (ICCCEBS)》;20210326;第1-5页 *
基于OCR技术的高校财务报销新探索;何文琦;《高校财务》;20200531(第10期);第79-81页 *

Also Published As

Publication number Publication date
CN114639173A (zh) 2022-06-17

Similar Documents

Publication Publication Date Title
CN114639173B (zh) 基于ocr技术的稽查佐证材料智能审核方法及装置
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
US10943105B2 (en) Document field detection and parsing
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
Messelodi et al. Automatic identification and skew estimation of text lines in real scene images
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
JP5500480B2 (ja) 帳票認識装置及び帳票認識方法
US20140307959A1 (en) Method and system of pre-analysis and automated classification of documents
US20110188759A1 (en) Method and System of Pre-Analysis and Automated Classification of Documents
WO2010092952A1 (ja) パターン認識装置
CN111209827B (zh) 一种基于特征检测的ocr识别票据问题的方法及系统
WO2021072876A1 (zh) 证件图像分类方法、装置、计算机设备及可读存储介质
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN108280430B (zh) 一种流程图像识别方法
US20140268250A1 (en) Systems and methods for receipt-based mobile image capture
CN109508716B (zh) 一种图像文字的定位方法及装置
CN114998905A (zh) 一种复杂结构化文档内容的校验方法、装置与设备
CN111209865A (zh) 文件内容提取方法、装置、电子设备及存储介质
CN108090728B (zh) 一种基于智能终端的快递信息录入方法及录入系统
CN112632926B (zh) 票据的数据处理方法、装置、电子设备及存储介质
CN104899551B (zh) 一种表单图像分类方法
Lue et al. A novel character segmentation method for text images captured by cameras
JP2003109007A (ja) 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
Janssen et al. Receipts2go: the big world of small documents
CN111062262A (zh) 发票识别方法以及发票识别装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant