CN114639173B

CN114639173B - 基于ocr技术的稽查佐证材料智能审核方法及装置

Info

Publication number: CN114639173B
Application number: CN202210535492.9A
Authority: CN
Inventors: 金家红; 严华江; 陆艳; 朱林; 马亮; 刘欢; 洪忠河; 项秋涛; 骆跃武; 陈能塔
Original assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Current assignee: State Grid Zhejiang Electric Power Co Ltd; Marketing Service Center of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2022-05-18
Filing date: 2022-05-18
Publication date: 2022-08-09
Anticipated expiration: 2042-05-18
Also published as: CN114639173A

Abstract

本发明提供一种基于OCR技术的稽查佐证材料智能审核方法及装置，包括：对稽查佐证材料处理得到至少一个内容提取区域和至少一个签字提取区域；对内容提取区域的内容进行提取得到第一设备信息、第一数量信息以及第一财务信息；确定相对应的预设财务信息，基于预设财务信息对第一数量信息和第一财务信息进行一次验证得到一次验证结果；若一次验证结果符合第一验证要求，则将第一设备信息与预设设备信息比对得到至少一个预设签字图像；对签字提取区域内的图像进行提取得到第一签字图像，若第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果，本方案采用两次验证，较为准确的对稽查佐证材料的内容以及签字进行智能审核。

Description

基于OCR技术的稽查佐证材料智能审核方法及装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于OCR技术的稽查佐证材料智能审核方法及装置。

背景技术

稽查佐证材料是例如可以是合同材料、报表、凭证等材料，一般来说，稽查佐证材料包括有内容部分以及签字部分，内容部分例如可以是格式条款、销售的设备名称、价格等内容，其内容和签字均需要具备高度准确性，否则会为公司带来较大损失。

现有技术中，对稽查佐证材料通常采用人工的方式进行审核，然而，人工审核的方式效率低下，且人工无法对签字是否真实做出较为准确的判断，因此，如何对稽查佐证材料进行准确的审核成为了急需解决的问题。

发明内容

本发明实施例提供一种基于OCR技术的稽查佐证材料智能审核方法及装置，采用两次验证，较为准确地对稽查佐证材料的内容以及签字进行智能审核。

本发明实施例的第一方面，提供基于OCR技术的稽查佐证材料智能审核方法，包括：

在稽查佐证材料的材料图像上叠加透明标注图层，根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹，根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分，得到至少一个内容提取区域和至少一个签字提取区域；

基于OCR技术对内容提取区域的内容进行提取得到第一文字数据，对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息；

基于所述第一设备信息确定相对应的预设财务信息，基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果；

若所述一次验证结果符合第一验证要求，则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像，每个预设设备信息具有与其对应的至少一个预设签字图像；

对签字提取区域内的图像进行提取得到第一签字图像，若所述第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果；

在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后，输出智能审核结果。

可选地，在第一方面的一种可能实现方式中，在稽查佐证材料的材料图像上叠加透明标注图层，根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹，根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分，得到至少一个内容提取区域和至少一个签字提取区域的步骤中，具体包括：

建立与所述材料图像的尺寸相对应的透明标注图层，将所述透明标注图层叠加于所述材料图像的上部，对叠加透明标注图层后的材料图像进行显示；

若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹，则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域；

若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹，则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域；

将所述第一标注区域与所述第二标注区域比对，若第一标注区域与所述第二标注区域中具有重复标注区域，则提取材料图像与所述重复标注区域相对应的重复子图像；

根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域；

提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域，提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域。

可选地，在第一方面的一种可能实现方式中，所述根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域，包括：

提取重复子图像中所有第一像素点的像素值，若判断所有第一像素点的像素值都处于第一像素区间内，则确定重复子图像的所有中部第一像素点得到图像分界线，根据所述图像分界线得到重复子图像的区域分界线；

基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域；

将第一重复区域划分为与其相接的第一标注区域；将第二重复区域划分为与其相接的第二标注区域。

可选地，在第一方面的一种可能实现方式中，还包括：

若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内；

则将所述重复标注区域划分为第二标注区域。

可选地，在第一方面的一种可能实现方式中，所述基于所述第一设备信息确定相对应的预设财务信息，基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果具体包括：

基于所述第一数量信息和第一财务信息得到平均财务信息，将所述平均财务信息和预设财务信息比对得到一次验证结果，所述一次验证结果包括平均财务信息大于预设财务信息或平均财务信息小于等于预设财务信息中的任意一个；

所述若所述一次验证结果符合第一验证要求，则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像，每个预设设备信息具有与其对应的至少一个预设签字图像具体包括：

若所述一次验证结果为平均财务信息小于等于预设财务信息，即判断一次验证结果符合第一验证要求；

确定与第一设备信息相对应的预设设备信息，提取相对应的预设设备信息预设签字图像，所述预设签字图像为相应人员预先录入的。

可选地，在第一方面的一种可能实现方式中，所述对签字提取区域内的图像进行提取得到第一签字图像，若所述第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果具体包括：

对签字提取区域内的图像基于OCR技术进行识别得到第二文字数据，确定第二文字数据中的模板性文字；

对签字提取区域内的图像与所述模板性文字所对应的像素点进行锁定得到第二像素点，对所述第二像素点的像素值进行透明调整生成调整后的第一签字图像；

获取所述第一签字图像中的签字数量，基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像；

获取所述第一规格图像中的第一笔迹属性、第二规格图像的预设笔迹属性，若判断所述第一笔迹属性和预设笔迹属性相对应，则判断第一签字图像与任意一个预设签字图像相对应。

可选地，在第一方面的一种可能实现方式中，所述获取所述第一签字图像中的签字数量，基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像具体包括：

以所述第一签字图像的第一边缘点为坐标原点对所述第一签字图像进行坐标化处理，得到第一签字图像中每个像素点的第一坐标；

确定所有处于第二像素区间内的像素点的所有第一坐标，提取所有第一坐标中的纵坐标值，对纵坐标值去重处理后按照降序方式得到降序序列；

若所述降序序列为连续的，则判断所述签字数量为1个；

若所述降序序列为非连续的，则判断所述签字数量为多个，将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值；

确定所述第一分隔坐标值和第二分隔坐标值的中间坐标值，以所述中间坐标值生成对应的Y轴分割线；

基于所述Y轴分割线将所述第一签字图像分割为多个子签字图像；

基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像。

可选地，在第一方面的一种可能实现方式中，所述基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像具体包括：

若所述签字数量为1，则获取所述第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量；

获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量；

基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量生成第一规格横向数量和第一规格纵向数量；

通过以下公式得到第一规格横向数量和第一规格纵向数量，

其中，

为第一规格横向数量，

为第一横向数量，

为第二横向数量，

为横向规格权重，

为第一纵向数量，

为第二纵向数量，

为第一规格纵向数量，

为纵向规格权重；

基于所述第一规格横向数量和第一规格纵向数量对所述第一签字图像和预设签字图像进行规格化处理，得到第一规格图像和第二规格图像；

通过以下公式计算第一规格图像的第一改变倍数和第二规格图像的第二改变倍数，

其中，

为第一规格图像的第一改变倍数，

为横向归一化值，

为纵向归一化值，

为第一放大权重值，

为第二规格图像的第二改变倍数，

为第二放大权重值；

根据所述第一改变倍数和第二改变倍数对所述第一签字图像和预设签字图像进行规格化处理，得到第一规格图像和第二规格图像。

若所述签字数量为多个，则分别获取所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量；

基于所述第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量，生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量；

基于所述第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。

本发明实施例的第二方面，提供一种基于OCR技术的稽查佐证材料智能审核装置，具体包括：

划分模块，用于在稽查佐证材料的材料图像上叠加透明标注图层，根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹，根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分，得到至少一个内容提取区域和至少一个签字提取区域；

提取模块，用于基于OCR技术对内容提取区域的内容进行提取得到第一文字数据，对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息；

一次验证模块，用于基于所述第一设备信息确定相对应的预设财务信息，基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果；

比对模块，用于若所述一次验证结果符合第一验证要求，则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像，每个预设设备信息具有与其对应的至少一个预设签字图像；

二次验证模块，对签字提取区域内的图像进行提取得到第一签字图像，若所述第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果；

输出模块，用于在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后，输出智能审核结果。

本发明实施例的第三方面，提供一种电子设备，包括：存储器、处理器以及计算机程序，所述计算机程序存储在所述存储器中，所述处理器运行所述计算机程序执行本发明第一方面及第一方面各种可能涉及的所述方法。

本发明实施例的第四方面，提供一种存储介质，所述存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现本发明第一方面及第一方面各种可能设计的所述方法。

本发明的有益效果如下：

1、本方案采用透明标注图层与材料图像结合的方式，可以让用户主动输入数据，服务器对数据处理得到至少一个内容提取区域和至少一个签字提取区域；之后，本方案存在两次验证过程，第一次验证过程是对内容提取区域内的信息进行自动验证处理，验证内容包括第一设备信息、第一数量信息以及第一财务信息，验证之后得到第一验证结果，用于指示内容提取区域内的文本是否符合验证要求；第二次验证过程会对签字提取区域内的签名进行处理，本方案会首先根据内容提取区域提取的内容来确定对应的预设设备信息，然后在服务器内找到与预设设备信息对应的至少一个预设签字图像，与签字提取区域内的签字信息进行比对，得到第二验证结果；综上，本方案通过两次验证，可以对稽查佐证材料的内容以及签字同时验证，使得稽查佐证材料审核的准确性较高；

2、本方案在生成内容提取区域和签字提取区域的过程中，还会采用像素值区分的方式来对内容提取区域和签字提取区域的重复区域进行归类，使得第二标注区域不会缺失内容，从而确保能够提取完整的用户签名。其中，本方案根据情况不同采用不同的方式进行归类，第一种情况（判断所有第一像素点的像素值都处于第一像素区间内），本方案会生成图像分界线，来将重复区域换分为第一重复区域和第二重复区域，然后将第一重复区域和第二重复区域分别划分为与其相接的第一标注区域和第二标注区域；第二种情况（判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内），本方案会将所述重复标注区域划分为第二标注区域，在确保使得第二标注区域不会缺失内容的情况下，去除干扰区域，并且可以减少数据处理量；

3、本方案考虑到提取的签字图像与预设签字图像之间的规格会存在差异，在进行数据比对时，会导致比对结果不够精准，本方案采集第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量，以及预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量，根据以上数量生成第一规格横向数量和第一规格纵向数量，然后再利用第一规格横向数量和第一规格纵向数量得到对应第一规格图像的第一改变倍数和第二规格图像的第二改变倍数，最后，利用第一改变倍数和第二改变倍数对第一签字图像和预设签字图像进行规格化处理，得到规格相同的第一规格图像和第二规格图像，以进行准确比对；此外，本方案还考虑到签名可能有一个，也可能有多个，在只有一个签名时，本方案直接对第一签字图像进行规格化处理即可，在有多个时，会依据签名数量来对签字图像中的签名进行划分，得到多个子签字图像，然后对子签字图像进行规格化处理，提高本方案的灵活性以及规格化时的准确性。

附图说明

图1是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核方法的流程示意图；

图2是本发明实施例提供的一种区域划分的流程示意图；

图3是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核装置的结构示意图；

图4是本发明实施例提供的一种电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等（如果存在）是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

应当理解，在本发明的各种实施例中，各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

应当理解，在本发明中，“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应当理解，在本发明中，“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含，“包含A、B或C”是指包含A、B、C三者之一，“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。

应当理解，在本发明中，“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”，表示B与A相关联，根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其他信息确定B。A与B的匹配，是A与B的相似度大于或等于预设的阈值。

取决于语境，如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

参见图1，是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核方法的流程示意图，图1所示方法的执行主体可以是软件和/或硬件装置。本申请的执行主体可以包括但不限于以下中的至少一个：用户设备、网络设备等。其中，用户设备可以包括但不限于计算机、智能手机、个人数字助理（Personal Digital Assistant，简称：PDA）及上述提及的电子设备等。网络设备可以包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算的由大量计算机或网络服务器构成的云，其中，云计算是分布式计算的一种，由一群松散耦合的计算机组成的一个超级虚拟计算机，本实施例对此不做限制。本发明实施例包括步骤S1至步骤S6，具体如下：

S1，在稽查佐证材料的材料图像上叠加透明标注图层，根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹，根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分，得到至少一个内容提取区域和至少一个签字提取区域。

其中，稽查佐证材料可以是合同、采购单等需要签字审核的文体，本方案以合同为例进行说明，但不做此限制。

具体的，由于合同文本内文字内容（包括模板性文字以及用户签字）较多，为了对签字进行审核，首选需要对签字进行定位，本方案先获取到稽查佐证材料的材料图像，可以是扫描、拍照等方式获取，然后再对材料图像进行区域划分，将其划分为至少一个内容提取区域和至少一个签字提取区域。

可以理解的是，稽查佐证材料内存在有较多的模板性的文本内容，例如格式条款、机打文字等，内容提取区域即为上述内容所在区域；稽查佐证材料内还存在有用户签字的区域，签字提取区域即为上述的签字区域，其包括用户签字以及其他信息，其他信息例如是甲方、乙方、年、月、日等。

在一些实施例中，在步骤S1(在稽查佐证材料的材料图像上叠加透明标注图层，根据用户对所述透明标注图层的触发方式得到第一触发痕迹和/或第二触发痕迹，根据所述第一触发痕迹和/或第二触发痕迹对所述材料图像进行区域划分，得到至少一个内容提取区域和至少一个签字提取区域) 的步骤中，具体包括步骤S11至步骤S16,具体如下：

S11，建立与所述材料图像的尺寸相对应的透明标注图层，将所述透明标注图层叠加于所述材料图像的上部，对叠加透明标注图层后的材料图像进行显示。

首先，本方案为了获取到内容提取区域和签字提取区域，设置有供用户进行触发操作的透明标注图层，透明标注图层叠加在所述材料图像的上部，且透明标注图层的尺寸与材料图像的尺寸相同，用户可以在透明标注图层上进行操作，服务器可以采集到用户的操作数据并进行处理。

可以理解的是，本方案的透明标注图层是透明的，当透明标注图层叠加到材料图像上之后，用户可以透过透明标注图层清晰地看到材料图像上的文字信息。

在实际应用中，透明标注图层可以设置在服务器内，在响应用户的调用操作后进行显示，且透明标注图层的大小可以调节，以适应材料图像的尺寸。

S12，若判断用户以第一触发方式对透明标注图层进行触发得到第一触发痕迹，则将透明标注图层中具有第一触发痕迹的区域作为第一标注区域。

S13，若判断用户以第二触发方式对透明标注图层进行触发得到第二触发痕迹，则将透明标注图层中具有第二触发痕迹的区域作为第二标注区域。

具体的，为了区分内容提取区域和签字提取区域，本方案的步骤S112和S113采用两种不同的方式来对透明标注图层进行触发操作，形成不同的触发痕迹，根据不同的触发痕迹来形成第一标注区域和第二标注区域，从而协助区分内容提取区域和签字提取区域。

其中，为了识别用户是采用第一触发方式还是采用第二触发方式来进行触发操作的，可以在透明标注图层上设置有供用户选择第一触发方式或者第二触发方式的虚拟按钮，用户在需要采用第一触发方式进行操作时，点击对应的第一触发方式的按钮即可，同理，用户在需要采用第二触发方式进行操作时，点击对应的第二触发方式的按钮即可。

示例性的，用户为了标记出材料图像中的内容提取区域，可以点击对应的第一触发方式的按钮，服务器检测到操作后，会自动以第一触发痕迹来记录用户接下来的触发操作，此时，用户可以利用鼠标或者电子笔在电子屏幕上的透明标注图层区域内进行滑动操作，例如可以是从上往下或者从下往上进行滑动操作，用户滑动的区域需要对应内容提取区域，通过上述方式可以形成对应的第一标注区域。

另一示例性的，用户为了标记出材料图像中的签字提取区域，可以点击对应的第二触发方式的按钮，服务器检测到操作后，会自动以第二触发痕迹来记录用户接下来的触发操作，此时，用户可以利用鼠标或者电子笔在电子屏幕上的透明标注图层区域内进行滑动操作，例如可以是从上往下或者从下往上进行滑动操作，用户滑动的区域需要对应签字提取区域，通过上述方式可以形成对应的第二标注区域。

S14，将所述第一标注区域与所述第二标注区域比对，若第一标注区域与所述第二标注区域中具有重复标注区域，则提取材料图像与所述重复标注区域相对应的重复子图像。

由于用户在进行触发操作（例如滑动操作）时，会出现不够精准的操作，例如，第一标注区域或第二标注区域滑动时滑多了一部分，此时，第一标注区域与第二标注区域中具有重复标注区域，为了对区域进行精准的划分，本方案提取材料图像与重复标注区域相对应的重复子图像，进行以下的精准处理操作。

S15，根据所述重复子图像中所有第一像素点的像素值将所述重复标注区域归类为第一标注区域和/或第二标注区域。

具体的，本方案利用重复子图像中所有第一像素点的像素值进行判断，对重复标注区域进行划分，使其归类为第一标注区域和/或第二标注区域。

在一些实施例中，步骤S15可以包括以下步骤，具体如下：

提取重复子图像中所有第一像素点的像素值，若判断所有第一像素点的像素值都处于第一像素区间内，则确定重复子图像的所有中部第一像素点得到图像分界线，根据所述图像分界线得到重复子图像的区域分界线。

本方案利用像素值来对重复子区域进行确定，其基本构思为：

由于内容提取区域内的文字均为模板性文字（机打文字），其区域只存在一种像素值，而签字区域的文字肯定会包括模板性文字（例如甲方、乙方、年、月、日等）以及用户用签字笔写的文字（例如可以是甲方的名字、乙方的名字、2022、1、1），其区域会存在两种不同的像素值，本方案采用上述两种文字的像素值不同来对重复子区域进行确定，具体参见下文。

首先，本方案可以提取重复子图像中所有第一像素点的像素值，第一像素点的像素值例如可以是指黑色字体的像素值，空白区域的像素值本方案不做提取，即本方案首先提取出重复子图像中所有字体的像素值，然后判断所有第一像素点的像素值是否都处于第一像素区间内，若是，则表明其区域只存在一种像素值。

在一种方式中，本方案确定重复子图像只存在一种像素值时，说明重复子图像有极大可能是属于内容提取区域的，因此本方案可以直接将其归类为第一标注区域。

在另一种方式中，本方案考虑到重复子图像可能会包含第二标注区域的内容，例如甲方、乙方、年、月、日等内容，因此本方案在确定所有第一像素点的像素值都处于第一像素区间内时，本方案还会确定重复子图像的所有中部第一像素点得到图像分界线，即本方案会根据所有中部第一像素点生成图像分界线来对重复子图像进行分割，以将一半区域分割给第二标注区域，防止将具有签名的区域错误的划分到第一标注区域中。

本方案会基于所述区域分界线将重复标注区域划分为第一重复区域和第二重复区域。

本方案利用图像分界线来对重复子图像进行分割处理，将重复标注区域划分为重复标注区域，并将第一重复区域和第二重复区域分别划分为与其相接的第一标注区域和第二标注区域，实现对重复标注区域的重新归类。

在另一些实施例中，若判断所有第一像素点的像素值分别处于第一像素区间内和第二像素区间内，则将所述重复标注区域划分为第二标注区域。

可以理解的是，本方案提取的所有第一像素点的像素值位于两个像素区间内，说明该区域即存在机打文字，还存在手写文字，表明其为第二标注区域的内容，此时，本方案直接将其划分为第二标注区域即可。

本方案通过以上方式，可以准确的将重复子图像进行归类，防止对后续签字判定的影响。

S16，提取材料图像中与所述第一标注区域相对应的区域作为内容提取区域，提取材料图像中与所述第二标注区域相对应的区域作为签字提取区域。

在步骤S15得到较为精准的第一标注区域和第二标注区域后，将材料图像中与第一标注区域相对应的区域作为内容提取区域，将材料图像中与所述第二标注区域相对应的区域作为签字提取区域，以实现对稽查佐证材料的区域划分。

S2，基于OCR技术对内容提取区域的内容进行提取得到第一文字数据，对所述第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息。

具体的，本步骤可以基于设备合同来进行举例分析，设备合同里面一般会存在有设备名称、设备价格、设备数量等信息。

在步骤S1得到内容提取区域和签字提取区域之后，会先对内容提取区域的内容进行提取得到第一文字数据，然后对第一文字数据进行语义识别得到第一设备信息、第一数量信息以及第一财务信息。

其中，第一设备信息可以是变压器A、变压器B等设备型号信息，第一数量信息可以是变压器A的数量为3个，变压器B的数量为4个，第一财务信息可以是变压器A的总价格为1.2万，变压器B的总价格为0.8万。

S3，基于所述第一设备信息确定相对应的预设财务信息，基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果。

具体的，本方案会先对合同中的财务信息进行验证，得到相应的验证结果。

在得到第一设备信息后，可以在服务器中查找对应的预设财务信息，第一设备信息可以是变压器A，预设财务信息例如可以是变压器A单价为0.4万，然后利用该预设财务信息对合同中的财务信息进行验证。

在一些实施例中，基于所述第一设备信息确定相对应的预设财务信息，基于所述预设财务信息对所述第一数量信息和第一财务信息进行一次验证得到一次验证结果具体包括：

基于所述第一数量信息和第一财务信息得到平均财务信息，将所述平均财务信息和预设财务信息比对得到一次验证结果，所述一次验证结果包括平均财务信息大于预设财务信息或平均财务信息小于等于预设财务信息中的任意一个。

可以理解的是，本方案先基于所述第一数量信息和第一财务信息得到平均财务信息，然后将平均财务信息和预设财务信息比对得到一次验证结果。

示例性的，变压器A有3个，变压器A的总价格为1.2万，那么变压器A的平均财务信息为0.4万，若预设财务信息是变压器A单价为0.4万，那么得到的一次验证结果为正确，若预设财务信息是变压器A单价为0.7万，那么得到的一次验证结果为错误。

可以理解的是，本方案的验证结果为平均财务信息大于预设财务信息时，说明价格超标，不符合要求；验证结果为平均财务信息小于等于预设财务信息中时，说明价格未超标，符合要求。

S4，若所述一次验证结果符合第一验证要求，则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像，每个预设设备信息具有与其对应的至少一个预设签字图像。

在一些实施例中，步骤S4包括：

若所述一次验证结果为平均财务信息小于等于预设财务信息，即判断一次验证结果符合第一验证要求；确定与第一设备信息相对应的预设设备信息，提取相对应的预设设备信息预设签字图像，所述预设签字图像为相应人员预先录入的。

本方案在所述一次验证结果符合第一验证要求（例如第一次验证结果为平均财务信息小于等于预设财务信息）之后，则将所述第一设备信息与预设设备信息比对得到至少一个预设签字图像，其中，每个预设设备信息具有与其对应的至少一个预设签字图像。

其中，第一设备信息可以是变压器A、变压器B，预设设备信息可以是变压器A、变压器B的统称，例如可以是变压器，而对于变压器可以有专门人员的审核，例如可以是人员A和人员B专门审核，预设签字图像可以是对应人员A和人员B设置的预先签字图像，预先签字图像会预先存储在服务器内。

S5，对签字提取区域内的图像进行提取得到第一签字图像，若所述第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果。

本方案在得到较为准确的签字提取区域后，会对签字提取区域内的图像进行提取得到第一签字图像，例如得到人员A和/或人员B的签名，然后与预先签字图像进行比对，得到二次验证结果。

S6，在判断稽查佐证材料具有相对应的一次验证结果和二次验证结果后，输出智能审核结果。

可以理解的是，本方案得到一次验证结果和二次验证结果之后，可以依据一次验证结果和二次验证结果来得到智能审核结果。

示例性的，一次验证结果或二次验证结果指示稽查佐证材料有误的，智能审核结果可以是不通过，一次验证结果和二次验证结果指示稽查佐证材料无误的，智能审核结果可以是通过。

参见图2，在上述实施例的基础上步骤S5（对签字提取区域内的图像进行提取得到第一签字图像，若所述第一签字图像与任意一个预设签字图像相对应，则得到二次验证结果）的具体实现方式可以包括步骤S51至步骤S54，具体如下：

S51，对签字提取区域内的图像基于OCR技术进行识别得到第二文字数据，确定第二文字数据中的模板性文字。

可以理解的是，签字提取区域的文字会包括模板性文字（例如甲方、乙方、年、月、日等）以及用户用签字笔写的文字（例如可以是甲方的名字、乙方的名字、2022、1、1），本方案会首先将签字提取区域内的模板性文字确定下来。

S52，对签字提取区域内的图像与所述模板性文字所对应的像素点进行锁定得到第二像素点，对所述第二像素点的像素值进行透明调整生成调整后的第一签字图像。

本方案在得到签字提取区域内的模板性文字后，需要将模板性文字去除，以在签字提取区域内只留下用户的签名。

首先，本方案会对签字提取区域内的图像与模板性文字所对应的像素点进行锁定得到第二像素点，即锁定模板性文字，然后将模板性文字的像素值调整，例如可以将其像素值调整为与空白区域相同的像素值，调整后即可将模板性文字去除，以得到只留下用户的签名的第一签字图像。

S53，获取所述第一签字图像中的签字数量，基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像。

可以理解的是，有时文件一人签名即可，有时候需要多人签名，本方案会获取第一签字图像中的签字数量，然后利用签字数量对第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像。

其中，规格化处理是为了将第一签字图像和预设签字图像转换为相同大小的图像，即第一规格图像和第二规格图像，以便于后续第一签字图像和预设签字图像的精准比对。

在一些实施例中，步骤S53（获取所述第一签字图像中的签字数量，基于所述签字数量对所述第一签字图像和预设签字图像进行规格化处理得到第一规格图像和第二规格图像）可以包括步骤S531至 S537，具体如下：

S531，以所述第一签字图像的第一边缘点为坐标原点对所述第一签字图像进行坐标化处理，得到第一签字图像中每个像素点的第一坐标。

本方案会先确定第一签字图像中的第一边缘点，然后确定第一边缘点为坐标原点，然后对第一签字图像坐标化，得到第一签字图像中每个像素点的第一坐标。

其中，第一签字图像中的第一边缘点可以是第一签字图像中边缘上的任一点，在此不再赘述，本方案对其不做限制。

S532，确定所有处于第二像素区间内的像素点的所有第一坐标，提取所有第一坐标中的纵坐标值，对纵坐标值去重处理后按照降序方式得到降序序列。

其中，第二像素区间为用户签字的像素区间。

在一些实施例中，可能存在多用户签名或者单用户签名的情况，多个用户签名时需要是纵向排列签名，在实际应用中，可以采用模板要求或者格式要求的方式让签字人员纵向排列签名，例如，有人员A和人员B的签名，那么人员B的签名可以位于人员A签名的正下方。

本方案在得到第一坐标后，需要确定用户签字对应像素点的第一坐标，第一坐标例如可以是

，然后会获取到所有第一坐标中的纵坐标值，对纵坐标值去重处理后按照降序方式得到降序序列。

可以理解的是，由于签字是范围性的，会有一些纵坐标值是相同的，本方案为了减少数据量的处理，可以将相同的纵坐标值去除，即上述的纵坐标值去重处理。

S533，若所述降序序列为连续的，则判断所述签字数量为1个。

可以理解的是，若只有一个人员，那么降序序列的纵坐标值是连续的，若降序序列的纵坐标值是非连续的，那么服务器会判断所述签字数量存在多个。

S534，若所述降序序列为非连续的，则判断所述签字数量为多个，将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值。

在判断签字数量有多个时，本方案会将两个相邻的、非连续的第一坐标的纵坐标值作为第一分隔坐标值和第二分隔坐标值。

S535，确定所述第一分隔坐标值和第二分隔坐标值的中间坐标值，以所述中间坐标值生成对应的Y轴分割线。

在得到第一分隔坐标值和第二分隔坐标值之后，本方案会计算第一分隔坐标值和第二分隔坐标值的中间坐标值，并且会以中间坐标值生成对应的Y轴分割线。

示例性的，以一组第一分隔坐标值和第二分隔坐标值举例，其中一个第一分隔坐标值可以是

，其中一个对应的第二分隔坐标值可以是

，那么其中间坐标值为

,可以理解的是，本方案存在多组第一分隔坐标值和第二分隔坐标值，会形成多个中间坐标值，以多个中间左边值生成对应的Y轴分割线。

S536，基于所述Y轴分割线将所述第一签字图像分割为多个子签字图像。

本方案在得到Y轴分割线后，可以利用Y轴分割线来将第一签字图像分割为多个子签字图像，即将多个签名分开，以便于签名的一一比对。

S537，基于所述签字数量对所述第一签字图像或多个子签字图像进行规格化处理得到第一规格图像。

为了使得签字图像与预设签字图像较好的比对，需要将签字大小调整为一致，以便于精准的比对笔迹。

示例性的，本方案可以将第一签字图像或多个子签字图像进行规格化处理为第一规格图像，并将预设签字图像规格化处理为第二规格图像，第一规格图像和第二规格图像大小相同，以实现上述精准比对笔迹的效果。

为了实现上述方案，本实施例会根据签字数量的不同采用两种实施方式计算，具体如下：

第一种实施方式针对签字数量为1的情况，具体如下：

通过以下公式得到第一规格横向数量和第一规格纵向数量，

其中，

为第一规格横向数量，

为第一横向数量，

为第二横向数量，

为横向规格权重，

为第一纵向数量，

为第二纵向数量，

为第一规格纵向数量，

为纵向规格权重。

可以理解的是，本方案会先统计第一签字图像中横向像素点的第一横向数量和纵向像素点的第一纵向数量，以统计出第一签字图像中签字的宽度和长度，同时统计预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量，以统计出预设签字图像中签字的宽度和长度。

然后，本方案利用第一横向数量和第二横向数量的均值得到第一规格横向数量，然后利用第一纵向数量以及第二纵向数量得到第一规格纵向数量。

其中，在得到第一规格横向数量时，会利用横向规格权重

来对初始的第一规格横向数量进行调整，横向规格权重

可以是人为设置的，以得到较为精准的第一规格横向数量；同理，在得到第二规格横向数量时，会利用纵向规格权重

来对初始的第一规格纵向数量进行调整，纵向规格权重

可以是人为设置的，以得到较为精准的第一规格纵向数量。

在得到第一规格横向数量和第一规格纵向数量之后，本方案可以利用第一规格横向数量和第一规格纵向数量对所述第一签字图像和预设签字图像进行规格化处理，得到第一规格图像和第二规格图像。

具体的，本方案可以通过以下公式计算第一规格图像的第一改变倍数和第二规格图像的第二改变倍数，

其中，

为第一规格图像的第一改变倍数，

为横向归一化值，

为纵向归一化值，

为第一放大权重值，

为第二规格图像的第二改变倍数，

为第二放大权重值；

可以理解的是，本方案利用第一横向数量

与第一规格横向数量

的比值得到横向改变系数，并通过设置的横向归一化值

来对横向改变系数进行调整得到较为精准的横向改变系数；同理，本方案利用第一纵向数量

与第一规格纵向数量

的比值得到纵向改变系数，并通过设置的纵向归一化值

来对纵向改变系数进行调整得到较为精准的纵向改变系数；然后利用横向改变系数和纵向改变系数得到第一规格图像的第一改变倍数，并最终利用设置的第一放大权重值

对得到的第一改变倍数进行调整，得到较为精准的第一改变倍数。

同理，本方案利用第二横向数量

与第一规格横向数量

的比值得到横向改变系数，并通过设置的横向归一化值

来对横向改变系数进行调整得到较为精准的横向改变系数；同理，本方案利用第二纵向数量

与第一规格纵向数量

的比值得到纵向改变系数，并通过设置的纵向归一化值

来对纵向改变系数进行调整得到较为精准的纵向改变系数；然后利用横向改变系数和纵向改变系数得到预设签字图像的第二改变倍数，并最终利用设置的第二放大权重值

对得到的第二改变倍数进行调整，得到较为精准的第二改变倍数。

之后利用得到的第一改变倍数来对第一签字图像进行倍数改变处理，并利用得到的第二改变倍数来对预设签字图像进行倍数改变处理，使得签字大小调整为近似大小，使得签字图像与预设签字图像较好的比对，实现笔迹的精准比对。

需要说明的是，上述的倍数改变可以是放大也可以是缩小，例如可以是第一签字图像进行放大处理，第二签字图像进行缩小处理，也可以是第一签字图像进行缩小处理，第二签字图像进行放大处理，使得二者大小调整为一致即可。

第二种实施方式针对签字数量为多个的情况，具体如下：

获取所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量。

可以理解的是，本方案与第一种实施方式的区别是本方案里存在多个子签字图像，本方式需要对多个子签字图像进行改变处理。

本方案会先分别得到所述多个子签字图像中的横向像素点的第一横向数量和纵向像素点的第一纵向数量，并得到所述预设签字图像中横向像素点的第二横向数量和纵向像素点的第二纵向数量，然后第一横向数量、第二横向数量、第一纵向数量以及第二纵向数量，生成每个子签字图像和相应预设签字图像的第二规格横向数量和第二规格纵向数量。

然后，利用第二规格横向数量和第二规格纵向数量对所述多个子签字图像和相应的预设签字图像进行相同的规格化处理得到多个第一规格图像和第二规格图像。

需要说明的是，其实现原理和方式与第一种实施方式类似，在此不再赘述。

S54，获取所述第一规格图像中的第一笔迹属性、第二规格图像的预设笔迹属性，若判断所述第一笔迹属性和预设笔迹属性相对应，则判断第一签字图像与任意一个预设签字图像相对应。

可以理解的是，在上述步骤得到第一规格图像和第二规格图像后，本方案可以对第一规格图像和第二规格图像中的第一笔迹属性和预设笔迹属性进行比对，如果第一笔迹属性和预设笔迹属性相对应，则判断第一签字图像与任意一个预设签字图像相对应，即签字没问题。

在一些实施例中，在比对第一笔迹属性和预设笔迹属性可以是对签名中对应的笔画进行比对处理，例如笔画中的“丿”、“-”、 “丨”等，比对第一笔迹属性和预设笔迹属性中笔画的相似度，此处比对为现有技术，本方案不再赘述。

参见图3，是本发明实施例提供的一种基于OCR技术的稽查佐证材料智能审核装置的结构示意图，该基于OCR技术的稽查佐证材料智能审核装置具体包括：

图3所示实施例的装置对应地可用于执行图1所示方法实施例中的步骤，其实现原理和技术效果类似，此处不再赘述。

参见图4，是本发明实施例提供的一种电子设备的硬件结构示意图，该电子设备40包括：处理器41、存储器42和计算机程序；其中

存储器42，用于存储所述计算机程序，该存储器还可以是闪存（flash）。所述计算机程序例如是实现上述方法的应用程序、功能模块等。

处理器41，用于执行所述存储器存储的计算机程序，以实现上述方法中设备执行的各个步骤。具体可以参见前面方法实施例中的相关描述。

可选地，存储器42既可以是独立的，也可以跟处理器41集成在一起。

当所述存储器42是独立于处理器41之外的器件时，所述设备还可以包括：

总线43，用于连接所述存储器42和处理器41。

本发明还提供一种可读存储介质，所述可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时用于实现上述的各种实施方式提供的方法。

其中，可读存储介质可以是计算机存储介质，也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如，可读存储介质耦合至处理器，从而使处理器能够从该可读存储介质读取信息，且可向该可读存储介质写入信息。当然，可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(ApplicationSpecific Integrated Circuits，简称：ASIC)中。另外，该ASIC可以位于用户设备中。当然，处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器（ROM）、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本发明还提供一种程序产品，该程序产品包括执行指令，该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令，至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。

在上述设备的实施例中，应理解，处理器可以是中央处理单元（英文：CentralProcessing Unit，简称：CPU），还可以是其他通用处理器、数字信号处理器（英文：DigitalSignal Processor，简称：DSP）、专用集成电路（英文：Application Specific IntegratedCircuit，简称：ASIC）等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。