CN112183574B - 文件鉴伪比对方法及装置、终端和存储介质 - Google Patents
文件鉴伪比对方法及装置、终端和存储介质 Download PDFInfo
- Publication number
- CN112183574B CN112183574B CN202010847256.1A CN202010847256A CN112183574B CN 112183574 B CN112183574 B CN 112183574B CN 202010847256 A CN202010847256 A CN 202010847256A CN 112183574 B CN112183574 B CN 112183574B
- Authority
- CN
- China
- Prior art keywords
- subarea
- sub
- comparison
- page
- compared
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 238000012545 processing Methods 0.000 claims description 17
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 7
- 238000012015 optical character recognition Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 244000089409 Erythrina poeppigiana Species 0.000 description 1
- 235000009776 Rathbunia alamosensis Nutrition 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 230000007723 transport mechanism Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种文件鉴伪比对方法及装置、终端和存储介质,该文件鉴伪比对方法包括获取待比对的电子文件;判断待比对的电子文件与预存的电子文档的页面排序是否一致,若一致,则逐页进行比对;根据预设的切分方式,将待比对的电子文件的每张单页切分成多个第一子区域,其中,第一子区域由Si表示,i为大于1的整数;根据预设的切分方式,将预存的电子文档的每张单页切分成多个第二子区域,其中,第二子区域由Wj表示,j为大于1的整数;分别将第一子区域Si与第二子区域Wj进行逐个比对,其中,i与j的值相等;将比对结果反馈至待比对的电子文件的每张单页上并显示。
Description
技术领域
本发明涉及信息处理技术领域,尤其是涉及一种文件鉴伪比对方法及装置、终端和存储介质。
背景技术
用户对纸质文件盖章前,需要通过扫描设备将待盖章的纸质文件与预存的电子文档进行鉴伪比对,以判断待盖章的纸质文件的内容与预存的电子文档的内容的差异度;若差异度超过设定范围,则禁止对纸质文件进行盖章操作,并根据鉴伪比对结果修改纸质文件。现有的扫描设备中采用的文件鉴伪比对方法,当待比对的文件内容较多时,需耗费大量的时间,工作效率较低;且易受到数据多、差异小、打印清晰度等的影响,识别结果的准确度较低;难以满足在计算机终端快速、准确地实现文件的鉴伪比对的需求。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。
为此,本发明提出了一种文件鉴伪比对方法及装置、终端和存储介质,在提高文件鉴伪比对的效率的同时,能够有效地保证鉴伪比对结果的准确性。
根据本申请的第一方面,提供了一种文件鉴伪比对方法,该方法包括:
获取待比对的电子文件;
判断所述待比对的电子文件与预存的电子文档的页面排序是否一致,若一致,则逐页进行比对;
根据预设的切分方式,将所述待比对的电子文件的每张单页切分成多个第一子区域,其中,所述第一子区域由Si表示,i为大于1的整数;
根据所述预设的切分方式,将所述预存的电子文档的每张单页切分成多个第二子区域,其中,所述第二子区域由Wj表示,j为大于1的整数;
分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对,其中,i与j的值相等;
将比对结果反馈至所述待比对的电子文件的每张单页上并显示。
在上述方法中,所述分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对的步骤,包括:
计算所述第一子区域Si与所述第二子区域Wj的相似度数值,若所述相似度数值低于预设值,则标记出该第一子区域Si。
在上述方法中,所述计算所述第一子区域Si与所述第二子区域Wj的相似度数值的步骤,包括:
对所述第一子区域Si和所述第二子区域Wj内的所有字符进行相似度比对,以获得每个字符的相似度数值,其中,先针对所述第一子区域Si和所述第二子区域Wj中的非敏感信息进行像素点比对,再针对所述第一子区域Si和所述第二子区域Wj中的敏感信息进行OCR识别比对;
对所有字符的相似度数值求平均值,以获得所述第一子区域Si和所述第二子区域Wj的相似度数值;
对多个所述第一子区域Si和所述第二子区域Wj的相似度数值加权求和,以获得每张单页的相似度数值。
在上述方法中,所述对所述第一子区域Si和所述第二子区域Wj内的所有字符进行相似度比对的步骤,包括:
对所述第一子区域Si和所述第二子区域Wj进行灰度化处理;
对所述被灰度化处理后的第一子区域Si和第二子区域Wj进行二值化处理。
在上述方法中,所述对所述被灰度化处理后的第一子区域Si和第二子区域Wj进行二值化处理的步骤,包括:
根据所述被灰度化处理后的第一子区域Si和第二子区域Wj的灰度特性值和初始化阈值将所述第一子区域Si和所述第二子区域Wj的内容均划分为背景部分和目标部分;其中,所述灰度特性值小于等于所述初始化阈值的部分作为背景部分,所述灰度特性值大于所述初始化阈值的部分作为目标部分。
在上述方法中,所述根据所述被灰度化处理后的第一子区域Si和所述第二子区域Wj的灰度特性值和初始化阈值将所述第一子区域Si和所述第二子区域Wj的内容均划分为背景部分和目标部分的步骤,包括:
计算所述背景部分和所述目标部分的出现概率;
计算所述背景部分和所述目标部分的类间方差。
在上述方法中,所述计算所述背景部分和所述目标部分的类间方差的步骤,包括:
计算所述背景部分和所述目标部分的平均灰度值;
计算所述第一子区域Si和所述第二子区域Wj的平均灰度值。
根据本申请的第二方面,提供了一种文件鉴伪比对装置,该装置包括:
电子文件获取模块,用于获取待比对的电子文件;
判断模块,用于判断所述待比对的电子文件与预存的电子文档的页面排序是否一致;
第一页面切分模块,用于根据预设的切分方式,将所述待比对的电子文件的每张单页切分成多个第一子区域Si,其中,i为大于1的整数;
第二页面切分模块,用于根据所述预设的切分方式,将所述预存的电子文档的每张单页切分成多个第二子区域Wj,其中,j为大于1的整数;
鉴伪比对模块,用于分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对,其中,i与j的值相等;
反馈与显示模块,用于将比对结果反馈至所述待比对的电子文件的每张单页上并显示。
根据本申请的第三方面,提供了一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,所述处理器运行所述计算机指令时执行上述中任一项所述的方法。
根据本申请的第四方面,提供了一种存储介质,其上存储有计算机指令,所述计算机指令运行时执行上述中任一项所述的方法。
根据本申请所提供的技术方案,至少具有如下有益效果:通过获取待比对的电子文件,并将待比对的电子文件的每张单页与预存的电子文档的每张单页根据预设的切分方式进行切分,将待比对的电子文件的每张单页与预存的电子文档的每张单页进行分区域鉴伪比对,通过细化比对区域,以增加鉴伪比对结果的准确性。
本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请实施例提供的一种文件鉴伪比对方法的流程图;
图2为本申请实施例提供单页切分比对图;
图3为本申请实施例提供的单张页面的相似度计算方法流程图;
图4为本申请实施例提供的图片纠偏剪裁技术的示例图;
图5为本申请实施例提供的计算第一子区域和第二子区域相似度数值的方法流程图;
图6为本申请实施例提供的第一子区域和第二子区域进行二值化的流程图;
图7为本申请实施例提供的一种文件鉴伪比对装置的框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
需要说明的是,虽然在装置示意图中进行了功能模块划分,在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于装置中的模块划分,或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而非用于描述特定的顺序或先后次序。
下面对本申请实施例中出现的名词进行解释:
在本申请实施例中,OCR识别(Optical Character Recognition光学字符识别)是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
在本申请实施例中,连通区域(Connected Component)是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域。
在本申请实施例中,二值图像(Binary Image)是指将图像上的每一个像素只有两种可能的取值或灰度等级状态,图像中的任何像素点的灰度值均为0或者255,分别代表黑色和白色。
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
本申请的一个实施例提供了一种文件鉴伪比对方法,如图1所示,该鉴伪比对方法包括:步骤S101至步骤S105。
步骤S101:采集待比对的纸质文件以获取待比对的电子文件。
具体地,可以通过扫描设备,例如扫描仪等,对待比对的纸质文件进行扫描以获得该纸质文件对应的电子文件。
步骤S102:判断待比对的电子文件与预存的电子文档的页面排序是否一致;若是,则逐页进行比对;若否,则退出。
具体地,根据预存的电子文档的页面排序来对待比对的纸质文件进行采集,以保证获取的待比对的电子文件的页面排序与预存的电子文档的页面排序一致。
步骤S103:根据预设的切分方式,将待比对的电子文件的每张单页切分成多个第一子区域,其中,第一子区域由Si表示,i为大于1的整数;同时,根据同样的切分方式,将预存的电子文档的每张单页切分成多个第二子区域,其中,第二子区域由Wj表示,j为大于1的整数。
具体地,待比对的电子文件的每张单页以及对应的预存的电子文档的每张单页的页码相同。以下将以对待比对的电子文件的每张单页和对应的预存的电子文档的每张单页切分成32个区域的例子来说明,但应理解的是,本领域技术人员可以根据实际情况任意设定切分方式。
如图2所示的切分方式,将待比对的电子文件和预存的电子文档的每张单页沿纸张的长度方向切分成8块,沿纸张的宽度方向切分成4块。即,将待比对的电子文件的每张单页按照预设的切分方式切分成32个第一子区域,即S1、S2、S3……S32,同时将对应的预存的电子文档的每张单页按照同样的切分方式切分成32个第二子区域,即W1、W2、W3……W32。其中,第一子区域S1和第二子区域W1对应,第一子区域S2和第二子区域W2对应,第一子区域S3和第二子区域W3对应,以此类推,第一子区域S32和第二子区域W32对应。
步骤S104:分别将第一子区域Si与第二子区域Wj进行逐个比对,其中,i与j的值相等。
结合上面的实施例,将第一子区域S1和第二子区域W1进行比对,将第一子区域S2和第二子区域W2进行比对,将第一子区域S3和第二子区域W3进行比对,以此类推,将第一子区域S32和第二子区域W32进行比对。
步骤S105:将比对结果反馈至待比对的电子文件的每张单页上并显示。
具体地,当某张单页中的某个第一子区域Si和第二子区域Wj比对失败时,标记出该第一子区域Si,将该第一子区域Si的边框显示为设定的颜色(例如红色),并在该张单页上显示比对失败的字样;当某张单页中的所有第一子区域Si和第二子区域Wj比对成功时,仅在该张单页上显示比对成功的字样。
针对剩余页面,循环执行步骤S103至S105。
本申请实施例提供的文件鉴伪比对方法,通过获取待比对的电子文件,并将待比对的电子文件的每张单页与预存的电子文档的每张单页根据预设的切分方式进行切分,将待比对的电子文件的每张单页与预存的电子文档的每张单页进行分区域鉴伪比对,通过细化比对区域,以增加鉴伪比对结果的准确性。
在一些实施例中,步骤S104包括:计算第一子区域Si与第二子区域Wj的相似度数值,当相似度数值低于预设值,则标记出该第一子区域Si。
在一些实施例中,如图3所示,计算第一子区域Si与第二子区域Wj的相似度数值的步骤,包括步骤S201至步骤S203。
步骤S201:对第一子区域Si和第二子区域Wj内的所有字符进行相似度比对,以获得每个字符的相似度数值,其中,先针对第一子区域Si和第二子区域Wj中的非敏感信息进行像素点比对,再针对第一子区域Si和第二子区域Wj中的敏感信息进行OCR识别比对。
针对不同的信息,采用不同的鉴伪比对方式,在增加鉴伪比对结果的准确性的同时,有利于提高鉴伪比对效率。
在本申请中,敏感信息包括企业信息(例如企业名称、银行账号等)和交易信息(例如交易内容和交易金额等);非敏感信息即排除敏感信息以外的信息。
具体地,像素点比对是将待比对的电子文件中的第一子区域Si和预存的电子文档中对应的第二子区域Wj中的每个像素点进行比对,找出第一子区域Si和第二子区域Wj中像素相等的像素点,这样第一子区域Si和第二子区域Wj比对完成后,统计二者之间的像素相等的像素点的数量,再用像素相等的像素点的数量除以第一子区域Si的总像素点数,就可以得到一个0~1之间的数值,该数值即为像素点比对的结果。
具体地,OCR识别是基于文本行的投影信息和二值连通域信息进行的文本行检测,辅助以MSER和SWT为代表的连通域分析方法进行文字检测。在本申请中,文本行的投影信息指的是沿着文本行的方向对文本行进行投影得到的投影值集合。二值连通域信息指的是通过对二值图像中白色像素(目标)进行标记,让每个单独的连通区域形成一个被标识的块,以获取这些块的轮廓、外接矩形、质心、不变矩等几何参数。
在本实施例中,在第一子区域Si和对应的第二子区域Wj中优先进行非敏感信息的比对,再进行敏感信息的比对。即先计算第一子区域Si和对应的第二子区域Wj中的非敏感信息的相似度数值,再计算敏感信息的相似度数值。
具体地,若非敏感信息的相似度数值低于非敏感预设值(非敏感预设值可根据客户要求进行调整),则该第一子区域Si和第二子区域Wj比对失败,无需再进行该第一子区域Si内敏感信息的比对,直接进行下一个第一子区域Si的比对。
若非敏感信息的相似度数值高于预设值,则再进行敏感信息的相似度数值计算;若敏感信息的相似度数值低于敏感预设值(敏感预设值可根据客户要求进行调整),则该第一子区域Si和第二子区域Wj比对失败,之后进行下一个第一子区域Si的比对。
若敏感信息的相似度数值高于敏感预设值,则该第一子区域Si和第二子区域Wj比对成功,之后进行下一个第一子区域Si的比对。
当第一子区域Si和第二子区域Wj比对完成后,将比对失败的第一子区域Si的边框显示为设定的颜色,并在待比对的电子文件的单页上显示比对失败的字样。
在一些实施例中,针对非敏感信息进行像素点比对之前,应先对待比对的电子文件的每张单页的边界内容进行预处理,以消除比对过程中产生的不完整内容对比对结果产生影响。
具体地,预处理是利用图片纠偏剪裁技术对待比对的电子文件的每张单页的倾斜角度进行纠偏和剪裁。如图4所示,通过计算待比对的电子文件的每张单页的两点的像素差,判断待比对的电子文件的每张单页的倾斜角度从而进行纠偏和剪裁。其中,图4(a)为待比对的电子文件,外部矩形框表示图片,中间四边形框表示倾斜的电子文件的某张单页;图4(b)为预存的电子文档,外部矩形框表示图片,中间矩形框表示电子文档的某张单页。
待比对的电子文件的某张单页左下角A的像素坐标为A(Xa,Ya)右下角B的像素坐标为B(Xb,Yb),计算公式如下:
边长AC=Xb-Xa;
边长BC=Ya-Yb;
边长
sinA=BC/AB;
角度A=arcsin(BC/AB);
角度A即为纠偏的角度,将图4(a)中倾斜的电子文件的某张单页按照计算的角度旋转成和图4(b)中预存的电子文档的某张单页的角度一致后,去除电子文件的该单页边界处周边的空白内容,在本实施例中,可根据像素的大小来判断空白内容。
步骤S202:对所有字符的相似度数值求平均值,以获得第一子区域Si和第二子区域Wj的相似度数值Ci。
具体地,第一子区域Si和第二子区域Wj的相似度数值Ci的计算公式为:
步骤S203:对多个第一子区域Si和第二子区域Wj的相似度数值加权求和,以获得每张单页的相似度数值C。
具体地,每张单页的相似度数值C的计算公式为:
通过分区域比对获得每个比对区域的相似度数值,然后将每个比对区域的相似度数值汇总作为每张单页的相似度数值,将待比对的电子文件与预存的电子文档逐页进行比对,以获得待比对的电子文件和预存的电子文档的整体的相似度数值,通过相似度数值可以快速判断待比对的电子文件和预存的电子文档的内容的相似度,有利于保证比对结果的准确性。
在一些实施例中,如图5所示,步骤S201,进一步包括步骤S301和步骤S302:
步骤S301:对第一子区域Si和对应的第二子区域Wj进行灰度化处理。
具体地,灰度化的计算公式为:Gray=(R+G+B)/3;
利用灰度直方图对待比对的电子文件中的第一子区域Si和预存的电子文档中对应的第二子区域Wj中的像素点的数量进行统计,以获得两个灰度直方图。其中,灰度直方图是灰度级的函数,它表示图像中具有某种灰度级的像素的个数,反映了图像中某种灰度出现的频率。
灰度直方图的结构表示为:N(P)=[n1,n2……n(L-1)];
其中,L表示为灰度级的个数,ni表示为每个灰度级的像素个数,其出现概率为Pi。
通过两个灰度直方图的数据(N和Pi)来判断这两个灰度直方图的差异度,如果数据一致,则差异度为零;如果数据不一致,则将该子区域标记为不一致。
步骤S302:对被灰度化处理后的第一子区域Si和对应的第二子区域Wj进行二值化处理。
具体地,是对灰度直方图的差异度为零的子区域进行二值化处理。二值化处理是将图像上的像素点的灰度值设置为0或255,也即是将整个图像呈现出明显的黑白效果的过程。
具体地,二值化处理是利用Otsu算法,Otsu算法是一种自适应的阈值t的确定方法,该算法假设图像像素能够根据初始化阈值t0将第一子区域Si和对应的第二子区域Wj的内容均划分为背景部分A和目标部分B。然后,通过对一定范围内的阈值t循环计算以得到最佳阈值t'来最大化地区分背景部分A和目标部分B,使得背景部分A和目标部分B的区分度达到最大。
在本实施例中,首先根据被灰度化处理后的第一子区域Si和对应的第二子区域Wj的灰度特性值f和初始化阈值t0将第一子区域Si和对应的第二子区域Wj的内容均划分为背景部分A和目标部分B,灰度特性值f小于等于初始化阈值t0的部分作为背景部分A,灰度特性值f大于初始化阈值t0的部分作为目标部分B;其次通过对一定范围内的阈值t循环计算以选取最佳阈值t',使得背景部分A和目标部分B的区分度达到最大。
在一些实施例中,如图6所示,步骤S302,进一步包括步骤S401和步骤S402:
步骤S401:计算背景部分A和目标部分B的出现概率。
具体地,背景部分A和目标部分B两个部分的出现概率的计算公式为:
其中,L表示为灰度级的个数;t表示阈值(t的取值范围是0~255);i表示变量(i的取值范围是0~t);P(A)为背景部分出现的概率总和;P(B)为目标部分出现的概率总和。
步骤S402:计算背景部分A和目标部分B的类间方差。
具体地,首先,计算背景部分A和目标部分B的平均灰度值,计算公式为:
其次,计算整个第一子区域Si和第二子区域Wj的平均灰度值,计算公式为:
最后,计算背景部分A和目标部分B的类间方差,计算公式为:
δ=P(A)×[W(A)-W(0)]Λ2+P(B)×[W(B)-W(0)]Λ2;
在本实施例中,阈值t是一个变量,其变化范围是0~255。在根据初始化阈值t0执行步骤S401和S402后,将阈值t从0~255依次循环执行步骤S401和S402,当背景部分A和目标部分B的类间方差达到最大值时,此时的阈值t即为最佳阈值t'。当背景部分A和目标部分B的类间方差达到最大值时,背景部分A和目标部分B的区分度达到最大。在本实施例中,初始化阈值t0是根据历史数据预设的一个值(例如预设t0为160)。
本申请实施例还提供了一种文件鉴伪比对装置,如图7所示,该装置包括电子文件获取模块501、判断模块502、第一页面切分模块503、第二页面切分模块504、鉴伪比对模块505和反馈与显示模块506。
其中,电子文件获取模块501,用于获取待比对的电子文件;
判断模块502,用于判断待比对的电子文件与预存的电子文档的页面排序是否一致;
第一页面切分模块503,用于根据预设的切分方式,将待比对的电子文件的每张单页切分成多个第一子区域Si,其中,i为大于1的整数;
第二页面切分模块504,用于根据预设的切分方式,将预存的电子文档的每张单页切分成多个第二子区域Wj,其中,j为大于1的整数;
鉴伪比对模块505,用于分别将第一子区域Si与第二子区域Wj进行逐个比对,其中,i与j的值相等;
反馈与显示模块506,用于将比对结果反馈至所述待比对的电子文件的每张单页上并显示。
进一步地,鉴伪比对模块505还包括灰度化处理单元(图中未示出)和二值化处理单元(图中未示出)。
其中,灰度化处理单元用于对第一子区域Si和对应的第二子区域Wj进行灰度化处理;
二值化处理单元用于根据所述被灰度化处理后的第一子区域Si和对应的第二子区域Wj的灰度特性值和初始化阈值将第一子区域Si和对应的所述第二子区域Wj的内容均划分为背景部分A和目标部分B;以及计算背景部分A和目标部分B的出现概率;以及计算背景部分A和目标部分B的类间方差。
本实施例的文件鉴伪比对装置可执行本申请实施例提供的文件鉴伪比对方法,其实现原理相类似,此处不再赘述。
本实施例还提供了一种终端,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,该处理器执行计算机程序时以实现上述文件鉴伪比对方法。
具体地,处理器可以是CPU,通用处理器,DSP,ASIC,FPGA或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,DSP和微处理器的组合等。
具体地,处理器通过总线与存储器连接,总线可包括通路,以用于传送信息。总线可以是PCI总线或EISA总线等。总线可以分为地址总线、数据总线、控制总线等。
存储器可以是ROM或可存储静态信息和指令的其他类型的静态存储设备,RAM或者可存储信息和指令的其他类型的动态存储设备,也可以是EEPROM、CD-ROM或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
可选的,存储器用于存储执行本申请方案的计算机程序的代码,并由处理器来控制执行。处理器用于执行存储器中存储的应用程序代码,以实现图6所示实施例提供的文件鉴伪比对装置的动作。
本申请实施例还提供了一种计算机可读存储介质,存储有计算机可执行指令,该计算机可执行指令用于执行上述图1所示的文件鉴伪比对方法。
以上所描述的装置实施例仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (6)
1.一种文件鉴伪比对方法,其特征在于,包括:
获取待比对的电子文件;
判断所述待比对的电子文件与预存的电子文档的页面排序是否一致,若一致,则逐页进行比对;
根据预设的切分方式,将所述待比对的电子文件的每张单页切分成多个第一子区域,其中,所述第一子区域由Si表示,i为大于1的整数;
根据所述预设的切分方式,将所述预存的电子文档的每张单页切分成多个第二子区域,其中,所述第二子区域由Wj表示,j为大于1的整数;
分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对,其中,i与j的值相等;
将比对结果反馈至所述待比对的电子文件的每张单页上并显示。
其中,所述分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对,其中,i与j的值相等,包括:
对所述第一子区域Si和所述第二子区域Wj进行灰度化处理;
对被灰度化处理后的第一子区域Si和第二子区域Wj进行二值化处理,根据被灰度化处理后的第一子区域Si和第二子区域Wj的灰度特性值和初始化阈值将所述第一子区域Si和所述第二子区域Wj的内容均划分为背景部分和目标部分;其中,所述灰度特性值小于等于所述初始化阈值的部分作为背景部分,所述灰度特性值大于所述初始化阈值的部分作为目标部分;
对所述第一子区域Si和所述第二子区域Wj内的所有字符进行相似度比对,以获得每个字符的相似度数值,其中,先针对所述第一子区域Si和所述第二子区域Wj中的非敏感信息进行像素点比对,再针对所述第一子区域Si和所述第二子区域Wj中的敏感信息进行OCR识别比对;
对所有字符的相似度数值求平均值,以获得所述第一子区域Si和所述第二子区域Wj的相似度数值;
对多个所述第一子区域Si和所述第二子区域Wj的相似度数值加权求和,以获得每张单页的相似度数值。
2.根据权利要求1所述的文件鉴伪比对方法,其特征在于,所述根据被灰度化处理后的第一子区域Si和所述第二子区域Wj的灰度特性值和初始化阈值将所述第一子区域Si和所述第二子区域Wj的内容均划分为背景部分和目标部分的步骤,包括:
计算所述背景部分和所述目标部分的出现概率;
计算所述背景部分和所述目标部分的类间方差。
3.根据权利要求2所述的文件鉴伪比对方法,其特征在于,所述计算所述背景部分和所述目标部分的类间方差的步骤,包括:
计算所述背景部分和所述目标部分的平均灰度值;
计算所述第一子区域Si和所述第二子区域Wj的平均灰度值。
4.一种文件鉴伪比对装置,其特征在于,包括:
电子文件获取模块,用于获取待比对的电子文件;
判断模块,用于判断所述待比对的电子文件与预存的电子文档的页面排序是否一致;
第一页面切分模块,用于根据预设的切分方式,将所述待比对的电子文件的每张单页切分成多个第一子区域Si,其中,i为大于1的整数;
第二页面切分模块,用于根据所述预设的切分方式,将所述预存的电子文档的每张单页切分成多个第二子区域Wj,其中,j为大于1的整数;
鉴伪比对模块,用于分别将所述第一子区域Si与所述第二子区域Wj进行逐个比对,其中,i与j的值相等;所述鉴伪比对模块还用于对所述第一子区域Si和所述第二子区域Wj进行灰度化处理,所述鉴伪比对模块还用于对被灰度化处理后的第一子区域Si和第二子区域Wj进行二值化处理;所述鉴伪比对模块还用于对所述第一子区域Si和所述第二子区域Wj内的所有字符进行相似度比对,以获得每个字符的相似度数值,其中,先针对所述第一子区域Si和所述第二子区域Wj中的非敏感信息进行像素点比对,再针对所述第一子区域Si和所述第二子区域Wj中的敏感信息进行OCR识别比对;所述鉴伪比对模块还用于对所有字符的相似度数值求平均值,以获得所述第一子区域Si和所述第二子区域Wj的相似度数值;所述鉴伪比对模块还用于对多个所述第一子区域Si和所述第二子区域Wj的相似度数值加权求和,以获得每张单页的相似度数值;反馈与显示模块,用于将比对结果反馈至所述待比对的电子文件的每张单页上并显示。
5.一种终端,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机指令,其特征在于,所述处理器运行所述计算机指令时执行权利要求1至3中任一项所述的方法。
6.一种存储介质,其上存储有计算机指令,其特征在于,所述计算机指令运行时执行权利要求1至3中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847256.1A CN112183574B (zh) | 2020-08-21 | 2020-08-21 | 文件鉴伪比对方法及装置、终端和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010847256.1A CN112183574B (zh) | 2020-08-21 | 2020-08-21 | 文件鉴伪比对方法及装置、终端和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112183574A CN112183574A (zh) | 2021-01-05 |
CN112183574B true CN112183574B (zh) | 2024-05-28 |
Family
ID=73924235
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010847256.1A Active CN112183574B (zh) | 2020-08-21 | 2020-08-21 | 文件鉴伪比对方法及装置、终端和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112183574B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113033360A (zh) * | 2021-03-12 | 2021-06-25 | 理光图像技术(上海)有限公司 | 文档图像识别装置及方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730707A (zh) * | 2017-09-28 | 2018-02-23 | 深圳怡化电脑股份有限公司 | 一种有价文件的鉴伪方法及装置 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN110014754A (zh) * | 2019-03-25 | 2019-07-16 | 深圳市银之杰科技股份有限公司 | 一种打印鉴伪批量盖章一体机及处理方法 |
CN110163192A (zh) * | 2018-05-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN110795524A (zh) * | 2019-10-31 | 2020-02-14 | 北京东软望海科技有限公司 | 主数据映射处理方法、装置、计算机设备及存储介质 |
-
2020
- 2020-08-21 CN CN202010847256.1A patent/CN112183574B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107730707A (zh) * | 2017-09-28 | 2018-02-23 | 深圳怡化电脑股份有限公司 | 一种有价文件的鉴伪方法及装置 |
CN110163192A (zh) * | 2018-05-28 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 字符识别方法、装置及可读介质 |
CN109190092A (zh) * | 2018-08-15 | 2019-01-11 | 深圳平安综合金融服务有限公司上海分公司 | 不同来源文件的一致性审核方法 |
CN110014754A (zh) * | 2019-03-25 | 2019-07-16 | 深圳市银之杰科技股份有限公司 | 一种打印鉴伪批量盖章一体机及处理方法 |
CN110443269A (zh) * | 2019-06-17 | 2019-11-12 | 平安信托有限责任公司 | 一种文档比对方法及装置 |
CN110795524A (zh) * | 2019-10-31 | 2020-02-14 | 北京东软望海科技有限公司 | 主数据映射处理方法、装置、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN112183574A (zh) | 2021-01-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7292375B2 (en) | Method and apparatus for color image processing, and a computer product | |
EP2003600A2 (en) | Method and apparatus for recognizing characters in a document image | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
JP3278471B2 (ja) | 領域分割方法 | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
CN109993161B (zh) | 一种文本图像旋转矫正方法及系统 | |
EP2553626A2 (en) | Segmentation of textual lines in an image that include western characters and hieroglyphic characters | |
CN115423771B (zh) | 基于特征非一致性的准动态镭射防伪标签识别方法 | |
CN112507782A (zh) | 文本图像的识别方法及装置 | |
CN111814673A (zh) | 一种修正文本检测边界框的方法、装置、设备及存储介质 | |
CN112183574B (zh) | 文件鉴伪比对方法及装置、终端和存储介质 | |
CN112419207A (zh) | 一种图像矫正方法及装置、系统 | |
CN110210467B (zh) | 一种文本图像的公式定位方法、图像处理装置、存储介质 | |
CN114241463A (zh) | 签名验证方法、装置、计算机设备和存储介质 | |
CN117612179A (zh) | 图像中字符识别方法、装置、电子设备及存储介质 | |
CN113435219A (zh) | 防伪检测方法、装置、电子设备及存储介质 | |
CN115410191A (zh) | 文本图像识别方法、装置、设备和存储介质 | |
JP5041775B2 (ja) | 文字切出方法及び文字認識装置 | |
CN112530079A (zh) | 一种检测票据要素的方法、装置、终端设备和存储介质 | |
US11501515B2 (en) | Apparatus, storage medium, and control method for removing a noise from a divided line image obtained by a character image | |
JPH0256688A (ja) | 文字切出し装置 | |
CN110991451B (zh) | 扫描图像的卡片区域图像的校正方法及装置 | |
CN113255637A (zh) | 图像边界的定位方法、图像处理设备、装置和存储介质 | |
CN112633289A (zh) | 一种粘连字符分割方法和系统 | |
CN111814780A (zh) | 一种票据图像处理方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |