CN110110788A - 原件和比对件的比对方法及装置 - Google Patents
原件和比对件的比对方法及装置 Download PDFInfo
- Publication number
- CN110110788A CN110110788A CN201910374424.7A CN201910374424A CN110110788A CN 110110788 A CN110110788 A CN 110110788A CN 201910374424 A CN201910374424 A CN 201910374424A CN 110110788 A CN110110788 A CN 110110788A
- Authority
- CN
- China
- Prior art keywords
- picture
- character
- original
- original part
- comparison
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/758—Involving statistics of pixels or of feature values, e.g. histogram matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Input (AREA)
Abstract
本发明提供了一种原件和比对件的比对方法及装置,涉及图像比对的技术领域,包括:获取原件的图片和比对件的图片;对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。
Description
技术领域
本发明涉及图像比对技术领域,尤其是涉及一种原件和比对件的比对方法及装置。
背景技术
在文件来往的过程中,对于对方发回的纸面文件,为了确保该纸面文件正确无误需要进行审核。对纸面文件的审核目前主要是通过人工审核或OCR(Optical CharacterRecognition,光学字符识别)技术进行审核。
人工审核比对纸面文件和原版电子文件的差异,对执行人的要求很高,要求执行人有很高的业务水平、责任心、耐心、比对技能。而且人工审核费时费力、错误率较高;OCR技术比对纸面文件和原版电子文件的差异,需要先把纸面文件转换成文本形式的电子文档,再和电子合同原件进行比较发现其中的差异。通过OCR技术审核,需要对纸面文件的文字进行文字识别,处理环节较多,需要的技术复杂,计算工作量较大,比对一页纸面文件需要数分钟甚至十几分钟,比对时间长,通过OCR技术审核受OCR技术限制错误率较高,而且OCR技术受到支持语言的限制,对OCR技术不支持的语言无法进行转换和比对。
针对上述现有技术中人工审核费时费力、错误率较高;OCR技术审核比对时间长,错误率较高,对OCR技术不支持的语言无法进行转换和比对的问题,目前尚未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种原件和比对件的比对方法及装置,以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。
第一方面,本发明实施例提供了一种原件和比对件的比对方法,包括:获取原件的图片和比对件的图片;对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符,包括:对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,对所述原件的图片和所述比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片,包括:对所述原件的图片和所述比对件的图片进行灰度化处理,得到灰度化原件图片和灰度化比对件图片;对所述灰度化原件图片和所述灰度化比对件图片进行二值化处理,得到预处理原件图片和预处理比对件图片。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符,包括:从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息;将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。
结合第一方面及其第一到三种可能的实施方式之一,本发明实施例提供了第一方面的第四种可能的实施方式,其中,判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,包括:按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置;逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别;差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值;判断差别是否大于预设阈值。
结合第一方面及其第一到三种可能的实施方式之一,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断原件的图片和比对件的图片的尺寸是否一致;如果不一致,将比对件的图片缩放到与原件的图片的高度一致。
结合第一方面及其第一到四种可能的实施方式之一,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断比对件的图片是否存在黑边框、线条、表格线或红章;如果是,去除黑边框、线条、表格线或红章。
结合第一方面及其第一到四种可能的实施方式之一,本发明实施例提供了第一方面的第七种可能的实施方式,其中,在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:判断比对件的图片是否倾斜;如果是,旋转比对件的图片,以使比对件的图片和原件的图片平行。
第二方面,本发明实施例还提供一种原件和比对件的比对装置,包括:获取模块,用于获取原件的图片和比对件的图片;图片模块,用于对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;判断模块,用于判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;标记模块,用于如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,还包括:预处理模块,用于对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;字符切割模块,用于对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
本发明实施例带来了以下有益效果:
本发明实施例提供的原件和比对件的比对方法及装置,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种原件和比对件的比对方法的流程图;
图2为本发明实施例提供的一种图像预处理方法的流程图;
图3为本发明实施例提供的另一种原件和比对件的比对方法的流程图;
图4为本发明实施例提供的一种原件和比对件的比对装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,对纸面文件进行审核,主要依靠人工审核或OCR技术进行审核。人工审核比对纸面文件和原版电子文件的差异,对执行人的要求很高,要求执行人有很高的业务水平、责任心、耐心、比对技能。而且人工审核费时费力、错误率较高;OCR技术比对纸面文件和原版电子文件的差异,需要先把纸面文件转换成文本形式的电子文档,再和电子合同原件进行比较发现其中的差异。通过OCR技术审核,需要对纸面文件的文字进行文字识别,处理环节较多,需要的技术复杂,计算工作量较大,比对一页纸面文件需要数分钟甚至十几分钟,比对时间长,通过OCR技术审核受OCR技术限制错误率较高,而且OCR技术受到支持语言的限制,对OCR技术不支持的语言无法进行转换和比对。基于此,本发明实施例提供的一种原件和比对件的比对方法及装置,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种原件和比对件的比对方法进行详细介绍。
实施例1
本发明实施例1提供了一种原件和比对件的比对方法,参见图1所示的一种原件和比对件的比对方法的流程图,包括如下步骤:
步骤S102,获取原件的图片和比对件的图片。
服务器接收原件和比对件,原件和比对件一般是指合同原件和对方发回的合同,原件可以是纸面文件,也可以是电子文件。比对件一般为纸面文件。原件一般不存在任何问题,比对件通常经过多次传播,不能确定比对件是否存在被人为修改,或者因传播过程或沟通失误导致的修改或遗漏等情况。因此,需要对原件和比对件进行比对。
图像采集装置可以是摄像头或者扫描仪,原件的图片和比对件的图片一般由图像采集装置采集得到,图像采集的格式为一般的图片格式均可,例如:jpg(JointPhotographic Experts GROUP,联合图像专家组)、png(Portable Network Graphics,便携式网络图形)、bmp(Bitmap,位图文件)等等。
如果原件为电子文件,服务器可以通过接收电子文件并将电子文件转化为图片文件,获取原件的图片。
步骤S104,对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符。
字符切割主要目的是将原件的图片和比对件的图片中的字符分割出来,得到原件字符和比对件字符。字符包括汉字、英文字母、标点符号等等。
步骤S106,判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值。
逐字符判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,将原件字符和最佳匹配位置的比对件字符叠放后,差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值,总像数点数量为原件字符像素点数量与比对件字符像素点数量的均值。预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同,为差异字符;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。按照原件字符和比对件字符的排列顺序逐字符进行比对,比对件字符在原件字符中没有找到最佳匹配位置或者比对件字符比原件字符多出的比对件字符为差异字符。
步骤S108,如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。
在比对件的图片上标记步骤S106中比对差别大于阈值的字符。如果差别大于预设阈值,则认为该比对件字符为差异字符,在比对件的图片上标注差异字符。一般通过圈注等形式标记。差异字符还包括在原件字符中没有找到最佳匹配位置或者比对件字符比原件字符多出的比对件字符。
本发明实施例提供的上述方法,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。
对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符,需要首先进行预处理,例如,可以按照以下步骤执行:
(1)对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片。
预处理包括灰度化、二值化、图片矫正、图片缩放、去除红章、线条、表格线等,通过预处理得到预处理原件图片和预处理比对件图片。
其中,图像二值化步骤依次包括灰度化和二值化,参见图2的一种图像预处理方法的流程图,例如,可以按照以下步骤执行:
步骤S202,对原件的图片和比对件的图片进行灰度化处理,得到灰度化原件图片和灰度化比对件图片。
灰度是指使用黑色调表示物体,即用黑色为基准色,不同的饱和度的黑色来显示图像。灰度化,是指将彩色图片转化为灰度图片。灰度化处理后的原件图片和比对件图片,称为灰度化原件图片和灰度化比对件图片。
步骤S204,对灰度化原件图片和灰度化比对件图片进行二值化处理,得到预处理原件图片和预处理比对件图片。
二值化就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的只有黑和白的视觉效果。二值化可以把灰度图像转换成二值图像。把大于某个临界灰度值的像素灰度设为灰度极大值,把小于这个值的像素灰度设为灰度极小值,从而实现二值化。二值化处理后的灰度化原件图片和灰度化比对件图片,称为预处理原件图片和预处理比对件图片。
(2)对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符,例如,可以按照以下步骤执行:
(1)从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息。
先把预处理原件图片和预处理比对件图片中的每一行分出,再把每一行中的每一个字符切割,得到每一个字符的像素信息。
(2)将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。
将预处理原件图片中的每一个字符的像素信息作为原件字符,将预处理比对件图片中的每一个字符的像素信息作为比对件字符。
本发明实施例提供的上述方法,对原件图片和比对件图片预处理,预处理包括灰度化和二值化,对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符。
判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值,需要逐字符进行判断,例如,可以按照以下步骤执行:
(1)按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置。
通过预设逻辑,可以确定每个比对件字符对应原件字符的最佳匹配位置。
(2)逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别。
逐字符确定差别,即对于每个原件字符,同最佳匹配位置的比对件字符逐行逐字符确定差别。差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值。
(3)判断差别是否大于预设阈值。
预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。
本发明实施例提供的上述方法,通过逐字符确定差别并判断差别是否大于预设阈值,确定原件字符和最佳匹配位置的比对件字符是否相同。
在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,需要调整原件图片和比对件图片的尺寸,上述方法还包括:
(1)判断原件的图片和比对件的图片的尺寸是否一致。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法、以及分辨率的不同,采集的比对件图片和原件的图片可能存在尺寸不一致的问题。
(2)如果不一致,将比对件图片缩放到与原件图片的高度一致。
如果尺寸不一致,需要将比对件图片缩放到与原件图片的高度一致。一般来说,虽然尺寸不一致,但是原件图片与比对件图片的比例相同,将比对件图片缩放到与原件图片的高度一致,也可以保证原件图片与比对件图片的宽度一致。
本发明实施例提供的上述方法,通过将比对件图片缩放到与原件图片的高度一致,保证比对的准确性。
在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还需要去除图像噪声,上述方法还包括:
(1)判断比对件的图片是否存在黑边框、线条、表格线或红章。
图像噪声包括黑边框、线条、表格线或红章,如果比对件图片存在图像噪声,需要去除。如果比对件图片通过扫描或拍照取得,则可能存在黑边框或线条;对于已盖红章的比对件图片,也需要去除红章;如果比对件图片存在表格线,也要将表格线去除。
(2)如果是,去除黑边框、线条、表格线或红章。
本发明实施例提供的上述方法,通过去除黑边框、线条、表格线或红章,保证比对的准确性。
在对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还需要保证原件图片和比对件图片平行。上述方法还包括:
(1)判断比对件图片是否倾斜。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在倾斜的问题。
(2)如果是,旋转比对件的图片,以使比对件的图片和原件的图片平行。
如果比对件图片倾斜,需要通过旋转以使原件图片和比对件图片平行。
本发明实施例提供的上述方法,通过旋转比对件图片,以使原件图片和比对件图片平行,保证比对的准确性。
本发明实施例提供的一种元件和比对件的比对方法,通过依次进行的读取、字符切割、判断及标记步骤,对原件的图片和比对件的图片进行比对并在比对件的图片上标记。可以节约时间和人力成本、降低错误率,并且不受支持的语言的限制。对原件图片和比对件图片预处理,预处理包括灰度化和二值化,对二值化后的预处理原件图片和预处理比对件图片,通过字符切割提取原件字符和比对件字符。通过逐字符确定差别并判断差别是否大于预设阈值,确定原件字符和最佳匹配位置的比对件字符是否相同。通过将比对件图片缩放到与原件图片的高度一致,去除黑边框、线条、表格线或红章,旋转比对件图片,以使原件图片和比对件图片平行,保证比对的准确性。
实施例2
本发明实施例2提供了另一种原件和比对件的比对方法,参见图3所示的另一种原件和比对件的比对方法的流程图,包括如下步骤:
步骤S302,获取原件的图片和比对件的图片。
原件的图片一般由原件的电子文档直接转化而来,比对件的图片一般由图像采集装置采集得到,图像采集装置可以是摄像头或者扫描仪,图像采集的格式为一般的图片格式均可,例如:jpg、png、bmp等等。
步骤S304,判断比对件图片是否存在红章;如果是,执行步骤S306;如果否,执行步骤S308。
图像噪声包括黑边框、线条、表格线和红章,如果比对件图片存在图像噪声,需要去除。对于已盖红章的比对件图片,需要去除红章。
步骤S306,去除红章。
步骤S308,对原件图片和比对件图片进行灰度化处理。
灰度化,是指将彩色图片转化为灰度图片。
步骤S310,判断比对件图片是否摆正。如果是,执行步骤S314;如果否,执行步骤S312。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在横放的问题。纸面文件在如果横放,拍照后也是横的,需要转正图片。
步骤S312,转正比对件图片。
步骤S314,判断比对件图片是否存在黑边框或线条;如果是,执行步骤S316;如果否,执行步骤S318。
如果比对件图片通过扫描或拍照取得,则可能存在黑边框或线条,需要去除。
步骤S316,去除黑边框或线条,获取纸张区域。
步骤S318,判断比对件图片是否倾斜。如果是,执行步骤S320;如果否,执行步骤S322。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在倾斜的问题。
步骤S320,旋转比对件图片,以使原件图片和比对件图片平行。
步骤S322,判断原件图片和比对件图片的尺寸是否一致;如果否,执行步骤S324;如果是,执行步骤S326。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,原件图片和采集的比对件图片可能存在尺寸不一致的问题。
步骤S324,将比对件图片缩放到与原件图片的高度一致。
因为比对件图片需要通过图片采集装置采集,根据采集的设备或方法不同,采集的比对件图片可能存在尺寸不一致的问题。
步骤S326,对原件图片和比对件图片进行二值化处理。
步骤S328,判断比对件图片是否存在表格线;如果是,执行步骤S330;如果否,执行步骤S332。
步骤S330,去除表格线。
步骤S332,去除噪点,得到预处理比对件图片。
噪点是图像中一种亮度或颜色信息的随机变化(被拍摄物体本身并没有),通常是电子噪声的表现。它一般是由扫描仪或数码相机的传感器和电路产生的,也可能是受胶片颗粒或者理想光电探测器中不可避免的的散粒噪声影响产生的。图像噪声是图像拍摄过程中不希望存在的副产品,给图像带来了错误和额外的信息。
步骤S334,从预处理原件图片和预处理比对件图片中分别获取原件中字符和比对件中字符的像素信息。
先把预处理原件图片和预处理比对件图片中的每一行分出,再把每一行中的每一个字符切割,得到每一个字符的像素信息。
步骤S336,将原件中字符的像素信息作为原件字符,将比对件中字符的像素信息作为比对件字符。
将预处理原件图片中的每一个字符的像素信息作为原件字符,将预处理比对件图片中的每一个字符的像素信息作为比对件字符。
步骤S338,按照原件字符和比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置。
通过预设逻辑,可以确定每个比对件字符对应原件字符的最佳匹配位置。
步骤S340,逐字符对原件字符和最佳匹配位置的比对件字符进行比对确定差别。
逐字符确定差别,即对于每个原件字符,同最佳匹配位置的比对件字符逐行逐字符确定差别。差别为原件字符和最佳匹配位置的比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;总像素点数量为原件字符像素点数量与比对件字符像素点数量的均值。
步骤S342,判断差别是否大于预设阈值,并在比对件的图片上标记差别大于阈值的字符。
预设阈值可以手动设置及修改,一般设置在10%-20%之间,即如果差别大于预设阈值,则认为原件字符和最佳匹配位置的比对件字符不同;如果差别小于等于预设阈值,则认为原件字符和最佳匹配位置的比对件字符相同。如果差别大于预设阈值,在比对件的图片上标注对应的比对件字符。一般通过圈注等形式标记。
本发明实施例提供的一种元件和比对件的比对方法,通过读取、去红章、灰度化、转正、去边框或线条、旋转纸张、缩放、二值化、去表格线、去噪点、字符切割、比对判断差异并标记,可以节约时间和人力成本、降低错误率,保证比对的准确性,并且不受支持的语言的限制。
实施例3
本发明实施例3提供一种原件和比对件的比对装置,参见图4所示的一种原件和比对件的比对装置的结构示意图,包括获取模块41、字符切割模块42、判断模块43、标记模块44,上述各模块的功能如下:
获取模块41,用于获取原件的图片和比对件的图片;
图片模块42,用于对原件的图片和比对件的图片分别进行字符切割,得到原件字符和比对件字符;
判断模块43,用于判断每个原件字符和最佳匹配位置的比对件字符的差别是否大于预设阈值;
标记模块44,用于如果是,在比对件的图片上标记差别大于预设阈值的比对件字符。
上述装置还包括:
预处理模块,用于对原件的图片和比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片。
字符切割模块,用于对预处理原件图片和预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的原件和比对件的比对装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例提供的原件和比对件的比对装置,与上述实施例提供的原件和比对件的比对方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种原件和比对件的比对方法,其特征在于,包括:
获取原件的图片和比对件的图片;
对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符;
判断每个所述原件字符和最佳匹配位置的所述比对件字符的差别是否大于预设阈值;
如果是,在所述比对件的图片上标记所述差别大于所述预设阈值的所述比对件字符。
2.根据权利要求1所述的方法,其特征在于,对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符,包括:
对所述原件的图片和所述比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;
对所述预处理原件图片和所述预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
3.根据权利要求2所述的方法,其特征在于,对所述原件的图片和所述比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片,包括:
对所述原件的图片和所述比对件的图片进行灰度化处理,得到灰度化原件图片和灰度化比对件图片;
对所述灰度化原件图片和所述灰度化比对件图片进行二值化处理,得到预处理原件图片和预处理比对件图片。
4.根据权利要求3所述的方法,其特征在于,对所述预处理原件图片和所述预处理比对件图片分别进行字符切割,得到原件字符和比对件字符,包括:
从所述预处理原件图片和所述预处理比对件图片中分别获取所述原件中字符和所述比对件中字符的像素信息;
将所述原件中字符的像素信息作为原件字符,将所述比对件中字符的像素信息作为比对件字符。
5.根据权利要求1-4任一项所述的方法,其特征在于,判断每个所述原件字符和最佳匹配位置的所述比对件字符的差别是否大于预设阈值,包括:
按照所述原件字符和所述比对件字符的排列顺序,根据预设逻辑,得到每个比对件字符对应原件字符的最佳匹配位置;
逐字符对所述原件字符和所述最佳匹配位置的所述比对件字符进行比对确定差别;所述差别为所述原件字符和所述最佳匹配位置的所述比对件字符进行配准比较时,未重叠的像素点数量与总像素点数量的比值;所述总像素点数量为所述原件字符像素点数量与所述比对件字符像素点数量的均值;
判断所述差别是否大于预设阈值。
6.根据权利要求1-4任一项所述的方法,其特征在于,在对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:
判断所述原件的图片和所述比对件的图片的尺寸是否一致;
如果不一致,将所述比对件的图片缩放到与所述原件的图片的高度一致。
7.根据权利要求1-4任一项所述的方法,其特征在于,在对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:
判断所述比对件的图片是否存在黑边框、线条、表格线或红章;
如果是,去除所述黑边框、所述线条、所述表格线或所述红章。
8.根据权利要求1-4任一项所述的方法,其特征在于,在对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符之前,还包括:
判断所述比对件的图片是否倾斜;
如果是,旋转所述比对件的图片,以使所述比对件的图片和所述原件的图片平行。
9.一种原件和比对件的比对装置,其特征在于,包括:
获取模块,用于获取原件的图片和比对件的图片;
图片模块,用于对所述原件的图片和所述比对件的图片分别进行字符切割,得到原件字符和比对件字符;
判断模块,用于判断每个所述原件字符和最佳匹配位置的所述比对件字符的差别是否大于预设阈值;
标记模块,用于如果是,在所述比对件的图片上标记所述差别大于所述预设阈值的所述比对件字符。
10.根据权利要求9所述的装置,其特征在于,还包括:
预处理模块,用于对所述原件的图片和所述比对件的图片进行预处理,得到预处理原件图片和预处理比对件图片;
字符切割模块,用于对所述预处理原件图片和所述预处理比对件图片分别进行字符切割,得到原件字符和比对件字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374424.7A CN110110788A (zh) | 2019-05-06 | 2019-05-06 | 原件和比对件的比对方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910374424.7A CN110110788A (zh) | 2019-05-06 | 2019-05-06 | 原件和比对件的比对方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110110788A true CN110110788A (zh) | 2019-08-09 |
Family
ID=67488455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910374424.7A Pending CN110110788A (zh) | 2019-05-06 | 2019-05-06 | 原件和比对件的比对方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110110788A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN111325196A (zh) * | 2020-03-05 | 2020-06-23 | 上海眼控科技股份有限公司 | 车架号检测方法、装置、计算机设备和存储介质 |
CN112839141A (zh) * | 2019-11-25 | 2021-05-25 | 佳能株式会社 | 图像处理系统、图像处理方法和存储介质 |
CN113689423A (zh) * | 2021-09-09 | 2021-11-23 | 深圳新致软件有限公司 | 基于灰度和色彩鉴别算法的保险审核材料鉴定方法、系统以及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779343A (zh) * | 2012-06-29 | 2012-11-14 | 东莞金杯印刷有限公司 | 一种电脑对稿操作方法 |
CN106033543A (zh) * | 2015-03-11 | 2016-10-19 | 株式会社理光 | 文档修改检测方法、文档原稿提供装置、文档复制件检测装置、以及文档修改检测系统 |
CN106682698A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于模板匹配的ocr识别方法 |
CN108154596A (zh) * | 2016-12-04 | 2018-06-12 | 湖南丰汇银佳科技股份有限公司 | 一种基于图像匹配的双冠号纸币鉴伪方法 |
CN108805098A (zh) * | 2018-06-21 | 2018-11-13 | 云城(北京)数据科技有限公司 | 纸面文档与电子文档的比对方法、装置和系统 |
-
2019
- 2019-05-06 CN CN201910374424.7A patent/CN110110788A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102779343A (zh) * | 2012-06-29 | 2012-11-14 | 东莞金杯印刷有限公司 | 一种电脑对稿操作方法 |
CN106033543A (zh) * | 2015-03-11 | 2016-10-19 | 株式会社理光 | 文档修改检测方法、文档原稿提供装置、文档复制件检测装置、以及文档修改检测系统 |
CN108154596A (zh) * | 2016-12-04 | 2018-06-12 | 湖南丰汇银佳科技股份有限公司 | 一种基于图像匹配的双冠号纸币鉴伪方法 |
CN106682698A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 基于模板匹配的ocr识别方法 |
CN108805098A (zh) * | 2018-06-21 | 2018-11-13 | 云城(北京)数据科技有限公司 | 纸面文档与电子文档的比对方法、装置和系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110490185A (zh) * | 2019-08-23 | 2019-11-22 | 北京工业大学 | 一种基于多次对比矫正ocr名片信息识别改进方法 |
CN112839141A (zh) * | 2019-11-25 | 2021-05-25 | 佳能株式会社 | 图像处理系统、图像处理方法和存储介质 |
US11797857B2 (en) | 2019-11-25 | 2023-10-24 | Canon Kabushiki Kaisha | Image processing system, image processing method, and storage medium |
CN112839141B (zh) * | 2019-11-25 | 2024-01-09 | 佳能株式会社 | 图像处理系统、图像处理方法和存储介质 |
CN111325196A (zh) * | 2020-03-05 | 2020-06-23 | 上海眼控科技股份有限公司 | 车架号检测方法、装置、计算机设备和存储介质 |
CN113689423A (zh) * | 2021-09-09 | 2021-11-23 | 深圳新致软件有限公司 | 基于灰度和色彩鉴别算法的保险审核材料鉴定方法、系统以及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110110788A (zh) | 原件和比对件的比对方法及装置 | |
TWI536277B (zh) | Form identification method and device | |
EP2221746B1 (en) | Apparatus and method for improving text recognition capability | |
CN107248134B (zh) | 一种文本文档中的信息隐藏方法和装置 | |
US7630544B1 (en) | System and method for locating a character set in a digital image | |
Ng et al. | Regular feature extraction for recognition of Braille | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN102737240B (zh) | 分析数字文档图像的方法 | |
KR101842535B1 (ko) | 부호의 광학적 검출 방법 | |
Zhang et al. | A combined algorithm for video text extraction | |
CN111931769A (zh) | 结合rpa及ai的发票处理、装置、计算设备及存储介质 | |
CN103530625A (zh) | 一种基于数字图像处理的光学字符识别方法 | |
Ch et al. | Optical character recognition on handheld devices | |
Grover et al. | Text extraction from document images using edge information | |
CN112818983B (zh) | 一种利用图片相识度判断字符倒置的方法 | |
CN113743318A (zh) | 基于行列分割的表格结构识别方法、存储介质和电子装置 | |
US20100014752A1 (en) | Image processing apparatus, image processing method and program | |
CN110717412A (zh) | 一种检测恶意pdf文档的方法及系统 | |
JP2003087562A (ja) | 画像処理装置および画像処理方法 | |
KR20100011187A (ko) | 문자 인식 방법 | |
JP4936250B2 (ja) | 書込み抽出方法、書込み抽出装置および書込み抽出プログラム | |
Nor et al. | Image segmentation and text extraction: application to the extraction of textual information in scene images | |
JP2012049860A (ja) | 画像処理装置、画像処理方法およびプログラム | |
Rani et al. | Object Detection in Natural Scene Images Using Thresholding Techniques | |
CN112861794A (zh) | 一种光学印刷文本和场景文本的通用检测算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190809 |
|
RJ01 | Rejection of invention patent application after publication |