CN105117704A

CN105117704A - 一种基于多特征的文本图像一致性比较方法

Info

Publication number: CN105117704A
Application number: CN201510526382.6A
Authority: CN
Inventors: 郝家胜; 钟千里
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2015-08-25
Filing date: 2015-08-25
Publication date: 2015-12-02
Anticipated expiration: 2035-08-25
Also published as: CN105117704B

Abstract

本发明公开了一种基于多特征的文本图像一致性比较方法，先对源图像与目标图像进行预处理；然后根据文本图像的水平、垂直投影特征，分别提取预处理后的源图像与目标图像的文本区域；在调整目标图像的文本区域大小后，根据行间距和文字间距分别提取源图像与目标图像文本区域中的文本行和文本行中的文字，进而得到源文字图像和目标文字图像；然后根据文字图像结构特征，比较对应行下的目标图像文本行与源图像文本行中位置相对应的文字图像，以源图像中该文本行的文字图像为参考，标出目标图像中该文本行对应位置出现的不同文字图像，从而实现文本图像的一致性比较。

Description

一种基于多特征的文本图像一致性比较方法

技术领域

本发明属于图像处理领域，更为具体地讲，涉及一种基于多特征的文本图像一致性比较方法。

背景技术

Pdf、Word、图像等格式的原始电子文档经常需要被打印，打印出来的纸质文档常常需要确认是否为原始电子文档的真实副本，因为打印出来的纸质文档可能由于人为修改或意外情况而发生改变，与原始电子文档并不完全一致。例如，商业合同一般先采用电子文档进行协商，最终打印为纸质文档，此时就需要确保打印的纸质文档是最终电子文档的真实副本，二者的文本内容完全一致。完全通过人工对比来检测这些可能存在的不一致是极其耗时而低效的，而通过图像处理领域的技术来检测，可以大量减少人工检测的工作量，极大地提高检测效率。基本思路是将打印出来后的纸质文档扫描回Pdf或图像格式的扫描电子文档，然后将原始电子文档和扫描电子文档转换为图像，通过计算机图像处理技术检测扫描电子文档图像与原始电子文档图像中文本内容不一致的地方，并予以标记，然后再人工确认这些标记，从而最终确认打印出来的纸质文档是否为原始电子文档的真实副本。

针对文本图像比较的相关技术，主要有以下几方面：

1)俞颂阳,明伟.通过用字符的形状特征来比较字符而检测文档变化的方法[P].美国：CN102722729A,2012-10-10.

该方法根据字符的欧拉数、边框的高宽比、边框的像素密度以及两个字符之间的豪斯多夫距离等形状特征来确定两个字符是相同的或不同的。但该方法高度依赖于如何提取匹配字符的骨架的算法，且对图像质量有较高要求，尤其不适用于扫描版中文文档的比较。

2)宋永红,张元林,雍旭东,孟泉,刘跃虎,陈晓.一种文字图像特征差异的快速计算方法[P].陕西：CN103440472A,2013-12-11.

该方法首先基于几何形状特征的多样性，采用前景像素个数、文字大小、长宽比和占空比四个特征对差异较大的文字对进行初步筛选，在初步筛选之后，对剩下的配对进行精细特征描述，并采用修正的模板匹配方法。但是模板匹配方法中用到的高度、宽度、前景像素总数、长宽比、及占空比特征均不足以精确刻画一个中文文字的结构，也就限制了该方法对于中文文本图像的比较精度。

3)BaudrierNicolierF,MillonG,etal.Binary-imagecomparisonwithlocal-dissimilarityquantification[J].PatternRecognition,2008,41(5):1461-1478.

该方法通过改进的豪斯多夫距离来度量两副二值图像的相似度，但这种单一的特征不足以刻画中文文本的特征，容易产生错误的肯定检测。

本发明通过采用多特征融和技术，提供一种有效的中文文本图像的一致性检测方法。

发明内容

本发明的目的是在不真正地识别文字的情况下，根据文本图像结构特征，比较打印文档图像与原电子文档图像的文本内容是否一致。

为实现上述发明目的，本发明提供一种基于多特征的文本图像一致性比较方法，所述方法包括以下步骤：

(1)、先将原电子文档打印，再用打印后的文档扫描生成电子文档，并标记为扫描版电子文档；

(2)、将原电子文档转换生成图像，记为源图像，将扫描版电子文档生成的图像，记为目标图像；

(3)、对源图像与目标图像进行预处理；

(4)、根据文本图像的水平、垂直投影特征，分别提取预处理后的源图像与目标图像的文本区域；

(5)、调整目标图像的文本区域大小，使得其高度与宽度等于源图像文本区域的高度与宽度；

(6)、根据行间距提取源图像与目标图像文本区域中的文本行，以源图像中的文本行为参考，比较目标图像中的文本行与源图像中的文本行的行数是否相等，如果行数相等，则直接进入步骤(7)；如果行数不相等，则标出目标图像中添加或缺少的行，再进入步骤(7)；

(7)、利用数字分别对源图像与目标图像中的文本行逐行进行编号，再根据文字间距提取对应行编号中所有文字，每一个文字均生成一幅文字图像，其中，源图像中的文字提取生成为源文字图像，目标图像中的文字提取生成为目标文字图像；

以源图像中该文本行的源文字图像数目为参考，比较该行编号下的目标图像文本行与源图像文本行的文字图像数目是否相等，如果文字图像数目相等，则直接进入步骤(8)；如果文字图像数目不相等，则标出目标图像中该行添加或缺少的文字图像，再进入步骤(8)；

(8)、根据文字图像结构特征，结合步骤(7)比较该行编号下的目标图像文本行与源图像文本行中位置相对应的文字图像，以源图像中该文本行的文字图像为参考，标出目标图像中该文本行对应位置出现的不同文字图像；

同理，结合步骤(7)和步骤(8)继续比较剩余的文本行，直到比较完所有的文本行为止；

(9)、输出上述所有的比较结果。

其中，所述的步骤(8)中，根据文字图像结构特征，比较源图像和目标图像中对应行对应位置的文字的方法为：

(8.1)、设阈值threshold_scale，对源文字图像与目标文字图像分别提取高宽比特征，分别记为S1、S2，然后用高宽比特征进行初步比较，如果|S1-S2|/min(S1,S2)>threshold_scale，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；如果|S1-S2|/min(S1,S2)≤threshold_scale，则初步认为本对文字图像相同，再进入步骤(8.2)；

(8.2)、归一化文字图像大小，使目标文字图像大小等于源文字图像大小；

(8.3)、基于像素差异的文字图像比较

a)、计算两文字图像的像素值矩阵的绝对值图像AbsDiff＝|Dst-Src|，其中，Dst表示目标文字图像的像素值矩阵，Src表示源文字图像的像素值矩阵；

b)、统计绝对值图像AbsDiff中白色像素点个数，记为AbsDiffWhite；

c)、计算两文字图像的像素相对差异RelaDiff＝AbsDiffWhite/min(DstBlack,SrcBlack)，其中DstBlack是源文字图像中的黑色像素点的个数，SrcBlack是目标文字图像中的黑色像素点的个数；

d)、设阈值threshold_pixdiff，当RelaDiff﹥threshold_pixdiff时，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；当RelaDiff≤threshold_pixdiff时，则进一步认为本对文字图像相同，再进行步骤(8.4)；

(8.4)、基于投影特征的文字图像比较

首先，对两个文字图像进行细化处理，然后，计算它们的水平投影与垂直投影，剔除小于文字图像高度1/k₁的水平投影值，剔除小于文字图像宽度1/k₁的垂直投影值，再将剩下的投影值构成文字的投影特征，并比较投影值的大小，如果水平投影值的绝对差值大于文字图像高度的1/k₂或者垂直投影值的绝对差值大于文字图像宽度的1/k₂，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像比较；否则进行步骤(8.5)；其中，k₁、k₂为大于1的整数；

(8.5)、基于笔画穿越次数特征的文字图像比较

将文字图像平均分割成四块，提取每块的水平方向的最大笔画穿越次数、垂直方向的最大笔画穿越次数，从而构成8个特征值，如果8个特征值中有k₃(k₃∈[4,8])个以上相等，则最终认为本对文字图像相同，否则认为不同。

本发明的发明目的是这样实现的：

本发明基于多特征的文本图像一致性比较方法，先对源图像与目标图像进行预处理；然后根据文本图像的水平、垂直投影特征，分别提取预处理后的源图像与目标图像的文本区域；调整目标图像的文本区域大小；然后根据行间距提取源图像与目标图像文本区域中的文本行；利用数字分别对源图像与目标图像中的文本行逐行进行编号；再根据文字间距提取对应行编号中所有文字，每一个文字均生成一幅文字图像，其中，源图像中的文字提取生成为源文字图像，目标图像中的文字提取生成为目标文字图像；然后根据文字图像结构特征，比较该行编号下的目标图像文本行与源图像文本行中位置相对应的文字图像，以源图像中该文本行的文字图像为参考，标出目标图像中该文本行对应位置出现的不同文字图像，从而实现文本图像的一致性比较。

同时，本发明基于多特征的文本图像一致性比较方法还具有以下有益效果：

(1)、首先基于文字图像结构特征的多样性，有效的刻画了文字图像的结构；

(2)、采用高宽比特征对文字图像进行初步比较，检测出差异较大的文字图像，有效减少了比较次数；

(3)、在初步比较之后，利用图像像素相对差异、投影、笔画穿越次数三个特征对剩下的文字图像进行精确比较；这四个特征中的任何一个都无法准确地比较文字图像，只有组合在一起才能完成精确比较，大大降低错误的肯定检测。

附图说明

图1是本发明一种基于多特征的文本图像一致性比较方法的流程图；

图2是源文字图像和目标文字图像示意图；

图3是源文字图像和目标文字图像的比较流程图；

图4是源文字图像和目标文字图像的骨架与投影特征图。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明，所述是对本发明的解释而不是限定。

本发明输入的电子文档格式可以是任意的，比如Pdf、Word等，在比较前，将其转换为图像格式即可。本发明不需要真正识别图像中的文字，只需要提取文字图像的结构特征来确定目标图像与源图像中的两个文字是否为相同的文字。

图1是本发明一种基于多特征的文本图像一致性比较方法的流程图。

在本实施例中，如图1所示，一种基于多特征的文本图像一致性比较方法，包括以下步骤：

(S1)、先将原电子文档打印，再用打印后的文档扫描生成电子文档，并标记为扫描版电子文档。

(S2)、将原电子文档转换生成图像，记为源图像，将扫描版电子文档生成的图像，记为目标图像；

在本实施例中，可以通过截图或者软件转换方式获取未经处理的源图像和目标图像，这两个图像理论上可以是任意的图像格式，由于位图图像保存的图像信息更完整，在本实施例中采用此格式。

(S3)、对源图像与目标图像进行预处理；

通过局部自适应阈值处理法将源图像从灰度图像或彩色图像转换成二值图像；

对目标图像先进行滤波，消除一些打印或扫描过程产生的噪声，再通过局部自适应阈值处理法将滤波后的目标图像从灰度图像或彩色图像转换成二值图像，最后进行倾斜校正，其方法包括：hough变换算法、投影法、DFT法、基于文本线提取算法、旋转变换算法，可以使用一种方法或者多种方法结合使用。

(S4)、根据文本图像的水平、垂直投影特征，分别提取预处理后的源图像与目标图像的文本区域。

(S5)、调整目标图像的文本区域大小，使得其高度与宽度等于源图像文本区域的高度与宽度。

(S6)、根据行间距提取源图像与目标图像文本区域中的文本行，以源图像中的文本行为参考，比较目标图像中的文本行与源图像中的文本行的行数是否相等，如果行数相等，则直接进入步骤(S7)；如果行数不相等，则标出目标图像中添加或缺少的行，再进入步骤(S7)。

(S7)、利用数字分别对源图像与目标图像中的文本行逐行进行编号，再根据文字间距提取对应行编号中所有文字，每一个文字均生成一幅文字图像，其中，源图像中的文字提取生成为源文字图像，目标图像中的文字提取生成为目标文字图像；

在本实施例中，以源图像与目标图像中的文本行的第一行为例，假设第一行中均匀25个文字，则对25个文字按照1～25编号，假设该行文字中的第一个文字生成的文字图像即为如图2所示，其中，图2(a)为源文字图像，图2(b)为目标文字图像；由于在步骤(S3)中，分别将源图像与目标图像处理成了二值图像，因此在生成的源文字图像和目标文字图像也为二值图像；

以源图像中该文本行的源文字图像数目为参考，比较该行编号下的目标图像文本行与源图像文本行的文字图像数目是否相等，如果文字图像数目相等，则直接进入步骤(S8)；如果文字图像数目不相等，则标出目标图像中该行添加或缺少的文字图像，再进入步骤(S8)。

(S8)、根据文字图像结构特征，结合步骤(S7)比较该行编号下的目标图像文本行与源图像文本行中位置相对应的文字图像，以源图像中该文本行的文字图像为参考，标出目标图像中该文本行对应位置出现的不同文字图像；

同理，结合步骤(S7)和步骤(S8)继续比较剩余的文本行，直到比较完所有的文本行为止；

在本实施例中，如图3所示，具体描述源文字图像与目标文字图像的比较流程，如下：

(S8.1)、设阈值threshold_scale，对源文字图像与目标文字图像分别提取高宽比特征，分别记为T1、T2，然后用高宽比特征进行初步比较，如果|T1-T2|/min(T1,T2)>threshold_scale，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；如果|T1-T2|/min(T1,T2)≤threshold_scale，则初步认为本对文字图像相同，再进入步骤(S8.2)；

(S8.2)、归一化文字图像大小，使目标文字图像大小等于源文字图像大小；

(S8.3)、基于像素差异的文字图像比较

a)、计算两文字图像的像素值矩阵的绝对值图像AbsDiff＝|Dst-Src|，其中，Dst表示目标文字图像的像素值矩阵，Src表示源文字图像的像素值矩阵；在本实施例中，通过图2(a)和图2(b)可以得到绝对值图像，即如图2(c)所示；

d)、设阈值threshold_pixdiff，当RelaDiff﹥threshold_pixdiff时，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；当RelaDiff≤threshold_pixdiff时，则进一步认为本对文字图像相同，再进行步骤(S8.4)，在本实施例中，threshold_scale取经验值0.5；

(S8.4)、基于投影特征的文字图像比较

首先，对两个文字图像进行细化处理，然后，计算它们的水平投影与垂直投影，剔除小于文字图像高度1/5的水平投影值，剔除小于文字图像宽度1/5的垂直投影值，再将剩下的投影值构成文字的投影特征，并比较投影值的大小，如果水平投影值的绝对差值大于文字图像高度的1/10或者垂直投影值的绝对差值大于文字图像宽度的1/10，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像比较；否则进行步骤(S8.5)；

在本实施例中，如图4所示，图4(a)为提取的文字图像，图4(b)为“且”字的骨架及投影特征，图4(c)为“丐”字的骨架及投影特征。

(S8.5)、基于笔画穿越次数特征的文字图像比较

将文字图像平均分割成四块，提取每块的水平方向的最大笔画穿越次数、垂直方向的最大笔画穿越次数，从而构成8个特征值，如果8个特征值中有6个以上相等，则最终认为本对文字图像相同，否则认为不同。

(S9)、输出上述所有的比较结果。

Claims

1.一种基于多特征的文本图像一致性比较方法，其特征在于，包括以下步骤：

(3)、对源图像与目标图像进行预处理；

(8)、根据文字图像结构特征，结合步骤(7)比较该行编号下的目标图像文本行与源图像文本行中位置相对应的文字图像，以源源图像中该文本行的文字图像为参考，标出目标图像中该文本行对应位置出现的不同文字图像；

(9)、输出上述所有的比较结果。

2.根据权利要求1所述的基于多特征的文本图像比较方法，其特征在于，所述的步骤(2)中，对源图像与目标图像进行预处理的具体方法为：

通过局部自适应阈值处理法将源图像从灰度图像或彩色图像转换成二值图像；对目标图像先进行滤波，去除噪声，再通过局部自适应阈值处理法将滤波后的目标图像从灰度图像或彩色图像转换成二值图像，最后进行倾斜校正。

3.根据权利要求1所述的基于多特征的文本图像比较方法，其特征在于，所述的步骤(8)中，根据文字图像结构特征，比较源图像和目标图像中对应行对应位置的文字图像的方法为：

(3.1)、设阈值threshold_scale，对源文字图像与目标文字图像分别提取高宽比特征，分别记为S1、S2，然后用高宽比特征进行初步比较，如果|S1-S2|/min(S1,S2)>threshold_scale，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；如果|S1-S2|/min(S1,S2)≤threshold_scale，则初步认为本对文字图像相同，再进入步骤(3.2)；

(3.2)、归一化文字图像大小，使目标文字图像大小等于源文字图像大小；

(3.3)、基于像素差异的文字图像比较

d)、设阈值threshold_pixdiff，当RelaDiff﹥threshold_pixdiff时，则认为本对文字图像不同，且本对文字图像比较结束，进行下一对文字图像的比较；当RelaDiff≤threshold_pixdiff时，则进一步认为本对文字图像相同，再进行步骤(3.4)；

(3.4)、基于投影特征的文字图像比较

首先，对两个文字图像进行细化处理，然后，计算它们的水平投影与垂直投影，剔除小于文字图像高度1/k₁的水平投影值，剔除小于文字图像宽度1/k₁的垂直投影值，再将剩下的投影值构成文字的投影特征，并比较投影值的大小，如果水平投影值的绝对差值大于文字图像高度的1/k₂或者垂直投影值的绝对差值大于文字图像宽度的1/k₂，则认为本对文文字图像不同，且本对文字图像比较结束，进行下一对文字图像比较；否则进行步骤(3.5)；其中，k₁为大于1的整数；

(3.5)、基于笔画穿越次数特征的文字图像比较