CN104636708A

CN104636708A - 一种局部文档图像的比对方法及系统

Info

Publication number: CN104636708A
Application number: CN201310556584.6A
Authority: CN
Inventors: 史培培; 胡希驰
Original assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Current assignee: Founder International Co Ltd; Founder International Beijing Co Ltd
Priority date: 2013-11-11
Filing date: 2013-11-11
Publication date: 2015-05-20

Abstract

本发明涉及一种局部文档图像比对方法及系统，现有的文档图像比对方法或者对识别结果的依赖性太强，或者效果不太理想，且速度都较慢。本发明所述的方法及系统首先将待比对文档图像上的每个字符划分为设定个数的区块；然后计算每个区块的二值分布特征；再将每个区块的二值分布特征进行组合，得到每个字符的组合分布，并将每个字符的组合分布进行组合，得到文档图像的组合分布；最后计算待比对文档图像的组合分布之间的距离，根据该距离判断文档图像之间的相似度。采用本发明所述的方法既可以较快速地对文档图像进行比对，且不依赖OCR识别结果，能达到较好的比对效果。

Description

一种局部文档图像的比对方法及系统

技术领域

本发明属于图像分析技术领域，具体涉及一种局部文档图像的比对方法及系统。

背景技术

文档图像即图像格式的文档，它是通过某种方式将纸质文档等转化为图像格式的文档,以供用户电子阅读，应用非常广泛。文档图像比对是利用文档图像的形状特征、纹理特征等对两幅或两幅以上的文档图像进行相似度比对，并根据这些统计特征，计算出文档图像两两之间的相似度数值或对文档图像之间的相似度做出评价的一个过程。

现有技术中，比较两幅文档图像是否相同可以利用光学字符识别（OCR）技术，该技术通过识别图像中的文字来达到图像比对的目的。该技术的缺陷是比对结果严重依赖OCR的识别结果，并且OCR的识别速度较慢，大大限制了该方法的应用。

另外一类文档图像比对的方法是提取图像中的特征点（例如sift特征点、surf特征点、角点等），并通过匹配特征点的方法给出两个图像的相似性的一个度量。这种方法的缺点在于，文档图像的特征点不如自然图像的特征显著，匹配结果难以达到预期目标，并且计算效率也不够高。

发明内容

针对现有技术中存在的缺陷，本发明的目的是提供一种局部文档图像的比对方法及系统，提高文档图像的比对效果和效率。

为达到以上目的，本发明采用的技术方案是：一种局部文档图像的比对方法，包括以下步骤：

（1）将待比对文档图像中的每个字符划分为m×n个区块，m和n均为正整数；

（2）计算每个区块的二值分布特征；所述的二值分布特征是指二值图像中黑像素的分布特征；

（3）将每个区块的二值分布特征进行组合，得到每个字符的组合分布，并将每个字符的组合分布进行组合，得到文档图像的组合分布；

（4）计算待比对文档图像的组合分布之间的距离，根据该距离判断待比对文档图像之间的相似度。

进一步，如上所述的一种局部文档图像的比对方法，步骤（1）中，将待比对文档图像上的每个字符划分为m×n个区块的具体方式包括以下步骤：

1）将文档图像进行二值化处理，得到二值化图像；

2）判断该二值化图像中是否只有单行文本，若是则进入步骤3），若否则对该二值化图像进行成行处理；

3）将该二值化图像中的每行文本进行字符拆分；

4）将拆分得到的每个字符都划分为m×n个区块。

进一步，如上所述的一种局部文档图像的比对方法，步骤（2）中，计算每个区块的二值分布特征的具体方式包括以下步骤：

a)获取每个区块的单像素边界图像;

b)计算所述单像素边界图像上每个像素点的邻域编码；

c)根据每个像素点的邻域编码，构建区块统计直方图，得到区块的二值分布特征。

进一步，如上所述的一种局部文档图像的比对方法，步骤b)中，计算单像素边界图像上每个像素点的邻域编码的具体步骤包括：

i）获取单像素边界图像上每个像素点的设定个数的邻域；

ii）根据设定的顺序对所述邻域按照十进制数进行排列，该十进制数为每个像素点的邻域编码。

进一步，如上所述的一种局部文档图像的比对方法，步骤i）中，获取每个像素点的设定个数的邻域时，根据每个邻域对应的像素值对邻域进行标记，标记的具体方式为：判断每个邻域对应的像素值是否为0，若是则将该邻域标记为二进制数1，若否则将该邻域标记为二进制数0。

进一步，如上所述的一种局部文档图像的比对方法，步骤（1）中，m和n的取值范围是：1≤m≤4，1≤n≤4。

进一步，如上所述的一种局部文档图像的比对方法，步骤（3）中，将每个区块的二值分布特征进行组合时，待比对文档图像按照相同的组合顺序进行组合。

再进一步，如上所述的一种局部文档图像的比对方法，步骤（3）中，将每个区块的二值分布特征进行组合的具体方式包括：对于每个字符，将每个区块的二值分布特征按照从左到右、从上到下的顺序进行组合；对于每行文字，将该行的每个字符的二值分布特征按照从左到右的顺序进行组合。

更进一步，如上所述的一种局部文档图像的比对方法，步骤（4）中，所述的距离是指欧氏距离或直方图距离。

一种局部文档图像的比对系统，包括：

区块划分模块，用于将待比对文档图像上的每个字符划分为m×n个区块，其中，m和n均为正整数；

二值分布特征计算模块，用于计算每个区块的二值分布特征；所述的二值分布特征是指二值图像中黑像素的分布特征；

组合分布获取模块，用于将每个区块的二值分布特征进行组合，得到每个字符的组合分布，并将每个字符的组合分布进行组合，得到文档图像的组合分布；

相似度判断模块，计算待比对文档图像的组合分布之间的距离，根据该距离判断待比对文档图像之间的相似度。

进一步，如上所述的一种局部文档图像的比对系统，所述的区块划分模块包括：

二值化单元，用于将文档图像进行二值化处理，得到二值化图像；

成行单元，用于判断该二值化图像中是否只有单行文本，若是则进入字符拆分单元，若否则对该二值化图像进行成行处理；

字符拆分单元，用于将该二值化图像中的每行文本都按字符进行拆分；

区块划分单元，用于将拆分得到的每个字符都划分为m×n个区块。

再进一步，如上所述的一种局部文档图像的比对系统，所述的二值分布特征计算模块包括：

边界图像获取单元，用于获取每个区块的单像素边界图像;

邻域编码计算单元，用于计算单像素边界图像上每个像素点的邻域编码；

直方图构建单元，用于根据每个像素点的邻域编码的统计直方图，构建每个所述区块的二值分布特征。

本发明的效果在于：本发明所述的方法及系统，通过将待比对文档图像上的每个字符划分区块，计算每个区块的二值分布特征后按顺序组合得到对应的组合分布，再计算各个组合分布之间的距离，据此判断文档图像之间的相似度，这样既可以较快速地对文档图像进行比对，且不依赖OCR识别结果，能达到较好的比对效果，提高了比对效率。

附图说明

图1是具体实施方式中一种局部文档图像的比对系统的结构图；

图2是具体实施方式中一种局部文档图像的比对方法的流程图；

图3是实施例中待比对文档图像；

图4是图3经过成行处理的图像；

图5是图4经过字符拆分的图像；

图6是图5中“现”字左上角区块的单像素边界图像；

图7是图6中任一像素的邻域位置标记示意图；

图8是图6的邻域编码的统计直方图；

图9是图5中所有字符的邻域编码的组合分布图；

图10为实施例中的待比对文档图像；

图11为图10中所有字符的邻域编码组合分布图。

具体实施方式

下面结合说明书附图和具体实施方式对本发明作进一步描述。

图1示出了本发明具体实施方式中一种局部文档图像比对系统，该系统主要包括区块划分模块11、二值分布特征计算模块12、组合分布获取模块13和相似度判断模块14。

区块划分模块11用于将待比对文档图像上的每个字符划分为m×n个区块，其中，m和n均为正整数；本实施方式中m和n的取值范围是：1≤m≤4，1≤n≤4，优选的m=2，n=2。该模块包括：

二值分布特征计算模块12用于计算每个区块的二值分布特征；该模块包括：

边界图像获取单元，用于获取每个区块的单像素边界图像;

直方图构建单元，用于根据每个像素点的邻域编码，构建每个所述区块的邻域编码的统计直方图。

组合分布获取模块13用于将每个区块的二值分布特征进行组合，得到每个字符的组合分布，并将每个字符的组合分布进行组合，得到文档图像的组合分布；

相似度判断模块14用于计算待比对文档图像对应的组合分布之间的距离，根据该距离判断文档图像之间的相似度。

图2示出了基于图1中所示局部文档的比对系统的一种局部文档图像比对方法的流程图，该方法具体包括以下步骤：

步骤S21：将待比对文档图像上的每个字符划分为m×n个区块；

将待比对文档图像上的每个字符划分为m×n个区块，其中，m和n均为正整数，本实施方式中m和n的取值范围是1≤m≤4，1≤n≤4，优选的m=2，n=2。待比对文档图像至少包括两个需要比对的文档图像，也可以是多个需要进行比对的文档图像。

具体的，本实施方式中将待比对文档图像上的每个字符划分为m×n个区块的过程包括以下步骤：

1）将文档图像进行二值化处理，得到二值化图像；若输入图像为二值化图像，则不需要该步骤。

2）判断该二值化图像中是否只有单行文本，若是则执行步骤3），若否则对该二值化图像进行成行处理；

3）将该二值化图像中的每行文本进行字符拆分；即将每行文本都拆分成独立的单个字符，每个字符占据一个矩形空间；

4）将拆分得到的每个字符都划分为m×n个区块，优选的m=2，n=2时，即将每个字符在水平和垂直方向上进行等分。

步骤S22：计算每个区块的二值分布特征；

本实施方式中选用统计直方图来表现每个区块的二值分布特征，计算每个区块的二值分布特征的过程包括以下步骤：

a)获取每个区块的单像素边界图像;

b)计算单像素边界图像上每个像素点的邻域编码；该步骤进一步包括：

i）获取单像素边界图像上每个像素点的设定个数的邻域；在获取每个像素点的设定个数的邻域时，根据每个邻域对应的像素值对邻域进行标记，标记的具体方式为：判断每个邻域对应的像素值是否为0即为黑色，若是则将该邻域标记为二进制数1，若否则将该邻域标记为二进制数0；本实施方式中优选的设定个数的邻域为8邻域；

ii）根据设定的顺序对所述邻域按照十进制数进行排列，该十进制数为每个像素点的邻域编码；

c)根据每个像素点的邻域编码，构建每个区块的邻域编码的统计直方图，得到区块的二值化特征。

由于边界图为单像素边界，对于大多数像素而言，每个像素点的设定个数（假设个数为a）的邻域中只有为数不多（假设个数为b）的位置被标记为二进制数1，因此，对每个区块中所有像素点的邻域编码进行统计时，邻域编码统计直方图柱的数目可以设定为对于本实施方式中，优选的a=8，由于边界图为单像素边界图像，8邻域中最多只有2个位置对应的二进制数为1（为黑像素），因此，每个区块的邻域编码统计直方图柱的数目为

其中，构建邻域编码直方图的方法为现有技术，构建的大致方法为：当采用8邻域编码时，每个像素对应的编码的取值范围为[0,255]，但是由于本实施例中为单像素边界图，编码可能的取值为28个，统计区块内编码的直方图分布即得到邻域编码的统计直方图。统计直方图的横坐标为编码值的索引[0,27]，纵坐标为该编码值在区块内出现的次数。对于每个像素编码值代表了该像素点的邻域像素分布特征，而直方图则反映了像素分布特征的统计信息。

步骤S23：将每个区块的二值分布特征进行组合，得到文档图像的组合分布；

将每个区块的二值分布特征进行组合，得到每个字符的组合分布，并将每个字符的组合分布进行组合，得到文档图像的组合分布。其中，在进行每个区块的二值分布特征的组合或者每个字符的组合特征的组合时，组合的顺序可以根据具体情况做不同的设定，但需保证各个待比对文档图像采用一致的组合顺序。本实施方式中，将步骤S22中每个字符对应的各区块的统计直方图组合得到字符的组合分布，再将各字符的组合分布组合得到整个文档的组合分布。

具体的，本实施方式中将每个区块的二值分布特征进行组合的具体方式包括：对于每个字符，将每个区块的二值分布特征按照从左到右、从上到下的顺序进行组合；对于每行文字，将该行的每个字符的二值分布特征按照从左到右的顺序进行组合。

步骤S24：计算文档图像的组合分布之间的距离，判断文档图像之间的相似度。

计算待比对文档图像的组合分布之间的距离，根据该距离判断文档图像之间的相似度。距离越大相似度越低。

具体的，所述的距离是指欧氏距离或直方图距离，例如巴氏距离。为了突出特定方向对距离比较的影响，可以对统计直方图不同的柱进行加权操作。欧式距离和直方图距离是常用的度量2个向量的距离的方法，为现有的距离计算方法，如果待比对的两幅图像待比较字数不同时，两幅图像肯定不相似，距离可以直接设为无穷大。

为了更好的理解本发明所述的方法及系统，下面结合图3-图9给出一个实施例对本发明进行进一步的介绍。

实施例

本实施例中的待比对文档图像如图3和图10所示，为了描述方便，将图3中的图像记为待比对图像，图10为输入图像。

第一步，将待比对文档图像上的每个字符划分为m×n个区块；

首先，对图3和图10中的待比对图像和输入图像分别进行字符的划分。本实施例中给出的图像是两幅幅已经过二值化处理的二值图像，并且经过判断，该文档图像中的文本为单行文本，如图4所示，无需再经成行处理；然后将该行文字进行字符拆分，得到四个字符，如图5所示；再将拆分得到的每个字符都划分为m×n个区块，此处选择m=n=2，即将每个字在水平和垂直方向上进行等分，划分成2×2=4个区块。

第二步，计算每个区块的二值分布特征；

计算两幅图像中每个字符的每个区块的二值分布特征，本实施例中二值分布特征以统计直方图表征。以图3中“现”字左上角区块为例，该区块的单像素边界图像如图6所示；计算该单像素边界图像上每个像素点的邻域编码；对于边界图像上的每个像素点，获取其周围的8个邻域，分别标记为0-7，每个邻域对应于一个二进制数（0或1），如图7所示。判断每个邻域对应的像素值是否为0，若是则将该邻域标记为二进制数1，若否则将该邻域标记为二进制数0，然后将邻域0-7的已经标记的这些二进制数按照从左到右的顺序依次排列，成为一个二进制数序列，再将该序列转化为十进制数，该十进制数即为该像素对应的领域编码。

接下来构建每个像素点的8邻域的统计直方图，根据每个像素点的8邻域的统计直方图得到每个区块的邻域编码的统计直方图，由于获取的是单像素边界图像，而根据文档图像处理的经验，对于大多数像素而言，8领域中只有2个位置对应的像素值为0，即标记的二进制数为1，因此上述二进制数序列只可能有种排列方式，即最多有28个不同的邻域编码，编码统的计直方图柱的数目为28。最终得到“现”字左上角区块的邻域编码的统计直方图如图8所示。其中，图8中统计直方图的横坐标为编码值的索引[0,27]，纵坐标为该编码值在区块内出现的次数。

第三步，将每个区块的统计直方图按照左上、右上、左下、右下的顺序进行组合，先得到每个字符的组合分布，再将每个字符的组合分布按照从左到右的顺序进行组合，得到文档图像的组合分布。本实施例中的待比对文档图像的组合分布直方图圆柱的数目为28*4*4=448个，图3中文档图像的最终得到的组合分布如图9所示，图10中文档图像的组合分布如图11所示。图9和图11中所示的组合分布的统计直方图的横坐标为编码值的索引[0,447]，纵坐标为该编码值在文档图像内出现的次数.

第四步，计算待比对文档图像的组合分布之间的距离。根据该距离判断文档图像之间的相似度。本实施例中计算图9和图11中所示出的组合分布之间的欧式距离，该距离越大，相似度越低。

通过本实施例可以看出，采用本发明所述的方法及系统，通过将待比对文档图像上的每个字符划分区块，计算每个区块的二值分布特征后按顺序组合得到对应的组合分布，再计算各个组合分布之间的距离，据此判断文档图像之间的相似度，这样既可以较快速地对文档图像进行比对，且不依赖OCR识别结果，能达到较好的比对效果。

本领域技术人员应该明白，本发明所述的方法并不限于具体实施方式中所述的实施例，上面的具体描述只是为了解释本发明的目的，并非用于限制本发明。本领域技术人员根据本发明的技术方案得出其他的实施方式，同样属于本发明的技术创新范围。

Claims

1.一种局部文档图像的比对方法，包括以下步骤：

2.如权利要求1所述的一种局部文档图像的比对方法，其特征在于，步骤（1）中，将待比对文档图像上的每个字符划分为m×n个区块的具体方式包括以下步骤：

1）将文档图像进行二值化处理，得到二值化图像；

3）将该二值化图像中的每行文本进行字符拆分；

4）将拆分得到的每个字符都划分为m×n个区块。

3.如权利要求2所述的一种局部文档图像的比对方法，其特征在于，步骤（2）中，计算每个区块的二值分布特征的具体方式包括以下步骤：

a)获取每个区块的单像素边界图像;

b)计算所述单像素边界图像上每个像素点的邻域编码；

c)根据每个像素点的邻域编码，构建区块的邻域编码的统计直方图，得到区块的二值分布特征。

4.如权利要求3所述的一种局部文档图像的比对方法，其特征在于，步骤b)中，计算单像素边界图像上每个像素点的邻域编码的具体步骤包括：

i）获取单像素边界图像上每个像素点的设定个数的邻域；

5.如权利要求4所述的一种局部文档图像的比对方法，其特征在于，步骤i）中，获取每个像素点的设定个数的邻域时，根据每个邻域对应的像素值对邻域进行标记，标记的具体方式为：判断每个邻域对应的像素值是否为0，若是则将该邻域标记为二进制数1，若否则将该邻域标记为二进制数0。

6.如权利要求1至5任一所述的一种局部文档图像比对方法，其特征在于，步骤（1）中，m和n的取值范围是：1≤m≤4，1≤n≤4。

7.如权利要求1至5任一所述的一种局部文档图像的比对方法，其特征在于，步骤（3）中，将每个区块的二值分布特征进行组合时，待比对文档图像按照相同的组合顺序进行组合。

8.如权利要求7所述的一种局部文档图像的比对方法，其特征在于，步骤（3）中，将每个区块的二值分布特征进行组合的具体方式包括：对于每个字符，将每个区块的二值分布特征按照从左到右、从上到下的顺序进行组合；对于每行文字，将该行的每个字符的二值分布特征按照从左到右的顺序进行组合。

9.如权利要求1至5任一所述的一种局部文档图像的比对方法，其特征在于，步骤（4）中，所述的距离是指欧氏距离或直方图距离。

10.一种局部文档图像的比对系统，包括：

11.如权利要求10所述的一种局部文档图像的比对系统，其特征在于，所述的区块划分模块包括：

12.如权利要求10或11所述的一种局部文档图像的比对系统，其特征在于，所述的二值分布特征计算模块包括：

边界图像获取单元，用于获取每个区块的单像素边界图像;

直方图构建单元，用于根据每个像素点的邻域编码，构建每个所述区块的邻域编码的统计直方图，得到区块的二值分布特征。