CN103440472B

CN103440472B - 一种文字图像特征差异的快速计算方法

Info

Publication number: CN103440472B
Application number: CN201310331596.9A
Authority: CN
Inventors: 宋永红; 张元林; 雍旭东; 孟泉; 刘跃虎; 陈晓
Original assignee: Xian Jiaotong University
Current assignee: Xuzhou Guolong Electric Power Parts Foundry Co.,Ltd.
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2016-08-10
Anticipated expiration: 2033-08-01
Also published as: CN103440472A

Abstract

本发明公开了一种文字图像特征差异的快速计算方法，首先基于几何形状特征的多样性，采用前景像素个数、文字大小、长宽比和占空比四个特征对差异较大的文字对进行初步筛选，这样从整体上对各种文字进行有效描述，同时减少图像失真带来的负面影响；在初步筛选之后，对剩下的配对进行精细特征描述，并采用修正的模板匹配方法，该方法通过在图像中滑动给定模板获取与模板相匹配的目标。经过粗特征筛选进入到精细模板匹配的文字块，彼此的大小差异受到粗特征中文字大小的制约，从而大大降低了匹配过程中的比较次数。进一步，提出了一种查找表联合位存储的加速方法，该方法根据相似性度量特点，通过预先建立文字块与数据的对应关系实现了性能提升。

Description

一种文字图像特征差异的快速计算方法

技术领域

本发明属于计算机视觉和图像处理领域，涉及一种文字图像特征差异的快速计算方法。

背景技术

现有技术中针对大数据量特征的相似性度量方法，主要有以下几个方面：

1）基于小波变换和相似性度量的视频文字识别，计算机工程与设计，2008，杨强，程玉昆，马森。

该方法的处理对象为视频中的字幕，主要研究视频中字幕的提取与识别，用相似性度量的方法来识别视频字幕。首先对待匹配的字符图像和模板库中的字符图像分别作N级分解，并保留各级分解后的低频部分，接着用误差累加式粗略查找可能匹配的视频字符，重复上面的步骤直到找到误差最小的前10个字符，最后分别计算这10个字符的相关度，求得相关度最大的字符为所要匹配字符。

2）基于二叉树相似性检测的变形文字识别研究.计算机工程与应用,2005，叶庆卫,汪同庆。

该方法处理对象为艺术字，主要研究文字的变形处理不会改变文字内在的框架情况下的识别。首先利用最小生成树获得文字图像所对应的树型结构，然后约简非分叉节点，应用无序无标签二叉树之间的相似测度计算方法，与原文字图像所对应的约简树进行相关度分析，得到相似性度量结果。

3)Text image matching without language model using a Hausdorff distance.Information Processing&Management.Toni M.Rath and R.Manmatha

该方法主要用于文字图像的检索，模板图像为目标图像的一个部分。首先对目标图像和模板图像进行归一化，然后分别提取它们的特征，得到特征向量，最后运用Hausdorff的距离度量方法从目标图像中检索到模板图像。

4)Word image matching using dynamic time warping.CVPR2003.Hwa-Jeong Son,Soo-Hyung Kim,Ji-Soo Kim

该方法主要是处理手写的扫描历史原稿，运用Dynamic TimeWarping(DTW)算法进行模板匹配，得到需要查找的文字。

虽然现有方法提出了许多相似性度量的方法，但没有针对大量扫描文字图像之间的相似性度量。

发明内容

本发明解决的问题在于提供一种文字图像特征差异的快速计算方法，大量扫描文字图像之间相似性，并通过查找表联合位存储的加速算法来进行快速计算。

本发明是通过以下技术方案来实现：

一种文字图像特征差异的快速计算方法，包括以下操作：

1）对于待比较的指定文字图像块和候选文字图像块，分别提取其前景像素个数、文字大小、长宽比和占空比四个特征，比较提取的四个特征后进行初步筛选，剔除一部分差异显著的文字配对；

2）对剩下的部分采用模板匹配方法得到归一化匹配值，所述的模板匹配方法包括以下步骤：

首先从待比较的指定文字图像块和候选文字图像块中选择大小参数较小的部分作为模板的组成部分；

在获取模板后，按照匹配过程在模板移动中寻找最优匹配位置，并对判定为非模板的文字图像块在边界处加入一个像素的扩展；

模板在文字图像块中的每个位置都会得到一个匹配结果；对文字图像对中匹配的前景像素总数进行统计，在文字图像块比较中，如果模板与文字图像块对应前景像素匹配总数最大，则认为该位置为最优匹配位置，将不同文字图像块间的匹配结果直接归一化；两个文字图像块越相似，则匹配数目就会越多，对应未匹配数目就会越少；

3）完成文字图像块的特征提取后，通过这些特征度量文字图像块的相似性，构建相似性矩阵。

所述的四个特征的提取方法为：

前景像素个数，前景像素反映文字图像文字块的点阵分布，对于不同字号以及不同字形，前景像素的个数不同；

文字大小，文字的长度和宽度是对文字大小最直接的刻画，如果两个文字在长度或者宽度上差异明显，则直接将其滤除；

长宽比，长宽比从整体上对文字形状进行刻画；

占空比，占空比描述文字内部形状，为在二维图像中定义为前景像素在文字块中所占的比例，基于前景像素总数及文字大小，占空比通过下式得到：

D_rat=S/(W×H)

其中，S为前景像素总数，W为文字图像块的宽度，H为文字图像块的高度。

所述通过占空比对相同语种下占空比差异较大的文字对进行剔除，同时也保证了对多语种文字对的可区分性。

所述剔除一部分差异显著的文字配对的方法为：

对于待比较的两个文字图像块，分别提取二者的前景像素个数、文字大小、长宽比以及占空比四个特征，选取数值较小的描述子作为1，较大的描述子作为2，并通过式（3）中的判断条件决定两个文字图像块是否存在较大差异；如果条件满足，则认为差异较大，将该文字图像对的相似性值赋为0，反之，将其采用模板匹配方法进行处理；

|W₁-W₂|≥5∪|H₁-H₂|≥5

∪(S₁/S₂<thr)

∪(A_rat1/A_rat2<thr)

∪(D_rat1/D_rat2<thr) （3）

其中，H₁和W₁、H₂和W₂、S₁和S₂、A_rat1和A_rat2、D_rat1和D_rat2分别为指定文字图像块和候选文字图像块高度、宽度、前景像素总数、长宽比、及占空比，thr为设定的阈值。

所述的阈值thr设定为0.5。

所述的模板的选择为：

设定H₁和W₁、H₂和W₂分别为文字图像Part1和文字图像Part2的高度和宽度，则比较模板选择判定如下：

其中，当Part1的宽高同时小于Part2时，则认为Part1为模板；当Part1的宽高同时大于Part2时，则认为Part2为模板；当Part1的高小于Part2而宽大于Part2时，则选取Part1的垂直部分以及Part2的水平部分作为模板；当Part1的高大于Part2而宽小于Part2时，则选取Part2的垂直部分以及Part1的水平部分作为模板。

所述对文字图像对中匹配的前景像素总数进行统计的方法为：

首先将待比较的文字图像块采用文字图像块每行像素按位存储的方式处理，将对应位置的像素值用二进制数值显示，存入到整型数据类型中；

然后选取不同位置下的文字图像块同模板进行比较，通过移位和按位与操作得到每个像素行的匹配结果，统计二进制结果中对应为1的个数；通查找表建立十进制数和二进制数的对应关系；

对于64位长的数据，首先建立从0～(2¹⁶-1)范围内各个十进制数对应二进制数包含1的总数的查找表；然后对文字图像块进行判断，如果宽度均小于16个像素，则直接将每个像素行按位与的结果输入查找表，得到对应的1的总数；如果宽度均小于32个像素，则分别输出按位与之后低16位和向右移动16位的查表结果之和；如果宽度均小于48个像素，则还在前者基础上加入向右移动32位的查表结果；如果宽度均小于64为像素，则再加入向右移动48位的查表结果；反之，对于宽度大于64个像素的文字块则按照像素级比较来计算前景像素总数；

通过以上操作，不同大小的文字图像对按照对应的方式得到匹配的前景像素点数。

具体采用64位的Long Long型作为像素行的存储数据类型。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的文字图像特征差异的快速计算方法，首先基于几何形状特征的多样性，采用前景像素个数、文字大小、长宽比和占空比四个特征对差异较大的文字对进行初步筛选，这样从整体上对各种文字进行有效描述，同时减少图像失真带来的负面影响；在初步筛选之后，对剩下的配对进行精细特征描述，并采用修正的模板匹配方法，该方法通过在图像中滑动给定模板获取与模板相匹配的目标。经过粗特征筛选进入到精细模板匹配的文字块，彼此的大小差异受到粗特征中文字大小的制约，从而大大降低了匹配过程中的比较次数。

进一步，为了减少构建相似性矩阵的耗时，提出了一种查找表联合位存储的加速方法，该方法根据相似性度量特点，通过预先建立文字块与数据的对应关系实现了性能提升。

为了描述本发明的效果，首先建立了一个包含四种语言的测试集，即汉语、英语、日语和这三种语言的混合，对他们分别进行50dpi和75dpi的扫描。总共80张测试图像，其中每张图像中包含约1000个文字，并运用查全率查准率和F值对该发明的效果进行衡量。结果表明本发明计算一个字符和其他字符之间的相似度只需要0.001s，而且查全率和查准率都在80%以上。

附图说明

图1为文本图像的特征提取与相似性度量流程示意图；

图2-1～图2-2为模板选择示意图（中间区域为模板，灰色区域为文字块），其中图2-1为宽高均比较小，图2-2为宽高差异不同的比较；

图3为加入边界信息的模板匹配示意图；

图4为查找表联合位存储的加速策略示意图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

本发明提供的文字图像特征差异的快速计算方法，为了定义文字图像块间的匹配关系并且减少时间消耗，逐步求精策略被采用：先提取文字块的四个粗特征进行初步筛选，然后采用修正的模板匹配方法得到归一化匹配值，并利用查找表联合位存储的加速策略提高构建相似性矩阵的时间性能。

基于几何形状特征的多样性，为了从整体上对各种文字进行有效描述，同时减少图像失真带来的负面影响，本方法选取前景像素个数、文字大小、长宽比和占空比四个特征对差异较大的文字对进行初步筛选。对剩下的配对进行精细特征描述，并根据文字的刚体特性设计了一种修正的模板匹配方法。该方法通过在图像中滑动给定模板获取与模板相匹配的目标。经过粗特征筛选进入到精细模板匹配的文字块，彼此的大小差异受到粗特征中文字大小的制约，从而大大降低了匹配过程中的比较次数。为了减少构建相似性矩阵的耗时，提出了一种查找表联合位存储的加速算法，该算法根据相似性度量特点，通过预先建立文字块与数据的对应关系实现了算法性能提升。

参见图1，具体包括以下操作：

下面对各个步骤进行具体的说明。

1、基于粗特征的初步筛选

基于几何形状特征的多样性，为了从整体上对各种文字进行有效描述，同时减少图像失真带来的负面影响，本方法选取前景像素个数、文字大小、长宽比和占空比四个特征对差异较大的文字对进行初步筛选。

1）像素个数：前景像素反映分割所得文字块的点阵分布，对于不同字号以及不同字形，前景像素的个数不同。该特征能从整体上描述文字前景，有效区分像素总数差异较大的文字对，但不能反映不同文字的形状，因此，文字长度和宽度被作为第二个粗特征，从整体上对文字大小刻画。

2）文字大小：文字的长度和宽度是对文字大小最直接的刻画，如果两个文字在长度或者宽度上存在较大差异，则可以直接将其滤除。

3）长宽比：长宽比能从整体上对文字形状进行刻画，它对文字缩放不敏感，因此有别于文字的宽度和高度特征。该特征对英文单词之间的区分能力较强，也可以用于去除少量形状差异较大的中日文文字对。

4）占空比：占空比在二维图像中定义为前景像素在文字块中所占的比例，主要描述文字内部形状，基于之前得到的像素总数及文字大小，占空比可以通过公式（1）得到。该特征可以有效地对相同语种下占空比差异较大的文字对进行剔除，同时也保证了该特征对多语种文字对的可区分性。

D_rat=S/(W×H) （1）

经过以上步骤，可以得到每个文字块对应的四个几何形状粗特征，通过对每个文字对进行粗分类，将差异较大的配对直接剔除。

具体地，对于待比较的两个文字块，分别提取二者的文字大小、前景像素个数、长宽比以及占空比等特征，为了方便归一化，选取数值较小的描述子作为1，较大的描述子作为2，并通过公式（3）中的判断条件决定两个文字块是否存在较大差异。如果条件满足，则认为差异较大，将该文字对的相似性值赋为0，反之，将其输入到后续的模板匹配进行精细处理。

|W₁-W₂|≥5∪|H₁-H₂|≥5

∪(S₁/S₂<thr)

∪(A_rat1/A_rat2<thr) （3）

∪(D_rat1/D_rat2<thr)

其中，H₁和W₁、H₂和W₂、S₁和S₂、A_rat1和A_rat2、D_rat1和D_rat2分别为指定文字图像块和候选文字图像块高度、宽度、前景像素总数、长宽比、及占空比，thr为设定的阈值；

为了保证筛选过程的查全率，使得相似的文字块得到较好保留，同时滤除差异较大的文字，本文选取了较小的阈值thr，并通过大量实验进行权衡，将其数值设定为0.5。

2、模板匹配

对粗分类剩下的配对进行精细特征描述，并根据文字的刚体特性设计了一种修正的模板匹配方法。

模板匹配通过在图像中滑动给定模板获取与模板相匹配的目标。经过粗特征筛选进入到精细模板匹配的文字块，彼此的大小差异受到粗特征中文字大小的制约，从而大大降低了匹配过程中的比较次数。对于刚性的文字块，修正的模板匹配包含以下三个步骤：

1）选取比较模板

对于两张输入图像分割得到的文字对，其长宽往往存在差异，为了保证二者中较小部分作为模板，按照长宽差异可以将整体分为四类。设定H₁和W₁、H₂和W₂分别为文字对中文字Part1和文字Part2的高度和宽度，则模板选择判定如下：

其中，当Part1的宽高同时小于Part2时，则认为Part1为模板；当Part1的宽高同时大于Part2时，则认为Part2为模板；当Part1的高小于Part2而宽大于Part2时，则选取Part1的垂直部分以及Part2的水平部分作为模板；当Part1的高大于Part2而宽小于Part2时，则选取Part2的垂直部分以及Part1的水平部分作为模板。模板选择的示意图如图2-1～图2-2所示。

2）移动模板，加入边界信息

获取到两个文字块对应的模板后，需要按照匹配过程在模板移动中寻找最优匹配位置。对于通过扫描得到的文本图像，字形往往会存在部分失真以及个别像素的缺失，特别是在边界区域。由于一个像素的偏移都会对匹配结果产生较大影响，为了解决这个问题，本文对判定为非模板的图像块在边界处加入了一个像素的扩展，以提高对失真文字的容错性，如图3所示。

3）计算匹配结果

由于比较是基于像素级计算量比较大。本方法设计了一种借助前景信息表现匹配度方法。具体地，在文字块比较中，如果模板与图像块对应前景像素匹配总数最大，则认为该位置为最优匹配位置，将不同文字块间的匹配结果直接归一化。两个文字块越相似，则匹配数目就会越多，对应未匹配数目就会越少，使得相似性更高；反之，相似性会更小。

经过粗特征的筛选，四类特征相似的文字块需要按照修正模板匹配方法进行精细的相似性度量。但由于传统的匹配过程都是基于像素级的比较，每个像素被视为一个维度的特征，如果文字块比较大，特征数将明显增加；同时，虽然初步筛选滤除了大量文字块，但剩余的文字对数目和匹配过程所对应的计算量依然很大。因此，为了进一步减少构建相似性矩阵的耗时，本文提出了一种查找表联合位存储的加速策略。

在修正的模板匹配过程中，最重要的步骤是对文字对中匹配的前景像素总数进行统计。如果使用最原始的策略，对每个点的像素值进行单独存储，那么一方面浪费空间，另一方面会增加计算量。例如，如果一个文字对中模板的大小为Tw×Th，图像块的大小为Pw×Ph，则像素的比较次数为(Pw-Tw)(Ph-Th)Tw·Th；如果每个像素值采用一般的整型数据存储，对于只有0和1两种数值的文字块，空间上也是一种浪费。

针对像素级比较速度慢的问题，本方法采用文字块每行像素按位存储的方式处理，将对应位置的像素值用二进制数值显示，存入到整型数据类型中。这样，每次处理的对象是文字块的一行像素，而非单个像素，一方面减小了存储空间，另一方面也利用按位操作提高了计算速度。为了尽可能大的扩展存储范围，并减少不必要的比较，本文选择了折中的策略，采用64位的LongLong型作为像素行的存储数据类型。

为了得到文字对中匹配的前景像素总数，首先将待比较的文字块按照上述方法进行位存储；然后，选取不同位置下的图像块同模板进行比较，通过移位和按位与操作得到每个像素行的匹配结果，统计二进制结果中对应为1的个数。由于数据类型总共包含有64位，为了缩短计算时间，查找表就可以用来建立十进制数和二进制数的对应关系。

对于64位长的数据，首先建立了从0～(2¹⁶-1)范围内各个十进制数对应二进制数包含1的总数的查找表Index[16]；然后对文字块进行判断，如果宽度均小于16个像素，则直接将每个像素行按位与的结果输入查找表，得到对应的1的总数；如果宽度均小于32个像素，则分别输出按位与之后低16位和向右移动16位的查表结果之和；如果宽度均小于48个像素，则还需在前者基础上加入向右移动32位的查表结果；如果宽度均小于64为像素，则需要再加入向右移动48位的查表结果；反之，对于宽度大于64个像素的文字块则按照像素级比较来计算前景像素总数。

通过以上操作，不同大小的文字对按照对应的方式得到匹配的前景像素点数，由于宽度小于64个像素的文字均采用了位存储联合查找表的加速策略，并且对于一般的文本图像，该类文字所占比重较大，因此，该加速方法能够基于修正模板匹配大大地减少相似性度量的耗时，整个加速过程的示意图如图4所示。

3、相似性度量

完成文字图像块的特征提取后，通过这些特征度量文字图像块的相似性，构建相似性矩阵。

为了描述本发明的效果，首先建立了一个包含四种语言的测试集，即汉语、英语、日语和这三种语言的混合，对他们分别进行50dpi和75dpi的扫描。总共80张测试图像，其中每张图像中包含约1000个文字

为了用于量化的数据对该方法的效果进行描述，选定一个字符，判断是否将相似的字符都查找出来。该方法运用查全率查准率和F值对该发明的效果进行衡量。假设所有查找出来的文字块中正确的数目为t,错误的数目为f，漏检的数目为g，则对应的查全率R,查准率P以及F值可以通过下面公式计算得到

R=t/(t+g)

P=t/(t+f)

F=2RP/(R+P)

最终的结果如下表

表1统计结果

查全率	查准率	F值	时间
				80.61%	84.73%	0.8261	0.001s

其中时间为选定一个字符，对其它所有字符计算和这个选定字符之间相似度的时间。

从上表的结果可以看出计算一个字符和其他字符之间的相似度只需要0.001s，而且查全率和查准率都在80%以上。

Claims

1.一种文字图像特征差异的快速计算方法，其特征在于，包括以下操作：

1)对于待比较的指定文字图像块和候选文字图像块，分别提取其前景像素个数、文字大小、长宽比和占空比四个特征，比较提取的四个特征后进行初步筛选，剔除一部分差异显著的文字配对；

2)对剩下的部分采用模板匹配方法得到归一化匹配值，所述的模板匹配方法包括以下步骤：

3)完成文字图像块的特征提取后，通过这些特征度量文字图像块的相似性，构建相似性矩阵；

所述的模板的选择为：

设定H₁和W₁、H₂和W₂分别为指定文字图像块Part1和候选文字图像块Part2的高度和宽度，则比较模板选择判定如下：

2.如权利要求1所述的文字图像特征差异的快速计算方法，其特征在于，所述的四个特征的提取方法为：

长宽比，长宽比从整体上对文字形状进行刻画；

D_rat＝S/(W×H)

3.如权利要求1或2所述的文字图像特征差异的快速计算方法，其特征在于，通过占空比对相同语种下占空比差异较大的文字对进行剔除，同时也保证了对多语种文字对的可区分性。

4.如权利要求1所述的文字图像特征差异的快速计算方法，其特征在于，所述剔除一部分差异显著的文字配对的方法为：

对于待比较的两个文字图像块，分别提取二者的前景像素个数、文字大小、长宽比以及占空比四个特征，选取数值较小的描述子作为1，较大的描述子作为2，并通过式(3)中的判断条件决定两个文字图像块是否存在较大差异；如果条件满足，则认为差异较大，将该文字图像对的相似性值赋为0，反之，将其采用模板匹配方法进行处理；

|W₁-W₂|≥5∪|H₁-H₂|≥5

∪(S₁/S₂<thr)

∪(A_rat1/A_rat2<thr)

∪(D_rat1/D_rat2<thr) (3)

其中，H₁和W₁、H₂和W₂、S₁和S₂、A_rat1和A_rat₂、D_rat1和D_rat2分别为指定文字图像块和候选文字图像块高度、宽度、前景像素总数、长宽比、及占空比，thr为设定的阈值。

5.如权利要求4所述的文字图像特征差异的快速计算方法，其特征在于，所述的阈值thr设定为0.5。

6.如权利要求1所述的文字图像特征差异的快速计算方法，其特征在于，对文字图像对中匹配的前景像素总数进行统计的方法为：

然后选取不同位置下的文字图像块同模板进行比较，通过移位和按位与操作得到每个像素行的匹配结果，统计二进制结果中对应为1的个数；通过查找表建立十进制数和二进制数的对应关系；

7.如权利要求6所述的文字图像特征差异的快速计算方法，其特征在于，采用64位的Long Long型作为像素行的存储数据类型。