CN103473545B

CN103473545B - 一种基于多特征的文本图像相似度度量方法

Info

Publication number: CN103473545B
Application number: CN201310332513.8A
Authority: CN
Inventors: 宋永红; 张元林; 孟泉; 雍旭东; 刘跃虎; 陈晓
Original assignee: Xian Jiaotong University
Current assignee: Xuzhou Guolong Electric Power Parts Foundry Co.,Ltd.
Priority date: 2013-08-01
Filing date: 2013-08-01
Publication date: 2016-06-29
Anticipated expiration: 2033-08-01
Also published as: CN103473545A

Abstract

本发明公开了一种基于多特征的文本图像相似度度量方法，针对一种特征不能完全刻画出文字图像的缺陷，提出了一种结合多特征的高精度文字图像块描述及相似性度量方法，该方法提出了八种不同属性的特征，运用滑动比较和欧氏距离计算特征之间的距离值，最后运用训练的方法对八种特征进行融合计算出相似性值，大大提供了相似性值识别的精度。采用建立包含四种语言的测试集，对本发明的识别效果进行检测，并运用查全率查准率和F值对该发明的效果进行衡量，结果表明本发明的查全率、查准率接近于100%，而F值在0.99以上，结果表明本发明是一种高精度的相似度度量方法。

Description

一种基于多特征的文本图像相似度度量方法

技术领域

本发明属于计算机视觉和图像处理技术领域，涉及一种基于多特征的文本图像相似度度量方法。

背景技术

现有技术中针对大数据量特征的相似性度量方法，主要有以下几个方面：

1)基于小波变换和相似性度量的视频文字识别.计算机工程与设计,2008.杨强，程玉昆，马森。

该方法的处理对象为视频中的字幕，主要研究视频中字幕的提取与识别，用相似性度量的方法来识别视频字幕。首先对待匹配的字符图像和模板库中的字符图像分别作N级分解，并保留各级分解后的低频部分，接着用误差累加式粗略查找可能匹配的视频字符，重复上面的步骤直到找到误差最小的前10个字符，最后分别计算这10个字符的相关度，求得相关度最大的字符为所要匹配字符。

2)基于二叉树相似性检测的变形文字识别研究.计算机工程与应用,2005.叶庆卫,汪同庆。

该方法处理对象为艺术字，主要研究文字的变形处理不会改变文字内在的框架情况下的识别。首先利用最小生成树获得文字图像所对应的树型结构，然后约简非分叉节点，应用无序无标签二叉树之间的相似测度计算方法，与原文字图像所对应的约简树进行相关度分析，得到相似性度量结果。

3)TextimagematchingwithoutlanguagemodelusingaHausdorffdistance.InformationProcessing&Management.ToniM.RathandR.Manmatha

该方法主要用于文字图像的检索，模板图像为目标图像的一个部分。首先对目标图像和模板图像进行归一化，然后分别提取它们的特征，得到特征向量，最后运用Hausdorff的距离度量方法从目标图像中检索到模板图像。

4)Wordimagematchingusingdynamictimewarping.CVPR2003.Hwa-JeongSon,Soo-HyungKim,Ji-SooKim

该方法主要是处理手写的扫描历史原稿，运用DynamicTimeWarping(DTW)算法进行模板匹配，得到需要查找的文字。

以上现有方法都是运用一种独立的特征对要处理的文字图像进行描述，然而一种特征不能完全刻画出文字图像。

发明内容

本发明解决的问题在于提供一种基于多特征的文本图像相似度度量方法，采用多个特征来进行描述并进行了有效的融合，提高了文本图像相似度度量的精度。

本发明是通过以下技术方案来实现：

一种基于多特征的文本图像相似度度量方法，包括以下操作：

1）提取待比较的文本图像的多个特征向量进行描述，所述的特征向量包括水平变化密度，垂直变化密度，上轮廓，下轮廓，水平投影，垂直投影，空间分布和Gabor；

2）采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离，采用滑动比较方法来处理处理具有不同维数的特征向量的特征距离；

3）在得到特征向量的距离值之后，输入为距离值和标定，先应用随机森林训练随机森林分类器，然后训练随机森林回归器；

4）将待比较的文本图像的特征距离输入到训练好的随机森林回归器中，由其输出得到一个相似度值，相似度值越大越表明所比较的文本图像越相似。

所述的特征向量中，各特征向量的描述方法如下：

水平变化密度，一行一行的对文字图像进行扫描，计算水平方向上的从0到1的变化次数；

垂直变化密度，计算垂直方向上从0到1的变化次数；

上轮廓，对文字图像一列一列从上到下进行扫描，第一次遇到黑色像素点后，将下面的点都置成黑色像素；

下轮廓，对文字图像一列一列从下到上进行扫描，第一次遇到黑色像素点后，将上面的点都置成黑色像素；

水平投影，对文字图像一行一行从左到右进行扫描，计算黑色像素个数为当前行的特征值；

垂直投影，对文字图像一列一列从上向下进行扫描，计算黑色像素个数为当前列的特征值；

空间分布，文字图像被归一化到相同的大小，然后使用重叠的高斯加权方法将图像分为N×N的块，使每个块延伸到它的邻域块的中间，每一个块中的像素点个数就为空间分布特征；

Gabor，先通过Gabor滤波将文字图像归一化到相同的大小，从Gabor滤波的结果中提取Gabor特征，每一个滤波图像被分为N×N的重叠块，在每一个块中，分别运用加权高斯函数的正负实部计算直方图特征，作为该图像的Gabor特征。

所述的空间分布特征提取时，使用重叠的高斯加权方法来对图像进行分块，每个区域被延伸到它的邻域中间。

所述的Gabor滤波采用的公式为：

\begin{matrix} h (x, y, λ, φ, σ_{x}, σ_{y}) = \frac{1}{2 π σ_{x} σ_{y}} \exp {- \frac{1}{2} [\frac{R_{1}^{2}}{σ_{x}^{2}} + \frac{R_{2}^{2}}{σ_{y}^{2}}]} \\ \times \exp [i \cdot \frac{2 π R_{1}}{λ}] \end{matrix}

其中：

R₁=xcosφ+ysinφ

R₂=-xsinφ+ycosφ；

Gabor特征获取的公式为：

F_{x, y}^{+} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * \max (0, F_{K} (m, n))

F_{x, y}^{-} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * \min (0, F_{K} (m, n))

其中：G(x,y)=exp(-(x²+y²)/(2τ²))/(2π)F_K是gabor滤波结果的实部。

所述Gabor滤波采用的公式中的参数为：

λ=10

φ = {- \frac{π}{2}, - \frac{π}{4}, 0, \frac{π}{4}}

σ_x=σ_y=5.6。

对于每一个文字图像获得的多个特征向量，在采用滑动比较或欧式距离计算两个文字图像之间每对特征向量的距离，得到多个距离值，每一个距离值表示两个文字图像的特征向量对的距离；

其中，采用欧式距离计算方法来处理空间分布和Gabor特征，其计算公式为：

d (p, q) = \sqrt{{(p_{1} - q_{1})}^{2} + {(p_{2} - q_{2})}^{2} \cdot \cdot \cdot + {(p_{n} - q_{n})}^{2}}

其中p={p₁,p₂,…,p_n}和q={q₁,q₂,…,q_n}是待比较的两个特征向量；

采用滑动比较方法来处理水平变化密度，垂直变化密度，上轮廓，下轮廓，垂直投影和水平投影，其计算公式为：

D_ij=diff(V_i,V_j)

其中diff(V_i,V_j)用来计算向量Vi和Vj之间的距离，将两个向量在-c到c的范围内移动来得到最佳的匹配；若n_i和n_j分别是向量V_i和V_j的维数，V_i=V_i0V_i1V_i2....V_ini-1,V_j=V_j0V_j1V_j2…V_jnj-1；函数diff(V_i,V_j)被定义为：

diff (V_{i}, V_{j}) = \min_{- c \leq k \leq c} (dis \tan ce (U_{i}^{k}, U_{j}^{k}))

其中是两个比较向量U^k _i和U^k _j之间不同元素的个数；向量U^k _i和U^k _j分别从向量V_iandV_j变化而来，并且有着相同的维数n^k _ij

n_{ij}^{k} = \begin{matrix}  \end{matrix} \{\begin{matrix} \max (n_{i} + k, n_{j}) & if & k &GreaterEqual; 0 \\ \max (n_{i}, n_{j} - k) & if & k < 0 \end{matrix}

向量V_i到U^k _i和向量V_j到U^k _j变化函数为

u_{il}^{k} = \{\begin{matrix} v_{il - \max (k, 0)} & if & \max (k, 0) \leq l < \max (k, 0) + n_{i} \\ 0 & otherwise, \end{matrix}

u_{jl}^{k} = \{\begin{matrix} v_{jl - \max (- k, 0)} & if & \max (- k, 0) \leq l < \max (- k, 0) + n_{j} \\ 0 & otherwise, \end{matrix}

最后对距离值用字符大小进行归一化，消除字符大小对距离的影响。

所述在得到特征向量的距离值之后，首先应用随机森林来训练一个随机森林分类器，输入为距离值和标定；所述的标定的值为0或1，其中1表示待比较的文字图像字符对是相同的字符，0正好相反；然后根据随机森林分类器的投票结果得到一个范围在0到1之间的置信度值，来表示这两个字符之间的相似度值；这个相似度值被用来作为随机森林回归器的输入，这个值越大意味着这两个字符越相似。

所述的随机森林分类器、随机森林回归器的训练方法为：

1）人工的标定正样本：选择模板字符之后，以模板字符相同的字符作为标定的正样本对；

2）运用两次选择法自动的选择负样本来得到一个比较好的负样本，其中第一次选择的负样本为negativesamplesI，第二次选择的负样本为negativesamplesII；先设定正负样本之间的比率，对于每一个模板，随机的选择指定数量的和模板不同的字符作为negativesamplesI；然后运用正样本和negativesamplesI训练随机森林回归器；接着对于每一个模板，运用随机森林回归器训练的结果，计算模板和其它所有字符之间的匹配值；对匹配的值进行排序，选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。

与现有技术相比，本发明具有以下有益的技术效果：

本发明提供的基于多特征的文本图像相似度度量方法，针对一种特征不能完全刻画出文字图像的缺陷，提出了一种结合多特征的高精度文字图像块描述及相似性度量方法，该方法提出了八种不同属性的特征，运用滑动比较和欧氏距离计算特征之间的距离值，最后运用训练的方法对八种特征进行融合计算出相似性值，大大提供了相似性值识别的精度。

采用建立包含四种语言的测试集，对本发明的识别效果进行检测，并运用查全率查准率和F值对该发明的效果进行衡量，结果表明本发明的查全率、查准率接近于100%，而F值在0.99以上，结果表明本发明是一种高精度的相似度度量方法。

附图说明

图1为本发明的文本图像相似度度量方法示意图；

图2为字符‘S’和‘V’的水平变化密度和垂直变化密度特征示意图；

图3为上轮廓和下轮廓特征示意图；

图4为噪声影响包围盒示意图；

图5为重叠块示意图；

图6为Gabor滤波后结果示意图；

图7为相似性度量框架图；

图8为训练流程图；

图9为训练数据生成流程图；

图10为相似性计算流程图。

具体实施方式

下面结合具体的实施例对本发明做进一步的详细说明，所述是对本发明的解释而不是限定。

参见图1，本发明提供一种基于多特征的文本图像相似度度量方法，对于一个扫描文字图像提出水平变化密度，垂直变化密度，上轮廓，下轮廓，水平投影，垂直投影，空间分布和Gabor八个特征来进行描述，并且这些特征具有不同的属性。然后运用滑动比较和欧式距离得到特征之间的距离值，最后运用随机森林通过训练的方法对提出的特征进行有效的融合得到两个扫描文字之间的相似性值。在随机森林回归的训练中，对于样本的选择采用两步选择法，大大提高了训练的结果。

具体包括以下步骤：

为了计算两个扫描文字图像之间的相似度，特征描述和相似度计算是两个重要的步骤。在特征描述步骤中本方法运用水平变化密度，垂直变化密度，上轮廓，下轮廓，水平投影，垂直投影，空间分布和Gabor八个特征来描述一个文字。

在相似度计算步骤中本方法首先运用滑动比较和欧氏距离分别计算两个扫描文字图像之间的距离值，然后运用随机森林根据这些距离值计算两个扫描文字图像之间的相似度值。

1、关于特征描述

本方法使用八个特征（水平变化密度，垂直变化密度，上轮廓，下轮廓，水平投影，垂直投影，空间分布和Gabor）来对一个字符进行描述

1）水平变化密度和垂直变化密度

水平变化密度是一个向量，维数和字符高度一样，这个特征一行一行的对字符图像进行扫描，计算水平方向上的从0到1的变化次数。

垂直变化密度和水平变化密度很相似，它计算垂直方向上从0到1的变化次数。

图2展示字符‘S’和‘V’的水平变化密度和垂直变化密度特征。

2）上轮廓和下轮廓

字符的上轮廓和下轮廓表示了一个字符的结构信息。为了计算上轮廓特征，对一个图像一列一列从上到下进行扫描，第一次遇到黑色像素点后，将下面的点都置成黑色像素。下轮廓和上轮廓类似，只是从下向上进行扫描：对文字图像一行一行从左到右进行扫描，计算黑色像素个数为当前行的特征值。图3所示即为上轮廓和下轮廓特征。

3）水平和垂直投影

水平投影特征对图像一行一行从左到右进行扫描，计算黑色像素个数为当前行的特征值，特征的大小和图像的高一样。垂直投影和水平投影特征类似，对图像从上向下扫描：对文字图像一列一列从上向下进行扫描，计算黑色像素个数为当前列的特征值。

4）空间分布

该特征主要用来表示一个字符的空间分布特性。首先，字符图像被归一化到相同的大小。接着将图像分为N*N的块，每一个块中的像素点个数就为空间分布特征。

然而，这个特征对字符的包围盒的精度要求很高。在字符包围盒被噪声影响的情况下，一些像素将被错误的分配到相邻的块中，图4为一个包围盒的示例。

为了减少这些噪声的影响，本方法使用重叠的高斯加权方法来对图像进行分块，而不是机械的根据坐标直接分。换句话来说就是，每个区域被延伸到它的邻域中间，如图5所示，这样就可以减少因为块的划分带来的影响。

5）Gabor

Gabor特征一般用来分析一个图像的纹理特性。它可以结合空间\空间频率，模拟视觉皮层简单细胞的视场。Gabor的公式为

\begin{matrix} h (x, y, λ, φ, σ_{x}, σ_{y}) = \frac{1}{2 π σ_{x} σ_{y}} \exp {- \frac{1}{2} [\frac{R_{1}^{2}}{σ_{x}^{2}} + \frac{R_{2}^{2}}{σ_{y}^{2}}]} \\ \times \exp [i \cdot \frac{2 π R_{1}}{λ}] \end{matrix}

其中：

R₁=xcosφ+ysinφ

R₂=-xsinφ+ycosφ

为了使用这些特征，本方法首先将一个文本字符归一化到相同的大小。Gabor的参数对于结果起着重要的作用。具体将参数设为

λ=10

φ = {- \frac{π}{2}, - \frac{π}{4}, 0, \frac{π}{4}}

σ_x=σ_y=5.6

Gabor滤波之后得到四幅纹理图像，如图6所示，它们和原始图像有着相同的大小

接着，运用直方图方法来从Gabor滤波的结果中提取Gabor特征。就像空间分布特征描述的一样，每一个滤波图像被分为N*N的重叠块。在每一个块中，分别运用加权高斯函数的正负实部计算直方图特征，作为该图像的gabor特征

F_{x, y}^{+} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * \max (0, F_{K} (m, n))

F_{x, y}^{-} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * \min (0, F_{K} (m, n))

2、关于相似性度量

本方法对于每一个字符得到了八个特征向量，这些特征向量具有不同的物理意义和维数。然而需要一个相似度值用来衡量两个字符之间的匹配度。因此，该方法为了有效的结合这八个特征向量。参见图7，首先运用滑动比较和欧式距离计算两个字符之间每对特征向量的距离。通过这一个步骤，得到八个距离值，每一个距离值表示两个字符的特征向量对的距离。最后运用随机森林方法来结合这八个距离值得到两个字符之间的相似度值。

1）距离度量

该方法采用两种策略来分别处理具有相同维数的特征向量（空间分布和Gabor）和具有不同维数的特征向量（水平变化密度，垂直变化密度，上轮廓，下轮廓，垂直投影和水平投影）。

欧式距离对于具有相同维数的特征向量非常有效并且速度很快。它的公式为：

d (p, q) = \sqrt{{(p_{1} - q_{1})}^{2} + {(p_{2} - q_{2})}^{2} \cdot \cdot \cdot + {(p_{n} - q_{n})}^{2}}

其中p={p₁,p₂,…,p_n}和q={q₁,q₂,…,q_n}是待比较的两个特征向量。

滑动比较方法用来精确的计算两个具有不同维数的特征向量，可以消除维数归一化所带来的误差，并且可以分开不同大小的字符。

滑动比较的公式为：

D_ij=diff(V_i,V_j)

其中diff(V_i,V_j)是用来计算向量Vi和Vj之间的距离。将两个向量在-c到c的范围内移动来得到最佳的匹配。设想n_i和n_j分别是向量V_i和V_j的维数，V_i=V_i0V_i1V_i2....V_ini-1,V_j=V_j0V_j1V_j2…V_jnj-1函数diff(V_i,V_j)被定义为：

diff (V_{i}, V_{j}) = \min_{- c \leq k \leq c} (dis \tan ce (U_{i}^{k}, U_{j}^{k}))

其中是两个比较向量U^k _i和U^k _j之间不同元素的个数。向量U^k _i和U^k _j分别从向量V_iandV_j变化而来，并且有着相同的维数n^k _ij

n_{ij}^{k} = \begin{matrix}  \end{matrix} \{\begin{matrix} \max (n_{i} + k, n_{j}) & if & k &GreaterEqual; 0 \\ \max (n_{i}, n_{j} - k) & if & k < 0 \end{matrix}

向量V_i到U^k _i和向量V_j到U^k _j变化函数为

u_{il}^{k} = \{\begin{matrix} v_{il - \max (k, 0)} & if & \max (k, 0) \leq l < \max (k, 0) + n_{i} \\ 0 & otherwise, \end{matrix}

u_{jl}^{k} = \{\begin{matrix} v_{jl - \max (- k, 0)} & if & \max (- k, 0) \leq l < \max (- k, 0) + n_{j} \\ 0 & otherwise, \end{matrix}

为了消除字符大小对距离的影响，最后对距离值用字符大小进行归一化。

2）训练

对回归数据的标定非常困难，也不存在一个主观的准则去衡量两个字符之间的相似度。但是标定两个字符是相同或者不同相对来说比较容易，并且分类结果的置信度可以用来作为回归的标定数据。因此，采用了两步训练的方法来训练随机森林回归器。参见图8，第一步为分类，接着分类的结果被用来作为第二步回归的输入。

对于每一个字符对，得到它们特征向量的距离值之后，首先应用随机森林来训练一个分类器，输入为距离值和标定。这个标定的值为0或1，其中1表示这个字符对是相同的字符，0正好相反。接着根据分类器的投票结果得到一个范围在0到1之间的置信度值，来表示这两个字符之间的相似度值。这个值被用来作为随机森林回归器的输入，这个值越大意味着这两个字符越相似，反之亦然。

训练的一个重要步骤就是训练数据的选择。为了得到比较好的结果，负样本应该比较接近正样本。例如，如果想要找到一张图像中的人脸，正样本当然为人脸，负样本是一些和人脸有着很大差距的物体。但是如果当一个狗脸出现在测试图片中，这个分类器就很难判断这个是否是人脸。但是，当负样本是猫脸或者一些和人脸类似的物体，分类器就能容易的区分人脸和这个狗的脸。

因此，参见图9，本方法首先人工的标定正样本，然后运用两次选择法自动的选择负样本来得到一个比较好的负样本。为了方便，定义第一次选择的负样本为negativesamplesI，第二次选择的负样本为negativesamplesII。首先，选择一些模板字符，当其它字符和这个模板字符相同，就将这个字符和模板标定为正的样本对。负样本的标定相对复杂点，首先设定正负样本之间的比率。对于每一个模板，随机的选择指定数量的和模板不同的字符作为negativesamplesI。然后运用正样本和negativesamplesI训练随机森林回归器。接着对于每一个模板，运用上面训练的结果，计算模板和其它所有字符之间的匹配值。对匹配的值进行排序，选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。

3）根据距离与训练结果计算相似度值

参见图10，对于每个字符对，首先计算它们的特征向量，然后运用距离计算方法得到它们之间的特征距离。接着，使用这些距离值数据训练好的随机森林回归器来得到一个相似度值。

为了描述本发明的效果，首先建立了一个包含四种语言的测试集，即汉语、英语、日语和这三种语言的混合，对它们分别进行200dpi和300dpi的扫描。为了描述简单对它们命名规则如表1.

表1命名规则

为了用量化的数据对该方法的效果进行描述，选定一个字符，判断是否将相似的字符都查找出来。该方法运用查全率查准率和F值对该发明的效果进行衡量。假设所有查找出来的文字块中正确的数目为t,错误的数目为f，漏检的数目为g，则对应的查全率R,查准率P以及F值可以通过下面公式计算得到：

R=t/(t+g)；

P=t/(t+f)；

F=2RP/(R+P)；

最终的结果如表2所示：

表2统计结果

图像类型	查全率	查准率	F值
				CN_300	99.67%	99.93%	0.9980
CN_200	98.68%	100.00%	0.99334
				JP_300	99.27%	99.71%	0.9949
JP_200	99.37%	99.64%	0.9950
				EN_300	99.89%	100.00%	0.9995
EN_200	99.35%	100.00%	0.9967
				MX_300	99.83%	100.00%	0.9991
MX_200	99.68%	100.00%	0.9984

结果表明本发明提供的基于多特征的文本图像相似度度量方法是一种高精度的相似度度量方法。

Claims

1.一种基于多特征的文本图像相似度度量方法，其特征在于，包括以下操作：

1)提取待比较的文本图像的多个特征向量进行描述，所述的特征向量包括水平变化密度，垂直变化密度，上轮廓，下轮廓，水平投影，垂直投影，空间分布和Gabor；

2)采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离，采用滑动比较方法来处理具有不同维数的特征向量的特征距离；

3)在得到特征向量的距离值之后，输入为距离值和标定，先应用随机森林训练随机森林分类器，然后训练随机森林回归器；

4)将待比较的文本图像的特征距离输入到训练好的随机森林回归器中，由其输出得到一个相似度值，相似度值越大表明所比较的文本图像越相似；

所述的特征向量中，各特征向量的描述方法如下：

水平变化密度，一行一行的对文本图像进行扫描，计算水平方向上的从0到1的变化次数；

垂直变化密度，计算垂直方向上从0到1的变化次数；

上轮廓，对文本图像一列一列从上到下进行扫描，第一次遇到黑色像素点后，将下面的点都置成黑色像素；

下轮廓，对文本图像一列一列从下到上进行扫描，第一次遇到黑色像素点后，将上面的点都置成黑色像素；

水平投影，对文本图像一行一行从左到右进行扫描，计算黑色像素个数为当前行的特征值；

垂直投影，对文本图像一列一列从上向下进行扫描，计算黑色像素个数为当前列的特征值；

空间分布，文本图像被归一化到相同的大小，然后使用重叠的高斯加权方法将图像分为N×N的块，使每个块延伸到它的邻域块的中间，每一个块中的像素点个数就为空间分布特征；

Gabor，先通过Gabor滤波将文本图像归一化到相同的大小，从Gabor滤波的结果中提取Gabor特征，每一个滤波图像被分为N×N的重叠块，在每一个块中，分别运用加权高斯函数的正负实部计算直方图特征，作为该图像的Gabor特征。

2.如权利要求1所述的基于多特征的文本图像相似度度量方法，其特征在于，所述的空间分布特征提取时，使用重叠的高斯加权方法来对图像进行分块，每个区域被延伸到它的邻域中间。

3.如权利要求1所述的基于多特征的文本图像相似度度量方法，其特征在于，所述的Gabor滤波采用的公式为：

\begin{matrix} h (x, y, λ, φ, σ_{x}, σ_{y}) = \frac{1}{2 {πσ}_{x} σ_{y}} \exp {- \frac{1}{2} [\frac{R_{1}^{2}}{σ_{x}^{2}} + \frac{R_{2}^{2}}{σ_{y}^{2}}]} \\ \times \exp [i \cdot \frac{2 {πR}_{1}}{λ}] \end{matrix}

其中：

R₁＝xcosφ+ysinφ

R₂＝-xsinφ+ycosφ；

Gabor特征获取的公式为：

F_{x, y}^{+} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * m a x (0, F_{K} (m, n))

F_{x, y}^{-} = \underset{(m, n) &Element; r (x, y)}{Σ} G (m - x, n - y) * m i n (0, F_{K} (m, n))

其中：G(x,y)＝exp(-(x²+y²)/(2τ²))/(2π)；F_K(m,n)是gabor滤波结果的实部；表示gabor特征的正部，表示gabor滤波器的负部；

Gabor滤波采用的公式中的参数为：

λ＝10

φ = {- \frac{π}{2}, - \frac{π}{4}, 0, \frac{π}{4}}

σ_x＝σ_y＝5.6。

4.如权利要求1所述的基于多特征的文本图像相似度度量方法，其特征在于，对于每一个文本图像获得的多个特征向量，在采用滑动比较或欧式距离计算两个文本图像之间每对特征向量的距离，得到多个距离值，每一个距离值表示两个文本图像的特征向量对的距离；

d (p, q) = \sqrt{{(p_{1} - q_{1})}^{2} + {(p_{2} - q_{2})}^{2} ... + {(p_{n} - q_{n})}^{2}}

其中p＝{p₁,p₂,…,p_n}和q＝{q₁,q₂,…,q_n}是待比较的两个特征向量；

D_ij＝diff(V_i,V_j)

其中diff(V_i,V_j)用来计算向量V_i和V_j之间的距离，将两个向量在-c到c的范围内移动来得到最佳的匹配；若n_i和n_j分别是向量V_i和V_j的维数，V_i＝V_i，0V_i，1V_i，2….V_i，ni-1,V_j＝V_j，0V_j，1V_j，2…V_j，nj-1；

函数diff(V_i,V_j)被定义为：

d i f f (V_{i}, V_{j}) = \underset{- c \leq k \leq c}{m i n} (d i s \tan c e (U_{i}^{k}, U_{j}^{k}))

其中是两个比较向量和之间不同元素的个数；向量和分别从向量V_i和V_j变化而来，并且有着相同的维数

n_{i j}^{k} = \{\begin{matrix} m a x (n_{i} + k, n_{j}) & i f & k &GreaterEqual; 0 \\ m a x (n_{i}, n_{j} - k) & i f & k < 0 \end{matrix}

向量V_i到和向量V_j到变化函数为

u_{i, l}^{k} = \{\begin{matrix} v_{i, l - m a x (k, 0)} & \begin{matrix} i f & m a x (k, 0) \leq l < m a x (k, 0) + n_{i} \end{matrix} \\ 0 & o t h e r w i s e, \end{matrix}

u_{j, l}^{k} = \{\begin{matrix} v_{j, l - m a x (- k, 0)} & \begin{matrix} i f & m a x (- k, 0) \leq l < m a x (- k, 0) + n_{j} \end{matrix} \\ 0 & o t h e r w i s e, \end{matrix}

5.如权利要求1所述的基于多特征的文本图像相似度度量方法，其特征在于，在得到特征向量的距离值之后，首先应用随机森林来训练一个随机森林分类器，输入为距离值和标定；所述的标定的值为0或1，其中1表示待比较的文本图像字符对是相同的字符，0正好相反；然后根据随机森林分类器的投票结果得到一个范围在0到1之间的置信度值，来表示这两个字符之间的相似度值；这个相似度值被用来作为随机森林回归器的输入，这个值越大意味着这两个字符越相似。

6.如权利要求1所述的基于多特征的文本图像相似度度量方法，其特征在于，所述的随机森林分类器、随机森林回归器的训练方法为：

1)人工的标定正样本：选择模板字符之后，以模板字符相同的两个字符对作为标定的正样本对；

2)运用两次选择法自动的选择负样本：其中第一次选择的负样本为negativesamplesI，第二次选择的负样本为negativesamplesII；先设定正负样本之间的比率，对于每一个模板，随机的选择指定数量的和模板不同的字符作为negativesamplesI；然后运用正样本和negativesamplesI训练随机森林回归器；接着对于每一个模板，运用随机森林回归器训练的结果，计算模板和其它所有字符之间的匹配值；对匹配的值进行排序，选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。