CN103473545B - 一种基于多特征的文本图像相似度度量方法 - Google Patents

一种基于多特征的文本图像相似度度量方法 Download PDF

Info

Publication number
CN103473545B
CN103473545B CN201310332513.8A CN201310332513A CN103473545B CN 103473545 B CN103473545 B CN 103473545B CN 201310332513 A CN201310332513 A CN 201310332513A CN 103473545 B CN103473545 B CN 103473545B
Authority
CN
China
Prior art keywords
characteristic
character
value
text image
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310332513.8A
Other languages
English (en)
Other versions
CN103473545A (zh
Inventor
宋永红
张元林
孟泉
雍旭东
刘跃虎
陈晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xuzhou Guolong Electric Power Parts Foundry Co.,Ltd.
Original Assignee
Xian Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Jiaotong University filed Critical Xian Jiaotong University
Priority to CN201310332513.8A priority Critical patent/CN103473545B/zh
Publication of CN103473545A publication Critical patent/CN103473545A/zh
Application granted granted Critical
Publication of CN103473545B publication Critical patent/CN103473545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种基于多特征的文本图像相似度度量方法,针对一种特征不能完全刻画出文字图像的缺陷,提出了一种结合多特征的高精度文字图像块描述及相似性度量方法,该方法提出了八种不同属性的特征,运用滑动比较和欧氏距离计算特征之间的距离值,最后运用训练的方法对八种特征进行融合计算出相似性值,大大提供了相似性值识别的精度。采用建立包含四种语言的测试集,对本发明的识别效果进行检测,并运用查全率查准率和F值对该发明的效果进行衡量,结果表明本发明的查全率、查准率接近于100%,而F值在0.99以上,结果表明本发明是一种高精度的相似度度量方法。

Description

一种基于多特征的文本图像相似度度量方法
技术领域
本发明属于计算机视觉和图像处理技术领域,涉及一种基于多特征的文本图像相似度度量方法。
背景技术
现有技术中针对大数据量特征的相似性度量方法,主要有以下几个方面:
1)基于小波变换和相似性度量的视频文字识别.计算机工程与设计,2008.杨强,程玉昆,马森。
该方法的处理对象为视频中的字幕,主要研究视频中字幕的提取与识别,用相似性度量的方法来识别视频字幕。首先对待匹配的字符图像和模板库中的字符图像分别作N级分解,并保留各级分解后的低频部分,接着用误差累加式粗略查找可能匹配的视频字符,重复上面的步骤直到找到误差最小的前10个字符,最后分别计算这10个字符的相关度,求得相关度最大的字符为所要匹配字符。
2)基于二叉树相似性检测的变形文字识别研究.计算机工程与应用,2005.叶庆卫,汪同庆。
该方法处理对象为艺术字,主要研究文字的变形处理不会改变文字内在的框架情况下的识别。首先利用最小生成树获得文字图像所对应的树型结构,然后约简非分叉节点,应用无序无标签二叉树之间的相似测度计算方法,与原文字图像所对应的约简树进行相关度分析,得到相似性度量结果。
3)TextimagematchingwithoutlanguagemodelusingaHausdorffdistance.InformationProcessing&Management.ToniM.RathandR.Manmatha
该方法主要用于文字图像的检索,模板图像为目标图像的一个部分。首先对目标图像和模板图像进行归一化,然后分别提取它们的特征,得到特征向量,最后运用Hausdorff的距离度量方法从目标图像中检索到模板图像。
4)Wordimagematchingusingdynamictimewarping.CVPR2003.Hwa-JeongSon,Soo-HyungKim,Ji-SooKim
该方法主要是处理手写的扫描历史原稿,运用DynamicTimeWarping(DTW)算法进行模板匹配,得到需要查找的文字。
以上现有方法都是运用一种独立的特征对要处理的文字图像进行描述,然而一种特征不能完全刻画出文字图像。
发明内容
本发明解决的问题在于提供一种基于多特征的文本图像相似度度量方法,采用多个特征来进行描述并进行了有效的融合,提高了文本图像相似度度量的精度。
本发明是通过以下技术方案来实现:
一种基于多特征的文本图像相似度度量方法,包括以下操作:
1)提取待比较的文本图像的多个特征向量进行描述,所述的特征向量包括水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor;
2)采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离,采用滑动比较方法来处理处理具有不同维数的特征向量的特征距离;
3)在得到特征向量的距离值之后,输入为距离值和标定,先应用随机森林训练随机森林分类器,然后训练随机森林回归器;
4)将待比较的文本图像的特征距离输入到训练好的随机森林回归器中,由其输出得到一个相似度值,相似度值越大越表明所比较的文本图像越相似。
所述的特征向量中,各特征向量的描述方法如下:
水平变化密度,一行一行的对文字图像进行扫描,计算水平方向上的从0到1的变化次数;
垂直变化密度,计算垂直方向上从0到1的变化次数;
上轮廓,对文字图像一列一列从上到下进行扫描,第一次遇到黑色像素点后,将下面的点都置成黑色像素;
下轮廓,对文字图像一列一列从下到上进行扫描,第一次遇到黑色像素点后,将上面的点都置成黑色像素;
水平投影,对文字图像一行一行从左到右进行扫描,计算黑色像素个数为当前行的特征值;
垂直投影,对文字图像一列一列从上向下进行扫描,计算黑色像素个数为当前列的特征值;
空间分布,文字图像被归一化到相同的大小,然后使用重叠的高斯加权方法将图像分为N×N的块,使每个块延伸到它的邻域块的中间,每一个块中的像素点个数就为空间分布特征;
Gabor,先通过Gabor滤波将文字图像归一化到相同的大小,从Gabor滤波的结果中提取Gabor特征,每一个滤波图像被分为N×N的重叠块,在每一个块中,分别运用加权高斯函数的正负实部计算直方图特征,作为该图像的Gabor特征。
所述的空间分布特征提取时,使用重叠的高斯加权方法来对图像进行分块,每个区域被延伸到它的邻域中间。
所述的Gabor滤波采用的公式为:
h ( x , y , λ , φ , σ x , σ y ) = 1 2 π σ x σ y exp { - 1 2 [ R 1 2 σ x 2 + R 2 2 σ y 2 ] } × exp [ i · 2 π R 1 λ ]
其中:
R1=xcosφ+ysinφ
R2=-xsinφ+ycosφ;
Gabor特征获取的公式为:
F x , y + = Σ ( m , n ) ∈ r ( x , y ) G ( m - x , n - y ) * max ( 0 , F K ( m , n ) )
F x , y - = Σ ( m , n ) ∈ r ( x , y ) G ( m - x , n - y ) * min ( 0 , F K ( m , n ) )
其中:G(x,y)=exp(-(x2+y2)/(2τ2))/(2π)FK是gabor滤波结果的实部。
所述Gabor滤波采用的公式中的参数为:
λ=10
φ = { - π 2 , - π 4 , 0 , π 4 }
σxy=5.6。
对于每一个文字图像获得的多个特征向量,在采用滑动比较或欧式距离计算两个文字图像之间每对特征向量的距离,得到多个距离值,每一个距离值表示两个文字图像的特征向量对的距离;
其中,采用欧式距离计算方法来处理空间分布和Gabor特征,其计算公式为:
d ( p , q ) = ( p 1 - q 1 ) 2 + ( p 2 - q 2 ) 2 · · · + ( p n - q n ) 2
其中p={p1,p2,…,pn}和q={q1,q2,…,qn}是待比较的两个特征向量;
采用滑动比较方法来处理水平变化密度,垂直变化密度,上轮廓,下轮廓,垂直投影和水平投影,其计算公式为:
Dij=diff(Vi,Vj)
其中diff(Vi,Vj)用来计算向量Vi和Vj之间的距离,将两个向量在-c到c的范围内移动来得到最佳的匹配;若ni和nj分别是向量Vi和Vj的维数,Vi=Vi0Vi1Vi2....Vini-1,Vj=Vj0Vj1Vj2…Vjnj-1;函数diff(Vi,Vj)被定义为:
diff ( V i , V j ) = min - c ≤ k ≤ c ( dis tan ce ( U i k , U j k ) )
其中是两个比较向量Uk i和Uk j之间不同元素的个数;向量Uk i和Uk j分别从向量ViandVj变化而来,并且有着相同的维数nk ij
n ij k = max ( n i + k , n j ) if k &GreaterEqual; 0 max ( n i , n j - k ) if k < 0
向量Vi到Uk i和向量Vj到Uk j变化函数为
u il k = v il - max ( k , 0 ) if max ( k , 0 ) &le; l < max ( k , 0 ) + n i 0 otherwise ,
u jl k = v jl - max ( - k , 0 ) if max ( - k , 0 ) &le; l < max ( - k , 0 ) + n j 0 otherwise ,
最后对距离值用字符大小进行归一化,消除字符大小对距离的影响。
所述在得到特征向量的距离值之后,首先应用随机森林来训练一个随机森林分类器,输入为距离值和标定;所述的标定的值为0或1,其中1表示待比较的文字图像字符对是相同的字符,0正好相反;然后根据随机森林分类器的投票结果得到一个范围在0到1之间的置信度值,来表示这两个字符之间的相似度值;这个相似度值被用来作为随机森林回归器的输入,这个值越大意味着这两个字符越相似。
所述的随机森林分类器、随机森林回归器的训练方法为:
1)人工的标定正样本:选择模板字符之后,以模板字符相同的字符作为标定的正样本对;
2)运用两次选择法自动的选择负样本来得到一个比较好的负样本,其中第一次选择的负样本为negativesamplesI,第二次选择的负样本为negativesamplesII;先设定正负样本之间的比率,对于每一个模板,随机的选择指定数量的和模板不同的字符作为negativesamplesI;然后运用正样本和negativesamplesI训练随机森林回归器;接着对于每一个模板,运用随机森林回归器训练的结果,计算模板和其它所有字符之间的匹配值;对匹配的值进行排序,选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。
与现有技术相比,本发明具有以下有益的技术效果:
本发明提供的基于多特征的文本图像相似度度量方法,针对一种特征不能完全刻画出文字图像的缺陷,提出了一种结合多特征的高精度文字图像块描述及相似性度量方法,该方法提出了八种不同属性的特征,运用滑动比较和欧氏距离计算特征之间的距离值,最后运用训练的方法对八种特征进行融合计算出相似性值,大大提供了相似性值识别的精度。
采用建立包含四种语言的测试集,对本发明的识别效果进行检测,并运用查全率查准率和F值对该发明的效果进行衡量,结果表明本发明的查全率、查准率接近于100%,而F值在0.99以上,结果表明本发明是一种高精度的相似度度量方法。
附图说明
图1为本发明的文本图像相似度度量方法示意图;
图2为字符‘S’和‘V’的水平变化密度和垂直变化密度特征示意图;
图3为上轮廓和下轮廓特征示意图;
图4为噪声影响包围盒示意图;
图5为重叠块示意图;
图6为Gabor滤波后结果示意图;
图7为相似性度量框架图;
图8为训练流程图;
图9为训练数据生成流程图;
图10为相似性计算流程图。
具体实施方式
下面结合具体的实施例对本发明做进一步的详细说明,所述是对本发明的解释而不是限定。
参见图1,本发明提供一种基于多特征的文本图像相似度度量方法,对于一个扫描文字图像提出水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor八个特征来进行描述,并且这些特征具有不同的属性。然后运用滑动比较和欧式距离得到特征之间的距离值,最后运用随机森林通过训练的方法对提出的特征进行有效的融合得到两个扫描文字之间的相似性值。在随机森林回归的训练中,对于样本的选择采用两步选择法,大大提高了训练的结果。
具体包括以下步骤:
1)提取待比较的文本图像的多个特征向量进行描述,所述的特征向量包括水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor;
2)采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离,采用滑动比较方法来处理处理具有不同维数的特征向量的特征距离;
3)在得到特征向量的距离值之后,输入为距离值和标定,先应用随机森林训练随机森林分类器,然后训练随机森林回归器;
4)将待比较的文本图像的特征距离输入到训练好的随机森林回归器中,由其输出得到一个相似度值,相似度值越大越表明所比较的文本图像越相似。
为了计算两个扫描文字图像之间的相似度,特征描述和相似度计算是两个重要的步骤。在特征描述步骤中本方法运用水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor八个特征来描述一个文字。
在相似度计算步骤中本方法首先运用滑动比较和欧氏距离分别计算两个扫描文字图像之间的距离值,然后运用随机森林根据这些距离值计算两个扫描文字图像之间的相似度值。
1、关于特征描述
本方法使用八个特征(水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor)来对一个字符进行描述
1)水平变化密度和垂直变化密度
水平变化密度是一个向量,维数和字符高度一样,这个特征一行一行的对字符图像进行扫描,计算水平方向上的从0到1的变化次数。
垂直变化密度和水平变化密度很相似,它计算垂直方向上从0到1的变化次数。
图2展示字符‘S’和‘V’的水平变化密度和垂直变化密度特征。
2)上轮廓和下轮廓
字符的上轮廓和下轮廓表示了一个字符的结构信息。为了计算上轮廓特征,对一个图像一列一列从上到下进行扫描,第一次遇到黑色像素点后,将下面的点都置成黑色像素。下轮廓和上轮廓类似,只是从下向上进行扫描:对文字图像一行一行从左到右进行扫描,计算黑色像素个数为当前行的特征值。图3所示即为上轮廓和下轮廓特征。
3)水平和垂直投影
水平投影特征对图像一行一行从左到右进行扫描,计算黑色像素个数为当前行的特征值,特征的大小和图像的高一样。垂直投影和水平投影特征类似,对图像从上向下扫描:对文字图像一列一列从上向下进行扫描,计算黑色像素个数为当前列的特征值。
4)空间分布
该特征主要用来表示一个字符的空间分布特性。首先,字符图像被归一化到相同的大小。接着将图像分为N*N的块,每一个块中的像素点个数就为空间分布特征。
然而,这个特征对字符的包围盒的精度要求很高。在字符包围盒被噪声影响的情况下,一些像素将被错误的分配到相邻的块中,图4为一个包围盒的示例。
为了减少这些噪声的影响,本方法使用重叠的高斯加权方法来对图像进行分块,而不是机械的根据坐标直接分。换句话来说就是,每个区域被延伸到它的邻域中间,如图5所示,这样就可以减少因为块的划分带来的影响。
5)Gabor
Gabor特征一般用来分析一个图像的纹理特性。它可以结合空间\空间频率,模拟视觉皮层简单细胞的视场。Gabor的公式为
h ( x , y , &lambda; , &phi; , &sigma; x , &sigma; y ) = 1 2 &pi; &sigma; x &sigma; y exp { - 1 2 [ R 1 2 &sigma; x 2 + R 2 2 &sigma; y 2 ] } &times; exp [ i &CenterDot; 2 &pi; R 1 &lambda; ]
其中:
R1=xcosφ+ysinφ
R2=-xsinφ+ycosφ
为了使用这些特征,本方法首先将一个文本字符归一化到相同的大小。Gabor的参数对于结果起着重要的作用。具体将参数设为
λ=10
&phi; = { - &pi; 2 , - &pi; 4 , 0 , &pi; 4 }
σxy=5.6
Gabor滤波之后得到四幅纹理图像,如图6所示,它们和原始图像有着相同的大小
接着,运用直方图方法来从Gabor滤波的结果中提取Gabor特征。就像空间分布特征描述的一样,每一个滤波图像被分为N*N的重叠块。在每一个块中,分别运用加权高斯函数的正负实部计算直方图特征,作为该图像的gabor特征
F x , y + = &Sigma; ( m , n ) &Element; r ( x , y ) G ( m - x , n - y ) * max ( 0 , F K ( m , n ) )
F x , y - = &Sigma; ( m , n ) &Element; r ( x , y ) G ( m - x , n - y ) * min ( 0 , F K ( m , n ) )
其中:G(x,y)=exp(-(x2+y2)/(2τ2))/(2π)FK是gabor滤波结果的实部。
2、关于相似性度量
本方法对于每一个字符得到了八个特征向量,这些特征向量具有不同的物理意义和维数。然而需要一个相似度值用来衡量两个字符之间的匹配度。因此,该方法为了有效的结合这八个特征向量。参见图7,首先运用滑动比较和欧式距离计算两个字符之间每对特征向量的距离。通过这一个步骤,得到八个距离值,每一个距离值表示两个字符的特征向量对的距离。最后运用随机森林方法来结合这八个距离值得到两个字符之间的相似度值。
1)距离度量
该方法采用两种策略来分别处理具有相同维数的特征向量(空间分布和Gabor)和具有不同维数的特征向量(水平变化密度,垂直变化密度,上轮廓,下轮廓,垂直投影和水平投影)。
欧式距离对于具有相同维数的特征向量非常有效并且速度很快。它的公式为:
d ( p , q ) = ( p 1 - q 1 ) 2 + ( p 2 - q 2 ) 2 &CenterDot; &CenterDot; &CenterDot; + ( p n - q n ) 2
其中p={p1,p2,…,pn}和q={q1,q2,…,qn}是待比较的两个特征向量。
滑动比较方法用来精确的计算两个具有不同维数的特征向量,可以消除维数归一化所带来的误差,并且可以分开不同大小的字符。
滑动比较的公式为:
Dij=diff(Vi,Vj)
其中diff(Vi,Vj)是用来计算向量Vi和Vj之间的距离。将两个向量在-c到c的范围内移动来得到最佳的匹配。设想ni和nj分别是向量Vi和Vj的维数,Vi=Vi0Vi1Vi2....Vini-1,Vj=Vj0Vj1Vj2…Vjnj-1函数diff(Vi,Vj)被定义为:
diff ( V i , V j ) = min - c &le; k &le; c ( dis tan ce ( U i k , U j k ) )
其中是两个比较向量Uk i和Uk j之间不同元素的个数。向量Uk i和Uk j分别从向量ViandVj变化而来,并且有着相同的维数nk ij
n ij k = max ( n i + k , n j ) if k &GreaterEqual; 0 max ( n i , n j - k ) if k < 0
向量Vi到Uk i和向量Vj到Uk j变化函数为
u il k = v il - max ( k , 0 ) if max ( k , 0 ) &le; l < max ( k , 0 ) + n i 0 otherwise ,
u jl k = v jl - max ( - k , 0 ) if max ( - k , 0 ) &le; l < max ( - k , 0 ) + n j 0 otherwise ,
为了消除字符大小对距离的影响,最后对距离值用字符大小进行归一化。
2)训练
对回归数据的标定非常困难,也不存在一个主观的准则去衡量两个字符之间的相似度。但是标定两个字符是相同或者不同相对来说比较容易,并且分类结果的置信度可以用来作为回归的标定数据。因此,采用了两步训练的方法来训练随机森林回归器。参见图8,第一步为分类,接着分类的结果被用来作为第二步回归的输入。
对于每一个字符对,得到它们特征向量的距离值之后,首先应用随机森林来训练一个分类器,输入为距离值和标定。这个标定的值为0或1,其中1表示这个字符对是相同的字符,0正好相反。接着根据分类器的投票结果得到一个范围在0到1之间的置信度值,来表示这两个字符之间的相似度值。这个值被用来作为随机森林回归器的输入,这个值越大意味着这两个字符越相似,反之亦然。
训练的一个重要步骤就是训练数据的选择。为了得到比较好的结果,负样本应该比较接近正样本。例如,如果想要找到一张图像中的人脸,正样本当然为人脸,负样本是一些和人脸有着很大差距的物体。但是如果当一个狗脸出现在测试图片中,这个分类器就很难判断这个是否是人脸。但是,当负样本是猫脸或者一些和人脸类似的物体,分类器就能容易的区分人脸和这个狗的脸。
因此,参见图9,本方法首先人工的标定正样本,然后运用两次选择法自动的选择负样本来得到一个比较好的负样本。为了方便,定义第一次选择的负样本为negativesamplesI,第二次选择的负样本为negativesamplesII。首先,选择一些模板字符,当其它字符和这个模板字符相同,就将这个字符和模板标定为正的样本对。负样本的标定相对复杂点,首先设定正负样本之间的比率。对于每一个模板,随机的选择指定数量的和模板不同的字符作为negativesamplesI。然后运用正样本和negativesamplesI训练随机森林回归器。接着对于每一个模板,运用上面训练的结果,计算模板和其它所有字符之间的匹配值。对匹配的值进行排序,选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。
3)根据距离与训练结果计算相似度值
参见图10,对于每个字符对,首先计算它们的特征向量,然后运用距离计算方法得到它们之间的特征距离。接着,使用这些距离值数据训练好的随机森林回归器来得到一个相似度值。
为了描述本发明的效果,首先建立了一个包含四种语言的测试集,即汉语、英语、日语和这三种语言的混合,对它们分别进行200dpi和300dpi的扫描。为了描述简单对它们命名规则如表1.
表1命名规则
为了用量化的数据对该方法的效果进行描述,选定一个字符,判断是否将相似的字符都查找出来。该方法运用查全率查准率和F值对该发明的效果进行衡量。假设所有查找出来的文字块中正确的数目为t,错误的数目为f,漏检的数目为g,则对应的查全率R,查准率P以及F值可以通过下面公式计算得到:
R=t/(t+g);
P=t/(t+f);
F=2RP/(R+P);
最终的结果如表2所示:
表2统计结果
图像类型 查全率 查准率 F值
CN_300 99.67% 99.93% 0.9980
CN_200 98.68% 100.00% 0.99334
JP_300 99.27% 99.71% 0.9949
JP_200 99.37% 99.64% 0.9950
EN_300 99.89% 100.00% 0.9995
EN_200 99.35% 100.00% 0.9967
MX_300 99.83% 100.00% 0.9991
MX_200 99.68% 100.00% 0.9984
结果表明本发明提供的基于多特征的文本图像相似度度量方法是一种高精度的相似度度量方法。

Claims (6)

1.一种基于多特征的文本图像相似度度量方法,其特征在于,包括以下操作:
1)提取待比较的文本图像的多个特征向量进行描述,所述的特征向量包括水平变化密度,垂直变化密度,上轮廓,下轮廓,水平投影,垂直投影,空间分布和Gabor;
2)采用欧式距离计算方法来处理具有相同维数的特征向量的特征距离,采用滑动比较方法来处理具有不同维数的特征向量的特征距离;
3)在得到特征向量的距离值之后,输入为距离值和标定,先应用随机森林训练随机森林分类器,然后训练随机森林回归器;
4)将待比较的文本图像的特征距离输入到训练好的随机森林回归器中,由其输出得到一个相似度值,相似度值越大表明所比较的文本图像越相似;
所述的特征向量中,各特征向量的描述方法如下:
水平变化密度,一行一行的对文本图像进行扫描,计算水平方向上的从0到1的变化次数;
垂直变化密度,计算垂直方向上从0到1的变化次数;
上轮廓,对文本图像一列一列从上到下进行扫描,第一次遇到黑色像素点后,将下面的点都置成黑色像素;
下轮廓,对文本图像一列一列从下到上进行扫描,第一次遇到黑色像素点后,将上面的点都置成黑色像素;
水平投影,对文本图像一行一行从左到右进行扫描,计算黑色像素个数为当前行的特征值;
垂直投影,对文本图像一列一列从上向下进行扫描,计算黑色像素个数为当前列的特征值;
空间分布,文本图像被归一化到相同的大小,然后使用重叠的高斯加权方法将图像分为N×N的块,使每个块延伸到它的邻域块的中间,每一个块中的像素点个数就为空间分布特征;
Gabor,先通过Gabor滤波将文本图像归一化到相同的大小,从Gabor滤波的结果中提取Gabor特征,每一个滤波图像被分为N×N的重叠块,在每一个块中,分别运用加权高斯函数的正负实部计算直方图特征,作为该图像的Gabor特征。
2.如权利要求1所述的基于多特征的文本图像相似度度量方法,其特征在于,所述的空间分布特征提取时,使用重叠的高斯加权方法来对图像进行分块,每个区域被延伸到它的邻域中间。
3.如权利要求1所述的基于多特征的文本图像相似度度量方法,其特征在于,所述的Gabor滤波采用的公式为:
h ( x , y , &lambda; , &phi; , &sigma; x , &sigma; y ) = 1 2 &pi;&sigma; x &sigma; y exp { - 1 2 &lsqb; R 1 2 &sigma; x 2 + R 2 2 &sigma; y 2 &rsqb; } &times; exp &lsqb; i &CenterDot; 2 &pi;R 1 &lambda; &rsqb;
其中:
R1=xcosφ+ysinφ
R2=-xsinφ+ycosφ;
Gabor特征获取的公式为:
F x , y + = &Sigma; ( m , n ) &Element; r ( x , y ) G ( m - x , n - y ) * m a x ( 0 , F K ( m , n ) )
F x , y - = &Sigma; ( m , n ) &Element; r ( x , y ) G ( m - x , n - y ) * m i n ( 0 , F K ( m , n ) )
其中:G(x,y)=exp(-(x2+y2)/(2τ2))/(2π);FK(m,n)是gabor滤波结果的实部;表示gabor特征的正部,表示gabor滤波器的负部;
Gabor滤波采用的公式中的参数为:
λ=10
&phi; = { - &pi; 2 , - &pi; 4 , 0 , &pi; 4 }
σx=σy=5.6。
4.如权利要求1所述的基于多特征的文本图像相似度度量方法,其特征在于,对于每一个文本图像获得的多个特征向量,在采用滑动比较或欧式距离计算两个文本图像之间每对特征向量的距离,得到多个距离值,每一个距离值表示两个文本图像的特征向量对的距离;
其中,采用欧式距离计算方法来处理空间分布和Gabor特征,其计算公式为:
d ( p , q ) = ( p 1 - q 1 ) 2 + ( p 2 - q 2 ) 2 ... + ( p n - q n ) 2
其中p={p1,p2,…,pn}和q={q1,q2,…,qn}是待比较的两个特征向量;
采用滑动比较方法来处理水平变化密度,垂直变化密度,上轮廓,下轮廓,垂直投影和水平投影,其计算公式为:
Dij=diff(Vi,Vj)
其中diff(Vi,Vj)用来计算向量Vi和Vj之间的距离,将两个向量在-c到c的范围内移动来得到最佳的匹配;若ni和nj分别是向量Vi和Vj的维数,Vi=Vi,0Vi,1Vi,2….Vi,ni-1,Vj=Vj,0Vj,1Vj,2…Vj,nj-1
函数diff(Vi,Vj)被定义为:
d i f f ( V i , V j ) = m i n - c &le; k &le; c ( d i s tan c e ( U i k , U j k ) )
其中是两个比较向量之间不同元素的个数;向量分别从向量Vi和Vj变化而来,并且有着相同的维数
n i j k = m a x ( n i + k , n j ) i f k &GreaterEqual; 0 m a x ( n i , n j - k ) i f k < 0
向量Vi和向量Vj变化函数为
u i , l k = v i , l - m a x ( k , 0 ) i f m a x ( k , 0 ) &le; l < m a x ( k , 0 ) + n i 0 o t h e r w i s e ,
u j , l k = v j , l - m a x ( - k , 0 ) i f m a x ( - k , 0 ) &le; l < m a x ( - k , 0 ) + n j 0 o t h e r w i s e ,
最后对距离值用字符大小进行归一化,消除字符大小对距离的影响。
5.如权利要求1所述的基于多特征的文本图像相似度度量方法,其特征在于,在得到特征向量的距离值之后,首先应用随机森林来训练一个随机森林分类器,输入为距离值和标定;所述的标定的值为0或1,其中1表示待比较的文本图像字符对是相同的字符,0正好相反;然后根据随机森林分类器的投票结果得到一个范围在0到1之间的置信度值,来表示这两个字符之间的相似度值;这个相似度值被用来作为随机森林回归器的输入,这个值越大意味着这两个字符越相似。
6.如权利要求1所述的基于多特征的文本图像相似度度量方法,其特征在于,所述的随机森林分类器、随机森林回归器的训练方法为:
1)人工的标定正样本:选择模板字符之后,以模板字符相同的两个字符对作为标定的正样本对;
2)运用两次选择法自动的选择负样本:其中第一次选择的负样本为negativesamplesI,第二次选择的负样本为negativesamplesII;先设定正负样本之间的比率,对于每一个模板,随机的选择指定数量的和模板不同的字符作为negativesamplesI;然后运用正样本和negativesamplesI训练随机森林回归器;接着对于每一个模板,运用随机森林回归器训练的结果,计算模板和其它所有字符之间的匹配值;对匹配的值进行排序,选择匹配值最大的指定数量的非正样本字符和模板字符为负样本对。
CN201310332513.8A 2013-08-01 2013-08-01 一种基于多特征的文本图像相似度度量方法 Active CN103473545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310332513.8A CN103473545B (zh) 2013-08-01 2013-08-01 一种基于多特征的文本图像相似度度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310332513.8A CN103473545B (zh) 2013-08-01 2013-08-01 一种基于多特征的文本图像相似度度量方法

Publications (2)

Publication Number Publication Date
CN103473545A CN103473545A (zh) 2013-12-25
CN103473545B true CN103473545B (zh) 2016-06-29

Family

ID=49798389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310332513.8A Active CN103473545B (zh) 2013-08-01 2013-08-01 一种基于多特征的文本图像相似度度量方法

Country Status (1)

Country Link
CN (1) CN103473545B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9898811B2 (en) * 2015-05-08 2018-02-20 Kla-Tencor Corporation Method and system for defect classification
CN105117704B (zh) * 2015-08-25 2018-05-29 电子科技大学 一种基于多特征的文本图像一致性比较方法
CN106469138B (zh) * 2016-09-29 2020-07-17 东软集团股份有限公司 词云的生成方法及装置
EP3343432B1 (en) * 2016-12-29 2024-03-20 Elektrobit Automotive GmbH Generating training images for machine learning-based object recognition systems
CN109426831B (zh) * 2017-08-30 2022-12-13 腾讯科技(深圳)有限公司 图片相似匹配及模型训练的方法、装置及计算机设备
CN108921126B (zh) * 2018-07-20 2019-07-23 北京开普云信息科技有限公司 一种自动识别签名章或手写签名的方法及装置
CN111339344B (zh) * 2020-02-25 2023-04-07 北京百度网讯科技有限公司 室内图像检索方法、装置及电子设备
CN111860516A (zh) * 2020-06-23 2020-10-30 北京三快在线科技有限公司 商家名称确定方法、装置、服务器及存储介质
CN112149653B (zh) * 2020-09-16 2024-03-29 北京达佳互联信息技术有限公司 信息处理方法、装置、电子设备及存储介质
CN113313217B (zh) * 2021-07-31 2021-11-02 北京惠朗世纪科技有限公司 一种基于鲁棒性模板的倾角文字精准识别方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102402621A (zh) * 2011-12-27 2012-04-04 浙江大学 一种基于图像分类的图像检索方法
CN102779276A (zh) * 2011-05-09 2012-11-14 汉王科技股份有限公司 文本图像识别方法和装置
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8065321B2 (en) * 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102779276A (zh) * 2011-05-09 2012-11-14 汉王科技股份有限公司 文本图像识别方法和装置
CN102402621A (zh) * 2011-12-27 2012-04-04 浙江大学 一种基于图像分类的图像检索方法
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
a document image retrieval system;konstantinos zagoris et al;《engineering application of artificial intelligence》;20100413;第873-877页 *
imaged document text retrieval without OCR;chew Lim Tan et al;《IEEE TRANSACTIONS ON PATTERN ANALYSIS AND MACHINE INTELLIGENCE》;20020630;第24卷(第6期);第838-840页 *
多文档自动文摘关键技术研究;徐永东;《中国博士学位论文全文数据库信息科技辑2008年》;20081215(第12期);第55-57页 *

Also Published As

Publication number Publication date
CN103473545A (zh) 2013-12-25

Similar Documents

Publication Publication Date Title
CN103473545B (zh) 一种基于多特征的文本图像相似度度量方法
US10255691B2 (en) Method and system of detecting and recognizing a vehicle logo based on selective search
Shahab et al. ICDAR 2011 robust reading competition challenge 2: Reading text in scene images
CN110717534B (zh) 一种基于网络监督的目标分类和定位方法
Pan et al. A robust system to detect and localize texts in natural scene images
CN106446933B (zh) 基于上下文信息的多目标检测方法
CN106610969A (zh) 基于多模态信息的视频内容审查系统及方法
JP2008097607A (ja) 入力イメージを自動的に分類する方法
CN104850822B (zh) 基于多特征融合的简单背景下的叶片识别方法
CN105574534A (zh) 基于稀疏子空间聚类和低秩表示的显著性目标检测方法
CN104680127A (zh) 手势识别方法及系统
CN105574063A (zh) 基于视觉显著性的图像检索方法
Shahab et al. How salient is scene text?
CN106845513B (zh) 基于条件随机森林的人手检测器及方法
CN105261109A (zh) 一种钞票冠字号识别方法
US8027978B2 (en) Image search method, apparatus, and program
US8401312B2 (en) Method and a system for organizing an image database
Srivastava et al. Comparative analysis of leaf classification and recognition by different SVM classifiers
CN111680577A (zh) 人脸检测方法和装置
CN110909678B (zh) 一种基于宽度学习网络特征提取的人脸识别方法及系统
CN112200789A (zh) 一种图像识别的方法及装置、电子设备和存储介质
CN106557523B (zh) 代表性图像选择方法和设备以及对象图像检索方法和设备
CN115797970B (zh) 基于YOLOv5模型的密集行人目标检测方法及系统
Alaei et al. Logo detection using painting based representation and probability features
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210106

Address after: 221600 North Side of Xiaohe Road, Peixian Development Zone, Xuzhou City, Jiangsu Province

Patentee after: Xuzhou Guolong Electric Power Parts Foundry Co.,Ltd.

Address before: 710049 No. 28 West Xianning Road, Shaanxi, Xi'an

Patentee before: XI'AN JIAOTONG University