CN101452532B - 一种文本无关笔迹鉴别的方法和装置 - Google Patents

一种文本无关笔迹鉴别的方法和装置 Download PDF

Info

Publication number
CN101452532B
CN101452532B CN2008102400925A CN200810240092A CN101452532B CN 101452532 B CN101452532 B CN 101452532B CN 2008102400925 A CN2008102400925 A CN 2008102400925A CN 200810240092 A CN200810240092 A CN 200810240092A CN 101452532 B CN101452532 B CN 101452532B
Authority
CN
China
Prior art keywords
writing sample
grid
query
microstructure features
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2008102400925A
Other languages
English (en)
Other versions
CN101452532A (zh
Inventor
丁晓青
李昕
彭良瑞
刘长松
方驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN2008102400925A priority Critical patent/CN101452532B/zh
Publication of CN101452532A publication Critical patent/CN101452532A/zh
Application granted granted Critical
Publication of CN101452532B publication Critical patent/CN101452532B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种文本无关笔迹鉴别的方法和装置,属于计算机视觉领域。所述方法包括:对查询笔迹样本进行预处理,得到查询笔迹样本边缘图像;从查询笔迹样本边缘图像中提取查询笔迹样本网格微结构特征;计算查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;通过加权标准差,计算查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离;对特征间距离进行比较排序,获得查询笔迹样本书写者候选列表。所述装置包括:预处理模块、特征提取模块、权值计算模块、距离计算模块、比较模块。本发明通过比较网格微结构特征间距离获取书写候选人,提高了笔迹鉴别的正确率和鉴别性能。

Description

一种文本无关笔迹鉴别的方法和装置
技术领域
本发明涉及计算机视觉领域,特别涉及一种文本无关笔迹鉴别的方法和装置。
背景技术
笔迹鉴别是以手写笔迹样本的书写风格来鉴别书写人身份的一种技术,是生物特征识别技术的一种。以往的笔迹识别是依靠笔迹专家采用专业鉴别手段来进行,除了鉴别结果受专家主观看法影响外,人工大规模笔迹检索往往效率低下,因此,计算机自动笔迹识别技术逐渐成为一门新兴的研究领域,在司法、商务等领域具有广泛的应用。
现有的计算机自动笔迹鉴别方法包括文本相关方法和文本无关方法。其中,文本无关方法要求笔迹样本中含有较多的字符,但对文本内容不做限定,这类方法适用面较广,可用于不同文种笔迹。在现有技术中,文本无关方法基于纹理分析,具体操作过程包括:对笔迹文本进行灰度扫描,采用人工方式将笔迹中的字符切分出来,获得多个字符的灰度图像;然后将每个字符图像归一化到一定大小,将一定数量的字符图像拼接成一个128×128大小的纹理图像块;对纹理图像块进行滤波或小波分析,得到滤波图像;将滤波图像的统计特性作为描述笔迹风格的纹理特征,最后度量不同纹理特征距离,比较纹理特征距离获得候选书写者名单。
在现有技术中,采用纹理分析方法将笔迹文本拼接成纹理块,在拼接纹理块时,字符拼接顺序本身就影响了纹理的生成,而且字符归一化也对笔迹纹理有一定破坏。字符拼接的次序实际影响了纹理特征的稳定性,尤其在字符形态差别巨大的中文笔迹上表现更加突出,因此,现有技术笔迹鉴别性能差,鉴别正确率低,从而影响了笔迹鉴别方法的通用性。
发明内容
为了提高对于多种文字笔迹的鉴别正确率和鉴别性能,本发明实施例提供了一种文本无关笔迹鉴别的方法和装置。所述技术方案如下:
一种文本无关笔迹鉴别的方法,所述方法包括:
对查询笔迹样本进行预处理,得到所述查询笔迹样本的边缘图像;
为所述查询笔迹样本设定一个固定大小的网格窗口,标定每个网格位置;
利用所述网格窗口遍历所述边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;
利用所述网格窗口的中心网格依次遍历所述边缘图像上所有边缘像素点,并分别统计所述查询笔迹样本中所述各类局部微结构出现的概率,得到查询笔迹样本网格微结构特征;
计算所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;
通过加权所述标准差,计算所述查询笔迹样本网格微结构特征与所述每个参考笔迹样本网格微结构特征的特征间距离;
对所述特征间距离进行比较排序,获得查询笔迹样本书写者候选列表。
一种文本无关笔迹鉴别的装置,所述装置包括:
预处理模块,用于对查询笔迹样本进行预处理,得到所述查询笔迹样本的边缘图像;
特征提取模块,用于为所述查询笔迹样本设定一个固定大小的网格窗口,标定每个网格位置;利用所述网格窗口遍历所述边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;利用所述网格窗口的中心网格依次遍历所述边缘图像上所有边缘像素点,并分别统计所述查询笔迹样本中所述各类局部微结构出现的概率,得到查询笔迹样本网格微结构特征;
权值计算模块,用于计算所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;
距离计算模块,用于通过加权所述标准差,计算不同维度上所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离;
比较模块,用于对所述特征间距离进行排序,获得查询笔迹样本书写者候选列表。
本发明实施例提供的技术方案的有益效果是:
本发明实施例通过对查询笔迹样本和多个参考笔迹样本分别进行预处理,提取网格微结构特征,比较查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离大小,获取查询笔迹样本的书写人候选列表,提高了笔迹鉴别的正确率和鉴别性能,同时提高了笔迹鉴别方法的通用性。
附图说明
图1是本发明实施例提供的文本无关笔迹鉴别的方法流程图;
图2是本发明实施例1提供的文本无关笔迹鉴别的方法流程图;
图3是本发明实施例1提供的预处理方法流程图;
图4是本发明实施例1提供的网格微结构特征提取的方法流程图;
图5是本发明实施例1提供的鉴别正确率与网格大小关系示意图;
图6是本发明实施例1提供的网格窗口结构示意图;
图7是本发明实施例1提供的局部微结构提取的示意图;
图8是本发明实施例2提供的文本无关笔迹鉴别的装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施方式作进一步地详细描述。
参见图1,本发明实施例提供了一种文本无关笔迹鉴别方法,包括:
101:对查询笔迹样本进行预处理,得到查询笔迹样本边缘图像;
102:从查询笔迹样本边缘图像中提取查询笔迹样本网格微结构特征;
103:计算查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;
104:通过加权标准差,计算查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离;
105:对特征间距离进行比较排序,获得查询笔迹样本书写者候选列表。
本发明实施例通过对查询笔迹样本和多个参考笔迹样本分别进行预处理,提取网格微结构特征,比较查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离大小,获取查询笔迹样本的书写人候选列表,提高了笔迹鉴别的正确率和鉴别性能,同时提高了笔迹鉴别方法的通用性。
实施例1
为了实现文本无关笔迹的鉴别,本发明通过提取笔迹样本的笔画层次信息,对书写人在书写笔画层次方面使用不同微结构的习惯进行描述,突出笔迹风格差异的本质,提出一种针对文本无关的笔迹鉴别方法,下面以一具体实施例详细描述。
参见图2,本发明实施例提供了一种文本无关笔迹鉴别方法,具体包括:
201:收集多个笔迹样本,作为参考笔迹样本,并对每个参考笔迹样本进行预处理,得到参考笔迹样本的边缘图像;
该参考笔迹样本可以为多文种笔迹样本,例如中文、英文、藏文和维吾尔文等。
参见图3,预处理过程具体包括:
201a:分别对每个参考笔迹样本进行灰度扫描,得到参考笔迹样本的灰度图像;
在本发明实施例中,灰度扫描指的是将每个参考笔迹样本在300dpi分辨率设置下进行扫描;
灰度图像为256阶灰度的图像文件;
201b:对每个参考笔迹样本的灰度图像进行二值化,得到参考笔迹样本的二值图像,如果参考笔迹样本中存在噪声信息,对该参考笔迹样本进行去噪处理;
二值图像指的是仅包含书写时笔迹像素信息的黑、白二值图像,其中所有黑像素点构成书写时的笔迹;
二值化指的是将笔迹样本的灰度图像转换为仅包含笔迹像素信息的黑、白二值图像的过程,二值化的关键是找到合适的阈值来区分不同笔迹样本的对象和背景,其中阈值由最大化对象和背景的类内方差确定;二值化过程可以采用Ostu算法;
该Ostu算法是利用最大类间方差法、判决分析最小二乘法推到得出,采用Ostu算法进行二值化具体为:统计灰度图像中不同灰度值的像素个数,除以总像素个数,得到概率密度函数;然后以阈值为基准将灰度级划分为前景和背景两类,并二值化为笔迹样本对象和笔迹样本背景,其中前景包括笔迹、格线、图像等,背景包括纸张等;
噪声信息指的是除笔迹像素信息外,其它非笔迹像素信息,包括格线、图片、花纹和印刷字符等;
去噪过程是一个附加过程,当参考笔迹样本中存在噪声信息时,二值化很难完全去除非笔迹像素信息,需要对二值图像进行去噪处理,可以采用连通域算法,对于图片、花纹等可以采用人工去除;
201c:对每个参考笔迹样本的二值图像进行边缘检测,得到参考笔迹样本的边缘图像;
边缘图像指的是通过对二值图像进行边缘检测找出边缘像素点,由边缘像素点构成的二值图像;
边缘检测可以采用以下方法:
利用梯度算子计算二值图像的梯度信息,并以梯度最大的位置作为二值图像边缘,然后利用基于噪声均方根估计的方法确定二值图像边缘的判决阈值,如果某像素点所在位置的梯度值大于该判决阈值,则该像素点为边缘像素点,查找多个边缘像素点最终获得边缘图像;
其中,判决阈值用于区分边缘像素点和非边缘像素点,一般以某一梯度值作为阈值;
梯度算子可以采用Sobel算子获取二值图像的梯度信息。
202:从每个参考笔迹样本的边缘图像中,分别提取参考笔迹样本的网格微结构特征;
网格微结构特征是一种概率密度函数特征,或称为直方图特征,网格窗口微结构特征可以表征书写人在笔画层次上的书写习惯,包括笔画结构的连续变化和相互关联。
参见图4,从边缘图像中提取网格微结构特征的具体步骤如下:
202a:为每个参考笔迹样本设定一个固定大小的网格窗口,标定每个网格位置;
具体地,假设设定一个大小为(2L+1)×(2L+1)的网格窗口;
其中,L表示网格窗口的中心网格到网格窗口的边缘网格的水平或垂直距离;网格窗口中除中心网格以外的每个网格位置都用序号im来标定,其中m是该网格位置与中心网格横坐标差和纵坐标差的较大值,即表示了该网格位置到中心网格的距离,i是用来区分距中心网格相同距离上的8m个网格位置;同一m取值的8m个网格位置,从水平方向按照逆时针顺序分别标定为0m,1m,2m......8m-1m;这样,(2L+1)×(2L+1)的网格窗口中除中心网格以外的网格位置均被标记,标记符号集为{im|1≤m≤L,0≤i≤8m-1};
网格越小,包含的信息也越少,不利于从中获取笔迹风格信息;如果网格太大,就会包括更多字符结构信息,这些信息会妨碍提取笔迹风格信息;如图5所示,当网格大小从9×9变化到21×21,即L取4到10时,首选、前5选、前10选和前20选鉴别正确率的变化情况;
参见图6,本发明实施例使用一个9×9的网格窗口,即L=4,其中除中心网格以外的网格位置均已被标定。
202b:利用参考笔迹样本的网格窗口遍历该参考笔迹样本的边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;
局部微结构指的是遍历边缘图像过程中,网格窗口位于每一个边缘像素点时,覆盖的局部区域满足一定位置关系的特殊的边缘像素点对;能够反映书写人书写笔画的长短、粗细、方向、弯曲程度和笔画间关联等特征;
本发明实施例中,局部微结构包括位于同一笔迹边缘图像上且与中心网格距离相等的边缘像素点对和位于同一笔迹边缘图像上且与中心网格距离不等但相互最临近的边缘像素点对;
具体地,
满足以下三组条件的边缘像素点集合分别组成三类不同的局部微结构,这三类局部微结构是在所有局部微结构中相对最有效的三类局部微结构;
三组条件分别如下:
第一组条件记为条件组一,如下所示
Figure GSB00000086363400061
第二组条件记为条件组二,如下所示
Figure GSB00000086363400062
第三组条件记为条件组三,如下所示
Figure GSB00000086363400071
每类局部微结构可以用序号对<im,jl>来表示,<im,jl>是指在网格位置im和jl上同时出现一对边缘像素点,其中,1≤m,l≤L,0≤i≤8m-1,0≤j≤8l-1;满足上述三组条件的<im,jl>集合即为在网格窗口遍历过程中所要考察的局部微结构,下面以一具体例子详细描述按照上述三组条件提取局部微结构的过程;
参见图7,图中右侧是一个参考笔迹样本边缘图像的一部分,其中包含一个手写汉字“但”;图中左侧是9×9网格窗口的放大示意图,该9×9网格窗口位于右侧边缘图像中灰框所在的位置,中心网格落在边缘图像中一个边缘像素点上,其中灰黑色的网格上有边缘像素点;
满足条件组一的局部微结构包括:<11,61>、<32,112>、<43,173>、<93,103>、<203,233>、<64,224>、<104,154>、<154,164>、<164,174>和<264,314>;
满足条件组二的局部微结构包括:<11,32>、<61,112>、<32,43>、<112,173>、<142,203>、<142,233>、<43,64>、<93,104>、<103,154>、<103,164>、<103,174>、<173,224>、<203,264>和<233,314>;
满足条件组三的局部微结构包括:<11,43>、<61,173>、<32,64>、<112,224>、<142,264>和<142,314>;
三类局部微结构反映了局部区域内笔画的延展长度、延展方向和笔画间的相互位置关系;
202c:网格窗口的中心网格依次遍历每个参考笔迹样本的边缘图像上所有边缘像素点,并分别统计各类局部微结构出现的概率,得到网格微结构特征;
本发明实施例中有三类局部微结构,统计过程分为三个阶段:
第一阶段:初始化
用变量族{h(im,jl)|1≤m≤L,0≤i≤8m-1,1≤l≤L,0≤j≤8l-1}来记录不同局部微结构在整幅边缘图像中出现的次数,在遍历开始之前,将变量族{h(im,jl)}的每一个变量h(im,jl)均初始化为零,即令
h(im,jl)=0  (4)
对所有的<im,jl>成立,其中1≤m,l≤L,0≤i≤8m-1,0≤j≤8l-1;
第二阶段:遍历过程中
当网格窗口的中心网格移动到一个新的边缘像素点时,在该网格窗口区域内查找符合三组条件集合的边缘像素点对;若出现满足条件的局部微结构<im,jl>,令其对应的记录变量h(im,jl)作自加一运算,即
h(im,jl)=h(im,jl)+1   (5)
当记录完窗口区域内的所有局部微结构,网格窗口中心再移动到下一个边缘像素点位置;如此反复,当网格窗口中心遍历完边缘图像中的所有边缘像素点时,h(im,jl)的值就是在整幅图像中出现微结构<im,jl>的次数;
第三阶段:遍历结束后
三个变量族{h(im,jl)}记录了三类局部微结构在边缘图像中出现的次数;将三个变量族{h(im,jl)}的各个元素相加,得到三类局部微结构出现的总次数,记为H,即
H = &Sigma; m = 1 L &Sigma; l = 1 L &Sigma; i = 0 8 m - 1 &Sigma; j = 0 8 l - 1 h ( i m , j l ) - - - ( 6 )
分别用三类局部微结构的出现次数除以总次数H,得到三类局部微结构在整幅边缘图像中的出现概率,用p(im,jl)来表示局部微结构<im,jl>的出现概率值,即有
p = ( i m , j l ) = h ( i m , j l ) H . - - - ( 7 )
所有概率值满足
&Sigma; m = 1 L &Sigma; l = 1 L &Sigma; i = 0 8 m - 1 &Sigma; j = 0 8 l - 1 p ( i m , j l ) = 1 - - - ( 8 )
由所有概率值共同组成的概率值族{p(im,jl)}就构成了三类不同的局部微结构在整幅边缘图像中出现的离散概率密度分布,该概率密度分布即为网格微结构特征,反应了书写人在笔画层次上的书写习惯;本发明实施例中的网格微结构特征是局部微结构中边缘像素点对出现在全局边缘图像的概率分布。
203:将每个参考笔迹样本的网格微结构特征与相应的参考笔迹样本的书写人信息存入数据库;
本发明实施例中该数据库为参考笔迹特征库。
204:获取数据库中所有参考笔迹样本的网格微结构特征向量,并计算所有参考笔迹样本在各个维度上的均值特征向量和标准差特征向量;
网格微结构特征可以拼接为一个高维向量,每个参考笔迹样本的网格微结构特征可以看作一个特征向量;
假设数据库中有N个参考笔迹样本,各个参考笔迹样本的特征向量用vRn来表示,其中1≤n≤N;
假设提取出的参考笔迹样本的网格微结构特征共有K维,特征向量vRn的第k维分量用vRn k来表示,其中1≤k≤k;网格微结构特征的维数与特征提取使用的网格窗口大小有关,网格窗口越大,特征维数越高;
假设参考笔迹样本的网格微结构特征在各个维度上的均值和标准差分别用mk和σk表示,其中1≤k≤k,则对于K维特征中的第k维,N个参考笔迹样本在第k维上的均值和标准差分别为
m k = 1 N &Sigma; n = 1 N v Rn k - - - ( 9 )
&sigma; k = 1 N - 1 &Sigma; n = 1 N ( v Rn k - m k ) 2 - - - ( 10 )
标准差反映了参考笔迹样本在某一维度上特征值的离散程度,如果该维度上的标准差越小,不同参考笔迹样本在该维度上的特征值越集中,那么,同样的特征值差异在该维度上就应该得到更多的权重;反之,如果某一维度上的标准差越大,不同样本在该维度上的特征值就越分散,此时,同等的特征值差异就需要更低的权重。
205:对查询笔迹样本进行预处理,得到查询笔迹样本的边缘图像;
预处理过程与201a~201c所述方法相同,此处不赘述。
206:从查询笔迹样本的边缘图像中,提取查询笔迹样本的网格微结构特征;
提取查询笔迹样本的网格微结构特征的过程与202a~202c所述方法相同,此处不赘述。
207:获取查询笔迹样本的网格微结构特征向量;
假设查询笔迹样本的网格微结构特征向量为vQ,其维数仍然为K,则第k维特征分量用vQ k来表示。
208:利用参考笔迹样本的标准差加权算法,计算不同维度上查询笔迹样本与参考笔迹样本的特征相似度,即查询笔迹样本与参考笔迹样本特征间距离;
特征相似度是关于特征间距离的一个函数,特征相似度与特征间距离成反比关系,特征间距离越小,特征相似度越高;
网格微结构特征为一个高维特征向量,可以表示高维空间中的一个坐标点,计算两个笔迹样本的特征相似度转化为计算网格微结构特征高维空间中两点间的距离;
常用的高维空间中两点间的距离计算方法有曼哈顿距离、欧式距离、巴氏距离、卡方距离等,这些距离计算方法在计算各个维度上的差异值后直接合并这些差异值,没有考虑各个维度的不同效力;而网格微结构特征是一个高维特征,每一个维度的特征都代表一种局部微结构的出现概率,反应的是书写人在这种局部微结构上所体现的书写习惯,不同的局部微结构对书写习惯的刻画能力不同,具体地,
如果不同书写人都习惯使用或都不习惯使用某种局部微结构,则不同书写人笔迹中出现该局部微结构的概率就差不多,该维特征对笔迹风格差异的描述能力就差;如果有的书写者习惯使用某种局部微结构而另外的书写者不习惯使用,则不同书写人笔迹中出现该局部微结构的概率就差别较大,该维特征对笔迹风格差异的描述能力就强;
基于以上分析,笔迹风格在不同局部微结构上体现的程度不同,每个维度的特征相似度应该有不同的权重,因此,本发明实施例不采用上述简单的距离计算方法,而利用各个维度上的标准差对不同维度上的特征相似度进行不同权值的加权,具体地,
选用欧式距离,计算特征向量间的加权欧式距离距离为:
d WED = &Sigma; k = 1 K ( v Q k - v Rn k &sigma; k ) 2 - - - ( 11 )
选用曼哈顿距离,计算特征向量间的加权曼哈顿距离为:
d WMD = &Sigma; k = 1 K | v Q k - v Rn k &sigma; k | - - - ( 12 )
选用卡方距离,计算特征向量间的加权卡方距离为:
d WCD = &Sigma; k = 1 K ( v Q k - v Rn k ) 2 ( v Q k + v Rn k ) &sigma; k - - - ( 13 )
本发明实施例中,可以使用这三种加权距离计算方法中的任意一种,经过加权后,各个维度上的特征值差异对笔迹风格的分辨力变得更加均衡,三种距离度量方法的性能差异也不再明显。
209:将查询笔迹样本与各个参考笔迹样本的特征间距离进行排序,获得查询笔迹样本的书写者候选列表,选取特征间距离最小的参考笔迹样本,对应的书写者为查询笔迹样本的最可能的书写者;
查询笔迹样本与某一参考笔迹样本特征向量间的距离越小,说明查询笔迹样本与参考笔迹样本的特征越相似,则该参考笔迹样本的书写人越可能是该查询笔迹样本的书写者;
本发明实施例中,N个参考笔迹样本特征里必存在一个vRi满足
v Ri = arg min v Rn d ( v Q , v Rn ) , - - - ( 14 )
而vRi是参考笔迹样本库中第i个参考笔迹样本的特征向量,那么,第i个参考笔迹样本的书写人就作为查询笔迹样本的首选书写者;如果选取前若干个与查询笔迹样本特征有最小距离的参考笔迹样本,这些选出的参考笔迹样本所对应的书写人组成查询笔迹样本的前若干选候选书写人列表。
不同的距离度量方法对笔迹鉴别性能有一定影响,如表1所示,给出了在六种不同的距离度量方法下鉴别性能的变化情况,这六种距离度量分别为欧式距离、曼哈顿距离、卡方距离、加权欧式距离、加权曼哈顿距离和加权卡方距离。由表1可见,本发明实施例采用的加权距离度量的性能比原始版的性能有了很大的提高。在前面三种原始距离度量方法中,欧氏距离的性能远逊于卡方距离和曼哈顿距离,而卡方距离比曼哈顿距离性能稍强。后面三种加权距离度量方法的性能相当,加权欧氏距离性能略差,加权卡方距离和加权曼哈顿距离性能最好。相比较而言,加权曼哈顿距离在多数情况下可取得最好的性能。
表1不同距离度量方法对笔迹鉴别性能的影响
Figure GSB00000086363400112
本发明实施例提出的笔迹鉴别方法获得的最高鉴别正确率为95.4%,说明了本发明实施例提供的方法在中文笔迹鉴别上的有效性。
采用本发明实施例提供的方法在英文、藏文和维吾尔文笔迹库上进行实验,如表2所示,给出了在中文、英文、藏文和维吾尔文四个不同的笔迹库上使用该笔迹鉴别方法的鉴别正确率。
表2基于网格微结构特征的笔迹鉴别方法在不同文种笔迹库上的性能
Figure GSB00000086363400121
可见,本发明实施例提供的基于网格微结构特征的笔迹鉴别方法在不同文种笔迹上具有很好的鉴别性能,适用性广,正确率高。
本发明实施例通过对查询笔迹样本和多个参考笔迹样本分别进行预处理,提取网格微结构特征作为对笔迹风格的量化特征,并将查询笔迹样本的网格微结构特征与每个参考笔迹样本的网格微结构特征分别计算加权距离,以加权距离度量作为笔迹样本间相似度的度量方法,通过比较查询笔迹样本与每个参考笔迹样本特征间距离大小,将与查询笔迹样本特征距离最小的参考笔迹样本所对应的书写者作为查询笔迹样本的首选候选书写者,该方法通过提取笔画层次信息,在笔画层次上对书写人的书写习惯进行描述,提高了笔迹鉴别的正确率和鉴别性能,同时提高了笔迹鉴别方法的通用性。
实施例2
参见图7,本发明实施例提供了一种文本无关笔迹鉴别的装置,具体包括:
预处理模块701,用于对收集到的多个参考笔迹样本和需要鉴别的查询笔迹样本进行预处理,分别得到多个参考笔迹样本边缘图像和查询笔迹样本边缘图像;
预处理模块701对笔迹样本进行预处理的过程详见步骤201a~201c,此处不赘述;
特征提取模块702,用于分别从预处理模块701得到的每个参考笔迹样本边缘图像和查询笔迹样本边缘图像中提取相应的参考笔迹样本网格微结构特征和查询笔迹样本网格微结构特征;
特征提取模块702提取网格微结构特征的方法详见步骤202a~202c,此处不赘述;
存储模块703,用于存储每个参考笔迹样本的网格微结构特征与相应的参考笔迹样本的书写人信息;
权值计算模块704,用于计算存储模块703中每个参考笔迹样本的网格微结构特征向量在各个维度上的均值和标准差;
均值和标准差的计算方法:
假设数据库中有N个参考笔迹样本,各个参考笔迹样本的特征向量用vRn来表示,其中1≤n≤N;
假设提取出的参考笔迹样本的网格微结构特征共有K维,特征向量vRn的第k维分量用vRn k来表示,其中1≤k≤k;网格微结构特征的维数与特征提取使用的网格窗口大小有关,网格窗口越大,特征维数越高;
假设参考笔迹样本的网格微结构特征在各个维度上的均值和标准差分别用mk和σk表示,其中1≤k≤k,则对于K维特征中的第k维,N个参考笔迹样本在第k维上的均值和标准差分别为
m k = 1 N &Sigma; n = 1 N v Rn k - - - ( 15 )
&sigma; k = 1 N - 1 &Sigma; n = 1 N ( v Rn k - m k ) 2 - - - ( 16 )
距离计算模块705,用于利用参考笔迹样本标准差加权算法,计算不同维度上查询比较样本与各个参考笔迹样本的特征间距离;
通过对不同维度上的标准差进行不同权值的加权,计算不同维度上查询比较样本与各个参考笔迹样本的特征间距离,特征间距离的三种计算方法如下:
加权欧式距离算法、加权曼哈顿距离算法和加权卡方距离算法分别为:
d WED = &Sigma; k = 1 K ( v Q k - v Rn k &sigma; k ) 2 - - - ( 17 )
d WMD = &Sigma; k = 1 K | v Q k - v Rn k &sigma; k | - - - ( 18 )
d WCD = &Sigma; k = 1 K ( v Q k - v Rn k ) 2 ( v Q k + v Rn k ) &sigma; k - - - ( 19 )
本发明实施例中,可以使用这三种加权距离计算方法中的任意一种,经过加权后,各个维度上的特征值差异对笔迹风格的分辨力变得更加均衡,三种距离度量方法的性能差异也不再明显;
比较模块706,用于将查询笔迹样本与各个参考笔迹样本的特征间距离进行比较排序,获得查询笔迹样本的候选书写者名单,选取特征间距离最小的,对应的参考笔迹样本的书写人为查询笔迹样本的首选书写者;
查询笔迹样本与某一参考笔迹样本特征向量间的距离越小,说明查询笔迹样本与参考笔迹样本的特征越相似,则该参考笔迹样本的书写人越可能是该查询笔迹样本的书写者;
本发明实施例中,N个参考笔迹样本特征里必存在一个vRi满足
v Ri = arg min v Rn d ( v Q , v Rn ) , - - - ( 20 )
而vRi是参考笔迹样本库中第i个参考笔迹样本的特征向量,那么,第i个参考笔迹样本的书写人就作为查询笔迹样本的首选书写者;如果选取前若干个与查询笔迹样本特征有最小距离的参考笔迹样本,这些选出的参考笔迹样本所对应的书写人组成查询笔迹样本的前若干选候选书写人列表。
进一步地,预处理模块701具体包括:
扫描单元7011,用于对多个参考笔迹样本和查询笔迹样本进行灰度扫描,分别得到笔迹样本的灰度图像和查询笔迹样本的灰度图像;
二值化单元7012,用于对灰度图像进行二值化,得到参考笔迹样本的二值图像和查询笔迹样本的二值图像;
去噪单元7013,用于在参考笔迹样本和查询笔迹样本中存在噪声信息的情况下,对参考笔迹样本和查询笔迹样本进行去噪处理;
其中,噪声信息指的是除笔迹像素信息外,其它非笔迹像素信息,包括格线、图片、花纹和印刷字符等;
边缘检测单元7014,用于对二值图像进行边缘检测,得到参考笔迹样本的边缘图像和查询笔迹样本的边缘图像。
特征提取模块702具体包括:
网格设定单元7021,用于为每个参考笔迹样本和查询笔迹样本分别设定一个固定大小的网格窗口,标定每个网格位置;
局部微结构提取单元7022,用于利用参考笔迹样本和查询笔迹样本各自的网格窗口遍历相应的边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;
概率统计单元7023,用于利用网格窗口的中心网格依次遍历相应的边缘图像上所有边缘像素点,并分别统计参考笔迹样本和查询笔迹样本中各种局部微结构出现的概率,得到参考笔迹样本的网格微结构特征和查询笔迹样本的网格微结构特征。
本发明实施例通过预处理模块分别对多个参考笔迹样本和查询笔迹样本预处理,分别得到多个参考笔迹样本边缘图像和查询笔迹样本边缘图像,经过特征提取模块提取每个参考笔迹样本和查询笔迹样本的网格微结构特征,通过第二计算模块的参考笔迹样本标准差加权算法,得到查询笔迹样本与每个参考笔迹样本在各个维度上的特征间距离,由比较模块比较所有特征间距离并排序,获取查询笔迹样本的候选书写者,该方法通过提取笔画层次信息,在笔画层次上对书写人的书写习惯进行描述,提高了笔迹鉴别的正确率和鉴别性能,同时提高了笔迹鉴别方法的通用性。
以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种文本无关笔迹鉴别的方法,其特征在于,所述方法包括:
对查询笔迹样本进行预处理,得到所述查询笔迹样本的边缘图像;
为所述查询笔迹样本设定一个固定大小的网格窗口,标定每个网格位置;
利用所述网格窗口遍历所述边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;
利用所述网格窗口的中心网格依次遍历所述边缘图像上所有边缘像素点,并分别统计所述查询笔迹样本中所述各类局部微结构出现的概率,得到查询笔迹样本网格微结构特征;
计算所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;
通过加权所述标准差,计算所述查询笔迹样本网格微结构特征与所述每个参考笔迹样本网格微结构特征的特征间距离;
对所述特征间距离进行比较排序,获得查询笔迹样本书写者候选列表。
2.如权利要求1所述的方法,其特征在于,所述对查询笔迹样本进行预处理,得到所述查询笔迹样本的边缘图像,具体为:
对所述查询笔迹样本进行灰度扫描,得到所述查询笔迹样本的灰度图像;
对所述灰度图像进行二值化,得到所述查询笔迹样本的二值图像,如果所述查询笔迹样本中存在噪声信息,对所述查询笔迹样本进行去噪处理;
对所述二值图像进行边缘检测,得到所述查询笔迹样本的边缘图像。
3.如权利要求1所述的方法,其特征在于,所述各类局部微结构包括:
位于同一笔迹边缘图像上且与中心网格距离相等的边缘像素点对;
位于同一笔迹边缘图像上且与中心网格距离不等但相互最临近的边缘像素点对。
4.如权利要求1所述的方法,其特征在于,所述通过加权所述标准差,计算所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离,具体为:
将一个所述参考笔迹样本网格微结构特征和所述查询笔迹样本网格微结构特征看作两个高维特征向量;
通过对所述标准差进行不同权值的加权,利用标准差加权欧式距离算法
d WED = &Sigma; k = 1 K ( v Q k - v Rn k &sigma; k ) 2
利用标准差加权曼哈顿距离算法
d WMD = &Sigma; k = 1 K | v Q k - v Rn k &sigma; k |
利用标准差加权卡方距离算法
d WCD = &Sigma; k = 1 K ( v Q k - v Rn k ) 2 ( v Q k + v Rn k ) &sigma; k
计算所述两个高维特征向量在高维空间中的特征间距离,其中,dWED表示将所述两个高维特征向量间的加权欧式距离作为所述在高维空间中的特征间距离,dWMD表示将所述两个高维特征向量间的加权曼哈顿距离作为所述在高维空间中的特征间距离,dWCD表示将所述两个高维特征向量间的加权卡方距离作为所述在高维空间中的特征间距离,K表示所述参考笔迹样本网格微结构特征的维数,vRn k表示所述参考笔迹样本网格微结构特征向量的第k维特征分量,1≤k≤K,σk表示所述参考笔迹样本网格微结构特征在第k个维度上的标准差,vQ k表示所述查询笔迹样本网格微结构特征向量的第k维特征分量。
5.一种文本无关笔迹鉴别的装置,其特征在于,所述装置包括:
预处理模块,用于对查询笔迹样本进行预处理,得到所述查询笔迹样本的边缘图像;
特征提取模块,用于为所述查询笔迹样本设定一个固定大小的网格窗口,标定每个网格位置;利用所述网格窗口遍历所述边缘图像,在遍历过程中分别提取局部区域的各类局部微结构;利用所述网格窗口的中心网格依次遍历所述边缘图像上所有边缘像素点,并分别统计所述查询笔迹样本中所述各类局部微结构出现的概率,得到查询笔迹样本网格微结构特征;
权值计算模块,用于计算所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征在不同维度上的标准差;
距离计算模块,用于通过加权所述标准差,计算不同维度上所述查询笔迹样本网格微结构特征与每个参考笔迹样本网格微结构特征的特征间距离;
比较模块,用于对所述特征间距离进行排序,获得查询笔迹样本书写者候选列表。
6.如权利要求5所述的装置,其特征在于,所述预处理模块具体包括:
扫描单元,用于对所述查询笔迹样本进行灰度扫描,得到所述查询笔迹样本的灰度图像;
二值化单元,用于对所述灰度图像进行二值化,得到所述查询笔迹样本的二值图像;
去噪单元,用于在所述查询笔迹样本中存在噪声信息时,对所述查询笔迹样本进行去噪处理;
边缘检测单元,用于对所述二值图像进行边缘检测,得到所述查询笔迹样本的边缘图像。
7.如权利要求5所述的装置,其特征在于,所述距离计算模块,具体用于将一个所述参考笔迹样本网格微结构特征和所述查询笔迹样本网格微结构特征看作两个高维特征向量;通过对所述标准差进行不同权值的加权,利用标准差加权欧式距离算法
d WED = &Sigma; k = 1 K ( v Q k - v Rn k &sigma; k ) 2
利用标准差加权曼哈顿距离算法
d WMD = &Sigma; k = 1 K | v Q k - v Rn k &sigma; k |
利用标准差加权卡方距离算法
d WCD = &Sigma; k = 1 K ( v Q k - v Rn k ) 2 ( v Q k + v Rn k ) &sigma; k
计算所述两个高维特征向量在高维空间中的特征间距离,其中,dWED表示将所述两个高维特征向量间的加权欧式距离作为所述在高维空间中的特征间距离,dWMD表示将所述两个高维特征向量间的加权曼哈顿距离作为所述在高维空间中的特征间距离,dWCD表示将所述两个高维特征向量间的加权卡方距离作为所述在高维空间中的特征间距离,K表示所述参考笔迹样本网格微结构特征的维数,vRn k表示所述参考笔迹样本网格微结构特征向量的第k维特征分量,1≤k≤K,σk表示所述参考笔迹样本网格微结构特征在第k个维度上的标准差,vQ k表示所述查询笔迹样本网格微结构特征向量的第k维特征分量。
CN2008102400925A 2008-12-18 2008-12-18 一种文本无关笔迹鉴别的方法和装置 Active CN101452532B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008102400925A CN101452532B (zh) 2008-12-18 2008-12-18 一种文本无关笔迹鉴别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008102400925A CN101452532B (zh) 2008-12-18 2008-12-18 一种文本无关笔迹鉴别的方法和装置

Publications (2)

Publication Number Publication Date
CN101452532A CN101452532A (zh) 2009-06-10
CN101452532B true CN101452532B (zh) 2010-09-08

Family

ID=40734752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008102400925A Active CN101452532B (zh) 2008-12-18 2008-12-18 一种文本无关笔迹鉴别的方法和装置

Country Status (1)

Country Link
CN (1) CN101452532B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101937477B (zh) * 2009-06-29 2013-03-20 鸿富锦精密工业(深圳)有限公司 实现图档拟合的数据处理设备、系统及方法
CN102096809B (zh) * 2011-01-25 2014-06-25 重庆大学 一种基于局部轮廓结构编码的笔迹鉴别方法
CN102157078B (zh) * 2011-03-04 2013-03-20 博视联(苏州)信息科技有限公司 双屏电子书包的笔迹保存系统及其保存方法
CN102324048B (zh) * 2011-09-07 2013-07-31 中国刑事警察学院 笔痕特征计算机量化比对辅助分析系统
CN104299000A (zh) * 2014-10-09 2015-01-21 南通大学 基于局部片段分布特征的笔迹识别方法
CN104392229B (zh) * 2014-10-09 2018-01-05 南通大学 基于笔画片段方向分布特征的笔迹识别方法
CN106529490B (zh) * 2016-11-15 2019-10-18 华东理工大学 基于稀疏自编码码本实现笔迹鉴别的系统及方法
CN107578039A (zh) * 2017-10-08 2018-01-12 王奕博 基于数字图像处理技术的字迹轮廓比对方法
CN110020655B (zh) * 2019-04-19 2021-08-20 厦门商集网络科技有限责任公司 一种基于二值化的字符去噪方法及终端

Also Published As

Publication number Publication date
CN101452532A (zh) 2009-06-10

Similar Documents

Publication Publication Date Title
CN101452532B (zh) 一种文本无关笔迹鉴别的方法和装置
CN102346847B (zh) 一种支持向量机的车牌字符识别方法
Cattoni et al. Geometric layout analysis techniques for document image understanding: a review
CN103034848B (zh) 一种表单类型的识别方法
Kumar et al. Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition
CN101840514B (zh) 图像对象分类装置及方法
CN101976258B (zh) 基于对象分割和特征加权融合的视频语义提取方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
Sabourin et al. Off-line identification with handwritten signature images: survey and perspectives
CN102629322B (zh) 一种基于边界点笔画形状的字符特征提取方法及应用
Pinto et al. Music score binarization based on domain knowledge
CN106529532A (zh) 一种基于积分特征通道与灰度投影的车牌识别系统
Aouadi et al. Word extraction and recognition in arabic. handwritten Text
Biswas et al. Features extraction and verification of signature image using clustering technique
Djeddi et al. Writer recognition on arabic handwritten documents
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
Garz et al. A binarization-free clustering approach to segment curved text lines in historical manuscripts
Mehri et al. A texture-based pixel labeling approach for historical books
De Stefano et al. Layout measures for writer identification in mediaeval documents
Anjum et al. Design and Simulation of Handwritten Gurumukhi and Devanagri Numerals Recognition
CN104899551B (zh) 一种表单图像分类方法
Zhan et al. A robust split-and-merge text segmentation approach for images
CN103942572A (zh) 一种基于双向压缩数据空间维度缩减的面部表情特征提取方法和装置
Li et al. Image pattern recognition in identification of financial bills risk management
Dai et al. Scene text detection based on enhanced multi-channels MSER and a fast text grouping process

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant