CN104077604A - 一种文本内容无关的褶皱中文手写体鉴别方法 - Google Patents
一种文本内容无关的褶皱中文手写体鉴别方法 Download PDFInfo
- Publication number
- CN104077604A CN104077604A CN201410341142.4A CN201410341142A CN104077604A CN 104077604 A CN104077604 A CN 104077604A CN 201410341142 A CN201410341142 A CN 201410341142A CN 104077604 A CN104077604 A CN 104077604A
- Authority
- CN
- China
- Prior art keywords
- picture
- handwriting
- scattering
- irrelevant
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 230000037303 wrinkles Effects 0.000 title abstract 3
- 238000006243 chemical reaction Methods 0.000 claims abstract description 19
- 238000012850 discrimination method Methods 0.000 claims description 16
- 238000013179 statistical model Methods 0.000 claims description 6
- 230000009466 transformation Effects 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 230000003247 decreasing effect Effects 0.000 claims description 3
- 230000004807 localization Effects 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000013519 translation Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 150000001875 compounds Chemical class 0.000 description 3
- 230000007812 deficiency Effects 0.000 description 2
- 230000005489 elastic deformation Effects 0.000 description 2
- 241000544061 Cuculus canorus Species 0.000 description 1
- 244000287680 Garcinia dulcis Species 0.000 description 1
- 230000004791 biological behavior Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提出了一种文本内容无关的褶皱中文手写体鉴别方法,属于字迹鉴别领域。该方法包括:1)将手写体文本扫描后输入到计算机,对得到的手写体图像进行预处理;2)根据手写体图像建立图片数据库;3)对图片数据库中的每张图片进行散射变换,得到其散射系数;4)对散射系数进行拟合,并建立统计模型;5)查找与待鉴别的手写体图像相对应的统计模型;6)计算待鉴别的手写体图像与候选图片之间的KL距离;7)计算识别准确率;8)对实验结果进行对比分析和统计。本发明所采用的方法与现有的技术相比,能够在相同时间的花销下取得较高的识别率;尤其针对褶皱情况下的笔迹识别,能够较好地抵抗褶皱,仍然获得较高的正确识别率。
Description
技术领域
本发明涉及字迹鉴别领域,特别涉及一种文本内容无关的褶皱中文手写体鉴别方法。
背景技术
手写体笔迹识别是根据笔迹对书写者进行身份认证的一种基于生物行为识别技术,已在安防、金融等领域得到了广泛的应用,并逐渐成为计算机视觉和模式识别领域中研究的热点。通常根据笔迹是否与文本的内容相关,将其分为与文本相关的脱线笔迹识别和与文本无关的脱线笔迹识别两类。与文本无关的脱线笔迹识别克服了前者与书写内容相关的不足,在实际应用中具有制约少,数据易获取等特点,已得到广泛应用。
与文本无关的脱线笔迹鉴别方法主要有局部特征方法和全局特征方法。局部方法主要通过建立笔迹字典等作为身份鉴别的依据,局部方法对文本图像质量要求较高,通过提取图像的局部特征笔画建立特征库,进行身份鉴别;全局方法将文本图像的内容笔迹视作纹理,提取其纹理特征作为识别依据。20世纪70年代Duverony、Kuckuck认为书写者的笔迹特征变化主要表现在傅里叶谱的低频部分,提出了利用傅里叶变换(FFT)的方法来进行笔迹识别;1998年Said等提出了应用2D-Gabor结合欧式权距离(WED)分类器来进行笔迹身份识别;2005年以后,HeZhenyu等提出了轮廓波变换(CT)结合广义高斯分布(GGD)模型的中文笔迹身份识别方法、基于小波分解(DWT)结合GGD模型方法做身份识别和传统金字塔小波变换结合隐马尔科夫树模型(HMT)的方法对中文笔迹进行身份识别;2008年Xu等提出了利用对偶树复小波(DTCWT)变换和GGD相结合的方法;2011年朱贝贝等提出利用抗混叠轮廓波(NACT)结合GGD[10]和金字塔复方向滤波器组(PDTDFB)结合GGD的方法。
以上方法处理的数据都是正常情况下获取的文本图像,但是在实际应用中,获取的笔迹文本图像可能是对褶皱纸张扫描后获取的文本图像,因纸张褶皱所产生的笔迹会出现一定程度的平移和局部弹性形变,造成相同的文本图像存在一定的视觉差异,笔迹产生了局部平移和局部形变等变化,局部特征方法进行笔迹鉴别时,需对文本图像进行二值化处理,褶皱的笔迹图像由于形变对二值化图像的影响结果较大,且这种影响是随机的和不确定的,使得局部特征方法提取的笔画特征表示的特征质量降低,因此局部特征方法难以处理褶皱笔迹鉴别,所以对褶皱中文笔迹身份进行鉴别,其描述特征应具有局部平移不变性和局部形变稳定性。上述方法所描述的特征不具有局部平移不变性和局部形变稳定性,均难以处理褶皱情况下的笔迹鉴别,因此褶皱中文手写体鉴别方法的研究非常有意义。
发明内容
有鉴于此,本发明的目的在于克服上述不足,提供一种文本内容无关的褶皱中文手写体鉴别方法,该方法通过利用散射变换的平移不变性和弹性形变稳定性,较好的解决了褶皱情况下的笔迹识别问题。
本发明的目的是通过以下技术方案实现的:
一种文本内容无关的褶皱中文手写体鉴别方法,包括以下步骤:
1)将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;
2)根据手写体图像建立图片数据库;
3)对图片数据库中的每张图片进行散射变换,得到其散射系数;
4)对散射系数进行拟合,得到图片对应的拟合参数α、β,并建立统计模型;
5)查找与待鉴别的手写体图像相对应的统计模型;
6)计算待鉴别的手写体图像与候选图片之间的KL距离;
7)计算识别准确率;
8)对实验结果进行对比分析和统计。
进一步的,步骤1)中所所述的对自己图像进行预处理包括以下步骤:
1-1)除去手写体图像中的噪声和无关字符;
1-2)用定位文本行和投影的方法对单独的字符分割;
1-3)把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。
进一步的,步骤2)中所述的根据手写体图像建立图片数据库:
选取n个书写者的2n幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了m幅图片,最终形成具有2nm幅图片的数据库。
进一步的,n不小于30;m不小于10。
进一步的,步骤3)中所述散射变换的方法为:
在散射变换中第一阶散射变换的构造如下:
|f*ψj,γ|*φJ(x) (1)
其中:f为图片,*表示卷积操作,ψj,γ(x)=2-2jψ(2-jRγx)为小波,j,γ分别为尺度和方向,φJ(x)=2-2Jφ(2-Jx)为低通滤波器;
因低通滤波器φJ作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式(2):
公式(2)中丢失的高频信息又可通过下一轮的小波再分解得以恢复,则第q阶散射变换为:
其中:Sq,Jf(x)为在q阶、J个尺度下的散射系数;J为散射变换的尺度数;Γq为1到q各个阶层上的变换方向数集合;
散射表达包括所有尺度和方向的散射系数,即:
若小波变换的方向数为C,则第q阶散射变换沿频率递减的路径数为 前q阶的路径总数为 设图片的像素大小为N,采样值为ω2J(=1或0.5),则每条散射路径有Nω-22-2J个散射系数;
则前q阶散射系数的总数,即散射算子的系数为:
进一步的,步骤4)中对散射系数进行拟合的方法为Gamma拟合,且得到的拟合参数α为尺度参数,用于模拟了概率密度函数峰值的宽度;拟合参数β为形状参数,用于模拟反比例于定点的下降速率。
进一步的,步骤6)所述的计算待鉴别的手写体图像与候选图片之间的KL距离的方法为:
其中:ψ为双伽玛函数,αi、βi为待鉴别的手写体图像i所对应的拟合参数;αj、βj为图片数据库中的图片j对应的拟合参数。
进一步的,步骤7)所述计算识别准确率的方法为:
其中:K表示属于同一个书写者的图片数目;Ri表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。
本发明的优点在于:本发明所采用的方法与现有的技术相比,能够在相同时间的花销下取得较高的识别率。尤其针对褶皱情况下的笔迹识别,本发明能够较好地抵抗褶皱,仍然获得较高的正确识别率,优于现有的技术。
本发明的其它优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其它优点可以通过下面的说明书,权利要求书,以及附图中所特别指出的结构来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明一种文本内容无关的褶皱中文手写体鉴别方法的流程图;
图2为本发明的散射变换方法的框架图。
具体实施方式
以下是本发明优选实施例的详细描述,应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
图1为本发明一种文本内容无关的褶皱中文手写体鉴别方法的流程图;参照图1,一种文本内容无关的褶皱中文手写体鉴别方法,包括以下步骤:
1)将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;
2)根据手写体图像建立图片数据库;
3)对图片数据库中的每张图片进行散射变换,得到其散射系数;
4)对散射系数进行拟合,得到图片对应的拟合参数α、β,并建立统计模型;
5)查找与待鉴别的手写体图像相对应的统计模型;
6)计算待鉴别的手写体图像与候选图片之间的KL距离;
7)计算识别准确率;
8)对实验结果进行对比分析和统计。
步骤1)中所所述的对自己图像进行预处理包括以下步骤:
1-1)除去手写体图像中的噪声和无关字符;
1-2)用定位文本行和投影的方法对单独的字符分割;
1-3)把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。
步骤2)中所述的根据手写体图像建立图片数据库:
选取n个书写者的2n幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了m幅图片,最终形成具有2nm幅图片的数据库。
n不小于30;m不小于10。
图2为本发明的散射变换方法的框架图,参照图2,步骤3)中所述散射变换的方法为:
在散射变换中第一阶散射变换的构造如下:
|f*ψj,γ|*φJ(x) (1)
其中:f为图片,*表示卷积操作,ψj,γ(x)=2-2jψ(2-jRγx)为小波,j,γ分别为尺度和方向,φJ(x)=2-2Jφ(2-Jx)为低通滤波器;
因低通滤波器φJ作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式(2):
公式(2)中丢失的高频信息又可通过下一轮的小波再分解得以恢复,则第q阶散射变换为:
其中:Sq,Jf(x)为在q阶、J个尺度下的散射系数;J为散射变换的尺度数;Γq为1到q各个阶层上的变换方向数集合;
散射表达包括所有尺度和方向的散射系数,即:
若小波变换的方向数为C,则第q阶散射变换沿频率递减的路径数为 前q阶的路径总数为 设图片的像素大小为N,采样值为ω2J(=1或0.5),则每条散射路径有Nω-22-2J个散射系数;
则前q阶散射系数的总数,即散射算子的系数为:
步骤4)中对散射系数进行拟合的方法为Gamma拟合,且得到的拟合参数α为尺度参数,用于模拟了概率密度函数峰值的宽度;拟合参数β为形状参数,用于模拟反比例于定点的下降速率。
步骤6)所述的计算待鉴别的手写体图像与候选图片之间的KL距离的方法为:
其中:ψ为双伽玛函数,αi、βi为待鉴别的手写体图像i所对应的拟合参数;αj、βj为图片数据库中的图片j对应的拟合参数。
步骤7)所述计算识别准确率的方法为:
其中:K表示属于同一个书写者的图片数目;Ri表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。
运用本发明的方法(Scatter)与抗混叠轮廓波(NACT)方法、金字塔复方向滤波器组(PDTDFB)方法、轮廓波方法(CTY)作对比,对比数据见下表:
由该表可见,本发明在处理无褶皱情况的文本图片的检索率并没有明显优于另外三种方法,但是在文本出现轻度褶皱甚至是重度褶皱的情况时,本发明的处理效果要明显优于其他,在平均检索率上也高达73.9%,比抗混叠轮廓波(NACT)方法的57.1%、金字塔复方向滤波器组(PDTDFB)方法的49.84%、轮廓波方法(CT)的48.68%要高很多。
本发明最后说明的是,以上优选实施例仅用以说明本发明的技术方案而非限制,尽管通过上述优选实施例已经对本发明进行了详细的描述,但本领域技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离本发明权利要求书所限定的范围。
Claims (8)
1.一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于,包括以下步骤:
1)将手写体文本扫描后输入到计算机,并对扫描后得到的手写体图像进行预处理;
2)根据手写体图像建立图片数据库;
3)对图片数据库中的每张图片进行散射变换,得到其散射系数;
4)对散射系数进行拟合,得到图片对应的拟合参数α、β,并建立统计模型;
5)查找与待鉴别的手写体图像相对应的统计模型;
6)计算待鉴别的手写体图像与候选图片之间的KL距离;
7)计算识别准确率;
8)对实验结果进行对比分析和统计。
2.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤1)中所所述的对自己图像进行预处理包括以下步骤:
1-1)除去手写体图像中的噪声和无关字符;
1-2)用定位文本行和投影的方法对单独的字符分割;
1-3)把每个字符归一化为大小相同的尺寸,并将这些手写体字符组合成手写体图像。
3.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤2)中所述的根据手写体图像建立图片数据库:
选取n个书写者的2n幅手写体文本作为实验对象,且每两幅手写体文本来自同一书写者;在原手写体图像的基础上,以字符为单位随机排列,使一幅手写体图像分割形成了m幅图片,最终形成具有2nm幅图片的数据库。
4.根据权利要求3所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:n不小于30;m不小于10。
5.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤3)中所述散射变换的方法为:
在散射变换中第一阶散射变换的构造如下:
|f*ψj,γ|*φJ(x) (1)
其中:f为图片,*表示卷积操作,ψj,γ(x)=2-2jψ(2-jRγx)为小波,j,γ分别为尺度和方向,φJ(x)=2-2Jφ(2-Jx)为低通滤波器;
因低通滤波器φJ作用,将会导致高频信息的损失,对小波模进行新的小波再分解,恢复高频信息,如式(2):
公式(2)中丢失的高频信息又可通过下一轮的小波再分解得以恢复,则第q阶散射变换为:
其中:Sq,Jf(x)为在q阶、J个尺度下的散射系数;J为散射变换的尺度数;Γq为1到q各个阶层上的变换方向数集合;
散射表达包括所有尺度和方向的散射系数,即:
若小波变换的方向数为C,则第q阶散射变换沿频率递减的路径数为 前q阶的路径总数为 设图片的像素大小为N,采样值为ω2J(=1或0.5),则每条散射路径有Nω-22-2J个散射系数;
则前q阶散射系数的总数,即散射算子的系数为:
6.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤4)中对散射系数进行拟合的方法为Gamma拟合,且得到的拟合参数α为尺度参数,用于模拟了概率密度函数峰值的宽度;拟合参数β为形状参数,用于模拟反比例于定点的下降速率。
7.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤6)所述的计算待鉴别的手写体图像与候选图片之间的KL距离的方法为:
其中:ψ为双伽玛函数,αi、βi为待鉴别的手写体图像i所对应的拟合参数;αj、βj为图片数据库中的图片j对应的拟合参数。
8.根据权利要求1所述的一种文本内容无关的褶皱中文手写体鉴别方法,其特征在于:步骤7)所述计算识别准确率的方法为:
其中:K表示属于同一个书写者的图片数目;Ri表示每次KL计算结果中,前K个距离最小且与被鉴别的手写体图像属于同一个书写者的图片数目;M表示所有待鉴别的手写体图像数目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410341142.4A CN104077604B (zh) | 2014-07-17 | 2014-07-17 | 一种文本内容无关的褶皱中文手写体鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410341142.4A CN104077604B (zh) | 2014-07-17 | 2014-07-17 | 一种文本内容无关的褶皱中文手写体鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104077604A true CN104077604A (zh) | 2014-10-01 |
CN104077604B CN104077604B (zh) | 2017-05-24 |
Family
ID=51598850
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410341142.4A Expired - Fee Related CN104077604B (zh) | 2014-07-17 | 2014-07-17 | 一种文本内容无关的褶皱中文手写体鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077604B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780412A (zh) * | 2016-11-28 | 2017-05-31 | 西安精雕软件科技有限公司 | 一种利用手写体骨架线生成加工路径的方法 |
CN110414517A (zh) * | 2019-04-18 | 2019-11-05 | 河北神玥软件科技股份有限公司 | 一种用于配合拍照场景的快速高精度身份证文本识别算法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1482571A (zh) * | 2003-04-11 | 2004-03-17 | 清华大学 | 基于单个字符的统计笔迹鉴别和验证方法 |
CN1540571A (zh) * | 2003-10-29 | 2004-10-27 | 中国科学院计算技术研究所 | 基于局部特征分析的计算机笔迹鉴别方法 |
US20130208986A1 (en) * | 2010-04-08 | 2013-08-15 | University Of Calcutta | Character recognition |
-
2014
- 2014-07-17 CN CN201410341142.4A patent/CN104077604B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1482571A (zh) * | 2003-04-11 | 2004-03-17 | 清华大学 | 基于单个字符的统计笔迹鉴别和验证方法 |
CN1540571A (zh) * | 2003-10-29 | 2004-10-27 | 中国科学院计算技术研究所 | 基于局部特征分析的计算机笔迹鉴别方法 |
US20130208986A1 (en) * | 2010-04-08 | 2013-08-15 | University Of Calcutta | Character recognition |
Non-Patent Citations (1)
Title |
---|
朱贝贝,尚赵伟等: "抗混叠轮廓波变换的脱线中文手写体笔迹识别", 《计算机工程与应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106780412A (zh) * | 2016-11-28 | 2017-05-31 | 西安精雕软件科技有限公司 | 一种利用手写体骨架线生成加工路径的方法 |
CN110414517A (zh) * | 2019-04-18 | 2019-11-05 | 河北神玥软件科技股份有限公司 | 一种用于配合拍照场景的快速高精度身份证文本识别算法 |
Also Published As
Publication number | Publication date |
---|---|
CN104077604B (zh) | 2017-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Akbari et al. | Wavelet-based gender detection on off-line handwritten documents using probabilistic finite state automata | |
He et al. | Writer identification of Chinese handwriting documents using hidden Markov tree model | |
Mirza et al. | Gender classification from offline handwriting images using textural features | |
CN104200239A (zh) | 一种基于图像特征融合识别的签名鉴伪系统及方法 | |
Jia et al. | 3-D Gaussian–Gabor feature extraction and selection for hyperspectral imagery classification | |
CN111325275B (zh) | 基于低秩二维局部鉴别图嵌入的鲁棒图像分类方法及装置 | |
Batal et al. | A supervised time series feature extraction technique using dct and dwt | |
CN103164689A (zh) | 人脸识别方法及系统 | |
Wen et al. | Fragmented edge structure coding for Chinese writer identification | |
CN103473545A (zh) | 一种基于多特征的文本图像相似度度量方法 | |
CN104794440A (zh) | 一种基于多分块多尺度lbp的假指纹检测方法 | |
Yang et al. | An EMD-based recognition method for Chinese fonts and styles | |
He et al. | A novel method for offline handwriting-based writer identification | |
CN106778714A (zh) | 基于非线性特征和模型合并的lda人脸识别方法 | |
Ibrahim et al. | Global vs. local features for gender identification using Arabic and English handwriting | |
AlKhateeb et al. | Word-based handwritten Arabic scripts recognition using DCT features and neural network classifier | |
Sulong et al. | Offline handwritten signature identification using adaptive window positioning techniques | |
Tan et al. | A stroke shape and structure based approach for off-line chinese handwriting identification | |
Banitalebi-Dehkordi et al. | Face recognition using a new compressive sensing-based feature extraction method | |
CN104077604B (zh) | 一种文本内容无关的褶皱中文手写体鉴别方法 | |
Ismail et al. | Signature Recognition using Multi Scale Fourier Descriptor And Wavelet Transform | |
Tan et al. | Off-line text-independent writer recognition for chinese handwriting: A review | |
Al-Ma'adeed et al. | Writer identification of Arabic handwriting documents using grapheme features | |
Ding et al. | Writer identification based on local contour distribution feature | |
AlKhateeb | Word-based handwritten Arabic scripts recognition using dynamic Bayesian network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170524 |
|
CF01 | Termination of patent right due to non-payment of annual fee |