CN101604392B - 一种用于联机手写汉字识别的汉字笔画特征并行提取方法 - Google Patents

一种用于联机手写汉字识别的汉字笔画特征并行提取方法 Download PDF

Info

Publication number
CN101604392B
CN101604392B CN2009100410452A CN200910041045A CN101604392B CN 101604392 B CN101604392 B CN 101604392B CN 2009100410452 A CN2009100410452 A CN 2009100410452A CN 200910041045 A CN200910041045 A CN 200910041045A CN 101604392 B CN101604392 B CN 101604392B
Authority
CN
China
Prior art keywords
stroke
feature
virtual
virtual stroke
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2009100410452A
Other languages
English (en)
Other versions
CN101604392A (zh
Inventor
金连文
邓国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN2009100410452A priority Critical patent/CN101604392B/zh
Publication of CN101604392A publication Critical patent/CN101604392A/zh
Application granted granted Critical
Publication of CN101604392B publication Critical patent/CN101604392B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种用于联机手写汉字识别的汉字笔画特征并行提取方法,其方法主要通过对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,进而提取用于文字识别的笔画特征。本发明融合联机手写汉字的虚拟笔画特征和无虚拟笔画特征,采用融合后的特征进行联机手写体识别,可以大大提高对连笔草书汉字的识别效果,不仅能识别规范书写的汉字,也能够对连笔草书汉字进行识别,故而可以让用户无限制地自由书写汉字。

Description

一种用于联机手写汉字识别的汉字笔画特征并行提取方法
技术领域
本发明属于联机手写汉字识别技术领域,特别是涉及一种用于联机手写汉字识别的笔画特征提取方法。
技术背景
联机手写汉字识别是指用户一边书写一边识别。一般是指用户通过手写输入设备(比如:手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。按书写限制的程度,一般可以分为:限制性手写体(如限制笔顺,横平竖直,没有连笔),手写印刷体(指书写工整的汉字),行书手写体(指有部分笔画变形和连笔的汉字),草书手写体(指大部分笔画变形以及几乎完全连笔书写的汉字)。这几种手写体的识别难度依次增大,以草书手写体的识别难度最大。因为草书手写体的汉字字型通常已经和原汉字字形有了较大的不同,不仅表现在笔画的变形上,还表现在汉字结构的变形上。这些变形一般是由于书写者为了达到更快、更流畅的书写速度而在原有汉字字形的基础上改变而来的。因此在以上几种手写体汉字中,以草书手写体的书写速度最快,因而这种书写方式也是人们最乐于接受的一种书写方式。
已有的汉字识别方法大多数是基于汉字笔画来进行识别的,比如中国发明专利98106953.3号专利《手写汉字识别方法及装置》、98108373.0号专利《文字识别装置及文字识别方法》以及98122949.2号专利《一种无笔画顺序的手写字符辨识系统》等专利使用的方法都依赖于笔画的正确提取与识别,而草书手写体汉字不但连笔书写,大部分笔画变形严重,而且有很多短的笔画会被省去,因此以上识别方法无法很好地解决草书手写体汉字的识别。
目前,识别草书手写体汉字的一种比较有效的方法是,对联机手写汉字使用虚拟笔画技术后再提取汉字的点特征。虚拟笔画技术最早由日本学者M.Okamoto等人提出,方法是采用虚拟的点将所有笔画连接在一起,目的是模拟人的草书习惯,统一手写汉字的风格。虚拟笔画技术虽然起到一定效果,但已经被证实会损失相当一部分汉字的识别率,有待改进。
发明内容
本发明的目的在于克服现有技术的不足,提供一种使得识别结构精确度较高的用于联机手写汉字识别的笔画特征提取方法,特别是用于联机手写草书字体识别的笔画特征提取方法。
为了实现上述发明目的,采用的技术方案如下:
一种用于联机手写汉字识别的汉字笔画特征并行提取方法,包括如下步骤:
(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,即在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,提取出联机手写汉字的虚拟笔画特征和无虚拟笔画特征;
(3)对步骤(2)提取到的两个特征,采用并行融合的方法产生最终的笔画特征,具体的并行融合方法如下:
令X和Y分别是虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,X∈Φ,Y∈Ψ,Φ、Ψ分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z1表示采用并行融合的方法获取到的特征,Z1的获取方法用如下公式表示:
Z1=W1(X Y)T=(kxWx kyWy)(X Y)T=kxWx X+kyWyY
其中W1=(kxWx kyWy)为变换矩阵,Wx和Wy分别是虚拟笔画训练集空间Φ和无虚拟笔画训练集空间Ψ的变换矩阵,kx和ky分别是Wx和Wy的权重。
上述技术方案中,所述Wx和Wy的取值包括如下两种方式:
(1)Wx=Wy=I,表示直接对原始特征X和Y进行线性组合,其中I代表单位矩阵;
(2)Wx=Wy=Wlda_z,表示先对原始特征X和Y进行线性组合,再将组合后的特征进行LDA训练,得到一个最佳投影变换矩阵Wlda_z,利用Wlda_z产生新的特征矢量。
本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:
线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。预处理步骤是为了消除不同用户书写同一汉字的区别,对于不同的用户,书写出来的同一个汉字会有很大的不同,预处理的目的是尽可能去除同一类别中不同汉字样本的差别。
本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的采样点的数目变化。同样可消除不同用户书写同一汉字的区别。
本发明所述步骤(2)对于每一个时间序列,具体的特征提取方法如下:
(I)定义二维平面内的八种方向,包括东、西、南、北、东南、西南、东北和西北,计算时间序列中每一点的方向特征,点的方向特征定义为从当前点的前一个点到后一个点的一个矢量,最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,具体的映射方法是分解点特征矢量到最邻近的两个方向;
(II)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到八个模式图像中提取网格特征,每一个序列都得到512维的特征矢量;
(III)根据步骤(I)和(II),每一手写汉字都提取出两个512维的特征矢量,分别代表该手写汉字的虚拟笔画特征和无虚拟笔画特征。
本发明与已有的联机手写汉字特征提取方法相比,具有如下的优点和有益效果:
(1)、融合了手写汉字虚拟笔画特征和无虚拟笔画特征,使得融合后的新特征更能够代表所书写的汉字,因此能很好地解决当前虚拟笔画技术容易造成相当一部分汉字识别性能下降的问题;
(2)、采用本发明的方法提取到的融合的特征具有更优异的性能,通过不同的分类器测试,结果显示本发明更加准确识别连笔草书。
附图说明
图1是本发明的特征提取方法流程框图。
具体实施方式
下面结合附图对本发明做进一步的说明。
实施本发明所用的识别设备可以采用手写板书写汉字,用计算机进行识别,用纯平型显示器显示用户图形界面,可采用C/C++语言编制各类处理程序,便能较好地实施本发明。
本发明的手写汉字特征提取方法如附图1所示。
首先对联机手写汉字进行预处理。在预处理包含如下三个步骤:
(1)线性归一化。用比值线性归一化的方法,把样本的时间序列归一化到固定的64×64像素的尺寸;
(2)虚拟笔画处理。定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线。在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列;同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(3)对步骤(2)得到的两个时间序列进行重采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的采样点的数目变化。每个样本的数据采样点序列用固定的距离重新采样。
接着,通过预处理步骤从同一个手写样本汉字中,得到两个时间序列,分别是有虚拟笔画的时间序列和无虚拟笔画的时间序列,然后提取这里两个时间序列的方向特征,分别称之为联机手写汉字的虚拟笔特征和无虚拟笔画特征。提取时间序列的方向特征方法如下:
(I)定义二维平面内有八种方向,东、西、南、北,东南、西南、东北和西北。计算序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量。最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像。映射的方法是分解点特征矢量到最邻近的两个方向。
(II)把每个序列看出一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到8个模式图像中提取网格特征。最后,每一个序列都可以得到512维的特征矢量
最后,采用并行融合的方法融合联机手写汉字的虚拟笔特征和无虚拟笔画特征,产生新的特征。设X和Y是分别是提取到的联机手写汉字虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,X∈Φ,Y∈Ψ,Φ、Ψ分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z1表示采用并行融合的方法获取到的新的特征,则Z1的获取方法可以用如下公式表示:
Z1=W1(X Y)T=(kxWy kyWy)(X Y)T=kxWxX+kyWyY
其中Wx和Wy分别是虚拟笔画训练集空间Φ和无虚拟笔画训练集空间Ψ的变换矩阵,kx和ky分别是Wx和Wy的权重。Wx和Wy的取值有如下两种情况:
①Wx=Wy=I,表示直接对原始特征X和Y进行线性组合;
②Wx=Wy=Wlda_z,表示先对原始特征X和Y进行线性相加,再将相加后的特征进行LDA训练,得到一个最佳投影变换矩阵Wlda_z,利用Wlda_z产生新的特征矢量。
kx和ky实际上分别代表原始特征X和Y在新特征中的权重。可根据实际情况取值,也可通过实验确定kx和ky的最佳取值。选取上述①②中一种方法,即可提取到采用并行融合的方法的生产的新特征。
本发明的优异性能通过大样本和大类别的实验得到了证实。下面描述采用本发明所述的特征提取方法,对大量联机手写汉字样本的进行相关实验的结果
实验采用了华南理工大学人机通信与智能接口实验室的SCUT-COUCH联机手写样本数据库中的GB2312-80一二级汉字样本子集。该子集包含168位不同书写者的汉字样本,每位书写者在自然状态下独立完成6763个GB2312-80一二级汉字的书写。实验对6763个汉字类别进行测试,每个类别有168套样本。每个类随机选取134套样本(占每类总样本数的80%)进行训练,总训练样本数为906,242个;余下34套样本用于测试,总的测试样本数目为229,942个。
在实验中,同时测试了三种与虚拟笔画技术相关的手写汉字特征提取方法的识别率,分别是传统的无虚拟笔画特征提取方法,传统的虚拟笔画特征提取方法,以及本发明的并行融合虚拟笔画及无虚拟笔画技术的特征提取方法,识别采用的分类器为最小欧氏距离分类器。通过下面两种方法测试特征识别率:
①直接对原始特征进行测试;取其变换矩阵为Wx=Wy=I;
②先对原始特征LDA训练并降成同一维数得到新的特征矢量。取其变换矩阵为Wx=Wy=Wlda_z
表1三种手写汉字特征提取方法识别率比较
特征提取方法   原始特征识别率(%) LDA训练后识别率(%)
传统的无虚拟笔画特征   82.66 87.78
传统的虚拟笔画特征   87.16 89.95
本发明的并行融合特征   88.67 91.14
由表1可以看到,采用本发明提出的特征提取方法,其识别率明显高于传统的不加虚拟笔画的手写汉字特征,和仅采用虚拟笔画的手写汉字特征,因此,实验结果显示了本发明所述的方法获得的手写汉字特征在性能方面,是明显优于传统的无虚拟笔画特征或者虚拟笔画特征的。

Claims (3)

1.一种用于联机手写汉字识别的汉字笔画特征并行提取方法,其特征在于包括如下步骤:
(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线,在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,提取出联机手写汉字的虚拟笔画特征和无虚拟笔画特征,对于每一个时间序列,具体的特征提取方法如下:
(I)定义二维平面内的八种方向,包括东、西、南、北、东南、西南、东北和西北,计算时间序列中每一点的方向特征,点的方向特征定义为从当前点的前一个点到后一个点的一个矢量,最后将每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,具体的映射方法是分解点特征矢量到最邻近的两个方向;
(II)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(I)中得到八个模式图像中提取网格特征,每一个序列都得到512维的特征矢量;
(III)根据步骤(I)和(II),每一手写汉字都提取出两个512维的特征矢量,分别代表该手写汉字的虚拟笔画特征和无虚拟笔画特征;
(3)对步骤(2)提取到的两个特征,采用并行融合的方法产生最终的笔画特征,具体的并行融合方法如下:
令X和Y分别是虚拟笔画特征矢量和无虚拟笔画特征矢量,其中,X∈Φ,Y∈ψ,Φ、ψ分别指虚拟笔画特征用于训练的空间集合和无虚拟笔画特征用于训练的空间集合,Z1表示采用并行融合的方法获取到的特征,Z1的获取方法用如下公式表示:
Z1=W1(XY)T=(kxWxkvWy)(XY)T=kxWxX+kyWyY
其中W1=(kxWxkyWy)为变换矩阵,Wx和Wy分别是虚拟笔画训练集空间Φ和无虚拟笔画训练集空间ψ的变换矩阵,kx和ky分别是Wx和Wy的权重,所述Wx和Wy的取值包括如下两种方式:
31)Wx=Wy=I,表示直接对原始特征X和Y进行线性组合;
32)Wx=Wy=Wlda_z,表示先对原始特征X和Y进行线性组合,再将组合后的特征进行LDA训练,得到一个最佳投影变换矩阵Wlda_z,利用Wlda_z产生新的特征矢量。
2.根据权利要求1所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:
线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。
3.根据权利要求2所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。
CN2009100410452A 2009-07-10 2009-07-10 一种用于联机手写汉字识别的汉字笔画特征并行提取方法 Expired - Fee Related CN101604392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009100410452A CN101604392B (zh) 2009-07-10 2009-07-10 一种用于联机手写汉字识别的汉字笔画特征并行提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009100410452A CN101604392B (zh) 2009-07-10 2009-07-10 一种用于联机手写汉字识别的汉字笔画特征并行提取方法

Publications (2)

Publication Number Publication Date
CN101604392A CN101604392A (zh) 2009-12-16
CN101604392B true CN101604392B (zh) 2011-09-07

Family

ID=41470112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009100410452A Expired - Fee Related CN101604392B (zh) 2009-07-10 2009-07-10 一种用于联机手写汉字识别的汉字笔画特征并行提取方法

Country Status (1)

Country Link
CN (1) CN101604392B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339392B (zh) * 2010-07-20 2014-07-02 广东因豪信息科技有限公司 一种书写汉字规范性评判的方法和装置
CN101976148B (zh) * 2010-10-28 2013-10-16 广东因豪信息科技有限公司 一种手写输入系统和方法
JP2014127187A (ja) * 2012-12-27 2014-07-07 Toshiba Corp 特徴算出装置、方法及びプログラム
CN109717832A (zh) * 2018-11-26 2019-05-07 中国科学院软件研究所 一种基于手写文字输入的手部运动功能分析装置
CN117519515B (zh) * 2024-01-05 2024-05-28 深圳市方成教学设备有限公司 一种用于记忆黑板的文字识别方法、装置和记忆黑板

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324068A (zh) * 2000-03-29 2001-11-28 松下电器产业株式会社 基于部首样式的草体汉字手写注释的检索
CN1652138A (zh) * 2005-02-08 2005-08-10 华南理工大学 一种手写文字的识别方法
CN1920857A (zh) * 2006-09-08 2007-02-28 华南理工大学 手写汉字首末笔段的联机提取方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1324068A (zh) * 2000-03-29 2001-11-28 松下电器产业株式会社 基于部首样式的草体汉字手写注释的检索
CN1652138A (zh) * 2005-02-08 2005-08-10 华南理工大学 一种手写文字的识别方法
CN1920857A (zh) * 2006-09-08 2007-02-28 华南理工大学 手写汉字首末笔段的联机提取方法

Also Published As

Publication number Publication date
CN101604392A (zh) 2009-12-16

Similar Documents

Publication Publication Date Title
CN1315090C (zh) 一种手写文字的识别方法
CN102622610B (zh) 一种基于分类器集成的手写维文字符识别方法
US8391613B2 (en) Statistical online character recognition
CN101604392B (zh) 一种用于联机手写汉字识别的汉字笔画特征并行提取方法
CN102073870A (zh) 一种触摸屏汉字笔迹识别方法
CN104899601A (zh) 一种手写维吾尔文单词识别方法
CN109472234B (zh) 一种手写输入智能识别的方法
CN101630362B (zh) 一种基于置信度的汉字书写质量评价方法
CN103778250A (zh) 中文五笔草书字典查询系统实现方法
CN103226388A (zh) 一种基于Kinect的手写方法
CN101604393B (zh) 一种用于联机手写汉字识别的汉字笔画特征提取方法
CN101604378B (zh) 一种用于联机手写汉字识别的汉字笔画特征串行提取方法
Chen et al. Training of an on-line handwritten Japanese character recognizer by artificial patterns
Ramzi et al. Online Arabic handwritten character recognition using online-offline feature extraction and back-propagation neural network
Chen Research and application of chinese calligraphy character recognition algorithm based on image analysis
CN111738167A (zh) 一种无约束手写文本图像的识别方法
CN104063705B (zh) 一种笔迹特征提取的方法和装置
CN110046603A (zh) 一种中国普乐手语编码的手势动作识别方法
Singh et al. Data capturing process for online Gurmukhi script recognition system
Simayi et al. Survey on the features for recognition of on-line handwritten Uyghur characters
Simayi et al. Research on on-line Uyghur character recognition technology based on center distance feature
AbdElNafea et al. Efficient preprocessing algorithm for online handwritten Arabic strokes
CN112861709A (zh) 一种基于简笔画的手绘草图识别方法
CN102184426B (zh) 一种使手写汉字识别引擎能动态适应用户书写风格的方法
Zhou et al. An Empirical Evaluation on Online Chinese Handwriting Databases

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110907

Termination date: 20140710

EXPY Termination of patent right or utility model