CN101604393B - 一种用于联机手写汉字识别的汉字笔画特征提取方法 - Google Patents
一种用于联机手写汉字识别的汉字笔画特征提取方法 Download PDFInfo
- Publication number
- CN101604393B CN101604393B CN2009100410471A CN200910041047A CN101604393B CN 101604393 B CN101604393 B CN 101604393B CN 2009100410471 A CN2009100410471 A CN 2009100410471A CN 200910041047 A CN200910041047 A CN 200910041047A CN 101604393 B CN101604393 B CN 101604393B
- Authority
- CN
- China
- Prior art keywords
- stroke
- point
- virtual
- time series
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种用于联机手写汉字识别的汉字笔画特征提取方法,其方法主要通过对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,进而提取用于文字识别的笔画特征。本发明融合联机手写汉字的虚拟笔画特征和无虚拟笔画特征,采用融合后的特征进行联机手写体识别,可以大大提高对连笔草书汉字的识别效果,不仅能识别规范书写的汉字,也能够对连笔草书汉字进行识别,故而可以让用户无限制地自由书写汉字。
Description
技术领域
本发明属于联机手写汉字识别技术领域,特别是涉及一种用于联机手写汉字识别的笔画特征提取方法。
技术背景
联机手写汉字识别是指用户一边书写一边识别。一般是指用户通过手写输入设备(比如:手写板、触摸屏、鼠标等)书写汉字,同时计算机将手写输入设备采集到的汉字书写轨迹转换为相应的汉字机器内码的识别技术。按书写限制的程度,一般可以分为:限制性手写体(如限制笔顺,横平竖直,没有连笔),手写印刷体(指书写工整的汉字),行书手写体(指有部分笔画变形和连笔的汉字),草书手写体(指大部分笔画变形以及几乎完全连笔书写的汉字)。这几种手写体的识别难度依次增大,以草书手写体的识别难度最大。因为草书手写体的汉字字型通常已经和原汉字字形有了较大的不同,不仅表现在笔画的变形上,还表现在汉字结构的变形上。这些变形一般是由于书写者为了达到更快、更流畅的书写速度而在原有汉字字形的基础上改变而来的。因此在以上几种手写体汉字中,以草书手写体的书写速度最快,因而这种书写方式也是人们最乐于接受的一种书写方式。
已有的汉字识别方法大多数是基于汉字笔画来进行识别的,比如中国发明专利98106953.3号专利《手写汉字识别方法及装置》、98108373.0号专利《文字识别装置及文字识别方法》以及98122949.2号专利《一种无笔画顺序的手写字符辨识系统》等专利使用的方法都依赖于笔画的正确提取与识别,而草书手写体汉字不但连笔书写,大部分笔画变形严重,而且有很多短的笔画会被省去,因此以上识别方法无法很好地解决草书手写体汉字的识别。
目前,识别草书手写体汉字的一种比较有效的方法是,对联机手写汉字使用虚拟笔画技术后再提取汉字的点特征。虚拟笔画技术最早由日本学者M.Okamoto等人提出,方法是采用虚拟的点将所有笔画连接在一起,目的是模拟人的草书习惯,统一手写汉字的风格。虚拟笔画技术虽然起到一定效果,但已经被证实会损失相当一部分汉字的识别率,有待改进。
发明内容
本发明的目的在于克服现有技术的不足,提供一种使得识别结构精确度较高的用于联机手写汉字识别的笔画特征提取方法,特别是用于联机手写草书字体识别的笔画特征提取方法。
为了实现上述发明目的,采用的技术方案如下:
一种用于联机手写汉字识别的汉字笔画特征提取方法,包括如下步骤:
(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,即在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点;
(3)对步骤(2)的两个时间序列,采用如下方法产生最终的笔画特征:
(31)定义二维平面内的八种方向,即东、西、南、北、东南、西南、东北和西北,计算每个时间序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量,令属于真实笔画的点的特征矢量,则将改变成k是对真实笔画点的特征矢量的一个加权系数;如果是属于虚拟笔画的点的特征矢量,则保持不变;最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,映射的方法是分解点特征矢量到最邻近的两个方向;
(32)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(31)中得到八个模式图像中提取网格特征,每一个序列都可以得到512维的特征矢量。
本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:
线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。预处理步骤是为了消除不同用户书写同一汉字的区别,对于不同的用户,书写出来的同一个汉字会有很大的不同,预处理的目的是尽可能去除同一类别中不同汉字样本的差别。
本发明所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。重采样的目的是减少归一化后汉字样本数据中连续点的距离的变化和一个笔画的采样点的数目变化。同样可消除不同用户书写同一汉字的区别。
本发明与已有的联机手写汉字特征提取方法相比,具有如下的优点和有益效果:
(1)、融合了手写汉字虚拟笔画特征和无虚拟笔画特征,使得融合后的新特征更能够代表所书写的汉字,因此能很好地解决当前虚拟笔画技术容易造成相当一部分汉字识别性能下降的问题;
(2)、采用本发明的方法提取到的融合的特征具有更优异的性能,通过不同的分类器测试,结果显示本发明更加准确识别连笔草书。
附图说明
图1是本发明的特征提取方法流程框图。
具体实施方式
下面结合附图对本发明做进一步的说明。
实施本发明所用的识别设备可以采用手写板书写汉字,用计算机进行识别,用纯平型显示器显示用户图形界面,可采用C/C++语言编制各类处理程序,便能较好地实施本发明。
本发明的手写汉字特征提取方法如附图1所示。
首先对联机手写汉字进行预处理。所述方法采取的预处理步骤如下:
(I)线性归一化。用比值线性归一化的方法,把样本的时间序列归一化到固定的64×64像素的尺寸;
(II)添加虚拟笔画点序列。定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线。在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列;同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列。对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点。
(III)对步骤(II)得到的时间序列进行重采样。每个样本的数据采样点序列用固定的距离重新采样。
然后,采用称之为局部特征增强的方法,对预处理后的时间序列提取融合虚拟笔画和无虚拟笔画技术的手写汉字的特征,提取方法如下:
(1)定义二维平面内有八种方向,东、西、南、北,东南、西南、东北和西北。计算序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量。设是属于真实笔画的点的特征矢量,则将改变成这里k是对真实笔画点的特征矢量的一个加权系数;如果是属于虚拟笔画的点的特征矢量,则保持不变。加权系数k的取值可以通过多次实验得出。最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像。映射的方法是分解点特征矢量到最邻近的两个方向。
(2)把每个序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8×8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(1)中得到八个模式图像中提取网格特征。最后,每一个序列都可以得到512维的特征矢量。
本发明的优异性能通过大样本和大类别的实验得到了证实。下面描述采用本发明所述的特征提取方法,对大量联机手写汉字样本的进行相关实验的结果
实验采用了华南理工大学人机通信与智能接口实验室的SCUT-COUCH联机手写样本数据库中的GB2312-80一二级汉字样本子集。该子集包含168位不同书写者的汉字样本,每位书写者在自然状态下独立完成6763个GB2312-80一二级汉字的书写。实验对6763个汉字类别进行测试,每个类别有168套样本。每个类随机选取134套样本(占每类总样本数的80%)进行训练,总训练样本数为906,242个;余下34套样本用于测试,总的测试样本数目为229,942个。
在实验中,同时测试了三种与虚拟笔画技术相关的手写汉字特征提取方法的识别率,分别是传统的无虚拟笔画特征提取方法,传统的虚拟笔画特征提取方法,以及本发明的融合虚拟笔画及无虚拟笔画技术的特征提取方法,识别采用的分类器为最小欧氏距离分类器。
表1三种手写汉字特征提取方法识别率比较
特征提取方法 | 原始特征识别率(%) | LDA训练后识别率(%) |
传统的无虚拟笔画特征 | 82.66 | 87.78 |
传统的虚拟笔画特征 | 87.16 | 89.95 |
本发明的局部加权特征 | 89.41 | 91.45 |
由表1可以看到,采用本发明提出的特征提取方法,其识别率明显高于传统的不加虚拟笔画的手写汉字特征,和仅采用虚拟笔画的手写汉字特征,因此,实验结果显示了本发明所述的方法获得的手写汉字特征在性能方面,是明显优于传统的无虚拟笔画特征或者虚拟笔画特征的。
Claims (3)
1.一种用于联机手写汉字识别的汉字笔画特征提取方法,其特征在于包括如下步骤:
(1)对联机手写汉字的时间序列进行真实笔画和虚拟笔画处理,定义虚拟笔画为从一个真实笔画的结束点到下一个真实笔画的开始点的一条虚直线,在所有相邻且断开的真实笔画间加入虚拟笔画,构成一个连续的书写轨迹,得到有虚拟笔画的时间序列,同时保留不添加任何虚拟笔画点的时间序列副本,即无虚拟笔画的时间序列;
(2)根据步骤(1)得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列,对属于真实笔画的点和属于虚拟笔画的点加以区分,即记下每个点是属于真实笔画点还是虚拟笔画点;
(3)对步骤(2)的两个时间序列,采用如下方法产生最终的笔画特征:
(31)定义二维平面内的八种方向,即东、西、南、北、东南、西南、东北和西北,计算每个时间序列中每一点的方向特征,点的方向特征定义从当前点的前驱到后续的一个矢量,令属于真实笔画的点的特征矢量,则将改变成k是对真实笔画点的特征矢量的一个加权系数;如果是属于虚拟笔画的点的特征矢量,则保持不变;最后将加权处理后的每一点的方向特征映射到平面内的八个方向,得到八个方向的模式图像,映射的方法是分解点特征矢量到最邻近的两个方向;
(32)把每个时间序列看成一幅图像,通过把汉字图像在水平和垂直两个方向上的直方图投影画出8x8的全局弹性网格,使得每一列网格在水平方向上的直方图投影累积量相等,每一行网格在垂直方向上的直方图投影累积量相等,根据这64个弹性网格,在步骤(31)中得到八个模式图像中提取网格特征,每一个序列都可以得到512维的特征矢量。
2.根据权利要求1所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之前还包括对联机手写汉字的时间序列进行如下的预处理步骤:
线性归一化,用比值线性归一化的方法,把时间序列归一化到固定的64×64像素的尺寸。
3.根据权利要求1所述的汉字笔画特征提取方法,其特征在于所述步骤(1)在进行真实笔画和虚拟笔画处理之后还包括对得到的有虚拟笔画的时间序列和无虚拟笔画的时间序列进行重采样,将每个样本的数据采样点序列用固定的距离重新采样。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100410471A CN101604393B (zh) | 2009-07-10 | 2009-07-10 | 一种用于联机手写汉字识别的汉字笔画特征提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100410471A CN101604393B (zh) | 2009-07-10 | 2009-07-10 | 一种用于联机手写汉字识别的汉字笔画特征提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101604393A CN101604393A (zh) | 2009-12-16 |
CN101604393B true CN101604393B (zh) | 2011-08-31 |
Family
ID=41470113
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100410471A Expired - Fee Related CN101604393B (zh) | 2009-07-10 | 2009-07-10 | 一种用于联机手写汉字识别的汉字笔画特征提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101604393B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102339392B (zh) * | 2010-07-20 | 2014-07-02 | 广东因豪信息科技有限公司 | 一种书写汉字规范性评判的方法和装置 |
CN102609735B (zh) * | 2012-02-06 | 2014-03-12 | 安徽科大讯飞信息科技股份有限公司 | 一种字符书写规范度评测的方法和装置 |
CN102945369A (zh) * | 2012-10-17 | 2013-02-27 | 华南理工大学 | 一种文字识别方法 |
CN109918602B (zh) * | 2019-02-26 | 2021-04-30 | 南威软件股份有限公司 | 一种Web数据预加载方法及系统 |
CN111027451A (zh) * | 2019-12-05 | 2020-04-17 | 上海眼控科技股份有限公司 | 手写汉字图像恢复书写轨迹的方法及设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1324068A (zh) * | 2000-03-29 | 2001-11-28 | 松下电器产业株式会社 | 基于部首样式的草体汉字手写注释的检索 |
CN1652138A (zh) * | 2005-02-08 | 2005-08-10 | 华南理工大学 | 一种手写文字的识别方法 |
CN1920857A (zh) * | 2006-09-08 | 2007-02-28 | 华南理工大学 | 手写汉字首末笔段的联机提取方法 |
-
2009
- 2009-07-10 CN CN2009100410471A patent/CN101604393B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1324068A (zh) * | 2000-03-29 | 2001-11-28 | 松下电器产业株式会社 | 基于部首样式的草体汉字手写注释的检索 |
CN1652138A (zh) * | 2005-02-08 | 2005-08-10 | 华南理工大学 | 一种手写文字的识别方法 |
CN1920857A (zh) * | 2006-09-08 | 2007-02-28 | 华南理工大学 | 手写汉字首末笔段的联机提取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101604393A (zh) | 2009-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102622610B (zh) | 一种基于分类器集成的手写维文字符识别方法 | |
CN101976354B (zh) | 一种书写汉字规范性评判的方法和装置 | |
US8391613B2 (en) | Statistical online character recognition | |
CN102073870A (zh) | 一种触摸屏汉字笔迹识别方法 | |
CN101604393B (zh) | 一种用于联机手写汉字识别的汉字笔画特征提取方法 | |
CN103150019A (zh) | 一种手写输入系统及方法 | |
CN101630362B (zh) | 一种基于置信度的汉字书写质量评价方法 | |
CN109472234B (zh) | 一种手写输入智能识别的方法 | |
CN103226388A (zh) | 一种基于Kinect的手写方法 | |
CN108664975B (zh) | 一种维吾尔文手写字母识别方法、系统及电子设备 | |
CN101882000A (zh) | 一种基于加速度传感器的手势识别方法 | |
CN107742095A (zh) | 基于卷积神经网络的汉语手语识别方法 | |
CN101604392B (zh) | 一种用于联机手写汉字识别的汉字笔画特征并行提取方法 | |
CN110472652A (zh) | 基于语义引导的少量样本分类方法 | |
CN101604378B (zh) | 一种用于联机手写汉字识别的汉字笔画特征串行提取方法 | |
Aggarwal et al. | Online handwriting recognition using depth sensors | |
CN107220634B (zh) | 基于改进d-p算法与多模板匹配的手势识别方法 | |
Ramzi et al. | Online Arabic handwritten character recognition using online-offline feature extraction and back-propagation neural network | |
Chen | Research and application of chinese calligraphy character recognition algorithm based on image analysis | |
CN110046603B (zh) | 一种中国普乐手语编码的手势动作识别方法 | |
Al-Ammar et al. | Online handwriting recognition for the arabic letter set | |
CN104063705B (zh) | 一种笔迹特征提取的方法和装置 | |
Simayi et al. | Research on on-line Uyghur character recognition technology based on center distance feature | |
Simayi et al. | Survey on the features for recognition of on-line handwritten Uyghur characters | |
CN112861709A (zh) | 一种基于简笔画的手绘草图识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110831 Termination date: 20140710 |
|
EXPY | Termination of patent right or utility model |