CN1851730A - 一种文字识别的方法及其系统 - Google Patents

一种文字识别的方法及其系统 Download PDF

Info

Publication number
CN1851730A
CN1851730A CN 200610042871 CN200610042871A CN1851730A CN 1851730 A CN1851730 A CN 1851730A CN 200610042871 CN200610042871 CN 200610042871 CN 200610042871 A CN200610042871 A CN 200610042871A CN 1851730 A CN1851730 A CN 1851730A
Authority
CN
China
Prior art keywords
characters
character
handwriting characters
identification
handwriting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN 200610042871
Other languages
English (en)
Other versions
CN100394435C (zh
Inventor
陈淮琰
公学雷
赵永国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inventec Besta Xian Co Ltd
Original Assignee
Inventec Besta Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inventec Besta Xian Co Ltd filed Critical Inventec Besta Xian Co Ltd
Priority to CNB2006100428715A priority Critical patent/CN100394435C/zh
Publication of CN1851730A publication Critical patent/CN1851730A/zh
Application granted granted Critical
Publication of CN100394435C publication Critical patent/CN100394435C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明涉及一种文字识别技术,尤其是一种利用手写输入字符的轮廓点特征值获取其形状特征进行文字识别的方法及其系统。本发明包括以下步骤:1)预建一字符模板数据库,其中储存有复数个字符模板数据;2)对手写输入字符进行预处理;3)根据轮廓点特征值获取形状特征信息;4)筛选出与手写输入字符的轮廓相近的字符模板;5)比对其它特征信息,对手写输入字符进行辨识。其解决了普通技术中存在稳定性差、识别不准确的问题,可广泛应用于掌上型电子产品中。

Description

一种文字识别的方法及其系统
技术领域
本发明涉及一种文字识别技术,尤其是一种利用手写输入字符的轮廓点特征值获取其形状特征进行文字识别的方法及其系统。
背景技术
目前,掌上型电子产品:如手机、个人数字助理机(Personal DigitalAssistant,PDA)等几乎都具备手写输入字符并识别的功能。一般而言文字运算特征由输入设备获取,运算特征可以是采样数据中的任何有用的结构特征信息或者其组合,其中基本结构特征包含特征点、笔段及笔划等单元结构特征。但具体的辨识特征并不局限于以上基本结构特征信息,而是常以组合方式来建立一组合适的辨识特征,进而可以最大限度地描述文字的多种特征信息,同时尽量保持比较少的特征信息数量。确认特征信息后,即可建立与特征信息相比对的一整套包括滤波、分割、辨识与参照模板数据库的辨识系统。
目前存在的多种文字辨识系统各具特点,其特征获取方式多种多样,一般的获取特征包括距离、角度、中点、拐点、交点、投影、斜率以及面积等。为了能够具备更好的辨识效果,往往将这些特征进行组合使用。通常手写输入字符辨识系统最常用的特征组合为距离和角度,采用该组合的辨识系统存在以下缺点:
1、角度特征定义为文字的每一个笔段与输入设备(比如手写板)坐标系的直角坐标或其它坐标系的夹角,即辨识系统必须依托于手写输入设备的坐标系,不可避免在使用时会受到输入设备的影响,导致该手写输入字符辨识系统稳定性差。
2、作为特征的笔段需要笔段间的参照点,即决定笔段的端点和笔段的交点,参照点的存在也会引入误差。因此,该手写输入字符辨识系统会由于输入设备和人为因素的影响而产生辨识误差。
发明内容
本发明为解决背景技术中存在的上述技术问题,而提供一种稳定性好、识别准确的利用手写输入字符进行文字识别的方法及其系统。
本发明的技术解决方案是:本发明为一种文字识别的方法,其特殊之处在于:该方法包括以下步骤:
1)预建一字符模板数据库,模板数据库中储存有复数个字符模板数据;
2)对手写输入字符进行预处理;
3)根据手写输入字符的轮廓点特征值获取形状特征信息;
4)根据获取的形状特征信息从字符模板数据库中筛选出与手写输入字符的轮廓相近的字符模板;
5)比对字符模板和手写输入字符的其它特征信息,对手写输入字符进行辨识。
上述步骤2)中对手写输入字符进行预处理包括对手写输入字符的误差噪声过滤、滤波处理及规范化处理。
上述步骤3)中的具体步骤如下:
3.1)分别在手写输入字符的水平方向及垂直方向查找一极值坐标点,并根据极值坐标点连接成一字符边框;
3.2)将手写输入字符连同字符边框缩放至字符模板的固定大小,进而得到手写输入字符的缩放字符,其中缩放字符的坐标大小与字符模板的坐标大小相同;
3.3)纪录缩放字符的轮廓的所有坐标点;
3.4)沿水平和垂直方向等距建立复数条基准线,以对缩放字符的轮廓进行切割;
3.5)纪录基准线与缩放字符轮廓交点的特征值,得到手写输入字符的形状特征信息。
上述步骤3.5)中所述基准线与缩放字符轮廓交点的特征值为:从水平垂直的四个方向用八条基准线切割手写输入字符后的交点坐标,其中沿水平方向切割时,特征值为具有一交点的所述基准线Y坐标之和与所述交点总数的加权平均值;沿该垂直方向切割时,特征值为具有一交点的所述基准线X坐标之和与所述交点总数的加权平均值。
上述步骤5)中的具体步骤如下:
5.1)对获取的手写输入字符包括角度和/或长度在内的其它特征信息进行计算;
5.2)然后比对手写输入字符和筛选出的字符模板的其他特征信息,然后进行辨识,并将辨识结果计算输出。
一种应用上述的文字识别的方法的系统,其特殊之处在于:该系统包括用来对手写输入字符进行误差噪声过滤、滤波处理及规范化的预处理操作的预处理模块、借助手写输入字符的轮廓点特征值获取形状特征信息,并筛选出与手写输入字符轮廓相近的字符模板的轮廓识别模块和计算及执行字符模板与手写输入字符的其它特征信息比对的特征计算模块和储存有复数个字符模板数据的模板数据库,预处理模块和模板数据库分别接入轮廓识别模块,轮廓识别模块接入特征计算模块。
上述预处理模块外接有输入装置。
上述特征计算模块外接有显示装置。
上述特征计算模块外接有存储装置。
本发明利用手写输入字符的形状特征作为辨识获取特征,与字符结构、笔划及输入坐标系无关,由于文字轮廓特征较为固定,用户的输入误差几乎可以忽略,也不会引入参照点误差。并且利用手写输入字符轮廓特征引入比对特征值作为模板的筛选,提高了模板比对的命中率和辨识速度。此外,采样字符在输入屏中的整个轮廓特征与其它特征比对方式相结合,减少系统误差的产生,提供更好的比对机制,进而可取得更好的辨识效果。
附图说明
图1为本发明的系统框图;
图2-5为本发明实施例的示意图。
具体实施方式
本发明的方法的具体流程如下:
1)预建一字符模板数据库,模板数据库中储存有复数个字符模板数据;
2)对手写输入字符进行预处理;
3)根据手写输入字符的轮廓点特征值获取形状特征信息;
3.1)分别在手写输入字符的水平方向及垂直方向查找一极值坐标点,并根据极值坐标点连接成一字符边框;
3.2)将手写输入字符连同字符边框缩放至字符模板的固定大小,进而得到手写输入字符的缩放字符,其中缩放字符的坐标大小与字符模板的坐标大小相同;
3.3)纪录缩放字符的轮廓的所有坐标点;
3.4)沿水平和垂直方向等距建立复数条基准线,以对缩放字符的轮廓进行切割;
3.5)纪录基准线与缩放字符轮廓交点的特征值,得到手写输入字符的形状特征信息。
4)根据获取的形状特征信息从字符模板数据库中筛选出与手写输入字符的轮廓相近的字符模板;
5)比对字符模板和手写输入字符的其它特征信息,对手写输入字符进行辨识。
5.1)对获取的手写输入字符包括角度和/或长度在内的其它特征信息进行计算;
5.2)然后比对手写输入字符和筛选出的字符模板的其他特征信息,然后进行辨识,并将辨识结果计算输出。
其中步骤2)中对手写输入字符进行预处理包括对手写输入字符的误差噪声过滤、滤波处理及规范化处理,噪声(noise)也称为杂点、噪音,主要是指影像所产生的粗糙部分,也指影像中不该出现的外来像素,噪声对重建的影像有严重的影响,因此,在对手写输入字符进行识别之前需对其做相应的过滤处理,以除去噪声。
步骤3.5)中所述基准线与缩放字符轮廓交点的特征值为:从水平垂直的四个方向用八条基准线切割手写输入字符后的交点坐标,其中沿水平方向切割时,特征值为具有一交点的所述基准线Y坐标之和与所述交点总数的加权平均值;沿该垂直方向切割时,特征值为具有一交点的所述基准线X坐标之和与所述交点总数的加权平均值。
参见图1,本发明的系统10包括预处理模块14、轮廓识别模块16以及特征计算模块18,使用者通过在输入装置12的手写板上书写文字得到手写输入字符,然后输入装置12把手写板上的所有手写输入字符信息采样后经由串行或并行接口送入预处理模块14中。预处理模块14对手写输入字符进行包括误差噪声过滤、滤波处理及规范化之预处理操作,进而将字符影像中不该出现的噪声去除掉。然后,经由预处理后的手写输入字符进入轮廓识别模块16中,轮廓识别模块16藉由轮廓点特征值对其形状特征进行获取,进而得到关于手写输入字符的形状特征信息。这里轮廓识别模块16在执行手写输入字符形状特征获取时,首先分别在手写输入字符的水平方向及垂直方向查找一极值坐标点,并藉由极值坐标点连接成一字符边框,然后将手写输入字符连同字符边框缩放至字符模板的固定大小,进而得到手写输入字符的缩放字符。并且纪录缩放字符的轮廓的所有坐标点,然后沿水平和垂直方向等距建立复数条基准线,以对缩放字符的轮廓进行切割,最后纪录基准线与缩放字符轮廓交点的特征值,得到手写输入字符的形状特征信息。此外,文字识别系统10还包括模板数据库20,模板数据库20中储存复数个模板数据,轮廓识别模块16将获取的手写输入字符形状特征与模板数据库20中的模板数据进行比对,以筛选出与手写输入字符轮廓相近的字符模板。特征计算模块18对包括角度和/或长度的其它特征信息进行计算,并执行上述筛选字符模板与所述角度和/或长度特征信息的比对,进而对手写输入字符进行辨识,得到最终辨识结果。可将辨识结果保存到存储装置24中,或者通过显示装置22显示手写输入字符的辨识结果。通过藉由手写输入字符轮廓特征引入比对特征值作为模板的筛选,提高了模板比对的命中率和辨识速度。
参见下面结合图2-5举例说明本发明的手写输入字符特征获取方法。如图所示,首先分别在手写输入字符的水平方向及垂直方向查找一极值坐标点,依据手写输入字符上方、下方、左方及右方四个水平、垂直方向得到四个极值坐标点,藉由上述四个极值坐标点连接成一矩形字符边框,当然也可能为正方形,具体形状根据手写输入字符的轮廓结构特征而定,然后将手写输入字符连同字符边框缩放至字符模板的固定大小,进而得到手写输入字符的缩放字符,其中缩放字符坐标大小与字符模板的坐标大小相同,字符模板来自储存复数个模板数据的模板数据库中,其大小为确定且固定的。缩放后的字符边框26大小及形状如图5所示。接着对缩放字符的轮廓的所有坐标点进行纪录。沿水平和垂直方向四个方向等距依次建立复数条基准线28,以对缩放字符的轮廓进行切割,基准线28的个数依据手写输入字符的轮廓复杂程度决定,轮廓越复杂的基准线的个数越多,这里所举例的泰文字体较为简单,所以可以选择八条基准线对手写输入字符进行切割。纪录所述基准线与缩放字符轮廓交点的特征值,即从水平垂直的四个方向用八条基准线切割手写输入字符后的交点坐标,其中沿水平方向切割时,特征值为具有一交点的所述基准线Y坐标之和与所述交点总数的加权平均值;沿该垂直方向切割时,特征值为具有一交点的所述线条X坐标之和与所述交点总数的加权平均值,进而得到手写输入字符之形状特征信息。由图5可以看出,本发明的方法与手写输入字符的笔划、笔段无关,只与手写输入字符的形状结构和各部分的位置有关,因此能有效地避免笔划引起的误差,进而提高手写输入字符的辨识精度。

Claims (9)

1、一种文字识别的方法,其特征在于:该方法包括以下步骤:
1)预建一字符模板数据库,模板数据库中储存有复数个字符模板数据;
2)对手写输入字符进行预处理;
3)根据手写输入字符的轮廓点特征值获取形状特征信息;
4)根据获取的形状特征信息从字符模板数据库中筛选出与手写输入字符的轮廓相近的字符模板;
5)比对字符模板和手写输入字符的其它特征信息,对手写输入字符进行辨识。
2、根据权利要求1所述的文字识别的方法,其特征在于:所述步骤2)中对手写输入字符进行预处理包括对手写输入字符的误差噪声过滤、滤波处理及规范化处理。
3、根据权利要求1所述的文字识别的方法,其特征在于:所述步骤3)中的具体步骤如下:
3.1)分别在手写输入字符的水平方向及垂直方向查找一极值坐标点,并根据极值坐标点连接成一字符边框;
3.2)将手写输入字符连同字符边框缩放至字符模板的固定大小,进而得到手写输入字符的缩放字符,其中缩放字符的坐标大小与字符模板的坐标大小相同;
3.3)纪录缩放字符的轮廓的所有坐标点;
3.4)沿水平和垂直方向等距建立复数条基准线,以对缩放字符的轮廓进行切割;
3.5)纪录基准线与缩放字符轮廓交点的特征值,得到手写输入字符的形状特征信息。
4、根据权利要求3所述的文字识别的方法,其特征在于:所述步骤3.5)中所述基准线与缩放字符轮廓交点的特征值为:从水平垂直的四个方向用八条基准线切割手写输入字符后的交点坐标,其中沿水平方向切割时,特征值为具有一交点的所述基准线Y坐标之和与所述交点总数的加权平均值;沿该垂直方向切割时,特征值为具有一交点的所述基准线X坐标之和与所述交点总数的加权平均值。
5、根据权利要求1所述的文字识别的方法,其特征在于:所述步骤5)中的具体步骤如下:
5.1)对获取的手写输入字符包括角度和/或长度在内的其它特征信息进行计算;
5.2)然后比对手写输入字符和筛选出的字符模板的其他特征信息,然后进行辨识,并将辨识结果计算输出。
6、一种应用权利要求1所述的文字识别方法的系统,其特征在于:该系统包括用来对手写输入字符进行误差噪声过滤、滤波处理及规范化的预处理操作的预处理模块、借助手写输入字符的轮廓点特征值获取形状特征信息,并筛选出与手写输入字符轮廓相近的字符模板的轮廓识别模块和计算及执行字符模板与手写输入字符的其它特征信息比对的特征计算模块和储存有复数个字符模板数据的模板数据库,所述预处理模块和模板数据库分别接入轮廓识别模块,所述轮廓识别模块接入特征计算模块。
7、根据权利要求6所述的文字识别系统,其特征在于:所述预处理模块外接有输入装置。
8、根据权利要求6所述的文字识别系统,其特征在于:所述特征计算模块外接有显示装置。
9、根据权利要求6所述的文字识别系统,其特征在于:所述特征计算模块外接有存储装置。
CNB2006100428715A 2006-05-25 2006-05-25 一种文字识别的方法 Expired - Fee Related CN100394435C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2006100428715A CN100394435C (zh) 2006-05-25 2006-05-25 一种文字识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2006100428715A CN100394435C (zh) 2006-05-25 2006-05-25 一种文字识别的方法

Publications (2)

Publication Number Publication Date
CN1851730A true CN1851730A (zh) 2006-10-25
CN100394435C CN100394435C (zh) 2008-06-11

Family

ID=37133209

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2006100428715A Expired - Fee Related CN100394435C (zh) 2006-05-25 2006-05-25 一种文字识别的方法

Country Status (1)

Country Link
CN (1) CN100394435C (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463157A (zh) * 2014-11-07 2015-03-25 李宇 手写字符的电子识别方法
CN111459395A (zh) * 2020-03-30 2020-07-28 北京集创北方科技股份有限公司 手势识别方法、系统、存储介质、人机交互设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1020054C (zh) * 1989-03-23 1993-03-10 清华大学 光照输入手写印刷体汉字识别系统
JP4469566B2 (ja) * 2003-06-27 2010-05-26 株式会社日本デジタル研究所 文字認識方法
CN1333366C (zh) * 2005-04-01 2007-08-22 清华大学 基于统计结构特征的联机手写汉字识别方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104463157A (zh) * 2014-11-07 2015-03-25 李宇 手写字符的电子识别方法
CN104463157B (zh) * 2014-11-07 2019-03-12 李宇 手写字符的电子识别方法
CN111459395A (zh) * 2020-03-30 2020-07-28 北京集创北方科技股份有限公司 手势识别方法、系统、存储介质、人机交互设备

Also Published As

Publication number Publication date
CN100394435C (zh) 2008-06-11

Similar Documents

Publication Publication Date Title
CN1163840C (zh) 利用判定树减少手写体识别器差错
JPH0139154B2 (zh)
CN1239260A (zh) 使用多分辨率模型的手写字符记录
CN111553344B (zh) 文本图像的倾斜校正方法、系统、设备和存储介质
CN1655147A (zh) 用于搜索数字墨水查询的设备和方法
CN112036259A (zh) 一种基于图像处理与深度学习相结合的表格矫正与识别的方法
CN1123844C (zh) 识别手写字符的装置和方法
CN112101351A (zh) 一种基于投影的文本行旋转校正方法及装置
CN101051352A (zh) 字符识别装置和方法
CN1851730A (zh) 一种文字识别的方法及其系统
US9195887B2 (en) Retrieving apparatus, retrieving method, and computer program product
CN101030261A (zh) 一种手写输入字符辨识方法及系统
CN1167956A (zh) 相似字识别方法及装置
CN1916942A (zh) 一种基于字体预测的字符识别方法
CN115273108B (zh) 一种人工智能识别自动归集方法及系统
CN113139548B (zh) 基于运算符作用域和中心线的数学公式识别方法
CN1271537C (zh) 一种将手写笔记转换为文字文本的方法
CN111639506B (zh) 图像中条形码的定位方法、装置、扫码设备
CN1200397C (zh) 对象行为建模方法
CN1641681A (zh) 具有摄像装置的移动终端中快速输入字符信息的方法
CN1172996A (zh) 在线字符识别方法和设备
Raducanu et al. Skew detection using the radon transform
CN117710985B (zh) 光学字符识别方法、装置及智能终端
CN1020213C (zh) 联机手写字符识别装置
CN1259635C (zh) 用于识别文本行的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080611

Termination date: 20110525