CN101630362B - 一种基于置信度的汉字书写质量评价方法 - Google Patents

一种基于置信度的汉字书写质量评价方法 Download PDF

Info

Publication number
CN101630362B
CN101630362B CN200910042118XA CN200910042118A CN101630362B CN 101630362 B CN101630362 B CN 101630362B CN 200910042118X A CN200910042118X A CN 200910042118XA CN 200910042118 A CN200910042118 A CN 200910042118A CN 101630362 B CN101630362 B CN 101630362B
Authority
CN
China
Prior art keywords
candidate
writing quality
chinese
confidence
degree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200910042118XA
Other languages
English (en)
Other versions
CN101630362A (zh
Inventor
金连文
高岩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN200910042118XA priority Critical patent/CN101630362B/zh
Publication of CN101630362A publication Critical patent/CN101630362A/zh
Application granted granted Critical
Publication of CN101630362B publication Critical patent/CN101630362B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Discrimination (AREA)

Abstract

本发明提供一种基于置信度的汉字书写质量评价方法,其利用修正二次判决函数计算候选字距离的方法,利用候选字距离计算置信度进行汉字书写质量评价方法。本发明创新性的提出了利用置信度进行书写质量评价的新方法,而且该方法对汉字书写质量的评价与人为评价90%以上是一致的,故而该方法是合理有效的,这种汉字书写质量评价方法与传统的汉字书写质量评价方法相比,评价的标准主要是根据训练样本的选取,如果训练样本书写工整,则该评价系统对样本书写工整性有较好的评价能力。

Description

一种基于置信度的汉字书写质量评价方法
技术领域
本发明属于利用计算机模式识别对手写文字图像进行识别处理的技术领域,特别是涉及一种基于置信度的汉字书写质量评价方法。
技术背景
手写汉字书写质量评价是利用计算机智能判别用户手写汉字的书写质量,其中书写质量包括书写是否正确、工整以及熟练三个方面的内容。手写汉字书写质量评价技术涉及到模式识别、图像处理、人工智能和计算机等学科,也涉及到语言文字学、书法、认知心理学等,是一门综合性很强的技术。
但是汉字书写质量评价有很多难点。首先,汉字字量大,仅国标一级字库中就有3755个汉字,而《现代汉语字典》中收集的汉字约11000个,即使智能评价3000个以上的汉字书写仍是一个相当大的问题;其次,汉字结构复杂,笔画最多的汉字有三十多画,平均每个汉字的笔画数约为11,所以手写汉字不可避免的会带来一些噪声,如连笔、笔画畸变等;再次,汉字相似性大,如“人、入”,“日、曰”,“己、已、巳”等,这些相似字有的仅有一点之差,有时人也不一定能辨认出写的不规范的手写体,这就给智能评价带来了很大的困难和挑战;最后,汉字字体众多,最常见的有楷书,行书,草书,隶书,篆书等,对各种字体书写评价的规则也是不一样的。所以目前汉字书写质量评价依然是个具有挑战性的研究题目。本文对书写质量评价做了初步的探讨,提出了一种基于置信度分析的汉字书写质量评价。
发明内容
本发明的目的在于创新性的提出了一种新的汉字书写质量评价方法,即基于置信度的汉字书写质量评价。
本发明采用的技术方案为:
一种基于置信度的汉字书写质量评价方法,其步骤如下:
(1)、利用修正二次判决函数计算候选字距离;
(2)、对候选字距离进行尺度调整;
(3)、利用候选字距离计算置信度;
(4)、利用置信度进行汉字书写质量评价
所述步骤(1)是利用修正二次判决函数(MQDF)分类器对手写汉字进行识别,得到K个候选字(一般取K=10),并计算每个候选字与手写样本的距离。MQDF分类器判决函数描述如下,
Figure G200910042118XD00021
而由MQDF分类器计算出的距离di为:
d i = ( x - μ i ) T Σ i - 1 ( x - μ i ) + log | Σ i |
其中∑i是协方差矩阵,μi是样本均值。
所述步骤(2)是对候选字距离进行尺度调整。由于由MQDF计算得到的距离di的数值有时较大,取负指数后变为0,不利于计算,因此需要将di做一个尺度上的调整di′=di/D0,其中D0为尺度因子,要根据训练样本的识别距离大小估计。估计的方法如下,
对一定数量的训练样本(从训练样本随机抽取,如:50个),统计第一候选距离最小值dmin和最末一个候选的距离最大值dmax,应有:
Figure DEST_PATH_GSB00000533436000011
为了方便计算和参数调整,选取D0=2N,使得下式成立:
exp { d max / 2 N - 2 } ≤ 10 - 10 exp { d min / 2 N - 2 } Σ i = 0 candidateN um - 1 exp { [ d min + i * ( d max - d min ) / ( candidateN um - 1 ) ] / 2 N - 2 } ≥ 0.5
其中,candidateNum为候选类别个数,即选取的前candidateNum个候选字,dmin是第一候选距离最小值,dmax是最末一个候选的距离最大值。
所述步骤(3)是利用已经得到的候选字距离计算置信度。置信度的计算方法如下,
P ( ω i | x ) = exp ( d i | D 0 - 2 ) Σ j exp ( d j / D 0 - 2 )
其中di,i=1,…,K分别为前K个候选字的距离,D0为第二步中计算出的尺度因子。
所述步骤(4)是根据第三步中得到的候选字置信度,对汉字书写质量进行评价。选取适当的阈值区间,可以对汉字书写质量进行等级评价。阈值区间的选取跟训练样本、样本置信度分布的均值和方差有密切的关系。对于不同训练集合阈值空间的划分是不一样的,要根据置信度分布的均值和方差通过实验求的。
本发明的原理是根据汉字识别的相关知识,利用汉字识别分类器计算得到的候选字距离,计算首选候选字的置信度。根据此置信度来对手写汉字进行书写质量评价。本文创新性的提出了利用置信度进行书写质量评价。
附图说明
图1是本发明的系统结构框图;
图2是中科院CASIA-OLHWDB1数据库中提取的样本;
图3是SCUT-COUCH2009数据库中提取的样本;
图4是中科院CASIA-OLHWDB1数据库书写质量等级划分结果;
图5是SCUT-COUCH2009数据库书写质量等级划分结果。
具体实施方式
下面结合附图对本发明做进一步的说明,实施本发明所用的汉字书写质量评价设备可以采用手写板书写汉字,用计算机进行评价,用纯平型显示器显示用户图形界面,可采用C语言编制各类处理程序,便能较好地实施本发明。
本发明的系统结构框图如附图1所示,手写汉字输入后,首先对样本提取特征,然后送入分类器。利用分类器计算出候选字的置信度,根据该置信度对汉字进行书写质量评价。
这种基于置信度的汉字书写质量评价方法,其步骤如下:
(1)、利用修正二次判决函数计算候选字距离;
(2)、对候选字距离进行尺度调整;
(3)、利用候选字距离计算置信度;
(4)、利用置信度进行汉字书写质量评价
所述步骤(1)是利用修正二次判决函数计算候选字距离。MQDF分类器如下,
而由MQDF计算出的距离di为:
d i = ( x - μ i ) T Σ i - 1 ( x - μ i ) + log | Σ i |
其中∑i是协方差矩阵,μi是样本均值。
所述步骤(2)是对候选字距离进行尺度调整。由于由MQDF计算得到的距离di的数值有时较大,取负指数后变为0,不利于计算,因此需要将di做一个尺度上的调整di′=di/D0,其中D0为尺度因子,要根据训练样本的识别距离大小估计。估计的方法如下,
对一定数量的训练样本(从训练样本随机抽取,如:50个),统计第一候选距离最小值dmin和最末一个候选的距离最大值dmax,应有:
Figure DEST_PATH_GSB00000533436000022
为了方便计算和参数调整,取D0=2N,则
exp { d max / 2 N - 2 } ≤ 10 - 10 exp { d min / 2 N - 2 } Σ i = 0 candidateN um - 1 exp { [ d min + i * ( d max - d min ) / ( candidateN um - 1 ) ] / 2 N - 2 } ≥ 0.5
其中,candidateNum为候选类别个数,即选取的前candidateNum个候选字,dmin是第一候选距离最小值,dmax是最末一个候选的距离最大值。
所述步骤(3)是利用已经得到的候选字距离计算置信度。置信度的计算方法如下,
P ( ω i | x ) = exp ( d i | D 0 - 2 ) Σ j exp ( d j / D 0 - 2 )
其中di,i=1,…,K分别为前K个候选字的距离,D0为第二步中计算出的尺度因子。
所述步骤(4)是根据第三步中得到的候选字置信度,对汉字书写质量进行评价。如附图2,3所示,根据置信度由大到小排列的样本集合,是样本从工整到潦草的过程。选取适当的阈值区间,可以对汉字书写质量进行等级评价。阈值区间的选取跟训练样本、样本置信度分布的均值和方差有密切的关系。对于不同训练集合阈值空间的划分是不一样的,要根据置信度分布的均值和方差通过实验求的。评价结果如附图4,5所示,从上到下每行依次是优、良、中、差、潦草五个等级。

Claims (3)

1.一种基于置信度的汉字书写质量评价方法,其特征在于包括如下步骤:
(1)、利用修正二次判决函数分类器对手写汉字进行识别,得到K个候选字,并计算每个候选字与手写样本的距离,所述修正二次判决函数分类器如下:
Figure FSB00000533435900011
计算出的识别距离di
Figure FSB00000533435900012
其中∑i是协方差矩阵,μi是样本均值矢量;
(2)、对候选字距离进行尺度调整,具体操作为将di做一个尺度上的调整di′=di/D0,其中D0为尺度因子,D0根据训练样本的识别距离大小进行估计,估计的方法如下:
对一定数量的训练样本,统计第一候选距离最小值dmin和最末一个候选的距离最大值dmax,根据下述准则:
选取D0=2N,使得
exp { d max / 2 N - 2 } ≤ 10 - 10 exp { d min / 2 N - 2 } Σ i = 0 candidateN um - 1 exp { [ d min + i * ( d max - d min ) / ( candidateN um - 1 ) ] / 2 N - 2 } ≥ 0.5
其中,candidateNum为候选汉字的类别数,dmin是第一候选距离最小值,dmax是最末一个候选的距离最大值;
(3)、利用候选字距离计算置信度;
(4)、利用置信度进行汉字书写质量评价。
2.根据权利要求1所述的基于置信度的汉字书写质量评价方法,其特征在于所述步骤(3)计算置信度的方法具体如下:
P ( ω i | x ) = exp ( d i | D 0 - 2 ) Σ j exp ( d j / D 0 - 2 ) .
其中di,i=1,…,K分别为前K个候选字的距离,D0为尺度因子。
3.根据权利要求2所述的基于置信度的汉字书写质量评价方法,其特征在于所述步骤(4)对汉字书写质量进行评价的具体操作为:根据训练样本、样本置信度分布的均值和方差选取适当的阈值区间,对汉字书写质量进行等级评价。
CN200910042118XA 2009-08-25 2009-08-25 一种基于置信度的汉字书写质量评价方法 Expired - Fee Related CN101630362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910042118XA CN101630362B (zh) 2009-08-25 2009-08-25 一种基于置信度的汉字书写质量评价方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910042118XA CN101630362B (zh) 2009-08-25 2009-08-25 一种基于置信度的汉字书写质量评价方法

Publications (2)

Publication Number Publication Date
CN101630362A CN101630362A (zh) 2010-01-20
CN101630362B true CN101630362B (zh) 2011-09-28

Family

ID=41575465

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910042118XA Expired - Fee Related CN101630362B (zh) 2009-08-25 2009-08-25 一种基于置信度的汉字书写质量评价方法

Country Status (1)

Country Link
CN (1) CN101630362B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102339392B (zh) * 2010-07-20 2014-07-02 广东因豪信息科技有限公司 一种书写汉字规范性评判的方法和装置
CN101976354B (zh) * 2010-11-10 2012-07-25 广东因豪信息科技有限公司 一种书写汉字规范性评判的方法和装置
CN102254196B (zh) * 2011-06-22 2014-05-14 江苏奥博洋信息技术有限公司 计算机鉴别手写汉字的方法
CN106548186B (zh) * 2015-09-16 2019-11-08 阿里巴巴集团控股有限公司 一种基于置信度确定样本回收量的方法和设备
CN107507161B (zh) * 2016-06-14 2020-06-16 科大讯飞股份有限公司 一种书写整洁度的评价方法及系统
CN107480700B (zh) * 2017-07-18 2021-02-12 西安理工大学 一种基于Gabor和SVM纹理提取汉字的方法
US11164025B2 (en) 2017-11-24 2021-11-02 Ecole Polytechnique Federale De Lausanne (Epfl) Method of handwritten character recognition confirmation
CN109214471A (zh) * 2018-10-10 2019-01-15 北京米蓝科技有限公司 评价练字字帖中的书写字的方法及系统
CN112434668A (zh) * 2020-12-14 2021-03-02 北京一起教育科技有限责任公司 一种评价整洁度的方法、装置及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916938A (zh) * 2005-08-18 2007-02-21 富士通株式会社 识别距离调整装置和方法以及文本行识别装置和方法
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1916938A (zh) * 2005-08-18 2007-02-21 富士通株式会社 识别距离调整装置和方法以及文本行识别装置和方法
CN101465074A (zh) * 2008-10-21 2009-06-24 华南理工大学 一种手写汉字布局评价方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Duanduan Yang and Lianwen Jin.Kernel Modified Quadratic Discriminant Function for Online Handwritten Chinese Character Recognition.《Ninth International Conference on Document Analysis and Recognition》.2007,全文. *
付强 丁晓青 刘长松.用于手写汉字识别的级联MQDF分类器.《清华大学学报(自然科学版)》.2008,第48卷(第10期),全文. *
刘晓龙 丁晓青.基于镜像学习和复合二次距离的手写汉字识别.《清华大学学报(自然科学版)》.2006,第46卷(第7期),第1-3部分. *

Also Published As

Publication number Publication date
CN101630362A (zh) 2010-01-20

Similar Documents

Publication Publication Date Title
CN101630362B (zh) 一种基于置信度的汉字书写质量评价方法
CN102622610B (zh) 一种基于分类器集成的手写维文字符识别方法
EP1564675B1 (en) Apparatus and method for searching for digital ink query
CN102449640B (zh) 识别手写单词
CN101510259B (zh) 一种联机手写藏文字丁的识别方法
Tsai Recognizing handwritten Japanese characters using deep convolutional neural networks
Chowdhury et al. Online handwriting recognition using Levenshtein distance metric
CN101976354A (zh) 一种书写汉字规范性评判的方法和装置
CN1652138A (zh) 一种手写文字的识别方法
Hamanaka et al. On-line Japanese character recognition experiments by an off-line method based on normalization-cooperated feature extraction
Kumar et al. Recognition of multi-stroke based online handwritten Gurmukhi aksharas
CN101604393B (zh) 一种用于联机手写汉字识别的汉字笔画特征提取方法
Ramaiah et al. Accent detection in handwriting based on writing styles
CN101604392B (zh) 一种用于联机手写汉字识别的汉字笔画特征并行提取方法
Singh et al. Data capturing process for online Gurmukhi script recognition system
CN101604378B (zh) 一种用于联机手写汉字识别的汉字笔画特征串行提取方法
CN110046603B (zh) 一种中国普乐手语编码的手势动作识别方法
Kunwar et al. Online handwritten Kannada word recognizer with unrestricted vocabulary
CN104504385B (zh) 手写粘连数字串的识别方法
Roy et al. Online Bangla handwriting recognition system
Bhaskarabhatla et al. Experiences in Collection of Handwriting Data for Online Handwriting Recognition in Indic Scripts.
CN102184426B (zh) 一种使手写汉字识别引擎能动态适应用户书写风格的方法
Al-Ma'adeed et al. Writer identification of Arabic handwriting documents using grapheme features
CN112329695A (zh) 一种基于智慧黑板的动态笔迹识别方法
Simayi et al. Research on on-line Uyghur character recognition technology based on center distance feature

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110928

Termination date: 20140825

EXPY Termination of patent right or utility model