CN100485711C

CN100485711C - 手写字体的计算机识别与自动输入方法

Info

Publication number: CN100485711C
Application number: CNB031190782A
Authority: CN
Inventors: 周非凡; 程卓; 凡东; 曾俊玲; 张惠捷
Original assignee: China University of Geosciences
Current assignee: China University of Geosciences
Priority date: 2003-05-16
Filing date: 2003-05-16
Publication date: 2009-05-06
Anticipated expiration: 2023-05-16
Also published as: CN1549192A

Abstract

本发明是一种手写字体的计算机识别与自动输入方法，其步骤包括：对扫描仪输入的手写字体进行图象预处理；手写字体字形的提取，其包括利用文本行的水平投影进行行切分，以及利用文本字的垂直投影进行字切分；计算机字体和手写字体的建模，其包括字形特征向量提取和归类；文字匹配，其包括计算机的字形特征向量提取和匹配；手写字体的识别，建立手写体与计算机字体的对应关系。本发明具有省力、省时、省人工、使用方便等优点，实现了更加方便的人机对话界面。

Description

手写字体的计算机识别与自动输入方法

技术领域

本发明涉及中文信息处理技术领域，特别是一种手写字体的计算机识别与自动输入方法。

背景技术

手写字体的计算机识别与自动输入系统是目前自然语言处理领域的一个非常热点的问题。它的主要功能体现在能处理任意的手写稿件，市场上流行的手写板以及微软推出的平板电脑在一定程度上解决了文字录入费时的问题，体现了办公自动化的优越性。但手写板以及平板电脑也有很大的缺点：价格昂贵，一般人难以承受；使用时，还需随身携带。此外，对于手写字体，例如书写在纸张上的手写文稿，以及印刷在载体上的手写字体和铅字等文字资料，目前计算机还不能做到自动识别和自动输入，需要靠人工识别和输入。

发明内容

本发明所要解决的技术问题是：提供一种手写字体的计算机识别与自动输入方法，它不仅使计算机能自动识别由扫描仪输入的手写文稿，而且能同时识别由扫描仪输入的印刷在载体上的手写字体和铅字，并将文本文字的图象信息转换成为计算机可以直接处理的文字代码形式，完成文本的计算机自动输入。

本发明解决其技术问题的技术方案，包括：

1)对扫描仪输入的手写字体进行图象预处理的步骤；

2)手写字体字形的提取，其步骤包括：行切分和字切分，

行切分，利用文本行的水平投影进行切分，

字切分，利用文本字的垂直投影进行切分；

3)计算机字体的建模，其步骤包括：字形特征向量提取和归类；

4)手写字体的建模，与计算机字体的建模步骤一样；

5)文字匹配，其步骤包括：计算机的字形特征向量提取和匹配，

计算机的字形特征向量提取，由计算机字体的建模步骤完成，

计算机的字形特征向量匹配，包括单个字的匹配和句子的检测匹配与纠错；

6)手写字体的识别，其步骤是：

在手写字体进行了特征抽取之后，依照字形特征向量归类方法进行特征编码，

在对每一组特征完成编码之后，首先到特征库里寻找其分别对应的索引值，

在对应的索引代码找到后，下一步就是根据映射表的对应规则，由其所对应的索引代码寻找对应的国家标准GB码，从而建立手写字体与计算机字体的对应；

上述步骤1)至5)为自动输入方法的步骤。

本发明的主要优点如下：

其一.可使计算机能自动识别由扫描仪输入的手写文稿，同时能自动识别由扫描仪输入的印刷在载体上的手写字体和铅字。

其二.可将文本文字的图象信息转换成为计算机可以直接处理的文字代码形式，完成文本的计算机自动输入。

其三.使用方便：书写者只须提供手写文稿，即可由其或他人操作计算机，将扫描仪输入的各种手稿、信件、便条、签名等手写文稿以及印刷在载体上的手写字体和铅字等文字资料，完成自动识别和输入，从而真正地解决了不能输入的问题，实现了更加方便的人机对话界面。

其四.无需再打字，省力、省时、省人工。与打印机配套使用，就可以打印出上述文字资料，从而真正地解决了输入的耗时问题，同时可省去复印机。

其五.应用前景十分开阔：适用于办公、出版社和报刊杂志社，以及个人使用等，市场潜力大。

附图说明

图1是本发明的主要程序流程图。

图2是行切分的水平投影示意图。

图3是字切分的垂直投影示意图。

图4是对单个手写字体的图象进行上、下、左、右投影的示意图。

图5是以左方向投影为例的量化图象的示意图。

图6是以左方向投影为例的微分后图象的示意图。

具体实施方式

下面结合实施例及附图对本发明作进一步说明。

一.流程

包括：

1)对扫描仪输入的手写字体进行图象预处理的步骤；

如图1所示，还包括：

2)手写字体字形的提取，其步骤包括：行切分和字切分，

行切分，利用文本行的水平投影进行切分，

字切分，利用文本字的垂直投影进行切分；

4)手写字体的建模，与计算机字体的建模步骤一样；

6)手写字体的识别，其步骤是：

在手写字体进行了特征抽取之后，依照字形特征向量归类方法进行特征编码。

在对每一组特征完成编码之后，首先到特征库里寻找其分别对应的索引值。

在对应的索引代码找到后，下一步就是根据映射表的对应规则，由其所对应的索引值寻找对应的内部码即国家标准GB码，从而建立手写体与计算机字体的对应。但是在寻找代码的过程中间，可能回出现多个手写字体对一个计算机字体或者是出现，或者出现一个手写字体没有计算机字体与之相对应。这样的问题应该由语料库方法和统计语言模型来解决。通过概率的方法确定二者的对应。

上述步骤1)至5)为自动输入方法的步骤。

二.图象预处理(公知技术)

手写稿首先通过扫描仪以图片的格式存在，然后进行图片的初始化处理，将图片量化做成点阵(包含色彩强度)。

去除纸格之类规范的”躁声”：对于纸格，由于它有很大的规范性而且一般与字体的颜色是不一样的，选取此类颜色点然后去除，即可达到目的。

去除污痕：污痕所显现的点阵是一片连续的点阵，而且一般比较均匀，针对上述的特点，可以获得其边缘，去除即可。

三.手写字体字形的提取

1.行切分：

行与行之间的隔离，由于行之间存在很明显的间隙，故在二值化点阵上的表现便是形成由0的构成的区域。利用文本行的水平投影进行切分。行切分的目的是从一幅文本图象中，计算出一行文字象素的上下界，从而得到文本行。

由于人在手写的过程中下笔有轻重之分，利用灰度可以更好的体现间隙与手写字行之间的区别。

行切分的方法是：利用一组水平光线向形状做照射，从而在某一坐标方向上获得投影，该投影的灰度由被遮盖“光通量”的多少度量，公式为，

v_{y} = Σ_{x = 0}^{sx} f_{1} (x, y) f (x, y) - - - (1)

式中：f₁(x，y)为文本灰度图象，f(x，y)为文本图象的二值图象，S_x为文本图象的大小。

手写文稿行与行之间一般有很大的间距，但是又考虑到”躁声”，所以设一个很小的很小的阀值v1，如果坐标值低于阀值，就可以认为是文本行的间隔，如果高于v1，则可以认为是字体本身的所占的区域，这样就可以将文本行进行准确的分离。

2.字切分：

文本行在分离出来以后就可以进行字之间的切分。由于是基于特征向量的识别，所以，需要从行中间切分出单个手写字。每个汉字之间都有空隙，利用这一空隙可以将手写字体分开。汉字之间一般都有足够的空隙，利用这一空隙有利于字体的分离，但又由于手写体一般有连带的笔画，所以不能确定每个字所占区间的大小而划分区间进行隔离。在此使用光投影法进行隔离运算，投影法是利用一组垂直光线向形状做照射，从而在某一坐标方向上获得投影。如果这个“阴影”是有灰度的，则以被遮盖“光通量”的多少度量。这个阴影的外沿是一条曲线，可使平面的形状转化为平面曲线。由于连笔的笔画轻，也即灰度弱，为更好的体现分离效果，利用灰度进行计算。

v (x) = Σ_{y = 0}^{sy} f_{1} (x, y) f (x, y) - - - (2)

式中：f₁(x，y)为文本灰度图象，f(x，y)为文本图象的二值图象，S_y为文本图象的大小。

采用灰度图象是因为人在书写的过程中难免会有连笔出现，而连笔一般比正常的笔划要轻，在灰度图上能有很好的体现，在v(x)中能更加明显的表示空隙。检测v(x)的最小值min(x)，设一阀值v2，对于v(x)>v2的点认为是手写字体所在区域，对于v(x)<v2的点认为是字与字之间的间隔区域。

通过公式(1)、(2)，基本上能反映出每个手写字体所在的位置，即切分出手写字体的独立形式。

四.计算机字体的建模

1.字形特征向量提取：

1)建立字模的特征向量：先将切分后得到的单个手写字体的图象建立一个规范的点阵，即是水平方向与垂直方向函数上界相等，建成0/1点阵，例如把切分出来的图象归到48×48点阵的几何中心，即是水平方向与垂直方向函数上界相等，为特征的提取做准备，如果不做这些处理，文字的相似度比较就无法正确进行。将手写字的投影与标准的点阵比较，进行二值化处理，此过程由图象预处理的步骤完成。

然后，对单个手写字体(例如“中”字字体)的图象进行上、下、左、右投影，得到四组特征向量的图象(见图4)。

该图反映了笔画的上升和下降的趋势，而图中的波形定义为字模的边缘函数H1(X)、H2(X)、H1(Y)、H2(Y)。边缘函数有丰富的信息，一个手写字的特征几乎都可以在边缘函数上表现出来。在实际的文本中，由于不同的字体，不同的符号，即使是同一字体也是不等宽和不等高的，并且切分的位置也不可能精确到在两字体的连接处，这些都或强烈的影响上述特征的准确提取。

2)建立字模的边缘函数：H1(X)，H2(X)，H1(Y)，H2(Y)。边缘函数是一些不光滑的曲线，不利于进行特征值的抽取，可用公式(3)进行量化，量化图象请见图5，该图是以左方向为例投影的。

3)量化边缘函数：公式为，

h (x) = Σ_{x 1 = 0}^{b_{1}} (H (x_{1}) + H (x_{1} + \frac{b_{1}}{m})) [u (x - x_{1}) - u (x - x_{1} - \frac{b_{1}}{m})] / 2 - - - (3)

4)字模的特征向量提取：对H1(X)、H2(X)、H1(Y)、H2(Y)四个边缘函数建立的量化边缘函数，分别对四组特征向量进行微分，得到四组由冲击函数构成的向量组合。微分图象请见图6，该图是以左方向投影为例的。

对于每一组冲击函数可通过下述方法提取三组特征向量：

每个冲击函数代表一个方向，以左方向的投影为例，正方向的记为1，反方向的记为0，按先后顺序排列组成一个特征向量组S1；

每两个冲击函数之间有一个间隔，记下所有的间隔之比，例如a(1)：a(2)：a(3)....a(n)；

每个冲击函数的幅度会不同，记下所有的冲击函数的幅度之比，例如b(1)，b(2)，b(3)....b(n)；

依次类推，得到不同方向即上、下、左、右方向的向量。

计算机字体依次类推，对于每个计算机字体也可以建立上、下、左、右方向上的向量。

2.字形特征向量归类：

鉴于特征值进行比较的计算量太大，提出一种基于编码的建库思想。

1)编码

幅度向量，体现字体的起伏，其编码方法是：

有一个幅度向量b(1)，b(2)，b(3)....b(n)，n为自然数，这样的数据在计算机里存放不便于管理与检索。令b(1)为1，若b(2)>b(1)，则b(2)＝1，否则，b(2)＝0，推广则可表示为公式如下：

b (n) = \{\begin{matrix} 1 & b (n) > b (n - 1) \\ 0 & b (n) < b (n - 1) \end{matrix} - - - (4)

若有一幅度向量为1：4：5：2：3：6，则对应的编码是1：1：1：0：1：1。

间隔向量，体现字体的笔画分配，其编码方法与幅度向量的编码方法相同。

符号向量，其编码已经在前面完成，同样对应的是由1和0所构成的向量。

2)实例

幅度向量、间隔向量、符号向量的编码实例，请分别见附表一、二、三。

五.手写字体的建模

与计算机字体的建模步骤一样。

六.文字匹配

其步骤包括：计算机的字形特征向量提取和匹配。

计算机的字形特征向量提取，由计算机字体的建模步骤完成。

计算机的字形特征向量匹配，包括单个字的匹配和句子的检测匹配与纠错。

1.单个字的匹配

1)为了将每个汉字与特征向量库的索引号相对应，应该对计算机字体建立特征数据库索引表。在以后进行的特征向量的匹配过程中，减少相似度的计算，提高系统的识别率，是本发明设计的一大特色。

步骤如下：

由上、下、左、右投影的特征向量的编码，混合后建立特征向量库，整个特征向量库中的混合码按照格雷码排列；

将字库编码转换成2进制形式；

建立一个由特征向量库到字库编码的映射表(见表七)，字库编码采用国家标准编码GB。

2)在特征向量数据库和字库之间建立索引表，对每个汉字进行编码，利用公知汉字编码进行汉字检索。

特征向量数据库的建立，包括：

在先前对每一个汉字已经建立的六个特征向量，以X轴上的冲击函数为例，建立一个表单存放冲击函数的间隔之比值，建立一个表单存放冲击函数的幅度之比值，建立一个表单存放冲击函数的符号顺序值；

同样的建立基于Y轴的三个表单；

然后进行编码；

将表单的索引顺序按如下进行方式排列：

X------>>Y，

符号向量---->>间隔向量---->>幅度之比，

符号向量只有正和负两种可能，用0和1表示，按照格雷码的顺序进行排列，

间隔向量是比值，将比值整数化，之后从第一位开始，从小到大进行编码。

3)以5位特征向量建立特征向量库的实例：

请见附表四、五、六。

2.句子的匹配检测

句子的检测匹配，其方法是：由三元统计语言模型方法检测由词组建立的语料库。

语料库是在大量的实践的基础上统计常用的语句与短语，从而计算出每个字出现的先验概率和后验概率，进而根据已经出现的字预测当前被识别的字。

设wi是文本中的任意一个词，如果已知它在该文本中的前两个词wi-2，wi-1，便可以用条件概率P(wi|(wi-2)(wi-1))来预测wi出现的概率。这就是统计语言模型的概念。一般来说，如果用变量W代表文本中一个任意的词序列，它由顺序排列的n个词组成，即W＝w1w2...wn，则统计语言模型就是该词序列W在文本中出现的概率P(W)。利用概率的乘积公式，P(W)可展开为：

P(W)＝P(w1)P(w2|w1)P(w3|w1 w2)...P(wn|w1 w2...wn-1)

从计算上来看，这种方法太复杂了。如果任意一个词wi的出现概率只同它前面的两个词有关，问题就可以得到极大的简化。这时的语言模型叫做三元模型(tri-gram)：

P (W) \approx P (w 1) P (w 2 | w 1) * Π_{i = 1}^{n} P (wi | (wi - 2) (wi - 1))

一般来说，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。重要的是这些概率参数都是可以通过大规模语料库来计算的。比如三元概率有：

P(wi|(wi-2)(wi-1))≈count((wi-2)(wi-1wi))/count((wi-2)(wi-1))

式中count(...)表示一个特定词序列在整个语料库中出现的累计次数。

3.句子的匹配纠错：

结合概率模型和编码识别对手写字体进行准确的识别，具体步骤如下：

手写字体在通过编码得到对应的计算机字体的“GB”库之后访问语料库，得到该字与它前面所出现字的相关密度，如果相关密度太小，则返回先前的特征库；

符号向量以上下不超过5个代码单位的上下限线来移动，间隔向量和幅度向量以上下不超过20个代码单位的上下限线来同时移动，每个向量移动10次，访问一次语料库；

直到查出哪一次匹配的概率超过80％，即可确定对应手写字体与此字的对应关系。达到比较高的识别率。由于系统直接嵌入现有的语料库，所以不需要学习的过程。

在书写体很不规范的情况下，纠错是必不可少的环节。

七.综上所述，通过一系列的建模和编码，以及到后来的语料库的运用，建立起来的汉字识别系统，利用了切分、分类、编码等多样化的手段，实现了计算机对手写字的识别与自动输入。

八.附表

表一幅度向量

表二间隔向量

表三符号向量

+	--	+	.........	+
+	--	+	.........	+	1	0	1	........	1

表四幅度向量1

表五间隔向量1

表六符号向量1

表七映射表

索引1	索引2	索引3	索引编码	GB
索引1	索引2	索引3	索引编码	GB	00001	00001	00001	000010000100001	011010
					00001	00001	00001	000010000100001	011010

Claims

1.一种手写字体的计算机识别与自动输入方法，包括：

1)对扫描仪输入的手写字体进行图象预处理的步骤；

其特征是还包括：

2)手写字体字形的提取，其步骤包括：行切分和字切分，

行切分，利用文本行的水平投影进行切分；行切分的方法是：利用一组水平光线向形状做照射，从而在某一坐标方向上获得投影，该投影的灰度由被遮盖“光通量”的多少度量，公式为，

v_{y} = Σ_{x = 0}^{sx} f_{1} (x, y) f (x, y) - - - (1)

式中：f₁(x，y)为文本灰度图象，f(x，y)为文本图象的二值图象，S_x为文本图象的大小，Vy表示垂直光通量，

字切分，利用文本字的垂直投影进行切分；字切分的方法是：利用一组垂直光线向形状做照射，从而在某一坐标方向上获得投影，该投影的灰度由被遮盖“光通量”的多少度量，公式为，

v (x) = Σ_{y = 1}^{sy} f_{1} (x, y) f (x, y) - - - (2)

式中：f₁(x，y)为文本灰度图象，f(x，y)为文本图象的二值图象，S_y为文本图象的大小，V(x)表示水平光通量；

4)手写字体的建模，与计算机字体的建模步骤一样；

6)手写字体的识别，其步骤是：

上述步骤1)至5)为自动输入方法的步骤。

2.根据权利要求1所述的手写字体的计算机识别与自动输入方法，其特征在于字形特征向量归类的方法是：基于编码建数据库，如下，

幅度向量：体现字体的起伏，其编码方法是，

有一个幅度向量b(1)，b(2)，b(3)....b(n)，

则公式如下：

b (n) = \{\begin{matrix} 1 & b (n) > b (n - 1) \\ 0 & b (n) < b (n - 1) \end{matrix} - - - (4)

式中：令b(1)为1，若b(2)>b(1)，则b(2)＝1，否则b(2)＝0；n为自然数；

间隔向量：体现字体的笔画分配，其编码方法与幅度向量的编码方法相同；

符号向量：其编码已经在前面完成，同样对应的是由1和0所构成的向量。

3.根据权利要求1所述的手写字体的计算机识别与自动输入方法，其特征在于单个字的匹配，其步骤是：

由上、下、左、右投影的特征向量的编码，混合后建立特征向量数据库，整个特征向量数据库中的混合码按照格雷码排列；

将字库编码转换成2进制形式；

建立一个由特征向量库到字库编码的映射表，字库编码采用国家标准编码GB；

在特征向量数据库和字库之间建立索引表，对每个汉字进行编码，利用公知汉字编码进行汉字检索；

特征向量数据库的建立，包括：

1)在先前对每一个汉字已经建立的六个特征向量，以X轴上的冲击函数为例，建立一个表单存放冲击函数的间隔之比值，建立一个表单存放冲击函数的幅度之比值，建立一个表单存放冲击函数的符号顺序值；

2)同样的建立基于Y轴的三个表单；

3)然后进行编码；

4)将表单的索引顺序按如下进行方式排列：

X------>>Y，即：先处理X轴方向的索引，再处理Y轴方向的索引，

符号向量---->>间隔向量---->>幅度之比，即：先进行“符号向量”的索引，再进行“间隔向量”的索引，然后进行“幅度之比”的索引，

4.根据权利要求1所述的手写字体的计算机识别与自动输入方法，其特征在于句子的检测匹配，其方法是：由三元统计语言模型方法检测由词组建立的语料库。

5.根据权利要求1所述的手写字体的计算机识别与自动输入方法，其特征在于句子的匹配纠错，其方法是结合概率模型和编码识别对手写字体进行准确的识别，具体步骤如下：

手写字体在通过编码得到对应的计算机字体的国家标准GB库之后访问语料库，得到该字与它前面所出现字的相关密度，如果相关密度小，则返回先前的特征库；

符号向量以上下小于或等于5个代码单位的上下限线来移动，间隔向量和幅度向量以上下小于或等于20个代码单位的上下限线来同时移动，每个向量移动10次，访问一次语料库；

直到查出哪一次匹配的概率大于80％，即确定了对应手写字体与此字的对应关系。