CN1641681A

CN1641681A - 具有摄像装置的移动终端中快速输入字符信息的方法

Info

Publication number: CN1641681A
Application number: CN200410015671.1A
Authority: CN
Inventors: 莫皓然; 凌海燕; 任颖杰
Original assignee: SHANGHAI DIBITE IND CO Ltd
Current assignee: SHANGHAI DIBITE IND CO Ltd
Priority date: 2004-01-07
Filing date: 2004-01-07
Publication date: 2005-07-20

Abstract

一种具有摄像装置移动终端的快速输入字符信息的方法，包括如下步骤：1)通过作为原始图像获取部分的移动终端本身具有的摄像装置获取原始图像，由图像转化部分将其转化为相应的灰度图像和二值图像；2)图像预处理部分对所获二值图像进行相应的预处理；3)字符识别部分运用模式识别的方法将所获图像中的字符信息提取出来并存储到移动终端的内存中。

Description

具有摄像装置的移动终端中快速输入字符信息的方法

【技术领域】

本发明涉及一种移动终端中输入字符信息的方法，更确切地说，涉及一种具有摄像装置的移动终端中快速输入字符信息的方法。

【背景技术】

随着信息技术和通信技术，特别是移动通信技术的飞速发展，各种移动终端都朝着功能多样化、实用化、智能化方向发展，更大程度地方便了人们的生活，而且随着数码技术的普及和发展，很多具有摄像功能的移动终端应运而生，人们对于各种移动终端的智能化要求也越来越高。但是，目前各种移动终端的信息输入一般都采用人工键入，该方法输入速度慢，不仅繁琐而且劳动强度大，一般用户每分钟只能输入8-15个字符，这种方法不适合需要处理大量字符信息的情况，对于信息量如此巨大的今天，目前的信息输入方式已成为制约用户更为方便快捷使用各种移动终端的一个瓶颈。因此随着人们对于移动终端智能化水平要求的日益提高，人们期望一种能够快速输入字符信息的移动终端的出现。

【发明内容】

本发明克服了现有技术的不足，目的是为各种具有摄像装置的移动终端提供一种能够快速输入字符信息的方法，使用户能够更为方便、快捷地使用各种移动终端，提高移动终端的智能化水平。

本发明是通过以下技术方案实现的：一种具有摄像装置移动终端的快速输入字符信息的方法，包括如下步骤：1)通过作为原始图像获取部分的移动终端本身具有的摄像装置获取原始图像，由图像转化部分将其转化为相应的灰度图像和二值图像；2)图像预处理部分对所获二值图像进行相应的预处理；3)字符识别部分运用模式识别的方法将所获图像中的字符信息提取出来并存储到移动终端的内存中。

所述字符识别部分包括如下步骤：

对所获二值图像进行字符分割，从整体图像中分离出单个字符图像；

对分割后的单个图像进行特征提取；

根据所提取的特征运用模式识别的方法进行编程，对图像进行识别，从图像中提取相应的字符信息

所述相应的预处理包括对图像去噪、倾斜校正、去除杂散像素以及滤波处理。

所述模式识别的方法可以为模板匹配法，神经元法以及遗传算法。

最后还包括对字符识别部分提取的字符信息进行后处理的步骤。

相较于现有技术，本发明通过利用移动终端本身所具有的摄像装置获取图像后采用字符识别方法可以实现该移动终端中信息的快速输入，克服了目前移动终端中的信息必须人工键入而带来的繁琐、劳动强度大以及速度慢的缺点，这在需大量信息输入的情况下尤为明显，使用户能够更加方便、快捷地使用移动终端，从而提高了移动终端的智能化水平。

【附图说明】

图1为本发明实现的原理框图；

图2为本发明实施例的字符识别系统的整体结构；

图3是一个方块图，用于解释在本发明的一个实施例中使用的参考字符样本库的概念；

图4是一个流程图，显示了类型1根据字符重心是否“重合”选择字符候选对象的处理过程；

图5是一个流程图，显示了类型2从参考向量中选择字符候选对象的处理过程。

【具体实施方式】

请参阅图1所示，本发明包括以下部分：原始图像获取部分11，图像转化部分12，图像预处理部分13，字符识别部分14以及后处理部分18。其中，所述原始图像获取部分11利用移动终端本身所具有的摄像装置拍摄获取输入图像，获得的原始图像可以是真彩色的RGB图像，也可以是256级的灰度图像，本实施例中所拍摄的图像为真彩色的RGB图像，图像大小为640×480；由于识别处理的字符图像都是基于灰度图像或二值图像的识别(本发明的具体实施例是基于二值图像的识别)，因此当所述输入图像被接收，图像转化部分12首先需要根据如下的数字表达式1将原始的真彩色RGB图像处理成256级灰度图像，

数字表达式1：

Gray＝0.299R+0.587G+0.114B

其中Gray表示某个像素点的灰度值，R、G、B分别代表颜色空间中该像素点红色、绿色、蓝色所占的比例，然后再利用梯度阈值法将所述灰度图像变换成二值图像(如下数字表达式2)：即由梯度图象的直方图选择一定比例的阈值作为T，将所述灰度图像转化为二值图像。

数字表达式2：

当f(x，y)＞＝T时，f(x，y)＝1；

当f(x，y)＜T时，f(x，y)＝0。

其中f(x，y)代表坐标值为(x，y)的像素点的灰度值。获得二值图像后，所述图像预处理部分13需要对所获图像进行图像去噪、倾斜校正、去除杂散像素以及各种滤波处理，下面将叙述该部分的处理过程。

由于被拍摄物体反光不一致，摄像装置等采样设备的干扰、噪声、二值化时的阈值选取等因素均会使图像出现一些“盐和胡椒”一类的杂散象素，本实施例的图像预处理部分13将重点对这些现象进行处理，该部分采用了如下的平滑技术来剔除或补齐这些杂散象素：

用一个3×3的窗口，窗口中9个象素分别称为：

x₀ x_h x_k

x_f x_i x_l

x_g x_j x_m

将此窗口依次对准欲平滑图形的每一像素，并按以下原则建立一新图形：1、为了把白点填上，当且仅当在窗口的相应位置里或者1)x_i是黑的，或者2)x_f，x_h，x_l，x_j中至少有三个象素是黑的时，新图形中该像素时黑的；2、为了除去孤立的黑元素，当且仅当x_i是黑的，并且或者1)x_f，x_i，x_h中至少有一个是黑的，同时x_j，x_m，x_i中至少有一个是黑的；或者2)x_h，x_i，x_l中至少有一个是黑的，同时x_f，x_g，x_j中至少有一个是黑的，则新图形中该元素才是黑的。利用以上原则可容易写出算法剔除或补齐图像中的杂散象素。最后字符识别部分14通过采用一定的模式识别方法(如模板匹配法、神经元法、遗传算法等，本实施例将采用模板匹配法)将图像中的字符信息提取出来，在进行相近字符的后处理过程18后，得到最终的字符对象并存储到该移动终端的内存中。

所述字符识别部分14包括以下部分：图像分割部分15，特征提取部分16以及字符对象选择部分17。当获得去除了杂散像素的二值图像后，图像分割部分15首先对所获图像进行行切分和字切分，即将大幅的图象先切割为行，再从图象行中分离出单个字符，获得单字图像，即使对于手写文字，往往也能满足相邻文字行间至少有一行或一例全白的像素行这一条件，因此本实施例采用了先以一个字下边的第一行空隙作为参考线再以其右边第一列空隙作为参考线的方法来进行分割；特征提取部分16将切分后的单字图像中字符线的倾斜度、宽度、曲率、面积以及其他一些特征(如均值、方差等)提取出来，本实施例中对每个待识字符提取20个特征，因此输入图像又可被一个20维的向量所表示，如下面的数字表达式3，又称为特征向量。

数字表达式3：

X＝(X₁，X₂，...，X₂₀)

以这种方式获取的特征向量被送到字符对象选择部分17，进行以下的字符识别：计算待识字符的特征向量对于存储在参考字符样本库19中的多个目标字符的每个参考向量的欧几里得距离，在字符对象选择17中通过判断该距离值对待识字符进行识别，这里将这类的字符识别称为类型2的字符对象选择(图2)。

请一并参阅图2所示，为了提高识别的效率，在进行类型2的字符对象选择前，本实施例首先对待识字符进行重心匹配的字符对象选择，即：在特征提取部分16进行特征提取的同时，求出待识字符的重心坐标，以被识字符的重心和参考字符样本库19中字符的重心为基准，只有重心“重合”后才进行类型2的字符对象选择，这里将这种类型的字符对象选择称为类型1的字符对象选择。其中字符的重心采用图像的距的方法获得：

由图像距公式

m_{pq} = \underset{x}{Σ} \underset{y}{Σ} x^{p} y^{p} f (x, y)

f(x，y)代表坐标值为(x，y)的像素点的灰度值)可得字符图形的重心坐标为

\{\begin{matrix} ax = \frac{m_{01}}{m_{00}} \\ ay = \frac{m_{10}}{m_{00}} \end{matrix}

((ax，ay)代表字符重心的坐标值)

这里将参照图3对参考字符样本库19进行叙述，该参考字符样本库是一个对文本资料库训练学习获得的最常使用的字符的集合，通过针对字符的各种不同字样和尺寸的图像图案提取如上所述的特征向量并取其均值，可以获得对于某一特定字符的一个参考向量，并将其存于其中。同时，该参考字符样本库中还存储了库中每个字符以如上方法获得的重心坐标。

所述文本资料库是一个通常在社会上使用并被构造为文本格式的文献集合，例如，来自在线新闻这样的信息源的文献。根据发明人的观察结果，使用由大约两千万个字符组成的文本资料库对汉语、日语及韩语中最常使用的字符进行了提取，提取结果如下表1组成：

表1

	字符数目	累计覆盖率
	字符数目	累计覆盖率	汉语(简体字符)	3961	99.89％
汉语(繁体字符)	3957	99.80％	汉语(简体字符)	3961	99.89％
汉语(繁体字符)	3957	99.80％	日语	2967	99.96％
韩语	2632	99.95％	日语	2967	99.96％

也就是说，对于汉语的繁体字符而言，最常出现的3957个字符可以覆盖文本资料库的99.89％，这意味着，当构造具有国家标准GB 2312-80《信息交换用汉字编码字符集基本集》发布的辅二集和辅四集的7583个繁体汉字的字符识别识别系统时，即使只针对它们当中最常出现的3961个字符，不能识别的对象比例也只有0.11％，实际上损失并不严重，类似的观察结果在简体汉语、日语和韩语中也可看到。因此，基于这样的观察结果，本实施例对文本资料库中最常出现的字符建立了参考字符样本库，仅对这些最常出现的字符对每个参考字符进行了如上所述的参考向量以及重心坐标的获取及存储。

在本发明的实施例中，根据发明人的观察结果，包含在参考字符样本库中的参考字符根据汉字的偏旁部首可被分为三类，其中类型1为上下结构类别，类型2为左右结构类别，类型3为独立结构类别(外文字母、数字、符号等皆属此类别)，因此为了进一步提高识别效率，在进行与待识字符的重心坐标判别前，首先通过对待识字符的每行及每列像素进行扫描，通过判断该字符中间是否存在一行或一列全白像素将其分为上下或左右结构，否则为独立结构，确定待识字符所属类别。确定好输入图像所属类别后，再计算待识字符重心与参考字符重心之间的距离，当且仅当两者重心之间存在足够小的距离时，才进行待识字符的特征向量与参考字符参考向量之间距离的计算，当两向量之间存在足够小的距离时，该参考字符被提取。以这种方式，一个与待识字符特征向量之间存在较小距离、与待识字符相似度最高的参考向量则被选择为所要识别的字符。

当然，以上所采用的方法还可能存在两个易混淆字符的误识问题，因此选择到的参考字符可能为多个字符候选对象。在实际的字符识别中，其后还需执行一个通常被称为后处理的处理过程18，该后处理部分采用基于上下文分析、相邻关系分析、相邻字符出现概率等来确定字符候选对象的优先级顺序，根据该优先级顺序确定最终输出的参考字符。由于后处理是一种常规技术，详细描述在此省略。

下面将参考图4对类型1的字符候选对象选择的处理流程进行具体描述。当通过移动终端本身所具有的摄像装置获得的输入图像被传送给本发明实施例的字符识别程序时，在图像转化部分12经过如上所述的灰度图像转化以及二值化得到所需的二值化图像；所获的二值化图像被发送到图像预处理部分13，在图像预处理部分采用了如上所述的平滑技术剔除或补齐了一些杂散像素；然后在图像分割部分15将图像数据分段为各个字符区域，并在特征提取部分16中针对各个字符区域进行如上所述的特征提取，同时根据如上所述的图像距公式，求出待识字符的重心坐标；接下来，对每个字符进行像素扫描，确定该字符的结构，确定参考字符样本库与该字符结构一致的参考字符类别；接着，设定一变量k用来记录重心重合的参考字符的个数，初始值为0，选取一定的阈值ΔTh(如0.01)，如下面所示表达式4，计算待识字符的重心与该类别中第i个参考字符重心的距离值ΔD_i，判断ΔD_i与阈值ΔTh的大小，当ΔD_i大于ΔTh时，可以判定这个参考字符肯定不是所要识别的字符，否则记录该参考字符为字符候选对象并使k值加1，遍历了所有参考字符之后，可得与待识字符重心“重合”的所有参考字符以及其个数k，若k值为0，表明未找到所需字符，识别过程失败；k值为1，则识别过程结束，表明获得的参考字符为所要识别的字符；否则继续进行以下类型2的字符候选对象选择过程。

数字表达式4：

Δ D_{i} = \sqrt{{(x - x_{i})}^{2} + {(y - y_{i})}^{2}}

(其中(x，y)为待识字符重心坐标，(x_i，y_i)为第i个参考字符重心坐标)

请一并参阅图5对类型2的字符候选对象选择的处理流程进行描述。针对特征向量的所有维数(20)，使用欧几里得距离作为距离值，并如下面的表达式5，计算j＝1到20的距离值。首先，从参考字符样本库中读出的与待识字符重心“重合”的参考向量的索引值被设为m＝1，计算出待识字符特征向量与该参考向量之间的距离值D₁，并将阈值Th设定为以该方式计算出的与第一个参考向量的距离值D₁，然后，参考向量的索引值m递增加1，继续如表达式5计算该参考向量与待识字符特征向量之间对维数1到20的距离值D_m。

数字表达式5：

D_m＝∑(x_j-r_j)²

(j＝1到20)

这里x_j表示从待识字符中提取的特征向量的每个元素，而r_j表示参考向量的每个元素，需要说明的是，从表达式5所得值的平方根的值被称为欧几里得距离的距离值，这里为了简化，将在求平方根之前的值作为欧几里得距离的标准，并简称为距离。当对于一个参考向量的距离D_m超过阈值Th时，则判定这个参考向量与待识字符肯定不符，继续下一个字符的识别；若D_m等于阈值Th时，则记录该参考向量作为候选对象，识别过程继续进行；否则当D_m小于阈值Th时，则将Th设为当前的距离值D_m，清除之前的候选对象记录，并记录当前参考向量为候选对象。当遍历完所有重心“重合”的参考向量(k个)时，若候选字符记录的个数为0，表明识别过程失败；否则获得距离值最小的字符候选对象，类型2的字符对象选择过程结束。

可见由于这里使用的参考字符样本库并不是整个文本资料库，因而本实施例的识别过程还存在无法识别的风险，但正如前面所述，无法从参考字符样本库中找到待识字符的几率非常低，而对参考字符样本库而不是整个文本资料库进行识别减少了很大的计算量，提高了识别的速度，对于本实施例的识别程序来说参考字符样本库还是必要的。当然通过类型2选择的结果可能存在相似字符相互混淆的现象，这时选出的字符候选对象可能不止1个，无法判定最终需要的字符，因而在字符选择的完成阶段，最好根据文本的语法分析、单词的相邻关系、字符之间的从属关系来确定字符候选对象的优先级，也就是执行所谓的后处理过程，确定最终识别的字符对象。

虽然本发明在具体实施例上对采用模式识别方法中的模板匹配法进行了具体的描述，但本发明并不局限于类似这种实施例。

Claims

1.一种具有摄像装置移动终端的快速输入字符信息的方法，包括如下步骤：1)通过作为原始图像获取部分的移动终端本身具有的摄像装置获取原始图像，由图像转化部分将其转化为相应的灰度图像和二值图像；2)图像预处理部分对所获二值图像进行相应的预处理；3)字符识别部分运用模式识别的方法将所获图像中的字符信息提取出来并存储到移动终端的内存中。

2.如权利要求1所述的一种具有摄像装置移动终端的快速输入字符信息的方法，其特征在于：所述字符识别部分包括如下步骤：

对分割后的单个图像进行特征提取；

根据所提取的特征运用模式识别的方法进行编程，对图像进行识别，从图像中提取相应的字符信息。

3.如权利要求1所述的一种具有摄像装置移动终端的快速输入字符信息的方法，其特征在于：所述相应的预处理包括对图像去噪、倾斜校正、去除杂散像素以及滤波处理。

4.如权利要求1所述的一种具有摄像装置移动终端的快速输入字符信息的方法，其特征在于：所述模式识别的方法可以为模板匹配法，神经元法以及遗传算法。

5.如权利要求1所述的一种具有摄像装置移动终端的快速输入字符信息的方法，其特征在于：还包括对字符识别部分提取的字符信息进行后处理的步骤。