CN103455823B

CN103455823B - 一种基于分类模糊及图像分割的英文字符识别方法

Info

Publication number: CN103455823B
Application number: CN201310376411.6A
Authority: CN
Inventors: 李宏亮; 黄敏; 姚卫; 黄自力; 孟凡满; 黄超; 吴庆波
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2013-08-27
Filing date: 2013-08-27
Publication date: 2016-10-12
Anticipated expiration: 2033-08-27
Also published as: CN103455823A

Abstract

本发明提供一种基于分类模糊及图像分割的英文字符识别方法。当一个个子窗口完整地、理想地分割出一个独立字符时，该个子窗的最后一列或最后一行应为背景区域，分离置信度等于或接近最大值1；当个子窗口没有完整分割出一个独立字符时，该个子窗的最后一列或最后一行会包含有字符区域，使得分离置信度降低。完整分割出一个独立字符的子窗口的窗口分数将远大于其他尺寸的子窗口的窗口分数。本发明通过引入了分离置信度对滑动窗结果进行分数计算就能有效的抑制大量干扰的子窗口，提高识别正确率。本发明将形状相似的大写字母、小写字母以及数字进行合并分类，之后通过常用英文字母组合规则进行2次判断，进一步能提高相似形状字符的识别正确率。

Description

一种基于分类模糊及图像分割的英文字符识别方法

技术领域

本发明属于图像处理以及计算机视觉技术。

背景技术

随着计算机信息技术的飞速发展，信息交流的途径与内容越来越丰富和多样化。自然场景中包含的文字信息越来越丰富，研究如何对自然场景图像中的字符进行识别提取出有用信息，在获取图片文本信息的各个领域都有极大的商业价值，例如邮件的自动处理，办公的自动化文本输入，以及车牌识别的相关领域。自然场景中的文字识别也是近年来国际图像处理中的热门课题。

针对场景文字识别问题，现有的方法往往都集中于提出特征提取方法，选择不同分类器，以及根据上下文检测基础建立字符间联系。

目前用于文字识别的特征提取方法使用最为广泛的是梯度直方图特征提取方法(HOG)。该方法对图像边缘信息有较好的描述。该特征提取方法最初被用于行人检测中，并且取得很好的识别效果。学者们通过对字符特征的观察，发现字符与字符的区别很大程度上也是边缘的区别，故在很大一部分的字符识别中梯度直方图特征也被用于提取字符的特征。

用于字符识别的分类器主要有支持向量机，随机森林和Adaboost。

支持向量机作为一种可训练的机器学习方法,是目前使用最多的一种分类方法，通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分，从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。随机森林是一个包含多个决策树的分类器，并且其输出的类别是由个别树输出的类别的众数而定。Adaboost是一种迭代算法，其核心思想是针对同一个训练集训练不同的分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类器)。

基于上下文的文字检测的基础是建立字典，根据在已经测的字符基础预测和修正下一个字符的识别结果。

现有英文文字识别分类为62类，其中10类阿拉伯数字，26类大写字母和26类小写字母，根据现在描述符大多不能很好描述字符间的细微特征，比如一些形状相似的大写字母、小写字母以及数字。

发明内容

本发明所要解决的技术问题是，提供能够在一种自然场景背景下的，正确率高的英文文字识别的方法。

本发明为解决上述问题所采用的技术方案是，一种基于分类模糊及图像分割的英文字符识别方法，包括以下步骤：

第1步：利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模，属于字母的像素点的掩模值为1，属于背景的像素点的掩模值为0；

第2步：使用滑动窗对图像取大小不同的子窗口；对于英文字母水平排列的英文字符串，子窗口的行数为输入待识别字符串总行数，子窗口的行数逐渐增长，子窗口的列的起点位置逐渐向右移动；对于英文字母垂直排列的英文字符串，子窗口的列数为输入待识别字符串总列数，子窗口的行数逐渐增长，子窗口的行的起点位置逐渐向下移动；

第3步：根据子窗口二值掩模计算子窗口的分离置信度SC：其中，ω为权值，对于的英文字母水平排列的英文字符串，n₀为子窗口最后一列对应的掩模值为1的像素总数，n为子窗口最后一列上像素总数量；对于英文字母垂直排列的英文字符串，n₀为子窗口最后一行对应的掩模值为1的像素总数，n为子窗口最后一行上像素总数量；

第4步：对子窗口提取特征并使用字母分类器分类，字母分类器输出子窗口对应的分类结果和分类分数；所述字母分类器类别包括普通字母类别与模糊字母类别，所述普通字母类别仅包括一个大写字母类别、小写字母类别或者一个数字类别；所述每一个模糊字母类别包括1类的形状相似的大写字母类别以及小写字母类别，或者，1类形状相似的大写字母类别、小写字母类别以及数字类别；

第5步：计算每个子窗口得分，子窗口得分为子窗口对应的分离置信度与分类分数之积；

第6步：将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径，两个子窗口链接条件为：一个窗口在字母排列方向上的起点与另一个子窗口在字母排列方向上的结束点位置偏移在预设最小范围内。

第7步：计算各单向路径的路径分数，通过对该单向路径对应的所有链接子窗口的子窗口得分进行乘积，再对乘积结果开n次方，n为该单向路径对应的所有链接子窗口总数，开方结果为该单向路径的路径分数；

第8步：将路径分数最高的单向路径作为结果路径输出；

第9步：判断结果路径的子窗口分类情况，是否存在模糊类，如否，则直接依次输出结果路径上子窗口对应的识别字符串；如是，则根据模糊类子窗口对应的2个或2个以上可能分类结果，依次输出结果路径上子窗口对应的可能的字符串组合，再根据常用英文字母组合规则选出最合理的作为最终的识别字符串。

当一个个子窗口完整地、理想地分割出一个独立字符时，该个子窗的最后一列或最后一行应为背景区域，那么n₀值应等于0或接近0，是的分离置信度等于或接近最大值1；当个子窗口没有完整分割出一个独立字符时，该个子窗的最后一列或最后一行会包含有字符区域，使得分离置信度降低。这样，完整分割出一个独立字符的子窗口的窗口分数将远大于其他尺寸的子窗口的窗口分数。因此，通过引入了分离置信度对滑动窗结果进行分数计算就能有效的抑制大量干扰的子窗口，提高识别正确率。本发明将形状相似的大写字母、小写字母以及数字进行合并分类，之后通过常用英文字母组合规则进行2次判断，进一步能提高相似形状字符的识别正确率。

本发明的有益效果是，对英文字符串的识别正确率高且实现简单。

附图说明

图1为实施例流程图。

具体实施方式

如图1所示，要对英文文字进行识别，需要先训练分类器：

第1步：现有英文文字识别分类为62类，其中10类阿拉伯数字，26类大写字母和26类小写字母。目前大多数描述符都不能很好的描述字符间过于细微的差别，故将原始62类模糊为50类，包括10个模糊字母分类以及40个普通字母分类。每个普通字母分类对应一个大写字母类别、小写字母类别或者数字类别；每一个模糊字母分类对应1类的形状相似的大写字母类别以及小写字母类别，或者，1类形状相似的大写字母类别、小写字母类别以及数字类别。

10个模糊字母分类分别为：

大写字母O、小写字母o以及数字0；

大写字母C以及小写字母c；

大写字母I、小写字母l以及数字1；

大写字母P、小写字母p；

大写字母K、小写字母k；

大写字母S、小写字母s；

大写字母V、小写字母v；

大写字母W、小写字母w；

大写字母X、小写字母x；

大写字母Z、小写字母z。

第2步：根据模糊后的类别，对训练样本提取特征，训练出分类器。

英文字母识别步骤如下：

第1步：利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模，属于字母的像素点的掩模值为1，属于背景的像素点的掩模值为0；并初步处理所得的二值掩模中的不规则噪声点群。具体的，对二值掩模进行联通区域编号，对包含像素点少于目标图像总像素点1%的联通区域包含的点置为背景，即0值。

第2步：使用滑动窗对图像取大小不同的子窗口；对于英文字母水平排列的英文字符串，子窗口的行数为输入待识别字符串总行数，子窗口的行数逐渐增长，子窗口的列的起点位置逐渐向右移动；对于英文字母垂直排列的英文字符串，子窗口的列数为输入待识别字符串总列数，子窗口的行数逐渐增长，子窗口的行的起点位置逐渐向下移动。

第3步：根据子窗口二值掩模计算子窗口的分离置信度SC：其中，ω为权值，对于的英文字母水平排列的英文字符串，n_o为子窗口最后一列对应的掩模值为1的像素总数，n为子窗口最后一列上像素总数量；对于英文字母垂直排列的英文字符串，n_o为子窗口最后一行对应的掩模值为1的像素总数，n为子窗口最后一行上像素总数量。

第4步：对子窗口提取特征，使用已训练的分类器分类。分类器输出分类结果和分类分数，分类分数记为clssfyS。

第5步：计算每个子窗口得分，记为winS。具体的，winS=SC*clssfyS。

第6步：将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径，两个子窗口链接条件为：一个窗口在字母排列方向上的结束点与另一个子窗口在字母排列方向上的起点位置偏移在预设最小范围内。本实施中预设最小范围设置为±2个像素。即，以水平字符串为例，如果其中一条路的第i-1个子窗口的结束列标为n，则允许该路的第i个子窗口的起点为n-2，n-1，n，n+1，n+2。直到找不到下一个子窗口为止。

第7步：计算每条路的分数，记为roadS。具体的，组成该路径的所有子窗口得分的乘积为S1，则，其中n为该路径子窗口数量。

第8步：将分数最高的路径作为结果路径输出。

第9步：检查输出路径的每一个子窗口分类情况，所有分类结果中不存在模糊类则直接输出识别字符串组合，如分类结果中存在模糊的类，将模糊的类分裂为其包含的2个或3个可能字符，则一条路径存在多个字符串组合，列出该路径所有有可能字母组合，根据常用英文字母组合规则选出最合理的字母组合作为输出结果，其中，常用英文字母组合规则为：a，可以全为大写字母，b，可以全为小写字母，c，可以首字母大写，d，如存在数字，数字可以存在字符串开端或结尾，不能存在字符串中间。

Claims

1.一种基于分类模糊及图像分割的英文字符识别方法，其特征在于，包括以下步骤：

第3步：各根据子窗口二值掩模计算子窗口的分离置信度SC：其中，ω为权值，对于英文字母水平排列的英文字符串，n₀为子窗口最后一列对应的掩模值为1的像素总数，n为子窗口最后一列上像素总数量；对于英文字母垂直排列的英文字符串，n₀为子窗口最后一行对应的掩模值为1的像素总数，n为子窗口最后一行上像素总数量；

第4步：对子窗口提取特征并使用字母分类器分类，字母分类器输出子窗口对应的分类结果和分类分数；所述字母分类器类别包括普通字母类别与模糊字母类别，所述普通字母类别仅包括一个大写字母、小写字母或者数字类别；每一个模糊字母类别包括1类的形状相似的大写字母类别以及小写字母类别，或者，1类形状相似的大写字母类别、小写字母类别以及数字类别；

第6步：将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径，两个子窗口链接条件为：一个子窗口在字母排列方向上的结束点与另一个子窗口在字母排列方向上的起点位置偏移在预设最小范围内；

第8步：将路径分数最高的单向路径作为结果路径输出；

2.如权利要求1所述一种基于分类模糊及图像分割的英文字符识别方法，其特征在于，所述字母分类器包括50个字母分类类别，其中10个模糊字母类别以及40个普通字母类别；

所述10个模糊字母类别分别为：