CN103455823B - 一种基于分类模糊及图像分割的英文字符识别方法 - Google Patents
一种基于分类模糊及图像分割的英文字符识别方法 Download PDFInfo
- Publication number
- CN103455823B CN103455823B CN201310376411.6A CN201310376411A CN103455823B CN 103455823 B CN103455823 B CN 103455823B CN 201310376411 A CN201310376411 A CN 201310376411A CN 103455823 B CN103455823 B CN 103455823B
- Authority
- CN
- China
- Prior art keywords
- subwindow
- classification
- lower case
- english
- string
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Character Discrimination (AREA)
Abstract
本发明提供一种基于分类模糊及图像分割的英文字符识别方法。当一个个子窗口完整地、理想地分割出一个独立字符时,该个子窗的最后一列或最后一行应为背景区域,分离置信度等于或接近最大值1;当个子窗口没有完整分割出一个独立字符时,该个子窗的最后一列或最后一行会包含有字符区域,使得分离置信度降低。完整分割出一个独立字符的子窗口的窗口分数将远大于其他尺寸的子窗口的窗口分数。本发明通过引入了分离置信度对滑动窗结果进行分数计算就能有效的抑制大量干扰的子窗口,提高识别正确率。本发明将形状相似的大写字母、小写字母以及数字进行合并分类,之后通过常用英文字母组合规则进行2次判断,进一步能提高相似形状字符的识别正确率。
Description
技术领域
本发明属于图像处理以及计算机视觉技术。
背景技术
随着计算机信息技术的飞速发展,信息交流的途径与内容越来越丰富和多样化。自然场景中包含的文字信息越来越丰富,研究如何对自然场景图像中的字符进行识别提取出有用信息,在获取图片文本信息的各个领域都有极大的商业价值,例如邮件的自动处理,办公的自动化文本输入,以及车牌识别的相关领域。自然场景中的文字识别也是近年来国际图像处理中的热门课题。
针对场景文字识别问题,现有的方法往往都集中于提出特征提取方法,选择不同分类器,以及根据上下文检测基础建立字符间联系。
目前用于文字识别的特征提取方法使用最为广泛的是梯度直方图特征提取方法(HOG)。该方法对图像边缘信息有较好的描述。该特征提取方法最初被用于行人检测中,并且取得很好的识别效果。学者们通过对字符特征的观察,发现字符与字符的区别很大程度上也是边缘的区别,故在很大一部分的字符识别中梯度直方图特征也被用于提取字符的特征。
用于字符识别的分类器主要有支持向量机,随机森林和Adaboost。
支持向量机作为一种可训练的机器学习方法,是目前使用最多的一种分类方法,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。
基于上下文的文字检测的基础是建立字典,根据在已经测的字符基础预测和修正下一个字符的识别结果。
现有英文文字识别分类为62类,其中10类阿拉伯数字,26类大写字母和26类小写字母,根据现在描述符大多不能很好描述字符间的细微特征,比如一些形状相似的大写字母、小写字母以及数字。
发明内容
本发明所要解决的技术问题是,提供能够在一种自然场景背景下的,正确率高的英文文字识别的方法。
本发明为解决上述问题所采用的技术方案是,一种基于分类模糊及图像分割的英文字符识别方法,包括以下步骤:
第1步:利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模,属于字母的像素点的掩模值为1,属于背景的像素点的掩模值为0;
第2步:使用滑动窗对图像取大小不同的子窗口;对于英文字母水平排列的英文字符串,子窗口的行数为输入待识别字符串总行数,子窗口的行数逐渐增长,子窗口的列的起点位置逐渐向右移动;对于英文字母垂直排列的英文字符串,子窗口的列数为输入待识别字符串总列数,子窗口的行数逐渐增长,子窗口的行的起点位置逐渐向下移动;
第3步:根据子窗口二值掩模计算子窗口的分离置信度SC:其中,ω为权值,对于的英文字母水平排列的英文字符串,n0为子窗口最后一列对应的掩模值为1的像素总数,n为子窗口最后一列上像素总数量;对于英文字母垂直排列的英文字符串,n0为子窗口最后一行对应的掩模值为1的像素总数,n为子窗口最后一行上像素总数量;
第4步:对子窗口提取特征并使用字母分类器分类,字母分类器输出子窗口对应的分类结果和分类分数;所述字母分类器类别包括普通字母类别与模糊字母类别,所述普通字母类别仅包括一个大写字母类别、小写字母类别或者一个数字类别;所述每一个模糊字母类别包括1类的形状相似的大写字母类别以及小写字母类别,或者,1类形状相似的大写字母类别、小写字母类别以及数字类别;
第5步:计算每个子窗口得分,子窗口得分为子窗口对应的分离置信度与分类分数之积;
第6步:将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径,两个子窗口链接条件为:一个窗口在字母排列方向上的起点与另一个子窗口在字母排列方向上的结束点位置偏移在预设最小范围内。
第7步:计算各单向路径的路径分数,通过对该单向路径对应的所有链接子窗口的子窗口得分进行乘积,再对乘积结果开n次方,n为该单向路径对应的所有链接子窗口总数,开方结果为该单向路径的路径分数;
第8步:将路径分数最高的单向路径作为结果路径输出;
第9步:判断结果路径的子窗口分类情况,是否存在模糊类,如否,则直接依次输出结果路径上子窗口对应的识别字符串;如是,则根据模糊类子窗口对应的2个或2个以上可能分类结果,依次输出结果路径上子窗口对应的可能的字符串组合,再根据常用英文字母组合规则选出最合理的作为最终的识别字符串。
当一个个子窗口完整地、理想地分割出一个独立字符时,该个子窗的最后一列或最后一行应为背景区域,那么n0值应等于0或接近0,是的分离置信度等于或接近最大值1;当个子窗口没有完整分割出一个独立字符时,该个子窗的最后一列或最后一行会包含有字符区域,使得分离置信度降低。这样,完整分割出一个独立字符的子窗口的窗口分数将远大于其他尺寸的子窗口的窗口分数。因此,通过引入了分离置信度对滑动窗结果进行分数计算就能有效的抑制大量干扰的子窗口,提高识别正确率。本发明将形状相似的大写字母、小写字母以及数字进行合并分类,之后通过常用英文字母组合规则进行2次判断,进一步能提高相似形状字符的识别正确率。
本发明的有益效果是,对英文字符串的识别正确率高且实现简单。
附图说明
图1为实施例流程图。
具体实施方式
如图1所示,要对英文文字进行识别,需要先训练分类器:
第1步:现有英文文字识别分类为62类,其中10类阿拉伯数字,26类大写字母和26类小写字母。目前大多数描述符都不能很好的描述字符间过于细微的差别,故将原始62类模糊为50类,包括10个模糊字母分类以及40个普通字母分类。每个普通字母分类对应一个大写字母类别、小写字母类别或者数字类别;每一个模糊字母分类对应1类的形状相似的大写字母类别以及小写字母类别,或者,1类形状相似的大写字母类别、小写字母类别以及数字类别。
10个模糊字母分类分别为:
大写字母O、小写字母o以及数字0;
大写字母C以及小写字母c;
大写字母I、小写字母l以及数字1;
大写字母P、小写字母p;
大写字母K、小写字母k;
大写字母S、小写字母s;
大写字母V、小写字母v;
大写字母W、小写字母w;
大写字母X、小写字母x;
大写字母Z、小写字母z。
第2步:根据模糊后的类别,对训练样本提取特征,训练出分类器。
英文字母识别步骤如下:
第1步:利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模,属于字母的像素点的掩模值为1,属于背景的像素点的掩模值为0;并初步处理所得的二值掩模中的不规则噪声点群。具体的,对二值掩模进行联通区域编号,对包含像素点少于目标图像总像素点1%的联通区域包含的点置为背景,即0值。
第2步:使用滑动窗对图像取大小不同的子窗口;对于英文字母水平排列的英文字符串,子窗口的行数为输入待识别字符串总行数,子窗口的行数逐渐增长,子窗口的列的起点位置逐渐向右移动;对于英文字母垂直排列的英文字符串,子窗口的列数为输入待识别字符串总列数,子窗口的行数逐渐增长,子窗口的行的起点位置逐渐向下移动。
第3步:根据子窗口二值掩模计算子窗口的分离置信度SC:其中,ω为权值,对于的英文字母水平排列的英文字符串,no为子窗口最后一列对应的掩模值为1的像素总数,n为子窗口最后一列上像素总数量;对于英文字母垂直排列的英文字符串,no为子窗口最后一行对应的掩模值为1的像素总数,n为子窗口最后一行上像素总数量。
第4步:对子窗口提取特征,使用已训练的分类器分类。分类器输出分类结果和分类分数,分类分数记为clssfyS。
第5步:计算每个子窗口得分,记为winS。具体的,winS=SC*clssfyS。
第6步:将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径,两个子窗口链接条件为:一个窗口在字母排列方向上的结束点与另一个子窗口在字母排列方向上的起点位置偏移在预设最小范围内。本实施中预设最小范围设置为±2个像素。即,以水平字符串为例,如果其中一条路的第i-1个子窗口的结束列标为n,则允许该路的第i个子窗口的起点为n-2,n-1,n,n+1,n+2。直到找不到下一个子窗口为止。
第7步:计算每条路的分数,记为roadS。具体的,组成该路径的所有子窗口得分的乘积为S1,则,其中n为该路径子窗口数量。
第8步:将分数最高的路径作为结果路径输出。
第9步:检查输出路径的每一个子窗口分类情况,所有分类结果中不存在模糊类则直接输出识别字符串组合,如分类结果中存在模糊的类,将模糊的类分裂为其包含的2个或3个可能字符,则一条路径存在多个字符串组合,列出该路径所有有可能字母组合,根据常用英文字母组合规则选出最合理的字母组合作为输出结果,其中,常用英文字母组合规则为:a,可以全为大写字母,b,可以全为小写字母,c,可以首字母大写,d,如存在数字,数字可以存在字符串开端或结尾,不能存在字符串中间。
Claims (5)
1.一种基于分类模糊及图像分割的英文字符识别方法,其特征在于,包括以下步骤:
第1步:利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模,属于字母的像素点的掩模值为1,属于背景的像素点的掩模值为0;
第2步:使用滑动窗对图像取大小不同的子窗口;对于英文字母水平排列的英文字符串,子窗口的行数为输入待识别字符串总行数,子窗口的行数逐渐增长,子窗口的列的起点位置逐渐向右移动;对于英文字母垂直排列的英文字符串,子窗口的列数为输入待识别字符串总列数,子窗口的行数逐渐增长,子窗口的行的起点位置逐渐向下移动;
第3步:各根据子窗口二值掩模计算子窗口的分离置信度SC:其中,ω为权值,对于英文字母水平排列的英文字符串,n0为子窗口最后一列对应的掩模值为1的像素总数,n为子窗口最后一列上像素总数量;对于英文字母垂直排列的英文字符串,n0为子窗口最后一行对应的掩模值为1的像素总数,n为子窗口最后一行上像素总数量;
第4步:对子窗口提取特征并使用字母分类器分类,字母分类器输出子窗口对应的分类结果和分类分数;所述字母分类器类别包括普通字母类别与模糊字母类别,所述普通字母类别仅包括一个大写字母、小写字母或者数字类别;每一个模糊字母类别包括1类的形状相似的大写字母类别以及小写字母类别,或者,1类形状相似的大写字母类别、小写字母类别以及数字类别;
第5步:计算每个子窗口得分,子窗口得分为子窗口对应的分离置信度与分类分数之积;
第6步:将所有已输出分类结果的子窗口以字母排列方向链接成多条单向路径,两个子窗口链接条件为:一个子窗口在字母排列方向上的结束点与另一个子窗口在字母排列方向上的起点位置偏移在预设最小范围内;
第7步:计算各单向路径的路径分数,通过对该单向路径对应的所有链接子窗口的子窗口得分进行乘积,再对乘积结果开n次方,n为该单向路径对应的所有链接子窗口总数,开方结果为该单向路径的路径分数;
第8步:将路径分数最高的单向路径作为结果路径输出;
第9步:判断结果路径的子窗口分类情况,是否存在模糊类,如否,则直接依次输出结果路径上子窗口对应的识别字符串;如是,则根据模糊类子窗口对应的2个或2个以上可能分类结果,依次输出结果路径上子窗口对应的可能的字符串组合,再根据常用英文字母组合规则选出最合理的作为最终的识别字符串。
2.如权利要求1所述一种基于分类模糊及图像分割的英文字符识别方法,其特征在于,所述字母分类器包括50个字母分类类别,其中10个模糊字母类别以及40个普通字母类别;
所述10个模糊字母类别分别为:
大写字母O、小写字母o以及数字0;
大写字母C以及小写字母c;
大写字母I、小写字母l以及数字1;
大写字母P、小写字母p;
大写字母K、小写字母k;
大写字母S、小写字母s;
大写字母V、小写字母v;
大写字母W、小写字母w;
大写字母X、小写字母x;
大写字母Z、小写字母z。
3.如权利要求1所述一种基于分类模糊及图像分割的英文字符识别方法,其特征在于,第1步中利用输入的含有一行或一列待识别英文字符串的图像生成二值掩模后,将对二值掩模进行不规则噪声处理;
所述不规则噪声处理的实现方法为:对二值掩模进行联通区域编号,将包含像素点少于图像总像素点1%的联通区域中所有像素点置0。
4.如权利要求1所述一种基于分类模糊及图像分割的英文字符识别方法,其特征在于,所述起点位置偏移的预设最小范围为±2个像素。
5.如权利要求1所述一种基于分类模糊及图像分割的英文字符识别方法,其特征在于,所述常用英文字母组合规则包括:字符串可以全为大写字母;字符串可以全为小写字母;字符串可以首字母大写;当存在数字,数字可以存在字符串开端或结尾,不能存在于字符串中间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310376411.6A CN103455823B (zh) | 2013-08-27 | 2013-08-27 | 一种基于分类模糊及图像分割的英文字符识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310376411.6A CN103455823B (zh) | 2013-08-27 | 2013-08-27 | 一种基于分类模糊及图像分割的英文字符识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103455823A CN103455823A (zh) | 2013-12-18 |
CN103455823B true CN103455823B (zh) | 2016-10-12 |
Family
ID=49738165
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310376411.6A Expired - Fee Related CN103455823B (zh) | 2013-08-27 | 2013-08-27 | 一种基于分类模糊及图像分割的英文字符识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103455823B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104915926B (zh) | 2014-03-10 | 2017-12-29 | 佳能株式会社 | 图像处理设备和图像处理方法 |
CN104156701A (zh) * | 2014-07-26 | 2014-11-19 | 佳都新太科技股份有限公司 | 一种基于决策树和svm的车牌相似字符识别方法 |
CN104899588B (zh) * | 2015-06-26 | 2018-12-11 | 小米科技有限责任公司 | 识别图像中的字符的方法及装置 |
CN107688808B (zh) * | 2017-08-07 | 2021-07-06 | 电子科技大学 | 一种快速的自然场景文本检测方法 |
CN107688811B (zh) * | 2017-09-12 | 2020-11-03 | 北京文安智能技术股份有限公司 | 车牌识别方法及装置 |
CN108734170B (zh) * | 2018-05-25 | 2022-05-03 | 电子科技大学 | 基于机器学习和模板的车牌字符分割方法 |
CN108921152B (zh) * | 2018-06-29 | 2020-11-06 | 清华大学 | 基于物体检测网络的英文字符切分方法及装置 |
CN109522900B (zh) * | 2018-10-30 | 2020-12-18 | 北京陌上花科技有限公司 | 自然场景文字识别方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102651135A (zh) * | 2012-04-10 | 2012-08-29 | 电子科技大学 | 一种基于优化方向采样的自然图像抠图方法 |
CN102663787A (zh) * | 2012-03-31 | 2012-09-12 | 方正国际软件有限公司 | 一种图像路径生成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000293634A (ja) * | 1999-04-09 | 2000-10-20 | Fujitsu Ltd | 画像処理装置および画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体 |
-
2013
- 2013-08-27 CN CN201310376411.6A patent/CN103455823B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102663787A (zh) * | 2012-03-31 | 2012-09-12 | 方正国际软件有限公司 | 一种图像路径生成方法及系统 |
CN102651135A (zh) * | 2012-04-10 | 2012-08-29 | 电子科技大学 | 一种基于优化方向采样的自然图像抠图方法 |
Non-Patent Citations (2)
Title |
---|
EXTRACT SALIENT OBJECTS FROM NATURAL IMAGES;Liangzhi Tang et. al.;《International Symposium on Intelligent Signal Processing and Communication Systems》;20101208;全文 * |
字母块图像处理与识别;吴伟伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20091115(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN103455823A (zh) | 2013-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103455823B (zh) | 一种基于分类模糊及图像分割的英文字符识别方法 | |
Arai et al. | Method for real time text extraction of digital manga comic | |
Yi et al. | CNN based page object detection in document images | |
CN104809481B (zh) | 一种基于自适应色彩聚类的自然场景文本检测方法 | |
CN103942550B (zh) | 一种基于稀疏编码特征的场景文本识别方法 | |
CN113537227B (zh) | 一种结构化文本识别方法及系统 | |
CN104268134B (zh) | 一种主客观分类器构建方法和系统 | |
Shirbhate et al. | Sign language recognition using machine learning algorithm | |
CN106611174A (zh) | 一种非常见字体的ocr识别方法 | |
CN113128442A (zh) | 基于卷积神经网络的汉字书法风格识别方法和评分方法 | |
CN105447522A (zh) | 一种复杂图像文字识别系统 | |
CN108805216A (zh) | 基于深浅特征融合的人脸图像处理方法 | |
CN112633431B (zh) | 一种基于crnn和ctc的藏汉双语场景文字识别方法 | |
Alrehali et al. | Historical Arabic manuscripts text recognition using convolutional neural network | |
CN109086772A (zh) | 一种扭曲粘连字符图片验证码的识别方法及系统 | |
CN106980857A (zh) | 一种基于碑帖的毛笔字分割识别方法 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
Wshah et al. | A novel lexicon reduction method for Arabic handwriting recognition | |
Sharma et al. | Primitive feature-based optical character recognition of the Devanagari script | |
Montalbo et al. | Classification of stenography using convolutional neural networks and canny edge detection algorithm | |
Stiehl et al. | Towards a SignWriting recognition system | |
Madushanka et al. | Sinhala handwritten character recognition by using enhanced thinning and curvature histogram based method | |
Hussain et al. | A self organizing map based Urdu Nasakh character recognition | |
Salsabila et al. | Sundanese Aksara Recognition Using Histogram of Oriented Gradients | |
Tamatjita et al. | A Lightweight Chinese Character Recognition Model for Elementary Level Hanzi Learning Application |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161012 Termination date: 20190827 |