CN103745213A

CN103745213A - 基于lvq神经网络的光学字符识别方法

Info

Publication number: CN103745213A
Application number: CN201310709595.3A
Authority: CN
Inventors: 张煜昕; 李永刚; 何剑伟; 周琳琦; 郭力兵; 李祥明; 茅文浩; 李清梅; 胡上成; 张龙
Original assignee: 63680 TROOPS PLA
Current assignee: 63680 TROOPS PLA
Priority date: 2014-02-28
Filing date: 2014-02-28
Publication date: 2014-04-23

Abstract

本发明涉及一种基于LVQ神经网络的光学字符识别方法，所述方法包括以下步骤：对待识别字符图像进行预处理，包括图像去噪、字符切分、二值化以及特征提取；将单个字符特征送入LVQ神经网络的输入层，根据竞争算法找到获胜的竞争层神经元并进行拒判检验；将符合判别条件的字符特征输入LVQ神经网络的竞争层进行识别，输出识别结果。本发明方法适应对误判率有严格要求的小字符集自动识别领域。

Description

基于LVQ神经网络的光学字符识别方法

技术领域

本发明涉及一种基于学习向量量化（LVQ，Learning Vector Quantization）神经网络的光学字符识别方法，主要用于对错识率有严格要求的小字符集智能识别。

背景技术

光学字符识别（Optical Character Recognition, OCR)通过扫描和摄像等光学输入方式获取纸张上的文字图像信息，利用各种模式识别算法分析文字形态特征，判断出文字的标准编码，并按通用格式存储在文本文件中。在过去的几十年里，光学字符识别已经成为许多研究者的研究目标，它在许多不同的领域，如银行，航运，商业，通信以及国防等都有重要影响。

德国科学家Tausheck于1929年正式提出OCR的概念，但电子计算机诞生后才得以真正实现。现代商品化OCR系统分为三代：第一代OCR出现在1960年到1965年，最早为IBM公司的IBM1418。此产品识别字符少，需经过特殊指定。第二代OCR产品出现在60年代中期到70年代初期，典型系统为IBM1287。日本东芝公司首先实现了手写邮政编码识别的信函自动分拣系统。第三个时期开始于上世纪70年代中期。这一时期，人们已经把目光投向了解决质量较差的字符识别，以及大字符集的识别，例如汉字识别，高精度手写体数字识别。近年来也出现了能够识别印刷体、手写体的汉字、韩文、日文、数字、英文等多种字符的系统。而银行票据自动处理系统也成为了手写体字符识别系统中的热点。

我国的OCR技术，基本上起步于上述第三个时期，商业OCR产品的识别率最高己经可以达到99%以上，并且可以识别多种字体。但是目前还没有针对国防科技领域，例如遥控码表、航天器弹道以及其他特殊文件的识别与验证等对错识率有严格要求的小字符集智能识别方法及相关产品。

发明内容

本发明的目的在于克服上述不足，提供一种基于LVQ神经网络的光学字符识别方法，可以显著降低错识率，对印刷质量较好的小字符集识别效果达到零错识率。

本发明的目的是这样实现的：一种基于LVQ神经网络的光学字符识别方法，所述LVQ神经网络分为输入层、竞争层和输出层，所述方法包括以下步骤：

步骤A、对待识别字符图像进行预处理，包括图像去噪、字符切分、二值化以及特征提取。其中图像去噪处理是去除字符图像在采样、数据传输过程中产生的墨点、折痕等噪声信号；字符切分处理是对整个字符图像进行行列划分，获取每个字符的大小与位置；图像二值化处理可以减少大量冗余信息，将单个字符图像转化为一个二维像素矩阵， 0表示白色像素，1表示黑色像素；特征提取过程是对单个字符的二维像素矩阵进行某种运算，提取可用于分类的关键特征。本方法提取的特征为网格特征，网格特征体现了字符整体形状的分布，具有平移和缩放不变性，有较强的容错能力和区分相似字符的能力。网格特征的计算方法如下：

将字符图像均分为

的网格，记第

个网格的中黑色像素的数量与总像素的比值为

，网格的总数为，则字符特征可用向量表示为：

（1）

步骤B、对LVQ神经网络进行初始化设置。输入层神经元的个数与字符特征向量的长度相同，设置为；竞争层神经元的个数由目标字符集的范围决定，设置为

；记

为输入层神经元

与竞争层神经元

之间的权值，初始化

及学习速率

（

）。其中网络权值将在字符识别的过程中不断调整，以提高神经网络的分类能力，学习速率

决定了网络权值的调整速率。

步骤C、将字符特征向量

送入LVQ神经网络的输入层，根据竞争规则找出获胜神经元和次获胜神经元，序号分别记为K1和K2。

步骤D、根据拒判规则（严格地判断两个输入向量是否属于同一类的方法）对获胜神经元进行检验，若符合拒判条件，则将该字符标记为非目标字符，拒绝识别；否则进入步骤E。

步骤E、记获胜神经元的字符标签为

，输入向量对应的字符标签为

，则

。获胜神经元的权值按式（2）进行调整；次获胜神经元的权值按式（3）进行调整：

（2）

（3）

步骤F、重复步骤C和E，直至全部字符被正确地分类。

上述基本识别过程中，步骤C所述的竞争规则包括距离竞争和相似度竞争。距离竞争衡量的是竞争层神经元与输入向量在空间中的欧氏距离，距离越小越好；相似度竞争衡量的是竞争层神经元与输入向量在空间中夹角的余弦，相似度越大越好。

距离竞争规则为：根据式（4）计算每个竞争层神经元与输入向量的距离，距离最小的竞争层神经元为获胜神经元，其次为次获胜神经元。

（4）

相似度竞争规则为：根据式（5）计算每个竞争层神经元与输入向量的相似度，相似度最大的竞争层神经元为获胜神经元，其次为次获胜神经元。其中

表示第

个竞争层神经元的权值向量。

（5）

上述基本识别过程中，步骤D所述的拒判规则包括距离判决、相似度判决以及区分度判决，其中区分度判决可与距离判决或者相似度判决结合使用。距离判决的拒判条件为，

为可接受的最大距离偏差；相似度判决的拒判条件为

，

为可接受的最小相似度；区分度判决的拒判条件为，为可接受的最小区分度，

为输入向量在两个获胜神经元之间的区分度（图2），计算公式如下：

（6）

上述基本识别过程中，步骤E中的学习速率

除了选择经验常值外，还可随着训练次数进行同步调整，调整方法选择式（7）时，学习速率先快后慢，逐渐减缓，适用于待识别字符样本特征比较固定的情景；调整方法选择式（8）时，学习速率先快后慢，在训练次数达到最大记忆次数

时，学习速率恒定，可以逐渐适应新的样本特征，适用于待识别字符样本特征不固定的情景。

（7）

（8）

与现有技术相比，本发明具有以下有益效果：

1、LVQ神经网络是一种用于训练竞争层的有监督学习方法的前向神经网络，本方法在基本的LVQ神经网络模型上进行了改进，使用了完善的拒判规则代替监督的作用，使用距离判决、相似度判决以及区分度判决对模糊字符、相似字符进行了严格的筛选，有效降低了错识率。

2、本方法优化了学习速率的计算方式，学习与自适应能力强，能够快速适应新的样本特征，有效提高了识别准确率。

3、LVQ神经网络的竞争层、输出层神经元的个数决定可识别的字符集大小，在实际使用过程中可根据需求调整识别范围，实现了目标字符集的动态定制。

附图说明

图1是本发明说述的LVQ人工神经网络基本结构示意图，由输入层，竞争层和输出层组成，竞争层神经元与每一个输出层神经元相连接，网络权值

为输入层神经元

与竞争层神经元

之间的连接强度。

图2是本发明所述的区分度示意图，未知类别X在类别A与B之间的区分度为距离d2与d1的比值，在图2所示的球形范围内，即认为类别X属于类别A并且区别于B。

图3是本发明对字符样本进行识别的效果对比图，识别范围设定为十六进制字符（0～9、A～F），图中的“※”为拒识字符标记，包括一个模糊字符“0”和非目标字符“码”。

具体实施方式

实施方式一：参见图1所示，本实施方式所述的基于LVQ人工神经网络的光学字符识别方法，其具体过程如下：

步骤A、对待识别字符图像进行预处理，包括图像去噪、字符切分、二值化以及特征提取。其中图像去噪处理是去除字符图像在采样，数据传输过程中产生的墨点、折痕等噪声信号；字符切分处理是对整个字符图像进行行列划分，获取每个字符的大小与位置；图像二值化处理可以减少大量冗余信息，将单个字符图像转化为一个二维像素矩阵， 0表示白色像素，1表示黑色像素；特征提取过程是对单个字符的二维像素矩阵进行某种运算，提取可用于分类的关键特征。本方法提取的特征为网格特征，计算方法如下：

将字符图像均分为

的网格，记第

个网格的中黑色像素的数量与总像素的比值为

，网格的总数为

，则字符特征可用向量表示为：

（1）

步骤B、对LVQ神经网络进行初始化设置。输入层神经元的个数与字符特在向量的长度相同，设置为

；竞争层神经元的个数由目标字符集的范围决定，设置为

；记

为输入层神经元

与竞争层神经元

之间的权值（图1），则第

个竞争层神经元的权值向量可以表示为

。初始化

及学习速率

（

）。

步骤C、将字符特征向量送入LVQ神经网络输入层，根据式（2）计算每个竞争层神经元与输入向量的距离，距离最小的竞争层神经元为获胜神经元，记为K1；其次为次获胜神经元，记为K2。

（2）

步骤D、对获胜神经元进行检验，若并且

，则将该字符标记为非目标字符，拒绝识别；否则进入步骤E。其中

为可接受的最大距离偏差；

为可接受的最小区分度，

（3）

步骤E、记获胜神经元的字符标签为

，输入向量对应的字符标签为，则

。获胜神经元的权值按式（4）进行调整；次获胜神经元的权值按式（5）进行调整：

（4）

（5）

步骤F、重复步骤C和E，直至全部字符被正确地分类。

实施方式二：参照具体实施方式一，不同之处在于，在步骤C中，根据式（6）计算每个竞争层神经元与输入向量的相似度，相似度最大的竞争层神经元为获胜神经元，记为K1；其次为次获胜神经元，记为K2。

（6）

相应地，在步骤D中，对获胜神经元进行检验，若

并且

为可接受的最小相似度。

实施方式三：参照具体实施方式一和二，不同之处在于，在步骤E中，学习速率

随着训练次数根据式（7）进行同步调整：

（7）

实施方式四：参照具体实施方式一和二，不同之处在于，在步骤E中，学习速率

随着训练次数根据式（8）进行同步调整：

（8）。