CN102567725A

CN102567725A - 一种金融ocr系统手写体数字串的软切分方法

Info

Publication number: CN102567725A
Application number: CN2011104369488A
Authority: CN
Inventors: 丁杰; 彭林; 朱力鹏; 胡斌
Original assignee: State Grid Electric Power Research Institute
Current assignee: State Grid Electric Power Research Institute
Priority date: 2011-12-23
Filing date: 2011-12-23
Publication date: 2012-07-11

Abstract

一种金融OCR系统手写体数字串的软切分方法，金融票据的自动识别处理实现票据的自动输入与复核，将图像处理、版面分析和智能识别的全过程无缝地整合起来，包括对票据图像自动分类，对票据进行图像预处理，对票据中要素进行识别、监察和校对等。OCR技术是金融票据自动识别处理系统中最核心的部分，对于票据要素的自动处理需要将连写的字符串切分为单个的字符，并进行字符识别。现阶段字符识别器的准确率比较高，因此OCR系统的整体识别率取决于字符串切分的正确率和可接受度。本发明要解决的技术问题就是基于模糊模式识别理论实现粘连数字串的软切分方法，提高整体切分流程的正确率和降低系统的拒识率，改进识别系统整体性能。

Description

一种金融OCR系统手写体数字串的软切分方法

技术领域

本发明属于OCR技术领域，涉及一种手写体字符串的切分方法，该方法可以通过对数字图像中笔划进行模糊特征抽取，并映射到特征片段集，在此基础上形成候选的切分假设和计算出最优的切分结果。

背景技术

目前OCR已成为多种系统的核心技术，得到广泛的运用并涉及从金融、政府、图书馆到电力、企事业单位等众多行业领域，如文档影像识别系统(包括文档录入、搜索、管理等)、办公室自动化的文本输入、邮政编码自动分拣系统、文档自动分类系统、车牌自动识别系统、票据自动处理系统等。一个完整的OCR系统一般需要以下几个步骤：倾斜图像的调整、版面分析和版面理解、字符串切分、字符识别以及必要的后处理。在上述OCR技术体系中，字符串切分技术一直是OCR应用软件研究的热点和难点。字符切分技术主要解决字符间位置关系的四种形式，即孤立、粘连、交错以及交叠：孤立是指字符之间各自分开，独立成为整体；粘连是指两字符笔划有一处或多处接触；交错是指两字符在水平方向上的投影有重叠，但字符间没有实际的粘连；交叠是指两字符共享某一块像素区域，即所谓的共用笔划。由于笔划相互粘连是造成手写数字串切分困难的重要原因，而对粘连字符识别不准确是产生识别错误的主要原因，现阶段研究对此展开。

本发明的研究基础主要包括以下三个方面：

(1)图像预处理。字符图像的预处理是字符分割和识别的前提和基础，主要针对采集脱机手写字符过程中存在的干扰信号，如纸张本身带有的污点或扫描设备性能问题等，特别是由于书写时用力不均、字体潦草等造成的字符笔划断裂和粗细不均，进行图像的规整和优化，从而避免影响切分和识别的效果。图像预处理技术通常包括图像平滑滤波技术、二值化技术等。

(2)主曲线分析。主曲线是通过数据分布“中间”并满足“自相合”的光滑曲线，曲线上的每一点是投影至该点的数据点的条件均值。主曲线的理论基础是寻求嵌入高维空间的非欧氏低维流形，继承了主成分分析的众多思想，是线性主成分的非线性推广，能够真实地反映数据的形态，即曲线是数据集合的“骨架”。主曲线具有对数据信息保持性好的优点，可以在图像细化过程中最大限度地保护特征细节不丢失和细化图谱的光滑性。

(3)分类器组合和置信度修正。多分类器组合是设计一个高性能，且稳定的手写体数字识别器的有效途径，一定程度上克服了导致分类器性能不佳的三类原因：单特征对字符本质反映不全面；噪声等因素的影响，导致特征对字符描述的不稳定；不同类型分类器对特征变化的敏感性和稳定性不同导致单分类器性能下降。一般认为，不同性质的特征往往描述字符模式的不同方面，在一种特征空间很难区分的两种模式可能在另一种特征空间上很容易分开，而对应于同一特征的不同分类器又从不同的角度(基于概率或最近距离等)将该特征映射到结果集合上，因此往往使用后验概率对分类器组合的置信度进行修正。

发明内容

本发明针对无限制手写体数字串的切分问题，提出了一种基于识别的切分方法。将数字串看成数字笔划的集合，依据主曲线分析抽取数字笔划。为克服抽取笔划的不规则和集合存在冗余的缺陷，提出了适于数字笔划处理的模糊规则对抽取笔划进行分裂、合并和筛选，生成适合笔划组合的笔划集合。候选切分假设依据笔划组合过程生成，文中将笔划集合中各笔划在水平方向上进行排序形成笔划序列，从而通过划分笔划序列为子序列集的方式生成候选切分假设，每个子序列对应于一个字符模式。在此基础上使用组合分类器对各子序列进行识别输出，生成最优的切分假设作为切分结果输出。总体结构见图1。

附图说明

图1总体流程框图。

图2是图像预处理的平滑窗口模板。

图3是笔划模糊特征对应的模糊函数取值。

图4是笔划分裂点遍历的示意图。

图5是笔划组合及识别的示意图。

图6是笔划组合步骤的一个典型示例图。

具体实施方式

(1)图像预处理

由于在图像采集过程中噪声干扰不可避免，容易造成一些孤立小块或字符边缘出现不规则的锯齿和噪声，因此经Otsu二值化后的字符图像还不能直接使用。针对字符笔划上的毛刺、凹陷以及孤立噪声点，首先以字符图像的平均笔划宽度为依据对图像进行滤波处理，但要避免平滑掉过细的笔划部分，然后逐行扫描二值字符图像，并依据给定大小窗口内的图像结构细节修改中心像素值，以便剔除笔划上的毛刺、填平笔划上的凹陷或内孔，并抑制或消除噪声对字符切分的影响。

采用的窗口模板大小为3×3(如图2(a)～(e))，其中模板T0用来去除孤立噪声点；模板T1～T4(分别为T1旋转0°、90°、180°、270°的结果，其余依此类推)、T5～T8用以去掉笔划边缘上的毛刺；模板T9～T12、T13～T16用以填充笔划中的小孔和凹陷。

(2)主曲线分析及笔划抽取

采用推广的多边形(PL)主曲线算法提取字符骨架完成笔划抽取的过程。多边形线算法的基本运算法则是首先确定一条直线段，然后在循环算法中通过不断加入新的顶点来增加线段的数量。在加入一个新的顶点以后，所有的顶点位置在一个内部的环中被更新。扩展了的算法包含了实现分段线性骨架的两个原则，一种获取字符图像近似轮廓的初始化方法和一系列用来改善由初始化方法获得的骨架结构质量的更改结构工作。字符骨架由一组控制点集和曲线集合构成。

各段曲线的端点分为特殊结构点，分为端点、三分叉点和多分叉点3类，构成初始笔划集合。初始笔划集合中存在笔划碎片以及特殊笔划。笔划碎片通常由噪声干扰形成，需要剔除；特殊笔划往往包含较长的横向笔段或较大曲率的笔段，需要予以分裂，分裂的规则为：使用轮廓跟踪算法提取笔划轮廓的八链码，首先求出链码的切向序列，然后对切向序列进行滤波后求差分，并计算出曲率序列再与最长子序列进行比较，若最长子序列对应的曲线段的长度与字符高度相比较大，且切向方向均值小于π/4，则予以断裂。

(3)模糊特征计算

本发明将手写体数字笔划的模糊特征分为笔划固有特征和关系特征两类：

1)笔划固有特征。

手写体数字的笔划组成比较简单，其所包含的笔划片段可以分为直线片段与曲线片段两大类(表1)，直线片段按照倾斜程度可以分为四类，即竖直片段(如直写的“1”)、横向片段(如“7”的上部)、正斜片段(如“9”的下部)和反斜片段(如“3”的中段)；曲线片段按照口径方向可以分为五类，即A型弧(如“0”的上半部)、U型弧(如“0”的下半部)、C型弧(如开口“8”的左上部)、D型弧(如“3”的上、下部)和O型弧(如“9”的上部)。相应的模糊特征(表2)反映了笔划段与对应特征片段的相似程度，具体包括：直线特征MSTR、水平特征MHL、正斜特征MPS、反斜特征MNS、弧线特征MARC、A型弧MAL、U型弧特征MUL、C型弧特征MCL、D型弧特征MDL、O型弧特征MOL。

2)笔划关系特征。

笔划关系特征反映了笔划间的粘连或交叠程度，以及笔划本身在图像中所占的比重。相应地主要考虑MOP、MLEN这两类关系特征，其中MOP用以描述相邻笔划在水平方向的重叠程度，MLEN用以描述笔划长度。

表1特征片段

表2模糊特征

以上模糊特征相对应得模糊函数由图3给出，其值域按隶属度由低到高表示为{VS，S，SM，M，ML，L，VL}(“VS”表示“very small”，“VL”表示“very large”，以此类推)。

(4)模糊笔划处理

规则1(分裂规则)：若|α-β|＞θ，则以当前遍历点为分裂点分裂笔划(图4)。其中α表示起始点与当前遍历点之间连线的方向；β表示当前遍历点与相邻的次遍历点之间连线的方向；θ为阈值，可依据表3取值。由图4可见，需予以分裂的过渡笔划通常具有较大的弧度，即其模糊特征MAL的取值较大，分裂点选取为笔划段中笔划方向的突变点，若笔划方向变化大于θ，即认为是分裂点。

表3笔划分裂规则

规则2(O型合并)：遍历各端点对应的笔划子集，对当前遍历点，考察其对应的笔划子集中以当前遍历点为端点的一对笔划(记为S₁，S₂)，如果满足表4给出的规则，则予以合并。其中S₁∪S₂表示S₁和S₂合并后生成的笔划。

表4 O型合并规则

规则3(线型合并)：遍历各端点对应的笔划子集，对当前遍历点，考察其对应的笔划子集中以当前遍历点为端点的一对笔划(记为S₁，S₂)，如果满足表5给出的规则，则予以合并。其中S₁∪S₂表示S₁和S₂合并后生成的笔划。

表5线型合并规则

规则4(＞型合并)：遍历各端点对应的笔划子集，对当前遍历点，考察其对应的笔划子集中以当前遍历点为端点的一对笔划(记为S₁，S₂)，如果满足表6给出的规则，则予以合并。其中S₁∪S₂表示S₁和S₂合并后生成的笔划。

表6＞型合并规则

规则5(删除规则)：对于给定笔划S₁，需要根据笔划序列中与S₁左相邻的笔划来判断是否满足删除条件，设与S₁最近的左相邻笔划为S₂，则如果满足表7给出的规则，则删除S₁。

表7笔划删除规则

(5)笔划组合及识别输出

字符串的切分过程由笔划组合完成，即寻求笔划集合的最优划分。假设经过步骤1-4，生成字符串的笔划集合S中含有m个笔划，表示为S₁、S₂、…S_n，笔划集合中的各个笔划按照其水平位置依次排列，通过组合笔划生成字符串的候选切分假设。字符串的切分过程如图5所示，图中每条从S₁到S_n的路径即代表了一个切分假设。在具体的切分过程中，可根据波形分析等方法确定字符串的长度(所含字符的个数)，并选取指定长度的切分路径作为候选假设。图6给出了“064”的切分示例，以字符串长度计算所得出的字符串长度(示例中长度为3)为先验知识，选取长度为3的切分路径作为切分假设，对生成的切分假设使用字符识别器进行组合识别，依据识别置信度可以确定“0”-“6”-“4”为最优切分结果。

Claims

1.一种金融OCR系统手写体数字串的软切分方法，其特征在于：在字符细化图像基础上，将数字笔划特征归纳为四种直线特征，以及五种弧线特征，使用直线、曲线两类特征片段对数字笔划进行拟合和抽象，并针对上述特征定义了相应的模糊特征隶属度。

2.根据权利要求1所述的一种金融OCR系统手写体数字串的软切分方法，其特征在于：针对数字笔划集合中存在的各种问题，如笔划冗余、笔划断裂、过渡笔划和共用笔划引起的粘连，从笔划分裂、笔划合并以及笔划删除三个方面着手，提出笔划处理的五个模糊规则，提高切分和识别的效果的同时降低字符串切分的复杂度。