CN105913093B

CN105913093B - 一种用于文字识别处理的模板匹配方法

Info

Publication number: CN105913093B
Application number: CN201610284102.XA
Authority: CN
Inventors: 梅亚敏; 于鸿洋; 张平; 曾创
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2016-05-03
Filing date: 2016-05-03
Publication date: 2019-06-21
Anticipated expiration: 2036-05-03
Also published as: CN105913093A

Abstract

本发明公开了一种用于文字识别处理的模板匹配方法，属于模式识别与图像处理技术领域。本发明对输入的模板和待识别图像进行预处理后进行特征提取：对图像文字区域以相邻的连通域为单位，进行矩形框的标定，得到多个特征矩形；再对当前模板图像和待识别图像进行多次坐标原点归一化处理、尺度归一化处理并分别计算每次归一化处理的特征集合相似度，取所有特征集合相似度中的最大者作为当前模板图像的匹配相似度，最后取所有模板图像中的最大匹配相似度作为当前待识别图像的最优匹配模板。本发明用于文字识别处理，尤其是医学化验单识别系统的字符识别模块，解决了场景图像褶皱、尺度多变以及光照多变等因素对文字识别造成的影响，提高字符识别率。

Description

一种用于文字识别处理的模板匹配方法

技术领域

本发明属于模式识别与图像处理技术领域，具体涉及文字识别技术中的模板匹配技术。

背景技术

随着信息技术的进步，特别是人工智能技术的高速发展，OCR(光学字符识别)技术在信息识别领域已经取得了很多成果，同时也步入社会化的实用阶段，OCR技术成功应用于社会各行各业中，在医疗行业也有着普遍的应用。

从统计模式识别的观点来看，字符的识别实际上是一个模式分类的问题。国内外学者提出了许多不同的识别方案，大致可分为基于分类器的识别方法和基于模板匹配的方法。

利用分类器进行识别的方法可以获得较好的识别结果，但是分类器的方法需要大量的学习样本进行训练。模板匹配算法通常是对二值图像进行匹配，是实现离散输入模式分类的有效途径之一，实质是度量输入模式与样本之间的某种相似性，取相似性最大者为输入模式所属类别。它根据字符的直观形象抽取特征，用相关匹配原理进行识别。

从实时性、算法复杂性等角度考虑，模板匹配算法能够满足字符识别的任务。但是模板匹配也有其缺陷，即对同一类字符在不同场景图像的尺度多变性以及光照多变性敏感，容易产生匹配偏差。

发明内容

本发明所要解决的技术问题是提供一种用于文字识别处理的模板匹配方法，该方法在模板集合中进行匹配寻优，以确定待识别图像(测试样本)的最优匹配模板。

本发明的用于文字识别处理的模板匹配方法，包括下列步骤：

对待识别图像和多幅模板图像(模板图像的数量基于实际应用需求进行设置)进行图像预处理，所述图像预处理包括图像倾斜校正、图像去噪、图像灰度化、图像二值化；

对待识别图像和各模板图像进行特征提取，得到对应的特征集合：

对各模板图像的文字区域以相邻的连通域为单位，进行矩形框的标定，得到模板图像的特征集合其中表示当前模板图像T中第j个特征矩的横向坐标、纵向坐标、横向像素长度、纵向像素长度，j＝{1,2,3,…,n}，n表示模板图像T中特征矩形的个数；

对待识别图像的文字区域以相邻的连通域为单位，进行矩形框的标定，得到待识别图像的特征集合其中表示当前待识别图像S中第i个特征矩形的横向坐标、纵向坐标、横向像素长度、纵向像素长度，i＝{1,2,3,…,m}，m表示待识别图像S中特征矩形的个数；

对模板图像和待识别图像进行多次坐标原点归一化处理、尺度归一化处理，每进行一次归一化处理，则计算一次特征集合相似度，取最大特征集合相似度作为当前模板图像的匹配相似度；取最大匹配相似度所对应的模板图像作为当前待识别图像的正确匹配模板；其中，特征集合相似度sim的计算公式为：α_i∩β_j表示当前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域重叠面积大小，α_i∪β_i表示前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域并集面积大小。

进一步的，为了降低计算复杂度，在尺度归一化处理时，先将缩放比例设置为R并进行一次尺度归一化处理，再基于爬坡算法筛选得到最佳缩放比例并进行对应的尺度归一化处理，其中R＝w_s/w_T，参数w_s为当前待识别图像的图像宽度，w_T为当前模板图像的横图像宽度；或者R＝h_s/h_T，参数h_s为当前待识别图像的图像高度，h_T为当前模板图像的横图像高度。

综上所述，由于采用了上述技术方案，本发明的有益效果是：解决了场景图像的褶皱、尺度多变以及光照多变等因素对文字识别造成的影响，有效提高字符识别率。

附图说明

图1为本发明具体实施方式的实现框图。

图2为本发明一种归一化锚点和归一化尺度的选取坐标图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

将本发明的模板匹配方法用于文字识别处理，其具体实现步骤如下：

S1：图像预处理过程：

S1-1：输入待识别图像。其中待识别图像可以通过联机的摄像设备采集，也可以是已保存的场景图像。本实施方式中，采集的图像样本是利用相机拍摄的，图像样本来自13种不同种类的纸质医学化验单。对于同一类别的同一张化验单，拍照时将选取不同的角度、距离和光照，以丰富待识别图像的测试样本库。

S1-2：图像倾斜校正：首先检测图像的倾斜角度，然后根据检测到的倾斜角度采用放射变换对图像进行旋转校正，即可得到符合要求的图像。

S1-3：图像去噪：本具体实施方式中，采用bilateral Filter双边滤波对图像进行去噪，结合图像的像素值相似度和空间邻近度的一种折衷处理，同时考虑灰度相似性，可以很好地保留边缘。

S1-4：图像灰度化：相机采集的图片为24位真彩图，需要转化为灰度图。用g表示灰度化后的灰度值，R、G、B分别表示真彩图中的红、绿、蓝分量，g＝0.299R+0.587G+0.114B。

S1-5：图像二值化：字符图像二值化一般是将256色的灰度图转化为只有黑白两色的二值图。通过选择一个合适的阈值T，然后逐个扫描图像中的各个像素点和阈值T进行比较，即其中f(x,y)表示经灰度处理过后的灰度值，f′(x,y)表示经过二值化后图像的像素值，thr为阈值。本具体实施方式中，通过局部阈值来选取阈值。

S2：模板匹配过程：

S2-1：模板图像(以下简称模板)和待识别图像(测试样本)的特征提取：选取其中一张模板，将模板的文字区域以相邻的连通域为单位，进行矩形框的标定，得到模板的特征集合：

其中，表示模板T中第j个特征矩的横向坐标、纵向坐标、横向像素长度、纵向像素长度，j＝{1,2,3,…,n}；n表示此模板T中特征矩形的个数。

同理，将预处理之后的待测试样本进行特征提取，得到测试样本的特征集合：

其中，表示测试样本S中第i个特征矩形的横向坐标、纵向坐标、横向像素长度、纵向像素长度，i＝{1,2,3,…,m}；m表示当前测试样本S中特征矩形的个数。

得到模板T和样本S的集合特征后，将二者进行坐标原点归一化和尺度归一化。归一化之后的模板T′的特征集合分别为：

其中，表示归一化后的模板T′中第i个特征矩形的横向坐标、纵向坐标、横向像素长度、纵向像素长度，n表示此模板T′中特征矩形的个数。同时得到归一化后的样本S′的特征集合为：

其中，表示归一化后的样本S′中第i个特征矩形的横向坐标、纵向坐标、横向像素长度、纵向像素长度，m表示当前测试样本S′中特征矩形的个数。

得到模板T′和样本S′的集合特征后，通过求T′与S′之间的特征集合相似度sim来判断样本与模板是否匹配。理论上，如果sim的值为1，则表示样本与模板之间完全匹配。求特征集合相似度的公式为：其中，α_i∩β_j表示当前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域重叠面积大小，α_i∪β_i表示当前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域并集面积大小。

当第i个特征矩形和第j个特征矩形的矩形区域有重叠时，α_i∩β_j和α_i∪β_i的计算方法如下：

当第i个特征矩形和第j个特征矩形的矩形区域没有重叠时，α_i∩β_j和α_i∪β_i的计算方法如下：

α_i∩β_j＝0

S2-2：锚点和尺寸的遍历归一化：为了将测试样本归一化到当前正在比对的模板，则必须获取准确的锚点和最佳尺度归一化比例。锚点即需要归一化的坐标原点的参考点，模板和测试样本需选取相同的矩形特征作为锚点，才能进行正确的坐标原点归一化。

根据先验知识，化验单模板的每一个矩形特征都是已知的，这里选取当前模板的其中一个指定的特征作为锚点，然后在测试样本中搜索对应的锚点。

参见图2，不同的锚点和不同的缩放比例构成一个坐标系。在坐标系中，将不同的锚点和不同的缩放比例进行遍历。在选取不同的锚点和缩放比例时，分别根据sim的计算公式进行对应的特征集合相似度计算，得到所有遍历后的特征集合相似度集合，并从中选取最大者作为当前模板的匹配相似度，记为SIM。

在遍历锚点之前，可以先进行初步筛选，缩小遍历范围。已知R为最佳缩放比例值的大概值，在遍历缩放比例之前，先将缩放比例暂定为R，然后利用爬坡算法进行筛选得到最佳缩放比例(图2所示的最佳值)。其中R＝w_s/w_T或R＝h_s/h_T，参数w_s为当前测试样本的图像宽度，w_T为当前模板的横图像宽度；参数h_s为当前测试样本的图像高度，h_T为当前模板的横图像高度。

S2-3模板集合遍历：将当前测试样本与13个模板依次进行比对。在比对时，根据S2-2中的步骤将测试样本的锚点和尺度归一化到模板的锚点和尺度，最终得到13个匹配相似度的集合：{SIM₁,SIM2,...,SIM₁₃}，取13个匹配相似度中的最大值所对应的模板作为当前测试样本的最优匹配模板。

S3：文字识别输出：

S3-1图像文本定位：将13个化验单模板的版面特征进行录入，对化验单模板里的每一个项目进行文本定位，定位时对每一个项目和待识别的文字区域采用画矩形框的方法进行标定，同时对每一个项目进行编号。根据S2中的步骤，在确定测试样本的对应的最优模板后，即可得到测试样本的版面特征。此时，将模板中的矩形框定位信息应用到测试样本中，矩形框的锁定采用自适应搜索方法进行精确定位。

S3-2字符分类识别：图像文本定位成功后，将按照模板中不同的项目进行分类识别。识别的结果通过计算机显示器显示出来或通过打印机输出结果或根据系统应用的领域将该领域数据融入系统中，得到该字符的全部相关信息。

Claims

1.一种用于文字识别处理的模板匹配方法，其特征在于，包括下列步骤：

对待识别图像和多幅模板图像进行图像预处理，所述图像预处理包括图像倾斜校正、图像去噪、图像灰度化、图像二值化；

对模板图像和待识别图像进行坐标原点归一化处理、尺度归一化处理，每进行一次归一化处理，则计算一次特征集合相似度，取最大特征集合相似度作为当前模板图像的匹配相似度；取最大匹配相似度所对应的模板图像作为当前待识别图像的最优匹配模板；

其中，特征集合相似度sim的计算公式为：其中，α_i∩β_j表示当前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域重叠面积大小，α_i∪β_i表示前待识别图像的第i个特征矩形和当前模板图像的第j个特征矩形的矩形区域并集面积大小。

2.如权利要求1所述的方法，其特征在于，在尺度归一化处理时，先将缩放比例设置为R并进行一次尺度归一化处理，再基于爬坡算法筛选得到最佳缩放比例并进行对应的尺度归一化处理，其中R＝w_s/w_T，参数w_s为当前待识别图像的图像宽度，w_T为当前模板图像的横图像宽度；或者R＝h_s/h_T，参数h_s为当前待识别图像的图像高度，h_T为当前模板图像的横图像高度。