CN108734167A

CN108734167A - 一种被污染的胶片文字识别方法

Info

Publication number: CN108734167A
Application number: CN201810429064.1A
Authority: CN
Inventors: 曾瑜; 罗海波; 蒋湘君; 刘肖琳
Original assignee: HU NAN UNSEAL TIMES ELECTRONICS INFORMATION TECHNOLOGY CO LTD
Current assignee: Hunan Kaikai Times Technology Co ltd
Priority date: 2018-05-08
Filing date: 2018-05-08
Publication date: 2018-11-02
Anticipated expiration: 2038-05-08
Also published as: CN108734167B

Abstract

本发明公开了一种被污染的胶片文字识别方法，包括以下步骤：将胶片文字图片进行二值化处理；获得正常字符块的大小和字符块之间的间隔像素；构造特征模板并进行标注；从待识别文字图片中找到完全匹配点；从完全匹配点开始进行双向的字符分割，得到待识别的字符块；将所有待识别的字符块与特征模板进行模板匹配，得到待识别的识别结果；按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。本发明首先根据需要识别的图像文字的两种模式构造少量的特征模板，然后将待识别文字分割成若干字符块，再将所有的字符块与特征模板进行匹配就可实现特殊文字图像的识别，不仅工作量小，效率高，并且不失准确性。

Description

一种被污染的胶片文字识别方法

技术领域

本发明涉及图像识别领域，特别涉及一种被污染的胶片文字识别方法。

背景技术

对于胶片上的文字，尤其是医用胶片上的某些文字，需要准确快速地识别出，从而与医院数据库中的相关数据信息进行关联，实现胶片自助打印功能，并且多个科室可以共享数据、共享机器，从而减少排队现象，缩短排队时间，降低成本。

常用的光学字符识别软件可以识别正规的清晰的字符，胶片上打印的印刷体字符正常情况下是白色字符打印在黑色背景上，如图1所示，比较容易识别，但是也有将白色字符打印到白色背景下形成的黑色阴影，如图2所示的“2017”；或者一个字符一部分是打印在黑色背景下，一部分是打印在白色背景下，如图2所示的字符“1“，后面两种情况虽然人眼也比较容易识别，但是机器很难识别。

发明内容

为了解决上述技术问题，本发明提供一种工作量小、准确率高的被污染的胶片文字识别方法。

本发明解决上述问题的技术方案是：一种被污染的胶片文字识别方法，包括以下步骤：

1)将胶片文字图片进行二值化处理；

2)获得正常字符块的大小和字符块之间的间隔像素；

3)将所有可能出现的字符块的黑底白字和白底黑字模板均作为特征模板并进行标注；

4)从待识别文字图片中随机选取一个字符块与所有特征模板进行匹配，找到完全匹配点；

5)从完全匹配点开始进行双向的字符分割，得到若干待识别的字符块；

6)将所有待识别的字符块与特征模板进行模板匹配，得到待识别的识别结果；

7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。

上述被污染的胶片文字识别方法，所述步骤2)中，由于胶片文字是机器自动打印的印刷体字符，因此用一个m*n点阵表示字符块，并确定字符块间隔是k个像素。

上述被污染的胶片文字识别方法，所述步骤3)中，得到的所有特征模板用CHR[w]*[m]*[n]点阵表示出来并进行标记，其中w＝1,2,3…v，v为特征模板的总数量。

上述被污染的胶片文字识别方法，所述步骤4)中，首先将待识别图片看作是一个大小为a*b的点阵，a>m，b>n，然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵，并记为OCR[m]*[n]，然后将匹配点阵与各特征模板进行字符匹配，以寻找完美匹配点。

上述被污染的胶片文字识别方法，所述步骤4)中，完全匹配点的寻找公式为：

若存在某个w能使sum＝0，则所选取的匹配点阵即为完全匹配点，若不存在，则重新选取匹配点阵。

上述被污染的胶片文字识别方法，所述步骤4)中，在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)。

上述被污染的胶片文字识别方法，所述步骤5)中，进行字符块分割时，从最佳匹配点开始向两侧延伸，每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块，并记为TOCR[m]*[n]。

上述被污染的胶片文字识别方法，所述步骤6)中，将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法，通过模板匹配误差值来得到识别结果，模板匹配误差值Accum的计算公式为：

当模板匹配误差值Accum最小时对应的特征模板的字符即为最相近的字符。

本发明的有益效果在于：本发明首先根据需要识别的图像文字的两种模式构造少量的特征模板，然后将待识别文字分割成若干字符块，再将所有的字符块与特征模板进行匹配就可实现特殊文字图像的识别，不仅工作量小，效率高，并且不失准确性。

附图说明

图1为白色字符打印到黑色背景下的字符图片。

图2白色字符打印到白色背景下的字符图片。

图3本发明的流程图。

图4为字符分割示意图。

图5为黑色背景下打印的白色字符“7”的示意图。

图6为白色背景下打印的白色字符“7”的示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的说明。

如图3所示，一种被污染的胶片文字识别方法，包括以下步骤：

1)将胶片文字图片进行二值化处理；图片二值化处理便于后续的模板匹配计算。

2)由于胶片文字是机器自动打印的印刷体字符，大小是规范的，因此用一个m*n点阵表示字符块，并确定字符块间隔是k个像素，如图2所示每个字符为9*6点阵，即m＝9，n＝6，字符间隔是1个像素，即k＝1。

3)得到所有可能出现的字符块的黑底白字和白底黑字模板，将其用CHR[w]*[m]*[n]点阵表示出来并进行标记，其中w＝1,2,3…v，v为特征模板的总数量，在数字识别领域，总共有0-9共10个数字，因此特征模板的总数量v为20，w＝1和2时，表示数字0，w＝3和4时，表示数字1，依次类推，直到数字9。如图5、图6所示，图5、图6为数字“7“的两种模式的字符图片，分别将其用CHR[15][9][6]、CHR[16][9][6]表示，并均标记为“7”。

4)首先将待识别图片(图2中所示)看作是一个大小为a*b的点阵，a>m，b>n，如图4所示，图中a＝15，b＝101，然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵，并记为OCR[m]*[n]，在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)；然后将匹配点阵与各特征模板进行字符匹配，以寻找完美匹配点。完全匹配点的寻找公式为：

5)从完全匹配点开始进行双向的字符分割，从最佳匹配点开始向两侧延伸，每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块，并记为TOCR[m]*[n]，如图4中的框中所示，一共得到14个待识别的字符块。

6)将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法，通过模板匹配误差值来得到识别结果，模板匹配误差值Accum的计算公式为：

7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。图2所示图片识别的字符串为“20171012001427”。

Claims

1.一种被污染的胶片文字识别方法，包括以下步骤：

1)将胶片文字图片进行二值化处理；

2)获得正常字符块的大小和字符块之间的间隔像素；

2.根据权利要求1所述的被污染的胶片文字识别方法，其特征在于：所述步骤2)中，由于胶片文字是机器自动打印的印刷体字符，因此用一个m*n点阵表示字符块，并确定字符块间隔是k个像素。

3.根据权利要求2所述的被污染的胶片文字识别方法，其特征在于：所述步骤3)中，得到的所有特征模板用CHR[w]*[m]*[n]点阵表示出来并进行标记，其中w＝1,2,3…v，v为特征模板的总数量。

4.根据权利要求3所述的被污染的胶片文字识别方法，其特征在于：所述步骤4)中，首先将待识别图片看作是一个大小为a*b的点阵，a>m，b>n，然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵，并记为OCR[m]*[n]，然后将匹配点阵与各特征模板进行字符匹配，以寻找完美匹配点。

5.根据权利要求4所述的被污染的胶片文字识别方法，其特征在于：所述步骤4)中，完全匹配点的寻找公式为：

6.根据权利要求5所述的被污染的胶片文字识别方法，其特征在于：所述步骤4)中，在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)。

7.根据权利要求5所述的被污染的胶片文字识别方法，其特征在于：所述步骤5)中，进行字符块分割时，从最佳匹配点开始向两侧延伸，每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块，并记为TOCR[m]*[n]。

8.根据权利要求7所述的被污染的胶片文字识别方法，其特征在于：所述步骤6)中，将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法，通过模板匹配误差值来得到识别结果，模板匹配误差值Accum的计算公式为：