CN108734167A - 一种被污染的胶片文字识别方法 - Google Patents
一种被污染的胶片文字识别方法 Download PDFInfo
- Publication number
- CN108734167A CN108734167A CN201810429064.1A CN201810429064A CN108734167A CN 108734167 A CN108734167 A CN 108734167A CN 201810429064 A CN201810429064 A CN 201810429064A CN 108734167 A CN108734167 A CN 108734167A
- Authority
- CN
- China
- Prior art keywords
- character
- identified
- dot matrix
- recognition method
- feature templates
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种被污染的胶片文字识别方法,包括以下步骤:将胶片文字图片进行二值化处理;获得正常字符块的大小和字符块之间的间隔像素;构造特征模板并进行标注;从待识别文字图片中找到完全匹配点;从完全匹配点开始进行双向的字符分割,得到待识别的字符块;将所有待识别的字符块与特征模板进行模板匹配,得到待识别的识别结果;按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。本发明首先根据需要识别的图像文字的两种模式构造少量的特征模板,然后将待识别文字分割成若干字符块,再将所有的字符块与特征模板进行匹配就可实现特殊文字图像的识别,不仅工作量小,效率高,并且不失准确性。
Description
技术领域
本发明涉及图像识别领域,特别涉及一种被污染的胶片文字识别方法。
背景技术
对于胶片上的文字,尤其是医用胶片上的某些文字,需要准确快速地识别出,从而与医院数据库中的相关数据信息进行关联,实现胶片自助打印功能,并且多个科室可以共享数据、共享机器,从而减少排队现象,缩短排队时间,降低成本。
常用的光学字符识别软件可以识别正规的清晰的字符,胶片上打印的印刷体字符正常情况下是白色字符打印在黑色背景上,如图1所示,比较容易识别,但是也有将白色字符打印到白色背景下形成的黑色阴影,如图2所示的“2017”;或者一个字符一部分是打印在黑色背景下,一部分是打印在白色背景下,如图2所示的字符“1“,后面两种情况虽然人眼也比较容易识别,但是机器很难识别。
发明内容
为了解决上述技术问题,本发明提供一种工作量小、准确率高的被污染的胶片文字识别方法。
本发明解决上述问题的技术方案是:一种被污染的胶片文字识别方法,包括以下步骤:
1)将胶片文字图片进行二值化处理;
2)获得正常字符块的大小和字符块之间的间隔像素;
3)将所有可能出现的字符块的黑底白字和白底黑字模板均作为特征模板并进行标注;
4)从待识别文字图片中随机选取一个字符块与所有特征模板进行匹配,找到完全匹配点;
5)从完全匹配点开始进行双向的字符分割,得到若干待识别的字符块;
6)将所有待识别的字符块与特征模板进行模板匹配,得到待识别的识别结果;
7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。
上述被污染的胶片文字识别方法,所述步骤2)中,由于胶片文字是机器自动打印的印刷体字符,因此用一个m*n点阵表示字符块,并确定字符块间隔是k个像素。
上述被污染的胶片文字识别方法,所述步骤3)中,得到的所有特征模板用CHR[w]*[m]*[n]点阵表示出来并进行标记,其中w=1,2,3…v,v为特征模板的总数量。
上述被污染的胶片文字识别方法,所述步骤4)中,首先将待识别图片看作是一个大小为a*b的点阵,a>m,b>n,然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵,并记为OCR[m]*[n],然后将匹配点阵与各特征模板进行字符匹配,以寻找完美匹配点。
上述被污染的胶片文字识别方法,所述步骤4)中,完全匹配点的寻找公式为:
若存在某个w能使sum=0,则所选取的匹配点阵即为完全匹配点,若不存在,则重新选取匹配点阵。
上述被污染的胶片文字识别方法,所述步骤4)中,在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)。
上述被污染的胶片文字识别方法,所述步骤5)中,进行字符块分割时,从最佳匹配点开始向两侧延伸,每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块,并记为TOCR[m]*[n]。
上述被污染的胶片文字识别方法,所述步骤6)中,将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法,通过模板匹配误差值来得到识别结果,模板匹配误差值Accum的计算公式为:
当模板匹配误差值Accum最小时对应的特征模板的字符即为最相近的字符。
本发明的有益效果在于:本发明首先根据需要识别的图像文字的两种模式构造少量的特征模板,然后将待识别文字分割成若干字符块,再将所有的字符块与特征模板进行匹配就可实现特殊文字图像的识别,不仅工作量小,效率高,并且不失准确性。
附图说明
图1为白色字符打印到黑色背景下的字符图片。
图2白色字符打印到白色背景下的字符图片。
图3本发明的流程图。
图4为字符分割示意图。
图5为黑色背景下打印的白色字符“7”的示意图。
图6为白色背景下打印的白色字符“7”的示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的说明。
如图3所示,一种被污染的胶片文字识别方法,包括以下步骤:
1)将胶片文字图片进行二值化处理;图片二值化处理便于后续的模板匹配计算。
2)由于胶片文字是机器自动打印的印刷体字符,大小是规范的,因此用一个m*n点阵表示字符块,并确定字符块间隔是k个像素,如图2所示每个字符为9*6点阵,即m=9,n=6,字符间隔是1个像素,即k=1。
3)得到所有可能出现的字符块的黑底白字和白底黑字模板,将其用CHR[w]*[m]*[n]点阵表示出来并进行标记,其中w=1,2,3…v,v为特征模板的总数量,在数字识别领域,总共有0-9共10个数字,因此特征模板的总数量v为20,w=1和2时,表示数字0,w=3和4时,表示数字1,依次类推,直到数字9。如图5、图6所示,图5、图6为数字“7“的两种模式的字符图片,分别将其用CHR[15][9][6]、CHR[16][9][6]表示,并均标记为“7”。
4)首先将待识别图片(图2中所示)看作是一个大小为a*b的点阵,a>m,b>n,如图4所示,图中a=15,b=101,然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵,并记为OCR[m]*[n],在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1);然后将匹配点阵与各特征模板进行字符匹配,以寻找完美匹配点。完全匹配点的寻找公式为:
若存在某个w能使sum=0,则所选取的匹配点阵即为完全匹配点,若不存在,则重新选取匹配点阵。
5)从完全匹配点开始进行双向的字符分割,从最佳匹配点开始向两侧延伸,每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块,并记为TOCR[m]*[n],如图4中的框中所示,一共得到14个待识别的字符块。
6)将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法,通过模板匹配误差值来得到识别结果,模板匹配误差值Accum的计算公式为:
当模板匹配误差值Accum最小时对应的特征模板的字符即为最相近的字符。
7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。图2所示图片识别的字符串为“20171012001427”。
Claims (8)
1.一种被污染的胶片文字识别方法,包括以下步骤:
1)将胶片文字图片进行二值化处理;
2)获得正常字符块的大小和字符块之间的间隔像素;
3)将所有可能出现的字符块的黑底白字和白底黑字模板均作为特征模板并进行标注;
4)从待识别文字图片中随机选取一个字符块与所有特征模板进行匹配,找到完全匹配点;
5)从完全匹配点开始进行双向的字符分割,得到若干待识别的字符块;
6)将所有待识别的字符块与特征模板进行模板匹配,得到待识别的识别结果;
7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。
2.根据权利要求1所述的被污染的胶片文字识别方法,其特征在于:所述步骤2)中,由于胶片文字是机器自动打印的印刷体字符,因此用一个m*n点阵表示字符块,并确定字符块间隔是k个像素。
3.根据权利要求2所述的被污染的胶片文字识别方法,其特征在于:所述步骤3)中,得到的所有特征模板用CHR[w]*[m]*[n]点阵表示出来并进行标记,其中w=1,2,3…v,v为特征模板的总数量。
4.根据权利要求3所述的被污染的胶片文字识别方法,其特征在于:所述步骤4)中,首先将待识别图片看作是一个大小为a*b的点阵,a>m,b>n,然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵,并记为OCR[m]*[n],然后将匹配点阵与各特征模板进行字符匹配,以寻找完美匹配点。
5.根据权利要求4所述的被污染的胶片文字识别方法,其特征在于:所述步骤4)中,完全匹配点的寻找公式为:
若存在某个w能使sum=0,则所选取的匹配点阵即为完全匹配点,若不存在,则重新选取匹配点阵。
6.根据权利要求5所述的被污染的胶片文字识别方法,其特征在于:所述步骤4)中,在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)。
7.根据权利要求5所述的被污染的胶片文字识别方法,其特征在于:所述步骤5)中,进行字符块分割时,从最佳匹配点开始向两侧延伸,每间隔K个像素选取一个大小为m*n的点阵作为待识别字符块,并记为TOCR[m]*[n]。
8.根据权利要求7所述的被污染的胶片文字识别方法,其特征在于:所述步骤6)中,将每个待识别的字符块TOCR[m]*[n]与所有特征模板做字符匹配算法,通过模板匹配误差值来得到识别结果,模板匹配误差值Accum的计算公式为:
当模板匹配误差值Accum最小时对应的特征模板的字符即为最相近的字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810429064.1A CN108734167B (zh) | 2018-05-08 | 2018-05-08 | 一种被污染的胶片文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810429064.1A CN108734167B (zh) | 2018-05-08 | 2018-05-08 | 一种被污染的胶片文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108734167A true CN108734167A (zh) | 2018-11-02 |
CN108734167B CN108734167B (zh) | 2022-05-17 |
Family
ID=63937998
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810429064.1A Active CN108734167B (zh) | 2018-05-08 | 2018-05-08 | 一种被污染的胶片文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108734167B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612915A (zh) * | 2022-05-12 | 2022-06-10 | 青岛美迪康数字工程有限公司 | 胶片图像的患者信息提取方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0439743B1 (en) * | 1990-02-02 | 1997-03-26 | International Business Machines Corporation | Constraint driven on-line recognition of handwritten characters and symbols |
CN101584624A (zh) * | 2009-06-18 | 2009-11-25 | 上海交通大学 | 基于dsp的路牌识别导盲装置及其方法 |
CN102722707A (zh) * | 2012-06-11 | 2012-10-10 | 复旦大学 | 基于连通区域和间隙模型的车牌字符分割方法 |
CN104331688A (zh) * | 2014-11-05 | 2015-02-04 | 中北大学 | 一种雷管外壳点阵字符识别方法 |
CN105046252A (zh) * | 2014-11-21 | 2015-11-11 | 华中科技大学 | 一种人民币冠字码识别方法 |
CN105160343A (zh) * | 2015-08-12 | 2015-12-16 | 蓝网科技股份有限公司 | 应用于胶片按需打印系统的信息识别方法和装置 |
CN105469055A (zh) * | 2015-11-26 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种基于云计算的车牌识别系统及方法 |
-
2018
- 2018-05-08 CN CN201810429064.1A patent/CN108734167B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0439743B1 (en) * | 1990-02-02 | 1997-03-26 | International Business Machines Corporation | Constraint driven on-line recognition of handwritten characters and symbols |
CN101584624A (zh) * | 2009-06-18 | 2009-11-25 | 上海交通大学 | 基于dsp的路牌识别导盲装置及其方法 |
CN102722707A (zh) * | 2012-06-11 | 2012-10-10 | 复旦大学 | 基于连通区域和间隙模型的车牌字符分割方法 |
CN104331688A (zh) * | 2014-11-05 | 2015-02-04 | 中北大学 | 一种雷管外壳点阵字符识别方法 |
CN105046252A (zh) * | 2014-11-21 | 2015-11-11 | 华中科技大学 | 一种人民币冠字码识别方法 |
CN105160343A (zh) * | 2015-08-12 | 2015-12-16 | 蓝网科技股份有限公司 | 应用于胶片按需打印系统的信息识别方法和装置 |
CN105469055A (zh) * | 2015-11-26 | 2016-04-06 | 上海斐讯数据通信技术有限公司 | 一种基于云计算的车牌识别系统及方法 |
Non-Patent Citations (1)
Title |
---|
邱立松 等: "《文本图像信息的提取与识别》", 《计算机与数字工程》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114612915A (zh) * | 2022-05-12 | 2022-06-10 | 青岛美迪康数字工程有限公司 | 胶片图像的患者信息提取方法及装置 |
CN114612915B (zh) * | 2022-05-12 | 2022-08-02 | 青岛美迪康数字工程有限公司 | 胶片图像的患者信息提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108734167B (zh) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111414906B (zh) | 纸质票据图片的数据合成与文本识别方法 | |
JP4975109B2 (ja) | 2次元コード及びそのデコード方法、その2次元コードを適用する印刷出版物 | |
CN102176230B (zh) | 将包含文字的数字图像转换为用于再现的基于记号的文件 | |
US20190019055A1 (en) | Word segmentation system, method and device | |
US20160035060A1 (en) | Method for watermarking the text portion of a document | |
US20050271275A1 (en) | Text character identification system and method thereof | |
JP4857173B2 (ja) | 画像処理装置、画像処理方法及び画像処理プログラム | |
CN100570632C (zh) | 机读信息卡或机读试卷的信息识别方法 | |
US20070189628A1 (en) | Method and apparatus for creating a high-fidelity glyph prototype from low-resolution glyph images | |
CN107248134A (zh) | 一种文本文档中的信息隐藏方法和装置 | |
CN107463866A (zh) | 一种用于成绩评价的识别手写实验报告的方法 | |
CN112508145A (zh) | 电子印章生成及验证方法、装置、电子设备及存储介质 | |
KR20010015046A (ko) | 구조화된 배경 모델과 문자의 조합에 의한 배경위의 문자자동 인식 방법 | |
CN108734167A (zh) | 一种被污染的胶片文字识别方法 | |
CN109508712A (zh) | 一种基于图像的汉语文字识别方法 | |
WO2021129289A9 (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
US11277539B2 (en) | Encoding information using disjoint highlight and shadow dot patterns | |
CN111881880A (zh) | 一种基于新型网络的票据文本识别方法 | |
US6978038B2 (en) | Systems and methods for pixel gain compensation in machine-readable graphical codes | |
CN114332898A (zh) | 连线试题的自动批改方法、装置及存储介质 | |
CN114663271A (zh) | 一种印刷前防伪标签图像字符化的处理方法 | |
US20110243374A1 (en) | Method of embedding information in input image, method of extracting information from input image, and related apparatus | |
TWM618756U (zh) | 影像識別系統 | |
CN112101356A (zh) | 一种图片中特定文本的定位方法、装置及存储介质 | |
CN110083315A (zh) | 一种基于图像处理技术的打印错误更正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP01 | Change in the name or title of a patent holder | ||
CP01 | Change in the name or title of a patent holder |
Address after: 411202 No. 14, Liancheng Avenue, economic development zone, Xiangtan City, Hunan Province Patentee after: Hunan Kaikai Times Technology Co.,Ltd. Address before: 411202 No. 14, Liancheng Avenue, economic development zone, Xiangtan City, Hunan Province Patentee before: HUNAN UNSEAL TIMES ELECTRONICS INFORMATION TECHNOLOGY Co.,Ltd. |