CN117877037A - 一种ocr单字符定位识别方法、系统及计算机存储介质 - Google Patents
一种ocr单字符定位识别方法、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN117877037A CN117877037A CN202410269294.1A CN202410269294A CN117877037A CN 117877037 A CN117877037 A CN 117877037A CN 202410269294 A CN202410269294 A CN 202410269294A CN 117877037 A CN117877037 A CN 117877037A
- Authority
- CN
- China
- Prior art keywords
- stroke
- character
- character string
- positioning
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012545 processing Methods 0.000 claims abstract description 25
- 230000008030 elimination Effects 0.000 claims abstract description 11
- 238000003379 elimination reaction Methods 0.000 claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000010586 diagram Methods 0.000 claims description 38
- 238000010606 normalization Methods 0.000 claims description 8
- 230000011218 segmentation Effects 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000003416 augmentation Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/16—Image preprocessing
- G06V30/164—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18086—Extraction of features or characteristics of the image by performing operations within image blocks or by using histograms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/18133—Extraction of features or characteristics of the image regional/local feature not essentially salient, e.g. local binary pattern
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种OCR单字符定位识别方法、系统及计算机存储介质。所述方法包括:获取待识别图像中的字符串二值图,所述字符串二值图是对待识别图像进行预处理后得到的;对字符串二值图进行去干扰;基于尺寸的动态投影算法对去干扰后的二值图进行字符串定位;利用笔画组合区域划分算法初步确定字符串笔画检索区域;对字符串笔画检索区域中的笔画进行组合;根据笔画组合获取字符定位框完成对字符的定位;采用灰度+HOG处理定位框中的字符数据;训练分类器,并利用训练后的分类器对经灰度+HOG处理定位框中的字符图像识别,输出识别结果。本发明可有效提高OCR单字符定位识别的准确性。
Description
技术领域
本申请涉及字符定位识别能技术领域,具体而言,涉及一种OCR单字符定位识别方法、系统及计算机存储介质。
背景技术
OCR技术被广泛的应用于工业领域。OCR常规流程为先定位字符串或单个字符,对定位区域进行图像切割,对切割的图像再进行识别。
目前在识别方法上选择性较多,例如神经网络、svm、knn等等,且基本上相对稳定,识别效果主要取决于对分类器参数的调整以及训练集的质量。但在定位上目前市面上没有一个规范的方法,如果用整个字符串作为一个样本,那么对训练集数量要求会很高,因为其引入了字符位置关系。但工业领域通常字符受到的干扰会比较多,一旦无法识别,基于字符串的识别,很难重新训练达到比较好的效果。因此在没有一个强大数据集的情况下,将字符切割成单个字符进行识别相对来说会比较合理。
常规的字符切割通常采用投影法,采用水平投影定位到字符串,再采用垂直投影切割单个字符。但工业环境相对来说不会那么理想,会出现较多干扰因素,比如字符之间连接、字符不连续、字符局部缺失、字符附近有较多噪声等,投影法对字符的完整性和干扰因素要求较高,很难达到一个通用的定位效果。其他定位方法比如深度学习目标检测,虽然在数据量足够的情况下达到不错的通用性,但其对部署时间和部署环境有一定的要求,无法快速解决工业现场问题。因此非常需要一种方便且通用的OCR单字符定位算法。
发明内容
本申请的目的在于提供一种OCR单字符定位识别方法、系统及计算机存储介质。通过对待识别图像进行处理,获得图像中字符串的二值图,对二值图进行长线条消除和毛刺,结合局部阈值分割,有效的消除噪声干扰。利用基于尺寸的动态投影算法,对字符串实现自动定位;通过笔画组合区域划分算法初步限定笔画的组合区间,利用笔画组合算法结合笔画组合区间,精准的完成笔画组合,有效的解决字符串局部缺失问题;从而提高OCR单字符定位识别的准确性。
本申请第一方面提供了一种OCR单字符定位识别方法,所述方法包括:
获取待识别图像中的字符串二值图,所述字符串二值图是对待识别图像进行预处理后得到的;
对字符串二值图进行去干扰;
基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位;
根据定位后的字符串,利用笔画组合区域划分算法确定字符串笔画检索区域;
对字符串笔画检索区域中的笔画进行组合;
根据笔画组合获取字符定位框完成对字符的定位;
采用灰度处理和方向梯度直方图算法处理字符定位框中的字符数据;
利用训练后的分类器对经灰度处理和方向梯度直方图算法处理后的字符进行识别,输出识别结果。
可选地,所述对待识别图像进行预处理,包括:
获取待识别图像中ROI区域图像并进行灰度化;其中,ROI区域中包含完整的字符串;
对字符串图像进行高斯滤波,消除椒盐噪声干扰;
对字符串图像进行局部阈值分割,获取字符串二值图。
可选地,所述对字符串二值图进行去干扰,包括:对字符串二值图横向去除连续线条和横纵去毛刺;
横向去除连续线条的规则为:若字符串二值图中横向连续255像素值个数大于预设的字符最大宽度,则对该横向连续255像素进行像素擦除;
横纵去毛刺的规则为:若字符串二值图中横向或者纵向连续255像素值个数小于预设个数值,则对该横向或者纵向连续255像素进行像素擦除,以消除一些细线和杂点干扰。
可选地,所述基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位,包括:
对去干扰后的字符串二值图中的连通域进行面积筛选,检索面积在预设最小面积和预设最大面积之间的连通域;
对面积在预设最小面积和预设最大面积之间的连通域进行纵向闭运算,消除字符间隙;
对消除字符间隙后的字符串二值图进行归一化;并对归一化后的字符串二值图进行横向求和投影,得到横向投影向量图;具体为投影得到宽为1,高为字符串图像高的向量图。
判断横向投影向量图的向量中,是否存在横向连通域高度是在最小字符高度和最大字符高度之间,若是,则该横向连通域的上下位置即为字符串的上下边界;若否,则将向量的每一位减去一个预设减数,再通过迭代的方式直到出现高度在最小字符高度和最大字符高度之间的连通域,再定位出上下边界。
可选地,所述对消除字符间隙后的字符串二值图进行归一化的归一化方式为:将像素值255的区域置为1,像素值0的区域保持为0。
可选地,所述利用笔画组合区域划分算法确定字符串笔画检索区域,包括:
将定位后的字符串二值图中的字符串区域切割出来;
对切割后的字符串二值图进行横向闭运算,再进行归一化处理;
对归一化后的字符串二值图进行纵向求和投影,投影得到纵向投影向量图;
对纵向投影向量图中的每一个向量都减去纵向投影阈值,获取纵向连通域;
通过每个纵向连通域的左右区间在切割后的字符串二值图的图像中限制检索区域,在每一个检索区域中定位字符;
检索所有笔画连通域,如果笔画宽度大于预设的最大字符宽度,说明笔画处有连接,在切割后的字符串二值图的图像中按照笔画宽度截取区域图像,进行垂直投影,计算投影向量每一个位置的左右差值,如果差值大于字符切割阈值,则该位置为切割点,对该笔画在切割点上进行切割。
可选地,所述对字符串笔画检索区域中的笔画进行组合,包括:
对笔画检索区域的笔画提取轮廓;
保存每个笔画轮廓的点集;
对笔画轮廓点集进行排序,排序规则为所有笔画最小包围矩从左到右的顺序;
利用笔画组合算法对笔画进行组合。
可选地,所述笔画组合算法包括以下步骤:
(1)从左到右遍历笔画轮廓点集合,其中笔画轮廓点集合已按照笔画左右关系进行排序;
(2)当前遍历位置记为笔画1,将与当前笔画组合后组合宽度在最大宽度以内的笔画轮廓点集合都进行保存记为{笔画2,笔画3,...,笔画n-1},直到遍历到与当前笔画组合宽度大于最大字符宽度的笔画n;
(3)对保存的{笔画2,笔画3,...,笔画n-1}进行分配,可能跟笔画1进行组合,也可能跟笔画n进行组合;
(4)遍历{笔画2,笔画3,...,笔画n-1}集合,分别计算其轮廓点与笔画1和笔画n的轮廓点之间最近的距离,然后将其与笔画1和笔画n二者中最近距离的轮廓点进行合并;
(5)重复(4)操作,直到集合中所有笔画都被组合;
(6)判别组合后的笔画1宽度,如果宽度大于最小字符宽度且高度大于最小字符高度则将其最小包围框进行保存,作为字符定位框;
(7)更新笔画1为组合后的笔画n,重新从笔画n的位置开始重复(2)~(6)的操作。
本申请第二方面提供了一种OCR单字符定位识别系统,该系统包括:存储器及处理器,所述存储器中包括一种OCR单字符定位识别方法的程序,所述OCR单字符定位识别方法的程序被所述处理器执行时实现所述OCR单字符定位识别方法的步骤。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括OCR单字符定位识别方法程序,所述OCR单字符定位识别方法程序被处理器执行时,实现所述OCR单字符定位识别方法的步骤。
由上可知,本申请提供的一种OCR单字符定位识别方法、系统及计算机存储介质。本申请通过对待识别图像进行处理,获得图像中字符串的二值图,对二值图进行长线条消除和毛刺,结合局部阈值分割,有效的消除噪声干扰。利用基于尺寸的动态投影算法,对字符串实现自动定位;通过笔画组合区域划分算法初步限定笔画的组合区间,利用笔画组合算法结合笔画组合区间,精准的完成笔画组合,有效的解决字符串局部缺失问题;从而提高OCR单字符定位识别的准确性。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种OCR单字符定位识别方法的流程图;
图2为待识别图像;
图3为字符串二值图;
图4为去除长线条后字符串二值图;
图5为横纵去毛刺后字符串二值图;
图6为连通域面积筛选后的字符串二值图;
图7为纵向闭运算二值图;
图8为横向求和投影向量图;
图9为横向闭运算二值图;
图10为字符检索区域图像;
图11为字符检索笔画轮廓图像;
图12为纵向求和投影向量图;
图13为减去投影阈值后的向量图;
图14为单字符定位结果图;
图15为采用灰度+HOG处理后定位框中的字符数据图;
图16为本申请字符识别结果图;
图17为本申请实施例提供的一种OCR单字符定位识别系统的框图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到,相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
请参照图1,为本申请一些实施例中的OCR单字符定位识别方法的流程图。该OCR单字符定位识别方法用于终端设备中,例如电脑、手机终端等。该OCR单字符定位识别方法,包括以下步骤:
S102:获取待识别图像中的字符串二值图,所述字符串二值图是对待识别图像进行预处理后得到的;待识别图像如图2所示。
S104:对字符串二值图进行去干扰;
S106:基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位;
S108:根据定位后的字符串,利用笔画组合区域划分算法初步确定字符串笔画检索区域;
S110:对字符串笔画检索区域中的笔画进行组合;
S112:根据笔画组合获取字符定位框完成对字符的定位;
S114:采用灰度处理和方向梯度直方图算法处理(灰度+HOG处理)定位框中的字符数据;
S116:利用训练后的分类器对经灰度处理和方向梯度直方图算法处理后的字符进行识别,输出识别结果。
根据本发明实施例,所述待识别图像进行预处理,包括:
获取待识别图像中ROI区域图像并进行灰度化;其中,ROI区域中包含完整的字符串。
对字符串图像进行高斯滤波,消除椒盐噪声干扰。
对字符串图像进行局部阈值分割,获取字符串二值图。经局部分割后获取的字符串二值图如图3所示。
需要说明的是,ROI区域是指在图像或视频中选择的感兴趣部分,即"Region ofInterest"的缩写。ROI区域一般是在图像处理、计算机视觉和机器学习等领域中使用,通过选择ROI区域可以减少计算量、提高算法速度和准确性。选择ROI区域的方法可以是手动绘制矩形框或多边形来标定感兴趣的区域,也可以通过设定一定的阈值和条件来自动选择。
本申请在待识别图像中选取ROI区域,然后进行灰度化和高斯滤波处理,并结合局部阈值分割,以消除噪声干扰。
根据本发明实施例,所述对字符串二值图进行去干扰,包括:对字符串二值图横向去除连续线条和横纵去毛刺;
横向去除连续线条的规则为:若字符串二值图中横向连续255像素值个数大于预设的字符最大宽度,则判定其为线条连续的位置,并对该连续的位置进行像素擦除;横向去除连续线条后的字符串二值图如图4所示。
横纵去毛刺的规则为:若字符串二值图中横向或者纵向连续255像素值个数小于预设个数值,则判定其为毛刺连续的位置,并对该连续的位置进行像素擦除。以消除一些细线和杂点干扰。横纵去毛刺后的字符串二值图如图5所示。
需要说明的是,为了防止消除太多字符区域信息,预设个数值不宜太大,建议取3。
根据本发明实施例,所述基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位,包括:
对去干扰后的字符串二值图中的连通域进行面积筛选,检索面积在预设最小面积和预设最大面积之间的连通域;连通域面积筛选后的字符串二值图如图6所示。
对面积在预设最小面积和预设最大面积之间的连通域进行纵向闭运算,消除字符间隙;纵向闭运算二值图如图7所示。
对消除字符间隙后的字符串二值图进行归一化;并对归一化后的字符串二值图进行横向求和投影,得到横向投影向量图;横向投投影向量图宽为1,高为字符串图像高。
判断横向投影向量图的向量中,是否存在横向连通域高度是在最小字符高度和最大字符高度之间,若是,则该横向连通域的上下位置即为字符串的上下边界;若否,则将向量的每一位减去一个预设减数(建议值5),再通过迭代的方式直到出现高度在最小字符高度和最大字符高度之间的连通域,再定位出上下边界。
需要说明的是,本申请通过对去干扰后的字符串二值图中的连通域进行面积筛选,检索面积在预设最小面积和预设最大面积之间的连通域,以实现进一步排除OCR单字符定位识别干扰。
此外,对面积在预设最小面积和预设最大面积之间的连通域进行纵向闭运算,消除字符间隙。该操作主要是为了使基于尺寸的动态投影算法兼容单点型字符和非连续性笔画,单点型字符可能存在间隙导致后续投影发生不连续现象。
而对消除字符间隙后的字符串二值图进行归一化,以便于横向投影数据的处理。
需要说明的是,对归一化后的字符串二值图进行横向求和投影,本申请中将归一化后的字符串二值图投影得到宽为1,高为字符串图像高的向量图。如图8所示,黑色位置为横向像素和小于等于0区域,即为横向间隙;白色区域为横向像素和大于0的区域,即为存在笔画或干扰的区域。
根据本发明实施例,所述对消除字符间隙后的字符串二值图进行归一化的归一化方式为:将像素值255的区域置为1,像素值0的区域保持为0。
根据本发明实施例,所述利用笔画组合区域划分算法初步确定字符串笔画检索区域,包括:
将定位后的字符串二值图中的字符串区域切割出来;
对切割后的字符串二值图进行横向闭运算,再进行归一化处理;横向闭运算二值图如图9所示。
对归一化后的字符串二值图进行纵向求和投影,投影得到纵向投影向量图;
对纵向投影向量图中的每一个向量都减去纵向投影阈值,获取纵向连通域;
通过每个纵向连通域的左右区间在切割后的字符串二值图的图像中限制检索区域,在每一个检索区域中定位字符;检索区域中可能只存在一个字符笔画,也可能存在多个字符笔画。检索区域图像如图10所示。
检索所有笔画连通域,如果笔画宽度大于预设的最大字符宽度,说明笔画处有连接,在切割后的字符串二值图的图像中按照笔画宽度截取区域图像,进行垂直投影,计算投影向量每一个位置的左右差值,如果差值大于字符切割阈值,则该位置为切割点,对该笔画在切割点上进行切割。检索笔画轮廓图像如图11所示。
需要说明的是,对字符串进行横向闭运算,主要是为了使算法兼容单点型字符和非连续性笔画,单点型字符可能存在间隙导致后续投影发生不连续现象。此外,闭运算之后可能会导致一定程度上左右字符相连,这是无法避免的,但上述操作仅作为初步检索区间定位,不会影响到单个字符的定位。
而对切割后的字符串二值图进行横向闭运算之后再进行归一化处理,主要是为了便于纵向投影数据处理,本申请归一化方式为将像素值255的区域置为1,像素值0的区域保持为0。
需要说明的是,所述纵向投影向量图为宽为字符串图像宽,高为1的向量图。如图12所示,黑色位置为横向像素和小于等于0区域,即为纵向间隙;白色区域为纵向像素和大于0的区域,即为存在笔画或干扰的区域。
对纵向投影向量图中的每一个向量都减去纵向投影阈值的操作,是为了通过投影参数进行卡控,有效的切出正确区域,并且是可控的防止切坏。减去投影阈值后的向量图如图13所示。
根据本发明实施例,所述对字符串笔画检索区域中的笔画进行组合,包括:
对笔画检索区域的笔画提取轮廓;
保存每个笔画轮廓的点集;
对笔画轮廓点集进行排序,排序规则为所有笔画最小包围矩从左到右的顺序;
利用笔画组合算法对笔画进行组合。
根据本发明实施例,所述笔画组合算法包括以下步骤:
(1)从左到右遍历笔画轮廓点集合,此时,笔画轮廓点集合已按照笔画左右关系进行排序;
(2)当前遍历位置记为笔画1,将与当前笔画组合后组合宽度在最大宽度以内的笔画轮廓点集合都进行保存记为{笔画2,笔画3,...,笔画n-1},直到遍历到与当前笔画组合宽度大于最大字符宽度的笔画n;
(3)对保存的{笔画2,笔画3,...,笔画n-1}进行分配,可能跟笔画1进行组合,也可能跟笔画n进行组合;
(4)遍历{笔画2,笔画3,...,笔画n-1}集合,分别计算其轮廓点与笔画1和笔画n的轮廓点之间最近的距离。例如:假设笔画2相比其余笔画与笔画1最近,那将笔画2组合到笔画1。
然后将其与笔画1和笔画n二者中最近距离的轮廓点进行合并;
(5)重复(4)操作,直到集合中所有笔画都被组合;
(6)判别组合后的笔画1宽度,如果宽度大于最小字符宽度且高度大于最小字符高度则将其最小包围框进行保存,作为字符定位框;
(7)更新笔画1为组合后的笔画n,重新从笔画n的位置开始重复(2)~(6)的操作。
需要说明的是,所述采用灰度+HOG处理定位框中的字符数据,具体为对分割后的字符图像进行数据转换,对其只保留字符区域的灰度特征,并提取其HOG特征。其中,HOG特征通过计算和统计图像局部区域的梯度方向直方图构成特征。
需要说明的是,HOG特征(Histogram of Oriented Gradients)是一种图像特征描述子,用于目标检测和识别。该算法的原理是基于局部梯度方向的直方图特征提取方法。它将局图像块中像素的梯度方向进行统计生成直方图,然后将各个直方图按照一定的方式进行连接,组成该像的全局特征描述子。
需要说明的是,本申请中分类器的选择可以有多种,常用的机器学习方法有神经网络、svm、knn、adaboost等。此外,本申请在训练分类器之前加入了数据增广,包含一些粗细增广,倾斜增广等操作,进一步提升其鲁棒性。
需要说明的是,根据笔画组合获取字符定位框完成对字符的定位;单字符定位结果如图14所示。采用灰度+HOG处理后定位框中的字符数据如图15所示;本申请最后输出的字符识别结果如图16所示。
请参照图17,本申请第二方面提供了一种OCR单字符定位识别系统,所述OCR单字符定位识别系统17包括:存储器171及处理器172,所述存储器171中包括一种OCR单字符定位识别方法的程序,所述OCR单字符定位识别方法的程序被所述处理器172执行时实如所述OCR单字符定位识别方法的步骤。
本申请第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质中包括OCR单字符定位识别方法程序,所述OCR单字符定位识别方法程序被处理器执行时,实现所述OCR单字符定位识别方法的步骤。
由上可知,本申请提供的一种OCR单字符定位识别方法、系统及计算机存储介质。本申请通过对待识别图像进行处理,获得图像中字符串的二值图,对二值图进行长线条消除和毛刺,结合局部阈值分割,有效的消除噪声干扰。利用基于尺寸的动态投影算法,对字符串实现自动定位;通过笔画组合区域划分算法初步限定笔画的组合区间,利用笔画组合算法结合笔画组合区间,精准的完成笔画组合,有效的解决字符串局部缺失问题;通过检索所有笔画连通域,对相连字符进行切割,可有效解决字符之间连接的问题。总的来说,本申请可有效提高OCR单字符定位识别的准确性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (10)
1.一种OCR单字符定位识别方法,其特征在于,所述方法包括:
获取待识别图像中的字符串二值图,所述字符串二值图是对待识别图像进行预处理后得到的;
对字符串二值图进行去干扰;
基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位;
根据定位后的字符串,利用笔画组合区域划分算法确定字符串笔画检索区域;
对字符串笔画检索区域中的笔画进行组合;
根据笔画组合获取字符定位框完成对字符的定位;
采用灰度处理和方向梯度直方图算法处理字符定位框中的字符数据;
利用训练后的分类器对经灰度处理和方向梯度直方图算法处理后的字符进行识别,输出识别结果。
2.根据权利要求1所述的一种OCR单字符定位识别方法,其特征在于,所述对待识别图像进行预处理,包括:
获取待识别图像中ROI区域图像并进行灰度化;其中,ROI区域中包含完整的字符串;
对字符串图像进行高斯滤波,消除椒盐噪声干扰;
对字符串图像进行局部阈值分割,获取字符串二值图。
3.根据权利要求2所述的一种OCR单字符定位识别方法,其特征在于,所述对字符串二值图进行去干扰,包括:对字符串二值图横向去除连续线条和横纵去毛刺;
横向去除连续线条的规则为:若字符串二值图中横向连续255像素值个数大于预设的字符最大宽度,则对该横向连续255像素进行像素擦除;
横纵去毛刺的规则为:若字符串二值图中横向或者纵向连续255像素值个数小于预设个数值,则对该横向或者纵向连续255像素进行像素擦除。
4.根据权利要求3所述的一种OCR单字符定位识别方法,其特征在于,所述基于尺寸的动态投影算法对去干扰后的字符串二值图进行字符串定位,包括:
对去干扰后的字符串二值图中的连通域进行面积筛选,检索面积在预设最小面积和预设最大面积之间的连通域;
对面积在预设最小面积和预设最大面积之间的连通域进行纵向闭运算,消除字符间隙;
对消除字符间隙后的字符串二值图进行归一化;并对归一化后的字符串二值图进行横向求和投影,得到横向投影向量图;
判断横向投影向量图的向量中,是否存在横向连通域高度是在最小字符高度和最大字符高度之间,若是,则该横向连通域的上下位置即为字符串的上下边界;若否,则将向量的每一位减去一个预设减数,再通过迭代的方式直到出现高度在最小字符高度和最大字符高度之间的连通域,再定位出上下边界。
5.根据权利要求4所述的一种OCR单字符定位识别方法,其特征在于,所述对消除字符间隙后的字符串二值图进行归一化的归一化方式为:将像素值255的区域置为1,像素值0的区域保持为0。
6.根据权利要求5所述的一种OCR单字符定位识别方法,其特征在于,所述利用笔画组合区域划分算法初步确定字符串笔画检索区域,包括:
将定位后的字符串二值图中的字符串区域切割出来;
对切割后的字符串二值图进行横向闭运算,再进行归一化处理;
对归一化后的字符串二值图进行纵向求和投影,投影得到纵向投影向量图;
对纵向投影向量图中的每一个向量都减去纵向投影阈值,获取纵向连通域;
通过每个纵向连通域的左右区间在切割后的字符串二值图的图像中限制检索区域,在每一个检索区域中定位字符;
检索所有笔画连通域,如果笔画宽度大于预设的最大字符宽度,说明笔画处有连接,在切割后的字符串二值图的图像中按照笔画宽度截取区域图像,进行垂直投影,计算投影向量每一个位置的左右差值,如果差值大于字符切割阈值,则该位置为切割点,对该笔画在切割点上进行切割。
7.根据权利要求6所述的一种OCR单字符定位识别方法,其特征在于,所述对字符串笔画检索区域中的笔画进行组合,包括:
对笔画检索区域的笔画提取轮廓;
保存每个笔画轮廓的点集;
对笔画轮廓点集进行排序,排序规则为所有笔画最小包围矩从左到右的顺序;
利用笔画组合算法对笔画进行组合。
8.根据权利要求7所述的一种OCR单字符定位识别方法,其特征在于,所述笔画组合算法包括以下步骤:
(1)从左到右遍历笔画轮廓点集合;
(2)当前遍历位置记为笔画1,将与当前笔画组合后组合宽度在最大宽度以内的笔画轮廓点集合都进行保存记为{笔画2,笔画3,...,笔画n-1},直到遍历到与当前笔画组合宽度大于最大字符宽度的笔画n;
(3)对保存的{笔画2,笔画3,...,笔画n-1}进行分配;
(4)遍历{笔画2,笔画3,...,笔画n-1}集合,分别计算其轮廓点与笔画1和笔画n的轮廓点之间最近的距离,然后将其与笔画1和笔画n二者中最近距离的轮廓点进行合并;
(5)重复(4)操作,直到集合中所有笔画都被组合;
(6)判别组合后的笔画1宽度,如果宽度大于最小字符宽度且高度大于最小字符高度则将其最小包围框进行保存,作为字符定位框;
(7)更新笔画1为组合后的笔画n,重新从笔画n的位置开始重复(2)~(6)的操作。
9.一种OCR单字符定位识别系统,其特征在于,该系统包括:存储器及处理器,所述存储器中包括一种OCR单字符定位识别方法的程序,所述OCR单字符定位识别方法的程序被所述处理器执行时实现权利要求1-8任一项所述的OCR单字符定位识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括OCR单字符定位识别方法程序,所述OCR单字符定位识别方法程序被处理器执行时,实现权利要求1-8任一项所述的OCR单字符定位识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269294.1A CN117877037B (zh) | 2024-03-11 | 2024-03-11 | 一种ocr单字符定位识别方法、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410269294.1A CN117877037B (zh) | 2024-03-11 | 2024-03-11 | 一种ocr单字符定位识别方法、系统及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117877037A true CN117877037A (zh) | 2024-04-12 |
CN117877037B CN117877037B (zh) | 2024-07-05 |
Family
ID=90596934
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410269294.1A Active CN117877037B (zh) | 2024-03-11 | 2024-03-11 | 一种ocr单字符定位识别方法、系统及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117877037B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5058182A (en) * | 1988-05-02 | 1991-10-15 | The Research Foundation Of State Univ. Of New York | Method and apparatus for handwritten character recognition |
CN102169542A (zh) * | 2010-02-25 | 2011-08-31 | 汉王科技股份有限公司 | 文字识别中粘连字符的切分方法和装置 |
CN107220640A (zh) * | 2017-05-23 | 2017-09-29 | 广州绿怡信息科技有限公司 | 字符识别方法、装置、计算机设备和计算机可读存储介质 |
CN107862312A (zh) * | 2017-11-22 | 2018-03-30 | 朱秋华 | 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质 |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
CN113095327A (zh) * | 2021-03-16 | 2021-07-09 | 深圳市雄帝科技股份有限公司 | 光学字符识别区域的定位方法、系统及其存储介质 |
CN114092938A (zh) * | 2022-01-19 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 图像的识别处理方法、装置、电子设备及存储介质 |
CN115116076A (zh) * | 2022-06-08 | 2022-09-27 | 济南大学 | 一种基于笔画提取的文字识别方法 |
-
2024
- 2024-03-11 CN CN202410269294.1A patent/CN117877037B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5058182A (en) * | 1988-05-02 | 1991-10-15 | The Research Foundation Of State Univ. Of New York | Method and apparatus for handwritten character recognition |
CN102169542A (zh) * | 2010-02-25 | 2011-08-31 | 汉王科技股份有限公司 | 文字识别中粘连字符的切分方法和装置 |
CN107220640A (zh) * | 2017-05-23 | 2017-09-29 | 广州绿怡信息科技有限公司 | 字符识别方法、装置、计算机设备和计算机可读存储介质 |
CN107862312A (zh) * | 2017-11-22 | 2018-03-30 | 朱秋华 | 一种基于tesseract引擎的文字识别方法、装置、设备及存储介质 |
CN108256493A (zh) * | 2018-01-26 | 2018-07-06 | 中国电子科技集团公司第三十八研究所 | 一种基于车载视频的交通场景文字识别系统及识别方法 |
CN113095327A (zh) * | 2021-03-16 | 2021-07-09 | 深圳市雄帝科技股份有限公司 | 光学字符识别区域的定位方法、系统及其存储介质 |
CN114092938A (zh) * | 2022-01-19 | 2022-02-25 | 腾讯科技(深圳)有限公司 | 图像的识别处理方法、装置、电子设备及存储介质 |
CN115116076A (zh) * | 2022-06-08 | 2022-09-27 | 济南大学 | 一种基于笔画提取的文字识别方法 |
Non-Patent Citations (2)
Title |
---|
NI GUI-BO ET AL: "A fast and effective method for printed Chinese character recognition", 《JOURNAL OF NORTH CHINA ELECTRIC POWER UNIVERSITY》, vol. 35, no. 3, 31 May 2008 (2008-05-31), pages 107 - 109 * |
邵康一: "自然场景图像文本定位与识别", 《中国优秀硕士学位论文全文数据库(电子期刊)》, vol. 2019, no. 01, 15 January 2019 (2019-01-15) * |
Also Published As
Publication number | Publication date |
---|---|
CN117877037B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115861135B (zh) | 一种应用于箱体全景探测的图像增强及识别方法 | |
Saxena | Niblack’s binarization method and its modifications to real-time applications: a review | |
CN110119741B (zh) | 一种有背景的卡证图像信息识别方法 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
US9971929B2 (en) | Fingerprint classification system and method using regular expression machines | |
CN110298376B (zh) | 一种基于改进b-cnn的银行票据图像分类方法 | |
CN108108734B (zh) | 一种车牌识别方法及装置 | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN114359538A (zh) | 一种水表读数定位与识别方法 | |
CN112686265A (zh) | 一种基于层级轮廓提取的象形文字分割方法 | |
CN112926592A (zh) | 一种基于改进Fast算法的商标检索方法及装置 | |
CN113538500B (zh) | 图像分割方法、装置、电子设备和存储介质 | |
Zhan et al. | A robust split-and-merge text segmentation approach for images | |
CN113378837A (zh) | 车牌遮挡识别方法、装置、电子设备和存储介质 | |
CN111488811B (zh) | 人脸识别方法、装置、终端设备及计算机可读介质 | |
CN112926695A (zh) | 基于模板匹配的图像识别方法和系统 | |
CN116648723A (zh) | 材料微结构的分析方法和装置 | |
CN117877037B (zh) | 一种ocr单字符定位识别方法、系统及计算机存储介质 | |
CN113537216B (zh) | 一种点阵字体文本行倾斜校正方法及装置 | |
CN114529570A (zh) | 图像分割方法、图像识别方法、用户凭证补办方法及系统 | |
CN113421256B (zh) | 一种点阵文本行字符投影分割方法及装置 | |
CN113158745B (zh) | 一种基于多特征算子的乱码文档图片识别方法及系统 | |
Rajithkumar et al. | Template matching method for recognition of stone inscripted Kannada characters of different time frames based on correlation analysis | |
CN114511862A (zh) | 表格识别方法、装置及电子设备 | |
CN109271986B (zh) | 一种基于Second-Confirm的数字识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |