CN112633289A - 一种粘连字符分割方法和系统 - Google Patents

一种粘连字符分割方法和系统 Download PDF

Info

Publication number
CN112633289A
CN112633289A CN202011628516.2A CN202011628516A CN112633289A CN 112633289 A CN112633289 A CN 112633289A CN 202011628516 A CN202011628516 A CN 202011628516A CN 112633289 A CN112633289 A CN 112633289A
Authority
CN
China
Prior art keywords
segmentation
character
region
points
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011628516.2A
Other languages
English (en)
Other versions
CN112633289B (zh
Inventor
马树志
包振健
赵严
姚毅
杨艺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Luster LightTech Co Ltd
Original Assignee
Luster LightTech Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Luster LightTech Co Ltd filed Critical Luster LightTech Co Ltd
Priority to CN202011628516.2A priority Critical patent/CN112633289B/zh
Publication of CN112633289A publication Critical patent/CN112633289A/zh
Application granted granted Critical
Publication of CN112633289B publication Critical patent/CN112633289B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种粘连字符分割方法,包括:采用二值化算法提取待识别图像中的字符区域;对提取的字符区域进行连通区域分析;基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。该分割方法能够准确有效完成粘连字符的分割,从而有效避免过分分割和欠分割情况的发生。此外,本申请还公开了一种粘连字符的分割系统。

Description

一种粘连字符分割方法和系统
技术领域
本申请涉及可变信息检测技术领域,特别涉及一种粘连字符分割方法。此外,本申请还涉及一种粘连字符分割系统。
背景技术
随着信息技术的发展,可变信息如条码、二维码以及验证码等被广泛应用在食品、药品包装或者防伪标识等印刷领域。可变信息的检测变成了印刷质量检测的一个难点,验证码或者说可变字符检测便是其中之一。可变字符的检测一般情况下使用OCR识别技术进行检测,这个过程需要进行粘连字符的分割,如图1所示,图1为一种粘连字符示意图。
当下常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割,在粘连较多字符形态多样且无规律,字符宽度差异较大时,效果并不理想,易出现过分割或者欠分割的情况。这是因为使用投影方法分割字符的是基于粘连位置图像投影值比正常字符区域的投影值低的假设,而当字符集扩展到数字和大写字母的情况,投影低的位置不一定就是分割点,如字母“W”、“V”,而且字符的宽度也存在较大差异如数字“1”和字母“W”等,无法凭借宽度特征来判断当前分割位置是否正确。
发明内容
本申请要解决的技术问题为提供一种粘连字符的分割方法,该分割方法能够准确有效完成粘连字符的分割,从而有效避免过分分割和欠分割情况的发生。此外,本申请另一个要解决的技术问题为提供一种粘连字符的分割系统。
为解决上述技术问题,本申请提供一种粘连字符分割方法,包括:
采用二值化算法提取待识别图像中的字符区域;
对提取的字符区域进行连通区域分析;
基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
在一种具体实施方式中,
所述“将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设第一阈值时,则作为粘连字符的分割确认点”之后,还包括:
根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
在一种具体实施方式中,
所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
在一种具体实施方式中,
所述“基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域”,包括:
获知待识别图像中字符区域中的字符的最大宽度;
获得提取字符中连通区域的宽度;
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
在一种具体实施方式中,
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果否,则将该连通区域输入分类器进行评分,如果评分小于预设的第二阈值时,则该连通区域为疑似粘连区域。
在一种具体实施方式中,
所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”,包括:
使用边缘提前算法提取所述粘连区域的边缘轮廓;
根据所述边缘轮廓的嵌套关系,确定外轮廓;
满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))。
在一种具体实施方式中,
所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”之后,还包括:
从所述分割候选点中筛选掉不符合字符最小宽度信息的点。
此外,为解决上述技术问题,本申请还提供一种粘连字符分割系统,包括:
二值化模块,用于采用二值化算法提取待识别图像中的字符区域;
连通区域分析模块,用于对提取的字符区域进行连通区域分析;
粘连区域识别模块,用于基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
边缘轮廓计算模块,用于提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
分类器模块,用于将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
在一种具体实施方式中,
还包括:
分割点确认模块,用于根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
在一种具体实施方式中,
所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
在一种具体实施方式中,
所述粘连区域识别模块包括:
字符最大宽度获取子模块,用于获知待识别图像中字符区域中的字符的最大宽度;
连通区域宽度提取子模块,用于获得提取字符中连通区域的宽度;
判断模块,用于判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
在一种具体实施方式中,
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果否,则将该连通区域输入分类器进行评分,如果评分小于预设的第二阈值时,则该连通区域为疑似粘连区域。
在一种具体实施方式中,
所述边缘轮廓计算模块包括:
边缘轮廓提取子模块,用于使用边缘提前算法提取所述粘连区域的边缘轮廓;
外轮廓确定子模块,用于根据所述边缘轮廓的嵌套关系,确定外轮廓;
计算子模块,满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))。
在一种具体实施方式中,
所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”之后,还包括:
从所述分割候选点中筛选掉不符合字符最小宽度信息的点。
以下介绍本申请实施例的技术效果:
在一种实施例中,如图2所示,一种粘连字符分割方法,包括:
采用二值化算法提取待识别图像中的字符区域;
对提取的字符区域进行连通区域分析;
具体的,在该步骤中,所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
具体的,在该步骤中,所述“基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域”,包括:
获知待识别图像中字符区域中的字符的最大宽度;
获得提取字符中连通区域的宽度;
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
具体的,在该步骤中,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”,包括:
使用边缘提前算法提取所述粘连区域的边缘轮廓;
根据所述边缘轮廓的嵌套关系,确定外轮廓;
满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))。
将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
现有技术中常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割,在粘连较多字符形态多样且无规律,字符宽度差异较大时,效果并不理想,易出现过分割或者欠分割的情况。印刷品上的印刷字符都是标准字体,不会出现类似于验证码那种非自然的粘连,所以在印刷产品上的字符粘连所表现的模式是存在固定的特征的。经过我们实验发现,粘连的区域必定存在凹点(上凸、下凹),而有些粘连严重的,通过投影分析未必能够找到正确的分割点。
而在本申请中,主要原理是通过对字符外围边界进行遍历,找到外围边界的凹点作为分割候选点,根据字符宽度,对候选点进行筛选,筛选完之后,按分割点分割图像,将图像送入分类器,如果没有提高分类器输出,则认为此处不是正确的分割点,使用下一个分割点进行分割直至所有分割点遍历结束。该分割方法能够准确有效完成粘连字符的分割,从而有效避免过分分割和欠分割情况的发生。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种粘连字符示意图;
图2为本申请一种实施例中一种粘连字符的分割方法的逻辑流程图;
图3为图1中的粘连字符经过二值化处理后的示意图;
图4为图3中的字符图形经过连通分析后的示意图;
图5为图4中的字符图形经过边缘轮廓提取后的示意图;
图6为图5中的字符图形的外轮廓的示意图;
图7为图6中的外轮廓提取凹点后的示意图;
图8为本申请另一种实施例中一种粘连字符的分割方法的逻辑流程图;
图9为本申请一种实施例中一种粘连字符的分割系统的功能框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
在本申请的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参考图2,图2为本申请一种实施例中一种粘连字符的分割方法的逻辑流程图。
在一种实施例中,如图2所示,一种粘连字符分割方法,包括:
步骤S101:采用二值化算法提取待识别图像中的字符区域;
步骤S102:对提取的字符区域进行连通区域分析;
具体的,在该步骤中,所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
步骤S103:基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
具体的,在该步骤中,所述“基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域”,包括:
获知待识别图像中字符区域中的字符的最大宽度;
获得提取字符中连通区域的宽度;
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
步骤S104:提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
具体的,在该步骤中,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”,包括:
使用边缘提前算法提取所述粘连区域的边缘轮廓;
根据所述边缘轮廓的嵌套关系,确定外轮廓;
满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))。
步骤S105:将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
在本申请上述实施例中,相对于现有技术中常用的字符分割方法多基于投影分析、字符宽度或者两者结合的方式进行分割。基于上述方法进行粘连分割,在粘连较多字符形态多样且无规律,字符宽度差异较大时,效果并不理想,易出现过分割或者欠分割的情况。印刷品上的印刷字符都是标准字体,不会出现类似于验证码那种非自然的粘连,所以在印刷产品上的字符粘连所表现的模式是存在固定的特征的。经过我们实验发现,粘连的区域必定存在凹点(上凸、下凹),而有些粘连严重的,通过投影分析未必能够找到正确的分割点。
而在本申请中,主要原理是通过对字符外围边界进行遍历,找到外围边界的凹点作为分割候选点,根据字符宽度,对候选点进行筛选,筛选完之后,按分割点分割图像,将图像送入分类器,如果没有提高分类器输出,则认为此处不是正确的分割点,使用下一个分割点进行分割直至所有分割点遍历结束。该分割方法能够准确有效完成粘连字符的分割,从而有效避免过分分割和欠分割情况的发生。
在上述实施例中,可以做出进一步改进。比如,所述“将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设第一阈值时,则作为粘连字符的分割确认点”之后,还包括:
根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
此外,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”之后,还包括:
从所述分割候选点中筛选掉不符合字符最小宽度信息的点。
下边结合具体应用举例,做出详细介绍,请参考图3至图8,图3为图1中的粘连字符经过二值化处理后的示意图;图4为图3中的字符图形经过连通分析后的示意图;图5为图4中的字符图形经过边缘轮廓提取后的示意图;图6为图5中的字符图形的外轮廓的示意图;图7为图6中的外轮廓提取凹点后的示意图;图8为本申请另一种实施例中一种粘连字符的分割方法的逻辑流程图。
如图8所示,本申请算法的主要原理是通过对字符外围边界进行遍历,找到外围边界的凹点作为分割候选点,根据字符宽度,对候选点进行筛选,筛选完之后,按分割点分割图像,将图像送入分类器,如果没有提高分类器输出,则认为此处不是正确的分割点,使用下一个分割点进行分割直至所有分割点遍历结束。以下分步骤介绍如下:
1、图像二值化和联通区域分析
通过二值化算法提取图像中的字符区域。二值化算法可以使用全局阈值或者自适应阈值算法如OTSU(最大类间方差法)。
图像二值化(Image Binarization)就是将图像上的像素点的灰度值设置为0或255,也就是将整个图像呈现出明显的黑白效果的过程。在数字图像处理中,二值图像占有非常重要的地位,图像的二值化使图像中数据量大为减少,从而能凸显出目标的轮廓。
具体的,将256个亮度等级的灰度图像通过适当的阈值选取而获得仍然可以反映图像整体和局部特征的二值化图像。在数字图像处理中,二值图像占有非常重要的地位,首先,图像的二值化有利于图像的进一步处理,使图像变得简单,而且数据量减小,能凸显出感兴趣的目标的轮廓。其次,要进行二值图像的处理与分析,首先要把灰度图像二值化,得到二值化图像。
所有灰度大于或等于阈值的像素被判定为属于特定物体,其灰度值为255表示,否则这些像素点被排除在物体区域以外,灰度值为0,表示背景或者例外的物体区域。
经过二值化得到的图像请参考图3。
2、联通区域分析
对提取到的区域进行联通区域分析,并根据面积、位置等属性对联通区域进行筛选,过滤一些噪声和背景区域,找到符合条件的字符区域,经过连通分析后的图像,请参考图4。
需要说明的是,连通域分析是非常常见的图像处理操作。连通区域分析一般是针对二值图像,将具有相同像素值且相邻的像素找出来并标记。例如针对上面的同心圆图像,将每个圆环完整的找出来并比标记上不同的颜色。具体概念阐述如下:
连通区域(connected component):图像中具有相同的像素值且相邻的区域
连通区域分析(connected component analysis):将图像中的联通区域找出来并标记,也称为联通区域标记。
一般会先将图像二值化,将图像分为前景区域和背景区域。相当于是已经知道如何区提取有效像素值,然后进行连通域分析,而如何提取感兴趣的区域是一个非常的问题,这里不做讨论。有两种经典的连通区域分析算法:1、Two-Pass(两次遍历),2、Seed Filling(种子填充)。
3、对每个字符区域根据宽度以及分类器输出结果进行分类,筛选出粘连区域。
图4中每个颜色对应一个联通区域,先根据连通区域的宽度以及字符的最大宽度(预先可以收集到)筛选出来粘连的字符区域(宽度>字符最大宽度),如图4中粉色、紫色两个连通区域。其余的区域送入分类器中进行分类,如果分类器的评分大于设定阈值则认为是正确的,小于设定阈值则认为是疑似粘连区域。
4、提取粘连区域的外部轮廓,计算轮廓上的凹点,作为分割的候选点,提前轮廓后的图像如图5所示。
取粉色粘连字符区域为例使用边缘提取算法如Canny、Sobel等提取字符图像边缘,根据轮廓的嵌套关系,只选取外轮廓进行计算,如图6所示。
遍历每个边缘点,假设上述图像左下角为原点,则每个边缘点坐标为(x,y),记y=f(x),则凹点为坐标满足如下条件的点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))
则图6中的轮廓可以提取到如下图所示凹点。
5、根据字符的宽度等约束信息,筛选一些不符合条件的候选点。
如图7所示,提取到的凹点中存在离得很近的情况,或者像字母“W”、“V”等拐点处,这些位置可以通过一些约束条件如字符最小宽度等过滤掉,保留有效的候选点。
6、对粘连区域进行分割,并送入分类器,如果分类器的输出得到提高,则认为该点可以作为分割点;如果分类器结果没有得到提高,则认为该点不是分割点。
7、最后根据字符个数,以及第6步中得到的分类器结果,确认最终的分割点位置。
此外,与上述方法实施例相对应,本申请还提供一套产品实施例。具体的,请参考图9,图9为本申请一种实施例中一种粘连字符的分割系统的功能框图。
在一种实施例中,如图9所示,一种粘连字符的分割系统包括:
二值化模块,用于采用二值化算法提取待识别图像中的字符区域;
连通区域分析模块,用于对提取的字符区域进行连通区域分析;
粘连区域识别模块,用于基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
边缘轮廓计算模块,用于提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
分类器模块,用于将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
在一种实施例中,
还包括:
分割点确认模块,用于根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
在一种实施例中,所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
在一种实施例中,所述粘连区域识别模块包括:
字符最大宽度获取子模块,用于获知待识别图像中字符区域中的字符的最大宽度;
连通区域宽度提取子模块,用于获得提取字符中连通区域的宽度;
判断模块,用于判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
在一种实施例中,判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果否,则将该连通区域输入分类器进行评分,如果评分小于预设的第二阈值时,则该连通区域为疑似粘连区域。
在一种实施例中,所述边缘轮廓计算模块包括:
边缘轮廓提取子模块,用于使用边缘提前算法提取所述粘连区域的边缘轮廓;
外轮廓确定子模块,用于根据所述边缘轮廓的嵌套关系,确定外轮廓;
计算子模块,满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x))。
在一种实施例中,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”之后,还包括:
从所述分割候选点中筛选掉不符合字符最小宽度信息的点。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程和技术效果,可以参考前述方法实施例中的对应过程和技术效果,在此不再赘述。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本说明书通篇提及的“多个实施例”、“一些实施例”、“一个实施例”或“实施例”等,意味着结合该实施例描述的具体特征、部件或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语“在多个实施例中”、“在一些实施例中”、“在至少另一个实施例中”或“在实施例中”等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、部件或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、部件或特性可全部或部分地与一个或多个其他实施例的特征、部件或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。
此外,本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“终端”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (10)

1.一种粘连字符分割方法,其特征在于,包括:
采用二值化算法提取待识别图像中的字符区域;
对提取的字符区域进行连通区域分析;
基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
2.如权利要求1所述的一种粘连字符分割方法,其特征在于,所述“将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设第一阈值时,则作为粘连字符的分割确认点”之后,还包括:
根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
3.如权利要求1所述的一种粘连字符分割方法,其特征在于,
所述“对提取的字符区域进行连通区域分析”,包括:
对提取的字符区域,基于面积属性和位置属性进行连通区域分析,并过滤噪声和背景区域。
4.如权利要求1-3任一项所述的一种粘连字符分割方法,其特征在于,所述“基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域”,包括:
获知待识别图像中字符区域中的字符的最大宽度;
获得提取字符中连通区域的宽度;
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
5.如权利要求4所述的一种粘连字符分割方法,其特征在于,
判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果否,则将该连通区域输入分类器进行评分,如果评分小于预设的第二阈值时,则该连通区域为疑似粘连区域。
6.如权利要求1-3任一项所述的一种粘连字符分割方法,其特征在于,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”,包括:
使用边缘提前算法提取所述粘连区域的边缘轮廓;
根据所述边缘轮廓的嵌套关系,确定外轮廓;
满足如下公式的(x,y)点为所述边缘轮廓的凹点:
(f(x-1)>f(x)&&f(x+1)>f(x))||(f(x-1)<f(x)&&f(x+1)<f(x)。
7.如权利要求1-3任一项所述的一种粘连字符分割方法,其特征在于,所述“提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点”之后,还包括:
从所述分割候选点中筛选掉不符合字符最小宽度信息的点。
8.一种粘连字符分割系统,其特征在于,包括:
二值化模块,用于采用二值化算法提取待识别图像中的字符区域;
连通区域分析模块,用于对提取的字符区域进行连通区域分析;
粘连区域识别模块,用于基于进行连通区域分析后的字符区域,根据预设策略识别出粘连区域;
边缘轮廓计算模块,用于提取所述粘连区域的边缘轮廓,计算所述边缘轮廓的凹点,作为分割候选点;
分类器模块,用于将所述粘连区域输入分类器进行评价,当所述分割候选点的评分满足预设阈值时,则作为粘连字符的分割确认点。
9.如权利要求8所述的一种粘连字符分割系统,其特征在于,还包括:
分割点确认模块,用于根据所述粘连字符的个数及所述分割确认点,确认最终的分割点位置。
10.如权利要求9或10所述的一种粘连字符分割系统,其特征在于,所述粘连区域识别模块包括:
字符最大宽度获取子模块,用于获知待识别图像中字符区域中的字符的最大宽度;
连通区域宽度提取子模块,用于获得提取字符中连通区域的宽度;
判断模块,用于判断所述连通区域的宽度是否大于所述字符的最大宽度;
如果是,该连通区域为粘连区域。
CN202011628516.2A 2020-12-30 2020-12-30 一种粘连字符分割方法和系统 Active CN112633289B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011628516.2A CN112633289B (zh) 2020-12-30 2020-12-30 一种粘连字符分割方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011628516.2A CN112633289B (zh) 2020-12-30 2020-12-30 一种粘连字符分割方法和系统

Publications (2)

Publication Number Publication Date
CN112633289A true CN112633289A (zh) 2021-04-09
CN112633289B CN112633289B (zh) 2024-04-26

Family

ID=75290247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011628516.2A Active CN112633289B (zh) 2020-12-30 2020-12-30 一种粘连字符分割方法和系统

Country Status (1)

Country Link
CN (1) CN112633289B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421256A (zh) * 2021-07-22 2021-09-21 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040146200A1 (en) * 2003-01-29 2004-07-29 Lockheed Martin Corporation Segmenting touching characters in an optical character recognition system to provide multiple segmentations
CN101458768A (zh) * 2009-01-04 2009-06-17 上海大学 自由手写数字串分割方法
JP2010027016A (ja) * 2008-07-18 2010-02-04 Kazuo Aisaka 2値画像を領域分割するための凹点検出方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN108960239A (zh) * 2018-07-10 2018-12-07 武汉科技大学 一种基于图像处理的激光蚀刻金属雷管编码字符分割方法
CN109948393A (zh) * 2019-03-22 2019-06-28 凌云光技术集团有限责任公司 一种一维条码的定位方法及装置
CN110634222A (zh) * 2019-08-27 2019-12-31 河海大学 一种银行票据信息识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040146200A1 (en) * 2003-01-29 2004-07-29 Lockheed Martin Corporation Segmenting touching characters in an optical character recognition system to provide multiple segmentations
JP2010027016A (ja) * 2008-07-18 2010-02-04 Kazuo Aisaka 2値画像を領域分割するための凹点検出方法
CN101458768A (zh) * 2009-01-04 2009-06-17 上海大学 自由手写数字串分割方法
CN106446896A (zh) * 2015-08-04 2017-02-22 阿里巴巴集团控股有限公司 一种字符分割方法、装置及电子设备
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN108960239A (zh) * 2018-07-10 2018-12-07 武汉科技大学 一种基于图像处理的激光蚀刻金属雷管编码字符分割方法
CN109948393A (zh) * 2019-03-22 2019-06-28 凌云光技术集团有限责任公司 一种一维条码的定位方法及装置
CN110634222A (zh) * 2019-08-27 2019-12-31 河海大学 一种银行票据信息识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
常丹华;何耘娴;苗丹;: "中英混排文档图像粘连字符分割方法的研究", 激光与红外, no. 12 *
张重阳: "票据自动处理系统中的预处理技术研究", 《中国优秀博士学位论文全文数据库(博士)信息科技辑》, pages 1 *
李兴国;高炜;: "基于滴水算法的验证码中粘连字符分割方法", 计算机工程与应用, no. 01 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421256A (zh) * 2021-07-22 2021-09-21 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置
CN113421256B (zh) * 2021-07-22 2024-05-24 凌云光技术股份有限公司 一种点阵文本行字符投影分割方法及装置

Also Published As

Publication number Publication date
CN112633289B (zh) 2024-04-26

Similar Documents

Publication Publication Date Title
CN108596166B (zh) 一种基于卷积神经网络分类的集装箱箱号识别方法
Yu et al. An approach to Korean license plate recognition based on vertical edge matching
US7379594B2 (en) Methods and systems for automatic detection of continuous-tone regions in document images
CN107067006B (zh) 一种服务于数据采集的验证码识别方法及系统
CN101122953A (zh) 一种图片文字分割的方法
JPH096957A (ja) 濃度画像の2値化方法および画像2値化装置
CN109241973B (zh) 一种纹理背景下的字符全自动软分割方法
CN101599125A (zh) 复杂背景下图像处理的二值化方法
WO2020186790A1 (zh) 车型识别方法、装置、计算机设备及存储介质
JP2012500428A (ja) 印刷媒体ページの記事へのセグメント化
CN114387591A (zh) 车牌识别方法、系统、设备及存储介质
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN113191358B (zh) 金属零件表面文本检测方法和系统
CN112507782A (zh) 文本图像的识别方法及装置
CN106331746B (zh) 用于识别视频文件中的水印位置的方法和装置
CN117094975A (zh) 钢铁表面缺陷检测方法、装置及电子设备
CN100561504C (zh) 文档的自适应二值化方法和设备
CN111814673A (zh) 一种修正文本检测边界框的方法、装置、设备及存储介质
Çavdaroğlu et al. A character segmentation method to increase character recognition accuracy for Turkish number plates
CN112633289B (zh) 一种粘连字符分割方法和系统
US20120250985A1 (en) Context Constraints for Correcting Mis-Detection of Text Contents in Scanned Images
CN111767909B (zh) 一种字符识别方法、设备及计算机可读存储介质
CN113537037A (zh) 路面病害识别方法、系统、电子设备及存储介质
CN113221696A (zh) 一种图像识别方法、系统、设备及存储介质
CN110084117B (zh) 基于二值图分段投影的文档表格线检测方法、系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant