CN110288626B - 检测原生电子图像中的文本的方法和装置 - Google Patents

检测原生电子图像中的文本的方法和装置 Download PDF

Info

Publication number
CN110288626B
CN110288626B CN201910510512.5A CN201910510512A CN110288626B CN 110288626 B CN110288626 B CN 110288626B CN 201910510512 A CN201910510512 A CN 201910510512A CN 110288626 B CN110288626 B CN 110288626B
Authority
CN
China
Prior art keywords
channel
value
peak
channels
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910510512.5A
Other languages
English (en)
Other versions
CN110288626A (zh
Inventor
蒋晓海
谢春鸿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Testin Information Technology Co Ltd
Original Assignee
Beijing Testin Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Testin Information Technology Co Ltd filed Critical Beijing Testin Information Technology Co Ltd
Priority to CN201910510512.5A priority Critical patent/CN110288626B/zh
Publication of CN110288626A publication Critical patent/CN110288626A/zh
Application granted granted Critical
Publication of CN110288626B publication Critical patent/CN110288626B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration using histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/136Segmentation; Edge detection involving thresholding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition

Abstract

本发明公开了一种检测原生电子图像中的文本的方法和装置,该方法包括:基于待检测图像的灰度直方图,确定M个二值化阈值;基于M个二值化阈值对待检测图像进行处理,得到M张二值化图像;对M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像。本发明实施例的方法,对待检测图像分别应用多个二值化阈值进行处理,得到多张二值化图像,并在通过多张二值化图像得到多组文本区域后,基于多组文本区域确定出待检测图像的目标文本区域,由于多组文本区域之间存在相互补偿,可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率,减少文本区域被漏检的概率,提升文本区域检测的准确性。

Description

检测原生电子图像中的文本的方法和装置
技术领域
本发明涉及图像处理技术领域,尤其涉及一种检测原生电子图像中的文本的方法和装置。
背景技术
原生电子图片是经过电脑处理或合成的,非直接由摄像机拍摄生成的图片,如广告图片、电子邮件或网页上的图片等,通常情况下,这些图片上的文本是公正的印刷体,但是文本是在叠加在复杂的背景上。为了将文本与复杂的背景区分,目前的主流方法是选取一个合适的阈值,用于阈值对图片进行处理,得到黑白图片,再通过MSER(MaximallyStable Extremal Regions,最大极值稳定区域)和SWT(Stroke Width Transform,笔画宽度变换)算法对黑白图片进行处理,确定文本区域。但是在背景颜色与文本区域颜色相近的情况下,现有文本检测的方法对文本区域的检测不够准确。
发明内容
本发明实施例提供一种文本检测方法和装置,以解决在背景颜色与文本区域颜色相近的情况下,文本区域检测不够准确的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,提供了一种检测原生电子图像中的文本的方法,该方法包括:
基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数;
基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像;
对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像;
基于所述M组文本区域,确定所述待检测图像的目标文本区域。
第二方面,提供了一种检测原生电子图像中的文本的装置,该装置包括:
第一确定模块,用于基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数;
第一处理模块,用于基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像;
第二处理模块,用于对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像;
第二确定模块,用于基于所述M组文本区域,确定所述待检测图像的目标文本区域。
在本发明实施例中,通过对待检测图像的灰度直方图进行处理,确定M个二值化阈值,其中,M为大于或等于2的整数,基于M个二值化阈值对待检测图像进行处理,得到M个张二值化图像,并在通过M张二值化图像得到M组文本区域后,基于M组文本区域确定出待检测图像的目标文本区域,由于M组文本区域之间存在相互补偿,可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率,减少文本区域被漏检的概率,提升文本区域检测的准确性。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是本发明的一个实施例的检测原生电子图像中的文本的方法的流程示意图;
图2是本发明的一个实施例的基于目标峰顶通道确定二值化阈值的方法的示意图;
图3是本发明的一个实施例的基于目标峰顶通道确定二值化阈值的方法的示意图;
图4是本发明的另一个实施例的基于峰顶通道确定目标峰顶通道的方法的示意图;
图5是本发明的再一个实施例的基于峰顶通道确定目标峰顶通道的方法的示意图;
图6是本发明的一个实施例的确定原生电子图像的方法的示意图;
图7是本发明的一个实施例的确定二值化阈值的方法的示意图;
图8是本发明的一个实施例的确定三张二值化图像的方法的示意图;
图9是本发明的另一个实施例的确定原生电子图像的方法的示意图;
图10是本发明的另一个实施例的确定二值化阈值的方法的示意图;
图11是本发明的另一个实施例的确定第一张二值化图像的方法的示意图;
图12是本发明的另一个实施例的确定第二张二值化图像的方法的示意图;
图13是本发明的另一个实施例的确定第三张二值化图像的方法的示意图;
图14是本发明的一个实施例的检测原生电子图像中的文本的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是本发明的一个实施例的检测原生电子图像中的文本的方法的流程示意图,图1所示的方法可以由检测原生电子图像中的文本的装置执行,如图1所示的方法包括:
S110,基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数。
应理解,二值化阈值是用于将灰度图像的像素点分为两部分,一部分是灰度值大于二值化阈值的像素点显示为白色,另一部分灰度值小于二值化阈值的像素点显示为黑色,基于二值化阈值对灰色图像进行处理,可以使得灰度图像转换为黑白图像。
在S110中,获取并对待检测图像的灰度直方图进行处理,确定M个二值化阈值,其中,所述待检测图像为灰度图像,所述灰度图像是由原生电子图像转换得到的。
比如,灰度图像的像素点的灰度值为0-255,基于灰度图像的灰度直方图,确定三个二值化阈值为145、180和200。
可选地,在一些实施例中,所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值。
若M个二值化阈值的值相近,得到M张差异较小的二值化图像,使得后续得到的文本区域相同或相近,导致文本区域检测的准确性较低。反之,若M个二值化阈值分布均匀,得到M张差异较大的二值化图像,使得后续得到的M组文本区域不同,M组不同的文本区域互相补偿,减少文本区域被漏检的概率,提升文本区域检测的准确性。
比如,文本区域的灰度值为80-135,背景的灰度值为150-160,若三个二值化阈值分别为90、100、110,则基于三个二值化阈值分别对灰度图像进行处理,得到三张差异较小的二值化图像,第一张二值化图像中的灰度值为90-135的文本区域与背景显示相同颜色,即第一张二值化图像把灰度值为90-135的文本区域错识成背景,第二张二值化图像把灰度值为100-135的文本区域错识成背景,第三张二值化图像把灰度值为110-135的文本区域错识成背景。基于三张二值化图像,把灰度值为110-135的文本区域错识成背景,进而遗漏灰度值为110-135的文本区域。
若三个二值化阈值为90、110、130,则基于三个二值化阈值对灰度图像进行处理,得到三张差异较大的二值化图像。第一张二值化图像把灰度值为90-135的文本区域错识成背景,第二张二值化图像把灰度值为110-135的文本区域错识成背景,第三张二值化图像把灰度值为130-135的文本区域错识成背景,基于三张二值化图像,把灰度值为130-135的文本区域错识成背景,相对于三张差异较小的二值化图像,减少文本区域被漏检的概率,提升文本区域检测的准确性。
具体地,S110可包括:
基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,所述目标峰顶通道为N个通道中值大于相邻通道的值的通道,N为大于或等于5的整数;
基于所述M+1个目标峰顶通道,确定所述M个二值化阈值。
应理解,N个通道的值表示N个通道中每个通道对应的像素点个数的总和。
举例说明,灰度图像的像素点的灰度值为0-255,将灰度图像的灰度直方图划分为8个通道,即每个通道包含32个灰度值。其中,第1个通道的值为灰度值为0-31的所有像素点个数的总和,第2个通道的值为灰度值为32-64的所有像素点的个数的总和,以此类推,直至第8个通道的值为灰度值为223-255的所有像素点的个数的总和。如图2所示,横坐标表示通道的标识,纵坐标表示通道的值,第1个通道的值至第8个通道的值分别为100、200、50、60、20、70、100、60,基于目标峰顶通道是8个通道中值大于相邻通道的值的通道,确定第2个通道、第4个通道和第7个通道为目标峰顶通道。基于3个目标峰顶通道,确定两个二值化阈值。
或者,灰度图像的像素点的灰度值为0-255,将灰度直方图划分为64个通道,即每个通道包含4个灰度值。其中,第1个通道的值为灰度值为0-3的所有像素点个数的总和,第2个通道的值为灰度值为4-7的所有像素点的个数的总和,以此类推,直至第64个通道的值为灰度值为252-255的所有像素点的个数的总和。基于64个通道的值,确定10个目标峰顶通道,如64个通道的值分别为20、50、20.....100、120、50,确定50、.......120对应的通道为目标峰顶通道,基于10个目标峰顶通道,确定9个二值化阈值。
可选地,所述基于所述M+1个目标峰顶通道,确定所述M个二值化阈值,包括:
确定相邻两个目标峰顶通道之间的最低通道和中间通道,其中,所述最低通道为所述相邻两个目标峰顶通道之间值最小的通道,所述中间通道与所述相邻两个目标峰顶通道的一个目标峰顶通道之间的通道数量为第一数量,所述中间通道与所述相邻两个目标峰顶通道的另一个目标峰顶通道之间的通道数量为第二数量,所述第一数量与所述第二数量相等;
若所述最低通道的值与所述中间通道的值的差值在预设范围内,则确定所述中间通道的值为二值化阈值。
举例说明,灰度图像的像素点的灰度值为0-255,将灰度直方图划分为64个通道,即每个通道包含4个灰度值。如图3所示,第1个通道至第10个通道的值为20、20、50、100、20、30、40、100、50、20,确定第4个通道和第8个通道为峰顶通道,若确定第4个峰顶通道、第8个峰顶通道为目标峰顶通道,确定第5个通道为最低通道以及第6个通道为中间通道,为了使相邻两个二值化阈值的值相差较大,将第5个通道的值与第6个通道的值进行对比,若第5个通道与第6个通道的值的差值在预设范围内,则确定第6个通道的标识与该通道的灰度值个数的积为二值化阈值。具体地,二值化阈值为6*256/64=24,其中,6表示第6个通道的标识,256表示灰度图像的所有灰度值,64表示灰度图像的灰度直方图包含的64个通道,即256/64表示第6个通道的灰度值个数。
可选地,在一些实施例中,基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,包括:
基于所述N个通道的值和目标峰顶阈值,确定X个峰顶通道,其中,M+1≤X<N;
基于所述X个峰顶通道确定M+1个目标峰顶通道。
可理解的是,上述目标峰顶阈值是根据实际情况需求设置的,用于去掉值较低的峰顶通道,过滤掉对检测结果影响不大的峰顶通道,基于减少峰顶通道的数量,提高工作效率。
具体地,所述基于所述N个通道的值和目标峰顶阈值,确定X个峰顶通道,可包括:
若第n个通道的值与第n-1个通道的值的差值大于所述目标峰顶阈值,且所述第n个通道的值与第n+1个通道的值的差值大于所述目标峰顶阈值,则确定所述第n个通道为峰顶通道,其中,n为大于1且小于N的整数;或,
若第一个通道的值与第二个通道的值的差值大于所述目标峰顶阈值,则确定所述第一个通道为峰顶通道;或,
若最后一个通道的值与前一个通道的值的差值大于所述目标峰顶阈值,则确定所述最后一个通道为峰顶通道。
比如,确定64个通道以及64个通道的值,64个通道的值如100、80、50、70、90、50.......90、100,若目标峰顶阈值为12,第1个通道的值为100大于第2个通道的值为80,且两者的差值大于目标峰顶阈值,确定第1个通道为峰顶通道,第2个通道的值和3个通道的值均小于前一个通道的值,确定不为峰顶通道,第4个通道的值小于后一个通道的值,确定不为峰顶通道,直至第5个通道的值为90大于第4个通道的值为70,且两者的差值大于目标峰顶阈值,第5个通道的值为90大于第6个通道的值为50,且两者的差值大于目标峰顶阈值,确定第5个通道为峰顶通道,以此类推,直至最后一个通道的值为100大于前一个通道的值为90,但两者的差值小于目标峰顶阈值,确定最后一个通道不为峰顶通道,进而达到确定峰顶通道的目的。
可选地,在一些实施例中,所述基于所述X个峰顶通道确定M+1个目标峰顶通道,包括:
若第m个峰顶通道与第m-1个峰顶通道之间的距离小于总通道数与预设数值的比值,且所述第m个峰顶通道的值大于所述第m-1个峰顶通道的值,则确定所述第m个峰顶通道为目标峰顶通道,其中,m为大于1且小于X的整数。
可理解的是,通道之间的距离指的是通道标识的差值。
如图4所示,确定第2个通道、第6个通道和第13个通道为峰顶通道,
第2个峰顶通道与第6个峰顶通道之间的距离为4,即第6个峰顶通道与第13个峰顶通道之间的距离为7,若灰度直方图总共有63个通道,预设数值为9,其中,预设数值是根据实际情况确定的最优值,则总通道数与预设数值的比值为7,基于第6个峰顶通道与第2个峰顶通道之间的距离小于总通道数与预设数值的比值为7,且第6个峰顶通道的值大于第2个峰顶通道的值,确定第6个峰顶通道为目标峰顶通道,而第13个峰顶通道与第6个峰顶通道之间的距离等于总通道数与预设数值的比值为7,确定第13个峰顶通道为目标峰顶通道,同时,第6个峰顶通道依然为目标峰顶通道。去掉距离较近的相邻两个峰顶通道中值较小的峰顶通道,可以使得后续得到的M个二值化阈值分布均匀。
可选地,在一些实施例中,基于所述X个峰顶通道确定M+1个目标峰顶通道,还包括:
若所述第m个峰顶通道的值、所述第m-1个峰顶通道的值以及所述第m个峰顶通道和所述第m-1个峰顶通道之间的所有通道的值的总和与所述N个通道的值的总和的比值大于预设比例,则确定所述第m个峰顶通道为目标峰顶通道。
举例说明,如图5所示,若共有8个通道,第1个通道至第8个通道的值分别为20、50、20、20、50、20、500、20,确定第2个通道、第5个通道和第7个通道为峰顶通道,其中,第5个峰顶通道的值、第2个峰顶通道的值以及第3个通道的值和第4个通道的值的总和为140,8个通道的值总和为700,确定第5个峰顶通道的值、第2个峰顶通道的值、第3个通道的值和第4个通道的值的总和与8个通道的值的比值为0.2,若预设比例为0.3,则两者的比值小于预设比例,确定第5个峰顶通道不为目标峰顶通道,而第7个峰顶通道的值、第5个峰顶通道的值和第6个通道的值的总和为570,确定第7个峰顶通道的值、第5个峰顶通道的值和第6个通道的值的总和与8个通道的值的比值约为0.81,则两者的比值大于预设比例,确定第7个峰顶通道为目标峰顶通道。去掉峰值较小的峰顶通道,即去掉对检测结果影响不大的峰顶通道。
可选地,在另一些实施例中,所述方法还包括:
若M+1大于4,则按照预设规则增大所述目标峰顶阈值,得到调整后的峰顶阈值;
基于所述N个通道的值和所述调整后的峰顶阈值,确定调整后的峰顶通道;
基于所述调整后的峰顶通道,确定所述目标峰顶通道。
在一些实施例中,若M+1大于4,则按照预设规则增大目标峰顶阈值,得到调整后的峰顶阈值,基于所述N个通道的值和所述调整后的峰顶阈值,确定调整后的峰顶通道,具体过程如下:若第r个峰顶通道的值与第r-1个峰顶通道的值的差值大于调整后的峰顶阈值,且第r个峰顶通道的值与第r+1个峰顶通道的值的差值大于调整后的峰顶阈值,确定第r个峰顶通道为调整后的峰顶通道,其中,r为大于1且小于或等于M+1的整数;若第一个峰顶通道的值与第二个峰顶通道的值的差值大于调整后的峰顶阈值,确定第一个峰顶通道为调整后的峰顶通道;若最后一个峰顶通道的值与前一个峰顶通道的值的差值大于调整后的峰顶通道,确定最后峰顶通道为调整后的峰顶阈值;
重复执行上述步骤,直至调整后的峰顶通道的通道数小于或等于4,将调整后的峰顶通道确定为目标峰顶通道。起到减少计算量的作用,峰顶通道越多,需要计算的次数越多。
可选地,在一些实施例中,M=3,相对于M=2的优势为提升文本检测的准确性,相对于M=4、5....等的优势为减少计算量,二值化阈值越多,需要计算的次数越多。
S120,基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像。
S130,对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像。
可理解的是,二值化图像是只有黑白两种颜色表示的图像,即二值化图像是黑白图像。
在一些实施例中,基于M个二值化阈值对待检测图像进行处理,得到M张二值化图像,对M张二值化图像进行处理,得到M组文本区域,如采用MSER算法和SWT算法对M张二值化图像进行处理,检测到M组文本区域,每组文本区域对应一张二值化阈值。
S140,基于所述M组文本区域,确定所述待检测图像的目标文本区域。
在S140中,对M组文本区域进行过滤、连通、合并等操作,得到目标区域,具体地,每组文本区域包括至少一个文本子区域,若M组文本区域中两个文本子区域的距离小于预设距离,确定同一个文本子区域,反之,确定为不同文本子区域。
在本发明实施例中,通过对待检测图像的灰度直方图进行处理,确定M个二值化阈值,其中,M为大于或等于2的整数,基于M个二值化阈值对待检测图像进行处理,得到M个张二值化图像,并在通过M张二值化图像得到M组文本区域后,基于M组文本区域确定出待检测图像的目标文本区域,由于M组文本区域之间存在相互补偿,可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率,减少文本区域被漏检的概率,提升文本区域检测的准确性。
下面将结合图6至图8描述一下本申请实施例的文本检测方法的效果。如图6所示,原生电子图像为广告,广告上的文字,因背景比较复杂,导致难以检测。如图7所示,基于四个峰顶,确定三个低点,基于三个低点,确定三个较优的二值阈值。如图8所示,基于三个二值化阈值对原生电子图像的灰度图像进行处理,得到三张二值化图像,对三张二值图像处理,能够检测出文本区域并识别出文字内容。
或者,如图9所示,原生电子图像为应用程序界面,应用程序界面上的文字,因背景比较复杂,导致难以检测。如图10所示,基于四个峰顶,确定三个低点,基于三个低点,确定三个较优的二值阈值。如图11至图13所示,基于三个二值化阈值对原生电子图像的灰度图像进行处理,得到三张二值化图像,对三张二值图像处理,能够检测出文本区域并识别出文字内容。
图14是本发明的一个实施例的检测原生电子图像中的文本的装置的结构示意图,如图14所示,装置140包括:
第一确定模块141,用于基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数;
第一处理模块142,用于基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像;
第二处理模块143,用于对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化阈值;
第二确定模块144,用于基于所述M组文本区域,确定所述待检测图像的目标文本区域。
在本发明实施例中,通过对待检测图像的灰度直方图进行处理,确定M个二值化阈值,其中,M为大于或等于2的整数,基于M个二值化阈值对待检测图像进行处理,得到M个张二值化图像,并在通过M张二值化图像得到M组文本区域后,基于M组文本区域确定出待检测图像的目标文本区域,由于M组文本区域之间存在相互补偿,可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率,减少文本区域被漏检的概率,提升文本区域检测的准确性。
可选地,作为一个实施例,所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值。
可选地,作为一个实施例,所述第一确定模块141,具体用于:
第一确定子模块,用于基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,所述目标峰顶通道为N个通道中值大于相邻通道的值的通道,N为大于或等于5的整数;
第二确定子模块,用于基于所述M+1个目标峰顶通道,确定所述M个二值化阈值。
可选地,作为一个实施例,所述第二确定子模块,具体用于:
确定相邻两个目标峰顶通道之间的最低通道和中间通道,其中,所述最低通道为所述相邻两个目标峰顶通道之间值最小的通道,所述中间通道与所述相邻两个目标峰顶通道的一个目标峰顶通道之间的通道数量为第一数量,所述中间通道与所述相邻两个目标峰顶通道的另一个目标峰顶通道之间的通道数量为第二数量,所述第一数量与所述第二数量相等;
若所述最低通道的值与所述中间通道的值的差值在预设范围内,则确定所述中间通道的通道数与所述中间通道的灰度值个数的积为二值化阈值。
可选地,作为一个实施例,所述第一确定子模块,包括:
第三确定子模块,用于基于所述N个通道的值和目标峰顶阈值,确定X个峰顶通道,其中,所述M+1≤X<N;
第四确定子模块,用于基于所述X个峰顶通道确定M+1个目标峰顶通道。
可选地,作为一个实施例,所述第三确定子模块,具体用于:
若第n个通道的值与第n-1个通道的值的差值大于所述目标峰顶阈值,且所述第n个通道的值与第n+1个通道的值的差值大于所述目标峰顶阈值,则确定所述第n个通道为峰顶通道,其中,n为大于1且小于N的整数;或,
若第一个通道的值与第二个通道的值的差值大于所述目标峰顶阈值,则确定所述第一个通道为峰顶通道;或,
若最后一个通道的值与前一个通道的值的差值大于所述目标峰顶阈值,则确定所述最后一个通道为峰顶通道。
可选地,作为一个实施例,所述第四确定子模块,用于:
若第m个峰顶通道与第m-1个峰顶通道之间的距离小于总通道数与预设数值的比值,且所述第m个峰顶通道的值大于所述第m-1个峰顶通道的值,则确定所述第m个峰顶通道为目标峰顶通道,其中,m为大于1且小于X的整数。
可选地,作为一个实施例,所述第四确定子模块,还用于:
若所述第m个峰顶通道的值、所述第m-1个峰顶通道的值以及所述第m个峰顶通道和所述第m-1个峰顶通道之间的所有通道的值的总和与所述N个通道的值的总和的比值大于预设比例,则确定所述第m个峰顶通道为目标峰顶通道。
可选地,作为一个实施例,所述装置140还包括:
若M+1大于4,则按照预设规则增大所述目标峰顶阈值,得到调整后的峰顶阈值;
基于所述N个通道的值和所述调整后的峰顶阈值,确定调整后的峰顶通道;
基于所述调整后的峰顶通道,确定所述目标峰顶通道。
本发明实施例提供的装置能够实现图1至图5的方法实现的各个过程,为避免重复,这里不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (7)

1.一种检测原生电子图像中的文本的方法,其特征在于,所述方法包括:
基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数;
基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像;
对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像;
基于所述M组文本区域,确定所述待检测图像的目标文本区域;
所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值;
所述基于待检测图像的灰度直方图,确定M个二值化阈值,包括:
基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,所述目标峰顶通道为N个通道中值大于相邻通道的值的通道,N为大于或等于5的整数;
基于所述M+1个目标峰顶通道,确定所述M个二值化阈值;
所述基于所述M+1个目标峰顶通道,确定所述M个二值化阈值,包括:
确定相邻两个目标峰顶通道之间的最低通道和中间通道,其中,所述最低通道为所述相邻两个目标峰顶通道之间值最小的通道,所述中间通道与所述相邻两个目标峰顶通道的一个目标峰顶通道之间的通道数量为第一数量,所述中间通道与所述相邻两个目标峰顶通道的另一个目标峰顶通道之间的通道数量为第二数量,所述第一数量与所述第二数量相等;
若所述最低通道的值与所述中间通道的值的差值在预设范围内,则确定所述中间通道的标识与所述中间通道的灰度值个数的积为二值化阈值。
2.如权利要求1所述的方法,其特征在于,所述基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,包括:
基于所述N个通道的值和目标峰顶阈值,确定X个峰顶通道,其中,M+1≤X<N;
基于所述X个峰顶通道确定M+1个目标峰顶通道。
3.如权利要求2所述的方法,其特征在于,所述基于所述N个通道的值和目标峰顶阈值,确定X个峰顶通道,包括:
若第n个通道的值与第n-1个通道的值的差值大于所述目标峰顶阈值,且所述第n个通道的值与第n+1个通道的值的差值大于所述目标峰顶阈值,则确定所述第n个通道为峰顶通道,其中,n为大于1且小于N的整数;或,
若第一个通道的值与第二个通道的值的差值大于所述目标峰顶阈值,则确定所述第一个通道为峰顶通道;或,
若最后一个通道的值与前一个通道的值的差值大于所述目标峰顶阈值,则确定所述最后一个通道为峰顶通道。
4.如权利要求2所述的方法,其特征在于,所述基于所述X个峰顶通道确定M+1个目标峰顶通道,包括:
若第m个峰顶通道与第m-1个峰顶通道之间的距离小于总通道数与预设数值的比值,且所述第m个峰顶通道的值大于所述第m-1个峰顶通道的值,则确定所述第m个峰顶通道为目标峰顶通道,其中,m为大于1且小于X的整数。
5.如权利要求4所述的方法,其特征在于,所述基于所述X个峰顶通道确定M+1个目标峰顶通道,还包括:
若所述第m个峰顶通道的值、所述第m-1个峰顶通道的值以及所述第m个峰顶通道和所述第m-1个峰顶通道之间的所有通道的值的总和与所述N个通道的值的总和的比值大于预设比例,则确定所述第m个峰顶通道为目标峰顶通道。
6.如权利要求5所述的方法,其特征在于,所述方法还包括:
若M+1大于4,则按照预设规则增大所述目标峰顶阈值,得到调整后的峰顶阈值;
基于所述N个通道的值和所述调整后的峰顶阈值,确定调整后的峰顶通道;
基于所述调整后的峰顶通道,确定所述目标峰顶通道。
7.一种检测原生电子图像中的文本的装置,其特征在于,包括:
第一确定模块,用于基于待检测图像的灰度直方图,确定M个二值化阈值,M为大于或等于2的整数;
第一处理模块,用于基于所述M个二值化阈值对所述待检测图像进行处理,得到M张二值化图像;
第二处理模块,用于对所述M张二值化图像进行处理,得到M组文本区域,每组文本区域对应一张二值化图像;
第二确定模块,用于基于所述M组文本区域,确定所述待检测图像的目标文本区域;
所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值;
所述第一确定模块,具体包括:
第一确定子模块,用于基于所述灰度直方图的N个通道的值,确定所述N个通道中的M+1个目标峰顶通道,所述目标峰顶通道为N个通道中值大于相邻通道的值的通道,N为大于或等于5的整数;
第二确定子模块,用于基于所述M+1个目标峰顶通道,确定所述M个二值化阈值;
所述第二确定子模块,具体用于:
确定相邻两个目标峰顶通道之间的最低通道和中间通道,其中,所述最低通道为所述相邻两个目标峰顶通道之间值最小的通道,所述中间通道与所述相邻两个目标峰顶通道的一个目标峰顶通道之间的通道数量为第一数量,所述中间通道与所述相邻两个目标峰顶通道的另一个目标峰顶通道之间的通道数量为第二数量,所述第一数量与所述第二数量相等;
若所述最低通道的值与所述中间通道的值的差值在预设范围内,则确定所述中间通道的标识与所述中间通道的灰度值个数的积为二值化阈值。
CN201910510512.5A 2019-06-13 2019-06-13 检测原生电子图像中的文本的方法和装置 Active CN110288626B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910510512.5A CN110288626B (zh) 2019-06-13 2019-06-13 检测原生电子图像中的文本的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910510512.5A CN110288626B (zh) 2019-06-13 2019-06-13 检测原生电子图像中的文本的方法和装置

Publications (2)

Publication Number Publication Date
CN110288626A CN110288626A (zh) 2019-09-27
CN110288626B true CN110288626B (zh) 2021-05-25

Family

ID=68004809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910510512.5A Active CN110288626B (zh) 2019-06-13 2019-06-13 检测原生电子图像中的文本的方法和装置

Country Status (1)

Country Link
CN (1) CN110288626B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1694119A (zh) * 2005-06-28 2005-11-09 北大方正集团有限公司 一种图像二值化的方法
CN101021905A (zh) * 2006-02-15 2007-08-22 中国科学院自动化研究所 一种文档图像二值化方法
CN104036272A (zh) * 2014-06-24 2014-09-10 联想(北京)有限公司 一种文本检测方法及电子设备
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
CN108647351A (zh) * 2018-05-16 2018-10-12 Oppo广东移动通信有限公司 文本图像的处理方法、装置、存储介质及终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6735337B2 (en) * 2001-02-02 2004-05-11 Shih-Jong J. Lee Robust method for automatic reading of skewed, rotated or partially obscured characters
US10467465B2 (en) * 2015-07-20 2019-11-05 Kofax, Inc. Range and/or polarity-based thresholding for improved data extraction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1694119A (zh) * 2005-06-28 2005-11-09 北大方正集团有限公司 一种图像二值化的方法
CN101021905A (zh) * 2006-02-15 2007-08-22 中国科学院自动化研究所 一种文档图像二值化方法
CN104036272A (zh) * 2014-06-24 2014-09-10 联想(北京)有限公司 一种文本检测方法及电子设备
CN104298976A (zh) * 2014-10-16 2015-01-21 电子科技大学 基于卷积神经网络的车牌检测方法
CN108647351A (zh) * 2018-05-16 2018-10-12 Oppo广东移动通信有限公司 文本图像的处理方法、装置、存储介质及终端

Also Published As

Publication number Publication date
CN110288626A (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
EP1910994B1 (en) Binarization of an image
EP2605186B1 (en) Method and apparatus for recognizing a character based on a photographed image
EP3309703A1 (en) Method and system for decoding qr code based on weighted average grey method
CN108108734B (zh) 一种车牌识别方法及装置
CN104298982A (zh) 一种文字识别方法及装置
EP2014082A1 (en) Generating a bitonal image from a scanned colour image
CN109903294B (zh) 图像处理方法、装置、电子设备及可读存储介质
KR101778605B1 (ko) 차량 번호판 인식 방법 및 장치
US8538191B2 (en) Image correction apparatus and method for eliminating lighting component
JP2018120445A (ja) 車番認識装置
CN110210467B (zh) 一种文本图像的公式定位方法、图像处理装置、存储介质
Fernández-Caballero et al. Display text segmentation after learning best-fitted OCR binarization parameters
CN110288626B (zh) 检测原生电子图像中的文本的方法和装置
CN115410191B (zh) 文本图像识别方法、装置、设备和存储介质
CN114519788A (zh) 图像处理方法、装置、电子设备及计算机可读存储介质
CN114267035A (zh) 一种文档图像处理方法、系统、电子设备及可读介质
KR102361444B1 (ko) 다각형 기반의 객체 인식 성능 보정 장치 및 방법
CN114330408A (zh) 一种图像增强方法以及图像增强装置
JP5125961B2 (ja) 二値化処理装置、情報処理装置、二値化処理方法および二値化処理プログラム
CN114239635B (zh) 一种针对doi图像涂鸦的处理方法、装置及设备
KR100537827B1 (ko) 경계선 분포를 이용한 스캔 영상의 상역 분리 방법
CN109101960A (zh) 身份文本信息检测方法及装置
Lan et al. Recognition of Vehicle License Plate Based on Hopfield Artificial Neural Network.
KR100537829B1 (ko) 스캔 영상의 상역 분리 방법
CN108596874B (zh) 图像清晰判定方法、装置,以及计算机设备、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant