CN110288626B

CN110288626B - 检测原生电子图像中的文本的方法和装置

Info

Publication number: CN110288626B
Application number: CN201910510512.5A
Authority: CN
Inventors: 蒋晓海; 谢春鸿
Original assignee: Beijing Testin Information Technology Co Ltd
Current assignee: Beijing Testin Information Technology Co Ltd
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2021-05-25
Anticipated expiration: 2039-06-13
Also published as: CN110288626A

Abstract

本发明公开了一种检测原生电子图像中的文本的方法和装置，该方法包括：基于待检测图像的灰度直方图，确定M个二值化阈值；基于M个二值化阈值对待检测图像进行处理，得到M张二值化图像；对M张二值化图像进行处理，得到M组文本区域，每组文本区域对应一张二值化图像。本发明实施例的方法，对待检测图像分别应用多个二值化阈值进行处理，得到多张二值化图像，并在通过多张二值化图像得到多组文本区域后，基于多组文本区域确定出待检测图像的目标文本区域，由于多组文本区域之间存在相互补偿，可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率，减少文本区域被漏检的概率，提升文本区域检测的准确性。

Description

检测原生电子图像中的文本的方法和装置

技术领域

本发明涉及图像处理技术领域，尤其涉及一种检测原生电子图像中的文本的方法和装置。

背景技术

原生电子图片是经过电脑处理或合成的，非直接由摄像机拍摄生成的图片，如广告图片、电子邮件或网页上的图片等，通常情况下，这些图片上的文本是公正的印刷体，但是文本是在叠加在复杂的背景上。为了将文本与复杂的背景区分，目前的主流方法是选取一个合适的阈值，用于阈值对图片进行处理，得到黑白图片，再通过MSER(MaximallyStable Extremal Regions，最大极值稳定区域)和SWT(Stroke Width Transform，笔画宽度变换)算法对黑白图片进行处理，确定文本区域。但是在背景颜色与文本区域颜色相近的情况下，现有文本检测的方法对文本区域的检测不够准确。

发明内容

本发明实施例提供一种文本检测方法和装置，以解决在背景颜色与文本区域颜色相近的情况下，文本区域检测不够准确的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，提供了一种检测原生电子图像中的文本的方法，该方法包括：

基于待检测图像的灰度直方图，确定M个二值化阈值，M为大于或等于2的整数；

基于所述M个二值化阈值对所述待检测图像进行处理，得到M张二值化图像；

对所述M张二值化图像进行处理，得到M组文本区域，每组文本区域对应一张二值化图像；

基于所述M组文本区域，确定所述待检测图像的目标文本区域。

第二方面，提供了一种检测原生电子图像中的文本的装置，该装置包括：

第一确定模块，用于基于待检测图像的灰度直方图，确定M个二值化阈值，M为大于或等于2的整数；

第一处理模块，用于基于所述M个二值化阈值对所述待检测图像进行处理，得到M张二值化图像；

第二处理模块，用于对所述M张二值化图像进行处理，得到M组文本区域，每组文本区域对应一张二值化图像；

第二确定模块，用于基于所述M组文本区域，确定所述待检测图像的目标文本区域。

在本发明实施例中，通过对待检测图像的灰度直方图进行处理，确定M个二值化阈值，其中，M为大于或等于2的整数，基于M个二值化阈值对待检测图像进行处理，得到M个张二值化图像，并在通过M张二值化图像得到M组文本区域后，基于M组文本区域确定出待检测图像的目标文本区域，由于M组文本区域之间存在相互补偿，可以降低由于背景颜色与文本区域颜色相近导致背景与文本区域产生融合的概率，减少文本区域被漏检的概率，提升文本区域检测的准确性。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明的一个实施例的检测原生电子图像中的文本的方法的流程示意图；

图2是本发明的一个实施例的基于目标峰顶通道确定二值化阈值的方法的示意图；

图3是本发明的一个实施例的基于目标峰顶通道确定二值化阈值的方法的示意图；

图4是本发明的另一个实施例的基于峰顶通道确定目标峰顶通道的方法的示意图；

图5是本发明的再一个实施例的基于峰顶通道确定目标峰顶通道的方法的示意图；

图6是本发明的一个实施例的确定原生电子图像的方法的示意图；

图7是本发明的一个实施例的确定二值化阈值的方法的示意图；

图8是本发明的一个实施例的确定三张二值化图像的方法的示意图；

图9是本发明的另一个实施例的确定原生电子图像的方法的示意图；

图10是本发明的另一个实施例的确定二值化阈值的方法的示意图；

图11是本发明的另一个实施例的确定第一张二值化图像的方法的示意图；

图12是本发明的另一个实施例的确定第二张二值化图像的方法的示意图；

图13是本发明的另一个实施例的确定第三张二值化图像的方法的示意图；

图14是本发明的一个实施例的检测原生电子图像中的文本的装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明的一个实施例的检测原生电子图像中的文本的方法的流程示意图，图1所示的方法可以由检测原生电子图像中的文本的装置执行，如图1所示的方法包括：

S110，基于待检测图像的灰度直方图，确定M个二值化阈值，M为大于或等于2的整数。

应理解，二值化阈值是用于将灰度图像的像素点分为两部分，一部分是灰度值大于二值化阈值的像素点显示为白色，另一部分灰度值小于二值化阈值的像素点显示为黑色，基于二值化阈值对灰色图像进行处理，可以使得灰度图像转换为黑白图像。

在S110中，获取并对待检测图像的灰度直方图进行处理，确定M个二值化阈值，其中，所述待检测图像为灰度图像，所述灰度图像是由原生电子图像转换得到的。

比如，灰度图像的像素点的灰度值为0-255，基于灰度图像的灰度直方图，确定三个二值化阈值为145、180和200。

可选地，在一些实施例中，所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值。

若M个二值化阈值的值相近，得到M张差异较小的二值化图像，使得后续得到的文本区域相同或相近，导致文本区域检测的准确性较低。反之，若M个二值化阈值分布均匀，得到M张差异较大的二值化图像，使得后续得到的M组文本区域不同，M组不同的文本区域互相补偿，减少文本区域被漏检的概率，提升文本区域检测的准确性。

比如，文本区域的灰度值为80-135，背景的灰度值为150-160，若三个二值化阈值分别为90、100、110，则基于三个二值化阈值分别对灰度图像进行处理，得到三张差异较小的二值化图像，第一张二值化图像中的灰度值为90-135的文本区域与背景显示相同颜色，即第一张二值化图像把灰度值为90-135的文本区域错识成背景，第二张二值化图像把灰度值为100-135的文本区域错识成背景，第三张二值化图像把灰度值为110-135的文本区域错识成背景。基于三张二值化图像，把灰度值为110-135的文本区域错识成背景，进而遗漏灰度值为110-135的文本区域。

若三个二值化阈值为90、110、130，则基于三个二值化阈值对灰度图像进行处理，得到三张差异较大的二值化图像。第一张二值化图像把灰度值为90-135的文本区域错识成背景，第二张二值化图像把灰度值为110-135的文本区域错识成背景，第三张二值化图像把灰度值为130-135的文本区域错识成背景，基于三张二值化图像，把灰度值为130-135的文本区域错识成背景，相对于三张差异较小的二值化图像，减少文本区域被漏检的概率，提升文本区域检测的准确性。

具体地，S110可包括：

基于所述灰度直方图的N个通道的值，确定所述N个通道中的M+1个目标峰顶通道，所述目标峰顶通道为N个通道中值大于相邻通道的值的通道，N为大于或等于5的整数；

基于所述M+1个目标峰顶通道，确定所述M个二值化阈值。

应理解，N个通道的值表示N个通道中每个通道对应的像素点个数的总和。

举例说明，灰度图像的像素点的灰度值为0-255，将灰度图像的灰度直方图划分为8个通道，即每个通道包含32个灰度值。其中，第1个通道的值为灰度值为0-31的所有像素点个数的总和，第2个通道的值为灰度值为32-64的所有像素点的个数的总和，以此类推，直至第8个通道的值为灰度值为223-255的所有像素点的个数的总和。如图2所示，横坐标表示通道的标识，纵坐标表示通道的值，第1个通道的值至第8个通道的值分别为100、200、50、60、20、70、100、60，基于目标峰顶通道是8个通道中值大于相邻通道的值的通道，确定第2个通道、第4个通道和第7个通道为目标峰顶通道。基于3个目标峰顶通道，确定两个二值化阈值。

或者，灰度图像的像素点的灰度值为0-255，将灰度直方图划分为64个通道，即每个通道包含4个灰度值。其中，第1个通道的值为灰度值为0-3的所有像素点个数的总和，第2个通道的值为灰度值为4-7的所有像素点的个数的总和，以此类推，直至第64个通道的值为灰度值为252-255的所有像素点的个数的总和。基于64个通道的值，确定10个目标峰顶通道，如64个通道的值分别为20、50、20.....100、120、50，确定50、.......120对应的通道为目标峰顶通道，基于10个目标峰顶通道，确定9个二值化阈值。

可选地，所述基于所述M+1个目标峰顶通道，确定所述M个二值化阈值，包括：

确定相邻两个目标峰顶通道之间的最低通道和中间通道，其中，所述最低通道为所述相邻两个目标峰顶通道之间值最小的通道，所述中间通道与所述相邻两个目标峰顶通道的一个目标峰顶通道之间的通道数量为第一数量，所述中间通道与所述相邻两个目标峰顶通道的另一个目标峰顶通道之间的通道数量为第二数量，所述第一数量与所述第二数量相等；

若所述最低通道的值与所述中间通道的值的差值在预设范围内，则确定所述中间通道的值为二值化阈值。

举例说明，灰度图像的像素点的灰度值为0-255，将灰度直方图划分为64个通道，即每个通道包含4个灰度值。如图3所示，第1个通道至第10个通道的值为20、20、50、100、20、30、40、100、50、20，确定第4个通道和第8个通道为峰顶通道，若确定第4个峰顶通道、第8个峰顶通道为目标峰顶通道，确定第5个通道为最低通道以及第6个通道为中间通道，为了使相邻两个二值化阈值的值相差较大，将第5个通道的值与第6个通道的值进行对比，若第5个通道与第6个通道的值的差值在预设范围内，则确定第6个通道的标识与该通道的灰度值个数的积为二值化阈值。具体地，二值化阈值为6*256/64＝24，其中，6表示第6个通道的标识，256表示灰度图像的所有灰度值，64表示灰度图像的灰度直方图包含的64个通道，即256/64表示第6个通道的灰度值个数。

可选地，在一些实施例中，基于所述灰度直方图的N个通道的值，确定所述N个通道中的M+1个目标峰顶通道，包括：

基于所述N个通道的值和目标峰顶阈值，确定X个峰顶通道，其中，M+1≤X＜N；

基于所述X个峰顶通道确定M+1个目标峰顶通道。

可理解的是，上述目标峰顶阈值是根据实际情况需求设置的，用于去掉值较低的峰顶通道，过滤掉对检测结果影响不大的峰顶通道，基于减少峰顶通道的数量，提高工作效率。

具体地，所述基于所述N个通道的值和目标峰顶阈值，确定X个峰顶通道，可包括：

若第n个通道的值与第n-1个通道的值的差值大于所述目标峰顶阈值，且所述第n个通道的值与第n+1个通道的值的差值大于所述目标峰顶阈值，则确定所述第n个通道为峰顶通道，其中，n为大于1且小于N的整数；或，

若第一个通道的值与第二个通道的值的差值大于所述目标峰顶阈值，则确定所述第一个通道为峰顶通道；或，

若最后一个通道的值与前一个通道的值的差值大于所述目标峰顶阈值，则确定所述最后一个通道为峰顶通道。

比如，确定64个通道以及64个通道的值，64个通道的值如100、80、50、70、90、50.......90、100，若目标峰顶阈值为12，第1个通道的值为100大于第2个通道的值为80，且两者的差值大于目标峰顶阈值，确定第1个通道为峰顶通道，第2个通道的值和3个通道的值均小于前一个通道的值，确定不为峰顶通道，第4个通道的值小于后一个通道的值，确定不为峰顶通道，直至第5个通道的值为90大于第4个通道的值为70，且两者的差值大于目标峰顶阈值，第5个通道的值为90大于第6个通道的值为50，且两者的差值大于目标峰顶阈值，确定第5个通道为峰顶通道，以此类推，直至最后一个通道的值为100大于前一个通道的值为90，但两者的差值小于目标峰顶阈值，确定最后一个通道不为峰顶通道，进而达到确定峰顶通道的目的。

可选地，在一些实施例中，所述基于所述X个峰顶通道确定M+1个目标峰顶通道，包括：

若第m个峰顶通道与第m-1个峰顶通道之间的距离小于总通道数与预设数值的比值，且所述第m个峰顶通道的值大于所述第m-1个峰顶通道的值，则确定所述第m个峰顶通道为目标峰顶通道，其中，m为大于1且小于X的整数。

可理解的是，通道之间的距离指的是通道标识的差值。

如图4所示，确定第2个通道、第6个通道和第13个通道为峰顶通道，

第2个峰顶通道与第6个峰顶通道之间的距离为4，即第6个峰顶通道与第13个峰顶通道之间的距离为7，若灰度直方图总共有63个通道，预设数值为9，其中，预设数值是根据实际情况确定的最优值，则总通道数与预设数值的比值为7，基于第6个峰顶通道与第2个峰顶通道之间的距离小于总通道数与预设数值的比值为7，且第6个峰顶通道的值大于第2个峰顶通道的值，确定第6个峰顶通道为目标峰顶通道，而第13个峰顶通道与第6个峰顶通道之间的距离等于总通道数与预设数值的比值为7，确定第13个峰顶通道为目标峰顶通道，同时，第6个峰顶通道依然为目标峰顶通道。去掉距离较近的相邻两个峰顶通道中值较小的峰顶通道，可以使得后续得到的M个二值化阈值分布均匀。

可选地，在一些实施例中，基于所述X个峰顶通道确定M+1个目标峰顶通道，还包括：

若所述第m个峰顶通道的值、所述第m-1个峰顶通道的值以及所述第m个峰顶通道和所述第m-1个峰顶通道之间的所有通道的值的总和与所述N个通道的值的总和的比值大于预设比例，则确定所述第m个峰顶通道为目标峰顶通道。

举例说明，如图5所示，若共有8个通道，第1个通道至第8个通道的值分别为20、50、20、20、50、20、500、20，确定第2个通道、第5个通道和第7个通道为峰顶通道，其中，第5个峰顶通道的值、第2个峰顶通道的值以及第3个通道的值和第4个通道的值的总和为140，8个通道的值总和为700，确定第5个峰顶通道的值、第2个峰顶通道的值、第3个通道的值和第4个通道的值的总和与8个通道的值的比值为0.2，若预设比例为0.3，则两者的比值小于预设比例，确定第5个峰顶通道不为目标峰顶通道，而第7个峰顶通道的值、第5个峰顶通道的值和第6个通道的值的总和为570，确定第7个峰顶通道的值、第5个峰顶通道的值和第6个通道的值的总和与8个通道的值的比值约为0.81，则两者的比值大于预设比例，确定第7个峰顶通道为目标峰顶通道。去掉峰值较小的峰顶通道，即去掉对检测结果影响不大的峰顶通道。

可选地，在另一些实施例中，所述方法还包括：

若M+1大于4，则按照预设规则增大所述目标峰顶阈值，得到调整后的峰顶阈值；

基于所述N个通道的值和所述调整后的峰顶阈值，确定调整后的峰顶通道；

基于所述调整后的峰顶通道，确定所述目标峰顶通道。

在一些实施例中，若M+1大于4，则按照预设规则增大目标峰顶阈值，得到调整后的峰顶阈值，基于所述N个通道的值和所述调整后的峰顶阈值，确定调整后的峰顶通道，具体过程如下：若第r个峰顶通道的值与第r-1个峰顶通道的值的差值大于调整后的峰顶阈值，且第r个峰顶通道的值与第r+1个峰顶通道的值的差值大于调整后的峰顶阈值，确定第r个峰顶通道为调整后的峰顶通道，其中，r为大于1且小于或等于M+1的整数；若第一个峰顶通道的值与第二个峰顶通道的值的差值大于调整后的峰顶阈值，确定第一个峰顶通道为调整后的峰顶通道；若最后一个峰顶通道的值与前一个峰顶通道的值的差值大于调整后的峰顶通道，确定最后峰顶通道为调整后的峰顶阈值；

重复执行上述步骤，直至调整后的峰顶通道的通道数小于或等于4，将调整后的峰顶通道确定为目标峰顶通道。起到减少计算量的作用，峰顶通道越多，需要计算的次数越多。

可选地，在一些实施例中，M＝3，相对于M＝2的优势为提升文本检测的准确性，相对于M＝4、5....等的优势为减少计算量，二值化阈值越多，需要计算的次数越多。

S120，基于所述M个二值化阈值对所述待检测图像进行处理，得到M张二值化图像。

S130，对所述M张二值化图像进行处理，得到M组文本区域，每组文本区域对应一张二值化图像。

可理解的是，二值化图像是只有黑白两种颜色表示的图像，即二值化图像是黑白图像。

在一些实施例中，基于M个二值化阈值对待检测图像进行处理，得到M张二值化图像，对M张二值化图像进行处理，得到M组文本区域，如采用MSER算法和SWT算法对M张二值化图像进行处理，检测到M组文本区域，每组文本区域对应一张二值化阈值。

S140，基于所述M组文本区域，确定所述待检测图像的目标文本区域。

在S140中，对M组文本区域进行过滤、连通、合并等操作，得到目标区域，具体地，每组文本区域包括至少一个文本子区域，若M组文本区域中两个文本子区域的距离小于预设距离，确定同一个文本子区域，反之，确定为不同文本子区域。

下面将结合图6至图8描述一下本申请实施例的文本检测方法的效果。如图6所示，原生电子图像为广告，广告上的文字，因背景比较复杂，导致难以检测。如图7所示，基于四个峰顶，确定三个低点，基于三个低点，确定三个较优的二值阈值。如图8所示，基于三个二值化阈值对原生电子图像的灰度图像进行处理，得到三张二值化图像，对三张二值图像处理，能够检测出文本区域并识别出文字内容。

或者，如图9所示，原生电子图像为应用程序界面，应用程序界面上的文字，因背景比较复杂，导致难以检测。如图10所示，基于四个峰顶，确定三个低点，基于三个低点，确定三个较优的二值阈值。如图11至图13所示，基于三个二值化阈值对原生电子图像的灰度图像进行处理，得到三张二值化图像，对三张二值图像处理，能够检测出文本区域并识别出文字内容。

图14是本发明的一个实施例的检测原生电子图像中的文本的装置的结构示意图，如图14所示，装置140包括：

第一确定模块141，用于基于待检测图像的灰度直方图，确定M个二值化阈值，M为大于或等于2的整数；

第一处理模块142，用于基于所述M个二值化阈值对所述待检测图像进行处理，得到M张二值化图像；

第二处理模块143，用于对所述M张二值化图像进行处理，得到M组文本区域，每组文本区域对应一张二值化阈值；

第二确定模块144，用于基于所述M组文本区域，确定所述待检测图像的目标文本区域。

可选地，作为一个实施例，所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值。

可选地，作为一个实施例，所述第一确定模块141，具体用于：

第一确定子模块，用于基于所述灰度直方图的N个通道的值，确定所述N个通道中的M+1个目标峰顶通道，所述目标峰顶通道为N个通道中值大于相邻通道的值的通道，N为大于或等于5的整数；

第二确定子模块，用于基于所述M+1个目标峰顶通道，确定所述M个二值化阈值。

可选地，作为一个实施例，所述第二确定子模块，具体用于：

若所述最低通道的值与所述中间通道的值的差值在预设范围内，则确定所述中间通道的通道数与所述中间通道的灰度值个数的积为二值化阈值。

可选地，作为一个实施例，所述第一确定子模块，包括：

第三确定子模块，用于基于所述N个通道的值和目标峰顶阈值，确定X个峰顶通道，其中，所述M+1≤X＜N；

第四确定子模块，用于基于所述X个峰顶通道确定M+1个目标峰顶通道。

可选地，作为一个实施例，所述第三确定子模块，具体用于：

可选地，作为一个实施例，所述第四确定子模块，用于：

可选地，作为一个实施例，所述第四确定子模块，还用于：

可选地，作为一个实施例，所述装置140还包括：

基于所述调整后的峰顶通道，确定所述目标峰顶通道。

本发明实施例提供的装置能够实现图1至图5的方法实现的各个过程，为避免重复，这里不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种检测原生电子图像中的文本的方法，其特征在于，所述方法包括：

基于所述M组文本区域，确定所述待检测图像的目标文本区域；

所述M个二值化阈值中的相邻两个二值化阈值的绝对差值大于或等于预设值；

所述基于待检测图像的灰度直方图，确定M个二值化阈值，包括：

基于所述M+1个目标峰顶通道，确定所述M个二值化阈值；

所述基于所述M+1个目标峰顶通道，确定所述M个二值化阈值，包括：

若所述最低通道的值与所述中间通道的值的差值在预设范围内，则确定所述中间通道的标识与所述中间通道的灰度值个数的积为二值化阈值。

2.如权利要求1所述的方法，其特征在于，所述基于所述灰度直方图的N个通道的值，确定所述N个通道中的M+1个目标峰顶通道，包括：

基于所述X个峰顶通道确定M+1个目标峰顶通道。

3.如权利要求2所述的方法，其特征在于，所述基于所述N个通道的值和目标峰顶阈值，确定X个峰顶通道，包括：

4.如权利要求2所述的方法，其特征在于，所述基于所述X个峰顶通道确定M+1个目标峰顶通道，包括：

5.如权利要求4所述的方法，其特征在于，所述基于所述X个峰顶通道确定M+1个目标峰顶通道，还包括：

6.如权利要求5所述的方法，其特征在于，所述方法还包括：

基于所述调整后的峰顶通道，确定所述目标峰顶通道。

7.一种检测原生电子图像中的文本的装置，其特征在于，包括：

第二确定模块，用于基于所述M组文本区域，确定所述待检测图像的目标文本区域；

所述第一确定模块，具体包括：

第二确定子模块，用于基于所述M+1个目标峰顶通道，确定所述M个二值化阈值；

所述第二确定子模块，具体用于：