CN109344824A - 一种文本行区域检测方法、装置、介质和电子设备 - Google Patents

一种文本行区域检测方法、装置、介质和电子设备 Download PDF

Info

Publication number
CN109344824A
CN109344824A CN201811106782.1A CN201811106782A CN109344824A CN 109344824 A CN109344824 A CN 109344824A CN 201811106782 A CN201811106782 A CN 201811106782A CN 109344824 A CN109344824 A CN 109344824A
Authority
CN
China
Prior art keywords
region
mser
ctpn
text line
detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811106782.1A
Other languages
English (en)
Other versions
CN109344824B (zh
Inventor
马文伟
刘设伟
王强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Taikang Online Property Insurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd, Taikang Online Property Insurance Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN201811106782.1A priority Critical patent/CN109344824B/zh
Publication of CN109344824A publication Critical patent/CN109344824A/zh
Application granted granted Critical
Publication of CN109344824B publication Critical patent/CN109344824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种文本行区域检测方法、装置、介质和电子设备,采用MSER算法和CTPN算法相结合的方式检测文本行区域,再结合非极大值抑制方法对MSER算法和CTPN算法检测结果的重合区域进行筛选得到文本行区域。可以看出,本发明采用由粗到细的相互校验策略检测文本行区域,在保证检测全面性的基础上提高检测准确性,最后通过非极大值抑制方法筛选得到文本行区域,进一步提高文本行区域检测的鲁棒性和准确性,从而缓解甚至避免字符漏检的问题。

Description

一种文本行区域检测方法、装置、介质和电子设备
技术领域
本发明涉及图像处理技术领域,更具体地说,涉及一种文本行区域检测方法、装置、介质和电子设备。
背景技术
图像中的文本部分常包含图像的重要信息,对图像进行文本识别是实现图像内容理解的基础技术。而文本识别的前提则是检测图像中的文本区域。
现阶段,常采用检测文本行的方式检测文本区域,具体将字符、字符的一部分或者多字符作为一个整体区域进行检测。但是,由于同一文本行区域内不同字符之间可能差异大、距离远,作为一个整体检测出来的难度很大,容易出现某些字符漏检的问题。
发明内容
有鉴于此,本发明提供一种文本行区域检测方法、装置、介质和电子设备,以解决现有文本行区域检测容易出现字符漏检的问题。技术方案如下:
基于本发明实施例的一方面,本发明实施例提供一种文本行区域检测方法,包括:
利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
可选的,在所述利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域之前,所述方法还包括:
从所述MSER区域中剔除不符合预设文本行区域确定规则的区域。
可选的,所述预设文本行区域确定规则包括粗过滤规则和细过滤规则,所述从所述MSER区域中剔除不符合预设文本行区域确定规则的区域,包括:
从所述MSER区域中剔除每两个所述MSER区域之间的中心距离不符合粗过滤规则的区域得到候选区域;
从所述候选区域中剔除像素点和/或区域宽高比不符合细过滤规则的区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之前,所述方法还包括:
从所述MSER区域中剔除与所述第一CTPN区域的非重合区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之后,所述方法还包括:
利用所述CTPN算法对所述文本行区域与所述MSER区域的非重合区域进行文本行区域检测;
如果在所述文本行区域与所述MSER区域的非重合区域中检测到第二CTPN区域,对所述第二CTPN区域和所述文本行区域与所述MSER区域的重合区域进行合并。
可选的,所述利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域,包括:
对待检测图像进行灰度转换得到灰度图像;
对所述灰度图像进行二值化处理得到二值化图像;
将所述二值化图像进行连通域分析得到MSER区域。
可选的,所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域,包括:
获取所述MSER区域和所述第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,所述MSER检测分数用于表征所述MSER区域为文本行区域的可能性,所述CTPN检测分数用于表征所述第一CTPN区域为文本行区域的可能性;
根据所述MSER检测分数和所述CTPN检测分数,计算所述MSER区域和所述第一CTPN区域的重合区域的综合分数;
按照综合分数依次从所述MSER区域和所述第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域;其中,所述第一重合区域的综合分数大于所述第二重合区域的综合分数;
计算所述第一重合区域和所述第二重合区域的重合面积比率;
如果所述重合面积比率大于预设比率阈值,从所述MSER区域和所述第一CTPN区域的重合区域中剔除所述第二重合区域;
将完成剔除操作的所述MSER区域和所述第一CTPN区域的重合区域确定为文本行区域。
基于本发明实施例的再一方面,本发明实施例提供一种文本行区域检测装置,包括:
第一检测模块,用于利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
第二检测模块,用于利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
抑制操作模块,用于对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
基于本发明实施例的再一方面,本发明实施例提供一种存储介质,其上存储有程序,所述程序被处理器执行时实现前文所述文本行区域检测方法。
基于本发明实施例的再一方面,本发明实施例提供一种电子设备,包括:
处理器;以及存储器,用于存储所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行前文所述文本行区域检测方法。
本发明实施例提供的文本行区域检测方法、装置、介质和电子设备,采用MSER算法和CTPN算法相结合的方式检测文本行区域,再结合非极大值抑制方法对MSER算法和CTPN算法检测结果的重合区域进行筛选得到文本行区域。可以看出,本发明采用由粗到细的相互校验策略检测文本行区域,在保证检测全面性的基础上提高检测准确性,最后通过非极大值抑制方法筛选得到文本行区域,进一步提高文本行区域检测的鲁棒性和准确性,从而缓解甚至避免字符漏检的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的文本行区域检测方法的方法流程图;
图2为本发明实施例提供的文本行区域检测方法的部分方法流程图;
图3为本发明实施例提供的文本行区域检测方法的另一部分方法流程图;
图4a为居民身份证图像示例;
图4b为利用MSER算法进行文本行区域检测后的居民身份证图像示例;
图4c为利用CTPN算法进行文本行区域检测后的居民身份证图像示例;
图4d为进行非极大值抑制操作后的居民身份证图像示例;
图5为本发明实施例提供的文本行区域检测方法的另一方法流程图;
图6为本发明实施例提供的文本行区域检测方法的再一方法流程图;
图7为本发明实施例提供的文本行区域检测方法的又一方法流程图;
图8为本发明实施例提供的文本行区域检测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提出的文本行区域检测方法可以适用于检测场景图像中文本行区域的情况,可以由配置有摄像头的智能手机、平板电脑或者笔记本等设备来执行。如图1所示,其示出了本发明实施例提供的文本行区域检测方法的方法流程图,包括如下步骤:
S10,利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域。
以下对MSER(Maximally Stable Extrenal Region,最大稳定极值)算法进行简单介绍:
MSER算法是由Matas等人提出的一种仿射特征区域提取算法,其提取的MSER区域内部灰度几乎不变,但是可以和背景产生十分强烈的对比,并且该MSER区域能够在多重阈值下保持形状不变。一般文本内部的灰度变化都比较小,而文本和背景的灰度对比度则比较大,符合最大极值稳定区域的特征,利用这一特性可以提取颜色聚类无法得到的部分连通域。
在具体实现过程中,步骤S10“利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域”的过程,可以具体采用以下步骤,方法流程图如图2所示:
S101,对待检测图像进行灰度转换得到灰度图像。
本实施例中,待检测图像可以是原始图像,也可以是原始图像经预处理后所得到的图像。通常由摄像头所捕获到的图像都是RGB图像,其包含的信息量很大,将RGB图像变换为灰度图像可以节约内存并减少运行时间。
S102,对灰度图像进行二值化处理得到二值化图像。
图像二值化的计算公式为:其中,T为二值化设定的二值化阈值。
S103,将二值化图像进行连通域分析得到MSER区域。
在执行步骤S103的过程中,调节二值化阈值在[0,255]范围内增加或减少,区域不断的出现、生长和合并。当两个不同二值化阈值间的面积变化幅度V(i)小于设定的变化幅度值时,确定连通区域为MSER区域。举例来说,将二值化阈值由255变为0,二值化图像就经历一个由全黑到全白的过程(就像水位不断上升的俯瞰图)。在二值化阈值的调节过程中,有些连通区域的面积随着二值化阈值的变化而变化很小,即V(i)小于设定的变化幅度值,这种连通区域就是MSER区域。其中,
Qi表示二值化阈值为i时连通区域的面积,Δ表示二值化阈值的微小变化,面积变化幅度V(i)表示当二值化阈值为i发生微小变化时,连通区域的面积变化程度。
S20,利用连接文字提议网络CTPN算法对MSER区域进行文本行区域检测得到第一CTPN区域。
以下对利用CTPN(Connectionist Text Proposal Network,连接文字提议网络)算法对MSER区域进行文本行区域检测的过程进行介绍:
首先利用VGG网络对MSER区域进行特征提取得到feature map特征图,再通过预设固定宽度,不同高度(因为文字大多很长,如果宽度不固定容易出现将文字中的某几个字选作负样本的情况)的Ancanchor(候选区域),对之前提取的feature map特征图上的每一个像素进行预测,预测它是否为文字以及所对应文字的坐标,同时在网络中加入LSTM长短期记忆网络,由于MSER区域中的文字大多宽度较大,加入LSTM可以更好地利用文字区域周围的信息,使得文本的连续性语义信息在训练和测试中得到应用,最终得到较高准确率较快速度的检测结果,即MSER区域中文字所在的区域,也就是第一CTPN区域。
S30,对MSER区域和第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
在执行步骤S30的过程中,可以利用MSER区域和第一CTPN区域各自区域左上角和右下角的坐标大小关系,确定MSER区域和第一CTPN区域的重合区域与非重合区域。
对于MSER区域和第一CTPN区域的重合区域,可以利用非极大值抑制方法筛选出置信度较高的文本行区域。
在具体实现过程中,步骤S30“对MSER区域和第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域”的过程,可以具体采用以下步骤,方法流程图如图3所示:
S301,获取MSER区域和第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,MSER检测分数用于表征MSER区域为文本行区域的可能性,CTPN检测分数用于表征第一CTPN区域为文本行区域的可能性。
S302,根据MSER检测分数和CTPN检测分数,计算MSER区域和第一CTPN区域的重合区域的综合分数。
在执行步骤S302的过程中,可以基于算法整体性能预先为MSER算法和CTPN算法设置权重值,进而结合如下计算公式(2)计算MSER区域和第一CTPN区域的重合区域的综合分数:
S=A*α+B*β (2)
其中,S为MSER区域和第一CTPN区域的重合区域的综合分数,A为MSER检测分数,α为MSER算法的权重值,B为CTPN检测分数,β为CTPN算法的权重值,且α+β=1。
S303,按照综合分数依次从MSER区域和第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域;其中,第一重合区域的综合分数大于第二重合区域的综合分数。
在执行步骤S303的过程中,可以按照综合分数由高到低的顺序对MSER区域和第一CTPN区域的重合区域排序。结合排序结果,依次将第一个重合区域、第二个重合区域、第三个重合区域……作为抑制框,将综合分数小于抑制框综合分数的其他重合区域作为被抑制框。
S304,计算第一重合区域和第二重合区域的重合面积比率。
在执行步骤S304的过程中,按照如下计算公式(3)计算重合面积比率:
C=c/d (3)
其中,C为重合面积比率,c为第一重合区域和第二重合区域的交集区域的面积,d为第一重合区域和第二重合区域的并集区域的面积。
S305,如果重合面积比率大于预设比率阈值,从MSER区域和第一CTPN区域的重合区域中剔除第二重合区域。
在执行步骤S306的过程中,如果第一重合区域和第二重合区域的重合面积比率大于预设比率阈值,则表示第一重合区域和第二重合区域基本重合,则保留综合分数较高的第一重合区域。
S306,将完成剔除操作的MSER区域和第一CTPN区域的重合区域确定为文本行区域。
在执行步骤S306的过程中,在MSER区域和第一CTPN区域的重合区域全部执行完步骤S303~步骤S305的操作之后,将此时剩余的重合区域确定为文本行区域。
基于本发明实施例提供的文本行区域检测方法,为方便理解,以如下应用场景为例进行说明:
图4a为居民身份证图像的示例,将该居民身份证图像作为待检测图像。利用MSER算法对居民身份证图像进行文本行区域检测所得到的居民身份证图像如图4b所示,其中,虚线框区域为MSER区域;进一步,利用CTPN算法对MSER区域进行文本行区域检测所得到的居民身份证图像如图4c所示,其中,实线框区域为第一CTPN区域;最后,对MSER区域和第一CTPN区域的重合区域进行非极大值抑制操作所得到的居民身份证图像如图4d所示,其中,阴影区域为文本行区域。
在其他一些实施例中,为提高MSER算法检测结果的准确度,在图1示出的文本行区域检测方法基础上,还包括如下步骤,此时为文本区域检测方法的方法流程图如图5所示:
S40,从MSER区域中剔除不符合预设文本行区域确定规则的区域。
在执行步骤S40的过程中,预设文本行区域确定规则包括粗过滤规则和细过滤规则。首先从MSER区域中剔除每两个MSER区域之间的中心距离不符合粗过滤规则的区域来得到候选区域,再从候选区域中剔除像素点和/或区域宽高比不符合细过滤规则的区域。
具体的,利用粗过滤规则对MSER区域进行粗过滤的过程如下:
通过对MSER区域的提取,图像中出现多个MSER区域,计算出每一个MSER区域的外接矩形的位置及其高度,同时分别将这些MSER区域归类于对应的MSER+、MSER-。由于复杂场景中,字符分布同样符合水平连续间隔的特性,分析出每两个MSER区域之间的位置关系,假设MSER区域的个数为N,则可以得到N×N的矩阵。若第i个MSER区域到第j个MSER区域间的中心距离满足如下公式(4)示出的条件,则将M[i][j]和M[j][i]的值设为1。
其中,verticalDis tan ce和horizontalDis tan ce分别表示垂直距离和水平距离;maxPlateWidth和maxPlateHeight分别表示文本区域可能的最大宽高;min PlateWidth和minPlateHeight分别表示文本区域可能的最小宽高。
根据上述分析,符合粗过滤规则的MSER区域,也就是候选区域即为N×N矩阵右上角所有的四领域连通点对应的区域,进而则将剩余不符合粗过滤规则的MSER区域剔除掉。
进一步,利用细过滤规则对上述候选区域进行细过滤的过程如下:
比如,可以将前景像素点个数与区域内像素点个数之比大于预设比值(比如60%)的候选区域剔除掉;还可以将区域宽高比不在预设允许范围内(比如0.05-20之间)的候选区域剔除掉。
此外,由于在文本行区域检测方面,CTPN算法整体性能优于MSER算法,所以利用CTPN算法对MSER区域进行再次检测可以校验MSER算法检测文本行区域的正确性,最后会在待检测图像中的字符区域会同时存在MSER区域和第一CTPN区域,而非字符区域则只有MSER区域。将MSER区域和第一CTPN区域做交集处理,MSER区域和第一CTPN区域的非重合区域即为误检区域,在后续的处理中可以对该区域不做任何处理,最终输出的文本行区域也不包含该区域。
因此,在其他一些实施例中,为降低后续处理量,在图1示出的文本行区域检测方法基础上,还包括如下步骤,此时为文本区域检测方法的方法流程图如图6所示:
S50,可以将从MSER区域中剔除与第一CTPN区域的非重合区域。
在其他一些实施例中,为提高检测的全面性,在图1示出的文本行区域检测方法基础上,还包括如下步骤,此时为文本区域检测方法的方法流程图如图7所示:
S60,利用CTPN算法对文本行区域与MSER区域的非重合区域进行文本行区域检测。
在执行步骤S60的过程中,可以利用文本行区域和MSER区域各自区域左上角和右下角的坐标大小关系,确定文本行区域和MSER区域的重合区域与非重合区域。
而利用CTPN算法对文本行区域与MSER区域的非重合区域进行文本区域检测的过程与步骤S20中利用CTPN算法对MSER区域进行文本行区域检测的过程一致,在此不再赘述,可参见以上公开内容。
S70,如果在文本行区域与MSER区域的非重合区域中检测到第二CTPN区域,对第二CTPN区域和文本行区域与MSER区域的重合区域进行合并。
在执行步骤S70的过程中,如果在文本行区域与MSER区域的非重合区域中检测到第二CTPN区域,则表示非重合区域内存在文字,则将该第二CTPN区域和文本行区域与MSER区域的重合区域进行合并。
本发明实施例提供的文本行区域检测方法,采用MSER算法和CTPN算法相结合的方式检测文本行区域,再结合非极大值抑制方法对MSER算法和CTPN算法检测结果的重合区域进行筛选得到文本行区域。可以看出,本发明采用由粗到细的相互校验策略检测文本行区域,在保证检测全面性的基础上提高检测准确性,最后通过非极大值抑制方法筛选得到文本行区域,进一步提高文本行区域检测的鲁棒性和准确性,从而缓解甚至避免字符漏检的问题。
基于前文本发明实施例提供的一种文本行区域检测方法,本发明实施例还提供一种文本行区域检测装置,如图8所示,该装置包括:
第一检测模块10,用于利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
第二检测模块20,用于利用连接文字提议网络CTPN算法对MSER区域进行文本行区域检测得到第一CTPN区域;
抑制操作模块30,用于对MSER区域和第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
可选的,第一检测模块10,具体用于:
对待检测图像进行灰度转换得到灰度图像;对灰度图像进行二值化处理得到二值化图像;将二值化图像进行连通域分析得到MSER区域。
可选的,抑制操作模块30,具体用于:
获取MSER区域和第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,MSER检测分数用于表征MSER区域为文本行区域的可能性,CTPN检测分数用于表征第一CTPN区域为文本行区域的可能性;根据MSER检测分数和CTPN检测分数,计算MSER区域和第一CTPN区域的重合区域的综合分数;按照综合分数依次从MSER区域和第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域,其中,第一重合区域的综合分数大于第二重合区域的综合分数;计算第一重合区域和第二重合区域的重合面积比率;如果重合面积比率大于预设比率阈值,从MSER区域和第一CTPN区域的重合区域中剔除第二重合区域;将完成剔除操作的MSER区域和第一CTPN区域的重合区域确定为文本行区域。
在其他一些实施例中,为提高MSER算法检测结果的准确度,在图8示出的文本行区域检测装置基础上,还包括如下模块:
第一剔除模块,用于从MSER区域中剔除不符合预设文本行区域确定规则的区域。
可选的,所述预设文本行区域确定规则包括粗过滤规则和细过滤规则,第一剔除模块,具体用于:
从MSER区域中剔除每两个MSER区域之间的中心距离不符合粗过滤规则的区域得到候选区域;从候选区域中剔除像素点/区域宽高比不符合细过滤规则的区域。
在其他一些实施例中,为降低后续处理量,在图8示出的文本行区域检测装置基础上,还包括如下模块:
第二剔除模块,用于从MSER区域中剔除与第一CTPN区域的非重合区域。
在其他一些实施例中,为提高检测的全面性,在图8示出的文本行区域检测装置基础上,还包括如下模块:
第三检测模块,用于利用CTPN算法对文本行区域与MSER区域的非重合区域进行文本行区域检测;
合并模块,用于如果在文本行区域与MSER区域的非重合区域中检测到第二CTPN区域,对第二CTPN区域和文本行区域与MSER区域的重合区域进行合并。
本发明实施例提供的文本行区域检测装置,采用由粗到细的相互校验策略检测文本行区域,在保证检测全面性的基础上提高检测准确性,最后通过非极大值抑制方法筛选得到文本行区域,进一步提高文本行区域检测的鲁棒性和准确性,从而缓解甚至避免字符漏检的问题。
文本行区域检测装置包括处理器和存储器,上述第一检测模块10、第二检测模块20和抑制操作模块30等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来实现文本行区域检测。存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现前文所述文本行区域检测方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前文所述文本行区域检测方法。
本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
可选的,在所述利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域之前,所述方法还包括:
从所述MSER区域中剔除不符合预设文本行区域确定规则的区域。
可选的,所述预设文本行区域确定规则包括粗过滤规则和细过滤规则,所述从所述MSER区域中剔除不符合预设文本行区域确定规则的区域,包括:
从所述MSER区域中剔除每两个MSER区域之间的中心距离不符合粗过滤规则的区域得到候选区域;
从所述候选区域中剔除像素点和/或区域宽高比不符合细过滤规则的区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之前,所述方法还包括:
从所述MSER区域中剔除与所述第一CTPN区域的非重合区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之后,所述方法还包括:
利用所述CTPN算法对所述文本行区域与所述MSER区域的非重合区域进行文本行区域检测;
如果在所述文本行区域与所述MSER区域的非重合区域中检测到第二CTPN区域,对所述第二CTPN区域和所述文本行区域与所述MSER区域的重合区域进行合并。
可选的,所述利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域,包括:
对待检测图像进行灰度转换得到灰度图像;
对所述灰度图像进行二值化处理得到二值化图像;
将所述二值化图像进行连通域分析得到MSER区域。
可选的,所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域,包括:
获取所述MSER区域和所述第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,所述MSER检测分数用于表征所述MSER区域为文本行区域的可能性,所述CTPN检测分数用于表征所述第一CTPN区域为文本行区域的可能性;
根据所述MSER检测分数和所述CTPN检测分数,计算所述MSER区域和所述第一CTPN区域的重合区域的综合分数;
按照综合分数依次从所述MSER区域和所述第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域;其中,所述第一重合区域的综合分数大于所述第二重合区域的综合分数;
计算所述第一重合区域和所述第二重合区域的重合面积比率;
如果所述重合面积比率大于预设比率阈值,从所述MSER区域和所述第一CTPN区域的重合区域中剔除所述第二重合区域;
将完成剔除操作的所述MSER区域和所述第一CTPN区域的重合区域确定为文本行区域。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
可选的,在所述利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域之前,所述方法还包括:
从所述MSER区域中剔除不符合预设文本行区域确定规则的区域。
可选的,所述预设文本行区域确定规则包括粗过滤规则和细过滤规则,所述从所述MSER区域中剔除不符合预设文本行区域确定规则的区域,包括:
从所述MSER区域中剔除每两个MSER区域之间的中心距离不符合粗过滤规则的区域得到候选区域;
从所述候选区域中剔除像素点和/或区域宽高比不符合细过滤规则的区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之前,所述方法还包括:
从所述MSER区域中剔除与所述第一CTPN区域的非重合区域。
可选的,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之后,所述方法还包括:
利用所述CTPN算法对所述文本行区域与所述MSER区域的非重合区域进行文本行区域检测;
如果在所述文本行区域与所述MSER区域的非重合区域中检测到第二CTPN区域,对所述第二CTPN区域和所述文本行区域与所述MSER区域的重合区域进行合并。
可选的,所述利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域,包括:
对待检测图像进行灰度转换得到灰度图像;
对所述灰度图像进行二值化处理得到二值化图像;
将所述二值化图像进行连通域分析得到MSER区域。
可选的,所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域,包括:
获取所述MSER区域和所述第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,所述MSER检测分数用于表征所述MSER区域为文本行区域的可能性,所述CTPN检测分数用于表征所述第一CTPN区域为文本行区域的可能性;
根据所述MSER检测分数和所述CTPN检测分数,计算所述MSER区域和所述第一CTPN区域的重合区域的综合分数;
按照综合分数依次从所述MSER区域和所述第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域;其中,所述第一重合区域的综合分数大于所述第二重合区域的综合分数;
计算所述第一重合区域和所述第二重合区域的重合面积比率;
如果所述重合面积比率大于预设比率阈值,从所述MSER区域和所述第一CTPN区域的重合区域中剔除所述第二重合区域;
将完成剔除操作的所述MSER区域和所述第一CTPN区域的重合区域确定为文本行区域。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本发明的实施例可提供为方法、系统或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本发明的实施例而已,并不用于限制本发明。对于本领域技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。

Claims (10)

1.一种文本行区域检测方法,其特征在于,包括:
利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
2.根据权利要求1所述的方法,其特征在于,在所述利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域之前,所述方法还包括:
从所述MSER区域中剔除不符合预设文本行区域确定规则的区域。
3.根据权利要求2所述的方法,其特征在于,所述预设文本行区域确定规则包括粗过滤规则和细过滤规则,所述从所述MSER区域中剔除不符合预设文本行区域确定规则的区域,包括:
从所述MSER区域中剔除每两个所述MSER区域之间的中心距离不符合粗过滤规则的区域,得到候选区域;
从所述候选区域中剔除像素点和/或区域宽高比不符合细过滤规则的区域。
4.根据权利要求1-3其中之一所述的方法,其特征在于,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之前,所述方法还包括:
从所述MSER区域中剔除与所述第一CTPN区域的非重合区域。
5.根据权利要求1所述的方法,其特征在于,在所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域之后,所述方法还包括:
利用所述CTPN算法对所述文本行区域与所述MSER区域的非重合区域进行文本行区域检测;
如果在所述文本行区域与所述MSER区域的非重合区域中检测到第二CTPN区域,对所述第二CTPN区域和所述文本行区域与所述MSER区域的重合区域进行合并。
6.根据权利要求1所述的方法,其特征在于,所述利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域,包括:
对待检测图像进行灰度转换得到灰度图像;
对所述灰度图像进行二值化处理得到二值化图像;
将所述二值化图像进行连通域分析得到所述MSER区域。
7.根据权利要求1所述的方法,其特征在于,所述对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域,包括:
获取所述MSER区域和所述第一CTPN区域的重合区域的MSER检测分数和CTPN检测分数,其中,所述MSER检测分数用于表征所述MSER区域为文本行区域的可能性,所述CTPN检测分数用于表征所述第一CTPN区域为文本行区域的可能性;
根据所述MSER检测分数和所述CTPN检测分数,计算所述MSER区域和所述第一CTPN区域的重合区域的综合分数;
按照综合分数依次从所述MSER区域和所述第一CTPN区域的重合区域中选取作为抑制框的第一重合区域以及作为被抑制框的第二重合区域,其中,所述第一重合区域的综合分数大于所述第二重合区域的综合分数;
计算所述第一重合区域和所述第二重合区域的重合面积比率;
如果所述重合面积比率大于预设比率阈值,从所述MSER区域和所述第一CTPN区域的重合区域中剔除所述第二重合区域;
将完成剔除操作的所述MSER区域和所述第一CTPN区域的重合区域确定为文本行区域。
8.一种文本行区域检测装置,其特征在于,包括:
第一检测模块,用于利用最大稳定极值MSER算法对待检测图像进行文本行区域检测得到MSER区域;
第二检测模块,用于利用连接文字提议网络CTPN算法对所述MSER区域进行文本行区域检测得到第一CTPN区域;
抑制操作模块,用于对所述MSER区域和所述第一CTPN区域的重合区域进行非极大值抑制操作得到文本行区域。
9.一种存储介质,其特征在于,其上存储有程序,所述程序被处理器执行时实现权利要求1至7中任一项所述文本行区域检测方法。
10.一种电子设备,其特征在于,包括:
处理器;以及
存储器,用于存储所述处理器的可执行指令;
其中,所述处理器配置为经由执行所述可执行指令来执行权利要求1至7中任一项所述文本行区域检测方法。
CN201811106782.1A 2018-09-21 2018-09-21 一种文本行区域检测方法、装置、介质和电子设备 Active CN109344824B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811106782.1A CN109344824B (zh) 2018-09-21 2018-09-21 一种文本行区域检测方法、装置、介质和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811106782.1A CN109344824B (zh) 2018-09-21 2018-09-21 一种文本行区域检测方法、装置、介质和电子设备

Publications (2)

Publication Number Publication Date
CN109344824A true CN109344824A (zh) 2019-02-15
CN109344824B CN109344824B (zh) 2022-06-10

Family

ID=65306148

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811106782.1A Active CN109344824B (zh) 2018-09-21 2018-09-21 一种文本行区域检测方法、装置、介质和电子设备

Country Status (1)

Country Link
CN (1) CN109344824B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN111046866A (zh) * 2019-12-13 2020-04-21 哈尔滨工程大学 一种结合ctpn和svm的人民币冠字号区域检测方法
CN111738254A (zh) * 2019-10-12 2020-10-02 贵州电网有限责任公司 一种继电保护装置面板与屏幕内容自动化识别方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法
CN107688806A (zh) * 2017-08-21 2018-02-13 西北工业大学 一种基于仿射变换的自由场景文本检测方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN108229506A (zh) * 2016-12-13 2018-06-29 上海安维尔信息科技股份有限公司 基于层次聚类和深度学习的箱号识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8837830B2 (en) * 2012-06-12 2014-09-16 Xerox Corporation Finding text in natural scenes
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
CN108229506A (zh) * 2016-12-13 2018-06-29 上海安维尔信息科技股份有限公司 基于层次聚类和深度学习的箱号识别方法
CN107346420A (zh) * 2017-06-19 2017-11-14 中国科学院信息工程研究所 一种基于深度学习的自然场景下文字检测定位方法
CN107688806A (zh) * 2017-08-21 2018-02-13 西北工业大学 一种基于仿射变换的自由场景文本检测方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109919147A (zh) * 2019-03-04 2019-06-21 上海宝尊电子商务有限公司 服装吊牌图像中文本识别的方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN111738254A (zh) * 2019-10-12 2020-10-02 贵州电网有限责任公司 一种继电保护装置面板与屏幕内容自动化识别方法
CN110991448A (zh) * 2019-11-27 2020-04-10 云南电网有限责任公司电力科学研究院 电力设备铭牌图像的文本检测方法及装置
CN111046866A (zh) * 2019-12-13 2020-04-21 哈尔滨工程大学 一种结合ctpn和svm的人民币冠字号区域检测方法
CN111046866B (zh) * 2019-12-13 2023-04-18 哈尔滨工程大学 一种结合ctpn和svm的人民币冠字号区域检测方法

Also Published As

Publication number Publication date
CN109344824B (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109344824B (zh) 一种文本行区域检测方法、装置、介质和电子设备
CN109117848B (zh) 一种文本行字符识别方法、装置、介质和电子设备
CN110414507B (zh) 车牌识别方法、装置、计算机设备和存储介质
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN105740876B (zh) 一种图像预处理方法及装置
CN111382704B (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
CN108875723B (zh) 对象检测方法、装置和系统及存储介质
US9740965B2 (en) Information processing apparatus and control method thereof
US7983480B2 (en) Two-level scanning for memory saving in image detection systems
CN114529459B (zh) 一种对图像边缘进行增强处理的方法和系统及介质
US9965695B1 (en) Document image binarization method based on content type separation
CN108108734B (zh) 一种车牌识别方法及装置
CN113591746B (zh) 一种文档表格结构检测方法及装置
CN109389122B (zh) 一种车牌定位方法及装置
CN114387591A (zh) 车牌识别方法、系统、设备及存储介质
CN109389110B (zh) 一种区域确定方法及装置
CN110570442A (zh) 一种复杂背景下轮廓检测方法、终端设备及存储介质
CN111209865A (zh) 文件内容提取方法、装置、电子设备及存储介质
CN110232381B (zh) 车牌分割方法、装置、计算机设备及计算机可读存储介质
CN113129298B (zh) 文本图像的清晰度识别方法
CN113920434A (zh) 一种基于目标的图像翻拍检测方法、装置及介质
KR20150099116A (ko) Ocr를 이용한 컬러 문자 인식 방법 및 그 장치
Boiangiu et al. Handwritten documents text line segmentation based on information energy
CN111612005A (zh) 文字检测方法及装置
CN114627456A (zh) 一种票据文本信息检测方法、装置及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address
CP03 Change of name, title or address

Address after: Floor 36, Zheshang Building, No. 718 Jianshe Avenue, Jiang'an District, Wuhan, Hubei 430019

Patentee after: TK.CN INSURANCE Co.,Ltd.

Patentee after: TAIKANG INSURANCE GROUP Co.,Ltd.

Address before: Taikang Life Building, 156 fuxingmennei street, Xicheng District, Beijing 100031

Patentee before: TAIKANG INSURANCE GROUP Co.,Ltd.

Patentee before: TK.CN INSURANCE Co.,Ltd.