CN109874313A - 文本行检测方法及文本行检测装置 - Google Patents

文本行检测方法及文本行检测装置 Download PDF

Info

Publication number
CN109874313A
CN109874313A CN201880002337.2A CN201880002337A CN109874313A CN 109874313 A CN109874313 A CN 109874313A CN 201880002337 A CN201880002337 A CN 201880002337A CN 109874313 A CN109874313 A CN 109874313A
Authority
CN
China
Prior art keywords
connected domain
text
line
rectangle frame
outer rectangular
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880002337.2A
Other languages
English (en)
Inventor
李宏宇
彭宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongan Information Technology Service Co Ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Publication of CN109874313A publication Critical patent/CN109874313A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

一种文本行检测方法及文本行检测装置,该文本行检测方法包括对待检测图像进行预处理,以生成连通域;对连通域进行过滤处理,以获取符合预设要求的连通域;基于处理结果进行文本行识别操作。本发明提供的文本行检测方法,通过对待检测图像进行预处理和过滤处理,以获取符合预设要求的连通域,然后基于处理结果进行文本行识别操作的方式,使待检测图像中的文字等元素以连通域的形式呈现,并且基于过滤处理去除了异常连通域的干扰,从而提高了文本行的检测与识别的精确度,以及提高了文本行的检测与识别的效率。

Description

文本行检测方法及文本行检测装置
本申请要求2017年10月13日提交的申请号为No.201710953107.1的中国申请的优先权,通过引用将其全部内容并入本文。
技术领域
本发明涉及计算机图像处理领域,特别涉及一种文本行检测方法及文本行检测装置。
背景技术
图像中的文本行检测一直是文本图像处理的研究热点,也是OCR(光学字符识别,Optical Character Recognition)的最重要环节之一,由于图像中的文本部分常包含图像的重要信息,所以对图像中的文本行进行检测对于图像分析、图像信息获取具有重要作用。
现有的文本行检测方法主要有传统方法和深度学习的方法。深度学习的方法适用的场景比较广泛,识别的精度也相对较高,但是需要大量的高质量标注过的数据和长时间的训练调参过程,且每次检测时运算量巨大,耗时久,不利于快速识别处理;而传统方法则有精度不高的问题,有较多的误报(false positive),需要后期处理去除。所以,亟需一种既快速又不失准确率的文本行检测方法。
发明内容
有鉴于此,本发明实施例提供一种文本行检测方法及文本行检测装置,以解决现有文本行检测方法检测精度差且检测效率低等问题。
第一方面,本发明一实施例提供一种文本行检测方法,该文本行检测方法包括对待检测图像进行预处理,以生成连通域;对连通域进行过滤处理,以获取符合预设要求的连通域;基于处理结果进行文本行识别操作。
可选地,对待检测图像进行预处理以生成连通域,包括:对待检测图像进行二值化处理;基于处理后的待检测图像生成连通域。
可选地,在对待检测图像进行二值化处理后,进一步包括对二值化处理后的待检测图像进行闭运算处理。
可选地,对连通域进行过滤处理,以获取符合预设要求的连通域,包括基于预设标准尺寸数据和获取的连通域的尺寸数据细过滤连通域,以获取符合预设要求的连通域。
可选地,在基于预设标准尺寸数据和获取的连通域的尺寸数据细过滤连通域,以获取符合预设要求的连通域之前,进一步包括基于预设异常阈值和获取的连通域的尺寸数据粗过滤连通域;对粗过滤后的连通域的尺寸数据进行聚类统计;将出现次数达到预设次数的尺寸数据作为预设标准尺寸数据。
可选地,预设异常阈值包括按照像素设置的预设异常阈值和/或按照连通域的尺寸数据设置的预设异常阈值。
可选地,在对连通域进行过滤处理,以获取符合预设要求的连通域后,进一步包括基于获取的符合预设要求的连通域生成对应的外部矩形框。
可选地,在基于获取的符合预设要求的连通域生成对应的外部矩形框后,进一步包括按照预设比例,基于外部矩形框生成扩展矩形框;根据生成的扩展矩形框对外部矩形框进行聚合处理。
可选地,按照预设比例,基于外部矩形框生成扩展矩形框,包括按照预设比例,将连通域的外部矩形框扩展为宽大于高的扩展矩形框,其中,外部矩形框和对应扩展的扩展矩形框的中心对齐。
可选地,根据生成的扩展矩形框对外部矩形框进行聚合处理,包括判断至少两个连通域对应的扩展矩形框的IOU值是否达到预设IOU阈值范围;当至少两个连通域对应的扩展矩形框的IOU值达到预设IOU阈值范围时,将至少两个连通域的扩展矩形框对应的外部矩形框进行聚合操作,以生成包括至少两个外部矩形框的聚合类。
可选地,基于处理结果进行文本行识别操作,包括当聚合类中的外部矩形框的个数大于或等于预设个数,并且聚合类中的外部矩形框的中心位置坐标的方差小于预设值时,则将聚合类中的连通域确定为文本行。
第二方面,本发明一实施例还提供一种文本行检测装置,该文本行检测装置包括连通域生成模块,用于对待检测图像进行预处理,以生成连通域;过滤模块,用于对连通域进行过滤处理,以获取符合预设要求的连通域;识别模块,用于基于处理结果进行文本行识别操作。
可选地,连通域生成模块包括二值化处理单元,用于对待检测图像进行二值化处理;生成单元,用于基于处理后的待检测图像生成连通域。
可选地,连通域生成模块进一步包括闭运算单元,用于对二值化处理后的待检测图像进行闭运算处理。
可选地,过滤模块包括细过滤单元,用于基于预设标准尺寸数据和获取的连通域的尺寸数据细过滤连通域,以获取符合预设要求的连通域。
可选地,过滤模块进一步包括粗过滤单元,用于基于预设异常阈值和获取的连通域的尺寸数据粗过滤连通域;聚类统计单元,用于对粗过滤后的连通域的尺寸数据进行聚类统计;预设标准尺寸生成单元,用于将出现次数达到预设次数的尺寸数据作为预设标准尺寸数据。
可选地,预设异常阈值包括按照像素设置的预设异常阈值和/或按照连通域的尺寸数据设置的预设异常阈值。
可选地,该文本行检测装置进一步包括第一生成模块,用于基于获取的符合预设要求的连通域生成对应的外部矩形框。
可选地,该文本行检测装置进一步包括第二生成模块,用于按照预设比例,基于外部矩形框生成扩展矩形框;聚合模块,用于根据生成的扩展矩形框对外部矩形框进行聚合处理。
可选地,第二生成模块还用于按照预设比例,将连通域的外部矩形框扩展为宽大于高的扩展矩形框,其中,外部矩形框和对应扩展的扩展矩形框的中心对齐。
可选地,聚合模块包括判断单元,用于判断至少两个连通域对应的扩展矩形框的IOU值是否达到预设IOU阈值范围;聚合单元,用于当至少两个连通域对应的扩展矩形框的IOU值达到预设IOU阈值范围时,将至少两个连通域的扩展矩形框对应的外部矩形框进行聚合操作,以生成包括至少两个外部矩形框的聚合类。
可选地,识别模块还用于当聚合类中的外部矩形框的个数大于或等于预设个数,并且聚合类中的外部矩形框的中心位置坐标的方差小于预设值时,则将聚合类中的连通域确定为文本行。
第三方面,本发明一实施例还提供一种计算机存储介质,该计算机可读存储介质上存储有文本行检测程序,该文本行检测程序被处理器执行时实现上述任一实施例所提及的文本行检测方法的操作。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供了一种文本行检测方法及文本行检测装置,该文本行检测方法通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率。进一步地,本发明实施例提供的文本行检测方法,利用连通域的尺寸数据生成对应的外部矩形框,并按照预设比例将符合标准字体尺寸的连通域的外部矩形框进行扩展,以生成扩展矩形框,由于生成的扩展矩形框与其对应的外部矩形框中心对齐,所以能够以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结果对文本行进行识别操作,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的文本行检测方法,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1所示为本发明一实施例提供的文本行检测方法的流程示意图。
图2所示为本发明一实施例提供的文本行检测方法的对待检测图像进行预处理以生成连通域步骤的流程示意图。
图3所示为本发明另一实施例提供的文本行检测方法的对待检测图像进行预处理以生成连通域步骤的流程示意图。
图4所示为本发明一实施例提供的文本行检测方法的对连通域进行过滤处理以获取符合预设要求的连通域步骤的流程示意图。
图5所示为本发明另一实施例提供的文本行检测方法的流程示意图。
图6所示为本发明又一实施例提供的文本行检测方法的流程示意图。
图7所示为本发明一实施例提供的文本行检测方法的根据生成的扩展矩形框对外部矩形框进行聚合处理步骤的流程示意图。
图8所示为本发明再一实施例提供的文本行检测方法的流程示意图。
图9a所示为本发明一实施例提供的需要进行图本行检测的示例输入图像。
图9b所示为本发明一实施例提供的对示例输入图像进行预处理后的示意图像。
图9c所示为本发明一实施例提供的对示例输入图像最终文本检测结果的示意图像。
图10所示为本发明一实施例提供的文本行检测装置的结构示意图。
图11所示为本发明一实施例提供的文本行检测装置的连通域生成模块的结构示意图。
图12所示为本发明另一实施例提供的文本行检测装置的连通域生成模块的结构示意图。
图13所示为本发明一实施例提供的文本行检测装置的过滤模块的结构示意图。
图14所示为本发明另一实施例提供的文本行检测装置的结构示意图。
图15所示为本发明又一实施例提供的文本行检测装置的结构示意图。
图16所示为本发明一实施例提供的文本行检测装置的聚合模块的结构示意图。
图17所示为本发明再一实施例提供的文本行检测装置的结构示意图。
图18所示为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1所示为本发明一实施例提供的文本行检测方法的流程示意图。如图1所示,本发明实施例提供的文本行检测方法包括:
10:对待检测图像进行预处理,以生成连通域。
需要说明的是,10中所提及的预处理,指的是能够使待检测图像生成连通域的处理,包括但不限于为二值化处理等预处理操作。
具体的,图2所示为本发明一实施例提供的文本行检测方法的对待检测图像进行预处理以生成连通域步骤的流程示意图。如图2所示,在本发明实施例提供的文本行检测方法中,对待检测图像进行预处理,以生成连通域,包括:
11:对待检测图像进行二值化处理。
12:基于处理后的待检测图像生成连通域。
也就是说,在实际应用过程中,对待检测图像进行预处理以生成连通域的实现过程为:对待检测图像进行二值化处理,然后基于处理后的待检测图像生成连通域。
在本发明另一实施例中,对待检测图像进行预处理以生成连通域的步骤还包括闭运算处理过程。具体的,在图2所示的实施例的基础上延伸出本发明图3所示实施例,图3所示为本发明另一实施例提供的文本行检测方法的对待检测图像进行预处理以生成连通域步骤的流程示意图。如图3所示,在本发明实施例提供的文本行检测方法中,对待检测图像进行二值化处理后,进一步包括:
115:对二值化处理后的待检测图像进行闭运算处理。
也就是说,在实际应用过程中,对待检测图像进行预处理以生成连通域的实现过程为:对待检测图像进行二值化处理,然后对二值化处理后的待检测图像进行闭运算处理,最后基于处理后的待检测图像生成连通域。
应当理解,由于预处理后的文字可能会被断开,因此,利用形态学的闭运算方法能够将断开的文字重新连接起来,以确保同一个文字连入统一连通域,从而进一步提高字符的检测精度。
20:对连通域进行过滤处理,以获取符合预设要求的连通域。
需要说明的是,过滤处理的目的是为了过滤掉不符合预设要求的连通域,以保留并获取符合预设要求的连通域。其中,不符合预设要求的连通域包括但不限于为不包括文字的连通域、尺寸异常的连通域等。
应当理解,具体的预设要求可根据实际情况自行设定,以充分提高本发明实施例提供的文本行检测方法的适应能力和应用广泛性,本发明实施例对此不进行统一限定。
30:基于处理结果进行文本行识别操作。
在实际应用过程中,首先对待检测图像进行预处理,以生成连通域,然后对生成的连通域进行过滤处理,以获取符合预设要求的连通域,最后基于获取的符合预设要求的连通域(即处理结果)进行文本行识别操作。
本发明实施例提供的文本行检测方法,通过对待检测图像进行预处理和过滤处理,以获取符合预设要求的连通域,然后基于处理结果进行文本行识别操作的方式,使待检测图像中的文字等元素以连通域的形式呈现,并且基于过滤处理去除了异常连通域的干扰,从而提高了文本行的检测与识别的精确度,以及提高了文本行的检测与识别的效率。
图4所示为本发明一实施例提供的文本行检测方法的对连通域进行过滤处理以获取符合预设要求的连通域步骤的流程示意图。如图4所示,在本发明一实施例中,对连通域进行过滤处理,以获取符合预设要求的连通域,包括:
21:基于预设异常阈值和获取的连通域的尺寸数据粗过滤连通域。
需要说明的是,21中所提及的粗过滤,指的是按照获取的预设异常阈值的连通域的尺寸数据,将尺寸数据落入预设异常阈值范围内的连通域过滤掉,留存尺寸数据未落入预设异常阈值范围内的连通域。
应当理解,预设异常阈值的具体数值可根据实际情况自行设定,以充分提高本发明实施例提供的文本行检测方法的适应能力和应用广泛性,本发明实施例对此不进行统一限定。
22:对粗过滤后的连通域的尺寸数据进行聚类统计。
23:将出现次数达到预设次数的尺寸数据作为预设标准尺寸数据。
此外,应当理解,预设次数的具体数值可根据实际情况自行设定,以充分提高本发明实施例提供的文本行检测方法的适应能力和应用广泛性,本发明实施例对此不进行统一限定。
24:基于预设标准尺寸数据和获取的连通域的尺寸数据细过滤连通域,以获取符合预设要求的连通域。
需要说明的是,24中所提及的细过滤,指的是按照获取的预设标准尺寸数据和粗过滤后的连通域的尺寸数据,对粗过滤后的连通域进行二次过滤,以进一步有效去除连通域中的非文字连通域,从而进一步提高检测与识别的精度和效率。
此外,需要说明的是,粗过滤和细过滤并非必须要同时存在,可根据实际情况灵活设置。比如,在本发明另一实施例提供的文本行检测方法中,不包括粗过滤。
图5所示为本发明另一实施例提供的文本行检测方法的流程示意图。在本发明图1所示实施例的基础上延伸出本发明实施例,下面着重叙述本发明实施例与图1所示实施例的不同之处,相同之处不再赘述。
如图5所示,在本发明实施例提供的文本行检测方法中,在对连通域进行过滤处理,以获取符合预设要求的连通域之后,进一步包括:
25:基于获取的符合预设要求的连通域生成对应的外部矩形框。
在实际应用过程中,首先对待检测图像进行预处理,以生成连通域,然后对生成的连通域进行过滤处理,以获取符合预设要求的连通域,并基于获取的符合预设要求的连通域生成对应的外部矩形框,最后进行文本行识别操作。
需要说明的是,利用生成的外部矩形框,能够更加方便精准地统计连通域的尺寸数据,进而为后续文本行识别等操作提供更精准地识别依据,从而进一步提高文本行检测与识别的速度及效率。
图6所示为本发明又一实施例提供的文本行检测方法的流程示意图。在本发明图5所示实施例的基础上延伸出本发明实施例,下面着重叙述本发明实施例与图5所示实施例的不同之处,相同之处不再赘述。
如图6所示,在本发明实施例提供的文本行检测方法中,在基于获取的符合预设要求的连通域生成对应的外部矩形框之后,进一步包括:
26:按照预设比例,基于外部矩形框生成扩展矩形框。
需要说明的是,预设比例的具体数值可根据实际情况自行设定,以充分提高本发明实施例提供的文本行检测方法的适应能力和应用广泛性,本发明实施例对此不进行统一限定。
27:根据生成的扩展矩形框对外部矩形框进行聚合处理。
应当理解,27中所提及的聚合处理,指的是根据扩展矩形框的相交情况对连通域的外部矩形框进行聚合操作。
在实际应用过程中,首先对待检测图像进行预处理,以生成连通域,对生成的连通域进行过滤处理,以获取符合预设要求的连通域,然后基于获取的符合预设要求的连通域生成对应的外部矩形框,并按照预设比例,基于外部矩形框生成扩展矩形框,并根据生成的扩展矩形框对外部矩形框进行聚合处理,最后根据处理结果进行文本行识别操作。
本发明实施例提供的文本行检测方法,借助于扩展矩形框以及基于扩展矩形框的聚合处理操作,实现了进一步提高文本行识别的精准程度,降低错误识别的几率的目的。
在本发明一实施例中,根据生成的扩展矩形框对外部矩形框进行聚合处理步骤的具体实现方式如图7所示。具体的,图7所示为本发明一实施例提供的文本行检测方法的根据生成的扩展矩形框对外部矩形框进行聚合处理步骤的流程示意图。如图7所示,根据生成的扩展矩形框对外部矩形框进行聚合处理,包括:
271:判断至少两个连通域对应的扩展矩形框的IOU值是否达到预设IOU阈值范围。
其中,IQU值指的是相交范围占两个连通域并集的比例。
272:当该至少两个连通域对应的扩展矩形框的IOU值达到预设IOU阈值范围时,将该至少两个连通域的扩展矩形框对应的外部矩形框进行聚合操作,以生成包括至少两个外部矩形框的聚合类。
273:不进行聚合操作。
根据生成的扩展矩形框对外部矩形框进行聚合处理的实际实现过程为:判断至少两个连通域对应的扩展矩形框的IOU值是否达到预设IOU阈值范围,当判断结果为是时,即当该至少两个连通域对应的扩展矩形框的IOU值达到预设IOU阈值范围时,将该至少两个连通域的扩展矩形框对应的外部矩形框进行聚合操作,以生成包括至少两个外部矩形框的聚合类;当判断结果为否时,不进行聚合操作。
图8所示为本发明再一实施例提供的文本行检测方法的流程示意图。本发明实施例提供了一种文本行检测方法,参照图8所示,该方法包括:
101:对输入图像进行二值化预处理,获取预处理后的二值化图像。
其中,输入图像中可以包含不同类型的对象,如文字、插图、Logo、条形码二维码、各种符号等;并且,输入图像中的文本的形式可以包括不同字体、不同字号、不同语言文字(如中文、英文等)、数字、拉丁字母等。为了说明本发明实施例所提及的文本行检测方法,将以示例图进行说明,该输入图像可以为图9所示的图像。
应当理解,本发明实施例中所提及的输入图像即为上述实施例中所提及的待检测图像。
具体的,采用Sauvola二值化算法对输入图像进行二值化预处理。Sauvola二值化算法对光照分布不均匀的图像有较好的处理效果,能够有效避免由于图像的光照分布不均匀造成的二值化预处理效果不佳、进而影响文本行识别的问题,从而通过采用Sauvola二值化算法进一步提高了文本行识别的效果和准确度。
采用Sauvola二值化算法对输入图像进行二值化预处理的过程可以包括:
a、通过Sauvola二值化算法对输入图像进行二值化预处理时,预先设定所要处理的输入图像的处理窗口参数。
具体的,需要设定对输入图像处理的窗口大小(m*n)和阈值k两个参数。窗口大小(m*n)和阈值k均可以为经验值,窗口大小(m*n)的取值范围为[9,13],k的取值范围为[0.05,0.11]。
其中,采用的Sauvola二值化算法可以使用均值,如果算法中标准差大,则设定的阈值k数值较大;如果算法中标准差小,则设定的阈值k数值相应较小。
b、对Sauvola二值化预处理后的输入图像进行闭运算处理。
具体的,预处理后的文字可能会被断开,此时需要用形态学的闭运算方法将断开的文字重新连接起来。闭运算可以使用边长为L的正方形结构元,L为经验值,取值范围为[3,7]。
通过在Sauvola二值化预处理后,再进行闭运算操作,能够尽可能的确保一个文字连入同一连通域,进而提高了字符的检测精度,方便了后续基于连通域对图像中文本行进行识别的操作。
102:对二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域。
其中,二值化图像指的是经过二值化预处理后的输入图像。
本发明实施例所采用的过滤处理包括粗过滤和细过滤,在实际应用中过滤也可以采用其他方式,本发明实施例对此不加以限定。
对二值化图像中的连通域进行粗过滤处理的过程可以包括:
a、获取二值化图像中的连通域,根据预设异常阈值,过滤连通域中异常的连通域。
其中,异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值。具体的,按像素设置的异常阈值可以为像素个数少于10或多于100000,按连通域宽高比设置的异常阈值可以为宽高比或高宽比大于15,此处异常阈值的具体设置可以为经验值。
具体的,若该异常阈值包括按像素设置的异常阈值,则根据预设异常阈值,过滤该连通域中异常的连通域包括:
获取二值化图像中的连通域,去除像素个数少于10的连通域,或者去除像素个数多于100000的连通域,或者去除像素个数少于10和去除像素个数多于100000的连通域。
若该异常阈值包括按宽高比设置的异常阈值,则根据预设异常阈值,过滤该连通域中异常的连通域包括:
获取二值化图像中的连通域,并获取每个连通域的宽高值,去除宽高比或高宽比大于15的连通域。
b、获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
具体的,对于粗过滤后剩余的连通域生成对应的外部矩形框,统计每个剩余连通域的外部矩形框的宽高值,该外部矩形框的宽高值作为对应的每个连通域的宽高值。
通过利用统计聚类算法对该每个剩余连通域的宽高值进行聚类,统计每个宽高值出现的频次,获取出现次数最多的连通域宽高值,将该出现次数最多的连通域宽高值作为标准宽高值,其中,该标准高宽值即为获取的标准字体的高宽尺寸值。
对二值化图像中的连通域进行细过滤处理的过程可以包括:
a、以标准字体尺寸为标准,按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域;
其中,该预设倍数可以为宽为该标准字体尺寸的宽的3倍,高为该标准字体尺寸的高的3倍,需要说明的是,该预设倍数根据细过滤的实际需求进行设置,为经验值,本发明实施例对该预设倍数不加以限定。
具体的,对于粗过滤剩余的连通域,再次过滤该剩余连通域中宽大于该标准字体宽的3倍的连通域,或过滤高大于该标准字体高的3倍的连通域,或者过滤宽大于该标准字体宽的3倍及高大于该标准字体高的3倍的连通域。
通过对粗过滤后剩余的连通域再次进行细过滤,能够去除图像中非文字的图像区域,从而去除了图像中非文字图像区域对于文本行识别的干扰,进一步方便了后续对文本行的识别,提高了识别效率和精度。
b、获取二值化图像中细过滤处理后的连通域。
具体的,对于预处理后的二值化图像进行粗过滤及细过滤处理,获取过滤后最后剩余的连通域。
103:对符合标准字体尺寸的连通域生成外部矩形框。
具体的,该过程包括:
对于102的b步骤中粗过滤后剩余的连通域生成的对应的外部矩形框中,去除其中经细过滤处理过滤掉的连通域对应的外部矩形框;或者
根据粗过滤和细过滤处理后,获取剩余的符合标准字体尺寸的连通域,以及生成对应的外部矩形框。
通过对符合标准字体尺寸的连通域生成外部矩形框,方便了对连通域的宽高值进行统计,从而进一步提高了识别的速度,提高了识别的效率。
104:按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据扩展矩形框对外部矩形框进行聚合处理。
a、该按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框的过程可以包括:
按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,扩展矩形框与其对应的外部矩形框中心对齐。
具体的,扩展矩形框按照该预设比例,即可以按该扩展矩形框的宽为该连通域新的宽的2.8倍,该扩展矩形框的高为该连通域的高的0.3倍进行扩展生成该扩展矩形框;此处需要说明的是,该扩展比例的具体设置可以根据具体需要进行设置,该数值为经验值,为在多次试验过程中获取,也可以为其他值,本发明实施例对此不加以限定。
b、根据扩展矩形框对外部矩形框进行聚合处理的过程可以包括:
判断两个连通域的扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则将该两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,则不将该两个连通域的扩展矩形框对应的外部矩形框进行聚合;
该IOU阈值可以为0.1。
通过根据扩展矩形框的相交情况对连通域的外部矩形框进行聚合,该方法简单直观,便于对于不同场景变换调整参数及修正。
105:根据聚合处理结果进行文本行识别。
其中,文本行包括水平文本行、竖直文本行以及斜向的文本行等,其中,运用最多的为水平文本行的识别。
根据聚合处理结果对于水平文本行可以通过以下方式进行识别:
具体的,若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为水平文本行;该预设个数可以为2,该坐标y方差预设值可以为0.2;若聚合后矩形框小于预设个数,或中心位置y分布分散,则确定为不是水平文本行。
需要说明的是,对于竖直文本行、和斜向文本行进行识别时,可以根据实际试验设置对应的参数,如识别竖直文本行时,聚合后矩形框个数大于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的x的方差小于预设值,以确定是否为纵向文本行,其中的预设个数及x的方差的预设值可以根据实际进行设置;以及对于斜向文本行的识别原理与水平文本行及斜向文本行类似,此处不再一一进行说明。
同时,需要说明的是,对于文本行识别主要是区分聚合后的边框内容是属于文本行还是非文字图像;其中,识别方式还可以采用复杂的分类方法(如SVM,Support VectorMachine),或者可以采用简单的二分类判定准则。文本行特征主要通过边框内的连通域进行提取,简单起见,一般可直接采用边框中心位置。复杂分类方法(如SVM)一般需要预先将文本行收集好用于训练分类器,然后将文本行特征输入到训练好的分类器中,判断是否为文本行类。二分类判定准则主要是通过判定候选文本行内边框位置是否按线性排列分布(如:沿水平线分布),若是则认为是文本行,否则不是;除此以外,也可以采用其他的识别方法,本发明实施例对具体的识别方式不加以限定。
通过聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,以确定为水平文本行,该方法相较于多层网络的DNN模型,该方法实现方式简便,运算精简,能够在快速检测的基础上提高检测的精度。
本发明实施例提供了一种文本行检测方法,通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率。进一步地,通过按照预设比例将符合标准字体尺寸的连通域进行扩展生成扩展矩形框,因为生成的扩展矩形框与其对应的外部矩形框中心对齐,所以以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结果对文本行进行识别,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的文本行检测方法,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
图9a所示为本发明一实施例提供的需要进行文本行检测的输入图像。图9b所示为本发明一实施例提供的对输入图像进行预处理后的示意图像。图9c所示为本发明一实施例提供的对输入图像最终文本检测结果的示意图像。具体地,图9b所示为对图9a所示的输入图像进行二值化处理后的示意图像。
如图9a至图9c所示,利用本发明上述实施例所提及的文本行检测方法,能够精准检测出输入图像中的文本行。
图10所示为本发明一实施例提供的文本行检测装置的结构示意图。如图10所示,本发明实施例提供的文本行检测装置包括:
连通域生成模块100,用于对待检测图像进行预处理,以生成连通域。
过滤模块200,用于对连通域进行过滤处理,以获取符合预设要求的连通域。
识别模块300,用于基于处理结果进行文本行识别操作。
在本发明另一实施例中,识别模块300还用于当聚合类中的外部矩形框的个数大于或等于预设个数,并且聚合类中的外部矩形框的中心位置坐标的方差小于预设值时,则将聚合类中的连通域确定为文本行。
图11所示为本发明一实施例提供的文本行检测装置的连通域生成模块的结构示意图。如图11所示,在本发明实施例提供的文本行检测装置中,连通域生成模块100包括:
二值化处理单元110,用于对待检测图像进行二值化处理。
生成单元120,用于基于处理后的待检测图像生成连通域。
图12所示为本发明另一实施例提供的文本行检测装置的连通域生成模块的结构示意图。具体的,在图11所示实施例的基础上延伸出本发明图12所示实施例,下面着重叙述不同之处,相同之处不再赘述。
如图12所示,在本发明实施例提供的文本行检测装置中,连通域生成模块100进一步包括:
闭运算单元1150,用于对二值化处理后的待检测图像进行闭运算处理。
图13所示为本发明一实施例提供的文本行检测装置的过滤模块的结构示意图。如图13所示,在本发明实施例提供的文本行检测装置中,过滤模块200包括:
粗过滤单元210,用于基于预设异常阈值和获取的连通域的尺寸数据粗过滤连通域。
聚类统计单元220,用于对粗过滤后的连通域的尺寸数据进行聚类统计。
预设标准尺寸生成单元230,用于将出现次数达到预设次数的尺寸数据作为预设标准尺寸数据。
细过滤单元240,用于基于预设标准尺寸数据和获取的连通域的尺寸数据细过滤连通域,以获取符合预设要求的连通域。
图14所示为本发明另一实施例提供的文本行检测装置的结构示意图。具体的,在图10所示实施例的基础上延伸出本发明图14所示实施例,下面着重叙述不同之处,相同之处不再赘述。
如图14所示,在本发明实施例提供的文本行检测装置中,进一步包括:
第一生成模块250,用于基于获取的符合预设要求的连通域生成对应的外部矩形框。
图15所示为本发明又一实施例提供的文本行检测装置的结构示意图。具体的,在图14所示实施例的基础上延伸出本发明图15所示实施例,下面着重叙述不同之处,相同之处不再赘述。
如图15所示,在本发明实施例提供的文本行检测装置中,进一步包括:
第二生成模块260,用于按照预设比例,基于外部矩形框生成扩展矩形框。
聚合模块270,用于根据生成的扩展矩形框对外部矩形框进行聚合处理。
在本发明另一实施例中,第二生成模块260还用于按照预设比例,将连通域的外部矩形框扩展为宽大于高的扩展矩形框,其中,外部矩形框和对应扩展的扩展矩形框的中心对齐。
图16所示为本发明一实施例提供的文本行检测装置的聚合模块的结构示意图。如图16所示,在本发明实施例提供的文本行检测装置中,聚合模块270包括:
判断单元2710,用于判断至少两个连通域对应的扩展矩形框的IOU值是否达到预设IOU阈值范围。
聚合单元2720,用于当该至少两个连通域对应的扩展矩形框的IOU值达到预设IOU阈值范围时,将该至少两个连通域的扩展矩形框对应的外部矩形框进行聚合操作,以生成包括至少两个外部矩形框的聚合类。
不聚合单元2730,用于不进行聚合操作。
图17所示为本发明再一实施例提供的文本行检测装置的结构示意图。参照图17所示,该文本行检测装置7包括:
预处理模块71,用于对输入图像进行二值化预处理,获取预处理后的二值化图像;
过滤处理模块72,用于对二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域;
外部矩形框生成模块73,用于对符合标准字体尺寸的连通域生成外部矩形框;
扩展矩形框生成模块74,用于按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框;
聚合处理模块75,用于根据扩展矩形框对外部矩形框进行聚合处理;
文本行识别模块76,用于根据聚合处理结果进行文本行识别。
进一步地,过滤模块72包括粗过滤子模块721和细过滤子模块722,粗过滤子模块721具体包括:
异常连通域过滤单元7211,用于获取二值化图像中的连通域,根据预设异常阈值,过滤连通域中异常的连通域,异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
聚类单元7212,用于获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
进一步地,细过滤子模块722具体用于:
以标准字体尺寸为标准,按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域;以及
获取二值化图像中细过滤处理后的连通域。
进一步地,扩展矩形框生成模块74具体用于按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,扩展矩形框与其对应的外部矩形框中心对齐;
聚合处理模块75包括判断子模块751和聚合子模块752;
判断子模块751用于判断两个连通域的扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则聚合子模块752将两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,聚合子模块752不将两个连通域的扩展矩形框对应的外部矩形框进行聚合。
进一步地,文本行识别模块76具体用于:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;若聚合后矩形框小于预设个数,或中心位置y分布分散,则确定为不是文本行。
本发明实施例提供了一种文本行检测装置,该文本行检测装置通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率。进一步地,通过按照预设比例将符合标准字体尺寸的连通域进行扩展生成扩展矩形框,因为生成的扩展矩形框与其对应的外部矩形框中心对齐,所以以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结果对文本行进行识别,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的文本行检测装置,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的文本行检测装置在执行文本行检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的文本行检测装置与文本行检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
图18所示为本发明一实施例提供的电子设备的结构示意图。图18提供的电子设备用于执行上述实施例中所提及的文本行检测方法。如图18所示,该电子设备包括处理器181、存储器182和总线183。
处理器181,用于通过总线183调用存储器182中存储的代码,以对待检测图像进行预处理以生成连通域;对连通域进行过滤处理以获取符合预设要求的连通域;基于处理结果进行文本行识别操作。
应当理解,该电子设备包括但不限于为手机、平板电脑等电子设备。
在本发明一实施例中,还提供一种计算机存储介质,该计算机可读存储介质上存储有文本行检测程序,该文本行检测程序被处理器执行时实现上述任一实施例所提及的文本行检测方法的操作。
应当理解,该计算机可读介质如CD-ROM、软盘、硬盘、数字通用光盘(DVD)、蓝光光盘或其它形式的存储器。替代的,上述实施例提及的文本行检测方法中的一些操作或所有操作可利用专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(EPLD)、离散逻辑、硬件、固件等的任意组合被实现。另外,虽然上述实施例的流程图描述了该文本行检测方法,但可对该文本行检测方法中的操作进行修改、删除或合并。
如上所述,可利用编码指令(如计算机可读指令)来实现上述任一实施例提及的文本行检测方法,该编程指令存储于有形计算机可读介质上,如硬盘、闪存、只读存储器(ROM)、光盘(CD)、数字通用光盘(DVD)、高速缓存器、随机访问存储器(RAM)和/或任何其他存储介质,在该存储介质上信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。如在此所用的,该术语有形计算机可读介质被明确定义为包括任意类型的计算机可读存储的信号。附加地或替代地,可利用编码指令(如计算机可读指令)实现上述文本行检测方法实施例所提及的示例过程,该编码指令存储于非暂时性计算机可读介质,如硬盘,闪存,只读存储器,光盘,数字通用光盘,高速缓存器,随机访问存储器和/或任何其他存储介质,在该存储介质信息可以存储任意时间(例如,长时间,永久地,短暂的情况,临时缓冲,和/或信息的缓存)。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (23)

1.一种文本行检测方法,包括:
对待检测图像进行预处理,以生成连通域;
对所述连通域进行过滤处理,以获取符合预设要求的连通域;
基于处理结果进行文本行识别操作。
2.根据权利要求1所述的文本行检测方法,其中,所述对待检测图像进行预处理,以生成连通域,包括:
对所述待检测图像进行二值化处理;
基于处理后的所述待检测图像生成连通域。
3.根据权利要求2所述的文本行检测方法,其中,在所述对所述待检测图像进行二值化处理后,进一步包括:
对二值化处理后的所述待检测图像进行闭运算处理。
4.根据权利要求1至3任一所述的文本行检测方法,其中,所述对所述连通域进行过滤处理,以获取符合预设要求的连通域,包括:
基于预设标准尺寸数据和获取的所述连通域的尺寸数据细过滤所述连通域,以获取符合预设要求的连通域。
5.根据权利要求4所述的文本行检测方法,其中,在所述基于预设标准尺寸数据和获取的所述连通域的尺寸数据细过滤所述连通域,以获取符合预设要求的连通域之前,进一步包括:
基于预设异常阈值和获取的所述连通域的尺寸数据粗过滤所述连通域;
对粗过滤后的所述连通域的所述尺寸数据进行聚类统计;
将出现次数达到预设次数的所述尺寸数据作为所述预设标准尺寸数据。
6.根据权利要求5所述的文本行检测方法,其中,所述预设异常阈值包括按照像素设置的预设异常阈值和/或按照所述连通域的所述尺寸数据设置的预设异常阈值。
7.根据权利要求1至6任一所述的文本行检测方法,其中,在所述对所述连通域进行过滤处理,以获取符合预设要求的连通域后,进一步包括:
基于获取的符合预设要求的所述连通域生成对应的外部矩形框。
8.根据权利要求7所述的文本行检测方法,其中,在所述基于获取的符合预设要求的所述连通域生成对应的外部矩形框后,进一步包括:
按照预设比例,基于所述外部矩形框生成扩展矩形框;
根据生成的所述扩展矩形框对所述外部矩形框进行聚合处理。
9.根据权利要求8所述的文本行检测方法,其中,所述按照预设比例,基于所述外部矩形框生成扩展矩形框,包括:
按照预设比例,将所述连通域的所述外部矩形框扩展为宽大于高的扩展矩形框,其中,所述外部矩形框和对应扩展的所述扩展矩形框的中心对齐。
10.根据权利要求8或9所述的文本行检测方法,其中,所述根据生成的所述扩展矩形框对所述外部矩形框进行聚合处理,包括:
判断至少两个连通域对应的所述扩展矩形框的IOU值是否达到预设IOU阈值范围;
当所述至少两个连通域对应的所述扩展矩形框的IOU值达到预设IOU阈值范围时,将所述至少两个连通域的所述扩展矩形框对应的所述外部矩形框进行聚合操作,以生成包括所述至少两个外部矩形框的聚合类。
11.根据权利要求10所述的文本行检测方法,其中,所述基于处理结果进行文本行识别操作,包括:
当所述聚合类中的所述外部矩形框的个数大于或等于预设个数,并且聚合类中的所述外部矩形框的中心位置坐标的方差小于预设值时,则将所述聚合类中的连通域确定为文本行。
12.一种文本行检测装置,包括:
连通域生成模块,用于对待检测图像进行预处理,以生成连通域;
过滤模块,用于对所述连通域进行过滤处理,以获取符合预设要求的连通域;
识别模块,用于基于处理结果进行文本行识别操作。
13.根据权利要求12所述的文本行检测装置,其中,所述连通域生成模块包括:
二值化处理单元,用于对所述待检测图像进行二值化处理;
生成单元,用于基于处理后的所述待检测图像生成连通域。
14.根据权利要求13所述的文本行检测装置,其中,所述连通域生成模块进一步包括:
闭运算单元,用于对二值化处理后的所述待检测图像进行闭运算处理。
15.根据权利要求12至14任一所述的文本行检测装置,其中,过滤模块包括:
细过滤单元,用于基于预设标准尺寸数据和获取的所述连通域的尺寸数据细过滤所述连通域,以获取符合预设要求的连通域。
16.根据权利要求15所述的文本行检测装置,其中,过滤模块进一步包括:
粗过滤单元,用于基于预设异常阈值和获取的所述连通域的尺寸数据粗过滤所述连通域;
聚类统计单元,用于对粗过滤后的所述连通域的所述尺寸数据进行聚类统计;
预设标准尺寸生成单元,用于将出现次数达到预设次数的所述尺寸数据作为所述预设标准尺寸数据。
17.根据权利要求16所述的文本行检测装置,其中,所述预设异常阈值包括按照像素设置的预设异常阈值和/或按照所述连通域的所述尺寸数据设置的预设异常阈值。
18.根据权利要求12至17任一所述的文本行检测装置,其中,进一步包括:
第一生成模块,用于基于获取的符合预设要求的所述连通域生成对应的外部矩形框。
19.根据权利要求18所述的文本行检测装置,其中,进一步包括:
第二生成模块,用于按照预设比例,基于所述外部矩形框生成扩展矩形框;
聚合模块,用于根据生成的所述扩展矩形框对所述外部矩形框进行聚合处理。
20.根据权利要求19所述的文本行检测装置,其中,所述第二生成模块还用于按照预设比例,将所述连通域的所述外部矩形框扩展为宽大于高的扩展矩形框,其中,所述外部矩形框和对应扩展的所述扩展矩形框的中心对齐。
21.根据权利要求19或20所述的文本行检测装置,其中,所述聚合模块包括:
判断单元,用于判断至少两个连通域对应的所述扩展矩形框的IOU值是否达到预设IOU阈值范围;
聚合单元,用于当所述至少两个连通域对应的所述扩展矩形框的IOU值达到预设IOU阈值范围时,将所述至少两个连通域的所述扩展矩形框对应的所述外部矩形框进行聚合操作,以生成包括所述至少两个外部矩形框的聚合类。
22.根据权利要求21所述的文本行检测装置,其中,所述识别模块还用于当所述聚合类中的所述外部矩形框的个数大于或等于预设个数,并且聚合类中的所述外部矩形框的中心位置坐标的方差小于预设值时,则将所述聚合类中的连通域确定为文本行。
23.一种计算机存储介质,其中,所述计算机可读存储介质上存储有文本行检测程序,所述文本行检测程序被处理器执行时实现如权利要求1至11中任一项所述的文本行检测方法的操作。
CN201880002337.2A 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置 Pending CN109874313A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN2017109531071 2017-10-13
CN201710953107.1A CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置
PCT/CN2018/110004 WO2019072233A1 (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置

Publications (1)

Publication Number Publication Date
CN109874313A true CN109874313A (zh) 2019-06-11

Family

ID=61253742

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710953107.1A Active CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置
CN201880002337.2A Pending CN109874313A (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201710953107.1A Active CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置

Country Status (3)

Country Link
US (1) US20190340460A1 (zh)
CN (2) CN107748888B (zh)
WO (1) WO2019072233A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN111126266A (zh) * 2019-12-24 2020-05-08 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理系统、设备及介质
CN111444904A (zh) * 2020-03-23 2020-07-24 Oppo广东移动通信有限公司 内容识别方法、装置以及电子设备
CN112183307A (zh) * 2020-09-25 2021-01-05 上海眼控科技股份有限公司 文本识别方法、计算机设备和存储介质

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
JP2019159633A (ja) * 2018-03-12 2019-09-19 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN110660067A (zh) * 2018-06-28 2020-01-07 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
CN109325169A (zh) * 2018-07-25 2019-02-12 北京奔流网络信息技术有限公司 一种版权图片过滤方法和装置
CN109697414B (zh) * 2018-12-13 2021-06-18 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109657629B (zh) * 2018-12-24 2021-12-07 科大讯飞股份有限公司 一种文本行提取方法及装置
CN109871743B (zh) * 2018-12-29 2021-01-12 口碑(上海)信息技术有限公司 文本数据的定位方法及装置、存储介质、终端
CN109993161B (zh) * 2019-02-25 2021-08-03 众安信息技术服务有限公司 一种文本图像旋转矫正方法及系统
CN110414505A (zh) * 2019-06-27 2019-11-05 深圳中兴网信科技有限公司 图像的处理方法、处理系统及计算机可读存储介质
CN110598566A (zh) * 2019-08-16 2019-12-20 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN110826561A (zh) * 2019-11-11 2020-02-21 上海眼控科技股份有限公司 车辆文本识别方法、装置和计算机设备
CN111144342B (zh) * 2019-12-30 2023-04-18 福建天晴数码有限公司 页面内容识别系统
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN113538450B (zh) * 2020-04-21 2023-07-21 百度在线网络技术(北京)有限公司 用于生成图像的方法及装置
CN111738326B (zh) * 2020-06-16 2023-07-11 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN117409428B (zh) * 2023-12-13 2024-03-01 南昌理工学院 一种试卷信息处理方法、系统、计算机设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100061629A1 (en) * 2008-09-05 2010-03-11 Digital Business Processes, Inc. Method and Apparatus for Binarization Threshold Calculation
US20100061655A1 (en) * 2008-09-05 2010-03-11 Digital Business Processes, Inc. Method and Apparatus for Despeckling an Image
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105095890A (zh) * 2014-04-25 2015-11-25 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN107145883A (zh) * 2016-03-01 2017-09-08 夏普株式会社 文本检测方法和设备
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2259592C2 (ru) * 2003-06-24 2005-08-27 "Аби Софтвер Лтд." Способ распознавания графических объектов с использованием принципа целостности
CN104182750B (zh) * 2014-07-14 2017-08-01 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100061629A1 (en) * 2008-09-05 2010-03-11 Digital Business Processes, Inc. Method and Apparatus for Binarization Threshold Calculation
US20100061655A1 (en) * 2008-09-05 2010-03-11 Digital Business Processes, Inc. Method and Apparatus for Despeckling an Image
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN105095890A (zh) * 2014-04-25 2015-11-25 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN107145883A (zh) * 2016-03-01 2017-09-08 夏普株式会社 文本检测方法和设备
WO2017148282A1 (zh) * 2016-03-01 2017-09-08 夏普株式会社 文本检测方法和设备
WO2017162069A1 (zh) * 2016-03-25 2017-09-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN111126266A (zh) * 2019-12-24 2020-05-08 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理系统、设备及介质
CN111126266B (zh) * 2019-12-24 2023-05-05 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理系统、设备及介质
CN111444904A (zh) * 2020-03-23 2020-07-24 Oppo广东移动通信有限公司 内容识别方法、装置以及电子设备
CN112183307A (zh) * 2020-09-25 2021-01-05 上海眼控科技股份有限公司 文本识别方法、计算机设备和存储介质

Also Published As

Publication number Publication date
CN107748888B (zh) 2019-11-08
WO2019072233A1 (zh) 2019-04-18
CN107748888A (zh) 2018-03-02
US20190340460A1 (en) 2019-11-07

Similar Documents

Publication Publication Date Title
CN109874313A (zh) 文本行检测方法及文本行检测装置
US10896349B2 (en) Text detection method and apparatus, and storage medium
CN108710865B (zh) 一种基于神经网络的司机异常行为检测方法
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN106407883A (zh) 一种复杂表格及其内部手写数字识别方法
CN105205488B (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN104182750A (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN101777124A (zh) 一种提取视频文本信息的方法及装置
CN105139386A (zh) 一种快速自动检测电气接插件焊点不合格品的图像处理方法
CN106503711A (zh) 一种文字识别方法
JP2012003756A (ja) 光学式文字認識用に画像を前処理するための方法およびシステム
CN105868708A (zh) 一种图像目标识别方法及装置
CN104766076A (zh) 一种视频图像文字的检测方法和装置
CN104750678A (zh) 一种图像文本识别翻译眼镜及方法
CN111695373B (zh) 斑马线的定位方法、系统、介质及设备
CN110569774A (zh) 基于图像处理与模式识别的折线图图像自动数字化方法
CN204537126U (zh) 一种图像文本识别翻译眼镜
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN106778752A (zh) 一种文字识别方法
CN104657721A (zh) 一种基于自适应模板的视频osd时间识别方法
KR20160146355A (ko) 이미지 내의 텍스트를 검출하는 방법 및 장치
CN112749696A (zh) 一种文本检测方法及装置
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
CN109558875A (zh) 基于图像自动识别的方法、装置、终端及存储介质
CN114399617A (zh) 一种遮挡图案识别方法、装置、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40004159

Country of ref document: HK

WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20190611

WD01 Invention patent application deemed withdrawn after publication