CN107748888B - 一种图像文本行检测方法及装置 - Google Patents

一种图像文本行检测方法及装置 Download PDF

Info

Publication number
CN107748888B
CN107748888B CN201710953107.1A CN201710953107A CN107748888B CN 107748888 B CN107748888 B CN 107748888B CN 201710953107 A CN201710953107 A CN 201710953107A CN 107748888 B CN107748888 B CN 107748888B
Authority
CN
China
Prior art keywords
connected domain
rectangle frame
image
text
standard
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710953107.1A
Other languages
English (en)
Other versions
CN107748888A (zh
Inventor
李宏宇
彭宇翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Zhongan Information Technology Service Co ltd
Original Assignee
Zhongan Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongan Information Technology Service Co Ltd filed Critical Zhongan Information Technology Service Co Ltd
Priority to CN201710953107.1A priority Critical patent/CN107748888B/zh
Publication of CN107748888A publication Critical patent/CN107748888A/zh
Priority to CN201880002337.2A priority patent/CN109874313A/zh
Priority to PCT/CN2018/110004 priority patent/WO2019072233A1/zh
Priority to US16/513,883 priority patent/US20190340460A1/en
Application granted granted Critical
Publication of CN107748888B publication Critical patent/CN107748888B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种图像文本行检测方法及装置,属于计算机图像处理领域。方法包括:对输入图像进行二值化预处理,获取预处理后的二值化图像;对二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域,以及对符合标准字体尺寸的连通域生成外部矩形框;按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据扩展矩形框对外部矩形框进行聚合处理;根据聚合处理结果进行文本行识别。从而根据外部矩形框的聚合处理结果进行文本行识别,使得在提高图像文本行检测速度的同时保证其检测精度和准确率,提高了检测效率,且实现方式简便,方便操作。

Description

一种图像文本行检测方法及装置
技术领域
本发明涉及计算机图像处理领域,特别涉及一种图像文本行检测方法及装置。
背景技术
图像中的文本行检测一直是文本图像处理的研究热点,也是OCR(光学字符识别)的最重要环节之一,由于图像中的文本部分常包含图像的重要信息,所以对图像中的文本行进行检测对于图像分析、图像信息获取具有重要作用。
现有的文本行检测方法主要有传统方法和深度学习的方法。深度学习的方法适用的场景比较广泛广,识别的精度也相对较高,但是其需要大量的高质量标注过的数据和长时间的训练调参过程,且每次检测时运算量巨大,耗时久,不利于快速识别处理;而传统方法则有精度不高的问题,有较多的误报(false positive),需要后处理去除。所以需要提供一种既快速又不失准确率的图像文本行检测。
发明内容
为了在提高图像文本行检测速度的同时保证其检测精度和准确率,提高检测效率,本发明实施例提供了一种图像文本行检测方法及装置。所述技术方案如下:
第一方面,提供了一种图像文本行检测方法,所述方法包括:
对输入图像进行二值化预处理,获取预处理后的二值化图像;
对所述二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域,以及对所述符合标准字体尺寸的连通域生成外部矩形框;
按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据所述扩展矩形框对所述外部矩形框进行聚合处理;
根据所述聚合处理结果进行文本行识别。
结合第一方面,在第一种可能实现的方式中,所述过滤处理包括粗过滤和细过滤,所述对所述二值化图像中的连通域进行粗过滤处理包括:
获取所述二值化图像中的连通域,根据预设异常阈值,过滤所述连通域中异常的连通域,所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
结合第一方面的第一种可能实现的方式,在第二种可能实现的方式中,所述对所述二值化图像中的连通域进行细过滤处理包括:
以所述标准字体尺寸为标准,按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域;以及
获取所述二值化图像中所述细过滤处理后的连通域。
结合第一方面或第一方面的第二种可能实现的方式,在第三种可能实现的方式中,所述按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据所述扩展矩形框对所述外部矩形框进行聚合处理包括:
按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,所述扩展矩形框与其对应的所述外部矩形框中心对齐;
判断两个连通域的所述扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合;若否,则不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合。
结合第一方面的第三种可能实现的方式,在第四种可能实现的方式中,所述根据所述聚合处理结果进行文本行识别包括:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;
若聚合后矩形框小于所述预设个数,或中心位置y分布分散,则确定为不是文本行。
第二方面,提供了一种图像文本行检测装置,所述装置包括:
预处理模块,用于对输入图像进行二值化预处理,获取预处理后的二值化图像;
过滤处理模块,用于对所述二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域;
外部矩形框生成模块,用于对所述符合标准字体尺寸的连通域生成外部矩形框;
扩展矩形框生成模块,用于按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框;
聚合处理模块,用于根据所述扩展矩形框对所述外部矩形框进行聚合处理;
文本行识别模块,用于根据所述聚合处理结果进行文本行识别。
结合第二方面,在第一种可能实现的方式中,所述过滤模块包括粗过滤子模块和细过滤子模块,所述粗过滤子模块具体包括:
异常连通域过滤单元,用于获取所述二值化图像中的连通域,根据预设异常阈值,过滤所述连通域中异常的连通域,所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
聚类单元,用于获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
结合第二方面的第一种可能实现的方式,在第二种可能实现的方式中,所述细过滤子模块具体用于:
以所述标准字体尺寸为标准,按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域中;以及
获取所述二值化图像中所述细过滤处理后的连通域。
结合第二方面或第二方面的第二种可能实现的方式,在第三种可能实现的方式中,
所述扩展矩形框生成模块具体用于按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,所述扩展矩形框与其对应的所述外部矩形框中心对齐;
所述聚合处理模块包括判断子模块和聚合子模块;
所述判断子模块用于判断两个连通域的所述扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则所述聚合子模块将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合;若否,则所述聚合子模块不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合。
结合第二方面的第三种可能实现的方式,在第四种可能实现的方式中,所述文本行识别模块具体用于:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;
若聚合后矩形框小于所述预设个数,或中心位置y分布分散,则确定为不是文本行。
本发明实施例提供的技术方案带来的有益效果是:
本发明实施例提供了一种图像文本行检测方法及装置,方法通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率;进一步地,通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,因为生成的扩展矩形框与其对应的外部矩形框中心对齐,所以以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结合对文本行进行识别,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的方法,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种图像文本行检测方法流程图;
图2是本发明实施例提供的需要进行图本行检测的示例输入图像;
图3是本发明实施例提供的对示例输入图像进行预处理后的示意图像;
图4是本发明实施例提供的对预处理后的图像进行过滤处理后的示意图像;
图5是本发明实施例提供的对过滤处理后的图像进行聚合处理后的示意图像;
图6是本发明实施例提供的对示例输入图像最终文本检测结果的示意图像;
图7是本发明实施例提供的一种图像文本检测装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种图像文本行检测方法,参照图1所示,该方法包括:
101、对输入图像进行二值化预处理,获取预处理后的二值化图像。
其中,输入的图像中包含不同类型的对象,如文字、插图、Logo、条形码二维码、各种符号等;在图像中文本的形式可以包括不同字体、不同字号、不同语言文字(如中文、英文等)、数字、拉丁字母等;为了说明本发明实施例所述文本行检测方法,将以示例图进行说明,该输入图像可以为图2所示的图像。
具体的,采用Sauvola二值化方式对输入的图像进行二值化预处理,Sauvola二值方式对光照分布不均匀的图像有较好的处理效果,能够有效避免由于图像的光照分布不均匀造成二值化预处理效果不佳影响文本行识别的问题,从而通过采用Sauvola进一步提高了文本行识别的效果和准确度。该过程可以包括:
a、通过Sauvola二值化方式对图像进行二值化预处理时,预先设定所要处理的输入图像的处理窗口参数。
具体的,需要设定对输入图像处理的窗口大小(m*n)和阈值(k)两个参数。窗口大小(m*n)和阈值k均可以为经验值,窗口大小(m*n)的取值范围为[9,13],k的取值范围为[0.05,0.11];
其中,采用的Sauvola二值化算法可以使用均值,如果算法中标准差大,则设定的阈值k数值较大,标准差小,阈值K数值相应较小。
b、对Sauvola二值化预处理后的图像进行闭运算处理。
具体的,预处理后的文字可能会被断开,此时需要用形态学的闭运算方法将断开的文字重新连接起来。闭运算可以使用边长为L的正方形结构元,L为经验值,取值范围为[3,7]。
其中,参照图3所示,为对图2中所示的输入图像进行二值化预处理后获取的图像示意图。
通过在Sauvola二值化预处理后,再进行闭操作,能够尽可能的确保一个中文连入同一连通域,提高了中文字符的检测精度,方便了后续基于连通域对图像中文本行进行识别。
102、对二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域。
本发明实施例所采用的过滤处理包括粗过滤和细过滤,在实际应用中过滤也可以采用其他方式,本发明实施例对此不加以限定。
对二值化图像中的连通域进行粗过滤处理的过程可以包括:
a、获取二值化图像中的连通域,根据预设异常阈值,过滤连通域中异常的连通域。
其中,异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;按像素设置的异常阈值可以为像素个数少于10或多于100000,按连通域宽高比设置的异常阈值可以为宽高比或高宽比为15,此处异常阈值的具体设置可以为经验值。
具体的,若该异常阈值包括按像素设置的异常阈值,则根据预设异常阈值,过滤该连通域中异常的连通域包括:
获取二值化图像中的连通域,去除像素个数少于10的连通域,或者去除像素个数多于100000的连通域,或者去除像素个数少于10和去除像素个数多于100000的连通域。
若该异常阈值包括按宽高比设置的异常阈值,则根据预设异常阈值,过滤该连通域中异常的连通域包括:
获取二值化图像中的连通域,并获取每个连通域的宽高值,去除宽高比或高宽比大于15的连通域。
b、获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
具体的,对于粗过滤后剩余的连通域生成对应的外部矩形框,统计每个剩余连通域的外部矩形框的宽高值,该外部矩形框的宽高值作为对应的每个连通域的宽高值;
通过统计聚类算法对该每个剩余连通域的宽高值进行聚类,统计每个宽高值出现的频次,获取出现次数最多的连通域宽高值,将该出现次数最多的连通域宽高值作为标准宽高值;该标准高宽值即为获取的标准字体的高宽尺寸值。
对二值化图像中的连通域进行细过滤处理的过程可以包括:
a、以标准字体尺寸为标准,按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域;
其中,该预设倍数可以为宽为该标准字体尺寸的宽的3倍,高为该标准字体尺寸的高的3倍,需要说明的是,该预设倍数根据细过滤的实际需求进行设备,为经验值,本发明实施例对该预设倍数不加以限定;
具体的,对于粗过滤剩余的连通域,再次过滤该剩余连通域中宽大于该标准字体宽的3倍的连通域,或过滤高大于该标准字体高的3倍的连通域,或者过滤宽大于该标准字体宽的3倍及高大于该标准字体高的3倍的连通域。
通过对粗过滤后剩余的连通域再次进行细过滤,能够去除图像中非文字的图像区域,从而去除了图像中非文字图像区域对于文本行识别的干扰,进一步方便了后续对文本行的识别,提高了识别效率和精度。
b、获取二值化图像中细过滤处理后的连通域。
具体的,对于预处理后的二值化图像进行粗过滤及细过滤处理,获取过滤后最后剩余的连通域。
其中,参照图4所示,为对图3中所示的经过预处理获取的二值化图像进行过滤处理,获取的过滤处理后的图像示意图。
103、对符合标准字体尺寸的连通域生成外部矩形框。
具体的,该过程包括:
对于102b步骤中粗过滤后剩余的连通域生成的对应的外部矩形框中,去除其中经细过滤处理过滤掉的连通域对应的外部矩形框;或者
根据粗过滤和细过滤处理后,获取剩余的符合标准字体尺寸的连通域,以及生成对应的外部矩形框。
通过对符合标准字体尺寸的连通域生成外部矩形框,方便了对连通域的宽高值进行统计,从而进一步提高了识别的速度,提高了识别的效率。
104、按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据扩展矩形框对外部矩形框进行聚合处理。
a、该按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框的过程可以包括:
按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,扩展矩形框与其对应的外部矩形框中心对齐。
具体的,扩展矩形框按照该预设比例,即可以按该扩展矩形框的宽为该连通域新的宽的2.8倍,该扩展矩形框的高为该连通域的高的0.3倍进行扩展生成该扩展矩形框;此处需要说明的是,该扩展比例的具体设置可以根据具体需要进行设置,该数值为经验值,为在多次试验过程中获取,也可以为其他值,本发明实施例对此不加以限定。
b、根据扩展矩形框对外部矩形框进行聚合处理的过程可以包括:
判断两个连通的扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则将该两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,则不将该两个连通域的扩展矩形框对应的外部矩形框进行聚合;
该IOU阈值可以为0.1。
其中,参照图5所示,为对图4中所示的对于过滤处理后的图像经过聚合处理,获取的聚合处理后的图像示意图。
通过根据扩展矩形框的相交情况对连通域的外部矩形框进行聚合,该方法简单直观,便于对于不同场景变换调整参数及修正。
105、根据聚合处理结果进行文本行识别。
其中,文本行包括水平文本行、竖直文本行以及斜向的文本行等,其中,运用最多的为水平文本行的识别;
根据聚合处理结果对于水平文本行可以通过以下方式进行识别:
具体的,若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为水平文本行;该预设个数可以为2,该坐标y方差预设值可以为0.2;
若聚合后矩形框小于预设个数,或中心位置y分布分散,则确定为不是水平文本行。
其中,参照图6所示,为图中2中所示的输入图像的最终文本行检测结果的图像示意图。
需要说明的是,对于竖直文本行、和斜向文本行进行识别时,可以根据实际试验设置对应的参数,如识别竖直文本行时,聚合后矩形框个数大于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的x的方差小于预设值,以确定是否为纵向文本行,其中的预设个数及x的方差的预设值可以根据实际进行设置;以及对于斜向文本行的识别原理与水平文本行及斜向文本行类似,此处不再一一进行说明。
同时,需要说明的是,对于文本行识别主要是区分聚合后的边框内容是属于文本行还是非文字图像;其中,识别方式还可以采用复杂的分类方法(如SVM),或者可以采用简单的二分类判定准则。文本行特征主要通过边框内的连通域进行提取,简单起见,一般可直接采用边框中心位置。复杂分类方法(如SVM)一般需要预先将文本行收集好用于训练分类器,然后将文本行特征输入到训练好的分类器中,判断是否为文本行类。二分类判定准则主要是通过判定候选文本行内边框位置是否按线性排列分布(如:沿水平线分布),若是则认为是文本行,否则不是;除此以外,也可以采用其他的识别方法,本发明实施例对具体的识别方式不加以限定。
通过聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,以确定为水平文本行,该方法相较于多层网络的DNN模型,该方法实现方式简便,运算精简,能够在快速检测的基础上提高检测的精度。
本发明实施例提供了一种图像文本行检测方法,通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率;进一步地,通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,因为生成的扩展矩形框与其对应的外部矩形框中心对齐,所以以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结合对文本行进行识别,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的方法,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
实施例二
本发明实施例提供了一种图像文本行检测装置,参照图7所示,装置7包括:
预处理模块71,用于对输入图像进行二值化预处理,获取预处理后的二值化图像;
过滤处理模块72,用于对二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域;
外部矩形框生成模块73,用于对符合标准字体尺寸的连通域生成外部矩形框;
扩展矩形框生成模块74,用于按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框;
聚合处理模块75,用于根据扩展矩形框对外部矩形框进行聚合处理;
文本行识别模块76,用于根据聚合处理结果进行文本行识别。
进一步地,过滤模块72包括粗过滤子模块721和细过滤子模块722,粗过滤子模块721具体包括:
异常连通域过滤单元7211,用于获取二值化图像中的连通域,根据预设异常阈值,过滤连通域中异常的连通域,异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
聚类单元7212,用于获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
进一步地,细过滤子模块722具体用于:
以标准字体尺寸为标准,按照标准字体尺寸的宽高值的预设倍数过滤二值化图像中粗过滤后的剩余连通域;以及
获取二值化图像中细过滤处理后的连通域。
进一步地,扩展矩形框生成模块74具体用于按照预设比例将每个符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,扩展矩形框与其对应的外部矩形框中心对齐;
聚合处理模块75包括判断子模块751和聚合子模块752;
判断子模块751用于判断两个连通域的扩展矩形框的IOU值(相交范围占两个连通域并集的比例)是否在预设IOU阈值范围内,若是,则聚合子模块752将两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,聚合子模块752不将两个连通域的扩展矩形框对应的外部矩形框进行聚合。
进一步地,文本行识别模块76具体用于:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;
若聚合后矩形框小于预设个数,或中心位置y分布分散,则确定为不是文本行。
本发明实施例提供了一种图像文本行检测装置,该装置通过对输入图像进行二值化预处理,对二值化图像中的连通域进行过滤处理,通过过滤处理能够去除异常的连通域以及去除非文字的图像区域,从而避免了异常连通域及非文字图像区域对于文本行检测的干扰,从而提高了文本行的检测精确度,以及能够提高文本行检测的效率;进一步地,通过按照预设比例将每个符合标准字体尺寸的连通域进行扩展生成扩展矩形框,因为生成的扩展矩形框与其对应的外部矩形框中心对齐,所以以扩展矩形框为参照,对外部矩形框进行聚合,从而根据聚合结合对文本行进行识别,因为对外部矩形框聚合后能够获取到聚合中心的坐标,以及若预设个数的外部矩形框相连,则可识别为文本行,从而通过本发明实施例提供的方法,在提高图像文本行检测速度的同时保证了检测精度和准确率,提高了检测效率。
上述所有可选技术方案,可以采用任意结合形成本发明的可选实施例,在此不再一一赘述。
需要说明的是:上述实施例提供的图像文本行检测装置在执行图像文本行检测方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像文本行检测装置与图像文本行检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种图像文本行检测方法,其特征在于,所述方法包括:
对输入图像进行二值化预处理,获取预处理后的二值化图像;
对所述二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域,以及对所述符合标准字体尺寸的连通域生成外部矩形框;
按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框,及根据所述扩展矩形框对所述外部矩形框进行聚合处理;
根据所述聚合处理结果进行文本行识别;
其中,所述根据所述扩展矩形框对所述外部矩形框进行聚合处理,包括:判断两个连通域的所述扩展矩形框的IOU值是否在预设IOU阈值范围内,若是,则将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合,其中,IOU指相交范围占两个连通域并集的比例。
2.根据权利要求1所述的方法,其特征在于,所述过滤处理包括粗过滤和细过滤,对所述二值化图像中的连通域进行粗过滤处理包括:
获取所述二值化图像中的连通域,根据预设异常阈值,过滤所述连通域中异常的连通域,所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
3.根据权利要求2所述的方法,其特征在于,对所述二值化图像中的连通域进行细过滤处理包括:
以所述标准字体尺寸为标准,按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域,其中,所述预设倍数包括剩余连通域的宽与所述标准字体尺寸的宽的倍数,以及剩余连通域的高与所述标准字体尺寸的高的倍数;以及
获取所述二值化图像中所述细过滤处理后的连通域。
4.根据权利要求1或3所述的方法,其特征在于,所述按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框,包括:
按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,所述扩展矩形框与其对应的所述外部矩形框中心对齐。
5.根据权利要求4所述的方法,其特征在于,所述根据所述聚合处理结果进行文本行识别包括:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;
若聚合后矩形框小于所述预设个数,或中心位置y分布分散,则确定为不是文本行。
6.根据权利要求1至3任意一项所述的方法,其特征在于,采用Sauvola二值化方式对输入图像进行二值化预处理,其中,通过Sauvola二值化方式对图像进行二值化预处理时,预先设定所要处理的输入图像的处理窗口参数,并对Sauvola二值化预处理后的图像进行闭运算处理。
7.一种图像文本行检测装置,其特征在于,所述装置包括:
预处理模块,用于对输入图像进行二值化预处理,获取预处理后的二值化图像;
过滤处理模块,用于对所述二值化图像中的连通域进行过滤处理,获取过滤处理后标准字体的尺寸及符合标准字体尺寸的连通域;
外部矩形框生成模块,用于对所述符合标准字体尺寸的连通域生成外部矩形框;
扩展矩形框生成模块,用于按照预设比例将每个所述符合标准字体尺寸的连通域进行扩展生成扩展矩形框;
聚合处理模块,用于根据所述扩展矩形框对所述外部矩形框进行聚合处理;
文本行识别模块,用于根据所述聚合处理结果进行文本行识别;
其中,所述聚合处理模块包括判断子模块和聚合子模块;
所述判断子模块用于判断两个连通域的所述扩展矩形框的IOU值是否在预设IOU阈值范围内,若是,则所述聚合子模块将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合;否则,所述聚合子模块不将所述两个连通域的扩展矩形框对应的外部矩形框进行聚合,其中,IOU指相交范围占两个连通域并集的比例。
8.根据权利要求7所述的装置,其特征在于,所述过滤模块包括粗过滤子模块和细过滤子模块,所述粗过滤子模块具体包括:
异常连通域过滤单元,用于获取所述二值化图像中的连通域,根据预设异常阈值,过滤所述连通域中异常的连通域,所述异常阈值包括按像素设置的异常阈值或按连通域宽高比设置的异常阈值;
聚类单元,用于获取粗过滤后的剩余连通域的宽高值,通过统计聚类算法对所述过滤后的剩余连通域的宽高值进行聚类,统计出现次数最多的连通域宽高值作为标准字体的尺寸。
9.根据权利要求8所述的装置,其特征在于,所述细过滤子模块具体用于:
以所述标准字体尺寸为标准,按照所述标准字体尺寸的宽高值的预设倍数过滤所述二值化图像中粗过滤后的剩余连通域,其中,所述预设倍数包括剩余连通域的宽与所述标准字体尺寸的宽的倍数,以及剩余连通域的高与所述标准字体尺寸的高的倍数;以及
获取所述二值化图像中所述细过滤处理后的连通域。
10.根据权利要求7或9所述的装置,其特征在于,
所述扩展矩形框生成模块具体用于按照预设比例将每个所述符合标准字体尺寸的连通域转化为宽大于高的扩展矩形框,其中,所述扩展矩形框与其对应的所述外部矩形框中心对齐。
11.根据权利要求10所述的装置,其特征在于,所述文本行识别模块具体用于:
若聚合后矩形框个数大于等于预设个数,且聚合类中矩形框中心位置坐标center(x,y)的y方差小于预设值,则确定为文本行;
若聚合后矩形框小于所述预设个数,或中心位置y分布分散,则确定为不是文本行。
12.根据权利要求7至9任意一项所述的装置,其特征在于,预处理模块用采用Sauvola二值化方式对输入图像进行二值化预处理,其中,通过Sauvola二值化方式对图像进行二值化预处理时,预先设定所要处理的输入图像的处理窗口参数,并对Sauvola二值化预处理后的图像进行闭运算处理。
CN201710953107.1A 2017-10-13 2017-10-13 一种图像文本行检测方法及装置 Active CN107748888B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201710953107.1A CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置
CN201880002337.2A CN109874313A (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置
PCT/CN2018/110004 WO2019072233A1 (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置
US16/513,883 US20190340460A1 (en) 2017-10-13 2019-07-17 Text line detecting method and text line detecting device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710953107.1A CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置

Publications (2)

Publication Number Publication Date
CN107748888A CN107748888A (zh) 2018-03-02
CN107748888B true CN107748888B (zh) 2019-11-08

Family

ID=61253742

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201710953107.1A Active CN107748888B (zh) 2017-10-13 2017-10-13 一种图像文本行检测方法及装置
CN201880002337.2A Pending CN109874313A (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201880002337.2A Pending CN109874313A (zh) 2017-10-13 2018-10-12 文本行检测方法及文本行检测装置

Country Status (3)

Country Link
US (1) US20190340460A1 (zh)
CN (2) CN107748888B (zh)
WO (1) WO2019072233A1 (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置
JP2019159633A (ja) * 2018-03-12 2019-09-19 セイコーエプソン株式会社 画像処理装置、画像処理方法および画像処理プログラム
CN110660067A (zh) * 2018-06-28 2020-01-07 杭州海康威视数字技术股份有限公司 一种目标检测方法及其装置
CN109325169A (zh) * 2018-07-25 2019-02-12 北京奔流网络信息技术有限公司 一种版权图片过滤方法和装置
CN109697414B (zh) * 2018-12-13 2021-06-18 北京金山数字娱乐科技有限公司 一种文本定位方法及装置
CN109657629B (zh) * 2018-12-24 2021-12-07 科大讯飞股份有限公司 一种文本行提取方法及装置
CN109871743B (zh) * 2018-12-29 2021-01-12 口碑(上海)信息技术有限公司 文本数据的定位方法及装置、存储介质、终端
CN109993161B (zh) * 2019-02-25 2021-08-03 众安信息技术服务有限公司 一种文本图像旋转矫正方法及系统
CN110414529A (zh) * 2019-06-26 2019-11-05 深圳中兴网信科技有限公司 试卷信息提取方法、系统及计算机可读存储介质
CN110414505A (zh) * 2019-06-27 2019-11-05 深圳中兴网信科技有限公司 图像的处理方法、处理系统及计算机可读存储介质
CN110598566A (zh) * 2019-08-16 2019-12-20 深圳中兴网信科技有限公司 图像处理方法、装置、终端和计算机可读存储介质
CN110826561A (zh) * 2019-11-11 2020-02-21 上海眼控科技股份有限公司 车辆文本识别方法、装置和计算机设备
CN111126266B (zh) * 2019-12-24 2023-05-05 上海智臻智能网络科技股份有限公司 文本处理方法、文本处理系统、设备及介质
CN111144342B (zh) * 2019-12-30 2023-04-18 福建天晴数码有限公司 页面内容识别系统
CN111259764A (zh) * 2020-01-10 2020-06-09 中国科学技术大学 文本检测方法、装置、电子设备及存储装置
JP2021149439A (ja) * 2020-03-18 2021-09-27 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN111444904A (zh) * 2020-03-23 2020-07-24 Oppo广东移动通信有限公司 内容识别方法、装置以及电子设备
CN113538450B (zh) * 2020-04-21 2023-07-21 百度在线网络技术(北京)有限公司 用于生成图像的方法及装置
CN111738326B (zh) * 2020-06-16 2023-07-11 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN112183307A (zh) * 2020-09-25 2021-01-05 上海眼控科技股份有限公司 文本识别方法、计算机设备和存储介质
CN117409428B (zh) * 2023-12-13 2024-03-01 南昌理工学院 一种试卷信息处理方法、系统、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036461B2 (en) * 2003-06-24 2011-10-11 Abbyy Software Limited Method of graphical objects recognition using the integrity principle
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN105095890A (zh) * 2014-04-25 2015-11-25 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8224114B2 (en) * 2008-09-05 2012-07-17 The Neat Company, Inc. Method and apparatus for despeckling an image
US8144986B2 (en) * 2008-09-05 2012-03-27 The Neat Company, Inc. Method and apparatus for binarization threshold calculation
CN104751142B (zh) * 2015-04-01 2018-04-27 电子科技大学 一种基于笔划特征的自然场景文本检测方法
CN107145883A (zh) * 2016-03-01 2017-09-08 夏普株式会社 文本检测方法和设备
CN107229932B (zh) * 2016-03-25 2021-05-28 阿里巴巴集团控股有限公司 一种图像文本的识别方法和装置
CN107748888B (zh) * 2017-10-13 2019-11-08 众安信息技术服务有限公司 一种图像文本行检测方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8036461B2 (en) * 2003-06-24 2011-10-11 Abbyy Software Limited Method of graphical objects recognition using the integrity principle
CN102930262A (zh) * 2012-09-19 2013-02-13 北京百度网讯科技有限公司 一种从图像中提取文字行的方法及装置
CN105095890A (zh) * 2014-04-25 2015-11-25 广州市动景计算机科技有限公司 图像中字符分割方法及装置
CN104182750A (zh) * 2014-07-14 2014-12-03 上海交通大学 一种在自然场景图像中基于极值连通域的中文检测方法
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统

Also Published As

Publication number Publication date
US20190340460A1 (en) 2019-11-07
WO2019072233A1 (zh) 2019-04-18
CN109874313A (zh) 2019-06-11
CN107748888A (zh) 2018-03-02

Similar Documents

Publication Publication Date Title
CN107748888B (zh) 一种图像文本行检测方法及装置
CN104182750B (zh) 一种在自然场景图像中基于极值连通域的中文检测方法
CN101777124A (zh) 一种提取视频文本信息的方法及装置
CN101510258B (zh) 一种证件验证方法、系统及一种证件验证终端
CN104778470B (zh) 基于组件树和霍夫森林的文字检测和识别方法
CN104820986B (zh) 一种基于机器视觉的线缆在线检测方法
Sulaiman et al. Development of automatic vehicle plate detection system
CN113083804A (zh) 激光智能除锈方法、系统及可存读介质
CN103310211A (zh) 一种基于图像处理的填注标记识别方法
CN109086772A (zh) 一种扭曲粘连字符图片验证码的识别方法及系统
CN103295009A (zh) 基于笔画分解的车牌字符识别方法
CN110942063B (zh) 证件文字信息获取方法、装置以及电子设备
Yingthawornsuk et al. Automatic Thai Coin Calculation System by Using SIFT
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法
Wu et al. Contour restoration of text components for recognition in video/scene images
CN111767909B (zh) 一种字符识别方法、设备及计算机可读存储介质
Xue Optical character recognition
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
CN105069455A (zh) 一种发票公章过滤的方法及装置
Romic et al. Character recognition based on region pixel concentration for license plate identification
Deb et al. Statistical characteristics in HSI color model and position histogram based vehicle license plate detection
CN114926635A (zh) 与深度学习方法相结合的多焦图像中目标分割方法
CN114332983A (zh) 人脸图像清晰度检测方法、装置、电子设备、及介质
Gopalan et al. Statistical modeling for the detection, localization and extraction of text from heterogeneous textual images using combined feature scheme

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240306

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240415

Address after: Room 1179, W Zone, 11th Floor, Building 1, No. 158 Shuanglian Road, Qingpu District, Shanghai, 201702

Patentee after: Shanghai Zhongan Information Technology Service Co.,Ltd.

Country or region after: China

Address before: 518000 Room 201, building A, No. 1, Qian Wan Road, Qianhai Shenzhen Hong Kong cooperation zone, Shenzhen, Guangdong (Shenzhen Qianhai business secretary Co., Ltd.)

Patentee before: ZHONGAN INFORMATION TECHNOLOGY SERVICE Co.,Ltd.

Country or region before: China