CN111914830A - 一种图像中的文本行定位方法、装置、设备及系统 - Google Patents

一种图像中的文本行定位方法、装置、设备及系统 Download PDF

Info

Publication number
CN111914830A
CN111914830A CN201910376997.3A CN201910376997A CN111914830A CN 111914830 A CN111914830 A CN 111914830A CN 201910376997 A CN201910376997 A CN 201910376997A CN 111914830 A CN111914830 A CN 111914830A
Authority
CN
China
Prior art keywords
image
text
region
text line
poi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910376997.3A
Other languages
English (en)
Inventor
刘昕冉
陈泰红
郝志会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910376997.3A priority Critical patent/CN111914830A/zh
Publication of CN111914830A publication Critical patent/CN111914830A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种图像中的文本行定位方法、装置、设备及系统。所述方法包括:对输入图像进行文本行定位,确定输入图像的各个文本行区域;对输入图像进行区域分割,得到图像的兴趣点POI区域;确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。本发明解决了现有技术中图像的POI区域的文本行定位不准确的问题。

Description

一种图像中的文本行定位方法、装置、设备及系统
技术领域
本发明涉及图像处理技术领域,特别涉及一种图像中的文本行定位方法、装置、设备及系统。
背景技术
在自然场景中存在大量的文本,比如,道路两侧的建筑物的门牌、标识牌、墙壁、汽车玻璃上的文字,这些文字一般包含有明确的语义信息。在地图数据制作时,需要收集大量的自然场景图像,确定出自然场景图像中的兴趣点(Point of Interest,POI)区域,识别出自然场景中POI区域上的文字信息,就可以得到POI数据。在进行文字识别之前,需要定位出POI区域的文本行位置。由于自然场景中的POI区域和非POI区域的种类和数量多,需要确定精确的POI区域,并且不同POI区域的文本行的文字布局方向和文字间隔各有不同,因此,还需要对POI区域的文本行准确的定位。
现有技术中,一般采用基于检测的文本行定位算法或基于语义分割的文本行定位算法对图像中的文本行进行定位。但是,基于检测的文本行定位算法,一般都是输出矩形检测框,主要是基于水平文本的检测与识别,当文本行为倾斜的文本行时,矩形检测框内会覆盖大量的背景区域,导致文本行检测框不准,无法确定准确的文本行区域,对于后续文本识别也造成了困难。而基于语义分割的文本行定位算法,由于缺乏边缘约束,无法分割临近文本行,在定位左右距离较近的两列文本区域或者上下贴合较近的两行文本区域时,无法区分不同的文本行,给后续文字识别带来了很大的困难。
发明内容
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的一种图像中的文本行定位方法、装置、设备及系统。
第一方面,本发明实施例提供一种图像中的文本行定位方法,包括如下步骤:
对输入图像进行文本行定位,确定输入图像的各个文本行区域;
对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
第二方面,本发明实施例提供一种图像中的文本行定位装置,包括:
文本行区域确定模块,用于对输入图像进行文本行定位,确定输入图像的各个文本行区域;
POI区域确定模块,用于对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
文本行组合模块,用于确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
版面分析模块,用于对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
第三方面,本发明实施例提供一种服务器,包括:
接收装置,用于接收终端设备采集的图像;
上述图像中的文本行定位装置;
第一存储器,存储采集的图像以及每个POI区域的文本行信息。
第四方面,本发明实施例提供一种图像中的文本行定位系统,包括:移动采集设备和上述的服务器;
所述移动采集设备,用于采集图像,采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到所述服务器;
所述服务器,用于对图像中的文本行进行定位。
第五方面,本发明实施例提供一种移动采集设备,包括:
第一图像采集装置,用于采集图像,并发送到第一处理器;
第一处理器,用于采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到服务器。
第六方面,本发明实施例提供一种采集车,在车辆上设置图像采集设备,所述图像采集设备包括:
第二图像采集装置,用于采集图像,并发送到第二处理器;
第二处理器,设置图像识别装置和上述图像中的文本行定位装置,所述图像识别装置用于采用选定的判断方法判断采集的图像是否是异常图像,若否,则将图像输入图像中的文本行定位装置;图像中的文本行定位装置用于实现对图像中的文本行进行定位;
第二存储器,存储采集的图像以及每个POI区域的文本行信息。
第七方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的图像中的文本行定位方法。
第八方面,本发明实施例提供一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述图像中的文本行定位方法。
本发明实施例提供的上述技术方案的有益效果至少包括:
本发明实施例提供的上述图像中的文本行定位方法,通过对输入图像分别进行文本行定位和POI区域分割,精确定位不同的文本行。能够将相邻文本行拆分,避免出现大面积的文本行区域,影响后续文本识别效果,并且能够对包括倾斜的文本行的不同朝向的文本行进行分割,得到准确的文本区域的文本及边界位置,文本行定位精确;能够有效地检测并分割图像中的目标,对自然场景中的不同类别的各个POI区域进行分类和分割,能够得到图像中的各个POI区域准确的分割结果。通过确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,能够去除出现在非POI区域的文本行噪声;对各个POI区域的文本行区域进行版面分析,将同一POI区域与文本行区域进行关联,以便于进行文本识别,得到有效的POI数据。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中图像中的文本行定位方法流程图;
图2为本发明实施例中另一图像中的文本行定位方法流程图;
图3为本发明实施例中实体分割模型的RPN的开端模块示意图;
图4为本发明实施例中非POI区域的文本行去除方法流程图;
图5为本发明实施例中又一图像中的文本行定位方法流程图;
图6为本发明实施例中图像中的文本行定位装置示意图;
图7为本发明实施例中一种服务器的结构示意图;
图8为本发明实施例中一种图像中的文本行定位系统的结构示意图;
图9为图8所示的图像中的文本行定位系统的移动采集设备的结构示意图;
图10为图9所示的移动采集设备的第一处理器的结构示意图;
图11为本发明实施例一个具体输入图像的示意图;
图12为确定出的图11所示的输入图像的文本行区域结果示意图;
图13为确定出的图12所示的输入图像的POI区域结果示意图;
图14为确定出的图12所示的输入图像的每个POI区域的文本行信息结果示意图;
图15为本发明实施例中采集车的图像采集设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例1:
本发明实施例针对上述现有技术存在的问题,提供了一种图像中的文本行定位方法,基于自然场景的兴趣点(POI)数据实现对文本行的定位,应用于地图数据制作对自然场景图像的处理,其流程参照图1所示,包括如下步骤:
S11:对输入图像进行文本行定位,确定输入图像的各个文本行区域;
该步骤可以是在第一机器学习模型中进行的,在训练得到的第一机器学习模型中,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域。该第一机器学习模型,可以是,文本检测加文本分割的端到端(end-to-end)的实体分割模型,例如,Mask R-CNN(Mask Region-based ConvolutionalNeural Network,掩膜基于区域的卷积神经网络)模型;或者是,文本检测和文本分割的两级模型,例如,Faster-R-CNN(Faster-Region-Convolutional Neural Networks,更快速的区域卷积神经网络)模型加FCN(Fully Convolutional Network,全卷积网络)模型。
S12:对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
该步骤可以是在第二机器学习模型中进行的,在训练得到的第二机器学习模型中对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域。该第二机器学习模型,可以是,目标检测加目标分割的端到端(end-to-end)的实体分割模型,例如,Mask R-CNN模型;或者是,目标检测和目标分割的两级模型,例如,Faster-R-CNN模型加FCN模型。
S13:确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
S14:对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
本发明实施例提供的上述图像中的文本行定位方法,基于POI数据实现对图像中感兴趣区域的文本行的定位,通过对输入图像分别进行文本行定位和POI区域分割,精确定位不同的文本行。通过第一机器学习模型,能够将相邻文本行拆分,避免出现大面积的文本行区域,影响后续文本识别效果,并且能够对包括倾斜的文本行的不同朝向的文本行进行分割,得到准确的文本区域的文本及边界位置,文本行定位精确;通过第二机器学习模型能够有效地检测并分割图像中的目标,对自然场景中的不同类别的各个POI区域进行分类和分割,能够得到图像中的各个POI区域准确的分割结果。通过确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,能够去除出现在非POI区域的文本行噪声;对各个POI区域的文本行区域进行版面分析,将同一POI区域与文本行区域进行关联,以便于进行文本识别,得到有效的POI数据。
实施例2:
作为本发明的一个可选的实施例,所述第一机器学习模型为文本检测加文本分割的端到端实体分割模型、第二机器学习模型为目标检测加目标分割的端到端实体分割模型时,参照图2所示,本发明实施例提供的图像中的文本行定位方法包括如下步骤:
S201:对输入图像进行特征提取;每当提取到一个图像的候选文本区域时,对所述候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
由于进行特征提取得到的候选文本行区域的初始文本边框位置与输入图像的文本的边框真实位置会存在偏差,在图像分割得到候选文本区域之后,通过边框回归(Bounding-box Regression),对候选文本区域的初始文本框位置进行微调,使候选文本区域的初始文本框位置产生一定的偏移量,得到更贴近于输入图像中文本的真实位置的候选文本区域。
对所述候选文本区域进行二分类,获取候选文本区域的前景选区,例如可以,提取候选文本区域的对应图像像素的特征,当候选文本区域内的对应图像像素的特征属于前景图像的概率大于设定阈值,则确定该对应的图像像素特征为前景图像特征,获取所有前景图像特征,得到候选文本行区域的前景选区。
S202:对所述候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
S203:根据所述候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域;
由于第一机器学习模型中,提取出的候选文本行区域的文本行中会含杂一些输入图像的背景,对候选文本区域进行图像分割,分割出候选文本区域的背景和前景。对候选文本区域的像素进行二分类,将每个像素分类成前景(即文字轮廓)或背景(即非文字轮廓),得到二分类的分割结果,提取候选文本区域的所有前景点,得到候选文本行区域的文字轮廓。
S204:判断是否提取出图像中的所有文本行区域,若否,执行步骤S201,若是,结束提取文本行区域;
通过上述步骤201至步骤204,实现了上述实施例中,对输入图像进行文本行定位,确定出输入图像的各个文本行区域的过程。
S205:对输入图像进行特征提取;每当提取到一个图像的候选目标区域时,对所述候选目标区域进行位置回归和多分类,获取候选目标区域的准确位置和类别;
由于第二机器学习模型中,提取出的候选目标区域的初始边框位置与输入图像的目标区域的边框真实位置会存在偏差,在图像分割得到候选目标区域之后,通过边框回归,对检测得到的目标区域的初始边框位置进行微调,使目标区域的初始边框位置产生一定的偏移量,得到更贴近于输入图像中目标的真实位置的候选目标区域。
对所述候选目标区域进行多分类,得到每个候选目标区域的类别,例如可以,提取候选目标区域的对应图像像素的特征,当候选目标区域内的对应图像像素的特征属于前景图像的概率大于设定阈值,则确定该对应的图像像素特征为前景图像特征,获取所有前景图像特征,确定候选目标区域的类别。
S206:对所述候选目标区域进行图像分割,分割出候选目标区域的目标物体;
对输入图像进行特征提取,得到的候选目标区域中,会含杂一些输入图像的背景,对候选目标区域进行图像分割,分割出候选目标区域的背景和前景。对候选目标区域的像素进行二分类,将每个像素分类成前景(即目标物体)或背景(即非目标物体),得到二分类的分割结果,提取候选目标区域的所有前景点,得到候选目标区域的目标物体。
S207:根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
S208:判断是否提取出图像的所有目标区域,若否,执行步骤S201,若是,执行步骤S209;
S209:根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
通过上述步骤S205至步骤S209,实现了上述实施例中对输入图像进行区域分割,得到图像的POI区域的过程。
S210:根据文本行区域的位置及POI区域的位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;若是,执行步骤S211-S213,若否,执行步骤S214:
S211:根据文本行区域的位置及POI区域的位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;
S212:得到属于同一POI区域的至少一个文本行区域,并将所述至少一个文本行区域归为一组;
S213:分析每组文本行区域的文本行信息,将每组文本行区域中文本行信息一致的文本行区域进行文字拼接,输出POI区域的拼接后文本行的文字信息。
S214:确定文本行区域不属于POI区域。
通过上述步骤S210至S213,实现了上述实施例中确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,以及对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息的过程。
确定所述文本行区域属于所述POI区域,是根据文本行区域和POI区域的空间位置信息进行判断的,比如,预设一个文本行区域与POI区域相交面积占文本行区域的面积的比例的阈值,假设阈值为90%,则文本行区域的90%以上的面积落入POI区域时,确定该文本行区域属于该POI区域。
在确定文本行区域所属的POI区域时,可以根据文本行区域的像素点落入POI区域内的占比进行统计,若某个文本行区域的超过90%像素点落入在了一个POI区域限定的空间范围内,即文本行区域与POI区域的相交面积超过了文本行区域面积的90%,那么确定该文本行区域属于该POI区域。
还可以是,根据实体分割得到文本行区域的各个像素点的坐标位置,根据所有像素点的坐标位置以及像素点的排列组合关系,确定文本行区域的轮廓、形状、边长、长宽比、面积大小和中心点位置等信息;根据实体分割得到POI区域的各个像素点的坐标位置,根据所有像素点的坐标位置以及像素点的排列组合关系,确定POI区域的轮廓、形状、边长、长宽比、面积大小、倾斜角度和中心点位置等信息,根据上述POI区域和文本行区域的多个像素点确定的信息,就可以得到文本行区域与POI区域是否存在位置重合,并计算相交面积,计算得到文本行区域与POI区域的面积重合是否超过设定阈值。
因为一个POI区域中可能会包含一个或多个文本行区域,将同一个POI区域的至少一个文本行区域归为一组,能够保证输出POI区域中的文本信息为有效的POI数据。根据版面分析的规则,对POI区域的组合后的每组文本行区域的文本行信息,包括本行的大小,位置等信息进行版面分析,对每组文本行区域中文本行信息一致的文本行区域进行文字拼接,组合文本内容,输出拼接后POI区域的文本行的文字信息。
例如,一个POI区域的一组文本行区域中包括了两个属于同一水平线、排布相邻、且文字大小相等的两个文本行区域,可以把两个文本行区域的文本中文字拼接输出,获得一条完整的文本内容,输出POI区域中的文本信息。以POI区域为牌匾为例,获取牌匾中的主名称,分店名,营业范围,联系方式等相关的文本行,就可以得到牌匾中的完整的文字信息。
本发明实施例中,第一机器学习模型为实体分割模型,对输入图像进行特征提取,生成图像的候选文本区域,对候选文本区域进行位置回归和二分类;同时,对候选文本区域进行图像分割,根据得到的候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域。
在实体分割模型的训练过程中,可以从一个较差的检测或分割结果向较好的检测或分割结果进行学习,检测和分割过程交替进行,如果候选文本区域的检测结果不准确,就会导致得到的文本行区域不准确;得到的文本行区域不准确,会影响实体分割模型往检测结果更好的方向进行学习,得到更好的检测结果;更好的检测结果,就会有利于得到较好的分割结果。检测和分割过程相互影响,以得到更好的检测结果和分割结果。
在实体分割模型中对图像进行处理时,基于提取出的第一个候选文本区域,进行位置回归和二分类,得到候选文本区域的准确位置和前景选区,即文本的检测结果;同时,根据第一个候选文本区域进行图像分割,得到文本区域的文字轮廓,即文本的分割结果,根据检测结果和分割结果,得到精准的文本行区域;当提取到下一个候选文本区域时,再次执行相同的操作,直至得到图像的所有文本行区域。在文本行区域的实体分割过程中,检测和分割相互优化交替进行,得到精准的文本行区域;对每个候选文本区域来说,检测和分割的过程是分开进行的,当前候选文本区域的分割结果,可以影响到后一个候选文本区域的检测结果;后一个候选文本区域的检测结果,也会影响该候选文本区域的分割结果;对于整个输入图像来说,检测和分割的过程是交替进行的,检测结果和分割结果相关影响。
本发明实施例提供的实体分割模型,以Mask R-CNN模型为例,针对文本行区域的特点,对应用的实体分割算法中的区域候选网络RPN部分的开端模块Inception Module进行优化,将一个卷积替换成一个卷积组,以便更好的提取具有文本区域上下文信息的特征,参照图3所示,将现有RPN部分的3*3的卷积(convolution),优化为1个由1*1的卷积、3*3的卷积和5*5的卷积组成的卷积组以及一个3*3的池化(max-pooling)。
本发明实施例中,第二机器学习模型为实体分割模型,对输入图像进行特征提取,生成图像的候选目标区域,对候选目标进行位置回归和多分类,获取候选目标区域的准确位置和类别;同时,对候选目标区域进行图像分割,根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。
在实体分割模型的训练过程中,可以从一个较差的检测或分割结果向较好的检测或分割结果进行学习,检测和分割过程交替进行,如果候选目标区域的检测结果不准确,就会导致得到的图像的目标区域不准确;得到的图像的目标区域不准确,会影响实体分割模型往检测结果更好的方向进行学习,得到更好的检测结果;更好的检测结果,就会有利于得到较好的分割结果。检测和分割过程相互影响,以得到更好的检测结果和分割结果。
在实体分割模型中对图像进行处理时,基于提取出的第一个候选目标区域,进行位置回归和多分类,得到候选文本区域的准确位置和类别,即目标的检测结果;同时,根据第一个候选目标区域进行图像分割,得到候选区域的目标物体,即目标的分割结果,根据检测结果和分割结果,得到精准的目标区域。当提取到下一个候选目标区域时,再次执行相同的操作,直至得到图像的所有目标区域。得到图像的所有目标区域后,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
在实体分割模型中,进行目标区域的实体分割过程中,检测和分割相互优化交替进行,得到精准的目标区域;对每个候选目标区域来说,检测和分割的过程是分开进行的,当前候选目标区域的分割结果,可以影响到后一个候选目标区域的检测结果;后一个候选目标本区域的检测结果,也会影响该候选目标区域的分割结果;对于整个输入图像来说,检测和分割的过程是交替进行的,检测结果和分割结果相关影响。
由于图像的目标区域中包含了POI区域和非POI区域,还需要根据多分类的结果判断目标区域的类别,区分出POI区域和非POI区域。例如,输入图像的不同类别的目标区域包括门牌、密集水牌、墙壁字体、玻璃字体和悬空字符等,根据预先设定POI区域的类别,从分类后的目标区域中区分出POI区域和POI区域。假设门牌、悬空字符、密集水牌为POI区域,那么墙壁字体和玻璃字体等其他目标区域就是非POI区域,非POI区域需要作为噪声去除。
需要说明的是,本发明实施例中,区分出POI区域和非POI区域之后,需要在把非POI区域作为噪声去除,同时,需要去除出现在非POI区域的文本行区域,以达到去除文本行噪声的目的,只保留图像的POI区域以及POI区域所包含的文本行区域。因此,参照图4所示,在执行上述步骤S210至S213的同时,上述图像中的文本行定位方法,还可以包括如下步骤:
S401:根据文本行区域的位置及非POI区域的位置,判断文本行区域与非POI区域的相交面积是否超过设定阈值;若是,执行步骤S402,若否,执行步骤S403:
S402:确定所述文本行区域属于所述非POI区域,将所述非POI区域和属于所述非POI区域的文本行区域去除;
S403:确定所述文本行区域不属于所述非POI区域,退出当前流程。
确定文本行区域是否属于非POI区域的方法与上述的确定文本行区域是否属于POI区域的方法相类似,保留属于POI区域的文本行区域,去除属于非POI区域的文本行区域,从而达到去除噪声的目的。
实施例3:
作为本发明的另一个可选的实施例,第一机器学习模型为文本检测和文本分割的两级模型,第二机器学习模型为目标检测和目标分割的两级模型时,参照图5所示,本发明实施例提供的图像中的文本行定位方法包括如下步骤:
S501:对输入图像进行特征提取,生成图像的全部候选文本区域;
S502:对每个候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
S503:对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
S504:根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域;
通过上述步骤S501至S504同样可以实现上述实施例中,对输入图像进行文本行定位,确定出输入图像的各个文本行区域的过程。
S505:对输入图像进行特征提取,生成图像的全部候选目标区域;
S506:对每个候选目标区域进行位置回归和多分类,得到每个候选目标区域的准确位置和类别;
S507:对确定位置和类别后的候选目标区进行图像分割,分割出候选目标区域中的目标物体;
S508:根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
S509:根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
通过上述步骤S505至S509同样可以实现上述实施例中,对输入图像进行区域分割,得到图像的POI区域的过程。
本发明实施例中,第一机器学习模型为文本检测和文本分割的两级模型,对输入图像进行特征提取,生成图像的全部候选文本区域后,文本检测模型对所有候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区,即候选文本区域的文本检测结果;文本分割模型对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓,即候选文本区域的文本分割结果;根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域。在模型训练过程中,先对文本检测模型进行检测学习,得到图像的所有候选文本区域的检测结果,再独立的对文本分割模型进行分割学习,文本检测和文本分割的学习过程是相互独立的。
由于第一机器学习模型中,提取出的候选文本行区域的初始文本边框位置与输入图像的文本的边框真实位置会存在偏差,在图像分割得到候选文本区域之后,通过边框回归(Bounding-box Regression),对候选文本区域的初始文本框位置进行微调,使候选文本区域的初始文本框位置产生一定的偏移量,得到更贴近于输入图像中文本的真实位置的候选文本区域。
对所述候选文本区域进行二分类,获取候选文本区域的前景选区,例如可以,提取候选文本区域的对应图像像素的特征,当候选文本区域内的对应图像像素的特征属于前景图像的概率大于设定阈值,则确定该对应的图像像素特征为前景图像特征,获取所有前景图像特征,得到候选文本行区域的前景选区。
由于第一机器学习模型中,提取出的候选文本行区域的文本行中会含杂一些输入图像的背景,对候选文本区域进行图像分割,分割出候选文本区域的背景和前景。对候选文本区域的像素进行二分类,将每个像素分类成前景(即文字轮廓)或背景(即非文字轮廓),得到二分类的分割结果,提取候选文本区域的所有前景点,得到候选文本行区域的文字轮廓。
本发明实施例中,第二机器学习模型为目标检测和目标分割的两级模型,对输入图像进行特征提取,生成图像的全部候选目标区域。目标检测模型对所有候选目标区域进行位置回归和多分类,获取候选文本区域的准确位置和类别,即候选目标区域的目标检测结果;目标分割模型对每个候选目标区域进行图像分割,分割出候选目标区域的目标物体,即候选目标区域的目标分割结果;根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。在模型训练过程中,先对目标检测模型进行检测学习,得到图像的所有候选目标区域的检测结果,再独立的对目标分割模型进行分割学习,目标检测和目标分割的学习过程是相互独立的。
由于第二机器学习模型中,提取出的候选目标区域的初始边框位置与输入图像的目标区域的边框真实位置会存在偏差,在图像分割得到候选目标区域之后,通过边框回归,对检测得到的目标区域的初始边框位置进行微调,使目标区域的初始边框位置产生一定的偏移量,得到更贴近于输入图像中目标的真实位置的候选目标区域。
对所述候选目标区域进行多分类,得到每个候选目标区域的类别,例如可以,提取候选目标区域的对应图像像素的特征,当候选目标区域内的对应图像像素的特征属于前景图像的概率大于设定阈值,则确定该对应的图像像素特征为前景图像特征,获取所有前景图像特征,确定候选目标区域的类别。
对输入图像进行特征提取,得到的候选目标区域中,会含杂一些输入图像的背景,对候选目标区域进行图像分割,分割出候选目标区域的背景和前景。对候选目标区域的像素进行二分类,将每个像素分类成前景(即目标物体)或背景(即非目标物体),得到二分类的分割结果,提取候选目标区域的所有前景点,得到候选目标区域的目标物体。
在本实施例中,步骤S510至S514实现确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组的过程,以及,实现对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息的过程,可以参照实施例2中步骤S210至S214的描述,在此不再赘述。
在一些可选的实施例中,还可以是第一机器学习模型为上述实施例2中描述的文本检测加文本分割的端到端的实体分割模型,而第二机器学习模型为实施例3中描述的目标检测和目标分割的两级模型;或者还可以是,第一机器学习模型为上述实施例2中描述的文本检测和文本分割的两级模型,而第二机器学习模型为实施例3中描述的目标检测加目标分割的端到端的实体分割模型。
实施例4:
基于同一发明构思,本发明实施例还提供了一种文本行定位装置、相关存储介质和设备,由于这些装置、相关存储介质和设备所解决问题的原理与前述图像中的文本行定位方法相似,因此该装置、相关存储介质和设备的实施可以参见前述方法的实施,重复之处不再赘述。
参照图6所示,本发明实施例提供的图像中的文本行定位装置,包括:
文本行区域确定模块101,用于对输入图像进行文本行定位,确定输入图像的各个文本行区域;
POI区域确定模块102,用于对输入图像进行区域分割,得到图像的兴趣点POI区域;
文本行组合模块103,用于确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
版面分析模块104,用于对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
在一个实施例中,文本行区域确定模块101对输入图像进行文本行定位,生成图像的各个文本行区域,包括:
在训练得到的第一机器学习模型中,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域。
在一个实施例中,每当提取到一个图像的候选文本区域时,文本行区域确定模块101具体用于执行如下操作:
对所述候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对所述候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据所述候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域。
在一个实施例中,文本行区域确定模块101对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域,包括:
对输入图像进行特征提取,生成图像的全部候选文本区域;
对每个候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域。
在一个实施例中,POI区域确定模块102对输入图像进行区域分割,得到图像的POI区域,包括:
在训练得到的第二机器学习模型中,对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域。
在一个实施例中,每当提取到一个图像的候选目标区域时,POI区域确定模块102具体用于执行如下操作:
对所述候选目标区域进行位置回归和多分类,获取候选目标区域的准确位置和类别;
对所述候选目标区域进行图像分割,分割出候选目标区域的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。
在一个实施例中,POI区域确定模块102,还用于根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
在一个实施例中,POI区域确定模块102对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域,包括:
对输入图像进行特征提取,生成图像的全部候选目标区域;
对每个候选目标区域进行位置回归和多分类,得到每个候选目标区域的准确位置和类别;
对确定位置和类别后的候选目标区进行图像分割,分割出候选目标区域中的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
在一个实施例中,POI区域确定模块102根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域,具体包括:
根据每个图像的目标区域的类别,区分图像的目标区域为POI区域或非POI区域,从所有图像的目标区域中选取出所有的POI区域。
在一个实施例中,文本行组合模块103确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,包括:
根据文本行区域的准确位置及POI区域的准确位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述POI区域;
得到属于同一POI区域的至少一个文本行区域,并将所述至少一个文本行区域归为一组。
在一个实施例中,文本行组合模块103,还用于根据文本行区域的位置及非POI区域的位置,判断文本行区域与非POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述非POI区域,将所述非POI区域和属于所述非POI区域的文本行区域去除。
在一个实施例中,版面分析模块104对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行,包括:
分析每组文本行区域的文本行信息,将每组文本行区域中文本行信息一致的文本行区域进行文字拼接,输出POI区域的拼接后的文本行的文字信息。
本发明实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现上述的图像中的文本行定位方法。
本发明实施例提供了一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行上述的图像中的文本行定位方法。
实施例5:
上述图像中的文本行定位方法可以在服务器端实现,可以在服务器中设置上述的图像中的文本行定位装置来实现,服务器的结构如图7所示,包括:
接收装置11,用于接收终端设备采集的图像;
文本行定位装置12,用于在训练得到的第一机器学习模型中,对输入图像进行文本行定位,确定出输入图像的各个文本行区域;在训练得到的第二机器学习模型中,对输入图像进行区域分割,得到图像的兴趣点POI区域;确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息;
第一存储器13,存储采集的图像以及每个POI区域的文本行信息。
文本行定位装置实现的功能参照图6的相关描述,此处不再赘述。
这种方式服务器对采集到的图像中的文本行进行定位,图像可以是移动采集设备采集后传递过来的,也可以是其他方式采集后存储在服务器中的。
实施例6:
本实施例中由移动采集设备和服务器组成的系统实现文本行定位,在移动采集设备中实现对图像中文本行的初步定位和识别,来判断图像是否是正常图像,在服务器实现对正常图像中的对文本行的定位输出具体的定位结果。
参照图8所示,本发明实施例提供一种图像中的文本行定位系统,包括:移动采集设备2和服务器1;
移动采集设备2,用于采集图像,采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到所述服务器1;
服务器1,用于对图像中的文本行进行定位。服务器1的实现的功能参照图7的相关描述,此处不再赘述。
该系统中,在服务器端执行上述实施例2或实施例3的具体实现过程,由服务器1完成对输入图像的POI区域进行文本行定位的过程。该输入图像可以是,由移动采集设备2采集并提供给服务器1的。由于移动采集设备的处理器运算能力和缓存数据能力较差,处理较大的数据速度太慢,而且电源供电量有限,不适合直接对采集的图像进行图像中的文本行定位的过程,因此,可以发送到服务器端执行上述实施例2或实施例3的步骤。
在一个实施例中,移动采集设备2通过对采集的图像进行初步文本定位和文本识别,判断图像是否是异常图像;具体包括:
对采集的图像进行初步文本定位,判断文本倾斜度是否满足预设的倾斜度要求;
如否,确定所述图像为异常图像;
若是,对初步文本定位后的图像进行文本识别,判断文字的可识别度是否满足要求;如否,确定所述图像为异常图像,若是,发送到所述服务器1。
通过移动采集设备实现图像的采集并传送给服务器。在传送给服务器之前移动采集设备还可以先对采集的图像进行异常识别,以便识别出较优质的正常图像,传送给服务器,避免将不能识别的不清晰的图像传送给服务器增加资源开销。
例如可以参照图9所示,移动采集设备2包括第一图像采集装置21和第一处理器22,所述移动采集设备2例如可以是手持移动终端或车载终端,比如:手机或行车记录仪等,所述移动采集设备2的第一图像采集装置21,可以是摄像头,通过摄像头拍摄的方式采集图像并发送到第一处理器22;所述第一处理器22可以是中央处理器(Central ProcessingUnit,CPU)或图形处理器(Graphics Processing Unit,GPU)。
可选的,参照图10所示,所述第一处理器22包括初步文本定位模块221和初步文本识别模块222,所述初步文本定位模块221,用于对采集图像进行初步文本定位,通过初步文本定位判断文本倾斜度是否满足预设的倾斜度要求,将满足预设的倾斜度要求的采集图像发送到初步文本识别模块222,通过文本识别判断采集图像的文字的可识别度是否满足要求,将满足文字的可识别要求的采集图像上传到服务器1。本发明实施例中,初步文本定位模块221和初步文本识别模块222,对文本进行定位和识别的方式可以采用现有技术中的方法,例如,采用基于检测的文本行定位算法或基于语义分割的文本行定位方法、或采用基于连通分量和支持向量机的文本定位方法;采用光学文字识别(Optical CharacterRecognition,OCR)的文本识别方法,或采用基于LSTM(Long Short-Term Memory,长短期记忆网络)-CTC(Connectionist Temporal Classifier,连接主义时间分类器)的文本识别方法,只有能够实现采集图像的初定文本位和文本识别即可,本发明实施例中,对此不作限定。
所述初步文本定位模块221对采集图像进行文字初定位,判断文本倾斜度是否满足预设的倾斜度要求,具体来讲,可以是,初步文本定位模块221对采集图像进行初步文本定位后,确定采集图像的拍摄的倾斜角度,并与预设角度阈值进行比较,判断文本倾斜度是否满足预设的倾斜度要求。具体的确定方法可以采用现有技术中的方法,例如,初步文本定位模块221通过初步文本定位,确定采集图像中每个字符的位置,然后得出第一个不靠顶字符的上部中心点与最后一个不靠顶字符的上部中心点所形成的水平连线的倾斜角α1,同时得出第一个不靠底字符的下部中心点与最后一个不靠底字符的下部中心点所形成的水平连线的倾斜角α2,对α1和α2求平均值即为水平倾斜角α;同时,对采集图像中每个字符进行剪切变换得到每个字符的垂直倾斜角度,去除一个最低值和最高值再求平均即为垂直倾斜角度β,在获得倾斜角度α和β后,判断倾斜角度α和β,是否大于预设角度阈值,若是,判断文本倾斜度不满足预设的倾斜度要求,确定所述图像为异常图像,若否,将所述采集图像发送到初步文本识别模块222。
所述初步文本识别模块222对初步文本定位后的图像进行文本识别,判断文字的可识别度是否满足要求,具体来讲,可以是,初步文本识别模块222根据文本识别结果,确定图像中的每个文字的大小,判断图像中的最小的文字是否大于预设的文字大小阈值,或,计算图像中所有文字的大小的平均值,判断图像中所有文字的大小的平均值是否大于预设的文字大小阈值,若否,判断文字的可识别度不满足要求,确定所述图像为异常图像,若是,将采集的图像发送到服务器1。具体来讲,还可以是,初步文本识别模块222根据文本识别结果,确定图像中的每个文字的像素值,判断图像中的相邻文字之间的像素值的差值是否大于预设的像素差值阈值,若是,判断文字的可识别度不满足要求,确定所述图像为异常图像,若否,将采集的图像发送到服务器1的接收装置11。
所述服务器1包括上述实施例3中的图像中的文本行定位装置,包括上述实施例中所述的文本行区域确定模块101、POI区域确定模块102、文本行组合模块103和版面分析模块104,在服务器端完成上述实施例2或实施例3的具体的文本定位过程。服务器1,还可以将定位处理过程中的中间结果和最终结果图像发送到移动采集设备2进行展示。在移动采集设备2具有展示界面,用于展示输入服务器1的输入图像,服务器1通过第一机器学习模型对输入图像进行文本行定位的结果,服务器1通过第二机器学习模型对输入图像进行区域分割的结果,以及服务器1确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,得到每个POI区域的文本行信息后的图像。
作为本发明实施例的一个具体应用,在服务器1对图11所示的输入图像的POI区域进行文本行定位,第一机器学习模型根据上述步骤S201至步骤S204对输入图像进行文本行定位,确定出对应图11所示的输入图像的各个文本行区域,参照图12所示,确定出包括:“中国建设银行”、“China Construction Bank”、“24小时Hour”、“自助银行服务”、“SelfService Banking”、“中信银行”、“CHINA CITIC BANK”“华夏银行”和“HUAXIA BANK”等文本行区域;同时,第二机器学习模型根据上述步骤S205至步骤S209实现了对输入图像进行区域分割,确定出对应图11所示的输入图像的POI区域,参照图13所示,矩形框A、B和C围成的三个区域,即POI区域,未通过矩形框包围的区域则为非POI区域。通过上述步骤S210至S213,对图12所示的文本行区域确定所属的对应于图13所示的POI区域,将属于同一POI区域的文本行区域归为一组,以及对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息,参照图14所示,将“中国建设银行”、“China Construction Bank”、“24小时Hour”、“自助银行服务”和“SelfService Banking”归为一组文本区域,将“中信银行”、“CHINA CITIC BANK”、“24小时Hour”、“自助银行服务”和“SELF SERVICE BANK”归为另一组文本区域,将“华夏银行”、“HUAXIA BANK”“24小时Hour”、“自助银行服务”和“Self Service Banking”归为第三组文本区域,对三组文本行区域分别进行版面分析,对每组文本行区域的文本行进行排列组合,输出图14所示的每个POI区域的文本行信息,即得到图11所示的输入图像的每个牌匾上的完整的文本行信息。本实施例中,在执行步骤S210至S213时,还会执行步骤S401至S403,去除非POI区域的文本行区域,以消除噪声。由于图10所示的输入图像中未包括属于非POI区域的文本行区域,因此具体实现过程未对去除非POI区域的文本行区域进行展示。
实施例7:
本实施例中由采集车实现文本行定位,在采集车的图像采集设备中实现对图像中文本行的初步定位和识别,来判断图像是否是正常图像,并在采集车的图像采集设备中实现对正常图像中的对文本行的定位输出具体的定位结果。由于采集车属于大型设备,图像采集设备的处理器运算能力和缓存数据能力强,可以对图像数据进行处理,而且电源供电量大,可以直接在图像采集设备的处理器对采集的图像进行图像中的文本行定位的过程,执行上述实施例2或实施例3的步骤。
基于同一发明构思,本发明实施例还提供了一种采集车,在车辆上设置图像采集设备,参照图15所示,所述图像采集设备包括:
第二图像采集装置31,用于采集图像,并发送到第二处理器32;
第二处理器32,其中设置图像识别装置和上述的图像中的文本行定位装置,图像识别装置用于采用选定的判断方法判断采集的图像是否是异常图像,若否,则将图像输入图像中的文本行定位装置;图像中的文本行定位装置用于实现对图像中的文本行进行定位;
第二存储器33,存储采集的图像以及每个POI区域的文本行信息。
在一个实施例中,图像识别装置,通过对采集的图像进行初步文本定位和文本识别,判断图像是否是异常图像;具体包括:
对采集的图像进行初步文本定位,判断文本倾斜度是否满足预设的倾斜度要求;
如否,确定所述图像为异常图像;
若是,对初步文本定位后的图像进行文本识别,判断文字的可识别度是否满足要求;如否,确定所述图像为异常图像,若是,发送到所述第二处理器32。
具体的,可以是,采集车的第二图像采集装器31,可以是摄像头,通过摄像头拍摄的方式采集图像;所述第二处理器32可以是中央处理器(Central Processing Unit,CPU)或图形处理器(Graphics Processing Unit,GPU)。
在一个具体实施例中,图像识别装置实现采用选定的判断方法判断采集的图像是否是异常图像的功能的实现与上述实施例5中所描述的第一处理器22的实现方式相类似,详细的实现过程,可以参照上述实施例5中第一对处理器22的具体描述,在此不再赘述。
所述第二处理器32包括上述图6中的图像中的文本行定位装置,包括上述实施例4中所述的文本行区域确定模块101、POI区域确定模块102、文本行组合模块103和版面分析模块104,在第二处理器32完成上述实施例2或实施例3的具体的文本重定位过程。进一步的,采集车还可以将定位处理过程中的中间结果和最终结果图像进行展示。在采集车具有展示界面,用于在本地展示输入图像,通过第一机器学习模型对输入图像进行文本行定位的结果图像,通过第二机器学习模型对输入图像进行区域分割的结果图像,以及确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,得到每个POI区域的文本行信息后的图像。还可以是,采集车能够将定位处理过程中的中间结果和最终结果图像上传到服务器端进行保存。
作为本发明实施例的一个具体应用,在上述采集车对图11所示的输入图像的POI区域进行文本行定位,得到的中间结果(参照图12和图13)和最终结果(参照图14)与在服务器端进行文本行定位时相同。具体的实现过程可以参见上述实施例5中对具体应用的描述,在此不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (21)

1.一种图像中的文本行定位方法,其特征在于,包括:
对输入图像进行文本行定位,确定输入图像的各个文本行区域;
对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
2.如权利要求1所述的方法,其特征在于,所述对输入图像进行文本行定位,确定输入图像的各个文本行区域,包括:
在训练得到的第一机器学习模型中,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域。
3.如权利要求2所述的方法,其特征在于,每当提取到一个图像的候选文本区域时,执行如下操作:
对所述候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对所述候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据所述候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的文本行区域。
4.如权利要求2所述的方法,其特征在于,对输入图像进行特征提取,针对提取的候选文本区域进行位置回归、分类和图像分割,得到图像的所有文本行区域,包括:
对输入图像进行特征提取,生成图像的全部候选文本区域;
对每个候选文本区域进行位置回归和二分类,获取候选文本区域的准确位置和前景选区;
对每个候选文本区域进行图像分割,分割出候选文本区域的文字轮廓;
根据每个候选文本区域的准确位置、前景选区和候选文本区域的文字轮廓,得到图像的所有文本行区域。
5.如权利要求1所述的方法,其特征在于,所述对输入图像进行区域分割,得到输入图像的POI区域,包括:
在训练得到的第二机器学习模型中,对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域。
6.如权利要求5所述的方法,其特征在于,每当提取到一个图像的候选目标区域时,执行如下操作:
对所述候选目标区域进行位置回归和多分类,获取候选目标区域的准确位置和类别;
对所述候选目标区域进行图像分割,分割出候选目标区域的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域。
7.如权利要求6所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
8.如权利要求5所述的方法,其特征在于,所述对输入图像进行特征提取,针对提取的图像的候选目标区域进行位置回归、分类和图像分割,得到图像的POI区域,包括:
对输入图像进行特征提取,生成图像的全部候选目标区域;
对每个候选目标区域进行位置回归和多分类,得到每个候选目标区域的准确位置和类别;
对确定位置和类别后的候选目标区进行图像分割,分割出候选目标区域中的目标物体;
根据所述候选目标区域的准确位置、类别和候选目标区域的目标物体,得到图像的目标区域;
根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域。
9.如权利要求7或8所述的方法,其特征在于,根据图像的目标区域的类别,从所有图像的目标区域中选取POI区域,包括:
根据每个图像的目标区域的类别,区分图像的目标区域为POI区域或非POI区域,从所有图像的目标区域中选取出所有的POI区域。
10.如权利要求9所述的方法,其特征在于,所述确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组,包括:
根据文本行区域的准确位置及POI区域的准确位置,判断文本行区域与POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述POI区域;
得到属于同一POI区域的至少一个文本行区域,并将所述至少一个文本行区域归为一组。
11.如权利要求10所述的方法,其特征在于,还包括:
根据文本行区域的位置及非POI区域的位置,判断文本行区域与非POI区域的相交面积是否超过设定阈值;
若是,确定所述文本行区域属于所述非POI区域,将所述非POI区域和属于所述非POI区域的文本行区域去除。
12.如权利要求1-11任一项所述的方法,其特征在于,对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行,包括:
分析每组文本行区域的文本行信息,将每组文本行区域中文本行信息一致的文本行区域进行文字拼接,输出POI区域的拼接后的文本行的文字信息。
13.一种图像中的文本行定位装置,其特征在于,包括:
文本行区域确定模块,用于对输入图像进行文本行定位,确定输入图像的各个文本行区域;
POI区域确定模块,用于对输入图像进行区域分割,得到输入图像的兴趣点POI区域;
文本行组合模块,用于确定文本行区域所属的POI区域,将属于同一POI区域的文本行区域归为一组;
版面分析模块,用于对每组文本行区域分别进行版面分析,根据分析结果对每组文本行区域的文本行进行排列组合,输出每个POI区域的文本行信息。
14.一种服务器,其特征在于,包括:
接收装置,用于接收终端设备采集的图像;
如权利要求13所述图像中的文本行定位装置;
第一存储器,存储采集的图像以及每个POI区域的文本行信息。
15.一种图像中的文本行定位系统,其特征在于,包括:移动采集设备和如权利要求14所述的服务器;
所述移动采集设备,用于采集图像,采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到所述服务器;
所述服务器,用于对图像中的文本行进行定位。
16.如权利要求15所述的文本行定位系统,其特征在于,所述移动采集设备,具体用于:
对采集的图像进行初步文本定位,判断文本倾斜度是否满足预设的倾斜度要求;
如否,确定所述图像为异常图像;
若是,对初步文本定位后的图像进行文本识别,判断文字的可识别度是否满足要求;如否,确定所述图像为异常图像,若是,发送到所述服务器。
17.一种移动采集设备,其特征在于,包括:
第一图像采集装置,用于采集图像,并发送到第一处理器;
第一处理器,用于采用选定的判断方法判断采集的图像是否是异常图像,若否,将采集图像上传到服务器。
18.一种采集车,其特征在于,在车辆上设置图像采集设备,所述图像采集设备包括:
第二图像采集装置,用于采集图像,并发送到第二处理器;
第二处理器,设置图像识别装置和如权利要求13所述图像中的文本行定位装置,所述图像识别装置用于采用选定的判断方法判断采集的图像是否是异常图像,若否,则将图像输入图像中的文本行定位装置;图像中的文本行定位装置用于实现对图像中的文本行进行定位;
第二存储器,存储采集的图像以及每个POI区域的文本行信息。
19.如权利要求18所述的采集车,其特征在于,图像识别装置,具体用于:
对采集的图像进行初步文本定位,判断文本倾斜度是否满足预设的倾斜度要求;
如否,确定所述图像为异常图像;
若是,对初步文本定位后的图像进行文本识别,判断文字的可识别度是否满足要求;如否,确定所述图像为异常图像,若是,发送到所述图像中的文本行定位装置。
20.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-12任一项所述的图像中的文本行定位方法。
21.一种计算机设备,包括:处理器、用于存储处理器可执行命令的存储器;其中,处理器被配置为可执行如权利要求1-12任一项所述图像中的文本行定位方法。
CN201910376997.3A 2019-05-07 2019-05-07 一种图像中的文本行定位方法、装置、设备及系统 Pending CN111914830A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910376997.3A CN111914830A (zh) 2019-05-07 2019-05-07 一种图像中的文本行定位方法、装置、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910376997.3A CN111914830A (zh) 2019-05-07 2019-05-07 一种图像中的文本行定位方法、装置、设备及系统

Publications (1)

Publication Number Publication Date
CN111914830A true CN111914830A (zh) 2020-11-10

Family

ID=73242455

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910376997.3A Pending CN111914830A (zh) 2019-05-07 2019-05-07 一种图像中的文本行定位方法、装置、设备及系统

Country Status (1)

Country Link
CN (1) CN111914830A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508975A (zh) * 2020-12-21 2021-03-16 上海眼控科技股份有限公司 一种图像识别方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330004A1 (en) * 2012-06-12 2013-12-12 Xerox Corporation Finding text in natural scenes
CN106462574A (zh) * 2014-06-24 2017-02-22 谷歌公司 用于基于来自图像的非文本上下文信息的来自图像的文本的机器语言翻译的技术
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130330004A1 (en) * 2012-06-12 2013-12-12 Xerox Corporation Finding text in natural scenes
CN106462574A (zh) * 2014-06-24 2017-02-22 谷歌公司 用于基于来自图像的非文本上下文信息的来自图像的文本的机器语言翻译的技术
US10032072B1 (en) * 2016-06-21 2018-07-24 A9.Com, Inc. Text recognition and localization with deep learning
CN106980858A (zh) * 2017-02-28 2017-07-25 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508975A (zh) * 2020-12-21 2021-03-16 上海眼控科技股份有限公司 一种图像识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110148196B (zh) 一种图像处理方法、装置以及相关设备
US11003941B2 (en) Character identification method and device
CN110148130B (zh) 用于检测零件缺陷的方法和装置
CN110705405B (zh) 目标标注的方法及装置
CN106548182B (zh) 基于深度学习和主成因分析的路面裂纹检测方法及装置
CN105260749B (zh) 基于方向梯度二值模式和软级联svm的实时目标检测方法
CN108985170A (zh) 基于三帧差分法及深度学习的输电线路悬挂物识别方法
JP2007052645A (ja) 路面標示認識装置及びシステム
CN109344864B (zh) 用于密集物体的图像处理方法及装置
JP2019159606A (ja) 区画線認識装置
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN114882440A (zh) 一种人头检测方法和系统
CN111275040A (zh) 定位方法及装置、电子设备、计算机可读存储介质
CN111310746A (zh) 文本行检测方法、模型训练方法、装置、服务器及介质
CN103413149A (zh) 复杂背景中实现静态目标检测和识别的方法
CN117037103A (zh) 一种道路检测方法和装置
CN109840905A (zh) 电力设备锈迹检测方法及系统
CN103699876A (zh) 一种基于线阵ccd图像识别车号的方法及装置
CN111950345A (zh) 摄像头的识别方法、装置、电子设备和存储介质
CN114140793A (zh) 一种用于端子排和端子排接线的匹配方法及装置
CN114332809A (zh) 一种图像识别方法、装置、电子设备和存储介质
CN116596921B (zh) 一种焚烧炉渣分选方法及系统
CN111597939B (zh) 一种基于深度学习的高铁线路鸟窝缺陷检测方法
CN111914830A (zh) 一种图像中的文本行定位方法、装置、设备及系统
EP2866171A2 (en) Object detection method and device

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination