CN111738252A - 图像中的文本行检测方法、装置及计算机系统 - Google Patents

图像中的文本行检测方法、装置及计算机系统 Download PDF

Info

Publication number
CN111738252A
CN111738252A CN201910227708.3A CN201910227708A CN111738252A CN 111738252 A CN111738252 A CN 111738252A CN 201910227708 A CN201910227708 A CN 201910227708A CN 111738252 A CN111738252 A CN 111738252A
Authority
CN
China
Prior art keywords
line
text
information
pixel point
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910227708.3A
Other languages
English (en)
Other versions
CN111738252B (zh
Inventor
杨志博
王永攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910227708.3A priority Critical patent/CN111738252B/zh
Publication of CN111738252A publication Critical patent/CN111738252A/zh
Application granted granted Critical
Publication of CN111738252B publication Critical patent/CN111738252B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本申请实施例公开了图像中的文本行检测方法、装置及计算机系统,所述方法包括:建立目标算法模型;将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;根据所述多个像素点的方向场信息进行文本行分割。通过本申请实施例,对于图像中的文本行成曲线排列,并且存在行粘连情况,也能够准确的进行文本行的分割。

Description

图像中的文本行检测方法、装置及计算机系统
技术领域
本申请涉及文字识别技术领域,特别是涉及图像中的文本行检测方法、装置及计算机系统。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指对图像文件进行分析处理,识别出其中的文字信息的过程。一般分为两个步骤:文本行检测,即检测出文本行在图像中的位置;文字识别,即识别文本行中的文字具体为哪个文字。
随着OCR应用的普及,不仅是传统的文档扫描图像,还有越来越多的自然场景图片也开始应用OCR技术进行文字检测识别,以帮助人校验文字,检查图片中违规违法文字等。自然场景图片中的文字展现形式丰富,除了横向、竖向等直线排列的文字,还经常出现弯曲、旋转、扭曲等曲线方式排列的文字。例如街景中一些圆形的广告牌,商品图中的一些logo商标。事实上,扫描文档图像中也存在曲线排列的文字,例如发票和法务文档中的印章。只不过自然场景图片中更为普遍。另外,还有一些图片中,文字不仅是曲线方式排列,并且行与行之间的距离还可能会非常小,出现“行粘连”的情况。
上述曲线排列且“行粘连”的文字是文本行检测的难点,利用现有的文本行检测方法无法实现准确检测。现有的文字检测方法主要有以下两类:基于候选框的文字检测算法和基于语义分割的文字检测算法。其中,基于候选框的文字检测算法对于曲线形状排列的文本行无法准确进行检测定位;而基于语义分割的文字检测算法是指基于对图像的语义分类进行文字的检测。当文本行相近时,仅利用语义分割难以将同属文字类别却分属不同文本行的相邻像素区分开,因此,无法处理“行粘连”的情况。
发明内容
本申请提供了图像中的文本行检测方法、装置及计算机系统,对于图像中的文本行成曲线排列,并且存在行粘连情况,也能够准确的进行文本行的分割。
本申请提供了如下方案:
一种图像中的文本行检测方法,包括:
建立目标算法模型;
将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
根据所述多个像素点的方向场信息进行文本行分割。
一种图像中的文本行检测装置,包括:
模型建立单元,用于建立目标算法模型;
预测单元,用于将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
文本行分割单元,用于根据所述多个像素点的方向场信息进行文本行分割。
一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
建立目标算法模型;
将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
根据所述多个像素点的方向场信息进行文本行分割。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,提出了通过方向场对图像中的像素点进行表达的方案,并通过预先学习到相关特征信息的算法模型,预测出目标图像中像素点的方向场信息,其中,方向场信息可以包括像素点属于文字的置信度,以及像素点相对于可能所属的文本行的中心线的方向信息。这样,由于检测的过程对可识别的文本的排列形状没有限制,因此,能够检测出按照任意曲线形状排列的文本行;另外,由于引入了像素点相对于可能所属的文本行的中心线的方向信息,因此,使得行与行之间交界处的像素点体现出明显的区别、甚至相反的特征,从而能够分割出所述目标图像中行间距小于阈值(可以根据FCN等普通算法所能够检测的最大行间距来确定该阈值),也即存在行粘连情况的文本行。可见,即使图像中的文本行成曲线排列,并且存在行粘连情况,本申请实施例的方案也能够准确的进行文本行的分割,从而提升文本行检测的适用范围。
当然,实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1-1是本申请实施例提供的识别应用的第一示意图;
图1-2是本申请实施例提供的识别应用的第二示意图;
图1-3是本申请实施例提供的识别应用的第三示意图;
图2-1是本申请实施例提供的识别目标的第一示意图;
图2-2是本申请实施例提供的识别目标的第二示意图;
图3是本申请实施例提供的检测过程的示意图;
图4是本申请实施例提供的图像中的文本行检测方法的流程图;
图5是本申请实施例提供的图像中的文本行检测装置的示意图;
图6是本申请实施例提供的计算机系统的示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本申请保护的范围。
现有的两种主要的文字检测方法中,基于候选框的文字检测算法是指预先找出图像中目标可能出现的位置,确定矩形的区域候选框,然后利用图像中提取的特征信息如纹理、边缘、颜色等来检测图像中的文字。这种方法是在对一般物体检测框架的基础上,针对文字的特性加以改进实现的,并且对于“行粘连”的情况会具有比较高的检测准确度。但是,由于区域候选框形状的限制,即矩形框,使得他们只能检测出直线排列的文本行,包括横向、纵向、斜向等文本行,但是,对于曲线形状排列的文本行,这种算法则无法准确进行检测定位。基于语义分割的文字检测算法是指基于对图像的语义分类进行文字的检测。所谓语义分类是指对图像中的物体进行像素类别的划分,因此利用语义分割算法可以确定一个像素是文字还是非文字。这种算法能够对任意形状包括曲线排列的文本行进行检测,当文本行相近时,仅利用语义分割难以将同属文字类别却分属不同文本行的相邻像素区分开,因此,无法处理“行粘连”的情况。
本申请实施例旨在提供一种新的文本行检测方法,以解决曲线排列且存在“行粘连”情况的文本行检测的问题。本申请实施例创新性的提出对图像中的像素点按照语义分类和方向信息两个维度进行表示,然后结合两个维度信息进行文本行的检测。
首先需要说明的是,本申请实施例中所述的文本行是指,将具体组成文本的文字在某种曲线方向上按照先后顺序进行排列组成的行,其中,如果在对文字进行排列的过程中,出现了字符之间的空格等情况,则空格前后可能会被分成不同的文本行。但是,这种在同一曲线排列方向上不同文本行之间的距离,并不是本申请实施例中所述的“行与行之间的距离”,而只有是文字排列曲线的法向方向上出现的不同文本行之间的距离,才会看作是本申请实施例中的“行与行之间的距离”。
例如,如图1-1所示,假设某图片中的文本行包括多个(其中具体的文本内容未示出),其中,文本行11与文本行12之所以看作两个不同的文本行,是因为文本行11的最后一个字符与文本行12的第一个字符之间存在空格,但是,这两个文本行同在具体的文字排列曲线方向上,因此,本申请实施例中不需要考虑对这两个文本行的分割,事实上,直接按照语义分类算法,就可以分割出这两个文本行,基本不存在难点。而本申请实施例中实际所需要分割的是文本行11与文本行13之间,由于这两个文本行在文字排列曲线的法向方向上的距离比较近,因此,存在所谓的“行粘连”的情况,而且又是曲线排列,因此,在分割这两个文本行时才会存在难点。
另外需要说明的是,为了对曲线排列且存在“行粘连”情况的文本行进行检测,一种比较容易想到的方案,是将现有技术中的基于候选框的文字检测算法与基于语义分割的文字检测算法相结合,将两者各自在解决“行粘连”以及曲线文本行检测方面的优势发挥出来,但是,两种方案的实现原理完全不同,因此,无法通过简单的算法结合的方式来达到对曲线排列且存在“行粘连”情况的文本行检测的目的。
为此,在本申请实施例中,提出了通过方向场对图片中的像素特征进行表达的方式,以期通过对这种特征的识别来更好地划分出不同的文本行之间的分界线,进而更好的实现对曲线排列且存在“行粘连”情况的文本行进行检测。其中,所谓的方向场主要可以包括两个方面的信息,其一是像素点属于文字的置信度信息,另一方面是像素点相对于其可能所属的文本行的中心线的方向信息。
其中,通过像素点相对于其可能所属的文本行的中心线的方向信息对像素点的特征进行表达,是本申请实施例的核心所在。之所以通过这种方式对像素点特征进行表达,是因为:假设对于法向相邻的两个文本行而言,如果两个文本行之间的行间距非常小,则证明位于上方的文本行的下边界与位于下方的文本行的上边界,两者由于距离接近,使得彼此之间的界限比较模糊,但是,如果能够将这两个边界上的像素点在特征表达上很明显的区分开,则可以达到准确分割文本行的目的。而本申请发明人在实现本申请的过程中发现,组成一个文字的像素点到它所在的文本行的中心线的方向恰好具有上述特征。也就是说,对于两个文本行之间相邻的行边界上的像素点而言,其相对于各自所属文本行的中心线的方向刚好是相反的。这样,如果用这种方向信息对像素点进行表达,则可以在文本行的交界处发生像素点特征的突变,而这种突变则可以作为分割文本行的有效标志。为此,在本申请实施例中利用了像素点相对于其可能所在的文本行的中心线的方向信息,对具体像素点进行表达。
需要说明的是,在本申请实施例中,“上”、“下”的概念是相对于文字排列方向的法向中心(例如,如果文字排列方向为圆弧状排列,则法向中心为圆心)而言的,其中,远离法向中心的方向为“上”,靠近法向中心的方向为“下”。例如,在图1-1所示的例子中,文本行11相对于文本行13而言,是位于上方的文本行,相应的,文本行13属于位于下方的文本行,等等。
为更加便于理解,下面对上述图1-1中所示的文本行11、13进行放大展示为如图1-2所示,其中,假设A1B1C1D1围成的区域为文本行11,A2B2C2D2围成的区域为文本行13,其中,E1F1为文本行11的中心线,E2F2为文本行13的中心线。则为了便于分割文本行11与文本行13,只要使得C1D1上的像素点,体现出明显区别与A2B2上的像素点的特征即可。当然,在通过算法对具体的图像进行预测的过程中,无法预先获知哪些像素点在C1D1、哪些点在A2B2上(最终的目的才是分割并定位出这两条边的位置),因此,具体的算法中,只要使得E1F1C1D1所围成的区域内的像素点,能够体现出明显区别于A2B2F2E2所围成区域内的像素点的特征即可。而如图1-3所示,上述两个区域内的像素点(为便于展示,图中仅以两个区域的相邻边界上的像素点为例进行了示意)相对于各自所在文本行的中心线的方向趋势刚好是相反的,因此,可以利用上述方向信息对具体像素点的特征进行表达。
也就是说,对于一张待测试的图像而言,只要能够利用上述方向信息对其中的像素点进行表达,并结合语义分类结果(确定出图片中具体像素点属于文字的置信度),即可在属于文本的像素点集合中,将上述方向信息发生突变的像素点作为行与行之间的行分界线,从而有效分割出不同的文本行。
为了达到通过上述方式对待测试图像中的像素点进行表达,在本申请实施例中,算法模型具体可以采用神经网络算法模型的方式来实现,例如,具体可以使用基于VGG16的卷积神经网络,等等。为此,首先可以选择合适的神经网络层数,以及神经元数量等,然后通过这种神经网络来学习本申请实施例中对像素点的表达方式,最终学习完成的神经网络便可以用于对具体的图像进行预测。也即,输入一个具体的待测试图像,神经网络能够输出图像中各个像素点属于文字类像素点的概率信息,以及相对于可能所在的文本行的中心线的方向信息。得到上述信息之后,便可以通过后处理,定位到具体的文本行。
其中,在具体进行学习时,可以提供多个训练样本,具体的训练样本可以由多个具体的训练样本图像组成,为了能够对曲线排列且存在行粘连的情况也能够进行预测,训练样本图像中也可以包括曲线排列的文本信息,还可以提供一些曲线排列且存在文本行粘连情况的图像作为训练样本。在获得具体的训练样本图像之后,可以首先对这种训练样本图像进行标注。具体的可以标注出图像中的文本行的位置,并标注出文本行内的每个像素点相对于该文本行中心线的方向信息。其中,关于文本行的位置,可以通过人工标注的方式来实现,具体的,为了便于进行标注,可以采用对文本行的上下两个边界各标注4个(或者其他数量)标注点的方式,来大致框出文本行所在的位置。例如,如图2-1所示,为本申请实施例的识别目标的第一示意图,图中包括已公开的文字数据集中的一张,其中,针对图像中的一个文本行,可以标注出多个标注点21,然后,可以通过相邻标注点之间的连线22,拟合出具体文本行的包围框。
在得到文本行的包围框之后,还可以标注出文本行的中心线,并标注出文本行内的各个像素点相对于中心线的方向信息。例如,如图2-2所示,其为从图2-1中截取出的一部分,对于具体标记出的文本行包围框内的每个像素点Pn,都可以在行中心线上找到距离最近的点P0,然后,从Pn到P0的方向信息,便可以用于表达像素点Pn。其中,具体的方向信息可以用角度信息来进行表达,则标注的结果可以是每个像素点的位置坐标,与一个角度之间的对应关系。例如,{P1:[(x1,y1),θ1],P1:[(x2,y2),θ2]……}。
具体实现时,由于已经人工标注出了文本行的包围框,因此,在对文本行的中心线以及像素点相对于中心线的方向信息进行标注时,可以借助于计算机程序来实现。也就是说,对于计算机程序而言,在已知一文本行包围框的具体位置的情况下,可以自动确定出中心线的位置,并分别计算出每个像素点相对于中心线的方向信息。
需要说明的是,同一个文本行包围框内的像素点数量众多,具体计算出的方向信息可能也各不相同,而在本申请实施例中,实际上只需要知晓大致的方向信息即可,不需要特别精确,因此,还可以在计算出各个像素点对应的方向角信息后,进行聚类。例如,可以按照每10度为一个区间,将落到同一个区间内的方向角对应的像素点聚为一类。这样,假设全部可能出现的方向角为从-150度到150度,跨度为300度,则最终可以划分为30个区间,将具体的像素点聚类为30个类别,等等,利用这种聚类后的方向信息进行学习即可。
另外,为了能够在进行文本行检测过程实现可视化的效果,也即,具体神经网络输出的可以不是具体的数据,而是一些可视化的信息,在具体实现时,还可以通过不同的颜色对各种不同方向类别的像素点进行标注,其中,方向类别之间的差距越小,颜色越接近,反正,差距越大,则颜色相差越大。例如,-150度显示为深蓝色,+150度红色,另外,正向与负向的交界处,颜色的差距也可以比较大,等等。这样比较便于直观对像素点在所述的文本行中相对于其行内的中心线的位置以及方向信息,进而便于进行后处理。
总之,通过对训练样本图像进行标注,可以获得每个图像中的文本行包围框所在的位置信息,以及文本行内的各个像素点相对于文本行中心线的方向信息,这样,就可以利用这种训练样本图像以及对应的标注结果信息进行神经网络的学习。
具体的,可以将训练样本图像输入到神经网络中进行多轮迭代后,完成算法的学习过程。其中,在每一轮迭代过程中,经过一层一层的特征提取以及计算等处理,会输出一个结果,该结果就包括了每个像素点属于文字的置信度,以及相对于可能所属的文本行的中心线的方向信息。在得到该结果之后,可以与该训练样本图像对应的标注结果进行比对,根据两者之间的差异值,对神经网络各层上的参数等信息进行调整。其他训练样本图像也分别都可以输入到神经网络中进行学习,最终通过不断的进行参数调整,逐渐缩小预测结果与实际标注结果之间的差距,直到算法收敛,针对全部或者绝大部分的训练样本图像,都能得到接近于实际标注结果的预测结果时,结束学习过程,并将最终确定下来的参数等信息,作为神经网络的学习结果,进而就可以利用该学习结果对实际的图像进行预测。
其中,在需要对某个图像进行文本行检测时,便可以将该图像作为神经网络的输入信息,输入到神经网络中,相应的,神经网络便可以经过一系列的特征提取等运算,输出以下结果:该图像中各像素点属于文本类像素点的概率,以及各像素点相对于可能所属的文本行的中心线的方向信息。如果在学习时,还对各类方向信息标注了颜色,则具体测试过程中的输出结果中,可以用具体的颜色信息来表示像素点相对于可能所属的文本行的中心线的方向类别信息。
例如,具体输入的图像如图3所示,假设输入图像为图3中的(1)所示,可以看出其中包括螺旋状排列的多行文本,并且,不同的文本行之间相隔的距离很小,也即,出现了行粘连的情况。在本申请实施例中对这种图像中的文本行进行检测时,就可以将其输入到神经网络中。神经网络输出的信息包括两方面的信息,一是像素点属于文字的置信度(可以用概率等进行标识),二是像素点相对可能所属的文本行的中心线的方向信息,在学习到了可视化信息的情况下,这两方面的信息分别可以由可视化的模长图和方向图体现。然后,通过对模长图作阈值处理,可以得到一个粗糙的文字语义分割图(2),再利用预测出的方向信息去分开邻近但属于不同文本行实例的像素点,从而优化语义分割图,得到文本行实例分割结果(3),最后再进行可视化处理,可以得到最终的文本行检测结果(4)。
本申请实施例提供了一种图像中的文本行检测方法,具体的,参见图4,该方法具体可以包括:
S410:建立目标算法模型;
其中,具体在建立目标算法模型时,可以建立基于神经网络的算法模型,例如基于卷积神经网络的算法模型,为更加明确介绍本方法,以下以建立目标神经网络算法模型为例进行介绍。在实际应用中,可以获得训练样本图像,以及对应的标注结果,所述标注结果包括:训练样本图像中包括的文本行的包围框,以及文本行内的像素点相对于文本行中心线的方向信息(其中,包围框可以是由人工标注的方式来实现,具体方向相关的标注信息,则可以是在完成包围框的标注后,通过计算机程序来完成);另外可以获得初始状态的神经网络算法模型;具体在进行学习时,可以将训练样本图像作为输入信息,输入到神经网络算法模型中进行多次迭代,其中,每次迭代过程中,通过将神经网络算法模型输出的像素点的方向场信息与所述标注结果信息进行比对获得差异值,并根据所述差异值对所述神经网络算法模型进行调整,直到算法收敛,获得目标神经网络算法模型。
由于训练样本图像的标注结果中包括了具体文本行所在的位置,以及像素点相对于文本行中心线的方向信息,因此,在进行神经网络算法模型学习的过程中,就可以学习到具体提取哪些特征,以及各个特征对应的权重等,才能够输出准确的预测结果。在算法收敛后,将这些学习结果保存下来,便可以完成学习的过程中,生成目标神经网络算法模型。
需要说明的是,在具体实现时,本申请实施例中需要识别的像素点特征可能是否为文字、以及具体的方向信息,其中,关于方向信息至少是方向类别信息,并且为了保证预测结果的可用性,方向类别的数量也不能过少,通常可能会有几十个类别,例如,每10度为一类,等等。可见,并不是简单的将图像中的像素点分为两类或者少数几类,因此,神经网络的层数以及神经元的数量可能会比较多,每个神经元抽取图像中的一个特征,但是,每个神经元具体抽取了什么特征,最终运算时,哪些特征发挥了更大的作用(权重更高),等等,都是神经网络内部自行决定的,这些特征可能并不在人类所能理解或者表述的范围内,这也是神经网络算法模型的特点所在。因此,关于神经网络算法模型内部更具体的学习过程,以及具体预测过程中分别提取了哪些特征等,这里不做介绍。对于本申请实施例而言,主要的关注点在于如何定义图像中像素点的表达方式,在此基础上,只要选择了合适的神经网络模型,并设定出具体的层数以及神经元数量,再提供适当的训练样本图像以及对应的标注结果,便可以完成神经网络算法模型的学习以及预测过程。
S420:将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
在得到具体的目标算法模型后,可以用来对具体的目标图像进行预测,其中,具体的预测结果中就可以包括像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息,通过这两方面的信息,便可以实现对文本行的分割。
S430:根据所述多个像素点的方向场信息进行文本行分割。
其中,具体在根据方向场信息进行文本行分割时,可以有多种方式。例如,一种方式下,可以根据所述多个像素点的方向场信息确定相对于各自可能所属的文本行中心线的方向信息发生突变的目标像素点所在的位置,然后,根据所述目标像素点所在的位置确定文本行的行边界线,并进行文本行分割。另外,在具体实现时,完成文本行分割后,还可以进一步确定出检测的出文本行的包围框的位置,完成文本行检测的全部工作。后续便可以根据具体文本行包围框的检测结果,进行具体文本行包围框内部的文字识别处理,这部分具体的文字识别工作不属于本申请实施例中的处理范围,因此,不再详述。
需要说明的是,本申请实施例所提供的方案中,并没有使用现有技术中的候选框等技术,对可识别的文本的排列形状没有限制,因此,能够检测出按照任意曲线形状排列的文本行;另外,由于引入了方向场的表达方式,能够识别出像素点相对于其可能所属的文本行中心线的方向信息,使得行与行之间交界处的像素点体现出明显的区别、甚至相反的特征,因此,能够分割出所述目标图像中行间距小于阈值(可以根据FCN等普通算法所能够检测的最大行间距来确定该阈值)的文本行。因此,如果图像中包括了按曲线排列,且存在行粘连情况的文本行,也能够进行准确的检测以及分割。当然,该方案并不仅限于对具有上述特点的文本行进行检测或者分割,对于支线排列的文本行,或者不存在行粘连情况的文本行,也都能够进行检测以及分割,因此,方案的通用性强。
具体实现时,为了降低算法的复杂度,同时提高效率,其中,关于所述像素点相对于文本行中心线的方向信息,具体可以表示为:从所述像素点到文本行中心线上与其距离最近的点的连线方向角度信息。也即,可以仅通过方向角来描述上述方向信息,而不需要包含具体与中心线之间的距离信息,以此简化算法的难度以及计算量。更进一步的,像素点相对于文本行中心线的方向信息可以包括:像素点相对于文本行中心线的方向角度类别信息,其中,同一方向角度类别中包括同一方向角度区间内的多个像素点;此时,目标算法模型输出的预测结果中包括:像素点相对于其可能所属的文本行的中心线的方向角度类别信息。也就是说,不需要准确地预测出每个像素点实际相对于所属文本行中心线的方向角度值,只需要给出个大致的角度范围区间即可。
另外,在可选的实施方式中,还可以提供可视化的预测结果,此时,标注结果中还可以包括不同的方向类别对应的不同颜色信息;这样,目标算法模型学习的信息还可以包括上述颜色信息,因此,输出的预测结果可以包括:根据像素点相对于其可能所属的文本行的中心线的方向类别对应的颜色信息,提供的可视化的预测结果。
总之,通过本申请实施例,提出了通过方向场对图像中的像素点进行表达的方案,并通过预先学习到相关特征信息的算法模型,预测出目标图像中像素点的方向场信息,其中,方向场信息可以包括像素点属于文字的置信度,以及像素点相对于可能所属的文本行的中心线的方向信息。这样,由于检测的过程对可识别的文本的排列形状没有限制,因此,能够检测出按照任意曲线形状排列的文本行;另外,由于引入了像素点相对于可能所属的文本行的中心线的方向信息,因此,使得行与行之间交界处的像素点体现出明显的区别、甚至相反的特征,从而能够分割出所述目标图像中行间距小于阈值(可以根据FCN等普通算法所能够检测的最大行间距来确定该阈值),也即存在行粘连情况的文本行。可见,即使图像中的文本行成曲线排列,并且存在行粘连情况,本申请实施例的方案也能够准确的进行文本行的分割,从而提升文本行检测的适用范围。
本申请实施例提供的文本行检测方案可以在多种具体的应用场景中使用,例如,在商品对象信息服务系统中,由于涉及到大量的图片,而这些图片中包括由具体的商家或者卖家用户等上传的图片,系统对这种图片进行发布之前,经常涉及到从商品图或者店铺图等图像中进行文字识别的需求,以此进行图像审核,以检查图片中是否存在夸大宣传等违规违法文字等情况。但是,如果图像中存在曲线排列、行粘连的文字,现有技术的方案就无法进行准确的文本行检测,进而无法进行准确的文字识别。此时就可以使用本申请实施例中的方案进行识别。
或者,另一种场景下,对于一些具有盖章的文件等图片,文件正文内容的文字识别通常是很容易的,但是,难点在于文件的印章部分,印章往往盖在一个文档中名字或者机构上,遮挡的都是重要的信息,因此,如果印章上的文字无法准确识别,这篇文档最重要的信息也无法获取,产品应用范围受限。但是,由于印章是盖在具体的文档中已有的文字之上,因此,会使得印章印下的文字与文档中已有的文字之间可能出现“粘连”,而印章印下的文字又通常具有曲线排列的特点,因此,使用现有技术的算法也很难进行准确的文本行检测。此时,同样可以使用本申请实施例中提供的方案实现对这种复杂情况下的文本行识别,这样可以准确识别出印章中的文字,进而有效识别出被印章遮挡的文字内容。
当然,在实际应用中,本申请实施例提供的方案还可以有其他更多的应用场景,这里不再一一详述。
与前述图像中的文本行检测方法相对应,本申请实施例还提供了一种图像中的文本行检测装置,参见图5,该装置具体可以包括:
模型建立单元510,用于建立目标算法模型;
预测单元520,用于将待预测的目标图像输入到目标算法模型中,获得预测结果,预测结果包括所述目标图像中多个像素点的方向场信息,方向场信息包括:像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
文本行分割单元530,用于根据多个像素点的方向场信息进行文本行分割。
其中,目标图像中包括按照曲线排列的文字组成的文本行,且不同文本行之间的行间距小于阈值。目标算法模型可以包括目标神经网络算法模型。
在另一种实现方式下,模型建立单元具体可以包括:
训练样本获得单元,用于获得训练样本图像,以及对应的标注结果,所述标注结果包括:所述训练样本图像中包括的文本行的包围框,以及所述文本行内的像素点相对于文本行中心线的方向信息;
模型获得单元,用于获得初始状态的算法模型;
学习单元,用于将训练样本图像作为输入信息,输入到算法模型中进行多次迭代,其中,每次迭代过程中,通过将算法模型输出的像素点的方向场信息与标注结果信息进行比对获得差异值,并根据差异值对算法模型进行调整,直到算法收敛,获得目标算法模型。
其中,标注结果中,像素点相对于文本行中心线的方向信息包括:像素点相对于文本行中心线的方向角度信息,方向角度信息为:从像素点到文本行中心线上与其距离最近的点的连线方向角度信息。
或者,为了简化算法提高效率,标注结果中,像素点相对于文本行中心线的方向角度信息包括:像素点相对于文本行中心线的方向角度类别信息,其中,同一方向类别中包括同一方向区间内的多个像素点;此时,目标算法模型输出的预测结果中包括:像素点相对于其可能所属的文本行的中心线的方向角度类别信息。
另外,为了提供可视化的预测结果,所述标注结果中还可以包括不同的方向类别对应的不同颜色信息;此时,目标算法模型输出的预测结果包括:根据像素点相对于其可能所属的文本行的中心线的方向类别对应的颜色信息,提供的可视化的预测结果。
其中文本行分割单元具体可以包括:
突变位置确定子单元,用于根据多个像素点的方向场信息确定相对于各自可能所属的文本行中心线的方向信息发生突变的目标像素点所在的位置;
分割子单元,用于根据目标像素点所在的位置确定文本行的行边界线,并进行文本行分割。
其中,待预测的目标图像包括:商品对象信息服务系统中待发布信息中包含的图像,所述待发布信息中包含的图像包括商品对象图,或者店铺对象图,或者品牌标志图。
或者,待预测的目标图像可以包括:具有印章文字以及被印章文字遮挡的文字的图像。
另外,本申请实施例还提供了一种计算机系统,包括:
一个或多个处理器;以及
与所述一个或多个处理器关联的存储器,所述存储器用于存储程序指令,所述程序指令在被所述一个或多个处理器读取执行时,执行如下操作:
建立目标算法模型;
将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
根据所述多个像素点的方向场信息进行文本行分割。
其中,图6示例性的展示出了计算机系统的架构,具体可以包括处理器610,视频显示适配器611,磁盘驱动器612,输入/输出接口613,网络接口614,以及存储器620。上述处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620之间可以通过通信总线630进行通信连接。
其中,处理器610可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请所提供的技术方案。
存储器620可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器620可以存储用于控制计算机系统600运行的操作系统621,用于控制计算机系统600的低级别操作的基本输入输出系统(BIOS)。另外,还可以存储网页浏览器623,数据存储管理系统624,以及图标字体处理系统625等等。上述图标字体处理系统625就可以是本申请实施例中具体实现前述各步骤操作的应用程序。总之,在通过软件或者固件来实现本申请所提供的技术方案时,相关的程序代码保存在存储器620中,并由处理器610来调用执行。
输入/输出接口613用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
网络接口614用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线630包括一通路,在设备的各个组件(例如处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,与存储器620)之间传输信息。
另外,该计算机系统600还可以从虚拟资源对象领取条件信息数据库641中获得具体领取条件的信息,以用于进行条件判断,等等。
需要说明的是,尽管上述设备仅示出了处理器610、视频显示适配器611、磁盘驱动器612、输入/输出接口613、网络接口614,存储器620,总线630等,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本申请方案所必需的组件,而不必包含图中所示的全部组件。通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本申请所提供的图像中的文本行检测方法、装置及计算机系统,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种图像中的文本行检测方法,其特征在于,包括:
建立目标算法模型;
将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
根据所述多个像素点的方向场信息进行文本行分割。
2.根据权利要求1所述的方法,其特征在于,
所述目标图像中包括按照曲线排列的文字组成的文本行,且不同文本行之间的行间距小于阈值。
3.根据权利要求1所述的方法,其特征在于,
所述建立目标算法模型,包括:
获得训练样本图像,以及对应的标注结果,所述标注结果包括:所述训练样本图像中包括的文本行的包围框,以及所述文本行内的像素点相对于文本行中心线的方向信息;
获得初始状态的算法模型;
将所述训练样本图像作为输入信息,输入到算法模型中进行多次迭代,其中,每次迭代过程中,通过将算法模型输出的像素点的方向场信息与所述标注结果信息进行比对获得差异值,并根据所述差异值对所述算法模型进行调整,直到算法收敛,获得目标算法模型。
4.根据权利要求3所述的方法,其特征在于,
所述标注结果中,像素点相对于文本行中心线的方向信息包括:像素点相对于文本行中心线的方向角度信息,所述方向角度信息为:从所述像素点到文本行中心线上与其距离最近的点的连线方向角度信息。
5.根据权利要求4所述的方法,其特征在于,
所述标注结果中,像素点相对于文本行中心线的方向角度信息包括:像素点相对于文本行中心线的方向角度类别信息,其中,同一方向类别中包括同一方向区间内的多个像素点;
所述目标算法模型输出的预测结果中包括:像素点相对于其可能所属的文本行的中心线的方向角度类别信息。
6.根据权利要求5所述的方法,其特征在于,
所述标注结果中还包括不同的方向类别对应的不同颜色信息;
所述目标算法模型输出的预测结果包括:根据像素点相对于其可能所属的文本行的中心线的方向类别对应的颜色信息,提供的可视化的预测结果。
7.根据权利要求1至6任一项所述的方法,其特征在于,
所述根据所述多个像素点的方向场信息进行文本行分割,包括:
根据所述多个像素点的方向场信息确定相对于各自可能所属的文本行中心线的方向信息发生突变的目标像素点所在的位置;
根据所述目标像素点所在的位置确定文本行的行边界线,并进行文本行分割。
8.根据权利要求1至6任一项所述的方法,其特征在于,
所述待预测的目标图像包括:商品对象信息服务系统中待发布信息中包含的图像,所述待发布信息中包含的图像包括商品对象图,或者店铺对象图,或者品牌标志图。
9.根据权利要求1至6任一项所述的方法,其特征在于,
所述待预测的目标图像包括:具有印章文字以及被印章文字遮挡的文字的图像。
10.一种图像中的文本行检测装置,其特征在于,包括:
模型建立单元,用于建立目标算法模型;
预测单元,用于将待预测的目标图像输入到所述目标算法模型中,获得预测结果,所述预测结果包括所述目标图像中多个像素点的方向场信息,所述方向场信息包括:所述像素点属于文字的置信度信息,以及像素点相对于其可能所属的文本行的中心线的方向信息;
文本行分割单元,用于根据所述多个像素点的方向场信息进行文本行分割。
CN201910227708.3A 2019-03-25 2019-03-25 图像中的文本行检测方法、装置及计算机系统 Active CN111738252B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910227708.3A CN111738252B (zh) 2019-03-25 2019-03-25 图像中的文本行检测方法、装置及计算机系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910227708.3A CN111738252B (zh) 2019-03-25 2019-03-25 图像中的文本行检测方法、装置及计算机系统

Publications (2)

Publication Number Publication Date
CN111738252A true CN111738252A (zh) 2020-10-02
CN111738252B CN111738252B (zh) 2024-05-14

Family

ID=72646262

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910227708.3A Active CN111738252B (zh) 2019-03-25 2019-03-25 图像中的文本行检测方法、装置及计算机系统

Country Status (1)

Country Link
CN (1) CN111738252B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869314A (zh) * 2021-10-13 2021-12-31 广东金赋科技股份有限公司 一种文本方向聚类矫正的图像信息提取方法及系统
US20220189191A1 (en) * 2020-12-10 2022-06-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium for determining reliability of rounding processing
CN114842464A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 图像方向识别方法、装置、设备、存储介质及程序产品
CN116152842A (zh) * 2022-11-18 2023-05-23 北京中卡信安电子设备有限公司 一种证件图像处理方法、装置、存储介质及电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108805131A (zh) * 2018-05-22 2018-11-13 北京旷视科技有限公司 文本行检测方法、装置及系统
WO2018223857A1 (zh) * 2017-06-09 2018-12-13 科大讯飞股份有限公司 文本行识别方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018223857A1 (zh) * 2017-06-09 2018-12-13 科大讯飞股份有限公司 文本行识别方法及系统
CN108805131A (zh) * 2018-05-22 2018-11-13 北京旷视科技有限公司 文本行检测方法、装置及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Application of wavelet analyses on non-destructive testing about anchorage quality", 《INTERNATIONAL CONFERENCE ON WAVELET ANALYSIS AND PATTERN RECOGNITION》, 31 December 2008 (2008-12-31) *
朱健菲;应自炉;陈鹏飞;: "回归――聚类联合框架下的手写文本行提取", 中国图象图形学报, no. 08, 16 August 2018 (2018-08-16) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220189191A1 (en) * 2020-12-10 2022-06-16 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium for determining reliability of rounding processing
US11798304B2 (en) * 2020-12-10 2023-10-24 Canon Kabushiki Kaisha Image processing apparatus, image processing method, and storage medium for determining reliability of rounding processing
CN113869314A (zh) * 2021-10-13 2021-12-31 广东金赋科技股份有限公司 一种文本方向聚类矫正的图像信息提取方法及系统
CN114842464A (zh) * 2022-05-13 2022-08-02 北京百度网讯科技有限公司 图像方向识别方法、装置、设备、存储介质及程序产品
CN116152842A (zh) * 2022-11-18 2023-05-23 北京中卡信安电子设备有限公司 一种证件图像处理方法、装置、存储介质及电子设备
CN116152842B (zh) * 2022-11-18 2023-11-03 北京中卡信安电子设备有限公司 一种证件图像处理方法、装置、存储介质及电子设备

Also Published As

Publication number Publication date
CN111738252B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN108304835B (zh) 文字检测方法和装置
US10572754B2 (en) Area of interest boundary extracting method and apparatus, device and computer storage medium
CN109948507B (zh) 用于检测表格的方法和装置
CN111738252B (zh) 图像中的文本行检测方法、装置及计算机系统
US10643094B2 (en) Method for line and word segmentation for handwritten text images
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
US8718365B1 (en) Text recognition for textually sparse images
EP3846076A1 (en) Method, device, chip circuit and computer program product for recognizing mixed typeset texts
CN112101386B (zh) 文本检测方法、装置、计算机设备和存储介质
CN110196917B (zh) 个性化logo版式定制方法、系统和存储介质
CN112163577B (zh) 游戏画面中的文字识别方法、装置、电子设备和存储介质
US11741685B2 (en) Commodity identification device, non-transitory computer-readable storage medium, and learning method
KR20200020305A (ko) 문자 인식을 위한 방법 및 장치
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
CN112016545A (zh) 一种包含文本的图像生成方法及装置
CN106295627A (zh) 用于识别文字牛皮癣图片的方法及装置
KR20140091760A (ko) 화상 내의 텍스트의 검출을 용이하게 하기 위한 방법 및 장치
CN112883926A (zh) 表格类医疗影像的识别方法及装置
US10631050B2 (en) Determining and correlating visual context on a user device with user behavior using digital content on the user device
CN113762257A (zh) 一种美妆品牌图像中标志的识别方法及装置
JP5027201B2 (ja) テロップ文字領域検出方法,テロップ文字領域検出装置およびテロップ文字領域検出プログラム
CN113112567A (zh) 生成可编辑流程图的方法、装置、电子设备和存储介质
Chavre et al. Scene text extraction using stroke width transform for tourist translator on android platform
CN117351505A (zh) 信息码的识别方法、装置、设备及存储介质
CN111797830A (zh) 票据图像快速红章检测方法、系统、装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant