CN112241736B - 一种文本检测的方法及装置 - Google Patents
一种文本检测的方法及装置 Download PDFInfo
- Publication number
- CN112241736B CN112241736B CN201910656023.0A CN201910656023A CN112241736B CN 112241736 B CN112241736 B CN 112241736B CN 201910656023 A CN201910656023 A CN 201910656023A CN 112241736 B CN112241736 B CN 112241736B
- Authority
- CN
- China
- Prior art keywords
- text
- corner
- region
- category
- point
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims abstract description 155
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000013135 deep learning Methods 0.000 claims description 61
- 238000010586 diagram Methods 0.000 claims description 24
- 238000004891 communication Methods 0.000 claims description 18
- 238000013507 mapping Methods 0.000 claims description 14
- 238000000605 extraction Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 230000003930 cognitive ability Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种文本检测的方法及装置,所述方法包括:对原始图像进行特征提取,生成特征图像;对该特征图像进行文本区域分割,生成文本区域分割图,该文本区域分割图包括一个或多个文本连通区域,以及除该文本连通区域以外的背景区域;对该特征图像进行文本角点区域分割,生成角点区域分割图,该角点区域分割图包括一个或多个角点区域以及非角点区域;将该文本区域分割图与该角点区域分割图进行像素匹配,以确定该文本区域分割图中的各文本连通区域中的角点区域;针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形,从而可以直接检测出文本的位置。
Description
技术领域
本申请涉及图像检测领域,尤其涉及一种文本检测的方法及装置。
背景技术
随着社会的不断进步,从图像中自动提取有用的文字信息成为新的需求。对公司来说,可以提高生产效率和降低成本:利用机器自动采集图像并检测识别出其中的文字信息,可以加快信息的搜集和减少人力成本;对人工智能来说,可以增强感知和认知能力:对场景中文本的检测与识别,有助于智能体对场景的分析与理解。
目前对中文的检测识别要求越来越高,而中文的出现往往是长句或者成行,导致图像中的文本长度和宽高比变得复杂。在这种情况下,长文本的问题凸显出来,特别是对于中文等长字符串的检测识别应用场景,对长文本检测的要求变得更加严格。
发明内容
有鉴于此,本申请提供一种文本检测的方法及装置。
具体地,本申请是通过如下技术方案实现的:
第一方面,本申请实施例提供了一种文本检测的方法,所述方法包括:
对原始图像进行特征提取,生成特征图像;
对所述特征图像进行文本区域分割,生成文本区域分割图,所述文本区域分割图包括一个或多个文本连通区域,以及除所述文本连通区域以外的背景区域;
对所述特征图像进行文本角点区域分割,生成角点区域分割图,所述角点区域分割图包括一个或多个角点区域以及非角点区域;
将所述文本区域分割图与所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域;
针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形。
可选地,所述对所述特征图像进行文本区域分割,生成文本区域分割图,包括:
将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别;
将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
可选地,所述对所述特征图像进行文本角点区域分割,生成角点区域分割图,包括:
将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别;
将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
可选地,所述将所述文本区域分割图及所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域,包括:
针对所述文本分割图中的各文本连通区域,将该文本连通区域中的各像素点在所述角点区域分割图中进行匹配;
当所述像素点匹配上角点区域中的像素点时,将该像素点的类别由文本类别更新为角点区域类别;
当所述文本连通区域的所有像素点遍历完成以后,将该文本连通区域中角点区域类别相同的像素点连通,得到该文本连通区域的角点区域。
可选地,在生成特征图像以后,所述方法还包括:
将所述特征图像输入已训练的第三深度学习网络,由所述第三深度学习网络计算所述特征图像中各像素点距离与其最近的角点的偏移量,以输出角点回归图,其中,所述角点回归图记录了各像素点距离与其最近的角点的偏移量。
可选地,所述确定该文本连通区域中各角点区域的角点,包括:
针对该文本连通区域中的各角点区域,在所述角点回归图中匹配该角点区域中的像素点,获取该像素点距离最近角点的偏移量;
根据所述像素点距离最近角点的偏移量,回归出候选角点;
计算所述角点区域中各像素点回归出的候选角点的坐标平均值,作为该角点区域的角点的位置。
可选地,上述方法还包括:
针对所述文本区域分割图中不具有指定数量的角点区域的文本连通区域,则迭代至下一文本连通区域进行检测。
第二方面,本申请实施例提供了一种文本检测装置,所述装置包括:
特征提取模块,用于对原始图像进行特征提取,生成特征图像;
文本区域分割模块,用于对所述特征图像进行文本区域分割,生成文本区域分割图,所述文本区域分割图包括一个或多个文本连通区域,以及除所述文本连通区域以外的背景区域;
文本角点区域分割模块,用于对所述特征图像进行文本角点区域分割,生成角点区域分割图,所述角点区域分割图包括一个或多个角点区域以及非角点区域;
角点区域匹配模块,用于将所述文本区域分割图与所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域;
角点确定模块,用于针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点;
文本位置确定模块,用于将连接各角点生成的多边形作为文本所在位置的外接框形。
可选地,所述文本区域分割模块具体用于:
将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别;
将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
可选地,所述文本角点区域分割模块具体用于:
将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别;
将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
本申请实施例具有如下有益效果:
在本实施例中,对原始图像进行特征提取生成特征图像以后,通过对特征图像分别进行文本区域分割以及文本角点区域分割,得到对应的文本区域分割图及角点区域分割图,然后将文本区域分割图与角点区域分割图进行像素匹配,确定文本区域分割图中的各文本连通区域中的角点区域,针对具有指定数量的角点区域的文本连通区域,还可以确定该文本连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形,从而可以直接检测出文本的位置,整个过程不需要复杂的后处理操作,减少了误检的概率,提高了文本检测的准确性以及提升了文本检测的效率。
附图说明
图1是本申请一示例性实施例示出的一种文本检测的方法实施例的步骤流程图;
图2是本申请一示例性实施例示出的第一深度学习网络的网络结构示意图;
图3是本申请一示例性实施例示出的文本区域分割图示意图;
图4是本申请一示例性实施例示出的第二深度学习网络的网络结构示意图;
图5是本申请一示例性实施例示出的角点区域分割图示意图;
图6是本申请一示例性实施例示出的文本角点区域示意图;
图7是本申请一示例性实施例示出的第三深度学习网络的网络结构示意图;
图8是本申请一示例性实施例示出的像素点距离与其最近角点偏移量示意图;
图9是本申请一示例性实施例示出的检测出的长文本外接框形示意图;
图10是本申请的装置所在设备的一种硬件结构图;
图11是本申请一示例性实施例示出的一种文本检测装置实施例的结构框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
参考图1,示出了本申请一示例性实施例示出的一种文本检测的方法实施例的步骤流程图,可以用图像中识别出文本的位置,适用于票据识别、简历识别、读书产品中的文字识别、卡证识别、海报识别等,泛化能力强。
本申请实施例具体可以包括如下步骤:
步骤101,对原始图像进行特征提取,生成特征图像。
示例性地,原始图像可以为包含长文本的图像,其中,长文本是指内容较多的文本。例如,长文本可以为文本自身的的高度比较高(比如5行);且文本的宽度较长,如占据图像宽度的一定比例以上(如1/3)。
在一种例子中,原始图像的来源可以有多种,例如,可以来自摄像机拍摄的图像、从网上下载的互联网图像或者人工合成的图像等。
在本实施例中,可以采用任意特征提取方法对原始图像进行特征提取,以生成特征图像。示例性的,特征图像可以为包括多个特征向量的特征矩阵,其可以具有固定的尺寸,例如,一个特征图像的尺寸可以为224*224。
本实施例对具体的特征以及特征提取的方式不作限定,可以通过一种方式进行特征提取,还可以考虑多种特征提取方式。
例如,在一种实施例中,可以通过深度学习分类网络,如Resnet(残差网络)、Inception系列等深度学习网络经过卷积与池化等操作进行通用特征提取,该深度学习分类网络可以基于网络的预训练参数,结合训练数据集对网络模型进行细调整(Finetune)得到。示例性地,通用特征可以包括但不限于颜色特征、纹理特征、形状特征和空间关系特征等特征信息。
在其他实施例中,还可以提取人工设计的特征,例如,可以提取尺度不变特征变换(Scale-invariant feature transform,SIFT)特征、统计梯度信息的HOG(Histogram oforiented gradient,方向梯度直方图)特征和基于滤波的Gabor特征等。
步骤102,对所述特征图像进行文本区域分割,生成文本区域分割图。
在本实施例中,文本区域分割图是指根据特征图像检测出存在文本的文本区域的分割图,用以分割文本区域以及非文本区域的背景区域。
在本实施例的一种可能的实施方式中,步骤102可以包括如下步骤:
子步骤S11,将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别。
在本实施例中,第一深度学习网络可以通过语义分割,以自下而上的方式将特征图中的像素点区分为背景或文本这两种类别。例如,如图2的第一深度学习网络的网络结构示意图所示,假设第一深度学习网络为卷积神经网络(Convolutional Neural Networks,CNN),在神经网络中,特征图像被表示成[C,H,W]的格式,如图2所示的C*H*W:256*224*224。其中,C表示图像通道数,H表示图像高度,W表示图像宽度。特征图像输入卷积神经网络以后,通过卷积网络(图2中表示的卷积网络可以包含若干个卷积层,每个卷积层包括若干1×1或3×3的卷积核)进行处理,得到256*224*224的中间结果,并通过最后一个卷积层将256*224*224的特征图处理成2*224*224的特征图,在该2*224*224的特征图中记录了各像素点分别对应于背景类别与文本类别的概率(因此此处将通道数处理成2通道),然后将2*224*224的特征图输入归一化(softmax)层,softmax层根据各像素点的概率,取概率大的类别作为该像素点对应的第一类别,以完成像素点的分类。
在一种示例中,文本类别可以采用第一值表示,背景类别可以采用第二值表示,例如在图2中,阴影部分的格子为文本类别,其他的格子为背景类别。
在一种实施方式中,第一深度学习网络可以通过监督学习训练得到:针对给定的包含文本行的图像训练集,其标注的格式通常为每一行文本标注一个四边外接框形,获取对各图像的文本行进行标注的外接框形,然后设置该外接矩形框内的像素点的第一类别为第一值,并设置背景的像素点的第一类别为第二值,将设置的各像素点的第一类别作为监督信息进行网络训练,得到第一深度学习网络。
子步骤S12,将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
在该步骤中,通过第一深度网络获得特征图像中各像素点的第一类别以后,可以将特征图像中的像素点映射回原始图像中,例如,假设特征图像的大小为224*224,而原始图像的大小为896*896,那么对于特征图像中每个像素点,其可以对应于原始图像中4*4个像素点,比如特征图像中某个像素点的第一类别为文本类别,映射到原始图像以后,则可以以该像素位置为中心取4*4个像素点,将该4*4个像素点的第一类别设定为文本类别。
当特征图像中的所有像素点都映射到原始图像以后,在原始图像中可以将相同类别的像素点进行连通,得到文本连通区域以及背景区域,从而生成一副文本区域分割图。在一种例子中,如图3所示,文本区域分割图可以是一个二值图像,其中白色为1表示存在文本的文本连通区域R1及R2,黑色为0表示背景区域。
步骤103,对所述特征图像进行文本角点区域分割,生成角点区域分割图。
在本实施例中,角点区域分割图是指根据特征图像检测出文本区域的角点区域的分割图,用以分割角点区域以及非角点区域。
在本实施例的一种可能的实施方式中,步骤103可以包括如下步骤:
子步骤S21,将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别。
在本实施例中,与第一深度学习网络相似,第二深度学习网络也可以通过语义分割,以自下而上的方式将特征图中的像素点区分为角点区域或非角点区域的类别。例如,如图4的第二深度学习网络的网络结构示意图所示,假设第二深度学习网络为卷积神经网络(Convolutional Neural Networks,CNN),且假设每行文本区域的角点区域包括左上角、右上角、左下角及右下角四个角点区域。在神经网络中,特征图像被表示成[C,H,W]的格式,如图4所示的C*H*W:256*224*224。特征图像输入卷积神经网络以后,通过卷积网络(图4中表示的卷积网络可以包含若干个卷积层,每个卷积层包括若干1×1或3×3的卷积核)进行处理,得到256*224*224的中间结果,并通过最后一个卷积层将256*224*224的特征图处理成5*224*224的特征图,在该5*224*224的特征图中记录了各像素点分别对应于各角点区域类别以及非角点区域类别的概率(在本实施例中设定的角点区域类别包括左上角、右上角、左下角及右下角四个角点区域类别,加上一个非角点区域类别,因此此处将通道数处理成5通道),然后将5*224*224的特征图输入softmax层,softmax层根据各像素点的概率,取概率最大的类别作为该像素点的第二类别,以完成像素点的分类。
在一种示例中,各角点区域类别可以采用不同的值表示,例如在图4中,分别采用A、B、C、D来表示四个角点区域的类别的值。
在一种实施方式中,第二深度学习网络可以通过监督学习训练得到:针对给定的包含文本行的图像训练集,其标注的格式通常为每一行文本标注左上角、右上角、左下角及右下角四个角点区域,针对四个角点区域可以设置不同的第二类别的值作为监督信息进行网络训练,得到第二深度学习网络。
子步骤S22,将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
在该步骤中,通过第二深度网络获得特征图像中各像素点的第二类别以后,可以将特征图像中的像素点映射回原始图像中,例如,假设特征图像的大小为224*224,而原始图像的大小为896*896,那么对于特征图像中每个像素点,其可以对应于原始图像中4*4个像素点,比如特征图像中某个像素点的第二类别为文本类别,映射到原始图像以后,则可以以该像素位置为中心取4*4个像素点,将该4*4个像素点的第二类别设定为某个角点区域类别。
当特征图像中的所有像素点都映射到原始图像以后,在原始图像中可以将相同类别的像素点进行连通,得到角点背景区域,从而生成一副角点区域分割图。在一种例子中,如图5所示,角点区域分割图可以包括C1-C4四种角点区域以及除角点区域以外的非角点区域,其中每一个文本行可以检测出四个角点区域。
步骤104,将所述文本区域分割图及所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域。
在该步骤中,可以从步骤102中获得文本区域分割图以及从步骤103中获得角点区域分割图,其中,文本区域分割图与角点区域分割图的尺寸是相同的,两者在像素点上一一对应。然后,针对文本区域分割图中的每个文本连通区域R1…Rn,在角点区域分割图进行匹配,以判断该文本连通区域是否存在匹配的角点区域。
在本实施例的一种可能的实施方式中,步骤104可以包括如下子步骤:
子步骤S31,针对所述文本分割图中的各文本连通区域,将该文本连通区域中的各像素点在所述角点区域分割图中进行匹配。
子步骤S32,当所述像素点匹配上角点区域中的像素点时,将该像素点的类别由文本类别更新为角点区域类别。
子步骤S33,当所述文本连通区域的所有像素点遍历完成以后,将该文本连通区域中角点区域类别相同的像素点连通,得到该文本连通区域的角点区域。
例如,假设在图3中文本连通区域R1及R2中的像素点的类别均为第一类别,其值为数值1。在图5中,角点区域C1-C4的类别均属于角点区域类别,其值分别为2、3、4、5。在子步骤S31中,分别将文本连通区域R1及R2中的各像素点在图5的角点区域分割图中找到匹配的像素点。如果该匹配的像素点的类别为角点区域类别,则可以在子步骤S32中,将R1或R2中的当前像素点的类别由文本类别更新为角点区域类别,比如,R1中某个像素点在角点区域分割图中找到的匹配像素点为C1中的像素点,则可以将该像素点的值由数值1更新为数值2。
当R1中所有像素点匹配完成以后,在子步骤S33可以统计R1中的角点区域的类别与数目,在实现时可以将R1中类别数值为2的所有像素点连通为C1角点区域,将类别数值为3的所有像素点连通为C2角点区域,将类别数值为4的所有像素点连通为C3角点区域,将类别数值为5的所有像素点连通为C4角点区域。例如,将图3的R1与R2在图5中进行匹配以后,得到的R1与R2的角点区域可以如图6所示。
当文本连通区域中的像素点遍历完成以后,可以统计该文本连通区域中的角点区域的数量,如果数量为指定数量,例如,如图6所示,若指定数量包括左上角、右上角、左下角及右下角四种角点区域,若R1中具有上述的四种角点区域,则可以继续执行步骤105。如果R1中的角点区域不足上述四种,则迭代至下一文本连通区域进行检测,即迭代至R2中进行检测。
需要说明的是,本实施例并不限于左上角、右上角、左下角及右下角四种角点区域,本领域技术人员可以根据实际需求设定不同的角点区域,例如,对于弯曲文本,可以设置超过四种角点区域。
步骤105,针对具有指定数量的角点区域的文本连通区域,确定该连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形。
在该步骤中,当文本连通区域中的角点区域的数量为指定数量时,则可以进一步确定各角点区域中具体角点的位置。
在本实施例的一种可能的实施方式中,步骤105可以包括如下子步骤:
子步骤S41,针对该文本连通区域中的各角点区域,在角点回归图中匹配该角点区域中的像素点,获取该像素点距离最近角点的偏移量。
在本实施例中,角点回归图中记录了各像素点距离最近角点的坐标偏移量,示例性地,该坐标偏移量可以包括x方向的偏移及y方向的偏移。
在一种可能的实施方式中,在得到特征图像以后,可以通过以下步骤根据特征图像生成角点回归图:
将所述特征图像输入已训练的第三深度学习网络,由所述第三深度学习网络计算所述特征图像中各像素点距离与其最近的角点的偏移量,以输出角点回归图,其中,所述角点回归图记录了各像素点距离与其最近的角点的偏移量。
例如,如图7的第三深度学习网络的网络结构示意图所示,假设第三深度学习网络为卷积神经网络(Convolutional Neural Networks,CNN),在神经网络中,特征图像被表示成[C,H,W]的格式,如图7所示的C*H*W:256*224*224。特征图像输入卷积神经网络以后,通过卷积网络(图7中表示的卷积网络可以包含若干个卷积层,每个卷积层包括若干1×1或3×3的卷积核)进行处理,得到256*224*224的特征图,并通过最后一个卷积层将256*224*224的特征图处理成2*224*224的特征图(在本实施例中需要得到x方向以及y方向两个坐标偏移量,因此此处将通道数处理成2通道),在该2*224*224的特征图中每个像素点的特征值为该像素点具体与其最近角点的偏移量。
例如,如图8所示,像素点A具体其最近角点的偏移量为(8,5)。
在一种实施方式中,第三深度学习网络可以通过监督学习训练得到:针对给定的包含文本行的图像训练集,其标注的格式通常为每一行文本标注一个四边外接框形,并标注该四边外接矩形的四个角点,根据标注的内容,可以计算训练图像中各像素点距离其最近角点的x方向的偏移量以及y方向的偏移量,将这些信息作为监督信息进行网络训练,得到第三深度学习网络。
应当理解的是,本实施例对第一深度学习网络、第二深度学习网络及第三深度学习网络进行处理的先后顺序不作限制,当得到特征图像以后,可以同时将特征图像输入第一深度学习网络、第二深度学习网络及第三深度学习网络中,以触发这三个网络对特征图像的处理,三个网络可以根据各子的预测目标并行对特征图像进行预测。
本实施例通过深度学习的方式得到深度学习网络,支持海量数据学习,从而可以得到较为准确的预测结果。
子步骤S42,根据所述像素点距离最近角点的偏移量,回归出候选角点。
当获得角点区域中各像素点距离与其最近角点的偏移量时,可以根据该偏移量,回归出各像素点对应的候选角点的坐标位置。例如,在图8中,某个位于左上角点区域的像素点的坐标偏移量为(8,5),则根据该偏移量回归出的候选角点的位置为(x-8,y-5),其中x,y为该像素点的x方向及y方向的坐标值。
子步骤S43,计算所述角点区域中各像素点回归出的候选角点的坐标平均值,作为该角点区域的角点的位置。
在该步骤中,得到某个角点区域中所有像素点对应的候选角点以后,可以计算所有候选角点的坐标的平均值,得到该角点区域中具体的角点的位置,即计算各候选角点x方向的坐标的平均值作为最终的角点的x方向的坐标值,计算各候选角点y方向的坐标的平均值作为最终的角点的y方向的坐标值。
若当前文本连通区域中指定数量的角点均已确定以后,可以连接相邻角点生成的闭合多边形作为文本所在位置的外接框形。例如,采用本实施例提供的方法检测出长文本的示意图可以如图9所示。
在本实施例中,对原始图像进行特征提取生成特征图像以后,通过对特征图像分别进行文本区域分割以及文本角点区域分割,得到对应的文本区域分割图及角点区域分割图,然后将文本区域分割图与角点区域分割图进行像素匹配,确定文本区域分割图中的各文本连通区域中的角点区域,针对具有指定数量的角点区域的文本连通区域,还可以确定该文本连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形,从而可以直接检测出文本的位置,整个过程不需要复杂的后处理操作,减少了误检的概率,提高了文本检测的准确性以及提升了文本检测的效率。
与前述方法的实施例相对应,本申请还提供了一种文本检测装置的实施例。
本申请的装置实施例可以应用于电子设备中。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图10所示,为本申请的装置所在设备的一种硬件结构图,除了图10所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该装置的实际功能,还可以包括其他硬件,对此不再赘述。
请参考图11,示出了本申请一示例性实施例示出的一种文本检测装置实施例的结构框图,具体可以包括如下模块:
特征提取模块1101,用于对原始图像进行特征提取,生成特征图像;
文本区域分割模块1102,用于对所述特征图像进行文本区域分割,生成文本区域分割图,所述文本区域分割图包括一个或多个文本连通区域,以及除所述文本连通区域以外的背景区域;
文本角点区域分割模块1103,用于对所述特征图像进行文本角点区域分割,生成角点区域分割图,所述角点区域分割图包括一个或多个角点区域以及非角点区域;
角点区域匹配模块1104,用于将所述文本区域分割图与所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域;
角点确定模块1105,用于针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点;
文本位置确定模块1106,用于将连接各角点生成的多边形作为文本所在位置的外接框形。
在本实施例的一种可能的实施方式中,所述文本区域分割模块1102具体用于:
将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别;
将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
在本实施例的一种可能的实施方式中,所述文本角点区域分割模块1103具体用于:
将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别;
将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
在本实施例的一种可能的实施方式中,所述角点区域匹配模块1104包括:
像素点匹配子模块,用于针对所述文本分割图中的各文本连通区域,将该文本连通区域中的各像素点在所述角点区域分割图中进行匹配;
类别更新子模块,用于当所述像素点匹配上角点区域中的像素点时,将该像素点的类别由文本类别更新为角点区域类别;
角点区域确定子模块,用于当所述文本连通区域的所有像素点遍历完成以后,将该文本连通区域中角点区域类别相同的像素点连通,得到该文本连通区域的角点区域。
在本实施例的一种可能的实施方式中,所述装置还包括:
角点回归图确定模块,用于将所述特征图像输入已训练的第三深度学习网络,由所述第三深度学习网络计算所述特征图像中各像素点距离与其最近的角点的偏移量,以输出角点回归图,其中,所述角点回归图记录了各像素点距离与其最近的角点的偏移量。
在本实施例的一种可能的实施方式中,所述角点确定模块1105包括:
偏移量获取子模块,用于针对该文本连通区域中的各角点区域,在所述角点回归图中匹配该角点区域中的像素点,获取该像素点距离最近角点的偏移量;
候选角点回归子模块,用于根据所述像素点距离最近角点的偏移量,回归出候选角点;
角点位置计算子模块,用于计算所述角点区域中各像素点回归出的候选角点的坐标平均值,作为该角点区域的角点的位置。
在本实施例的一种可能的实施方式中,所述装置还包括:
迭代模块,用于针对所述文本区域分割图中不具有指定数量的角点区域的文本连通区域,则迭代至下一文本连通区域进行检测。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现上述方法实施例的步骤。
本申请实施例还提供了一种终端设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述方法实施例的步骤。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如车载终端、移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。此外,附图中描绘的处理并非必需所示的特定顺序或顺次顺序,以实现期望的结果。在某些实现中,多任务和并行处理可能是有利的。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。
Claims (9)
1.一种文本检测的方法,其特征在于,所述方法包括:
对原始图像进行特征提取,生成特征图像;
对所述特征图像进行文本区域分割,生成文本区域分割图,所述文本区域分割图包括一个或多个文本连通区域,以及除所述文本连通区域以外的背景区域;
对所述特征图像进行文本角点区域分割,生成角点区域分割图,所述角点区域分割图包括一个或多个角点区域以及非角点区域;
将所述文本区域分割图与所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域;
针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点,并将连接各角点生成的多边形作为文本所在位置的外接框形;
其中,所述将所述文本区域分割图及所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域,包括:
针对所述文本分割图中的各文本连通区域,将该文本连通区域中的各像素点在所述角点区域分割图中进行匹配;
当所述像素点匹配上角点区域中的像素点时,将该像素点的类别由文本类别更新为角点区域类别;
当所述文本连通区域的所有像素点遍历完成以后,将该文本连通区域中角点区域类别相同的像素点连通,得到该文本连通区域的角点区域。
2.根据权利要求1所述的方法,其特征在于,所述对所述特征图像进行文本区域分割,生成文本区域分割图,包括:
将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别;
将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
3.根据权利要求1所述的方法,其特征在于,所述对所述特征图像进行文本角点区域分割,生成角点区域分割图,包括:
将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别;
将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
4.根据权利要求1所述的方法,其特征在于,在生成特征图像以后,所述方法还包括:
将所述特征图像输入已训练的第三深度学习网络,由所述第三深度学习网络计算所述特征图像中各像素点距离与其最近的角点的偏移量,以输出角点回归图,其中,所述角点回归图记录了各像素点距离与其最近的角点的偏移量。
5.根据权利要求4所述的方法,其特征在于,所述确定该文本连通区域中各角点区域的角点,包括:
针对该文本连通区域中的各角点区域,在所述角点回归图中匹配该角点区域中的像素点,获取该像素点距离最近角点的偏移量;
根据所述像素点距离最近角点的偏移量,回归出候选角点;
计算所述角点区域中各像素点回归出的候选角点的坐标平均值,作为该角点区域的角点的位置。
6.根据权利要求1所述的方法,其特征在于,还包括:
针对所述文本区域分割图中不具有指定数量的角点区域的文本连通区域,则迭代至下一文本连通区域进行检测。
7.一种文本检测装置,其特征在于,所述装置包括:
特征提取模块,用于对原始图像进行特征提取,生成特征图像;
文本区域分割模块,用于对所述特征图像进行文本区域分割,生成文本区域分割图,所述文本区域分割图包括一个或多个文本连通区域,以及除所述文本连通区域以外的背景区域;
文本角点区域分割模块,用于对所述特征图像进行文本角点区域分割,生成角点区域分割图,所述角点区域分割图包括一个或多个角点区域以及非角点区域;
角点区域匹配模块,用于将所述文本区域分割图与所述角点区域分割图进行像素匹配,以确定所述文本区域分割图中的各文本连通区域中的角点区域;
角点确定模块,用于针对具有指定数量的角点区域的文本连通区域,确定该文本连通区域中各角点区域的角点;
文本位置确定模块,用于将连接各角点生成的多边形作为文本所在位置的外接框形;
其中,所述角点区域匹配模块进一步用于,
针对所述文本分割图中的各文本连通区域,将该文本连通区域中的各像素点在所述角点区域分割图中进行匹配;
当所述像素点匹配上角点区域中的像素点时,将该像素点的类别由文本类别更新为角点区域类别;
当所述文本连通区域的所有像素点遍历完成以后,将该文本连通区域中角点区域类别相同的像素点连通,得到该文本连通区域的角点区域。
8.根据权利要求7所述的装置,其特征在于,所述文本区域分割模块具体用于:
将所述特征图像输入已训练的第一深度学习网络,由所述第一深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第一类别,所述第一类别包括文本类别或背景类别;
将所述像素点映射到原始图像中,并对原始图像中相同类别的像素点进行连通,生成文本区域分割图。
9.根据权利要求7所述的装置,其特征在于,所述文本角点区域分割模块具体用于:
将所述特征图像输入已训练的第二深度学习网络,由所述第二深度学习网络对所述特征图像进行语义分割,输出所述特征图像中各像素点的第二类别,所述第二类别包括角点区域类别或非角点区域类别;
将所述像素点映射到原始图像中,并对原始图像中同一文本连通区域中相同类别的像素点进行连通,生成角点区域分割图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656023.0A CN112241736B (zh) | 2019-07-19 | 2019-07-19 | 一种文本检测的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910656023.0A CN112241736B (zh) | 2019-07-19 | 2019-07-19 | 一种文本检测的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112241736A CN112241736A (zh) | 2021-01-19 |
CN112241736B true CN112241736B (zh) | 2024-01-26 |
Family
ID=74167747
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910656023.0A Active CN112241736B (zh) | 2019-07-19 | 2019-07-19 | 一种文本检测的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112241736B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801045B (zh) * | 2021-03-18 | 2021-07-16 | 北京世纪好未来教育科技有限公司 | 一种文本区域检测方法、电子设备及计算机存储介质 |
CN113850238B (zh) * | 2021-11-29 | 2022-03-04 | 北京世纪好未来教育科技有限公司 | 文档检测方法、装置、电子设备及存储介质 |
CN114495146A (zh) * | 2022-02-17 | 2022-05-13 | 平安普惠企业管理有限公司 | 图像文本检测方法、装置、计算机设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
WO2018103608A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 一种文字检测方法、装置及存储介质 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN109614938A (zh) * | 2018-12-13 | 2019-04-12 | 深源恒际科技有限公司 | 一种基于深度网络的文本目标检测方法及系统 |
-
2019
- 2019-07-19 CN CN201910656023.0A patent/CN112241736B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018103608A1 (zh) * | 2016-12-08 | 2018-06-14 | 腾讯科技(深圳)有限公司 | 一种文字检测方法、装置及存储介质 |
CN107609549A (zh) * | 2017-09-20 | 2018-01-19 | 北京工业大学 | 一种自然场景下证件图像的文本检测方法 |
CN108549893A (zh) * | 2018-04-04 | 2018-09-18 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN109492638A (zh) * | 2018-11-07 | 2019-03-19 | 北京旷视科技有限公司 | 文本检测方法、装置及电子设备 |
CN109614938A (zh) * | 2018-12-13 | 2019-04-12 | 深源恒际科技有限公司 | 一种基于深度网络的文本目标检测方法及系统 |
Non-Patent Citations (1)
Title |
---|
结合边缘检测与CNN分类场景文本检测的研究;张哲;汪毓铎;;现代计算机(13);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN112241736A (zh) | 2021-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
WO2020228446A1 (zh) | 模型训练方法、装置、终端及存储介质 | |
Kim et al. | An Efficient Color Space for Deep‐Learning Based Traffic Light Recognition | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN114202672A (zh) | 一种基于注意力机制的小目标检测方法 | |
Xia et al. | Loop closure detection for visual SLAM using PCANet features | |
US10169683B2 (en) | Method and device for classifying an object of an image and corresponding computer program product and computer-readable medium | |
CN112241736B (zh) | 一种文本检测的方法及装置 | |
KR101896357B1 (ko) | 객체를 검출하는 방법, 디바이스 및 프로그램 | |
US20210081695A1 (en) | Image processing method, apparatus, electronic device and computer readable storage medium | |
US10055673B2 (en) | Method and device for processing an image of pixels, corresponding computer program product and computer-readable medium | |
Xu et al. | Weakly supervised deep semantic segmentation using CNN and ELM with semantic candidate regions | |
Giang et al. | TopicFM: Robust and interpretable topic-assisted feature matching | |
CN110852327A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111709377B (zh) | 特征提取方法、目标重识别方法、装置及电子设备 | |
CN114444565A (zh) | 一种图像篡改检测方法、终端设备及存储介质 | |
CN112580750A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
Xue et al. | Tiny obstacle discovery by occlusion-aware multilayer regression | |
CN115578590A (zh) | 基于卷积神经网络模型的图像识别方法、装置及终端设备 | |
Sharjeel et al. | Real time drone detection by moving camera using COROLA and CNN algorithm | |
Wang et al. | Simultaneously discovering and localizing common objects in wild images | |
CN112257628A (zh) | 一种户外比赛运动员的身份识别方法、装置及设备 | |
CN116468753A (zh) | 目标追踪方法、装置、设备、存储介质和程序产品 | |
EP4332910A1 (en) | Behavior detection method, electronic device, and computer readable storage medium | |
WO2023273227A1 (zh) | 指甲识别方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |