CN112861860A - 一种基于上下边界提取的自然场景下文字检测方法 - Google Patents

一种基于上下边界提取的自然场景下文字检测方法 Download PDF

Info

Publication number
CN112861860A
CN112861860A CN202110265373.1A CN202110265373A CN112861860A CN 112861860 A CN112861860 A CN 112861860A CN 202110265373 A CN202110265373 A CN 202110265373A CN 112861860 A CN112861860 A CN 112861860A
Authority
CN
China
Prior art keywords
character
area
segmentation
lower boundary
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110265373.1A
Other languages
English (en)
Other versions
CN112861860B (zh
Inventor
路通
钟虎门
杨志博
王永攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN202110265373.1A priority Critical patent/CN112861860B/zh
Publication of CN112861860A publication Critical patent/CN112861860A/zh
Application granted granted Critical
Publication of CN112861860B publication Critical patent/CN112861860B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于上下边界提取的自然场景下文字检测方法,涉及计算机视觉文字检测和图像分割领域。具体包括:步骤1,通过卷积神经网络模型提取图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;步骤2,通过语义分割模型预测文字的中心区域,上边界区域,下边界区域和文字的整体区域;步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。优点在于能够提取图像中文字的上下边界并定位文字区域,能够进行自然场景下的图像文字检测。

Description

一种基于上下边界提取的自然场景下文字检测方法
技术领域
本发明涉及计算机视觉文字检测和图像分割领域,具体涉及一种基于上下边界提取的自然场景下文字检测方法。
背景技术
自然场景中的文字检测任务是计算机视觉领域中一项极为受到关注的研究项目,其具体任务可以理解为从一张自然场景拍摄的图像中提取其内部包含的所有文字的位置及其边界框。自然场景文字检测任务在学术领域和工业领域都有十分重要的应用,例如在学术界中,高效、准确的文字检测是后续文字识别、文本图像内容理解等任务至关重要的基石;同时对于工业界,文字检测在自动驾驶中的路牌识别、自然场景下的文字翻译等任务中也具有非常重要的地位。因此,建立一种高效准确且能有效表示文字边界线的模型和方法,在计算机视觉领域具有重要意义。
自然场景中的文字检测具有相当程度的复杂性,其难度体现在多个方面,例如文字本身的多样性:不同文字可能具有不同的文本内容、不同的语种、多样的字体和风格等,因此需要一个具有高度泛化能力的模型对文字进行建模;又例如文字区域排布的任意性,即自然场景图像中,文字可能是以任意的方式如水平排布、倾斜排布、翻转排布甚至弯曲排布等方式排列在图像中,这给文字的准确检测带来了极大的困难;再例如文字区域与一些复杂背景混合时,背景噪声本身的纹理形状可能与文字非常相似,如何将复杂背景中的噪声与前景文字区分开来同样是一个极有挑战的问题。
传统的自然场景文字检测模型将通用目标检测模型直接应用于文字检测领域,例如使用SSD,Faster-RCNN等模型直接检测自然场景中的文字实例同时预测每个文字实例位置的矩形框,但是这些方法只考虑了正常形状的文字实例,而倾斜排布甚至弯曲排布的文字很难通过一个平行于横纵轴的矩形框进行准确的表示。同时,也有一部分方法采用纯分割模型以文字区域为目标训练分割模型,则预测的文字区域通过findContour函数就可以找到对应文字实例的轮廓线,但是这样的方法也有其一定的局限性,例如使用findContour函数找到的文字实例轮廓线没有上下边界之分,因此很难用于形式化的表示一个文字实例同时准确的提取文字区域的内容以便于后续可能的下游任务。
随着深度学习以及目标检测和语义分割等领域的快速发展,我们尝试使用深度神经网络通过语义分割方法预测文字实例的区域,同时辅以使用分割模型预测文字实例的上下边界区域病进一步提取其上下边界线。通过这样的设计,该方法能在保留过往基于语义分割的模型能够处理弯曲文字的优势的同时,也通过对文字上下边界的预测获得了提取文字上下边界线的能力,这使得该模型能预测自然场景下任意排布的文字区域并为之生成形式化的上下边界线。
发明内容
本发明所要解决的技术问题是对自然场景下的任意排布、任意形状的文字进行上下边界线提取并进而对自然场景下的任意排布、任意形状文字进行检测。
为解决上述技术问题,本发明采用的技术方案是:
一种基于上下边界提取的自然场景下文字检测方法,包括如下步骤:
步骤1,通过卷积神经网络模型提取输入图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;
步骤2,通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域;
步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;
步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。
优选的,步骤1包括:
步骤1-1,获取自然场景图像,对采样到的自然场景图像进行随机数据增强以扩充数据集的多样性;
步骤1-2,输入图像,根据数据集提供的文字标注框,生成梯度回传掩码M,M中需要进行梯度回传的部分用1填充,不需要梯度回传的部分用0填充;
步骤1-3,对数据增强后的输入图像像素值分通道进行标准化:
Figure BDA0002971426220000021
其中,input(i,j)表示输入图像坐标为(i,j)的像素值,mean表示某一通道内的输入图像像素均值,std表示某一通道内的输入图像像素标准差;
步骤1-4,使用基于残差块的卷积神经网络提取输入图像的特征图;
步骤1-5,通过多尺度特征金字塔模型对特征图进行融合,通过特征金字塔在提取的图像特征图的基础上生成多个分辨率的特征图,再将所有多个分辨率的特征图通过resize操作放缩至最大特征图的分辨率后将它们在通道维度拼接在一起,输出大小为
Figure BDA0002971426220000031
的融合特征图;其中H为原图高,W为原图宽,batchsize为训练时一次输入卷积神经网络中的图像数量;其中原图指输入图像;
进一步优选的,步骤1-4中的卷积神经网络是基于残差块建立的,残差块包含一个残差映射和一个恒等映射,残差块的输出即为两者的和,定义为:
y=F(x,{Wi})+x,
x和y分别表示残差块的输入向量和输出向量,F(x,{Wi})就是深度神经网络的网络层要学习的残差映射。
进一步优选的,步骤2中,通过如下步骤建立和训练基于卷积神经网络的语义分割模型:
步骤2-1,根据输入图像中的文字标注多边形框,生成其整体文字区域分割图:首先生成一张与输入图像大小一样的分割目标图,其次将文字区域填充为1,非文字区域填充为0,最终得到文字整体区域的分割目标图;
步骤2-2,根据输入图像中的文字标注多边形框,生成其文字中心区域分割图,具体的,首先生成一张与输入图像大小一样的分割目标图,然后将原始的文字标注多边形框向内部收缩d个像素,收缩规则如下所示:
Figure BDA0002971426220000032
其中,Area为面积函数,Perimeter为周长函数,bbox为文字框,r为放缩尺度;收缩后的多边形框即为文字中心区域标注的多边形框,将收缩后的多边形框内部填充为1,外部填充为0,则得到文字中心区域的分割目标图;
步骤2-3,首先计算文字标注框的上边界区域和下边界区域分别对应的上边界点topi和下边界点boti,计算如下:
top_boundi=topi*(1-α)+boti
bot_boundi=boti*(1-α)+topi
其中,α是一个超参数,代表定义的文字上下边界区域的宽度;由此,top_boundi和topi组成了上边界相对应的一组边界点,同理得到下边界相对应的一组边界点;将计算得到的上下边界点分别连接起来,即为文字的上下边界区域,将得到的上下边界区域内部填充为1,外部填充为0,得到文字上下边界区域的分割目标图;
步骤2-4,将步骤1中所得到的大小为
Figure BDA0002971426220000041
的特征图输入语义分割模型中,经过由卷积层,上采样层和另一个卷积层构成的分割模块,最终输出大小为(batchsize,4,H,W)的分割预测结果图;其中,4为4个分割预测结果,即文字的整体区域、中心区域、上边界区域和下边界区域;
步骤2-5,建立损失函数,将步骤2-4中得到的分割预测结果pred与步骤2-1~2-3中得到的分割目标target计算loss:
loss=DiceLoss(pred,target)
具体的,DiceLoss由以下步骤计算,首先计算dice系数(dice coefficient):
Figure BDA0002971426220000042
则DiceLoss由以下公式计算得出:
DiceLoss(pred,target)=1-DiceCoefficient(pred*M,target*M)
其中,M表示训练过程中的梯度回传掩码,由步骤1-2计算得到;
分别在四个区域上计算对应的损失函数,最后将它们加权求和:
Loss=λtextlosstextkernellosskerneltoplosstopbotlossbot
其中λ分别表示不同区域的训练权重,loss分别表示不同区域的训练损失值,计算结束即得到分割预测结果与分割目标之间的损失值;
步骤2-6,建立优化函数,使用基于随机梯度下降的优化方法对得到的损失值计算梯度并相应更新卷积神经网络模型和语义分割模型中的参数。
进一步优选的,步骤3中,通过如下步骤进行测试,将分割预测结果的中心区域逐步扩展至整体区域,并通过对上下边界区域进行滤波操作得到文字的形式化上下边界线:
步骤3-1,对任意自然场景图像经过卷积神经网络和多尺度特征金字塔模型提取特征图,然后经过上采样操作得到大小为(batchsize,4,H,W)的分割预测结果图;
步骤3-2,定位文字中心区域,设定一个固定阈值σ=0.8对中心区域分割预测结果图进行二值化,即对中心区域分割图的每个像素进行以下计算:
Figure BDA0002971426220000043
其中,kernel表示中心区域分割图,将二值化后的中心区域分割图计算其连通分量,计算后产生的不同连通分量再滤除掉其中像素面积小于阈值μ的连通分量,最终保留的连通分量结果即为不同的文字实例的中心区域分割结果;
步骤3-3,以步骤3-2得到的中心区域分割结果图为开始,使用广度优先搜索向外扩展至文字整体区域;得到不同文字实例的整体区域分割结果图。
步骤3-4,定位文字上下边界区域,以文字上边界区域为例,将上边界区域分割预测结果图与步骤3-3中得到的不同文字实例的整体区域分割结果图进行按位相与操作:
top(i,j)=top(i,j)&text(i,j)
其中,top表示上边界区域分割图,text表示由步骤3-3得到的不同文字实例的整体区域分割结果图;计算结果即是每个文字实例的上边界分割结果,同理得到每个文字实例的下边界分割结果,然后对该上下边界分割结果进行细化。
进一步优选的,步骤3-4中的细化操作包括生成一个3×1的滤波器F,其具体参数为:
Figure BDA0002971426220000051
经过以下运算:
Figure BDA0002971426220000052
得到文字上边界区域细化后的边界线,保留像素值大于0的像素为文字上边界区域细化后的边界线结果,将得到的边界线像素根据其横坐标从小到大排序并均匀地从中采样k个点,这k个点即是文字上边界区域的形式化边界线;
同理求得下边界线。
进一步优选的,步骤4具体包括:
步骤4-1,对每一个由文字中心区域经步骤3-3扩展得到的文字整体区域,通过与上下边界区域进行按位相与的操作找到该文字对应的上下边界线;
步骤4-2,对步骤4-1产生的所有文字整体区域、文字中心区域、上下边界线组合成对,并根据规则过滤掉不符合条件的文字;其中,过滤规则为去除没有上边界线或者下边界线的文字;
步骤4-3,保留下来的文字有各自的上边界线和下边界线以及对应的在边界线上均匀采样的k个顶点,将每个文字的2*k个顶点作为该文字的轮廓点,生成了该文字基于上下边界的形式化表示,得到该文字的检测结果。
与现有技术相比,本发明具有如下优点:
本发明应用深度卷积神经网络和在此之上建立的语义分割模型技术,建立了一个基于语义分割模型进行文字上下边界线提取的任意形状文字检测模型。
(1)本发明基于语义分割模型,可以建模任意形状、任意排布的文字,同时也能处理极端长文本;
(2)本发明使用了多尺度特征金字塔对多尺度的图像特征图进行拼接融合,使得模型能够处理多个尺度的文字,对于尺度变化较大的文本图像具有良好的适应性;
(3)本发明同时对文字的中心区域和整体区域进行预测,对中心区域进行预测可以弥补仅对文字整体区域进行预测无法区分相邻文字的问题,从而使得模型对于密集文字也有很强的适应性;
(4)本发明同时对文字的上边界区域和下边界区域进行预测,通过对预测得到的上下边界区域进行细化操作可以得到该文字实例的形式化上下边界,从而避免了现有技术仅仅只能预测文字外部轮廓的不足;
(5)本发明基于深度卷积神经网络,具有良好的并行性,可以利用高性能GPU加速计算;同时,本发明使用了残差连接、批标准化等技术确保了模型训练的稳定收敛。
(6)本发明将语义分割模型和基于滤波操作的上下边界线提取结合在一起,在保留语义分割模型处理任意形状文字的能力的同时,通过额外引入的上下边界预测为文字生成形式化的上下边界,更加利于后续的下游任务。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是卷积神经网络中使用的残差模块;
图2是卷积神经网络以及多尺度特征金字塔模型;
图3是语义分割模型分割目标示意图;
图4是整体模型流程图;
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
一种基于上下边界提取的自然场景下文字检测方法,包括如下步骤:
步骤1,通过卷积神经网络模型提取输入图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强。
步骤1-1,获取自然场景图像,对采样到的自然场景图像进行随机数据增强以扩充数据集的多样性;
步骤1-2,输入图像,根据数据集提供的文字标注框,生成梯度回传掩码M,M中需要进行梯度回传的部分用1填充,不需要梯度回传的部分用0填充;
步骤1-3,对数据增强后的输入图像像素值分通道进行标准化:
Figure BDA0002971426220000071
其中,input(i,j)表示输入图像坐标为(i,j)的像素值,mean表示某一通道内的输入图像像素均值,std表示某一通道内的输入图像像素标准差;
步骤1-4,使用基于残差块的卷积神经网络提取输入图像的特征图;残差块包含一个残差映射和一个恒等映射,残差块的输出即为两者的和,定义为:
y=F(x,{Wi})+x,
x和y分别表示残差块的输入向量和输出向量,F(x,{Wi})就是深度神经网络的网络层要学习的残差映射;
步骤1-5,通过多尺度特征金字塔模型对特征图进行融合,通过特征金字塔在提取的图像特征图的基础上生成多个分辨率的特征图,再将所有多个分辨率的特征图通过resize操作放缩至最大特征图的分辨率后将它们在通道维度拼接在一起,输出大小为
Figure BDA0002971426220000072
的融合特征图;其中H为输入图像的高,W为输入图像的宽,batchsize为训练时一次输入卷积神经网络中的图像数量。
步骤2,通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域。
步骤2-1,根据输入图像中的文字标注多边形框,生成其整体文字区域分割图:首先生成一张与输入图像大小一样的分割目标图,其次将文字区域填充为1,非文字区域填充为0,最终得到文字整体区域的分割目标图;
步骤2-2,根据输入图像中的文字标注多边形框,生成其文字中心区域分割图,具体的,首先生成一张与输入图像大小一样的分割目标图,然后将原始的文字标注多边形框向内部收缩d个像素,收缩规则如下所示:
Figure BDA0002971426220000081
其中,Area为面积函数,Perimeter为周长函数,bbox为文字框,r为放缩尺度;收缩后的多边形框即为文字中心区域标注的多边形框,将收缩后的多边形框内部填充为1,外部填充为0,则得到文字中心区域的分割目标图;
步骤2-3,首先计算文字标注框的上边界区域和下边界区域分别对应的上边界点topi和下边界点boti,计算如下:
top_boundi=topi*(1-α)+boti
bot_boundi=boti*(1-α)+topi
其中,α是一个超参数,代表定义的文字上下边界区域的宽度;由此,top_boundi和topi组成了上边界相对应的一组边界点,同理得到下边界相对应的一组边界点;将计算得到的上下边界点分别连接起来,即为文字的上下边界区域,将得到的上下边界区域内部填充为1,外部填充为0,得到文字上下边界区域的分割目标图;
步骤2-4,将步骤1中所得到的大小为
Figure BDA0002971426220000082
的特征图输入语义分割模型中,经过由卷积层,上采样层和另一个卷积层构成的分割模块,最终输出大小为(batchsize,4,H,W)的分割预测结果图;其中,4为4个分割预测结果,即文字的整体区域、中心区域、上边界区域和下边界区域;
步骤2-5,建立损失函数,将步骤2-4中得到的分割预测结果pred与步骤2-1~2-3中得到的分割目标target计算loss:
loss=DiceLoss(pred,target)
具体的,DiceLoss由以下步骤计算,首先计算dice系数(dice coefficient):
Figure BDA0002971426220000083
则DiceLoss由以下公式计算得出:
DiceLoss(pred,target)=1-DiceCoefficient(pred*M,target*M)
其中,M表示训练过程中的梯度回传掩码,由步骤1-2计算得到;
分别在四个区域上计算对应的损失函数,最后将它们加权求和:
Loss=λtextlosstextkernellosskerneltoplosstopbotlossbot
其中λ分别表示不同区域的训练权重,loss分别表示不同区域的训练损失值,计算结束即得到分割预测结果与分割目标之间的损失值;
步骤2-6,建立优化函数,使用基于随机梯度下降的优化方法对得到的损失值计算梯度并相应更新卷积神经网络模型和语义分割模型中的参数。
步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线。
步骤3-1,对任意自然场景图像经过卷积神经网络和多尺度特征金字塔模型提取特征图,然后经过上采样操作得到大小为(batchsize,4,H,W)的分割预测结果图;
步骤3-2,定位文字中心区域,设定一个固定阈值σ=0.8对中心区域分割预测结果图进行二值化,即对中心区域分割图的每个像素进行以下计算:
Figure BDA0002971426220000091
其中,kernel表示中心区域分割图,将二值化后的中心区域分割图计算其连通分量,计算后产生的不同连通分量再滤除掉其中像素面积小于阈值μ的连通分量,最终保留的连通分量结果即为不同的文字实例的中心区域分割结果;
步骤3-3,以步骤3-2得到的中心区域分割结果图为开始,使用广度优先搜索向外扩展至文字整体区域;得到不同文字实例的整体区域分割结果图,需要注意的是,中心区域分割图在这其中只起到区分邻近文字的作用。
步骤3-4,定位文字上下边界区域,以文字上边界区域为例,将上边界区域分割预测结果图与步骤3-3中得到的不同文字实例的整体区域分割结果图进行按位相与操作:
top(i,j)=top(i,j)&text(i,j)
其中,top表示上边界区域分割图,text表示由步骤3-3得到的不同文字实例的整体区域分割结果图;计算结果即是每个文字实例的上边界分割结果,同理得到每个文字实例的下边界分割结果,然后对该上下边界分割结果进行细化。
进一步优选的,步骤3-4中的细化操作包括生成一个3×1的滤波器F,其具体参数为:
Figure BDA0002971426220000101
经过以下运算:
Figure BDA0002971426220000102
得到文字上边界区域细化后的边界线,保留像素值大于0的像素为文字上边界区域细化后的边界线结果,将得到的边界线像素根据其横坐标从小到大排序并均匀地从中采样k个点,这k个点即是文字上边界区域的形式化边界线;
同理求得下边界线。
步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。
步骤4-1,对每一个由文字中心区域经步骤3-3扩展得到的文字整体区域,通过与上下边界区域进行按位相与的操作找到该文字对应的上下边界线;
步骤4-2,对步骤4-1产生的所有文字整体区域、文字中心区域、上下边界线组合成对,并根据规则过滤掉不符合条件的文字;其中,过滤规则为去除没有上边界线或者下边界线的文字;
步骤4-3,保留下来的文字有各自的上边界线和下边界线以及对应的在边界线上均匀采样的k个顶点,将每个文字的2*k个顶点作为该文字的轮廓点,生成了该文字基于上下边界的形式化表示,得到该文字的检测结果。
实施例
1.数据集
本实施例模型基于TotalText公开数据集进行训练,该数据集图像内包含多种自然场景下的文本图像;同时,数据集中的文字形状和布局具有丰富的多样性,文字实例呈现多种排布方式例如矩形排布、倾斜排布、弯曲排布等,数据集内的文字实例覆盖了多种颜色、字体、尺度和长宽比,在整体上极有挑战性。
采集得到的图像首先会经过一定程度的数据增强,具体的,在本实施例中采取的随机图像尺度放缩方式为保持图像长宽比不变,短边放缩在[720,1000]范围内;采取的随机图像角度旋转方式为以图像中心为圆心,旋转角度在[-15°,15°]中随机选择。
经过随机数据增强的图像将按照不同通道分别进行像素值归一化,具体的,在本实施例中,采用的图像各通道像素均值为mean=[103.530,116.280,123.675],采用的图像各通道像素标准差为std=[1.0,1.0,1.0],经过归一化的图像将进一步转变为大小为(batchsize,3,H,W)的张量数据类型的矩阵,以便于后续在GPU上的加速训练。
2.卷积神经网络和多尺度特征金字塔
将经过上一步得到的张量类型图像矩阵送入由卷积神经网络构成的骨干网络中,在本实施例中,采用的骨干网络为基于Pytorch实现的Resnet50,骨干网络所提取其4个stage的输出{C2,C3,C4,C5}的步长分别是{4,8,16,32},并将其送入多尺度特征金字塔中进行多尺度特征融合增强,在本实施例中,采用的多尺度特征融合模块为FPN,经过融合输出大小为
Figure BDA0002971426220000111
的融合特征图,其中ndim为FPN输出特征图的维度,在本实施例中为256,H和W分别是输入图像的高和宽。
3.语义分割模型
在本实施例中,语义分割模块由{3×3卷积,上采样层,3×3卷积,上采样层}构成,将经过上一步得到的大小为
Figure BDA0002971426220000112
的融合特征图送入语义分割模块,输出大小为(batchsize,4,H,W)的语义分割预测结果图,其中4个维度分别代表文字整体区域、文字中心区域、文字上边界区域和文字下边界区域这四个区域的分割预测结果。
4.后处理
后处理主要由两个步骤构成,其一是通过广度优先搜索(BFS)将预测的不同文字的中心区域逐渐扩展至整体区域以在区分邻近文字的同时能够准确预测不同文字实例的文字整体区域,经过这一步骤,图像中的文字区域轮廓被准确提取出来,但是仍然存在一个问题,即只知道文字区域的轮廓线,而无法判别该文字实例具体的上下边界,也就因此很难对该文字实例提取对应位置的信息用于下游任务。具体的例子可以参考薄板样条变换和BezierAlign用于提取文字实例对应位置信息的操作,但此二者均需要将文字实例的形式化上下边界作为输入,由此,本发明在现有基于语义分割的文字检测模型基础上添加了额外的辅助模块用于进行文字区域的上下边界提取;
其二是通过形态学腐蚀操作或者基于一个3×1核心的滤波操作对边界区域进行细化以最终得到宽度为1个像素的文字上下边界线,在本实施例中,采用的细化操作是基于一个3×1核心的滤波核,以文字上边界区域为例,首先生成一个大小为3×1的滤波核,其参数为[-1,0,1],使用该滤波核对文字上边界区域语义分割预测图进行滤波操作,得到的结果中大于0的像素就是文字上边界区域中位于最上方的边界线,在本实施例中使用这样的滤波操作主要是考虑到滤波操作可以使用固定卷积核的卷积操作进行代替,因此该后处理过程同样可以使用GPU进行加速,相较于形态学腐蚀操作效率更高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (7)

1.一种基于上下边界提取的自然场景下文字检测方法,其特征在于,包括如下步骤:
步骤1,通过卷积神经网络模型提取输入图像的特征图,并通过多尺度特征金字塔模型对特征图进行增强;
步骤2,通过语义分割模型预测文字的整体区域、中心区域、上边界区域以及下边界区域;
步骤3,通过广度优先搜索将中心区域逐步扩展至整体区域,同时通过对上下边界区域进行滤波操作得到文字的形式化上下边界线;
步骤4,组合文字的中心区域、整体区域以及上下边界线得到最终的文字检测结果。
2.根据权利要求1所基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤1包括:
步骤1-1,获取自然场景图像,对采样到的自然场景图像进行随机数据增强以扩充数据集的多样性;
步骤1-2,输入图像,根据数据集提供的文字标注框,生成梯度回传掩码M,M中需要进行梯度回传的部分用1填充,不需要梯度回传的部分用0填充;
步骤1-3,对数据增强后的输入图像像素值分通道进行标准化:
Figure FDA0002971426210000011
其中,input(i,j)表示输入图像坐标为(i,j)的像素值,mean表示某一通道内的输入图像像素均值,std表示某一通道内的输入图像像素标准差;
步骤1-4,使用基于残差块的卷积神经网络提取输入图像的特征图;
步骤1-5,通过多尺度特征金字塔模型对特征图进行融合,通过特征金字塔在提取的图像特征图的基础上生成多个分辨率的特征图,再将所有多个分辨率的特征图通过resize操作放缩至最大特征图的分辨率后将它们在通道维度拼接在一起,输出大小为
Figure FDA0002971426210000012
的融合特征图;其中H为原图高,W为原图宽,batchsize为训练时一次输入卷积神经网络中的图像数量;其中原图指输入图像。
3.根据权利要求2所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤1-4中的卷积神经网络是基于残差块建立的,残差块包含一个残差映射和一个恒等映射,残差块的输出即为两者的和,定义为:
y=F(x,{Wi})+x,
x和y分别表示残差块的输入向量和输出向量,F(x,{Wi})就是深度神经网络的网络层要学习的残差映射。
4.根据权利要求2所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤2中,通过如下步骤建立和训练基于卷积神经网络的语义分割模型:
步骤2-1,根据输入图像中的文字标注多边形框,生成其整体文字区域分割图:首先生成一张与输入图像大小一样的分割目标图,其次将文字区域填充为1,非文字区域填充为0,最终得到文字整体区域的分割目标图;
步骤2-2,根据输入图像中的文字标注多边形框,生成其文字中心区域分割图,具体的,首先生成一张与输入图像大小一样的分割目标图,然后将原始的文字标注多边形框向内部收缩d个像素,收缩规则如下所示:
Figure FDA0002971426210000021
其中,Area为面积函数,Perimeter为周长函数,bbox为文字框,r为放缩尺度;收缩后的多边形框即为文字中心区域标注的多边形框,将收缩后的多边形框内部填充为1,外部填充为0,则得到文字中心区域的分割目标图;
步骤2-3,首先计算文字标注框的上边界区域和下边界区域分别对应的上边界点topi和下边界点boti,计算如下:
top_boundi=topi*(1-α)+boti
bot_boundi=boti*(1-α)+topi
其中,α是一个超参数,代表定义的文字上下边界区域的宽度;由此,top_boundi和topi组成了上边界相对应的一组边界点,同理得到下边界相对应的一组边界点;将计算得到的上下边界点分别连接起来,即为文字的上下边界区域,将得到的上下边界区域内部填充为1,外部填充为0,得到文字上下边界区域的分割目标图;
步骤2-4,将步骤1中所得到的大小为
Figure FDA0002971426210000022
的特征图输入语义分割模型中,经过由卷积层,上采样层和另一个卷积层构成的分割模块,最终输出大小为(batchsize,4,H,W)的分割预测结果图;其中,4为4个分割预测结果,即文字的整体区域、中心区域、上边界区域和下边界区域;
步骤2-5,建立损失函数,将步骤2-4中得到的分割预测结果pred与步骤2-1~2-3中得到的分割目标target计算loss:
loss=DiceLoss(pred,target)
具体的,DiceLoss由以下步骤计算,首先计算dice系数(dice coefficient):
Figure FDA0002971426210000031
则DiceLoss由以下公式计算得出:
DiceLoss(pred,target)=1-DiceCoefficient(pred*M,target*M)
其中,M表示训练过程中的梯度回传掩码,由步骤1-2计算得到;
分别在四个区域上计算对应的损失函数,最后将它们加权求和:
Loss=λtextlosstextkernellosskerneltoplosstopbotlossbot
其中λ分别表示不同区域的训练权重,loss分别表示不同区域的训练损失值,计算结束即得到分割预测结果与分割目标之间的损失值;
步骤2-6,建立优化函数,使用基于随机梯度下降的优化方法对得到的损失值计算梯度并相应更新卷积神经网络模型和语义分割模型中的参数。
5.根据权利要求4所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤3中,通过如下步骤进行测试,将分割预测结果的中心区域逐步扩展至整体区域,并通过对上下边界区域进行滤波操作得到文字的形式化上下边界线:
步骤3-1,对任意自然场景图像经过卷积神经网络和多尺度特征金字塔模型提取特征图,然后经过上采样操作得到大小为(batchsize,4,H,W)的分割预测结果图;
步骤3-2,定位文字中心区域,设定一个固定阈值σ=0.8对中心区域分割预测结果图进行二值化,即对中心区域分割图的每个像素进行以下计算:
Figure FDA0002971426210000032
其中,kernel表示中心区域分割图,将二值化后的中心区域分割图计算其连通分量,计算后产生的不同连通分量再滤除掉其中像素面积小于阈值μ的连通分量,最终保留的连通分量结果即为不同的文字实例的中心区域分割结果;
步骤3-3,以步骤3-2得到的中心区域分割结果图为开始,使用广度优先搜索向外扩展至文字整体区域;得到不同文字实例的整体区域分割结果图。
步骤3-4,定位文字上下边界区域,以文字上边界区域为例,将上边界区域分割预测结果图与步骤3-3中得到的不同文字实例的整体区域分割结果图进行按位相与操作:
top(i,j)=top(i,j)&text(i,j)
其中,top表示上边界区域分割图,text表示由步骤3-3得到的不同文字实例的整体区域分割结果图;计算结果即是每个文字实例的上边界分割结果,同理得到每个文字实例的下边界分割结果,然后对该上下边界分割结果进行细化。
6.根据权利要求5所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤3-4中的细化操作包括生成一个3×1的滤波器F,其具体参数为:
Figure FDA0002971426210000041
经过以下运算:
Figure FDA0002971426210000042
得到文字上边界区域细化后的边界线,保留像素值大于0的像素为文字上边界区域细化后的边界线结果,将得到的边界线像素根据其横坐标从小到大排序并均匀地从中采样k个点,这k个点即是文字上边界区域的形式化边界线;
同理求得下边界线。
7.根据权利要求6所述基于上下边界提取的自然场景下文字检测方法,其特征在于,步骤4具体包括:
步骤4-1,对每一个由文字中心区域经步骤3-3扩展得到的文字整体区域,通过与上下边界区域进行按位相与的操作找到该文字对应的上下边界线;
步骤4-2,对步骤4-1产生的所有文字整体区域、文字中心区域、上下边界线组合成对,并根据规则过滤掉不符合条件的文字;其中,过滤规则为去除没有上边界线或者下边界线的文字;
步骤4-3,保留下来的文字有各自的上边界线和下边界线以及对应的在边界线上均匀采样的k个顶点,将每个文字的2*k个顶点作为该文字的轮廓点,生成了该文字基于上下边界的形式化表示,得到该文字的检测结果。
CN202110265373.1A 2021-03-11 2021-03-11 一种基于上下边界提取的自然场景下文字检测方法 Active CN112861860B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110265373.1A CN112861860B (zh) 2021-03-11 2021-03-11 一种基于上下边界提取的自然场景下文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110265373.1A CN112861860B (zh) 2021-03-11 2021-03-11 一种基于上下边界提取的自然场景下文字检测方法

Publications (2)

Publication Number Publication Date
CN112861860A true CN112861860A (zh) 2021-05-28
CN112861860B CN112861860B (zh) 2024-04-19

Family

ID=75994065

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110265373.1A Active CN112861860B (zh) 2021-03-11 2021-03-11 一种基于上下边界提取的自然场景下文字检测方法

Country Status (1)

Country Link
CN (1) CN112861860B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
US20190272438A1 (en) * 2018-01-30 2019-09-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for detecting text
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
US20200320324A1 (en) * 2019-04-04 2020-10-08 Datalogic Usa, Inc. Image preprocessing for optical character recognition
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105608456A (zh) * 2015-12-22 2016-05-25 华中科技大学 一种基于全卷积网络的多方向文本检测方法
US20190057507A1 (en) * 2017-08-18 2019-02-21 Samsung Electronics Co., Ltd. System and method for semantic segmentation of images
US20190272438A1 (en) * 2018-01-30 2019-09-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for detecting text
CN110032998A (zh) * 2019-03-18 2019-07-19 华南师范大学 自然场景图片的文字检测方法、系统、装置和存储介质
US20200320324A1 (en) * 2019-04-04 2020-10-08 Datalogic Usa, Inc. Image preprocessing for optical character recognition
CN110309824A (zh) * 2019-07-02 2019-10-08 北京百度网讯科技有限公司 文字检测方法、装置以及终端
CN110287960A (zh) * 2019-07-02 2019-09-27 中国科学院信息工程研究所 自然场景图像中曲线文字的检测识别方法
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111461114A (zh) * 2020-03-03 2020-07-28 华南理工大学 一种基于分割的多尺度特征金字塔文本检测方法
CN111444919A (zh) * 2020-04-17 2020-07-24 南京大学 一种自然场景中的任意形状文本检测方法
CN111898608A (zh) * 2020-07-04 2020-11-06 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112070111A (zh) * 2020-07-28 2020-12-11 浙江大学 一种适配多波段图像的多目标检测方法和系统
CN111914843A (zh) * 2020-08-20 2020-11-10 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 文字检测方法、系统、设备及存储介质

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
SONG, XG 等: "TK-Text: Multi-shaped Scene Text Detection via Instance Segmentation", LECTURE NOTES IN ARTIFICIAL INTELLIGENCE, no. 11962, pages 201 - 213 *
SU, W 等: "Widening residual refine edge reserved neural network for semantic segmentation", MULTIMEDIA TOOLS AND APPLICATIONS, vol. 78, no. 13, pages 18229 - 18247, XP036832567, DOI: 10.1007/s11042-018-7121-z *
杨剑锋;王润民;何璇;李秀梅;钱盛友;: "基于FCN的多方向自然场景文字检测方法", 计算机工程与应用, no. 02, pages 169 - 175 *
柏宏飞;金城;: "基于分层块过滤和笔划特征的场景文字提取方法", 计算机应用与软件, no. 05, pages 66 - 69 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113807351A (zh) * 2021-09-18 2021-12-17 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置

Also Published As

Publication number Publication date
CN112861860B (zh) 2024-04-19

Similar Documents

Publication Publication Date Title
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN109299274B (zh) 一种基于全卷积神经网络的自然场景文本检测方法
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN112132156B (zh) 多深度特征融合的图像显著性目标检测方法及系统
CN111640125B (zh) 基于Mask R-CNN的航拍图建筑物检测和分割方法及装置
CN111145209B (zh) 一种医学图像分割方法、装置、设备及存储介质
CN111652217A (zh) 文本检测方法、装置、电子设备及计算机存储介质
CN111652218A (zh) 文本检测方法、电子设备及计算机可读介质
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN111444919A (zh) 一种自然场景中的任意形状文本检测方法
CN111275034B (zh) 从图像中提取文本区域的方法、装置、设备和存储介质
CN111027538A (zh) 一种基于实例分割模型的集装箱检测方法
CN110852327A (zh) 图像处理方法、装置、电子设备及存储介质
CN112507876A (zh) 一种基于语义分割的有线表格图片解析方法和装置
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN113609984A (zh) 一种指针式仪表读数识别方法、装置及电子设备
CN108877030B (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN112861860B (zh) 一种基于上下边界提取的自然场景下文字检测方法
CN112418220A (zh) 一种单字检测方法、装置、设备及介质
CN111738069A (zh) 人脸检测方法、装置、电子设备及存储介质
CN116798041A (zh) 图像识别方法、装置和电子设备
CN114708591A (zh) 基于单字连接的文档图像中文字符检测方法
CN115457385A (zh) 一种基于轻量级网络的建筑物变化检测方法
CN114219757A (zh) 一种基于改进Mask R-CNN的车辆智能定损方法
CN114782459B (zh) 一种基于语义分割的拼接图像分割方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant