CN112528997B - 一种基于文本中心区域扩增的藏汉双语场景文本检测方法 - Google Patents

一种基于文本中心区域扩增的藏汉双语场景文本检测方法 Download PDF

Info

Publication number
CN112528997B
CN112528997B CN202011550287.7A CN202011550287A CN112528997B CN 112528997 B CN112528997 B CN 112528997B CN 202011550287 A CN202011550287 A CN 202011550287A CN 112528997 B CN112528997 B CN 112528997B
Authority
CN
China
Prior art keywords
text
region
tibetan
image
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011550287.7A
Other languages
English (en)
Other versions
CN112528997A (zh
Inventor
王维兰
李金成
郝玉胜
王铁君
李巧巧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwest Minzu University
Original Assignee
Northwest Minzu University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwest Minzu University filed Critical Northwest Minzu University
Priority to CN202011550287.7A priority Critical patent/CN112528997B/zh
Publication of CN112528997A publication Critical patent/CN112528997A/zh
Application granted granted Critical
Publication of CN112528997B publication Critical patent/CN112528997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于文本中心区域扩增的藏汉双语场景文本检测方法,该方法包括:采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。实验结果表明,本发明提出的模型能够以75.47%的准确率检测出测试集中的双语文本,获得较好的检测性能,为藏汉双语场景文本检测与识别奠定了基础。

Description

一种基于文本中心区域扩增的藏汉双语场景文本检测方法
技术领域
本发明涉及图像处理技术领域,特别是涉及一种基于文本中心区域扩增的藏汉双语场景文本检测方法。
背景技术
自然场景是指我们日常生活的环境,包括室内和户外环境。很多场景中含有丰富的文字信息,这对理解自然场景图像有着十分重要的作用。随着智能科技的飞速发展,许多应用场合都需要利用场景中丰富的文字信息,例如自动驾驶、交通监控和智慧城市建设等。而对于场景中的文字,其文字类型不一、光照不同、背景复杂、形状多样、尺度多变、容易受物理因素的影响,使得检测和识别难度远大于传统的扫描文档图像。场景文字检测是判断拍摄的图像中是否有文本实例的过程,是场景文本分析与处理的基石。
在中国藏区,日常文字信息几乎都包含藏文和汉文,比如广告牌、宣传栏、路牌、商店名称等。目前还没有藏汉双语场景文本检测的研究成果。传统方法主要是基于连通域和纹理信息,最典型的方法有基于笔画宽度变换(SWT)的方法,该方法把有着相似笔画宽度的位置都被聚合成文本行,再将文本行切分成一个个字符;基于最大稳定极值区域(MSER)的方法,该方法首先提取最大稳定极值区域,然后对每个MSER的形状和颜色特征使用SVM进行分类获得检测字符。这些方法依赖所设计的特征,只适应较简单的场景,其准确性和鲁棒性等方面无法与基于深度学习的方法相比。
因此为了适应藏汉双语场景文本检测任务,亟需一种双语场景文本检测方法。
发明内容
为了适应藏汉双语场景文本检测任务,本发明利用人工标注和自动合成的方法构建藏汉双语场景文本检测数据库,用来训练网络并评估我们的方法对藏汉双语场景文本检测的性能。
为实现上述目的,本发明提供了如下方案:
一种基于文本中心区域扩增的藏汉双语场景文本检测方法,包括以下步骤:
S1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;
S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。
优选地,所述步骤S1中构建数据集的具体步骤为:将从藏区拍摄到的真实样本,采用可视化标注工具,对所述样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建藏汉双语场景文本检测数据库。
优选地,对文本行进行标注的方法为四边形标注,包括以下步骤:
S1.1、用四边形框选出图像中的文本实例,使所框选区域的背景减少;
S1.2、记录每个框内文本行的内容;
S1.3、为每张已标记的图像生成json格式的标签文件,将其转成txt文件。
优选地,采用改进的人工合成图像的方法,对所述生成的带有标注信息的藏汉场景文本图像进行合成,合成方法包括以下步骤:
S1.11、收集不含文字的自然场景作为背景图像,利用若干个藏汉双语词条作为文本语料,将常用的藏、汉字体作为渲染文字的字体;
S1.12、使用CNN模型获得图像的像素级深度图像,提取深度信息;结合局部颜色和纹理特征,将所述背景图像分割成多个连续区域,获得区域分割图像;将所述背景图像、区域分割图像、深度图像及其信息集于一体,获得图像综合数据;
S1.13、根据图像分割区域的长宽、面积、纵横比,过滤掉不满足放文本的区域,在过滤后的区域找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域;再利用剩下区域的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成若干个矩形区域蒙版,放置文本的二进制掩码;
S1.14、随机选择渲染文本的字体,根据字体大小和纵横比选择适合嵌入文本的矩形区域;
S1.15、从语料库中随机选择文本放入所述矩形区域,根据矩形区域的法线方向、纹理颜色分别为文本指定方向和颜色,渲染得到含有文本的矩形区域,最终使用泊松编辑将渲染后的文本矩形区域转换回原始状态。
优选地,所述步骤S2中对生成的藏汉双语场景文本图像进行检测,包括以下步骤:
S2.1、特征提取:使用ResNet作为骨干网络提取输入图像的特征图作为特征金字塔FP1;
S2.2、特征增强:将所述特征金字塔FP1连接到特征金字塔增强模块FPEM,增强不同尺度的特征;
S2.3、特征融合:将不同网络层的特征进行融合获得特征金字塔FP4,再将特征金字塔FP4中不同大小的特征图进行上采样,连接成特征图F;
S2.4、目标预测:在特征图F上分别预测矩形文本区域、文本中心区域、以及文本中心区域向外扩增的距离。
优选地,所述步骤S3中通过预测的文本区域和文本中心区域可分别获得每个文本实例i的文字分类得分BSi和CSi
Figure BDA0002857703810000041
Figure BDA0002857703810000042
其中,
Figure BDA0002857703810000043
表示预测的矩形文本区域分割图fb(x,y)第i个文本实例区域内的像素值;
Figure BDA0002857703810000051
表示预测的文本中心区域分割图fc(x,y)第i个文本实例区域内的像素值,sigmoid(·)指sigmoid函数。
优选地,融合所述文本区域和文本中心区域的分类得分,融合后的文本区域最终得分表示为TS,第i个文本实例的融合得分为:
Figure BDA0002857703810000052
然后将阈值Smin应用于每个融合后的得分区域,用于过滤一些文字得分较低以及文字得分不平衡的文本实例。
优选地,利用网络学习到的文本中心区域边界到完整文本实例边界的距离,按照Vatti裁剪算法从过滤后的文本中心区域开始扩增,从而获得完整的文本检测区域,扩增的距离d′的计算公式为:
Figure BDA0002857703810000053
其中,f(x,y)指扩增距离预测图中文本区域R内的像素值。
本发明的有益效果为:
(1)本发明基于分割的算法,不受文本形状的限制,能够检测各种形状的文本,经过训练获得后处理参数,大大减少了时间损耗;
(2)本发明用ResNet作为骨干网络,后接FPEM模块用于增强输入的特征金字塔,对FPEM输出的特征金字塔用FPN将所有尺度的特征再次连接,最后在组合不同尺度的特征图上预测矩形文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,以便从文本中心区域扩增到完整的文本实例,完成对任意方向、形状的文本检测。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明方法流程图;
图2为本发明合成图像方案示意图;
图3为本发明实施例中藏汉双语文字图像合成示意图;
图4为本发明文本检测网络结构示意图,其中“+”,“x2”,“DWConv”,“Conv”,“BN”,“ReLU”和“C”分别表示对应位置像素值相加、2倍线性上采样、深度可分离卷积、普通卷积、批量归一化、ReLU激活和拼接(concatenation)操作;
图5为本发明文本检测网络结构示意图;
图6为本发明实施例中检测结果示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种基于文本中心区域扩增的藏汉双语场景文本检测方法(如图1所示),包括以下步骤:
S1、构建数据集;
进行深度神经网络模型的训练需要大量的标记数据,然而数据的收集以及标记需耗费很多时间和人力财力。由于没有公开的藏汉双语文本检测数据集,此外真实的数据一般数量有限,就会存在正负样本之间类别分离程度相对固定等问题。为了解决此问题,采用可视化标注工具,对从藏区拍摄到的真实样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建一定规模的藏汉双语场景文本检测数据库,用于相关问题的研究。
(1)人工标注部分
由于所收集到的真实数据中含有曲线文本较少,故采用四边形标注文本实例位置。借助Labelme可视化工具对真实数据进行纯人工标注。具体步骤是:a.用四边形框选出图像中的文本实例,在框选文本实例时,使框内背景尽可能的少;b.记录每个框内文本行的内容;c.为每张已标记的图像生成json格式的标签文件,之后将其转成和ICDAR2015数据集一致格式的txt文件。
(2)自动合成部分包括以下步骤:(如图2所示)
第一步,收集不含文字的自然场景图像作为背景图像,同时利用12000多个藏汉双语词条作为文本语料,以及几种常用的藏、汉字体作为渲染文字的字体。
第二步,使用现成的CNN模型获得图像的像素级深度图以提取其深度信息,并采用综合数据引擎的方法(SynthText),结合局部颜色和纹理特征,将背景图像分割成多个连续区域,以获得区域分割图像,如图3(a)所示。然后将背景图像、区域分割图像、深度图像及其信息集于一体获得图像综合数据。
第三步,根据图像分割区域的长宽、面积、横纵比等信息过滤部分不满足放文本的区域。在过滤后的区域中分别找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域。再利用剩下区域(如图3(b))的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成一个个矩形区域蒙版(mask),即放置文本的二进制掩码。
第四步,随机选择渲染文本的字体,并根据字体的大小和横纵比选择适合嵌入文本的矩形区域。
第五步,从语料库中随机选择文本放入矩形区域,并根据区域的法线方向、纹理颜色分别为文本指定方向和一种颜色,渲染得到含有文本的矩形区域。最后,使用泊松编辑将渲染后的文本矩形区域转换回原始状态,如图3(c)。
S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;
如图4为文本检测网络结构示意图,包括以下步骤:
(1)特征提取:首先使用ResNet作为骨干网络提取四个级别大小为输入图像的1/4、1/8、1/16、1/32的特征图作为输出的特征金字塔FP1;
(2)特征增强:将FP1连接到一个特征金字塔增强模块FPEM,以增强不同尺度的特征,先以步长为32、16、8、4在FP1上迭代获得特征金字塔FP2,此阶段为up-scale增强;然后以步长4、8、16、32增强FP2,获得FPEM的输出特征金字塔FP3,此阶段为down-scale增强;
(3)特征融合部分:使用FPN模块将FP3不同网络层的特征进行融合获得特征金字塔FP4,再将FP4中不同大小的特征图进行上采样,连接成4×256通道的特征图F;
(4)目标预测部分:在特征图F上分别预测矩形文本区域(Rectangle TextInstance Region)、文本中心区域(Text Instance Center Region),以及文本中心区域向外扩增的距离(Amplification Distance)。
网络的连接部分⊕规则,参见图4中虚线框中的内容。
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例。
标签生成:图5展示了本发明实施例中标签的生成,将标记框内的像素(正值)视为文本,标记框外的像素(零值)视为非文本,本发明标记框分为文本中心区域标记框、矩形文本区域标记框。其中,文本中心区域标记框shrink box(图5(b))的获得受PSENet的启发,通过使用Vatti裁剪算法按0.5的收缩比例缩小真实标记框得到,收缩的偏移量d根据公式(1)计算。而矩形文本标记框rbox(图5(b))就是完整文本实例多边形标记框gt box(图5(b))的最小外接矩形。利用文本中心区域标记框和矩形文本区域标记框生成对应的二进制掩码文本中心区域和矩形文本区域标签。几何标签文本中心区域扩增距离的生成也利用文本中心区域标记框,其框内的像素值为真实标签收缩的偏移量d,如图5(d)所示。生成的各个标签如图5(c)所示,d的计算公式如下:
Figure BDA0002857703810000101
其中,A为完整文本实例多边形的面积,r为缩放比例,本发明中r取0.5,P为完整文本实例多边形的周长。
文本区域边界扩增:在预测的矩形文本区域和文本中心区域中分别可以获得每个文本实例i的文字分类得分BSi和CSi,它们的定义如下:
Figure BDA0002857703810000102
Figure BDA0002857703810000103
其中,
Figure BDA0002857703810000104
表示预测的矩形文本区域分割图fb(x,y)第i个文本实例区域内的像素值;
Figure BDA0002857703810000105
表示预测的文本中心区域分割图fc(x,y)第i个文本实例区域内的像素值,sigmoid(·)指sigmoid函数。
融合上述两种文本区域的分类得分,融合后的文本区域最终得分表示为TS。第i个文本实例的融合得分如公式(4)所示。然后将阈值Smin应用于每个融合后的得分区域,用来过滤一些文字得分较低以及文字得分不平衡的文本实例。
Figure BDA0002857703810000111
利用网络学习到的文本中心区域边界到完整文本实例边界的距离,可以直接按照Vatti裁剪算法从过滤后的文本中心区域开始扩增,从而获得完整的文本检测区域。扩增的距离d′的计算公式为:
Figure BDA0002857703810000112
其中,f(x,y)指扩增距离预测图中文本区域R内的像素值。
损失函数设计:网络损失函数L由矩形文本区域的损失Lb和收缩之后文本区域损失Lc以及扩增距离损失Ls组成,L的表达如下:
L=αLb+βLc+γLs (6)
其中,α,β和γ用来平衡Lb、Lc和Ls之间的重要性,在所有实验中它们分别设置为1.0、0.6、0.4。
对两个实例分割损失Lb和Lc的计算,借鉴了PSENet,使用dice loss分别监督矩形文本区域Pb和文字中心区域Pc的分割结果。为了克服正负样本不平衡,在训练过程中,使用OHEM按1:3的正负样本采样比例计算Lb和Lc,以便更好区分比较难分类的样本,比如:纹理、栅栏、格子等类似文字的模式。Lb和Lc的计算如下:
Figure BDA0002857703810000113
Figure BDA0002857703810000114
其中Pb(i)、Gb(i)和Mb(i)分别表示矩形文本区域分割结果、其真实标签以及使用OHEM算法获得的训练掩码中的第i个像素的值,矩形文本区域的真实标签是一个二进制掩码图像,该图像中矩形区域内的像素为1,即文字像素,其余像素为0。同样地,Pc(i)、Gc(i)和Mc(i)分别表示文本中心区域分割结果、其真实标签以及使用OHEM算法获得的训练掩码中的第i个像素的值。
而计算文本中心区域边界到完整文本实例边界的距离的损失Ls是使用SmoothL1loss损失函数,因此Ls可表达如下:
Figure BDA0002857703810000121
其中,ds表示文本中心区域边界到完整文本实例边界的真实距离,ds′表示文本中心区域边界到完整文本实例边界的预测距离。
本发明实施例使用了四个评价基准进行性能测试:
(1)ICDAR2015(IC15)是一个很常用的四边形文本数据集,共1500张图像,其中500张测试图像和1000张训练图像。这些图像的标注都是由四个顶点表示文本位置。
(2)ICDAR2017 MLT(IC17-MLT)数据集总共有18000张图像,其中包括1800张验证图像,7200张训练图像以及9000张测试图像。这些图像包含英文、中文、韩文、日文、阿拉伯文等9种文字,其文本实例标注由四个顶点表示。
(3)TCST全称藏汉双语场景文本合成数据集,是使用3.2节中的方法人工合成的藏汉双语场景文本数据集,总共包括9000张含有藏汉两种文字的场景图像,在该数据集上对模型进行预训练。
(4)TCSD全称藏汉双语场景文本数据集,使用人工标注的真实藏汉双语场景文本数据集,总共有548张图像,其中325张训练图像和223张测试图像。场景以户外街景为主,图像中的文本实例标注由4个顶点组成,和IC15类似,图像中包含比较少的曲线文本。
文本检测的评估遵循ICDAR评估协议的Recall,Precision和H-mean。Recall表示正确检测到的文本区域数与数据集中文本区域总数之比,Precision表示正确检测到的文本区域数与检测到的文本总数之比,H-mean通过结合recall和precision来衡量质量。如果检测到的文本区域与Ground Truth的重叠面积大于给定的阈值则认为是正确的,这里给定的阈值为0.5。
使用ResNet50作为骨干网络,并在ImageNet进行了预训练。训练过程中所有实验使用随机梯度下降法(SGD)对网络loss值进行优化,初始学习率统一设置为10-3,使用5+10-4的权重衰减和0.99的纳斯特洛夫动量,批量大小设置为16,并且在所有训练数据上使用随机裁剪、水平翻转和旋转等数据增强策略。
在IC15数据集的实验中进行36k次迭代训练,并且在12k和24k迭代时将学习率变为原来的10%,报告在测试集上的Precision、Recall和H-mean。
特征提取阶段,在FPN模块前加了FPEN模块;在预测阶段,预测了矩形文本区域,而不是完整文本实例区域。藏汉双语场景文本数据集的标注方式、数据集格式以及文本形状和数据集IC15相似,所以,为了验证在此类数据集上FPEN模块的优点,以及预测矩形文本区域较预测完整文本实例区域的优劣,在IC15数据集做了一系列的对比实验。测试时,统一将融合后的文字分类得分阈值Smin设置为0.93,实验结果如表1所示。
表1
Figure BDA0002857703810000141
不同设置的网络在IC15数据集上的测试结果。“输出分支”指网络预测的第一个分支,其中“quad”指四边形文本实例区域,“rbox”表示四边形文本实例的最小外接矩形区域。
从中可以发现,在没有添加FPEM模块的情况下,预测完整的文本实例区域比预测矩形文本区域的检测器的Precision值低,不过H-mean值前者却略高于后者。表明预测矩形文本区域或预测完整文本实例区域对结果的影响相差不大。而在添加FPEM模块后的模型,在速度上相差较小的情况下,预测矩形文本区域结果明显优于预测完整的文本实例区域的结果,而且也优于没有添加FPEM模块的模型,从而验证网络的有效性。
在数据集TCSD上评估所提的网络模型,以测试本文方法检测藏汉双语场景文本的能力。先将测试图像的长边尺寸调整为2240,不同训练策略和不同的文本分类得分阈值的实验结果如表2所示。在没有使用任何其他的数据集预训练的情况下,实现了70.64%的H-mean。在经过IC17-MLT预训练后,H-mean进一步提高到73.88%。同时在TCST进行预训练后,H值也提高了。这里只用了和IC17-MLT数据集数量相等的合成数据进行训练,如果训练更多的合成数据,相信结果会进一步改善。这证明了外部数据(TCST或其他多语言场景文本数据)的有效性以及所提方法在检测定向的藏汉双语文本实例方面有较好的检测性能。
表2
Figure BDA0002857703810000151
不同参数及训练策略在TCSD数据集上的测试结果,“Smin”表示文本实例分类得分阈值。
如图6所示,是在TCSD测试集上部分图像的文本检测结果,从中可以发现,本发明实现了藏汉文本的检测,对较长文本以及不同方向的文本,不同尺度、颜色、字体的文本都具有较好的鲁棒性。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (7)

1.一种基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,包括以下步骤:
S1、构建数据集,采用可视化工具对数据进行标注,基于改进人工合成图像的方法生成藏汉双语场景文本图像,构建藏汉双语场景文本检测数据库;
S2、对生成的藏汉双语场景文本图像进行检测,确定文本区域在场景图像中的具体位置;
S3、通过预测文本区域、文本中心区域以及文本中心区域边界到完整文本实例边界的距离,从文本中心区域开始扩增,最终获取文本实例;
基于改进的人工合成图像的方法,对藏汉双语场景文本图像进行合成,合成方法包括以下步骤:
S1.11、收集不含文字的自然场景作为背景图像,利用若干个藏汉双语词条作为文本语料,将常用的藏、汉字体作为渲染文字的字体;
S1.12、使用CNN模型获得图像的像素级深度图像,提取深度信息;结合局部颜色和纹理特征,将所述背景图像分割成多个连续区域,获得区域分割图像;将所述背景图像、区域分割图像、深度图像及其信息集于一体,获得图像综合数据;
S1.13、根据图像分割区域的长宽、面积、纵横比,过滤掉不满足放文本的区域,在过滤后的区域找到处于同一平面数据点,如果各个区域中处于同一平面的数据点的数量不满足给定的阈值,则滤除该区域;再利用剩下区域的深度信息,使用RANSAC算法获得每个区域的表面法向量,根据表面法向量将每个区域拟合成若干个矩形区域蒙版,放置文本的二进制掩码;
S1.14、随机选择渲染文本的字体,根据字体大小和纵横比选择适合嵌入文本的矩形区域;
S1.15、从语料库中随机选择文本放入所述矩形区域,根据矩形区域的法线方向、纹理颜色分别为文本指定方向和颜色,渲染得到含有文本的矩形区域,最终使用泊松编辑将渲染后的文本矩形区域转换回原始状态。
2.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S1中构建数据集的具体步骤为:将从藏区拍摄到的真实样本,采用可视化标注工具,对所述样本进行文本行标注,并改进现有合成图像的算法合成带有文本标注信息的场景文本图像,构建藏汉双语场景文本检测数据库。
3.根据权利要求2所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,对文本行进行标注的方法为四边形标注,包括以下步骤:
S1.1、用四边形框选出图像中的文本实例,使所框选区域的背景减少;
S1.2、记录每个框内文本行的内容;
S1.3、为每张已标记的图像生成json格式的标签文件,将其转成txt文件。
4.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S2中对生成的藏汉双语场景文本图像进行检测,包括以下步骤:
S2.1、特征提取:使用ResNet作为骨干网络提取输入图像的特征图作为特征金字塔FP1;
S2.2、特征增强:将所述特征金字塔FP1连接到特征金字塔增强模块FPEM,增强不同尺度的特征;
S2.3、特征融合:将不同网络层的特征进行融合获得特征金字塔FP4,再将特征金字塔FP4中不同大小的特征图进行上采样,连接成特征图F;
S2.4、目标预测:在特征图F上分别预测矩形文本区域、文本中心区域、以及文本中心区域向外扩增的距离。
5.根据权利要求1所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,所述步骤S3中通过预测的文本区域和文本中心区域可分别获得每个文本实例i的文字分类得分BSi和CSi
BSi=sigmoid(fi b(x,y)) (1)
CSi=sigmoid(fi c(x,y)) (2)
其中,fi b(x,y)表示预测的矩形文本区域分割图fb(x,y)第i个文本实例区域内的像素值;fi c(x,y)表示预测的文本中心区域分割图fc(x,y)第i个文本实例区域内的像素值,sigmoid(·)指sigmoid函数。
6.根据权利要求5所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,融合所述文本区域和文本中心区域的分类得分,融合后的文本区域最终得分表示为TS,第i个文本实例的融合得分为:
Figure FDA0003545039590000041
然后将阈值Smin应用于每个融合后的得分区域,用于过滤一些文字得分较低以及文字得分不平衡的文本实例。
7.根据权利要求6所述的基于文本中心区域扩增的藏汉双语场景文本检测方法,其特征在于,利用网络学习到的文本中心区域边界到完整文本实例边界的距离,按照Vatti裁剪算法从过滤后的文本中心区域开始扩增,从而获得完整的文本检测区域,扩增的距离d′的计算公式为:
Figure FDA0003545039590000042
其中,f(x,y)指扩增距离预测图中文本区域R内的像素值。
CN202011550287.7A 2020-12-24 2020-12-24 一种基于文本中心区域扩增的藏汉双语场景文本检测方法 Active CN112528997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011550287.7A CN112528997B (zh) 2020-12-24 2020-12-24 一种基于文本中心区域扩增的藏汉双语场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011550287.7A CN112528997B (zh) 2020-12-24 2020-12-24 一种基于文本中心区域扩增的藏汉双语场景文本检测方法

Publications (2)

Publication Number Publication Date
CN112528997A CN112528997A (zh) 2021-03-19
CN112528997B true CN112528997B (zh) 2022-04-19

Family

ID=74976126

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011550287.7A Active CN112528997B (zh) 2020-12-24 2020-12-24 一种基于文本中心区域扩增的藏汉双语场景文本检测方法

Country Status (1)

Country Link
CN (1) CN112528997B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112949755B (zh) * 2021-03-29 2022-09-13 中国科学院合肥物质科学研究院 一种基于图像结构信息的ocr数据合成方法
CN113392772B (zh) * 2021-06-17 2022-04-19 南开大学 一种面向文字识别的文字图像收缩变形增强方法
CN113496225B (zh) * 2021-09-07 2022-02-11 腾讯科技(深圳)有限公司 图像处理方法、装置、计算机设备及存储介质
CN113807351B (zh) * 2021-09-18 2024-01-16 京东鲲鹏(江苏)科技有限公司 一种场景文字检测方法和装置
CN113673523B (zh) * 2021-10-22 2022-01-21 北京世纪好未来教育科技有限公司 文本检测方法、装置、设备及存储介质
CN115393868B (zh) * 2022-08-18 2023-05-26 中化现代农业有限公司 文本检测方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110598698A (zh) * 2019-08-29 2019-12-20 华中科技大学 基于自适应区域建议网络的自然场景文本检测方法和系统
CN110738207A (zh) * 2019-09-10 2020-01-31 西南交通大学 一种融合文字图像中文字区域边缘信息的文字检测方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Reading Scene Text in Deep Convolutional Sequences;Pan He等;《Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence (AAAI-16)》;20161231;第3501-3508页 *
Synthetic Data for Text Localisation in Natural Images;Ankush Gupta等;《Proc.CVPR》;20161230;第2315-2324页 *
场景文字检测算法的漏检问题研究;陶月锋等;《河南大学学报(自然科学版)》;20200916(第05期);第579-591页 *
基于FCN的多方向自然场景文字检测方法;杨剑锋等;《计算机工程与应用》;20190116;第164-170页 *

Also Published As

Publication number Publication date
CN112528997A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN112528997B (zh) 一种基于文本中心区域扩增的藏汉双语场景文本检测方法
CN102915438B (zh) 一种视频字幕的提取方法及装置
CN110084249A (zh) 基于金字塔特征注意的图像显著性检测方法
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN110175613A (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
CN111444919A (zh) 一种自然场景中的任意形状文本检测方法
CN112183203A (zh) 一种基于多尺度像素特征融合的实时交通标志检测方法
CN110751154B (zh) 一种基于像素级分割的复杂环境多形状文本检测方法
CN115131797B (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN113378815B (zh) 一种场景文本定位识别的系统及其训练和识别的方法
CN107818321A (zh) 一种用于车辆年检的水印日期识别方法
CN113936195B (zh) 敏感图像识别模型的训练方法、训练装置和电子设备
CN112926582B (zh) 一种基于自适应特征选择和尺度损失函数的文本检测方法
CN110390228A (zh) 基于神经网络的交通标志图片识别方法、装置及存储介质
CN111553351A (zh) 一种基于语义分割的场景任意形状的文本检测方法
CN116311310A (zh) 一种结合语义分割和序列预测的通用表格识别方法和装置
CN114140665A (zh) 一种基于改进YOLOv5的密集小目标检测方法
CN103455816B (zh) 一种笔画宽度提取方法、装置及一种文字识别方法、系统
CN116012835A (zh) 一种基于文本分割的两阶段场景文本擦除方法
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN114386504A (zh) 一种工程图纸文字识别方法
CN110458203B (zh) 一种广告图像素材检测方法
CN117218672A (zh) 一种基于深度学习的病案文字识别方法及系统
Xu et al. Based on improved edge detection algorithm for English text extraction and restoration from color images
CN109117841A (zh) 基于笔画宽度变换与卷积神经网络的场景文本检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant