CN114972947B - 一种基于模糊语义建模的深度场景文本检测方法和装置 - Google Patents

一种基于模糊语义建模的深度场景文本检测方法和装置 Download PDF

Info

Publication number
CN114972947B
CN114972947B CN202210882622.6A CN202210882622A CN114972947B CN 114972947 B CN114972947 B CN 114972947B CN 202210882622 A CN202210882622 A CN 202210882622A CN 114972947 B CN114972947 B CN 114972947B
Authority
CN
China
Prior art keywords
text
reliability
semantic
graph
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210882622.6A
Other languages
English (en)
Other versions
CN114972947A (zh
Inventor
王芳芳
徐晓刚
李萧缘
王军
曹卫强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210882622.6A priority Critical patent/CN114972947B/zh
Publication of CN114972947A publication Critical patent/CN114972947A/zh
Application granted granted Critical
Publication of CN114972947B publication Critical patent/CN114972947B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Abstract

本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置,该方法包括:步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;步骤二,对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;步骤五,对文本属性图进行二值化和联通域提取,得到最终的文本检测结果。本发明实现方法简便,灵活鲁棒,适用范围广。

Description

一种基于模糊语义建模的深度场景文本检测方法和装置
技术领域
本发明属于计算机视觉领域,涉及一种基于模糊语义建模的深度场景文本检测方法和装置。
背景技术
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多语种、弯曲或不规则形态的文本区域位置。由于统计建模的有效性,目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架,输入一幅图像,输出检测的文本区域。
近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。计算机视觉任务主要有两个关键点:第一点是如何自底向上地挖掘文本像素级别的语义信息从而能够适应多种多样的文本形状;第二点是如何建模文本区域边缘的语义模糊性从而解决由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于模糊语义建模的深度场景文本检测方法和装置,针对上述第一点,本发明认为利用语义分割框架,通过特征提取网络和特征金字塔网络进行全局特征融合以及端到端特征学习能够有效挖掘像素级别语义信息;针对第二点,本发明认为文本实例分界线区域具有独特的语义特性,同时挖掘文本及实例分界线两种语义信息并进行语义可靠性分析能够更精准地发现和区分不同文本目标的边界,具体的技术方案如下:
一种基于模糊语义建模的深度场景文本检测方法,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果。
进一步地,所述步骤二具体包括以下子步骤:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
进一步地,所述步骤三具体包括以下子步骤:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分
Figure 884670DEST_PATH_IMAGE001
、实例分界线语义类别得分
Figure 270652DEST_PATH_IMAGE002
、文本可靠性值
Figure 519231DEST_PATH_IMAGE003
以及实例分界线可靠性值
Figure 383282DEST_PATH_IMAGE004
(3.2)对由所述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
Figure 182609DEST_PATH_IMAGE005
+
Figure 208334DEST_PATH_IMAGE006
+
Figure 944209DEST_PATH_IMAGE007
,
其中
Figure 611950DEST_PATH_IMAGE008
Figure 749671DEST_PATH_IMAGE009
为smooth L1损失函数,
Figure 8614DEST_PATH_IMAGE010
Figure 231785DEST_PATH_IMAGE011
为归一化焦点损失函数。
进一步地,所述步骤四具体为:
基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图
Figure 437638DEST_PATH_IMAGE012
、实例分界线分割图S、实例分界线可靠性图
Figure 429865DEST_PATH_IMAGE013
,利用上述四张输出图进行可靠性分析并融合为最终的文本属性图M:
Figure 100002_DEST_PATH_IMAGE014
其中
Figure 30348DEST_PATH_IMAGE015
为平衡分支区间的加权系数。
进一步地,所述步骤五具体为:
对步骤四输出的文本属性图进行轮廓发现即二值化和联通域提取,得到文本区域的坐标表示:
Figure 740815DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为二值化函数,
Figure 953622DEST_PATH_IMAGE018
为联通与提取函数,其中每一个文本实例均用点集
Figure 65934DEST_PATH_IMAGE019
表示,
Figure 666680DEST_PATH_IMAGE020
Figure 864443DEST_PATH_IMAGE021
分别表示一个文本区域的第m个坐标的横、纵坐标,N表示坐标点个数。
进一步地,利用所述文本区域的坐标,通过文本区域扩张相交及截断距离函数的方式生成文本真值图、实例分界线真值图、文本可靠性真值图及实例分界线可靠性真值图;
其中,所述文本真值图具体为:利用文本区域坐标的真值数据进行二值化填充,文本区域内部填充为1,背景为0,作为文本区域的真值图
Figure 412099DEST_PATH_IMAGE022
所述实例分界线真值图具体为:文本轮廓根据自身的尺度,以行高的1/5作为扩张参数进行适应性扩张,扩张之后的相近文本实例发生重叠,重叠区域定义为实例分界线区域的真值图
Figure 877453DEST_PATH_IMAGE023
所述文本可靠性真值图和实例分界线可靠性真值图具体为:针对文本区域及实例分界线区域的边缘通过截断函数计算像素位置的语义可靠性,获得文本和实例分界线的可靠性真值图
Figure 117942DEST_PATH_IMAGE024
以及
Figure 271843DEST_PATH_IMAGE025
,截断函数为:
Figure 623189DEST_PATH_IMAGE026
其中
Figure 444515DEST_PATH_IMAGE027
度量像素位置
Figure 652642DEST_PATH_IMAGE028
与其距离最近的语义边界
Figure 559418DEST_PATH_IMAGE029
之间的欧氏距离,
Figure 448877DEST_PATH_IMAGE030
是像素位置
Figure 390288DEST_PATH_IMAGE028
处的二值化标签,
Figure 471115DEST_PATH_IMAGE031
是截断阈值,同时也是归一化系数,
Figure 865187DEST_PATH_IMAGE032
的绝对值代表位置
Figure 292757DEST_PATH_IMAGE028
处像素的可靠性,而正负号则用来区分语义的倾向性。
一种基于模糊语义建模的深度场景文本检测装置,包括一个或多个处理器,用于实现所述的基于模糊语义建模的深度场景文本检测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于模糊语义建模的深度场景文本检测方法。
相比于现有的场景文本检测方法,本发明具有以下有益效果:
首先,本发明的场景文本检测方法从冗余去除的角度解决自底向上的任意形态场景文本检测方法中由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题,在自然图像中发现并探索文本和实例分界线这两种模糊语义;
其次,本发明提出了提出对模糊语义的边界进行可靠性建模并通过可靠性分析来解决语义边界上的竞争问题,判定最终的语义属性,从而获得清晰完整的实例边界,提升了场景文本检测的效果;
最后,本发明的场景文本检测方法作为一个简单直接的基于语义分割的轻量级框架,以联通域提取的方式一次性获得最终检测结果,不需要任何迭代式或其他复杂的后处理步骤,其效果超过了很多基于分割的多阶段的方法;
且本发明在场景理解、自动驾驶等场景中,具有良好的应用价值,例如,在自动驾驶任务中,场景中的文本包含大量帮助理解场景和辅助驾驶的信息,准确检测文本所在位置是利用场景文本信息的基础,本发明的场景文本检测方法能够快速准确地定位图像中的文本区域,为后续利用分析文本信息提供基础。
附图说明
图1为本发明一种基于模糊语义建模的深度场景文本检测方法的流程示意图;
图2a至图2c为本发明实施例中的原始图像;
图3为本发明的学习网络的框架图;
图4为本发明实施例中的语义分割框架对于自然场景图像中随机形态文本的检测效果图;
图5为本发明实施例的一种基于模糊语义建模的深度场景文本检测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
在场景文本检测中,文本的几何属性多变且语义边界模糊,因此本发明基于卷积神经网络进行自底向上的像素级别文本区域发现,并建模文本及实例分界线的语义信息和可靠性,最后通过有效的训练策略来进行网络优化,具体提出一种基于模糊语义建模的深度场景文本检测方法和装置,在自然场景图像当中挖掘两种相互竞争的模糊边界语义类别,即文本和实例分界线,并通过像素级别的多标签分类和模糊语义的可靠性分析,从去除冗余的角度进行任意形状的场景文本目标检测;本发明使用一阶段深度学习分割框架,利用跨图像像素级别的焦点损失函数进行网络优化,其实现方法简便,灵活鲁棒,适用范围广。
更加详细的,如图1所示,所述的一种基于模糊语义建模的深度场景文本检测方法,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集。具体的,本发明在三个具有真值标注的数据集上实施,分别为:
SCUT-CTW1500数据集:该数据集包含1000张训练图像,500张测试图像;
TotalText数据集:该数据集包含1255张训练图像,300张测试图像;
ICDAR-ArT数据集:该数据集包含5603张训练图像,4563张测试图像。
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图。
该步骤具体实现方法包括:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建。
该步骤具体实现方法包括:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分
Figure 823096DEST_PATH_IMAGE001
、实例分界线语义类别得分
Figure 576288DEST_PATH_IMAGE002
、文本可靠性值
Figure 457656DEST_PATH_IMAGE003
以及实例分界线可靠性值
Figure 954497DEST_PATH_IMAGE004
(3.2)对上述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
Figure 401658DEST_PATH_IMAGE005
+
Figure 60173DEST_PATH_IMAGE006
+
Figure 933232DEST_PATH_IMAGE007
,
其中
Figure 968184DEST_PATH_IMAGE008
Figure 473115DEST_PATH_IMAGE009
为smooth L1损失函数,
Figure 302530DEST_PATH_IMAGE010
Figure 158491DEST_PATH_IMAGE011
为归一化焦点损失函数,以正样本点处的分割损失函数为例:
Figure 997134DEST_PATH_IMAGE033
其中
Figure 356571DEST_PATH_IMAGE034
为当前图像中所有样本像素点的总数,
Figure DEST_PATH_IMAGE035
为当前处理过所有图像当中正样本点的训练权重动态均值,
Figure 888047DEST_PATH_IMAGE032
为当前位置
Figure 464259DEST_PATH_IMAGE028
处的可靠性值,
Figure 106593DEST_PATH_IMAGE036
为当前位置预测出的概率值,
Figure 586116DEST_PATH_IMAGE037
为当前图像所有正样本点的数量,权重
Figure 22914DEST_PATH_IMAGE038
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图。
该步骤具体实现方法包括:
基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图
Figure 587887DEST_PATH_IMAGE012
、实例分界线分割图S、实例分界线可靠性图
Figure 502753DEST_PATH_IMAGE013
,利用上述四张输出图进行可靠性分析并融合为最终的文本属性图M:
Figure 836783DEST_PATH_IMAGE014
其中
Figure 444482DEST_PATH_IMAGE015
为平衡分支区间的加权系数。
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果。
该步骤具体实现方法包括:
对步骤四输出的文本属性图进行轮廓发现即二值化和联通域提取,得到文本区域的坐标表示:
Figure 995287DEST_PATH_IMAGE016
其中,
Figure 713844DEST_PATH_IMAGE017
为二值化函数,
Figure 167959DEST_PATH_IMAGE018
为联通与提取函数,其中每一个文本实例均用点集
Figure 743297DEST_PATH_IMAGE019
表示,
Figure 282862DEST_PATH_IMAGE020
Figure 805111DEST_PATH_IMAGE021
分别表示一个文本区域的第m个坐标的横、纵坐标,N表示坐标点个数。
最后,利用文本区域的坐标信息,通过文本区域扩张相交及截断距离函数等方式生成文本、实例分界线、文本可靠性及实例分界线可靠性四种真值图,具体如下:
利用文本区域坐标的真值数据进行二值化填充,文本区域内部填充为1,背景为0,作为文本区域的真值图
Figure 848153DEST_PATH_IMAGE022
文本轮廓根据自身的尺度,以行高的1/5作为扩张参数进行适应性扩张,扩张之后的相近文本实例发生重叠,重叠区域定义为实例分界线区域的真值图
Figure 797655DEST_PATH_IMAGE023
针对文本区域及实例分界线区域的边缘通过截断函数计算像素位置的语义可靠性,获得文本和实例分界线的可靠性真值图
Figure 558937DEST_PATH_IMAGE024
以及
Figure 383411DEST_PATH_IMAGE025
,截断函数为:
Figure 343277DEST_PATH_IMAGE026
其中
Figure 463680DEST_PATH_IMAGE027
度量像素位置
Figure 977838DEST_PATH_IMAGE028
与其距离最近的语义边界
Figure 841889DEST_PATH_IMAGE029
之间的欧氏距离,
Figure 859523DEST_PATH_IMAGE030
是像素位置
Figure 150827DEST_PATH_IMAGE028
处的二值化标签,
Figure 886702DEST_PATH_IMAGE031
是截断阈值,同时也是归一化系数,本发明方法实验中
Figure 554444DEST_PATH_IMAGE031
=10。
Figure 223323DEST_PATH_IMAGE032
的绝对值代表位置
Figure 443783DEST_PATH_IMAGE028
处像素的可靠性,而正负号则用来区分语义的倾向性。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施,分别为:
SCUT-CTW1500数据集:该数据集包含1000张训练图像,500张测试图像。
TotalText数据集:该数据集包含1255张训练图像,300张测试图像。
ICDAR-ArT数据集:该数据集包含5603张训练图像,4563张测试图像。
本实施例在每个数据集上分别进行实验,数据集中图像举例如图2a至图2c所示。
文本检测的主要流程如下:
1)通过全卷积网络及特征金字塔结构网络提取图像的多尺度特征图;
2)利用卷积操作和拼接操作对每个尺度特征图进行抽取和融合,得到全局特征图;
3)在全局特征图上构建四个预测分支,分别预测特征图上每个样本点的文本语义分类得分、实例分界线语义分类得分、文本语义可靠性、实例分界线语义可靠性;
4)联合优化语义分类和可靠性回归分支;
5)使用所述学习框架预测语义及可靠性信息,得到文本属性图;
6)对文本属性图进行二值化和联通域提取得到最终文本检测结果,整体学习网络框架如图3所示,对于自然场景图像中随机形态文本的检测效果图如图4所示。
为综合比较本方法的有效性,我们比较了其他较先进方法,并对本方法中提出的实例分界线分割、可靠性分析以及归一化焦点损失函数三项操作进行了有效性分析。本实施例检测结果的准确率(precision)、召回率(recall)及综合性能(F-measure)见表1至表3所示,其中F-measure表示准确率与召回率之间的平衡综合性能:
Figure 666954DEST_PATH_IMAGE039
。表中数据显示了本发明在precision,recall以及F-measure三个指标上的表现,与其他基于语义分割框架的方法和其他基于回归框架的方法相比,本方法在整体上有了进一步的提升。
表1为本实施例在SCUT-CTW1500数据集上各评价指标:
Figure 872807DEST_PATH_IMAGE040
表2为本实施例在TotalText数据集上各评价指标:
Figure 599455DEST_PATH_IMAGE041
表3为本实施例在ICDAR-ArT数据集上各评价指标:
Figure 498141DEST_PATH_IMAGE042
表4为本实施例提出的实例分界线分割、可靠性分析及归一化焦点损失函数的有效性分析:
Figure 943029DEST_PATH_IMAGE043
通过以上技术方案,本发明实施基于深度学习技术提供了一种基于模糊语义建模的深度场景文本检测方法。本发明可以在各种真实图像数据上挖掘文本及实例分界线语义信息及其语义可靠性,从而得到准确的检测结果。
与前述基于模糊语义建模的深度场景文本检测方法的实施例相对应,本发明还提供了一种基于模糊语义建模的深度场景文本检测装置的实施例。
参见图5,本发明实施例提供的一种基于模糊语义建模的深度场景文本检测装置,包括一个或多个处理器,用于实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。
本发明基于模糊语义建模的深度场景文本检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于模糊语义建模的深度场景文本检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于模糊语义建模的深度场景文本检测方法,其特征在于,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建,具体包括以下子步骤:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分
Figure DEST_PATH_IMAGE002
、实例分界线语义类别得分
Figure DEST_PATH_IMAGE004
、文本可靠性值
Figure DEST_PATH_IMAGE006
以及实例分界线可靠性值
Figure DEST_PATH_IMAGE008
(3.2)对由所述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
Figure DEST_PATH_IMAGE010
+
Figure DEST_PATH_IMAGE012
+
Figure DEST_PATH_IMAGE014
,
其中
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
为smooth L1损失函数,
Figure DEST_PATH_IMAGE020
Figure DEST_PATH_IMAGE022
为归一化焦点损失函数;
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图,具体为:基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图
Figure DEST_PATH_IMAGE024
、实例分界线分割图S、实例分界线可靠性图
Figure DEST_PATH_IMAGE026
,后进行可靠性分析并融合为最终的文本属性图M:
Figure DEST_PATH_IMAGE028
其中
Figure DEST_PATH_IMAGE030
为平衡分支区间的加权系数;
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果,具体为:对步骤四输出的文本属性图进行轮廓发现,即二值化和联通域提取,得到文本区域的坐标表示:
Figure DEST_PATH_IMAGE032
其中,
Figure DEST_PATH_IMAGE034
为二值化函数,
Figure DEST_PATH_IMAGE036
为联通与提取函数,其中每一个文本实例均用点集
Figure DEST_PATH_IMAGE038
表示,
Figure DEST_PATH_IMAGE040
Figure DEST_PATH_IMAGE042
分别表示一个文本区域的第m个坐标的横、纵坐标,N表示坐标点个数。
2.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法,其特征在于,所述步骤二具体包括以下子步骤:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
3.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法,其特征在于,利用所述文本区域的坐标,通过文本区域扩张相交及截断距离函数的方式生成文本真值图、实例分界线真值图、文本可靠性真值图及实例分界线可靠性真值图;
其中,所述文本真值图具体为:利用文本区域坐标的真值数据进行二值化填充,文本区域内部填充为1,背景为0,作为文本区域的真值图
Figure DEST_PATH_IMAGE044
所述实例分界线真值图具体为:文本轮廓根据自身的尺度,以行高的1/5作为扩张参数进行适应性扩张,扩张之后的相近文本实例发生重叠,重叠区域定义为实例分界线区域的真值图
Figure DEST_PATH_IMAGE046
所述文本可靠性真值图和实例分界线可靠性真值图具体为:针对文本区域及实例分界线区域的边缘通过截断函数计算像素位置的语义可靠性,获得文本和实例分界线的可靠性真值图
Figure DEST_PATH_IMAGE048
以及
Figure DEST_PATH_IMAGE050
,截断函数为:
Figure DEST_PATH_IMAGE052
其中
Figure DEST_PATH_IMAGE054
度量像素位置
Figure DEST_PATH_IMAGE056
与其距离最近的语义边界
Figure DEST_PATH_IMAGE058
之间的欧氏距离,
Figure DEST_PATH_IMAGE060
是像素位置
Figure 722912DEST_PATH_IMAGE056
处的二值化标签,
Figure DEST_PATH_IMAGE062
是截断阈值,同时也是归一化系数,
Figure DEST_PATH_IMAGE064
的绝对值代表位置
Figure 967949DEST_PATH_IMAGE056
处像素的可靠性,而正负号则用来区分语义的倾向性。
4.一种基于模糊语义建模的深度场景文本检测装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-3中任一项所述的基于模糊语义建模的深度场景文本检测方法。
5.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-3中任一项所述的基于模糊语义建模的深度场景文本检测方法。
CN202210882622.6A 2022-07-26 2022-07-26 一种基于模糊语义建模的深度场景文本检测方法和装置 Active CN114972947B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210882622.6A CN114972947B (zh) 2022-07-26 2022-07-26 一种基于模糊语义建模的深度场景文本检测方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210882622.6A CN114972947B (zh) 2022-07-26 2022-07-26 一种基于模糊语义建模的深度场景文本检测方法和装置

Publications (2)

Publication Number Publication Date
CN114972947A CN114972947A (zh) 2022-08-30
CN114972947B true CN114972947B (zh) 2022-12-06

Family

ID=82968948

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210882622.6A Active CN114972947B (zh) 2022-07-26 2022-07-26 一种基于模糊语义建模的深度场景文本检测方法和装置

Country Status (1)

Country Link
CN (1) CN114972947B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116129456B (zh) * 2023-02-09 2023-07-25 广西壮族自治区自然资源遥感院 一种产权权属信息识别录入方法及系统

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110738609A (zh) * 2019-09-11 2020-01-31 北京大学 一种去除图像摩尔纹的方法及装置
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111931763A (zh) * 2020-06-09 2020-11-13 浙江大学 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
CN112950645A (zh) * 2021-03-24 2021-06-11 中国人民解放军国防科技大学 一种基于多任务深度学习的图像语义分割方法
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN112966691A (zh) * 2021-04-14 2021-06-15 重庆邮电大学 基于语义分割的多尺度文本检测方法、装置及电子设备
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN114202671A (zh) * 2021-11-17 2022-03-18 桂林理工大学 一种图像预测优化处理方法及装置
CN114255464A (zh) * 2021-12-14 2022-03-29 南京信息工程大学 基于craft和scrn-seed框架的自然场景文字检测识别方法
CN114399497A (zh) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 文本图像质量检测方法、装置、计算机设备及存储介质
WO2022098203A1 (en) * 2020-11-09 2022-05-12 Samsung Electronics Co., Ltd. Method and apparatus for image segmentation
CN114495103A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和介质
CN114494698A (zh) * 2022-01-27 2022-05-13 北京邮电大学 一种基于边缘预测的传统文化图像语义分割方法
CN114565913A (zh) * 2022-03-03 2022-05-31 广州华多网络科技有限公司 文本识别方法及其装置、设备、介质、产品

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11366968B2 (en) * 2019-07-29 2022-06-21 Intuit Inc. Region proposal networks for automated bounding box detection and text segmentation
CN112926372B (zh) * 2020-08-22 2023-03-10 清华大学 基于序列变形的场景文字检测方法及系统
CN114691912A (zh) * 2020-12-25 2022-07-01 日本电气株式会社 图像处理的方法、设备和计算机可读存储介质
CN112287931B (zh) * 2020-12-30 2021-03-19 浙江万里学院 一种场景文本检测方法及系统

Patent Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108288088A (zh) * 2018-01-17 2018-07-17 浙江大学 一种基于端到端全卷积神经网络的场景文本检测方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN110322495A (zh) * 2019-06-27 2019-10-11 电子科技大学 一种基于弱监督深度学习的场景文本分割方法
CN110738609A (zh) * 2019-09-11 2020-01-31 北京大学 一种去除图像摩尔纹的方法及装置
CN111210518A (zh) * 2020-01-15 2020-05-29 西安交通大学 基于视觉融合地标的拓扑地图生成方法
CN111931763A (zh) * 2020-06-09 2020-11-13 浙江大学 一种基于随机形态边缘几何建模的深度场景文本检测方法
CN112101165A (zh) * 2020-09-07 2020-12-18 腾讯科技(深圳)有限公司 兴趣点识别方法、装置、计算机设备和存储介质
WO2022098203A1 (en) * 2020-11-09 2022-05-12 Samsung Electronics Co., Ltd. Method and apparatus for image segmentation
CN112966697A (zh) * 2021-03-17 2021-06-15 西安电子科技大学广州研究院 基于场景语义的目标检测方法、装置、设备及存储介质
CN112950645A (zh) * 2021-03-24 2021-06-11 中国人民解放军国防科技大学 一种基于多任务深度学习的图像语义分割方法
CN112966691A (zh) * 2021-04-14 2021-06-15 重庆邮电大学 基于语义分割的多尺度文本检测方法、装置及电子设备
CN113343707A (zh) * 2021-06-04 2021-09-03 北京邮电大学 一种基于鲁棒性表征学习的场景文本识别方法
CN113591719A (zh) * 2021-08-02 2021-11-02 南京大学 一种自然场景任意形状文本检测方法、装置和训练方法
CN114202671A (zh) * 2021-11-17 2022-03-18 桂林理工大学 一种图像预测优化处理方法及装置
CN114255464A (zh) * 2021-12-14 2022-03-29 南京信息工程大学 基于craft和scrn-seed框架的自然场景文字检测识别方法
CN114399497A (zh) * 2022-01-19 2022-04-26 中国平安人寿保险股份有限公司 文本图像质量检测方法、装置、计算机设备及存储介质
CN114494698A (zh) * 2022-01-27 2022-05-13 北京邮电大学 一种基于边缘预测的传统文化图像语义分割方法
CN114495103A (zh) * 2022-01-28 2022-05-13 北京百度网讯科技有限公司 文本识别方法、装置、电子设备和介质
CN114565913A (zh) * 2022-03-03 2022-05-31 广州华多网络科技有限公司 文本识别方法及其装置、设备、介质、产品

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Fuzzy Semantics for Arbitrary-shaped Scene Text Detection;Fangfang Wang 等;《IEEE Transactions on Image Processing》;20220830;全文 *
Proposing a Semantic Analysis based Sanskrit Compiler by mapping Sanskrit"s linguistic features with Compiler phases;Akshay Chavan 等;《2021 Second International Conference on Electronics and Sustainable Communication Systems (ICESC)》;20211231;全文 *
Semantic Genes and the Formalized Representation of Lexical Meaning;Dan Hu;《2010 International Conference on Asian Language Processing》;20101231;全文 *
深度卷积神经网络图像语义分割研究进展;青晨等;《中国图象图形学报》;20200616(第06期);全文 *

Also Published As

Publication number Publication date
CN114972947A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
Zhang et al. A cascaded R-CNN with multiscale attention and imbalanced samples for traffic sign detection
Lee et al. Simultaneous traffic sign detection and boundary estimation using convolutional neural network
US20200160124A1 (en) Fine-grained image recognition
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN107833213B (zh) 一种基于伪真值自适应法的弱监督物体检测方法
CN111091105A (zh) 基于新的边框回归损失函数的遥感图像目标检测方法
CN109960742B (zh) 局部信息的搜索方法及装置
CN107798725B (zh) 基于Android的二维住房户型识别和三维呈现方法
CN111523463B (zh) 基于匹配-回归网络的目标跟踪方法及训练方法
CN113239818B (zh) 基于分割和图卷积神经网络的表格跨模态信息提取方法
CN111680678A (zh) 目标区域识别方法、装置、设备及可读存储介质
JP2023527615A (ja) 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム
CN114972947B (zh) 一种基于模糊语义建模的深度场景文本检测方法和装置
CN111415373A (zh) 基于孪生卷积网络的目标跟踪与分割方法、系统及介质
CN114463603B (zh) 图像检测模型的训练方法、装置、电子设备及存储介质
JP2019185787A (ja) 地理的地域内のコンテナのリモート決定
Cao et al. Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks
CN113487610B (zh) 疱疹图像识别方法、装置、计算机设备和存储介质
CN114168768A (zh) 图像检索方法及相关设备
CN115115825A (zh) 图像中的对象检测方法、装置、计算机设备和存储介质
Park et al. Estimating the camera direction of a geotagged image using reference images
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN115345895B (zh) 用于视觉检测的图像分割方法、装置、计算机设备及介质
Zhou et al. Self-supervised saliency estimation for pixel embedding in road detection
Jia et al. Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant