CN114972947B - 一种基于模糊语义建模的深度场景文本检测方法和装置 - Google Patents
一种基于模糊语义建模的深度场景文本检测方法和装置 Download PDFInfo
- Publication number
- CN114972947B CN114972947B CN202210882622.6A CN202210882622A CN114972947B CN 114972947 B CN114972947 B CN 114972947B CN 202210882622 A CN202210882622 A CN 202210882622A CN 114972947 B CN114972947 B CN 114972947B
- Authority
- CN
- China
- Prior art keywords
- text
- reliability
- semantic
- graph
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1918—Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
本发明公开了一种基于模糊语义建模的深度场景文本检测方法和装置,该方法包括:步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;步骤二,对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;步骤五,对文本属性图进行二值化和联通域提取,得到最终的文本检测结果。本发明实现方法简便,灵活鲁棒,适用范围广。
Description
技术领域
本发明属于计算机视觉领域,涉及一种基于模糊语义建模的深度场景文本检测方法和装置。
背景技术
场景文本检测被定义为如下问题:在自然场景图像中发现多方向、多语种、弯曲或不规则形态的文本区域位置。由于统计建模的有效性,目前基于学习的方法逐渐被应用到场景文本检测任务中。现有的基于学习的方法主要采用深度学习框架,输入一幅图像,输出检测的文本区域。
近年来,在计算机视觉任务如场景理解、图像检索等领域中得到了广泛应用。计算机视觉任务主要有两个关键点:第一点是如何自底向上地挖掘文本像素级别的语义信息从而能够适应多种多样的文本形状;第二点是如何建模文本区域边缘的语义模糊性从而解决由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种基于模糊语义建模的深度场景文本检测方法和装置,针对上述第一点,本发明认为利用语义分割框架,通过特征提取网络和特征金字塔网络进行全局特征融合以及端到端特征学习能够有效挖掘像素级别语义信息;针对第二点,本发明认为文本实例分界线区域具有独特的语义特性,同时挖掘文本及实例分界线两种语义信息并进行语义可靠性分析能够更精准地发现和区分不同文本目标的边界,具体的技术方案如下:
一种基于模糊语义建模的深度场景文本检测方法,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建;
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图;
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果。
进一步地,所述步骤二具体包括以下子步骤:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
进一步地,所述步骤三具体包括以下子步骤:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分、实例分界线语义类别得分、文本可靠性值以及实例分界线可靠性值;
(3.2)对由所述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
进一步地,所述步骤四具体为:
基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图、实例分界线分割图S、实例分界线可靠性图,利用上述四张输出图进行可靠性分析并融合为最终的文本属性图M:
进一步地,所述步骤五具体为:
对步骤四输出的文本属性图进行轮廓发现即二值化和联通域提取,得到文本区域的坐标表示:
进一步地,利用所述文本区域的坐标,通过文本区域扩张相交及截断距离函数的方式生成文本真值图、实例分界线真值图、文本可靠性真值图及实例分界线可靠性真值图;
一种基于模糊语义建模的深度场景文本检测装置,包括一个或多个处理器,用于实现所述的基于模糊语义建模的深度场景文本检测方法。
一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现所述的基于模糊语义建模的深度场景文本检测方法。
相比于现有的场景文本检测方法,本发明具有以下有益效果:
首先,本发明的场景文本检测方法从冗余去除的角度解决自底向上的任意形态场景文本检测方法中由于文本内部同质化纹理与文本之间聚集性分布带来的相邻实例难以区分的问题,在自然图像中发现并探索文本和实例分界线这两种模糊语义;
其次,本发明提出了提出对模糊语义的边界进行可靠性建模并通过可靠性分析来解决语义边界上的竞争问题,判定最终的语义属性,从而获得清晰完整的实例边界,提升了场景文本检测的效果;
最后,本发明的场景文本检测方法作为一个简单直接的基于语义分割的轻量级框架,以联通域提取的方式一次性获得最终检测结果,不需要任何迭代式或其他复杂的后处理步骤,其效果超过了很多基于分割的多阶段的方法;
且本发明在场景理解、自动驾驶等场景中,具有良好的应用价值,例如,在自动驾驶任务中,场景中的文本包含大量帮助理解场景和辅助驾驶的信息,准确检测文本所在位置是利用场景文本信息的基础,本发明的场景文本检测方法能够快速准确地定位图像中的文本区域,为后续利用分析文本信息提供基础。
附图说明
图1为本发明一种基于模糊语义建模的深度场景文本检测方法的流程示意图;
图2a至图2c为本发明实施例中的原始图像;
图3为本发明的学习网络的框架图;
图4为本发明实施例中的语义分割框架对于自然场景图像中随机形态文本的检测效果图;
图5为本发明实施例的一种基于模糊语义建模的深度场景文本检测装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
在场景文本检测中,文本的几何属性多变且语义边界模糊,因此本发明基于卷积神经网络进行自底向上的像素级别文本区域发现,并建模文本及实例分界线的语义信息和可靠性,最后通过有效的训练策略来进行网络优化,具体提出一种基于模糊语义建模的深度场景文本检测方法和装置,在自然场景图像当中挖掘两种相互竞争的模糊边界语义类别,即文本和实例分界线,并通过像素级别的多标签分类和模糊语义的可靠性分析,从去除冗余的角度进行任意形状的场景文本目标检测;本发明使用一阶段深度学习分割框架,利用跨图像像素级别的焦点损失函数进行网络优化,其实现方法简便,灵活鲁棒,适用范围广。
更加详细的,如图1所示,所述的一种基于模糊语义建模的深度场景文本检测方法,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集。具体的,本发明在三个具有真值标注的数据集上实施,分别为:
SCUT-CTW1500数据集:该数据集包含1000张训练图像,500张测试图像;
TotalText数据集:该数据集包含1255张训练图像,300张测试图像;
ICDAR-ArT数据集:该数据集包含5603张训练图像,4563张测试图像。
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图。
该步骤具体实现方法包括:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建。
该步骤具体实现方法包括:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分、实例分界线语义类别得分、文本可靠性值以及实例分界线可靠性值;
(3.2)对上述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图。
该步骤具体实现方法包括:
基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图、实例分界线分割图S、实例分界线可靠性图,利用上述四张输出图进行可靠性分析并融合为最终的文本属性图M:
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果。
该步骤具体实现方法包括:
对步骤四输出的文本属性图进行轮廓发现即二值化和联通域提取,得到文本区域的坐标表示:
最后,利用文本区域的坐标信息,通过文本区域扩张相交及截断距离函数等方式生成文本、实例分界线、文本可靠性及实例分界线可靠性四种真值图,具体如下:
其中度量像素位置与其距离最近的语义边界之间的欧氏距离,是像素位置处的二值化标签,是截断阈值,同时也是归一化系数,本发明方法实验中=10。的绝对值代表位置处像素的可靠性,而正负号则用来区分语义的倾向性。
下面将上述方法应用于具体实施例中,以便本领域技术人员能够更好地理解本发明的效果。
本实施例的实现方法如前所述,不再详细阐述具体的步骤,下面仅针对案例数据展示其效果。本发明在三个具有真值标注的数据集上实施,分别为:
SCUT-CTW1500数据集:该数据集包含1000张训练图像,500张测试图像。
TotalText数据集:该数据集包含1255张训练图像,300张测试图像。
ICDAR-ArT数据集:该数据集包含5603张训练图像,4563张测试图像。
本实施例在每个数据集上分别进行实验,数据集中图像举例如图2a至图2c所示。
文本检测的主要流程如下:
1)通过全卷积网络及特征金字塔结构网络提取图像的多尺度特征图;
2)利用卷积操作和拼接操作对每个尺度特征图进行抽取和融合,得到全局特征图;
3)在全局特征图上构建四个预测分支,分别预测特征图上每个样本点的文本语义分类得分、实例分界线语义分类得分、文本语义可靠性、实例分界线语义可靠性;
4)联合优化语义分类和可靠性回归分支;
5)使用所述学习框架预测语义及可靠性信息,得到文本属性图;
6)对文本属性图进行二值化和联通域提取得到最终文本检测结果,整体学习网络框架如图3所示,对于自然场景图像中随机形态文本的检测效果图如图4所示。
为综合比较本方法的有效性,我们比较了其他较先进方法,并对本方法中提出的实例分界线分割、可靠性分析以及归一化焦点损失函数三项操作进行了有效性分析。本实施例检测结果的准确率(precision)、召回率(recall)及综合性能(F-measure)见表1至表3所示,其中F-measure表示准确率与召回率之间的平衡综合性能:。表中数据显示了本发明在precision,recall以及F-measure三个指标上的表现,与其他基于语义分割框架的方法和其他基于回归框架的方法相比,本方法在整体上有了进一步的提升。
表1为本实施例在SCUT-CTW1500数据集上各评价指标:
表2为本实施例在TotalText数据集上各评价指标:
表3为本实施例在ICDAR-ArT数据集上各评价指标:
表4为本实施例提出的实例分界线分割、可靠性分析及归一化焦点损失函数的有效性分析:
通过以上技术方案,本发明实施基于深度学习技术提供了一种基于模糊语义建模的深度场景文本检测方法。本发明可以在各种真实图像数据上挖掘文本及实例分界线语义信息及其语义可靠性,从而得到准确的检测结果。
与前述基于模糊语义建模的深度场景文本检测方法的实施例相对应,本发明还提供了一种基于模糊语义建模的深度场景文本检测装置的实施例。
参见图5,本发明实施例提供的一种基于模糊语义建模的深度场景文本检测装置,包括一个或多个处理器,用于实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。
本发明基于模糊语义建模的深度场景文本检测装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图5所示,为本发明基于模糊语义建模的深度场景文本检测装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图5所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于模糊语义建模的深度场景文本检测方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种基于模糊语义建模的深度场景文本检测方法,其特征在于,包括以下步骤:
步骤一,获取现有的用于训练场景文本检测的多组具有真值标注的图像数据集;
步骤二,利用全卷积特征提取网络以及特征金字塔网络对数据集中的图像进行特征学习与全局特征融合,得到融合的全局特征图;
步骤三,对融合的全局特征图进行像素级别语义分类,同时通过数值回归预测像素级别的语义可靠性,在全监督下进行多分支的联合优化,完成端到端联合学习框架的构建,具体包括以下子步骤:
(3.1)基于融合的全局特征图,建立4个结构一致的预测分支,每个预测分支包含三层卷积操作,对所述全局特征图上每个像素位置分别预测其文本语义类别得分、实例分界线语义类别得分、文本可靠性值以及实例分界线可靠性值;
(3.2)对由所述预测分支生成的文本分割图、实例分界线分割图、文本可靠性图以及实例分界线可靠性图进行学习优化,从而建立端到端联合学习框架,框架总体损失函数为:
步骤四,使用端到端联合学习框架,预测图像中的模糊语义信息,并利用可靠性分析及融合获得文本属性图,具体为:基于由步骤一到步骤三建立的端到端联合学习框架,输入待预测图像,通过最小化损失函数学习得到文本分割图T、文本可靠性图、实例分界线分割图S、实例分界线可靠性图,后进行可靠性分析并融合为最终的文本属性图M:
步骤五,对获得的文本属性图进行二值化和联通域提取,得到最终的文本检测结果,具体为:对步骤四输出的文本属性图进行轮廓发现,即二值化和联通域提取,得到文本区域的坐标表示:
2.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法,其特征在于,所述步骤二具体包括以下子步骤:
(2.1)利用全卷积网络及特征金字塔网络提取每张图像在不同尺度上的深度特征;
(2.2)利用卷积操作和拼接操作将不同尺度上的深度特征图进行抽取和融合,得到融合的全局特征图。
3.如权利要求1所述的一种基于模糊语义建模的深度场景文本检测方法,其特征在于,利用所述文本区域的坐标,通过文本区域扩张相交及截断距离函数的方式生成文本真值图、实例分界线真值图、文本可靠性真值图及实例分界线可靠性真值图;
4.一种基于模糊语义建模的深度场景文本检测装置,其特征在于,包括一个或多个处理器,用于实现权利要求1-3中任一项所述的基于模糊语义建模的深度场景文本检测方法。
5.一种计算机可读存储介质,其特征在于,其上存储有程序,该程序被处理器执行时,实现权利要求1-3中任一项所述的基于模糊语义建模的深度场景文本检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210882622.6A CN114972947B (zh) | 2022-07-26 | 2022-07-26 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210882622.6A CN114972947B (zh) | 2022-07-26 | 2022-07-26 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114972947A CN114972947A (zh) | 2022-08-30 |
CN114972947B true CN114972947B (zh) | 2022-12-06 |
Family
ID=82968948
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210882622.6A Active CN114972947B (zh) | 2022-07-26 | 2022-07-26 | 一种基于模糊语义建模的深度场景文本检测方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114972947B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116129456B (zh) * | 2023-02-09 | 2023-07-25 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及系统 |
Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN110738609A (zh) * | 2019-09-11 | 2020-01-31 | 北京大学 | 一种去除图像摩尔纹的方法及装置 |
CN111210518A (zh) * | 2020-01-15 | 2020-05-29 | 西安交通大学 | 基于视觉融合地标的拓扑地图生成方法 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112950645A (zh) * | 2021-03-24 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种基于多任务深度学习的图像语义分割方法 |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113343707A (zh) * | 2021-06-04 | 2021-09-03 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
CN113591719A (zh) * | 2021-08-02 | 2021-11-02 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN114202671A (zh) * | 2021-11-17 | 2022-03-18 | 桂林理工大学 | 一种图像预测优化处理方法及装置 |
CN114255464A (zh) * | 2021-12-14 | 2022-03-29 | 南京信息工程大学 | 基于craft和scrn-seed框架的自然场景文字检测识别方法 |
CN114399497A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 文本图像质量检测方法、装置、计算机设备及存储介质 |
WO2022098203A1 (en) * | 2020-11-09 | 2022-05-12 | Samsung Electronics Co., Ltd. | Method and apparatus for image segmentation |
CN114495103A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备和介质 |
CN114494698A (zh) * | 2022-01-27 | 2022-05-13 | 北京邮电大学 | 一种基于边缘预测的传统文化图像语义分割方法 |
CN114565913A (zh) * | 2022-03-03 | 2022-05-31 | 广州华多网络科技有限公司 | 文本识别方法及其装置、设备、介质、产品 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11366968B2 (en) * | 2019-07-29 | 2022-06-21 | Intuit Inc. | Region proposal networks for automated bounding box detection and text segmentation |
CN112926372B (zh) * | 2020-08-22 | 2023-03-10 | 清华大学 | 基于序列变形的场景文字检测方法及系统 |
CN114691912A (zh) * | 2020-12-25 | 2022-07-01 | 日本电气株式会社 | 图像处理的方法、设备和计算机可读存储介质 |
CN112287931B (zh) * | 2020-12-30 | 2021-03-19 | 浙江万里学院 | 一种场景文本检测方法及系统 |
-
2022
- 2022-07-26 CN CN202210882622.6A patent/CN114972947B/zh active Active
Patent Citations (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108288088A (zh) * | 2018-01-17 | 2018-07-17 | 浙江大学 | 一种基于端到端全卷积神经网络的场景文本检测方法 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN110738609A (zh) * | 2019-09-11 | 2020-01-31 | 北京大学 | 一种去除图像摩尔纹的方法及装置 |
CN111210518A (zh) * | 2020-01-15 | 2020-05-29 | 西安交通大学 | 基于视觉融合地标的拓扑地图生成方法 |
CN111931763A (zh) * | 2020-06-09 | 2020-11-13 | 浙江大学 | 一种基于随机形态边缘几何建模的深度场景文本检测方法 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
WO2022098203A1 (en) * | 2020-11-09 | 2022-05-12 | Samsung Electronics Co., Ltd. | Method and apparatus for image segmentation |
CN112966697A (zh) * | 2021-03-17 | 2021-06-15 | 西安电子科技大学广州研究院 | 基于场景语义的目标检测方法、装置、设备及存储介质 |
CN112950645A (zh) * | 2021-03-24 | 2021-06-11 | 中国人民解放军国防科技大学 | 一种基于多任务深度学习的图像语义分割方法 |
CN112966691A (zh) * | 2021-04-14 | 2021-06-15 | 重庆邮电大学 | 基于语义分割的多尺度文本检测方法、装置及电子设备 |
CN113343707A (zh) * | 2021-06-04 | 2021-09-03 | 北京邮电大学 | 一种基于鲁棒性表征学习的场景文本识别方法 |
CN113591719A (zh) * | 2021-08-02 | 2021-11-02 | 南京大学 | 一种自然场景任意形状文本检测方法、装置和训练方法 |
CN114202671A (zh) * | 2021-11-17 | 2022-03-18 | 桂林理工大学 | 一种图像预测优化处理方法及装置 |
CN114255464A (zh) * | 2021-12-14 | 2022-03-29 | 南京信息工程大学 | 基于craft和scrn-seed框架的自然场景文字检测识别方法 |
CN114399497A (zh) * | 2022-01-19 | 2022-04-26 | 中国平安人寿保险股份有限公司 | 文本图像质量检测方法、装置、计算机设备及存储介质 |
CN114494698A (zh) * | 2022-01-27 | 2022-05-13 | 北京邮电大学 | 一种基于边缘预测的传统文化图像语义分割方法 |
CN114495103A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 文本识别方法、装置、电子设备和介质 |
CN114565913A (zh) * | 2022-03-03 | 2022-05-31 | 广州华多网络科技有限公司 | 文本识别方法及其装置、设备、介质、产品 |
Non-Patent Citations (4)
Title |
---|
Fuzzy Semantics for Arbitrary-shaped Scene Text Detection;Fangfang Wang 等;《IEEE Transactions on Image Processing》;20220830;全文 * |
Proposing a Semantic Analysis based Sanskrit Compiler by mapping Sanskrit"s linguistic features with Compiler phases;Akshay Chavan 等;《2021 Second International Conference on Electronics and Sustainable Communication Systems (ICESC)》;20211231;全文 * |
Semantic Genes and the Formalized Representation of Lexical Meaning;Dan Hu;《2010 International Conference on Asian Language Processing》;20101231;全文 * |
深度卷积神经网络图像语义分割研究进展;青晨等;《中国图象图形学报》;20200616(第06期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN114972947A (zh) | 2022-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | A cascaded R-CNN with multiscale attention and imbalanced samples for traffic sign detection | |
Lee et al. | Simultaneous traffic sign detection and boundary estimation using convolutional neural network | |
US20200160124A1 (en) | Fine-grained image recognition | |
CN108734210B (zh) | 一种基于跨模态多尺度特征融合的对象检测方法 | |
CN107833213B (zh) | 一种基于伪真值自适应法的弱监督物体检测方法 | |
CN111091105A (zh) | 基于新的边框回归损失函数的遥感图像目标检测方法 | |
CN109960742B (zh) | 局部信息的搜索方法及装置 | |
CN107798725B (zh) | 基于Android的二维住房户型识别和三维呈现方法 | |
CN111523463B (zh) | 基于匹配-回归网络的目标跟踪方法及训练方法 | |
CN113239818B (zh) | 基于分割和图卷积神经网络的表格跨模态信息提取方法 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
JP2023527615A (ja) | 目標対象検出モデルのトレーニング方法、目標対象検出方法、機器、電子機器、記憶媒体及びコンピュータプログラム | |
CN114972947B (zh) | 一种基于模糊语义建模的深度场景文本检测方法和装置 | |
CN111415373A (zh) | 基于孪生卷积网络的目标跟踪与分割方法、系统及介质 | |
CN114463603B (zh) | 图像检测模型的训练方法、装置、电子设备及存储介质 | |
JP2019185787A (ja) | 地理的地域内のコンテナのリモート決定 | |
Cao et al. | Multi angle rotation object detection for remote sensing image based on modified feature pyramid networks | |
CN113487610B (zh) | 疱疹图像识别方法、装置、计算机设备和存储介质 | |
CN114168768A (zh) | 图像检索方法及相关设备 | |
CN115115825A (zh) | 图像中的对象检测方法、装置、计算机设备和存储介质 | |
Park et al. | Estimating the camera direction of a geotagged image using reference images | |
CN113704276A (zh) | 地图更新方法、装置、电子设备及计算机可读存储介质 | |
CN115345895B (zh) | 用于视觉检测的图像分割方法、装置、计算机设备及介质 | |
Zhou et al. | Self-supervised saliency estimation for pixel embedding in road detection | |
Jia et al. | Sample generation of semi‐automatic pavement crack labelling and robustness in detection of pavement diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |