CN111753714B - 基于字符分割的多方向自然场景文本检测方法 - Google Patents

基于字符分割的多方向自然场景文本检测方法 Download PDF

Info

Publication number
CN111753714B
CN111753714B CN202010579227.1A CN202010579227A CN111753714B CN 111753714 B CN111753714 B CN 111753714B CN 202010579227 A CN202010579227 A CN 202010579227A CN 111753714 B CN111753714 B CN 111753714B
Authority
CN
China
Prior art keywords
convolution
natural scene
character
character segmentation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010579227.1A
Other languages
English (en)
Other versions
CN111753714A (zh
Inventor
刘姝
邹北骥
杨文君
姜灵子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202010579227.1A priority Critical patent/CN111753714B/zh
Publication of CN111753714A publication Critical patent/CN111753714A/zh
Application granted granted Critical
Publication of CN111753714B publication Critical patent/CN111753714B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)

Abstract

本发明公开了一种基于字符分割的多方向自然场景文本检测方法,包括获取训练数据集并标定;建立基于字符分割的多方向自然场景文本检测初步模型;用标定的训练数据对基于字符分割的多方向自然场景文本检测初步模型进行训练得到基于字符分割的多方向自然场景文本检测模型;采用基于字符分割的多方向自然场景文本检测模型对自然场景的文本进行检测。本发明采用基于实例分割的方法分割文字字符实例,因此可以不必考虑文字的排列方向;同时,本方法结合了双向长短期记忆网络提取字符的上下文信息,预测字符之间的亲和度,从而可以更准确地将字符组合为文本行;因此,本发明方法可靠性高、实用性好且准确率较高。

Description

基于字符分割的多方向自然场景文本检测方法
技术领域
本发明属于图像处理领域,具体涉及一种基于字符分割的多方向自然场景文本检测方法。
背景技术
随着经济技术的发展,自然场景的文本检测也开始逐步应用于人们的生产和生活,在无人驾驶、文档管理、视觉辅助等领域发挥了巨大的作用。
然而,从自然场景图像中定位文字区域是一项具有挑战性的任务。场景中的文字常常表现出不同的尺度,完整性和紧密性等特征,并且通常以随机方向排列,如水平,垂直和倾斜等,导致常规算法在检测文字的同时还需要考虑其排列方向。
日趋流行的深度学习技术已经引入到自然场景多方向文本检测研究中,并且获得了较好的性能。这些方法大致可以分为以下三类:第一类是基于锚点框回归的方法,研究者们通过手工设计的多尺度锚点框以回归多方向排列的场景文字。此类方法能够有效地解决单词间隔较长以及图像对比度低的问题,缺点是大量的手工设计是不可避免的。第二类是基于实例分割的方法,即检测多方向的文字时,直接提取文字字符实例而不用考虑其排列方向,从而快速准确地提取图像中的文字。第三类是无法划分至前两类的其它方法,如笔划宽度转换算法、骨架提取算法、最大极值区域算法等,均取得了不错的文本检测性能。
目前,基于实例分割的方法由于无需考虑文字字符的排列方向,因此受到大多数研究者们的青睐。然而,基于实例分割的方法不能很好地区分不同的文字实例,即可能会将多个彼此非常接近的文字实例误认为同一个文字实例。
发明内容
本发明的目的在于提供一种能够解决多方向排列文字检测和文字实例误分问题,而且可靠性高、实用性好、准确率较高的基于字符分割的多方向自然场景文本检测方法。
本发明提供的这种解决多方向排列文字检测和文字实例误分的问题,包括如下步骤:
S1.获取训练数据集,并对训练数据集进行标定;
S2.建立基于字符分割的多方向自然场景文本检测初步模型;所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型;
S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型;
S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型,对自然场景的文本进行检测。
步骤S1所述的获取训练数据集,并对训练数据集进行标定,具体为在公共数据集ICDAR2013与ICDAR2015上进行标定;标定字符和字符间的亲和度;在各字符中心的中点为字符间亲和度的中点,宽高分别为两字符宽高之和的一半。
步骤S2所述的基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型,具体为金字塔网络框架的第一阶段到第五阶段的卷积层均采用ResNet50网络,在每一个阶段均设置一个上采样操作;同时在金字塔网络后,再连接一个双向长短期记忆网络。
步骤S3所述的用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型,具体为采用如下步骤进行训练并得到检测模型:
A.将训练数据中的原始图像分为RGB三个通道,并输入到金字塔网络框架中;
B.将原始图像输入到第一卷积层后得到第一卷积结果;将第一卷积结果输入到第二卷积层得到第二卷积结果;将第二卷积结果输入到第三卷积层得到第三卷积结果;将第三卷积结果输入到第四卷积层得到第四卷积结果;将第四卷积结果输入到第五卷积层得到第五卷积结果;
C.将第五卷积结果与第五卷积结果自身按位相加后,再进行一次上采样得到第五卷积图像;将第五卷积图像与第四卷积结果按位相加后,再进行一次上采样得到第四卷积图像;将第四卷积图像与第三卷积结果按位相加后,再进行一次上采样得到第三卷积图像;将第三卷积图像与第二卷积结果按位相加后,再进行一次上采样得到第二卷积图像;
D.将步骤C得到的第二卷积图像输入到全连接层中,经过实例平衡交叉熵损失函数后,得到文字字符实例预测概率图;
E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中,再经过连接损失函数后,得到字符间亲和度的特征图;
F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加,得到文本行预测概率图;
G.将步骤F中得到的文本行预测概率图中,概率大于设定值的区域设定为文本行,并输出最终的预测结果,从而得到基于字符分割的多方向自然场景文本检测模型。
步骤D所述的实例平衡交叉熵损失函数,具体为采用如下算式作为实例平衡交叉熵损失函数:
Lclass=Lcross-entropy
式中Lcross-entropy为交叉熵损失。
步骤E所述的连接损失函数,具体为采用如下算式作为连接损失函数:
式中为标定的置信度;SP为预测的置信度;R(c)表示标定的字符c所在的区域;P表示当前像素。
步骤S3所述的训练,具体为模型预训练时,初始学习率为3×10-5,并且每2万次迭代学习率下降0.6×10-5,批处理大小设置为128,所有的训练图片均归一化为768×768大小;模型在训练5万步后,再进行真实场景数据进行训练和微调。
本发明提供的这种基于字符分割的多方向自然场景文本检测方法,采用基于实例分割的方法分割文字字符实例,因此可以不必考虑文字的排列方向;同时,本方法结合了双向长短期记忆网络提取字符的上下文信息,预测字符之间的亲和度,从而可以更准确地将字符组合为文本行;因此,本发明方法可靠性高、实用性好且准确率较高。
附图说明
图1为本发明方法的方法流程示意图。
图2为本发明方法的字符间亲和度标定示意图。
图3为本发明方法的金字塔网络结构示意图。
图4为本发明方法的文本实例分割示意图。
图5为本发明方法的字符间亲和度预测示意图。
图6为本发明方法的文本实例分割模型在不同训练阶段的测试结果示意图。
图7为本发明方法的字符间亲和度预测模型在不同训练阶段的测试结果示意图。
图8为本发明方法在ICDAR2013与ICDAR2015数据集上的测试结果示意图。
具体实施方式
如图1所示为本发明方法的方法流程示意图:本发明提供的这种基于字符分割的多方向自然场景文本检测方法,包括如下步骤:
S1.获取训练数据集,并对训练数据集进行标定;具体为在公共数据集ICDAR2013与ICDAR2015上进行标定;标定字符和字符间的亲和度;在各字符中心的中点为字符间亲和度的中点,宽高分别为两字符宽高之和的一半;
如图2所示,原标定图中矩形框中的区域为原标定字符区域,通过计算后,可以得到右边矩形填充区域为字符间亲和度区域;
S2.建立基于字符分割的多方向自然场景文本检测初步模型;所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型;具体为金字塔网络框架的第一阶段到第五阶段的卷积层均采用ResNet50网络,在每一个阶段均设置一个上采样操作;同时在金字塔网络后,再连接一个双向长短期记忆网络;模型结构如图3所示;
S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型;具体为采用如下步骤进行训练并得到检测模型:
A.将训练数据中的原始图像分为RGB三个通道,并输入到金字塔网络框架中;
B.将原始图像输入到第一卷积层后得到第一卷积结果;将第一卷积结果输入到第二卷积层得到第二卷积结果;将第二卷积结果输入到第三卷积层得到第三卷积结果;将第三卷积结果输入到第四卷积层得到第四卷积结果;将第四卷积结果输入到第五卷积层得到第五卷积结果;
C.将第五卷积结果与第五卷积结果自身按位相加后,再进行一次上采样得到第五卷积图像;将第五卷积图像与第四卷积结果按位相加后,再进行一次上采样得到第四卷积图像;将第四卷积图像与第三卷积结果按位相加后,再进行一次上采样得到第三卷积图像;将第三卷积图像与第二卷积结果按位相加后,再进行一次上采样得到第二卷积图像;
如图3所示:一幅h*w*3尺寸的彩色图输入到ResNet50网络中,经过第一卷积阶段后,图像变成了h/2*w/2*64大小;在第二卷积阶段后,图像变成了h/4*w/4*128大小;在第三卷积阶段后,图像变成了h/8*w/8*256大小;在第四卷积阶段后,图像变成了h/16*w/16*512大小;在第五卷积阶段后,图像变成了h/32*w/32*512大小;在第五卷积阶段后,将获得的特征图与自身进行按位相加操作,得到的融合特征图结果再进行一次上采样操作,图像变成了h/16*w/16*256大小;接下来再与第四卷积阶段后的特征图进行按位相加操作,得到的融合特征图结果再进行一次上采样操作,图像变成了h/8*w/8*128大小;接下来再与第三卷积阶段后的特征图进行按位相加操作,得到的融合特征图结果再进行一次上采样操作,图像变成了h/4*w/4*64大小;接下来再与第二卷积阶段后的特征图进行按位相加操作,得到的融合特征图结果再进行一次上采样操作,图像变成了h/2*w/2*32大小;
D.将步骤C得到的第二卷积图像输入到全连接层中,经过实例平衡交叉熵损失函数后,得到文字字符实例预测概率图;具体为采用如下算式作为实例平衡交叉熵损失函数:
Lclass=Lcross-entropy
式中Lcross-entropy为交叉熵损失;
如图4所示为本发明方法所采用的金字塔网络分割出的字符实例;
E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中,再经过连接损失函数后,得到字符间亲和度的特征图;具体为采用如下算式作为连接损失函数:
式中为标定的置信度;SP为预测的置信度;R(c)表示标定的字符c所在的区域;P表示当前像素;
如图5所示为本发明方法所采用的双向长短期记忆网络预测的亲和度;
F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加,得到文本行预测概率图;
G.将步骤F中得到的文本行预测概率图中,概率大于设定值(优选为0.7)的区域设定为文本行,并输出最终的预测结果,从而得到基于字符分割的多方向自然场景文本检测模型;
同时,模型预训练时,初始学习率为3×10-5,并且每2万次迭代学习率下降0.6×10-5,批处理大小设置为128,所有的训练图片均归一化为768×768大小;模型在训练5万步后,再进行真实场景数据进行训练和微调;
模型预训练完成后,需在真实场景数据集上进行微调训练,如图6所示为文本实例分割在不同训练阶段的测试结果,图7为字符间亲和度预测在不同训练阶段的测试结果;其中Epoch 1、Epoch 10和Epoch 190分别表示训练模型使用训练集中的全部样本训练1次、10次和190次。
S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型,对自然场景的文本进行检测,如图8所示为训练模型在ICDAR2013与ICDAR2015两个公共数据集上进行测试的结果。

Claims (5)

1.一种基于字符分割的多方向自然场景文本检测方法,包括如下步骤:
S1.获取训练数据集,并对训练数据集进行标定;
S2.建立基于字符分割的多方向自然场景文本检测初步模型;所述基于字符分割的多方向自然场景文本检测初步模型为金字塔网络框架+双向长短期记忆网络的检测模型;具体为金字塔网络框架的第一阶段到第五阶段的卷积层为ResNet50网络,在每一个阶段均设置一个上采样操作;同时在金字塔网络后,再连接一个双向长短期记忆网络;
S3.用步骤S1标定的训练数据对步骤S2建立的基于字符分割的多方向自然场景文本检测初步模型进行训练,从而得到基于字符分割的多方向自然场景文本检测模型;具体为采用如下步骤进行训练并得到检测模型:
A.将训练数据中的原始图像分为RGB三个通道,并输入到金字塔网络框架中;
B.将原始图像输入到第一卷积层后得到第一卷积结果;将第一卷积结果输入到第二卷积层得到第二卷积结果;将第二卷积结果输入到第三卷积层得到第三卷积结果;将第三卷积结果输入到第四卷积层得到第四卷积结果;将第四卷积结果输入到第五卷积层得到第五卷积结果;
C.将第五卷积结果与第五卷积结果自身按位相加后,再进行一次上采样得到第五卷积图像;将第五卷积图像与第四卷积结果按位相加后,再进行一次上采样得到第四卷积图像;将第四卷积图像与第三卷积结果按位相加后,再进行一次上采样得到第三卷积图像;将第三卷积图像与第二卷积结果按位相加后,再进行一次上采样得到第二卷积图像;
D.将步骤C得到的第二卷积图像输入到全连接层中,经过实例平衡交叉熵损失函数后,得到文字字符实例预测概率图;
E.将步骤C得到的第二卷积图像输入到双向长短期记忆网络中,再经过连接损失函数后,得到字符间亲和度的特征图;
F.将步骤E得到的字符间亲和度的特征图和步骤D得到的文字字符实例预测概率图相加,得到文本行预测概率图;
G.将步骤F中得到的文本行预测概率图中,概率大于设定值的区域设定为文本行,并输出最终的预测结果,从而得到基于字符分割的多方向自然场景文本检测模型;
S4.采用步骤S3得到的基于字符分割的多方向自然场景文本检测模型,对自然场景的文本进行检测。
2.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S1所述的获取训练数据集,并对训练数据集进行标定,具体为在公共数据集ICDAR2013与ICDAR2015上进行标定;标定字符和字符间的亲和度;在各字符中心的中点为字符间亲和度的中点,宽高分别为两字符宽高之和的一半。
3.根据权利要求1所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤D所述的实例平衡交叉熵损失函数,具体为采用如下算式作为实例平衡交叉熵损失函数:
Lclass=Lcross-entropy
式中Lcross-entropy为交叉熵损失。
4.根据权利要求3所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤E所述的连接损失函数,具体为采用如下算式作为连接损失函数:
式中为标定的置信度;SP为预测的置信度;R(c)表示标定的字符c所在的区域;P表示当前像素。
5.根据权利要求4所述的基于字符分割的多方向自然场景文本检测方法,其特征在于步骤S3所述的训练,具体为模型预训练时,初始学习率为3×10-5,并且每2万次迭代学习率下降0.6×10-5,批处理大小设置为128,所有的训练图片均归一化为768×768大小;模型在训练5万步后,再进行真实场景数据进行训练和微调。
CN202010579227.1A 2020-06-23 2020-06-23 基于字符分割的多方向自然场景文本检测方法 Active CN111753714B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010579227.1A CN111753714B (zh) 2020-06-23 2020-06-23 基于字符分割的多方向自然场景文本检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010579227.1A CN111753714B (zh) 2020-06-23 2020-06-23 基于字符分割的多方向自然场景文本检测方法

Publications (2)

Publication Number Publication Date
CN111753714A CN111753714A (zh) 2020-10-09
CN111753714B true CN111753714B (zh) 2023-09-01

Family

ID=72676679

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010579227.1A Active CN111753714B (zh) 2020-06-23 2020-06-23 基于字符分割的多方向自然场景文本检测方法

Country Status (1)

Country Link
CN (1) CN111753714B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113096138B (zh) * 2021-04-13 2023-04-28 西安电子科技大学 选择性像素亲和学习的弱监督语义图像分割方法
CN117556806B (zh) * 2023-12-28 2024-03-22 大连云智信科技发展有限公司 一种中医证候名细粒度分割方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549893A (zh) * 2018-04-04 2018-09-18 华中科技大学 一种任意形状的场景文本端到端识别方法
WO2019192397A1 (zh) * 2018-04-04 2019-10-10 华中科技大学 一种任意形状的场景文本端到端识别方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN110135248A (zh) * 2019-04-03 2019-08-16 华南理工大学 一种基于深度学习的自然场景文本检测方法
CN110837835A (zh) * 2019-10-29 2020-02-25 华中科技大学 一种基于边界点检测的场景文本端到端识别方法
CN111062386A (zh) * 2019-11-28 2020-04-24 大连交通大学 基于深度金字塔注意力和特征融合的自然场景文本检测方法
CN111027613A (zh) * 2019-12-04 2020-04-17 浙江省北大信息技术高等研究院 一种场景文字识别方法、装置、存储介质及终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向自然场景图像的三阶段文字识别框架;邹北骥 等;《浙江大学学报(理学版)》;第48卷(第1期);1-8 *

Also Published As

Publication number Publication date
CN111753714A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
CN113591546B (zh) 语义增强型场景文本识别方法及装置
CN112699937B (zh) 基于特征引导网络的图像分类与分割的装置、方法、设备及介质
CN113052210A (zh) 一种基于卷积神经网络的快速低光照目标检测方法
CN108765279A (zh) 一种面向监控场景的行人人脸超分辨率重建方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN112949783A (zh) 一种基于改进U-Net神经网络的道路裂缝检测方法
CN113283356B (zh) 多级注意力尺度感知人群计数方法
CN111062381B (zh) 一种基于深度学习的车牌位置检测方法
CN110390340A (zh) 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN111753714B (zh) 基于字符分割的多方向自然场景文本检测方法
CN111461129B (zh) 一种基于上下文先验的场景分割方法和系统
CN115131797A (zh) 一种基于特征增强金字塔网络的场景文本检测方法
CN112070174A (zh) 一种基于深度学习的自然场景下文本检测方法
CN108038486A (zh) 一种文字检测方法
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
CN116630704A (zh) 一种基于注意力增强和密集多尺度的地物分类网络模型
CN111739037A (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN114581762A (zh) 一种基于多尺度条形池化和金字塔池化的道路提取方法
WO2020093210A1 (zh) 基于上下文信息指导的场景分割方法和系统
Zheng et al. Transformer-based hierarchical dynamic decoders for salient object detection
CN113642477A (zh) 一种字符识别方法、装置、设备及可读存储介质
CN111738255A (zh) 一种基于深度学习的路牌文本检测与识别算法
CN109583584B (zh) 可使具有全连接层的cnn接受不定形状输入的方法及系统
CN114694133B (zh) 一种基于图像处理与深度学习相结合的文本识别方法
CN111126173A (zh) 一种高精度人脸检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant