CN110175613B - 基于多尺度特征和编解码器模型的街景图像语义分割方法 - Google Patents

基于多尺度特征和编解码器模型的街景图像语义分割方法 Download PDF

Info

Publication number
CN110175613B
CN110175613B CN201910475662.7A CN201910475662A CN110175613B CN 110175613 B CN110175613 B CN 110175613B CN 201910475662 A CN201910475662 A CN 201910475662A CN 110175613 B CN110175613 B CN 110175613B
Authority
CN
China
Prior art keywords
feature map
scale
feature
semantic segmentation
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910475662.7A
Other languages
English (en)
Other versions
CN110175613A (zh
Inventor
龚声蓉
尚叶欣
钟珊
应文豪
潘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changshu Institute of Technology
Original Assignee
Changshu Institute of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changshu Institute of Technology filed Critical Changshu Institute of Technology
Priority to CN201910475662.7A priority Critical patent/CN110175613B/zh
Publication of CN110175613A publication Critical patent/CN110175613A/zh
Application granted granted Critical
Publication of CN110175613B publication Critical patent/CN110175613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于多尺度特征和编解码器模型的街景图像语义分割方法,包括以下步骤:原始图像输入深度卷积神经网络提取初始特征图;将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图;第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图;第二特征图通过然后利用上采样操作和跳跃连接还原为原始图像大小得到最终的预测图;所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块输出特征图由通过1×1卷积、通过四个扩张率不同的atrous卷积以及通过平均池化操作提取的六种尺度的特征图级联后输出。本发明方法能够提高语义分割结果的精度,对目标边界的像素进行更准确的分类。

Description

基于多尺度特征和编解码器模型的街景图像语义分割方法
技术领域
本发明涉及一种图像语义分割方法,特别是涉及一种基于多尺度特征和编解码器模型的街景图像语义分割方法。
背景技术
图像分割是图像处理领域中常见的概念,它的目的是将每个像素区域划分给不同的类别。但和语义分割根本的区别在于,图像分割并不知道分割出来的各个类是什么,即只需要分割出不同的区域,大多只是利用像素之间的相似尺度进行划分。而语义分割则是在分割出区域的基础上,对每个区域所属类别进行分类,即实现对一幅图片中的每一个像素点分类。
目前图像语义分割研究都是基于FCN(全卷积神经网络)这种结构,针对FCN存在的问题来进行优化。尽管语义分割的方法不同,但基本研究方向是以下两个方面:第一种,基于特征提取的改进,这类方法通过利用不同的特征提取方法,获取更详细的信息以实现更精确的分类;第二种,基于后处理方法的改进,这类方法通过将前面分类的不准确的预测进行一些后处理操作,使得目标边界更加平滑以获得更好的结果。
针对目前的语义分割方法,当前主要存在两个问题。
1、如何获取有用的多尺度特征。尽管atrous卷积(或dilated卷积)能够在增大感受野的同时,不降低特征图的分辨率,但是简单的将atrous卷积(或dilated卷积)得到的特征图生成一个语义掩码仍然不能很好的提升语义分割的精度。因为,在atrous卷积特征图上的所有神经元拥有同样大小的感受野,这就意味着整个高层语义信息的获取过程只利用了单一尺度的特征。实验表明,多尺度的语义信息有助于解决有歧义的例子并且能够生成比较鲁棒的分类结果。何凯明等人提出了一种空间金字塔池化模块(Spatial PyramidPooling),通过获得多尺度的特征图来提升分类效果。为了获得多尺度的语义信息,L.-C.Chen等人提出了一种新的空间金字塔池化方法称为Atrous Spatial Pyramid Pooling(ASPP)。ASPP通过将不同atrous率大小的atrous卷积生成的特征图级联在一起,这样就能获得具有不同大小感受野的特征图了,最终获得更好的鲁棒性。但是,这种方法仍然还有缺陷。在自动驾驶中,分割的目标在不同的图片中存在着很大的尺度变化,例如行人、车辆。
2、目标边界的像素分类问题。在街道场景中,当几个行人并排走的时候,由于行人之间靠的很近,所以很难获取各个行人之间的边界。因为行人的移动方向对于自动驾驶的决策很重要,所以语义分割模型需要获得一个较好的目标边界。虽然目前的一些编解码器的语义分割模型,能逐渐恢复较好的目标边界。但是由于一些模型的编码器只获取了单一尺度的高层语义信息,所以在目标边界的像素分类不够准确,最终的语义效果的精度不够高。
发明内容
针对上述现有技术缺陷,本发明的任务在于提供一种基于多尺度特征和编解码器模型的街景图像语义分割方法,通过编码器提取多尺度特征获得较好的分类效果,再利用解码器逐渐将高层特征图还原成与输入图像同样大小的预测图,提高语义分割结果的精度。
本发明技术方案是这样的:一种基于多尺度特征和编解码器模型的街景图像语义分割方法,包括以下步骤:S1、原始图像输入深度卷积神经网络提取初始特征图;S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图;S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图;S4、由所述第二特征图通过1×1卷积和第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图;S5、所述第一还原图通过第二上采样层与所述初始特征图1×1卷积后相连接得到第二还原图;S6、所述第二还原图通过3×3卷积和第三上采样层还原为原始图像大小得到最终的预测图;所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为:将输入的特征图分别通过1×1卷积提取第一种尺度的特征图,通过四个扩张率不同的atrous卷积提取四种不同尺度下的特征图,通过平均池化操作提取最后一种尺度的特征图,共获得六种尺度的特征图;将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。
进一步地,所述深度卷积神经网络由池化层和卷积层组合而成的。
进一步地,所述四个扩张率不同的atrous卷积的扩张率分别为3、6、12、18。
进一步地,所述第二多尺度空间金字塔池化模块输出第二特征图的步长为16。
进一步地,所述第一上采样层的放大倍数为2,所述第二上采样层的放大倍数为2,所述第三上采样层的放大倍数为4。
本发明与现有技术相比的优点在于:第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块通过将几个atrous卷积后的高层特征和低层的特征级联生成一个高层特征图。高层特征通过利用不同扩张率进行atrous卷积获得不同尺度下的特征,这些特征包含了较多的语义信息。低层的特征保留了大部分的位置信息,因此改善了对于目标边界像素的分类;以去除了全连接层的卷积神经网络和第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块作为编码器,然后利用上采样操作和跳跃连接作为解码器,逐渐对目标边界的像素点作分类,生成最终的预测图,进一步提高语义分割结果的精度,对目标边界的像素进行更准确的分类。
附图说明
图1为本发明方法示意图。
图2为多尺度空间金字塔池化模块结构示意图。
具体实施方式
下面结合实施例对本发明作进一步说明,但不作为对本发明的限定。
请结合图1所示,本实施例涉及的基于多尺度特征和编解码器模型的街景图像语义分割方法,包括以下步骤:S1、原始图像输入由池化层和卷积层组合而成的深度卷积神经网络提取初始特征图;S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图;S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图,本发明的最终输出步长为16,即第二特征图是原始图像的1/16;S4、由第二特征图通过1×1卷积和放大倍数为2的第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图,得到原始图像的1/8;S5、所述第一还原图通过放大倍数为2的第二上采样层与初始特征图1×1卷积后相连接得到第二还原图,得到原始图像的1/4;S6、所述第二还原图通过3×3卷积和放大倍数为4的第三上采样层还原为原始图像大小得到最终的预测图。
上述步骤中,由池化层和卷积层组合而成的深度卷积神经网络、第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块构成编解码器模型,对该模型的训练过程如下:
步骤1:先将所有数据集中的训练集和验证集图像处理成Tensorflow需要的tfrecord格式的文件。训练时,先对训练数据集中的图像进行预处理,将图像裁剪为固定尺寸。
步骤2:将预训练好的深度卷积神经网络的全连接层去掉,保留部分训练好的超参数作为初始值。输入训练数据进行训练,图像经过深度卷积神经网络获得初始特征图;将初始特征图作为输入,经过第一多尺度空间金字塔池化模块处理获得含有多尺度信息的第二特征图;将第二特征图输入进第二多尺度空间金字塔池化模块获得最终的第三特征图;再通过解码器逐步还原成原图像尺寸大小的预测图。
步骤3:在最后的输出前设置平均平方差损失作为模型的损失函数,根据损失函数使用随机梯度下降算法进行误差反向传播,更新模型参数,得到训练好的语义分割的编解码器模型。
请结合图2所示,第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为:将输入的特征图分别通过1×1卷积提取第一种尺度的特征图,通过扩张率分别为3、6、12、18的atrous卷积提取四种不同尺度下的特征图,通过平均池化操作提取最后一种尺度的特征图,共获得六种尺度的特征图;将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。该方法在ASPP基础上添加标准的1×1卷积和池化操作,1×1卷积输出特征图保留了大部分原始对象的位置信息。而添加池化操作能够获得低级特征图,其不仅包含更高级别的语义信息,还包含部分的位置信息。由于ASPP中的感受野是金字塔形的,每个特征图包含不同的尺度信息,但最终每个金字塔层输出的特征图的大小是相同的。因此,通过组合上述三个部分,可以得到具有多个维度和更多像素的特征图。
对本发明进行论证实验,使用数据集是:Cityscapes
Cityscapes是由奔驰主推,提供无人驾驶环境下的图像分割数据集。用于评估视觉算法在街道场景下语义理解方面的性能。Cityscapes包含50个城市不同场景、不同背景、不同季节的街景,提供5000张精细标注的图像、20000张粗略标注的图像、30类标注物体。其中本发明的论证实验使用的是其中有精细标注的5000张图像。Cityscapes精细标注的5000张图像包含20个类,其中2975张训练图片,500张验证图片和1525张测试图片。
另外,实验硬件环境:Ubuntu 16.04,Telsa-P100显卡,显存12G,Core(TM)i7处理器,主频为3.4G,内存为16G。
代码运行环境:深度学习框架(Tensorflow-gpu1.6),python3.6。
选择mIoU作为评价指标来评估实验结果。mIoU为平均交并比,它计算真实值和预测分割的交点和联合之间的比。该比可以重新表示为真阳性(交叉)与真阳性,假阴性和假阳性(并集)之和的数量。公式如下:
Figure BDA0002082151020000041
其中k+1表示标签类别的总和(包括空类),而pij是推断为属于类j的类i的像素数量。此外,pii表示真阳性的数量,而pji和pij分别被解释为假阴性和假阳性。
对于不同的语义分割方法,都在相同的实验环境下进行训练和评估。使用流行的深度学习框架Tensorflow实现了本发明的方法。Xception作为网络骨干。Xception网络在ImageNet-1k数据集上预先训练。在训练期间,使用Nesterov动量优化器,动量m=0.9。初始学习率为0.05,重量衰减为4e-5。并且每两个训练周期的速率衰减设置为0.94。实验中应用均方误差作为损失函数,以最大化交并比的得分。训练时,每个GPU的批量大小为2,图像大小裁剪为513×513。
用FCN-8s作为基线模型进行了几次实验,评估Cityscapes数据集验证图像上的所有模型。为了验证atrous卷积(或dilated卷积)的有效性,使用Dilation10模型来训练Cityscapes。为了保证实验的准确性,使用原作者的源代码。实验结果表明,Dilation10模型优于FCN-8s,如表1所示。在这项工作中,采用DeeplabV3+模型作为对比实验。基于DeepLabV3+的代码,将DeepLabV3+的ASPP模块更改为本发明的多尺度空间金字塔池化模块。首先,使用与DeepLabV3+相同的对齐Xception来提取低级功能。然后,使用两个具有不同速率的多尺度空间金字塔池化模块来捕获多尺度上下文信息。最后,通过上采样恢复获得的特征图,并利用跳跃连接操作,以最终生成预测图像。将本发明的方法与Cityscapes上的最新方法进行比较。实验结果表明,在相同条件下,本发明方法比DeepLabV3+更准确。
表1 在Cityscapes数据集上的结果
方法 mIoU(%)
FCN8s 65.3
Dilation10 67.1
DeepLabV2-CRF 70.4
FRRN 71.8
DeepLabV3+ 70.89(本地)
本发明方法 72.68

Claims (5)

1.一种基于多尺度特征和编解码器模型的街景图像语义分割方法,其特征在于,包括以下步骤:S1、原始图像输入深度卷积神经网络提取初始特征图;S2、将初始特征图输入第一多尺度空间金字塔池化模块输出第一特征图;S3、将第一特征图输入第二多尺度空间金字塔池化模块输出第二特征图;S4、由所述第二特征图通过1×1卷积和第一上采样层与第一特征图1×1卷积后的特征图相连接还原成第一还原图;S5、所述第一还原图通过第二上采样层与所述初始特征图1×1卷积后相连接得到第二还原图;S6、所述第二还原图通过3×3卷积和第三上采样层还原为原始图像大小得到最终的预测图;所述第一多尺度空间金字塔池化模块和第二多尺度空间金字塔池化模块对输入的特征图处理输出特征图的方法为:将输入的特征图分别通过1×1卷积提取第一种尺度的特征图,通过四个扩张率不同的atrous卷积提取四种不同尺度下的特征图,通过平均池化操作提取最后一种尺度的特征图,共获得六种尺度的特征图;将所述六种尺度的特征图级联后得到最终的包含多尺度信息的特征图输出。
2.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法,其特征在于,所述深度卷积神经网络由池化层和卷积层组合而成的。
3.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法,其特征在于,所述四个扩张率不同的atrous卷积的扩张率分别为3、6、12、18。
4.根据权利要求1所述的基于多尺度特征和编解码器模型的街景图像语义分割方法,其特征在于,所述第二多尺度空间金字塔池化模块输出第二特征图的步长为16。
5.根据权利要求4所述的基于多尺度特征和编解码器模型的街景图像语义分割方法,其特征在于,所述第一上采样层的放大倍数为2,所述第二上采样层的放大倍数为2,所述第三上采样层的放大倍数为4。
CN201910475662.7A 2019-06-03 2019-06-03 基于多尺度特征和编解码器模型的街景图像语义分割方法 Active CN110175613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910475662.7A CN110175613B (zh) 2019-06-03 2019-06-03 基于多尺度特征和编解码器模型的街景图像语义分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910475662.7A CN110175613B (zh) 2019-06-03 2019-06-03 基于多尺度特征和编解码器模型的街景图像语义分割方法

Publications (2)

Publication Number Publication Date
CN110175613A CN110175613A (zh) 2019-08-27
CN110175613B true CN110175613B (zh) 2021-08-10

Family

ID=67697686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910475662.7A Active CN110175613B (zh) 2019-06-03 2019-06-03 基于多尺度特征和编解码器模型的街景图像语义分割方法

Country Status (1)

Country Link
CN (1) CN110175613B (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110619334B (zh) * 2019-09-16 2022-09-06 Oppo广东移动通信有限公司 基于深度学习的人像分割方法、架构及相关装置
CN110717921B (zh) * 2019-09-26 2022-11-15 哈尔滨工程大学 改进型编码解码结构的全卷积神经网络语义分割方法
CN110781775B (zh) * 2019-10-10 2022-06-14 武汉大学 一种多尺度特征支持的遥感影像水体信息精确分割方法
CN110930409B (zh) * 2019-10-18 2022-10-14 电子科技大学 一种基于深度学习的盐体语义分割方法及语义分割系统
CN111126451A (zh) * 2019-12-01 2020-05-08 复旦大学 一种对偶式语义分割方法
CN110991617B (zh) * 2019-12-02 2020-12-01 华东师范大学 万花筒卷积网络的构建方法
CN111292330A (zh) * 2020-02-07 2020-06-16 北京工业大学 基于编解码器的图像语义分割方法及装置
CN111507215B (zh) * 2020-04-08 2022-01-28 常熟理工学院 基于时空卷积循环神经网络与空洞卷积的视频目标分割方法
CN111563909B (zh) * 2020-05-10 2023-05-05 中国人民解放军91550部队 一种复杂街景图像语义分割方法
CN113658230A (zh) * 2020-05-12 2021-11-16 武汉Tcl集团工业研究院有限公司 一种光流估计方法、终端以及存储介质
CN111860233B (zh) * 2020-07-06 2021-05-18 中国科学院空天信息创新研究院 基于选择注意力网络的sar图像复杂建筑物提取方法及系统
CN112164047A (zh) * 2020-09-25 2021-01-01 上海联影医疗科技股份有限公司 X射线图像金属检测方法、装置和计算机设备
CN112465801B (zh) * 2020-12-09 2022-11-29 北京航空航天大学 一种分尺度提取掩码特征的实例分割方法
CN112508977A (zh) * 2020-12-29 2021-03-16 天津科技大学 一种面向自动驾驶场景的基于深度学习的语义分割方法
CN112927310B (zh) * 2021-01-29 2022-11-18 上海工程技术大学 一种基于轻量级神经网络的车道图像分割方法
CN112819000A (zh) * 2021-02-24 2021-05-18 长春工业大学 街景图像语义分割系统及分割方法、电子设备及计算机可读介质
CN113011427B (zh) * 2021-03-17 2022-06-21 中南大学 基于自监督对比学习的遥感图像语义分割方法
CN113192087A (zh) * 2021-05-19 2021-07-30 北京工业大学 一种基于卷积神经网络的图像分割方法
CN113298825B (zh) * 2021-06-09 2023-11-14 东北大学 一种基于MSF-Net网络的图像分割方法
CN115359346B (zh) * 2022-10-19 2023-03-07 北京市城市规划设计研究院 基于街景图片的小微空间识别方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734211A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 图像处理的方法和装置
CN108961253A (zh) * 2018-06-19 2018-12-07 深动科技(北京)有限公司 一种图像分割方法和装置
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10635927B2 (en) * 2017-03-06 2020-04-28 Honda Motor Co., Ltd. Systems for performing semantic segmentation and methods thereof
US11587304B2 (en) * 2017-03-10 2023-02-21 Tusimple, Inc. System and method for occluding contour detection
US10147193B2 (en) * 2017-03-10 2018-12-04 TuSimple System and method for semantic segmentation using hybrid dilated convolution (HDC)
CN109063710B (zh) * 2018-08-09 2022-08-16 成都信息工程大学 基于多尺度特征金字塔的3d cnn鼻咽癌分割方法
CN109145920A (zh) * 2018-08-21 2019-01-04 电子科技大学 一种基于深度神经网络的图像语义分割方法
CN109325534B (zh) * 2018-09-22 2020-03-17 天津大学 一种基于双向多尺度金字塔的语义分割方法
CN109784350A (zh) * 2018-12-29 2019-05-21 天津大学 结合空洞卷积与级联金字塔网络的服饰关键点定位方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108734211A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 图像处理的方法和装置
CN108961253A (zh) * 2018-06-19 2018-12-07 深动科技(北京)有限公司 一种图像分割方法和装置
CN109584246A (zh) * 2018-11-16 2019-04-05 成都信息工程大学 基于多尺度特征金字塔的dcm心肌诊疗放射影像分割方法
CN109711413A (zh) * 2018-12-30 2019-05-03 陕西师范大学 基于深度学习的图像语义分割方法

Also Published As

Publication number Publication date
CN110175613A (zh) 2019-08-27

Similar Documents

Publication Publication Date Title
CN110175613B (zh) 基于多尺度特征和编解码器模型的街景图像语义分割方法
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN111401148B (zh) 一种基于改进的多级YOLOv3的道路多目标检测方法
CN109190752B (zh) 基于深度学习的全局特征和局部特征的图像语义分割方法
CN110322495B (zh) 一种基于弱监督深度学习的场景文本分割方法
Bangquan et al. Real-time embedded traffic sign recognition using efficient convolutional neural network
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN110197182A (zh) 基于上下文信息和注意力机制的遥感影像语义分割方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111339917B (zh) 一种真实场景下玻璃检测的方法
CN113034506B (zh) 遥感图像语义分割方法、装置、计算机设备和存储介质
CN115375999B (zh) 应用于危化品车检测的目标检测模型、方法及装置
CN114332133A (zh) 基于改进CE-Net的新冠肺炎CT图像感染区分割方法及系统
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN113903022A (zh) 基于特征金字塔与注意力融合的文本检测方法及系统
CN115861756A (zh) 基于级联组合网络的大地背景小目标识别方法
CN115908806A (zh) 基于轻量级多尺度特征增强网络的小样本图像分割方法
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN112949578B (zh) 车灯状态识别方法、装置、设备及存储介质
CN113963333A (zh) 一种基于改进yolof模型的交通标志牌检测方法
CN113870286A (zh) 一种基于多级特征和掩码融合的前景分割方法
CN111209886B (zh) 一种基于深度神经网络的快速行人再识别方法
CN111612803A (zh) 一种基于图像清晰度的车辆图像语义分割方法
Kim et al. ESSN: Enhanced semantic segmentation network by residual concatenation of feature maps

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant