CN112418227A - 基于双自注意力机制的监控视频卡车分割方法 - Google Patents

基于双自注意力机制的监控视频卡车分割方法 Download PDF

Info

Publication number
CN112418227A
CN112418227A CN202011169502.9A CN202011169502A CN112418227A CN 112418227 A CN112418227 A CN 112418227A CN 202011169502 A CN202011169502 A CN 202011169502A CN 112418227 A CN112418227 A CN 112418227A
Authority
CN
China
Prior art keywords
attention
image
segmentation
self
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011169502.9A
Other languages
English (en)
Other versions
CN112418227B (zh
Inventor
隋凯华
同磊
段娟
肖创柏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Technology
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN202011169502.9A priority Critical patent/CN112418227B/zh
Publication of CN112418227A publication Critical patent/CN112418227A/zh
Application granted granted Critical
Publication of CN112418227B publication Critical patent/CN112418227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了基于双自注意力机制的监控视频卡车分割方法,本方法充分利用特征图的空间信息与通道信息,采用EM算法减少计算量,同时在分割效果上提升性能,实现目标的像素级别分割。将本方法运用于重型卡车数据集上,对比其他方法,平均分割准确率提高了2.07%;将本方法运用于公开数据集Pascal VOC 2012上,平均分割准确率也高于其他方法,体现了本方法的优越性。本方法提出的空间注意力模块中融合了全局上下文信息,减少了空间维度的信息损失;通道注意力模块采用低秩重建的方式重构特征图,减少重复无用特征图的干扰。实验证明,双自注意力机制在卡车分割上精度上有一定提升。

Description

基于双自注意力机制的监控视频卡车分割方法
技术领域
本发明涉及一种基于双自注意力机制的监控视频卡车分割方法,属于监控视频领域,具体涉及卡车目标识别与分割方法。
背景技术
智能监控相关技术发展日新月异,智能视频监控系统普遍应用,催化了图像语义分割的发展,使其成为计算机视觉领域的研究热点,语义分割可以实现交通场景的像素级别标注。
早期的传统机器学习算法如随机决策森林等方法。Shotton等人使用了基于纹理特征的随机决策森林算法。另一种用于解决语义分割问题的方法是使用概率图模型。该方法首先利用参数统计方法根据几个简单的特征对图像进行过度分割,再利用马尔可夫随机场(MRF)方法,通过提取复杂的手工特征,把这些超像素分为不同的几何类。Gonfaus等人使用基于概率图模型的条件随机场构建系统。
随着计算机技术的发展,GPU算力显著提升,深度学习的方法在图像处理方面相较于传统方法效果的明显提升,越来越多的卷积神经网络框架涌现出来。基于全卷积网络(FCN)的方法利用了在大尺度数据上预先训练的分类网络的强大的反容量特征。提出了几种模型变体,以增强多尺度的上下文扩展。例如DeeplabV2利用atrous spatialpyramidpooling(ASPP)嵌入上下文信息,该信息由不同扩展率的并行扩展卷积组成。DeeplabV3使用图像级别特性扩展了ASPP,以进一步捕获全局上下文。Pspnet提出了一个金字塔池模型来收集不同尺度的上下文信息,GCN采用大核卷积解耦的方法,获得大的特征图接受域,捕获远距离信息。另一类采用通过FCN改进的U-Net为基础,结合了高级特性和中级特性的优点。RefineNet利用拉普拉斯图像金字塔,明确地捕捉下采样过程中可用的信息,并从粗到细输出预测。DeeplabV3+在DeeplabV3上增加了一个解码器,以细化分割结果,特别是沿着对象边界。
注意力机制广泛应用于各种任务,如机器翻译、视觉回答问题和视频分类。Non-local首先采用自注意力机制作为计算机视觉任务的模板,如视频分类、目标检测和实例分割。PSANet通过一个预测的注意力图来为每个位置聚集上下文信息。A2net提出了双注意力块来从图像的整个时空空间中分布和收集信息全局特征。DANet同时应用了空间和通道的方法来收集特征图的周围信息,这比非局部方法花费更多的计算和内存。
尽管深度学习的方法使得语义分割效果得到巨大提,随着网络深度加深,分辨率降低,空间信息损失,上下文信息缺失。本发明提出的空间注意力模块中融合了全局上下文信息,减少了空间维度的信息损失;通道注意力模块采用低秩重建的方式重构特征图,减少重复无用特征图的干扰。实验证明,双自注意力机制在卡车分割上精度上有一定提升。
发明内容
本发明旨在解决以上问题,提出了一种基于双自注意力网络和期望最大化算法(Expectation-maximization algorithm,简称EM算法)监控视频卡车分割方法。本发明可以充分利用空间与通道信息,在分类效果上提升性能。
为了达到上述目的,本发明实现步骤如下:
一种基于双自注意力网络和EM算法的监控视频卡车分割方法,本方法充分利用特征图的空间信息与通道信息,采用EM算法减少计算量,同时在分割效果上提升性能,实现目标的像素级别分割。具体实现步骤如下:
(1)图像数据获取及标注处理;
(1a)利用监控摄像头SDK,获取采集到的待分割的原始道路场景图像;
(1b)从监控视频中获取原始的道路场景图,采用手工标注方式标注出卡车的位置。
(1c)根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像。
(2)模型构建与训练
训练模型由三部分组成。第一部分采用Resnet101为骨干网络(backbone)实现特征提取。第二部分是通道自注意力模块,该模块将第一部分得到的特征图reshape成N×C(其中N=65×65)后,与预设的通道基相乘,之后通过softmax层获得通道自注意力图Z1,将Z1与通道基相乘更新特征图。第三部分是空间自注意力模块,该模块分为两个分支,上分支用于计算全局上下文信息,下分支用于计算空间注意力信息;将第一部分得到的特征图输入两个分支,上分支将经由自适应全局平均池化层获得特征图的全局上下文信息,下分支将特征图reshape成N×C(其中N=65×65)后,与预设的空间基相乘,之后通过softmax层获得空间自注意力图Z2,将Z2、通道基和全局上下文信息相乘更新特征图。通道自注意力图与通道基、空间自注意力图与空间基的更新过程中借鉴EM算法的思想,加速自注意力网络的收敛。最后将第一、二、三部分的特征图融合成,输入全连接网络获得最终的分割结果。
训练过程中,将步骤(1)获得的原始图像和语义分割图像输入到网络训练即可。
(3)图像分割结果展示与分割图像显示
运用预测值与真实值进行比对,从而得到分割结果,计算出分割准确率,并将分割图像实时显示。
实验表明,将本方法运用于重型卡车数据集上,对比其他方法,平均分割准确率提高了2.07%;将本方法运用于公开数据集Pascal VOC 2012上,平均分割准确率也高于其他方法,体现了本方法的优越性。
本方法与现有算法相比,其显著优点在于:
1、采用双线性插值方法对图像进行处理,避免过多使用池化操作降低图像维度,减少了图像的信息缺失;
2、采用EM算法迭代更新自注意力图与解集合,将注意力图逐像素的全图计算转成注意力图与解集合的映射运算,解集合的低维度会大大降低运算量;
3、采用双自注意力机制,有效解决单注意力机制(EMAnet)在空间或通道维度上的信息丢失,提高分割准确率;
4、在空间注意力模块中采用全局上下信息与空间自注意力信息融合,保证提取更多的空间信息,提高分割精度。
附图说明
图1是本发明的流程图;
图2是本发明的总体训练模型结构;
图3是通道自注意力模型结构;
图4是空间自注意力模型结构;
图5a是原始道路场景图像;
图5b是原始道路场景图像进行预测,得到的预测语义分割图像。
图6a是PASCALVOC 2012数据集图像;
图6b是PASCAL VOC 2012数据集图像进行预测,得到的预测语义分割图像;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述。
下面结合附图对本发明做进一步的描述。参照附图1,本发明的实现步骤如下:
步骤1,数据采集、处理
1a)原始视频通过监控摄像头的JDK采集
监控数据有两种用途,一种是对数据进行筛选、标注等处理,制作数据集;另一种是将采集的数据输入神经网络,获得语义分割图像。
1b)数据处理
将两个数据集中的数据首先标准化,
Figure BDA0002746847790000031
其次,随机尺寸缩放,缩放比例是0.5,0.75,1.0,1.25,1.5,1.75,2.0中随机任选一个,缩放方式是双线性插值;
再次,填充,数据填充至尺寸大小为513×513,原图用0填充,标签用255填充;
最后,裁剪,将数据尺寸裁剪尺寸为513×513。
步骤2,模型构建、训练
2a)如图2所示,将数据集原始数据(Data)和标签(Label)输入Resnet101骨干网络进行特征提取,使用预训练的模型(Resnet101)提取图像信息。
2b)特征图输入通道注意力模块(EM-Channel-Attention)与空间注意力模块(EM-Space-Attention),获得通道与空间注意力图。
通道注意力模块,如图3所示。Resnet101骨干网络提取的特征图尺寸为2048×65×65,2048种通道中存在大量重复的特征图。因此首先将特征图image输入卷积层,其卷积核为1,步长为1,输出通道数为512,经过卷积层后,image尺寸为512×65×65。其次将image特征图reshape成N×C(其中N=65×65),预设通道基mup尺寸为(1,512,64),mup初始化方式为随机赋值。Z是矩阵mup与image相乘得来的,Z经过一个Softmax层获取各层的概率值,
Z=softmax(μX(αt-1)T),
其中μ为神经网络的超参数,用于控制网络对Z的贡献程度。mup与注意力图Z迭代更新过程引入EM算法。EM算法中的E步,即利用对隐藏变量的现有估计值,计算其最大似然估计值;M步,即最大化在E步上求得的最大似然值来计算参数的值。E步更新注意力图,即
Figure BDA0002746847790000041
Figure BDA0002746847790000042
M步更新通道基,即mup=image×Z,迭代次数为3。最后特征图image更新,
image=mup×Z
image尺寸恢复至512×65×65,image输入卷积正则化层,卷积核为1,步长为1,输出通道数为512,之后输入Relu激活层。
空间注意力模块分为两个分支,如图4所示,上分支作用是计算全局上下文信息,右分支作用是计算空间注意力信息。上分支中image输入卷积层,其卷积核为1,步长为1,输出通道数为512,输入自适应全局平均池化层,池化尺寸为1×1,获得全局的上下文信息image,更新imageglobal=image+image~,imageglobal输入卷积层,其卷积核为1,步长为1,通道数为21×21(即s×s)。右分支中image输入自适应全局平均池化层,池化尺寸为21×21,其次将image特征图reshape成N×C(其中N=21×21),预设通道基mus尺寸为(1,21×21,21),mus初始化方式为随机赋值。F是矩阵mus与image相乘得来的,F经过一个Softmax层获取各层的概率值,
Figure BDA0002746847790000043
其中β为神经网络的超参数,用于控制网络对F的贡献程度。mus与注意力图F迭代更新过程引入EM算法。E步更新注意力图,即
Figure BDA0002746847790000051
M步更新通道基,即mus=image×F,迭代次数为3。最后特征图image更新,
image=mus×F×imageglobal
image尺寸恢复至512×65×65,image输入卷积正则化层,卷积核为1,步长为1,输出通道数为512,之后输入Relu激活层。
最后将特征图与空间注意力模块、通道注意力模块的输出按通道维度拼接成新的image,image输入3卷积层,第一层卷积核为1,步长为1,输出通道数为512;第二层卷积核为3,步长为1,输出通道数为256,Dropout为0.1;第三层卷积核为1,步长为1,输出通道数为Nclass(Nclass是分割类别数,Pascal VOC 2012数据集数据集上Nclass为21,人工标注的卡车数据集上Nclass为2)。
训练网络。使用批量大小为16,随机梯度下降优化算法(SGD),迭代次数为30000。冲量momentum设置为0.9,权值衰减delay设置为0.0001,最初设定一个基地学习速率L为0.001,并且会不断减少,
Figure BDA0002746847790000052
是更新的学习速率,I是当前迭代器的个数。使用标准偏差为
Figure BDA0002746847790000053
的零均值高斯随机变量初始化所有卷积层,其中为fanin输入单元数,fanout为权重张量中的输出单元数。所有卷积层的偏差初始化为零。
空间基mus与通道基mup更新公式如下
Figure BDA0002746847790000054
Figure BDA0002746847790000055
其中,size1、size2表示空间基、通道基的个数。mus、mup不进行反向梯度传播。
通道注意力模块的损失函数为Loss1,空间注意力模块的损失为Loss2,Loss1跟Loss2均为SoftMax CrossEntropy损失函数所定义,公式如下:
Figure BDA0002746847790000056
其中,i∈{1,2,3…,21},
Figure BDA0002746847790000057
为标签图像中属于第i类的概率值,即真实分布值,yi为语义分割模型输出预测属于第i类的概率值,即预测分布值,y由SoftMax函数定义,如下图所示
Figure BDA0002746847790000058
其中,j∈{1,2,3…,21}。最终训练网络的损失函数为Loss,如下公式
Figure BDA0002746847790000061
步骤3,图像分割结果
运用预测值与真实值进行比对,从而得到分割结果,计算出准确率。
步骤4,输出语义分割图像
将网络预测出来的图像结果全屏显示。
实验以及分析
1.实验条件
本发明的硬件测试平台是:处理器Intel(R)Xeon(R)Gold i7-8700k CPU,主频为3.70GHz,内存16GB,显卡为GeForce RTX 2070;软件平台为Windows 10操作系统和PyCharm2018。编程语言是python,使用pytorch深度学习框架来实现网络结构。
2.实验数据
本发明的性能评价主要用到两个数据集。一个是Pascal VOC 2012数据集,另一个是人工标注的卡车监控视频照片。
在人工标注的数据集中包含了重装卡车、马路背景两类的物体像素标注。整个数据集被划分为两个子集:500条训练集、100条验证集。
在Pascal VOC数据集中包含了汽车、建筑、动物、飞机、火车、等21种类别的物体像素标注,其中背景也被标注于数据集中,但其不属于这先前提及的21种类别。整个数据集被划分为两个子集:1464条训练集、1449条验证集。
3.性能比较
本发明用到的三个现有技术对比的方法:
PSPNet来自文献Zhao H,Shi J,Qi X,et al.Pyramid Scene Parsing Network[J].2016.
FCN来自文献Evan Shelhamer,Jonathan Long,Trevor Darrell.FullyConvolutional Networks for Semantic Segmentation[M].IEEE Computer Society,2017.
EMAnet来自文献Li X,Zhong Z,Wu J,et al.Expectation-MaximizationAttention Networks for Semantic Segmentation[J].2019.
表1
Figure BDA0002746847790000062
Figure BDA0002746847790000071
从表1可以看出,在人工标注的重型卡车数据集上,本发明提出的方法,其效果要优于其他方法。其中,相比于仅使用通道注意力的EMAnet,平均分割准确率提高了2.07%,图5b为人工标注卡车数据集的分割效果图。
表2
Figure BDA0002746847790000072
为了验证模型的可拓展性,在数据集Pascal VOC 2012上重新训练模型。从表2中可以看出,本发明提出的方法,其效果要优于其他方法。另图6b为数据集Pascal VOC 2012的分割效果图。
综上所述,本发明提出的一种基于双自注意力机制的卡车检测分割方法,通过引入通道注意力信息、空间自注意力信息和全局上下文信息改进单一的全连接层,有效的处理分割边界不明确的问题。引入双注意力机制,减少特征图重建过程的数据丢失。实验结果表明,本发明技术具有较高的分割精度。

Claims (4)

1.基于双自注意力机制的监控视频卡车分割方法,其特征在于:本方法充分利用特征图的空间信息与通道信息,采用EM算法减少计算量,同时在分割效果上提升性能,实现目标的像素级别分割;具体实现步骤如下:
(1)图像数据获取及标注处理;
(1a)利用监控摄像头SDK,获取采集到的待分割的原始道路场景图像;
(1b)从监控视频中获取原始的道路场景图,采用手工标注方式标注出卡车的位置;
(1c)根据待分割的原始道路场景图像和预设的场景语义分割模型获得对应的预测语义分割图像;
(2)模型构建与训练
训练模型由三部分组成;第一部分采用Resnet101为骨干网络实现特征提取;第二部分是通道自注意力模块,该模块将第一部分得到的特征图reshape成N×C后,与预设的通道基相乘,之后通过softmax层获得通道自注意力图Z1,将Z1与通道基相乘更新特征图;第三部分是空间自注意力模块,该模块分为两个分支,上分支用于计算全局上下文信息,下分支用于计算空间注意力信息;将第一部分得到的特征图输入两个分支,上分支将经由自适应全局平均池化层获得特征图的全局上下文信息,下分支将特征图reshape成N×C后,与预设的空间基相乘,之后通过softmax层获得空间自注意力图Z2,将Z2、通道基和全局上下文信息相乘更新特征图;通道自注意力图与通道基、空间自注意力图与空间基的更新过程中借鉴EM算法的思想,加速自注意力网络的收敛;最后将第一、二、三部分的特征图融合成,输入全连接网络获得最终的分割结果;
训练过程中,将步骤(1)获得的原始图像和语义分割图像输入到网络训练即可;
(3)图像分割结果展示与分割图像显示
运用预测值与真实值进行比对,从而得到分割结果,计算出分割准确率,并将分割图像实时显示。
2.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:原始视频通过监控摄像头的JDK采集,监控数据有两种用途,一种是对数据进行筛选、标注等处理,制作数据集;另一种是将采集的数据输入神经网络,获得语义分割图像。
3.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:数据处理中,将两个数据集中的数据首先标准化,
Figure FDA0002746847780000011
其次,随机尺寸缩放,缩放比例是0.5,0.75,1.0,1.25,1.5,1.75,2.0中随机任选一个,缩放方式是双线性插值;
再次,填充,数据填充至尺寸大小为513×513,原图用0填充,标签用255填充;
最后,裁剪,将数据尺寸裁剪尺寸为513×513。
4.根据权利要求1所述的基于双自注意力机制的监控视频卡车分割方法,其特征在于:将数据集原始数据和标签输入Resnet101骨干网络进行特征提取,使用预训练的模型提取图像信息;特征图输入通道注意力模块与空间注意力模块,获得通道与空间注意力图。
CN202011169502.9A 2020-10-28 2020-10-28 基于双自注意力机制的监控视频卡车分割方法 Active CN112418227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011169502.9A CN112418227B (zh) 2020-10-28 2020-10-28 基于双自注意力机制的监控视频卡车分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011169502.9A CN112418227B (zh) 2020-10-28 2020-10-28 基于双自注意力机制的监控视频卡车分割方法

Publications (2)

Publication Number Publication Date
CN112418227A true CN112418227A (zh) 2021-02-26
CN112418227B CN112418227B (zh) 2024-09-20

Family

ID=74841555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011169502.9A Active CN112418227B (zh) 2020-10-28 2020-10-28 基于双自注意力机制的监控视频卡车分割方法

Country Status (1)

Country Link
CN (1) CN112418227B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113243886A (zh) * 2021-06-11 2021-08-13 四川翼飞视科技有限公司 一种基于深度学习的视力检测系统、方法和存储介质
CN114187296A (zh) * 2021-11-09 2022-03-15 元化智能科技(深圳)有限公司 胶囊内窥镜图像病灶分割方法、服务器及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110148138A (zh) * 2019-05-23 2019-08-20 南京信息工程大学 一种基于双重调制的视频目标分割方法
US20200151497A1 (en) * 2018-11-12 2020-05-14 Sony Corporation Semantic segmentation with soft cross-entropy loss
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200151497A1 (en) * 2018-11-12 2020-05-14 Sony Corporation Semantic segmentation with soft cross-entropy loss
CN110148138A (zh) * 2019-05-23 2019-08-20 南京信息工程大学 一种基于双重调制的视频目标分割方法
CN111462126A (zh) * 2020-04-08 2020-07-28 武汉大学 一种基于边缘增强的语义图像分割方法及系统
CN111563508A (zh) * 2020-04-20 2020-08-21 华南理工大学 一种基于空间信息融合的语义分割方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113243886A (zh) * 2021-06-11 2021-08-13 四川翼飞视科技有限公司 一种基于深度学习的视力检测系统、方法和存储介质
CN114187296A (zh) * 2021-11-09 2022-03-15 元化智能科技(深圳)有限公司 胶囊内窥镜图像病灶分割方法、服务器及系统
CN114187296B (zh) * 2021-11-09 2022-12-13 元化智能科技(深圳)有限公司 胶囊内窥镜图像病灶分割方法、服务器及系统

Also Published As

Publication number Publication date
CN112418227B (zh) 2024-09-20

Similar Documents

Publication Publication Date Title
Chen et al. Single image shadow detection and removal based on feature fusion and multiple dictionary learning
CN111310666B (zh) 一种基于纹理特征的高分辨率影像地物识别与分割方法
Hu et al. A comparison and strategy of semantic segmentation on remote sensing images
CN113011305B (zh) 基于语义分割和条件随机场的sar图像道路提取方法和装置
CN112418227A (zh) 基于双自注意力机制的监控视频卡车分割方法
CN106157330A (zh) 一种基于目标联合外观模型的视觉跟踪方法
Rusyn et al. Segmentation of atmospheric clouds images obtained by remote sensing
CN117197462A (zh) 基于多尺度特征融合和对齐的轻量地基云分割方法及系统
Yao et al. Prediction of weather radar images via a deep lstm for nowcasting
CN113591614B (zh) 一种基于紧邻空间特征学习的遥感影像道路提取方法
CN118154625A (zh) 一种融合视觉大模型的小样本密集粒子图像分割方法
CN118410724A (zh) 一种输电线路异物识别方法、系统、计算机设备及介质
CN113177956B (zh) 一种面向无人机遥感影像的语义分割方法
CN107301652B (zh) 一种基于局部稀疏表示和粒子群优化的鲁棒目标跟踪方法
CN116993760A (zh) 一种基于图卷积和注意力机制的手势分割方法、系统、设备及介质
He et al. Building extraction based on U-net and conditional random fields
Saraswathi et al. RETRACTED ARTICLE: Adaptive supervised multi-resolution approach based modeling of performance improvement in satellite image classification
Lam et al. Statistical bootstrap-based principal mode component analysis for dynamic background subtraction
Yufeng et al. Research on SAR image change detection algorithm based on hybrid genetic FCM and image registration
CN102436642B (zh) 结合mrf和神经网络的多尺度彩色纹理图像分割方法
Bao et al. Video saliency detection using 3D shearlet transform
CN113192018A (zh) 基于快速分割卷积神经网络的水冷壁表面缺陷视频识别方法
CN112597825A (zh) 驾驶场景分割方法、装置、电子设备和存储介质
Wang et al. Sparse Transformer-based bins and Polarized Cross Attention decoder for monocular depth estimation
Sohaliya et al. Semantic segmentation using generative adversarial networks with a feature reconstruction loss

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant