CN115035298A - 基于多维注意力机制的城市街景语义分割增强方法 - Google Patents

基于多维注意力机制的城市街景语义分割增强方法 Download PDF

Info

Publication number
CN115035298A
CN115035298A CN202210692153.1A CN202210692153A CN115035298A CN 115035298 A CN115035298 A CN 115035298A CN 202210692153 A CN202210692153 A CN 202210692153A CN 115035298 A CN115035298 A CN 115035298A
Authority
CN
China
Prior art keywords
feature map
attention
channel
width
level feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210692153.1A
Other languages
English (en)
Inventor
章坚武
刘奕晨
郭春生
陈华华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202210692153.1A priority Critical patent/CN115035298A/zh
Publication of CN115035298A publication Critical patent/CN115035298A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • G06V20/176Urban or other man-made structures

Abstract

本发明公开了一种基于多维注意力机制的城市街景语义分割增强方法,获取城市街景图像,提取低层特征图和高层特征图,将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,与所述第二特征进行元素相加,在经过解码模块第二个卷积层,输出语义分割增强后的图像。本发明所构建的多维注意力融合模块,模型简单,其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。

Description

基于多维注意力机制的城市街景语义分割增强方法
技术领域
本申请属于人工智能和图像处理领域,具体涉及面向城市背景下基于多维注意力机制的城市街景语义分割增强方法。
背景技术
语义图像分割是计算机视觉中的一项基本任务。传统分割主要是通过提取图片的低级特征然后进行分割,如阈值分割法,边缘检测法,区域分割法等。这个阶段一般是非监督学习,分割出来的结果缺少语义标注。基于深度学习的图像语义分割能根据标签进行语义划分,具有批量化处理和多分类的优点,在各领域均取得了广泛的应用。如生物医学,无人机航拍,图像编辑等。城市场景图像语义分割是以城市街景图像为研究对象理解城市内复杂的街景及交通状况,由此分析和获取路况信息。该技术对于实现自动驾驶、机器人传感和图像处理等在城市中潜在的应用领域具有重要意义。
引入软注意力机制是增强图像上下文关联,建立像素远程依赖的有效手段之一。在目前注意力机制相关研究中,结构大致可以分为三类:通道注意力,空间注意力,混合注意力。通道注意力使用全局池化提取通道特征,参数量少。如SENet中的SE模块通过全局平均池化获得全局感受野,强调了不同通道的权重,证明了通道注意力对结果提升的必要性。ECANet延续了该理论并提出一种不降维的局部跨信道交互策略,显著降低了模型的复杂度。但此类操作忽略了像素本身的注意力,损失了分割细节。空间注意力通常与多尺度输入、金字塔结构结合,特征图经过不同尺寸卷积核扩大感受野,捕捉上下文关联,加强同帧图像像素间、不同帧像素间的关联性。如CBAM通过平均池化与最大池化结合捕捉空间注意力;非局部神经网络中的非局部块合并了除通道外的所有维度,通过点乘操作建立当前像素间与其他所有像素间的关系。此类方法虽然保证了精度,但同时点乘操作会引入大量计算,且占用大量GPU内存。混合注意力同时结合通道和空间注意力,如DANet通过reshape操作合并除通道数外的维度,然后对进行矩阵点乘操作计算所有像素与所有像素之间的相似性,再与通道注意力融合,空间复杂度很高。因此,需要在计算资源与计算准确率之间作出平衡。
发明内容
本申请的目的是提供一种基于多维注意力机制的城市街景语义分割增强方法,针对传统注意力机制分割精度和运算速度存在矛盾的问题,构建多维注意力融合模块MAFM,减少普通二维卷积运算带来的计算负担,在仅增加很小的参数量的情况下融合了通道域和空间域的注意力。
为了实现上述目的,本申请技术方案如下:
一种基于多维注意力机制的城市街景语义分割增强方法,包括:
获取城市街景图像,输入到骨干网络ResNet101,提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图;
将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;
将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;
将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,所述第一个卷积层的输出特征与所述第二特征进行元素相加,再经过解码模块第二个卷积层,输出语义分割增强后的图像;
其中,所述多维注意力融合模块执行如下操作:
提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图;
提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图;
对高层特征图在通道上采用全局池化操作,得到通道域特征图;
将第二阶段特征图经过一个卷积操作,得到空间域特征图;
融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图。
进一步的,所述骨干网络ResNet101中的卷积层包括3层3×3卷积。
进一步的,所述提取高层特征图高度上的注意力权重,包括:
对输入的高层特征图的宽度进行条状池化操作,融合宽度上的长距离信息,整合出每个通道上的高度特征,对每个通道上的高度特征进行降维操作,得到通道在高度上二维张量;
将通道在高度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有高度上注意力权重的二维张量;
将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。
进一步的,所述提取高层特征图宽度上的注意力权重,包括:
对输入的高层特征图的高度进行条状池化操作,融合高度上的长距离信息,整合出每个通道上的宽度特征,对每个通道上的宽度特征进行降维操作,得到通道在宽度上二维张量;
将通道在宽度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有宽度上注意力权重的二维张量;
将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。
进一步的,所述基于多维注意力机制的城市街景语义分割增强方法,还包括
计算所述骨干网络ResNet101中第三残差区块的输出损失;
计算所述解码模块的最终输出损失;
分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重,计算加权联合损失来完成网络训练。
本申请提出的一种基于多维注意力机制的城市街景语义分割增强方法,针对城市街景中道路、高层建筑、路灯、栅栏等条状物的形状特点,提出一种条状分维度注意力机制SPDA,利用条状池化提取单维度特征权重,捕捉长程上下文语义关联,通过降维操作,使权重计算空间复杂度从平方降低为线性,计算所需内存更小。模块的轻量化设计允许该模块能够插入各种网络结构中。基于条带池化的注意力机制,能更好的适应城市街景中大量的的条状目标物体,且不会影响其他物体的判别。结合通道域与空间域的多维注意力融合模块,在仅增加很小的参数量的情况下融合了通道域和空间域的注意力,模块的轻量化设计允许该模块能够插入各种网络结构中,取得了更高质量的图像分割预测结果。
附图说明
图1为本申请基于多维注意力机制的城市街景语义分割增强方法流程图;
图2为本申请实施例整体网络结构示意图;
图3为本申请实施例多维注意力融合模块结构示意图;
图4为本申请实施例SPDA结构示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提出了一种基于多维注意力机制的城市街景语义分割增强方法,包括:
步骤S1、获取城市街景图像,输入到骨干网络ResNet101,提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图。
如图2所示,本实施例以效果较好的ResNet101作为骨干网络,ResNet101包括五个部分,分别是conv1、conv2_x、conv3_x、conv4_x和conv5_x,也可以表示为layer0-layer4。其中conv1是7×7卷积,通常称为卷积层,而conv2_x、conv3_x、conv4_x和conv5_x则分别是残差区块,分别对应3、4、23和3个block,分别称为第一残差区块至第四残差区块。
在一个具体的实施例中,本实施例将卷积层的1个7×7卷积替换为3个3×3卷积。
对于高分辨率的输入图像,采用3个3×3卷积,在保证相同感受野的前提下大幅度的减少参数,使其本身带有正则性质的特征图能够更容易学习一个可泛化的特征空间。
本申请分别提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图,作为后续处理的特征图。
在一个具体的实施例中,由于第三残差区块深度(23个block)远大于其余几组,为了更好的监督分割质量,加快网络收敛,在第三残差区块后加入辅助loss。
步骤S2、将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图。
本步骤将高层特征图分别输入空洞空间卷积池化金字塔模块(ASPP)和多维注意力融合模块(MAFM),特征图输入MAFM模块前首先进行通道数的调整,而输入ASPP保持原网络通道数不变。将ASPP与MAFM输出特征图相加后压缩通道数,综合局部与全局的信息,得到第一特征图。
本实施例多维注意力融合模块如图3所示,执行如下操作:
步骤21、提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图;
步骤22、提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图;
步骤23、对高层特征图在通道上采用全局池化操作,得到通道域特征图;
步骤24、将第二阶段特征图经过一个卷积操作,得到空间域特征图;
步骤25、融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图。
具体的,提取高层特征图高度上的注意力权重,如图4所示,包括:
步骤211、对输入的高层特征图的宽度进行条状池化操作,融合宽度上的长距离信息,整合出每个通道上的高度特征,对每个通道上的高度特征进行降维操作,得到通道在高度上二维张量。
即对于输入的高层特征图X∈RC×W×H,执行宽度条状池化操作,得到:
Figure BDA0003700463780000061
其中,
Figure BDA0003700463780000062
W0=1。
然后对XC×H进行squeeze降维操作,将三维特征图的宽度维度删除,最后得到二维张量SC×H∈RC×H,代表某通道在高度上的信息集合。
步骤212、将通道在高度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有高度上注意力权重的二维张量。
采用公式表示如下:
Figure BDA0003700463780000063
Figure BDA0003700463780000064
所得到带有高度上注意力权重二维张量记为
Figure BDA0003700463780000065
步骤213、将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。
需要说明的是,将二维张量升维,就是对二维张量进行复制,复制的数量就是原高层特征图在第三维度的大小,本实施例为宽度,从而使得最后得到的特征图与原特征图尺度一致。
本实施例中,将步骤212和步骤213所对应的操作,也表示为SPDA操作,如图3所示。
同样的,提取高层特征图宽度上的注意力权重,包括:
步骤221、对输入的高层特征图的高度进行条状池化操作,融合高度上的长距离信息,整合出每个通道上的宽度特征,对每个通道上的宽度特征进行降维操作,得到通道在宽度上二维张量。
步骤222、将通道在宽度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有宽度上注意力权重的二维张量。
步骤213、将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。
在一个实施例中,提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图,表示如下:
Figure BDA0003700463780000071
其中,mul表示张量逐元素相乘。
在一个实施例中,提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图,表示为:
Figure BDA0003700463780000072
在一个实施例中,对高层特征图在通道上采用全局池化操作,得到通道域特征图,表示为:
Figure BDA0003700463780000073
通过获取单通道W×H个元素的平均值,将每个通道的特征映射为单个数字,然后使用sigmoid函数计算每个通道的权值,得到通道域特征图:
Figure BDA0003700463780000074
在一个实施例中,将第二阶段特征图经过一个卷积操作,得到空间域特征图,是将第二阶段特征图经过一个3x3卷积的处理,输出通道数与输入相同,得到空间域特征图。
在一个实施例中,融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图,表示为:
Figure BDA0003700463780000075
其中,Xatt为最终经过MAFM输出的特征图。MAFM整体参数量较小,计算相对简单,可以灵活加入任意骨干网络的任意部分。
步骤S3、将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征。
本步骤多维注意力融合模块的操作与前一个步骤中的多维注意力融合模块操作相同,这里不再赘述。
步骤S4、将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,所述第一个卷积层的输出特征与所述第二特征进行元素相加,再经过解码模块第二个卷积层,输出语义分割增强后的图像。
如图2所示,本实施例解码模块包括两个3×3卷积,低层特征图与所述第一特征连接后,一个分支输入到多维注意力融合模块,得到第二特征。另一个分支输入到第一个卷积层后,第一个卷积层的输出特征与第二特征进行元素相加。相加后的特征图再输入到解码模块第二个卷积层,输出语义分割增强后的图像。
本申请技术方案将MAFM模块插入到基于ResNet-101骨干网的编码-解码网络中,构建空间-通道注意力语义分割网络MANet,实现城市街景的语义分割增强。
在一个具体的实施例中,本实施例基于多维注意力机制的城市街景语义分割增强方法,还包括
计算所述骨干网络ResNet101中第三残差区块的输出损失;
计算所述解码模块的最终输出损失;
分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重,计算加权联合损失来完成网络训练。
本实施例网络模型的损失函数,包括第三残差区块输出损失以及最后输出损失,两种损失函数的权重分别为0.4和0.6,分别采用交叉熵函数作为损失函数,优化器为SGD优化器,完成网络训练。
本申请基于多维注意力机制的城市街景语义分割增强方法,利用条状分维度注意力机制分别得到特征图高度和宽度上的注意力权重,基于条带池化的注意力机制能更好的适应城市街景中的目标物体。在MAFM中进行空间域和通道域上注意力的融合后,该模块可以添加到不同骨干网的不同位置,灵活方便。MAFM使用参数少,模型简单,其运用可以对远程上下文依赖性较大的物体产生更好的预测结果。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (5)

1.一种基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述基于多维注意力机制的城市街景语义分割增强方法,包括:
获取城市街景图像,输入到骨干网络ResNet101,提取骨干网络ResNet101第一残差区块输出的低层特征图以及第四残差区块输出高层特征图;
将提取的高层特征图分别输入到空洞空间卷积池化金字塔模块和多维注意力融合模块,将所述空洞空间卷积池化金字塔模块和多维注意力融合模块的输出进行元素相加,得到第一特征图;
将低层特征图与所述第一特征连接后,再次输入到多维注意力融合模块,得到第二特征;
将低层特征图与所述第一特征连接后的特征输入到解码模块的第一个卷积层,所述第一个卷积层的输出特征与所述第二特征进行元素相加,再经过解码模块第二个卷积层,输出语义分割增强后的图像;
其中,所述多维注意力融合模块执行如下操作:
提取高层特征图高度上的注意力权重,与输入的高层特征图逐元素相乘,得到第一阶段特征图;
提取高层特征图宽度上的注意力权重,将宽度上的注意力权重和第一阶段特征图逐元素相乘,得到第二阶段特征图;
对高层特征图在通道上采用全局池化操作,得到通道域特征图;
将第二阶段特征图经过一个卷积操作,得到空间域特征图;
融合空间域特征图和通道域特征图,得到多维注意力融合模块输出的特征图。
2.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述骨干网络ResNet101中的卷积层包括3层3×3卷积。
3.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述提取高层特征图高度上的注意力权重,包括:
对输入的高层特征图的宽度进行条状池化操作,融合宽度上的长距离信息,整合出每个通道上的高度特征,对每个通道上的高度特征进行降维操作,得到通道在高度上二维张量;
将通道在高度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有高度上注意力权重的二维张量;
将带有高度上注意力权重的二维张量进行升维得到高度上的注意力权重。
4.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述提取高层特征图宽度上的注意力权重,包括:
对输入的高层特征图的高度进行条状池化操作,融合高度上的长距离信息,整合出每个通道上的宽度特征,对每个通道上的宽度特征进行降维操作,得到通道在宽度上二维张量;
将通道在宽度上二维张量进行平均池化,然后使用针对多标签问题的sigmoid函数计算出一个分布在[0,1]上的概率,得到带有宽度上注意力权重的二维张量;
将带有宽度上注意力权重的二维张量进行升维得到宽度上的注意力权重。
5.根据权利要求1所述的基于多维注意力机制的城市街景语义分割增强方法,其特征在于,所述基于多维注意力机制的城市街景语义分割增强方法,还包括
计算所述骨干网络ResNet101中第三残差区块的输出损失;
计算所述解码模块的最终输出损失;
分别为所述第三残差区块的输出损失和解码模块的最终输出损失设置对应的权重,计算加权联合损失来完成网络训练。
CN202210692153.1A 2022-06-17 2022-06-17 基于多维注意力机制的城市街景语义分割增强方法 Pending CN115035298A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210692153.1A CN115035298A (zh) 2022-06-17 2022-06-17 基于多维注意力机制的城市街景语义分割增强方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210692153.1A CN115035298A (zh) 2022-06-17 2022-06-17 基于多维注意力机制的城市街景语义分割增强方法

Publications (1)

Publication Number Publication Date
CN115035298A true CN115035298A (zh) 2022-09-09

Family

ID=83125078

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210692153.1A Pending CN115035298A (zh) 2022-06-17 2022-06-17 基于多维注意力机制的城市街景语义分割增强方法

Country Status (1)

Country Link
CN (1) CN115035298A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527134A (zh) * 2022-10-27 2022-12-27 浙江九烁光电工程技术有限公司 基于大数据的城市园林景观照明监测系统及其方法
CN115995002A (zh) * 2023-03-24 2023-04-21 南京信息工程大学 一种网络构建方法及城市场景实时语义分割方法
CN116229065A (zh) * 2023-02-14 2023-06-06 湖南大学 一种基于多分支融合的机器人手术器械分割方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115527134A (zh) * 2022-10-27 2022-12-27 浙江九烁光电工程技术有限公司 基于大数据的城市园林景观照明监测系统及其方法
CN116229065A (zh) * 2023-02-14 2023-06-06 湖南大学 一种基于多分支融合的机器人手术器械分割方法
CN116229065B (zh) * 2023-02-14 2023-12-01 湖南大学 一种基于多分支融合的机器人手术器械分割方法
CN115995002A (zh) * 2023-03-24 2023-04-21 南京信息工程大学 一种网络构建方法及城市场景实时语义分割方法

Similar Documents

Publication Publication Date Title
CN111563508B (zh) 一种基于空间信息融合的语义分割方法
JP6395158B2 (ja) シーンの取得画像を意味的にラベル付けする方法
CN115035298A (zh) 基于多维注意力机制的城市街景语义分割增强方法
CN111539370A (zh) 一种基于多注意力联合学习的图像行人重识别方法和系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN111461083A (zh) 基于深度学习的快速车辆检测方法
CN113269054B (zh) 一种基于时空2d卷积神经网络的航拍视频分析方法
CN109492583A (zh) 一种基于深度学习的车辆重识别方法
CN112801027A (zh) 基于事件相机的车辆目标检测方法
CN113345082A (zh) 一种特征金字塔多视图三维重建方法和系统
CN112733693B (zh) 一种全局感知高分辨率遥感影像多尺度残差道路提取方法
CN114005085A (zh) 一种视频中密集人群分布检测与计数方法
CN112581409A (zh) 一种基于端到端的多重信息蒸馏网络的图像去雾方法
CN112819000A (zh) 街景图像语义分割系统及分割方法、电子设备及计算机可读介质
CN113269224A (zh) 一种场景图像分类方法、系统及存储介质
CN113297959A (zh) 一种基于角点注意力孪生网络的目标跟踪方法及系统
CN116524189A (zh) 一种基于编解码索引化边缘表征的高分辨率遥感图像语义分割方法
CN116597270A (zh) 基于注意力机制集成学习网络的道路损毁目标检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN110503049B (zh) 基于生成对抗网络的卫星视频车辆数目估计方法
Wu et al. Scene completeness-aware lidar depth completion for driving scenario
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法
CN113066089A (zh) 一种基于注意力引导机制的实时图像语义分割网络
CN116311154A (zh) 一种基于YOLOv5模型优化的车辆检测与识别方法
CN115965968A (zh) 基于知识引导的小样本目标检测识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination