CN116310305A - 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 - Google Patents
一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 Download PDFInfo
- Publication number
- CN116310305A CN116310305A CN202211515772.XA CN202211515772A CN116310305A CN 116310305 A CN116310305 A CN 116310305A CN 202211515772 A CN202211515772 A CN 202211515772A CN 116310305 A CN116310305 A CN 116310305A
- Authority
- CN
- China
- Prior art keywords
- model
- image
- semantic
- attention
- tensor
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 title claims abstract description 21
- 238000012549 training Methods 0.000 claims abstract description 23
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 230000002708 enhancing effect Effects 0.000 claims abstract description 4
- 239000011159 matrix material Substances 0.000 claims description 15
- 238000004645 scanning capacitance microscopy Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 5
- 238000007781 pre-processing Methods 0.000 abstract description 4
- 238000003062 neural network model Methods 0.000 abstract 1
- 238000000034 method Methods 0.000 description 14
- 238000011156 evaluation Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000013527 convolutional neural network Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型。本发明包括以下步骤:1、模型建立,设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,通过在编码器中利用注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,在解码器中将浅层和深层语义信息进行融合来捕获图像的上下文语义信息,以扩大不同类别物体的类间差异性。2、模型训练,首先对数据集预处理,然后对建立好的模型进行模型训练。3、模型推理,将测试集的图像输入到训练好的模型中,推理测试图像的语义类别预测值,评估测试模型推理的准确度。本发明是一种针对图像语义分割的神经网络模型,获得了在语义分割领域较好的分割效果。
Description
技术领域
本发明属于计算机视觉技术领域,特别涉及一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型。
背景技术
图像语义分割是计算机视觉的一个基础问题,广泛应用于自动驾驶、智能机器人、人机交互等等领域的场景理解。图像语义分割技术是将视觉图像中具有相似语义信息的像素点给予一致的标签,解释不同的语义类别。例如,在自动驾驶场景中我们需要区分图像中属于汽车、行人等的所有像素,并把这些像素标记为一个个语义类别。
近年来伴随着深度学习的不断发展,基于深度学习的图像语义分割模型越来越多的应用在实际的场景中。采用卷积神经网络(Convolutional Neural Networks,CNN)和全卷积神经网络(Fully Convolutional Neural Networks,FCN)进行端到端(end-to-end)的问题建模成为计算机视觉方向上的主流研究方法。在图像的语义分割中,设计相应的深度网络模型实现端到端的建模,分割的准确率和速度均得到了明显的提升,相比传统的语义分割方法分割效果得到了大大的提升。
目前基于深度学习的图像语义分割的主要方法:(1)通过全卷积神经网络进行图像语义分割的处理,虽然全卷积神经网络可以实现任意尺寸大小图像的输入,并且得到与输入对应尺寸大小的输出,但是不能够获得足够丰富的图像上下文信息,得到的图像特征辨别力不强;(2)基于全卷积神经网络添加后处理模块,近两年用的比较多的是添加注意力机制模块,可以获得丰富的上下文信息。但这些基于注意力的方法主要关注空间维度,对特征图的每个通道赋予相同的权重,忽略了不同通道特征之间的差异。
普遍来说,每一个特征通道都可以被视为一个类别特定的响应,并与不同的语义响应相关联。因此,我们需要为每个与特定语义特征相关的通道计算一个权重,从而聚合通道维度和空间维度的信息,获得全局的远程上下文信息,增强语义分割效果。
参考文献
1.Long J,Shelhamer E,Darrell T.Fully convolutional networksforsemanticsegmentation[C]//Proceedings of the IEEE conference on computervision and patternrecognition.2015:3431-3440.
2.Chen L C,Papandreou G,Kokkinos I,et al.Deeplab:Semantic imagesegmentation withdeep convolutional nets,atrous convolution,and fullyconnected crfs[J].IEEE transactions onpattern analysis and machineintelligence,2017,40(4):834-848.
3.Wang X,Girshick R,Gupta A,et al.Non-local neural networks[C]//Proceedings of theIEEE conference on computer vision and patternrecognition.2018:7794-7803.
发明内容
本发明提供一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,该基于张量和二阶协方差注意力机制模型语义分割效果好,易于实现。
发明的技术解决方案如下:
一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,其特征在于,包括数据预处理、模型的建立、模型的训练和验证;
数据预处理主要是给定图像I,对应的真实标签图GT数据,将数据划分为训练集、评估集、测试集,为模型训练、评估和测试提供数据基础;
模型的建立是通过分析图像语义增强过程设计具体子模块,构建端到端的语义分割深度网络模型;
模型的训练、评估和验证是确定所建立的模型的参数,并且评估、检验所设计的模型的分割效果;
基于张量和二阶协方差注意力机制的编解码结构语义分割模型按照以下步骤展开:
步骤1:模型建立;
步骤2:模型训练;
步骤3:模型推理。
步骤1中,具体设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层语义信息,在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息,以扩大不同类别物体的类间差异性,最终提高分割准确性;
首先,建立编码器模型Encoder,对图像进行特征提取,通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4;
然后,建立二阶协方差注意力模型SCAM,在通道维度上捕获全局上下文信息对图像特征F4进行增强,得到具有增强语义信息的图像特征X1;
建立张量注意力模型TAM,对图像特征X1的上下文信息从空间维度和通道维度进行聚合,得到增强的图像特征图X2;
最后,建立解码器模型Decoder,对X2进行上采样得到特征图X3,通过对浅层特征F1和特征图X3进行融合,得到上下文关联性增强的特征图,并对融合后的特征图进行上采样,通过双线性插值得到图像的语义预测图Y;
步骤2中,首先对提供的训练集数据进行预处理操作,对图像I进行尺度随机缩放,水平旋转等的几何变换、颜色变换进行数据增强后,再将图像裁剪成固定尺寸大小的图像IC;
然后对步骤1建立的模型进行训练,将图像IC输入骨干网络ResNet-101、编码器中的二阶协方差注意力模型SCAM、张量注意力模型TAM得到特征图X2,最后通过解码器模型融合浅层特征和深层特征进行语义分割预测,得到预测结果Y,采用交叉熵损失函数计算预测值与真实值GT之间的损失,度量预测值与真实值的误差;通过反向传播算法对步骤1定义的网络模型参数进行迭代优化训练,迭代过程中,执行训练集数据后,执行评估集数据进行模型分割性能评估,训练到整个模型收敛为止;
步骤3中,将测试集的图像输入到训练好的编解码结构语义分割模型中,推理测试图像的语义类别预测值,计算预测值与真实值的平均交并比(MIoU),评估测试模型推理预测的准确度。
步骤1所述的编解码结构语义分割模型建立具体过程如下:
首先,建立编码器模型Encoder,对图像进行特征提取,通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4,其中C1、C2是图像特征的通道数,H1、H2和W1、W2是图像特征的高度和宽度;
然后,建立二阶协方差注意力模型SCAM,利用二阶统计量和局部跨通道交互策略,从通道维度增强图像特征辨别力,具体操作为:
首先计算两个特征图之间的二阶统计量协方差:
式中Cov(.)表示协方差运算;
再利用分组卷积设计局部跨通道交互策略,计算出不同通道语义特征的重要性,最后通过乘法逐通道加权到输入的图像特征F4,完成在通道维度上对语义特征的重标定:
在完成二阶协方差注意力模型SCAM操作后,建立张量注意力模块TAM,通过引入偏置可学习参数张量A,计算特征图不同通道不同空间位置的注意力权重系数,将经典的非局部注意力S矩阵扩展为注意力张量Z1,更好地辨别不同位置不同通道的语义特征,具体运算如下:
Q=Conv(X1);K=Conv(X1);V=Conv(X1) (3)
S=Softmax(QT×K) (4)
A=Softmax(Conv(X1)) (5)
X2=V×Z1 T (8)
在完成编码器模型Encoder操作后,建立解码器模型Decoder,关于解码器模型Decoder操作的具体过程如下:
将浅层特征图F1和特征图X2作为解码器的输入,对增强的特征图X2进行上采样,得到和浅层特征图F1尺寸大小相等的特征图X3;将浅层特征图F1和特征图X3沿通道拼接,形成聚合特征信息;然后,对融合后的信息进行上采样,通过双线性插值得到图像的语义预测图Y;
步骤2所述的模型训练具体过程如下:
输入图像I,通过骨干网络对图像进行特征提取,首先使用二阶协方差注意力模型SCAM在通道维度上捕获全局上下文信息对图像特征F4进行增强,建立张量注意力模型TAM,对图像特征X1的上下文信息从空间维度和通道维度进行聚合,得到增强的图像特征图X2,最后采用解码器融合浅层特征和深层特征进行语义分割预测,得到预测结果Y,采用交叉熵损失函数计算预测值与真实值GT之间的损失,其中损失函数如下:
式中B是指输入模型的图像的数量,C是类别数;
步骤3所述模型推理具体过程如下:
在步骤2中完成模型训练以后,固定模型参数,输入测试集的图像,推理测试图像的语义类别预测值,计算测试预测值与真实值的交并比,直到所有测试集图像测试完成,给出最终的推理预测准确度。
本发明有益效果如下:
本发明提出的方法在针对图像语义分割的问题上相较于其他算法提高了精度。具体表现为:1)本发明基于全卷积端到端的网络通过引入改进的注意力机制模型,对图像特征的上下文信息从空间维度和通道维度进行聚合,增强图像特征的语义分辨别力;2)引入编解码结构来融合深层特征和浅层特征,在图像语义分割任务中获得了比以往模型高的准确度。
附图说明
图 1为本发明的模型总结构图。
图 2为本发明的二阶协方差注意力模型SCAM。
图 3为本发明的张量注意力模型TAM。
图 4为本发明的模型实验可视化结果。
具体实施方式
为了使本发明的目的及技术方案更加清楚明白,以下结合附图和实施例,对本发明的应用原理作详细的描述。但本发明的保护范围并不限于以下具体实施例。
除非另有定义,下文中所使用的所有专业术语与本领域技术人员通常理解含义相同。本文中所使用的专业术语只是为了描述具体实施例的目的,并不是旨在限制本发明的保护范围。
实施例1:
如图1图2图3所示,本发明提供一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型具体步骤如下:
步骤1所述的模型建立具体如下:
此发明采用PASCAL VOC 2012数据集,其中此数据集包含21个类别,作为训练和测试数据;
首先,使用ResNet-101作为骨干网络提取图像特征,具体过程为:把输入的图像统一缩放到513×513并输入到骨干网络中,经过骨干网络进行图像特征的提取,将输出的最后一层特征图作为输入,输入编码器模型Encoder进行特征的进一步增强和提取;然后,执行编码器模型Encoder操作,具体如下:
①将特征图F4输入到二阶协方差注意力模型SCAM,利用二阶统计量和局部跨通道交互策略,从通道维度增强图像特征辨别力,具体操作为:
首先计算两个特征图之间的二阶统计量协方差:
式中Cov(.)表示协方差运算;
再利用分组卷积设计局部跨通道交互策略,计算出不同通道语义特征的重要性,最后通过乘法逐通道加权到输入的图像特征F4,完成在通道维度上对语义特征的重标定:
X1=sigmoid(C1Dk(Groupc×1(M)))⊙F4 (2)
②使用张量注意力模块TAM对图像特征X1的上下文信息从空间维度和通道维度进行聚合,得到增强的图像特征图X2,具体操作为:
Q=Conv(X1);K=Conv(X1);V=Conv(X1) (3)
S=Softmax(QT×K) (4)
A=Softmax(Conv(X1)) (5)
X2=V×Z1 T (8)
最后,执行解码器模块Decoder操作,融合深层特征和浅层特征,解码器模块Decoder操作具体如下:
将浅层特征图F1和特征图X2作为解码器的输入,对增强的特征图X2进行上采样,得到和浅层特征图F1尺寸大小相等的特征图X3;将浅层特征图F1和特征图X3沿通道拼接,形成聚合特征信息;然后,对融合后的信息进行上采样,通过双线性插值得到图像的语义预测图Y;
至此完成模型建立的操作。
步骤2所述模型训练,具体如下:
对步骤1建立的模型进行训练,将图像I通过骨干网ResNet-101、编码器模型模块Encoder、解码器模型模块Decoder得到语义预测图Y;将其与训练集数据的真实标签图做比较,通过采用交叉熵损失函数计算得到预测值与真实值之间的损失值,然后根据该损失值调整整个网络的参数值,迭代训练,迭代过程中,执行训练集数据后,执行评估集数据进行模型分割性能评估,直到网络收敛;
至此完成模型训练的操作。
步骤3所述模型推理,具体如下:
在步骤2训练完成模型以后,固定模型参数,输入测试集的图像得到测试预测值,推理测试图像的语义类别预测值,计算测试预测值与真实值的平均交并比,评估预测准确度。
至此完成模型推理的操作。
下表为本发明所述的方法在Pascal VOC 2012中的准确度。FCN为基于深度学习的图像语义分割开篇之作,Our为本发明所提供的深度模型,aero,bike表示数据集中待语义分割的类别物,采用平均交并比(MIoU)评估图像语义分割的平均准确度。
Claims (2)
1.一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,其特征在于包括以下步骤:
步骤1:模型建立;
具体设计一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型,在编码器中通过注意力机制学习像素点图像特征之间的关联性并增强深层特征的语义信息,在解码器中通过将浅层语义信息和深层语义信息进行融合来捕获图像丰富的上下文语义信息,以扩大不同类别物体的类间差异性,最终提高分割准确性;
首先,建立编码器模型Encoder,对图像进行特征提取,通过骨干网络ResNet-101提取图像的浅层特征F1到深层特征F4,其中C1、C2是图像特征的通道数,H1、H2和W1、W2是图像特征的高度和宽度;
然后,建立二阶协方差注意力模型SCAM,在通道维度上捕获全局上下文信息对图像特征F4进行增强,得到具有增强语义信息的图像特征X1;
建立张量注意力模型TAM,对图像特征X1的上下文信息从空间维度和通道维度进行聚合,得到语义辨别力更强的图像特征图X2;
最后,建立解码器模型Decoder,对X2进行上采样得到特征图X3,通过对浅层特征F1和特征图X3进行融合,得到上下文关联性增强的特征图,并对融合后的特征图进行上采样,通过双线性插值得到图像的语义预测图Y;
其中,建立的二阶协方差注意力模型SCAM,其特征在于:
利用二阶统计量和局部跨通道交互策略,从通道维度增强图像特征辨别力,具体操作为:
首先计算两个特征图之间的二阶统计量协方差:
式中Cov(.)表示协方差运算;
再利用分组卷积设计局部跨通道交互策略,计算出不同通道语义特征的重要性,最后通过乘法逐通道加权到输入的图像特征F4,完成在通道维度上对语义特征的重标定:
X1=sigmoid(C1Dk(Groupc×1(M)))⊙F4 (2)
建立的张量注意力模型TAM,其特征在于:
通过引入偏置可学习参数张量A,计算特征图不同通道不同空间位置的注意力权重系数,将经典的非局部注意力S矩阵扩展为注意力张量Z1,更好地辨别不同位置不同通道的语义特征,具体运算如下:
Q=Conv(X1);K=Conv(X1);V=Conv(X1) (3)
S=Softmax(QT×K) (4)
A=Softmax(Conv(X1)) (5)
Z=A◎S (6)
X2=V×Z1 T (8)
步骤2:模型训练;
对步骤1所建立的模型进行训练,训练到整个模型收敛为止;
步骤3:模型推理;
将测试集的图像输入到训练好的模型中,推理测试图像的语义类别预测值,评估预测准确度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515772.XA CN116310305A (zh) | 2022-11-29 | 2022-11-29 | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211515772.XA CN116310305A (zh) | 2022-11-29 | 2022-11-29 | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116310305A true CN116310305A (zh) | 2023-06-23 |
Family
ID=86815526
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211515772.XA Pending CN116310305A (zh) | 2022-11-29 | 2022-11-29 | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116310305A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701681A (zh) * | 2023-07-10 | 2023-09-05 | 天津大学 | 一种用于语义分割的多查询网络 |
CN116740364A (zh) * | 2023-08-16 | 2023-09-12 | 长春大学 | 一种基于参考机制的图像语义分割方法 |
CN117788460A (zh) * | 2024-02-23 | 2024-03-29 | 中山格智美电器有限公司 | 基于机器视觉的马达转子铁壳切口毛刺质量评估方法 |
-
2022
- 2022-11-29 CN CN202211515772.XA patent/CN116310305A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116701681A (zh) * | 2023-07-10 | 2023-09-05 | 天津大学 | 一种用于语义分割的多查询网络 |
CN116701681B (zh) * | 2023-07-10 | 2024-04-12 | 天津大学 | 一种用于语义分割的多查询网络 |
CN116740364A (zh) * | 2023-08-16 | 2023-09-12 | 长春大学 | 一种基于参考机制的图像语义分割方法 |
CN116740364B (zh) * | 2023-08-16 | 2023-10-27 | 长春大学 | 一种基于参考机制的图像语义分割方法 |
CN117788460A (zh) * | 2024-02-23 | 2024-03-29 | 中山格智美电器有限公司 | 基于机器视觉的马达转子铁壳切口毛刺质量评估方法 |
CN117788460B (zh) * | 2024-02-23 | 2024-06-25 | 中山格智美电器有限公司 | 基于机器视觉的马达转子铁壳切口毛刺质量评估方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190752B (zh) | 基于深度学习的全局特征和局部特征的图像语义分割方法 | |
CN109543502B (zh) | 一种基于深度多尺度神经网络的语义分割方法 | |
CN111325165B (zh) | 考虑空间关系信息的城市遥感影像场景分类方法 | |
CN116310305A (zh) | 一种基于张量和二阶协方差注意力机制的编解码结构语义分割模型 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110263813B (zh) | 一种基于残差网络和深度信息融合的显著性检测方法 | |
CN112750129B (zh) | 一种基于特征增强位置注意力机制的图像语义分割模型 | |
CN110322445B (zh) | 基于最大化预测和标签间相关性损失函数的语义分割方法 | |
CN110458084B (zh) | 一种基于倒置残差网络的人脸年龄估计方法 | |
CN113221663B (zh) | 一种实时手语智能识别方法、装置及系统 | |
CN111898432B (zh) | 一种基于改进YOLOv3算法的行人检测系统及方法 | |
CN112489164B (zh) | 基于改进深度可分离卷积神经网络的图像着色方法 | |
CN113807355A (zh) | 一种基于编解码结构的图像语义分割方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN113052254B (zh) | 多重注意力幽灵残差融合分类模型及其分类方法 | |
CN113192073A (zh) | 基于交叉融合网络的服装语义分割方法 | |
CN110909741A (zh) | 一种基于背景分割的车辆再识别方法 | |
CN112991364A (zh) | 基于卷积神经网络跨模态融合的道路场景语义分割方法 | |
Wang et al. | TF-SOD: a novel transformer framework for salient object detection | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
Dong et al. | Field-matching attention network for object detection | |
CN114581789A (zh) | 一种高光谱图像分类方法及系统 | |
CN112991239B (zh) | 一种基于深度学习的图像反向恢复方法 | |
CN117115911A (zh) | 一种基于注意力机制的超图学习动作识别系统 | |
CN117173449A (zh) | 基于多尺度detr的航空发动机叶片缺陷检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |