CN117649666B - 一种基于动态多尺度信息查询的图像语义分割方法及系统 - Google Patents

一种基于动态多尺度信息查询的图像语义分割方法及系统 Download PDF

Info

Publication number
CN117649666B
CN117649666B CN202410122219.2A CN202410122219A CN117649666B CN 117649666 B CN117649666 B CN 117649666B CN 202410122219 A CN202410122219 A CN 202410122219A CN 117649666 B CN117649666 B CN 117649666B
Authority
CN
China
Prior art keywords
category
embedding
class
feature
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410122219.2A
Other languages
English (en)
Other versions
CN117649666A (zh
Inventor
魏志强
王庆
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ocean University of China
Original Assignee
Ocean University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ocean University of China filed Critical Ocean University of China
Priority to CN202410122219.2A priority Critical patent/CN117649666B/zh
Publication of CN117649666A publication Critical patent/CN117649666A/zh
Application granted granted Critical
Publication of CN117649666B publication Critical patent/CN117649666B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/42Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/54Surveillance or monitoring of activities, e.g. for recognising suspicious objects of traffic, e.g. cars on the road, trains or boats

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态多尺度信息查询的图像语义分割方法及系统,属于图像处理技术领域。本发明充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性,利用类别嵌入建立复杂交通场景的目标查询,与模型提取的多尺度全局特征交互实现不同类别的目标在各个尺度下特征的提取。之后,确定不同类别的目标在各个尺度下的特征的n维权重向量,动态分配多尺度权重后克服复杂交通场景下各类别多尺度特征差异的问题。从而有效提高复杂交通场景图像中不同尺度对象的分割精度,提升复杂交通场景的图像语义分割效果。解决现有方案不能准确获取各类目标相对重要的多尺度信息,导致图像语义分割效果差的技术问题。

Description

一种基于动态多尺度信息查询的图像语义分割方法及系统
技术领域
本发明涉及图像处理技术领域,并且更具体地,涉及一种基于动态多尺度信息查询的图像语义分割方法及系统。
背景技术
图像语义分割旨在将图像中的每个像素分配到预定义的语义类别中,从而实现对图像内容的深层次理解。多尺度序列交互在图像语义分割领域是一项关键的研究方向,该方法通过在不同尺度上对图像进行分析,并在不同层次上进行信息交互,从而提高模型对多尺度目标的感知能力,实现对复杂场景和对象的更准确、更全面理解的需求。Transformer模型作为一种基于注意力机制的深度学习模型,已经在计算机视觉中取得了显著的成功。基于Transformer模型的图像语义分割研究成为了计算机视觉中重要的研究热点,并在复杂交通场景的分析方面具有广泛的应用。例如发明申请CN115482382A,公开了一种基于Transformer架构的图像语义分割方法,将图像块输入到基于Transformer的编码器-解码器架构中,其中移动窗口机制的设计使得特征包含信息更全面,UNet++模型中嵌套和密集的跳跃连接能够充分提取上下文特征,使得特征融合更充分。
由于复杂交通场景存在不同类别目标尺度差异大、背景和场景复杂的特点,对复杂交通场景图像语义分割中的关键——各类别目标多尺度表征学习,带来了极大挑战。现有的多尺度序列交互的图像语义分割模型应用于复杂交通场景时,其分割性能会受到场景特征影响,不能解决各类别目标的多尺度特征差异问题。它们往往借助金字塔型网络或者输入多尺度图像独立编码的方式保留粗粒度和细粒度的多尺度特征,再使用交叉注意进行信息交互,这些方法提取各目标信息时默认所有尺度特征的重要程度相同,但是精细的细节通常在较大的尺度上能被最好地预测,在较小的尺度上,网络能够更好地理解场景。不同类别的目标的精细程度不同,所以提取各目标信息时不同尺度特征重要程度是不同的。
因此,现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息,导致图像语义分割效果差。
发明内容
为了解决上述背景技术所述的至少一个问题,本发明提供一种基于动态多尺度信息查询的图像语义分割方法及系统。
根据本发明的一个方面,提供了一种基于动态多尺度信息查询的图像语义分割方法,包括:
按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。
可选地,所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:
对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;
将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
可选地,所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:
将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];
将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];
将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;
将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
可选地,所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:
对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;
每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;
将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
根据本发明的一个方面,提供了一种基于动态多尺度信息查询的图像语义分割系统,包括:数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块,动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块;其中
数据预处理模块用于按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
编码器用于利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
多尺度特征查询模块用于定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
动态分配模块用于确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
预测输出模块用于将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。
可选地,所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:
对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;
将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
可选地,所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:
将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];
将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];
将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;
将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
可选地,所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:
对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;
每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;
将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
根据本发明的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本发明上述任一方面所述的方法。
根据本发明的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本发明上述任一方面所述的方法。
本发明通过Vision Transformer模型提取输入图像的多尺度全局特征,利用可学习的类别嵌入建立复杂交通场景的目标查询,然后与提取的多尺度全局特征交互实现对不同尺度下各类别目标信息的提取,得到不同类别的目标在各个尺度下的特征Fmultiscale。之后,针对每个类别目标建模其不同尺度特征的重要性,确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,克服了复杂交通场景下各类别多尺度特征差异的问题。最后,将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。本发明提出的图像语义分割方法充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性,以及同类别目标下多尺度特征间的重要性差异,提升复杂交通场景图像分割效果,可以有效提高复杂交通场景图像中不同尺度对象的分割精度。从而解决现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息,导致图像语义分割效果差的技术问题。
附图说明
通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:
图1是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割方法的一个流程示意图;
图2是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割方法的整体流程示意图;
图3是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割系统的结构示意图;
图4是本发明一示例性实施例提供的电子设备的结构。
具体实施方式
下面,将参考附图详细地描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
图1示出了本发明所提供的基于动态多尺度信息查询的图像语义分割方法的流程示意图。如图1所示,基于动态多尺度信息查询的图像语义分割方法,包括:
步骤S101:按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
可选地,所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
在本发明实施例中,如图2所示,获取输入图像后,需要对输入图像进行数据预处理,具体为:对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像。随后,该模块将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上执行展平操作,得到最终的数据序列Xinput。其中,H表示预处理图像的高度,W表示预处理图像的宽度。
步骤S102:利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
在本发明实施例中,将预处理得到的数据序列Xinput作为Vision Transformer模型(对应于图2中的Vision Transformer编码器)的三个输入张量,经过Vision Transformer编码器提取全局关联特征,得到特征序列F。
步骤S103:定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
可选地,所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
步骤S104:确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
可选地,所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
在本发明实施例中,通过动态多尺度类别信息查询解码器实现步骤S103和S104的流程步骤。动态多尺度类别信息查询解码器由基于类别的多尺度特征查询模块和动态分配模块构成,基于类别的多尺度特征查询模块由一层线性映射层,n个Transformer模块和一个拼接模块构成,动态分配模块主要由1+Nclass个全连接层,一个池化层和Nclass个softmax层构成。基于类别的多尺度特征查询模块的作用是利用类别嵌入建立目标查询,在不同尺度的高阶表征中提取各类别信息,动态分配模块的作用是通过对查询到的不同类别物体在各个尺度下的特征计算每个通道得分,表示这个类别该尺度特征的重要程度,针对每个类别目标建模不同尺度特征的重要性,实现动态多尺度查询。
具体地,基于类别的多尺度特征查询模块以随机初始化的方式定义待预测的类别嵌入,记为Fembedding,其中Fembedding的个数为Nclass表示待预测的类别数,每个序列长度都为特征序列F通道数的n倍。将编码器输出特征F用一个线性映射层映射成n个不同尺度但通道数相同的特征F1,F2,F3,...,Fn,同时将类别嵌入Fembedding在通道方向等分为n份得到类别嵌入Fe1,Fe2,Fe3,...,Fen。随后将Fei作为第i个Transformer模块的输入张量Qi,Fi作为输入张量Ki和输入张量Vi,其中i∈[1,n],通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取各类别信息,得到n个与类别嵌入Fe1形状相同的特征,将其按类别在通道方向拼接得到不同类别目标在各个尺度下的特征Fmultiscale
动态分配模块对前一模块查询到的特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量。每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度。接下来将特征Fmultiscale在通道维度等分成n份,在每个类别维度使用权重向量进行加权求和,动态分配多尺度权重后得到特征Fdynamic,实现了各类别目标的动态多尺度信息查询。
步骤S105:将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。
在本发明实施例中,通过预测输出模块实现步骤S105的流程步骤。预测输出模块由上采样模块和Softmax分类器构成,将动态多尺度信息查询解码器输出的特征Fdynamic与编码器输出的特征F相乘,采用上采样模块将分辨率调整至预处理图像的分辨率H×W,得到类掩码Ffinal。再用Softmax分类器逐像素预测语义类别,得到最终的分割结果图。
综上所述,本发明通过Vision Transformer模型提取输入图像的多尺度全局特征,利用可学习的类别嵌入建立复杂交通场景的目标查询,然后与提取的多尺度全局特征交互实现对不同尺度下各类别目标信息的提取,得到不同类别的目标在各个尺度下的特征Fmultiscale。之后,针对每个类别目标建模其不同尺度特征的重要性,确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,克服了复杂交通场景下各类别多尺度特征差异的问题。最后,将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。本发明提出的图像语义分割方法充分考虑了复杂交通场景下不同类别目标特征与多尺度全局特征的相关性,以及同类别目标下多尺度特征间的重要性差异,提升复杂交通场景图像分割效果,可以有效提高复杂交通场景图像中不同尺度对象的分割精度。从而解决现有的图像语义分割方法不能准确获取各类目标相对重要的多尺度信息,导致图像语义分割效果差的技术问题。
示例性系统
图3是本发明一示例性实施例提供的基于动态多尺度信息查询的图像语义分割系统的结构示意图。如图3所示,系统包括:
数据预处理模块310、编码器320、动态多尺度类别信息查询解码器330和预测输出模块340,动态多尺度类别信息查询解码器330包括多尺度特征查询模块和动态分配模块;其中
数据预处理模块310用于按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
编码器320用于利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
多尺度特征查询模块用于定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
动态分配模块用于确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
预测输出模块340用于将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图。
可选地,所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:
对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;
将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
可选地,所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:
将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];
将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];
将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;
将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
可选地,所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:
对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;
每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;
将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
本发明的实施例的基于动态多尺度信息查询的图像语义分割系统与本发明的另一个实施例的基于动态多尺度信息查询的图像语义分割方法相对应,在此不再赘述。
示例性电子设备
图4是本发明一示例性实施例提供的电子设备的结构。如图4所示,电子设备40包括一个或多个处理器41和存储器42。
处理器41可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。
存储器42可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器41可以运行所述程序指令,以实现上文所述的本发明的各个实施例的软件程序的对历史变更记录进行信息挖掘的方法以及/或者其他期望的功能。在一个示例中,电子设备还可以包括:输入装置43和输出装置44,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。
此外,该输入装置43还可以包括例如键盘、鼠标等等。
该输出装置44可以向外部输出各种信息。该输出装置44可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。
当然,为了简化,图4中仅示出了该电子设备中与本发明有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备还可以包括任何其他适当的组件。
示例性计算机程序产品和计算机可读存储介质
除了上述方法和设备以外,本发明的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如JavaC++等,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本发明的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的对历史变更记录进行信息挖掘的方法中的步骤。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,在本发明中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本发明为必须采用上述具体的细节来实现。
本说明书中各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言,由于其与方法实施例基本对应,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
可能以许多方式来实现本发明的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本发明的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本发明实施为记录在记录介质中的程序,这些程序包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。
还需要指出的是,在本发明的系统、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此,本发明不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (2)

1.一种基于动态多尺度信息查询的图像语义分割方法,其特征在于,包括:
按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图;
所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:
对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;
将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:
将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];
将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];
将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;
将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:
对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;
每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;
将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
2.一种基于动态多尺度信息查询的图像语义分割系统,其特征在于,包括:数据预处理模块、编码器、动态多尺度类别信息查询解码器和预测输出模块,动态多尺度类别信息查询解码器包括多尺度特征查询模块和动态分配模块;其中
数据预处理模块用于按照预设的规则,对输入图像进行预处理,得到数据序列Xinput
编码器用于利用Vision Transformer模型对数据序列Xinput进行全局关联特征的提取,得到特征序列F;
多尺度特征查询模块用于定义待预测的类别嵌入Fembedding,利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale;其中,类别嵌入Fembedding的个数为Nclass,Nclass表示待预测的类别数,每个类别嵌入Fembedding的序列长度均为特征序列F通道数的n倍;
动态分配模块用于确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic;其中,每个权重向量中n个不同维度的值表示该类别n个不同尺度下的特征的重要程度;
预测输出模块用于将特征Fdynamic与特征序列F相乘,将相乘得到的特征的分辨率调整至预设值,得到类掩码Ffinal,用Softmax分类器逐像素预测类掩码Ffinal的语义类别,得到输入图像的分割结果图;
所述按照预设的规则,对输入图像进行预处理,得到数据序列Xinput,包括:
对输入图像进行剪裁或缩放,生成大小为H×W的预处理图像;其中,H表示预处理图像的高度,W表示预处理图像的宽度;
将预处理图像进行交叠切分,形成一系列图像块,并通过在通道维度上对图像块执行展平操作,得到最终的数据序列Xinput
所述利用类别嵌入Fembedding建立目标查询,在不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征,并将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale,包括:
将特征序列F映射成n个不同尺度但通道数相同的特征Fi;其中,i∈[1,n];
将类别嵌入Fembedding在通道方向等分为n份,得到类别嵌入Fei;其中,i∈[1,n];
将类别嵌入Fei作为第i个Transformer模块的输入张量Qi,将特征Fi作为第i个Transformer模块的输入张量Ki和输入张量Vi,通过n个并行的Transformer模块分别交互实现从不同尺度的高阶表征中提取特征序列F的各类别信息,得到n个与类别嵌入Fei形状相同的特征;
将n个与类别嵌入Fei形状相同的特征按类别在通道方向拼接,得到不同类别的目标在各个尺度下的特征Fmultiscale
所述确定不同类别的目标在各个尺度下的特征Fmultiscale的n维权重向量,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic,包括:
对特征Fmultiscale先使用一个全连接层在类别方向进行特征融合,再进行全局平均池化,随后使用Nclass个全连接层映射出Nclass个维度为n的向量;
每个向量再经过一个softmax层,共得到Nclass个n维权重向量,其中每个权重向量中n个不同维度的值表示该类别n个不同尺度特征的重要程度;
将特征Fmultiscale在通道维度等分成n份,对每个类别的特征Fmultiscale使用对应的权重向量进行加权求和,得到特征Fdynamic
CN202410122219.2A 2024-01-30 2024-01-30 一种基于动态多尺度信息查询的图像语义分割方法及系统 Active CN117649666B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410122219.2A CN117649666B (zh) 2024-01-30 2024-01-30 一种基于动态多尺度信息查询的图像语义分割方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410122219.2A CN117649666B (zh) 2024-01-30 2024-01-30 一种基于动态多尺度信息查询的图像语义分割方法及系统

Publications (2)

Publication Number Publication Date
CN117649666A CN117649666A (zh) 2024-03-05
CN117649666B true CN117649666B (zh) 2024-04-26

Family

ID=90046389

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410122219.2A Active CN117649666B (zh) 2024-01-30 2024-01-30 一种基于动态多尺度信息查询的图像语义分割方法及系统

Country Status (1)

Country Link
CN (1) CN117649666B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780296A (zh) * 2021-09-13 2021-12-10 山东大学 基于多尺度信息融合的遥感图像语义分割方法及系统
CN115953582A (zh) * 2023-03-08 2023-04-11 中国海洋大学 一种图像语义分割方法及系统
CN116133215A (zh) * 2022-12-13 2023-05-16 中建新疆建工集团第三建设工程有限公司 建筑物夜景的照明控制方法及其系统
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN116597135A (zh) * 2023-03-22 2023-08-15 成都理工大学 Rgb-d多模态语义分割方法
CN117292135A (zh) * 2023-10-31 2023-12-26 北京航空航天大学 一种图像分割方法及系统
CN117372686A (zh) * 2023-06-28 2024-01-09 昆明理工大学 一种遥感图像复杂场景语义分割方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220230282A1 (en) * 2021-01-12 2022-07-21 Samsung Electronics Co., Ltd. Image processing method, image processing apparatus, electronic device and computer-readable storage medium

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113780296A (zh) * 2021-09-13 2021-12-10 山东大学 基于多尺度信息融合的遥感图像语义分割方法及系统
CN116133215A (zh) * 2022-12-13 2023-05-16 中建新疆建工集团第三建设工程有限公司 建筑物夜景的照明控制方法及其系统
CN115953582A (zh) * 2023-03-08 2023-04-11 中国海洋大学 一种图像语义分割方法及系统
CN116597135A (zh) * 2023-03-22 2023-08-15 成都理工大学 Rgb-d多模态语义分割方法
CN116189180A (zh) * 2023-04-28 2023-05-30 青岛理工大学 一种城市街景广告图像分割方法
CN117372686A (zh) * 2023-06-28 2024-01-09 昆明理工大学 一种遥感图像复杂场景语义分割方法及系统
CN117292135A (zh) * 2023-10-31 2023-12-26 北京航空航天大学 一种图像分割方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MST: Adaptive Multi-Scale Tokens Guided Interactive Segmentation;Long Xu et al.;《arXiv》;20240109;第1-11页 *
Towards Adaptive Multi-Scale Intermediate Domain via Progressive Training for Unsupervised Domain Adaptation;Xian Zhao et al.;《 IEEE Transactions on Multimedia》;20231103;第1 - 11页 *
利用多尺度语义模型的复杂图像目标自动提取方法;李宇等;《武汉大学学报(信息科学版)》;20120905;37(09);第1064-1067页+第1072页 *
静态岬湾海滩抛物线模型的优化与应用;华文豪等;《应用海洋学学报》;20240117;第1-11页 *

Also Published As

Publication number Publication date
CN117649666A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
Xie et al. Spatially adaptive inference with stochastic feature sampling and interpolation
Guo et al. Data‐driven flood emulation: Speeding up urban flood predictions by deep convolutional neural networks
US20230359865A1 (en) Modeling Dependencies with Global Self-Attention Neural Networks
CN110706302B (zh) 一种文本合成图像的系统及方法
US11354906B2 (en) Temporally distributed neural networks for video semantic segmentation
KR20210029785A (ko) 활성화 희소화를 포함하는 신경 네트워크 가속 및 임베딩 압축 시스템 및 방법
CN111368993A (zh) 一种数据处理方法及相关设备
CN114724386B (zh) 智慧交通下的短时交通流量预测方法、系统和电子设备
CN111292334B (zh) 一种全景图像分割方法、装置及电子设备
CN112288831A (zh) 基于生成对抗网络的场景图像生成方法和装置
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN114283347B (zh) 目标检测方法、系统、智能终端及计算机可读存储介质
CN114565812A (zh) 语义分割模型的训练方法、装置和图像的语义分割方法
CN115457492A (zh) 目标检测方法、装置、计算机设备及存储介质
CN117217280A (zh) 神经网络模型优化方法、装置及计算设备
CN112561050B (zh) 一种神经网络模型训练方法及装置
Prabhakar et al. Mechanical intelligence for learning embodied sensor-object relationships
Cao et al. An image caption method based on object detection
CN116980541B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN113989420A (zh) 图像生成系统及方法
CN117649666B (zh) 一种基于动态多尺度信息查询的图像语义分割方法及系统
Wang et al. Multi-scale dense and attention mechanism for image semantic segmentation based on improved DeepLabv3+
CN116227549A (zh) 一种模型量化方法及其装置
CN117255998A (zh) 使用空间和时间上的注意力对来自视频序列的对象表示的无监督学习
de Moura et al. Skipping CNN convolutions through efficient memoization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant