CN115661505A - 一种语义感知的图像阴影检测方法 - Google Patents

一种语义感知的图像阴影检测方法 Download PDF

Info

Publication number
CN115661505A
CN115661505A CN202211089904.7A CN202211089904A CN115661505A CN 115661505 A CN115661505 A CN 115661505A CN 202211089904 A CN202211089904 A CN 202211089904A CN 115661505 A CN115661505 A CN 115661505A
Authority
CN
China
Prior art keywords
shadow
semantic
image
swin
supervision
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211089904.7A
Other languages
English (en)
Inventor
周凯
邵艳利
方景龙
魏丹
王兴起
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Dianzi University
Original Assignee
Hangzhou Dianzi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Dianzi University filed Critical Hangzhou Dianzi University
Priority to CN202211089904.7A priority Critical patent/CN115661505A/zh
Publication of CN115661505A publication Critical patent/CN115661505A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种语义感知的图像阴影检测方法,以阴影图像为输入,进行端到端的阴影掩膜预测。包括构建阴影检测网络、制作语义标注集和实现多任务学习三部分。具体是通过构建一个基于Swin Transformer的阴影检测网络,用于学习全局和长程信息交互,融合了阴影多尺度预测图,保证检测结果的完整度和细粒度。然后利用公开数据集对阴影图像GT进行了语义标注以获得语义标签。最后设计了一个结合阴影监督和语义监督的多任务学习框架,巧妙的利用了图像多尺度特征信息,进行鲁棒的阴影知识学习。经过训练后得到了一个参数大小为24.37M的高效阴影检测网络,可以有效地避免歧义区域的干扰,克服了现有阴影检测方法存在的局限性。

Description

一种语义感知的图像阴影检测方法
技术领域
本发明属于目标检测技术领域,具体涉及一种语义感知的图像阴影检测方法。
背景技术
阴影常见于现实场景中,它是由遮挡物(如人、动物、建筑等)遮挡光源产生的。在一些视觉场景中,阴影可以为场景理解提供有价值的线索,如光源方向、物体几何和相机参数。在一些视觉任务中,阴影的存在会降低模型的性能,需要提前检测并去除阴影,例如,对文本图像和遥感图像进行阴影检测和去除,可以增强图像的可读性和可识别性。此外,在图像分割、目标检测和视觉跟踪等其他任务中,阴影的存在容易造成歧义,有可能被错误识别成目标。因此,准确的检测阴影对保证下游的视觉任务准确率至关重要。
传统的阴影检测方法主要是基于手工特征,如光照、颜色、纹理等,建立物理模型或机器学习模型来检测阴影,这些方法在现实场景中通常会遭受性能下降,因为手工制作的特性没有足够的分辨力。近年来,卷积神经网络(Convolutional Neural Networks,CNNs)凭借其强大的特征表示能力被成功的应用在各种视觉任务中。目前,基于CNN的阴影检测方法已经成为该领域的主流,取得了巨大的性能提升,它们通常采用两种策略,即结合上下文信息或扩大训练数据。针对这些方法在公开数据集ISTD和SBU的检测结果进行分析发现:被误检的样本大多为歧义案例:(1)类阴影区域与阴影颜色相似,经常被误判为阴影;(2)阴影区域存在一些异质背景,形成相对较亮的区域,削弱了阴影的颜色,使得阴影检测结果不完整。
近期出现的一些方法如MTMT-Net和FSDNet,尝试使用额外的训练数据来提高模型的性能,然而,这些方法仍然受上述歧义案例的影响,因为它们的模型平等地对待所有的检测案例。产生歧义的可能有两个原因:(1)阴影检测的本质是对像素进行二值分类,而阴影标签(Ground Truth,GT)仅以阴影掩膜的形式呈现,缺乏更多的阴影先验知识,例如遮挡物形状类别,因此无法适应歧义场景;(2)由于卷积操作提取的空间信息缺乏语义交互,基于CNN的阴影检测方法在长程依赖关系建模方面存在较大的局限性,因此当阴影区域的形状、大小或纹理发生显著变化时,这些方法通常表现出较弱的性能。
发明内容
针对现有技术的不足,本发明提出了一种语义感知的图像阴影检测方法,结合阴影形状语义,以克服歧义区域的影响,提高图像阴影检测的准确性和高效性。
一种语义感知的图像阴影检测方法,具体包括以下步骤:
步骤1、构建基于Swin Transformer的阴影检测网络。
所述阴影检测网络的架构为端到端,包括编码器和解码器。
步骤1.1、构建编码器
采用Swin Transformer作为骨干,构建4层网络,每层使用2个连续的SwinTransformer Block,用于构建输入图像的层次化特征图谱,然后通过调整参数在各层产生分辨率依次为
Figure BDA0003836595670000021
的特征,得到编码器。
步骤1.2、构建解码器
在编码器的每层侧端后面分别通过两个连续的Res-conv和一个1×1卷积,将侧端得到的多尺度预测图进行共享连接,得到解码器。
步骤2、对阴影图像的GT进行语义标注。
首先根据数据集中的遮挡物形状将图像中的阴影分为不同的类别,然后使用不同的颜色来表示这些阴影类别,并在GT上添加相应的颜色掩膜,得到语义标签集。
步骤3、深监督学习
在解码器中构建一个多任务学习框架,对通过编码器获得的不同尺度的阴影特征图进行多任务监督,以得到多尺度阴影预测图,包括阴影图和语义阴影图。
步骤3.1、阴影监督。
低级特征包含图像细节,有助于检测细小阴影和阴影边界,因此,利用GT对编码器的前三层网络生成的特征图进行阴影区域监督,通过单通道的1×1卷积来生成细节丰富的多尺度阴影图。
步骤3.2、语义监督
高级特征包含图像语义信息,有助于区分阴影和背景,并进一步区分阴影类别,因此,利用语义标签对编码器的第四层网络生成的语义阴影图进行语义监督,通过K通道的1×1卷积来生成语义阴影图。
步骤3.3、融合检测
将步骤3.1得到的多尺度阴影图和步骤3.2得到的语义阴影图压缩和上采样恢复到相同的分辨率后进行共享连接,利用语义标签进行监督,得到融合的语义阴影图,进行二值化处理,输出最终的阴影检测结果。
本发明具有以下有益效果:
1、基于Swin Transformer设计的阴影检测网络克服了CNN存在的局限性,能够很好地学习全局和长程语义信息交互。在检测过程中,融合了阴影多尺度预测图,使最终的检测结果更加完整和细粒。因此,当阴影区域的形状、大小和纹理发生显著变化时,本方法依然表现出较好的性能。此外,受益于Swin Transformer较小的计算复杂度,使得本方法能够实现高效的阴影检测。
2、结合阴影形状语义设计的多任务学习策略克服了传统基于GT训练的的局限性,使得阴影检测具有语义感知能力,对于现有技术难以准确检测的歧义案例,本方法具有明显的优势,在检测中能够有效克服“类阴影的非阴影区域”和“非阴影模式的阴影区域”两种歧义影响,从而显著提高了检测性能。
3、基于深监督设计的多任务学习框架,其顶层学习类别相关的语义信息能够克服歧义干扰,底层学习类别无关的阴影信息能够为顶层补充细节。共享连接底层和顶层的预测图能够得到一个更为完整细粒的检测结果。为了协调不同学习任务,该框架还嵌入了四个信息缓冲单元,解决了因不同监督任务带来的网络梯度信号冲突问题。
附图说明
图1为语义感知的图像阴影检测方法流程图;
图2为实施例中基于Swin Transformer的阴影检测网络示意图;
图3为实施例中阴影GT的语义标注示意图;
图4为实施例中语义标签集分析结果,其中a、b分别为两个标签集的阴影类别及其比例分布统计,c、d为两个标签集中不同类别之间的相互依赖关系。
图5为实施例中多任务学习框架的共享连接示意图;
图6为实施例中的阴影检测结果示意图。
具体实施方式
以下结合附图对本发明作进一步的解释说明;
如图1所示,一种语义感知的图像阴影检测方法,以阴影图像为输入,进行端到端的预测阴影检测结果。具体包括以下步骤:
步骤1、构建基于Swin Transformer的阴影检测网络。
如图2所示,所述阴影检测网络的架构为端到端,包括编码器和解码器。
步骤1.1、构建编码器
采用Swin Transformer作为骨干,构建4层网络,每层使用2个连续的SwinTransformer Block,构建层次化的特征图谱,然后调整各层特征的分辨率依次为
Figure BDA0003836595670000041
得到编码器。
在编码器中,输入的阴影图像I∈R256×256×3首先被图块分割层(Patch Partition)分割为多个不重叠的图块,本设施例设置分割后的图块尺寸为2×2,则对应的特征维数为2×2×3=12,图像I经过图块分割层后被转换成嵌入的序列,然后通过编码器的4层网络进行4个阶段的层次化特征图构建。在第一个阶段,首先通过线性嵌入层(Linear Embedding)进行特征维数的变换,然后通过两个连续的Swin Transformer模块(two successive SwinTransformer Block,STB×2)进行表示学习。在第二~第四个阶段,首先通过图块合并层(Patch Merging)进行下采样,然后再通过STB×2进行特征变换。在STB×2中,第一个SwinTransformer模块采用基于窗口的多头自注意力模块(Window-based Multi-head SelfAttention,W-MSA),通过将图块划分成不重叠的区域后,进行区域内自注意力计算;第二个Swin Transformer模块采用基于移动窗口的多头自注意力模块(Shifted Window-basedMulti-head Self Attention,SW-MSA),实现窗口之间的信息交互。
步骤1.2、构建解码器
为了提高检测效率,本申请抛弃了Swin-Unet的解码器结构,而是利用了编码器每个阶段输出的预测结果。具体是在编码器的每个侧端后面连接一个包括两个Res-conv的信息缓冲单元(Information Buffer,IB),然后通过1×1卷积得到阴影多尺度预测图。
步骤2、对阴影图像的GT进行语义标注。
本实施例使用公开数据集ISTD和SBU制作语义标签集,如图3所示,首先根据ISTD和SBU数据集的遮挡物类型将阴影分为不同类别,例如人(Person)、动物(Animal)、伞(Umbrella)、遮挡板(Board)、建筑(Building)等,然后使用不同颜色的掩膜作为语义掩模来区分阴影类别,也就是将语义掩膜添加到的所有的GT上,分别得到得到语义标签集Sem-ISTD和Sem-SBU。
在本实施例中,标注GT的规则为:
①若一副图像中包含多个阴影类别,且存在不同类型的阴影掩模相连时,根据遮挡物先验来划分掩膜的边界。
②对于形状相同、尺寸不同的阴影类别,例如ISTD数据集中不同尺寸大小的矩形遮挡板,由于其阴影形状类似,因此归为同一个类别。
③将外形相似的遮挡物的阴影归为同一个类别,例如SBU数据集中的摩托车(motorcycle)和自行车(bicycle),统一归类为“cycle”。
最终得到的Sem-ISTD和Sem-SBU中,分别有5种和9种阴影类别。对Sem-ISTD和Sem-SBU进行进一步分析,如图4所示,其中a、b分别列出了Sem-ISTD和Sem-SBU中每一个阴影类别的比率分布,比率(Ratio)表示包含同一类别的图像数量占整个数据集数量的比例。图c、d分别表示Sem-ISTD和Sem-SBU中的阴影类别之间的相互依赖关系。由图4可得,Sem-SBU中的阴影类别多于Sem-ISTD;Sem-SBU相较于Sem-ISTD具有更复杂的类别依赖关系。
步骤3、深监督学习
在解码器中基于深监督构建一个多任务学习框架,对编码器输出的不同尺度的阴影特征图进行多任务监督,将阴影监督和语义监督相结合,充分利用网络提取的图像低级、高级特征。
步骤3.1、阴影监督。
对编码器第一~第三层的输出通过信息缓冲单元得到的阴影预测图使用单通道的1×1卷积来生成不同尺度的阴影图{S1,S2,S3}=S。利用阴影标签GT Y={yi:i=1,2,…,|I|}对编码器的前三层网络生成的特征图进行阴影区域监督,基于交叉熵设计的阴影监督损失为:
Figure BDA0003836595670000051
其中,W表示所有网络参数,m=1、2、3,表示编码器侧端序号,
Figure BDA0003836595670000052
表示在像素i处的激活函数值,P(·)表示激活函数Sigmoid。
步骤3.2、语义监督
对编码器第四层的输出通过信息缓冲单元得到的阴影预测图使用K通道的1×1卷积来生成语义阴影图
Figure BDA0003836595670000053
其中,K表示阴影类别的数量。利用语义标签{C1,C2,…,CK}对编码器的第四层网络生成的语义阴影图进行语义监督,其中,
Figure BDA0003836595670000054
表示第k类阴影图。对应的语义监督损失为:
Figure BDA0003836595670000055
其中,
Figure BDA0003836595670000056
表示在像素i处并且属于第k类的激活函数值。
步骤3.3、如图5所示,将步骤3.1得到的多尺度阴影图S分别与步骤3.2中得到的语义阴影图A4的每个通道进行共享连接(Shared Concatenation,SC),获得堆叠的阴影激活图Sf
Figure BDA0003836595670000061
然后使用K个1×1卷积将Sf融合成具有K通道的语义阴影图,对于融合后的语义阴影图,设置语义监督损失为:
Figure BDA0003836595670000062
其中,Sf是式(3)中堆叠的阴影激活图。
将语义阴影图进行二值化得到阴影掩膜,即得到最终的检测结果,联合阴影监督损失和语义监督损失,最终设置监督损失为:
Figure BDA0003836595670000063
在ISTD和SBU数据集上分别进行40次和60次的训练迭代,通过随机水平翻转、颜色抖动和模糊进行数据增广,以增加数据多样性,并使用随机梯度下降算法(StochasticGradient Descent,SGD)来优化网络的所有参数,批大小设置为16,学习率设置为0.001,动量衰减和权值衰减分别设置为0.9和1e-4,最后网络的参数大小为24.37M。
如图6所示,本方法能够有效检测背景技术中提到的两种歧义案例。
为了验证本方法的有效性以及比较本方法的性能,本实施例通过PyTorch 1.7.0和Python3.6实现网络模型,在具有24GB内存的GeForce RTX 3090GPU上训练网络模型。使用ISTD、SBU和UCF三个公开的数据集,与ScGAN、DSC、A+D Net、BDRAR、DSDNet、MTMT-Net和FSDNet 7种阴影检测方法进行对比,并采用平衡误差率(Balance Error Rate,BER)作为评价指标:
Figure BDA0003836595670000064
其中,TP、TN、P、N分别表示正例分对、负例分对、阴影和非阴影的像素个数。在实验中,BER值越低,表示阴影检测的性能越好。
所述ISTD数据集包含1870幅阴影图像,其中1330幅作为训练集,540幅作为测试集,包括阴影GT和无阴影图像两种对应的标签数据,本实施例中仅使用阴影GT。所述SBU数据集包含4727对阴影图像/阴影GT,其中4089对作为训练集,638对作为测试集。所述UCF中包含110张与SBU风格相似的图像,本实施例将其用作测试集。实验过程中,首先在SBU训练集上训练模型,然后分别在SBU和UCF测试集上测试模型。对于语义监督任务,使用步骤2中构建的语义标签集Sem-ISTD和Sem-SBU。
阴影检测实验结果如表1所示,其中“FPS”表示每秒检测帧数、“Para”表示模型的参数大小、“S”和“NS”分别表示阴影和非阴影区域的像素错误率。“本方法-”表示不使用语义监督,但使用深监督:
Figure BDA0003836595670000071
表1
可以观察出,本方法在三个数据集上都获得了最好的检测性能。其中,DSDNet是一种专为歧义案例设计的基于CNN的网络模型。但是,在实际检测中,当阴影颜色与背景相似,特别是这两个相似区域相连时,这种方法表现很差,因为CNN很难捕捉到全局和长程语义信息交互。相较于DSDNet,本方法基于Swin Transformer设计的检测网络,有效地解决了这一问题。MTMT-Net和本方法都是通过多任务学习来提高检测性能的,相较于MTMT-Net,本方法结合语义监督任务,在ISTD、SBU和UCF数据集上的BER值分别降低了11.05%、4.13%和3.88%。本方法-通过深监督Swin Transformer和融合多尺度预测实现了与MTMT-Net相当的性能。在所有方法中,FSDNet的模型参数最小,但是牺牲了推理精度,虽然本方法的参数量多于FSDNet,但也能以76.23FPS的速度实现高效的阴影检测。此外,本方法在UCF数据集上的表现表明,利用鲁棒的阴影检测网络和多任务学习策略可以很好地推广到新的阴影场景。

Claims (5)

1.一种语义感知的图像阴影检测方法,其特征在于:具体包括以下步骤:
步骤1、构建基于Swin Transformer的阴影检测网络;
步骤1.1、构建编码器
采用Swin Transformer作为骨干,构建4层网络,每层使用2个连续的SwinTransformer Block,调整各层特征的分辨率依次为
Figure FDA0003836595660000011
得到编码器;
步骤1.2、构建解码器
在编码器的每个侧端后面分别连接两个连续的Res-conv和一个1×1卷积,将侧端得到的多尺度预测图进行共享连接,得到解码器;
步骤2、对阴影图像的GT进行语义标注;
首先根据数据集中的遮挡物形状将图像中的阴影分为不同的类别,然后使用不同的颜色来表示这些阴影类别,并在GT上添加相应的颜色掩膜,得到语义标签集;
步骤3、深监督学习
步骤3.1、阴影监督
利用GT对解码器的前三层网络生成的特征图进行阴影区域监督,通过单通道的1×1卷积生成多尺度阴影图;
步骤3.2、语义监督
利用语义标签对解码器的第四层网络生成的语义阴影图进行语义监督,通过K通道的1×1卷积来生成语义阴影图;
步骤3.3、融合检测
将步骤3.1得到的多尺度阴影图和步骤3.2得到的语义阴影图压缩和上采样恢复到相同的分辨率后进行共享连接,利用语义标签进行监督,得到融合的语义阴影图,进行二值化处理,输出最终的阴影检测结果。
2.如权利要求1所述一种语义感知的图像阴影检测方法,其特征在于:在编码器中,输入的阴影图像首先被图块分割层分割为多个不重叠的图块,然后通过编码器的4层网络进行4个阶段的层次化特征图构建;在第一个阶段,首先通过线性嵌入层进行特征维数的变换,然后通过两个连续的Swin Transformer模块进行表示学习;在第二~第四个阶段,首先通过图块合并层进行下采样,然后再通过两个连续的Swin Transformer模块进行特征变化;在每一层网络的两个连续的Swin Transformer模块中,第一个Swin Transformer模块采用基于窗口的多头自注意力模块,通过将图块划分成不重叠的区域后,进行区域内的自注意力计算;第二个Swin Transformer模块采用基于移动窗口的多头自注意力模块,实现窗口之间的信息交互。
3.如权利要求1所述一种语义感知的图像阴影检测方法,其特征在于:步骤2中使用公开数据集ISTD和SBU制作语义标签集,并设定如下标注规则:
①若一副图像中包含多个阴影类别,且存在不同类型的阴影掩模相连时,根据遮挡物先验来划分掩膜的边界;
②将形状相同、尺寸不同的阴影归为同一个类别;
③将由外形相似的遮挡物产生的阴影归为同一个类别。
4.如权利要求1所述一种语义感知的图像阴影检测方法,其特征在于:使用随机梯度下降算法来优化网络的所有参数,批大小设置为16,学习率设置为0.001,动量衰减和权值衰减分别设置为0.9和1e-4。
5.如权利要求1所述一种语义感知的图像阴影检测方法,其特征在于:步骤3中阴影监督损失为:
Figure FDA0003836595660000021
其中,W表示所有网络参数,m=1、2、3,表示编码器侧端序号,
Figure FDA0003836595660000022
表示在像素i处的激活函数值,S={S1,S2,S3},表示编码器第一~第三层生成的阴影图,P(·)表示激活函数Sigmoid,Y={yi:i=1,2,…,|I|}表示阴影标签GT;
语义监督损失为:
Figure FDA0003836595660000023
其中,
Figure FDA0003836595660000024
表示在像素i处的激活函数值,并且属于第k类,
Figure FDA0003836595660000025
表示编码器第四层生成的语义阴影图,
Figure FDA0003836595660000026
表示第k类阴影图的语义标签;
对于融合后的语义阴影图,设置语义监督损失为:
Figure FDA0003836595660000027
其中,
Figure FDA0003836595660000028
表示堆叠的阴影激活图;
联合阴影监督和语义监督的损失为:
Figure FDA0003836595660000031
CN202211089904.7A 2022-09-07 2022-09-07 一种语义感知的图像阴影检测方法 Pending CN115661505A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211089904.7A CN115661505A (zh) 2022-09-07 2022-09-07 一种语义感知的图像阴影检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211089904.7A CN115661505A (zh) 2022-09-07 2022-09-07 一种语义感知的图像阴影检测方法

Publications (1)

Publication Number Publication Date
CN115661505A true CN115661505A (zh) 2023-01-31

Family

ID=85024380

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211089904.7A Pending CN115661505A (zh) 2022-09-07 2022-09-07 一种语义感知的图像阴影检测方法

Country Status (1)

Country Link
CN (1) CN115661505A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841625A (zh) * 2023-02-23 2023-03-24 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN116311192A (zh) * 2023-05-15 2023-06-23 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116519106A (zh) * 2023-06-30 2023-08-01 中国农业大学 一种用于测定生猪体重的方法、装置、存储介质和设备
CN117575976A (zh) * 2024-01-12 2024-02-20 腾讯科技(深圳)有限公司 图像阴影的处理方法、装置、设备及存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115841625A (zh) * 2023-02-23 2023-03-24 杭州电子科技大学 一种基于改进U-Net模型的遥感建筑物影像提取方法
CN116311192A (zh) * 2023-05-15 2023-06-23 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116311192B (zh) * 2023-05-15 2023-08-22 中国科学院长春光学精密机械与物理研究所 空间目标定位、区域超分辨重建及类型识别的系统及方法
CN116519106A (zh) * 2023-06-30 2023-08-01 中国农业大学 一种用于测定生猪体重的方法、装置、存储介质和设备
CN116519106B (zh) * 2023-06-30 2023-09-15 中国农业大学 一种用于测定生猪体重的方法、装置、存储介质和设备
CN117575976A (zh) * 2024-01-12 2024-02-20 腾讯科技(深圳)有限公司 图像阴影的处理方法、装置、设备及存储介质
CN117575976B (zh) * 2024-01-12 2024-04-19 腾讯科技(深圳)有限公司 图像阴影的处理方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107967451B (zh) 一种对静止图像进行人群计数的方法
CN115661505A (zh) 一种语义感知的图像阴影检测方法
CN108830171B (zh) 一种基于深度学习的智能物流仓库引导线视觉检测方法
WO2021218786A1 (zh) 一种数据处理系统、物体检测方法及其装置
CN114220035A (zh) 一种基于改进yolo v4的快速害虫检测方法
CN111080645A (zh) 基于生成式对抗网络的遥感图像半监督语义分割方法
CN107862275A (zh) 人体行为识别模型及其构建方法和人体行为识别方法
CN106650617A (zh) 一种基于概率潜在语义分析的行人异常识别方法
Xiong et al. Contextual Sa-attention convolutional LSTM for precipitation nowcasting: A spatiotemporal sequence forecasting view
CN113963251A (zh) 一种海洋生物检测方法、系统和设备
CN117237986A (zh) 一种基于改进YOLOv7模型的鱼类目标个体位置检测方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
Gao et al. Robust lane line segmentation based on group feature enhancement
CN112989952B (zh) 一种基于遮罩引导的人群密度估计方法及装置
Liang Improved EfficientDET algorithm for basketball players’ upper limb movement trajectory recognition
CN116778346B (zh) 一种基于改进自注意力机制的管线识别方法及系统
CN112200264B (zh) 基于散射复用的高通量免成像分类方法与装置
CN117893957A (zh) 用于流计数的系统和方法
Kizrak et al. Crowd density estimation by using attention based capsule network and multi-column CNN
Zhou et al. Semantic-aware Transformer for shadow detection
CN114140524B (zh) 一种多尺度特征融合的闭环检测系统及方法
CN113673411B (zh) 一种基于注意力机制的轻量级移位图卷积行为识别方法
Yang et al. Moving-object-aware anomaly detection in surveillance videos
Jokela Person counter using real-time object detection and a small neural network
Sivaprakash et al. A convolutional neural network approach for crowd counting

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination