CN115019139A - 一种基于双流网络的光场显著目标检测方法 - Google Patents
一种基于双流网络的光场显著目标检测方法 Download PDFInfo
- Publication number
- CN115019139A CN115019139A CN202210620320.1A CN202210620320A CN115019139A CN 115019139 A CN115019139 A CN 115019139A CN 202210620320 A CN202210620320 A CN 202210620320A CN 115019139 A CN115019139 A CN 115019139A
- Authority
- CN
- China
- Prior art keywords
- focal
- features
- light field
- fusion
- double
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 22
- 230000004927 fusion Effects 0.000 claims abstract description 37
- 238000000034 method Methods 0.000 claims abstract description 15
- 230000006870 function Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 2
- 230000000007 visual effect Effects 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双流网络的光场显著目标检测方法,包括如下步骤:S1、创建数据集,所述数据集包括焦片和RGB图像;S2、通过双流编码器提取焦片和RGB图像的特征;S3、特征融合S3‑1、将提取的焦片特征进行融合,使用焦片维注意力模块融合焦片中的有效信息;S3‑2、通过跨模态特征融合模块将步骤S3‑1得到的融合后的焦片特征和提取的RGB图像特征进行融合,得到跨模态融合特征;S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。该方法通过跨模态特征融合模块能够有效地融合目标图像的特征、协同图像的特征和深度图像的特征。所以通过光场的输入来改善传统的基于RGB输入的显著目标检测具有良好的效果。
Description
技术领域
本发明涉及计算机视觉技术领域,具体指一种基于双流网络的光场显著目标检测方法。
背景技术
显著目标检测(SOD)旨在凸显出视觉上最吸引人的对象。在过去的数年中,它作为计算机的一项重要视觉任务得到了很好的应用并获得了广泛的关注,包括对象分割、视觉跟踪、人员重新识别和伪装对象检测。在传统的显著目标检测方法之中,RGB图像只包含着像素颜色和强度,而光场图像不仅包含像素颜色和强度信息,还反映出了所有入射光的方向。入射光的方向反映出场景中物体的3D几何信息。
最近,Lytro、Raytrix等商用微透镜阵列光场相机越来越受欢迎,光场信息也被用于深度估计、超分辨率等多重视觉任务,这就提供了更丰富的视觉信息算法,也让算法性能得到了显著提升。根据RGB图像、RGB-D图像和光场图像等图像类型的输入,现有的SOD算法可以大致分为三类:2D、3D和4D SOD算法。在研究中,第一类算法占据了很大比例,而后两类所占的比例则相对较少。由于深度学习技术,特别是卷积神经网络(CNN)的重大进步,主流二维显著性检测算法取得了显著进展。在尝试对实际场景进行成像时,这些方法通常会减慢或失败。这有两个主要原因:(1)传统的2D SOD方法主要是依靠着先验知识来进行的。(2)RGB图像中缺少3D信息。3D SOD算法的准确性之所以正逐渐受到学者们的关注,主要是因为深度信息有助于了解突出目标的上下文信息并改善SOD。然而,深度估计本身是一个非常困难的话题,质量差的深度图对3D RGB-D SOD方法的性能有严重影响。
近几年来光场信息相对容易获取,这主要得益于Lytro、Raytrix等光场相机的普及。丰富的视觉信息蕴含在光场图像中,其中包括全焦图像、焦点堆栈序列和深度图,而丰富的3D几何和外观信息蕴含在焦堆栈中。我们可以相信,4D Lightfield SOD具有良好的发展前景,因为其具有独特的视觉特性。由于光场数据包含了在许多方面都有益于显著目标检测的自然场景的综合信息,所以通过光场的输入来改善传统的基于RGB输入的显著目标检测已经越来越成为新兴的流行趋势。但是,当前显著目标检测的研究中缺少基于深度学习的光场方法。
发明内容
针对现有技术存在的不足,本发明提供了一种基于双流网络的光场显著目标检测方法,利用多层次和多尺度的能力使CNN能够准确地捕捉视觉上最吸引人的对象的区域,而无需先验知识。
为了解决上述技术问题,本发明的技术方案为:
一种基于双流网络的光场显著目标检测方法,包括如下步骤:
S1、创建数据集,所述数据集包括焦片和RGB图像;
S2、通过双流编码器提取焦片和RGB图像的特征;
S3、特征融合
S3-1、将提取的焦片特征进行融合,使用焦片维注意力模块融合焦片中的有效信息;
S3-2、通过跨模态特征融合模块将步骤S3-1得到的融合后的焦片特征和提取的RGB图像特征进行融合,得到跨模态融合特征;
S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。
作为优选,所述数据集中每张RGB图像对应有12张不同焦点的焦片,12张不同焦点的焦片的集合为焦堆栈。
作为优选,所述步骤S2中特征的提取方法为:将RGB图像和焦堆栈输入到双流编码器中对特征进行编码,所述双流编码器采用resnet50的5个卷积块,分别为Conv1-Conv5,RGB图像和焦堆栈经过双流编码器后,分别得到5个层级的特征。
作为优选,所述步骤S3-1中焦片特征的融合方法为:使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息,通过学习的方式自适应学习每张焦片的融合权重,然后使用得到的融合权重乘以对应的焦片特征,并相加得到融合后的焦片特征。
作为优选,所述焦片维注意力模块获取融合权重的方法为:首先将12张焦片在通道维连接,然后使用通道注意力预测每个通道的重要性,并作为每张焦片的融合权重。
作为优选,所述步骤S3-2中,使用相加操作融合两个模态的特征。
作为优选,所述步骤S4中,使用Unet的网络结构将跨模态融合特征使用跳连接的方式,连接到解码模块的每个层级,然后将解码模块的每层特征使用卷积预测得到显著图。
作为优选,所述步骤S4中采用深监督策略,使用交叉熵损失函数对Unet的网络结构进行监督。
本发明具有以下的特点和有益效果:
跨模态特征融合模块能够有效地融合目标图像的特征、协同图像的特征和深度图像的特征。
由于光场数据包含了在许多方面都有益于显著目标检测的自然场景的综合信息,所以通过光场的输入来改善传统的基于RGB输入的显著目标检测具有良好的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的网络整体框架图;
图2为本发明实施例中特征融合的模块结构图;
图3为本发明实施例特征解码的模块结构图;
图4为本发明方法的结果图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
本发明提供了一种基于双流网络的光场显著目标检测方法,如图1所示,包括如下步骤:
S1、创建数据集,所述数据集包括焦片和RGB图像。其中,所述数据集中每张RGB图像对应有12张不同焦点的焦片,12张不同焦点的焦片的集合为焦堆栈。
具体的,该数据集采用了一个新的数据集,即DUTLF-FS数据集,以此来协助后续的4D光场显著性检测研究。这是迄今为止最大的光场数据集,该数据集提供了1465个带有人工标记的地面真相蒙版的全焦点图像,以及每个光场图像的对应焦点堆栈。这是第一个大规模光场显著性数据集,其中包含1000个训练图像和465个测试图像。每个图像都包含一个标记有每像素GT的全焦点图像和一个具有不同重新聚焦和散焦区域的焦点堆栈。
需要说明的是,本实施例中所提及的焦片为RGB图像中不同焦点的图片,将不同焦点的图片进行叠加得到清晰的原图。
S2、通过双流编码器提取焦片和RGB图像的特征。
具体的,所述步骤S2中特征的提取方法为:将RGB图像和焦堆栈输入到双流编码器中对特征进行编码,所述双流编码器采用resnet50的5个卷积块,分别为Conv1-Conv5,RGB图像和焦堆栈经过双流编码器后,分别得到5个层级的特征。
S3、特征融合,对于每个层级,将两个模态的特征输入到跨模态特征融合模块中进行融合。
如图2所示,S3-1、将提取的焦片特征进行融合,使用焦片维注意力模块融合焦片中的有效信息;
具体的,所述步骤S3-1中焦片特征的融合方法为:使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息,通过学习的方式自适应学习每张焦片的融合权重,然后使用得到的融合权重乘以对应的焦片特征,并相加得到融合后的焦片特征。
可以理解的,因为每张焦片包含场景中不同深度的信息,因此通过焦片维注意力模块充分融合其中所包含的信息。
进一步的,所述焦片维注意力模块获取融合权重的方法为:首先将12张焦片在通道维连接,然后使用通道注意力预测每个通道的重要性,并作为每张焦片的融合权重,其表达式如下:
Wi F=σ(Conv(Relu(Conv(MaxPool(Cat(1Fi F,2Fi F,···,12Fi F))))))
jWi F=Split(Wi F)
其中,jFi F表示第j张焦片第i层级的特征。Wi F表示第i个层级焦片的权重。jWi F表示第i层级第j张焦片的重要性权重。Cat是在通道维对特征连接,MaxPool是全局最大池化,Conv是1*1卷积且第1个卷积将通道降为1/16,第2个卷积将通道变为原通道,Relu是非线性激活操作。σ是sigmoid非线性激活。Split是对得到的权重沿着通道维分割成12份。
需要说明的是,数据集中每张RGB图像分别对应着12张不同焦点的图片,即12张焦片,因此,本实施例中焦片维注意力模块获取融合权重时,将12张焦片在通道维连接。
S3-2、通过跨模态特征融合模块将步骤S3-1得到的融合后的焦片特征和提取的RGB图像特征进行融合,得到跨模态融合特征,其表达式如下:
其中,Fi F表示第i个层级焦片融合后的特征。
进一步的,所述步骤S3-2中,使用相加操作融合两个模态的特征,大大减少了计算量,其表达式如下:
Fi S=Fi F+Fi R
其中Fi S表示第i个层级模态间融合后的特征。
S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。
可以理解的,如图3所示,提取的5个层级的特征中,由于高层级特征包含语义信息,可以用来定位目标位置。低层级特征包含细节信息,用于对目标的细节进行补充。为了充分使用这两种信息,使用Unet的网络结构来逐渐增加显著特征的分辨率。即使用Unet的网络结构将跨模态融合特征使用跳连接的方式,连接到解码模块的每个层级,其表达式如下:
其中Fi D表示第i层级解码后的特征,Conv表示3*3卷积操作,卷积之后跟小批量标准化。Up表示2倍的升采样。
然后将解码模块的每层特征使用卷积预测得到显著图,其表达式如下:
Si=Conv(Fi D)
其中Si是第i个层级的预测图,Conv是1*1卷积用于将特征通道降为1通道。在对模型测试时,选取S1作为模型的最终预测图。
进一步的,所述步骤S4中采用深监督策略,使用交叉熵损失函数对Unet的网络结构进行监督,从而加快网络的训练速度,其表达式如下:
其中lbce是交叉熵损失,GT是样本的标签,Loss是模型的预测损失。
具体的,Unet的网络结构使用PyTorch框架构建网络模型,选用交叉熵作为损失函数,采用Adam优化器进行训练。将学习率设置为1e-5,网络总共训练200轮。使用单GPU(NVIDIA RTX3080)进行训练。
通过图4可以看出,利用上述技术方案成功实现对光场显著目标的检测任务。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种基于双流网络的光场显著目标检测方法,其特征在于,包括如下步骤:
S1、创建数据集,所述数据集包括焦片和RGB图像;
S2、通过双流编码器提取焦片和RGB图像的特征;
S3、特征融合
S3-1、将提取的焦片特征进行融合,使用焦片维注意力模块融合焦片中的有效信息;
S3-2、通过跨模态特征融合模块将步骤S3-1得到的融合后的焦片特征和提取的RGB图像特征进行融合,得到跨模态融合特征;
S4、通过解码模块对步骤S3得到的跨模态融合特征进行逐级解码。
2.根据权利要求1所述的基于双流网络的光场显著目标检测方法,其特征在于,所述数据集中每张RGB图像对应有12张不同焦点的焦片,12张不同焦点的焦片的集合为焦堆栈。
3.根据权利要求2所述的基于双流网络的光场显著目标检测方法,其特征在于,所述步骤S2中特征的提取方法为:将RGB图像和焦堆栈输入到双流编码器中对特征进行编码,所述双流编码器采用resnet50的5个卷积块,分别为Conv1-Conv5,RGB图像和焦堆栈经过双流编码器后,分别得到5个层级的特征。
4.根据权利要求2所述的基于双流网络的光场显著目标检测方法,其特征在于,所述步骤S3-1中焦片特征的融合方法为:使用焦片维注意力模块针对每张焦片包含场景中不同深度的信息,通过学习的方式自适应学习每张焦片的融合权重,然后使用得到的融合权重乘以对应的焦片特征,并相加得到融合后的焦片特征。
5.根据权利要求4所述的基于双流网络的光场显著目标检测方法,其特征在于,所述焦片维注意力模块获取融合权重的方法为:首先将12张焦片在通道维连接,然后使用通道注意力预测每个通道的重要性,并作为每张焦片的融合权重。
6.根据权利要求1所述的基于双流网络的光场显著目标检测方法,其特征在于,所述步骤S3-2中,使用相加操作融合两个模态的特征。
7.根据权利要求1所述的基于双流网络的光场显著目标检测方法,其特征在于,所述步骤S4中,使用Unet的网络结构将跨模态融合特征使用跳连接的方式,连接到解码模块的每个层级,然后将解码模块的每层特征使用卷积预测得到显著图。
8.根据权利要求7所述的基于双流网络的光场显著目标检测方法,其特征在于,所述步骤S4中采用深监督策略,使用交叉熵损失函数对Unet的网络结构进行监督。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620320.1A CN115019139A (zh) | 2022-06-02 | 2022-06-02 | 一种基于双流网络的光场显著目标检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210620320.1A CN115019139A (zh) | 2022-06-02 | 2022-06-02 | 一种基于双流网络的光场显著目标检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115019139A true CN115019139A (zh) | 2022-09-06 |
Family
ID=83072974
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210620320.1A Pending CN115019139A (zh) | 2022-06-02 | 2022-06-02 | 一种基于双流网络的光场显著目标检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115019139A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109496A (zh) * | 2022-11-15 | 2023-05-12 | 济南大学 | 基于双流结构保护网络的x光片增强方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785637A (zh) * | 2021-01-20 | 2021-05-11 | 大连理工大学 | 一种基于动态融合网络的光场深度估计方法 |
CN113393434A (zh) * | 2021-06-11 | 2021-09-14 | 大连理工大学 | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
-
2022
- 2022-06-02 CN CN202210620320.1A patent/CN115019139A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112785637A (zh) * | 2021-01-20 | 2021-05-11 | 大连理工大学 | 一种基于动态融合网络的光场深度估计方法 |
CN113393434A (zh) * | 2021-06-11 | 2021-09-14 | 大连理工大学 | 一种基于非对称双流网络架构的rgb-d显著性检测方法 |
Non-Patent Citations (6)
Title |
---|
MIAO ZHANG等: "Asymmetric Two-Stream Architecture for Accurate RGB-D Saliency Detection", 《LECTURE NOTES IN COMPUTER SCIENCE》, vol. 12373, pages 374 * |
MIAO ZHANG等: "LFNet: Light Field Fusion Network for Salient Object Detection", 《IEEE TRANSACTIONS ON IMAGE PROCESSING》, vol. 29, pages 6276, XP011787295, DOI: 10.1109/TIP.2020.2990341 * |
MIAO ZHANG等: "Memory-oriented Decoder for Light Field Salient Object Detection", 《ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 32 (NEURIPS 2019)》, pages 1 - 11 * |
YANHUA LIANG等: "Dual guidance enhanced network for light field salient object detection", 《IMAGE AND VISION COMPUTING》, vol. 118, pages 1 - 13 * |
YI ZHANG等: "Learning Synergistic Attention for Light Field Salient Object Detection", 《ARXIV》, pages 1 - 20 * |
张聪聪;何宁;: "基于关键帧的双流卷积网络的人体动作识别方法", 南京信息工程大学学报(自然科学版), no. 06, pages 96 - 101 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116109496A (zh) * | 2022-11-15 | 2023-05-12 | 济南大学 | 基于双流结构保护网络的x光片增强方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Sheng et al. | UrbanLF: A comprehensive light field dataset for semantic segmentation of urban scenes | |
US11361470B2 (en) | Semantically-aware image-based visual localization | |
CN110796009A (zh) | 基于多尺度卷积神经网络模型的海上船只检测方法及系统 | |
CN113435269A (zh) | 一种基于YOLOv3改进的水面漂浮物检测与识别方法及系统 | |
CN111008633A (zh) | 一种基于注意力机制的车牌字符分割方法 | |
CN115346177A (zh) | 一种新的路侧视角下目标检测系统及方法 | |
CN112149526B (zh) | 一种基于长距离信息融合的车道线检测方法及系统 | |
CN111882620A (zh) | 一种基于多尺度信息道路可行驶区域分割方法 | |
CN115809327B (zh) | 一种多模融合和话题的实时社交网络谣言检测方法 | |
CN115908789A (zh) | 跨模态特征融合及渐近解码的显著性目标检测方法及装置 | |
CN110599502A (zh) | 一种基于深度学习的皮肤病变分割方法 | |
CN111611956B (zh) | 面向地铁视觉图像的轨道检测方法及系统 | |
CN117079163A (zh) | 一种基于改进yolox-s的航拍图像小目标检测方法 | |
CN114463492A (zh) | 一种基于深度学习的自适应通道注意力三维重建方法 | |
CN114926826A (zh) | 场景文本检测系统 | |
CN115019139A (zh) | 一种基于双流网络的光场显著目标检测方法 | |
CN113361496B (zh) | 一种基于U-Net的城市建成区统计方法 | |
CN111507416A (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
CN114283315A (zh) | 一种基于交互式引导注意力和梯形金字塔融合的rgb-d显著性目标检测方法 | |
CN116805360B (zh) | 一种基于双流门控渐进优化网络的显著目标检测方法 | |
CN114119694A (zh) | 一种基于改进U-Net的自监督单目深度估计算法 | |
CN112785610A (zh) | 一种融合低层特征的车道线语义分割方法 | |
CN113066074A (zh) | 一种基于双目视差偏移融合的视觉显著性预测方法 | |
CN110503049B (zh) | 基于生成对抗网络的卫星视频车辆数目估计方法 | |
Zhao et al. | Ocean ship detection and recognition algorithm based on aerial image |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |