CN111914726B - 基于多通道自适应注意力机制的行人检测方法 - Google Patents
基于多通道自适应注意力机制的行人检测方法 Download PDFInfo
- Publication number
- CN111914726B CN111914726B CN202010735118.4A CN202010735118A CN111914726B CN 111914726 B CN111914726 B CN 111914726B CN 202010735118 A CN202010735118 A CN 202010735118A CN 111914726 B CN111914726 B CN 111914726B
- Authority
- CN
- China
- Prior art keywords
- feature
- different
- attention mechanism
- target
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 56
- 230000007246 mechanism Effects 0.000 title claims abstract description 30
- 230000004927 fusion Effects 0.000 claims abstract description 10
- 230000009286 beneficial effect Effects 0.000 claims abstract description 7
- 239000000284 extract Substances 0.000 claims abstract description 7
- 238000000034 method Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 12
- 230000003044 adaptive effect Effects 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 8
- 230000007613 environmental effect Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 239000011800 void material Substances 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 3
- 230000006870 function Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 abstract description 8
- 239000010410 layer Substances 0.000 description 12
- 238000012360 testing method Methods 0.000 description 5
- 230000002349 favourable effect Effects 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 239000002344 surface layer Substances 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Traffic Control Systems (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种基于多通道自适应注意力机制的行人检测方法,通过引入密集连接结构,加深检测层的深度,方便提取目标深层次的信息;通过使用基于多分支特征融合的自适应注意力机制,学习不同通道的权重,为遮挡目标提取利于检测的重要特征;同时,自适应注意力机制还能提取不同感受野的特征,为自身携带信息较少的小目标提供部分信息,方便检测小目标;通过引入基于特征融合的金字塔结构,将不同尺度的特征融合,有利于准确定位不同尺度的目标,提高了检测效果。
Description
技术领域
本发明涉及目标检测领域,具体涉及一种基于多通道自适应注意力机制的行人检测方法。
背景技术
目标检测是计算机视觉中的一个重要研究领域,其包括两个过程:分类和定位。分类过程输出目标的类别,定位过程产生目标的坐标信息。目前,目标检测广泛地用在军事、医疗、智能交通等领域。
行人检测是目标检测的一个重要分支,近几年该领域收到了广泛关注,并且在自动驾驶等领域发挥重要作用。行人检测仅仅包含行人一类目标,而且与通用目标检测不同,行人检测存在以下两个难点:(1)在行人数据集中,行人与行人之间以及行人与背景(如车辆、树等)之间存在严重遮挡,一般的检测方法难以检测被遮挡的行人,存在严重的漏警。(2)在行人数据集中,行人的尺度变化多端,尤其小目标偏多。由于小目标像素点少,包含的目标信息少,不易被检测。在现阶段,解决行人检测中的这两个问题成为行人检查算法研究的主流方向。
相关技术中,有算法使用注意力机制解决行人遮挡问题,但是其感受野固定,难以解决变化尺度的行人检测问题。有算法使用图片金字塔结构解决行人尺度变化问题,然而该方法导致测试时间成本增加,实用性不强。此外,尽管有算法使用不同大小的特征图检测目标,但是低层特征图经过的卷积网络层数较少,提取的特征信息有限,检测效果不好。
发明内容
针对上述技术问题,本发明提供了一种基于多通道自适应注意力机制的行人检测方法。
基于多通道自适应注意力机制的行人检测方法,主要包括以下步骤:
S1:通过卷积神经网络提取输入图片的特征,得到不同大小的特征图;
S2:在得到的不同大小的特征图后构建密集连接结构,以加深检测层的深度,提取深层次的特征;
S3:在密集连接结构的输出端构建基于多分支特征融合的自适应注意力机制,通过学习不同通道的权重,为遮挡目标提取利于检测的重要特征,同时,通过使用不同空洞率的空洞卷积来提取不同感受野的特征,为目标提取环境信息;
S4:在自适应注意力机制的输出端构建基于特征融合的金字塔结构,通过上采样以及横向连接结构将不同大小的特征图融合,得到不同尺度的、富含语义信息的特征图,最后根据这些特征图对行人目标进行预测定位。
优选的,步骤S2中所述的密集连接结构,其具体过程用公式描述为:
Cinew=B(Ci)+Ci
B(Ci)=R(R(Ci))
其中,Ci代表所述密集连接结构的输入特征图,R为残差结构,B由两个残差结构级联组成。
优选的,所述残差结构包括卷积、BN层和ReLU层。
优选的,步骤S3中所述的自适应注意力机制,其具体过程用公式描述为:
F1=Di(Cinew) F2=Dj(Cinew)
F3=F1+F2
F4=Fc(g(F3))
a,b=softmax(F4)
Yi=a*F1+b*F2
其中,Di、Dj代表不同空洞率的空洞卷积,g为全局池化操作,用于提取不同通道的全局信息,Fc代表全连接层,用于学习不同通道的权重。
优选的,所述空洞卷积的具体过程用公式描述为:
其中,xj、yj分别代表空洞卷积的输入和输出,r为空洞率,wn是卷积的权重,N为卷积核的大小。
优选的,步骤S1中所述的输入图片的最短边大小是800像素点,最长边像素点不超过1600像素点。
优选的,步骤S4中所述的对行人目标进行预测定位时使用了5个先验框尺度,分别为{162,322,642,1282,2562},使用了5个先验框长宽比,分别为{0.33,0.5,1,2,3}。
本发明的有益效果是:
1、本发明引入了密集连接结构,不仅增加了网络深度,利于提取目标深层次的信息,同时还能与前面层的输入融合,有效防止梯度消失;
2、使用基于多分支特征融合的自适应注意力机制,通过学习不同通道的权重,增大利于检测的特征通道的权重,减小重要性较弱的特征通道的权重,从而削弱遮挡对检测结果的影响,为遮挡目标提取利于检测的重要特征;同时,自适应注意力机制还能提取不同感受野的特征,获取环境信息,从而为自身携带信息较少的小目标提供部分信息,方便检测小目标;
3、引入基于特征融合的金字塔结构,将不同尺度的特征融合,有利于准确定位不同尺度的目标,提高了检测效果。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明实施例的整体结构示意图;
图2为本发明实施例中密集连接结构的示意图;
图3为本发明实施例中密集连接结构中的残差结构的示意图;
图4为本发明实施例中自适应注意力机制的示意图;
图5为本发明实施例中自适应注意力机制中的空洞卷积的示意图;
图6为本发明实施例在CityPersons测试集上的检测效果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
如图1所示,基于多通道自适应注意力机制的行人检测方法,主要包括以下步骤:
S1:通过卷积神经网络提取输入图片的特征,得到不同大小的特征图。其中,尺度大的特征图含有较多的小尺度行人信息,利于小目标的检测,尺度较小的特征图含有大尺度行人的信息,并且能够提取深层次的目标信息,利于检测大目标。
S2:在上述不同大小的特征图后构建密集连接结构,该结构可以加深检测层的深度,方便提取深层次的特征,同时还能与前面层的输入融合,有效避免深度学习中的梯度消失等问题。
如图2所示,密集连接结构的具体过程用公式描述为:
Cinew=B(Ci)+Ci
B(Ci)=R(R(Ci))
其中,Ci代表密集连接结构的某个输入特征图;R为如图3所示的残差结构,主要包括卷积、BN层和ReLU层;B由两个残差结构级联组成。输入的Ci经过两个级联残差结构后,再与输入Ci相加后输出,能有效加深网络深度,使算法定位更加准确。
S3:在行人检测中,卷积神经网络中的每个特征图的不同通道可以学到行人的不同部位的信息。而在普通的卷积结构中,特征图的不同通道的权重是一样的,因此,为了解决行人遮挡问题,需要对同一特征图不同通道赋予不同的权重,使被遮挡部位的权重较低,未被遮挡部位的权重较高,方便检测被遮挡的行人。为了实现这个目的,本发明在密集连接结构的输出端构建了基于多分支特征融合的自适应注意力机制,可以学习不同通道的权重,增大利于检测的特征通道的权重,减小重要性较弱的特征通道的权重,从而削弱遮挡对检测结果的影响,为遮挡目标提取利于检测的重要特征。同时该机制使用多分支结构,且不同分支使用不同空洞率的空洞卷积来提取不同感受野的特征,可以自适应的调整感受野,为目标提取环境信息,从而适应行人尺度变化,方便小尺度目标的检测。
如图4所示,自适应注意力机制的整个流程为:输入的特征图Cinew经过两个空洞率分别为i、j的空洞卷积Di、Dj,得到特征图F1和F2,该过程用于提取不同感受野的特征,空洞率越大则特征的感受野越大。然后将不同感受野的特征图相加,达到融合不同感受野的特征图的目的。融合后的特征图F3经过一个全局池化操作g提取不同通道的全局信息,再使用全连接层Fc学习不同通道的关系。最后,使用softmax函数将不同通道的关系转化为值分布在[0,1]之间的权重信息,为不同感受野的特征图分配相应的权重a、b。各自的权重对相应感受野的特征图的通道进行加权,然后将加权后的特征图再次相加融合,得到最后的特征图。整个过程用公式描述为:
F1=Di(Cinew) F2=Dj(Cinew)
F3=F1+F2
F4=Fc(g(F3))
a,b=softmax(F4)
Yi=a*F1+b*F2
上述自适应注意力机制中使用的空洞卷积的结构如图5所示。设空洞率为r,与普通卷积相比,如果使用相同大小的卷积核空洞卷积间隔(r-1)取值进行卷积操作,在不增加权重参数的前提下,可以为目标增加环境信息,增大目标的感受野,利于小目标的检测。该过程用公式描述为:
其中,xj、yj分别代表空洞卷积的输入和输出,r为空洞率,wn是卷积的权重,N为卷积核的大小。
S4:由于尺度大的特征图经过的卷积层数较少,主要提取目标的浅层信息,缺乏深层次的特征,而尺度小的特征图经过的卷积层数多,能够提取富含语义信息的特征。为了结合不同的特征,提高检测效果,本发明在自适应注意力机制的输出端构建了基于特征融合的金字塔结构,通过上采样以及横向连接结构将不同大小的特征图融合,得到不同尺度的、富含语义信息的特征图,最后根据这些特征图对行人目标进行预测定位。
数据集及实验参数设置
在行人检测任务中,CityPersons数据集是一个通用的数据集,其中的图片收集自欧洲多个国家的多个城市。该数据集中的行人目标存在较严重的遮挡,并且行人尺度范围分布较广,小尺度行人较多。本发明使用该数据集的训练集(含2975张图片)训练,并在验证集(含500张图片)上测试。
本发明的输入图片最短边大小是800像素点,最长边像素点不超过1600像素点。在对行人目标进行预测定位时使用了5个先验框尺度,分别为{162,322,642,1282,2562},使用了5个先验框长宽比,分别为{0.33,0.5,1,2,3}。本发明只使用了随机图片翻转进行数据增强。在训练中,本发明的初始学习率为0.0005,训练10个迭代次数后,学习率降为0.00005,然后再训练5个迭代。在测试阶段,本发明使用非极大抑制算法去除冗余的候选框,保证一个目标上只存在1个检测框。
实验结果
本发明使用行人检测领域通用的评判指标MR-2(average-log miss rate)评估本发明的有效性,评估算法时该值越小越好。本发明评估其在Heavy子集(行人高度至少有50个,遮挡范围是35%-80%)上的效果。
如表1所示,在CityPersons数据集上,本发明的检测结果与其他主流行人检测方法的结果相比,取得了较好的结果。
表1
本发明的MR-2值是55.6%,比Faster RCNN的结果低9.2%,比FPN的结果低4.7%,由此证明本发明中自适应注意力机制的有效性。此外,本发明在行人数据集上的检测效果好于目前的主流行人检测方法RepLoss,由此证明本发明适用于行人检测,并能较好的解决行人检测中的难点。
本发明在CityPersons测试集上的检测效果如图6所示,可以看出,本发明能够检测出遮挡行人以及小尺度行人,验证了本发明的有效性。
Claims (4)
1.一种基于多通道自适应注意力机制的行人检测方法,其特征在于,主要包括以下步骤:
S1:通过卷积神经网络提取输入图片的特征,得到不同大小的特征图;
S2:在得到的不同大小的特征图后构建密集连接结构,以加深检测层的深度,提取深层次的特征,具体过程用公式描述为:
特征图Cinew=B(Ci)+Ci
B(Ci)=R(R(Ci))
其中,Ci代表所述密集连接结构的输入特征图,R为残差结构,B由两个残差结构级联组成;
S3:在密集连接结构的输出端构建基于多分支特征融合的自适应注意力机制,通过学习不同通道的权重,为遮挡目标提取利于检测的重要特征,同时,通过使用不同空洞率的空洞卷积来提取不同感受野的特征,为目标提取环境信息:
自适应注意力机制的整个流程具体为:输入的特征图Cinew经过两个空洞率分别为i、j的空洞卷积Di、Dj,得到特征图F1和F2,该过程用于提取不同感受野的特征,空洞率越大则特征的感受野越大;然后将不同感受野的特征图相加,达到融合不同感受野的特征图的目的;融合后的特征图F3经过一个全局池化操作g提取不同通道的全局信息,再使用全连接层Fc学习不同通道的关系;最后,使用softmax函数将不同通道的关系转化为值分布在[0,1]之间的权重信息,为不同感受野的特征图分配相应的权重a、b;各自的权重对相应感受野的特征图的通道进行加权,然后将加权后的特征图再次相加融合,得到最后的特征图;整个过程用公式描述为:
F1=Di(Cinew)F2=Dj(Cinew)
F3=F1+F2
F4=Fc(g(F3))
a,b=soft max(F4)
Yi=a*F1+b*F2;
设空洞率为r,与普通卷积相比,如果使用相同大小的卷积核空洞卷积间隔(r-1)取值进行卷积操作,在不增加权重参数的前提下,可以为目标增加环境信息,增大目标的感受野,利于小目标的检测;该过程用公式描述为:
其中,xj、yj分别代表空洞卷积的输入和输出,r为空洞率,wn是卷积的权重,N为卷积核的大小;
S4:在自适应注意力机制的输出端构建基于特征融合的金字塔结构,通过上采样以及横向连接结构将不同大小的特征图融合,得到不同尺度的、富含语义信息的特征图,最后根据这些特征图对行人目标进行预测定位。
2.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法,其特征在于:所述残差结构包括卷积、BN层和ReLU层。
3.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法,其特征在于:步骤S1中所述的输入图片的最短边大小是800像素点,最长边像素点不超过1600像素点。
4.根据权利要求1所述的基于多通道自适应注意力机制的行人检测方法,其特征在于:步骤S4中对行人目标进行预测定位时使用了5个先验框尺度,分别为{162,322,642,1282,2562},使用了5个先验框长宽比,分别为{0.33,0.5,1,2,3}。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735118.4A CN111914726B (zh) | 2020-07-28 | 2020-07-28 | 基于多通道自适应注意力机制的行人检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010735118.4A CN111914726B (zh) | 2020-07-28 | 2020-07-28 | 基于多通道自适应注意力机制的行人检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111914726A CN111914726A (zh) | 2020-11-10 |
CN111914726B true CN111914726B (zh) | 2024-05-07 |
Family
ID=73281820
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010735118.4A Active CN111914726B (zh) | 2020-07-28 | 2020-07-28 | 基于多通道自适应注意力机制的行人检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111914726B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112801117B (zh) * | 2021-02-03 | 2022-07-12 | 四川中烟工业有限责任公司 | 多路感受野引导的特征金字塔小目标检测网络及检测方法 |
CN113283581B (zh) * | 2021-05-14 | 2022-08-09 | 南京邮电大学 | 多融合图网络协同多通道注意力模型及其应用和应用方法 |
CN113744524B (zh) * | 2021-08-16 | 2023-04-18 | 武汉理工大学 | 一种基于车辆间协同计算通信的行人意图预测方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109035297A (zh) * | 2018-07-19 | 2018-12-18 | 深圳市唯特视科技有限公司 | 一种基于双重暹罗网络的实时追踪方法 |
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
CN109740588A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院大学 | 基于弱监督和深度响应重分配的x光图片违禁品定位方法 |
CN109948573A (zh) * | 2019-03-27 | 2019-06-28 | 厦门大学 | 一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法 |
CN110084210A (zh) * | 2019-04-30 | 2019-08-02 | 电子科技大学 | 基于注意力金字塔网络的sar图像多尺度舰船检测方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
-
2020
- 2020-07-28 CN CN202010735118.4A patent/CN111914726B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3480786A1 (en) * | 2017-11-03 | 2019-05-08 | Siemens Healthcare GmbH | Medical image object detection with dense feature pyramid network architecture in machine learning |
CN109035297A (zh) * | 2018-07-19 | 2018-12-18 | 深圳市唯特视科技有限公司 | 一种基于双重暹罗网络的实时追踪方法 |
CN109740588A (zh) * | 2018-12-24 | 2019-05-10 | 中国科学院大学 | 基于弱监督和深度响应重分配的x光图片违禁品定位方法 |
US10430946B1 (en) * | 2019-03-14 | 2019-10-01 | Inception Institute of Artificial Intelligence, Ltd. | Medical image segmentation and severity grading using neural network architectures with semi-supervised learning techniques |
CN109948573A (zh) * | 2019-03-27 | 2019-06-28 | 厦门大学 | 一种基于级联深度卷积神经网络的噪声鲁棒人脸识别方法 |
CN110084210A (zh) * | 2019-04-30 | 2019-08-02 | 电子科技大学 | 基于注意力金字塔网络的sar图像多尺度舰船检测方法 |
CN110569738A (zh) * | 2019-08-15 | 2019-12-13 | 杨春立 | 基于密集连接网络的自然场景文本检测方法、设备和介质 |
CN111179217A (zh) * | 2019-12-04 | 2020-05-19 | 天津大学 | 一种基于注意力机制的遥感图像多尺度目标检测方法 |
Non-Patent Citations (3)
Title |
---|
DA-Net: Pedestrian Detection Using Dense Connected Block and Attention Modules;Ruihong Yin等;《IEEE Access》;第8卷;153929 - 153940 * |
Taking a Look at Small-Scale Pedestrians and Occluded Pedestrians;Jiale Cao等;《IEEE Transactions on Image Processing 》;第29卷;3143-3152 * |
基于卷积神经网络的目标检测算法研究与应用;郑志强;《中国优秀硕士学位论文全文数据库 (信息科技辑)》(第01期);I138-1911 * |
Also Published As
Publication number | Publication date |
---|---|
CN111914726A (zh) | 2020-11-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111914726B (zh) | 基于多通道自适应注意力机制的行人检测方法 | |
CN110084292B (zh) | 基于DenseNet和多尺度特征融合的目标检测方法 | |
CN106776842B (zh) | 多媒体数据检测方法及装置 | |
CN111310862A (zh) | 复杂环境下基于图像增强的深度神经网络车牌定位方法 | |
Wang et al. | FE-YOLOv5: Feature enhancement network based on YOLOv5 for small object detection | |
CN111126202A (zh) | 基于空洞特征金字塔网络的光学遥感图像目标检测方法 | |
CN108596053A (zh) | 一种基于ssd和车辆姿态分类的车辆检测方法和系统 | |
CN111860398B (zh) | 遥感图像目标检测方法、系统及终端设备 | |
CN110852316A (zh) | 一种采用密集结构卷积网络的图像篡改检测和定位方法 | |
CN112489054A (zh) | 一种基于深度学习的遥感图像语义分割方法 | |
CN111461129B (zh) | 一种基于上下文先验的场景分割方法和系统 | |
CN110222604A (zh) | 基于共享卷积神经网络的目标识别方法和装置 | |
CN111145145B (zh) | 一种基于MobileNets的图像表面缺陷检测方法 | |
CN109785359B (zh) | 一种基于深度特征金字塔与跟踪损失的视频目标检测方法 | |
CN113468996A (zh) | 一种基于边缘细化的伪装物体检测方法 | |
CN114742799A (zh) | 基于自监督异构网络的工业场景未知类型缺陷分割方法 | |
CN110826457A (zh) | 一种复杂场景下的车辆检测方法及装置 | |
CN111339917A (zh) | 一种真实场景下玻璃检测的方法 | |
CN115908772A (zh) | 一种基于Transformer和融合注意力机制的目标检测方法及系统 | |
Kumar et al. | Performance analysis of object detection algorithm for intelligent traffic surveillance system | |
CN116168240A (zh) | 基于注意力增强的任意方向密集舰船目标检测方法 | |
CN117372898A (zh) | 一种基于改进yolov8的无人机航拍图像目标检测方法 | |
Wu et al. | M-FasterSeg: An efficient semantic segmentation network based on neural architecture search | |
CN113361466B (zh) | 一种基于多模态交叉指导学习的多光谱目标检测方法 | |
CN112818777B (zh) | 一种基于密集连接与特征增强的遥感图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |