CN110826392A - 一种结合上下文信息的跨模态行人检测方法 - Google Patents

一种结合上下文信息的跨模态行人检测方法 Download PDF

Info

Publication number
CN110826392A
CN110826392A CN201910875343.5A CN201910875343A CN110826392A CN 110826392 A CN110826392 A CN 110826392A CN 201910875343 A CN201910875343 A CN 201910875343A CN 110826392 A CN110826392 A CN 110826392A
Authority
CN
China
Prior art keywords
node
gru
information
image
pedestrian detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910875343.5A
Other languages
English (en)
Other versions
CN110826392B (zh
Inventor
郑爱华
邹甜
王逍
王梓
罗斌
汤进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui University
Original Assignee
Anhui University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui University filed Critical Anhui University
Priority to CN201910875343.5A priority Critical patent/CN110826392B/zh
Publication of CN110826392A publication Critical patent/CN110826392A/zh
Application granted granted Critical
Publication of CN110826392B publication Critical patent/CN110826392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Traffic Control Systems (AREA)

Abstract

本发明公开了一种结合上下文信息的跨模态行人检测方法,将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域;将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点构建图模型;采用门循环单元GRU进行上下文信息的传递更新,得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果;使用最终的节点表示来送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,实现行人检测。将深度学习应用到了行人检测领域中,达到较好的检测效果;结合单模态图像上下文信息和跨模态图像上下文信息,使得特征具有更加丰富的信息,帮助分类器更好的分类以及定位。

Description

一种结合上下文信息的跨模态行人检测方法
技术领域
本发明涉及一种计算机视觉学习进行行人检测的方法,尤其涉及的是一种结合上下文信息的跨模态行人检测方法。
背景技术
一直以来,行人检测都是计算机视觉领域的一个重要研究课题。行人检测就是利用计算机视觉相关技术判断所给图像或者视频序列中是否存在行人并用矩形框精确定位。行人检测是大量高级视觉任务的必备前提,在智能视频监控、车辆辅助驾驶系统和智能交通中有着广泛的应用。
在应用中,经常出现光照不足或相机与目标之间距离过大等具有挑战性的情况,并可能影响图像质量,这将导致图像对比度较低或目标分辨率较低。
传统单模态的行人检测方法也被称作是手工设计的模型,也就是在可见光图像上基于底层特征来表示行人的特征,例如常用的特征有LBP特征、Hog特征、COV特征、Haar特征、LUV特征、ICF特征以及积极通道特征。目前解决行人检测的问题多利用支持向量机和决策树作为分类器。然而,传统单模态行人检测存在一定的局限性,需要人工设计的特征比较复杂,并且需要较强的鲁棒性,由此出现了基于深度学习的跨模态行人检测方法。
近几年,随着深度学习在图像、文本和语音等领域取得了优秀的研究成果,基于深度学习的行人检测方法也层出不穷。基于深度学习方法和传统方法相比不同的是利用深度模型自动学习行人特征,并通过大量的数据不断训练,实现从大量高维数据中学习到由成千上万参数组成的特征,然后再对得到的特征进行分类和定位,达到理想的行人检测目的。目前,基于深度学习的行人检测方法性能已经远超基于手工特征的传统行人检测方法。
多模态学习的目标是利用多模态提供有关任务的互补信息,实现可靠、鲁棒的性能。多模态学习是指利用从不同类型的多组数据示例中获得的经验,以提高学习性能为目标的机器学习任务。基本上,这种多模态数据提供了与给定任务相关的现象的丰富多样的信息。在各种多模态学习任务中,由于多模态源信息的组合困难,多模态融合一直是机器学习领域中最具挑战性的问题之一。
发明内容
发明目的:本发明所要解决的技术问题在于:如何提高行人检测成功率,提供了一种结合上下文信息的跨模态行人检测方法,本发明将可见光和热红外两个模态下的图像结合了上下文信息、并用在的了跨模态行人检测上,将深度学习应用到了行人检测领域中,达到较好的检测效果;结合单模态图像上下文信息和跨模态图像上下文信息,使得特征具有更加丰富的信息,帮助分类器更好的分类以及定位。
技术方案:本发明的一种结合上下文信息的跨模态行人检测方法,包括以下步骤:
(1)输入待检测图像,并将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目(例如2000个)的感兴趣区域RoI;
(2)将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点(即是指faster rcnn中的用RPN网络提取几千个候选框,再用非极大值抑制的方法选出固定的2000个ROIs,再将这每一个感兴趣区域ROI通过全连接层提取视觉特征作为图中的节点),分别将同一模态内和跨模态间的每对感兴趣区域映射变换后进行级联作为图中边元素,构建图模型;
(3)分别对同一模态内和跨模态间节点进行信息编码,单个节点接收不同种类的信息(同一模态内和跨模态间节点的信息),采用门循环单元GRU进行上下文信息的传递更新,得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果;
(4)对一个节点的三个特征向量更新输出,并进行均值池化操作作为节点的最终状态,将最终的节点表示送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,实现行人检测。
进一步的,所述步骤(1)中,待检测图像为可见光与热红外两张配对形式的图像,由红、蓝、绿三个颜色通道组成。
进一步的,所述步骤(1)中,将可见光图像和热红外图像输入到具有13层卷积层的VGG16深度卷积网络模型中进行特征提取,对每一层的卷积层产生的特征图进行存储,并将最后一层特征图记为conv5_3;然后在特征图conv5_3上利用区域生成网络RPN,获得多个可能包含行人的区域建议,使用非极大值抑制NMS来选择固定数量的RoI。
进一步的,所述步骤(2)中,对感兴趣区域RoI池化操作后,再利用深度卷积网络的全连接层提取视觉特征作为图模型中的节点,得到两个模态下的节点组成;然后,在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素,接着对于跨同模态下的RoI也进行映射变换,将二者进行级联作为图模型里的边元素。
进一步的,所述边元素信息由以下公式计算得到:
其中,
Figure BDA0002204122090000022
ej→i是指求取两个节点间的关系;Wp和wv是可学习的权重矩阵,
Figure BDA0002204122090000031
分别是节点i和j的特征,表示节点i和j的空间位置关系,
Figure BDA0002204122090000033
中(xi,yi)表示节点i的中心坐标,wi和hi分别表示节点i的宽和高;(xi、yi)和(xj、yj)分别表示节点i和节点j的中心坐标。
进一步的,所述步骤(3)中,获取同一模态中上下文信息,把当前要更新的节点和来自其他节点的集成信息作为门循环单元GRU的输入;然后获取另一模态的上下文信息,把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入,选择相关的信息来更新当前节点的隐藏状态;当节点状态更新时,节点之间的关系也会发生变化,更新的时间步长越大,模型越稳定。
进一步的,所述门循环单元GRU中包括一个更新门、一个重置门、先前的隐层状态、新的隐层状态和更新的状态,使用逻辑sigmoid函数作为其激活函数,实现将不同的信息编码到节点,从而更新节点的状态。
进一步的,所述步骤(4)中,对于节点i,其可见光图像GRU输出结果为h_vIs,热红外图像GRU输出结果为h_Is,结合可见光和热红外图像的GRU输出结果为h_m,对三个特征向量使用均值池化操作,得到节点的最终表示,并用得到的节点最终表示预测行人置信度和边界框偏移量,即:
Figure BDA0002204122090000034
有益效果:与现有技术相比,本发明具有以下优点:本发明提供了一种新的行人检测方法,将深度学习应用到了行人检测领域中,达到一个较好的检测效果;结合了单模态图像上下文信息和跨模态图像上下文信息,使得特征具有更加丰富的信息,帮助分类器更好的分类以及定位。本发明可以应用于复杂场景下的智能监控系统或者车辆辅助驾驶系统和智能交通中行人的检测。
附图说明
图1是本发明的流程示意图;
图2是本发明的整体网络框架图。
具体实施方式
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
本发明基于深度学习并结合单模态内与跨模态间上下文的信息,实现图像中的行人检测。借鉴深度学习在目标检测领域的研究,将一个目前优秀的目标检测模型FasterR—CNN应用到行人检测领域中,达到更好的检测效果;然后结合单模态内与跨模态间图像行人周围的上下文信息,当单一模态提供的信息不够好时,跨模态学习使用了不同模态提供的互补信息,弥补了性能的下降,并且利用单一图像的目标关系帮助Faster R—CNN中的特征分类器“看”得更加广泛,从而做出更加准确的判断,帮助Faster R—CNN能更好的检测行人。
如图1和图2所示,本实施例基于Faster R—CNN,对可见光和热红外图像利用VGG16模型进行特征提取,对来自每一层卷积层产生的特征图都存储在内存中,在最后一层特征图con5_3上执行区域生成网络RPN生成候选区域。生成了两组候选区域。再对两组候选区域使用非极大值抑制方法来选择固定数量的感兴趣区域RoI,并对每一个感兴趣区域通过全连接层提取视觉特征作为节点,同一模态下的各个节点间用空间特征和视觉特征来计算一个标量,表示单模态内的上下文信息,跨模态下的各个节点间也建立同样的关系,表示跨模态间的上下文信息,最终将得到的三个特征向量使用均值池化操作,得到节点的最终表示,使用最终的集成节点表示来预测行人置信度和边界框偏移量,输送到分类器中进行分类以及定位。通过不断的训练,即可达到对图像中行人进行准确检测的目的。
具体包括如下步骤:
步骤(1):
输入待检测图像,待检测图像为可见光与热红外两张配对形式的图像,由红、蓝、绿三个颜色通道组成,利用具有13层卷积层的VGG16深度卷积网络模型对输入的可见光和热红外图像进行特征提取,对每一层的卷积层产生的特征图都存储在内存中,并且最后一层的特征图为conv5_3,在最后一层特征图conv5_3上利用区域生成网络RPN之后,可以获得上千个可能包含行人的区域建议。然后,使用非极大值抑制NMS来选择固定数量的RoI(感兴趣的区域),得到了可见光和热红外图像的两组RoI。
步骤(2):
对于两组中的每一个RoI,构建图模型,通过对RoI池化操作后再利用全连接层提取视觉特征作为图模型中的节点,得到了两个模态下的节点组成。在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素,同时,对于不同模态下的RoI也进行映射变换,然后级联作为图模型里的边元素。
图模型中边元素信息由以下公式得到:
Figure BDA0002204122090000041
其中,
Figure BDA0002204122090000051
Wp和wv是可学习的权重矩阵,分别是节点i和j的特征,
Figure BDA0002204122090000053
表示节点i和j的空间位置关系,
Figure BDA0002204122090000054
中(xi,yi)表示节点i的中心坐标,wi和hi分别表示节点i的宽和高。
获取了图模型中节点和边元素信息后,再进行信息的传递。对于每一个节点来说,相互信息交流的关键是对来自另一模态和同一模态间其他节点的信息进行编码,由此单个节点会接收到不同种类的信息,采用门循环单元(GRU)来进行上下文信息的传递更新。
ht代表先前的隐层状态,代表新的隐层状态,ht+1代表更新的状态,z代表更新门,用于决定更新的状态是否被新的隐层状态所更新,r代表重置门,用于决定先前的隐层状态是否被忽略,并使用逻辑sigmoid函数作为其激活函数。
r=σ(wr[x,ht])
Z=σ(wz[x,ht])
Figure BDA0002204122090000056
Figure BDA0002204122090000057
其中,σ是逻辑sigmoid函数,[,]表示两个向量的串联,wr、wz、w和U是需要学习的权重矩阵,φ表示tan h激活函数,Θ表示元素点成。
如图2所示,每个节点需要接收多个传入信息,GRU门循环单元作为一个聚合函数,它可以实现记住节点本身的详细信息然后将传入的信息融合成有意义的表示形式。当获取同一模态中上下文信息时,把当前要更新的节点和来自其他节点的集成信息作为GRU的输入,当获取另一模态的上下文信息时,把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入,选择相关的信息来更新当前节点的隐藏状态。当节点状态更新时,节点之间的关系也会发生变化,更新的时间步长越大,模型越稳定。
步骤(3):
最终得到了来自三个GRU的输出结果,分别是可见光图像GRU、热红外图像GRU和结合可见光和热红外图像的GRU输出,对一个节点的三个特征向量更新输出进行均值池化操作作为节点的最终状态。最后使用最终的节点表示来送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,从而达到行人检测的目的。
步骤(2):
最后进行检测:将融合好的特征送到分类器中进行分类以及标注框回归,检测结果为该预选框被分类为行人类别的可能性分值以及经过标注框回归后的预选框坐标值,根据分值将阈值设为0.01,将大于阈值的预选框以及其相应的坐标位置输出,从而达到行人检测的目的。
综上所述,本发明基于深度目标检测模型Faster R—CNN进行行人检测,并结合单模态内与跨模态间上下文的信息为分类器提供行人周围环境信息,并将结合上下文信息后的三组特征向量融合,补偿复杂环境下的信息缺失。

Claims (8)

1.一种结合上下文信息的跨模态行人检测方法,其特征在于:包括以下步骤:
(1)输入待检测图像,并将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域RoI;
(2)将两个模态下的每一个感兴趣区域均映射成特征向量作为图中节点,然后分别将同一模态内和跨模态间的每对感兴趣区域映射变换后进行级联作为图中边元素,构建图模型;
(3)分别对同一模态内和跨模态间节点进行信息编码,单个节点接收不同种类的信息,采用门循环单元GRU进行上下文信息的传递更新,得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果;
(4)对一个节点的三个特征向量更新输出,并进行均值池化操作作为节点的最终状态,将最终的节点表示送到分类器中进行分类以及标注框回归,设置阈值,将大于阈值的正样例以及其相应的坐标位置输出,实现行人检测。
2.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于:所述步骤(1)中,待检测图像为可见光与热红外两张配对形式的图像,由红、蓝、绿三个颜色通道组成。
3.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于:所述步骤(1)中,将可见光图像和热红外图像输入到具有13层卷积层的VGG16深度卷积网络模型中进行特征提取,对每一层的卷积层产生的特征图进行存储,并将最后一层特征图记为conv5_3;然后在特征图conv5_3上利用区域生成网络RPN,获得多个可能包含行人的区域建议,使用非极大值抑制NMS来选择固定数量的RoI。
4.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于:所述步骤(2)中,对感兴趣区域RoI池化操作后,再利用深度卷积网络的全连接层提取视觉特征作为图模型中的节点,得到两个模态下的节点组成;然后,在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素,接着对于跨同模态下的RoI也进行映射变换,将二者进行级联作为图模型里的边元素。
5.根据权利要求4所述的结合上下文信息的跨模态行人检测方法,其特征在于:所述边元素信息由以下公式计算得到:
Figure FDA0002204122080000011
其中,
Figure FDA0002204122080000012
ej→i是指求取两个节点间的关系;Wp和wv是可学习的权重矩阵,fi v,fj v分别是节点i和j的特征,
Figure FDA0002204122080000021
表示节点i和j的空间位置关系,
Figure FDA0002204122080000022
中(xi,yi)表示节点i的中心坐标,wi和hi分别表示节点i的宽和高;(xi、yi)和(xj、yj)分别表示节点i和节点j的中心坐标。
6.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于:所述步骤(3)中,获取同一模态中上下文信息,把当前要更新的节点和来自其他节点的集成信息作为门循环单元GRU的输入;然后获取另一模态的上下文信息,把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入,选择相关的信息来更新当前节点的隐藏状态;当节点状态更新时,节点之间的关系也发生变化。
7.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于,所述门循环单元GRU中包括一个更新门、一个重置门、先前的隐层状态、新的隐层状态和更新的状态,使用逻辑sigmoid函数作为其激活函数,实现将不同的信息编码到节点,从而更新节点的状态。
8.根据权利要求1所述的结合上下文信息的跨模态行人检测方法,其特征在于,所述步骤(4)中,对于节点i,其可见光图像GRU输出结果为h_vIs,热红外图像GRU输出结果为h_Is,结合可见光和热红外图像的GRU输出结果为h_m,对三个特征向量使用均值池化操作,得到节点的最终表示,并用得到的节点最终表示预测行人置信度和边界框偏移量,即:
CN201910875343.5A 2019-09-17 2019-09-17 一种结合上下文信息的跨模态行人检测方法 Active CN110826392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910875343.5A CN110826392B (zh) 2019-09-17 2019-09-17 一种结合上下文信息的跨模态行人检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910875343.5A CN110826392B (zh) 2019-09-17 2019-09-17 一种结合上下文信息的跨模态行人检测方法

Publications (2)

Publication Number Publication Date
CN110826392A true CN110826392A (zh) 2020-02-21
CN110826392B CN110826392B (zh) 2023-03-10

Family

ID=69547969

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910875343.5A Active CN110826392B (zh) 2019-09-17 2019-09-17 一种结合上下文信息的跨模态行人检测方法

Country Status (1)

Country Link
CN (1) CN110826392B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766108A (zh) * 2021-01-08 2021-05-07 西安电子科技大学 基于上下文信息的sar图像目标检测方法
CN113962246A (zh) * 2021-09-17 2022-01-21 华南理工大学 融合双模态特征的目标检测方法、系统、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050169529A1 (en) * 2004-02-03 2005-08-04 Yuri Owechko Active learning system for object fingerprinting
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
US20190259284A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Pedestrian detection for vehicle driving assistance

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050169529A1 (en) * 2004-02-03 2005-08-04 Yuri Owechko Active learning system for object fingerprinting
CN107463892A (zh) * 2017-07-27 2017-12-12 北京大学深圳研究生院 一种结合上下文信息和多级特征的图像中行人检测方法
US20190259284A1 (en) * 2018-02-20 2019-08-22 Krishna Khadloya Pedestrian detection for vehicle driving assistance

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
应光林: "基于双目视觉感兴趣区域的行人检测", 《信息通信》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112766108A (zh) * 2021-01-08 2021-05-07 西安电子科技大学 基于上下文信息的sar图像目标检测方法
CN113962246A (zh) * 2021-09-17 2022-01-21 华南理工大学 融合双模态特征的目标检测方法、系统、设备及存储介质
CN113962246B (zh) * 2021-09-17 2024-04-09 华南理工大学 融合双模态特征的目标检测方法、系统、设备及存储介质

Also Published As

Publication number Publication date
CN110826392B (zh) 2023-03-10

Similar Documents

Publication Publication Date Title
CN109255364B (zh) 一种基于深度卷积生成对抗网络的场景识别方法
CN110569886B (zh) 一种双向通道注意力元学习的图像分类方法
JP6395158B2 (ja) シーンの取得画像を意味的にラベル付けする方法
CN110458077B (zh) 一种车辆颜色识别方法及系统
CN106778796B (zh) 基于混合式协同训练的人体动作识别方法及系统
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN109214346B (zh) 基于层次信息传递的图片人体动作识别方法
CN112597883A (zh) 一种基于广义图卷积和强化学习的人体骨架动作识别方法
CN112233124A (zh) 基于对抗式学习与多模态学习的点云语义分割方法及系统
CN112016601B (zh) 基于知识图谱增强小样本视觉分类的网络模型构建方法
CN108345843B (zh) 一种基于混合深度回归网络的头部姿态估计方法
CN112818805B (zh) 一种基于特征融合的细粒度车辆属性分析系统及方法
CN110826392B (zh) 一种结合上下文信息的跨模态行人检测方法
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
CN114972944B (zh) 视觉问答模型的训练方法及装置、问答方法、介质、设备
Alkhorshid et al. Road detection through supervised classification
CN115482387A (zh) 基于多尺度类别原型的弱监督图像语义分割方法及系统
CN110222772B (zh) 一种基于块级别主动学习的医疗图像标注推荐方法
Sharjeel et al. Real time drone detection by moving camera using COROLA and CNN algorithm
CN114332797A (zh) 一种带自评测机制的道路场景语义分割方法及系统
US20230154198A1 (en) Computer-implemented method for multimodal egocentric future prediction
CN112215130B (zh) 一种基于2.5d/3d混合卷积模型的人体行为识别方法
CN106650814B (zh) 一种基于车载单目视觉室外道路自适应分类器生成方法
CN113869396A (zh) 基于高效注意力机制的pc屏幕语义分割方法
CN111160282B (zh) 一种基于二值化Yolov3网络的红绿灯检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant