CN110826392A

CN110826392A - 一种结合上下文信息的跨模态行人检测方法

Info

Publication number: CN110826392A
Application number: CN201910875343.5A
Authority: CN
Inventors: 郑爱华; 邹甜; 王逍; 王梓; 罗斌; 汤进
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2020-02-21
Anticipated expiration: 2039-09-17
Also published as: CN110826392B

Abstract

本发明公开了一种结合上下文信息的跨模态行人检测方法，将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域；将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点构建图模型；采用门循环单元GRU进行上下文信息的传递更新，得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果；使用最终的节点表示来送到分类器中进行分类以及标注框回归，设置阈值，将大于阈值的正样例以及其相应的坐标位置输出，实现行人检测。将深度学习应用到了行人检测领域中，达到较好的检测效果；结合单模态图像上下文信息和跨模态图像上下文信息，使得特征具有更加丰富的信息，帮助分类器更好的分类以及定位。

Description

一种结合上下文信息的跨模态行人检测方法

技术领域

本发明涉及一种计算机视觉学习进行行人检测的方法，尤其涉及的是一种结合上下文信息的跨模态行人检测方法。

背景技术

一直以来，行人检测都是计算机视觉领域的一个重要研究课题。行人检测就是利用计算机视觉相关技术判断所给图像或者视频序列中是否存在行人并用矩形框精确定位。行人检测是大量高级视觉任务的必备前提，在智能视频监控、车辆辅助驾驶系统和智能交通中有着广泛的应用。

在应用中，经常出现光照不足或相机与目标之间距离过大等具有挑战性的情况，并可能影响图像质量，这将导致图像对比度较低或目标分辨率较低。

传统单模态的行人检测方法也被称作是手工设计的模型，也就是在可见光图像上基于底层特征来表示行人的特征，例如常用的特征有LBP特征、Hog特征、COV特征、Haar特征、LUV特征、ICF特征以及积极通道特征。目前解决行人检测的问题多利用支持向量机和决策树作为分类器。然而，传统单模态行人检测存在一定的局限性，需要人工设计的特征比较复杂，并且需要较强的鲁棒性，由此出现了基于深度学习的跨模态行人检测方法。

近几年，随着深度学习在图像、文本和语音等领域取得了优秀的研究成果，基于深度学习的行人检测方法也层出不穷。基于深度学习方法和传统方法相比不同的是利用深度模型自动学习行人特征，并通过大量的数据不断训练，实现从大量高维数据中学习到由成千上万参数组成的特征，然后再对得到的特征进行分类和定位，达到理想的行人检测目的。目前，基于深度学习的行人检测方法性能已经远超基于手工特征的传统行人检测方法。

多模态学习的目标是利用多模态提供有关任务的互补信息，实现可靠、鲁棒的性能。多模态学习是指利用从不同类型的多组数据示例中获得的经验，以提高学习性能为目标的机器学习任务。基本上，这种多模态数据提供了与给定任务相关的现象的丰富多样的信息。在各种多模态学习任务中，由于多模态源信息的组合困难，多模态融合一直是机器学习领域中最具挑战性的问题之一。

发明内容

发明目的：本发明所要解决的技术问题在于：如何提高行人检测成功率，提供了一种结合上下文信息的跨模态行人检测方法，本发明将可见光和热红外两个模态下的图像结合了上下文信息、并用在的了跨模态行人检测上，将深度学习应用到了行人检测领域中，达到较好的检测效果；结合单模态图像上下文信息和跨模态图像上下文信息，使得特征具有更加丰富的信息，帮助分类器更好的分类以及定位。

技术方案：本发明的一种结合上下文信息的跨模态行人检测方法，包括以下步骤：

(1)输入待检测图像，并将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目(例如2000个)的感兴趣区域RoI；

(2)将两个模态下的每一个感兴趣区域映射成特征向量作为图中节点(即是指faster rcnn中的用RPN网络提取几千个候选框，再用非极大值抑制的方法选出固定的2000个ROIs，再将这每一个感兴趣区域ROI通过全连接层提取视觉特征作为图中的节点)，分别将同一模态内和跨模态间的每对感兴趣区域映射变换后进行级联作为图中边元素，构建图模型；

(3)分别对同一模态内和跨模态间节点进行信息编码，单个节点接收不同种类的信息(同一模态内和跨模态间节点的信息)，采用门循环单元GRU进行上下文信息的传递更新，得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果；

(4)对一个节点的三个特征向量更新输出，并进行均值池化操作作为节点的最终状态，将最终的节点表示送到分类器中进行分类以及标注框回归，设置阈值，将大于阈值的正样例以及其相应的坐标位置输出，实现行人检测。

进一步的，所述步骤(1)中，待检测图像为可见光与热红外两张配对形式的图像，由红、蓝、绿三个颜色通道组成。

进一步的，所述步骤(1)中，将可见光图像和热红外图像输入到具有13层卷积层的VGG16深度卷积网络模型中进行特征提取，对每一层的卷积层产生的特征图进行存储，并将最后一层特征图记为conv5_3；然后在特征图conv5_3上利用区域生成网络RPN，获得多个可能包含行人的区域建议，使用非极大值抑制NMS来选择固定数量的RoI。

进一步的，所述步骤(2)中，对感兴趣区域RoI池化操作后，再利用深度卷积网络的全连接层提取视觉特征作为图模型中的节点，得到两个模态下的节点组成；然后，在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素，接着对于跨同模态下的RoI也进行映射变换，将二者进行级联作为图模型里的边元素。

进一步的，所述边元素信息由以下公式计算得到：

其中，

e_j→i是指求取两个节点间的关系；W_p和w_v是可学习的权重矩阵，

分别是节点i和j的特征，表示节点i和j的空间位置关系，

中(x_i,y_i)表示节点i的中心坐标，w_i和h_i分别表示节点i的宽和高；(x_i、y_i)和(x_j、y_j)分别表示节点i和节点j的中心坐标。

进一步的，所述步骤(3)中，获取同一模态中上下文信息，把当前要更新的节点和来自其他节点的集成信息作为门循环单元GRU的输入；然后获取另一模态的上下文信息，把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入，选择相关的信息来更新当前节点的隐藏状态；当节点状态更新时，节点之间的关系也会发生变化，更新的时间步长越大，模型越稳定。

进一步的，所述门循环单元GRU中包括一个更新门、一个重置门、先前的隐层状态、新的隐层状态和更新的状态，使用逻辑sigmoid函数作为其激活函数，实现将不同的信息编码到节点，从而更新节点的状态。

进一步的，所述步骤(4)中，对于节点i，其可见光图像GRU输出结果为h_vIs，热红外图像GRU输出结果为h_Is，结合可见光和热红外图像的GRU输出结果为h_m，对三个特征向量使用均值池化操作，得到节点的最终表示，并用得到的节点最终表示预测行人置信度和边界框偏移量，即：

有益效果：与现有技术相比，本发明具有以下优点：本发明提供了一种新的行人检测方法，将深度学习应用到了行人检测领域中，达到一个较好的检测效果；结合了单模态图像上下文信息和跨模态图像上下文信息，使得特征具有更加丰富的信息，帮助分类器更好的分类以及定位。本发明可以应用于复杂场景下的智能监控系统或者车辆辅助驾驶系统和智能交通中行人的检测。

附图说明

图1是本发明的流程示意图；

图2是本发明的整体网络框架图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明基于深度学习并结合单模态内与跨模态间上下文的信息，实现图像中的行人检测。借鉴深度学习在目标检测领域的研究，将一个目前优秀的目标检测模型FasterR—CNN应用到行人检测领域中，达到更好的检测效果；然后结合单模态内与跨模态间图像行人周围的上下文信息，当单一模态提供的信息不够好时，跨模态学习使用了不同模态提供的互补信息，弥补了性能的下降，并且利用单一图像的目标关系帮助Faster R—CNN中的特征分类器“看”得更加广泛，从而做出更加准确的判断，帮助Faster R—CNN能更好的检测行人。

如图1和图2所示，本实施例基于Faster R—CNN，对可见光和热红外图像利用VGG16模型进行特征提取，对来自每一层卷积层产生的特征图都存储在内存中，在最后一层特征图con5_3上执行区域生成网络RPN生成候选区域。生成了两组候选区域。再对两组候选区域使用非极大值抑制方法来选择固定数量的感兴趣区域RoI，并对每一个感兴趣区域通过全连接层提取视觉特征作为节点，同一模态下的各个节点间用空间特征和视觉特征来计算一个标量，表示单模态内的上下文信息，跨模态下的各个节点间也建立同样的关系，表示跨模态间的上下文信息，最终将得到的三个特征向量使用均值池化操作，得到节点的最终表示，使用最终的集成节点表示来预测行人置信度和边界框偏移量，输送到分类器中进行分类以及定位。通过不断的训练，即可达到对图像中行人进行准确检测的目的。

具体包括如下步骤：

步骤(1)：

输入待检测图像，待检测图像为可见光与热红外两张配对形式的图像，由红、蓝、绿三个颜色通道组成，利用具有13层卷积层的VGG16深度卷积网络模型对输入的可见光和热红外图像进行特征提取，对每一层的卷积层产生的特征图都存储在内存中，并且最后一层的特征图为conv5_3，在最后一层特征图conv5_3上利用区域生成网络RPN之后，可以获得上千个可能包含行人的区域建议。然后，使用非极大值抑制NMS来选择固定数量的RoI(感兴趣的区域)，得到了可见光和热红外图像的两组RoI。

步骤(2)：

对于两组中的每一个RoI，构建图模型，通过对RoI池化操作后再利用全连接层提取视觉特征作为图模型中的节点，得到了两个模态下的节点组成。在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素，同时，对于不同模态下的RoI也进行映射变换，然后级联作为图模型里的边元素。

图模型中边元素信息由以下公式得到：

其中，

W_p和w_v是可学习的权重矩阵，分别是节点i和j的特征，

表示节点i和j的空间位置关系，

中(x_i，y_i)表示节点i的中心坐标，w_i和h_i分别表示节点i的宽和高。

获取了图模型中节点和边元素信息后，再进行信息的传递。对于每一个节点来说，相互信息交流的关键是对来自另一模态和同一模态间其他节点的信息进行编码，由此单个节点会接收到不同种类的信息，采用门循环单元(GRU)来进行上下文信息的传递更新。

h_t代表先前的隐层状态，代表新的隐层状态，h_t+1代表更新的状态，z代表更新门，用于决定更新的状态是否被新的隐层状态所更新，r代表重置门，用于决定先前的隐层状态是否被忽略，并使用逻辑sigmoid函数作为其激活函数。

r＝σ(w_r[x，h_t])

Z＝σ(w_z[x，h_t])

其中，σ是逻辑sigmoid函数，[，]表示两个向量的串联，w_r、w_z、w和U是需要学习的权重矩阵，φ表示tan h激活函数，Θ表示元素点成。

如图2所示，每个节点需要接收多个传入信息，GRU门循环单元作为一个聚合函数，它可以实现记住节点本身的详细信息然后将传入的信息融合成有意义的表示形式。当获取同一模态中上下文信息时，把当前要更新的节点和来自其他节点的集成信息作为GRU的输入，当获取另一模态的上下文信息时，把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入，选择相关的信息来更新当前节点的隐藏状态。当节点状态更新时，节点之间的关系也会发生变化，更新的时间步长越大，模型越稳定。

步骤(3)：

最终得到了来自三个GRU的输出结果，分别是可见光图像GRU、热红外图像GRU和结合可见光和热红外图像的GRU输出，对一个节点的三个特征向量更新输出进行均值池化操作作为节点的最终状态。最后使用最终的节点表示来送到分类器中进行分类以及标注框回归，设置阈值，将大于阈值的正样例以及其相应的坐标位置输出，从而达到行人检测的目的。

步骤(2)：

最后进行检测：将融合好的特征送到分类器中进行分类以及标注框回归，检测结果为该预选框被分类为行人类别的可能性分值以及经过标注框回归后的预选框坐标值，根据分值将阈值设为0.01，将大于阈值的预选框以及其相应的坐标位置输出，从而达到行人检测的目的。

综上所述，本发明基于深度目标检测模型Faster R—CNN进行行人检测，并结合单模态内与跨模态间上下文的信息为分类器提供行人周围环境信息，并将结合上下文信息后的三组特征向量融合，补偿复杂环境下的信息缺失。

Claims

1.一种结合上下文信息的跨模态行人检测方法，其特征在于：包括以下步骤：

(1)输入待检测图像，并将可见光和热红外两个模态下的图像送到深度卷积网络中得到固定数目的感兴趣区域RoI；

(2)将两个模态下的每一个感兴趣区域均映射成特征向量作为图中节点，然后分别将同一模态内和跨模态间的每对感兴趣区域映射变换后进行级联作为图中边元素，构建图模型；

(3)分别对同一模态内和跨模态间节点进行信息编码，单个节点接收不同种类的信息，采用门循环单元GRU进行上下文信息的传递更新，得到可见光图像GRU、热红外图像GRU、结合可见光和热红外图像的GRU这三个输出结果；

2.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于：所述步骤(1)中，待检测图像为可见光与热红外两张配对形式的图像，由红、蓝、绿三个颜色通道组成。

3.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于：所述步骤(1)中，将可见光图像和热红外图像输入到具有13层卷积层的VGG16深度卷积网络模型中进行特征提取，对每一层的卷积层产生的特征图进行存储，并将最后一层特征图记为conv5_3；然后在特征图conv5_3上利用区域生成网络RPN，获得多个可能包含行人的区域建议，使用非极大值抑制NMS来选择固定数量的RoI。

4.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于：所述步骤(2)中，对感兴趣区域RoI池化操作后，再利用深度卷积网络的全连接层提取视觉特征作为图模型中的节点，得到两个模态下的节点组成；然后，在同一模态下的每对RoI映射变换后进行级联作为图模型里的边元素，接着对于跨同模态下的RoI也进行映射变换，将二者进行级联作为图模型里的边元素。

5.根据权利要求4所述的结合上下文信息的跨模态行人检测方法，其特征在于：所述边元素信息由以下公式计算得到：

其中，

e_j→i是指求取两个节点间的关系；W_p和w_v是可学习的权重矩阵，f_i ^v，f_j ^v分别是节点i和j的特征，

表示节点i和j的空间位置关系，

6.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于：所述步骤(3)中，获取同一模态中上下文信息，把当前要更新的节点和来自其他节点的集成信息作为门循环单元GRU的输入；然后获取另一模态的上下文信息，把当前要更新的节点和来自两个模态间其他节点的集成信息作为GRU的输入，选择相关的信息来更新当前节点的隐藏状态；当节点状态更新时，节点之间的关系也发生变化。

7.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于，所述门循环单元GRU中包括一个更新门、一个重置门、先前的隐层状态、新的隐层状态和更新的状态，使用逻辑sigmoid函数作为其激活函数，实现将不同的信息编码到节点，从而更新节点的状态。

8.根据权利要求1所述的结合上下文信息的跨模态行人检测方法，其特征在于，所述步骤(4)中，对于节点i，其可见光图像GRU输出结果为h_vIs，热红外图像GRU输出结果为h_Is，结合可见光和热红外图像的GRU输出结果为h_m，对三个特征向量使用均值池化操作，得到节点的最终表示，并用得到的节点最终表示预测行人置信度和边界框偏移量，即：