CN111144363A

CN111144363A - 一种基于场景和物体信息的第一视角下的行为识别方法

Info

Publication number: CN111144363A
Application number: CN201911410530.2A
Authority: CN
Inventors: 沈洪宇; 裴明涛; 高青
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-12-31
Filing date: 2019-12-31
Publication date: 2020-05-12
Anticipated expiration: 2039-12-31
Also published as: CN111144363B

Abstract

本发明涉及一种基于场景和物体信息的第一视角下的行为识别方法，属于计算机视觉及行为识别技术领域。第一视角下通过用户穿戴相机通常无法直接拍摄到用户本身，导致无法直接识别用户行为，而用户所在场景及场景中物体对用户的行为识别提供了重要的线索。所述方法通过深度神经网络，以第一视角下的图像作为输入，对用户所在场景进行分类，得到当前场景属于各个类别的概率向量作为场景特征向量；通过深度神经网络检测场景中的物体，得到场景中物体的类别以及位置和大小，形成物体特征向量。所述方法通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别，能够快速且准确的得到识别结果。

Description

一种基于场景和物体信息的第一视角下的行为识别方法

技术领域

本发明涉及一种基于场景和物体信息的第一视角下的行为识别方法，属于计算机视觉及行为识别技术领域。

背景技术

可穿戴相机的迅速发展为自动生活日志记录和分析提供了硬件条件。现有的可穿戴相机可以连续的拍摄图像或者视频来记录用户的生活，但是拍摄的数据量往往非常巨大，例如每隔3秒拍摄一帧的话，一天就是28800帧，用户无法从如此多的数据中直观的了解自己一天的行为和时间的分配。因此如果能够自动的对用户一天的行为进行识别，就可以使得用户直观的了解自己一天的行为和时间的分配，更好的帮助用户建立良好的生活习惯。

第一视角下的行为识别是指通过用户穿戴的相机拍摄的第一视角(用户视角)下的图像/视频数据，识别出用户自己的行为。由于第一视角下的数据是由用户穿戴的相机拍摄得到的，数据中可以看到用户所在的场景以及场景中的物体，但是通常无法直接看到用户本身，因此无法直接识别用户的行为，而用户所在的场景以及场景中的物体对于用户的行为识别提供了重要的线索。本发明致力于设计一种基于场景和物体信息的第一视角下的行为识别方法，从而实现更加自然和直观的生活日志分析。

发明内容

本发明的目的在于为了实现更加自然和直观的生活日志分析，提出了一种基于场景和物体信息的第一视角下的行为识别方法，通过融合场景信息和物体信息对用户的行为进行识别。

本发明的核心思想为：使用深度神经网络，以第一视角下的图像作为输入，对用户所在场景进行分类，得到当前场景属于各个类别的概率向量作为场景特征向量；通过深度神经网络检测场景中的物体，得到场景中物体的类别以及位置和大小，形成物体特征向量；通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别，能够快速准确的得到识别结果。

所述行为识别方法，包括如下步骤：

步骤1、获取场景特征向量，具体为：

步骤1.1采用场景数据集训练深度神经网络A，得到训练好的深度神经网络模型A；

其中，深度神经网络A，包括但不限于ResNet以及VGGNet；

场景数据集，包括但不限于SUN；

步骤1.2使用步骤1.1训练好的深度神经网络模型A，以用户拍摄的第一视角下的图像作为输入，对用户所在的场景进行分类，得到当前场景属于各个类别的概率向量作为场景特征向量；

步骤2、获取物体特征向量，具体为：

步骤2.1采用物体数据集训练深度神经网络B，得到训练好的深度神经网络模型B；

步骤2.2使用步骤2.1训练好的深度神经网络模型B，以用户拍摄的第一视角下的图像作为输入，对图像中的物体进行检测，得到场景中物体的类别以及位置和大小，形成物体特征向量；

其中，深度神经网络B，包括但不限于Mask-RCNN和Faster-RCNN；物体数据集，包括但不限于COCO；

步骤3、融合场景特征与物体特征进行行为识别，具体为：

采用神经网络，融合步骤1和步骤2提取的场景特征向量和物体特征向量，对用户的行为进行识别，输出用户行为的类别。

有益效果

本发明为一种基于场景和物体信息的第一视角下的行为识别方法，与现有技术相比，具有如下有益效果：

1.所述方法通过提取场景特征和物体特征，并采用神经网络融合场景特征和物体特征进行第一视角下的用户行为的识别，有效的利用了场景先验和物体先验，解决了第一视角下通常无法直接看到用户自身的问题；

2.所述方法能够更加快速准确的识别出用户的行为。

附图说明

图1为本发明一种基于场景和物体信息的第一视角下的行为识别方法的流程图；

图2为本发明一种基于场景和物体信息的第一视角下的行为识别方法具体实施的示意图。

具体实施方式

下面结合附图及实施例对本发明一种基于场景和物体信息的第一视角下的行为识别方法进行具体阐述。

实施例1

所述方法的流程图如图1所示，包括如下步骤：

步骤A)使用深度神经网络，以第一视角下的图像作为输入，对用户所在场景进行分类，得到当前场景属于各个类别的概率向量作为场景特征向量；

步骤B)通过深度神经网络检测场景中的物体，得到场景中物体的类别以及位置和大小，形成物体特征向量；

步骤C)通过神经网络融合场景特征向量与物体特征向量进行用户行为的识别，得到快速准确的识别结果。

具体实施场景之一如图2所示。图2中输入的第一视角下的图像通过VGG16进行场景识别，得到场景特征向量(对应发明内容中的步骤1)；通过Mask-RCNN检测物体得到物体特征向量，(对应发明内容中的步骤2)；再将识别得到的场景特征向量和物体特征向量进行连接，并通过全连接层FC1、FC2以及Softmax层进行行为识别(对应发明内容中的步骤3)。

(1)获取场景特征向量

本发明所述方法步骤1，即根据用户所穿戴的相机拍摄的第一视角下的图像识别用户所在的场景；

具体实施时：使用VGG16网络在SUN数据集上进行训练，得到网络模型，进行场景特征向量的提取；

需要说明的是，此处VGG16网络也可以采用其他深度网络，包括但不限于ResNet及GoogleNet；在其他的场景数据上进行训练得到网络模型。

其中，VGG16网络包括13个卷积层，5个最大池化层，3个全连接层以及一个softmax层；

SUN数据集包括899个不同场景下的130519张场景图像；

采用SUN数据集中的训练数据训练VGG16网络；具体要识别的场景类别数目可根据实际需要来确定；

此处设需要识别的场景类别数目为Cs，则VGG16最后的Softmax层包括Cs+1个节点，对应Cs类场景加上一类背景，背景表示不属于这Cs类场景；

即网络最后的输出为一个Cs+1维的向量，向量的第i维表示了输入图片为第i类场景的概率，具体以网络最后输出的概率向量作为场景特征向量。

(2)获取物体特征向量

本发明所述方法步骤2，具体实施时，使用Mask-RCNN网络在COCO数据集上进行训练，得到网络模型，进行图像中的物体检测；

需要说明的是，此处Mask-RCNN网络也可以采用其它深度网络，包括但不限于Faster-RCNN，YOLO等，在其他物体检测数据上进行训练得到网络模型；

训练得到网络模型后实施步骤2.2，具体实施时，不仅考虑场景中包含的物体的类别信息，也要考虑物体的位置和大小。例如场景中包含显示器，如果显示器在图像的中间并且尺寸较大，则说明用户很有可能在看显示器；而如果显示器在图像的边界处且尺寸较小，则说明用户的行为跟显示器的关系不大。

其中，Mask-RCNN是一个两阶段网络，第一个阶段扫描图像并生成候选区域，第二阶段分类候选区域并生成边界框和掩码；

Mask R-CNN网络包括：主干架构、区域建议网络、ROI分类器、边界框回归器和分割掩码；COCO数据集包括80个类别，超过33万张图片，其中20万张有标注，整个数据集中个体的数目超过150万个；具体要检测的物体类别数目可根据实际需要来确定，此处设需要检测的物体类别数目为Co。

Mask-RCNN的输入为图片，输出包括三个分支，一个分支输出类别标签，即图片中包含的物体的类别，此分支的维度为Co+1，对应Co类物体加上一类背景物体；一个分支输出边界框，即每个物体的位置和大小；第三个分支为掩码分支，给出每个框中属于物体的像素。

图像中的物体特征表示为一个Co*4维的向量S，S_(i-1)*4至S_(i-1)*4+3表示第i类物体的中心点坐标及宽和高。例如S₀至S₃表示第1类物体的中心点坐标及宽和高，S₄至S₇表示第2类物体的中心点坐标及宽和高，以此类推。如果图像中包含第i类物体，则向量的第S_(i-1)*4至S_(i-1)*4+3维存放该物体的中心点坐标和宽高，否则为0。如果包含多个第i类物体，则取尺寸最大的一个物体。

(3)融合场景特征与物体特征进行行为识别

本发明所述方法步骤3，具体实施时，在得到图像中的场景特征向量和物体特征向量后，将场景特征向量和物体特征向量进行连接，形成混合特征向量，然后使用全连接层和Softmax层进行行为的识别。

此处使用两个全连接层和一个Softmax层，两个全连接层的节点数目分别为4096和1024，Softmax层的节点数根据需要识别的行为类别数目确定。也可以使用其他结构的神经网络对场景特征向量和物体特征向量进行融合并进行行为识别。

在识别用户的行为时，输入的是用户所穿戴的相机拍摄的第一视角下的图像，根据图像识别出用户的行为。然而，现有第一视角下的图像识别往往无法识别使用可穿戴相机用户本身的行为。本发明所述方法解决了这一难题。

现有的第一视角下的行为识别方法，大多是通过融合物体场景中的物体信息以及通过光流计算的运动信息进行行为的识别，但是使用光流计算运动信息需要帧率较高的视频数据，而现有的穿戴相机还无法长时间的连续拍摄视频并存储，因此无法使用光流来计算运动信息。而只通过物体信息进行行为识别的话，就忽略了场景信息对于行为识别的作用。而场景对于行为的识别有着重要的作用，例如在食堂场景中，行为就很可能是吃饭，而不太可能是运动。因此本发明融合物体和场景信息进行第一视角下的行为识别，可以充分的利用场景先验和物体先验，得到准确的行为识别结果。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明。应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、局部改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于场景和物体信息的第一视角下的行为识别方法，其特征在于：包括如下步骤：

步骤1、获取场景特征向量，具体为：

步骤2、获取物体特征向量，具体为：

步骤3、融合场景特征与物体特征进行行为识别，具体为：