CN111259838A

CN111259838A - 服务机器人服务环境下深度理解人体行为的方法及系统

Info

Publication number: CN111259838A
Application number: CN202010067322.3A
Authority: CN
Inventors: 吴皓; 类成玉; 马庆
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-09
Anticipated expiration: 2040-01-20
Also published as: CN111259838B

Abstract

本发明公开了一种服务机器人服务环境下深度理解人体行为的方法及系统，包括：通过三维卷积神经网络对输入的视频文件进行特征提取；根据提取的特征信息，通过分类器进行动作识别；获取服务机器人服务环境下的视觉图像，对图像帧中的目标进行检测定位，获取目标的边界框的信息；提取目标的视觉特征，预测人与目标的视觉谓词，输出视觉关系三元组；对动作识别结果和视觉关系三元组预测结果进行结合，得到最终的人体行为。本发明可直接输入视频数据，利用3DCNN同时提取时间和空间特征，实现人体行为识别。3DCNN可以提取到时间维度特征，避免了传统手工特征提取的复杂环节，且具有更高的表征性，识别准确率更高。

Description

服务机器人服务环境下深度理解人体行为的方法及系统

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种服务机器人服务环境下深度理解人体行为的方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

在机器人视觉领域，人体行为识别技术是指通过分析视频、深度传感器或者图像序列等数据，基于特定的算法，对人的行为进行识别和分析。人体行为识别分为个体行为识别和群体行为识别；其中，个体行为识别技术主要有基于传统手工特征和基于深度学习的方法。

基于传统手工特征的方法主要是针对二维RGB视频图像序列数据，通过对图像序列提取底层的行为动作特征信息，利用主成分分析(Principal Component Analysis,PCA)和白化(whitening)等算法进行特征处理，然后对特征进行编码后采用相关机器学习分类算法对人体动作特征进行数据处理及分类实现行为识别，分类器通常采用支持向量机(Support Vector Machine,SVM)。

但是，发明人发现，传统手工特征在进行提取时受到噪声和环境因素影响较大，不易提取，而改进的稠密轨迹方法(improved Dense Trajectories,iDT)虽然提高了鲁棒性，但是也伴随着复杂的计算，效率较低。

基于深度学习的方法是通过深度学习模型自动的提取视频或图像序列中的特征，以端到端方式获取分类结果。目前基于深度学习的行为识别方法除了3D卷积网络外主要包括双流网络、受限玻尔兹曼机和循环神经网络；但是这些方法大多需要复杂的网络结构，算法复杂，需要大量的计算资源，实时性较差。

发明内容

有鉴于此，本发明提出了一种服务机器人服务环境下深度理解人体行为的方法及系统，通过三维卷积神经网络对输入的视频文件进行特征提取，由softmax分类器进行动作识别；基于VTransE网络获取服务机器人服务环境下的视觉关系，然后将视觉关系与行为识别结果进行结合，由预先设定的推理规则进行重新推理，深度理解人体行为。

在一些实施方式中，采用如下技术方案：

服务机器人服务环境下深度理解人体行为的方法，包括：

通过三维卷积神经网络对输入的视频文件进行特征提取；

根据提取的特征信息，通过分类器进行动作识别；

获取服务机器人服务环境下的视觉图像，对图像帧中的目标进行检测定位，获取目标的边界框的信息；

提取目标的视觉特征，预测人与目标的视觉谓词，输出视觉关系三元组；

对动作识别结果和视觉关系三元组预测结果进行结合，得到最终的人体行为。

在另一些实施方式中，采用如下技术方案：

服务机器人服务环境下深度理解人体行为的系统，包括：

用于通过三维卷积神经网络对输入的视频文件进行特征提取的装置；

用于根据提取的特征信息，通过分类器进行动作识别的装置；

用于获取服务机器人服务环境下的视觉图像，对图像帧中的目标进行检测定位，获取目标的边界框的信息的装置；

用于提取目标的视觉特征，预测人与目标的视觉谓词，输出视觉关系三元组的装置；

用于对动作识别结果和视觉关系三元组预测结果进行结合，得到最终的人体行为的装置。

在另一些实施方式中，采用如下技术方案：

一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，所述指令适于由处理器加载并执行上述的服务机器人服务环境下深度理解人体行为的方法。

在另一些实施方式中，采用如下技术方案：

一种计算机可读存储介质，其中存储有多条指令，所述指令适于由终端设备的处理器加载并执行上述的服务机器人服务环境下深度理解人体行为的方法。

与现有技术相比，本发明的有益效果是：

(1)本发明提出基于三维卷积神经网络(3DCNN)的行为识别方法。该方法可直接输入视频数据，利用3DCNN同时提取时间和空间特征，实现人体行为识别。3DCNN可以提取到时间维度特征，克服了2DCNN时间特征缺失的问题；3DCNN自动提取图像特征，避免了传统手工特征提取的复杂环节，且具有更高的表征性，识别准确率更高。

(2)本发明提供的人体行为与视觉关系的结合机制。基于VTransE网络获取服务机器人服务环境下的视觉关系，仅通过视觉信息即可获取视觉关系，鲁棒性和实用性更强，实施代价也大大降低；将视觉关系引入到服务机器人对人体行为理解的领域，人体动作行为与视觉关系相结合，可深度理解人在环境下行为，做出更正确的服务选择。

附图说明

图1为本发明实施例提供的三维卷积神经网络结构示意图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

在一个或多个实施方式中，公开了一种服务环境下深度理解人体行为的方法。首先基于三维卷积神经网路进行人体行为识别，然后基于VTransE网络获取服务机器人服务环境下的视觉关系，最终基于视觉关系对单一人体行为进行重新推理，实现服务环境下深度理解人体的行为。

其具体包括以下过程：

一、基于三维卷积神经网络(3DCNN)的行为识别

步骤1：视频预处理。每个待训练视频随机提取5个短视频片段，并调整大小至112×112，每个视频提取16帧(或其他适当帧数)图像作为训练数据输入。

训练集是想要识别的动作的同类数据，网络有很多的参数，利用训练集对网络进行训练，实质就是参数的调优过程，使网络最终形成能提取表征运动特征的网络模型。

步骤2：卷积操作提取特征。卷积神经网络通过卷积层的卷积操作自动提取特征，通过网络模型的训练，提取到的特征可以表示要识别的动作，特征的表现形式是向量。

参照图1，网络结构包括8个卷积层，5个池化层和2个全链接层，其结构如图1所示。卷积核全部采用3×3×3，边界卷积操作进行填充，P1采样层池化核1×2×2(时间维度特征只能下采样4次)，其余池化核2×2×2。(卷积核及池化核可进行调整取余)

步骤3：全连接层F6，F7均采用4096维特征向量的输出，每层特征的每维度特征值均包含上层的全部信息。

步骤4：全连接层F7的特征向量接softmax分类器对动作行为进行分类。

网络不受限于某些动作，能识别到的动作由数据集(将数据集分成训练集和测试集，训练集用来训练网络模型，测试集用来测试网络能否正确识别动作类别)决定，数据集内的动作都可以进行识别，如果增加或者取消某种动作的识别，就是需要修改数据集，并对模型进行重新训练。

二、基于VTransE网络的人体视觉关系获取

步骤5：本发明所使用的VTransE网络首先通过faster RCNN目标检测框架检测图像中的目标，对图像帧中的目标进行检测定位，获取目标的边界框的信息。

步骤6：将每对人与目标输入关系预测模块进行特征提取和视觉转换嵌入，利用双线性插值的方法，从最后的卷积特征图中平滑地提取出目标的视觉特征，预测人与目标的视觉谓词，输出视觉关系三元组，如person-on-sofa。

卷积网络需要进行很多的卷积操作，卷积特征图是对图像进行卷积操作之后的结果，实质上还是一幅图像，只是通过卷积操作改变了原有图像的像素，使某些需要的特征凸显，例如纹理，边界等，这就是特征提取过程。

视觉谓词和三元组是一起的，比如person-on-sofa这就是一个三元组，on就是视觉谓词，用来表示人和目标物体之间的关系的；模型的预测依赖于公式：

W_sx_s+_p≈W_ox_o,

其中，x_s,t_p,x_o分别表示主体，谓词和对象的特征(实质是向量)，通过特征提取获得，W_s，W_o是两个权重矩阵，模型训练获得，视觉关系识别的时候向量减法获得t_p，也就是视觉谓词。

步骤7：对行为识别步骤16帧图像中的第1、4、8、12、16帧进行视觉关系检测，选取预测频率最高的视觉关系三元组为最终结果，消除单一图像偶然性对结果的影响。

三、基于视觉关系的服务环境下人体行为深度组合

步骤8：整合行为识别结果和视觉关系预测结果(如摔倒+person-on-sofa＝人在沙发上趴卧，视为安全行为；跳跃+person-nextto-kettle＝人在水壶旁跳跃，提示危险行为)，即可通过环境视觉关系的获取深度理解机器人服务环境中人的行为。

综上所述，本实施例三维卷积神经网络(3DCNN)行为识别方法。该方法可直接输入视频数据，利用3DCNN同时提取时间和空间特征，实现人体行为识别。3DCNN通过自动提取到时空特征，同时具有更高的表征性，计算代价小识别准确率更高。同时提出人体行为与视觉关系的结合机制。基于VTransE网络获取服务机器人服务环境下的视觉关系，将视觉关系引入到服务机器人对人体行为理解的领域，人体动作行为与视觉关系相结合，深度理解人在环境下行为的同时降低了实施代价。

实施例二

在一个或多个实施方式中，公开了一种服务机器人服务环境下深度理解人体行为的系统，包括：

上述装置的具体实现方法参照实施例一中公开的方法，不再赘述。

实施例三

在一个或多个实施方式中，公开了一种终端设备，包括服务器，所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现实施例一中的服务机器人服务环境下深度理解人体行为的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的服务机器人服务环境下深度理解人体行为的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.服务机器人服务环境下深度理解人体行为的方法，其特征在于，包括：

通过三维卷积神经网络对输入的视频文件进行特征提取；

根据提取的特征信息，通过分类器进行动作识别；

2.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，对输入的视频文件中的多帧图像进行视觉关系检测，选取预测频率最高的视觉关系三元组为最终结果。

3.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，通过三维卷积神经网络对输入的视频文件进行特征提取之前，还包括：

对于每个待训练视频文件，随机提取设定个数的视频片段，并调整成统一大小；每个视频片段提取设定帧数的图像作为训练数据集，对三维卷积神经网络进行训练；形成能够提取表征运动特征的网络模型。

4.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，通过三维卷积神经网络对输入的视频文件进行特征提取，通过三维卷积神经网络模型的训练，提取能够表示要识别的动作状态的特征。

5.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，根据提取的特征信息，通过softmax分类器进行动作识别。

6.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，获取服务机器人服务环境下的视觉图像，采用目标检测框架对图像帧中的目标进行检测定位，获取目标的边界框的信息。

7.如权利要求1所述的服务机器人服务环境下深度理解人体行为的方法，其特征在于，提取目标的视觉特征，预测人与目标的视觉谓词，输出视觉关系三元组，具体为：利用双线性插值的方法从卷积特征图中平滑地提取出目标的视觉特征；所述视觉三元组包括：主体，谓词和目标物体的特征，其中，谓词表示主体和目标物体之间的关系。

8.服务机器人服务环境下深度理解人体行为的系统，其特征在于，包括：

9.一种终端设备，其包括处理器和计算机可读存储介质，处理器用于实现各指令；计算机可读存储介质用于存储多条指令，其特征在于，所述指令适于由处理器加载并执行权利要求1-7任一项所述的服务机器人服务环境下深度理解人体行为的方法。

10.一种计算机可读存储介质，其中存储有多条指令，其特征在于，所述指令适于由终端设备的处理器加载并执行权利要求1-7任一项所述的服务机器人服务环境下深度理解人体行为的方法。