CN108446605A

CN108446605A - 复杂背景下双人交互行为识别方法

Info

Publication number: CN108446605A
Application number: CN201810170513.5A
Authority: CN
Inventors: 陈昌红; 刘园; 干宗良
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2018-03-01
Filing date: 2018-03-01
Publication date: 2018-08-24
Anticipated expiration: 2038-03-01
Also published as: CN108446605B

Abstract

本发明公开了复杂背景下双人交互行为识别方法，包括如下步骤：构建两层卷积叠加ISA网络，所述ISA网络用于对视频进行提取基于视频自动学习的时空特征；具体包含有局部时空样本提取、图层ISA1特征提取、图层ISA2特征提取三个步骤；训练步骤，即采用训练集的全部双人交互行为视频，通过所述两层卷积叠加ISA网络提取训练集视频的时空特征，并用所述时空特征通过SPN结构学习算法得到SPN模型结构；识别步骤，即采用测试集的双人交互行为视频，通过所述两层卷积叠加ISA网络提取测试集视频的时空特征，并用所述的SPN模型获取对该动作的识别结果。本发明运用ISA提取的时空特征和SPN结构，提供了一个能适用于不同程度复杂的双人行为视频的普适性的方法。

Description

复杂背景下双人交互行为识别方法

技术领域

本发明涉及复杂背景下双人交互行为识别方法，具体涉及对视频提取双层卷积叠加ISA时空特征和基于SPN结构学习的SPNs分类结构，属于双人行为识别技术领域。

背景技术

利用信息技术自动的对视频中的人体行为进行识别，是近几年来计算机视觉领域的热点和重点问题。近年来，利用信息技术自动的对现实生活中的人体行为进行识别已成为社会新兴需求，基于视频的人体行为识别具备实用价值。随着计算机视觉领域相关技术的发展和近年来深度学习技术的兴起，对理想环境下的人体行为识别取得了较高的识别准确率，且对较复杂环境下人体行为的识别准确率也获得了一定程度的提升。但人体运动的高复杂性和多变性使得识别的精准性和高效性并没有满足实际的应用要求。目前，人体行为识别在以下方面有巨大的挑战：首先视频复杂度难题，之前的研究主要集中在可控场景中，背景的干扰少。然而，对于真实视频中存在镜头角度转换、光照色彩变化、复杂场景和噪声背景以及人体自遮挡、部分遮挡等问题。第二随着信息社会的发展，互联网上的信息爆炸式的增长，如何有效的处理和组织这些数据。

视频中人体行为识别研究分为人体动作特征提取和行为分类两个主要步骤。提取有效的人体行为特征，以往的传统特征如基于人体几何特征、运动信息特征；具有先验信息的多尺度SIFT、HOG特征；基于时空兴趣点的视频序列信息的3D-HOG、3D-SURF特征等，均是人工手动长时间设计而来，很大程度依赖于科研工作者的经验，通用性差，局限性明显。没有一个通用的手工提取特征的方法能运用于不同复杂程度的数据库，需要能从视频本身直接学习特征更加有效。行为分类阶段训练性能优越、分类精准性高的分类器，能有效快速处理数据。图模型常常用来对大数据建模，它可以简洁的表示复杂的分布，但是它在参数学习和推理的时候比较困难，这是由于在归一化的时候需要比较大的计算量。图模型在推理时，最坏情况下有指数级别的复杂度。深度结构可以看成一个有着多隐层变量的图模型，许多分布能够使用深度结构进行紧凑表示，然而非凸的似然估计和搞复杂度的推理让学习深度网络非常难。混合模型、稀疏连接树等图模型在推理上可行，但是能表示的分布非常有限。

发明内容

本发明的目的在于，针对视频中存在镜头角度转换、光照色彩变化、复杂场景和噪声背景以及人体自遮挡、部分遮挡问题的双人交互行为，传统的方法存在很大的局限性的技术缺陷，提出一种对视频复杂度具有普适性的，基于ISA时空特征和SPN的视频分类方法。

本发明采用如下技术方案：复杂背景下双人交互行为识别方法，其特征在于，包括如下步骤：

步骤SS1：构建两层卷积叠加ISA网络，所述ISA网络用于对视频进行提取基于视频自动学习的时空特征；具体包含有局部时空样本提取、图层ISA1特征提取、图层ISA2特征提取三个步骤；

步骤SS2：训练步骤，即采用训练集的全部双人交互行为视频，通过所述两层卷积叠加ISA网络提取训练集视频的时空特征，并用所述时空特征通过SPN结构学习算法得到SPN模型结构；

步骤SS3：识别步骤，即采用测试集的双人交互行为视频，通过所述两层卷积叠加ISA网络提取测试集视频的时空特征，并用所述的SPN模型获取对该动作的识别结果。

作为一种较佳的实施例，所述步骤SS1中的所述局部时空样本提取步骤，包括：使用密集采用得到视频时空样本，密集采样现在时空域进行视频缩放，然后从随机位置提取视频块提取视频块，得到最终样本。

作为一种较佳的实施例，所述步骤SS1中的所述图层ISA1特征提取步骤，包括：首先对小的输入图像块进行PCA降维，使用ISA算法学习权重矩阵，再将其与更大的图像块进行卷积，即把大图形拆分成不同的子块，单独计算子块特征，再将所有特征合并输出。

作为一种较佳的实施例，所述步骤SS1中的所述图层ISA2特征提取步骤，包括：先用PCA对第一层合并特征进行降维预处理，将其结果作为ISA2的输入，计算最终的样本特征。

作为一种较佳的实施例，所述步骤SS2具体还包括：

步骤SS21：变量划分，即使用图模型结合并查集结构的Indep-Graph Union-Find算法寻找连接子图，通过寻找无向图中的独立子集，将每一个子集中的元素独立于其他子集；

步骤SS22：实例划分，即使用DBSCAN聚类算法将相似的实例划分到同一子集中；

步骤SS23：生成SPN结构，即当划分子块的长度为1时生成单变量分布节点；大于等于1时判断进行变量划分或者实例划分；判断满足划分结束条件，若满足生成SPN结构。

作为一种较佳的实施例，所述步骤SS3具体还包括：对输入样本首先进行线性变换得到线性特征响应，将其响应作为下一层的输入进行非线性变换得到ISA网络的最终输出；图层ISA1输入为16*16大小连续10帧图像，ISA每个子空间大小为2；图层ISA2提取大小为20*20连续14帧，每个子空间为4。

本发明所达到的有益效果：第一，本发明针对现有视频中存在镜头角度转换、光照色彩变化、复杂场景和噪声背景以及人体自遮挡、部分遮挡问题的双人交互行为，以及有效的处理和组织数据，传统的行为和别方法并不适用的具体技术缺陷，同时针对多复杂度的双人行为数据库识别问题，基于ISA特征和SPNs结构本发明提出一种普适性的模型，提高对行为分类的鲁棒性；第二，本发明基于ISA网络所学习提取出的特征能基于数据自动提取特征，多层结构学习视频的高层特征，且具备传统特征不具备的鲁棒性；第三，本发明针对Sum-Product Networks作为一个多隐层概率模型，对SPN学习算法进行了深入的理解和分析并提出适合数据库的改进，提出了新的LearnSPN算法，取到了不错的视频分类结果；第四，本发明训练花费时间缩短，空间复杂度也减小，能很好的识别双人交互行为，对于未来视频监控，视频内容检索，新型人机交互以及虚拟现实场景中具有重要作用。

附图说明

图1是本发明的主流程图。

图2是本发明的两层卷积叠加ISA网络图。

图3是本发明的ISA网络结构图。

图4是本发明的SPN结构学习框图。

图5是本发明的UT-interaction数据集分类准确率曲线图。

图6是本发明的BIT-interaction数据集分类准确率曲线图。

图7是本发明的TV Human interaction数据集分类准确率曲线图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

如图1所示的是复杂背景下的双人交互行为识别的过程，包括如下步骤：

步骤1：构建两层卷积叠加ISA网络，所述ISA网络用于对视频提取基于视频自动学习的时空特征；包含有局部时空样本提取、图层ISA1特征提取、图层ISA2特征提取三个步骤；

步骤2：训练步骤，具体包括：采用训练集的全部双人交互行为视频，通过所述两层卷积叠加ISA网络提取训练集视频的特征，并用该特征通过SPN结构学习算法得到SPN模型结构；

步骤3：识别步骤，具体包括：采用测试集的双人交互行为视频，通过所述两层卷积叠加ISA网络提取测试集视频的特征，并用所述的SPN模型获取对该动作的识别结果。

如图2所示的是本发明的两层卷积叠加ISA网络图，两层卷积叠加ISA网络特征提取如下：

步骤11：局部时空样本提取，具体包括：使用密集采用得到视频时空样本，密集采样现在时空域进行视频缩放，然后从随机位置提取视频块提取视频块，得到最终样本；

步骤12：图层ISA1特征提取，具体包括：首先对小的输入图像块进行PCA降维，使用ISA算法学习权重矩阵，再将其与更大的图像块进行卷积，即把大图形拆分成不同的子块，单独计算子块特征，再将所有特征合并输出；

步骤13：图层ISA2特征提取，具体包括：先用PCA对第一层合并特征进行降维预处理，然后将其结果作为ISA2的输入，计算最终的样本特征。

如图3所示的是本发明的ISA网络结构图。步骤12或13中图层ISA网络结构，具体操作有：

对于每一个输入样本x^t，ISA获得特征进行变换的公式如下：

其中，x^t是PCA降维后均值为0的白化数据，W是输入数据和层1之间的权重，层1对输入进行加权平方，输出是对应的线性特征响应。V是层2和层1之间的权重，层2对层1输出的加权开方，p_i是同一个子空间特征的合并输出。

在训练阶段，权重V被设置为固定权重，在ISA的网络中只需优化权值参数W。优化目标函数为：

其中，正交约束WW^T＝I保证了特征的不相关性，用于保证提取出的特征多样化。

如图4是训练SPN模型的流程图，通过SPN结构学习算法得到SPN模型结构。

步骤2中训练SPN模型步骤包括：

步骤21：变量划分，具体包括：使用图模型结合并查集结构的Indep-Graph Union-Find算法寻找连接子图，通过寻找无向图中的独立子集，将每一个子集中的元素独立于其他子集；

步骤22：实例划分，具体包括：使用DBSCAN聚类算法将相似的实例划分到同一子集中；

步骤23：生成SPN结构，具体包括：当划分子块的长度为1时生成单变量分布节点；大于等于1时判断进行变量划分或者实例划分；判断满足划分结束条件，若满足生成SPN结构。

将数据集可视化为实例举证形式，其中行是实例，列是变量，变量的样本是独立同分布的。我们根据算法横向或者纵向划分数据集。例如：若有子集的变量与其余子集相互独立，就把数据集垂直的划分。对于聚类划分，我们同样的水平划分我们的数据集。

算法2-1：LearnSPN(D,V)；

Learn SPN算法可以分为三个部分。第一部分为检测变量独立和判断是否划分变量V来创造新Product节点；如果它能够将变量V拆分为相互独立的子集，算法在独立子集递归，并返回生成SPNs的乘积。第二部分为，如果变量V划分失败，必须从数据中找到可能聚类；它将实例聚类到相似的子集合中，算法在独立子集递归，并返回结果的SPNs的加权总和；SPN的权重是对应相应子集中的实例的比例，也可以使用Dirichlet先验进行平滑处理。最后的第三部分，如果向量范围是单一变量，则Learn SPN返回相应的单变量的概率分布。

步骤21变量划分，基于无向图和并查集结构寻找变量间的独立子集。具体操作过程有：

初始化时，每个顶点都在自己的不相交集合中，等价于无向图G的边是空的。遍历每个变量，验证一对变量X,Y∈V是否在同一集合。若u_x＝u_y，表示X，Y在同一集合中，且X，Y间存在边e_xy；若u_x≠u_y，Ω(X,Y)对变量间独立性判断，采用的是G-test度量方法：其中和项是取尽每个变量上的取值，且c(·)表示一对变量或是单个变量的某个设置的出现次数。

步骤22实例划分，基于DBSCAN算法将相似实例划分到同一子集中。具体操作过程有：

选择任意元素e,寻找到服从参数μ和ε的密度可达数据点；如果e是核心元素，构造一个包含e的新类簇，如果e是边界元素，则选择另外一个元素e′重试；遍历核心点e领域内的所有核心点，寻找与这点密度相连的点，直至没有可以扩充的数据点为止；重新扫描数据集，寻找没有被聚类的核心点，重复直至该核心点扩充到数据集中没有新的核心点为止。

本发明的有效性可通过以下仿真实验进一步说明：

UT-interaction数据集包含两个双人交互行为集合。Set1的背景比较简单，而且大多是静态的；set2的背景复杂并且相机有抖动。每个集合有10组视频序列，每个视频序列被分割为6个交互行为。其中由于“指向”这个动作没有太大的实际意义，故只选取了握手、拥抱、踢打、拳击、推搡等5个交互行为用于实验。BIT-interaction数据集由8种双人交互行为组成(鞠躬、拳击、握手、击掌、拥抱、踢打、轻拍、推搡)。每类交互行为包含有50个视频片段。这是个在光照条件，尺度，外表和视角上都非常有挑战性的数据集。TV HumanInteraction数据集来自23个不同的电视节目，包含有400个剪辑视频片段。数据集中包含4种交互行为(握手、拳击、拥抱、亲吻)，共200个视频片段，和200个不属于上面交互行为的“无”类视频片段。在实验中，选取了握手、拳击、拥抱、亲吻等4种行为。本文的实验结果均是在此三个数据库上得出的。

ISA1网络提取的视频块大小为16*16*10，子空间步幅为2，提取200维的特征向量。ISA2网络的视频块大小为20*20*14，子空间步幅为4，提取出50维特征。将IAS1的特征进行PCA降维，联合ISA2的输出作为最终的150维特征向量。对三个数据库，本文采用了9:1的训练测试比，从数据库中随机抽取0.9的视频作为训练集，剩下的作为测试集。在给定了训练测试数量比的情况下，随机抽取10个训练集测试集，每次抽取彼此相互独立。最后的训练测试数量比对应的分类准确率是10次抽取结果的平均值。

实验结果可以通过图5、图6、图7观测到。本发明方法在UT-interaction数据集分类准确率为94％，在BIT-interaction数据集分类准确率为96.5％，TV Human interaction数据集分类准确率为80％，均取得了不错的识别效果。这是由于ISA网络提取的特征不仅能够反映全局的动作方向分布，同时也能探测到动作的改变以及检测移动边缘状态，这些信息对于视频有效信息的提取十分有帮助。本文也验证了SPNs结构在视频分类上的效果，对SPNs结构学习改进算法，使我们在训练花费时间缩短，空间复杂度也减小。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.复杂背景下双人交互行为识别方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的复杂背景下双人交互行为识别方法，其特征在于，所述步骤SS1中的所述局部时空样本提取步骤，包括：使用密集采用得到视频时空样本，密集采样现在时空域进行视频缩放，然后从随机位置提取视频块提取视频块，得到最终样本。

3.根据权利要求1所述的复杂背景下双人交互行为识别方法，其特征在于，所述步骤SS1中的所述图层ISA1特征提取步骤，包括：首先对小的输入图像块进行PCA降维，使用ISA算法学习权重矩阵，再将其与更大的图像块进行卷积，即把大图形拆分成不同的子块，单独计算子块特征，再将所有特征合并输出。

4.根据权利要求1所述的复杂背景下双人交互行为识别方法，其特征在于，所述步骤SS1中的所述图层ISA2特征提取步骤，包括：先用PCA对第一层合并特征进行降维预处理，将其结果作为ISA2的输入，计算最终的样本特征。

5.根据权利要求1所述的复杂背景下双人交互行为识别方法，其特征在于，所述步骤SS2具体还包括：

6.根据权利要求1所述的复杂背景下双人交互行为识别方法，其特征在于，所述步骤SS3具体还包括：对输入样本首先进行线性变换得到线性特征响应，将其响应作为下一层的输入进行非线性变换得到ISA网络的最终输出；图层ISA1输入为16*16大小连续10帧图像，ISA每个子空间大小为2；图层ISA2提取大小为20*20连续14帧，每个子空间为4。