CN106778796A

CN106778796A - 基于混合式协同训练的人体动作识别方法及系统

Info

Publication number: CN106778796A
Application number: CN201610913531.9A
Authority: CN
Inventors: 姜震; 景陈勇; 彭长生; 詹永照
Original assignee: JIANGSU KING INTELLIGENT SYSTEM CO Ltd; Jiangsu University
Current assignee: JIANGSU KING INTELLIGENT SYSTEM CO Ltd; Jiangsu University
Priority date: 2016-10-20
Filing date: 2016-10-20
Publication date: 2017-05-31
Anticipated expiration: 2036-10-20
Also published as: CN106778796B

Abstract

本发明提供了一种基于混合式协同训练的人体动作识别方法及系统。方法包括：利用人体动作识别领域中基于模板的KNN算法和基于概率统计的SVM算法来构建基分类器，然后进行二者间迭代的协同训练以提高它们的识别性能，同时改进协同训练中对伪标签样本的选择方法和迭代训练策略，最后对KNN模型和SVM模型的识别结果进行融合，得出待识别样本所属的人体动作类别。本发明利用不同类型的方法来构建分类器，通过它们之间的协同训练，可以实现不同识别方法的优势互补，有效解决了以往单一识别方法在复杂场景下识别效果不佳的问题。此外，引入伪标签样本作为新的训练样本，有效减少人工标注样本的成本。从而实现了以较少的训练样本达到更好识别准确率的目的。

Description

基于混合式协同训练的人体动作识别方法及系统

技术领域

本发明涉及人体动作识别技术领域，尤其涉及一种面向机器视觉的人体动作识别方法及系统。

背景技术

面向机器视觉的人体动作识别是通过对传感器(摄像机)采集的数据进行处理和分析，识别其中人的动作和行为，以使计算机能够“理解”视频，在视频监控、基于内容的视频检索、虚拟现实以及人机交互等领域有着广泛的应用。现有的面向机器视觉的人体动作识别技术还存在较多局限性，特别是在真实自然场景下，由于背景复杂、摄像机运动和物体变化等问题，增加了动作识别的复杂性，导致识别准确率下降，限制了其在实际中的应用。

目前面向机器视觉的动作识别方法大致分为三类：

1)基于模板的方法又分为模板匹配方法和动态时间规整两种。前者需要事先对某一特定动作建立特征数据样本模板库，识别时只需获取待识别动作样本同样的特征数据与模板库中的模板进行匹配，其算法简单，但很难构造出足够的模板以处理不同的动作姿态。后者针对两个具有不同时间长度的动作模板，按照一定的时间规整曲线进行调整，可以较好地解决人体动作在时间上的不确定性，缺点是模型比较难构建，并且无法完全反映动态系统在特征空间的分布属性。

2)基于概率统计的方法通过从一系列训练数据中学习得到分类器。该方法的优点在于引入概率框架，较好地解决了同类动作模式间的不确定性问题，鲁棒性较好。缺点是需要很多训练数据，并且很难解决姿态遮挡的问题。

3)基于文法的方法是将人体动作分解为一连串的符号。这类方法首先是识别这些符号，然后将人体动作表示为一系列生成的符号动作流。该方法有利于对复杂结构的理解和对先验知识的有效利用，缺点是计算复杂度高，空间尺度鲁棒性对底层描述符号依赖较大。上述的动作识别方法都存在一定的不足。此外，由于动作识别的场景复杂性，为了获得好的识别效果，上述方法都需要大量的人工标注的训练样本，成本高昂。有鉴于此，有必要提供一种更有效的人体动作识别方法及系统以解决上述问题。

发明内容

本发明的目的在于克服现有基于机器视觉的人体动作识别技术的缺陷，特别是减少对人工标注训练样本的需求。本发明提出了一种基于混合式协同训练的人体动作识别方法及系统。

实现本发明目的的技术方案是：

一种基于混合式协同训练的人体动作识别方法，包括：

S1.分别选择一种基于模板的分类器KNN和一种基于概率统计的分类器SVM作为两个基分类器，进行二者之间的迭代协同训练，以提高它们的识别性能；

S2.利用迭代协同训练后的两个基分类器KNN和SVM分别进行动作识别，然后对二者的识别结果进行融合，得到待识别样本所属的人体动作类型。

作为本发明的进一步改进，所述步骤S1之前还包括下列步骤：

S01.建立动作识别的视频数据库，使样本视频中包含各类常见的人体动作：如行走、骑自行车、驾驶汽车、骑马、游泳、高尔夫击球、篮球投篮、足球盘带等。其中每一类动作分别由25个不同的人来做，每个人做4-7组。对于样本视频，使用关键帧获取方法，即选取该视频的首帧、中间帧、尾帧作为关键帧。然后对每个关键帧提取4种特征作为表征动作，分别为颜色特征、纹理特征，径向矩特征，多尺度LBP特征，最后把这些表征特征融合起来，作为最终的特征：(颜色特征，纹理特征，径向矩特征，多尺度LBP特征)。

S02.从动作识别的视频数据库中选择初始的训练样本，利用融合后的表征特征对基于模板的分类器KNN进行训练，得到初始的KNN分类模型；

S03.从动作识别的视频数据库中选择初始的训练样本，利用融合后的表征特征对基于概率统计的分类器SVM进行训练，得到初始的SVM分类模型。

作为本发明的进一步改进，所述步骤S1具体包括：

S11.利用当前的KNN分类模型对测试样本进行分类，并计算各样本分类结果的置信度；

S12.从KNN分类模型的分类结果中按照类别比例和置信度，来选择若干数量的样本，作为伪标签样本，加入SVM分类模型的训练集中；

S13.利用当前的SVM分类模型对测试样本进行分类，并计算各样本分类结果的置信度；

S14.从SVM分类模型的分类结果中按照类别比例和置信度，来选择若干数量的样本，作为伪标签样本，加入KNN分类模型的训练集中；

S15.分别在新训练集上对KNN和SVM进行重新训练；

S16.评估KNN和SVM的识别性能；

S17.如果当前的KNN模型或SVM模型的识别性能下降，则撤销其上一批伪标签样本的加入；

S18.重复以上S11-S17步骤进行迭代训练，直到SVM模型和KNN模型参数都不再发生变化，或者重复次数达到指定上限为止。

作为本发明的进一步改进，所述步骤S2具体包括：

S21.利用迭代训练后的KNN分类模型对样本进行动作识别，并计算其置信度；

S22.利用迭代训练后的SVM分类模型对样本进行动作识别，并计算其置信度；

S23.根据各自的置信度，对KNN分类模型和SVM分类模型的识别结果进行融合，获得最终的动作类别。

相应地，设计一种基于混合式协同训练的人体动作识别系统，包括：

样本预处理单元：用于对样本视频进行预处理，包括选取视频的首帧、中间帧、尾帧作为关键帧，然后对每个关键帧提取颜色特征、纹理特征，径向矩特征，多尺度LBP特征这四种特征作为表征动作，最后把这些表征特征融合起来，作为样本的最终特征以供后续的模型训练和动作识别使用。

基于模板的识别单元：采用KNN作为人体动作识别的模型，在训练样本上训练以求解模型参数，并通过该模型进行样本的动作识别；

基于概率统计的识别单元：采用SVM作为人体动作识别的模型，在训练样本上训练以求解模型参数，并通过该模型进行样本的动作识别；

协同训练单元：用于对KNN模型和SVM模型进行迭代的协同训练，以进一步提高二者的识别性能；

融合单元：用于融合KNN模型和SVM模型的识别结果，得到样本最终所属的人体动作类别。

本发明的有益效果是：

本发明方法利用动作识别领域不同类型的方法来构建基分类器，并进行它们之间的协同训练，可以实现不同识别方法的优势互补，有效解决了以往单一的人体动作识别方法在复杂场景下识别效果不佳的问题。另一方面，在协同训练中通过引入部分识别结果作为新的训练样本，可以有效减少对训练样本的需求，极大降低了人工标注样本的成本。最终实现了降低建立识别模型的成本并提高人体动作识别准确率的目的。

附图说明

图1为本发明一实施例中非特定人语音情感基于混合式协同训练的人体动作识别方法的流程图。

图2为图1中步骤S1的具体流程图。

图3为本发明基于混合式协同训练的人体动作识别方法的框架图。

图4为本发明中混合式协同训练的示意图。

图5为本发明基于混合式协同训练的人体动作识别系统的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

如图1所示为本发明非特定人语音情感识别方法的流程图。该方法包括：

优选地，所述步骤S1之前还包括下列步骤：

S01.建立动作识别的视频数据库，使样本视频中包含各类常见的人体动作：如行走、骑自行车、驾驶汽车、骑马、游泳、高尔夫击球、篮球投篮、足球盘带等。其中每一类动作分别由25个不同的人来做，每个人做4-7组。对于样本视频，使用一种关键帧获取方法，即选取该视频的首帧、中间帧、尾帧作为关键帧。然后对每个关键帧提取4种特征作为表征动作，分别为颜色特征、纹理特征，径向矩特征，多尺度LBP特征，最后把这些表征特征融合起来，即将四个特征直接并列组合作为最终的特征：(颜色特征，纹理特征，径向矩特征，多尺度LBP特征)。

其中，如图2所示，步骤S1具体包括：

S14.从SVM分类模型的分类结果中按照类别比例和置信度，来选择一定数量的样本，作为伪标签样本，加入KNN分类模型的训练集中；

S15.分别在新训练集上对KNN和SVM进行重新训练；

S16.评估KNN和SVM的识别性能；

S17.如果当前的KNN或SVM模型的识别性能下降，则撤销其上一批伪标签样本的加入；

S18.重复以上S11-S17步骤进行迭代训练，直到SVM和KNN的模型参数都不再发生变化，或者重复次数达到指定上限为止。

图3对协同训练方法做了进一步说明，

本发明通过结合不同类型的人体动作识别模型，进行迭代的协同训练，可以实现不同类型方法的优势互补。特别是可以极大减少对人工标注样本的需求，有效地提高了复杂场景下人体动作识别的准确率。

本发明中的视频样本包含各类常见的人体动作：如行走、骑自行车、驾驶汽车、骑马、游泳、高尔夫击球、篮球投篮、足球盘带等。其中每一类动作分别由25个不同的人来做，每个人做4-7组。在样本预处理阶段，对于每个样本视频，使用一种关键帧获取方法，即选取该视频的首帧、中间帧、尾帧作为关键帧。然后对每个关键帧提取4种特征作为表征动作，分别为颜色特征、纹理特征，径向矩特征，多尺度LBP特征，最后把这些表征特征融合起来，作为最终的特征：(颜色特征，纹理特征，径向矩特征，多尺度LBP特征)。

建立好人体动作识别的视频数据库后，本发明的具体实施分为初始训练、协同训练、识别和融合三个阶段，结合图3所示。

1.初始训练阶段：本发明选择基于模板的分类器KNN和基于概率统计的分类器SVM作为初始分类模型，然后利用原始训练样本分别对二者进行训练以求解其模型参数。

2.协同训练阶段：协同训练的过程如图4所示，该阶段由以下几个步骤构成：

2.1 KNN和SVM分别对测试样本进行识别，并计算置信度。鉴于SVM是采用‘一对一’方式进行分类识别，本发明把多类识别分解成若干个‘一对多’方式来进行。每个样本的对于每个类的识别概率最高者被选为该样本的最终识别结果。

2.2按照类别比例和置信度，KNN和SVM分别从自己的识别结果中选择若干数量的样本作为伪标签样本，加入对方的训练集中。

2.3在新的训练集上对KNN和SVM进行重新训练。

2.4评估KNN和SVM的识别性能；

2.5如果当前的KNN或SVM模型的识别性能下降，则撤销其上一批伪标签样本的加入，再训练；

2.6重复执行步骤2.1-2.5，直到SVM和KNN的模型参数都不再发生变化，或者重复次数达到指定上限为止。

进一步，步骤2.1中识别结果的置信度计算方法具体如下：

KNN能够对每个类别c_j给出一个预测概率：

P(y＝c_j|x_i)＝d_m(x)/k (1)

公式(1)中，k为测试样本的近邻点的个数，d_m(x)为测试样本通过KNN判断所属类别包含的近邻训练样本点的个数。为了计算预测样本的置信度，本发明选择最大的类预测概率P(y＝c_{max_j}|x_i)作为置信度C_KNN(x_i)。即C_KNN(x_i)＝P(y＝c_{max_j}|x_i)。

SVM通过决策面来划分类别，并不输出预测概率。对于每个类别c_j，SVM的决策函数f_j(x)把样本简单划分成正类和负类，每个样本属于类别c_j的概率p(f_j(x)|y＝c_j)可以被认为服从一个正态分布这样对于每个类别c_j，本发明将其均值和方差估算为：

这里L_j和U_j分别代表训练集和测试样本集中属于类别c_j或被预测为c_j的数据。然后根据高斯似然性及正态分布参数μ_j,推导出预测概率p(y＝c_j|x)的公式如下：

其中类别c_j的比例p(c_j)根据有标号数据来估计，C表示总类别数。然后就可以把置信度表示为最大的类预测概率：

C_SVM(x_i)＝P_SVM(y＝c_{max_j}|x_i) (2)

进一步，步骤2.2中伪标签样本的选择方法具体如下：

首先，由于在协同训练中，伪标签样本不是独立随机选取的，因此其分布与真实分布之间必然存在误差。为了降低这种分布差异，采取按照样本的原始类别比例来选择伪标签样本的方法；并且，在每个类别的伪标签样本选择中，按照置信度由大到小的原则来进行，从而尽可能保证其准确度。

进一步，步骤2.4中评估分类器的识别性能中，具体做法如下：

构造一个伪验证集V，由初始训练集L以及P₁∪P₂(P₁，P₂代表伪标记数据集中)中置信度最高的前30％组成。然后计算分类器h在V上的准确率A_v(h)来估计其识别准确率，即伪验证集V中识别正确的样本数量除以样本总数；另一方面，利用公式(3)估计其识别结果的分布误差e(h)：

其中P_U(j|h_i)与P_L(j)分别表示h_i对测试样本集U的识别结果中类别j所占的比例和训练样本集L中类别j的比例P_L(j)。如果再训练导致A_v(h_i)下降或者e(h_i)上升，则表明分类器识别性能下降，把会导致分类器退化的伪标签样本及时移除，从而撤销本次再训练。

3.融合阶段：为了进一步提高识别准确率，将KNN和SVM结合起来进行最终的预测。由于二者的置信度可能并不在同一个尺度上，对它们的置信度作归一化处理，然后按照公式(4)计算给出最终的分类结果。

其中P(y_i|x_i,KNN)和P(y_i|x_i,SVM)分别表示KNN模型和SVM模型对样本x_i识别结果的置信度，μ∈[0,1]是一个用来调节KNN和SVM权重的参数。可以通过经验或者交叉验证的方式来调节两种成分的权重。为了获得更好的效果，根据KNN和SVM在伪验证集V上的准确率来调节其权重。令A_V(h_i)代表分类器h_i在V上的准确率，h_i的权重可表示为：w_i＝(1-λ)A_L+λA_V-L，其中A_L和A_V-L分别表示分类器h_i在原始训练集L和样本集V-L上的准确度。然后计算权重μ＝w₁/(w₁+w₂)，其中w₁、w₂分别表示分类器h₁、h₂的权重，即分类器KNN和SVM的权重；这里的λ∈(0,1)是为了给伪标号数据上的准确率更小的权重。

相应地，如图5所示，本发明一实施方式中的人体动作识别系统如下：

一、视频样本预处理单元

用于对样本视频进行预处理，包括选取视频的首帧、中间帧、尾帧作为关键帧，然后对每个关键帧提取颜色特征、纹理特征，径向矩特征，多尺度LBP特征这四种特征作为表征动作，最后把这些表征特征融合起来，作为样本的最终特征以供后续的模型训练和动作识别使用。

二、基于模板的识别单元，包括：

1.训练样本集：由原始的训练样本集和SVM提供的伪标签样本集两部分组成。其中原始训练样本集中每一类人体动作由25个人做动作，每个人做4-7组；伪标签样本集中每个类的样本来源和数量由SVM的识别结果中按照类别比例和置信度来选择。

2.识别模型：采用KNN作为人体动作识别的模型，在训练样本集上进行训练以求解模型参数，并通过该模型的进行样本的人体动作识别，同时给出识别的置信度；

三、基于概率统计的识别单元，包括：

1.训练样本集：由原始的训练样本集和KNN提供的伪标签样本集两部分组成。其中原始训练样本集中每一类人体动作由25个人做动作，每个人做4-7组；伪标签样本集中每个类的样本来源和数量由KNN的识别结果中按照类别比例和置信度来选择。

2.识别模型：采用SVM作为人体动作识别的模型，在训练样本上训练以求解模型参数，并通过该模型的进行样本的动作识别，同时给出识别的置信度；

四、协同训练单元：用于对KNN模型和SVM模型进行迭代的协同训练，以进一步提高二者的识别性能。具体的，该单元又包括模型识别与置信度计算部分、伪标签样本选择部分、模型再训练部分和模型性能评估部分。

五、融合单元：用于融合KNN模型和SVM模型的识别结果。对于每个样本，根据KNN模型和SVM模型的识别结果及置信度进行计算，得到样本最终所属的人体动作类别。

与现有技术相比，本发明利用动作识别领域不同类型的方法来构建分类器，通过它们之间的协同训练，可以实现不同识别方法的优势互补，有效解决了以往单一的人体动作识别方法在复杂场景下识别效果不佳的问题。另一方面，通过引入部分识别结果(伪标签样本)作为新的训练样本，可以有效减少人工标注样本的成本。从而实现了以较少的训练样本达到更好的人体动作识别准确率的目的。

应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施方式中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

上文所列出的一系列的详细说明仅仅是针对本发明的可行性实施方式的具体说明，它们并非用以限制本发明的保护范围，凡未脱离本发明技艺精神所作的等效实施方式或变更均应包含在本发明的保护范围之内。

Claims

1.基于混合式协同训练的人体动作识别方法，其特征在于，包括：

2.根据权利要求1所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述步骤S1之前还包括下列步骤：

S01.建立动作识别的视频数据库，使样本视频中包含各类常见的人体动作，例如行走、骑自行车、驾驶汽车、骑马、游泳、高尔夫击球、篮球投篮、足球盘带；其中每一类动作分别由25个不同的人来做，每个人做4-7组；

对于样本视频，使用关键帧获取方法，即选取该视频的首帧、中间帧、尾帧作为关键帧；然后对每个关键帧提取4种特征作为表征动作，所述4种特征分别为颜色特征、纹理特征，径向矩特征，多尺度LBP特征；最后把这些特征融合起来，作为最终的特征：(颜色特征、纹理特征，径向矩特征，多尺度LBP特征)；

S02.从动作识别的视频数据库中选择初始的训练样本，对基于模板的分类器KNN进行训练，得到初始的KNN分类模型；

S03.从动作识别的视频数据库中选择初始的训练样本，对基于概率统计的分类器SVM进行训练，得到初始的SVM分类模型。

3.根据权利要求1所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述步骤S1包括：

S11.利用初始的KNN分类模型对测试样本进行分类，并计算各样本分类结果的置信度；

S13.利用初始的SVM分类模型对测试样本进行分类，并计算各样本分类结果的置信度；

S15.分别在新训练集上对KNN分类模型和SVM分类模型进行重新训练；

S16.评估KNN分类模型和SVM分类模型的识别性能；

4.根据权利要求1所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述步骤S2包括：

5.根据权利要求3或4所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述置信度的计算方法采用：将KNN或SVM对各类别所作出的预测概率中的最大值作为置信度。

6.根据权利要求3所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述伪标签样本的选择方法采用按照样本的原始类别比例来选择伪标签样本的方法；并且在每个类别的伪标签样本选择中，按照置信度由大到小的原则来进行。

7.根据权利要求3所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述步骤S16中评估分类器识别性能的方法：

构造一个伪验证集V，所述伪验证集由初始训练集L以及P₁∪P₂(P₁，P₂代表伪标记数据集中)中置信度最高的前30％组成；

然后计算分类器h在V上的准确率A_v(h)来估计其识别准确率；此外，还利用估计其识别结果的分布误差，其中P_U(j|h_i)与P_L(j)分别表示h_i对测试样本集U的识别结果中类别j所占的比例和训练样本集L中类别j的比例P_L(j)；

如果再训练导致A_v(h_i)下降或者e(h_i)上升，则表面分类器识别性能下降。

8.根据权利要求1所述的基于混合式协同训练的人体动作识别方法，其特征在于，所述步骤S2中对识别结果进行融合的方法：对KNN识别结果的置信度和SVM识别结果的置信度作归一化处理，按照如下表达式得出最终的分类结果；

P (y_{i} | x_{i}) = \{\begin{matrix} P (y_{i} | x_{i}, K N N) & i f \frac{μ \cdot C_{K N N} (x_{i})}{\underset{x_{j} &Element; U}{Σ} C_{K N N} (x_{j})} > \frac{(1 - μ) C_{S V M} (x_{i})}{\underset{x_{j} &Element; U}{Σ} C_{S V M} (x_{j})} \\ P (y_{i} | x_{i}, S V M) & o t h e r w i s e \end{matrix}

其中，μ∈[0,1]是一个用来调节KNN和SVM权重的参数，P(y_i|x_i,KNN)和P(y_i|x_i,SVM)分别表示KNN模型和SVM模型对样本x_i识别结果的置信度。

9.一种基于混合式协同训练的人体动作识别系统，其特征在于，包括：

样本预处理单元：用于对样本视频进行预处理，包括选取视频的首帧、中间帧、尾帧作为关键帧，然后对每个关键帧提取颜色特征、纹理特征，径向矩特征，多尺度LBP特征这四种特征作为表征动作，最后把这些特征融合起来，作为样本的最终特征以供后续的模型训练和动作识别使用；

基于模板的识别单元：采用KNN作为人体动作识别的模型，在训练样本上训练以求解模型参数，并通过该模型的进行样本的动作识别；

基于概率统计的识别单元：采用SVM作为人体动作识别的模型，在训练样本上训练以求解模型参数，并通过该模型的进行样本的动作识别；