CN108764282A

CN108764282A - 一种类别增量行为识别方法和系统

Info

Publication number: CN108764282A
Application number: CN201810354381.1A
Authority: CN
Inventors: 陈益强; 胡春雨; 高晨龙
Original assignee: Institute of Computing Technology of CAS
Current assignee: Institute of Computing Technology of CAS
Priority date: 2018-04-19
Filing date: 2018-04-19
Publication date: 2018-11-06

Abstract

本发明涉及一种类别增量行为识别方法和系统，其特征在于，包括：获取用户固定行为类别的初始行为数据，并利用该初始行为数据及其所属行为类别训练随机森林模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；获取用户新增行为类别的行为数据，根据该新增行为数据及其类别，得到该新增行为数据对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新现有随机森林行为识别模型，得到增量行为识别模型，并使用该增量行为识别模型识别用户的行为。

Description

一种类别增量行为识别方法和系统

技术领域

该发明涉及普适计算、增量学习技术和行为识别领域，特别涉及一种类别增量行为识别方法和系统。

背景技术

近年来，大量研究表明执行日常行为的能力是人类身体健康的重要指标。例如，文献[Chen Y,Huang M,Hu C,et al.A coarse-to-fine feature selection method foraccurate detection of cerebral small vessel disease[C]//Neural Networks(IJCNN),2016International Joint Conference on.IEEE,2016:2609-2616.]指出运动行为，如步行、指鼻等，与脑小血管疾病紧密相关。文献[ChenY,Yu H,Miao C,et al.Usingmotor patterns for stroke detection[J].Science(Advances in ComputationalPsychophysiology),2015,350(6256):12-14.]指出手指的运动能力与脑卒中有很大关联。因此，研究基于日常行为的健康监护对于提高人们生活质量，应对老龄化社会等具有重要的现实意义。实时、准确的日常行为监测是日常行为监护的重要挑战。微型、可穿戴式传感器件的诞生与发展为日常行为监护提供了新的途径，其便携和低功耗等特性为实时和准确地感知用户行为提供了可能。可穿戴行为识别利用微型可穿戴设备采集用户的行为数据，通过机器学习模型分析行为数据与行为类别之间的映射关系，从而实现对用户日常行为的识别。目前，已广泛应用于健康监护、运动保健、工业生产及娱乐等众多领域。

然而，传统的可穿戴行为识别主要采用固定的识别模型，即利用已有的标定数据离线训练分类模型，并利用该分类模型对用户行为进行识别分类。这类模型对用户的行为建模时，往往是对用户已有的行为建模，用于反映其当前行为模式。随着时间的推移，用户的生活习惯很有可能发生变化，当用户习得了一种新的行为，固定识别模型将无法对新行为进行正确的识别分类。如何扩展已有模型的识别能力，使其能够识别新的行为类别，是可穿戴行为识别中面临的一个亟待解决的实际问题。

针对上述问题，很多学者和研究人员进行了相关研究。专利CN201710681741.4公开了在相似相溶原理基础上的行为识别方法，其方法通过计算实时与样本相对误差，将票数投给相对误差最小的行为以实现人体行为识别。在票数超过预设时，执行类别增量。专利CN201710235331.7对卡尔曼滤波后的数据的分子量提取范德华力、引力、密度等物理特征，利用相对误差作为行为类别判别标准。当确定性不够大时，通过增量学习动态更新样本值，使其逐渐趋向用户的行为习惯。专利WO2015011521-A提供了一种基于二叉树的增量学习方法，通过弱分类器的自适应混合，不断更新节点分类和划分模型，以得到适应新增数据的分类模型。

虽然多种机器学习方法已经成功应用于行为识别领域，但是他们在通用性、针对性以及适用性方面尚存在一些不足：

传统的机器学习方法在面对新的类别出现时，只能采取重新训练的方式，在这种处理方式中，需要的训练时间随样本数量的增加呈指数型增长，且模型冗余度较高，无法满足增量学习的要求。

已有大部分类别增量行为识别方法聚焦于发现新类数据，对一类新类数据的识别较好，但当持续不断的新类别出现时，模型性能波动性大，鲁棒性差。

因此，急需设计一种针对新增类别增量学习的鲁棒的行为识别方法，使得行为识别模型能够满足人们生活习惯的变化，推进可穿戴行为识别的发展。

发明内容

针对上述问题，本发明设计了一种类别增量行为识别方法及系统。该方法及系统有效地解决了行为识别中新类别数据不断出现的问题。本发明提出的方法共包含两个阶段：初始模型构建以及模型动态更新。在初始模型构建阶段，首先利用智能硬件设备中内嵌的惯性传感器采集行为数据，然后利用行为数据训练初始随机森林模型。在随机森林模型的构建过程中，利用分层嵌套包围盒的形式表示决策树，以方便后续的模型更新操作。在模型动态更新阶段，新增类别数据到达后，通过混合模型更新方法利用新类数据更新初始构建的随机森林模型，使其具备识别新类数据的能力。

具体来说本发明公开了一种类别增量行为识别方法，其中包括：

步骤1、获取用户固定行为类别的初始行为数据，并利用该初始行为数据及其所属行为类别训练随机森林模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；

步骤2、获取用户新增行为类别的行为数据，根据该新增行为类别数据，得到其对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新现有随机森林行为识别模型，得到增量行为识别模型，并使用该增量行为识别模型识别该用户的行为。

该类别增量行为识别方法，其中该步骤1中训练随机森林模型的具体过程包括：将该初始行为数据进行预处理、特征提取后与行为类别组合成特征向量，根据该特征向量每一维属性的最小值和最大值，构建轴对齐包围盒作为其包围盒。根据特征向量包围盒构建初始行为识别模型。

该类别增量行为识别方法，其中该步骤2还包括：当该新增行为数据到达时，根据该新增行为数据包围盒与决策树当前节点包围盒之间的边界距离，选择具有最大边界距离的分离轴为分裂属性，并将分裂值选定为该分裂属性上间隔的中点，根据该分裂值将该新增行为数据对应的新包围盒插入决策树。

该类别增量行为识别方法，其中该分裂属性的确定过程具体为：

其中和分别表示第i个轴对齐包围盒的下边界和上边界，sAtt为分裂属性；

该分裂值的确定过程具体为：

其中splitValue是该分裂属性上的分裂值，和分别表示sAtt分裂属性轴上的第i个轴对齐包围盒的下边界和上边界。

该类别增量行为识别方法，其中向该决策树插入一个新的节点或分裂该决策树的叶子节点的过程具体包括：

当该新增行为数据的新包围盒与该决策树中当前节点的包围盒没有交集时，插入一个新的节点作为该节点的父节点，并添加一个叶子节点对应该新增行为数据；

当该决策树中当前节点的包围盒完全包含该新增行为数据的新包围盒时，该新增行为数据根据该决策树的划分到达相应的叶子节点；

当该新增行为数据被传递到该决策树的叶子节点仍然无法被识别时，采用信息增益或者基尼指数分裂该叶子节点，将该新增行为数据划分至分裂后的节点；

当该决策树中当前节点的包围盒包含部分该新增行为数据的新包围盒时，扩展该节点的轴对齐包围盒范围，使其覆盖该新增行为数据的新包围盒。

本发明还公开了一种类别增量行为识别系统，其中包括：

模型训练模块，用于获取用户固定行为类别的初始行为数据，并利用该初始行为数据及其所属行为类别训练随机森林模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；

模型更新模块，用于获取用户新增行为类别的新增行为数据，根据该新增类别行为数据，得到其对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新现有随机森林模型，得到增量行为识别模型，并使用该增量行为识别模型识别该用户的行为。

该类别增量行为识别系统，其中该模型训练模块中训练随机森林模型的具体过程包括：将该初始行为数据进行预处理、特征提取后与行为类别组合成特征向量，根据该特征向量每一维属性的最小值和最大值，构建轴对齐包围盒作为其包围盒。根据特征向量包围盒构建初始行为识别模型。

该类别增量行为识别系统，其中该模型更新模块还包括：当该新增行为数据到达时，根据该新增行为数据包围盒与决策树当前节点包围盒之间的边界距离，选择具有最大边界距离的分离轴为分裂属性，并将分裂值选定为该分裂属性上间隔的中点，根据该分裂值将该新增行为数据对应的新包围盒插入决策树。

该类别增量行为识别系统，其中该分裂属性的确定过程具体为：

该分裂值的确定过程具体为：

其中splitValue是该分裂属性上的该分裂值，和分别表示sAtt分裂属性轴上的第i个轴对齐包围盒的下边界和上边界。

该类别增量行为识别系统，其中向该决策树插入一个新的节点或分裂该决策树的叶子节点的过程具体包括：

本发明总的技术效果包括：

针对现有的在线随机森林方法只能以自顶向下的方式更新已有决策树模型导致决策树结构冗余的问题，提出了一种基于混合模型更新方法的类别增量行为识别方法及系统，该系统可处理新增类别数据，动态更新初始模型，包括基于分离轴定理的分裂策略和类别增量树增长策略两项关键点。该系统能够实现与重新训练模型相似的精度，可以保证在样本量增加的情况下，有效解决批量学习训练时间指数增加的问题，大大缩短训练时间。此外，本发明还能在模型动态更新过程中保证模型的低冗余度，提高行为识别精度和模型鲁棒性。

附图说明

图1为基于类别增量的行为识别方法的工作流程图；

图2为一个给定点集的包围盒示意图；

图3A为一颗二维决策树示意图；

图3B为图3A中决策树的二维平面分割图；

图3C为与图3A中决策树对应的轴对齐包围盒示意图；

图4A为两个不相交的包围盒以及他们在x-轴和y-轴相应的投影示意图；

图4B为两个相交的包围盒以及他们在x-轴和y-轴相应的投影示意图；

图5为基于分离轴定理的分裂策略图；

图6为类别增量决策树生长机制图；

图7为测试精度对比试验图；

图8为训练时间对比试验图。

具体实施方式

本发明提出了一种应对新增类别行为识别的混合模型更新算法，该算法主要包含两个模块：

1)基于分离轴定理的分裂策略；技术效果：在本发明定义的两种轴对齐包围盒的基础上，基于分离轴定理的决策树节点分类策略将具有最大边界距离的分离轴选为分裂属性。因为具有更大间隔的分离轴对训练样本的局部扰动更加鲁棒。选定分裂属性后，将分裂值选定为分裂属性上间隔的中点。由信息熵增益可得基于分离轴定理的决策树节点分裂策略所确定的分裂属性和分裂值是最优的，比其他方法更适用于决策树的节点划分。在该策略下决策树插入新节点不需要重新构建子树。

2)基于混合模型更新方法的类别增量决策树生长策略；技术效果：本发明中提出的类别增量增长策略可以在不改变已有决策树结构的前提下，向当前决策树中插入一个新的节点或者将叶子节点进一步分裂。该策略以1)为基础，可以得到与重训练分类器相似的识别精度并大大缩短了模型训练时间，能够解决批量学习方法构建分类模型中遇到的训练时间随样本数增加而指数增长的问题。此外，基于该策略，我们能够在决策树增量生长过程中保证模型的低冗余度。

该系统有效地解决了传统行为识别方法无法应对新增类别数据出现的问题，能够避免完全重新训练模型，从而大大降低模型训练时间。此外，本发明系统稳定，能够在行为类别持续增加的情况下保持较高的识别精度，具有强鲁棒性。

为让本发明的上述特征和效果能阐述的更明确易懂，下文特举实施例，并配合说明书附图作详细说明如下。

类别增量行为识别方法及系统工作流程如图1所示，主要步骤包括：

1、获取惯性传感器采集到的行为数据(有标签)

2、对获取到的行为数据进行预处理(数据补齐和归一化)；

3、对预处理数据提取时域和频域特征，整合行为特征和行为类别得到特征向量；

4、构建初始随机森林分类器模型；

5、惯性传感器采集到新增类别数据(有标签)，得到特征向量；

6、在步骤5获取到的新增类别数据和步骤4构建的初始行为识别模型的基础上，利用混合模型更新方法更新行为识别模型；

7、系统结束。

在上述方法中，如何利用新增类别数据更新已有模型使其能够识别新增类别是本发明的要解决的关键问题。步骤6中基于混合模型更新方法的决策树生长策略是解决上述关键问题的主要解决方案，该方案主要包含两部分内容：基于分离轴定理的节点分裂策略和基于混合模型更新方法的类别增量决策树生长策略。其中基于混合模型更新方法的类别增量决策树生长策略通过判定新增数据块的包围盒与当前节点对应的包围盒之间的关系，对不同情况采取不同的生长策略。并利用基于分离轴定理的节点分裂策略找到分裂属性和分裂值。即基于分离轴定理的节点分裂策略是混合模型更新方法的基础。下面将详细介绍这两部分：

1、基于分离轴定理的分裂策略：

当新类数据到达时，如何能够在尽可能保留原有行为识别模型结构的基础上，对模型进行更改使其具有识别新类数据的能力，是构建类别增量行为识别模型的关键。因此，将轴对齐包围盒的概念引入决策树的构建过程中。

轴对齐包围盒指边平行于坐标轴的最小包围盒。在二维平面中，给一个定点集：D＝{(x₁,y₁),(x₂,y₂),…,(x_n,y_n)},其中x为二维的属性向量，y为离散的类别标签，其最小包围盒如图2所示。在本发明中，轴对齐包围盒被定义为：B＝{R_min,R_max}，其中R_min＝min(x₁,x₂,…x_n)，R_max＝max(x₁,x₂,…x_n)。它由每一维属性的最小值R_min和最大值R_max组成，属性就是x向量每一维的含义比如有均值，方差等。对应上述形式化表达方式，可以将决策树表示成轴对齐包围盒的形式，决策树中每一个节点对应一个轴对齐包围盒。图3B是图3A中决策树对应的二维平面分割图，图3C是图3A中决策树对应的轴对齐包围盒图示。包围盒顶点与x的维度有关，二维平面内有4个顶点，n维即有2n个；此处的Rmin和Rmax也分别是n维的向量，Rmin和Rmax的第i个数据即表示在第i维上的顶点。

当新增类别的行为数据到达时，如何找到合适的属性和分裂位置是类别增量随机森林算法最大的挑战。本发明引入了分离轴定理来解决这一问题。

分离轴定理[Gottschalk S.Separating axis theorem[R].Technical ReportTR96-024,Department of Computer Science,UNC Chapel Hill,1996.]：如果能够找到一条轴，使得两个物体在该轴上的投影不重叠，那么这两个物体不相交。

在决策树生长过程中，要想找到分裂属性和分裂值，首先要找到轴对齐包围盒的分离轴。具有最大边界距离的分离轴被选为分裂属性(如公式1所述)。这种分裂属性选择策略的依据是具有更大间隔的分离轴训练样本的局部扰动更加鲁棒。选定分裂属性之后，将分裂值选定为分裂属性上间隔的中点(即最大边界距离的分离轴的中点，如公式2所述)。

公式1：

其中和分别表示第i个轴对齐包围盒的下边界和上边界，sAtt为分裂属性。

公式2：

其中和分别表示sAtt分裂属性轴上的第i个轴对齐包围盒的下边界和上边界，splitValue是分裂属性上的分裂值。

2、类别增量决策树增长策略：

为了识别新类数据，本发明提出了一种新的类别增量决策树增长策略。利用该策略，本发明可以在不改变已有决策树结构的前提下，向当前决策树中插入一个新的节点或者将叶子节点进一步分裂。该策略主要分为四种情况：

第一种情况：新类数据块的包围盒与当前节点对应的包围盒没有交集。无论当前节点是不是叶子节点，都插入一个新的节点作为当前节点的父节点；

第二种情况：新类数据块落入了一个内部节点且新类数据对应的包围盒包含在当前节点所对应的包围盒范围内，该情况不需要对当前节点做任何修改。新数据根据当前的划分到达相应的叶子节点；

第三种情况：新类数据被传递到了叶子节点仍然无法被识别。为了获得最优的决策树结构，本发明采用信息增益或者基尼指数来分裂叶子节点；

第四种情况：新数据部分位于当前节点内部分位于当前节点范围外。在这种情况下需要扩展当前节点所对应的包围盒范围使其覆盖新数据块。不对分裂属性和分裂值做任何更改。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对本发明提出的类别增量行为识别方法及系统进一步详细说明。应当理解，此处所描述的具体实施方法仅仅用以解释本发明，并不用于限定本发明。

类别增量的行为识别方法及系统包括两个主要功能模块：初始模型构建模块以及模型动态更新模块。初始模型构建模块：系统根据传感器采集到的预定义类别的行为数据，根据该行为数据使用随机森林模型构造初始行为识别模型。动态更新模块：当系统获得不属于预定义类别的新增类别数据时，根据基于混合模型更新方法的类别增量决策树生长策略动态更新决策树，整合得到可识别新类别的随机森林行为识别模型。

初始模型构建：

本发明初始模型构建过程采用智能硬件设备内置的加速度传感器、陀螺仪等收集到的数据进行行为识别模型构建。初始模型构建阶段包括：

1)读取惯性传感器(加速度计，陀螺仪等)的行为数据样本；

2)利用滑动窗口方法滑动截取的固定时间长度(如5秒)的样本数据，利用预处理算法对每一个窗口数据进行处理，预处理算法包括但不限于数据滤波等；数据滤波常用于过滤掉孤立点数据或高频噪声数据。

3)对预处理得到的数据进行特征提取，每个窗口提取到的特征包括但不限于：均值，标准差，最小值，最大值，众数，区间，过均值点次数，直流分量，快速傅里叶变换后的峰值、均值、标准差能量熵等；

4)将提取的特征与样本类别组合成特征向量以供构建随机森林分类器使用；

5)训练初始随机森林，例如设置树为100棵，每棵树最少划分两个节点，得到初始行为识别模型；

6)读取标定好的新类别的加速度陀螺仪行为数据，同样进行2)、3)和4)项处理。

模型动态更新模块：

获得新增类别数据后，初始训练模型无法满足需求，需要进行模型的动态更新，模型动态更新模块主要包括基于分离轴的分裂策略和类别增量决策树增长模块。

基于分离轴定理的分裂策略。在几何学中，一个点集的最小包围盒是指包含点集内所有离散点的最小凸包围空间。最小包围盒通常被用于检测相交或重合。如果两个点集的最小包围盒之间没有任何重合，那么就可以推断这两个点集没有交集。根据最小包围盒的这一属性，它已被成功应用于多个领域如碰撞检测、光线追踪等。本发明将最小包围盒的这一属性引入到增量决策树的构建过程中，用于确定已知当前节点与新增数据块之间是否有交集。常用的最小包围盒包括轴对齐包围盒和方向包围盒，考虑到决策树的轴平行分裂特性，本发明采用轴对齐包围盒。

在本发明的类别增量随机森林算法中，定义了两种轴对齐包围盒：对应决策树节点的轴对齐包围盒(NAABB)和对应新增数据块的轴对齐包围盒(DAABB)。NAABB用于记录落入相应节点的数据点的边界(参见图3C)，DAABB用于描述新增数据块每一维的范围(参见图2)。

在轴对齐包围盒的基础上，可以用分层嵌套包围盒的形式来表示决策树。当新类别数据到达时，找到合适的属性和分裂位置是类别增量随机森林算法最大的挑战。本发明引入了分离轴定理来解决这一问题。

以二维包围盒为例，以图4A、图4B说明分离轴定理。对两类数据分别定义其对应的包围盒并将它们分别投影到x-轴和y-轴，在图4A中两类数据在y-轴上的投影不相交，根据分离轴定理，y-轴是图4A中两个轴对齐包围盒的分离轴。图4B中的两个包围盒在x-轴和y-轴上的投影均存在交集，因此不能找到分离轴将它们分开。

在决策树生长过程中，要想找到分裂属性和分裂值，首先要找到轴对齐包围盒的分离轴。具有最大边界距离的分离轴被选为分裂属性(如公式1所述)。这种分裂属性选择策略的依据是具有更大间隔的分离轴对训练样本的局部扰动更加鲁棒。选定分裂属性之后，将分裂值选定为分裂属性上间隔的中点(如公式2所述)。基于分离轴定理的分裂策略如图5所示。图5给出了基于分离轴定理的分裂策略图示，其中y＝b被确定为分裂值。

假设图5中三角形和圆形分别表示数据集D1中两种不同类别的数据。根据基于分离轴定理的分裂策略选出的分裂属性为y轴分裂值为y＝b。由图5知，Gain(D1,splitAtt1)＝Entropy(D1)。

由于因此，可以得出结论：基于分离轴定理的分裂策略所确定的分裂属性和分裂值是最优的，而且适用于决策树的节点划分。

基于混合模型更新方法的类别增量决策树生长策略。为了识别新类数据，本发明提出了一种新的类别增量决策树增长策略。利用该策略，本发明可以在不改变已有决策树结构的前提下，向当前决策树中插入一个新的节点或者将叶子节点进一步分裂。这种树增长机制如图6所示。

图6(a)表示一棵根据随机森林算法构建的初始决策树。当新类数据到达后，可以分为以下四种情况。

第一种情况，数据块的包围盒与当前节点对应的包围盒没有交集(图6(b))。无论当前节点是不是叶子节点，我们都插入一个新的节点(图6(b)中的S2)作为当前节点(图6(b)中的S1)的父节点，此外，我们还要添加一个当前节点的兄弟节点(图6(b)中的L3)来对应新类数据块。在这种情况下，新构建的父节点(图6(b)中的S2)所对应的轴对齐包围盒覆盖了新数据块和当前节点(图6(b)中的S1)的范围，其分裂属性和分裂值由基于分离轴定理的分裂策略确定。

第二种情况，新类数据块落入了一个内部节点且新类数据对应的包围盒包含在当前节点所对应的包围盒范围内(图6(c)中的S1)，此时不需要对当前节点做任何修改。新数据根据当前的划分到达相应的叶子节点(图6(c)中的L4)，如图6c可以看到通过S1中y轴作为分裂属性，将圆类数据划分到L2之后，S3中x轴作为分裂属性将新类划分到L4中。相应的就是不需要更改S1，直接往下分即可。。

第三种情况，新类数据被传递到了叶子节点仍然无法被识别(图6(d))。为了获得最优的决策树结构，我们采用信息增益或者基尼指数来分裂叶子节点。

第四种情况更为常见，如图6(e)所示，新数据部分位于当前节点内(图6(a)中的S1)部分位于当前节点范围外。在这种情况下，我们需要扩展当前节点所对应的包围盒范围使其覆盖新数据块。不对分裂属性和分裂值做任何更改。新数据根据当前的划分被传递到相应的子树(图6(a)中的L1和L2)。然后，根据上述规则不断迭代。

为了进一步验证本发明提出的类别增量的行为识别方法和系统的有效性以及说明本发明的使用方法，发明人还以运动行为识别为例进行了实验。实验采用加州大学尔湾分校(University of CaliforniaIrvine)用于机器学习数据库的日常运动行为数据集Daily and Sports Activities Data Set，其中包含8名参与者(4男4女)采集的19类日常运动行为。

1)数据获取

在该组实验中采用三类传感器：3轴加速度计，3轴陀螺仪，3轴磁力计。分别固定在身体的五个部位：躯干，左右臂，左右腿。运动行为主要采集19种，这19种行为主要包括：坐、站、平躺、侧躺、上下楼、站在电梯里、在电梯里走动、在停车场走、在跑步机上以4公里/时的速度行走、在跑步机上以4千米/时的速度在15个倾斜的位置上行走、在跑步机上以8千米的速度跑步、踏步运动、在交叉训练器上训练、在水平位置骑自行车、在垂直位置骑自行车、划船、跳跃、打篮球。

2)特征提取

从获取到的运动行为数据中提取特征。这些特征包括两大类：(1)时域特征：均值，标准差，最小值，最大值，众数，区间，过均值点次数(2)频域特征：直流分量，快速傅里叶变换后的峰值、均值、标准差、能量熵等。总共提取15个传感器的405维特征。

3)分类

经过特征提取后得到初始分类器所需的特征向量，为了说明本发明方法的有效性，采用常规机器学习方法随机森林进行重训练模型作为对比实验，采用测试精度和训练时间作为性能测试标准。其中测试精度是指分类正确的样本占所有样本的比例，训练时间是指构建可识别新类的行为识别模型所需的训练时间。实验过程中，选取两种类别训练初始分类器，在新增类别不断出现时分别采用本发明的方法或者使用随机森林进行重训练。实验结果如图7、8所示。由图7可以看出，本发明类别增量行为识别方法(ClassIncremental random forest，简称CIRF)在DSADS测试集上的测试精度高于97％，与随机森林方法重训练(Random Forest，简称RF)得到的结果基本一致，证明该方法是一种解决行为类别动态变化的有效方法。由图8可知本发明的方法(CIRF)所需的训练时间远远小于随机森林方法重训练(RF)，在时间消耗上有明显优势。实验证明，本发明所提出的类别增量随机森林能够与人类的不断增加的学习能力保持一致，同时避免了由于新行为类别出现而导致的系统失效，大大缩短训练时间，更加鲁棒。

以下为与上述方法实施例对应的系统实施例，本实施系统可与上述实施方式互相配合实施。上述施方式中提到的相关技术细节在本实施系统中依然有效，为了减少重复，这里不再赘述。相应地，本实施系统中提到的相关技术细节也可应用在上述实施方式中。

本发明还公开了一种类别增量行为识别系统，其中包括：

模型训练模块，用于获取用户固定行为类别的初始行为数据，并以该初始行为数据及其所属行为类别训练随机森林模型，得到初始行为识别模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；

模型更新模块，用于获取用户新增行为类别的行为数据作为新增行为数据，根据该新增行为数据，得到其对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新该初始行为识别模型，得到增量行为识别模型，并使用该增量行为识别模型识别该用户的行为。

该类别增量行为识别系统，其中该模型训练模块中训练随机森林模型的具体过程包括：将该初始行为数据及其行为类别组合成特征向量，根据该特征向量每一维属性的最小值和最大值，在坐标系中构造轴对齐包围盒作为该初始行为数据的包围盒。

该类别增量行为识别系统，其中该模型更新模块还包括：当该新增行为数据到达时，根据其包围盒与决策树当前节点包围盒之间的边界距离，选择具有最大边界距离的分离轴为分裂属性，并将分裂值选定为该分裂属性上间隔的中点，根据该分裂值将该新增行为数据对应的新包围盒插入决策树。

该分裂值的确定过程具体为：

当该新增行为数据的新包围盒与该决策树中当前节点对应的包围盒没有交集时，插入一个新的节点作为该节点的父节点，并添加一个叶子节点对应该新增行为数据；

虽然本发明以上述实施例公开，但具体实施例仅用以解释本发明，并不用于限定本发明，任何本技术领域技术人员，在不脱离本发明的构思和范围内，可作一些的变更和完善，故本发明的权利保护范围以权利要求书为准。

Claims

1.一种类别增量行为识别方法，其特征在于，包括：

步骤1、获取用户固定行为类别的初始行为数据，并以该初始行为数据及其所属行为类别训练随机森林模型，得到初始行为识别模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；

步骤2、获取用户新增行为类别的行为数据作为新增行为数据，根据该新增行为数据，得到其对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新该初始行为识别模型，得到增量行为识别模型，并使用该增量行为识别模型识别该用户的行为。

2.如权利要求1所述的类别增量行为识别方法，其特征在于，该步骤1中训练随机森林模型的具体过程包括：将该初始行为数据及其行为类别组合成特征向量，根据该特征向量每一维属性的最小值和最大值，在坐标系中构造轴对齐包围盒作为该初始行为数据的包围盒。

3.如权利要求1所述的类别增量行为识别方法，其特征在于，该步骤2还包括：当该新增行为数据到达时，根据其包围盒与决策树当前节点包围盒之间的边界距离，选择具有最大边界距离的分离轴为分裂属性，并将分裂值选定为该分裂属性上间隔的中点，根据该分裂值将该新增行为数据对应的新包围盒插入决策树。

4.如权利要求3所述的类别增量行为识别方法，其特征在于，该分裂属性的确定过程具体为：

该分裂值的确定过程具体为：

5.如权利要求1所述的类别增量行为识别方法，其特征在于，向该决策树插入一个新的节点或分裂该决策树的叶子节点的过程具体包括：

6.一种类别增量行为识别系统，其特征在于，包括：

初始模型训练模块，用于获取用户固定行为类别的初始行为数据，并利用该初始行为数据及其所属行为类别训练随机森林模型，得到初始行为识别模型，该随机森林模型中决策树用分层嵌套包围盒的形式来表示，该决策树中每个节点对应一个包围盒；

模型动态更新模块，用于获取用户新增行为类别的行为数据作为新增行为数据，根据该新增行为数据，得到其对应的新包围盒，根据该新包围盒与决策树当前节点包围盒的关系，向该决策树中插入新的节点或分裂该决策树的叶子节点，以更新该初始行为识别模型，得到增量行为识别模型，并使用该增量行为识别模型识别该用户的行为。

7.如权利要求6所述的类别增量行为识别系统，其特征在于，该模型训练模块中训练随机森林模型的具体过程包括：将该初始行为数据及其行为类别组合成特征向量，根据该特征向量每一维属性的最小值和最大值，在坐标系中构造轴对齐包围盒作为该初始行为数据的包围盒。

8.如权利要求6所述的类别增量行为识别系统，其特征在于，该模型更新模块还包括：当该新增行为数据到达时，根据其包围盒与决策树当前节点包围盒之间的边界距离，选择具有最大边界距离的分离轴为分裂属性，并将分裂值选定为该分裂属性上间隔的中点，根据该分裂值将该新增行为数据对应的新包围盒插入决策树。

9.如权利要求8所述的类别增量行为识别系统，其特征在于，该分裂属性的确定过程具体为：

该分裂值的确定过程具体为：

10.如权利要求6所述的类别增量行为识别系统，其特征在于，向该决策树插入一个新的节点或分裂该决策树的叶子节点的过程具体包括：