CN114925856B

CN114925856B - 一种多粒度感知集成学习方法、装置、计算机设备和介质

Info

Publication number: CN114925856B
Application number: CN202210590822.4A
Authority: CN
Inventors: 朱先强; 黄雪芹; 朱承; 王翔汉; 刘斌; 周鋆; 丁兆云; 王骏
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-05-27
Filing date: 2022-05-27
Publication date: 2023-02-03
Anticipated expiration: 2042-05-27
Also published as: CN114925856A; US20230385597A1

Abstract

本申请涉及一种多粒度感知集成学习方法、装置、计算机设备和存储介质。所述方法包括：对用户上网行为数据集预处理后，通过多粒度感知数据衍生算法根据属性特征的特征类别和粒子标签值对衍生数据集进行多粒度感知处理，再按粒层划分，得到多个层次的衍生数据集；基于基学习算法，根据衍生数据集中的训练数据集数据对多个基学习器进行训练；将训练数据集输入训练好的基学习器，计算自预测误差，根据粒子和粒层的误差确定权重信息；最后将测试数据集输入训练好的基学习器，得到测试数据集的预测结果，根据权重信息对预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。本发明提高了算法的可解释性和预测结果的精确性。

Description

一种多粒度感知集成学习方法、装置、计算机设备和介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种针对用户上网行为数据分析的多粒度感知集成学习方法、装置、计算机设备和存储介质。

背景技术

随着互联网广泛应用在信息安全、经济管理、社会治理、医疗生物等诸多现实领域中，产生了越来越多的记录用户上网行为信息的数据。如何从用户上网行为数据中更有效、更准确地进行知识提取和数据挖掘以满足实际需求仍然面临着大量考验。而在用户上网行为数据上结合粒计算和集成学习方法开展的应用研究却不多。用户上网行为数据属于结构化数据，具有易于查询、修改、计算等优点，它通常可以抽象出更高的数据层次，这个抽象的过程叫做粒化，而多粒度感知就是一种对数据进行多次不同程度的粒化转换，从而产生抽象多粒度特征的方法，以达到对数据多层次、多视角感知的目的，从认知计算的角度来看，多粒度感知就是基于粒计算的概念学习，这有利于以概念知识的方式理解和描述人类的认知过程。目前，针对用户上网行为数据如何合理地多粒度化，以及如何对多粒度结构化数据进行高效、准确、可解释的集成学习还很少被联合起来系统地研究过，因此开展用户上网行为数据的多粒度感知集成学习方法研究是很有价值和必要性的。

发明内容

基于此，有必要针对上述技术问题，提供一种能够将粒计算相关理论应用于用户上网行为分析的多粒度感知集成学习方法、装置、计算机设备和存储介质。

一种多粒度感知集成学习方法，所述方法包括：

获取用户上网行为的数据集，对所述数据集进行预处理得到预处理后数据集；所述预处理后数据集中的数据包括属性特征、粒度特征和粒子标签值；

将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过所述多粒度感知数据衍生算法根据所述属性特征的特征类别和所述粒子标签值对所述衍生数据集进行多粒度感知处理，得到多粒度感知数据集，根据所述粒度特征将所述多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；所述衍生数据集被分为训练数据集和测试数据集；所述衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值；

基于基学习算法，根据所述训练数据集数据的所述衍生属性值和所述对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器；所述基学习器的个数与所述衍生数据集的层数相同；

将所述训练数据集输入所述训练好的基学习器，计算所述测试数据集数据通过所述训练好的基学习器进行预测的自预测误差，根据所述自预测误差统计以粒子为单位的均方误差和以粒层为单位的均方误差；

根据所述以粒子为单位的均方误差得到粒子级权重，根据所述以粒层为单位的均方误差得到粒度级权重，根据所述粒子级权重和所述粒度级权重确定权重信息；其中，均方误差更小的粒子或粒层得到更大权重值；

将所述测试数据集输入所述训练好的基学习器，得到所述测试数据集的预测结果，根据所述权重信息对所述预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。

在其中一个实施例中，还包括：获取用户上网行为的数据集，对所述数据集进行预处理；

根据所述数据集数据结构中的属性生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集；所述数据集数据结构中的属性为数据所属的账户，部门，公司；

或者根据所述数据集通过层次聚类的方式生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集。

在其中一个实施例中，还包括：将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法；

将所述粒子标签值作为所述属性特征的一种，对所述预处理后数据的属性特征进行判别，若所述属性特征是数值型特征，则对所述数值型特征进行粒内归一化，若所述属性特征是符号型特征，则对所述符号型特征进行粒内再编码；

得到多粒度感知数据集。

在其中一个实施例中，还包括：将所述多粒度感知数据集分为多粒度训练集和多粒度测试集；

根据所述粒度特征将所述多粒度训练集和所述多粒度测试集按粒层划分，分别得到多个层次的训练数据集和多个层次的测试数据集；所述训练数据集和所述测试数据集构成衍生数据集。

在其中一个实施例中，还包括：通过粒子群算法对所述权重信息进行增强，得到增强后的权重信息；

将所述测试数据集输入所述训练好的基学习器，得到所述测试数据集的预测结果；

在其中一个实施例中，还包括：以所述权重信息为粒子群算法的初始值；

根据所述初始值通过所述粒子群算法反复迭代，直到满足结束条件，结束迭代；

得到增强后的权重信息。

在其中一个实施例中，还包括：所述基学习器为树模型。

一种多粒度感知集成学习装置，所述装置包括：

预处理模块，用于获取用户上网行为的数据集，对所述数据集进行预处理得到预处理后数据集；所述预处理后数据集中的数据包括属性特征、粒度特征和粒子标签值；

数据衍生模块，用于将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过所述多粒度感知数据衍生算法根据所述属性特征的特征类别和所述粒子标签值对所述衍生数据集进行多粒度感知处理，得到多粒度感知数据集，根据所述粒度特征将所述多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；所述衍生数据集被分为训练数据集和测试数据集；所述衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值；

基学习器训练模块，用于基于基学习算法，根据所述训练数据集数据的所述衍生属性值和所述对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器；所述基学习器的个数与所述衍生数据集的层数相同；

均方误差统计模块，用于将所述训练数据集输入所述训练好的基学习器，计算所述测试数据集数据通过所述训练好的基学习器进行预测的自预测误差，根据所述自预测误差统计以粒子为单位的均方误差和以粒层为单位的均方误差；

权重信息确定模块，用于根据所述以粒子为单位的均方误差得到粒子级权重，根据所述以粒层为单位的均方误差得到粒度级权重，根据所述粒子级权重和所述粒度级权重确定权重信息；其中，均方误差更小的粒子或粒层得到更大权重值；

多粒度感知集成学习预测模块，用于将所述测试数据集输入所述训练好的基学习器，得到所述测试数据集的预测结果，根据所述权重信息对所述预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

将所述训练数据集作为验证集再次输入所述训练好的基学习器，计算预测误差，根据所述自预测误差统计以粒子为单位的均方误差和以粒层为单位的均方误差；

上述多粒度感知集成学习方法、装置、计算机设备和存储介质，通过对用户上网行为数据集进行预处理；通过多粒度感知数据衍生算法以粒子为单位对属性特征分别进行处理，再根据粒度特征将数据按粒层划分，得到多个层次的衍生数据集；基于基学习算法，根据衍生数据集中的训练数据集数据的衍生属性值和对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器；将训练数据集输入训练好的基学习器，计算自预测误差，统计以粒子为单位的均方误差和以粒层为单位的均方误差；根据粒子和粒层的误差确定权重信息；其中，均方误差更小的粒子或粒层得到更大权重值；将测试数据集输入训练好的基学习器，得到测试数据集的预测结果，根据权重信息对预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。本发明针对用户上网行为数据，提出以粒子视野和粒层视角对用户上网行为数据进行变换，衍生出多个不同视角的数据集，通过加权集成策略中将权重分为两个层次：粒层和粒子，提高了对用户上网行为分析的可解释性和预测结果的精确性。

附图说明

图1为一个实施例中多粒度感知集成学习方法的流程示意图；

图2为一个实施例中经过多粒度感知数据衍生算法输出的衍生数据样式示意图；

图3为一个实施例中多粒度感知衍生算法的流程示意图；

图4为一个实施例中粒加权集成策略示意图；

图5为另一个实施例中多粒度感知集成学习方法的流程示意图；

图6为一个具体实施例中的实验结果；

图7为一个实施例中多粒度感知集成学习装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种多粒度感知集成学习方法，包括以下步骤：

步骤102，获取用户上网行为的数据集，对数据集进行预处理得到预处理后数据集。

预处理后数据集中的数据包括属性特征、粒度特征和粒子标签值。

粒计算理论主要涉及到粒计算的三个概念：粒子、粒度、粒层，下面分别给出它们的形式描述：

粒子的描述：粒子是构成粒计算模型的基本元素，一个粒子可以看作是由数据集中的个体元素及其特征属性根据一定的规则或算法进行聚合而成的集合。特别的，一条单独的数据元素也可以看作一个粒子。

粒度的描述：粒度是数据具化或抽象的程度，在完成粒化的数据中可以用来度量描述粒子的大小，也可以在粒化的过程中作为量化规则来限定数据生成粒子的大小。它往往是根据实际数据场景给出的一个合理限定的区间范围，同一个粒层中粒子的粒度相近，不同粒层的粒子的粒度则相差较大。

粒层的描述：从数据功能上看，一个粒层对应的是一个描述计算对象的抽象化视角，可以作为数据的一个特征类别使用；从粒计算理论看，一个粒层是由某一指定的粒化规则进行粒化后的全部粒子所构成的粒子集合。特别的，初始粒层是原数据集。

本发明中粒度概念不仅仅从数据存储的角度出发将数据由下而上的层次化聚合，还模拟了人类抽象认知事物的能力。首先要做的就是通过数据预处理，将数据转换成适用本发明的标准数据形式，使数据集具备抽象的多粒度特征，产生粒子标签值。多粒度特征及其粒子标签的获取方式可以是在收集数据前就设计好数据结构框架，比如在收集上网行为记录时就设定好发生上网行为数据所属的账户、部门、公司等属性，这些属性就可以作为多粒度特征。另外，也可以通过层次聚类的方式从用户上网行为数据集中生成多粒度特征和粒子标签值。

本实施例中，以“用户上网行为数据集”作为实验数据，该数据集来自Datafountain平台旗下的“基于UEBA的用户上网异常行为分析”竞赛，数据说明如下表所示，其中“account”和“group”被作为本数据集自带的粒度特征：

表1数据说明

如表2所示为用户上网行为的数据集经过数据预处理后得到的数据集样式：

表2数据预处理后得到的数据集样式

序号集合{1,2,3,…,v,…,V}表示数据集的编号集，设有x_vq表示第v条数据的第q个属性特征值，有x_vk表示第v条数据的第k个粒度特征值，T＝{T₁,T₂,…,T_q,…,T_Q}是属性特征的集合，M＝{M₁,M₂,…,M_k,…,M_k}是粒度特征的集合，例如M₁代表“账户”粒层的粒度特征，M₂代表“部门”粒层的粒度特征，M₃代表“公司”粒层的粒度特征。表中的T₁,T₂特征下的数字表示它们是数值型特征，T_q,T_Q特征下的符号表示它们是符号型特征，M₁表示从数据集中抽象出的最细粒度的粒层，M₂表示比M₁粒度更大的粒层，后面粒层表示的粒度依次增大，直至满足解决问题所需的最大粒度层次，其中1≤k≤K，|G_i|≥1。

步骤104，将预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过多粒度感知数据衍生算法根据属性特征的特征类别和粒子标签值对衍生数据集进行多粒度感知处理，得到多粒度感知数据集，根据粒度特征将多粒度感知数据集按粒层划分，得到多个层次的衍生数据集。

衍生数据集被分为训练数据集和测试数据集；衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值。

多粒度感知数据衍生算法(MPDDA)算法本质上是提供数据多样性。它模拟人类认知世界的过程从多粒度视角、不同的粒子结构视野去深度认知数据，使本发明模型具备了数据上的可解释性，这种以数据的粒度特征、粒子结构为依据对数据进行加工、衍生出的差异化数据有利于计算机认知和学习。

如图2是经过多粒度感知数据衍生算法输出的衍生数据样式。

从原数据集中衍生出来的数据都包含了Q列属性值、与粒层对应的粒子标签M_i、结果标签值三大类。粒子标签M_i将与衍生属性值一起作为重要特征被模型训练和学习，正是粒子标签值的存留才使得其他衍生属性值具有意义。在实际问题产生的数据中，某些特征经过多粒度感知衍生出的数值，单独去看是没有意义和不可解释的，只有和衍生出它的粒度特征一起出现在训练集中才能进行可解释的训练。本案例的结果标签值代表上网行为的异常程度，结果标签值是作为优化目标应用于有监督学习任务的学习。

步骤106，基于基学习算法，根据训练数据集数据的衍生属性值和对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器。

基学习器的个数与衍生数据集的层数相同。

本发明中基学习器可以是同质的也可以是异质的，应用过程中可根据实际情况选择不同的基学习器。训练基学习器的输入数据是由衍生的K个数据集组成的，特别的当k＝1时，该数据集的属性特征与预备数据集相同，因为其粒度特征就是数据集的数据编号并不能促进模型更好的学习，所以在训练第一层衍生训练集过程中不加入粒度特征M₁。

在处理数据的实际过程中发现某些特征经过多粒度感知数据衍生算法生成的特征值与其对应的原特征内涵偏离，变得不好理解，只有和衍生出它的粒度特征绑定在一起形成新的内涵。基于此，我们需要指定基学习器必须是树模型，针对树模型，进行数据预处理时可以省略全局归一化的操作。

步骤108，将训练数据集输入训练好的基学习器，计算测试数据集数据通过训练好的基学习器进行预测的自预测误差，根据自预测误差统计以粒子为单位的均方误差和以粒层为单位的均方误差。

通过训练数据集的结果标签值和基学习器的输出结果计算自预测误差。

由训练数据集得到的粒子权重可以在测试集中复用的前提假设是：测试集中各粒层的粒子标签集是用户上网行为的数据集中各粒层的粒子标签的全集。

步骤110，根据以粒子为单位的均方误差得到粒子级权重，根据以粒层为单位的均方误差得到粒度级权重，根据粒子级权重和粒度级权重确定权重信息。

本发明提出了基于粒子均方误差(MSE)优化的加权集成策略。粒加权机制是通过给不同粒层的粒子赋予权重，来优化调整各基学习器的预测效果，预测效果好的粒子结构将被赋予更大的权重，反之则赋予较小的权重。各粒子中的数据对象则采用共享权重的方式，在降低计算复杂度的同时还能减少过拟合的可能性。本质上，本发明的加权集成策略是从粒子视野、粒层视角出发优化了模型。

步骤112，将测试数据集输入训练好的基学习器，得到测试数据集的预测结果，根据权重信息对预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。

上述多粒度感知集成学习方法中，通过对用户上网行为数据集进行预处理得到包括属性特征、粒度特征和粒子标签值的预处理后数据集；通过多粒度感知数据衍生算法根据属性特征的特征类别和粒子标签值对衍生数据集进行多粒度感知处理，再根据粒度特征将数据按粒层划分，得到多个层次的衍生数据集；基于基学习算法，根据衍生数据集中的训练数据集数据的衍生属性值和对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器；将训练数据集输入训练好的基学习器，计算自预测误差，统计以粒子为单位的均方误差和以粒层为单位的均方误差；根据粒子和粒层的误差确定权重信息；其中，均方误差更小的粒子或粒层得到更大权重值；将测试数据集输入训练好的基学习器，得到测试数据集的预测结果，根据权重信息对预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。本发明针对用户上网行为数据，提出以粒子视野和粒层视角对用户上网行为数据进行变换，衍生出多个不同视角的数据集，通过加权集成策略中将权重分为两个层次：粒层和粒子，提高了对用户上网行为分析的可解释性和预测结果的精确性。

在其中一个实施例中，还包括：获取用户上网行为的数据集，对数据集进行预处理；根据数据集数据结构中的属性生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集；数据集数据结构中的属性为数据所属的账户，部门，公司；或者根据数据集通过层次聚类的方式生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集。

在其中一个实施例中，还包括：将预处理后数据集输入预先设计的多粒度感知数据衍生算法；将粒子标签值作为属性特征的一种，对预处理后数据的属性特征进行判别，若属性特征是数值型特征，则对数值型特征进行粒内归一化，若属性特征是符号型特征，则对符号型特征进行粒内再编码；得到多粒度感知数据集。将多粒度感知数据集分为多粒度训练集和多粒度测试集；根据粒度特征将多粒度训练集和多粒度测试集按粒层划分，分别得到多个层次的训练数据集和多个层次的测试数据集；训练数据集和测试数据集构成衍生数据集。

具体地，多粒度感知数据衍生算法的流程图如图3所示。首先将训练集和测试集汇总在一起，进行前期的数据预处理、特征类别判定，对数值型特征进行粒内归一化，离散特征进行粒内再编码，然后生成多粒度感知结果，最后分别对多粒度训练集和多粒度测试集按粒层划分，分裂出K个训练集和K个测试集。

针对数值型特征的粒内归一化操作和针对符号型特征的粒内再编码是多粒度感知数据衍生的核心算法，它们的主要作用都是通过多粒度的数据衍生实现对数据集的多层次感知，本质就是以粒子为单位分别进行归一化或再编码，相当于每个粒子自成一个体系，使计算机能在各粒子层次更精确地区分每条数据。而后的数据衍生过程相当于在原有数据集的基础上扩充出了与粒层一一对应的衍生数据集，给下一步的机器学习提供更多数据和视角。

①粒内归一化：传统的归一化只是对数据进行线性变换的无量纲化方法，可以加速某些机器学习算法的梯度下降速度，而粒内归一化不止于此。它将归一化的数据范围框定在不同粒层中的粒子内部，每个粒层下所有粒子内的数值型特征都要分别归一化，从而达到对数值型特征的多粒度感知的数据处理目的。

②粒内再编码：粒内再编码是针对数据集中符号型特征的，它在论域的不同粒层中各粒子内部进行，数据处理中常见编码方式有两种，独热编码(One-hot Encoding)和标签编码(Label Encoding)，独热编码适用于损失函数对数值变化敏感的非树模型，如逻辑回归、SVM等，标签编码则适用于损失函数对数值变化不敏感的树模型如RF、GBDT等，因此进行粒内再编码前需要判断机器学习模型种类再选择编码规则。粒内再编码的数据处理目的则是实现对符号型特征的多粒度感知。

多粒度感知数据衍生算法的详细流程即伪代码如算法1所示：

在其中一个实施例中，还包括：以权重信息为粒子群算法的初始值；根据初始值通过粒子群算法反复迭代，直到满足结束条件，结束迭代；得到增强后的权重信息；将测试数据集输入训练好的基学习器，得到测试数据集的预测结果；根据增强后的权重信息对预测结果进行加权集成。

本实施例提供了基于粒子群算法的增强策略。如果对精准度要求高，但对训练时间要求不高时，可以采用基于粒MSE优化的方法得到初始加权策略，将其作为粒子群算法的初始输入值以加速优化进程，经过反复迭代后得到增强的加权集成策略。

具体地，如图4为权重增强的粒加权集成策略，包括以下步骤：

Step1(训练集误差估计)：将K个训练集设为验证集，对K个基学习器分别进行验证，计算出各个数据的预测方差，

表示第k个基学习器对第v个对象的预测值，SE_k,v则表示第k个基学习器对第v个对象的预测方差。

Step2(粒子误差统计)：以粒子为单位计算均方误差MSE来衡量粒子的平均预测偏差程度,其中m_k,v表示第k粒层的第v条数据的粒度特征值即粒子标签，ID(m_k,v)表示第k粒层中的与第v条数据的粒子标签相同的数据的编号集合，

可以理解为第k层的第i个粒子，

可以表示该粒子内的数据条数，也可以理解为该粒子的粒度，因此粒子视野的均方误差

为：

Step3(粒层误差统计)：以粒层为视角估计模型的预测偏差，同样可参考均方误差MSE这个指标，每个训练集的总数据量都是V，则粒层视角的均方误差MSE_k可表示为：

Step4(基于MSE的权重生成策略)：显然MSE_k,v、MSE_k值越大表示基学习器在粒子v或粒层k范围内的预测效果越差，因此给均方误差值大的粒子、粒层赋予更小的权重，值小的粒子、粒层则赋予较大的权重，以此达到增强模型的整体预测效果，需要注意的是，第一层是原数据集，没有抽象的粒子结构，因此不需要计算粒子权重；将k≥2的粒层基学习器作为一个认知整体赋予权重w₂，而k＝1的粒层基学习器整体赋予权重w₁。粒子权重w_k,v、粒层权重w_k分别表示如下：

基于MSE的权重生成策略具有计算速度快，计算复杂度低的优点。同时本实施例给出了另一种基于粒子群算法的权重增强策略(见step5)，可以再次提升预测效果，但计算复杂度升高，因此可以根据实际问题决定是否采用该增强策略，如不需要，则直接跳到step6(加权集成)步骤。

Step5(基于粒子群算法的权重增强策略)：显然上述step4步骤中的基于MSE的权重生成策略从数学上具备可证的效果和可解释性，但是它不一定能将集成学习模型优化至最理想的状态。因此这里给出一个可选的权重增强步骤，采用粒子群算法作为优化算法，寻找最优的粒子和粒层的权重分配策略。设在D维搜索空间中，有N个粒子，每个粒子代表一个权重分配策略(w_1,1)，则X_id＝(x_i1,x_i2,…,x_iD)表示第i个粒子的位置，V_id＝(v_i1,v_i2,…,v_iD)表示第i个粒子的速度，第i个粒子搜索到的个体最优解为P_id,pbest＝(p_i1,p_i2,…,p_iD)，群体最优解为P_d,gbest＝(p_1,gbest,p_2,gbest,…,p_D,gbest)，f_p表示个体历史最优适应值，f_g表示群体历史最优适应值。

粒子全算法中的核心计算公式有速度更新公式

位置更新公式

适应度函数f，分别表示如下：

其中s表示迭代次数，ω是惯性权重，c₁是个体学习因子，c₂群体学习因子；r₁和r₂是[0,1]内的随机数。

Step6(加权集成)：使用训练好的各基学习器进行预测后，将输出的结果与粒权重结合起来完成最后的集成计算，用符号

表示多粒度感知集成学习结果：

应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在另一个实施例中，如图5所示，提供一种多粒度感知集成学习方法的架构，首先是输入原始数据集，进行常规的数据预处理操作，然后判断数据中是否自带有粒度特征，如果没有则需要先基于层次聚类算法增加适当的粒度特征。至此，对于已经有多粒度特征的数据集采用多粒度感知数据衍生算法处理，输出结果即K个预备训练集。接着选择合适的基学习算法进行训练，得到K个基学习器，用K个基学习器分别预测训练集，而后计算训练集自预测的误差，以各粒子结构为单位统计MSE和各粒层的MSE，MSE越大说明基学习器在该粒子结构或粒层中的预测偏差越大，应该赋予MSE值大的粒子或粒层更小的权，以削弱其不好的预测效果。就得到了基于粒子MSE优化的加权集成策略。但这个权重策略不一定是效果最佳的，如果有更高的准确度要求可以尝试基于粒子群算法的加权集成策略来增强，得到最终的粒感知集成学习器。最后就是采用粒感知集成学习器进行预测任务。

在一个具体实施例中，采用如前文表1所示“用户上网行为数据集”作为实验数据。

评分规则是基于RMSE的Score，值越高，则说明模型预测效果越好：

本次实验设备采用intel i7 32G的CPU运行，编程语言为Python3.8。采用了LightGBM、XGBoost、随机森林三种学习器分别加入到GEL框架中进行对比实验。

实验中采用3种基学习器进行6种模式的训练与预测：

①对单个粒度分别进行训练与预测；

②对原粒度的数据采用K-Fold模式训练与预测，其中K＝3即粒层数，；

③将三种粒度的数据集连接起来，作为一个数据集分别进行训练与预测；

④将单个粒度分别进行训练后，采用平均加权的模式集成；

⑤采用基于MSE优化加权的GEL模式；

⑥采用基于PSO增强加权的GEL模式。

实验中，各模型的超参数在以上六种实验中保持一致，表3给出了训练时采用的参数设置，未给出的则为模型默认参数。

表3参数设置

实验结果如图6所示。本发明所提方法模型记为GEL，分析实验结果：

首先，可以发现在所有的实验结果中，预测效果是XGBoost>LightGBM>随机森林。

其次，在图中单层数据(粒层1)是指原数据集，单层数据(粒层2，3)则指经过多粒度感知衍生算法生成出来的数据集，观察这三个数据集分别采用三种基学习器的预测准确率，可以发现学习器在单层数据(粒层2)的表现是优于单层数据(粒层1)的，说明了采用多粒度感知衍生算法进行数据衍生的可行性。而在单层数据(粒层2)上的表现则很差，说明多粒度感知衍生算法得到的数据集不一定都能在学习器上取得较好的效果。

最后，对比不同的集成模式的预测效果。基于PSO增强加权GEL>基于MSE优化加权GEL>各粒层数据合并模式>原始数据K-Fold模式>各粒层平均加权模式。

综合来看，GEL中的粒加权继承策略效果是优于其他几种集成方式的，其基于PSO的增强策略，的确也使得GEL具备了更好的预测效果。

在一个实施例中，如图7所示，提供了一种多粒度感知集成学习装置，包括：预处理模块702、数据衍生模块704、基学习器训练模块706、均方误差统计模块708、权重信息确定模块710和多粒度感知集成学习预测模块712，其中：

预处理模块702，用于获取用户上网行为的数据集，对数据集进行预处理得到预处理后数据集；预处理后数据集中的数据包括属性特征、粒度特征和粒子标签值；

数据衍生模块704，用于将预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过多粒度感知数据衍生算法根据属性特征的特征类别和粒子标签值对衍生数据集进行多粒度感知处理，得到多粒度感知数据集，根据粒度特征将多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；衍生数据集被分为训练数据集和测试数据集；衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值；

基学习器训练模块706，用于基于基学习算法，根据训练数据集数据的衍生属性值和对应粒层的粒子标签值对预设的多个基学习器进行训练，得到训练好的基学习器；基学习器的个数与衍生数据集的层数相同；

均方误差统计模块708，用于将训练数据集输入训练好的基学习器，计算测试数据集数据通过训练好的基学习器进行预测的自预测误差，根据自预测误差统计以粒子为单位的均方误差和以粒层为单位的均方误差；

权重信息确定模块710，用于根据以粒子为单位的均方误差得到粒子级权重，根据以粒层为单位的均方误差得到粒度级权重，根据粒子级权重和粒度级权重确定权重信息；其中，均方误差更小的粒子或粒层得到更大权重值；

多粒度感知集成学习预测模块712，用于将测试数据集输入训练好的基学习器，得到测试数据集的预测结果，根据权重信息对预测结果进行加权集成，输出用户上网行为数据的多粒度感知集成学习预测结果。

预处理模块702还用于获取用户上网行为的数据集，对数据集进行预处理；根据数据集数据结构中的属性生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集；数据集数据结构中的属性为数据所属的账户，部门，公司；或者根据数据集通过层次聚类的方式生成数据的属性特征、粒度特征和粒子标签值，得到预处理后数据集。

数据衍生模块704还用于将预处理后数据集输入预先设计的多粒度感知数据衍生算法；将粒子标签值作为属性特征的一种，对预处理后数据的属性特征进行判别，若属性特征是数值型特征，则对数值型特征进行粒内归一化，若属性特征是符号型特征，则对符号型特征进行粒内再编码；得到多粒度感知数据集。

数据衍生模块704还用于将多粒度感知数据集分为多粒度训练集和多粒度测试集；根据粒度特征将多粒度训练集和多粒度测试集按粒层划分，分别得到多个层次的训练数据集和多个层次的测试数据集；训练数据集和测试数据集构成衍生数据集。

基学习器训练模块706还用于通过粒子群算法对权重信息进行增强，得到增强后的权重信息；将测试数据集输入训练好的基学习器，得到测试数据集的预测结果；根据增强后的权重信息对预测结果进行加权集成。

基学习器训练模块706还用于以权重信息为粒子群算法的初始值；根据初始值通过粒子群算法反复迭代，直到满足结束条件，结束迭代；得到增强后的权重信息。

关于多粒度感知集成学习装置的具体限定可以参见上文中对于多粒度感知集成学习方法的限定，在此不再赘述。上述多粒度感知集成学习装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种多粒度感知集成学习方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种多粒度感知集成学习方法，其特征在于，所述方法包括：

将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过所述多粒度感知数据衍生算法根据所述属性特征的特征类别和所述粒子标签值对所述预处理后数据集进行多粒度感知处理，得到多粒度感知数据集，根据所述粒度特征将所述多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；所述衍生数据集被分为训练数据集和测试数据集；所述衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值；

2.根据权利要求1所述的方法，其特征在于，获取用户上网行为的数据集，对所述数据集进行预处理得到预处理后数据集；所述预处理后数据集中的数据包括属性特征、粒度特征和粒子标签值，包括：

获取用户上网行为的数据集，对所述数据集进行预处理；

3.根据权利要求2所述的方法，其特征在于，将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过所述多粒度感知数据衍生算法根据所述属性特征的特征类别和所述粒子标签值对所述预处理后数据集进行多粒度感知处理，得到多粒度感知数据集，包括：

将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法；

将所述粒子标签值作为所述属性特征的一种，对所述预处理后数据的属性特征进行判别，若所述属性特征是数值型特征，则对所述数值型特征进行粒内归一化，若所述属性特征是符号型特征，则对所述符号型特征进行粒内再编码；得到多粒度感知数据集。

4.根据权利要求3所述的方法，其特征在于，根据所述粒度特征将所述多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；所述衍生数据集被分为训练数据集和测试数据集，包括：

将所述多粒度感知数据集分为多粒度训练集和多粒度测试集；

5.根据权利要求4所述的方法，其特征在于，将所述测试数据集输入所述训练好的基学习器，得到所述测试数据集的预测结果，根据所述权重信息对所述预测结果进行加权集成，包括：

通过粒子群算法对所述权重信息进行增强，得到增强后的权重信息；

根据所述增强后的权重信息对所述预测结果进行加权集成。

6.根据权利要求5所述的方法，其特征在于，通过粒子群算法对所述权重信息进行增强，得到增强后的权重信息，包括：

以所述权重信息为粒子群算法的初始值；

得到增强后的权重信息。

7.根据权利要求1至6任意一项所述的方法，其特征在于，所述基学习器为树模型。

8.一种多粒度感知集成学习装置，其特征在于，所述装置包括：

数据衍生模块，用于将所述预处理后数据集输入预先设计的多粒度感知数据衍生算法，通过所述多粒度感知数据衍生算法根据所述属性特征的特征类别和所述粒子标签值对所述预处理后数据集进行多粒度感知处理，得到多粒度感知数据集，根据所述粒度特征将所述多粒度感知数据集按粒层划分，得到多个层次的衍生数据集；所述衍生数据集被分为训练数据集和测试数据集；所述衍生数据集中的数据包括衍生属性值和对应粒层的粒子标签值；

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。