CN114661549A

CN114661549A - 基于随机森林的系统活跃度预测方法及系统

Info

Publication number: CN114661549A
Application number: CN202210234742.5A
Authority: CN
Inventors: 李明; 王云霄; 韩兴旺; 陈琳; 赵宇祥; 倪金超; 黄华; 盛华; 赵丽娜; 崔博
Original assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; Information and Telecommunication Branch of State Grid Shandong Electric Power Co Ltd
Priority date: 2022-03-09
Filing date: 2022-03-09
Publication date: 2022-06-24
Anticipated expiration: 2042-03-09
Also published as: CN114661549B

Abstract

本发明提供了基于随机森林的系统活跃度预测方法及系统，方法包括基于系统行为数据，分别提取系统层面、功能层面和用户层面的数据；将提取的数据，按照系统、功能和用户维度设计特征，并根据预设标准，对当前设计特征设置标签，将所述设计特征和标签形成基础特征向量；对所述基础特征向量中的数据进行异常值筛选和归一化处理，形成特征向量；将所述特征向量输入训练好的随机森林预测模型，预测系统活跃度。本发明得到系统活跃度预测结果，便于针对不同的使用状态进行资源再调配优化，以此减少“高配低效”业务系统数量，支援资源不足的业务系统，最终达到降本增效的目的。

Description

基于随机森林的系统活跃度预测方法及系统

技术领域

本发明涉及机器学习技术领域，尤其是基于随机森林的系统活跃度预测方法及系统。

背景技术

伴随着信息化进程的快速发展，信息化系统已经渗透到企业的经济生产活动以及人们的日常生活中。目前企业在运的信息系统以及相关的资源非常多，这使得日益复杂的企业内部信息化系统难以进行管理和运维。由于企业信息系统业务繁多，业务数据维度过多，这对信息系统的运营评价提出了严峻的挑战。摆在信息系统运营评价面前的难题之一就是对系统活跃度的分析和处理。

不活跃系统是指与实际业务流程脱节，存在着功能的冗余，其功能可以被其他系统替代，所占用的资源长期处于空闲的状态，运行维护停止更新服务，以及使用范围小、功能活跃度低、用户访问量小的信息系统或功能。这些系统长期占用着系统的资源，消耗大量的系统资源，导致系统资源的利用率低。

发明内容

本发明提供了基于随机森林的系统活跃度预测方法及系统，用于解决现有缺少对系统活跃度的分析研究，导致系统资源使用不合理的问题。

为实现上述目的，本发明采用下述技术方案：

本发明第一方面提供了一种基于随机森林的系统活跃度预测方法，所述方法包括以下步骤：

基于系统行为数据，分别提取系统层面、功能层面和用户层面的数据；

将提取的数据，按照系统、功能和用户维度设计特征，并根据预设标准，对当前设计特征设置标签，将所述设计特征和标签形成基础特征向量，所述标签表征系统的活跃度；

对所述基础特征向量中的数据进行异常值筛选和归一化处理，形成特征向量；

将所述特征向量输入训练好的随机森林预测模型，预测系统活跃度。

进一步地，所述方法将所述特征向量输入随机森林预测模型前，还包括模型的训练，具体过程为：

从提取的数据中筛选特征数据，将特征数据分为测试集和训练集；

将训练集中样本的特征向量输入决策树中，每个决策树节点随机提取特征向量的子集进行计算，经训练后，每个决策树输出一个预测结果；

通过投票，从多个预测结果中选取最佳决策，将所述最佳决策与特征向量中的标签进行比较，计算准确度；

对随机森林预测模型的参数进行优化，选取准确度最高的参数组合作为最优模型；

使用训练好的最优模型在测试集上进行预测，并将结果与特征向量中的标签进行比较，计算模型最终准确度。

进一步地，所述系统层面数据包括系统月登陆天数、月登录次数、系统注销信息、系统功能的用户留存率、系统当月新增用户数、系统中僵尸用户数、系统用户数、系统功能的僵尸用户数、系统功能总数、系统被登录的间隔时间、系统被使用的停留时长；

所述功能层面数据包括功能的月使用天数、功能在当月预设时间段的使用次数、功能的必需性、功能的僵尸用户数、功能用户数、功能被使用的停留时长、功能访问路径的转化率、功能当月新增用户数、功能被登录的时间间隔和功能的用户留存率；

所述用户层面数据包括用户当月登录系统的天数、用户当月登录系统的次数、用户登录系统数量、用户注销信息、用户当月使用功能的次数、用户当月使用功能的天数、用户的注册时间、用户修改密码的时间间隔、用户的必需性、用户访问时长衰减率、用户登录系统的间隔时间和用户登录系统的持续时间。

进一步地，所述标签的设置以后一个月系统的登录情况为依据。

进一步地，所述异常值通过四分位法进行筛选，具体为：

将样本每个维度的特征排序后，分为四分界限值：下四分位数Q₁，中位数Q₂，上四分位数Q₃；

计算上下限值：IQR＝Q₃-Q₁，min＝Q₁-k*IQR，max＝Q₃+k*IQR

将处于上限max和下限min之外的数据，作为异常值。

进一步地，所述归一化处理具体为：

式中，X为原始值，X^*为归一化后的取值。

本发明第二方面提供了一种基于随机森林的系统活跃度预测系统，所述系统包括：

数据采集单元，基于系统行为数据，分别提取系统层面、功能层面和用户层面的数据；

特征提取单元，将提取的数据，按照系统、功能和用户维度设计特征，并根据预设标准，对当前设计特征设置标签，将所述设计特征和标签形成基础特征向量，所述标签表征系统的活跃度；

特征处理单元，对所述基础特征向量中的数据进行异常值筛选和归一化处理，形成特征向量；

预测单元，将所述特征向量输入训练好的随机森林预测模型，预测系统活跃度。

进一步地，所述系统还包括模型训练单元，所述模型训练单元包括：

数据分类子单元，从提取的数据中筛选特征数据，将特征数据分为测试集和训练集；

计算子单元，将训练集中样本的特征向量输入决策树中，每个决策树节点随机提取特征向量的子集进行计算，经训练后，每个决策树输出一个预测结果；

投票子单元，通过投票，从多个预测结果中选取最佳决策，将所述最佳决策与特征向量中的标签进行比较，计算准确度；

参数优化子单元，对随机森林预测模型的参数进行优化，选取准确度最高的参数组合作为最优模型；

预测子单元，使用训练好的最优模型在测试集上进行预测，并将结果与特征向量中的标签进行比较，计算模型最终准确度。

本发明第三方面提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在系统上运行时，使所述系统执行所述方法的步骤。

本发明第二方面的所述活跃度预测系统能够实现第一方面及第一方面的各实现方式中的方法，并取得相同的效果。

发明内容中提供的效果仅仅是实施例的效果，而不是发明所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

本发明基于系统、功能和用户三个维度，对系统活跃度进行表征，在样本选取时，以当月数据作为特征，下月数据作为标签，形成特征向量，增加样本数据的时间跨度，提高样本数据的准确性和可信度，并利用随机森林模型进行预测，得到系统活跃度预测结果，便于针对不同的使用状态进行资源再调配优化，以此减少“高配低效”业务系统数量，支援资源不足的业务系统，最终达到降本增效的目的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述方法实施例的流程示意图；

图2是本发明所述方法实施例中模型训练的流程示意图；

图3是本发明所述方法模型推断示意图；

图4是本发明所述系统实施例的结构示意图。

具体实施方式

为能清楚说明本方案的技术特点，下面通过具体实施方式，并结合其附图，对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意，在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。

本发明针对大数据信息系统应用的运行状态特性，系统可采集大量的应用功能行为与用户行为数据，基于捕获的样本数据构造高质量的特征表示与处理方法，从数据样本层面最大程度地减小分析检测模型的计算误差。首先针对本项目的检测对象，使用原始样本数据刻画检测对象的特征群，以此作为分析判断的初步参考依据。

如图1所示，本发明提供了一种基于随机森林的系统活跃度预测方法，所述方法包括以下步骤：

S1,基于系统行为数据，分别提取系统层面、功能层面和用户层面的数据；

S2,将提取的数据，按照系统、功能和用户维度设计特征，并根据预设标准，对当前设计特征设置标签，将所述设计特征和标签形成基础特征向量，所述标签表征系统的活跃度；

S3,对所述基础特征向量中的数据进行异常值筛选和归一化处理，形成特征向量；

S4,将所述特征向量输入训练好的随机森林预测模型，预测系统活跃度。

步骤S1中，根据数据库中数据，通过SQL语言进行搜索查询，将数据根据系统、功能、用户三个层次进行提取，使用系统一个月的被登录日志以及相关用户和功能的登录信息作为特征，后一个月该系统的登录情况作为活跃度标准。

步骤S2中，以系统为分析粒度，以一个月的数据作为样本，从用户规模、功能质量以及系统本身特性层面，抽取统计周期内的系统应用状态相关特征，其中101-112是用户层面的特征，从使用系统的用户出发，可以侧面体现出系统的可用性，从而间接体现系统的活跃度，201-212是功能层面的特征，从系统自身功能出发，可以侧面体现系统的有效性，从而间接体现系统的活跃度，301-312是系统自身层面的特征，直接体现系统的活跃度，通过三个层面的特征可以扩展系统活跃度的特征维度，深入挖掘三者之间的潜在联系，减小检测误差，特征如表1所示。

步骤S3中，初步预处埋开构造基础特征向量后，需进一步执行异常值与缺失值处理，并使用无量纲化方法提升特征质量，最后进行主成分分析(Principal ComponentsAnalysis，PCA)降维，构造特征的规范化表示。

真实采集样本中往往存在一定的错误或异常数据，根据统计学对异常值的定义，采用四分位法筛选异常值，将原始样本每个维度的特征排序后，分为四分界限值：下四分位数Q₁，中位数Q₂，上四分位数Q₃。计算数据的上下界限：

IQR＝Q₃-Q₁

min＝Q₁-k*IQR

max＝Q₃+k*IQR

其中k通常取1.5。根据界限，提出包含异常值的无效样本。样本中某一维度上若缺失特征值，处理方法基于该维度的统计规律，自动填充均值或中位数。

多维度特征的无量纲化是提升特征质量的重要步骤。未经处理时，各维度特征的量纲不同，如次数单位、时间单位，直接简单的拼凑特征向量从本质上各维度之间没有可比性。为保留数据的意义和分布信息，多维度特征的无量纲化将采用最值区间缩放法执行特征归一化处理，该方法表示为：

将每个维度的特征值缩放到[0,1]区间内，变换到同一区间后，可以加速检测模型训练的收敛。

完成特征变换后，进一步地执行特征选择，筛选“冗余”特征，重构或保留“重要”特征，解决特征向量的各维度上多重共线性引起的模型估计偏差问题。本发明采用PCA方法对特征进行降维处理，得到各个特征属性之间均独立的特征向量规范化表示。

然后根据一个月后该系统的登录情况为标签的标准，并在标签设置时考虑系统是否必须或是否已下线等决定性特征，综合考虑系统用户活跃度，系统包含功能活跃度，系统自身活跃度三者的交叉关系，共同决定系统活跃度。

所述方法将所述特征向量输入随机森林预测模型前，还包括模型的训练，如图2所示，具体过程为：

对随机森林预测模型的参数进行优化，选取准确度最高的参数组合作为最优模型。

在上述模型训练过程中，完成多维度的特征选择与规范化表示，并为对应样本设置标签，制作完整的数据集，设计随机森林算法使用样本集实现模型训练与预测。本发明采用随机森林算法作为系统活跃度的检测模型。对于每一类检测对象构造独立的随机森林模型，判定某一系统的是否活跃。

每个随机森林中包含n棵决策树，每棵决策树有放回的随机选取部分样本进行训练和预测。对于其中一类检测对象中的任意样本

X_i＝{x₁，x₂，...，x_m，y_i|y_i∈{0，1}}

y_i表示样本i的标签值，1代表该样本数据对应的系统为“活跃”类型，检测模型本质上是执行一个二分类任务。随机森林另一层面的随机性体现在每棵决策树节点将随机取特征向量的子集

(K维)作为输入，即决策树最多进行K次节点分裂，每个节点对应于特征向量的某一维度上的属性值，训练后的模型仅保留对决策效果最关键的部分特征。决策树节点的分裂依据采用信息增益，若当前节点所产生的信息增益小于预设阈值时，将根据其他维度的特征分裂出新的子节点，执行进一步的决策。n棵决策树产生的输出为：

最终通过投票得出一个最佳决策

提供相应的系统应用状态分析检测结果，为系统回收资源或资源再分配提供参考依据。对于每一类检测对象构造独立的随机森林模型，判定某一系统的是否为活跃。

将之前数据集中随机分出的测试集通过模型测试，将测试出的类别结果与原本标签进行对比，计算正确的数据的占比，即准确度。

网格搜索法是指定参数值的一种穷举搜索方法，自己选定需要调整的参数，给定参数范围，模型通过交叉验证的方法来进行优化，在训练集中拿出大部分用于模型建立，留有小部分进行模型预测，并求误差，记录平方和，直到所有样本被有且仅有一次预测过。拟合函数会尝试所有参数组合，求出哪一组参数的准确度最高，返回最佳的参数组合，从而实现参数优化，以得到最优模型。

如图4所示，本发明还提供了一种基于随机森林的系统活跃度预测系统，所述系统包括数据采集单元、特征提取单元、特征处理单元和预测单元。

数据采集单元基于系统行为数据，分别提取系统层面、功能层面和用户层面的数据；特征提取单元将提取的数据，按照系统、功能和用户维度设计特征，并根据预设标准，对当前设计特征设置标签，将所述设计特征和标签形成基础特征向量，所述标签表征系统的活跃度；特征处理单元对所述基础特征向量中的数据进行异常值筛选和归一化处理，形成特征向量；预测单元将所述特征向量输入训练好的随机森林预测模型，预测系统活跃度。

所述系统还包括模型训练单元，所述模型训练单元包括数据分类子单元、计算子单元、投票子单元、参数优化子单元和预测子单元。

数据分类子单元从提取的数据中筛选特征数据，将特征数据分为测试集和训练集；计算子单元将训练集中样本的特征向量输入决策树中，每个决策树节点随机提取特征向量的子集进行计算，经训练后，每个决策树输出一个预测结果；投票子单元通过投票，从多个预测结果中选取最佳决策，将所述最佳决策与特征向量中的标签进行比较，计算准确度；参数优化子单元基于测试集，对随机森林预测模型的参数进行优化，选取准确度最高的参数组合作为最优模型；预测子单元使用训练好的最优模型在测试集上进行预测，并将结果与特征向量中的标签进行比较，计算模型最终准确度。

本发明还提供了一种计算机存储介质，所述计算机存储介质中存储有计算机指令，所述计算机指令在系统上运行时，使所述系统执行所述方法的步骤。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于随机森林的系统活跃度预测方法，其特征是，所述方法包括以下步骤：

2.根据权利要求1所述基于随机森林的系统活跃度预测方法，其特征是，所述方法将所述特征向量输入随机森林预测模型前，还包括模型的训练，具体过程为：

3.根据权利要求1所述基于随机森林的系统活跃度预测方法，其特征是，

所述系统层面数据包括系统月登陆天数、月登录次数、系统注销信息、系统功能的用户留存率、系统当月新增用户数、系统中僵尸用户数、系统用户数、系统功能的僵尸用户数、系统功能总数、系统被登录的间隔时间、系统被使用的停留时长；

4.根据权利要求1所述基于随机森林的系统活跃度预测方法，其特征是，所述标签的设置以后一个月系统的登录情况为依据。

5.根据权利要求1所述基于随机森林的系统活跃度预测方法，其特征是，所述异常值通过四分位法进行筛选，具体为：

计算上下限值：IQR＝Q₃-Q₁，min＝Q₁-k*IQR，max＝Q₃+k*IQR

将处于上限max和下限min之外的数据，作为异常值。

6.根据权利要求5所述基于随机森林的系统活跃度预测方法，其特征是，所述归一化处理具体为：

式中，X为原始值，X^*为归一化后的取值。

7.一种基于随机森林的系统活跃度预测系统，其特征是，所述系统包括：

8.根据权利要求7所述基于随机森林的系统活跃度预测系统，其特征是，所述系统还包括模型训练单元，所述模型训练单元包括：

9.一种计算机存储介质，所述计算机存储介质中存储有计算机指令，其特征是，所述计算机指令在权利要求7或8系统上运行时，使所述系统执行如权利要求1-6任一项所述方法的步骤。