CN114661549A - 基于随机森林的系统活跃度预测方法及系统 - Google Patents
基于随机森林的系统活跃度预测方法及系统 Download PDFInfo
- Publication number
- CN114661549A CN114661549A CN202210234742.5A CN202210234742A CN114661549A CN 114661549 A CN114661549 A CN 114661549A CN 202210234742 A CN202210234742 A CN 202210234742A CN 114661549 A CN114661549 A CN 114661549A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- prediction
- random forest
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000000694 effects Effects 0.000 title claims abstract description 40
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 40
- 239000013598 vector Substances 0.000 claims abstract description 62
- 238000012545 processing Methods 0.000 claims abstract description 17
- 238000013461 design Methods 0.000 claims abstract description 15
- 230000002159 abnormal effect Effects 0.000 claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 11
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 238000005457 optimization Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 52
- 238000012549 training Methods 0.000 claims description 30
- 238000003066 decision tree Methods 0.000 claims description 24
- 238000012360 testing method Methods 0.000 claims description 16
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 9
- 230000014759 maintenance of location Effects 0.000 claims description 5
- 239000000284 extract Substances 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 238000012986 modification Methods 0.000 claims description 3
- 230000004048 modification Effects 0.000 claims description 3
- 238000003860 storage Methods 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000009897 systematic effect Effects 0.000 claims 3
- 230000009467 reduction Effects 0.000 abstract description 4
- 230000006872 improvement Effects 0.000 abstract description 2
- 238000001514 detection method Methods 0.000 description 9
- 238000004458 analytical method Methods 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000005714 functional activity Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3051—Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
- G06F18/2135—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了基于随机森林的系统活跃度预测方法及系统,方法包括基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量;对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。本发明得到系统活跃度预测结果,便于针对不同的使用状态进行资源再调配优化,以此减少“高配低效”业务系统数量,支援资源不足的业务系统,最终达到降本增效的目的。
Description
技术领域
本发明涉及机器学习技术领域,尤其是基于随机森林的系统活跃度预测方法及系统。
背景技术
伴随着信息化进程的快速发展,信息化系统已经渗透到企业的经济生产活动以及人们的日常生活中。目前企业在运的信息系统以及相关的资源非常多,这使得日益复杂的企业内部信息化系统难以进行管理和运维。由于企业信息系统业务繁多,业务数据维度过多,这对信息系统的运营评价提出了严峻的挑战。摆在信息系统运营评价面前的难题之一就是对系统活跃度的分析和处理。
不活跃系统是指与实际业务流程脱节,存在着功能的冗余,其功能可以被其他系统替代,所占用的资源长期处于空闲的状态,运行维护停止更新服务,以及使用范围小、功能活跃度低、用户访问量小的信息系统或功能。这些系统长期占用着系统的资源,消耗大量的系统资源,导致系统资源的利用率低。
发明内容
本发明提供了基于随机森林的系统活跃度预测方法及系统,用于解决现有缺少对系统活跃度的分析研究,导致系统资源使用不合理的问题。
为实现上述目的,本发明采用下述技术方案:
本发明第一方面提供了一种基于随机森林的系统活跃度预测方法,所述方法包括以下步骤:
基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;
将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;
对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;
将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
进一步地,所述方法将所述特征向量输入随机森林预测模型前,还包括模型的训练,具体过程为:
从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;
将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;
通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;
对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型;
使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
进一步地,所述系统层面数据包括系统月登陆天数、月登录次数、系统注销信息、系统功能的用户留存率、系统当月新增用户数、系统中僵尸用户数、系统用户数、系统功能的僵尸用户数、系统功能总数、系统被登录的间隔时间、系统被使用的停留时长;
所述功能层面数据包括功能的月使用天数、功能在当月预设时间段的使用次数、功能的必需性、功能的僵尸用户数、功能用户数、功能被使用的停留时长、功能访问路径的转化率、功能当月新增用户数、功能被登录的时间间隔和功能的用户留存率;
所述用户层面数据包括用户当月登录系统的天数、用户当月登录系统的次数、用户登录系统数量、用户注销信息、用户当月使用功能的次数、用户当月使用功能的天数、用户的注册时间、用户修改密码的时间间隔、用户的必需性、用户访问时长衰减率、用户登录系统的间隔时间和用户登录系统的持续时间。
进一步地,所述标签的设置以后一个月系统的登录情况为依据。
进一步地,所述异常值通过四分位法进行筛选,具体为:
将样本每个维度的特征排序后,分为四分界限值:下四分位数Q1,中位数Q2,上四分位数Q3;
计算上下限值:IQR=Q3-Q1,min=Q1-k*IQR,max=Q3+k*IQR
将处于上限max和下限min之外的数据,作为异常值。
进一步地,所述归一化处理具体为:
式中,X为原始值,X*为归一化后的取值。
本发明第二方面提供了一种基于随机森林的系统活跃度预测系统,所述系统包括:
数据采集单元,基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;
特征提取单元,将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;
特征处理单元,对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;
预测单元,将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
进一步地,所述系统还包括模型训练单元,所述模型训练单元包括:
数据分类子单元,从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;
计算子单元,将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;
投票子单元,通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;
参数优化子单元,对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型;
预测子单元,使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
本发明第三方面提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在系统上运行时,使所述系统执行所述方法的步骤。
本发明第二方面的所述活跃度预测系统能够实现第一方面及第一方面的各实现方式中的方法,并取得相同的效果。
发明内容中提供的效果仅仅是实施例的效果,而不是发明所有的全部效果,上述技术方案中的一个技术方案具有如下优点或有益效果:
本发明基于系统、功能和用户三个维度,对系统活跃度进行表征,在样本选取时,以当月数据作为特征,下月数据作为标签,形成特征向量,增加样本数据的时间跨度,提高样本数据的准确性和可信度,并利用随机森林模型进行预测,得到系统活跃度预测结果,便于针对不同的使用状态进行资源再调配优化,以此减少“高配低效”业务系统数量,支援资源不足的业务系统,最终达到降本增效的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明所述方法实施例的流程示意图;
图2是本发明所述方法实施例中模型训练的流程示意图;
图3是本发明所述方法模型推断示意图;
图4是本发明所述系统实施例的结构示意图。
具体实施方式
为能清楚说明本方案的技术特点,下面通过具体实施方式,并结合其附图,对本发明进行详细阐述。下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开,下文中对特定例子的部件和设置进行描述。此外,本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的,其本身不指示所讨论各种实施例和/或设置之间的关系。应当注意,在附图中所图示的部件不一定按比例绘制。本发明省略了对公知组件和处理技术及工艺的描述以避免不必要地限制本发明。
本发明针对大数据信息系统应用的运行状态特性,系统可采集大量的应用功能行为与用户行为数据,基于捕获的样本数据构造高质量的特征表示与处理方法,从数据样本层面最大程度地减小分析检测模型的计算误差。首先针对本项目的检测对象,使用原始样本数据刻画检测对象的特征群,以此作为分析判断的初步参考依据。
如图1所示,本发明提供了一种基于随机森林的系统活跃度预测方法,所述方法包括以下步骤:
S1,基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;
S2,将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;
S3,对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;
S4,将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
步骤S1中,根据数据库中数据,通过SQL语言进行搜索查询,将数据根据系统、功能、用户三个层次进行提取,使用系统一个月的被登录日志以及相关用户和功能的登录信息作为特征,后一个月该系统的登录情况作为活跃度标准。
步骤S2中,以系统为分析粒度,以一个月的数据作为样本,从用户规模、功能质量以及系统本身特性层面,抽取统计周期内的系统应用状态相关特征,其中101-112是用户层面的特征,从使用系统的用户出发,可以侧面体现出系统的可用性,从而间接体现系统的活跃度,201-212是功能层面的特征,从系统自身功能出发,可以侧面体现系统的有效性,从而间接体现系统的活跃度,301-312是系统自身层面的特征,直接体现系统的活跃度,通过三个层面的特征可以扩展系统活跃度的特征维度,深入挖掘三者之间的潜在联系,减小检测误差,特征如表1所示。
步骤S3中,初步预处埋开构造基础特征向量后,需进一步执行异常值与缺失值处理,并使用无量纲化方法提升特征质量,最后进行主成分分析(Principal ComponentsAnalysis,PCA)降维,构造特征的规范化表示。
真实采集样本中往往存在一定的错误或异常数据,根据统计学对异常值的定义,采用四分位法筛选异常值,将原始样本每个维度的特征排序后,分为四分界限值:下四分位数Q1,中位数Q2,上四分位数Q3。计算数据的上下界限:
IQR=Q3-Q1
min=Q1-k*IQR
max=Q3+k*IQR
其中k通常取1.5。根据界限,提出包含异常值的无效样本。样本中某一维度上若缺失特征值,处理方法基于该维度的统计规律,自动填充均值或中位数。
多维度特征的无量纲化是提升特征质量的重要步骤。未经处理时,各维度特征的量纲不同,如次数单位、时间单位,直接简单的拼凑特征向量从本质上各维度之间没有可比性。为保留数据的意义和分布信息,多维度特征的无量纲化将采用最值区间缩放法执行特征归一化处理,该方法表示为:
将每个维度的特征值缩放到[0,1]区间内,变换到同一区间后,可以加速检测模型训练的收敛。
完成特征变换后,进一步地执行特征选择,筛选“冗余”特征,重构或保留“重要”特征,解决特征向量的各维度上多重共线性引起的模型估计偏差问题。本发明采用PCA方法对特征进行降维处理,得到各个特征属性之间均独立的特征向量规范化表示。
然后根据一个月后该系统的登录情况为标签的标准,并在标签设置时考虑系统是否必须或是否已下线等决定性特征,综合考虑系统用户活跃度,系统包含功能活跃度,系统自身活跃度三者的交叉关系,共同决定系统活跃度。
所述方法将所述特征向量输入随机森林预测模型前,还包括模型的训练,如图2所示,具体过程为:
从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;
将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;
通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;
对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型。
使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
在上述模型训练过程中,完成多维度的特征选择与规范化表示,并为对应样本设置标签,制作完整的数据集,设计随机森林算法使用样本集实现模型训练与预测。本发明采用随机森林算法作为系统活跃度的检测模型。对于每一类检测对象构造独立的随机森林模型,判定某一系统的是否活跃。
每个随机森林中包含n棵决策树,每棵决策树有放回的随机选取部分样本进行训练和预测。对于其中一类检测对象中的任意样本
Xi={x1,x2,...,xm,yi|yi∈{0,1}}
yi表示样本i的标签值,1代表该样本数据对应的系统为“活跃”类型,检测模型本质上是执行一个二分类任务。随机森林另一层面的随机性体现在每棵决策树节点将随机取特征向量的子集(K维)作为输入,即决策树最多进行K次节点分裂,每个节点对应于特征向量的某一维度上的属性值,训练后的模型仅保留对决策效果最关键的部分特征。决策树节点的分裂依据采用信息增益,若当前节点所产生的信息增益小于预设阈值时,将根据其他维度的特征分裂出新的子节点,执行进一步的决策。n棵决策树产生的输出为:
将之前数据集中随机分出的测试集通过模型测试,将测试出的类别结果与原本标签进行对比,计算正确的数据的占比,即准确度。
网格搜索法是指定参数值的一种穷举搜索方法,自己选定需要调整的参数,给定参数范围,模型通过交叉验证的方法来进行优化,在训练集中拿出大部分用于模型建立,留有小部分进行模型预测,并求误差,记录平方和,直到所有样本被有且仅有一次预测过。拟合函数会尝试所有参数组合,求出哪一组参数的准确度最高,返回最佳的参数组合,从而实现参数优化,以得到最优模型。
如图4所示,本发明还提供了一种基于随机森林的系统活跃度预测系统,所述系统包括数据采集单元、特征提取单元、特征处理单元和预测单元。
数据采集单元基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;特征提取单元将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;特征处理单元对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;预测单元将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
所述系统还包括模型训练单元,所述模型训练单元包括数据分类子单元、计算子单元、投票子单元、参数优化子单元和预测子单元。
数据分类子单元从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;计算子单元将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;投票子单元通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;参数优化子单元基于测试集,对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型;预测子单元使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
本发明还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机指令,所述计算机指令在系统上运行时,使所述系统执行所述方法的步骤。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (9)
1.一种基于随机森林的系统活跃度预测方法,其特征是,所述方法包括以下步骤:
基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;
将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;
对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;
将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
2.根据权利要求1所述基于随机森林的系统活跃度预测方法,其特征是,所述方法将所述特征向量输入随机森林预测模型前,还包括模型的训练,具体过程为:
从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;
将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;
通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;
对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型;
使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
3.根据权利要求1所述基于随机森林的系统活跃度预测方法,其特征是,
所述系统层面数据包括系统月登陆天数、月登录次数、系统注销信息、系统功能的用户留存率、系统当月新增用户数、系统中僵尸用户数、系统用户数、系统功能的僵尸用户数、系统功能总数、系统被登录的间隔时间、系统被使用的停留时长;
所述功能层面数据包括功能的月使用天数、功能在当月预设时间段的使用次数、功能的必需性、功能的僵尸用户数、功能用户数、功能被使用的停留时长、功能访问路径的转化率、功能当月新增用户数、功能被登录的时间间隔和功能的用户留存率;
所述用户层面数据包括用户当月登录系统的天数、用户当月登录系统的次数、用户登录系统数量、用户注销信息、用户当月使用功能的次数、用户当月使用功能的天数、用户的注册时间、用户修改密码的时间间隔、用户的必需性、用户访问时长衰减率、用户登录系统的间隔时间和用户登录系统的持续时间。
4.根据权利要求1所述基于随机森林的系统活跃度预测方法,其特征是,所述标签的设置以后一个月系统的登录情况为依据。
5.根据权利要求1所述基于随机森林的系统活跃度预测方法,其特征是,所述异常值通过四分位法进行筛选,具体为:
将样本每个维度的特征排序后,分为四分界限值:下四分位数Q1,中位数Q2,上四分位数Q3;
计算上下限值:IQR=Q3-Q1,min=Q1-k*IQR,max=Q3+k*IQR
将处于上限max和下限min之外的数据,作为异常值。
7.一种基于随机森林的系统活跃度预测系统,其特征是,所述系统包括:
数据采集单元,基于系统行为数据,分别提取系统层面、功能层面和用户层面的数据;
特征提取单元,将提取的数据,按照系统、功能和用户维度设计特征,并根据预设标准,对当前设计特征设置标签,将所述设计特征和标签形成基础特征向量,所述标签表征系统的活跃度;
特征处理单元,对所述基础特征向量中的数据进行异常值筛选和归一化处理,形成特征向量;
预测单元,将所述特征向量输入训练好的随机森林预测模型,预测系统活跃度。
8.根据权利要求7所述基于随机森林的系统活跃度预测系统,其特征是,所述系统还包括模型训练单元,所述模型训练单元包括:
数据分类子单元,从提取的数据中筛选特征数据,将特征数据分为测试集和训练集;
计算子单元,将训练集中样本的特征向量输入决策树中,每个决策树节点随机提取特征向量的子集进行计算,经训练后,每个决策树输出一个预测结果;
投票子单元,通过投票,从多个预测结果中选取最佳决策,将所述最佳决策与特征向量中的标签进行比较,计算准确度;
参数优化子单元,对随机森林预测模型的参数进行优化,选取准确度最高的参数组合作为最优模型;
预测子单元,使用训练好的最优模型在测试集上进行预测,并将结果与特征向量中的标签进行比较,计算模型最终准确度。
9.一种计算机存储介质,所述计算机存储介质中存储有计算机指令,其特征是,所述计算机指令在权利要求7或8系统上运行时,使所述系统执行如权利要求1-6任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234742.5A CN114661549B (zh) | 2022-03-09 | 2022-03-09 | 基于随机森林的系统活跃度预测方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234742.5A CN114661549B (zh) | 2022-03-09 | 2022-03-09 | 基于随机森林的系统活跃度预测方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114661549A true CN114661549A (zh) | 2022-06-24 |
CN114661549B CN114661549B (zh) | 2024-04-30 |
Family
ID=82029993
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210234742.5A Active CN114661549B (zh) | 2022-03-09 | 2022-03-09 | 基于随机森林的系统活跃度预测方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114661549B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115297016A (zh) * | 2022-05-07 | 2022-11-04 | 国网江苏省电力有限公司淮安供电分公司 | 一种基于深度学习的电力网络活跃度评价和预测方法 |
CN115858719A (zh) * | 2023-02-21 | 2023-03-28 | 四川邕合科技有限公司 | 一种基于大数据分析的sim卡活跃度预测方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140043556A (ko) * | 2012-09-24 | 2014-04-10 | 삼성에스디에스 주식회사 | 시스템 사용량 분석 장치 및 방법 |
CN104182801A (zh) * | 2013-05-22 | 2014-12-03 | 阿里巴巴集团控股有限公司 | 一种预测网站访问量的方法及设备 |
CN105869022A (zh) * | 2016-04-07 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种应用流行度预测方法和装置 |
US20190188000A1 (en) * | 2017-12-20 | 2019-06-20 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for Preloading Application, Computer Readable Storage Medium, and Terminal Device |
-
2022
- 2022-03-09 CN CN202210234742.5A patent/CN114661549B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140043556A (ko) * | 2012-09-24 | 2014-04-10 | 삼성에스디에스 주식회사 | 시스템 사용량 분석 장치 및 방법 |
CN104182801A (zh) * | 2013-05-22 | 2014-12-03 | 阿里巴巴集团控股有限公司 | 一种预测网站访问量的方法及设备 |
CN105869022A (zh) * | 2016-04-07 | 2016-08-17 | 腾讯科技(深圳)有限公司 | 一种应用流行度预测方法和装置 |
US20190188000A1 (en) * | 2017-12-20 | 2019-06-20 | Guangdong Oppo Mobile Telecommunications Corp., Ltd. | Method for Preloading Application, Computer Readable Storage Medium, and Terminal Device |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115297016A (zh) * | 2022-05-07 | 2022-11-04 | 国网江苏省电力有限公司淮安供电分公司 | 一种基于深度学习的电力网络活跃度评价和预测方法 |
CN115297016B (zh) * | 2022-05-07 | 2024-02-20 | 国网江苏省电力有限公司淮安供电分公司 | 一种基于深度学习的电力网络活跃度评价和预测方法 |
CN115858719A (zh) * | 2023-02-21 | 2023-03-28 | 四川邕合科技有限公司 | 一种基于大数据分析的sim卡活跃度预测方法及系统 |
CN115858719B (zh) * | 2023-02-21 | 2023-05-23 | 四川邕合科技有限公司 | 一种基于大数据分析的sim卡活跃度预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114661549B (zh) | 2024-04-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110896381B (zh) | 一种基于深度神经网络的流量分类方法、系统及电子设备 | |
CN114661549B (zh) | 基于随机森林的系统活跃度预测方法及系统 | |
US20220207434A1 (en) | Model training method, apparatus, and system | |
CN110335168B (zh) | 基于gru优化用电信息采集终端故障预测模型的方法及系统 | |
US20220284352A1 (en) | Model update system, model update method, and related device | |
CN115421950B (zh) | 一种基于机器学习的自动化系统运维管理方法及系统 | |
CN114579397A (zh) | 一种基于数据挖掘的异常检测方法及系统 | |
CN115718846A (zh) | 用于智能化交互网络的大数据挖掘方法及系统 | |
CN114020715A (zh) | 一种日志数据的处理方法、装置、介质及设备 | |
Steentjes et al. | H∞ performance analysis and distributed controller synthesis for interconnected linear systems from noisy input-state data | |
Sisiaridis et al. | Feature extraction and feature selection: Reducing data complexity with apache spark | |
CN112039907A (zh) | 一种基于物联网终端评测平台的自动测试方法及系统 | |
CN115757935A (zh) | 应用计算机智能的大数据推送方法及系统 | |
US8289884B1 (en) | System and method for identification of unknown illicit networks | |
CN113485878B (zh) | 一种多数据中心故障检测方法 | |
CN113177075A (zh) | 一种基于大数据平台的笔迹数据存储方法及系统 | |
CN112905845A (zh) | 离散智能制造应用的多源非结构化数据清洗方法 | |
CN111753992A (zh) | 筛选方法和筛选系统 | |
TW202111535A (zh) | 預測造成系統異常之稀有事件的方法 | |
Yang et al. | Ensemble Kernel-Mapping-Based Ranking Support Vector Machine for Software Defect Prediction | |
Camacho et al. | Networkmetrics unraveled: MBDA in Action | |
Kandanaarachchi et al. | Anomaly detection in dynamic networks | |
Fronza et al. | Failure prediction based on log files using the cox proportional hazard model | |
Teggi et al. | AIOPs based Predictive Alerting for System Stability in IT Environment | |
Xu et al. | Clustering Analysis for Big Data in Network Security Domain Using a Spark-Based Method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |