CN111062520A - 基于随机森林算法的hostname特征预测方法 - Google Patents
基于随机森林算法的hostname特征预测方法 Download PDFInfo
- Publication number
- CN111062520A CN111062520A CN201911197987.XA CN201911197987A CN111062520A CN 111062520 A CN111062520 A CN 111062520A CN 201911197987 A CN201911197987 A CN 201911197987A CN 111062520 A CN111062520 A CN 111062520A
- Authority
- CN
- China
- Prior art keywords
- model
- prediction
- data
- hostname
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000007637 random forest analysis Methods 0.000 title claims abstract description 27
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 48
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 238000010801 machine learning Methods 0.000 claims abstract description 6
- 238000012216 screening Methods 0.000 claims abstract description 6
- 238000011156 evaluation Methods 0.000 claims abstract description 4
- 239000013598 vector Substances 0.000 claims description 18
- 238000012360 testing method Methods 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 8
- 230000003247 decreasing effect Effects 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000004140 cleaning Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000007405 data analysis Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000006854 communication Effects 0.000 description 3
- 238000012423 maintenance Methods 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Game Theory and Decision Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Evolutionary Biology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明揭示了一种基于随机森林算法的hostname特征预测方法,包括如下步骤:S1、数据预处理,从集群中读取原始数据,并对原始数据进行筛选、特征工程以及向量化操作,获得数据集;S2、模型训练,将数据集放入随机森林模型中进行训练,判断模型是否满足模型评估条件,将满足条件的模型作为预测模型并导出;S3、模型部署,对预测模型进行部署、将模型投入应用;S4、模型反馈,对预测模型的输出结果进行反馈处理,并将结果作为新的模型训练数据输入至模型中,迭代训练、完成模型更新。本发明重构了特征提取流程,并利用机器学习模型训练的方式完成了对特征是否可用的预测,不仅保证了最终输出结果的准确性,同时也节约了人工。
Description
技术领域
本发明涉及一种特征预测方法,具体而言,涉及一种基于随机森林算法的hostname特征预测方法,属于DPI特征终端识别技术领域。
背景技术
近年来,随着网络通讯技术的不断发展,各类智能化、功能化的网络终端快速推广,终端与平台、终端与终端之间的交互访问及信息处理也日益频繁。在这样的技术背景下,越来越多的互联网企业开始关注网络访问策略的问题,期望以更为高效、准确地方式实现对终端设备的识别访问。
终端识别技术是各种网络访问策略的基础。就好像个人的指纹一样,每一种终端设备同样具备自己独特的特征,而这些独特的特征,一般都会在终端设备的同外界通讯的行为中体现出来,在此基础上,通过跟踪终端的某些通讯过程,分析其中的各项特征,从而达到判断终端类型的目的,这样的技术即为终端识别技术。
具体而言,对于一些能够采集到hostname信息的设备,其工作原理一般都是将所采集到的hostname字段与设备特征库中存储的hostname特征进行逐一匹配,从而达到识别设备具体型号的目的。在现有技术中,对于上述设备特征库中所存储的hostname特征的维护需要操作人员不定期的、以手动操作的方式来实现,这样一来,也就直接导致维护过程中存在以下几个方面的问题。
首先,由于在更新设备特征库的过程中,需要人工对hostname字段进行筛选、判断其是否可用,因此整个的操作过程耗时耗力,需要企业投入大量的人工来保证日常运行和维护,人力成本高昂。
其次,由于人工操作的方式注定了其处理效率偏低、每天录入的特征数量有限,加之终端设备所采集到的hostname信息量巨大且随着时间的推移会不断地产生新的特征,因此这样的操作方式不仅很难跟上信息更新的速率,从而导致特征库更新不及时、无法及时拓展,而且还会严重地影响设备终端识别率。
因此,如何提出一种全新的hostname特征预测方法,以解决如上所述的操作效率低下、特征库更新不及时等诸多问题,也就成为了目前行业内技术人员亟待解决的问题。
发明内容
鉴于现有技术存在上述缺陷,本发明的目的是提出一种基于随机森林算法的hostname特征预测方法,具体如下。
一种基于随机森林算法的hostname特征预测方法,包括如下步骤:
S1、数据预处理,从集群中读取原始数据,并对原始数据进行筛选、特征工程以及向量化操作,最终获得由向量及标签构成的数据集;
S2、模型训练,将数据集放入随机森林模型中进行训练,判断所训练的模型是否满足模型评估条件,将满足条件的模型作为预测模型并导出;
S3、模型部署,对预测模型进行部署,将完成部署的预测模型投入应用;
S4、模型反馈,对预测模型的预测结果进行反馈处理,并将反馈处理的结果作为新的模型训练数据输入至预测模型中,通过迭代训练完成预测模型的更新。
优选地, S1中所述数据预处理,包括如下步骤:
S11、数据读取,上层搭建spark大数据分析平台,将全部数据以HDFS的方式存入集群,通过spark接口逐一读取目标数据在集群中的路径,完成全部目标数据的读取、得到原始数据,
所述原始数据包括hostname字段及该字段对应的是否可用作特征的标签,所述标签的类型为0或1,其中0表示不可用、1表示可用;
S12、数据清洗,对原始数据中的重复值、异常值及空值进行剔除,并基于概率统计对原始数据进行增减;
S13、特征工程,对经过清洗的原始数据中的hostname字段做衍生特征工程,衍生出多个特征,获得由多个特征及标签构成的初步数据集;
S14、向量化特征,对初步数据集中的多个特征进行向量化处理,生成一个多维向量,并最终获得由一列向量及一列标签构成的数据集。
优选地, S12中所述基于概率统计对原始数据进行增减,包括如下步骤:按照控制比例对原始数据中标签的类型进行数量控制,对超出部分的原始数据进行删除,所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比。
优选地,所述控制比例为2:3或3:7。
优选地,所述多个特征包括:字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量、空格数量以及数字字符数量。
优选地,S14中所述向量化特征,包括如下步骤:
S141、在spark环境下将七个单一特征进行连接,生成一个七维向量,获得由该七维向量与标签构成的数据集;
S142、对数据集进行划分,将其中的70%作为训练集、剩余的30%作为测试集,并保证训练集与测试集内数据的标签类型的比例相同。
优选地,S2中所述模型训练,包括如下步骤:
S21、模型训练及调参,选用机器学习算法中的随机森林模型,以训练集中的向量作为特征X、以标签作为目标值Y,并通过网格搜索的调参方法调节模型参数,获得初步模型;
S22、模型评估与输出,通过对训练集做五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估,若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下,若结果不符合预设标准则返回S21、对初步模型进行再次训练及调参。
优选地,S3中所述模型部署,包括如下步骤:依据预测模型的存放路径对预测模型进行载入,编写定时脚本任务,并在特定时间段输出模型的预测结果,所述特定时间段紧跟未识别的hostname字段的生成时间,将预测结果存储在集群路径下。
优选地,所述预测结果包含三列,即[val, probability,prediction];
其中,val表示实际采集到的hostname字段;
Probability为预测模型对应该字段所预测出的是否为可用特征的概率,Probability为0到1之间的小数;
Prediction为该字段是否可用的预测结果标签,Prediction的类型为0或1,当Probability小于0.5时,Prediction为0、表示不可用,当Probability大于0.5时,Prediction为1、表示可用;
所述预测结果以parquet格式存储在集群路径下。
优选地,S4中所述模型反馈,包括如下步骤:
对预测结果进行筛选划分,将预测结果为可用做特征、但实际为不可用特征的hostname字段标记为0,将预测结果为不可用做特征、但实际为可用特征的hostname字段标记为1,将全部标记数据录入训练集中,经过多次迭代训练实现训练模型的优化、更新。
与现有技术相比,本发明的优点主要体现在以下几个方面:
本发明所提供的一种基于随机森林算法的hostname特征预测方法,重构了现有的特征提取流程,并利用机器学习模型训练的方式完成了对特征是否可用的预测。在整体的处理流程中免去了人工的过度参与,不仅大幅提升了特征提取的效率、保证了最终输出结果的准确性,同时也最大限度上地降低了企业人力资源的投入,节约了人力成本。
同时,在本发明的处理流程中,通过将模型部署在集群环境下的方式,保证了随时能够对于全量hostname数据进行预测,实现了对特征库的更新与当前用户终端使用环境的近似同步更新,显著地提升了设备终端识别率。
此外,本发明也为同领域内的其他相关方案提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他与终端识别技术相关的技术方案中,具有十分广阔的应用前景。
以下便结合实施例附图,对本发明的具体实施方式作进一步的详述,以使本发明技术方案更易于理解、掌握。
附图说明
图1为本发明的方法流程示意图;
图2为衍生特征工程的输出;
图3为向量化特征的输出;
图4为预测结果的输出。
具体实施方式
本发明提出了一种基于随机森林算法的hostname特征预测方法,本发明主要对集群内的存量数据“hostname字段”及“是否可被用作特征的label标签”所共同构成的数据集进行建模。主要包含数据预处理,模型训练,模型部署及模型反馈四个步骤,具体如下。
一种基于随机森林算法的hostname特征预测方法,如图1所示,包括如下步骤:
S1、数据预处理,从集群中读取原始数据,并对原始数据进行筛选、特征工程以及向量化操作,最终获得由向量及标签构成的数据集。
S2、模型训练,将数据集放入随机森林模型中进行训练,判断所训练的模型是否满足模型评估条件,将满足条件的模型作为预测模型并导出。
S3、模型部署,对预测模型进行部署,将完成部署的预测模型投入应用。
S4、模型反馈,对预测模型的预测结果进行反馈处理,并将反馈处理的结果作为新的模型训练数据输入至预测模型中,通过迭代训练完成预测模型的更新。
S1中所述数据预处理,具体包括:
S11、数据读取,由于存量数据体量大,单机环境已经无法同时兼顾存储及运算,因此需要在上层搭建spark大数据分析平台,将全部数据以HDFS的方式存入集群,通过spark接口逐一读取目标数据在集群中的路径,完成全部目标数据的读取、得到原始数据,
所述原始数据包括hostname字段及该字段对应的是否可用作特征的标签,所述标签的类型为0或1,其中0表示不可用、1表示可用。
S12、数据清洗,由于原始数据中存在重复值、异常值及空值的情况,因此需要进行剔除,并基于概率统计对原始数据进行增减,以避免出现标签类型极端不平衡的情况,对后续模型训练产生影响;
所述基于概率统计对原始数据进行增减,具体为按照控制比例对原始数据中标签的类型进行数量控制,对超出部分的原始数据进行删除,所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比,在实际的操作过程中,所述控制比例优选为2:3或3:7。
S13、特征工程,由于hostname字段属于字符串类型,需根据特征人员经验对其做衍生特征工程,因此此处需要对经过清洗的原始数据中的hostname字段做衍生特征工程,衍生出多个特征,获得由多个特征及标签构成的初步数据集;
如图2所示,在本实施例中,所述多个特征包括:字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量(所述特殊符号包括“-”、“_”以及“:”等)、空格数量以及数字字符数量。
S14、向量化特征,对初步数据集中的多个特征进行向量化处理,生成一个多维向量,并最终获得由一列向量及一列标签构成的数据集,其结果如图3所示,具体为,
S141、在spark环境下将七个单一特征进行连接,生成一个七维向量,获得由该七维向量与标签构成的数据集;
S142、对数据集进行划分,将其中的70%作为训练集、剩余的30%作为测试集,并保证训练集与测试集内数据的标签类型(0/1)的比例相同。
S2中所述模型训练,具体包括:
S21、模型训练及调参,选用机器学习算法中的随机森林模型,以训练集中的向量(即图3中的features)作为特征X、以标签(即图3中的lable)作为目标值Y,并通过网格搜索的调参方法调节模型参数,获得初步模型。
S22、模型评估与输出,通过对训练集做五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估,此处所述auc值越接近1则表示结果越好,若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下,若结果不符合预设标准则返回S21、对初步模型进行再次训练及调参。
S3中所述模型部署,具体包括:
依据预测模型的存放路径对预测模型进行载入,编写定时脚本任务,并在特定时间段输出模型的预测结果,所述特定时间段紧跟未识别的hostname字段的生成时间,将预测结果存储在集群路径下。
如图4所示,所述预测结果包含三列,即[val, probability,prediction];
其中,val表示实际采集到的hostname字段;
Probability为预测模型对应该字段所预测出的是否为可用特征的概率,Probability为0到1之间的小数;
Prediction为该字段是否可用的预测结果标签,Prediction的类型为0或1,当Probability为小于0.5的小数时,Prediction为0、表示不可用,当Probability为大于0.5的小数时,Prediction为1、表示可用;
所述预测结果以parquet格式存储在集群路径下。
S4中所述模型反馈,具体包括:
由于预测模型并非百分百准确,因此还需要对预测结果进行筛选划分,将预测结果为可用做特征、但实际为不可用特征的hostname字段标记为0,将预测结果为不可用做特征、但实际为可用特征的hostname字段标记为1,将全部标记数据录入训练集中,经过多次迭代训练实现训练模型的优化、更新。
本发明所提供的一种基于随机森林算法的hostname特征预测方法,重构了现有的特征提取流程,并利用机器学习模型训练的方式完成了对特征是否可用的预测。在整体的处理流程中免去了人工的过度参与,不仅大幅提升了特征提取的效率、保证了最终输出结果的准确性,同时也最大限度上地降低了企业人力资源的投入,节约了人力成本。
同时,在本发明的处理流程中,通过将模型部署在集群环境下的方式,保证了随时能够对于全量hostname数据进行预测,实现了对特征库的更新与当前用户终端使用环境的近似同步更新,显著地提升了设备终端识别率。
此外,本发明也为同领域内的其他相关方案提供了参考,可以以此为依据进行拓展延伸,运用于同领域内其他与终端识别技术相关的技术方案中,具有十分广阔的应用前景。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神和基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (10)
1.一种基于随机森林算法的hostname特征预测方法,其特征在于,包括如下步骤:
S1、数据预处理,从集群中读取原始数据,并对原始数据进行筛选、特征工程以及向量化操作,最终获得由向量及标签构成的数据集;
S2、模型训练,将数据集放入随机森林模型中进行训练,判断所训练的模型是否满足模型评估条件,将满足条件的模型作为预测模型并导出;
S3、模型部署,对预测模型进行部署,将完成部署的预测模型投入应用;
S4、模型反馈,对预测模型的预测结果进行反馈处理,并将反馈处理的结果作为新的模型训练数据输入至预测模型中,通过迭代训练完成预测模型的更新。
2.根据权利要求1所述的基于随机森林算法的hostname特征预测方法,其特征在于,S1中所述数据预处理,包括如下步骤:
S11、数据读取,上层搭建spark大数据分析平台,将全部数据以HDFS的方式存入集群,通过spark接口逐一读取目标数据在集群中的路径,完成全部目标数据的读取、得到原始数据,
所述原始数据包括hostname字段及该字段对应的是否可用作特征的标签,所述标签的类型为0或1,其中0表示不可用、1表示可用;
S12、数据清洗,对原始数据中的重复值、异常值及空值进行剔除,并基于概率统计对原始数据进行增减;
S13、特征工程,对经过清洗的原始数据中的hostname字段做衍生特征工程,衍生出多个特征,获得由多个特征及标签构成的初步数据集;
S14、向量化特征,对初步数据集中的多个特征进行向量化处理,生成一个多维向量,并最终获得由一列向量及一列标签构成的数据集。
3.根据权利要求2所述的基于随机森林算法的hostname特征预测方法,其特征在于,S12中所述基于概率统计对原始数据进行增减,包括如下步骤:按照控制比例对原始数据中标签的类型进行数量控制,对超出部分的原始数据进行删除,所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比。
4.根据权利要求3所述的基于随机森林算法的hostname特征预测方法,其特征在于:所述控制比例为2:3或3:7。
5.根据权利要求2所述的基于随机森林算法的hostname特征预测方法,其特征在于,所述多个特征包括:字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量、空格数量以及数字字符数量。
6.根据权利要求5所述的基于随机森林算法的hostname特征预测方法,其特征在于,S14中所述向量化特征,包括如下步骤:
S141、在spark环境下将七个单一特征进行连接,生成一个七维向量,获得由该七维向量与标签构成的数据集;
S142、对数据集进行划分,将其中的70%作为训练集、剩余的30%作为测试集,并保证训练集与测试集内数据的标签类型的比例相同。
7.根据权利要求6所述的基于随机森林算法的hostname特征预测方法,其特征在于,S2中所述模型训练,包括如下步骤:
S21、模型训练及调参,选用机器学习算法中的随机森林模型,以训练集中的向量作为特征X、以标签作为目标值Y,并通过网格搜索的调参方法调节模型参数,获得初步模型;
S22、模型评估与输出,通过对训练集做五折交叉验证,并在测试集上输出auc值的方式对初步模型进行评估,若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下,若结果不符合预设标准则返回S21、对初步模型进行再次训练及调参。
8.根据权利要求7所述的基于随机森林算法的hostname特征预测方法,其特征在于,S3中所述模型部署,包括如下步骤:依据预测模型的存放路径对预测模型进行载入,编写定时脚本任务,并在特定时间段输出模型的预测结果,所述特定时间段紧跟未识别的hostname字段的生成时间,将预测结果存储在集群路径下。
9.根据权利要求8所述的基于随机森林算法的hostname特征预测方法,其特征在于:所述预测结果包含三列,即[val, probability,prediction];
其中,val表示实际采集到的hostname字段;
Probability为预测模型对应该字段所预测出的是否为可用特征的概率,Probability为0到1之间的小数;
Prediction为该字段是否可用的预测结果标签,Prediction的类型为0或1,当Probability小于0.5时,Prediction为0、表示不可用,当Probability大于0.5时,Prediction为1、表示可用;
所述预测结果以parquet格式存储在集群路径下。
10.根据权利要求8所述的基于随机森林算法的hostname特征预测方法,其特征在于,S4中所述模型反馈,包括如下步骤:
对预测结果进行筛选划分,将预测结果为可用做特征、但实际为不可用特征的hostname字段标记为0,将预测结果为不可用做特征、但实际为可用特征的hostname字段标记为1,将全部标记数据录入训练集中,经过多次迭代训练实现训练模型的优化、更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911197987.XA CN111062520B (zh) | 2019-11-29 | 2019-11-29 | 基于随机森林算法的hostname特征预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911197987.XA CN111062520B (zh) | 2019-11-29 | 2019-11-29 | 基于随机森林算法的hostname特征预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111062520A true CN111062520A (zh) | 2020-04-24 |
CN111062520B CN111062520B (zh) | 2023-11-28 |
Family
ID=70299252
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911197987.XA Active CN111062520B (zh) | 2019-11-29 | 2019-11-29 | 基于随机森林算法的hostname特征预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111062520B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111580411A (zh) * | 2020-04-27 | 2020-08-25 | 珠海格力电器股份有限公司 | 控制参数优化方法、装置和系统 |
CN111612158A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 模型部署方法、装置、设备和存储介质 |
CN111767275A (zh) * | 2020-06-28 | 2020-10-13 | 北京林克富华技术开发有限公司 | 数据的处理方法及装置、数据处理系统 |
CN112405521A (zh) * | 2020-10-16 | 2021-02-26 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN118015661A (zh) * | 2024-04-08 | 2024-05-10 | 南京启数智能系统有限公司 | 一种基于随机森林算法的人像视图档案准确性检测方法 |
-
2019
- 2019-11-29 CN CN201911197987.XA patent/CN111062520B/zh active Active
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111580411A (zh) * | 2020-04-27 | 2020-08-25 | 珠海格力电器股份有限公司 | 控制参数优化方法、装置和系统 |
CN111612158A (zh) * | 2020-05-22 | 2020-09-01 | 云知声智能科技股份有限公司 | 模型部署方法、装置、设备和存储介质 |
CN111612158B (zh) * | 2020-05-22 | 2024-03-01 | 云知声智能科技股份有限公司 | 模型部署方法、装置、设备和存储介质 |
CN111767275A (zh) * | 2020-06-28 | 2020-10-13 | 北京林克富华技术开发有限公司 | 数据的处理方法及装置、数据处理系统 |
CN111767275B (zh) * | 2020-06-28 | 2024-04-19 | 北京林克富华技术开发有限公司 | 数据的处理方法及装置、数据处理系统 |
CN112405521A (zh) * | 2020-10-16 | 2021-02-26 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN112405521B (zh) * | 2020-10-16 | 2022-02-25 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN118015661A (zh) * | 2024-04-08 | 2024-05-10 | 南京启数智能系统有限公司 | 一种基于随机森林算法的人像视图档案准确性检测方法 |
CN118015661B (zh) * | 2024-04-08 | 2024-06-21 | 南京启数智能系统有限公司 | 一种基于随机森林算法的人像视图档案准确性检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111062520B (zh) | 2023-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111062520B (zh) | 基于随机森林算法的hostname特征预测方法 | |
CN105577440B (zh) | 一种网络故障时间定位方法和分析设备 | |
US7562054B2 (en) | Method and apparatus for automated feature selection | |
CN111340063A (zh) | 一种磨煤机数据异常检测方法 | |
CN110336838B (zh) | 账号异常检测方法、装置、终端及存储介质 | |
CN107368918A (zh) | 数据处理方法和装置 | |
CN108846695A (zh) | 终端更换周期的预测方法及装置 | |
CN111126820A (zh) | 反窃电方法及系统 | |
CN108681505B (zh) | 一种基于决策树的测试用例排序方法和装置 | |
CN115795329A (zh) | 一种基于大数据网格下的用电异常行为分析方法和装置 | |
CN112418545A (zh) | 一种基于负荷特征及模型融合的售电量预测方法及系统 | |
CN112817954A (zh) | 一种基于多种方法集成学习的缺失值插补方法 | |
CN114546365A (zh) | 一种流程可视化的建模方法、服务器、计算机系统及介质 | |
CN111210332A (zh) | 贷后管理策略生成方法、装置及电子设备 | |
CN114781688A (zh) | 业扩项目的异常数据的识别方法、装置、设备及存储介质 | |
CN117131425B (zh) | 一种基于反馈数据的数控机床加工状态监测方法及系统 | |
LU505740A1 (en) | Data monitoring method and system | |
CN108596781A (zh) | 一种电力系统数据挖掘与预测整合方法 | |
CN113313615A (zh) | 一种对企业司法风险进行量化评分定级的方法及装置 | |
CN113610225A (zh) | 质量评估模型训练方法、装置、电子设备及存储介质 | |
CN112819527A (zh) | 一种用户分群处理方法及装置 | |
CN117592789B (zh) | 基于时间序列分析的电网环境火灾风险评估方法及设备 | |
CN117150389B (zh) | 模型训练方法、运营商号卡激活预测方法及其设备 | |
CN117610707B (zh) | 一种城市群生产空间利用预测方法及系统 | |
CN107958327B (zh) | 一种基于因子分析和som网络的项目进度风险预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |