CN111062520A

CN111062520A - 基于随机森林算法的hostname特征预测方法

Info

Publication number: CN111062520A
Application number: CN201911197987.XA
Authority: CN
Inventors: 杨光来
Original assignee: Suzhou Maxnet Network Safety Technology Co ltd
Current assignee: Suzhou Maxnet Network Safety Technology Co ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2020-04-24
Anticipated expiration: 2039-11-29
Also published as: CN111062520B

Abstract

本发明揭示了一种基于随机森林算法的hostname特征预测方法，包括如下步骤：S1、数据预处理，从集群中读取原始数据，并对原始数据进行筛选、特征工程以及向量化操作，获得数据集；S2、模型训练，将数据集放入随机森林模型中进行训练，判断模型是否满足模型评估条件，将满足条件的模型作为预测模型并导出；S3、模型部署，对预测模型进行部署、将模型投入应用；S4、模型反馈，对预测模型的输出结果进行反馈处理，并将结果作为新的模型训练数据输入至模型中，迭代训练、完成模型更新。本发明重构了特征提取流程，并利用机器学习模型训练的方式完成了对特征是否可用的预测，不仅保证了最终输出结果的准确性，同时也节约了人工。

Description

基于随机森林算法的hostname特征预测方法

技术领域

本发明涉及一种特征预测方法，具体而言，涉及一种基于随机森林算法的hostname特征预测方法，属于DPI特征终端识别技术领域。

背景技术

近年来，随着网络通讯技术的不断发展，各类智能化、功能化的网络终端快速推广，终端与平台、终端与终端之间的交互访问及信息处理也日益频繁。在这样的技术背景下，越来越多的互联网企业开始关注网络访问策略的问题，期望以更为高效、准确地方式实现对终端设备的识别访问。

终端识别技术是各种网络访问策略的基础。就好像个人的指纹一样，每一种终端设备同样具备自己独特的特征，而这些独特的特征，一般都会在终端设备的同外界通讯的行为中体现出来，在此基础上，通过跟踪终端的某些通讯过程，分析其中的各项特征，从而达到判断终端类型的目的，这样的技术即为终端识别技术。

具体而言，对于一些能够采集到hostname信息的设备，其工作原理一般都是将所采集到的hostname字段与设备特征库中存储的hostname特征进行逐一匹配，从而达到识别设备具体型号的目的。在现有技术中，对于上述设备特征库中所存储的hostname特征的维护需要操作人员不定期的、以手动操作的方式来实现，这样一来，也就直接导致维护过程中存在以下几个方面的问题。

首先，由于在更新设备特征库的过程中，需要人工对hostname字段进行筛选、判断其是否可用，因此整个的操作过程耗时耗力，需要企业投入大量的人工来保证日常运行和维护，人力成本高昂。

其次，由于人工操作的方式注定了其处理效率偏低、每天录入的特征数量有限，加之终端设备所采集到的hostname信息量巨大且随着时间的推移会不断地产生新的特征，因此这样的操作方式不仅很难跟上信息更新的速率，从而导致特征库更新不及时、无法及时拓展，而且还会严重地影响设备终端识别率。

因此，如何提出一种全新的hostname特征预测方法，以解决如上所述的操作效率低下、特征库更新不及时等诸多问题，也就成为了目前行业内技术人员亟待解决的问题。

发明内容

鉴于现有技术存在上述缺陷，本发明的目的是提出一种基于随机森林算法的hostname特征预测方法，具体如下。

一种基于随机森林算法的hostname特征预测方法，包括如下步骤：

S1、数据预处理，从集群中读取原始数据，并对原始数据进行筛选、特征工程以及向量化操作，最终获得由向量及标签构成的数据集；

S2、模型训练，将数据集放入随机森林模型中进行训练，判断所训练的模型是否满足模型评估条件，将满足条件的模型作为预测模型并导出；

S3、模型部署，对预测模型进行部署，将完成部署的预测模型投入应用；

S4、模型反馈，对预测模型的预测结果进行反馈处理，并将反馈处理的结果作为新的模型训练数据输入至预测模型中，通过迭代训练完成预测模型的更新。

优选地， S1中所述数据预处理，包括如下步骤：

S11、数据读取，上层搭建spark大数据分析平台，将全部数据以HDFS的方式存入集群，通过spark接口逐一读取目标数据在集群中的路径，完成全部目标数据的读取、得到原始数据，

所述原始数据包括hostname字段及该字段对应的是否可用作特征的标签，所述标签的类型为0或1，其中0表示不可用、1表示可用；

S12、数据清洗，对原始数据中的重复值、异常值及空值进行剔除，并基于概率统计对原始数据进行增减；

S13、特征工程，对经过清洗的原始数据中的hostname字段做衍生特征工程，衍生出多个特征，获得由多个特征及标签构成的初步数据集；

S14、向量化特征，对初步数据集中的多个特征进行向量化处理，生成一个多维向量，并最终获得由一列向量及一列标签构成的数据集。

优选地， S12中所述基于概率统计对原始数据进行增减，包括如下步骤：按照控制比例对原始数据中标签的类型进行数量控制，对超出部分的原始数据进行删除，所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比。

优选地，所述控制比例为2：3或3：7。

优选地，所述多个特征包括：字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量、空格数量以及数字字符数量。

优选地，S14中所述向量化特征，包括如下步骤：

S141、在spark环境下将七个单一特征进行连接，生成一个七维向量，获得由该七维向量与标签构成的数据集；

S142、对数据集进行划分，将其中的70%作为训练集、剩余的30%作为测试集，并保证训练集与测试集内数据的标签类型的比例相同。

优选地，S2中所述模型训练，包括如下步骤：

S21、模型训练及调参，选用机器学习算法中的随机森林模型，以训练集中的向量作为特征X、以标签作为目标值Y，并通过网格搜索的调参方法调节模型参数，获得初步模型；

S22、模型评估与输出，通过对训练集做五折交叉验证，并在测试集上输出auc值的方式对初步模型进行评估，若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下，若结果不符合预设标准则返回S21、对初步模型进行再次训练及调参。

优选地，S3中所述模型部署，包括如下步骤：依据预测模型的存放路径对预测模型进行载入，编写定时脚本任务，并在特定时间段输出模型的预测结果，所述特定时间段紧跟未识别的hostname字段的生成时间，将预测结果存储在集群路径下。

优选地，所述预测结果包含三列，即[val, probability，prediction]；

其中，val表示实际采集到的hostname字段；

Probability为预测模型对应该字段所预测出的是否为可用特征的概率，Probability为0到1之间的小数；

Prediction为该字段是否可用的预测结果标签，Prediction的类型为0或1，当Probability小于0.5时，Prediction为0、表示不可用，当Probability大于0.5时，Prediction为1、表示可用；

所述预测结果以parquet格式存储在集群路径下。

优选地，S4中所述模型反馈，包括如下步骤：

对预测结果进行筛选划分，将预测结果为可用做特征、但实际为不可用特征的hostname字段标记为0，将预测结果为不可用做特征、但实际为可用特征的hostname字段标记为1，将全部标记数据录入训练集中，经过多次迭代训练实现训练模型的优化、更新。

与现有技术相比，本发明的优点主要体现在以下几个方面：

本发明所提供的一种基于随机森林算法的hostname特征预测方法，重构了现有的特征提取流程，并利用机器学习模型训练的方式完成了对特征是否可用的预测。在整体的处理流程中免去了人工的过度参与，不仅大幅提升了特征提取的效率、保证了最终输出结果的准确性，同时也最大限度上地降低了企业人力资源的投入，节约了人力成本。

同时，在本发明的处理流程中，通过将模型部署在集群环境下的方式，保证了随时能够对于全量hostname数据进行预测，实现了对特征库的更新与当前用户终端使用环境的近似同步更新，显著地提升了设备终端识别率。

此外，本发明也为同领域内的其他相关方案提供了参考，可以以此为依据进行拓展延伸，运用于同领域内其他与终端识别技术相关的技术方案中，具有十分广阔的应用前景。

以下便结合实施例附图，对本发明的具体实施方式作进一步的详述，以使本发明技术方案更易于理解、掌握。

附图说明

图1为本发明的方法流程示意图；

图2为衍生特征工程的输出；

图3为向量化特征的输出；

图4为预测结果的输出。

具体实施方式

本发明提出了一种基于随机森林算法的hostname特征预测方法，本发明主要对集群内的存量数据“hostname字段”及“是否可被用作特征的label标签”所共同构成的数据集进行建模。主要包含数据预处理，模型训练，模型部署及模型反馈四个步骤，具体如下。

一种基于随机森林算法的hostname特征预测方法，如图1所示，包括如下步骤：

S1、数据预处理，从集群中读取原始数据，并对原始数据进行筛选、特征工程以及向量化操作，最终获得由向量及标签构成的数据集。

S2、模型训练，将数据集放入随机森林模型中进行训练，判断所训练的模型是否满足模型评估条件，将满足条件的模型作为预测模型并导出。

S3、模型部署，对预测模型进行部署，将完成部署的预测模型投入应用。

S1中所述数据预处理，具体包括：

S11、数据读取，由于存量数据体量大，单机环境已经无法同时兼顾存储及运算，因此需要在上层搭建spark大数据分析平台，将全部数据以HDFS的方式存入集群，通过spark接口逐一读取目标数据在集群中的路径，完成全部目标数据的读取、得到原始数据，

所述原始数据包括hostname字段及该字段对应的是否可用作特征的标签，所述标签的类型为0或1，其中0表示不可用、1表示可用。

S12、数据清洗，由于原始数据中存在重复值、异常值及空值的情况，因此需要进行剔除，并基于概率统计对原始数据进行增减，以避免出现标签类型极端不平衡的情况，对后续模型训练产生影响；

所述基于概率统计对原始数据进行增减，具体为按照控制比例对原始数据中标签的类型进行数量控制，对超出部分的原始数据进行删除，所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比，在实际的操作过程中，所述控制比例优选为2：3或3：7。

S13、特征工程，由于hostname字段属于字符串类型，需根据特征人员经验对其做衍生特征工程，因此此处需要对经过清洗的原始数据中的hostname字段做衍生特征工程，衍生出多个特征，获得由多个特征及标签构成的初步数据集；

如图2所示，在本实施例中，所述多个特征包括：字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量（所述特殊符号包括“-”、“_”以及“：”等）、空格数量以及数字字符数量。

S14、向量化特征，对初步数据集中的多个特征进行向量化处理，生成一个多维向量，并最终获得由一列向量及一列标签构成的数据集，其结果如图3所示，具体为，

S142、对数据集进行划分，将其中的70%作为训练集、剩余的30%作为测试集，并保证训练集与测试集内数据的标签类型（0/1）的比例相同。

S2中所述模型训练，具体包括：

S21、模型训练及调参，选用机器学习算法中的随机森林模型，以训练集中的向量（即图3中的features）作为特征X、以标签（即图3中的lable）作为目标值Y，并通过网格搜索的调参方法调节模型参数，获得初步模型。

S22、模型评估与输出，通过对训练集做五折交叉验证，并在测试集上输出auc值的方式对初步模型进行评估，此处所述auc值越接近1则表示结果越好，若结果符合预设标准则将该初步模型作为预测模型、导出并存储在集群路径下，若结果不符合预设标准则返回S21、对初步模型进行再次训练及调参。

S3中所述模型部署，具体包括：

依据预测模型的存放路径对预测模型进行载入，编写定时脚本任务，并在特定时间段输出模型的预测结果，所述特定时间段紧跟未识别的hostname字段的生成时间，将预测结果存储在集群路径下。

如图4所示，所述预测结果包含三列，即[val, probability，prediction]；

其中，val表示实际采集到的hostname字段；

Prediction为该字段是否可用的预测结果标签，Prediction的类型为0或1，当Probability为小于0.5的小数时，Prediction为0、表示不可用，当Probability为大于0.5的小数时，Prediction为1、表示可用；

所述预测结果以parquet格式存储在集群路径下。

S4中所述模型反馈，具体包括：

由于预测模型并非百分百准确，因此还需要对预测结果进行筛选划分，将预测结果为可用做特征、但实际为不可用特征的hostname字段标记为0，将预测结果为不可用做特征、但实际为可用特征的hostname字段标记为1，将全部标记数据录入训练集中，经过多次迭代训练实现训练模型的优化、更新。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神和基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种基于随机森林算法的hostname特征预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于随机森林算法的hostname特征预测方法，其特征在于，S1中所述数据预处理，包括如下步骤：

3.根据权利要求2所述的基于随机森林算法的hostname特征预测方法，其特征在于，S12中所述基于概率统计对原始数据进行增减，包括如下步骤：按照控制比例对原始数据中标签的类型进行数量控制，对超出部分的原始数据进行删除，所述控制比例为标签类型为0的原始数据与标签类型为1的原始数据间的数量比。

4.根据权利要求3所述的基于随机森林算法的hostname特征预测方法，其特征在于：所述控制比例为2：3或3：7。

5.根据权利要求2所述的基于随机森林算法的hostname特征预测方法，其特征在于，所述多个特征包括：字符串长度、首字母是否大写、大写字母数量、小写字母数量、特殊符号数量、空格数量以及数字字符数量。

6.根据权利要求5所述的基于随机森林算法的hostname特征预测方法，其特征在于，S14中所述向量化特征，包括如下步骤：

7.根据权利要求6所述的基于随机森林算法的hostname特征预测方法，其特征在于，S2中所述模型训练，包括如下步骤：

8.根据权利要求7所述的基于随机森林算法的hostname特征预测方法，其特征在于，S3中所述模型部署，包括如下步骤：依据预测模型的存放路径对预测模型进行载入，编写定时脚本任务，并在特定时间段输出模型的预测结果，所述特定时间段紧跟未识别的hostname字段的生成时间，将预测结果存储在集群路径下。

9.根据权利要求8所述的基于随机森林算法的hostname特征预测方法，其特征在于：所述预测结果包含三列，即[val, probability，prediction]；

其中，val表示实际采集到的hostname字段；

所述预测结果以parquet格式存储在集群路径下。

10.根据权利要求8所述的基于随机森林算法的hostname特征预测方法，其特征在于，S4中所述模型反馈，包括如下步骤：