CN115796457A

CN115796457A - 一种基于多维数据的人员、企业评级方法及系统

Info

Publication number: CN115796457A
Application number: CN202310052766.3A
Authority: CN
Inventors: 王基全; 王晓刚; 孙召伍; 胡宗文; 陈翔; 郭砚海; 姜金凤; 李浩冉; 周炜煜
Original assignee: Lunan High Speed Railway Co ltd; Shandong Railway Investment Holding Group Co ltd; China Railway Engineering Consulting Group Co Ltd
Current assignee: Lunan High Speed Railway Co ltd; Shandong Railway Investment Holding Group Co ltd; China Railway Engineering Consulting Group Co Ltd
Priority date: 2023-02-03
Filing date: 2023-02-03
Publication date: 2023-03-14

Abstract

本发明属于人员管理相关技术领域，本发明提出了一种基于多维数据的人员、企业评级方法及系统，获取人员或企业的多维数据，将人员或企业的多维数据分为内部数据和外部数据并进行预处理；分别利用Flume、kafka将预处理后的人员或企业的内部数据、外部数据存储至HDFS文件中；从HDFS文件中获取待预测人员或企业的数据输入至训练好的随机森林模型中，输出待预测人员或企业的评级。将人员或企业的多维数据根据数据类型不同分别进行处理后统一存储至HDFS文件中，方便后期对人员或企业的多维数据进行调用。

Description

一种基于多维数据的人员、企业评级方法及系统

技术领域

本发明属于人员管理相关技术领域，尤其涉及一种基于多维数据的人员、企业评级方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

人员、项目参建企业相关数据信息都具有多维、容杂等特点，传统筛选适合人员或企业主要依赖于单一数据和专家的主观判断，标准难以做到科学、客观和统一。

此外，人员或企业的多维数据的分布散乱，无法有效地对不同的多维数据进行针对性的处理，从而不能方便灵活地对人员或企业的来自不同来源的多维数据进行调用，导致对人员或企业进行筛选时对多维数据利用效率低下的问题。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于多维数据的人员、企业评级方法及系统，采用Flume处理内部数据导入至HDFS中，采用kafka将外部数据存储至HDFS文件中，基于HDFS文件中采用随机森林进行人员或企业评级。

为实现上述目的，本发明的第一个方面，本发明的一个或多个实施例提供了一种基于多维数据的人员、企业评级方法，包括以下步骤：

获取人员或企业的多维数据，将人员或企业的多维数据分为内部数据和外部数据并进行预处理；

分别利用Flume、kafka将预处理后的人员或企业的内部数据、外部数据存储至HDFS文件中；

从HDFS文件中调用待预测人员或企业的内部数据或外部数据输入至训练好的随机森林模型中，输出待预测人员或企业的评级。

本发明的第二个方面，提供一种基于多维数据的人员、企业评级系统，包括：

数据获取单元，获取人员或企业的多维数据，将人员或企业的多维数据分为内部数据和外部数据并进行预处理；

数据存储单元，分别利用Flume、kafka将预处理后的人员或企业的内部数据、外部数据存储至HDFS文件中；

数据调用及评价单元，从HDFS文件中调用待预测人员或企业的内部数据或外部数据输入至训练好的随机森林模型中，输出待预测人员或企业的评级。

以上一个或多个技术方案存在以下有益效果：

在本发明中，利用Flume处理人员或企业的内部数据并导入存储至HDFS中，采用kafka将人员或企业的外部数据存储至HDFS文件中，实现将人员或企业的多维数据根据数据类型的不同进行针对性的处理，并将不同的多维数据存储至统一的HDFS文件中，便于后期对人员或企业的相关数据进行调用。

本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例一中数据存储流程示意图；

图2是本发明实施例一中随机森林结构示意图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

技术名词解释：

Flume：开源数据采集工具软件，支持文件系统、消息队列、网络连接等各种方式收集数据，根据预定义规则处理采集到的数据，支持各种数据保存方式。

Kafka：开源消息队列软件，支持高性能并发收发消息。

HDFS：设计成适合运行在通用硬件上的分布式文件系统。

实施例一

本实施例公开了一种基于多维数据的人员、企业评级方法，包括以下步骤：

从HDFS文件中获取待预测人员或企业的数据输入至训练好的随机森林模型中，输出待预测人员或企业的评级。

在本实施例中，通过Flume和kafka将海量人员或企业的考评、评分、绩效等进行数据采集；将各种数据采集后通过实时或批量的方式汇聚到HDFS文件系统中。

具体的，多维数据分为内部数据和外部数据即接口数据，内部数据包括人员的考评、评分、绩效等数据；施工方企业的信息数据，比如达标考评数据、创优考评数据、信用评价、不良行为、考核评分数据；监理方企业的信息数据，比如监理方考评数据、信用评价数据、不良行为、考核评分等数据。外部数据即接口数据包括政务公共数据库存在的公共服务数据，比如人员信用评分等数据。如山东省公共信用库数据，包括但不限于企业信用评分、企业信用数据、企业失信记录、人员失信记录等。

如图1所示，在本实施例中，采用Flume采集人员或企业的内部数据，将其导入至HDFS文件中。Flume是一种分布式，可靠和可用的服务，用于高效收集，聚合和移动大量日志数据。 Flume具有基于流数据流的简单灵活的架构， Flume具有可靠的可靠性机制和许多故障转移和恢复机制的强大和容错能力。

flume中每一个agent代理包括数据源source、目的地sink和通道channel三个组件，数据源source用于对数据源对接，以获取数据；通道channel为agent代理内部的数据传输通道，用于从数据源 source 将数据传递到目的地sink；目的地sink为采集数据的传送目的，用于往下一级 agent 传递数据或者往最终存储系统传递数据。

在本实施例中，采用Flume对预处理后的人员或企业的内部数据存储至HDFS文件中，具体为：

source层采集人员或企业的内部数据，将采集的内部数据传输给channel层；

channel层对人员或企业的内部数据进行缓存后传输给sink层；

sink层将人员或企业的内部数据传输至HDFS文件中进行存储。

当内部数据真正到达sink层后，channel层删除缓存的内部数据信息，从而保证输送过程的成功。

在本实施例中，采用kafka将人员或企业外部数据存储至HDFS文件中，Kafka是一个高吞吐量的分布式发布订阅消息系统，Kafka在实时计算系统中有着非常强大的功能。通常情况下，使用Kafka构建系统或应用程序之间的数据管道，用来转换或响应实时数据，使数据能够及时地进行业务计算，得出相应结果。Kafka是基于zookeeper协调的分布式日志系统，可作为消息中间件，Kafka包括如下组件：

Producer：生产者，发送消息的一方。生产者负责创建消息，然后将其发送到Kafka。

Consumer：消费者，接收消息的一方。消费者连接到 Kafka 上并接收消息，进而进行相应的业务逻辑处理。

ConsumerGroup：一个消费者组可以包含一个或多个消费者。使用多分区 + 多消费者方式可以极大提高数据下游的处理速度，同一消费组中的消费者不会重复消费消息，同样的，不同消费组中的消费者消息消息时互不影响。Kafka就是通过消费组的方式来实现消息P2P模式和广播模式。

Broker：服务代理节点。Broker是Kafka的服务节点，即Kafka的服务器。

Topic：Kafka中的消息以Topic为单位进行划分，生产者将消息发送到特定的Topic，而消费者负责订阅Topic的消息并进行消费。

Partition：Topic是一个逻辑的概念，它可以细分为多个分区，每个分区只属于单个主题。同一个主题下不同分区包含的消息是不同的，分区在存储层面可以看作一个可追加的日志即Log文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量即offset。

Offset：offset是消息在分区中的唯一标识，Kafka通过它来保证消息在分区内的顺序性，不过offset并不跨越分区，也就是说，Kafka保证的是分区有序性而不是主题有序性。

Replication：副本，是Kafka保证数据高可用的方式，Kafka同一Partition的数据可以在多Broker上存在多个副本，通常只有主副本对外提供读写服务，当主副本所在broker崩溃或发生网络异常，Kafka会在Controller的管理下会重新选择新的Leader副本对外提供读写服务。

Record：实际写入Kafka中并可以被读取的消息记录。每个record包含了key、value和timestamp，kafka中读取的数据通过consumer将数据存储至HDFS中。

在本实施例中，kafka对于外部数据即接口数据通过定时任务分片模式批量抓取数据，并导入至kafka中，通过kafka处理后将数据存储至HDFS中，具体为：

Producer生产者负责将人员或企业的接口数据接收并创建消息，然后转换为Topic，将其存储到 Kafka的Broker组件；

Consumer是接收消息的一方，Consumer连接 Kafka的Broker组件并通过Topic接收对应消息，进而将接口数据处理并存储到HDFS中。

其中，ConsumerGroup包含一个或多个消费者，当数据量非常大时可以使用多分区+ 多消费者方式极大提高Consumer的数据处理和存储速度。

Replication主要负责Kafka保证处理政务数据高可用。

在本实施例中，对于数据的预处理，根据人员或企业数据来源的不同，采用不同方法，分析所需数据维度选择合适的预处理方案。对于人员或企业的内部数据即结构化数据，包括csv等文件结构化数据，使用工具全量导入至MySQL中，通过MySQL工具对数据文件内容进行格式化处理，通过过滤采集到的考评、评分、绩效等内部数据并通过编写MapReduce程序进行处理后存储至HDFS中；对于外部数据即接口数据，使用定时任务分片批量抓取数据，并导入至kafka中，通过kafka中的consumer处理数据至HDFS中，实现将考评、评分、绩效等接口数据进行预处理得到目标数据的过程。

MapReduce程序包括Mapper、Reducer、Job三个部位，在本实施例中，采用MapReduce程序中Mapper对数据进行清洗。

采用MapReduce程序中Mapper对数据进行清洗具体为：依据内部数据的时间戳进行数据分片，MAP函数完成数据清理的业务逻辑处理，比如对于不存在扣分的信息和输入的描述信息太短的数据，进行过滤。对于扣分的数据太长，进行数据的修正。

如图2所示，本实施例选择随机森林作为算法模型，随机森林算法属于集成学习中的套袋算法。随机森林算法是将很多不同的决策树结合起来做决策的一种集成学习方式。随机森林算法是将多个决策树结合在一起，每次数据集是随机有放回的选出，同时随机选出部分特征作为输入，随机森林算法是以决策树为估计器的Bagging算法。其中，结合器在分类问题中，选择多数分类结果作为最后的结果，在回归问题中，对多个回归结果取平均值作为最后的结果。使用Bagging算法能降低过拟合的情况，从而带来了更好的性能。单个决策树对训练集的噪声非常敏感，但通过Bagging算法降低了训练出的多棵决策树之间关联性，有效缓解了问题。

本实施例首先利用Bootstrap抽样方法从HDFS文件数据集中抽取M个样本，然后在每个样本上训练分类器ai（x），建立M个子决策树模型，每一个子决策树模型输出一个结果，再对每个单独分类器的输出取均值形成组合分类器，最后进行投票预测决定最终分类结果。

在树模型中，包含3个节点：根节点，内部节点，终节点即叶子节点。决策树只有一个根节点，是全体训练集的结合。树中的每个内部节点都是一个分裂问题，它将到达该节点的样本按某个特定的属性进行分割，可以将数据集合分割成2块或若干块。每个终结点（叶子节点）是带有分裂标签的数据集合，从决策树的根节点到叶子节点的每一条路径都形成一个类；决策树的算法很多，例如ID3算法，CART算法等。这些算法均采用自上而下的贪婪的算法，每个内部节点选择分类效果最好的属性进行分裂节点，可以分为两个或若干个子节点，继续此过程到这可决策树能够将全部训练数据准确地分类，或所有属性都被用到为止。

在本实施例中，根据人员或企业的多维数据中不同数据类型的重要程度的不同，根据所选择的人员或企业的多维数据中的重要程度较高的数据作为随机森林中的最重要的特征属性，通过随机森林输出评级。例如，对于人员而言，人员内部数据中的考勤数据、绩效考评数据或者人员外部数据中的人员失信记录的重要程度较高，例如人员内部数据中的考勤数据、绩效考评数据、人员外部数据中的人员失信记录分别对应的分值分别对应各自数据所占的百分比，分别为80、80和10，可根据上述人员数据基于随机森林输出评分结果。对于企业而言，企业的企业失信记录、企业的信用记录作为重要程度较高的数据作为随机森林的最重要的特征属性，例如企业失信记录、企业的信用记录分别对应的分值为各自数据所占的百分比，分别为10、80，基于随机森林输出企业的结果。

在本实施例中，采用随机森林的具体步骤如下：

步骤1：将HDFS文件中存储的海量人员或企业的考评、评分、绩效等数据中的80%作为训练样本集。

步骤2：选择训练样本集中人员或企业的内部数据如人员考勤数据、绩效考评数据、不良行为扣分数据等或者接口数据中人员评分信息如人员失信记录等作为最重要的特征属性。

步骤3：创建评分信息中的评分数据特征属性的节点，它的评分值是所选择的属性，创建此节点的子节点，形成子链。每个子链代表所选评分值属性的唯一值，适用子链的值进一步将样本细分为子类。

对于步骤3中创建的三个子类：

（1）如果子类的样本满足预定义的标准，或者树的这条路的剩余可选属性集为空，为沿此路径的新的样本指定类别。

（2）如果子类不满足于定义的标准，或者至少有一个属性能细分树的路径，设T为当前子类样本的集合，则返回步骤2。

在本实施例中，对于所采用随机森林进行人员或企业进行评价，采用GBDT算法对所采用的随机森林进行评估，在GBDT算法中，损失函数选择最小二乘LS回归，学习速率为0.1，最大深度为7，并作出特征重要性排名；在随机森林算法中，分割标准选择更优的Gini系数，通过改进树的数量、改进树的最大深度，改进树的叶节点最小样本数和改进最佳分割时的特征数4个方面，找到该算法的最佳参数，分别为100、5、20、8。

本实施例通过对特征选择，划分数据集，建立了相应的决策树模型，并训练模型，最后对20%的测试集进行了评估，正确率（Accuracy）和F1值（F1_score）如下：

Accuracy=(TP+TN)/(TP+TN+FN+FP)

Precision(P)=TP/(TP+FP)

Recall(R)=TP/(TP+FN)

F1_score=2*(P*R)/(P+R)

其中，TP表示实际上这个样本为Positive，模型把这个样本预测为Positive的情况，这是预测正确的部分。TN表示实际上这个样本为Negative，模型也把这个样本预测为Negative的情况，这是预测正确的部分。FN表示实际上这个样本为Positive，但是模型预测为了Negative的情况，这是预测错误的部分，也是统计学上的第二类错误即Type IIError。Accurace表示准确率。Precision表示精确率。Recall表示召回率。F1_score表示F1特征值，准确率和精确率的调和值。

本实施例从数据集出发，首先对数据集进行前期处理，其次通过特征选择选取重要性较高的变量，在各个算法中对参数进行调整，最后采用Accuracy、F1_score和ROC曲线3个指标进行模型效果的评估。通过对比可以看出，虽然改进随机森林模型的F1值不是最高的，但跟其他模型相接近，同时改进随机森林模型的正确率最高，ROC曲线效果最好。可以得出结论，改进随机森林模型相比其他模型拟合效果更好，人员筛查的效果最佳。

实施例二

本实施例提供一种基于多维数据的人员、企业评级系统，包括：

在数据存储单元中，Flume包括source层、sink层和channel层，Flume对预处理后的人员或企业内部数据存储至HDFS文件中，具体为：

source层采集人员或企业内部数据，将采集的人员或企业内部数据传输给channel层；

channel层对人员或企业内部数据进行缓存后传输给sink层；

sink层将人员或企业内部数据传输至HDFS文件中进行存储。

在数据存储单元中，利用kafka对预处理后的人员或企业的外部数据存储至HDFS文件，具体为：Producer生产者负责将外部数据接收并创建消息，然后转换为Topic，将其存储到 Kafka的Broker组件；Consumer是接收消息的一方，Consumer连接 Kafka的 Broker组件并通过Topic接收对应消息，进而将外部数据处理并存储到HDFS中。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于多维数据的人员、企业评级方法，其特征在于，包括以下步骤：

从HDFS文件中调用待预测人员或企业的内部数据或外部数据输入至训练好的随机森林模型中，输出待预测人员或企业的评级结果。

2.如权利要求1所述的一种基于多维数据的人员、企业评级方法，其特征在于，所述人员内部数据包括考评数据、评分数据、绩效数据；

所述人员外部数据为所接入的政务公共数据中人员失信记录；

所述企业的内部数据包括达标考评数据、创优考评数据、考核评分数据；

所述企业的外部数据为所接入的政务公共数据中企业信用评分、企业信用数据、企业失信记录。

3.如权利要求1所述的一种基于多维数据的人员、企业评级方法，其特征在于，采用MySQL工具对人员或企业的多维数据进行格式化处理，调用hadoop平台的MapReduce对格式化处理后的数据进行清洗。

4.如权利要求1所述的一种基于多维数据的人员、企业评级方法，其特征在于，Flume包括source层、sink层和channel层，Flume对预处理后的人员或企业内部数据存储至HDFS文件中，具体为：

channel层对人员或企业内部数据进行缓存后传输给sink层；

sink层将人员或企业内部数据传输至HDFS文件中进行存储。

5.如权利要求3所述的一种基于多维数据的人员、企业评级方法，其特征在于，还包括：在人员或企业内部数据达到sink层后，channel层将缓存的数据删除。

6.如权利要求1所述的一种基于多维数据的人员、企业评级方法，其特征在于，利用kafka对预处理后的人员或企业的外部数据存储至HDFS文件，具体为：Producer生产者负责将外部数据接收并创建消息，然后转换为Topic，将其存储到 Kafka的Broker组件；

Consumer是接收消息的一方，Consumer连接 Kafka的 Broker组件并通过Topic接收对应消息，进而将外部数据处理并存储到HDFS中。

7.如权利要求1所述的一种基于多维数据的人员、企业评级方法，其特征在于，选择内部数据或外部数据中重要数据类型作为最重要的特征属性对随机森林进行训练。

8.一种基于多维数据的人员、企业评级系统，其特征在于，包括：

9.如权利要求8所述的一种基于多维数据的人员、企业评级系统，其特征在于，在所述数据存储单元中，Flume包括source层、sink层和channel层，Flume对预处理后的人员或企业内部数据存储至HDFS文件中，具体为：

channel层对人员或企业内部数据进行缓存后传输给sink层；

sink层将人员或企业内部数据传输至HDFS文件中进行存储。

10.如权利要求8所述的一种基于多维数据的人员、企业评级系统，其特征在于，在所述数据存储单元中，利用kafka对预处理后的人员或企业的外部数据存储至HDFS文件，具体为：Producer生产者负责将外部数据接收并创建消息，然后转换为Topic，将其存储到Kafka的Broker组件；