CN115757657A

CN115757657A - 一种人力资源数据仓库搭建方法

Info

Publication number: CN115757657A
Application number: CN202211450957.7A
Authority: CN
Inventors: 王婕妤; 魏庆麟
Original assignee: Zhuhai Huafa New Technology Investment Holdings Co ltd
Current assignee: Zhuhai Huafa New Technology Investment Holdings Co ltd
Priority date: 2022-11-19
Filing date: 2022-11-19
Publication date: 2023-03-07

Abstract

本发明涉及计算机技术领域，公开了一种人力资源数据仓库搭建方法。一种人力资源数据仓库搭建方法包括：步骤1，从多个系统中采集原始数据，并记录采集时间，形成带有时间标记的数据源；步骤2，在数据缓冲层从数据源中抽取数据，每个数据源分别对应一个数据缓冲层数据库；步骤3，将数据进行清洗和转化，得到业务明细数据，并将业务明细数据写入到相应的贴源层中进行存储；步骤4，按维度对业务明细数据进行整合并存储到数据仓库层的数据库中；步骤5，在数据应用层根据需求进行计算和整合，并将数据分别存入Hive数据库和MySQL数据库中。本发明能够将企业的人力资源情况进行整合，并能够高效的进行人力资源相关的分析。

Description

一种人力资源数据仓库搭建方法

技术领域

本发明涉及计算机技术领域，具体涉及一种人力资源数据仓库搭建方法。

背景技术

数据仓库是一种结构化的数据环境，是面向主题的、集成的、相对稳定的、反映历史变化的数据集合，用于支持管理决策。

而现有的人力资源数据仓库通常是以花名册、通讯录、业绩表等分布式存在，当有对应的业务需求时，再从多个表中调度有用信息进行处理，工作效率低，且不利于整体掌握人力资源状况，管理人员不易理清人力架构，也不利于人力应用需求的扩展。

发明内容

本发明意在提供一种人力资源数据仓库搭建方法，以将企业的人力资源情况进行整合，并能够高效的进行人力资源相关的分析。

为达到上述目的，本发明采用如下技术方案：一种人力资源数据仓库搭建方法，包括：

步骤1，从多个系统中采集原始数据，并记录采集时间，形成带有时间标记的数据源；

步骤2，在数据缓冲层从数据源中抽取数据，每个数据源分别对应一个数据缓冲层数据库；

步骤3，将数据进行清洗和转化，得到业务明细数据，并将业务明细数据写入到相应的贴源层中进行存储；

步骤4，按维度对业务明细数据进行整合并存储到数据仓库层的数据库中；

步骤5，在数据应用层根据需求进行计算和整合，并将数据分别存入Hive数据库和MySQL数据库中。

本方案的原理及优点是：实际应用时，人力资源信息存在于多个分散的系统当中，首先从多个系统中采集原始数据，并记录采集时间，形成带有时间标记的数据源；人力资源数据会随时间更新，记录下时间利于形成人力资源的时间序列，并通过时间维度对人力资源信息进行管理；然后在数据缓冲层从数据源中抽取数据，每个数据源分别对应一个数据缓冲层数据库，定位临时数据，为贴源层进行服务；接着将数据进行清洗和转化，得到业务明细数据，并将业务明细数据写入到相应的贴源层中进行存储，实现业务明细数据的全量保留，便于对历史数据的查询；其次是按维度对业务明细数据进行整合并存储到数据仓库层的数据库中，根据实际需求，将获取到的贴源层的数据按主题维度进行分析和整合，便于多个主题的人力资源的应用；在数据应用层根据需求进行计算和整合，并将数据分别存入Hive数据库和MySQL数据库中，便于上层应用程序访问。

优选的，作为一种改进，所述多系统包括业务系统和补录系统；业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统。

技术效果：从多个系统中获取人力资源相关的数据，数据覆盖面广，内容更全面，为后续处理奠定数据基础。

优选的，作为一种改进，所述步骤1还包括：

步骤11，为各个系统采集的数据量、数据使用频率、重要程度、数据变更频率赋予比重，根据不同系统获得的比重设置不同的数据源采集频率；

步骤12，比较各个系统当前数据采集与上一次数据采集原始数据变化量是否超过阈值；

步骤13，当变化量超过阈值时，向管理人员发出提示。

技术效果：由于外部环境因素，如就业形式严峻、业务季节性爆发等，导致各个系统中的数据产生波动，而数据采集的频率也需要随着变动才能保证在避免过度采集资源导致浪费的同时还保证了及时性和准确性。

优选的，作为一种改进，所述原始数据还包括外部数据和非结构数据。

技术效果：通过获取外部数据和非结构数据，能够增加数据完整度和系统数据可用性。

优选的，作为一种改进，所述步骤2中抽取数据包括2种方式，分别是在系统中配置数据接入任务和使用JDBC直接连接数据表。

技术效果：根据实际抽取表格的数量能够进行抽取方式的选择，提高可用性。

优选的，作为一种改进，所述步骤3还包括：

步骤31，将年龄、性别、学历、专业类别、专业等级、工作年限、岗位、考勤、业绩情况、薪酬、在职状态等进行权重赋值，并加权得到综合值；

步骤32，将每个人的业务明细数据按照综合值大小进行0～3的等比转换；

步骤33，将转换后的值作为存储年限。

技术效果：如果对所有人的信息都长期存取，会加重内存负担，根据权重赋值决定存储时长，在为存储减负的同时，也能保证重要人员的信息的长久保留。

优选的，作为一种改进，所述清洗和转换采取拉链、流水表两种形式。

技术效果：对垃圾数据、不规范数据进行清洗转换，使数据标准化，避免后续处理中出现误差。

优选的，作为一种改进，所述数据仓库层包括数据明细层、数据汇总层和公共维度层。

优选的，作为一种改进，贴源层全部采用ORC存储格式，且根据缓冲层数据抽取情况划分为四种存储模式，包括：每日全量抽取-存储历史数据；全量抽取-不存储历史数据；增量抽取-存储历史数据；增量抽取-不存储历史数据。

技术效果：由于贴源层对所有人的业务明细数据进行存储，数据量庞大，采用ORC存储格式能够提高查询性能和降低磁盘空间的占用。

优选的，作为一种改进，数据仓库层采用ORC格式存储业务明细数据，步骤4还包括：

步骤41，对比找出变更的数据；

步骤42，采用拉链表存储变更的数据。

技术效果：采用拉链表，不仅支持历史数据查询，且空间占用小，提高运行效率。

附图说明

图1为本发明实施例的流程示意图。

具体实施方式

下面通过具体实施方式进一步详细说明：

实施例如附图1所示：

一种人力资源数据仓库搭建方法，包括：

多系统包括业务系统和补录系统；业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统；补录系统的数据包括excel文档数据和帆软上报系统数据；除此之外，还包括外部数据和非结构数据，其中外部数据是通过爬虫爬取的房产信息和网站舆情数据等数据，非结构数据是图纸设计文档、工程文档、流程文件等数据，获取外部数据和非结构数据，能够增加数据完整度和系统数据可用性；从多个系统中获取人力资源相关的数据，数据覆盖面广，内容更全面，为后续处理奠定数据基础。

由于外部环境因素，如就业形式严峻、业务季节性爆发等，导致各个系统中的数据产生波动，而数据采集的频率也需要随着变动才能保证在避免过度采集资源导致浪费的同时还保证了及时性和准确性，因此，步骤1还包括：

步骤11，为各个系统采集的数据量、数据使用频率、重要程度、数据变更频率赋予比重，根据不同系统获得的比重设置不同的数据源采集频率；步骤12，比较各个系统当前数据采集与上一次数据采集原始数据变化量是否超过阈值；步骤13，当变化量超过阈值时，向管理人员发出提示。如财务系统中的数据一个月才使用一次，使用频率低，变更频率低，数据量小，但是财务情况对人力资源情况起到了重要的作用，因此对财务系统的采集频率设置为一月一次；财务系统出现多月变化小的情况时，即变化量超过阈值时，向管理人员发出提示，管理人员能够根据提示对采集频率进行调整，以及检查运行是否出错，确保各系统原始数据采集的及时性、准确性。

步骤2，在数据缓冲层从数据源中抽取数据，每个数据源分别对应一个数据缓冲层数据库，定位缓存来自DB抽取、消息、日志解析落地的临时数据，结构与业务系统保持一致；只为贴源层进行服务。所述步骤2中抽取数据包括2种方式，分别是在系统中配置数据接入任务和使用JDBC直接连接数据表；这两种抽取方式底层均是使用Sqoop进行实现，当需要抽取的表较少，即采用在系统上进行数据接入任务的配置的方式进行数据抽取；当需要抽取的表较多，即采用使用JDBC直接连接数据表的方式进行数据抽取。为了避免数据源表字段发生变化时导致数据异常，无论使用那种数据抽取方式，还需要在配置Sqoop任务时指定所需抽取的字段。

步骤3，将数据进行清洗和转化，得到业务明细数据，并将业务明细数据写入到相应的贴源层中进行存储；对垃圾数据、不规范数据进行清洗转换，使数据标准化，避免后续处理中出现误差；所述清洗和转换采取拉链、流水表两种形式；贴源层全部采用ORC存储格式，由于贴源层对所有人的业务明细数据进行存储，数据量庞大，采用ORC存储格式能够提高查询性能和降低磁盘空间的占用；根据缓冲层数据抽取情况贴源层划分为四种存储模式，包括：每日全量抽取-存储历史数据；全量抽取-不存储历史数据；增量抽取-存储历史数据；增量抽取-不存储历史数据，根据实际应用情况进行选择。

贴源层对全部的业务明细数据进行存储保留，保留时间越长，积累的数据越多，如果对所有人的信息都长期存取，运行负担会随之加重，因此，所述步骤3还包括：步骤31，将年龄、性别、学历、专业类别、专业等级、工作年限、岗位、考勤、业绩情况、薪酬、在职状态等进行权重赋值，并加权得到综合值；步骤32，将每个人的业务明细数据按照综合值大小进行0～3的等比转换；步骤33，将转换后的值作为存储年限。将影响每个人的价值度、稳定度的因素进行权重赋值，从多个维度综合到一个维度确定存储年限，实现存储减负的同时，也能保证重要人员的信息的长久保留。如年龄在30岁以上，且从业时间较长，则此人的稳定性强，赋予的权重值高，对应的业务明细数据存储时间也就越长，假设其加权得到的综合值为，等比转换到0～3的值即为3，也就是业务明细数据存储时长为3年；此处权重赋值根据实际工作需要决定。

步骤4，按维度对业务明细数据进行整合并存储到数据仓库层的数据库中；维度包括组织维度、员工人数维度、月份维度、员工维度、离职维度、经理维度、日期维度、员工事务维度、离职概要维度、事务类型维度、事务日期维度、证件维度、工龄维度；所述数据仓库层包括数据明细层、数据汇总层和公共维度层；数据明细层负责各业务场景数据的整合、常用公共维度冗余加工，以及业务明细数据信息加工；数据汇总层照主题对共性维度指标数据进行轻度、高度聚合，主题包括员工存量、员工流动、人力成本、人力效能、干部分析、人才发展、人力培训、存量异动、成本效能；公共维度层对维度进行统一标准化定义，实现维度信息共享。

数据仓库层采用ORC格式存储业务明细数据，采用ORC存储格式能够提高查询性能和降低磁盘空间的占用；步骤4还包括：步骤41，对比找出变更的数据；步骤42，采用拉链表存储变更的数据；采用拉链表，不仅支持历史数据查询，且空间占用小，提高运行效率。

步骤5，在数据应用层根据需求进行计算和整合，并将数据分别存入Hive数据库和MySQL数据库中。Hive将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，将SQL语句解析为MapReduce任务运行，便于上层应用程序访问。

步骤6，启动调度任务，触发多个数据抽取工作流，每个工作流程中均采用并发模式执行抽取任务；一个系统的数据抽取工作流成功结束后，则自动触发相应的数据清洗和转化工作流。当处于离线状态时也能够进行运用。

以上所述的仅是本发明的实施例，方案中公知的具体技术方案和/或特性等常识在此未作过多描述。应当指出，对于本领域的技术人员来说，在不脱离本发明技术方案的前提下，还可以作出若干变形和改进，这些也应该视为本发明的保护范围，这些都不会影响本发明实施的效果和专利的实用性。本申请要求的保护范围应当以其权利要求的内容为准，说明书中的具体实施方式等记载可以用于解释权利要求的内容。

Claims

1.一种人力资源数据仓库搭建方法，其特征在于，包括：

2.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：所述多系统包括业务系统和补录系统；业务系统包括人力系统、EPR系统、营销系统、客服系统、财务系统。

3.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于，所述步骤1还包括：

步骤13，当变化量超过阈值时，向管理人员发出提示。

4.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：所述原始数据还包括外部数据和非结构数据。

5.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：所述步骤2中抽取数据包括2种方式，分别是在系统中配置数据接入任务和使用JDBC直接连接数据表。

6.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于，所述步骤3还包括：

步骤33，将转换后的值作为存储年限。

7.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：所述清洗和转换采取拉链、流水表两种形式。

8.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：所述数据仓库层包括数据明细层、数据汇总层和公共维度层。

9.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：贴源层全部采用ORC存储格式，且根据缓冲层数据抽取情况划分为四种存储模式，包括：每日全量抽取-存储历史数据；全量抽取-不存储历史数据；增量抽取-存储历史数据；增量抽取-不存储历史数据。

10.根据权利要求1所述的一种人力资源数据仓库搭建方法，其特征在于：贴源层全部采用ORC存储格式，且根据缓冲层数据抽取情况划分为四种存储模式，包括每日全量抽取-存储历史数据；全量抽取-不存储历史数据；增量抽取-存储历史数据；增量抽取-不存储历史数据。