CN112836011A

CN112836011A - 基于大数据应用的分析管理系统构建方法及模型构建

Info

Publication number: CN112836011A
Application number: CN202011454380.8A
Authority: CN
Inventors: 李策; 杨波; 张琦; 魏军; 郭芳琳; 王�华; 申富泰; 冯丽丽
Original assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date: 2020-12-13
Filing date: 2020-12-13
Publication date: 2021-05-25
Anticipated expiration: 2040-12-13
Also published as: CN112836011B

Abstract

本发明涉及一种基于大数据应用的分析管理系统构建方法及模型构建。所述的一种基于大数据应用的分析管理系统构建方法，包括如下步骤：1)、企业员工活动信息维度构建与量表设定，由信息维度构建单元与该信息维度构建单元一一对应匹配连接的量表；2)、企业员工活动信息维度结构权重与阈值标准确定；结合现有的企业员工活动信息历史数据和新生成的量表数据，并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值；3)、问卷库的问卷数据的大数据分析；依据所构建的问卷库，采用大数据对企业员工活动信息进行分析。

Description

基于大数据应用的分析管理系统构建方法及模型构建

技术领域

本发明属于信息管理技术领域，具体涉及一种基于大数据应用的分析管理系统构建方法及模型构建。

背景技术

为了推动社会的发展，企业员工作为社会中思想觉悟较高的群体，在社会发展中起积极的带头作用。因此，在建设过程中，需要对企业员工进行监督，保证企业员工在社会各方面都起着正面积极的带头作用。中国专利授权公告号 CN107146066 B公开了一种提高考评效率的管理系统，但是对如企业员工活动信息这些直接关乎企业的绩效表现与可持续发展的信息的考评没有相应方案。伴随着外部环境不确定性增加和社会事件的持续冲击，企业员工活动信息也呈现出多维、不定向、快速变动等特征。

发明内容

为了解决背景技术中提出的问题，本发明提供一种基于大数据应用的分析管理系统构建方法及模型构建。

为了实现以上目的，本发明采用的技术方案为：一种基于大数据应用的分析管理系统构建方法，包括如下步骤：

1)、企业员工活动信息维度构建与量表设定，由信息维度构建单元与该信息维度构建单元一一对应匹配连接的量表；

首先，基于高阶因子模型方法分解出企业员工活动信息具体维度和相应的量表；

其次，对生成的量表进行修正、完善；随后，利用量表生成问卷库并采用Multitrait-Multimethod矩阵分析法进行初测，根据问卷库收集的问卷数据对量表的信度信息、内容效度信息、区别效度信息进行检验；

最后，采集调查对象的个性特征信息并链接其他量化指标作为链接前置或后置，以检验所构建维度间的结构关系；

2)、企业员工活动信息维度结构权重与阈值标准确定；结合现有的企业员工活动信息历史数据和新生成的量表数据，并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值；

首先，采用新量表所形成的问卷库的问卷数据对企业员工活动信息进行一次完整的整理，利用收集的有效数据进行因子分析，并采用高阶因子分析的方法来确定企业员工活动信息各维度的结构关系；

其次，利用德尔菲法收集专业数据库数据，确定各维度的权重及关联关系；

最后，对比和分析高阶因子分析和结果数据，结合企业员工活动信息历史数据确定企业员工活动信息维度结构权重和阈值标准；

3)、问卷库的问卷数据的大数据分析；依据所构建的问卷库，采用大数据对企业员工活动信息进行分析。

进一步的，步骤1)中所述的信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块。

再进一步的，步骤1)中所述的个性特征信息包括性别信息、年龄信息、岗位信息。

进一步的，步骤3)中即采用大数据历史分析，即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度；利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹，依据所设定的预警阈值自动发出提示；利用大数据整体性呈现企业员工活动信息变动阶段、取向，推荐研判关键指标；关联相关活动轨迹，识别出驱动因素因子。

一种基于大数据应用的分析管理系统模型构建，所述的系统包括企业员工活动信息分类模型，所述的企业员工活动信息分类模型以所述的系统中的用户编号为唯一标识，通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据，并经汇总后形成以用户为主体的文本数据库，同时经过文本数据处理，包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除，并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式；

所述的企业员工活动信息分类模型拟选择针对文本分类的算法进行训练：基于Word2Vec(Word To Vector)进行词向量转换，使用TextCNN深度学习算法进行模型构建；

包括如下步骤：

1)、数据收集和预处理：

采用数据预研分析，包括空缺值、脏数据、错误数据统计分析，所述的数据包括用户属性数据、用户活动信息数据、测评数据；

2)、文本分词：

假设经数据预处理后的文本数据集为D＝{d₁,d₂,...,d_n}，其中d_i为每个用户的文本数据集，n为分析管理系统中的用户个数；

基于条件随机场(Conditional Random Field，CRF)分词对文本信息进行结构化处理；

经文本分词后的数据集为D'＝{d'₁,d'₂,...,d'_n}，分词后每个用户的关键特征集d_i'＝{word₁,word₂,...word_m}，m为关键特征词个数；

3)、词向量训练：

对于分词后的语料D'＝{d'₁,d'₂,...,d'_n}进行Word2Vec训练处理，所得结果为多维的词向量集

其中每个用户

而每个词向量 v_i＝{vec₁,vec₂,...,vec_k}，k为Word2Vec转换后的词向量空间长度，即为每个词嵌入维度；最后

用于深度学习算法输入数据；

4)、企业员工活动信息分类：

在TextCNN中卷积核的宽度和词嵌入的维度保持一致，具体采用如下步骤：

4.1)、卷积

首先确定卷积核W的大小为h×k，h为每次窗口滑动取的词个数，即卷积核高度；k为词嵌入维度，每一次滑窗后的卷积运算如公式(1)。

然后通过激活函数对计算出的t_i进行处理，激活函数选取tanh，公式如下所示：

由于每个用户的文本特征集关键词长度为m，而卷积核的高度为h，且每次只向下滑动，故总滑动次数为m-h+1，即卷积汇总结果为c＝{c₁,c₂,...,c_m-h+1}；

4.2)、池化

池化操作采用的是全局最大池化，公式如下：

若卷积操作时定义的卷积核有f个，则池化后的数据集为

4.3)、卷积后形成卷积层，池化后形成池化层，再至全连接层；

经过多个卷积层和池化层后到达全连接层，全连接层中的每一个神经元都与上一层的所有神经元进行全连接；

全连接层每个神经元都采用tanh为激活函数，全连接层最后输出的高维向量采用softmax逻辑回归(softmax regression)进行分类预测，输出的结果为用户在不同企业员工活动信息上的概率；假设企业员工活动信息个数s个，即：

P＝{p₁,p₂,...,p_s},其中p₁+p₂+...+p_s＝1 (4)

5)、结果输出：

所述的企业员工活动信息分类模型输出每个用户在不同企业员工活动信息的概率值，根据用户概率值大小评估用户的趋向，采用公式(4)，取最大p_i值对应的数值。

进一步的，步骤4.2)与步骤4.3)之间设置步骤：依次经多次卷积与池化。

本发明的技术效果在于：本发明应用大数据对企业员工活动信息进行全面、及时、持续地调查和分析，基于企业员工活动信息多维数据及其变化趋势，为研判、预警和规制企业员工管理提供决策依据。

通过本发明组织构建完善、运行高效、分析精准的系统，以互联网、大数据为支撑，真实、准确、及时呈现企业员工活动信息，显示各单位各部门管理方面的实现程度、发现相关问题，持续主动的优化提升企业员工活动信息。通过系统中产生的海量数据进行对比，建立大数据下企业员工活动信息评判的阈值标准和研判机制，为企业员工活动信息的综合分析、智能预警以及定向引导提供依据。采用大数据技术，解决数据收集、数据存储和数据运算等数据处理，得到全数据分析、实时化分析、系统性分析和智能化分析等基于大数据手段的信息化分析处理方案。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明应用大数据对企业员工活动信息进行全面、及时、持续地调查和分析，基于企业员工活动信息多维数据及其变化趋势，为研判、预警和规制企业员工管理提供决策依据。

本发明的一种基于大数据应用的分析管理系统的构建方法，包括如下步骤：

1)、企业员工活动信息维度构建与量表设定，即本发明系统中的信息维度构建单元和该信息维度构建单元一一对应匹配连接的量表；

首先，基于高阶因子模型方法分解出企业员工活动信息具体维度(即信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块)和相应的量表；

最后，采集调查对象的个性特征信息(包括性别信息、年龄信息、岗位信息)并链接其他量化指标作为链接前置或后置，以检验所构建维度间的结构关系；

3)、问卷库的问卷数据的大数据分析；依据所构建的问卷库，采用大数据对企业员工活动信息进行分析；

即采用大数据历史分析，即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度；利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹，依据所设定的预警阈值自动发出提示；利用大数据整体性呈现企业员工活动信息变动阶段、取向，推荐研判关键指标；关联相关活动轨迹，识别出驱动因素因子，进而进行干预应对，实现预测性的目的。

本发明的一种基于大数据应用的分析管理系统包括企业员工活动信息分类模型。所述的企业员工活动信息分类模型以本发明系统中的用户编号为唯一标识，通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据，并经汇总后形成以用户为主体的文本数据库，同时经过文本数据处理，包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除，并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式。

鉴于本发明模型输入关键特征数据均为文本数据，因此，所述的企业员工活动信息分类模型拟选择针对文本分类的算法进行训练：基于Word2Vec(Word To Vector)进行词向量转换，使用TextCNN深度学习算法进行模型构建。

步骤如下：

1)、数据收集和预处理：

多方数据导致数据类型多样，可能存在数值型、文本型、标志型等多种数据类型共存情况。因数据中关键特征数据为文本信息以及所选择算法的原因，在此过滤掉数值类型数据；针对文本数据，使用正则匹配，过滤掉脏数据和错误数据；

2)、文本分词：

因测评数据具备较强分散性，故存在较多具备歧义或难以区分的数据，

本发明通过基于条件随机场(Conditional Random Field，CRF)分词对文本信息进行结构化处理，拟解决分词中面临的语句歧义或难以区分的问题。

CRF是自然语言处理分词算法，是对汉字进行标注即由字构词，CRF不仅从文字词语出现的频率信息进行分析，同时分析上下文，因此其对歧义词和未登录词的识别都具有很好的效果。

经文本分词后的数据集为D'＝{d'₁,d'₂,...,d'_n}，分词后每个用户的关键特征集d′_i＝{word₁,word₂,...word_m}，m为关键特征词个数。

3)、词向量训练：

其中每个用户

而每个词向量 v_i＝{vec₁,vec₂,...,vec_k}，k为Word2Vec转换后的词向量空间长度，即为每个词嵌入维度。最后

用于深度学习算法输入数据。

4)、企业员工活动信息分类：

由TextCNN使用于文本分类上，这样与传统的卷积神经网络存在一定差异，主要差异在卷积核的使用，其为自然语言、是一维数据，虽然经过向量转换后生成的是二维向量，但是对词向量做从左到右的滑动进行卷积无效，因此在 TextCNN中卷积核的宽度和词嵌入的维度要保持一致，具体采用如下步骤：

4.3)、卷积

4.4)、池化

池化操作采用的是全局最大池化，公式如下：

若卷积操作时定义的卷积核有f个，则池化后的数据集为

优选的，依次采用上述步骤经多次卷积与池化；

为使所述的企业员工活动信息分类模型能更好拟合，达到最佳模型效果，故经多次卷积和池化；

经过多个卷积层和池化层后到达全连接层，全连接层中的每一个神经元都与上一层的所有神经元进行全连接，通过全连接层可以整合卷积层或池化层中具备区分性的信息；

为提升所述的企业员工活动信息分类模型性能，全连接层每个神经元都采用tanh为激活函数，全连接层最后输出的高维向量采用softmax逻辑回归 (softmax regression)进行分类预测，输出的结果为用户在不同企业员工活动信息上的概率；假设企业员工活动信息个数s个，即：

P＝{p₁,p₂,...,p_s},其中p₁+p₂+...+p_s＝1 (4)

5)、结果输出：

所述的企业员工活动信息分类模型输出每个用户在不同企业员工活动信息的概率值，根据用户概率值大小评估用户的趋向，即如公式(4)所示，取最大 p_i值对应的数值。

以上仅为本发明的较佳的实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据应用的分析管理系统构建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于大数据应用的分析管理系统构建方法，其特征在于：步骤1)中所述的信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块。

3.根据权利要求1或2所述的一种基于大数据应用的分析管理系统构建方法，其特征在于：步骤1)中所述的个性特征信息包括性别信息、年龄信息、岗位信息。

4.根据权利要求1所述的一种基于大数据应用的分析管理系统构建方法，其特征在于：步骤3)中即采用大数据历史分析，即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度；利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹，依据所设定的预警阈值自动发出提示；利用大数据整体性呈现企业员工活动信息变动阶段、取向，推荐研判关键指标；关联相关活动轨迹，识别出驱动因素因子。

5.一种基于大数据应用的分析管理系统模型构建，其特征在于：所述的系统包括企业员工活动信息分类模型，所述的企业员工活动信息分类模型以所述的系统中的用户编号为唯一标识，通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据，并经汇总后形成以用户为主体的文本数据库，同时经过文本数据处理，包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除，并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式；

包括如下步骤：

1)、数据收集和预处理：

2)、文本分词：