CN112836011A - 基于大数据应用的分析管理系统构建方法及模型构建 - Google Patents

基于大数据应用的分析管理系统构建方法及模型构建 Download PDF

Info

Publication number
CN112836011A
CN112836011A CN202011454380.8A CN202011454380A CN112836011A CN 112836011 A CN112836011 A CN 112836011A CN 202011454380 A CN202011454380 A CN 202011454380A CN 112836011 A CN112836011 A CN 112836011A
Authority
CN
China
Prior art keywords
data
information
activity information
enterprise
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011454380.8A
Other languages
English (en)
Other versions
CN112836011B (zh
Inventor
李策
杨波
张琦
魏军
郭芳琳
王�华
申富泰
冯丽丽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Gansu Electric Power Co Ltd
Priority to CN202011454380.8A priority Critical patent/CN112836011B/zh
Publication of CN112836011A publication Critical patent/CN112836011A/zh
Application granted granted Critical
Publication of CN112836011B publication Critical patent/CN112836011B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Tourism & Hospitality (AREA)
  • Educational Administration (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于大数据应用的分析管理系统构建方法及模型构建。所述的一种基于大数据应用的分析管理系统构建方法,包括如下步骤:1)、企业员工活动信息维度构建与量表设定,由信息维度构建单元与该信息维度构建单元一一对应匹配连接的量表;2)、企业员工活动信息维度结构权重与阈值标准确定;结合现有的企业员工活动信息历史数据和新生成的量表数据,并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值;3)、问卷库的问卷数据的大数据分析;依据所构建的问卷库,采用大数据对企业员工活动信息进行分析。

Description

基于大数据应用的分析管理系统构建方法及模型构建
技术领域
本发明属于信息管理技术领域,具体涉及一种基于大数据应用的分析管理系统构建方法及模型构建。
背景技术
为了推动社会的发展,企业员工作为社会中思想觉悟较高的群体,在社会发展中起积极的带头作用。因此,在建设过程中,需要对企业员工进行监督,保证企业员工在社会各方面都起着正面积极的带头作用。中国专利授权公告号 CN107146066 B公开了一种提高考评效率的管理系统,但是对如企业员工活动信息这些直接关乎企业的绩效表现与可持续发展的信息的考评没有相应方案。伴随着外部环境不确定性增加和社会事件的持续冲击,企业员工活动信息也呈现出多维、不定向、快速变动等特征。
发明内容
为了解决背景技术中提出的问题,本发明提供一种基于大数据应用的分析管理系统构建方法及模型构建。
为了实现以上目的,本发明采用的技术方案为:一种基于大数据应用的分析管理系统构建方法,包括如下步骤:
1)、企业员工活动信息维度构建与量表设定,由信息维度构建单元与该信息维度构建单元一一对应匹配连接的量表;
首先,基于高阶因子模型方法分解出企业员工活动信息具体维度和相应的量表;
其次,对生成的量表进行修正、完善;随后,利用量表生成问卷库并采用Multitrait-Multimethod矩阵分析法进行初测,根据问卷库收集的问卷数据对量表的信度信息、内容效度信息、区别效度信息进行检验;
最后,采集调查对象的个性特征信息并链接其他量化指标作为链接前置或后置,以检验所构建维度间的结构关系;
2)、企业员工活动信息维度结构权重与阈值标准确定;结合现有的企业员工活动信息历史数据和新生成的量表数据,并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值;
首先,采用新量表所形成的问卷库的问卷数据对企业员工活动信息进行一次完整的整理,利用收集的有效数据进行因子分析,并采用高阶因子分析的方法来确定企业员工活动信息各维度的结构关系;
其次,利用德尔菲法收集专业数据库数据,确定各维度的权重及关联关系;
最后,对比和分析高阶因子分析和结果数据,结合企业员工活动信息历史数据确定企业员工活动信息维度结构权重和阈值标准;
3)、问卷库的问卷数据的大数据分析;依据所构建的问卷库,采用大数据对企业员工活动信息进行分析。
进一步的,步骤1)中所述的信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块。
再进一步的,步骤1)中所述的个性特征信息包括性别信息、年龄信息、岗位信息。
进一步的,步骤3)中即采用大数据历史分析,即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度;利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹,依据所设定的预警阈值自动发出提示;利用大数据整体性呈现企业员工活动信息变动阶段、取向,推荐研判关键指标;关联相关活动轨迹,识别出驱动因素因子。
一种基于大数据应用的分析管理系统模型构建,所述的系统包括企业员工活动信息分类模型,所述的企业员工活动信息分类模型以所述的系统中的用户编号为唯一标识,通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据,并经汇总后形成以用户为主体的文本数据库,同时经过文本数据处理,包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除,并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式;
所述的企业员工活动信息分类模型拟选择针对文本分类的算法进行训练:基于Word2Vec(Word To Vector)进行词向量转换,使用TextCNN深度学习算法进行模型构建;
包括如下步骤:
1)、数据收集和预处理:
采用数据预研分析,包括空缺值、脏数据、错误数据统计分析,所述的数据包括用户属性数据、用户活动信息数据、测评数据;
2)、文本分词:
假设经数据预处理后的文本数据集为D={d1,d2,...,dn},其中di为每个用户的文本数据集,n为分析管理系统中的用户个数;
基于条件随机场(Conditional Random Field,CRF)分词对文本信息进行结构化处理;
经文本分词后的数据集为D'={d'1,d'2,...,d'n},分词后每个用户的关键特征集di'={word1,word2,...wordm},m为关键特征词个数;
3)、词向量训练:
对于分词后的语料D'={d'1,d'2,...,d'n}进行Word2Vec训练处理,所得结果为多维的词向量集
Figure RE-GDA0003029942180000031
其中每个用户
Figure RE-GDA0003029942180000032
而每个词向量 vi={vec1,vec2,...,veck},k为Word2Vec转换后的词向量空间长度,即为每个词嵌入维度;最后
Figure RE-GDA0003029942180000033
用于深度学习算法输入数据;
4)、企业员工活动信息分类:
在TextCNN中卷积核的宽度和词嵌入的维度保持一致,具体采用如下步骤:
4.1)、卷积
首先确定卷积核W的大小为h×k,h为每次窗口滑动取的词个数,即卷积核高度;k为词嵌入维度,每一次滑窗后的卷积运算如公式(1)。
Figure RE-GDA0003029942180000041
然后通过激活函数对计算出的ti进行处理,激活函数选取tanh,公式如下所示:
Figure RE-GDA0003029942180000042
由于每个用户的文本特征集关键词长度为m,而卷积核的高度为h,且每次只向下滑动,故总滑动次数为m-h+1,即卷积汇总结果为c={c1,c2,...,cm-h+1};
4.2)、池化
池化操作采用的是全局最大池化,公式如下:
Figure RE-GDA0003029942180000043
若卷积操作时定义的卷积核有f个,则池化后的数据集为
Figure RE-GDA0003029942180000044
4.3)、卷积后形成卷积层,池化后形成池化层,再至全连接层;
经过多个卷积层和池化层后到达全连接层,全连接层中的每一个神经元都与上一层的所有神经元进行全连接;
全连接层每个神经元都采用tanh为激活函数,全连接层最后输出的高维向量采用softmax逻辑回归(softmax regression)进行分类预测,输出的结果为用户在不同企业员工活动信息上的概率;假设企业员工活动信息个数s个,即:
P={p1,p2,...,ps},其中p1+p2+...+ps=1 (4)
5)、结果输出:
所述的企业员工活动信息分类模型输出每个用户在不同企业员工活动信息的概率值,根据用户概率值大小评估用户的趋向,采用公式(4),取最大pi值对应的数值。
进一步的,步骤4.2)与步骤4.3)之间设置步骤:依次经多次卷积与池化。
本发明的技术效果在于:本发明应用大数据对企业员工活动信息进行全面、及时、持续地调查和分析,基于企业员工活动信息多维数据及其变化趋势,为研判、预警和规制企业员工管理提供决策依据。
通过本发明组织构建完善、运行高效、分析精准的系统,以互联网、大数据为支撑,真实、准确、及时呈现企业员工活动信息,显示各单位各部门管理方面的实现程度、发现相关问题,持续主动的优化提升企业员工活动信息。通过系统中产生的海量数据进行对比,建立大数据下企业员工活动信息评判的阈值标准和研判机制,为企业员工活动信息的综合分析、智能预警以及定向引导提供依据。采用大数据技术,解决数据收集、数据存储和数据运算等数据处理,得到全数据分析、实时化分析、系统性分析和智能化分析等基于大数据手段的信息化分析处理方案。
具体实施方式
下面对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明应用大数据对企业员工活动信息进行全面、及时、持续地调查和分析,基于企业员工活动信息多维数据及其变化趋势,为研判、预警和规制企业员工管理提供决策依据。
通过本发明组织构建完善、运行高效、分析精准的系统,以互联网、大数据为支撑,真实、准确、及时呈现企业员工活动信息,显示各单位各部门管理方面的实现程度、发现相关问题,持续主动的优化提升企业员工活动信息。通过系统中产生的海量数据进行对比,建立大数据下企业员工活动信息评判的阈值标准和研判机制,为企业员工活动信息的综合分析、智能预警以及定向引导提供依据。采用大数据技术,解决数据收集、数据存储和数据运算等数据处理,得到全数据分析、实时化分析、系统性分析和智能化分析等基于大数据手段的信息化分析处理方案。
本发明的一种基于大数据应用的分析管理系统的构建方法,包括如下步骤:
1)、企业员工活动信息维度构建与量表设定,即本发明系统中的信息维度构建单元和该信息维度构建单元一一对应匹配连接的量表;
首先,基于高阶因子模型方法分解出企业员工活动信息具体维度(即信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块)和相应的量表;
其次,对生成的量表进行修正、完善;随后,利用量表生成问卷库并采用Multitrait-Multimethod矩阵分析法进行初测,根据问卷库收集的问卷数据对量表的信度信息、内容效度信息、区别效度信息进行检验;
最后,采集调查对象的个性特征信息(包括性别信息、年龄信息、岗位信息)并链接其他量化指标作为链接前置或后置,以检验所构建维度间的结构关系;
2)、企业员工活动信息维度结构权重与阈值标准确定;结合现有的企业员工活动信息历史数据和新生成的量表数据,并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值;
首先,采用新量表所形成的问卷库的问卷数据对企业员工活动信息进行一次完整的整理,利用收集的有效数据进行因子分析,并采用高阶因子分析的方法来确定企业员工活动信息各维度的结构关系;
其次,利用德尔菲法收集专业数据库数据,确定各维度的权重及关联关系;
最后,对比和分析高阶因子分析和结果数据,结合企业员工活动信息历史数据确定企业员工活动信息维度结构权重和阈值标准;
3)、问卷库的问卷数据的大数据分析;依据所构建的问卷库,采用大数据对企业员工活动信息进行分析;
即采用大数据历史分析,即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度;利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹,依据所设定的预警阈值自动发出提示;利用大数据整体性呈现企业员工活动信息变动阶段、取向,推荐研判关键指标;关联相关活动轨迹,识别出驱动因素因子,进而进行干预应对,实现预测性的目的。
本发明的一种基于大数据应用的分析管理系统包括企业员工活动信息分类模型。所述的企业员工活动信息分类模型以本发明系统中的用户编号为唯一标识,通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据,并经汇总后形成以用户为主体的文本数据库,同时经过文本数据处理,包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除,并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式。
鉴于本发明模型输入关键特征数据均为文本数据,因此,所述的企业员工活动信息分类模型拟选择针对文本分类的算法进行训练:基于Word2Vec(Word To Vector)进行词向量转换,使用TextCNN深度学习算法进行模型构建。
步骤如下:
1)、数据收集和预处理:
采用数据预研分析,包括空缺值、脏数据、错误数据统计分析,所述的数据包括用户属性数据、用户活动信息数据、测评数据;
多方数据导致数据类型多样,可能存在数值型、文本型、标志型等多种数据类型共存情况。因数据中关键特征数据为文本信息以及所选择算法的原因,在此过滤掉数值类型数据;针对文本数据,使用正则匹配,过滤掉脏数据和错误数据;
2)、文本分词:
假设经数据预处理后的文本数据集为D={d1,d2,...,dn},其中di为每个用户的文本数据集,n为分析管理系统中的用户个数;
因测评数据具备较强分散性,故存在较多具备歧义或难以区分的数据,
本发明通过基于条件随机场(Conditional Random Field,CRF)分词对文本信息进行结构化处理,拟解决分词中面临的语句歧义或难以区分的问题。
CRF是自然语言处理分词算法,是对汉字进行标注即由字构词,CRF不仅从文字词语出现的频率信息进行分析,同时分析上下文,因此其对歧义词和未登录词的识别都具有很好的效果。
经文本分词后的数据集为D'={d'1,d'2,...,d'n},分词后每个用户的关键特征集d′i={word1,word2,...wordm},m为关键特征词个数。
3)、词向量训练:
对于分词后的语料D'={d'1,d'2,...,d'n}进行Word2Vec训练处理,所得结果为多维的词向量集
Figure RE-GDA0003029942180000081
其中每个用户
Figure RE-GDA0003029942180000082
而每个词向量 vi={vec1,vec2,...,veck},k为Word2Vec转换后的词向量空间长度,即为每个词嵌入维度。最后
Figure RE-GDA0003029942180000083
用于深度学习算法输入数据。
4)、企业员工活动信息分类:
由TextCNN使用于文本分类上,这样与传统的卷积神经网络存在一定差异,主要差异在卷积核的使用,其为自然语言、是一维数据,虽然经过向量转换后生成的是二维向量,但是对词向量做从左到右的滑动进行卷积无效,因此在 TextCNN中卷积核的宽度和词嵌入的维度要保持一致,具体采用如下步骤:
4.3)、卷积
首先确定卷积核W的大小为h×k,h为每次窗口滑动取的词个数,即卷积核高度;k为词嵌入维度,每一次滑窗后的卷积运算如公式(1)。
Figure RE-GDA0003029942180000091
然后通过激活函数对计算出的ti进行处理,激活函数选取tanh,公式如下所示:
Figure RE-GDA0003029942180000092
由于每个用户的文本特征集关键词长度为m,而卷积核的高度为h,且每次只向下滑动,故总滑动次数为m-h+1,即卷积汇总结果为c={c1,c2,...,cm-h+1};
4.4)、池化
池化操作采用的是全局最大池化,公式如下:
Figure RE-GDA0003029942180000093
若卷积操作时定义的卷积核有f个,则池化后的数据集为
Figure RE-GDA0003029942180000094
优选的,依次采用上述步骤经多次卷积与池化;
为使所述的企业员工活动信息分类模型能更好拟合,达到最佳模型效果,故经多次卷积和池化;
4.3)、卷积后形成卷积层,池化后形成池化层,再至全连接层;
经过多个卷积层和池化层后到达全连接层,全连接层中的每一个神经元都与上一层的所有神经元进行全连接,通过全连接层可以整合卷积层或池化层中具备区分性的信息;
为提升所述的企业员工活动信息分类模型性能,全连接层每个神经元都采用tanh为激活函数,全连接层最后输出的高维向量采用softmax逻辑回归 (softmax regression)进行分类预测,输出的结果为用户在不同企业员工活动信息上的概率;假设企业员工活动信息个数s个,即:
P={p1,p2,...,ps},其中p1+p2+...+ps=1 (4)
5)、结果输出:
所述的企业员工活动信息分类模型输出每个用户在不同企业员工活动信息的概率值,根据用户概率值大小评估用户的趋向,即如公式(4)所示,取最大 pi值对应的数值。
以上仅为本发明的较佳的实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种基于大数据应用的分析管理系统构建方法,其特征在于,包括如下步骤:
1)、企业员工活动信息维度构建与量表设定,由信息维度构建单元与该信息维度构建单元一一对应匹配连接的量表;
首先,基于高阶因子模型方法分解出企业员工活动信息具体维度和相应的量表;
其次,对生成的量表进行修正、完善;随后,利用量表生成问卷库并采用Multitrait-Multimethod矩阵分析法进行初测,根据问卷库收集的问卷数据对量表的信度信息、内容效度信息、区别效度信息进行检验;
最后,采集调查对象的个性特征信息并链接其他量化指标作为链接前置或后置,以检验所构建维度间的结构关系;
2)、企业员工活动信息维度结构权重与阈值标准确定;结合现有的企业员工活动信息历史数据和新生成的量表数据,并结合德尔菲法确定企业员工活动信息维度结构权重和相应的阈值;
首先,采用新量表所形成的问卷库的问卷数据对企业员工活动信息进行一次完整的整理,利用收集的有效数据进行因子分析,并采用高阶因子分析的方法来确定企业员工活动信息各维度的结构关系;
其次,利用德尔菲法收集专业数据库数据,确定各维度的权重及关联关系;
最后,对比和分析高阶因子分析和结果数据,结合企业员工活动信息历史数据确定企业员工活动信息维度结构权重和阈值标准;
3)、问卷库的问卷数据的大数据分析;依据所构建的问卷库,采用大数据对企业员工活动信息进行分析。
2.根据权利要求1所述的一种基于大数据应用的分析管理系统构建方法,其特征在于:步骤1)中所述的信息维度构建单元包括的价值观念信息采集模块、职业满意度信息采集模块、服务导向信息采集模块、企业归属感信息采集模块。
3.根据权利要求1或2所述的一种基于大数据应用的分析管理系统构建方法,其特征在于:步骤1)中所述的个性特征信息包括性别信息、年龄信息、岗位信息。
4.根据权利要求1所述的一种基于大数据应用的分析管理系统构建方法,其特征在于:步骤3)中即采用大数据历史分析,即根据调查对象的特征数据、层次自动确定企业员工活动信息的内容核心维度;利用大数据自动显示企业员工活动信息变动核心轨迹和关联轨迹,依据所设定的预警阈值自动发出提示;利用大数据整体性呈现企业员工活动信息变动阶段、取向,推荐研判关键指标;关联相关活动轨迹,识别出驱动因素因子。
5.一种基于大数据应用的分析管理系统模型构建,其特征在于:所述的系统包括企业员工活动信息分类模型,所述的企业员工活动信息分类模型以所述的系统中的用户编号为唯一标识,通过采集提取职业满意度与规划信息、服务导向信息、企业归属感信息数据,并经汇总后形成以用户为主体的文本数据库,同时经过文本数据处理,包含脏数据处理、空缺值处理、错误数据及冗余数据信息的剔除,并对文本数据正则化、文本分词、词向量转换处理成企业员工活动信息的数据形式;
所述的企业员工活动信息分类模型拟选择针对文本分类的算法进行训练:基于Word2Vec(Word To Vector)进行词向量转换,使用TextCNN深度学习算法进行模型构建;
包括如下步骤:
1)、数据收集和预处理:
采用数据预研分析,包括空缺值、脏数据、错误数据统计分析,所述的数据包括用户属性数据、用户活动信息数据、测评数据;
2)、文本分词:
假设经数据预处理后的文本数据集为D={d1,d2,...,dn},其中di为每个用户的文本数据集,n为分析管理系统中的用户个数;
基于条件随机场(Conditional Random Field,CRF)分词对文本信息进行结构化处理;
经文本分词后的数据集为D'={d'1,d'2,...,d'n},分词后每个用户的关键特征集d’i={word1,word2,...wordm},m为关键特征词个数;
3)、词向量训练:
对于分词后的语料D'={d'1,d'2,...,d'n}进行Word2Vec训练处理,所得结果为多维的词向量集
Figure RE-FDA0003029942170000031
其中每个用户
Figure RE-FDA0003029942170000032
而每个词向量vi={vec1,vec2,...,veck},k为Word2Vec转换后的词向量空间长度,即为每个词嵌入维度;最后
Figure RE-FDA0003029942170000033
用于深度学习算法输入数据;
4)、企业员工活动信息分类:
在TextCNN中卷积核的宽度和词嵌入的维度保持一致,具体采用如下步骤:
4.1)、卷积
首先确定卷积核W的大小为h×k,h为每次窗口滑动取的词个数,即卷积核高度;k为词嵌入维度,每一次滑窗后的卷积运算如公式(1)。
Figure RE-FDA0003029942170000034
然后通过激活函数对计算出的ti进行处理,激活函数选取tanh,公式如下所示:
Figure RE-FDA0003029942170000035
由于每个用户的文本特征集关键词长度为m,而卷积核的高度为h,且每次只向下滑动,故总滑动次数为m-h+1,即卷积汇总结果为c={c1,c2,...,cm-h+1};
4.2)、池化
池化操作采用的是全局最大池化,公式如下:
Figure RE-FDA0003029942170000036
若卷积操作时定义的卷积核有f个,则池化后的数据集为
Figure RE-FDA0003029942170000037
4.3)、卷积后形成卷积层,池化后形成池化层,再至全连接层;
经过多个卷积层和池化层后到达全连接层,全连接层中的每一个神经元都与上一层的所有神经元进行全连接;
全连接层每个神经元都采用tanh为激活函数,全连接层最后输出的高维向量采用softmax逻辑回归(softmax regression)进行分类预测,输出的结果为用户在不同企业员工活动信息上的概率;假设企业员工活动信息个数s个,即:
P={p1,p2,...,ps},其中p1+p2+...+ps=1 (4)
5)、结果输出:
所述的企业员工活动信息分类模型输出每个用户在不同企业员工活动信息的概率值,根据用户概率值大小评估用户的趋向,采用公式(4),取最大pi值对应的数值。
6.根据权利要求5所述的一种基于大数据应用的分析管理系统模型构建,其特征在于:步骤4.2)与步骤4.3)之间设置步骤:依次经多次卷积与池化。
CN202011454380.8A 2020-12-13 2020-12-13 基于大数据应用的分析管理系统构建方法及模型构建 Active CN112836011B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011454380.8A CN112836011B (zh) 2020-12-13 2020-12-13 基于大数据应用的分析管理系统构建方法及模型构建

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011454380.8A CN112836011B (zh) 2020-12-13 2020-12-13 基于大数据应用的分析管理系统构建方法及模型构建

Publications (2)

Publication Number Publication Date
CN112836011A true CN112836011A (zh) 2021-05-25
CN112836011B CN112836011B (zh) 2023-05-05

Family

ID=75923528

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011454380.8A Active CN112836011B (zh) 2020-12-13 2020-12-13 基于大数据应用的分析管理系统构建方法及模型构建

Country Status (1)

Country Link
CN (1) CN112836011B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247084A1 (en) * 2011-08-17 2016-08-25 Roundhouse One Llc Systems and methods for analyzing energy or environmental factors relative to energy
CN108491994A (zh) * 2018-02-06 2018-09-04 北京师范大学 基于大数据的stem教育测评系统及方法
CN108876112A (zh) * 2018-05-28 2018-11-23 华南理工大学 城市综合性公园区域场所依恋评估方法
CN108959485A (zh) * 2018-06-21 2018-12-07 深圳市彬讯科技有限公司 一种用于生成流量指标数据的数据处理方法及装置
CN109284981A (zh) * 2018-09-25 2019-01-29 中建八局第二建设有限公司 一种员工满意度调查问卷信息化系统及方法
CN109658148A (zh) * 2018-12-14 2019-04-19 杭州东信北邮信息技术有限公司 一种基于自然语言处理技术的营销活动投诉风险预测方法
CN110166269A (zh) * 2018-02-13 2019-08-23 华为技术有限公司 网络能力确定方法及装置
CN110197237A (zh) * 2019-07-17 2019-09-03 四川大学华西医院 青少年心身健康预警分类方法
CN111178764A (zh) * 2019-12-30 2020-05-19 中国矿业大学(北京) 一种大型活动踩踏事故动态风险评估方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368210B (zh) * 2020-05-27 2020-11-27 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置以及电子设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160247084A1 (en) * 2011-08-17 2016-08-25 Roundhouse One Llc Systems and methods for analyzing energy or environmental factors relative to energy
CN108491994A (zh) * 2018-02-06 2018-09-04 北京师范大学 基于大数据的stem教育测评系统及方法
CN110166269A (zh) * 2018-02-13 2019-08-23 华为技术有限公司 网络能力确定方法及装置
CN108876112A (zh) * 2018-05-28 2018-11-23 华南理工大学 城市综合性公园区域场所依恋评估方法
CN108959485A (zh) * 2018-06-21 2018-12-07 深圳市彬讯科技有限公司 一种用于生成流量指标数据的数据处理方法及装置
CN109284981A (zh) * 2018-09-25 2019-01-29 中建八局第二建设有限公司 一种员工满意度调查问卷信息化系统及方法
CN109658148A (zh) * 2018-12-14 2019-04-19 杭州东信北邮信息技术有限公司 一种基于自然语言处理技术的营销活动投诉风险预测方法
CN110197237A (zh) * 2019-07-17 2019-09-03 四川大学华西医院 青少年心身健康预警分类方法
CN111178764A (zh) * 2019-12-30 2020-05-19 中国矿业大学(北京) 一种大型活动踩踏事故动态风险评估方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ZHANG ZHENG 等: "Study on the influencing factors and passenger volume analysis of lasting large scale activities", 《 2015 INTERNATIONAL CONFERENCE ON TRANSPORTATION INFORMATION AND SAFETY (ICTIS)》 *
朴春慧 等: "基于SEM高阶因子分析技术的移动商务信任评价模型研究", 《2012中国信息经济学年会会议论文集 》 *

Also Published As

Publication number Publication date
CN112836011B (zh) 2023-05-05

Similar Documents

Publication Publication Date Title
CN109255506B (zh) 一种基于大数据的互联网金融用户贷款逾期预测方法
CN110825877A (zh) 一种基于文本聚类的语义相似度分析方法
CN113704546B (zh) 基于空间时序特征的视频自然语言文本检索方法
CN112884551B (zh) 一种基于近邻用户和评论信息的商品推荐方法
CN107688870B (zh) 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置
CN110096575B (zh) 面向微博用户的心理画像方法
CN109409433B (zh) 一种社交网络用户的人格识别系统和方法
JPH07295989A (ja) データを解析するためのインタプリタを形成する装置
CN110232395A (zh) 一种基于故障中文文本的电力系统故障诊断方法
CN116822625A (zh) 一种发散式关联的风机设备运检知识图谱构建及检索方法
CN111259140A (zh) 一种基于lstm多实体特征融合的虚假评论检测方法
CN111241425A (zh) 一种基于层次注意力机制的poi推荐方法
CN112070543A (zh) 一种电商网站中评论质量的检测方法
CN114942974A (zh) 电商平台商品用户评价情感倾向分类方法
CN116304299A (zh) 一种融和用户兴趣演化和梯度提升算法的个性化推荐方法
CN116629258B (zh) 基于复杂信息项数据的司法文书的结构化分析方法及系统
CN111708865B (zh) 一种基于改进XGBoost算法的技术预见及专利预警分析方法
CN112527866A (zh) 基于文本摘要情感挖掘的股票趋势预测方法和系统
CN116629716A (zh) 一种智能交互系统工效分析方法
CN112836011A (zh) 基于大数据应用的分析管理系统构建方法及模型构建
CN110580261B (zh) 针对高科技公司的深度技术追踪方法
Li Textual Data Mining for Financial Fraud Detection: A Deep Learning Approach
Urkude et al. Comparative analysis on machine learning techniques: a case study on Amazon product
Wang Human resource network information recommendation method based on machine learning
CN117556118B (zh) 基于科研大数据预测的可视化推荐系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant