CN109784721B - 一种就业数据分析与数据挖掘分析的平台系统 - Google Patents

一种就业数据分析与数据挖掘分析的平台系统 Download PDF

Info

Publication number
CN109784721B
CN109784721B CN201910035658.9A CN201910035658A CN109784721B CN 109784721 B CN109784721 B CN 109784721B CN 201910035658 A CN201910035658 A CN 201910035658A CN 109784721 B CN109784721 B CN 109784721B
Authority
CN
China
Prior art keywords
data
employment
analysis
information
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910035658.9A
Other languages
English (en)
Other versions
CN109784721A (zh
Inventor
王跃红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Ducaizi Group Co ltd
Original Assignee
Guangdong Ducaizi Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Ducaizi Group Co ltd filed Critical Guangdong Ducaizi Group Co ltd
Priority to CN201910035658.9A priority Critical patent/CN109784721B/zh
Publication of CN109784721A publication Critical patent/CN109784721A/zh
Application granted granted Critical
Publication of CN109784721B publication Critical patent/CN109784721B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明提供一种就业数据分析与数据挖掘分析的平台系统,包括数据挖掘、业务分析和可视化管理三大模块,数据挖掘模块采集数据并对数据进行处理,然后通过业务分析模块对处理后的数据进行分析,可视化管理模块提供可视化模块的用户操作界面,并生成PC端以及移动端报告,供客户查询;采用本平台系统能够根据院校学生的基础学籍与就业数据,对毕业学生的整体就业质量做一个分析,针对某一具体的专业、企业、行业开展针对性的数据分析,从点到面地解决问题,生成就业质量分析报告;功能性强,方便使用。

Description

一种就业数据分析与数据挖掘分析的平台系统
技术领域
本发明涉及智慧校园信息化技术领域,特别涉及一种就业数据分析与数据挖掘分析并展示的平台系统。
背景技术
近年来,随着数据库信息量的急剧增长和存储设备的不断升级,给院校带来大量的数据,远远超出了院校对数据的分析、综合和抽取“知识”的能力。通过传统方法所获得的存在于这些数据中的信息量仅仅是整个数据库所包含信息的一小部分,即数据的表层信息,然而隐藏在这些数据之后的更重要的信息是关于这些数据的整体特征的描述及其对发展趋势的预测等信息,即知识,这是我们无法用传统方法来获取的。为了处理这些数据,开发新一代能够“自动地”、“智能地”分析处理这些海量的原始数据的工具显得非常必要。于是数据挖掘技术应运而生,并成为一个新兴的、在数据库和信息决策领域处于前沿研究的方向之一。数据挖掘方法的提出,让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识,这些知识是隐含的,事先未知的潜在有价值的信息。
目前智慧校园的数据基础设施不够完善,对数据进行深度挖掘分析的应用较少。且目前大多应用过于单一,停留在数据的展示、查询、统计等层面,应用软件不够人性化,使用麻烦。每个应用软件都需要单独注册,而且帐号密码各不相同,经常在需要用时想不到帐号密码,不得不找管理员帮助找回密码、或者干脆就不用了。不知道各应用软件中有没有需要查看的信息,但每进入一个应用系统都要手工登录很麻烦,所以没人通知就不去看了。智慧校园的建设缺乏一个统一平台,没有这个平台就无法进行数据的有效整合,更提不上数据的交叉分析与应用了。
传统的就业质量分析平台,采用传统的调研方式,主要是通过电话访问、现场走访(面谈)、通讯APP等形式,进行跟踪调查,收集毕业生的就业去向以及满意度等各项数据,再基于院校提供的基础数据,经过统计、分析生成各项数据表,完成质量报告的撰写。而对就业数据的挖掘也过于单一,停留在数据的展示、查询、统计等层面。无法满足各院校对于数据监控、数据挖掘、大数据分析日益增长的需求。
发明内容
本发明的目的是提供一种就业数据分析与数据挖掘分析的平台系统以解决背景技术中提及问题。
为了实现上述目的,本发明提供如下技术方案:
一种就业数据分析与数据挖掘分析的平台系统,包括数据挖掘模块、业务分析模块和可视化管理模块;
数据挖掘模块包括以下步骤:
A10:数据采集,定期将数据库文件和电子表格更新到系统数据库;
A20:数据预处理,将数据采集中更新到系统数据库中的信息通过数据集成录入到系统数据库内,再通过数据选择与数据清理进行筛选与清理;
A30:数据抽样,通过选取样本功能筛选出具有代表性的数据,然后基本区间计算量化属性的基本区间数目,然后对每个属性按等深分箱划分区间,并将划分信息保存,再通过数据集的转化,将抽样数据集中的每个学生记录按其取值转化为布尔型的位串,并保留在文件中,最后通过数据挖掘找出所有频集;
A40:规则生成,得到所有的频集及其支持度后,则生成规则;
业务分析模块:数据挖掘模块处理完成后,接下来就需要针对具体的业务分析挖掘需求来进行数据挖掘应用;根据业务对模型进行解释和应用;
可视化管理模块包括以下步骤:
B10:用户登录,启动可视化模块的用户操作界面,并向用户进行显示;
B20:参数配置,设置参数配置选项;
B30:数据请求,除了在本地输入和调动资源数据之外,业务客户端还可以接收用户在用户操作界面输入的基础数据请求指令,生成基础数据请求信息,发送给基础数据服务器,以获取网络侧的资源;
B40:图表生成,生成图表以及动态图像:
B50:信息发布,通过信息发布服务器将信息发布到用户客户端。
进一步地,步骤A10中,数据采集覆盖结构化数据、半结构化数据;结构化数据包括与Mysql同构的数据库和异构的数据库;半结构化数据文件通过FTP、HTTP传输。
进一步地,步骤A20中,数据库文件采用ODBC添加到系统数据库中;电子表格采用编程逐条录入到系统数据库中;数据选择是从所有与业务对象有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;数据清理是利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
进一步地,所述业务分析模块中具体的业务分析包括:毕业生就业基本情况分析、就业环境与就业机会分析、就业去向分析、就业稳定和社会保障分析、劳动关系与就业安全、劳动报酬和就业公平、就业满意度。
进一步地,在步骤B10中,在业务客户端的用户操作界面上,用户可以点击用户操作界面上的选项进行相应的操作,也可以根据用户操作界面的显示输入文字信息,还可以输入数据请求指令,以调用相应的资源数据;资源数据包括:学生信息资源数据和就业信息资源数据以及第三方数据。
进一步地,在步骤B40中,动态影像的开发采用HTML5+ReactJS+BootStrap的混合技术进行实施。
本发明的有益效果为:
采用本设计中的平台系统,能够根据院校学生的基础学籍与就业数据,对毕业学生的整体就业质量做一个分析,针对某一具体的专业、企业、行业开展针对性的数据分析,从点到面地解决问题,生成就业质量分析报告;从而有了更多的数据来源途径和获取数据手段,一份有效的就业质量分析报告能够产生巨大的价值。就业质量分析报告不仅能够对整体市场环境和宏观经济走向做判断,还可以深入到教育的每个环节、了解学校招生以及毕业学生就业的真实情况。
附图说明
图1是本发明的系统功能模块结构示意图;
图2是本发明中数据挖掘模块的功能流程图;
图3是本发明中可视化管理模块的功能流程图。
具体实施方式
以下结合附图对本发明进行进一步说明:
如图1-3所示,一种就业数据分析与数据挖掘分析的平台系统,包括数据挖掘模块、业务分析模块和可视化管理模块;
数据挖掘模块包括以下步骤:
A10:数据采集,数据采集覆盖结构化数据、半结构化数据。结构化数据包括与Mysql同构的数据库和异构的数据库;半结构化数据文件通过FTP、HTTP传输,这些数据根据其特点提取公共部分、舍去不定部分而结构化。系统定期将数据库文件(招生管理系统、学籍管理系统、就业管理系统、教务管理系统)、电子表格(学籍信息、学生实习信息、学生就业信息)中的数据更新到系统数据库。数据的采集采用网络将原数据保存到云数据库服务器。
A20:数据预处理,数据预处理模块下设数据集成、数据选择和数据清理。只要不影响数据选择,数据清理一般放在数据选择之后,可以减少数据清理量。数据集成在数据选择和数据清理之后,这样可以使数据集成时的数据量较小,提升处理效率。
将数据采集中更新到系统数据库中的信息通过数据集成录入到系统数据库内,再通过数据选择与数据清理进行筛选与清理;
数据集成:由数据采集模块收集到的数据包括应届毕业生的基本信息表、选课表、课程表、考勤表和就业信息表。其中选课表、课程表、学生基本信息表(学籍表)为数据库文件,就业信息表部分为电子表格。数据库文件采用ODBC添加到系统数据库中,由于每年的课程表基本相同,至多有少许新增课程,而新增课程的编号又是顺序添加的,因此只对课程表采取更新,即试图找到课程编号大于源表中最大编号的课程并添加。又如有的学生可能有重修课程,因此在学生选课表中会多次出现<学号-课程号>相同的元祖,只是选课时间有所不同。因此会删除若干元祖而只保留一条,删除原则是:若成绩是分类属性的(通过/未通过),则找到并保留成绩通过的元祖,否则保留选课日期最近的元祖;若成绩是量化属性的,则找到值最大的元祖并保留,而其余删除。
部分就业数据表为电子表格,采用编程逐条录入到系统数据库中。录入后需要进行数据选择和清理,按各对应表将分类属性的值转化为整数值。
数据选择:数据选择是从所有与业务对象有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据。例如:学生就业信息表、学籍表和学生选课表以学号键来连接,学生选课表和课程表以课程号来连接。学生选课表包括了该年所有毕业生的选课信息,而有一部分学生由于种种原因并未就业(如继续深造、延长学制、个人问题等),数据选择过程中可以剔除该部分数据。
收集到的数据有些为重复数据,如以前已经录入的学生信息又出现在本年度表中,因此需要检测学号、身份证号码,保证数据的正确性和唯一性。有些属性和挖掘并不相关(姓名,联系方式等),在数据集成的同时将无关的属性剔除,只保留挖掘所需的有关属性,即投影操作。由于学籍表、就业信息表格式相对固定,所以在系统中设置投影条件,无需用户设置。
数据清理:利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。数据清理主要处理数据的空缺和错误等问题,系统首先将明显的错误数据报告给用户。(如学历、职业资格超出集合范围等),由用户决定修改或放弃该条记录。
数据因产生的途径和过程不同,其表示也可能不同,特别是分类属性的值。例如在地域对应关系表中,将“东莞”对应为“沿海城市”,而采集到的数据中出现了“广东东莞”。显然“广东东莞”和“东莞”表示相同的内容,但作为字符串二者是不同的。在将分类属性值转换为整数值时,计算机很难正确地、智能地判断,因此需要将二者的值统一,如都为“东莞”。
数据采集模块和数据预处理模块定期执行,以半年为周期,收集毕业生在校内的信息和就业信息。
A30:数据抽样,系统数据库中积累了历届毕业生的信息后容量会大大增加,从大量数据中进行挖掘不仅需要大量的执行时间,而且也不能保证比从抽样数据集中挖掘得到更多的有效规则。该模块下包含以下功能:
选取样本功能:在用户接口提供所有属性,对某些属性设定过滤条件,并按这些条件在系统数据库中选择样本数据集。
基本区间划分:当得到抽样数据集之后,计算量化属性的基本区间数目,然后对每个属性按等深分箱划分区间,并将划分信息保存。
数据集的转化:抽样数据集中的每个学生记录按其取值转化为布尔型的位串,并保留在文件中。
以上3个子模块在系统的具体实现为:
选取样本功能:根据用户给出的过滤条件选择一部分有代表性的数据,以减少挖掘的时间和空间开销。系统给出了所有属性及其可能的值,供用户选择。
基本区间划分:根据用户给出的最小支持度m和部分完全性水平K,结合数据库中的数量属性数目n,计算划分区间的数目
Figure BDA0001945818920000071
然后按等深分箱的原则给数量属性的值划分区间,并将各区间对应由1开始的连续整数然后作记录。
数据集转化:将抽样数据转化为数据文件并保存在服务器,转化方法是首先将过滤后的各表连接。按学生就业信息表中的学号查找其他表中的对应学号,选课表中该学号对应的所有课程均作为属性,就业信息表和基本信息表中的属性保持不变。对每一学号生成一个位串B=B1,B2,B3,..,Bn,Bi为B的子串,Bi=b1,b2,..,bk(bk∈{0,1})。每个子串Bi对应一个属性,Bi分配的位数k取决于改属性的区间或归类的数目,即k=Num。若改属性在这个元祖中的取值所对应的整数位j,该k位子串的第j位为1,其他位则均为0。同时将分配信息保存为树形结构。
数据挖掘:
由基本分区产生所有的频集:基于Apriori算法,由位操作进行支持度的计数,找出所有频集。
由频集产生规则:根据规则产生的原则由频集得到规则。
具体实现方式如下:
采用项集表示数据结构,该结构包括一个字符串数据段、两个位串数据段、一个整数数据段和一个该节点类型的指针段。其中字符串数据段用字符记录为i-项集,整型数据段记录支持的元祖数目,指针段指向下一节点,布尔数据段标志该项集是否具有合并空间。位串数据段与表示学生信息的位串有相同的结构,在Bits位串中,项集所涉及到的所有项的对应的位置为1,其余为0;而在Mask中,项集所涉及到的所有属性的对应子串全部置为1,非涉及的属性的对应位为0。
1-频集的产生:本过程分为两部分:1、支持度计算,对分类属性的每个归类(如地域)或分类(如性别)计算支持度,若大于最小支持度则将该归类/分类及其支持度加入指针数组。2、对量化属性的分区进行合并。合并的原则是:任取频集链表中的两个节点I1和I2,比较其字符串数组数据段,若为同一属性的不同区间,且区间相邻,则计算c=I1.count+I2.count,若c/n<1/R,则在链表中加入新节点I3,同时将属性名及合并后区间的范围写入字符串数组数据段。所以合并完成后将所有不满足最小支持度的区间删除。
K-频集的产生:得到1-频集及其支持度后我们采用Apriori的核心算法产生K-频集。该算法分为连接步和剪枝步,连接步用于产生候选项集,剪枝步则计算这项项集的支持度以确定是否为频集。
S40:规则生成:得到所有的频集及其支持度后,我们就可以生成规则。若A为频集,且
Figure BDA0001945818920000091
C=A-B,则可以得到规则“B=>C”当且仅当confidence(B=>C)=support(A)/support(B)≥min_conf。
A40:规则生成,得到所有的频集及其支持度后,则生成规则;
业务分析模块:在数据样本抽取完成并经过预处理之后,接下来就需要针对具体的业务分析挖掘需求来进行数据挖掘应用。本发明实例中将就业数据质量分析按照七大体系进行挖掘模型的构建。即毕业生就业基本情况分析、就业环境与就业机会分析、就业去向分析、就业稳定和社会保障分析、劳动关系与就业安全、劳动报酬和就业公平、就业满意度七大业务挖掘分析模块。根据业务对模型进行解释和应用。
1、毕业生就业基本情况分析:该挖掘分析模块的模型构建是基于毕业学生的学籍信息以及就业信息。按照大类别分类、分层次的列举展示毕业生的人数分布及性别结构。下设毕业生总体规模,用于展示毕业生分布情况,包括:性别分布统计,学历分布统计,专业分布统计,生源地分布统计。
毕业生就业基本情况,根据云端备份的就业信息。计算产业分布比率、行业分布比率、单位性质分布比率。
例如根据学生的就业信息,计算从事岗位与所学专业的关联值。分析学生在选择企业时存在的问题。
2、就业环境与就业机会分析:就业率,就业人数是实际工作人数与升学、培训、参军、出国等之和,优质就业率(由学院推荐就业部门按毕业生与就业单位签订合同情况统计)就是优质就业人数除以实际工作人数x100%,对口就业率就是对口就业人数除以实际工作人数x100%,稳定就业率是稳定工作人数除以实际工作人数x100%,参保人数是购买社保人数除以实际工作人数x100%。罗列年终就业率较高的专业(前5名)和较低的专业(后5名),并分析原因。分学历层次分性别分专业罗列创业人数比例,罗列创业率较高的主要专业(前5名),分析毕业生专业与创业环境的关联问题。对口就业率分析:本实例在进行对口就业率分析是基于量化关联规则挖掘方法,找出学生的在校属性与就业属性之间的关联性。系统运行过程中,系统管理员可以对所有学院毕业生的就业信息数据进行分析,学院领导可以对其所在的学院毕业生的就业信息进行分析。在对就业信息进行分析时,用户可以根据自己需求对不同属性进行挖掘。
3、就业去向分析:毕业生毕业去向主要包括协议(合同)就业、升学、参军、创业和待就业。列出毕业生在第一、二、三产业和新兴产业就业人数占比。分析毕业生专业与产业的对应性。
4、就业稳定和社会保障分析:稳定就业指毕业生就业半年以上而且还在此单位工作状态,这种状态的人数就是稳定就业人数。(在从事一份工作半年以上而刚换了新工作视作为不稳定就业)。罗列签订就业合同人数及占比、购买社保数据及占比,比较签订合同与购买社保的数量,分析不购买社保及不签订合同的主要原因。
5、劳动关系与就业安全分析:罗列毕业生与用人单位发生劳动争议的例数、劳动争议处理案外调解例数及劳动争议处理案外调解占比,分析劳动争议主要涉及内容、发生的主要原因及劳动争议处理案外调解的情况。罗列工伤人数及占比,分析发生工伤事故的主要原因及处理情况(包括毕业生工作加班情况)。
6、劳动报酬和就业公平分析:罗列平均月薪较高的专业(前5名)和平均月薪较低的专业(后5名),并根据毕业生月平均收入与城镇单位人员月平均收入比率分析各专业毕业生在社会竞争的优劣情况。罗列离校未就业总人数,男女人数及离校未就业男女毕业生占比。分析未就业主要原因,包括身体情况、多次就业不成功及就业歧视等方面分析。
7、就业满意度分析:包括:学生对于对学校课程设置实用性的满意度,学生对学校就业创业指导的满意度,学生对学校就业推荐服务态度的满意度,学生对学校就业推荐的组织安排工作的满意度,学生对学校就业信息收集发布工作的满意度。毕业生就业满意度调查情况要分学历层次统计分析,例如:本数据从2018届毕业生总数中对3人进行了随机抽样调查填写《毕业生满意度调查表》。其中:中级班0人,高级班3人,预备技师班0人。进过统计汇总2018届毕业生总体满意度为80.00%。毕业率调查满意率=(满意+基本满意×0.8)/(满意+基本满意+不满意)×100%。
可视化管理模块包括以下步骤:
B10:用户登录,业务客户端用于根据用户输入的账号密码,启动可视化模块的用户操作界面,并向用户进行显示;在业务客户端的用户操作界面上,用户可以点击用户操作界面上的选项进行相应的操作,也可以根据用户操作界面的显示输入文字信息,还可以输入数据请求指令,以调用相应的资源数据。包括:学生信息资源数据和就业信息资源数据以及第三方数据。
B20:参数配置,参数配置选项,可以进行相应的参数配置等。通过点击操作界面上的功能按钮可以进行添加文字、添加图片、导出图片和更改系统设置等操作。添加图片可以包括添加系统的内部图片和外部图片两种模式。除此之外,还可以对系统区域图片显示的投影方式进行选择。比如通过下拉菜单可以选择亚尔伯斯和墨卡托两种投影方式。
B30:数据请求,除了在本地输入和调动资源数据之外,业务客户端还可以接收用户在用户操作界面输入的基础数据请求指令,生成基础数据请求信息,发送给基础数据服务器,以获取网络侧的资源。基础数据服务器调用的信息基础数据是基于数据属性中的时间信息选择最后更新的数据,发送给业务客户端。
B40:图表生成,生成图表以及动态图像,使用户更加直观清楚的了解信息。动态影像的开发采用HTML5+ReactJS+BootStrap的混合技术进行实施。
B50:信息发布,通过信息发布服务器将信息发布到用户客户端,就可以将业务客户端生成的数据可视化图像显示信息对广大用户进行发布,使得广大用户都可以方便直观的查看到可视化的就业质量分析图表与报告。
以上B10为数据可视化管理,B20~B40为PC端报告生成,B50为移动端报告生成。
本模块提供的就业数据可视化模块,根据用户的具体需求,基于数据图形化解析算法,通过操作便捷的图形化界面,可快速完成各种参数的配置、定义和数据调用,使用该模块生成可视化图像的速度大大提升。
一种数据挖掘方法,包括如下步骤:
步骤1:数据采集。结构化数据包括与Mysql同构的数据库和异构的数据库;半结构化数据文件通过FTP、HTTP传输,这些数据根据其特点提取公共部分、舍去不定部分而结构化。系统定期将数据库文件(招生管理系统、学籍管理系统、就业管理系统、教务管理系统)、电子表格(学籍信息、学生实习信息、学生就业信息)中的数据更新到系统数据库。数据的采集采用网络将原数据保存到云数据库服务器。
步骤2:数据选择与预处理。数据选择是从所有与业务对象有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据。例如:学生就业信息表、学籍表和学生选课表以学号键来连接,学生选课表和课程表以课程号来连接。学生选课表包括了该年所有毕业生的选课信息,而有一部分学生由于种种原因并未就业(如继续深造、延长学制、个人问题等),数据选择过程中可以剔除该部分数据。
步骤3:业务分析应用。在数据样本抽取完成并经过预处理之后,接下来就需要针对具体的业务分析挖掘需求来进行数据挖掘应用。
一种数据可视化管理模块,步骤包括:
步骤1:用户登录,用于获取用户信息,判断权限与角色。
步骤2:数据请求与图像生成。
步骤3:信息发布。
以上所述并非对本发明的技术范围作任何限制,凡依据本发明技术实质对以上的实施例所作的任何修改、等同变化与修饰,均仍属于本发明的技术方案的范围内。

Claims (6)

1.一种就业数据分析与数据挖掘分析的平台系统,其特征在于:包括数据挖掘模块、业务分析模块和可视化管理模块;
数据挖掘模块用于执行以下步骤:
A10:数据采集,定期将数据库文件和电子表格更新到系统数据库;
A20:数据预处理,将数据采集中更新到系统数据库中的信息通过数据集成录入到系统数据库内,再通过数据选择与数据清理进行筛选与清理;
A30:数据抽样,通过选取样本功能筛选出具有代表性的数据,然后计算量化属性的基本区间数目,然后对每个属性按等深分箱划分区间,并将划分信息保存,再通过数据集的转化,将抽样数据集中的每个学生记录按其取值转化为布尔型的位串,并保留在文件中,最后通过数据挖掘找出所有频集;该数据抽样包含以下功能,
选取样本功能:系统在用户接口给出了所有属性及其可能的值,供用户选择,根据用户给出的过滤条件在系统数据库中选择一部分有代表性的数据作为样本数据集;
基本区间划分:根据用户给出的最小支持度m和部分完全性水平K,结合数据库中的数量属性数目n,计算量化属性的基本区间数目Num=2n/[m×(K-1)],然后按等深分箱的原则给数量属性的值划分区间,并将各区间对应由1开始的连续整数然后作记录;
数据集转化:将抽样数据转化为数据文件并保存在服务器,转化方法是首先将过滤后的各表连接,按学生就业信息表中的学号查找其他表中的对应学号,选课表中该学号对应的所有课程均作为属性,就业信息表和基本信息表中的属性保持不变,对每一学号生成一个位串B=B1,B2,B3,..,Bn,Bi为B的子串,Bi=b1,b2,..,bk(bk∈{0,1}),每个子串Bi对应一个属性,Bi分配的位数k取决于该属性的区间或归类的数目,即k=Num,若该属性在这个元组中的取值所对应的整数位j,该k位子串的第j位为1,其他位则均为0,同时将分配信息保存为树形结构;
数据挖掘:采用项集表示数据结构,该结构包括一个字符串数据段、两个位串数据段、一个整数数据段和一个该节点类型的指针段,其中字符串数据段用字符记录为i-项集,整数数据段记录支持的元组数目,指针段指向下一节点,布尔数据段标志该项集是否具有合并空间,位串数据段与表示学生信息的位串有相同的结构,在Bits位串中,项集所涉及到的所有项的对应的位置为1,其余为0;而在Mask中,项集所涉及到的所有属性的对应子串全部置为1,非涉及的属性的对应位为0;1-频集的产生:本过程分为两部分:1、支持度计算,对分类属性的每个归类或分类计算支持度,若大于最小支持度则将该归类或分类及其支持度加入指针数组;2、对量化属性的分区进行合并,合并的原则是:任取频集链表中的两个节点I1和I2,比较其字符串数组数据段,若为同一属性的不同区间,且区间相邻,则计算c=I1.count+I2.count,若c/n<1/R,则在链表中加入新节点I3,同时将属性名及合并后区间的范围写入字符串数组数据段;所有合并完成后将所有不满足最小支持度的区间删除;K-频集的产生:得到1-频集及其支持度后采用Apriori的核心算法产生K-频集,该算法分为连接步和剪枝步,连接步用于产生候选项集,剪枝步则计算这项项集的支持度以确定是否为频集;
A40:规则生成,得到所有的频集及其支持度后,则生成规则,具体为,若A为频集,且
Figure FDA0002816650490000021
C=A-B,则得到规则“B=>C”当且仅当confidence(B=>C)=support(A)/support(B)≥min_conf;
业务分析模块:数据挖掘模块处理完成后,接下来就需要针对具体的业务分析挖掘需求来进行数据挖掘应用;根据业务对模型进行解释和应用;
可视化管理模块包括以下模块:
B10:用户登录模块,启动可视化模块的用户操作界面,并向用户进行显示;
B20:参数配置模块,设置参数配置选项;
B30:数据请求模块,除了在本地输入和调动资源数据之外,业务客户端接收用户在用户操作界面输入的基础数据请求指令,生成基础数据请求信息,发送给基础数据服务器,以获取网络侧的资源;
B40:图表生成模块,生成图表以及动态图像:
B50:信息发布模块,通过信息发布服务器将信息发布到用户客户端。
2.根据权利要求1所述的一种就业数据分析与数据挖掘分析的平台系统,其特征在于:模块A10中,数据采集覆盖结构化数据、半结构化数据;结构化数据包括与Mysql同构的数据库和异构的数据库;半结构化数据文件通过FTP、HTTP传输。
3.根据权利要求1所述的一种就业数据分析与数据挖掘分析的平台系统,其特征在于:模块A20中,数据库文件采用ODBC添加到系统数据库中;电子表格采用编程逐条录入到系统数据库中;数据选择是从所有与业务对象有关的数据中选择适用于数据挖掘应用的数据,舍弃与数据挖掘无关的数据;数据清理是利用系统发现的错误和不一致的数据,用交互的方式来消除数据源中的噪声、孤立点数据,纠正数据中的不一致。
4.根据权利要求1所述的一种就业数据分析与数据挖掘分析的平台系统,其特征在于:所述业务分析模块中具体的业务分析包括:毕业生就业基本情况分析、就业环境与就业机会分析、就业去向分析、就业稳定和社会保障分析、劳动关系与就业安全、劳动报酬和就业公平、就业满意度。
5.根据权利要求1所述的一种就业数据分析与数据挖掘分析的平台系统,其特征在于:在模块B10中,在业务客户端的用户操作界面上,用户可以点击用户操作界面上的选项进行相应的操作,也可以根据用户操作界面的显示输入文字信息,还可以输入数据请求指令,以调用相应的资源数据;资源数据包括:学生信息资源数据和就业信息资源数据以及第三方数据。
6.根据权利要求1所述的一种就业数据分析与数据挖掘分析的平台系统,其特征在于:在模块B40中,动态影像的开发采用HTML5+ReactJS+BootStrap的混合技术进行实施。
CN201910035658.9A 2019-01-15 2019-01-15 一种就业数据分析与数据挖掘分析的平台系统 Active CN109784721B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910035658.9A CN109784721B (zh) 2019-01-15 2019-01-15 一种就业数据分析与数据挖掘分析的平台系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910035658.9A CN109784721B (zh) 2019-01-15 2019-01-15 一种就业数据分析与数据挖掘分析的平台系统

Publications (2)

Publication Number Publication Date
CN109784721A CN109784721A (zh) 2019-05-21
CN109784721B true CN109784721B (zh) 2021-01-26

Family

ID=66500527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910035658.9A Active CN109784721B (zh) 2019-01-15 2019-01-15 一种就业数据分析与数据挖掘分析的平台系统

Country Status (1)

Country Link
CN (1) CN109784721B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110322376A (zh) * 2019-06-20 2019-10-11 陈广锐 一种大学生就业数据分析方法、系统和电子设备
CN111382329A (zh) * 2020-02-17 2020-07-07 山东外事职业大学 一种用于大数据分析的数据挖掘方法及系统
CN111400367B (zh) * 2020-02-28 2023-12-29 金蝶蝶金云计算有限公司 业务报告生成方法、装置、计算机设备和存储介质
CN111475531A (zh) * 2020-04-12 2020-07-31 魏秋云 一种基于学生就业数据的信息分析系统
CN112508747A (zh) * 2020-11-22 2021-03-16 陈君 一种基于云计算的大学生就业登记数据计算方法
CN113359553A (zh) * 2021-06-04 2021-09-07 金保信社保卡科技有限公司 就业在线数据大屏系统
CN114500223B (zh) * 2022-01-21 2024-01-16 深圳日浩科技现代服务业有限公司 一种基于云应用的双组织管理系统及其方法
CN114663075B (zh) * 2022-05-25 2022-09-06 正方软件股份有限公司 时间冲突检测方法、装置、存储介质和电子设备

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070143A (en) * 1997-12-05 2000-05-30 Lucent Technologies Inc. System and method for analyzing work requirements and linking human resource products to jobs
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN106469168A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据集成系统中多类型数据处理的方法及装置
CN106650228A (zh) * 2016-11-08 2017-05-10 浙江理工大学 改进k‑means算法的噪声数据去除方法及实施系统
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法
CN107818268A (zh) * 2017-11-15 2018-03-20 中国联合网络通信集团有限公司 大数据平台的访问控制方法及服务器
CN108021984A (zh) * 2016-11-01 2018-05-11 第四范式(北京)技术有限公司 确定机器学习样本的特征重要性的方法及系统
CN108022654A (zh) * 2017-12-20 2018-05-11 深圳先进技术研究院 一种基于隐私保护的关联规则挖掘方法、系统及电子设备
CN108090787A (zh) * 2017-12-18 2018-05-29 北京工业大学 一种基于Apriori算法的话单数据深度挖掘和用户行为预测的方法
CN108763398A (zh) * 2018-05-22 2018-11-06 腾讯科技(深圳)有限公司 数据库配置参数处理方法、装置、计算机设备和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU631276B2 (en) * 1989-12-22 1992-11-19 Bull Hn Information Systems Inc. Name resolution in a directory database
CN106934014B (zh) * 2017-03-10 2021-03-19 山东省科学院情报研究所 一种基于Hadoop的网络数据挖掘与分析平台及其方法
CN109165817A (zh) * 2018-07-28 2019-01-08 安徽赛迪信息技术有限公司 一种数据挖掘分析系统

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6070143A (en) * 1997-12-05 2000-05-30 Lucent Technologies Inc. System and method for analyzing work requirements and linking human resource products to jobs
CN104537067A (zh) * 2014-12-30 2015-04-22 广东电网有限责任公司信息中心 一种基于k-means聚类的分箱方法
CN106469168A (zh) * 2015-08-19 2017-03-01 阿里巴巴集团控股有限公司 数据集成系统中多类型数据处理的方法及装置
CN105740335A (zh) * 2016-01-22 2016-07-06 山东合天智汇信息技术有限公司 一种基于titan的企业信息分析平台及其构建方法
CN106294805A (zh) * 2016-08-15 2017-01-04 成都九鼎瑞信科技股份有限公司 数据处理方法及装置
CN106372185A (zh) * 2016-08-31 2017-02-01 广东京奥信息科技有限公司 一种异构数据源的数据预处理方法
CN108021984A (zh) * 2016-11-01 2018-05-11 第四范式(北京)技术有限公司 确定机器学习样本的特征重要性的方法及系统
CN106650228A (zh) * 2016-11-08 2017-05-10 浙江理工大学 改进k‑means算法的噪声数据去除方法及实施系统
CN107239892A (zh) * 2017-05-26 2017-10-10 山东省科学院情报研究所 基于大数据的区域人才供需平衡量化分析方法
CN107463665A (zh) * 2017-08-01 2017-12-12 广东云下汇金科技有限公司 一种数据关联规则挖掘算法
CN107818268A (zh) * 2017-11-15 2018-03-20 中国联合网络通信集团有限公司 大数据平台的访问控制方法及服务器
CN108090787A (zh) * 2017-12-18 2018-05-29 北京工业大学 一种基于Apriori算法的话单数据深度挖掘和用户行为预测的方法
CN108022654A (zh) * 2017-12-20 2018-05-11 深圳先进技术研究院 一种基于隐私保护的关联规则挖掘方法、系统及电子设备
CN108763398A (zh) * 2018-05-22 2018-11-06 腾讯科技(深圳)有限公司 数据库配置参数处理方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN109784721A (zh) 2019-05-21

Similar Documents

Publication Publication Date Title
CN109784721B (zh) 一种就业数据分析与数据挖掘分析的平台系统
US7752094B2 (en) Tax scorecard reporting system
US20170140320A1 (en) System and methods for analyzing business data
US20030018605A1 (en) System and method for an education decision support library
US10025817B2 (en) Business information service tool
CN114003586A (zh) 一种智慧教育大数据平台建设方法
CN110727852A (zh) 一种推送招聘推荐服务的方法、装置及终端
CN113592680A (zh) 基于区域级教育大数据的服务平台
CN113722301A (zh) 基于教育信息的大数据处理方法、装置及系统、存储介质
US20190079994A1 (en) Automatic feature profiling and anomaly detection
CN114860737B (zh) 教研数据的处理方法、装置、设备及介质
Dumpawar Open government data intermediaries: Mediating data to drive changes in the built environment
Shayakhmetova et al. Descriptive big data analytics in the field of education
Georgieva et al. Tendencies in Software Engineering Education
Navarro Development of an alumni databank: the case of Nueva Ecija university of science and technology
Cabanban-Casem Analytical visualization of higher education institutions' big data for decision making
Daras et al. Conceptual Framework for SDSS Development with an Application in the Retail Industry
Lehto et al. Analyzing Business Process Changes Using Influence Analysis.
RU2744625C1 (ru) Способ формирования отчетов по базовым показателям системы отображения показателей предприятия
CN112416914B (zh) 一种基于大数据分析的困难学生认定及预警方法及系统
Azuar et al. Interactive Dashboard For Tracking System Dashboard Using Power Bi
Xiao Educational Information Recommendation System for College Design Based on Apriori Algorithm
RU2356092C1 (ru) Система обработки документов
Slomczynski et al. On the Future of Survey Data Harmonization
Munawar et al. Developing Business Intelligence Model in Creative Craft Industry To Support Acceleration of the Craft Exporter Industry In West Java

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 201, Building No. 16, Science and Technology Fourth Road, Songshan Lake Park, Dongguan City, Guangdong Province

Applicant after: Guangdong Ducaizi Group Co., Ltd.

Address before: Room 201-03, Room 201-05A, Building 6, No. 4 Libin Road, Songkeyuan, Songshan Lake Hi-tech Industrial Development Zone, Dongguan City, Guangdong Province

Applicant before: Dongguan Youcai Network Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant