CN108052560A

CN108052560A - 一种基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法

Info

Publication number: CN108052560A
Application number: CN201711257697.0A
Authority: CN
Inventors: 李兆飞; 熊兴中; 汤勇
Original assignee: Sichuan University of Science and Engineering
Current assignee: Sichuan University of Science and Engineering
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-18
Anticipated expiration: 2037-12-04
Also published as: CN108052560B

Abstract

本发明提供了一种基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法，通过比较特征的统计分布来描述为分析类别的特性；由统计频域分布间的欧式距离得到分析类别间的对称欧式距离矩阵；根据所述对称欧式距离矩阵进行可视化聚类比较及分析。能够使用统计特征分布间的标准欧式离进行量化计算得到对称相似距离矩阵并由邻接生成树的形式呈现，使统计特征可以实现直观明了的可视化表征，解决了相关机构和负责人进行决策处理困难的问题，并且具有快速和鲁棒分析的特点。

Description

一种基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法

技术领域

本发明涉及一种基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法，特别是涉及一种适用于大数据分析领域的基于高校数据的数据分析处理方法及就业趋势数据的数据分析处理方法。

背景技术

随着20世纪90年代末中国高等教育实行扩招政策以来，全国高等院校毕业生数量持续增长及毕业生整体素质和能力的下降，再加上社会就业岗位需求量相对不足，毕业生就业难的问题越来越突出，导致毕业生就业形势越来越严峻。各省同全国一样，高等院校毕业生数量保持高位，有效岗位需求相对不足，毕业生教育结构、就业观念与市场需求脱节的结构性矛盾仍然突出，毕业生就业工作面临极大压力。高等院校毕业生的就业情况是国家及地方各级主管部门、学校和社会都非常关心的问题，毕业生的就业率、就业行业和就业地区等就业情况是重要的被关注指标。

此外，大数据市场和相关技术，构成了快速增长的数十亿的业务，为工业和社会层面提供了重要的机会。大数据往往被称作“新的石油”，作为“大的”和“公开的”数据能充分提高GDP的前景。2010年，利润丰厚的软件产业价值超过1000亿美元，并且过去每年增长接近10％：大约是整个软件业务的2倍。预计到2020将有超过16个泽字节(16MGB)的有用数据，这意味着从2013到2020的年增长率为236％。尽管中国对不断增长的数据量已经做了巨大的努力，但是，在采用大数据技术和服务方面仍然落后于北美，处于早期阶段。

而高等院校毕业生信息数据库涵盖了高等教育环境的各个方面，包括：学籍信息，就业信息，派遣信息及报到证信息等，特别是该数据库包括大学毕业生的主要学科、生源所在地、困难生类别、政治面貌、签往单位所在地和就业状况等方面的信息。提供了对教育系统目前状况的一个意义深远的观察，通过对其分析，可以帮助解决许多问题和预测复杂的社会经济系统发展的未来趋势：可以深刻的洞察高等教育系统当前事务的状态；可以为高等院校及教育主管部门的综合表现进行定量多标准比较；并可以改进和完善现有的大学排名方案，并就政府层面为教育体制的进一步发展及战略决策奠定坚实的基础；最终，为教育主管部门的进一步发展和今后可能开展的工作提供建议。

近年来，随着人工智能技术和数据库技术的发展，如何从这些模糊、有噪声、不完全、随机、人们事先所不知道、有潜在有用信息的成倍增长的“大数据”中获取知识的一个过程即为数据挖掘技术。而毕业生就业数据隐藏大量的有用信息，管理及合理利用好这些数据，指导我们的专业建设和有针对性的课程改革，是急需解决的问题。

但是，目前用于高等院校毕业生就业趋势分析系统的数据处理方法基本是使用简单的SQL查询语言进行数据库查询及基本的数据统计方法，这种基于图表的方法虽然便于对大学进行直接比较，但并没有提供高等教育系统的综合情况，其分析方法和呈现方式单一。因此，为了使各级教育管理部门更好的组织和运作，为高等院校毕业生更好的适应新的市场需求，为满足对高校毕业生就业趋势分析系统数据库的几十万，几百万，甚至上亿条多样化和异构的毕业生信息数据进行挖掘分析及呈现的需求，必须有一种先进并有效的多样化和异构数据的毕业生升学就业趋势分析系统数据处理方法。

发明内容

本发明要解决的技术问题是克服现有高等院校数据分析使用简单的SQl查询语言进行数据库统计处理技术对不同度量和非度量的巨大、结构异构的阵列数据，其分析方式和数据呈现方式单一的不足，提供一种能够进行定量计算、多标准比较的基于高校数据的数据分析处理方法，及就业趋势数据的数据分析处理方法。

本发明采用的技术方案如下：

一种基于高校数据的数据分析处理方法，具体方法步骤为：

A、通过比较特征的统计分布来描述为分析类别的特性；

B、由统计频域分布间的欧式距离得到分析类别间的对称欧式距离矩阵；

C、根据所述对称欧式距离矩阵得出聚类比较及分析的可视化表征；

其中，步骤A包括：

A1、选择分析类别及其比较特征；

A2、根据分析类别及其比较特征，通过SQL查询语言或基本数据统计方法，得出关于比较特征的概率分布；

步骤B包括：

B1、对所述概率分布进行离散傅里叶变换，得到分析类别的统计频域分布；

B2、通过基本欧式距离公式，得到分析类别间的对称欧式距离矩阵；

所述分析类别为进行欧式距离比较的分类；所述比较特征是根据分析类比的特性及需求所选择的比较特征。

所述步骤C中，所述可视化表征为邻接法NJ(包括无根树、有根树和辐射树等)、非加权平均法UPGMA或Fitch-Margoliash方法可视化表征。

所述傅里叶变换为快速傅里叶变换。

一种就业趋势数据的数据分析处理方法，具体方法步骤为：

a、通过就业特性比较特征的统计分布来描述为不同院校分析类别的特性；

其中，步骤a包括：

a1、选择不同院校分析类别及其就业特性比较特征；

a2、根据不同院校分析类别及其就业特性比较特征，通过SQL查询语言或基本数据统计方法，得出关于比较特征的概率分布；

步骤b包括：

b1、对所述概率分布进行离散傅里叶变换，得到不同院校分析类别的统计频域分布；

所述不同院校分析类别为进行欧式距离比较的分类；所述就业特征比较特征是根据需要设定的能代表某种就业趋势分析的比较特征。

所述就业特性比较特征为毕业去向、就业地域、就业单位行业、就业单位职位或就业单位性质。

所述傅里叶变换为快速傅里叶变换。

与现有技术相比，本发明的有益效果是：能够使用统计特征分布间的标准欧式离进行量化计算得到对称相似距离矩阵并由邻接生成树的形式呈现，使统计特征可以实现直观明了的可视化表征，解决了相关机构和负责人进行决策处理困难的问题，并且具有快速和鲁棒分析的特点。

附图说明

图1为本发明其中一实施例的用于高等院校毕业生就业趋势分析的数据处理算法流程示意图。

图2为本发明其中一实施例的部分院校毕业生就业单位行业可能的最终等级分布图。

图3为本发明其中一实施例的文本值(状态)与为分析类别之间的精确图形结构关系示意图。

图4为采用邻接树对高等院校就业行业比较特征的可视化聚类结果示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本说明书(包括摘要和附图)中公开的任一特征，除非特别叙述，均可被其他等效或者具有类似目的的替代特征加以替换。即，除非特别叙述，每个特征只是一系列等效或类似特征中的一个例子而已。

具体实施例1

一种基于高校数据的数据分析处理方法，具体方法步骤为：

A、通过比较特征的离散分布统计分布来描述为分析类别的特性；

B、由统计频域分布间的欧式距离得到分析类别间的对称距离矩阵；

C、根据所述对称距离矩阵得出聚类比较及分析的可视化表征；

其中，步骤A包括：

A1、选择分析类别及其比较特征；

步骤B包括：

B2、通过基本欧式距离公式，得到分析类别间的对称距离矩阵；

本发明对不同度量和非度量的巨大和结构异构的阵列统计数据通过引入离散分布来合理表征高等院校之间的欧式距离，基于相应分布的大学院校之间的欧式距离矩阵，能够进一步采用各种聚类分析技术进行定量多标准比较和分析。通过比较特征的离散概率统计分布来描述分析类别的特性，定量多标准进行分析类别的比较(由被观测特征的统计频率分布间的Wasserstein距离进行量化计算)，最后，通过比较特征可视化形式进行可视化表征(关于所选择的重要特征对大学进行聚类分析)。

引入离散分布可以合理表征为分析类别之间距离，但该方法的主要问题是数据库中特定状态的文本数据不构成度量空间，因此直接使用标准概率度量作为图之间距离的方法是不可取的。因此，本发明把离散分布图看作是由图表示的信号，形成了对非度量结构数据集进行快速傅立叶变换的分析技术，使其可以用于不同的计算平台且易于实现。最终，对欧式距离(相似距离)矩阵进行聚类比较及分析，其数据分析效果必将优于单纯用SQL语言进行数据库查询并通过图表呈现的方式，是一种先进并有效的方法。该方法能够实现对中国高等教育系统数百万大学毕业生大规模的数据研究分析，它也可用于经济、社会保障、卫生保健系统等各种统计数据库的快速和鲁棒分析。

对于步骤A，由于图表是一种极好的工具，可以直观地比较不同学校的产品成果和其他重要特征，因此，一种邻接树呈现高等院校毕业生就业趋势统计特征的分析模型构建中，高等院校统计特征选择的是高等院校信息数据库文本条目列或字段，每个列或字段中的每个记录可以只需要几个文本值来表示。对分析的类别(如大学或高校)的每一文本值，我们考虑每个相关的比较特征都是随机变量，其可能的文本值(状态)有多种，则对分析的类，其概率分布有多种情况。离散概率分布由随机变量的值及其相应的概率组成，通过图能被合理的体现。最终，从数据库中就可以直接计算为分析的类别(如“高等院校”)的文本值或状态的经验分布。这使我们的方法具有可伸缩性、实时性、跨平台性，允许我们与潜在的数据库(如包括数十亿个人信息的数据库)一起工作。

对于步骤B，把离散分布图看作是由图表示的信号，形成了对非度量结构数据集的分析技术。对图上定义的扩散过程的谱分析使我们能够基于自回避随机游动的第一通道时间方法定义结构化数据集上的度量。该框架扩展了Wasserstein度量的概念，Wasserstein度量被定义为两个概率分布在一个给定的度量空间的距离，如果是非度量空间则辅以图形结构进行定义。如果每一个分布被看作是在M上堆积的一个单位数量的“沙”，那么这样的度量就是随机行走者将一堆沙变成另一堆沙的最小“成本”(时间步长)。

由于描述可能的文本值(状态)为给定的类别之间的精确图形结构关系未知，我们假设它是一个完整的图。完全图上定义的信号的谱等价于离散傅立叶变换(DFT)，可以表示为DFT酉矩阵。离散傅立叶变换在很多领域都有广泛的应用，并且有著名的快速算法(快速傅立叶变换)有效的用于计算离散傅立叶变换。该发明中所提出的方法通过离散傅立叶变换计算分布之间的欧式距离，使其可以用于不同的计算平台且易于实现。

利用DFT，每个由图表示的信号(特别是直接从数据库中计算状态的分布)能被分解成频域中的傅里叶模式。分布的DFT可以看作是一个坐标变换，它只是简单的指定一个新坐标系中向量的分量，保持点积和向量范数。DFT的正交性对于我们的框架是最重要的，因为它允许使用两个向量之间的标准欧几里德距离作为Wasserstein度量。为了评估向量和编码的两个分布之间的欧式距离，在我们的框架中定义的欧式距离是分布矢量中的对齐位置的不匹配分数。该技术使得我们的方法具有统计鲁棒性，能够容忍部分不完整和伪造数据。

对于步骤C，由于采用DFT计算为分析类别单元(如院校)之间的距离，我们得到了描述每两个高等院校之间距离的一个对称的、实值的、零对角的矩阵。由此，可以使用邻接方法将一般数据聚类技术通过使用给定的距离作为一个聚类度量应用于序列分析。邻接算法其拓扑结构相当于一个星型网络，从一个完全不具备决断能力的树，通过连接最近的元素进行迭代直至树具有判断的功能，并且，树中所有分支的长度是已知的。在每一步的近邻连接贪婪地加入这对分类树，最大限度地减少生成的邻接树的长度(分支长度的总和，欧式距离矩阵中欧式距离的一个特殊加权和)，最终，生成一个接近最优的拓扑结构。该步骤中，采用邻接树算法对分析大型数据集(数百个或数千个分类单元)具有快速而实用的优点，并且有许多可用的程序实现该算法，使我们的方法在不同的计算平台可行且易于实现。也使我们的分析结果直观明了，便于相关负责人对为分析类别间的相似关系进行决策处理。

具体实施例2

在具体实施例1的基础上，所述步骤C中，所述可视化表征为邻接法NJ(包括无根树、有根树和辐射树等)、非加权平均法UPGMA或Fitch-Margoliash方法等可视化表征。在本具体实施例中，采用邻接树进行可视化表征。

具体实施例3

在具体实施例1或2的基础上，所述傅里叶变换为快速傅里叶变换。在本具体实施例中，为减少计算量，采用快速傅里叶变换。

具体实施例4

一种就业趋势数据的数据分析处理方法，具体方法步骤为：

其中，步骤a包括：

a1、选择不同院校分析类别及其就业特性比较特征；

步骤b包括：

高等院校毕业生就业趋势分析模型构建中，统计特征选择的是主要14个文本条目列或字段，每个列或字段中的每个记录可以只需要几个文本值来表示，例如，在列的“就业单位行业”，该值可以是(‘采矿业’、‘制造业’、‘建筑业’、……)。为了对各个高等院校(或任何其他纳税单位)进行定量多标准比较，我们构建了数据处理算法的流程图如图1所示。首先，选择一个“为分析类别”(也称为“类、分类”或者“被观测特征”，如“院校名称”)，而所有其他特征(如“专业”、“毕业生去向”和“工作单位类别”等，称为“比较特征”)都是随机变量；然后，计算每个为分析类别的离散概率分布(由随机变量的值及其相应的概率组成)并进行傅立叶变换(DFT)，再通过为分析类别的频域分布间的Wasserstein距离(本发明采用的是两个向量间的标准欧几里德距离)进行量化计算，得到为分析类别间的对称相似欧式距离矩阵；最终，用邻接生成树的方式对为分析类别通过被比较特征进行聚类分析，对高等教育系统的状态进行可视化表征。

所述步骤a中，统计特征选择的是高等院校毕业生信息数据库的主要14个文本条目列或字段，该步中选择的14个字段为：院校名称、性别、政治面貌、学历、专业、生源所在地、学制、师范生类别和困难生类别、毕业生去向、就业单位行业、就业单位性质和工作职位类别及签往单位所在地，每个列或字段中的每个记录可以只需要几个文本值来表示。对“分析的类别”(如“院校名称”)的每一个值，考虑每个相关的“比较特征”都是随机变量X，X作为一种可能的文本值(状态)为X₁，X₂，...，X_n，则对为分析的类别其概率分别为P(X₁)，P(X₂)，...，P(X_n)。离散概率分布由随机变量X的值及其相应的概率P(X)组成，通过图能被合理的体现。最终，从数据库中就可以直接统计为分析的类别(如“高等院校”)的文本值或状态的经验分布。例如，如果选择的类别是“院校”，选择比较的特征是“就业单位行业”，那么部分院校毕业生就业单位行业可能的最终等级分布图情况可能如图2所示，其中横坐标为分析类别，总坐标为概率。图2中，包括了“制造业”，“电力、热力燃气及水生产和供应业”，“建筑业”，“批发和零售业”，“交通运输、仓储和邮政业”，“住宿和餐饮业”，“信息传输、软件和信息技术服务业”，“金融业”，同样，可以进一步包括“农、林、牧、渔业”，“采矿业”，“房地产业”，“租赁和商务服务业”，“科学研究和技术服务业”，“水利、环境和公共设施管理业”，“居民服务、维修和其他服务业”，“教育”，“卫生和社会工作”，“文化、体育和娱乐业”，“公共管理、社会保障和社会组织”，“国际组织”，“军队”等就业单位行业。可以根据需求进行分类分析统计。

所述步骤b中，由于描述可能的文本值(状态)X₁，X₂，…，X_n为给定的类别之间的精确图形结构关系未知，该步骤中假设它是一个完整的图，如图3所示。完全图上定义的信号的谱等价于离散傅立叶变换(DFT)，如公式3-1所示，可以表示为酉DFT矩阵的形式。

利用DFT，每个信号y_k(特别是直接从数据库中计算状态的分布)能被分解成频域中的傅里叶模式Y_k。

其中，n＝0,1,...,N-1 (3-2)

在频域中傅立叶变换的振幅采用下式计算得到：

分布的DFT可以看作是一个坐标变换，它只是简单的指定一个新坐标系中向量的分量，保持点积和向量范数，DFT的正交性对于发明框架是最重要的，因为它允许使用两个向量之间的标准欧几里德距离，如公式3-4所示。

为了评估向量y和z编码后的两个分布之间的距离，该发明框架中定义的距离是分布矢量中的对齐位置的不匹配分数。

在步骤c中，该步骤中，我们使用邻接方法将一般数据聚类技术通过使用给定的距离作为一个聚类度量应用于序列分析。由于采用DFT计算为分析类别单元(如院校)之间的距离，我们得到了描述每两个高等院校之间距离的一个对称的、实值的、零对角的矩阵。由此构造一个系统进化树，将密切相关的类别(如院校)置于同一个内部节点，通过连接矩阵中欧式距离最近的类别进行迭代直至树具有判断的功能，其分支长度则紧密再现了相关类别之间的观察距离，分支(花穗)长度表明拟合优劣程度：分支越短，表明(和线性排序的距离矩阵)契合度越好；分支越长，拟合度越差。在每一步的近邻连接贪婪地加入这对分类树，最大限度地减少生成的邻接树的长度(分支长度的总和，距离矩阵中距离的一个特殊加权和)，最终，生成一个接近最优的拓扑结构。

具体实施例5

在具体实施例4的基础上，所述步骤c中，所述可视化表征为邻接法NJ(包括无根树、有根树和辐射树等)、非加权平均法UPGMA或Fitch-Margoliash方法等可视化表征。图4(由于图示原因，作为示意图只给出了部分院校的代码)是采用邻接树对120所高等院校就业行业比较特征的可视化聚类结果，在图中“灯泡”(出现很多分支集中在一起的区域)表示高等院校集团，这些高等院校相对于所选择的特征而言较相似，很难区分它们的优劣，并且可能没有以最优的连接数结构表示。

具体实施例6

在具体实施例4或5的基础上，所述就业特性比较特征为毕业去向、就业地域、就业单位行业、就业单位职位或就业单位性质。

具体实施例7

在具体实施例4到6之一的基础上，所述傅里叶变换为快速傅里叶变换。在本具体实施例中，为减少计算量，采用快速傅里叶变换。

Claims

1.一种基于高校数据的数据分析处理方法，具体方法步骤为：

A、通过比较特征的统计分布来描述为分析类别的特性；

其中，步骤A包括：

A1、选择分析类别及其比较特征；

步骤B包括：

2.根据权利要求1所述的基于高校数据的数据分析处理方法，所述步骤C中，所述可视化表征为邻接法NJ、非加权平均法UPGMA或Fitch-Margoliash方法可视化表征。

3.根据权利要求1或2所述的基于高校数据的数据分析处理方法，所述傅里叶变换为快速傅里叶变换。

4.一种就业趋势数据的数据分析处理方法，具体方法步骤为：

其中，步骤a包括：

a1、选择不同院校分析类别及其就业特性比较特征；

步骤b包括：

5.根据权利要求4所述的就业趋势数据的数据分析处理方法，所述步骤c中，所述可视化表征为邻接法NJ、非加权平均法UPGMA或Fitch-Margoliash方法可视化表征。

6.根据权利要求4或5所述的就业趋势数据的数据分析处理方法，所述就业特性比较特征为毕业去向、就业地域、就业单位行业、就业单位职位或就业单位性质。

7.根据权利要求4所述的就业趋势数据的数据分析处理方法，所述傅里叶变换为快速傅里叶变换。