CN112861530A

CN112861530A - 一种基于文本挖掘的课程设置分析方法

Info

Publication number: CN112861530A
Application number: CN202110287512.0A
Authority: CN
Inventors: 张建桃; 曾莉; 韦婷婷; 江涛; 张大斌; 凌立文; 毛小娟
Original assignee: South China Agricultural University
Current assignee: South China Agricultural University
Priority date: 2021-03-17
Filing date: 2021-03-17
Publication date: 2021-05-28

Abstract

本发明公开了一种基于文本挖掘的课程设置分析方法，该方法包括：根据确定的数据搜索关键词，从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据；对采集的招聘要求数据进行预处理操作；提取招聘要求数据中的知识点，并构建知识词库；对知识词库中的知识点进行聚类分析，并将分类后的知识点归类到课程，获得就业市场对该专业的课程需求。本发明利用文本挖掘技术获取就业市场对人才的知识要求，通过课程归类得到课程需求，无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议，能在各个专业领域进行快速应用推广，为高校课程设置的优化和改进提供决策支持。

Description

一种基于文本挖掘的课程设置分析方法

技术领域

本发明涉及课程设置分析领域，特别是涉及一种基于文本挖掘的课程设置分析方法。

背景技术

目前我国高等教育正处于内涵发展、质量提升、改革攻坚的关键时期和全面提高人才培养质量、建设高等教育强国的关键阶段。课程设置是人才培养的重要环节，能够直接影响人才培养的质量。然而，当前高校的课程设置仍存在许多的不足，其中设置的课程不能很好的匹配就业市场需求的问题最为明显，以致于培养出来的专业人才无法适应行业发展的趋势和满足社会发展的需求，因此如何优化和改善高校的课程设置，使培养的人才更加符合就业市场的需求是一个重要的研究课题。

通过对文献的查阅与整理发现，目前人才的就业市场需求主要是通过统计调查、问卷调查、企业走访等传统的调研方式获得，样本数据较少，且需要耗费较多的时间和人力。文本挖掘是一种能从非结构化文本数据中提取有意义信息的技术。文本挖掘通过使用自然语言和文档处理技术提取上下文和含义，相比于传统的调研方式，能够快速、高效、智能化的获取更多潜在价值信息。据艾瑞网发布的《2020年中国网络招聘行业市场发展研究报告》，2019年网络招聘企业雇主数量已经达486.6万家，网络招聘已成为企业招聘的主要方式，采用文本挖掘技术挖掘网络招聘需求是获取就业市场需求是一个可行的途径。

发明内容

本发明的目的在于提供一种基于本文挖掘的课程设置分析方法，通过获取招聘网站中的招聘数据，分析就业市场对人才知识方面的要求，获得就业市场对该专业的课程需求，从而为高校的课程设置提供决策支持。

为实现上述目的，本发明所采用的技术方案是：

一种基于文本挖掘的课程设置分析方法，包括以下步骤：

步骤1：数据采集，根据确定的数据搜索关键词，从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据；

步骤2：数据预处理，对采集的招聘要求数据进行预处理操作；

步骤3：知识点提取，提取招聘要求数据中的知识点，并构建知识词库；

步骤4：课程归类，对知识词库中的知识点进行聚类分析，并将分类后的知识点归类到课程，获得就业市场对该专业的课程需求。

优选的，所述的数据采集包括以下子步骤：

步骤1.1：制定采集规则，选定数据采集的招聘网站，确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等；

步骤1.2：网络爬虫，根据制定的数据采集规则，通过网络爬虫技术爬取招聘网站中的招聘数据；

步骤1.3：采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。

优选的，所述的数据预处理包括以下子步骤：

步骤2.1：数据清洗，对采集的数据进行数据清洗，清除数据中的空值、重复值、异常范值、HTML标签等数据噪声；

步骤2.1：构建自定义分词词典和停用词库，分词词典中包含研究专业领域的知识点词语，停用词库中包含无研究意义的词语；

步骤2.1：分词和去停用词，调用构建的自定义分词词典和停用词库，并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。

优选的，所述的知识点提取包括以下子步骤：

步骤3.1：计算ASI值，将研究专业的就业要求数据作为目标集(target set，TS)，非研究专业的就业要求数据作为辅助集(auxilary se，AS)，计算目标集中每个词语ω_i的辅助集重要性(auxiliary setbased importance，ASI)值，计算公式如下：

式中：df(ω_i,TS)为目标集中包含ω_i的文本数；df(ω_i,AS)为辅助集中包含ω_i的文本数；|TS|为目标集中文本的总数；|AS|为辅助集中文本的总数；

步骤3.2：提取知识点，根据ASI值的大小来提取知识点，ASI值越大，该词为知识点的概率越大。

步骤3.3：构建知识词库，把提取的知识点放入知识词库中。

优选的，所述的课程归类包括以下子步骤：

步骤4.1：明确各门课程的知识点，对研究专业的课程门类及每门课程涵盖的知识点进行明确；

步骤4.2：知识词库K-means聚类，使用K-means聚类算法对知识词库中的知识点进行聚类分析，K-means算法以样本与质点平方误差和(SSE)的最小值作为目标函数，计算公式如下：

式中：K为聚类数，K的值通过肘部法则(Elbow Method)确定；C_i为第i个簇；c_i为C_i的质心；x为C_i中的知识点样本；N_i为C_i中的样本数；

步骤4.3：知识点课程归类，参照已明确的各门课程知识点，将实现K-means聚类后的每一类知识点归类到大致所属的课程，进而获得就业市场对该专业的课程需求。

本发明的有效收益在于：利用文本挖掘技术获取就业市场对人才的知识要求，通过课程归类得到课程需求，无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议，能在各个专业领域进行快速应用推广，为高校课程设置的优化和改进提供决策支持。

附图说明

图1为本发明基于文本挖掘的课程设置分析方法流程图。

图2为本发明肘部法则确定K值函数曲线图。

具体实施方法

为了对本发明的技术特征、目的和效果有更加清楚的理解，以下结合附图及实施例，对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案，并不限于本发明。

本实施以工业工程专业的工程管理方向为例，如图1所示，本发明提供的一种基于文本挖掘的课程设置分析方法，该方法包括以下步骤：

步骤1：数据采集，将工程管理方向的热门岗位“工业工程师”作为工业工程专业的搜索关键词，将“会计”作为非工业工程专业的搜索关键词，采用网络爬虫技术，从前程无忧(https://www.51job.com)招聘网站中采集岗位的招聘要求数据。

步骤2：数据预处理，对采集到的工业工程专业与非工业工程专业的招聘数据进行清洗处理，删除数据中的乱码数据和无法进行中文文本处理的英文数据，去除缺失值和重复行。为了提高知识点提取的精确度，构建自定义的分词词典和停用词库，并结合Python中的Jieba分词程序包和哈工大停用词表，对招聘数据进行分词和去停用词处理。

步骤3：知识点提取，将工业工程专业的就业要求数据作为目标集，非工业工程专业的就业要求数据作为辅助集，计算目标集中每个词语的ASI值并根据值大小对词语由大到小进行排序，前20个词语及其ASI值如表1所示。

表1前20个词语及其ASI值

ASI值越大，该词为知识点的概率越大，提取ASI值排在前500的词语作为知识点并构建工业工程专业工程管理方向的知识点词库。

步骤4：课程归类，首先对工业工程专业的课程门类及每门课程涵盖的知识点进行明确，使用K-means聚类算法对知识词库中的知识点进行聚类，知识点的聚类数K通过肘部法则(Elbow Method)确定：计算出不同K值的目标函数值，随着K值的增大，目标函数曲线的畸变程度会不断改变，畸变程度表示每个簇的质点与簇内样本点的平方距离误差和，当目标函数曲线出现“肘”点(即拐点)时，该点即为最佳K值。如图2所示，通过肘部法则(ElbowMethod)求得最佳的聚类数K＝6。参照已明确的各门课程知识点，将实现K-means聚类后的每一类知识点归类到大致所属的课程，进而获得就业市场对该专业的课程需求。

聚类的结果及每类知识要求的5个知识点如表2所示：工程管理方向岗位的知识要求分为了6类，可大致归为质量管理、机械设计、设施规划、先进制造技术、工程制图和基础工业工程的课程知识点，由此可知，从事该方向的岗位需要学习质量管理、机械设计、设施规划、先进制造技术、工程制图及基础工业工程这6门课程。

表2知识要求及知识点的课程归类

使用本发明基于文本挖掘的课程设置分析方法，可以得到就业市场对工业工程专业工程管理方向人才的知识要求，并将通过知识点聚类获得就业市场对该专业的课程需求，可以为高校设置该就业方向的课程提供决策支持。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

以上所述的本发明的实施方式，并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等，均应包含在本发明的权利要求保护范围之内。

Claims

1.一种基于文本挖掘的课程设置分析方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法，其特征在于：所述步骤1的数据采集包括以下子步骤：

3.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法，其特征在于：所述步骤2的数据预处理包括以下子步骤：

4.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法，其特征在于：所述步骤3的知识点提取包括以下子步骤：

步骤3.1：计算ASI值，将研究专业的就业要求数据作为目标集，非研究专业的就业要求数据作为辅助集，计算目标集中每个词语ω_i的辅助集重要性ASI值，计算公式如下：

步骤3.3：构建知识词库，把提取的知识点放入知识词库中。

5.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法，其特征在于：所述步骤5的课程归类包括以下子步骤：

步骤4.2：知识词库K-means聚类，使用K-means聚类算法对知识词库中的知识点进行聚类分析，K-means算法以样本与质心的平方误差和(SSE)的最小值作为目标函数，计算公式如下：

式中：K为聚类簇数，K的值通过肘部法则(Elbow Method)确定；C_i为第i个簇；c_i为C_i的质心；x为C_i中的知识点样本；N_i为C_i中的样本数；