CN112861530A - 一种基于文本挖掘的课程设置分析方法 - Google Patents

一种基于文本挖掘的课程设置分析方法 Download PDF

Info

Publication number
CN112861530A
CN112861530A CN202110287512.0A CN202110287512A CN112861530A CN 112861530 A CN112861530 A CN 112861530A CN 202110287512 A CN202110287512 A CN 202110287512A CN 112861530 A CN112861530 A CN 112861530A
Authority
CN
China
Prior art keywords
data
knowledge
course
knowledge points
recruitment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110287512.0A
Other languages
English (en)
Inventor
张建桃
曾莉
韦婷婷
江涛
张大斌
凌立文
毛小娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Agricultural University
Original Assignee
South China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Agricultural University filed Critical South China Agricultural University
Priority to CN202110287512.0A priority Critical patent/CN112861530A/zh
Publication of CN112861530A publication Critical patent/CN112861530A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/20Education
    • G06Q50/205Education administration or guidance

Abstract

本发明公开了一种基于文本挖掘的课程设置分析方法,该方法包括:根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;对采集的招聘要求数据进行预处理操作;提取招聘要求数据中的知识点,并构建知识词库;对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。本发明利用文本挖掘技术获取就业市场对人才的知识要求,通过课程归类得到课程需求,无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议,能在各个专业领域进行快速应用推广,为高校课程设置的优化和改进提供决策支持。

Description

一种基于文本挖掘的课程设置分析方法
技术领域
本发明涉及课程设置分析领域,特别是涉及一种基于文本挖掘的课程设置分析方法。
背景技术
目前我国高等教育正处于内涵发展、质量提升、改革攻坚的关键时期和全面提高人才培养质量、建设高等教育强国的关键阶段。课程设置是人才培养的重要环节,能够直接影响人才培养的质量。然而,当前高校的课程设置仍存在许多的不足,其中设置的课程不能很好的匹配就业市场需求的问题最为明显,以致于培养出来的专业人才无法适应行业发展的趋势和满足社会发展的需求,因此如何优化和改善高校的课程设置,使培养的人才更加符合就业市场的需求是一个重要的研究课题。
通过对文献的查阅与整理发现,目前人才的就业市场需求主要是通过统计调查、问卷调查、企业走访等传统的调研方式获得,样本数据较少,且需要耗费较多的时间和人力。文本挖掘是一种能从非结构化文本数据中提取有意义信息的技术。文本挖掘通过使用自然语言和文档处理技术提取上下文和含义,相比于传统的调研方式,能够快速、高效、智能化的获取更多潜在价值信息。据艾瑞网发布的《2020年中国网络招聘行业市场发展研究报告》,2019年网络招聘企业雇主数量已经达486.6万家,网络招聘已成为企业招聘的主要方式,采用文本挖掘技术挖掘网络招聘需求是获取就业市场需求是一个可行的途径。
发明内容
本发明的目的在于提供一种基于本文挖掘的课程设置分析方法,通过获取招聘网站中的招聘数据,分析就业市场对人才知识方面的要求,获得就业市场对该专业的课程需求,从而为高校的课程设置提供决策支持。
为实现上述目的,本发明所采用的技术方案是:
一种基于文本挖掘的课程设置分析方法,包括以下步骤:
步骤1:数据采集,根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;
步骤2:数据预处理,对采集的招聘要求数据进行预处理操作;
步骤3:知识点提取,提取招聘要求数据中的知识点,并构建知识词库;
步骤4:课程归类,对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。
优选的,所述的数据采集包括以下子步骤:
步骤1.1:制定采集规则,选定数据采集的招聘网站,确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等;
步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取招聘网站中的招聘数据;
步骤1.3:采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。
优选的,所述的数据预处理包括以下子步骤:
步骤2.1:数据清洗,对采集的数据进行数据清洗,清除数据中的空值、重复值、异常范值、HTML标签等数据噪声;
步骤2.1:构建自定义分词词典和停用词库,分词词典中包含研究专业领域的知识点词语,停用词库中包含无研究意义的词语;
步骤2.1:分词和去停用词,调用构建的自定义分词词典和停用词库,并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。
优选的,所述的知识点提取包括以下子步骤:
步骤3.1:计算ASI值,将研究专业的就业要求数据作为目标集(target set,TS),非研究专业的就业要求数据作为辅助集(auxilary se,AS),计算目标集中每个词语ωi的辅助集重要性(auxiliary setbased importance,ASI)值,计算公式如下:
Figure BDA0002981100090000021
式中:df(ωi,TS)为目标集中包含ωi的文本数;df(ωi,AS)为辅助集中包含ωi的文本数;|TS|为目标集中文本的总数;|AS|为辅助集中文本的总数;
步骤3.2:提取知识点,根据ASI值的大小来提取知识点,ASI值越大,该词为知识点的概率越大。
步骤3.3:构建知识词库,把提取的知识点放入知识词库中。
优选的,所述的课程归类包括以下子步骤:
步骤4.1:明确各门课程的知识点,对研究专业的课程门类及每门课程涵盖的知识点进行明确;
步骤4.2:知识词库K-means聚类,使用K-means聚类算法对知识词库中的知识点进行聚类分析,K-means算法以样本与质点平方误差和(SSE)的最小值作为目标函数,计算公式如下:
Figure BDA0002981100090000031
Figure BDA0002981100090000032
式中:K为聚类数,K的值通过肘部法则(Elbow Method)确定;Ci为第i个簇;ci为Ci的质心;x为Ci中的知识点样本;Ni为Ci中的样本数;
步骤4.3:知识点课程归类,参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
本发明的有效收益在于:利用文本挖掘技术获取就业市场对人才的知识要求,通过课程归类得到课程需求,无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议,能在各个专业领域进行快速应用推广,为高校课程设置的优化和改进提供决策支持。
附图说明
图1为本发明基于文本挖掘的课程设置分析方法流程图。
图2为本发明肘部法则确定K值函数曲线图。
具体实施方法
为了对本发明的技术特征、目的和效果有更加清楚的理解,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
本实施以工业工程专业的工程管理方向为例,如图1所示,本发明提供的一种基于文本挖掘的课程设置分析方法,该方法包括以下步骤:
步骤1:数据采集,将工程管理方向的热门岗位“工业工程师”作为工业工程专业的搜索关键词,将“会计”作为非工业工程专业的搜索关键词,采用网络爬虫技术,从前程无忧(https://www.51job.com)招聘网站中采集岗位的招聘要求数据。
步骤2:数据预处理,对采集到的工业工程专业与非工业工程专业的招聘数据进行清洗处理,删除数据中的乱码数据和无法进行中文文本处理的英文数据,去除缺失值和重复行。为了提高知识点提取的精确度,构建自定义的分词词典和停用词库,并结合Python中的Jieba分词程序包和哈工大停用词表,对招聘数据进行分词和去停用词处理。
步骤3:知识点提取,将工业工程专业的就业要求数据作为目标集,非工业工程专业的就业要求数据作为辅助集,计算目标集中每个词语的ASI值并根据值大小对词语由大到小进行排序,前20个词语及其ASI值如表1所示。
表1前20个词语及其ASI值
Figure BDA0002981100090000041
ASI值越大,该词为知识点的概率越大,提取ASI值排在前500的词语作为知识点并构建工业工程专业工程管理方向的知识点词库。
步骤4:课程归类,首先对工业工程专业的课程门类及每门课程涵盖的知识点进行明确,使用K-means聚类算法对知识词库中的知识点进行聚类,知识点的聚类数K通过肘部法则(Elbow Method)确定:计算出不同K值的目标函数值,随着K值的增大,目标函数曲线的畸变程度会不断改变,畸变程度表示每个簇的质点与簇内样本点的平方距离误差和,当目标函数曲线出现“肘”点(即拐点)时,该点即为最佳K值。如图2所示,通过肘部法则(ElbowMethod)求得最佳的聚类数K=6。参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
聚类的结果及每类知识要求的5个知识点如表2所示:工程管理方向岗位的知识要求分为了6类,可大致归为质量管理、机械设计、设施规划、先进制造技术、工程制图和基础工业工程的课程知识点,由此可知,从事该方向的岗位需要学习质量管理、机械设计、设施规划、先进制造技术、工程制图及基础工业工程这6门课程。
表2知识要求及知识点的课程归类
Figure BDA0002981100090000051
使用本发明基于文本挖掘的课程设置分析方法,可以得到就业市场对工业工程专业工程管理方向人才的知识要求,并将通过知识点聚类获得就业市场对该专业的课程需求,可以为高校设置该就业方向的课程提供决策支持。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。

Claims (5)

1.一种基于文本挖掘的课程设置分析方法,其特征在于,包括以下步骤:
步骤1:数据采集,根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;
步骤2:数据预处理,对采集的招聘要求数据进行预处理操作;
步骤3:知识点提取,提取招聘要求数据中的知识点,并构建知识词库;
步骤4:课程归类,对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。
2.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤1的数据采集包括以下子步骤:
步骤1.1:制定采集规则,选定数据采集的招聘网站,确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等;
步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取招聘网站中的招聘数据;
步骤1.3:采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。
3.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤2的数据预处理包括以下子步骤:
步骤2.1:数据清洗,对采集的数据进行数据清洗,清除数据中的空值、重复值、异常范值、HTML标签等数据噪声;
步骤2.1:构建自定义分词词典和停用词库,分词词典中包含研究专业领域的知识点词语,停用词库中包含无研究意义的词语;
步骤2.1:分词和去停用词,调用构建的自定义分词词典和停用词库,并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。
4.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤3的知识点提取包括以下子步骤:
步骤3.1:计算ASI值,将研究专业的就业要求数据作为目标集,非研究专业的就业要求数据作为辅助集,计算目标集中每个词语ωi的辅助集重要性ASI值,计算公式如下:
Figure FDA0002981100080000021
式中:df(ωi,TS)为目标集中包含ωi的文本数;df(ωi,AS)为辅助集中包含ωi的文本数;|TS|为目标集中文本的总数;|AS|为辅助集中文本的总数;
步骤3.2:提取知识点,根据ASI值的大小来提取知识点,ASI值越大,该词为知识点的概率越大。
步骤3.3:构建知识词库,把提取的知识点放入知识词库中。
5.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤5的课程归类包括以下子步骤:
步骤4.1:明确各门课程的知识点,对研究专业的课程门类及每门课程涵盖的知识点进行明确;
步骤4.2:知识词库K-means聚类,使用K-means聚类算法对知识词库中的知识点进行聚类分析,K-means算法以样本与质心的平方误差和(SSE)的最小值作为目标函数,计算公式如下:
Figure FDA0002981100080000022
Figure FDA0002981100080000023
式中:K为聚类簇数,K的值通过肘部法则(Elbow Method)确定;Ci为第i个簇;ci为Ci的质心;x为Ci中的知识点样本;Ni为Ci中的样本数;
步骤4.3:知识点课程归类,参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
CN202110287512.0A 2021-03-17 2021-03-17 一种基于文本挖掘的课程设置分析方法 Pending CN112861530A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110287512.0A CN112861530A (zh) 2021-03-17 2021-03-17 一种基于文本挖掘的课程设置分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110287512.0A CN112861530A (zh) 2021-03-17 2021-03-17 一种基于文本挖掘的课程设置分析方法

Publications (1)

Publication Number Publication Date
CN112861530A true CN112861530A (zh) 2021-05-28

Family

ID=75995159

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110287512.0A Pending CN112861530A (zh) 2021-03-17 2021-03-17 一种基于文本挖掘的课程设置分析方法

Country Status (1)

Country Link
CN (1) CN112861530A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886588A (zh) * 2021-10-20 2022-01-04 华南农业大学 一种基于招聘文本挖掘的专业主要就业方向识别方法
CN116523225A (zh) * 2023-04-18 2023-08-01 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN106651701A (zh) * 2016-12-29 2017-05-10 山东科技大学 一种学习资源的构建方法及装置
CN109829616A (zh) * 2018-12-27 2019-05-31 四川华迪信息技术有限公司 一种职业能力分析大数据服务平台及其控制方法
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN112395432A (zh) * 2021-01-19 2021-02-23 平安科技(深圳)有限公司 课程推送方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512864A (zh) * 2016-01-28 2016-04-20 丁沂 一种基于互联网的岗位职业能力需求的自动获取方法
CN106651701A (zh) * 2016-12-29 2017-05-10 山东科技大学 一种学习资源的构建方法及装置
CN109829616A (zh) * 2018-12-27 2019-05-31 四川华迪信息技术有限公司 一种职业能力分析大数据服务平台及其控制方法
CN111797222A (zh) * 2020-06-29 2020-10-20 平安国际智慧城市科技股份有限公司 课程知识图谱构建方法、装置、终端及存储介质
CN112395432A (zh) * 2021-01-19 2021-02-23 平安科技(深圳)有限公司 课程推送方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
俞琰: ""基于网络招聘文本挖掘的课程知识模型自动构建研究"", 《图书情报工作》, vol. 63, no. 10, 31 May 2019 (2019-05-31), pages 134 - 142 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113886588A (zh) * 2021-10-20 2022-01-04 华南农业大学 一种基于招聘文本挖掘的专业主要就业方向识别方法
CN116523225A (zh) * 2023-04-18 2023-08-01 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法
CN116523225B (zh) * 2023-04-18 2024-01-23 泸州职业技术学院 一种基于数据挖掘的翻转课堂混合教学方法

Similar Documents

Publication Publication Date Title
Singh et al. PROSPECT: a system for screening candidates for recruitment
CN112800113B (zh) 一种基于数据挖掘分析技术的招投标审计方法及系统
CN106095928A (zh) 一种事件类型识别方法及装置
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
CN110516074B (zh) 一种基于深度学习的网站主题分类方法及装置
CN107194617B (zh) 一种app软件工程师软技能分类系统及方法
CN112100999B (zh) 一种简历文本相似度匹配方法和系统
CN112861530A (zh) 一种基于文本挖掘的课程设置分析方法
CN110457715B (zh) 融入分类词典的汉越神经机器翻译集外词处理方法
CN112052396A (zh) 课程匹配方法、系统、计算机设备和存储介质
CN108280021A (zh) 一种基于机器学习的日志等级分析方法
CN111078979A (zh) 一种基于ocr和文本处理技术识别网贷网站的方法及系统
CN114153978A (zh) 模型训练方法、信息抽取方法、装置、设备及存储介质
CN112768080A (zh) 基于医疗大数据的医学关键词库建立方法及系统
Owen et al. Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections.
CN116664944A (zh) 一种基于属性特征知识图谱的葡萄园害虫识别方法
CN111325019A (zh) 词库的更新方法及装置、电子设备
CN114492392A (zh) 一种基于短语向量构造的年报风险挖掘系统和方法
CN113378024A (zh) 一种基于深度学习面向公检法领域的相关事件识别方法
CN112286799A (zh) 结合句嵌入和粒子群优化算法的软件缺陷定位方法
CN113886588A (zh) 一种基于招聘文本挖掘的专业主要就业方向识别方法
CN111597423A (zh) 一种文本分类模型可解释性方法的性能评价方法及装置
CN111782814B (zh) 一种专利技术主题内容和热度演化的分析方法
CN115619443A (zh) 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统
CN112818122A (zh) 一种面向对话文本的事件抽取方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination