CN112861530A - 一种基于文本挖掘的课程设置分析方法 - Google Patents
一种基于文本挖掘的课程设置分析方法 Download PDFInfo
- Publication number
- CN112861530A CN112861530A CN202110287512.0A CN202110287512A CN112861530A CN 112861530 A CN112861530 A CN 112861530A CN 202110287512 A CN202110287512 A CN 202110287512A CN 112861530 A CN112861530 A CN 112861530A
- Authority
- CN
- China
- Prior art keywords
- data
- knowledge
- course
- knowledge points
- recruitment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000005065 mining Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 title claims abstract description 19
- 230000007115 recruitment Effects 0.000 claims abstract description 36
- 238000011160 research Methods 0.000 claims abstract description 22
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 238000007781 pre-processing Methods 0.000 claims abstract description 8
- 230000011218 segmentation Effects 0.000 claims description 13
- 238000000034 method Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 6
- 238000003064 k means clustering Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 2
- 230000006872 improvement Effects 0.000 abstract description 4
- 238000011835 investigation Methods 0.000 abstract description 4
- 238000005457 optimization Methods 0.000 abstract description 2
- 238000007726 management method Methods 0.000 description 7
- 238000011161 development Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 4
- 238000013461 design Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/20—Education
- G06Q50/205—Education administration or guidance
Abstract
本发明公开了一种基于文本挖掘的课程设置分析方法,该方法包括:根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;对采集的招聘要求数据进行预处理操作;提取招聘要求数据中的知识点,并构建知识词库;对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。本发明利用文本挖掘技术获取就业市场对人才的知识要求,通过课程归类得到课程需求,无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议,能在各个专业领域进行快速应用推广,为高校课程设置的优化和改进提供决策支持。
Description
技术领域
本发明涉及课程设置分析领域,特别是涉及一种基于文本挖掘的课程设置分析方法。
背景技术
目前我国高等教育正处于内涵发展、质量提升、改革攻坚的关键时期和全面提高人才培养质量、建设高等教育强国的关键阶段。课程设置是人才培养的重要环节,能够直接影响人才培养的质量。然而,当前高校的课程设置仍存在许多的不足,其中设置的课程不能很好的匹配就业市场需求的问题最为明显,以致于培养出来的专业人才无法适应行业发展的趋势和满足社会发展的需求,因此如何优化和改善高校的课程设置,使培养的人才更加符合就业市场的需求是一个重要的研究课题。
通过对文献的查阅与整理发现,目前人才的就业市场需求主要是通过统计调查、问卷调查、企业走访等传统的调研方式获得,样本数据较少,且需要耗费较多的时间和人力。文本挖掘是一种能从非结构化文本数据中提取有意义信息的技术。文本挖掘通过使用自然语言和文档处理技术提取上下文和含义,相比于传统的调研方式,能够快速、高效、智能化的获取更多潜在价值信息。据艾瑞网发布的《2020年中国网络招聘行业市场发展研究报告》,2019年网络招聘企业雇主数量已经达486.6万家,网络招聘已成为企业招聘的主要方式,采用文本挖掘技术挖掘网络招聘需求是获取就业市场需求是一个可行的途径。
发明内容
本发明的目的在于提供一种基于本文挖掘的课程设置分析方法,通过获取招聘网站中的招聘数据,分析就业市场对人才知识方面的要求,获得就业市场对该专业的课程需求,从而为高校的课程设置提供决策支持。
为实现上述目的,本发明所采用的技术方案是:
一种基于文本挖掘的课程设置分析方法,包括以下步骤:
步骤1:数据采集,根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;
步骤2:数据预处理,对采集的招聘要求数据进行预处理操作;
步骤3:知识点提取,提取招聘要求数据中的知识点,并构建知识词库;
步骤4:课程归类,对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。
优选的,所述的数据采集包括以下子步骤:
步骤1.1:制定采集规则,选定数据采集的招聘网站,确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等;
步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取招聘网站中的招聘数据;
步骤1.3:采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。
优选的,所述的数据预处理包括以下子步骤:
步骤2.1:数据清洗,对采集的数据进行数据清洗,清除数据中的空值、重复值、异常范值、HTML标签等数据噪声;
步骤2.1:构建自定义分词词典和停用词库,分词词典中包含研究专业领域的知识点词语,停用词库中包含无研究意义的词语;
步骤2.1:分词和去停用词,调用构建的自定义分词词典和停用词库,并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。
优选的,所述的知识点提取包括以下子步骤:
步骤3.1:计算ASI值,将研究专业的就业要求数据作为目标集(target set,TS),非研究专业的就业要求数据作为辅助集(auxilary se,AS),计算目标集中每个词语ωi的辅助集重要性(auxiliary setbased importance,ASI)值,计算公式如下:
式中:df(ωi,TS)为目标集中包含ωi的文本数;df(ωi,AS)为辅助集中包含ωi的文本数;|TS|为目标集中文本的总数;|AS|为辅助集中文本的总数;
步骤3.2:提取知识点,根据ASI值的大小来提取知识点,ASI值越大,该词为知识点的概率越大。
步骤3.3:构建知识词库,把提取的知识点放入知识词库中。
优选的,所述的课程归类包括以下子步骤:
步骤4.1:明确各门课程的知识点,对研究专业的课程门类及每门课程涵盖的知识点进行明确;
步骤4.2:知识词库K-means聚类,使用K-means聚类算法对知识词库中的知识点进行聚类分析,K-means算法以样本与质点平方误差和(SSE)的最小值作为目标函数,计算公式如下:
式中:K为聚类数,K的值通过肘部法则(Elbow Method)确定;Ci为第i个簇;ci为Ci的质心;x为Ci中的知识点样本;Ni为Ci中的样本数;
步骤4.3:知识点课程归类,参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
本发明的有效收益在于:利用文本挖掘技术获取就业市场对人才的知识要求,通过课程归类得到课程需求,无需大量耗费时间和人力进行调研就能快速获得合理的课程设置建议,能在各个专业领域进行快速应用推广,为高校课程设置的优化和改进提供决策支持。
附图说明
图1为本发明基于文本挖掘的课程设置分析方法流程图。
图2为本发明肘部法则确定K值函数曲线图。
具体实施方法
为了对本发明的技术特征、目的和效果有更加清楚的理解,以下结合附图及实施例,对本发明进行进一步的详细说明。此处所描述的具体实施例仅用于解释本发明技术方案,并不限于本发明。
本实施以工业工程专业的工程管理方向为例,如图1所示,本发明提供的一种基于文本挖掘的课程设置分析方法,该方法包括以下步骤:
步骤1:数据采集,将工程管理方向的热门岗位“工业工程师”作为工业工程专业的搜索关键词,将“会计”作为非工业工程专业的搜索关键词,采用网络爬虫技术,从前程无忧(https://www.51job.com)招聘网站中采集岗位的招聘要求数据。
步骤2:数据预处理,对采集到的工业工程专业与非工业工程专业的招聘数据进行清洗处理,删除数据中的乱码数据和无法进行中文文本处理的英文数据,去除缺失值和重复行。为了提高知识点提取的精确度,构建自定义的分词词典和停用词库,并结合Python中的Jieba分词程序包和哈工大停用词表,对招聘数据进行分词和去停用词处理。
步骤3:知识点提取,将工业工程专业的就业要求数据作为目标集,非工业工程专业的就业要求数据作为辅助集,计算目标集中每个词语的ASI值并根据值大小对词语由大到小进行排序,前20个词语及其ASI值如表1所示。
表1前20个词语及其ASI值
ASI值越大,该词为知识点的概率越大,提取ASI值排在前500的词语作为知识点并构建工业工程专业工程管理方向的知识点词库。
步骤4:课程归类,首先对工业工程专业的课程门类及每门课程涵盖的知识点进行明确,使用K-means聚类算法对知识词库中的知识点进行聚类,知识点的聚类数K通过肘部法则(Elbow Method)确定:计算出不同K值的目标函数值,随着K值的增大,目标函数曲线的畸变程度会不断改变,畸变程度表示每个簇的质点与簇内样本点的平方距离误差和,当目标函数曲线出现“肘”点(即拐点)时,该点即为最佳K值。如图2所示,通过肘部法则(ElbowMethod)求得最佳的聚类数K=6。参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
聚类的结果及每类知识要求的5个知识点如表2所示:工程管理方向岗位的知识要求分为了6类,可大致归为质量管理、机械设计、设施规划、先进制造技术、工程制图和基础工业工程的课程知识点,由此可知,从事该方向的岗位需要学习质量管理、机械设计、设施规划、先进制造技术、工程制图及基础工业工程这6门课程。
表2知识要求及知识点的课程归类
使用本发明基于文本挖掘的课程设置分析方法,可以得到就业市场对工业工程专业工程管理方向人才的知识要求,并将通过知识点聚类获得就业市场对该专业的课程需求,可以为高校设置该就业方向的课程提供决策支持。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
以上所述的本发明的实施方式,并不构成对本发明保护范围的限定。任何在本发明的精神原则之内所作出的修改、等同替换和改进等,均应包含在本发明的权利要求保护范围之内。
Claims (5)
1.一种基于文本挖掘的课程设置分析方法,其特征在于,包括以下步骤:
步骤1:数据采集,根据确定的数据搜索关键词,从选定的招聘网站中采集研究专业的招聘要求数据和非研究专业的招聘要求数据;
步骤2:数据预处理,对采集的招聘要求数据进行预处理操作;
步骤3:知识点提取,提取招聘要求数据中的知识点,并构建知识词库;
步骤4:课程归类,对知识词库中的知识点进行聚类分析,并将分类后的知识点归类到课程,获得就业市场对该专业的课程需求。
2.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤1的数据采集包括以下子步骤:
步骤1.1:制定采集规则,选定数据采集的招聘网站,确定研究专业的搜索关键词及非研究专业的搜索关键词、数据采集的网页页数、数据发布的时间段等;
步骤1.2:网络爬虫,根据制定的数据采集规则,通过网络爬虫技术爬取招聘网站中的招聘数据;
步骤1.3:采用正则表达式从获取的招聘数据中提取招聘要求字段的数据。
3.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤2的数据预处理包括以下子步骤:
步骤2.1:数据清洗,对采集的数据进行数据清洗,清除数据中的空值、重复值、异常范值、HTML标签等数据噪声;
步骤2.1:构建自定义分词词典和停用词库,分词词典中包含研究专业领域的知识点词语,停用词库中包含无研究意义的词语;
步骤2.1:分词和去停用词,调用构建的自定义分词词典和停用词库,并结合现有的分词词典和停用词库对数据进行分词和去停用词处理。
5.根据权利要求1所述的一种基于文本挖掘的课程设置分析方法,其特征在于:所述步骤5的课程归类包括以下子步骤:
步骤4.1:明确各门课程的知识点,对研究专业的课程门类及每门课程涵盖的知识点进行明确;
步骤4.2:知识词库K-means聚类,使用K-means聚类算法对知识词库中的知识点进行聚类分析,K-means算法以样本与质心的平方误差和(SSE)的最小值作为目标函数,计算公式如下:
式中:K为聚类簇数,K的值通过肘部法则(Elbow Method)确定;Ci为第i个簇;ci为Ci的质心;x为Ci中的知识点样本;Ni为Ci中的样本数;
步骤4.3:知识点课程归类,参照已明确的各门课程知识点,将实现K-means聚类后的每一类知识点归类到大致所属的课程,进而获得就业市场对该专业的课程需求。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287512.0A CN112861530A (zh) | 2021-03-17 | 2021-03-17 | 一种基于文本挖掘的课程设置分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110287512.0A CN112861530A (zh) | 2021-03-17 | 2021-03-17 | 一种基于文本挖掘的课程设置分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112861530A true CN112861530A (zh) | 2021-05-28 |
Family
ID=75995159
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110287512.0A Pending CN112861530A (zh) | 2021-03-17 | 2021-03-17 | 一种基于文本挖掘的课程设置分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112861530A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886588A (zh) * | 2021-10-20 | 2022-01-04 | 华南农业大学 | 一种基于招聘文本挖掘的专业主要就业方向识别方法 |
CN116523225A (zh) * | 2023-04-18 | 2023-08-01 | 泸州职业技术学院 | 一种基于数据挖掘的翻转课堂混合教学方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
CN106651701A (zh) * | 2016-12-29 | 2017-05-10 | 山东科技大学 | 一种学习资源的构建方法及装置 |
CN109829616A (zh) * | 2018-12-27 | 2019-05-31 | 四川华迪信息技术有限公司 | 一种职业能力分析大数据服务平台及其控制方法 |
CN111797222A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 课程知识图谱构建方法、装置、终端及存储介质 |
CN112395432A (zh) * | 2021-01-19 | 2021-02-23 | 平安科技(深圳)有限公司 | 课程推送方法、装置、计算机设备及存储介质 |
-
2021
- 2021-03-17 CN CN202110287512.0A patent/CN112861530A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105512864A (zh) * | 2016-01-28 | 2016-04-20 | 丁沂 | 一种基于互联网的岗位职业能力需求的自动获取方法 |
CN106651701A (zh) * | 2016-12-29 | 2017-05-10 | 山东科技大学 | 一种学习资源的构建方法及装置 |
CN109829616A (zh) * | 2018-12-27 | 2019-05-31 | 四川华迪信息技术有限公司 | 一种职业能力分析大数据服务平台及其控制方法 |
CN111797222A (zh) * | 2020-06-29 | 2020-10-20 | 平安国际智慧城市科技股份有限公司 | 课程知识图谱构建方法、装置、终端及存储介质 |
CN112395432A (zh) * | 2021-01-19 | 2021-02-23 | 平安科技(深圳)有限公司 | 课程推送方法、装置、计算机设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
俞琰: ""基于网络招聘文本挖掘的课程知识模型自动构建研究"", 《图书情报工作》, vol. 63, no. 10, 31 May 2019 (2019-05-31), pages 134 - 142 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113886588A (zh) * | 2021-10-20 | 2022-01-04 | 华南农业大学 | 一种基于招聘文本挖掘的专业主要就业方向识别方法 |
CN116523225A (zh) * | 2023-04-18 | 2023-08-01 | 泸州职业技术学院 | 一种基于数据挖掘的翻转课堂混合教学方法 |
CN116523225B (zh) * | 2023-04-18 | 2024-01-23 | 泸州职业技术学院 | 一种基于数据挖掘的翻转课堂混合教学方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Singh et al. | PROSPECT: a system for screening candidates for recruitment | |
CN112800113B (zh) | 一种基于数据挖掘分析技术的招投标审计方法及系统 | |
CN106095928A (zh) | 一种事件类型识别方法及装置 | |
CN107145584B (zh) | 一种基于n-gram模型的简历解析方法 | |
CN110516074B (zh) | 一种基于深度学习的网站主题分类方法及装置 | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN112100999B (zh) | 一种简历文本相似度匹配方法和系统 | |
CN112861530A (zh) | 一种基于文本挖掘的课程设置分析方法 | |
CN110457715B (zh) | 融入分类词典的汉越神经机器翻译集外词处理方法 | |
CN112052396A (zh) | 课程匹配方法、系统、计算机设备和存储介质 | |
CN108280021A (zh) | 一种基于机器学习的日志等级分析方法 | |
CN111078979A (zh) | 一种基于ocr和文本处理技术识别网贷网站的方法及系统 | |
CN114153978A (zh) | 模型训练方法、信息抽取方法、装置、设备及存储介质 | |
CN112768080A (zh) | 基于医疗大数据的医学关键词库建立方法及系统 | |
Owen et al. | Towards a scientific workflow featuring Natural Language Processing for the digitisation of natural history collections. | |
CN116664944A (zh) | 一种基于属性特征知识图谱的葡萄园害虫识别方法 | |
CN111325019A (zh) | 词库的更新方法及装置、电子设备 | |
CN114492392A (zh) | 一种基于短语向量构造的年报风险挖掘系统和方法 | |
CN113378024A (zh) | 一种基于深度学习面向公检法领域的相关事件识别方法 | |
CN112286799A (zh) | 结合句嵌入和粒子群优化算法的软件缺陷定位方法 | |
CN113886588A (zh) | 一种基于招聘文本挖掘的专业主要就业方向识别方法 | |
CN111597423A (zh) | 一种文本分类模型可解释性方法的性能评价方法及装置 | |
CN111782814B (zh) | 一种专利技术主题内容和热度演化的分析方法 | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
CN112818122A (zh) | 一种面向对话文本的事件抽取方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |