CN110597960A

CN110597960A - 一种个性化在线课程与职业双向推荐方法及系统

Info

Publication number: CN110597960A
Application number: CN201910878676.3A
Authority: CN
Inventors: 王晶晶; 谢浩然; 陈伟康
Original assignee: Hong Kong University Of Education
Current assignee: Hong Kong University Of Education
Priority date: 2019-09-17
Filing date: 2019-09-17
Publication date: 2019-12-20
Anticipated expiration: 2039-09-17
Also published as: CN110597960B

Abstract

本发明公开了一种个性化在线学习与职业双向推荐方法及系统，对于学习者，可以根据其感兴趣的求职目标，推荐最需要学习的课程，使用户在学习的过程中做到有的放矢，保证了用户的学习效果；当用户未指定求职目标时，可根据用户的预有知识以及在线学习情况推荐最合适的职业，培养用户的职业规划意识，对于企业，则根据用户的学习情况选择最适合的求职者，因此，本发明对于用户的在线学习质量提高以及求职发展都具有十分重要的意义。

Description

一种个性化在线课程与职业双向推荐方法及系统

技术领域

本发明涉及机器学习领域，具体涉及一种个性化在线课程与职业双向推荐方法及系统。

背景技术

伴随着网上学习的普及以及在线课程资源的增多，越来越多的在职工作者与在校大学生通过网络学习提升自身的求职技能，然而面对海量的在线课程如何快速找到理想岗位最紧迫需要学习的内容，如何根据自身已有的知识制定合理的职业学习方向，成为困扰在线学习者最大的难题。

推荐系统是当今解决海量信息所带来的“信息超载”问题的有效方法之一，近年来广泛使用于购物网站、音乐推荐系统等，其核心在于快速把握用户的需要与特性，从大规模数据中挖掘出用户的需求信息，建立用户与物品之间的联系。常用的推荐算法包括：基于内容的推荐、基于协同过滤的推荐、基于关联规则的推荐、基于标签的推荐和基于混合模型的推荐等。

在线课程推荐属于推荐系统在教育教学中的应用之一，以往的在线课程推荐多集中于使用内容或协同过滤的推荐方法。基于使用内容的方法是根据用户已有的选择推荐相似的产品，然而单一课程的重复学习对于学习者来说并没有实际的价值。基于协同过滤的方法，通过计算学习者用户之间的相似度，将相似用户所购买的商品推荐给其他用户，然而在课程与职业双向推荐过程中，通过推荐相似学习者的求职目标，并不能让学习者有清晰的求职方向，反而，学习者需要经过大量的课程学习才能从繁杂的职业推荐中才找到自己感兴趣的职业。

发明内容

针对现有技术的不足，本发明旨在提供一种个性化在线课程与职业双向推荐方法及系统。

为了实现上述目的，本发明采用如下技术方案：

一种个性化在线学习与职业双向推荐方法，包括如下步骤：

S1、建立特征词词典向量：

S1.1、以专业为单位，使用网络爬虫获取求职网站中和单个专业相关的职业要求信息；

S1.2、动词标签以及权重的确定：

S1.2.1、将职业要求中的动词定义为动词标签V-tag_i；

S1.2.2、确定动词标签的权值以薪酬工资为划分依据，对某一专业所有的职业要求信息进行语料处理，获取同一动词标签在不同薪酬的职业要求中的出现频率，确定动词标签的权值；各个动词标签的权值按下式进行计算：

最终，动词标签及权重可表示为V-tag_i表示第i个动词标签，表示第i个动词标签对应的权值；n表示动词标签的总数。

S1.3、知识点分词标签的获取：

从职业要求中过滤所有的动词标签以及学历、沟通能力有关字段，提取职业要求中的具体技能作为知识点分词标签；

S1.4、动词标签及其权值与知识点分词标签共同构成特征词词典向量；

S2、建立职业标签向量和课程标签向量

S2.1、提取某一职业的职业要求，逐行处理职业要求信息，利用特征词词典向量识别出其中的动词标签及其权值和知识点分词标签，并据此将其转换为职业标签向量；所述职业标签向量包括知识点分词标签及其权值，所述知识点分词标签的权值等于和该知识点分词标签组成动宾短语的动词标签在特征词词典向量中的权值；

S2.2、建立课程标签向量；所述课程标签向量主要由两部分构成：知识点分词标签及其权值，所述知识点分词标签的权值人为根据该课程的学习目标指定；

S3、推荐最合适的职业或最紧迫需要学习的课程：

(1)推荐最合适的职业：

(1.1)、首先根据用户的专业获取所有相关的职业列表L(l₁,l₂,l₃,…,l_s)，s表示职业列表中包含的职业数量；

(1.2)、计算职业列表中所有职业与用户课程的匹配度：

和分别表示课程C和职业L的课程标签向量和职业标签向量；w_tag,i代表这些相同知识点分词标签对应的权重值，i＝0,1,2,...,r，r表示课程C和职业L中相同知识点分词标签的个数；

最终得到课程与各个职业的匹配度G，取其中匹配度G最高的职业作为用户的推荐职业；

(2)推荐最紧迫需要学习的课程

(2.1)、首先根据用户的目标职业L，获取与其相关的所有课程列表C(c₁,c₂,c₃,…,c_v)，v表示课程列表中包含的课程数量；

(2.2)、计算职业列表中所有课程与用户目标职业L的匹配度：

和分别表示课程C和目标职业L的课程标签向量和职业标签向量；w_tag,i代表这些相同知识点分词标签对应的权重值，i＝0,1,2,...,r，r表示课程C和职业L中相同知识点分词标签的个数；

最终得到用户目标职业与各个课程的匹配度G，取其中匹配度G最低的课程作为用户的推荐课程。

进一步地，步骤S1.2.1中，具体对职业要求语料进行分词、停用词、过滤词标记，获取所有的动词特征词标签列表，取频率最多出现的若干个动词作为动词标签。

更进一步地，分词、停用词、过滤词标记之后，人工剔除无关字段。

进一步地，步骤S2.2的具体过程为：当添加新的课程时，从步骤S1建立得到的特征词词典向量中提取一个或多个知识点分词标签指定为该课程的知识点分词标签，并根据该课程的学习目标指定各个知识点分词标签在该课程中的权值，则该课程的所有知识点分词标签及其权值构成该课程的课程标签向量。

进一步地，所述方法还包括有如下步骤：

用户课程预测模型的建立：

根据用户的专业获取用户专业有关的所有课程的集合C；C划分为两大部分：与用户预有知识相关的课程集合C_pre，以及用户在系统中学习的课程集合C_{on_line}；所有课程的集合C可表示如下：

C＝C_pre∪C_{on_line}；

C_{on_line}中的各个课程的得分均由用户在该课程的学习完成度p与测评分数q共同决定，p与q之和作为该课程的最终学习成绩；其中p＝1、q＝1表示用户已完成该课程并测验全部通过；C_{on_line}中课程j的得分表示如下：

r_j＝p+q；

获取C_{on_line}中课程知识点分词标签向量：首先，根据C_{on_line}中所有课程的知识点分词标签对课程知识点标签向量进行初始化，其次依据某一课程的知识点分词标签对该课程的权值进行更新，得到该课程的课程知识点分词标签向量；

C_{on_line}的最终得分向量为：

其中，j为C_{on_line}中的某一课程，W_j表示课程j的课程知识点分词标签向量，r_j为课程j的得分，F_{on_line}为最终计算获得的用户在线学习的所有课程C_{on_line}的得分向量；

预测C_pre集合中的课程的得分：

按下式依次计算C_pre中某一课程i与C_{on_line}中所有课程j的相似度：

为课程i的课程标签向量，为课程j的课程标签向量，v＝0,1,2,...,m，m表示课程i和j中相同知识点分词标签的个数，w_tag,v代表这些相同知识点分词标签对应的权重值；根据课程j的得分r_j，利用相似度计算获得课程i的得分,C_pre中所有课程的得分和即为F_pre，计算如下：

其中，s表示C_pre中的课程总数，q表示C_{on_line}中的课程总数,r_j表示课程j的得分。

本发明还提供一种基于上述方法的个性化在线学习与职业双向推荐系统，所述系统包括：

特征词典向量建立模块：用于按照上述方法的步骤S1建立特征词典向量；

特征词词典向量：动词标签及其权值与知识点分词标签共同构成特征词词典向量；

职业标签向量库：用于存储职业标签向量，所述职业标签向量包括知识点分词标签及其权值，所述知识点分词标签的权值等于和该知识点分词标签组成动宾短语的动词标签在特征词词典向量中的权值；

课程标签向量库：所述课程标签向量主要由两部分构成：知识点分词标签及其权值，所述知识点分词标签的权值人为根据该课程的学习目标指定；

职业标签向量建立模块：用于按照上述方法步骤S2.1建立职业标签向量；

课程标签向量建立模块：用于按照上述方法步骤S2.2建立课程标签向量；

推荐模型：用于按照上述方法的步骤S3为用户推荐最合适的职业或最紧迫需要学习的课程。

本发明的有益效果在于：本发明对于学习者，可以根据其感兴趣的求职目标，推荐最需要学习的课程，使用户在学习的过程中做到有的放矢，保证了用户的学习效果；当用户未指定求职目标时，可根据用户的预有知识以及在线学习情况推荐最合适的职业，培养用户的职业规划意识，对于企业，则根据用户的学习情况选择最适合的求职者，因此，本发明对于用户的在线学习质量提高以及求职发展都具有十分重要的意义。

具体实施方式

以下将对本发明作进一步的描述，需要说明的是，本实施例以本技术方案为前提，给出了详细的实施方式和具体的操作过程，但本发明的保护范围并不限于本实施例。

一种个性化在线学习与职业双向推荐方法，包括如下步骤：

S1、建立特征词词典向量：

S1.1、以专业为单位，使用网络爬虫获取求职网站中和单个专业相关的职业要求信息。

职业要求信息通常可划分为三个部分：第一部分为专业、学历、工作经验等限制要求；第二部分为职业技能方面要求；第三部分为个人职业道德等相关要求。

以java工程师一职的职业要求为例：

职业：java工程师一职

1、大专以上学历，计算机相关专业；

2、2年以上实际Java EE体系结构软件开发工作经验；

3、精通JAVA语言及Java EE体系结构，熟悉JVM、IO、多线程等，能熟练使用UML；

4、精通java各种开源框架，如Spring、SpringMVC、MyBatis、Structs2、Hibernate等；

5、熟悉MySQL/Oracle/SQL Server主流数据库；

6、熟悉常用应用服务器如Tomcat、WebLogic、Apache/Nginx的安装、部署；

7、熟悉Unix/Linux/Windows等操作系统；

8、具有良好的团队意识、责任心，学习能力、逻辑思维能力和较好的沟通表达能力；

第一、三部分的要求通常位于职业要求信息的头部或尾部，对于第一部分的要求，在本实施例中采用数据库多条件查询进行筛选，对于第三部分的要求，由于当前被试人员心理状况等无法量化，所以不在本实施例的考虑范围之内，本实施例主要针对于上述职业要求中的第3-7点的要求进行匹配与计算。

S1.2、动词标签以及权重的确定

根据对职业要求信息的观察以及汉语用语的习惯，职业要求往往以动宾短语的形式出现，如精通java语言、熟悉mysql数据库，精通和熟悉等词表明对技能的掌握程度。

S1.2.1、在本实施例中将职业要求中的动词定义为动词标签V-tag_i。利用中科院ICTCLAS开源项目软件对职业要求语料进行分词、停用词、过滤词标记，获取所有的动词特征词标签列表，取频率最多出现的50个动词作为本实施例中的动词标签，人工剔除其中无关字段，如出现最多的动词为：熟悉、能够、具有、熟练、精通、优先、学习、相关，由于相关、学习等词并不具有实际性的指代意义，故人为将其删除。

S1.2.2、确定动词标签的权值以薪酬工资为划分依据，对某一专业所有的职业要求信息进行语料处理，获取同一动词标签在不同薪酬的职业要求中的出现频率，确定动词标签的权值，即如果某一动词标签在高收入职业中出现的频率高，在低收入职业中出现的频率低，则表明该动词标签对职业技能的要求较高。各个动词标签的权值按下式进行计算：

最终，动词标签及权重可表示为V-tag_i表示第i个动词标签，表示第i个动词标签对应的权值；n表示动词标签的总数。高收入职业和低收入职业的薪酬工资划分界限人为确定。

S1.3、知识点分词标签的获取

在本实施例中，知识点分词标签主要用于标记某一课程的学习内容要点以及职业要求的具体技能，如java工程师的职业要求中的MySQL、Oracle、SQL Server、主流数据库等标签。知识点分词标签的获取使用jieba分词算法、自定义过滤规则，从职业要求中过滤所有的动词标签以及学历、沟通能力等有关字段，提取职业要求中的具体技能作为知识点分词标签。

S1.4、动词标签及其权值与知识点分词标签共同构成特征词词典向量。

所述方法还包括有特征词词典向量的更新。随着新的职业的逐渐增多，特征词词典向量对新加入的职业要求采用上述步骤S1.1-S1.3进行分词处理，当分词出现频率超过表中的最低分词时，更新特征词词典向量中的动词标签及其权值以及知识点分词标签。

S2、建立职业标签向量和课程标签向量

S2.1、提取某一职业的职业要求，逐行处理职业要求信息，利用特征词词典向量识别出其中的动词标签及其权值和知识点分词标签，并据此将其转换为职业标签向量。

进一步地，所述职业标签向量包括知识点分词标签及其权值，所述知识点分词标签的权值等于和该知识点分词标签组成动宾短语的动词标签在特征词词典向量中的权值。

例如:职业要求信息为熟悉MySQL/Oracle/SQL Server主流数据库；精通JAVA语言及Java EE体系结构；处理之后为：熟悉MySQL、熟悉Oracle、熟悉SQL Server、熟悉主流数据库、精通JAVA、精通Java EE。假定动词标签熟悉的权值为0.6，精通的权值为0.9，则该职业标签向量可表示为：

S2.2、建立课程标签向量。所述课程标签向量代表课程学习内容的掌握程度，其主要由两部分构成：知识点分词标签及其权值，所述知识点分词标签的权值人为根据该课程的学习目标指定。一个课程中可能包含多个知识点分词标签，而每个课程的学习目标会有所侧重，因此涉及的每个知识点分词标签的权重也会有所不同。

具体地，当添加新的课程时，从步骤S1建立得到的特征词词典向量中提取一个或多个知识点分词标签指定为该课程的知识点分词标签，并根据该课程的学习目标指定各个知识点分词标签在该课程中的权值，则该课程的所有知识点分词标签及其权值构成该课程的课程标签向量。

需要说明的是，为了保证课程影响程度的统一，在添加课程时，课时小于30个课时的课程指定的知识点分词标签不超过5个，大于等于或小于60个课时的课程指定的知识点分词标签不超过10个，以此类推。

另外，可在线申请提交新的知识点分词标签或修改现有的知识点分词标签，这种方式保证了知识点分词标签对内容表达的准确性以及特征词词典向量的鲁棒性。

如：Java基础学习，学时为22个学时，其课程标签向量为：

S3、推荐最合适的职业或最紧迫需要学习的课程：

(1)推荐最合适的职业：

(1.2)、计算职业列表中所有职业与用户课程的匹配度：

(1.2.1)、计算用户所学习的课程标签向量与职业列表中各个职业的职业标签向量之间的余弦相似度：

和分别表示课程C和职业L的课程标签向量和职业标签向量。

(1.2.2)、根据课程标签向量与职业标签向量中相同知识点分词标签的个数以及这些相同的知识点分词标签的权值计算改进的余弦相似度值：

w_tag,i代表这些相同知识点分词标签对应的权重值，i＝0,1,2,...,r，r表示课程C和职业L中相同知识点分词标签的个数。

(1.2.3)、最终得到课程与各个职业的匹配度G，取其中匹配度G最高的职业作为用户的推荐职业；

(2)推荐最紧迫需要学习的课程

(2.2.1)、计算用户目标职业的职业标签向量与课程列表中各个课程的课程标签向量之间的余弦相似度：

和分别表示课程C和职业L的课程标签向量和职业标签向量。

(2.2.2)、根据课程标签向量与职业标签向量中相同知识点分词标签的个数以及这些相同的知识点分词标签的权值计算改进的余弦相似度：

(2.2.3)、最终得到用户职业与各个课程的匹配度G，取其中匹配度G最低的课程作为用户的推荐课程；

最紧迫学习的课程推荐算法与推荐职业算法相似，不同之处在于最紧迫学习课程的算法计算的是目标职业与用户所有相关课程的匹配度，取匹配度最低的课程为最紧迫需要学习的课程。

上述方法还包括有用户课程预测模型的建立：

根据用户的专业获取用户专业有关的所有课程的集合C。C可以划分为两大部分，与用户预有知识(专业或职业)相关课程集合C_pre，以及用户在系统中学习的课程集合C_{on_line}，用户预有知识课程的加入有效解决了职业推荐系统的冷启动问题，此外，通过计算C_pre与C_{on_line}中课程的相关程度，避免因用户跳过某些相似度较高的在线课程而出现该课程分数为0的情况发生，保证了用户学习结果测量的准确性。所有课程的集合C可表示如下：

C＝C_pre∪C_{on_line}；

C_{on_line}中的各个课程的得分均由用户在该课程的学习完成度p与测评分数q共同决定，p与q之和作为该课程的最终学习成绩。其中p＝1、q＝1表示用户已完成该课程并测验全部通过；C_{on_line}中课程j的得分表示如下：

r_j＝p+q；

C_{on_line}的最终得分向量为：

预测C_pre集合中的课程的得分。采用余弦相似度，即通过计算两个课程标签向量的夹角余弦值来评估它们的相似度，余弦相似度的值的范围在[-1,1]，越接近1表示越相关，越接近-1表示越相反，等于0表示不相关。

普通的余弦相似度的计算公式如下：

其中分别代表两个课程A和B的课程标签向量。

由于余弦相似度未考虑用户评分尺度的问题。所以本实施例进一步使用改进的余弦相似度计算方法：

w_tag,i代表这些相同知识点分词标签对应的权重值，i＝0,1,2,...,m，m表示课程A和B中相同知识点分词标签的个数。

根据上述改进的余弦相似度依次计算C_pre中某一课程i与C_{on_line}中所有课程j的相似度：

为课程i的课程标签向量，为课程j的课程标签向量，根据课程j的得分r_j，利用相似度计算获得课程i的得分,C_pre中所有课程的得分和即为F_pre，计算如下：

实施例2

本实施例提供一种利用如实施例1所述方法建立的个性化在线学习与职业双向推荐，包括：

特征词典向量建立模块：用于按照实施例1所述方法的步骤S1建立特征词典向量；

职业标签向量建立模块：用于按照实施例1所述方法步骤S2.1建立职业标签向量；

课程标签向量建立模块：用于按照实施例1所述方法步骤S2.2建立课程标签向量；

推荐模型：用于按照实施例1所述方法的步骤S3为用户推荐最合适的职业或最紧迫需要学习的课程。

对于本领域的技术人员来说，可以根据以上的技术方案和构思，给出各种相应的改变和变形，而所有的这些改变和变形，都应该包括在本发明权利要求的保护范围之内。

Claims

1.一种个性化在线学习与职业双向推荐方法，其特征在于，包括如下步骤：

S1、建立特征词词典向量，所述特征词词典向量中，包含各个专业相关的职业要求信息中的动词标签及权值与知识点分词标签；知识点分词标签为职业要求信息中的具体技能要求；

S2、建立职业标签向量和课程标签向量：

S3、推荐最合适的职业或最紧迫需要学习的课程：

(1)推荐最合适的职业：

(1.2)、计算职业列表中所有职业与用户课程的匹配度：

(2)推荐最紧迫需要学习的课程

(2.2)、计算职业列表中所有课程与用户目标职业L的匹配度：

2.根据权利要求1所述的方法，其特征在于，步骤S1的具体过程为：

S1.1、以专业为单位，使用网络爬虫获取求职网站中与单个专业相关的职业要求信息；

S1.2、动词标签以及权重的确定：

S1.2.1、将职业要求中的动词定义为动词标签V-tag_i；

最终，动词标签及权重可表示为V-tag_i表示第i个动词标签，表示第i个动词标签的权值；n表示动词标签的总数；

S1.3、知识点分词标签的获取：

从职业要求中过滤所有的动词标签以及学历、沟通能力等有关字段，提取职业要求中的具体技能作为知识点分词标签；

3.根据权利要求2所述的方法，其特征在于，步骤S1.2.1中，具体对职业要求语料进行分词、停用词、过滤词标记，获取所有的动词特征词标签列表，取频率最多出现的若干个动词作为动词标签。

4.根据权利要求3所述的方法，其特征在于，分词、停用词、过滤词标记之后，人工剔除不具有实际性的指代意义的字段。

5.根据权利要求1所述的方法，其特征在于，步骤S2.2的具体过程为：当添加新的课程时，从步骤S1建立得到的特征词词典向量中提取一个或多个知识点分词标签指定为该课程的知识点分词标签，并根据该课程的学习目标指定各个知识点分词标签在该课程中的权值，则该课程的所有知识点分词标签及其权值构成该课程的课程标签向量。

6.根据权利要求1所述的方法，其特征在于，所述方法中还包括有如下步骤：

用户课程预测模型的建立：

根据用户的专业获取用户专业有关的所有课程的集合C；C划分为两大部分：与用户预有知识相关的课程集合C_pre，以及用户在系统中学习的课程集合C_{on_line}；所有课程的集合C表示如下：

C＝C_pre∪C_{on_line}；

r_j＝p+q；

C_{on_line}的最终得分向量为：

预测C_pre集合中的课程的得分：

7.一种基于权利要求1-6任一所述方法的个性化在线学习与职业双向推荐系统，其特征在于，所述系统包括：

特征词典向量建立模块：用于按照权利要求1-6任一所述方法的步骤S1建立特征词典向量；

职业标签向量库：用于存储职业标签向量，所述职业标签向量包括知识点分词标签及其权值，职业标签向量中的知识点分词标签的权值等于和该知识点分词标签组成动宾短语的动词标签在特征词词典向量中的权值；

课程标签向量库：所述课程标签向量主要由两部分构成：知识点分词标签及其权值，课程标签向量中的知识点分词标签的权值人为根据该课程的学习目标指定；

职业标签向量建立模块：用于按照权利要求1-6任一所述方法步骤S2.1建立职业标签向量；

课程标签向量建立模块：用于按照权利要求1-6任一所述方法步骤S2.2建立课程标签向量；

推荐模型：用于按照权利要求1-6任一所述方法的步骤S3为用户推荐最合适的职业或最紧迫需要学习的课程。