CN110929169A

CN110929169A - 基于改进Canopy聚类协同过滤算法的职位推荐方法

Info

Publication number: CN110929169A
Application number: CN201911156079.6A
Authority: CN
Inventors: 郭盛
Original assignee: Beijing Netemployment Consulting Co Ltd
Current assignee: Beijing Netemployment Consulting Co Ltd
Priority date: 2019-11-22
Filing date: 2019-11-22
Publication date: 2020-03-27

Abstract

本发明公开了一种基于改进Canopy聚类协同过滤算法的职位推荐方法，括以下步骤：步骤一、获取用户求职信息数据；步骤二、以用户求职信息数据作为数据处理对象，通过改进的Canopy聚类协同过滤算法；对用户求职信息数据进行聚类得到多个Canopy类；步骤三、对每个Canopy类中的用户进行相应的职位推荐。本发明通过改进的Canopy聚类协同过滤算法将用户对招聘信息的活跃度和评分引入计算获得用户对招聘信息的认可度，并通过认可度对用户的求职信息进行聚类进而进行职位推荐，满足了用户对多领域感兴趣的需求，对其进行相应的推荐，提高了职位推荐的准确度。

Description

基于改进Canopy聚类协同过滤算法的职位推荐方法

技术领域

本发明涉及计算机领域。更具体地，涉及基于改进Canopy聚类协同过滤算法的职位推荐方法。

背景技术

随着互联网的飞速发张，大数据时代的到来，大数据的高效处理在各行各业变的尤为重要，在信息过载的当代中，大量的用户开始在网络上求职，采购，社交等等，用户需要高效快速地在网络大数据中获取对自己有用的信息，这便要求相应的互联网数据分析需要达到用户的要求，为了获得更多的用户，企业的发展，大数据的处理方法也在不断改进更新。

基于网络的多资源，大信息量的特点，网络求职招聘也逐渐成为当今流行的求职招聘形式，在当今的网络求职招聘中，求职者在相应的网络招聘平台上发布个人简历，用人单位在相应的网络招聘平台上发布其需要的职位信息，网络招聘平台通过用人单位的职位信息和求职者的简历信息有针对性地对求职者进行求职信息推荐，同时向用人单位推荐其需求的求职者简历信息。网络招聘平台中的推荐系统通过建立用户和信息产品之间的二元关系，利用用户行为产生的数据挖掘每个用户感兴趣的对象并进行推荐，现有的推荐方法有：基于关键词推荐，其推荐精度通常不高，基于标准化格式输入推荐，其已经不能满足当前求职用户的多样化的需求，基于测试题推荐，其准确性不高。

因此，需要开发一种新的推荐方法，可准确有效地对求职用户的职位进行推荐。

发明内容

本发明的一个目的是至少解决上述问题，并提供后面将说明的其它优点；

本发明另一个目的是提供一种基于改进Canopy聚类协同过滤算法的职位推荐方法，能够显著提高职位推荐的精确度和准确度；以及

本发明的又一个目的是提供一种基于改进Canopy聚类协同过滤算法的职位推荐方法，能够符合同一用户可能对多领域感兴趣的情况，对其进行不同领域职位的推荐。

为了实现根据本发明的这些目的和其它优点，提供了一种基于改进Canopy聚类协同过滤算法的职位推荐方法，其中，包括以下步骤：

步骤一、获取用户求职信息数据；

步骤二、以用户求职信息数据作为数据处理对象，通过改进的Canopy聚类协同过滤算法；对用户求职信息数据进行聚类得到多个Canopy类；

其中，改进的Canopy聚类协同过滤算法包括如下步骤：

1)引入用户U₁对招聘信息I_n的活跃度A_n，用户对招聘信息I_n的评分S_n，计算用户U₁对招聘信息I_n的认可度R_n，认可度R_n的计算公式如式(I)中：

R_n＝a m(U₁,A_n)+b n(U₁,S_n) (I)

式(I)中，a+b＝1，m(U₁,A_n)为用户U₁对招聘信息I_n的点击次数与用户U₁对所有招聘信息的点击次数的比值，n(U₁,S_n)为用户U₁对招聘信息I_n的评分与评分最高分的比值；

2)以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；根据Canopy算法将数据集分为多个子集Canopy类；

步骤三、对每个Canopy类中的用户进行相应的职位推荐。

这样，通过改进的Canopy聚类协同过滤算法将用户活跃度与用户评分相结合，计算用户对招聘信息的认可度，对用户求职信息数据进行聚类，不仅符合用户可能对多领域感兴趣的情况，而且显著提高了职位推荐的推荐准确度和精确度。

优选的是，所述的基于改进Canopy聚类协同过滤算法的职位推荐方法，其中，所述步骤2)中，具体包括：A、以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；B、从数据集中随机选取一个数据P作为第一个Canopy的质心，并将P从数据集中删除；C、从数据集中随机选取一个数据Q，计算Q到所有质心的距离，考察其中最小的距离D，如果D≦T₁，则给Q一个弱标记，表示Q属于该Canopy，并将Q加入其中，如果D≦T₂，则给Q一个强标记，表示Q属于该Canopy，且和质心非常接近，将该Canopy的质心设为所有强标记数据的中心位置，并将Q从数据集L中删除；如果D﹥T₁，则Q形成一个新的聚簇，并将Q从数据集L中删除；D、重复步骤C知道数据集L中的数据个数为零。

这样相当于将同一用户对不同职位的认可度进行统一分类，类似职位的归为同一类，便于与用人单位的职位信息类进行匹配，能够有效地提高职位推荐的准确度，也可以对同一用户感兴趣的不同类领域的职位对其进行推荐。

优选的是，所述的基于改进Canopy聚类协同过滤算法的职位推荐方法，其中，交叉验证调参设定初始距离阈值T₁、T₂，其过程为：将随机抽取的多个用户对多种招聘信息的1000个认可度数据集分为10个数目相同的子集，其中9个作为训练集，剩余1个作为测试集，过程中对可能的10中选择重复进行，使用不同的阈值参数进行训练，最后用测试集进行训练。

因为T₁过大时，会使数据集属于多个Canopy类，各个Canopy类间区别不明显；当T₂过大时，会减少Canopy类的个数，而当T₂过小时，会增加Canopy类个数，同时增加计算时间，这样通过交叉验证设定初始距离阈值T₁、T₂，使得得到的多个子集Canopy类中区别明显，同时不增加计算时间，。

优选的是，所述的基于改进Canopy聚类协同过滤算法的职位推荐方法，其中，a＝0.6，b＝0.4。

优选的是，所述的基于改进Canopy聚类协同过滤算法的职位推荐方法，其中，所述步骤三中，对每个Canopy类中的用户进行相应的职位推荐具体包括：将步骤二中得到的多个子集Canopy类与预存的用人单位的多个职位Canopy类进行归属对应，将同一用户得到的多个Canopy类归属到的多个职位Canopy类中的相应的职位信息向求职者进行职位推荐。

这样通过将用户的求职信息数据和用人单位的职位信息数据分别进行计算处理形成相应的多个求职信息Canopy类和职位信息Canopy类，使得同一个用户的多个求职信息Canopy类对应相应的职位信息Canopy类，满足用户可能对多个领域感兴趣的情况，提高了用户求职信息的职位推荐准确度。

本发明还提供一种基于改进的Canopy聚类协同过滤算法的职位推荐装置，其中，包括：

用户求职信息数据获取模块，其设置在待推荐职位的APP或者服务器内；

数据处理平台，其设置在待推荐职位的APP或者服务器内，用于当用户求职信息数据获取模块获取用户求职信息数据时，对用户求职信息进行处理得到多个Canopy类；

存储模块，其设置在待推荐职位的APP或者服务器内，用于对用人单位的信息和用户的求职信息数据进行存储；

用户求职信息归属模块，其设置在待推荐职位的APP或者服务器内，用于将用户求职信息数据处理模块处理后的用户求职信息与存储模块中的用人单位的职位信息进行归属对应；

职位推荐模块，其设置在待推荐职位的APP或者服务器内，用于将同一用户得到的多个Canopy类归属到的多个职位Canopy类中的相应的职位信息向求职者进行职位推荐。

优选的是，所述的基于改进的Canopy聚类协同过滤算法的职位推荐装置，其中，还包括：用人单位职位信息数据获取模块，其设置在待推荐职位的APP或者服务器内，用于获取用人单位职位信息。

优选的是，所述的基于改进的Canopy聚类协同过滤算法的职位推荐装置，其中，数据处理平台包括：用户求职信息数据处理模块，其用于当用户求职信息数据获取模块获取用户求职信息数据时，对用户求职信息进行处理得到多个Canopy类；用人单位职位信息数据处理模块，其用于对用人单位职位信息通过Canopy算法进行处理得到多个职位Canopy类。

本发明还公开了一种电子设备，其中，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述方法中任一项所述的方法。

本发明至少包括以下有益效果：1)符合用户可能对多领域感兴趣的情况，做到对每个Canopy中的用户进行相应的职位推荐；2)显著提高职位推荐的准确度和精确度；3)发展了招聘网络平台的大数据服务计算，从而显著提升用户和平台之间的交互质量和效率。

本发明的其它优点、目标和特征将部分通过下面的说明体现，部分还将通过对本发明的研究和实践而为本领域的技术人员所理解。

附图说明

图1为本发明其中一个实施例中基于改进的Canopy聚类协同过滤算法的职位推荐方法的流程示意图；

图2为本发明其中一个实施例中基于改进的Canopy聚类协同过滤算法的职位推荐装置的结构示意图。

具体实施方式

下面结合附图对本发明做进一步的详细说明，以令本领域技术人员参照说明书文字能够据以实施。

应当理解，本文所使用的诸如“具有”、“包含”以及“包括”术语并不配出一个或多个其它元件或其组合的存在或添加。

本发明提供一种基于改进的Canopy聚类协同过滤算法的职位推荐方法，包括如下步骤：

步骤一、获取用户求职信息数据；

其中，改进Canopy聚类协同过滤算法包括如下步骤：

R_n＝a m(U₁,A_n)+b n(U₁,S_n) (I)

步骤三、对每个Canopy类中的用户进行相应的职位推荐。

在本发明的其中一个实施例中，作为优选，所述步骤2)中，具体包括：A、以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；B、从数据集中随机选取一个数据P作为第一个canopy的质心，并将P从数据集中删除；C、从数据集中随机选取一个数据Q，计算Q到所有质心的距离，考察其中最小的距离D，如果D≦T₁，则给Q一个弱标记，表示Q属于该canopy，并将Q加入其中，如果D≦T₂，则给Q一个强标记，表示Q属于该canopy，且和质心非常接近，将该canopy的质心设为所有强标记数据的中心位置，并将Q从数据集L中删除；如果D﹥T₁，则Q形成一个新的聚簇，并将Q从数据集L中删除；D、重复步骤C知道数据集L中的数据个数为零。

在本发明的其中一个实施例中，作为优选，交叉验证调参设定初始距离阈值T₁、T₂，其过程为：将随机抽取的多个用户对多种招聘信息的1000个认可度数据集分为10个数目相同的子集，其中9个作为训练集，剩余1个作为测试集，过程中对可能的10中选择重复进行，使用不同的阈值参数进行训练，最后用测试集进行训练。

在本发明的其中一个实施例中，作为优选，a＝0.6，b＝0.4。

在本发明的其中一个实施例中，作为优选，所述步骤三中，对每个Canopy类中的用户进行相应的职位推荐具体包括：将步骤二中得到的多个子集Canopy类与预存的用人单位的多个职位Canopy类进行归属对应，将同一用户得到的多个Canopy类归属到的多个职位Canopy类中的相应的职位信息向求职者进行职位推荐。

本发明还提供了一种基于改进的Canopy聚类协同过滤算法的职位推荐装置，包括：

在本发明的其中一个实施例中，作为优选，还包括：用人单位职位信息数据获取模块，其设置在待推荐职位的APP或者服务器内，用于获取用人单位职位信息。

在本发明的其中一个实施例中，作为优选，数据处理平台包括：

用户求职信息数据处理模块，其用于当用户求职信息数据获取模块获取用户求职信息数据时，对用户求职信息进行处理得到多个Canopy类；

用人单位职位信息数据处理模块，其用于对用人单位职位信息通过Canopy算法进行处理得到多个职位Canopy类。

本发明还提供了一种电子设备，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行上述所述的基于改进的Canopy聚类协同过滤算法的职位推荐方法。

为使本领域技术人员更好地理解本发明的技术方案，现提供如下的实施例进行说明：

基于现有的网络招聘平台大多数只提取用户简历信息中的专业信息，地域信息等关键词，对用户进行职位推荐，但是，现有好多用户在毕业后想转行从事和本专业不同的行业等，这种推荐方法不能很好地满足用户的需求，推荐的准确度也偏低，因此，本发明提出了一种基于改进的Canopy聚类协同过滤算法的职位推荐方法，如图1所示，当求职用户将个人求职信息放入招聘网络平台时，因为其会浏览招聘网络平台上发布的招聘信息，当用户浏览点击其感兴趣的招聘信息后，招聘网络平台获取用户的求职信息，以用户对某一或者多种招聘信息的活跃度以及用户对求职信息的评分作为数据处理对象，通过改进的Canopy聚类协同过滤算法；对用户求职信息数据进行聚类得到多个Canopy类；

其中，改进Canopy聚类协同过滤算法包括如下步骤：

R_n＝a m(U₁,A_n)+b n(U₁,S_n) (I)

式(I)中，a＝0.6，b＝0.4，m(U₁,A_n)为用户U₁对招聘信息I_n的点击次数与用户U₁对所有招聘信息的点击次数的比值，n(U₁,S_n)为用户U₁对招聘信息I_n的评分与评分最高分的比值；

2)以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；交叉验证调参其过程是：将随机抽取的多个用户对多种求职信息的1000个认可度数据集分为10个数目相同的子集，其中9个作为训练集，剩余1个作为测试集，过程中对可能的10中选择重复进行，使用不同的阈值参数进行训练，最后用测试集进行训练；根据Canopy算法将数据集分为多个子集Canopy类；

其中，交叉验证调参过程也是本领域常用的技术手段，Canopy算法为常规的Canopy算法，根据Canopy算法将数据集分为多个子集Canopy类具体包括：A、以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；B、从数据集中随机选取一个数据P作为第一个canopy的质心，并将P从数据集中删除；C、从数据集中随机选取一个数据Q，计算Q到所有质心的距离，考察其中最小的距离D，如果D≦T₁，则给Q一个弱标记，表示Q属于该canopy，并将Q加入其中，如果D≦T₂，则给Q一个强标记，表示Q属于该canopy，且和质心非常接近，将该canopy的质心设为所有强标记数据的中心位置，并将Q从数据集L中删除；如果D﹥T₁，则Q形成一个新的聚簇，并将Q从数据集L中删除；D、重复步骤C知道数据集L中的数据个数为零。

在对用户进行职位推荐之前，招聘网络平台预先将其接受到的用人单位的招聘信息通过常规的Canopy算法进行聚类，形成多个职位Canopy类，具体以职位名称为Canopy的质心进行聚类，将相同的职位聚集为初Canopy类后，通过地域为质心对初Canopy类再次进行聚类，将地域近的相同职位聚集为最终职位子集Canopy类，最后通过最终职位子集Canopy类与通过计算获得的多个求职信息子集Canopy类进行归属对应，例如，若用户求职信息计算得到的求职信息子集类有计算机教学类、网络编程类，数字分析类，编程培训类，招聘网络平台可以根据聚类结果预测用户可能感兴趣的对象，从预存的用人单位的多个职位信息类中相应地选择计算机教师、程序员、云计算分析师、编程教育培训师职位对该用户进行职位推荐。这样既符合用户对多领域感兴趣的情况，而且提高了招聘网络平台职位推荐的准确度。

如图2所示，本发明还提供了一种基于改进的Canopy聚类协同过滤算法的职位推荐装置，其设置在网络招聘平台上，也即待推荐职位的APP(手机上运行的应用软件)或者服务器内，具体包括：

用户求职信息数据获取模块，用于获取用户求职信息数据，包括用户的基本信息数据，用户点击浏览招聘信息的数据以及用户对招聘信息的评分数据；

数据处理平台，用户求职信息数据处理模块，其用于当用户求职信息数据获取模块获取用户求职信息数据时，对用户求职信息进行处理得到多个Canopy类；用人单位职位信息数据处理模块，其用于对用人单位职位信息通过Canopy算法进行处理得到多个职位Canopy类。

存储模块，用于对用人单位的信息和用户的求职信息数据进行存储；

用户求职信息归属模块，用于将用户求职信息数据处理模块处理后的用户求职信息与存储模块中的用人单位的职位信息进行归属对应；

职位推荐模块，用于将同一用户得到的多个Canopy类归属到的多个职位Canopy类中的相应的职位信息向求职者进行职位推荐。

本发明的技术方案带来如下有益效果：

1、通过引进用户对招聘信息的活跃度和评分，采用改进的Canopy聚类协同过滤算法对用户的求职信息进行聚类，符合用户可能对多领域感兴趣的情况，最后对每个Canopy类中的用户进行相应的推荐。

2、通过在数据集MovieLens和Million Songs上与对比算法进行MAE、RMSE、NDGG三个指标的比较,验证了算法能显著提高推荐系统预测与推荐的准确度。

这里说明的模块数量和处理规模是用来简化本发明的说明的。对本发明的XX的应用、修改和变化对本领域的技术人员来说是显而易见的。

尽管本发明的实施方案已公开如上，但其并不仅仅限于说明书和实施方式中所列运用，它完全可以被适用于各种适合本发明的领域，对于熟悉本领域的人员而言，可容易地实现另外的修改，因此在不背离权利要求及等同范围所限定的一般概念下，本发明并不限于特定的细节和这里示出与描述的图例。

Claims

1.基于改进的Canopy聚类协同过滤算法的职位推荐方法，其特征在于，包括以下步骤：

步骤一、获取用户求职信息数据；

其中，改进的Canopy聚类协同过滤算法包括如下步骤：

R_n＝a m(U₁,A_n)+b n(U₁,S_n)(I)

步骤三、对每个Canopy类中的用户进行相应的职位推荐。

2.如权利要求1所述的基于改进的Canopy聚类协同过滤算法的职位推荐方法，其特征在于，所述步骤2)中，具体包括：A、以计算得到的认可度R_n随机排列成数据集L＝{P₁,P₂,…P_x}，根据交叉验证调参设定初始距离阈值T₁、T₂，且T₁﹥T₂；B、从数据集中随机选取一个数据P作为第一个Canopy的质心，并将P从数据集中删除；C、从数据集中随机选取一个数据Q，计算Q到所有质心的距离，考察其中最小的距离D，如果D≦T₁，则给Q一个弱标记，表示Q属于该Canopy，并将Q加入其中，如果D≦T₂，则给Q一个强标记，表示Q属于该Canopy，且和质心非常接近，将该Canopy的质心设为所有强标记数据的中心位置，并将Q从数据集L中删除；如果D﹥T₁，则Q形成一个新的聚簇，并将Q从数据集L中删除；D、重复步骤C知道数据集L中的数据个数为零。

3.如权利要求2所述的基于改进的Canopy聚类协同过滤算法的职位推荐方法，其特征在于，交叉验证调参设定初始距离阈值T₁、T₂，其过程为：将随机抽取的多个用户对多种招聘信息的1000个认可度数据集分为10个数目相同的子集，其中9个作为训练集，剩余1个作为测试集，过程中对可能的10中选择重复进行，使用不同的阈值参数进行训练，最后用测试集进行训练。

4.如权利要求1所述的基于改进的Canopy聚类协同过滤算法的职位推荐方法，其特征在于，a＝0.6，b＝0.4。

5.如权利要求1所述的基于改进的Canopy聚类协同过滤算法的职位推荐方法，其特征在于，所述步骤三中，对每个Canopy类中的用户进行相应的职位推荐具体包括：将步骤二中得到的多个子集Canopy类与预存的用人单位的多个职位Canopy类进行归属对应，将同一用户得到的多个Canopy类归属到的多个职位Canopy类中的相应的职位信息向求职者进行职位推荐。

6.基于改进的Canopy聚类协同过滤算法的职位推荐装置，其特征在于，包括：

7.如权利要求6所述的基于改进的Canopy聚类协同过滤算法的职位推荐装置，其特征在于，还包括：用人单位职位信息数据获取模块，其设置在待推荐职位的APP或者服务器内，用于获取用人单位职位信息。

8.如权利要求6所述的基于改进的Canopy聚类协同过滤算法的职位推荐装置，其特征在于，数据处理平台包括：

9.电子设备，其特征在于，包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行权利要求1-5中任一项所述的方法。