CN104933239A

CN104933239A - 一种基于混合模型的个性化职位信息推荐系统及实现方法

Info

Publication number: CN104933239A
Application number: CN201510314383.4A
Authority: CN
Inventors: 薛安荣; 黄祖卫
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2015-06-09
Filing date: 2015-06-09
Publication date: 2015-09-23

Abstract

本发明公开了一种基于混合模型的个性化职位信息推荐系统及实现方法，推荐系统自上而下包括表现层，推荐层，信息抽取层和信息采集层；层与层之间通过共享数据实现衔接；信息采集层负责编写网络爬虫程序；信息抽取层负责从特征页面中解析原始的职位信息，将底层获取的特征链接上传至HDFS文件系统；推荐层负责整个职位推荐系统的推荐引擎算法；表现层向用户提供交互界面，将推荐层计算出的推荐项目，通过网页的形式向求职者展现。本发明的推荐系统一定程度上降低了系统冷启动和矩阵稀疏性带来的影响，推荐的结果更全面和精确，增强系统的粘性和用户体验。

Description

一种基于混合模型的个性化职位信息推荐系统及实现方法

技术领域

本文涉及个性化推荐，数据挖掘领域。

背景技术

随着大数据的思想落地，推荐系统渐渐受到业界的热捧，它给互联网带来的效益是无法估量的。不仅仅是电商，各种互联网行业慢慢的都引入了推荐技术，例如：电影网站、音乐播放器、社交平台、职位招聘、餐饮服务等等。对推荐系统而言，推荐结果的好坏严重影响用户对服务的评价。但是，目前大多数中小型应用中建立的推荐功能由于算法策略选取和设计的不合理，使推荐结果不准确。

冷启动和评分稀疏的问题一直是推荐方面不可避免的难题，针对这两个问题，本文提出一种基于并行式的混合推荐策略，设计了一套完整的职位信息推荐系统。针对系统采集的职位信息文本利用Lucene分词器和TF-IDF算法挖掘出文本中的具有主题含义的关键词。新用户注册时系统提供引导页面采集背景知识。对背景知识采用同样的方法挖掘关键词，选择恰当的相似性计算方法计算匹配新用户背景的职位进行推荐，这是一种典型的基于内容的推荐方式。另外系统还提出了一种基于聚类的协同过滤算法，通过填补预测评分优化用户-物品评分矩阵降低矩阵的稀疏度，利用FP-Growth关联挖掘算法发现潜在的关联规则，向用户推荐可能的职位组合，最后，基于归纳统计设计辅助推荐策略，增强系统粘性。

发明内容

为了解决以往的求职系统中个性化和智能化不足、以及冷启动和评分稀疏的问题，本文发明提出了一种基于混合模型的个性化职位信息推荐系统，采用多种推荐思想策略和结合职位招聘系统自身的特点设计一套个性化的职位信息推荐系统，采用的技术方案为：

一种基于混合模型的个性化职位信息推荐系统，包括表现层，推荐层，信息抽取层和信息采集层；所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之间、所述推荐层与所述表现层之间均通过共享数据实现衔接；

所述信息采集层负责从互联网招聘网站中抓取特征链接，编写网络爬虫程序，基于Nutch进行二次开发，通过修改Nutch中Crawl类代码，采用正则表达式对外链接进行过滤得到需要的特征链接，并将特征链接保存在本地的CrawlDb文件数据库中；

所述信息抽取层负责从特征页面中解析原始的职位信息，将底层获取的特征链接上传至HDFS文件系统；

所述推荐层负责整个职位推荐系统的推荐引擎算法，所述算法包括：基于内容的推荐算法、基于聚类分析的协同过滤算法，基于关联规则的推荐算法、基于归纳统计的辅助推荐算法；

所述表现层负责向用户提供交互界面，将推荐层计算出的推荐项目，通过网页的形式向求职者展现。

进一步地，

所述基于混合模型的个性化职位信息推荐系统采用基于JSP+JavaBean+Servlet的方法构建，静态页面使用HTML展现，动态页面使用JSP展现。

本发明还提出了一种基于混合模型的个性化职位信息推荐系统的实现方法，包括：信息采集层负责编写网络爬虫程序，从互联网的招聘网站中抓取特征链接，然后将特征链接作为信息抽取层的输入，信息采集层与信息抽取层通过共享爬虫抓取的特征链接数据进行沟通；信息抽取层采用基于Hadoop的并行抽取技术，从特征链接页面当中解析出职位信息数据，将职位信息按照指定格式保存在本地数据库；推荐层根据存储在数据库中的用户评分信息、用户点击行为信息和用户背景知识采用对应的推荐算法向表现层推送职位。

进一步，所述信息采集层的实现步骤包括：

步骤1.1：分析主流招聘网站的当中职位详情页面的链接特征，构造相应的正则表达式；

步骤1.2：修改Nutch当中Crawl.java类的代码，重新编译Nutch，部署Nutch；

步骤1.3：执行Nutch脚本文件，进行抓取。

进一步，所述信息抽取层的实现步骤包括：

步骤2.1：搭建Hadoop分布式平台，将爬虫模块产生的特征链接文本上传至HDFS当中；

步骤2.2：针对不同的职位详情页面的结构编写对应的MapReduce解析程序，获取职位详情的文本信息存储在HDFS当中；

步骤2.3：编写TF-IDF算法程序获取文本信息中的关键词作为职位信息的职位关键词。

进一步，所述推荐层中的基于内容的推荐算法的具体实现步骤包括：

步骤3.1：新用户根据引导页面定制偏好，包括专业背景、期望工资、期望工资地点、专业技能、备注信息，系统保存用户背景知识；

步骤3.2：利用Lucene分词和TF-IDF算法挖掘背景知识的关键词，按照用户id，关键词的形式存储；

步骤3.3：采用Dice系数度量用户背景知识内容和职位记录的相似度，保存相似度高的前几项作为新用户推荐项。

进一步，所述推荐层中的基于聚类分析的协同过滤算法的具体实现步骤包括：

步骤4.1：将评分数据表与职位记录表连接，构建用户-职位类别矩阵；

步骤4.2：利用Mahout提供的K-means聚类算法，将用户划分为k类；

步骤4.3：用预测评分填补用户-评分矩阵中的缺省值，降低矩阵稀疏度；

步骤4.4：基于修改过后的评分矩阵利用协同过滤算法计算推荐结果。

进一步，所述推荐层中的基于关联规则的推荐算法的实现步骤包括：

步骤5.1：系统收集用户每一次点击职位行为数据；

步骤5.2：基于步骤5.1中的数据采用Mahout中的FP-Growth算法计算出职位之间的关联规则，所述关联规则如下：

R1:(2，5,9)＝>(10,18)R2:(6,20)＝>(13,1,25,30)....Rn

其中，Rk(k＝1,2,3…n)代表一条关联规则，括号中数值代表职位Id。

进一步，所述推荐层中的基于归纳统计的辅助推荐算法的实现步骤包括：

步骤6.1：将最近一段时间内点击次数最多的N个职位记录到数据库的表格中；

步骤6.2：将各个行业最近点击最多的热门职位记录到数据库的表格中；

步骤6.3：将用户最近浏览的N个职位记录到数据库的表格中；

步骤6.4：采用SQL语句针对步骤6.1至步骤6.3中数据库对应表格的记录进行统计。

和现有技术相比，本发明的有益效果为：

(1)本文设计的职位推荐系统采用了混合推荐模型，一定程度上降低了系统冷启动和矩阵稀疏性带来的影响，推荐结果更加全面和精确，可以极大增强系统的粘性和用户体验。

(2)用户可以定制自己的职位偏好获取推荐信息。

(3)系统能够学习用户行为，发现用户兴趣变化。

附图说明

图1为本发明的系统结构示意图；

图2为本发明的基于聚类分析的协同过滤推荐算法流程图；

图3为本发明的信息抓取模块的执行流程图；

图4为本发明的信息抽取执行流程图。

具体实施方式

本发明提出了一种基于混合模型的个性化职位信息推荐系统，解决了以往的求职系统中个性化和智能化不足的缺陷，采用多种推荐思想策略组合和结合职位招聘系统自身的特点设计一套个性化的职位信息推荐系统，系统将用户分为两类，分别为新用户和老用户，当新用户注册系统时，新用户可以向系统定制自己的求职意向(职位意向，工作地点意向，薪水意向，行业意向等等)基于这些偏好信息，系统后台立即能够从职位数据表当中通过计算相似度向用户推荐一些匹配度较高的项目，然后对于老用户登录系统由于已经有了相关背景信息，系统直接从表中获取推荐项目即可，接下来无论是新用户还是老用户都会在系统中进行查询职位、点击职位、职位评分等诸多行为，系统会不断的记录这些显示和隐式的行为，作为后续推荐模块当中的数据依据，比如评分数据可以用来构建评分矩阵进而采用协同过滤算法计算出用户可能会感兴趣的职位、点击行为数据可以作为关联规则算法的输入进而计算出职位的关联度，依据关联度的大小向用户推荐职位、采用归纳统计的数学计算方法统计热门点击职位，行业热门职位等等。

以下结合附图对本发明作进一步详细描述。

图1为本发明的系统结构示意图，系统综合运用了网络爬虫技术，信息抽取技术，中文分词和信息检索技术，关联挖掘技术及推荐技术实现职位查询和职位混合交叉推荐功能。

系统按照功能可以划分为四个层次，从上到下依次为：表现层，推荐层，信息抽取层和信息采集层。层与层之间通过共享数据实现衔接。例如：信息采集层与信息抽取层通过共享爬虫抓取的特征链接(包含具体招聘职位信息页面对应的链接)数据进行沟通，信息抽取层采用基于Hadoop的并行抽取技术，从特征链接页面当中解析出职位信息数据，将职位信息按照指定格式保存在本地数据库。推荐层根据存储在数据库中的用户评分信息、用户点击行为信息和用户背景知识采用对应的推荐策略向表现层推送职位。

信息采集层主要负责编写网络爬虫程序，从招聘网站中抓取特征链接(信息抓取过程如图3所示)，然后将链接作为信息抽取层的输入。该层的实现主要是基于Nutch进行二次开发，通过修改Nutch中Crawl类代码，采用正则表达式对外链接进行过滤得到需要的特征链接，特征链接保存在本地的CrawlDb文件数据库中。为了提高系统查询相应效率，该层次的工作由后台进行离线处理。

具体的实现步骤包括以下：

1、分析主流招聘网站的当中职位详情页面的链接特征，构造相应的正则表达式。

2、修改Nutch当中Crawl.java类的代码，重新编译Nutch，部署Nutch。

3、执行Nutch脚本文件，进行抓取。

如图4所示，信息抽取层主要负责从特征页面中解析原始的职位信息，将底层获取的特征链接上传至HDFS文件系统作为该层的输入，采用基于MapReduce的并行处理方式能够满足处理海量数据的需求。利用HTMLPARSE技术对网页采用基于标签结构的的方法解析流文本信息，最后引入Lucene分词机制和TF-IDF算法挖掘文本信息中能够代表职位信息的关键词作为职位信息的一部分存入数据库，关键词部分可以作为基于内容推荐模块的一部分输入，结合求职者的背景知识计算相似度，选择结果中前几项相似度比较高的职位保存作为新用户的推荐项目。该方法一定程度上可以解决冷启动问题，最终职位记录存储格式如下：

Jobinfo:(jobid,jobname,jobtime,salary,place,number,type,descripe,name,address,clickcount,education,keywords)。

具体实现步骤：

1、搭建Hadoop分布式平台，将爬虫模块产生的特征链接文本上传至HDFS当中。

2、针对不同的职位详情页面的结构编写对应的MapReduce解析程序，获取职位详情的文本信息存储在HDFS当中。

3、编写TF-IDF算法程序获取文本信息中的关键词作为职位信息的职位关键词。

推荐层主要提供了整个职位推荐系统的推荐引擎算法，本发明针对具体的职位查询需求设计了一套基于混合模型的组合推荐策略。其中，采用的核心算法包括：基于内容的推荐算法、基于聚类分析的协同过滤算法，基于关联规则的推荐算法、基于归纳统计的辅助推荐算法。各种不同的推荐算法产生的推荐项目采用并行展示，在页面的不同模块展示。具体每一种算法的实现步骤如下：

(一)基于内容的推荐算法

一般情况，推荐系统需要收集用户显示或者隐示的行为，通过分析这类行为得出用户的爱好，然后向用户推荐最有可能被采纳的物品。但是对于新用户而言，由于新用户从未向系统提供任何有价值的信息，则无法向该用户推荐任何有价值的商品，这就是所谓的冷启动问题。针对冷启动问题，本文提出了一种基于用户背景知识内容的推荐方法，具体的算法步骤如下：

算法1基于背景知识内容的推荐

输入：职位记录信息和背景知识内容；

输出：<用户id，职位id，Dice系数>；

步骤：

(1)新用户根据引导页面定制偏好(包括专业背景、期望工资、期望工资地点、专业技能、备注信息等等)系统保存用户背景知识。

(2)利用Lucene分词和TF-IDF算法挖掘背景知识的关键词，按照(用户id，关键词)的形式存储。

(3)采用Dice系数度量用户背景知识内容和职位记录的相似度，保存相似度高的前几项作为新用户推荐项。

设Bi代表用户背景知识记录，Bj代表职位记录，KeyWords(object)代表关键词个数函数，则Dice系数计算如下：

(二)基于聚类分析的协同过滤算法

在一般的协同过滤算法当中，可能会因为商品数量庞大的原因或者用户反馈信息不足等等原因导致评分矩阵的稀疏，这样一来就增大了计算成本，同时会造成大量的不相关项目影响最终的推荐项。考虑到这些问题的存在，本发明提出在针对职位推荐方面采用先聚类然后进行协同过滤计算的策略。

算法2基于聚类分析的协同过滤算法

输入：用户评分记录和职位记录信息；

输出：推荐结果；

步骤：

(1)将评分数据表与职位记录表连接，构建用户-职位类别矩阵。

(2)利用Mahout提供的K-means聚类算法，将用户划分为k类。

(3)用预测评分填补用户-评分矩阵中的缺省值，降低矩阵稀疏度。

(4)基于修改过后的评分矩阵利用协同过滤算法计算推荐结果。

(三)基于关联规则的推荐算法

关联规则挖掘是一种在大规模交易中识别类似规则关系模式的通用技术，该技术在生活中典型的应用是超市购买商品，售货员将经常被顾客一同购买的商品摆在同一个货架上。如何确定那些经常被一同购买的商品是依据历史的购物篮数据来评价的，分析这些历史数据提取关联规则。同样可以将该技术应用到本文设计的系统中，可以将单个用户在系统点击职位的记录信息保存在数据库中，每个用户看做独立的购物篮，每一条点击行为信息作为商品。因此，可以将点击职位信息的隐示行为建立成经典的购物篮的模型，利用Mahout中的FP-Growth算法发现潜在的关联规则，规则如下：

R1:(2，5,9)＝>(10,18)R2:(6,20)＝>(13,1,25,30)....Rn

规则解释：Rk(k＝1,2,3，…)代表一条关联规则，括号中数值代表职位Id，规则表明如果点击过左边括号中包含的职位，则很可能会点击右边括号中的职位，系统就可以依据这些规则向用户推荐可能被查看的职位组合。

(四)基于归纳统计的辅助推荐算法

利用基于内容推荐、基于聚类分析的协同过滤推荐、基于关联规则的推荐这三种典型推荐方法结合职位查询系统的特点设计适合本系统的推荐引擎。以上三种算法是基于求职者的背景知识或兴趣爱好计算出推荐结果，具有一定概率的可靠性和历史依据性。除此之外，本发明还提出了基于归纳统计的辅助推荐策略，该推荐策略并不是依据个体的历史记录产生推荐结果，而是从系统的所有用户的历史使用情况出发，采用归纳统计的方式产生推荐结果，作为系统的辅助推荐。辅助推荐的方式包括：1、最近一段时间内点击次数最多的N个职位；2、各个行业最近点击最多的热门职位；3、用户最近浏览的N个职位等等。具体的实现方法只需要通过简单的SQL语句针对数据库对应表格的记录进行统计即可。辅助推荐的结果只能作为系统向求职者提供的参考项，被采纳的可能性相对以上几种算法要低得多。但是，辅助推荐方式可以在一定程度上降低冷启动问题带来的负面效应

表现层主要负责向用户提供交互界面，将推荐层计算出的推荐项目，通过网页的形式向求职者展现。本发明设计的系统采用了基于JSP+JavaBean+Servlet的方法构建完整的系统，静态页面使用HTML展现，动态页面使用JSP展现。

图2为基于聚类分析的协同过滤推荐算法流程图，一般的协同过滤算法是利用用户群过去已有的行为或意见预测当前用户对哪些物品最为感兴趣，常见的显示行为包括：物品评分、收藏等；隐示行为包括：浏览记录、点击行为。协同过滤算法有两种方式：基于用户的协同过滤算法和基于物品的协同过滤算法。前者指通过不同用户对职位的评分寻找用户之间的相似性，然后向用户推荐其他相似用户评分较高的职位信息。后者通过用户对不同职位的评分预测职位之间的相似性，然后向用户推荐与之前评分较高的职位相似的职位。本发明基于Mahout根据职位固有的属性(职位工资，职位有效期等)进行二次开发设计出符合职位推荐的协同过滤算法，通过实现IDrescore接口中的IsFiltered(long id)方法过滤掉推荐项目中不符合用户背景知识的推荐项目，比如：求职者的背景知识明确给出期待薪水大于5000元，直接使用Mahout中的基于物品的协同过滤算法得到的只是一般推荐项，使得到的推荐结果不理想，但是通过实现合适的过滤器过滤推荐项中工资低于5000的职位项，则推荐的项目会更让求职者满意，根据需要可以设置多个类似的条件优化推荐项目。

实验结果表明即使可以通过设置过滤条件可以优化推荐结果，但是由于评分矩阵的稀疏性质，导致许多用户计算出的推荐结果为空。针对该问题本文引入聚类技术对协同过滤推荐算法进行改进，填充预测评分，降低评分矩阵的稀疏度。除此之外，将评分矩阵限定在相同类别的用户规模下，可以降低评分矩阵的纵向深度和横向宽度，加快相似度计算效率。

基于聚类分析的协同过滤算法分为两个部分：聚类和推荐，聚类分析目标是将对同类型职位具有相同偏好的用户进行归类，建立用户的行为模型，然后基于该模型对原来的稀疏评分矩阵填充预测评分，可以降低评分矩阵的稀疏度，提高协同过滤算法的准确度。

算法步骤如下：

(1)将评分数据表与职位记录表连接，将用户对不同类别职位打分的次数作为该用户对此类职位的偏好值，构建用户-职位类别矩阵。

(2)选定K个用户作为初始聚类中心，单个用户节点表示为向量：Ui＝{t1,t2,t3,...tn}tk表示用户i对类型k的偏好值，利用Mahout提供的K-means算法，将用户划分为k类。

(3)对评分矩阵中的空值填补预测评分，降低矩阵稀疏度。

代表用户i对职位j的预测评分，代表用户i已有评分的均值，U代表与用户i属于同一个簇内的所有用户，p代表与i同类同时对职位j有评分的用户。

Claims

1.一种基于混合模型的个性化职位信息推荐系统，其特征在于，包括表现层，推荐层，信息抽取层和信息采集层；所述信息采集层与所述信息抽取层之间、所述信息抽取层与所述推荐层之间、所述推荐层与所述表现层之间均通过共享数据实现衔接；

2.根据权利要求1所述的一种基于混合模型的个性化职位信息推荐系统，其特征在于，

3.根据权利要求1或2所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，包括：信息采集层负责编写网络爬虫程序，从互联网的招聘网站中抓取特征链接，然后将特征链接作为信息抽取层的输入，信息采集层与信息抽取层通过共享爬虫抓取的特征链接数据进行沟通；信息抽取层采用基于Hadoop的并行抽取技术，从特征链接页面当中解析出职位信息数据，将职位信息按照指定格式保存在本地数据库；推荐层根据存储在数据库中的用户评分信息、用户点击行为信息和用户背景知识采用对应的推荐算法向表现层推送职位。

4.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述信息采集层的实现步骤包括：

步骤1.3：执行Nutch脚本文件，进行抓取。

5.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，所述信息抽取层的实现步骤包括：

6.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，

所述推荐层中的基于内容的推荐算法的具体实现步骤包括：

7.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，

所述推荐层中的基于聚类分析的协同过滤算法的具体实现步骤包括：

8.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，

所述推荐层中的基于关联规则的推荐算法的实现步骤包括：

步骤5.1：系统收集用户每一次点击职位行为数据；

R1:(2，5,9)＝>(10,18)R2:(6,20)＝>(13,1,25,30)....Rn

9.根据权利要求3所述的一种基于混合模型的个性化职位信息推荐系统的实现方法，其特征在于，

所述推荐层中的基于归纳统计的辅助推荐算法的实现步骤包括：

步骤6.3：将用户最近浏览的N个职位记录到数据库的表格中；