发明内容
1、要解决的问题
针对上述现有技术存在的问题,本发明提供一种职位信息快速投递方法,具体来说,排序层之前所用的分区规则对所有用户采取同一套规则排序,有很大局限性,所导致的结果是千人一面,无法满足所有用户的偏好,本发明要实现的功能就是要实现能够满足所有用户偏好的推送的优选信息流。
2、技术方案
为解决上述问题,本发明采用如下的技术方案。
本申请提供一种职位信息快速投递方法,包括以下步骤:
(1)建立职位信息快速投递的算法层面基本流程方法
收集用户信息,依次推送给粗排序层和精排序层,得到职位列表。
(2)优化用户信息
将步骤(1)中收集的用户信息利用改进的PageRank算法来优化分词,并根据分词得到的词频来确定关键词的权重。
(3)优化粗排序层
将步骤(2)优化后的用户信息进行召回与重排两个阶段的处理,得到职业池。
召回粗排的目的是为了给精排模型输入足够多的符合用户意向的结果候选集。
(4)优化精排序层
将步骤(3)得到后的职业池,利用模型训练得到有序职位列表。
上述所述的职位信息快速投递方法中,步骤(1)中用户信息存储在云服务器中;
其中用户信息设置有多个元数据,所述的元数据为用户的职业基本信息项。
上述所述的职位信息快速投递方法中,步骤(2)中所述的改进的PageRank算法公式如下:
式中,其中TFij代表用户信息第i行第j列的关键词的词频,其中ni,j代表用户信息第i行第j列的关键词的文本数,其中∑knk,j代表用户信息第k行第j列的关键词在第k行出现次数之和。
上述所述的职位信息快速投递方法中,步骤(2)中所述的关键词的权重的计算公式如下:
式中,其中P(S)代表用户信息中关键词的权重值,其中S代表用户信息的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
上述所述的职位信息快速投递方法中,步骤(3)中召回阶段的步骤如下:
根据步骤(2)中确定的关键词的权重的需求,获取用户求职意向信息,并搜索满足用户求职信息的职位,得到第一职位池。
上述所述的职位信息快速投递方法中,步骤(3)中重排阶段的步骤如下:
根据步骤(3)召回阶段中得到的第一职位池,接着通过职位信息与用户信息计算所述的第一职位池中职位的得分,并判断所述的第一职位池的得分是否高于阈值,若其高于上述阈值,则统计所述的第一职位池是否还有未计算得分的职位,若其低于上述阈值,则从所述的第一职位池中删除上述职位并统计所述的第一职位池是否还有未计算得分的职位;若统计所述的第一职位池还有未计算得分的职位,则重新执行通过职位信息与用户信息计算所述的第一职位池中职位的得分的步骤,若统计所述的第一职位池没有未计算得分的职位,则进行所述的第一职位池的职位数量是否超过规定值的判断,若其超过规定值,则取所述的第一职位池的前序规定数量的职位并获得第二职位池,若其未超过超过规定值,则直接获得第二职位池。
上述所述的职位信息快速投递方法中,步骤(3)中搜索满足用户求职信息的职位的算法公式如下:
式中,其中W(wi)代表用户求职信息中的权重值,其中d代表范围在0-1的阻尼系数,其中wij代表用户信息第i行第j列的关键词的权重值,其中wi代表(1≤i≤n)代表第i组关键词的序列号,其中wj(1≤j≤n)代表第j组关键词的序列号,其中wjk(1≤j≤k≤n)代表第j组中小组k组关键词的序列号,其中wk∈O(wj)代表wk属于O(wj)集合。
上述所述的职位信息快速投递方法中,步骤(4)中利用模型训练的方法如下:
将步骤(3)重排阶段中得到的第二职位池,接着通过LambdaMart模型计算所述的第二职位池中职位的得分,接着统计所述的第二职位池是否还有未计算得分的职位;若统计所述的第二职位池还有未计算得分的职位,则重新执行通过LambdaMart模型计算所述的第二职位池中职位的得分的步骤,若所述的第二职位池没有未计算得分的职位,则将所述的第二职位池中所有的职位按分值进行降序排列,获得有序职位列表。
上述所述的职位信息快速投递方法中,步骤(4)中LambdaMart模型的应用方法如下:
对所述的第二职位池中职位的基础信息、职位的动态信息、用户的基础信息、用户的行为特征进行离线的模型训练。
上述所述的职位信息快速投递方法中,步骤(4)中LambdaMart模型的改进的算法公式如下:
式中,其中DCGT代表第二职位池中职位的特征匹配值,其中i(1≤i≤T)代表第二职位池中第i个职位的信息,其中li代表特征检索的结果与查询的相关度等级。
3、有益效果
相比于现有技术,排序层之前所用的分区规则对所有用户采取同一套规则排序,有很大局限性,所导致的结果是千人一面,无法满足所有用户的偏好。
本发明的突出有益效果为:
在发明中,新排序层弱化分区,采用模型进行排序,模型采用的特征主要包括职位的历史点击投递等静态热度特征,以及用户的历史点击职位的分布特征,比如职位所在区域分布、要求工作年限分布、学历分布以及薪资分布等;充分发掘用户的历史行为偏好,综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMart模型,会更加关注对用户推荐的一个整体效果;充分发掘用户的历史行为偏好,综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMart模型,会更加关注对用户推荐的一个整体效果。有效提升用户的点击率。
具体实施方式
下面结合具体实施例对本发明进一步进行描述。
在本发明中,业务方将用户信息传递给算法团队,算法团队利用用户的基础信息(包括但不限于求职意向,薪资水平,工作经历等)召回初步符合条件的职位池,同时将职位信息与用户信息相匹配,筛选出较精准的职位进入精排阶段,在此阶段中利用用户行为信息与职位的动态信息进行计算,将职位进行排序,得出最适合用户投递的列表,将该列表传递回业务方,业务方读取该列表,依次展示给用户,用户可选择投递或跳过至下一职位,每日限定固定职位,该类行为会记录在数据库用于后续的模型训练。
本发明中职位信息快速投递方法,如图1所示,包括以下步骤:
(1)建立职位信息快速投递的算法层面基本流程方法
收集用户信息,接着推送给粗排序层,接着推送给精排序层,最后得到职位列表;
上述所述的职位信息快速投递方法中,步骤(1)中用户信息存储在云服务器中;
其中用户信息设置有多个元数据,所述的元数据为用户的职业基本信息项。
(2)优化用户信息
将步骤(1)中收集的用户信息利用改进的PageRank算法来优化分词,并根据分词得到的词频来确定关键词的权重;
上述所述的职位信息快速投递方法中,步骤(3)中召回阶段的步骤如下:
如图2所示,根据步骤(2)中确定的关键词的权重的需求,获取用户求职意向信息,并搜索满足用户求职信息的职位,得到第一职位池。
(3)优化粗排
将步骤(2)优化后的用户信息进行召回与重排两个阶段的处理,得到职业池;
需要说明的是,优化粗排的目的是为了给精排模型输入足够多的且符合用户意向的结果候选集。这个过程分为召回和重排两个部分。
更具体的说,
步骤(3)中召回阶段的步骤如下:
根据步骤(2)中确定的关键词的权重的需求,获取用户求职意向信息,并搜索满足用户求职信息的职位,得到第一职位池。
召回阶段,会使用用户意向里相关的筛选维度,在整个职位库里进行全量检索和过滤,保证召回的结果在几个关键维度上是绝对匹配用户需求的。为了召回更多的结果,还会对某些筛选条件进行适度的泛化处理。
步骤(3)中重排阶段的步骤如下:
如图3所示,根据步骤(3)召回阶段中得到的第一职位池;
接着通过职位信息与用户信息计算所述的第一职位池中职位的得分,并判断所述的第一职位池的得分是否高于阈值;
若其高于上述阈值,则统计所述的第一职位池是否还有未计算得分的职位;若其低于上述阈值,则从所述的第一职位池中删除上述职位并统计所述的第一职位池是否还有未计算得分的职位;
若统计所述的第一职位池还有未计算得分的职位,则重新执行通过职位信息与用户信息计算所述的第一职位池中职位的得分的步骤,若统计所述的第一职位池没有未计算得分的职位,则进行所述的第一职位池的职位数量是否超过规定值的判断;
若其超过规定值,则取所述的第一职位池的前序规定数量的职位并获得第二职位池,若其未超过超过规定值,则直接获得第二职位池。
因此,粗排阶段,会对一些个性化的特征进行提权,达到更匹配用户求职意向的目的。比如对职位标题或关键词、教育背景、行业、职类、工作年限等,和用户相关特征匹配的,进行提权。粗排结束后,结果候选集会在多个特征维度上满足用户的意向或偏好。
因此,召回粗排的策略由于简单、高效,所以它适用于所有填写了求职意向的用户。
上述所述的职位信息快速投递方法中,步骤(3)中搜索满足用户求职信息的职位的算法公式如下:
式中,其中W(wi)代表用户求职信息中的权重值,其中d代表范围在0-1的阻尼系数,其中wij代表用户信息第i行第j列的关键词的权重值,其中wi代表(1≤i≤n)代表第i组关键词的序列号,其中wj(1≤j≤n)代表第j组关键词的序列号,其中wjk(1≤j≤k≤n)代表第j组中小组k组关键词的序列号,其中wk∈O(wj)代表wk属于O(wj)集合。
上述所述的职位信息快速投递方法中,步骤(4)中利用模型训练的方法如下:
如图4所示,将步骤(3)重排阶段中得到的第二职位池,接着通过LambdaMart模型计算所述的第二职位池中职位的得分,接着统计所述的第二职位池是否还有未计算得分的职位;若统计所述的第二职位池还有未计算得分的职位,则重新执行通过LambdaMart模型计算所述的第二职位池中职位的得分的步骤,若所述的第二职位池没有未计算得分的职位,则将所述的第二职位池中所有的职位按分值进行降序排列,获得有序职位列表。
(4)优化精排
将步骤(3)得到后的职业池,利用模型训练得到有序职位列表。
上述所述的职位信息快速投递方法中,步骤(2)中所述的改进的PageRank算法公式如下:
式中,其中TFij代表用户信息第i行第j列的关键词的词频,其中ni,j代表用户信息第i行第j列的关键词的文本数,其中∑knk,j代表用户信息第k行第j列的关键词在第k行出现次数之和。
上述所述的职位信息快速投递方法中,步骤(2)中所述的关键词的权重的计算公式如下:
式中,其中P(S)代表用户信息中关键词的权重值,其中S代表用户信息的关键词的权重值的总序列,其中wi(1≤i≤n)代表第i组关键词的序列号。
上述所述的职位信息快速投递方法中,步骤(4)中LambdaMart模型的应用方法如下:
对所述的第二职位池中职位的基础信息、职位的动态信息、用户的基础信息、用户的行为特征进行离线的模型训练。
上述所述的职位信息快速投递方法中,步骤(4)中LambdaMart模型的改进的算法公式如下:
式中,其中DCGT代表第二职位池中职位的特征匹配值,其中i(1≤i≤T)代表第二职位池中第i个职位的信息,其中li代表特征检索的结果与查询的相关度等级。
对于提及的LambdaMart模型,具体来说,精排模型采用的是LambdaMart模型,Lambd aMart是一种Listwise类型的LTR算法,它基于LambdaRank算法和MART(MultipleAdditiv e Regression Tree)算法,将搜索引擎结果排序问题转化为回归决策树问题。MART实际就是梯度提升决策树(GBDT,Gradient Boosting Decision Tree)算法。GBDT的核心思想是在不断的迭代中,新一轮迭代产生的回归决策树模型拟合损失函数的梯度,最终将所有的回归决策树叠加得到最终的模型。LambdaMart使用一个特殊的Lambda值来代替上述梯度,也就是将LambdaRank算法与MART算法加和起来。精排模型是以点击为目标进行训练的,考虑到用户的实际情况,职位曝光给用户的界面是职位卡片的信息。为此我们设计开发了用户的行为偏好类特征。职位卡片的信息主要有职位的工作年限、学历、薪资、公司规模以及所处区域等信息,以此我们统计用户过去一段时间点击过的职位的这些相关信息的次数分布作为用户求职方向的偏好,然后再用此特征与待排序的职位的该信息进行匹配计算作为模型的特征输入模型。比如我们把用户过去15天的点击工作年限的职位统计出来,特征为{“1-3”:30,“3-5”:15,“5-10”:5},即该用户过去15天1-3年点击了30次,3-5年点击了15次,5-10年点击了5次,待排序的职位A、B、C工作年限分别是1-3,3-5,5-10,然后将两者进行相应匹配计算得到命中的次数所占总次数的比率为0.6、0.3、0.1。至此则完成一次特征的计算。除了偏好类特征外,我们设计开发相应的职位热度特征,比如职位的曝光数、点击数以及投递数,进一步得到职位对应的ctr与cvr,均作为模型的特征。将模型所需的所有特征计算完毕,然后进行训练得到相应的模型,最后部署到线上进行预测,按照预测得分进行排序。此外,如图5所示,其展示了用户的操作流程,从开始进行,简历投递成功有提示,并反馈职位列表是否还有职位,若没有则直接结束,若有则执行跳过步骤。
综合来说,在发明中,新排序层弱化分区,采用模型进行排序,模型采用的特征主要包括职位的历史点击投递等静态热度特征,以及用户的历史点击职位的分布特征,比如职位所在区域分布、要求工作年限分布、学历分布以及薪资分布等;充分发掘用户的历史行为偏好,综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的Lamb daMart模型,会更加关注对用户推荐的一个整体效果;充分发掘用户的历史行为偏好,综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMa rt模型,会更加关注对用户推荐的一个整体效果。有效提升用户的点击率。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。