CN114282106B

CN114282106B - 一种职位信息快速投递方法

Info

Publication number: CN114282106B
Application number: CN202111580951.7A
Authority: CN
Inventors: 王晋升; 隋冬辉; 周学彬
Original assignee: Zhilian Wuxi Information Technology Co ltd; Beijing Wangpin Consulting Co ltd
Current assignee: Beijing Wangpin Information Technology Co ltd; Zhilian Wangpin Information Technology Co ltd
Priority date: 2021-12-22
Filing date: 2021-12-22
Publication date: 2023-07-25
Anticipated expiration: 2041-12-22
Also published as: CN114282106A

Abstract

本发明公开了一种职位信息快速投递方法，属于数据分析处理技术领域。所述的职位信息快速投递方法，包括以下步骤：(1)建立职位信息快速投递的算法层面流程方法，收集用户信息，接着推送给粗排序层，接着推送给精排序层，最后得到职位列表；(2)优化用户信息，将步骤(1)中收集的用户信息利用改进的PageRank算法来优化分词，并根据分词得到的词频来确定关键词的权重；(3)优化粗排序层，将步骤(2)优化后的用户信息进行召回与重排两个阶段的处理，得到职业池；(4)优化精排序层，将步骤(3)得到后的职业池，利用模型训练得到有序职位列表。本发明公开的方法可以有效实现求职者与招聘方之间的快速匹配与反馈。

Description

一种职位信息快速投递方法

技术领域

本发明属于数据分析处理技术领域，具体地说，涉及一种职位信息快速投递方法。

背景技术

在招聘领域中，大部分网站采用传统的数据库检索技术或者搜索引擎技术实现职位数据的检索。对于职位数据量大且频繁更新的情况，使用传统的数据库检索技术进行职位检索时，检索性能下降明显，检索耗时长，使用搜索引擎技术进行职位检索时，难以对检索结果大范围地根据相关度动态评分进行排序，检索结果准确度低。这将使得用户难以快速准确地获取职位信息，严重伤害了用户体验。

在目前的技术条件下，难以直接通过硬件扩展的方式大幅度提高检索性能，并且硬件扩展和升级的成本较高。从检索方法上提高检索性能存在的问题主要在于以下两点：第一是职位数据库数据量大，检索速度慢；第二是检索结果较多，即时排序耗时长，难以采用相关度动态评分因素对检索结果进行相关度动态计算，导致检索结果不准确。

具体来说，许多招聘单位的招聘人员有时候为了省时省力省心，他们在阅读大量简历时往往只关注简单的几个简历关键信息，而没有仔细了解每一个求职者的整体情况，这样的行为会导致原本很多合适的求职者失去了面试的机会，有可能最适合该职位的求职者就被错失掉了，这给招聘单位和求职者都造成了潜在损失。招聘单位忙于筛选简历，而求职者在漫长的等待中不断的投递简历，形成了恶性循环。而招聘单位发布的招聘广告也容易消失在庞大的招聘广告丛林之中，无法有效的传达给最合适的求职者手上。于是，就有很多求职者说“找工作难”，而招聘单位的HR则说“招人更难”。最终，招聘单位花费了大量人力物力来进行招聘，效果却很难如意。。从根源上说，这是求职者与招聘单位如何找到合适的对象的问题，也是求职者如何成功的与招聘单位配对的问题，也就是求职者的简历与招聘单位的职位介绍书如何实现配对的问题。

以某一招聘网络平台为例，该网络平台至少包括服务器和若干数据库，该些数据库中存储有招聘职位存储单元，招聘职位存储单元存储有每一个招聘单位的招聘职位信息(包括职位名称、职位条件、职位的职责等)、招聘单位信息(招聘单位名称、招聘单位规模、招聘单位介绍等)，该招聘职位存储单元可以以宽表的形式存储，也可以以若干表格的形式存储。并且，该些数据是以时间为顺序进行排列的。服务器上可以设置若干搜索引擎，可以用于接收到用户输入的关键字进行搜索，并输出搜索结果。目前，网站提供给用户的搜索关键字是非常有限的，比如按照地点、按照公司名称、按照行业或按照某一或几个关键字，但是不能满足用户的整体的动态的需求。比如，招聘单位要精确查询到符合招聘职位要求的求职者难度非常大，同样，求职者也不能按照自己的整体的要求来精确查询到条件符合要求的招聘单位。同时这种方式也都还存在如前边所述的问题。

发明内容

1、要解决的问题

针对上述现有技术存在的问题，本发明提供一种职位信息快速投递方法，具体来说，排序层之前所用的分区规则对所有用户采取同一套规则排序，有很大局限性，所导致的结果是千人一面，无法满足所有用户的偏好，本发明要实现的功能就是要实现能够满足所有用户偏好的推送的优选信息流。

2、技术方案

为解决上述问题，本发明采用如下的技术方案。

本申请提供一种职位信息快速投递方法，包括以下步骤：

(1)建立职位信息快速投递的算法层面基本流程方法

收集用户信息，依次推送给粗排序层和精排序层，得到职位列表。

(2)优化用户信息

将步骤(1)中收集的用户信息利用改进的PageRank算法来优化分词，并根据分词得到的词频来确定关键词的权重。

(3)优化粗排序层

将步骤(2)优化后的用户信息进行召回与重排两个阶段的处理，得到职业池。

召回粗排的目的是为了给精排模型输入足够多的符合用户意向的结果候选集。

(4)优化精排序层

将步骤(3)得到后的职业池，利用模型训练得到有序职位列表。

上述所述的职位信息快速投递方法中，步骤(1)中用户信息存储在云服务器中；

其中用户信息设置有多个元数据，所述的元数据为用户的职业基本信息项。

上述所述的职位信息快速投递方法中，步骤(2)中所述的改进的PageRank算法公式如下：

式中，其中TF_ij代表用户信息第i行第j列的关键词的词频，其中n_i,j代表用户信息第i行第j列的关键词的文本数，其中∑_kn_k,j代表用户信息第k行第j列的关键词在第k行出现次数之和。

上述所述的职位信息快速投递方法中，步骤(2)中所述的关键词的权重的计算公式如下：

式中，其中P(S)代表用户信息中关键词的权重值，其中S代表用户信息的关键词的权重值的总序列，其中wi(1≤i≤n)代表第i组关键词的序列号。

上述所述的职位信息快速投递方法中，步骤(3)中召回阶段的步骤如下：

根据步骤(2)中确定的关键词的权重的需求，获取用户求职意向信息，并搜索满足用户求职信息的职位，得到第一职位池。

上述所述的职位信息快速投递方法中，步骤(3)中重排阶段的步骤如下：

根据步骤(3)召回阶段中得到的第一职位池，接着通过职位信息与用户信息计算所述的第一职位池中职位的得分，并判断所述的第一职位池的得分是否高于阈值，若其高于上述阈值，则统计所述的第一职位池是否还有未计算得分的职位，若其低于上述阈值，则从所述的第一职位池中删除上述职位并统计所述的第一职位池是否还有未计算得分的职位；若统计所述的第一职位池还有未计算得分的职位，则重新执行通过职位信息与用户信息计算所述的第一职位池中职位的得分的步骤，若统计所述的第一职位池没有未计算得分的职位，则进行所述的第一职位池的职位数量是否超过规定值的判断，若其超过规定值，则取所述的第一职位池的前序规定数量的职位并获得第二职位池，若其未超过超过规定值，则直接获得第二职位池。

上述所述的职位信息快速投递方法中，步骤(3)中搜索满足用户求职信息的职位的算法公式如下：

式中，其中W(w_i)代表用户求职信息中的权重值，其中d代表范围在0-1的阻尼系数，其中w_ij代表用户信息第i行第j列的关键词的权重值，其中w_i代表(1≤i≤n)代表第i组关键词的序列号，其中w_j(1≤j≤n)代表第j组关键词的序列号，其中w_jk(1≤j≤k≤n)代表第j组中小组k组关键词的序列号，其中wk∈O(w_j)代表wk属于O(w_j)集合。

上述所述的职位信息快速投递方法中，步骤(4)中利用模型训练的方法如下：

将步骤(3)重排阶段中得到的第二职位池，接着通过LambdaMart模型计算所述的第二职位池中职位的得分，接着统计所述的第二职位池是否还有未计算得分的职位；若统计所述的第二职位池还有未计算得分的职位，则重新执行通过LambdaMart模型计算所述的第二职位池中职位的得分的步骤，若所述的第二职位池没有未计算得分的职位，则将所述的第二职位池中所有的职位按分值进行降序排列，获得有序职位列表。

上述所述的职位信息快速投递方法中，步骤(4)中LambdaMart模型的应用方法如下：

对所述的第二职位池中职位的基础信息、职位的动态信息、用户的基础信息、用户的行为特征进行离线的模型训练。

上述所述的职位信息快速投递方法中，步骤(4)中LambdaMart模型的改进的算法公式如下：

式中，其中DCGT代表第二职位池中职位的特征匹配值，其中i(1≤i≤T)代表第二职位池中第i个职位的信息，其中l_i代表特征检索的结果与查询的相关度等级。

3、有益效果

相比于现有技术，排序层之前所用的分区规则对所有用户采取同一套规则排序，有很大局限性，所导致的结果是千人一面，无法满足所有用户的偏好。

本发明的突出有益效果为：

在发明中，新排序层弱化分区，采用模型进行排序，模型采用的特征主要包括职位的历史点击投递等静态热度特征，以及用户的历史点击职位的分布特征，比如职位所在区域分布、要求工作年限分布、学历分布以及薪资分布等；充分发掘用户的历史行为偏好，综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMart模型，会更加关注对用户推荐的一个整体效果；充分发掘用户的历史行为偏好，综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMart模型，会更加关注对用户推荐的一个整体效果。有效提升用户的点击率。

附图说明

图1为本发明中职位信息快速投递方法的流程图；

图2为本发明中召回操作的流程图；

图3为本发明中粗排操作的流程图；

图4为本发明中精排操作的流程图；

图5为本发明中用户层面操作的流程图。

具体实施方式

下面结合具体实施例对本发明进一步进行描述。

在本发明中，业务方将用户信息传递给算法团队，算法团队利用用户的基础信息(包括但不限于求职意向，薪资水平，工作经历等)召回初步符合条件的职位池，同时将职位信息与用户信息相匹配，筛选出较精准的职位进入精排阶段，在此阶段中利用用户行为信息与职位的动态信息进行计算，将职位进行排序，得出最适合用户投递的列表，将该列表传递回业务方，业务方读取该列表，依次展示给用户，用户可选择投递或跳过至下一职位，每日限定固定职位，该类行为会记录在数据库用于后续的模型训练。

本发明中职位信息快速投递方法，如图1所示，包括以下步骤：

(1)建立职位信息快速投递的算法层面基本流程方法

收集用户信息，接着推送给粗排序层，接着推送给精排序层，最后得到职位列表；

(2)优化用户信息

将步骤(1)中收集的用户信息利用改进的PageRank算法来优化分词，并根据分词得到的词频来确定关键词的权重；

如图2所示，根据步骤(2)中确定的关键词的权重的需求，获取用户求职意向信息，并搜索满足用户求职信息的职位，得到第一职位池。

(3)优化粗排

将步骤(2)优化后的用户信息进行召回与重排两个阶段的处理，得到职业池；

需要说明的是，优化粗排的目的是为了给精排模型输入足够多的且符合用户意向的结果候选集。这个过程分为召回和重排两个部分。

更具体的说，

步骤(3)中召回阶段的步骤如下：

召回阶段，会使用用户意向里相关的筛选维度，在整个职位库里进行全量检索和过滤，保证召回的结果在几个关键维度上是绝对匹配用户需求的。为了召回更多的结果，还会对某些筛选条件进行适度的泛化处理。

步骤(3)中重排阶段的步骤如下：

如图3所示，根据步骤(3)召回阶段中得到的第一职位池；

接着通过职位信息与用户信息计算所述的第一职位池中职位的得分，并判断所述的第一职位池的得分是否高于阈值；

若其高于上述阈值，则统计所述的第一职位池是否还有未计算得分的职位；若其低于上述阈值，则从所述的第一职位池中删除上述职位并统计所述的第一职位池是否还有未计算得分的职位；

若统计所述的第一职位池还有未计算得分的职位，则重新执行通过职位信息与用户信息计算所述的第一职位池中职位的得分的步骤，若统计所述的第一职位池没有未计算得分的职位，则进行所述的第一职位池的职位数量是否超过规定值的判断；

若其超过规定值，则取所述的第一职位池的前序规定数量的职位并获得第二职位池，若其未超过超过规定值，则直接获得第二职位池。

因此，粗排阶段，会对一些个性化的特征进行提权，达到更匹配用户求职意向的目的。比如对职位标题或关键词、教育背景、行业、职类、工作年限等，和用户相关特征匹配的，进行提权。粗排结束后，结果候选集会在多个特征维度上满足用户的意向或偏好。

因此，召回粗排的策略由于简单、高效，所以它适用于所有填写了求职意向的用户。

如图4所示，将步骤(3)重排阶段中得到的第二职位池，接着通过LambdaMart模型计算所述的第二职位池中职位的得分，接着统计所述的第二职位池是否还有未计算得分的职位；若统计所述的第二职位池还有未计算得分的职位，则重新执行通过LambdaMart模型计算所述的第二职位池中职位的得分的步骤，若所述的第二职位池没有未计算得分的职位，则将所述的第二职位池中所有的职位按分值进行降序排列，获得有序职位列表。

(4)优化精排

式中，其中P(S)代表用户信息中关键词的权重值，其中S代表用户信息的关键词的权重值的总序列，其中w_i(1≤i≤n)代表第i组关键词的序列号。

对于提及的LambdaMart模型，具体来说，精排模型采用的是LambdaMart模型，Lambd aMart是一种Listwise类型的LTR算法，它基于LambdaRank算法和MART(MultipleAdditiv e Regression Tree)算法，将搜索引擎结果排序问题转化为回归决策树问题。MART实际就是梯度提升决策树(GBDT,Gradient Boosting Decision Tree)算法。GBDT的核心思想是在不断的迭代中，新一轮迭代产生的回归决策树模型拟合损失函数的梯度，最终将所有的回归决策树叠加得到最终的模型。LambdaMart使用一个特殊的Lambda值来代替上述梯度，也就是将LambdaRank算法与MART算法加和起来。精排模型是以点击为目标进行训练的，考虑到用户的实际情况，职位曝光给用户的界面是职位卡片的信息。为此我们设计开发了用户的行为偏好类特征。职位卡片的信息主要有职位的工作年限、学历、薪资、公司规模以及所处区域等信息，以此我们统计用户过去一段时间点击过的职位的这些相关信息的次数分布作为用户求职方向的偏好，然后再用此特征与待排序的职位的该信息进行匹配计算作为模型的特征输入模型。比如我们把用户过去15天的点击工作年限的职位统计出来，特征为{“1-3”：30，“3-5”：15，“5-10”：5}，即该用户过去15天1-3年点击了30次，3-5年点击了15次，5-10年点击了5次，待排序的职位A、B、C工作年限分别是1-3，3-5，5-10，然后将两者进行相应匹配计算得到命中的次数所占总次数的比率为0.6、0.3、0.1。至此则完成一次特征的计算。除了偏好类特征外，我们设计开发相应的职位热度特征，比如职位的曝光数、点击数以及投递数，进一步得到职位对应的ctr与cvr,均作为模型的特征。将模型所需的所有特征计算完毕，然后进行训练得到相应的模型，最后部署到线上进行预测，按照预测得分进行排序。此外，如图5所示，其展示了用户的操作流程，从开始进行，简历投递成功有提示，并反馈职位列表是否还有职位，若没有则直接结束，若有则执行跳过步骤。

综合来说，在发明中，新排序层弱化分区，采用模型进行排序，模型采用的特征主要包括职位的历史点击投递等静态热度特征，以及用户的历史点击职位的分布特征，比如职位所在区域分布、要求工作年限分布、学历分布以及薪资分布等；充分发掘用户的历史行为偏好，综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的Lamb daMart模型，会更加关注对用户推荐的一个整体效果；充分发掘用户的历史行为偏好，综合职位的热度信息达到对用户的个性化排序推荐效果。同时模型采用listwise思想的LambdaMa rt模型，会更加关注对用户推荐的一个整体效果。有效提升用户的点击率。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种职位信息快速投递方法，其特征在于，包括以下步骤：

(1)建立职位信息快速投递的算法层面基本流程方法

收集用户信息，依次推送给粗排序层和精排序层，得到职位列表；

(2)优化用户信息

所述的改进的PageRank算法公式如下：

式中，其中TF_ij代表用户信息第i行第j列的关键词的词频，其中n_i,j代表用户信息第i行第j列的关键词的文本数，其中∑_kn_k,j代表用户信息第k行第j列的关键词在第k行出现次数之和；

步骤(2)中所述的关键词的权重的计算公式如下：

式中，其中P(S)代表用户信息中关键词的权重值，其中S代表用户信息的关键词的权重值的总序列，其中w_i代表第i组关键词的序列号，1≤i≤n；

(3)优化粗排

步骤(3)中召回阶段的步骤如下：

根据步骤(2)中确定的关键词的权重的需求，获取用户求职意向信息，并搜索满足用户求职信息的职位，得到第一职位池；

步骤(3)中重排阶段的步骤如下：

根据步骤(3)召回阶段中得到的第一职位池；

若其超过规定值，则取所述的第一职位池的前序规定数量的职位并获得第二职位池，若其未超过超过规定值，则直接获得第二职位池；

(4)优化精排

将步骤(3)得到后的职业池，利用模型训练得到有序职位列表；

步骤(4)中利用模型训练的方法如下：

将步骤(3)重排阶段中得到的第二职位池，接着通过LambdaMart模型改进的算法计算所述的第二职位池中职位的得分；

接着统计所述的第二职位池是否还有未计算得分的职位；

若统计所述的第二职位池还有未计算得分的职位，则重新执行通过LambdaMart模型计算所述的第二职位池中职位的得分的步骤；

若所述的第二职位池没有未计算得分的职位，则将所述的第二职位池中所有的职位按分值进行降序排列，获得有序职位列表；

步骤(4)中LambdaMart模型的改进的算法公式如下：

式中，其中DCGT代表第二职位池中职位的特征匹配值，其中i代表第二职位池中第i个职位的信息，1≤i≤T，其中l_i代表特征检索的结果与查询的相关度等级；

其中，步骤(3)中搜索满足用户求职信息的职位的算法公式如下：

式中，其中W(w_i)代表用户求职信息中的权重值，其中d代表范围在0-1的阻尼系数，其中w_ij代表用户信息第i行第j列的关键词的权重值，其中w_i代表第i组关键词的序列号，1≤i≤n，其中w_j代表第j组关键词的序列号，1≤j≤n，其中w_jk代表第j组中小组k组关键词的序列号，1≤j≤k≤n，其中wk∈O(w_j)代表w_k属于O(w_j)集合。

2.根据权利要求1所述的职位信息快速投递方法，其特征在于：

步骤(1)中用户信息存储在云服务器中；

3.根据权利要求1所述的职位信息快速投递方法，其特征在于：

步骤(4)中LambdaMart模型的应用方法如下：