CN114819924B

CN114819924B - 一种基于画像分析的企业信息推送处理方法及设备

Info

Publication number: CN114819924B
Application number: CN202210739878.1A
Authority: CN
Inventors: 石杰; 廖家林
Original assignee: Hangyin Consumer Finance Co ltd
Current assignee: Hangyin Consumer Finance Co ltd
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2022-09-23
Anticipated expiration: 2042-06-28
Also published as: CN114819924A

Abstract

本申请提供了一种基于画像分析的企业信息推送处理方法及设备，本申请属于信息处理技术领域。该方法获取需求岗位信息及历史招聘行为数据，将需求岗位信息输入预设的第一画像建立模型，生成应岗简历画像，以得到真实岗位匹配值，进而确定可信应岗画像。通过第二画像建立模型，得到待应岗简历画像。通过待应岗简历画像、可信应岗画像，得到第一岗位差异数据、第二岗位差异数据。根据第一岗位差异数据、第二岗位差异数据以及待应岗简历样本，筛选待应岗简历样本的差异文本，确定差异文本的差异属性权重。基于差异文本、差异属性权重，确定第一应岗指标分值及第二应岗指标分值。基于第一应岗指标分值与第二应岗指标分值，将推送与企业相关的企业信息。

Description

一种基于画像分析的企业信息推送处理方法及设备

技术领域

本申请涉及信息处理技术领域，尤其涉及一种基于画像分析的企业信息推送处理方法及设备。

背景技术

随着互联网技术的发展，互联网中存在海量的数据，供人参考及挖掘。企业在进行业务或招聘、人员选拔或者求岗者在寻找工作时，往往依靠主观因素或人为经验进行，没有利用好互联网大数据。

目前，人才找工作、企业招聘、企业内部管理乃至企业合作过程中，经常需要在大量的招聘信息中进行筛选，虽然现在存在许多招聘网站，能够进行专业、岗位名称、人员学历等筛选方式，辅助人员和企业能够找到匹配的工作、求岗者。但是，招聘网站中也存在一些的虚假招聘、钓鱼招聘、招聘筛选程度不足的问题。若不能自动筛选掉虚假招聘、钓鱼招聘等信息，为求岗者匹配最合适的岗位或为企业提供最匹配的求岗者，不仅浪费企业及求岗者的时间，甚至给求岗者带来应聘风险，落入不法分子的招聘圈套。且对于急于招聘的合法企业来说，求岗者无法与其发布岗位尽快匹配，使得招聘时间过长，会给企业带来经济损失甚至相关工作难以开展下去，阻碍企业良性循环发展。

基于此，亟需一种能够自动筛选虚假、风险招聘信息，灵活且智能地进行企业信息推送，降低企业招聘或人员找工作时所耗的时间成本及风险的技术方案。

发明内容

本申请实施例提供了一种基于画像分析的企业信息推送处理方法及设备，用于降低企业招聘或人员找工作时所耗的时间成本及风险。

一方面，本申请实施例提供了一种基于画像分析的企业信息推送处理方法，该方法包括：

获取来自企业终端的需求岗位信息及历史招聘行为数据。其中，历史招聘行为数据至少包括：应聘评价文本、招聘行为更新频率、历史面试成功次数。将需求岗位信息输入预设的第一画像建立模型，生成需求岗位对应的应岗简历画像。通过预先训练的梯度提升决策树GBDT模型，确定应岗简历画像与历史招聘行为数据的真实岗位匹配值。在真实岗位匹配值大于第一预设阈值且招聘行为更新频率大于第二预设阈值的情况下，将应岗简历画像作为可信应岗画像，以及将若干需求岗位相应的待应岗简历样本输入第二画像建立模型，以生成相应的待应岗简历画像。其中，待应岗简历样本的投递岗位与需求岗位匹配。计算各待应岗简历画像与可信应岗画像的第一岗位差异数据，以及各待应岗简历画像两两之间的第二岗位差异数据。根据各第一岗位差异数据、相应的各第二岗位差异数据以及各待应岗简历样本，筛选各待应岗简历样本的差异文本，并确定差异文本的差异属性权重。其中，差异属性权重包括差异正属性权重、差异负属性权重。基于差异文本、相应的差异属性权重以及预设短文本识别模型，确定当前投递简历与应岗简历画像的第一应岗指标分值，及当前投递简历与历史招聘行为数据的第二应岗指标分值。基于第一应岗指标分值与第二应岗指标分值，将当前投递简历推送至相应的企业终端和/或将根据应岗简历画像生成的应岗简历，推送至相应的用户终端。

在本申请的一种实现方式中，获取若干岗位样本，并输入待训练的第一画像建立模型。其中，岗位样本至少包括：岗位名称、岗位人员特征。基于岗位属性以及各岗位人员特征，确定各岗位名称对应的岗位属性值。其中，岗位属性至少包括：人员学历、工作经历、爱好特长。将各岗位属性值相应的工作数据集合中，任意一个工作数据，作为第一聚类质心，并计算第一聚类质心与工作数据集合的各工作数据的聚类相关值。其中，聚类相关值用于表征第一聚类质心与工作数据的相关度。基于聚类相关值以及预设分组数，确定相应的第二聚类质心，并计算第二聚类质心与工作数据集合的各工作数据的聚类相关值，直至得到第N聚类质心，以确定N个聚类质心。其中，N为大于二的自然数，且N为预设分组数。基于N个聚类质心相应的工作数据以及预设短文本生成模型，确定短文本生成模型输出的画像文本，并计算画像文本与相应的岗位样本的简历文本的卡方距离，直至卡方距离小于预设值，得到训练完成的第一画像建立模型。

在本申请的一种实现方式中，将各岗位属性值的工作数据集合，随机分割为M个集合分组。其中，M为自然数。分别确定M个集合分组的中位数，并计算各中位数与相应的集合分组的工作数据的欧式距离。将欧式距离作为第M分组指标值，并将工作数据集合，分割为M+1个集合分组，以分别确定M+1个集合分组的中位数，并计算各中位数与相应的集合分组的工作数据的欧式距离，将欧式距离作为第M+1分组指标值，直至集合分组数量等于或大于预设值。将各集合分组数量对应的各分组指标值依次求平方和，并生成指标求和曲线。其中，指标求和曲线的横坐标为集合分组数量，指标求和曲线的纵坐标为相应的欧式距离的平方和。基于指标求和曲线的斜率及相应的斜率阈值，确定相应的选定集合分组数量为岗位属性值的预设分组数，以便根据聚类相关值以及预设分组数，确定相应的第二聚类质心。

在本申请的一种实现方式中，将各待应岗简历样本输入第二画像建立模型，以生成相应的各待应岗简历样本的简历短文本集合，并对简历短文本集合中的短文本进行编码，以得到简历文本编码。其中，简历短文本集合包括第一子集合、第二子集合。第一子集合为根据自我评价文本生成的集合。第二子集合为根据关联信息生成的集合。关联信息至少包括档案文本、历史简历文本。根据自我评价文本相应的第一子集合及简历文本编码，确定第一编码向量。根据关联信息相应的第二子集合及简历文本编码，确定第二编码向量。计算第一编码向量与第二编码向量的余弦相似度。剔除余弦相似度小于第三预设阈值的待应岗简历样本，并根据剩余的待应岗简历样本的简历短文本集合，确定各待应岗简历样本相应的需求岗位的待应岗简历画像。

在本申请的一种实现方式中，比对相应的两个待应岗简历样本的简历文本词，并确定不同的简历文本词为待定差异文本。依次剔除两个待应岗简历样本的待定差异文本，并分别计算依次剔除待定差异文本后的第一岗位差异数据、第二岗位差异数据，以分别生成相应的若干差异值三元组。其中，差异值三元组包括冒泡排序后的两个第一岗位差异数据及对应的一个第二岗位差异数据。其中，第一岗位差异数据根据待应岗简历画像与可信应岗画像之间的文本相似度得到。第二岗位差异数据根据各待应岗简历画像之间的文本相似度得到。文本相似度通过计算文本余弦相似度确定。确定各差异值三元组中，第二岗位差异数据为中间值的差异值三元组，为差异文本三元组。确定各差异文本三元组相应的简历文本词，为差异文本，并将相应的两个第一岗位差异数据的差值，作为差异文本的差异属性权重。

在本申请的一种实现方式中，在需求岗位信息面向企业终端的企业内部人员的情况下，通过第二画像建立模型，确定企业内部人员的当前岗位的待应岗简历画像，为补岗画像。获取异于当前岗位的若干待应岗简历画像，作为待补岗人员画像。并将各待补岗人员画像与补岗画像匹配。确定匹配成功的待补岗人员的在岗需求度，以从相应的若干待补岗人员中，确定当前岗位的至少一个待补岗人员。

在本申请的一种实现方式中，确定当前岗位的补岗时长。其中，补岗时长根据当前岗位的岗位工作任务确定。基于在补岗时长内，各待补岗人员的在岗需求度相应的需求度序列，确定各待补岗人员的补岗子时长，以确定当前岗位的至少一个待补岗人员。其中，补岗子时长为根据不同时刻的在岗需求度得到。各补岗子时长拼接为补岗时长。

在本申请的一种实现方式中，获取若干历史招聘行为数据及相应的在岗简历画像。基于各历史招聘行为数据相应的行为特征参数及各在岗简历画像的画像文本特征参数，建立相应的岗位预测矩阵。将岗位预测矩阵输入GBDT模型，以进行迭代运算，直至GBDT模型的损失函数值小于第四预设阈值，得到训练好的GBDT模型。

在本申请的一种实现方式中，通过短文本识别模型，将当前投递简历进行分词处理，以确定投递简历文本集合。将投递简历文本集合中的各文本词语与应岗简历画像的画像词语，分别进行文本编码，以得到第一文本编码及第二文本编码。以及确定文本编码后的各文本词语与各差异文本的余弦相似度，为待定相似度。将大于第五预设阈值的待定相似度与相应的差异属性权重相乘，得到相应的文本词语的更新文本编码。基于更新文本编码、第一文本编码及第二文本编码的余弦相似度，确定第一应岗指标分值。基于GBDT模型、更新文本编码、第一文本编码及历史招聘行为数据，确定当前投递简历与历史招聘行为数据的真实岗位匹配值，为第二应岗指标分值。

另一方面，本申请实施例还提供了一种基于画像分析的企业信息推送处理设备，该设备包括：

至少一个处理器；以及，与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够：

本申请通过企业终端发布的需求岗位信息及历史招聘行为数据，对企业需求岗位进行真伪判断，然后通过第一画像建立模型及第二画像建立模型得到的画像，得到第一岗位差异数据及第二岗位差异数据。进而确定用于进行更新当前投递简历的差异文本及差异属性权重，然后确定当前投递简历是否与需求岗位匹配，从而进行企业信息，即当前投递简历、应岗简历的推送。通过上述方案，本申请可以自动筛选虚假、风险招聘信息，给求岗者提供真实可信且与其简历匹配的招聘信息，同时能够给企业提供合适的求岗这简历。

本申请通过上述方案既能够使得求岗者高效地找到合适岗位，降低企业招聘或人员找工作时所耗的时间成本以及招聘时遇到的钓鱼等风险，也实现了灵活且智能地进行企业信息推送。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中一种基于画像分析的企业信息推送处理方法的一种流程示意图；

图2为本申请实施例中一种基于画像分析的企业信息推送处理方法的另一种流程示意图；

图3为本申请实施例中一种基于画像分析的企业信息推送处理方法的一种示意图；

图4为本申请实施例中一种基于画像分析的企业信息推送处理设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在人才市场复杂的环境下，招聘信息的真实与否，影响着企业及求岗者的切身利益，若招聘信息中存在钓鱼招聘、虚假招聘，将给求岗者带来巨大的财产损失风险或人身安全风险。同时，也会使得正常招聘企业，产生招聘人才周期过长，岗位空窗期过长的问题。

为解决上述问题，本申请提供了一种基于画像分析的企业信息推送处理方法及设备。

以下结合附图，详细说明本申请的各个实施例。

本申请实施例提供了一种基于画像分析的企业信息推送处理方法，如图1所示，该方法可以包括步骤S101-S108：

S101，服务器获取来自企业终端的需求岗位信息及历史招聘行为数据。

其中，历史招聘行为数据至少包括：应聘评价文本、招聘行为更新频率、历史面试成功次数。

在本申请实施例中，企业终端为进行招聘的企业所对应的终端，该企业终端可以是手机、电脑等设备，本申请对于企业终端具体类型不作具体限定。需求岗位信息可以是企业终端发布的岗位需求信息，包括岗位名称、岗位需求能力，如“java开发工程师”、“会使用vue、uniapp、Element UI等框架”、“熟悉Spring原理及微服务框架”等。

历史招聘行为数据可以是企业终端在当前发布的需求岗位信息之前的招聘行为数据，例如历史招聘岗位的应聘人员对岗位的应聘评价文本，企业终端在招聘时招聘信息发布的招聘行为更新频率，在历史招聘岗位中历史面试成功次数。其中，招聘行为更新频率可以是企业终端调整发布的招聘信息的频率，也可以是企业终端刷新招聘信息的频率。该刷新可以是刷新招聘信息的在所有招聘信息中的排名，例如有50个企业发布招聘信息，在有一个新企业发布招聘信息后，50个企业的招聘信息将排至新企业的招聘信息之后，若企业一直不刷新招聘信息，那么招聘信息可能会排至所有招聘信息的最后一位。

需要说明的是，服务器为基于画像分析的企业信息推送处理方法的执行主体，仅为示例性存在，执行主体不仅限于服务器。

S102，服务器将需求岗位信息输入预设的第一画像建立模型，生成需求岗位对应的应岗简历画像。

在本申请实施例中，第一画像建立模型可以根据需求岗位信息，进行生成与岗位对应的应岗简历画像，应岗简历画像有若干的短文本生成。在将需求岗位信息输入预设的第一画像建立模型，生成需求岗位对应的应岗简历画像之前，本申请还包括模型训练实施例，如图2所示，具体包括以下步骤：

S201，服务器获取若干岗位样本，并输入待训练的第一画像建立模型。

其中，岗位样本至少包括：岗位名称、岗位人员特征。

在本申请实施例中，岗位样本可以从若干招聘网站中进行爬取，也可以来自用户编辑好的数据库数据，包括岗位名称以及岗位人员特征。岗位人员特征可以是人员的自身特征，例如学历、年龄、籍贯、爱好、工作单位、意向工作等等。

S202，服务器基于岗位属性以及各岗位人员特征，确定各岗位名称对应的岗位属性值。

其中，岗位属性至少包括：人员学历、工作经历、爱好特长。

在本申请实施例中，岗位属性可以是预先设置的，也可以是服务器向用户获取得到的，例如服务器发送岗位属性获取信息，用户通过其终端设备，发送所选择或输入的岗位属性，如人员学历、工作经历、爱好特征。服务器通过岗位属性，选择各岗位名称对应的岗位人员特征中的岗位属性值，例如岗位属性：人员学历，岗位名称为“A”的各岗位人员特征中，岗位属性值为“1”、“2”，其中，岗位属性值“1”可以表征本科，岗位属性值“2”可以表征硕士。

S203，服务器将各岗位属性值相应的工作数据集合中，任意一个工作数据，作为第一聚类质心，并计算第一聚类质心与工作数据集合的各工作数据的聚类相关值。

其中，聚类相关值用于表征第一聚类质心与工作数据的相关度。

工作数据集合中的工作数据，为各岗位属性值中对应的数据，以上述人员学历的岗位属性值为例，其工作数据包括有各个专业，如本科的工作数据：哲学专业、经济学专业、法学专业等。

具体地，工作数据集合可以表示为G={

}，其中，

为自然数，服务器可以从该工作数据集合中随机选取一个工作数据

，作为第一聚类质心，其中

。在本申请实施例中，工作数据集合中的工作数据可以分布于欧式空间，可以更好地将工作数据建立联系，如某工作数据的欧式空间的坐标为（a，b，c，d）。

将第一聚类质心与工作数据集合中的其他工作数据进行计算相关度，即聚类相关值。聚类相关值可以是第一聚类质心与各工作数据的欧式距离，其中欧式空间为4维时，计算欧式距离的公式如下：

其中，

为聚类相关值，（

）为第一聚类质心的欧式空间坐标，（

）为一工作数据的欧式空间坐标，其中，

为不为1的自然数。

S204，服务器基于聚类相关值以及预设分组数，确定相应的第二聚类质心，并计算第二聚类质心与工作数据集合的各工作数据的聚类相关值，直至得到第N聚类质心，以确定N个聚类质心。

其中，N为大于二的自然数，且N为预设分组数。

在本申请实施例中，服务器得到了第一聚类质心与各工作数据的聚类相关值之后，可以通过预设分组，得到N个聚类质心。服务器将与第一聚类质心的聚类相关值最大的工作数据，作为第二聚类质心，然后求得第二聚类质心与剩余工作数据的聚类相关值，剩余工作数据不包括第一聚类质心。

在本申请实施例中，基于聚类相关值以及预设分组，确定相应的第二聚类质心之前，预设分组数可以通过以下方式确定，具体如下：

首先，服务器将各岗位属性值的工作数据集合，随机分割为M个集合分组。

其中，M为自然数。

例如工作数据集合包括{

}，假设

为3的倍数，服务器可以将该集合随机分割为：{

}、{

}……{

}，

个集合分组。

接着，服务器分别确定M个集合分组的中位数，并计算各中位数与相应的集合分组的工作数据的欧式距离。

其中，中位数为集合分组中的工作数据的中位数，可以根据工作数据的坐标平均数据值得到，例如集合分组中的三个工作数据坐标平均数据值有5、8、2，那么中位数为5对应的工作数据。本申请计算欧式距离的公式可以如上述的欧式距离计算公式。

随后，服务器将欧式距离作为第M分组指标值，并将工作数据集合，分割为M+1个集合分组，以分别确定M+1个集合分组的中位数，并计算各中位数与相应的集合分组的工作数据的欧式距离，将欧式距离作为第M+1分组指标值，直至集合分组数量等于或大于预设值。

在本申请实施例中，得到欧式距离之后，将欧式距离作为对应的M个集合分组的第M分组指标值，例如M为2，那么得到的欧式距离即为第二分组指标值。然后再对集合分组随机分割为M+1个集合分组，并计算欧式距离，得到第M+1分组指标值，然后再进行随机分割，直至分割的集合分组数量大于或大于预设值。其中，预设值可以在实际使用过程中，进行设定，本申请对此不作具体限定。

随后，服务器将各集合分组数量对应的各分组指标值依次求平方和，并生成指标求和曲线。

其中，指标求和曲线的横坐标为集合分组数量，指标求和曲线的纵坐标为相应的欧式距离平方和。

具体地，各集合分组数量对应的各分组指标值，指的是在集合分组随机分割后的M个集合分组，所求得的第M分组指标值，然后服务器将各第M分组指标值依次求平方和，并记录在指标求和曲线，横坐标为M，纵坐标为各第M分组指标值对应的平方和。指标求和曲线如图3所示。

最后，服务器基于指标求和曲线的斜率及相应的斜率阈值，确定相应的选定集合分组数量为岗位属性值的预设分组数，以便根据聚类相关值以及预设分组数，确定相应的第二聚类质心。

在本申请实施例中，斜率阈值可以是预先设定的，在相邻的两个斜率绝对值小于该斜率阈值的情况下，将该两个斜率绝对值所对应两条曲线的中点的集合分组数量，作为预设分组数。如图3所示，301与302曲线的斜率绝对值小于斜率阈值，那么将中点303所对应的集合分组数量，作为预设分组数。

本申请通过上述方案，可以高效地确定预设分组数，节省计算资源，且能够得到准确、方便使用的预设分组数，以便高效地进行企业信息推送处理。

S205，服务器基于N个聚类质心相应的工作数据以及预设短文本生成模型，确定短文本生成模型输出的画像文本，并计算画像文本与相应的岗位样本的简历文本的卡方距离，直至卡方距离小于预设值，得到训练完成的第一画像建立模型。

在本申请实施例中，服务器在得到N个聚类质心相应的工作数据后，可以将工作数据输入预设短文本生成模型，例如工作数据为法学专业，那么短文本生成模型可以输出“法律”的画像文本，并且服务器将计算该画像文本与岗位样本的简历文本的卡方距离，如简历文本为“法务”，通过以下卡方距离计算公式：

其中，

为画像文本

与简历文本

的卡方距离，

为第

个画像文本的取值，

为第

个简历文本的取值，

为第

个画像文本的期望频数，

为第

个简历文本的期望频数。

服务器将不断计算简历文本与画像文本之间的卡方距离，在计算得到的卡方距离小于预设值时，服务器将确定第一画像建立模型训练完成。其中，预设值可以在实际使用过程中进行设定，本申请对此不作具体限定。

通过上述方案，可以得到建立画像准确度高的第一画像建立模型，且能够进行高效且精确的画像模型训练，保证生成应岗简历画像的准确度及效率。

S103，服务器通过预先训练的梯度提升决策树GBDT模型，确定应岗简历画像与历史招聘行为数据的真实岗位匹配值。

在本申请实施例中，服务器通过预先训练的梯度提升决策树GBDT模型，确定历史招聘行为数据的真实岗位匹配值之前，方法还包括：

首先，服务器获取若干历史招聘行为数据及相应的在岗简历画像。

在本申请实施例中，服务器可以通过互联网或者爬虫软件，获取若干历史招聘行为数据，以及该历史招聘行为数据对应的在岗人员的在岗简历画像。其中，历史招聘行为数据可以是历史招聘的应聘评价文本、招聘行为更新频率以及历史面试成功次数，该历史招聘行为数据可以来自招聘网站，也可以来自企业的官方网页。

其次，服务器基于各历史招聘行为数据相应的行为特征参数及各在岗简历画像的画像文本特征参数，建立相应的岗位预测矩阵。

服务器可以将各历史招聘行为数据，编码为行为特征参数，例如历史招聘行为数据的应聘评价文本：岗位领导和蔼。该应聘评价文本为积极评价，服务器将该应聘评价文本编码为行为特征参数：10，假设不同的评价共有100种行为特征参数值，在岗简历画像的画像文本特征参数为11。根据各行为特征参数，服务器将建立岗位预测矩阵，例如第一列为应聘评价文本的行为特征参数，第二列为在岗简历画像的画像文本特征参数。

接着，服务器将岗位预测矩阵输入GBDT模型，以进行迭代运算，直至GBDT模型的损失函数值小于第四预设阈值，得到训练好的GBDT模型。

服务器将岗位预测矩阵输入迭代决策树（Gradient Boosting Decision Tree，GBDT）模型，GBDT模型将对岗位预测矩阵进行迭代运算，并计算GBDT模型每次迭代运算的损失函数值。在损失函数值小于第四预设阈值的情况下，服务器将确定GBDT模型训练结束，从而得到训练好的GBDT模型。

本申请利用GBDT模型可以准确地得到真实岗位匹配值，由于GBDT模型具有较高的回归精度、抗异常值性、可处理文本特征输入与缺失值及无需进行特征标准化的特点，利用GBDT模型可以对应岗简历画像及历史招聘行为数据进行准确的预测处理，以得到应岗简历画像是否与历史招聘行为数据的真实岗位匹配值。

S104，服务器在真实岗位匹配值大于第一预设阈值且招聘行为更新频率大于第二预设阈值的情况下，将应岗简历画像作为可信应岗画像，以及将若干需求岗位相应的待应岗简历样本输入第二画像建立模型，以生成相应的待应岗简历画像。

其中，待应岗简历样本的投递岗位与需求岗位匹配。

第二画像建立模型用于建立需求岗位对应的待应岗简历样本的待应岗简历画像，如从招聘网站得到需求岗位P的若干待应岗简历样本，第二画像建立模型可以将该若干样本，生成待应岗简历画像。

在本申请实施例中，服务器将若干需求岗位相应的待应岗简历样本输入第二画像建立模型，以生成相应的待应岗简历画像，具体包括：

首先，服务器将各待应岗简历样本输入第二画像建立模型，以生成相应的各待应岗简历样本的简历短文本集合，并对简历短文本集合中的短文本进行编码，以得到简历文本编码。

其中，简历短文本集合包括第一子集合、第二子集合。第一子集合为根据自我评价文本生成的集合。第二子集合为根据关联信息生成的集合。关联信息至少包括档案文本、历史简历文本。

待应岗简历样本可以是招聘网站在过去时间点，向需求岗位投递过的简历，第二画像建立模型可以对待应岗简历样本进行处理，生成各待应岗简历样本的简历短文本集合

接着，服务器根据自我评价文本相应的第一子集合及简历文本编码，确定第一编码向量。

第一子集合可以是服务器确定自我评价文本的短文本：虚心、好学、乐观、自信……。简历文本编码为待应岗简历样本中的所有短文本的编码。服务器从简历文本编码中筛选得到自我评价文本的编码，从而得到第一编码向量。

再接着，服务器根据关联信息相应的第二子集合及简历文本编码，确定第二编码向量。

服务器筛选简历文本编码中，与档案文本、历史简历文本有关的短文本的编码，并得到第二编码向量。档案文本如：出生地址、学历等，历史简历文本如：历史职位、历史从事工作、实习经历等。

然后，服务器计算第一编码向量与第二编码向量的余弦相似度。

服务器可以计算第一编码向量与第二编码向量之间的余弦相似度，公式如下：

其中，

为第一编码向量

与第二编码向量

的余弦相似度，

为第一编码向量

的第

个文本编码，

为第二编码向量

的第

个文本编码，

为文本编码总数。

最后，服务器剔除余弦相似度小于第三预设阈值的待应岗简历样本，并根据剩余的待应岗简历样本的简历短文本集合，确定各待应岗简历样本相应的需求岗位的待应岗简历画像。

在本申请实施例中，服务器可以仅筛选余弦相似度高的待应岗简历样本，从而保证生成的待应岗简历画像更为准确。

S105，服务器计算各待应岗简历画像与可信应岗画像的第一岗位差异数据，以及各待应岗简历画像两两之间的第二岗位差异数据。

在本申请实施例中，第一岗位差异数据与第二岗位差异数据可以是计算得到余弦相似度，计算公式如S104的余弦相似度公式，在此不再赘述。

例如第一个待应岗简历画像有：q1，q2，q3三个画像文本，可信应岗画像为q1，q3，q4三个画像文本，服务器计算得到q1，q2，q3与q1，q3，q4，两组画像文本之间的余弦相似度为第一岗位差异数据。第二个待应岗简历画像有：q1，q2，q4三个画像文本，q1，q2，q3与q1，q2，q4之间的余弦相似度为第二岗位差异数据。

S106，服务器根据各第一岗位差异数据、相应的各第二岗位差异数据以及各待应岗简历样本，筛选各待应岗简历样本的差异文本，并确定差异文本的差异属性权重。

其中，差异属性权重包括差异正属性权重、差异负属性权重。在差异文本中，有的差异文本可能对于两个待应岗简历样本影响大，剔除该差异文本后能够使得两个样本相似度高，此时为差异正属性权重；而有的差异文本可能影响不大，甚至在计算预先相似度时，可能出现剔除之后使得二者的余弦相似度更小，此时为差异负属性权重。

在申请实施例中，服务器根据各第一岗位差异数据、相应的各第二岗位差异数据以及各待应岗简历样本，筛选各待应岗简历样本的差异文本，并确定差异文本的差异属性权重，具体包括：

首先，服务器比对相应的两个待应岗简历样本的简历文本词，并确定不同的简历文本词为待定差异文本。

第一个待应岗简历画像有：q1，q2，q3三个画像文本，可信应岗画像为q1，q3，q4三个画像文本，第二个待应岗简历画像有：q1，q2，q4三个画像文本。根据上述描述，待定差异文本为q3、q4。

接着，服务器依次剔除两个待应岗简历样本的待定差异文本，并分别计算依次剔除待定差异文本后的第一岗位差异数据、第二岗位差异数据，以分别生成相应的若干差异值三元组。

其中，差异值三元组包括冒泡排序后的两个第一岗位差异数据及对应的一个第二岗位差异数据。其中，第一岗位差异数据根据待应岗简历画像与可信应岗画像之间的文本相似度得到。第二岗位差异数据根据各待应岗简历画像之间的文本相似度得到。文本相似度通过计算文本余弦相似度确定。

服务器可以在将q3先剔除，然后计算第一岗位差异数据与第二岗位差异数据；再然后添加q3，剔除q4，进行计算第一岗位差异数据与第二岗位差异数据；再将q3与q4均剔除，进行计算第一岗位差异数据与第二岗位差异数据，直至待定差异文本完全剔除。

差异值三元组指的是，第一岗位差异数据为待应岗简历画像与可信应岗画像之间的余弦相似度，如第一个待应岗简历画像表示为T1，第二个待应岗简历画像表示为T2，可信应岗画像表示为T0，那么第一岗位差异数据有T1-T0之间及T2-T0之间的，而第二岗位差异数据为T1-T2之间的，那么三元组可以表示为[T1-T0，T1-T2，T2-T0]，其中，三元组中的元素顺序按照从小到大的顺序排列。

随后，服务器确定各差异值三元组中，第二岗位差异数据为中间值的差异值三元组，为差异文本三元组。

即第二岗位差异数据小于的两个第一岗位差异数据中的一个第一岗位差异数据，且大于两个第一岗位差异数据中的一个第一岗位差异数据。

随后，服务器确定各差异文本三元组相应的简历文本词，为差异文本，并将相应的两个第一岗位差异数据的差值，作为差异文本的差异属性权重。

服务器可以确定该差异文本三元组所对应的剔除的文本，为差异文本，并将该差异文本三元组的两个第一岗位差异数据之间的差值，作为剔除的该差异文本的差异属性权重。

S107，服务器基于差异文本、相应的差异属性权重以及预设短文本识别模型，确定当前投递简历与应岗简历画像的第一应岗指标分值，及当前投递简历与历史招聘行为数据的第二应岗指标分值。

在本申请实施例中，服务器基于差异文本、相应的差异属性权重以及预设短文本识别模型，确定当前投递简历与应岗简历画像的第一应岗指标分值，及当前投递简历与历史招聘行为数据的第二应岗指标分值，具体包括：

首先，服务器通过短文本识别模型，将当前投递简历进行分词处理，以确定投递简历文本集合。

该短文本识别模型可以是上述预设短文本识别模型，也可以是重新进行训练的短文本识别模型，本申请对此不作具体限定。短文本识别模型可以对当前投递简历进行分词处理，当前投递简历对应于企业终端所发布的需求岗位。

其次，服务器将投递简历文本集合中的各文本词语与应岗简历画像的画像词语，分别进行文本编码，以得到第一文本编码及第二文本编码。以及确定文本编码后的各文本词语与各差异文本的余弦相似度，为待定相似度。

服务器可以对投递简历文本集合中的文本与应岗简历画像的画像词语一一进行余弦相似度计算，从而确定二者中的各个文本的待定相似度。

再其次，服务器将大于第五预设阈值的待定相似度与相应的差异属性权重相乘，得到相应的文本词语的更新文本编码。

服务器可以筛选得到大于第五预设阈值的待定相似度，及该待定相似度对应的文本词语，然后服务器将待定相似度与该文本词语对应的差异属性权重进行相乘，该差异属性权重为上述步骤S106得到的。在得到乘积结果后，将乘积结果作为该待定相似度对应的文本词语的更新文本编码。服务器将大于第五预设阈值的待定相似度的各个文本词语，均进行上述操作。

接着，服务器基于更新文本编码、第一文本编码及第二文本编码的余弦相似度，确定第一应岗指标分值。

服务器可以将更新文本编码更新至第一文本编码与第二文本编码中，例如，第一文本编码中有三个词语的编码：{1,2,3}，第二文本编码中有三个词语的编码：{1,5,6}，编码为1的文本词语进行了更新，更新为1.5，那么第一文本编码与第二文本编码分别为：{1.5,2,3}、{1.5,5,6}。此处举例仅为示例性存在，并非实际的第一文本编码与第二文本编码及更新文本编码。

服务器通过更新了编码的第一文本编码与第二文本编码，计算二者余弦相似度，进而得到第一应岗指标分值。

然后，服务器基于GBDT模型、更新文本编码、第一文本编码及历史招聘行为数据，确定当前投递简历与历史招聘行为数据的真实岗位匹配值，为第二应岗指标分值。

在本申请实施例中，服务器通过上述GBDT模型以及，将更新文本编码更新至第一文本编码后的第一文本编码、当前投递简历对应的岗位的历史招聘行为数据，进行计算真实岗位匹配值。该真实岗位匹配值的计算方式参考上述步骤S103，本实施例在此不再进行赘述。得到该真实岗位匹配值后，服务器将该真实岗位匹配值作为第二应岗指标分值。

S108，服务器基于第一应岗指标分值与第二应岗指标分值，将当前投递简历推送至相应的企业终端和/或将根据应岗简历画像生成的应岗简历，推送至相应的用户终端。

在本申请实施例中，服务器得到第一应岗指标分值与第二应岗指标分值之后，可以计算两个指标分值之间的差值，在差值小于一第一预设值，且第一应岗指标分值及第二应岗指标分值均大于另一第二预设值的情况下，服务器确定该当前投递简历与企业终端的需求岗位匹配。那么服务器可以当前投递简历推送至相应的企业终端和/或将根据应岗简历画像生成的应岗简历，推送至相应的用户终端。

例如服务器将当前投递简历发送给企业中的人力资源部门人员，再例如服务器将企业的应岗简历发送至上传当前投递简历的求岗者的终端。

本申请通过上述方案，可以通过对企业终端的需求岗位信息及历史招聘行为数据进行处理，首先确定需求岗位是否满足真实岗位的要求，然后得到用于调整当前投递简历的文本的差异文本及差异属性权重；进而根据当前投递简历与需求岗位信息、历史招聘行为数据，确定当前投递简历是否与需求岗位匹配。从而能够实现在求岗或招聘时，自动筛选虚假、风险招聘信息，给求岗者提供真实可信且与其简历匹配的招聘信息，同时能够给企业提供合适的求岗这简历。能够使得求岗者高效地找到合适岗位，降低企业招聘或人员找工作时所耗的时间成本以及招聘时遇到的钓鱼等风险。本申请通过上述方案，实现了灵活且智能地进行企业信息推送。

在企业进行招聘时，可能涉及到内部人员可招聘的情况，基于此，本申请提供了以下实施例：

首先，服务器在需求岗位信息面向企业终端的企业内部人员的情况下，通过第二画像建立模型，确定企业内部人员的当前岗位的待应岗简历画像，为补岗画像。

在本申请实施例中，服务器可以获取企业内部人员的简历，作为补岗画像。

接着，服务器获取异于当前岗位的若干待应岗简历画像，作为待补岗人员画像；并将各待补岗人员画像与补岗画像匹配。

在本申请实施例中，异于当前岗位的若干待应岗简历画像，为企业内部非当前岗位的企业人员的画像。

再接着，服务器确定匹配成功的待补岗人员的在岗需求度，以从相应的若干待补岗人员中，确定当前岗位的至少一个待补岗人员。

在岗需求度可以是根据待补岗人员的工作日志得到，例如工作日志中工作量为X，工作任务总量为Y，在岗需求度可以为X/Y。

服务器从相应的若干待补岗人员中，确定当前岗位的至少一个待补岗人员，具体如下：

服务器确定当前岗位的补岗时长。

其中，补岗时长根据当前岗位的岗位工作任务确定。

补岗时长根据企业为当前岗位下发的工作任务而定，例如需求岗位由调岗的人员P1进行，而P1当前岗位的工作任务可能有1周的紧急工作任务，那么补偿时长为1周。

接着，服务器基于在补岗时长内，各待补岗人员的在岗需求度相应的需求度序列，确定各待补岗人员的补岗子时长，以确定当前岗位的至少一个待补岗人员。

其中，补岗子时长为根据不同时刻的在岗需求度得到。各补岗子时长拼接为补岗时长。

在本申请实施例中，补岗时长内，待补岗人员可能存在其对应的岗位工作任务繁忙的情况，例如补偿时长一周内，待补岗人员P2有三天不能进行补岗，那么可以让其他待补岗人员在该三天进行补岗。

图4为本申请实施例提供的一种基于画像分析的企业信息推送处理设备的结构示意图，该设备包括：

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本申请实施例提供的设备与方法是一一对应的，因此，设备也具有与其对应的方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述设备的有益技术效果。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种基于画像分析的企业信息推送处理方法，其特征在于，所述方法包括：

获取来自企业终端的需求岗位信息及历史招聘行为数据；其中，所述历史招聘行为数据至少包括：应聘评价文本、招聘行为更新频率、历史面试成功次数；

将所述需求岗位信息输入预设的第一画像建立模型，生成需求岗位对应的应岗简历画像；

通过预先训练的梯度提升决策树GBDT模型，确定所述应岗简历画像与所述历史招聘行为数据的真实岗位匹配值；

在所述真实岗位匹配值大于第一预设阈值且所述招聘行为更新频率大于第二预设阈值的情况下，将所述应岗简历画像作为可信应岗画像，以及将若干所述需求岗位相应的待应岗简历样本输入第二画像建立模型，以生成相应的待应岗简历画像；其中，所述待应岗简历样本的投递岗位与所述需求岗位匹配；

计算各所述待应岗简历画像与所述可信应岗画像的第一岗位差异数据，以及各所述待应岗简历画像两两之间的第二岗位差异数据；

根据各所述第一岗位差异数据、相应的各所述第二岗位差异数据以及各所述待应岗简历样本，筛选各所述待应岗简历样本的差异文本，并确定所述差异文本的差异属性权重；其中，所述差异属性权重包括差异正属性权重、差异负属性权重；

基于所述差异文本、相应的所述差异属性权重以及预设短文本识别模型，确定当前投递简历与所述应岗简历画像的第一应岗指标分值，及所述当前投递简历与所述历史招聘行为数据的第二应岗指标分值；

基于所述第一应岗指标分值与所述第二应岗指标分值，将所述当前投递简历推送至相应的所述企业终端。

2.根据权利要求1所述方法，其特征在于，所述将所述需求岗位信息输入预设的第一画像建立模型，生成需求岗位对应的应岗简历画像之前，所述方法还包括：

获取若干岗位样本，并输入待训练的第一画像建立模型；其中，所述岗位样本至少包括：岗位名称、岗位人员特征；

基于岗位属性以及各所述岗位人员特征，确定各所述岗位名称对应的岗位属性值；其中，所述岗位属性至少包括：人员学历、工作经历、爱好特长；

将各所述岗位属性值相应的工作数据集合中，任意一个工作数据，作为第一聚类质心，并计算所述第一聚类质心与所述工作数据集合的各工作数据的聚类相关值；其中，所述聚类相关值用于表征所述第一聚类质心与所述工作数据的相关度；

基于所述聚类相关值以及预设分组数，确定相应的第二聚类质心，并计算所述第二聚类质心与所述工作数据集合的各工作数据的聚类相关值，直至得到第N聚类质心，以确定N个聚类质心；其中，所述N为大于二的自然数，且N为所述预设分组数；

基于所述N个聚类质心相应的工作数据以及预设短文本生成模型，确定所述短文本生成模型输出的画像文本，并计算所述画像文本与相应的所述岗位样本的简历文本的卡方距离，直至所述卡方距离小于预设值，得到训练完成的所述第一画像建立模型。

3.根据权利要求2所述方法，其特征在于，所述基于所述聚类相关值以及预设分组，确定相应的第二聚类质心之前，所述方法还包括：

将各所述岗位属性值的所述工作数据集合，随机分割为M个集合分组；其中，所述M为自然数；

分别确定所述M个集合分组的中位数，并计算各所述中位数与相应的集合分组的工作数据的欧式距离；

将所述欧式距离作为第M分组指标值，并将所述工作数据集合，分割为M+1个集合分组，以分别确定所述M+1个集合分组的中位数，并计算各所述中位数与相应的集合分组的工作数据的欧式距离，将所述欧式距离作为第M+1分组指标值，直至集合分组数量等于或大于预设值；

将各集合分组数量对应的各分组指标值依次求平方和，并生成指标求和曲线；其中，所述指标求和曲线的横坐标为所述集合分组数量，所述指标求和曲线的纵坐标为相应的所述欧式距离的平方和；

基于所述指标求和曲线的斜率及相应的斜率阈值，确定相应的选定集合分组数量为所述岗位属性值的所述预设分组数，以便根据所述聚类相关值以及所述预设分组数，确定相应的所述第二聚类质心。

4.根据权利要求1所述方法，其特征在于，所述将若干所述需求岗位相应的待应岗简历样本输入第二画像建立模型，以生成相应的待应岗简历画像，具体包括：

将各所述待应岗简历样本输入所述第二画像建立模型，以生成相应的各所述待应岗简历样本的简历短文本集合，并对所述简历短文本集合中的短文本进行编码，以得到简历文本编码；其中，所述简历短文本集合包括第一子集合、第二子集合；所述第一子集合为根据自我评价文本生成的集合；所述第二子集合为根据关联信息生成的集合；所述关联信息至少包括档案文本、历史简历文本；

根据所述自我评价文本相应的第一子集合及所述简历文本编码，确定第一编码向量；

根据所述关联信息相应的第二子集合及所述简历文本编码，确定第二编码向量；

计算所述第一编码向量与所述第二编码向量的余弦相似度；

剔除所述余弦相似度小于第三预设阈值的所述待应岗简历样本，并根据剩余的所述待应岗简历样本的所述简历短文本集合，确定各所述待应岗简历样本相应的所述需求岗位的所述待应岗简历画像。

5.根据权利要求1所述方法，其特征在于，所述根据各所述第一岗位差异数据、相应的各所述第二岗位差异数据以及各所述待应岗简历样本，筛选各所述待应岗简历样本的差异文本，并确定所述差异文本的差异属性权重，具体包括：

比对相应的两个所述待应岗简历样本的简历文本词，并确定不同的所述简历文本词为待定差异文本；

依次剔除两个所述待应岗简历样本的所述待定差异文本，并分别计算依次剔除所述待定差异文本后的所述第一岗位差异数据、所述第二岗位差异数据，以分别生成相应的若干差异值三元组；其中，所述差异值三元组包括冒泡排序后的两个所述第一岗位差异数据及对应的一个所述第二岗位差异数据；其中，所述第一岗位差异数据根据所述待应岗简历画像与所述可信应岗画像之间的文本相似度得到；所述第二岗位差异数据根据各所述待应岗简历画像之间的文本相似度得到；所述文本相似度通过计算文本余弦相似度确定；

确定各所述差异值三元组中，所述第二岗位差异数据为中间值的所述差异值三元组，为差异文本三元组；

确定各所述差异文本三元组相应的简历文本词，为所述差异文本，并将相应的两个所述第一岗位差异数据的差值，作为所述差异文本的差异属性权重。

6.根据权利要求1所述方法，其特征在于，所述方法还包括：

在所述需求岗位信息面向所述企业终端的企业内部人员的情况下，通过所述第二画像建立模型，确定所述企业内部人员的当前岗位的所述待应岗简历画像，为补岗画像；

获取异于所述当前岗位的若干待应岗简历画像，作为待补岗人员画像；

并将各所述待补岗人员画像与所述补岗画像匹配；

确定匹配成功的待补岗人员的在岗需求度，以从相应的若干所述待补岗人员中，确定所述当前岗位的至少一个所述待补岗人员。

7.根据权利要求6所述方法，其特征在于，所述从相应的若干所述待补岗人员中，确定所述当前岗位的至少一个所述待补岗人员，具体包括：

确定所述当前岗位的补岗时长；其中，所述补岗时长根据所述当前岗位的岗位工作任务确定；

基于在所述补岗时长内，各所述待补岗人员的在岗需求度相应的需求度序列，确定各所述待补岗人员的补岗子时长，以确定所述当前岗位的至少一个所述待补岗人员；其中，所述补岗子时长为根据不同时刻的所述在岗需求度得到；各所述补岗子时长拼接为所述补岗时长。

8.根据权利要求1所述方法，其特征在于，所述通过预先训练的梯度提升决策树GBDT模型，确定所述历史招聘行为数据的真实岗位匹配值之前，所述方法还包括：

获取若干历史招聘行为数据及相应的在岗简历画像；

基于各所述历史招聘行为数据相应的行为特征参数及各所述在岗简历画像的画像文本特征参数，建立相应的岗位预测矩阵；

将所述岗位预测矩阵输入所述GBDT模型，以进行迭代运算，直至所述GBDT模型的损失函数值小于第四预设阈值，得到训练好的所述GBDT模型。

9.根据权利要求1所述方法，其特征在于，基于所述差异文本、相应的所述差异属性权重以及预设短文本识别模型，确定当前投递简历与所述应岗简历画像的第一应岗指标分值，及所述当前投递简历与所述历史招聘行为数据的第二应岗指标分值，具体包括：

通过所述短文本识别模型，将所述当前投递简历进行分词处理，以确定投递简历文本集合；

将所述投递简历文本集合中的各文本词语与所述应岗简历画像的画像词语，分别进行文本编码，以得到第一文本编码及第二文本编码；以及

确定文本编码后的各所述文本词语与各所述差异文本的余弦相似度，为待定相似度；

将大于第五预设阈值的所述待定相似度与相应的所述差异属性权重相乘，得到相应的所述文本词语的更新文本编码；

基于所述更新文本编码、所述第一文本编码及所述第二文本编码的余弦相似度，确定所述第一应岗指标分值；

基于所述GBDT模型、所述更新文本编码、所述第一文本编码及所述历史招聘行为数据，确定所述当前投递简历与所述历史招聘行为数据的真实岗位匹配值，为所述第二应岗指标分值。

10.一种基于画像分析的企业信息推送处理设备，其特征在于，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：