CN117252565B

CN117252565B - 一种公司亮点生成方法及系统

Info

Publication number: CN117252565B
Application number: CN202311490753.0A
Authority: CN
Inventors: 朱琛; 祝恒书; 闫泽华; 赵鹏
Original assignee: Beijing Huapin Borui Network Technology Co Ltd
Current assignee: Beijing Huapin Borui Network Technology Co Ltd
Priority date: 2023-11-10
Filing date: 2023-11-10
Publication date: 2024-02-06
Anticipated expiration: 2043-11-10
Also published as: CN117252565A

Abstract

本发明实施例公开了一种公司亮点生成方法，包括：获取给定公司表征以及给定求职者表征，将所述给定公司表征以及所述给定求职者表征分别输入到评价生成器，所述评价生成器根据所述给定公司表征以及所述给定求职者表征预测生成所述给定求职者对所述给定公司的预测评价；将所述预测评价输入到风格迁移器，所述风格迁移器将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述。本发明实施例还公开了一种个性化亮点生成系统。本发明利用求职者的客观评价数据实现公司面向求职者偏好的公司亮点生成，摒除了撰写者主观经验的影响，可以更好的吸引求职者，提升招聘效率，降低了算法开发成本。

Description

一种公司亮点生成方法及系统

技术领域

本发明涉及计算机技术领域，具体而言，涉及一种公司亮点生成方法及系统。

背景技术

招聘本质是公司和求职者相互选择的过程，因此对公司亮点恰当合适的描述将有助于公司更好更快地招聘到既符合公司需要又和公司整体价值观契合的人才，在降低招聘成本的同时，助力公司长远发展。当前公司亮点主要由人工总结撰写，一方面其质量由撰写者主观决定，另一方面不能针对候选人偏好总结公司亮点，降低了公司的招聘吸引力。

发明内容

本发明的目的在于提供一种公司亮点生成方法及系统，利用求职者的客观评价数据实现公司面向求职者偏好的公司亮点生成，摒除了撰写者主观经验的影响，可以更好的吸引求职者，提升招聘效率，通过对比学习和in-context learning技术，降低了对人工标注数据数量的需求，降低了算法开发成本。

本发明提供了一种公司亮点生成方法，所述方法包括：

获取给定公司表征以及给定求职者表征，将所述给定公司表征以及所述给定求职者表征分别输入到评价生成器，所述评价生成器根据所述给定公司表征以及所述给定求职者表征预测生成所述给定求职者对所述给定公司的预测评价；

将所述预测评价输入到风格迁移器，所述风格迁移器将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述。作为本发明进一步的改进，所述用户的行为特征包括求职者属性信息、求职者偏好信息、招聘者属性信息、招聘者偏好信息、求职者与招聘者历史交互信息以及环境信息。

作为本发明进一步的改进，所述获取给定公司表征，包括：

将所述给定公司的多模态数据输入到对应类型的编码器中，所述对应类型的编码器对所述多模态数据进行编码得到对应类型的编码后的数据并输入到跨模态融合器，其中，所述多模态数据包括公司文本数据、公司图片数据以及公司视频数据，所述对应类型的编码器包括文本编码器、图片编码器以及视频编码器，所述对应类型的编码后的数据包括文本编码、图片编码以及视频编码；

所述跨模态融合器将所述文本编码、所述图片编码以及所述视频编码进行融合得到所述给定公司表征。

作为本发明进一步的改进，所述文本编码器采用序列语言模型对所述公司文本数据进行编码得到所述文本编码；

所述图片编码器采用经典视觉模型对所述公司图片数据进行编码得到图片编码；

所述视频编码器采用抽帧算法将所述公司视频数据表示为图片帧序列，采用所述经典视觉模型对所述图片帧序列进行编码，编码后采用transformer-encoder对编码后的图片帧序列进行融合；

其中，所述序列语言模型采用GRU模型、LSTM模型、隐马尔可夫链模型和BERT模型中的一种，所述经典视觉模型采用ResNet模型和Vit模型中的一种。

作为本发明进一步的改进，所述跨模态融合器采用multi-head attention架构和dual-multi-head attention架构中的一种对所述文本编码、图片编码以及视频编码进行融合。

作为本发明进一步的改进，所述获取给定求职者表征，包括：

通过特征提取器对所述给定求职者的多类型信息按照类型分别进行抽取得到抽取特征信息，其中所述多类型信息包括类别类信息、数值类信息、文本类信息以及行为类信息；

将所述抽取特征信息传入用户建模器，通过所述用户建模器建模得到所述给定求职者表征。

作为本发明进一步的改进，所述类别类信息采用one-hot编码、embedding编码和决策树编码中的一种进行编码；

所述数值类信息采用离散编码、最大最小值归一化编码和Z-score标准化编码中的一种进行编码；

所述文本类信息采用词袋模型、主题模型、word2vec模型和基于预训练的大语言模型中的一种进行编码；

所述行为类信息采用RNN模型、GRU模型、LSTM模型、隐马尔可夫链模型和transformer模型中的一种进行编码；

所述用户建模器采用wide-deep模型、DIN模型和DIEN模型中的一种进行建模。

作为本发明进一步的改进，所述评价生成器采用RNN模型、GRU模型、LSTM模型和transformer-decoder模型中的一种；

所述预测评价包括文本格式评价和类别格式评价。

作为本发明进一步的改进，所述风格迁移器包括文本生成模型，所述文本生成模型采用seq-to-seq模型，并结合RNN模型、LSTM模型和transformer模型中的一种；

所述文本生成模型中引入in-context learning学习方式，从求职者评价对公司亮点描述的数据中检索出与所述给定求职者最相似的N个求职者中M条最具多样性的样本作为示例，所述预测评价通过prompt提示附带所述示例作为所述文本生成模型的输入，生成所述给定公司针对所述给定求职者关注点的亮点描述。

作为本发明进一步的改进，所述从求职者评价对公司亮点描述的数据中检索出与所述给定求职者最相似的N个求职者中M条最具多样性的样本作为示例，包括：

从所述求职者评价对公司亮点描述的数据中检索出所述N个求职者对公司亮点描述的全部数据，表示为：，其中每条数据/>，为被评价公司，/>为评价内容，/>为对应公司亮点描述；

从所述N个求职者对公司亮点描述的全部数据R中随机选择一条数据加入示例集合，计算R中剩余各数据和E中全部数据间被评价公司的距离平均值avg_dis，给定/>，表示为：/>，

并选出avg_dis最大者加入示例集合E，直到，选出差异最大的M条示例组成的集合E作为所述示例。

本发明实施例还提供了一种公司亮点生成系统，所述系统用于生成给定公司的个性化亮点，所述系统包括：

文本编码器，用于将给定公司文本数据进行编码得到文本编码；

图片编码器，用于将给定公司图片数据进行编码得到图片编码；

视频编码器，用于将给定公司视频数据进行编码得到视频编码；

跨模态融合器，用于将所述文本编码、所述图片编码以及所述视频编码进行融合，以获取给定公司表征；

特征提取器，用于对给定求职者的多类型信息按照类型分别进行编码得到抽取特征信息，其中所述多类型信息包括类别类信息、数值类信息、文本类信息以及行为类信息；

用户建模器，用于将所述抽取特征信息建模得到给定求职者表征；

评价生成器，用于根据所述给定公司表征以及所述给定求职者表征预测生成所述给定求职者对所述给定公司的预测评价；

风格迁移器，用于将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述。

本发明的有益效果为：利用求职者的客观评价数据实现公司面向求职者偏好的公司亮点生成，摒除了撰写者主观经验的影响，可以更好的吸引求职者，提升招聘效率，通过对比学习和in-context learning技术，降低了对人工标注数据数量的需求，降低了算法开发成本。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一示例性实施例所述的一种公司亮点生成方法的流程示意图；

图2为本发明一示例性实施例所述的一种公司亮点生成方法的结构图；

图3为本发明一示例性实施例所述的一种公司亮点生成方法的框架概述图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……)，则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明的描述中，所用术语仅用于说明目的，并非旨在限制本发明的范围。术语“包括”和/或“包含”用于指定所述元件、步骤、操作和/或组件的存在，但并不排除存在或添加一个或多个其他元件、步骤、操作和/或组件的情况。术语“第一”、“第二”等可能用于描述各种元件，不代表顺序，且不对这些元件起限定作用。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个及两个以上。这些术语仅用于区分一个元素和另一个元素。结合以下附图，这些和/或其他方面变得显而易见，并且，本领域普通技术人员更容易理解关于本发明所述实施例的说明。附图仅出于说明的目的用来描绘本发明所述实施例。本领域技术人员将很容易地从以下说明中认识到，在不背离本发明所述原理的情况下，可以采用本发明所示结构和方法的替代实施例。

本发明实施例所述的一种公司亮点生成方法，如图1所示，可以分为两个步骤：

步骤1：获取给定公司表征以及给定求职者表征，将所述给定公司表征以及所述给定求职者表征分别输入到评价生成器，所述评价生成器根据所述给定公司表征以及所述给定求职者表征预测生成所述给定求职者对所述给定公司的预测评价，所述预测评价可以直接反映求职者对公司的关注点；

步骤2：将所述预测评价输入到风格迁移器，所述风格迁移器将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述。

本发明所述的方法利用求职者的客观评价数据实现公司面向求职者偏好的公司亮点生成，摒除了撰写者主观经验的影响，可以更好的吸引求职者，提升招聘效率。

一种可选的实施方式，所述获取给定公司表征，包括：

如图1所示，本发明所述方法的步骤1中，对所述给定公司的多模态数据进行编码，多模态数据包括公司文本数据、公司图片数据以及公司视频数据。

将公司文本数据输入到文本编码器中，文本编码器对公司文本数据进行编码得到文本编码。可选的，所述文本编码器采用序列语言模型对所述公司文本数据进行编码得到所述文本编码，所述序列语言模型采用GRU模型、LSTM模型、隐马尔可夫链模型和BERT模型中的一种。本发明所述方法对所述序列语言模型不做具体限定，包括但不限于GRU模型（循环神经网络）、LSTM模型（长短期记忆人工神经网络）、隐马尔可夫链模型和BERT模型（一种预训练模型），通过文本编辑器编辑，可以获得所述给定公司的文本编码，表示为=（），其中/>表示第i个词的表示向量；

将公司图片数据输入到图片编码器中，图片编码器对公司图片数据进行编码得到图片编码。可选的，所述图片编码器采用经典视觉模型对所述公司图片数据进行编码得到图片编码，所述经典视觉模型包括ResNet模型和Vit模型中的一种。本发明所述方法对所述经典视觉模型不做具体限定，包括但不限于ResNet模型（深度卷积神经网络）和Vit模型，即vision transformer模型（视觉转换器模型），通过图片编辑器编辑，可以获得所述给定公司的图片编码，表示为=（/>），其中/>表示第i张图片的表示矩阵；

将公司视频数据输入到视频编码器中，视频编码器对公司视频数据进行编码得到视频编码。可选的，所述视频编码器采用抽帧算法将所述公司视频数据表示为图片帧序列，其中，本发明所述方法对所述抽帧算法不做具体限定，所述抽帧算法包括但不限于定长抽帧、随机抽帧和热点识别抽帧；采用所述经典视觉模型对所述图片帧序列进行编码，编码后采用transformer-encoder对编码后的图片帧序列进行融合，其中，所述经典视觉模型采用ResNet模型和Vit模型中的一种，本发明所述方法对所述经典视觉模型不做具体限定，包括但不限于ResNet模型和Vit模型，通过attention机制（注意力机制），保证实现任意时间跨度下的信息抽取，并通过pooling机制（池化机制）实现层次化的多粒度语义理解，通过视频编码器编辑，可以获得所述给定公司的视频编码，表示为=（/>），,其中/>表示第i个图片帧的表示矩阵；

如图2所示，跨模态融合器将文本编码、图片编码以及视频编码进行融合得到所述给定公司表征，可选的，所述跨模态融合器采用multi-head attention机制（多头注意力机制）对文本编码、图片编码以及视频编码进行融合，首先将文本编码、图片编码以及视频编码通过多层感知器转换为维度相同的向量序列表示：，/>，，其中/>、/>以及/>为可学习参数。进而将/>、/>以及/>和各自的类型编码以及位置编码相拼接后得到拼接编码，将所述拼接编码输入到multi-head attention机制中，最终得到所述给定公司表征；

所述拼接编码表示为：

其中，表示为文本编码中各自对应的位置编码，/>表示为文本编码中各自对应的类型编码，/>表示为图片编码中各自对应的位置编码，/>表示为图片编码中各自对应的类型编码，/>表示为视频编码中各自对应的位置编码，/>表示为视频编码中各自对应的类型编码。

可选的，所述跨模态融合器采用dual-multi-head attention机制（双头注意力机制）对文本编码、图片编码以及视频编码进行融合，与上述multi-head attention机制不同的是，dual-multi-head attention机制可以看作是由两个multi-head attention模块组成，将两个模块中的mask部分重构，重构后的mask结构如图2所示，图2左图为module1，图2右图为module2，其中深色代表mask=1，浅色代表mask=0，只有在mask=1时，multi-headattention才可以捕捉特征间的相关关系；可以理解的，module1为mask=1时的结构，因此可以通过module1捕捉模态内的关系，module2为mask=0时的结构，因此可以通过module2捕捉跨模态之间的相关关系，可以更好的捕捉跨模态间的相关关系以提升语义理解。

一种可选的实施方式，所述获取给定求职者表征，包括：

通过特征提取器对所述给定求职者的多类型信息按照类型分别进行编码得到抽取特征信息，其中所述多类型信息包括类别类信息、数值类信息、文本类信息以及行为类信息；

如图1所示，本发明所述方法的步骤1中，对所述给定求职者的多类型信息按照类型进行编码得到抽取特征信息，其中所述多类型信息包括类别类信息、数值类信息、文本类信息以及行为类信息；特征提取器将类别类信息进行编码，可选的，所述类别类信息采用one-hot编码（独热编码）、embedding编码（单词编码）和决策树编码中的一种进行编码，本发明所述方法对编码方法不做具体限定，包括但不限于one-hot编码、embedding编码和决策树编码；特征提取器将数值类信息进行编码，可选的，所述数值类信息采用离散编码、最大最小值归一化编码和Z-score标准化编码（标准差标准化）中的一种进行编码，本发明所述方法对编码方法不做具体限定，包括但不限于离散编码、最大-最小值归一化编码和Z-score标准化编码；特征提取器将文本类信息进行编码，可选的，所述文本类信息采用词袋模型、主题模型、word2vec模型（一群用来产生词向量的相关模型）和基于预训练的大语言模型中的一种进行编码，本发明所述方法对编码方法不做具体限定，包括但不限于词袋模型、主题模型、word2vec模型以及基于预训练的大语言模型；特征提取器将行为类信息进行编码，可选的，所述行为类信息采用RNN模型（循环神经网络）、GRU模型、LSTM模型、隐马尔可夫链模型和transformer模型中的一种进行编码，本发明所述方法对编码方法不做具体限定，包括但不限于RNN模型、GRU模型、LSTM模型、隐马尔可夫链模型、transformer模型以及基于预训练的大语言模型；

将各个编码后的信息进行融合得到抽取特征信息，将所述抽取特征信息传入用户建模器，通过所述用户建模器建模得到所述给定求职者表征；可选的，所述用户建模器采用wide-deep模型（浅层-深层模型，一种结合了广义线性模型和深度神经网络模型的模型）、DIN模型（深度兴趣模型，一种基于注意力机制的深度学习模型）和DIEN模型（深度兴趣演化模型，一种通过注意力机制和序列模型挖掘用户潜在表征随时间演化的模型）中的一种进行建模，本发明所述方法对建模模型不做具体限定，包括但不限于wide-deep模型、DIN模型和DIEN模型。

如图1所示，本发明所述方法的步骤1中，将所述给定公司表征以及所述给定求职者表征分别输入到评价生成器，所述评价生成器根据所述给定公司表征以及所述给定求职者表征预测生成所述给定求职者对所述给定公司的预测评价；可选的，所述评价生成器采用RNN模型、GRU模型、LSTM模型和transformer-decoder模型中的一种；本发明所述方法对评价生成模型不做具体限定，包括但不限于RNN模型、GRU模型、LSTM模型和transformer-decoder模型；所述预测评价包括文本格式评价和类别格式评价（例如打分、标签等）。

如图3所示，本发明所述方法的步骤1中，一种可选的实施方式，获取所述给定求职者对所述给定公司的真实评价，将所述预测评价与所述真实评价进行拟合；具体的，给定求职者1、公司1、求职者1对公司1的真实评价1、以及步骤1中生成的评价1（预测评价），将评价1和真实评价1的距离最小化，可以表示为min(distance(评价1,真实评价1))，其中评价间距离度量方式可采用KL距离（相对熵）以及生成概率其中的一种，通过与真实评价拟合，以使得评价生成器生成的预测评价更加接近真实评价。

可选的，通过对比学习的方式对步骤1进行训练以提高拟合效率，找到相似的样本作为正样本，差异较大的样本作为负样本；具体的，给定公司1、求职者1、求职者2、求职者3、及步骤1生成的各位求职者对公司1的评价1、评价2、评价3（预测评价），使得评价1和评价2间的距离小于评价1和评价3间的距离，可以表示为distance(求职者1,求职者2)<distance(求职者1,求职者3)，其中求职者1和求职者2的相似程度要高于求职者1和求职者3，可以表示为distance(评价1,评价2)<distance(评价1,评价3)，也就是说求职者1和求职者2作为正样本，求职者3作为负样本，其中求职者相似度度量方式可采用KL距离、行为序列距离以及社交网络距离中的一种，评价间距离度量方式可采用KL距离和生成概率中的一种。

如图1所示，本发明所述方法的步骤2中，将所述预测评价输入到风格迁移器，所述风格迁移器将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述；一种可选的实施方式，所述风格迁移器包括文本生成模型，所述文本生成模型采用seq-to-seq模型（序列到序列生成模型），并结合RNN模型、LSTM模型和transformer模型中的一种。

可选的，所述文本生成模型中引入in-context learning学习方式（上下文学习方法），从求职者评价对公司亮点描述的数据中检索出与所述给定求职者最相似的N个求职者中M条最具多样性的样本作为示例，所述预测评价通过prompt提示附带所述示例作为所述文本生成模型的输入，生成所述给定公司针对所述给定求职者关注点的亮点描述。

在确定示例时，首先在求职者评价对公司亮点描述的数据中找出和所述给定求职者最相似的N个求职者，其中求职者相似度度量方式可采用KL距离、行为序列距离以及社交网络距离中的一种。而后，在求职者评价对公司亮点描述的数据中检索出这N个求职者对公司亮点描述的全部数据，这些数据可以表示为，其中每条数据，/>为被评价公司，/>为评价内容，/>为对应公司亮点描述，进而在其中选出M条最具多样性的样本作为示例。具体的，首先从R中随机选择一条数据加入示例集合，计算R中剩余各数据和E中全部数据间被评价公司的距离平均值avg_dis，给定，可以表示为/>，并选出avg_dis最大者加入示例集合E，直到/>，选出差异最大的M条示例组成的集合E作为示例集合，覆盖了公司各方面亮点的亮点描述，所述预测评价通过prompt提示附带所述示例集合作为所述文本生成模型的输入，最后生成所述给定公司针对所述给定求职者关注点的亮点描述。通过in-context learning学习方式改善了求职者评价对公司亮点描述的数据缺乏的问题，并且提升了对文本生成模型的指导作用，降低了对人工标注数据数量的需求，降低了算法开发成本，利用求职者的客观评价数据实现公司面向求职者偏好的公司亮点生成，摒除了撰写者主观经验的影响，可以更好的吸引求职者，提升了招聘效率。

本发明公开一种个性化亮点生成系统，所述系统用于生成给定公司的个性化亮点，所述系统包括：

特征提取器，用于对给定求职者的多类型信息按照类型分别进行抽取得到抽取特征信息，其中所述多类型信息包括类别类信息、数值类信息、文本类信息以及行为类信息；

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未

详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

此外，本领域普通技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本领域技术人员应理解，尽管已经参考示例性实施例描述了本发明，但是在不脱离本发明的范围的情况下，可进行各种改变并可用等同物替换其元件。另外，在不脱离本发明的实质范围的情况下，可进行许多修改以使特定情况或材料适应本发明的教导。因此，本发明不限于所公开的特定实施例，而是本发明将包括落入所附权利要求范围内的所有实施例。

Claims

1.一种公司亮点生成方法，其特征在于，所述方法包括：

将所述预测评价输入到风格迁移器，所述风格迁移器将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述；

所述风格迁移器包括文本生成模型，所述文本生成模型中引入in-context learning学习方式，从求职者评价对公司亮点描述的数据中检索出与所述给定求职者最相似的N个求职者中M条最具多样性的样本作为示例，所述预测评价通过prompt提示附带所述示例作为所述文本生成模型的输入，生成所述给定公司针对所述给定求职者关注点的亮点描述。

2.如权利要求1所述的方法，其特征在于，所述获取给定公司表征，包括：

3.如权利要求2所述的方法，其特征在于，所述文本编码器采用序列语言模型对所述公司文本数据进行编码得到所述文本编码；

4.如权利要求2所述的方法，其特征在于，所述跨模态融合器采用multi-headattention架构和dual-multi-head attention架构中的一种对所述文本编码、图片编码以及视频编码进行融合。

5.如权利要求1所述的方法，其特征在于，所述获取给定求职者表征，包括：

6.如权利要求5所述的方法，其特征在于，所述类别类信息采用one-hot编码、embedding编码和决策树编码中的一种进行编码；

7.如权利要求1所述的方法，其特征在于，所述评价生成器采用RNN模型、GRU模型、LSTM模型和transformer-decoder模型中的一种；

所述预测评价包括文本格式评价和类别格式评价。

8.如权利要求1所述的方法，其特征在于，所述文本生成模型采用seq-to-seq模型，并结合RNN模型、LSTM模型和transformer模型中的一种。

9.如权利要求8所述的方法，其特征在于，所述从求职者评价对公司亮点描述的数据中检索出与所述给定求职者最相似的N个求职者中M条最具多样性的样本作为示例，包括：

从所述求职者评价对公司亮点描述的数据中检索出所述N个求职者对公司亮点描述的全部数据，表示为：，其中每条数据/>，/>为被评价公司，/>为评价内容，/>为对应公司亮点描述；

从所述N个求职者对公司亮点描述的全部数据R中随机选择一条数据加入示例集合，计算R中剩余各数据和E中全部数据间被评价公司的距离平均值avg_dis，给定，表示为：/>；

10.一种个性化亮点生成系统，其特征在于，所述系统用于生成给定公司的个性化亮点，所述系统包括：

风格迁移器，用于将所述预测评价转化为所述给定公司针对所述给定求职者关注点的亮点描述；