CN115063119A

CN115063119A - 基于招聘行为数据的自适应性的招聘决策系统及方法

Info

Publication number: CN115063119A
Application number: CN202210808495.5A
Authority: CN
Inventors: 尹超
Original assignee: Shanghai Rangchuan Information Technology Co ltd
Current assignee: Shanghai Rangchuan Information Technology Co ltd
Priority date: 2022-07-10
Filing date: 2022-07-10
Publication date: 2022-09-16

Abstract

本发明公开了基于招聘行为数据的自适应性的招聘决策系统，以解决现有技术中未将招聘人员的画像以及用人策略的时间因素纳入考虑因素，因此决策模型很难学习到历史经验和动态变化，导致决策机制很难自适应调整，本发明采用行为序列的方式，可以选择一批招聘信息和候选人信息的典型样本，并基于专家的评价标准对这些样本作出决策。决策后的序列当作历史决策序列，跟需要招聘的岗位信息和待评价的候选人信息，一同输入模型，得出预测结果。通过这种方式得出的预测结果是跟历史决策序列保持一致的。这样，在不改变模型参数本身，通过输入不同的行为序列，就会带来评价结果上的变化，起到了动态自适应的效果。

Description

基于招聘行为数据的自适应性的招聘决策系统及方法

技术领域

本发明属于数据处理技术领域，具体涉及基于招聘行为数据的自适应性的招聘决策系统及方法。

背景技术

随着信息技术的发展和数字化系统的应用普及，用人单位的岗位招聘信息以及候选人的简历信息逐渐以数字化的形态存储下来。数据的累积也促进了数据处理技术以及机器学习技术在招聘领域的发展，如简历文档解析、岗位招聘信息与简历信息匹配等系统的产生和应用。用人单位可以将招聘决策机制通过决策数据训练成模型而非纸面规定的方式传达给每个招聘人员，达到用人决策的一致性和专业性。目前，招聘决策模型主要局限于岗位信息与简历信息的匹配方法，基本流程是先通过对文本内容进行解析提取出结构化信息，然后针对岗位的各项需求与简历所述的各项能力、工作经历等进行语义上的相似度匹配，评定候选人是否满足岗位需求。

只基于文本内容的相似度匹配方法，忽略了招聘人员之间的差异，也忽略了用人单位的招聘决策机制随着时间会发生变化的动态因素影响。一方面，招聘人员由于对于用人政策的理解不同、自身经验差异，对于同一份岗位和同一个候选人，所做出的招聘决定也是不一样的，从平均意义上来说，资深招聘专家所做出的决策要比初中级招聘人员的决策要更优、更符合用人单位的招聘策略。当新的招聘人员加入到招聘决策组时，资深招聘专家需要将过往决策经验培训给新入，以对齐招聘目标，而培训的过程需要耗费大量时间和精力，也需要等待新人慢慢累积经验；另一方面，用人单位由于战略方向上的整体或局部调整，以及外在市场环境的影响，也会频繁调整招聘用人的决策。基于文本内容的相似度匹配，没有将招聘人员的画像以及用人策略的时间因素纳入方法，因此决策模型很难学习到历史经验和动态变化，导致决策机制很难自适应调整。

发明内容

为解决现有技术存在的缺陷，本发明提供一种基于招聘行为数据的自适应性的招聘决策系统及方法。

为了解决上述技术问题，本发明提供了如下的技术方案：

基于招聘行为数据的自适应性的招聘决策系统，包括数据存储模块、决策模型训练模块、所述决策模型训练模块包括决策模型和数据前处理模块，数据存储模块用于存储输入数据，数据含有岗位招聘信息，候选人信息，历史决策行为序列，候选人审核状态；采用关系型数据库或用支持嵌套结构的文档数据库；

数据前处理模块用于将原始信息中非结构化的部分转化成结构化；将基础信息原始文本转变为带有嵌套属性的树状结构，以schema结构格式来记录，是key-value形式：每个key代表树到叶子节点的路径为jsonpath，value代表叶子节点上的字段类型；所述前处理模块引入知识图谱进行数据增强以及信息纠错，按结构化格式将扩增字段补充进主体结构；还包括向量化嵌入，将原始的transformer是采用字典查找(lookuptable)的方式对token进行向量化嵌入，并叠加位置编码；标记化处理，将transformer接受的是以token为元素的序列作为输入。原始的transformer架构是针对文本序列进行处理。

作为本发明的一种优选技术方案，所述向量化嵌入包括token根据其类型选用不同的向量化嵌入方式，包括离散型、数值类型、字符串类型，高级类型，所述离散型为将token取值采用映射方式映射进[0,1024)这个数值范围内，然后按字典查找的方式，扩展成向量，数值类型为根据mu-law归一化到[-1,1]区间，然后平均分配到[1024,2048)这个取值区间，然后采用字典查找的方式，扩展成向量，其中mu-law公式为

本发明还提供了基于招聘行为数据的自适应性的招聘决策方法，自监督的预训练模型采用跟决策模型一致的模型结构，但训练数据方面只需使用简历数据，为了模拟决策行为序列，包括以下处理步骤：

S1:抽取出简历工作经历中的最近一段工作经历及在此段时间内的其他信息等，作为候选人上一份工作时的招聘信息；除去最近一段工作经历的其他履历信息，作为候选人在应聘上一份工作时的简历信息；流程阶段在除之外的流程里随机挑选进行填充；决策行为取值为“入职”，

S2:根据最近一段工作经历中职位名的相似度对所有收集到的简历进行聚类；

S3:对每一类简历，再根据最近一段工作经历的公司进行分组，每一组内按最近一段工作的开始时间进行排序，这样每一组为包含历史决策行为的决策序列；

S4:由于根据简历所模拟出的决策序列只有正样本，即只有入职信息，不存在淘汰信息，以负采样技术在每一个批量训练的决策序列中。

进一步地，基于真实行为数据的持续训练步骤：若模拟数据中的公司、职位跟用人单位差别较大，预训练的模型预测效果不能符合用人单位的招聘决策标准，在预训练模型的基础上继续使用真实的决策行为数据进行微调；数据量多样性充足并且决策效果达到预期后，可以将模型参数固定下来，之后只使用模型进行预测。

进一步地，决策模型预测过程：用人单位选用预训练模型或者根据自身决策数据微调后的模型，进行预测时，遵循以下流程：

1)数据存储：通过数据采集系统上传候选人信息、岗位招聘信息后进行存储；通过流程管理系统采集招聘人员的决策行为并进行存储；

2)数据处理：数据处理过程跟训练过程中的数据处理保持一致；

3)模型预测：将处理过的数据输入模型中，输出各种可能的决策行为概率，选择概率最高的action作为建议的决策行为进行输出。

进一步地，在步骤3中，决策模型的输出的条件概率表示为

p_θ(action∣job,candidate,stage,history)，其中，上式条件概率表达的是：在遵循某招聘行为序列history的前提下，对投递某个岗位job的候选人candidate，在流程阶段stage下所做出的下一步决策action的概率。

更近一步地，在步骤3中，决策模型的损失函数定义成：

其中，y(action⁽ⁱ⁾)是一个掩蔽函数，即当action⁽ⁱ⁾等于真实输出时，y(action⁽ⁱ⁾)＝1；反之，y(action⁽ⁱ⁾)＝0。

本发明相较于现有技术，具有以下有益效果：

1)调整招聘决策策略：当用人单位需要调整招聘的评价标准，传统方式是制定各种局部要求的标准，但很难覆盖输入信息的多样性，导致失去科学上的一致性。采用行为序列的方式，可以选择一批招聘信息和候选人信息的典型样本，并基于专家的评价标准对这些样本作出决策。决策后的序列当作历史决策序列，跟需要招聘的岗位信息和待评价的候选人信息，一同输入模型，得出预测结果。通过这种方式得出的预测结果是跟历史决策序列保持一致的。这样，在不改变模型参数本身，通过输入不同的行为序列，就会带来评价结果上的变化，起到了动态自适应的效果。

2)培训与考核招聘人员：招聘人员是基于自身经验对招聘评价标准进行理解的，由于经验不同，理解的评价标准不一致，会带来最终评价结果上的个性化。培训等价于用招聘专家的行为序列数据来指导招聘人员，以做出跟招聘专家一致的评价结果。考核相当于收集每个招聘人员自己的行为序列，然后计算这些行为序列跟招聘专家行为序列的表现差异。

附图说明

图1是本发明基于招聘行为数据的自适应性的招聘决策方法的流程图。

图2是本发明的招聘信息包含的字段列表。

图3是本发明的候选人信息的字段列表图。

图4是本发明的决策模型的训练流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

为了达到本发明的目的，以具体实施例说明：

数据存储模块：决策的输入数据包含以下四部分：岗位招聘信息、候选人信息、历史决策行为序列和候选人处于岗位的哪个流程阶段。决策的输出是：招聘人员对候选人做出的下一步决策，例如将笔试阶段的候选人加入进面试阶段，或将笔试阶段的候选人淘汰。

岗位招聘信息用job表示，候选人信息用candidate表示，一般来说，这两部分数据用多表的形式分别存储于关系型数据库，或用支持嵌套结构的形式如json格式存储于文档数据库；候选人当前处于招聘岗位的哪个流程阶段，例如笔试阶段、面试阶段等，用stage表示；招聘人员对候选人做出的下一步决策用action表示；招聘人员的历史决策用history表示，是一个行为序列，history＝[(job,candidate,stage,action),...]序列的每个元素是一个四元组，记录了在某个时间点，招聘人员在某个岗位招聘流程下，把某份简历从一个流程移动到另一个流程的行为。行为序列相当于日志记录，可以存储于文件或者文档数据库。

1.决策模型训练模块：

a.决策模型：决策模型的输出用以下条件概率表示：

p_θ(action∣job,candidate,stage,history)，；

上式条件概率表达的是：在遵循某招聘行为序列history的前提下，对投递某个岗位job的候选人candidate，在流程阶段stage下所做出的下一步决策action的概率。在同样的job,candidate,stage下，由于history不同，action会有所变化。其中，代表了决策模型的参数，可以通过输入海量个性化的行为序列来进行训练，从而学习到各类不同的招聘评判标准；

History表示行为数据序列，可以用客观数据来表示某个具体招聘评判标准：对于一批岗位需求和一批候选人，所做出的评价行为。这样，行为序列一方面可以表达招聘标准的个性化，另一方面可以表达招聘策略的动态变化。用以下情况进一步说明：调整招聘决策策略：例如，当用人单位调整战略，需要在某个市场方向上进行投入引入大量人员时，可能会放宽评价标准，评价标准的改变可以用行为序列来表示。

在不改变模型参数本身，通过输入不同的行为序列，就会带来评价结果上的变化，起到了动态自适应的效果。培训与考核招聘人员：招聘人员是基于自身经验对招聘评价标准进行理解的，由于经验不同，理解的评价标准不一致，会带来最终评价结果上的个性化。

培训等价于用招聘专家的行为序列数据来指导招聘人员，以做出跟招聘专家一致的评价结果。考核相当于收集每个招聘人员自己的行为序列，然后计算这些行为序列跟招聘专家行为序列的表现差异；决策模型的损失函数定义成：

模型架构如图1所示，其中，岗位招聘信息和候选人信息，经过数据预处理步骤，会按照各字段的顺序排列成序列；历史行为决策序列在历史招聘信息和历史候选人信息展开的基础上，以一个子序列的方式拼接在当前决策行为序列中。因此，决策数据整体上是一个序列结构，那么，可以使用任何序列模型来进行建模。从模型表达和扩展考虑，主体可以选择深度学习中的transformer架构。接下来，会对输入进transformer中的数据如何做前处理和向量化作进一步的阐述。2.数据前处理模块：

决策模型的输入数据，在进入模型前，需要经过以下数据处理的准备工作：

i.信息结构化：

信息提取的主要目的是尽可能在不损失信息的前提下，将原始信息中非结构化的部分转化成结构化，然后以更明确的结构化信息输入决策模型，提升决策模型的准确率、训练效率和预测效率。例如，原始岗位招聘信息可能用文本进行表示，需要经过文本解析，以识别出岗位要求中各字段的类型、条件组合和嵌套结构；候选人信息中的原始简历可能

以PDF/Word/图片等文档形式撰写，需要经过OCR技术以及简历文件解析技术，提取出相关结构化信息。

a.岗位招聘信息：

岗位招聘信息经过结构化处理后，会从原始文本变成带有嵌套属性的树状结构表示，一般用json形式来记录数据。但树状结构对于后续模型的建模是不太方便的，这里提出一个等价的扁平化的schema结构表示，是key-value形式：每个key代表树到叶子节点的路径，即jsonpath，value代表叶子节点上的字段类型。schema如下所示：

一份按照此格式填充的数据示例如下：

上述表示法有两个优势：

一是key用json路径表示，可以完整保留树状结构信息；

二是展开后的字段进行向量化嵌入(embedding)及某些向量化运算时，能够并行运算，加快训练和预测效率。

b.候选人信息：

候选人信息包含简历信息以及候选人的笔试、面试等信息。笔试和面试信息可以用最终分数来进行表示，也可以配合面试解析技术深入提取面试回答来更丰富地表达信息维度。简历参照上述岗位招聘信息的处理方式，进行结构化提取后并用展平后的树状结构表示。特别的，由于简历中的工作经历/项目经历等内容是不定长度的数组，在扁平化的schema中如下表示：

{

...

"resume.works[].company":companyName,//公司名称，companyName类型；

companyName类型的父类型是string，用companyName类型表示

"resume.works[].job":jobName,//岗位名称，jobName类型；jobName类型跟“岗位招聘信息”schema中的jobName类型是一致的

...

}

一份按照此格式填充的数据示例如下：

{

...

"resume.works[1].company":"阿里巴巴"

"resume.works[1].job":"销售经理"

...

"resume.works[5].company":"腾讯"

"resume.works[5].job":"销售专员"

...

}

上述示例中，为了保持序列长度对齐，可以对数组进行截断，例如，只考虑最近5段工作经历，不足5段补齐到5段。

ii.知识图谱信息增强：

原始数据可能缺失一些常识性知识，需要额外的常识数据源如知识图谱，进行信息增强，以尽可能给决策模型提供更完备的输入数据。例如，原始岗位招聘要求中可能出现“985、211等高校毕业的学生优先”，而其中的“985”、“211”等表述实际上是划分高校类别的一种方式，属于外在知识，需要利用知识图谱将这部分缺失的信息填充；简历信息中也会撰写某个时间在某个公司工作的经历，而公司实际上有行业、规模、地区等画像属性，这部分信息在原始简历中很有可能不会填写或者存在填写错误，也需要利用知识图谱进行信息增强和信息纠错。信息增强的方式按结构化格式将扩增字段补充进主体结构。

iii.标识化tokenization：

transformer接受的是以token为元素的序列作为输入。原始的transformer架构是针对文本序列进行处理，tokenization相当于分词，技术方案中考虑的招聘决策行为序列蕴含着多层结构，需要对token的具体处理作出进一步说明：

1)岗位信息和候选人信息都已经用展平后的key-value形式表示，那么每个字段看作是一个token，token类型为字段类型，内容包含两部分：字段名和字段内容。token序列的排列顺序按照schema里相应key的顺序；

2)流程阶段信息stage看作是一个token，内容为流程阶段名称，类型为离散型类别，取值范围从流程阶段集合中选取，例如{“投递”，“一面”，...，“入职”，“淘汰”}；

3)决策行为action看作是一个token，内容为流程阶段名称，类型为离散型类别，取值范围跟stage保持一致。

iv.向量化嵌入(embedding)：

原始的transformer是采用字典查找(lookuptable)的方式对token进行向量化嵌入，并叠加位置编码。对transformer中的向量化嵌入部分进行改造，以适配决策行为序列中的多层结构。token根据其类型采用不同的向量化嵌入方式，例如：

a.离散型：将token取值采用映射方式映射进[0,1024)这个数值范围内，然后采用字典查找的方式，扩展成向量；

b.数值类型integer或float：根据mu-law归一化到[-1,1]区间，然后平均分配到[1024,2048)这个取值区间，然后采用字典查找的方式，扩展成向量，其中mu-law公式如下；

c.字符串类型string：通过填加一个文本序列编码器将文本编码成向量，文本序列编码器可以选用简化版的Bertencoder。文本编码器的模型参数可以跟主体transformer的模型参数一起参与训练，也可以将参数固定以提升总体训练速度；

d.高级类型，如companyName,jobName：可以采用跟字符串类型一样的处理方式，也可以提前在知识图谱上进行实体向量嵌入，然后采用字典查找的方式直接引用实体向量嵌入结果。直接引用实体向量嵌入的方式，嵌参入数是固定的，不随transformer训练而改变。招聘信息与候选人信息的信息处理流程，如图2和图3所示，

本实施例提供的决策模型训练方法：如果用人单位之前没有使用过数字化招聘流程，也缺乏必要的决策数据积累供训练使用，可以采用预训练的决策模型进行冷启动，然后再在自己的决策行为数据上进行后续微调训练。

具体地，基于自监督的预训练方法，自监督的预训练模型采用跟决策模型一致的模型结构，但训练数据方面只需使用简历数据，为了模拟决策行为序列，采用以下处理步骤：

i.抽取出简历工作经历中的最近一段工作经历及在此段时间内的其他信息等，作为候选人上一份工作时的招聘信息；除去最近一段工作经历的其他履历信息，作为候选人在应聘上一份工作时的简历信息；流程阶段在除{“入职”，“淘汰”}之外的流程里随机挑选进行填充；决策行为取值为“入职”，如图4；

ii.根据最近一段工作经历中职位名的相似度对所有收集到的简历进行聚类；

iii.对每一类简历，再根据最近一段工作经历的公司进行分组，每一组内按最近一段工作的开始时间进行排序，这样每一组为包含历史决策行为的决策序列；

iv.由于根据简历所模拟出的决策序列只有正样本，即只有入职信息，不存在淘汰信息，可以在每一个批量训练的决策序列中采用负采样技术。

基于真实行为数据的持续训练方法：如果模拟数据中的公司、职位跟用人单位差别较大，预训练的模型预测效果不一定能符合用人单位的招聘决策标准，可以在预训练模型的基础上继续使用真实的决策行为数据进行微调。

数据量多样性充足并且决策效果达到预期后，可以将模型参数固定下来，之后只使用模型进行预测。

1)数据存储：通过数据采集系统上传候人信息、岗位招聘信息后进行存储；通过流程管理系统采集招聘人员的决策行为并进行存储；

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于招聘行为数据的自适应性的招聘决策系统，包括数据存储模块、决策模型训练模块、所述决策模型训练模块包括决策模型和数据前处理模块，其特征在于：数据存储模块用于存储输入数据，数据含有岗位招聘信息，候选人信息，历史决策行为序列，候选人审核状态；采用关系型数据库或用支持嵌套结构的文档数据库；

数据前处理模块用于将原始信息中非结构化的部分转化成结构化；将基础信息原始文本转变为带有嵌套属性的树状结构，以schema结构格式来记录，是key-value形式：每个key代表树到叶子节点的路径为jsonpath，value代表叶子节点上的字段类型；

所述前处理模块引入知识图谱进行数据增强以及信息纠错，按结构化格式将扩增字段补充进主体结构；

还包括向量化嵌入，将原始的transformer是采用字典查找lookuptable的方式对token进行向量化嵌入，并叠加位置编码；

标记化处理，将transformer接受的是以token为元素的序列作为输入；原始的transformer架构是针对文本序列进行处理。

2.根据权利要求1所述的基于招聘行为数据的自适应性的招聘决策方法，其特征在于，所述向量化嵌入包括token根据其类型选用不同的向量化嵌入方式，包括离散型、数值类型、字符串类型，高级类型，所述离散型为将token取值采用映射方式映射进[0,1024)这个数值范围内，然后按字典查找的方式，扩展成向量，数值类型为根据mu-law归一化到[-1,1]区间，然后平均分配到[1024,2048)这个取值区间，然后采用字典查找的方式，扩展成向量，其中mu-law公式为

3.根据权利要求1所述的基于招聘行为数据的自适应性的招聘决策方法，自监督的预训练模型采用跟决策模型一致的模型结构，但训练数据方面只需使用简历数据，模拟决策行为序列，其特征在于，包括以下处理步骤：

S1:抽取出简历工作经历中的最近一段工作经历及在此段时间内的其他信息，作为候选人上一份工作时的招聘信息；除去最近一段工作经历的其他履历信息，作为候选人在应聘上一份工作时的简历信息；流程阶段在除之外的流程里随机挑选进行填充；决策行为取值为“入职”，

4.根据权利要求3所述的基于招聘行为数据的自适应性的招聘决策方法，其特征在于：基于真实行为数据的持续训练步骤：若模拟数据中的公司、职位跟用人单位差别较大，预训练的模型预测效果不能符合用人单位的招聘决策标准，在预训练模型的基础上继续使用真实的决策行为数据进行微调；数据量多样性充足并且决策效果达到预期后，可以将模型参数固定下来，之后只使用模型进行预测。

5.根据权利要求3所述的基于招聘行为数据的自适应性的招聘决策方法，其特征在于：决策模型预测过程：用人单位选用预训练模型或者根据自身决策数据微调后的模型，进行预测时，遵循以下流程：

6.根据权利要求3所述的基于招聘行为数据的自适应性的招聘决策方法，其特征在于：在步骤3中，决策模型的输出的条件概率表示为p_θ(action∣job,candidate,stage,history)，其中，上式条件概率表达的是：在遵循某招聘行为序列history的前提下，对投递某个岗位job的候选人candidate，在流程阶段stage下所做出的下一步决策action的概率。

7.根据权利要求3所述的基于招聘行为数据的自适应性的招聘决策方法，其特征在于：在步骤3中，决策模型的损失函数定义成：