CN111143517B

CN111143517B - 人选标签预测方法、装置、设备和存储介质

Info

Publication number: CN111143517B
Application number: CN201911392441.XA
Authority: CN
Inventors: 叶佐昌; 蒋苗; 唐长成; 兰兵; 王禹卓; 罗曼雪
Original assignee: Zhejiang Alpha Human Resources Co ltd
Current assignee: Zhejiang Alpha Human Resources Co ltd
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2023-09-05
Anticipated expiration: 2039-12-30
Also published as: CN111143517A

Abstract

本发明涉及一种人选标签预测方法、装置、设备和存储介质，该方法包括：确定客观标签和软性分类标签；为待预测简历添加对应的客观标签；选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。全面地填充了人才库中各个人选的标签，极大降低了人选标签维护的成本，并提高了效率和准确率。

Description

人选标签预测方法、装置、设备和存储介质

技术领域

本发明涉及机器学习技术领域，具体涉及一种人选标签预测方法、装置、设备和存储介质。

背景技术

现有人才管理系统中，为了方便对人才的搜索，通常会用一组标签键值来存储一个人的信息和评价，这些标签包括姓名、电话、学校、公司和经历等客观标签。而实际的应用过程中，通常人选数量很大，标签维度高，标签不齐全，而靠人工维护人选的标签成本较高，也比较困难。

相关技术中，利用自动简历解析技术得到简历中的字段来填充人选标签，但是这种方法通常只适用部分客观标签，其他的分类标签需要人工遵循特定的规则来维护。

因此，当人选数量较大时，就会带来打标签效率低、成本高或准确率低的问题。

发明内容

有鉴于此，提供一种人选标签预测方法、装置、设备和存储介质，以解决现有技术中人选数量较大时，打标签效率低、成本高以及准确率低的问题。

本发明采用如下技术方案

第一方面，本申请实施例提供了一种人选标签预测方法，该方法包括：

确定客观标签和软性分类标签；

为待预测简历添加对应的客观标签；

选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；

应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；

将所述待预测简历输入至所述人选标签预测模型进行预测，根据预测结果为所述待预测简历添加对应的软性分类标签。

第二方面，本申请实施例提供了一种人选标签预测装置，该装置包括：

标签确定模块，用于确定客观标签和软性分类标签；

客观标签添加模块，用于为待预测简历添加对应的客观标签；

样本确定模块，用于选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；

训练模块，用于应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；

预测模块，用于将所述待预测简历输入至所述人选标签预测模型进行预测，根据预测结果为所述待预测简历添加对应的软性分类标签。

第三方面，本申请实施例提供了一种设备，该设备包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行本申请实施例第一方面所述的人选标签预测方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如第一方面所述的人选标签预测方法中各个步骤。

本发明采用以上技术方案，通过确定客观标签和软性分类标签；为待预测简历添加对应的客观标签；选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。实现了人选标签中的软性分类标签的自动预测，并与经过简历解析直接添加的客观标签进行融合，全面填充了人才库中各个人选的标签，极大降低了人选标签维护的成本，并提高了效率和准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种人选标签预测方法的流程图；

图2是本发明实施例提供的另一种人选标签预测方法的流程图；

图3是本发明实施例提供的一种人选标签预测装置的结构示意图；

图4是本发明实施例提供的一种设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

实施例

图1为本发明实施例提供的一种人选标签预测方法的流程图，该方法可以由本发明实施例提供的人选标签预测装置来执行，该装置可采用软件和/或硬件的方式实现。参考图1，该方法具体可以包括如下步骤：

S101、确定客观标签和软性分类标签。

其中，人才管理系统中为了方便对人才的搜索，通常会用一组标签键值对的方式来存储一个人的信息和评价。首先，要确定可以应用的对简历进行标注的若干客观标签和软性分类标签，客观标签通常可以包括姓名、电话、性别、邮箱、出生年月、公司、目前职位、任职经历、工作地点、学历、学校名称等，而软性分类标签通常可以包括行业、职能、业绩、平台、职级、擅长方向等。

S102、为待预测简历添加对应的客观标签。

具体的，待预测简历通常为大量的，例如以10000份为例，由于可以直接在人选简历中找到对应的字段就可以为每个待预测简历添加对应的客观标签，因此，这里为每个待预测简历添加对应的客观标签来实现客观标签的完善。也即，执行完该步骤，每个待预测简历均添加了对应的客观标签，接下来需要再为每个待预测简历添加对应的软性分类标签。

S103、选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本。

为了提高训练速度和训练精度，在大量的待预测简历中选取预设比例的简历来按照软性分类标签进行标注，可选的，预设比例通常可以取10％。然后将标注后的待预测简历分为两部分，一部分称为训练样本，用来训练人选标签预测模型，另一部分作为测试样本，用来才测试人选标签预测模型的预测准确率，以便及时调整人选标签预测模型中的参数来提高预测准确率。在一个具体的例子中，待预测简历是10000份，则进行标注的待预测简历可以是1000份。在一个具体的例子中，按照软性分类标签进行标注时，通常类别是指有限的几个类别。

S104、应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型。

具体的，应用设定的机器学习预测算法对训练样本进行训练，当满足训练终止条件时停止训练，确定人选标签预测模型。在一个具体的例子中，训练终止条件可以是预测准确率达到设定准确率阈值，还可以是训练次数满足一定的次数条件，这里不进行限定。在一个具体的例子中，训练过程可以理解为应用设定的机器学习预测算法来学习简历中的数据内容的特征和标签之间的关系，从而对未标注的简历进行预测。例如，本申请实施例中应用的是朴素贝叶斯分类器，还可以用TextCNN(Text Convolutional Neural Networks，文本分类卷积神经网络)分类器或Bert分类器进行替代，这里不进行限定。

S105、将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。

具体的，将待预测简历输入至人选标签预测模型进行预测，获取对应的预测结果，其中，预测结果即为与每个待预测简历对应的软性分类标签，例如，投行类，然后为每个待预测简历添加对应的软性分类标签。这样，每个待预测简历的标签中不仅包括客观标签，还包括系统自动添加的软性分类标签。

图2为本发明又一实施例提供的一种人选标签预测方法的流程图，本实施例在上述实施例的基础上实现。参考图2，该方法具体可以包括如下步骤：

S201、确定客观标签和软性分类标签。

S202、对待预测简历进行解析。

其中，非结构化的数据指一堆无结构的文本数据，计算机无法理解，结构化数据指有一定模式的数据，可以用固定的键值来获取对应的信息。具体的，待预测简历是无结构化的文本，系统不能直接从待预测简历中为其添加客观标签或软性标签，解析之后可以得到结构化的数据，因而首先需要对待预测简历进行解析，将其解析为系统能够识别的内容。从而可以利用计算机程序批量获取简历中的姓名、电话或学校等信息。

S203、将解析后的待预测简历的简历内容进行分词，得到待预测简历中的关键词。

具体的，系统识别解析后的待预测简历，然后对待预测简历的简历内容进行分词，其中，分词是指将连续的字序列按照一定的规范重新组合成词序列的过程。分词方法主要包括基于词典的方法、基于统计的方法或基于规则的方法等，这里不进行限定，凡是能实现本申请技术方案的分词方法即可。因此，采用分词算法进行分词，得到每个待预测简历中的关键词。

S204、将解析结果与客观标签的字段进行匹配，以确定待预测简历对应的客观标签。

具体的，将解析结果与客观标签的字段一一对应进行匹配，确定每个待预测简历的客观标签。

S205、为待预测简历添加对应的客观标签。

S206、选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本。

S207、针对软性分类标签下的每个类别，计算属于类别的待预测简历中的关键词对应的特异程度值。

其中，特异程度值可以用TF-IDF表示，TF为Term-Frequency，表示关键词在当前简历中出现的频率，IDF为Inverse-Document-Frequency，称为逆文档频率，表示该关键词在当前类别下的简历中的常见程度。在一个具体的例子中，当前类别以“职称模块”标签下的“投行”类为例进行说明，而其他类别的处理情况按照同样的流程处理即可。

具体的，ui表示第i个关键词，D表示当前类别下的全部简历，dj表示当前类别下的第j个简历。TF-IDF(ui,dj)表示在简历dj中的关键词ui的特异程度值，TF(ui,dj)表示关键词ui在简历dj中出现的频率，IDF(ui,D)表示关键词ui在当前类别下的全部简历中的常见程度。而TF-IDF(ui,dj)的计算方式如下：TF-IDF(ui,dj)＝TF(ui,dj)*IDF(ui,D)，其中，IDF(ui,D)＝log(D中简历的总数量/(1+包含词汇ui的简历的数量)。i和j为正整数，i的最大取值为当前简历中的关键词的个数，j的最大值为当前类别下的简历的数量。

也就是说，如果某个关键词在简历中越常见，其IDF值会越低，两者相乘之后，TF-IDF值较高的关键词则说明其在当前简历中出现的频率高，但是在其他简历中出现的频率低，是可以表示简历的特异性的关键词。

S208、按照特异程度值选取预设数量的目标关键词。

具体的，针对每个类别，按照TF-IDF值排名从高到低，选取预设数量关键词，也即，选取TF-IDF值排名靠前的若干个关键词，然后可以去掉无意义的词，这样得到每个类别下的各个目标关键词。

S209、将软性分类标签下的各个类别中的目标关键词组合为关键词词表。

具体的，针对软件分类标签下的各个类别，分别按照上述方法确定目标关键词，然后将各个类别下的目标关键词进行组合，这样组合为目标关键词词表。

S210、基于分词后的简历内容，筛选出属于关键词词表的关键词作为特征关键词。

具体的，基于分词后的简历内容，在每个简历中筛选出属于关键词词表的关键词作为特征关键词。

S211、应用设定的机器学习算法，将特征关键词作为输入，将标注的标签作为学习目标来对训练样本进行训练，以确定人选标签预测模型。

具体的，设定的机器学习算法，将特征关键词作为输入，将标注的标签作为学习目标来对训练样本进行训练，当满足训练终止条件时，确定人选标签预测模型。在一个具体的例子中，设定的机器学习算法可以是朴素贝叶斯算法，也可以应用TextCNN或Bert分类器作为标签预测算法。

S212、应用测试样本计算当前关键词下对应软性分类标签的类别的概率。

在一个具体的例子中，标注的待预测简历有1000份，其中，800份作为训练样本，200份作为测试样本。应用测试样本来计算当前关键词下对应的各个软性分类标签的类别的概率，比如，计算得到当前关键词对应的类别1的简历为50份，对应的类别2的简历为40份等，这样就可以计算当前关键词下对应的软性分类标签的类别的概率。

S213、根据概率计算测试样本下分类正确的准确率。

具体的，由于在测试样本中的当前关键词对应得类别是已知的，因此，可以根据上述概率计算测试样本分类正确的准确率。

S214、根据应用测试样本得到的准确率调整人选标签预测模型的参数。

具体的，由于每个人选标签预测模型中包括若干参数，这些参数直接影响应用该模型进行预测得到的分类的准确率。因此，这里根据不同类别的准确率的大小来调整人选标签预测模型的参数。

S215、应用更新后的参数对人选标签预测模型进行更新。

最后通过更新后的参数对人选标签预测模型进行更新，以得到预测准确率更高的人选标签预测模型。在一个具体的例子中，更新的停止条件可以是预先设定，或者是根据用户的需求实时进行调整。

示例性的，设定的分类方法可以是基于TextCNN、Bert分类器的分类方法，计算当前关键词下对应的软性分类标签的类别的概率，例如可以通过如下方式实现，应用测试样本计算当前关键词下对应的软性分类标签的类别的概率，比如，属于“投行”类的概率是A，属于“教育”的概率为B，属于“商务”的概率为C，然后选取概率最大的软性分类标签作为训练结果，例如“投行”，再根据特征关键词和训练结果确定人选标签预测模型。示例性的，应用测试样本计算当前关键词下对应的软性分类标签的类别的概率的过程即为测试预测模型是否准确的过程。

需要说明的是，图2只是一种可实施方式，部分步骤之间并无明显的先后关系，或者可以同时进行，在这里只是举例说明，并不形成具体的限定。

本申请实施例中，首先为待预测简历添加对应的客观标签，然后通过计算各个类别下的关键词的特异程度值来得到关键词词表，应用该关键词词表对分词后的简历中的内容进行筛选得到特征关键词，然后基于特征关键词和标注的标签，来确定人选标签预测模型；最后应用该人选标签预测模型对待预测简历进行预测；此外，通过对预测模型中的参数进行调整来提高模型预测的准确率。因此，采用简历解析和自动标签预测融合来为人才库进行标签填充，全面填充了人才库中各个人选的标签，极大降低了人才标签维护的成本，提高了效率和准确率。

图3是本发明是实施例提供的一种人选标签预测装置的结构示意图，该装置适用于执行本发明实施例提供给的一种人选标签预测方法。如图3所示，该装置具体可以包括：标签确定模块301、客观标签添加模块302、样本确定模块303、训练模块304和预测模块305。

其中，标签确定模块301，用于确定客观标签和软性分类标签；客观标签添加模块302，用于为待预测简历添加对应的客观标签；样本确定模块303，用于选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；训练模块304，用于应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；预测模块305，用于将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。

进一步的，客观标签添加模块302具体用于：

对待预测简历进行解析；

将解析结果与客观标签的字段进行匹配，以确定待预测简历对应的客观标签；

为待预测简历添加对应的客观标签。

进一步的，还包括分词模块，用于在对待预测简历进行解析之后，将解析后的待预测简历的简历内容进行分词，得到待预测简历中的关键词。

可选的，训练模块304包括训练预处理子模块和训练子模块，训练预处理子模块具体用于：根据软性分类标签对训练样本进行标注；针对软性分类标签下的每个类别，计算属于类别的待预测简历中的关键词对应的特异程度值；按照特异程度值选取预设数量的目标关键词；将软性分类标签下的各个类别中的目标关键词组合为关键词词表；基于分词后的简历内容，筛选出属于关键词词表的关键词作为特征关键词；

训练子模块具体用于：应用设定的机器学习算法，将特征关键词作为输入，将标注的标签作为学习目标来对训练样本进行训练，以确定人选标签预测模型。

可选的，训练子模块具体用于：

根据设定的分类方法构造机器学习算法，计算当前关键词下对应软性分类标签的类别的概率；

选取概率最大的软性分类标签作为训练结果；

根据特征关键词和训练结果确定人选标签预测模型。

可选的，还包括测试子模块，用于在根据特征关键词和训练结果确定人选标签预测模型，之后，应用测试样本计算当前关键词下对应软性分类标签的类别的概率；根据概率计算测试样本下分类正确的准确率。

可选的，还包括模型更新子模块，用于：

根据应用测试样本得到的准确率调整人选标签预测模型的参数；

应用更新后的参数对人选标签预测模型进行更新。

本发明实施例提供的人选标签预测装置可执行本发明任意实施例提供的人选标签预测方法，具备执行方法相应的功能模块和有益效果。

本发明实施例还提供一种设备，请参阅图4，图4为一种设备的结构示意图，如图4所示，该设备包括：处理器410，以及与处理器410相连接的存储器420；存储器420用于存储计算机程序，计算机程序至少用于执行本发明实施例中的人选标签预测方法；处理器410用于调用并执行存储器中的计算机程序；上述人选标签预测至少可以包括如下步骤：确定客观标签和软性分类标签；为待预测简历添加对应的客观标签；选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。

本发明实施例还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现如本发明实施例中的人选标签预测方法中各个步骤：确定客观标签和软性分类标签；为待预测简历添加对应的客观标签；选取待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型；将待预测简历输入至人选标签预测模型进行预测，根据预测结果为待预测简历添加对应的软性分类标签。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种人选标签预测方法，其特征在于，包括：

确定客观标签和软性分类标签；

为待预测简历添加对应的客观标签；

选取所述待预测简历中预设比例的简历，按照软性分类标签进行标注，其中，标注后的待预测简历分为训练样本和测试样本；

应用设定的机器学习预测算法，对所述训练样本进行训练，确定人选标签预测模型；

将所述待预测简历输入至所述人选标签预测模型进行预测，根据预测结果为所述待预测简历添加对应的软性分类标签；

所述为待预测简历添加对应的客观标签，包括：

对待预测简历进行解析；

将解析结果与所述客观标签的字段进行匹配，以确定所述待预测简历对应的客观标签；

为所述待预测简历添加对应的客观标签；

其中，所述应用设定的机器学习预测算法，对训练样本进行训练，确定人选标签预测模型，包括：

针对软性分类标签下的每个类别，计算属于所述类别的待预测简历中的关键词对应的特异程度值；

按照所述特异程度值选取预设数量的关键词作为目标关键词；

将所述软性分类标签下的各个类别中的目标关键词组合为关键词词表；

基于分词后的简历内容，筛选出属于所述关键词词表的关键词作为特征关键词；

应用设定的机器学习算法，将所述特征关键词作为输入，将标注的标签作为学习目标来训练所述训练样本，以确定人选标签预测模型；

其中，所述特异程度值表示关键词在当前简历中出现的频率。

2.根据权利要求1所述的方法，其特征在于，所述对待预测简历进行解析之后，还包括：

将解析后的待预测简历的简历内容进行分词，得到所述待预测简历中的关键词。

3.根据权利要求1所述的方法，其特征在于，所述应用设定的机器学习算法，将所述特征关键词作为输入，将标注的标签作为学习目标来训练所述训练样本，以确定人选标签预测模型，包括：

选取概率最大的所述软性分类标签作为训练结果；根据所述特征关键词和所述训练结果确定人选标签预测模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述特征关键词和所述训练结果确定人选标签预测模型，之后，包括：

应用所述测试样本计算当前关键词下对应软性分类标签的类别的概率；

根据所述概率计算所述测试样本下分类正确的准确率。

5.根据权利要求4所述的方法，其特征在于，还包括：

根据应用所述测试样本得到的准确率调整所述人选标签预测模型的参数；

应用更新后的参数对所述人选标签预测模型进行更新。

6.一种人选标签预测装置，其特征在于，包括：

标签确定模块，用于确定客观标签和软性分类标签；

对待预测简历进行解析；

为所述待预测简历添加对应的客观标签；

其中，所述特异程度值表示关键词在当前简历中出现的频率；

7.一种人选标签预测设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-5任一项所述的人选标签预测方法；

8.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-5任一项所述的人选标签预测方法中各个步骤。