CN109829500B

CN109829500B - 一种职位构图和自动聚类方法

Info

Publication number: CN109829500B
Application number: CN201910100896.3A
Authority: CN
Inventors: 蔡毅; 张建南; 谢浩然
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2023-05-02
Anticipated expiration: 2039-01-31
Also published as: CN109829500A

Abstract

本发明公开了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。本发明首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据，提取特征信息填充职位模板，并提取公司类型信息，同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径，再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和结构化特征信息，采用K‑means算法进行聚类。

Description

一种职位构图和自动聚类方法

技术领域

本发明涉及机器学习技术领域，具体涉及一种职位构图和自动聚类方法。

背景技术

网页上每天都会发布无数职位信息。在多数网络招聘平台上，新职位会根据各自的标准被分类。以http://51job.com为例，新的职位信息被分类为行业类别和职能类别。然而，当求职者浏览不同招聘平台上的大量职位的时候，由于不存在一个统一的分类标准，导致求职者不能客观理性地比较来自不同平台的职位。一个能够提供根据统一分类标准对异源的职位分类的公开的系统不仅方便了求职者，也为就业和经济数据统计提供了一个珍贵的全局视野。

目前大多数有关职位信息处理的专利关于给求职者进行职位推荐。但是，进行职位聚类的技术暂时还有待开发。Feng XU的”A Method of Position Recommendation toJob Seekers and a Position Recommendation System”(专利号CN103294816A)对表示求职者和职位的胜任度的竞争力进行排序来进行推荐。Fei Wang的“Knowledge BasedPosition Recommendation System”(专利号CN104834668A)公开了一个利用求职者胜任度以及从社交媒体信息得到的求职者喜好来进行推荐的系统。

对职位进行统一聚类仍然是一个空白的领域。这个领域急需一种跨平台的职位聚类方法来满足求职者的需求。

发明内容

本发明的目的在于克服现有技术存在的上述不足，提供了一种职位构图和自动聚类方法。此方法适用于大规模网络职位数据的分类。

本发明的一种职位构图和自动聚类方法包括：首先预定义一套职位特征模板。然后从招聘网站中收集半结构化的职位样本数据，提取特征信息填充职位模板，并提取公司类型信息，同时利用网页链接信息构造职位网络。对职位网络采用随机游走采样得到样本路径，再利用语言模型训练节点的分布式表示。最后融合职位节点的分布式表示和特征模板上的特征信息，采用K-means算法进行聚类。

在一些实施方式中，预定义的一套职位特征模板，其中，模板的特征包括月薪、工作时长、工作经验、学历要求、英语水平要求、奖金水平、是否购买五险一金等。

在一些实施方式中，其中，从招聘网站中收集半结构化的职位样本数据，提取特征信息填充职位模板。首先利用网络爬虫获取职位网页数据，然后从获取的网页数据中提取与特征模板中的特征相对应的数值对特征模板进行填充。对获取的数据需要进行填充缺失值、去燥、标准化等等一系列预处理。有很多种可能的方法来填补缺失值，比如使用均值填充，使用最可能值来填充或者使用人工确定的值来填充等等。因为异源样本的职位的多样性，模板中的很多slot很可能是缺失的。因此，“unknown”值在数据集中是很普遍，这就使得“unknown”值具有统计意义。因此，对于可能的情况，简单的把缺失值标记为“unknown”。对于连续取值的属性，用人工定义的默认值填补缺失值。本发明使用两种方法来识别和去除异常点。这两种方法是箱型图和逻辑回归神经网络。箱型图是一种通过四分点描述连续的组数据的图形化的方法。坐落在下四分点以外1.5个IQR和上四分点以外1.5个IQR之间的区域以外的样本被视作异常点排除掉。余下的样本被用于训练一个逻辑回归神经网络。造成大于阈值的损失的样本会从数据集中移除。本发明使用z值标准化方法来标准化数据集。在统计学中，z值是一个有符号的标准差。这个标准差表示数据点偏离正在被观察和衡量的变量的均值的方向和程度。使用一个把输入映射到其z值的映射函数来处理数据值中的每一个样本的特征。

在一些实施方式中，其中，从招聘网站中收集半结构化的职位样本数据，提取公司类型信息。若职位样本数据中有所属公司，则记录公司名称。若职位样本数据中还有所属公司的行业类别信息，则记录公司名称对应的行业类别属性，否则以“unknown”填充该公司名称的行业类别属性。

在一些实施方式中，其中，利用网页链接信息构造职位网络。职位网络由节点和边的集合构成。本发明将获取的职位网页信息的中的职位名称和公司名称作为网络节点。职位节点与职位节点之间、职位节点与公司节点之间以及公司节点与公司节点之间的边的权重根据网页之间职位与职位之间的链接，职位与公司之间的链接以及公司与公司之间的链接的经验概率分布决定。计算出来的边的权重采用z值标准化方法来进行标准化。

在一些实施方式中，其中，对职位网络采用随机游走采样得到样本路径，再利用语言模型训练节点的分布式表示。使用随机游走算法和语言模型的目的在于利用随机采样图中的路径学习节点的分布式表示。随机游走算法采样得出的路径提供了图的局部结构信息，再利用语言模型可以学习保留了节点间二届邻接度信息的节点分布式表示。其中，随机游走算法包括以下步骤。首先遍历一遍网络的节点，得到节点的序列；然后以依次从序列中的每一个节点开始，以连接两个节点的边的权重作为概率，随机采样邻接节点，把获得的邻接节点记录在路径之中，重复这个过程直到达到预定的最长路径长度。然后使用把采样得到的路径集合作为训练数据，使用以长短期记忆网络(LSTM)作为基本单元的循环神经网络(RNN)作为语言模型，以从路径中到目前为止已知的节点信息预测下一个节点的概率作为目标函数，同时训练语言模型的参数以及节点的分布式表示。

在一些实施方式中，其中，融合职位节点的分布式表示和特征模板上的特征信息包括拼接使用语言模型学习得到的分布式表示以及职位模板中的特征值。

在一些实施方式中，其中，采用K-means算法进行聚类。首先确定聚类的类别总数K，类的数量K由公司行业类别种类数量决定；然后初始化聚类中心，K个聚类中心的初始值的分布式表示部分由对应行业类别的所有公司的分布式表示决定，特征值部分随机初始化；然后迭代进行下面两个步骤直至收敛，第一步是计算职位样本与K个聚类中心的距离，把职位样本划分到距离最近的聚类中心所在的类别，第二部是分别取K个类别中的所有职位样本的平均值作为新的聚类中心。

与现有技术相比，本发明具有如下优点和技术效果：本发明提供的一种职位构图和自动聚类方法，填补了对职位进行统一聚类这个领域的空白。本发明提供了一种跨平台的职位聚类方法来满足求职者的需求。本发明融合职位节点的分布式表示和特征模板上的特征信息来构建职位样本的特征向量，可以同时利用职位的显式数值信息和职位在图中的结构信息来进行聚类，充分考虑到了职位本身的特点以及它与其他职位和公司之间的关系。本发明利用公司的信息来确定K-means聚类算法的类别数量以及初始化聚类中心，能够合理的利用构造的图的信息来降低聚类算法的不确定性，提高聚类质量。

附图说明

图1为实施例中一种职位构图和自动聚类方法的流程图。

具体实施方式

以下结合附图和实施例对本发明的具体实施作进一步说明，但本发明的实施和保护不限于此。

本实施例公开了一种职位构图和自动聚类方法。如图1所示，该方法包括：

步骤S101：预定义一套职位特征模板。

首先要预定义好一个模板，本实例中这个模板包括5个特征，分别为月薪、工作时长、工作经验、学历要求、英语水平要求、奖金水平、是否购买五险一金，依次标记为x₁，x₂，x₃，x₄，x₅，x₆，x₇。

步骤S102：从招聘网站中收集半结构化的职位样本数据。

使用网络爬虫，从招聘网站收集大规模的职位网页信息。网络爬虫属于广泛被使用的计算机算法，对网络爬虫本发明不作限制。

步骤S103：填充职位模板。

本实施例不区分从不同的招聘网站中收集得到的职位样本，所有的样本集合标记为S，样本总数标记为n，S₁，S₂...S_n分别表示从第1个到第n个样本。样本的特征集合标记为X。第1个到第n个样本的特征分别标记为X¹，X²...Xⁿ。第i个样本的第j个特征标记为

本实施例利用网络爬虫所获取的网页职位信息填充样本的特征值。然后预处理样本特征。

首先，填充缺失值。假设样本X¹的特征学历要求

缺失，因为x₄是类别型特征数据，用“unknown”来填充；假设样本X²的特征工作时长

缺失，因为x₂是数值型特征数据，以默认值40填充。其次，使用箱型图和逻辑神经网络识别并去除异常值。箱型图是一种通过四分点描述连续的组数据的图形化的方法。第一个四分点(Q₁)，也叫下四分点，被定义为数据集的最小值和数据集的中位值的中点。第二个四分点(Q₂)，就是数据的中位点。第三个四分点(Q₃)也称上四分点，是数据集的最大值和数据集的中位值的中点。四分位距(IQR)是一种统计离差的度量，等于上四分点和下四分点之间的距离。有特征值位于下四分点以下1.5个IQR或者上四分点以上1.5个IQR的样本被判定为为异常点而被去除。比如，如果特征x₁箱型图的边界值为50000和2000，x₁取值大于50000或者小于2000的样本将被去除。余下的样本被用于训练一个逻辑回归神经网络。造成大于阈值的损失的样本会从数据集中移除。余下样本的连续型数字化特征被进一步规范化：

其中

分别是特征x_i的均值和方差。

步骤S104：填充公司类型。

本实施例从招聘网站中收集半结构化的职位样本数据中提取公司类型信息。若职位样本数据中有所属公司，则记录公司名称。若职位样本数据中还有所属公司的行业类别信息，则记录公司名称对应的行业类别属性，否则以“unknown”填充该公司名称的行业类别属性。公司的总数量标记为m，公司的行业类别属性标记为Z。

步骤S105：构造职位网络。

本实施例利用网页链接信息构造职位网络。职位网络是有向图的一种，由节点和边构成的集合构成，标记为G＝{V，E}。本实例将获取的职位网页信息的中的职位名称和公司名称作为网络节点V。职位节点与职位节点之间、职位节点与公司节点之间以及公司节点与公司节点之间的边的权重根据网页之间职位与职位之间的链接，职位与公司之间的链接以及公司与公司之间的链接的经验概率分布决定。计算公式为

其中，N_pp、N_pc、N_cp、N_cc分别为从职位节点连接至邻接职位节点的次数，从职位节点连接至邻接公司节点的次数，从公司节点连接至邻接职位节点的次数和从公司节点连接至邻接公司节点的次数；α、β、γ、δ是人为设定的超参数。计算出来的边的权重采用z值标准化方法来进行标准化。

步骤S106：学习职位节点的分布式表示。

对职位网络采用随机游走采样得到样本路径，再利用语言模型训练节点的分布式表示。使用随机游走算法和语言模型的目的在于利用随机采样图中的路径学习节点的分布式表示。随机游走算法采样得出的路径提供了图的局部结构信息，再利用语言模型可以学习保留了节点间二届邻接度信息的节点分布式表示。其中，随机游走算法包括以下步骤。

首先遍历一遍网络的节点V，得到节点的序列[V₁，V₂...V_n]；然后依次由V₁，V₂...V_n开始，由以连接两个节点的边的权重作为概率，随机采样邻接节点，把获得的邻接节点记录在路径之中，重复这个过程直到达到预定的最长路径长度，最终获得n条序列路径P＝[P₁，P₂...P_n]，其中，P_i表示第i条游走路径。

然后使用把采样得到的路径集合P作为训练数据，使用以长短期记忆网络(LSTM)作为基本单元的循环神经网络(RNN)作为语言模型，以从路径中到目前为止已知的节点信息预测下一个节点的概率作为目标函数，同时训练语言模型的参数以及节点的分布式表示。训练得到的分布式表示标记为D。其中职位节点和公司节点的分布式表示同在一个空间内，职位节点的分布式表示标记为D_p，公司节点的分布式表示标记为D_c。

步骤S107：融合职位节点的分布式表示和特征模板上的特征信息。

直接拼接使用语言模型学习得到的分布式表示以及职位模板中的特征值作为职位样本的特征向量S，

步骤S108：使用K-means聚类。

首先确定聚类的类别总数K，类的数量K由公司行业类别种类数量决定，K＝num(Z)，num()表示求种类数量的函数；然后初始化聚类中心，K个聚类中心的初始值的分布式表示部分由对应行业类别的所有公司的分布式表示决定，特征值部分随机初始化，S^c＝[X^c，D^c]，其中S^c是聚类中心的特征值向量，D^c是分布式表示部分，

其中avg()是求均值的函数，X^c是特征值部分；然后迭代进行下面两个步骤直至收敛，第一步是计算职位样本与K个聚类中心的距离，把职位样本划分到距离最近的聚类中心所在的类别，T_i＝argmax_j(dis(Sⁱ，S^j))，其中argmax_j()表示取使括号内式子取得最大值的参数j，dis()是举例计算公式，可以使用欧氏距离，也可以使用余弦距离。第二步是分别取K个类别中的所有职位样本的平均值作为新的聚类中心，

Claims

1.一种职位构图和自动聚类方法，其特征在于，包括：

预定义的一套职位特征模板；

从招聘网站中收集半结构化的职位样本数据，提取特征信息填充职位特征模板；

从收集的半结构化的职位样本数据中提取公司类型信息；

利用网页链接信息构造职位网络；

对职位网络采用随机游走采样得到样本路径；

利用语言模型训练节点的分布式表示；

融合职位节点的分布式表示和特征模板上的特征信息作为职位特征；

采用K-means算法对职位样本进行聚类。

2.根据权利要求1所述的方法，其特征在于所述的预定义一套职位特征模板包括月薪、工作时长、工作经验、学历要求、英语水平要求、奖金水平、是否购买五险一金。

3.根据权利要求1所述的方法，其特征在于所述的从招聘网站中收集半结构化的职位样本数据，提取特征信息填充职位模板，包括：

对类别特征的缺失值填充“unknown”，对数值型特征的缺失值填充预定义的默认值；

使用箱型图和逻辑回归神经网络两种方法辨识和去除噪音；

使用z值法对数据标准化。

4.根据权利要求1所述的方法，其特征在于从收集的半结构化职位样本数据中提取公司类型信息，

若职位样本数据中有所属公司，则记录公司名称；若职位样本数据中还有所属公司的行业类别信息，则记录公司名称对应的行业类别属性，否则以“unknown”填充该公司名称的行业类别属性。

5.根据权利要求1所述的方法，其特征在于：所述的利用网页链接信息构造职位网络包括：

构造的职位网络为异形图，以职位以及公司作为节点；

利用招聘网页上的职位之间的链接信息、公司与职位之间的连接信息，公司与公司之间的链接信息构建节点之间边的权重。

6.根据权利要求1所述的方法，其特征在于随机游走算法以节点与该节点的邻接节点之间的边的权重作为从节点到该节点的邻接节点的采样概率。

7.根据权利要求1所述的方法，其特征在于利用语言模型训练训练节点的分布式表示中，

使用以长短期记忆网络（LSTM）作为基本单元的循环神经网络（RNN）作为语言模型。

8.根据权利要求1所述的方法，其特征在于所述融合职位节点的分布式表示和特征模板上的特征信息中，拼接使用语言模型学习得到的分布式表示以及职位模板中的特征值。

9.根据权利要求1所述的方法，其特征在于所述采用K-means算法进行聚类包括：

类的数量K由公司行业类别种类数量决定；K个聚类中心的初始值的分布式表示由对应行业类别的所有公司的分布式表示决定，特征值部分随机初始化。

10.根据权利要求1所述的方法，其特征在于所述语言模型采用神经语言模型，以长短期记忆网络（LSTM）作为基本单元的循环神经网络（RNN）实现。