CN106446089B

CN106446089B - 一种多维度领域关键知识的提取和存储方法

Info

Publication number: CN106446089B
Application number: CN201610816682.2A
Authority: CN
Inventors: 金芝; 李戈; 兰铮
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2016-09-12
Filing date: 2016-09-12
Publication date: 2019-08-16
Anticipated expiration: 2036-09-12
Also published as: CN106446089A

Abstract

本发明公布了一种多维度领域关键知识提取和存储方法，面向招聘服务，根据招聘服务中的关键词，自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息，提取出并进行表示和存储；包括：提取招聘领域的关键词，将职位信息表示成领域关键词的向量；量化关键词之间的关系，得到关键词相关系数矩阵；量化关键词与职位之间的关系，得到关键词与职位相关系数矩阵，作为度量专业技能对职位类别的权重系数；量化关键词组合所表达的信息及其与职位之间的关系；由此实现面向招聘服务的多维度领域关键知识提取和存储。本发明方法易于从语义层面进行理解，简单易行，节省人力。

Description

一种多维度领域关键知识的提取和存储方法

技术领域

本发明涉及领域知识提取方法，尤其涉及一种多维度领域关键知识的提取方法和存储方法，可面向招聘服务领域的应用。

背景技术

国内职位信息发布平台主要包括中华英才网、智联招聘、前程无忧、应届生求职网和大街网。这些平台现有方法采用基于标签的存储方法，根据公司名称、职位名称、工作地点、薪资、学历等标签信息对职位数据进行分类和存储。该方法存在如下不足：

(一)公司名称、职位名称、薪资等标签形式多样，通常需要人工修改校正；

(二)标签难以量化，不同标签所表达的不同含义难以理解；

(三)基于标签的存储方法较为简单，忽略了职位描述、职位要求部分中关键词组合所表达的的详细语义。

发明内容

为了克服上述现有技术的不足，本发明提供一种多维度领域关键知识提取方法和存储方法，可面向招聘服务领域，根据招聘服务中的关键词，快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息。

本说明书约定以下术语定义：

职位信息：通常包括结构化部分(公司名称、职位名称、工作地点、薪资、学历等标签和半结构化部分(职位描述、职位要求)。

领域关键知识：包括关键词(技能关键词、职位类别关键词)、关键词与职位的关系、关键词之间的关系等。

本发明提出了一种多维度领域关键知识的提取和存储方法，多维度包括：关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息。

本发明提供的技术方案是：

一种多维度领域关键知识提取和存储方法，面向招聘服务，根据招聘服务中的关键词，自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息，提取出并进行表示和存储；具体包括如下步骤：

1)提取招聘领域的关键词，将职位信息表示成领域关键词的向量；

2)量化关键词之间的关系，得到关键词相关系数矩阵，用于度量专业技能之间的相关系数；

3)量化关键词与职位之间的关系，得到关键词与职位相关系数矩阵，作为度量专业技能对职位类别的权重系数，用于衡量技能相对于职位的重要性；

4)量化关键词组合所表达的信息及其与职位之间的关系，用于度量专业技能组合所表达的职位类别分布；将所述关键词组合所表达的信息及其与职位之间的关系存储在分类器中；

由此实现面向招聘服务的多维度领域关键知识提取和存储。

针对上述提取和存储方法，进一步地，步骤1)具体包括如下过程：

11)从职位描述中统计不同专业技能关键词的频数，从职位标题中统计得到不同职位类别关键词的频数；分别对每一项专业技能和每一个职位类别赋予一个整型全局标识；

12)利用所述整型全局标识，令s^p _ij表示第j项技能，#s^p _ij表示第j项技能在第i份职位文件中出现的频数，将职位文件P_i表示为式1，将职位信息表示成领域关键词的向量，完成职位文件的向量化表示：

其中，p_i为该职位的类别标识；N_s为专业技能总数。

针对上述提取和存储方法，进一步地，步骤2)通过线性相关、位置相关和共现相关三个维度给出度量数值，得到专业技能相关系数矩阵；具体包括如下过程：

21)通过皮尔森相关系数反映两个变量之间的线性相关关系，将技能x和技能y的皮尔森相关系数记为r_{Pearson[0，1]}(x，y)，下标中的[0，1]表示将其数值映射到[0，1]区间；皮尔森相关系数采用式2表示：

其中，n为样本容量；分子是两个变量之间的协方差；分母是两个变量标准差的乘积；

22)通过Word2Vec训练，得到词向量之间的余弦距离CosDist，用于反映词与词的上下文距离信息，作为相关关系的衡量指标；将技能x和技能y向量相关系数记为1-CosDist_[0，1](x，y)；

23)对于职位向量i，技能x和技能y的出现次数分别设为#x和#y，二者在职位向量i中的共现相关系数表示为式3：

将所有职位向量的计算结果进行加权平均，得到技能x与技能y的共现相关系数，表示为式4：

24)由式2、式3、式4定义技能x与技能y的相关系数，表示为式5：

r(x，y)＝α*r_{Pearson[0，1]}(x，y)+β*(1-CosDist_[0，1](x，y))+γ*r_cooc(x，y) (式5)

其中，α、β、γ为可调节参数，且α+β+γ＝1。

针对上述提取和存储方法，进一步地，可选地，所述专业技能之间的相关系数还可以从除线性相关、位置相关和共现相关以外的其他维度进行量化。

针对上述提取和存储方法，进一步地，步骤3)得到关键词与职位相关系数矩阵具体包括如下步骤：

31)给定n个职位文件的样本，对于第q类职位，将第j项技能s^p _j出现的频数记为式6：

其中，I(x)为示性函数；#s^p _j(q)为对于第q类职位，第j项技能s^p _j出现的频数；#s^p _ij为第j项技能在第i份职位文件中出现的频数；

32)第j项s^p _j技能对于第q类职位的权重系数w_j(q)由式7计算得到：

33)直接使用式7计算得到稀疏的权重系数矩阵；将式7调整为式8：

由式8计算得到关键词与职位相关系数矩阵。

针对上述提取和存储方法，进一步地，步骤4)通过分类来量化关键词组合所表达的信息及其与职位之间的关系；所述分类可采用多项无序Logit模型、SVM模型或朴素贝叶斯模型。

针对上述提取和存储方法，进一步地，步骤4)通过多项无序Logit分类模型来量化关键词组合所表达的信息及其与职位之间的关系，包括如下步骤：

41)对于有j＝1，2，...，J类的非序数反应变量，令x＝(x₀，x₁，x₂，...，x_m)，多项logit模型描述如式9：

其中，β_j0x₀＝β_j0；多项logit模型中一共有J-1个logit和J-1组参数；

由P(y＝1|x)+P(y＝2|x)+...+P(y＝J|x)＝1，y取值从1到J，得J个概率预测函数，分别表示给定样本属于J个类别中各个类的概率；

42)多项无序Logit模型参数估计：

给定N个案例的总体Y₁，Y₂，...，Y_N，从中随机选取n个作为样本，观测值分别为y₁，y₂，...，y_n；多项无序Logit模型参数的最大似然估计函数为式10：

当给定的样本i，(y_i1，y_i2，...y_iJ)中只有一个为1、其余为0时，式10化简为式11：

对数形式为：

求β的一阶偏导数和二阶偏导数，使用Newton-Raphson迭代法经过k次迭代后收敛，得到模型参数β的最终解；

43)通过训练数据估计得到多项无序Logit模型参数，存储关键词组合所表达的信息及其与职位之间的关系。

与现有技术相比，本发明的有益效果是：

本发明提供一种多维度的面向招聘服务的领域关键知识提取和存储方法，根据招聘服务中的关键词，快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息。本发明具有以下优点：

(一)本发明提供方法能够提取、量化并存储了关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息；

(二)本发明提供方法能够自动的完成多维度的面向招聘服务的领域关键知识提取和存储工作，节省了大量的人力；

(三)本发明提供方法简单易行，易于从语义层面进行理解。

附图说明

图1是本发明提供的多维度的面向招聘服务的领域关键知识提取方法的流程框图。

具体实施方式

下面结合附图，通过实施例进一步描述本发明，但不以任何方式限制本发明的范围。

本发明提供一种多维度领域关键知识提取方法和存储方法，面向招聘服务的，根据招聘服务中的关键词，快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息，提取出并进行表示存储。

以下实施例针对互联网/电子商务领域中的招聘服务，具体采用某一招聘平台某一地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位数据，通过本发明提供的多维度领域关键知识提取和存储方法，获得该招聘领域中关键词与职位之间、关键词之间、关键词组合所表达的信息；具体包括如下步骤：

1)提取招聘领域关键词，将职位信息表示成领域关键词的向量

本发明中，领域关键词为职位关键词，从职位描述中统计不同专业技能关键词的频数，从职位标题中统计得到不同职位类别关键词的频数，按照出现频数的排名，分别对每一项专业技能和每一个职位类别赋予一个整型全局标识。本发明实施例中，对每一项专业技能和每一个职位类别赋予一个整型全局标识如表1所示：

表1对每一项专业技能和每一个职位类别赋予一个整型全局标识

专业技能	专业技能全局标识	职位类别	职位类别全局标识
				java	1	java	1
android	2	php	2
				web	3	android	3
c	4	c	4
				javascript	5	web	5
mysql	6	.net	6
				linux	7	ios	7
php	8	linux	8

利用每一项专业技能和每一个职位类别赋予的整型全局标识，获得职位文件的向量化表示；

令s^p _ij表示第j项技能，#s^p _ij表示第j项技能在第i份职位文件中出现的频数，那么职位文件P_i可以表示为：

其中，p_i为该职位的类别标识，N_s为专业技能总数。通过式1完成了职位文件的向量化表示。

2)度量专业技能之间的相关系数——量化关键词之间的关系，得到关键词相关系数矩阵；

我们从线性相关、位置相关和共现相关三个维度衡量专业技能之间的相关关系，并给出其数值度量，得到专业技能相关系数矩阵。

皮尔森相关系数是一种线性相关系数，用于反映两个变量之间的线性相关关系，定义为：

其中，n为样本容量，分子是两个变量之间的协方差，分母是两个变量标准差的乘积。根据直观理解，不同专业技能之间会呈现出一定程度的相关关系，但是不应该呈现高度正相关或负相关关系。经过该步骤，技能x和技能y的皮尔森相关系数记为r_{Pearson[0，1]}(x，y)，下标中的[0，1]表示将其数值映射到[0，1]区间。

Word2Vec训练出来的词向量之间的余弦距离CosDist可以反映词与词的上下文距离信息。专业技能词汇之间的余弦距离即表达了技能在同一段职位描述中的位置关系，因此也可以作为相关关系的衡量指标。技能x和技能y向量相关系数记为1-CosDist_[0，1](x，y)。

对于共现相关关系，我们采用如下方式计算。对于职位向量i，技能x和技能y的出现次数分别为#x和#y，二者在职位向量i中的共现相关系数为：

其直观含义为只有当两项技能在职位向量i中出现的频数相近时，才有较强的相关性。将所有职位向量的计算结果进行加权平均得到技能x与技能y的共现相关系数：

由式2、式3、式4定义技能x与技能y的相关系数，表示为式5：

本发明通过机器学习的方式训练参数，得到的参数值使得预测结果与训练数据的标注值尽可能接近(损失函数尽可能小)。其中，α、β、γ为可调节参数，且α+β+γ＝1。

本实施中，通过上述处理，得到该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词相关系数矩阵，如表2所示，其中，行和列均为关键词的标识，单元格表示两个关键词之间的相关系数；

表2职位关键词相关系数矩阵

关键词	java	android	web	c	javascript	mysql	linux	php	html
										java	1.000	0.327	0.254	0.086	0.184	0.307	0.230	0.108	0.150
android	0.327	1.000	0.089	0.215	0.065	0.084	0.193	0.122	0.075
										web	0.254	0.089	1.000	0.042	0.585	0.260	0.179	0.300	0.511
c	0.086	0.215	0.042	1.000	0.000	0.094	0.357	0.124	0.032
										javascript	0.184	0.065	0.585	0.000	1.000	0.275	0.142	0.349	0.691
mysql	0.307	0.084	0.260	0.094	0.275	1.000	0.402	0.679	0.256
										linux	0.230	0.193	0.179	0.357	0.142	0.402	1.000	0.382	0.151
php	0.108	0.122	0.300	0.124	0.349	0.679	0.382	1.000	0.333
										html	0.150	0.075	0.511	0.032	0.691	0.256	0.151	0.333	1.000
oracle	0.454	0.093	0.201	0.117	0.200	0.340	0.229	0.124	0.183

可选地，专业技能之间的相关系数还可以从除线性相关、位置相关和共现相关以外的其他维度进行量化。

3)度量专业技能对职位类别的权重系数——量化关键词与职位之间的关系，得到关键词与职位相关系数矩阵；

专业技能对职位类别的权重系数用于衡量技能相对于职位的重要性。给定n个职位文件的样本，对于第q类职位，第j项技能s^p _j出现的频数记为式6：

第j项s^p _j技能对于第q类职位的权重系数由式7计算：

由职位信息向量化模块提取结果可以看出，技能的出现频数呈现为指数分布，非热门技能的s^p _j在多数职位中很有可能为零，直接使用式7计算会得到稀疏的权重系数矩阵。因此，需要将式7调整为式8：

本实施例中，该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词与职位相关系数矩阵如表3所示，其中，行为关键词的标识(java、android、web、c、javascript等)，列为职位类别标识(java、php、android、c、web、.net等)，单元格表示关键词与职位之间的相关系数：

表3职位关键词与职位相关系数矩阵

4)度量专业技能组合所表达的职位类别分布信息——量化关键词组合所表达的信息及其与职位之间的关系；

我们通过分类来量化关键词组合所表达的信息及其与职位之间的关系，

41)多项无序Logit模型

对于有j＝1，2，...，J类的非序数反应变量，令x＝(x₀，x₁，x₂，...，x_m)，多项logit模型描述如式9：

其中，β_j0x₀＝β_j0。可以看出，多项logit模型中一共有J-1个logit和J-1组参数，表示如下：

由P(y＝1|x)+P(y＝2|x)+...+P(y＝J|x)＝1，y取值从1到J，可得J个概率预测函数如下：

对于有J个类别的分类问题，给定样本属于各个类的概率由以上J个概率预测函数给出。

可选地，多项无序Logit模型可通过其他分类模型(如SVM模型、朴素贝叶斯模型)代替。

42)多项无序Logit模型参数估计

给定N个案例的总体Y₁，Y₂，...，Y_N，从中随机选取n个作为样本，观测值分别为y₁，y₂，...，y_n，多项无序Logit模型参数的最大似然估计函数为式10：

对于给定的样本i，(y_i1，Y_i2，...y_iJ)中只有一个为1，其余为0，式10可化简为式11：

对数形式为：

类似对Logistic模型的处理，求β的一阶偏导数和二阶偏导数，将β分别记为β_jk和β_j′k′，如式13和式14：

令u_it＝y_it-p_it，v_it＝p_it(1-p_it)，w_itr＝p_itp_ir，U_t＝(u_1t，u_2t，...，u_nt)′，V_t＝diag(v_it)，W_tr＝diag(w_tr)，β_t＝(β_t0，β_t1，...，β_tm)′，β_t′＝(β_t1′，β_t2′，...，β_tm′)′，x_i＝(x_i0，x_i1，...，x_im)′，由式13可得式15：

由式14可得式16：

其中，B＝(β₁，β₂，...，β_J-1)，

使用Newton-Raphson迭代法经过k次迭代后收敛，得到的最终解表示为式17：

其中，中的每一个元素都等于X′V_tXI(j′＝j)+X′W_tXI(j′≠j)，I(x)为示性函数，

43)将关系存储在分类器中

我们通过分类方法(多项无序Logit模型)来量化关键词组合所表达的信息及其与职位之间的关系，给定职位向量的样本，令职位类别标识p为因变量，技能出现频数s_i(1≤i≤N_s)为自变量，通过多项Logit模型的训练，将关键词组合所表达的信息及其与职位之间的关系存储在分类器中。具体地，通过训练数据估计得到的多项无序Logit模型参数，即存储了关键词组合所表达的信息及其与职位之间的关系。

参数示例如表4所示，表示了该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词组合所表达的信息及其与职位之间的关系，或者Logit模型参数；行表示该行参数所表示的职位类别(java、android、web、c、javascript等)；第一列表示对应的行所代表的职位对模型预测结果影响的截距；其余列为该列参数所表示的关键词(javaphp android c web.net)；表中的单元格表示对应的关键词在对应的类别中的模型参数取值：

表4职位关键词组合所表达的信息及其与职位之间的关系

通过本发明提供的方法，上述实施例针对招聘领域中某一专业技能类型的职位数据，提取、量化并存储了职位关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息，结果表明，本发明方法能够自动的完成多维度的面向招聘服务的领域关键知识提取和存储工作，节省大量的人力；且方法简单易行，易于从语义层面进行理解。

需要注意的是，公布实施例的目的在于帮助进一步理解本发明，但是本领域的技术人员可以理解：在不脱离本发明及所附权利要求的精神和范围内，各种替换和修改都是可能的。因此，本发明不应局限于实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种多维度领域关键知识提取和存储方法，面向招聘服务，根据招聘服务中的关键词，自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息，提取出并进行表示和存储；具体包括如下步骤：

4)量化关键词组合所表达的信息及其与职位之间的关系，用于度量专业技能组合所表达的职位类别分布；再将所述关键词组合所表达的信息与职位之间的关系存储在分类器中；

由此实现面向招聘服务的多维度领域关键知识提取和存储；

步骤1)具体包括如下过程：

12)利用所述整型全局标识，令s^pij表示第j项技能，#s^pij表示第j项技能在第i份职位文件中出现的频数，将职位文件Pi表示为式1，将职位信息表示成领域关键词的向量，完成职位文件的向量化表示：

其中，pi为该职位的类别标识；Ns为专业技能总数；

步骤2)通过线性相关、位置相关和共现相关三个维度给出度量数值，得到专业技能相关系数矩阵；具体包括如下过程：

21)通过皮尔森相关系数反映两个变量之间的线性相关关系，将技能x和技能y的皮尔森相关系数记为r_Pearson[0,1](x,y)，下标中的[0,1]表示将其数值映射到[0,1]区间；皮尔森相关系数采用式2表示：

22)通过Word2Vec训练，得到词向量之间的余弦距离CosDist，用于反映词与词的上下文距离信息，作为相关关系的衡量指标；将技能x和技能y向量相关系数记为1CosDist_[0,1](x,y)；

r(x，y)＝α*rPearson[0，1](x，y)+β*(1-CosDist[0，1](x，y))+γ*rcooc(x，y) (式5)

其中，α、β、γ为可调节参数，且α+β+γ＝1；

步骤3)得到关键词与职位相关系数矩阵具体包括如下步骤：

31)给定n个职位文件的样本，对于第q类职位，将第j项技能s^pj出现的频数记为式6：

其中，I(x)为示性函数；#s^pj(q)为对于第q类职位，第j项技能s^pj出现的频数；#s^pij为第j项技能在第i份职位文件中出现的频数；

32)第j项s^pj技能对于第q类职位的权重系数wj(q)由式7计算得到：

由式8计算得到关键词与职位相关系数矩阵。

2.如权利要求1所述提取和存储方法，其特征是，步骤4)通过分类来量化关键词组合所表达的信息及其与职位之间的关系；所述分类采用多项无序Logit模型、SVM模型或朴素贝叶斯模型。

3.如权利要求1所述提取和存储方法，其特征是，步骤4)通过多项无序Logit分类模型来量化关键词组合所表达的信息及其与职位之间的关系，包括如下步骤：

41)对于有j＝1，2，…，J类的非序数反应变量，令x＝(x0,x1,x2,…,xm)，多项logit模型描述如式9：

其中，β_j0x0＝β_j0；多项logit模型中一共有J–1个logit和J–1组参数；

由P(y＝1|x)+P(y＝2|x)+…+P(y＝J|x)＝1，y取值从1到J，得J个概率预测函数，分别表示给定样本属于J个类别中各个类的概率；

42)多项无序Logit模型参数估计：

给定N个案例的总体Y1，Y2，…，YN，从中随机选取n个作为样本，观测值分别为y1，y2，…，yn；多项无序Logit模型参数的最大似然估计函数为式10：

当给定的样本i，(yi1,yi2,…yiJ)中只有一个为1、其余为0时，式10化简为式11：

对数形式为：