CN106446089B - 一种多维度领域关键知识的提取和存储方法 - Google Patents

一种多维度领域关键知识的提取和存储方法 Download PDF

Info

Publication number
CN106446089B
CN106446089B CN201610816682.2A CN201610816682A CN106446089B CN 106446089 B CN106446089 B CN 106446089B CN 201610816682 A CN201610816682 A CN 201610816682A CN 106446089 B CN106446089 B CN 106446089B
Authority
CN
China
Prior art keywords
keyword
formula
technical ability
expressed
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610816682.2A
Other languages
English (en)
Other versions
CN106446089A (zh
Inventor
金芝
李戈
兰铮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN201610816682.2A priority Critical patent/CN106446089B/zh
Publication of CN106446089A publication Critical patent/CN106446089A/zh
Application granted granted Critical
Publication of CN106446089B publication Critical patent/CN106446089B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • G06Q10/1053Employment or hiring

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公布了一种多维度领域关键知识提取和存储方法,面向招聘服务,根据招聘服务中的关键词,自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示和存储;包括:提取招聘领域的关键词,将职位信息表示成领域关键词的向量;量化关键词之间的关系,得到关键词相关系数矩阵;量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵,作为度量专业技能对职位类别的权重系数;量化关键词组合所表达的信息及其与职位之间的关系;由此实现面向招聘服务的多维度领域关键知识提取和存储。本发明方法易于从语义层面进行理解,简单易行,节省人力。

Description

一种多维度领域关键知识的提取和存储方法
技术领域
本发明涉及领域知识提取方法,尤其涉及一种多维度领域关键知识的提取方法和存储方法,可面向招聘服务领域的应用。
背景技术
国内职位信息发布平台主要包括中华英才网、智联招聘、前程无忧、应届生求职网和大街网。这些平台现有方法采用基于标签的存储方法,根据公司名称、职位名称、工作地点、薪资、学历等标签信息对职位数据进行分类和存储。该方法存在如下不足:
(一)公司名称、职位名称、薪资等标签形式多样,通常需要人工修改校正;
(二)标签难以量化,不同标签所表达的不同含义难以理解;
(三)基于标签的存储方法较为简单,忽略了职位描述、职位要求部分中关键词组合所表达的的详细语义。
发明内容
为了克服上述现有技术的不足,本发明提供一种多维度领域关键知识提取方法和存储方法,可面向招聘服务领域,根据招聘服务中的关键词,快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息。
本说明书约定以下术语定义:
职位信息:通常包括结构化部分(公司名称、职位名称、工作地点、薪资、学历等标签和半结构化部分(职位描述、职位要求)。
领域关键知识:包括关键词(技能关键词、职位类别关键词)、关键词与职位的关系、关键词之间的关系等。
本发明提出了一种多维度领域关键知识的提取和存储方法,多维度包括:关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息。
本发明提供的技术方案是:
一种多维度领域关键知识提取和存储方法,面向招聘服务,根据招聘服务中的关键词,自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示和存储;具体包括如下步骤:
1)提取招聘领域的关键词,将职位信息表示成领域关键词的向量;
2)量化关键词之间的关系,得到关键词相关系数矩阵,用于度量专业技能之间的相关系数;
3)量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵,作为度量专业技能对职位类别的权重系数,用于衡量技能相对于职位的重要性;
4)量化关键词组合所表达的信息及其与职位之间的关系,用于度量专业技能组合所表达的职位类别分布;将所述关键词组合所表达的信息及其与职位之间的关系存储在分类器中;
由此实现面向招聘服务的多维度领域关键知识提取和存储。
针对上述提取和存储方法,进一步地,步骤1)具体包括如下过程:
11)从职位描述中统计不同专业技能关键词的频数,从职位标题中统计得到不同职位类别关键词的频数;分别对每一项专业技能和每一个职位类别赋予一个整型全局标识;
12)利用所述整型全局标识,令sp ij表示第j项技能,#sp ij表示第j项技能在第i份职位文件中出现的频数,将职位文件Pi表示为式1,将职位信息表示成领域关键词的向量,完成职位文件的向量化表示:
其中,pi为该职位的类别标识;Ns为专业技能总数。
针对上述提取和存储方法,进一步地,步骤2)通过线性相关、位置相关和共现相关三个维度给出度量数值,得到专业技能相关系数矩阵;具体包括如下过程:
21)通过皮尔森相关系数反映两个变量之间的线性相关关系,将技能x和技能y的皮尔森相关系数记为rPearson[0,1](x,y),下标中的[0,1]表示将其数值映射到[0,1]区间;皮尔森相关系数采用式2表示:
其中,n为样本容量;分子是两个变量之间的协方差;分母是两个变量标准差的乘积;
22)通过Word2Vec训练,得到词向量之间的余弦距离CosDist,用于反映词与词的上下文距离信息,作为相关关系的衡量指标;将技能x和技能y向量相关系数记为1-CosDist[0,1](x,y);
23)对于职位向量i,技能x和技能y的出现次数分别设为#x和#y,二者在职位向量i中的共现相关系数表示为式3:
将所有职位向量的计算结果进行加权平均,得到技能x与技能y的共现相关系数,表示为式4:
24)由式2、式3、式4定义技能x与技能y的相关系数,表示为式5:
r(x,y)=α*rPearson[0,1](x,y)+β*(1-CosDist[0,1](x,y))+γ*rcooc(x,y) (式5)
其中,α、β、γ为可调节参数,且α+β+γ=1。
针对上述提取和存储方法,进一步地,可选地,所述专业技能之间的相关系数还可以从除线性相关、位置相关和共现相关以外的其他维度进行量化。
针对上述提取和存储方法,进一步地,步骤3)得到关键词与职位相关系数矩阵具体包括如下步骤:
31)给定n个职位文件的样本,对于第q类职位,将第j项技能sp j出现的频数记为式6:
其中,I(x)为示性函数;#sp j(q)为对于第q类职位,第j项技能sp j出现的频数;#sp ij为第j项技能在第i份职位文件中出现的频数;
32)第j项sp j技能对于第q类职位的权重系数wj(q)由式7计算得到:
33)直接使用式7计算得到稀疏的权重系数矩阵;将式7调整为式8:
由式8计算得到关键词与职位相关系数矩阵。
针对上述提取和存储方法,进一步地,步骤4)通过分类来量化关键词组合所表达的信息及其与职位之间的关系;所述分类可采用多项无序Logit模型、SVM模型或朴素贝叶斯模型。
针对上述提取和存储方法,进一步地,步骤4)通过多项无序Logit分类模型来量化关键词组合所表达的信息及其与职位之间的关系,包括如下步骤:
41)对于有j=1,2,...,J类的非序数反应变量,令x=(x0,x1,x2,...,xm),多项logit模型描述如式9:
其中,βj0x0=βj0;多项logit模型中一共有J-1个logit和J-1组参数;
由P(y=1|x)+P(y=2|x)+...+P(y=J|x)=1,y取值从1到J,得J个概率预测函数,分别表示给定样本属于J个类别中各个类的概率;
42)多项无序Logit模型参数估计:
给定N个案例的总体Y1,Y2,...,YN,从中随机选取n个作为样本,观测值分别为y1,y2,...,yn;多项无序Logit模型参数的最大似然估计函数为式10:
当给定的样本i,(yi1,yi2,...yiJ)中只有一个为1、其余为0时,式10化简为式11:
对数形式为:
求β的一阶偏导数和二阶偏导数,使用Newton-Raphson迭代法经过k次迭代后收敛,得到模型参数β的最终解;
43)通过训练数据估计得到多项无序Logit模型参数,存储关键词组合所表达的信息及其与职位之间的关系。
与现有技术相比,本发明的有益效果是:
本发明提供一种多维度的面向招聘服务的领域关键知识提取和存储方法,根据招聘服务中的关键词,快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息。本发明具有以下优点:
(一)本发明提供方法能够提取、量化并存储了关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息;
(二)本发明提供方法能够自动的完成多维度的面向招聘服务的领域关键知识提取和存储工作,节省了大量的人力;
(三)本发明提供方法简单易行,易于从语义层面进行理解。
附图说明
图1是本发明提供的多维度的面向招聘服务的领域关键知识提取方法的流程框图。
具体实施方式
下面结合附图,通过实施例进一步描述本发明,但不以任何方式限制本发明的范围。
本发明提供一种多维度领域关键知识提取方法和存储方法,面向招聘服务的,根据招聘服务中的关键词,快速、详细地自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示存储。
以下实施例针对互联网/电子商务领域中的招聘服务,具体采用某一招聘平台某一地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位数据,通过本发明提供的多维度领域关键知识提取和存储方法,获得该招聘领域中关键词与职位之间、关键词之间、关键词组合所表达的信息;具体包括如下步骤:
1)提取招聘领域关键词,将职位信息表示成领域关键词的向量
本发明中,领域关键词为职位关键词,从职位描述中统计不同专业技能关键词的频数,从职位标题中统计得到不同职位类别关键词的频数,按照出现频数的排名,分别对每一项专业技能和每一个职位类别赋予一个整型全局标识。本发明实施例中,对每一项专业技能和每一个职位类别赋予一个整型全局标识如表1所示:
表1对每一项专业技能和每一个职位类别赋予一个整型全局标识
专业技能 专业技能全局标识 职位类别 职位类别全局标识
java 1 java 1
android 2 php 2
web 3 android 3
c 4 c 4
javascript 5 web 5
mysql 6 .net 6
linux 7 ios 7
php 8 linux 8
利用每一项专业技能和每一个职位类别赋予的整型全局标识,获得职位文件的向量化表示;
令sp ij表示第j项技能,#sp ij表示第j项技能在第i份职位文件中出现的频数,那么职位文件Pi可以表示为:
其中,pi为该职位的类别标识,Ns为专业技能总数。通过式1完成了职位文件的向量化表示。
2)度量专业技能之间的相关系数——量化关键词之间的关系,得到关键词相关系数矩阵;
我们从线性相关、位置相关和共现相关三个维度衡量专业技能之间的相关关系,并给出其数值度量,得到专业技能相关系数矩阵。
皮尔森相关系数是一种线性相关系数,用于反映两个变量之间的线性相关关系,定义为:
其中,n为样本容量,分子是两个变量之间的协方差,分母是两个变量标准差的乘积。根据直观理解,不同专业技能之间会呈现出一定程度的相关关系,但是不应该呈现高度正相关或负相关关系。经过该步骤,技能x和技能y的皮尔森相关系数记为rPearson[0,1](x,y),下标中的[0,1]表示将其数值映射到[0,1]区间。
Word2Vec训练出来的词向量之间的余弦距离CosDist可以反映词与词的上下文距离信息。专业技能词汇之间的余弦距离即表达了技能在同一段职位描述中的位置关系,因此也可以作为相关关系的衡量指标。技能x和技能y向量相关系数记为1-CosDist[0,1](x,y)。
对于共现相关关系,我们采用如下方式计算。对于职位向量i,技能x和技能y的出现次数分别为#x和#y,二者在职位向量i中的共现相关系数为:
其直观含义为只有当两项技能在职位向量i中出现的频数相近时,才有较强的相关性。将所有职位向量的计算结果进行加权平均得到技能x与技能y的共现相关系数:
由式2、式3、式4定义技能x与技能y的相关系数,表示为式5:
r(x,y)=α*rPearson[0,1](x,y)+β*(1-CosDist[0,1](x,y))+γ*rcooc(x,y) (式5)
本发明通过机器学习的方式训练参数,得到的参数值使得预测结果与训练数据的标注值尽可能接近(损失函数尽可能小)。其中,α、β、γ为可调节参数,且α+β+γ=1。
本实施中,通过上述处理,得到该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词相关系数矩阵,如表2所示,其中,行和列均为关键词的标识,单元格表示两个关键词之间的相关系数;
表2职位关键词相关系数矩阵
关键词 java android web c javascript mysql linux php html
java 1.000 0.327 0.254 0.086 0.184 0.307 0.230 0.108 0.150
android 0.327 1.000 0.089 0.215 0.065 0.084 0.193 0.122 0.075
web 0.254 0.089 1.000 0.042 0.585 0.260 0.179 0.300 0.511
c 0.086 0.215 0.042 1.000 0.000 0.094 0.357 0.124 0.032
javascript 0.184 0.065 0.585 0.000 1.000 0.275 0.142 0.349 0.691
mysql 0.307 0.084 0.260 0.094 0.275 1.000 0.402 0.679 0.256
linux 0.230 0.193 0.179 0.357 0.142 0.402 1.000 0.382 0.151
php 0.108 0.122 0.300 0.124 0.349 0.679 0.382 1.000 0.333
html 0.150 0.075 0.511 0.032 0.691 0.256 0.151 0.333 1.000
oracle 0.454 0.093 0.201 0.117 0.200 0.340 0.229 0.124 0.183
可选地,专业技能之间的相关系数还可以从除线性相关、位置相关和共现相关以外的其他维度进行量化。
3)度量专业技能对职位类别的权重系数——量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵;
专业技能对职位类别的权重系数用于衡量技能相对于职位的重要性。给定n个职位文件的样本,对于第q类职位,第j项技能sp j出现的频数记为式6:
其中,I(x)为示性函数;#sp j(q)为对于第q类职位,第j项技能sp j出现的频数;#sp ij为第j项技能在第i份职位文件中出现的频数;
第j项sp j技能对于第q类职位的权重系数由式7计算:
由职位信息向量化模块提取结果可以看出,技能的出现频数呈现为指数分布,非热门技能的sp j在多数职位中很有可能为零,直接使用式7计算会得到稀疏的权重系数矩阵。因此,需要将式7调整为式8:
本实施例中,该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词与职位相关系数矩阵如表3所示,其中,行为关键词的标识(java、android、web、c、javascript等),列为职位类别标识(java、php、android、c、web、.net等),单元格表示关键词与职位之间的相关系数:
表3职位关键词与职位相关系数矩阵
4)度量专业技能组合所表达的职位类别分布信息——量化关键词组合所表达的信息及其与职位之间的关系;
我们通过分类来量化关键词组合所表达的信息及其与职位之间的关系,
41)多项无序Logit模型
对于有j=1,2,...,J类的非序数反应变量,令x=(x0,x1,x2,...,xm),多项logit模型描述如式9:
其中,βj0x0=βj0。可以看出,多项logit模型中一共有J-1个logit和J-1组参数,表示如下:
由P(y=1|x)+P(y=2|x)+...+P(y=J|x)=1,y取值从1到J,可得J个概率预测函数如下:
对于有J个类别的分类问题,给定样本属于各个类的概率由以上J个概率预测函数给出。
可选地,多项无序Logit模型可通过其他分类模型(如SVM模型、朴素贝叶斯模型)代替。
42)多项无序Logit模型参数估计
给定N个案例的总体Y1,Y2,...,YN,从中随机选取n个作为样本,观测值分别为y1,y2,...,yn,多项无序Logit模型参数的最大似然估计函数为式10:
对于给定的样本i,(yi1,Yi2,...yiJ)中只有一个为1,其余为0,式10可化简为式11:
对数形式为:
类似对Logistic模型的处理,求β的一阶偏导数和二阶偏导数,将β分别记为βjk和βj′k′,如式13和式14:
令uit=yit-pit,vit=pit(1-pit),witr=pitpir,Ut=(u1t,u2t,...,unt)′,Vt=diag(vit),Wtr=diag(wtr),βt=(βt0,βt1,...,βtm)′,βt′=(βt1′,βt2′,...,βtm′)′,xi=(xi0,xi1,...,xim)′,由式13可得式15:
由式14可得式16:
其中,B=(β1,β2,...,βJ-1),
使用Newton-Raphson迭代法经过k次迭代后收敛,得到的最终解表示为式17:
其中,中的每一个元素都等于X′VtXI(j′=j)+X′WtXI(j′≠j),I(x)为示性函数,
43)将关系存储在分类器中
我们通过分类方法(多项无序Logit模型)来量化关键词组合所表达的信息及其与职位之间的关系,给定职位向量的样本,令职位类别标识p为因变量,技能出现频数si(1≤i≤Ns)为自变量,通过多项Logit模型的训练,将关键词组合所表达的信息及其与职位之间的关系存储在分类器中。具体地,通过训练数据估计得到的多项无序Logit模型参数,即存储了关键词组合所表达的信息及其与职位之间的关系。
参数示例如表4所示,表示了该地区互联网/电子商务领域软件/互联网开发/系统集成类型的职位关键词组合所表达的信息及其与职位之间的关系,或者Logit模型参数;行表示该行参数所表示的职位类别(java、android、web、c、javascript等);第一列表示对应的行所代表的职位对模型预测结果影响的截距;其余列为该列参数所表示的关键词(javaphp android c web.net);表中的单元格表示对应的关键词在对应的类别中的模型参数取值:
表4职位关键词组合所表达的信息及其与职位之间的关系
通过本发明提供的方法,上述实施例针对招聘领域中某一专业技能类型的职位数据,提取、量化并存储了职位关键词与职位之间的关系、关键词之间的关系、关键词组合所表达的信息,结果表明,本发明方法能够自动的完成多维度的面向招聘服务的领域关键知识提取和存储工作,节省大量的人力;且方法简单易行,易于从语义层面进行理解。
需要注意的是,公布实施例的目的在于帮助进一步理解本发明,但是本领域的技术人员可以理解:在不脱离本发明及所附权利要求的精神和范围内,各种替换和修改都是可能的。因此,本发明不应局限于实施例所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

Claims (3)

1.一种多维度领域关键知识提取和存储方法,面向招聘服务,根据招聘服务中的关键词,自动构建和量化关键词与职位之间、关键词之间、关键词组合所表达的信息,提取出并进行表示和存储;具体包括如下步骤:
1)提取招聘领域的关键词,将职位信息表示成领域关键词的向量;
2)量化关键词之间的关系,得到关键词相关系数矩阵,用于度量专业技能之间的相关系数;
3)量化关键词与职位之间的关系,得到关键词与职位相关系数矩阵,作为度量专业技能对职位类别的权重系数,用于衡量技能相对于职位的重要性;
4)量化关键词组合所表达的信息及其与职位之间的关系,用于度量专业技能组合所表达的职位类别分布;再将所述关键词组合所表达的信息与职位之间的关系存储在分类器中;
由此实现面向招聘服务的多维度领域关键知识提取和存储;
步骤1)具体包括如下过程:
11)从职位描述中统计不同专业技能关键词的频数,从职位标题中统计得到不同职位类别关键词的频数;分别对每一项专业技能和每一个职位类别赋予一个整型全局标识;
12)利用所述整型全局标识,令spij表示第j项技能,#spij表示第j项技能在第i份职位文件中出现的频数,将职位文件Pi表示为式1,将职位信息表示成领域关键词的向量,完成职位文件的向量化表示:
其中,pi为该职位的类别标识;Ns为专业技能总数;
步骤2)通过线性相关、位置相关和共现相关三个维度给出度量数值,得到专业技能相关系数矩阵;具体包括如下过程:
21)通过皮尔森相关系数反映两个变量之间的线性相关关系,将技能x和技能y的皮尔森相关系数记为rPearson[0,1](x,y),下标中的[0,1]表示将其数值映射到[0,1]区间;皮尔森相关系数采用式2表示:
其中,n为样本容量;分子是两个变量之间的协方差;分母是两个变量标准差的乘积;
22)通过Word2Vec训练,得到词向量之间的余弦距离CosDist,用于反映词与词的上下文距离信息,作为相关关系的衡量指标;将技能x和技能y向量相关系数记为1CosDist[0,1](x,y);
23)对于职位向量i,技能x和技能y的出现次数分别设为#x和#y,二者在职位向量i中的共现相关系数表示为式3:
将所有职位向量的计算结果进行加权平均,得到技能x与技能y的共现相关系数,表示为式4:
24)由式2、式3、式4定义技能x与技能y的相关系数,表示为式5:
r(x,y)=α*rPearson[0,1](x,y)+β*(1-CosDist[0,1](x,y))+γ*rcooc(x,y) (式5)
其中,α、β、γ为可调节参数,且α+β+γ=1;
步骤3)得到关键词与职位相关系数矩阵具体包括如下步骤:
31)给定n个职位文件的样本,对于第q类职位,将第j项技能spj出现的频数记为式6:
其中,I(x)为示性函数;#spj(q)为对于第q类职位,第j项技能spj出现的频数;#spij为第j项技能在第i份职位文件中出现的频数;
32)第j项spj技能对于第q类职位的权重系数wj(q)由式7计算得到:
33)直接使用式7计算得到稀疏的权重系数矩阵;将式7调整为式8:
由式8计算得到关键词与职位相关系数矩阵。
2.如权利要求1所述提取和存储方法,其特征是,步骤4)通过分类来量化关键词组合所表达的信息及其与职位之间的关系;所述分类采用多项无序Logit模型、SVM模型或朴素贝叶斯模型。
3.如权利要求1所述提取和存储方法,其特征是,步骤4)通过多项无序Logit分类模型来量化关键词组合所表达的信息及其与职位之间的关系,包括如下步骤:
41)对于有j=1,2,…,J类的非序数反应变量,令x=(x0,x1,x2,…,xm),多项logit模型描述如式9:
其中,βj0x0=βj0;多项logit模型中一共有J–1个logit和J–1组参数;
由P(y=1|x)+P(y=2|x)+…+P(y=J|x)=1,y取值从1到J,得J个概率预测函数,分别表示给定样本属于J个类别中各个类的概率;
42)多项无序Logit模型参数估计:
给定N个案例的总体Y1,Y2,…,YN,从中随机选取n个作为样本,观测值分别为y1,y2,…,yn;多项无序Logit模型参数的最大似然估计函数为式10:
当给定的样本i,(yi1,yi2,…yiJ)中只有一个为1、其余为0时,式10化简为式11:
对数形式为:
求β的一阶偏导数和二阶偏导数,使用Newton-Raphson迭代法经过k次迭代后收敛,得到模型参数β的最终解;
43)通过训练数据估计得到多项无序Logit模型参数,存储关键词组合所表达的信息及其与职位之间的关系。
CN201610816682.2A 2016-09-12 2016-09-12 一种多维度领域关键知识的提取和存储方法 Active CN106446089B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610816682.2A CN106446089B (zh) 2016-09-12 2016-09-12 一种多维度领域关键知识的提取和存储方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610816682.2A CN106446089B (zh) 2016-09-12 2016-09-12 一种多维度领域关键知识的提取和存储方法

Publications (2)

Publication Number Publication Date
CN106446089A CN106446089A (zh) 2017-02-22
CN106446089B true CN106446089B (zh) 2019-08-16

Family

ID=58168459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610816682.2A Active CN106446089B (zh) 2016-09-12 2016-09-12 一种多维度领域关键知识的提取和存储方法

Country Status (1)

Country Link
CN (1) CN106446089B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133357A (zh) * 2017-12-22 2018-06-08 北京拉勾科技有限公司 一种人才推荐方法及计算设备
CN108053196A (zh) * 2018-01-31 2018-05-18 四川民工加网络科技有限公司 一种施工工地的招聘方法
CN108388425B (zh) * 2018-03-20 2021-02-19 北京大学 一种基于lstm自动补全代码的方法
CN109918483B (zh) * 2019-03-15 2021-07-16 智者四海(北京)技术有限公司 匹配招聘职位与求职简历的装置和方法
CN112668316A (zh) * 2020-11-17 2021-04-16 国家计算机网络与信息安全管理中心 word文档关键信息抽取方法
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及系统
CN112883198B (zh) * 2021-02-24 2024-05-24 广州视源电子科技股份有限公司 一种知识图谱构建方法、装置、存储介质以及计算机设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN105786781A (zh) * 2016-03-14 2016-07-20 裴克铭管理咨询(上海)有限公司 一种基于主题模型的职位描述文本相似度计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101064256B1 (ko) * 2009-12-03 2011-09-14 한국과학기술정보연구원 최대 개념강도 인지기법을 이용한 최적의 데이터베이스 선택장치 및 그 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105159962A (zh) * 2015-08-21 2015-12-16 北京全聘致远科技有限公司 职位推荐方法与装置、简历推荐方法与装置、招聘平台
CN105117863A (zh) * 2015-09-28 2015-12-02 北京橙鑫数据科技有限公司 简历职位匹配方法及装置
CN105786781A (zh) * 2016-03-14 2016-07-20 裴克铭管理咨询(上海)有限公司 一种基于主题模型的职位描述文本相似度计算方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
利用《知网》和领域关键词集扩展方法的短文本分类研究;李湘东等;《现代图书情报技术》;20150225(第255期);第31-38页

Also Published As

Publication number Publication date
CN106446089A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106446089B (zh) 一种多维度领域关键知识的提取和存储方法
CN109684440B (zh) 基于层级标注的地址相似度度量方法
US20230195773A1 (en) Text classification method, apparatus and computer-readable storage medium
CN103150333B (zh) 微博媒体中的意见领袖识别方法
CN103049470B (zh) 基于情感相关度的观点检索方法
CN106663124A (zh) 生成和使用知识增强型模型
CN106227722A (zh) 一种基于上市公司公告摘要的自动提取方法
CN106407113B (zh) 一种基于Stack Overflow和commit库的bug定位方法
CN110750640A (zh) 基于神经网络模型的文本数据分类方法、装置及存储介质
CN107315738A (zh) 一种文本信息的创新度评估方法
CN110929034A (zh) 一种基于改进lstm的商品评论细粒度情感分类方法
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
CN108090231A (zh) 一种基于信息熵的主题模型优化方法
US20130204835A1 (en) Method of extracting named entity
CN111680131B (zh) 基于语义的文档聚类方法、系统及计算机设备
CN104750674A (zh) 一种人机会话满意度预测方法及系统
CN104699797A (zh) 一种网页数据结构化解析方法和装置
CN110674301A (zh) 一种情感倾向预测方法、装置、系统及存储介质
CN114139634A (zh) 一种基于成对标签权重的多标签特征选择方法
CN112818121A (zh) 一种文本分类方法、装置、计算机设备及存储介质
CN107832319B (zh) 一种基于语义关联网络的启发式查询扩展方法
CN104598510A (zh) 一种事件触发词识别方法及装置
CN104572915B (zh) 一种基于内容环境增强的用户事件相关度计算方法
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN103123685A (zh) 文本模式识别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant