CN114219248A

CN114219248A - 一种基于lda模型、依存句法和深度学习的人岗匹配方法

Info

Publication number: CN114219248A
Application number: CN202111467701.2A
Authority: CN
Inventors: 许芷琪; 王永发; 张再响; 钟实; 陈少燕; 潘志锋
Original assignee: Shenzhen Qianhai Huanque Technology Co ltd
Current assignee: Shenzhen Qianhai Huanque Technology Co ltd
Priority date: 2021-12-03
Filing date: 2021-12-03
Publication date: 2022-03-22

Abstract

本发明涉及匹配方法技术领域，且公开了一种基于LDA模型、依存句法和深度学习的人岗匹配方法，包括以下步骤：S1、将专业名称归类到专业二级分类中；S2、将学校名称统一为正确的表述形式；S3、编辑距离和重复字段对岗位名称进行归一化：通过招聘网站的工作职能的划分制定标准的岗位名称词表，计算文本信息中的岗位名称与预设的标准岗位名称之间的编辑距离和重复字段。本发明提出一种基于LDA模型、依存句法和深度学习的人岗匹配方法，本发明本专利的隐含狄利克雷分布模型，依存句法和深度学习模型方法，正是从实用性出发，解决上面所述的耗费人力和时间的缺陷，实现简历信息的有效提取。

Description

一种基于LDA模型、依存句法和深度学习的人岗匹配方法

技术领域

本发明涉及匹配方法领域，尤其涉及一种基于LDA模型、依存句法和深度学习的人岗匹配方法。

背景技术

目前我们所掌握的同类简历解析技术，主要有如下几种方式：

1.文本归一化处理，在简历关于岗位名称和学校名称的描述中，往往有多种表达形式，但本质上都指向同一类岗位或同一个学校。从历史招聘数据集合中，根据出现次数由大到小排序，出现次数大于预设阀值的岗位名称或者学校名称定为正确的岗位名称或学校名称；通过正则表达式对简历文本数据进行清洗，在所述的映射词表中通过编辑距离进行匹配，或者构建标准化词表，直接进行匹配，得到岗位名称或学校名称的归一化结果。(备注：专利授权公告号为CN107291715A)。

2.关键词确定模块，首先根据预设的简历信息训练库对简历信息进行分词处理，得到简历词集合；在预设的简历信息训练库中查找简历词集合中的词对应的权重和关联性；根据查找到的简历词集合中对应的权重和关联性，生成对简历的综合结果，按照综合结果由高到低给简历中的词进行排序，排序中第一的词作为简历的关键词输出。(备注：专利授权公告号为CN105159962A)。

3.基于标签信息的人岗匹配，标签信息包括职位职能分类，高频关键词，技能关键词，细分行业，薪资预测，职位所需工作年限，职位所需学历中的一个或多个；根据职位文本信息和简历文本信息中的职位标签和基本信息进行匹配计算；结合关键词得分和其他信息加权得分计算最终的职位和简历匹配分数。(备注：专利授权公告号为CN107392143A)。

以上几种技术都存在缺陷，想要在实用层面达到人岗匹配的目标存在难以逾越的障碍，主要是：

1.方法1这种归一化的方法对预设阀值的设定较为模糊，需要做大量的前期文本清理工作，容易过滤掉不常见的工作岗位，并且需要用到大量的岗位名称信息来筛选。

2.方法2要准备预设的简历信息训练库，需要花费大量的时间和人力总结不同岗位的关键词权重和关联性，并且该方法局限于预设简历库中有的词的权重和关联性，对于预设简历库外的关键词不能有效的提取。

3.方法3主要基于文本中词的匹配，忽略了文本中的语义匹配；对于岗位描述和简历相关工作经验中有类似的技能和经验却用了不同的表达方式，光靠关键词无法很好的匹配岗位描述和简历文本中的匹配度。

为解决上述问题，本申请中提出一种基于LDA模型、依存句法和深度学习的人岗匹配方法。

发明内容

(一)发明目的

为解决背景技术中存在的技术问题，本发明提出一种基于LDA模型、依存句法和深度学习的人岗匹配方法，本发明本专利的隐含狄利克雷分布模型，依存句法和深度学习模型方法，正是从实用性出发，解决上面所述的耗费人力和时间的缺陷，实现简历信息的有效提取。

(二)技术方案

为解决上述问题，本发明提供了一种基于LDA模型、依存句法和深度学习的人岗匹配方法，包括以下步骤：

S1、将专业名称归类到专业二级分类中；

S2、将学校名称统一为正确的表述形式；

S3、编辑距离和重复字段对岗位名称进行归一化：

通过招聘网站的工作职能的划分制定标准的岗位名称词表，计算文本信息中的岗位名称与预设的标准岗位名称之间的编辑距离和重复字段，通过上述编辑距离和重复字段两种方法对岗位名称进行归一化；

S4、提取文本关键词：正则化提取，LDA模型，依存句法模型和Roberta模型，在后续的步骤中，综合考虑多种方法提取的关键词，按照词语的权重按大到小排序，输出前20个关键词；

依存句法模型，利用pyltp库对文本进行分词，词性标注，依存句法分析：

根据核心词表定位关键词，核心词表包括：负责参与等动词，记录这些核心词以及与这些核心词为并列关系(COO)的词语在文本中的位置，再查找与核心词存在定中关系(ATT)、状中关系(ADV)、动宾关系(VOB)、前置宾语(FOB)和主谓关系(SBV)的词语；

除去上述核心词以及停用词统计出现频率最高的词语，根据高频次定位关键词，再查找与所述高频词存在ATT或者VOB依存关系的词语；

上述的核心词和高频词仅限动词和名词，不考虑其他词性的词语；

LDA模型，调用gensim库的LDA模型对简历库里的简历进行无监督的分类：

首先对简历库里的简历做文本清理工作，去除没有明显含义的介词、连词等，去除出现频率超过50％的文本的高频词，去除出现频率低于20个文本的低频词，剩下的词构建词典和语料库；再利用LDA模型将所用文本分成25个主题，根据不同主题的词频，从高到低排序，输出概率最高的前200个词；

S5、人岗匹配度的计算：

学校维度在整体匹配度的计算；

专业维度在整体匹配度的计算；

重复字段维度在整体匹配度的计算；

相关工作经验时长在整体匹配度的计算；

相关技能维度在整体匹配度的计算；

文本语义相似维度在整体匹配度的计算，将文本词向量化后计算其余弦值，作为文本语义相似度的衡量标准。

S6、基于PyTorch深度学习的词嵌入chinese Roberta wwm ext深度学习预训练模型。

利用PyTorch构建简历信息解析机器学习框架，为了加速机器学习的效率，我们选用GPU作为加速器的硬件设备，因而选用了Python语言下包含GPU加速的PyTorch版本(torch-gpu)。

优选的，在S1中，根据中普通高等学校本科专业目录的专业分类表，共有93个二级学科，将上述教育部公布的专业目录中740个专业名称通过chinese roberta wwm ext预训练库进行词向量化，再通过最邻近算法(KNN)将740个细分专业分成93个大类。

优选的，在S2中，根据教育部网站获取公开的全国高等学校名单以及QS500中的正确学校名称，讲应聘者上传的简历做一些简单的文本清理，包括：去除“大学”，“学院”之后的后缀，括号里的其他标注；用去噪后的学校名称与正确学校名称词库做映射。

优选的，在S3中，如果最小编辑距离和最大重复字段指向同一个标准岗位名称，则输出该正确的岗位名称；如果以上两种方法映射的标准岗位名称不统一，则根据不同条件输出对应的标准岗位名称：如果简历岗位名称的某些字符串与最大重复字数映射的标准岗位名称有完全重合的部分，则输出最大重复字数映射的岗位名称；如果简历岗位名称的某些字符串与最小编辑距离映射的标准岗位名称有完全重合的部分，则输出最小编辑距离映射的岗位名称；如果简历岗位名称和所述两种方法映射的标准岗位名称均无完全重复字符串，则输出简历中原本的岗位名称。

优选的，在S4中，调用gensim库的LDA模型对简历库里的简历进行无监督的分类：

LDA模型生成主题分类的方式如下：

文档1：词11，词12，……，词1n

文档2：词21，词22，……，词2n

……

文档m：词m1，词m2，……，词mn

见附图2

其中α是一个k维向量，αk＝1…K表示对于任一文档d，主题的先验概率：αk；

θ对于任一文档d，其主题分布为θd，即文档d属于主题k的概率是θ_d；

θ_d～Dirichlet k(α)，θd服从狄利克雷分布；

Z为从1到k的N维向量，即对于文档d中的第n个词，属于主题k的概率是：Z_dn；

Z_{d＝1…M,n＝1…N}～Multi k(θ_d)，Z_{d＝1…M,n＝1…N}服从多项式分；

W为从1到V的N维向量，即对于文档d属于主题k的情况下，生成的第n个词是：W_dn；

W_{d＝1…W,n＝1…N}服从多项式分布；

是一个V维的概率向量，表示对于主题k，词分布为：

服从狄利克雷分布；

β是一个V维向量，β_w＝1…V表示对于任一主题k，词的先验概率：β_w；

K：主题的数量；

V：词汇中所有词语的数量；

M：文档的数量；

N：所有文档中词语的数量；

α->θ->Z:从狄利克雷分布α中抽样生成文档d的主题分布θ_d，从主题的多项式分布θ_d中采样生成文档d第n个词的主题Z_dn，即文档-主题参数矩阵

从狄利克雷分布β中抽样生成主题的词语分布

从词语的多项式分布

中采样生成第n个词语W_dn，即主题-词语矩阵；

LDA模型可以自行选择吉布斯Gibbs采样或者变分推断EM采样，进行更新迭代文档-主题参数矩阵Z_dn和主题-词语矩阵W_dn；吉布斯采样调用了Java语言下的Mallet库，计算时间长但模型准确度高；变分推断EM采样是gensim中LDA模型的默认采样方法；

Roberta模型，本专利的词向量调用了transformers库下的chinese Roberta wwmext预训练模型，用来计算词向量来计算词与文档之间的关系：

chinese Roberta wwm ext是基于Roberta模型生成的关于中文的词向量，在对文本数据进行清洗和分词处理后，统计词频，通过词频对文本进行数据特征值化(CountVectorizer)，并生成候选的文本关键词；通过chinese Roberta wwm ext预训练模型将文本和候选关键词进行词向量化(word embedding)，为了选取意思与文本最相近的关键词，本方法将在候选关键词中选取与文本相似度最高的词语，并在候选关键词中选取关键词之间相似度最小的词语，其中相似度将通过余弦值计算。

优选的，在S5中，学校维度在整体匹配度的计算：

根据不同学校排名设置相应的学校权重。

优选的，在S5中，专业维度在整体匹配度的计算：

提取岗位描述中对专业的要求，以及简历中应聘者的专业背景，如果岗位中的专业要求和简历中的专业名称隶属于同一分类(专业二级分类)，则认为应聘者的专业背景与岗位描述中的要求相符。

优选的，在S5中，重复字段维度在整体匹配度的计算：

对岗位描述和简历进行分词后，统计重复词语占总词汇量的比例，总词汇量为岗位描述中出现的所有词汇的数量。

优选的，在S5中，关工作经验时长在整体匹配度的计算：利用LDA模型判断岗位描述与简历中的工作经历描述是否为同一主题，累加所有同一主题的工作经历时长，得到相关工作年限，通过正则化提取岗位描述中相关工作经验年限的要求，对比岗位描述中的工作年限要求和简历中的工作年限，若简历中的工作年限大于岗位描述中的要求，则认为该简历的工作年限符合岗位要求。

优选的，在S5中，相关技能维度在整体匹配度的计算：根据LDA模型，依存句法和深度模型提取岗位描述和简历文本中的技能关键词，对比两者之间重叠的技能。对于岗位要求“精通”的技能，权重为1；对于岗位要求“优先”的技能，权重为0.9，对于岗位要求中没有出现的技能，但在简历中出现的相关技能，匹配岗位-技能关键词词表中的技能，权重为1，岗位-技能关键词词表是根据历史岗位描述数据按岗位分类整理而来的数据库，最后将所有技能加权平均得到最终的技能匹配分数。

本发明的上述技术方案具有如下有益的技术效果：

通过开创性的结合LDA模型，依存句法和深度学习算法优点，引入多种模型方法，一方面针对常用的特定的文本表达方式，采用正则表达式模板来提取，另一方对于一般性的文本内容提取关键词；通过多种方法提取文本关键词，满足关键词的多样性和专业性，有效的规避了需要大量人工处理的语料库的构建，兼具机器模型的良好适应性及深度学习模型的信息提取精确性两方面的优势，可以达到有效精确提取简历信息和岗位信息中的关键词。具有良好的现实实用性；通过这种方法，可以在有限的岗位描述样本的基础上，实现对简历信息和岗位描述的精准匹配。

附图说明

图1为本发明提出的一种基于LDA模型、依存句法和深度学习的人岗匹配方法的流程图。

图2为本发明提出的一种基于LDA模型、依存句法和深度学习的人岗匹配方法中LDA模型生成主题分类的方式图。

图3为本发明提出的一种基于LDA模型、依存句法和深度学习的人岗匹配方法中整个简历信息和岗位描述关键词提取的深度学习基本流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

如图1-3所示，本发明提出的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，包括以下步骤：

S1、将专业名称归类到专业二级分类中；

S2、将学校名称统一为正确的表述形式；

S3、编辑距离和重复字段对岗位名称进行归一化：

S5、人岗匹配度的计算：

学校维度在整体匹配度的计算；

专业维度在整体匹配度的计算；

重复字段维度在整体匹配度的计算；

相关工作经验时长在整体匹配度的计算；

相关技能维度在整体匹配度的计算；

利用PyTorch构建简历信息解析机器学习框架，为了加速机器学习的效率，我们选用GPU作为加速器的硬件设备，因而选用了Python语言下包含GPU加速的PyTorch版本(torch-gpu)；

整个简历信息和岗位描述关键词提取的深度学习基本流程如图1：

在一个可选的实施例中，在S1中，根据中普通高等学校本科专业目录的专业分类表，共有93个二级学科，将上述教育部公布的专业目录中740个专业名称通过chineseroberta wwm ext预训练库进行词向量化，再通过最邻近算法(KNN)将740个细分专业分成93个大类。

在一个可选的实施例中，在S2中，根据教育部网站获取公开的全国高等学校名单以及QS500中的正确学校名称，讲应聘者上传的简历做一些简单的文本清理，包括：去除“大学”，“学院”之后的后缀，括号里的其他标注；用去噪后的学校名称与正确学校名称词库做映射。

在一个可选的实施例中，在S3中，如果最小编辑距离和最大重复字段指向同一个标准岗位名称，则输出该正确的岗位名称；如果以上两种方法映射的标准岗位名称不统一，则根据不同条件输出对应的标准岗位名称：如果简历岗位名称的某些字符串与最大重复字数映射的标准岗位名称有完全重合的部分，则输出最大重复字数映射的岗位名称；如果简历岗位名称的某些字符串与最小编辑距离映射的标准岗位名称有完全重合的部分，则输出最小编辑距离映射的岗位名称；如果简历岗位名称和所述两种方法映射的标准岗位名称均无完全重复字符串，则输出简历中原本的岗位名称。

在一个可选的实施例中，在S4中，调用gensim库的LDA模型对简历库里的简历进行无监督的分类：

LDA模型生成主题分类的方式如下：

文档1：词11，词12，……，词1n

文档2：词21，词22，……，词2n

……

文档m：词m1，词m2，……，词mn

见附图2

θ_d～Dirichlet k(α)，θd服从狄利克雷分布；

W_{d＝1…W,n＝1…N}服从多项式分布；

是一个V维的概率向量，表示对于主题k，词分布为：

服从狄利克雷分布；

K：主题的数量；

V：词汇中所有词语的数量；

M：文档的数量；

N：所有文档中词语的数量；

从狄利克雷分布β中抽样生成主题的词语分布

从词语的多项式分布

中采样生成第n个词语W_dn，即主题-词语矩阵；

chinese Roberta wwm ext是基于Roberta模型生成的关于中文的词向量，在对文本数据进行清洗和分词处理后，统计词频，通过词频对文本进行数据特征值化(CountVectorizer)，并生成候选的文本关键词；通过chinese Roberta wwm ext预训练模型将文本和候选关键词进行词向量化(word embedding)，为了选取意思与文本最相近的关键词，本方法将在候选关键词中选取与文本相似度最高的词语，并在候选关键词中选取关键词之间相似度最小的词语，从而实现关键词的高度相关性和多样性，其中相似度将通过余弦值计算。

在一个可选的实施例中，在S5中，学校维度在整体匹配度的计算：

根据不同学校排名设置相应的学校权重。

在一个可选的实施例中，在S5中，专业维度在整体匹配度的计算：

在一个可选的实施例中，在S5中，重复字段维度在整体匹配度的计算：

在一个可选的实施例中，在S5中，相关技能维度在整体匹配度的计算：根据LDA模型，依存句法和深度模型提取岗位描述和简历文本中的技能关键词，对比两者之间重叠的技能。对于岗位要求“精通”的技能，权重为1；对于岗位要求“优先”的技能，权重为0.9，对于岗位要求中没有出现的技能，但在简历中出现的相关技能，匹配岗位-技能关键词词表中的技能，权重为1，岗位-技能关键词词表是根据历史岗位描述数据按岗位分类整理而来的数据库，最后将所有技能加权平均得到最终的技能匹配分数。

本发明中，本方法通过正则表达式提取简历中出现的英文的技能专有名词；本方法通过LDA模型实现对简历的无监督分类，针对不同类别的简历，计算简历库中词集合的权重，实现关键词提取的自动化；通过依存句法和深度学习方法对简历信息有针对性的提取。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，包括以下步骤：

S1、将专业名称归类到专业二级分类中；

S2、将学校名称统一为正确的表述形式；

S3、编辑距离和重复字段对岗位名称进行归一化：

S5、人岗匹配度的计算：

学校维度在整体匹配度的计算；

专业维度在整体匹配度的计算；

重复字段维度在整体匹配度的计算；

相关工作经验时长在整体匹配度的计算；

相关技能维度在整体匹配度的计算；

文本语义相似维度在整体匹配度的计算，将文本词向量化后计算其余弦值，作为文本语义相似度的衡量标准；

S6、基于PyTorch深度学习的词嵌入chinese Roberta wwm ext深度学习预训练模型；

2.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S1中，根据中普通高等学校本科专业目录的专业分类表，共有93个二级学科，将上述教育部公布的专业目录中740个专业名称通过chinese roberta wwm ext预训练库进行词向量化，再通过最邻近算法(KNN)将740个细分专业分成93个大类。

3.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S2中，根据教育部网站获取公开的全国高等学校名单以及QS500中的正确学校名称，讲应聘者上传的简历做一些简单的文本清理，包括：去除“大学”，“学院”之后的后缀，括号里的其他标注；用去噪后的学校名称与正确学校名称词库做映射。

4.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S3中，如果最小编辑距离和最大重复字段指向同一个标准岗位名称，则输出该正确的岗位名称；如果以上两种方法映射的标准岗位名称不统一，则根据不同条件输出对应的标准岗位名称：如果简历岗位名称的某些字符串与最大重复字数映射的标准岗位名称有完全重合的部分，则输出最大重复字数映射的岗位名称；如果简历岗位名称的某些字符串与最小编辑距离映射的标准岗位名称有完全重合的部分，则输出最小编辑距离映射的岗位名称；如果简历岗位名称和所述两种方法映射的标准岗位名称均无完全重复字符串，则输出简历中原本的岗位名称。

5.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S4中，调用gensim库的LDA模型对简历库里的简历进行无监督的分类：

LDA模型生成主题分类的方式如下：

文档1：词11，词12，……，词1n

文档2：词21，词22，……，词2n

……

文档m：词m1，词m2，……，词mn

见附图2

θ_d～Dirichlet k(α)，θd服从狄利克雷分布；

W_{d＝1…W,n＝1…N}服从多项式分布；

是一个V维的概率向量，表示对于主题k，词分布为：

服从狄利克雷分布；

K：主题的数量；

V：词汇中所有词语的数量；

M：文档的数量；

N：所有文档中词语的数量；

从狄利克雷分布β中抽样生成主题的词语分布

从词语的多项式分布

中采样生成第n个词语W_dn，即主题-词语矩阵；

Roberta模型，本专利的词向量调用了transformers库下的chinese Roberta wwm ext预训练模型，用来计算词向量来计算词与文档之间的关系：

6.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S5中，学校维度在整体匹配度的计算：

根据不同学校排名设置相应的学校权重。

7.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S5中，专业维度在整体匹配度的计算：

8.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S5中，重复字段维度在整体匹配度的计算：

9.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S5中，关工作经验时长在整体匹配度的计算：利用LDA模型判断岗位描述与简历中的工作经历描述是否为同一主题，累加所有同一主题的工作经历时长，得到相关工作年限，通过正则化提取岗位描述中相关工作经验年限的要求，对比岗位描述中的工作年限要求和简历中的工作年限，若简历中的工作年限大于岗位描述中的要求，则认为该简历的工作年限符合岗位要求。

10.根据权利要求1所述的一种基于LDA模型、依存句法和深度学习的人岗匹配方法，其特征在于，在S5中，相关技能维度在整体匹配度的计算：根据LDA模型，依存句法和深度模型提取岗位描述和简历文本中的技能关键词，对比两者之间重叠的技能，对于岗位要求“精通”的技能，权重为1；对于岗位要求“优先”的技能，权重为0.9，对于岗位要求中没有出现的技能，但在简历中出现的相关技能，匹配岗位-技能关键词词表中的技能，权重为1，岗位-技能关键词词表是根据历史岗位描述数据按岗位分类整理而来的数据库，最后将所有技能加权平均得到最终的技能匹配分数。