CN105786781A

CN105786781A - 一种基于主题模型的职位描述文本相似度计算方法

Info

Publication number: CN105786781A
Application number: CN201610140634.6A
Authority: CN
Inventors: 沈启明
Original assignee: Pei Keming Management Consulting (shanghai) Co Ltd
Current assignee: Pei Keming Management Consulting (shanghai) Co Ltd
Priority date: 2016-03-14
Filing date: 2016-03-14
Publication date: 2016-07-20

Abstract

本发明公开了一种基于主题模型的职位描述文本相似度计算方法，其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征，同时结合多个特定特征，如工作年限、工作地点、学历等，实现了职位描述文本的向量化表示，完成了文本相似度计算和聚类等功能。本发明采用语义特征和领域特定特征来表示文本，极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中，发现职能高度重合的职位的功能，辅助相应部门完成分析决策。本发明能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点，从而更好的实现职能重合职位的自动判别功能。

Description

一种基于主题模型的职位描述文本相似度计算方法

技术领域

本发明属于信息检索和文本挖掘技术领域，具体的说是涉及一种基于主题模型的职位描述文本相似度计算方法。

背景技术

随着企业间竞争的加剧，企业所拥有的人力资源在企业经营成本的占比越来越高。与此相应，企业内部的人才调配与流动越来越频繁。因此，减少职能高度重合的职位需求，充分利用在岗的人力资源是企业削减成本、提高效率的重要途径之一。随着企业规模不断扩大，传统的确定职能相似职位的手段，如人工筛选判别已不能满足企业需求。因此，设计一个职位描述文本相似度计算算法，实现职能重合职位的自动判别，部分甚至彻底取代人工筛选这种高成本低效率的传统方法，已经是企业人力资源信息化建设中必须解决的问题。

职位描述文本相似度计算方法，其核心问题是对文本内容进行表示及文本相似性的评价。目前，常见的文本表示方法是采用向量空间模型，即首先从词汇表中抽取一组特征词形成文本的表示空间，然后把文本映射为表示空间中的向量。表示向量元素的大小直接反映了对应特征词对该文本的贡献程度。将表示向量归一化，利用余弦相似性可以计算文本的相似度。向量空间模型的不足在于该模型假设了特征词之间的相互独立性，忽略了特征词的相关性。因此，简单采用向量空间模型进行文本相似度计算往往会出现偏差。

发明内容

本发明为了克服现有技术存在的不足，提供一种基于主题模型的职位描述文本相似度计算方法，它能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点，从而更好的实现职能重合职位的自动判别功能。

本发明是通过以下技术方案实现的：一种基于主题模型的职位描述文本相似度计算方法，其包括以下步骤：

步骤1）职位描述文本的输入和存储：所述计算方法允许使用者通过两种方式输入职位描述文本；

步骤2）特定特征提取：针对职位描述文本的特性，提取特定特征，如工作年限、工作地点、工作时间、学历或专业。

步骤3）语义预处理：对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理。

步骤4）模型预处理：模型预处理将停用词和低频词过滤掉，形成主题模型的计算语料库，过滤停用词和低频词的目的是把与文本内容不相关的词，如介词或连词从文本中删除；

步骤5）主题模型分析：采用潜层语义分析模型对语料库进行主题分析，实现语料库中所有文本在潜层语义空间中的向量化表示；

步骤6）聚类分析：聚类分析首先组合文本在不同主题上的投影特征以及特定特征，实现职位描述文本的精确表示，然后将向量化后的文本进行聚类，特征相似的职位描述文本将被划分为一类；

步骤7）职位描述文本相似度计算：基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算公式为，公式中，和分别是待计算文本的表示向量，表示向量的第个分量。通过职位描述文本相似度计算，用户便能够量化分析职位信息的相似程度。通过设置相似度阈值，用户可以实现灵活的职位资源配比策略，从而为人力资源优化提供有效的指标支持。

所述步骤1中的两种方式分别指：第一种方式是用户指定网络地址，系统获取存储在互联网上的文本；第二种方式是用户直接在服务器端输入需要处理的文本，海量文本数据采用分布式存储方式存储。

所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上，将文本映射为主题表示空间中的向量，利用主题模型，提取职位描述文本在不同主题上的投影特征。

所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专业。

本发明的有益效果是：本申请公开了一种职位描述文本相似度计算的方法，其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征，同时结合多个特定特征，如工作年限、工作地点、学历等，实现了职位描述文本的向量化表示，完成了文本相似度计算和聚类等功能。与现有文本相似度计算方法相比，本发明采用语义特征和领域特定特征来表示文本，极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中，发现职能高度重合的职位的功能，辅助相应部门完成分析决策。

附图说明

为了更清楚地说明本发明的实施方式，对实施过程中的附图作简单介绍：

图1是基于主题模型的职位描述文本相似度计算方法的系统框图；

图2是语义预处理的流程图；

图3是模型预处理的流程图；

图4是采用潜层语义分析模型对语料库进行主题分析的流程图。

具体实施方式

以下结合附图和具体实施方式对本发明作详细描述。

如图1至图4所示，一种基于主题模型的职位描述文本相似度计算方法，其包括以下步骤。

步骤1)职位描述文本的输入和存储：本发明允许使用者通过两种方式输入职位描述文本。第一种方式用户指定网络地址，系统获取存储在互联网上的文本；第二种方式用户直接在服务器端输入需要处理的文本。海量文本数据采用分布式存储方式存储。

步骤2)特定特征提取：针对职位描述文本的特性，提取特定特征，如工作年限、工作地点、工作时间、学历、专业等。

步骤3)语义预处理：对待分析职位描述文本进行断句(英文)、分词(中文)、词性解析、词形还原(英文)、词干提取(英文)等语义预处理。

步骤4)模型预处理：模型预处理将停用词和低频词过滤掉，形成主题模型的计算语料库。过滤停用词和低频词的目的是把与文本内容不相关的词，如介词、连词等从文本中删除。模型预处理既不会损失原文本所包含的信息，又可以减少运算量。

步骤5)主题模型分析：采用潜层语义分析模型（LatentSemanticAnalysis）对语料库进行主题分析，实现语料库中所有文本在潜层语义空间中的向量化表示。潜层语义分析模型在传统向量空间模型的基础上，将文本映射为主题表示空间中的向量。利用主题模型，我们可以提取职位描述文本在不同主题上的投影特征。

步骤6)聚类分析：聚类分析首先组合文本在不同主题上的投影特征以及特定特征（工作年限、工作地点、工作时间、学历、专业等），实现职位描述文本的精确表示。然后将向量化后的文本进行聚类，特征相似的职位描述文本将被划分为一类。

通过职位聚类分析，用户可以获得职位信息的有效分类，从而对职能相似或差异较大的岗位进行针对性的筛选，为人力资源优化提供量化分析支撑。

步骤7)职位描述文本相似度计算：基于组合特征（文本在不同主题上的投影特征以及特定特征）的文本相似度计算公式为，公式中，和分别是待计算文本的表示向量，表示向量的第个分量。通过职位描述文本相似度计算，用户可以量化分析职位信息的相似程度。通过设置相似度阈值，用户可以实现灵活的职位资源配比策略，从而为人力资源优化提供有效的指标支持。

最后应当说明的是，基于本发明的实施方式，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施案例，都属于本发明保护的范围。以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种基于主题模型的职位描述文本相似度计算方法，其特征在于：所述基于主题模型的职位描述文本相似度计算方法包括以下步骤：

步骤2）特定特征提取：针对职位描述文本的特性，提取特定特征，如工作年限、工作地点、工作时间、学历或专业；

步骤3）语义预处理：对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理；

步骤7）职位描述文本相似度计算：基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算，通过职位描述文本相似度计算，用户便能够量化分析职位信息的相似程度。

2.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法，其特征在于：所述步骤1中的两种方式分别指：第一种方式是用户指定网络地址，系统获取存储在互联网上的文本；第二种方式是用户直接在服务器端输入需要处理的文本，海量文本数据采用分布式存储方式存储。

3.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法，其特征在于：所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上，将文本映射为主题表示空间中的向量，利用主题模型，提取职位描述文本在不同主题上的投影特征。

4.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法，其特征在于：所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专业。