CN105786781A - 一种基于主题模型的职位描述文本相似度计算方法 - Google Patents
一种基于主题模型的职位描述文本相似度计算方法 Download PDFInfo
- Publication number
- CN105786781A CN105786781A CN201610140634.6A CN201610140634A CN105786781A CN 105786781 A CN105786781 A CN 105786781A CN 201610140634 A CN201610140634 A CN 201610140634A CN 105786781 A CN105786781 A CN 105786781A
- Authority
- CN
- China
- Prior art keywords
- job description
- text
- description text
- model
- topic model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/131—Fragmentation of text files, e.g. creating reusable text-blocks; Linking to fragments, e.g. using XInclude; Namespaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明公开了一种基于主题模型的职位描述文本相似度计算方法,其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征,同时结合多个特定特征,如工作年限、工作地点、学历等,实现了职位描述文本的向量化表示,完成了文本相似度计算和聚类等功能。本发明采用语义特征和领域特定特征来表示文本,极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中,发现职能高度重合的职位的功能,辅助相应部门完成分析决策。本发明能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点,从而更好的实现职能重合职位的自动判别功能。
Description
技术领域
本发明属于信息检索和文本挖掘技术领域,具体的说是涉及一种基于主题模型的职位描述文本相似度计算方法。
背景技术
随着企业间竞争的加剧,企业所拥有的人力资源在企业经营成本的占比越来越高。与此相应,企业内部的人才调配与流动越来越频繁。因此,减少职能高度重合的职位需求,充分利用在岗的人力资源是企业削减成本、提高效率的重要途径之一。随着企业规模不断扩大,传统的确定职能相似职位的手段,如人工筛选判别已不能满足企业需求。因此,设计一个职位描述文本相似度计算算法,实现职能重合职位的自动判别,部分甚至彻底取代人工筛选这种高成本低效率的传统方法,已经是企业人力资源信息化建设中必须解决的问题。
职位描述文本相似度计算方法,其核心问题是对文本内容进行表示及文本相似性的评价。目前,常见的文本表示方法是采用向量空间模型,即首先从词汇表中抽取一组特征词形成文本的表示空间,然后把文本映射为表示空间中的向量。表示向量元素的大小直接反映了对应特征词对该文本的贡献程度。将表示向量归一化,利用余弦相似性可以计算文本的相似度。向量空间模型的不足在于该模型假设了特征词之间的相互独立性,忽略了特征词的相关性。因此,简单采用向量空间模型进行文本相似度计算往往会出现偏差。
发明内容
本发明为了克服现有技术存在的不足,提供一种基于主题模型的职位描述文本相似度计算方法,它能够克服传统向量空间模型计算文本相似度时出现的偏差大等缺点,从而更好的实现职能重合职位的自动判别功能。
本发明是通过以下技术方案实现的:一种基于主题模型的职位描述文本相似度计算方法,其包括以下步骤:
步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位描述文本;
步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地点、工作时间、学历或专业。
步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理。
步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中删除;
步骤5)主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库中所有文本在潜层语义空间中的向量化表示;
步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本将被划分为一类;
步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算公式为,公式中,和分别是待计算文本的表示向量,表示向量的第个分量。通过职位描述文本相似度计算,用户便能够量化分析职位信息的相似程度。通过设置相似度阈值,用户可以实现灵活的职位资源配比策略,从而为人力资源优化提供有效的指标支持。
所述步骤1中的两种方式分别指:第一种方式是用户指定网络地址,系统获取存储在互联网上的文本;第二种方式是用户直接在服务器端输入需要处理的文本,海量文本数据采用分布式存储方式存储。
所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上,将文本映射为主题表示空间中的向量,利用主题模型,提取职位描述文本在不同主题上的投影特征。
所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专业。
本发明的有益效果是:本申请公开了一种职位描述文本相似度计算的方法,其具体包括语义预处理、模型预处理、主题模型分析以及聚类分析和相似度计算等步骤。本发明提取了职位描述文本在不同主题上的投影特征,同时结合多个特定特征,如工作年限、工作地点、学历等,实现了职位描述文本的向量化表示,完成了文本相似度计算和聚类等功能。与现有文本相似度计算方法相比,本发明采用语义特征和领域特定特征来表示文本,极大提高了职位描述文本相似度计算的准确性。本发明实现了在海量岗位职位描述数据库中,发现职能高度重合的职位的功能,辅助相应部门完成分析决策。
附图说明
为了更清楚地说明本发明的实施方式,对实施过程中的附图作简单介绍:
图1是基于主题模型的职位描述文本相似度计算方法的系统框图;
图2是语义预处理的流程图;
图3是模型预处理的流程图;
图4是采用潜层语义分析模型对语料库进行主题分析的流程图。
具体实施方式
以下结合附图和具体实施方式对本发明作详细描述。
如图1至图4所示,一种基于主题模型的职位描述文本相似度计算方法,其包括以下步骤。
步骤1)职位描述文本的输入和存储:本发明允许使用者通过两种方式输入职位描述文本。第一种方式用户指定网络地址,系统获取存储在互联网上的文本;第二种方式用户直接在服务器端输入需要处理的文本。海量文本数据采用分布式存储方式存储。
步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地点、工作时间、学历、专业等。
步骤3)语义预处理:对待分析职位描述文本进行断句(英文)、分词(中文)、词性解析、词形还原(英文)、词干提取(英文)等语义预处理。
步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料库。过滤停用词和低频词的目的是把与文本内容不相关的词,如介词、连词等从文本中删除。模型预处理既不会损失原文本所包含的信息,又可以减少运算量。
步骤5)主题模型分析:采用潜层语义分析模型(LatentSemanticAnalysis)对语料库进行主题分析,实现语料库中所有文本在潜层语义空间中的向量化表示。潜层语义分析模型在传统向量空间模型的基础上,将文本映射为主题表示空间中的向量。利用主题模型,我们可以提取职位描述文本在不同主题上的投影特征。
步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征(工作年限、工作地点、工作时间、学历、专业等),实现职位描述文本的精确表示。然后将向量化后的文本进行聚类,特征相似的职位描述文本将被划分为一类。
通过职位聚类分析,用户可以获得职位信息的有效分类,从而对职能相似或差异较大的岗位进行针对性的筛选,为人力资源优化提供量化分析支撑。
步骤7)职位描述文本相似度计算:基于组合特征(文本在不同主题上的投影特征以及特定特征)的文本相似度计算公式为,公式中,和分别是待计算文本的表示向量,表示向量的第个分量。通过职位描述文本相似度计算,用户可以量化分析职位信息的相似程度。通过设置相似度阈值,用户可以实现灵活的职位资源配比策略,从而为人力资源优化提供有效的指标支持。
最后应当说明的是,基于本发明的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施案例,都属于本发明保护的范围。以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。
Claims (4)
1.一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述基于主题模型的职位描述文本相似度计算方法包括以下步骤:
步骤1)职位描述文本的输入和存储:所述计算方法允许使用者通过两种方式输入职位描述文本;
步骤2)特定特征提取:针对职位描述文本的特性,提取特定特征,如工作年限、工作地点、工作时间、学历或专业;
步骤3)语义预处理:对待分析职位描述文本进行断句、分词、词性解析、词形还原或词干提取的语义预处理;
步骤4)模型预处理:模型预处理将停用词和低频词过滤掉,形成主题模型的计算语料库,过滤停用词和低频词的目的是把与文本内容不相关的词,如介词或连词从文本中删除;
步骤5)主题模型分析:采用潜层语义分析模型对语料库进行主题分析,实现语料库中所有文本在潜层语义空间中的向量化表示;
步骤6)聚类分析:聚类分析首先组合文本在不同主题上的投影特征以及特定特征,实现职位描述文本的精确表示,然后将向量化后的文本进行聚类,特征相似的职位描述文本将被划分为一类;
步骤7)职位描述文本相似度计算:基于组合特征如文本在不同主题上的投影特征以及特定特征的文本相似度计算,通过职位描述文本相似度计算,用户便能够量化分析职位信息的相似程度。
2.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述步骤1中的两种方式分别指:第一种方式是用户指定网络地址,系统获取存储在互联网上的文本;第二种方式是用户直接在服务器端输入需要处理的文本,海量文本数据采用分布式存储方式存储。
3.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述步骤5中的潜层语义分析模型是在传统向量空间模型的基础上,将文本映射为主题表示空间中的向量,利用主题模型,提取职位描述文本在不同主题上的投影特征。
4.根据权利要求1所述的一种基于主题模型的职位描述文本相似度计算方法,其特征在于:所述步骤6中的投影特征以及特定特征是指工作年限、工作地点、工作时间、学历或专业。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610140634.6A CN105786781A (zh) | 2016-03-14 | 2016-03-14 | 一种基于主题模型的职位描述文本相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610140634.6A CN105786781A (zh) | 2016-03-14 | 2016-03-14 | 一种基于主题模型的职位描述文本相似度计算方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105786781A true CN105786781A (zh) | 2016-07-20 |
Family
ID=56393272
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610140634.6A Pending CN105786781A (zh) | 2016-03-14 | 2016-03-14 | 一种基于主题模型的职位描述文本相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105786781A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446089A (zh) * | 2016-09-12 | 2017-02-22 | 北京大学 | 一种多维度领域关键知识的提取和存储方法 |
CN106777296A (zh) * | 2016-12-30 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的人才搜索推荐方法及系统 |
CN106777295A (zh) * | 2016-12-30 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的职位搜索推荐方法和系统 |
CN107818134A (zh) * | 2017-09-26 | 2018-03-20 | 北京纳人网络科技有限公司 | 一种职位相似度计算方法、客户端以及服务器 |
US20190197482A1 (en) * | 2017-12-27 | 2019-06-27 | International Business Machines Corporation | Creating and using triplet representations to assess similarity between job description documents |
CN112100492A (zh) * | 2020-09-11 | 2020-12-18 | 河北冀联人力资源服务集团有限公司 | 一种不同版本的简历的批量投递方法和系统 |
CN113221000A (zh) * | 2021-05-17 | 2021-08-06 | 上海博亦信息科技有限公司 | 一种人才数据智能检索及推荐方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
CN101594313A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统 |
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103177087A (zh) * | 2013-03-08 | 2013-06-26 | 浙江大学 | 一种基于概率主题模型的相似中药检索方法 |
-
2016
- 2016-03-14 CN CN201610140634.6A patent/CN105786781A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6446061B1 (en) * | 1998-07-31 | 2002-09-03 | International Business Machines Corporation | Taxonomy generation for document collections |
CN101594313A (zh) * | 2008-05-30 | 2009-12-02 | 电子科技大学 | 一种基于潜在语义索引的垃圾邮件判断、分类、过滤方法及系统 |
CN102110140A (zh) * | 2011-01-26 | 2011-06-29 | 桂林电子科技大学 | 基于网络离散文本的舆情信息分析方法 |
CN102929937A (zh) * | 2012-09-28 | 2013-02-13 | 福州博远无线网络科技有限公司 | 基于文本主题模型的商品分类的数据处理方法 |
CN103177087A (zh) * | 2013-03-08 | 2013-06-26 | 浙江大学 | 一种基于概率主题模型的相似中药检索方法 |
Non-Patent Citations (2)
Title |
---|
任姚鹏: ""基于语义相似度分析的软构件聚类算法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
罗义兵: ""领域文本相似度计算方法研究"", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106446089A (zh) * | 2016-09-12 | 2017-02-22 | 北京大学 | 一种多维度领域关键知识的提取和存储方法 |
CN106446089B (zh) * | 2016-09-12 | 2019-08-16 | 北京大学 | 一种多维度领域关键知识的提取和存储方法 |
CN106777296A (zh) * | 2016-12-30 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的人才搜索推荐方法及系统 |
CN106777295A (zh) * | 2016-12-30 | 2017-05-31 | 深圳爱拼信息科技有限公司 | 一种基于语义匹配的职位搜索推荐方法和系统 |
CN107818134A (zh) * | 2017-09-26 | 2018-03-20 | 北京纳人网络科技有限公司 | 一种职位相似度计算方法、客户端以及服务器 |
US20190197482A1 (en) * | 2017-12-27 | 2019-06-27 | International Business Machines Corporation | Creating and using triplet representations to assess similarity between job description documents |
US11410130B2 (en) * | 2017-12-27 | 2022-08-09 | International Business Machines Corporation | Creating and using triplet representations to assess similarity between job description documents |
CN112100492A (zh) * | 2020-09-11 | 2020-12-18 | 河北冀联人力资源服务集团有限公司 | 一种不同版本的简历的批量投递方法和系统 |
CN113221000A (zh) * | 2021-05-17 | 2021-08-06 | 上海博亦信息科技有限公司 | 一种人才数据智能检索及推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105786781A (zh) | 一种基于主题模型的职位描述文本相似度计算方法 | |
US10007658B2 (en) | Multi-stage recognition of named entities in natural language text based on morphological and semantic features | |
CN104391942B (zh) | 基于语义图谱的短文本特征扩展方法 | |
CN104462378B (zh) | 用于文本识别的数据处理方法及装置 | |
WO2016112679A1 (zh) | 实现智能问答的方法、系统和存储介质 | |
CN104636466B (zh) | 一种面向开放网页的实体属性抽取方法和系统 | |
CN104462053A (zh) | 一种文本内的基于语义特征的人称代词指代消解方法 | |
CN102968408A (zh) | 识别用户评论的实体特征方法 | |
Bhargava et al. | Atssi: Abstractive text summarization using sentiment infusion | |
CN104915443B (zh) | 一种中文微博评价对象的抽取方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN104598535A (zh) | 一种基于最大熵的事件抽取方法 | |
CN104572958A (zh) | 一种基于事件抽取的敏感信息监控方法 | |
CN109543034A (zh) | 基于知识图谱的文本聚类方法、装置及可读存储介质 | |
Falk et al. | Classifying French verbs using French and English lexical resources | |
CN104298714B (zh) | 一种基于异常处理的海量文本自动标注方法 | |
CN105760474A (zh) | 一种基于位置信息的文档集的特征词提取方法及系统 | |
CN110032649A (zh) | 一种中医文献的实体间关系抽取方法及装置 | |
CN110705292B (zh) | 一种基于知识库和深度学习的实体名称提取方法 | |
CN103324626A (zh) | 一种建立多粒度词典的方法、分词的方法及其装置 | |
CN106503256B (zh) | 一种基于社交网络文档的热点信息挖掘方法 | |
CN107133212A (zh) | 一种基于集成学习和词句综合信息的文本蕴涵识别方法 | |
CN102929860A (zh) | 一种基于上下文语境的中文分句情感极性判别方法 | |
CN106354844A (zh) | 基于文本挖掘的服务组合包推荐系统及方法 | |
CN110321561A (zh) | 一种关键词提取方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160720 |