CN112100999A - 一种简历文本相似度匹配方法和系统 - Google Patents

一种简历文本相似度匹配方法和系统 Download PDF

Info

Publication number
CN112100999A
CN112100999A CN202010954398.8A CN202010954398A CN112100999A CN 112100999 A CN112100999 A CN 112100999A CN 202010954398 A CN202010954398 A CN 202010954398A CN 112100999 A CN112100999 A CN 112100999A
Authority
CN
China
Prior art keywords
text
similarity
calculating
free
job
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010954398.8A
Other languages
English (en)
Other versions
CN112100999B (zh
Inventor
吴晓军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hebei Jilian Human Resources Service Group Co ltd
Original Assignee
Hebei Jilian Human Resources Service Group Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hebei Jilian Human Resources Service Group Co ltd filed Critical Hebei Jilian Human Resources Service Group Co ltd
Priority to CN202010954398.8A priority Critical patent/CN112100999B/zh
Publication of CN112100999A publication Critical patent/CN112100999A/zh
Application granted granted Critical
Publication of CN112100999B publication Critical patent/CN112100999B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种简历文本相似度匹配方法,用于向招聘职位推荐简历,所述方法包括:获取招聘职位的第一文本和多个简历的第二文本;解析所述第一文本,从所述第一文本提取到数值文本、短文本和自由文本;解析所述多个第二文本,从每个第二文本提取到数值文本、短文本和自由文本;计算第一文本与第二文本的第一相似度、第二相似度和第三相似度;计算所述第一相似度、第二相似度以及第三相似度的加权和;以及将所述加权和按照降序排序,选取排序靠前的第二文本作为推荐简历。本公开还提供了一种简历文本相似度匹配的系统。

Description

一种简历文本相似度匹配方法和系统
技术领域
本公开涉及信息技术领域,特别涉及一种处理文本信息的方法、 系统、电子设备及计算机可读存储介质。
背景技术
在现有的提供互联网招聘服务的网站中,常规的方法是由招聘方 发布需要招聘的职位,对该职位感兴趣的求职者向该职位投递简历。 也有一些招聘网站,会自动匹配求职者与职位的相关性,向相关性高 的求职者推送职位,提高招聘的效果。
但是,常见的简历职位匹配算法通常是直接计算简历文本和职位 文本之间的语义相似度,根据语义相似度对求职者简历或招聘方职位 进行排序。传统的简历和职位语义相似度计算,主要通过TF-IDF等特 征提取算法来提取简历和招聘文件的字词特征,然后用字词特征的语 义表示计算简历和职位相似度。然而,这种方式不能很好地提取到简 历和招聘职位的整体语义表示,匹配的准确度不高。此外,这种匹配 也仅仅利用了简历和职位文本的字词信息,没有本体知识信息,同样 导致匹配不精准。
因此,急需一种简历职位匹配算法,其能够全面的,综合各种信 息,实现高效精确的简历和职位匹配和推荐。
发明内容
有鉴于此,本公开实施例的目的在于提供一种处理文本信息的方 法,通过综合文本的字词语义表示、本体领域知识,结合深度学习算法, 实现高效精确的简历和职位匹配。
根据本公开的第一方面,提供了一种处理文本信息的方法,用于 向招聘职位推荐简历,所述方法包括:
获取招聘职位的第一文本和多个简历的第二文本;
解析所述第一文本,从所述第一文本提取数值文本、短文本和自 由文本,其中,所述第一文本的数值文本至少包括工作时间、薪资范 围,短文本至少包括工作地点、最低学历、职位类别、职位名称,自 由文本包括职位描述和职位要求;
解析多个所述第二文本,从每个第二文本提取数值文本、短文本 和自由文本,其中,所述第二文本的数值文本包括至少工作时间、期 望薪资,短文本至少包括期望工作地点、期望职位类别、期望职位、 学历、学校、专业,自由文本至少包括工作经历、项目经历;
计算所述第一文本的数值文本与所述第二文本的数值文本之间 的相似度,得到第一相似度,其中,计算所述第一相似度的方法包括, 分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间, 如果两者属于同一区间,则相似度为1,如果两者属于相邻区间,则相 似度为0.5,其他情况,相似度为0;
分别计算所述第一文本的短文本与所述第二文本的短文本之间 的相似度,得到第二相似度,其中,计算所述第二相似度的方法包括, 基于预先设定的知识图谱规则,为符合规则的短文本之间的相似度赋 予规则设定的值;
分别计算所述第一文本的自由文本与所述第二文本的自由文本 之间的相似度,得到第三相似度,其中,计算所述第三相似度的方法 包括,将所述第一文本的自由文本和第二文本的自由文本通过预先训 练好的基于主题的相似度模型;
计算所述第一相似度、第二相似度以及第三相似度的加权和;以 及
将所述加权和按照降序排序,选取排序靠前的第二文本作为推荐 简历。
在一个可能的实施例中,其中,所述知识图谱规则至少包括:学历知 识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业 体系知识。
在一个可能的实施例中,所述计算加权和的公式为:
Figure BDA0002678115120000031
其中,R代表简历,J代表招聘职位,Sim表示相似度,∑i ci*Sim(ki,li) 表示计算短文本的每一项之间的相似度,并加权求和,∑j cj*Sim(mj,nj) 表示计算数值文本的每一项之间的相似度,并加权求和,λ*Sim(p,q)是 计算自由文本之间的相似度,ki表示简历中的短文本第i个属性,li表 示职位中的短文本第i个属性,ci是短文本的加权系数,mj表示简历 中的数值文本第j个属性,nj表示职位中的数值文本的第j个属性,cj是 数值文本的加权系数,p是简历的自由文本,q是职位的自由文本,λ 是自由文本的加权系数。
在一个可能的实施例中,所述高校知识包括:判断第二文本和第 一文本的学校是否是985、211、一本、二本、其他大学、非大学,分 别赋值为1、0.8、0.6、0.4、0.2、0,得到学校分数,如果第二文本的 学校分数与第一文本的学校分数之差的绝对值小于预设阈值,则相似 度为1,否则为0。
在一个可能的实施例中,所述中国地理知识包括:将中国地理知 识按照省、地级市、县划分为树形结构,分为三个层级;如果第一文 本与第二文本的工作地点对应的第一层级不同,则相似度为0;如果 第一层级相同且第二层级不同,则相似度为0.3;如果第一层级和第 二层级相同,且第三级不同,则相似度为0.7;如果第一层级到第三 层级全部相同,则相似度为1。
在一个可能的实施例中,所述计算所述第三相似度的方法包括:
计算所述第一文本的自由文本与所述相似度模型的多个主题的第 一相关向量;
计算所述第二文本的自由文本与所述相似度模型的多个主题的第 二相关向量;
计算所述第一相关向量和所述第二相关向量的相似度,作为所述 第三相似度。
在一个可能的实施例中,所述计算所述第一相关向量和所述第二 相关向量的相似度,作为所述第三相似度包括:
计算第一相关向量与第二相关向量之间的余弦距离。
根据本公开的第二方面,提供了一种处理文本信息的系统,用于 向招聘职位推荐简历,包括:
文本获取单元,获取招聘职位的第一文本和多个简历的第二文本;
第一文本解析单元,用于解析所述第一文本,从所述第一文本提 取数值文本、短文本和自由文本,其中,所述第一文本的数值文本至 少包括工作时间、薪资范围,短文本至少包括工作地点、最低学历、 职位类别、职位名称,自由文本包括职位描述和职位要求;
第二文本解析单元,用于解析多个所述第二文本,从每个第二文 本提取数值文本、短文本和自由文本,其中,所述第二文本的数值文 本包括至少工作时间、期望薪资,短文本至少包括期望工作地点、期 望职位类别、期望职位、学历、学校、专业,自由文本至少包括工作 经历、项目经历;
第一相似度计算单元,用于计算所述第一文本的数值文本与所述 第二文本的数值文本之间的相似度,得到第一相似度,其中,计算所 述第一相似度的方法包括,分别将所述第一文本和第二文本的数值文 本中的数值映射到预设区间,如果两者属于同一区间,则相似度为1, 如果两者属于相邻区间,则相似度为0.5,其他情况,相似度为0;
第二相似度计算单元,用于分别计算所述第一文本的短文本与所 述第二文本的短文本之间的相似度,得到第二相似度,其中,计算所 述第二相似度的方法包括,基于预先设定的知识图谱规则,为符合规 则的短文本之间的相似度赋予规则设定的值;
第三相似度计算单元,用于分别计算所述第一文本的自由文本与 所述第二文本的自由文本之间的相似度,得到第三相似度,其中,计 算所述第三相似度的方法包括,将所述第一文本的自由文本和第二文 本的自由文本通过预先训练好的基于主题的相似度模型;
加权和单元,用于计算所述第一相似度、第二相似度以及第三相 似度的加权和;
目标文本单元,用于将所述加权和按照降序排序,选取排序靠前 的第二文本作为推荐简历。
根据本公开的第三方面,提供一种电子设备,包括:存储器、处 理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处 理器执行所述程序时实现如第一方面所述的方法。
根据本公开的第四方面,提供一种计算机可读存储介质,所述计 算机可读存储介质上存储有可执行指令,该指令被处理器执行时使处 理器执行如第一方面所述的方法。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面 将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描 述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来 讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的 附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加 清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实 际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。
图1示出了根据本公开实施例的典型的处理文本信息的方法的示 意图。
图2示出了根据本公开实施例的典型的待处理的第一文本的示意 图。
图3示出了根据本公开实施例的典型的待处理的第二文本的示意 图。
图4示出了根据本公开实施例的典型的计算第三相似度的方法的 示意图。
图5示出了根据本公开实施例的典型的处理文本信息的系统的示 意图。
图6示出了用于实现本公开实施例的电子设备的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些 描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明 中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的 概念。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本 公开。这里使用的词语“一”、“一个(种)”和“该”等也应包括“多 个”、“多种”的意思,除非上下文另外明确指出。此外,在此使用的 术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部 件。
在此使用的所有术语(包括技术和科学术语)具有本领域技术人 员通常所理解的含义,除非另外定义。应注意,这里使用的术语应解 释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于 刻板的方式来解释。
随着技术的发展,人们在手机端、电脑端通过互联网找工作,招 聘方在互联网上发布职位需求,变得越来越普遍。招聘网站虽然越来 越多,但形式主要还是招聘方发布职位,求职者看到后投递该职位, 虽然载体转到了互联网上,但核心本质并没有不同。现有技术中,常 见的简历职位匹配算法通常是直接计算简历文本和职位文本之间的语 义相似度,根据语义相似度对求职者简历或招聘方职位进行排序。传 统的简历和职位语义相似度计算,主要通过TF-I DF等特征提取算法来 提取简历和招聘文件的字词特征,然后用字词特征的语义表示计算简 历和职位相似度。然而,这种方式不能很好地提取到简历和招聘职位 的整体语义表示,匹配的准确度不高。此外,这种匹配也仅仅利用了 简历和职位文本的字词信息,没有本体知识信息,同样导致匹配不精 准。
有鉴于此,本公开提出了一种简历职位匹配算法,其能够综合文 本的字词语义表示、本体领域知识,结合深度学习算法,实现了高效 精确的简历和职位匹配和推荐。
以下结合附图详细描述本公开。
图1示出了根据本公开实施例的典型的处理文本信息的方法的示 意图。
图2示出了根据本公开实施例的典型的待处理的第一文本的示意 图。第一文本,即招聘方发布的职位。常规的招聘方发布的职位,一 般包含职位名称、职位描述、公司、行业等。其中职位描述会具体说 明岗位职责、岗位要求等内容。
图3示出了根据本公开实施例的典型的待处理的第二文本的示意 图。第二文本,即求职者的简历。常规的求职者简历,包括教育背景、 工作履历、技能、期望职位、期望薪资等。
本公开使用从各大招聘网站爬取的招聘职位文本约10万条,收 集某社交网络提供的脱密简历文本数据约10万条,对职位文本和简历 文本,发现了如下规律,并按照这些规律,将不同文本中不同属性模 块划分为:
规则文本包括:简历中的期望工作地点、工作时间、职位类别、 职位名称、学历、学校、专业、期望薪资等;职位中的工作地点、工 作时间、学历要求、职位类别、职位名称、薪资等。
自由文本包括:求职者的工作经历、项目经历、职位中的职位描 述和要求。
其中,规则文本又包括:1)简历中的工作时间、期望薪资、招 聘中的工作时间、薪资属性值为数值,因此将这些属性模块统称为数 值文本。简历中的期望工作地点、期望职位类别、期望职位、学历、 学校、专业。2)招聘职位中的工作地点、工作时间、最低学历、职位类别、职位名称,这些模块属性值为文本,且文本字符短、信息量少。 因此统称这些属性模块为短文本。
通过步骤101获取如图2所示的第一文本,通过步骤102获取如图3 所示的第二文本。
通过步骤103,解析所述第一文本,从所述第一文本提取数值文 本、短文本和自由文本,其中,所述第一文本的数值文本至少包括工 作时间、薪资范围,短文本至少包括工作地点、最低学历、职位类别、 职位名称,自由文本包括职位描述和职位要求。
通过步骤104,解析多个所述第二文本,从每个第二文本提取数 值文本、短文本和自由文本,其中,所述第二文本的数值文本包括至 少工作时间、期望薪资,短文本至少包括期望工作地点、期望职位类 别、期望职位、学历、学校、专业,自由文本至少包括工作经历、项 目经历。
在步骤103和步骤104中,提取的方法可以是通常的自然语言处 理技术,例如,将自由文本、短文本和数值文本的名称建立词典,再 根据词典进行分词等技术,或其他技术手段,本公开不做限制。
步骤105、步骤106和步骤107是三个并行的步骤。
在步骤105中,计算所述第一文本的数值文本与所述第二文本的 数值文本之间的相似度,得到第一相似度,其中,计算所述第一相似 度的方法包括,分别将所述第一文本和第二文本的数值文本中的数值 映射到预设区间,如果两者属于同一区间,则相似度为1,如果两者属 于相邻区间,则相似度为0.5,其他情况,相似度为0。
例如,将薪资的数值区间分块为:10000以下、10000-12000、 12000-14000、14000-16000,作为预设区间。
第一文本中的薪资,其数值为10000,其中一个第二文本中的期 望的薪资为15000,则第一文本的薪资与第二文本的期望薪资之间属于 其他情况,则相似度为0.另一个第二文本的期望的薪资11000,则属于 同一区间,则相似度为1。另一个第二文本的期望的薪资13000,则属 于相邻区间,则相似度为0.5。类似的,例如薪资,工作时间、上班距 离等这样的数值文本类型,可以按照上述方法,计算得到对应属性的 第一相似度。
在步骤106中,本公开使用基于知识图谱的方法计算第二相似度。
基于预先设定的知识图谱规则,为符合规则的短文本之间的相似 度赋予规则设定的值,得到第二相似度。以下详细说明预先设定的规 则。
第一文本的短文本可以包括:工作地点、工作性质、职位名称、 学历要求、学校要求、专业要求。
第二文本的短文本可以包括:期望工作地点、工作性质、期望职 位名称、学历、学校、专业。
本公开使用的知识图谱包括:学历知识、中国地理知识、工作性 质知识、职位名称知识、高校知识、专业体系知识。
以下使用工作地点为例进行详细说明。
中国地理知识按照树形划分。如下:
第一级:华北、华东、华中、东北、西北、华南、西南;
华北包括:北京、天津、河北、内蒙古、山西;
华东包括:江苏、浙江、上海、江西、安徽、山东、福建、台湾;
华南包括:广东、香港、澳门、海南、广西;
华中包括:湖南、湖北、河南;
东北包括:黑龙江、吉林、辽宁;
西北包括:新疆、青海、甘肃、陕西、宁夏;
西南包括:贵州、四川、重庆、云南、西藏;
第二级:各省的市;
第三级:各市的区县。
如果第一文本与第二文本的工作地点对应的第一层级不同,则相 似度为0,如果第一层级相同且第二层级不同,则相似度为0.3,如果 第一层级和第二层级相同,且第三级不同,则相似度为0.7,如果第 一层级到第三层级全部相同,则相似度为1。
同样的,对于工作性质来说,仅当第二文本和第一文本的工作性 质相同时,相似度为1,否则都为0。需要注意是,如果简历和职位没 有填写工作性质,则默认为全职。
同样的,对于职位名称来说,可以使用以下方法进行计算:
第一级行业:化工、金融、建筑、计算机、旅游、医药卫生、农 业等等。
第二级行业:计算机行业为例,运维/技术支持、软件/互联网开 发、产品/运营管理、硬件开发、质量管理/测试、通信技术开发、IT 管理/项目协调,其他一级行业不再一一列出。
使用第二文本的职位名称和第一文本的职位名称进行匹配,也可 以结合招聘公司所在行业,判断第一级行业分类,如果第一级都不同 (第二级也必然不同),则相似度为0,如果第一级相同第二级不同, 相似度为0.5,如果第一级第二级都相同,则相似度为1。
还可以提供三级职位名称。以软件互联网开发为例,包括java, 数据库、深度学习等。类似的,如果第一级不同,相似度为0,第一 级相同,第二级以后都不同,则相似度为0.3,第一级和第二级相同, 但第三级不同,相似度为0.7,第一级到第三级全部相同,则相似度 为1。
同样的,对于高校,根据中国高校知识体系,判断简历和职位的 学校是否是985、211、一本、二本、其他大学、非大学。分别赋值为 1、0.8、0.6、0.4、0.2、0。如果第二文本的学校分数与第一文本的 学校分数之差的绝对值小于预设阈值,认为简历和职位更匹配,相似度为1,否则为0。需要注意的是,第一文本中没有要求的,则相似度 默认为0。例如,第一文本的学校分数是1,第二文本的学校也是1, 阈值是0.2,则第二文本的学校分数与第一文本的学校分数之差的绝 对值为0,小于预设阈值0.2,所以,此时对于高校这个属性来说,第二相似度为1。
对于学历,学历体系分为:博士、硕士、本科、专科、其他。如 果简历的学历分数与职位的要求学校分数之差的绝对值小于预设阈值, 认为简历和职位更匹配,相似度为1,否则为0。需要注意的是,第一 文本中没有要求的,则相似度默认为0。
对于专业,参考高校专业分类体系计算相似度。
第一级行业:数学、物理、化学、建筑、计算机、自动化、通信、 哲学、经济学、法学等。
第二级行业:以计算机为例:计算机科学与技术、软件工程、网 络工程、信息安全、人工智能等等,其他一级行业不再一一列出。
使用第二文本的专业名称和第一文本的要求专业名称,也可以结 合招聘公司所在行业,判断第一级行业分类,进行匹配,如果第一级 都不同,则相似度为0,如果第一级相同且第二级不同,相似度为0.5, 如果第一级第二级都相同,则相似度为1。
对于上述的几种知识图谱中的各个分类体系,是建议性的、示例 性的介绍,目的是说明本公开的构思,可以根据实际情况,优化、修 改成符合需要的分类体系,形成知识图谱,从而计算第二相似度,本 公开对此不作限制。
至此,可以根据计算得到第一文本和第二文本之间的多个短文本 的相似度。
通过步骤107,分别计算所述第一文本的自由文本与所述第二文 本的自由文本之间的相似度,得到第三相似度,其中,计算所述第三 相似度的方法包括,将所述第一文本的自由文本和第二文本的自由文 本通过预先训练好的基于主题的相似度模型,得到第三相似度。
图4示出了根据本公开实施例的典型的计算第三相似度的方法的 示意图。
具体的计算方法包括:
步骤401:按照现有的词典,对所述第一文本和第二文本中的词 语进行分词,包括断句、分词、去除停用词。
步骤402:对得到的分词词语,提取二阶表达和三阶表达,计算 每个二阶表达的互信息值和每个三阶表达的互信息值,并基于互信息 值,对所述二阶表达和所述三阶表达进行降序排列,选择排序靠前的 二阶表达和三阶表达对所述分词词语进行降序排列,选择排序靠前的 多个分词,得到第一分词结果。
一阶表达,也就是每个单词。二阶表达,例如,算法工程师,这 种接续方式,将算法与工程师连接起来。三阶表达:即将自然、语言、 处理连接起来,得到自然语言处理。
计算互信息值的公式如下示出:
Figure BDA0002678115120000111
互信息值体现了两个变量之间的相互依赖程度。二元互信息是指 两个事件相关性的量,互信息值越高,表明X和Y相关性越高,则X和Y组 成短语的可能性越大;反之,互信息值越低,X和Y之间相关性越低,则X 和Y之间存在短语边界的可能性越大。公式中的X和Y指的是两个相邻的 单词,P值是它的出现概率。
例如在一个文本中,“算法工程师”是算法与工程师连接形成的 二阶表达,一共出现了3次,而二阶表达一共有252个,所以上式的P(X,Y)=3/252。同理可以求出P(X)P(Y)。
步骤403:对第一分词结果中的多个词语,分别计算其左、右邻 字的信息熵,并基于所述信息熵,对符合第一阈值范围的词语进行合 并,对符合第二阈值范围的词语进行拆分,得到第二分词结果,将其 加入现有的词典,作为新词词典;第二阈值范围可以根据实际情况自 行设置。
计算一个词的左、右邻字的信息熵的目的是,用信息熵来衡量一 个文本片段的左邻字集合和右邻字集合有多随机,即利用信息熵,设 置合理的阈值,对在阈值范围的分词予以保留,说明这些词是固定词 组的可能性较大,否则,左、右邻字是随机在一起的可能性较大,可 以不予保留。
步骤404:按照新词词典对所述本地职位信息中的词语进行分词, 得到第二分词词语。
步骤405:使用TF-IDF方法,对第二分词词语进行过滤,保留符合 第三阈值范围的词语,得到第三分词词语;第三阈值范围可以根据实 际情况自行设置。
对第二分词词语进行过滤的原因是,尽管有了新词词典,分词还 是会分出一大堆乱七八糟的词。例如,H5 vue、前端、页面、五险一 金、团建、员工福利、成长、职责、技能、学习、优先、经验、了解。 前面4个词是关键词,后面十几个词价值太低了,应该删除。所以使用用TF-IDF方法,设置合理的第三阈值范围,可以过滤掉在职位描述中 的通用词,例如,优先,经验,精通,了解等。
步骤406:可以根据从多个招聘网站爬取的原始分类词语,统计其 出现在每一个第二文本的中的概率,保留符合第四阈值范围的词语, 得到第四分词词语。例如,从爬取的多个招聘网站中获得的职位信息 的原始分类词语有职责、技能、成长。经过统计发现这些词出现在第 二文本中的概率是99%,则删去这写词,因为这些词几乎出现在了所有 的简历和职位中,几乎没有信息含量。这样做进一步加强过滤了步骤 305遗漏的应该过滤的内容。
步骤407:将第四分词词语转化为词向量,对所述词向量进行聚类, 得到多个词簇,作为生成的主题。可以使用word2vec或其他方法将第 四分词词语转化为词向量,kmeans聚类方法或其他聚类方法将所述词 向量进行聚类。
步骤408:计算第一文本与生成的主题的第一相关向量。
步骤409:计算第二文本与生成的主题的第二相关向量。
其中,计算第一相关向量和第二相关向量的方法都是分别将第一 文本和第二文本通过基于主题的LDA机器学习模型进行计算。其中,训 练机器学习模型的数据可以由多个第二文本的第三分词词语与所述现 有的词典的交集得到,也可以由其他方法得到,本公开不做限制。
例如,对于前端工程师这个职位,在第一文本中,提取的第四分 词词语为:H5、html、css、vue、node、js、页面、美观。
聚类之后,生成的主题分别为主题1、主题2、主题3、主题4,则 通过基于主题的LDA机器学习模型,计算得到:
P(属于主题1)=0.1;
P(属于主题2)=0.3;
P(属于主题3)=0.2;
P(属于主题4)=0.8;
P为概率。
则第一相关向量为:v1=[0.1,0.3,0.2,0.8]。
同理,对于一个第二文本,计算得到第二相关向量,例如v2=[0.2, 0.3,0.2,0.7]。
步骤410:由于两个文本的匹配程度可以用向量的距离来表示,所 以通过计算第一相关向量与第二相关向量之间的余弦距离或欧几里德 距离或曼哈顿距离,可以反应职位与简历之间的匹配程度,得到第三 相似度。
通过步骤108,可以计算所述第一相似度、第二相似度以及第三 相似度的加权和。所述计算加权和的公式为:
Figure BDA0002678115120000131
其中,R代表简历,J代表招聘职位,Sim表示相似度, ∑i ci*Sim(ki,li)表示计算短文本的每一项之间的相似度,并加权求和, ∑j cj*Sim(mj,nj)表示计算数值文本的每一项之间的相似度,并加权求 和,λ*Sim(p,q)是计算自由文本之间的相似度,ki表示简历中的短文本 第i个属性,li表示职位中的短文本第i个属性,ci是短文本的加权系 数,mj表示简历中的数值文本第j个属性,nj表示职位中的数值文本 的第j个属性,cj是数值文本的加权系数,p是简历的自由文本,q是 职位的自由文本,λ是自由文本的加权系数。
步骤109中,将所述加权和按照降序排序,选取排序靠前的第二 文本作为推荐简历。
图5示出了根据本公开实施例的典型的处理文本信息的系统的示 意图。该系统500用于向招聘职位推荐简历,包括:
文本获取单元501,获取招聘职位的第一文本和多个简历的第二 文本;
第一文本解析单元502,用于解析所述第一文本,从所述第一文 本提取数值文本、短文本和自由文本,其中,所述第一文本的数值文 本至少包括工作时间、薪资范围,短文本至少包括工作地点、最低学 历、职位类别、职位名称,自由文本包括职位描述和职位要求;
第二文本解析单元503,用于解析多个所述第二文本,从每个第 二文本提取数值文本、短文本和自由文本,其中,所述第二文本的数 值文本包括至少工作时间、期望薪资,短文本至少包括期望工作地点、 期望职位类别、期望职位、学历、学校、专业,自由文本至少包括工 作经历、项目经历;
第一相似度计算单元504,用于计算所述第一文本的数值文本与 所述第二文本的数值文本之间的相似度,得到第一相似度,其中,计 算所述第一相似度的方法包括,分别将所述第一文本和第二文本的数 值文本中的数值映射到预设区间,如果两者属于同一区间,则相似度 为1,如果两者属于相邻区间,则相似度为0.5,其他情况,相似度为0;
第二相似度计算单元505,用于分别计算所述第一文本的短文本 与所述第二文本的短文本之间的相似度,得到第二相似度,其中,计 算所述第二相似度的方法包括,基于预先设定的知识图谱规则,为符 合规则的短文本之间的相似度赋予规则设定的值;
第三相似度计算单元506,用于分别计算所述第一文本的自由文 本与所述第二文本的自由文本之间的相似度,得到第三相似度,其中, 计算所述第三相似度的方法包括,将所述第一文本的自由文本和第二 文本的自由文本通过预先训练好的基于主题的相似度模型;
加权和单元507,用于计算所述第一相似度、第二相似度以及第 三相似度的加权和;
目标文本单元508,用于将所述加权和按照降序排序,选取排序靠 前的第二文本作为推荐简历。
图6示出了用于实现本公开的实施例的电子设备的结构示意图。 如图6所示,电子设备600包括中央处理单元(CPU)601,其可以根 据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到 随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。 在RAM 603中,还存储有电子设备600操作所需的各种程序和数据。 CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出 (I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606; 包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输 出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制 解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特 网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。 可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根 据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需 要被安装入存储部分608。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以 被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程 序产品,包括承载指令的在计算机可读介质,在这样的实施例中,该 指令可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介 质611被安装。在该指令被中央处理单元(CPU)601执行时,执行本 公开中描述的各个方法步骤。
尽管已经描述了示例实施例,但是对于本领域技术人员来说显而 易见的是,在不脱离本公开构思的精神和范围的情况下,可以进行各 种改变和修改。因此,应当理解,上述示例实施例不是限制性的,而 是说明性的。

Claims (10)

1.一种处理文本信息的方法,用于向招聘职位推荐简历,所述方法包括:
获取招聘职位的第一文本和多个简历的第二文本;
解析所述第一文本,从所述第一文本提取数值文本、短文本和自由文本,其中,所述第一文本的数值文本至少包括工作时间、薪资范围,短文本至少包括工作地点、最低学历、职位类别、职位名称,自由文本包括职位描述和职位要求;
解析多个所述第二文本,从每个第二文本提取数值文本、短文本和自由文本,其中,所述第二文本的数值文本包括至少工作时间、期望薪资,短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业,自由文本至少包括工作经历、项目经历;
计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度,得到第一相似度,其中,计算所述第一相似度的方法包括,分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间,如果两者属于同一区间,则相似度为1,如果两者属于相邻区间,则相似度为0.5,其他情况,相似度为0;
分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度,得到第二相似度,其中,计算所述第二相似度的方法包括,基于预先设定的知识图谱规则,为符合规则的短文本之间的相似度赋予规则设定的值;
分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度,得到第三相似度,其中,计算所述第三相似度的方法包括,将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型;
计算所述第一相似度、第二相似度以及第三相似度的加权和;以及
将所述加权和按照降序排序,选取排序靠前的第二文本作为推荐简历。
2.如权利要求1所述的方法,其中,所述知识图谱规则至少包括:学历知识、中国地理知识、工作性质知识、职位名称知识、高校知识、专业体系知识。
3.如权利要求1所述的方法,所述计算加权和的公式为:
Figure FDA0002678115110000021
其中,R代表简历,J代表招聘职位,Sim表示相似度,∑ici*Sim(ki,li)表示计算短文本的每一项之间的相似度,并加权求和,∑jcj*Sin(mj,nj)表示计算数值文本的每一项之间的相似度,并加权求和,λ*Sim(p,q)是计算自由文本之间的相似度,ki表示简历中的短文本第i个属性,li表示职位中的短文本第i个属性,ci是短文本的加权系数,mj表示简历中的数值文本第j个属性,nj表示职位中的数值文本的第j个属性,cj是数值文本的加权系数,p是简历的自由文本,q是职位的自由文本,λ是自由文本的加权系数。
4.如权利要求2所述的方法,所述高校知识包括:判断第二文本和第一文本的学校是否是985、211、一本、二本、其他大学、非大学,分别赋值为1、0.8、0.6、0.4、0.2、0,得到学校分数,如果第二文本的学校分数与第一文本的学校分数之差的绝对值小于预设阈值,则相似度为1,否则为0。
5.如权利要求2所述的方法,所述中国地理知识包括:将中国地理知识按照省、地级市、县划分为树形结构,分为三个层级,如果第一文本与第二文本的工作地点对应的第一层级不同,则相似度为0,如果第一层级相同且第二层级不同,则相似度为0.3,如果第一层级和第二层级相同,且第三级不同,则相似度为0.7,如果第一层级到第三层级全部相同,则相似度为1。
6.如权利要求1所述的方法,所述计算所述第三相似度的方法包括:
计算所述第一文本的自由文本与所述相似度模型的多个主题的第一相关向量;
计算所述第二文本的自由文本与所述相似度模型的多个主题的第二相关向量;
计算所述第一相关向量和所述第二相关向量的相似度,作为所述第三相似度。
7.如权利要求6所述的方法,所述计算所述第一相关向量和所述第二相关向量的相似度,作为所述第三相似度包括:
计算第一相关向量与第二相关向量之间的余弦距离。
8.一种处理文本信息的系统,用于向招聘职位推荐简历,包括:
文本获取单元,用于获取招聘职位的第一文本和多个简历的第二文本;
第一文本解析单元,用于解析所述第一文本,从所述第一文本提取数值文本、短文本和自由文本,其中,所述第一文本的数值文本至少包括工作时间、薪资范围,短文本至少包括工作地点、最低学历、职位类别、职位名称,自由文本包括职位描述和职位要求;
第二文本解析单元,用于解析多个所述第二文本,从每个第二文本提取数值文本、短文本和自由文本,其中,所述第二文本的数值文本包括至少工作时间、期望薪资,短文本至少包括期望工作地点、期望职位类别、期望职位、学历、学校、专业,自由文本至少包括工作经历、项目经历;
第一相似度计算单元,用于计算所述第一文本的数值文本与所述第二文本的数值文本之间的相似度,得到第一相似度,其中,计算所述第一相似度的方法包括,分别将所述第一文本和第二文本的数值文本中的数值映射到预设区间,如果两者属于同一区间,则相似度为1,如果两者属于相邻区间,则相似度为0.5,其他情况,相似度为0;
第二相似度计算单元,用于分别计算所述第一文本的短文本与所述第二文本的短文本之间的相似度,得到第二相似度,其中,计算所述第二相似度的方法包括,基于预先设定的知识图谱规则,为符合规则的短文本之间的相似度赋予规则设定的值;
第三相似度计算单元,用于分别计算所述第一文本的自由文本与所述第二文本的自由文本之间的相似度,得到第三相似度,其中,计算所述第三相似度的方法包括,将所述第一文本的自由文本和第二文本的自由文本通过预先训练好的基于主题的相似度模型;
加权和单元,用于计算所述第一相似度、第二相似度以及第三相似度的加权和;
目标文本单元,用于将所述加权和按照降序排序,选取排序靠前的第二文本作为推荐简历。
9.一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7任一项所述方法。
10.一种计算机可读存储介质,其上存储有可执行指令,所述可执行指令被处理器执行时使处理器执行如权利要求1至7任一项所述方法。
CN202010954398.8A 2020-09-11 2020-09-11 一种简历文本相似度匹配方法和系统 Active CN112100999B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010954398.8A CN112100999B (zh) 2020-09-11 2020-09-11 一种简历文本相似度匹配方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010954398.8A CN112100999B (zh) 2020-09-11 2020-09-11 一种简历文本相似度匹配方法和系统

Publications (2)

Publication Number Publication Date
CN112100999A true CN112100999A (zh) 2020-12-18
CN112100999B CN112100999B (zh) 2023-02-03

Family

ID=73751529

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010954398.8A Active CN112100999B (zh) 2020-09-11 2020-09-11 一种简历文本相似度匹配方法和系统

Country Status (1)

Country Link
CN (1) CN112100999B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113570348A (zh) * 2021-09-26 2021-10-29 山东光辉人力资源科技有限公司 一种简历筛选方法
CN113590820A (zh) * 2021-07-16 2021-11-02 杭州网易智企科技有限公司 一种文本处理方法、装置、介质和电子设备
CN113807827A (zh) * 2021-10-19 2021-12-17 山东云享天空科技服务有限公司 一种基于大数据的人力资源匹配算法
CN113837613A (zh) * 2021-09-26 2021-12-24 河北冀联人力资源服务集团有限公司 一种任务匹配方法、系统、电子设备及可读存储介质
CN115422909A (zh) * 2022-08-25 2022-12-02 杭州有才信息技术有限公司 一种背景调查方法、装置、电子设备及存储介质
CN115934899A (zh) * 2023-02-28 2023-04-07 天津徙木科技有限公司 一种it行业简历推荐方法、装置、电子设备及储存介质
CN118037250A (zh) * 2024-04-11 2024-05-14 成都鱼泡科技有限公司 应用文字信息化系统的数据挖掘方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729532A (zh) * 2017-10-30 2018-02-23 北京拉勾科技有限公司 一种简历匹配方法及计算设备
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729532A (zh) * 2017-10-30 2018-02-23 北京拉勾科技有限公司 一种简历匹配方法及计算设备
CN108920544A (zh) * 2018-06-13 2018-11-30 桂林电子科技大学 一种基于知识图谱的个性化职位推荐方法
CN111539197A (zh) * 2020-04-15 2020-08-14 北京百度网讯科技有限公司 文本匹配方法和装置以及计算机系统和可读存储介质

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113590820A (zh) * 2021-07-16 2021-11-02 杭州网易智企科技有限公司 一种文本处理方法、装置、介质和电子设备
CN113570348A (zh) * 2021-09-26 2021-10-29 山东光辉人力资源科技有限公司 一种简历筛选方法
CN113837613A (zh) * 2021-09-26 2021-12-24 河北冀联人力资源服务集团有限公司 一种任务匹配方法、系统、电子设备及可读存储介质
CN113807827A (zh) * 2021-10-19 2021-12-17 山东云享天空科技服务有限公司 一种基于大数据的人力资源匹配算法
CN115422909A (zh) * 2022-08-25 2022-12-02 杭州有才信息技术有限公司 一种背景调查方法、装置、电子设备及存储介质
CN115934899A (zh) * 2023-02-28 2023-04-07 天津徙木科技有限公司 一种it行业简历推荐方法、装置、电子设备及储存介质
CN118037250A (zh) * 2024-04-11 2024-05-14 成都鱼泡科技有限公司 应用文字信息化系统的数据挖掘方法及系统

Also Published As

Publication number Publication date
CN112100999B (zh) 2023-02-03

Similar Documents

Publication Publication Date Title
CN112100999B (zh) 一种简历文本相似度匹配方法和系统
Deepak et al. A novel firefly driven scheme for resume parsing and matching based on entity linking paradigm
CN109960786A (zh) 基于融合策略的中文词语相似度计算方法
CN107644062B (zh) 一种基于知识图谱的知识内容权重分析系统及方法
US20130036076A1 (en) Method for keyword extraction
Artama et al. Classification of official letters using TF-IDF method
CN115757819A (zh) 裁判文书中引用法条信息获取方法及装置
Liu et al. A new approach to process the unknown words in financial public opinion
Kundana Data Driven Analysis of Borobudur Ticket Sentiment Using Naïve Bayes.
Al Mostakim et al. Bangla content categorization using text based supervised learning methods
CN111178080A (zh) 一种基于结构化信息的命名实体识别方法及系统
Skondras et al. Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT
Schirmer et al. A new dataset for topic-based paragraph classification in genocide-related court transcripts
Tapsai et al. Natural language interface to database for data retrieval and processing
Sandanayake et al. Automated CV analyzing and ranking tool to select candidates for job positions
Anggara et al. Analysis of Netizen Comments Sentiment on Public Official Statements on Instagram Social Media Accounts
Kanev et al. Hybrid intelligent system of crisis assessment using natural language processing and Metagraph Knowledge Base
CN115238093A (zh) 一种模型训练的方法、装置、电子设备及存储介质
CN115688785A (zh) 一种融合多源知识的航空装备型号命名实体识别方法
Chen et al. Research on Data Analysis and Visualization of Recruitment Positions Based on Text Mining
Handayani et al. Sentiment Analysis Of Electric Cars Using Recurrent Neural Network Method In Indonesian Tweets
Trinh et al. Automatic process resume in talent pool by applying natural language processing
CN110688453A (zh) 基于资讯分类的场景应用方法、系统、介质及设备
CN117236648B (zh) 人才招聘与匹配的智能化系统
Bali et al. Modeling the Geospatial Trend Changes in Jobs and Layoffs by Performing Sentiment Analysis on Twitter Data.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant