CN111125343A - 适用于人岗匹配推荐系统的文本解析方法及装置 - Google Patents

适用于人岗匹配推荐系统的文本解析方法及装置 Download PDF

Info

Publication number
CN111125343A
CN111125343A CN201911303927.1A CN201911303927A CN111125343A CN 111125343 A CN111125343 A CN 111125343A CN 201911303927 A CN201911303927 A CN 201911303927A CN 111125343 A CN111125343 A CN 111125343A
Authority
CN
China
Prior art keywords
information
job
label
text information
resume
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911303927.1A
Other languages
English (en)
Other versions
CN111125343B (zh
Inventor
吴佳俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leaguer Network Technology Shanghai Co Ltd
Original Assignee
Leaguer Network Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leaguer Network Technology Shanghai Co Ltd filed Critical Leaguer Network Technology Shanghai Co Ltd
Priority to CN201911303927.1A priority Critical patent/CN111125343B/zh
Publication of CN111125343A publication Critical patent/CN111125343A/zh
Application granted granted Critical
Publication of CN111125343B publication Critical patent/CN111125343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/105Human resources
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Strategic Management (AREA)
  • Computational Linguistics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种适用于人岗匹配推荐系统的文本解析方法及装置,其中方法包括如下步骤:获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,职位文本信息为针对待招聘职位的相关信息,简历文本信息为求职人员的简历;针对职位文本信息和简历文本信息设置多个信息标签,信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;采用与每种标签信息相匹配的标签生成方法生成标签信息。采用本发明,通过对简历和职位添加更加精细的标签,可以提高对简历和职位解析的精细度,进而提高人岗匹配的匹配度。

Description

适用于人岗匹配推荐系统的文本解析方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种适用于人岗匹配推荐系统的文本解析方法及装置。
背景技术
传统的招聘服务领域是一个招聘顾问通过职位信息寻找合适的候选人并把候选人推荐给企业,候选人通过企业的简历筛选和面试考核后入职,企业回款给招聘顾问的商业过程。目前在顾问匹配职位和简历的过程中存在一定的问题:比如如何通过职位信息快速找到合适的候选人,特别是对于刚入行的招聘顾问,面对一个陌生的领域,需要较长的时间掌握相关经验,导致人岗匹配时效率较低,且匹配度不高,而人岗匹配度不高将直接影响用人单位对猎头顾问推荐候选人的信任度。
随着计算机技术的不断成熟,已经可以在计算机上实现候选人简历的自动化推荐,但在推荐算法的实现过程中涉及较多的数据处理与分析过程,其中对职位和简历文本解析的精细度作为最基本的数据处理过程直接影响了人岗匹配的匹配度。
发明内容
本发明实施例提供一种适用于人岗匹配推荐系统的文本解析方法及装置,可以提高对简历和职位解析的精细度,进而提高人岗匹配的匹配度。
本发明实施例第一方面提供了一种适用于人岗匹配推荐系统的文本解析方法,可包括:
获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,职位文本信息为针对待招聘职位的相关信息,简历文本信息为求职人员的简历;
针对职位文本信息和简历文本信息设置多个信息标签,信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;
采用与每种标签信息相匹配的标签生成方法生成标签信息。
本发明实施例第二方面提供了一种适用于人岗匹配推荐系统的文本解析装置,可包括:
信息获取模块,用于获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,职位文本信息为针对待招聘职位的相关信息,简历文本信息为求职人员的简历;
标签设置模块,用于针对职位文本信息和简历文本信息设置多个信息标签,信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;
标签信息生成模块,用于采用与每种标签信息相匹配的标签生成方法生成标签信息。
本发明实施例第三方面提供了一种计算机设备,该设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述方面所述的适用于人岗匹配推荐系统的文本解析方法。
本发明实施例第四方面提供了一种计算机存储介质,该计算机存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述方面所述的适用于人岗匹配推荐系统的文本解析方法。
在本发明实施例中,对需要人岗匹配的简历文本信息和职位文本信息进行多标签的标定,其中的标签至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历。通过对简历和职位添加更加精细的标签,提高了对简历和职位解析的精细度,进而提高了人岗匹配的匹配度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种适用于人岗匹配推荐系统的文本解析方法的流程示意图;
图2是本发明实施例提供的职位职能分类的流程示意图;
图3是本发明实施例提供的高频关键词提取的流程示意图;
图4是本发明实施例提供的技能关键词提取的流程示意图;
图5是本发明实施例提供的行业标签细分的流程示意图;
图6是本发明实施例提供的所需工作年限识别的流程示意图;
图7是本发明实施例提供的所需学历识别的流程示意图;
图8是本发明实施例提供的薪资预测的流程示意图;
图9是本发明实施例提供的一种适用于人岗匹配推荐系统的文本解析装置的结构示意图;
图10是本发明实施例提供的标签信息生成模块的结构示意图;
图11是本发明实施例提供的分类模型训练单元的结构示意图;
图12是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含,术语“第一”和“第二”仅是为了区别命名,并不代表数字的大小或者排序。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。
需要说明的是,本申请提供的适用于人岗匹配推荐系统的文本解析方法可以应用于猎头顾问根据企业的招聘职位筛选合适的候选人并推荐给企业的应用场景中。
本发明实施例中,适用于人岗匹配推荐系统的文本解析方法可以应用于计算机设备中,该计算机设备可以是电脑或者智能手机,也可以是其它具备计算处理能力的电子设备。
如图1所示,适用于人岗匹配推荐系统的文本解析方法至少可以包括以下几个步骤:
S101,获取用人单位录入的职位文本信息和求职人员录入的简历文本信息。
可以理解的是,上述职位文本信息可以是用人单位(即需要招聘员工的企业)在本申请的匹配系统或者其他招聘网站上录入的针对待招聘职位的相关信息,如,可以包括招聘的岗位名称、招聘要求、基本信息(如学历、年龄、工作地点、薪资条件等)。上述简历文本信息可以是求职人员在本系统或者其他招聘网站上传的简历,可以包括求职的职位名称、工作经历、具备的技能以及基本信息等。可选的,上述职位文本信息和简历文本信息也可以是招聘顾问即猎头手动输入系统或者从其他网站链接至本系统的。
S102,针对职位文本信息和简历文本信息设置多个信息标签。
在一种优选的实现方式中,装置至少可以设置职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历等信息标签。
S103,采用与每种标签信息相匹配的标签生成方法生成标签信息。
具体实现中,装置需要根据信息标签的不同采用不同的方法为文本信息添加标签信息,例如:
1)针对职位文本信息和简历文本信息中的职位职能分类的过程可以如图2所示:包括分别提取文本中的职位名后再进行职位职能分类,然后将分类结果存入数据库。
具体实现中,系统可以通过三个步骤进行职位职能分类:预先训练职位职能分类模型;获取职位文本信息和简历文本信息中的职位名称信息;将所获取的职位名称信息放入上述分类模型做匹配,输出分类结果。其中,在进行分类模型训练的过程中可以利用系统中的职位文本信息资源,结合TFIDF算法、低频词过滤、bi-gram互信息计算和人工整合整理3层职位分类体系(1级52个分类标识,2级800个分类标识,3级4000+个分类标识),再利用整理的分类标识建立一个3级对应2级的tier树(如,3级标识java研发和java后台开发都属于2级标识java开发,这里的tier树关系就是{j->a->v->a->研->发->java开发}和{j->a->v->a->后->台->开->发->java开发),然后将建立的关系存储到tier树结构中。进一步的,在将所获取的职位名称信息放入上述分类模型做匹配,输出分类结果时,系统可以从存在的字符开始比较,并在结束的部分用贪心算法输出结果,比如职位名“资深java后端开发”,因为词“资”,“深”不存在tier树的起始查找列表中,所以会跳过,从j开始{j->a->v->a->后},到词”后”停止,结束词位于{j->a->v->a->后->台->开->发->java开发}中,所以输出匹配分类结果为java开发,把结果存入数据库。
2)针对高频关键词的提取过程可以如图3所示:包括提取简历文本信息中的工作经验和项目经验,提取职位文本信息中的职位描述和职位要求;根据上述提取的数据进行高频关键词提取,然后将关键词提取的结果放入数据库中。
具体实现中,系统可以通过三个步骤进行高频关键词提取:对职位文本信息和简历文本信息进行分词处理,分别获取职位文本信息中的职位描述和职位要求,并获取简历文本信息中的工作经验和项目经验;然后对上述分词结果通过词频、词性、语义相关性几个特征综合判断单个单词的关键程度;最后将每个单词的得分从高到低排序后存入数据库。需要说明的是,每个单词的得分反映了该词的关键程度,优选的,评分时词频、词性、语义相关性的评分占比可以分别是40%、10%和50%。其中,可以采用TFIDF算法代替传统的词频。可以理解的是,通过词性判断单词重要性是一种比较常用的方法,能够很好的处理部分情况,例如可以把虚词、数量词等没有实际意义的词得分给的很低,把用户自定义词、英文单词等得分给的很高。需要说明的是,语义相关性是指这个单词与整段文本中其他单词的整体相关性。
3)针对技能关键词的提取过程可以如图4所示:包括预训练技能关键词提取模型;分别获取职位文本信息中的职位描述和职位要求,并获取简历文本信息中的工作经验和项目经验;将上述获取的数据放入关键词提取模型中计算并输出结果至数据库。
4)针对细分行业标签的细分过程可以如图5所示:包括预训练细分行业标签体系;通过分析职位所属公司和简历工作经历所在公司,获取公司相关信息(如,公司描述和公司主营);将上述公司相关信息放入细分行业标签体系中计算出以及细分行业和二级细分行业分类标签,存入数据库。
5)针对职位所需工作年限的识别过程可以如图6所示:包括提取职位文本信息中的职位要求,进而识别该职位需要的工作年限。优选的,系统可以对职位需要的最小工作年限和最大工作年限用正则匹配公式做提取,比如需要三年以上工作经验会提取成最小工作年限3,最大工作年限99。
6)针对职位所需学历的识别过程可以如图7所示:包括提取职位文本信息中的职位要求,进而识别该职位需要的学历。优选的,系统可以对职位需要的最低学历用正则匹配公式进行识别,比如本科以上学历会提取成最小学历本科。
7)针对薪资预测的预测过程可以如图8所示:包括预训练薪资预测模型;判断简历文本信息中是否填写有薪资要求,若填写了则直接存入数据库,若未填写则从数据库中获取此简历的标签信息和基本信息;基于上述薪资预测模型计算所获取的标签信息和基本信息对应的预测薪资,并存入数据库。
需要说明的是,在训练薪资预测模型时,可以利用系统中的文本解析算法将简历解析成标签信息,然后加上数据库已存的此简历的基本信息(如,工作城市、年龄等),再结合xgboost算法建立薪资分级模型,进一步的,采用岭回归算法在分级模型基础上建立薪资预测的算法模型。在基于上述薪资预测模型计算所获取的标签信息和基本信息对应的预测薪资时,可以将上述信息通过薪资分级模型去判断是否是高薪/中薪,然后调用相应的薪资预测模型去计算预测薪资。
在本发明实施例中,对需要人岗匹配的简历文本信息和职位文本信息进行多标签的标定,其中的标签至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历。通过对简历和职位添加更加精细的标签,提高了对简历和职位解析的精细度,进而提高了人岗匹配的匹配度。
下面将结合附图9,对本发明实施例提供的适用于人岗匹配推荐系统的文本解析装置进行详细介绍。需要说明的是,附图9所示的文本解析装置,用于执行本发明图1-图8所示实施例的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明图1-图8所示的实施例。
请参见图9,为本发明实施例提供了一种适用于人岗匹配推荐系统的文本解析装置的结构示意图。如图9所示,本发明实施例的文本解析装置1可以包括:信息获取模块11、标签设置模块12、标签信息生成模块13。其中,标签信息生成模块13如图10所示,包括分类模型训练单元131、职位名称提取单元132、职位职能分类单元133、文本提取处理单元134、分词处理单元135、关键度判断单元136、提取模型训练单元137、技能计算单元138、体系训练单元139、相关信息获取单元140、细分标签计算单元141、需求信息计算单元142、预测模型建立单元143、薪资信息判断单元144、薪资入库单元145、目标信息获取单元146和薪资预测单元147。分类模型训练单元131如图11所示,包括分类体系整理子单元1311、Tier树建立子单元1312和关系存储子单元1313。
信息获取模块11,用于获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,职位文本信息为针对待招聘职位的相关信息,简历文本信息为求职人员的简历。
标签设置模块12,用于针对职位文本信息和简历文本信息设置多个信息标签,信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历。
标签信息生成模块13,用于采用与每种标签信息相匹配的标签生成方法生成标签信息。
在一种实现方式中,分类模型训练单元131,用于基于系统中所有的职位文本信息预训练职位职能分类模型。
职位名称提取单元132,用于提取职位文本信息和简历文本信息中的职位名称信息。
职位职能分类单元133,用于将职位名称信息放入职位职能分类模型做匹配,输出分类结果。
优选的,分类模型训练单元131包括:
分类体系整理子单1311,用于基于系统中所有的职位文本信息,结合TFIDF算法、低频词过滤、bi-gram互信息计算和人工整合整理3层职位分类体系。
Tier树建立子单元1312,用于利用3层职位分类体系的分类标识建立一个3级对应2级的tier树。
关系存储子单元1313,用于将建立的tier树关系存储到tier树结构中。
在一种实现方式中,文本提取处理单元134,用于提取简历文本信息中的工作经验和项目经验,并提取职位文本信息中的职位描述和职位要求。
分词处理单元135,用于对工作经验、项目经验、职位描述和职位要求进行分词处理。
关键度判断单元136,用于对分词处理的分词结果进行词频、词性、语义相关性的特征综合判断单个单词的关键程度。
在一种实现方式中,提取模型训练单元137,用于基于系统中所有的简历文本信息预训练技能关键词提取模型;
技能计算单元138,用于将工作经验、项目经验、职位描述和职位要求放入关键词提取模型中计算,并输出结果至数据库。
在一种实现方式中,体系训练单元139,用于基于系统中所有的简历文本信息和职位文本信息预训练细分行业标签体系。
相关信息获取单元140,用于分析职位文本信息中职位所属公司和简历文本信息中简历工作经历所在公司,获取公司相关信息。
细分标签计算单元141,用于将公司相关信息放入细分行业标签体系中计算出一级细分行业和二级细分行业分类标签。
在一种实现方式中,需求信息计算单元142,用于采用正则匹配公式对职位文本信息中对职位所需的最小工作年限、最大工作年限或者职位所需的最低学历进行提取。
在一种实现方式中,预测模型建立单元143,用于基于系统中所有的简历文本信息对应的有效标签信息和所有简历文本信息中的基本信息建立薪资预测模型。
薪资信息判断单元144,用于判断简历文本信息中是否包含描述薪资的薪资信息。
薪资入库单元145,用于若包含则将薪资信息存入数据库中。
目标信息获取单元146,用于若不包含则从数据库中获取简历文本信息的目标标签信息和目标基本信息,目标标签信息和目标基本信息与生成薪资预测模型的标签信息和基本信息相似。
薪资预测单元147,用于基于薪资预测模型判断和目标标签信息、目标基本信息预测简历文本信息对应的预测薪资。
需要说明的是,本实施例中各模块和单元的执行过程可以参见上述方法实施例中的描述,此处不再赘述。
在本发明实施例中,对需要人岗匹配的简历文本信息和职位文本信息进行多标签的标定,其中的标签至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历。通过对简历和职位添加更加精细的标签,提高了对简历和职位解析的精细度,进而提高了人岗匹配的匹配度。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质可以存储有多条指令,所述指令适于由处理器加载并执行如上述图1-图11所示实施例的方法步骤,具体执行过程可以参见图1-图11所示实施例的具体说明,在此不进行赘述。
本申请实施例还提供了一种计算机设备。如图12所示,计算机设备20可以包括:至少一个处理器201,例如CPU,至少一个网络接口204,用户接口203,存储器205,至少一个通信总线202,可选地,还可以包括显示屏206。其中,通信总线202用于实现这些组件之间的连接通信。其中,用户接口203可以包括触摸屏、键盘或鼠标等等。网络接口204可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通过网络接口204可以与服务器建立通信连接。存储器205可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器,存储器205包括本发明实施例中的flash。存储器205可选的还可以是至少一个位于远离前述处理器201的存储系统。如图12所示,作为一种计算机存储介质的存储器205中可以包括操作系统、网络通信模块、用户接口模块以及程序指令。
需要说明的是,网络接口204可以连接接收器、发射器或其他通信模块,其他通信模块可以包括但不限于WiFi模块、蓝牙模块等,可以理解,本发明实施例中计算机设备也可以包括接收器、发射器和其他通信模块等。
处理器201可以用于调用存储器205中存储的程序指令,并使计算机设备20执行以下操作:
获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,职位文本信息为针对待招聘职位的相关信息,简历文本信息为求职人员的简历;
针对职位文本信息和简历文本信息设置多个信息标签,信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;
采用与每种标签信息相匹配的标签生成方法生成标签信息。
在一些实施例中,设备20还用于:
基于系统中所有的职位文本信息预训练职位职能分类模型;
提取职位文本信息和简历文本信息中的职位名称信息;
将职位名称信息放入职位职能分类模型做匹配,输出分类结果。
在一些实施例中,设备20还用于:
基于系统中所有的职位文本信息,结合TFIDF算法、低频词过滤、bi-gram互信息计算和人工整合整理3层职位分类体系;
利用3层职位分类体系的分类标识建立一个3级对应2级的tier树;
将建立的tier树关系存储到tier树结构中。
在一些实施例中,设备20还用于:
提取简历文本信息中的工作经验和项目经验,并提取职位文本信息中的职位描述和职位要求;
对工作经验、项目经验、职位描述和职位要求进行分词处理;
对分词处理的分词结果进行词频、词性、语义相关性的特征综合判断单个单词的关键程度。
在一些实施例中,设备20还用于:
基于系统中所有的简历文本信息预训练技能关键词提取模型;
将工作经验、项目经验、职位描述和职位要求放入关键词提取模型中计算,并输出结果至数据库。
在一些实施例中,设备20还用于:
基于系统中所有的简历文本信息和职位文本信息预训练细分行业标签体系;
分析职位文本信息中职位所属公司和简历文本信息中简历工作经历所在公司,获取公司相关信息;
将公司相关信息放入细分行业标签体系中计算出一级细分行业和二级细分行业分类标签。
在一些实施例中,设备20还用于:
采用正则匹配公式对职位文本信息中对职位所需的最小工作年限、最大工作年限或者职位所需的最低学历进行提取。
在一些实施例中,设备20还用于:
基于系统中所有的简历文本信息对应的有效标签信息和所有简历文本信息中的基本信息建立薪资预测模型;
判断简历文本信息中是否包含描述薪资的薪资信息;
若包含则将薪资信息存入数据库中;
若不包含则从数据库中获取简历文本信息的目标标签信息和目标基本信息,目标标签信息和目标基本信息与生成薪资预测模型的标签信息和基本信息相似;
基于薪资预测模型判断和目标标签信息、目标基本信息预测简历文本信息对应的预测薪资。
在本发明实施例中,对需要人岗匹配的简历文本信息和职位文本信息进行多标签的标定,其中的标签至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历。通过对简历和职位添加更加精细的标签,提高了对简历和职位解析的精细度,进而提高了人岗匹配的匹配度。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种适用于人岗匹配推荐系统的文本解析方法,其特征在于,包括:
获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,所述职位文本信息为针对待招聘职位的相关信息,所述简历文本信息为所述求职人员的简历;
针对所述职位文本信息和所述简历文本信息设置多个信息标签,所述信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;
采用与每种标签信息相匹配的标签生成方法生成标签信息。
2.根据权利要求1所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
基于系统中所有的职位文本信息预训练职位职能分类模型;
提取所述职位文本信息和所述简历文本信息中的职位名称信息;
将所述职位名称信息放入所述职位职能分类模型做匹配,输出分类结果。
3.根据权利要求2所述的方法,其特征在于,所述基于系统中所有的职位文本信息预训练职位职能分类模型,包括:
基于系统中所有的职位文本信息,结合TFIDF算法、低频词过滤、bi-gram互信息计算和人工整合整理3层职位分类体系;
利用所述3层职位分类体系的分类标识建立一个3级对应2级的tier树;
将建立的tier树关系存储到tier树结构中。
4.根据权利要求1所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
提取所述简历文本信息中的工作经验和项目经验,并提取所述职位文本信息中的职位描述和职位要求;
对所述工作经验、所述项目经验、所述职位描述和所述职位要求进行分词处理;
对所述分词处理的分词结果进行词频、词性、语义相关性的特征综合判断单个单词的关键程度。
5.根据权利要求4所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
基于系统中所有的简历文本信息预训练技能关键词提取模型;
将所述工作经验、所述项目经验、所述职位描述和所述职位要求放入所述关键词提取模型中计算,并输出结果至数据库。
6.根据权利要求1所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
基于系统中所有的简历文本信息和职位文本信息预训练细分行业标签体系;
分析所述职位文本信息中职位所属公司和所述简历文本信息中简历工作经历所在公司,获取公司相关信息;
将所述公司相关信息放入所述细分行业标签体系中计算出一级细分行业和二级细分行业分类标签。
7.根据权利要求1所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
采用正则匹配公式对所述职位文本信息中对职位所需的最小工作年限、最大工作年限或者所述职位所需的最低学历进行提取。
8.根据权利要求1所述的方法,其特征在于,所述采用与每种标签信息相匹配的标签生成方法生成标签信息,包括:
基于系统中所有的简历文本信息对应的有效标签信息和所有简历文本信息中的基本信息建立薪资预测模型;
判断所述简历文本信息中是否包含描述薪资的薪资信息;
若包含则将所述薪资信息存入数据库中;
若不包含则从所述数据库中获取所述简历文本信息的目标标签信息和目标基本信息,所述目标标签信息和所述目标基本信息与生成所述薪资预测模型的标签信息和基本信息相似;
基于所述薪资预测模型判断和所述目标标签信息、所述目标基本信息预测所述简历文本信息对应的预测薪资。
9.一种适用于人岗匹配推荐系统的文本解析装置,其特征在于,包括:
信息获取模块,用于获取用人单位录入的职位文本信息和求职人员录入的简历文本信息,所述职位文本信息为针对待招聘职位的相关信息,所述简历文本信息为所述求职人员的简历;
标签设置模块,用于针对所述职位文本信息和所述简历文本信息设置多个信息标签,所述信息标签对应的标签信息至少包括职位职能分类、高频关键词、技能关键词、细分行业、薪资预测、职位所需工作年限、职位所需学历;
标签信息生成模块,用于采用与每种标签信息相匹配的标签生成方法生成标签信息。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一项所述的适用于人岗匹配推荐系统的文本解析方法。
CN201911303927.1A 2019-12-17 2019-12-17 适用于人岗匹配推荐系统的文本解析方法及装置 Active CN111125343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911303927.1A CN111125343B (zh) 2019-12-17 2019-12-17 适用于人岗匹配推荐系统的文本解析方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911303927.1A CN111125343B (zh) 2019-12-17 2019-12-17 适用于人岗匹配推荐系统的文本解析方法及装置

Publications (2)

Publication Number Publication Date
CN111125343A true CN111125343A (zh) 2020-05-08
CN111125343B CN111125343B (zh) 2023-05-23

Family

ID=70498243

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911303927.1A Active CN111125343B (zh) 2019-12-17 2019-12-17 适用于人岗匹配推荐系统的文本解析方法及装置

Country Status (1)

Country Link
CN (1) CN111125343B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111798217A (zh) * 2020-07-10 2020-10-20 河北冀联人力资源服务集团有限公司 数据分析系统及方法
CN111815258A (zh) * 2020-06-01 2020-10-23 五八到家有限公司 人力资源匹配方法、装置、设备和存储介质
CN112232773A (zh) * 2020-10-19 2021-01-15 北京人人众包科技有限公司 软件推荐方法及系统
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及系统
CN112990887A (zh) * 2021-05-07 2021-06-18 北京车智赢科技有限公司 一种简历和岗位匹配的方法及计算设备
CN113570348A (zh) * 2021-09-26 2021-10-29 山东光辉人力资源科技有限公司 一种简历筛选方法
CN113657496A (zh) * 2021-08-17 2021-11-16 深圳平安智汇企业信息管理有限公司 基于相似度匹配模型的信息匹配方法、装置、设备及介质
CN113722368A (zh) * 2020-05-22 2021-11-30 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、设备及存储介质
CN113780669A (zh) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 一种薪资的预测方法及装置、可读存储介质
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质
CN114861075A (zh) * 2022-07-11 2022-08-05 威海海洋职业学院 一种校园社团推荐方法及系统
CN115049372A (zh) * 2022-08-15 2022-09-13 山东心法科技有限公司 针对人力资源信息的数字基础设施构建方法、设备及介质
CN116596496A (zh) * 2023-07-18 2023-08-15 金现代信息产业股份有限公司 一种基于标签化的人岗匹配方法、系统、介质及设备
CN111798217B (zh) * 2020-07-10 2024-06-28 河北冀联人力资源服务集团有限公司 数据分析系统及方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020095289A1 (en) * 2000-12-04 2002-07-18 Min Chu Method and apparatus for identifying prosodic word boundaries
CN101689189A (zh) * 2007-06-18 2010-03-31 微软公司 各种领域中的使用部分选择的文本预测
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN105160498A (zh) * 2015-10-21 2015-12-16 北京普猎创新网络科技有限公司 一种基于大数据的人员价值计算方法
CN107590133A (zh) * 2017-10-24 2018-01-16 武汉理工大学 基于语义的招聘职位与求职简历匹配的方法及系统
CN110543996A (zh) * 2018-05-28 2019-12-06 百度在线网络技术(北京)有限公司 一种职位薪资评估方法、装置、服务器和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020095289A1 (en) * 2000-12-04 2002-07-18 Min Chu Method and apparatus for identifying prosodic word boundaries
CN101689189A (zh) * 2007-06-18 2010-03-31 微软公司 各种领域中的使用部分选择的文本预测
CN102129427A (zh) * 2010-01-13 2011-07-20 腾讯科技(深圳)有限公司 一种词关系挖掘方法和装置
CN105160498A (zh) * 2015-10-21 2015-12-16 北京普猎创新网络科技有限公司 一种基于大数据的人员价值计算方法
CN107590133A (zh) * 2017-10-24 2018-01-16 武汉理工大学 基于语义的招聘职位与求职简历匹配的方法及系统
CN110543996A (zh) * 2018-05-28 2019-12-06 百度在线网络技术(北京)有限公司 一种职位薪资评估方法、装置、服务器和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周伟;左右飞;: "基于Bootstrap的校园招聘网站的设计与实现", 信息技术 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113722368A (zh) * 2020-05-22 2021-11-30 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、设备及存储介质
CN113722368B (zh) * 2020-05-22 2024-04-30 百度在线网络技术(北京)有限公司 一种数据处理方法、装置、设备及存储介质
CN111815258A (zh) * 2020-06-01 2020-10-23 五八到家有限公司 人力资源匹配方法、装置、设备和存储介质
CN111798217B (zh) * 2020-07-10 2024-06-28 河北冀联人力资源服务集团有限公司 数据分析系统及方法
CN111798217A (zh) * 2020-07-10 2020-10-20 河北冀联人力资源服务集团有限公司 数据分析系统及方法
CN112232773A (zh) * 2020-10-19 2021-01-15 北京人人众包科技有限公司 软件推荐方法及系统
CN112613839A (zh) * 2020-12-25 2021-04-06 大连工业大学 一种公共就业指导方法及系统
CN112990887A (zh) * 2021-05-07 2021-06-18 北京车智赢科技有限公司 一种简历和岗位匹配的方法及计算设备
CN113657496B (zh) * 2021-08-17 2023-08-18 深圳平安智汇企业信息管理有限公司 基于相似度匹配模型的信息匹配方法、装置、设备及介质
CN113657496A (zh) * 2021-08-17 2021-11-16 深圳平安智汇企业信息管理有限公司 基于相似度匹配模型的信息匹配方法、装置、设备及介质
CN113780669A (zh) * 2021-09-15 2021-12-10 湖北天天数链技术有限公司 一种薪资的预测方法及装置、可读存储介质
CN113570348A (zh) * 2021-09-26 2021-10-29 山东光辉人力资源科技有限公司 一种简历筛选方法
CN114218963A (zh) * 2022-02-22 2022-03-22 子长科技(北京)有限公司 文本信息处理方法、装置、电子设备及介质
CN114861075A (zh) * 2022-07-11 2022-08-05 威海海洋职业学院 一种校园社团推荐方法及系统
CN115049372A (zh) * 2022-08-15 2022-09-13 山东心法科技有限公司 针对人力资源信息的数字基础设施构建方法、设备及介质
CN115049372B (zh) * 2022-08-15 2022-12-02 山东心法科技有限公司 针对人力资源信息的数字基础设施构建方法、设备及介质
CN116596496A (zh) * 2023-07-18 2023-08-15 金现代信息产业股份有限公司 一种基于标签化的人岗匹配方法、系统、介质及设备

Also Published As

Publication number Publication date
CN111125343B (zh) 2023-05-23

Similar Documents

Publication Publication Date Title
CN111125343B (zh) 适用于人岗匹配推荐系统的文本解析方法及装置
CN111144723A (zh) 人岗匹配推荐方法及系统、存储介质
US9646077B2 (en) Time-series analysis based on world event derived from unstructured content
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN110020422B (zh) 特征词的确定方法、装置和服务器
US9720912B2 (en) Document management system, document management method, and document management program
CN111552870A (zh) 对象推荐方法、电子装置及存储介质
JP2019502979A (ja) 構造化されたマルチフィールドファイルのレイアウトの自動解釈
US20090148048A1 (en) Information classification device, information classification method, and information classification program
WO2018171295A1 (zh) 一种给文章标注标签的方法、装置、终端及计算机可读存储介质
CN110941702A (zh) 一种法律法规和法条的检索方法及装置、可读存储介质
CN116384889A (zh) 基于自然语言处理技术的情报大数据智能分析方法
CN111190946A (zh) 报告生成方法、装置、计算机设备和存储介质
CN111209753A (zh) 一种实体命名识别方法及装置
CN105164672A (zh) 内容分类
CN114462556A (zh) 企业关联产业链分类方法、训练方法、装置、设备和介质
US10504145B2 (en) Automated classification of network-accessible content based on events
CN114036921A (zh) 一种政策信息匹配方法和装置
US20180189699A1 (en) A method and system for locating regulatory information
JPWO2018100700A1 (ja) データ変換装置とデータ変換方法
CN113095078A (zh) 关联资产确定方法、装置和电子设备
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备
CN107038183B (zh) 网页标注方法及装置
US20180189803A1 (en) A method and system for providing business intelligence
CN116361574A (zh) 搜索结果排序方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant