CN116432965B - 基于知识图谱的岗位能力分析方法及树状图生成方法 - Google Patents
基于知识图谱的岗位能力分析方法及树状图生成方法 Download PDFInfo
- Publication number
- CN116432965B CN116432965B CN202310410573.0A CN202310410573A CN116432965B CN 116432965 B CN116432965 B CN 116432965B CN 202310410573 A CN202310410573 A CN 202310410573A CN 116432965 B CN116432965 B CN 116432965B
- Authority
- CN
- China
- Prior art keywords
- information
- post
- entity
- knowledge graph
- recruitment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 42
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000010586 diagram Methods 0.000 title claims abstract description 15
- 230000007115 recruitment Effects 0.000 claims abstract description 77
- 230000009193 crawling Effects 0.000 claims abstract description 31
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000010801 machine learning Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000001502 supplementing effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 2
- 230000001939 inductive effect Effects 0.000 abstract 1
- 238000000605 extraction Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000015654 memory Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 238000000926 separation method Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001755 vocal effect Effects 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 241000209504 Poaceae Species 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0631—Resource planning, allocation, distributing or scheduling for enterprises or organisations
- G06Q10/06311—Scheduling, planning or task assignment for a person or group
- G06Q10/063112—Skill-based matching of a person or a group to a task
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本申请涉及一种基于知识图谱的岗位能力分析方法及树状图生成方法,岗位能力分析方法包括爬取岗位信息和公司信息;对岗位信息和公司信息进行数据清洗,获得招聘信息;将招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息;将实体信息和关系信息对应转换为节点和边,构建知识图谱;根据知识图谱识别岗位关键信息,并利用岗位关键信息和知识图谱构建岗位能力模型。基于知识图谱构建岗位能力模型,更加准确地将不同岗位所需关键技能和能力要求进行系统性整理和归纳,为相关人员能力做指导。
Description
技术领域
本公开涉及数据分析技术领域,尤其涉及一种基于知识图谱的岗位能力分析方法及树状图生成方法。
背景技术
随着经济的发展与产业结构的调整,各种新型职业岗位不断涌现,对于职业教育的培养以及人才储备提出了更高的要求。产业作为人才需求侧,职业作为人才供给侧,只有精准对接产业岗位要求,才能为产业端输送更多合格人才。
岗位能力模型是指针对特定岗位所需技能、知识、经验和能力等要素进行分析、归纳、提炼和总结,以期对应聘者所需能力进行明确、量化的模型。不仅能够帮助企业更好地了解市场需求和技术趋势,为招聘、人才培养和人才评价提供依据,同时还可以帮助职业教育院校更好的设计人才培养方案,更好地帮助学生培养技能和规划职业方向。因此,岗位能力模型的研究逐渐成为人力资源管理和职业教育等领域的热点研究方向。
传统的岗位能力模型分析,主要通过人工分析岗位需求和职业能力,并将其抽象成一定的能力指标或能力模型,依赖人工分析和判断,容易受分析人员的主观因素影响,由于岗位需要具备的能力通常是相互关联的,而人工分析难以捕捉这种复杂关系,致使结果存在一定程度的误差,分析结果不够客观准确,无法真实地反映出岗位实际需求能力。
发明内容
有鉴于此,本申请提出一种基于知识图谱的岗位能力分析方法及树状图生成方法,以解决上述问题。
本申请一方面,提出一种基于知识图谱的岗位能力分析方法,包括如下步骤:
爬取岗位信息和公司信息;
对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息;
将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息;
将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱;
根据所述知识图谱识别岗位关键信息,并利用所述岗位关键信息和所述知识图谱构建岗位能力模型。
作为本申请的一可选实施方案,可选地,爬取岗位信息和公司信息,包括:
预设信息爬取计划,并根据所述信息爬取计划,获取岗位信息列表和公司信息列表,生成爬取任务;
根据所述爬取任务爬取原始网页信息,其中所述原始网页信息包括岗位网页信息和公司网页信息;
通过对所述原始网页信息进行抽取,获得所述岗位信息和所述公司信息。
作为本申请的一可选实施方案,可选地,对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息,包括:
对所述岗位信息和所述公司信息去重,保留唯一招聘信息;
将所述唯一招聘信息去噪;
对去噪后的所述唯一招聘信息补充缺失值,获得所述招聘信息。
作为本申请的一可选实施方案,可选地,将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息,包括:
根据中文自然语言处理方法预设分词规则,将所述招聘信息中的文字按照所述分词规则进行分词处理,获得分词结果;
根据规则和机器学习方法预设实体识别规则,将所述分词结果按照所述实体识别规则进行实体识别,获得所述实体信息;
根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息。
作为本申请的一可选实施方案,可选地,根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息,包括:
根据所述分词结果和所述实体信息提取所述招聘信息中的候选关系;
根据业务规则和领域知识对所述候选关系进行过滤;
对过滤后的所述候选关系进行特征提取,并通过机器学习算法训练关系分类器;
利用训练好的所述关系分类器对过滤后的所述候选关系进行关系抽取,获得关系信息。
作为本申请的一可选实施方案,可选地,将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱,包括:
将所述实体信息按照预设的实体转换规则进行转换,构建节点,所述节点包括实体属性和实体标识符;
将所述关系信息按照预设的关系转换规则进行转换,构建边,所述边包括关系属性和关系标识符;
利用所述节点和所述边,构建知识图谱。
作为本申请的一可选实施方案,可选地,所述岗位关键信息包括岗位高频技能、岗位高薪技能和名企岗位技能。
作为本申请的一可选实施方案,可选地,利用所述岗位关键信息和所述知识图谱构建岗位能力模型,包括:
根据所述岗位关键信息和所述知识图谱,按照岗位描述、技能要求和薪资分别构架纵向分级岗位和横向岗位群;
通过关联所述纵向分级岗位的关键技能,构建分级岗位能力模型;
通过关联所述横向岗位群的关键技能,构建岗位群能力模型;
利用所述分级岗位能力模型和所述岗位群能力模型构建岗位能力模型。
本申请另一方面,提供一种树状图生成方法,包括如下步骤:
预设根节点;
通过广度优先搜索遍历所述知识图谱,确定子节点,其中所述子节点包括直接子节点和间接子节点;
根据所述子节点和所述根节点之间的关系计算权重,并对所述权重进行排序后,构建树状图。
作为本申请的一可选实施方案,可选地,所述知识图谱通过上述任一项所述的基于知识图谱的岗位能力分析方法构建。
本发明的技术效果:
本申请基于知识图谱构建岗位能力模型,能够将不同岗位所需关键技能和能力要求进行系统性整理和归纳,快速进行招聘信息的分析,为职业教育和企业招聘提供参考和指导。具体的,采用招聘信息结合知识图谱的方式,实现对岗位能力之间复杂关系的建模和分析。通过构建知识图谱解释不同岗位能力之间的关系,并根据知识图谱中的节点和边分析招聘信息中的关键技能和能力要求。不仅能减少人为分析的主观因素干扰,还能从多个角度全面分析岗位能力需求,提高分析准确性。
根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
附图说明
包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面,并且用于解释本公开的原理。
图1示出为本发明的基于知识图谱的岗位能力分析方法流程示意图;
图2示出为本发明的树状图生成方法的流程示意图;
图3示出为本发明的基于知识图谱的岗位能力分析方法的实施流程示意图;
图4示出为树状图的结构示意图。
具体实施方式
以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面,但是除非特别指出,不必按比例绘制附图。
在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
实施例1
如图1和图3所示,本申请一方面,提出一种基于知识图谱的岗位能力分析方法,包括如下步骤:
S100、爬取岗位信息和公司信息;
S200、对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息;
S300、将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息;
S400、将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱;
S500、根据所述知识图谱识别岗位关键信息,并利用所述岗位关键信息和所述知识图谱构建岗位能力模型。
本实施例中,基于知识图谱构建岗位能力模型,更加准确地将不同岗位所需关键技能和能力要求进行系统性整理和归纳,能够快速进行招聘信息的分析,为职业教育和企业招聘提供参考和指导。具体的,根据步骤S100、爬取岗位信息和公司信息,此处需要说明的是,对于岗位信息和公司信息的爬取,通过网络爬虫技术实现,在遵守相关法律规定和网站使用协议的前提下,从公开的网络信息中爬取岗位信息和公司信息。其中,岗位信息包括岗位名称、薪资范围、第一次爬取时间、岗位地点、学历要求、工作经验要求、职位描述、任职要求和岗位标签,公司信息包括公司名称、统一社会信用代码、公司简介、公司规模、注册资本、机构类型、成立时间、公司标签、主营业务和主要产品等。
由于爬取的岗位信息和公司信息存在格式混乱、重复和缺失等问题,因此通过步骤S200、对岗位信息和公司信息进行数据清洗,获得招聘信息。利用数据清洗对岗位信息和公司信息的原始数据进行去重、去噪和补充缺失处理,获得准确和完整的招聘信息。
获取招聘信息后,通过步骤S300、对招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息。此处,需要说明的是,清洗后的数据包括结构化数据、半结构化数据和非结构化数据三类,通过对半结构化数据和非结构化数据进行数据处理,进行格式化和规范化,便于构建知识图谱。具体的,将清洗后的招聘信息进行分词处理,对于招聘信息中的文字基于中文自然语言处理分词技术进行切割,转换为词汇组合,用于文本分析。进一步的,通过实体识别从经过中文自然语言处理的文本中识别出具有特定含义的实体,如技能名称、岗位任务和工具软件等,确定特定实体,并利用机器学习模型进行深度学习,通过大量文本语料训练识别出更为准确的实体。根据分词结果和实体识别结果,进一步的提取招聘信息中的关系信息,确定各实体之间的关系。
获取实体信息和关系信息后,通过步骤S400、将实体信息和关系信息对应转换为节点和边,构建知识图谱。具体的,将经过数据处理后的实体信息和关系信息转换为符合知识图谱构建和岗位能力分析需求的数据格式,通过图数据库Neo4j存储和管理实体和关系,构建知识图谱。其中,将实体信息转换为节点,将关系信息转换为边,节点包括实体的属性和标签,如,对于技能实体,定义一个“Skill”标签,并在节点上添加名称和描述等属性;边包括关系的属性和标签,如,对于技能之间的层次关系,定义一个“parent”边来表示父子关系,如,“Java”技能的父技能为“编程语言”,对于能力和工具之间的关联,定义一个“related”边来表示两者之间的关系,如“Java开发”能力与“IDEA”工具之间的关联。还需要说明的是,边的权重不仅取决于技能在岗位招聘中出现的次数,也取决于掌握的要求强度,如,了解、理解、掌握、精通等,还取决于岗位公司的规模,大公司对于岗位的技能要求比小公司的岗位技能要求对权重影响大。
构建知识图谱后,通过步骤S500、根据知识图谱识别岗位关键信息,并利用岗位关键信息和知识图谱构建岗位能力模型。此处,需要说明的是,通过知识图谱识别岗位关键技能,具体的,根据知识图谱,依赖岗位与技能间的权重关系,获取高频岗位技能并排序;依赖薪资等级与技能间的权重关系,获取高薪岗位技能并排序;依赖企业类型与技能间的权重关系,获取名企岗位技能并排序。通过岗位技能知识图谱以及识别的岗位关键技能构建岗位能力模型,按照岗位描述、技能要求及薪资构建分级岗位,并将各分析岗位的关键技能进行关联,构建分级岗位能力模型;根据岗位描述和技能要求构建横向岗位群,并将各岗位关键技能进行关联,按照总频次、平均掌握要求、对薪资的影响因素进行计算,得到岗位群通用技能、核心技能和差异技能,构建岗位群能力模型,利用分级岗位能力模型和岗位群能力模型实现对于岗位能力模型的构建。本实施例的方法,能够将不同岗位所需的关键技能和能力要求进行系统性整理和归纳,构建岗位能力模型,提高岗位能力分析的准确性和效率,为职业教育和企业招聘提供参考和指导。
作为本申请的一可选实施方案,可选地,爬取岗位信息和公司信息,包括:
预设信息爬取计划,并根据所述信息爬取计划,获取岗位信息列表和公司信息列表,生成爬取任务;
根据所述爬取任务爬取原始网页信息,其中所述原始网页信息包括岗位网页信息和公司网页信息;
通过对所述原始网页信息进行抽取,获得所述岗位信息和所述公司信息。
本实施例中,根据信息爬取计划,从相关网站获取岗位信息列表和公司信息列表,生成爬取任务。在此过程中,需要与历史任务进行对比,避免重复爬取。进一步的,根据爬取任务和爬取规则,分布式并发爬取岗位网页信息和公司网页信息,原始信息作为原始层存入分布式存储系统中。其中,爬取规则包括并发数、速率和robots协议。更进一步的,根据信息抽取规则对原始网页信息进行初步抽取,得到初步的岗位信息和公司信息。需要说明的是,信息抽取规则根据网站网页结构、升级改版、后续处理需要等定期更新。
作为本申请的一可选实施方案,可选地,对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息,包括:
对所述岗位信息和所述公司信息去重,保留唯一招聘信息;
将所述唯一招聘信息去噪;
对去噪后的所述唯一招聘信息补充缺失值,获得所述招聘信息。
本实施例中,对获取的岗位信息和公司信息进行数据清洗,改善原始数据存在格式混乱、重复、缺失等问题。具体的,对岗位信息和公司信息进行去重,如,同一家公司,会在不同的招聘网站发布同样的岗位,同时同一个岗位也会反复发布,尽管在爬取阶段作为处理,但仍然存在相同的岗位信息被重复爬取的情况,因此需要对爬取的数据进行比对、去重保留唯一招聘信息。进一步的,将去重后的唯一招聘信息进行去噪,由于在招聘信息的描述中,存在无用的信息甚至干扰信息,如部分公司在岗位描述和认知要求中展示公司愿景或文化等相关信息,本实施例的方法通过对相关信息进行判断,打“低质量”标签初步过滤。更进一步的,部分招聘信息存在缺失值,通过其他信息对缺失部分进行补全,如,部分招聘岗位没有所在的城市,能够用公司所在地或职位描述中出现的工作地点进行补充,由此实现数据清洗的目的。
作为本申请的一可选实施方案,可选地,将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息,包括:
根据中文自然语言处理方法预设分词规则,将所述招聘信息中的文字按照所述分词规则进行分词处理,获得分词结果;
根据规则和机器学习方法预设实体识别规则,将所述分词结果按照所述实体识别规则进行实体识别,获得所述实体信息;
根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息。
进一步的,作为本申请的一可选实施方案,可选地,根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息,包括:
根据所述分词结果和所述实体信息提取所述招聘信息中的候选关系;
根据业务规则和领域知识对所述候选关系进行过滤;
对过滤后的所述候选关系进行特征提取,并通过机器学习算法训练关系分类器;
利用训练好的所述关系分类器对过滤后的所述候选关系进行关系抽取,获得关系信息。
本实施例中,将经过数据清洗的招聘信息进一步的格式化和规范化,便于知识图谱的构建和岗位能力分析。将招聘信息中的文字进行切割,以使转换为有意义的词汇组合,具体的,通过开源中文分词工具结巴分词,将文本中的汉字、数字、英文字母和标点符号分开处理,并根据词频和词性进行词语的切分,结巴分词在中文分词领域具有良好的性能和稳定性。同时,结巴分词能够自定义词典,针对特定领域进行词汇的定制和加强,本实施例中,针对招聘信息的特点,进行如下分词策略:
根据词性过滤,通过结巴分词对招聘信息进行分词后,对于名词、动词、形容词等有意义的词性进行筛选,筛选出对于岗位能力分析有实际意义的词语,如技能、经验、专业等。
自定义词典,针对特定行业或职位的岗位能力分析,通过自定义词典的方式,加强或弱化某些词语的权重,从而更加精准地进行分析。比如spring、mysql、微服务等关键技术的权重相对较高。
进一步的,基于规则和机器学习相结合的方法对招聘信息进行实体识别,识别出关键词和技能要求。具体的,从自然语言文本中识别出具有特定含义的实体。如,技能名称、岗位任务、工具软件等,利用现有的词典和语法
同义词替换,在进行分词过程中,对于一些同义词进行替换,避免因为词语表述不同而导致的重复计算和误差,如Postgresql、PgSQL、大象数据库代表同一个技术,需要进行同义词替换。
通过上述分词策略,对招聘信息进行分析,为后续岗位能力分析提供有意义的词汇,作为知识图谱构建和岗位能力分析的基础。首先,通过现有词典和语法规则对文本进行初步的实体识别,如,利用词性标注来判断名词是否为技能名称、工具软件等特定实体。其次,利用机器学习模型进行深度学习,通过对大量文本语料的训练,识别出更为准确的实体。具体而言,本实施例采用了开源的实体识别工具Stanford NER和自然语言处理工具NLTK。在实体识别过程中,使用了已有的名词词典和规则及自定义词典,如,岗位词典和技能词典、软件工具词典等,同时也使用了基于机器学习的模型,如,条件随机场CRF和支持向量机SVM等。通过这些工具和模型能够自动识别出招聘信息中的实体,并将其标注为特定的类别,例如人名、地名等。
更进一步的,根据分词结果和实体识别结果,提取出招聘信息中的关系信息。通过基于规则和机器学习相结合的关系抽取方法,依次进行候选关系提取、规则过滤、特征提取、训练模型和关系抽取。具体的,基于词性标注和句法分析,将招聘信息提取出所有可能的关系三元组,也即候选关系,如“Java工程师”、“Java”和“工程师”之间的关系可以表示为(Java工程师,关联,Java)和(Java工程师,关联,工程师)两个三元组。根据业务规则和领域知识,对候选关系进行过滤和筛选。如,对于“招聘Java工程师”的文本,如果出现“会C++的优先考虑”的条件,则可以排除掉与C++相关的关系。对于剩余的候选关系,提取相关的特征,如,关系两端的实体类型、距离、词性、关键词等。将提取的特征作为输入,使用机器学习算法,训练出关系分类器,用于自动判别每个候选关系是否为正确的关系。使用训练好的分类器,对剩余的候选关系进行分类,确定最终的关系信息。需要说明的是关系抽取基于机器学习和规则相结合,既能够根据具体领域和任务定制规则,又能够自适应地学习数据中的潜在模式和规律,提高了关系抽取的准确率和泛化能力。
作为本申请的一可选实施方案,可选地,将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱,包括:
将所述实体信息按照预设的实体转换规则进行转换,构建节点,所述节点包括实体属性和实体标识符;
将所述关系信息按照预设的关系转换规则进行转换,构建边,所述边包括关系属性和关系标识符;
利用所述节点和所述边,构建知识图谱。
本实施例中,将实体信息和关系信息分别转换为节点和边,以此构建知识图谱。具体的,确定实体类别,根据分词结果和实体识别结果将文本实体划分为不同的类别,如技能、专业要求、工作经验等,并将同一类别的实体进行归一化处理,如,将“Java”和“Java语言”归一化为“Java”,将“本科”和“学士学位”归一化为“学士”,进一步的将文本实体链接到知识图谱中的实体,建立文本实体和知识图谱实体间的映射关系,通过实体名、上下文信息、词性等多种方式进行实体链接。还需要说明的是,通过基于规则的方法进行关系转换,针对不同的关系类型,定义相应的边类型,并将实体之间的关系转换为相应的边类型。如,对于“工作经验”这一关系类型,将其转换为图谱中的“经验”边类型;对于“掌握技能”这一关系类型,将其转换为图谱中的“技能”边类型。同时根据“精通”、“掌握”、“了解”等关键词区分部分关系的权重。还采用基于深度学习的方法进行关系转换,通过训练模型,自动学习不同关系类型的边模式,并将实体之间的关系转换为相应的边类型。更进一步的,使用图数据库Neo4j存储和管理实体和关系,构建知识图谱,根据实体转换结果创建节点表示实体的标签和属性,根据关系转换结果确定不同实体之间的关系,并在节点之间添加边表示关系。如,对于技能之间的层次关系,定义一个“parent”边来表示父子关系,如,“Java”技能的父技能为“编程语言”,对于能力和工具之间的关联,定义一个“related”边来表示两者之间的关系,如“Java开发”能力与“IDEA”工具之间的关联。还需要说明的是,边的权重不仅取决于技能在岗位招聘中出现的次数,也取决于掌握的要求强度,如,了解、理解、掌握、精通等,还取决于岗位公司的规模,大公司对于岗位的技能要求比小公司的岗位技能要求对权重影响大。
作为本申请的一可选实施方案,可选地,所述岗位关键信息包括岗位高频技能、岗位高薪技能和名企岗位技能。
作为本申请的一可选实施方案,可选地,利用所述岗位关键信息和所述知识图谱构建岗位能力模型,包括:
根据所述岗位关键信息和所述知识图谱,按照岗位描述、技能要求和薪资分别构架纵向分级岗位和横向岗位群;
通过关联所述纵向分级岗位的关键技能,构建分级岗位能力模型;
通过关联所述横向岗位群的关键技能,构建岗位群能力模型;
利用所述分级岗位能力模型和所述岗位群能力模型构建岗位能力模型。
本实施例中,根据岗位技能知识图谱及关键技能识别,按照岗位描述、技能要求及薪资构建分级岗位,如,java技术方向岗位可纵向拆分成初级java工程师、中级java工程师、高级java工程师、后端架构师等,支持多个类型的初级岗位对应一个高级岗位。通过知识图谱和纵向分级岗位,关联各分级岗位的关键系能,构建技能的进阶路线,如kubernetes技能在java中级工程师要求中为了解,在后端架构师岗位要求中为掌握,在子技能中增加了prometheus和grafana。进一步的,按照岗位描述及技能要求构建横向岗位群,如,大数据处理工程师和大数据挖掘工程师有70%的技能要求重合,可以认为岗位间有一定的关联,可以构建横向岗位群,并通过关联各岗位关键技能,按照总频次、平均掌握要求、对薪资的影响的因素进行计算,得到岗位群通用技能、核心技能、差异技能,构建岗位群能力模型。利用分级岗位能力模型和岗位群能力模型,构建岗位能力模型。
因此,本申请基于知识图谱的岗位能力分析方法,通过对招聘网站中的招聘信息进行抓取和解析,同时利用自然语言处理技术,将招聘信息中的职位描述、任职要求等内容进行语义分析,进一步提取关键词和短语,最终构建岗位能力知识图谱,并对图谱进行分析,得出不同岗位所需的关键技能和能力要求。与传统的岗位能力分析方法相比,本申请采用招聘信息,结合知识图谱技术进行分析,不仅能够减少主观因素的干扰,还能够从多个角度全面分析岗位能力需求,提高分析准确性。无需大量人力进行数据收集、整理和分析,效率更高,同时,能够将不同岗位所需的关键技能和能力要求进行系统性整理和归纳,并且可以快速构建大量的岗位能力构建层次结构,并根据出现频次、提出公司体量、薪资影响等得出权重,分析出岗位能力间的复杂关系,为职业教育提供更有力的支持。
需要说明的是,尽管以作为示例介绍了如上,但本领域技术人员能够理解,本公开应不限于此。事实上,用户完全可根据实际应用场景灵活设定,只要可以按照上述技术方法实现本申请的技术功能即可。
本领域技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各控制方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory,ROM)、随机存储记忆体(RandomAccessMemory,RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive,缩写:HDD)或固态硬盘(Solid-StateDrive,SSD)等;存储介质还可以包括上述种类的存储器的组合。
实施例2
进一步地,如图2和图4所示,本申请另一方面,提供一种树状图生成方法,包括如下步骤:
S10、预设根节点;
S20、通过广度优先搜索遍历所述知识图谱,确定子节点,其中所述子节点包括直接子节点和间接子节点;
S30、根据所述子节点和所述根节点之间的关系计算权重,并对所述权重进行排序后,构建树状图。
作为本申请的一可选实施方案,可选地,所述知识图谱通过上述任一项所述的基于知识图谱的岗位能力分析方法构建。
本实施例中,通过选定技术方向确定岗位群,并指定岗位群中的指定岗位为根节点。如选择Java方向岗位群中的指定岗位作为根节点,并采用广度优先搜索算法遍历知识图谱,找到与根节点相关的技能子节点,其中子节点包括直接相关的直接子节点和间接相关的间接子节点,将技能分为不同的层次,如数据库技能包括关系型数据库技能、键值数据库技能、图数据库技能等,关系型数据库技能又包括MYSQL、PGSQL、达梦等。进一步的根据节点和根节点的关系计算权重,根据权重进行排序,下级子节点和根节点间的权重根据上级子节点和根节点间的权重计算。如spring cloud是spring的子节点,spring是岗位的子节点,spring cloud和岗位的权重由spring和岗位的权重计算得出,由此生成岗位能力树状图,根部为岗位名称,树干和分支为各级子节点,树干和分支的粗细由技能和岗位的权重决定。同时,根据技能对岗位薪资的影响对技能大小进行区分。本申请能够根据实际需求进行定制,如对于不同的行业、岗位,可以根据具体情况添加、删除、修改能力节点,生成符合实际需求的能力树。需要说明的是,知识图谱通过上述任一项所述的基于知识图谱的岗位能力分析方法构建,将岗位能力知识图谱以树形结构展示,以使用户更加方便地了解不同岗位所需地关键技能和能力要求,同时便于用户对不同技能和能力间的关系进行理解和比较,为职业教育提供相关的培养方向和人才培养方案,帮助职业教育机构更好地满足市场需求,为求职者提供更加适合的职业教育课程。
以上已经描述了本公开的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。
Claims (6)
1.一种基于知识图谱的岗位能力分析方法,其特征在于,包括如下步骤:
爬取岗位信息和公司信息;
对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息;
将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息;
所述将所述招聘信息按照预设的数据处理规则进行处理,获得实体信息和关系信息,包括:
根据中文自然语言处理方法预设分词规则,将所述招聘信息中的文字按照所述分词规则进行分词处理,获得分词结果;
通过结巴分词,将文本中的汉字、数字、英文字母和标点符号分开处理,并根据词频和词性进行词语的切分;
根据词性过滤,通过结巴分词对招聘信息进行分词后,筛选词性,且所述词性包括名词、动词和形容词;
根据规则和机器学习方法预设实体识别规则,将所述分词结果按照所述实体识别规则进行实体识别,获得所述实体信息;
根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息;
所述根据所述分词结果和所述实体信息对所述招聘信息进行关系抽取,获得所述关系信息,包括:
根据所述分词结果和所述实体信息提取所述招聘信息中的候选关系;基于词性标注和句法分析,将所述招聘信息提取出所有可能的关系三元组;
根据业务规则和领域知识对所述候选关系进行过滤;
对过滤后的所述候选关系进行特征提取,并通过机器学习算法训练关系分类器;
利用训练好的所述关系分类器对过滤后的所述候选关系进行关系抽取,获得关系信息;
将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱;
根据所述知识图谱识别岗位关键信息,并利用所述岗位关键信息和所述知识图谱构建岗位能力模型;
所述利用所述岗位关键信息和所述知识图谱构建岗位能力模型,包括:
根据所述岗位关键信息和所述知识图谱,按照岗位描述、技能要求和薪资分别构架纵向分级岗位和横向岗位群;
通过关联所述纵向分级岗位的关键技能,构建分级岗位能力模型;
通过关联所述横向岗位群的关键技能,构建岗位群能力模型;
利用所述分级岗位能力模型和所述岗位群能力模型构建岗位能力模型。
2.根据权利要求1所述的基于知识图谱的岗位能力分析方法,其特征在于,爬取岗位信息和公司信息,包括:
预设信息爬取计划,并根据所述信息爬取计划,获取岗位信息列表和公司信息列表,生成爬取任务;
根据所述爬取任务爬取原始网页信息,其中所述原始网页信息包括岗位网页信息和公司网页信息;
通过对所述原始网页信息进行抽取,获得所述岗位信息和所述公司信息。
3.根据权利要求1所述的基于知识图谱的岗位能力分析方法,其特征在于,对所述岗位信息和所述公司信息进行数据清洗,获得招聘信息,包括:
对所述岗位信息和所述公司信息去重,保留唯一招聘信息;
将所述唯一招聘信息去噪;
对去噪后的所述唯一招聘信息补充缺失值,获得所述招聘信息。
4.根据权利要求1所述的基于知识图谱的岗位能力分析方法,其特征在于,将所述实体信息和所述关系信息对应转换为节点和边,构建知识图谱,包括:
将所述实体信息按照预设的实体转换规则进行转换,构建节点,所述节点包括实体属性和实体标识符;
将所述关系信息按照预设的关系转换规则进行转换,构建边,所述边包括关系属性和关系标识符;
利用所述节点和所述边,构建知识图谱。
5.根据权利要求1所述的基于知识图谱的岗位能力分析方法,其特征在于,所述岗位关键信息包括岗位高频技能、岗位高薪技能和名企岗位技能。
6.一种树状图生成方法,其特征在于,包括如下步骤:
预设根节点;
通过广度优先搜索遍历知识图谱,确定子节点,其中所述子节点包括直接子节点和间接子节点;所述知识图谱通过权利要求1至5任一项所述的基于知识图谱的岗位能力分析方法构建;
根据所述子节点和所述根节点之间的关系计算权重,并对所述权重进行排序后,构建树状图。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410573.0A CN116432965B (zh) | 2023-04-17 | 2023-04-17 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310410573.0A CN116432965B (zh) | 2023-04-17 | 2023-04-17 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432965A CN116432965A (zh) | 2023-07-14 |
CN116432965B true CN116432965B (zh) | 2024-03-22 |
Family
ID=87081167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310410573.0A Active CN116432965B (zh) | 2023-04-17 | 2023-04-17 | 基于知识图谱的岗位能力分析方法及树状图生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432965B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116738009B (zh) * | 2023-08-09 | 2023-11-21 | 北京谷器数据科技有限公司 | 一种对数据进行归档回溯的方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280583A (zh) * | 2018-01-26 | 2018-07-13 | 重庆工商大学 | 基于大数据的岗位技能需求分析方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN111125300A (zh) * | 2020-01-19 | 2020-05-08 | 湖南工业大学 | 一种基于知识图谱信息数据智能分析系统 |
CN112364133A (zh) * | 2020-11-17 | 2021-02-12 | 深圳平安智汇企业信息管理有限公司 | 岗位画像生成方法、装置、设备及存储介质 |
CN112883198A (zh) * | 2021-02-24 | 2021-06-01 | 广州视源电子科技股份有限公司 | 一种知识图谱构建方法、装置、存储介质以及计算机设备 |
CN115034178A (zh) * | 2022-07-01 | 2022-09-09 | 杨双远 | 一种人岗需求文本的知识图谱的方法及存储介质 |
CN115526590A (zh) * | 2022-09-16 | 2022-12-27 | 深圳今日人才信息科技有限公司 | 一种结合专家知识和算法的高效人岗匹配与复推方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113924586A (zh) * | 2019-04-08 | 2022-01-11 | 菲诺姆 | 将机器学习和预测建模用于优化招聘管理系统的知识引擎 |
-
2023
- 2023-04-17 CN CN202310410573.0A patent/CN116432965B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108280583A (zh) * | 2018-01-26 | 2018-07-13 | 重庆工商大学 | 基于大数据的岗位技能需求分析方法 |
CN110347894A (zh) * | 2019-05-31 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于爬虫的知识图谱处理方法、装置、计算机设备及存储介质 |
CN111125300A (zh) * | 2020-01-19 | 2020-05-08 | 湖南工业大学 | 一种基于知识图谱信息数据智能分析系统 |
CN112364133A (zh) * | 2020-11-17 | 2021-02-12 | 深圳平安智汇企业信息管理有限公司 | 岗位画像生成方法、装置、设备及存储介质 |
CN112883198A (zh) * | 2021-02-24 | 2021-06-01 | 广州视源电子科技股份有限公司 | 一种知识图谱构建方法、装置、存储介质以及计算机设备 |
CN115034178A (zh) * | 2022-07-01 | 2022-09-09 | 杨双远 | 一种人岗需求文本的知识图谱的方法及存储介质 |
CN115526590A (zh) * | 2022-09-16 | 2022-12-27 | 深圳今日人才信息科技有限公司 | 一种结合专家知识和算法的高效人岗匹配与复推方法 |
Also Published As
Publication number | Publication date |
---|---|
CN116432965A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN113806563B (zh) | 面向多源异构建筑人文史料的建筑师知识图谱构建方法 | |
US20080104506A1 (en) | Method for producing a document summary | |
CN109299865B (zh) | 基于语义分析的心理测评系统及方法、信息数据处理终端 | |
CN113987212A (zh) | 一种数控加工领域工艺数据的知识图谱构建方法 | |
EP2430568A1 (en) | Methods and systems for knowledge discovery | |
CN107194617B (zh) | 一种app软件工程师软技能分类系统及方法 | |
CN113204967B (zh) | 简历命名实体识别方法及系统 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN115470871B (zh) | 基于命名实体识别与关系抽取模型的政策匹配方法及系统 | |
CN112036842A (zh) | 一种科技服务智能匹配平台 | |
CN116432965B (zh) | 基于知识图谱的岗位能力分析方法及树状图生成方法 | |
CN114969275A (zh) | 一种基于银行知识图谱的对话方法及其系统 | |
Ribeiro et al. | Discovering IMRaD structure with different classifiers | |
CN114138979B (zh) | 基于词拓展无监督文本分类的文物安全知识图谱创建方法 | |
CN114238653A (zh) | 一种编程教育知识图谱构建、补全与智能问答的方法 | |
CN116860978B (zh) | 基于知识图谱和大模型的小学语文个性化学习系统 | |
Palshikar et al. | Automatic Shortlisting of Candidates in Recruitment. | |
CN113159969A (zh) | 一种金融长文本复核系统 | |
Skondras et al. | Efficient Resume Classification through Rapid Dataset Creation Using ChatGPT | |
CN112036841A (zh) | 基于智能语义识别的政策解析系统及方法 | |
US20220318245A1 (en) | Systems and Methods of Creating and Using a Transparent, Computable Contractual Natural Language | |
CN111898371B (zh) | 设计理性知识的本体构建方法、装置及计算机存储介质 | |
KR20220068937A (ko) | 기계학습 방법론을 이용한 한국 표준 산업/직업 분류 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |