CN116541528A - 招聘领域知识图谱构建的打标签方法和系统 - Google Patents
招聘领域知识图谱构建的打标签方法和系统 Download PDFInfo
- Publication number
- CN116541528A CN116541528A CN202211666822.4A CN202211666822A CN116541528A CN 116541528 A CN116541528 A CN 116541528A CN 202211666822 A CN202211666822 A CN 202211666822A CN 116541528 A CN116541528 A CN 116541528A
- Authority
- CN
- China
- Prior art keywords
- knowledge
- result
- job
- entity
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007115 recruitment Effects 0.000 title claims abstract description 75
- 238000002372 labelling Methods 0.000 title claims abstract description 49
- 238000010276 construction Methods 0.000 title claims abstract description 40
- 230000011218 segmentation Effects 0.000 claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000001914 filtration Methods 0.000 claims abstract description 25
- 238000007621 cluster analysis Methods 0.000 claims abstract description 19
- 238000004364 calculation method Methods 0.000 claims abstract description 12
- 238000013145 classification model Methods 0.000 claims description 20
- 230000008859 change Effects 0.000 claims description 13
- 238000012545 processing Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 8
- 238000011282 treatment Methods 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000012216 screening Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000009411 base construction Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000002860 competitive effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000002244 precipitate Substances 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Entrepreneurship & Innovation (AREA)
- Artificial Intelligence (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及在线招聘领域,具体涉及招聘领域知识图谱构建的打标签方法、和系统。该方法为通过获取招聘领域知识图谱构建的职类知识数据源,对职类知识数据源进行聚类分析后,利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;将实体结果与知识标签进行相似度计算及过滤后合并,得到打标结果,发送至应用端后可应用于搜索推荐场景中,在应用中可以通过职位描述、简历描述、识别出简历和职位的核心内容,确定出职位招聘所需人才的能力、简历、以及能适应的职位,实现对简历和职位做精准的匹配推荐。
Description
技术领域
本发明涉及在线招聘领域,尤其涉及一种招聘领域知识图谱构建的打标签方法和系统。
背景技术
在数字化改革的背景下,数据应用能力的强弱也关乎企业在资本市场中竞争能力的强弱。尤其是在求职招聘的应用中。相对于传统线下招聘,线上招聘在便利性、信息透明度方面体现了巨大的优势。
而线上招聘的招聘网站或者APP客户端会沉淀和积累大量招聘领域数据资源,如何应用数据资源为企业创造更多的价值。其中知识图谱的应用时不可缺少的一部分,知识图谱的应用体现在多个方面,如:帮助企业精准找到所需人才;也可帮助企业定位需要哪些岗位;帮助求职者找到心仪的工作机会;也可为求职者提供职业发展路线图等。
对于竞争日益增加的招聘行业,需要对繁杂的招聘信息和简历信息进行筛选,并生成有效的标签信息,从而快速构建知识图谱,对招聘要求和简历信息的编写提供明确的引导,实现求职者和企业之间高契合度的匹配,助力企业提升核心竞争力,同时也为企业多元化发展提供了必备的条件。
而在构建招聘领域知识图谱的过程中,如何对应用在个人履历或工作描述的职类知识打标签,确保知识标签的准确率,以便发送至应用端后可以应用在搜索推荐场景中,成为招聘领域知识图谱构建中亟需解决的技术问题之一。
发明内容
鉴于此,本发明提供了一种招聘领域知识图谱构建的打标签方法和系统。
为实现上述目的,本发明提供了如下的技术方案:
第一方面,在本发明提供了一种招聘领域知识图谱构建的打标签方法,包括以下步骤:
获取招聘领域知识图谱构建的职类知识数据源,其中,所述职类知识数据源包括职位内容文本数据;
利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;
利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;
将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
作为本发明的进一步方案,获取招聘领域知识图谱构建的职类知识数据源,还包括职类知识的实时变更,所述职类知识的实时变更包括在线变更信息、离线变更信息以及自定义样本信息。
作为本发明的进一步方案,所述职位内容文本数据包括职位描述的职位文本数据,利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息,所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。
作为本发明的进一步方案,所述分类模型为应用BERT预训练的语言模型,用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块,所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。
作为本发明的进一步方案,所述实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型,所述实体识别模型的第一层为BERT模型,用于获取字向量,提取职类知识数据源的文本特征;所述实体识别模型的第二层为双向LSTM层,用于深度学习上下文特征信息,进行命名实体识别;所述实体识别模型的第三层为CRF层,用于对LSTM层输出序列处理,求取进行目标函数最优化的序列,并输出实体结果。
作为本发明的进一步方案,对所述初步分类结果进行分词包括:对初步分类结果进行NLP分词,得到分词结果,并将分词结果与知识树的知识匹配。
作为本发明的进一步方案,输出知识标签之前,还包括对分词结果与知识树的知识匹配后,进行位置过滤,利用过滤策略及过滤筛选规则进行过滤处理,得到初步分类结果对应的知识标签。
作为本发明的进一步方案,所述招聘领域知识图谱构建的打标签方法,还包括在迭代环境下验证知识标签,在校验知识标签后,将打标结果信息发送至应用端,应用于搜索推荐场景中。
第二方面,在本发明提供的一个方案中,提供了一种招聘领域知识图谱构建的打标签系统,该系统包括数据源获取模块、数据聚类分析模块、实体识别模块、知识匹配模块以及打标处理模块;
数据源获取模块用于获取招聘领域知识图谱构建的职类知识数据源;数据聚类分析模块用于利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;实体识别模块用于利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果;知识匹配模块用于对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;打标处理模块用于将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
第三方面,在本发明提供的又一个方案中,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器加载并执行所述计算机程序时实现招聘领域知识图谱构建的打标签方法的步骤。
第四方面,在本发明提供的再一个方案中,提供了一种存储介质,存储有计算机程序,所述计算机程序被处理器加载并执行时实现所述招聘领域知识图谱构建的打标签方法的步骤。
本发明提供的技术方案,具有如下有益效果:
本发明提供的招聘领域知识图谱构建的打标签方法、系统、设备及介质,通过获取招聘领域知识图谱构建的职类知识数据源,对职类知识数据源进行聚类分析后,利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;将实体结果与知识标签进行相似度计算及过滤后合并,得到打标结果,发送至应用端后可应用于搜索推荐场景中,在应用中可以通过职位描述、简历描述、识别出简历和职位的核心内容,确定出职位招聘所需人才的能力、简历、以及能适应的职位,实现对简历和职位做精准的匹配推荐。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例。在附图中:
图1为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法的流程图。
图2为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法中linking流程图。
图3为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法中实体识别模型的结构图。
图4为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法中实体识别的流程图。
图5为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法中知识打标的流程图。
图6为本发明一个实施例的一种招聘领域知识图谱构建的打标签系统的系统框图。
图7为本发明一个实施例的一种招聘领域知识图谱构建的打标签方法中计算机设备的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明示例性实施例中的附图,对本发明示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于在构建招聘领域知识图谱的过程中,无法对应用在个人履历或工作描述的职类知识打标签,也无法确保知识标签的准确率,在应用端的搜索推荐场景中,不能对简历和职位做精准的匹配推荐。
针对上述问题,本发明提供的招聘领域知识图谱构建的打标签方法、系统、设备及介质,通过对职类知识数据源的聚类分析、命名实体识别、知识匹配以及相似度计算后,可以得到打标结果,发送至应用端后可应用于搜索推荐场景中。
具体地,下面结合附图,对本申请实施例作进一步阐述。
参见图1所示,本发明的一个实施例提供了一种招聘领域知识图谱构建的打标签方法,包括以下步骤:
S10:获取招聘领域知识图谱构建的职类知识数据源,其中,所述职类知识数据源包括职位内容文本数据。
在本实施例中,所述职位内容文本数据包括职位描述的职位文本数据,利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息,所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。
参见图2所示,图2为本发明的招聘领域知识图谱构建的打标签方法的linking流程图。在本实施例中,在获取招聘领域知识图谱构建的职类知识数据源,还包括职类知识的实时变更,所述职类知识的实时变更包括在线变更信息、离线变更信息以及自定义样本信息。
在本实施例中,可以将职类知识应用在具体的JD/CV(CV:curriculumvitae简历(书),个人履历;JD:jobdescription工作描述)中,通过本发明实现JD/CV图谱化,在获取到职类知识数据源后,还可以通过业务维表以及规则检查进行自动化linking(链接),将职类知识数据源拆分为职位明细数据和简历明细数据。然后基于专家元数据、分词服务、基于模型及规则对职位明细数据和简历明细数据进行打标签处理,得到迭代linking结果Hbase库(rt)以及上线linking结果Hbase库(dp),并将上线linking结果Hbase库(dp)的消息通知到solr(solr后端服务)以及FeatureServer(功能服务器)。
其中,明确需打标的JD/CV时,圈选出需要知识打标的JD/CV或是其他信息;因数据信息是实时发生变更,在此步骤中监控JD/CV的数据变化,保证打标结果与数据信息匹配。
将需打标的内容发送至自动化linking服务层,分别进行识别核心内容、调用分词服务以及基于规则和模型的方式匹配,使用策略模型做数据知识体系输出。
基于以上内容,可在迭代环境验证知识标签覆盖/准确率,在校验知识后,将所有结果信息发送至应用端,目前主要应用于搜索推荐场景中。
S20:利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果。
其中,所述分类模型为应用BERT预训练的语言模型,用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块,所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。
在本实施例中,识别核心内容时,服务层首先将对打标数据进行模块划分。主要应用BERT预训练的语言模型+RNN模型相结合。将职位内容分为、岗位职责,岗位要求、公司福利待遇等模块;将简历工作经历拆分为个人职责以及项目职责。
在本实施例中,调用分词服务时,输入识别的核心内容,将内容分词,分词服务目前基于对数线性模型的基础上结合招聘应用场景进行研发。
S30:利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果。
在本实施例中,基于规则和模型的方式匹配时,规则包含最长子串匹配、上下文呼应、匹配符合文本核心表达(如去除停词)等。模型主要基于BERT、BiLSTM以及CRF(如图3所示)做实体识别,实体识别结果与规则输出内容计算相似度,使用策略模型做数据知识体系输出。
在本实施例中,参见图4和图5所示,所述实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型,所述实体识别模型的第一层为BERT模型,用于获取字向量,提取职类知识数据源的文本特征;所述实体识别模型的第二层为双向LSTM层,用于深度学习上下文特征信息,进行命名实体识别;所述实体识别模型的第三层为CRF层,用于对LSTM层输出序列处理,求取进行目标函数最优化的序列,并输出实体结果。
S40:对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签。
其中,对所述初步分类结果进行分词包括:
S31:对初步分类结果进行NLP分词,得到分词结果,并将分词结果与知识树的知识匹配。
S32:输出知识标签之前,还包括对分词结果与知识树的知识匹配后,进行位置过滤,利用过滤策略及过滤筛选规则进行过滤处理,得到初步分类结果对应的知识标签。
S50:将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
在本实施例中,所述招聘领域知识图谱构建的打标签方法,还包括在迭代环境下验证知识标签,在校验知识标签后,将打标结果信息发送至应用端,应用于搜索推荐场景中。
在应用时,通过职位描述、简历描述(工作经历项目经历等)、识别出简历和职位的核心内容、就知道职位要招什么人需要什么能力、简历都会什么能适应什么职位。本发明的招聘领域知识图谱构建的打标签方法可以适用的客服方向包括但不局限于旅游客服、物流客服、前台客服等等。本发明的招聘领域知识图谱构建的打标签方法还可以适用于全夜班、早晚班等班次中,基于这些标签就可以对简历和职位做精准的匹配推荐。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
参见图6所示,本发明的一个实施例提供一种招聘领域知识图谱构建的打标签系统,该系统包括数据源获取模块100、数据聚类分析模块200、实体识别模块300、知识匹配模块400以及打标处理模块500。
所述数据源获取模块100用于获取招聘领域知识图谱构建的职类知识数据源;所述数据聚类分析模块200用于利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;所述实体识别模块300用于利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果;所述知识匹配模块400用于对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;所述打标处理模块500用于将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
在本发明的实施例中,参见图2和图4所示,所述数据源获取模块100中的职位内容文本数据包括职位描述的职位文本数据,利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息,所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。
所述数据聚类分析模块200中的分类模型为应用BERT预训练的语言模型,用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块,所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。
在一些实施例中,所述招聘领域知识图谱构建的打标签系统中的知识匹配模块400在调用分词服务时,输入识别的核心内容,将内容分词,分词服务目前基于对数线性模型的基础上结合招聘应用场景进行研发。
其中,实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型,所述实体识别模型的第一层为BERT模型,用于获取字向量,提取职类知识数据源的文本特征;所述实体识别模型的第二层为双向LSTM层,用于深度学习上下文特征信息,进行命名实体识别;所述实体识别模型的第三层为CRF层,用于对LSTM层输出序列处理,求取进行目标函数最优化的序列,并输出实体结果。
在一些实施例中,所述知识匹配模块400对所述初步分类结果进行分词包括:对初步分类结果进行NLP分词,得到分词结果,并将分词结果与知识树的知识匹配。输出知识标签之前,还包括对分词结果与知识树的知识匹配后,进行位置过滤,利用过滤策略及过滤筛选规则进行过滤处理,得到初步分类结果对应的知识标签。
因此,在采用招聘领域知识图谱构建的打标签系统进行知识打标时,通过职位描述、简历描述(工作经历项目经历等)、识别出简历和职位的核心内容、就知道职位要招什么人需要什么能力、简历都会什么能适应什么职位。本发明的招聘领域知识图谱构建的打标签方法可以实现对简历和职位做精准的匹配推荐。
在一个实施例中,参见图7所示,在本发明的实施例中还提供了一种计算机设备1000,包括至少一个处理器1002,以及与所述至少一个处理器1002通信连接的存储器1001,所述存储器1001存储有可被所述至少一个处理器1002执行的指令,所述指令被所述至少一个处理器1002执行,以使所述至少一个处理器1002执行所述的招聘领域知识图谱构建的打标签方法,该处理器1002执行指令时实现上述各方法实施例中的步骤:
获取招聘领域知识图谱构建的职类知识数据源,其中,所述职类知识数据源包括职位内容文本数据;
利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;
利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;
将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
在本发明的示例性实施例中,还提供了一种计算机可读存储介质,其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例中招聘领域知识图谱构建的打标签方法,该招聘领域知识图谱构建的打标签方法包括:
获取招聘领域知识图谱构建的职类知识数据源,其中,所述职类知识数据源包括职位内容文本数据;
利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;
利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;
将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
在本发明的示例性实施例中,描述了根据本发明的实施例的用于实现上述方法的程序产品,其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。
综上所述,本发明提供的招聘领域知识图谱构建的打标签方法、系统、设备及介质,通过获取招聘领域知识图谱构建的职类知识数据源,对职类知识数据源进行聚类分析后,利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果,并对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;将实体结果与知识标签进行相似度计算及过滤后合并,得到打标结果,发送至应用端后可应用于搜索推荐场景中,在应用中可以通过职位描述、简历描述、识别出简历和职位的核心内容,确定出职位招聘所需人才的能力、简历、以及能适应的职位,实现对简历和职位做精准的匹配推荐。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种招聘领域知识图谱构建的打标签方法,其特征在于,包括以下步骤:
S10:获取招聘领域知识图谱构建的职类知识数据源,其中,所述职类知识数据源包括职位内容文本数据;
S20:利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;
S30:利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果;
S40:对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;
S50:将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
2.如权利要求1所述的招聘领域知识图谱构建的打标签方法,其特征在于,步骤S10中获取招聘领域知识图谱构建的职类知识数据源,还包括职类知识的实时变更,所述职类知识的实时变更包括在线变更信息、离线变更信息以及自定义样本信息。
3.如权利要求2所述的招聘领域知识图谱构建的打标签方法,其特征在于,所述职位内容文本数据包括职位描述的职位文本数据,利用分类模型进行聚类分析后得到的初步分类结果包含职位内容分类文本信息,所述职位内容分类文本信息包括简历文本分类结果、岗位职责分类结果、岗位要求分类结果、职位信息分类结果。
4.如权利要求3所述的招聘领域知识图谱构建的打标签方法,其特征在于,所述分类模型为应用BERT预训练的语言模型,用于将职位内容分为岗位职责、岗位要求、简历文本、福利待遇在内的分类模块,所述分类模型还用于将所述职位文本数据中简历工作经历拆分为个人职责以及项目职责。
5.如权利要求1所述的招聘领域知识图谱构建的打标签方法,其特征在于,所述实体识别模型为基于BERT模型、BiLSTM模型以及CRF模型相结合训练的识别模型,所述实体识别模型的第一层为BERT模型,用于获取字向量,提取职类知识数据源的文本特征;所述实体识别模型的第二层为双向LSTM层,用于深度学习上下文特征信息,进行命名实体识别;所述实体识别模型的第三层为CRF层,用于对LSTM层输出序列处理,求取进行目标函数最优化的序列,并输出实体结果。
6.如权利要求2所述的招聘领域知识图谱构建的打标签方法,其特征在于,步骤S30中对所述初步分类结果进行分词包括:
S31:对初步分类结果进行NLP分词,得到分词结果,并将分词结果与知识树的知识匹配;
S32:输出知识标签之前,还包括对分词结果与知识树的知识匹配后,进行位置过滤,利用过滤策略及过滤筛选规则进行过滤处理,得到初步分类结果对应的知识标签。
7.如权利要求2所述的招聘领域知识图谱构建的打标签方法,其特征在于,所述招聘领域知识图谱构建的打标签方法,还包括在迭代环境下验证知识标签,在校验知识标签后,将打标结果信息发送至应用端,应用于搜索推荐场景中。
8.一种招聘领域知识图谱构建的打标签系统,其特征在于,所述招聘领域知识图谱构建的打标签系统用于执行权利要求1-7中任意一项所述招聘领域知识图谱构建的打标签方法;该系统包括:
数据源获取模块,用于获取招聘领域知识图谱构建的职类知识数据源;
数据聚类分析模块,用于利用分类模型对输入的所述职类知识数据源进行聚类分析,得到所属领域文本数据的初步分类结果;
实体识别模块,用于利用实体识别模型对所述初步分类结果进行文本特征提取及命名实体识别,输出识别的实体结果;
知识匹配模块,用于对所述初步分类结果进行分词,将分词结果与知识树的知识匹配,输出知识标签;
打标处理模块,用于将所述实体结果与所述知识标签进行相似度计算,滤除相似度低于预设阈值的实体,将过滤后的实体结果与知识标签合并后输出,得到打标结果。
9.一种计算机设备,其特征在于,所述计算机设备包括多个计算机设备,各计算机设备包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述多个计算机设备的处理器执行所述计算机程序时共同实现权利要求1至7中任一项所述招聘领域知识图谱构建的打标签方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述存储介质存储的所述计算机程序被处理器执行时实现权利要求1至7中任一项所述招聘领域知识图谱构建的打标签方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666822.4A CN116541528A (zh) | 2023-05-26 | 2023-05-26 | 招聘领域知识图谱构建的打标签方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211666822.4A CN116541528A (zh) | 2023-05-26 | 2023-05-26 | 招聘领域知识图谱构建的打标签方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541528A true CN116541528A (zh) | 2023-08-04 |
Family
ID=87451229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211666822.4A Pending CN116541528A (zh) | 2023-05-26 | 2023-05-26 | 招聘领域知识图谱构建的打标签方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541528A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314378A (zh) * | 2023-09-27 | 2023-12-29 | 深圳夸夸菁领科技有限公司 | 一种智能寻才的方法及rpa机器人系统 |
-
2023
- 2023-05-26 CN CN202211666822.4A patent/CN116541528A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117314378A (zh) * | 2023-09-27 | 2023-12-29 | 深圳夸夸菁领科技有限公司 | 一种智能寻才的方法及rpa机器人系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111984779B (zh) | 一种对话文本分析方法、装置、设备和可读介质 | |
CN109872162B (zh) | 一种处理用户投诉信息的风控分类识别方法及系统 | |
CN109034069B (zh) | 用于生成信息的方法和装置 | |
US20120290293A1 (en) | Exploiting Query Click Logs for Domain Detection in Spoken Language Understanding | |
CN113377936B (zh) | 智能问答方法、装置及设备 | |
CN107102993B (zh) | 一种用户诉求分析方法和装置 | |
CN111221936B (zh) | 一种信息匹配方法、装置、电子设备及存储介质 | |
CN112860841A (zh) | 一种文本情感分析方法、装置、设备及存储介质 | |
CN108121814B (zh) | 搜索结果排序模型生成方法和装置 | |
WO2020056995A1 (zh) | 语音流利度识别方法、装置、计算机设备及可读存储介质 | |
WO2012080077A1 (en) | Cleansing a database system to improve data quality | |
WO2012158572A2 (en) | Exploiting query click logs for domain detection in spoken language understanding | |
CN109190123B (zh) | 用于输出信息的方法和装置 | |
CN112100377A (zh) | 文本分类方法、装置、计算机设备和存储介质 | |
CN112860919A (zh) | 基于生成模型的数据标注方法、装置、设备及存储介质 | |
CN114647713A (zh) | 基于虚拟对抗的知识图谱问答方法、设备及存储介质 | |
CN116541528A (zh) | 招聘领域知识图谱构建的打标签方法和系统 | |
CN112560504A (zh) | 抽取表单文档中信息的方法、电子设备和计算机可读介质 | |
JP7376631B2 (ja) | 敵対的攻撃を使用して誤ラベル付きデータ・サンプルを識別するための方法及びシステム | |
CN112560463B (zh) | 文本多标注方法、装置、设备及存储介质 | |
CN114238632A (zh) | 一种多标签分类模型训练方法、装置及电子设备 | |
CN112989050A (zh) | 一种表格分类方法、装置、设备及存储介质 | |
CN110852103A (zh) | 一种命名实体识别方法及装置 | |
CN111428724B (zh) | 一种试卷手写统分方法、装置及存储介质 | |
CN114254588A (zh) | 数据标签处理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |