CN117454317A - 一种融合数据治理方法及系统 - Google Patents
一种融合数据治理方法及系统 Download PDFInfo
- Publication number
- CN117454317A CN117454317A CN202311791412.7A CN202311791412A CN117454317A CN 117454317 A CN117454317 A CN 117454317A CN 202311791412 A CN202311791412 A CN 202311791412A CN 117454317 A CN117454317 A CN 117454317A
- Authority
- CN
- China
- Prior art keywords
- resume
- data
- screened
- group
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 62
- 230000004927 fusion Effects 0.000 title claims abstract description 24
- 238000013523 data management Methods 0.000 title claims abstract description 14
- 238000012216 screening Methods 0.000 claims abstract description 134
- 238000012545 processing Methods 0.000 claims abstract description 19
- 230000001502 supplementing effect Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000005067 remediation Methods 0.000 claims 6
- 239000000872 buffer Substances 0.000 abstract description 8
- 238000012217 deletion Methods 0.000 abstract description 4
- 230000037430 deletion Effects 0.000 abstract description 4
- 230000007115 recruitment Effects 0.000 description 9
- 229960000074 biopharmaceutical Drugs 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000009509 drug development Methods 0.000 description 5
- 238000003062 neural network model Methods 0.000 description 5
- 238000011161 development Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 229940079593 drug Drugs 0.000 description 3
- 239000003814 drug Substances 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000002349 favourable effect Effects 0.000 description 2
- 238000011835 investigation Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 208000037805 labour Diseases 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004064 recycling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
- G06Q10/1053—Employment or hiring
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及数据处理技术领域,尤其涉及一种融合数据治理方法及系统。所述方法获取待筛选简历数据,并基于简历模板将待筛选简历数据划分至待筛选简历组。待筛选简历组包括第一简历组、第二简历组和第三简历组。其中,第一简历组中的第一待筛选简历数据作为目标简历数据直接输出,第二简历组中的第二待筛选简历数据存储至预设缓存中以用于后续简历筛选,对第三简历组中的第三待筛选简历数据做删除处理。所述方法基于分组的手段,利用第二简历组中的待筛选数据参与后续简历筛选,有利于提升待筛选简历数据的利用率。
Description
技术领域
本申请涉及数据处理技术领域,尤其涉及一种融合数据治理方法及系统。
背景技术
随着互联网、智能硬件和软件技术的不断发展,人才招聘的方式逐渐电子化、信息化,招聘单位的招聘信息以及求职者的求职信息都在互联网公开,并且通过网络的方式进行初步的双向选择。
尽管市场上有许多招聘网站用于招聘,但仍旧需要通过企业的人力资源管理师对应聘者提供的简历来进行筛选,再对筛选合格的应聘者进行笔试、面试、体检以及背景调查,最终进行录取。这个过程由于过于繁琐,且不同人力资源管理师筛选存在过于主观的情况,会导致企业的用工风险提高且招聘效率低。
相关技术中可以基于筛选模型对简历进行筛选,通过预先构建筛选模型,使得筛选模型可以筛选出目标简历。但在待筛选数据量较大时,筛选模型的运算量较大,导致筛选模型的实时性较差。且筛选出的目标简历较多,还需在模型筛选的基础上加入人工筛选的过程,影响简历筛选效率。在面对一些冷门简历需求时,因目标简历的需求较为特殊,完全符合目标需求的待筛选数据较少,容易导致简历匹配性较差,进而使得基于冷门需求投递的待筛选数据利用率较低,且容易漏筛简历。
发明内容
本申请提供一种融合数据治理方法及系统,以解决使用筛选模型基于冷门简历需求筛选简历时,因需求冷门以及待筛选数据少,导致简历匹配性较差,待筛选数据利用率低的问题。
第一方面,本申请提供一种融合数据治理方法,所述方法包括:
获取待筛选简历数据;
基于简历模板,将所述待筛选简历数据划分至待筛选简历组;所述待筛选简历组包括第一简历组、第二简历组和第三简历组;
输出所述第一简历组中的第一待筛选简历数据,和,将所述第二简历组中的第二待筛选简历数据存储至预设缓存,和,删除所述第三简历组中的第三待筛选简历数据;其中,所述第二待筛选简历数据用于补充后续待筛选简历数据。
在一些可行的实施例中,所述方法还包括:
根据目标简历需求数据,设置简历模板;所述简历需求数据包括个人简介数据、背景调查数据、笔试数据、体检数据中的至少一种。
在一些可行的实施例中,不同的所述待筛选简历组对应的筛选分数范围不同;所述基于简历模板,将所述待筛选简历数据划分至待筛选简历组,所述方法包括:
计算简历模板与所述待筛选简历数据的相似度分数;
设置所述相似度分数为所述待筛选简历数据的筛选分数;
根据所述待筛选简历数据的筛选分数,将所述待筛选简历数据划分至所述待筛选简历组;所述第一待筛选简历数据的筛选分数大于所述第二待筛选简历数据的筛选分数,所述第二待筛选简历数据的筛选分数大于所述第三待筛选简历数据的筛选分数。
在一些可行的实施例中,所述方法还包括:
提取所述第一待筛选简历数据中的加分特征数据,所述加分特征数据与所述简历模板中的一般特征数据不同;
基于所述加分特征数据更新所述简历模板,得到迭代简历模板,所述迭代简历模板用于计算后续待筛选简历数据的筛选分数。
在一些可行的实施例中,所述提取所述第一待筛选简历数据中的加分特征数据,包括:
基于所述简历模板中的一般特征数据,计算所述第一待筛选简历数据中的准加分特征数据与所述一般特征数据的关联度;
若所述准加分特征数据与所述一般特征数据的关联度大于关联度阈值,则标记所述准加分特征数据为加分特征数据,所述加分特征数据用于增加待筛选简历数据的筛选分数。
在一些可行的实施例中,所述方法包括:
获取后续待筛选简历数据时,基于所述迭代简历模板,计算后序待筛选简历数据的筛选分数;所述后序待筛选简历数据包括所述预设缓存中缓存的所述第二待筛选简历数据;
根据所述后序待筛选简历数据的筛选分数,将所述后序待筛选简历数据划分至所述待筛选简历组。
在一些可行的实施例中,所述方法还包括:
在计算后续待筛选简历数据的筛选分数时,若所述第二待筛选简历数据的筛选分数未符合所述第一简历组对应的筛选分数范围,则在所述预设缓存中删除所述第二待筛选简历数据;其中,所述第二待筛选简历数据的筛选分数由基于所述迭代简历数据中的一般特征数据和加分特征数据计算得到。
由上述技术内容可知,本申请提供一种融合数据治理方法及系统。所述方法获取待筛选简历数据,并基于简历模板将待筛选简历数据划分至待筛选简历组。待筛选简历组包括第一简历组、第二简历组和第三简历组。其中,第一简历组中的第一待筛选简历数据作为目标简历数据直接输出,第二简历组中的第二待筛选简历数据存储至预设缓存中以用于后续简历筛选,对第三简历组中的第三待筛选简历数据做删除处理。所述方法基于分组的手段,利用第二简历组中的待筛选数据参与后续简历筛选,有利于提升待筛选简历数据的利用率。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的待筛选简历数据筛选流程图;
图2为本申请实施例提供的后序待筛选数据筛选流程图;
图3为本申请实施例提供的简历模板迭代示意图;
图4为本申请实施例提供的第二待筛选简历数据处理流程图。
具体实施方式
下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。
简历数据筛选是一个工作量较大的过程,单一通过人力筛选简历的效率较低,且容易形成漏选、非客观选择等情况。因此,可以通过简历筛选模型对待筛选简历进行筛选,以提高简历筛选的效率。简历筛选模型中可以预先加载关键词、关键字等内容,并通过计算待筛选简历数据中的内容与简历筛选模型中关键字、关键词的文本相似度,对待筛选简历数据进行筛选。
使用简历筛选模型时,若待筛选简历数据的数据量较大,单一的依靠关键字、关键词筛选得到的目标简历数量也应较多,因此还需人力筛选对目标简历进行精简,导致消耗人力资源。
此外,一些职位的工作内容较为冷门,其简历需求相对特殊,对于这类职位,其对应的待筛选简历数据量较小,因此目标简历数据较少,难以满足雇主的人员需求。且在冷门职位对应的待筛选简历数据量较少的基础上,单一依靠简历筛选模型中的关键字、关键词进行匹配,以保留目标简历并删除非目标简历的方式,相当于基于单次匹配进行简历筛选,对于待筛选简历数据来说,其利用率较低,容易导致简历漏选。
基于上述问题,如图1-图4所示,本申请提供一种融合数据治理方法,可以应用于简历筛选平台,方法包括:
S100:获取待筛选简历数据。
对于待筛选简历数据可以分批进行处理,以阶段性得到筛选结果,即目标简历。
S200:基于简历模板,将待筛选简历数据划分至待筛选简历组;待筛选简历组包括第一简历组、第二简历组和第三简历组。
简历模板为预先设置的模板,在对待筛选简历数据进行处理时,可以基于简历模板,判断待筛选简历数据是否符合需求。在一些实施例中,可以根据目标简历需求数据,设置简历模板。
可以理解的是,目标简历需求数据可以包括但不限于个人简介数据、背景调查数据、笔试数据、体检数据等内容。其中,个人简介数据可以包括个人特长、职业能力、工作经验、项目经历等多方面内容;背景调查数据可以为教育背景、家庭背景、学业背景等多方面内容;笔试数据则为参与求职考试时的相关分数;体检数据为参与求职体检时的相关分数。
基于简历模板,可以计算待筛选简历数据与简历模板的相似度,进而为待筛选简历数据赋予筛选分数。
在一些实施例中,不同的待筛选简历组对应的筛选分数范围不同。基于简历模板,将待筛选简历数据划分至待筛选简历组,包括:
计算简历模板与待筛选简历数据的相似度分数;
设置相似度分数为待筛选简历数据的筛选分数;
根据待筛选简历数据的筛选分数,将待筛选简历数据划分至待筛选简历组;第一待筛选简历数据的筛选分数大于第二待筛选简历数据的筛选分数,第二待筛选简历数据的筛选分数大于第三待筛选简历数据的筛选分数。
可以理解的是,在计算相似度的过程中,包括基于上述目标简历需求数据以及待筛选简历数据中的内容计算相似度分数,其过程可以涉及设置权重、求取加权平均值等多个步骤。需要说明的是,基于简历模板,计算待筛选简历数据与简历模板的相似度的过程采用现有技术即可,在此不再赘述。但对于简历数据中的不同内容可以设置不同的计算权重,以使得相似度计算结果更符合雇主需求。例如,学历、工作经历、职业技能的权重可以分别设置为20%、40%、40%。本申请旨在基于通过计算相似度分数,得到筛选分数,并进一步对待筛选简历数据进行分组。
在计算相似度分数时,可以基于简历模板的内容设置减分项,以对待筛选简历数据进行更精确的分组,提升待筛选简数据与雇主需求之间的契合度。需要说明的是,简历模板中包含的需求为雇主的基本需求,因此在计算待筛选简历数据与简历模板之间的相似度分数时,可以基于简历模板中的一般特征数据对待筛选简历数据进行减分处理,以提升待筛选简历数据分组的准确度。
本申请提供的待筛选简历组包括第一简历组、第二简历组和第三简历组。其中,第一简历组对应的筛选分数范围大于第二简历组对应的筛选分数范围,第二简历组对应的筛选分数范围大于第三简历组对应的筛选分数范围。例如,第一简历组对应的筛选分数范围可以为大于85分,第二简历组对应的筛选分数范围可以为70-85分,第三简历组对应的筛选分数范围为小于70分。
在一些实施例中,简历模板中的工作经验需求为大于或等于5年,工作经历需求为生物工程领域的工作经验、大数据工程领域的工作经验、神经网络模型开发领域的工作经验中的至少一项。若待筛选简历数据中的工作经验为1年,则不符合简历模板中的工作经验需求,因此在计算相似度分数时可以对工作经验为1年的简历数据进行扣分。可以理解的是,扣分操作可以在相似度分数计算的最后阶段执行,扣分项的分数可根据实际需求进行设置以提升适应性,对于同一个扣分项,也可设置权重以得到不同的扣分结果。
在本申请实施例中,扣分项还包括但不限于工作变动情况,例如在预设时间内多次更换工作,则可视为扣分项。其中,预设时间可以设置为1个或多个较短的周期,便于计算工作变更的频率,以更精准的识别工作变动情况。若在1个或多个较短的周期内,频繁更换工作,则可视为扣分项。此外,计算工作变更的频率,也可根据待筛选简历数据中的工作经历年限进行排序,若工作变更的频率越来越低,则可以减少扣除的分数,或者不扣分;若工作变更的频率越来越高,则可以增加扣除的分数,或者按预设值扣除分数。这样,可以提升待筛选简历数据的筛选质量,以提升雇主满意度。以及,基于待筛选简历数据的筛选质量提升,也相应地提升简历筛选效率。
例如,在计算相似度分数的过程中,待筛选简历数据扣分前的分数为71分,应划分至第二简历组;但经过扣分操作后,待筛选简历的相似度分数为69分,则需要将待筛选简历划分至第三简历组,并在后续处理过程中删除第三简历组中的待筛选数据。这样,可以提升待筛选简历数据在分组后的两次筛选过程中的筛选效率,以及过滤掉部分不合适的待筛选简历数据。
S300:输出第一简历组中的第一待筛选简历数据,和,将第二简历组中的第二待筛选简历数据存储至预设缓存,和,删除第三简历组中的第三待筛选简历数据。
其中,第二待筛选简历数据用于补充后续待筛选简历数据。
可以理解的是,第一简历组中的第一待筛选简历数据与简历模板的相似度最高,因此可以直接输出以作为目标简历数据。第二待筛选简历数据与简历模板的相似度适中,为了提高待筛选简历数据的利用率,可以将第二待筛选简历数据存储至预设缓存中,以用于后续简历筛选过程。需要说明的是,本申请实施例中的简历模板具有自适应更新的能力,因此基于简历模板的自适应更新,第二待筛选简历与简历模板相似度存在提高的可能,因此有可能在后续筛选过程中被划分至第一简历组,并成为目标简历。基于循环使用第二待筛选简历数据的特征,以及自适应更新简历模板的特征,有利于提高待筛选简历数据的利用率,并减少简历漏选现象。
对于第三待筛选简历数据,其与简历模板的相似度过低,可直接进行删除处理。因此,基于简历模板的相似度计算,可以直接过滤部分低相似度简历,以提升简历筛选效率。
可以理解的是,每个待筛选简历数据中均可能包含简历模板中未包含的数据内容,这部分数据内容若与目标简历需求相关,则可以为其所在的待筛选简历增加筛选分数,以及可以突出应聘者与职位的契合度。而这部分数据未在简历模板中体现,因此这部分数据有利于增加简历模板的覆盖范围,以此动态提升简历模板的覆盖范围可以增加待筛选简历数据筛选量和利用率,进而有利于符合雇主的人力需求。即如图3所示,本申请实施例提供的融合数据治理方法还包括:
提取第一待筛选简历数据中的加分特征数据,加分特征数据与简历模板中的一般特征数据不同;
基于加分特征数据更新简历模板,得到迭代简历模板,迭代简历模板用于计算后续待筛选简历数据的筛选分数。
需要说明的是,加分特征数据可用于增加待筛选简历数据在筛选过程中对应的筛选分数。因第二待筛选简历数据、第三待筛选简历数据对应的筛选分数较低,其本身对于职位的契合度可能并不高,因此其简历数据中包含的内容不宜作为加分特征数据。因此本申请实施例中仅对于第一待筛选简历数据中的加分特征数据进行提取,以提升加分特征数据的提取准确度,以及提取效率。
可以理解的是,简历模板中的一般特征数据可以为基于职位需求制定的内容,例如以原研药开发模型为例,原研药开发模型为计算机模型,涉及大数据、神经网络等技术需求。因此,关于原研药开发模型的简历模板中包含的一般特征数据可以为:神经网络模型经历-大数据应用经验。
此时,第一待筛选简历数据中包含的特征为:本科学历-生物制药,硕士学历-软件工程,项目经历-制药模型相关的神经网络模型优化。基于上述简历模板与第一待筛选简历数据中的内容,可以确定用于表征生物制药内容的数据相对于简历模板为加分特征数据,因此可以将用于表征生物制药内容的数据添加至简历模板中,以用于后续待筛选简历数据的筛选。
这样,基于第一待筛选简历数据中的加分特征数据,可以增加简历模板的覆盖范围,得到迭代简历模板。进而基于待筛选简历与简历模板以及职位需求的关联性,增加待筛选简历的利用率,从而符合雇主的人力需求。
此外,简历模板可以存储在预设缓存中,需要说明的是,简历模板与第二待筛选简历数据存储在预设缓存中并不冲突,例如可以设置多个预设缓存。在简历模板更新时,可直接将更新前的简历模板删除,并将更新后的迭代简历模板存储至预设缓存。
沿用上述实施例,加分特征数据指的是与简历模板中的一般特征数据具有较高关联程度的数据,因此可以用于补充简历模板。即本申请提供的一种融合数据治理方法在提取第一待筛选简历数据中的加分特征数据时,包括:
基于简历模板中的一般特征数据,计算第一待筛选简历数据中的准加分特征数据与一般特征数据的关联度;
若准加分特征数据与一般特征数据的关联度大于关联度阈值,则标记准加分特征数据为加分特征数据,加分特征数据用于增加待筛选简历数据的筛选分数。
需要说明的是,准加分特征数据为第一待筛选简历数据中包含的数据,且当前简历模板中未包含的数据。本申请实施例中基于简历模板中的一般特征数据与准加分特征数据的关联度,判断准加分特征数据是否能作为加分特征数据被提取。
在一些实施例中,可以设置关联度阈值,判断准加分特征数据与一般特征数据的关联度,此外简历模板本身可以表征招聘领域等招聘信息。例如,当准加分特征数据用于表征生物制药相关经历时,一般特征数据为神经网络模型工程经验时,可以基于简历模板对应的原研药开发领域,计算准加分特征数据与一般特征数据的关联度。当获知生物制药与神经网络模型可以结合时,则可以结算得到较高的关联度值,进而在关联度值大于关联度阈值的条件下,将生物制药相关经历这一准加分特征数据标记为加分特征数据,并用于更新简历模板。
需要说明的是,加分特征数据可以增加简历模板的覆盖范围,以使得简历模板反复迭代。尤其在冷门职位或能力需求较高的职位等待筛选简历数据量不足的情况下,可以深度发掘待筛选简历数据中的数据与简历模板中数据的关联度,进而提升待筛选简历数据的利用率。
可以理解的是,在一些要求特殊或比较冷门的职位,在未找到合适的可以胜任职位的单一人选的条件下,可以通过多人组合的形式共同执行相关职位的任务。例如,原研药开发模型的研究,仅通过计算机专业的相关技术人员,难以根据原研药数据发现其中的规律以及制药关键,导致模型开发速度较慢。此时,可以增设生物工程、药物研究等领域的人员辅助模型开发人员共同进行原研药模型开发。
因此,基于准加分特征数据、加分特征数据、简历模板本身表征的招聘领域、一般特征数据可以深度筛选与招聘职位关联度较高的人员,即提升待筛选简历数据的利用率。即使在难以筛选得到十分契合的目标简历的情况下,也可以通过筛选多个候选人员的待筛选简历,以满足雇主的人力需求。
可以理解的是,处理待筛选简历数据时,可以分批进行处理。通过分批处理待筛选简历数据,可以基于当前待筛选简历数据的处理结果,更新简历模板。同时也可以提高部分待筛选简历数据的利用率,以深度挖掘雇主需求与待筛选简历数据之间的关联。即如图2所示,本申请实施例提供的融合数据治理方法,包括:
获取后序待筛选简历数据时,基于迭代简历模板,计算后序待筛选简历数据的筛选分数;
根据后序待筛选简历数据的筛选分数,将后序待筛选简历数据划分至待筛选简历组。
如图2所示,后续待筛选简历数据包括预设缓存中缓存的第二待筛选简历数据。即在对新的一批待筛选简历数据进行筛选时,简历模板已经基于第一待筛选简历数据进行迭代。因此对于第一次简历筛选过程中划分得到的第二待筛选简历数据,基于迭代简历模板计算得到的筛选分数可能提升。
在一些实施例中,第二待筛选简历数据为83分,而简历模板经过迭代,添加了第一待筛选简历数据中的“生物工程相关经历”这一加分特征数据。且第二待筛选简历数据中包含与“生物工程相关经历”具有一定关联度的特征。则第二待筛选简历数据在后续简历筛选过程中,基于与“生物工程相关经历”关联的特征,使得其对应的筛选分数增加至86分,符合第一简历组对应的筛选分数范围。因此,第二待筛选简历数据可以在后续简历筛选过程中被划分至第一简历组,并作为目标简历直接被输出。
这样,将第二待筛选简历数据存储至预设缓存,并加入后续待筛选简历筛选的过程,可以有效提高待筛选简历数据的利用率,以及发掘雇主需求与待筛选简历数据之间的关联,进而有利于满足雇主的人力需求。
此外,对于筛选分数的具体计算方式,本申请实施例中不做任何限定,本申请实施例中旨在基于筛选分数划分待筛选简历数据,并使用第二待筛选简历数据参加后续简历数据筛选过程,进而提高待筛选简历数据的利用率。
可以理解的是,在后续简历数据筛选过程中,仍是以第一简历组、第二简历组、第三简历组对应的筛选分数范围,将待筛选简历数据划分至不同的简历组,并进一步执行输出、缓存、删除等动作。
因待筛选简历数据量较大,即使是筛选过后的数据,其数据量仍较大,因此为了不过多占用系统资源,本申请实施例提供的融合数据治理方法还包括:
在计算后续待筛选简历数据的筛选分数时,若第二待筛选简历数据的筛选分数未符合第一简历组对应的筛选分数范围,则在预设缓存中删除所述第二待筛选简历数据;其中,第二待筛选简历数据的筛选分数由基于迭代简历数据中的一般特征数据和加分特征数据计算得到。
需要说明的是,如图4所示,以筛选当前待筛选简历数据为第一次筛选,以筛选后续待筛选简历数据为第二次筛选。在当前待筛选建立数据过程中划分得到的第二待筛选简历数据,参与后续待筛选简历数据的筛选过程后,仍未被划分至第一简历组,则对第二待筛选简历数据执行删除处理,以减少第二待筛选简历数据对缓存资源的占用,同时去除冗余运算量,以便于融合数据治理方法的正常运行。
本申请实施例提供的融合数据治理方法,基于自适应更新的简历模板,计算待筛选简历数据的筛选分数,并基于筛选分数将待筛选简历数据划分至第一简历组、第二简历组、第三简历组。对于第一简历组中的第一待筛选简历数据直接输出以作为目标简历,对于第二简历组中的第二待筛选简历数据,以缓存的形式存储并参加后续待筛选简历数据的筛选以提高待筛选简历数据的利用率,删除第三简历组中的第三待筛选简历数据。其中,基于第一待筛选简历数据更新简历模板,有利于增加简历模板的覆盖范围,进而在符合需求的待筛选简历数据较少的情况下,深度挖掘简历模板(雇主需求)与待筛选简历数据的关联,有利于满足雇主的人力需求。此外,基于将第二待筛选简历数据缓存至预设缓存,并参与后续待筛选简历筛选的方式,进一步提高待筛选简历数据的利用率,以满足雇主的人力需求。
此外,通过计算待筛选简历数据的筛选分数对待筛选简历数据进行划分的方式,有利于减少冗余待筛选简历数据,降低运算量以提高简历筛选效率。
需要说明的是,在当前待筛选简历筛选过程、后续待筛选简历过程结束后,可以统一对输出的第一待筛选简历(目标简历)按照筛选分数进行排序。因第一简历组中的筛选分数不设上限,因此筛选分数越高的目标简历,一定程度上可以认为与雇主需求的契合度更高,因此通过筛选分数对目标简历进行排序输出,可以形成有效的目标简历推荐,以便于雇主对目标简历的进一步选择。
在一些实施例中,本申请提供一种融合数据筛选系统,包括:数据采集模块、数据处理模块、目标输出模块;
数据采集模块用于获取待筛选简历数据;
数据处理模块用于基于简历模板,将待筛选简历数据划分至待筛选简历组;待筛选简历组包括第一简历组、第二简历组和第三简历组;
目标输出模块用于输出第一简历组中的第一待筛选简历数据,和,将第二简历组中的第二待筛选简历数据存储至预设缓存,和,删除第三简历组中的第三待筛选简历数据;其中,第二待筛选简历数据用于补充后续待筛选简历数据。
由上述技术内容可知,本申请提供一种融合数据治理方法及系统。所述方法获取待筛选简历数据,并基于简历模板将待筛选简历数据划分至待筛选简历组。待筛选简历组包括第一简历组、第二简历组和第三简历组。其中,第一简历组中的第一待筛选简历数据作为目标简历数据直接输出,第二简历组中的第二待筛选简历数据存储至预设缓存中以用于后续简历筛选,对第三简历组中的第三待筛选简历数据做删除处理。所述方法基于分组的手段,利用第二简历组中的待筛选数据参与后续简历筛选,有利于提升待筛选简历数据的利用率。
本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。
Claims (7)
1.一种融合数据治理方法,其特征在于,所述方法包括:
获取待筛选简历数据;
基于简历模板,计算简历模板与所述待筛选简历数据的相似度分数,以及设置所述相似度分数为所述待筛选简历数据的筛选分数;
基于所述筛选分数将所述待筛选简历数据划分至待筛选简历组;所述待筛选简历组包括第一简历组、第二简历组和第三简历组;其中,不同的待筛选简历组对应的筛选分数范围不同;所述第一待筛选简历数据的筛选分数大于所述第二待筛选简历数据的筛选分数,所述第二待筛选简历数据的筛选分数大于所述第三待筛选简历数据的筛选分数;
输出所述第一简历组中的第一待筛选简历数据,和,将所述第二简历组中的第二待筛选简历数据存储至预设缓存,和,删除所述第三简历组中的第三待筛选简历数据;其中,所述第二待筛选简历数据用于补充后续待筛选简历数据。
2.根据权利要求1所述的融合数据治理方法,其特征在于,所述方法还包括:
根据目标简历需求数据,设置简历模板;所述简历需求数据包括个人简介数据、背景调查数据、笔试数据、体检数据中的至少一种。
3.根据权利要求1所述的融合数据治理方法,其特征在于,还包括:
提取所述第一待筛选简历数据中的加分特征数据,所述加分特征数据与所述简历模板中的一般特征数据不同;
基于所述加分特征数据更新所述简历模板,得到迭代简历模板,所述迭代简历模板用于计算后续待筛选简历数据的筛选分数。
4.根据权利要求3所述的融合数据治理方法,其特征在于,所述提取所述第一待筛选简历数据中的加分特征数据,包括:
基于所述简历模板中的一般特征数据,计算所述第一待筛选简历数据中的准加分特征数据与所述一般特征数据的关联度;
若所述准加分特征数据与所述一般特征数据的关联度大于关联度阈值,则标记所述准加分特征数据为加分特征数据,所述加分特征数据用于增加待筛选简历数据的筛选分数。
5.根据权利要求4所述的融合数据治理方法,其特征在于,包括:
获取后续待筛选简历数据时,基于所述迭代简历模板,计算后序待筛选简历数据的筛选分数;所述后序待筛选简历数据包括所述预设缓存中缓存的所述第二待筛选简历数据;
根据所述后序待筛选简历数据的筛选分数,将所述后序待筛选简历数据划分至所述待筛选简历组。
6.根据权利要求5所述的融合数据治理方法,其特征在于,还包括:
在计算后续待筛选简历数据的筛选分数时,若所述第二待筛选简历数据的筛选分数未符合所述第一简历组对应的筛选分数范围,则在所述预设缓存中删除所述第二待筛选简历数据;其中,所述第二待筛选简历数据的筛选分数由基于所述迭代简历数据中的一般特征数据和加分特征数据计算得到。
7.一种融合数据治理系统,用于执行权利要求1-7任一项所述的融合数据治理方法,其特征在于,包括:数据采集模块、数据处理模块、目标输出模块;
所述数据采集模块用于获取待筛选简历数据;
所述数据处理模块用于基于简历模板,计算简历模板与所述待筛选简历数据的相似度分数,以及设置所述相似度分数为所述待筛选简历数据的筛选分数;
所述数据处理模块还用于基于所述筛选分数将所述待筛选简历数据划分至待筛选简历组;其中,不同的待筛选简历组对应的筛选分数范围不同;所述待筛选简历组包括第一简历组、第二简历组和第三简历组;所述第一待筛选简历数据的筛选分数大于所述第二待筛选简历数据的筛选分数,所述第二待筛选简历数据的筛选分数大于所述第三待筛选简历数据的筛选分数;
所述目标输出模块用于输出所述第一简历组中的第一待筛选简历数据,和,将所述第二简历组中的第二待筛选简历数据存储至预设缓存,和,删除所述第三简历组中的第三待筛选简历数据;其中,所述第二待筛选简历数据用于补充后续待筛选简历数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311791412.7A CN117454317B (zh) | 2023-12-25 | 2023-12-25 | 一种融合数据治理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311791412.7A CN117454317B (zh) | 2023-12-25 | 2023-12-25 | 一种融合数据治理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117454317A true CN117454317A (zh) | 2024-01-26 |
CN117454317B CN117454317B (zh) | 2024-03-19 |
Family
ID=89589632
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311791412.7A Active CN117454317B (zh) | 2023-12-25 | 2023-12-25 | 一种融合数据治理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117454317B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122355A1 (en) * | 2012-10-26 | 2014-05-01 | Bright Media Corporation | Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions |
CN104239393A (zh) * | 2013-06-18 | 2014-12-24 | 成功要素股份有限公司 | 候选人简档的自动物色和筛选 |
CN110059923A (zh) * | 2019-03-13 | 2019-07-26 | 平安科技(深圳)有限公司 | 岗位画像和简历信息的匹配方法、装置、设备及存储介质 |
CN112990887A (zh) * | 2021-05-07 | 2021-06-18 | 北京车智赢科技有限公司 | 一种简历和岗位匹配的方法及计算设备 |
CN114117222A (zh) * | 2021-11-26 | 2022-03-01 | 北京金山数字娱乐科技有限公司 | 简历文档匹配方法、装置、计算设备及存储介质 |
CN114255837A (zh) * | 2021-12-21 | 2022-03-29 | 东软集团股份有限公司 | 数据查询方法、装置、计算机可读存储介质及电子设备 |
CN114254078A (zh) * | 2021-12-22 | 2022-03-29 | 中国工商银行股份有限公司 | 信息筛选方法及装置 |
CN115730040A (zh) * | 2022-11-21 | 2023-03-03 | 科大讯飞股份有限公司 | 简历筛选方法、计算机设备及存储介质 |
CN116644102A (zh) * | 2022-11-23 | 2023-08-25 | 企知道网络技术有限公司 | 投资对象的智能遴选方法、系统终端及计算机可读存储介质 |
-
2023
- 2023-12-25 CN CN202311791412.7A patent/CN117454317B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140122355A1 (en) * | 2012-10-26 | 2014-05-01 | Bright Media Corporation | Identifying candidates for job openings using a scoring function based on features in resumes and job descriptions |
CN104239393A (zh) * | 2013-06-18 | 2014-12-24 | 成功要素股份有限公司 | 候选人简档的自动物色和筛选 |
CN110059923A (zh) * | 2019-03-13 | 2019-07-26 | 平安科技(深圳)有限公司 | 岗位画像和简历信息的匹配方法、装置、设备及存储介质 |
CN112990887A (zh) * | 2021-05-07 | 2021-06-18 | 北京车智赢科技有限公司 | 一种简历和岗位匹配的方法及计算设备 |
CN114117222A (zh) * | 2021-11-26 | 2022-03-01 | 北京金山数字娱乐科技有限公司 | 简历文档匹配方法、装置、计算设备及存储介质 |
CN114255837A (zh) * | 2021-12-21 | 2022-03-29 | 东软集团股份有限公司 | 数据查询方法、装置、计算机可读存储介质及电子设备 |
CN114254078A (zh) * | 2021-12-22 | 2022-03-29 | 中国工商银行股份有限公司 | 信息筛选方法及装置 |
CN115730040A (zh) * | 2022-11-21 | 2023-03-03 | 科大讯飞股份有限公司 | 简历筛选方法、计算机设备及存储介质 |
CN116644102A (zh) * | 2022-11-23 | 2023-08-25 | 企知道网络技术有限公司 | 投资对象的智能遴选方法、系统终端及计算机可读存储介质 |
Non-Patent Citations (1)
Title |
---|
李劲;张华;辜希武;: "面向个人简历的事件抽取和检索框架", 计算机科学, no. 07, 15 July 2012 (2012-07-15), pages 154 - 160 * |
Also Published As
Publication number | Publication date |
---|---|
CN117454317B (zh) | 2024-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020253503A1 (zh) | 人才画像的生成方法、装置、设备及存储介质 | |
CN110619506B (zh) | 一种岗位画像生成方法、岗位画像生成装置及电子设备 | |
US20140317079A1 (en) | Personnel recrutment system using fuzzy criteria | |
CN110532357A (zh) | Esg评分体系的生成方法、装置、设备及可读存储介质 | |
CN112085219B (zh) | 模型训练方法、短信审核方法、装置、设备以及存储介质 | |
CN110196943A (zh) | 一种职位智能推荐系方法及其系统 | |
CN110895586A (zh) | 生成新闻页面的方法、装置、计算机设备及存储介质 | |
US20040148180A1 (en) | Facilitating job advancement | |
CN110310012B (zh) | 数据分析方法、装置、设备及计算机可读存储介质 | |
CN115587807A (zh) | 一种基于移动互联网的招聘需求匹配方法及装置 | |
CN108182512B (zh) | 一种简历评估方法及装置 | |
CN117454317B (zh) | 一种融合数据治理方法及系统 | |
CN113570348A (zh) | 一种简历筛选方法 | |
CN115248890A (zh) | 用户兴趣画像的生成方法、装置、电子设备以及存储介质 | |
CN115545960B (zh) | 一种电子信息数据交互系统及方法 | |
CN107766537A (zh) | 一种职位搜索排序方法及计算设备 | |
CN116127376A (zh) | 模型训练方法、数据分类分级方法、装置、设备及介质 | |
CN115034762A (zh) | 一种岗位推荐方法、装置、存储介质、电子设备及产品 | |
CN113239283A (zh) | 一种基于多维度的岗位匹配度计算方法及系统 | |
CN108182513B (zh) | 一种简历评估方法及装置 | |
Dai et al. | Intelligent audit question answering system based on knowledge graph and semantic similarity | |
CN110717008A (zh) | 基于语意识别的搜索结果排序方法及相关装置 | |
CN111080221A (zh) | 基于求职招聘双方需求的双向竞价匹配方法与系统 | |
Ahmed et al. | Lda Topic Modelling On Job Advertisements To Analyze Transformation Of Traditional Quality To Quality 4.0. | |
Feng | Internet use, risk attitude and willingness for individual entrepreneurship |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |