CN115879901A - 一种智能人事自助服务平台 - Google Patents
一种智能人事自助服务平台 Download PDFInfo
- Publication number
- CN115879901A CN115879901A CN202310145831.7A CN202310145831A CN115879901A CN 115879901 A CN115879901 A CN 115879901A CN 202310145831 A CN202310145831 A CN 202310145831A CN 115879901 A CN115879901 A CN 115879901A
- Authority
- CN
- China
- Prior art keywords
- event
- resume
- keyword
- probability
- keywords
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 11
- 150000001875 compounds Chemical class 0.000 claims description 10
- 238000007405 data analysis Methods 0.000 claims description 8
- 238000003064 k means clustering Methods 0.000 claims description 4
- 230000001186 cumulative effect Effects 0.000 claims description 3
- 238000012216 screening Methods 0.000 abstract description 7
- 230000010365 information processing Effects 0.000 abstract description 3
- 230000006870 function Effects 0.000 description 23
- 230000000694 effects Effects 0.000 description 20
- 230000007115 recruitment Effects 0.000 description 16
- 238000000034 method Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 6
- 238000012827 research and development Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000001914 filtration Methods 0.000 description 5
- 230000014509 gene expression Effects 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010606 normalization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002950 deficient Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000002401 inhibitory effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 235000019633 pungent taste Nutrition 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明涉及数据信息处理检索技术领域,具体涉及一种智能人事自助服务平台;首先获取应聘人员简历和岗位要求,然后提取简历信息中的目标词语、关键词和事件语句,并将关键词出现概率进行归一化处理;进而根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率和语义相似概率。通过关键词组合概率和语义相似概率将语义进行数字化表示语义特征;根据关键词组合概率获得第一差异度,根据语义相似概率获得第二差异度,根据差异度将所有简历进行聚类,将简历类型相似即工作经验、经历相似的应聘人员聚为一簇,通过将简历中关键词和岗位要求关键词匹配,进一步筛选应聘人员。
Description
技术领域
本发明涉及数据信息处理检索技术领域,具体涉及一种智能人事自助服务平台。
背景技术
人事工作为人力资源管理工作,包含人力资源规划、招聘、培训、绩效、薪酬和员工关系六大模块。人事在招聘工作中,对于热门的岗位,应聘人员较多,收到的简历可能至少上百份。若人事进行仔细浏览筛选会耗费大量时间,效率低,且存在部分简历未查看的情况,同时如果人事工作经验不足,不能找到合适的人才入职。
目前一些智能化的解决办法比如获取面试人员多个维度的信息进行量化打分,但对信息量化打分的准确性、合理性都不能满足要求;或者通过用户画像与岗位能力标签匹配的方法进行建立筛选,需要人工创建能力标签,通用性较低,且耗时耗力;或是通过简历抽取关键词的方法进行筛选,依赖于关键词抽取的准确性,关键词抽取准确低会影响筛选的结果。
发明内容
为了解决上述难以准确高效地对大批量筛选简历的技术问题,本发明的目的在于提供一种智能人事自助服务平台,所采用的技术方案具体如下:
数据采集模块,用于采集应聘人员的简历信息和岗位要求;
数据处理模块,用于获取简历信息中的目标词语、关键词和事件语句,计算关键词在目标词语上下文中出现的概率,根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率,根据关键词组合概率获得语义相似目标函数,根据语义相似目标函数获得语义相似概率;
数据分析模块,用于根据不同应聘人员简历中的事件语句进行匹配,获得同类事件语句,根据同类事件语句的关键词组合概率和未匹配事件语句数量获得第一差异度;根据同类事件语句的语义相似概率和未匹配事件语句数量获得第二差异度,根据第一差异度和第二差异度对所有简历进行聚类获得至少两种简历类型簇;根据岗位要求匹配合适的简历类型簇,从合适的简历类型簇中初步挑选应聘人员。
进一步地,所述数据处理模块中获取关键词词性权重的具体步骤包括:
预设不同词性的关键词词性权重,在事件语句中,若出现多个相同词性的关键词,则所有相同词性的关键词均摊对应关键词词性权重,若相同词性的关键词只有一个,则不需要均摊对应关键词词性权重。
进一步地,所述数据处理模块中获取关键词组合概率的具体步骤包括:
式中,表示任意一个事件语句,/>表示事件语句/>中的任意一个关键词,/>表示出现目标词语/>的事件语句中任意一类关键词,/>表示事件语句中的目标词语,/>表示第/>个事件语句中的关键词组合概率,/>表示第/>个关键词在所有简历事件语句中与目标词语/>同句的次数,/>表示第/>类关键词在所有简历事件语句中与目标词语/>同句的次数,/>表示第/>个事件语句中第/>个关键词所均摊的关键词词性权重,/>表示所有简历事件语句中与目标词语/>同句的所有关键词类型,/>表示所有简历事件语句中与目标词语/>同句的所有关键词数量,/>表示第/>个事件语句中关键词数量。
进一步地,所述数据处理模块中获取语义相似目标函数的具体步骤包括:
式中,为第/>个事件语句中目标词语/>的语义相似目标函数,/>含义为取括号中函数最小值,/>表示所有简历数量,/>表示任意个简历数量,/>表示遍历/>个简历后,存在目标词语/>的事件语句的关键词组合概率的累乘值,表示遍历/>个简历后,与存在目标词语/>的事件语句关键词组合完全相同的的关键词组合概率值理想值的二项式通项计算式。
进一步地,所述数据处理模块中获取语义相似概率的具体步骤包括:
进一步地,所述数据分析模块中获取第一差异度的具体步骤包括:
式中,和/>表示不同的应聘人员简历,/>表示不同应聘人员简历的同类事件语句的第一差异度,/>和/>分别表示应聘人员简历/>和/>的包含目标词语/>的事件语句的关键词组合概率,/>表示不同应聘人员简历能够相互匹配的事件语句数量,/>表示不同应聘人员的简历中同类事件语句的关键词组合概率的最小差异值,/>表示未匹配事件语句数量与预设影响值的乘积。
进一步地,所述数据采集模块中通过TextRank算法获取应聘人员的简历信息。
进一步地,所述数据分析模块中通过K-means聚类算法获得至少两种简历类型簇。
本发明具有如下有益效果:
获取简历信息中的目标词语、关键词和事件语句,目的是挖掘应聘人员的工作经历、经验等较为重要的主观类介绍内容,同时抑制部分应聘人员与岗位要求相关度较低的个性化表达内容;根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率,以及根据语义相似目标函数获得语义相似概率,目的是通过关键词组合概率值和语义相似概率将简历中语句的语义特征进行量化,避免仅利用关键词对简历进行筛选所造成的较大误差结果;通过关键词组合概率和语义相似概率的数值表征不同事件语句的语义特征,通过数字化语义特征便于进行简历的聚类;根据不同应聘人员简历中的事件语句进行匹配,获得同类事件语句,目的是在聚类之前将事件语句结构最相似的进行匹配,提高差异度计算的准确性以及提高简历聚类的准确性;计算第一差异度和第二差异度的目的是计算不同应聘人员简历的相似度,相似度高意味着应聘人员的工作经历、经验等比较接近,进而可以此类应聘;应聘人员的简历聚类为一簇。聚类后同一类型簇的简历中的应聘人员的工作经历、经验等都比较接近,可以从匹配度较高的简历簇中进一步挑选合适的应聘人员,减少人事的工作量,提高招聘效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种智能人事自助服务平台框图;
图2为本发明一个实施例所提供的文档分割图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种智能人事自助服务平台,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种智能人事自助服务平台的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种智能人事自助服务平台框图,该平台包括:数据采集模块,数据处理模块和数据分析模块。
数据采集模块S1,用于采集应聘人员的简历信息和岗位要求。
在本发明实施例中,智能人事自助服务平台目的为提高应聘人员的简历筛查效率,以及为招聘人才与岗位职能的适配提供帮助。此智能人事自助平台适用的场景例如:对于比较热门的职位进行招聘时,可能会收到几百上千份简历,如果人事在所有简历中进行浏览筛查出符合岗位要求的应聘人员并进行沟通,则工作量大效率低,且部分应聘人员的简历可能没有被查看从而造成合适人才的流失;另一方面,如果人事的岗位职能经验不足,也可能造成入职的应聘人员能力和岗位不符合,对应聘人员和公司都造成了损失。为了使应聘人员的简历都可以进行一遍初筛,需要智能人事自助平台进行辅助筛选,将简历中具有相似职业经历或工作经验的应聘人员进行归类,然后根据简历类型簇与岗位要求进行匹配,初步筛选岗位适配度较高的应聘人员。所以智能人事自助服务平台适用于应聘人员多,简历数量大,难以完成简历初筛的场景。
首先,在进行大量简历初筛之前,需要先通过数据采集模块获取岗位的招聘要求以及所有应聘人员投递的电子版简历。对于获取岗位的招聘要求分为客观类要求和主观类要求,客观类要求包括:姓名、性别、年龄、学历和专业等存在具体确定的要求,对于客观类的要求往往都是硬性要求,比如学历专业等,设置招聘岗位的企业可以自行确定客观类要求,对应聘人员来说只有符合或不符合。而岗位的主观类要求相对来说较为复杂,主观类要求例如工作经验、工作项目、个人性格、能力特长等要求,对于主观类要求没有准确的衡量标准,因此智能人事平台可以根据岗位名称为检索目标,利用网络爬虫技术在此类相似招聘岗位的网站中获取岗位的主观类要求,网络爬虫是一种高效的搜索引擎,设定网络爬虫在有关岗位名称的语句,段落中先搜索“需要、具备、具有”等前置词,再获取前置词的后置词,例如“细心、负责、好学、虚心、热情、三年经验、大型项目”等后置关键词作为主观类需求属性标签,根据这些标签在招聘网站的相似招聘岗位要求中出现的频次对标签进行排序,获取前十个属性标签作为此岗位的主观类要求。需要说明的是,网络爬虫为公开技术,具体实现步骤不再赘述,主观类要求的属性标签数量可根据不同岗位实施者自行设定。至此,所需要招聘的岗位的客观类要求和主观类要求都已经确定。
确定岗位招聘要求后,则需要采集所有应聘人员的简历信息。首先采集所有应聘人员的电子版简历,利用TextRank算法对电子版简历中的关键句、关键词进行提取,TextRank算法能够从一个给定的文本中抽取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法抽取出该文本的关键句。需要说明的是,TextRank算法是公开技术,具体关键词提取步骤不再赘述。获取简历的关键句、关键词后,将简历的关键词区分为客观类介绍表框和主观类介绍表框,客观类介绍表框例如:姓名、性别、年龄、学历和专业等。主观类介绍表框例如:工作经验、个人性格、成就、个人特长、项目经历等。智能人事自助服务平台通过应聘人员的客观类介绍表框和主观类介绍表框,将应聘人员通过多维信息客观具体地描述出来。
采集招聘岗位的要求和应聘人员的简历信息后,首先可根据客观类要求和客观类介绍表框对应聘人员进行筛选,因为客观类要求只有符合和不符合的情况,因此根据客观类介绍表框中的关键词和客观类要求的关键词进行匹配,若不符合客观类要求,则将此应聘人员的简历进行剔除,不再进行后续主观类介绍表框的分析,减少了智能人事自助服务平台的计算量。至此,通过数据采集模块采集了应聘人员的简历信息和岗位要求,将不符合岗位客观要求的应聘人员简历进行剔除,剩余的应聘人员的简历进行主观类介绍表框的分析。
需要说明的是,在其他实施例中也可将客观类词语用于后续的模块处理中,因为主观类词语组合较为复杂,因此在后续模块中仅针对主观类词语进行表述说明。
数据处理模块S2,用于获取简历信息中的目标词语、关键词和事件语句,计算关键词在目标词语上下文中出现的概率,根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率,根据关键词组合概率获得语义相似目标函数,根据语义相似目标函数获得语义相似概率。
对于不同的应聘人员,每个应聘人员的主观类介绍表框中的内容可能都不完全相同,部分应聘人员的简历或多或少会存在一些个性化元素的介绍内容,如果对简历逐一仔细筛查,工作量也会较大,且人工智能难以在过多的个性化元素中统一衡量标准,即对一些个性化的介绍内容无法将其简历放在一起比较。所以需要利用协同滤波的方式将具有相似职业经历、工作经验或职业生涯规划的应聘人员进行归类,从归类群体中进一步地分析该类人群的真正求职意图和能力水平,实现较为准确地人岗匹配。协同滤波的概念是指在海量的用户中发掘出和目标用户的能力或经验等比较相似的一部分人群,在协同滤波中,这些用户成为同一类人,在本发明实施例中协同滤波即为将有相似工作经验或能力的应聘人员归为同一类型。在本发明实施例中,协同滤波思想的主要步骤为特征提取、特征去噪并归一化、计算相似度并归类。
通过协同滤波的方式将应聘人员进行归类首先需要进行特征提取,即分析主观类介绍表框中的关键词、关键句。首先将数据采集模块中获得的应聘人员简历的主观类介绍表框的文档分割为四层:文档、段落、句子和单词,分割具体步骤参考图2;主观类介绍表框的文档指采集的多个关键句组成的文档,分割的目的是更容易提取特征,并获得目标词语、关键词和事件语句。
将主观类介绍表框的文档分割后,获取每个关键句中关键词的词性。将关键词在“现代汉语语义词典(SKCC)”数据库中进行搜索和匹配每个关键词的词性,现代汉语语义词典是一部面向自然语言信息处理的语义知识库,以数据库文件形式收录6.6万余条汉语实词,其中包含了每个词语所属的词类、语义类、以及多种语义组合的详细描述和限制。根据词性来赋予每个词语在语句中扮演的角色。例如“张三参与了一件特大规模的研发项目”,其中“张三”词性为人物名词,“参与”为中心动词,“一件”是量词,“特大规模”是形容词,“研发项目”是描述事件的名词。至此,将所有应聘人员的主观类介绍表框中的关键词的词性确定,进而分析事件语句中的关键词组合概率。
分析事件语句中的关键词组合概率需要先确定目标词语、关键词和事件语句的定义。在企业招聘过程中,更看重的是应聘人员的工作经验,项目经历等,并且应聘人员在简历中介绍自己的工作经历或个人经历的语句中,语句主要结构包含了人物、动作、事件,即某人做了某事,如果是详细介绍则为某人在某时间、某地点做了某种程度的某事。所以“做”了某事在介绍中显得比较重要,“做”是一种动词,比如“参与、完成、设计、协助”等词语都是动词,可以发现动词在介绍语句中连接了其他所有词语,因此本发明实施例中,以词性为动词的词语作为“目标词语”,将包含目标词语的语句作为简历中的挖掘点,以包含目标词语的语句称为“事件语句”。其余跟人物、行为无关的描述,则认为不具有或包含较少有关应聘人员的工作经验,项目经历的特征语句,无挖掘价值,即无分析的必要性。在事件语句中,除去中心动词的目标词语,其余的不同词性的词语都称为“关键词”。
关于目标词语、关键词和事件语句,举例说明,例如在某应聘人员的主观类介绍表框文档中,“张三去年在深圳参与了一件特大规模的研发项目”,参与为中心动词,将“参与”作为目标词语,则此句话则为包含目标词语的事件语句;“张三、去年、深圳、一件、特大规模、研发项目”皆为事件语句中不同词性的关键词。另一个应聘人员的主观类介绍表框文档中,“李四前年在杭州参与了一件较小规模的研发项目”,参与为中心动词,将“参与”作为目标词语,则此句话则为包含目标词语的事件语句;“李四、前年、杭州、一件、较小规模、研发项目”皆为事件语句中不同词性的关键词。在计算主观类介绍表框文档句子中不同词语出现的概率时,以中心动词为目标词语,步长根据每一句的长度自适应,计算事件语句中关键词在目标词语上下文中出现的概率值。其中需要对不同词性的关键词设置不同的权重,人物、时间、地点类的关键词权重应该较低,形容词与事件名词的权重应该较高。在本发明实施例中,设定人物、时间、地点名词的权重均为0.05,形容词的权重为0.35,事件名词的权重为0.5;且同一事件语句中,相同词性的关键词无论存在多少个,均摊其对应词性的权重,例如在一个事件语句中出现了“我参与了一个较大规模的、极其困难的、资金缺乏的某项目”,三个关于事件的形容词“较大规模的、极其困难的、资金缺乏的”均摊形容词0.35的权重值。若相同词性的关键词只有一个,则不需要均摊对应关键词词性权重。设置权重的目的在于抑制不同简历中的重要性较低的个性化介绍,挖掘更具有实际意义的关键词将应聘人员进行归类。需要说明的是,实施者可根据实施场景自行确定关键词的权重。
确定目标词语、关键词和事件语句以及关键词的权重后,可以计算事件语句的关键词组合概率,首先需要通过word2vec算法将关键词组合出现概率进行归一化,传统word2vec算法归一化因子,是在语义词典库中进行归一化,计算代价极大;本发明实施例中,仅以岗位所有应聘人员的简历中,主观类介绍表框文档的关键词集合为基础词库对每个事件语句中的关键词出现概率进行归一化,获得关键词在目标词语上下文中出现的概率。需要说明的是,word2vec算法为公开技术,具体归一化方法不再赘述。
进一步地,根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率的具体步骤包括:
式中,表示任意一个事件语句,/>表示事件语句/>中的任意一个关键词,/>表示出现目标词语/>的事件语句中任意一类关键词,/>表示事件语句中的目标词语,/>表示第/>个事件语句中的关键词组合概率,/>表示第/>个关键词在所有简历事件语句中与目标词语/>同句的次数,/>表示第/>类关键词在所有简历事件语句中与目标词语/>同句的次数,/>表示第/>个事件语句中第/>个关键词所均摊的关键词词性权重,/>表示所有简历事件语句中与目标词语/>同句的所有关键词类型,/>表示所有简历事件语句中与目标词语/>同句的所有关键词数量。/>表示第/>个事件语句中关键词数量。
表示第/>个关键词在所有简历事件语句中与目标词语/>同句的次数除以所有简历事件语句中与目标词语/>同句的所有关键词数量。将该事件语句/>中每个关键词的概率值进行加权累加,即/>,得到该事件语句的关键词组合概率值/>。由于对不同词性的关键词设置了权重,因此部分简历中的个性化表达得到抑制,所以关键词组合概率值/>描述的是事件语句中具有挖掘价值进行分析的部分。
关于事件语句中关键词词性权重的举例说明,例如,包含目标词语“参与”的第个事件语句为“我参加了一件极大规模的、极其困难的研发项目”,在该事件语句中,词性为形容词的关键词有“极大规模的”和“极其困难的”,则在计算每个形容词词性关键词出现的关键词组合概率时,其每个形容词词性的关键词权重/>值为/>,即两个相同词性的关键词有“极大规模的”和“极其困难的”均摊对应词性的权重;若事件语句中同一词性的关键词只有一个,则不需要均摊对应权重,比如该事件语句中,描述事件的事件名词只有“研发项目”,则其事件名词的关键词词性权重/>为预设的0.5。
进一步地,关于事件语句的关键词组合概率值举例说明,例如:所有应聘简历中的事件语句中,出现目标词语“参加”的事件语句有:“我参与了校园活动”和“我参与了社会实践”两个。其中关键词有“我*2、校园活动*1、社会实践*1”;将“我参与了校园活动”作为事件语句/>,将“我”和“校园活动”作为事件语句中的不同的关键词/>;/>表示第/>个事件语句中关键词数量为2,即“我”和“校园活动”两个;/>表示任意一类关键词,即“我、校园活动、社会实践”三类关键词;/>表示第/>个关键词在所有简历事件语句中与目标词语同句的次数,例如“我”是第/>个关键词,则/>值即为“我*2”;/>表示第/>类关键词在所有简历事件语句中与目标词语/>同句的次数,例如“我”是第/>类关键词,则/>值为2,即“我*2”,“校园活动”是第/>类关键词,则/>值为1,即“校园活动*1”;/>表示第/>个事件语句中第/>个关键词所均摊的关键词词性权重,“我”是人物词性,且该事件语句中相同词性的关键词只有一个“我”,则对应权重/>为0.05;/>表示所有简历事件语句中与目标词语/>同句的所有关键词数量,即“我*2+校园活动*1+社会实践*1=4”,为4;则/>值为/>,其中/>和/>分别为“我”和“校园活动”在包含目标词语“参加”的事件语句出现的通过word2vec算法归一化后的概率,所以“我参与了校园活动”事件语句/>的关键词概率/>值为0.15。
因此,以“我参与了校园活动”事件语句举例来说,该事件语句的关键词概率值更多描述的是“我参与了校园活动”中出现的关键词组合在所有简历中出现的概率,通过关键词概率/>值将事件语句进行特征量化,进而方便后续的简历归类。
进一步地,由于在本发明实施例中,将原本在固定词库基础上将关键词出现概率归一化的方法变为了在招聘岗位的所有应聘简历基础上将关键词出现概率归一化。所以关键词组合概率仅仅是根据各个关键词在所有简历中出现目标词语的事件语句中的频次概率加权累加获得。如果在简历归类步骤中,仅以关键词组合概率/>值作为相似度进行计算时,若某应聘人员的职业生涯或工作经历与其他大多数应聘人员相似,但其中一两条经历比较特殊,则特殊的经历中关键词组合概率值可能为1,此时会对后续相似度计算的影响较大,因此关键词组合概率仅能体现语句的关键结构特征,不能作为该语句的语义特征。所以为了提高简历归类的准确性,还需要进一步计算语义相似概率。
计算语义相似概率需要先设定语义相似目标函数,根据语义相似目标函数确定语义相似概率值,获取语义相似目标函数的具体步骤包括:
式中,为第/>个事件语句中目标词语/>的语义相似目标函数,/>含义为取括号中函数最小值,/>表示所有简历数量,/>表示任意个简历数量,/>表示遍历/>个简历后,存在目标词语/>的事件语句的关键词组合概率的累乘值,表示遍历/>个简历后,与存在目标词语/>的事件语句关键词组合完全相同的关键词组合概率值理想值的二项式通项计算式。
式中的表示理想关键词组合概率值的二项式通项计算式,理想情况下,假设其他简历中事件语句与当前简历中第/>个事件语句的语义完全相同,那么其他简历中事件语句的关键词组合概率值也同样为/>,则理论上该事件语句在所有简历中出现的概率为其二项式通项计算式,即任意一份简历存在该事件语句,或者不存在该事件语句,简历不存在该事件语句的概率为/>。/>表示遍历/>个简历后,与存在目标词语/>的事件语句关键词组合完全相同的理想关键词组合概率值的二项式通项计算式,即关键词组合概率的理想值。
然而实际情况中,其他简历中存在目标词语的事件语句的关键词组合情况和当前简历中存在目标词语/>的事件语句的关键词组合情况可能相同,也可能相似或者不相同,实际遍历了/>个简历后,这些简历中事件语句的关键词组合概率为/>,即遍历的简历中存在目标词语/>的事件语句的关键词组合概率值累乘。则/>表示遍历/>个简历后,出现目标词语/>的事件语句的关键词组合概率值的实际概率值和理想概率值的比值,如果比值越接近1,意味着这些简历中有关存在目标词语/>的事件语句的关键词组合情况越相似。那么对于/>,即为在所有简历中,关于同类事件语句关键词组合概率实际值和关键词组合概率理想值最接近时,此时存在个简历数量与当前简历的目标词语/>的事件语句的语义最接近。需要说明的是,遍历顺序没有限制,只需要找到语义相似目标函数最小值即可。
对于语义相似目标函数和语义相似概率值的推导过程举例说明,例如:在两个简历中,存在“我参与了校园活动”和“我参与的大型校园活动”两个同样包含目标词语“参与”的事件语句,对于这两个事件语句的关键词组合概率值是不相同的,因为其中一个事件语句多了一个关键词“大型”,但两句事件语句表达的意思是相似的,所以需要计算语义相似概率值提高后续简历归类的准确性。理论情况下,对于“我参与了校园活动”事件语句,其他简历中存在这句话或者不存在,即在所有简历中出现该事件语句的关键词组合概率值理想值为计算语义相似目标函数公式中的二项式通项计算式。比如对于五份简历出现目标词语“参与”的事件语句,对当前简历,该事件语句的关键词组合概率值为0.3,假设理想情况下其他简历只会存在语义相同或不相同的情况,则所有简历的事件语句的关键词组合概率值理想值即为语义相似目标函数公式中的二项式通项计算式;然而实际情况中,其他4份简历对于同目标词语的事件语句的概率值为0.29、0.31、0.48、0.52,此时只有三份简历的关键词组合概率值最接近,分别为“0.3、0.29、0.31”,因此,当语义相似目标函数中/>为3时,此时目标函数中关所有简历的关键词组合概率值实际值和关键词组合概率值理想值的比值最接近1,即目标函数值最小,所以对于当前简历,存在目标词语“参与”的事件语句,其语义相似概率值为/>。
至此,在本发明实施例中,通过确定应聘人员简历的主观类介绍表框文档中的目标词语、关键词和事件语句,分别计算了事件语句的关键词组合概率和语义相似概率。其中,以介绍语句中的动词为目标词语,以目标词语上下文中出现的不同词性的词语为关键词,以出现目标词语的语句作为事件语句。计算同一目标词语的不同事件语句的关键词组合概率后,再以实际不同简历关于同目标词语所在事件语句中关键词组合概率得到关键词组合概况实际值,然后假设其他简历与当前简历语句的语义完全相同,得到目标词语的关键词组合概率理想值;当实际值和理想值最接近时,表示所有简历中,与当前简历中目标词语最相似的最大简历数量。以该最大简历数量与所有简历数量的比值,得到当前简历存在目标词语的事件语句的语义相似概率值。
将语义数字化成关键词组合概率值的本质是降维计算,所以单纯以频次概率表征语义特征缺乏说服力,本发明实施例以在简历中事件语句的语义相似概率作为其语义特征,是在有限条件下对频次概率的升维,使其不仅包含关键词组合的概率,同时还包含与该目标词语关键词组合最相似的简历数量,因为难以直接数字化语义,但是关键词组合最相似,一定程度上代表语义最大程度接近,因此计算语义相似概率来表征语义特征比单一的关键词组合概率更具说服力,使简历归类更准确。
数据分析模块S3,用于根据不同应聘人员简历中的事件语句进行匹配,获得同类事件语句,根据同类事件语句的关键词组合概率和未匹配事件语句数量获得第一差异度;根据同类事件语句的语义相似概率和未匹配事件语句数量获得第二差异度,根据第一差异度和第二差异度对所有简历进行聚类获得至少两种简历类型簇;根据岗位要求匹配合适的简历类型簇,从合适的简历类型簇中初步挑选应聘人员。
计算了事件语句的关键词组合概率和语义相似概率值后,需要对所有应聘人员的简历进行归类。简历归类是为了将相似职业生涯、工作经验等应聘人员聚为一簇,关键词组合概率和语义相似概率值的作用就是将语义数字化表征语义特征,所以根据应聘人员简历的关键词组合概率和语义相似概率值计算相似度并聚类。
进一步地,根据不同应聘人员简历中的事件语句进行匹配,获得同类事件语句,因为两个不同的应聘人员中,每个应聘人员中都有多句事件语句包含目标词语“参与”,为了聚类准确,需要从两个应聘人员中将关键词组合概率值最接近的相同目标词语的事件语句进行匹配。例如某一应聘人员简历中存在“我参与了大型项目”和“我多次参与了校园竞赛”两个包含相同目标词语的事件语句,另一应聘人员简历中存在“我参与了小型项目”,此时需要进行事件语句匹配,获得同类事件语句,将不同应聘人员的“我参与了大型项目”和“我参与了小型项目”进行匹配获得同类事件语句,“我多次参与了校园竞赛”为未匹配事件语句,因为前面两句事件语句的关键词组合概率最接近,而不是将“我多次参与了校园竞赛”和“我参与了小型项目”进行匹配。具体进行事件语句匹配的方法在计算差异度的公式中体现。同类事件匹配后,需要进行差异度的计算。
根据同类事件语句的关键词组合概率和未匹配事件语句数量获得第一差异度的具体步骤包括:
式中,和/>表示不同的应聘人员简历,/>表示不同应聘人员简历的同类事件语句的第一差异度,/>和/>分别表示应聘人员简历/>和/>的包含目标词语/>的事件语句的关键词组合概率,/>表示不同应聘人员简历能够相互匹配的事件语句数量,表示不同应聘人员的简历中同类事件语句的关键词组合概率的最小差异值,/>表示未匹配事件语句数量与预设影响值的乘积。
其中,计算的目的是为了进行同类事件的匹配,当两个相同目标词语的事件语句的关键词组合概率越接近时,此时/>的值是最小值,需要说明的是,/>中需要将较小值作为分子。存在/>值是因为若存在未匹配的事件语句,也需要体现未匹配事件语句的差异,因此将未匹配事件语句作为影响因子/>,在本发明实施例中,将未匹配的事件语句的预设影响值设定为0.5,若存在/>个未匹配的事件语句,则值为0.5与/>的乘积。需要说明的是,实施者可根据实施场景自行确定未匹配的事件语句的影响值的数值。
至此,第一差异度的公式是计算不同应聘人员简历中所有同类事件语句的关键词组合概率比值累加值和未匹配事件语句影响因子之和,然后再除以匹配的事件语句数量。当第一差异度的值越小,则意味着两个应聘人员的多个同类事件语句的关键词组合结构比较相似,初步认为两个应聘人员的工作经验、经历可能较为相似,但还需要根据语义相似概率进一步分析。
式中,表示不同应聘人员的同类事件语句的第二差异度,/>和/>为应聘人员简历/>和/>的语义相似概率。第二差异度和第一差异度的具体获取步骤相似,不再赘述。当第二差异度的值越小,意味着两个应聘人员的多个同类事件语句的语义相似概率值比较相似、数字化的语义特征比较相似,进一步说明两个应聘人员的工作经验、经历比较接近。
需要说明的是,对于所匹配的相同目标词语的事件语句,不同应聘人员的语义相似概率值是不相同的,例如,应聘人员简历的事件语句为“我参加了校园活动”,则/>的语义相似概率是以“我参加了校园活动”事件语句进行计算的,应聘人员简历/>所匹配的事件语句为“我参加了大型校园活动”,则/>的语义相似概率是以“我参加了大型校园活动”事件语句进行计算的。
计算得到不同应聘人员的第一差异度和第二差异度之后,则需要根据第一差异度和第二差异度进行聚类。具体步骤包括,计算两个应聘人员之间的第一差异度和第二差异度的欧氏范数。将欧氏范数值作为两个应聘人员的简历相似度,当欧氏距离越小,则认为两个应聘人员的简历内容即工作经验、经历等较为相似,可以归为一类,根据相似度将所有应聘人员的简历通过K-means聚类算法进行聚类,获得不同的简历类型簇。需要说明的是,K-means聚类算法为公开技术,具体聚类过程不再赘述,簇的数量可由实施者根据实施场景自行设定。
至此,通过第一差异度和第二差异度,将所有应聘人员的简历进行聚类,得到了不同的简历类型簇,簇内的简历类型即应聘人员的工作经历、经历等比较接近。然后可以根据同一简历类型簇中挑选共同出现频率较高的关键词,和网络爬虫的岗位主观类要求关键词进行匹配,选取合适的简历类型簇;进一步地,可以将簇内的关键词匹配结果进行排序,挑选出合适的简历类型簇中匹配结果靠前的应聘人员进行下一阶段的面试。人事也可以根据聚类结果从简历类型簇中人工筛选合适的人选。
综上所述,本发明实施例首先获取应聘人员简历和岗位要求,然后提取简历信息中的目标词语、关键词和事件语句,并将关键词出现概率进行归一化处理;进而根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率和语义相似概率。通过关键词组合概率和语义相似概率将语义进行数字化表示语义特征;根据关键词组合概率获得第一差异度,根据语义相似概率获得第二差异度,根据差异度将所有简历进行聚类,将简历类型相似即工作经验、经历相似的应聘人员聚为一簇,通过将简历中关键词和岗位要求关键词匹配,进一步筛选应聘人员。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
Claims (8)
1.一种智能人事自助服务平台,其特征在于,该平台包括:
数据采集模块,用于采集应聘人员的简历信息和岗位要求;
数据处理模块,用于获取简历信息中的目标词语、关键词和事件语句,计算关键词在目标词语上下文中出现的概率,根据关键词出现概率和关键词词性权重获得事件语句的关键词组合概率,根据关键词组合概率获得语义相似目标函数,根据语义相似目标函数获得语义相似概率;
数据分析模块,用于根据不同应聘人员简历中的事件语句进行匹配,获得同类事件语句,根据同类事件语句的关键词组合概率和未匹配事件语句数量获得第一差异度;根据同类事件语句的语义相似概率和未匹配事件语句数量获得第二差异度,根据第一差异度和第二差异度对所有简历进行聚类获得至少两种简历类型簇;根据岗位要求匹配合适的简历类型簇,从合适的简历类型簇中初步挑选应聘人员。
2.根据权利要求1所述的一种智能人事自助服务平台,其特征在于,所述数据处理模块中获取关键词词性权重的具体步骤包括:
预设不同词性的关键词词性权重,在事件语句中,若出现多个相同词性的关键词,则所有相同词性的关键词均摊对应关键词词性权重;若相同词性的关键词只有一个,则不需要均摊对应关键词词性权重。
3.根据权利要求2所述的一种智能人事自助服务平台,其特征在于,所述数据处理模块中获取关键词组合概率的具体步骤包括:
7.根据权利要求1所述的一种智能人事自助服务平台,其特征在于,所述数据采集模块中通过TextRank算法获取应聘人员的简历信息。
8.根据权利要求1所述的一种智能人事自助服务平台,其特征在于,所述数据分析模块中通过K-means聚类算法获得至少两种简历类型簇。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145831.7A CN115879901B (zh) | 2023-02-22 | 2023-02-22 | 一种智能人事自助服务平台 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310145831.7A CN115879901B (zh) | 2023-02-22 | 2023-02-22 | 一种智能人事自助服务平台 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115879901A true CN115879901A (zh) | 2023-03-31 |
CN115879901B CN115879901B (zh) | 2023-07-28 |
Family
ID=85761477
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310145831.7A Active CN115879901B (zh) | 2023-02-22 | 2023-02-22 | 一种智能人事自助服务平台 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115879901B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644184A (zh) * | 2023-07-27 | 2023-08-25 | 浙江厚雪网络科技有限公司 | 基于数据聚类的人力资源信息管理系统 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
WO2020003451A1 (ja) * | 2018-06-28 | 2020-01-02 | 三菱電機株式会社 | 検索装置、検索方法および機械学習装置 |
CN111311180A (zh) * | 2020-02-10 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
CN111754208A (zh) * | 2020-07-01 | 2020-10-09 | 浪潮卓数大数据产业发展有限公司 | 一种招聘简历自动筛选方法 |
CN111930941A (zh) * | 2020-07-31 | 2020-11-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种辱骂内容识别方法及装置、服务器 |
CN112541077A (zh) * | 2020-11-26 | 2021-03-23 | 深圳供电局有限公司 | 一种用于电网用户服务评价的处理方法及系统 |
CN112686043A (zh) * | 2021-01-12 | 2021-04-20 | 武汉大学 | 一种基于词向量的企业所属新兴产业分类方法 |
WO2021169111A1 (zh) * | 2020-02-28 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 简历筛选方法、装置、计算机设备和存储介质 |
WO2021174919A1 (zh) * | 2020-03-06 | 2021-09-10 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN113468321A (zh) * | 2021-09-01 | 2021-10-01 | 江苏金陵科技集团有限公司 | 一种基于大数据的事件聚合分析方法和系统 |
CN113610498A (zh) * | 2021-08-04 | 2021-11-05 | 罗华龙 | 一种基于大数据的人力资源信息匹配系统及方法 |
CN114064827A (zh) * | 2020-08-05 | 2022-02-18 | 北京四维图新科技股份有限公司 | 位置搜索方法、装置以及设备 |
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
-
2023
- 2023-02-22 CN CN202310145831.7A patent/CN115879901B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108197117A (zh) * | 2018-01-31 | 2018-06-22 | 厦门大学 | 一种基于文档主题结构与语义的中文文本关键词提取方法 |
WO2020003451A1 (ja) * | 2018-06-28 | 2020-01-02 | 三菱電機株式会社 | 検索装置、検索方法および機械学習装置 |
CN110209808A (zh) * | 2018-08-08 | 2019-09-06 | 腾讯科技(深圳)有限公司 | 一种基于文本信息的事件生成方法以及相关装置 |
CN111311180A (zh) * | 2020-02-10 | 2020-06-19 | 腾讯云计算(北京)有限责任公司 | 简历筛选方法及装置 |
WO2021169111A1 (zh) * | 2020-02-28 | 2021-09-02 | 平安国际智慧城市科技股份有限公司 | 简历筛选方法、装置、计算机设备和存储介质 |
WO2021174919A1 (zh) * | 2020-03-06 | 2021-09-10 | 平安科技(深圳)有限公司 | 简历数据信息解析及匹配方法、装置、电子设备及介质 |
CN111754208A (zh) * | 2020-07-01 | 2020-10-09 | 浪潮卓数大数据产业发展有限公司 | 一种招聘简历自动筛选方法 |
CN111930941A (zh) * | 2020-07-31 | 2020-11-13 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种辱骂内容识别方法及装置、服务器 |
CN114064827A (zh) * | 2020-08-05 | 2022-02-18 | 北京四维图新科技股份有限公司 | 位置搜索方法、装置以及设备 |
CN112541077A (zh) * | 2020-11-26 | 2021-03-23 | 深圳供电局有限公司 | 一种用于电网用户服务评价的处理方法及系统 |
WO2022121171A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 相似文本匹配方法、装置、电子设备及计算机存储介质 |
CN112686043A (zh) * | 2021-01-12 | 2021-04-20 | 武汉大学 | 一种基于词向量的企业所属新兴产业分类方法 |
CN113610498A (zh) * | 2021-08-04 | 2021-11-05 | 罗华龙 | 一种基于大数据的人力资源信息匹配系统及方法 |
CN113468321A (zh) * | 2021-09-01 | 2021-10-01 | 江苏金陵科技集团有限公司 | 一种基于大数据的事件聚合分析方法和系统 |
Non-Patent Citations (3)
Title |
---|
张晓莹等: "基于多层特征表征与级联模型的医疗简历筛选", 小型微型计算机系统 * |
谷楠楠;冯筠;孙霞;赵妍;张蕾;: "中文简历自动解析及推荐算法", 计算机工程与应用 * |
高楠;李利娟;李伟;祝建明;: "融合语义特征的关键词提取方法", 计算机科学 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116644184A (zh) * | 2023-07-27 | 2023-08-25 | 浙江厚雪网络科技有限公司 | 基于数据聚类的人力资源信息管理系统 |
CN116644184B (zh) * | 2023-07-27 | 2023-10-20 | 浙江厚雪网络科技有限公司 | 基于数据聚类的人力资源信息管理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115879901B (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008311B (zh) | 一种基于语义分析的产品信息安全风险监测方法 | |
US11663254B2 (en) | System and engine for seeded clustering of news events | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
Ramanujam et al. | An automatic multidocument text summarization approach based on Naive Bayesian classifier using timestamp strategy | |
US20210026835A1 (en) | System and semi-supervised methodology for performing machine driven analysis and determination of integrity due diligence risk associated with third party entities and associated individuals and stakeholders | |
Paul et al. | LeSICiN: a heterogeneous graph-based approach for automatic legal statute identification from Indian legal documents | |
Avasthi et al. | Techniques, applications, and issues in mining large-scale text databases | |
CN112581006A (zh) | 筛选舆情信息及监测企业主体风险等级的舆情引擎及方法 | |
CN115879901B (zh) | 一种智能人事自助服务平台 | |
Larson et al. | Connecting archival collections: the Social Networks and Archival Context project | |
Buntain et al. | Sampling social media: Supporting information retrieval from microblog data resellers with text, network, and spatial analysis | |
CN115794798B (zh) | 一种市场监管信息化标准管理与动态维护系统及方法 | |
Vysotska et al. | NLP tool for extracting relevant information from criminal reports or fakes/propaganda content | |
Weng et al. | A study on searching for similar documents based on multiple concepts and distribution of concepts | |
Guadie et al. | Amharic text summarization for news items posted on social media | |
Zhang et al. | A text mining based method for policy recommendation | |
CN115619443A (zh) | 一种基于上市公司年度报告进行情感分析的公司经营预测方法及系统 | |
Biryukov | Co-author network analysis in DBLP: Classifying personal names | |
Rajkumar et al. | An efficient feature extraction with subset selection model using machine learning techniques for Tamil documents classification | |
Dong et al. | A statistical method for constructing tang poet social networks | |
Olegovich Dorodnykh et al. | Using the Semantic Annotation of Web Table Data for Knowledge Base Construction | |
Aref | Mining publication papers via text mining Evaluation and Results | |
Ko et al. | Web-based requirements elicitation supporting system using requirements categorization | |
TOPLU et al. | Text Mining Method in the Field of Health | |
Lin et al. | Cultural Event Extraction for Chinese Public Libraries |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231009 Address after: Room 1315, Building 3, Zhongjiang International Plaza, No. 38 Tongjing Avenue, Chongchuan District, Nantong City, Jiangsu Province, 226000 Patentee after: Dongqi (Nantong) Network Technology Co.,Ltd. Address before: 710082 Room 2702, Block C, Fortune Center, Gaoxin 3rd Road, Lianhu District, Xi'an, Shaanxi Patentee before: Shaanxi Xiangqin Hengxing Technology Group Co.,Ltd. |