CN116503031B - 基于简历解析的人员相似性计算方法、装置、设备及介质 - Google Patents
基于简历解析的人员相似性计算方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN116503031B CN116503031B CN202310783355.1A CN202310783355A CN116503031B CN 116503031 B CN116503031 B CN 116503031B CN 202310783355 A CN202310783355 A CN 202310783355A CN 116503031 B CN116503031 B CN 116503031B
- Authority
- CN
- China
- Prior art keywords
- similarity
- nodes
- skill
- node
- work experience
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004364 calculation method Methods 0.000 title claims abstract description 83
- 238000004458 analytical method Methods 0.000 title claims abstract description 14
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 20
- 230000004927 fusion Effects 0.000 claims abstract description 19
- 230000003595 spectral effect Effects 0.000 claims abstract description 14
- 238000010845 search algorithm Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 238000005259 measurement Methods 0.000 claims description 7
- 238000005457 optimization Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/105—Human resources
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2323—Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种基于简历解析的人员相似性计算方法、装置、设备及介质。所述方法包括:对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重并进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。采用本方法能够提高人才推荐和个性化推荐准确率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于简历解析的人员相似性计算方法、装置、设备及介质。
背景技术
人员相似性计算是将人与人之间的相似性进行量化的一种方法,是人力资源领域的一个研究重点,在人才搜索、个性化推荐系统、相似用户发现、用户聚类、社区发现、热点预测等多个领域发挥着重要的作用。
目前基于简历信息的人员相似性计算方法针对结构化特征和非结构化特征分别采用不同的技术,后对所有特征相似性进行加权融合,权重有自定义、层次分析法生成等方法。对于结构化特征进行匹配计算,如性别、年龄、地址、技能和具有标准库的用户标签等。对非结构化特征如工作经历,有的方法将工作经历看成由一段历史工作节点组成的序列,工作经历节点带有岗位名称、公司等特征,后通过编辑距离计算序列相似性。
用匹配方法计算特征相似性只有相同和不相同两种结果,未做到真正意义上的量化。将文本特征看作离散特征,未考虑文本信息的语义,但在日常使用场景中,很多不同的词语和表达都有相似的意思,即未完全匹配但相近的特征之间理应有一定的相似性,而不是为0。工作经历是一个带有时间性质的特征,现有技术未考虑工作时间的长短对相似性的影响。对于没有标签的人员数据,大部分技术都采用层次分析法对于不同特征的权重进行定义方法,这种定义权重的方法未结合实际应用,生成的相似性没有针对性,在进行在人才搜索、个性化推荐系统、相似用户发现、用户聚类、社区发现时准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高人才推荐和个性化推荐准确率的基于简历解析的人员相似性计算方法、装置、设备及介质。
一种基于简历解析的人员相似性计算方法,所述方法包括:
获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集;
根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;
利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
在其中一个实施例中,根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性,包括:
将技能看成集合计算技能集合的杰卡德相似度,对技能集里面的每个技能采用贪心搜索计算最大相似度,采用加权融合的方式对杰卡德相似度和最大相似度进行计算,得到技能集之间的相似性。
在其中一个实施例中,对技能集里面的每个技能采用贪心搜索计算最大相似度,包括:
对技能集里面的每个技能采用贪心搜索计算最大相似度为
;
其中,和/>表示不同的技能,/>和/>表示不同的样本,/>和/>表示不同的技能标号。
在其中一个实施例中,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性,包括:
对工作经历序列进行公司相似性计算,得到公司相似性为
;
其中,表示第/>个样本中的第/>段工作经历的公司,/>表示第/>个样本中的第/>段工作经历的公司,/>和/>表示不同的工作经历;
对工作经历序列进行岗位名称相似性计算的,得到岗位名称相似性为
;
其中,表示第/>个样本中的第/>段工作经历的岗位名称,/>表示第/>个样本中的第/>段工作经历的岗位名称。
在其中一个实施例中,对公司相似性和岗位名称相似性进行权重赋值,得到融合后的节点相似性为
;
其中,和/>表示不同的节点,/>和/>表示不同的权重。
在其中一个实施例中,根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性,包括:
根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性为
;
其中,表示职业路径,职业路径/>是由多个融合后的节点/>组成的,/>和/>表示不同的工作经历数量。
在其中一个实施例中,根据类指数衡量聚类结果,包括:
根据类指数衡量聚类结果为;
其中,表示簇的数量,/>,/>分别表示第/>和第/>个簇的簇内平均距离,/>,/>分别表示第/>和第/>个簇的簇内样本总数,/>表示第/>簇内的第/>个人员和第/>簇内的第/>个人员之间的距离。
一种基于简历解析的人员相似性计算装置,所述装置包括:
数据获取模块,用于获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集;
技能相似性计算模块,用于根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
节点相似性计算模块,用于将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
节点规划模块,用于根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;
相似性优化模块,用于利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
相似性最终计算模块,用于根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集;
根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;
利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集;
根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;
利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
上述基于简历解析的人员相似性计算方法、装置、设备及介质,首先根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
本申请通过计算带有语义的技能相似性和带有语义、时序的工作经历相似性,并通过利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,大大提高了人员相似性计算的准确率,在应用过程中给定一个带有技能和工作经历的个人简历数据集,能够有效生成相似性矩阵,也能在给定理想候选人的条件上从数据集中找到最相似人员。
附图说明
图1为一个实施例中一种基于简历解析的人员相似性计算方法的流程示意图;
图2为一个实施例中一种基于简历解析的人员相似性计算装置的结构框图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于简历解析的人员相似性计算方法,包括以下步骤:
步骤102,获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集。
给定包含成员信息的简历数据集,其中/>表示样本数目,样本/>是一个多维向量,/>表示描述样本的特征,其中表示样本/>包含的/>个技能/>,/>表示样本/>包含的/>段工作经历,每段工作经历中都包含公司和岗位名称两个特征。
步骤104,根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性。
根据贪心搜索算法对技能集的向量特征进行相似度计算,能解决每个人的技能个数不同的情况下的相似度计算问题,对不同个数的技能集采取贪心策略得到最相似技能对的相似性之和,保证相似性的准确度。
根据BERT模型来提取文本语义,对技能集和岗位名称集进行特征计算,得到对应的词向量特征。
步骤106,将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性。
将工作经历按月份分为不同节点得到样本的/>段工作经历,其中节点/>,即每个节点带有公司/>和岗位名称/>两个特征,其中/>为字符串特征,/>为BERT模型转化的词向量特征,所有节点组成每个人的职业路径。对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,考虑工作时间的长短对相似性的影响,在节点相似性计算中融入了时间特性,有利于提高相似性计算的准确率。
步骤108,根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性。
根据最优对齐的动态规划算法解决了人员工作经历数不相同时相似性计算难以匹配节点的问题,能在对齐时跳过相似度较低的节点,并对不连续的节点进行惩罚,保证了在工作经历相同且顺序也相同的情况下最相似,最终得到候选节点相似性。
步骤110,利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性。
对技能相似性的两个特征赋权重和/>,得到最终相似性共有4个权重,为了得到衡量相似性的最佳权重,通过网格遍历的方式来设置多组权重,然后对加权融合得到的相似性结果进行谱聚类,用式的类DBI指数来衡量聚类效果,即衡量相似性评价效果,类DBI越小表示聚类结果同簇内部紧密,不同簇分离较远。即类内距离越小,类间距离越大,根据聚类结果选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,可以提高相似性融合计算的准确率。
步骤112,根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
上述基于简历解析的人员相似性计算方法中,首先根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。本申请通过计算带有语义的技能相似性和带有语义、时序的工作经历相似性,并通过利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,大大提高了人员相似性计算的准确率,在应用过程中给定一个带有技能和工作经历的个人简历数据集,能够有效生成相似性矩阵,也能在给定理想候选人的条件上从数据集中找到最相似人员。
在其中一个实施例中,根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性,包括:
将技能看成集合计算技能集合的杰卡德相似度,对技能集里面的每个技能采用贪心搜索计算最大相似度,采用加权融合的方式对杰卡德相似度和最大相似度进行计算,得到技能集之间的相似性。
在其中一个实施例中,对技能集里面的每个技能采用贪心搜索计算最大相似度,包括:
对技能集里面的每个技能采用贪心搜索计算最大相似度为
;
其中,和/>表示不同的技能,/>和/>表示不同的样本,/> 和/>表示不同的技能标号。
在其中一个实施例中,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性,包括:
对工作经历序列进行公司相似性计算,得到公司相似性为
;
其中,表示第/>个样本中的第/>段工作经历的公司,/>表示第/>个样本中的第/>段工作经历的公司,/>和/>表示不同的工作经历;
对工作经历序列进行岗位名称相似性计算的,得到岗位名称相似性为
;
其中,表示第/>个样本中的第/>段工作经历的岗位名称,/>表示第/>个样本中的第/>段工作经历的岗位名称。
在其中一个实施例中,对公司相似性和岗位名称相似性进行权重赋值,得到融合后的节点相似性为
;
其中,和/>表示不同的节点,/>和/>表示不同的权重。
在其中一个实施例中,根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性,包括:
根据最优对齐的动态规划算法根据融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性为
;
其中,表示职业路径,职业路径/>是由多个融合后的节点/>组成的,/>和/>表示不同的工作经历数量。
在其中一个实施例中,根据类DBI指数衡量聚类结果,包括:
根据类DBI指数衡量聚类结果为
;
其中,表示簇的数量,/>,/>分别表示第/>和第/>个簇的簇内平均距离,/>,/>分别表示第/>和第/>个簇的簇内样本总数,/>表示第/>簇内的第/>个人员和第/>簇内的第/>个人员之间的距离。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图2所示,提供了一种基于简历解析的人员相似性计算装置,包括:数据获取模块202、技能相似性计算模块204、节点相似性计算模块206、节点规划模块208、相似性优化模块210和相似性最终计算模块212,其中:
数据获取模块202,用于获取简历数据集;简历数据集中包括多个样本;样本包括技能集和工作经历集;工作经历集包括公司集和岗位名称集;
技能相似性计算模块204,用于根据BERT模型对技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
节点相似性计算模块206,用于将工作经历按月份分为不同节点构建工作经历序列,对工作经历序列进行公司相似性以及和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
节点规划模块208,用于根据最优对齐的动态规划算法和融合后的节点相似性在对齐时跳过节点并对不连续的节点进行惩罚,得到候选节点相似性;
相似性优化模块210,用于利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
相似性最终计算模块212,用于根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性。
关于基于简历解析的人员相似性计算装置的具体限定可以参见上文中对于基于简历解析的人员相似性计算方法的限定,在此不再赘述。上述基于简历解析的人员相似性计算装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于简历解析的人员相似性计算方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图3中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种基于简历解析的人员相似性计算方法,其特征在于,所述方法包括:
获取简历数据集;所述简历数据集中包括多个样本;所述样本包括技能集和工作经历集;所述工作经历集包括公司集和岗位名称集;
根据BERT模型对所述技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
将工作经历按月份分为不同节点构建工作经历序列,对所述工作经历序列进行公司相似性和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
根据最优对齐的动态规划算法和所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性;
利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对所述技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对所述技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性;
对所述工作经历序列进行公司相似性和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性,包括:
对所述工作经历序列进行公司相似性计算,得到公司相似性为
,
其中,表示第i个样本中的第m段工作经历的公司,/>表示第j个样本中的第f段工作经历的公司,m和f表示不同的工作经历;
对所述工作经历序列进行岗位名称相似性计算的,得到岗位名称相似性为
,
其中,表示第i个样本中的第m段工作经历的岗位名称,/>表示第j个样本中的第f段工作经历的岗位名称;
对所述公司相似性和岗位名称相似性进行权重赋值,得到融合后的节点相似性为
,
其中,和/>表示不同的节点,/>和/>表示不同的权重;
根据最优对齐的动态规划算法根据所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性,包括:
根据最优对齐的动态规划算法根据所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性为
,
其中,P表示职业路径,职业路径P是由多个融合后的节点D组成的,p和q表示不同的工作经历数量。
2.根据权利要求1所述的方法,其特征在于,根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性,包括:
将技能看成集合计算技能集合的杰卡德相似度,对技能集里面的每个技能采用贪心搜索计算最大相似度,采用加权融合的方式对所述杰卡德相似度和最大相似度进行计算,得到技能集之间的相似性。
3.根据权利要求2所述的方法,其特征在于,对技能集里面的每个技能采用贪心搜索计算最大相似度,包括:
对技能集里面的每个技能采用贪心搜索计算最大相似度为
,
其中,和/>表示不同的技能,i和j表示不同的样本,l和k表示不同的技能标号。
4.根据权利要求1所述的方法,其特征在于,根据类DBI指数衡量聚类结果,包括:
根据类DBI指数衡量聚类结果为
,
其中,表示簇的数量,/>,/>分别表示第/>和第/>个簇的簇内平均距离,/>,/>分别表示第/>和第/>个簇的簇内样本总数,/>表示第/>簇内的第/>个人员和第/>簇内的第/>个人员之间的距离。
5.一种基于简历解析的人员相似性计算装置,其特征在于,所述装置包括:
数据获取模块,用于获取简历数据集;所述简历数据集中包括多个样本;所述样本包括技能集和工作经历集;所述工作经历集包括公司集和岗位名称集;
技能相似性计算模块,用于根据BERT模型对所述技能集和岗位名称集进行特征计算,得到对应的词向量特征;根据贪心搜索算法对技能集的向量特征进行相似度计算,得到技能集之间的相似性;
节点相似性计算模块,用于将工作经历按月份分为不同节点构建工作经历序列,对所述工作经历序列进行公司相似性和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性;
节点规划模块,用于根据最优对齐的动态规划算法和所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性;
相似性优化模块,用于利用网格遍历的方式来设置技能集之间的相似性和候选节点相似性的多组权重,然后对所述技能集之间的相似性和候选节点相似性进行谱聚类,根据类DBI指数衡量聚类结果,选择最优的权重组合对所述技能集之间的相似性和候选节点相似性进行优化,得到优化后的技能集之间的相似性和候选节点相似性;
相似性最终计算模块,用于根据加权融合的方式对优化后的技能集之间的相似性和候选节点相似性进行计算,得到最终的人员相似性;
节点相似性计算模块还用于对所述工作经历序列进行公司相似性和岗位名称相似性计算以及权重赋值,得到融合后的节点相似性,包括:
对所述工作经历序列进行公司相似性计算,得到公司相似性为
,
其中,表示第i个样本中的第m段工作经历的公司,/>表示第j个样本中的第f段工作经历的公司,m和f表示不同的工作经历;
对所述工作经历序列进行岗位名称相似性计算的,得到岗位名称相似性为
,
其中,表示第i个样本中的第m段工作经历的岗位名称,/>表示第j个样本中的第f段工作经历的岗位名称;
对所述公司相似性和岗位名称相似性进行权重赋值,得到融合后的节点相似性为
,
其中,和/>表示不同的节点,/>和/>表示不同的权重;
节点规划模块还用于根据最优对齐的动态规划算法根据所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性,包括:
根据最优对齐的动态规划算法根据所述融合后的节点相似性在对齐时跳过所述节点并对不连续的节点进行惩罚,得到候选节点相似性为
,
其中,P表示职业路径,职业路径P是由多个融合后的节点D组成的,p和q表示不同的工作经历数量。
6.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310783355.1A CN116503031B (zh) | 2023-06-29 | 2023-06-29 | 基于简历解析的人员相似性计算方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310783355.1A CN116503031B (zh) | 2023-06-29 | 2023-06-29 | 基于简历解析的人员相似性计算方法、装置、设备及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116503031A CN116503031A (zh) | 2023-07-28 |
CN116503031B true CN116503031B (zh) | 2023-09-08 |
Family
ID=87320570
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310783355.1A Active CN116503031B (zh) | 2023-06-29 | 2023-06-29 | 基于简历解析的人员相似性计算方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116503031B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117132172B (zh) * | 2023-10-26 | 2024-01-26 | 四川省瑞人网络科技有限公司 | 一种员工岗位匹配和绩效评估管理方法 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9565209B1 (en) * | 2015-03-31 | 2017-02-07 | Symantec Corporation | Detecting electronic messaging threats by using metric trees and similarity hashes |
CN106971005A (zh) * | 2017-04-27 | 2017-07-21 | 杭州杨帆科技有限公司 | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 |
CN111144723A (zh) * | 2019-12-17 | 2020-05-12 | 埃摩森网络科技(上海)有限公司 | 人岗匹配推荐方法及系统、存储介质 |
CN111861268A (zh) * | 2020-07-31 | 2020-10-30 | 平安金融管理学院(中国·深圳) | 候选人推荐方法、装置、电子设备及存储介质 |
CN111967858A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种人才智能推荐方法、系统、计算机设备及存储介质 |
CN113409157A (zh) * | 2021-05-19 | 2021-09-17 | 桂林电子科技大学 | 一种跨社交网络用户对齐方法以及装置 |
CN113673225A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 中文句子相似性判别方法、装置、计算机设备和存储介质 |
CN114118299A (zh) * | 2021-12-10 | 2022-03-01 | 中国人民解放军国防科技大学 | 一种结合相似性度量和社区发现的聚类方法 |
CN114722273A (zh) * | 2022-03-17 | 2022-07-08 | 中国人民解放军国防科技大学 | 基于局部结构特征增强的网络对齐方法、装置及设备 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
CN115063119A (zh) * | 2022-07-10 | 2022-09-16 | 上海穰川信息技术有限公司 | 基于招聘行为数据的自适应性的招聘决策系统及方法 |
CN115774778A (zh) * | 2021-09-08 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 简历处理方法、装置、电子设备及可读存储介质 |
CN115905988A (zh) * | 2022-11-14 | 2023-04-04 | 中国人民解放军国防科技大学 | 基于嵌入式特征选择的异常子分类方法、系统及设备 |
CN115934899A (zh) * | 2023-02-28 | 2023-04-07 | 天津徙木科技有限公司 | 一种it行业简历推荐方法、装置、电子设备及储存介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7177863B2 (en) * | 2002-04-26 | 2007-02-13 | International Business Machines Corporation | System and method for determining internal parameters of a data clustering program |
US7805010B2 (en) * | 2006-07-25 | 2010-09-28 | Christian Posse | Cross-ontological analytics for alignment of different classification schemes |
US20100082356A1 (en) * | 2008-09-30 | 2010-04-01 | Yahoo! Inc. | System and method for recommending personalized career paths |
US20110152109A1 (en) * | 2009-12-21 | 2011-06-23 | Gardner Shea N | Biological sample target classification, detection and selection methods, and related arrays and oligonucleotide probes |
-
2023
- 2023-06-29 CN CN202310783355.1A patent/CN116503031B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9565209B1 (en) * | 2015-03-31 | 2017-02-07 | Symantec Corporation | Detecting electronic messaging threats by using metric trees and similarity hashes |
CN106971005A (zh) * | 2017-04-27 | 2017-07-21 | 杭州杨帆科技有限公司 | 一种云计算环境下基于MapReduce的分布式并行文本聚类方法 |
CN111144723A (zh) * | 2019-12-17 | 2020-05-12 | 埃摩森网络科技(上海)有限公司 | 人岗匹配推荐方法及系统、存储介质 |
CN111861268A (zh) * | 2020-07-31 | 2020-10-30 | 平安金融管理学院(中国·深圳) | 候选人推荐方法、装置、电子设备及存储介质 |
CN111967858A (zh) * | 2020-08-29 | 2020-11-20 | 深圳呗佬智能有限公司 | 一种人才智能推荐方法、系统、计算机设备及存储介质 |
CN113409157A (zh) * | 2021-05-19 | 2021-09-17 | 桂林电子科技大学 | 一种跨社交网络用户对齐方法以及装置 |
CN113673225A (zh) * | 2021-08-20 | 2021-11-19 | 中国人民解放军国防科技大学 | 中文句子相似性判别方法、装置、计算机设备和存储介质 |
CN115774778A (zh) * | 2021-09-08 | 2023-03-10 | 腾讯科技(深圳)有限公司 | 简历处理方法、装置、电子设备及可读存储介质 |
CN114118299A (zh) * | 2021-12-10 | 2022-03-01 | 中国人民解放军国防科技大学 | 一种结合相似性度量和社区发现的聚类方法 |
CN114722273A (zh) * | 2022-03-17 | 2022-07-08 | 中国人民解放军国防科技大学 | 基于局部结构特征增强的网络对齐方法、装置及设备 |
CN115063119A (zh) * | 2022-07-10 | 2022-09-16 | 上海穰川信息技术有限公司 | 基于招聘行为数据的自适应性的招聘决策系统及方法 |
CN115062619A (zh) * | 2022-08-11 | 2022-09-16 | 中国人民解放军国防科技大学 | 中文实体链接方法、装置、设备及存储介质 |
CN115905988A (zh) * | 2022-11-14 | 2023-04-04 | 中国人民解放军国防科技大学 | 基于嵌入式特征选择的异常子分类方法、系统及设备 |
CN115934899A (zh) * | 2023-02-28 | 2023-04-07 | 天津徙木科技有限公司 | 一种it行业简历推荐方法、装置、电子设备及储存介质 |
Non-Patent Citations (1)
Title |
---|
基于最大平均熵率的大数据关联聚类算法;张俪文;王涛;罗坚;杨树森;徐宗本;;中国科学:信息科学(第12期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116503031A (zh) | 2023-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qi et al. | Finding all you need: web APIs recommendation in web of things through keywords search | |
CN113535984B (zh) | 一种基于注意力机制的知识图谱关系预测方法及装置 | |
CN111026671B (zh) | 测试用例集构建方法和基于测试用例集的测试方法 | |
May Petry et al. | MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings | |
CN114298417A (zh) | 反欺诈风险评估方法、训练方法、装置及可读存储介质 | |
Mu et al. | A scale-space clustering method: Mitigating the effect of scale in the analysis of zone-based data | |
CN110362823A (zh) | 描述文本生成模型的训练方法和装置 | |
CN112052684A (zh) | 电力计量的命名实体识别方法、装置、设备和存储介质 | |
CN112131261B (zh) | 基于社区网络的社区查询方法、装置和计算机设备 | |
Sun et al. | Tourism demand forecasting: An ensemble deep learning approach | |
CN116503031B (zh) | 基于简历解析的人员相似性计算方法、装置、设备及介质 | |
Ji et al. | Image-attribute reciprocally guided attention network for pedestrian attribute recognition | |
CN113779994B (zh) | 一种要素抽取方法、装置、计算机设备和存储介质 | |
US20220092328A1 (en) | Querying semantic data from unstructured documents | |
CN115409111A (zh) | 命名实体识别模型的训练方法和命名实体识别方法 | |
CN117093477A (zh) | 一种软件质量评估方法、装置、计算机设备及存储介质 | |
CN112330442A (zh) | 基于超长行为序列的建模方法及装置、终端、存储介质 | |
Zhang et al. | An attention-based word-level interaction model: Relation detection for knowledge base question answering | |
CN118132803A (zh) | 一种零样本视频时刻检索方法、系统、设备及介质 | |
CN114090769A (zh) | 实体挖掘方法、装置、计算机设备和存储介质 | |
CN111259176A (zh) | 融合有监督信息的基于矩阵分解的跨模态哈希检索方法 | |
CN113627514A (zh) | 知识图谱的数据处理方法、装置、电子设备和存储介质 | |
CN113240325A (zh) | 数据处理方法、装置、设备及存储介质 | |
Sindhu et al. | Aspect based opinion mining leveraging weighted bigru and CNN module in parallel | |
CN111581469B (zh) | 基于多子空间表示的偏多标记学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |