CN105608477B - 一种人物画像与职位匹配的方法及系统 - Google Patents
一种人物画像与职位匹配的方法及系统 Download PDFInfo
- Publication number
- CN105608477B CN105608477B CN201610111030.9A CN201610111030A CN105608477B CN 105608477 B CN105608477 B CN 105608477B CN 201610111030 A CN201610111030 A CN 201610111030A CN 105608477 B CN105608477 B CN 105608477B
- Authority
- CN
- China
- Prior art keywords
- historical
- matrix
- information
- current position
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种人物画像与职位匹配的方法及系统,目的是保留住并利用到职位描述的语义信息,挖掘出人物画像与职位之间更深层次的关联,有效提高人物画像和职位的匹配精度和匹配速度。方法包括下:对职位信息预处理的步骤;职位特征标注的步骤;关联提取的步骤;模型训练的步骤;结果输出的步骤。系统包括:职位信息预处理模块;职位特征标注模块;关联提取模块;模型训练模块;结果输出模块。本发明有效地利用了职位描述的语义信息,能够挖掘出人物画像和职位要求中的复合属性,从而提取其中更深层次的关联,有效地提高了人物画像和职位的匹配精度和匹配速度。
Description
【技术领域】
本发明涉及计算机及网络领域,尤其是一种人物画像与职位匹配的方法及系统。
【背景技术】
早期在线招聘平台缺乏对用户提供个性化推荐的计算能力和技术手段,将研发重点放在搜索技术的提高上:将职位依据地点、行业、待遇、学历要求、技能要求等等方面划分为若干个子门类,减小用户的检索难度。
随着互联网的发展,行业对用户体验愈发重视,伴随着计算能力和分词技术的提高,在线招聘平台逐步开始了向个性化推荐的转变;最早的推荐方式依旧是基于检索,即将用户信息文本分词并提取关键词,然后依据关键词对职位库进行检索;这种方式其实并没有改变检索本质,仅仅是减轻了用户的录入负担。
随后协同过滤技术出现,运用对用户隐性反馈的分析,比如对点击、收藏、投递等等行为的记录,从而挖掘出用户喜好的职位类型。这一方法也是目前业界主流的推荐手段之一。该方法同样有许多弊端,比如冷启动问题、数据稀疏性问题等等;但最大的问题在于完全忽略了用户的个人信息和职位描述信息。
后来人们引入数据挖掘方法进行人物画像,包括K-means等聚类方法,在一定程度上改善了用户基础信息的提取和整合工作。
近几年机器学习算法,尤其是深度学习算法得到了广泛的应用,包括卷积神经网络(CNN,Convolution neural network)、循环神经网络(RNN,Recurrent NeuralNetworks)、主题模型、词向量等方法,有了新的手段将职位描述的文本和词语映射到向量空间当中,统一的数学表征为职位的聚类分析,挖掘更多的深层次信息提供了更多的可能。
上述需要解释的术语包括:人物画像:从用户处收集到的个人信息以及社交网络信息,经过聚类整理,形成一系列的人物属性特征,并依据特征分类所得即为人物画像。机器学习:机器学习是一门研究机器获取新知识和新技能,并识别现有知识的学问,强调用数据或以往的经验,以自动优化和改进计算机程序和算法性能。聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。深度学习:深度学习是机器学习的附属概念之一,源于人工神经网络的研究,通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。
经发明人进一步研究发现,在现有技术中申请(专利)号:200510077871.4的申请公开说明书中的技术背景中介绍了多种系统和方法,其主要匹配思路是依据现有条件和希望条件进行匹配,这种方式中通过双方的希望条件或现有条件进行自动匹配,使匹配度数值化,进而把数值高的推荐给对方。另一篇申请(专利)号:200710143140.4中,介绍了一种通过媒合度的方法来进行匹配,这种方法和先前介绍的申请(专利)号:200510077871.4中的方法相似,都是通过加设权重计分的方法来反映偏好,从中选择出相应的那类招聘单位或求职者。
综上,现有技术的缺点是类似的,即1)这种方式通常只考虑某一方的要求,没有考虑到用户与招聘单位是双向匹配的过程,忽略了匹配另一方的要求,实用性差。2)人物信息与职位信息之间往往存在着非字面层面上的模糊关系,将人物的每条特征与职位的每条要求都独立看待,忽略了人物特征之间与职位要求之间的相关性,也就忽略了隐含的深层次信息,从而存在着模糊偏好很难实现精确配对的问题。
【发明内容】
本发明提供了一种人物画像与职位匹配的方法及系统,目的是保留住并利用到职位描述的语义信息,挖掘出人物画像与职位之间更深层次的关联,有效提高人物画像和职位的匹配精度和匹配速度。
本发明的一种人物画像与职位匹配的方法,包括下列步骤:S1、对职位信息预处理的步骤:对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列;S2、职位特征标注的步骤:对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型;S3、关联提取的步骤:根据已有的人物画像信息和上述得到的历史职位分类模型,提取人物画像与历史职位特征的关联;S4、模型训练的步骤:根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,获取历史职位特征与当前职位特征的关联;S5、结果输出的步骤:根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。
其中,步骤S1中所述的对职位信息进行预处理包括:输入职位的各项数据;将所述职位的各项数据中的中文文本进行分词后进行文本清洗操作,非中文文本的职位信息则根据数据类型按照特征处理流程进行清洗操作。
其中,步骤S2中所述的对经预处理的历史职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将历史职位聚类并标注特征或类别;使用机器学习方法,训练历史职位分类模型。设总共m个职位的所有文本包含的词语总数为s,每个职位的文本信息为一个文档D,一个包含d个词语的文档D的词语序列为[w1,w2,…,wd],每个文档的s值各不相同;生成文档的向量表示具体包括:通过向量空间模型将每个文档转化为具有同等长度s的向量,此时整体信息为一个m*s的矩阵S,每一行代表一个文档向量,每一列即每个维度表示一个词语的特定统计量;再将维度从s缩减到q,即矩阵S转化为m*q的矩阵Q,其中每一维度在数学意义上代表一个复合特征;使用机器学习方法,将历史职位聚类并标注特征或类别具体包括:视每个文档向量为向量空间中的散点进行聚类分析,将散点划分为k个类别,每个行向量标注一个类别;使用机器学习方法,训练历史职位分类模型具体包括:已标注了k个类别的m*q矩阵Q做训练数据,训练得到历史职位分类模型。
其中,步骤S2中所述的对经预处理的当前职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将当前职位聚类并标注特征或类别;使用机器学习方法,训练当前职位分类模型。
其中,步骤S3中通过数据挖掘和深度学习方法提取所述的人物画像与历史职位特征的关联。设人物画像信息用一个n*p矩阵P表示,代表有n种人物类型,用p种特征来表示;历史职位分类模型在数学意义上可简单抽象成一个k*q矩阵C,其余历史职位信息用k行矩阵X表示;人物画像与历史职位的n*k关系矩阵R,Rij表示第i种人物画像与第j种历史职位类型的关联频度;所述人物画像与历史职位特征的关联,具体为人物画像特征与历史职位特征之间的关联矩阵U=αf(PTRC)+βg(PTRX)+γB,其中f函数和g函数是对矩阵的变换函数,矩阵B是偏置矩阵,α、β、γ分别是各线性加权项的权重参数。
其中,步骤S4中具体使用机器学习、深度学习方法和训练模型方法,将历史职位特征与当前职位特征的关联。
其中,步骤S5中具体包括:用矩阵P代表人物画像,用矩阵U代表人物画像与历史职位特征的关联,用矩阵V代表历史职位特征与当前职位特征的关联,用矩阵Y代表已标注的当前职位信息;人物画像与当前职位的匹配度W=f(P*g(U)*h(V)+B,Y),f函数用来计算两个矩阵各行向量两两之间的相似度,g函数和h函数是对矩阵的变换函数,矩阵B是偏置矩阵。
本发明的一种人物画像与职位匹配的系统,包括:职位信息预处理模块,用于对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列;职位特征标注模块,用于对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型;关联提取模块,用于根据已有的人物画像信息和上述得到的历史职位分类模型,提取人物画像与历史职位特征的关联;模型训练模块,用于根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,获取历史职位特征与当前职位特征的关联;结果输出模块,用于根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。
本发明人物画像与职位匹配的方法及系统,有效地利用了职位描述的语义信息,能够挖掘出人物画像和职位要求中的复合属性,从而提取其中更深层次的关联,有效地提高了人物画像和职位的匹配精度和匹配速度。
【附图说明】
图1是本发明实施例1的方法步骤流程图;
图2是本发明实施例2的系统结构示意图。
【具体实施方式】
经发明人研究发现,人物画像和职位的匹配通常是按照职位要求逐条匹配,其技术基于关键词提取配对,但这种方法将条件和词句看做独立的元素,一方面割裂了条件之间的关联,另一方面由于自然语言的复杂性,当遇到相同含义的不同表述时,该匹配方法的效果不佳。因此发明人提出了一种能够保留一定语义信息,并挖掘出人物画像与职位之间更深层次的关联,有效提高人物画像和职位的匹配精度和匹配速度的方法及系统。以下通过实施例具体说明。
实施例1、本实施例的人物画像与职位匹配的方法,参见图1所示,包括下列主要步骤:
S11、职位信息预处理。
输入:职位的各项数据,包括但不限于职位名称、职位描述等等。
功能:将职位描述等中文文本进行分词,随后进行常规的文本清洗操作,包括错别字纠正、去除停止词、去除低频词等。其余职位信息,即非中文文本的职位信息根据数据类型(如:连续、离散、标称等)按照通常的特征处理流程来清洗,如归一化等。
输出:经预处理的职位词语序列,包括经预处理的历史职位词语序列和经预处理的当前职位词语序列。
S12、历史职位特征标注。
输入:经预处理的历史职位词语序列、历史职位其余信息。
功能:假设总共m个职位的所有文本包含的词语总数为s,每个职位的文本信息为一个文档D,一个包含d个词语的文档D的词语序列为[w1,w2,…,wd],每个文档的s值各不相同。
生成文档的向量表示。通过向量空间模型(VSM,Vector Space Model)将每个文档转化为具有同等长度s的向量,此时可将整体信息看做一个m*s的矩阵S,每一行代表一个文档向量,每一列(即每个维度)表示一个词语的某种统计量(词频、TF-IDF值等等)。通过诸如奇异值分解(SVD,Singular Value Decomposition)、主题模型(Topic Model)等方法降低维度、去除噪音、提取隐藏语义信息,将维度从s缩减到q,即矩阵S转化为m*q的矩阵Q,其中每一维度在数学意义上代表一个复合特征,体现了每个职位的不同要求之间的潜在相关性。
使用机器学习方法,将历史职位聚类并标注特征或类别。视每个文档向量为向量空间中的散点,通过K-Means等算法进行聚类分析,将散点划分为k个类别,每个行向量标注一个类别。
使用机器学习方法,训练历史职位分类模型。用已标注了k个类别的m*q矩阵Q做训练数据,可通过人工神经网络、支持向量机(SVM,Support Vector Machine)、深度学习等方法训练得到分类模型。
输出:已标注的历史职位信息,历史职位分类模型。
S13、关联提取。
输入:人物画像信息、历史职位分类模型。
功能:使用数据挖掘和深度学习方法,提取人物画像与职位特征之间的关联。具体实施方法有很多,要依据数据质量和数量来确定。以下提供一个参考方法,其它方法还包括非负矩阵分解(NMF:Nonnegtive Matrix Factorization)、关联分析(如FP-growth算法等)、卷积神经网络等,都应在本专利保护范围之内。
假设人物画像用一个n*p矩阵P表示,代表有n种人物类型,用p种特征来表示;历史职位分类模型在数学意义上可简单抽象成一个k*q矩阵C,其余历史职位信息用k行矩阵X表示。此外,我们拥有人物画像与历史职位的n*k关系矩阵R,Rij表示第i种人物画像与第j种历史职位类型的关联频度。
理论上可以得到人物画像特征与历史职位特征之间的关联矩阵U=αf(PTRC)+βg(PTRX)+γB,f函数和g函数是对矩阵的变换函数,矩阵B是偏置矩阵,α、β、γ分别是各线性加权项的权重参数,PT代表矩阵P的转置,是数学运算符号。由于历史职位是用户在实际生活中的工作经历,是双向选择的正样本,具有求职成功和招聘成功的双重属性,从而得到的关联矩阵体现了用户和招聘单位双方的需求。
输出:人物画像与历史职位特征的关联。
S14、当前职位特征标注。
本步骤可与步骤S12并行处理,也可以按步骤顺序处理,图1中以并行处理为例。
输入:经预处理的当前职位词语序列、当前职位其余信息。
功能:与步骤S12类似,概括为:1)生成文档的向量表示;2)使用机器学习方法,将当前职位聚类并标注特征或类别。3)使用机器学习方法,训练当前职位分类模型。
输出:已标注的当前职位信息,当前职位分类模型。
S15、模型训练。
输入:已标注的历史职位信息,历史职位分类模型,已标注的当前职位信息,当前职位分类模型。
功能:使用机器学习和深度学习方法,训练模型,将历史职位与当前职位信息关联起来。具体方法要依据数据质量和数量来确定。本步骤的具体实施方法与上述步骤S13相似,可以使用包括非负矩阵分解(NMF:Nonnegtive Matrix Factorization)、关联分析(如FP-growth算法等)、卷积神经网络等方法,并且可以套用步骤S13中的相关公式,不再赘述。
输出:历史职位特征与当前职位特征的关联。
S16、结果输出
输入:人物画像信息、人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息。
功能:用矩阵P代表人物画像,用矩阵U代表人物画像与历史职位特征的关联,用矩阵V代表历史职位特征与当前职位特征的关联,用矩阵Y代表已标注的当前职位信息。
可以得到最终的匹配度W=f(P*g(U)*h(V)+B,Y),f函数用来计算两个矩阵各行向量两两之间的相似度,g函数和h函数是对矩阵的变换函数,矩阵B是偏置矩阵。由于人物画像与历史职位特征的关联代表了双向的需求,且整个计算流程是可逆的,最终的匹配度也体现了双向的需求。
输出:人物画像与当前职位的匹配度。
综上,本实施例的人物画像与职位匹配的方法中,步骤S13和S16体现了双向匹配,“双向”体现在,由于历史职位是人物画像的工作经历,故而必然体现了双方的需求。步骤S12和S14体现了相关性,这里强调的是各自不同特征之间的复合影响,如职位薪水与学位要求之间潜在的正相关性等。因此,本实施例的方法优于现有技术,解决了现有技术中一方面割裂了条件之间的关联,另一方面由于自然语言的复杂性,当遇到相同含义的不同表述时,匹配效果不佳等问题。
实施例2、本实施例的一种人物画像与职位匹配的系统,参见图2所示,包括:职位信息预处理模块21,与职位信息预处理模块21相连的职位特征标注模块22,与职位特征标注模块22相连的关联提取模块23,与职位特征标注模块22相连的模型训练模块24,以及分别与职位特征标注模块22、关联提取模块23和模型训练模块24相连的结果输出模块25。
职位信息预处理模块21,用于对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列。具体的,向职位信息预处理模块21输入职位的各项数据,包括但不限于职位名称、职位描述等等。将职位描述等中文文本进行分词,随后进行常规的文本清洗操作,包括错别字纠正、去除停止词、去除低频词等。其余职位信息,即非中文文本的职位信息根据数据类型(如:连续、离散、标称等)按照通常的特征处理流程来清洗,如归一化等。最后,职位信息预处理模块21输出经预处理的职位词语序列,包括经预处理的历史职位词语序列和经预处理的当前职位词语序列。
职位特征标注模块22,用于对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型。具体的,向职位特征标注模块22输入经预处理的历史职位词语序列、历史职位其余信息。假设总共m个职位的所有文本包含的词语总数为s,每个职位的文本信息为一个文档D,一个包含d个词语的文档D的词语序列为[w1,w2,…,wd],每个文档的s值各不相同。生成文档的向量表示。通过向量空间模型(VSM,Vector Space Model)将每个文档转化为具有同等长度s的向量,此时可将整体信息看做一个m*s的矩阵S,每一行代表一个文档向量,每一列(即每个维度)表示一个词语的某种统计量(词频、TF-IDF值等等)。通过诸如奇异值分解(SVD,Singular ValueDecomposition)、主题模型(Topic Model)等方法降低维度、去除噪音、提取隐藏语义信息,将维度从s缩减到q,即矩阵S转化为m*q的矩阵Q,其中每一维度在数学意义上代表一个复合特征,体现了每个职位的不同要求之间的潜在相关性。使用机器学习方法,将历史职位聚类并标注特征或类别。视每个文档向量为向量空间中的散点,通过K-Means等算法进行聚类分析,将散点划分为k个类别,每个行向量标注一个类别。使用机器学习方法,训练历史职位分类模型。用已标注了k个类别的m*q矩阵Q做训练数据,可通过人工神经网络、支持向量机(SVM,Support Vector Machine)、深度学习等方法训练得到分类模型。职位特征标注模块22输出已标注的历史职位信息,历史职位分类模型。同理,可以并行处理当前职位特征标注,向职位特征标注模块22输入经预处理的当前职位词语序列、当前职位其余信息。与上述类似,概括为:1)生成文档的向量表示;2)使用机器学习方法,将当前职位聚类并标注特征或类别。3)使用机器学习方法,训练当前职位分类模型。最后,职位特征标注模块22输出已标注的当前职位信息,当前职位分类模型。
关联提取模块23,用于根据已有的人物画像信息和上述得到的历史职位分类模型,提取人物画像与历史职位特征的关联。具体的,向关联提取模块23输入人物画像信息、历史职位分类模型。使用数据挖掘和深度学习方法,提取人物画像与职位特征之间的关联。具体实施方法有很多,要依据数据质量和数量来确定。以下提供一个参考方法,其它方法还包括非负矩阵分解(NMF:Nonnegtive Matrix Factorization)、关联分析(如FP-growth算法等)、卷积神经网络等,都应在本专利保护范围之内。假设人物画像用一个n*p矩阵P表示,代表有n种人物类型,用p种特征来表示;历史职位分类模型在数学意义上可简单抽象成一个k*q矩阵C,其余历史职位信息用k行矩阵X表示。此外,我们拥有人物画像与历史职位的n*k关系矩阵R,Rij表示第i种人物画像与第j种历史职位类型的关联频度。理论上可以得到人物画像特征与历史职位特征之间的关联矩阵U=αf(PTRC)+βg(PTRX)+γB,f函数和g函数是对矩阵的变换函数,矩阵B是偏置矩阵,α、β、γ分别是各线性加权项的权重参数,PT代表矩阵P的转置,是数学运算符号。由于历史职位是用户在实际生活中的工作经历,是双向选择的正样本,具有求职成功和招聘成功的双重属性,从而得到的关联矩阵体现了用户和招聘单位双方的需求。最后,关联提取模块23输出人物画像与历史职位特征的关联。
模型训练模块24,用于根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,获取历史职位特征与当前职位特征的关联。具体的,向模型训练模块24输入已标注的历史职位信息,历史职位分类模型,已标注的当前职位信息,当前职位分类模型。使用机器学习和深度学习方法,训练模型,将历史职位与当前职位信息关联起来。具体方法要依据数据质量和数量来确定,与上述关联提取模块23的处理过程相似,可以使用包括非负矩阵分解(NMF:Nonnegtive MatrixFactorization)、关联分析(如FP-growth算法等)、卷积神经网络等方法,并且可以套用上述关联提取模块23处理过程中的相关公式,不再赘述。最后,模型训练模块24输出历史职位特征与当前职位特征的关联。
结果输出模块25,用于根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。具体的,向结果输出模块25输入人物画像信息、人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息。用矩阵P代表人物画像,用矩阵U代表人物画像与历史职位特征的关联,用矩阵V代表历史职位特征与当前职位特征的关联,用矩阵Y代表已标注的当前职位信息。可以得到最终的匹配度W=f(P*g(U)*h(V)+B,Y),f函数用来计算两个矩阵各行向量两两之间的相似度,g函数和h函数是对矩阵的变换函数,矩阵B是偏置矩阵。由于人物画像与历史职位特征的关联代表了双向的需求,且整个计算流程是可逆的,最终的匹配度也体现了双向的需求。最后,结果输出模块25输出人物画像与当前职位的匹配度。
综上,本实施例的系统优于现有技术,解决了现有技术中一方面割裂了条件之间的关联,另一方面由于自然语言的复杂性,当遇到相同含义的不同表述时,匹配效果不佳等问题。
综上所述,本发明应用数据挖掘和自然语义分析的相关方法,将人物的历史行为和历史职位数据整理成用若干个特征项表征的统一规格,并运用深度学习的方法,将人物画像标签与历史职位描述联系在一起,得到两者之间的深层次关联;随后综合历史职位和当前职位的职位描述和其它属性,训练模型,并在模型的基础上进行聚类分析,得到职位的若干个类别及其数学特征;最终将通过这个模型,运用回归模型和分类算法,提高人物画像和职位描述的匹配精度和匹配速度。
这里本发明的描述和应用都只是说明性和示意性的,并非是想要将本发明的范围限制在上述实施例中。这里所披露的实施例的变形和改变是完全可能的,对于那些本领域的普通技术人员来说,实施例的替换和等效的各种部件均是公知的。本领域技术人员还应该清楚的是,在不脱离本发明的精神或本质特征的情况下,本发明可以以其它形式、结构、布置、比例,以及用其它组件、材料和部件来实现,以及在不脱离本发明范围和精神的情况下,可以对这里所披露的实施例进行其它变形和改变。
Claims (5)
1.一种人物画像与职位匹配的方法,其特征在于,包括下列步骤:
S1、对职位信息预处理的步骤:对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列;对职位信息进行预处理包括:
输入职位的各项数据;将所述职位的各项数据中的中文文本进行分词后进行文本清洗操作,非中文文本的职位信息则根据数据类型按照特征处理流程进行清洗操作;
S2、职位特征标注的步骤:对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型;
对经预处理的历史职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将历史职位聚类并标注特征或类别;使用机器学习方法,训练历史职位分类模型;
对经预处理的当前职位词语序列进行处理包括:生成文档的向量表示;使用机器学习方法,将当前职位聚类并标注特征或类别;使用机器学习方法,训练当前职位分类模型;
S3、关联提取的步骤:根据已有的人物画像信息和上述得到的历史职位分类模型,通过数据挖掘和深度学习方法提取人物画像与历史职位特征的关联;
S4、模型训练的步骤:根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,使用机器学习、深度学习方法和训练模型方法,获取历史职位特征与当前职位特征的关联;
S5、结果输出的步骤:根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。
2.如权利要求1所述的人物画像与职位匹配的方法,其特征在于,设总共m个职位的所有文本包含的词语总数为s,每个职位的文本信息为一个文档D,一个包含d个词语的文档D的词语序列为[w1,w2,...,wd],每个文档的s值各不相同;
生成文档的向量表示具体包括:通过向量空间模型将每个文档转化为具有同等长度s的向量,此时整体信息为一个m*s的矩阵S,每一行代表一个文档向量,每一列即每个维度表示一个词语的特定统计量;再将维度从s缩减到q,即矩阵S转化为m*q的矩阵Q,其中每一维度在数学意义上代表一个复合特征;
使用机器学习方法,将历史职位聚类并标注特征或类别具体包括:视每个文档向量为向量空间中的散点进行聚类分析,将散点划分为k个类别,每个行向量标注一个类别;
使用机器学习方法,训练历史职位分类模型具体包括:已标注了k个类别的m*q矩阵Q做训练数据,训练得到历史职位分类模型。
3.如权利要求1所述的人物画像与职位匹配的方法,其特征在于,假设人物画像信息用一个n*p矩阵P表示,代表有n种人物类型,用p种特征来表示;历史职位分类模型在数学意义上可简单抽象成一个k*q矩阵C,其余历史职位信息用k行矩阵X表示;人物画像与历史职位的n*k关系矩阵R,Rij表示第i种人物画像与第j种历史职位类型的关联频度;
所述人物画像与历史职位特征的关联,具体为人物画像特征与历史职位特征之间的关联矩阵U=αf(PTRC)+βg(PTRX)+γB,其中f函数和g函数是对矩阵的变换函数,矩阵B是偏置矩阵,α、β、γ分别是各线性加权项的权重参数。
4.如权利要求1所述的人物画像与职位匹配的方法,其特征在于,步骤S5中具体包括:用矩阵P代表人物画像,用矩阵U代表人物画像与历史职位特征的关联,用矩阵V代表历史职位特征与当前职位特征的关联,用矩阵Y代表已标注的当前职位信息;
人物画像与当前职位的匹配度W=f(P*g(U)*h(V)+B,Y),f函数用来计算两个矩阵各行向量两两之间的相似度,g函数和h函数是对矩阵的变换函数,矩阵B是偏置矩阵。
5.一种人物画像与职位匹配的系统,其特征在于,包括:
职位信息预处理模块,用于对职位信息进行预处理,得到经预处理的历史职位词语序列和经预处理的当前职位词语序列;
职位特征标注模块,用于对所述的经预处理的历史职位词语序列进行处理,得到已标注的历史职位信息和历史职位分类模型;以及,对所述的经预处理的当前职位词语序列进行处理,得到已标注的当前职位信息和当前职位分类模型;
关联提取模块,用于根据已有的人物画像信息和上述得到的历史职位分类模型,提取人物画像与历史职位特征的关联;
模型训练模块,用于根据上述得到的已标注的历史职位信息、历史职位分类模型、已标注的当前职位信息以及当前职位分类模型,获取历史职位特征与当前职位特征的关联;
结果输出模块,用于根据已有的人物画像信息以及上述得到的人物画像与历史职位特征的关联、历史职位特征与当前职位特征的关联、已标注的当前职位信息,获取人物画像与当前职位的匹配度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111030.9A CN105608477B (zh) | 2016-03-01 | 2016-03-01 | 一种人物画像与职位匹配的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610111030.9A CN105608477B (zh) | 2016-03-01 | 2016-03-01 | 一种人物画像与职位匹配的方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105608477A CN105608477A (zh) | 2016-05-25 |
CN105608477B true CN105608477B (zh) | 2021-06-08 |
Family
ID=55988401
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610111030.9A Active CN105608477B (zh) | 2016-03-01 | 2016-03-01 | 一种人物画像与职位匹配的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105608477B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105893641B (zh) * | 2016-07-01 | 2019-02-26 | 中国传媒大学 | 一种职位推荐方法 |
CN106250502A (zh) * | 2016-07-28 | 2016-12-21 | 五八同城信息技术有限公司 | 确定相似职位的方法及装置 |
CN106447285B (zh) * | 2016-09-12 | 2020-06-12 | 北京大学 | 基于多维度领域关键知识的招聘信息匹配方法 |
US10643183B2 (en) * | 2016-10-18 | 2020-05-05 | Google Llc | Search engine |
CN107578292B (zh) * | 2017-09-19 | 2020-10-16 | 上海财经大学 | 一种用户画像构建系统 |
CN108256827A (zh) * | 2018-01-10 | 2018-07-06 | 广东轩辕网络科技股份有限公司 | 目标职位分析方法及系统 |
CN110110213B (zh) * | 2018-01-24 | 2021-03-26 | 腾讯科技(深圳)有限公司 | 挖掘用户职业的方法、装置、计算机可读存储介质和终端设备 |
CN108509561B (zh) * | 2018-03-23 | 2020-06-26 | 山东合天智汇信息技术有限公司 | 基于机器学习的岗位招聘数据筛选方法、系统及存储介质 |
CN109241446B (zh) * | 2018-10-17 | 2021-11-26 | 重庆汇博信息科技有限公司 | 一种职位推荐方法及系统 |
CN109492164A (zh) * | 2018-11-26 | 2019-03-19 | 北京网聘咨询有限公司 | 一种简历的推荐方法、装置、电子设备及存储介质 |
CN109840468A (zh) * | 2018-12-14 | 2019-06-04 | 深圳壹账通智能科技有限公司 | 一种用户分析报告的生成方法及设备 |
CN109829500B (zh) * | 2019-01-31 | 2023-05-02 | 华南理工大学 | 一种职位构图和自动聚类方法 |
CN111597330A (zh) * | 2019-02-21 | 2020-08-28 | 中国科学院信息工程研究所 | 一种基于支持向量机的面向智能专家推荐的用户画像方法 |
CN110135504B (zh) * | 2019-05-20 | 2021-12-03 | 杭州弧途科技有限公司 | 一种基于人工智能的大学生兼职精确匹配方法 |
CN110619506B (zh) * | 2019-08-13 | 2023-05-26 | 平安科技(深圳)有限公司 | 一种岗位画像生成方法、岗位画像生成装置及电子设备 |
CN111062599B (zh) * | 2019-12-09 | 2022-06-14 | 莆田学院 | 基于人员关系的人力资源调度模型训练、调度方法及装置 |
CN111708929B (zh) * | 2020-06-17 | 2023-05-30 | 北京字节跳动网络技术有限公司 | 信息搜索方法、装置、电子设备及存储介质 |
CN111738778B (zh) * | 2020-07-20 | 2020-12-01 | 平安国际智慧城市科技股份有限公司 | 用户画像生成方法、装置、计算机设备及存储介质 |
CN112001609A (zh) * | 2020-08-12 | 2020-11-27 | 浙江华为通信技术有限公司 | 一种职业培训评价系统及其方法 |
CN112990887B (zh) * | 2021-05-07 | 2021-08-17 | 北京车智赢科技有限公司 | 一种简历和岗位匹配的方法及计算设备 |
CN113269249A (zh) * | 2021-05-25 | 2021-08-17 | 广东技术师范大学 | 一种基于深度学习的多数据源人物画像构建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930370A (zh) * | 2012-09-27 | 2013-02-13 | 杜继俊 | 招聘信息处理方法及系统 |
CN104834668A (zh) * | 2015-03-13 | 2015-08-12 | 浙江奇道网络科技有限公司 | 基于知识库的职位推荐系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110213733A1 (en) * | 2010-02-26 | 2011-09-01 | Cail Ii Dennis Ray | System and method for grading and rating green and sustainable jobs |
US20120123956A1 (en) * | 2010-11-12 | 2012-05-17 | International Business Machines Corporation | Systems and methods for matching candidates with positions based on historical assignment data |
US20150006422A1 (en) * | 2013-07-01 | 2015-01-01 | Eharmony, Inc. | Systems and methods for online employment matching |
-
2016
- 2016-03-01 CN CN201610111030.9A patent/CN105608477B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930370A (zh) * | 2012-09-27 | 2013-02-13 | 杜继俊 | 招聘信息处理方法及系统 |
CN104834668A (zh) * | 2015-03-13 | 2015-08-12 | 浙江奇道网络科技有限公司 | 基于知识库的职位推荐系统 |
Also Published As
Publication number | Publication date |
---|---|
CN105608477A (zh) | 2016-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105608477B (zh) | 一种人物画像与职位匹配的方法及系统 | |
CN112632385B (zh) | 课程推荐方法、装置、计算机设备及介质 | |
CN111753060B (zh) | 信息检索方法、装置、设备及计算机可读存储介质 | |
CN111125422B (zh) | 一种图像分类方法、装置、电子设备及存储介质 | |
Zhang et al. | Active discriminative text representation learning | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
US11113323B2 (en) | Answer selection using a compare-aggregate model with language model and condensed similarity information from latent clustering | |
CN112119388A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
CN110765260A (zh) | 一种基于卷积神经网络与联合注意力机制的信息推荐方法 | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
CN109086265B (zh) | 一种语义训练方法、短文本中多语义词消歧方法 | |
Singh et al. | A comparison of linear discriminant analysis and ridge classifier on Twitter data | |
CN112074828A (zh) | 训练图像嵌入模型和文本嵌入模型 | |
CN113627797B (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN111737576B (zh) | 应用功能个性化推荐方法和装置 | |
CN108363748B (zh) | 基于知乎的话题画像系统及话题画像方法 | |
CN113392179A (zh) | 文本标注方法及装置、电子设备、存储介质 | |
Sivanantham | Sentiment analysis on social media for emotional prediction during COVID‐19 pandemic using efficient machine learning approach | |
CN116756347B (zh) | 一种基于大数据的语义信息检索方法 | |
CN111581364A (zh) | 一种面向医疗领域的中文智能问答短文本相似度计算方法 | |
CN115114916A (zh) | 用户反馈数据的分析方法、装置及计算机设备 | |
US10289624B2 (en) | Topic and term search analytics | |
CN104102727B (zh) | 查询词的推荐方法及装置 | |
Xiao et al. | Complementary relevance feedback-based content-based image retrieval |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |