CN116028722A - 一种基于词向量的岗位推荐方法、装置及计算机设备 - Google Patents
一种基于词向量的岗位推荐方法、装置及计算机设备 Download PDFInfo
- Publication number
- CN116028722A CN116028722A CN202310330386.1A CN202310330386A CN116028722A CN 116028722 A CN116028722 A CN 116028722A CN 202310330386 A CN202310330386 A CN 202310330386A CN 116028722 A CN116028722 A CN 116028722A
- Authority
- CN
- China
- Prior art keywords
- post
- word
- vectors
- vector
- job
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于词向量的岗位推荐方法、装置及计算机设备,包括:利用潜在语义分析模型获取个人简历中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;根据词向量求和因子,分别对重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量;根据相似值大小对岗位需求特征向量进行一次筛选、根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位。采用本发明,能够从岗位匹配用户维度、用户意愿维度两个维度准确地为用户推荐就业岗位。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于词向量的岗位推荐方法、装置及计算机设备。
背景技术
随着互联网技术的高速发展,人们通常通过互联网的招聘网站进行求职。网络应聘招聘的主要运作模式是求职者在网络平台上发布个人简历,用人单位在网络平台上发布职位信息。网络平台在拥有了大量的个人简历和职位信息后,有针对性地向求职者推荐职位信息,向用人单位推荐个人简历,以此将求职者和用人单位联系起来,帮助求职者快速地找到适合其工作能力的工作,帮助用人单位快速找到符合工作要求的员工。
对于应聘者而言,使用通过由岗位需求、技能需求、学历要求等信息组成的关键词集合在招聘平台进行岗位搜索,获取符合条件的岗位。但是,应聘者调用的关键词集合未必能够覆盖各个相关岗位相关文字描述,由于语言表达的多样性,不同的词语可以表达同一个意思,同一个意思也可以用不同的词语来表达,招聘方在发布的招聘职位中用词不可能和求职者发布的求职简历中用词一致,因此,应聘者调用的关键词集合来搜索岗位,往往不能达到精确的匹配效果。另一方面,即使应聘者自身的专业技能满足岗位需求,但是检索到岗位的工作内容、职位晋升方向、公司文化等影响个人选择意愿的隐性内容往往不能反馈到搜索结果中,往往需要应聘者在检索结果中浏览大量无关的、不敢感兴趣的岗位,大大影响求职效率。
综上所述,招聘平台提供给应聘者的推荐岗位不准确、推荐效率低极大低影响了应聘者跟招聘者双方匹配体验。
发明内容
本发明实施例提供一种基于词向量的岗位推荐方法、装置及计算机设备,利用潜在语义分析模型个人简历提取求职意愿特征向量和个人技能特征向量,从两个维度方向与岗位需要特征向量匹配进而推荐合适的岗位。
本申请实施例的第一方面提供了一种基于词向量的岗位推荐方法,包括:
分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息;
以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述客观信息为内容与形式固定的信息;
按照预设的权重,分别对每一类主观信息和客观信息中重复出现的重复求职意愿关键词对应的多个词向量、重复出现的重复个人技能关键词对应的多个词向量加权相加,得到所述用户简历中所述重复求职意愿关键词的词向量和所述重复个人技能关键词的词向量;
根据词向量求和因子,分别对所述重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、所述重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量;
根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选;
分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
在第一方面的一种可能的实现方式中,所述词向量求和因子的获取方式为:
分别根据各个求职意愿关键词、各个个人技能关键词在所述用户简历中出现的频次,得到对应的词向量求和因子。
在第一方面的一种可能的实现方式中,所述岗位需求类簇库中每个岗位需求特征向量的获取过程为:
利用潜在语义分析模型对目标岗位信息进行词向量提取,获取目标岗位信息中岗位需求关键词的词向量;
按照岗位供应方的实际需求,调整各个岗位信息中岗位需求关键词对应的影响因子;
根据所述影响因子和各个岗位信息中岗位需求关键词的词向量,生成一个目标岗位信息对应的岗位需求特征向量。
在第一方面的一种可能的实现方式中,所述根据所述个人技能特征向量,确认对应的岗位需求类簇库,具体包括:
采用基于划分的聚类算法,对全部岗位需求特征向量进行聚类,得到多个类簇中心向量;
将与每个类簇中心向量之间的余弦距离小于预设类簇值的向量空间划分为该类簇中心向量对应的岗位需求类簇库;
计算所述个人技能特征向量与各个类簇中心向量之间的余弦距离,确认余弦距离最小时对应类簇中心向量;
根据所述余弦距离最小时对应类簇中心向量,确认对应的岗位需求类簇库。
在第一方面的一种可能的实现方式中,所述比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选,具体包括:
计算所述个人技能特征向量与岗位需求特征向量的夹角余弦、信息熵和曼哈顿距离;
对所述夹角余弦、所述信息熵和所述曼哈顿距离进行归一化处理并取均值作为相似值;
从所有的岗位需求特征向量中选出与所述个人技能特征向量相似值大于预设阈值的多个岗位需求特征向量。
在第一方面的一种可能的实现方式中,所述分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位,具体包括:
分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影长度;
分别计算所有经过一次筛选的岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩;
将各个投影长度与对应转换矩阵的秩的比值作为长秩比;
从所有经过一次筛选的岗位需求特征向量选出与所述求职意愿特征向量长秩比大于预设阈值的多个岗位需求特征向量,得到多个岗位需求特征向量对应的多个岗位。
在第一方面的一种可能的实现方式中,所述潜在语义分析模型的建模过程为:
统计文档中各个关键词词频和逆文档频率;所述文档是用户简历中的每一类主观信息,或是用户简历中的全部信息,或是目标岗位信息;
构建共现矩阵,所述共现矩阵中每个元素的值为各个关键词词频和逆文档频率的比值;
对所述共现矩阵进行奇异值分解,得到词向量空间矩阵、文档向量空间矩阵和奇异值对角矩阵。
在第一方面的一种可能的实现方式中,所述潜在语义分析模型运行过程为:
利用SVD方法对所述词向量空间矩阵、所述文档向量空间矩阵和所述奇异值对角矩阵进行多次降维,直至低维近似矩阵与所述共现矩阵的近似误差最小;
对近似误差最小时对应的词向量空间矩阵进行转换,得到对应词向量。
本申请实施例的第二方面提供了一种基于词向量的岗位推荐装置,包括:
主观信息提取模块,用于分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息;
客观信息提取模块,用于以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述客观信息为内容与形式固定的信息;
重复关键词提取模块,用于按照预设的权重,分别对每一类主观信息和客观信息中重复出现的重复求职意愿关键词对应的多个词向量、重复出现的重复个人技能关键词对应的多个词向量加权相加,得到所述用户简历中所述重复求职意愿关键词的词向量和所述重复个人技能关键词的词向量;
词向量求和模块,用于根据词向量求和因子,分别对所述重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、所述重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量;
一次筛选模块,用于根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选;
二次筛选模块,用于分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
本申请实施例的第三方面提供了一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如上所述基于词向量的岗位推荐方法。
相比于现有技术,本发明实施例提供了一种基于词向量的岗位推荐方法、装置及计算机设备,利用潜在语义分析模型从个人简历的主观信息、客观信息提取出全部求职意愿关键词的词向量和全部个人技能关键词的词向量,按照招聘方、应聘方双方要求,分别将多个求职意愿关键词的词向量和多个个人技能关键词的词向量加权求和,得到求职意愿特征向量和个人技能特征向量,根据所述求职意愿特征向量和个人技能特征向量从两个维度方向与岗位需求类簇库中的岗位需要特征向量一次匹配、二次匹配后得到合适的岗位。
由于上述过程中采用的潜在语义分析模型是一种基于统计文档词和文档关系的模型,能有效反映文档与词之间的共现关系,通过分析文字的深层含义,来判断文字之间的相似值,进而挖掘出代表招聘职位中职位要求的关键词向量、求职者在个人简历中个人能力和个人意愿的关键词向量,通过相关向量之间的相似比较推到符合求职者其自身情况的岗位,相比起由应聘者直接通过关键词检索目标岗位,本申请通过潜在语义分析模型得到代表应聘者的特征向量,再根据该特征向量在岗位需求类簇库中寻找合适岗位,利用向量的相关计算保证了推荐岗位的准确性,避免了应聘者浏览大量无关岗位的情况,提高了岗位与应聘者之间的匹配效率。
附图说明
图1是本发明一实施例提供一种基于词向量的岗位推荐方法的流程示意图;
图2是本发明一实施例提供一种基于词向量的岗位推荐装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参照图1,本发明实施例提供了一种基于词向量的岗位推荐方法,包括:
S10、分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息。
S11、以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述客观信息为内容与形式固定的信息。
S12、按照预设的权重,分别对每一类主观信息和客观信息中重复出现的重复求职意愿关键词对应的多个词向量、重复出现的重复个人技能关键词对应的多个词向量加权相加,得到所述用户简历中所述重复求职意愿关键词的词向量和所述重复个人技能关键词的词向量。
S13、根据词向量求和因子,分别对所述重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、所述重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量。
S14、根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选。
S15、分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
职位信息和个人简历均可分为主观信息和客观信息两部分;客观信息可以用简单的数值或者关键词来描述,而主观信息则是用一段自然语言文本来描述。
一般而言,在招聘方提供的职位信息中有客观信息如:职位名称、工作地点、招聘人数、薪资、学历要求、专业要求、年龄要求;主观信息如:职位描述(包含岗位职责、职位要求)、福利待遇、公司简介,主观信息往往占整个职位信息的大半部分。因此,职位信息中的主观信息蕴藏着大量的职位相关信息。
对于个人简历来说,客观信息如:姓名、籍贯、年龄、性别、学历、专业、期望薪资;非结构化数据如:个人简述、工作经历、职业技能、性格描述,主观信息往往占整个职位信息的大半部分。因此,个人简历的主观信息蕴藏着大量的简历相关信息。
可见,无论是招聘信息还是个人简历中,主观信息的占比是比较高的,对于这一部分内容,很多用户并不清楚相同的内容在职位信息是如何描述的,因此若是单凭用户自己通过由岗位需求、技能需求、学历要求等信息组成的关键词集合在招聘平台进行岗位搜索,搜索得到的岗位往往匹配程度较低,还会出现错过大量潜在符合条件岗位的可能。
S10和S11中,均利用了潜在语义分析模型对信息进行词向量提取。需要注意的是,在实际应用过程中,进行词向量提取前需要对文本进行分词处理再提取对应的词向量。分词处理是指中文分词(Chinese Word Segmentation),具体是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。由于分词技术是一种成熟且常见的技术,这里不进行赘述。
S10和S11分别对每一类主观信息的关键词词向量(求职意愿关键词的词向量和个人技能关键词的词向量)、客观信息的关键词词向量进行提取,本方案对主观信息与客观信息分开处理的原因在于每一类主观信息都有较强的主题性,比如说“个人简述”、“工作经历”、“职业技能”、“性格描述”,而每一类主观信息提取得到的关键词词向量对求职意愿关键词的词向量或是个人技能关键词的词向量的影响程度是不一样的,需要分别利用潜在语义分析模型进行词向量提取。
具体而言,S10中对个人简历的主观信息进行分类时,除了运用分词手段,还能够配合预先设置的图像识别算法来提取图片或视频中的文本内容,获得个人简历数据。其中图像识别算法可以包括但不限于光学字符识别算法(OCR,Optical CharacterRecognition)、场景文字识别算法(STR,Scene Text Recognition)等,相应方案落入本公开的保护范围。
由于S10、S11是分开进行词向量提取处理,那么执行S10、S11后可能会出现重复的求职意愿关键词或是个人技能关键词,因此在S12中,针对重复出现的词,比如说“java架构”在主观信息中的“个人简述”、“工作经历”、“职业技能”均有出现,还出现与客观信息中的“计算机技能栏”中,那么这时候就需要考虑各类主观信息、客观信息对于个人能力、个人意向两个方面的影响,预先设置不同权重对“个人简述”、“工作经历”、“职业技能”和“计算机技能栏”中的“java架构”词向量进行加权求和,最后求和得到的相量作为“java架构”关于个人简历的个人技能关键词的词向量(“java架构”属于一种个人技能)。
利用潜在语义分析模型从个人简历的主观信息、客观信息提取出全部求职意愿关键词的词向量和全部个人技能关键词的词向量,按照招聘方、应聘方双方要求后,在S14和S15中分别将多个求职意愿关键词的词向量和多个个人技能关键词的词向量加权求和,得到求职意愿特征向量和个人技能特征向量,根据所述求职意愿特征向量和个人技能特征向量从两个维度方向与岗位需求类簇库中的岗位需要特征向量一次匹配、二次匹配后得到合适的岗位。
由于上述过程中采用的潜在语义分析模型是一种基于统计文档词和文档关系的模型,能有效反映文档与词之间的共现关系,通过分析文字的深层含义,来判断文字之间的相似值,进而挖掘出代表招聘职位中职位要求的关键词向量、求职者在个人简历中个人能力和个人意愿的关键词向量,通过相关向量之间的相似比较推到符合求职者其自身情况的岗位,相比起由应聘者直接通过关键词检索目标岗位,本申请通过潜在语义分析模型得到代表应聘者的特征向量,再根据该特征向量在岗位需求类簇库中寻找合适岗位,利用向量的相关计算保证了推荐岗位的准确性,避免了应聘者浏览大量无关岗位的情况,提高了岗位与应聘者之间的匹配效率。
示例性地,S13中所述词向量求和的获取方式为:
分别根据各个求职意愿关键词、各个个人技能关键词在所述用户简历中出现的频次,得到对应的词向量求和。
例如给定一段目标文本:“生活本没有路,走的人多了就成了路,要相信阳光总在风雨后”,分词后结果为:生活 没有 成了 相信 阳光 风雨,然后为每个特征向量赋予权值:生活(5)没有(2)成了(1)相信(2)阳光(3)风雨(2),其中括号里的数字代表这个单词在整条语句中的重要程度,数字越大代表越重要。词向量求和可以跟据括号里的数字进行设置,特别地,可以取跟据括号里的数字相同的值。
示例性地,所述岗位需求类簇库中每个岗位需求特征向量的获取过程为:
利用潜在语义分析模型对目标岗位信息进行词向量提取,获取目标岗位信息中岗位需求关键词的词向量;
按照岗位供应方的实际需求,调整各个岗位信息中岗位需求关键词对应的影响因子;
根据所述影响因子和各个岗位信息中岗位需求关键词的词向量,生成一个目标岗位信息对应的岗位需求特征向量。
示例性地,所述目标岗位信息的来源包括学校招聘系统、招聘网站招聘系统和在目标网站爬虫所得的岗位数据库。
通过利用爬虫技术,爬取出互联网中的职位信息。获取招聘信息后,需要对数据进行清洗操作,剔除爬取的不完整信息、内容缺失信息或者机器人生成的扎乱文本信息。
示例性地,所述根据所述个人技能特征向量,确认对应的岗位需求类簇库,具体包括:
采用基于划分的聚类算法,对全部岗位需求特征向量进行聚类,得到多个类簇中心向量;
将与每个类簇中心向量之间的余弦距离小于预设类簇值的向量空间划分为该类簇中心向量对应的岗位需求类簇库。
计算所述个人技能特征向量与各个类簇中心向量之间的余弦距离,确认余弦距离最小时对应类簇中心向量;
根据所述余弦距离最小时对应类簇中心向量,确认对应的岗位需求类簇库。
一般而言,对全部岗位需求特征向量进行聚类时,采用K-Means方法(K均值方法),聚类由分组样本中的平均均值点表示。
在全部M个岗位需求特征向量中,随机选取K个岗位需求特征向量作为初始的聚类中心,即将所述K个岗位需求特征向量作为初始的中心向量;其中,将所述K个中心向量记为T1′、T2′、…、T′K;将聚类中心以外的M-K个岗位需求特征向量为T′K+1、T′K+2、…、T′M。M、K均为正整数且K小于M。然后对M-K个岗位需求特征向量进行聚类划分,将T′K+1、T′K+2、…、T′M 划分到以T1′、T2′、…、T′K为中心向量的类簇中。
需要注意的是,类簇中心向量空间由两个参数确认,一个是类簇中心向量、一个是离向量中心距离,离向量中心距离的值等于向量与每个类簇中心向量之间的余弦距离,因此,设置预设类簇值可以调整类簇中心向量空间的大小。类簇中心向量空间越大,最后囊括的库文本数据的数据量就越大,那么查重时所需时间复杂度就越大,管理员可以根据实际情况进行调整。
构建岗位需求类簇库可以极大减少岗位需求特征向量与个人技能特征向量之间的相似值计算次数,提高岗位匹配效率,这是由于每个岗位需求类簇库中的岗位需求特征向量都代表了有相似技能要求的岗位,只需要根据所述个人技能特征向量,确认对应的岗位需求类簇库,那么就只需要在对应的岗位需求类簇库中寻找合适的岗位需求特征向量。
通过比较各个类簇中心向量的中心向量与个人技能特征向量之间的余弦距离确认个人技能特征向量与哪一个类簇中心向量最接近,进而根据类簇中心向量该确认岗位需求类簇库。
示例性地,S14中所述比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选,具体包括:
计算所述个人技能特征向量与岗位需求特征向量的夹角余弦、信息熵和曼哈顿距离;
对所述夹角余弦、所述信息熵和所述曼哈顿距离进行归一化处理并取均值作为相似值;
从所有的岗位需求特征向量中选出与所述个人技能特征向量相似值大于预设阈值的多个岗位需求特征向量。
在本实施例中,个人技能特征向量反映的是个人专业技能,个人技能特征向量若在夹角余弦、信息熵和曼哈顿距离三个参数上均表现出岗位需求特征向量之间极大相似值,那么就意味着从岗位匹配用户的维度来说,岗位需求特征向量所对应的岗位是属于用户求职目标的岗位。
示例性地,所述分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位,具体包括:
分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影长度;
分别计算所有经过一次筛选的岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩;
将各个投影长度与对应转换矩阵的秩的比值作为长秩比;
从所有经过一次筛选的岗位需求特征向量选出与所述求职意愿特征向量长秩比大于预设阈值的多个岗位需求特征向量,得到多个岗位需求特征向量对应的多个岗位。
在本实施例中,求职意愿特征向量反映的是个人求职意愿,长秩比若大于预设阈值,那么就意味着岗位信息中的隐性信息符合个人求职意愿,二次筛选的目的在于从用户意愿维度两个维度准确地为用户推荐就业岗位。
本实施例采用岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩作为衡量的原因是转换矩阵的秩反应了在一个向量空间中,岗位需求特征向量转换为求职意愿特征向量的难度,秩越小,说明进行向量变换时所需动作就越少,表面岗位需求特征向量与求职意愿特征向量之间的相关性越大。
示例性地,所述潜在语义分析模型的建模过程为:
统计文档中各个关键词词频和逆文档频率;所述文档是用户简历中的每一类主观信息,或是用户简历中的全部信息,或是目标岗位信息;
构建共现矩阵,所述共现矩阵中每个元素的值为各个关键词词频和逆文档频率的比值;
对所述共现矩阵进行奇异值分解,得到词向量空间矩阵、文档向量空间矩阵和奇异值对角矩阵。
潜在语义分析(Latent Semantic Analysis, LSA)方法提一种分析词与文档相关性的方法。LSA方法将语料构建为词-文档共现矩阵,利用矩阵分解的方法将词和文档映射到同一个低维语义空间,获得词的向量化示。因此,LSA方法也是一种基于全局统计信息构建词-文档共现矩阵学习Word Embedding的方法,将高维度的词表示映射到低维空间,通过降低向量空间的维度降低高维空间中的噪声,挖掘词的潜在语义特征。原始高维度的共现信息是对文本数据的直接统计,是一种直接的、稀疏的词表示形式,反映从语料中统计的真实的词-文档共现信息。矩阵分解的方法河构造低维语义空间,获得一种间接的、稠密的词表形式,反映词-文档的近似共现信息。因此,最终学习得到的WordEmbedding不是简单的词条出现频率和分布关系,是强化语义关系的向量化表示。
示例性地,所述潜在语义分析模型运行过程为:
利用SVD方法对所述词向量空间矩阵、所述文档向量空间矩阵和所述奇异值对角矩阵进行多次降维,直至低维近似矩阵与所述共现矩阵的近似误差最小;
对近似误差最小时对应的词向量空间矩阵进行转换,得到对应词向量。
在矩阵分解过程中,LSA方法对共现矩阵采用奇异值分解(SingularValueDecomposition, SVD)的方法进行分解,将共现矩阵分解为三个矩阵,即词向量空间矩阵、文档向量空间矩阵和奇异值对角矩阵。SVD方法河对这三个矩阵进行降维,生成低维的近似矩阵,最小化近似矩阵与共现矩阵的近似误差,近似矩阵等于降维词向量空间矩阵、降维文档向量空间矩阵和降维奇异值对角矩阵的乘积。其中,降维词向量空间矩阵可实现将词从高维空间映射到维空间的潜在语义;降维文档向量空间矩阵表示文档从高维空间映射到k维空间的潜在特征表示。当近似矩阵与共现矩阵的近似误差最小时,可获得LSA方法的优化结果,降维词向量空间矩阵即代表学习获得的词向量。
相比于现有技术,本发明实施例提供了一种基于词向量的岗位推荐方法,利用潜在语义分析模型从个人简历的主观信息、客观信息提取出全部求职意愿关键词的词向量和全部个人技能关键词的词向量,按照招聘方、应聘方双方要求,分别将多个求职意愿关键词的词向量和多个个人技能关键词的词向量加权求和,得到求职意愿特征向量和个人技能特征向量,根据所述求职意愿特征向量和个人技能特征向量从两个维度方向与岗位需求类簇库中的岗位需要特征向量一次匹配、二次匹配后得到合适的岗位。
由于上述过程中采用的潜在语义分析模型是一种基于统计文档词和文档关系的模型,能有效反映文档与词之间的共现关系,通过分析文字的深层含义,来判断文字之间的相似值,进而挖掘出代表招聘职位中职位要求的关键词向量、求职者在个人简历中个人能力和个人意愿的关键词向量,通过相关向量之间的相似比较推到符合求职者其自身情况的岗位,相比起由应聘者直接通过关键词检索目标岗位,本申请通过潜在语义分析模型得到代表应聘者的特征向量,再根据该特征向量在岗位需求类簇库中寻找合适岗位,利用向量的相关计算保证了推荐岗位的准确性,避免了应聘者浏览大量无关岗位的情况,提高了岗位与应聘者之间的匹配效率。
请参见图2,本申请一实施例提供一种基于词向量的岗位推荐装置,包括主观信息提取模块20、客观信息提取模块21、重复关键词提取模块22、词向量求和模块23、一次筛选模块24和二次筛选模块25。
主观信息提取模块20,用于分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息;
客观信息提取模块21,用于以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量。
重复关键词提取模块22,用于按照预设的权重,分别对每一类主观信息和客观信息中重复出现的求职意愿关键词对应的多个词向量、重复出现的个人技能关键词对应的多个词向量加权相加,得到所述用户简历中重复出现的求职意愿关键词的词向量和重复出现的个人技能关键词的词向量。
词向量求和模块23,用于根据词向量求和,分别对全部求职意愿关键词的词向量和全部个人技能关键词进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量。
一次筛选模块24,用于根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选。
二次筛选模块25,用于分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的定位装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
相比于现有技术,本发明实施例提供了一种基于词向量的岗位推荐装置,利用潜在语义分析模型从个人简历的主观信息、客观信息提取出全部求职意愿关键词的词向量和全部个人技能关键词的词向量,按照招聘方、应聘方双方要求,分别将多个求职意愿关键词的词向量和多个个人技能关键词的词向量加权求和,得到求职意愿特征向量和个人技能特征向量,根据所述求职意愿特征向量和个人技能特征向量从两个维度方向与岗位需求类簇库中的岗位需要特征向量一次匹配、二次匹配后得到合适的岗位。
由于上述过程中采用的潜在语义分析模型是一种基于统计文档词和文档关系的模型,能有效反映文档与词之间的共现关系,通过分析文字的深层含义,来判断文字之间的相似值,进而挖掘出代表招聘职位中职位要求的关键词向量、求职者在个人简历中个人能力和个人意愿的关键词向量,通过相关向量之间的相似比较推到符合求职者其自身情况的岗位,相比起由应聘者直接通过关键词检索目标岗位,本申请通过潜在语义分析模型得到代表应聘者的特征向量,再根据该特征向量在岗位需求类簇库中寻找合适岗位,利用向量的相关计算保证了推荐岗位的准确性,避免了应聘者浏览大量无关岗位的情况,提高了岗位与应聘者之间的匹配效率。
本申请一实施例提供了一种计算机设备,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如上所述基于词向量的岗位推荐方法。
所述计算机设备可以是智能手机、平板电脑、桌上型计算机和云端服务器等计算设备。该计算机设备可包括但不仅限于处理器、存储器。本领域技术人员可以理解,计算机设备可以包括输入输出设备、网络接入设备等。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器 (Digital Signal Processor,DSP)、专用集成电路 (Application Specific Integrated Circuit,ASIC)、现成可编程门阵列 (Field-Programmable Gate Array,FPGA) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器在一些实施例中可以是所述计算机设备的内部存储单元,例如计算机设备的硬盘或内存。所述存储器在另一些实施例中也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器还可以既包括所述计算机设备的内部存储单元也包括外部存储设备。所述存储器用于存储操作系统、应用程序、引导装载程序(BootLoader)、数据以及其他程序等,例如所述计算机程序的程序代码等。所述存储器还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于词向量的岗位推荐方法,其特征在于,包括:
分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息;
以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述客观信息为内容与形式固定的信息;
按照预设的权重,分别对每一类主观信息和客观信息中重复出现的重复求职意愿关键词对应的多个词向量、重复出现的重复个人技能关键词对应的多个词向量加权相加,得到所述用户简历中所述重复求职意愿关键词的词向量和所述重复个人技能关键词的词向量;
根据词向量求和因子,分别对所述重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、所述重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量;
根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选;
分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
2.如权利要求1所述基于词向量的岗位推荐方法,其特征在于,所述词向量求和因子的获取方式为:
分别根据各个求职意愿关键词、各个个人技能关键词在所述用户简历中出现的频次,得到对应的词向量求和因子。
3.如权利要求1所述基于词向量的岗位推荐方法,其特征在于,所述岗位需求类簇库中每个岗位需求特征向量的获取过程为:
利用潜在语义分析模型对目标岗位信息进行词向量提取,获取目标岗位信息中岗位需求关键词的词向量;
按照岗位供应方的实际需求,调整各个岗位信息中岗位需求关键词对应的影响因子;
根据所述影响因子和各个岗位信息中岗位需求关键词的词向量,生成一个目标岗位信息对应的岗位需求特征向量。
4.如权利要求1所述基于词向量的岗位推荐方法,其特征在于,所述根据所述个人技能特征向量,确认对应的岗位需求类簇库,具体包括:
采用基于划分的聚类算法,对全部岗位需求特征向量进行聚类,得到多个类簇中心向量;
将与每个类簇中心向量之间的余弦距离小于预设类簇值的向量空间划分为该类簇中心向量对应的岗位需求类簇库;
计算所述个人技能特征向量与各个类簇中心向量之间的余弦距离,确认余弦距离最小时对应类簇中心向量;
根据所述余弦距离最小时对应类簇中心向量,确认对应的岗位需求类簇库。
5.如权利要求1所述基于词向量的岗位推荐方法,其特征在于,所述比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选,具体包括:
计算所述个人技能特征向量与岗位需求特征向量的夹角余弦、信息熵和曼哈顿距离;
对所述夹角余弦、所述信息熵和所述曼哈顿距离进行归一化处理并取均值作为相似值;
从所有的岗位需求特征向量中选出与所述个人技能特征向量相似值大于预设阈值的多个岗位需求特征向量。
6.如权利要求1所述基于词向量的岗位推荐方法,其特征在于,所述分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位,具体包括:
分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影长度;
分别计算所有经过一次筛选的岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩;
将各个投影长度与对应转换矩阵的秩的比值作为长秩比;
从所有经过一次筛选的岗位需求特征向量选出与所述求职意愿特征向量长秩比大于预设阈值的多个岗位需求特征向量,得到多个岗位需求特征向量对应的多个岗位。
7.如权利要求1或3所述基于词向量的岗位推荐方法,其特征在于,所述潜在语义分析模型的建模过程为:
统计文档中各个关键词词频和逆文档频率;所述文档是用户简历中的每一类主观信息,或是用户简历中的全部信息,或是目标岗位信息;
构建共现矩阵,所述共现矩阵中每个元素的值为各个关键词词频和逆文档频率的比值;
对所述共现矩阵进行奇异值分解,得到词向量空间矩阵、文档向量空间矩阵和奇异值对角矩阵。
8.如权利要求7所述基于词向量的岗位推荐方法,其特征在于,所述潜在语义分析模型运行过程为:
利用SVD方法对所述词向量空间矩阵、所述文档向量空间矩阵和所述奇异值对角矩阵进行多次降维,直至低维近似矩阵与所述共现矩阵的近似误差最小;
对近似误差最小时对应的词向量空间矩阵进行转换,得到对应词向量。
9.一种基于词向量的岗位推荐装置,其特征在于,包括:
主观信息提取模块,用于分别以用户简历中的每一类主观信息为整体,利用潜在语义分析模型对每一类主观信息进行词向量提取,获取每一类主观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述主观信息为内容与形式非固定的信息;
客观信息提取模块,用于以用户简历中的全部信息为整体,利用潜在语义分析模型对全部客观信息进行词向量提取,获取客观信息中全部求职意愿关键词的词向量和全部个人技能关键词的词向量;其中,所述客观信息为内容与形式固定的信息;
重复关键词提取模块,用于按照预设的权重,分别对每一类主观信息和客观信息中重复出现的重复求职意愿关键词对应的多个词向量、重复出现的重复个人技能关键词对应的多个词向量加权相加,得到所述用户简历中所述重复求职意愿关键词的词向量和所述重复个人技能关键词的词向量;
词向量求和模块,用于根据词向量求和因子,分别对所述重复求职意愿关键词的词向量和非重复求职意愿关键词的词向量、所述重复个人技能关键词的词向量和非重复个人技能关键词的词向量进行加权求和,得到用户的求职意愿特征向量和个人技能特征向量;
一次筛选模块,用于根据所述个人技能特征向量,确认对应的岗位需求类簇库并比较所述个人技能特征向量与岗位需求类簇库中所有岗位需求特征向量的相似值,根据相似值大小对岗位需求特征向量进行一次筛选;
二次筛选模块,用于分别计算所有经过一次筛选的岗位需求特征向量在所述求职意愿特征向量上的投影,根据投影长度大小和投影难度进行二次筛选,得到多个岗位需求特征向量及对应的多个岗位;所述投影难度的值等于岗位需求特征向量与求职意愿特征向量之间转换矩阵的秩。
10.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至8任一项所述基于词向量的岗位推荐方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310330386.1A CN116028722B (zh) | 2023-03-31 | 2023-03-31 | 一种基于词向量的岗位推荐方法、装置及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310330386.1A CN116028722B (zh) | 2023-03-31 | 2023-03-31 | 一种基于词向量的岗位推荐方法、装置及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116028722A true CN116028722A (zh) | 2023-04-28 |
CN116028722B CN116028722B (zh) | 2023-06-16 |
Family
ID=86079900
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310330386.1A Active CN116028722B (zh) | 2023-03-31 | 2023-03-31 | 一种基于词向量的岗位推荐方法、装置及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116028722B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739541A (zh) * | 2023-08-15 | 2023-09-12 | 湖南立人科技有限公司 | 一种基于ai技术的智能人才匹配方法及系统 |
CN118313804A (zh) * | 2024-05-30 | 2024-07-09 | 北京数字众智科技有限公司 | 一种应聘人员与工作岗位的匹配系统及匹配方法 |
CN118446662A (zh) * | 2024-07-05 | 2024-08-06 | 杭州静嘉科技有限公司 | 基于数据融合的信息管理方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
US20180173802A1 (en) * | 2016-12-15 | 2018-06-21 | Linkedin Corporation | Determining similarities among industries to enhance job searching |
CN111460813A (zh) * | 2020-03-04 | 2020-07-28 | 北京网聘咨询有限公司 | 招聘信息和求职简历匹配的方法及系统 |
US20210097471A1 (en) * | 2019-09-27 | 2021-04-01 | Oracle International Corporation | Method and system for cold start candidate recommendation |
-
2023
- 2023-03-31 CN CN202310330386.1A patent/CN116028722B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180173802A1 (en) * | 2016-12-15 | 2018-06-21 | Linkedin Corporation | Determining similarities among industries to enhance job searching |
CN107590133A (zh) * | 2017-10-24 | 2018-01-16 | 武汉理工大学 | 基于语义的招聘职位与求职简历匹配的方法及系统 |
US20210097471A1 (en) * | 2019-09-27 | 2021-04-01 | Oracle International Corporation | Method and system for cold start candidate recommendation |
CN111460813A (zh) * | 2020-03-04 | 2020-07-28 | 北京网聘咨询有限公司 | 招聘信息和求职简历匹配的方法及系统 |
Non-Patent Citations (1)
Title |
---|
张学新;贾园园;饶希;蔡黎;: "海量非结构化网络招聘数据的挖掘分析", 长春师范大学学报, no. 10, pages 28 - 36 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116739541A (zh) * | 2023-08-15 | 2023-09-12 | 湖南立人科技有限公司 | 一种基于ai技术的智能人才匹配方法及系统 |
CN116739541B (zh) * | 2023-08-15 | 2023-10-27 | 湖南立人科技有限公司 | 一种基于ai技术的智能人才匹配方法及系统 |
CN118313804A (zh) * | 2024-05-30 | 2024-07-09 | 北京数字众智科技有限公司 | 一种应聘人员与工作岗位的匹配系统及匹配方法 |
CN118446662A (zh) * | 2024-07-05 | 2024-08-06 | 杭州静嘉科技有限公司 | 基于数据融合的信息管理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116028722B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11586637B2 (en) | Search result processing method and apparatus, and storage medium | |
Yu et al. | Category-based deep CCA for fine-grained venue discovery from multimodal data | |
CN116028722B (zh) | 一种基于词向量的岗位推荐方法、装置及计算机设备 | |
US11544474B2 (en) | Generation of text from structured data | |
CN109885773B (zh) | 一种文章个性化推荐方法、系统、介质及设备 | |
US8341112B2 (en) | Annotation by search | |
Ji et al. | Learning to distribute vocabulary indexing for scalable visual search | |
US8073877B2 (en) | Scalable semi-structured named entity detection | |
WO2019217096A1 (en) | System and method for automatically responding to user requests | |
US20160189047A1 (en) | Method and System for Entity Linking | |
CN111753167B (zh) | 搜索处理方法、装置、计算机设备和介质 | |
Chen et al. | Doctag2vec: An embedding based multi-label learning approach for document tagging | |
CN111061939B (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
WO2021007159A1 (en) | Identifying entity attribute relations | |
Cai et al. | Heterogeneous information network embedding based personalized query-focused astronomy reference paper recommendation | |
Jo | K nearest neighbor for text summarization using feature similarity | |
CN113627182A (zh) | 数据匹配方法、装置、计算机设备及存储介质 | |
CN117494815A (zh) | 面向档案的可信大语言模型训练、推理方法和装置 | |
CN115630144A (zh) | 一种文档搜索方法、装置及相关设备 | |
Su et al. | Hybrid recommender system based on deep learning model | |
CN114255067A (zh) | 数据定价方法和装置、电子设备、存储介质 | |
CN111859066B (zh) | 一种运维工单的查询推荐方法及装置 | |
CN117194616A (zh) | 一种垂域知识图谱的知识查询方法、装置、计算机设备和存储介质 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
CN116108181A (zh) | 客户信息的处理方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |