CN111625722A

CN111625722A - 一种基于深度学习的人才推荐方法、系统及存储介质

Info

Publication number: CN111625722A
Application number: CN202010463319.3A
Authority: CN
Inventors: 黄梦醒; 陈源毅; 冯文龙; 冯思玲; 张雨
Original assignee: Hainan University
Current assignee: Hainan University
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2020-09-04
Anticipated expiration: 2040-05-27
Also published as: CN111625722B

Abstract

本发明公开了一种基于深度学习的人才推荐方法、系统及存储介质。该方法包括步骤：读取训练集中的用户日志样本并进行解析，获得多组关联数据样本和人才查看数据样本，关联数据为预先定义的对人才查看行为具有影响的数据；将关联数据样本封装成对象样本，获得对象样本序列；从人才查看数据样本中提取特征序列样本，特征序列为预先定义的区别不同人才的属性序列；将多组特征序列样本作为标签对对象样本序列进行标注，获得标注样本序列；将对象样本序列和标注样本序列输入到人才推荐模型进行训练。本发明能够基于用户的操作习惯、位置信息等对用户查看行为具有影响的关联数据，实现个性化推荐。

Description

一种基于深度学习的人才推荐方法、系统及存储介质

技术领域

本发明属于信息技术领域，更具体地，涉及一种基于深度学习的人才推荐方法、系统及存储介质。

背景技术

现有技术中的人才推荐方法主要有：招聘网中的人才推荐系统、基于合作者网络的人才推荐系统算法、基于项目标签的人才推荐模型、基于文本分类的人才自动推荐系统。

(1)招聘网中的人才推荐系统，用户需上传简历，系统会自动提取用户特征和职位特征进行匹配并将匹配度高的职位推荐给人才用户。同时通过对企业招聘信息的分析，将招聘条件和招聘要求同个人用户的特征进行匹配，将匹配度高的人才简历推荐给企业。

该项技术的不足之处是，推荐系统倾向于搜索引擎，而不是推荐算法。虽然可以推荐简历和职位相匹配的人才，但是该系统依赖于用户上传的简历和企业上传的招聘信息进行文本分析和搜索，用户的需求必须十分明确，缺少协同过滤或者内容推荐等推荐算法，因此缺少个性化特点推荐。

(2)基于合作者网络的人才推荐系统算法，主要研究的问题是在合作者网络里找到度量学者之间关联强度的指标，并为高校推荐潜在的学术人才。

该项技术的不足之处是，数据收集，需要收集大量人才之间合作的关系，然后根据指标计算出关联强度，而这些合作关系需要耗费大量时间人力去收集，并且收集的信息不一定可靠，极有可能限制在某一范围内，对推荐结果造成很大影响。

(3)基于项目标签的人才推荐模型，选取了五个重点指标，例如服务类别、服务对象、所属行业、作品风格、项目报价作为项目标签，通过相对比较法获得各个标签的权重，接着结合基于内容的推荐和基于项目的协同过滤推荐思想构建了基于项目标签的人才推荐基本模型，推荐适合完成该项目的人才。

该项技术的不足之处是，数据收集，需要收集大量关于人才的项目信息，数据的完整性、及时性无法保证，缺失的人才项目信息会导致推荐结果的精确度。另一方面，该算法着重研究人才的项目信息，出发点是做过类似项目的人适合做项目，容易导致推荐结果始终在一个群体中，其他人没有被推荐的机会，即马太效应。

(4)基于文本分类的人才自动推荐系统。系统采用了向量空间模型,通过构造文本分类器，对求职文本信息进行自动分类，并与单位招聘的岗位类别自动匹配，从而实现自动推荐人才的系统。

该项技术与招聘系统的人才推荐方法实现方法不同，但是思想一致，倾向于搜索引擎而不是推荐算法。虽然可以推荐简历和职位相匹配的人才，但是该系统依赖于用户上传的简历和企业上传的招聘信息进行文本分析和搜索，用户的需求必须十分明确，缺少协同过滤或者内容推荐等推荐算法，因此缺少个性化特点推荐。

发明内容

针对现有技术的至少一个缺陷或改进需求，本发明提供了一种基于深度学习的人才推荐方法、系统及存储介质，能够基于用户的操作习惯、位置信息等对用户查看行为具有影响的关联数据，实现个性化推荐。

为实现上述目的，按照本发明的第一方面，提供了一种基于深度学习的人才推荐方法，包括步骤：

读取训练集中的用户日志样本并进行解析，获得多组关联数据样本和对应的人才查看数据样本，关联数据样本为预先定义的对人才查看行为具有影响的数据样本；

将所述关联数据样本封装成对象样本，获得对象样本序列；

从所述人才查看数据样本中提取特征序列样本，特征序列样本为预先定义的区别不同人才的属性序列样本；

将多组所述特征序列样本作为标签对所述对象样本序列进行标注，获得标注样本序列；

将所述对象样本序列和所述标注样本序列输入到人才推荐模型进行训练。

优选地，所述用户日志样本包括用户的操作日志样本、兴趣日志样本、位置日志样本、搜索日志样本和查看日志样本，所述关联数据样本包括操作记录样本、兴趣标签样本、位置信息样本和搜索记录样本。

优选地，该人才推荐方法，还包括步骤:预先定义无关词性列表；根据所述无关词性列表对所述关联数据样本和所述人才查看数据样本进行无关词过滤。

优选地，所述解析包括步骤：遍历所述用户日志样本，将多组所述关联数据样本和所述人才查看数据样本存入字典。

优选地，该人才推荐方法，还包括步骤：对训练后的所述人才训练模型进行测试，根据测试结果调整所述关联数据样本的定义。

按照本发明的第二方面，提供了一种基于深度学习的人才推荐方法，包括步骤：

读取用户日志并进行解析获得关联数据，所述关联数据为预先定义的对人才查看行为具有影响的数据；

将所述关联数据封装成对象，将所述对象输入到经过深度学习训练的人才推荐模型，以输出推荐人才的特征序列，所述特征序列为预先定义的区别不同人才的属性序列；

匹配出符合所述特征序列的人才推荐给用户。

优选地，所述匹配具体是：构建人才知识图谱，在所述人才知识图谱中选择与所述特征序列最相似的人才。

按照本发明的第三方面，提供了一种基于深度学习的人才推荐系统，包括训练模块，所述训练模块包括：

训练样本解析模块，用于读取训练集中的用户日志样本并进行解析，获得多组关联数据样本和人才查看数据样本，关联数据样本为预先定义的对人才查看行为具有影响的数据样本；

训练样本封装模块，将所述关联数据样本封装成对象样本，获得对象样本序列；

训练样本提取模块，从所述人才查看数据样本中提取特征序列样本，特征序列为预先定义的区别不同人才的属性序列；

标注模块，用于将多组所述特征序列样本作为标签对所述对象样本序列进行标注，获得标注样本序列；

模型训练模块，用于将所述对象样本序列和所述标注样本序列输入到人才推荐模型进行训练。

按照本发明的第四方面，提供了一种基于深度学习的人才推荐系统，包括：

解析模块，用于读取用户日志并进行解析获得关联数据，所述关联数据为预先定义的对人才查看行为具有影响的数据；

封装模块，用于将所述关联数据封装成对象；

特征序列输出模块，用于将所述对象输入到经过深度学习训练的人才推荐模型，以输出推荐人才的特征序列，所述特征序列为预先定义的区别不同人才的属性序列；

匹配模块，用于匹配出符合所述特征序列的人才推荐给用户。

按照本发明的第五方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项方法。

总体而言，本发明与现有技术相比，具有有益效果：

(1)提出一种人才推荐方法，将用户日志中的关联数据，例如操作记录、兴趣标签、位置信息、搜索记录等封装成对象，使用对应的查看记录提取特征序列，并用特征序列标注对象。根据得到的对象序列和标注序列进行训练，人才推荐模型输出用户感兴趣的人才的特征序列，最后人才推荐算法根据该特征序列匹配出最符合特征序列的人才，进行推荐。该推荐方法不需要用户给出明确的需求、也不需要预先进行收集人才的合作关系、项目信息等，能够基于用户的操作习惯、位置信息等对用户查看行为具有影响的数据，实现个性化推荐。

(2)不同于现有技术中的深度学习模型输入一般为图片语音等数据，本发明提出了将日志格式文件封装成对象作为深度学习模型输入的方法，能基于深度学习方法对日志格式文件进行较好的处理。

(3)不同于现有技术中的训练样本的打标签方法，本发明提出了从查看日志中提取特征序列作为标签标注对象的方法，能基于深度学习方法对日志格式文件进行较好的处理。

(4)解析日志文件中，预先定义无关词性列表对解析后的数据进行过滤，可以进一步提高推荐精确度。

(5)通过记录用户使用系统的操作过程，形成用户日志，考虑了点击按钮、停留时间、输入文本、回访次数、回访相隔天数、点击链接等影响推荐的因素，从而更好的实现个性化推荐和提高推荐精确度。

附图说明

图1是本发明实施例的一种基于深度学习的人才推荐方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明实施例的一种基于深度学习的人才推荐方法，对于寻找人才的用户，读取用户日志并进行解析，将关联数据封装成一个Object对象，根据日志数据解析出n条关联数据，则可封装得到n个Object对象，得到对象序列O，读取查看日志中的人才查看数据，解析出特征序列F，用特征序列F标注对应的Object对象，得到标注序列M，最后根据对象序列O和标注序列M训练人才推荐模型，根据模型输出的特征序列匹配最符合该特征序列的人才，从而在用户刷新页面或者下一次进入系统时，将匹配结果推荐给用户。用户日志可以是人才推荐系统或其他系统中记录的操作日志、兴趣日志、位置日志、搜索日志和查看日志等。关联数据可以是操作记录、兴趣标签、位置信息、搜索记录等。可以根据实际应用场景对读取的用户日志类型和关联数据类型进行预先定义和调整。

本发明实施例的一种基于深度学习的人才推荐方法，如图1所示，包括训练人才推荐模型、测试、应用训练好的人才推荐模型进行人才匹配三部分内容，具体可包括步骤A～F：

A：解析用户日志。将所有日志文件分为两份，一份为训练集，一份为测试集，读取用户日志中的内容。解析用户日志后获得多组关联数据样本和人才查看数据样本，关联数据样本为预先定义的对人才查看行为具有影响的数据。

B：封装Object对象。将训练数据中的每条关联数据样本封装成Object对象样本，得到对象样本序列O。

C：标注对象样本。使用查看日志中对应Object的人才查看数据样本，提取特征序列样本，用特征序列样本作为标签标注Object对象样本，得到标注样本序列M。

D：训练人才推荐模型。根据得到的对象样本序列和标注样本序列，训练人才推荐模型。

E：测试人才推荐模型。使用测试数据测试训练得到的模型，根据测试结果调整人才推荐模型的参数，例如扩展或修改关联数据的定义后重复进行上述A至E的操作步骤，直至人才推荐模型满足要求。

F：匹配对象。读取待推荐用户的用户日志并同样进行步骤A、B的预处理，获得对应的对象，将该对象输入到经过步骤D训练的人才推荐模型，以输出推荐人才的特征序列，匹配出符合该特征序列的人才推荐给用户。

当用户日志数据增加，用增多的数据对模型进行更新调整。

下面具体说明每个步骤的一个具体实现过程示例。

步骤A：解析用户日志。

预先定义用户日志，包括5个日志文件，分别是兴趣日志、搜索日志、操作日志、查看日志和位置日志，文件格式为.data文件，依次从日志中取出值(value)，解析出所有关联数据和人才查看数据。关联数据包括兴趣标签、搜索记录、操作记录和位置信息。

兴趣日志的格式如表1所示，存储用户选中的兴趣标签。在系统初始化时，由于数据过少，无法形成推荐，需要用户在访问人才推荐系统时选择兴趣标签的选项来初始化模型，解决冷启动问题，同时也作为人才推荐模型训练的参数。

表1兴趣标签示例

兴趣标签1	兴趣标签2	...	兴趣标签n
				“项目”	“大数据”	...	“人工智能”

搜索日志的格式如表2所示，存储用户的搜索记录。

表2搜索记录示例

搜索记录1	搜索记录2	...	搜索记录n
				“SCI”	“海南大学”	...	“海洋专业”

查看日志的格式如表3所示，存储用户查看过的人才的信息。

表3查看记录示例

位置日志的格式如表4所示，记录用户的当前位置信息。在人才推荐时，用户的位置信息能够提高推荐结果的召回率，因此将用户的当前位置信息作为模型训练的参数。当位置信息发生变化时，则存入新的位置信息。

表4查看记录示例

位置信息1	位置信息2	...	位置信息n
				海南	重庆	...	广东

操作日志的格式如下表所示，记录用户的操作记录。在人才推荐模型时，用户的操作记录与推荐结果存在一定的关联，因此将用户的操作记录作为人才推荐模型训练的参数。

表5操作记录示例

点击按钮	停留时间	输入文本	回访次数	回访相隔天数	点击链接
						button1	3s	“大数据”	1	0	“https://**”

步骤B：封装Object对象样本。一个Object对象样本包括：

{操作记录}

{兴趣标签}

{位置信息}

{搜索日志}

将训练集中的关联数据封装成对应的Object对象，得到对象样本序列。

(1)封装操作记录。

遍历操作日志，将每条操作记录存入字典，如：

(2)封装兴趣标签。

遍历兴趣日志，将每个兴趣标签存入字典，如：UMIPSF_I＝{“interest”:[**,**,...]}。

(3)封装位置信息。

遍历位置日志，将每个位置信息存入字典，如：UMIPSF_P＝{“position”:[**,**,...]}。

(4)封装搜索日志。

遍历搜索日志，对于每个“搜索记录”，先进行自然语言处理，然后进行无关词过滤，再进行提取人名nh、属性名b、关系名r、机构名ni和专业领域名词d等词汇，将提取到的关键词存入字典，如：

UMIPSF_S＝{“key_nh”:[**,**,...],“key_b”:[**,**,...],“key_r”:[**,**,...],“key_ni”:[**,**,...],“key_d”:[**,**,...]}。

使用LTP处理包，用作分词、词性标注、实体识别，返回分词结果、词性标注结果、实体识别结果。经过统计，将吧、的、和以及空格、标点符号等无关词过滤掉，过滤无关词后，从剩下的词中，通过构建同义词表、构建关系表提取人名nh、属性名b、关系名r、机构名ni和专业领域名词d等。

优选地，定义无关词性列表为：["a","b","c","d","e","g","h","i","nd","nl","nt","nz","o","p","q","r","u","wp","x","z",""]，每个参数具体含义如下：

"a"：形容词，如：高大。

"b"：其他修饰名词，如：大型。

"c"：连词，如：和。

"d"：副词，如：很。

"e"：感叹词，如：啊。

"g"：词素，语素，如：甥。

"h"：前缀，如：阿。

"i"：成语，如：中流砥柱。

"nd"：方向名词，如：右侧。

"nl"：地点名词，如：郊区。

"nt"：时间名词，如：今日。

"nz"：其他名词，如：诺贝尔。

"o"：拟声词，如：嘤嘤嘤。

"p"：介词，如：把。

"q"：量词，如：个。

"r"：代词，如：我们。

"u"：助词，如：的。

"wp"：标点，如：？！。

"x"：不构成词，如：菠。

"z"：叙述词，如：匆匆。

""：空格。

(5)封装Object对象。

根据(2)的解析结果，从(1)(2)(3)(4)封装的字典中依次找出关联数据，封装到一个Object对象中，如：

得到的一个UMIPSF_Object对象是关联数据的封装结果，根据所有训练数据解析出n条关联数据样本，对应可以封装得到n个UMIPSF_Object对象样本，形成对象样本序列O＝{UMIPSF_Object1,UMIPSF_Object2,...}。

步骤C：标注对象样本序列。

在查看日志中找出与Object对象关联的查看记录，提取特征序列F，标注该Object对象，得到标注序列M。

遍历训练数据中的查看日志，将每个查看记录存入字典，如：

UMIPSF_R＝{

{“人才Id”:**,“所在机构”:**,“姓名”:**,“性别”:**,“出生年月”:**,“出生地”:**,“学位”:**,“职称”:**,“职务”:**,“联系电话”:**,“邮箱”:**,“研究方向”:**,“招生专业”:**,“荣誉奖项”:**,“论文”:**,“简介”:**,“项目”:**,“专利”:**,“专著”:**},

{“人才Id”:**,“所在机构”:**,“姓名”:**,“性别”:**,“出生年月”:**,“出生地”:**,“学位”:**,“职称”:**,“职务”:**,“联系电话”:**,“邮箱”:**,“研究方向”:**,“招生专业”:**,“荣誉奖项”:**,“论文”:**,“简介”:**,“项目”:**,“专利”:**,“专著”:**,}

...

}

遍历UMIPSF_R，依次取出特征序列UMPISF_F，如

UMPISF_F＝{“所在机构”:**,“出生地”:**,“研究方向”:**,“荣誉奖项”:**,“论文”:**,“项目”:**,“专利”:**,“专著”:**}

特征序列UMPISF_F是预先定义的可以区别不同人才的属性序列，例如预先定义性别信息不属于特征序列中的信息，研究方向属于特征序列中的属性信息，并且UMPISF_F中的每一项值可为使用无关词性列表过滤后提取的关键词。

遍历对象列表O，使用与UMIPSF_Object关联的特征序列标注该UMIPSF_Object，形成标注序列M＝{UMIPSF_F1,UMIPSF_F2,...}。

例如，假设有对象样本序列为O1,O2,O3，标注序列样本为F1,F2,F3，O1对应F1，O2对应F2，按顺序依次对应。对象O1和特征序列F1是用户的一次查看过程，O1是用户的操作等数据，F1是O1情况下用户查看的人才的相关属性序列。解析得到对象列表O1,O2,O3后，根据该对象列表，依次找出O1对应的F1，O2对应的F2，并存入标注样本序列。

步骤D：训练人才推荐模型。

根据步骤B中封装得到的UMIPSF_Object对象样本序列O＝{UMIPSF_Object1,UMIPSF_Object2,...}和步骤C中标注对象得到的标注样本序列M＝{UMIPSF_F1,UMIPSF_F2,...}，训练人才推荐模型。

步骤E：测试人才推荐模型。

使用测试数据，测试步骤D中训练得到的人才推荐模型。

首先，将测试集中的关联数据，同样按照步骤A、B的处理，封装到Object对象中，得到对象序列O_test，将每个对象对应的查看记录存入结果序列R_test。然后将对象序列O_test作为人才推荐模型的输入，得到特征序列R_result。通过对比R_test中的查看记录是否符合模型的输出特征序列R_result，计算模型的准确率和召回率。

步骤F：匹配对象。

根据(6)中的人才推荐模型输出的特征序列R_result，找出最符合特征序列R_result的前几个人才，作为人才推荐算法的推荐结果。

推荐的数据源可为已构建的人才知识图谱，其中的人才属性包括：{人才Id，所在机构，姓名，性别，出生年月，出生地，学位，职称，职务，联系电话，邮箱，研究方向，招生专业，荣誉奖项，论文，简介，项目，专利，专著}。人才知识图谱中还有{专业相近、同事、老乡}等关系网络。

测试和应用训练好的人才推荐模型进行人才匹配的实现原理、技术效果与上述人才推荐的训练方法类似，此处不再赘述。

本发明实施例的一种基于深度学习的人才推荐系统，其特征在于，包括训练模块，训练模块包括：

训练样本解析模块，用于读取训练集中的用户日志样本并进行解析，获得多组关联数据样本和人才查看数据样本，关联数据为预先定义的对人才查看行为具有影响的数据；

训练样本封装模块，将解析得到的多组关联数据样本封装成多组对象样本，获得对象样本序列；

训练样本提取模块，从解析得到的多组人才查看数据样本中提取多组特征序列样本，特征序列为预先定义的区别不同人才的属性序列；

标注模块，用于将多组特征序列样本作为标签对对象样本序列进行标注，获得标注样本序列；

模型训练模块，用于将对象样本序列和标注样本序列输入到人才推荐模型进行训练。

优选地，其中用户日志样本包括用户的操作日志样本、兴趣日志样本、位置日志样本、搜索日志样本和查看日志样本，关联数据样本包括操作记录样本、兴趣标签样本、位置信息样本、搜索记录样本。

优选地，包括过滤模块:预先定义无关词性列表；根据无关词性列表对关联数据样本和人才查看数据样本进行无关词过滤。

本发明实施例的一种基于深度学习的人才推荐系统，包括：

解析模块，用于读取用户日志并进行解析获得关联数据，关联数据为预先定义的对人才查看行为具有影响的数据；

封装模块，用于将关联数据封装成对象；

特征序列输出模块，用于将封装的对象输入到经过深度学习训练的人才推荐模型，以输出推荐人才的特征序列，特征序列为预先定义的区别不同人才的属性序列；

匹配模块，用于匹配出符合人才推荐模型输出的特征序列的人才推荐给用户。

优选地，其中用户日志样本包括用户的操作日志、兴趣日志、位置日志、搜索日志和查看日志，关联数据包括操作记录、兴趣标签、位置信息、搜索记录。

优选地，包括过滤模块:预先定义无关词性列表；根据无关词性列表对关联数据和人才查看数据进行无关词过滤。

人才推荐系统的实现原理、技术效果与上述人才推荐方法类似，此处不再赘述。

本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述任一人才推荐方法实施例的技术方案。其实现原理、技术效果与上述方法类似，此处不再赘述。

必须说明的是，上述任一实施例中，方法并不必然按照序号顺序依次执行，只要从执行逻辑中不能推定必然按某一顺序执行，则意味着可以以其他任何可能的顺序执行。

本领域的技术人员容易理解，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的人才推荐方法，其特征在于，包括步骤：

将所述关联数据样本封装成对象样本，获得对象样本序列；

2.如权利要求1所述的一种基于深度学习的人才推荐方法，其特征在于，所述用户日志样本包括用户的操作日志样本、兴趣日志样本、位置日志样本、搜索日志样本和查看日志样本，所述关联数据样本包括操作记录样本、兴趣标签样本、位置信息样本和搜索记录样本。

3.如权利要求1或2所述的一种基于深度学习的人才推荐方法，其特征在于，包括步骤:

预先定义无关词性列表；

根据所述无关词性列表对所述关联数据样本和所述人才查看数据样本进行无关词过滤。

4.如权利要求1或2所述的一种基于深度学习的人才推荐方法，其特征在于，所述解析包括步骤：

遍历所述用户日志样本，将多组所述关联数据样本和所述人才查看数据样本存入字典。

5.如权利要求1或2所述的一种基于深度学习的人才推荐方法，其特征在于，包括步骤：

对训练后的所述人才训练模型进行测试，根据测试结果调整所述关联数据样本的定义。

6.一种基于深度学习的人才推荐方法，其特征在于，包括步骤：

匹配出符合所述特征序列的人才推荐给用户。

7.如权利要求6所述的一种基于深度学习的人才推荐方法，其特征在于，所述匹配具体是：

构建人才知识图谱，在所述人才知识图谱中选择与所述特征序列最相似的人才。

8.一种基于深度学习的人才推荐系统，其特征在于，包括训练模块，所述训练模块包括：

9.一种基于深度学习的人才推荐系统，其特征在于，包括：

封装模块，用于将所述关联数据封装成对象；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的方法。