CN107633326A - 一种用户投递意愿模型的构建方法和计算设备 - Google Patents
一种用户投递意愿模型的构建方法和计算设备 Download PDFInfo
- Publication number
- CN107633326A CN107633326A CN201710827720.9A CN201710827720A CN107633326A CN 107633326 A CN107633326 A CN 107633326A CN 201710827720 A CN201710827720 A CN 201710827720A CN 107633326 A CN107633326 A CN 107633326A
- Authority
- CN
- China
- Prior art keywords
- user
- sample
- delivery
- wish
- days
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明公开了一种户投递意愿模型的构建方法,适于在计算设备中执行,该计算设备能够获取多个用户在目标网站的操作数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据构造为样本集,该样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种用户投递意愿模型的构建方法和计算设备。
背景技术
随着互联网技术的发展,网络应聘/招聘已经成了求职者应聘工作、用人单位招聘员工的主要途径。用人单位和求职者在第三方的人才招聘网站上注册账号,相互之间进行搜索和交流,以寻求最满意的对象。一般用户找工作都具有很强的时效性,用户通常只在某个时间窗口具有找工作的意愿,过了该时间窗口,用户就不寻求就业机会了。如果能够准确预测用户最近是否活跃,并根据用户活跃程度对人才搜索结果调权,将非常有助于提升转化率。
目前业界的预测方案是基于用户上次登录或投递的时间,计算该时间距离当前日期的间隔,间隔越长则今日投递意愿越低。但实际上,用户求职是周期性需求,且受节假日影响明显,而该方案对周期性投递行为的冷启动和节假日规律乏力。另外,用户在投递期间的动作存在规律,例如用户往往在求职初期前投递频繁,后期投递量逐渐减少,且不同用户的投递行为存在显著差异,例如A用户每日投递量超过100但B用户仅仅每天1-2次投递,用基于上次投递时间的方案无法对投递动作的变化做出相应的改变,也不能针对不同的用户实现个性化。
因此,需要提供一种更有效的用户投递意愿概率的预测方法。
发明内容
为此,本发明提供一种用户投递意愿模型的构建方法和计算设备,以力图解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供了一种用户投递意愿模型的构建方法,适于在计算设备中执行,计算设备与数据存储装置连接,数据存储装置中存储有多个用户在目标网站的操作数据,操作数据包括动作数据和投递数据,该方法包括:获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。
可选地,在根据本发明的用户投递意愿模型的构建方法中,动作数据包括动作类型和动作时间,动作类型包括点击、收藏、浏览,操作数据还包括登录数据,登录数据包括登录时间,投递数据包括投递时间。
可选地,在根据本发明的用户投递意愿模型的构建方法中,多个特征值包括以下特征值中的至少两个:当前日期是星期几;当前日期距离注册日的天数;投递总次数;平均每天投递次数;当前日期距离上次投递的天数;当前日期距离上次动作的天数;最大连续动作天数;有过动作的天数;有过投递的天数;平均投递天数;平均动作天数。
可选地,在根据本发明的用户投递意愿模型的构建方法中,还包括步骤:将多个特征值中的每个特征值分别除以训练集中对应特征值的最大值,以将各特征值进行归一化。
可选地,在根据本发明的用户投递意愿模型的构建方法中,预定算法为GBDT回归算法。
可选地,在根据本发明的用户投递意愿模型的构建方法中,采用预定算法对训练集中各样本的特征向量进行训练的步骤包括:采用不同的GBDT算法参数,分别对训练集中各样本的特征向量进行训练,得到每种算法参数对应的用户投递意愿模型;设定不同的判定阈值,对于每种算法参数对应的用户投递意愿模型,计算训练集中各条样本在该模型下的投递意愿概率值,并计算每种判定阈值下对是否产生投递的预测结果与真实值的误差值;以及选取误差值最小时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值,并将生效算法参数对应的用户投递意愿模型作为生效用户投递意愿模型。
可选地,在根据本发明的用户投递意愿模型的构建方法中,还包括步骤:从数据存储装置中获取全部用户的操作数据,并根据该操作数据计算各用户的多个特征值;以及分别将各用户的多个特征值输入到生效用户投递意愿模型中,计算得到各用户的投递意愿概率值,并根据生效判定阈值预测各用户是否会在当前日期进行投递操作。
根据本发明的另一方面,提供了一种计算设备,包括:一个或多个处理器;存储器;和一个或多个程序,其中所述一个或多个程序存储在所述存储器中并被配置为由所述一个或多个处理器执行,所述一个或多个程序包括用于执行如上所述的用户投递意愿模型的构建方法的指令。
根据本发明的再一方面,提供了一种存储一个或多个程序的计算机可读存储介质,所述一个或多个程序包括指令,所述指令当计算设备执行时,使得所述计算设备执行如上所述的用户投递意愿模型的构建方法。
根据本发明的技术方案,根据数据库中存储的用户在预定时段内的操作数据构造样本集,并根据在当前日期的前一天是否有投递操作将各样本划分为正样本或负样本。考虑到负样本的比例过高,因此对负样本进行抽样后再与正样本混合,以得到训练集。之后,计算训练集中各条样本的多个特征值,并将该多个特征值和对应的正负样本标识构造为特征向量,采用预定算法对该特征向量进行训练,得到用户投递意愿模型。这样,只要计算出待测用户的多个特征值,输入到训练好的用户投递意愿模型中,就可以得到该用户的投递意愿概率值,再将该投递意愿概率值与设定的生效判定阈值比较即可预测该用户在当前日期是否会进行投递操作。而且,本发明的操作特征设置为多种特征,其能有效提高模型的准确性,进而提高预测结果的准确性。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的示意图;以及
图2示出了根据本发明一个实施例的用户投递意愿模型的构建方法200的流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1是示例计算设备100的框图。在基本的配置102中,计算设备100典型地包括系统存储器106和一个或者多个处理器104。存储器总线108可以用于在处理器104和系统存储器106之间的通信。
取决于期望的配置,处理器104可以是任何类型的处理,包括但不限于:微处理器(μP)、微控制器(μC)、数字信息处理器(DSP)或者它们的任何组合。处理器104可以包括诸如一级高速缓存110和二级高速缓存112之类的一个或者多个级别的高速缓存、处理器核心114和寄存器116。示例的处理器核心114可以包括运算逻辑单元(ALU)、浮点数单元(FPU)、数字信号处理核心(DSP核心)或者它们的任何组合。示例的存储器控制器118可以与处理器104一起使用,或者在一些实现中,存储器控制器118可以是处理器104的一个内部部分。
取决于期望的配置,系统存储器106可以是任意类型的存储器,包括但不限于:易失性存储器(诸如RAM)、非易失性存储器(诸如ROM、闪存等)或者它们的任何组合。系统存储器106可以包括操作系统120、一个或者多个应用122以及程序数据124。在一些实施方式中,应用122可以布置为在操作系统上利用程序数据124进行操作。程序数据124包括指令,在根据本发明的计算设备100中,程序数据124包含用于执行用户投递意愿模型的构建方法200的指令。
计算设备100还可以包括有助于从各种接口设备(例如,输出设备142、外设接口144和通信设备146)到基本配置102经由总线/接口控制器130的通信的接口总线140。示例的输出设备142包括图形处理单元148和音频处理单元150。它们可以被配置为有助于经由一个或者多个A/V端口152与诸如显示器或者扬声器之类的各种外部设备进行通信。示例外设接口144可以包括串行接口控制器154和并行接口控制器156,它们可以被配置为有助于经由一个或者多个I/O端口158和诸如输入设备(例如,键盘、鼠标、笔、语音输入设备、触摸输入设备)或者其他外设(例如打印机、扫描仪等)之类的外部设备进行通信。示例的通信设备146可以包括网络控制器160,其可以被布置为便于经由一个或者多个通信端口164与一个或者多个其他计算设备162通过网络通信链路的通信。
网络通信链路可以是通信介质的一个示例。通信介质通常可以体现为在诸如载波或者其他传输机制之类的调制数据信号中的计算机可读指令、数据结构、程序模块,并且可以包括任何信息递送介质。“调制数据信号”可以这样的信号,它的数据集中的一个或者多个或者它的改变可以在信号中编码信息的方式进行。作为非限制性的示例,通信介质可以包括诸如有线网络或者专线网络之类的有线介质,以及诸如声音、射频(RF)、微波、红外(IR)或者其它无线介质在内的各种无线介质。这里使用的术语计算机可读介质可以包括存储介质和通信介质二者。
计算设备100可以实现为服务器,例如文件服务器、数据库服务器、应用程序服务器和WEB服务器等,也可以实现为小尺寸便携(或者移动)电子设备的一部分,这些电子设备可以是诸如蜂窝电话、个人数字助理(PDA)、个人媒体播放器设备、无线网络浏览设备、个人头戴设备、应用专用设备、或者可以包括上面任何功能的混合设备。计算设备100还可以实现为包括桌面计算机和笔记本计算机配置的个人计算机。在一些实施例中,计算设备100被配置为执行根据本发明的用户投递意愿模型的构建方法200。
此外,计算设备100还可以与数据存储装置连接,该数据存储装置中存储中多个用户在目标网站的操作数据,如用户在拉勾网上的操作数据。其中,该操作数据可以包括动作数据、投递数据和登录数据,其中动作数据包括动作类型和动作时间,动作类型包括点击、浏览、收藏等常见的用户操作,投递数据和登录数据也包括相应的投递时间和登录时间。一般地,数据存储装置可以是数据库,该操作数据可以是数据库中所存储的用户的访问日志。
图2示出了根据本发明一个实施例的用户投递意愿模型的构建方法200的流程图。如图2所述,该方法始于步骤S220。
在步骤S220中,获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,该样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作。
具体地,可以获取当前日期之前的2-3个月内的操作数据,其中当前日期之前的意思并不包括当前日期当天。例如,当前日期为9月2日,则获取9月1日之前的2-3个月内的操作数据,如7月1日-9月1之间的操作数据;而用户在当前日期的前一天是否有投递操作即是指用户在9月1日当天是否有投递操作。
样本集中包括多条样本,每条样本对应一个用户,如下示出了一条样本的示例:{用户ID;7.1,登录,投递1,投递2;7.2,登录,浏览;7.3,登录,收藏…;9.1,登录,投递;否}。其中,登录、投递、浏览、收藏等操作还可以详细写入各操作的具体时间,为了方便描述在上述示例中不再显示。
随后,在步骤S240中,根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集。
具体地,若用户在当前日期的前一天有投递操作,则将该条样本标记为正样本,反之则标记为负样本。正负样本都有其对应的样本标识,如正样本标识为1,负样本标识为0。也就是,每个样本可以认为由{用户,日期,历史行为特征,当日是否投递}构成,其中“当日产生投递”和“当日未投递”分别视为正样本和负样本。在实际项目中,考虑到负样本远多于正样本,因此对负样本以10%的比例进行抽样,也就是舍弃90%的负样本,这样每个负样本有10%的概率被抽中作为实际训练中的负样本。之后,将正样本和抽样后的负样本按照1:6的比例生成样本集,在实际应用中可以得到正负样本接近1:6的样本集。当然,第一比例和第二比例也可以设置为其他数值,本发明对此不作限制。
随后,在步骤S260中,根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量。
根据一个实施例,多个特征值包括以下特征值中的至少两个,其中,平均动作天数的计算方法为:对用户之前的一个时期P内的每一天,只要当天产生动作则计数加1,用并最终计得的总数除以P,即得到平均动作天数。平均投递天数与平均动作天数的计算类似,只是统计的是当天是否有投递操作。投递总次数是指该预定天数内的投递总次数;平均每天投递次数可以取一个时期内P内的每一天,将这时期内的投递总次数除以这时期的天数,当然,时期P可以是上文提到的预定天数,即2-3个月内。
特征1 | days_from_register_log | 当前日期距离注册的日天数 |
特征2 | dlv_no_log | 投递总次数 |
特征3 | avg_dlv_no | 平均每天投递次数 |
特征4 | days_from_last_act_log | 当前日期距离上次动作的天数 |
特征5 | continuous_act_day_no | 最大连续动作天数 |
特征6 | dlv_day_no | 有过投递的天数 |
特征7 | avg_dlv_day_no | 平均投递天数 |
特征8 | act_day_no | 有过动作的天数 |
特征9 | avg_act_day_no | 平均动作天数 |
特征10 | days_from_last_dlv_log | 当前日期距离上次投递的天数 |
特征11 | weekday | 当前日期是星期几 |
需要说明的是,以上特征只是一些示例性说明,实际应用中还可以加入其他特征,如平均投递间隔天数、平均动作间隔天数、最近一次和次近一次投递操作之间的间隔天数、当前时间距离次近一次动作的天数、最近一次和次近一次动作之间的间隔天数,等等。将以上这些特征进行综合分析后可以选取几种最重要的特征进行模型训练,或者选取所有特征进行模型训练,本发明对此不作限制。
将以上构建的特征存储为向量形式,如存储为libsvm格式向量,也就是每一行由正负样本类别+各个维度的特征数值组成。例如上表中的"投递总次数"即可作为一列(或称“一个维度”),因此对每个用户u,在上表中维度均存在一定数值。某一行的特征向量格式为:{正负样本标志特征1特征2…特征i…特征n},例如:{0 0.234 0.765...},其中0为正样本标识。根据一个实施例,还可以将各特征值进行归一化,例如可以将多个特征值中的每个特征值分别除以训练集中对应特征值的最大值,也就是用u在列i的值除以列i中最大值,上文中的{0 0.234 0.765...}即是将各特征值归一化的数值。
随后,在步骤S280中,采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,该用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。准确来说,用户投递意愿模型是根据用户以往的投递记录、活跃程度等相关特征,准确预测用户在给定日期是否会产生投递行为,输出(0-1)之间的用户投递意愿概率值。
这里,每条样本都有其对应的特征向量,预定算法可以是现有的任意模型训练算法,如分类算法或回归算法,只要能够对特征向量进行训练得到训练模型即可。而各算法所需要的参数等可以由本领域技术人员自行设置,本发明对此不做限制。
根据本发明的一个实施例,预定算法可以为GBDT(Gradient Boosting DecisionTree)回归算法。GBDT又叫MART(Multiple Additive Regression Tree),是一种迭代的决策树算法,用于回归的机器学习,该算法由多棵决策树组成,所有树的结论累加起来做最终答案。
此时可以根据以下方法对训练集中各样本的特征向量进行训练:采用不同的GBDT算法参数,分别对训练集中各样本的特征向量进行训练,得到每种算法参数对应的用户投递意愿模型;设定不同的判定阈值,对于每种算法参数对应的用户投递意愿模型,计算训练集中各条样本在该模型下的投递意愿概率值,并计算每种判定阈值下对是否产生投递的预测结果与真实值的误差值;以及选取误差值最小时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值,并将生效算法参数对应的用户投递意愿模型作为生效用户投递意愿模型。
也就是,不同的算法参数对应不同的用户投递意愿模型,对于同一条样本,不同的模型可计算出不同的投递意愿概率值。设定不用的判定阈值,将在不同模型下计算得到的投递意愿概率值与所设定的各判定阈值进行对比可得到用户在给定日期(如当前日期的前一天)是否会产生投递的预测结果。将该预测结果与其是否投递的真实结果作对比,可计算一个误差值,选取该误差值最小时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值。其中,生效算法参数所对应的模型即为训练好的生效用户投递意愿模型,用该模型可以对各用户的投递意愿概率进行预测。生效判定阈值可以用来评估当天所有其他用户是否会产生投递操作,如果计算得到某用户在当前日期的投递意愿概率值大于该生效判定阈值,则说明该用户在当前日期有极大的可能会进行投递操作。
根据一个实施例,将正负样本的判定阈值根据预定步长从0到1遍历取值,其中,预定步长可以取任意数值,本发明对此不作限制。如将判定阈值分别取值0、0.1、0.2等等。
根据一个实施例,误差值可以用AUC(Area under the Curve of ROC)来表征,其代表接收者操作特征曲线(receiver ope rating characteristic curve,ROC)下的面积,是评估模型优劣的重要指标,AUC值越高可相对认为模型效果越好。这里,接收者操作特征曲线可以为误差曲线,误差曲线可以根据以下方法进行绘制:通过将各样本的投递意愿概值与所设定的判定阈值进行对比来确定各样本是否会产生投递操作,并根据其真实的投递结果来判定各样本为真正例、伪正例还是真负例;根据各样本的判定结果计算训练集的真正例率和伪正例率,并分别以该真正例率和伪正例率为x轴和y轴绘制误差曲线,该误差曲线与x轴之间的面积即为AUC值。这样,选取该AUC值最大时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值。
其中,若某样本的预测结果和实际结果均为用户产生投递操作,则说明该样本为真正例;若预测结果为产生投递操作,但实际结果为不产生投递操作,则该样本为伪正例;若预测结果和实际结果均为用户不产生投递操作,则说明该样本为真负例。进一步地,真正例率=(真正例的样本数量)/(真正例的样本数量+伪正例的样本数量),伪正例率=(伪正例的样本数量)/(伪正例的样本数量+真负例的样本数量)。
也就是,通过不断调整判定阈值来计算模型对结果的预测与真实值的误差,可以画出一条误差曲线,曲线下面积记为AUC,该值越大则说明模型预测效果越好。以最佳AUC为指标,使用暴力搜索可以获取GBDT算法的最优参数,其值为:{'n_estimators':400,'learning_rate':0.1,'max_depth':3,'min_samples_leaf':10}。其中,n_estimators代表循环迭代次数为400轮次,学习速率(步长)是0.1。由于采用决策树算法,因此存在关于树的参数:决策树的最大深度是3,最小叶子数是10。
此外,根据本发明的一个实施例,还可以使用GBDT算法工具包对所选取的特征重要性进行评估。GBDT算法包可直接输出各特征的重要性因子,它表明哪些特征在实际分类中起决定作用,以及它们的影响因子有多大。以下是计算得到的几种特征的重要性因子,对比之前的表格可以看到,“当前日期距离上次投递的天数”、“当前日期是星期几”这两个特征的重要性因子分别排在前两名,其重要性最高。
特征参数 | 重要性因子 |
days_from_last_dlv_log | 0.1724 |
weekday | 0.1488 |
days_from_last_act_log | 0.0976 |
act_no_log | 0.0841 |
act_day_no | 0.0516 |
avg_dlv_no | 0.0487 |
continuous_act_day_no | 0.0430 |
特征的重要性主要用于辅助判断模型构建是否合理、以及有哪些特征可以再深入挖掘,例如本模型中最重要的几个特征符合本来预期,因此未来对特征进一步挖掘时可以继续挖掘相关特征。全部特征的重要性之和为1.0,因此如果某个特征重要性是0.95,则说明该模型特别依赖该特征,这显然不太合理,因此需要对特征和模型进行重新调整。同时,有时还往往能在特征重要性中发现许多有趣的、超出设计者事先预期的特征,例如“本次投递是否为用户的第一次投递”等,这类特征可以启发挖掘出更多隐含且有用的特征例如,前文中列出了很多中特征参数,在对这多种特征进行选取时,可以采用GBDT算法对各特征的重要性因子进行计算,从而得到几种重要性最高的特征进行模型训练,这样训练出的模型更具针对性也更精确,从而可有效提高预测概率的准确性。
此外,根据本发明的又一个实施例,还可以构建测试集以对训练好的生效生效用户投递意愿模型进行检验。具体地,在生成训练集的过程中,将正样本与抽样后的负样本采用分层抽样方法按照第三比例划分为训练集和测试集,其中训练集和测试集的正负样本比例仍然接近或等于第二比例。其中,第三比例可以为7:3,当然也可以设置为其他比例,本发明对此不作限制。也就是,在前文所构建的正负样本接近1:6的样本集的基础上,将该样本集按照7:3使用分层抽样进行划分,分别构成训练集和测试集,训练集和测试集的正负样本比例与原始样本的1:6比例接近。
之后,根据测试集中各条样本的操作数据计算各用户的多个特征值,并分别将各用户的多个特征值输入到生效用户投递意愿模型中,预测得到各用户的投递意愿概率值;通过将各用户的投递意愿概率值与前文所选定的生效判定阈值作对比来绘制误差曲线,并计算该误差曲线的AUC值,以检验该模型的准确性。其中,误差曲线的绘制方法依然同前文所述,即通过将各用户的投递意愿概率值与该生效判定阈值作对比来对确定各样本是真正例、伪正例还是真负例,然后相应的计算测试集的真正例率和伪正例率,以得到误差曲线以及该误差曲线的AUC值。
实践证明,采用生效用户投递意愿模型对测试样本进行预测,即对每一条测试样本返回模型对其投递意愿的预测(0-1之间),最终计算得到的AUC值为0.919。而若只采用"距离上次投递时间"或"距离上次登录时间"的单个特征来训练模型,则其最后计算得到的测试集的AUC值分别为0.852和0.845。可以看出,本发明综合考虑多种特征参数后,对不同投递习惯的用户加以区分,对同一用户的投递规律加以分析,从而构建出了更加精细准确的预测模型。
当然,如果利用测试集计算得到的AUC值未满足预期值,则可以适当对模型进行调整,如扩充训练集中的样本数量继续、适当改进算法参数或判定阈值,以继续对模型进行训练与优化。
用户投递意愿模型构建好之后,即可利用该模型对其他用户的投递意愿概率进行预测。具体地,从数据存储装置中获取全部用户的操作数据,并根据所获取的操作数据计算各用户的多个特征值;以及分别将各用户的多个特征值输入到生效投递意愿模型中,计算得到各用户的投递意愿概率值,并根据生效判定阈值确定各用户是否会在当前日期进行投递操作。其中,若用户的投递意愿概率值大于生效判定阈值,则说明该用户在当前日期极大可能会进行投递操作,这样HR可以进行优先职位推荐等。这里,用于训练模型的样本集的操作数据,已经在步骤S220中读取出来了,所以在进行全量数据读取时可以不再读取。当然,也可以在步骤S220中先获取所有用户的操作数据,然后选取部分用户的数据构造样本集进行模型训练。
在实际项目应用中,可以在每天的凌晨两点时刻定时读取当日之前的2个月所有用户历史数据,第一次为全量读取,随后为增量读取。从所选取的所有用户历史数据中选取出部分样本,构建语料后进行模型训练,并利用训练好的生效模型对全部用户在当天的投递意愿进行预测。最后,将预测结果写入到数据库中。这样HR在进行人才搜索时就可以各用户的投递意愿数据进行搜索调权。例如,HR需要招聘java工程师方向的求职者,则可以先筛选出求职意向为java工程师的候选求职者用户,再将各候选求职者的投递意愿概率值与当日设定的生效判定阈值进行比较,如果投递意愿概率值大于生效判定阈值,则说明该用户今天的投递概率较大,因此可以进行针对性的职位推送,以提高求职招聘成功率。
根据本发明的技术方案,结合当前的时间信息,能有效的针对节假日/非节假日产生不同的预测结果;同时引入用户投递和动作信息,对不同投递习惯的用户加以区分,对同一用户的投递规律加以分析。因此,能够构建更加准确的用户投递意愿模型,从而能够对当日各用户的投递意愿进行更加精细、敏捷、个性化的预测。这样人力就可针对性的对投递意愿强的用户进行职位推荐,从而加快求职者寻找到合适职位的速度,提高应聘/招聘双方的满意度。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如软盘、CD-ROM、硬盘驱动器或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的用户投递意愿模型的构建方法。
以示例而非限制的方式,计算机可读介质包括计算机存储介质和通信介质。计算机可读介质包括计算机存储介质和通信介质。计算机存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在计算机可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以任意的组合方式来使用。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种用户投递意愿模型的构建方法,适于在计算设备中执行,所述计算设备与数据存储装置连接,所述数据存储装置中存储有多个用户在目标网站的操作数据,所述操作数据包括动作数据和投递数据,该方法包括:
获取多个用户在当前日期之前预定天数内的操作数据,并根据获取到的操作数据构造样本集,所述样本集中的每条样本包括用户标识、用户每天的操作数据和用户在当前日期的前一天是否有投递操作;
根据用户在当前日期的前一天是否有投递操作将各条样本标记为正样本或负样本,对负样本按照第一比例进行抽样,并将正样本与抽样后的负样本按照第二比例生成训练集;
根据训练集中的操作数据计算各条样本的多个特征值,并将正负样本标识和多个特征值构造为样本的特征向量;以及
采用预定算法对训练集中各样本的特征向量进行训练,得到用户投递意愿模型,所述用户投递意愿模型的输入为目标用户的多个特征值,输出为该用户的投递意愿概率值。
2.如权利要求1所述的方法,其中,所述动作数据包括动作类型和动作时间,所述动作类型包括点击、收藏、浏览,所述操作数据还包括登录数据,所述登录数据包括登录时间,所述投递数据包括投递时间。
3.如权利要求1所述的方法,其中,所述多个特征值包括以下特征值中的至少两个:
当前日期是星期几;当前日期距离注册日的天数;投递总次数;平均每天投递次数;当前日期距离上次投递的天数;当前日期距离上次动作的天数;最大连续动作天数;有过动作的天数;有过投递的天数;平均投递天数;平均动作天数。
4.如权利要求1所述的方法,还包括步骤:
将所述多个特征值中的每个特征值分别除以训练集中对应特征值的最大值,以将各特征值进行归一化。
5.如权利要求1所述的方法,所述预定算法为GBDT回归算法。
6.如权利要求5所述的方法,其中,所述采用预定算法对训练集中各样本的特征向量进行训练的步骤包括:
采用不同的GBDT算法参数,分别对训练集中各样本的特征向量进行训练,得到每种算法参数对应的用户投递意愿模型;
设定不同的判定阈值,对于每种算法参数对应的用户投递意愿模型,计算训练集中各条样本在该模型下的投递意愿概率值,并计算每种判定阈值下对是否产生投递的预测结果与真实结果的误差值;以及
选取误差值最小时的算法参数和判定阈值分别作为生效算法参数和生效判定阈值,并将生效算法参数对应的用户投递意愿模型作为生效用户投递意愿模型。
7.如权利要求6所述的方法,其中,所述误差值采用AUC来表征。
8.如权利要求6所述的方法,还包括步骤:
从数据存储装置中获取全部用户在当前日期之前预定天数内的操作数据,并根据该操作数据计算各用户的多个特征值;以及
分别将各用户的多个特征值输入到所述生效用户投递意愿模型中,计算得到各用户的投递意愿概率值,并根据所述生效判定阈值预测各用户是否会在当前日期进行投递操作。
9.一种计算设备,包括:
至少一个处理器;和
存储有程序指令的存储器,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述的方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710827720.9A CN107633326A (zh) | 2017-09-14 | 2017-09-14 | 一种用户投递意愿模型的构建方法和计算设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710827720.9A CN107633326A (zh) | 2017-09-14 | 2017-09-14 | 一种用户投递意愿模型的构建方法和计算设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107633326A true CN107633326A (zh) | 2018-01-26 |
Family
ID=61100450
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710827720.9A Pending CN107633326A (zh) | 2017-09-14 | 2017-09-14 | 一种用户投递意愿模型的构建方法和计算设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107633326A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344862A (zh) * | 2018-08-21 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
CN109508807A (zh) * | 2018-07-26 | 2019-03-22 | 云数信息科技(深圳)有限公司 | 彩票用户活跃度预测方法、系统及终端设备、存储介质 |
CN109543132A (zh) * | 2018-11-22 | 2019-03-29 | 深圳墨世科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN110363575A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇毓信息科技有限公司 | 一种授信用户动支意愿预测方法、装置和设备 |
CN110995681A (zh) * | 2019-11-25 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、电子设备及存储介质 |
CN112106067A (zh) * | 2018-05-18 | 2020-12-18 | 北京嘀嘀无限科技发展有限公司 | 一种用于用户分析的系统和方法 |
CN112837032A (zh) * | 2021-02-02 | 2021-05-25 | 长沙市到家悠享网络科技有限公司 | 职位投递时长预估的方法、系统及电子设备 |
CN113065946A (zh) * | 2021-03-17 | 2021-07-02 | 上海浦东发展银行股份有限公司 | 一种信用卡证件过期客户分类促更新方法、装置及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120277999A1 (en) * | 2010-10-29 | 2012-11-01 | Pbd Biodiagnostics, Llc | Methods, kits and arrays for screening for, predicting and identifying donors for hematopoietic cell transplantation, and predicting risk of hematopoietic cell transplant (hct) to induce graft vs. host disease (gvhd) |
CN104915392A (zh) * | 2015-05-26 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博转发行为预测方法及装置 |
CN105868847A (zh) * | 2016-03-24 | 2016-08-17 | 车智互联(北京)科技有限公司 | 一种购物行为的预测方法及装置 |
CN105912500A (zh) * | 2016-03-30 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 机器学习模型生成方法和装置 |
CN106126544A (zh) * | 2016-06-15 | 2016-11-16 | 晶赞广告(上海)有限公司 | 一种互联网内容的投放方法及装置 |
CN106204063A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇艺世纪科技有限公司 | 一种付费用户挖掘方法及装置 |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN106844178A (zh) * | 2017-01-22 | 2017-06-13 | 腾云天宇科技(北京)有限公司 | 预测呈现信息转化率的方法、计算设备、服务器及系统 |
CN107146089A (zh) * | 2017-03-29 | 2017-09-08 | 北京三快在线科技有限公司 | 一种刷单识别方法及装置,电子设备 |
-
2017
- 2017-09-14 CN CN201710827720.9A patent/CN107633326A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120277999A1 (en) * | 2010-10-29 | 2012-11-01 | Pbd Biodiagnostics, Llc | Methods, kits and arrays for screening for, predicting and identifying donors for hematopoietic cell transplantation, and predicting risk of hematopoietic cell transplant (hct) to induce graft vs. host disease (gvhd) |
CN104915392A (zh) * | 2015-05-26 | 2015-09-16 | 国家计算机网络与信息安全管理中心 | 一种微博转发行为预测方法及装置 |
CN105868847A (zh) * | 2016-03-24 | 2016-08-17 | 车智互联(北京)科技有限公司 | 一种购物行为的预测方法及装置 |
CN105912500A (zh) * | 2016-03-30 | 2016-08-31 | 百度在线网络技术(北京)有限公司 | 机器学习模型生成方法和装置 |
CN106126544A (zh) * | 2016-06-15 | 2016-11-16 | 晶赞广告(上海)有限公司 | 一种互联网内容的投放方法及装置 |
CN106204063A (zh) * | 2016-06-30 | 2016-12-07 | 北京奇艺世纪科技有限公司 | 一种付费用户挖掘方法及装置 |
CN106777024A (zh) * | 2016-12-08 | 2017-05-31 | 北京小米移动软件有限公司 | 识别恶意用户的方法及装置 |
CN106844178A (zh) * | 2017-01-22 | 2017-06-13 | 腾云天宇科技(北京)有限公司 | 预测呈现信息转化率的方法、计算设备、服务器及系统 |
CN107146089A (zh) * | 2017-03-29 | 2017-09-08 | 北京三快在线科技有限公司 | 一种刷单识别方法及装置,电子设备 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112106067A (zh) * | 2018-05-18 | 2020-12-18 | 北京嘀嘀无限科技发展有限公司 | 一种用于用户分析的系统和方法 |
CN109508807A (zh) * | 2018-07-26 | 2019-03-22 | 云数信息科技(深圳)有限公司 | 彩票用户活跃度预测方法、系统及终端设备、存储介质 |
CN109344862A (zh) * | 2018-08-21 | 2019-02-15 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
CN109344862B (zh) * | 2018-08-21 | 2023-11-28 | 中国平安人寿保险股份有限公司 | 正样本的获取方法、装置、计算机设备和存储介质 |
CN109543132A (zh) * | 2018-11-22 | 2019-03-29 | 深圳墨世科技有限公司 | 内容推荐方法、装置、电子设备及存储介质 |
CN110363575A (zh) * | 2019-06-27 | 2019-10-22 | 上海淇毓信息科技有限公司 | 一种授信用户动支意愿预测方法、装置和设备 |
CN110995681A (zh) * | 2019-11-25 | 2020-04-10 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、电子设备及存储介质 |
CN110995681B (zh) * | 2019-11-25 | 2022-04-22 | 北京奇艺世纪科技有限公司 | 用户识别方法、装置、电子设备及存储介质 |
CN112837032A (zh) * | 2021-02-02 | 2021-05-25 | 长沙市到家悠享网络科技有限公司 | 职位投递时长预估的方法、系统及电子设备 |
CN113065946A (zh) * | 2021-03-17 | 2021-07-02 | 上海浦东发展银行股份有限公司 | 一种信用卡证件过期客户分类促更新方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107633326A (zh) | 一种用户投递意愿模型的构建方法和计算设备 | |
Zhou et al. | Automatic design of scheduling policies for dynamic flexible job shop scheduling via surrogate-assisted cooperative co-evolution genetic programming | |
CN110070117B (zh) | 一种数据处理方法及装置 | |
CN111401433B (zh) | 用户信息获取方法、装置、电子设备及存储介质 | |
Han et al. | Solving the blocking flow shop scheduling problem with makespan using a modified fruit fly optimisation algorithm | |
Tian | Particle swarm optimization with chaos-based initialization for numerical optimization | |
Valledor et al. | Solving multi-objective rescheduling problems in dynamic permutation flow shop environments with disruptions | |
US7043461B2 (en) | Process and system for developing a predictive model | |
CN110188199A (zh) | 一种用于智能语音交互的文本分类方法 | |
Cerqueira et al. | Arbitrage of forecasting experts | |
CN107220217A (zh) | 基于逻辑回归的特征系数训练方法和装置 | |
Qu et al. | Two-stage product platform development for mass customisation | |
CN105005589A (zh) | 一种文本分类的方法和装置 | |
US10592777B2 (en) | Systems and methods for slate optimization with recurrent neural networks | |
CN108665148B (zh) | 一种电子资源质量评价方法、装置和存储介质 | |
CN110210024A (zh) | 一种信息处理方法、装置及存储介质 | |
US20060116921A1 (en) | Methods and systems for profile-based forecasting with dynamic profile selection | |
Rahimi-Vahed et al. | A multi-objective scatter search for a bi-criteria no-wait flow shop scheduling problem | |
Guo et al. | Multi-objective optimisation of stochastic hybrid production line balancing including assembly and disassembly tasks | |
CN108228808A (zh) | 确定热点事件的方法、装置和存储介质以及电子设备 | |
Shiue et al. | Development of machine learning‐based real time scheduling systems: using ensemble based on wrapper feature selection approach | |
Cortez et al. | Multi-step time series prediction intervals using neuroevolution | |
CN116684330A (zh) | 基于人工智能的流量预测方法、装置、设备及存储介质 | |
CN110968564A (zh) | 一种数据处理方法及数据状态预测模型的训练方法 | |
CN107665383A (zh) | 一种简历处理延时模型的构建方法和计算设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180126 |