CN110717537A - 训练用户分类模型、执行用户分类预测的方法及装置 - Google Patents

训练用户分类模型、执行用户分类预测的方法及装置 Download PDF

Info

Publication number
CN110717537A
CN110717537A CN201910949854.7A CN201910949854A CN110717537A CN 110717537 A CN110717537 A CN 110717537A CN 201910949854 A CN201910949854 A CN 201910949854A CN 110717537 A CN110717537 A CN 110717537A
Authority
CN
China
Prior art keywords
user
time period
classification model
prediction result
user classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910949854.7A
Other languages
English (en)
Other versions
CN110717537B (zh
Inventor
俞文明
程磊
姜聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910949854.7A priority Critical patent/CN110717537B/zh
Publication of CN110717537A publication Critical patent/CN110717537A/zh
Application granted granted Critical
Publication of CN110717537B publication Critical patent/CN110717537B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例提供一种计算机执行的训练用户分类模型以及利用训练的模型预测用户分类的方法和装置。训练方法包括以下步骤。首先获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;还获取针对第二时段训练的第二用户分类模型;其中第二时段为第一时段之前的上一时段。然后利用第二用户分类模型,至少基于第一特征集合,预测第一时段的用户类别,得到第二预测结果;再将第一特征集合以及第二预测结果作为特征输入,将第一分类结果作为标签,训练针对第一时段的第一用户分类模型。

Description

训练用户分类模型、执行用户分类预测的方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及训练用户分类模型,以及执行用户分类预测的方法和装置。
背景技术
随着计算机技术和机器学习的不断发展,人工智能开始应用于各种场景。例如,在多种场景下,开始使用人工智能技术,对用户进行群体划分,也就是训练一些用户分类模型,用于对用户进行分类。用户的分类可以便于根据用户群体,为用户提供针对性的服务,例如,定制用户专属内容,向用户推送不同信息,等等。关于用户欺诈风险的分类还可以用于决定是否允许用户的特定操作,例如可以拒绝欺诈风险高的用户所请求的大额转账操作,高频登录操作,等等。因此,针对用户进行群体分类,一方面使得用户可以获得更需要的服务或内容,提高用户体验,另一方面,减少不必要的数据和信息传播,优化网络环境,还可以进行风险防控,增强网络安全性。
通常情况下,对用户的分类需要考虑用户自身的特征,以及针对的业务场景和业务逻辑,例如是信息推送,定制服务,或是内容推荐,等等。然而,实际上,不管是业务逻辑,还是用户自身,都在随着时间而发生变化。这就使得原本训练的用户分类模型准确性降低,甚至不再适用。因此,希望能有改进的方案,可以考虑业务和用户的变化,更为有效地对用户进行分类。
发明内容
本说明书一个或多个实施例描述了训练用户分类模型以及预测用户分类的方法和装置,其中针对各个时段进行模型的重新训练,前后时段的模型之间进行嵌套,前一模型的产出作为后一模型的输入变量,如此实现更好的模型训练和预测效果。
根据第一方面,提供了一种训练用户分类模型的方法,包括:
获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;
获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;
利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;
将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。
在一个实施例中,第二用户分类模型通过以下方式训练得到:
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
将所述第二特征集合作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
在上述实施例的情况下,第二预测结果通过以下方式得到:将所述第一特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
在另一实施例中,第二用户分类模型通过以下方式训练得到:
获取针对第三时段训练的第三用户分类模型,其中,所述第三时段为所述第二时段之前的上一时段;
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
利用所述第三用户分类模型,基于所述第二特征集合,预测第二时段的用户类别,得到第三预测结果;
将所述第二特征集合以及所述第三预测结果作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
在该实施例的情况下,第二预测结果通过以下方式得到:将所述第一特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
在各种实施例中,第一特征集合可以包括以下中的至少一项:浏览板块,收藏板块,支付笔数,支付金额,权益核销次数,核销权益总额,核销比例,支付渠道。
根据一种实施方式,所述第一用户分类模型和/或第二用户分类模型为GBDT模型。
在一个实施例中,上述方法还包括,存储所述第二预测结果,以便在训练下一时段的用户分类模型时,输入到所述第一用户分类模型中,预测下一时段的用户分类。
根据第二方面,提供了一种用户分类预测的方法,包括:
获取目标用户在第一时段中的用户特征集合,所述第一时段为当前时段;
获取针对第一时段训练的第一用户分类模型,以及针对第二时段训练的第二用户分类模型,其中,所述第二时段为第一时段之前的上一时段;
利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果;
将所述用户特征集合以及所述第二预测结果,输入所述第一用户分类模型,得到针对所述目标用户的最终分类预测。
在一个实施例中,第二时段为模型训练的初始时段;在这样的情况下,得到第二预测结果包括:将所述用户特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
在另一实施例中,得到第二预测结果包括:
读取预先存储的第三预测结果,所述第三预测结果是利用第三用户分类模型对所述第二时段的用户类别的预测结果,其中第三用户分类模型针对第三时段而训练,所述第三时段为所述第二时段之前的上一时段;
将所述用户特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
根据第三方面,提供了一种训练用户分类模型的装置,包括:
第一数据获取单元,配置为获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;
第二模型获取单元,配置为获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;
第二预测生成单元,配置为利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;
第一模型训练单元,配置为将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。
根据第四方面,提供了一种预测用户分类的装置,包括:
特征获取单元,配置为获取目标用户在第一时段中的用户特征集合,所述第一时段为当前时段;
模型获取单元,配置为获取针对第一时段训练的第一用户分类模型,以及针对第二时段训练的第二用户分类模型,其中,所述第二时段为第一时段之前的上一时段;
第一预测单元,配置为利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果;
第二预测单元,配置为将所述用户特征集合以及所述第二预测结果,输入所述第一用户分类模型,
得到针对所述目标用户的最终分类预测。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面和第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面和第二方面的方法。
根据本说明书实施例提供的方法和装置,将业务的发展按照时间划分为多个时段,分时段采集各个时段的用户特征数据。针对每个时段,训练对应的用户分类模型,并且连续时段对应的模型之间具有嵌套关系,即,前一时段的分类模型产出的模型分数,作为输入变量传入后一时段的模型,参与后一时段模型的训练。如此,适时地进行模型的更新,每次更新训练新模型时,将前一模型的产出结果作为新模型的输入变量,从而更好地利用前一模型的预测能力,达到更好的训练和预测效果。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的训练用户分类模型的方法流程图;
图3示出在一种情况下的模型嵌套示意图;
图4示出在另一种情况下的模型嵌套示意图;
图5示出根据一个实施例训练一系列嵌套模型的示意图;
图6示出根据一个实施例的预测用户分类的方法流程图;
图7示出根据一个实施例的训练用户分类模型的装置的示意性框图;
图8示出根据一个实施例的预测用户分类的装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,在多种应用场景中,需要根据业务逻辑对用户进行分类。然而,业务逻辑和用户自身的变化,往往使得之前训练的模型不再适用。
为此,在一种方案中,采集最新的用户特征数据,针对最新的业务逻辑,重新训练用户分类模型。然而,最新的用户特征数据,数据量往往不够大,使得模型训练效果不佳。并且,训练时只考虑最新的用户数据,而没有考虑用户的历史数据,没有很好地利用用户历史数据的参考价值。
在另一种方案中,根据用户的全部特征数据,包括最新数据和历史数据,针对最新的业务逻辑,重新训练用户分类模型。然而,由于用户的全部特征数据量较为庞大,这会使得模型的复杂度极具提升。并且,每当业务逻辑或用户数据发生变化,就基于全量数据重新训练模型,将会带来大量的重复工作和计算负担,之前训练的模型也没有得到有效利用。
基于此,在本说明书的实施例中,提出利用模型嵌套实现模型更新的方案。图1为本说明书披露的一个实施例的实施场景示意图。如图1所示,将业务的发展按照时间划分为多个时段,例如月份,分时段采集各个时段的用户特征数据。针对每个时段,训练对应的用户分类模型,并且连续时段对应的模型之间具有嵌套关系,即,前一时段的分类模型产出的模型分数,作为输入变量传入后一时段的模型,参与后一时段模型的训练。也就是,对于除初始时段之外的任意时段i来说,根据该时段i的用户特征数据,以及时段i-1对应的模型Mi-1产生的分数这两者,训练得到时段i对应的分类模型Mi。如此,适时地进行模型的更新,每次更新训练新模型时,将前一模型的产出结果作为新模型的输入变量,从而更好地利用前一模型的预测能力,达到更好的训练效果。
如此,得到一系列嵌套的用户分类模型。在利用训练好的模型进行预测时,可以将待评估用户的最新时段的特征数据,输入最新时段的分类模型以及前一时段的分类模型,得到针对该用户的分类预测。
下面具体描述以上一系列嵌套模型的训练过程。
首先描述初始时段所对应的初始模型的训练。可以理解,初始时段可以是,首次采集用户特征数据,进行模型训练所对应的时段,记为P0。初始时段对应的初始模型记为M0
初始模型M0的训练过程可以与常规模型训练相似,具体包括,采集样本用户在初始时段中的用户特征数据X0,以及该样本用户在初始时段的分类标签Y0,形成训练样本。可以理解,模型的训练需要大量的训练样本,下面的描述结合其中任意一个训练样本中的样本用户进行描述。样本用户的分类标签Y0可以是由工作人员根据该样本用户在初始阶段的综合表现为该用户确定的人群标签,例如用Y0=1表示欺诈用户,Y0=0表示正常非欺诈用户,或者Y0用1-5的5个值,分别代表5个用户群体,例如,新用户,理财小白,中度使用者,初级羊毛党,资深羊毛党,等等。
然后,根据训练样本集中各个样本的特征数据X0和分类标签Y0,确定映射函数f0,即Y0=f0(X0),将得到的映射函数f0作为初始模型M0
在确定出初始模型之后,就可以随着时间的推进,迭代嵌套地确定出后续时段的用户分类模型。下面描述后续的任意时段对应的用户分类模型的训练过程。
图2示出根据一个实施例的训练用户分类模型的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,训练过程至少包括以下步骤:步骤21,获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;步骤22,获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;步骤23,利用第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;步骤24,将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。下面描述以上各个步骤的具体执行过程。
首先,在步骤21,获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果。可以理解,本步骤中的第一时段可以是在初始时段之后的任意时段。各个时段的长度可以相等,也可以不相等。例如,在一个例子中,取每个月为一个时段,假定1月份为初始时段,那么第一时段可以是1月份之后的任意月所对应的时段。在又一例子中,将业务逻辑的每次更新作为时间节点,两次更新之间的时长定义一个时段。在这样的情况下,各个时段的长度可以不相等。此时,第一时段可以是初次更新之后的某两次更新时间之间的时段。简单起见,将该第一时段记为时段Pi
样本用户在第一时段Pi的第一特征集合(记为Xi)可以包括,与该样本用户在该时段期间的各种操作行为有关的特征。具体的特征选择可以根据业务场景和业务需要而确定。例如,如果业务场景包括内容定制和内容推送,那么可以更多选择用户的浏览操作历史相关的特征,例如,浏览了哪些板块,收藏了哪些板块,等等。如果业务场景包括支付风险评估,选择的用户特征可以包括,在时段Pi期间的支付笔数,支付金额,支付渠道,等等。在其他业务场景中,用户特征还可以包括,例如,权益核销次数,核销权益总额,核销比例,等等,其中权益可以包括各种形式的红包,优惠卡劵,折扣券,等等。
另一方面,样本用户在第一时段Pi的第一分类结果Yi,为针对该样本用户在时段Pi的综合表现而确定的人群标签,并且人群标签的设置方式与初始阶段相一致。
如此,第一时段Pi的第一特征集合Xi和对应的第一分类结果Yi,构成针对第一时段Pi的训练样本。
此外,在步骤22,获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段。
如前所述,第一时段Pi不是初始时段,因此在其之前存在上一时段Pi-1(第二时段),并且,已经针对该第二时段Pi-1训练有对应的第二用户分类模型Mi-1。如此,在步骤22,获取上一时段的分类模型Mi-1
接着,在步骤23,利用第二用户分类模型Mi-1,至少基于第一特征集合Xi,预测第一时段的用户类别,得到第二预测结果,记为ai-1。换而言之,在该步骤中,利用上一时段Pi-1的分类模型,基于本时段Pi的用户特征,产出一个预估结果ai-1
然后,在步骤24,将第一特征集合Xi以及第二预测结果ai-1作为特征输入,将第一分类结果Yi作为标签,训练针对第一时段Pi的第一用户分类模型Mi。具体而言,步骤24的训练过程包括,确定出从特征输入Xi和ai-1到标签Yi的映射函数fi,使得:
Yi=fi(Xi,ai-1) (1)
该映射函数fi即作为时段Pi的分类模型Mi
从以上过程可以看到,在训练时段Pi对应的用户分类模型Mi时,不仅将该时段Pi中的用户特征集合作为输入,还将上一时段Pi-1对应的用户分类模型产出的预测结果作为输入,由此进行了模型迭代和嵌套。
在以上的步骤22和23中,获取并利用了针对前一时段Pi-1训练的用户分类模型Mi-1。在该前一时段Pi-1是或不是初始时段的不同情况下,步骤22和23可以具有不同处理方式。
在一种情况下,第二时段Pi-1是初始时段。图3示出在该情况下的模型嵌套示意图。如图3所示,在第二时段Pi-1是初始时段的情况下,第二用户分类模型实际上对应于初始模型M0;当前的第一时段Pi为初始时段的下一时段(即i=1),第一用户分类模型对应于时段P1的模型M1。如前所述,该初始模型M0通过以下训练得到:获取样本用户在第二时段(即初始时段)中的特征集合X0,以及针对该时段的第二分类结果Y0,将特征集合X0作为特征输入,将第二分类结果Y0作为标签,训练得到第二用户分类模型,即得到函数f0,满足Y0=f0(X0)。
在这样的情况下,步骤23中得到第二预测结果的过程为,将第一特征集合X1输入第二用户分类模型M0,输出得到第二预测结果ai-1=a0,其中a0=f0(X1)。
在另一种情况下,第二时段Pi-1不是初始时段。图4示出在该情况下的模型嵌套示意图。如图4所示,在第二时段Pi-1不是初始时段的情况下,在第二时段之前还存在第三时段Pi-2。那么,第二用户分类模型Mi-1的训练类似地依赖于在前的第三时段Pi-2对应的第三用户分类模型Mi-2
具体地,第二用户分类模型Mi-1通过以下步骤训练得到。一方面,获取针对第三时段Pi-2训练的第三用户分类模型Mi-2,另一方面,获取样本用户在第二时段Pi-1中的第二特征集合Xi-1,以及针对第二时段Pi-1的第二分类结果Yi-1。利用第三用户分类模型Mi-2,基于第二特征集合Xi-1,预测第二时段的用户类别,得到第三预测结果ai-2;将第二特征集合Xi-1以及第三预测结果ai-2作为特征输入,将第二分类结果Yi-1作为标签,训练得到第二用户分类模型Mi-1,即得到函数fi-1,满足:
Yi-1=fi-1(Xi-1,ai-2) (2)
如此,第二用户分类模型Mi-1所对应映射函数fi-1的输入不仅包括用户特征集合,还包括前一时段的预测结果ai-2。在这样的情况下,步骤23中利用第二用户分类模型Mi-1得到针对第一时段的第二预测结果ai-1的过程为,将第一特征集合Xi以及第三预测结果ai-2输入第二用户分类模型Mi-1,输出得到第二预测结果ai-1,其中
ai-1=fi-1(Xi,ai-2) (3)
也就是,用待预测时段(Pi)的第一特征集合(Xi)替换训练时使用的第二特征集合(Xi-1),之前的第三预测结果ai-2作为参数不变,从而得到第二预测结果。
然后,将根据式(3)确定的第二预测结果ai-1,连同当前的第一时段Pi的第一特征集合Xi作为特征输入,根据式(1),训练得到时段Pi的分类模型Mi
在一个实施例中,存储上述第二预测结果ai-1,以便在训练下一时段Pi+1的用户分类模型Mi+1时,输入到上述第一用户分类模型Mi中,预测下一时段的用户分类。例如,如果下一时段Pi+1的用户特征为Xi+1,那么预测的用户分类为ai=fi(Xi+1,ai-1)。
图5示出根据一个实施例训练一系列嵌套模型的示意图。如图5所示以及如前所述,首先基于初始时段P0中各个样本的特征数据X0和分类标签Y0,训练得到初始模型M0,其中映射函数f0满足Y0=f0(X0)。
然后,在下一时段P1,采集该时段的特征数据X1和分类标签Y1。用上一时段P0的模型M0,基于本时段P1的特征数据X1,预测本时段P1的分类,产生预测结果a0=f0(X1)。将该预测结果a0与本时段特征数据X1作为模型输入,将Y1作为标签,训练得到本时段P1的模型M1,其映射函数f1满足Y1=f1(X1,a0)。
接着,在下一时段P2,采集该时段的特征数据X2和分类标签Y2。用上一时段P1的模型M1,基于本时段P2的特征数据X2,预测本时段P2的分类,产生预测结果a1=f1(X2,a0)。将该预测结果a1与本时段特征数据X2作为模型输入,将Y2作为标签,训练得到本时段P2的模型M2,其映射函数f2满足Y2=f2(X2,a1)。
之后的后续时段Pi与时段P2的处理方式相同。采集该时段Pi的特征数据Xi和分类标签Yi。用上一时段Pi-1的模型Mi-1,基于本时段Pi的特征数据Xi,预测本时段Pi的分类,产生预测结果ai-1=fi-1(Xi,ai-2)。将该预测结果ai-1与本时段特征数据Xi作为模型输入,将Yi作为标签,训练得到本时段Pi的模型Mi,其映射函数fi满足Yi=fi(Xi,ai-1)。
如此,得到一系列嵌套的模型。这些模型可以通过各种算法实现。在一个例子中,以上的一系列模型采用梯度提升决策树GBDT实现。在其他例子中,上述模型还可以采用深度神经网络DNN,XGBoost算法等方式实现。
通过以上过程可以看到,在本说明书实施例的方案中,分时段地进行模型的更新训练。每次更新训练新模型时,基于本时段中新产生的特征数据而非全量历史特征数据,但是将前一模型的产出结果作为变量输入到新模型中参与训练,从而更好地利用前一模型已有的预测能力,基于较少的特征数据达到更好的训练效果。
在训练出以上的嵌套模型的基础上,就可以利用训练好的模型来预测待测用户的分类。图6示出根据一个实施例的预测用户分类的方法流程图,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图6所示,预测方法包括以下步骤。
在步骤61,获取目标用户在当前的第一时段中的用户特征集合。可以理解,此处的目标用户为群体类别待评估的用户,并且第一时段为当前时段,也就是最近的一个时段。按照例如图5的时段排序来说,假定当前时段为时段Pn,目标用户在该时段的用户特征集合可以记为xn
在步骤62,获取针对第一时段Pn训练的第一用户分类模型Mn,以及针对第二时段训练的第二用户分类模型,其中,第二时段为第一时段之前的上一时段。因此,第二时段可以记为Pn-1,第二用户分类模型可以记为Mn-1
然后,在步骤63,利用第二用户分类模型Mn-1,至少基于所述用户特征集合xn,预测当前的第一时段Pn的用户类别,得到第二预测结果an-1
与训练过程对应的,在该步骤63中,存在第二用户分类模型是或不是初始模型两种情况。
在一种情况下,第二用户分类模型Mn-1是初始模型M0,对应于初始函数f0。在这样的情况下,在步骤63中,将用户特征集合xn输入该第二用户分类模型,输出得到第二预测结果an-1=a0,其中a0=f0(xn)。
在另一种情况下,第二用户分类模型Mn-1不是初始模型。在这样的情况下,在步骤63,首先读取预先存储的第三预测结果an-2,该第三预测结果an-2是利用第三用户分类模型Mn-2对上述第二时段Pn-1的用户类别的预测结果,其中第三用户分类模型Mn-2针对第二时段之前的上一时段,即第三时段Pn-2而训练。
在读取到第三预测结果an-2后,将用户特征集合xn以及所述第三预测结果an-2输入第二用户分类模型Mn-1(其对应于映射函数fn-1),输出得到第二预测结果an-1=fn-1(xn,an-2)。
在步骤63得到第二预测结果an-1的基础上,接着,在步骤64,将用户特征集合xn以及第二预测结果an-1,输入针对当前时段的第一用户分类模型Mn,(其对应于映射函数fn),得到针对目标用户的最终分类预测C,即:
C=fn(xn,an-1)。
如此,根据目标用户在当前时段的用户特征,基于针对当前时段训练的用户分类模型,以及前一时段训练的分类模型产出的预测结果,预测得到目标用户在当前时段的用户群体分类。在这个过程中,利用了前一模型和当前模型的嵌套关系,对前一模型的预测能力进行了复用,在此基础上用当前模型进行更新,从而更加准确地预测目标用户的群体分类。
根据另一方面的实施例,提供了一种训练用户分类模型的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图7示出根据一个实施例的训练用户分类模型的装置的示意性框图。如图7所示,该训练装置700包括:
第一数据获取单元71,配置为获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;
第二模型获取单元72,配置为获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;
第二预测生成单元73,配置为利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;
第一模型训练单元74,配置为将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。
在一个实施例中,第二模型获取单元72所获取的第二用户分类模型,通过以下方式训练得到:
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
将所述第二特征集合作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
在这样的情况下,所述第二预测生成单元73配置为:
将第一特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
在另一实施例中,第二模型获取单元72所获取的第二用户分类模型,通过以下方式训练得到:
获取针对第三时段训练的第三用户分类模型,其中,所述第三时段为所述第二时段之前的上一时段;
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
利用所述第三用户分类模型,基于所述第二特征集合,预测第二时段的用户类别,得到第三预测结果;
将所述第二特征集合以及所述第三预测结果作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
在这样的情况下,所述第二预测生成单元73配置为:
将所述第一特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
在各种实施例中,第一特征集合可以包括以下中的至少一项:浏览板块,收藏板块,支付笔数,支付金额,权益核销次数,核销权益总额,核销比例,支付渠道。
根据一种实施方式,所述第一用户分类模型和/或第二用户分类模型为GBDT模型。
在一个实施例中,装置700还包括存储单元(未示出),配置为存储所述第二预测结果,以便在训练下一时段的用户分类模型时,输入到所述第一用户分类模型中,预测下一时段的用户分类。
根据又一方面的实施例,提供了一种预测用户分类的装置,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。图8示出根据一个实施例的预测用户分类的装置的示意性框图。如图8所示,该预测装置800包括:
特征获取单元81,配置为获取目标用户在第一时段中的用户特征集合,所述第一时段为当前时段;
模型获取单元82,配置为获取针对第一时段训练的第一用户分类模型,以及针对第二时段训练的第二用户分类模型,其中,所述第二时段为第一时段之前的上一时段;
第一预测单元83,配置为利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果;
第二预测单元84,配置为将所述用户特征集合以及所述第二预测结果,输入所述第一用户分类模型,得到针对所述目标用户的最终分类预测。
在一个实施例中,所述第二时段为模型训练的初始时段;在这样的情况下,第一预测单元83配置为,将所述用户特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
在另一实施例中,第二时段不是模型训练的初始时段;在这样的情况下,第一预测单元83配置为:
读取预先存储的第三预测结果,所述第三预测结果是利用第三用户分类模型对所述第二时段的用户类别的预测结果,其中第三用户分类模型针对第三时段而训练,所述第三时段为所述第二时段之前的上一时段;
将所述用户特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
通过以上的装置,通过相邻时段之间模型的嵌套,实现更好的模型训练和预测效果。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2和图6所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2和图6所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (24)

1.一种训练用户分类模型的方法,包括:
获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;
获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;
利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;
将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。
2.根据权利要求1所述的方法,其中,所述第二用户分类模型通过以下方式训练得到:
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
将所述第二特征集合作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
3.根据权利要求2所述的方法,其中,利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果,包括:
将所述第一特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
4.根据权利要求1所述的方法,其中,所述第二用户分类模型通过以下方式训练得到:
获取针对第三时段训练的第三用户分类模型,其中,所述第三时段为所述第二时段之前的上一时段;
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
利用所述第三用户分类模型,基于所述第二特征集合,预测第二时段的用户类别,得到第三预测结果;
将所述第二特征集合以及所述第三预测结果作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
5.根据权利要求4所述的方法,其中,利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果,包括:
将所述第一特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
6.根据权利要求1所述的方法,其中,所述第一特征集合包括以下中的至少一项:浏览板块,收藏板块,支付笔数,支付金额,权益核销次数,核销权益总额,核销比例,支付渠道。
7.根据权利要求1所述的方法,其中,所述第一用户分类模型和/或第二用户分类模型为GBDT模型。
8.根据权利要求1所述的方法,还包括,存储所述第二预测结果,以便在训练下一时段的用户分类模型时,输入到所述第一用户分类模型中,预测下一时段的用户分类。
9.一种用户分类预测的方法,包括:
获取目标用户在第一时段中的用户特征集合,所述第一时段为当前时段;
获取针对第一时段训练的第一用户分类模型,以及针对第二时段训练的第二用户分类模型,其中,所述第二时段为第一时段之前的上一时段;
利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果;
将所述用户特征集合以及所述第二预测结果,输入所述第一用户分类模型,得到针对所述目标用户的最终分类预测。
10.根据权利要求10所述的方法,其中,所述第二时段为模型训练的初始时段;
利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果,包括:
将所述用户特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
11.根据权利要求10所述的方法,其中,利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果,包括:
读取预先存储的第三预测结果,所述第三预测结果是利用第三用户分类模型对所述第二时段的用户类别的预测结果,其中第三用户分类模型针对第三时段而训练,所述第三时段为所述第二时段之前的上一时段;
将所述用户特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
12.一种训练用户分类模型的装置,包括:
第一数据获取单元,配置为获取样本用户在第一时段中的第一特征集合,以及针对第一时段的第一分类结果;
第二模型获取单元,配置为获取针对第二时段训练的第二用户分类模型;其中,所述第二时段为所述第一时段之前的上一时段;
第二预测生成单元,配置为利用所述第二用户分类模型,至少基于所述第一特征集合,预测第一时段的用户类别,得到第二预测结果;
第一模型训练单元,配置为将所述第一特征集合以及所述第二预测结果作为特征输入,将所述第一分类结果作为标签,训练针对第一时段的第一用户分类模型。
13.根据权利要求12所述的装置,其中,所述第二模型获取单元获取的第二用户分类模型,通过以下方式训练得到:
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
将所述第二特征集合作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
14.根据权利要求13所述的装置,其中,所述第二预测生成单元配置为:
将所述第一特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
15.根据权利要求12所述的装置,其中,所述第二模型获取单元获取的第二用户分类模型,通过以下方式训练得到:
获取针对第三时段训练的第三用户分类模型,其中,所述第三时段为所述第二时段之前的上一时段;
获取所述样本用户在所述第二时段中的第二特征集合,以及针对第二时段的第二分类结果;
利用所述第三用户分类模型,基于所述第二特征集合,预测第二时段的用户类别,得到第三预测结果;
将所述第二特征集合以及所述第三预测结果作为特征输入,将所述第二分类结果作为标签,训练得到所述第二用户分类模型。
16.根据权利要求15所述的装置,其中,所述第二预测生成单元配置为:
将所述第一特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
17.根据权利要求12所述的装置,其中,所述第一特征集合包括以下中的至少一项:浏览板块,收藏板块,支付笔数,支付金额,权益核销次数,核销权益总额,核销比例,支付渠道。
18.根据权利要求12所述的装置,其中,所述第一用户分类模型和/或第二用户分类模型为GBDT模型。
19.根据权利要求12所述的装置,还包括存储单元,配置为存储所述第二预测结果,以便在训练下一时段的用户分类模型时,输入到所述第一用户分类模型中,预测下一时段的用户分类。
20.一种预测用户分类的装置,包括:
特征获取单元,配置为获取目标用户在第一时段中的用户特征集合,所述第一时段为当前时段;
模型获取单元,配置为获取针对第一时段训练的第一用户分类模型,以及针对第二时段训练的第二用户分类模型,其中,所述第二时段为第一时段之前的上一时段;
第一预测单元,配置为利用所述第二用户分类模型,至少基于所述用户特征集合,预测所述第一时段的用户类别,得到第二预测结果;
第二预测单元,配置为将所述用户特征集合以及所述第二预测结果,输入所述第一用户分类模型,
得到针对所述目标用户的最终分类预测。
21.根据权利要求20所述的装置,其中,所述第二时段为模型训练的初始时段;
所述第一预测单元配置为,将所述用户特征集合输入所述第二用户分类模型,输出得到所述第二预测结果。
22.根据权利要求20所述的装置,其中,所述第一预测单元配置为:
读取预先存储的第三预测结果,所述第三预测结果是利用第三用户分类模型对所述第二时段的用户类别的预测结果,其中第三用户分类模型针对第三时段而训练,所述第三时段为所述第二时段之前的上一时段;
将所述用户特征集合以及所述第三预测结果输入所述第二用户分类模型,输出得到所述第二预测结果。
23.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-11中任一项的所述的方法。
24.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-11中任一项所述的方法。
CN201910949854.7A 2019-10-08 2019-10-08 训练用户分类模型、执行用户分类预测的方法及装置 Active CN110717537B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910949854.7A CN110717537B (zh) 2019-10-08 2019-10-08 训练用户分类模型、执行用户分类预测的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910949854.7A CN110717537B (zh) 2019-10-08 2019-10-08 训练用户分类模型、执行用户分类预测的方法及装置

Publications (2)

Publication Number Publication Date
CN110717537A true CN110717537A (zh) 2020-01-21
CN110717537B CN110717537B (zh) 2022-04-12

Family

ID=69212190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910949854.7A Active CN110717537B (zh) 2019-10-08 2019-10-08 训练用户分类模型、执行用户分类预测的方法及装置

Country Status (1)

Country Link
CN (1) CN110717537B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111999695A (zh) * 2020-10-28 2020-11-27 武汉格蓝若智能技术有限公司 一种变电站计量装置状态评估与异常诊断方法
CN113222760A (zh) * 2021-05-19 2021-08-06 上海优方信息科技服务股份有限公司 用户数据处理方法以及相关装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160077901A (ko) * 2014-12-24 2016-07-04 한국항공우주산업 주식회사 실시간 시뮬레이션 방법 및 실시간 시뮬레이션 장치
CN108009926A (zh) * 2017-12-07 2018-05-08 上海点融信息科技有限责任公司 用于用户分类的方法、信息处理装置及可读存储介质
CN108229473A (zh) * 2017-12-29 2018-06-29 苏州科达科技股份有限公司 车辆年检标签检测方法及装置
CN109582869A (zh) * 2018-11-29 2019-04-05 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109684543A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 用户行为预测和信息投放方法、装置、服务器和存储介质
CN110070392A (zh) * 2019-04-17 2019-07-30 北大方正集团有限公司 用户流失预警方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160077901A (ko) * 2014-12-24 2016-07-04 한국항공우주산업 주식회사 실시간 시뮬레이션 방법 및 실시간 시뮬레이션 장치
CN108009926A (zh) * 2017-12-07 2018-05-08 上海点融信息科技有限责任公司 用于用户分类的方法、信息处理装置及可读存储介质
CN108229473A (zh) * 2017-12-29 2018-06-29 苏州科达科技股份有限公司 车辆年检标签检测方法及装置
CN109582869A (zh) * 2018-11-29 2019-04-05 北京搜狗科技发展有限公司 一种数据处理方法、装置和用于数据处理的装置
CN109684543A (zh) * 2018-12-14 2019-04-26 北京百度网讯科技有限公司 用户行为预测和信息投放方法、装置、服务器和存储介质
CN110070392A (zh) * 2019-04-17 2019-07-30 北大方正集团有限公司 用户流失预警方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邱爱昆等: "基于集成学习的多重集典型相关分析方法", 《计算机工程与应用》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111999695A (zh) * 2020-10-28 2020-11-27 武汉格蓝若智能技术有限公司 一种变电站计量装置状态评估与异常诊断方法
CN111999695B (zh) * 2020-10-28 2021-01-12 武汉格蓝若智能技术有限公司 一种变电站计量装置状态评估与异常诊断方法
CN113222760A (zh) * 2021-05-19 2021-08-06 上海优方信息科技服务股份有限公司 用户数据处理方法以及相关装置

Also Published As

Publication number Publication date
CN110717537B (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
JP7276757B2 (ja) モデル公平性のためのシステムおよび方法
CN110598847B (zh) 处理交互序列数据的方法及装置
US11521221B2 (en) Predictive modeling with entity representations computed from neural network models simultaneously trained on multiple tasks
CN106548210B (zh) 基于机器学习模型训练的信贷用户分类方法及装置
US11250088B2 (en) Method and apparatus for processing user interaction sequence data
TW202008264A (zh) 透過深度強化學習進行推薦行銷的方法及裝置
CN111737546A (zh) 确定实体业务属性的方法及装置
US11836582B2 (en) System and method of machine learning based deviation prediction and interconnected-metrics derivation for action recommendations
Hanga et al. A graph-based approach to interpreting recurrent neural networks in process mining
CN111210072B (zh) 预测模型训练和用户资源额度确定方法及装置
KR102330423B1 (ko) 이미지 인식 딥러닝 알고리즘을 이용한 온라인 부도 예측 시스템
CN110717537B (zh) 训练用户分类模型、执行用户分类预测的方法及装置
WO2022252694A1 (zh) 神经网络优化方法及其装置
Branchi et al. Learning to act: a reinforcement learning approach to recommend the best next activities
CN111159241B (zh) 一种点击转化预估方法及装置
CN110263136B (zh) 基于强化学习模型向用户推送对象的方法和装置
CN111160638A (zh) 一种转化预估方法及装置
WO2022150343A1 (en) Generation and evaluation of secure synthetic data
US20210110287A1 (en) Causal Reasoning and Counterfactual Probabilistic Programming Framework Using Approximate Inference
US11275756B2 (en) System for extracting, categorizing and analyzing data for training user selection of products and services, and a method thereof
US12106026B2 (en) Extensible agents in agent-based generative models
CN113191527A (zh) 一种基于预测模型进行人口预测的预测方法及装置
KR20200021132A (ko) 인공지능을 이용한 예측 방법
CN115829755B (zh) 交易风险的预测结果的解释方法和装置
JP4440828B2 (ja) 類似事例に基づく予測を行う予測装置および方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant