CN112862527A - 用户类型确定方法、装置、设备及存储介质 - Google Patents

用户类型确定方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112862527A
CN112862527A CN202110156085.2A CN202110156085A CN112862527A CN 112862527 A CN112862527 A CN 112862527A CN 202110156085 A CN202110156085 A CN 202110156085A CN 112862527 A CN112862527 A CN 112862527A
Authority
CN
China
Prior art keywords
user
user type
time
time period
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110156085.2A
Other languages
English (en)
Inventor
李云飞
王建桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Didi Infinity Technology and Development Co Ltd
Original Assignee
Beijing Didi Infinity Technology and Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Didi Infinity Technology and Development Co Ltd filed Critical Beijing Didi Infinity Technology and Development Co Ltd
Priority to CN202110156085.2A priority Critical patent/CN112862527A/zh
Publication of CN112862527A publication Critical patent/CN112862527A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Abstract

本公开的实施例提供一种用户类型确定方法、装置、设备及存储介质。该方法包括:确定位于目标时刻之前的多个不同时间段;获取多个不同时间段内用户的属性数据;对各时间段内用户的属性数据进行分析处理,确定各时间段对应的用户类型分析结果;根据各时间段对应的用户类型分析结果,确定用户在目标时刻之后的用户类型,用户类型包括流失用户类型和未流失用户类型。因此,结合多个不同时间段的用户属性数据,进行用户类型预测,也即进行用户流失预测,提高了用户流失预测准确性。

Description

用户类型确定方法、装置、设备及存储介质
技术领域
本公开的实施例涉及计算机技术领域,尤其涉及一种用户类型确定方法、装置、设备及存储介质。
背景技术
随着互联网技术的发展,多种多样的互联网服务给人们提供了更便捷的生活方式。其中,用户数量是影响互联网服务发展态势的关键因素之一。
用户数量保持和增加,一方面在于吸引新的用户进入,另一方面在于减少原有用户的流失。相对于吸引新用户,减少原有用户流失难度和成本更低。目前,减少原有用户流失的方式是通过多种措施召回已流失的用户。
相较于召回已流失的用户,在用户流失之前对潜在的用户流失情况进行预测,可以提前预防用户的流失,有利于减少原有用户的流失。因此,亟需一种对用户流失情况进行预测的方式。
发明内容
本公开的实施例提供一种用户类型确定方法、装置、设备及存储介质,用以解决如何对用户流失情况进行预测的问题。
第一方面,本公开的实施例提供一种用户类型确定方法,包括:
确定位于目标时刻之前的多个不同时间段;
获取所述多个不同时间段内用户的属性数据;
对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
第二方面,本公开的实施例提供了一种用户类型分析模型的训练方法,包括:
确定位于参考时刻之前的多个样本时间段;
获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
第三方面,本公开的实施例提供一种用户类型确定装置,包括:
第一确定模块,用于确定位于目标时刻之前的多个不同时间段;
获取模块,用于获取所述多个不同时间段内用户的属性数据;
分析模块,用于对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
第二确定模块,用于根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
第四方面,本公开的实施例提供了一种用户类型分析模型的训练装置,包括:
确定模块,用于确定位于参考时刻之前的多个样本时间段;
获取模块,用于获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
训练模块,用于根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
第五方面,本公开的实施例提供一种电子设备,包括:
存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如上述第一方面或第二方面所述的方法。
第六方面,本公开的实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被执行时,实现如上述第一方面或第二方面所述的方法。
第七方面,本公开的实施例提供一种计算机程序产品,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如第一方面或第二方面所述方法的步骤。
本公开的实施例提供了一种用户类型确定方法、装置、设备及存储介质,在该方法中,确定目标时刻之前的多个不同时间段,根据各个时间段内用户的属性数据,确定各个时间段对应的用户类型分析结果,根据各个时间段对应的用户类型分析结果,确定用户在目标时刻之后的用户类型,其中,用户类型包括流失用户类型和未流失用户类型,从而综合目标时刻之前的多个不同时间段用户的属性数据,实现对用户在目标时刻之后所属的用户类型的预测并提高了预测准确性,进而提高了用户流失预测的准确性。
本公开的各种可行实施例及其技术优势将在下文详述。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1为本公开的实施例适用的应用场景示例图;
图2为本公开的一实施例提供的用户类型确定方法的流程示意图;
图3为本公开的另一实施例提供的用户类型确定方法的流程示意图;
图4为本公开的一实施例提供的用户类型分析模型的训练方法的流程示意图;
图5为本公开的一实施例提供的用户类型确定装置的结构示意图;
图6为本公开的一实施例提供的用户类型分析模型的训练装置的结构示意图;
图7为本公开的一实施例提供的一种电子设备的结构示意图;
图8为本公开的一实施例提供的用户类型确定装置的框图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
对于互联网服务提供商来说,用户数量是影响互联网服务持续发展的关键因素之一。在用户数量的保持和增加的措施中,相较于吸引新用户,减少原有用户的流失的针对性较强,即能够针对不同的原有用户采用不同的挽留措施或者召回措施,难度和成本更低,且原有住户的流失情况也会影响到新用户引入效果。因此,减少原有用户的流失是互联网服务商们的关注点之一。
通常的,在减少原有用户流失时,通过各种召回措施召回已流失的用户,但该方式错失了留住原有用户的较佳时刻,未能在原有用户有流失倾向时及时采取挽留措施。因此,有必要在原有用户流失之前对潜在的用户流失情况进行预测,以在预测到原有用户即将流失时及时挽留原有用户。
以货运服务平台为例,如果该平台上原有的货运司机流失情况严重,则会影响到货运服务的开展和货运服务平台上新的货运司机的入驻。相较于吸引新的货运司机,减少原有货运司机的流失更具有针对性,成本较低且难度较小。对原有货运司机的流失进行预测,能够及时对将流失的原有货运司机采取挽留措施,有效地减少原有货运司机的流失。
为了实现用户流失情况的预测和提高用户流失预测的准确性,本公开实施例提供了一种用户类型确定方法,该方法确定目标时刻之前的多个不同时间段,综合多个不同时间段内用户的属性数据,确定用户在目标时刻之后的用户类型,其中,用户类型包括流失用户类型和未流失用户类型,实现了对目标时刻之后用户流失情况的预测并提高了预测准确性。
图1为本公开的实施例适用的应用场景示例图,该应用场景包括:服务提供商服务器101和服务提供商终端102,服务提供商服务器101上存储有一个或多个用户的属性数据。可在服务提供商终端102上或者服务提供商服务器101上,对用户的属性数据进行分析处理,以实现用户流失预测。
可选的,该应用场景还包括用户终端103,服务提供商服务器101或者服务提供商终端102可在确定用户将流失后,确定挽留措施,并根据挽留措施向即将流失的用户的用户终端103发送相应的挽留信息,例如,优惠券领取信息、商品折扣信息、任务完成激励信息等。
其中,服务提供商终端102比如为移动设备(例如手机、平板电脑)、计算机、服务器等电子设备,图1以计算机为例。用户终端103比如为用户随身携带移动设备(例如手机、平板电脑、可穿戴式智能设备)、计算机、车载设备,图1中以手机为例。服务提供商服务器101比如为单个服务器、服务器群(比如分布式服务器、集中式服务器)、云服务器中的一种或任一组合。服务提供商服务器101、服务提供商终端102、用户终端103例如通过网络进行通信。
下面以具体的实施例对本公开的实施例的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本公开的实施例进行描述。
示例性的,本公开各方法实施例的执行主体为图1所示的服务提供商服务器101或者图1所示的服务提供商终端102。
图2为本公开的一实施例提供的用户类型确定方法的流程示意图。如图2所示,该方法包括:
S201、确定位于目标时刻之前的多个不同时间段。
其中,目标时刻的单位例如为年、季度、月、周、日、或者时,比如目标时刻为下一年或者下一月,以对下一年或者下一月的用户流失进行预测。
其中,位于目标时刻之前的多个不同时间段的单位也可以为年、季度、月、周、日或者时,例如,目标时刻为1年1月1日,位于目标时刻之前的多个时间段可以为1年1月1日之前的一年或多年、一个或者多个季度等。时间段的数量例如预先设置为固定值,例如预先设置为4。
具体的,获取目标时刻,在获得目标时刻后,按照预设策略,确定位于目标时刻之前的多个不同时间段。
一示例中,可获取用户(例如服务商)输入的目标时刻,以对用户指定的目标时刻后的用户流失情况进行预测,提高用户体验。
又一示例中,可获取当前时刻,根据当前时刻,确定目标时刻。例如,可将当前时刻确定为目标时刻;或者,可以将与当前时刻的间隔时长为预设的预测时长的时刻确定为目标时刻,例如,预测时长例如为1日,将与当前时刻间隔1日的时刻确定为目标时刻。
一示例中,预设策略可以为随机策略,即在确定目标时刻后,随机确定位于目标时刻之前的多个不同时间段。
例如,目标时刻为1年1月1日时,可随机确定目标时刻之前的多个时间段:上一年12月20日至1年1月1日为第一个时间段、上一年11月30日到1年1月1日为第二个时间段等等。
又一示例中,预设策略可以为:将目标时刻之前的预设时长的多个时间段依次确定为多个不同的时间段。此时各个时间段的时长相同,但各个时间段的开始时刻不同、结束时刻也不同,各个时间段可以相互之间不存在重合部分、或者每两个相邻的时间段之间存在重合部分。
例如,预设时长为一个月、且目标时刻为1年1月1日时:可将上一年的12月1日至12月31日、11月1日至11月30日、……等等确定为多个不同的时间段;或者,将上一年的12月1日至12月31日、11月30日至12月30日、……等等确定为多个不同的时间段。
S202、获取多个不同时间段内用户的属性数据。
其中,用户可包括流失用户和/或未流失用户。流失用户(又称为留存用户)是指互联网服务平台或系统中的活跃程度满足预设条件的用户,例如,流失用户可为最近上线时间距离当前时间的时间间隔大于预设间隔阈值、最近一笔订单完成时间距离当前时间的时间间隔大于预设间隔阈值、和/或在近一个月内完成订单数量小于预设数量阈值的用户。
其中,用户的属性数据是指用户参与互联网服务的用户行为(例如上线行为、下单行为、完单行为、评价行为)的记录数据,还可以包括用户在互联网服务中公开的身份信息,例如用户的性别、年龄。
一示例中,用户的属性数据包括如下一种或多种:用户的上线活跃数据、用户的业务数据、用户的活动轨迹数据、用户偏好。例如,用户的上线活跃数据包括用户的上线时间和、上线次数等,用户的业务数据包括用户的订单完成时间、订单完成量、订单偏好,用户的活动轨迹数据包括用户在完成订单过程中的地理位置、用户的商品或者服务浏览轨迹等。
以互联网服务为货运服务、用户为货运司机为例,货运司机的属性数据包括该货运司机的上线时间、上线次数、货运订单完成时间、货运订单完成量、在货运订单完成过程中的地理位置中的一项或多项,还可以包括货运司机完成的各个货运订单的里程、价格、评分等。
具体的,针对各时间段,从存储用户的属性数据的数据库中,获取时间段的开始时刻之前的一个或多个用户在该时间段内的属性数据。
一示例中,在确定多个不同时间段后,考虑到在时间段之前的未流失用户和流失用户在时间段内都可能有用户行为,例如上线、下单等,因此,为实现对批量用户的流失预测,针对各时间段,从存储用户的属性数据的数据库中,获取时间段的开始时刻之前的所有未流失用户和/或所有流失用户在该时间段内的属性数据。
S203、对各时间段内用户的属性数据进行分析处理,确定各时间段对应的用户类型分析结果。
具体的,一段时间内用户的属性数据,能够反映出用户的流失趋势,或者说,能够反映出用户的流失可能性。例如,一段时间段未流失用户的上线次数明显减少和/或完成订单数量明显减少,则反映出未流失用户的流失可能性较大。因此,在得到多个不同时间段内用户的属性数据之后,针对各个时间段,可对用户在该时间段内的属性数据进行分析处理,得到用户在目标时刻之后的用户类型的分析结果,由一个或多个用户在目标时刻之后的用户类型的分析结果,组合得到该时间段对应的用户类型分析结果。其中,用户类型包括流失用户类型和未流失用户类型,
一示例中,针对各时间段,时间段对应的用户类型分析结果包括:基于对时间段内一个或多个用户的属性数据的分析处理,确定的该一个或多个用户在目标时刻之后的用户类型。例如,对第一个时间段内用户a的属性数据进行分析处理后,确定用户a在目标时刻之后的用户类型为流失用户类型,对第二个时间段内用户a的属性信息进行分析处理后,确定用户a在目标时刻之后的用户类型为未流失用户类型。
又一示例中,针对各时间段,时间段对应的用户类型分析结果包括:对一个或时间段内一个或多个用户的属性数据的分析处理,确定的该一个或多个用户在目标时刻之后的流失概率。例如,对第一个时间段内用户a的属性数据进行分析处理后,确定用户a在目标时刻之后的流失概率为80%,对第二个时间段内用户a的属性数据进行分析处理后,确定用户a在目标时刻之后的流失概率为60%。
作为示例的,在对时间段内用户的属性数据进行分析处理时,根据时间段内用户的上线活跃数据、业务数据和/或活动轨迹数据,对用户进行打分,根据用户的得分来确定用户在目标时刻之后的用户类型或流失概率。
S204、根据各时间段对应的用户类型分析结果,确定用户在目标时刻之后的用户类型。
具体的,在得到各个时间段对应的用户类型分析结果之后,可从各个时间段对应的用户类型分析结果中,得到用户在目标时刻之后的用户类型的多个分析结果,根据用户在目标时刻之后的用户类型的多个分析结果,确定用户在目标时刻之后的用户类型。
一示例中,从各个时间段对应的用户类型分析结果中,得到用户在目标时刻之后的多个用户类型,根据用户在目标时刻之后的多个用户类型,最终确定用户在目标时刻之后的用户类型。例如,第一个时间段对应的用户类型分析结果中,用户a在目标时刻之后的用户类型为流失用户类型,第二个时间段对应的用户类型分析结果中,用户a在目标时刻之后的用户类型为未流失用户类型,等等,依次可得到用户在目标时刻之后的多个用户类型,比如可将出现次数最多的用户类型最终确定为用户在目标时刻之后的用户类型。此外,还可以用0表示未流失用户类型,用1表示流失用户类型,此时,可通过用户在目标时刻之后的多个用户类型计算(例如加权求平均、均方差等计算方式)确定用户在目标时刻之后最终的用户类型。
另一示例中,从各个时间段对应的用户类型分析结果中,得到用户在目标时刻之后的多个流失概率,根据用户在目标时刻会后的多个流失概率,确定用户在目标时刻之后最终的流失概率,根据用户在目标时刻之后最终的流失概率,最终确定用户在目标时刻之后的用户类型。
本实施例中,根据目标时刻之前的多个不同时间段内用户的属性数据,确定各个时间段对应的用户类型分析结果,根据各个时间段对应的用户类型分析结果,确定用户在目标时刻之后的用户类型,既利用了用户的属性数据能够在一定程度上反映用户的流失趋势的特点,实现对用户在目标时刻之后用户类型的预测,也即实现对用户在目标时刻之后流失的预测,又利用了多个不同时间段内用户的属性数据,提高用户类型预测的准确性,提高了用户流失预测的准确性。
在一种可能的实现方式中,各时间段的时长不同、且目标时刻为各时间段的结束时刻。因此,根据以目标时刻为结束时刻、且时长不同的多个时间段内用户的属性数据,进行用户类型分析,充分考虑到用户类型分析与时间段的时长相关,基于时长越长的时间段内用户的属性数据进行用户类型分析,则分析效果越稳定。因此,相较于使用单一时间段或者使用时长相同的时间段,基于时长不同的各个时间段内用户的属性数据进行用户类型分析,能够提高用户类型分析的准确性。
一示例中,用于确定位于目标时刻之前的多个不同时间段的预测策略包括:以目标时刻为结束时刻,根据多个不同的预设时长,确定位于目标时刻之前的多个不同时间段。其中,多个不同的预设时长包括各个时间段的时长。在确定目标时刻之前的多个不同时间段时,以目标时刻为各个时间段的结束时刻,按照多个不同的预设时长,往前确定各个时间段的开始时刻,根据各个时间段的开始时刻和结束时刻,得到各个时间段。
又一示例中,用于确定位于目标时刻之前的多个不同时间段的预设策略包括:以目标时刻为结束时刻,根据预设时长和每两个相邻时间段的预设时间间隔,确定位于目标时刻之前的多个不同时间段。其中,预设时长包括第一个时间段的时长和/或最后一个时间段的时长。以预设时长包括第一个时间段的时长为例,在确定目标时刻之前的多个不同时间段时,将目标时刻确定为各个时间段的结束时刻。按照第一个时间段的时长确定第一个时间段的开始时刻,得到第一个时间段。根据第一个时间段的开始时刻和每两个相邻时间段之间的预设时间间隔,确定第二个时间段的开始时刻,得到第二个时间段。依此类推,得到各个时间段。
例如,目标时刻为8月22日,第一个时间段的时长为38天,每两个相邻时间段之间的预设时长差值为7天,则第一个时间段的开始时刻为7月15日、结束时刻为8月22日,第二个时间段的开始时刻为7月22日、结束时刻为8月22日,第三个时间段的开始时刻为7月29日、结束时刻为8月22日,第四个时间段的开始时刻为8月5日、结束时刻为8月22日,依此类推。
图3为本公开的另一实施例提供的用户类型确定方法的流程示意图。如图3所示,该方法包括:
S301、确定位于目标时刻之前的多个不同时间段。
S302、获取多个不同时间段内用户的属性数据。
其中,S301~S302的实现过程和技术效果可参照前述实施例,不再赘述。
S303、通过第一分析模型,对各时间段内用户的属性数据进行分析处理,得到各时间段对应的用户类型分析结果。
其中,第一分析模型为决策模型,比如随机森林模型(Random Forest,简称RF)、极端梯度提升模型(eXtreme Gradient Boosting,简称xgboost)、轻型梯度提升机(LightGradient Boosting Machine,简称Light GBM)。预先构建第一分析模型并训练,得到训练好的第一分析模型。
具体的,针对各时间段,将时间段内用户的属性数据输入第一分析模型,由第一分析模型对用户在目标时刻后的用户类型进行分析,也即对用户在目标时刻之后的流失情况进行预测,得到第一分析模型输出的用户在目标时刻后的用户类型的分析结果,由一个或多个用户在目标时刻之后的用户类型的分析结果,得到时间段对应的用户类型分析结果。
在一种可能的实现方式中,在将时间段内用户的属性数据输入第一分析模型之前,对时间段内用户的属性数据进行预处理,将预处理后的属性数据输入第一分析模型中,以提高第一分析模型的用户类型分析效果。
一示例中,在预处理时,对时间段内用户的属性数据进行缺失值处理。在进行缺失值处理时,针对各个用户的属性数据,可确定用户的属性数据中的缺失属性(例如缺少上线活跃数据、业务数据、活动轨迹数据中的一种或多种,或者,缺少更详细的数据,缺少用户的上线次数、订单偏好),根据缺失属性对用户的属性数据进行缺失值处理。其中,针对各缺失属性,可以在拥有该缺失属性的用户的属性数据中删除该缺失属性;或者,可在拥有该缺失属性的用户的属性数据中,获取该缺失属性的多个值,根据获得的该缺失属性的多个值计算平均值,根据缺失属性的平均值,对缺少该缺失属性的用户的属性数据进行完善;或者,针对缺少该缺失属性的第一用户,可在拥有该缺失属性的第二用户中,确定与第一用户相似的第二用户,根据与第一用户相似的第二用户的该缺失属性,对第一用户的属性数据进行完善。
又一示例中,在预处理时,对时间段内用户的属性数据进行数据标准化(又称为数据归一化)。例如,将各用户的上线次数、订单完成量等数据转换为0~1之间的数字。在此对数据标准化过程不做详细描述。
又一示例中,在预处理时,对时间段内用户的属性数据进行特征选择。针对各用户的属性数据进行特征选择,可从用户的属性数据中,筛选出与用户流失的关联性较高的属性数据;或者,可保留关联性较高的两个属性数据中的一个,例如,上线时间、下线时间和在线时间可以保留其中一个。
在一种可能的实现方式中,第一分析模型为多个,不同时间段对应不同的第一分析模型,不同时间段对应的第一分析模型的模型参数不完全相同。在通过第一分析模型进行用户类型分析的过程中,针对每个时间段,先确定时间段对应的第一分析模型,通过时间段对应的第一分析模型,对时间段内用户的属性数据进行分析处理,得到时间段对应的用户类型分析结果。
例如,在多个不同的时间段中,确定第一个时间段对应多个第一分析模型中的第一个第一分析模型、第二时间段对应多个第一分析模型中的第二个第一分析模型,依此类推。可将第一个时间段内用户的属性数据输入第一个时间段对应的第一分析模型中,得到第一个时间段对应的用户类型分析结果,将第二个时间段内用户的属性数据输入第二个时间段对应的第一分析模型中,因此针对不同的时间段采用对应的第一分析模型,提高用户预测效果。
其中,不同时间段对应的第一分析模型的模型参数不完全相同,包括如下情形:不同时间段对应的第一分析模型的模型结构相同、但权重参数不完全相同;或者,不同时间段对应的第一分析模型的模型结构不完全相同。
进一步的,考虑到时间段的时长不同,用户类型分析效果不同,通常时间段越长,基于该时间段内用户的属性数据进行用户类型分析的效果越稳定,因此可根据时间段的时长确定时间段对应的第一分析模型,例如,时长较长的时间段对应的第一分析模型采用随机森林模型的效果较好,时长较短的时间段对应的第一分析模型采用xgboost或者LightGBM的效果较好。
根据时间段的时长确定时间段对应的第一分析模型的方式包括:
一示例中,可预先设定各个第一分析模型分别对应的时长阈值。在针对各个时间段,确定时间段对应的第一分析模型时,可将时间段与各个第一分析模型分别对应的时长阈值进行比较,将该时间段的时长所满足的时长阈值对应的第一分析模型确定为该时间段对应的第一分析模型,其中,时间段的时长满足时长阈值,是指时间段的时长等于该时长阈值,或者,时间段的时长与该时长阈值之间的差值小于等于预设阈值。因此,可根据时间段的时长为时间段提供相应的第一分析模型,以提高用户类型分析效果。
又一示例中,时间段对应的第一分析模型为采用样本时间段内的样本数据训练得到的,且该时间段的时长与该样本时间段的时长相同。在训练多个第一分析模型时,确定多个样本时间段,根据样本时间段的样本数据,训练与该样本时间段对应的第一分析模型。在确定时间段对应的第一分析模型时,将时长与该时间段的时长一致的样本时间段对应的第一分析模型确定为该时间段对应的第一分析模型。
S304、通过第二分析模型,对各时间段对应的用户类型分析结果进行分析处理,得到用户在目标时刻之后的用户类型。
其中,第二分析模型为线性回归模型,例如逻辑回归(Logistic Regression)模型。可预先构建第二分析模型并训练,得到训练好的第二分析模型。
具体的,时间段对应的用户类型分析结果中包括一个或多个用户在目标时刻之后的用户类型的分析结果,因此,根据各时间段对应的预测结果,可以得到用户在目标时刻之后的用户类型的多个分析结果。
例如,时间段A对应的用户类型分析结果包括用户a、用户b分别在目标时刻之后的用户类型的分析结果a1、b1,时间段B对应的用户类型分析结果包括用户a、用户b分别在目标时刻之后的用户类型的分析结果a2、b2,则根据时间段A、时间段B分别对应的用户类型分析结果,可得到用户a在目标时刻之后的用户类型的多个分析结果a1、a2,用户b在目标时刻之后的用户类型的多个分析结果b1、b2。
具体的,在得到用户在目标时刻之后的用户类型的多个分析结果之后,将用户在目标时刻之后的用户类型的多个分析结果,输入第二分析模型,得到第二分析模型输出的用户在目标时刻之后的用户类型的最终分析结果。
一示例中,第二模型输出的用户在目标时刻之后的用户类型的最终分析结果包括最终分析得到的用户在目标时刻之后的流失概率。进一步,可根据最终分析得到的用户在目标时刻之后的流失概率,确定用户在目标时刻之后的用户类型。例如,如果最终分析得到的用户在目标时刻之后的流失概率大于预设的概率阈值,则确定用户在目标时刻之后的用户类型为流失用户类型,否则确定用户在目标时刻之后的用户类型为未流失用户类型。
一示例中,第一分析模型和第二分析模型可采用Stacking模型,其中,第一分析模型为Stacking模型中的元模型(又称为初级学习器),第二分析模型为Stacking模型中对各个元模型的输出进行汇总得到最终输出的模型的机器学习模型(又称为次级学习器)。在此对Stacking模型不做详细描述。
本实施例中,确定位于目标时刻之前的多个不同时间段,针对各时间段内用户的属性数据,通过第一分析模型进行用户类型分析,得到各个时间段对应的用户类型分析结果,通过第二分析模型对各个时间段对应的用户类型分析结果进行处理,得到用户在目标时刻之后的用户类型,有效地提高了对各个时间段内用户的属性数据的利用效果,提高了用户类型分析的准确性,进而提高了用户流失预测的准确性。
为进一步理解前述实施例的方案,图4为本公开的一实施例提供的用户类型分析模型的训练方法的流程示意图,也即第一分析模型和第二分析模型训练过程的流程示意图。如图4所示,该方法包括:
S401、确定位于参考时刻之前的多个样本时间段。
其中,参考时刻的单位例如为年、季度、月、周、日、或者时,以目标时刻的区别在于:在参考时刻之后用户的实际流失情况是已知的,而在目标时刻之后用户的实际流失情况是未知的。因此,能够通过对参考时刻之后的用户流失情况进行预测,再结合参考时刻之后用户的实际流失情况,对第一分析模型和第二分析模型进行训练。第一分析模型和第二分析模型的类型可以参考前述实施例的描述,不再赘述。
其中,参考时刻的数量可为一个或多个,在参考时刻的数量为1个时,
具体的,获取参考时刻,并根据参考时刻和预设策略,确定位于参考时刻之前的多个不同样本时间段。其中,预设策略可参考前述实施例确定位于目标时刻之前的多个不同时间段的预设策略,不再赘述。
一示例中,可获取用户输入的参考时刻,从而用户可以根据用户流失的已知情况输入参考时刻,提高参考时刻设置的合理性。
又一示例中,可获取当前时刻,根据当前时刻确定参考时刻,例如,将与当前时刻的间隔时长为1月的时刻确定为参考时刻。因此,能够根据当前时刻自动确定参考时刻,而无需用户每次指定参考时刻。
在一种可能的实现方式中,多个样本时间段与前述各实施例中的多个不同时间段一一对应,相互对应的样本时间段与时间段的时长相同。目标时刻为各时间段的结束时刻的情形下,相应的,参考时刻为各样本时间段的结束时刻。各时间段的时长不同的情形下,相应的,各样本时间段的时长也不同。
S402、获取多个样本时间段内的样本数据,样本时间段内的样本数据包括样本时间段内用户的属性数据和用户类型。
其中,用户的属性数据可参照前述实施例的描述,不再赘述。针对各样本时间段,样本时间段内用户的用户类型包括样本时间段之前的所有用户(流失用户和未流失用户)在参考时刻之后的用户类型(也可以理解为在参考时刻之后实际的流失结果,该结果是已知的),用户类型包括流失用户类型和未流失用户类型,例如,用户类型可以用类型标签表示,流失用户类型对应的类型标签为1,未流失用户类型对应的用户标签为0。
具体的,针对各样本时间段,可从存储所有用户的属性数据的数据库中,获取样本时间段之前的所有用户的属性数据,还可以获取该样本时间段之前的所有用户在参考时刻之后的用户类型。
例如,参考时刻为8月22日,第一个样本时间段为7月15日至8月22日,第二个样本时间段为7月22日至8月22日,第三个样本时间段为7月29日至8月22日,第四个样本时间段为8月5日至8月22日。此时,针对第一个样本时间段,可获取7月15日之前的所有用户在7月15日至8月22日的属性数据、以及7月15日之前的所有用户在8月22日之后的用户类型;针对第二个样本时间段,可获取7月22日之前的所有用户在7月22日至8月22日的属性数据、以及7月22日之前的所有用户在8月22日之后的用户类型;……,依此类推,在此不一一描述。最终得到各个样本时间段内用户的属性数据和用户类型。
S403、根据多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练。
具体的,在得到各个样本时间段内用户的属性数据和用户类型后,针对各个样本时间段,将单个用户的属性数据和用户类型作为一个样本,例如样本可以表示为<用户的属性数据,用户的用户类型>,按照用户类型为流失用户类型还是未流失用户类型,可将多个样本划分为正样本和负样本。例如,将用户类型为流失用户类型的样本确定为正样本,将用户类型为未流失用户类型的样本确定为负样本。因此,得到各个样本时间段内的多个正样本和多个负样本。
具体的,在得到各个样本时间段内的多个正样本和多个负样本之后,可对第一分析模型和第二分析模型进行有监督训练,得到训练后的第一分析模型和第二分析模型,训练后的第一分析模型和第二分析模型用于对多个不同时间段内用户的属性数据进行分析处理,得到用户在目标时刻之后的用户类型的分析结果。
具体的,在训练过程中,可将样本中用户的属性数据作为第一分析模型的输入,根据第一分析模型的输出数据和样本数据中用户的用户类型,对第一分析模型进行调整;可将第一分析模型的输出结果作为第二分析模型的输入,根据第二分析模型的输出数据和样本数据中用户的用户类型,对第二分析模型进行调整。
在一种可能的实现方式中,第一分析模型的数量为多个,不同的样本时间段对应不同的第一分析模型,不同的样本时间段对应的第一分析模型的模型参数不完全相同,从而能够根据不同的样本时间段内的样本数据,训练得到不同的第一分析模型,提高第一分析模型的训练效果。其中,不同样本时间段对应的第一分析模型的模型参数不完全相同,可参照前述实施例中不同时间段对应的第一分析模型的模型参数不完全相同,再次不再赘述。
进一步的,根据样本时间段的时长,确定样本时间段对应的第一分析模型,从而充分考虑到基于不同时长的样本时间段的样本数据进行用户预测的预测效果不同,有针对性地采用适用于不同时长的样本时间段的第一分析模型,以提高训练得到的第一分析模型的模型效果。具体可参照前述实施例中根据时间段的时长确定时间段对应的第一分析模型的描述,在此不再赘述。
在一种可能的实现方式中,基于不同的样本时间段对应的第一分析模型的模型参数值不完全相同,针对每个样本时间段,确定样本时间段对应的第一分析模型,根据样本时间段内用户的属性数据和用户类型,对与样本时间段对应的第一分析模型进行训练,根据各样本时间段所对应的第一分析模型在训练中的输出数据和各样本时间段内用户的用户类型,对第二分析模型进行训练,因此得到训练后的第一分析模型和第二分析模型。
其中,针对各第一分析模型,第一分析模型的输出数据为该第一分析模型所对应的样本时间段对应的用户类型分析结果,包括样本时间段内多个用户在参考时刻之后的用户类型的分析结果,因此,根据第一分析模型输出的各个用户在参考时刻之后的用户类型的分析结果和各个用户在参考时刻之后实际的用户类型,可对第一分析模型进行调整。
其中,根据多个第一分析模型的输出数据,也即根据多个样本时间段对应的用户类型分析结果,可得到各个用户在参考时刻之后的用户类型的多个分析结果。将各个用户在参考时刻之后的用户类型的多个分析结果,输入第二分析模型,也即通过第二分析模型对各个用户在参考时刻之后的用户类型的多个分析结果进行整合,得到各个用户在参考时刻之后的用户类型的最终分析结果。因此,根据各个用户在参考时刻之后的用户类型的最终分析结果和各个用户在参考时刻之后实际的用户类型,可对第二分析模型进行调整。
在一种可能的实现方式中,在对第一分析模型和第二分析模型进行训练的过程中,可采用交叉验证方式进行训练和评估,既能够对第一分析模型和第二分析模型进行训练,又能够对训练的第一分析模型和第二分析模型的模型效果进行评估。进一步的,交叉验证可为5折交叉验证。
以5折交叉验证为例,针对各个样本时间段,将样本时间段的正样本和负样本分成5份,选择其中的一份数据作为测试数据,将其余四份数据作为训练数据。通过各个样本时间段的训练数据分别对各个样本时间段对应的第一分析模型、以及对第二分析模型进行训练,再通过各个样本时间段的评估数据分别对各个样本时间段对应的第一分析模型、以及第二分析模型进行测试。在一轮测试和评估完成后,针对各个样本时间段,再从5份数据中选择另一份数据(与上一侧测试数据不同)作为测试数据,将其余四份数据作为训练数据,重复上述操作,进行第2轮测试和评估。按照上述过程,进行5轮测试和评估,完成第一分析模型和第二分析模型的训练。
在一种可能的实现方式中,在训练第一分析模型和第二分析模型的过程中,可通过受试者工作特征曲线(receiver operating characteristic curve,简称ROC曲线)、曲线下方面积(Area Under Curve,AUC)、精确率(precision)、召回率(recall)等评估指标,对第一分析模型和第二分析模型的模型效果进行评估。其中,ROC曲线、AUC、精确率、召回率为常用来评价分类器的评价指标,在本实施例中用于评价第一分析模型和第二分析模型的模型效果。
本实施例中,基于参考时刻之前的多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,以提高第一分析模型和第二分析模型的训练效果,进而提高通过第一分析模型和第二预测进行用户流失预测的预测准确性。
图5为本公开的一实施例提供的用户类型确定装置的结构示意图,如图5所示,该装置包括:
第一确定模块501,用于确定位于目标时刻之前的多个不同时间段;
获取模块502,用于获取多个不同时间段内用户的属性数据;
分析模块503,用于对各时间段内用户的属性数据进行分析处理,确定各时间段对应的用户类型分析结果;
第二确定模块504,用于根据各时间段对应的用户类型分析结果,确定用户在目标时刻之后的用户类型,用户类型包括流失用户类型和未流失用户类型。
在一种可能的实现方式中,分析模块503具体用于:通过第一分析模型,对各时间段内用户的属性数据进行分析处理,得到各时间段对应的用户类型分析结果。第二确定模块504具体用于:通过第二分析模型,对各时间段对应的用户类型分析结果进行分析处理,得到用户在目标时刻之后的用户类型。
在一种可能的实现方式中,第一分析模型为多个,分析模块503具体用于:针对每个时间段,确定时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;通过时间段对应的第一分析模型,对时间段内用户的属性数据进行分析处理,得到时间段对应的用户类型分析结果。
在一种可能的实现方式中,针对各时间段,时间段对应的第一分析模型为采用样本时间段内的样本数据训练得到的,时间段的时长与样本时间段的时长相同。
在一种可能的实现方式中,各时间段的时长不同,目标时刻为各时间段的结束时刻。
在一种可能的实现方式中,该装置还包括:
训练模块,用于确定位于参考时刻之前的多个样本时间段;获取多个样本时间段内的样本数据,样本时间段内的样本数据包括样本时间段内用户的属性数据和用户类型;根据多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练。
在一种可能的实现方式中,多个样本时间段与多个不同时间段一一对应,相互对应的样本时间段和时间段的时长相同,参考时刻为各样本时间段的结束时刻。
在一种可能的实现方式中,第一分析模型为多个,训练模块具体用于:
针对每个样本时间段,确定样本时间段对应的第一分析模型,不同样本时间段对应的第一分析模型的模型参数值不完全相同;针对每个样本时间段,根据样本时间段内用户的属性数据和用户类型,对与样本时间段对应的第一分析模型进行训练;根据各样本时间段所对应的第一分析模型在训练中的输出数据和每个样本时间段内用户的用户类型,对第二分析模型进行训练。
在一种可能的实现方式中,用户类型分析结果为用户在目标时刻之后的流失概率。
一种可能的实现方式中,第一分析模型为决策模型,第二分析模型为线性回归模型。
图6为本公开的一实施例提供的用户类型分析模型的训练装置的结构示意图,如图6所示,该装置包括:
确定模块601,用于确定位于参考时刻之前的多个样本时间段;
获取模块602,用于获取多个样本时间段内的样本数据,样本时间段内的样本数据包括样本时间段内用户的属性数据和用户类型,用户类型包括流失用户类型和未流失用户类型;
训练模块603,用于根据多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,第一分析模型和第二分析模型用于用户类型分析。
一种可能的实现方式中,第一分析模型为多个,训练模块603具体用于:针对每个样本时间段,确定样本时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;针对每个样本时间段,根据样本时间段内用户的属性数据和用户类型,对与样本时间段对应的第一分析模型进行训练;根据各样本时间段所对应的第一分析模型在训练中的输出数据和每个样本时间段内用户的用户类型,对第二分析模型进行训练。
一种可能的实现方式中,各样本时间段的时长不同,参考时刻为各样本时间段的结束时刻。
一种可能的实现方式中,第一分析模型为决策模型,第二分析模型为线性回归模型。
图5提供的用户类型确定装置或图6提供的用户类型分析模型的训练装置,可以执行上述相应方法实施例,其实现原理和技术效果类似,在此不再赘述。
图7为本公开的一实施例提供的一种电子设备的结构示意图。如图7所示,该电子设备可以包括:处理器701和存储器702。存储器702用于存储计算机执行指令,处理器701执行计算机程序时实现如上述任一实施例的方法。
上述的处理器701可以是通用处理器,包括中央处理器CPU、网络处理器(networkprocessor,NP)等。上述存储器702可能包含随机存取存储器(random access memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
本公开的一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行如上述任一实施例的方法。
本公开的一实施例还提供一种程序产品,所述程序产品包括计算机程序,所述计算机程序存储在存储介质中,至少一个处理器可以从所述存储介质中读取所述计算机程序,所述至少一个处理器执行所述计算机程序时可实现上述任一实施例的方法中的步骤。
图8为本公开的一实施例提供的用户类型确定装置800的框图。例如,装置800可以被提供为一服务器。参照图8,装置800包括处理组件801,其进一步包括一个或多个处理器,以及由存储器802所代表的存储器资源,用于存储可由处理组件801的执行的指令,例如应用程序。存储器802中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件801被配置为执行指令,以执行上述任一实施例的方法。
装置800还可以包括一个电源组件803被配置为执行装置800的电源管理,一个有线或无线网络接口804被配置为将装置800连接到网络,和一个输入输出(I/O)接口805。装置800可以操作基于存储在存储器802的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本公开还提供如下实施例:
实施例1、一种用户类型确定方法,所述方法包括:
确定位于目标时刻之前的多个不同时间段;
获取所述多个不同时间段内用户的属性数据;
对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
实施例2、根据实施例1所述的方法,所述对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果,包括:
通过第一分析模型,对各所述时间段内用户的属性数据进行分析处理,得到各所述时间段对应的用户类型分析结果;
所述根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,包括:
通过第二分析模型,对各所述时间段对应的用户类型分析结果进行分析处理,得到所述用户在所述目标时刻之后的用户类型。
实施例3、根据实施例2所述的方法,所述第一分析模型为多个,所述通过第一分析模型,对各所述时间段内的用户线上数据进行分析处理,得到各所述时间段对应的用户类型分析结果,包括:
针对每个所述时间段,确定所述时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;
通过所述时间段对应的第一分析模型,对所述时间段内用户的属性数据进行分析处理,得到所述时间段对应的用户类型分析结果。
实施例4、根据实施例3所述的方法,针对各所述时间段,所述时间段对应的第一分析模型为采用样本时间段内的样本数据训练得到的,所述时间段的时长与所述样本时间段的时长相同。
实施例5、根据实施例1-4中任一项所述的方法,各所述时间段的时长不同,所述目标时刻为各所述时间段的结束时刻。
实施例6、根据实施例2所述的方法,所述方法还包括:
确定位于参考时刻之前的多个样本时间段;
获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型;
根据所述多个样本时间段内用户的属性数据和用户类型,对所述第一分析模型和所述第二分析模型进行训练。
实施例7、根据实施例6所述的方法,所述多个样本时间段与所述多个不同时间段一一对应,相互对应的所述样本时间段和所述时间段的时长相同,所述参考时刻为各所述样本时间段的结束时刻。
实施例8、根据实施例6或实施例7所述的方法,所述第一分析模型为多个,所述根据所述多个样本时间段内用户的属性数据和用户类型,对所述第一分析模型和所述第二分析模型进行训练,包括:
针对每个所述样本时间段,确定所述样本时间段对应的第一分析模型,不同样本时间段对应的第一分析模型的模型参数值不完全相同;
针对每个所述样本时间段,根据所述样本时间段内用户的属性数据和用户类型,对与所述样本时间段对应的第一分析模型进行训练;
根据各所述样本时间段所对应的第一分析模型在训练中的输出数据和每个所述样本时间段内用户的用户类型,对所述第二分析模型进行训练。
实施例9、根据实施例1-4中任一项所述的方法,所述用户类型分析结果为所述用户在所述目标时刻之后的流失概率。
实施例10、根据实施例2-4中任一项所述的方法,所述第一分析模型为决策模型,所述第二分析模型为线性回归模型。
实施例11、一种用户类型分析模型的训练方法,所述方法包括:
确定位于参考时刻之前的多个样本时间段;
获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
实施例12、根据实施例11所述的方法,所述第一分析模型为多个,所述根据所述多个样本时间段内用户的属性数据和用户类型,对所述第一分析模型和所述第二分析模型进行训练,包括:
针对每个所述样本时间段,确定所述样本时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;
针对每个所述样本时间段,根据所述样本时间段内用户的属性数据和用户类型,对与所述样本时间段对应的第一分析模型进行训练;
根据各所述样本时间段所对应的第一分析模型在训练中的输出数据和每个所述样本时间段内用户的用户类型,对所述第二分析模型进行训练。
实施例13、根据实施例11或实施例12所述的方法,所述各所述样本时间段的时长不同,所述参考时刻为各所述样本时间段的结束时刻。
实施例14、根据实施例11或实施例12所述的方法,所述第一分析模型为决策模型,所述第二分析模型为线性回归模型。
实施例15、一种用户类型确定装置,所述装置包括:
第一确定模块,用于确定位于目标时刻之前的多个不同时间段;
获取模块,用于获取所述多个不同时间段内用户的属性数据;
分析模块,用于对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
第二确定模块,用于根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
实施例16、根据实施例15所述的装置,所述分析模块,具体用于:通过第一分析模型,对各所述时间段内用户的属性数据进行分析处理,得到各所述时间段对应的用户类型分析结果;所述第二确定模块,具体用于通过第二分析模型,对各所述时间段对应的用户类型分析结果进行分析处理,得到所述用户在所述目标时刻之后的用户类型。
实施例17、根据实施例16所述的装置,所述第一分析模型为多个,所述分析模块,具体用于:针对每个所述时间段,确定所述时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;通过所述时间段对应的第一分析模型,对所述时间段内用户的属性数据进行分析处理,得到所述时间段对应的用户类型分析结果。
实施例18、根据实施例17所述的装置,针对各所述时间段,所述时间段对应的第一分析模型为采用样本时间段内的样本数据训练得到的,所述时间段的时长与所述样本时间段的时长相同。
实施例19、根据实施例15-18中任一项所述的装置,各所述时间段的时长不同,所述目标时刻为各所述时间段的结束时刻。
实施例20、根据实施例16所述的装置,所述装置还包括训练模块,所述训练模块,用于:确定位于参考时刻之前的多个样本时间段;获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型;根据所述多个样本时间段内用户的属性数据和用户类型,对所述第一分析模型和所述第二分析模型进行训练。
实施例21、根据实施例20所述的装置,所述多个样本时间段与所述多个不同时间段一一对应,相互对应的所述样本时间段和所述时间段的时长相同,所述参考时刻为各所述样本时间段的结束时刻。
实施例22、根据实施例20或实施例21所述的装置,所述第一分析模型为多个,所述训练模块,具体用于:针对每个所述样本时间段,确定所述样本时间段对应的第一分析模型,不同样本时间段对应的第一分析模型的模型参数值不完全相同;针对每个所述样本时间段,根据所述样本时间段内用户的属性数据和用户类型,对与所述样本时间段对应的第一分析模型进行训练;根据各所述样本时间段所对应的第一分析模型在训练中的输出数据和每个所述样本时间段内用户的用户类型,对所述第二分析模型进行训练。
实施例23、根据实施例15-18中任一项所述的装置,所述用户类型分析结果为所述用户在所述目标时刻之后的流失概率。
实施例24、根据实施例16-18中任一项所述的装置,所述第一分析模型为决策模型,所述第二分析模型为线性回归模型。
实施例25、一种用户类型分析模型的训练装置,所述装置包括:
确定模块,用于确定位于参考时刻之前的多个样本时间段;
获取模块,用于获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
训练模块,用于根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
实施例26、根据实施例25所述的装置,所述第一分析模型为多个,所述训练模块,具体用于:针对每个所述样本时间段,确定所述样本时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;针对每个所述样本时间段,根据所述样本时间段内用户的属性数据和用户类型,对与所述样本时间段对应的第一分析模型进行训练;根据各所述样本时间段所对应的第一分析模型在训练中的输出数据和每个所述样本时间段内用户的用户类型,对所述第二分析模型进行训练。
实施例27、根据实施例25或实施例26所述的装置,所述各所述样本时间段的时长不同,所述参考时刻为各所述样本时间段的结束时刻。
实施例28、根据实施例25或实施例26所述的装置,所述第一分析模型为决策模型,所述第二分析模型为线性回归模型。
实施例29、一种电子设备,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如实施例1-10中任一项或者实施例11-14中任一项所述的方法。
实施例30、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如实施例1-10中任一项或者实施例11-14中任一项所述的方法。
实施例31、一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据实施例权利要求1-10中任一项或者实施例11-14中任一项所述方法的步骤。
在本公开实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B的情况,其中,A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系;在公式中,字符“/”,表示前后关联对象是一种“相除”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中,a,b,c可以是单个,也可以是多个。
可以理解的是,在本公开实施例中涉及的各种数字编号仅为描述方便进行的区分,并不用来限制本公开实施例的范围。
可以理解的是,在本公开的实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本公开实施例的实施过程构成任何限定。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开的实施例旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求书指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims (10)

1.一种用户类型确定方法,其特征在于,所述方法包括:
确定位于目标时刻之前的多个不同时间段;
获取所述多个不同时间段内用户的属性数据;
对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
2.根据权利要求1所述的方法,其特征在于,所述对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果,包括:
通过第一分析模型,对各所述时间段内用户的属性数据进行分析处理,得到各所述时间段对应的用户类型分析结果;
所述根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,包括:
通过第二分析模型,对各所述时间段对应的用户类型分析结果进行分析处理,得到所述用户在所述目标时刻之后的用户类型。
3.根据权利要求2所述的方法,其特征在于,所述第一分析模型为多个,所述通过第一分析模型,对各所述时间段内的用户线上数据进行分析处理,得到各所述时间段对应的用户类型分析结果,包括:
针对每个所述时间段,确定所述时间段对应的第一分析模型,不同时间段对应的第一分析模型的模型参数值不完全相同;
通过所述时间段对应的第一分析模型,对所述时间段内用户的属性数据进行分析处理,得到所述时间段对应的用户类型分析结果。
4.根据权利要求3所述的方法,其特征在于,针对各所述时间段,所述时间段对应的第一分析模型为采用样本时间段内的样本数据训练得到的,所述时间段的时长与所述样本时间段的时长相同。
5.一种用户类型分析模型的训练方法,其特征在于,所述方法包括:
确定位于参考时刻之前的多个样本时间段;
获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
6.一种用户类型确定装置,其特征在于,所述装置包括:
第一确定模块,用于确定位于目标时刻之前的多个不同时间段;
获取模块,用于获取所述多个不同时间段内用户的属性数据;
分析模块,用于对各所述时间段内用户的属性数据进行分析处理,确定各所述时间段对应的用户类型分析结果;
第二确定模块,用于根据各所述时间段对应的用户类型分析结果,确定所述用户在所述目标时刻之后的用户类型,所述用户类型包括流失用户类型和未流失用户类型。
7.一种用户类型分析模型的训练装置,其特征在于,所述装置包括:
确定模块,用于确定位于参考时刻之前的多个样本时间段;
获取模块,用于获取所述多个样本时间段内的样本数据,所述样本时间段内的样本数据包括所述样本时间段内用户的属性数据和用户类型,所述用户类型包括流失用户类型和未流失用户类型;
训练模块,用于根据所述多个样本时间段内用户的属性数据和用户类型,对第一分析模型和第二分析模型进行训练,其中,所述第一分析模型和所述第二分析模型用于用户类型分析。
8.一种电子设备,其特征在于,包括:存储器和处理器;
所述存储器用于存储程序指令;
所述处理器用于调用所述存储器中的程序指令执行如权利要求1-5中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序;所述计算机程序被执行时,实现如权利要求1-5中任一项所述的方法。
10.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1-5中任一项所述方法的步骤。
CN202110156085.2A 2021-02-04 2021-02-04 用户类型确定方法、装置、设备及存储介质 Pending CN112862527A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110156085.2A CN112862527A (zh) 2021-02-04 2021-02-04 用户类型确定方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110156085.2A CN112862527A (zh) 2021-02-04 2021-02-04 用户类型确定方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112862527A true CN112862527A (zh) 2021-05-28

Family

ID=75987965

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110156085.2A Pending CN112862527A (zh) 2021-02-04 2021-02-04 用户类型确定方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112862527A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437199A (zh) * 2017-06-16 2017-12-05 北京小度信息科技有限公司 平台收益预测方法及装置
CN109636446A (zh) * 2018-11-16 2019-04-16 北京奇虎科技有限公司 用户流失预测方法、装置及电子设备
CN110222975A (zh) * 2019-05-31 2019-09-10 北京奇艺世纪科技有限公司 一种流失用户分析方法、装置、电子设备及存储介质
CN110956296A (zh) * 2018-09-26 2020-04-03 北京嘀嘀无限科技发展有限公司 一种用户流失概率预测方法及装置
CN111260382A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种流失概率的预测处理方法及装置
CN112070310A (zh) * 2020-09-10 2020-12-11 腾讯科技(深圳)有限公司 基于人工智能的流失用户预测方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107437199A (zh) * 2017-06-16 2017-12-05 北京小度信息科技有限公司 平台收益预测方法及装置
CN110956296A (zh) * 2018-09-26 2020-04-03 北京嘀嘀无限科技发展有限公司 一种用户流失概率预测方法及装置
CN109636446A (zh) * 2018-11-16 2019-04-16 北京奇虎科技有限公司 用户流失预测方法、装置及电子设备
CN111260382A (zh) * 2018-11-30 2020-06-09 北京嘀嘀无限科技发展有限公司 一种流失概率的预测处理方法及装置
CN110222975A (zh) * 2019-05-31 2019-09-10 北京奇艺世纪科技有限公司 一种流失用户分析方法、装置、电子设备及存储介质
CN112070310A (zh) * 2020-09-10 2020-12-11 腾讯科技(深圳)有限公司 基于人工智能的流失用户预测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11868941B2 (en) Task-level answer confidence estimation for worker assessment
Devriendt et al. Why you should stop predicting customer churn and start using uplift models
US10755196B2 (en) Determining retraining of predictive models
US20170262770A1 (en) Cascaded boosted predictive models
US20190311042A1 (en) Intelligent incentive distribution
CN112380449B (zh) 信息推荐方法、模型训练方法及相关装置
CN112633962A (zh) 业务推荐方法、装置、计算机设备和存储介质
CN111260382A (zh) 一种流失概率的预测处理方法及装置
CN108416619A (zh) 一种消费间隔时间预测方法、装置及可读存储介质
CN111046156B (zh) 奖励数据的确定方法、装置和服务器
CN110796379B (zh) 业务渠道的风险评估方法、装置、设备及存储介质
Verma et al. Restless Multi-Armed Bandits for Maternal and Child Health: Results from Decision-Focused Learning.
CN110209944B (zh) 一种股票分析师推荐方法、装置、计算机设备和存储介质
CN117093787A (zh) 一种应用于脑刺激装置的信息推送方法及相关设备
CN112862527A (zh) 用户类型确定方法、装置、设备及存储介质
CN110717785A (zh) 基于标签分布学习的决策方法、系统及装置
Alventosa et al. Location and innovation optimism: a behavioral-experimental approach
CN113935788B (zh) 模型评估方法、装置、设备及计算机可读存储介质
CN112785044B (zh) 公共交通工具的实时满载率预测方法、装置、设备和介质
US11854028B2 (en) Reinforcement learning applied to survey parameter optimization
CN116993170A (zh) 运营活动效果确定方法、装置、存储介质及电子设备
CN112163633A (zh) 测试评估方法、装置、电子设备及存储介质
CN114611615A (zh) 对象分类处理方法、装置、计算机设备和存储介质
CN114663138A (zh) 用户流失预测方法、装置、计算机设备和存储介质
CN117407761A (zh) 资源转移方法、装置、设备、介质和程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination