CN112633573B - 活跃状态的预测方法以及活跃度阈值的确定方法 - Google Patents
活跃状态的预测方法以及活跃度阈值的确定方法 Download PDFInfo
- Publication number
- CN112633573B CN112633573B CN202011523974.XA CN202011523974A CN112633573B CN 112633573 B CN112633573 B CN 112633573B CN 202011523974 A CN202011523974 A CN 202011523974A CN 112633573 B CN112633573 B CN 112633573B
- Authority
- CN
- China
- Prior art keywords
- prediction
- period
- active
- historical
- prediction time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2477—Temporal data queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本公开关于一种活跃状态的预测方法以及活跃度阈值的确定方法,该方法包括:获取对象在历史时间段内访问业务所产生的访问特征数据;根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率;基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值;比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,本公开至少解决相关技术中难以确定用户在未来时间段内访问应用程序的活跃状态的问题。
Description
技术领域
本公开涉及用户活跃度分析技术领域,尤其涉及一种活跃状态的预测方法以及活跃度阈值的确定方法。
背景技术
随着移动互联网的发展,移动终端的功能日益丰富,移动终端的各种娱乐应用也层出不穷,尤其是一些短视频的娱乐应用,为了不断提升短视频娱乐应用的业务,需要分析用户粘度。
衡量短视频娱乐应用的用户粘度的重要指标就是用户活跃度相关指标,相关技术中的用户活跃度相关指标包括DAU(Daily Active User,日活跃度),WAU(Weekly ActiveUser,周活跃度),MAU(Monthly Active User,月活跃度)等,但这些指标均为描述结果的指标,并不能很好地反应用户访问APP(Application,应用程序)的过程中的回头率或频率等过程量,根据相关技术中的活跃度指标也难以确定未来用户访问应用程序的活跃状态。
针对相关技术中难以确定用户在未来时间段内访问应用程序的活跃状态的问题,目前尚未提出有效的解决方案。
发明内容
本公开提供一种活跃状态的预测方法以及活跃度阈值的确定方法,以至少解决相关技术中难以确定用户在未来时间段内访问应用程序的活跃状态的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种活跃状态的预测方法,包括:获取对象在历史时间段内访问业务所产生的访问特征数据;根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率,其中,活跃概率用于表征对象在预测时间段之前访问业务、并在预测时间段内再次访问业务的概率;基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值,其中,活跃预测时间段为对象再次访问业务的预测时间段;比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,其中,第一阈值用于表征预测期内的活跃预测时间段的个数阈值。
可选地,根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率包括:将访问特征数据输入至多任务神经网络模型进行分析,得到对象在预测期内的各个预测时间段的活跃概率,其中,多任务神经网络模型由以下训练数据进行训练得到:第一样本对象在第一历史预测期内访问业务的访问状态、第一样本对象在第一历史预测期内相邻两次访问业务的间隔时长、以及第一样本对象在第一历史预测期之前的访问特征数据,其中,访问状态用于表示第一样本对象是否发生再次访问业务的行为。
可选地,基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值包括:计算每个预测时间段的活跃概率与预测时间段之前的所有预测时间段的活跃概率之和,得到预测时间段的累积活跃概率;分别基于预测期内的各个预测时间段的累积活跃概率,计算在预测期内的各个预测时间段之后的预测时间段内对象再次访问业务的概率;以预测期内的各个预测时间段为横坐标,以对象在各个预测时间段之后的预测时间段内再次访问业务的概率为纵坐标,生成对象在预测期内的第一活跃曲线;根据第一活跃曲线,确定对象在预测期内的活跃预测时间段的个数期望值。
可选地,根据第一活跃曲线,确定对象在预测期内的活跃预测时间段的个数期望值包括:计算第一活跃曲线与第一活跃曲线对应的横坐标轴以及纵坐标轴围成的面积,得到目标数值,其中,目标数值表征对象在预测期内的不活跃预测时间段的个数期望值;计算预测期内包含的预测时间段的个数与目标数值的差值,得到对象在预测期内的活跃预测时间段的个数期望值。
可选地,根据比较结果确定对象在预测期内的活跃状态包括:在比较结果指示活跃预测时间段的个数期望值大于或等于第一阈值时,确定对象处于活跃状态;在比较结果指示活跃预测时间段的个数期望值小于第一阈值时,确定对象处于非活跃状态。
可选地,在比较活跃预测时间段的个数期望值与对象对应的第一阈值之前,该方法还包括:获取多个第二样本对象的活跃数据,其中,活跃数据包括第二样本对象在第二历史预测期内访问业务的访问状态、以及第二样本对象在第二历史预测预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示第二样本对象是否发生再次访问业务的行为;依据多个第二样本对象的活跃数据,生成第二历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示第二样本对象在第二历史预测期内各个预测时间段之后的预测时间段内再次访问业务的概率;从第二活跃曲线中选择目标点,并确定目标点对应的预测时间段之前的预测期时间段的个数;计算第二历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到第二历史预测期内的活跃预测时间段的个数期望值,并将第二历史预测期内的活跃预测时间段的个数期望值确定为第一阈值。
可选地,依据多个第二样本对象的活跃数据,生成第二历史预测期内的第二活跃曲线包括:根据多个第二样本对象在第二历史预测期内访问业务的访问状态、以及多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长,计算多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量,其中,同一第二样本对象在同一预测时间段内的多次访问表征一次访问;根据多个第二样本对象在第二历史预测期内访问业务的访问状态、多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长、多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量,计算第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问业务的概率;以第二历史预测期内的各个预测时间段为横坐标,以第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问业务的概率为纵坐标,生成第二样本对象在第二历史预测期内的第二活跃曲线。
可选地,从第二活跃曲线中选择目标点包括:获取第二活跃曲线中各个点与原点的距离值;从距离值中选择最小距离值,并将最小距离值对应的点作为目标点。
根据本公开实施例的第二方面,提供一种活跃度阈值的确定方法,包括:获取多个样本对象的活跃数据,其中,活跃数据包括样本对象在历史预测期内访问业务的访问状态、以及样本对象在历史预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示样本对象是否发生再次访问业务的行为;依据多个样本对象的活跃数据,生成历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示多个样本对象在历史预测期内各个预测时间段之后的时间段内再次访问业务的概率;从第二活跃曲线中选择目标点,并基于目标点对应的预测时间段确定活跃度阈值,其中,活跃度阈值用于确定用户活跃度状态。
可选地,在活跃度阈值表征目标预测期内的活跃预测时间段的个数的阈值的情况下,基于目标点对应的预测时间段确定活跃度阈值包括:确定在历史预测期内,目标点对应的预测时间段之前的预测时间段的个数;计算历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到活跃度阈值。
根据本公开实施例的第三方面,提供一种活跃状态的预测装置,包括:第一获取单元,被配置为获取对象在历史时间段内访问业务所产生的访问特征数据;分析单元,被配置为根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率,其中,活跃概率用于表征对象在预测时间段之前访问业务、并在预测时间段内再次访问业务的概率;第一确定单元,被配置为基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值,其中,活跃预测时间段为对象再次访问业务的预测时间段;比较单元,被配置为比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,其中,第一阈值用于表征预测期内的活跃预测时间段的个数阈值。
根据本公开实施例的第四方面,提供一种活跃度阈值的确定装置,第三获取单元,被配置为获取多个样本对象的活跃数据,其中,活跃数据包括样本对象在历史预测期内访问业务的访问状态、以及样本对象在历史预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示样本对象是否发生再次访问业务的行为;第二曲线生成单元,被配置为依据多个样本对象的活跃数据,生成历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示多个样本对象在历史预测期内各个预测时间段之后的时间段内再次访问业务的概率;第三确定单元,被配置为从第二活跃曲线中选择目标点,并基于目标点对应的预测时间段确定活跃度阈值,其中,活跃度阈值用于确定用户活跃度状态。
根据本公开实施例的第五方面,提供一种活跃状态的预测装置/电子设备/服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述任一项的活跃状态的预测方法,或上述任一项的活跃度阈值的确定方法。
根据本公开实施例的第六方面,提供一种计算机可读存储介质,当计算机可读存储介质中的指令由缓存装置/电子设备/服务器的处理器执行时,使得活跃状态的预测方法的电子设备能够执行上述任一项的活跃状态的预测方法,或上述任一项的活跃度阈值的确定方法。
根据本公开实施例的第七方面,提供一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述任一项的活跃状态的预测方法,或上述任一项的活跃度阈值的确定方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过获取对象在历史时间段内访问业务所产生的访问特征数据;根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率,其中,活跃概率用于表征对象在预测时间段之前访问业务、并在预测时间段内再次访问业务的概率;基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值,其中,活跃预测时间段为对象再次访问业务的预测时间段;比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,其中,第一阈值用于表征预测期内的活跃预测时间段的个数阈值,可以达到根据对象在历史时间段内的访问特征数据确定对象在预测期内的活跃状态的目的,实现了准确判断用户在未来时间段内访问应用程序的活跃状态的技术效果,解决了相关技术中难以确定用户在未来时间段内访问应用程序的活跃状态的问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的计算机终端的硬件结构框图。
图2是根据一示例性实施例示出的一种活跃状态的预测方法的流程图。
图3是根据一示例性实施例示出的一种活跃状态的预测方法中神经网络模型的示意图。
图4是根据一示例性实施例示出的一种活跃状态的预测方法中第一活跃曲线的示意图。
图5是根据一示例性实施例示出的一种活跃状态的预测方法中第二活跃曲线的示意图。
图6是根据一示例性实施例示出的一种活跃度阈值的确定方法的流程图。
图7是根据一示例性实施例示出的一种活跃状态的预测装置的框图。
图8是根据一示例性实施例示出的一种活跃度阈值的确定装置的框图。
图9是根据一示例性实施例示出的一种终端的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
为了解决相关技术中难以确定用户在未来时间段内访问应用程序的活跃状态的问题,相关技术中出现了以下方法:
1、采用机器学习模型的概率来预测用户未来活跃概率,如采用逻辑回归2分类结果判断用户是否流失,但机器学习2分类模型的概率输出不能表征实际物理意义,难以指导在什么时间段、以什么方式召回用户、以及如何提高用户的访问频率。
2、采用离散型活跃概率定义用户活跃程度,但离散型活跃度概率会导致在一定范围内用户活跃概率相同,不能区分每个用户的活跃程度。
此外,相关技术的上述方法在得到活跃度并基于活跃度判断用户是否活跃时,相关技术是人为设定阈值,以判断用户的活跃状态,阈值确定单纯依靠使用者对业务的理解,并没有科学依据,依据该阈值判断用户是否活跃状态的结果不合理。
基于此,本公开希望提供一种能够解决上述技术问题的方案,其详细内容将在后续实施例中得以阐述。
本公开实施例一所提供的方法实施例可以在移动终端或者计算机终端中执行。图1是根据一示例性实施例示出的一种用户活跃度状态的确定方法的计算机终端的硬件结构框图。如图1所示,计算机终端10可以包括一个或多个(图中采用102a、102b,……,102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算机终端10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算机终端10中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器104可用于存储应用软件的软件程序以及模块,如本公开实施例中的用户活跃度状态的确定方法对应的程序指令/数据存储装置,处理器102通过运行存储在存储器104内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的缓存。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算机终端10的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算机终端10可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算机终端10中的部件的类型。
图2是根据一示例性实施例示出的一种活跃状态的预测方法的流程图,如图2所示,活跃状态的预测方法用于移动终端或者计算机终端中,包括以下步骤。
在步骤S201中,获取对象在历史时间段内访问业务所产生的访问特征数据。
具体地,对象为待预测的访问业务的用户,可以通过访问业务对应的应用程序来实现对业务的访问,应用程序为可供用户点击浏览的、安装在客户端上的应用程序,历史时间段为过去的一段时间,例如,历史时间段可以为当前时刻或某一历史时刻之前的一周。
需要说明的是,在用户访问客户端上的应用程序的过程中,会产生与访问行为关联的特征数据,也即访问特征数据。例如,用户ID、用户年龄、用户性别等用户属性数据,再如,用户在访问业务时先进入那个界面、在该界面停留了多长时间、进行了怎样的操作、随后进入了哪个界面等用户行为数据,以及在用户访问业务的过程中抽象得到的用户画像数据。
由于用户的访问特征数据与访问行为具有关联关系,具体地,与访问时间间隔具有关联关系,而访问时间间隔可以表征访问活跃状态,因而,用户的访问特征数据与用户访问业务的活跃状态具有关联关系,本公开实施例获取用户在历史时间段内访问业务所产生的访问特征数据,为预测用户在预测期再次访问业务的活跃状态奠定数据基础。
在步骤S202中,根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率,其中,活跃概率用于表征对象在预测时间段之前访问业务、并在预测时间段内再次访问业务的概率对象预测期对象业务。
具体地,预测期是历史时间段之后的一段时间,各个预测时间段为预测期内的各个时段,例如,历史时间段为5月1号至5月7号,预测期可以为5月7号至6月7号,而各个预测时间段可以为5月7号至6月7号中的每一天,而对象在历史时间段的访问特征数据与历史时间段之后的一段时间的访问行为之间具有关联关系,其中,访问业务的时间间隔可以用于描述是否是再次访问的访问行为。
可选地,在本公开的实施例示出的活跃状态的预测方法中,根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率包括:将访问特征数据输入至多任务神经网络模型进行分析,得到对象在预测期内的各个预测时间段的活跃概率,其中,多任务神经网络模型由以下训练数据进行训练得到:第一样本对象在第一历史预测期内访问业务的访问状态、第一样本对象在第一历史预测期内相邻两次访问业务的间隔时长、以及第一样本对象在第一历史预测期之前的访问特征数据,其中,访问状态用于表示第一样本对象是否发生再次访问业务的行为。
具体地,可以采用训练数据对多任务神经网络进行训练,得到可以表征访问特征数据与对象访问业务的时间间隔之间的关联关系的多任务神经网络模型,同时,由于访问时间间隔与用户再次访问业务的概率之间具有转换关系,可以采用训练得到的多任务残差神经网络模型对用户的访问特征数据进行分析,分析得到用户预测期内各个预测时间段再次访问业务的概率,也即活跃概率,例如,输入用户在5月1号至5月7号的访问特征数据,通过多任务神经网络模型的处理,输出用户在5月7号至6月7号中的每一天再次访问业务的概率。
可选地,多任务神经网络模型可以为多任务残差神经网络模型,如图3所示,多任务残差神经网络模包含多层全连接层。一方面,由于中间连接层越多残差越大,本实施例的多任务残差神经网络模型进行两次输入,从而减小残差,实现全连接层的纠偏。另一方面,为了提高模型预测的准确度,本实施例重新定义了损失函数,具体地,损失函数定义如下:
L2=∑i≠jAi,j*η(F(si|xi),F(si|xj))
Total loss=α*L1+β*L2
Total loss表示损失函数,L1表示风险率,L2表示一致性损失,α和β为控制L1和L2权重的超参数,根据实际情况自行设定。
N表示用户的个数;I(·)为指示函数(indicate function),满足括号内条件取1,反之取0;eventi表示i用户的访问事件,1代表访问,0代表没有访问;i表示i用户,yi表示i用户每天访问的概率,si表示i用户活跃时长,即活跃时间间隔天数,xi表示i用户的访问特征数据数据,表示i用户在第1到s天访问的概率的总和,表示i用户在第m天访问的概率;j表示j用户,xj表示j用户的访问特征,表示j用户在第1到s天(与用户i相同的第1到s天)访问的概率的总和,表示j用户在第m天访问的概率;sj表示j用户活跃时长,即活跃时间间隔天数,Ai,j=I(si<sj),在i用户活跃时间间隔天数大于j用户取活跃时间间隔天数取1,反之取0,表示指示平滑处理,σ为函数超参数,上述各超参数视具体业务而定。
由上述可知,损失函数由风险率hazard ratio和一致性损失concordance loss两个部分组成,与相关技术中的深度学习生存网络相比,既不需要回归中的残差正态分布假设,也不需要普通生存分析coxPH回归中的baseline hazard(基线风险)假设,本公开实施例增加了concordance loss(一致性损失)部分,达到了提升模型预测的准确度的效果,相比相关技术来说,本公开实施例更为简单高效。
具体地,在对多任务残差神经网络模型进行训练时,首先对用户进行抽样,得到多个第一样本对象,从历史日志中获取多个第一样本的访问活跃数据,至少包括第一样本对象在第一历史预测期内访问业务的访问状态、第一样本对象在第一历史预测期内相邻两次访问业务的间隔时长、以及第一样本对象在第一历史预测期之前的访问特征数据,并根据第一样本的访问活跃数据进行模型的训练,训练数据形式如下:
其中,用户ID用于区分不同的对象,也即不同的用户。事件发生表示用户在第一历史预测期是否活跃,也即是否再次访问业务,活跃为1,不活跃则为0,例如,第一历史预测期为30天,若用户在30天内访问业务的次数达2次以上,则访问事件发生对应的数组为1,若用户访问次数小于2次,则访问事件发生对应的数组为0。事件再次发生的间隔时长表示用户在第一历史预测期再次活跃的间隔时长,具体地,可以取值为第一历史预测期内前两次访问的间隔时长。特征数据表示第一历史预测期之前的预设时间段内的用户属性、用户画像和用户行为等访问特征数据,需要说明的是,该预设时间段的长度与获取对象的访问特征数据的历史时间段的长度相同。
在训练好神经网络模型之后,保存模型参数,在训练好的神经网络模型输入对象的访问特征数据X,输入数据形式如下:
其中,用户ID为对象的ID,也即,待预测用户的ID,特征数据表示历史时间段内对象的访问特征数据。
将对象的访问特征数据X输入多任务残差神经网络模型,进行各个全连接层的处理,每层全连接层进行特征提取以及小批量输出,最终输出了对象在预测期内每个预测时间段的活跃概率。同时,使用softmax作为最后一步激活函数,保证多输出的加和等于1,具体地,输出:y1…yn,其中n为预测期内再次活跃间隔的预测时间段的个数,例如,1代表再次活跃间隔1个预测时间段,也可以表示预测时间段的序列号为1,y1代表对象在第一预测时间段的活跃概率;2代表再次活跃间隔2个预测时间段,也可以表示预测时间段的序列号为2,y2代表对象在第二预测时间段的活跃概率;n代表再次活跃间隔n个预测时间段,也可以表示预测时间段的序列号为n,yn代表对象在第n预测时间段的活跃概率。各个预测时间段的活跃概率输出前进行了归一化,y1…yn的加和等于1。
需要说明的是,本公开实施例中的多任务神经网络模型,可以基于历史时间段内的用户的访问特征数据,输出未来预测期内该用户在各个预测时间段再次访问业务的概率,而非输出对象未来是否活跃的概率,也即,模型输出的是一个有具体物理意义且易于理解的用户活跃度指标数据,可以与业务相结合,为后续业务的优化和推荐策略优化奠定数据基础,例如,预测用户在各个预测时间段再次访问业务的概率,在再次访问的概率低的预测时间段,进行业务内容的优化,并采用发消息通知等方式,提醒用户访问业务,提高用户持续关注度,防止用户流失。
在步骤S203中,基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值,其中,活跃预测时间段为对象再次访问业务的预测时间段。
具体地,确定对象在预测期内的活跃预测时间段的个数期望值,即为预测对象在预测期内的活跃次数,例如,预测期包含3个预测时间段,用户在第一预测时间段内访问了2次,表示用户在首次访问后进行了再次访问,也即在第一预测时间段活跃;用户在第二预测时间段访问了5次,也即在第二预测时间段活跃;用户在第三预测时间段未访问,表示在第三预测时间段不活跃。综上所述,用户在预测期内的活跃预测时间段的个数期望值为2,即为预测对象在预测期内的活跃次数为2。
可以基于对象在各个预测时间段的活跃概率生成与生存曲线形式相似的曲线,需要说明的是,该曲线不再表征生物体的死亡与存活情况,而是表征对象访问业务的活跃情况,曲线上的每个预测时间段对应的纵坐标值,表征用户在每个预测点之后再次访问业务的概率。
进一步的,根据得到的曲线确定用户在预测期内活跃次数的期望值,例如,在预测时间段是以天为单位的时间段时,对象在预测期内的活跃预测时间段的个数期望值,即为对象在预测期内的活跃次数的个数期望值,例如,预测期包含3天,用户在第一天内访问了2次,表示用户在第一天首次访问后进行了再次访问,也即在第一天活跃,用户在第二天访问了5次,也即在第二天活跃,用户在第三天未访问,表示在第三天不活跃,综上所述,用户在预测期内的活跃天数期望值为2,即为预测对象在预测期内的活跃次数为2。应当说明的是,活跃预测时间段表示用户活跃的预测时间段,例如,当某一个预测时间段中用户为活跃时,表示该预测时间段为活跃预测时间段。
在步骤S204中,比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,其中,第一阈值用于表征预测期内的活跃预测时间段的个数阈值。
可选地,在本公开的实施例示出的活跃状态的预测方法中,根据比较结果确定对象在预测期内的活跃状态包括:在比较结果指示活跃预测时间段的个数期望值大于或等于第一阈值时,确定对象处于活跃状态;在比较结果指示活跃预测时间段的个数期望值小于第一阈值时,确定对象处于非活跃状态。
需要说明的是,第一阈值是用于评价对象的活跃状态的阈值,第一阈值与活跃预测时间段的个数期望值的物理含义相同,也即,第一阈值为预测期内的活跃预测时间段的个数阈值。
具体地,当活跃预测时间段的个数期望值大于或等于活跃预测时间段的个数阈值时,确定对象处于活跃状态;在活跃预测时间段的个数期望值小于活跃预测时间段的个数阈值时,确定对象处于非活跃状态。
进一步的,将对象的活跃状态的判断结果(也即对象的预测活跃状态)写入数据库,得到多个用户的预测活跃状态,读取目前每个用户的预测活跃状态,对于预测不活跃的用户,可以采用各种措施促进其活跃。
多任务残差神经网络模型输出的是对象在每个预测时间段的活跃概率,为了采用一个值描述对象的活跃度,可选地,在本公开的实施例示出的活跃状态的预测方法中,基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值包括:计算每个预测时间段的活跃概率与预测时间段之前的所有预测时间段的活跃概率之和,得到预测时间段的累积活跃概率;分别基于预测期内的各个预测时间段的累积活跃概率,计算在预测期内的各个预测时间段之后的预测时间段内对象再次访问业务的概率;以预测期内的各个预测时间段为横坐标,以对象在各个预测时间段之后的预测时间段内再次访问业务的概率为纵坐标,生成对象在预测期内的第一活跃曲线;根据第一活跃曲线,确定对象在预测期内的活跃预测时间段的个数期望值。
一个例子中,多任务残差神经网络模型输出的输出为:y1…yn,其中n为预测期内再次活跃间隔的预测时间段的个数,也即输出了对象在预测期内每个预测时间段的活跃概率,例如,1代表再次活跃间隔1个预测时间段,也可以表示预测时间段的序列号为1,y1代表对象在第一预测时间段的活跃概率,2代表再次活跃间隔2个预测时间段,也可以表示预测时间段的序列号为2,y2代表对象在第二预测时间段的活跃概率,n代表再次活跃间隔n个预测时间段,也可以表示预测时间段的序列号为n,yn代表对象在第n预测时间段的活跃概率。
各个预测时间段的活跃概率输出前进行了归一化,y1…yn的加和为1。
再对各个预测时间段及其之前的活跃概率进行累加,得到多个累积活跃概率,再分别用1减去各个预测时间段对应的累积活跃概率,得到各个预测时间段之后再次访问业务的概率,例如,预测期包括3个预测时间段,第一预测时间段的活跃概率为0.5,第二预测时间段的活跃概率为0.3,第三预测时间段的活跃概率为0.2,则第一预测时间段的累计活跃概率为0.5,1-0.5=0.5,在第一预测时间段之后再次访问业务的概率为0.5;第二预测时间段的活跃概率为0.3,则第二预测时间段的累计活跃概率为0.5+0.3=0.8,1-0.8=0.2,在第二预测时间段之后再次访问业务的概率为0.25;第三预测时间段的活跃概率为0.2,则第三预测时间段的累计活跃概率为1,1-1=0,在第三预测时间段之后再次访问业务的概率为0。
以预测期内的各个预测时间段为横坐标,以对象在各个预测时间段之后的预测时间段内再次访问业务的概率为纵坐标,绘制对象的第一活跃曲线,并根据第一活跃曲线确定对象在预测期内的活跃预测时间段的个数期望值。
通过本公开实施例,基于用户访问业务的事件发生(本公开实施例中事件发生是指用户再次活跃),绘制用户的第一活跃曲线,用户的第一活跃曲线由预测时间段内再次访问业务的概率构成,在提高预测的准确性的同时,由于预测得到的活跃度的数值有具体的物理意义,可以应用于活跃度的进一步处理,例如,应用于抑制用户流失以及提高用户活跃的频率的一系列实验中,累计提高用户留存1%,同时累计提高DAU0.6%。
可选地,在本公开的实施例示出的活跃状态的预测方法中,根据第一活跃曲线,确定对象在预测期内的活跃预测时间段的个数期望值包括:计算第一活跃曲线与第一活跃曲线对应的横坐标轴以及纵坐标轴围成的面积,得到目标数值,其中,目标数值表征对象在预测期内的不活跃预测时间段的个数期望值;计算预测期内包含的预测时间段的个数与目标数值的差值,得到对象在预测期内的活跃预测时间段的个数期望值。
例如,需要预测用户未来52天活跃的情况,用户的访问数据经过多任务残差神经网络模型的处理,得到52个输出值,表示用户未来52天每天再次访问的概率,对每天及该天之前每天的再次访问概率进行累加,可以估计得到用户每天的累积访问事件发生概率,再用1减去用户每天的累积访问事件发生概率,得到用户未来52天每天之后再次访问的概率,根据得到的数值即可绘制用户的第一活跃曲线。又例如,预测用户未来3天活跃的情况,第1天的活跃概率为0.5,第2天的活跃概率为0.3,第3天的活跃概率为0.2,则第1天累计活跃概率为0.5,1-0.5=0.5,在第1天之后再次访问业务的概率为0.5;第2天的活跃概率为0.3,则第2天的累计活跃概率为0.5+0.3=0.8,1-0.8=0.2,在第2天之后再次访问业务的概率为0.25;第3天的活跃概率为0.2,则第3天的累计活跃概率为1,1-1=0,在第3天之后再次访问业务的概率为0。
具体地,如图4所示,第一活跃曲线下方阴影部分的面积表示用户未来52天不活跃天数的期望,相反的,图4中剩余的非阴影部分的面积则是此用户未来52天活跃天数的期望,用于表示预测的用户活跃度。
因而,对用户的第一活跃曲线的时间维度积分,得到的数值表示用户在未来52天内不活跃的天数的期望,用52减去积分得到的数值,从而得到用户在52内活跃的天数的期望。
需要说明的是,在得到对象在预测期内预测时间段的个数期望值之后,需要根据预测时间段的个数期望值与预测时间段的个数阈值的比较结果判断对象的活跃状态,因而,确定合适的预测时间段的个数阈值是判断对象的活跃状态的关键。
可选地,在本公开的实施例示出的活跃状态的预测方法中,在比较活跃预测时间段的个数期望值与对象对应的第一阈值之前,该方法还包括:获取多个第二样本对象的活跃数据,其中,活跃数据包括第二样本对象在第二历史预测期内访问业务的访问状态、以及第二样本对象在第二历史预测预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示第二样本对象是否发生再次访问业务的行为;依据多个第二样本对象的活跃数据,生成第二历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示第二样本对象在第二历史预测期内各个预测时间段之后的预测时间段内再次访问业务的概率;从第二活跃曲线中选择目标点,并确定目标点对应的预测时间段之前的预测期时间段的个数;计算第二历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到第二历史预测期内的活跃预测时间段的个数期望值,并将第二历史预测期内的活跃预测时间段的个数期望值确定为第一阈值。
需要说明的是,在业务的运行过程中,产生的用户数据通过日志读入服务器,在获取用户数据时,通过连接服务器对应的数据库读以读取日志,即可得到用户数据。
还需要说明的是,基于用户访问应用程序的性质,借鉴医学领域当中的生存分析,将医学领域当中的事件发生(医学领域认为事件发生为病人死亡)替换为用户访问应用程序的事件发生(本公开实施例中事件发生是指用户再次活跃),从而绘制用户的第二活跃曲线,用户的第二活跃曲线由连续性概率构成,可以定性以及定量描述用户活跃度,也即,可以根据不同用户群体对应的第二活跃曲线,比较不同用户群体的活跃度,从而定性描述用户群体的用户活跃度,还可以在第二活跃度曲线上获取用户群体在各个预测时间段之后再次活跃的概率,从而定量描述用户群体的用户活跃度。
具体地,获取多个第二样本对象的活跃数据时,先读取数据库的各个第二样本对象的活跃日志,取得在第二历史预测期内第二样本对象的活跃数据,并将活跃数据转换为生存分析标准数据格式的数据:
用户ID | 事件发生 | 事件再次发生的间隔时长 |
其中,用户ID用于区分不同的用户;事件发生表示用户在第二历史预测期内是否活跃,也即在第二历史预测期内是否再次访问业务;事件再次发生的间隔时长表示在第二历史预测期内用户再次活跃的间隔时长。
获得第二历史预测期内第二样本对象的活跃数据后,依据多个第二样本对象的活跃数据,生成第二历史预测期内的第二活跃曲线。具体过程包括(1)-(3)。
(1)根据多个第二样本对象在第二历史预测期内访问业务的访问状态、以及多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长,计算多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量。其中,同一第二样本对象在同一预测时间段内的多次访问表征一次访问。
(2)根据多个第二样本对象在第二历史预测期内访问业务的访问状态、多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长、多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量,计算第二样本对象在第二历史预测期的各个预测时间段之后的预测时间段内再次访问业务的概率。
需要说明的是,本公开实施例将生存分析中KM生存曲线的绘制方式转用至第二活跃曲线的绘制上,具体地,在进行生存分析时,先获取多个人在每个时间段对应的存活人数、发生事件、以及删失人数,计算在生存分析观测期的第一时间段的存活率=当前时间存活人数/(当前时间存活人数+删失人数),对于之后的某个时间段(如生存分析观测期的第二时间段、第三时间段……直至生存分析观测期的最后一个时间段),存活率(也即累积生存率)=上一个时间点的存活率*(当前有多少人确实存活/当前时间有多少人可能还活着)=上一个时间点的存活率*(当前时间存活人数/(当前时间存活人数+删失人数))。
而在绘制第二历史预测期内的第二活跃曲线时,根据获取的多个第二样本对象在第二历史预测期内访问业务的访问状态(访问发生事件)和多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔(访问间隔),计算多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量。
将活跃数据转换为生存分析标准数据格式的数据,也即,多个第二样本对象的访问发生事件对应生存分析中的发生事件,多个第二样本对象的访问时间间隔对应生存分析中的时间段,多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数对应生存分析中的剩余人数,在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量对应生存分析中的删失人数,从而根据生存分析中的方法计算每个预测时间段的累积活跃概率。在得到每个预测时间段的累积活跃概率后,分别用1减去每个预测时间段的累积活跃概率,得到每个预测时间段之后的预测时间段内再次访问业务的概率。
(3)以第二历史预测期内的各个预测时间段为横坐标,以第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问业务的概率为纵坐标,生成第二样本对象在第二历史预测期内的第二活跃曲线。
需要说明的是,不同群体对应的第二活跃曲线不同,例如,将南方用户和北方用户作为两个不同的样本群体,如图5所示,基于两个不同的样本群体的用户活跃度数据,生成南北方用户30天内的第二活跃曲线,实线代表北方用户的第二活跃曲线,虚线代表南方用户的第二活跃曲线,2条第二活跃曲线的物理意义为30天内南北方用户在第x天后再次活跃的概率。根据图5可以获知,对于北方用户,5天之后再次活跃的概率为0.1,也即,5内之内再次活跃的概率为0.9,而对于南方用户,10天内再次活跃的概率才达到0.1,也即,北方用户比南方用户更加活跃。根据此结果,可以对两群用户进行不同的优化,例如对这两群用户在不同时间间隔推荐业务以促进用户活跃度。
因而,由于不同群体对应的第二活跃曲线不同,为了更准确的确定对象对应的第一阈值,选取的多个第二样本对象属性(例如,年龄、性别)与对象相同,第二历史预测期与预测期的时长相同。
第二活跃曲线可以定性及定量描述用户群体活跃度,也即,可以根据不同用户群体对应的第二活跃曲线,比较不同用户群体的活跃度,从而定性描述用户群体的用户活跃度,还可以在第二活跃度曲线上获取用户群体在各个预测时间段之后再次活跃的概率,从而定量描述用户群体的用户活跃度。此外,第二活跃曲线除还可以用于确定用户活跃度阈值。可选地,在本公开的实施例示出的活跃状态的预测方法中,获取第二活跃曲线中各个点与原点的距离值;从距离值中选择最小距离值,并将最小距离值对应的点作为目标点。然后根据第二活跃曲线上的目标点对应的横坐标或纵坐标的值确定用户活跃度阈值。需要说明的是,第二活跃曲线上离原点最近的点,也即曲线变化从下降最快到下降缓慢的交界点,因而,基于第二活跃曲线上距离原点最近的点确定用户活跃度阈值(第一阈值),得到的用户活跃度阈值可以准确评判用户的活跃状态。
例如,在预测时间段为天的情况下,活跃度期望值是活跃天数期望值,预测期的包含的总天数除以活跃的时间间隔即为活跃天数期望值,以图5为例,预测期为30天,对于北方用户对应的第二活跃曲线,将距离原点最近的点确定为目标点,目标点对应的横坐标为4天,平均间隔4天未再次访问业务的用户即可以看做不活跃用户,由于30天与4天的商为5,活跃天数期望值为5。而对于南方用户,将距离原点最近的点确定为目标点,目标点对应的横坐标为5天,平均间隔5天未再次访问业务的用户可以看做不活跃用户,由于30天与5天的商为4,活跃天数期望值为4。
本实施例计算第二历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到第二历史预测期内的活跃预测时间段的个数期望值,并将第二历史预测期内的活跃预测时间段的个数期望值确定为第一阈值。需要说明的是,相关技术中用户的活跃度阈值是人为确定的,为了设定的阈值的合理性,需要用户对业务有精准的把握,而本公开实施例确定用户活跃程度阈值,为依据数据科学地得到,无需用户对业务有精准的把握,降低了成本、且得到的活跃度阈值可以准确评判用户的活跃状态。
图6是根据一示例性实施例示出的一种活跃度阈值的确定的流程图,如图6所示,包括以下步骤。
在步骤S601中,获取多个样本对象的活跃数据,其中,活跃数据包括样本对象在历史预测期内访问业务的访问状态、以及样本对象在历史预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示样本对象是否发生再次访问业务的行为。
需要说明的是,在业务的运行过程中,产生的用户数据通过日志读入服务器,在获取用户数据时,通过连接服务器对应的数据库读以读取日志,即可得到用户数据。
还需要说明的是,基于用户访问应用程序的性质,借鉴医学领域当中的生存分析,将医学领域当中的事件发生(医学领域认为事件发生为病人死亡)替换为用户访问应用程序的事件发生(本公开实施例中事件发生是指用户再次活跃),从而绘制用户的第二活跃曲线,用户的第二活跃曲线由连续性概率构成,可以定性以及定量描述用户活跃度,也即,可以根据不同用户群体对应的第二活跃曲线,比较不同用户群体的活跃度,从而定性描述用户群体的用户活跃度,还可以在第二活跃度曲线上获取用户群体在各个预测时间段之后再次活跃的概率,从而定量描述用户群体的用户活跃度。
具体地,获取多个样本对象的活跃数据时,先读取数据库的各个样本对象的活跃日志,取得在历史预测期内样本对象的活跃数据,并将活跃数据转换为生存分析标准数据格式的数据:
用户ID | 事件发生 | 事件再次发生的间隔时长 |
其中,用户ID用于区分不同的用户;事件发生表示用户在历史预测期内是否活跃,也即在历史预测期内是否再次访问业务;事件再次发生的间隔时长表示在历史预测期内用户再次活跃的间隔时长。
在步骤S602中,依据多个样本对象的活跃数据,生成历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示多个样本对象在历史预测期内各个预测时间段之后的时间段内再次访问业务的概率。
获得历史预测期内样本对象的活跃数据后,依据多个样本对象的活跃数据,生成历史预测期内的第二活跃曲线。具体过程包括(1)-(3)。
(1)根据多个样本对象在历史预测期内访问业务的访问状态、以及多个样本对象在历史预测期内相邻两次访问业务的间隔时长,计算多个样本对象在历史预测期的各个预测时间段内的访问次数、以及在历史预测期的每个预测时间段之后未访问业务的样本对象的数量。其中,同一样本对象在同一预测时间段内的多次访问表征一次访问。
需要说明的是,本公开实施例将生存分析中KM生存曲线的绘制方式转用至第二活跃曲线的绘制上,具体地,在进行生存分析时,先获取多个人在每个时间段对应的存活人数、发生事件、以及删失人数,计算在生存分析观测期的第一时间段的存活率=当前时间存活人数/(当前时间存活人数+删失人数),对于之后的某个时间段(如生存分析观测期的第二时间段、第三时间段……直至生存分析观测期的最后一个时间段),存活率(也即累积生存率)=上一个时间点的存活率*(当前有多少人确实存活/当前时间有多少人可能还活着)=上一个时间点的存活率*(当前时间存活人数/(当前时间存活人数+删失人数))。
而在绘制历史预测期内的第二活跃曲线时,根据获取的多个样本对象在历史预测期内访问业务的访问状态(访问发生事件)和多个样本对象在历史预测期内相邻两次访问业务的间隔(访问间隔),计算多个样本对象在历史预测期的各个预测时间段内的访问次数、以及在历史预测期的每个预测时间段之后未访问业务的样本对象的数量。
(2)根据多个样本对象在历史预测期内访问业务的访问状态、多个样本对象在历史预测期内相邻两次访问业务的间隔时长、多个样本对象在历史预测期的各个预测时间段内的访问次数、以及在历史预测期的每个预测时间段之后未访问业务的样本对象的数量,计算样本对象在历史预测期的各个预测时间段之后的预测时间段内再次访问业务的概率。
将活跃数据转换为生存分析标准数据格式的数据,也即,多个样本对象的访问发生事件对应生存分析中的发生事件,多个样本对象的访问时间间隔对应生存分析中的时间段,多个样本对象在历史预测期的各个预测时间段内的访问次数对应生存分析中的剩余人数,在历史预测期的每个预测时间段之后未访问业务的样本对象的数量对应生存分析中的删失人数,从而根据生存分析中的方法计算每个预测时间段的累积活跃概率。在得到每个预测时间段的累积活跃概率后,分别用1减去每个预测时间段的累积活跃概率,得到每个预测时间段之后的预测时间段内再次访问业务的概率。
(3)以历史预测期内的各个预测时间段为横坐标,以样本对象在历史预测期的各个预测时间段之后的时间段内再次访问业务的概率为纵坐标,生成样本对象在历史预测期内的第二活跃曲线。
在步骤S603中,从第二活跃曲线中选择目标点,并基于目标点对应的预测时间段确定活跃度阈值,其中,活跃度阈值用于确定用户活跃度状态。
第二活跃曲线除了可以定性及定量描述用户群体活跃度,除还可以用于确定用户活跃度阈值可选地,在本公开的实施例示出的活跃度阈值的确定方法中,在活跃度阈值表征目标预测期内的活跃预测时间段的个数的阈值的情况下,基于目标点对应的预测时间段确定活跃度阈值包括:确定在历史预测期内,目标点对应的预测时间段之前的预测时间段的个数;计算历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到活跃度阈值。
需要说明的是,第二活跃曲线上离原点最近的点,也即曲线变化从下降最快到下降缓慢的交界点,因而,基于第二活跃曲线上距离原点最近的点确定用户活跃度阈值(第一阈值),得到的用户活跃度阈值可以准确评判用户的活跃状态。
具体地,例如,在预测时间段为天的情况下,活跃度期望值是活跃天数期望值,预测期的包含的总天数除以活跃的时间间隔即为活跃天数期望值。
通过本公开实施例可知,相关技术中用户的活跃度阈值是人为确定的,为了设定的阈值的合理性,需要用户对业务有精准的把握,而本公开实施例确定用户活跃程度阈值,为依据数据科学地得到,无需用户对业务有精准的把握,降低了成本、且得到的活跃度阈值可以准确评判用户的活跃状态。
图7是根据一示例性实施例示出的一种户活跃状态的预测装置框图。参照图7,该装置包括:第一获取单元71、分析单元72、第一确定单元73和比较单元74。
具体地,第一获取单元71,被配置为获取对象在历史时间段内访问业务所产生的访问特征数据。
分析单元72,被配置为根据访问特征数据与对象访问业务的时间间隔之间的关联关系,确定对象在预测期内的各个预测时间段的活跃概率,其中,活跃概率用于表征对象在预测时间段之前访问业务、并在预测时间段内再次访问业务的概率。
第一确定单元73,被配置为基于对象在预测期内的各个预测时间段的活跃概率,确定对象在预测期内的活跃预测时间段的个数期望值,其中,活跃预测时间段为对象再次访问业务的预测时间段。
比较单元74,被配置为比较活跃预测时间段的个数期望值与对象对应的第一阈值,并根据比较结果确定对象在预测期内的活跃状态,其中,第一阈值用于表征预测期内的活跃预测时间段的个数阈值。
在本公开的实施例示出的活跃状态的预测装置中,分析单元72包括:分析模块,被配置为将访问特征数据输入至多任务神经网络模型进行分析,得到对象在预测期内的各个预测时间段的活跃概率,其中,多任务神经网络模型由以下训练数据进行训练得到:第一样本对象在第一历史预测期内访问业务的访问状态、第一样本对象在第一历史预测期内相邻两次访问业务的间隔时长、以及第一样本对象在第一历史预测期之前的访问特征数据,其中,访问状态用于表示第一样本对象是否发生再次访问业务的行为。
在本公开的实施例示出的活跃状态的预测装置中,第一确定单元73包括:第一计算模块,被配置为计算每个预测时间段的活跃概率与预测时间段之前的所有预测时间段的活跃概率之和,得到预测时间段的累积活跃概率;第二计算模块,被配置为分别基于预测期内的各个预测时间段的累积活跃概率,计算在预测期内的各个预测时间段之后的预测时间段内对象再次访问业务的概率;第一曲线生成模块,被配置为以预测期内的各个预测时间段为横坐标,以对象在各个预测时间段之后的预测时间段内再次访问业务的概率为纵坐标,生成对象在预测期内的第一活跃曲线;第一确定模块,被配置为根据第一活跃曲线,确定对象在预测期内的活跃预测时间段的个数期望值。
在本公开的实施例示出的活跃状态的预测装置中,第一确定模块包括:第一计算子模块,被配置为计算第一活跃曲线与第一活跃曲线对应的横坐标轴以及纵坐标轴围成的面积,得到目标数值,其中,目标数值表征对象在预测期内的不活跃预测时间段的个数期望值;第二计算子模块,被配置为计算预测期内包含的预测时间段的个数与目标值的差值,得到对象在预测期内的活跃预测时间段的个数期望值。
在本公开的实施例示出的活跃状态的预测装置中,比较单元74包括:第二确定模块,被配置为在比较结果指示活跃预测时间段的个数期望值大于或等于第一阈值时,确定对象处于活跃状态;第三确定模块,被配置为在比较结果指示活跃预测时间段的个数期望值小于第一阈值时,确定对象处于非活跃状态。
在本公开的实施例示出的活跃状态的预测装置中,该装置还包括:第二获取单元,被配置为在比较活跃预测时间段的个数期望值与对象对应的第一阈值之前,获取多个第二样本对象的活跃数据,其中,活跃数据包括第二样本对象在第二历史预测期内访问业务的访问状态、以及第二样本对象在第二历史预测预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示第二样本对象是否发生再次访问业务的行为;第一曲线生成单元,被配置为依据多个第二样本对象的活跃数据,生成第二历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示第二样本对象在第二历史预测期内各个预测时间段之后的预测时间段内再次访问业务的概率;第二确定单元,被配置为从第二活跃曲线中选择目标点,并确定目标点对应的预测时间段之前的预测期时间段的个数;计算单元,被配置为计算第二历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到第二历史预测期内的活跃预测时间段的个数期望值,并将第二历史预测期内的活跃预测时间段的个数期望值确定为第一阈值。
在本公开的实施例示出的活跃状态的预测装置中,第一曲线生成单元包括:第三计算模块,被配置为根据多个第二样本对象在第二历史预测期内访问业务的访问状态、以及多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长,计算多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量,其中,同一第二样本对象在同一预测时间段内的多次访问行为表征一次访问;第四计算模块,被配置为根据多个第二样本对象在第二历史预测期内访问业务的访问状态、多个第二样本对象在第二历史预测期内相邻两次访问业务的间隔时长、多个第二样本对象在第二历史预测期的各个预测时间段内的访问次数、以及在第二历史预测期的每个预测时间段之后未访问业务的第二样本对象的数量,计算第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问业务的概率;第二曲线生成模块,被配置为以第二历史预测期内的各个预测时间段为横坐标,以第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问业务的概率为纵坐标,生成第二样本对象在第二历史预测期内的第二活跃曲线。
在本公开的实施例示出的活跃状态的预测装置中,第二确定单元包括:获取模块,被配置为获取第二活跃曲线中各个点与原点的距离值;第四确定模块,被配置为从距离值中选择最小距离值,并将最小距离值对应的点作为目标点。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种活跃度阈值的确定装置框图。参照图8,该装置包括:第三获取单元81、第二曲线生成单元82和选择单元83。
具体地,第三获取单元81,被配置为获取多个样本对象的活跃数据,其中,活跃数据包括样本对象在历史预测期内访问业务的访问状态、以及样本对象在历史预测期内相邻两次访问业务的间隔时长,其中,访问状态用于表示样本对象是否发生再次访问业务的行为。
第二曲线生成单元82,被配置为依据多个样本对象的活跃数据,生成历史预测期内的第二活跃曲线,其中,第二活跃曲线用于表示多个样本对象在历史预测期内各个预测时间段之后的时间段内再次访问业务的概率。
第三确定单元83,被配置为从第二活跃曲线中选择目标点,并基于目标点对应的预测时间段确定活跃度阈值,其中,活跃度阈值用于确定用户活跃度状态。
在本公开的实施例示出的活跃度阈值的确定装置中,第三确定单元83包括:第五确定模块,被配置为在活跃度阈值表征目标预测期内的活跃预测时间段的个数的阈值的情况下,确定在历史预测期内,目标点对应的预测时间段之前的预测时间段的个数;第五计算模块,被配置为计算历史预测期包含的预测时间段的个数与目标点对应的预测时间段之前的预测期时间段的个数的商,得到活跃度阈值。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
在示例性实施例中,还提供了一种用户活跃状态的确定装置/电子设备/服务器,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为执行指令,以实现上述任一项的活跃状态的预测方法以及活跃度阈值的确定方法。
在示例性实施例中,还提供了一种计算机可读存储介质,当存储介质中的指令由信息处理方法的电子设备的处理器执行时,使得信息处理方法的电子设备能够执行上述任一项的活跃状态的预测方法以及活跃度阈值的确定方法。可选地,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化上述任一项所述的活跃状态的预测方法以及活跃度阈值的确定方法的程序。该计算机产品可以是一种终端,该终端可以是计算机终端群中的任意一个计算机终端设备。可选地,在本公开实施例中,上述终端也可以为移动终端等终端设备。
可选地,在本公开实施例中,上述终端可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,图9是根据一示例性实施例示出的一种终端的结构框图。如图9所示,该终端可以包括:一个或多个(图中仅示出一个)处理器91、用于存储处理器可执行指令的存储器93;其中,处理器被配置为执行指令,以实现上述任一项的活跃状态的预测方法以及活跃度阈值的确定方法。
其中,存储器可用于存储软件程序以及模块,如本公开实施例中的活跃状态的预测方法以及活跃度阈值的确定方法和装置对应的程序指令/模块,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的活跃状态的预测方法以及活跃度阈值的确定方法。存储器可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本领域普通技术人员可以理解,图9所示的结构仅为示意,计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices,MID)、PAD等终端设备。图9其并不对上述电子装置的结构造成限定。例如,终端10还可包括比图9中所示更多或者更少的组件(如网络接口、显示装置等),或者具有与图9所示不同的配置。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。
Claims (20)
1.一种活跃状态的预测方法,其特征在于,包括:
获取对象在历史时间段内访问业务所产生的访问特征数据;
根据所述访问特征数据与所述对象访问所述业务的时间间隔之间的关联关系,确定所述对象在预测期内的各个预测时间段的活跃概率,其中,所述活跃概率用于表征所述对象在所述预测时间段之前访问所述业务、并在所述预测时间段内再次访问所述业务的概率,所述预测期是历史时间段之后的一段时间;
基于所述对象在所述预测期内的各个预测时间段的活跃概率,确定所述对象在所述预测期内的活跃预测时间段的个数期望值,其中,所述活跃预测时间段为所述对象再次访问所述业务的预测时间段;
比较所述活跃预测时间段的个数期望值与所述对象对应的第一阈值,并根据比较结果确定所述对象在所述预测期内的活跃状态,其中,所述第一阈值用于表征所述预测期内的所述活跃预测时间段的个数阈值;
其中,基于所述对象在所述预测期内的各个预测时间段的活跃概率,确定所述对象在所述预测期内的活跃预测时间段的个数期望值包括:计算每个预测时间段的活跃概率与所述预测时间段之前的所有预测时间段的活跃概率之和,得到所述预测时间段的累积活跃概率;分别基于所述预测期内的各个预测时间段的累积活跃概率,计算在所述预测期内的每个预测时间段之后的预测时间段内所述对象再次访问所述业务的概率,其中,用1减去各个预测时间段对应的累积活跃概率,得到各个预测时间段之后再次访问业务的概率;以所述预测期内的各个预测时间段为横坐标,以所述对象在所述每个预测时间段之后的预测时间段内再次访问所述业务的概率为纵坐标,生成所述对象在所述预测期内的第一活跃曲线;根据所述第一活跃曲线,确定所述对象在所述预测期内的所述活跃预测时间段的个数期望值。
2.根据权利要求1所述的活跃状态的预测方法,其特征在于,根据所述访问特征数据与所述对象访问所述业务的时间间隔之间的关联关系,确定所述对象在预测期内的各个预测时间段的活跃概率包括:
将所述访问特征数据输入至多任务神经网络模型进行分析,得到所述对象在所述预测期内的各个预测时间段的所述活跃概率,其中,所述多任务神经网络模型由以下训练数据进行训练得到:第一样本对象在第一历史预测期内访问所述业务的访问状态、所述第一样本对象在所述第一历史预测期内相邻两次访问所述业务的间隔时长、以及所述第一样本对象在所述第一历史预测期之前的访问特征数据,其中,所述访问状态用于表示所述第一样本对象是否发生再次访问所述业务的行为。
3.根据权利要求1所述的活跃状态的预测方法,其特征在于,根据所述第一活跃曲线,确定所述对象在所述预测期内的所述活跃预测时间段的个数期望值包括:
计算所述第一活跃曲线与所述第一活跃曲线对应的横坐标轴以及纵坐标轴围成的面积,得到目标数值,其中,所述目标数值表征所述对象在所述预测期内的不活跃预测时间段的个数期望值;
计算所述预测期内包含的预测时间段的个数与所述目标数值的差值,得到所述对象在所述预测期内的所述活跃预测时间段的个数期望值。
4.根据权利要求2所述的方法,其特征在于,根据比较结果确定所述对象在所述预测期内的活跃状态包括:
在所述比较结果指示所述活跃预测时间段的个数期望值大于或等于所述第一阈值时,确定所述对象处于活跃状态;
在所述比较结果指示所述活跃预测时间段的个数期望值小于所述第一阈值时,确定所述对象处于非活跃状态。
5.根据权利要求1所述的活跃状态的预测方法,其特征在于,在比较所述活跃预测时间段的个数期望值与所述对象对应的第一阈值之前,所述方法还包括:
获取多个第二样本对象的活跃数据,其中,所述活跃数据包括所述第二样本对象在第二历史预测期内访问所述业务的访问状态、以及所述第二样本对象在所述第二历史预测预测期内相邻两次访问所述业务的间隔时长,其中,所述访问状态用于表示所述第二样本对象是否发生再次访问所述业务的行为;
依据所述多个第二样本对象的活跃数据,生成所述第二历史预测期内的第二活跃曲线,其中,所述第二活跃曲线用于表示所述第二样本对象在所述第二历史预测期内各个预测时间段之后的预测时间段内再次访问所述业务的概率;
从所述第二活跃曲线中选择目标点,并确定所述目标点对应的预测时间段之前的预测期时间段的个数;
计算所述第二历史预测期包含的预测时间段的个数与所述目标点对应的预测时间段之前的预测期时间段的个数的商,得到所述第二历史预测期内的所述活跃预测时间段的个数期望值,并将所述第二历史预测期内的所述活跃预测时间段的个数期望值确定为所述第一阈值。
6.根据权利要求5所述的活跃状态的预测方法,其特征在于,依据所述多个第二样本对象的活跃数据,生成所述第二历史预测期内的第二活跃曲线包括:
根据所述多个第二样本对象在第二历史预测期内访问所述业务的访问状态、以及所述多个第二样本对象在所述第二历史预测期内相邻两次访问所述业务的间隔时长,计算所述多个第二样本对象在所述第二历史预测期的各个预测时间段内的访问次数、以及在所述第二历史预测期的每个预测时间段之后未访问所述业务的所述第二样本对象的数量,其中,同一所述第二样本对象在同一预测时间段内的多次访问行为表征一次访问;
根据所述多个第二样本对象在第二历史预测期内访问所述业务的访问状态、所述多个第二样本对象在所述第二历史预测期内相邻两次访问所述业务的间隔时长、所述多个第二样本对象在所述第二历史预测期的各个预测时间段内的访问次数、以及在所述第二历史预测期的每个预测时间段之后未访问所述业务的所述第二样本对象的数量,计算所述第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率;
以所述第二历史预测期内的各个预测时间段为横坐标,以所述第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率为纵坐标,生成所述第二样本对象在所述第二历史预测期内的第二活跃曲线。
7.根据权利要求5所述的活跃状态的预测方法,其特征在于,从所述第二活跃曲线中选择目标点包括:
获取所述第二活跃曲线中各个点与原点的距离值;
从所述距离值中选择最小距离值,并将最小距离值对应的点作为所述目标点。
8.一种活跃度阈值的确定方法,其特征在于,包括:
获取多个样本对象的活跃数据,其中,所述活跃数据包括所述样本对象在历史预测期内访问业务的访问状态、以及所述样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长,其中,所述访问状态用于表示所述样本对象是否发生再次访问所述业务的行为;
依据所述多个样本对象的活跃数据,生成所述历史预测期内的第二活跃曲线,其中,所述第二活跃曲线用于表示多个所述样本对象在所述历史预测期内各个预测时间段之后的时间段内再次访问所述业务的概率;
从所述第二活跃曲线中选择目标点,并基于所述目标点对应的预测时间段确定活跃度阈值,其中,所述活跃度阈值用于确定用户活跃度状态,所述目标点为所述第二活跃曲线上离原点最近的点;
其中,依据所述多个样本对象的活跃数据,生成所述历史预测期内的活跃曲线包括:根据所述多个样本对象在历史预测期内访问所述业务的访问状态、以及所述多个样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长,计算所述多个样本对象在所述历史预测期的各个预测时间段内的访问次数、以及在所述历史预测期的每个预测时间段之后未访问所述业务的所述样本对象的数量,其中,同一所述样本对象在同一预测时间段内的多次访问行为表征一次访问;根据所述多个样本对象在历史预测期内访问所述业务的访问状态、所述多个样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长、所述多个样本对象在所述历史预测期的各个预测时间段内的访问次数、以及在所述历史预测期的每个预测时间段之后未访问所述业务的所述样本对象的数量,计算所述样本对象在历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率;以所述历史预测期内的各个预测时间段为横坐标,以所述样本对象在历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率为纵坐标,生成所述样本对象在所述历史预测期内的活跃曲线。
9.根据权利要求8所述的活跃度阈值的确定方法,其特征在于,在所述活跃度阈值表征目标预测期内的活跃预测时间段的个数的阈值的情况下,基于所述目标点对应的预测时间段确定活跃度阈值包括:
确定在所述历史预测期内,所述目标点对应的预测时间段之前的预测时间段的个数;
计算所述历史预测期包含的预测时间段的个数与所述目标点对应的预测时间段之前的预测期时间段的个数的商,得到所述活跃度阈值。
10.一种活跃状态的预测装置,其特征在于,包括:
第一获取单元,被配置为获取对象在历史时间段内访问业务所产生的访问特征数据;
分析单元,被配置为根据所述访问特征数据与所述对象访问所述业务的时间间隔之间的关联关系,确定所述对象在预测期内的各个预测时间段的活跃概率,其中,所述活跃概率用于表征所述对象在所述预测时间段之前访问所述业务、并在所述预测时间段内再次访问所述业务的概率,所述预测期是历史时间段之后的一段时间;
第一确定单元,被配置为基于所述对象在所述预测期内的各个预测时间段的活跃概率,确定所述对象在所述预测期内的活跃预测时间段的个数期望值,其中,所述活跃预测时间段为所述对象再次访问所述业务的预测时间段;
比较单元,被配置为比较所述活跃预测时间段的个数期望值与所述对象对应的第一阈值,并根据比较结果确定所述对象在所述预测期内的活跃状态,其中,所述第一阈值用于表征所述预测期内的所述活跃预测时间段的个数阈值;
所述第一确定单元包括:第一计算模块,被配置为计算每个预测时间段的活跃概率与所述预测时间段之前的所有预测时间段的活跃概率之和,得到所述预测时间段的累积活跃概率;第二计算模块,被配置为分别基于所述预测期内的各个预测时间段的累积活跃概率,计算在所述预测期内的每个预测时间段之后的预测时间段内所述对象再次访问所述业务的概率,其中,用1减去每个预测时间段对应的累积活跃概率,得到每个预测时间段之后再次访问业务的概率;第一曲线生成模块,被配置为以所述预测期内的各个预测时间段为横坐标,以所述对象在所述每个预测时间段之后的预测时间段内再次访问所述业务的概率为纵坐标,生成所述对象在所述预测期内的第一活跃曲线;第一确定模块,被配置为根据所述第一活跃曲线,确定所述对象在所述预测期内的所述活跃预测时间段的个数期望值。
11.根据权利要求10所述的活跃状态的预测装置,其特征在于,所述分析单元包括:
分析模块,被配置为将所述访问特征数据输入至多任务神经网络模型进行分析,得到所述对象在所述预测期内的各个预测时间段的所述活跃概率,其中,所述多任务神经网络模型由以下训练数据进行训练得到:第一样本对象在第一历史预测期内访问所述业务的访问状态、所述第一样本对象在所述第一历史预测期内相邻两次访问所述业务的间隔时长、以及所述第一样本对象在所述第一历史预测期之前的访问特征数据,其中,所述访问状态用于表示所述第一样本对象是否发生再次访问所述业务的行为。
12.根据权利要求10所述的活跃状态的预测装置,其特征在于,所述第一确定模块包括:
第一计算子模块,被配置为计算所述第一活跃曲线与所述第一活跃曲线对应的横坐标轴以及纵坐标轴围成的面积,得到目标数值,其中,所述目标数值表征所述对象在所述预测期内的不活跃预测时间段的个数期望值;
第二计算子模块,被配置为计算所述预测期内包含的预测时间段的个数与所述目标数值的差值,得到所述对象在所述预测期内的所述活跃预测时间段的个数期望值。
13.根据权利要求11所述的装置,其特征在于,所述比较单元包括:
第二确定模块,被配置为在所述比较结果指示所述活跃预测时间段的个数期望值大于或等于所述第一阈值时,确定所述对象处于活跃状态;
第三确定模块,被配置为在所述比较结果指示所述活跃预测时间段的个数期望值小于所述第一阈值时,确定所述对象处于非活跃状态。
14.根据权利要求10所述的活跃状态的预测装置,其特征在于,所述装置还包括:
第二获取单元,被配置为在比较所述活跃预测时间段的个数期望值与所述对象对应的第一阈值之前,获取多个第二样本对象的活跃数据,其中,所述活跃数据包括所述第二样本对象在第二历史预测期内访问所述业务的访问状态、以及所述第二样本对象在所述第二历史预测预测期内相邻两次访问所述业务的间隔时长,其中,所述访问状态用于表示所述第二样本对象是否发生再次访问所述业务的行为;
第一曲线生成单元,被配置为依据所述多个第二样本对象的活跃数据,生成所述第二历史预测期内的第二活跃曲线,其中,所述第二活跃曲线用于表示所述第二样本对象在所述第二历史预测期内各个预测时间段之后的预测时间段内再次访问所述业务的概率;
第二确定单元,被配置为从所述第二活跃曲线中选择目标点,并确定所述目标点对应的预测时间段之前的预测期时间段的个数;
计算单元,被配置为计算所述第二历史预测期包含的预测时间段的个数与所述目标点对应的预测时间段之前的预测期时间段的个数的商,得到所述第二历史预测期内的所述活跃预测时间段的个数期望值,并将所述第二历史预测期内的所述活跃预测时间段的个数期望值确定为所述第一阈值。
15.根据权利要求14所述的活跃状态的预测装置,其特征在于,所述第一曲线生成单元包括:
第三计算模块,被配置为根据所述多个第二样本对象在第二历史预测期内访问所述业务的访问状态、以及所述多个第二样本对象在所述第二历史预测期内相邻两次访问所述业务的间隔时长,计算所述多个第二样本对象在所述第二历史预测期的各个预测时间段内的访问次数、以及在所述第二历史预测期的每个预测时间段之后未访问所述业务的所述第二样本对象的数量,其中,同一所述第二样本对象在同一预测时间段内的多次访问行为表征一次访问;
第四计算模块,被配置为根据所述多个第二样本对象在第二历史预测期内访问所述业务的访问状态、所述多个第二样本对象在所述第二历史预测期内相邻两次访问所述业务的间隔时长、所述多个第二样本对象在所述第二历史预测期的各个预测时间段内的访问次数、以及在所述第二历史预测期的每个预测时间段之后未访问所述业务的所述第二样本对象的数量,计算所述第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率;
第二曲线生成模块,被配置为以所述第二历史预测期内的各个预测时间段为横坐标,以所述第二样本对象在第二历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率为纵坐标,生成所述第二样本对象在所述第二历史预测期内的第二活跃曲线。
16.根据权利要求14所述的活跃状态的预测装置,其特征在于,所述第二确定单元包括:
获取模块,被配置为获取所述第二活跃曲线中各个点与原点的距离值;
第四确定模块,被配置为从所述距离值中选择最小距离值,并将最小距离值对应的点作为所述目标点。
17.一种活跃度阈值的确定装置,其特征在于,
第三获取单元,被配置为获取多个样本对象的活跃数据,其中,所述活跃数据包括所述样本对象在历史预测期内访问业务的访问状态、以及所述样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长,其中,所述访问状态用于表示所述样本对象是否发生再次访问所述业务的行为;
第二曲线生成单元,被配置为依据所述多个样本对象的活跃数据,生成所述历史预测期内的第二活跃曲线,其中,所述第二活跃曲线用于表示多个所述样本对象在所述历史预测期内各个预测时间段之后的时间段内再次访问所述业务的概率;
第三确定单元,被配置为从所述第二活跃曲线中选择目标点,并基于所述目标点对应的预测时间段确定活跃度阈值,其中,所述活跃度阈值用于确定用户活跃度状态,所述目标点为所述第二活跃曲线上离原点最近的点;
第二曲线生成单元还用于根据所述多个样本对象在历史预测期内访问所述业务的访问状态、以及所述多个样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长,计算所述多个样本对象在所述历史预测期的各个预测时间段内的访问次数、以及在所述历史预测期的每个预测时间段之后未访问所述业务的所述样本对象的数量,其中,同一所述样本对象在同一预测时间段内的多次访问行为表征一次访问;根据所述多个样本对象在历史预测期内访问所述业务的访问状态、所述多个样本对象在所述历史预测期内相邻两次访问所述业务的间隔时长、所述多个样本对象在所述历史预测期的各个预测时间段内的访问次数、以及在所述历史预测期的每个预测时间段之后未访问所述业务的所述样本对象的数量,计算所述样本对象在历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率;以所述历史预测期内的各个预测时间段为横坐标,以所述样本对象在历史预测期的各个预测时间段之后的时间段内再次访问所述业务的概率为纵坐标,生成所述样本对象在所述历史预测期内的活跃曲线。
18.根据权利要求17所述的活跃度阈值的确定装置,其特征在于,所述第三确定单元包括:
第五确定模块,被配置为在所述活跃度阈值表征目标预测期内的活跃预测时间段的个数的阈值的情况下,确定在所述历史预测期内,所述目标点对应的预测时间段之前的预测时间段的个数;
第五计算模块,被配置为计算所述历史预测期包含的预测时间段的个数与所述目标点对应的预测时间段之前的预测期时间段的个数的商,得到所述活跃度阈值。
19.一种活跃状态的预测装置/电子设备/服务器,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至7中任一项所述的活跃状态的预测方法,或如权利要求8至9中任一项所述的活跃度阈值的确定方法。
20.一种计算机可读存储介质,当所述计算机可读存储介质中的指令由缓存装置/电子设备/服务器的处理器执行时,使得活跃状态的预测方法的电子设备能够执行如权利要求1至7中任一项所述的活跃状态的预测方法,或如权利要求8至9中任一项所述的活跃度阈值的确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011523974.XA CN112633573B (zh) | 2020-12-21 | 2020-12-21 | 活跃状态的预测方法以及活跃度阈值的确定方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011523974.XA CN112633573B (zh) | 2020-12-21 | 2020-12-21 | 活跃状态的预测方法以及活跃度阈值的确定方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112633573A CN112633573A (zh) | 2021-04-09 |
CN112633573B true CN112633573B (zh) | 2022-04-01 |
Family
ID=75320564
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011523974.XA Active CN112633573B (zh) | 2020-12-21 | 2020-12-21 | 活跃状态的预测方法以及活跃度阈值的确定方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112633573B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113554350A (zh) * | 2021-08-16 | 2021-10-26 | 智慧足迹数据科技有限公司 | 活跃度评估方法、装置、电子设备及计算机可读存储介质 |
CN114170002A (zh) * | 2021-12-10 | 2022-03-11 | 深圳前海微众银行股份有限公司 | 一种访问频次的预测方法及装置 |
CN115599792B (zh) * | 2022-12-13 | 2023-03-10 | 深圳市润信数据技术有限公司 | 一种物联网大数据分类存储方法 |
CN115858719B (zh) * | 2023-02-21 | 2023-05-23 | 四川邕合科技有限公司 | 一种基于大数据分析的sim卡活跃度预测方法及系统 |
CN117667364B (zh) * | 2024-02-02 | 2024-04-09 | 广东信聚丰科技股份有限公司 | 应用程序的管控方法及用户设备 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103634349B (zh) * | 2012-08-24 | 2017-12-01 | 腾讯科技(深圳)有限公司 | 一种获取动态消息的方法和装置 |
CN105631538A (zh) * | 2015-12-23 | 2016-06-01 | 北京奇虎科技有限公司 | 一种用户活跃度的预测方法、装置及其应用方法和系统 |
CN107704997A (zh) * | 2017-09-12 | 2018-02-16 | 广东万丈金数信息技术股份有限公司 | 评估客户端活跃度的方法、装置及存储介质 |
CN109040218A (zh) * | 2018-07-25 | 2018-12-18 | 山东中创软件商用中间件股份有限公司 | 一种应用系统活跃度确定方法、装置、设备以及存储介质 |
CN109241133A (zh) * | 2018-08-14 | 2019-01-18 | 北京粉笔未来科技有限公司 | 数据监测方法、装置、计算设备及存储介质 |
CN111047338A (zh) * | 2018-10-12 | 2020-04-21 | 北大方正集团有限公司 | 用户活跃度预测方法、预测系统及介质 |
CN109711897A (zh) * | 2018-12-29 | 2019-05-03 | 贵州创鑫旅程网络技术有限公司 | 日活跃用户数量预测方法及装置 |
CN110147493B (zh) * | 2019-04-15 | 2023-07-21 | 中国平安人寿保险股份有限公司 | 活跃因子的确定方法、装置、计算机设备及存储介质 |
CN110298508A (zh) * | 2019-06-28 | 2019-10-01 | 京东数字科技控股有限公司 | 行为预测方法、装置及设备 |
CN110535944B (zh) * | 2019-08-29 | 2023-04-18 | 广州方硅信息技术有限公司 | 用户活跃数据处理的方法及装置 |
CN110740193A (zh) * | 2019-10-30 | 2020-01-31 | 江苏满运软件科技有限公司 | 一种平台活跃度的预测方法、装置、存储介质及电子设备 |
-
2020
- 2020-12-21 CN CN202011523974.XA patent/CN112633573B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN112633573A (zh) | 2021-04-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112633573B (zh) | 活跃状态的预测方法以及活跃度阈值的确定方法 | |
CN109190024A (zh) | 信息推荐方法、装置、计算机设备及存储介质 | |
CN107194743A (zh) | 一种网络调查问卷生成方法和装置 | |
CN103942136B (zh) | 日志统计策略配置方法和装置、日志统计方法和装置 | |
CN109461023B (zh) | 流失用户挽回方法及装置、电子设备、存储介质 | |
CN111611478B (zh) | 信息推荐方法、装置和电子设备 | |
CN109214585B (zh) | 用户消费预测方法、装置、电子设备及存储介质 | |
CN111372130B (zh) | 一种用户在线时长统计方法、装置、电子设备及存储介质 | |
CN110599240A (zh) | 应用的偏好值确定方法、装置和设备及存储介质 | |
CN114205690A (zh) | 流量预测、模型训练方法及装置、电子设备、存储介质 | |
CN110618867A (zh) | 一种预测资源使用量的方法和装置 | |
CN104699798A (zh) | 样本数据的处理方法和装置 | |
CN114201626B (zh) | 多媒体推荐方法、装置、电子设备及存储介质 | |
US20220172085A1 (en) | Methods and Systems to Account for Uncertainties from Missing Covariates in Generative Model Predictions | |
US20160253290A1 (en) | Post experiment power | |
CN109597948A (zh) | 访问url链接的方法、系统及存储介质 | |
CN112686690A (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN111985577A (zh) | 基于人工智能的客户价值标注方法、装置、设备及介质 | |
CN113780666B (zh) | 一种缺失值的预测方法及装置、可读存储介质 | |
CN109492890A (zh) | 用户体验量化评估值的测量方法、装置、计算机设备 | |
CN111353864B (zh) | 一种产品推荐方法、装置、服务器及存储介质 | |
CN110020166A (zh) | 一种数据分析方法及相关设备 | |
CN113850416A (zh) | 广告推广合作对象确定方法和装置 | |
CN109885504B (zh) | 推荐系统的测试方法、装置、介质及电子设备 | |
CN114662832A (zh) | 人口流动分析方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |