CN108510298B - 目标用户的识别方法及装置 - Google Patents

目标用户的识别方法及装置 Download PDF

Info

Publication number
CN108510298B
CN108510298B CN201710110942.9A CN201710110942A CN108510298B CN 108510298 B CN108510298 B CN 108510298B CN 201710110942 A CN201710110942 A CN 201710110942A CN 108510298 B CN108510298 B CN 108510298B
Authority
CN
China
Prior art keywords
user
behavior
behavior data
determining
active
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710110942.9A
Other languages
English (en)
Other versions
CN108510298A (zh
Inventor
孔健
杨建形
薛巍
徐靖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Priority to CN201710110942.9A priority Critical patent/CN108510298B/zh
Publication of CN108510298A publication Critical patent/CN108510298A/zh
Application granted granted Critical
Publication of CN108510298B publication Critical patent/CN108510298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及计算机技术领域,尤其涉及一种目标用户的识别方法及装置,在一种目标用户的识别方法中,搜集样本数据集合。根据行为数据,确定用户的行为偏离度。根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组。对每个行为数据分组,统计用户在预设的业务活跃周期内的活跃天数,并根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。根据获得的多个活跃频次,确定用户的行为衰减度以及长期活跃度。根据行为衰减度、长期活跃度、行为偏离度以及预设算法,获得用户的分数值。当分数值满足预设条件时,将用户识别为目标用户。由此,可以提高目标用户识别的及时性和准确性。

Description

目标用户的识别方法及装置
技术领域
本申请涉及计算机技术领域,尤其涉及一种目标用户的识别方法及装置。
背景技术
传统技术中,通常只基于某一行为特征数据来识别目标用户。如,在识别流失用户时,若某用户在动态X天内不再活跃,则将该用户识别为流失用户。然而,该方法具有严重的滞后性,也即在用户已经为目标用户的情况下,才能将该用户识别为目标用户,这种识别是没有意义的。此外,上述仅仅根据某一行为特征数据来识别目标用户往往不够准确。如,上述根据在动态X天内是否活跃来识别流失用户时,因为许多用户天然的活跃频次和周期就偏低和长,因此,上述在判断用户在动态X天内不再活跃,就将该用户识别为流失用户是不准确的。
发明内容
本申请描述了一种目标用户的识别方法及装置,可以提高目标用户识别的及时性和准确性。
第一方面,提供了一种目标用户的识别方法,包括:
搜集样本数据集合,所述样本数据集合包括用户的行为数据;
根据所述行为数据,确定所述用户的行为偏离度;
根据预设的业务活跃周期,将所述多个行为数据划分为多个行为数据分组;
对每个行为数据分组,统计所述用户在所述预设的业务活跃周期内的活跃天数,并根据所述活跃天数以及所述预设的业务活跃周期,获得所述用户的活跃频次;
根据获得的多个活跃频次,确定所述用户的行为衰减度以及长期活跃度;
根据所述行为衰减度、所述长期活跃度、所述行为偏离度以及预设算法,获得所述用户的分数值;
当所述分数值满足预设条件时,将所述用户识别为目标用户。
第二方面,提供了一种目标用户的识别装置,包括:
搜集单元,用于搜集样本数据集合,所述样本数据集合包括用户的行为数据;
确定单元,用于根据所述搜集单元搜集的所述行为数据,确定所述用户的行为偏离度;
划分单元,用于根据预设的业务活跃周期,将所述多个行为数据划分为多个行为数据分组;
统计单元,用于对所述划分单元划分的每个行为数据分组,统计所述用户在所述预设的业务活跃周期内的活跃天数,并根据所述活跃天数以及所述预设的业务活跃周期,获得所述用户的活跃频次;
所述确定单元,还用于根据获得的多个活跃频次,确定所述用户的行为衰减度以及长期活跃度;
获取单元,用于根据所述确定单元确定的所述行为衰减度、所述长期活跃度、所述行为偏离度以及预设算法,获得所述用户的分数值;
识别单元,用于当所述获取单元获得的所述分数值满足预设条件时,将所述用户识别为目标用户。
本申请提供的目标用户的识别方法及装置,搜集样本数据集合。根据行为数据,确定用户的行为偏离度。根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组。对每个行为数据分组,统计用户在预设的业务活跃周期内的活跃天数,并根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。根据获得的多个活跃频次,确定用户的行为衰减度以及长期活跃度。根据行为衰减度、长期活跃度、行为偏离度以及预设算法,获得用户的分数值。当分数值满足预设条件时,将用户识别为目标用户。由此,可以提高目标用户识别的及时性和准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本申请一种实施例提供的目标用户的识别方法流程图;
图2为本申请提供的确定用户的行为偏离度的方法流程图;
图3为本申请提供的用户的行为偏离度的示意图;
图4为本申请提供的获取表征用户的行为变化趋势的信息的方法流程图;
图5为本申请提供的用户的分数值的获取方法示意图;
图6为本申请一种实施例提供的目标用户的识别装置示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请实施例提供的目标用户的识别方法及装置适用于对目标用户进行识别的场景。如,适用于对支付宝系统中的流失用户进行识别的场景。其中,流失用户包括即将流失的用户和已经流失的用户两种类型。
图1为本申请一种实施例提供的目标用户的识别方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如图1所示,所述方法具体包括:
步骤110,搜集样本数据集合。
该样本数据集合包括用户的行为数据。在一种实现方式中,可以是针对某一类业务,来搜集用户的行为数据。当针对某一类业务,来搜集用户的行为数据时,用户的行为数据通常为一类的行为数据。如,均为登录行为数据或者支付行为数据。
以用户的登录行为数据为例来说,可以从分布式的海量数据处理平台(Open DataProcessing Service,ODPS)中搜集用户的登录行为数据,且搜集的登录行为数据可以为:××用户于2017年1月20日登录××APP;××用户于2017年1月23日登录××APP等等。
在一种实现方式中,可以搜集预设天数内的用户的行为数据。如,可以搜集30天内用户的登录行为数据。此处的预设天数可以根据经验值设定,如,还可以为60天或者90天等。
步骤120,根据行为数据,确定用户的行为偏离度。
在一种实现方式中,可以根据如图2所示的各步骤,来确定用户的行为偏离度。图2中,包括如下步骤:
步骤210,将行为数据划分为近期行为数据和远期行为数据。
举例来说,假设样本数据集合如表1所示。即样本数据集合中包括了用户A30天内的登录行为数据,且该登录行为数据中包括了用户的登录行为的发生时间。
表1
用户A于2017年1月3日登录××APP
用户A于2017年1月5日登录××APP
用户A于2017年1月8日登录××APP
用户A于2017年1月12日登录××APP
用户A于2017年1月19日登录××APP
用户A于2017年1月26日登录××APP
在一种实现方式中,可以将用户最近两次的行为数据作为近期行为数据,而将其它的行为数据作为远期行为数据。以表1为例来说,可以将前四行用户的行为数据划分为远期行为数据,而将后两行的行为数据划分为近期行为数据。
步骤220,根据远期行为数据,确定用户的相邻两次远期行为的时间间隔。
可以理解的是,当远期行为数据为多个时,确定的用户的相邻两次远期行为的时间间隔也为多个。以表1为例来说,用户的远期行为数据包括了前四行的用户的行为数据,也即用户A执行了四次远期登录行为,该四次登录行为的发生时间分别为:2017年1月3日、2017年1月5日、2017年1月8日以及2017年1月12日。从而可以确定出三个相邻两次远期行为的时间间隔,分别为:“2天”、“3天”和“4天”。
步骤230,根据近期行为数据,确定用户的相邻两次近期行为的时间间隔。
可以理解的是,当将用户最近两次的行为数据作为近期行为数据时,确定的相邻两次近期行为的时间间隔通常为1个。以表1为例来说,用户A的近期行为数据包括了后两行的用户的行为数据,也即用户A最近两次登录行为的发生时间分别为:2017年1月19日和2017年1月26日。从而可以确定出两个相邻两次近期行为的时间间隔为:7天。
步骤240,根据相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定用户的行为偏离度。
用户的近期行为和远期行为均是既定表现,而用户近期表现出来的行为往往与客观描述的值存在误差,这个误差的定量描述就是用户的行为偏离度。由于用户使用习惯的改变属于小概率事件,可以假定用户的行为偏离度符合高斯分布。在假定用户的行为偏离度符合高斯分布时,可以在一维空间中确定用户的行为偏离度。当在一维空间中确定用户的行为偏离度时,步骤240具体可以为:根据相邻两次远期行为的时间间隔,在一维空间中确定质点。计算相邻两次近期行为的时间间隔与质点的欧几里德距离。将欧几里德距离作为用户的行为偏离度。具体可以参见公式1。
Figure BDA0001234382170000061
其中,H(xi)为用户的行为偏离度,Diffxj为相邻两次近期行为的时间间隔。以表1为例来说,其为“7天”。
Figure BDA0001234382170000062
为一维空间中确定的质点。Diffxi为相邻两次远期行为的时间间隔,cntxi为该时间间隔出现的次数。以表1为例来说,Diffxi分别为“2天”、“3天”和“4天”,cntxi均为1。也即“2天”、“3天”和“4天”出现的次数均为1。∑cntxi为相邻两次远期行为的时间间隔的个数。以表1为例来说,其为3。即有3个相邻两次远期行为的时间间隔。
在一个例子中,用户的行为偏离度可以如图3所示。图3中,用户的行为偏离度比较大,通常理解为用户的近期行为出现了异常表现,给予高得分,预示着流失预期增强。
在确定用户的行为偏离度之后,可以回到图1中,图1中还包括:
步骤130,根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组。
可选地,预设的业务活跃周期可以通过如下各步骤来设定:
步骤a,根据行为数据,确定用户的相邻两次行为的时间间隔。
以样本集合如表1所示为例来说,可以确定出五个相邻两次行为的时间间隔,分别为:“2天”、“3天”、“4天”、“7天”以及“7天”。
步骤b,搜集其它用户的其它行为数据。
此处的其它行为数据与步骤110中的行为数据属于同类行为数据,如,均为登录行为数据或者支付行为数据。
步骤c,根据其它行为数据,确定其它用户的相邻两次行为的时间间隔。
举例来说,假设其它样本数据集合中包括了其它两个用户(用户B和用户C)在30天内的登录行为数据,且根据用户B的登录行为数据,可以确定出五个相邻两次行为的时间间隔,分别为:“3天”、“4天”、“7天”、“7天”以及“7天”。根据用户C的登录行为数据,可以确定出五个相邻两次行为的时间间隔,分别为:“3天”、“3天”、“3天”、“7天”以及“7天”。
步骤d,根据在预设时间段内,用户的相邻两次行为的时间间隔以及其它用户的相邻两次行为的时间间隔,确定预设的业务活跃周期。
在一种实现方式中,可以统计动态Y天内每一个时间间隔对应的累计值百分比(此处的累计值百分比是针对所有用户来统计的),并将接近90%分位数的累计值百分比对应的时间间隔作为预设的业务活跃周期。此处的Y天可以根据经验值设定,如,可以为15天或者30天。如前述例子,假设Y为30天,则可以得到如表2所示的内容。
表2
时间间隔 出现次数 累计次数 累计值百分比
2天 1次 1次 7%
3天 5次 6次 40%
4天 2次 8次 53%
7天 7次 15次 100%
表2中,出现次数是指当前时间间隔在用户A、用户B和用户C的相邻两次行为的时间间隔中出现的次数。以时间间隔“2天”为例来说,因为用户A的相邻两次行为的时间间隔为:“2天”、“3天”、“4天”、“7天”以及“7天”。用户B的相邻两次行为的时间间隔为:“3天”、“4天”、“7天”、“7天”以及“7天”。用户C的相邻两次行为的时间间隔为:“3天”、“3天”、“3天”、“7天”以及“7天”。所以,“2天”出现的次数为“1次”。同理,可以统计出其它时间间隔的出现次数。
此外,累计次数是第一个时间间隔至当前时间间隔对应的出现次数的累加和,如,“3天”对应的累计次数=“1次”+“5次”=“6次”。累计值百分比为当前时间间隔对应的累计次数与最后一个累计次数的百分比值。如,“2天”对应的累计值百分比=1/15=7%。
表2中,因为“7天”对应的“累计值百分比”与90%分为数接近,因此,将“7天”确定为预设的业务活跃周期。
当然,在实际应用中,也可以根据经验值来设定上述预设的业务活跃周期,本申请对此不作限定。
在确定预设的业务活跃周期之后,根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组的过程可以如下:
在一个例子中,行为数据分组的个数可以根据T/t确定,其中,T为步骤110中的预设天数,t为预设的业务活跃周期。以预设天数为30天,t为6天为例来说,可以将样本数据集合中的多个行为数据划分为30天/6天=5个行为数据分组。其中,第1个行为数据分组对应1-6天,第2个行为数据分组对应7-12天,以此类推,第5个行为数据分组对应25-30天。
以样本数据集合如表1所示为例来说,因为在1-6天内,用户A只在3日和5日登录××APP,因此,将前两个行为数据划分到第1个行为数据分组。同理,划分得到的5个行为数据分组可以如表3所示。表3中,每个行为数据分组中的行为数据可以根据登录行为的发生时间确定。
表3
Figure BDA0001234382170000081
表3中,第3个行为数据分组中没有包括任何的行为数据。
步骤140,对每个行为数据分组,统计用户在预设的业务活跃周期内的活跃天数,并根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。
以表3为例来说,对表3中的5个行为数据分组,用户在6天内的活跃天数分别为:2天、2天、0天、1天和1天。在统计到活跃天数之后,可以根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。在一个例子中,可以根据公式2获得活跃频次。
Figure BDA0001234382170000091
其中,xi为第i个行为数据分组,A(xi)为第i个行为数据分组对应的活跃频次,D(xi)为第i个行为数据分组对应的活跃天数,t为预设的业务活跃周期。如前述例子,i=1,2,…,5。也即可以获得5个活跃频次:A(x1),A(x2),…,A(x5),且
Figure BDA0001234382170000092
步骤150,根据获得的多个活跃频次,确定用户的行为衰减度以及长期活跃度。
在一种实现方式中,根据获得的多个活跃频次,确定用户的行为衰减度可以包括:根据多个活跃频次,获取表征用户的行为变化趋势的信息。根据表征用户的行为变化趋势的信息,确定用户的行为衰减度。其中,根据多个活跃频次,获取表征用户的行为变化趋势的信息的过程可以如图4所示,图4中,包括如下步骤:
步骤410,按照预设阈值,将多个活跃频次划分为多个活跃频次分组。
此处,可以将预设阈值表示为N。N可以根据经验值设定,如,可以为6天。在一种实现方式中,可以取长度为N的滑动窗口,来对多个活跃频次进行划分。举例来说,假设获得10个活跃频次:A(x1),A(x2),…,A(x10),则取长度为6天的滑动窗口时,可以确定5个滑动窗口。该5个滑动窗口分别为:1-6天,2-7天,3-8天,4-9天以及5-10天。根据上述确定的5个滑动窗口可以得到5个活跃频次分组。其中,第1个活跃频次分组为:A(x1),A(x2),…,A(x6)。第2个活跃频次分组为:A(x2),A(x3),…,A(x7)。第3个活跃频次分组为:A(x3),A(x4),…,A(x8)。第4个活跃频次分组为:A(x4),A(x5),…,A(x9)。第5个活跃频次分组为:A(x5),A(x6),…,A(x10)。可以理解的是,该5个活跃频次分组分别与上述5个滑动窗口相对应。此外,在取长度为6天的滑动窗口之后,可以将各个滑动窗口的末日期(如,6天,7天,8天,9天以及10天)作为各个活跃频次分组的日期。如,第1个活跃频次分组对应的日期为6天,第2个活跃频次分组对应的日期为7天;以此类推,第5个活跃频次分组对应的日期为10天。
步骤420,计算各个活跃频次分组的活跃频次平均值,得到多个活跃频次平均值。
以第1个活跃频次分组为例来说,其对应的活跃频次平均值=(A(x1)+A(x2)+,…,+A(x6))/6。根据第1个活跃频次分组的活跃平均值的计算方法,可以计算得到其它4个活跃频次分组的活跃平均值。从而可以得到5个活跃频次平均值:
Figure BDA0001234382170000101
以及
Figure BDA0001234382170000102
需要说明的是,该5个活跃频次平均值可以作为用户的行为的趋势变化度量。
步骤430,从多个活跃频次平均值中选取最大平均值以及当前日期所对应的活跃频次分组的当前平均值。
上述最大平均值可以称为最高点。此处的当前日期可以是指最近一个滑动窗口的末日期,如前述例子中,最近一个滑动窗口为5-10天,因此当前日期为10天。此外,由于最近一个滑动窗口与第5个活跃频次分组相对应,所以当前日期所对应的活跃频次分组的当前平均值为
Figure BDA0001234382170000103
步骤440,根据最大平均值、最大平均值对应的日期、当前平均值以及当前日期,获取表征用户的行为变化趋势的信息。
此处,最大平均值对应的日期即为最大平均值所对应活跃频次分组对应的日期。
在一种实现方式中,可以根据公式3来获取表征用户的行为变化趋势的信息。
Figure BDA0001234382170000111
其中,Desc(xi)为表征用户的行为变化趋势的信息,
Figure BDA0001234382170000112
为最大平均值,
Figure BDA0001234382170000113
为当前平均值,daymax为最大平均值对应的日期,daynow为当前日期。如前述例子,假设
Figure BDA0001234382170000114
为最大平均值,因为
Figure BDA0001234382170000115
为第3个活跃频次分组的活跃平均值,而第3个活跃频次分组对应的日期为8天,所以daymax为8天。
需要说明的是,在获取到表征用户的行为变化趋势的信息之后,可以直接将该表征用户的行为变化趋势的信息作为用户的行为衰减度。在确定用户的行为衰减度之后,以下将介绍如何根据获得的多个活跃频次,来确定长期活跃度。
在一种实现方式中,可以根据公式4来确定长期活跃度。
Figure BDA0001234382170000116
其中,Long(xi)为长期活跃度,T为步骤110中的预设天数,t为预设的业务活跃周期,A(xi)为第i个行为数据分组对应的活跃频次。可以理解的是,T/t即为上述行为数据分组的个数。也即用户的长期活跃度是根据各个行为数据分组对应的活跃频次以及行为数据分组的个数来确定的。
Long(xi)可以将不同活跃度的用户区分开来,一些用户天然是高活跃,一些用户天然是低活跃,而低活跃用户相对更容易流失。可以根据Long(xi)的大小来描述用户长期活跃度的高低。
在根据图4所示的各步骤确定用户的行为衰减度,并且在确定长期活跃度之后,可以再次回到图1中,图1还可以包括如下步骤:
步骤160,根据行为衰减度、长期活跃度、行为偏离度以及预设算法,获得用户的分数值。
此处的预设算法可以是指GBDT(Gradient Boosting Decision Tree)算法,该算法是一种迭代的决策树算法,该算法由多棵决策树组成,所有树的结论累加起来做最终结果。它在被提出之初就和支持向量机(Support Vector Machine,SVM)一起被认为是泛化能力(generalization)较强的算法。近些年更因为被用于搜索排序的机器学习模型而引起大家关注。GBDT是一个应用很广泛的算法,可以用来做分类、回归。在很多的数据上都有不错的效果。本申请可以采用GBDT作为最后的分数值的预测框架。
在一个例子中,将行为衰减度、长期活跃度、行为偏离度作为GBDT算法的输入参数,目标变量为动态30天内容是否登录。可以得到如表4和表5所示的结果:
表4
模型 正确数 错误数 总计 准确率 准确率 召回率 F1指标
0 20438703 7230842 27669545 76.864% 73.867% 79.828% 76.732%
1 20742740 5164761 25907501 76.864% 80.065% 74.151% 76.995%
表5
Figure BDA0001234382170000121
Figure BDA0001234382170000131
表5中,得分等级即为用户的分数值,从表5中可以看出,复登率与用户的分数值成正相关性。表示分数值越低,用户流失概率越大,再次登录概率越低。而本申请可以将这类用户识别为目标用户。
步骤170,当分数值满足预设条件时,将用户识别为目标用户。
根据实验结果可以得出的结论:分数值越低,用户流失概率越大,再次登录概率越低,本申请可以设定分数阈值。若用户的分数值低于该分数阈值,则可以将该用户识别为目标用户。
为了更清楚的说明本申请的技术方案,以下将通过图5来对本申请提供的用户的分数值的获取方法作进一步的说明。图5中,可以从ODPS中搜集业务X的T天的行为数据,该T天的行为数据可以为多个用户的行为数据。之后,可以根据用户的行为数据,来确定每个用户的相邻两次行为的时间间隔,并基于该时间间隔来确定业务X的活跃周期。在确定出业务X的活跃周期之后,可以根据该活跃周期分别确定用户的行为衰减度和长期活跃度,并根据用户的行为数据,确定用户的行为偏离度。最后,将用户的行为衰减度、长期活跃度以及行为偏离度作为输入参数输入到GBDT算法中,从而可以获得用户的分数值。
综上,本申请通过用户的行为衰减度、长期活跃度以及行为偏离度三大行为特征,来识别目标用户。由此,可以提高目标用户识别的及时性和准确性。
与上述目标用户的识别方法对应地,本申请实施例还提供的一种目标用户的识别装置,如图6所示,该装置包括:
搜集单元601,用于搜集样本数据集合,该样本数据集合包括用户的行为数据。
确定单元602,用于根据搜集单元601搜集的行为数据,确定用户的行为偏离度。
划分单元603,用于根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组。
统计单元604,用于对划分单元603划分的每个行为数据分组,统计用户在预设的业务活跃周期内的活跃天数,并根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。
确定单元602,还用于根据获得的多个活跃频次,确定用户的行为衰减度以及长期活跃度。
获取单元605,用于根据确定单元602确定的行为衰减度、长期活跃度、行为偏离度以及预设算法,获得用户的分数值。
识别单元606,用于当获取单元605获得的分数值满足预设条件时,将用户识别为目标用户。
可选地,确定单元602还可以用于:
根据行为数据,确定用户的相邻两次行为的时间间隔。
搜集其它用户的其它行为数据,其它行为数据与上述行为数据属于同类行为数据。
根据其它行为数据,确定其它用户的相邻两次行为的时间间隔。
根据在预设时间段内,用户的相邻两次行为的时间间隔以及其它用户的相邻两次行为的时间间隔,确定预设的业务活跃周期。
可选地,确定单元602具体可以用于:根据多个活跃频次,获取表征用户的行为变化趋势的信息。根据表征用户的行为变化趋势的信息,确定用户的行为衰减度。其中,根据多个活跃频次,获取表征用户的行为变化趋势的信息,可以包括如下步骤:
按照预设阈值,将多个活跃频次划分为多个活跃频次分组。
计算各个活跃频次分组的活跃频次平均值,得到多个活跃频次平均值。
从多个活跃频次平均值中选取最大平均值以及当前日期所对应的活跃频次分组的当前平均值。
根据最大平均值、最大平均值对应的日期、当前平均值以及当前日期,获取表征用户的行为变化趋势的信息。
可选地,确定单元602还具体可以用于:
将行为数据划分为近期行为数据和远期行为数据。
根据远期行为数据,确定用户的相邻两次远期行为的时间间隔。
根据近期行为数据,确定用户的相邻两次近期行为的时间间隔。
根据相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定用户的行为偏离度。
其中,根据相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定用户的行为偏离度可以包括:
根据相邻两次远期行为的时间间隔,在一维空间中确定质点。
计算相邻两次近期行为的时间间隔与质点的欧几里德距离。
将欧几里德距离作为用户的行为偏离度。
可选地,用户的行为数据为预设天数内的行为数据。
确定单元602还具体可以用于:
根据预设天数以及预设的业务活跃周期,确定行为数据分组的个数;
根据多个活跃频次以及行为数据分组的个数,确定用户的长期活跃度。
本申请实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本申请提供的装置的具体工作过程,在此不复赘述。
本申请提供的目标用户的识别装置,搜集单元601搜集样本数据集合。确定单元602根据行为数据,确定用户的行为偏离度。划分单元603根据预设的业务活跃周期,将多个行为数据划分为多个行为数据分组。统计单元604对每个行为数据分组,统计用户在预设的业务活跃周期内的活跃天数,并根据活跃天数以及预设的业务活跃周期,获得用户的活跃频次。确定单元602根据获得的多个活跃频次,确定用户的行为衰减度以及长期活跃度。获取单元605根据行为衰减度、长期活跃度、行为偏离度以及预设算法,获得用户的分数值。当分数值满足预设条件时,识别单元606将用户识别为目标用户。此处的目标用户可以是指流失用户。当目标用户为流失用户时。本申请的流失用户的识别装置可以提高流失用户识别的及时性和准确性。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (14)

1.一种目标用户的识别方法,其特征在于,包括:
搜集样本数据集合,所述样本数据集合包括用户的多个行为数据;
将所述多个行为数据划分为近期行为数据和远期行为数据;
分别根据所述远期行为数据和近期行为数据,确定所述用户的相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔;
根据所述相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定所述用户的行为偏离度;
根据预设的业务活跃周期,将所述多个行为数据划分为多个行为数据分组;
对每个行为数据分组,统计所述用户在所述预设的业务活跃周期内的活跃天数,并根据所述活跃天数以及所述预设的业务活跃周期,获得所述用户的活跃频次;
根据获得的多个活跃频次,确定所述用户的行为衰减度以及长期活跃度;
根据所述行为衰减度、所述长期活跃度、所述行为偏离度以及预设算法,获得所述用户的分数值;
当所述分数值满足预设条件时,将所述用户识别为目标用户。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:确定所述预设的业务活跃周期的步骤,包括:
根据所述行为数据,确定所述用户的相邻两次行为的时间间隔;
搜集其它用户的其它行为数据,所述其它行为数据与所述行为数据属于同类行为数据;
根据所述其它行为数据,确定所述其它用户的相邻两次行为的时间间隔;
根据在预设时间段内,所述用户的相邻两次行为的时间间隔以及所述其它用户的相邻两次行为的时间间隔,确定所述预设的业务活跃周期。
3.根据权利要求1或2所述的方法,其特征在于,所述根据获得的多个活跃频次,确定所述用户的行为衰减度,包括:
根据所述多个活跃频次,获取表征所述用户的行为变化趋势的信息;
根据所述表征所述用户的行为变化趋势的信息,确定所述用户的行为衰减度。
4.根据权利要求3所述的方法,其特征在于,所述根据所述多个活跃频次,获取表征所述用户的行为变化趋势的信息,包括:
按照预设阈值,将所述多个活跃频次划分为多个活跃频次分组;
计算各个活跃频次分组的活跃频次平均值,得到多个活跃频次平均值;
从所述多个活跃频次平均值中选取最大平均值以及当前日期所对应的活跃频次分组的当前平均值;
根据所述最大平均值、所述最大平均值对应的日期、当前平均值以及当前日期,获取所述表征所述用户的行为变化趋势的信息。
5.根据权利要求1所述的方法,其特征在于,所述根据相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定所述用户的行为偏离度,包括:
根据相邻两次远期行为的时间间隔,在一维空间中确定质点;
计算相邻两次近期行为的时间间隔与所述质点的欧几里德距离;
将所述欧几里德距离作为所述用户的行为偏离度。
6.根据权利要求1所述的方法,其特征在于,所述用户的多个行为数据为预设天数内的多个行为数据;
所述根据获得的多个活跃频次,确定所述用户的长期活跃度,包括:
根据所述预设天数以及所述预设的业务活跃周期,确定所述行为数据分组的个数;
根据所述多个活跃频次以及所述行为数据分组的个数,确定所述用户的长期活跃度。
7.根据权利要求1所述的方法,其特征在于,所述目标用户为流失用户。
8.一种目标用户的识别装置,其特征在于,包括:
搜集单元,用于搜集样本数据集合,所述样本数据集合包括用户的多个行为数据;
确定单元,用于将所述搜集单元搜集的所述多个行为数据,划分为近期行为数据和远期行为数据;分别根据所述远期行为数据和近期行为数据,确定所述用户的相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔;根据所述相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定所述用户的行为偏离度;
划分单元,用于根据预设的业务活跃周期,将所述多个行为数据划分为多个行为数据分组;
统计单元,用于对所述划分单元划分的每个行为数据分组,统计所述用户在所述预设的业务活跃周期内的活跃天数,并根据所述活跃天数以及所述预设的业务活跃周期,获得所述用户的活跃频次;
所述确定单元,还用于根据获得的多个活跃频次,确定所述用户的行为衰减度以及长期活跃度;
获取单元,用于根据所述确定单元确定的所述行为衰减度、所述长期活跃度、所述行为偏离度以及预设算法,获得所述用户的分数值;
识别单元,用于当所述获取单元获得的所述分数值满足预设条件时,将所述用户识别为目标用户。
9.根据权利要求8所述的装置,其特征在于,所述确定单元还用于:
根据所述行为数据,确定所述用户的相邻两次行为的时间间隔;
搜集其它用户的其它行为数据,所述其它行为数据与所述行为数据属于同类行为数据;
根据所述其它行为数据,确定所述其它用户的相邻两次行为的时间间隔;
根据在预设时间段内,所述用户的相邻两次行为的时间间隔以及所述其它用户的相邻两次行为的时间间隔,确定所述预设的业务活跃周期。
10.根据权利要求8或9所述的装置,其特征在于,所述确定单元具体用于:
根据所述多个活跃频次,获取表征所述用户的行为变化趋势的信息;
根据所述表征所述用户的行为变化趋势的信息,确定所述用户的行为衰减度。
11.根据权利要求10所述的装置,其特征在于,所述确定单元还具体用于:
按照预设阈值,将所述多个活跃频次划分为多个活跃频次分组;
计算各个活跃频次分组的活跃频次平均值,得到多个活跃频次平均值;
从所述多个活跃频次平均值中选取最大平均值以及当前日期所对应的活跃频次分组的当前平均值;
根据所述最大平均值、所述最大平均值对应的日期、当前平均值以及当前日期,获取所述表征所述用户的行为变化趋势的信息。
12.根据权利要求8所述的装置,其特征在于,所述根据相邻两次远期行为的时间间隔以及相邻两次近期行为的时间间隔,确定所述用户的行为偏离度,包括:
根据相邻两次远期行为的时间间隔,在一维空间中确定质点;
计算相邻两次近期行为的时间间隔与所述质点的欧几里德距离;
将所述欧几里德距离作为所述用户的行为偏离度。
13.根据权利要求8所述的装置,其特征在于,所述用户的多个行为数据为预设天数内的多个行为数据;
所述确定单元还具体用于:
根据所述预设天数以及所述预设的业务活跃周期,确定所述行为数据分组的个数;
根据所述多个活跃频次以及所述行为数据分组的个数,确定所述用户的长期活跃度。
14.根据权利要求8所述的装置,其特征在于,所述目标用户为流失用户。
CN201710110942.9A 2017-02-28 2017-02-28 目标用户的识别方法及装置 Active CN108510298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710110942.9A CN108510298B (zh) 2017-02-28 2017-02-28 目标用户的识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710110942.9A CN108510298B (zh) 2017-02-28 2017-02-28 目标用户的识别方法及装置

Publications (2)

Publication Number Publication Date
CN108510298A CN108510298A (zh) 2018-09-07
CN108510298B true CN108510298B (zh) 2021-09-21

Family

ID=63374021

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710110942.9A Active CN108510298B (zh) 2017-02-28 2017-02-28 目标用户的识别方法及装置

Country Status (1)

Country Link
CN (1) CN108510298B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110191460B (zh) * 2019-05-29 2021-11-19 中国联合网络通信集团有限公司 一种新入网用户监测方法及平台
CN112671573B (zh) * 2020-12-17 2023-05-16 北京神州泰岳软件股份有限公司 识别宽带业务中潜在离网用户的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103744881A (zh) * 2013-12-20 2014-04-23 百度在线网络技术(北京)有限公司 一种问答平台的问题分发方法和问题分发系统
EP2795819A1 (en) * 2011-12-21 2014-10-29 Qualcomm Incorporated Systems and methods for improved recovery for the downlink
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN106339331A (zh) * 2016-08-31 2017-01-18 电子科技大学 一种基于用户活跃度的数据缓存层置换算法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2795819A1 (en) * 2011-12-21 2014-10-29 Qualcomm Incorporated Systems and methods for improved recovery for the downlink
CN103744881A (zh) * 2013-12-20 2014-04-23 百度在线网络技术(北京)有限公司 一种问答平台的问题分发方法和问题分发系统
CN104182474A (zh) * 2014-07-30 2014-12-03 北京拓明科技有限公司 一种预流失用户的识别方法
CN105335517A (zh) * 2015-11-06 2016-02-17 努比亚技术有限公司 选择热度多媒体的方法及终端
CN105631538A (zh) * 2015-12-23 2016-06-01 北京奇虎科技有限公司 一种用户活跃度的预测方法、装置及其应用方法和系统
CN106203679A (zh) * 2016-06-27 2016-12-07 武汉斗鱼网络科技有限公司 一种用户流失预测方法及系统
CN106339331A (zh) * 2016-08-31 2017-01-18 电子科技大学 一种基于用户活跃度的数据缓存层置换算法

Also Published As

Publication number Publication date
CN108510298A (zh) 2018-09-07

Similar Documents

Publication Publication Date Title
CN108615119B (zh) 一种异常用户的识别方法及设备
CN109033200B (zh) 事件抽取的方法、装置、设备及计算机可读介质
CN106649831B (zh) 一种数据过滤方法及装置
CN103793484A (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
KR20160111443A (ko) Ip 어드레스에 대응하는 위치를 결정하기 위한 방법, 장치, 및 시스템
US11971892B2 (en) Methods for stratified sampling-based query execution
CN110046889B (zh) 一种异常行为主体的检测方法、装置及服务器
CN111666351A (zh) 基于用户行为数据的模糊聚类系统
CN111144957B (zh) 信息投放方法、装置、服务器及存储介质
CN108510298B (zh) 目标用户的识别方法及装置
CN110728322A (zh) 一种数据分类方法及相关设备
CN108076032B (zh) 一种异常行为用户识别方法及装置
CN105677925B (zh) 数据库用户数据处理方法和装置
CN113992340A (zh) 用户异常行为识别方法、装置、设备、存储介质和程序
Ko et al. Keeping our rivers clean: Information-theoretic online anomaly detection for streaming business process events
CN114707608A (zh) 医疗质控数据处理方法、装置、设备、介质及程序产品
CN113988670A (zh) 综合性企业信用风险预警方法及系统
CN112308419A (zh) 数据处理方法、装置、设备及计算机存储介质
CN113205801B (zh) 恶意语音样本的确定方法、装置、计算机设备和存储介质
CN111708813A (zh) 一种用户日常行为异常检测方法和装置
CN112988542B (zh) 一种应用评分方法、装置、设备和可读存储介质
CN114268939B (zh) 一种移动通信中异常用户识别的方法及智能设备
JP6730225B2 (ja) 結果に影響を与える要因を抽出するプログラム、分析装置及び方法
CN117390292B (zh) 基于机器学习的应用程序信息推荐方法、系统及设备
CN117234429B (zh) 一种存储芯片的写入擦除速度分析方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200924

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant