CN109190794A - 行为序列清洗方法及装置、用户转化率预测方法及装置 - Google Patents

行为序列清洗方法及装置、用户转化率预测方法及装置 Download PDF

Info

Publication number
CN109190794A
CN109190794A CN201810848299.4A CN201810848299A CN109190794A CN 109190794 A CN109190794 A CN 109190794A CN 201810848299 A CN201810848299 A CN 201810848299A CN 109190794 A CN109190794 A CN 109190794A
Authority
CN
China
Prior art keywords
behavior
event
user
sequence
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810848299.4A
Other languages
English (en)
Other versions
CN109190794B (zh
Inventor
徐骄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Original Assignee
Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Shiyuan Electronics Thecnology Co Ltd filed Critical Guangzhou Shiyuan Electronics Thecnology Co Ltd
Priority to CN201810848299.4A priority Critical patent/CN109190794B/zh
Publication of CN109190794A publication Critical patent/CN109190794A/zh
Application granted granted Critical
Publication of CN109190794B publication Critical patent/CN109190794B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种行为序列清洗方法及装置、用户转化率预测方法及装置,其中,行为序列清洗方法包括步骤:响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1‑Rt%的行为事件;其中,1≤Rt≤100,能有效清洗对转化率预测并不起作用或者作用较低的行为事件,提高预测模型的准确度。

Description

行为序列清洗方法及装置、用户转化率预测方法及装置
技术领域
本发明涉及机器学习领域,尤其涉及一种行为序列清洗方法及装置、用户转化率预测方法及装置。
背景技术
用户的APP行为记录了用户基本信息,也记录了在APP上的关键行为动作,这些行为动作表征的是用户潜意识的行为模式或者个人偏好。对APP进行数据分析挖掘的评价指标有常规数据指标监控(如新用户量)、渠道分析或流量分析、APP页面的广告点击率(CTR:Click-Through-Rate)、用户的核心转化率(一般在有付费相关的功能中也称为付费率、购买率,如游戏或电商或知识付费,有的APP也将用户从非注册用户到注册等用户作为转化率)、用户使用时长、用户流失率等。指标中的CTR是目前研究较为火热、应用较多的一个领域,而对于直接产生费用流量的APP而言,付费率或购买率是运营团队关注的核心,如何准确预测转化率对于运营思路及APP功能和UI更新都有重要意义。
对于用户转化率的一种实现方法是,通过将用户的行为序列进行清洗后输入对转化率模型中进行预测,但是现有的行为序列清洗方法仅在数据提取阶段,偶尔会出现空白值的情况,把包含空白值的用户剔除掉,这种清洗方式较为简单粗糙,不能有效提高转化率模型的预测精度。
发明内容
本发明实施例提供一种行为序列清洗方法及装置、用户转化率预测方法及装置以及计算机可读存储介质,能有效解决现有行为序列清洗方法存在单一化的问题,能有效提高转化率模型的预测精度。
本发明一实施例提供一种行为序列清洗方法,包括步骤:
响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
与现有技术相比,本发明实施例提供了一种行为序列清洗方法,其根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量,然后将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件,能有效清洗对转化率预测并不起作用或者作用较低的行为事件,保留对转化率预测影响较大的行为事件,既能减少模型训练的计算量,节约运算资源,而且能提高预测模型的准确度。
作为上述方案的改进,响应于对任一用户的行为序列事件进行清洗的指令后,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重前还包括步骤:
判断所述用户在当前时刻前是否发生过付费行为。
作为上述方案的改进,当所述用户在当前时刻前未发生过付费行为时,所述事件权重根据所述事件行为是否与付费行为相关进行赋值;
当所述用户在当前时刻前发生过付费行为,所述事件权重由所述事件行为的付费向量进行赋值。
根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量具体为:
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H1=C1*Rk1+Wt
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,Wt为所述行为事件的事件权重向量;其中,当所述行为事件与付费行为相关时,Wt=1;当所述行为事件与付费行为无关时,Wt=0。
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H2=C2*Rk2+P
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,P为所述行为事件归一化后的付费向量。
本发明另一实施例对应提供了一种用户转化率预测方法,包括步骤:
根据上述任一项所述的行为序列清洗方法对任一用户的行为序列进行清洗;
响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设预测模型的输入,根据所述预测模型的输出结果对所述用户的转化率进行预测。
作为上述方案的改进,所述方法还包括步骤:响应于对预测模型的训练指令,通过清洗后的用户的行为序列对所述预测模型进行训练。
作为上述方案的改进,所述用户为一应用程序的短期用户,所述短期用户为注册时长大于a天、小于或者等于人均注册时长且对所述应用程序的功能事件的点击发生率在b%以内的用户;其中,1≤a≤100,1≤b≤100。
作为上述方案的改进,所述预测模型基于LightGBM、XGBoost、CatBoost或BGDT建立。
作为上述方案的改进,所述将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测具体为:
将所述将清洗后的用户的行为序列划分为第一行为序列和第二行为序列,将所述第一行为序列的整体作为一个特征、第二行为序列中的每一行为事件作为一个特征输入所述预测模型中进行预测。
作为上述方案的改进,所述第一行为序列为第一个行为事件至第c%行为事件之间的序列,所述第二行为序列为第c%行为事件至最后一个行为事件之间的序列;其中,1≤c≤100。
本发明另一实施例提供了一种行为序列清洗装置,包括:
清洗指令响应模块,用于响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
流出事件向量计算模块,用于根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
清洗模块,用于将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
本发明另一实施例提供了一种用户转化率预测装置,包括:
行为序列清洗模块,用于根据权利要求1-5任一项所述的行为序列清洗方法对任一用户的行为序列进行清洗;
转化率预测模块,用于响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测。
本发明另一实施例提供了一种行为序列清洗装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现以上任意一项所述的行为序列清洗方法。
本发明另一实施例提供了一种用户转化率预测装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现以上任意一项所述的用户转化率预测方法。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行以上任意一项所述的行为序列清洗方法。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行以上任意一项所述的用户转化率预测方法。
附图说明
图1是本发明一实施例提供的一种行为序列清洗方法的流程示意图。
图2是本发明一实施例提供的一种用户转化率预测方法的流程示意图。
图3是本发明一实施例提供的短期用户的转化率预测的过程示意图。
图4是本发明一实施例提供的一种行为序列清洗装置的结构示意图。
图5是本发明一实施例提供的一种用户转化率预测装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,是本发明一实施例提供的一种行为序列清洗方法的流程示意图,包括步骤:
S1、响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
用户行为序列,也可以叫做“基于时间序列的用户行为”,是某一时间段内,按照时间先后顺序记录的人从事某种活动的每一步行为。例如,在网站的一段时间内,一个用户从进入网站到离开网站过程中的每一步行为的记录,被我们记做一条用户行为序列。
S2、根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
可以理解的,行为事件的出现次数越多,排名向量就越高。
S3、将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
例如,当Rt=5时,清洗掉所述行为序列中排序为末尾5%的事件行为,而保留排序为之前95%的事件行为。
在该步骤中,Rt实际上是APP不重要事件的比例。
在本实施例中,根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量,然后将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件,能有效清洗对转化率预测并不起作用或者作用较低的行为事件,保留对转化率预测影响较大的行为事件,既能减少模型训练的计算量,节约运算资源,而且能提高预测模型的准确度。
优选地,本实施例的行为序列清洗方法适用于短期用户,所述短期用户为注册时长大于a天、小于或者等于人均注册时长且对所述应用程序的功能事件的点击发生率在b%以内的用户;其中,1≤a≤100,1≤b≤100。例如,定义短期用户为进入到APP平台、注册至今的时长(按天)大于3天、小于等于APP的人均注册时长,并且对APP上的功能事件(根据埋点数可以计算)有过的点击事件在30%内的用户,这样的用户与新注册用户和长期用户不一样,还处于对产品的新鲜度或者中度感知阶段、探索阶段、挖掘阶段。这种类型的用户具有一定数量的行为记录,可根据一系列的行为记录对短期用户的转化率进行预测。
在另一优选实施例中,响应于对任一用户的行为序列事件进行清洗的指令后,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重前还包括步骤:
判断所述用户在当前时刻前是否发生过付费行为。
优选地,本发明实施例的转化率表示用户付费率或购买率,因此,对于已产生付费行为和未产生付费行为的用户,行为序列清洗的方式是不一样的。当所述用户在当前时刻前未发生过付费行为时,所述事件权重根据所述事件行为是否与付费行为相关进行赋值;当所述用户在当前时刻前发生过付费行为,所述事件权重由所述事件行为的付费向量进行赋值。即,对于未产生付费行为的用户,根据事件行为与付费行为是否相关决定该事件行为是否重要,可以理解的,与付费行为相关的事件行为对于转化率的影响较大,而与付费行为无关的事件行为对于转化率的影响较小;对于已产生付费行为的用户,由所述事件行为的付费向量进行赋值,可以理解的,付费金额大的付费行为对转化率的影响较大,而付费金额小的付费行为对转化率的影响较小。而对于与付费行为相关的事件行为,例如,因为某些原因导致支付失败的行为记录等属于与付费行为相关的事件行为。
具体地,步骤S2中根据所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量具体为:
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H1=C1*Rk1+Wt
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,Wt为所述行为事件的事件权重向量;其中,当所述行为事件与付费行为相关时,Wt=1;当所述行为事件与付费行为无关时,Wt=0。
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H2=C2*Rk2+P
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,P为所述行为事件归一化后的付费向量。
参见图2,是本发明一实施例提供的一种用户转化率预测方法的流程示意图,包括步骤:
S21、根据以上实施例所述的行为序列清洗方法对任一用户的行为序列进行清洗;
S22、响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设预测模型的输入,根据所述预测模型的输出结果对所述用户的转化率进行预测。
在步骤S2中,所述预测模型基于LightGBM、XGBoost、CatBoost或BGDT建立。
通过上述清洗过后的行为序列作为特征输入所述预测模型中,能有效剔除非重要行为对转化率预测的影响,既能减少运算量,节约运算资源,又能提高转化率预测的精度。
优选地,所述用户为一应用程序的短期用户,所述短期用户为注册时长大于a天、小于或者等于人均注册时长且对所述应用程序的功能事件的点击发生率在b%以内的用户;其中,1≤a≤100,1≤b≤100。例如,定义短期用户为进入到APP平台、注册至今的时长(按天)大于3天、小于等于APP的人均注册时长,并且对APP上的功能事件(根据埋点数可以计算)有过的点击事件在30%内的用户,这样的用户与新注册用户和长期用户不一样,还处于对产品的新鲜度或者中度感知阶段、探索阶段、挖掘阶段。这种类型的用户具有一定数量的行为记录,可根据一系列的行为记录对短期用户的转化率进行预测。
在上述实施例的基础上,所述用户转化率预测方法还包括步骤:响应于对预测模型的训练指令,通过清洗后的用户的行为序列对所述预测模型进行训练。
优选地,所述将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测具体为:
将所述将清洗后的用户的行为序列划分为第一行为序列和第二行为序列,将所述第一行为序列的整体作为一个特征、第二行为序列中的每一行为事件作为一个特征输入所述预测模型中进行预测。其中,所述第一行为序列为第一个行为事件至第c%行为事件之间的序列,所述第二行为序列为第c%行为事件至最后一个行为事件之间的序列;其中,1≤c≤100。需要说明的是,对于本发明的行为序列,是按照时间先后顺序记录的人从事某种活动的每一步行为。即下一事件行为发生在上一事件行为之后,则第二行为序列的发生时间在第一行为行为序列之后,则可定义所述第二行为序列为最近行为序列。在本方案中,增强最近行为序列作为转化率预测的作用,弱化更早之前的行为序列对转化率预测的作用,既能减少运算量,节约运算资源,而且能有效提高转化率预测的效率。
优选地,c=75%。假设经过清洗后的行为序列S的长度为len(S),最近行为序列为i=[0.75*len(S),len(S)],即行为序列中第75百分位点至最后的行为序列之前的行为序列索引用j=[1,0.75*len(S)-1],S(i)即表示最近行为序列,S(j)拼上S(i)就是清洗过后的行为序列。
对于没有产生过付费的用户,本质上所有的行为都是浏览点击性质的,将S(j)作为一个单独的特征,将S(i)中每一事件行为作为一个特征,则S(i)中包括len(S(i))个特征,从而S(j)+S(i)的行为序列总共包括len(S(i))+1个特征。将这len(S(i))+1个特征加入到预测模型中训练,从而得到未付费用户的预测模型。S(i)中的每个事件行为除了可作为一个特征外,还可作为多个特征,则当某事件行为在最近行为序列中的序号1、序号3都出现时,就会强化该事件行为对转化率预测的影响,从而强化近期行为对预测模型的参数的影响,能有效提高预测模型的精度。
对于已产生过付费的用户,除了未付费用户的行为序列特征,还包括付费价格,先按未付费用户的预测模型中的序列获取和分隔方法得到S(j)和S(i),从而根据S(j)+S(i)的行为序列总共包括len(S(i))+1个特征。除此之外将位于第二行为序列的N个付费事件再单独作为N个特征,这N个特征的每个特征分别表示某一个付费事件中用户的付费额。将这len(S(i))+1+N个特征加入到预测模型中训练,从而得到已付费用户的预测模型。
将上述过程应用于短期用户的转化率预测过程如图3所示,可结合非重要事件行为清洗、付费用户和非付费用户的模型切割以及最近行为序列强化因子对转化率进行预测,有效提高短期用户的转化率预测准确度。
参见图4,为本发明实施例提供的一种行为序列清洗装置的结构示意图,包括:
清洗指令响应模块101,用于响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
流出事件向量计算模块102,用于根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
清洗模块103,用于将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
本实施例的行为序列清洗装置的工作原理和过程可参考上述对行为序列清洗方法的描述,在此不再赘述。
参见图5,为本发明实施例提供的一种用户转化率预测装置的结构示意图,包括:
行为序列清洗模块201,用于根据以上实施例所述的行为序列清洗方法对任一用户的行为序列进行清洗;
转化率预测模块202,用于响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测。
本实施例的用户转化率预测装置的工作原理和过程可参考上述对用户转化率预测方法的描述,在此不再赘述。
本发明另一实施例提供了一种行为序列清洗装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现以上任意一项所述的行为序列清洗方法。
本发明另一实施例提供了一种用户转化率预测装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现以上任意一项所述的用户转化率预测方法。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行以上任意一项所述的行为序列清洗方法。
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行以上任意一项所述的用户转化率预测方法。
所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述行为序列清洗装置/用户转化率预测装置的控制中心,利用各种接口和线路连接整个行为序列清洗装置/用户转化率预测装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述行为序列清洗装置/用户转化率预测装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
其中,所述行为序列清洗装置/用户转化率预测装置集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

Claims (16)

1.一种行为序列清洗方法,其特征在于,包括步骤:
响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
2.如权利要求1所述的行为序列清洗方法,其特征在于,响应于对任一用户的行为序列事件进行清洗的指令后,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重前还包括步骤:
判断所述用户在当前时刻前是否发生过付费行为。
3.如权利要求2所述的行为序列清洗方法,其特征在于,当所述用户在当前时刻前未发生过付费行为时,所述事件权重根据所述事件行为是否与付费行为相关进行赋值;
当所述用户在当前时刻前发生过付费行为,所述事件权重由所述事件行为的付费向量进行赋值。
4.如权利要求3所述的行为序列清洗方法,其特征在于,根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量具体为:
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H1=C1*Rk1+Wt
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,Wt为所述行为事件的事件权重向量;其中,当所述行为事件与付费行为相关时,Wt=1;当所述行为事件与付费行为无关时,Wt=0。
当所述用户在当前时刻前未发生过付费行为,通过以下公式计算所述行为事件的流出事件向量:
H2=C2*Rk2+P
其中,H1为所述行为事件的流出事件向量;C1为所述行为事件在所述行为序列中出现的次数向量,Rk1为所述行为事件在所述行为序列中出现次数的排名向量,P为所述行为事件归一化后的付费向量。
5.一种用户转化率预测方法,其特征在于,包括步骤:
根据权利要求1-5任一项所述的行为序列清洗方法对任一用户的行为序列进行清洗;
响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设的预测模型的输入,根据所述预测模型的输出结果对所述用户的转化率进行预测。
6.如权利要求5所述的用户转化率预测方法,其特征在于,所述方法还包括步骤:响应于对预测模型的训练指令,通过清洗后的用户的行为序列对所述预测模型进行训练。
7.如权利要求5所述的用户转化率预测方法,其特征在于,所述用户为一应用程序的短期用户,所述短期用户为注册时长大于a天、小于或者等于人均注册时长且对所述应用程序的功能事件的点击发生率在b%以内的用户;其中,1≤a≤100,1≤b≤100。
8.如权利要求5所述的用户转化率预测方法,其特征在于,所述预测模型基于LightGBM、XGBoost、CatBoost或BGDT建立。
9.如权利要求5所述的用户转化率预测方法,其特征在于,所述将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测具体为:
将所述将清洗后的用户的行为序列划分为第一行为序列和第二行为序列,将所述第一行为序列的整体作为一个特征、第二行为序列中的每一行为事件作为一个特征输入所述预测模型中进行预测。
10.如权利要求9所述的用户转化率预测方法,其特征在于,所述第一行为序列为第一个行为事件至第c%行为事件之间的序列,所述第二行为序列为第c%行为事件至最后一个行为事件之间的序列;其中,1≤c≤100。
11.一种行为序列清洗装置,其特征在于,包括:
清洗指令响应模块,用于响应于对任一用户的行为序列事件进行清洗的指令,获取所述行为序列中每一行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重;
流出事件向量计算模块,用于根据每一所述行为事件在所述行为序列中出现的次数向量、出现次数的排名向量以及事件权重计算所述行为事件的流出事件向量;
清洗模块,用于将所述行为序列中每一所述行为事件的流出事件向量按从大到小进行排序,清洗掉所述行为序列中排序为Rt%末位的行为事件,保留所述行为序列中1-Rt%的行为事件;其中,1≤Rt≤100。
12.一种用户转化率预测装置,其特征在于,包括:
行为序列清洗模块,用于根据权利要求1-5任一项所述的行为序列清洗方法对任一用户的行为序列进行清洗;
转化率预测模块,用于响应于对所述用户的转化率的预测指令,将清洗后的用户的行为序列作为一预设预测模型,根据所述预测模型的输出结果对所述用户的转化率进行预测。
13.一种行为序列清洗装置,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至4中任意一项所述的行为序列清洗方法。
14.一种用户转化率预测装置,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求5至10中任意一项所述的用户转化率预测方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如1至4中任意一项所述的行为序列清洗方法。
16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求5至10中任意一项所述的用户转化率预测方法。
CN201810848299.4A 2018-07-27 2018-07-27 行为序列清洗方法及装置、用户转化率预测方法及装置 Active CN109190794B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810848299.4A CN109190794B (zh) 2018-07-27 2018-07-27 行为序列清洗方法及装置、用户转化率预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810848299.4A CN109190794B (zh) 2018-07-27 2018-07-27 行为序列清洗方法及装置、用户转化率预测方法及装置

Publications (2)

Publication Number Publication Date
CN109190794A true CN109190794A (zh) 2019-01-11
CN109190794B CN109190794B (zh) 2021-08-24

Family

ID=64937752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810848299.4A Active CN109190794B (zh) 2018-07-27 2018-07-27 行为序列清洗方法及装置、用户转化率预测方法及装置

Country Status (1)

Country Link
CN (1) CN109190794B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095345A1 (en) * 2012-09-28 2014-04-03 International Business Machines Corporation Data analysis method and system thereof
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及系统
CN106204063A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种付费用户挖掘方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140095345A1 (en) * 2012-09-28 2014-04-03 International Business Machines Corporation Data analysis method and system thereof
CN106204106A (zh) * 2016-06-28 2016-12-07 武汉斗鱼网络科技有限公司 一种特定用户识别方法及系统
CN106204063A (zh) * 2016-06-30 2016-12-07 北京奇艺世纪科技有限公司 一种付费用户挖掘方法及装置

Also Published As

Publication number Publication date
CN109190794B (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
JP6771751B2 (ja) リスク評価方法およびシステム
CN109034903A (zh) 用户转化率预测方法及装置、计算机可读存储介质
CN109284864A (zh) 行为序列获取方法及装置、用户转化率预测方法及装置
CN103412882B (zh) 一种识别消费意图的方法及装置
CN107392645A (zh) 用户挖掘方法、装置及其设备
US20090063564A1 (en) Statistical design closure
CN109299362A (zh) 相似企业推荐方法、装置、计算机设备及存储介质
CN107066476A (zh) 一种基于物品相似度的实时推荐方法
CN107025236B (zh) 清算系统间的数据处理方法及数据清算系统
CN107609217A (zh) 碰撞校核数据的处理方法及装置
CN109032743A (zh) 菜单配置方法、装置、设备及可读存储介质
US7983946B1 (en) Systems and methods for identifying high complexity projects
CN108347532A (zh) 功能访问方法、装置、终端设备及存储介质
CN109359263A (zh) 一种用户行为特征提取方法及系统
CN107316200A (zh) 一种分析用户行为周期的方法和装置
CN108062692A (zh) 一种录音推荐方法、装置、设备及计算机可读存储介质
CN109543247A (zh) 基于nsga-ⅱ的模拟集成电路参数优化设计方法及装置
CN109064283A (zh) 商品推荐方法及装置、计算机可读存储介质
CN113687949B (zh) 服务器部署方法、装置、部署设备及存储介质
CN108170837A (zh) 数据离散化方法、装置、计算机设备及存储介质
CN106101831A (zh) 视频向量化方法及装置
CN109190794A (zh) 行为序列清洗方法及装置、用户转化率预测方法及装置
CN104572687B (zh) 微博传播的关键用户识别方法和装置
CN106484746A (zh) 网站转化事件的分析方法及装置
CN107257365A (zh) 一种数据下载处理方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant