CN109190803A - 预测方法、装置、计算设备及存储介质 - Google Patents

预测方法、装置、计算设备及存储介质 Download PDF

Info

Publication number
CN109190803A
CN109190803A CN201810923313.2A CN201810923313A CN109190803A CN 109190803 A CN109190803 A CN 109190803A CN 201810923313 A CN201810923313 A CN 201810923313A CN 109190803 A CN109190803 A CN 109190803A
Authority
CN
China
Prior art keywords
retained
numbers
correlation distance
sequence
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810923313.2A
Other languages
English (en)
Other versions
CN109190803B (zh
Inventor
贾寅辰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chalk Future Technology Co Ltd
Original Assignee
Beijing Chalk Future Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chalk Future Technology Co Ltd filed Critical Beijing Chalk Future Technology Co Ltd
Priority to CN201810923313.2A priority Critical patent/CN109190803B/zh
Publication of CN109190803A publication Critical patent/CN109190803A/zh
Application granted granted Critical
Publication of CN109190803B publication Critical patent/CN109190803B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供一种预测方法、装置、计算设备及存储介质,其中,所述方法包括:获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列;基于所述第一数列和所述第二数列确定所述评估对象的相关系数;若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。

Description

预测方法、装置、计算设备及存储介质
技术领域
本说明书涉及市场渠道评估分析领域,特别涉及一种预测方法、装置、计算设备及存储介质。
背景技术
在做数据分析与战略决策的时候,经常会遇到核心数据无法及时,准确的得出情况。当处理数据为非线性数据时,常用的相关性算法存在着严重失真的可能,导致得出的数据与真实数据有所误差,进而做出错误的判断,并且需要的时间较长,这与当代市场需要快速迭代的需求严重不符。
发明内容
有鉴于此,本说明书实施例提供了一种预测的方法、装置、设备及存储介质,以解决现有技术中存在的技术缺陷。
根据本说明书实施例的第一方面,提供了一种预测方法,包括:
获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列;
将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组;
获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数;
根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数;
若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
可选地,所述获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
可选地,所述设定的顺序是按照从大到小的顺序。
可选地,所述第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。
可选地,所述第一相关距离按照如下公式得到:
其中,F表示所述第一相关距离,xi表示第i个观测日的第一留存数据在排序后的数列中的序号,yi表示第i个观测日的第二留存数据在排序后的数列中序号,i表示观测日,N表示观测总天数,xi和yi为正数,i和N为正整数。
可选地,所述相关距离样本序列通过如下方式得到:
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
按照设定的方式将样本序列的相关距离进行排列。
可选地,所述随机方式产生设定数量个样本序列包括:
通过hadoop集群产生设定数量个样本序列。
可选地,所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。
可选地,所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数包括:
根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测,且第二观测期总天数大于第一观测期总天数。
根据本说明书实施例的第二方面,提供了一种预测装置,包括:
获取模块:被配置为获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列;
排序模块,被配置为将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组;
计算模块:被配置为获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数;
查找模块:被配置为根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数;
预测模块:被配置为若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
可选地,所述获取模块进一步被配置为:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
可选地,所述设定的顺序是按照从大到小的顺序。
可选地,所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。
可选地,所述第一相关距离按照如下公式得到:
其中,F表示所述第一相关距离,xi表示第i个观测日的第一留存数据在排序后的数列中的序号,yi表示第i个观测日的第二留存数据在排序后的数列中序号,i表示观测日,N表示观测总天数,xi和yi为正数,i和N为正整数。
可选地,所述查找模块如下方式得到相关距离样本序列:
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
按照设定的方式将样本序列的相关距离进行排列。
可选地,所述查找模块通过hadoop集群产生设定数量个样本序列。
可选地,所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。
可选地,所述预测模板进一步被配置为:
根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测,且第二观测期总天数大于第一观测期总天数。
根据本说明书实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述预测方法的步骤。
根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测方法的步骤。
本说明书实施例提供预测方法,通过获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据;获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组;获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数;根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数;若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。本申请实施例提供的预测方法可以短时间内预测评估对象的留存数据,方便对评估对象进行分析和战略决策时,及时的获得正确的数据,预测市场的投放效果对评估对象是否投放市场进行决策。
附图说明
图1是本申请实施例提供的预测方法的应用架构示意图;
图2是本申请实施例提供的预测方法的流程图;
图3是本申请实施例提供的预测方法中获取第一相关距离方法的流程图;
图4是本申请实施例提供的预测方法中获取相关距离样本序列的流程图;
图5是本申请实施例提供的预测装置的模块图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
图1是示出了根据本说明书一实施例的预测方法的应用架构示意图。该应用架构包括计算设备100,网络160和数据库150。
该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存用户数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络160的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的预测的方法的流程图,包括步骤202至步骤210。
步骤202:获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列。
本申请实施例中,评估对象可以为应用程序或者网页页面。
观测期即对评估对象的观测时间。
留存数据即观测期内,评估对象的预设用户的使用量。
例如以某网页为评估对象为例,假设有1000个预设用户访问某网页,第二天这1000个预设用户访问这个网页的人数为600个,那么第二天的留存数据为600。
本说明书一种实施方式中,获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
网络设备、系统及服务程序等,在运作时都会产生一个叫log的事件记录,该事件记录即为评估对象的日志文件。评估对象的日志文件中的每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。
例如,在本申请一实施例中,观测期为31天,以次日留存数据为所述第一留存数据,以30日留存数据为第二留存数据,那么可以从评估对象的日志文件中获取次日留存数据和30日留存数据。
留存数据可以通过留存率表示,留存率=使用评估对象的预设用户量/预设用户总量*100%。
在评估对象的日志文件中对预设对象数据统计,通过统计获得预设对象的第一天的次日留存数据为30.56,第一天的30日留存数据为9.31;第二天的次日留存数据为32.83,第二天的30日留存数据为5.65;以此类推,得到31天的次日留存数据和30日留存数据,可以分别组合成次日留存数列和30日留存数列,即次日留存数列(30.56 32.83……),30日留存数列为(9.31 5.65……),次日留存数列即第一数列,30日留存数列即第二数列。
例如,在本申请一实施例中,假设观测期为31天,在观测期的第一天选定登录购物页面的1000个使用者,第2天根据日志中记载的日期、时间、使用者信息查看选定的1000个使用者的登录数据,假设第2天登录此购物页面的人数为600,那么得到的次日留存数据为600/1000*100%,根据这种计算方法以及日志记载的日期、时间、使用者信息查看选定的1000个使用者第31天登录的数据,得到30日留存数据。
步骤204:将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组。
本说明书一种实施方式中,对两个留存日的观测数据可以按照从大到小的顺序排列。
例如,在本申请一实施例中,计算次日留存数据和30日留存数据之间的相关性,观测期为31天,第一天的次日留存数据为30.56,第一天的30日留存数据为9.31,第二天的次日留存数据为32.83,第二天的30日留存数据为5.65,以此类推,那么次日留存数据的数列为(30.56 32.83……),即第一数列;30日留存数据的数列为(9.31 5.65……),即第二数列。将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,第一数列转换为(21 ……),即第一次序数列;第二数列转换为(1 2……),即第二次序数列。那么,观测期的第一天形成的二维数组为(2 1)。(假设次日留存的最大值为32.83,第二大值为30.56;假设30日留存的最大值为9.31,第二大值为5.65)
步骤206:获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数。
例如,在本申请一实施例中,以步骤204获得的第一数列和第二数列为例,假设观测期为31天,即N为31,第一数列中的数据由排序后的数列中的序号组成的序号数列为(21……),即第一次序数列;第二数列中的数据由排序后的数列中的序号组成的序号数列为(1 2……),即第二次序数列。两个序号数列对应位置的数据分别组成31个二维数组,即(21)、(1 2)……
本说明书一种实施方式中,第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。
图3是示出了本说明书一实施例提供的预测方法中获取第一相关距离方法的流程图,包括步骤302至步骤306。
步骤302:数据提取。
本说明书一种实施方式中,从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列。
例如,在本申请一实施例中,观测期为31天,以次日留存数据为所述第一留存数据,以30日留存数据为第二留存数据,那么可以从评估对象的日志文件中获取次日留存数据和30日留存数据。
在评估对象的日志文件中对预设对象数据统计,通过统计获得预设对象的第一天的次日留存数据为30.56,第一天的30日留存数据为9.31;第二天的次日留存数据为32.83,第二天的30日留存数据为5.65;以此类推,得到31天的次日留存数据和30日留存数据,可以分别组合成次日留存数列和30日留存数列,即次日留存数列(30.56 32.83……),30日留存数列为(9.31 5.65……),次日留存数列即第一数列,30日留存数列即第二数列。
步骤304:数据排序。
本说明书一种实施方式中,将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列。
例如,在本申请一实施例中,以步骤302为例,得到的第一次序数列为(21 ……),第二次序数列为(1 2……)。
步骤306:计算相关距离。
本说明书一种实施方式中,相关距离计算通过如下方式得到:
将第一次序数列和第二次序数列在所述第一观测期内同一观察日的数据形成二维数组,获取N个二维数组,所述N为所述第一观测期包含的天数,N为正整数;
利用相关距离公式
计算第一相关距离。其中,F表示所述第一相关距离,xi表示第i个观测日的第一留存数据在排序后的数列中的序号,yi表示第i个观测日的第二留存数据在排序后的数列中序号,i表示观测日,N表示观测总天数,xi和yi为正数,i和N为正整数。
例如,在本申请一实施例中,观察期为31天时,x1为第1天的第一留存数据在排序后的数列中的序号,y1为第1天的第二留存数据在排序后的数列中的序号;x2为第2天的第一留存数据在排序后的数列中的序号,y2以为第2天的第二留存数据在排序后的数列中的序号;以此类推,x31为第31天的第一留存数据在排序后的数列中的序号,y31为第31天的第二留存数据在排序后的数列中的序号,则相关距离F=(x1-y1)2+(x2-y2)2+……+(x31-y31)2
本申请实施例中,通过对评估对象的日志文件中预设对象的数据统计获得留存数据,对留存数据处理获得次序数列,利用次序数列里的数据和相关距离公式计算出第一相关距离,根据第一相关距离在相关距离样本的位置可以计算相关系数。
为以此类推,为第步骤208:根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数。
图4是示出了本说明书一实施例提供的预测方法中获取相关距离样本序列的流程图,包括步骤402至步骤406。
步骤402:生成大量随机样本值。
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
本说明书一种实施方式中,随机方式产生设定数量个样本序列包括:
通过hadoop集群产生设定数量个样本序列。
例如,在本申请一实施例中,hadoop集群产生的数量个数是一千万个,样本序列是由1到31这31个数随机组成的数列。
步骤404:计算第二相关距离。
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
例如,在本申请一实施例中,以31天为观测期,随机生成一千万个样本组,每个样本组中包含1到31这31个数随机组成的数列。计算每个数列与由1到31这31个数的顺序排列的数列之间的相关距离,这样我们可以得到一千万个相关距离。
步骤406:生成样本序列。
将步骤404获得的设定数量个相关距离按从小到大进行排序,生成样本序列。
本申请实施例中,通过随机产生大量样本序列并对样本序列排序,利用相关距离公式计算出第二相关距离,将第二相关距离从小到大排序组成相关距离样本序列,根据第一相关距离在相关距离样本的位置可以计算相关系数。
为了快速获得相关系数,相关距离样本是系统提前计算好的并做成了表格,本申请实施例提供的预测方法中使用的相关距离样本序列如表1所示。在获得了第一相关距离后,通过查询表1所示的相关距离样本序列表即可获得相关系数。例如,在本申请一实施例中,假设观测总天数为15天,计算得到第一相关距离为298,那么查表得到相关系数为4%;如果计算得到的第一相关距离为388,那么查表得到相关系数为13%。
本说明书一种实施方式中,秩序百分比包括第一相关距离在相关距离样本序列中的位置。
例如,在本申请一实施例中,假设观测3天的次日留存率,结果为{0.25,0.24,0.27},观测3天的7日留存率,结果为{0.11,0.10,0.13},则对次日留存率从大到小排序后的序列为{2,3,1},也就是说,0.25排在次日留存率的第二位,0.24排在第三位,0.27排在第一位;而7日留存率从大到小排序后的序列为{2,3,1},根据式(1)可得到相关距离F=0,此时F=0即第一相关距离。
随机生成N个样本组,每个样本组包含1到3这3个数值随机组成的数列,计算每个数列与由1到3这3个数顺序排列的数列之间的相关距离F,那么得到N个F值,对这N个F值从小到大排序组成相关距离样本序列。
将上面计算的第一相关距离F=0放入到相关距离样本序列里,观察第一相关距离F=0在相关距离样本序列中的位置。第一相关距离F=0排在相关距离样本序列的第一位,那么观测期为三天的次日留存和7日留存的相关系数是100%。
表1
步骤210:若所述相关系数不大于设定阈值,则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
例如,在本申请一实施例中,假设设定阈值为5%,获得的相关系数为2%,那么相关系数小于设定阈值,说明第一留存数据和第二留存数据具有强相关性;如果获得的相关系数为7%,那么相关系数大于设定阈值,说明第一留存数据和第二留存数据不具有强相关性。
本说明一种实施方式中,根据评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测包括:
根据评估对象在第二观测期内的多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测。
本申请实施例中,通过第二观测期内的多个第一留存数据的相关距离评估出第二观测期内的多个第二留存数据的相关距离,比较评估得出的第二观测期内的第二留存数据的相关距离在相关距离样本序列的秩序百分比得到第二观测期内的第二留存数据的相关系数,若所述相关系数不大于设定阈值则,说明在未来,评估对象的用户使用量高,如果相关系数大于设定阈值,说明在未来,评估对象的用户使用量低,从而实现对评估对象未来用户使用情况的预测。
本申请实施例提供的预测方法可以短时间内预测评估对象的留存数据,方便对评估对象进行分析和战略决策时,及时的获得正确的数据,预测市场的投放效果对评估对象是否投放市场进行决策。
与上述方法实施例相对应,本说明书还提供了一种预测装置实施例。图5示出了本说明书一个实施例的预测装置的模块图。如图5所示,该装置500包括获取模块502、排序模块504、计算模块506、查找模块508和预测模块510:
所述获取模块502:被配置为获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列。
一个可选的实施例中,所述获取模块进一步被配置为:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
所述排序模块504:被配置为将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组。
一个可选的实施例中,所述设定的顺序是按照从大到小的顺序。
所述计算模块506:被配置为获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数。
一个可选的实施例中,所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。
一个可选的实施例中,所述第一相关距离按照式1进行计算。
所述查找模块508:被配置为根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数。
一个可选的实施例中,所述查找模块如下方式得到相关距离样本序列:
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
按照设定的方式将样本序列的相关距离进行排列。
一个可选的实施例中,所述查找模块通过hadoop集群产生设定数量个样本序列。
一个可选的实施例中,所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。
所述预测模块510:被配置为若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
一个可选的实施例中,所述预测模板进一步被配置为:
根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测,且第二观测期总天数大于第一观测期总天数。
本申请实施例提供的预测装置可以短时间内预测评估对象的留存数据,方便对评估对象进行分析和战略决策时,及时的获得正确的数据,预测市场的投放效果对评估对象是否投放市场进行决策。本说明书一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现预测方法的步骤。
本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述预测的方法步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书并不受所描述的动作顺序的限制,因为依据本说明书,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims (20)

1.一种预测方法,其特征在于,包括:
获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列;
将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组;
获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数;
根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数;
若所述相关系数不大于设定阈值,则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
2.根据权利要求1所述的方法,其特征在于,所述获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
3.根据权利要求1所述的方法,其特征在于,所述设定的顺序是按照从大到小的顺序。
4.根据权利要求1所述的方法,其特征在于,所述第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。
5.根据权利要求4所述的方法,其特征在于,所述第一相关距离按照如下公式得到:
其中,F表示所述第一相关距离,xi表示第i个观测日的第一留存数据在排序后的数列中的序号,yi表示第i个观测日的第二留存数据在排序后的数列中的序号,i表示观测日,N表示观测总天数,xi和yi为正数,i和N为正整数。
6.根据权利要求1所述的方法,其特征在于,所述相关距离样本序列通过如下方式得到:
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
按照设定的方式将样本序列的相关距离进行排列。
7.根据权利要求6所述的方法,其特征在于,所述随机方式产生设定数量个样本序列包括:
通过hadoop集群产生设定数量个样本序列。
8.根据权利要求1所述的方法,其特征在于,所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。
9.根据权利要求1所述的方法,其特征在于,所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数包括:
根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测,且第二观测期总天数大于第一观测期总天数。
10.一种预测装置,其特征在于,包括:
获取模块:被配置为获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据,分别组成第一数列和第二数列;
排序模块,被配置为将所述第一数列和第二数列中的数据按照设定的顺序进行排序,将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号,分别得到第一次序数列和第二次序数列,将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组;
计算模块:被配置为获取N个二维数组,并计算所述N个二维数组的第一相关距离,所述N为所述第一观测期包含的天数,N为正整数;
查找模块:被配置为根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离,确定所述第二相关距离在所述相关距离样本序列中的秩序百分比,将所述秩序百分比作为所述评估对象的相关系数;
预测模块:被配置为若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性,根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测,所述第二观测期总天数大于第一观测期总天数。
11.根据权利要求10所述的装置,其特征在于,所述获取模块进一步被配置为:
从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。
12.根据权利要求10所述的装置,其特征在于,所述设定的顺序是按照从大到小的顺序。
13.根据权利要求10所述的装置,其特征在于,所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。
14.根据权利要求13所述的装置,其特征在于,所述第一相关距离按照如下公式得到:
其中,F表示所述第一相关距离,xi表示第i个观测日的第一留存数据在排序后的数列中的序号,yi表示第i个观测日的第二留存数据在排序后的数列中序号,i表示观测日,N表示观测总天数,xi和yi为正数,i和N为正整数。
15.根据权利要求10所述的装置,其特征在于,所述查找模块如下方式得到相关距离样本序列:
通过随机方式产生设定数量个样本序列,每个样本序列中样本数据个数和第二数列中的数据个数相同;
计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离,生成设定数量个样本序列的相关距离;
按照设定的方式将样本序列的相关距离进行排列。
16.根据权利要求15所述的装置,其特征在于,所述查找模块通过hadoop集群产生设定数量个样本序列。
17.根据权利要求10所述的装置,其特征在于,所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。
18.根据权利要求10所述的装置,其特征在于,所述预测模板进一步被配置为:
根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测,且第二观测期总天数大于第一观测期总天数。
19.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。
20.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。
CN201810923313.2A 2018-08-14 2018-08-14 预测方法、装置、计算设备及存储介质 Active CN109190803B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810923313.2A CN109190803B (zh) 2018-08-14 2018-08-14 预测方法、装置、计算设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810923313.2A CN109190803B (zh) 2018-08-14 2018-08-14 预测方法、装置、计算设备及存储介质

Publications (2)

Publication Number Publication Date
CN109190803A true CN109190803A (zh) 2019-01-11
CN109190803B CN109190803B (zh) 2020-08-25

Family

ID=64921686

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810923313.2A Active CN109190803B (zh) 2018-08-14 2018-08-14 预测方法、装置、计算设备及存储介质

Country Status (1)

Country Link
CN (1) CN109190803B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142907A (ja) * 2012-12-25 2014-08-07 Nippon Telegr & Teleph Corp <Ntt> 経済被害額評価装置及び方法及びプログラム
CN104090892A (zh) * 2013-12-16 2014-10-08 深圳市腾讯计算机系统有限公司 一种把离线算法在线进行计算的方法及装置
CN105844353A (zh) * 2016-03-22 2016-08-10 中国农业大学 一种水产品价格的预测方法以及装置
CN106126391A (zh) * 2016-06-28 2016-11-16 北京百度网讯科技有限公司 系统监控方法和装置
WO2017007845A1 (en) * 2015-07-06 2017-01-12 The University Of Wyoming Research Corporation D/B/A Western Research Institute Method for correlating physical and chemical measurement data sets to predict physical and chemical properties
CN106372412A (zh) * 2016-08-31 2017-02-01 北京可视化节能科技股份有限公司 联动设备能效分析系统
CN106533750A (zh) * 2016-10-28 2017-03-22 东北大学 一种云环境下非平稳型应用用户并发量的预测系统及方法
CN106951353A (zh) * 2017-03-20 2017-07-14 北京搜狐新媒体信息技术有限公司 作业数据异常检测方法及装置
CN106980872A (zh) * 2017-02-17 2017-07-25 北京维弦科技有限责任公司 基于投票委员会的k最近邻分类方法
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014142907A (ja) * 2012-12-25 2014-08-07 Nippon Telegr & Teleph Corp <Ntt> 経済被害額評価装置及び方法及びプログラム
CN104090892A (zh) * 2013-12-16 2014-10-08 深圳市腾讯计算机系统有限公司 一种把离线算法在线进行计算的方法及装置
WO2017007845A1 (en) * 2015-07-06 2017-01-12 The University Of Wyoming Research Corporation D/B/A Western Research Institute Method for correlating physical and chemical measurement data sets to predict physical and chemical properties
CN105844353A (zh) * 2016-03-22 2016-08-10 中国农业大学 一种水产品价格的预测方法以及装置
CN106126391A (zh) * 2016-06-28 2016-11-16 北京百度网讯科技有限公司 系统监控方法和装置
CN106372412A (zh) * 2016-08-31 2017-02-01 北京可视化节能科技股份有限公司 联动设备能效分析系统
CN106533750A (zh) * 2016-10-28 2017-03-22 东北大学 一种云环境下非平稳型应用用户并发量的预测系统及方法
CN106980872A (zh) * 2017-02-17 2017-07-25 北京维弦科技有限责任公司 基于投票委员会的k最近邻分类方法
CN106951353A (zh) * 2017-03-20 2017-07-14 北京搜狐新媒体信息技术有限公司 作业数据异常检测方法及装置
CN108228428A (zh) * 2018-02-05 2018-06-29 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘文龙 等: "利用MATLAB处理测绘数据的优越性分析", 《海洋测绘》 *

Also Published As

Publication number Publication date
CN109190803B (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
Patil et al. Training replicable predictors in multiple studies
CN110008399A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
Harpending et al. Genetic traces of ancient demography
Ser-Giacomi et al. Ubiquitous abundance distribution of non-dominant plankton across the global ocean
O’Malley et al. Concepts of the last eukaryotic common ancestor
US10410128B2 (en) Method, device, and server for friend recommendation
Saladin et al. Environment and evolutionary history shape phylogenetic turnover in European tetrapods
CN108121795A (zh) 用户行为预测方法及装置
CN105306495B (zh) 用户识别方法和装置
CN110033342A (zh) 一种推荐模型的训练方法及装置、一种推荐方法及装置
CN111444394A (zh) 获取实体间关系表达的方法、系统和设备、广告召回系统
DeWalt DNA barcoding: a taxonomic point of view
Pfenninger et al. Methodological framework for projecting the potential loss of intraspecific genetic diversity due to global climate change
Teder et al. Monitoring of biological diversity: a common‐ground approach
CN112948274A (zh) 测试用例评分模型训练方法和测试用例选择方法
Fernandes et al. Coevolution creates complex mosaics across large landscapes
CN112927050A (zh) 待推荐金融产品确定方法、装置、电子设备及存储介质
CN109117352A (zh) 服务器性能预测方法和装置
CN109754135B (zh) 信用行为数据处理方法、装置、存储介质和计算机设备
CN115438249A (zh) QoS预测模型构建方法、装置、设备及可读存储介质
Selsaas et al. AFFM: Auto feature engineering in field-aware factorization machines for predictive analytics
Manolopoulou et al. BPEC: An R package for Bayesian phylogeographic and ecological clustering
Hamid et al. Localizing post-admixture adaptive variants with object detection on ancestry-painted chromosomes
US20230281696A1 (en) Method and apparatus for detecting false transaction order
Valcu et al. RangeMapper: A platform for the study of macroecology of life‐history traits

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Units F01-03 and 05-10 on the 6th floor of No.1 Building, No.8 Courtyard, Guangshun South Street, Chaoyang District, Beijing

Applicant after: Beijing Ape Power Future Technology Co., Ltd.

Address before: Units F01-03 and 05-10 on the 6th floor of No.1 Building, No.8 Courtyard, Guangshun South Street, Chaoyang District, Beijing

Applicant before: Beijing chalk Future Technology Co., Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant