CN109190803A

CN109190803A - 预测方法、装置、计算设备及存储介质

Info

Publication number: CN109190803A
Application number: CN201810923313.2A
Authority: CN
Inventors: 贾寅辰
Original assignee: Beijing Chalk Future Technology Co Ltd
Current assignee: Beijing Chalk Future Technology Co Ltd
Priority date: 2018-08-14
Filing date: 2018-08-14
Publication date: 2019-01-11
Anticipated expiration: 2038-08-14
Also published as: CN109190803B

Abstract

本申请提供一种预测方法、装置、计算设备及存储介质，其中，所述方法包括：获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列；基于所述第一数列和所述第二数列确定所述评估对象的相关系数；若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

Description

预测方法、装置、计算设备及存储介质

技术领域

本说明书涉及市场渠道评估分析领域，特别涉及一种预测方法、装置、计算设备及存储介质。

背景技术

在做数据分析与战略决策的时候，经常会遇到核心数据无法及时，准确的得出情况。当处理数据为非线性数据时，常用的相关性算法存在着严重失真的可能，导致得出的数据与真实数据有所误差，进而做出错误的判断，并且需要的时间较长，这与当代市场需要快速迭代的需求严重不符。

发明内容

有鉴于此，本说明书实施例提供了一种预测的方法、装置、设备及存储介质，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种预测方法，包括：

获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列；

将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列，将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组；

获取N个二维数组，并计算所述N个二维数组的第一相关距离，所述N为所述第一观测期包含的天数，N为正整数；

根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离，确定所述第二相关距离在所述相关距离样本序列中的秩序百分比，将所述秩序百分比作为所述评估对象的相关系数；

若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

可选地，所述获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括：

从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据。

可选地，所述设定的顺序是按照从大到小的顺序。

可选地，所述第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。

可选地，所述第一相关距离按照如下公式得到：

其中，F表示所述第一相关距离，x_i表示第i个观测日的第一留存数据在排序后的数列中的序号，y_i表示第i个观测日的第二留存数据在排序后的数列中序号，i表示观测日，N表示观测总天数，x_i和y_i为正数，i和N为正整数。

可选地，所述相关距离样本序列通过如下方式得到：

通过随机方式产生设定数量个样本序列，每个样本序列中样本数据个数和第二数列中的数据个数相同；

计算每个随机排序的样本序列与每个顺序排列后样本序列之间的第二相关距离，生成设定数量个样本序列的相关距离；

按照设定的方式将样本序列的相关距离进行排列。

可选地，所述随机方式产生设定数量个样本序列包括：

通过hadoop集群产生设定数量个样本序列。

可选地，所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。

可选地，所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数包括：

根据多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测，且第二观测期总天数大于第一观测期总天数。

根据本说明书实施例的第二方面，提供了一种预测装置，包括：

获取模块：被配置为获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列；

排序模块，被配置为将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列，将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组；

计算模块：被配置为获取N个二维数组，并计算所述N个二维数组的第一相关距离，所述N为所述第一观测期包含的天数，N为正整数；

查找模块：被配置为根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离，确定所述第二相关距离在所述相关距离样本序列中的秩序百分比，将所述秩序百分比作为所述评估对象的相关系数；

预测模块：被配置为若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

可选地，所述获取模块进一步被配置为：

可选地，所述设定的顺序是按照从大到小的顺序。

可选地，所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。

可选地，所述第一相关距离按照如下公式得到：

可选地，所述查找模块如下方式得到相关距离样本序列：

按照设定的方式将样本序列的相关距离进行排列。

可选地，所述查找模块通过hadoop集群产生设定数量个样本序列。

可选地，所述预测模板进一步被配置为：

根据本说明书实施例的第三方面，提供了一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现所述预测方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述预测方法的步骤。

本说明书实施例提供预测方法，通过获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据；获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列，将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组；获取N个二维数组，并计算所述N个二维数组的第一相关距离，所述N为所述第一观测期包含的天数，N为正整数；根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离，确定所述第二相关距离在所述相关距离样本序列中的秩序百分比，将所述秩序百分比作为所述评估对象的相关系数；若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。本申请实施例提供的预测方法可以短时间内预测评估对象的留存数据，方便对评估对象进行分析和战略决策时，及时的获得正确的数据，预测市场的投放效果对评估对象是否投放市场进行决策。

附图说明

图1是本申请实施例提供的预测方法的应用架构示意图；

图2是本申请实施例提供的预测方法的流程图；

图3是本申请实施例提供的预测方法中获取第一相关距离方法的流程图；

图4是本申请实施例提供的预测方法中获取相关距离样本序列的流程图；

图5是本申请实施例提供的预测装置的模块图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

图1是示出了根据本说明书一实施例的预测方法的应用架构示意图。该应用架构包括计算设备100，网络160和数据库150。

该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接，数据库150用于保存用户数据。

计算设备100还包括接入设备140，接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络160的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC))中的一个或多个，诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口，等等。

在本说明书的一个实施例中，计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图1所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备100可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。

其中，处理器120可以执行图2所示方法中的步骤。图2是示出了根据本说明书一实施例的预测的方法的流程图，包括步骤202至步骤210。

步骤202：获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列。

本申请实施例中，评估对象可以为应用程序或者网页页面。

观测期即对评估对象的观测时间。

留存数据即观测期内，评估对象的预设用户的使用量。

例如以某网页为评估对象为例，假设有1000个预设用户访问某网页，第二天这1000个预设用户访问这个网页的人数为600个，那么第二天的留存数据为600。

本说明书一种实施方式中，获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括：

网络设备、系统及服务程序等，在运作时都会产生一个叫log的事件记录，该事件记录即为评估对象的日志文件。评估对象的日志文件中的每一行日志都记载着日期、时间、使用者及动作等相关操作的描述。

例如，在本申请一实施例中，观测期为31天，以次日留存数据为所述第一留存数据，以30日留存数据为第二留存数据，那么可以从评估对象的日志文件中获取次日留存数据和30日留存数据。

留存数据可以通过留存率表示，留存率＝使用评估对象的预设用户量/预设用户总量*100％。

在评估对象的日志文件中对预设对象数据统计，通过统计获得预设对象的第一天的次日留存数据为30.56，第一天的30日留存数据为9.31；第二天的次日留存数据为32.83，第二天的30日留存数据为5.65；以此类推，得到31天的次日留存数据和30日留存数据，可以分别组合成次日留存数列和30日留存数列，即次日留存数列(30.56 32.83……)，30日留存数列为(9.31 5.65……)，次日留存数列即第一数列，30日留存数列即第二数列。

例如，在本申请一实施例中，假设观测期为31天，在观测期的第一天选定登录购物页面的1000个使用者，第2天根据日志中记载的日期、时间、使用者信息查看选定的1000个使用者的登录数据，假设第2天登录此购物页面的人数为600，那么得到的次日留存数据为600/1000*100％，根据这种计算方法以及日志记载的日期、时间、使用者信息查看选定的1000个使用者第31天登录的数据，得到30日留存数据。

步骤204：将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列，将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组。

本说明书一种实施方式中，对两个留存日的观测数据可以按照从大到小的顺序排列。

例如，在本申请一实施例中，计算次日留存数据和30日留存数据之间的相关性，观测期为31天，第一天的次日留存数据为30.56，第一天的30日留存数据为9.31，第二天的次日留存数据为32.83，第二天的30日留存数据为5.65，以此类推，那么次日留存数据的数列为(30.56 32.83……)，即第一数列；30日留存数据的数列为(9.31 5.65……)，即第二数列。将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，第一数列转换为(21 ……)，即第一次序数列；第二数列转换为(1 2……)，即第二次序数列。那么，观测期的第一天形成的二维数组为(2 1)。(假设次日留存的最大值为32.83，第二大值为30.56；假设30日留存的最大值为9.31，第二大值为5.65)

步骤206：获取N个二维数组，并计算所述N个二维数组的第一相关距离，所述N为所述第一观测期包含的天数，N为正整数。

例如，在本申请一实施例中，以步骤204获得的第一数列和第二数列为例，假设观测期为31天，即N为31，第一数列中的数据由排序后的数列中的序号组成的序号数列为(21……)，即第一次序数列；第二数列中的数据由排序后的数列中的序号组成的序号数列为(1 2……)，即第二次序数列。两个序号数列对应位置的数据分别组成31个二维数组，即(21)、(1 2)……

本说明书一种实施方式中，第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。

图3是示出了本说明书一实施例提供的预测方法中获取第一相关距离方法的流程图，包括步骤302至步骤306。

步骤302：数据提取。

本说明书一种实施方式中，从评估对象的日志文件中获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列。

步骤304：数据排序。

本说明书一种实施方式中，将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列。

例如，在本申请一实施例中，以步骤302为例，得到的第一次序数列为(21 ……)，第二次序数列为(1 2……)。

步骤306：计算相关距离。

本说明书一种实施方式中，相关距离计算通过如下方式得到：

将第一次序数列和第二次序数列在所述第一观测期内同一观察日的数据形成二维数组，获取N个二维数组，所述N为所述第一观测期包含的天数，N为正整数；

利用相关距离公式

计算第一相关距离。其中，F表示所述第一相关距离，x_i表示第i个观测日的第一留存数据在排序后的数列中的序号，y_i表示第i个观测日的第二留存数据在排序后的数列中序号，i表示观测日，N表示观测总天数，x_i和y_i为正数，i和N为正整数。

例如，在本申请一实施例中，观察期为31天时，x₁为第1天的第一留存数据在排序后的数列中的序号，y₁为第1天的第二留存数据在排序后的数列中的序号；x₂为第2天的第一留存数据在排序后的数列中的序号，y₂以为第2天的第二留存数据在排序后的数列中的序号；以此类推，x₃₁为第31天的第一留存数据在排序后的数列中的序号，y₃₁为第31天的第二留存数据在排序后的数列中的序号，则相关距离F＝(x₁-y₁)²+(x₂-y₂)²+……+(x₃₁-y₃₁)²。

本申请实施例中，通过对评估对象的日志文件中预设对象的数据统计获得留存数据，对留存数据处理获得次序数列，利用次序数列里的数据和相关距离公式计算出第一相关距离，根据第一相关距离在相关距离样本的位置可以计算相关系数。

为以此类推，为第步骤208：根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离，确定所述第二相关距离在所述相关距离样本序列中的秩序百分比，将所述秩序百分比作为所述评估对象的相关系数。

图4是示出了本说明书一实施例提供的预测方法中获取相关距离样本序列的流程图，包括步骤402至步骤406。

步骤402：生成大量随机样本值。

本说明书一种实施方式中，随机方式产生设定数量个样本序列包括：

通过hadoop集群产生设定数量个样本序列。

例如，在本申请一实施例中，hadoop集群产生的数量个数是一千万个，样本序列是由1到31这31个数随机组成的数列。

步骤404：计算第二相关距离。

例如，在本申请一实施例中，以31天为观测期，随机生成一千万个样本组，每个样本组中包含1到31这31个数随机组成的数列。计算每个数列与由1到31这31个数的顺序排列的数列之间的相关距离，这样我们可以得到一千万个相关距离。

步骤406：生成样本序列。

将步骤404获得的设定数量个相关距离按从小到大进行排序，生成样本序列。

本申请实施例中，通过随机产生大量样本序列并对样本序列排序，利用相关距离公式计算出第二相关距离，将第二相关距离从小到大排序组成相关距离样本序列，根据第一相关距离在相关距离样本的位置可以计算相关系数。

为了快速获得相关系数，相关距离样本是系统提前计算好的并做成了表格，本申请实施例提供的预测方法中使用的相关距离样本序列如表1所示。在获得了第一相关距离后，通过查询表1所示的相关距离样本序列表即可获得相关系数。例如，在本申请一实施例中，假设观测总天数为15天，计算得到第一相关距离为298，那么查表得到相关系数为4％；如果计算得到的第一相关距离为388，那么查表得到相关系数为13％。

本说明书一种实施方式中，秩序百分比包括第一相关距离在相关距离样本序列中的位置。

例如，在本申请一实施例中，假设观测3天的次日留存率，结果为{0.25,0.24,0.27},观测3天的7日留存率，结果为{0.11,0.10,0.13}，则对次日留存率从大到小排序后的序列为{2，3，1}，也就是说，0.25排在次日留存率的第二位，0.24排在第三位，0.27排在第一位；而7日留存率从大到小排序后的序列为{2，3，1}，根据式(1)可得到相关距离F＝0，此时F＝0即第一相关距离。

随机生成N个样本组，每个样本组包含1到3这3个数值随机组成的数列，计算每个数列与由1到3这3个数顺序排列的数列之间的相关距离F，那么得到N个F值，对这N个F值从小到大排序组成相关距离样本序列。

将上面计算的第一相关距离F＝0放入到相关距离样本序列里，观察第一相关距离F＝0在相关距离样本序列中的位置。第一相关距离F＝0排在相关距离样本序列的第一位，那么观测期为三天的次日留存和7日留存的相关系数是100％。

表1

步骤210：若所述相关系数不大于设定阈值，则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

例如，在本申请一实施例中，假设设定阈值为5％，获得的相关系数为2％，那么相关系数小于设定阈值，说明第一留存数据和第二留存数据具有强相关性；如果获得的相关系数为7％，那么相关系数大于设定阈值，说明第一留存数据和第二留存数据不具有强相关性。

本说明一种实施方式中，根据评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测包括：

根据评估对象在第二观测期内的多个第一留存数据的相关距离对第二观测期内的多个第二留存数据的相关距离进行预测。

本申请实施例中，通过第二观测期内的多个第一留存数据的相关距离评估出第二观测期内的多个第二留存数据的相关距离，比较评估得出的第二观测期内的第二留存数据的相关距离在相关距离样本序列的秩序百分比得到第二观测期内的第二留存数据的相关系数，若所述相关系数不大于设定阈值则，说明在未来，评估对象的用户使用量高，如果相关系数大于设定阈值，说明在未来，评估对象的用户使用量低，从而实现对评估对象未来用户使用情况的预测。

本申请实施例提供的预测方法可以短时间内预测评估对象的留存数据，方便对评估对象进行分析和战略决策时，及时的获得正确的数据，预测市场的投放效果对评估对象是否投放市场进行决策。

与上述方法实施例相对应，本说明书还提供了一种预测装置实施例。图5示出了本说明书一个实施例的预测装置的模块图。如图5所示，该装置500包括获取模块502、排序模块504、计算模块506、查找模块508和预测模块510：

所述获取模块502：被配置为获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据，分别组成第一数列和第二数列。

一个可选的实施例中，所述获取模块进一步被配置为：

所述排序模块504：被配置为将所述第一数列和第二数列中的数据按照设定的顺序进行排序，将第一数列和第二数列中的数据转换为每个数据中在各自排序后的数列中的序号，分别得到第一次序数列和第二次序数列，将第一次序数列和第二次序数列在所述第一观测期内同一观察日的序号形成二维数组。

一个可选的实施例中，所述设定的顺序是按照从大到小的顺序。

所述计算模块506：被配置为获取N个二维数组，并计算所述N个二维数组的第一相关距离，所述N为所述第一观测期包含的天数，N为正整数。

一个可选的实施例中，所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。

一个可选的实施例中，所述第一相关距离按照式1进行计算。

所述查找模块508：被配置为根据所述第一相关距离在相关距离样本序列查找相应的第二相关距离，确定所述第二相关距离在所述相关距离样本序列中的秩序百分比，将所述秩序百分比作为所述评估对象的相关系数。

一个可选的实施例中，所述查找模块如下方式得到相关距离样本序列：

按照设定的方式将样本序列的相关距离进行排列。

一个可选的实施例中，所述查找模块通过hadoop集群产生设定数量个样本序列。

一个可选的实施例中，所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。

所述预测模块510：被配置为若所述相关系数不大于设定阈值则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

一个可选的实施例中，所述预测模板进一步被配置为：

本申请实施例提供的预测装置可以短时间内预测评估对象的留存数据，方便对评估对象进行分析和战略决策时，及时的获得正确的数据，预测市场的投放效果对评估对象是否投放市场进行决策。本说明书一实施例还提供一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，所述处理器执行所述指令时实现预测方法的步骤。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机指令，该指令被处理器执行时实现所述预测的方法步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述方法的技术方案的描述。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书并不受所描述的动作顺序的限制，因为依据本说明书，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种预测方法，其特征在于，包括：

若所述相关系数不大于设定阈值，则判定所述第一留存数据和所述第二留存数据具有强相关性，根据所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数。

2.根据权利要求1所述的方法，其特征在于，所述获取评估对象在第一观测期内的多个第一留存数据和多个第二留存数据包括：

3.根据权利要求1所述的方法，其特征在于，所述设定的顺序是按照从大到小的顺序。

4.根据权利要求1所述的方法，其特征在于，所述第一相关距离通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定。

5.根据权利要求4所述的方法，其特征在于，所述第一相关距离按照如下公式得到：

其中，F表示所述第一相关距离，x_i表示第i个观测日的第一留存数据在排序后的数列中的序号，y_i表示第i个观测日的第二留存数据在排序后的数列中的序号，i表示观测日，N表示观测总天数，x_i和y_i为正数，i和N为正整数。

6.根据权利要求1所述的方法，其特征在于，所述相关距离样本序列通过如下方式得到：

按照设定的方式将样本序列的相关距离进行排列。

7.根据权利要求6所述的方法，其特征在于，所述随机方式产生设定数量个样本序列包括：

通过hadoop集群产生设定数量个样本序列。

8.根据权利要求1所述的方法，其特征在于，所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。

9.根据权利要求1所述的方法，其特征在于，所述评估对象在第二观测期内的多个第一留存数据对所述评估对象在所述第二观测期内的多个第二留存数据进行预测，所述第二观测期总天数大于第一观测期总天数包括：

10.一种预测装置，其特征在于，包括：

11.根据权利要求10所述的装置，其特征在于，所述获取模块进一步被配置为：

12.根据权利要求10所述的装置，其特征在于，所述设定的顺序是按照从大到小的顺序。

13.根据权利要求10所述的装置，其特征在于，所述计算模块通过观测总天数中多个第一留存数据和多个第二留存数据在排序后的数列中的序号确定第一相关距离。

14.根据权利要求13所述的装置，其特征在于，所述第一相关距离按照如下公式得到：

15.根据权利要求10所述的装置，其特征在于，所述查找模块如下方式得到相关距离样本序列：

按照设定的方式将样本序列的相关距离进行排列。

16.根据权利要求15所述的装置，其特征在于，所述查找模块通过hadoop集群产生设定数量个样本序列。

17.根据权利要求10所述的装置，其特征在于，所述秩序百分比包括第一相关距离在相关距离样本序列中的位置。

18.根据权利要求10所述的装置，其特征在于，所述预测模板进一步被配置为：

19.一种计算设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令，其特征在于，所述处理器执行所述指令时实现权利要求1-9任意一项所述方法的步骤。

20.一种计算机可读存储介质，其存储有计算机指令，其特征在于，该指令被处理器执行时实现权利要求1-9任意一项所述方法的步骤。