CN105095613A

CN105095613A - 一种基于序列数据进行预测的方法及装置

Info

Publication number: CN105095613A
Application number: CN201410152686.6A
Authority: CN
Inventors: 梁辰; 范伟
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2014-04-16
Filing date: 2014-04-16
Publication date: 2015-11-25
Anticipated expiration: 2034-04-16
Also published as: CN105095613B

Abstract

本发明公开了一种基于序列数据进行预测的方法及装置，用以建立序列数据之间的联系，提高对序列数据预测的准确性。该方法为：获取终端中存储的第一序列数据；根据预设的采样方法，从所述第一序列数据中获取序列模式，所述序列模式为所述第一序列数据中满足预设条件的数据元素的组合；利用序列模式图对所述序列模式进行匹配，获取匹配的结果；根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测。

Description

一种基于序列数据进行预测的方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于序列数据进行预测的方法及装置。

背景技术

在移动互联网应用中，数据量往往随着用户数量的增长呈指数级增长。移动互联网数据通常具有覆盖用户广、动态变化大、关联性强等特点。移动互联网数据的这些特性为数据应用提出一个难题，虽然拥有海量数据，但是却面临无从下手的窘境。因此一个须待解决的问题是，如何能够让系统自动从数据中抽取有用信息以构建动态模型，而非人为事先指定数据之间的关联。这样所构建的模型能够在更广泛的领域中被采纳和应用。

传感器数据流和用户行为数据成为现今物联网和移动互联网上的主要数据来源，这些数据主要以序列的方式呈现。在不同的移动应用中所采集到的行为数据含义也有所不同，可以是用户的地理位置坐标，签到记录，手机程序使用记录等。这些数据随着时间的变化而不断更新。

同时，因为某些特定的原因或情景，在这些序列数据中也会体现出特定的序列模式。例如，一个人在工作日的移动行为可以在签到序列中表现出{家，地铁站，公司，地铁站，家}这样的特定序列模式，其产生的原因是因为工作这一特定情境；而在周末的休闲购物，则可能产生{家，商场，超市}这样的序列模式。

如果能够构建一种基于序列的动态模型，用以表达数据的潜在成因及其变化关系，那么便可以通过该模型实现对用户行为模式的抽象描述。对于在线用户行为预测，产品推荐以及群体行为趋势预测等场景提供有效的解决方案。

现有技术中提出了基于隐马尔科夫链(HiddenMarkovChain)的建模算法，为了简化模型构建，通常采用一阶马尔科夫链来建模动态序列，具体如下：

用隐藏状态变量表示一些不可直接观测到的状态，对于这些状态的计算通过系统推理所得。如图1所示，每一个隐藏状态变量Xt只由其前一个状态变量Xt-1所决定，与更早的状态无关。例如，今天下雨的状态仅与昨天下雨有关，而与前天的天气无关。隐藏状态之间通过一个转移矩阵P(Xt|Xt-1)来表明各个隐藏状态从当前状态转移到下一个状态的可能概率。

对于所观测到的实际数据，则用一个可观测变量O来表示。在同一时刻，每一个可观测变量对应一个隐藏状态变量。例如，可以观测到的状态为路上的行人是否打伞这一特征，而隐藏的状态为天气。系统要做的就是利用观测路人打伞的结果去推断当前的天气。可观测变量和隐藏状态变量之间的关系，可以用一个输出矩阵P(Ot|Xt)来表明在一个隐藏状态下，可能观察到的实际状态的概率。

采用一阶马尔科夫链构建的模型主要可以用于以下几个方面：

a.已知模型参数P(Xt|Xt-1)和P(Ot|Xt)，计算某一特定输出序列概率P(O1,O2,…,Ot)；

b.已知模型参数，寻找最可能产生某一特定输出序列的隐藏状态序列{X1,X2,…,Xt}；

c.已知可观测序列{O1,O2,…,Ot}，寻找最可能的状态转移及输出概率P(Xt|Xt-1)和P(Ot|Xt)。

现有技术的不足主要在于，一阶马尔科夫链这种理想化的建模方式虽然简化了计算过程，但并未准确的表述现实应用中的变量影响情况，难以保证数据分析的准确性，使用局限性较大。

发明内容

本发明提供一种基于序列数据进行预测的方法及装置，用以建立序列数据之间的联系，提高对序列数据预测的准确性。

本发明实施例提供的具体技术方案如下：

第一方面，本发明提供了一种基于序列数据进行预测的方法，包括：

获取终端中存储的第一序列数据；

根据预设的采样方法，从所述第一序列数据中获取序列模式，所述序列模式为所述第一序列数据中满足预设条件的数据元素的组合；

利用序列模式图对所述序列模式进行匹配，获取匹配的结果；

根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测。

结合第一方面，在第一方面的第一种可能的实现方式中，所述利用序列模式图对所述序列模式进行匹配之前，还包括：

获取预设数量的历史序列数据；

确定所述历史序列数据包含的基元序列模式，所述基元序列模式至少为两个，所述基元序列模式为所述历史序列数据中满足预设条件的数据元素的组合；

根据所述基元序列模式在所述历史序列数据中的起始位置确定所述基元序列模式之间的关系；

根据所述基元序列模式之间的关系构建序列模式图。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述基元序列模式包括第一基元序列模式和第二基元序列模式；

根据所述基元序列模式在所述序列数据中的起始位置确定所述基元序列模式之间的关系，包括：

若所述第一基元序列模式的起始位置不在所述第二基元序列模式的起始位置之前，并且所述第一基元序列模式的终止位置不在所述第二基元序列模式的终止位置之后，则所述第一基元序列模式被包含在所述第二基元序列模式中；

若所述第一基元序列模式的起始位置在所述第二基元序列模式的终止位置之前，且所述第一基元序列模式的终止位置在所述第二基元序列模式的终止位置之后，则所述第一基元序列模式前向重叠于所述第二基元序列模式，所述第二基元序列模式后向重叠于所述第一基元序列模式；

若所述第一基元序列模式的起始位置等于所述第二基元序列模式的终止位置加1，则所述第一基元序列模式前向相邻于所述第二基元序列模式，所述第二基元序列模式后向相邻于所述第一基元序列模式。

结合第一方面或第一方面的第一种可能的实现方式或第一方面的第二种可能的实现方式，在第三种可能的实现方式中，所述利用序列模式图对所述序列模式进行匹配，获取匹配的结果具体包括：

遍历所述序列模式图，获取与所述序列模式匹配的第三基元序列模式；

根据所述第三基元序列模式在所述序列模式图中的位置，获取符合预设条件的候选元素；

根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测包括：

确定所述候选元素为所述第一序列数据中即将产生的元素。

结合第一方面的第三种可能的实现方式，在第一方面的第四种可能的实现方式中，所述基元序列模式包括模式影响力或模式间关系强度；

根据所述第三基元序列模式在所述序列模式图中的位置，获取符合预设条件的候选元素包括：

根据所述第三基元序列模式的模式影响力或模式间关系强度对所述第三基元序列模式进行排序，获取排列顺序为第一的第三基元序列模式；

根据所述排列顺序为第一的第三基元序列模式在所述序列模式图中的位置，确定所述序列模式在所述序列模式图中的位置；

根据所述序列模式在所述序列模式图中的位置，确定候选元素。

结合第一方面的第三种可能的实现方式，在第一方面的第五种可能的实现方式中，所述基元序列模式包括模式影响力或模式间关系强度；

根据所述第三基元序列模式在所述序列模式图中的位置确定所述第三基元序列模式所对应的第一候选元素；

当所述第一候选元素为至少两个时，根据所述第三基元序列模式的模式影响力或模式间关系强度，对所述第一候选元素进行加权统计，获取所述第一候选元素的加权统计结果；

确定所述加权统计结果中的最大值所对应的第一候选元素为第二候选元素；

确定所述第二候选元素为所述第一序列数据中即将产生的元素。

结合第一方面的第五种可能的实现方式，在第一方面的第六种可能的实现方式中，所述确定所述加权统计结果中的最大值所对应的所述第一候选元素为第二候选元素之后，还包括：

按照预设的第一加分标准对所述第二候选元素所对应的第三基元序列模式的模式影响力和模式间关系强度进行调整；

按照预设的第二加分标准对与所述第二候选元素所对应的第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。

第二方面，本发明提供了一种基于序列数据进行预测的装置，包括：

第一获取模块，用于获取终端中存储的第一序列数据；

第二获取模块，用于根据预设的采样方法，从所述第一获取模块获取序列模式，所述序列模式为所述第一序列数据中满足预设条件的数据元素的组合；

匹配模块，用于利用序列模式图对所述序列模式进行匹配，获取匹配的结果；

预测模块，用于根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测。

结合第二方面，在第二方面的第一种可能的实现方式中，所述装置还包括模式图构建模块，所述模式图构建模块包括获取单元、确定单元，判断单元和构建单元，

所述获取单元，具体用于获取预设数量的历史序列数据；

所述确定单元，具体用于确定所述历史序列数据中包含的基元序列模式，所述基元序列模式至少为两个，所述基元序列模式为所述历史序列数据中满足预设条件的数据元素的组合；

所述判断单元，具体用于根据所述基元序列模式在所述历史序列数据中的起始位置确定所述基元序列模式之间的关系；

所述构建单元，具体用于根据所述基元序列模式之间的关系构建序列模式图；

所述匹配模块，具体用于利用所述模式图构建模块构建的序列模式图对所述第二获取模块获取的所述序列模式进行匹配，获取匹配的结果。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述基元序列模式包括第一基元序列模式和第二基元序列模式；

所述判断单元具体用于：

结合第二方面或第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式，在第三种可能的实现方式中，所述匹配模块具体用于：

所述预测模块具体用于：

确定所述候选元素为所述第一序列数据中即将产生的元素。

结合第二方面的第三种可能的实现方式，在第二方面的第四种可能的实现方式中，所述基元序列模式包括模式影响力和模式间关系强度；

所述匹配模块具体用于：

结合第二方面的第三种可能的实现方式，在第二方面的第五种可能的实现方式中，所述基元序列模式包括模式影响力和模式间关系强度；

所述匹配模块具体用于：

确定所述加权统计结果中的最大值所对应的所述第一候选元素为第二候选元素；

所述预测模块具体用于：

结合第二方面的第五种可能的实现方式，在第二方面的第六种可能的实现方式中，所述匹配模块还用于：

基于上述技术方案，本发明实施例中，利用序列模式图对从第一序列数据采样获得的序列模式进行匹配，根据匹配的结果对第一序列数据即将出现的元素进行预测，建立了序列数据之间的联系，能够根据相互关联的序列数据进行预测，提高了序列数据预测的准确性。

附图说明

图1为隐马尔科夫链示意图；

图2为本发明实施例中基于序列数据进行预测的方法流程示意图；

图3为本发明实施例中构建序列模式图的过程示意图；

图4为本发明实施例中序列模式图结构示意图；

图5为本发明实施例中序列模式图动态构建过程示意图；

图6为本发明实施例中单用户未来行为预测示意图；

图7为本发明实施例中多用户模型分析示意图；

图8a为本发明实施例中基于序列数据进行预测的装置结构示意图；

图8b为本发明实施例中另一基于序列数据进行预测的装置结构示意图；

图9为本发明实施例中终端设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

下面结合附图对本发明的实施方式进行详细说明。

如图2所示，本发明实施例中，基于序列数据进行预测的详细方法流程如下：

步骤201：获取终端中存储的第一序列数据。

其中，第一序列数据为一维或多维数据。例如，全球定位系统（GPS）的三维坐标数据。

其中，第一序列数据可以是各种应用场景下的数据，例如字符串、网页访问地址、购物货品名称、基因标识等序列数据，其中每个元素代表一个状态或者类别，以第一序列数据为用户移动行为中的地点签到序列为例，第一序列数据中的每个元素表示为在某时间点上的状态。

步骤202：根据预设的采样方法，从第一序列数据中获取序列模式，该序列模式为第一序列数据中满足预设条件的数据元素的组合。

步骤203：利用序列模式图对序列模式进行匹配，获取匹配的结果。

步骤204：根据匹配的结果，对第一序列数据中即将出现的元素进行预测。

其中，序列模式图为根据历史序列数据中包含的各基元序列模式之间的关系构建获得的，该历史序列数据与所述第一序列数据表示同一类型的事件，该序列模式图用于表征基元序列模式的影响力以及基元序列模式之间的模式间关系强度。

可选地，在执行步骤203之前，构建序列模式图，具体过程如下：

获取预设数量的历史序列数据；

其中，该历史序列数据与第一序列数据为同种类型数据；

确定历史序列数据中包含的基元序列模式，该基元序列模式至少为两个，且该基元序列模式为历史序列数据中满足预设条件的数据元素的组合；

根据基元序列模式在历史序列数据中的起始位置确定基元序列模式之间的关系；

根据基元序列模式之间的关系构建序列模式图。

其中，历史序列数据与第一序列数据为同种类型的数据，实际应用中有多种情况，列举如下：历史序列数据与第一序列数据表示同一执行主体在不同时刻的动作或状态；或者，历史序列数据与第一序列数据表示同一事物在不同时刻的状态；或者，历史序列数据与第一序列数据表示同一场景下的不同事物或事件。

具体实施中，采用现有的序列挖掘算法在历史序列数据中挖掘满足预设条件的数据元素的组合，获得各基元序列模式。

其中，预设条件包括但不限于：最长重复序列、最大非串联重复序列、特定元素组合序列、特定长度序列等。根据特定条件的不同，采用的数据挖掘算法也不相同。本发明实施例并不以采用何种数据挖掘算法为限，只要能够获得满足特定条件的数据元素的组合即可应用于本发明。

其中，各基元序列模式之间的关系，包括但不限于：

拥有或被包含关系；

前向重叠或后向重叠关系；

前向相邻或后向相邻关系。

可选地，基元序列模式包括第一基元序列模式和第二基元序列模式，根据基元序列模式在序列数据中的起始位置确定基元序列模式之间的关系，具体过程如下：

确定第一基元序列模式在序列数据中的所有起始和终止位置对，该起始和终止位置对包括第一基元序列模式在序列数据中的一个起始位置和相应的终止位置；

根据第一基元序列模式的各起始和终止位置对，确定与第一基元序列模式起始和终止位置对关联的其它各基元序列模式的起始和终止位置对；确定第一基元序列模式和其它各基元序列模式之间的关系。

可选地，根据第一基元序列模式的各起始和终止位置对，与其它各基元序列模式的第二基元序列模式的起始和终止位置对，确定第一基元序列模式和第二基元序列模式之间的关系；

若第一基元序列模式的起始位置不在第二基元序列模式的起始位置之前，并且第一基元序列模式的终止位置不在第二基元序列模式的终止位置之后，则第一基元序列模式被包含在第二基元序列模式中；

若第一基元序列模式的起始位置在第二基元序列模式的终止位置之前，且第一基元序列模式的终止位置在第二基元序列模式的终止位置之后，则第一基元序列模式前向重叠于第二基元序列模式，第二基元序列模式后向重叠于第一基元序列模式；

若第一基元序列模式的起始位置等于第二基元序列模式的终止位置加1，则第一基元序列模式前向相邻于第二基元序列模式，第二基元序列模式后向相邻于第一基元序列模式。

可选地，步骤203中，利用序列模式图对序列模式进行匹配的具体过程为：遍历序列模式图，获取与序列模式匹配的第三基元序列模式；根据第三基元序列模式在所述序列模式图中的位置，获取符合预设条件的候选元素。相应地，步骤204中将步骤203中确定的候选元素确定为第一序列数据中即将产生的元素。

其中，根据第三基元序列模式在序列模式图中的位置，获取符合预设条件的候选元素有以下两种具体实现方式：

第一种具体实现方式中，序列模式图中的各基元序列模式包括模式影响力或模式间关系强度，根据第三基元序列模式的模式影响力或模式间关系强度对第三基元序列模式进行排序，获取排列顺序为第一的第三基元序列模式；根据排列顺序为第一的第三基元序列模式在序列模式图中的位置，确定序列模式在序列模式图中的位置；根据序列模式在序列模式图中的位置，确定候选元素。

具体地，若序列模式与第三基元序列模式中的全部序列数据相匹配，在进行排序时采用该第三基元序列模式的模式间关系强度；

若序列模式与第三基元序列模式的部分数据相匹配，在进行排序时采用该第三基元序列模式的模式影响力。

可选地，获取与序列模式匹配的第三基元序列模式之后，按照预设的第一增加标准对第三基元序列模式的模式影响力和模式间关系强度进行调整。

可选地，获取排列顺序为第一的第三基元序列模式之后，若排列顺序为第一的第三基元序列模式所对应的候选元素与产生时间晚于第一序列数据的元素相同，对序列模式图中基元序列模式的参数进行调整，具体为：

按照预设的第二增加标准对排列顺序为第一的第三基元序列模式的模式影响力和模式间关系强度进行调整；以及按照预设的第三增加标准对与第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。

该具体实现中，通过对序列模式图中与序列模式匹配的基元序列模式的影响力和模式间关系强度进行微调整，以及对作出正确预测的基元序列模式以及该作出正确预测的基元序列模式相连接的模式的影响力和模式间关系强度进行较大程度的调整，以提高根据序列模式图进行预测的准确性。

第二种具体实现方式中，基元序列模式包括模式影响力或模式间关系强度，根据第三基元序列模式在序列模式图中的位置确定第三基元序列模式所对应的第一候选元素；当第一候选元素为至少两个时，根据第三基元序列模式的模式影响力或模式间关系强度，对第一候选元素进行加权统计，获取第一候选元素的加权统计结果；确定加权统计结果中的最大值所对应的第一候选元素为第二候选元素。相应地，步骤204中将第二候选元素确定为第一序列数据中即将产生的元素。

具体地，若序列模式与第三基元序列模式中的全部序列数据相匹配，将与该第三基元序列模式相关联的基元序列模式的第一个元素确定为第一候选元素，将该第三基元序列模式的模式间关系强度作为加权值对该第一候选元素进行加权统计。

若序列模式与第三基元序列模式中的部分数据相匹配，将该第三基元序列模式中位置在序列模式相匹配元素之后的第一个元素确定第一候选元素，将该第三基元序列模式的模式影响力作为加权值对该第一候选元素进行加权统计。

可选地，若第二候选元素与产生时间晚于第一序列数据的元素相同，对序列模式图中基元序列模式的参数进行调整，具体为：

按照预设的第一加分标准对第二候选元素所对应的第三基元序列模式的模式影响力和模式间关系强度进行调整；

按照预设的第二加分标准对与第二候选元素所对应的第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。

该具体实现中，通过对序列模式图中作出正确预测的基元序列模式以及该作出正确预测的基元序列模式相连接的模式的影响力和模式间关系强度进行不同程度的调整，以提高根据序列模式图进行预测的准确性。

具体地，采用第三基元序列模式的影响力或模式间关系强度对所对应的第一候选元素进行加权统计，获得第一候选元素的加权统计值；根据各第一候选元素的加权统计值，计算获得所有第一候选元素的加权统计值的概率分布的熵值；将熵值加1作为第一加分标准所对应的调整值；

将第一加分标准所对应的调整值乘以从所对应的第三基元序列模式到与该第三基元序列模式位置相关联的基元序列模式的传播比例，作为第二加分标准的调整值，该传播比例为该第三基元序列模式与位置相关联的基元序列模式之间的模式间关系强度，与该第三基元序列模式的影响力的比值。

具体地，计算各第一候选元素的加权统计值之和，得到所有第一候选元素的总加权统计值，以及计算第一候选元素的加权统计值与所有第一候选元素的总加权统计值的比值，得到第一候选元素的得票概率；

根据各第一候选元素的得票概率，计算获得所有第一候选元素的总加权统计值的概率分布的熵值。

可选地，按照公式计算获得所述熵值，其中，ε_sup表示所述熵值，P(S_pred)表示某一第一候选元素的得票概率，Q表示第一候选元素的总数量。

具体实施中，基于采用挖掘算法得到的基元序列模式构建一个序列模式图，该序列模式图反映了各个基元序列模式在历史中的影响力和相关联强度，假设用记号(,G,ω,θ)来表示所要构建的模型结构及其参数。其中，“”表示基元序列模式集合，G表示序列模式图结构,ω表示模式影响力,θ表示模式间关系强度。其中，模式图构建具体为：根据各个基元序列模式在整个序列中所出现的相对位置，将每一个基元序列模式与其它基元序列模式用有向图进行连接，并标识出两个模式之间的关系。

以下通过一个具体实施例对本发明实施例中提供的构建序列模式图的过程中，对基元序列模式的影响力或模式间关系强度进行调整的过程进行说明。

如图3所示，在不断读入序列元素的过程中，构建序列模式图，具体实施如下：识别出基元序列模式β_new；记录所识别出的基元序列模式β_new在整个序列数据S中所有m个起始和终止位置对{(p_start,p_end)₁,(p_start,p_end)₂,…,(p_start,p_end)_m}，根据元素产生的时间从早到晚的顺序，采用从小到大的数值作为元素标记，例如p_start<p_end表示在位置p_start上的元素出现的时间要早于p_end上的元素。根据该基元序列模式β_new的各个起始和终止位置对分别查找位置对对应的其它基元序列模式β’的起始和终止位置对(p’_start,p’_end)。根据基元序列模式β_new和其它基元序列模式β’的起始和终止位置对的确定两者的相对位置，并在模式图上连接两个基元序列模式，标记相互关系。如图4所示，如果，p_start≥p’_start并且p_end≤p’_end则标记为β_new被包含在β’中，或β’拥有β_new。如果，p_start≤p’_end并且p_end>p’_end则标记为β_new前向重叠于β’或β’后向重叠于β_new。如果，p_start=p’_end+1并且p_end≥p’_end+1则标记为β_new前向相邻于β’或β’后向相邻于β_new。

在构建模式图的过程中，通过估计、验证和传播三个阶段组成一个反馈过程，计算调整各基元序列模式的影响力ω和基元序列模式之间的模式间关系强度θ。假设各基元序列模式的影响力ω和基元序列模式之间的关系强度θ，在计算调整之前的初始值为零。

可选地，构建序列模式图的过程中，每在已构建的序列模式图中增加一个基元序列模式则需要对已构建的序列模式图中的各基元序列模式的影响力以及模式间关系强度进行调整，具体如下：

若序列模式图中已存在的基元序列模式中包含的前缀子序列与待加入的基元序列模式相同，则将该已存在的基元序列模式作为支持模式，并将与该已存在的基元序列模式中的前缀子序列位置相邻的下一个元素作为第一候选元素；

若序列数据中出现时间在待加入的基元序列模式之后的元素与第一候选元素相同，将该第一候选元素确定为第二候选元素，将与第二候选元素相关的各支持模式的影响力和模式间关系强度按照第一加分标准增加第一奖励值，以及将与第二候选元素相关的各支持模式位置相关联的基元序列模式的影响力和模式间关系强度按照第二加分标准增加第二奖励值。

可选地，采用与第一候选元素相应的各支持模式的影响力或模式间关系强度进行投票，获得第一候选元素的累计总得票；根据各第一候选元素的累计总得票，计算获得所有第一候选元素的累计总得票的概率分布的熵值；将熵值加1作为第一奖励值；将第一奖励值乘以从支持模式到与支持模式位置相关联的基元序列模式的传播比例，作为第二奖励值，该传播比例为该支持模式与位置相关联的基元序列模式之间的模式间关系强度，与该支持模式的影响力的比值。

可选地，采用与第一候选元素相应的各支持模式的影响力或模式间关系强度进行投票，具体为：若第一候选元素属于所对应的支持模式，则该支持模式对该第一候选元素的投票权值为该支持模式的影响力；

若第一候选元素属于与所对应的支持模式位置相关联的基元序列模式，则该支持模式对第一候选元素的投票权值为该支持模式的模式间关系强度。

具体地，计算各第一候选元素的累计总得票之和，得到所有第一候选元素的总得票，以及计算第一候选元素的累计总得票与所有第一候选元素的总得票的比值，得到第一候选元素的得票概率；

根据各第一候选元素的得票概率，计算获得所有第一候选元素的累计总得票的概率分布的熵值。

可选地，按照公式计算获得所述熵值，其中，ε_sup表示所述熵值，P(S_pred)表示某一候选元素的得票概率，Q表示候选元素的总数量。

以下通过举例对构建序列模式图的过程进行说明。

假设支持模式为β_support=[s_u,...s_v-1,s_v...s_w]，当前序列为S=[s₀,...s_j...s_i]，支持模式的前缀[s_u,...s_v-1]与当前序列的最近几个元素[s_j...s_i-1]相匹配，所有支持模式将所匹配前缀子序列的下一个元素作为第一候选元素推荐出来，则元素s_v将被推荐出来作为第一候选元素。

如果支持模式β_support=[s_u,...s_v-1,s_v...s_w]全部与当前序列的最近几个元素[s_j...s_i-1]相匹配，在模式图中选择与该支持模式相连接的基元序列模式（即邻居模式β_neighbor）的首元素作为第一候选元素。

假设s_v表示第一候选元素，β_support表示支持模式，β_neighbor表示与支持模式相连接的邻居模式，support_weight(s_v)表示为第一候选元素s_v从某一基元序列模式得到的票数。如果，第一候选元素s_v来自于β_support，则投票权值为ω。如果第一候选元素s_v来自于β_neighbor，则投票权值为θ，公式表示如下：

support_weight (s_{v}) = \{\begin{matrix} ω & if s_{v} from β_{support} \\ θ & if s_{v} from β_{neighbor} \end{matrix} .

假设support_weight_acc(s_v)表示为第一候选元素s_v从K个模式中得到的累积总票数，公式表示为：

support_{weight}_{acc} (s_{v}) = Σ_{k = 1}^{K} support_weight (s_{v}) .

假设support_weight_total表示为所有第一候选元素的总得票，P(S_pred=s_v)表示某一第一候选元素s_v的得票概率，公式表示如下：

P (S_{pred} = s_{v}) = \frac{support_{weight}_{acc} (s_{v})}{support_{weight}_{totol}} .

假设ε_sup表示熵值，P(S_pred)表示某一第一候选元素的得票概率，Q表示第一候选元素的总数量，公式表示如下：

ϵ_{\sup} = \frac{- \underset{Q}{Σ} P (S_{pred}) \ln P (S_{pred})}{\ln Q} .

若当前序列的下一个序列数据为第一候选元素s_v，则与该第一候选元素s_v相关的各支持模式的模式影响力以及模式间关系强度增加第一奖励值，以及将与该第一候选元素s_v的支持模式相关联的各邻居模式的影响力以及模式间关系强度增加第二奖励值。

假设△ε表示为第一奖励值，用公式表示如下：

△ε=1+ε_sup。

假设表示为从基元序列模式βa到基元序列模式βb的传播比例。θ_βa→βb表示为从基元序列模式βa到基元序列模式βb的模式间关系强度，ω_βa为基元序列模式βa的影响力，公式表示如下：

r_{prop}^{βa &RightArrow; βb} = \frac{θ_{βa &RightArrow; βb}}{ω_{βa}} .

假设△ε_βa表示基元序列模式βa的第一奖励值，△ε_βb表示从基元序列模式βa传播到基元序列模式βb之后，给基元序列模式βb的第二奖励值，用公式表示如下：

Δ ϵ_{βb} = Δ ϵ_{βa} * r_{prop}^{βa &RightArrow; βb} .

其中，每挖掘出一个新的基元序列模式，在将该新的基元序列模式加入模式图后，按照上述过程调整各基元序列模式的影响力和模式间关系强度。如图5所示，读取当前序列数据S_i和新挖掘出的基元序列模式β₅；验证S_i与支持模式所估计的数据是否相同，并调整做出正确预测的支持模式的影响力和模式间关系强度；以及调整做出正确预测的支持模式的邻居模式的影响力和模式间关系强度；将新挖掘出的基元序列模式β₅连接至序列模式图中；选择出新的支持模式，估计下一个数据，重复上述过程。

本发明实施例中，序列数据所表示的事件状态可以为多种场景下的事件状态。

例如，序列数据可以表示用户行为、基于地理位置的社交网络中用户的签到位置、手机操作系统中开启的应用程序、网络购物中用户选购的商品类型等。

若序列数据表示用户行为，根据各基元序列模式的影响力和模式间关系强度对用户行为进行预测，如图6所示；

若序列数据表示社交网络中用户的签到位置，根据各基元序列模式的影响力和模式间关系强度对用户下一个可能的签到位置进行预测，进行精确信息投递；

若序列数据表示手机操作系统中开启的应用程序，根据各基元序列模式的影响力和模式间关系强度对用户下一阶段可能开启的应用程序进行预测，以提前加载该应用程序至内存，以提高系统的切换速度。

本发明实施例中，还可以基于序列模式图对不同的执行主体的事件状态进行建模，即对多条并行的序列数据进行分析，可检测不同执行主体的事件发生的相似性，以预测事件趋同的可能性，以采取相应措施。以多用户响应系统为例，对多用户行为建模，即对多条并行的序列数据进行分析，可以检测多用户行为的相似性，如图7所示，并预测用户行为趋同的可能性，以便系统提前分流，防止拥塞。

基于相同的原理，如图8a所示，本发明实施例还提供了一种基于序列数据进行预测的装置，该装置的具体实施可参见上述方法部分的描述，重复之处不再赘述，该装置主要包括：

第一获取模块801，用于获取终端中存储的第一序列数据；

第二获取模块802，用于根据预设的采样方法，从所述第一获取模块获取序列模式，所述序列模式为所述第一序列数据中满足预设条件的数据元素的组合；

匹配模块803，用于利用序列模式图对所述序列模式进行匹配，获取匹配的结果；

预测模块804，用于根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测。

可选地，如图8b所示，所述装置还包括模式图构建模块805，模式图构建模块包括获取单元8051、确定单元8052，判断单元8053和构建单元8054，其中，

获取单元8051，具体用于获取预设数量的历史序列数据；

确定单元8052，具体用于确定所述历史序列数据中包含的基元序列模式，所述基元序列模式至少为两个，所述基元序列模式为所述历史序列数据中满足预设条件的数据元素的组合；

判断单元8053，具体用于根据所述基元序列模式在所述历史序列数据中的起始位置确定所述基元序列模式之间的关系；

构建单元8054，具体用于根据所述基元序列模式之间的关系构建序列模式图；

匹配模块803，具体用于利用模式图构建模块805构建的序列模式图对第二获取模块802获取的所述序列模式进行匹配，获取匹配的结果。

可选地，各基元序列模式之间的关系，包括：

拥有或被包含关系；

前向重叠或后向重叠关系；

前向相邻或后向相邻关系。

可选地，基元序列模式包括第一基元序列模式和第二基元序列模式，模式图构建模块中的判断单元具体用于：

可选地，匹配模块具体用于：

所述预测模块具体用于：

确定所述候选元素为所述第一序列数据中即将产生的元素。

其中，根据第三基元序列模式获取候选元素有以下两种具体实现方式：

第一种具体实现方式中，基元序列模式包括模式影响力和模式间关系强度；匹配模块根据第三基元序列模式的模式影响力或模式间关系强度对所述第三基元序列模式进行排序，获取排列顺序为第一的第三基元序列模式；根据所述排列顺序为第一的第三基元序列模式在所述序列模式图中的位置，确定所述序列模式在所述序列模式图中的位置；根据所述序列模式在所述序列模式图中的位置，确定候选元素。

第二种具体实现方式中，基元序列模式包括模式影响力和模式间关系强度；匹配模块根据所述第三基元序列模式在所述序列模式图中的位置确定所述第三基元序列模式所对应的第一候选元素；当所述第一候选元素为至少两个时，根据所述第三基元序列模式的模式影响力或模式间关系强度，对所述第一候选元素进行加权统计，获取所述第一候选元素的加权统计结果；确定所述加权统计结果中的最大值所对应的所述第一候选元素为第二候选元素；

相应地，预测模块具体用于：

可选地，该具体实现方式中，匹配模块在确定第二候选元素后，按照预设的第一加分标准对第二候选元素所对应的第三基元序列模式的模式影响力和模式间关系强度进行调整；按照预设的第二加分标准对与第二候选元素所对应的第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。

基于相同的原理，如附图9所示，还提供了一种终端设备，该终端设备的具体实施可参见上述方法部分的描述，重复之处不再赘述，该设备主要包括存储器901和处理器902，具体如下：

处理器902，用于从存储器901中获取第一序列数据，根据预设的采样方法，从第一序列数据中获取序列模式，所述序列模式为所述第一序列数据中满足预设条件的数据元素的组合，利用序列模式图对所述序列模式进行匹配，获取匹配的结果，根据所述匹配的结果，对所述第一序列数据中即将出现的元素进行预测。

可选地，处理器902还用于：

从存储器901中获取预设数量的历史序列数据；确定所述历史序列数据中包含的基元序列模式，所述基元序列模式至少为两个，所述基元序列模式为所述历史序列数据中满足预设条件的数据元素的组合；根据所述基元序列模式在所述历史序列数据中的起始位置确定所述基元序列模式之间的关系；根据所述基元序列模式之间的关系构建序列模式图。

可选地，基元序列模式包括第一基元序列模式和第二基元序列模式；

处理器902具体用于：

可选地，处理器902具体用于：

遍历所述序列模式图，获取与所述序列模式匹配的第三基元序列模式；根据所述第三基元序列模式在所述序列模式图中的位置，获取符合预设条件的候选元素；确定所述候选元素为所述第一序列数据中即将产生的元素。

其中，处理器902确定候选元素的有以下两种具体实现方式：

第一种具体实现方式中，基元序列模式包括模式影响力和模式间关系强度；

处理器902具体用于：

第二种具体实现方式中，基元序列模式包括模式影响力和模式间关系强度；

处理器902具体用于：

确定所述加权统计结果中的最大值所对应的所述第一候选元素为第二候选元素，确定所述第二候选元素为所述第一序列数据中即将产生的元素。

可选地，该具体实现方式中，处理器902按照预设的第一加分标准对所述第二候选元素所对应的第三基元序列模式的模式影响力和模式间关系强度进行调整；按照预设的第二加分标准对与所述第二候选元素所对应的第三基元序列模式有连接关系的基元序列模式的模式影响力和模式间关系强度进行调整。

基于上述技术方案，本发明实施例中，通过构建序列模式图，该序列模式图中包含的相互关联的各基元序列模式，每个基元序列模式包含有影响力和模式间关系强度，可以表示序列数据背后的隐藏因素实现用户行为状态的关联建模，建立序列数据之间的联系，再根据构建的序列模式图对序列数据进行预测，相较于现有的采用一阶马尔科夫链进行理想化建模的方式，能够更准确的表述现实应用中变量的影响，提高了序列数据分析的准确性，提高了对序列数据所表示的事件状态预测的准确性。

并且，本发明实施例无需指定任何模型参数，能够随着序列数据分布的变化实时更新序列模式图的模型参数，实现较为准确的事件未来状态预测。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于序列数据进行预测的方法，其特征在于，包括：

获取终端中存储的第一序列数据；

2.根据权利要求1所述的方法，其特征在于，所述利用序列模式图对所述序列模式进行匹配之前，还包括：

获取预设数量的历史序列数据；

根据所述基元序列模式之间的关系构建序列模式图。

3.根据权利要求2所述的方法，其特征在于，所述基元序列模式包括第一基元序列模式和第二基元序列模式；

4.根据权利要求1至3任一所述的方法，其特征在于，所述利用序列模式图对所述序列模式进行匹配，获取匹配的结果具体包括：

确定所述候选元素为所述第一序列数据中即将产生的元素。

5.根据权利要求4所述的方法，其特征在于，所述基元序列模式包括模式影响力或模式间关系强度；

6.根据权利要求4所述的方法，其特征在于，所述基元序列模式包括模式影响力或模式间关系强度；

7.根据权利要求6所述的方法，其特征在于，所述确定所述加权统计结果中的最大值所对应的所述第一候选元素为第二候选元素之后，还包括：

8.一种基于序列数据进行预测的装置，其特征在于，包括：

第一获取模块，用于获取终端中存储的第一序列数据；

9.根据权利要求8所述的装置，其特征在于，所述装置还包括模式图构建模块，所述模式图构建模块包括获取单元、确定单元，判断单元和构建单元，

所述获取单元，具体用于获取预设数量的历史序列数据；

10.根据权利要求9所述的装置，其特征在于，所述基元序列模式包括第一基元序列模式和第二基元序列模式；

所述判断单元具体用于：

11.根据权利要求8至10任一所述的装置，其特征在于，所述匹配模块具体用于：

所述预测模块具体用于：

确定所述候选元素为所述第一序列数据中即将产生的元素。

12.根据权利要求11所述的装置，其特征在于，所述基元序列模式包括模式影响力和模式间关系强度；

所述匹配模块具体用于：

13.根据权利要求11所述的装置，其特征在于，所述基元序列模式包括模式影响力和模式间关系强度；

所述匹配模块具体用于：

所述预测模块具体用于：

14.根据权利要求13所述的装置，其特征在于，所述匹配模块还用于：