CN108319600B

CN108319600B - 一种数据挖掘方法及装置

Info

Publication number: CN108319600B
Application number: CN201710030749.4A
Authority: CN
Inventors: 赫彩凤; 潘璐伽; 褚令洋; 雷鸣涛; 裴健
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-01-16
Filing date: 2017-01-16
Publication date: 2021-01-08
Anticipated expiration: 2037-01-16
Also published as: CN108319600A

Abstract

一种数据挖掘方法及装置，涉及数据分析技术领域，用以提高数据挖掘的效率。该方法包括：根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定采样元素序列τ的第一支持度，然后，确定采样元素序列τ包括的至少一个子元素序列，以及每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，最后，根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列，与现有技术相比，降低了需要处理数据的数量，因此提高了数据挖掘的效率。

Description

一种数据挖掘方法及装置

技术领域

本申请涉及数据分析技术领域，特别涉及一种数据挖掘方法及装置。

背景技术

目前，随着通信技术的发展，形成了大量的数据，如何从大量数据中获取有价值的信息成为人们所关注的问题。

如图1所示的网络系统100，包括网络设备1、网络设备2、网络设备3、网络设备4、网络设备5、网络设备6和网络设备7，其中，网络系统100中的各个网络设备之间组成了多条有向路径，具体的，包括由网络设备1、网络设备2、网络设备4、网络设备7组成路径长度为3的有向路径、由网络设备1、网络设备2、网络设备5组成路径长度为2的有向路径、有网络设备1、网络设备3和网络设备7组成路径长度为2的有向路径等。若每个网络设备上分别记录有设备的故障日志，由于网络设备之间具有关联关系，一个网络设备发生故障，有可能导致多个网络设备上记录有故障日志，假设网络设备i上记录有故障日志i，i的取值从1到7连续的正整数，网络设备1发生故障，则错误模式可能为(故障日志1、故障日志2、故障日志4、故障日志7)、或者(故障日志1、故障日志2、故障日志5)，当网络系统中的网络设备个数较多、且每个网络设备上记录的故障日志至少为一个时，则可能存在大量的错误模式，现有技术中通常情况下是通过遍历所有错误模式中找出出现次数最多的错误模式，然而这种方式在数据量较大时，数据挖掘的效率较低。

发明内容

本发明提供一种数据挖掘方法及装置，用以提高数据挖掘的效率。

第一方面，提供了一种数据挖掘方法，包括：

根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定采样元素序列τ的第一支持度，然后，确定采样元素序列τ包括的至少一个子元素序列，以及每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，最后，根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列。

其中，原始节点集合中的每个节点包括至少一个元素，L取遍预设的路径长度集合中的各个值，且L为正整数，第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重，所述全量元素序列由所述原始节点集合中的节点包括的元素组成，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。

需要说明的是，当本申请实施例应用于原始节点集合中存在至少两个节点，由至少两个节点组成至少一条有向路径的场景时，全量元素序列由Q个元素组成，Q个元素分别来自原始节点集合中的Q个节点，且该Q个节点组成了长度为(Q-1)的有向路径。

由于在本申请中基于预设的路径长度集合中的各个路径长度，得到至少一个采样元素序列，然后从采样元素序列中确定至少一个子元素序列，与现有技术中从所有序列中确定至少一个子元素序列相比，降低了需要处理数据的数量，因此提高了数据挖掘的效率。

基于第一方面，还提供了一种从原始节点集合中确定路径长度为L的路径中各个位置上的节点的具体实现方式:

分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率，根据(w-m)个节点分别对应的第m个位置的采样概率，从(w-m)个节点中确定第m个位置上的节点，其中，w为原始节点集合中节点的总个数，(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点，m取遍集合{m|0≤m≤L}中的各个非负整数。

应理解，例如当L＝3时，集合{m|0≤m≤L}中的各个非负整数分别为0、1、2和3，即m取遍0、1、2和3中的各个数。

由于基于各个节点在路径长度为L的路径中第m个位置的采样概率确定第m个位置上的节点，因此提高了确定出来的路径长度为L的路径中各个位置的节点之间关联性与实际节点之间关联性相匹配的可能性。

基于第一方面，在本申请实施例中还提供了确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(v_j)的一种可能的实现方式，通过下述方式简化了采样概率的计算：

其中，V_w为原始节点集合，V_(w-m)为(w-m)个节点的集合，V_(w-m)中不包括已确定的前m个位置上的节点，d_L(v_n)为V_w中距离节点v_n为L的节点的个数，v_n取遍V_w中的各个节点，d_L-m+1(v_m-1)为V_w中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数，d_L-m(v_j)为V_w中距离节点v_j为(L-m+1)的节点的个数，v_j取遍V_(w-m)中的各个节点。

需要说明是，V_w中距离节点v_n为L的节点的个数，具体指的是V_w中以节点v_n为起始点，距离节点v_n为L的节点的个数。

基于第一方面，还提供了确定采样元素序列τ的第一支持度的一种可能的实现方式：

分别确定(L+1)个节点中每个节点包括的元素的总个数，根据确定的(L+1)个节点中每个节点包括的元素的总个数，确定采样元素序列τ的第一支持度，采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。

基于第一方面，为了在便于运算的基础上提高数据挖掘的准确性，还提供了一种从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素的实现方式：

针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点，根据第K个位置上的节点的元素抽样概率，从第K个位置上的节点包括的至少一个元素中抽取一个元素，第K个位置上的节点的元素抽样概率为1/M_K，M_K为第K个位置上的节点包括的元素的总个数，K取遍集合{K|0≤K≤L}中的各个非负整数。

基于第一方面，还提供了一种确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度的可能的实现方式：

针对任一子元素序列，确定包含子元素序列的采样元素序列，将包含子元素序列的采样元素序列分别对应的第一支持度相加，得到与子元素序列的第二支持度。

第二方面，提供了一种数据挖掘装置，包括：数据采样单元和数据挖掘单元，其中，数据采样单元用于根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定采样元素序列τ的第一支持度，且原始节点集合中的每个节点包括至少一个元素，L取遍路径长度集合中的各个值，且L为正整数，第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重，全量元素序列由原始节点集合中的节点包括的元素组成；数据挖掘单元，用于确定采样元素序列τ包括的至少一个子元素序列，并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，以及根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。

基于第二方面，在一种可能的实现方式中，数据采样单元基于下列方式根据预设的路径长度集合中的路径长度L，从原始节点集合中选择(L+1)个节点:

分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率，根据(w-m)个节点分别对应的第m个位置的采样概率，从(w-m)个节点中确定第m个位置上的节点；其中，w为原始节点集合中节点的总个数，(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点，m取遍集合{m|0≤m≤L}中的各个非负整数。

基于第二方面，在一种可能的实现方式中，数据采样单元分别基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(v_j)：

基于第二方面，在一种可能的实现方式中，数据采样单元基于下列方式确定采样元素序列τ的第一支持度：

分别确定(L+1)个节点中每个节点包括的元素的总个数，并根据确定的(L+1)个节点中每个节点包括的元素的总个数，确定采样元素序列τ的第一支持度，采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。

基于第二方面，在一种可能的实现方式中，数据采样单元基于下列方式分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素：

针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点，根据第K个位置上的节点的元素抽样概率，从第K个位置上的节点包括的至少一个元素中抽取一个元素，第K个位置上的节点的元素抽样概率为1/M_K，M_K为第K个位置上的节点包括的元素的总个数，K取遍集合{K0≤K≤L}中的各个非负整数。

基于第二方面，在一种可能的实现方式中，数据挖掘单元基于下列方式确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度：

针对任一子元素序列，确定包含子元素序列的采样元素序列，并将包含子元素序列的采样元素序列分别对应的第一支持度相加，得到与子元素序列的第二支持度。

第三方面，本申请实施例提供一种数据挖掘装置，包括处理器和存储器，存储器用于存储程序，处理器调用存储器存储的程序，以执行本申请第一方面提供的任一方法。

第四方面，本申请实施例提供一种数据挖掘装置，包括用于执行以上第一方面的任一方法的至少一个处理元件(或芯片)。

第五方面，本申请实施例提供一种数据挖掘程序，该程序在被处理器执行时用于执行以上第一方面的任一方法。

第六方面，本申请实施例提供一种程序产品，例如计算机可读存储介质，包括第五方面的程序。

附图说明

图1为现有技术中网络系统示意图；

图2为本申请实施例数据挖掘方法的流程示意图；

图3为本申请实施例应用场景示意图；

图4为本申请实施例有向路径示意图；

图5为本申请实施例数据挖掘装置的示意图；

图6为本申请实施例数据挖掘装置的硬件结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合说明书附图对本申请的实施例作进一步详细描述。

本申请实施例应用于各个节点之间具有有向图数据结构的频繁序列的挖掘，例如确定网络系统中出现次数最多的故障日志序列、引用关系的挖掘或者网络舆情的分析等。

以引用关系的挖掘为例，其应用场景可以为：确定各个学术论文关键词序列出现的次数较多的序列，若假设每篇学术论文为一个节点，一篇学术论文引用另一篇学术论文，则构成一个节点指向另一个节点的有向路径，现有技术中在确定各个学术论文关键词序列出现的次数较多的序列时，需要从所有可能的关键词序列集合中确定，其中关键词序列中关键词的顺序代表了关键词所属的学术论文之间的引用关系。

为了提高数据挖掘的效率，提出了一种新的数据挖掘方法。由于在本申请的数据挖掘方法中，先基于预设的路径长度集合中的各个路径长度，得到至少一个采样元素序列，然后从采样元素序列中确定至少一个子元素序列，与现有技术中从所有序列中确定至少一个子元素序列相比，降低了处理数据的数量，因此提高了数据挖掘的效率。

如图2所示，本申请实施例数据挖掘的方法，包括：

步骤200，根据预设的路径长度集合中的路径长度L，从原始节点集合中选择(L+1)个节点，原始节点集合中的每个节点包括至少一个元素，L取遍所述路径长度集合中的各个值，且L为正整数。

需要说明的是，本申请实施例中可以用于于原始节点集合中存在至少两个节点，由至少两个节点组成至少一条有向路径的应用场景，具体的，原始节点集合中的所有节点并非每个节点之间存在有向路径，如图3所示，节点V1与节点V2之间存在有向路径，节点V5与节点V6之间不存在有向路径。

步骤210，分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定采样元素序列τ的第一支持度，第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重，全量元素序列由所述原始节点集合中的节点包括的元素组成。

此外，当本申请实施例应用于原始节点集合中存在至少两个节点，由至少两个节点组成至少一条有向路径的应用场景时，全量元素序列由Q个元素组成，Q个元素分别来自原始节点集合中的Q个节点，且由Q个节点组成长度为(Q-1)的有向路径，即，全量采样元素序列为组成各个路径长度的节点中所包括的元素构成的各种可能的元素序列，其中，该元素序列中各个元素在该元素序列中的位置与所来自的节点在路径中的位置相同。以图3为例，由节点V1、节点V2和节点V5组成路径长度为2的路径，假设节点V1中包括元素X₁、X₂、X₃，节点V2中包括元素X₃、X₄，节点V5包括元素X₄、X₃，其中一个全量元素序列则为(X₁、X₃、X₄)，其中，X₁来自节点V1，X₃来自节点V2，X₄来自节点V5，其中全量元素序列中元素的排列顺序与各个节点在路径中的指向顺序相同。

步骤220，确定采样元素序列τ包括的至少一个子元素序列。

具体的，至少一个子元素序列分别为对采样元素序列τ包括的不同元素进行组合得到的，当本申请实施例应用于原始节点集合中存在至少两个节点，由至少两个节点组成至少一条有向路径的应用场景时，子元素序列中各个元素的顺序需要与采样元素序列中对应各个元素的顺序相同。以图3为例，若一个采样元素序列τ为(X₁、X₃、X₄)，则子元素序列可以为(X₁、X₃、X₄)、(X₁、X₃)、(X₁、X₄)、(X₃、X₄)、(X₁)、(X₃)、(X₄)，而当元素序列为(X₃、X₁)时，则不是采样元素序列τ的子元素序列。

步骤230，确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，其中，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。

步骤240，根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列。

应理解，在本申请实施例中的执行主体可以为终端设备，如台式计算机等，还可以为服务器。

具体的，本申请实施例中一种从原始节点集合中确定路径长度为L的路径中各个位置上的节点的具体实现方式:

在本申请实施例中可以通过不同的算法确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率，例如当通过平均概率确定各个节点在路径长度为L的路径中第m个位置的采样概率时，(w-m)个节点中各个节点的在路径长度为L的路径中第m个位置的采样概率为1/(w-m)，此外，当本申请实施例应用于原始节点集合中存在至少两个节点，由至少两个节点组成至少一条有向路径的应用场景时，为了提高确定的采样概率的可靠性，可基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率：

需要说明是，V_w中距离节点v_n为L的节点的个数，具体指的是V_w中以节点v_n为起始点，距离节点v_n为L的节点的个数，以图3为例，距离节点V₂为1的节点的节点有V₁、V₄、V₅，但在本申请实施例中距离节点V₂为1的节点中不包括V₁，只包括V₄、V₅，因此距离节点V₂为1的节点的个数为2。

具体的，在本申请实施例中，为了简化运算，可基于下列方式确定采样元素序列τ的第一支持度：

分别确定(L+1)个节点中每个节点包括的元素的总个数；

根据确定的(L+1)个节点中每个节点包括的元素的总个数，确定采样元素序列τ的第一支持度，采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。

除此之外，还可基于其他现有的方式确定采样元素序列τ的第一支持度，在本申请实施例中不做限定。

此外，在本申请实施例中还提供了一种较为易于实现的分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素的方式：

针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点，根据第K个位置上的节点的元素抽样概率，从第K个位置上的节点包括的至少一个元素中抽取一个元素，第K个位置上的节点的元素抽样概率为1/M_K，M_K为所述第K个位置上的节点包括的元素的总个数，K取遍集合{K|0≤K≤L}中的各个非负整数。

需要说明的是，除了本申请实施例提供的基于元素抽样概率的方式抽取元素以外，还可以进行随机抽样，或是采用现有技术中其它的元素抽样方式，在此不做限定。

下面以图3为例对本申请实施例进行具体介绍。

具体的，如图3所示的有向图300，原始节点集合中包括7个节点，分别为V₁、V₂、V₃、V₄、V₅、V₆、V₇，假设V₁中包括3个元素，分别为X₁、X₂、X₃，V₂中包括2个元素，分别为X₃、X₄，V₃中包括3个元素，分别为X₁、X₂、X₃，V₄中包括2个元素，分别为X₃、X₄，V₅中包括2个元素，分别为X₄、X₃，V₆中包括1个元素，分别为X₂，V₇中包括1个元素，分别为X₂。

假设预设路径长度集合中包括两个路径长度，其中L₁＝2、L₂＝3。

当L₁＝2时，以图3为例，本申请中基于下列方式从V₁、V₂、V₃、V₄、V₅、V₆、V₇中选择3个节点：

首先，确定L₁＝2的路径中第0个位置的节点，具体的，为了保证采样得到的采样元素序列中的元素之间的关联性，先确定V₁、V₂、V₃、V₄、V₅、V₆、V₇分别作为L₁＝2的路径中第0个位置的节点的概率，然后基于确定的V₁、V₂、V₃、V₄、V₅、V₆、V₇分别作为L₁＝2的路径中第0个位置的节点的概率，选择V₁、V₂、V₃、V₄、V₅、V₆、V₇中的一个节点作为第0个位置的节点。

需要说明的是，V₁、V₂、V₃、V₄、V₅、V₆、V₇分别作为L₁＝2的路径中第0个位置的节点的概率，为V₁、V₂、V₃、V₄、V₅、V₆、V₇各个节点在L₁＝2的路径中第0个位置的采样概率。

在本申请实施例中，可以基于下列表达式确定V₁、V₂、V₃、V₄、V₅、V₆、V₇分别作为L₁＝2的路径中第0个位置的节点的概率：

其中，

为距离节点V_j长度为2的节点的个数，需要说明的是，从节点V_j作为起始节点，距离节点V_j长度为2的节点的个数

以图3为例，距离V₁长度为2的节点有V₂、V₄、V₆3个，因此，

距离V₂长度为2的节点有V₇1个，因此，

距离V₃长度为2的节点有0个，因此，

距离V₄长度为2的节点有0个，因此，

同理，

因此，

同理，

Pr(V₃)＝Pr(V₄)＝Pr(V₅)＝Pr(V₆)＝Pr(V₇)＝0。

假设根据各个节点在路径长度L₁的路径中第0个位置的采样概率，确定第0个位置的节点为V₁，则从V₂、V₃、V₄、V₅、V₆、V₇中确定L₁＝2的路径中第1个位置的节点。

其中，在本申请实施例中，可先确定V₂、V₃、V₄、V₅、V₆、V₇分别在L₁＝2的路径中第1个位置的采样概率，然后根据V₂、V₃、V₄、V₅、V₆、V₇分别在L₁＝2的路径中第1个位置的采样概率，从V₂、V₃、V₄、V₅、V₆、V₇中选择一个节点作为L₁＝2的路径中第1个位置的节点，应理解，V₂、V₃、V₄、V₅、V₆、V₇分别在L₁＝2的路径中第1个位置的采样概率即为V₂、V₃、V₄、V₅、V₆、V₇分别作为L₁＝2的路径中第1个位置的节点的概率。

具体的，根据下列表达式确定V₂、V₃、V₄、V₅、V₆、V₇分别在L₁＝2的路径中第1个位置的采样概率：

以d₁(V₂)为例，在图3中，距离节点V₂的距离为1的节点有V₁、V₄和V₅，但是以V₂为起始点，距离节点V₂的距离为1的节点只有V₄和V₅，而节点V₁与节点V₂之间的距离为1，但起始点为V₁，因此，d₁(V₂)＝2。

因此，

若选择V₂作为L₁＝2的路径中第1个位置上的节点，则再从V₃、V₄、V₅、V₆、V₇确定L₁＝2的路径中第2个位置上的节点；具体的，基于下列表达式确定V₃、V₄、V₅、V₆、V₇中各个节点分别在L₁＝2的路径中第2个位置的采样概率：

由于距离节点V_j等于0的节点只有该节点本身，因此d₀(V_j)＝1。

然后，基于V₃、V₄、V₅、V₆、V₇中各个节点分别在L₁＝2的路径中第2个位置的采样概率，从V₃、V₄、V₅、V₆、V₇中选择一个节点，假设选择的节点为V₅，则如图4所示的L₁＝2的路径中第0个位置上的节点为V₁，第1个位置上的节点为V₂，第1个位置上的节点为V₅。

然后，分别从节点为V₁、节点V₂、节点V₅所包括的元素中抽取一个元素，得到一个采样元素序列。

在本申请中，基于下列方式分别从节点为V₁、节点V₂、节点V₅所包括的元素中抽取一个元素：

以从节点V₁中抽取一个元素为例，从节点V₂、节点V₅所包括的元素中抽取元素的方式与节点V₁中抽取一个元素的方式类似，在此不再一一赘述。

由于节点V₁中包括3个元素，因此，节点V₁的元素抽样概率为1/3；而节点V₂中包括2个元素，因此，节点V₂的元素抽样概率为1/2，依次类推，V₅中包括2个元素，节点V₅的元素抽样概率为1/2。

根据元素抽样概率1/3，从节点V₁包括的元素X₁、X₂、X₃，抽取一个元素。假设基于上述方法，分别从节点V₁、节点V₂、节点V₅所包括的元素中抽取元素的元素为X₁、X₄、X₃，由于L₁＝2的路径中第0个位置上的节点为V₁，第1个位置上的节点为V₂，第1个位置上的节点为V₅，则采样元素序列为(X₁、X₄、X₃)。

采样元素序列的第一支持度为路径长度为L_i的路径中各个节点所包括的元素的总个数的乘积，则当L₁＝2的路径中第0个位置上的节点为V₁，节点V₁中包括3个元素，第1个位置上的节点为V₂，节点V₂中包括2个元素，第1个位置上的节点为V₅，节点V₅中包括2个元素时，采样元素序列的第一支持度为12。

当L₂＝3时，得到采样元素序列的方式与当L₁＝2时得到采样元素序列的方式类似，当L₂＝3时确定采样元素序列的第一支持度的方式与当L₁＝2时确定采样元素序列的方式类似，在此不再一一赘述。

假设当L₁＝2时，得到采样元素序列为(X₁、X₄、X₃)；当L₂＝3时，得到的采样元素序列为(X₁、X₄、X₃、X₂)；则采样元素序列(X₁、X₄、X₃)中包括子元素序列(X₁、X₄、X₃)(X₁、X₄)、(X₁、X₃)、(X₄、X₃)、(X₁)、(X₄)、(X₃)，其中，子元素序列中的各个元素的相对位置不变，例如，采样元素序列(X₁、X₄、X₃)中X₁在X₄、X₃之前，X₄在X₃之前。采样元素序列(X₁、X₄、X₃、X₂)的子元素序列包括(X₁、X₄、X₃、X₂)、(X₁、X₄、X₃)、(X₁、X₄、X₂)、(X₁、X₃、X₂)、(X₄、X₃、X₂)、(X₁、X₄)、(X₁、X₃)、(X₁、X₂)、(X₄、X₃)、(X₄、X₂)、(X₃、X₂)、(X₁)、(X₄)、(X₃)、(X₂)，其中，由于采样元素序列(X₁、X₄、X₃)和采样元素序列(X₁、X₄、X₃、X₂)中均包括子元素序列(X₁、X₄、X₃)、(X₁、X₄)、(X₁、X₃)、(X₄、X₃)、(X₁)、(X₄)、(X₃)，则子元素序列(X₁、X₄、X₃)、(X₁、X₄)、(X₁、X₃)、(X₄、X₃)、(X₁)、(X₄)、(X₃)分别对应的第二支持度为采样元素序列(X₁、X₄、X₃)的第一支持度和采样元素序列(X₁、X₄、X₃、X₂)的第一支持度之和。

应理解，在本申请实施例中，由于每个子元素序列分为为一种序列模式，因此子元素序列中的元素相同，但是排列顺序不同时，是不同的子元素序列。

此外，在步骤240，根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列。

具体的，可以按照第二支持度从高到低的顺序对多个子元素序列进行排列，然后选择出第二支持度排在前n位的子元素序列，其中，n根据实际需求进行设定，；或者，选择出第二支持度大于预设阈值的子元素序列，其中，预设阈值根据实际情况进行设定，亦或者从包括m个元素的子元素序列中选择出第二支持度排列在前n位的子元素序列。

在本申请中不对从多个子元素序列中选择出至少一个子元素序列的选择方式进行限定。

当有向图为除图3之外的有向图结构时，也可采用本申请实施例数据挖掘的方法。

基于同一构思，本申请实施例中还提供了一种数据挖掘装置，由于本申请实施例中的装置对应的方法为本申请实施例数据挖掘方法，因此本申请实施例装置的实施可以参见该方法的实施，重复之处不再赘述。

如图5所示，本申请实施例数据挖掘装置500，包括：数据采样单元510和数据挖掘单元520，其中，数据采样单元510，用于根据预设的路径长度集合中的路径长度L，从原始节点集合中选择(L+1)个节点，分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定采样元素序列τ的第一支持度，原始节点集合中的每个节点包括至少一个元素，L取遍路径长度集合中的各个值，且L为正整数，第一支持度用于指示采样元素序列τ_i在全量元素序列集合中所占的比重，全量元素序列由原始节点集合中的节点包括的元素组成；数据挖掘单元520，用于确定采样元素序列τ包括的至少一个子元素序列，至少一个子元素序列分别为对采样元素序列τ包括的不同元素进行组合得到的，并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，以及根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。

在一种可能的实现方式中，数据采样单元510基于下列方式根据预设的路径长度集合中的路径长度L，从原始节点集合中选择(L+1)个节点:

在一种可能的实现方式中，数据采样单元510分别基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(v_j)：

在一种可能的实现方式中，数据采样单元510基于下列方式确定采样元素序列τ的第一支持度：

在一种可能的实现方式中，数据采样单元510基于下列方式分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素：

在一种可能的实现方式中，数据挖掘单元520基于下列方式确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度：

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个物理单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外，本申请提供的装置实施例附图中，单元之间的连接关系表示它们之间具有通信连接，具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

在本申请实施例中，数据采样单元510和数据采样单元520对应于实体设备中的处理器，其中如图6所示的数据挖掘装置600的硬件结构示意图，包括包括处理器610、通信接口620和存储器630。其中，存储器630可以用于存储装置600出厂时预装的程序/代码，也可以存储用于执行本申请实施例的程序，以供处理器610执行，还可以存储处理器610执行的其它程序等。

其中，处理器610可以采用通用的CPU(Central Processing Unit，中央处理器)，微处理器，ASIC(Application Specific Integrated Circuit，应用专用集成电路)，或者一个或多个集成电路，用于执行相关操作，以实现本申请实施例所提供的技术方案。

应注意，尽管图6所示的装置仅仅示出了处理器610、通信接口620和存储器630，但是在具体实现过程中，本领域的技术人员应当明白，该装置600还包含实现正常运行所必须的其他器件。同时，根据具体需要，本领域的技术人员应当明白，该装置600还可包含实现其他附加功能的硬件器件。此外，本领域的技术人员应当明白，该装置600也可仅仅包含实现本申请实施例所必须的器件或模块，而不必包含图6中所示的全部器件。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述的存储介质可为磁盘、光盘、ROM(Read-Only Memory，只读存储记忆体)或RAM(Random Access Memory，随机存储记忆体)等。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到本申请实施例所述的绘图装置可借助软件加必需的通用硬件的方式来实现，当然也可以通过专用硬件包括专用集成电路、专用CPU(Central Processing Unit，中央处理器)、专用存储器、专用元器件等来实现。一般情况下，凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现，而且，用来实现同一功能的具体硬件结构也可以是多种多样的，例如模拟电路、数字电路或专用电路等。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据挖掘方法，其特征在于，应用于终端设备，包括：

根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，所述原始节点集合中的每个节点包括至少一个元素，L取遍所述路径长度集合中的各个值，且L为正整数；所述原始节点集合包括网络系统中用于数据通信的节点；

分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定所述采样元素序列τ的第一支持度，所述第一支持度用于指示所述采样元素序列τ在全量元素序列集合中所占的比重，所述全量元素序列由所述原始节点集合中的节点包括的元素组成；所述每个节点包括的至少一个元素是从该节点获取到的；

确定所述采样元素序列τ包括的至少一个子元素序列；

确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，其中，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的；

根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列。

2.如权利要求1所述的方法，其特征在于，根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，包括:

分别确定(w-m)个节点中各个节点在所述路径长度为L的路径中第m个位置的采样概率，w为所述原始节点集合中节点的总个数，(w-m)个节点为所述原始节点集合中不包括已确定的前m个位置上的节点，m取遍集合{m|0≤m≤L}中的各个非负整数；

根据所述(w-m)个节点分别对应的第m个位置的采样概率，从所述(w-m)个节点中确定所述第m个位置上的节点。

3.如权利要求2所述的方法，其特征在于，分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(v_j)：

其中，V_w为所述原始节点集合，V_(w-m)为(w-m)个节点的集合，V_(w-m)中不包括已确定的前m个位置上的节点，d_L(v_n)为V_w中距离节点v_n为L的节点的个数，v_n取遍V_w中的各个节点，d_L-m+1(v_m-1)为V_w中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数，d_L-m(v_j)为V_w中距离节点v_j为(L-m+1)的节点的个数，v_j取遍V_(w-m)中的各个节点。

4.如权利要求1至3任一所述的方法，其特征在于，确定所述采样元素序列τ的第一支持度，包括：

分别确定所述(L+1)个节点中每个节点包括的元素的总个数；

根据确定的所述(L+1)个节点中每个节点包括的元素的总个数，确定所述采样元素序列τ的第一支持度，所述采样元素序列τ的第一支持度为所述(L+1)个节点中每个节点包括的元素的总个数的乘积。

5.如权利要求1至3任一所述的方法，其特征在于，分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，包括：

针对所述(L+1)个节点中在路径长度为L的路径中第K个位置上的节点，根据所述第K个位置上的节点的元素抽样概率，从所述第K个位置上的节点包括的至少一个元素中抽取一个元素，所述第K个位置上的节点的元素抽样概率为1/M_K，M_K为所述第K个位置上的节点包括的元素的总个数，K取遍集合{K|0≤K≤L}中的各个非负整数。

6.如权利要求1至3任一所述的方法，其特征在于，确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，包括：

针对任一子元素序列，确定包含所述子元素序列的采样元素序列；

将包含所述子元素序列的采样元素序列分别对应的第一支持度相加，得到与所述子元素序列的第二支持度。

7.一种数据挖掘装置，其特征在于，包括：

数据采样单元，用于根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，得到采样元素序列τ，并确定所述采样元素序列τ的第一支持度，且所述原始节点集合中的每个节点包括至少一个元素，L取遍所述路径长度集合中的各个值，且L为正整数，所述第一支持度用于指示所述采样元素序列τ在全量元素序列集合中所占的比重，所述全量元素序列由所述原始节点集合中的节点包括的元素组成；所述原始节点集合包括网络系统中用于数据通信的节点；所述每个节点包括的至少一个元素是从该节点获取到的；

数据挖掘单元，用于确定所述采样元素序列τ包括的至少一个子元素序列，并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，以及根据各个子元素序列分别对应的第二支持度，从多个子元素序列中选择出至少一个子元素序列，每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。

8.如权利要求7所述的装置，其特征在于，所述数据采样单元根据预设的路径长度集合中的路径长度L，从原始节点集合中确定(L+1)个节点，具体用于:

分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率，根据所述(w-m)个节点分别对应的第m个位置的采样概率，从所述(w-m)个节点中确定所述第m个位置上的节点；

其中，w为所述原始节点集合中节点的总个数，(w-m)个节点为所述原始节点集合中不包括已确定的前m个位置上的节点，m取遍集合{m|0≤m≤L}中的各个非负整数。

9.如权利要求8所述的装置，其特征在于，所述数据采样单元分别基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(v_j)：

10.如权利要求7至9任一所述的装置，其特征在于，所述数据采样单元确定所述采样元素序列τ的第一支持度，具体用于：

分别确定所述(L+1)个节点中每个节点包括的元素的总个数，并根据确定的所述(L+1)个节点中每个节点包括的元素的总个数，确定所述采样元素序列τ的第一支持度，所述采样元素序列τ的第一支持度为所述(L+1)个节点中每个节点包括的元素的总个数的乘积。

11.如权利要求7至9任一所述的装置，其特征在于，所述数据采样单元分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素，具体用于：

针对所述(L+1)个节点中在所述路径长度为L的路径中第K个位置上的节点，根据所述第K个位置上的节点的元素抽样概率，从所述第K个位置上的节点包括的至少一个元素中抽取一个元素，所述第K个位置上的节点的元素抽样概率为1/M_K，M_K为所述第K个位置上的节点包括的元素的总个数，K取遍集合{K|0≤K≤L}中的各个非负整数。

12.如权利要求7至9任一所述的装置，其特征在于，所述数据挖掘单元确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度，具体用于：

针对任一子元素序列，确定包含所述子元素序列的采样元素序列，并将包含所述子元素序列的采样元素序列分别对应的第一支持度相加，得到与所述子元素序列的第二支持度。