CN108319600B - 一种数据挖掘方法及装置 - Google Patents
一种数据挖掘方法及装置 Download PDFInfo
- Publication number
- CN108319600B CN108319600B CN201710030749.4A CN201710030749A CN108319600B CN 108319600 B CN108319600 B CN 108319600B CN 201710030749 A CN201710030749 A CN 201710030749A CN 108319600 B CN108319600 B CN 108319600B
- Authority
- CN
- China
- Prior art keywords
- node
- nodes
- element sequence
- sampling
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000007418 data mining Methods 0.000 title claims abstract description 34
- 238000005070 sampling Methods 0.000 claims abstract description 149
- 238000004891 communication Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000014509 gene expression Effects 0.000 claims description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000005065 mining Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000002131 composite material Substances 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002184 metal Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000764238 Isis Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种数据挖掘方法及装置,涉及数据分析技术领域,用以提高数据挖掘的效率。该方法包括:根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定采样元素序列τ的第一支持度,然后,确定采样元素序列τ包括的至少一个子元素序列,以及每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,最后,根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列,与现有技术相比,降低了需要处理数据的数量,因此提高了数据挖掘的效率。
Description
技术领域
本申请涉及数据分析技术领域,特别涉及一种数据挖掘方法及装置。
背景技术
目前,随着通信技术的发展,形成了大量的数据,如何从大量数据中获取有价值的信息成为人们所关注的问题。
如图1所示的网络系统100,包括网络设备1、网络设备2、网络设备3、网络设备4、网络设备5、网络设备6和网络设备7,其中,网络系统100中的各个网络设备之间组成了多条有向路径,具体的,包括由网络设备1、网络设备2、网络设备4、网络设备7组成路径长度为3的有向路径、由网络设备1、网络设备2、网络设备5组成路径长度为2的有向路径、有网络设备1、网络设备3和网络设备7组成路径长度为2的有向路径等。若每个网络设备上分别记录有设备的故障日志,由于网络设备之间具有关联关系,一个网络设备发生故障,有可能导致多个网络设备上记录有故障日志,假设网络设备i上记录有故障日志i,i的取值从1到7连续的正整数,网络设备1发生故障,则错误模式可能为(故障日志1、故障日志2、故障日志4、故障日志7)、或者(故障日志1、故障日志2、故障日志5),当网络系统中的网络设备个数较多、且每个网络设备上记录的故障日志至少为一个时,则可能存在大量的错误模式,现有技术中通常情况下是通过遍历所有错误模式中找出出现次数最多的错误模式,然而这种方式在数据量较大时,数据挖掘的效率较低。
发明内容
本发明提供一种数据挖掘方法及装置,用以提高数据挖掘的效率。
第一方面,提供了一种数据挖掘方法,包括:
根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定采样元素序列τ的第一支持度,然后,确定采样元素序列τ包括的至少一个子元素序列,以及每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,最后,根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列。
其中,原始节点集合中的每个节点包括至少一个元素,L取遍预设的路径长度集合中的各个值,且L为正整数,第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重,所述全量元素序列由所述原始节点集合中的节点包括的元素组成,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。
需要说明的是,当本申请实施例应用于原始节点集合中存在至少两个节点,由至少两个节点组成至少一条有向路径的场景时,全量元素序列由Q个元素组成,Q个元素分别来自原始节点集合中的Q个节点,且该Q个节点组成了长度为(Q-1)的有向路径。
由于在本申请中基于预设的路径长度集合中的各个路径长度,得到至少一个采样元素序列,然后从采样元素序列中确定至少一个子元素序列,与现有技术中从所有序列中确定至少一个子元素序列相比,降低了需要处理数据的数量,因此提高了数据挖掘的效率。
基于第一方面,还提供了一种从原始节点集合中确定路径长度为L的路径中各个位置上的节点的具体实现方式:
分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,根据(w-m)个节点分别对应的第m个位置的采样概率,从(w-m)个节点中确定第m个位置上的节点,其中,w为原始节点集合中节点的总个数,(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数。
应理解,例如当L=3时,集合{m|0≤m≤L}中的各个非负整数分别为0、1、2和3,即m取遍0、1、2和3中的各个数。
由于基于各个节点在路径长度为L的路径中第m个位置的采样概率确定第m个位置上的节点,因此提高了确定出来的路径长度为L的路径中各个位置的节点之间关联性与实际节点之间关联性相匹配的可能性。
基于第一方面,在本申请实施例中还提供了确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(vj)的一种可能的实现方式,通过下述方式简化了采样概率的计算:
其中,Vw为原始节点集合,V(w-m)为(w-m)个节点的集合,V(w-m)中不包括已确定的前m个位置上的节点,dL(vn)为Vw中距离节点vn为L的节点的个数,vn取遍Vw中的各个节点,dL-m+1(vm-1)为Vw中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数,dL-m(vj)为Vw中距离节点vj为(L-m+1)的节点的个数,vj取遍V(w-m)中的各个节点。
需要说明是,Vw中距离节点vn为L的节点的个数,具体指的是Vw中以节点vn为起始点,距离节点vn为L的节点的个数。
基于第一方面,还提供了确定采样元素序列τ的第一支持度的一种可能的实现方式:
分别确定(L+1)个节点中每个节点包括的元素的总个数,根据确定的(L+1)个节点中每个节点包括的元素的总个数,确定采样元素序列τ的第一支持度,采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。
基于第一方面,为了在便于运算的基础上提高数据挖掘的准确性,还提供了一种从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素的实现方式:
针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点,根据第K个位置上的节点的元素抽样概率,从第K个位置上的节点包括的至少一个元素中抽取一个元素,第K个位置上的节点的元素抽样概率为1/MK,MK为第K个位置上的节点包括的元素的总个数,K取遍集合{K|0≤K≤L}中的各个非负整数。
基于第一方面,还提供了一种确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度的可能的实现方式:
针对任一子元素序列,确定包含子元素序列的采样元素序列,将包含子元素序列的采样元素序列分别对应的第一支持度相加,得到与子元素序列的第二支持度。
第二方面,提供了一种数据挖掘装置,包括:数据采样单元和数据挖掘单元,其中,数据采样单元用于根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定采样元素序列τ的第一支持度,且原始节点集合中的每个节点包括至少一个元素,L取遍路径长度集合中的各个值,且L为正整数,第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重,全量元素序列由原始节点集合中的节点包括的元素组成;数据挖掘单元,用于确定采样元素序列τ包括的至少一个子元素序列,并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,以及根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。
基于第二方面,在一种可能的实现方式中,数据采样单元基于下列方式根据预设的路径长度集合中的路径长度L,从原始节点集合中选择(L+1)个节点:
分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,根据(w-m)个节点分别对应的第m个位置的采样概率,从(w-m)个节点中确定第m个位置上的节点;其中,w为原始节点集合中节点的总个数,(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数。
基于第二方面,在一种可能的实现方式中,数据采样单元分别基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(vj):
其中,Vw为原始节点集合,V(w-m)为(w-m)个节点的集合,V(w-m)中不包括已确定的前m个位置上的节点,dL(vn)为Vw中距离节点vn为L的节点的个数,vn取遍Vw中的各个节点,dL-m+1(vm-1)为Vw中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数,dL-m(vj)为Vw中距离节点vj为(L-m+1)的节点的个数,vj取遍V(w-m)中的各个节点。
基于第二方面,在一种可能的实现方式中,数据采样单元基于下列方式确定采样元素序列τ的第一支持度:
分别确定(L+1)个节点中每个节点包括的元素的总个数,并根据确定的(L+1)个节点中每个节点包括的元素的总个数,确定采样元素序列τ的第一支持度,采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。
基于第二方面,在一种可能的实现方式中,数据采样单元基于下列方式分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素:
针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点,根据第K个位置上的节点的元素抽样概率,从第K个位置上的节点包括的至少一个元素中抽取一个元素,第K个位置上的节点的元素抽样概率为1/MK,MK为第K个位置上的节点包括的元素的总个数,K取遍集合{K0≤K≤L}中的各个非负整数。
基于第二方面,在一种可能的实现方式中,数据挖掘单元基于下列方式确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度:
针对任一子元素序列,确定包含子元素序列的采样元素序列,并将包含子元素序列的采样元素序列分别对应的第一支持度相加,得到与子元素序列的第二支持度。
第三方面,本申请实施例提供一种数据挖掘装置,包括处理器和存储器,存储器用于存储程序,处理器调用存储器存储的程序,以执行本申请第一方面提供的任一方法。
第四方面,本申请实施例提供一种数据挖掘装置,包括用于执行以上第一方面的任一方法的至少一个处理元件(或芯片)。
第五方面,本申请实施例提供一种数据挖掘程序,该程序在被处理器执行时用于执行以上第一方面的任一方法。
第六方面,本申请实施例提供一种程序产品,例如计算机可读存储介质,包括第五方面的程序。
附图说明
图1为现有技术中网络系统示意图;
图2为本申请实施例数据挖掘方法的流程示意图;
图3为本申请实施例应用场景示意图;
图4为本申请实施例有向路径示意图;
图5为本申请实施例数据挖掘装置的示意图;
图6为本申请实施例数据挖掘装置的硬件结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面结合说明书附图对本申请的实施例作进一步详细描述。
本申请实施例应用于各个节点之间具有有向图数据结构的频繁序列的挖掘,例如确定网络系统中出现次数最多的故障日志序列、引用关系的挖掘或者网络舆情的分析等。
以引用关系的挖掘为例,其应用场景可以为:确定各个学术论文关键词序列出现的次数较多的序列,若假设每篇学术论文为一个节点,一篇学术论文引用另一篇学术论文,则构成一个节点指向另一个节点的有向路径,现有技术中在确定各个学术论文关键词序列出现的次数较多的序列时,需要从所有可能的关键词序列集合中确定,其中关键词序列中关键词的顺序代表了关键词所属的学术论文之间的引用关系。
为了提高数据挖掘的效率,提出了一种新的数据挖掘方法。由于在本申请的数据挖掘方法中,先基于预设的路径长度集合中的各个路径长度,得到至少一个采样元素序列,然后从采样元素序列中确定至少一个子元素序列,与现有技术中从所有序列中确定至少一个子元素序列相比,降低了处理数据的数量,因此提高了数据挖掘的效率。
如图2所示,本申请实施例数据挖掘的方法,包括:
步骤200,根据预设的路径长度集合中的路径长度L,从原始节点集合中选择(L+1)个节点,原始节点集合中的每个节点包括至少一个元素,L取遍所述路径长度集合中的各个值,且L为正整数。
需要说明的是,本申请实施例中可以用于于原始节点集合中存在至少两个节点,由至少两个节点组成至少一条有向路径的应用场景,具体的,原始节点集合中的所有节点并非每个节点之间存在有向路径,如图3所示,节点V1与节点V2之间存在有向路径,节点V5与节点V6之间不存在有向路径。
步骤210,分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定采样元素序列τ的第一支持度,第一支持度用于指示采样元素序列τ在全量元素序列集合中所占的比重,全量元素序列由所述原始节点集合中的节点包括的元素组成。
此外,当本申请实施例应用于原始节点集合中存在至少两个节点,由至少两个节点组成至少一条有向路径的应用场景时,全量元素序列由Q个元素组成,Q个元素分别来自原始节点集合中的Q个节点,且由Q个节点组成长度为(Q-1)的有向路径,即,全量采样元素序列为组成各个路径长度的节点中所包括的元素构成的各种可能的元素序列,其中,该元素序列中各个元素在该元素序列中的位置与所来自的节点在路径中的位置相同。以图3为例,由节点V1、节点V2和节点V5组成路径长度为2的路径,假设节点V1中包括元素X1、X2、X3,节点V2中包括元素X3、X4,节点V5包括元素X4、X3,其中一个全量元素序列则为(X1、X3、X4),其中,X1来自节点V1,X3来自节点V2,X4来自节点V5,其中全量元素序列中元素的排列顺序与各个节点在路径中的指向顺序相同。
步骤220,确定采样元素序列τ包括的至少一个子元素序列。
具体的,至少一个子元素序列分别为对采样元素序列τ包括的不同元素进行组合得到的,当本申请实施例应用于原始节点集合中存在至少两个节点,由至少两个节点组成至少一条有向路径的应用场景时,子元素序列中各个元素的顺序需要与采样元素序列中对应各个元素的顺序相同。以图3为例,若一个采样元素序列τ为(X1、X3、X4),则子元素序列可以为(X1、X3、X4)、(X1、X3)、(X1、X4)、(X3、X4)、(X1)、(X3)、(X4),而当元素序列为(X3、X1)时,则不是采样元素序列τ的子元素序列。
步骤230,确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,其中,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。
步骤240,根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列。
应理解,在本申请实施例中的执行主体可以为终端设备,如台式计算机等,还可以为服务器。
具体的,本申请实施例中一种从原始节点集合中确定路径长度为L的路径中各个位置上的节点的具体实现方式:
分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,根据(w-m)个节点分别对应的第m个位置的采样概率,从(w-m)个节点中确定第m个位置上的节点,其中,w为原始节点集合中节点的总个数,(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数。
在本申请实施例中可以通过不同的算法确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,例如当通过平均概率确定各个节点在路径长度为L的路径中第m个位置的采样概率时,(w-m)个节点中各个节点的在路径长度为L的路径中第m个位置的采样概率为1/(w-m),此外,当本申请实施例应用于原始节点集合中存在至少两个节点,由至少两个节点组成至少一条有向路径的应用场景时,为了提高确定的采样概率的可靠性,可基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率:
其中,Vw为原始节点集合,V(w-m)为(w-m)个节点的集合,V(w-m)中不包括已确定的前m个位置上的节点,dL(vn)为Vw中距离节点vn为L的节点的个数,vn取遍Vw中的各个节点,dL-m+1(vm-1)为Vw中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数,dL-m(vj)为Vw中距离节点vj为(L-m+1)的节点的个数,vj取遍V(w-m)中的各个节点。
需要说明是,Vw中距离节点vn为L的节点的个数,具体指的是Vw中以节点vn为起始点,距离节点vn为L的节点的个数,以图3为例,距离节点V2为1的节点的节点有V1、V4、V5,但在本申请实施例中距离节点V2为1的节点中不包括V1,只包括V4、V5,因此距离节点V2为1的节点的个数为2。
具体的,在本申请实施例中,为了简化运算,可基于下列方式确定采样元素序列τ的第一支持度:
分别确定(L+1)个节点中每个节点包括的元素的总个数;
根据确定的(L+1)个节点中每个节点包括的元素的总个数,确定采样元素序列τ的第一支持度,采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。
除此之外,还可基于其他现有的方式确定采样元素序列τ的第一支持度,在本申请实施例中不做限定。
此外,在本申请实施例中还提供了一种较为易于实现的分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素的方式:
针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点,根据第K个位置上的节点的元素抽样概率,从第K个位置上的节点包括的至少一个元素中抽取一个元素,第K个位置上的节点的元素抽样概率为1/MK,MK为所述第K个位置上的节点包括的元素的总个数,K取遍集合{K|0≤K≤L}中的各个非负整数。
需要说明的是,除了本申请实施例提供的基于元素抽样概率的方式抽取元素以外,还可以进行随机抽样,或是采用现有技术中其它的元素抽样方式,在此不做限定。
下面以图3为例对本申请实施例进行具体介绍。
具体的,如图3所示的有向图300,原始节点集合中包括7个节点,分别为V1、V2、V3、V4、V5、V6、V7,假设V1中包括3个元素,分别为X1、X2、X3,V2中包括2个元素,分别为X3、X4,V3中包括3个元素,分别为X1、X2、X3,V4中包括2个元素,分别为X3、X4,V5中包括2个元素,分别为X4、X3,V6中包括1个元素,分别为X2,V7中包括1个元素,分别为X2。
假设预设路径长度集合中包括两个路径长度,其中L1=2、L2=3。
当L1=2时,以图3为例,本申请中基于下列方式从V1、V2、V3、V4、V5、V6、V7中选择3个节点:
首先,确定L1=2的路径中第0个位置的节点,具体的,为了保证采样得到的采样元素序列中的元素之间的关联性,先确定V1、V2、V3、V4、V5、V6、V7分别作为L1=2的路径中第0个位置的节点的概率,然后基于确定的V1、V2、V3、V4、V5、V6、V7分别作为L1=2的路径中第0个位置的节点的概率,选择V1、V2、V3、V4、V5、V6、V7中的一个节点作为第0个位置的节点。
需要说明的是,V1、V2、V3、V4、V5、V6、V7分别作为L1=2的路径中第0个位置的节点的概率,为V1、V2、V3、V4、V5、V6、V7各个节点在L1=2的路径中第0个位置的采样概率。
在本申请实施例中,可以基于下列表达式确定V1、V2、V3、V4、V5、V6、V7分别作为L1=2的路径中第0个位置的节点的概率:
假设根据各个节点在路径长度L1的路径中第0个位置的采样概率,确定第0个位置的节点为V1,则从V2、V3、V4、V5、V6、V7中确定L1=2的路径中第1个位置的节点。
其中,在本申请实施例中,可先确定V2、V3、V4、V5、V6、V7分别在L1=2的路径中第1个位置的采样概率,然后根据V2、V3、V4、V5、V6、V7分别在L1=2的路径中第1个位置的采样概率,从V2、V3、V4、V5、V6、V7中选择一个节点作为L1=2的路径中第1个位置的节点,应理解,V2、V3、V4、V5、V6、V7分别在L1=2的路径中第1个位置的采样概率即为V2、V3、V4、V5、V6、V7分别作为L1=2的路径中第1个位置的节点的概率。
具体的,根据下列表达式确定V2、V3、V4、V5、V6、V7分别在L1=2的路径中第1个位置的采样概率:
以d1(V2)为例,在图3中,距离节点V2的距离为1的节点有V1、V4和V5,但是以V2为起始点,距离节点V2的距离为1的节点只有V4和V5,而节点V1与节点V2之间的距离为1,但起始点为V1,因此,d1(V2)=2。
若选择V2作为L1=2的路径中第1个位置上的节点,则再从V3、V4、V5、V6、V7确定L1=2的路径中第2个位置上的节点;具体的,基于下列表达式确定V3、V4、V5、V6、V7中各个节点分别在L1=2的路径中第2个位置的采样概率:
由于距离节点Vj等于0的节点只有该节点本身,因此d0(Vj)=1。
然后,基于V3、V4、V5、V6、V7中各个节点分别在L1=2的路径中第2个位置的采样概率,从V3、V4、V5、V6、V7中选择一个节点,假设选择的节点为V5,则如图4所示的L1=2的路径中第0个位置上的节点为V1,第1个位置上的节点为V2,第1个位置上的节点为V5。
然后,分别从节点为V1、节点V2、节点V5所包括的元素中抽取一个元素,得到一个采样元素序列。
在本申请中,基于下列方式分别从节点为V1、节点V2、节点V5所包括的元素中抽取一个元素:
以从节点V1中抽取一个元素为例,从节点V2、节点V5所包括的元素中抽取元素的方式与节点V1中抽取一个元素的方式类似,在此不再一一赘述。
由于节点V1中包括3个元素,因此,节点V1的元素抽样概率为1/3;而节点V2中包括2个元素,因此,节点V2的元素抽样概率为1/2,依次类推,V5中包括2个元素,节点V5的元素抽样概率为1/2。
根据元素抽样概率1/3,从节点V1包括的元素X1、X2、X3,抽取一个元素。假设基于上述方法,分别从节点V1、节点V2、节点V5所包括的元素中抽取元素的元素为X1、X4、X3,由于L1=2的路径中第0个位置上的节点为V1,第1个位置上的节点为V2,第1个位置上的节点为V5,则采样元素序列为(X1、X4、X3)。
采样元素序列的第一支持度为路径长度为Li的路径中各个节点所包括的元素的总个数的乘积,则当L1=2的路径中第0个位置上的节点为V1,节点V1中包括3个元素,第1个位置上的节点为V2,节点V2中包括2个元素,第1个位置上的节点为V5,节点V5中包括2个元素时,采样元素序列的第一支持度为12。
当L2=3时,得到采样元素序列的方式与当L1=2时得到采样元素序列的方式类似,当L2=3时确定采样元素序列的第一支持度的方式与当L1=2时确定采样元素序列的方式类似,在此不再一一赘述。
假设当L1=2时,得到采样元素序列为(X1、X4、X3);当L2=3时,得到的采样元素序列为(X1、X4、X3、X2);则采样元素序列(X1、X4、X3)中包括子元素序列(X1、X4、X3)(X1、X4)、(X1、X3)、(X4、X3)、(X1)、(X4)、(X3),其中,子元素序列中的各个元素的相对位置不变,例如,采样元素序列(X1、X4、X3)中X1在X4、X3之前,X4在X3之前。采样元素序列(X1、X4、X3、X2)的子元素序列包括(X1、X4、X3、X2)、(X1、X4、X3)、(X1、X4、X2)、(X1、X3、X2)、(X4、X3、X2)、(X1、X4)、(X1、X3)、(X1、X2)、(X4、X3)、(X4、X2)、(X3、X2)、(X1)、(X4)、(X3)、(X2),其中,由于采样元素序列(X1、X4、X3)和采样元素序列(X1、X4、X3、X2)中均包括子元素序列(X1、X4、X3)、(X1、X4)、(X1、X3)、(X4、X3)、(X1)、(X4)、(X3),则子元素序列(X1、X4、X3)、(X1、X4)、(X1、X3)、(X4、X3)、(X1)、(X4)、(X3)分别对应的第二支持度为采样元素序列(X1、X4、X3)的第一支持度和采样元素序列(X1、X4、X3、X2)的第一支持度之和。
应理解,在本申请实施例中,由于每个子元素序列分为为一种序列模式,因此子元素序列中的元素相同,但是排列顺序不同时,是不同的子元素序列。
此外,在步骤240,根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列。
具体的,可以按照第二支持度从高到低的顺序对多个子元素序列进行排列,然后选择出第二支持度排在前n位的子元素序列,其中,n根据实际需求进行设定,;或者,选择出第二支持度大于预设阈值的子元素序列,其中,预设阈值根据实际情况进行设定,亦或者从包括m个元素的子元素序列中选择出第二支持度排列在前n位的子元素序列。
在本申请中不对从多个子元素序列中选择出至少一个子元素序列的选择方式进行限定。
当有向图为除图3之外的有向图结构时,也可采用本申请实施例数据挖掘的方法。
基于同一构思,本申请实施例中还提供了一种数据挖掘装置,由于本申请实施例中的装置对应的方法为本申请实施例数据挖掘方法,因此本申请实施例装置的实施可以参见该方法的实施,重复之处不再赘述。
如图5所示,本申请实施例数据挖掘装置500,包括:数据采样单元510和数据挖掘单元520,其中,数据采样单元510,用于根据预设的路径长度集合中的路径长度L,从原始节点集合中选择(L+1)个节点,分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定采样元素序列τ的第一支持度,原始节点集合中的每个节点包括至少一个元素,L取遍路径长度集合中的各个值,且L为正整数,第一支持度用于指示采样元素序列τi在全量元素序列集合中所占的比重,全量元素序列由原始节点集合中的节点包括的元素组成;数据挖掘单元520,用于确定采样元素序列τ包括的至少一个子元素序列,至少一个子元素序列分别为对采样元素序列τ包括的不同元素进行组合得到的,并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,以及根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。
在一种可能的实现方式中,数据采样单元510基于下列方式根据预设的路径长度集合中的路径长度L,从原始节点集合中选择(L+1)个节点:
分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,根据(w-m)个节点分别对应的第m个位置的采样概率,从(w-m)个节点中确定第m个位置上的节点;其中,w为原始节点集合中节点的总个数,(w-m)个节点为原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数。
在一种可能的实现方式中,数据采样单元510分别基于下列表达式确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率Pr(vj):
其中,Vw为原始节点集合,V(w-m)为(w-m)个节点的集合,V(w-m)中不包括已确定的前m个位置上的节点,dL(vn)为Vw中距离节点vn为L的节点的个数,vn取遍Vw中的各个节点,dL-m+1(vm-1)为Vw中距离第(m-1)个位置上的节点为(L-m+1)的节点的个数,dL-m(vj)为Vw中距离节点vj为(L-m+1)的节点的个数,vj取遍V(w-m)中的各个节点。
在一种可能的实现方式中,数据采样单元510基于下列方式确定采样元素序列τ的第一支持度:
分别确定(L+1)个节点中每个节点包括的元素的总个数,并根据确定的(L+1)个节点中每个节点包括的元素的总个数,确定采样元素序列τ的第一支持度,采样元素序列τ的第一支持度为(L+1)个节点中每个节点包括的元素的总个数的乘积。
在一种可能的实现方式中,数据采样单元510基于下列方式分别从(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素:
针对(L+1)个节点中在路径长度为L的路径中第K个位置上的节点,根据第K个位置上的节点的元素抽样概率,从第K个位置上的节点包括的至少一个元素中抽取一个元素,第K个位置上的节点的元素抽样概率为1/MK,MK为第K个位置上的节点包括的元素的总个数,K取遍集合{K|0≤K≤L}中的各个非负整数。
在一种可能的实现方式中,数据挖掘单元520基于下列方式确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度:
针对任一子元素序列,确定包含子元素序列的采样元素序列,并将包含子元素序列的采样元素序列分别对应的第一支持度相加,得到与子元素序列的第二支持度。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个物理单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,单元之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
在本申请实施例中,数据采样单元510和数据采样单元520对应于实体设备中的处理器,其中如图6所示的数据挖掘装置600的硬件结构示意图,包括包括处理器610、通信接口620和存储器630。其中,存储器630可以用于存储装置600出厂时预装的程序/代码,也可以存储用于执行本申请实施例的程序,以供处理器610执行,还可以存储处理器610执行的其它程序等。
其中,处理器610可以采用通用的CPU(Central Processing Unit,中央处理器),微处理器,ASIC(Application Specific Integrated Circuit,应用专用集成电路),或者一个或多个集成电路,用于执行相关操作,以实现本申请实施例所提供的技术方案。
应注意,尽管图6所示的装置仅仅示出了处理器610、通信接口620和存储器630,但是在具体实现过程中,本领域的技术人员应当明白,该装置600还包含实现正常运行所必须的其他器件。同时,根据具体需要,本领域的技术人员应当明白,该装置600还可包含实现其他附加功能的硬件器件。此外,本领域的技术人员应当明白,该装置600也可仅仅包含实现本申请实施例所必须的器件或模块,而不必包含图6中所示的全部器件。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,上述的存储介质可为磁盘、光盘、ROM(Read-Only Memory,只读存储记忆体)或RAM(Random Access Memory,随机存储记忆体)等。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请实施例所述的绘图装置可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU(Central Processing Unit,中央处理器)、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (12)
1.一种数据挖掘方法,其特征在于,应用于终端设备,包括:
根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,所述原始节点集合中的每个节点包括至少一个元素,L取遍所述路径长度集合中的各个值,且L为正整数;所述原始节点集合包括网络系统中用于数据通信的节点;
分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定所述采样元素序列τ的第一支持度,所述第一支持度用于指示所述采样元素序列τ在全量元素序列集合中所占的比重,所述全量元素序列由所述原始节点集合中的节点包括的元素组成;所述每个节点包括的至少一个元素是从该节点获取到的;
确定所述采样元素序列τ包括的至少一个子元素序列;
确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,其中,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的;
根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列。
2.如权利要求1所述的方法,其特征在于,根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,包括:
分别确定(w-m)个节点中各个节点在所述路径长度为L的路径中第m个位置的采样概率,w为所述原始节点集合中节点的总个数,(w-m)个节点为所述原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数;
根据所述(w-m)个节点分别对应的第m个位置的采样概率,从所述(w-m)个节点中确定所述第m个位置上的节点。
4.如权利要求1至3任一所述的方法,其特征在于,确定所述采样元素序列τ的第一支持度,包括:
分别确定所述(L+1)个节点中每个节点包括的元素的总个数;
根据确定的所述(L+1)个节点中每个节点包括的元素的总个数,确定所述采样元素序列τ的第一支持度,所述采样元素序列τ的第一支持度为所述(L+1)个节点中每个节点包括的元素的总个数的乘积。
5.如权利要求1至3任一所述的方法,其特征在于,分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,包括:
针对所述(L+1)个节点中在路径长度为L的路径中第K个位置上的节点,根据所述第K个位置上的节点的元素抽样概率,从所述第K个位置上的节点包括的至少一个元素中抽取一个元素,所述第K个位置上的节点的元素抽样概率为1/MK,MK为所述第K个位置上的节点包括的元素的总个数,K取遍集合{K|0≤K≤L}中的各个非负整数。
6.如权利要求1至3任一所述的方法,其特征在于,确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,包括:
针对任一子元素序列,确定包含所述子元素序列的采样元素序列;
将包含所述子元素序列的采样元素序列分别对应的第一支持度相加,得到与所述子元素序列的第二支持度。
7.一种数据挖掘装置,其特征在于,包括:
数据采样单元,用于根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,得到采样元素序列τ,并确定所述采样元素序列τ的第一支持度,且所述原始节点集合中的每个节点包括至少一个元素,L取遍所述路径长度集合中的各个值,且L为正整数,所述第一支持度用于指示所述采样元素序列τ在全量元素序列集合中所占的比重,所述全量元素序列由所述原始节点集合中的节点包括的元素组成;所述原始节点集合包括网络系统中用于数据通信的节点;所述每个节点包括的至少一个元素是从该节点获取到的;
数据挖掘单元,用于确定所述采样元素序列τ包括的至少一个子元素序列,并确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,以及根据各个子元素序列分别对应的第二支持度,从多个子元素序列中选择出至少一个子元素序列,每一子元素序列的第二支持度是根据各个包含该子元素序列的采样元素序列分别对应第一支持度确定的。
8.如权利要求7所述的装置,其特征在于,所述数据采样单元根据预设的路径长度集合中的路径长度L,从原始节点集合中确定(L+1)个节点,具体用于:
分别确定(w-m)个节点中各个节点在路径长度为L的路径中第m个位置的采样概率,根据所述(w-m)个节点分别对应的第m个位置的采样概率,从所述(w-m)个节点中确定所述第m个位置上的节点;
其中,w为所述原始节点集合中节点的总个数,(w-m)个节点为所述原始节点集合中不包括已确定的前m个位置上的节点,m取遍集合{m|0≤m≤L}中的各个非负整数。
10.如权利要求7至9任一所述的装置,其特征在于,所述数据采样单元确定所述采样元素序列τ的第一支持度,具体用于:
分别确定所述(L+1)个节点中每个节点包括的元素的总个数,并根据确定的所述(L+1)个节点中每个节点包括的元素的总个数,确定所述采样元素序列τ的第一支持度,所述采样元素序列τ的第一支持度为所述(L+1)个节点中每个节点包括的元素的总个数的乘积。
11.如权利要求7至9任一所述的装置,其特征在于,所述数据采样单元分别从所述(L+1)个节点中每个节点包括的至少一个元素中抽取一个元素,具体用于:
针对所述(L+1)个节点中在所述路径长度为L的路径中第K个位置上的节点,根据所述第K个位置上的节点的元素抽样概率,从所述第K个位置上的节点包括的至少一个元素中抽取一个元素,所述第K个位置上的节点的元素抽样概率为1/MK,MK为所述第K个位置上的节点包括的元素的总个数,K取遍集合{K|0≤K≤L}中的各个非负整数。
12.如权利要求7至9任一所述的装置,其特征在于,所述数据挖掘单元确定每个采样元素序列中包括的各个子元素序列分别对应的第二支持度,具体用于:
针对任一子元素序列,确定包含所述子元素序列的采样元素序列,并将包含所述子元素序列的采样元素序列分别对应的第一支持度相加,得到与所述子元素序列的第二支持度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710030749.4A CN108319600B (zh) | 2017-01-16 | 2017-01-16 | 一种数据挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710030749.4A CN108319600B (zh) | 2017-01-16 | 2017-01-16 | 一种数据挖掘方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108319600A CN108319600A (zh) | 2018-07-24 |
CN108319600B true CN108319600B (zh) | 2021-01-08 |
Family
ID=62891799
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710030749.4A Active CN108319600B (zh) | 2017-01-16 | 2017-01-16 | 一种数据挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108319600B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110019253B (zh) * | 2019-04-18 | 2021-10-12 | 北京邮电大学 | 一种分布式的图数据序列采样方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102096719A (zh) * | 2011-02-18 | 2011-06-15 | 中国科学院计算技术研究所 | 一种基于图的存储模式挖掘方法 |
US7984491B2 (en) * | 2006-03-30 | 2011-07-19 | Computer Systems Engineering Co., Ltd. | System, method and program for off-line user authentication |
CN102332009A (zh) * | 2011-09-02 | 2012-01-25 | 北京大学 | 一种大规模数据集上的关系查询方法 |
CN105025498A (zh) * | 2015-06-08 | 2015-11-04 | 南京邮电大学 | 基于网络编码与压缩感知的传感网络分簇式空时压缩方法 |
US9235652B1 (en) * | 2012-06-27 | 2016-01-12 | Groupon, Inc. | Optimizing a data integration process |
-
2017
- 2017-01-16 CN CN201710030749.4A patent/CN108319600B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7984491B2 (en) * | 2006-03-30 | 2011-07-19 | Computer Systems Engineering Co., Ltd. | System, method and program for off-line user authentication |
CN102096719A (zh) * | 2011-02-18 | 2011-06-15 | 中国科学院计算技术研究所 | 一种基于图的存储模式挖掘方法 |
CN102332009A (zh) * | 2011-09-02 | 2012-01-25 | 北京大学 | 一种大规模数据集上的关系查询方法 |
US9235652B1 (en) * | 2012-06-27 | 2016-01-12 | Groupon, Inc. | Optimizing a data integration process |
CN105025498A (zh) * | 2015-06-08 | 2015-11-04 | 南京邮电大学 | 基于网络编码与压缩感知的传感网络分簇式空时压缩方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108319600A (zh) | 2018-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609186B (zh) | 信息处理方法及装置、终端设备及计算机可读存储介质 | |
US10796244B2 (en) | Method and apparatus for labeling training samples | |
CN111144402A (zh) | Ocr识别准确率的计算方法、装置、设备以及存储介质 | |
CN109145080B (zh) | 一种文本指纹获得方法及装置 | |
CN109547393B (zh) | 恶意号码识别方法、装置、设备和存储介质 | |
US10102090B2 (en) | Non-destructive analysis to determine use history of processor | |
CN113506316A (zh) | 分割视频物体的方法、装置以及网络模型训练方法 | |
CN112181430B (zh) | 代码变更统计方法、装置、电子设备及存储介质 | |
CN105306507A (zh) | 分布式架构中的容灾处理方法及容灾处理装置 | |
CN111327466B (zh) | 一种告警分析方法、系统、设备以及介质 | |
CN110703740B (zh) | 一种汽车诊断数据处理方法、装置及计算机存储介质 | |
CN108319600B (zh) | 一种数据挖掘方法及装置 | |
EP3893400A1 (en) | Sorting method and apparatus, and electronic device and medium | |
JPWO2018135515A1 (ja) | 情報処理装置、ニューラルネットワークの設計方法及びプログラム | |
CN111884932B (zh) | 一种链路确定方法、装置、设备和计算机可读存储介质 | |
CN111667547B (zh) | Gan网络训练方法、服装图片生成方法、装置及电子设备 | |
CN114117062A (zh) | 文本向量表示方法、装置及电子设备 | |
CN112329424A (zh) | 业务数据的处理方法和装置、存储介质和电子设备 | |
CN116860180B (zh) | 一种分布式存储方法、装置、电子设备及存储介质 | |
CN114266300B (zh) | 特征预测模型训练、核心网业务异常检测方法及装置 | |
CN115174594B (zh) | 分布式系统的数据同步方法、装置、设备及介质 | |
CN116501781B (zh) | 一种增强前缀树的数据快速统计方法 | |
CN118433045B (zh) | 一种用于网络评估的数据处理方法及装置 | |
CN106033475A (zh) | 一种信息匹配方法、装置及电子设备 | |
CN107480179B (zh) | 检测方法及装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |