CN112540973A

CN112540973A - 一种基于关联规则的网络可视化方法

Info

Publication number: CN112540973A
Application number: CN202011500523.4A
Authority: CN
Inventors: 王彬; 刘尚明; 周岩; 赵科军; 陈琳; 展鹏; 刘维强
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-18
Filing date: 2020-12-18
Publication date: 2021-03-23

Abstract

本发明涉及一种基于关联规则的网络可视化方法，通过挖掘数据集中的频繁项，用频繁项过滤掉数据集中的非频繁项，以减少后续的挖掘时间；然后将数据集均分为多个子数据集，针对不同长度的项集采用不同挖掘方法针对性挖掘，将子数据集上挖掘到的局部频繁项集整合到一起并提取频繁项集；根据项集之间的相对价值，采用深度优先搜索剔除冗余项集，剩下较优频繁项集，剔除了关联规则挖掘参数置信度的使用，减少调试时间；最后用剩下的频繁项集生成较优关联规则。在所述完善可视化图的基础上，通过图表示学习算法进一步增加关联关系，得到最终可视化图；利用所述最终可视化图评价关联信息，从关联规则中提取知识，对挖掘到的关联规则进行解码，获得具体的关联规则信息，最后形成有利于决策的知识。

Description

一种基于关联规则的网络可视化方法

技术领域

本发明涉及自适应学习系统中的可视化图构建技术领域，更具体地说，它涉及一种基于关联规则的网络可视化方法。

背景技术

领域知识模型用于描述学科领域的知识结构，包括知识点、知识点属性以及知识点之间的联系，具有知识表达的作用，是自适应学习系统进行内容推荐的重要依据。可视化图可直观表达实体之间的联系，是多学科融合的知识结构图，是实体与实体之间关系以及实体属性的集合，采用知识图谱技术存储和管理自适应学习系统中的知识，可实现较快速地将不同知识融入到知识体系中，并与其他知识进行关联，将不同学科、不同学段、不同知识点以及所有的学习资源链接在一起，形成跨越学科的知识图，可视化图的应用能有效解决知识模型系统性不强的问题。因此，最新的自适应学习技术中领域知识模型主要是通过可视化图的构建来完成知识实体、实体关系和知识属性的知识表达。

数据挖掘是从大量数据中通过算法挖掘出有利于决策的信息的过程，关联规则挖掘作为数据挖掘的一个有效方法，能便捷地从数据中提取有用的知识。但是，传统的关联规则挖掘方法在处理至少数百万的大数据时挖掘速度较慢，且容易挖掘到冗余的关联规则。而且，传统方法在处理增量式数据时存在历史数据重复挖掘、规则挖掘准确率不高的问题。针对以上问题，本文基于分布式计算的思想，分别在针对关联规则的去冗余方面和对大数据的关联规则挖掘的速度优化方面进行了研究和探索，并且研究了一种增量关联规则挖掘算法，最后将算法应用到在线零售上为上层决策者提供有用的信息。

发明内容

针对现有方法不能对增量式数据进行高效挖掘并可视化表示且挖掘到的关联规则准确度不高的问题，本申请请求保护一种基于关联规则的网络可视化方法，其特征在于，包括：

S1：获取待可视化数据，将数据挖掘技术应用于已进行分类的训练集，同时构建分类模型，用该模型对未进行分类的数据进行分类，清洗筛选出可信数据；

S2：通过对训练集进行分类或者估值后，为判定该模型的可行性，以数据当中的测试集为参考，对训练集进行预测；

S3：聚类构建分组规律的方法，把判断具有一定相似性的样本归在一类数据集当中，从数据集中挖掘频繁项集；然后根据挖掘到的频繁项集提取关联规则；

S4：从挖掘到的频繁项集中提取有用的关联规则，剔除冗余的关联规则；

S5：在所述完善可视化图的基础上，通过图表示学习算法进一步增加关联关系，得到最终可视化图；

S6：利用所述最终可视化图评价关联信息，从关联规则中提取知识，对挖掘到的关联规则进行解码，获得具体的关联规则信息，最后形成有利于决策的知识。

本发明挖掘数据集中的频繁项，用频繁项过滤掉数据集中的非频繁项，以减少后续的挖掘时间；然后将数据集均分为多个子数据集，针对不同长度的项集采用不同挖掘方法针对性挖掘，将子数据集上挖掘到的局部频繁项集整合到一起并提取频繁项集；根据项集之间的相对价值，采用深度优先搜索剔除冗余项集，剩下较优频繁项集，剔除了关联规则挖掘参数置信度的使用，减少调试时间；最后用剩下的频繁项集生成较优关联规则。在所述完善可视化图的基础上，通过图表示学习算法进一步增加关联关系，得到最终可视化图；利用所述最终可视化图评价关联信息，从关联规则中提取知识，对挖掘到的关联规则进行解码，获得具体的关联规则信息，最后形成有利于决策的知识。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1为本发明所涉及的一种基于关联规则的网络可视化方法的工作流程图。

具体实施方式

参照附图1，本发明请求保护一种基于关联规则的网络可视化方法，其特征在于，包括：

优选的，所述S1具体包括：

选择间隔适合的时间周期，反复爬取在线可视化网络某主题参与者信息，建立参与者与全部关注的人以及粉丝的关注关系，对关注数据集中关注者、被关注者与初始数据集进行循环判断，清洗掉无关主题的用户数据，将实验数据集导入Gephi绘制信息交互关系网络，通过计算节点特征值得到结果数据集；

剔除待可视化数据中错误、重复及无关的信息，得到清洗后数据；

根据信息来源为清洗后数据中的每条信息设置权重系数，并计算得到每条信息的可信度；

利用Python中Pandas数据处理模块对两个数据集进行处理，加工为适合Gephi读取的CSV格式，最后导入相关文件进行社会网络分析。

优选的，所述步骤S2还包括：

获取算法在不同支持度的情况下的挖掘时间、生成的频繁项集数量和关联规则数量；

对最小支持度的调整中，综合考虑挖掘时间和挖掘到的频繁项集或关联规则数量，对最小支持度进行适当地调整，以找到合适的最小支持度；

将Apriori算法融入到所述方法当中对日常网络数据信息进行深度分析挖掘，实现对日常网络数据的预测预警

优选的，所述步骤S3还包括：

从数据集中挖掘频繁项集；然后，根据找到的频繁项集生成关联规则；

上述频繁项集是指数据集中频繁出现的数据组合，当项集出现的频次高于用户所设置阈值时，该项集则被视为频繁项集；

所述关联规则是以频繁项集为基础，通过各个项集出现的频次进行特定的计算，推出项集中某个子集与其相斥的子集之间的关系。

优选的，所述步骤S4，具体包括：

输入数据集T,最小支持度MinSup，用MapReduce方法从T中挖掘频繁项；

使用频繁项过滤掉T中的非频繁项，获得过滤后的交易数据集T_f；

将T_f分为多个子集，然后对每个子集调用MR-Apriori算法，通过MapReduce方法提取局部频繁项集LFI_n，其中1<n 3),通过Apriori算法提取LFI_n，其中n>3；

聚合LFI_n,过滤掉其中的非频繁项集；

使用过滤后的LFI_n构建LFI-tree；

使用最大挖掘器和估计的提升度过滤掉LFI-tree中的冗余项集；

计算LFI-tree剩余项集的完整支持度，生成关联规则。

进一步的，对上述步骤展开：

过滤掉数据集中的非频繁项在整个过程最开始，从各个数据源获取交易数据集T。同时，根据经验确定最小支持度阈值MinSup和分区数N_part。然后，通过Map操作将T中每一行数据的每一项转化为<key₁,value₁>键值对，其中key₁表示单个项，value₁设置为1。然后，Reduce操作可以有效地按项聚合这些键值对，将其按照相同的key₁整合在一起，以此计算出每个项的支持度。之后，筛选出支持度大于MinSup的频繁项，用于过滤掉数据集中的非频繁项，产生过滤后的数据集T_f。此步骤通过减少每一条数据中项的数量，加快了后续对数据集的挖掘操作；

使用MR-Apriori挖掘局部频繁项集：将T_f均分为N_part个子数据集，这些子数据集可表示为ST＝{ST₁,ST₂,ST₃,…,ST_K}，K等于N_part，ST_K(K∈{1,…K})为T_f的一个子集。然后，通过调用所提出的一种将MapReduce方法与Apriori算法联合的串行频繁项集挖掘算法(MR-Apriori)，从每一个子数据集中挖掘局部频繁项集(Local FrequentItemsets，LFI)。LFI对于所挖掘的子集是频繁项集，但对于整个Tf可能不是频繁项集。与传统Apriori算法相比，本文提出的串行频繁项集挖掘算法将频繁项集挖掘过程分割为两个挖掘过程：首先，基于MapReduce思想的方法被用来挖掘包含两个或者三个项的频繁项集；然后，用Apriori算法挖掘其他频繁项集。另外，只含有一个项的频繁项集已经在MR步骤一中挖掘完毕。由于对于不同长度的项集，方法的挖掘效率不同，故在此针对不同长度的项集采用不同的方法挖掘，以增加项集挖掘效率。MR-Apriori算法可以被任何其他能够挖掘完整频繁项集的串行算法所替代，这个特质使整个框架具有良好的可扩展性。

在基于MapReduce思想的方法中，数据集将被映射成<key₂,value₂>键值对。其中key₂为具有指定长度的项集，value₂设置为1。这里的项集通过从每一条数据生成子集而提取出来。例如在挖掘2-频繁项集时，首先通过数据生成所有长度为2的子集，然后将其映射为<key₂,value₂>键值对。在生成键值对之后，键值对将根据key₂进行分组，将value₂进行叠加，以此即可计算出项集的支持度，进而找到其中的频繁项集。

通过组合的方法迅速生成含有两个或三个项的子集，可以充分利用MapReduce思想的处理优势来进行计数。但当数据生成具有更多的项的时候，性能将会由于搜索空间的扩大而迅速降低，生成子集所带来的时间消耗将会超过采用MapReduce思想所节约的时间。在频繁项集挖掘中，若频繁项集在全集上面是频繁项集，那么其一定在某个子集上是频繁项集。因此，若将子集上挖掘到的所有频繁项集进行整合，在全集频繁的频繁项集一定不会丢失。

挖掘LFI之后，结果将被聚合在一起并映射为<key₂,value₂′>键值对，其中value₂′＝(partition_ids,count₂)，partition_ids为项集的源头子数据集的标识组成的集合，count₂为项集的估计支持度e_sup。e_sup可以根据公式(1)和(2)得到:

其中sup(X)_k为X在STk中的支持度。对于LFI中的每一个项集，e_sup都小于或等于实际支持度，这是由于LFI的一些项集可能相对于部分子数据集为非频繁项集，在这些子数据集上这些项集的支持度将被计算为零。对于这一特征，会存在部分支持度计算误差且误差较小，因为小于MinSup的支持度在计算e_sup时会被忽略。

进一步地，构造所述LFI-tree包括：

构造一个由LFI组成的树，即Local FrequentItemsets tree，LFI-tree；LFI-tree的构建是为了找到较优频繁项集，过滤掉其他冗余项集；

在LFI-tree中，最外层的没有超集的项集为最大频繁项集；、

将LFI按照项集的长度划分为不同的层，项集的长度越长，层次越高；

从最高层开始，对每一层进行扫描，找出上层的子集，以此构建LFI-tree；

采用深度优先搜索，即Depth-firstSearch，DFS策略从最大频繁项集开始搜索冗余的频繁项集并进行过滤；

每一个最大频繁项集都会被扫描来用估计支持度e_sup计算其估计提升度e_lift和最近子集的e_lift；

如果子集的长度与其超集相差为1，该子集就被称为其超集的最近子集；

e_lift的计算方法如公式(3)所示。

从最大频繁项集出发，采用深度优先搜索方法，具有更高价值的子集将会被保留然后继续搜索有价值的子集。假定X是LFI中的较优频繁项集，X_sub是X的最近子集。X的价值可表示为e_v(X)，该值与最近子集有关并可以根据以下公式进行计算。

e_v(X)＝e_lift(X→(X/X_sub)) (4)

其中，X/X_sub表示X与X_sub之间的差集，其只包含一个项。对于有关联的规则，e_lift有两种不同的值，小于1或者大于1，与Lift相同。

对于被比较的子集，其价值的计算公式与公式(4)不同。超集e_v的不同值对应不同的子集价值计算方法。其价值e_v-sub(X_sub)的计算公式如下所示。

其中，len(X_sub)表示X_sub的长度，e_v(X_sub-n)是X_sub的第n个子集的e_v值。e_v(X)与e_v-sub(X_s0b)之间价值的对比取决于值与1的距离。距离1越远的值，价值越高。

计算较优频繁项集的完整支持度:从步骤三获得的剩下的项集都是较优频繁项集OFI，而这些OFI的支持度是不完整的，其在相对不频繁的子集的支持度并未被计算。这一阶段将计算OFI的完整支持度。首先，数据集将被分配到每一个节点并映射为<key₃,value₃>键值对，其中key₃是OFI中的一个子集，value₃被设置为1；然后，将这些键值对按照key₃进行整合在一起以获得OFI的完整支持度；最后，根据OFI生成相关的关联规则.

优选的，所述S5具体包括：

对所述可信数据进行实体抽取和实体间对应关系抽取，利用抽取后得到的实体和实体间对应关系构建<实体，关系，实体>的三元组；

将三元组导入图数据库中，将实体生成为节点，并给节点赋予节点属性，将关系生成为对应节点间的关系，并给关系赋予关系属性，得到初步可视化图。

优选的，所述S3具体包括：

S31：查找满足关联规则的节点属性和关系属性，获取与节点属性对应的具有关联关系的节点对，并构建<节点，关联关系，节点>的三元组；

S32：根据S31中的三元组，为图数据库中相应的节点对增加关联关系，获得完善可视化图。

进一步地，所述图表示学习算法，包括将可视化图节点向量化表示后，输入机器学习模型进行分类。

优选的，所述S6具体包括：

数据规范化处理,将中心度指标的数值映射为[0,1]中的实数；

利用DeepWalk算法将完善可视化图中的节点映射到一个连续的低维向量空间中，得到节点向量；将任意两个节点向量拼接得到边向量；

确定关键节点影响力评价矩阵,确定初始权重,该权重的取值等于上一次评价过程得到的最终权重结果，从而保证影响力是可传递的；

在首次评价过程中可将该权重赋值为0，或根据具体依据进行赋值。

取具有关联关系的两节点映射得到的两个节点向量拼接得到边向量，作为正样本；将确定不具有关联关系的任意两节点映射得到的两个节点向量拼接得到多个不满足关联关系的边向量，作为负样本；将所述正样本和所述负样本组成训练数据集；

利用信息熵法确定指标的熵值，计算各指标的熵权和各指标的熵权增量，为各指标的熵权增量进行权重赋值；

基于优化算法，计算各指标的综合权重，利用所述训练数据集构建分类器；

利用所述分类器评价所述训练数据集以外的边向量，计算不同在线可视化网络节点各项指标的评价结果。

具体的，数据规范化处理,将中心度指标的数值映射为[0,1]中的实数；第i个关键节点的第j个指标的观测值为x_j(i)，其中，j＝1,2,3。

确定关键节点影响力评价矩阵X＝(X_j(i))_3*n。

确定初始权重w_j(t-1)。该权重的取值总是等于上一次评价过程得到的最终权重结果，从而保证影响力是可传递的。在首次评价过程中可将该权重赋值为0，或根据具体依据进行赋值。

利用信息熵法确定指标的熵值H_j；其中

为信息熵系数,

且当f_j(i)＝0时，f_j(i)·lnf_j(i)＝0.

计算各指标的熵权w_j(t)。若本次评价工作为首次实验，且初始权重均赋值为0，则直接进入计算各指标的综合权重步骤；

计算各指标的熵权增量Δw_j

Δw_j＝w_j(t)-w_j(t-1) (9)

为各指标的熵权增量进行权重赋值，其中，

计算各指标的综合权重W_j。该权重能够减少熵权和关键节点影响力变化的灵敏性，使关键节点影响力具有延续意义。

W_j＝w_j(t)-μ_jΔw_j (11)

计算不同在线可视化网络节点各项指标的评价结果。显然，各指标评价值小于各指标综合权重值，即0≤Y_j(i)≤W_T

Y_j(i)＝W_j·X_j(i) (12)

Y(i)＝∑Y_j(i) (13)

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于关联规则的网络可视化方法，其特征在于，包括：

2.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述S1具体包括：

3.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述步骤S2还包括：

将Apriori算法融入到所述方法当中对日常网络数据信息进行深度分析挖掘，实现对日常网络数据的预测预警。

4.根据权利要求2所述的一种基于关联规则的网络可视化方法，其特征在于，所述步骤S3还包括：

5.根据权利要求3所述的一种基于关联规则的网络可视化方法，其特征在于，所述步骤S4，具体包括：

将T_f分为多个子集，然后对每个子集调用MR-Apriori算法，通过MapReduce方法提取局部频繁项集LFI_n，其中1<n3),通过Apriori算法提取LFI_n，其中n>3；

聚合LFI_n,过滤掉其中的非频繁项集；

使用过滤后的LFI_n构建LFI-tree；

计算LFI-tree剩余项集的完整支持度，生成关联规则。

6.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述S5具体包括：

7.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述S3具体包括：

8.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述图表示学习算法，包括将可视化图节点向量化表示后，输入机器学习模型进行分类。

9.根据权利要求1所述的一种基于关联规则的网络可视化方法，其特征在于，所述S6具体包括：

数据规范化处理,将中心度指标的数值映射为[0，1]中的实数；