CN112540973A - 一种基于关联规则的网络可视化方法 - Google Patents

一种基于关联规则的网络可视化方法 Download PDF

Info

Publication number
CN112540973A
CN112540973A CN202011500523.4A CN202011500523A CN112540973A CN 112540973 A CN112540973 A CN 112540973A CN 202011500523 A CN202011500523 A CN 202011500523A CN 112540973 A CN112540973 A CN 112540973A
Authority
CN
China
Prior art keywords
data
association
mining
frequent item
sets
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011500523.4A
Other languages
English (en)
Inventor
王彬
刘尚明
周岩
赵科军
陈琳
展鹏
刘维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202011500523.4A priority Critical patent/CN112540973A/zh
Publication of CN112540973A publication Critical patent/CN112540973A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于关联规则的网络可视化方法,通过挖掘数据集中的频繁项,用频繁项过滤掉数据集中的非频繁项,以减少后续的挖掘时间;然后将数据集均分为多个子数据集,针对不同长度的项集采用不同挖掘方法针对性挖掘,将子数据集上挖掘到的局部频繁项集整合到一起并提取频繁项集;根据项集之间的相对价值,采用深度优先搜索剔除冗余项集,剩下较优频繁项集,剔除了关联规则挖掘参数置信度的使用,减少调试时间;最后用剩下的频繁项集生成较优关联规则。在所述完善可视化图的基础上,通过图表示学习算法进一步增加关联关系,得到最终可视化图;利用所述最终可视化图评价关联信息,从关联规则中提取知识,对挖掘到的关联规则进行解码,获得具体的关联规则信息,最后形成有利于决策的知识。

Description

一种基于关联规则的网络可视化方法
技术领域
本发明涉及自适应学习系统中的可视化图构建技术领域,更具体地说,它涉及一种基于关联规则的网络可视化方法。
背景技术
领域知识模型用于描述学科领域的知识结构,包括知识点、知识点属性以及知识点之间的联系,具有知识表达的作用,是自适应学习系统进行内容推荐的重要依据。可视化图可直观表达实体之间的联系,是多学科融合的知识结构图,是实体与实体之间关系以及实体属性的集合,采用知识图谱技术存储和管理自适应学习系统中的知识,可实现较快速地将不同知识融入到知识体系中,并与其他知识进行关联,将不同学科、不同学段、不同知识点以及所有的学习资源链接在一起,形成跨越学科的知识图,可视化图的应用能有效解决知识模型系统性不强的问题。因此,最新的自适应学习技术中领域知识模型主要是通过可视化图的构建来完成知识实体、实体关系和知识属性的知识表达。
数据挖掘是从大量数据中通过算法挖掘出有利于决策的信息的过程,关联规则挖掘作为数据挖掘的一个有效方法,能便捷地从数据中提取有用的知识。但是,传统的关联规则挖掘方法在处理至少数百万的大数据时挖掘速度较慢,且容易挖掘到冗余的关联规则。而且,传统方法在处理增量式数据时存在历史数据重复挖掘、规则挖掘准确率不高的问题。针对以上问题,本文基于分布式计算的思想,分别在针对关联规则的去冗余方面和对大数据的关联规则挖掘的速度优化方面进行了研究和探索,并且研究了一种增量关联规则挖掘算法,最后将算法应用到在线零售上为上层决策者提供有用的信息。
发明内容
针对现有方法不能对增量式数据进行高效挖掘并可视化表示且挖掘到的关联规则准确度不高的问题,本申请请求保护一种基于关联规则的网络可视化方法,其特征在于,包括:
S1:获取待可视化数据,将数据挖掘技术应用于已进行分类的训练集,同时构建分类模型,用该模型对未进行分类的数据进行分类,清洗筛选出可信数据;
S2:通过对训练集进行分类或者估值后,为判定该模型的可行性,以数据当中的测试集为参考,对训练集进行预测;
S3:聚类构建分组规律的方法,把判断具有一定相似性的样本归在一类数据集当中,从数据集中挖掘频繁项集;然后根据挖掘到的频繁项集提取关联规则;
S4:从挖掘到的频繁项集中提取有用的关联规则,剔除冗余的关联规则;
S5:在所述完善可视化图的基础上,通过图表示学习算法进一步增加关联关系,得到最终可视化图;
S6:利用所述最终可视化图评价关联信息,从关联规则中提取知识,对挖掘到的关联规则进行解码,获得具体的关联规则信息,最后形成有利于决策的知识。
本发明挖掘数据集中的频繁项,用频繁项过滤掉数据集中的非频繁项,以减少后续的挖掘时间;然后将数据集均分为多个子数据集,针对不同长度的项集采用不同挖掘方法针对性挖掘,将子数据集上挖掘到的局部频繁项集整合到一起并提取频繁项集;根据项集之间的相对价值,采用深度优先搜索剔除冗余项集,剩下较优频繁项集,剔除了关联规则挖掘参数置信度的使用,减少调试时间;最后用剩下的频繁项集生成较优关联规则。在所述完善可视化图的基础上,通过图表示学习算法进一步增加关联关系,得到最终可视化图;利用所述最终可视化图评价关联信息,从关联规则中提取知识,对挖掘到的关联规则进行解码,获得具体的关联规则信息,最后形成有利于决策的知识。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明所涉及的一种基于关联规则的网络可视化方法的工作流程图。
具体实施方式
参照附图1,本发明请求保护一种基于关联规则的网络可视化方法,其特征在于,包括:
S1:获取待可视化数据,将数据挖掘技术应用于已进行分类的训练集,同时构建分类模型,用该模型对未进行分类的数据进行分类,清洗筛选出可信数据;
S2:通过对训练集进行分类或者估值后,为判定该模型的可行性,以数据当中的测试集为参考,对训练集进行预测;
S3:聚类构建分组规律的方法,把判断具有一定相似性的样本归在一类数据集当中,从数据集中挖掘频繁项集;然后根据挖掘到的频繁项集提取关联规则;
S4:从挖掘到的频繁项集中提取有用的关联规则,剔除冗余的关联规则;
S5:在所述完善可视化图的基础上,通过图表示学习算法进一步增加关联关系,得到最终可视化图;
S6:利用所述最终可视化图评价关联信息,从关联规则中提取知识,对挖掘到的关联规则进行解码,获得具体的关联规则信息,最后形成有利于决策的知识。
优选的,所述S1具体包括:
选择间隔适合的时间周期,反复爬取在线可视化网络某主题参与者信息,建立参与者与全部关注的人以及粉丝的关注关系,对关注数据集中关注者、被关注者与初始数据集进行循环判断,清洗掉无关主题的用户数据,将实验数据集导入Gephi绘制信息交互关系网络,通过计算节点特征值得到结果数据集;
剔除待可视化数据中错误、重复及无关的信息,得到清洗后数据;
根据信息来源为清洗后数据中的每条信息设置权重系数,并计算得到每条信息的可信度;
利用Python中Pandas数据处理模块对两个数据集进行处理,加工为适合Gephi读取的CSV格式,最后导入相关文件进行社会网络分析。
优选的,所述步骤S2还包括:
获取算法在不同支持度的情况下的挖掘时间、生成的频繁项集数量和关联规则数量;
对最小支持度的调整中,综合考虑挖掘时间和挖掘到的频繁项集或关联规则数量,对最小支持度进行适当地调整,以找到合适的最小支持度;
将Apriori算法融入到所述方法当中对日常网络数据信息进行深度分析挖掘,实现对日常网络数据的预测预警
优选的,所述步骤S3还包括:
从数据集中挖掘频繁项集;然后,根据找到的频繁项集生成关联规则;
上述频繁项集是指数据集中频繁出现的数据组合,当项集出现的频次高于用户所设置阈值时,该项集则被视为频繁项集;
所述关联规则是以频繁项集为基础,通过各个项集出现的频次进行特定的计算,推出项集中某个子集与其相斥的子集之间的关系。
优选的,所述步骤S4,具体包括:
输入数据集T,最小支持度MinSup,用MapReduce方法从T中挖掘频繁项;
使用频繁项过滤掉T中的非频繁项,获得过滤后的交易数据集Tf
将Tf分为多个子集,然后对每个子集调用MR-Apriori算法,通过MapReduce方法提取局部频繁项集LFIn,其中1<n 3),通过Apriori算法提取LFIn,其中n>3;
聚合LFIn,过滤掉其中的非频繁项集;
使用过滤后的LFIn构建LFI-tree;
使用最大挖掘器和估计的提升度过滤掉LFI-tree中的冗余项集;
计算LFI-tree剩余项集的完整支持度,生成关联规则。
进一步的,对上述步骤展开:
过滤掉数据集中的非频繁项在整个过程最开始,从各个数据源获取交易数据集T。同时,根据经验确定最小支持度阈值MinSup和分区数Npart。然后,通过Map操作将T中每一行数据的每一项转化为<key1,value1>键值对,其中key1表示单个项,value1设置为1。然后,Reduce操作可以有效地按项聚合这些键值对,将其按照相同的key1整合在一起,以此计算出每个项的支持度。之后,筛选出支持度大于MinSup的频繁项,用于过滤掉数据集中的非频繁项,产生过滤后的数据集Tf。此步骤通过减少每一条数据中项的数量,加快了后续对数据集的挖掘操作;
使用MR-Apriori挖掘局部频繁项集:将Tf均分为Npart个子数据集,这些子数据集可表示为ST={ST1,ST2,ST3,…,STK},K等于Npart,STK(K∈{1,…K})为Tf的一个子集。然后,通过调用所提出的一种将MapReduce方法与Apriori算法联合的串行频繁项集挖掘算法(MR-Apriori),从每一个子数据集中挖掘局部频繁项集(Local FrequentItemsets,LFI)。LFI对于所挖掘的子集是频繁项集,但对于整个Tf可能不是频繁项集。与传统Apriori算法相比,本文提出的串行频繁项集挖掘算法将频繁项集挖掘过程分割为两个挖掘过程:首先,基于MapReduce思想的方法被用来挖掘包含两个或者三个项的频繁项集;然后,用Apriori算法挖掘其他频繁项集。另外,只含有一个项的频繁项集已经在MR步骤一中挖掘完毕。由于对于不同长度的项集,方法的挖掘效率不同,故在此针对不同长度的项集采用不同的方法挖掘,以增加项集挖掘效率。MR-Apriori算法可以被任何其他能够挖掘完整频繁项集的串行算法所替代,这个特质使整个框架具有良好的可扩展性。
在基于MapReduce思想的方法中,数据集将被映射成<key2,value2>键值对。其中key2为具有指定长度的项集,value2设置为1。这里的项集通过从每一条数据生成子集而提取出来。例如在挖掘2-频繁项集时,首先通过数据生成所有长度为2的子集,然后将其映射为<key2,value2>键值对。在生成键值对之后,键值对将根据key2进行分组,将value2进行叠加,以此即可计算出项集的支持度,进而找到其中的频繁项集。
通过组合的方法迅速生成含有两个或三个项的子集,可以充分利用MapReduce思想的处理优势来进行计数。但当数据生成具有更多的项的时候,性能将会由于搜索空间的扩大而迅速降低,生成子集所带来的时间消耗将会超过采用MapReduce思想所节约的时间。在频繁项集挖掘中,若频繁项集在全集上面是频繁项集,那么其一定在某个子集上是频繁项集。因此,若将子集上挖掘到的所有频繁项集进行整合,在全集频繁的频繁项集一定不会丢失。
挖掘LFI之后,结果将被聚合在一起并映射为<key2,value2′>键值对,其中value2′=(partition_ids,count2),partition_ids为项集的源头子数据集的标识组成的集合,count2为项集的估计支持度esup。esup可以根据公式(1)和(2)得到:
Figure BDA0002843476280000062
Figure BDA0002843476280000061
其中sup(X)k为X在STk中的支持度。对于LFI中的每一个项集,esup都小于或等于实际支持度,这是由于LFI的一些项集可能相对于部分子数据集为非频繁项集,在这些子数据集上这些项集的支持度将被计算为零。对于这一特征,会存在部分支持度计算误差且误差较小,因为小于MinSup的支持度在计算esup时会被忽略。
进一步地,构造所述LFI-tree包括:
构造一个由LFI组成的树,即Local FrequentItemsets tree,LFI-tree;LFI-tree的构建是为了找到较优频繁项集,过滤掉其他冗余项集;
在LFI-tree中,最外层的没有超集的项集为最大频繁项集;、
将LFI按照项集的长度划分为不同的层,项集的长度越长,层次越高;
从最高层开始,对每一层进行扫描,找出上层的子集,以此构建LFI-tree;
采用深度优先搜索,即Depth-firstSearch,DFS策略从最大频繁项集开始搜索冗余的频繁项集并进行过滤;
每一个最大频繁项集都会被扫描来用估计支持度esup计算其估计提升度elift和最近子集的elift
如果子集的长度与其超集相差为1,该子集就被称为其超集的最近子集;
elift的计算方法如公式(3)所示。
Figure BDA0002843476280000071
从最大频繁项集出发,采用深度优先搜索方法,具有更高价值的子集将会被保留然后继续搜索有价值的子集。假定X是LFI中的较优频繁项集,Xsub是X的最近子集。X的价值可表示为ev(X),该值与最近子集有关并可以根据以下公式进行计算。
ev(X)=elift(X→(X/Xsub)) (4)
其中,X/Xsub表示X与Xsub之间的差集,其只包含一个项。对于有关联的规则,elift有两种不同的值,小于1或者大于1,与Lift相同。
对于被比较的子集,其价值的计算公式与公式(4)不同。超集ev的不同值对应不同的子集价值计算方法。其价值ev-sub(Xsub)的计算公式如下所示。
Figure BDA0002843476280000072
其中,len(Xsub)表示Xsub的长度,ev(Xsub-n)是Xsub的第n个子集的ev值。ev(X)与ev-sub(Xs0b)之间价值的对比取决于值与1的距离。距离1越远的值,价值越高。
计算较优频繁项集的完整支持度:从步骤三获得的剩下的项集都是较优频繁项集OFI,而这些OFI的支持度是不完整的,其在相对不频繁的子集的支持度并未被计算。这一阶段将计算OFI的完整支持度。首先,数据集将被分配到每一个节点并映射为<key3,value3>键值对,其中key3是OFI中的一个子集,value3被设置为1;然后,将这些键值对按照key3进行整合在一起以获得OFI的完整支持度;最后,根据OFI生成相关的关联规则.
优选的,所述S5具体包括:
对所述可信数据进行实体抽取和实体间对应关系抽取,利用抽取后得到的实体和实体间对应关系构建<实体,关系,实体>的三元组;
将三元组导入图数据库中,将实体生成为节点,并给节点赋予节点属性,将关系生成为对应节点间的关系,并给关系赋予关系属性,得到初步可视化图。
优选的,所述S3具体包括:
S31:查找满足关联规则的节点属性和关系属性,获取与节点属性对应的具有关联关系的节点对,并构建<节点,关联关系,节点>的三元组;
S32:根据S31中的三元组,为图数据库中相应的节点对增加关联关系,获得完善可视化图。
进一步地,所述图表示学习算法,包括将可视化图节点向量化表示后,输入机器学习模型进行分类。
优选的,所述S6具体包括:
数据规范化处理,将中心度指标的数值映射为[0,1]中的实数;
利用DeepWalk算法将完善可视化图中的节点映射到一个连续的低维向量空间中,得到节点向量;将任意两个节点向量拼接得到边向量;
确定关键节点影响力评价矩阵,确定初始权重,该权重的取值等于上一次评价过程得到的最终权重结果,从而保证影响力是可传递的;
在首次评价过程中可将该权重赋值为0,或根据具体依据进行赋值。
取具有关联关系的两节点映射得到的两个节点向量拼接得到边向量,作为正样本;将确定不具有关联关系的任意两节点映射得到的两个节点向量拼接得到多个不满足关联关系的边向量,作为负样本;将所述正样本和所述负样本组成训练数据集;
利用信息熵法确定指标的熵值,计算各指标的熵权和各指标的熵权增量,为各指标的熵权增量进行权重赋值;
基于优化算法,计算各指标的综合权重,利用所述训练数据集构建分类器;
利用所述分类器评价所述训练数据集以外的边向量,计算不同在线可视化网络节点各项指标的评价结果。
具体的,数据规范化处理,将中心度指标的数值映射为[0,1]中的实数;第i个关键节点的第j个指标的观测值为xj(i),其中,j=1,2,3。
Figure BDA0002843476280000091
确定关键节点影响力评价矩阵X=(Xj(i))3*n
确定初始权重wj(t-1)。该权重的取值总是等于上一次评价过程得到的最终权重结果,从而保证影响力是可传递的。在首次评价过程中可将该权重赋值为0,或根据具体依据进行赋值。
利用信息熵法确定指标的熵值Hj;其中
Figure BDA0002843476280000092
为信息熵系数,
Figure BDA0002843476280000093
且当fj(i)=0时,fj(i)·lnfj(i)=0.
Figure BDA0002843476280000094
计算各指标的熵权wj(t)。若本次评价工作为首次实验,且初始权重均赋值为0,则直接进入计算各指标的综合权重步骤;
Figure BDA0002843476280000095
计算各指标的熵权增量Δwj
Δwj=wj(t)-wj(t-1) (9)
为各指标的熵权增量进行权重赋值,其中,
Figure BDA0002843476280000096
Figure BDA0002843476280000097
计算各指标的综合权重Wj。该权重能够减少熵权和关键节点影响力变化的灵敏性,使关键节点影响力具有延续意义。
Wj=wj(t)-μjΔwj (11)
计算不同在线可视化网络节点各项指标的评价结果。显然,各指标评价值小于各指标综合权重值,即0≤Yj(i)≤WT
Yj(i)=Wj·Xj(i) (12)
Y(i)=∑Yj(i) (13)
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种基于关联规则的网络可视化方法,其特征在于,包括:
S1:获取待可视化数据,将数据挖掘技术应用于已进行分类的训练集,同时构建分类模型,用该模型对未进行分类的数据进行分类,清洗筛选出可信数据;
S2:通过对训练集进行分类或者估值后,为判定该模型的可行性,以数据当中的测试集为参考,对训练集进行预测;
S3:聚类构建分组规律的方法,把判断具有一定相似性的样本归在一类数据集当中,从数据集中挖掘频繁项集;然后根据挖掘到的频繁项集提取关联规则;
S4:从挖掘到的频繁项集中提取有用的关联规则,剔除冗余的关联规则;
S5:在所述完善可视化图的基础上,通过图表示学习算法进一步增加关联关系,得到最终可视化图;
S6:利用所述最终可视化图评价关联信息,从关联规则中提取知识,对挖掘到的关联规则进行解码,获得具体的关联规则信息,最后形成有利于决策的知识。
2.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述S1具体包括:
选择间隔适合的时间周期,反复爬取在线可视化网络某主题参与者信息,建立参与者与全部关注的人以及粉丝的关注关系,对关注数据集中关注者、被关注者与初始数据集进行循环判断,清洗掉无关主题的用户数据,将实验数据集导入Gephi绘制信息交互关系网络,通过计算节点特征值得到结果数据集;
剔除待可视化数据中错误、重复及无关的信息,得到清洗后数据;
根据信息来源为清洗后数据中的每条信息设置权重系数,并计算得到每条信息的可信度;
利用Python中Pandas数据处理模块对两个数据集进行处理,加工为适合Gephi读取的CSV格式,最后导入相关文件进行社会网络分析。
3.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述步骤S2还包括:
获取算法在不同支持度的情况下的挖掘时间、生成的频繁项集数量和关联规则数量;
对最小支持度的调整中,综合考虑挖掘时间和挖掘到的频繁项集或关联规则数量,对最小支持度进行适当地调整,以找到合适的最小支持度;
将Apriori算法融入到所述方法当中对日常网络数据信息进行深度分析挖掘,实现对日常网络数据的预测预警。
4.根据权利要求2所述的一种基于关联规则的网络可视化方法,其特征在于,所述步骤S3还包括:
从数据集中挖掘频繁项集;然后,根据找到的频繁项集生成关联规则;
上述频繁项集是指数据集中频繁出现的数据组合,当项集出现的频次高于用户所设置阈值时,该项集则被视为频繁项集;
所述关联规则是以频繁项集为基础,通过各个项集出现的频次进行特定的计算,推出项集中某个子集与其相斥的子集之间的关系。
5.根据权利要求3所述的一种基于关联规则的网络可视化方法,其特征在于,所述步骤S4,具体包括:
输入数据集T,最小支持度MinSup,用MapReduce方法从T中挖掘频繁项;
使用频繁项过滤掉T中的非频繁项,获得过滤后的交易数据集Tf
将Tf分为多个子集,然后对每个子集调用MR-Apriori算法,通过MapReduce方法提取局部频繁项集LFIn,其中1<n3),通过Apriori算法提取LFIn,其中n>3;
聚合LFIn,过滤掉其中的非频繁项集;
使用过滤后的LFIn构建LFI-tree;
使用最大挖掘器和估计的提升度过滤掉LFI-tree中的冗余项集;
计算LFI-tree剩余项集的完整支持度,生成关联规则。
6.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述S5具体包括:
对所述可信数据进行实体抽取和实体间对应关系抽取,利用抽取后得到的实体和实体间对应关系构建<实体,关系,实体>的三元组;
将三元组导入图数据库中,将实体生成为节点,并给节点赋予节点属性,将关系生成为对应节点间的关系,并给关系赋予关系属性,得到初步可视化图。
7.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述S3具体包括:
S31:查找满足关联规则的节点属性和关系属性,获取与节点属性对应的具有关联关系的节点对,并构建<节点,关联关系,节点>的三元组;
S32:根据S31中的三元组,为图数据库中相应的节点对增加关联关系,获得完善可视化图。
8.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述图表示学习算法,包括将可视化图节点向量化表示后,输入机器学习模型进行分类。
9.根据权利要求1所述的一种基于关联规则的网络可视化方法,其特征在于,所述S6具体包括:
数据规范化处理,将中心度指标的数值映射为[0,1]中的实数;
利用DeepWalk算法将完善可视化图中的节点映射到一个连续的低维向量空间中,得到节点向量;将任意两个节点向量拼接得到边向量;
确定关键节点影响力评价矩阵,确定初始权重,该权重的取值等于上一次评价过程得到的最终权重结果,从而保证影响力是可传递的;
在首次评价过程中可将该权重赋值为0,或根据具体依据进行赋值。
取具有关联关系的两节点映射得到的两个节点向量拼接得到边向量,作为正样本;将确定不具有关联关系的任意两节点映射得到的两个节点向量拼接得到多个不满足关联关系的边向量,作为负样本;将所述正样本和所述负样本组成训练数据集;
利用信息熵法确定指标的熵值,计算各指标的熵权和各指标的熵权增量,为各指标的熵权增量进行权重赋值;
基于优化算法,计算各指标的综合权重,利用所述训练数据集构建分类器;
利用所述分类器评价所述训练数据集以外的边向量,计算不同在线可视化网络节点各项指标的评价结果。
CN202011500523.4A 2020-12-18 2020-12-18 一种基于关联规则的网络可视化方法 Pending CN112540973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011500523.4A CN112540973A (zh) 2020-12-18 2020-12-18 一种基于关联规则的网络可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011500523.4A CN112540973A (zh) 2020-12-18 2020-12-18 一种基于关联规则的网络可视化方法

Publications (1)

Publication Number Publication Date
CN112540973A true CN112540973A (zh) 2021-03-23

Family

ID=75018910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011500523.4A Pending CN112540973A (zh) 2020-12-18 2020-12-18 一种基于关联规则的网络可视化方法

Country Status (1)

Country Link
CN (1) CN112540973A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN113723800B (zh) * 2021-08-27 2024-06-07 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107695A1 (en) * 2016-10-19 2018-04-19 Futurewei Technologies, Inc. Distributed fp-growth with node table for large-scale association rule mining
CN108170850A (zh) * 2018-01-18 2018-06-15 武汉启晨科技有限公司 一种移动数据分析挖掘方法
CN110414987A (zh) * 2019-07-18 2019-11-05 中国工商银行股份有限公司 账户集合的识别方法、装置和计算机系统
CN111078868A (zh) * 2019-06-04 2020-04-28 中国人民解放军92493部队参谋部 基于知识图谱分析的装备试验体系规划决策的方法及系统
CN111444410A (zh) * 2020-03-27 2020-07-24 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180107695A1 (en) * 2016-10-19 2018-04-19 Futurewei Technologies, Inc. Distributed fp-growth with node table for large-scale association rule mining
CN108170850A (zh) * 2018-01-18 2018-06-15 武汉启晨科技有限公司 一种移动数据分析挖掘方法
CN111078868A (zh) * 2019-06-04 2020-04-28 中国人民解放军92493部队参谋部 基于知识图谱分析的装备试验体系规划决策的方法及系统
CN110414987A (zh) * 2019-07-18 2019-11-05 中国工商银行股份有限公司 账户集合的识别方法、装置和计算机系统
CN111444410A (zh) * 2020-03-27 2020-07-24 民生科技有限责任公司 一种基于知识图谱的关联交易挖掘识别方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
戈国华: "Web使用挖掘在电子商务推荐系统中的应用", 《中国优秀硕士学位论文数据库信息科技辑》 *
闭应洲等: "第7章 关联规则和协同过滤", 《数据挖掘与机器学习》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113723800A (zh) * 2021-08-27 2021-11-30 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置
CN113723800B (zh) * 2021-08-27 2024-06-07 上海幻电信息科技有限公司 风险识别模型训练方法及装置、风险识别方法及装置

Similar Documents

Publication Publication Date Title
US10713597B2 (en) Systems and methods for preparing data for use by machine learning algorithms
CN109345399B (zh) 理赔风险评估方法、装置、计算机设备及存储介质
WO2021093755A1 (zh) 问题的匹配方法及装置、问题的回复方法及装置
US20100082697A1 (en) Data model enrichment and classification using multi-model approach
JP5587493B2 (ja) アクショナブルな属性を、個人識別を表すデータに帰する方法及びシステム
Halibas et al. Determining the intervening effects of exploratory data analysis and feature engineering in telecoms customer churn modelling
CN111143838B (zh) 数据库用户异常行为检测方法
CN111221968B (zh) 基于学科树聚类的作者消歧方法及装置
CN107291895B (zh) 一种快速的层次化文档查询方法
US20200090058A1 (en) Model variable candidate generation device and method
US20100138414A1 (en) Methods and systems for associative search
Yang et al. Enhancing recommendation on extremely sparse data with blocks-coupled non-negative matrix factorization
CN112925857A (zh) 基于谓语类型预测关联的数字信息驱动的系统和方法
Schelter amnesia–towards machine learning models that can forget user data very fast
Pristyanto et al. The effect of feature selection on classification algorithms in credit approval
CN115858906A (zh) 企业搜索方法、装置、设备、计算机存储介质及程序
US20220327394A1 (en) Learning support apparatus, learning support methods, and computer-readable recording medium
US10120929B1 (en) Systems and methods for automatic item classification
CN113326432A (zh) 一种基于决策树与推荐方法的模型优选方法
JP5716966B2 (ja) データ分析装置、データ分析方法及びプログラム
Saha et al. Novel randomized feature selection algorithms
US20230244987A1 (en) Accelerated data labeling with automated data profiling for training machine learning predictive models
US20230237072A1 (en) Apparatus, system, and method for classifying and neutralizing bias in an application
CN112540973A (zh) 一种基于关联规则的网络可视化方法
Jain et al. Multi-reduct rough set classifier for computer-aided diagnosis in medical data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination