CN111353051A

CN111353051A - 一种基于K-means和Apriori的算法海事大数据关联分析的方法

Info

Publication number: CN111353051A
Application number: CN202010429900.3A
Authority: CN
Inventors: 李志杰; 汤小剑; 杨燕
Original assignee: Jiangsu Lanhe Intelligent Technology Co ltd
Current assignee: Jiangsu Lanhe Intelligent Technology Co ltd
Priority date: 2019-12-04
Filing date: 2020-05-20
Publication date: 2020-06-30

Abstract

本发明公开了一种基于K‑means和Apriori的算法海事大数据关联分析的方法，首先根据不同业务采用k‑means聚类算法进行聚类，将数据集划分出了多个互不相交的“簇”，再在各“簇”内通过Apriori算法实现各类事件关联规则挖掘，其结果表明使用该方法经过聚类后的同一簇内事件关联程度明显优于直接在数据集中使用Apriori算法进行挖掘，为海事大数据关联分析提供重要依据，构建海事知识图谱。

Description

一种基于K-means和Apriori的算法海事大数据关联分析的方法

技术领域

本发明涉及数据处理技术领域，具体为一种基于K-means和Apriori的算法海事大数据关联分析的方法。

背景技术

当前海事的决策分析更多的是基于大量数据报表形成统计型分析，需要人工的介入分析统计数据背后的意义，进而发现事情和问题的原因。

这种数据分析更多的还是基于“因果”的思维，但在未来智慧海事发展中会面临以下瓶颈：

1.无法分析出问题的原因，进而无法解决问题；

2.造成问题的原因很多，导致无法有效的解决问题；

3.数据统计不客观、不全面、虚假数据等因素，造成“数据说谎”的情况；

4.数据因果分析效率较低，难以实现实时的决策。

根据国家海事部门编制的《海事信息系统顶层设计》及智慧海事战略规划要求，海事信息化发展取得了可观的成果，海事云数据中心建设取得突破性进展，基本实现了全国海事系统基础数据的汇集与筛选，为海事大数据应用夯实了基础。未来，基于数据的“事实”将会成为决策的重要依据。

发明内容

本发明的目的在于提供一种基于K-means和Apriori的算法海事大数据关联分析的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于K-means和Apriori的算法海事大数据关联分析的方法，包括以下步骤：

A、建立海事数据资源库，提取并形成海事基础信息属性：海事业务大多围绕人、船、环境等要素，根据海事业务的特点，建立标准的海事数据资源库，并从业务属性方面进行分析，以便全面挖掘数据特征；

B、进行属性归类，实现利用k-means聚类算法实现聚类：根据相似性原则，将具有较高相似度的数据对象划分至同一类簇，将具有较高相异度的数据对象划分至不同类簇；根据k值的设定，将数据按属性距离分为若干不相交的簇；同一个“簇”内的数据对象具有一定的相似程度，而不同“簇”间的数据对象相似程度使之降低；

C、利用Apriori算法实现海事数据关联分析；

D、建立海事知识图谱。

优选的，所述步骤C中分析方法具体如下：

a、根据情况，设定合适的最小支持度minsupport和最小置信度minconfidence；

b、首先产生候选的项集合，即候选项集，若选取的候选项集的当前支持度大于或等于设定的最小支持度，则该候选项集为频繁项集；

c、在Apriori算法的过程中，首先从数据库读入所有的事务，每个项都被看作候选1项集，得出各项的支持度，再使用频繁1项集集合来产生候选2项集集合；

d、再扫描数据库，得出候选2项集集合，再找出频繁2项集，并利用这些频繁2项集集合来产生候选3项集；

e、重复扫描数据库，与最小支持度比较，产生更高层次的频繁项集，再从该集合里产生下一级候选项集，直到不再产生新的候选项集为止，此算法中要不断重复两个步骤：连接和剪枝。

优选的，所述步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合；通过海事知识图谱的构建，把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，实现信息的快速检索，为智慧管理提供切实的、有价值的参考。

与现有技术相比，本发明的有益效果是：本发明能够提高数据挖掘分析效：海事数据分析从“因果思维”向“关联思维”转变，从关注精确度转变为关注效率。现有数据分析是根据问题一定要找到一个原因，推出一个结果。而关联性分析不需要证明数据、事务之间的因果规律，更多的是关注某一数据出现某种迹象的时候，按数据统计的高概率显示它会有相应的结果，未来根据数据表现迹象确定相应的决策；能够提高海事监管服务水平：通过关联分析技术的应用，能够把数学算法运用到海量的数据上来预测事情发生的可能性。通过海事内部数据的充分应用以及外单位海量数据的交互收集，为未来海事安全事件、突发事件等预测夯实基础，进而提高海事的监管服务能力；决策分析更客观：通过关联分析，避免数据统计中样本不全、虚假数据等影响因素，最大程度保证关联分析的客观性，使得分析和决策更客观、精准。

附图说明

图1为本发明分析示意图；

图2为本发明架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种基于K-means和Apriori的算法海事大数据关联分析的方法，包括以下步骤：

C、利用Apriori算法实现海事数据关联分析；

D、建立海事知识图谱。

本发明中，步骤C中分析方法具体如下：

此外，本发明中，步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合；通过海事知识图谱的构建，把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，实现信息的快速检索，为智慧管理提供切实的、有价值的参考。

综上所述，本发明能够提高数据挖掘分析效：海事数据分析从“因果思维”向“关联思维”转变，从关注精确度转变为关注效率。现有数据分析是根据问题一定要找到一个原因，推出一个结果。而关联性分析不需要证明数据、事务之间的因果规律，更多的是关注某一数据出现某种迹象的时候，按数据统计的高概率显示它会有相应的结果，未来根据数据表现迹象确定相应的决策；能够提高海事监管服务水平：通过关联分析技术的应用，能够把数学算法运用到海量的数据上来预测事情发生的可能性。通过海事内部数据的充分应用以及外单位海量数据的交互收集，为未来海事安全事件、突发事件等预测夯实基础，进而提高海事的监管服务能力；决策分析更客观：通过关联分析，避免数据统计中样本不全、虚假数据等影响因素，最大程度保证关联分析的客观性，使得分析和决策更客观、精准。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于K-means和Apriori的算法海事大数据关联分析的方法，其特征在于：包括以下步骤：

C、利用Apriori算法实现海事数据关联分析；

D、建立海事知识图谱。

2.根据权利要求1所述的一种基于K-means和Apriori的算法海事大数据关联分析的方法，其特征在于：所述步骤C中分析方法具体如下：

3.根据权利要求1所述的一种基于K-means和Apriori的算法海事大数据关联分析的方法，其特征在于：所述步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合；通过海事知识图谱的构建，把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来，揭示知识领域的动态发展规律，实现信息的快速检索，为智慧管理提供切实的、有价值的参考。