CN111353051A - 一种基于K-means和Apriori的算法海事大数据关联分析的方法 - Google Patents

一种基于K-means和Apriori的算法海事大数据关联分析的方法 Download PDF

Info

Publication number
CN111353051A
CN111353051A CN202010429900.3A CN202010429900A CN111353051A CN 111353051 A CN111353051 A CN 111353051A CN 202010429900 A CN202010429900 A CN 202010429900A CN 111353051 A CN111353051 A CN 111353051A
Authority
CN
China
Prior art keywords
maritime
item set
data
candidate
apriori
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010429900.3A
Other languages
English (en)
Inventor
李志杰
汤小剑
杨燕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Lanhe Intelligent Technology Co ltd
Original Assignee
Jiangsu Lanhe Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Lanhe Intelligent Technology Co ltd filed Critical Jiangsu Lanhe Intelligent Technology Co ltd
Publication of CN111353051A publication Critical patent/CN111353051A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/40Business processes related to the transportation industry

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Business, Economics & Management (AREA)
  • Animal Behavior & Ethology (AREA)
  • Human Resources & Organizations (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于K‑means和Apriori的算法海事大数据关联分析的方法,首先根据不同业务采用k‑means聚类算法进行聚类,将数据集划分出了多个互不相交的“簇”,再在各“簇”内通过Apriori算法实现各类事件关联规则挖掘,其结果表明使用该方法经过聚类后的同一簇内事件关联程度明显优于直接在数据集中使用Apriori算法进行挖掘,为海事大数据关联分析提供重要依据,构建海事知识图谱。

Description

一种基于K-means和Apriori的算法海事大数据关联分析的 方法
技术领域
本发明涉及数据处理技术领域,具体为一种基于K-means和Apriori的算法海事大数据关联分析的方法。
背景技术
当前海事的决策分析更多的是基于大量数据报表形成统计型分析,需要人工的介入分析统计数据背后的意义,进而发现事情和问题的原因。
这种数据分析更多的还是基于“因果”的思维,但在未来智慧海事发展中会面临以下瓶颈:
1.无法分析出问题的原因,进而无法解决问题;
2.造成问题的原因很多,导致无法有效的解决问题;
3.数据统计不客观、不全面、虚假数据等因素,造成“数据说谎”的情况;
4.数据因果分析效率较低,难以实现实时的决策。
根据国家海事部门编制的《海事信息系统顶层设计》及智慧海事战略规划要求,海事信息化发展取得了可观的成果,海事云数据中心建设取得突破性进展,基本实现了全国海事系统基础数据的汇集与筛选,为海事大数据应用夯实了基础。未来,基于数据的“事实”将会成为决策的重要依据。
发明内容
本发明的目的在于提供一种基于K-means和Apriori的算法海事大数据关联分析的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于K-means和Apriori的算法海事大数据关联分析的方法,包括以下步骤:
A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;
B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;
C、利用Apriori算法实现海事数据关联分析;
D、建立海事知识图谱。
优选的,所述步骤C中分析方法具体如下:
a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;
b、首先产生候选的项集合,即候选项集,若选取的候选项集的当前支持度大于或等于设定的最小支持度,则该候选项集为频繁项集;
c、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集集合来产生候选2项集集合;
d、再扫描数据库,得出候选2项集集合,再找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集;
e、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止,此算法中要不断重复两个步骤:连接和剪枝。
优选的,所述步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合;通过海事知识图谱的构建,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,实现信息的快速检索,为智慧管理提供切实的、有价值的参考。
与现有技术相比,本发明的有益效果是:本发明能够提高数据挖掘分析效:海事数据分析从“因果思维”向“关联思维”转变,从关注精确度转变为关注效率。现有数据分析是根据问题一定要找到一个原因,推出一个结果。而关联性分析不需要证明数据、事务之间的因果规律,更多的是关注某一数据出现某种迹象的时候,按数据统计的高概率显示它会有相应的结果,未来根据数据表现迹象确定相应的决策;能够提高海事监管服务水平:通过关联分析技术的应用,能够把数学算法运用到海量的数据上来预测事情发生的可能性。通过海事内部数据的充分应用以及外单位海量数据的交互收集,为未来海事安全事件、突发事件等预测夯实基础,进而提高海事的监管服务能力;决策分析更客观:通过关联分析,避免数据统计中样本不全、虚假数据等影响因素,最大程度保证关联分析的客观性,使得分析和决策更客观、精准。
附图说明
图1为本发明分析示意图;
图2为本发明架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-2,本发明提供一种技术方案:一种基于K-means和Apriori的算法海事大数据关联分析的方法,包括以下步骤:
A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;
B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;
C、利用Apriori算法实现海事数据关联分析;
D、建立海事知识图谱。
本发明中,步骤C中分析方法具体如下:
a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;
b、首先产生候选的项集合,即候选项集,若选取的候选项集的当前支持度大于或等于设定的最小支持度,则该候选项集为频繁项集;
c、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集集合来产生候选2项集集合;
d、再扫描数据库,得出候选2项集集合,再找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集;
e、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止,此算法中要不断重复两个步骤:连接和剪枝。
此外,本发明中,步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合;通过海事知识图谱的构建,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,实现信息的快速检索,为智慧管理提供切实的、有价值的参考。
综上所述,本发明能够提高数据挖掘分析效:海事数据分析从“因果思维”向“关联思维”转变,从关注精确度转变为关注效率。现有数据分析是根据问题一定要找到一个原因,推出一个结果。而关联性分析不需要证明数据、事务之间的因果规律,更多的是关注某一数据出现某种迹象的时候,按数据统计的高概率显示它会有相应的结果,未来根据数据表现迹象确定相应的决策;能够提高海事监管服务水平:通过关联分析技术的应用,能够把数学算法运用到海量的数据上来预测事情发生的可能性。通过海事内部数据的充分应用以及外单位海量数据的交互收集,为未来海事安全事件、突发事件等预测夯实基础,进而提高海事的监管服务能力;决策分析更客观:通过关联分析,避免数据统计中样本不全、虚假数据等影响因素,最大程度保证关联分析的客观性,使得分析和决策更客观、精准。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (3)

1.一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:包括以下步骤:
A、建立海事数据资源库,提取并形成海事基础信息属性:海事业务大多围绕人、船、环境等要素,根据海事业务的特点,建立标准的海事数据资源库,并从业务属性方面进行分析,以便全面挖掘数据特征;
B、进行属性归类,实现利用k-means聚类算法实现聚类:根据相似性原则,将具有较高相似度的数据对象划分至同一类簇,将具有较高相异度的数据对象划分至不同类簇;根据k值的设定,将数据按属性距离分为若干不相交的簇;同一个“簇”内的数据对象具有一定的相似程度,而不同“簇”间的数据对象相似程度使之降低;
C、利用Apriori算法实现海事数据关联分析;
D、建立海事知识图谱。
2.根据权利要求1所述的一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:所述步骤C中分析方法具体如下:
a、根据情况,设定合适的最小支持度minsupport和最小置信度minconfidence;
b、首先产生候选的项集合,即候选项集,若选取的候选项集的当前支持度大于或等于设定的最小支持度,则该候选项集为频繁项集;
c、在Apriori算法的过程中,首先从数据库读入所有的事务,每个项都被看作候选1项集,得出各项的支持度,再使用频繁1项集集合来产生候选2项集集合;
d、再扫描数据库,得出候选2项集集合,再找出频繁2项集,并利用这些频繁2项集集合来产生候选3项集;
e、重复扫描数据库,与最小支持度比较,产生更高层次的频繁项集,再从该集合里产生下一级候选项集,直到不再产生新的候选项集为止,此算法中要不断重复两个步骤:连接和剪枝。
3.根据权利要求1所述的一种基于K-means和Apriori的算法海事大数据关联分析的方法,其特征在于:所述步骤D中知识图谱是通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合,并利用可视化的图谱形象地展示海事业务的核心结构、发展历史、前沿领域以及整体知识架构以达到多业务融合;通过海事知识图谱的构建,把复杂的知识领域通过数据挖掘、信息处理、知识计量和图形绘制而显示出来,揭示知识领域的动态发展规律,实现信息的快速检索,为智慧管理提供切实的、有价值的参考。
CN202010429900.3A 2019-12-04 2020-05-20 一种基于K-means和Apriori的算法海事大数据关联分析的方法 Pending CN111353051A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019112267035 2019-12-04
CN201911226703 2019-12-04

Publications (1)

Publication Number Publication Date
CN111353051A true CN111353051A (zh) 2020-06-30

Family

ID=71193439

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010429900.3A Pending CN111353051A (zh) 2019-12-04 2020-05-20 一种基于K-means和Apriori的算法海事大数据关联分析的方法

Country Status (1)

Country Link
CN (1) CN111353051A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231392A (zh) * 2020-10-29 2021-01-15 广东机场白云信息科技有限公司 民航客源数据分析方法、电子设备、计算机可读存储介质
CN113139064A (zh) * 2021-01-15 2021-07-20 西安天和防务技术股份有限公司 关联规则挖掘方法、装置、计算机设备及存储介质
CN113886398A (zh) * 2021-10-20 2022-01-04 联想(北京)有限公司 数据处理方法、装置和电子设备
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260387A (zh) * 2015-09-10 2016-01-20 江苏省邮电规划设计院有限责任公司 一种面向海量事务数据库的关联规则分析方法
CN109147879A (zh) * 2018-07-02 2019-01-04 北京众信易保科技有限公司 基于医疗单据的可视化报表的方法和系统
CN109933693A (zh) * 2019-03-13 2019-06-25 重庆尚唯信息技术有限公司 一种基于大数据技术的全球智库数据开发与组织方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105260387A (zh) * 2015-09-10 2016-01-20 江苏省邮电规划设计院有限责任公司 一种面向海量事务数据库的关联规则分析方法
CN109147879A (zh) * 2018-07-02 2019-01-04 北京众信易保科技有限公司 基于医疗单据的可视化报表的方法和系统
CN109933693A (zh) * 2019-03-13 2019-06-25 重庆尚唯信息技术有限公司 一种基于大数据技术的全球智库数据开发与组织方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112231392A (zh) * 2020-10-29 2021-01-15 广东机场白云信息科技有限公司 民航客源数据分析方法、电子设备、计算机可读存储介质
CN113139064A (zh) * 2021-01-15 2021-07-20 西安天和防务技术股份有限公司 关联规则挖掘方法、装置、计算机设备及存储介质
CN113886398A (zh) * 2021-10-20 2022-01-04 联想(北京)有限公司 数据处理方法、装置和电子设备
CN115757461A (zh) * 2022-11-09 2023-03-07 北京新数科技有限公司 一种银行数据库应用系统结果聚类方法

Similar Documents

Publication Publication Date Title
CN111353051A (zh) 一种基于K-means和Apriori的算法海事大数据关联分析的方法
Ouyang et al. Multi-view stacking ensemble for power consumption anomaly detection in the context of industrial internet of things
Peling et al. Implementation of Data Mining To Predict Period of Students Study Using Naive Bayes Algorithm
JP5647627B2 (ja) 異常パターンの発見
Jin et al. Crime-GAN: A context-based sequence generative network for crime forecasting with adversarial loss
Tin et al. An integrated framework for disaster event analysis in big data environments
Kwee et al. Traffic-cascade: Mining and visualizing lifecycles of traffic congestion events using public bus trajectories
Chen et al. A new data envelopment analysis clustering approach within cross-efficiency framework
Hui Construction of information security risk assessment model in smart city
CN106815320B (zh) 基于拓展三维直方图的调研大数据可视化建模方法及系统
CN117436729A (zh) 一种基于政务系统数据治理和数据分析方法
Yu A visualized pattern discovery model for text mining based on TF-IDF weight method
CN115017238A (zh) 一种可动态预测的数据流量检测分类方法
CN113849464A (zh) 信息处理方法和设备
Gullapalli et al. Extracting ordinal temporal trail clusters in networks using symbolic time-series analysis
CN113792749A (zh) 时间序列数据异常检测方法、装置、设备及存储介质
Cao et al. Key technologies of big data and its development in intelligent ship
Du et al. Mining multicity urban data for sustainable population relocation
Jain A Survey on Railway Assets: A Potential Domain for Big Data
Ren Design and Implementation of Data Management and Visualisation Module in Financial Digital Management
Li et al. Detecting Key Offenders from Crime Incidents via Attributed Heterogeneous Network Learning
CN117911949B (zh) 一种风险智能评估方法及系统
CN116756344B (zh) 一种面向全过程的滑坡场景本体构建方法及相关设备
Qiu [Retracted] Effect of Improved Association Algorithm on Mining and Recognition of Audit Data
Sivaranjani et al. A novel approach for serial crime detection with the consideration of class imbalance problem

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630