CN116775753B - 一种数据资产可视化方法及系统 - Google Patents

一种数据资产可视化方法及系统 Download PDF

Info

Publication number
CN116775753B
CN116775753B CN202311075757.2A CN202311075757A CN116775753B CN 116775753 B CN116775753 B CN 116775753B CN 202311075757 A CN202311075757 A CN 202311075757A CN 116775753 B CN116775753 B CN 116775753B
Authority
CN
China
Prior art keywords
information
data
ship
attribute
route
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311075757.2A
Other languages
English (en)
Other versions
CN116775753A (zh
Inventor
王乐凯
李嵩
穆珂
袁小平
周海龙
周超
杨公平
王文静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beiming Chenggong Software Shandong Co ltd
Original Assignee
Beiming Chenggong Software Shandong Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beiming Chenggong Software Shandong Co ltd filed Critical Beiming Chenggong Software Shandong Co ltd
Priority to CN202311075757.2A priority Critical patent/CN116775753B/zh
Publication of CN116775753A publication Critical patent/CN116775753A/zh
Application granted granted Critical
Publication of CN116775753B publication Critical patent/CN116775753B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Computational Linguistics (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Fuzzy Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Remote Sensing (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Operations Research (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种数据资产可视化方法及系统,涉及水运交通行业大数据技术领域,该方法包括以下步骤:S1、获取水运交通行业中的数据资产;S2、将水运交通数据解析分解为航线信息、船舶信息及属性信息;S3、提取航线信息中的初始港口信息、目标港口信息及航行路径信息;S4、提取船舶信息中的任务信息、类型信息及船体信息,为不同类型的船舶单体设定船舶ID码;S5、利用数据挖掘算法对属性信息进行分析;S6、设定可视化展示与关键词检索的用户交互界面。本发明通过构建水运交通行业数据资产全局可视化分析及管理,实现水运交通行业中各类型数据资产的整合、解析和可视化展示,提高行业运营效率和管理水平。

Description

一种数据资产可视化方法及系统
技术领域
本发明涉及水运交通行业大数据技术领域,尤其是涉及一种数据资产可视化方法及系统。
背景技术
水运交通是一种以水体为主要运输通道的交通方式,利用水路、河流、湖泊、运河、港口等水域进行货物和人员的运输。水运交通在历史上一直是人类主要的交通方式之一,并且在许多地区仍然是重要的运输方式之一。
数据资产(Data Assets)指的是组织或个人拥有并可以利用的有价值的数据资源。这些数据资源可以包括各种类型的数据,如业务数据、客户数据、市场数据、科研数据、生产数据等,以及与这些数据相关的元数据(例如数据定义、数据来源、数据关系等)。数据资产在当今信息时代具有巨大的价值,因为数据在决策制定、业务发展、创新和竞争中发挥着重要的作用。
水运交通数据资产则是在水运交通行业相关的数据资源,包括航线信息、船舶信息、港口信息、货物运输信息等。这些数据资产通过各种方式收集和生成,包括传感器、船舶的自动化系统、港口管理系统、气象站、交通管理系统等。合理管理和分析这些数据资产可以帮助水运交通行业提高运输效率、降低成本、增强安全性,并为决策制定提供支持。
资产可视化是将组织或个人拥有的资产通过可视化技术展示为图表、图形等视觉化形式,以便更好地理解资产的分布、价值和状态。水运交通行业资产可视化是将水运交通行业相关的资产数据通过可视化技术展示,包括航线信息、船舶信息、港口信息、货物运输信息等,将这些数据资产通过可视化技术展示为图表、图形等视觉化形式,以便更直观地理解和分析数据。
水运交通数据资产往往来自不同的数据源,数据质量可能参差不齐。存在数据缺失、错误和噪声等问题,这会影响数据的准确性和可靠性,进而影响可视化结果的准确性,并且水运交通数据资产通常是大规模、多维度的,处理和分析这些复杂数据需要较高的计算和存储资源。水运交通行业涉及多个环节和多个部门,数据通常分散在不同的系统和部门中,导致数据集成和共享面临着数据格式不一致、数据标准不统一等问题,影响了数据的整合和综合分析。
此外,水运交通行业的数据通常具有多维度、大规模和高度复杂性,现有的资产管理及可视化技术在处理复杂数据时可能受限,难以完全展现数据的内在关联和趋势。对于实时更新的数据,现有的可视化技术可能无法实时展示最新的水运交通资产状态,导致决策者难以及时做出准确的决策。同时现有的静态可视化技术缺乏数据的交互性,用户无法灵活地探索和发现数据的细节和潜在规律,限制了数据分析和决策的深度和广度。
发明内容
基于此,有必要针对上述技术问题,提供一种数据资产可视化方法及系统。
第一方面,本发明提供了一种数据资产可视化方法,该方法包括以下步骤:
S1、获取水运交通行业中的数据资产,包含各类型的水运交通数据;
S2、将水运交通数据解析分解为航线信息、船舶信息及属性信息;
S3、提取航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型;
S4、提取船舶信息中的任务信息、类型信息及船体信息,为不同类型的船舶单体设定船舶ID码,并匹配至对应的航线及航线ID码中;
S5、利用数据挖掘算法对属性信息进行分析,实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库;
S6、设定可视化展示与关键词检索的用户交互界面,依据用户输入ID码数值或数据类型提供相应的水运交通数据资产的可视化展示。
在其中一个实施例中,将水运交通数据解析分解为航线信息、船舶信息及属性信息包括以下步骤:
S21、将原始的水运交通数据进行数据清洗,处理其中的缺失值、异常值及重复值,并将水运交通数据转换为统一的格式;
S22、依据水运交通数据的结构、属性及内容,将水运交通数据划分为航线信息、船舶信息及属性信息三个种类;
S23、读取水运交通数据中的航线字段,划分为航线信息;
S24、读取水运交通数据中的船舶字段,划分为船舶信息;
S25、读取水运交通数据中的港口状态、货物需求、环境因素及客观因素,划分为属性信息。
在其中一个实施例中,提取航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型包括以下步骤:
S31、提取航线信息中的初始港口信息与目标港口信息,包括初始港口信息与目标港口信息的经纬度及港口名称;
S32、提取初始港口经纬度与目标港口经纬度之间的所有航行路径,将每一条航行路径作为一条航线,并为每一条航线设定航线ID码,提取航线在航行路径中的经纬度变化作为航行路径信息;
S33、利用GIS技术创建二维化的展示模型,在展示模型中标定每个港口的坐标位置,将初始港口信息、目标港口信息及航行路径信息与展示模型相关联,再以初始港口与目标港口为端点生成路径曲线,并采用不同颜色展示端点相同、路径不同的路径曲线。
在其中一个实施例中,利用数据挖掘算法对属性信息进行分析,实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库包括以下步骤:
S51、将船舶信息中的任务信息、类型信息及船体信息分别转换为任务属性、类型属性及船体属性,并组合形成船舶属性集;
S52、将船舶属性集与属性信息整合转换为属性数据集,并添加新字段用于存储船舶ID码,将船舶ID码作为标识符;
S53、利用数据挖掘算法对属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则;
S54、将保留后的关联规则中的属性信息中的信息数据进行标准化映射,生成以船舶ID码为标识符的标准数据序列;
S55、利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库。
在其中一个实施例中,利用数据挖掘算法对属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则包括以下步骤:
S531、将属性数据集中的每一个数据记录表示为一个序列项,并对序列化后的属性数据集进行扫描,生成所有长度为1的前缀;
S532、计算各个前缀的支持度以及效用度,将不满足最小支持度阈值与最小效用度阈值的前缀从属性数据集中删除;
S533、将保留下来的长度为k的序列进行递归计算,生成频繁序列项;
S534、依据所有生成的频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除;
S535、分别为支持度、置信度及效用度赋予不同权重值,将三者与其权重值的累加和作为关联规则的综合价值评分,按照综合价值评分结果对关联规则的综合价值进行排序;
S536、若同一个船舶ID码存在多个关联规则,则保留综合价值评分最高的关联规则,删除其余关联规则。
在其中一个实施例中,将保留下来的长度为k的序列进行递归计算,生成频繁序列项包括以下步骤:
S5331、生成满足最小支持度阈值与最小效用度阈值条件的前缀投影库,若前缀投影库为空,则递归返回;
S5332、计算前缀投影库中各个序列项的支持度与效用度,若所有序列项的支持度或效用度均小于最小支持度阈值或最小效用度阈值,则递归返回;
S5333、将满足最小支持度阈值的序列项与当前的前缀进行合并,生成若干新前缀;
S5334、令长度k=k+1,对若干新前缀分别递归,再执行步骤S5333,直至停止产生频繁序列项,终止递归。
在其中一个实施例中,依据所有生成的频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除包括以下步骤:
S5341、获取递归结束后生成的所有频繁序列项,生成关联规则;
S5342、将同时满足最小支持度阈值与最小效用度阈值的关联规则组合形成冗余项集,设定关联规则的有趣度评估模型,表达式为:
其中,Interest表示有趣度;bool表示布尔值;X表示递归运算得到的冗余项集;Y表示属性数据集中已知的冗余项集;
S5343、若关联规则的有趣度为1则表示该关联规则为有趣,若关联规则的有趣度为0,且该关联规则的置信度小于最小置信度阈值,则删除该关联规则。
在其中一个实施例中,将保留后的关联规则中的属性信息进行标准化映射,生成以船舶ID码为标识符的标准数据序列包括以下步骤:
S541、建立属性信息内信息数据的标准化映射表,将同一类型信息数据的名称映射为标准化名称;
S542、将数值形式的信息数据进行离散化,并将文本形式的信息数据进行标签编码转换为数字形式;
S543、以船舶ID码为标识符,将信息数据的标准化名称及其离散化或标签编码后的数值组合形成标准数据序列。
在其中一个实施例中,利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库包括以下步骤:
S551、将标准数据序列中每个元素进行两两组合绘制散点图矩阵;
S552、将标准数据序列中的元素组合绘制平面坐标图,不同的标准数据序列之间采用不同颜色、不同线型的方式进行区分;
S553、将标准数据序列的散点图矩阵、平面坐标图及原始信息数据一同存储至属性数据库,并以船舶ID码作为索引标识;
第二方面,本发明还提供了一种数据资产可视化系统,该系统包括:
数据采集模块,用于获取水运交通行业中的数据资产;
数据解析模块,用于采集得到的水运交通数据解析分解为航线信息、船舶信息及属性信息;
信息匹配模块,用于提取航线信息、船舶信息及属性信息中的信息因素,利用数据挖掘及关联规则算法实现数据分类与匹配;
展示交互模块,用于设定可视化展示与关键词检索的用户交互界面,依据用户输入的查询结果提供相应的水运交通数据资产的可视化展示。
本发明的有益效果为:
1、通过构建水运交通行业数据资产的全局可视化分析及管理,能够实现水运交通行业中各类型数据资产的整合、解析和可视化展示;针对航线信息和船舶信息的提取与关联匹配,实现了航线与船舶之间的关联关系,而属性信息的数据挖掘和关联匹配,构建了多维可视化的属性数据库,使得用户可以通过交互界面选择感兴趣的数据类型和ID码数值,进行动态展示和深度分析;从而为水运交通行业决策提供了有益支持,优化航线规划、船舶调度、港口运营等,提高行业运营效率和管理水平。
2、通过在航线信息中提取初始港口和目标港口的经纬度和名称,以及航行路径的经纬度变化,形成一条条航线数据,并为每条航线设定唯一的航线ID码,利用GIS技术构建展示模型,根据不同路径的不同颜色进行区分展示,从而直观地展示水运交通行业中航线的起始点、终点以及航行路径,帮助用户全面了解航线规划和运输路线,有助于优化航线安排和提高运输效率。
3、通过数据挖掘与关联规则匹配的方式,可以实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库,将关联规则中的属性信息进行标准化映射,生成以船舶ID码为标识符的标准数据序列,利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库,从而帮助用户全面了解船舶属性与船舶ID码之间的关系,并通过多维可视化展示,深入分析数据,为水运交通行业的决策制定和优化提供有益支持。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种数据资产可视化方法的流程图;
图2是根据本发明实施例的一种数据资产可视化系统的系统框图。
附图标号:1、数据采集模块;2、数据解析模块;3、信息匹配模块;4、展示交互模块。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,提供了一种数据资产可视化方法,该方法包括以下步骤:
S1、获取水运交通行业中的数据资产,包含各类型的水运交通数据。
在本发明的描述中,通过网络爬虫、API接口或传感器等方式获取水运交通行业的数据。数据存储可以使用数据库管理系统(如MySQL、PostgreSQL)或大数据存储技术(如Hadoop、Spark)。
S2、将水运交通数据解析分解为航线信息、船舶信息及属性信息。
在本发明的描述中,将水运交通数据解析分解为航线信息、船舶信息及属性信息包括以下步骤:
S21、将原始的水运交通数据进行数据清洗,处理其中的缺失值、异常值及重复值,并将水运交通数据转换为统一的格式。
缺失值处理:检查数据中是否有缺失值,缺失值是指数据中某些字段的值为空或未填写。可以选择删除含有缺失值的记录,或者采用插值、均值填充等方法补全缺失值。
异常值处理:异常值是指与其他数据明显不符的值,可能是数据采集或记录过程中的错误。可以通过统计分析、数据分布可视化等方法检测和处理异常值,可以删除异常值或者采用平均值、中位数等替代。
重复值处理:重复值是指数据集中存在相同的记录,可能是由于重复录入或数据集成过程中的重复。可以通过数据去重的方式去除重复值。
S22、依据水运交通数据的结构、属性及内容,将水运交通数据划分为航线信息、船舶信息及属性信息三个种类。
S23、读取水运交通数据中的航线字段,划分为航线信息。
具体的,首先打开水运交通数据文件或连接到数据源,根据数据的格式选择合适的读取方式,例如使用Python的pandas库读取CSV、Excel等格式的数据,或者使用SQL查询从数据库中读取数据。探索数据中的字段,找到包含航线信息的字段,这些字段可能包括起始港口、目标港口、航行路径、航行时间等。根据找到的航线字段,将数据中与航线相关的信息提取出来,并形成航线信息的数据集。
S24、读取水运交通数据中的船舶字段,划分为船舶信息。
具体的,打开水运交通数据文件或连接到数据源,根据数据的格式选择合适的读取方式,例如使用Python的pandas库读取CSV、Excel等格式的数据,或者使用SQL查询从数据库中读取数据。探索数据中的字段,找到包含船舶信息的字段。这些字段可能包括船舶ID、任务信息、类型信息、船体信息等。根据找到的船舶字段,将数据中与船舶相关的信息提取出来,并形成船舶信息的数据集。
S25、读取水运交通数据中的港口状态、货物需求、环境因素及客观因素,划分为属性信息。
其中,港口状态、货物需求、环境因素及客观因素是水运交通行业中的重要属性信息,可以用于分析和评估水运交通的运营情况和影响因素。具体含义如下:
港口状态:指港口的运营状态和条件,包括港口的通航情况、吞吐量、停靠船舶数量、货物装卸速度等。港口状态的好坏直接影响着水运交通的效率和安全性。
货物需求:指水运交通行业中各类货物的需求情况,包括货物类型、数量、装运时间、目的地等。货物需求是水运交通行业的重要驱动因素,对船舶运输量和航线规划有重要影响。
环境因素:指水运交通行业运营过程中受到的各种自然环境影响,包括天气条件、海洋潮汐、海况、气候等。环境因素对船舶航行和港口作业有一定的制约和影响。
客观因素:指水运交通行业中与业务相关的客观因素,包括政策法规、市场需求、竞争情况、经济形势等。客观因素对水运交通行业的发展和运营决策有重要影响。
S3、提取航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型。
在本发明的描述中,提取航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型包括以下步骤:
S31、提取航线信息中的初始港口信息与目标港口信息,包括初始港口信息与目标港口信息的经纬度及港口名称。
S32、提取初始港口经纬度与目标港口经纬度之间的所有航行路径,将每一条航行路径作为一条航线,并为每一条航线设定航线ID码,提取航线在航行路径中的经纬度变化作为航行路径信息。
S33、利用GIS技术创建二维化的展示模型,在展示模型中标定每个港口的坐标位置,将初始港口信息、目标港口信息及航行路径信息与展示模型相关联,再以初始港口与目标港口为端点生成路径曲线,并采用不同颜色展示端点相同、路径不同的路径曲线。
其中,使用GIS软件(例如ArcGIS、QGIS等)创建地图。导入地图底图,包括地理边界、河流、海洋等地理要素,以及包含各个港口的坐标点信息。将准备好的港口坐标点标记在地图上,确保每个港口在地图上的位置准确显示。接着,使用航行路径信息,在地图上以初始港口和目标港口为端点绘制航行路径。路径可以是直线或者根据实际航行路径的形状进行绘制。根据航行路径的不同特点,采用不同颜色来表示端点相同但路径不同的航行线路。这样可以使得地图上的航行路径更加清晰可辨认。
将航线信息中的初始港口信息、目标港口信息及航行路径信息与地图上的港口和航行路径进行关联,使得在点击或悬停于特定港口或路径时,能够展示相应的航线信息。
S4、提取船舶信息中的任务信息、类型信息及船体信息,为不同类型的船舶单体设定船舶ID码,并匹配至对应的航线及航线ID码中。
在本发明的描述中,从水运交通数据中读取船舶字段,获取船舶信息,包括任务信息、类型信息和船体信息。根据船舶的类型信息,将船舶分为不同的类型,例如货船、客船、油船等。为不同类型的船舶设定船舶ID码:对每种类型的船舶单独设定一个唯一的船舶ID码,用于标识该类型的船舶。根据船舶信息中的任务信息,将每艘船舶与对应的航线进行匹配。可以使用船舶ID码和航线ID码进行关联,建立一个关系表或映射表,将船舶ID码与航线ID码对应起来。
S5、利用数据挖掘算法对属性信息进行分析,实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库。
在本发明的描述中,利用数据挖掘算法对属性信息进行分析,实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库包括以下步骤:
S51、将船舶信息中的任务信息、类型信息及船体信息分别转换为任务属性、类型属性及船体属性,并组合形成船舶属性集。
S52、将船舶属性集与属性信息整合转换为属性数据集,并添加新字段用于存储船舶ID码,将船舶ID码作为标识符。
S53、利用数据挖掘算法对属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则。
在本发明的描述中,利用数据挖掘算法对属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则包括以下步骤:
S531、将属性数据集中的每一个数据记录表示为一个序列项,并对序列化后的属性数据集进行扫描,生成所有长度为1的前缀。
S532、计算各个前缀的支持度以及效用度,将不满足最小支持度阈值与最小效用度阈值的前缀从属性数据集中删除。
S533、将保留下来的长度为k的序列进行递归计算,生成频繁序列项。
在本发明的描述中,将保留下来的长度为k的序列进行递归计算,生成频繁序列项包括以下步骤:
S5331、生成满足最小支持度阈值与最小效用度阈值条件的前缀投影库,若前缀投影库为空,则递归返回。
S5332、计算前缀投影库中各个序列项的支持度与效用度,若所有序列项的支持度或效用度均小于最小支持度阈值或最小效用度阈值,则递归返回。
S5333、将满足最小支持度阈值的序列项与当前的前缀进行合并,生成若干新前缀。
S5334、令长度k=k+1,对若干新前缀分别递归,再执行步骤S5333,直至停止产生频繁序列项,终止递归。
S534、依据所有生成的频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除。
在本发明的描述中,依据所有生成的频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除包括以下步骤:
S5341、获取递归结束后生成的所有频繁序列项,生成关联规则。
S5342、将同时满足最小支持度阈值与最小效用度阈值的关联规则组合形成冗余项集,设定关联规则的有趣度评估模型,表达式为:
其中,Interest表示有趣度,bool表示布尔值,X表示递归运算得到的冗余项集,Y表示属性数据集中已知的冗余项集。
S5343、若关联规则的有趣度为1则表示该关联规则为有趣,若关联规则的有趣度为0,且该关联规则的置信度小于最小置信度阈值,则删除该关联规则。
S535、分别为支持度、置信度及效用度赋予不同权重值,将三者与其权重值的累加和作为关联规则的综合价值评分,按照综合价值评分结果对关联规则的综合价值进行排序。
其中,支持度(Support)、置信度(Confidence)和效用度(Interest)是关联规则挖掘中常用的度量指标,用于评估关联规则的重要性和可信度。
支持度(Support):支持度是指在数据集中同时出现两个或多个项的频率。对于关联规则A->B来说,支持度表示同时包含A和B的事务的比例。计算方法为:Support(A->B)=(出现A和B的事务数)/(总事务数)。
置信度(Confidence):置信度是指在包含A的事务中,同时包含B的比例。对于关联规则A->B来说,置信度表示在出现A的情况下,也同时出现B的概率。计算方法为:Confidence(A->B)=(出现A和B的事务数)/(出现A的事务数)。
效用度(Interest):效用度是指关联规则A->B的“有趣程度”,用于衡量规则的意义和相关性。当置信度高于期望置信度时,认为规则有趣。效用度可以用置信度与支持度之比来表示。计算方法为:Interest(A->B)=Confidence(A->B)/Support(B)。
S536、若同一个船舶ID码存在多个关联规则,则保留综合价值评分最高的关联规则,删除其余关联规则。
S54、将保留后的关联规则中的属性信息中的信息数据进行标准化映射,生成以船舶ID码为标识符的标准数据序列。
在本发明的描述中,将保留后的关联规则中的属性信息进行标准化映射,生成以船舶ID码为标识符的标准数据序列包括以下步骤:
S541、建立属性信息内信息数据的标准化映射表,将同一类型信息数据的名称映射为标准化名称。
建立属性信息内信息数据的标准化映射表是为了将不同的命名方式或表示方式统一为标准化的名称,方便后续的数据处理和可视化展示。该过程可以通过人工定义映射规则,将同一类型的信息数据映射为标准化名称。
确定属性信息中需要进行标准化映射的字段,例如港口状态、货物需求、环境因素等。针对每个字段,将数据中不同的名称或表示方式进行统一,得到标准化的名称。例如,对于港口状态字段,可能有"开放"、"关闭"、"限制"等不同的表示方式,可以将它们统一为"正常"、"关闭"、"限制"等标准化名称。建立映射表,将原始数据的名称作为键,对应的标准化名称作为值。这样,当需要进行数据处理或可视化展示时,可以根据映射表将原始数据转换为标准化的数据。
S542、将数值形式的信息数据进行离散化,并将文本形式的信息数据进行标签编码转换为数字形式。
其中,离散化是将数值型数据按照一定的规则转换为离散的取值,常见的离散化方法包括等宽离散化和等频离散化。等宽离散化是将数据按照一定的区间范围划分为多个组,每个组的取值范围相同;等频离散化是将数据按照频率划分为多个组,每个组中包含相同数量的样本。
标签编码:标签编码是将文本形式的信息数据转换为数字形式,一般使用整数或编码表来表示不同的文本类别。例如,将港口状态字段的"开放"、"关闭"、"限制"分别编码为0、1、2。
示例代码如下(使用pandas和scikit-learn):
import pandas as pd
from sklearn.preprocessing import LabelEncoder
#示例数据
data=pd.DataFrame({
'港口状态':['开放','关闭','限制','开放','限制','关闭'],
'货物需求':[100,200,300,400,500,600]
})
#离散化
data['货物需求分组']=pd.cut(data['货物需求'],bins=[0,200,400,600],labels=['低','中','高'])
#标签编码
le=LabelEncoder()
data['港口状态编码']=le.fit_transform(data['港口状态'])
print(data)
在以上示例中,'货物需求'字段通过等宽离散化分为低、中、高三个分组,'港口状态'字段通过标签编码转换为数字形式。这样,原始数据就被转换成了离散化和标签编码后的数据,便于后续的分析和建模。
S543、以船舶ID码为标识符,将信息数据的标准化名称及其离散化或标签编码后的数值组合形成标准数据序列。
其中,以船舶ID码为标识符,将信息数据的标准化名称及其离散化或标签编码后的数值组合形成标准数据序列,可以使用Python的pandas库来完成,示例代码如下:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
#示例数据
data=pd.DataFrame({
'船舶ID码':[1,2,3,4,5,6],
'港口状态':['开放','关闭','限制','开放','限制','关闭'],
'货物需求':[100,200,300,400,500,600]
})
#标签编码
le=LabelEncoder()
data['港口状态编码']=le.fit_transform(data['港口状态'])
#离散化
data['货物需求分组']=pd.cut(data['货物需求'],bins=[0,200,400,600],labels=['低','中','高'])
#构建标准数据序列
standard_data_sequence=data[['船舶ID码','港口状态编码','货物需求分组']]
print(standard_data_sequence)
S55、利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库。
在本发明的描述中,利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库包括以下步骤:
S551、将标准数据序列中每个元素进行两两组合绘制散点图矩阵。
S552、将标准数据序列中的元素组合绘制平面坐标图,不同的标准数据序列之间采用不同颜色、不同线型的方式进行区分。
S553、将标准数据序列的散点图矩阵、平面坐标图及原始信息数据一同存储至属性数据库,并以船舶ID码作为索引标识。
S6、设定可视化展示与关键词检索的用户交互界面,依据用户输入ID码数值或数据类型提供相应的水运交通数据资产的可视化展示。
在本发明的描述中,设定可视化展示与关键词检索的用户交互界面,可使用图形用户界面(GUI)技术来实现。用户可以通过该界面输入船舶ID码的数值或选择特定的数据类型,然后系统根据用户的选择提供相应的水运交通数据资产的可视化展示。以下是实现该功能的简要步骤:
1、设计GUI界面:使用GUI库(如Tkinter、PyQt等)创建一个用户界面,包括输入框用于输入船舶ID码数值或选择数据类型的下拉列表。
2、数据处理与查询:在用户输入船舶ID码数值或数据类型后,通过数据处理算法查询相关的水运交通数据,并提取需要展示的数据。
3、可视化展示:根据提取的数据,使用适当的可视化技术(如散点图、折线图、平行坐标图等)展示水运交通数据。
4、关键词检索:将用户输入的关键词与数据进行匹配,找到与关键词相关的数据,并在可视化展示中突出显示或标注。
5、实时更新:可以添加实时更新的功能,让用户在界面中输入的数据或选择实时反映在可视化展示中,以便用户可以及时查看更新的结果。
请参阅图2,还提供了一种数据资产可视化系统,该系统包括:
数据采集模块1,用于获取水运交通行业中的数据资产。
数据解析模块2,用于采集得到的水运交通数据解析分解为航线信息、船舶信息及属性信息。
信息匹配模块3,用于提取航线信息、船舶信息及属性信息中的信息因素,利用数据挖掘及关联规则算法实现数据分类与匹配。
展示交互模块4,用于设定可视化展示与关键词检索的用户交互界面,依据用户输入的查询结果提供相应的水运交通数据资产的可视化展示。
综上所述,借助于本发明的上述技术方案,通过构建水运交通行业数据资产的全局可视化分析及管理,能够实现水运交通行业中各类型数据资产的整合、解析和可视化展示;针对航线信息和船舶信息的提取与关联匹配,实现了航线与船舶之间的关联关系,而属性信息的数据挖掘和关联匹配,构建了多维可视化的属性数据库,使得用户可以通过交互界面选择感兴趣的数据类型和ID码数值,进行动态展示和深度分析;从而为水运交通行业决策提供了有益支持,优化航线规划、船舶调度、港口运营等,提高行业运营效率和管理水平。
通过在航线信息中提取初始港口和目标港口的经纬度和名称,以及航行路径的经纬度变化,形成一条条航线数据,并为每条航线设定唯一的航线ID码,利用GIS技术构建展示模型,根据不同路径的不同颜色进行区分展示,从而直观地展示水运交通行业中航线的起始点、终点以及航行路径,帮助用户全面了解航线规划和运输路线,有助于优化航线安排和提高运输效率。通过数据挖掘与关联规则匹配的方式,可以实现属性信息与船舶ID码的关联匹配,构建多维可视化结构的属性数据库,将关联规则中的属性信息进行标准化映射,生成以船舶ID码为标识符的标准数据序列,利用多要素可视化技术为每个标准数据序列建立多维可视化展示图,并整合所有标准数据序列构建属性数据库,从而帮助用户全面了解船舶属性与船舶ID码之间的关系,并通过多维可视化展示,深入分析数据,为水运交通行业的决策制定和优化提供有益支持。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

Claims (9)

1.一种数据资产可视化方法,其特征在于,该方法包括以下步骤:
S1、获取水运交通行业中的数据资产,包含各类型的水运交通数据;
S2、将所述水运交通数据解析分解为航线信息、船舶信息及属性信息;
S3、提取所述航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型;
S4、提取所述船舶信息中的任务信息、类型信息及船体信息,为不同类型的船舶单体设定船舶ID码,并匹配至对应的所述航线及航线ID码中;
S5、利用数据挖掘算法对所述属性信息进行分析,实现所述属性信息与所述船舶ID码的关联匹配,构建多维可视化结构的属性数据库;
所述利用数据挖掘算法对所述属性信息进行分析,实现所述属性信息与所述船舶ID码的关联匹配,构建多维可视化结构的属性数据库包括以下步骤:
S51、将所述船舶信息中的任务信息、类型信息及船体信息分别转换为任务属性、类型属性及船体属性,并组合形成船舶属性集;
S52、将所述船舶属性集与所述属性信息整合转换为属性数据集,并添加新字段用于存储所述船舶ID码,将所述船舶ID码作为标识符;
S53、利用数据挖掘算法对所述属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则;
S54、将保留后的所述关联规则中的属性信息中的信息数据进行标准化映射,生成以所述船舶ID码为标识符的标准数据序列;
S55、利用多要素可视化技术为每个所述标准数据序列建立多维可视化展示图,并整合所有所述标准数据序列构建属性数据库;
S6、设定可视化展示与关键词检索的用户交互界面,依据用户输入ID码数值或数据类型提供相应的水运交通数据资产的可视化展示。
2.根据权利要求1所述的一种数据资产可视化方法,其特征在于,所述将所述水运交通数据解析分解为航线信息、船舶信息及属性信息包括以下步骤:
S21、将原始的所述水运交通数据进行数据清洗,处理其中的缺失值、异常值及重复值,并将所述水运交通数据转换为统一的格式;
S22、依据所述水运交通数据的结构、属性及内容,将所述水运交通数据划分为航线信息、船舶信息及属性信息三个种类;
S23、读取所述水运交通数据中的航线字段,划分为所述航线信息;
S24、读取所述水运交通数据中的船舶字段,划分为所述船舶信息;
S25、读取所述水运交通数据中的港口状态、货物需求、环境因素及客观因素,划分为所述属性信息。
3.根据权利要求2所述的一种数据资产可视化方法,其特征在于,所述提取所述航线信息中的初始港口信息、目标港口信息及航行路径信息,为每条航线设定航线ID码,并利用GIS技术建立二维化的展示模型包括以下步骤:
S31、提取所述航线信息中的初始港口信息与目标港口信息,包括所述初始港口信息与所述目标港口信息的经纬度及港口名称;
S32、提取初始港口经纬度与目标港口经纬度之间的所有航行路径,将每一条所述航行路径作为一条航线,并为每一条所述航线设定航线ID码,提取所述航线在所述航行路径中的经纬度变化作为航行路径信息;
S33、利用GIS技术创建二维化的展示模型,在所述展示模型中标定每个港口的坐标位置,将所述初始港口信息、所述目标港口信息及所述航行路径信息与所述展示模型相关联,再以初始港口与目标港口为端点生成路径曲线,并采用不同颜色展示端点相同、路径不同的所述路径曲线。
4.根据权利要求3所述的一种数据资产可视化方法,其特征在于,所述利用数据挖掘算法对所述属性数据集进行分析,挖掘频繁序列项,并生成满足水运交通行业预设价值评估阈值的关联规则包括以下步骤:
S531、将所述属性数据集中的每一个数据记录表示为一个序列项,并对序列化后的所述属性数据集进行扫描,生成所有长度为1的前缀;
S532、计算各个前缀的支持度以及效用度,将不满足最小支持度阈值与最小效用度阈值的前缀从所述属性数据集中删除;
S533、将保留下来的长度为k的序列进行递归计算,生成频繁序列项;
S534、依据所有生成的所述频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除;
S535、分别为支持度、置信度及效用度赋予不同权重值,将三者与其权重值的累加和作为所述关联规则的综合价值评分,按照所述综合价值评分结果对所述关联规则的综合价值进行排序;
S536、若同一个所述船舶ID码存在多个所述关联规则,则保留所述综合价值评分最高的关联规则,删除其余所述关联规则。
5.根据权利要求4所述的一种数据资产可视化方法,其特征在于,所述将保留下来的长度为k的序列进行递归计算,生成频繁序列项包括以下步骤:
S5331、生成满足所述最小支持度阈值与所述最小效用度阈值条件的前缀投影库,若所述前缀投影库为空,则递归返回;
S5332、计算所述前缀投影库中各个所述序列项的支持度与效用度,若所有所述序列项的支持度或效用度均小于所述最小支持度阈值或最小效用度阈值,则递归返回;
S5333、将满足所述最小支持度阈值的所述序列项与当前的前缀进行合并,生成若干新前缀;
S5334、令长度k=k+1,对若干所述新前缀分别递归,再执行所述步骤S5333,直至停止产生频繁序列项,终止递归。
6.根据权利要求5所述的一种数据资产可视化方法,其特征在于,所述依据所有生成的所述频繁序列项建立关联规则,并进行关联规则评估,将不满足评估阈值的关联规则进行删除包括以下步骤:
S5341、获取递归结束后生成的所有频繁序列项,生成关联规则;
S5342、将同时满足所述最小支持度阈值与所述最小效用度阈值的关联规则组合形成冗余项集,设定所述关联规则的有趣度评估模型,表达式为:
其中,Interest表示有趣度;
bool表示布尔值;
X表示递归运算得到的冗余项集;
Y表示所述属性数据集中已知的冗余项集;
S5343、若所述关联规则的有趣度为1则表示该关联规则为有趣,若所述关联规则的有趣度为0,且该关联规则的置信度小于最小置信度阈值,则删除该关联规则。
7.根据权利要求6所述的一种数据资产可视化方法,其特征在于,所述将保留后的所述关联规则中的属性信息进行标准化映射,生成以所述船舶ID码为标识符的标准数据序列包括以下步骤:
S541、建立所述属性信息内信息数据的标准化映射表,将同一类型信息数据的名称映射为标准化名称;
S542、将数值形式的所述信息数据进行离散化,并将文本形式的所述信息数据进行标签编码转换为数字形式;
S543、以所述船舶ID码为标识符,将所述信息数据的标准化名称及其离散化或标签编码后的数值组合形成标准数据序列。
8.根据权利要求6所述的一种数据资产可视化方法,其特征在于,所述利用多要素可视化技术为每个所述标准数据序列建立多维可视化展示图,并整合所有所述标准数据序列构建属性数据库包括以下步骤:
S551、将所述标准数据序列中每个元素进行两两组合绘制散点图矩阵;
S552、将所述标准数据序列中的元素组合绘制平面坐标图,不同的所述标准数据序列之间采用不同颜色、不同线型的方式进行区分;
S553、将所述标准数据序列的所述散点图矩阵、所述平面坐标图及原始信息数据一同存储至属性数据库,并以所述船舶ID码作为索引标识。
9.一种数据资产可视化系统,用于实现权利要求1-8中任一项所述数据资产可视化方法,其特征在于,该系统包括:
数据采集模块,用于获取水运交通行业中的数据资产;
数据解析模块,用于采集得到的水运交通数据解析分解为航线信息、船舶信息及属性信息;
信息匹配模块,用于提取所述航线信息、所述船舶信息及所述属性信息中的信息因素,利用数据挖掘及关联规则算法实现数据分类与匹配;
展示交互模块,用于设定可视化展示与关键词检索的用户交互界面,依据用户输入的查询结果提供相应的水运交通数据资产的可视化展示。
CN202311075757.2A 2023-08-25 2023-08-25 一种数据资产可视化方法及系统 Active CN116775753B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311075757.2A CN116775753B (zh) 2023-08-25 2023-08-25 一种数据资产可视化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311075757.2A CN116775753B (zh) 2023-08-25 2023-08-25 一种数据资产可视化方法及系统

Publications (2)

Publication Number Publication Date
CN116775753A CN116775753A (zh) 2023-09-19
CN116775753B true CN116775753B (zh) 2023-11-17

Family

ID=87989947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311075757.2A Active CN116775753B (zh) 2023-08-25 2023-08-25 一种数据资产可视化方法及系统

Country Status (1)

Country Link
CN (1) CN116775753B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038811A (zh) * 2017-12-27 2018-05-15 中华人民共和国太仓海事局 三维全景可视化船舶动态监管系统
CN111639237A (zh) * 2020-04-07 2020-09-08 安徽理工大学 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
KR102231301B1 (ko) * 2020-08-03 2021-03-23 주식회사 콤라인 선박 관련 서비스 제공 장치
CN112862321A (zh) * 2021-02-08 2021-05-28 国家海洋信息中心 一种基于ais大数据的海运统计系统及其统计方法
CN113256146A (zh) * 2021-06-08 2021-08-13 广东嘉贸通科技有限公司 船舶监管方法及系统
CN113780952A (zh) * 2021-09-16 2021-12-10 上海船舶运输科学研究所 一种集装箱班轮航线运力分析方法及系统
CN114066354A (zh) * 2021-11-12 2022-02-18 中远海运科技股份有限公司 一种基于全球船舶历史航迹的智能航线推荐方法及系统
CN115017246A (zh) * 2022-05-30 2022-09-06 武汉理工大学 一种面向船舶智能航行的全息航行场景图系统和构建方法
CN115456217A (zh) * 2022-09-14 2022-12-09 中远海运科技股份有限公司 一种智能船物联网数据资产管理方法与系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108038811A (zh) * 2017-12-27 2018-05-15 中华人民共和国太仓海事局 三维全景可视化船舶动态监管系统
CN111639237A (zh) * 2020-04-07 2020-09-08 安徽理工大学 一种基于聚类和关联规则挖掘的电力通信网风险评估系统
KR102231301B1 (ko) * 2020-08-03 2021-03-23 주식회사 콤라인 선박 관련 서비스 제공 장치
CN112862321A (zh) * 2021-02-08 2021-05-28 国家海洋信息中心 一种基于ais大数据的海运统计系统及其统计方法
CN113256146A (zh) * 2021-06-08 2021-08-13 广东嘉贸通科技有限公司 船舶监管方法及系统
CN113780952A (zh) * 2021-09-16 2021-12-10 上海船舶运输科学研究所 一种集装箱班轮航线运力分析方法及系统
CN114066354A (zh) * 2021-11-12 2022-02-18 中远海运科技股份有限公司 一种基于全球船舶历史航迹的智能航线推荐方法及系统
CN115017246A (zh) * 2022-05-30 2022-09-06 武汉理工大学 一种面向船舶智能航行的全息航行场景图系统和构建方法
CN115456217A (zh) * 2022-09-14 2022-12-09 中远海运科技股份有限公司 一种智能船物联网数据资产管理方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Haiyan Liu,Xiaohui Chen.Visualization and visual analysis of vessel trajectory data:A survery.Visual Informatics.2021,第1-10页. *
海河联运信息监管平台设计与实现;魏燕华;万方数据;第26-31, 47页 *

Also Published As

Publication number Publication date
CN116775753A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Zuiev et al. Development of complex methodology of processing heterogeneous data in intelligent decision support systems
Sousa et al. Vehicle trajectory similarity: models, methods, and applications
Smith et al. Requirements and principles for the implementation and construction of large-scale geographic information systems
Baeza et al. Statistical and spatial analysis of landslide susceptibility maps with different classification systems
Fang et al. Maritime network dynamics before and after international events
CN112562415B (zh) 船舶航线推荐方法
US20220382733A1 (en) Methods And Systems For Extracting And Visualizing Patterns In Large-Scale Data Sets
Rawson et al. Intelligent geospatial maritime risk analytics using the Discrete Global Grid System
CN106326923A (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN111522892A (zh) 地理要素的检索方法及装置
CN113240518A (zh) 基于机器学习的银行对公客户流失预测方法
Cristea et al. Operational shipping intelligence through distributed cloud computing
CN116775753B (zh) 一种数据资产可视化方法及系统
CN113254517A (zh) 一种基于互联网大数据的服务提供方法
Herodotou et al. Big maritime data management
De Floriani et al. A dimension-independent data structure for simplicial complexes
Qi et al. Ship trajectory data compression algorithms for Automatic Identification System: Comparison and analysis
CN109408514A (zh) 一种基于封闭外壳片段立方体的水利普查数据挖掘方法
Rodriguez iapesca, a R-package for manipulating and interpretating high resolution geospatial data from fishing vessels
CN113449045A (zh) 用于船舶推进系统性能分析的数据仓库系统
CN106373189A (zh) 一种基于线性十六叉树的时空体数据编码方法
Hui et al. A decomposition-based representation for 3 D simplicial complexes
Madetoja Error propagation in geographically weighted regression
CN116993245B (zh) 区域水路运输量测算方法、装置、电子设备及存储介质
CN117312471B (zh) 海量位置点的海陆属性判断方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant