CN112506959A - 智能船舶数据库检索的数据调度方法、装置和检索系统 - Google Patents
智能船舶数据库检索的数据调度方法、装置和检索系统 Download PDFInfo
- Publication number
- CN112506959A CN112506959A CN202011383640.7A CN202011383640A CN112506959A CN 112506959 A CN112506959 A CN 112506959A CN 202011383640 A CN202011383640 A CN 202011383640A CN 112506959 A CN112506959 A CN 112506959A
- Authority
- CN
- China
- Prior art keywords
- data
- retrieval
- ship
- database
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000013500 data storage Methods 0.000 claims abstract description 39
- 238000007418 data mining Methods 0.000 claims abstract description 12
- 238000005215 recombination Methods 0.000 claims abstract description 12
- 230000006798 recombination Effects 0.000 claims abstract description 12
- 239000013598 vector Substances 0.000 claims description 21
- 230000010354 integration Effects 0.000 claims description 13
- 238000003064 k means clustering Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 7
- 230000003068 static effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008521 reorganization Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 9
- 230000008569 process Effects 0.000 abstract description 5
- 239000000306 component Substances 0.000 description 13
- 238000011161 development Methods 0.000 description 5
- 238000005065 mining Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
- G06F16/24534—Query rewriting; Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请属于智能船舶数据处理领域,具体涉及一种智能船舶数据库检索的数据调度方法、装置、检索系统。该方法包括:智能船舶数据库采用基于有向图构建的数据存储结构模型,每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;对数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;对每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据;提取簇中心的特征作为目标检索数据特征,在智能船舶数据库中进行数据检索时,将拟合点数据作为智能船舶数据库的目标检索数据。本申请方法进行数据检索的查准性较高,召回性好,且在检索过程中不容易受到数据的类间扰动因素的影响。
Description
技术领域
本申请属于智能船舶数据处理领域,具体涉及一种智能船舶数据库检索的数据调度方法、装置、检索系统。
背景技术
面对智能船舶海量复杂的信息资产,基于云计算和云存储的信息管理方法,高效精准的进行船舶的目标数据检索,是提高船舶信息资源分配能力、实现船舶状态实时感知的重要手段。现有的针对智能船舶数据库检索的数据调度方法随着数据库规模的增大,会降低数据检索的查准性,对船舶综合性数据的实时调度性能不好,且在检索过程中容易受到数据的类间扰动因素的影响。
发明内容
(一)要解决的技术问题
鉴于现有技术的上述缺点、不足,本申请提供一种智能船舶数据库检索的数据调度方法、装置和检索系统。
(二)技术方案
为达到上述目的,本申请采用如下技术方案:
第一方面,本申请实施例提供一种智能船舶数据库检索的数据调度方法,所述智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该方法包括:
S1、对所述数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
S2、基于所述数据流相空间表示,对所述数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
S3、对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,所述拟合点为残差小于预设阈值的数据,所述离群点为残差大于等于预设阈值的数据;
S4、提取簇中心的特征作为目标检索数据特征,基于所述目标检索数据特征在所述智能船舶数据库中进行数据检索时,将拟合点数据作为所述智能船舶数据库的目标检索数据。
可选地,所述数据存储结构模型中节点的相似度信息的计算方法为:
其中,n(D1)和n(D2)分别表示智能船舶数据库中数据分布有向图J1,J2的节点数目,n(D1∩D2)表示数据块存在交集的节点数目。
可选地,船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示,包括:
对所述船舶综合信息数据流进行相空间重构;
在重构的相空间中,通过提取关联维数对所述船舶综合信息数据流进行特征重组;
将得到的关联维数作为数据流相空间表示。
可选地,所述数据存储结构模型输出的船舶综合信息数据流的矢量表示为:
X=[x(t0),x(t0+Δt),...,x(t0+(k-1)Δt)]
其中,x(t)表示船舶信息数据库的原始数据信息流,k为矢量长度,Δt为采样时间延迟。
第二方面,本申请实施例提供一种智能船舶数据库检索的数据调度装置,所述智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该装置包括:
相空间重构模块,用于所述数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
模糊K均值聚类模块,用于基于所述数据流相空间表示,对所述数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
数据挖掘模块,用于对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,所述拟合点为残差小于预设阈值的数据,所述离群点为残差大于等于预设阈值的数据;
数据调度模块,用于提取簇中心的特征作为目标检索数据特征,基于所述目标检索数据特征在所述智能船舶数据库中进行数据检索时,将拟合点数据作为所述智能船舶数据库的目标检索数据。
第三方面,本申请实施例提供一种智能船舶的大数据实时检索系统,该系统包括:数据源集成单元、数据存储单元、检索业务应用单元、数据检索单元;
所述数据源集成单元,用于采用统一的接口规范、数据规范、集成规范,对智能船舶的传感器数据、设备运行数据进行数据集成,并将得到集成数据发送至所述数据检索单元;
所述数据存储单元,用于接收所述集成数据,并将所述集成数据存储到智能船舶数据库中;
所述检索业务应用单元,用于接收用户输入的检索信息,并将所述检索信息发送至所述数据检索单元;
所述数据检索单元,用于接收所述检索业务应用单元发送的检索信息,基于所述检索信息,通过数据搜索引擎在所述智能船舶数据库中采用上述的方法进行实时检索,得到检索结果。
可选地,数据集成的源数据包括文本数据、日志数据、视频数据、音频数据和流式数据中的一种或多种。
可选地,所述检索信息包括关键词查询信息、日志查询信息、轨迹查询信息中的一种或多种。
可选地,所述数据存储单元包括实时数据采集模块和批量数据采集模块;所述实时数据采集模块采用Spark Streaming组件实现,用于将实时采集的流式数据等写入所述智能船舶数据库;所述批量数据采集模块采用Flume组件实现,用于将静态数据写入所述智能船舶数据库。
(三)有益效果
本申请的有益效果是:本申请提出了一种智能船舶数据库检索的数据调度方法、装置、检索系统,其中的方法包括:智能船舶数据库采用基于有向图构建的数据存储结构模型,每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;对数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;对每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据;提取簇中心的特征作为目标检索数据特征,在智能船舶数据库中进行数据检索时,将拟合点数据作为智能船舶数据库的目标检索数据。基于本申请方法进行数据检索的查准性较高,召回性好,且在检索过程中不容易受到数据的类间扰动因素的影响。
附图说明
本申请借助于以下附图进行描述:
图1为本申请一个实施例中的智能船舶数据库检索的数据调度方法流程示意图;
图2为本申请另一个实施例中的智能船舶数据库检索的数据调度方法流程示意图;
图3为本申请再一个实施例中的智能船舶数据库检索的数据调度装置架构示意图;
图4为本申请又一个实施例中的智能船舶的大数据实时检索系统架构示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。可以理解的是,以下所描述的具体的实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合;为了便于描述,附图中仅示出了与发明相关的部分。
本申请通过搭建适用于智能船舶的大数据实时检索平台,可以满足船舶航行过程中航行数据的实时写入以及实时查询,为了提高检索效率,采用基于HBase的一级索引以及基于HBase和ElasticSearch的二级索引策略,高效的利用有限资源。同时,为了提高检索系统的查准性以及对船舶综合性数据的实时调度性能,提出一种智能船舶数据库检索的数据调度方法,通过特征重组,聚类挖掘等方法实现数据的高效检索。下面将参考附图并结合实施例来详细说明本申请。
实施例一
图1为本申请一个实施例中的智能船舶数据库检索的数据调度方法流程示意图。如图所示,本实施例的智能船舶数据库检索的数据调度方法,智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该方法包括:
S1、对数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
S2、基于数据流相空间表示,对所述数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
S3、对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,拟合点为残差小于预设阈值的数据,离群点为残差大于等于预设阈值的数据;
S4、提取簇中心的特征作为目标检索数据特征,基于目标检索数据特征在智能船舶数据库中进行数据检索时,将拟合点数据作为智能船舶数据库的目标检索数据。
在一些实施例中,数据存储结构模型中节点的相似度信息的计算方法为:
其中,n(D1)和n(D2)分别表示智能船舶数据库中数据分布有向图J1,J2的节点数目,n(D1∩D2)表示数据块存在交集的节点数目。
在一些实施例中,船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示,包括:
对船舶综合信息数据流进行相空间重构;
在重构的相空间中,通过提取关联维数对所述船舶综合信息数据流进行特征重组;
将得到的关联维数作为数据流相空间表示。
在一些实施例中,数据存储结构模型输出的船舶综合信息数据流的矢量表示为:
X=[x(t0),x(t0+Δt),...,x(t0+(k-1)Δt)]
其中,x(t)表示船舶信息数据库的原始数据信息流,k为矢量长度,Δt为采样时间延迟。
本实施例方法进行数据检索的查准性较高,召回性好,且在检索过程中不容易受到数据的类间扰动因素的影响。
实施例二
图2为本申请另一个实施例中的智能船舶数据库检索的数据调度方法流程示意图,如图2所示,该方法包括以下步骤。
步骤1:构建数据存储结构模型。
首先依据船舶数据库的数据结构分布模型JC,有向图J1,J2表示不同聚类属性目标数据存储空间的分布交集,则船舶数据库检索节点分布的相似度信息PC为
其中,n(D1)和n(D2)分别表示船舶信息数据库中目标数据分布有向图J1,J2的检索节点数目,n(D1∩D2)表示数据块存在交集的节点数目。
步骤2:船舶信息数据流特征重组。
在步骤1的存储结构模型的基础上,提取船舶综合信息数据流进行特征重组,船舶信息数据时间序列的信息流模型为:
xn=x(t0+nΔt),n=0,1,2....n
其中,xn表示船舶信息流的时间序列,t0为初始采样时刻,Δt为采样间隔,n为采样的次数。
数据库信息流属性集为一个分布式数据库属性集合,首先对数据库信息流进行多维空间重建,把智能船舶数据库的数据信息流表示为时间序列F={f1,f2,f3......fn},数据库的属性类别集为E={e1,e2,e3......em},fi信息的模糊聚类中心,表现为C={C1,C2,C3......Ck}。智能船舶数据库信息流通过数据聚类进行属性集分类存储到数据结构分布模型中,得到多层次矢量空间的信息增益表达式:
G(F)=I(E)-IF(E)
其中,I(E)为在数据库检索的采样时刻t和t+τ可以得到目标数据的自相关信息,IF(E)为互相关信息量。
对于任一fj,I(E)计算方法为:
其中,pi为属性ei的概率。
互相关信息量的计算方法为:
其中,Ej为fj的属性类别,I(Ej)为fj的自相关信息。
船舶信息数据库中数据信息流矢量场映射到一个多维的状态空间后,数据存储结构模型输出的船舶综合信息数据流的矢量表示为:
X=[x(t0),x(t0+Δt),....,x(t0+(k-1)Δt)]
其中,x(t)表示船舶信息数据库的原始数据信息流,k为矢量长度,Δt为采样时间间隔。
步骤21、对船舶综合信息数据流进行相空间重构。根据嵌入理论,重构的系统相空间与原系统拓扑等价。如果嵌入维数m大于等于2d+1,d为动力系统维数,则这个动力系统的吸引子空间几何结构就会被完全打开,嵌入相空间就可以把有规律的轨迹恢复出来。
将船舶综合信息数据流的矢量表示为X={xi|i=1,2,3,......,n},其中,n为采样点个数。选择合适的嵌入延迟时间τ和嵌入维m,得到一个m维的嵌入相空间,相空间中的向量可以表示为:
Yi=[xi,xi+τ,xi+2τ,......xi+(m-1)τ]
其中,i=1,2,3,......n。
令N=n-(m-1)τ,则重构的多维相空间可表示为:
通过以下三个公式可以确定估计延迟时间τ。
ΔS(m,t)=max{S(m,rj,t)}-min{S(m,rj,t)}
其中,rj=jσ/2,σ为给定时间序列的信息增益,C(m,r,t)为关联积分。
通过以下公式嵌入维数m:
其中,xi(m)为m维相空间中的第i个向量,f(i,m)为第i个向量的最近邻点的下标;
当m大于某个m0时,若F(m)不再明显地发生变化并接近于1,则此时的m0+1为最小的嵌入维数。
步骤22、在重构的相空间中,通过提取关联维数对所述船舶综合信息数据流进行特征重组。
在确定了延迟时间和嵌入维数后,在重构的相空间中利用关联积分计算关联维数。
设Yi是重构的相空间中第i个向量,计算其余N-1个向量与Yi的距离,采用最大模表示Euclidean距离,即
rij=d(Yi-Yj)=max{|xi+kτ-xj+kτ|,0≤k≤m-1}
定义关联积分:
其中,N为相空间代表点(状态矢量)的数目,ε为相空间中给定超小球的半径,Θ(·)为Heaviside的函数。
当ε充分小时,关联维数定义为:
步骤23、将得到的关联维数作为数据流相空间表示。
步骤3:数据K均值聚类
对提取的船舶综合信息特征量采用模糊K均值聚类方法进行分类管理,模糊K均值聚类后提取簇的中心特征。
以下对模糊K均值聚类算法进行说明。
模糊K均值聚类并不是将对象分给最近的簇,而是计算向量和各个簇之间的相关性。假设有一个向量V,有K个簇,V和这K个簇的中心的距离是d1、d2......dk,则V到第h个簇的相关性为:
其中,m是模糊参数。
相关性大小有个阈值,通过这个阈值判断出相关性为多少的向量可分到簇上,这个阈值大小决定了一个向量能够分到几个簇上。
则聚类后的信息流数据可以表示为:
步骤4:数据聚类挖掘
对步骤4聚类后得到的簇中的数据点进行并行挖掘,采用最小二乘解拟合方法实现数据聚类挖掘,对于拟合的结果,将残差小于预设阈值的数据作为拟合点,将残差大于等于预设阈值的数据作为离群点。
步骤5:数据检索输出
通过特征匹配的方法实现检索目标数据的空间聚焦,最终得到数据库检索输出。
为了提高数据检索的查准性,本实施例中提出一种船舶信息数据库的数据检索方法,通过构建船舶信息数据库的存储结构模型,提取船舶信息数据流进行特征重组,对提取的船舶信息特征量采用模糊K均值聚类方法进行分类管理,通过船舶数据聚类挖掘,最终实现数据检索输出。本方法可实现数据的高效检索,可以弥补传统数据检索算法在大规模数据库情况下,检索效率、查准性、数据实时调度性能降低的缺陷。
实施例三
本申请第二方面提出了一种智能船舶数据库检索的数据调度装置100,如图3所示,智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该装置包括:
相空间重构模块101,用于数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
模糊K均值聚类模块102,用于基于数据流相空间表示,对数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
数据挖掘模块103,用于对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,拟合点为残差小于预设阈值的数据,离群点为残差大于等于预设阈值的数据;
数据调度模块104,用于提取簇中心的特征作为目标检索数据特征,基于目标检索数据特征在智能船舶数据库中进行数据检索时,将拟合点数据作为智能船舶数据库的目标检索数据。
本申请中的相空间重构模块101、模糊K均值聚类模块102、数据挖掘模块103、数据调度模块104通常可以设置在智能船舶的终端设备或服务器中。
用来实现本申请实施例的终端设备或服务器的计算机系统可以包括中央处理单元(CPU),其可以根据存储在只读存储器(ROM)中的程序或者从存储部分加载到随机访问存储器(RAM)中的程序而执行各种适当的动作和处理。在RAM中,还存储有系统操作所需的各种程序和数据。CPU、ROM以及RAM通过总线彼此相连。输入/输出(I/O)接口也连接至总线。
以下部件连接至I/O接口:包括键盘、鼠标等的输入部分;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分;包括硬盘等的存储部分;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分。通信部分经由诸如因特网的网络执行通信处理。驱动器也根据需要连接至I/O接口。可拆卸介质,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器上,以便于从其上读出的计算机程序根据需要被安装入存储部分。
实施例四
图4为本申请一个实施例中的智能船舶的大数据实时检索系统架构示意图,如图4所示:该系统平台主要由三部分组成,分别为数据源集成平台,数据检索平台以及检索业务应用平台。各部分的组成及作用如下:
(1)数据源集成平台
该平台集成智能船舶涉及到的全类型数据,通过统一的接口规范,数据规范、集成规范,集成船舶全身传感器设备数据,数据源的种类包括文本数据、日志数据、视频数据、音频数据以及需要实时采集的流式数据(Socket流、OGG日志流)等,通过集成平台便于数据的利用和调取,
(2)数据检索平台
数据检索平台是整个系统的核心组成部分,该部分主要由数据采集组件和数据检索引擎组件两部分组成。
数据采集组件主要实现数据写入,根据船舶数据特点,分成实时数据采集组件以及批量数据采集组件。
实时数据采集组件主要负责将需要实时采集的流式数据等写入数据库,该部分采用Spark Streaming组件实现。Spark Streaming是基于Spark的流处理引擎,支持毫秒级的流处理分析,该组件通过运行接收器来不断的接收输入的数据流,然后根据配置的时间,将时间范围内的所有数据打成一个数据包,发送给Spark Core去进行处理。
批量数据采集组件主要负责将一些静态数据(文本数据、日志数据等)写入数据库,该部分采用Flume组件实现。Flume是一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,其可在日志系统中定制各类数据发送方,用于数据的收集,还可提供对数据进行简单的处理。
数据采集平台中根据船舶航行数据特点分为批量数据采集组件以及以及实时数据采集组件,可以满足船舶多源异构数据的采集需求,实现数据的实时写入。
数据搜索引擎主要用来实现高性能的实时检索,该部分通过HBase和ElasticSearch组合实现。HBase是一个适合存储海量数据、支持实时读写的分布式存储系统,用于主键查询检索,查询条件简单,主要通过主键进行查询。ElasticSearch是一个兼有搜索引擎和数据库功能的开源系统,Elasticsearch服务支持结构化、非结构化文本的多条件检索、统计和报表生成,拥有完善的监控体系,提供一系列系统,集群以及查询性能等关键指标,用于全文检索或者当做HBase存储的非主键索引。主要多用于日志搜索和分析、时空检索、时序检索和报表、智能搜索等场景。
数据检索引擎采用基于HBase的一级索引以及基于HBase和ElasticSearch的二级索引策略,弥补传统HBase二级索引在非主键数目过多时数据检索效率降低的缺陷,高效利用有限资源。
(3)检索应用平台
该平台可以提供实时检索业务,例如关键词查询、日志查询、轨迹查询等等,该平台使用ElasticSearch和HBaseAPI、Rest接口进行开发。船端数据采集设备为电脑终端,各船端感知设备如AIS、电罗经、风速风向仪、DGPS等通过串口通讯的方式接入电脑终端。
搭建适用于智能船舶的大数据实时检索平台,即可以实现智能船舶航行中传感器数据的实时写入,对海量数据基于索引主键实时查询,查询响应及时,查询条件相对简单,在进行复杂条件查询的时候根据关键词在全域数据(既包含了结构化数据也包含文本数据)中通过索引搜索主键后,通过主键查询。
系统平台采用基于开源平台的二次开发,降低开发难度,减少开发成本,有效提高开发效率,还可以确保平台的系统兼容性。面向智能船舶大数据系统开发,可以满足智能船舶海量复杂的信息资产的处理需求,确保系统在大规模数据库中的高效可靠应用。依据开源组件以及算法协同开发,大幅提升系统的数据减少效率,提高查准性以及数据的实时调用性能。
该系统通过上述的智能船舶数据库检索的数据调度方法实时获取智能船舶船用感知设备采集的数据,从而保证了智能船舶应用管理系统根据获取的数据及时做出正确的响应,提高了船舶运行的可靠性和安全性。
应当注意的是,在权利要求中,不应将位于括号之间的任何附图标记理解成对权利要求的限制。词语“包含”不排除存在未列在权利要求中的部件或步骤。位于部件之前的词语“一”或“一个”不排除存在多个这样的部件。本发明可以借助于包括有若干不同部件的硬件以及借助于适当编程的计算机来实现。词语第一、第二、第三等的使用,仅是为了表述方便,而不表示任何顺序。可将这些词语理解为部件名称的一部分。
此外,需要说明的是,在本说明书的描述中,术语“一个实施例”、“一些实施例”、“实施例”、“示例”、“具体示例”或“一些示例”等的描述,是指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管已描述了本发明的优选实施例,但本领域的技术人员在得知了基本创造性概念后,则可对这些实施例作出另外的变更和修改。所以,权利要求应该解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种修改和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也应该包含这些修改和变型在内。
Claims (9)
1.一种智能船舶数据库检索的数据调度方法,其特征在于,所述智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该方法包括:
S1、对所述数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
S2、基于所述数据流相空间表示,对所述数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
S3、对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,所述拟合点为残差小于预设阈值的数据,所述离群点为残差大于等于预设阈值的数据;
S4、提取簇中心的特征作为目标检索数据特征,基于所述目标检索数据特征在所述智能船舶数据库中进行数据检索时,将拟合点数据作为所述智能船舶数据库的目标检索数据。
3.根据权利要求2所述的智能船舶数据库检索的数据调度方法,其特征在于,船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示,包括:
对所述船舶综合信息数据流进行相空间重构;
在重构的相空间中,通过提取关联维数对所述船舶综合信息数据流进行特征重组;
将得到的关联维数作为数据流相空间表示。
4.根据权利要求3所述的智能船舶数据库检索的数据调度方法,其特征在于,所述数据存储结构模型输出的船舶综合信息数据流的矢量表示为:
X=[x(t0),x(t0+Δt),...,x(t0+(k-1)Δt)]
其中,x(t)表示船舶信息数据库的原始数据信息流,k为矢量长度,Δt为采样时间延迟。
5.一种智能船舶数据库检索的数据调度装置,其特征在于,所述智能船舶数据库采用基于有向图构建的数据存储结构模型进行数据存储,该装置包括:
相空间重构模块,用于所述数据存储结构模型中每个节点处理的船舶综合信息数据流通过相空间重构的方法进行特征重组,得到数据流相空间表示;
模糊K均值聚类模块,用于基于所述数据流相空间表示,对所述数据存储结构模型中节点数据采用模糊K均值聚类方法进行分类;
数据挖掘模块,用于对得到的每个簇通过最小二乘法进行数据挖掘,得到离群点数据和拟合点数据,所述拟合点为残差小于预设阈值的数据,所述离群点为残差大于等于预设阈值的数据;
数据调度模块,用于提取簇中心的特征作为目标检索数据特征,基于所述目标检索数据特征在所述智能船舶数据库中进行数据检索时,将拟合点数据作为所述智能船舶数据库的目标检索数据。
6.一种智能船舶的大数据实时检索系统,其特征在于,该系统包括:数据源集成单元、数据存储单元、检索业务应用单元、数据检索单元;
所述数据源集成单元,用于采用统一的接口规范、数据规范、集成规范,对智能船舶的传感器数据、设备运行数据进行数据集成,并将得到集成数据发送至所述数据检索单元;
所述数据存储单元,用于接收所述集成数据,并将所述集成数据存储到智能船舶数据库中;
所述检索业务应用单元,用于接收用户输入的检索信息,并将所述检索信息发送至所述数据检索单元;
所述数据检索单元,用于接收所述检索业务应用单元发送的检索信息,基于所述检索信息,通过数据搜索引擎在所述智能船舶数据库中采用权利要求1-5中任一权利要求所述的方法进行实时检索,得到检索结果。
7.根据权利要求6所述的智能船舶的大数据实时检索系统,其特征在于,数据集成的源数据包括文本数据、日志数据、视频数据、音频数据和流式数据中的一种或多种。
8.根据权利要求6所述的智能船舶的大数据实时检索系统,其特征在于,所述检索信息包括关键词查询信息、日志查询信息、轨迹查询信息中的一种或多种。
9.根据权利要求7或8所述的智能船舶的大数据实时检索系统,其特征在于,所述数据存储单元包括实时数据采集模块和批量数据采集模块;所述实时数据采集模块采用SparkStreaming组件实现,用于将实时采集的流式数据等写入所述智能船舶数据库;所述批量数据采集模块采用Flume组件实现,用于将静态数据写入所述智能船舶数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383640.7A CN112506959B (zh) | 2020-11-30 | 2020-11-30 | 智能船舶数据库检索的数据调度方法、装置和检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011383640.7A CN112506959B (zh) | 2020-11-30 | 2020-11-30 | 智能船舶数据库检索的数据调度方法、装置和检索系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112506959A true CN112506959A (zh) | 2021-03-16 |
CN112506959B CN112506959B (zh) | 2022-11-08 |
Family
ID=74969075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011383640.7A Active CN112506959B (zh) | 2020-11-30 | 2020-11-30 | 智能船舶数据库检索的数据调度方法、装置和检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112506959B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235825A (zh) * | 2013-05-08 | 2013-08-07 | 重庆大学 | 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法 |
CN105930860A (zh) * | 2016-04-13 | 2016-09-07 | 闽江学院 | 智能建筑中温度传感大数据的分类优化模型仿真分析方法 |
CN108648277A (zh) * | 2018-04-25 | 2018-10-12 | 南京理工大学 | 一种激光雷达点云数据的快速重建方法 |
CN109934386A (zh) * | 2019-01-30 | 2019-06-25 | 山西河坡发电有限责任公司 | 热电联供系统热负荷预测方法 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
CN110188093A (zh) * | 2019-05-21 | 2019-08-30 | 江苏锐天信息科技有限公司 | 一种基于大数据平台针对ais信息源的数据挖掘系统 |
CN110609916A (zh) * | 2019-09-25 | 2019-12-24 | 四川东方网力科技有限公司 | 视频图像数据检索方法、装置、设备和存储介质 |
CN111784490A (zh) * | 2020-06-29 | 2020-10-16 | 河南职业技术学院 | 具备界面检索及人机交互的财务数据处理系统 |
-
2020
- 2020-11-30 CN CN202011383640.7A patent/CN112506959B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103235825A (zh) * | 2013-05-08 | 2013-08-07 | 重庆大学 | 一种基于Hadoop云计算框架的海量人脸识别搜索引擎设计方法 |
CN105930860A (zh) * | 2016-04-13 | 2016-09-07 | 闽江学院 | 智能建筑中温度传感大数据的分类优化模型仿真分析方法 |
CN108648277A (zh) * | 2018-04-25 | 2018-10-12 | 南京理工大学 | 一种激光雷达点云数据的快速重建方法 |
CN109934386A (zh) * | 2019-01-30 | 2019-06-25 | 山西河坡发电有限责任公司 | 热电联供系统热负荷预测方法 |
CN110047509A (zh) * | 2019-03-28 | 2019-07-23 | 国家计算机网络与信息安全管理中心 | 一种两级子空间划分方法及装置 |
CN110188093A (zh) * | 2019-05-21 | 2019-08-30 | 江苏锐天信息科技有限公司 | 一种基于大数据平台针对ais信息源的数据挖掘系统 |
CN110609916A (zh) * | 2019-09-25 | 2019-12-24 | 四川东方网力科技有限公司 | 视频图像数据检索方法、装置、设备和存储介质 |
CN111784490A (zh) * | 2020-06-29 | 2020-10-16 | 河南职业技术学院 | 具备界面检索及人机交互的财务数据处理系统 |
Non-Patent Citations (2)
Title |
---|
张萌等: ""复杂船舶信息数据库的目标数据检索方法研究"", 《舰船科学技术》 * |
郭佳: ""大型船舶综合信息数据库的目标数据检索方法"", 《舰船科学技术》 * |
Also Published As
Publication number | Publication date |
---|---|
CN112506959B (zh) | 2022-11-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhou et al. | Towards codebook-free: Scalable cascaded hashing for mobile image search | |
CN101201822B (zh) | 基于内容的视频镜头检索方法 | |
CN110609916A (zh) | 视频图像数据检索方法、装置、设备和存储介质 | |
CN113127632B (zh) | 基于异质图的文本摘要方法及装置、存储介质和终端 | |
WO2004013775A2 (en) | Data search system and method using mutual subsethood measures | |
WO2004013774A2 (en) | Search engine for non-textual data | |
WO2004013772A2 (en) | System and method for indexing non-textual data | |
CN102693299A (zh) | 一种并行视频拷贝检测系统和方法 | |
CN104346438A (zh) | 基于大数据数据管理服务系统 | |
CN110389932B (zh) | 电力文件自动分类方法及装置 | |
US20120117090A1 (en) | System and method for managing digital contents | |
CN110795613B (zh) | 商品搜索方法、装置、系统及电子设备 | |
CN110569289A (zh) | 基于大数据的列数据处理方法、设备及介质 | |
CN111782817A (zh) | 一种面向信息系统的知识图谱构建方法、装置及电子设备 | |
Abbasifard et al. | Efficient indexing for past and current position of moving objects on road networks | |
Saad et al. | Efficient skyline computation on uncertain dimensions | |
Hou et al. | Remote sensing image retrieval with deep features encoding of Inception V4 and largevis dimensionality reduction | |
CN117435685A (zh) | 文档检索方法、装置、计算机设备、存储介质和产品 | |
CN112506959B (zh) | 智能船舶数据库检索的数据调度方法、装置和检索系统 | |
CN116166977A (zh) | 一种基于时序图神经网络的物联网服务聚类方法 | |
CN111581420B (zh) | 一种基于Flink的医学图像实时检索方法 | |
Zhang et al. | Image retrieval method based on entropy and fractal coding | |
CN114610758A (zh) | 基于数据仓库的数据处理方法、装置、可读介质及设备 | |
Si | [Retracted] Classification Method of Ideological and Political Resources of Broadcasting and Hosting Professional Courses Based on SOM Artificial Neural Network | |
CN112612870A (zh) | 一种非结构化数据管理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |