CN111367901B - 一种船舶数据去噪方法 - Google Patents
一种船舶数据去噪方法 Download PDFInfo
- Publication number
- CN111367901B CN111367901B CN202010122974.2A CN202010122974A CN111367901B CN 111367901 B CN111367901 B CN 111367901B CN 202010122974 A CN202010122974 A CN 202010122974A CN 111367901 B CN111367901 B CN 111367901B
- Authority
- CN
- China
- Prior art keywords
- data
- cluster
- denoised
- value
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 77
- 230000011218 segmentation Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 125000004122 cyclic group Chemical group 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Complex Calculations (AREA)
- Radar Systems Or Details Thereof (AREA)
Abstract
本发明涉及一种船舶数据去噪方法,包括:对待去噪的数据集进行分割处理,获取K个数据簇和分别与所述K个数据簇一一对应的K个聚类中心;根据所述K个数据簇、所述K个聚类中心、待去噪数据集,采用第一聚类算法对所述待去噪的数据集进行聚类处理,获取K个聚类;其中,所述采用第一聚类算法对所述待去噪的数据集进行聚类处理的过程中,根据K个数据簇和预先设定的阈值,确定聚类算法中用于对待去噪数据集进行聚类的最终隶属度矩阵,并根据最终隶属度矩阵,获取K个聚类;对所述K个聚类中的每一个聚类分别进行去噪处理,并在去噪处理完成K个聚类后,获取第二数据集;其中所述第二数据集包括待去噪数据集没有噪点的数据点。
Description
技术领域
本发明涉及数据处理方法,尤其涉及一种船舶数据去噪方法。
背景技术
面对智能船舶功能各异的传感设备,如何对船舶航行过程中收集到的多源异构数据进行处理是数据高效应用的关键。通过对船舶航行中采集到的多源异构数据进行数据融合,从而可以得到更精确的航行信息,辅助决策系统进行决策输出。在多源异构数据融合中,数据预处理是必不可少的一步,数据预处理的结果作为数据融合的数据源,会对数据融合的结果产生直接影响。在船舶数据中,噪声数据对数据模型的影响比较显著,通过去噪可以使得数据处理的结果更加精确。
现有的数据去噪方法不适应于大规模数据样本集的数据处理,会降低算法的实时性,且在实现过程中仍旧需要人为干预进行参数调整。
发明内容
(一)要解决的技术问题
为了解决现有技术的上述问题,本发明提供一种船舶数据去噪方法。
(二)技术方案
为了达到上述目的,本发明提供一种船舶数据去噪方法,包括:
A1、对待去噪的数据集进行分割处理,获取K个数据簇和分别与所述K个数据簇一一对应的K个聚类中心;
其中,所述待去噪的数据集中包括:多个数据点;所述每一个数据点均具有相应的坐标;
所述多个数据点包括:船舶行驶过程中,船舶传感器实时采取的多个第一数据点和预先设置的多个第二数据点;
A2、根据所述K个数据簇、所述K个聚类中心、待去噪数据集,采用第一聚类算法对所述待去噪的数据集进行聚类处理,获取K个聚类;
其中,所述采用第一聚类算法对所述待去噪的数据集进行聚类处理的过程中,根据K个数据簇和预先设定的阈值,确定聚类算法中用于对待去噪数据集进行聚类的最终隶属度矩阵,并根据最终隶属度矩阵,获取K个聚类;
A3、对所述K个聚类中的每一个聚类分别进行去噪处理,并在去噪处理完成K个聚类后,获取第二数据集;
其中所述第二数据集包括待去噪数据集没有噪点的数据点。
优选的,所述步骤A1包括:
A1-1、根据待去噪的数据集,确定K个初始中心;其中所述每一个初始中心均包括所述待去噪数据集中的一个数据点;
A1-2、根据所述待去噪的数据集和所述K个初始中心,获取所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一初始中心的距离;
A1-3、基于所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一个初始中心的距离,将所述数据集中除去K个初始中心之外的所有数据点中的每一个数据点分别分配给与所述数据点距离最小的初始中心所属的簇,获取K个数据簇;
A1-4、针对每一个数据簇,根据数据簇中的所有数据点的平均值,获取每一个数据簇对应的聚类中心;
所述聚类中心为数据簇中的所有数据点的平均值。
优选的,所述步骤A2包括:
A2-1、基于所述K个数据簇和待去噪数据集,确定隶属度矩阵;
A2-2、基于所述隶属度矩阵和待去噪数据集和预先设定的阈值,对所述隶属度矩阵进行更新,获取最终的隶属度矩阵;
A2-3、基于所述最终的隶属度矩阵,获取K个聚类。
优选的,所述步骤A2-1包括:
根据待去噪数据集中的数据点的个数和所述K个数据簇,确定隶属度矩阵;
所述隶属度矩阵的行数与所述数据簇的数量相同;所述隶属度矩阵的列数与所述待去噪数据集中数据点的数量相同;
所述隶属度矩阵中的任意元素uij满足:
其中,n为待去噪数据集中的数据点的数量;k为数据簇的个数;uij表示数据点xi对聚类中心vj的隶属程度值,uij>0。
优选的,所述步骤A2-2包括:
A2-2-1、基于所述隶属度矩阵,获取所述待去噪数据集中多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值;
A2-2-2、基于所述数据点的坐标和聚类中心的坐标,获取所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离;
A2-2-3、基于所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值和所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离,采用公式(1)获取代价函数值;
公式(1)为:
其中,uij表示数据点xi对聚类中心vj的隶属程度,uij>0,m是预先设定的加权指数;d(xi,vj)为第i个数据点与第j个聚类中心间的欧式距离;
A2-2-4、比较所述代价函数值和预先设定的阈值的大小,获取比较结果;
A2-2-5、若所述比较结果为大于预先设定的阈值时,则采用公式(2)更新隶属度矩阵确定新的隶属度矩阵,采用公式(3)更新聚类中心确定新的聚类中心,并重复步骤A2-2-1至A2-2-5,直至代价函数值小于预先设定的阈值时,确定最终的隶属度矩阵和K个最终的聚类中心;
其中,公式(2)为:
公式(3)为:
所述最终的隶属度矩阵为在代价函数值小于预先设定的阈值的情况下的隶属度矩阵;
所述最终的聚类中心为在代价函数值小于预先设定的阈值的情况下的聚类中心。
优选的,所述步骤A2-2还包括:
A2-2-6、若所述比较结果为小于预先设定的阈值时,则确定最终的隶属度矩阵。
优选的,所述步骤A2-3包括:
A2-3-1、基于所述最终的隶属度矩阵,获取待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值。
A2-3-2、根据所述待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值,将所述数据点分别分配给与所述数据点隶属度值最高的最终聚类中心所属的簇中,获取K个聚类。
优选的,所述步骤A3包括:
A3-1、获取所述每一个聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值;
A3-2、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的距离,获取所述聚类的第二数值;
其中所述聚类的第二数值为所述聚类中所有数据点到所述聚类中的最终聚类中心的加权的欧式距离的平均值;
A3-3、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值,判断所述聚类中的数据点是否为噪点;
A3-4、若为噪点,则将所述噪点去除,获取第二数据集。
优选的,所述步骤A3-3包括:
A3-3-1、基于所述聚类中的任一数据点到与所述数据点对应的聚类中心的加权的欧式距离和余弦值,获取与所述数据点对应的第一数值;
其中,与所述数据点对应的第一数值为:所述数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值的乘积的值;
A3-3-2、比较与所述数据点对应的第一数值与所述数据点所在的聚类中的第二数值的大小;
若与所述数据点对应的第一数值大于所述数据点所在的聚类中的第二数值时,则确定所述数据点为噪点。
优选的,所述预先设定的加权指数为2。
(三)有益效果
本发明的有益效果是:
本发明在对待去噪数据集进行去噪时,首先对待去噪数据集进行初始分割,然后基于分割结果再通过第一聚类算法进行循环聚类,通过改进的去噪方法更加符合实际去噪需求,避免误去噪情况的发生。
本发明的去噪方法集成欧式距离以及余弦相似度,既可以检测数据点在位置上的差异也可以检测其在方向上的差异,符合船舶数据特点,且能避免误去噪情况的发生。
本发明对待处理的数据集进行去噪,不需要人为干预,在应对大规模数据集时仍可以保证运算效率,提高实时性,且通过去噪原理的改进,可以避免误去噪情况的发生。
附图说明
图1为本发明的一种船舶数据去噪方法流程图;
图2为本发明具体实施例二中的船数据去噪方法示意图。
具体实施方式
为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。
实施例一
为了更好的理解本申请的船舶数据去噪方法,本实施例一中,假设待去噪数据集中的多个数据点为船舶在行驶过程中,根据船舶的传感器实时获取船舶的多个第一数据点,和预先设定的多个船舶的第二数据点。
本实施例中船舶的第一数据点和第二数据点都存储在船舶控制中心的数据库中,本实施例中船舶数据去噪方法,以船舶的控制中心为执行主体,对控制中心的数据库中存储的第一数据点和第二数据点采用本申请的数据去噪方法进行处理,参见附图1,包括下述步骤:
A1、对待去噪的数据集进行分割处理,获取K个数据簇和分别与所述K个数据簇一一对应的K个聚类中心。
其中,所述待去噪的数据集中包括:多个数据点;所述每一个数据点均具有相应的坐标。
所述多个数据点包括:船舶行驶过程中,船舶传感器实时采取的多个第一数据点和预先设置的多个第二数据点。
本实施例中对船舶数据库中的所有数据进行去噪时,首先应用均值聚类算法对待去噪数据集进行初始分割,具体包括:
根据待去噪的数据集,确定K个初始中心;其中所述每一个初始中心均包括所述待去噪数据集中的一个数据点。
根据所述待去噪的数据集和所述K个初始中心,获取所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一初始中心的距离。
基于所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一个初始中心的距离,将所述数据集中除去K个初始中心之外的所有数据点中的每一个数据点分别分配给与所述数据点距离最小的初始中心所属的簇,获取K个数据簇。
针对每一个数据簇,根据数据簇中的所有数据点的平均值,获取每一个数据簇对应的聚类中心。
所述聚类中心为数据簇中的所有数据点的平均值。
A2、根据所述K个数据簇、所述K个聚类中心、待去噪数据集,采用第一聚类算法对所述待去噪的数据集进行聚类处理,获取K个聚类。
其中,所述采用第一聚类算法对所述待去噪的数据集进行聚类处理的过程中,根据K个数据簇和预先设定的阈值,确定聚类算法中用于对待去噪数据集进行聚类的最终隶属度矩阵,并根据最终隶属度矩阵,获取K个聚类。
本实施例中,步骤A2包括:
A2-1、基于所述K个数据簇和待去噪数据集,确定隶属度矩阵。
本实施例中优选的,根据待去噪数据集中的数据点的个数和所述K个数据簇,确定隶属度矩阵。
所述隶属度矩阵的行数与所述数据簇的数量相同;所述隶属度矩阵的列数与所述待去噪数据集中数据点的数量相同。
所述隶属度矩阵中的任意元素uij满足:
其中,n为待去噪数据集中的数据点的数量;k为数据簇的个数;uij表示数据点xi对聚类中心vj的隶属程度值,uij>0。
A2-2、基于所述隶属度矩阵和待去噪数据集和预先设定的阈值,对所述隶属度矩阵进行更新,获取最终的隶属度矩阵,具体包括:
基于所述隶属度矩阵,获取所述待去噪数据集中多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值。
基于所述数据点的坐标和聚类中心的坐标,获取所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离。
基于所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值和所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离,采用公式(1)获取代价函数值。
公式(1)为:
其中,uij表示数据点xi对聚类中心vj的隶属程度,uij>0,m是预先设定的加权指数;d(xi,vj)为第i个数据点与第j个聚类中心间的欧式距离;
比较所述代价函数值和预先设定的阈值的大小,获取比较结果;
若所述比较结果为大于预先设定的阈值时,则采用公式(2)更新隶属度矩阵确定新的隶属度矩阵,采用公式(3)更新聚类中心确定新的聚类中心,并重复步骤A2-2-1至A2-2-5,直至代价函数值小于预先设定的阈值时,确定最终的隶属度矩阵和K个最终的聚类中心。
其中,公式(2)为:
公式(3)为:
所述最终的隶属度矩阵为在代价函数值小于预先设定的阈值的情况下的隶属度矩阵。
所述最终的聚类中心为在代价函数值小于预先设定的阈值的情况下的聚类中心。
本实施例中,当计算的代价函数值小于阈值时,认为聚类结束,此时输出最终的隶属度矩阵。根据该矩阵可以得到每个数据点对K个聚类中心的隶属度,将每个数据点划归到其隶属度最高的聚类中心,最后就可以将整个数据集分成K个聚类。且聚类后在同一类样本之间的最大的相似度大,而不同类之间的相似度小。
本实施例中,所述步骤A2-2还包括:若所述比较结果为小于预先设定的阈值时,则确定最终的隶属度矩阵。
A2-3、基于所述最终的隶属度矩阵,获取K个聚类,具体包括:
A2-3-1、基于所述最终的隶属度矩阵,获取待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值。
A2-3-2、根据所述待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值,将所述数据点分别分配给与所述数据点隶属度值最高的最终聚类中心所属的簇中,获取K个聚类。
A3、对所述K个聚类中的每一个聚类分别进行去噪处理,并在去噪处理完成K个聚类后,获取第二数据集;
其中所述第二数据集包括待去噪数据集没有噪点的数据点。
本实施例中,步骤A3具体包括:
A3-1、获取所述每一个聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值。
A3-2、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的距离,获取所述聚类的第二数值。
其中所述聚类的第二数值为所述聚类中所有数据点到所述聚类中的最终聚类中心的加权的欧式距离的平均值。
A3-3、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值,判断所述聚类中的数据点是否为噪点。
本实施例中,所述步骤A3-3包括:
A3-3-1、基于所述聚类中的任一数据点到与所述数据点对应的聚类中心的加权的欧式距离和余弦值,获取与所述数据点对应的第一数值。
其中,与所述数据点对应的第一数值为:所述数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值的乘积的值。
A3-3-2、比较与所述数据点对应的第一数值与所述数据点所在的聚类中的第二数值的大小。
若与所述数据点对应的第一数值大于所述数据点所在的聚类中的第二数值时,则确定所述数据点为噪点。
本实施例中,所述预先设定的加权指数为2。
A3-4、若为噪点,则将所述噪点去除,获取第二数据集。
本实施例一的去噪方法与传统去噪算法仅仅依靠距离检测相似度不同,本方法集成欧式距离以及余弦相似度,既可以检测数据点在位置上的差异也可以检测其在方向上的差异,符合船舶数据特点,且能避免误去噪情况的发生。
实施例二
为了更好的说明本申请的船舶数据去噪方法,本实施例二中的待去噪数据集中的数据点为船舶控制中心的数据库中的所有数据点。本实施例中数据库中的数据点包括一些预先设定的历史数据点和一些在船舶行驶过程中根据船舶的传感器实时获取船舶的数据点。
在实际应用中,本申请的船舶数据去噪方法针对的是船舶控制中心的数据库中的所有数据,因此本申请的船舶去噪方法是对大规模数据进行去噪处理的,且不需要人为干预进行参数调整,具体的过程,参见附图1和2,包括:
S1、获取所述船舶数据库中的所有数据,并对船舶数据库中的所有数据进行分割,获取K个数据簇和聚类中心。
假设本实施例中船舶数据库中具有20个数据点,随机选取四个数据点为:第3个数据点,第10个数据点,第13个数据点,第17个数据点,分别作为初始中心。
然后分别计算船舶数据库中的所有数据点中除了4个初始中心外剩余的16个数据点到这四个初始中心的距离,然后每个数据点分配到距其最近的聚类中心所对应的簇,最后可以将整个数据集划分成4个数据簇,本实施例中假设聚类结果如下:
数据簇C1包括第3个数据点、第1个数据点、第6个数据点、第11个数据点。
数据簇C2包括第10个数据点、第9个数据点、第2个数据点、第16个数据点、第19个数据点。
数据簇C3包括第13个数据点、第7个数据点、第8个数据点、第4个数据点、第18个数据点、第19个数据点。
数据簇C4包括第17个数据点、第5个数据点、第12个数据点、第14个数据点、第15个数据点。
然后计算每个数据簇中所有点的平均值,将该值更新为每个数据集的聚类中心,记为V=(v1,v2…,v4),因为此处以船舶航速数据为例,所以即计算每个数据集中所有航速数据的平均值作为该数据集的聚类中心,vj为该值的标号。
本实施例在对数据集进行去噪时,首先应用均值聚类算法对数据集进行初始分割,然后基于分割结果通过循环聚类不断更新样本簇,通过改进的去噪方法更加符合实际去噪需求,避免误去噪情况的发生。
S2、基于船舶数据库中的所有数据点和K个聚类中心,确定隶属度矩阵。
本实施例中,初始化隶属度矩阵,根据步骤A1可以生成一个20*4的矩阵具体如下
其中,uj,i表示数据点xi对聚类中心vj的隶属程度,例u3,2表示第2个数据点对数据集C3的聚类中心vj的隶属程度,初始化矩阵对每一个uj,i取[0,1]范围内的随机数作为初值,其中满足条件:
即u1,1+u2,1+u3,1+u4,1=1(例如u1,1=0.2,u2,1=0.3,u3,1=0.4,u4,1=0.1)。
最终可以得到一个隶属度矩阵。
基于所述隶属度矩阵和船舶数据库中的所有数据点,对所述隶属度矩阵,进行更新,获取最终的隶属度矩阵。
本实施例中,计算代价函数,代价函数的计算公式如下:
其中,m为加权指数,这里取值2,d(xi,vj)为第i个数据点与第j个聚类中心间的欧式距离。
公式展开为:J=J1+J2+J3+J4
本实施例中通过判断代价函数值是否小于预先设定的阈值。如果是,则确定当前的隶属度矩阵为最终的隶属度矩阵,否则需要更新隶属度矩阵以及聚类中心,直至代价函数值是小于预先设定的阈值。
本实施例中通过下式对隶属度矩阵进行更新:
例如对u1,2进行更新,则
其中,d1,2=d(v1,x2)表示数据点x2到聚类中心v1的距离。
通过上式对隶属度矩阵中的每个值进行更新。
本实施例中,依照下式对聚类中心进行更新。
例如对v1进行更新,则
其中,
基于所述最终的隶属度矩阵,获取K个聚类和K个最终聚类中心。
本实施例中,计算的代价函数值小于阈值时,认为聚类结束,此时输出最终的隶属度矩阵。根据该矩阵可以得到每个数据点对4个聚类中心的隶属度,将每个数据点划归到其隶属度最高的最终聚类中心,最后就可以将整个数据集分成4个聚类。且聚类后在同一类样本之间的最大的相似度大,而不同类之间的相似度小。
S3、对所述K个第二聚类进行去噪处理,获取第二数据集,其中第二数据集为没有噪点且完成聚类的数据集。
本实施例中,对4个聚类同步进行去噪处理。
对每个聚类内的所有数据点进行判断,判断其是否为噪点,若为噪点,则直接舍去,否则留下该数据点。判断是否为噪点的方法如下:
计算每个聚类内每个数据点xi到聚类中心vj的距离。
dα(vj,xi)=sim(vj,xi)d(vj,xi)
其中,sim(vj,xi)表示数据点xi与聚类中心vj的余弦值,
d(vj,xi)为第i个数据点与第j个聚类中心间的加权欧式距离。
通过比较dα(vj,xi)与阈值γ之间的关系,当dα(vj,xi)>γ时,认为时噪声点并将其删除,否则保留该数据点。阈值γ为该聚类内所有数据点到聚类中心的加权欧式距离的平均值。
本实施例中,在完成对待去噪数据集去噪处理后得到的第二数据集,可以精简船舶控制中心数据库,保证了数据库数据的精确性可靠性,且通过精简后的数据分析获取船舶的航行状态可以保证分析结果的可靠性。
本实施例中去除了由于设备环境问题产生的不符合船舶实际航行情况的数据点,删除这些噪点数据可以精简数据库,并保证数据库数据的精确性可靠性,且通过精简后的数据分析船舶航行状态可以保证分析结果的可靠性。
本实施例对船舶数据集进行去噪,不需要人为干预,在应对大规模数据集时仍可以保证运算效率,提高实时性,且通过去噪原理的改进,可以避免误去噪情况的发生。
以上结合具体实施例描述了本发明的技术原理,这些描述只是为了解释本发明的原理,不能以任何方式解释为对本发明保护范围的限制。基于此处解释,本领域的技术人员不需要付出创造性的劳动即可联想到本发明的其它具体实施方式,这些方式都将落入本发明的保护范围之内。
Claims (2)
1.一种船舶的数据去噪的方法,其特征在于,包括:
A1、对待去噪的数据集进行分割处理,获取K个数据簇和分别与所述K个数据簇一一对应的K个聚类中心;
其中,所述待去噪的数据集中包括:多个数据点;所述每一个数据点均具有相应的坐标;
所述多个数据点包括:船舶行驶过程中,船舶传感器实时采取的多个第一数据点和预先设置的多个第二数据点;
A2、根据所述K个数据簇、所述K个聚类中心、待去噪数据集,采用第一聚类算法对所述待去噪的数据集进行聚类处理,获取K个聚类;
其中,所述采用第一聚类算法对所述待去噪的数据集进行聚类处理的过程中,根据K个数据簇和预先设定的阈值,确定聚类算法中用于对待去噪数据集进行聚类的最终隶属度矩阵,并根据最终隶属度矩阵,获取K个聚类;
A3、对所述K个聚类中的每一个聚类分别进行去噪处理,并在去噪处理完成K个聚类后,获取第二数据集;
其中所述第二数据集包括待去噪数据集没有噪点的数据点;
所述步骤A1包括:
A1-1、根据待去噪的数据集,确定K个初始中心;其中所述每一个初始中心均包括所述待去噪数据集中的一个数据点;
A1-2、根据所述待去噪的数据集和所述K个初始中心,获取所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一初始中心的距离;
A1-3、基于所述数据集中除去所述K个初始中心之外的所有数据点中的每一个数据点与所述K个初始中心中的每一个初始中心的距离,将所述数据集中除去K个初始中心之外的所有数据点中的每一个数据点分别分配给与所述数据点距离最小的初始中心所属的簇,获取K个数据簇;
A1-4、针对每一个数据簇,根据数据簇中的所有数据点的平均值,获取每一个数据簇对应的聚类中心;
所述聚类中心为数据簇中的所有数据点的平均值;
所述步骤A2包括:
A2-1、基于所述K个数据簇和待去噪数据集,确定隶属度矩阵;
A2-2、基于所述隶属度矩阵和待去噪数据集和预先设定的阈值,对所述隶属度矩阵进行更新,获取最终的隶属度矩阵;
A2-3、基于所述最终的隶属度矩阵,获取K个聚类;
所述步骤A2-1包括:
根据待去噪数据集中的数据点的个数和所述K个数据簇,确定隶属度矩阵;
所述隶属度矩阵的行数与所述数据簇的数量相同;所述隶属度矩阵的列数与所述待去噪数据集中数据点的数量相同;
所述隶属度矩阵中的任意元素uij满足:
其中,n为待去噪数据集中的数据点的数量;k为数据簇的个数;uij表示数据点xi对聚类中心vj的隶属程度值,uij>0;
所述步骤A2-2包括:
A2-2-1、基于所述隶属度矩阵,获取所述待去噪数据集中多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值;
A2-2-2、基于所述数据点的坐标和聚类中心的坐标,获取所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离;
A2-2-3、基于所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的隶属度值和所述多个数据点中的每一个数据点分别与所述K个聚类中心的每一个聚类中心的欧式距离,采用公式(1)获取代价函数值;
公式(1)为:
其中,uij表示数据点xi对聚类中心vj的隶属程度,uij>0,m是预先设定的加权指数;d(xi,vj)为第i个数据点与第j个聚类中心间的欧式距离;
A2-2-4、比较所述代价函数值和预先设定的阈值的大小,获取比较结果;
A2-2-5、若所述比较结果为大于预先设定的阈值时,则采用公式(2)更新隶属度矩阵确定新的隶属度矩阵,采用公式(3)更新聚类中心确定新的聚类中心,并重复步骤A2-2-1至A2-2-5,直至代价函数值小于预先设定的阈值时,确定最终的隶属度矩阵和K个最终的聚类中心;
其中,公式(2)为:
公式(3)为:
所述最终的隶属度矩阵为在代价函数值小于预先设定的阈值的情况下的隶属度矩阵;
所述最终的聚类中心为在代价函数值小于预先设定的阈值的情况下的聚类中心;
所述步骤A2-2还包括:
A2-2-6、若所述比较结果为小于预先设定的阈值时,则确定最终的隶属度矩阵;
所述步骤A2-3包括:
A2-3-1、基于所述最终的隶属度矩阵,获取待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值;
A2-3-2、根据所述待去噪数据集中的每个数据点分别与所述K个最终聚类中心的隶属度值,将所述数据点分别分配给与所述数据点隶属度值最高的最终聚类中心所属的簇中,获取K个聚类;
所述步骤A3包括:
A3-1、获取所述每一个聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值;
A3-2、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的距离,获取所述聚类的第二数值;
其中所述聚类的第二数值为所述聚类中所有数据点到所述聚类中的最终聚类中心的加权的欧式距离的平均值;
A3-3、基于所述每一聚类中的任一数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值,判断所述聚类中的数据点是否为噪点;
A3-4、若为噪点,则将所述噪点去除,获取第二数据集;
所述步骤A3-3包括:
A3-3-1、基于所述聚类中的任一数据点到与所述数据点对应的聚类中心的加权的欧式距离和余弦值,获取与所述数据点对应的第一数值;
其中,与所述数据点对应的第一数值为:所述数据点到与所述数据点对应的最终聚类中心的加权的欧式距离和余弦值的乘积的值;
A3-3-2、比较与所述数据点对应的第一数值与所述数据点所在的聚类中的第二数值的大小;
若与所述数据点对应的第一数值大于所述数据点所在的聚类中的第二数值时,则确定所述数据点为噪点。
2.根据权利要求1所述的方法,其特征在于,所述预先设定的加权指数为2。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122974.2A CN111367901B (zh) | 2020-02-27 | 2020-02-27 | 一种船舶数据去噪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010122974.2A CN111367901B (zh) | 2020-02-27 | 2020-02-27 | 一种船舶数据去噪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111367901A CN111367901A (zh) | 2020-07-03 |
CN111367901B true CN111367901B (zh) | 2024-04-02 |
Family
ID=71209712
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010122974.2A Active CN111367901B (zh) | 2020-02-27 | 2020-02-27 | 一种船舶数据去噪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111367901B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112947516B (zh) * | 2021-02-02 | 2022-10-21 | 三亚海兰寰宇海洋信息科技有限公司 | 一种船舶运动状态判别方法及系统 |
CN112801113A (zh) * | 2021-02-09 | 2021-05-14 | 北京工业大学 | 基于多尺度可靠聚类的数据去噪方法 |
CN116012539B (zh) * | 2023-03-27 | 2023-06-06 | 埃尔法(山东)仪器有限公司 | 一种无人机与激光检测结合对气团三维成像的计算方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855633A (zh) * | 2012-09-05 | 2013-01-02 | 山东大学 | 一种具有抗噪性的快速模糊聚类数字图像分割方法 |
CN103400152A (zh) * | 2013-08-20 | 2013-11-20 | 哈尔滨工业大学 | 基于分层聚类的滑动窗口多数据流异常检测方法 |
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN104156943A (zh) * | 2014-07-14 | 2014-11-19 | 西安电子科技大学 | 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法 |
CN105373805A (zh) * | 2015-10-09 | 2016-03-02 | 中国电子科技集团公司第二十八研究所 | 一种基于最大熵准则的多传感器机动目标跟踪方法 |
CN107545133A (zh) * | 2017-07-20 | 2018-01-05 | 陆维嘉 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
CN108763590A (zh) * | 2018-06-20 | 2018-11-06 | 合肥工业大学 | 一种基于双变加权核fcm算法的数据聚类方法 |
CN108828583A (zh) * | 2018-06-15 | 2018-11-16 | 西安电子科技大学 | 一种基于模糊c均值点迹分簇方法 |
CN108830289A (zh) * | 2018-04-28 | 2018-11-16 | 河南师范大学 | 一种基于改进的模糊c均值聚类的图像聚类方法及装置 |
CN109492022A (zh) * | 2018-09-18 | 2019-03-19 | 南京邮电大学 | 基于语义的改进的k-means算法的搜索方法 |
CN110032973A (zh) * | 2019-04-12 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于人工智能的无监督寄生虫分类方法及系统 |
CN110275868A (zh) * | 2019-06-21 | 2019-09-24 | 厦门嵘拓物联科技有限公司 | 一种智能工厂中多模态制造数据预处理的方法 |
CN110705582A (zh) * | 2019-08-12 | 2020-01-17 | 武汉理工大学 | 一种基于改进K-Means聚类算法的船舶过桥行为特征提取方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110020141A (zh) * | 2017-11-15 | 2019-07-16 | 航天信息股份有限公司 | 一种基于改进聚类和Spark框架的个性化推荐方法及系统 |
-
2020
- 2020-02-27 CN CN202010122974.2A patent/CN111367901B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102855633A (zh) * | 2012-09-05 | 2013-01-02 | 山东大学 | 一种具有抗噪性的快速模糊聚类数字图像分割方法 |
CN103400152A (zh) * | 2013-08-20 | 2013-11-20 | 哈尔滨工业大学 | 基于分层聚类的滑动窗口多数据流异常检测方法 |
CN104156943A (zh) * | 2014-07-14 | 2014-11-19 | 西安电子科技大学 | 基于非支配邻域免疫算法的多目标模糊聚类图像变化检测方法 |
CN104156463A (zh) * | 2014-08-21 | 2014-11-19 | 南京信息工程大学 | 一种基于MapReduce的大数据聚类集成方法 |
CN105373805A (zh) * | 2015-10-09 | 2016-03-02 | 中国电子科技集团公司第二十八研究所 | 一种基于最大熵准则的多传感器机动目标跟踪方法 |
CN107545133A (zh) * | 2017-07-20 | 2018-01-05 | 陆维嘉 | 一种用于鉴别诊断慢性支气管炎的高斯模糊聚类计算方法 |
CN108830289A (zh) * | 2018-04-28 | 2018-11-16 | 河南师范大学 | 一种基于改进的模糊c均值聚类的图像聚类方法及装置 |
CN108828583A (zh) * | 2018-06-15 | 2018-11-16 | 西安电子科技大学 | 一种基于模糊c均值点迹分簇方法 |
CN108763590A (zh) * | 2018-06-20 | 2018-11-06 | 合肥工业大学 | 一种基于双变加权核fcm算法的数据聚类方法 |
CN109492022A (zh) * | 2018-09-18 | 2019-03-19 | 南京邮电大学 | 基于语义的改进的k-means算法的搜索方法 |
CN110032973A (zh) * | 2019-04-12 | 2019-07-19 | 哈尔滨工业大学(深圳) | 一种基于人工智能的无监督寄生虫分类方法及系统 |
CN110275868A (zh) * | 2019-06-21 | 2019-09-24 | 厦门嵘拓物联科技有限公司 | 一种智能工厂中多模态制造数据预处理的方法 |
CN110705582A (zh) * | 2019-08-12 | 2020-01-17 | 武汉理工大学 | 一种基于改进K-Means聚类算法的船舶过桥行为特征提取方法 |
Non-Patent Citations (1)
Title |
---|
许荣雪.不完备数据FCM聚类和离群点检测方法研究.《CNKI中国优秀硕士学位论文全文数据库》.2019,第1-70页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111367901A (zh) | 2020-07-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111367901B (zh) | 一种船舶数据去噪方法 | |
CN110991272B (zh) | 一种基于视频跟踪的多目标车辆轨迹识别方法 | |
CN112308881B (zh) | 一种基于遥感图像的舰船多目标跟踪方法 | |
CN113450596B (zh) | 基于船舶轨迹特征点提取的时空dp方法 | |
CN111612841B (zh) | 目标定位方法及装置、移动机器人及可读存储介质 | |
CN112052802B (zh) | 一种基于机器视觉的前方车辆行为识别方法 | |
CN111340855A (zh) | 一种基于轨迹预测的道路移动目标检测方法 | |
CN107610177A (zh) | 一种同步定位与地图构建中确定特征点的方法和设备 | |
CN104966305A (zh) | 基于运动矢量划分的前景检测方法 | |
CN112802054A (zh) | 一种融合图像分割的混合高斯模型前景检测方法 | |
CN111915583A (zh) | 复杂场景中基于车载红外热像仪的车辆和行人检测方法 | |
CN104915642A (zh) | 前方车辆测距方法及装置 | |
CN111539910B (zh) | 锈蚀区域检测方法及终端设备 | |
CN111950498A (zh) | 一种基于端到端实例分割的车道线检测方法及装置 | |
CN116245949A (zh) | 一种基于改进四叉树特征点提取的高精度视觉slam方法 | |
CN111768429A (zh) | 一种基于卡尔曼滤波和行人重识别算法的隧道环境下行人目标跟踪方法 | |
CN116342894A (zh) | 基于改进YOLOv5的GIS红外特征识别系统及方法 | |
CN109592528B (zh) | 基于视觉词带的电梯安全标志物定位方法与系统 | |
CN107729863B (zh) | 人体指静脉识别方法 | |
CN113076988B (zh) | 基于神经网络的移动机器人视觉slam关键帧自适应筛选方法 | |
CN108932468B (zh) | 一种适用于心理学的面部识别方法 | |
CN114283326A (zh) | 一种结合局部感知和高阶特征重构的水下目标重识别方法 | |
CN116110006B (zh) | 一种用于智慧旅游系统的景区游客异常行为识别方法 | |
CN109815887B (zh) | 一种基于多智能体协作的复杂光照下人脸图像的分类方法 | |
CN116299525A (zh) | 一种基于点云区域相关性的动态环境rgb-d视觉slam方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |