CN117112871B

CN117112871B - 基于fcm聚类算法模型的数据实时高效融合处理方法

Info

Publication number: CN117112871B
Application number: CN202311358138.4A
Authority: CN
Inventors: 阎星娥
Original assignee: Nanjing Huafei Data Technology Co ltd
Current assignee: Nanjing Huafei Data Technology Co ltd
Priority date: 2023-10-19
Filing date: 2023-10-19
Publication date: 2024-01-05
Anticipated expiration: 2043-10-19
Also published as: CN117112871A

Abstract

本发明公开了一种基于FCM聚类算法模型的数据实时高效融合处理方法，涉及数据处理领域，首先多源数据采集和预处理，然后构建改进式FCM聚类算法模型，并对对预处理后的原始采集数据进行聚类分析，基于数据分类结果进行同类型原始采集数据融合，采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代，通过数据可视化工具Tableau对聚类结果进行可视化，对数据融合结果进行处理与应用；本发明通过多源数据采集、实时分类和数据融合过程，实现了对大规模数据的高效处理和快速响应，具有实时性、高效性和可拓展性，自动化、智能化程度高。

Description

基于FCM聚类算法模型的数据实时高效融合处理方法

技术领域

本发明涉及数据处理领域，且更具体地涉及一种基于FCM聚类算法模型的数据实时高效融合处理方法。

背景技术

随着物联网、大数据等技术的快速发展和应用，传感器网络、社交网络、交通网络等多源数据不断产生，数据规模呈现呈爆炸式增长趋势，给数据分析和决策带来了巨大挑战。如何快速、准确地识别和处理多源数据，并实时融合其信息，成为了大数据分析和应用的重要研究问题之一。数据在现代社会中不断增长和积累，数据的处理和分析成为了重要的技术和能力。在实际应用中，不同系统和设备产生的数据往往存在异构性和时效性等问题，需要对这些异构数据进行实时融合处理，以便更好地进行数据分析和应用。

聚类算法是一种对数据进行分类和分组的常用方法。其中，FCM聚类算法是一种基于逻辑的聚类算法，该算法能够更好地处理多源异构数据的聚类问题，并且可以对数据进行实时处理。

基于FCM聚类算法模型的数据实时高效融合处理方法可以通过将异构数据进行化处理，将数据转化为聚类问题，并且通过FCM算法对多源异构数据进行聚类和分组。但是现有技术中，传统聚类算法对实时数据的响应能力较弱，对数据量的限制较大，并且缺乏直观的结果展示方式。

因此，本发明公开了一种基于FCM聚类算法模型的数据实时高效融合处理方法实现对大规模数据的高效处理和快速响应。

发明内容

针对现有技术的不足，本发明公开了一种基于FCM聚类算法模型的数据实时高效融合处理方法，通过多源数据采集、实时分类和数据融合过程，实现了对大规模数据的高效处理和快速响应，具有实时性、高效性和可拓展性，适用于多种场景的数据应用和应急响应；采用实时流处理引擎工具构建改进式FCM聚类算法模型，提高了聚类分析的效率和响应速度；基于数据分类结果进行同类型原始采集数据融合，增强了数据融合的准确性和可靠性；采用大数据处理引擎Apache Spark进行实时新增数据迭代计算，实现了实时更新改进式FCM聚类算法模型，提高了聚类分析速度和效率；采用GPU服务器和并行计算方式对数据融合结果进行处理和应用，提高了数据处理和应用的效率和速度；通过数据可视化工具Tableau对聚类结果进行可视化，提高了数据分析的易用性和效果；自动化、智能化程度高。

本发明采用以下技术方案：

一种基于FCM聚类算法模型的数据实时高效融合处理方法，包括以下步骤：

步骤一、多源数据采集和预处理，通过无线传感器网络、抓取工具和访问接口进行实时多源原始数据采集，并将原始采集数据传输至消息队列，以便下一步处理，所述原始采集数据通过数据预处理工具Weka进行数据离群值、重复值、缺失值和归一化处理，以提高聚类的效率和准确性；

步骤二、数据分类，采用实时流处理引擎工具构建改进式FCM聚类算法模型，所述改进式FCM聚类算法模型通过对预处理后的原始采集数据进行聚类分析实现数据分类，并采用多线程和异步I/O处理方式提高聚类分析的效率和响应速度；

步骤三、数据融合，基于数据分类结果进行同类型原始采集数据融合；

步骤四、实时更新改进式FCM聚类算法模型，所述改进式FCM聚类算法模型通过大数据处理引擎Apache Spark进行实时新增数据迭代计算，所述大数据处理引擎ApacheSpark采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代，以提高聚类分析速度和效率；

步骤五、聚类结果可视化，通过数据可视化工具Tableau对聚类结果进行可视化；

步骤六、对数据融合结果进行处理与应用，采用GPU服务器和并行计算方式对数据融合结果进行数据挖掘、预测分析和优化决策。

作为本发明进一步的技术方案，所述实时流处理引擎工具采用数据缓存机制将预处理后的原始采集数据缓存至内存或磁盘等待处理，以降低数据处理延迟和减少数据读取次数，并采用并发处理机制并行处理大规模实时数据，所述并发处理机制通过数据的哈希值将大规模采集数据分为数据流，并采用负载均衡算法将数据流分发至处理节点，所述实时流处理引擎工具采用多核CPU处理器进行数据处理，提高处理效率和吞吐量。

作为本发明进一步的技术方案，所述改进式FCM聚类算法模型的工作步骤包括：

步骤1、确定聚类数，所述改进式FCM聚类算法模型采用分割指标法和轮廓系数确定聚类数，并采用自适应聚类中心点算法自动选择最佳初始聚类中心点，以避免局部最优情况，所述分割指标法通过计算不同聚类数对应的分割指标确定最优聚类数，所述轮廓系数基于每个数据点的聚类内部相似度和其他聚类之间的相异度确定最优聚类数，所述改进式FCM聚类算法通过添加数据点权重因子增强网络数据点在聚类过程中清晰度；

步骤2、初始化矩阵，所述改进式FCM聚类算法采用先验领域信息实现样本初始分类，并对矩阵进行赋值，所述改进式FCM聚类算法根据原始数据样本特征赋予网络数据样本不同权重，并通过迭代优化法优化聚类效果，所述迭代优化法与自适应学习率法结合基于迭代次数和预设参数值自动调整学习率，以提高改进式FCM聚类算法的收敛速度和稳定性；

步骤3、计算聚类中心，所述改进式FCM聚类算法采用软加权平均法计算聚类中心，以提高聚类的鲁棒性和稳健性，并通过约束条件限制聚类中心数量和位置，以避免聚类中心过多或过少情况，所述软加权平均法采用指数函数计算样本加权后平均值，以减少异常点的影响；

步骤4、更新矩阵，所述改进式FCM聚类算法根据聚类中心计算数据点到聚类中心的距离，并将距离转化为隶属度值，以更新矩阵；

步骤5、判断收敛，设置最大迭代次数和收敛域值，迭代次数或矩阵变化量达到最大值判断矩阵收敛，迭代次数或矩阵变化量未达到最大值判断矩阵不收敛，则执行步骤5操作；

步骤6、输出数据聚类结果，将每个数据点的隶属度值与聚类中心进行比较，划分至相应类别，并输出结果。

作为本发明进一步的技术方案，所述改进式FCM聚类算法通过对数值型数据和非数值型数据分别进行聚类提高聚类结果的可靠性，预处理后的原始采集数据点的集合为，n为预处理后的原始采集数据点的个数，/>为第j个数据向量，1≤j≤n，每个数据点有一组特征组成，数据点/>的特征集合为：

（1）

在公式（1）中，为第j个数据向量/>的第m个特征值，/>为第j个数据向量/>的第m个非数值型特征值，/>为第j个数据向量/>的第m个数值型特征值，/>为第j个数据向量/>的第/>个非数值型特征值，/>为第j个数据向量/>的第/>个数值型特征值，m表示数据向量特征的序数，c代表数据向量的非数值型特征，r代表数据向量的数值型特征，为非数值型特征的总数，/>数值型特征的总数，1≤m≤/>且1≤m≤/>；

预处理后的原始采集数据点分为k类，则数据点类中心矩阵为V=,数据点类中心矩阵的大小为(/>)×k，k为数据点类中心的列数，/>为第i列的类中心，1≤i≤k，i为数据点类中心的序数，数据点/>非数值型特征和数值型特征隶属于第i个类中心/>的隶属度为：

(2)

在公式（2）中，为数据点/>的非数值型特征隶属于第i个类中心/>的隶属度，为数据点/>的数值型特征隶属于第i个类中心/>的隶属度，/>为数据点/>的非数值型特征的轮廓系数，/>为数据点/>的数值型特征的轮廓系数，/>为第m行的类中心，/>为隶属度的程度，g=2；数据点/>隶属于第i个类中心/>的隶属度为：

（3）

在公式（3）中，为数据点/>隶属于第i个类中心/>的隶属度；根据当前隶属度对中心点矩阵进行更新：

（4）

在公式（4）中，为更新后的第i列的类中心。

作为本发明进一步的技术方案，所述步骤三中的数据融合的策略包括：

平均值融合，用于数据分布均匀情况，将同一类型的原始数据进行平均化处理，生成平均值作为新的融合数据，以保持原始数据的总体特征；

最大值融合，用于关注数据中的峰值或最高值情况，将同一类型原始数据中的最大值作为融合数据；

最小值融合，用于关注数据中的最低值或最小值情况，将同一类型的原始数据中的最小值作为融合数据；

中位数融合，用于数据分布不均匀情况，将同一类型的原始数据进行排序，取中间值作为新的融合数据，以抵抗异常数据的干扰；

加权平均值融合，用于不同采集数据的质量和重要程度不同的情况，对不同采集数据赋予权重，并进行平均化处理得到融合数据。

作为本发明进一步的技术方案，所述步骤四中的采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代的步骤包括：

S1、基于初始数据集D对改进式FCM聚类算法模型进行训练，得到初始聚类中心和隶属度矩阵参数；

S2、设置时间窗口的大小为T，将新增数据点X添加到时间窗口内的数据集D中，新增数据点X的大小为T，并对新增数据点进行聚类，得到新增数据点的隶属度向量；

S3、采用增量计算方式更新原聚类中心和隶属度矩阵参数，以适应新增数据点，所述增量计算方式的计算对象为新增数据点X；

S4、根据时间窗口内的数据集D对聚类模型进行实时更新迭代，满足最大迭代次数、误差下降阈值或聚类中心变化量，则直接输出最终聚类结果，不满足最大迭代次数、误差下降阈值或聚类中心变化量，则执行S2操作；

S5、输出最终的聚类结果和更新后的模型参数，并继续加入新的数据点进行聚类迭代。

作为本发明进一步的技术方案，所述数据可视化工具Tableau基于关联性数据模型获取海量数据源关联数据，以实现多维度数据关联分析，并采用交互式图表、热点图、地图和仪表板实现数据的趋势、关系及变化规律的实时监控，数据可视化工具Tableau采用Token用户身份验证机制验证访问用户的身份，以提高信息访问的安全性。

积极有益效果：

本发明公开了一种基于FCM聚类算法模型的数据实时高效融合处理方法，通过多源数据采集、实时分类和数据融合过程，实现了对大规模数据的高效处理和快速响应，具有实时性、高效性和可拓展性，适用于多种场景的数据应用和应急响应；采用实时流处理引擎工具构建改进式FCM聚类算法模型，提高了聚类分析的效率和响应速度；基于数据分类结果进行同类型原始采集数据融合，增强了数据融合的准确性和可靠性；采用大数据处理引擎Apache Spark进行实时新增数据迭代计算，实现了实时更新改进式FCM聚类算法模型，提高了聚类分析速度和效率；采用GPU服务器和并行计算方式对数据融合结果进行处理和应用，提高了数据处理和应用的效率和速度；通过数据可视化工具Tableau对聚类结果进行可视化，提高了数据分析的易用性和效果；自动化、智能化程度高；自动化、智能化程度高。

附图说明

图1为本发明一种基于FCM聚类算法模型的数据实时高效融合处理方法的整体流程示意图；

图2为本发明一种基于FCM聚类算法模型的数据实时高效融合处理方法中实时流处理引擎工具的工作原理图；

图3为本发明一种基于FCM聚类算法模型的数据实时高效融合处理方法中改进式FCM聚类算法模型的模型架构示意图；

图4为本发明一种基于FCM聚类算法模型的数据实时高效融合处理方法中分布式处理的电路示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在具体实施例中，该基于FCM聚类算法模型的数据实时高效融合处理方法的主要特点是采用改进式FCM聚类算法模型来完成数据分类，并通过实时流处理引擎工具来提高聚类分析的效率和响应速度，同时利用大数据处理引擎Apache Spark来实现实时更新迭代计算，从而加快聚类分析速度和效率。

此外，该方法还包括针对不同数据源采集的无线传感器网络、抓取工具和访问接口等实时多源原始数据采集和预处理步骤，以及采用数据可视化工具Tableau对聚类结果进行可视化，以便更好地展示和理解数据之间的关系和趋势。最后，通过GPU服务器和并行计算方式对数据融合结果进行数据挖掘、预测分析和优化决策，进一步提高数据的应用价值。

综上，该方法在实现数据实时高效融合处理的同时，还能够充分利用不同的计算工具和技术手段，实现更加准确和智能的数据分类和分析，帮助用户更好地理解和应用数据。

在上述实施例中，所述实时流处理引擎工具采用数据缓存机制将预处理后的原始采集数据缓存至内存或磁盘等待处理，以降低数据处理延迟和减少数据读取次数，并采用并发处理机制并行处理大规模实时数据，所述并发处理机制通过数据的哈希值将大规模采集数据分为数据流，并采用负载均衡算法将数据流分发至处理节点，所述实时流处理引擎工具采用多核CPU处理器进行数据处理，提高处理效率和吞吐量。

在具体实施例中，实时流处理引擎工具首先从数据源中接收输入数据，并根据数据模型分为有界数据流和无界数据流，有界数据流会被分割成多个数据块然后进行处理，无界数据流的数据则是不断产生的。在接收到数据之后，实时流处理引擎工具对数据进行转换，处理数据的方式根据任务的不同而不同，例如可以对数据进行过滤、转换、聚合等操作，这可以通过函数式API来完成。实时流处理引擎工具接下来会将数据分布到多个物理节点，然后在每个节点上计算和处理任务，计算过程中可以使用流式查询、窗口操作、状态存储或机器学习等处理方法，执行结果可以缓存在内存或外存中。最后，实时流处理引擎工具将计算结果输出到外部存储或其他应用程序中，例如输出到数据库、消息队列、消息服务器、文件系统或Web服务中。

实时流处理引擎工具的运行架构由多个组件组成，包括JobManager、TaskManager、Client、Sink、Source、Operator、Partition等，每个组件都有不同的功能和作用，例如JobManager负责协调任务的执行和管理TaskManagers，而TaskManager则负责在物理节点上执行任务。这些组件可以灵活地组合使用，以满足不同的实时计算需求。总之，实时流处理引擎工具的工作原理是基于数据流和分布式计算的模型，将任务分解成多个小任务在不同的节点上执行，处理数据时通过函数式API完成，最终将结。

在上述实施例中，所述改进式FCM聚类算法模型的工作步骤包括：

在具体实施例中，改进式FCM聚类算法模型基于传统的FCM聚类算法模型进行优化改进，增加了分割指标法、轮廓系数和权重因子，提高了聚类的可靠性和准确性。

其中，分割指标法和轮廓系数用于确定最优聚类数，避免了人为主观决定聚类数的不足。自适应聚类中心算法则是为了自动选择最佳初始聚类中心点，避免了算法陷入局部最优情况的问题。

改进式FCM聚类算法通过添加数据点的权重因子来增强网络数据点在聚类过程中的清晰度，同时采用了先验领域信息实现样本初始分类，并对矩阵进行赋权，从而提高聚类结果的准确性和可靠性。算法还采用了迭代优化法与自适应学习率法相结合，使得算法具有较快的收敛速度和较好的稳定性。

最终，算法将每个数据点的隶属度值与聚类中心进行比较，划分至相应的类别，输出聚类结果。通过以上改进和优化，该算法在处理数值型数据和非数值型数据聚类方面具有较好的应用效果和实用价值。

改进式FCM聚类算法模型自动确定最优聚类数，避免了人为主观性和聚类不准确性；引入数据点权重因子，增强网络数据点在聚类过程中的清晰度，提高聚类效果和准确性；采用先验领域信息实现样本初始分类，减少初始分类的随机性，提高聚类效果和鲁棒性；采用软加权平均法计算聚类中心，减少异常点的影响，提高聚类效果和稳健性；自适应聚类中心点算法自动选择最佳初始聚类中心点，避免了局部最优情况，提高聚类效果和准确性。

总之，改进式FCM聚类算法模型是一种有效的数据聚类分析方法，具有较高的聚类准确性、鲁棒性和稳健性，可广泛应用于各种数据挖掘和机器学习场景。利用matlab2018a对数据进行仿真，分别采用本算法模型和对比算法模型A、B进行实验，效果如表1所示。

表1改进式FCM聚类算法模型处理效果统计

如表1所示，利用matlab2018a对数据进行仿真，分别采用本算法模型和对比算法模型A、B进行实验，实验内容分别为20min内处理相似复杂程度数据对比处理信息总量和处理8100MB的相似复杂程度数据对比处理时间，并对本算法模型和对比算法模型A、B处理准确度进行统计，分别将实验结果记录在表1内，对比发现改进式FCM聚类算法模型的处理数据总量、处理速度和处理准确度远大于比算法模型A、B，证明经过改进和优化，本算法在处理数据聚类方面具有较好的应用效果和实用价值。

在上述实施例中，所述改进式FCM聚类算法通过对数值型数据和非数值型数据分别进行聚类提高聚类结果的可靠性，预处理后的原始采集数据点的集合为

;

n为预处理后的原始采集数据点的个数，为第j个数据向量，1≤j≤n，每个数据点有一组特征组成，数据点/>的特征集合为：

（1）

（2）

（3）

（4）

在公式（4）中，为更新后的第i列的类中心。

在具体实施例中，改进式FCM聚类算法是基于传统的FCM聚类算法模型进行优化改进的，增加了分割指标法和轮廓系数来确定最优聚类数，自适应聚类中心算法来选择最佳初始聚类中心点，权重因子来增强网络数据点在聚类过程中的清晰度，先验领域信息实现样本初始分类，并对矩阵进行赋权，迭代优化法与自适应学习率法相结合等参数和步骤，以提高聚类的可靠性和准确性。

该算法可以提高聚类结果的准确性和可靠性，特别是针对非数值型数据和数值型数据分别进行聚类，可以更好地解决不同类型数据的聚类问题。使用分割指标法和轮廓系数能够自动确定最优聚类数，避免了手动选择聚类数的主观性，提高了聚类结果的可靠性。使用自适应聚类中心算法选择最佳初始聚类中心点，可以避免算法陷入局部最优情况的问题，提高了聚类结果的准确性。

使用权重因子可以增强网络数据点在聚类过程中的清晰度，更好地描述数据点之间的相似性和差异性。使用先验领域信息实现样本初始分类，并对矩阵进行赋权，可以提高聚类结果的准确性和可靠性。使用迭代优化法与自适应学习率法相结合，可以使得算法具有较快的收敛速度和较好的稳定性。

总之，以上算法通过优化和改进提高了传统的FCM聚类算法模型，在处理数值型数据和非数值型数据聚类方面具有较好的应用效果和实用价值。

为了验证改进式FCM聚类算法的数据分析能力，将该研究的收敛速度与模型1（模糊C均值FCM聚类算法）和模型2（K-MEANS算法）进行对比，使用三种算法处理液冷系统数据中心的故障数据样本，时延结果如表2所示，其中样本1-4为数值型数据，样本5-10为非数值型数据。

表2数据分析时间

通过试验对比表可以看出，采用模型1中技术进行分析液冷数据中心设备数据时，平均时间大于50秒，采用模型2中技术进行分析液冷数据中心设备数据时，平均时间大于50秒，而采用本算法模型进行数据分析时，采用的平均时间在2秒左右。并且，因此，模型1和模型2在处理非数值型数据是用时更长，因此，通过优化和改进提高了传统的FCM聚类算法模型，在处理数值型数据和非数值型数据聚类方面具有较好的应用效果和实用价值。

在上述实施例中，所述步骤三中的数据融合的策略包括：

在具体实施例中，数据融合是将来自不同源头或多个传感器的相似或相关数据进行整合的过程。在数据分类结果已知的情况下，使用独热编码、二进制编码等方式进行特征向量表示，以便于后续的汇总和融合。将同一分类结果下的不同原始采集数据按照一定规则进行汇总和融合。可以采用简单加权平均、多目标决策等方式进行数据融合。其中，加权平均可以根据特征重要性赋予不同权重，多目标决策可以根据不同目标设定权重，并将多个目标综合起来作为数据融合的依据。对数据融合的结果进行模型评价，可以采用均方误差、相关系数等指标进行评价，以得到数据融合的效果。对数据融合结果进行反馈和升级，可以针对评价结果进行模型修正和优化，进一步提高数据融合的准确性、可靠性和稳定性。

在上述实施例中，所述步骤四中的采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代的步骤包括：

在具体实施例中，增量计算方式和时间窗口机制是对改进式FCM聚类算法模型进行实时更新迭代的两种方法，可以有效提高聚类分析速度和效率。

当新数据到达时，增量计算方式只需更新该数据所属的簇的中心向量，而不是重新对所有数据进行聚类。具体而言，可以先计算新数据点与各个簇中心的距离，然后将其划分到距离最近的簇中，最后更新该簇的中心向量。时间窗口机制将数据集分割成多个时间窗口，在每个时间窗口内进行聚类分析。具体而言，可以将数据分类为最近的若干个时间段，并对每个时间段内的数据进行聚类分析。这样可以降低每次聚类所需处理的数据量，提高聚类分析速度和效率。将这两种方法结合起来，在时间窗口内采用增量计算方式对数据进行实时更新，可以更好地适应大规模数据实时分析的场景。在每个时间窗口内，只需进行增量计算，避免了对所有数据重新聚类的计算量，减少了计算时间。同时，时间窗口机制可以把数据分成若干个时间段，提高了聚类的准确性和可靠性。

总之，采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代，不仅可以提高聚类分析速度和效率，还可以保证聚类结果的准确性和可靠性，适用于大规模实时数据的分析和处理。效果如下：

利用matlab2018a对数据进行仿真，按4：1的比例对正常流量数据和异常流量数据进行分别抽样，随机抽取一万条记录进行数据清洗和规范化，并通过数据规约对数据进行降维采样，尽量保持原有数据集的有关特性，减少需要处理的数据量，将改进式FCM聚类算法与传统FCM算法进行新增数据处理性能比较，设置权重指数为2。分别对数据样本进行聚类，聚类效果如表3所示：

表3聚类效果对比

通过理论分析和实验发现，改进式FCM聚类算法新增数据的响应速度比传统FCM算法快，且准确率高于传统FCM算法，对数据集抑制5%的噪声，在模拟实验环境下，基于改进FCM算法具有聚类速度较快，分类好的特点，算法鲁棒性较好，能正确、及时响应新增数据。

在上述实施例中，所述数据可视化工具Tableau基于关联性数据模型获取海量数据源关联数据，以实现多维度数据关联分析，并采用交互式图表、热点图、地图和仪表板实现数据的趋势、关系及变化规律的实时监控，数据可视化工具Tableau采用Token用户身份验证机制验证访问用户的身份，以提高信息访问的安全性。

在具体实施例中，通过Tableau对聚类结果进行可视化，可以帮助用户更直观地理解数据的分类和聚类结果。将聚类结果导出为CSV或Excel格式的文件，然后在Tableau中导入数据。在导入数据时，请确保选择正确的数据源类型和正确的文件路径。选择相应的数据维度和度量，创建可视化图表。例如，可以使用散点图或条形图对聚类结果进行可视化。使用颜色编码对不同类别的数据进行区分和显示。可以通过在图表中添加颜色编码图例来解释颜色的含义。在可视化图表中添加滤镜和交互控件，用户可以根据不同需求进行数据筛选和交互分析。例如，可以添加下拉菜单、滚动条等控件。将可视化图表和交互控件组合在一起，创建数据仪表板。在数据仪表板中可以同时展示不同图表和数据维度，增强数据分析和决策的效率和准确性。通过以上步骤，可以在Tableau中快速地对聚类结果进行可视化分析，帮助用户更好地理解数据背后的规律和关系。

虽然以上描述了本发明的具体实施方式，但是本领域的技术人员应当理解，这些具体实施方式仅是举例说明，本领域的技术人员在不脱离本发明的原理和实质的情况下，可以对上述方法和系统的细节进行各种省略、替换和改变。例如，合并上述方法步骤，从而按照实质相同的方法执行实质相同的功能以实现实质相同的结果则属于本发明的范围。因此，本发明的范围仅由所附权利要求书限定。

Claims

1.一种基于FCM聚类算法模型的数据实时高效融合处理方法，其特征在于：包括以下步骤：

步骤四、实时更新改进式FCM聚类算法模型，所述改进式FCM聚类算法模型通过大数据处理引擎Apache Spark进行实时新增数据迭代计算，所述大数据处理引擎Apache Spark采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代，以提高聚类分析速度和效率；

步骤六、对数据融合结果进行处理与应用，采用GPU服务器和并行计算方式对数据融合结果进行数据挖掘、预测分析和优化决策；

所述改进式FCM聚类算法通过对数值型数据和非数值型数据分别进行聚类提高聚类结果的可靠性，预处理后的原始采集数据点的集合为X＝{x₁,x₂,...,x_j,...,x_n}，n为预处理后的原始采集数据点的个数，x_j为第j个数据向量，1≤j≤n，每个数据点有一组特征组成，数据点x_j的特征集合为：

在公式(1)中，x_j,m为第j个数据向量x_j的第m个特征值，为第j个数据向量x_j的第m个非数值型特征值，/>为第j个数据向量x_j的第m个数值型特征值，/>为第j个数据向量x_j的第m_c个非数值型特征值，/>为第j个数据向量x_j的第m_r个数值型特征值，m表示数据向量特征的序数，c代表数据向量的非数值型特征，r代表数据向量的数值型特征，m_c为非数值型特征的总数，m_r数值型特征的总数，

1≤m≤m_c且1≤m≤m_r；

预处理后的原始采集数据点分为k类，则数据点类中心矩阵为V＝{v₁,v₂,...,v_i,...,v_k}，数据点类中心矩阵的大小为(m_c+m_r)×k，k为数据点类中心的列数，v_i为第i列的类中心，1≤i≤k，i为数据点类中心的序数，数据点x_j非数值型特征和数值型特征隶属于第i个类中心v_i的隶属度为：

在公式(2)中，为数据点x_j的非数值型特征隶属于第i个类中心v_i的隶属度，/>为数据点x_j的数值型特征隶属于第i个类中心v_i的隶属度，S^c为数据点x_j的非数值型特征的轮廓系数，S^r为数据点x_j的数值型特征的轮廓系数，v_m为第m行的类中心，g为隶属度的程度，g＝2；数据点x_j隶属于第i个类中心v_i的隶属度为：/>

在公式(3)中，U_ji为数据点x_j隶属于第i个类中心v_i的隶属度；根据当前隶属度对中心点矩阵进行更新：

在公式(4)中，v_i'为更新后的第i列的类中心。

2.根据权利要求1所述的一种基于FCM聚类算法模型的数据实时高效融合处理方法，其特征在于：所述实时流处理引擎工具采用数据缓存机制将预处理后的原始采集数据缓存至内存或磁盘等待处理，以降低数据处理延迟和减少数据读取次数，并采用并发处理机制并行处理大规模实时数据，所述并发处理机制通过数据的哈希值将大规模采集数据分为数据流，并采用负载均衡算法将数据流分发至处理节点，所述实时流处理引擎工具采用多核CPU处理器进行数据处理，提高处理效率和吞吐量。

3.根据权利要求1所述的一种基于FCM聚类算法模型的数据实时高效融合处理方法，其特征在于：所述步骤三中的数据融合的策略包括：

(1)平均值融合，用于数据分布均匀情况，将同一类型的原始数据进行平均化处理，生成平均值作为新的融合数据，以保持原始数据的总体特征；

(2)最大值融合，用于关注数据中的峰值或最高值情况，将同一类型原始数据中的最大值作为融合数据；

(3)最小值融合，用于关注数据中的最低值或最小值情况，将同一类型的原始数据中的最小值作为融合数据；

(4)中位数融合，用于数据分布不均匀情况，将同一类型的原始数据进行排序，取中间值作为新的融合数据，以抵抗异常数据的干扰；

(5)加权平均值融合，用于不同采集数据的质量和重要程度不同的情况，对不同采集数据赋予权重，并进行平均化处理得到融合数据。

4.根据权利要求1所述的一种基于FCM聚类算法模型的数据实时高效融合处理方法，其特征在于：所述步骤四中的采用增量计算方式和时间窗口机制对改进式FCM聚类算法模型进行实时更新迭代的步骤包括：

5.根据权利要求1所述的一种基于FCM聚类算法模型的数据实时高效融合处理方法，其特征在于：所述数据可视化工具Tableau基于关联性数据模型获取海量数据源关联数据，以实现多维度数据关联分析，并采用交互式图表、热点图、地图和仪表板实现数据的趋势、关系及变化规律的实时监控，数据可视化工具Tableau采用Token用户身份验证机制验证访问用户的身份，以提高信息访问的安全性。