CN110990498A

CN110990498A - 一种基于fcm算法的数据融合方法

Info

Publication number: CN110990498A
Application number: CN202010141304.5A
Authority: CN
Inventors: 汪继锋; 颜炎; 韦昆
Original assignee: Hangzhou Sunyard Digital Science Co ltd
Current assignee: Hangzhou Sunyard Digital Science Co ltd
Priority date: 2020-03-04
Filing date: 2020-03-04
Publication date: 2020-04-10

Abstract

一种基于FCM算法的数据融合方法，包括以下步骤：S1：收集异质多源跨界大数据的原始数据集；S2：对收集到的所述原始数据集进行数据预处理；S3：对预处理后的数据进行数据降维；S4：对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字；S5：通过TF‑IDF技术计算出特征关键字权重和不同特征关键字之间的相似度，构建权重和相似度矩阵；S6：对相似度高且权重大的数据进行优先融合。本发明不仅实现了多源异构高维数据的有效融合，解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题，还提升了企业对数据的有效利用率和用户满意度。

Description

一种基于FCM算法的数据融合方法

技术领域

本发明涉及数据处理领域，具体涉及一种基于FCM算法的数据融合方法。

背景技术

随着大数据时代来临，在用户留下大量结构类型复杂的数据中，企业能获得到的数据量是庞大且冗余的，这使得企业无法针对用户偏好给予个性化服务。因此，当不同的分析技术融合在一起进行综合的数据融合分析时，融合的关键是将这些信息来源结合在一起，以提供多维大数据的联合分析。

目前，数据融合技术按融合水平依次从低到高主要分为：基于像元（pixel）级的融合、基于特征(feature)级的融合和基于决策(decision)级的融合。然而，目前涉及到复杂结构数据的综合融合方法较少，尤其是针对数据类型复杂、数据特征众多的高维数据集。为了有效的对高维大数据进行融合，融合方法既要保证准确率高，又要保证对数据的有效利用。

在专利名称为：“一种多特征及多方位数据融合鱼类识别方法”（申请号：201510054151X；申请公布日：2015.06.17）中公开了一种声学鱼类识别领域，具体涉及一种多特征及多方位数据融合鱼类识别方法。本发明包括：向水下发射声信号，获得鱼体多方位声散射信号；对获得的多方位声散射信号进行归一化、滤波处理；对预处理后的信号进行多特征提取：对预处理后的多方位声散射数据进行正交变换，提取包络，对包络信息提取小波包系数奇异值特征、时域质心特征、频域质心特征，进行特征融合及降维处理。多方位数据获取方法简单，易于实现；基于上述提取的多特征，本发明将多方位声散射特征进行协作融合，融合程度高且紧密，能有效解决只单方位声散射信息进行分类时识别不清、甚至不能正确识别的问题。

上述专利中提到了数据融合的一种方法，但仍旧存在由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。

发明内容

本发明提供了一种基于FCM算法的数据融合方法，确保能够有效地解决由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。

本发明的技术方案如下所示：

一种基于FCM算法的数据融合方法，包括以下步骤：

S1：收集异质多源跨界大数据的原始数据集；

S2：对收集到的所述原始数据集进行数据预处理；

S3：对预处理后的数据进行数据降维；

S4：对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字；

S5：通过TF-IDF技术计算出特征关键字权重和不同特征关键字之间的相似度，构建权重和相似度矩阵；

S6：对相似度高且权重大的数据进行优先融合。

优选的，步骤S1中所述原始数据集包括系统内部数据、互联网数据和相关领域监管部门的外部数据。

优选的，步骤S3中所述数据降维的具体步骤为：对于维度小于3的数据利用t-SNE算法直接降维；对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维，使其降到2维，再对第一次降维后的数据采用t-SNE算法进行第二次降维。

优选的，步骤S4中所述特征关键字的提取步骤具体为：

S4.1：指定聚类类别数

，N是降维后的数据个数，

用于指定迭代阈值，初始化聚类中心

，设置初始迭代指数k=1；

S4.2：计算第k次迭代的模糊划分矩阵；

S4.3：对数据进行排序，获取置换函数，使函数满足：

，其中D函数表示欧式距离；如

就是

与

之间的欧氏距离，等于

；

S4.4：计算

，统一权重，其中

是指进行置换操作之后的聚类中心权重；

S4.5：对

进行排序，取

作为本次模糊聚类时聚类中心点的最小参数，用于后续步骤的计算；

S4.6：若

，则返回步骤S4.2并使k自加1，直至

或迭代指数k达到50，得到最终提取的特征关键字。

优选的，步骤S4.2中所述的模糊划分矩阵的计算公式为：

，其中D函数表示欧式距离，N是降维后的数据个数，m是加权指数，

。

更优选的，步骤S4.4中所述的的计算公式为：

，其中N是降维后的数据个数，

表示第j个数据。

本发明的有益效果为：本发明中利用机器学习中的t-SNE降维、模糊聚类、特征提取和TF-IDF算法，针对高维数据采取先降维再利用FCM算法提取特征的分析策略，不仅实现了多源异构高维数据的有效融合，解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题，还提升了企业对数据的有效利用率和用户满意度。

附图说明

图1为本发明中数据融合方法的流程图。

具体实施方式

下面将结合附图对本发明中的实施例做详细的说明。

一种基于FCM算法的数据融合方法，如图1所示，包括以下步骤：

S1：收集异质多源跨界大数据的历史数据，包括系统内部数据、互联网数据和相关领域监管部门的外部数据三大方面。

S2：对上述数据进行预处理。

S3：判断预处理后的数据是否小于3维，对于维度小于3的数据利用t-SNE算法直接降维；对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维，使其降到2维，再对第一次降维后的数据采用t-SNE算法进行第二次降维。

S4：对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字，具体包括：

（1）指定聚类类别数

，N是降维后的数据个数，

用于指定迭代阈值，初始化聚类中心

，设置初始迭代指数k=1；（2）计算第k次迭代的模糊划分矩阵，计算公式为：

，其中D函数表示欧式距离，

表示第

个数据，N是降维后的数据个数，m是加权指数，

，本实施例中取m=2；（3）对数据进行排序，获取置换函数

，使函数满足：

，其中

是原始的数据，

是进行置换操作之后的数据，例如：{0，1，2}置换后有012，021，102，120，201，210这几种情况，那么对于置换012对应的

；（4）计算

，统一权重，其中

是指进行置换操作之后的聚类中心权重，计算公式为：

，其中N是降维后的数据个数，

表示第j个数据；（5）对

进行排序，取

作为本次模糊聚类时聚类中心点的最小参数，用于后续步骤的计算；（6）若

，本实施例中取

，则返回步骤（2）并使k自加1，直至

或迭代指数k达到50，得到最终提取的特征关键字。

S5：通过TF-IDF技术计算出特征关键字权重和不同关键字之间的相似度，构建权重和相似度矩阵。

S6：对相似度高且权重大的数据进行优先融合，具体为：通过TF-IDF技术可以计算出不同关键字之间的相似度，选取出相似度高的关键字优先进行特征提取，提取的特征信息应尽量体现原始信息，然后根据数据融合目的与要求构建特征矢量，利用典型的基于特征级融合方法融合这些特征矢量，即优先融合。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进，或者对其中部分技术特征进行等同替换，这些改进和替换也应视为本发明的保护范围。