CN110990498A - 一种基于fcm算法的数据融合方法 - Google Patents

一种基于fcm算法的数据融合方法 Download PDF

Info

Publication number
CN110990498A
CN110990498A CN202010141304.5A CN202010141304A CN110990498A CN 110990498 A CN110990498 A CN 110990498A CN 202010141304 A CN202010141304 A CN 202010141304A CN 110990498 A CN110990498 A CN 110990498A
Authority
CN
China
Prior art keywords
data
algorithm
fcm algorithm
dimensionality
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010141304.5A
Other languages
English (en)
Inventor
汪继锋
颜炎
韦昆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Sunyard Digital Science Co ltd
Original Assignee
Hangzhou Sunyard Digital Science Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Sunyard Digital Science Co ltd filed Critical Hangzhou Sunyard Digital Science Co ltd
Priority to CN202010141304.5A priority Critical patent/CN110990498A/zh
Publication of CN110990498A publication Critical patent/CN110990498A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于FCM算法的数据融合方法,包括以下步骤:S1:收集异质多源跨界大数据的原始数据集;S2:对收集到的所述原始数据集进行数据预处理;S3:对预处理后的数据进行数据降维;S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;S5:通过TF‑IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;S6:对相似度高且权重大的数据进行优先融合。本发明不仅实现了多源异构高维数据的有效融合,解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题,还提升了企业对数据的有效利用率和用户满意度。

Description

一种基于FCM算法的数据融合方法
技术领域
本发明涉及数据处理领域,具体涉及一种基于FCM算法的数据融合方法。
背景技术
随着大数据时代来临,在用户留下大量结构类型复杂的数据中,企业能获得到的数据量是庞大且冗余的,这使得企业无法针对用户偏好给予个性化服务。因此,当不同的分析技术融合在一起进行综合的数据融合分析时,融合的关键是将这些信息来源结合在一起,以提供多维大数据的联合分析。
目前,数据融合技术按融合水平依次从低到高主要分为:基于像元(pixel)级的融合、基于特征(feature)级的融合和基于决策(decision)级的融合。然而,目前涉及到复杂结构数据的综合融合方法较少,尤其是针对数据类型复杂、数据特征众多的高维数据集。为了有效的对高维大数据进行融合,融合方法既要保证准确率高,又要保证对数据的有效利用。
在专利名称为:“一种多特征及多方位数据融合鱼类识别方法”(申请号:201510054151X;申请公布日:2015.06.17)中公开了一种声学鱼类识别领域,具体涉及一种多特征及多方位数据融合鱼类识别方法。本发明包括:向水下发射声信号,获得鱼体多方位声散射信号;对获得的多方位声散射信号进行归一化、滤波处理;对预处理后的信号进行多特征提取:对预处理后的多方位声散射数据进行正交变换,提取包络,对包络信息提取小波包系数奇异值特征、时域质心特征、频域质心特征,进行特征融合及降维处理。多方位数据获取方法简单,易于实现;基于上述提取的多特征,本发明将多方位声散射特征进行协作融合,融合程度高且紧密,能有效解决只单方位声散射信息进行分类时识别不清、甚至不能正确识别的问题。
上述专利中提到了数据融合的一种方法,但仍旧存在由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。
发明内容
本发明提供了一种基于FCM算法的数据融合方法,确保能够有效地解决由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。
本发明的技术方案如下所示:
一种基于FCM算法的数据融合方法,包括以下步骤:
S1:收集异质多源跨界大数据的原始数据集;
S2:对收集到的所述原始数据集进行数据预处理;
S3:对预处理后的数据进行数据降维;
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;
S5:通过TF-IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;
S6:对相似度高且权重大的数据进行优先融合。
优选的,步骤S1中所述原始数据集包括系统内部数据、互联网数据和相关领域监管部门的外部数据。
优选的,步骤S3中所述数据降维的具体步骤为:对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
优选的,步骤S4中所述特征关键字的提取步骤具体为:
S4.1:指定聚类类别数
Figure 749014DEST_PATH_IMAGE001
,N是降维后的数据个数,
Figure 763238DEST_PATH_IMAGE002
用于指定迭代阈值,初始化聚类中心
Figure 346666DEST_PATH_IMAGE003
,设置初始迭代指数k=1;
S4.2:计算第k次迭代的模糊划分矩阵;
S4.3:对数据进行排序,获取置换函数,使函数满足:
Figure 596382DEST_PATH_IMAGE004
,其中D函数表示欧式距离;如
Figure 457021DEST_PATH_IMAGE005
就是
Figure 766780DEST_PATH_IMAGE006
Figure 837504DEST_PATH_IMAGE007
之间的欧氏距离,等于
Figure 766277DEST_PATH_IMAGE008
S4.4:计算
Figure 606057DEST_PATH_IMAGE009
,统一权重,其中
Figure 86717DEST_PATH_IMAGE009
是指进行置换操作之后的聚类中心权重;
S4.5:对
Figure 613777DEST_PATH_IMAGE009
进行排序,取
Figure 470875DEST_PATH_IMAGE010
作为本次模糊聚类时聚类中心点的最小参数,用于后续步骤的计算;
S4.6:若
Figure 40528DEST_PATH_IMAGE011
,则返回步骤S4.2并使k自加1,直至
Figure 567455DEST_PATH_IMAGE012
或迭代指数k达到50,得到最终提取的特征关键字。
优选的,步骤S4.2中所述的模糊划分矩阵的计算公式为:
Figure 612771DEST_PATH_IMAGE013
,其中D函数表示欧式距离,N是降维后的数据个数,m是加权指数,
Figure 7981DEST_PATH_IMAGE014
更优选的,步骤S4.4中所述的的计算公式为:
Figure 432140DEST_PATH_IMAGE015
,其中N是降维后的数据个数,
Figure 520182DEST_PATH_IMAGE016
表示第j个数据。
本发明的有益效果为:本发明中利用机器学习中的t-SNE降维、模糊聚类、特征提取和TF-IDF算法,针对高维数据采取先降维再利用FCM算法提取特征的分析策略,不仅实现了多源异构高维数据的有效融合,解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题,还提升了企业对数据的有效利用率和用户满意度。
附图说明
图1为本发明中数据融合方法的流程图。
具体实施方式
下面将结合附图对本发明中的实施例做详细的说明。
一种基于FCM算法的数据融合方法,如图1所示,包括以下步骤:
S1:收集异质多源跨界大数据的历史数据,包括系统内部数据、互联网数据和相关领域监管部门的外部数据三大方面。
S2:对上述数据进行预处理。
S3:判断预处理后的数据是否小于3维,对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字,具体包括:
(1)指定聚类类别数
Figure 787215DEST_PATH_IMAGE001
,N是降维后的数据个数,
Figure 861481DEST_PATH_IMAGE002
用于指定迭代阈值,初始化聚类中心
Figure 140147DEST_PATH_IMAGE003
,设置初始迭代指数k=1;(2)计算第k次迭代的模糊划分矩阵,计算公式为:
Figure 274456DEST_PATH_IMAGE013
,其中D函数表示欧式距离,
Figure 28786DEST_PATH_IMAGE017
表示第
Figure 765797DEST_PATH_IMAGE018
个数据,N是降维后的数据个数,m是加权指数,
Figure 164549DEST_PATH_IMAGE014
,本实施例中取m=2;(3)对数据进行排序,获取置换函数
Figure 594393DEST_PATH_IMAGE019
,使函数满足:
Figure 445806DEST_PATH_IMAGE004
,其中
Figure 986508DEST_PATH_IMAGE020
是原始的数据,
Figure 629979DEST_PATH_IMAGE021
是进行置换操作之后的数据,例如:{0,1,2}置换后有012,021,102,120,201,210这几种情况,那么对于置换012对应的
Figure 840512DEST_PATH_IMAGE022
;(4)计算
Figure 444800DEST_PATH_IMAGE009
,统一权重,其中
Figure 523614DEST_PATH_IMAGE009
是指进行置换操作之后的聚类中心权重,计算公式为:
Figure 896958DEST_PATH_IMAGE015
,其中N是降维后的数据个数,
Figure 403026DEST_PATH_IMAGE016
表示第j个数据;(5)对
Figure 619243DEST_PATH_IMAGE009
进行排序,取
Figure 377115DEST_PATH_IMAGE010
作为本次模糊聚类时聚类中心点的最小参数,用于后续步骤的计算;(6)若
Figure 729599DEST_PATH_IMAGE011
,本实施例中取
Figure 672147DEST_PATH_IMAGE023
,则返回步骤(2)并使k自加1,直至
Figure 985448DEST_PATH_IMAGE012
或迭代指数k达到50,得到最终提取的特征关键字。
S5:通过TF-IDF技术计算出特征关键字权重和不同关键字之间的相似度,构建权重和相似度矩阵。
S6:对相似度高且权重大的数据进行优先融合,具体为:通过TF-IDF技术可以计算出不同关键字之间的相似度,选取出相似度高的关键字优先进行特征提取,提取的特征信息应尽量体现原始信息,然后根据数据融合目的与要求构建特征矢量,利用典型的基于特征级融合方法融合这些特征矢量,即优先融合。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,或者对其中部分技术特征进行等同替换,这些改进和替换也应视为本发明的保护范围。

Claims (6)

1.一种基于FCM算法的数据融合方法,其特征在于,包括以下步骤:
S1:收集异质多源跨界大数据的原始数据集;
S2:对收集到的所述原始数据集进行数据预处理;
S3:对预处理后的数据进行数据降维;
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;
S5:通过TF-IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;
S6:对相似度高且权重大的数据进行优先融合。
2.根据权利要求1所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S1中所述原始数据集包括系统内部数据、互联网数据和相关领域监管部门的外部数据。
3.根据权利要求1所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S3中所述数据降维的具体步骤为:对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
4.根据权利要求1所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S4中所述特征关键字的提取步骤具体为:
S4.1:指定聚类类别数
Figure 638218DEST_PATH_IMAGE001
,N是降维后的数据个数,
Figure 204329DEST_PATH_IMAGE002
用于指定迭代阈值;初始化聚类中心
Figure 381364DEST_PATH_IMAGE003
,设置初始迭代指数k=1;
S4.2:计算第k次迭代的模糊划分矩阵;
S4.3:对数据进行排序,获取置换函数,使函数满足:
Figure 741938DEST_PATH_IMAGE004
,其中D函数表示欧式距离;
S4.4:计算
Figure 4423DEST_PATH_IMAGE005
,统一权重,其中
Figure 374224DEST_PATH_IMAGE006
是指进行置换操作之后的聚类中心权重;
S4.5:对
Figure 140186DEST_PATH_IMAGE005
进行排序,取
Figure 812607DEST_PATH_IMAGE007
作为本次模糊聚类时聚类中心点的最小参数,用于后续步骤的计算;
S4.6:若
Figure 421443DEST_PATH_IMAGE008
,则返回步骤S4.2并使k自加1,直至
Figure 594935DEST_PATH_IMAGE009
或迭代指数k达到50,得到最终提取的特征关键字。
5.根据权利要求4所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S4.2中所述的模糊划分矩阵的计算公式为:
Figure 480983DEST_PATH_IMAGE010
,其中D函数表示欧式距离,N是降维后的数据个数,m是加权指数,
Figure 448939DEST_PATH_IMAGE011
6.根据权利要求5所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S4.4中所述的
Figure 420437DEST_PATH_IMAGE005
的计算公式为:
Figure 132041DEST_PATH_IMAGE012
,其中N是降维后的数据个数,
Figure DEST_PATH_IMAGE013
表示第j个数据。
CN202010141304.5A 2020-03-04 2020-03-04 一种基于fcm算法的数据融合方法 Pending CN110990498A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010141304.5A CN110990498A (zh) 2020-03-04 2020-03-04 一种基于fcm算法的数据融合方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010141304.5A CN110990498A (zh) 2020-03-04 2020-03-04 一种基于fcm算法的数据融合方法

Publications (1)

Publication Number Publication Date
CN110990498A true CN110990498A (zh) 2020-04-10

Family

ID=70081438

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010141304.5A Pending CN110990498A (zh) 2020-03-04 2020-03-04 一种基于fcm算法的数据融合方法

Country Status (1)

Country Link
CN (1) CN110990498A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN112633413A (zh) * 2021-01-06 2021-04-09 福建工程学院 基于改进pso-tsne特征选择的水下目标识别方法
CN112885080A (zh) * 2021-01-11 2021-06-01 重庆长安新能源汽车科技有限公司 一种新能源汽车的行驶工况构建方法
CN115329895A (zh) * 2022-09-06 2022-11-11 南昌大学 多源异构数据降噪分析处理方法
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647626A (zh) * 2019-07-30 2020-01-03 浙江工业大学 基于互联网服务域的rest数据服务聚类方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110647626A (zh) * 2019-07-30 2020-01-03 浙江工业大学 基于互联网服务域的rest数据服务聚类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
杨山 等: "基于语义空间的抽取式单文档摘要方法", 《厦门大学学报(自然科学版)》 *
赵泽雨: "基于稀疏约束的二维聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111984707A (zh) * 2020-08-21 2020-11-24 重庆大数据研究院有限公司 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法
CN112633413A (zh) * 2021-01-06 2021-04-09 福建工程学院 基于改进pso-tsne特征选择的水下目标识别方法
CN112633413B (zh) * 2021-01-06 2023-09-05 福建工程学院 基于改进pso-tsne特征选择的水下目标识别方法
CN112885080A (zh) * 2021-01-11 2021-06-01 重庆长安新能源汽车科技有限公司 一种新能源汽车的行驶工况构建方法
CN115396212A (zh) * 2022-08-26 2022-11-25 国科华盾(北京)科技有限公司 检测模型的训练方法、装置、计算机设备和存储介质
CN115329895A (zh) * 2022-09-06 2022-11-11 南昌大学 多源异构数据降噪分析处理方法

Similar Documents

Publication Publication Date Title
CN112308158B (zh) 一种基于部分特征对齐的多源领域自适应模型及方法
CN110990498A (zh) 一种基于fcm算法的数据融合方法
CN108960140B (zh) 基于多区域特征提取和融合的行人再识别方法
CN104933444B (zh) 一种面向多维属性数据的多层聚类融合机制的设计方法
CN112087447B (zh) 面向稀有攻击的网络入侵检测方法
CN110942091A (zh) 寻找可靠的异常数据中心的半监督少样本图像分类方法
CN112529638B (zh) 基于用户分类和深度学习的服务需求动态预测方法及系统
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
CN116863177A (zh) 一种面向通用多视图对象聚类的对象视图蒸馏方法
CN113850311A (zh) 一种基于分组和多样性增强的长尾分布图像识别方法
CN116318928A (zh) 一种基于数据增强和特征融合的恶意流量识别方法及系统
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
CN113378620B (zh) 监控视频噪声环境下跨摄像头行人重识别方法
CN111914912B (zh) 一种基于孪生条件对抗网络的跨域多视目标识别方法
CN116977725A (zh) 一种基于改进卷积神经网络的异常行为识别方法及装置
CN112200260B (zh) 一种基于丢弃损失函数的人物属性识别方法
JP2017162230A (ja) 情報処理装置、類似データ検索方法、及び類似データ検索プログラム
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及系统
CN113225300B (zh) 一种基于图像的大数据分析方法
CN116450781A (zh) 问答的处理方法及装置
CN114169433A (zh) 一种基于联邦学习+图学习+cnn的工业故障预测方法
CN116304110B (zh) 使用英语词汇数据构建知识图谱的工作方法
CN116306773B (zh) 一种可解释的神经网络高维数据降维分析系统
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200410

RJ01 Rejection of invention patent application after publication