CN110990498A - 一种基于fcm算法的数据融合方法 - Google Patents
一种基于fcm算法的数据融合方法 Download PDFInfo
- Publication number
- CN110990498A CN110990498A CN202010141304.5A CN202010141304A CN110990498A CN 110990498 A CN110990498 A CN 110990498A CN 202010141304 A CN202010141304 A CN 202010141304A CN 110990498 A CN110990498 A CN 110990498A
- Authority
- CN
- China
- Prior art keywords
- data
- algorithm
- fcm algorithm
- dimensionality
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于FCM算法的数据融合方法,包括以下步骤:S1:收集异质多源跨界大数据的原始数据集;S2:对收集到的所述原始数据集进行数据预处理;S3:对预处理后的数据进行数据降维;S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;S5:通过TF‑IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;S6:对相似度高且权重大的数据进行优先融合。本发明不仅实现了多源异构高维数据的有效融合,解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题,还提升了企业对数据的有效利用率和用户满意度。
Description
技术领域
本发明涉及数据处理领域,具体涉及一种基于FCM算法的数据融合方法。
背景技术
随着大数据时代来临,在用户留下大量结构类型复杂的数据中,企业能获得到的数据量是庞大且冗余的,这使得企业无法针对用户偏好给予个性化服务。因此,当不同的分析技术融合在一起进行综合的数据融合分析时,融合的关键是将这些信息来源结合在一起,以提供多维大数据的联合分析。
目前,数据融合技术按融合水平依次从低到高主要分为:基于像元(pixel)级的融合、基于特征(feature)级的融合和基于决策(decision)级的融合。然而,目前涉及到复杂结构数据的综合融合方法较少,尤其是针对数据类型复杂、数据特征众多的高维数据集。为了有效的对高维大数据进行融合,融合方法既要保证准确率高,又要保证对数据的有效利用。
在专利名称为:“一种多特征及多方位数据融合鱼类识别方法”(申请号:201510054151X;申请公布日:2015.06.17)中公开了一种声学鱼类识别领域,具体涉及一种多特征及多方位数据融合鱼类识别方法。本发明包括:向水下发射声信号,获得鱼体多方位声散射信号;对获得的多方位声散射信号进行归一化、滤波处理;对预处理后的信号进行多特征提取:对预处理后的多方位声散射数据进行正交变换,提取包络,对包络信息提取小波包系数奇异值特征、时域质心特征、频域质心特征,进行特征融合及降维处理。多方位数据获取方法简单,易于实现;基于上述提取的多特征,本发明将多方位声散射特征进行协作融合,融合程度高且紧密,能有效解决只单方位声散射信息进行分类时识别不清、甚至不能正确识别的问题。
上述专利中提到了数据融合的一种方法,但仍旧存在由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。
发明内容
本发明提供了一种基于FCM算法的数据融合方法,确保能够有效地解决由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题。
本发明的技术方案如下所示:
一种基于FCM算法的数据融合方法,包括以下步骤:
S1:收集异质多源跨界大数据的原始数据集;
S2:对收集到的所述原始数据集进行数据预处理;
S3:对预处理后的数据进行数据降维;
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;
S5:通过TF-IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;
S6:对相似度高且权重大的数据进行优先融合。
优选的,步骤S1中所述原始数据集包括系统内部数据、互联网数据和相关领域监管部门的外部数据。
优选的,步骤S3中所述数据降维的具体步骤为:对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
优选的,步骤S4中所述特征关键字的提取步骤具体为:
S4.2:计算第k次迭代的模糊划分矩阵;
本发明的有益效果为:本发明中利用机器学习中的t-SNE降维、模糊聚类、特征提取和TF-IDF算法,针对高维数据采取先降维再利用FCM算法提取特征的分析策略,不仅实现了多源异构高维数据的有效融合,解决了由数据类型复杂、数据特征众多的高维数据集造成的融合效率低下和用户特征获取准确率不足的问题,还提升了企业对数据的有效利用率和用户满意度。
附图说明
图1为本发明中数据融合方法的流程图。
具体实施方式
下面将结合附图对本发明中的实施例做详细的说明。
一种基于FCM算法的数据融合方法,如图1所示,包括以下步骤:
S1:收集异质多源跨界大数据的历史数据,包括系统内部数据、互联网数据和相关领域监管部门的外部数据三大方面。
S2:对上述数据进行预处理。
S3:判断预处理后的数据是否小于3维,对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字,具体包括:
(1)指定聚类类别数,N是降维后的数据个数,用于指定迭代阈值,初始化聚类中心,设置初始迭代指数k=1;(2)计算第k次迭代的模糊划分矩阵,计算公式为:,其中D函数表示欧式距离,表示第个数据,N是降维后的数据个数,m是加权指数,,本实施例中取m=2;(3)对数据进行排序,获取置换函数,使函数满足:,其中是原始的数据,是进行置换操作之后的数据,例如:{0,1,2}置换后有012,021,102,120,201,210这几种情况,那么对于置换012对应的;(4)计算,统一权重,其中是指进行置换操作之后的聚类中心权重,计算公式为:,其中N是降维后的数据个数,表示第j个数据;(5)对进行排序,取作为本次模糊聚类时聚类中心点的最小参数,用于后续步骤的计算;(6)若,本实施例中取,则返回步骤(2)并使k自加1,直至或迭代指数k达到50,得到最终提取的特征关键字。
S5:通过TF-IDF技术计算出特征关键字权重和不同关键字之间的相似度,构建权重和相似度矩阵。
S6:对相似度高且权重大的数据进行优先融合,具体为:通过TF-IDF技术可以计算出不同关键字之间的相似度,选取出相似度高的关键字优先进行特征提取,提取的特征信息应尽量体现原始信息,然后根据数据融合目的与要求构建特征矢量,利用典型的基于特征级融合方法融合这些特征矢量,即优先融合。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,或者对其中部分技术特征进行等同替换,这些改进和替换也应视为本发明的保护范围。
Claims (6)
1.一种基于FCM算法的数据融合方法,其特征在于,包括以下步骤:
S1:收集异质多源跨界大数据的原始数据集;
S2:对收集到的所述原始数据集进行数据预处理;
S3:对预处理后的数据进行数据降维;
S4:对降维后的数据利用FCM算法进行模糊聚类提取出特征关键字;
S5:通过TF-IDF技术计算出特征关键字权重和不同特征关键字之间的相似度,构建权重和相似度矩阵;
S6:对相似度高且权重大的数据进行优先融合。
2.根据权利要求1所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S1中所述原始数据集包括系统内部数据、互联网数据和相关领域监管部门的外部数据。
3.根据权利要求1所述的一种基于FCM算法的数据融合方法,其特征在于,步骤S3中所述数据降维的具体步骤为:对于维度小于3的数据利用t-SNE算法直接降维;对于维度大于等于3的高维大数据首先利用PCA算法进行第一次降维,使其降到2维,再对第一次降维后的数据采用t-SNE算法进行第二次降维。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141304.5A CN110990498A (zh) | 2020-03-04 | 2020-03-04 | 一种基于fcm算法的数据融合方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010141304.5A CN110990498A (zh) | 2020-03-04 | 2020-03-04 | 一种基于fcm算法的数据融合方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990498A true CN110990498A (zh) | 2020-04-10 |
Family
ID=70081438
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010141304.5A Pending CN110990498A (zh) | 2020-03-04 | 2020-03-04 | 一种基于fcm算法的数据融合方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990498A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984707A (zh) * | 2020-08-21 | 2020-11-24 | 重庆大数据研究院有限公司 | 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法 |
CN112633413A (zh) * | 2021-01-06 | 2021-04-09 | 福建工程学院 | 基于改进pso-tsne特征选择的水下目标识别方法 |
CN112885080A (zh) * | 2021-01-11 | 2021-06-01 | 重庆长安新能源汽车科技有限公司 | 一种新能源汽车的行驶工况构建方法 |
CN115329895A (zh) * | 2022-09-06 | 2022-11-11 | 南昌大学 | 多源异构数据降噪分析处理方法 |
CN115396212A (zh) * | 2022-08-26 | 2022-11-25 | 国科华盾(北京)科技有限公司 | 检测模型的训练方法、装置、计算机设备和存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647626A (zh) * | 2019-07-30 | 2020-01-03 | 浙江工业大学 | 基于互联网服务域的rest数据服务聚类方法 |
-
2020
- 2020-03-04 CN CN202010141304.5A patent/CN110990498A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110647626A (zh) * | 2019-07-30 | 2020-01-03 | 浙江工业大学 | 基于互联网服务域的rest数据服务聚类方法 |
Non-Patent Citations (2)
Title |
---|
杨山 等: "基于语义空间的抽取式单文档摘要方法", 《厦门大学学报(自然科学版)》 * |
赵泽雨: "基于稀疏约束的二维聚类算法研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111984707A (zh) * | 2020-08-21 | 2020-11-24 | 重庆大数据研究院有限公司 | 一种营运车辆多模式跨界大数据的多层次深度融合挖掘方法 |
CN112633413A (zh) * | 2021-01-06 | 2021-04-09 | 福建工程学院 | 基于改进pso-tsne特征选择的水下目标识别方法 |
CN112633413B (zh) * | 2021-01-06 | 2023-09-05 | 福建工程学院 | 基于改进pso-tsne特征选择的水下目标识别方法 |
CN112885080A (zh) * | 2021-01-11 | 2021-06-01 | 重庆长安新能源汽车科技有限公司 | 一种新能源汽车的行驶工况构建方法 |
CN115396212A (zh) * | 2022-08-26 | 2022-11-25 | 国科华盾(北京)科技有限公司 | 检测模型的训练方法、装置、计算机设备和存储介质 |
CN115329895A (zh) * | 2022-09-06 | 2022-11-11 | 南昌大学 | 多源异构数据降噪分析处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112308158B (zh) | 一种基于部分特征对齐的多源领域自适应模型及方法 | |
CN110990498A (zh) | 一种基于fcm算法的数据融合方法 | |
CN108960140B (zh) | 基于多区域特征提取和融合的行人再识别方法 | |
CN104933444B (zh) | 一种面向多维属性数据的多层聚类融合机制的设计方法 | |
CN112087447B (zh) | 面向稀有攻击的网络入侵检测方法 | |
CN110942091A (zh) | 寻找可靠的异常数据中心的半监督少样本图像分类方法 | |
CN112529638B (zh) | 基于用户分类和深度学习的服务需求动态预测方法及系统 | |
CN110751027A (zh) | 一种基于深度多示例学习的行人重识别方法 | |
CN116863177A (zh) | 一种面向通用多视图对象聚类的对象视图蒸馏方法 | |
CN113850311A (zh) | 一种基于分组和多样性增强的长尾分布图像识别方法 | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN110765285A (zh) | 基于视觉特征的多媒体信息内容管控方法及系统 | |
CN113378620B (zh) | 监控视频噪声环境下跨摄像头行人重识别方法 | |
CN111914912B (zh) | 一种基于孪生条件对抗网络的跨域多视目标识别方法 | |
CN116977725A (zh) | 一种基于改进卷积神经网络的异常行为识别方法及装置 | |
CN112200260B (zh) | 一种基于丢弃损失函数的人物属性识别方法 | |
JP2017162230A (ja) | 情報処理装置、類似データ検索方法、及び類似データ検索プログラム | |
CN113434668B (zh) | 一种基于模型融合的深度学习文本分类方法及系统 | |
CN113225300B (zh) | 一种基于图像的大数据分析方法 | |
CN116450781A (zh) | 问答的处理方法及装置 | |
CN114169433A (zh) | 一种基于联邦学习+图学习+cnn的工业故障预测方法 | |
CN116304110B (zh) | 使用英语词汇数据构建知识图谱的工作方法 | |
CN116306773B (zh) | 一种可解释的神经网络高维数据降维分析系统 | |
CN117235137B (zh) | 一种基于向量数据库的职业信息查询方法及装置 | |
CN115080921B (zh) | 一种基于审计敏感的改进的Top-k Dominating方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |