CN113886523A - 一种基于大数据的数据融合计算技术 - Google Patents

一种基于大数据的数据融合计算技术 Download PDF

Info

Publication number
CN113886523A
CN113886523A CN202111072649.0A CN202111072649A CN113886523A CN 113886523 A CN113886523 A CN 113886523A CN 202111072649 A CN202111072649 A CN 202111072649A CN 113886523 A CN113886523 A CN 113886523A
Authority
CN
China
Prior art keywords
data
fusion
big
mapping
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111072649.0A
Other languages
English (en)
Inventor
孙晓乐
吴艳芸
张贝
夏伯成
王银霞
孙伟峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Zhongyu Guangheng Technology Co ltd
Original Assignee
Henan Zhongyu Guangheng Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Zhongyu Guangheng Technology Co ltd filed Critical Henan Zhongyu Guangheng Technology Co ltd
Priority to CN202111072649.0A priority Critical patent/CN113886523A/zh
Publication of CN113886523A publication Critical patent/CN113886523A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/38Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于大数据的数据融合计算技术。所述基于大数据的数据融合计算技术包括:系统中央数据库、网络大数据、数据融合计算和数据初步处理;数据输入,所述数据输入与所述数据初步处理的输入端连接,用于对待融合处理的数据进行输入。本发明提供的基于大数据的数据融合计算技术具有采用拆分融合的方式对网络信息中的关键词进行提取和映射,结合网络大数据的内容方便对提取出的重要信息进行同类融合,减少多余信息的储存和传输,融合后关联的总数据在系统中央数据库内部的储存信息中更新,保障信息输入和更新的时效性,同时能够快速的查找指定关键词的评价信息和网络数据中的内容。

Description

一种基于大数据的数据融合计算技术
技术领域
本发明涉及大数据领域,尤其涉及一种基于大数据的数据融合计算技术。
背景技术
大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很难收集和使用的数据开始容易被利用起来。多数据源融合技术最早被应用于军事领域,将同一地区的多源遥感影像数据加以智能化合成,产生比单一信息源更精确、更完全、更可靠的估计和判断。
数据融合计算基数为数据融合中心对来自多个传感器的信息进行融合,也可以将来自多个传感器的信息和人机界面的观测事实进行信息融合,提取征兆信息,在推理机作用下,将征兆与知识库中的知识匹配,做出故障诊断决策,提供给用户,在基于信息融合的故障诊断系统中可以加入自学习模块,故障决策经自学习模块反馈给知识库,并对相应的置信度因子进行修改,更新知识库,同时,自学习模块能根据知识库中的知识和用户对系统提问的动态应答进行推理,以获得新知识,总结新经验,不断扩充知识库,实现专家系统的自学习功能。
在对数据进行融合处理过程中,输入数据的复杂性和多样性在直接进行记录和储存时占用较大的储存空间,无疑增加数据融合计算的难度,其中包含大量的重复信息和不必要信息,使得数据融合计算过程繁多且难以对融合内容精简化。
因此,有必要提供一种基于大数据的数据融合计算技术解决上述技术问题。
发明内容
本发明提供一种基于大数据的数据融合计算技术,解决了数据融合过程中易出现大量重复数据和不必要信息的问题。
为解决上述技术问题,本发明提供的基于大数据的数据融合计算技术包括:系统中央数据库、网络大数据、数据融合计算和数据初步处理;数据输入,所述数据输入与所述数据初步处理的输入端连接,用于对待融合处理的数据进行输入;所述数据初步处理包括数据单元化拆分、多源映射、多源数据提取,用于对复杂数据进行拆分分类;所述数据融合计算包括多数据单元融合、融合数据排列和融合数据分析,用于对拆分分类后的数据融合,所述融合数据分析包括数据载入、数据计算和数据优化;所述网络大数据提供云数据资源;所述系统中央数据库用于提供融合数据的储存。
优选的,所述数据输入的输入信息具有复杂多样性,未处理前内容复杂且无规则,直接进行储存占用所述系统中央数据库的大量储存空间。
优选的,所述单元化拆分对输入信息进行分解,分解后对关键词进行提取,从一组词语中提取单元化的关键词组。
优选的,所述多源映射包括单向映射模拟、多项映射模拟和曲向映射模拟,用于对关键词组与所述网络大数据中的数据领域进行映射。
优选的,所述单向映射模拟用于模拟直系领域中的数据进行映射,若有直系领域相关数据,直接并入直系领域。
优选的,所述直系领域中没有相关数据时,进行所述多项映射模拟,模拟相邻领域中的数据进行映射,若有相邻领域相关数据,直接并入相邻领域。
优选的,所述相邻领域中没有相关数据时,进行所述曲向映射模拟,模拟雷同领域中的数据进行映射,若有雷同领域相关数据,直接并入雷同领域。
优选的,所述多源数据提取对并入对应领域中的关键词组和对应领域中的信息进行提取。
优选的,所述多数据单元融合对所述多源数据提取所提取的数据进行整合,所述融合数据排列对融合后的数据进行重新排列。
优选的,所述数据载入对所述融合后的数据进行输入,输入后的数据通过数据计算进行大数据占比合算,所述数据优化对输入新数据后的系统中央数据库进行更新。
与相关技术相比较,本发明提供的基于大数据的数据融合计算技术具有如下有益效果:
本发明提供一种基于大数据的数据融合计算技术,采用拆分融合的方式对网络信息中的关键词进行提取和映射,结合网络大数据的内容方便对提取出的重要信息进行同类融合,减少多余信息的储存和传输,融合后关联的总数据在系统中央数据库内部的储存信息中更新,保障信息输入和更新的时效性,同时能够快速的查找指定关键词的评价信息和网络数据中的内容。
附图说明
图1为本发明提供的基于大数据的数据融合计算技术的系统框图;
图2为图1所示的数据初步处理的系统框图;
图3为图2所示的多源映射的系统框图;
图4为图3所示的单向映射模拟的框图;
图5为图3所示的多向映射模拟的框图;
图6为图3所示的曲向映射模拟的框图;
图7为图1所示的数据融合计算的框图;
图8为图7所示的融合数据分析的框图。
具体实施方式
下面结合附图和实施方式对本发明作进一步说明。
请结合参阅图1、图2、图3、图4、图5、图6、图7和图8,其中,图1为本发明提供的基于大数据的数据融合计算技术的系统框图;图2为图1所示的数据初步处理的系统框图;图3为图2所示的多源映射的系统框图;图4为图3所示的单向映射模拟的框图;图5为图3所示的多向映射模拟的框图;图6为图3所示的曲向映射模拟的框图;图7为图1所示的数据融合计算的框图;图8为图7所示的融合数据分析的框图。
一种基于大数据的数据融合计算技术包括:系统中央数据库、网络大数据、数据融合计算和数据初步处理;
数据输入,所述数据输入与所述数据初步处理的输入端连接,用于对待融合处理的数据进行输入;
所述数据初步处理包括数据单元化拆分、多源映射、多源数据提取,用于对复杂数据进行拆分分类;
所述数据融合计算包括多数据单元融合、融合数据排列和融合数据分析,用于对拆分分类后的数据融合,所述融合数据分析包括数据载入、数据计算和数据优化;
所述网络大数据提供云数据资源;
所述系统中央数据库用于提供融合数据的储存。
现有复杂实体关联方法在适用范围、准确率等方面都存在不足,主要有:
非结构化数据一般不显式包含属性名,其实体属性不一定到出现在结构化数据中,结构化数据中实体属性也不一定能在非结构化数据中找到对应;
新实体的发现是一大难点,关键在于相似性判断阈值的确定没有有效解决办法;
大数据融合面向跨语言融合迈进,该方面研究成果不多。
解决方法:
1、预处理:数据融合的前提空间配准一般可分为以下步骤:
(1)特征选择:在欲配准的数据源上,选择如边界、交叉点、阈值等明显的特征;
(2)特征匹配:采用一定配准算法,找出数据源上明显的差异点,作为控制点;
(3)空间变化:根据控制点,建立数据源间的映射关系;
(4)插值:根据映射关系,对非参考数据源进行重采样,获得同参考数据源配准的数据源;
2、数据融合:数据融合方法分为三类:基于像元(pixel)级的融合、基于特征(feature)级的融合、基于决策(decision)级的融合;
融合的水平依次从低到高:
(1)像元级融合是一种低水平的融合:
像元级融合的流程为:经过预处理的遥感影像数据-数据融合-特征提取-融合属性说明;
(2)特征级融合:
特征级融合是一种中等水平的融合。在这一级别中,先是将各遥感影像数据进行特征提取,提取的特征信息应是原始信息的充分表示量或充分统计量,然后按特征信息对多源数据进行分类、聚集和综合,产生特征矢量,而后采用一些基于特征级融合方法融合这些特征矢量,做出基于融合特征矢量的属性说明;
(3)决策级融合:
决策级融合是最高水平的融合,融合的结果为指挥、控制、决策提供了依据,在这一级别中,首先对每一数据进行属性说明,然后对其结果加以融合,得到目标或环境的融合属性说明。
决策级融合的优点时具有很强的容错性,很好的开放性,处理时间短、数据要求低、分析能力强,而由于对预处理及特征提取有较高要求,所以决策级融合的代价较高。
现在的大数据融合的是将从多种类型数据源产生的信息进行整合,过滤掉无用数据,产生比单一数据源更精确、更完全、更可靠的估计和判断,帮助用户更加精准的把握行情走向,以便指定更适合当前环境的策略方针。
大数据融合的是将从多种类型数据源产生的数据信息,通过相应适配的算法,过滤掉无效数据,以融合目的为标准,产生符合用户需求的、全面的、直观的数据整合结果集。
在网络输入的输入和更新时,网络数据的复杂和多样性,导致网络基站所需承受和储存的复杂数据和误用数据较多;
在网络信息管理和计算过程中,对数据的融合处理后,能够更加清晰的将数据进行合并和分类。
数据初步处理是对信息的初步分解且提取重要的信息,去除输入信息中的不必要内容和相关数据;
数据融合计算,对提取出的重要信息进行同类融合,减少多余信息的储存和传输,融合后关联的总数据在系统中央数据库内部的储存信息中更新,保障信息输入和更新的时效性。
所述数据输入的输入信息具有复杂多样性,未处理前内容复杂且无规则,直接进行储存占用所述系统中央数据库的大量储存空间。
数据输入的端口与终端相连,采用终端设备能够输入相关数据,终端可选择移动终端或电脑终端设备,联网使用;
数据输入后:
一方面直接与网络大数据做比对,方便对特殊网络信息的直接计算和分析;
另一方面对输入后的网络信息进行数据初步处理;
处理后的数据进行数据融合计算,数据融合计算后的融合信息结合网路大数据对系统中央数据库内部的数据进行更新。
通过对数据的分解和提取,融合相同内容,简化数据内容,降低数据输入和储存所需的空间。
所述单元化拆分对输入信息进行分解,分解后对关键词进行提取,从一组词语中提取单元化的关键词组。
单元化的拆分模式对输入后的数据进行关键词和关键数据的提取,去除了大部分的不需要内容,能够简化网络信息的内容。
单元数据A只对应一个相同的数据领域AA。
如:
李某在某公司某地点的4月15日购买了一辆汽车,在半年后购买了车辆保险,保险时间为5年,两年后因驾驶发生事故受伤住院3个月,保险理赔所有医药费和事故相关费用。
通过单元化的拆分后:
相关关键词:购车、保险、事故、理赔;
相关数据:购买日期4月15日、保险年限5年。
所述多源映射包括单向映射模拟、多项映射模拟和曲向映射模拟,用于对关键词组与所述网络大数据中的数据领域进行映射。
所述单向映射模拟用于模拟直系领域中的数据进行映射,若有直系领域相关数据,直接并入直系领域。
单向映射模拟在对关键词与网络大数据进行映射时,采用直接与相关领域相连的内容进行比对和提取;
如关键词购车对应网络大数据中买车领域,买车领域包括总的国际购车数量、国内购车数量、省内购车数量和市级购车数量,购车输入后分别与国际购车数量、国内购车数量、省内购车数量和市级购车数量对应且结合。
李某此次购车的车辆数据被输入至网络大数据的买车领域中,被记录。
同样的保险、事故和理赔分别输入对应的领域中。
所述直系领域中没有相关数据时,进行所述多项映射模拟,模拟相邻领域中的数据进行映射,若有相邻领域相关数据,直接并入相邻领域。
当单元数据A在与数据领域AA映射时,没有相同技术和相同数据则进入下一步,单元数据A与相邻的数据领域BB映射,若仍没有相同技术和相同数据,则进入下一步,单元数据A与相邻的数据领域CC映射,以此类推,直至有相邻的数据领域出现。
由于保险种类多样,当没有直接与车辆相关的领域时,进入其他类型的数据领域。
所述相邻领域中没有相关数据时,进行所述曲向映射模拟,模拟雷同领域中的数据进行映射,若有雷同领域相关数据,直接并入雷同领域。
当单元数据A与相邻的数据领域没有关联时,单元数据A再次被分解成单元数据a,单元数据a以单元数据A为基础,单元数据a与其对应的数据领域aa进行映射,当映射出单元数据a的对应数据领域aa后,单元数据A以单元数据a为基础对应数据领域aa,从而为关键词提供稳定可靠的关联信息。
所述多源数据提取对并入对应领域中的关键词组和对应领域中的信息进行提取。
通过对拆分后的关键词信息进行再次提取,方便对关键词进行组合和简化,用于精简的展示和记录。
所述多数据单元融合对所述多源数据提取所提取的数据进行整合,所述融合数据排列对融合后的数据进行重新排列。
重新组合关键词,且组合后的关键词重新与对应领域进行映射。
如:
购车+保险;
购车+事故;
购车+理赔;
保险+事故;
保险+理赔;
事故+理赔;
购车+保险+事故;
购车+保险+理赔;
购车+事故+理赔;
保险+事故+理赔;
购车+保险+事故+理赔。
从而对不同排列的信息进行领域搜索,没有对应领域的相关联信息则被抛弃。
所述数据载入对所述融合后的数据进行输入,输入后的数据通过数据计算进行大数据占比合算,所述数据优化对输入新数据后的系统中央数据库进行更新。
有相关领域数据的融合后的信息被记录在网络大数据中,且在系统中央数据库上进行更新。
将输入后的信息融合整理计算后记录在系统中央数据库内。
网络信息的融合计算处理,同样适用在网络论坛评价系统中,针对不同类型的产品,在不同网络论坛上能够直接搜索处对应产品的相关评价信息,不需要登入论坛上,也能直观的搜索和查找所需内容的评价和信息。
与相关技术相比较,本发明提供的基于大数据的数据融合计算技术具有如下有益效果:
采用拆分融合的方式对网络信息中的关键词进行提取和映射,结合网络大数据的内容方便对提取出的重要信息进行同类融合,减少多余信息的储存和传输,融合后关联的总数据在系统中央数据库内部的储存信息中更新,保障信息输入和更新的时效性,同时能够快速的查找指定关键词的评价信息和网络数据中的内容。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于大数据的数据融合计算技术,其特征在于,包括:
系统中央数据库、网络大数据、数据融合计算和数据初步处理;
数据输入,所述数据输入与所述数据初步处理的输入端连接,用于对待融合处理的数据进行输入;
所述数据初步处理包括数据单元化拆分、多源映射、多源数据提取,用于对复杂数据进行拆分分类;
所述数据融合计算包括多数据单元融合、融合数据排列和融合数据分析,用于对拆分分类后的数据融合,所述融合数据分析包括数据载入、数据计算和数据优化;
所述网络大数据提供云数据资源;
所述系统中央数据库用于提供融合数据的储存。
2.根据权利要求1所述的基于大数据的数据融合计算技术,其特征在于,所述数据输入的输入信息具有复杂多样性,未处理前内容复杂且无规则,直接进行储存占用所述系统中央数据库的大量储存空间。
3.根据权利要求2所述的基于大数据的数据融合计算技术,其特征在于,所述单元化拆分对输入信息进行分解,分解后对关键词进行提取,从一组词语中提取单元化的关键词组。
4.根据权利要求3所述的基于大数据的数据融合计算技术,其特征在于,所述多源映射包括单向映射模拟、多项映射模拟和曲向映射模拟,用于对关键词组与所述网络大数据中的数据领域进行映射。
5.根据权利要求4所述的基于大数据的数据融合计算技术,其特征在于,所述单向映射模拟用于模拟直系领域中的数据进行映射,若有直系领域相关数据,直接并入直系领域。
6.根据权利要求5所述的基于大数据的数据融合计算技术,其特征在于,所述直系领域中没有相关数据时,进行所述多项映射模拟,模拟相邻领域中的数据进行映射,若有相邻领域相关数据,直接并入相邻领域。
7.根据权利要求6所述的基于大数据的数据融合计算技术,其特征在于,所述相邻领域中没有相关数据时,进行所述曲向映射模拟,模拟雷同领域中的数据进行映射,若有雷同领域相关数据,直接并入雷同领域。
8.根据权利要求7所述的基于大数据的数据融合计算技术,其特征在于,所述多源数据提取对并入对应领域中的关键词组和对应领域中的信息进行提取。
9.根据权利要求8所述的基于大数据的数据融合计算技术,其特征在于,所述多数据单元融合对所述多源数据提取所提取的数据进行整合,所述融合数据排列对融合后的数据进行重新排列。
10.根据权利要求9所述的基于大数据的数据融合计算技术,其特征在于,所述数据载入对所述融合后的数据进行输入,输入后的数据通过数据计算进行大数据占比合算,所述数据优化对输入新数据后的系统中央数据库进行更新。
CN202111072649.0A 2021-09-14 2021-09-14 一种基于大数据的数据融合计算技术 Pending CN113886523A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111072649.0A CN113886523A (zh) 2021-09-14 2021-09-14 一种基于大数据的数据融合计算技术

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111072649.0A CN113886523A (zh) 2021-09-14 2021-09-14 一种基于大数据的数据融合计算技术

Publications (1)

Publication Number Publication Date
CN113886523A true CN113886523A (zh) 2022-01-04

Family

ID=79008893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111072649.0A Pending CN113886523A (zh) 2021-09-14 2021-09-14 一种基于大数据的数据融合计算技术

Country Status (1)

Country Link
CN (1) CN113886523A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186156A (zh) * 2022-09-14 2022-10-14 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115186156A (zh) * 2022-09-14 2022-10-14 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统
CN115186156B (zh) * 2022-09-14 2022-12-09 天云融创数据科技(北京)有限公司 一种多源数据的融合方法及系统

Similar Documents

Publication Publication Date Title
CN112612902B (zh) 一种电网主设备的知识图谱构建方法及设备
CN111414477A (zh) 车辆故障自动诊断方法、装置以及设备
CN111538844B (zh) 目标领域知识库的生成、问题解答方法及装置
CN109918560A (zh) 一种基于搜索引擎的问答方法和装置
JP2009524892A (ja) 検索可能旅行データの集約システムの方法、システムおよび装置
US11620769B2 (en) Vehicle information photo overlay
US20230260272A1 (en) Vehicle listing image detection and alert system
CN111046275A (zh) 基于人工智能的用户标签确定方法及装置、存储介质
US11941010B2 (en) Dynamic facet ranking
CN109508361A (zh) 用于输出信息的方法和装置
CN113886523A (zh) 一种基于大数据的数据融合计算技术
CN117576535B (zh) 一种图像识别方法、装置、设备以及存储介质
CN113918718B (zh) 基于人工智能的车险用户分类方法、装置、设备及介质
CN102902705B (zh) 定位数据中的歧义
CN111142728B (zh) 车载环境智能文本处理方法、装置、电子设备及存储介质
CN116467607A (zh) 信息匹配方法和存储介质
CN114780700A (zh) 基于机器阅读理解的智能问答方法、装置、设备及介质
Wang et al. An ontology-based model for handling rule exceptions in traffic scenes
US20230169322A1 (en) Vehicle control method, electronic device and medium
CN113392221B (zh) 一种对薄实体的处理方法及相关装置
KR102635530B1 (ko) 차량 매매 및 유지보수를 위한 챗봇 시스템 및 이를 이용한 챗봇 기반 차량 매매 및 유지보수 서비스 방법
Huang et al. Video Recommendation Method Based on Deep Learning of Group Evaluation Behavior Sequences
CN118014070A (zh) 一种基于智能图谱提供智能应用方法、装置、设备及介质
US20230315742A1 (en) Computerized smart inventory search methods and systems using classification and tagging
Huang et al. A Function Area Division Approach for Autonomous Transportation System Based on Text Similarity

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination