CN111581298B - 大数据仓库的异构数据整合系统及方法 - Google Patents

大数据仓库的异构数据整合系统及方法 Download PDF

Info

Publication number
CN111581298B
CN111581298B CN202010357354.7A CN202010357354A CN111581298B CN 111581298 B CN111581298 B CN 111581298B CN 202010357354 A CN202010357354 A CN 202010357354A CN 111581298 B CN111581298 B CN 111581298B
Authority
CN
China
Prior art keywords
data
target
heterogeneous
heterogeneous data
feature space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010357354.7A
Other languages
English (en)
Other versions
CN111581298A (zh
Inventor
杨明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
North China Institute of Aerospace Engineering
Original Assignee
North China Institute of Aerospace Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Institute of Aerospace Engineering filed Critical North China Institute of Aerospace Engineering
Priority to CN202010357354.7A priority Critical patent/CN111581298B/zh
Publication of CN111581298A publication Critical patent/CN111581298A/zh
Application granted granted Critical
Publication of CN111581298B publication Critical patent/CN111581298B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于大数据技术领域,具体为提供大数据仓库的异构数据整合系统及方法,所述系统包括:若干个分类器和数据融合装置;所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则;在保证数据整合准确性的情况下,提升了数据整合的效率;同时,本发明在数据整合前,对异构数据进行初步分类,使得利用分类器进行分类时,减轻了分类器的工作量,提升了分类器的工作效率。

Description

大数据仓库的异构数据整合系统及方法
技术领域
本发明属于大数据技术领域,具体涉及基于大数据仓库的异构数据整合系统及方法。
背景技术
异构数据是相关的多个数据的集合。
异构数据库系统是相关的多个数据库系统的集合,可以实现数据的共享和透明访问,几个数据库系统在加入异构数据库系统之前本身就已经存在。
拥有自己的数据阵管理系统、外构数据库的各个组成部分具有自身的自治性,实现数据共享的同时,每个数据库系统仍有自己的应用特性、完整性控制和安全性控制。
数据仓库是决策支持系统(dss)和联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性。
数据仓库,由数据仓库之父比尔·恩门(BillInmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(DataMining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
计算机发展的早期,人们已经提出了建立数据仓库的构想。“数据仓库”一词最早是在1990年,由BillInmon先生提出的,其描述如下:数据仓库是为支持企业决策而特别设计和建立的数据集合。企业建立数据仓库是为了填补现有数据存储形式已经不能满足信息分析的需要。数据仓库理论中的一个核心理念就是:事务型数据和决策支持型数据的处理性能不同。企业在它们的事务操作收集数据。在企业运作过程中:随着定货、销售记录的进行,这些事务型数据也连续的产生。为了引入数据,我们必须优化事务型数据库。
处理决策支持型数据时,一些问题经常会被提出:哪类客户会购买哪类产品?促销后销售额会变化多少?价格变化后或者商店地址变化后销售额又会变化多少呢?在某一段时间内,相对其他产品来说哪类产品特别容易卖呢?哪些客户增加了他们的购买额?哪些客户又削减了他们的购买额呢?事务型数据库可以为这些问题作出解答,但是它所给出的答案往往并不能让人十分满意。在运用有限的计算机资源时常常存在着竞争。在增加新信息的时候我们需要事务型数据库是空闲的。而在解答一系列具体的有关信息分析的问题的时候,系统处理新数据的有效性又会被大大降低。另一个问题就在于事务型数据总是在动态的变化之中的。决策支持型处理需要相对稳定的数据,从而问题都能得到一致连续的解答。
数据仓库的解决方法包括:将决策支持型数据处理从事务型数据处理中分离出来。数据按照一定的周期(通常在每晚或者每周末),从事务型数据库中导入决策支持型数据库——既“数据仓库”。数据仓库是按回答企业某方面的问题来分“主题”组织数据的,这是最有效的数据组织方式。
源数据融合技术应用于地质矿产调查中时不仅能实现数据最优选择还能对数据进行预处理然后再进行数据融合综合分析得出结果。这是多源数据融合技术的特性也使其具体的应用操作流程。数据选择是多源数据融合的第一步必须保证数据选择的正确性尽量优选出合适的数据对象来进行数据融合若数据对象选择错误将直接影响到多源数据的后期融合效果。数据选择时首先要根据用途来判定需要选择的数据类型,可供选择的数据类型有两种分别遥感数据、非遥感数据。国内地质矿产工作中获取到航天遥感数据以及航空遥感数据均可作为选择对象,为区域地质矿产调查提供参考。
数据合理选择之后要先对其进行预处理以免未经处理的数据在多源融合时影响到融合效果,使融合后得到的数据无法满足地质矿产调查要求。数据预处理的方法主要包括首先对选择出的各种数据信、遥感影像进行几何校准然后转换数据格式将所有数据全部转换成图像格式。预处理必须保证所有数据都能实现互相沟通保证数据融合能够在同一平台上实现。
数据融合是多源数据融合的重头戏操作时可借助图像处理手段来是对预处理过的多种数据进行融合,达到增强卫星图像清晰度提高其利用价值的目的。当前可采用的数据融合技术方法主要有三种即像素级融合、特征级融合以及决策级融合。如果在地质矿产调查中应用了多源数据融合技术,在实际融合数据时必须结合具体情况合理选择以免因选择错误而降低融合效果严重者还可能导致数据融合失效。融合结果分析。
发明内容
本发明的主要目的在于提供大数据仓库的异构数据整合系统及方法,其基于特征空间进行数据整合,在保证数据整合准确性的情况下,提升了数据整合的效率;同时,本发明在数据整合前,对异构数据进行初步分类,使得利用分类器进行分类时,减轻了分类器的工作量,提升了分类器的工作效率。
为达到上述目的,本发明的技术方案是这样实现的:
大数据仓库的异构数据整合系统,所述系统包括:若干个分类器和数据融合装置;所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则;所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;所述系统还包括:异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器。
进一步的,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数:其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun tj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则。
进一步的,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
进一步的,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配:其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
进一步的,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
大数据仓库的异构数据整合方法,所述方法执行以下步骤:分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则;数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;所述系统还包括:异构数据成分分析装置,分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器。
进一步的,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数:其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun tj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则。
进一步的,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
进一步的,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配:其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
进一步的,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
本发明的基于大数据仓库的异构数据整合系统及方法,具有如下有益效果:本发明在进行异构数据整合时,分类器分别基于多个特征空间进行训练,经过训练的分类器,能够在每个特征空间下对目标异构数据进行分类,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则,通过这种规则的映射,实现了细微差别的异构数据分类,适用于异构数据种类较多的情况;数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;在进行异构数据分类前,适用异构数据成分分析装置,根据异构数据的主成分,将异构数据进行初步整合分类,降低了后续分类器的工作量,提升了分类器的运行效率。
附图说明
图1为本发明的实施例提供的基于大数据仓库的异构数据整合系统的系统结构示意图;
图2为本发明的实施例提供的基于大数据仓库的异构数据整合方法的方法流程示意图;
图3为本发明的实施例提供的基于大数据仓库的异构数据整合系统及方法的数据融合准确率与现有技术的数据融合准确率的对比实验表格示意图;
图4为本发明的实施例提供的基于大数据仓库的异构数据整合系统及方法的数据融合效率与现有技术的数据融合效率的对比实验效果示意图。
具体实施方式
以下结合具体实施方式和附图对本发明的技术方案作进一步详细描述:
实施例1
如图1所示,大数据仓库的异构数据整合系统,所述系统包括:若干个分类器和数据融合装置;所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则;所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;所述系统还包括:异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器。
具体的,本发明在进行异构数据整合时,分类器分别基于多个特征空间进行训练,经过训练的分类器,能够在每个特征空间下对目标异构数据进行分类,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则,通过这种规则的映射,实现了细微差别的异构数据分类,适用于异构数据种类较多的情况;数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;在进行异构数据分类前,适用异构数据成分分析装置,根据异构数据的主成分,将异构数据进行初步整合分类,降低了后续分类器的工作量,提升了分类器的运行效率。
实施例2
在上一实施例的基础上,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数: 其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun tj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则。
具体的,基于分类器融合任务的复杂模式系统识别是目前研究的一个重要且具有挑战性的领域,其中关键问题之一是如何获取更多的可用知识,提高分类精度,特别是在知识未知、复杂的模式分类系统中。分类器融合的思想是不同的分类器可以提供(或多或少)互补信息,以达到更高的分类精度。在分类器融合技术中,辨识框架是首先要统一的,相同辨识框架下的两个分类信息可以进行融合决策,以增加它们的上下文信息。然而,由于不同传感器所观测到的目标辨识框架不同,这种辨识框架在许多应用中可能会有所不同。在这种情况下,因为我们无法在分类结果或假设之间建立强有力的关联,一些不正确的结果就会产生。
目前,许多分类器融合识别方法都是针对统一辨识框架下的融合,即所要融合决策的分类结果都位于相同的辨识框架,其辨识框架完全一致,因此可以直接利用D-S规则等多分类器融合算法进行分类。而现实中由于不同传感器的辨识框架存在差异,不同辨识框架之间关系是未知的而且并非线性,因此,难以实现多框架异构数据融合识别。
实施例3
在上一实施例的基础上,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
实施例4
在上一实施例的基础上,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配:其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
实施例5
在上一实施例的基础上,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
实施例6
大数据仓库的异构数据整合方法,所述方法执行以下步骤:分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则;数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;所述系统还包括:异构数据成分分析装置,分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器。
具体的,数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
随着待处理的数据信息量大大增加,人们对数据信息的可靠性、一致性和共享性提出了更高的要求,如何更好的利用和管理这些日益庞大的同构和异构数据库,并挖掘出数据之间的潜在联系,帮助企业更好的分析和决策,已成为电力公司日益迫切需要解决的问题。因此,如何对数据进行有效收集、存储与提取是数据仓库技术的研究重点和难点。
实施例7
在上一实施例的基础上,所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则的方法执行以下步骤:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数: 其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,coun tj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则。
实施例8
在上一实施例的基础上,所述异构数据成分分析装置,用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合的方法执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
实施例9
在上一实施例的基础上,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配:其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
实施例10
所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
以上所述仅为本发明的一个实施例子,但不能以此限制本发明的范围,凡依据本发明所做的结构上的变化,只要不失本发明的要义所在,都应视为落入本发明保护范围之内受到制约。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (6)

1.大数据仓库的异构数据整合系统,其特征在于,所述系统包括:
若干个分类器、数据融合装置和异构数据成分分析装置;
所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数:其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,countj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则;所述映射规则由每个辨识框架和目标框架之间的转化规则、以及其对应的权重构成;
所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;
所述异构数据成分分析装置用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器;执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
2.如权利要求1所述的系统,其特征在于,所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配: 其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
3.如权利要求2所述的系统,其特征在于,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
4.一种基于权利要求1至3之一所述系统的大数据仓库的异构数据整合方法,其特征在于,
所述系统包括:若干个分类器、数据融合装置和异构数据成分分析装置;
所述方法执行以下步骤:
所述分类器分别基于多个特征空间进行训练,通过对每个所述分类器对多个已知训练样本进行分类,得出每个已知训练样本的分类结果,根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,分别计算出每个所述特征空间与目标空间之间的映射规则:根据采集到的训练样本,提取数据特征,使用如下公式,统计数据特征符合每一个特征空间的次数:其中,N为符合特征空间的次数,S为数据个数,λi为第i个训练样本的权重,M为每一个特征空间中的特征个数,countj第i个训练样本的数据特征个数;根据统计到的训练样本符合每一个特征空间中的次数,按照从多到少,设置对应训练样本的特征空间从高到低的优先级,完成数据特征空间训练;根据每个所述已知训练样本的分类结果和其真实分类结果的对应关系,统计分析出特征空间与目标空间之间的映射规则;所述映射规则由每个辨识框架和目标框架之间的转化规则、以及其对应的权重构成;
所述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合;
所述异构数据成分分析装置用于分析出来自于不同数据源的异构数据的主成分,根据主成分,得出异构数据之间的异构程度值,将异构程度值低于设定的阈值的异构数据归为同构数据,完成异构数据的初步整合;将初步整合的结果发送至分类器;执行以下步骤:使用如下公式,利用自相关算法计算不同数据源的异构数据之间的的相似系数:其中,xi和x为不同两个不同数据源的异构数据的主成分,n为计算次数,B为调整系数,取值范围为:10~20。
5.如权利要求4所述的方法,其特征在于,述数据融合装置根据分类器得出的映射规则,针对每个具有不同特征空间的待分类的目标异构数据进行转换,使其统一映射至目标空间,完成异构数据整合的方法执行以下步骤:提取待分类的目标异构数据的特征空间,根据待分类的目标异构数据的特征空间,并将目标异构数据进行归类划分为不同的目标异构数据库;对目标异构数据库进行归一化处理得到分类目标异构数据矩阵;使用如下公式,将分类目标异构数据矩阵分别与每一个定向特征空间群进行映射匹配: 其中,sim(dj,dk)为映射匹配结果,/>为产品目标异构数据矩阵,wji为矩阵行值,|dj|为对应的矩阵行列式的值;/>为定向特征空间群,wki为矩阵行值,|dk||为对应的矩阵行列式的值;根据最终映射匹配的结果,将匹配映射结果sim(dj,dk)最小的值对应的定向特征空间群作为对应产品信息的特征空间,完成特征空间构建;数据关联子系统,根据构建的特征空间,进行混沌模糊匹配,完成不同异构数据之间的整合。
6.如权利要求5所述的方法,其特征在于,所述映射规则由每个所述辨识框架和目标框架之间的转化规则、以及其对应的权重构成。
CN202010357354.7A 2020-04-29 2020-04-29 大数据仓库的异构数据整合系统及方法 Active CN111581298B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010357354.7A CN111581298B (zh) 2020-04-29 2020-04-29 大数据仓库的异构数据整合系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010357354.7A CN111581298B (zh) 2020-04-29 2020-04-29 大数据仓库的异构数据整合系统及方法

Publications (2)

Publication Number Publication Date
CN111581298A CN111581298A (zh) 2020-08-25
CN111581298B true CN111581298B (zh) 2023-11-14

Family

ID=72126257

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010357354.7A Active CN111581298B (zh) 2020-04-29 2020-04-29 大数据仓库的异构数据整合系统及方法

Country Status (1)

Country Link
CN (1) CN111581298B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184843B (zh) * 2020-11-09 2021-06-29 新相微电子(上海)有限公司 图像数据压缩的冗余数据去除系统及方法
CN113656395B (zh) * 2021-10-15 2022-03-15 深圳市信润富联数字科技有限公司 数据质量治理方法、装置、设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512680A (zh) * 2015-12-02 2016-04-20 北京航空航天大学 一种基于深度神经网络的多视sar图像目标识别方法
CN110084263A (zh) * 2019-03-05 2019-08-02 西北工业大学 一种基于信任的多框架异构数据融合识别方法
CN111008333A (zh) * 2019-12-04 2020-04-14 唐杰 一种基于用户特征信息和产品成分信息的购物系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10891559B2 (en) * 2013-12-12 2021-01-12 Indian Institute Of Technology Delhi Classifying test data based on a maximum margin classifier

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512680A (zh) * 2015-12-02 2016-04-20 北京航空航天大学 一种基于深度神经网络的多视sar图像目标识别方法
CN110084263A (zh) * 2019-03-05 2019-08-02 西北工业大学 一种基于信任的多框架异构数据融合识别方法
CN111008333A (zh) * 2019-12-04 2020-04-14 唐杰 一种基于用户特征信息和产品成分信息的购物系统和方法

Also Published As

Publication number Publication date
CN111581298A (zh) 2020-08-25

Similar Documents

Publication Publication Date Title
CN110223168B (zh) 一种基于企业关系图谱的标签传播反欺诈检测方法及系统
US11093519B2 (en) Artificial intelligence (AI) based automatic data remediation
Peacock Data mining in marketing: Part 1
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN110956273A (zh) 融合多种机器学习模型的征信评分方法及系统
US20040267686A1 (en) News group clustering based on cross-post graph
CN106067094A (zh) 一种动态评估方法及系统
CN101819573A (zh) 一种自适应的网络舆情识别方法
CN111581298B (zh) 大数据仓库的异构数据整合系统及方法
CN114048870A (zh) 一种基于日志特征智能挖掘的电力系统异常监测方法
CN104679827A (zh) 一种基于大数据的公开信息关联方法及挖掘引擎
Casalino et al. Incremental adaptive semi-supervised fuzzy clustering for data stream classification
US20210263903A1 (en) Multi-level conflict-free entity clusters
Joseph Significance of data warehousing and data mining in business applications
Saravanan et al. Video image retrieval using data mining techniques
CN113486983A (zh) 一种用于反欺诈处理的大数据办公信息分析方法及系统
CN103207804A (zh) 基于集群作业日志的MapReduce负载模拟方法
Singh et al. Knowledge based retrieval scheme from big data for aviation industry
CN113535422A (zh) 一种面向工业大数据的数据清洗和事件处理的云平台系统
CN111581299A (zh) 基于大数据的多源数据仓库的库间数据转换系统及方法
CN111258953B (zh) 一种财务数据转换成评估数据规范化的方法
CN114495137A (zh) 票据异常检测模型生成方法与票据异常检测方法
CN109388633B (zh) 一种数据清洗方法
CN113408207A (zh) 基于社会网络分析技术的数据挖掘的一种方法
CN112115174A (zh) 一种基于图计算技术的kyc方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant