CN103678665B

CN103678665B - 一种基于数据仓库的异构大数据整合方法和系统

Info

Publication number: CN103678665B
Application number: CN201310723548.4A
Authority: CN
Inventors: 徐晓冬; 邹铁鹏; 何昌桃; 黄建鹏
Original assignee: Focus Technology Co Ltd
Current assignee: Beijing New Silk Road Consulting Group Co., Ltd
Priority date: 2013-12-24
Filing date: 2013-12-24
Publication date: 2016-09-07
Anticipated expiration: 2033-12-24
Also published as: CN103678665A

Abstract

本发明提出了一种基于数据仓库的异构大数据整合方法和系统，建立结构化数据、半结构化数据及非结构化数据的关联关系，结合关系型数据库、分布式数据库以及内存数据库的各自的优势，整合各类数据，基于数据仓库做深层次数据分析，不断深化数据挖掘，实现高效、高质量的异构大数据分析处理。本发明对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联，通过Map/Reduce分布式处理和数据挖掘处理，把处理结果和相关数据以数据库结构的方式写入内存，形成简易内存数据库，便于高速计算和快速响应。

Description

一种基于数据仓库的异构大数据整合方法和系统

技术领域

本发明主要涉及互联网领域，尤其涉及一种基于数据仓库的异构大数据整合方法和系统。

背景技术

商业智能（BI，Business Intelligence）综合利用数据仓库、ETL技术、OLAP分析以及数据挖掘技术对数据进行有效的整合和存储，并对数据进行分析，提取出其中蕴藏的知识，从而帮助企业进行决策分析，在企业中得到了越来越广泛的应用。

随着互联网的快速发展，使互联网的应用越来越丰富，这些应用让互联网留存了海量的数据信息，包括用户的浏览记录，交易记录、日志文件、网络页面信息以及超链接。如何在海量的、动态的互联网信息数据中获取有用的知识，是商业智能的价值所在。

但是传统的商业智能架构移植到互联网应用领域会产生严重的“水土不服”现象，因为如下几种情况限制了传统的商业智能架构的作用：

●互联网应用中数据源多种多样，包含各种关系型数据库保存的数据，社交网络产生的数据，网络日志数据、图片文件、文本文件等。但传统的商业智能都是以处理各种关系型数据库中的数据见长。

●互联网数据量巨大。目前各类网站，特别是运营时间比较长的电子商务网站，都会产生了巨大的网络日志，而且在数据库中也存储了大量的各类数据，包括产品数据、商情数据、询盘数据等，另外，还有大量的各类数据文件保存在服务器中，在处理这么大规模的数据都出现了很多新的问题，而传统的关系型数据库目前已经无法满足处理如此大规模数据的要求。

●电子商务对于数据分析的实时性要求极高，有很大部分的数据只在短时间内才能体现数据的价值，处理数据速度的快慢就显得尤为重要。

●用户量巨大，互联网特别是电子商务的BI应用很大一部分是面向网站的用户群体的，这个群体数目巨大。传统的BI展现工具设计的时候是为了企业的中高层用户设计，移植到互联网应用中，无论从用户体验，交互效率都存在巨大差距。

以上四个问题就是传统的BI解决方案在互联网领域屡屡失败的根本原因。

目前针对大数据的处理方法，已经有一些研究和应用成果。

专利“一种分布式数据流处理方法及其系统”（专利申请号：201110378247.3），它提出的方法是：将原始数据流分割成实时数据流和历史数据流，并行处理实时数据流和历史数据流，并对他们的处理结果进行整合。这种方法通过对数据按时间进行分类，实时数据流的运算能够最大限度地以分布式并行处理，保证了大数据量的处理和高实时性。但这种方法没有解决异构数据之间关系问题，对于异构大数据如何协调之间的关联关系，并进行整合处理方面，还没有提出解决方法。

专利“一种大数据量的数据查询方式”（专利申请号：201210075512.5），此方法先定义增量数据捕获方式，以及增量捕获调度执行计划，然后执行增量数据定期归集，最后执行数据统计结果查询。此方法把复杂的数据统计查询过程包分解成两个过程：统计计算归集和实时查询；将统计计算归集过程放在后台运行，并且归集过程只归集增量数据，提高了大数据量统计查询的执行效率。此方法主要是针对关系型数据数据库提出的，没有涉及到异构数据的处理。

发明内容

为了解决上述问题，本发明提出了一种基于数据仓库的异构大数据整合方法和系统，建立结构化数据、半结构化数据及非结构化数据的关联关系，结合关系型数据库、分布式数据库以及内存数据库的各自的优势，整合各类数据，基于数据仓库做深层次数据分析，不断深化数据挖掘，实现高效、高质量的异构大数据分析处理。

本发明技术方案如下：

一种基于数据仓库的异构大数据整合方法，包括：

数据源分为两部分存储，一部分存储在关系型数据库中，另一部分存储在文件系统中。其中，存储在关系型数据库中的数据主要是各个业务系统产生的数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据，也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据；存储在文件系统中的数据主要是以网络日志文件为主的半结构化数据，以及各类图片文件和文档文件等非结构化数据。

各个业务系统中的数据，经过标准数据接口，通过ETL，加载到ODS，再从ODS通过ETL加载到数据仓库中。

存储在文件系统中的各类图片文件和文档文件，首先加载到Hadoop分布式文件系统（简称：hdfs）中，再利用Map/Reduce对这些文件进行处理，使之能够被Hive所使用。

Hive是基于Hadoop的一个数据仓库工具，它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中，并提供完整的SQL语言进行数据的查询、处理等功能，Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理。同时，Hive将存储在hdfs中的图片文件、文档文件等这种非结构化文件的属性映射到一张数据库表中。

在这些数据库表中，包含有半结构化数据和非结构化数据，在其中存在有隐性的各种属性数据，包括隐性的行为数据等。通过将库表中的字段与数据仓库中的知识库建立关联关系，从而建立了隐性数据与数据仓库中显性业务数据之间的联系，为异构数据的整合做好准备。

确定与网络日志、图片文件、文档文件等有关联的业务数据后，将他们从数据仓库提取出来，这其中包含有注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据，也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据。

使之与网络日志信息、图片文件、文档文件中的相应数据对应后，存储在HBase分布式数据库中，其中，HBase是一个分布式的、面向列的开源数据库，HBase在Hadoop之上提供了类似于Bigtable的能力，它是一个适合于非结构化数据存储的数据库。

这样在HBase存有大量的各类异构数据，根据业务需要，利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理，包括数据分组、数据排序、数据统计、数据异常检测等，从而完成对大量数据的预处理，实现异构数据间的初步整合。计算后的结果作为中间结果保存在HBase中。其中，MapReduce是一种编程模型，用于大规模数据集的并行运算。

其中，Hive把一部分部分关联数据以及计算得出的中间结果，通过ETL再加载到数据仓库中，从而可以分享给所有的数据集市使用。另一部分按照不同数据集市的主题需要，通过ETL，加载到各个不同主题的数据集市中。

那么在数据仓库和这些数据集市中包含有：各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等结构化数据，以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据，还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果等。

这些异构数据进行上述处理后，以结构化的形式存储在各个数据集市和数据仓库中。

在各个不同主题的数据集市中，依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算，形成各自主题领域内的局部知识结果，然后数据集市将各自的局部知识结果回写到数据仓库中。

数据仓库对各个业务主题的局部知识结果进行统一存储并整理，形成数据仓库中的知识层，得到全局知识结果。这样，每个数据集市就可以分享到整体业务的知识，并利用知识层的数据进一步挖掘更多的数据知识。这个过程不断循环进行，形成一个有效的知识信息闭环，提高了知识的重复利用以及数据挖掘的性能。

在数据集市中，常用数据以类似数据库的结构写入内存，这些数据一直驻留内存，形成了简易便捷的内存数据库，网站活动事务数据可以和内存数据库中的数据进行交互处理。通过内存数据库，用户通过在线分析实时监控网上访问情况，询盘数据等实时信息。由于节省了内存中的数据和关系型数据库中的数据同步的过程，实现了实时查询。另外使用了内存数据库技术后，整体提高了数据集市常用数据的处理速度，大大缓解了访问磁盘数据库的压力，提高数据查询，加载，修改，删除的性能，为在线实时分析提供了可能。

一种基于数据仓库的异构大数据整合系统，包括：

本系统由业务系统、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块组成。其中，业务系统、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接；通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块依次连接；数据仓库模块与Hive模块连接；数据集市模块与HBase分布式数据库模块连接。

业务系统模块，用于实现企业的业务信息化功能，通过此模块，收集管理大量的用户各方面信息数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等，这些数据是结构化数据，还有社交信息、产品详细描述、询盘内容、网站留言、邮件内容等，这些数据是非结构化数据，也保存在关系型数据库中。

标准数据接口模块，用于对业务系统的数据进行统一规范处理。

ODS（Operational Data Store）模块是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。ODS用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致，因此在抽取过程中极大降低了数据转化的复杂性。

数据仓库模块，从ODS中加载数据，所需数据从ODS中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库，并形成多个业务数据之间的关联，数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据集市模块，数据是从数据仓库和HBase分布式数据库中抽取出来的。每个数据集市包括来自数据仓库的历史数据的子集，另外还包括与这些数据关联的来自HBase的数据。

在数据集市模块中，可以对加载的数据进行数据挖掘和OLAP分析，并把得出的局部知识结果回写到数据仓库中，数据仓库对各个业务主题的局部知识结果统一存储并管理，形成数据仓库中的知识层，得到全局知识结果。每个数据集市就可以分享到全局知识结果，并利用全局知识结果挖掘出更多的数据知识。这个过程不断循环进行，形成一个有效的知识信息闭环，提高了知识的重复利用以及数据挖掘的性能，进一步提高整个系统的分析质量。

内存数据库模块，将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果，以数据库结构的方式写入内存，快速形成便捷简易内存数据库，方便对用户的访问进行快速计算、快速响应。通过内存数据库，网站活动事务数据可以和内存数据库中的数据进行交互处理，可以实时监控网上访问及关注情况、询盘数据等，省去了内存中的数据和传统数据库中的数据同步的过程，能够实时查询，另外使用了内存数据库后，提高了常用数据的处理速度，缓解了访问关系型数据库的压力，提高数据查询，加载，修改，删除的性能，提高了在线实时分析的性能和质量。

Hadoop分布式文件系统，用于存储大量的半结构化数据以及非结构化数据，其中半结构化数据主要包括网络日志，非结构化数据主要包括图片文件、文档文件。

Hive模块，用于将存储在Hadoop分布式文件系统中的半结构化数据以及非结构化数据，与存储在数据仓库中的数据进行关联，并调用Map/Reduce对这些数据进行分布式处理，得到中间计算结果。然后，把关联的各种异构数据以及中间计算结果，保存到HBase分布式数据库中。同时，一部分数据通过ETL加载到数据仓库中。

HBase分布式数据库模块，通过ETL，把其中的各类数据按照不同的主题，加载到相应的数据集市中。

一种数据仓库持续共享知识的方法，包括：

ODS把经过处理后的业务数据通过ETL传送给数据仓库，数据仓库应Hive的需求，把其中相关联的数据传递给Hive。

Hive对关联的异构数据进行Map/Reduce分布式处理，通过分布式处理后，得到了处理的中间结果，在一定程度上减少了待处理的数据量。把部分关联数据及处理的中间结果通过ETL的方式传递给数据仓库。

数据仓库根据不同主题的需要，把这些数据分别传送不同的数据集市。

数据集市获得数据仓库的数据，以及HBase传递过来的关联数据及中间结果数据，在数据集市中通过各自的数据挖掘算法进行计算处理，并把得到的局部知识结果回写到数据仓库。

数据仓库获得各个数据集市传递过来的局部知识结果，进行整合处理，通过数据宽表形成全局知识结果，并把全局知识结果传递给各个数据集市进行共享。

数据集市结合获得的数据宽表中的数据，通过新的数据挖掘算法进行计算，不断深化知识结果，再把深化的局部知识结果回写到数据仓库。其中，新的数据挖掘算法是通过研发人员根据更新后的知识结果，加入到数据集市的挖掘算法。

数据仓库获得数据集市新的局部知识结果，并不断整合多个数据集市的局部知识结果，形成新的全局知识结果，再传递给各个数据集市共享，此过程不断循环。

本发明的有益效果如下：

（1）结合了关系型数据库、分布式数据库、内存数据库的各自优势，优化了异构大数据的处理。

（2）运用了分布式计算来进行大数据分布式处理，实现了对大数据量、计算简单这2个特性的需求，并且运用了经典的数据挖掘方式来实现数据的深度分析，使本方法既有大数据的广度处理，又有对大数据的深度处理。同时，通过大数据分布式处理，得到了中间结果，减少了待处理的数据量，有利于提高数据仓库和数据集市的运行效率。

（3）在数据集市中，把对数据的挖掘结果以及OLAP的分析结果形成的局部知识结果，回写到数据仓库，通过数据仓库整合，形成全局知识结果，分享到各个数据集市，这个过程不断循环，可以持续提高数据的处理分析的质量。

（4）研发人员根据知识结果不断增加新的数据挖掘算法，使挖掘的知识结果更加全面，更加准确，挖掘的效果更好。

（5）将结果数据以及相关数据，以数据库结构的方式写入内存，这些数据一直驻留内存中，能够进行高速计算、快速响应用户访问。

附图说明

图1本发明实施例数据处理流程图；

图2本发明实施例系统结构示意图；

图3本发明实施例数据仓库持续共享知识的流程图。

具体实施方式

在本发明中，结合了关系型数据库、分布式数据库、内存数据库的各自优势，对互联网应用中的结构化数据、半结构化数据、非结构化数据进行关联，通过Map/Reduce分布式处理和数据挖掘处理，把处理结果和相关数据以数据库结构的方式写入内存，形成简易内存数据库，便于高速计算和快速响应。

参阅图1所示，本发明实施例的数据处理流程，具体步骤为：

步骤100：从数据源获取数据。其中一部分结构化数据通过各个业务系统中收集，存储在关系型数据库中，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等。另外，业务系统中的社交信息、产品详细描述、询盘内容、网站留言、邮件内容等非结构化数据，也存储在关系型数据库中；网络日志文件作为半结构化数据，图片文件和文档文件等作为非结构化数据，都存储在通用文件系统中。

步骤101：业务数据通过ETL加载到数据仓库中。各个业务系统的数据通过标准数据接口，加载到ODS中，再通过ETL加载到数据仓库中。

步骤102：通用文件系统中的图片文件和文档文件据，先加载到hdfs中，并通过Map/Reduce处理，转换成Hive模块能够处理的格式，Hive从存储在hdfs的文件中取出半结构化数据和非结构化数据，其中，网络日志中包含有半结构化数据，图片文件和文档文件中包含有非结构化数据。

步骤103：Hive模块对取得的半结构化数据和非结构化数据，与数据仓库中的知识库数据进行关联，建立结构化数据与半结构化数据、非结构化数据的对应关系。

例如，网络日志中的访问IP信息与数据仓库中的地址信息字段建立关联关系，地址信息里含有国家、地区等信息。另外，图片文件的属性信息与数据仓库中的产品ID信息建立对应的关联关系。

步骤104：建立关联关系后，把相关联的业务数据从数据仓库取出，与包含在图片文件和文档文件中的半结构化数据和非结构化数据按照对应关系一起存储在分布式数据库HBase中。同时对于要处理的数据，用Map/Reduce进行分布式计算处理，并把中间计算结果也保存在HBase中。其中这种分布式处理包含数据分组、数据排序、数据统计、数据异常检测等，从而完成对大量数据的预处理，实现异构数据间的初步整合。

步骤105：通过ETL，把初步把部分关联的数据及中间结果数据加载到数据仓库中，同时按照不同的主题把关联的数据及中间结果数据加载到各个相应的数据集市中。

步骤106：各个数据集市根据自身的数据，按照数据挖掘算法进行挖掘计算，以及根据需要进行OLAP处理，形成局部知识结果。把这些局部知识结果回写到数据仓库，数据仓库对这些局部知识结果，进行整理，形成数据宽表，得到全局知识结果，再共享给各个数据集市，数据集市根据全局知识结果，再结合相应的新的数据挖掘算法进行计算，不断深化知识，此过程不断循环。

步骤107：在数据集市中，将常用数据以数据库结构的形式写入内存，形成简易、便捷的内存数据库，数据可以在内存在进行快速计算，以及对用户的访问进行快速响应，实现实时查询和实时分析。

参阅图2所示，本发明实施例的系统结构，包括

本系统由业务系统模块200、标准数据接口模块201、ODS模块202、数据仓库模块203、数据集市模块204、内存数据库模块205、通用文件系统206、Hadoop分布式文件系统207、Hive模块208、HBase分布式数据库模块209组成。其中，业务系统模块200、标准数据接口模块201、ODS模块202、数据仓库模块203、数据集市模块204、内存数据库模块205依次连接；通用文件系统106、Hadoop分布式文件系统207、Hive模块208、HBase分布式数据库模块209依次连接；数据仓库模块203与Hive模块208连接；数据集市模块204与HBase分布式数据库模块209连接。

业务系统模块200，用于实现企业的业务信息化功能，通过此模块，收集管理大量的用户各方面信息数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等，这些数据是结构化数据，以及社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据，都保存在关系型数据库中。

标准数据接口模块201，用于对业务系统的数据进行统一规范处理。

ODS（Operational Data Store）模块202是数据仓库体系结构中的一个可选部分，ODS具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据。ODS用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致，因此在抽取过程中极大降低了数据转化的复杂性。

数据仓库模块203，从ODS模块202中加载数据，所需数据从ODS中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库，并形成多个业务数据之间的关联，数据仓库的特征在于面向主题、集成性、稳定性和时变性。

数据集市模块204，数据是从数据仓库模块203和HBase分布式数据库108中抽取出来的。它根据用户群体的特殊需求，每个数据集市包括来自数据仓库的历史数据的子集，用以满足特定部门、团队、客户或应用程序分析和报告需求。在数据集市模块204中，可以对加载的数据进行数据挖掘和OLAP分析，并把得出的知识回写到数据仓库中，数据仓库对各个业务主题的知识信息进行统一存储并管理，形成数据仓库中的知识层。这样，每个数据集市就可以分享到全局知识结果，并利用全局知识结果挖掘出更多的数据知识。这个过程不断循环进行，形成一个有效的知识信息闭环，极大的提高了知识的重复利用以及数据挖掘的性能，进一步提高整个系统的分析质量。

内存数据库模块205，将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果，以数据库结构的方式写入内存，快速形成便捷简易内存数据库，方便对用户的访问进行快速计算、快速响应，并提供内存数据库数据的快速修改更新。

通用文件系统206，用于存储大量的半结构化数据以及非结构化数据，其中半结构化数据主要包括网络日志，非结构化数据主要包括图片文件、文档文件等。

Hadoop分布式文件系统207，从通用文件系统206加载大量的半结构化数据以及非结构化数据，其中半结构化数据主要包括网络日志，非结构化数据主要包括图片文件、文档文件。

Hive模块208，用于将存储在Hadoop分布式文件系统207中的半结构化数据以及非结构化数据，与存储在数据仓库中的结构化数据进行关联，并调用Map/Reduce对这些数据进行分布式处理，得到中间计算结果。同时，Hive把部分关联的各种异构数据以及中间计算结果通过ETL加载到数据仓库，然后，把关联的各种异构数据以及中间计算结果，保存到HBase分布式数据库模块209中。

HBase分布式数据库模块209，用于保存通过ETL，把其中的各类数据及中间计算结果按照不同的主题，加载到相应的数据集市模块204中。

参阅图3所示，本发明实施例数据仓库持续共享知识的流程，包括：

步骤301：数据仓库从ODS获得业务数据，其中包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据等，这些数据是结构化数据，以及业务系统中的社交信息、产品详细描述、询盘内容、网站留言、邮件内容等文本型的非结构化数据作为非结构化数据。

步骤302：根据关联关系，数据仓库把相关联的数据传递给Hive。

步骤303：Hive对关联数据进行Map/Reduce分布式处理，得到中间计算结果，把关联的数据及中间计算结果通过ETL传递给数据仓库。其中这些中间结果已经融合了结构化数据、半结构化数据、以及非结构化数据。

步骤304：数据仓库把数据按照不同的主题，通过ETL传递给数据集市。

步骤305：数据集市接收到数据仓库的数据，结合从HBase传递给数据集市的数据，利用数据挖掘算法进行计算，形成局部知识结果。这对结构化数据、半结构化数据、以及非结构化数据融合后的数据又进行了深化整合。

步骤306：各个数据集市把挖掘计算后得到局部知识结果回写到数据仓库。

步骤307：数据仓库对各个数据集市回写的知识结果进行整合，形成数据宽表，得到全局知识结果，并共享给各个数据集市。这样，每个数据集市都获得了全局知识结果。

步骤308：各个数据集市获得全局知识结果后，根据需要，一些数据集市采用新的数据挖掘算法进行计算，获得进一步的新的局部知识结果，并把这些新的局部知识结果返回给数据仓库处理。其中，系统根据研发人员是否加入新的数据挖掘算法进行循环计算。

本领域技术人员可以对本发明的实施例进行各种改动和变型而不会脱离本发明的精神和范围。倘若本发明实施例中的这些修改和变型属于本发明权利要求及其等同的范围之内，则本发明中的实施例也包含这些改动和变型在内。

Claims

1.一种基于数据仓库的异构大数据整合方法，其特征在于：

数据源分为两部分存储，一部分存储在关系型数据库中，另一部分存储在文件系统中；其中，存储在关系型数据库中的数据是各个业务系统产生的数据，包括结构化数据和非结构化数据；存储在文件系统中的数据是以网络日志文件为主的半结构化数据，以及各类图片文件和文档文件非结构化数据；

各个业务系统中的数据，经过标准数据接口，通过ETL，加载到ODS，再从ODS通过ETL加载到数据仓库中；

存储在文件系统中的各类图片文件和文档文件，首先加载到Hadoop分布式文件系统中，再利用Map/Reduce对这些文件进行处理，使之能够被Hive所使用；

Hive是基于Hadoop的一个数据仓库工具，它将存储在hdfs中的网络日志文件这种半结构化文件映射到一张数据库表中，并提供完整的SQL语言进行数据的查询、处理，Hive将SQL语言解析成Map/Reduce任务进行分布式运行处理；同时，Hive将存储在hdfs中的图片文件、文档文件非结构化文件的属性映射到一张数据库表中；

在这些数据库表中，包含有半结构化数据和非结构化数据，在其中存在有隐性的各种属性数据，包括隐性的行为数据；通过将库表中的字段与数据仓库中的知识库建立关联关系，从而建立了隐性数据与数据仓库中显性业务数据之间的联系，为异构数据的整合做好准备；

确定与网络日志、图片文件、文档文件有关联的业务数据后，将他们从数据仓库提取出来，这其中包含结构化数据和文本型的非结构化数据；

使之与网络日志信息、图片文件、文档文件中的相应数据对应后，存储在HBase分布式数据库中；

在HBase存有大量的各类异构数据，根据业务需要，利用Map/Reduce对HBase中存储的大量相关联数据进行分布式运算处理，从而完成对大量数据的预处理，实现异构数据间的初步整合；计算后的结果作为中间结果保存在HBase中；

Hive把一部分关联数据以及计算得出的中间结果，通过ETL再加载到数据仓库中，从而分享给所有的数据集市使用；另一部分按照不同数据集市的主题需要，通过ETL，加载到各个不同主题的数据集市中；

这些异构数据进行处理后，以结构化的形式存储在各个数据集市和数据仓库中；

在各个不同主题的数据集市中，依照各自的数据挖掘算法对数据集市中的数据进行挖掘计算，形成各自主题领域内的局部知识结果，然后数据集市将各自的局部知识结果回写到数据仓库中；

数据仓库对各个业务主题的局部知识结果进行统一存储并整理，形成数据仓库中的知识层，得到全局知识结果；每个数据集市能够分享到整体业务的知识，并利用知识层的数据进一步挖掘更多的数据知识；这个过程不断循环进行，形成一个有效的知识信息闭环，提高了知识的重复利用以及数据挖掘的性能；

在数据集市中，常用数据以类似数据库的结构写入内存，这些数据一直驻留内存，形成简易便捷的内存数据库，网站活动事务数据和内存数据库中的数据进行交互处理；通过内存数据库，用户通过在线分析实时监控网上访问情况，询盘数据实时信息；

存储在关系型数据库中数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据，也包括关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容非结构化数据；

分布式运算处理，包括数据分组、数据排序、数据统计、数据异常检测；

这些异构数据进行处理后，以结构化的形式加载到各个数据集市和数据仓库中，这时，在数据仓库和数据集市中包含有：各个业务系统包含的注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据结构化数据，以及关于社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据，还有网络日志中的数据、图片文件和文档文件中包含的属性数据、以及这些数据初步整合的中间数据结果。

2.一种基于数据仓库的异构大数据整合系统，其特征在于：它由业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块、通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块组成；其中，业务系统模块、标准数据接口模块、ODS模块、数据仓库模块、数据集市模块、内存数据库模块依次连接；通用文件系统、Hadoop分布式文件系统、Hive模块、HBase分布式数据库模块依次连接；数据仓库模块与Hive模块连接；数据集市模块与HBase分布式数据库模块连接；

业务系统模块，用于实现企业的业务信息化功能，通过此模块，收集管理大量的用户各方面信息数据，包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据，这些数据是结构化数据，还有社交信息、产品详细描述、询盘内容、网站留言、邮件内容，这些数据是非结构化数据，也保存在关系型数据库中；

标准数据接口模块，用于对业务系统的数据进行统一规范处理；

ODS模块具备数据仓库的部分特征和OLTP系统的部分特征，它是“面向主题的、集成的、当前或接近当前的、不断变化的”数据；ODS模块用于存放从业务系统直接抽取出来的数据，这些数据从数据结构、数据之间的逻辑关系上都与业务系统基本保持一致；

数据仓库模块，从ODS模块中加载数据，所需数据从ODS模块中抽取出来，进行加工与集成，统一与综合之后才能进入数据仓库，并形成多个业务数据之间的关联，数据仓库的特征在于面向主题、集成性、稳定性和时变性；

数据集市模块，数据是从数据仓库和HBase分布式数据库中抽取出来的；每个数据集市包括来自数据仓库的历史数据的子集，另外还包括与这些数据关联的来自HBase的数据；

内存数据库模块，将数据集市中的数据及通过数据挖掘和OLAP分析得到的结果，以数据库结构的方式写入内存，快速形成便捷简易内存数据库，方便对用户的访问进行快速计算、快速响应；通过内存数据库，网站活动事务数据和内存数据库中的数据进行交互处理，实时监控网上访问及关注情况、询盘数据；

Hadoop分布式文件系统，用于存储大量的半结构化数据以及非结构化数据，其中半结构化数据包括网络日志，非结构化数据包括图片文件、文档文件；

Hive模块，用于将存储在Hadoop分布式文件系统中的半结构化数据以及非结构化数据，与存储在数据仓库中的数据进行关联，并调用Map/Reduce对这些数据进行分布式处理，得到中间计算结果；然后，把关联的各种异构数据以及中间计算结果，保存到HBase分布式数据库中；同时，一部分数据通过ETL加载到数据仓库中；

HBase分布式数据库模块，通过ETL，把其中的各类数据按照不同的主题，加载到相应的数据集市中；

在数据集市模块中，对加载的数据进行数据挖掘和OLAP分析，并把得出的局部知识结果回写到数据仓库中，数据仓库对各个业务主题的局部知识结果统一存储并管理，形成数据仓库中的知识层，得到全局知识结果；每个数据集市能够分享到全局知识结果，并利用全局知识结果挖掘出更多的数据知识；这个过程不断循环进行，形成一个有效的知识信息闭环，提高了知识的重复利用以及数据挖掘的性能，进一步提高整个系统的分析质量。

3.一种数据仓库持续共享知识的方法，包括：

ODS把经过处理后的业务数据通过ETL传送给数据仓库，数据仓库应Hive的需求，把其中相关联的数据传递给Hive；

Hive对关联的异构数据进行Map/Reduce分布式处理，通过分布式处理后，得到了处理的中间结果，在一定程度上减少待处理的数据量；把部分关联数据及处理的中间结果通过ETL的方式传递给数据仓库；

数据仓库根据不同主题的需要，把这些数据分别传送不同的数据集市；

数据集市获得数据仓库的数据，以及HBase传递过来的关联数据及中间结果数据，在不同数据集市中通过各自的数据挖掘算法进行计算处理，并把得到的局部知识结果回写到数据仓库；

数据仓库获得各个数据集市传递过来的局部知识结果，进行整合处理，通过数据宽表形成全局知识结果，并把全局知识结果传递给各个数据集市进行共享；

数据集市结合获得的数据宽表中的数据，通过新的数据挖掘算法进行计算，不断深化知识结果，再把深化的局部知识结果回写到数据仓库；其中，新的数据挖掘算法是根据更新后的知识结果，加入到数据集市的挖掘算法；

数据仓库获得数据集市新的局部知识结果，并不断整合多个数据集市的局部知识结果，形成新的全局知识结果，再传递给各个数据集市共享，此过程不断循环；

其具体步骤为：

步骤301：数据仓库从ODS获得业务数据，其中包括注册数据、产品数据、销售数据、询盘数据、商情数据、关键词数据，这些数据是结构化数据，以及业务系统中的社交信息、产品详细描述、询盘内容、网站留言、邮件内容文本型的非结构化数据作为非结构化数据；

步骤302：根据关联关系，数据仓库把相关联的数据传递给Hive；

步骤303：Hive对关联数据进行Map/Reduce分布式处理，得到中间计算结果，把关联的数据及中间计算结果通过ETL传递给数据仓库；其中这些中间结果已经融合了结构化数据、半结构化数据、以及非结构化数据；

步骤304：数据仓库把数据按照不同的主题，通过ETL传递给数据集市；

步骤305：数据集市接收到数据仓库的数据，结合从HBase传递给数据集市的数据，利用数据挖掘算法进行计算，形成局部知识结果；这对结构化数据、半结构化数据、以及非结构化数据融合后的数据又进行了深化整合；

步骤306：各个数据集市把挖掘计算后得到局部知识结果回写到数据仓库；

步骤307：数据仓库对各个数据集市回写的知识结果进行整合，形成数据宽表，得到全局知识结果，并共享给各个数据集市；这样，每个数据集市都获得了全局知识结果；

步骤308：各个数据集市获得全局知识结果后，根据需要，一些数据集市采用新的数据挖掘算法进行计算，获得进一步的新的局部知识结果，并把这些新的局部知识结果返回给数据仓库处理；其中，系统根据研发人员是否加入新的数据挖掘算法进行循环计算。