CN105095392B - 一种数据集市间共享数据的方法及装置 - Google Patents

一种数据集市间共享数据的方法及装置 Download PDF

Info

Publication number
CN105095392B
CN105095392B CN201510381519.3A CN201510381519A CN105095392B CN 105095392 B CN105095392 B CN 105095392B CN 201510381519 A CN201510381519 A CN 201510381519A CN 105095392 B CN105095392 B CN 105095392B
Authority
CN
China
Prior art keywords
data
file
fairground
mart
shared region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510381519.3A
Other languages
English (en)
Other versions
CN105095392A (zh
Inventor
曹明爽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Jingdong Shangke Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Jingdong Shangke Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN201510381519.3A priority Critical patent/CN105095392B/zh
Publication of CN105095392A publication Critical patent/CN105095392A/zh
Application granted granted Critical
Publication of CN105095392B publication Critical patent/CN105095392B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据集市间共享数据的方法及装置。所述方法包括从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。本发明实现多个数据集市间数据共享的目的,避免了存储资源的浪费,解决了数据集市之间数据访问的一致性问题。

Description

一种数据集市间共享数据的方法及装置
技术领域
本发明实施例涉及数据库技术领域,尤其涉及一种数据集市间共享数据的方法及装置。
背景技术
随着企业业务的发展,会产生大量的业务数据,通常企业会选择建立数据仓库来收集数据,并按主题划分存储这些数据。而企业中各个部门会有特定的数据需求,需要将数据仓库中收集的数据,通过一定逻辑加工后,推送到部门的数据集市中。参见图1所示,数据仓库和数据集市是一对多的关系,一份数据仓库中的数据,需要推送到多个部门的数据集市。
现有技术中,一般是采用配置一对一的数据推送任务脚本的方式,将数据仓库中的数据,按照一表一集市一任务的方式推送到数据集市。具体过程如下:
步骤一、在需要推送数据的数据集市中,将每个表配置推送规则,初始化相关的元数据和映射关系;
步骤二、按照一表一集市一任务的方式,为每个数据集市的每个表编写相关的数据推送脚本,并且在数据仓库的调度系统中部署这些脚本;
步骤三、按照数据推送规则,调度运行数据推送脚本,将数据拷贝到各个数据集市,在每个数据集市内形成一个数据文件副本。
由于针对每个数据集市,需要一份独立的数据文件副本,随着数据集市个数不断增加,相同数据的数据文件副本数越来越多,浪费数据集市的存储资源;同时,也增加数据的管理难度。并且,当数据仓库数据错误或其他原因,需要修复时,同时需要修复每个数据集市的数据文件副本,增加数据维护成本,也非常容易造成某些数据集市的数据文件副本没有及时更新,导致数据不一致。
发明内容
本发明提供一种数据集市间共享数据的方法及装置,以实现多个数据集市间数据共享的目的,避免了存储资源的浪费,解决了数据集市间数据访问的一致性问题。
第一方面,本发明实施例提供了一种数据集市间共享数据的方法,包括:
从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;
在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
第二方面,本发明实施例还提供了一种数据集市间共享数据的装置,包括:
数据文件复制单元,用于从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;
副本文件查找单元,用于在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
本发明通过从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件,创建与所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件,从而实现需要访问相同数据文件的数据集市可以访问同一份副本文件,避免为每个数据集市创建一份与所述数据文件对应的副本文件,实现了多个数据集市间数据共享的目的,同时,避免了数据集市服务器的存储资源浪费的问题;以及,仅有一份与数据文件对应的副本文件,避免由于相同数据文件的副本文件较多,在数据修复时,容易造成某些数据集市的数据文件的副本文件没有及时更新而导致数据不一致的问题,有效的保证了数据的一致性。
附图说明
图1为现有技术中数据仓库和数据集市之间的数据文件推送方式示意图;
图2是本发明实施例一中的一种数据集市间共享数据的方法的流程图;
图3是本发明实施例二中的一种数据集市间共享数据的方法的流程图;
图4是本发明实施例二中的一种数据集市间共享数据的方法的示意图;
图5是本发明实施例三中的一种数据集市间共享数据的装置的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图2为本发明实施例一提供的一种数据集市间共享数据的方法的流程图,本实施例可适用于不同数据集市之间共享数据仓库推送的数据文件的情况,该方法可以由数据集市间共享数据的装置来执行,该装置被配置于数据集市服务器中,可以由硬件和/或软件的方式实现。所述数据集市间共享数据的方法具体包括如下步骤:
步骤110、从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件。
其中,数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,即数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。所述预先设置的集市存储共享区可以是在所述数据集市服务器中划分出来的独立的存储所述副本文件的存储空间,或者以其它方式创建的保证存储于所述集市存储共享区中的副本文件与所述数据集市位于相同的数据集群中的存储空间。所述数据集市是按照某一特定部门的决策支持需求而组织起来的、针对一组主题的应用系统。例如,财务部拥有自己的数据集市,用来进行财务方面的报表和分析,市场推广部、销售部等也拥有各自专用的数据集市,用来为本部门的决策支持提供辅助手段。所述数据集市服务器是构建所述数据集市所需的服务器的集群。
通过预先编写的脚本文件访问数据仓库以获取所需要的数据文件,将所述数据文件拷贝到预先设置的集市存储共享区,作为所述数据文件的一个副本文件,目的是供需要访问所述数据文件的不同的数据集市共享所述数据文件。在执行完脚本文件将从数据仓库中抽取的数据文件复制到所述集市存储共享区之后,需要确定所述数据仓库中所抽取的数据文件是否发生修改,以便在所述数据文件被修改后及时更新所述集市共享区内的副本文件。例如,实时监测所述数据仓库内所抽取的数据文件的状态,在所述数据仓库内的数据文件发生变化时,再通过预先编写的脚本文件抽取变化后的数据文件以更新所述集市存储共享区内的副本文件,其中,所述数据仓库和所述集市存储共享区均采用分布式文件系统架构存储数据文件。
步骤120、在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
所述外部表是不存在于数据库中的表,是对数据库表的延伸。通过EXTERNAL(外部的)关键字可以为用户创建一个外部表,在建表的同时指定一个指向实际数据的存储路径(LOCATION),仅记录数据所在的路径,不对数据的位置做任何改变。例如,在所述数据集市服务器共享区外的各个数据集市中通过数据仓库工具创建外部表,将所述外部表中文件的存储路径(LOCATION)指向所述集市存储共享区内的所述副本文件。其中,所述数据仓库工具可以是基于分布式文件系统(Hadoop)的工具。所述集市通过查询与该集市对应的外部表即可获得与所述外部表对应的副本文件。
本实施例的技术方案,通过从数据仓库中抽取数据文件,并复制到预先设置的集市存储共享区作为所述数据文件的一个副本文件,创建与所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件,从而实现需要访问相同数据文件的数据集市可以访问同一份副本文件,避免为每个数据集市创建一份与所述数据文件对应的副本文件,实现了多个数据集市间数据共享的目的,同时,避免了数据集市服务器的存储资源浪费的问题;以及,仅有一份与数据文件对应的副本文件,避免由于相同数据文件的副本文件较多,在数据修复时,容易造成某些数据集市的数据文件的副本文件没有及时更新而导致数据不一致的问题,有效的保证了数据的一致性。
实施例二
图3是本发明实施例二中的一种数据集市间共享数据的方法的流程图。参见图3所示,所述数据集市间共享数据的方法,具体包括如下步骤:
步骤310、按照数据推送规则,运行数据推送脚本,从数据仓库中抽取数据文件并复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件。
企业中各个部门会有特定的数据需求,根据所述数据需求制定数据推送规则。按照所述数据推送规则调度运行数据推送脚本,从数据仓库中抽取数据文件并拷贝到预设的集市存储共享区。将所述集市存储共享区内的数据文件作为所述数据仓库内的所抽取的数据文件的一个副本文件。
步骤320、判断所述数据文件是否更新,若是,则执行步骤330,若否,则执行步骤340。
由于各个数据源的数据不是一成不变的,在数据源的数据发生变化时,所述数据仓库内的数据文件也会相应的发生变化。因此,在执行完脚本文件将从数据仓库中抽取的数据文件复制到所述集市存储共享区之后,需要确定所述数据仓库中所抽取的数据文件是否有数据修改。若所述数据文件的数据存在变化,则执行步骤330。若所述数据文件的数据未发生变化,则执行步骤340。
步骤330、将更新后的所述数据文件复制到预先设置的集市存储共享区,以更新所述数据文件的副本文件。
步骤340、在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径。
步骤350、数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
在数据集市需要抽取数据仓库中的数据文件进行后续处理时,只需通过查询所创建的外部表,即可获取所要抽取的数据文件的副本文件。其中,所述外部表包含的存储路径(LOCATION)指向所述集市存储共享区内的与所要抽取的数据仓库中的数据文件对应的副本文件。
本实施例的数据集市间共享数据的具体方法参见图4所示,将所述数据集市服务器的逻辑存储空间划分为集市存储共享区和业务集市区(业务集市区包括各个数据集市独立的存储区)。在所述集市存储共享区内存储从所述数据仓库中抽取的数据文件的副本文件,在所述业务集市包括的各个数据集市中安装数据仓库工具软件,通过所述数据仓库工具软件创建外部表,所述外部表的元数据通常是存储在另外一个关系型数据库(例如MySQL)中。例如,如果数据集市A和数据集市B均要抽取所述数据仓库的表T2,用于后续开发使用,可以通过如下方式实现:按照数据推送规则,运行数据推送脚本将所述数据仓库中的表T2对应的HDFS(Hadoop Distributed File System,分布式文件系统)文件拷贝到所述数据集市中的集市存储共享区,标记为文件F2。然后,在数据集市A和数据集市B中,分别采用基于分布式文件系统(Hadoop)的数据仓库工具(Hive)创建外部表Ta和Tb,且所述外部表Ta和Tb包含的存储路径(LOCATION)均指向所述集市存储共享区的文件F2。因此,在所述数据集市A中查询所述外部表Ta的数据,实际上就是读取文件F2的数据。在所述数据集市B中查询所述外部表Tb的数据,实际上也是读取文件F2的数据,所述数据集市A和所述数据集市B共享数据文件F2。若所述数据仓库中的表T2的数据被修改了,则重新抽取表T2对应的HDFS文件拷贝到集市存储共享区以替换原文件F2,将替换后的文件标记为F2。这样做的好处在于:所述数据集市A和数据集市B均能够同时读取到最新的数据,保证了数据的一致性。
实施例三
图5是本发明实施例三中的一种数据集市间共享数据的装置的结构示意图。所述数据集市间共享数据的装置,包括:
数据文件复制单元510,用于从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;
副本文件查找单元520,用于在数据集市服务器中创建与所述集市存储共享区内的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
本实施例的技术方案,通过数据文件复制单元510从数据仓库中抽取数据文件,并复制到预先设置的集市存储共享区作为所述数据文件的一个副本文件,并通过副本文件查找单元520创建与所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件,从而实现需要访问相同数据文件的数据集市可以访问同一份副本文件,避免为每个数据集市创建一份与所述数据文件对应的副本文件,实现了多个数据集市间数据共享的目的,同时,避免了数据集市服务器的存储资源浪费的问题;以及,仅有一份与数据文件对应的副本文件,避免由于相同数据文件的副本文件较多,在数据修复时,容易造成某些数据集市的数据文件的副本文件没有及时更新而导致数据不一致的问题,有效的保证了数据的一致性。
进一步,所述装置还包括:
副本文件更新单元,用于在将从数据仓库中抽取的数据文件复制到所述集市存储共享区之后,在所述数据仓库内的数据文件发生变化时,抽取变化后的数据文件以更新所述集市存储共享区内的副本文件。
进一步,所述预先设置的集市存储共享区是在所述数据集市服务器中划分出来的独立的存储所述副本文件的存储空间。
进一步,所述副本文件查找单元520具体用于:
在所述数据集市服务器共享区外的各个数据集市中通过数据仓库工具创建外部表,将所述外部表中文件的存储路径指向所述集市存储共享区内的所述副本文件。
进一步,所述数据仓库和所述集市存储共享区均采用分布式文件系统架构存储数据文件,以及,所述外部表是通过基于分布式文件系统的数据仓库工具创建的数据表。
上述数据集市间共享数据的装置可执行本发明任意实施例所提供的数据集市间共享数据的方法,具备执行方法相应的功能模块和有益效果。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种数据集市间共享数据的方法,其特征在于,包括:
根据各个数据集市的数据需求制定数据推送规则,按照所述数据推送规则调度运行数据推送脚本,从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;
在数据集市服务器中的各个数据集市中创建与所述集市存储共享区内的、数据集市所需的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的、数据集市所需的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
2.根据权利要求1所述的方法,其特征在于,在将从数据仓库中抽取的数据文件复制到所述集市存储共享区之后,还包括:
在所述数据仓库内的数据文件发生变化时,抽取变化后的数据文件以更新所述集市存储共享区内的副本文件。
3.根据权利要求1所述的方法,其特征在于,所述预先设置的集市存储共享区是在所述数据集市服务器中划分出来的独立的用于存储所述副本文件的存储空间。
4.根据权利要求3所述的方法,其特征在于,所述在数据集市服务器中的各个数据集市中创建与所述集市存储共享区内的、数据集市所需的所述副本文件对应的外部表,包括:
在所述数据集市服务器共享区外的各个数据集市中,通过数据仓库工具创建外部表,将所述外部表中文件的存储路径指向所述集市存储共享区内的、数据集市所需的所述副本文件。
5.根据权利要求1-4中任一所述的方法,其特征在于,所述数据仓库和所述集市存储共享区均采用分布式文件系统架构存储数据文件,以及,所述外部表是通过基于分布式文件系统的数据仓库工具创建的数据表。
6.一种数据集市间共享数据的装置,其特征在于,包括:
数据文件复制单元,用于根据各个数据集市的数据需求制定数据推送规则,按照所述数据推送规则调度运行数据推送脚本,从数据仓库中抽取数据文件,将所述数据文件复制到预先设置的集市存储共享区,作为所述数据文件的一个副本文件;
副本文件查找单元,用于在数据集市服务器中的各个数据集市中创建与所述集市存储共享区内的、数据集市所需的所述副本文件对应的外部表,所述外部表中包含指向所述集市存储共享区内的、数据集市所需的所述副本文件的存储路径,以使数据集市通过查询所述外部表获取与所述外部表对应的副本文件。
7.根据权利要求6所述的装置,其特征在于,所述装置还包括:
副本文件更新单元,用于在将从数据仓库中抽取的数据文件复制到所述集市存储共享区之后,在所述数据仓库内的数据文件发生变化时,抽取变化后的数据文件以更新所述集市存储共享区内的副本文件。
8.根据权利要求6所述的装置,其特征在于,所述预先设置的集市存储共享区是在所述数据集市服务器中划分出来的独立的存储所述副本文件的存储空间。
9.根据权利要求7所述的装置,其特征在于,所述在数据集市服务器中的各个数据集市中创建与所述集市存储共享区内的、数据集市所需的所述副本文件对应的外部表,包括:
在所述数据集市服务器共享区外的各个数据集市中,通过数据仓库工具创建外部表,将所述外部表中文件的存储路径指向所述集市存储共享区内的、数据集市所需的所述副本文件。
10.根据权利要求6-9中任一所述的装置,其特征在于,所述数据仓库和所述集市存储共享区均采用分布式文件系统架构存储数据文件,以及,所述外部表是通过基于分布式文件系统的数据仓库工具创建的数据表。
CN201510381519.3A 2015-07-02 2015-07-02 一种数据集市间共享数据的方法及装置 Active CN105095392B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510381519.3A CN105095392B (zh) 2015-07-02 2015-07-02 一种数据集市间共享数据的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510381519.3A CN105095392B (zh) 2015-07-02 2015-07-02 一种数据集市间共享数据的方法及装置

Publications (2)

Publication Number Publication Date
CN105095392A CN105095392A (zh) 2015-11-25
CN105095392B true CN105095392B (zh) 2018-09-04

Family

ID=54575829

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510381519.3A Active CN105095392B (zh) 2015-07-02 2015-07-02 一种数据集市间共享数据的方法及装置

Country Status (1)

Country Link
CN (1) CN105095392B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109213739A (zh) * 2017-06-29 2019-01-15 上海共联通信信息发展有限公司 一种共享文件的信息处理方法
CN107679096B (zh) * 2017-09-08 2020-06-05 北京京东尚科信息技术有限公司 数据集市间指标共享的方法和装置
CN109766708B (zh) * 2017-11-09 2021-04-30 北京京东尚科信息技术有限公司 数据资源的访问方法、系统、计算机系统及存储介质
CN109543448B (zh) * 2018-11-16 2022-07-15 深圳前海微众银行股份有限公司 Hdfs文件访问权限控制方法、设备及存储介质
CN111984686A (zh) * 2019-05-24 2020-11-24 北京京东尚科信息技术有限公司 一种数据处理的方法和装置
CN113032352A (zh) * 2019-12-24 2021-06-25 阿里巴巴集团控股有限公司 副本的配置方法、装置、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101047610A (zh) * 2007-04-30 2007-10-03 华为技术有限公司 数据存储、读取、传输方法和管理服务器及网络节点
KR20080046067A (ko) * 2006-11-21 2008-05-26 엠텍비젼 주식회사 메모리 시스템 및 듀얼 포트 메모리의 접근 제어 방법
CN101552945A (zh) * 2009-05-08 2009-10-07 中兴通讯股份有限公司 一种实现媒体内容共享的方法及系统
CN101841425A (zh) * 2009-12-25 2010-09-22 创新科存储技术有限公司 一种无代理的网络备份方法、装置和系统
CN102185911A (zh) * 2011-04-25 2011-09-14 杭州和利时自动化有限公司 一种分布式控制系统的对等通信方法和系统
CN103780684A (zh) * 2014-01-10 2014-05-07 清华大学 基于文件系统的智能设备间数据共享方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6044374A (en) * 1997-11-14 2000-03-28 Informatica Corporation Method and apparatus for sharing metadata between multiple data marts through object references
JP2002535756A (ja) * 1999-01-15 2002-10-22 ハーモニー ソフトウェア,インコーポレイティド マルチ企業からのビジネス情報を処理するための方法および装置
CN103577605A (zh) * 2013-11-20 2014-02-12 贵州电网公司电力调度控制中心 基于数据融合和数据挖掘的数据仓库及其应用方法
CN103678665B (zh) * 2013-12-24 2016-09-07 焦点科技股份有限公司 一种基于数据仓库的异构大数据整合方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080046067A (ko) * 2006-11-21 2008-05-26 엠텍비젼 주식회사 메모리 시스템 및 듀얼 포트 메모리의 접근 제어 방법
CN101047610A (zh) * 2007-04-30 2007-10-03 华为技术有限公司 数据存储、读取、传输方法和管理服务器及网络节点
CN101552945A (zh) * 2009-05-08 2009-10-07 中兴通讯股份有限公司 一种实现媒体内容共享的方法及系统
CN101841425A (zh) * 2009-12-25 2010-09-22 创新科存储技术有限公司 一种无代理的网络备份方法、装置和系统
CN102185911A (zh) * 2011-04-25 2011-09-14 杭州和利时自动化有限公司 一种分布式控制系统的对等通信方法和系统
CN103780684A (zh) * 2014-01-10 2014-05-07 清华大学 基于文件系统的智能设备间数据共享方法

Also Published As

Publication number Publication date
CN105095392A (zh) 2015-11-25

Similar Documents

Publication Publication Date Title
CN105095392B (zh) 一种数据集市间共享数据的方法及装置
CN112567358B (zh) 对数据库系统中的外部表进行查询
US9740706B2 (en) Management of intermediate data spills during the shuffle phase of a map-reduce job
Shanahan et al. Large scale distributed data science using apache spark
Cordova et al. DBSCAN on resilient distributed datasets
Băzăr et al. The Transition from RDBMS to NoSQL. A Comparative Analysis of Three Popular Non-Relational Solutions: Cassandra, MongoDB and Couchbase.
US9135071B2 (en) Selecting processing techniques for a data flow task
CN107003935A (zh) 优化数据库去重
CN102214205A (zh) 带有自适应克隆的经聚类的数据库系统中的逻辑复制
CN106104526A (zh) 半结构化数据模式的透明发现
CN102483768A (zh) 基于策略的储存结构分布
CN105069151A (zh) HBase二级索引构建装置和方法
CN104346479A (zh) 一种数据库同步方法及装置
CN110297869B (zh) 一种ai数据仓库平台及操作方法
US20160085832A1 (en) System and method of analyzing data using bitmap techniques
CN105389367A (zh) 基于Mongo数据库的电网图形多时态多级分布式存储方法
CN102609446A (zh) 一种分布式Bloom过滤系统及其使用方法
US20160124955A1 (en) Dual overlay query processing
CN114329096A (zh) 一种原生图数据库处理方法及系统
US20140324928A1 (en) Large-scale data transfer
US10031904B2 (en) Database management system based on a spreadsheet concept deployed in an object grid
JP6700554B2 (ja) 分散処理管理方法、分散処理管理プログラム、および分散処理管理装置
CN100501737C (zh) 用于内容受管制的数据的数据库方案及其创建方法和系统
CN110442645A (zh) 数据索引方法及装置
GB2602704A (en) Tracking change data capture log history

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant