CN108701154B - 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法 - Google Patents
数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法 Download PDFInfo
- Publication number
- CN108701154B CN108701154B CN201780013415.4A CN201780013415A CN108701154B CN 108701154 B CN108701154 B CN 108701154B CN 201780013415 A CN201780013415 A CN 201780013415A CN 108701154 B CN108701154 B CN 108701154B
- Authority
- CN
- China
- Prior art keywords
- data
- fact
- partition
- partitions
- dimensions
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
- G06F16/24554—Unary operations; Data partitioning operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/08—Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
- G06Q10/087—Inventory or stock management, e.g. order filling, procurement or balancing against orders
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Small-Scale Networks (AREA)
Abstract
提供了一种数据源系统不可知的事实分区信息存储库系统,所述事实分区信息存储库系统包括:数据存储库,所述数据存储库包括:多个事实分区;多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享;以及多个数据源系统特定数据映射;数据接收器,所述数据接收器用于从多个数据源系统接收数据;以及数据映射器,所述数据映射器用于使用所述多个数据源系统特定数据映射将数据分区成所述多个事实分区。
Description
技术领域
本发明总体上涉及数据入库,尤其涉及数据源系统不可知的事实类别分区信息存储库以及相关联的用于使用信息存储库插入和检索数据的方法。
背景技术
传统的数据入库技术存在的问题在于,数据是源系统特定的,并且数据仓库将数据存储在类似的结构上下文中。
例如,数据入库的主要方法包括维度方法和归一化方法。
在维度方法(由Ralph Kimball提出)中,数据被分区成“事实”和“维度”,“事实”通常由主题区域组织,“维度”是给出事实上下文的参考信息。
图1中示出了利用维度方法的这种现有技术数据仓库。
如图可看出的,对于每个源系统21,现有技术的数据维度数据仓库26包括相关联的主题区域27。
例如,对于销售点系统21的主题区域27,销售交易可以分解为事实28和维度29,事实诸如:订购的产品数量和为产品支付的价格,维度诸如:订单数据、客户名称、产品编号、订单收货地点和收单地点、以及负责接收订单的销售人员。
维度方法的关键优势是用户更易于理解和使用数据仓库。而且,从数据仓库中检索数据趋向于非常快地运行。对于业务用户而言,维度结构易于理解,因为结构被划分为度量/事实和上下文/维度。事实与组织的业务流程和运营系统有关,而围绕它们的维度则提供了上下文。由维度模型提供的另一个优点是它并不总是需要关系数据库查询。因此,这种类型的建模技术对终端用户查询是非常有用的。
然而,维度方法的缺点在于,为了保持事实和维度的完整性,向数据仓库加载来自不同运营系统的数据是复杂的。在大多数(如果不是全部)实例中,构建和存储在数据仓库中的事实是特定于运营交易或流程的,称为“主题区域”事实。这些事实被严格限制在他们的主题区域,因此在没有广泛解构的情况下不适合进行关系分析。类似地,跨限定主题区域的时间上下文通常是不同的,从而意味着作为维度的时间必须是范围受限制的并且可能不易于表示跨所有事实的时刻。
此外,由于“主题区域”发生变化以与新业务保持一致并且旧数据变得过时,如果采用维度方法的组织改变业务流程,则使用维度方法难以修改数据仓库结构。另外,在数据仓库中描述组织的多个主题区域所需的大量维度导致快速扩展和具有许多(通常是重复的)维度的复杂模式或设计。
此外,从现有技术的维度数据仓库26的各个不同的主题区域27中提取数据需要生成数据“立方体”30,数据立方体出于各种目的(例如,分析销售人员的表现)选择性地选择和关联各种数据。设置和利用立方体不仅繁琐,而且还可能导致不希望的数据重复。
在归一化方法(由Bill Inmon提出)中,数据仓库中的数据在一定程度上是遵循数据库归一化规则进行存储的。表格通过反映一般数据类别的主题区域(例如,关于客户、产品、财务等的数据)分组在一起。归一化结构将数据划分为实体,在关系数据库中创建若干表格。
当应用于大型企业时,归一化方法会导致许多通过联接网链接在一起的表格。此外,当实施数据库时,每个创建的实体都被转换为单独的物理表格。
归一化方法的主要优点是直接将信息添加到数据库中。这种方法的缺点在于,由于涉及到大量表格,用户可能难以将来自不同源的数据加入有意义的信息中并且在没有准确了解数据源和数据仓库的数据结构的情况下访问信息。
发明内容
本发明力图提供一种将克服或基本上改善现有技术的至少一些(如果不是全部)缺陷的静态且可配置的数据仓库结构,或者至少力图提供可持续的替代方案。
这样,本发明涉及一种数据存储库,所述数据存储库是交易数据和数据源系统均不可知的。
具体地,如图2所示,本数据存储库8被划分为特定事实分区16(由数据的类型或类别而不是主题区域进行分类)和与事实分区16相关地存储的特定可定制维度。
此外,利用数据源特定映射/插件19将从不同数据源系统接收到的数据映射/转换成适当的格式,以便存储在特定事实分区和相关联的维度内。
以这种方式,本数据存储库可以用于接收和共享来自不同运营系统和其他源系统的数据,而无需修改基础事实分区、现有报告、分析流程和维度。
另外,如果需要特定于业务的定制,则可以通过向相关的一个或多个共享维度数据库表添加列以将附加的上下文信息存储在本数据存储库中。
使用上文限定的存储库,可以从多个数据源系统(如人力资源、工资单、电子商务、零售、生产入库、库存控制和其他类型的运营系统)接收数据,而无需包含额外的事实表。源系统特定映射则可以用于将从每个不同的运营系统接收到的数据映射/分解/分区成用于基础事实分区和维度的公共存储库格式。
类似地,对于检索,数据可以如在存储库内一样使用,或者替代性地使用相关的源系统特定映射“反向映射”或“重构”以将存储在基础事实分区和维度内的数据映射到适合于每个运营系统的数据中。
这样,本实施例可以使用发布/推送而不是拉的方法以允许在业务交易时执行数据传输。
此外,本事实分区存储库8可以接受所有新数据流而不重新设计模式。
此外,当添加新的业务构造时,本事实分区存储库8取消了对添加新事实类型的需求。
此外,本方法论允许归一化加载过程,有助于快速接受新的数据流。
此外,本事实分区存储库结构允许静态加载过程,这意味着仅从存储库中提取数据可能需要配置,从而避免在数据输入期间分阶段进行,其中源处的记录被清除。
此外,本事实分区存储库提供粒度的、经解构的且可靠的(直接来自源的)数据,从而消除了对数据集市/立方体的需求。当数据在PTL过程中被解构为直接来自其“真实源”的相关事实分区和相关联的维度,在存储库与分析工具之间不需要数据集市或立方体,原因在于本存储库本身变为那个数据集市或立方体。数据的粒度还有助于“苹果与苹果”的比较,并且提供一致性和可靠性。
此外,本方法论允许在进入存储库之前在源处拒绝脏记录,从而消除完整性问题。
与现有技术相比,US 2010/0070421 A1(FAZAL等)(下文称为“D1”)公开了一种用于管理组织绩效的数据仓库系统。D1的数据仓库系统包括用于存储表示适用于多个组织的维度和度量的数据的数据模型、以及用于设置占位符使得数据模型表示特定组织的配置单元。这构成了在跨许多组织的相同上下文中使用的单个事实定义,而不是事实结构的多类别集合。
然而,D1涉及提供用于记录运营绩效的特定数据库结构,因此不涉及出于报告或分析目的而提供运营系统不可知的数据存储的问题。数据仓库记录由基础业务功能或“主题区域”(例如“销售分析”)而不是数据类型或类别明确地组织。
US 2009/0271345 A1(RICH等)(以下称为“D2”)公开了一种数据仓库,所述数据仓库使用交易数据库的关系映射来构造而无需重构交易数据库的数据关系。首先,应用程序员分析对象模型,以便使用对象、属性、以及对象模型的路径来描述事实和维度。每个维度都具有标识符,所述标识符将交易数据库中的项目与数据仓库中的维度记录相关联。事实和维度描述被保存到描述文件中。其次,数据仓库引擎(DWE)然后访问描述文件并且使用对象模型、事实和维度描述、以及对象关系映射来将交易数据映射到数据仓库。这构成了用于单一数据入库保留和分析的单个事实类别定义。
然而,D2引用了由对象定义、实际上是相关联的单一“主题区域”将源交易映射到单个交易类型,所述单个交易类型没有超出当前对象类型的范围、并且因为对象定义是静态的而也没有任何能力来提供交易数据上下文的灵活性。
US 2010/0106747 A1(HONZAL等)(以下称为“D3”)公开了利用来自一组数据存储库的维度数据模型来填充数据集市,所述数据存储库包含关于一组相关资产的事实信息和相关联信息。生成中间数据仓库以处理每个资产的事实和关联项。使用中间仓库,生成带有事实表、维度和层次结构的一个或多个数据集市,以对每个资产可用的信息进行充分建模。
然而,D3指示出适用于已位于数据仓库存储库或类似物中的数据中的“分阶段”关系数据库(在D3中具体称为“中间数据仓库”)。这种分阶段在进入立方体形式之前发生,并且用于明确地表达仅与一种信息类型相关的当前数据仓库静态维度。
US 2003/0233297 A1(CAMPBELL)(以下称为“D4”)公开了税收相关数据的交易相关维度,用于生成事实细节以促进税收的支付。首先,提供税收相关数据的交易相关维度连同交易相关维度的多个属性。此类属性包括基于交易标识符确定的交易行项目、交易类型、税收类型、客户帐户标识符、销售地点地理代码、收货地点地理代码、合同号、采购订单编号、供应商帐户标识符、以及供应商邮政编码。接下来,接收与交易相关维度的属性相关联的多个条目。然后,使用交易相关维度的预定属性集的条目生成多个事实细节。其后,输出事实细节。
然而,D4表示单个业务类型或主题区域(税务),并且没有相关的能力来存储来自其他业务类型(例如采矿和制造)的交易,而且,除了财务服务中的单一税收模型之外,没有上下文能力,因此,作为抵押或信贷协议等项目在此模型中没有任何地位。
US 2008/0120129 A1(SEUBERT等)(下文称为“D5”)公开了一种用于生成接口的业务对象模型,所述业务对象模型反映了在给定业务交易期间使用的数据。此业务对象模型通过提供一致的接口来促进商业交易,所述接口适合用于跨产业、跨业务以及在业务交易期间跨业务内的不同部门。
然而,D5中的交易是特定于主题区域的并且彼此之间没有关联,因此在没有特定解构的情况下不提供内部分析能力。
US 2007/0239711 A1(UNNEBRINK等)(以下称为“D6”)公开了将交易数据模型映射到报告数据模型,其包括接收交易数据模型和包括视图字段集合的视图(每个视图字段引用交易数据模型中的对象)、将集合中的所述多个视图字段中的一个或多个视图字段映射到多个数据仓库对象中的一个或多个数据仓库对象、以及将所映射的数据仓库对象分组到报告数据模型中。
然而,D6明确地描述了一种标准数据仓库,与任何交易分解相反,所述数据仓库通过在视图中重新定义使主题区域特定数据(而不是数据的分类)的用户视角更加可用。
从前述内容可理解到,所引用的参考文献均未涉及提供数据源系统不可知的信息存储库的问题。
此外,所引用的参考文献均未教导或建议本发明实施例的包括存储库结构的特征,所述存储库结构包括根据特定事实分区类型(是数据类别而不是生成的主题区域)分区的并且与各个共享维度相关地存储的事实分区。
此外,所引用的参考文献均未教导或公开数据映射器的使用,所述数据映射器用于根据数据源系统特定数据映射对所接收的数据进行转换/映射/分区,使得能够将来自多个数据源系统的数据转换成适用于特定事实分区和相关联的共享维度数据结构的通用格式。
如从随后的描述中将变得显而易见的是,本实施例的数据源系统不可知的信息存储库不同于上述现有技术的维度方法和归一化方法。
具体地,鉴于本实施例的数据源系统不可知的信息存储库可以被认为与现有技术的归一化方法相比与维度方法更相关,本实施例的数据源系统不可知的信息存储库与现有技术的维度方法的主要不同在于,根据本实施例,事实是根据数据类别或类型而不是主题区域来分区的。如上文在背景技术部分中提到的,现有技术的维度事实通常由主题区域而不是数据类型或类别来组织。
本文公开的特定数据类别允许“通用描述性”数据源系统不可知的信息存储库能够存储与物理或逻辑世界的大多数(如果不是全部)可能场景相关的交易数据和其他数据,从而克服常规维度方法安排的问题,在所述安排中如果采用维度方法的组织改变业务流程、或者希望从额外的数据源系统引入数据,则难以修改数据源系统不可知的信息存储库。
数据源系统不可知的信息存储库在简化和有效检索存储在数据源系统不可知的信息存储库中的数据方面进一步提供了技术优势。
此外,跨运营系统的数据结构通用性允许跨运营系统数据无处不在,从而克服归一化方法的问题,在归一化方法中用户可能难以将来自不同的源和主题区域的数据加入有意义的信息中并且在没有准确了解数据源和数据源系统不可知的信息存储库的数据结构的情况下访问信息。
此外,并且如下文将描述的,数据源系统不可知的信息存储库包括通过利用特定维度类型在分区数据类别之间的维度共同性,简化了数据源系统不可知的信息存储库,从而引起简化且有效的插入查询和选择查询等。
这样,考虑到前述内容,根据一个方面,提供了一种数据源系统不可知的事实分区数据信息存储库系统,所述事实分区数据信息存储库系统包括:数据存储库,所述数据存储库包括:多个事实分区;多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享;以及多个数据源系统特定数据映射;数据接收器,所述数据接收器用于从多个数据源系统接收数据;以及数据映射器,所述数据映射器用于使用所述多个数据源系统特定数据映射将数据分区成所述多个事实分区。
所述多个事实分区可以包括事件事实分区,所述事件事实分区用于存储事件发生。
所述多个事实分区可以包括数量事实分区,所述数量事实分区用于存储数量。
所述多个事实分区可以包括货币事实分区,所述货币事实分区用于存储货币金额。
所述多个事实分区可以包括GIS事实分区,所述GIS事实分区用于存储GIS位置。
所述多个事实分区可以包括百分位事实分区,所述百分位事实分区用于存储百分位数。
所述多个事实分区可以包括参考事实分区,所述参考事实分区用于存储参考值。
所述多个事实分区可以包括非结构化事实分区,所述非结构化事实分区用于存储到达非结构化数据的链接,所述非结构化数据存储在所述数据仓库中或不同位置。
至少一个事实分区数据类型可以是至少两个事实分区数据类别,并且其中,存储所述至少两个事实分区数据类型可以包括将所述至少两个事实分区数据类型存储在所述事实分区中的各自包括时间戳值的至少两个事实分区中;并且其中,从所述存储库检索数据可以包括通过使用时间戳值来结合所述至少两个事实分区数据类型以便重构源交易。
所述多个维度可以包括产品维度,所述产品维度能够存储产品相关数据。
所述多个事实分区可以包括资产维度,所述资产维度能够存储资产相关数据。
所述多个维度可以包括位置维度,所述位置维度能够存储位置相关数据。
所述多个事实分区可以包括物理位置相关数据或逻辑位置相关数据中的至少一个。
所述多个事实分区可以包括实体维度,所述实体维度能够存储实体相关数据。
根据另一方面,提供了一种数据源系统不可知的事实类别分区信息存储库系统,所述事实类别分区信息存储库系统包括:数据存储库,所述数据存储库包括:多个事实分区,所述多个事实分区包括:事件事实分区,所述事件事实分区用于存储事件;数量事实分区,所述数量事实分区用于存储数量;货币事实分区,所述货币事实分区用于存储货币金额;GIS事实分区,所述GIS事实分区用于存储GIS位置;百分位事实分区,所述百分位事实分区用于存储百分位数;以及参考事实分区,所述参考事实分区用于存储参考值;多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享,所述多个维度包括:产品维度,所述产品维度能够存储产品相关数据;资产维度,所述资产维度能够存储资产相关数据;位置维度,所述位置维度能够存储位置相关数据;以及实体维度,所述实体维度能够存储实体相关数据;以及多个数据源系统特定数据映射;数据接收器,所述数据接收器用于从所述多个数据源系统接收数据;以及数据映射器,所述数据映射器用于使用所述多个数据源系统特定数据映射将数据分区成所述多个事实分区。
根据另一方面,提供了一种用于将数据存储在数据源系统不可知的信息存储库系统内存储数据内的方法,所述系统包括数据存储库,所述数据存储库包括:多个事实分区,所述多个事实分区由事实分区数据类型进行分区;多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享,所述方法包括:接收数据;将所述数据分区成至少一个事实分区数据类型;将所述至少一个事实分区数据类型存储在所述多个事实分区中的至少一个事实分区中;生成维度数据;以及将所述维度数据与所述多个事实分区中的所述至少一个事实分区相关地存储在所述多个维度中的至少一个维度中。
可以从至少两个数据源接收所述数据,并且其中所述分区可以包括由数据源对所述数据进行分区。
还公开了本发明的其他方面。
应理解的是,如果本文引用任何现有技术信息,则这种引用并不构成承认所述信息形成国内本领域的公知常识的一部分。
附图说明
虽然任何其他形式可以落入本发明范围内,但现在将仅通过举例的方式参考附图描述本发明的优选实施例,在附图中:
图1示出了现有技术的维度方法数据仓库;
图2示出了根据实施例的数据源系统不可知的存储库;
图3进一步示出了根据实施例的数据源系统不可知的信息存储库;
图4示出了示例性场景,其中图3的数据源系统不可知的信息存储库应用于产品购买事件交易;
图5示出了示例性场景,其中图3的数据源系统不可知的信息存储库应用于送货卡车移动事件交易;并且
图6示出了根据实施例的数据源系统不可知的信息存储库的示例性实体关系图。
具体实施方式
为了加深对本发明原理的理解,现在将参考附图中所展示的实施例,并且将使用特定语言来描述这些实施例。不过应当理解的是,并不旨在由此限制本发明的范围。对于相关领域的技术人员而言通常会想到并拥有本发明的对本文所展示的发明特征的任何改变和进一步修改、以及如本文所展示的本发明原理的任何附加应用,都将被认为是在公开的范围。
在公开和描述与数据源系统不可知的事实类型或类别分区存储库有关的结构、系统及相关方法之前,应理解的是,本发明不限于本文所公开的特定维度配置、过程步骤、以及材料,可能会有所不同。还应理解的是,本文采用的术语仅用于描述特定实施例的目的,并不旨在限制,因为本发明的范围仅受权利要求及其等同物的限制。
在描述和要求保护本发明的主题时,将根据下面给出的定义使用以下术语。
应指出的是,除非上下文中另外明确指出,否则在本说明书和所附权利要求中使用的单数形式“一个”、“一种”和“所述”都包括复数指代物。
如本文所使用的,术语“包括”、“包含”、“含有”、“其特征在于”及其语法等同物是不排除另外的未列举元素或方法步骤的包含性或开放式术语。
应指出的是,在以下描述中,不同实施例中的相似或相同附图标记表示相同或类似特征。
现在转到图3,示出了包括数据源系统不可知的信息存储库8的系统1。
存储库8包括多个特定事实类别分区16。如下面将进一步详细描述的,事实分区16由分区数据类型(如事件、数量、货币、百分位、位置、参考和非结构化数据链接数据类型)进行分区。
如图2中更好地展示出的,每个事实分区包括事实类别和相关联的事实定义/描述。
此外,存储库8包括与事实分区16相关地存储的多个共享维度9。
每个分区16可以具有维度共同性。换句话说,每个共享维度9一般由每个分区数据类型统一共享。
如上文提到的,维度共同性简化了存储库8的结构,原因在于存储库8可以由有限数量的表格实现,从而简化了插入查询和选择查询。此外,如果需要业务流程定制,则可以在维度表内利用附加列,而不是像归一化方法那样需要新表格。
与所述多个共享维度相关地存储的所述多个特定事实分区(由各种事实分区数据类别进行分区)允许系统1本质上是源系统不可知的。
现在,将数据存储在存储库8内包括系统1从源系统21接收数据20。
例如,源系统21可以是属于诸如HR、运营、会计等不同运营系统的企业资源规划(ERP)、销售点(PoS)、库存管理、物流或客户关系(CRM)类型的系统。
出于在存储库8内检索和存储数据的目的,系统1可以配置有用于检索和处理数据地各种插件19(例如,FTP文件、集成中间件交易或数据文件)。
数据接收器模块18
插件19可以包括数据接收器模块18,所述数据接收器模块被配置为从不同源数据系统21获取数据。例如,插件19可以是到达SAP工厂维护(SAP PM)源ERP模块的插件。
数据接收器模块18可以是用于基本上实时监听交易事件的企业服务总线(ESB)接收器。在替代实施例中,数据接收器模块18可以周期性地获取或接收数据。
数据映射模块24和数据源系统特定数据映射17
插件19可以进一步包括数据映射模块24,所述数据映射模块根据特定数据源系统21被配置为将所接收的数据映射到各个事实分区16(以及在实施例中的共享维度9)中。
数据映射模块24可以利用多个数据源系统特定数据映射17,以便具体对于不同类型的数据源系统21来映射每事实类别数据。
以这种方式,来自不同数据源系统21的数据各自都由适当的映射17进行映射,以便适当地存储在分区16和维度9内。
数据映射与常规数据仓库方法的不同在于,加载过程紧密耦合到数据库结构9和16、并且不与源系统交易20保持直接耦合,从而使存储库数据源不可知。类似地,数据源系统可以改变原始数据的产生而数据仓库不需要以任何形式改变。存储库的这种静态性质确保了结构的鲁棒性得以保持,并且即使业务发生变化,也不会使数据变得过时。用于此“加载”过程的映射是客户端对其信息需求唯一的组分。
事实分区数据类别
如上文提到的,存储库8利用由特定分区数据类别进行分区的事实分区16。
特定事实分区数据类别赋予存储库8“通用类型描述符功能”,能够存储来自潜在的任意数量的数据源系统21的与大多数(如果不是全部)可想到的场景相关的数据。
如图3所示,在优选实施例中,事实分区16包括所有类型的事实分区。然而,在某些实施例中,对可能存储在存储库8内的不同类型的交易具有潜在的限制(这对于特定数据源系统和相关交易可能不是问题)。
例如,对于不处理基于货币交易的数据源系统21,货币事实分区12可以被省去。
数据分类是特定选择的,因为它们的组合效果体现了几乎可以从任何类型的过程、业务活动、事件和人类已知的数据类型中引用任何内容的能力。模型可以在全球范围内保持从电子设备到对象物理位置的详细读取,并且设想很少或没有(根据我们当前的知识)将引起当前类型扩展的要求。这种选择虽然在所有方面都是完整的,但并不限制任何一个客户端的事实的不同命名,而是说明事实分区16中表示的信息类型。
事实分区16可以包括事件事实分区10。
事件事实分区10可以存储事件类型,如购买事件、交付事件、雇员雇用事件、车辆维修事件、孩子的出生事件以及本质上单一表现的其他事件类型。
在实施例中,事件数据类别可以包括枚举数据类别。
事实分区16可以进一步包括能够存储数量的数量事实分区11。在这方面,数量事实分区11可以包括数值。
例如,数量可以表示销售单元的数量,并且因此包括整数数据类型。替代地,数量可以表示所接收货物的重量,并且因此包括浮点数据类型。
事实分区16可以进一步包括能够存储货币金额的货币事实分区12。在这方面,货币事实分区12可以包括数值。
例如,货币金额可以是产品以8.25美元买入并以10.59美元售出。这样,货币事实数据类别可以是能够将货币金额存储到至少两个小数位和可能更多小数位的浮点数据类型。
事实分区16可以进一步包括能够存储GIS位置的GIS事实分区13。例如,GIS事实分区13可以存储资产当前位于特定位置的事实。
在实施例中,GIS事实分区13数据类别可以包括结构数据类型,所述结构数据类型包括两个浮点数据类型,以便能够表示纬度和经度。
事实分区16可以进一步包括能够存储百分位数的百分位事实分区14。
例如,百分位事实分区14可以存储增值税(VAT)百分位数。在这方面,百分位事实分区14可以存储数字数据类型,如整数、浮点值等。
事实分区16可以进一步包括能够存储参考值的参考事实分区15。
参考事实分区15用于存储参考,如发票号、零件号等。以这种方式,参考事实分区15可以例如利用能够存储字符串数据数值和数字数据数值的Varchar数据类型。
事实分区16可以进一步包括非结构化数据事实25,所述非结构化数据事实可以用于存储到达非结构化数据的链接。例如,当被律师交易所组织利用时,非结构化数据可以表示定位特定法律文档的URL或其他资源定位符。
共享维度9
存储库8利用共享维度9为事实分区16提供上下文。
如上文进一步提到的,共享维度9对于每个事实分区16是共同的,然而特定事实类别可能不需要与每个维度相关联。
例如,对于如下文进一步详细描述的产品维度3,产品维度3可以由每个事实分区16共享。
以这种方式,存储库8可以记录以下中的任何一个:1)销售一种产品类型;2)销售三个产品;3)以10.59美元销售三个产品;4)在特定位置以10.59美元销售三个产品;5)在特定位置以10.59美元(不含10%的VAT)销售三个产品;6)在特定位置以10.59美元(不含10%的VAT)销售三个产品,其中销售参考号为“SAL-13262”;以及7)在特定位置以10.59美元(不含10%的VAT)销售三个产品,其中销售参考号“SAL-13262”具有使用特定URL可访问的PDF收据。
同样地,在优选实施例中,数据源系统不可知的信息存储库8包括如图3所示的所有共享维度9。然而,在实施例中,尽管也许限制了可以存储在存储库8中的不同类型的交易,可以采用存储库8的子集上下文描述能力、共享维度9的子集(其对于仅处理某些交易类型的某些类型的数据源系统21可能不是问题)。
共享维度9可以包括产品维度3。产品维度3可以存储与商业产品(和服务)有关的信息。例如,铁矿石等级、建筑构件类型(混凝土、钢筋等)、银行账户类型、零售项目、汽车、学校、医疗进程或与任何事实分区的任何集体分组关联。
共享维度9可以进一步包括资产维度3,所述资产维度被配置成用于存储与各种资产相关的数据。例如,来自物流系统的车辆、起重机、破碎机、X光机、手表、移动电话、投影仪或笔记本电脑,实质上是任何可能具有或不具有相关联的商业或个人价值的有形项目。
共享维度9可以进一步包括位置维度23,所述位置维度用于存储诸如物理信息或逻辑信息等位置信息。
共享维度9可以进一步包括实体维度5,所述实体维度用于存储与各种实体有关的信息。实体维度5可以进一步包括用于存储特定于个人和公司的信息的个人和公司信息(未示出)。
共享维度9可以进一步包括用于存储另外的尚未指定的维度类型的附加维度6和7。这些附加维度将按照组织的需要而特定,并且被包含在设计中,以允许针对特定要求对模型进行唯一扩展。
唯一时间戳数据
现在,在一个实施例中,使用唯一时间戳在事实分区16中使各数据相关联。
这样,对于事实分区16中的每个条目,还存储了唯一时间戳数据。
这样,为了随后从事实分区16检索数据,利用唯一时间戳数据来使用联接选择查询,以在需要时重新组装相关数据。
在实施存储库8的情况下,每个事实分区16内的特定时间戳数据列可以被配置为唯一的。
附加的组织特定维度
现在,与为业务特定定制添加了附加的主题特定表的现有技术归一化数据库方法相反,通过将列/属性添加到相关共享维度9的数据库表中,可以在存储库8中存储附加上下文信息。
示例1-产品销售
现在转到图4,示出了用于存储产品购买事件交易的存储库8的示例性应用。
产品购买事件交易最初可以由电子商务数据源系统21记录,可以使用数据接收器18以周期性间隔在其他电子商务交易数据内检索所述产品购买事件交易。
此后,数据映射24将所接收的交易数据20映射到相关事实分区16中,并利用数据源系统特定数据映射17将此交易数据链接到共享维度9。
在所提供的示例性实施例中,以实线示出了将数据分区成事实分区数据类别。
唯一类别维度以虚线示出,并且附加的组织特定维度以点划线示出。
具体地,客户购买小部件(widget)可以由源系统21解析为购买事件交易,并且然后映射到表示购买事件的事件分区表10,并链接到标识小部件的产品共享维度表3。
此后,订单数量可以存储在数量事实分区11内,单价可以存储在货币事实分区12中,并且10%的税率可以存储在百分位事实分区14中。
如可看出的,可以从数据本身获得的或者例如从系统时钟生成的唯一时间戳存储在每个事实分区内,以便允许随后利用联接选择语句从所述事实分区中检索。
这样,对于存储在事件事实分区10内的特定购买事件,可以利用相同的时间戳从数量事实分区11、货币事实分区12和百分位事实分区14中检索相关联的订单数量、单价和税额。
示例2-行进的卡车
现在转到图5,示出了用于存储送货卡车移动事件的存储库8的又一示例性应用。
具体地,在示例性应用中,送货卡车从第一时刻的第一位置(包括纬度和经度坐标)移动到第二时刻的第二位置。
如可看出的,数据可以被分区成事件事实分区10和GIS事实分区13。
此外,车辆ID、货物和客户编号可以通过配置共享维度9的表中的附加列而被存储为附加的组织特定上下文,所述附加列由外键链接到事件事实分区10和GIS事实分区13。
除了存储在对应于事件事实分区10和GIS事实分区13的表内的唯一时间戳数据之外,对应于第一位置和第二位置的第一时间戳和第二时间戳还存储在GIS事实分区13内。
如从上文两个示例可理解到的,相同的事实分区16被利用记录产品购买和移动事件交易两者,其中,如果需要组织特定定制,则可以将附加列添加到共享维度9的表中,以便避免必须操纵事实分区16和共享维度9的基础表结构。
示例性实体关系图
转到图6,其中示出了存储库8的示例性实体关系图,其中,对于所表示的实体关系,1表示单个记录,0..1表示零记录或一个记录,1..1表示一对一关系,并且1..*表示一对多关系。
此外,已分类的事实分区类别以具有直角的虚线矩形示出,具有相应的与以具有圆角的实线矩形示出的相关联的交易事实/描述事实。
还示出了与具有直角的点划线矩形中的相关联交易事实16相关的共享维度9。
此外,以具有直边的实线矩形示出维度富集,其中,例如,实体维度5被示出为可能具有表示个人或公司实体的相关联实体类型。
此外,连接线表示外键关系,并且具有箭头的邻接线表示父子关系。示例性技术方案
现在提供用于进一步说明根据特定实施例的数据源系统不可知的数据存储库的特征和功能的示例性技术方案。
应指出的是,下文提供的特定实施例主要是出于说明性目的而提供的,并且因此包括特定的技术实施细节。
然而,本发明的实施例不应限于这些特定的技术实施细节,其中可以在本发明的目的范围和精神内对技术实施细节进行修改。
以下示例性技术方案使用Microsoft.Net编程语言和XML结构在Microsoft2016数据库上实施。使用任何关系数据库(例如Oracle、DB2、MySql)或列式数据库(例如NoSQL、MongoDB)、任何编程语言(例如Python、Java等)以及任何消息结构技术(例如Html、JSON等)都可以实施所述技术方案。
示例性技术方案-开发工作1
最初,业务用户“X”希望将销售点数据包含在业务分析灵活存储库中。从技术上讲,销售点解决方案是基于Oracle的交易解决方案,对价值、产品、数量以及在某些情况下基于客户的客户奖励信息具有特定交易参考。SQL数据库表被设计和构建用于表示维度9。
示例性技术方案-开发工作1-客户端框架开发
产品经由产品加载.Net程序从与产品维度表一致的明确设计的XML结构加载。产品主源在电子表格中为客户端提供完整的产品清单,这将被解析为产品XML结构和引发的产品维度加载。
位置经由位置加载.Net程序从与位置维度表一致的明确设计的XML结构加载。位置主源提供了客户端电子表格中与客户端(门店、分部、部门、建筑)相关的逻辑位置和物理位置的完整清单,这将被解析为位置XML和引发的位置维度加载。
实体经由实体加载.Net程序从与实体维度表一致的明确设计的XML结构加载。实体主源从客户端电子表格中的奖励程序文件提供与客户端相关的客户的完整清单,这被解析为实体XML和引发的实体维度加载。
事实分区表通过所创建的事实类别与加载的维度之间的外键约束用参考完整性限定。
示例性技术方案-开发工作1-主要发展成果
源数据库是用于在运营数据库中有超过300个表格的第三范式的归一化数据库。数据库触发器构建在主交易表的Oracle数据库中,以引发自定义构建存储进程。自定义存储进程19基于用户的文档要求创建多个XML记录,如下所示:-
a.具有对产品(产品维度3)、销售交易客户(实体维度5)、交易日期和时间(时间戳)以及代表零售门店的位置记录(位置维度23)的完整键值对引用的XML格式的“销售”事件分区事实;
b.具有对产品(产品维度3)、销售交易中的产品数量(数量事实11)、交易的日期和时间(时间戳)、代表零售门店的销售交易客户(产品维度3)和位置记录(位置维度23)的完整键值对引用的XML格式的“销售”数量分区事实;
c.具有对产品(产品维度3)、交易的货币价值(货币事实12)代表销售交易中的产品(即行项目)、交易的日期和时间(时间戳)、销售交易客户(实体维度5)和代表零售门店的位置记录(位置维度23)的完整键值对引用的XML格式的“销售”货币分区事实。
上述记录具有关于“销售”的特定命名标准,以描述维度表“事件类型”、“数量类型”和“货币类型”中的事实类型业务键,此业务键由加载过程用于在各自事实类别中的仓库中正确键入记录。
一旦创建,这些记录就“发布”到指定的目录位置,其中文件监听器将为每个接收到的记录引发一个设计好的加载过程16。这些加载过程是.Net程序,其使用创建好的XML文件并检索上下文(即产品、客户、位置等)的SQL唯一ID并且使用从维度表9中检索到的唯一键来构造事实记录,所述事实记录是SQL插入语句的主题。缺失“销售”类型的已定义的最低要求的维度关联的或其维度键尚未加载的任何记录都被放置在数据库中的停车场表中,并且发送通知以警告支持人员记录失败。这些由特定客户定义的流程按失败记录和原因来解决。
一旦插入,客户端使用微策略业务智能(MicroStrategy Business Intelligence挖掘工具)以报告或仪表板/图形格式显示存储数据。
示例性技术方案-开发工作2
业务用户“X”然后决定从会计源系统添加数据以在灵活存储库中生成“产品成本”。财务记录系统是基于云的MYOB解决方案,具有用于从记录系统中提取财务交易和其他细节的Web服务API接口。
因为无法直接访问基于云的数据库,因此用于检索“采购”信息的Web服务API将从以.Net编写的排定程序中调用。程序每小时运行一次并且用最后一次调用的时间戳异步调用MYOB云中的目标API,API则返回财务系统中记录的所有购买,因为为此目的向此客户端的预定义目录位置提供了JSON格式的时间戳参数。
在此示例中,输出文件的到达触发了文件监听器(在发现任何记录的情况下,否则不会触发任何东西),并且文件监听器进而启动“采购映射”.Net程序,所述程序将“购买”信息映射到如下的多个记录中:
a.具有对产品(产品维度3)、购买交易供应商(实体维度5)、交易日期和时间(时间戳)以及代表零售门店(位置维度23)的完整键值对引用的XML格式的“购买”事件分区事实-应指出的是,此XML结构与上面的开发工作1中开发的“销售”事件分区相同;
b.具有对产品(产品维度3)、购买交易中的产品数量(数量维度11)、交易日期和时间(时间戳)、购买交易供应商(实体维度5)以及代表零售门店的位置记录(位置维度23)的完整键值对引用的XML格式的“购买”事件分区事实-应指出的是,此XML结构与上面的开发工作1中开发的“销售”事件分区相同;
c.具有对产品(产品维度3)、代表产品和购买交易供应商(实体维度5)的购买交易(货币事实12)的购买交易的货币价值、交易日期和时间(时间戳)以及代表零售门店的位置记录(位置维度23)的完整键值对引用的XML格式的“购买”事件分区事实-应指出的是,此XML结构与上面的开发工作1中开发的“销售”事件分区相同。
上述记录具有关于“购买”的特定命名标准,以描述维度表“事件类型”、“数量类型”和“货币类型”中的事实类型业务键。此业务键将由加载过程使用在相应类别中的仓库中正确键入记录。
一旦创建,这些记录就“发布”到指定的目录位置,其中文件监听器将为每个接收到的记录引发一个设计好的加载过程16。这些加载过程是相同的.Net加载模块,所述加载模块是作为上述开发步骤1的一部分而设计和构建的,因此操作完全相同。
一旦插入,客户端使用微策略业务智能(MicroStrategy Business Intelligence挖掘工具)以报告或仪表板/图形格式显示存储数据。应指出的是,现在有两种交易类型加载到同一结构中,这实现了更好的分析和报告多功能性。
示例性技术方案-开发工作3
业务用户“X”然后决定从人力资源(“HR”)源系统添加数据以在灵活存储库中生成职员的详细信息。HR记录系统是使用Forms应用前端后面的SQL Server数据库技术的前提安装解决方案。构建自定义HR源系统存储进程,以基于源系统中最近更新的时间戳为系统中的每个人创建输出记录。程序作为SQL计划任务每小时运行一次,提取人力资源数据并将所述人力资源数据映射到现有组织的实体维度XML结构中。关于名字、姓氏和出生日期的.Net匹配程序被添加到现有的实体维度加载.Net程序,以确保不会无意地创建重复项。将修改后的实体XML结构中的提取数据(雇员ID被添加到初始框架定义中)映射到XML结构中,并且在检查“插入”SQL指令上的重复项后,根据添加的更新检查来“创建”、“更新”或“删除”(仅限逻辑记录去激活)记录。
对开发工作1中“销售”流程的.Net程序和XML进行更新,以承载与雇员相关联的“员工编号”,并且提取存储进程提供了销售人员的雇员ID。执行以下更新:-
a.相关的“销售”分区事实被增强,以承载“销售人员”标识符,以允许各个和每个事实类型分区与实体的第二连接。
示例性技术方案-开发工作4
业务用户“X”然后决定从人力资源源系统添加考勤数据以在灵活存储库中生成可用于分析的“职员生产力”。自定义HR源系统存储进程已得到增强,可以承载时间表指示参数,以当每天提供所述参数时为每个雇员创建每个时间表条目的输出记录。所述程序作为SQL计划任务每天运行一次,提取人力资源时间表数据并将所述数据映射到指定文件位置中的每次上班和下班的现有组织实体维度XML结构中。在此示例中,输出文件的到达触发了文件监听器(在发现任何记录的情况下,否则在周日不会触发任何东西),并且文件监听器进而启动“时间表映射”.Net程序,所述程序将“时间表”信息映射到如下的多个记录中:
a.具有对雇员实体(实体维度5)、交易日期和时间(时间戳)以及代表零售门店(位置维度23)的完整键值对引用的XML格式的“上班”事件分区事实-再次指出的是,此XML结构与上面的开发工作1中开发的事件分区相同;
b.具有对雇员实体(实体维度5)、交易日期和时间(时间戳)以及代表零售门店(位置维度23)的完整键值对引用的XML格式的“下班”事件分区事实-再次指出的是,此XML结构与上面的开发工作1中开发的事件分区相同。
上述记录具有关于“上班”和“下班”的特定命名标准,以描述维度表“事件类型”中的事实类型业务键,此业务键将由加载过程用于在事件分区事实类别中的仓库正确键入记录。一旦创建,这些记录就“发布”到指定的目录位置,其中文件监听器将为每个接收到的记录引发设计好的单个事件加载过程10。这些加载过程是相同的.Net加载模块,所述加载模块是作为上述开发步骤1的一部分而设计和构建的,因此操作完全相同。
一旦插入,客户端使用微策略业务智能(MicroStrategy Business Intelligence挖掘工具)以报告或仪表板/图形格式显示存储数据。应指出的是,现在有四种类型加载到同一存储库结构中,这实现了更好的分析和报告多功能性。
解释
实施例:
贯穿本说明书对于“一个实施例(one embodiment)”或“实施例(an embodiment)”的引用意味着结合所述实施例所描述的特定特征、结构或特性包括在本公开的至少一个实施例中。因此,贯穿本说明书,短语“在一个实施例中(in one embodiment)”或“在实施例中(in an embodiment)”在各种场合中的出现未必都是但可以是指相同的实施例。此外,在一个或多个实施例中,如本领域普通技术人员将从本发明中显而易见的,特定特征、结构或特性可以以任何合适的方式组合。
类似地,应当意识到的是,在本发明的示例性实施例的上述描述中,出于精简本发明并且有助于理解各个发明性方面中的一个或更多个方面的目的,有时将本发明的各个特征集合在单个实施例、附图或其描述中。然而,本发明的方法并不被解释为反映所要求保护的发明需要比每个权利要求中明确陈述的更多特征的意图。而是,如下文的权利要求所反映的,发明性方面在于少于单个上述公开实施例的所有特征。因此,据此明确地将具体实施方式之后的权利要求结合到具体实施方式中,其中每一项权利要求独立地代表本发明的一个单独的实施例。
此外,如本领域技术人员将理解的,虽然本文描述的一些实施例包括其他实施例中的一些特征但不包括其他特征,但是不同实施例的特征的组合意图在本发明的范围内,并且形成不同的实施例。例如,在以下权利要求中,任何要求保护的实施例可以以任意组合来使用。
不同的对象实例
如本文所使用的,除非另有说明,使用序数形容词“第一”、“第二”、“第三”等来描述公共对象仅仅指示相同对象的不同实例被提及,并且不旨在暗示如此描述的对象必须在或者时间上、空间上、排名上、或以任何其他方式处于给定序列中。
特定细节
在本文提供的描述中,陈述了众多特定细节。然而,应当理解,可以在没有这些具体细节的情况下实践本发明的实施例。在其他实例中,没有详细示出众所周知的方法、结构和技术,以免模糊本描述的理解。
术语
在描述附图中所展示的本发明的优选实施例时,为了清楚起见,将采用特定的术语。然而,本发明不限于如此选择的特定术语,并且应当理解,每个特定术语包括以类似方式操作以实现类似技术目的的所有技术等同物。诸如“向前”、“向后”、“径向”、“周界”、“向上”、“向下”等术语用作方便提供参考点的词语,并且不应被解释为限制性术语。包括和包含
在随后的权利要求中和在本发明的前述描述中,除非上下文由于明确的语言或必要的含义而另外要求,否则词语“包括(comprise)”或诸如“包括(comprises)”或“包括(comprising)”的变体在包含意义上使用,即指定所陈述特征的存在但不排除在本发明的各个实施例中存在或附加另外特征。
本文所使用的术语:包含(including)或包含(which includes)或包含(thatincludes)中的任何一个也是开放术语,这也意味着至少包含所述术语之后的元素/特征,但不排除其他元素/特征。因此,包含都是与包括同义的并且是指包括。
发明范围
因此,尽管已经描述了被认为是本发明的优选实施例的内容,但是本领域技术人员将认识到,在不脱离本发明的精神的情况下,可以对本发明进行其他和进一步的修改,并且旨在要求所有这些改变和修改都落入本发明的范围内。例如,上面给出的任何公式仅仅表示可以使用的程序。可以从框图中添加或删除功能,并且可以在功能块之间进行交换操作。在本发明的范围内描述的方法中可以添加或删除步骤。
尽管已经参考特定示例描述了本发明,但是本领域技术人员将理解,本发明可以以许多其他形式实施。
工业实用性
从上面显而易见的是,所描述的安排适用于数据入库行业。
Claims (20)
1.一种数据源系统不可知的事实分区数据信息存储库系统,包括:
数据存储库,所述数据存储库包括:
多个事实分区,所述多个事实分区按数据类型或类别且不按照主题区域分类,其中多个事实分区是多个静态事实分区,多个事实分区无需对数据进行分析而预先确定和建立;
多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由所述事实分区共享,以允许将多个事实分区之一映射到多个维度中的一个或多个,其中多个维度是多个静态维度,多个维度无需对数据进行分析而预先确定和建立;以及
多个数据源系统特定数据映射;
数据接收器,所述数据接收器用于从多个数据源系统接收数据;以及
数据映射器,所述数据映射器用于使用所述多个数据源系统特定数据映射将所述数据分区成所述多个事实分区,其中,
数据储存库从不同的操作源系统接收数据而无需修改多个事实分区。
2.根据权利要求1所述的系统,其中,所述多个事实分区包括事件事实分区,所述事件事实分区用于存储事件发生。
3.根据权利要求1所述的系统,其中,所述多个事实分区包括定量事实分区,定量事实分区用于存储数量。
4.根据权利要求1所述的系统,其中,所述多个事实分区包括货币事实分区,所述货币事实分区用于存储货币金额。
5.根据权利要求1所述的系统,其中,所述多个事实分区包括GIS事实分区,所述GIS事实分区用于存储GIS位置。
6.根据权利要求1所述的系统,其中,所述多个事实分区包括百分位事实分区,所述百分位事实分区用于存储百分位数。
7.根据权利要求1所述的系统,其中,所述多个事实分区包括参考事实分区,所述参考事实分区用于存储参考值。
8.根据权利要求1所述的系统,其中,所述多个事实分区包括非结构化事实分区,所述非结构化事实分区用于存储到达非结构化数据的链接,所述非结构化数据存储在数据仓库中或不同位置。
9.根据权利要求1所述的系统,其中,所述多个事实分区的至少一个事实分区数据类型是至少两个数据类型,并且其中,存储所述至少两个数据类型包括将所述至少两个数据类型存储在所述事实分区中的各自包括时间戳值的至少两个事实分区中;并且其中,从所述存储库检索数据包括通过使用时间戳值来结合所述至少两个数据类型以便重构源交易。
10.根据权利要求1所述的系统,其中,所述多个维度包括产品维度,所述产品维度能够存储产品相关数据。
11.根据权利要求1所述的系统,其中,所述多个维度包括资产维度,所述资产维度能够存储资产相关数据。
12.根据权利要求1所述的系统,其中,所述多个维度包括位置维度,所述位置维度能够存储位置相关数据。
13.根据权利要求12所述的系统,其中,所述位置相关数据包括物理位置相关数据或逻辑位置相关数据中的至少一个。
14.根据权利要求1所述的系统,其中,所述多个维度包括实体维度,所述实体维度能够存储实体相关数据。
15.一种数据源系统不可知的事实类别分区数据信息存储库系统,包括:
数据存储库,所述数据存储库包括:
多个事实分区,所述多个事实分区按数据类型或类别且不按照主题区域分类,其中多个事实分区是多个静态事实分区,多个事实分区无需对数据进行分析而预先确定和建立,所述多个事实分区包括:
事件事实分区,所述事件事实分区用于存储事件;
数量事实分区,所述数量事实分区用于存储数量;
货币事实分区,所述货币事实分区用于存储货币金额;
GIS事实分区,所述GIS事实分区用于存储GIS位置;
百分位事实分区,所述百分位事实分区用于存储百分位数;以及
参考事实分区,所述参考事实分区用于存储参考值;
多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享,以允许将多个事实分区之一映射到多个维度中的一个或多个,其中多个维度是多个静态维度,多个维度无需对数据进行分析而预先确定和建立,所述多个维度包括:
产品维度,所述产品维度能够存储产品相关数据;
资产维度,所述资产维度能够存储资产相关数据;
位置维度,所述位置维度能够存储位置相关数据;以及
实体维度,所述实体维度能够存储实体相关数据;以及
多个数据源系统特定数据映射;
数据接收器,所述数据接收器用于从多个数据源系统接收数据;以及
数据映射器,所述数据映射器用于使用所述多个数据源系统特定数据映射将所述数据分区成所述多个事实分区,其中,
定量事实分区数据存储库从不同的操作源系统接收数据,而不修改多个事实分区。
16.根据权利要求15所述的系统,其中,所述事实分区进一步包括非结构化事实分区,所述非结构化事实分区用于存储到达非结构化数据元素位置的链接。
17.一种用于将数据存储在数据源系统不可知的事实分区数据信息存储库系统内的方法,所述系统包括数据存储库,所述数据存储库包括:
多个事实分区,所述多个事实分区由事实分区数据类别进行分区,并按数据类型或类别且不按照按主题区域分类,其中多个事实分区是多个静态事实分区,多个事实分区无需对数据进行分析而预先确定和建立;
多个维度,所述多个维度与所述事实分区相关地进行存储,所述多个维度由每个所述事实分区共享,以允许将多个事实分区之一映射到多个维度中的一个或多个,其中多个维度是多个静态维度,多个维度无需对数据进行分析而预先确定和建立:
多个数据源系统特定数据映射;
数据接收器,用于接收数据;
一种数据映射器,用于使用所述多个数据源系统特定数据映射将所述数据划分为所述多个事实分区,所述方法包括:
接收数据;
将所述数据分区成至少一个事实分区数据类别;
将所述至少一个事实分区数据类别存储在所述多个事实分区中的至少一个事实分区中;
生成维度数据;以及
将所述维度数据与所述多个事实分区中的所述至少一个事实分区相关地存储在所述多个维度中的至少一个维度中,其中,
定量事实分区数据存储库从不同的操作源系统接收数据,而不修改多个事实分区。
18.根据权利要求17所述的方法,其中,从至少两个数据源接收所述数据,并且其中,所述分区包括由数据源对所述数据进行分区。
19.根据权利要求17所述的方法,其中,所述多个事实分区包括以下中的至少两个:
事件事实分区,所述事件事实分区用于存储事件;
数量事实分区,所述数量事实分区用于存储数量;
货币事实分区,所述货币事实分区用于存储货币金额;
GIS事实分区,所述GIS事实分区用于存储GIS位置;
百分位事实分区,所述百分位事实分区用于存储百分位数;
参考事实分区,所述参考事实分区用于存储参考值;以及
非结构化事实分区,所述非结构化事实分区用于存储到达非结构化数据元素位置的链接。
20.根据权利要求17所述的方法,其中,所述多个维度包括以下中的至少一个:
产品维度,所述产品维度能够存储产品相关数据;
资产维度,所述资产维度能够存储资产相关数据;
位置维度,所述位置维度能够存储位置相关数据;以及
实体维度,所述实体维度能够存储实体相关数据。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
AU2016900704A AU2016900704A0 (en) | 2016-02-26 | A subject agnostic fact data type partitioned data warehouse structure and methods for the insertion and retrieval of data using the data warehouse structure | |
AU2016900704 | 2016-02-26 | ||
PCT/AU2017/050166 WO2017143405A1 (en) | 2016-02-26 | 2017-02-24 | A data source system agnostic fact category partitioned information repository and methods for the insertion and retrieval of data using the information repository |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108701154A CN108701154A (zh) | 2018-10-23 |
CN108701154B true CN108701154B (zh) | 2022-05-03 |
Family
ID=59684681
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201780013415.4A Active CN108701154B (zh) | 2016-02-26 | 2017-02-24 | 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US11372880B2 (zh) |
EP (1) | EP3403200A4 (zh) |
JP (1) | JP7051108B2 (zh) |
CN (1) | CN108701154B (zh) |
AU (1) | AU2017224831B2 (zh) |
HK (1) | HK1255050A1 (zh) |
SG (1) | SG11201806825RA (zh) |
WO (1) | WO2017143405A1 (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163742B2 (en) * | 2019-01-10 | 2021-11-02 | Microsoft Technology Licensing, Llc | System and method for generating in-memory tabular model databases |
CN110674130A (zh) * | 2019-08-30 | 2020-01-10 | 深圳鸿智云创科技有限公司 | 数据传输方法 |
CN111241121A (zh) * | 2019-12-30 | 2020-06-05 | 航天信息(山东)科技有限公司 | 一种基于elasticsearch父子关系的海量发票数据查询方法及系统 |
CN111680506A (zh) * | 2020-04-28 | 2020-09-18 | 北京三快在线科技有限公司 | 数据库表的外键映射方法、装置、电子设备和存储介质 |
CN112256745A (zh) * | 2020-10-27 | 2021-01-22 | 武汉市钱鲸科技有限公司 | 一种零售数据分析方法 |
CN112328551A (zh) * | 2020-11-09 | 2021-02-05 | 医渡云(北京)技术有限公司 | 医疗数据解析方法、装置、介质及电子设备 |
CN113297333A (zh) * | 2021-03-17 | 2021-08-24 | 无锡极数宝大数据科技有限公司 | 数据处理方法、装置、服务器及存储介质 |
CN113350884B (zh) * | 2021-06-04 | 2022-04-15 | 浙江斯普智能科技股份有限公司 | 二次精密过滤器 |
US12056143B2 (en) | 2022-03-31 | 2024-08-06 | Insight Direct Usa, Inc. | Data processing with integrated metadata generation and storage |
US12056159B2 (en) | 2022-03-31 | 2024-08-06 | Insight Direct Usa, Inc. | Dimension and fact table creation using templates |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727478A (zh) * | 2008-10-23 | 2010-06-09 | 国际商业机器公司 | 动态建立并用储存库中的数据填充数据集市的方法和系统 |
Family Cites Families (30)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2001016850A2 (en) | 1999-08-31 | 2001-03-08 | Accenture Llp | A system, method and article of manufacture for organizing and managing transaction-related tax information |
US20020099563A1 (en) | 2001-01-19 | 2002-07-25 | Michael Adendorff | Data warehouse system |
CA2355959A1 (en) * | 2001-06-27 | 2002-12-27 | Mapfusion Corp. | Spatial business intelligence system |
US20050033726A1 (en) * | 2003-05-19 | 2005-02-10 | Ju Wu | Apparatus and method for accessing diverse native data sources through a metadata interface |
US7809678B2 (en) * | 2004-07-09 | 2010-10-05 | Microsoft Corporation | Fact dimensions in multidimensional databases |
US7720803B2 (en) | 2006-03-28 | 2010-05-18 | Sap Ag | Mapping of a transactional data model to a reporting data model |
US8924269B2 (en) | 2006-05-13 | 2014-12-30 | Sap Ag | Consistent set of interfaces derived from a business object model |
CA2551199A1 (en) | 2006-06-23 | 2007-12-23 | Cognos Incorporated | System and method of member unique names |
EP2041676A4 (en) * | 2006-06-26 | 2012-05-16 | Nielsen Co Us Llc | METHOD AND DEVICES FOR IMPROVING THE DATA WAREHOUSE EFFICIENCY |
US9043273B2 (en) * | 2008-04-25 | 2015-05-26 | International Business Machines Corporation | Method and apparatus for declarative data warehouse definition for object-relational mapped objects |
US8296336B2 (en) * | 2008-05-02 | 2012-10-23 | Oracle International Corp. | Techniques for efficient dataloads into partitioned tables using swap tables |
US8904381B2 (en) * | 2009-01-23 | 2014-12-02 | Hewlett-Packard Development Company, L.P. | User defined data partitioning (UDP)—grouping of data based on computation model |
US20110295795A1 (en) * | 2010-05-28 | 2011-12-01 | Oracle International Corporation | System and method for enabling extract transform and load processes in a business intelligence server |
US9298787B2 (en) * | 2011-11-09 | 2016-03-29 | International Business Machines Corporation | Star and snowflake schemas in extract, transform, load processes |
US8676772B2 (en) * | 2011-12-09 | 2014-03-18 | Telduráðgevin Sp/f | Systems and methods for improving database performance |
US9081875B2 (en) * | 2011-12-30 | 2015-07-14 | General Electric Company | Systems and methods for organizing clinical data using models and frames |
US9026562B2 (en) * | 2012-10-05 | 2015-05-05 | Hazeltree Fund Services, Inc. | Methods and systems for agnostic data storage |
US20140279658A1 (en) * | 2013-03-12 | 2014-09-18 | United Parcel Service Of America, Inc. | Systems and methods of suggesting attended delivery/pickup locations |
US20140278834A1 (en) * | 2013-03-14 | 2014-09-18 | Armchair Sports Productions Inc. | Voting on actions for an event |
WO2014144889A2 (en) * | 2013-03-15 | 2014-09-18 | Amazon Technologies, Inc. | Scalable analysis platform for semi-structured data |
US9519695B2 (en) * | 2013-04-16 | 2016-12-13 | Cognizant Technology Solutions India Pvt. Ltd. | System and method for automating data warehousing processes |
US9507838B2 (en) * | 2013-05-17 | 2016-11-29 | Oracle International Corporation | Use of projector and selector component types for ETL map design |
US9244978B2 (en) * | 2014-06-11 | 2016-01-26 | Oracle International Corporation | Custom partitioning of a data stream |
MY187720A (en) | 2014-08-05 | 2021-10-14 | Mimos Berhad | Method for data input into a database |
US10877995B2 (en) * | 2014-08-14 | 2020-12-29 | Intellicus Technologies Pvt. Ltd. | Building a distributed dwarf cube using mapreduce technique |
CN104462430B (zh) * | 2014-12-12 | 2017-12-22 | 北京国双科技有限公司 | 关系型数据库的数据处理方法及装置 |
US9965514B2 (en) * | 2014-12-19 | 2018-05-08 | Software Ag Usa, Inc. | Techniques for real-time generation of temporal comparative and superlative analytics in natural language for real-time dynamic data analytics |
US10360231B2 (en) * | 2015-07-06 | 2019-07-23 | Oracle International Corporation | Dynamically switching between data sources |
US20170017683A1 (en) * | 2015-07-13 | 2017-01-19 | 28msec | Systems And Methods For Storing And Interacting With Data From Heterogeneous Data Sources |
US10354188B2 (en) * | 2016-08-02 | 2019-07-16 | Microsoft Technology Licensing, Llc | Extracting facts from unstructured information |
-
2017
- 2017-02-24 AU AU2017224831A patent/AU2017224831B2/en active Active
- 2017-02-24 EP EP17755658.6A patent/EP3403200A4/en not_active Ceased
- 2017-02-24 US US16/078,603 patent/US11372880B2/en active Active
- 2017-02-24 CN CN201780013415.4A patent/CN108701154B/zh active Active
- 2017-02-24 WO PCT/AU2017/050166 patent/WO2017143405A1/en active Application Filing
- 2017-02-24 SG SG11201806825RA patent/SG11201806825RA/en unknown
- 2017-02-24 JP JP2018544361A patent/JP7051108B2/ja active Active
-
2018
- 2018-11-07 HK HK18114174.9A patent/HK1255050A1/zh unknown
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101727478A (zh) * | 2008-10-23 | 2010-06-09 | 国际商业机器公司 | 动态建立并用储存库中的数据填充数据集市的方法和系统 |
Also Published As
Publication number | Publication date |
---|---|
HK1255050A1 (zh) | 2019-08-02 |
CN108701154A (zh) | 2018-10-23 |
US11372880B2 (en) | 2022-06-28 |
SG11201806825RA (en) | 2018-09-27 |
AU2017224831B2 (en) | 2023-01-05 |
JP7051108B2 (ja) | 2022-04-11 |
WO2017143405A1 (en) | 2017-08-31 |
EP3403200A1 (en) | 2018-11-21 |
EP3403200A4 (en) | 2019-12-25 |
JP2019506685A (ja) | 2019-03-07 |
US20190050464A1 (en) | 2019-02-14 |
AU2017224831A1 (en) | 2018-08-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108701154B (zh) | 数据源系统不可知的事实类别分区信息存储库以及用于使用信息存储库插入和检索数据的方法 | |
US9466063B2 (en) | Cluster processing of an aggregated dataset | |
US8041760B2 (en) | Service oriented architecture for a loading function in a data integration platform | |
US7814470B2 (en) | Multiple service bindings for a real time data integration service | |
US7814142B2 (en) | User interface service for a services oriented architecture in a data integration platform | |
US9684703B2 (en) | Method and apparatus for automatically creating a data warehouse and OLAP cube | |
US20080288522A1 (en) | Creating and storing a data field alteration datum using an analytic platform | |
US20050228808A1 (en) | Real time data integration services for health care information data integration | |
US20050232046A1 (en) | Location-based real time data integration services | |
US20050262192A1 (en) | Service oriented architecture for a transformation function in a data integration platform | |
US20050262189A1 (en) | Server-side application programming interface for a real time data integration service | |
US20060069717A1 (en) | Security service for a services oriented architecture in a data integration platform | |
US20050240354A1 (en) | Service oriented architecture for an extract function in a data integration platform | |
US20050262190A1 (en) | Client side interface for real time data integration jobs | |
US20050234969A1 (en) | Services oriented architecture for handling metadata in a data integration platform | |
US20050222931A1 (en) | Real time data integration services for financial information data integration | |
US20050240592A1 (en) | Real time data integration for supply chain management | |
US20050262193A1 (en) | Logging service for a services oriented architecture in a data integration platform | |
US20050235274A1 (en) | Real time data integration for inventory management | |
US20050223109A1 (en) | Data integration through a services oriented architecture | |
US20060010195A1 (en) | Service oriented architecture for a message broker in a data integration platform | |
US9390158B2 (en) | Dimensional compression using an analytic platform | |
US20160217423A1 (en) | Systems and methods for automatically generating application software | |
JP2008511936A (ja) | データ・システムにおける意味識別のための方法およびシステム | |
WO2005106711A1 (en) | Method and apparatus for automatically creating a data warehouse and olap cube |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1255050 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |