CN108345602B - 数据多维建模系统及数据多维建模方法 - Google Patents

数据多维建模系统及数据多维建模方法 Download PDF

Info

Publication number
CN108345602B
CN108345602B CN201710052982.2A CN201710052982A CN108345602B CN 108345602 B CN108345602 B CN 108345602B CN 201710052982 A CN201710052982 A CN 201710052982A CN 108345602 B CN108345602 B CN 108345602B
Authority
CN
China
Prior art keywords
data
multidimensional
type
dimension
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710052982.2A
Other languages
English (en)
Other versions
CN108345602A (zh
Inventor
范虎岳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to CN201710052982.2A priority Critical patent/CN108345602B/zh
Priority to JP2018008094A priority patent/JP6530829B2/ja
Publication of CN108345602A publication Critical patent/CN108345602A/zh
Application granted granted Critical
Publication of CN108345602B publication Critical patent/CN108345602B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2264Multidimensional index structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据多维建模系统及数据多维建模方法,基于预先存储的数据库生成多维数据表,包括:选表部,从预先存储的数据库中,根据分析主题选取目标主表以及与目标主表相关的目标附表;数据类型判断部,在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成部,对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。由此,自动产生星形结构多维数据库,提高了数据分析的效率,降低了智能分析的生产成本和数据处理的门槛。

Description

数据多维建模系统及数据多维建模方法
技术领域
本发明涉及数据多维建模系统及数据多维建模方法,尤其涉及智能分析领域中自动产生多维模型的多维建模系统及数据多维建模方法。
背景技术
在BI(Business Intelligence:商业智能)等智能分析领域中,多维分析Cube(数据立方体)是一种行之有效且广泛采用的多维分析工具。而且,由于性能、权限、业务划分等原因,往往需要生成大量的多维分析Cube。
例如,在OLAP(在线分析处理)领域中,Cube作为数据立方体,是以商业分析或数据可视化为目的,通过在多维数据库上的一系列映射获得的逻辑模型。在生成Cube之前,要求把例如交易数据库中的传统E-R(实体-联系)关系的二维表,转换成星形结构的多维模型并保存在数据库中。这是生成Cube的基础,也是现存OLAP引擎的先决条件。
然而,在现有技术中,缺少基于例如交易数据库自动地产生多维模型的数据多维建模技术。例如,专利文献1(CN102541656)虽然从资源分配的角度介绍了如何产生Cube的过程,但没有公开如何产生作为生成Cube的基础的星形结构的多维模型。结果,现有技术往往需要人工产生多维模型,造成智能分析的生产成本上升和数据处理的门槛增高,严重影响了商业智能分析等智能分析的效率和实用性。
发明内容
本发明为了解决现有技术中的上述技术问题中的至少一个,采用以下技术方案。
本发明提供一种数据多维建模系统,基于预先存储的数据库生成多维数据表,其特征在于,包括:选表部,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;数据类型判断部,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成部,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
根据本发明的数据多维建模系统,通过机器学习的方式将多维建模的过程自动化,对例如交易数据库的数据库中的二维数据表,通过“选表”、“数据类型判断”和“多维模型生成”的处理,自动产生例如供OLAP引擎通用的星形结构多维数据库,提高了数据分析的效率。其中,不需要用户具有数据库操作和多维建模知识背景,能够使用户集中于其自身领域的分析,降低了智能分析的生产成本和数据处理的门槛。
在上述数据多维建模系统中,所述选表部也可以根据分析主题,从数据库中预先存储的由交易或事务产生的交易表中选取所述目标主表,并从数据库中预先存储的用于描述对象的对象定义表中,选取与选取的所述交易表相关的所述目标附表。
由此,能够根据分析主题适当地确定用于生成多维数据表的目标主表和对象定义表。
在上述数据多维建模系统中,所述数据类型判断部也可以包括:结构定义获取部,获取所述目标主表的结构定义;基本数据类型划分部,根据所述结构定义,将所述目标主表的所述多个数据列划分为与所述结构定义直接对应的多种基本数据类型;以及子数据类型划分部,根据生成所述多维数据表所需的维度或度量,将所述多种基本数据类型进一步划分为与生成所述多维数据表所需的维度或度量对应的多种子数据类型作为所述数据类型。
由此,通过首先将目标主表的各数据列的数据类型划分为与结构定义对应的基本数据类型,进而将基本数据类型划分为与生成多维数据表所需的维度或度量对应的多种子数据类型,能够合理且准确地确定目标主表的各数据列对应于何种维度或度量。
在上述数据多维建模系统中,所述基本数据类型也可以包括整型,所述子数据类型划分部还包括整型数据类型判断部,所述整型数据类型判断部首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符,进而,所述整型数据类型判断部针对非ID的整型数据列,判断各数据项是否均被包含在所述目标附表中,将各数据项均被包含在所述目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在所述目标附表中的整型数据列的子数据类型判断为整型度量。
由此,针对基本数据类型为整型的数据列,能够根据目标主表中ID唯一、自增、等差的特性、以及整型维度应该全部被包含在关联的目标附表中的特性,准确地判断出子数据类型。
在上述数据多维建模系统中,所述基本数据类型也可以还包括浮点型,所述子数据类型划分部还包括浮点型数据类型判断部,所述浮点型数据类型判断部将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量。
由此,针对基本数据类型为浮点型的数据列,根据列名判断是否为经纬度信息,能够准确地判断出子数据类型。
在上述数据多维建模系统中,所述基本数据类型也可以还包括字符型及日期时间型,所述子数据类型划分部还包括字符型数据类型判断部和日期时间型数据类型判断部,所述字符型数据类型判断部将字符型数据列的子数据类型判断为字符维度,所述日期时间型数据类型判断部将日期时间型数据列的子数据类型判断为时间维度。
由此,针对基本数据类型为字符型或日期时间型的数据列,能够准确地判断其子数据类型为字符维度或时间维度。
在上述数据多维建模系统中,所述多维模型生成部也可以根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。
由此,能够高效地生成星形结构的多维数据表所需的维度表和事实表。
在上述数据多维建模系统中,在由所述数据类型判断部划分的所述数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型的情况下,所述多维模型生成部也可以按由每个维度的最小单位构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。
由此,通过与各个维度的最小单位的组合对应地将度量聚合,能够得到可实现的最小单位下的度量值,从而实现更精细的智能分析。
在上述数据多维建模系统中,在所述数据类型包括地理信息维度和时间维度的情况下,所述多维模型生成部也可以按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。
由此,能够得到地理和时间的组合的最小单位下的度量值,从而实现位置时间更精确的智能分析。
本发明还提供一种数据多维建模方法,基于预先存储的数据库生成多维数据表,其特征在于,包括:选表步骤,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;数据类型判断步骤,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成步骤,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
本发明还可以通过数据多维建模装置、或者通过能够使计算机执行数据多维建模方法的数据多维建模程序实现,或者通过记录了该程序的记录介质等实现。另外,本发明的数据多维建模系统的上述多种方式也能够适用于本发明的数据多维建模方法、数据多维建模装置、数据多维建模程序或记录介质,并获得同样的技术效果。
附图说明
图1是表示本发明的第一实施方式的数据多维建模系统的结构的框图。
图2是表示本发明的第一实施方式的数据类型判断部的一个具体例的结构的框图。
图3是表示本发明的第一实施方式的数据多维建模方法的流程图。
图4是表示本发明的第一实施方式的数据类型判断步骤的一个具体例的流程图。
图5是表示目标主表的结构定义的一例的表。
图6是表示本发明的第一实施方式中整型数据类型判断处理的一个具体例的流程图。
图7是表示本发明的第一实施方式中多维模型生成处理的一个具体例的流程图。
图8是表示本发明的第一实施例中获取目标主表和目标附表的示意图。
图9是表示本发明的第一实施例中划分数据类型的示意图。
图10是表示本发明的第一实施例中整型维度表的示意图。
图11是表示本发明的第一实施例中生成地理信息维度表、并替换目标主表中的经纬度的示意图。
图12是表示本发明的第一实施例中生成时间维度表、并替换目标主表中的时间的示意图。
图13是表示本发明的第一实施例中生成的事实表的示意图。
图14是表示本发明的第一实施例中生成的星形结构的多维数据表的示意图。
附图标记说明:
1数据多维建模系统;2数据库;3OLAP引擎;10选表部;20数据类型判断部;30多维模型生成部;21结构定义获取部;22基本数据类型划分部;23子数据类型划分部;231整型数据类型判断部;232浮点型数据类型判断部;233字符型数据类型判断部;234日期时间型数据类型判断部。
具体实施方式
以下结合附图及实施方式对本发明进行更详细的说明。此外,在附图中给同一或者相应部分附以同一附图标记,省略重复的说明。
(第一实施方式)
首先,结合图1说明本发明的第一实施方式的数据多维建模系统1的结构。图1是表示本发明的第一实施方式的数据多维建模系统的结构的框图。如图1所示,数据多维建模系统1基于预先存储的数据库2生成多维数据表,例如供OLAP(在线分析处理)引擎3使用。数据多维建模系统1包括选表部10、数据类型判断部20和多维模型生成部30。上述各部既可以通过数据多维建模系统1所具有的处理器执行存储器中存储的软件程序来实现,也可以通过专用的集成电路等硬件来实现。另外,数据多维建模系统1也可以作为数据多维建模装置实现。
选表部10从预先存储的数据库2中,根据分析主题选取目标主表以及与目标主表相关的目标附表。数据库2如图1所示,可以是商业智能领域中使用的交易数据库,但不限于此,也可以是其他领域中使用的数据库。
在数据库2为交易数据库的情况下,选表部10根据分析主题,从数据库2中预先存储的由交易或事务产生的交易表中选取目标主表,并从数据库2中预先存储的用于描述对象的对象定义表中,选取与选取的交易表相关的目标附表。由此,能够根据分析主题适当地确定用于生成多维数据表的目标主表和对象定义表。例如,在分析主题确定的前提下,可以通过语义分析等手段,在交易数据库中确定目标主表(交易表)M、以及与目标主表(交易表)相关的至少一个目标附表(对象定义表)L1、L2、L3、……。
数据类型判断部20在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型。即,在通过选表部10确定目标主表以及目标附表后,在目标主表中选取分析所需的数据列作为维度或度量,并根据后续处理的不同将维度和度量划分为不同的数据类型。
以下结合附图说明本发明的第一实施方式的数据类型判断部20的一个具体例。其中,该具体例仅是数据类型判断部20的一例,不对数据类型判断部20构成任何限定。图2是表示本发明的第一实施方式的数据类型判断部的一个具体例的结构的框图。如图2所示,数据类型判断部20包括结构定义获取部21、基本数据类型划分部22和子数据类型划分部23。
其中,结构定义获取部21获取目标主表的结构定义。在该结构定义中,包括目标主表中的各数据类型与本实施方式中目标主表的各数据列的基本数据类型之间的对应关系。
基本数据类型划分部22根据结构定义,将目标主表的多个数据列划分为与结构定义直接对应的多种基本数据类型。其中,在本具体例中,基本数据类型划分为整型、浮点型、字符型和日期时间型这四种类型,但不限于此,基本数据类型既可以包括整型、浮点型、字符型和日期时间型中的至少一个,也可以还包括其他类型。
子数据类型划分部23根据生成多维数据表所需的维度或度量,将多种基本数据类型进一步划分为与生成多维数据表所需的维度或度量对应的多种子数据类型作为数据类型。其中,在本具体例中,子数据类型划分为ID、整型维度、整型度量、地理信息维度、浮点型度量、字符维度、时间维度这七种类型,子数据类型划分部23还包括整型数据类型判断部231、浮点型数据类型判断部232、字符型数据类型判断部233和日期时间型数据类型判断部234。
其中,整型数据类型判断部231针对基本数据类型中的整型进一步划分为ID、整型维度或整型度量。浮点型数据类型判断部232针对基本数据类型中的浮点型进一步划分为地理信息维度或浮点型度量。字符型数据类型判断部233针对基本数据类型中的字符型进一步划分为字符维度。日期时间型数据类型判断部234针对基本数据类型中的日期时间型进一步划分为时间维度。
但本例不限于此,子数据类型既可以包括ID、整型维度、整型度量、地理信息维度、浮点型度量、字符维度、时间维度中的至少一个,也可以还包括其他类型,子数据类型划分部23所包括的各部也可以相应地酌情增减。
由此,通过首先将目标主表的各数据列的数据类型划分为与结构定义对应的基本数据类型,进而将基本数据类型划分为与生成多维数据表所需的维度或度量对应的多种子数据类型,能够合理且准确地确定目标主表的各数据列对应于何种维度或度量。
返回图1继续说明。多维模型生成部30对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。其中,事实表是数据仓库结构中的中央表,包含联系事实与维度表的数字度量值和键。事实表包含描述业务内特定事件的数据。维度是维度属性的集合,是观察数据的特定角度,是考虑问题时的一类属性。属性的集合构成一个维。多维模型生成部30所生成的星形结构的多维数据表可以如图1所示用于OLAP引擎,但不限于此,也可以用于其他智能分析。
根据本实施方式的数据多维建模系统1,通过机器学习的方式将多维建模的过程自动化,对例如交易数据库的数据库中的二维数据表,通过“选表”、“数据类型判断”和“多维模型生成”的处理,自动产生例如供OLAP引擎通用的星形结构多维数据库,提高了数据分析的效率。其中,不需要用户具有数据库操作和多维建模知识背景,能够使用户集中于其自身领域的分析,降低了智能分析的生产成本和数据处理的门槛。
以下说明本发明的第一实施方式的数据多维建模系统1所执行的数据多维建模方法。图3是表示本发明的第一实施方式的数据多维建模方法的流程图。如图3所示,数据多维建模方法包括选表步骤S10、数据类型判断步骤S20和多维模型生成步骤S30。以下分别具体说明。
在选表步骤S10中,数据多维建模系统1的选表部10从预先存储的数据库中,根据分析主题选取目标主表以及与目标主表相关的至少一个目标附表。
在数据类型判断步骤S20中,数据类型判断部20在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型。以下说明数据类型判断步骤S20的一个具体例。图4是表示本发明的第一实施方式的数据类型判断步骤的一个具体例的流程图。如图4所示,数据类型判断步骤S20可以包括结构定义获取步骤S21、基本数据类型划分步骤S22和子数据类型划分步骤S23。
在结构定义获取步骤S21中,结构定义获取部21例如通过SQL语句获取目标主表的结构定义。图5是表示目标主表的结构定义的一例的表。在图5中,左侧例示了例如通过对目标主表使用describe语句而得到的MySQL数据类型列表,右侧示出了与左侧的MySQL数据类型分别对应的基本数据类型。
在基本数据类型划分步骤S22中,基本数据类型划分部22根据结构定义获取步骤S21中获取的结构定义,将目标主表的多个数据列划分为与结构定义直接对应的多种基本数据类型。例如,如图5所示,根据目标主表的结构定义,将目标主表的各数据列分别映射成以下4种基本数据类型中的某一种:整型(I1、I2、……)、浮点型(F1、F2、……)、字符型(S1、S2、……)、日期时间型(T1、T2、……)。
在子数据类型划分步骤S23中,子数据类型划分部23根据生成多维数据表所需的维度或度量,将多种基本数据类型进一步划分为与生成多维数据表所需的维度或度量对应的多种子数据类型作为数据类型。
首先说明整型数据类型判断处理。图6是表示本发明的第一实施方式中整型数据类型判断处理的一个具体例的流程图。如图6所示,整型数据类型判断部231例如遍历目标主表中的所有整型数据列(I1、I2、……),判断数据列中各数据项是否唯一(步骤S2311)。例如,可以通过比较各整型数据列中的数据项数量与该整型数据列中删除了重复数据项之后的数据项数量是否一致,判断各整型数据列中各数据项是否唯一。在判断为数据列中各数据项唯一的情况下(步骤S2311为是),将该数据列排序(步骤S2312),并进一步判断排序后的数据列中各相邻数据项之间是否等差、例如差值是否为1(步骤S2313)。在判断为排序后的数据列中各相邻数据项等差的情况下(步骤S2313为是),将该数据列的子数据类型判断为ID(步骤S2314)。在判断为数据列中各数据项不唯一的情况下(步骤S2311为否)、或者判断为排序后的数据列中各相邻数据项不等差的情况下(步骤S2313为否),将该数据列的子数据类型判断为非ID(步骤S2315)。即,整型数据类型判断部231首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符。
接着,整型数据类型判断部231例如遍历目标主表中非ID的数据列,判断该数据列中各数据项是否均被包含在目标附表中(步骤S2316)。例如,根据主表与附表的外键关联,在目标附表(L1、L2、L3、……)中,分别查找可以与各非ID的数据列所包含的全部数据项对应的数据列。在目标附表中存在这样的数据列的情况下(步骤S2316为是),将该数据列的子数据类型判断为整型维度DI(步骤S2317)。否则,将该数据列的子数据类型判断为整型度量MI(步骤S2318)。即,整型数据类型判断部231针对非ID的整型数据列,判断各数据项是否均被包含在目标附表中,将各数据项均被包含在目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在目标附表中的整型数据列的子数据类型判断为整型度量。
由此,针对基本数据类型为整型的数据列,能够根据目标主表中ID唯一、自增、等差的特性、以及整型维度应该全部被包含在关联的目标附表中的特性,准确地判断出子数据类型。
接着说明浮点型数据类型判断处理。浮点型数据类型判断部232例如遍历目标主表中全部浮点型数据列(F1、F2、……),将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度DG,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量MF。由此,针对基本数据类型为浮点型的数据列,根据列名判断是否为经纬度信息,能够准确地判断出子数据类型。
另外,字符型数据类型判断部233例如遍历目标主表中所有字符型数据列(S1、S2、……),将字符型数据列的子数据类型判断为字符维度DS。日期时间型数据类型判断部234例如遍历目标主表中所有日期时间型数据列(T1、T2、……),将日期时间型数据列的子数据类型判断为时间维度DT。由此,针对基本数据类型为字符型或日期时间型的数据列,能够准确地判断其子数据类型为字符维度和时间维度。
在多维模型生成步骤S30中,多维模型生成部30对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。图7是表示本发明的第一实施方式中多维模型生成处理的一个具体例的流程图。如图7所示,在本具体例中,多维模型生成部30对数据类型判断步骤S20中生成的维度和度量做后续处理,把选表步骤S10中选取的目标主表和目标附表L1、L2、L3……,转换成以事实表为中心且以维度表为分支的星形结构模型。
首先,多维模型生成部30针对数据类型为维度的各数据列,判断其数据类型为哪种维度(步骤S301)。图7中示出了目标主表的数据列包括整型维度、地理信息维度和时间维度的情况,但不限于此,可以根据需要增减。
在整型维度DI的情况下,作为和目标附表关联的外键,可以直接作为维度使用(步骤S302)。其中,对应的目标附表作为该维度上的维度表,层次关系例如按照表中数据列之间的亲子关系。
在地理信息维度DG的情况下,作为经纬度信息,通过地理信息解析的方法,可以得到对应的行政区划数据,其内容例如包括街道、县(镇)、市、省和国家等区划,维度表和层次结构也相应地产生(步骤S303)。接着,将目标主表中的地理信息维度替换为地理信息维度表的最小粒度(最小单位,例如为街道)(步骤S304),地理信息维度表与目标主表通过地理信息维度表的最小粒度外键关联,从而将地理信息维度表标记为与目标主表中该数据列关联的维度表(步骤S305)。
在时间维度DT的情况下,即类型为时间戳的数据列,通过例如SQL的时间函数,能够将其整理成时间戳,生成小时、天、月份和年份为层次结构的时间维度表(步骤S306)。接着,将目标主表中的时间维度替换为时间维度表中的最小粒度(最小单位,例如为天)(步骤S307),时间维度表与目标主表通过时间维度表的最小粒度外键关联,从而将时间维度表标记为与目标主表中该数据列关联的维度表(步骤S308)。
另外,虽未图示,针对目标主表中的ID,因为分析数据库的特性,在多维模型中作为后述数据聚合的参数。针对字符型维度DS,例如通过对主题的语义分析,得到相关的字符型维度作为维度保留在目标主表中,并忽略不相关的字符型维度。
由此,对目标主表中全部维度进行处理,生成新的维度表并与目标主表进行关联。在此基础上,对度量进行聚合,例如做聚合函数,由此将目标主表转换成新维度的最小粒度(最小单位)和在此基础上生成的度量的集合,由此得到的新的目标主表就是事实表(步骤S309)。另外,如上所述,维度表通过外键与新的目标主表关联,星形结构生成完毕。
如上所述,在多维模型生成步骤S30中,多维模型生成部30根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。这样,能够高效地生成星形结构的多维数据表所需的维度表和事实表。
在由数据类型判断部20划分的数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型(例如整型维度、地理信息维度和时间维度)的情况下,在多维模型生成步骤S30中,多维模型生成部30按由每个维度的最小单位(最小粒度)构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。由此,通过与各个维度的最小单位的组合对应地将度量聚合,能够得到可实现的最小单位下的度量值,从而实现更精细的智能分析。
其中,在数据类型包括地理信息维度和时间维度的情况下,在多维模型生成步骤S30中,多维模型生成部30按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。由此,能够得到地理和时间的组合的最小单位下的度量值,从而实现位置时间更精确的智能分析。
(第一实施例)
以上说明了本发明的一个实施方式,接下来具体说明与该实施方式对应的一个具体实施例。本实施例只是为了容易理解本发明的实施方式而举出的例子,不对本发明的实施方式构成限定。
本实施例是关于“车辆报警”分析的例子。图8是表示本发明的第一实施例中获取目标主表和目标附表的示意图。如图8所示,数据库(交易数据库)2中存放了多个由交易或事务产生的交易表、以及对象定义表。选表部10根据用户输入的分析主题“警报分析”,通过语义分析,在数据库(交易数据库)2中选取“警报历史”表作为目标主表M,并选取“警报类型”表作为目标附表L。
图9是表示本发明的第一实施例中划分数据类型的示意图。如图9所示,数据类型判断部20根据目标主表M的结构定义,将目标主表M中的数据列划分为基本数据类型。例如,警报编号和类别被划分为整型,经度和纬度被划分为浮点型,时间被划分为日期时间型。进而,数据类型判断部20将基本数据类型进一步划分为子数据类型。例如,警报编号被划分为ID,类别被划分为整型维度,经度和纬度被划分为地理信息维度,时间被划分为时间维度。
接着,多维模型生成部30根据某些特殊维度的属性,生成维度表或找到交易数据库中对应的维度表。图10是表示本发明的第一实施例中整型维度表的示意图。如上所述,多维模型生成部30将图10所示的目标附表L(对象定义表)直接作为整型维度表使用,并与目标主表M中的整型维度数据列建立关联。
图11是表示本发明的第一实施例中生成地理信息维度表、并替换目标主表中的经纬度的示意图。如图11所示,多维模型生成部30根据经纬度信息,利用Geo Coding等技术,生成地理信息维度表。其中,生成的地理信息维度表的最小粒度(最小单位)为街道。接着,利用生成的地理信息维度表的最小粒度(街道)替换目标主表M中的经纬度。
图12是表示本发明的第一实施例中生成时间维度表、并替换目标主表中的时间的示意图。如图12所示,多维模型生成部30根据时间戳,生成时间维度表。其中,生成的时间维度表的最小粒度(最小单位)为天。接着,利用生成的时间维度表的最小粒度(天)替换目标主表M中的时间。
接着,多维模型生成部30通过新生成的维度与度量的聚合,生成事实表。图13是表示本发明的第一实施例中生成的事实表的示意图。如图13所示,多维模型生成部30将目标主表M中的ID数据列剔除,并根据新导入的维度对度量进行聚合计算,生成新的度量列(次数)。在图13中,按每个整型维度(类别)、地理信息维度(位置)的最小粒度(街道)、时间维度(时间)的最小粒度(天),对警报发生的合计次数进行计数(聚合),从而生成最右侧的度量列。
接着,多维模型生成部30产生以事实表为中心且以维度表为分支的星形结构的多维模型的数据库表,并保存在数据库中,完成建模过程。图14是表示本发明的第一实施例中生成的星形结构的多维数据表的示意图。如图14所示,事实表中的各维度(类别、位置、时间)分别与各自的维度表建立关联,从而构成星形结构的多维模型。
以上参照附图说明了本发明的实施方式和具体实施例。其中,以上说明的实施方式和实施例仅是本发明的具体例子,用于理解本发明,而不用于限定本发明的范围。本领域技术人员能够基于本发明的技术思想对各实施方式和实施例进行各种变形、组合和要素的合理省略,由此得到的方式也包括在本发明的范围内。

Claims (8)

1.一种数据多维建模系统,基于预先存储的数据库生成多维数据表,其特征在于,包括:
选表部,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;
数据类型判断部,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及
多维模型生成部,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表,
所述选表部根据分析主题,从数据库中预先存储的由交易或事务产生的交易表中选取所述目标主表,并从数据库中预先存储的用于描述对象的对象定义表中,选取与选取的所述交易表相关的所述目标附表,
所述数据类型判断部包括:
结构定义获取部,获取所述目标主表的结构定义;
基本数据类型划分部,根据所述结构定义,将所述目标主表的所述多个数据列划分为与所述结构定义直接对应的多种基本数据类型;以及
子数据类型划分部,根据生成所述多维数据表所需的维度或度量,将所述多种基本数据类型进一步划分为与生成所述多维数据表所需的维度或度量对应的多种子数据类型作为所述数据类型。
2.如权利要求1所述的数据多维建模系统,其特征在于,
所述基本数据类型包括整型,
所述子数据类型划分部还包括整型数据类型判断部,
所述整型数据类型判断部首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符,
进而,所述整型数据类型判断部针对非ID的整型数据列,判断各数据项是否均被包含在所述目标附表中,将各数据项均被包含在所述目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在所述目标附表中的整型数据列的子数据类型判断为整型度量。
3.如权利要求2所述的数据多维建模系统,其特征在于,
所述基本数据类型还包括浮点型,
所述子数据类型划分部还包括浮点型数据类型判断部,
所述浮点型数据类型判断部将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量。
4.如权利要求3所述的数据多维建模系统,其特征在于,
所述基本数据类型还包括字符型及日期时间型,
所述子数据类型划分部还包括字符型数据类型判断部和日期时间型数据类型判断部,
所述字符型数据类型判断部将字符型数据列的子数据类型判断为字符维度,所述日期时间型数据类型判断部将日期时间型数据列的子数据类型判断为时间维度。
5.如权利要求1-4中任一项所述的数据多维建模系统,其特征在于,
所述多维模型生成部根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。
6.如权利要求5所述的数据多维建模系统,其特征在于,
在由所述数据类型判断部划分的所述数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型的情况下,所述多维模型生成部按由每个维度的最小单位构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。
7.如权利要求6所述的数据多维建模系统,其特征在于,
在所述数据类型包括地理信息维度和时间维度的情况下,所述多维模型生成部按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。
8.一种数据多维建模方法,基于预先存储的数据库生成多维数据表,其特征在于,包括:
选表步骤,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;
数据类型判断步骤,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及
多维模型生成步骤,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表,
所述选表步骤根据分析主题,从数据库中预先存储的由交易或事务产生的交易表中选取所述目标主表,并从数据库中预先存储的用于描述对象的对象定义表中,选取与选取的所述交易表相关的所述目标附表,
所述数据类型判断步骤包括:
获取所述目标主表的结构定义;
根据所述结构定义,将所述目标主表的所述多个数据列划分为与所述结构定义直接对应的多种基本数据类型;以及
根据生成所述多维数据表所需的维度或度量,将所述多种基本数据类型进一步划分为与生成所述多维数据表所需的维度或度量对应的多种子数据类型作为所述数据类型。
CN201710052982.2A 2017-01-22 2017-01-22 数据多维建模系统及数据多维建模方法 Expired - Fee Related CN108345602B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710052982.2A CN108345602B (zh) 2017-01-22 2017-01-22 数据多维建模系统及数据多维建模方法
JP2018008094A JP6530829B2 (ja) 2017-01-22 2018-01-22 データ多次元モデル生成システム及びデータ多次元モデル生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710052982.2A CN108345602B (zh) 2017-01-22 2017-01-22 数据多维建模系统及数据多维建模方法

Publications (2)

Publication Number Publication Date
CN108345602A CN108345602A (zh) 2018-07-31
CN108345602B true CN108345602B (zh) 2021-06-25

Family

ID=62961809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710052982.2A Expired - Fee Related CN108345602B (zh) 2017-01-22 2017-01-22 数据多维建模系统及数据多维建模方法

Country Status (2)

Country Link
JP (1) JP6530829B2 (zh)
CN (1) CN108345602B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109345117B (zh) * 2018-09-30 2022-02-08 北京工业大学 一种多维数据驱动的交通运输主体综合画像方法
CN111159173B (zh) * 2018-11-08 2023-04-18 王纹 一种构造多维语义数据库的方法
JP7109346B2 (ja) * 2018-11-29 2022-07-29 株式会社日立製作所 実績データ管理装置
CN109784846B (zh) * 2018-12-29 2022-09-13 福建华闽通达信息技术有限公司 一种根据数量判断表单是否生成附表的方法及计算机设备
CN110908989B (zh) * 2019-11-20 2023-09-15 无锡识凌科技有限公司 一种应用于数据清洗工具的数据匹配方法
CN112527919A (zh) * 2020-12-04 2021-03-19 广州橙行智动汽车科技有限公司 一种数据处理的方法和装置
CN113505128B (zh) * 2021-06-30 2024-05-31 平安科技(深圳)有限公司 创建数据表的方法、装置、设备及存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940818A (en) * 1997-06-30 1999-08-17 International Business Machines Corporation Attribute-based access for multi-dimensional databases
JP2003316901A (ja) * 2002-04-24 2003-11-07 Sanyo Electric Co Ltd 診療データ調査分析システムと方法
CN1508728A (zh) * 2002-12-18 2004-06-30 �Ҵ���˾ 使用元数据在关系数据库中创建多维数据集的方法和系统
CN101111838A (zh) * 2004-11-30 2008-01-23 科格洛斯公司 多维企业软件系统中的自动关系模式生成
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和系统
CN103093322A (zh) * 2013-02-21 2013-05-08 用友软件股份有限公司 即席分析业务数据的系统和方法
CN103955483A (zh) * 2014-04-08 2014-07-30 方芳 一种rfid供应链数据的多维分析方法
CN104299102A (zh) * 2014-10-31 2015-01-21 国电南瑞科技股份有限公司 电网调控一体化系统多维数据模型的建模方法
CN104391948A (zh) * 2014-12-01 2015-03-04 广东电网有限责任公司清远供电局 数据仓库的数据标准化构建方法及系统
CN105787052A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 数据处理模型建立方法及基于数据处理模型数据筛选方法
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8412671B2 (en) * 2004-08-13 2013-04-02 Hewlett-Packard Development Company, L.P. System and method for developing a star schema
US20070203933A1 (en) * 2006-02-24 2007-08-30 Iversen Heine K Method for generating data warehouses and OLAP cubes

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5940818A (en) * 1997-06-30 1999-08-17 International Business Machines Corporation Attribute-based access for multi-dimensional databases
JP2003316901A (ja) * 2002-04-24 2003-11-07 Sanyo Electric Co Ltd 診療データ調査分析システムと方法
CN1508728A (zh) * 2002-12-18 2004-06-30 �Ҵ���˾ 使用元数据在关系数据库中创建多维数据集的方法和系统
CN101111838A (zh) * 2004-11-30 2008-01-23 科格洛斯公司 多维企业软件系统中的自动关系模式生成
CN101197876A (zh) * 2006-12-06 2008-06-11 中兴通讯股份有限公司 一种对消息类业务数据进行多维分析的方法和系统
CN103093322A (zh) * 2013-02-21 2013-05-08 用友软件股份有限公司 即席分析业务数据的系统和方法
CN103955483A (zh) * 2014-04-08 2014-07-30 方芳 一种rfid供应链数据的多维分析方法
CN104299102A (zh) * 2014-10-31 2015-01-21 国电南瑞科技股份有限公司 电网调控一体化系统多维数据模型的建模方法
CN104391948A (zh) * 2014-12-01 2015-03-04 广东电网有限责任公司清远供电局 数据仓库的数据标准化构建方法及系统
CN105787052A (zh) * 2016-02-26 2016-07-20 广州品唯软件有限公司 数据处理模型建立方法及基于数据处理模型数据筛选方法
CN106021486A (zh) * 2016-05-18 2016-10-12 广东源恒软件科技有限公司 一种基于大数据的数据多维分析处理方法

Also Published As

Publication number Publication date
JP2018116706A (ja) 2018-07-26
JP6530829B2 (ja) 2019-06-12
CN108345602A (zh) 2018-07-31

Similar Documents

Publication Publication Date Title
CN108345602B (zh) 数据多维建模系统及数据多维建模方法
AU2020250205B2 (en) Characterizing data sources in a data storage system
US20170286454A1 (en) Data retrieval apparatus, program and recording medium
CN104769586A (zh) 采用位置信息剖析数据
CN103473672A (zh) 企业级数据中心的元数据质量稽核系统、方法及平台
KR102213627B1 (ko) 분석 소프트웨어 관리 시스템 및 분석 소프트웨어 관리 방법
CN106909566A (zh) 一种数据建模方法及设备
CN105260300B (zh) 基于会计准则通用分类标准应用平台的业务测试方法
US20220058499A1 (en) Multidimensional hierarchy level recommendation for forecasting models
CN117033460B (zh) 一种基于总线矩阵的数据模型自动构建系统及方法
Ryzhakova et al. Construction project management with digital twin information system
CN105354272A (zh) 一种基于维度组合的指标计算方法和系统
CN114661832A (zh) 一种基于数据质量的多模态异构数据存储方法及系统
CN115618341A (zh) 一种基于大数据的数据库用户行为的分析方法及系统
CN113553341A (zh) 多维数据分析方法、装置、设备及计算机可读存储介质
CN111190896B (zh) 数据处理方法、装置、存储介质和计算机设备
CN110990907A (zh) 基于特征-资源知识的船用柴油机关重件可制造性三级优化方法
CN114860819A (zh) 商业智能系统的构建方法、装置、设备和存储介质
CN111143356B (zh) 报表检索方法及装置
CN111260452B (zh) 一种税务大数据模型的构建方法及系统
US11216486B2 (en) Data retrieval apparatus, program and recording medium
CN117390064B (zh) 一种基于可嵌入子图的数据库查询优化方法
CN116738216B (zh) 预警大数据的关联处理方法和装置
JP2024067330A (ja) 環境負荷評価装置および方法
CN116992046A (zh) 一种事理图谱的构建及管理方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210625