CN108345602A - 数据多维建模系统及数据多维建模方法 - Google Patents
数据多维建模系统及数据多维建模方法 Download PDFInfo
- Publication number
- CN108345602A CN108345602A CN201710052982.2A CN201710052982A CN108345602A CN 108345602 A CN108345602 A CN 108345602A CN 201710052982 A CN201710052982 A CN 201710052982A CN 108345602 A CN108345602 A CN 108345602A
- Authority
- CN
- China
- Prior art keywords
- data
- type
- dimension
- multidimensional
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000005259 measurement Methods 0.000 claims abstract description 59
- 238000004458 analytical method Methods 0.000 claims abstract description 46
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 14
- 238000006243 chemical reaction Methods 0.000 claims abstract description 7
- 238000012545 processing Methods 0.000 abstract description 14
- 238000004519 manufacturing process Methods 0.000 abstract description 4
- 238000007405 data analysis Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 17
- 239000002245 particle Substances 0.000 description 12
- 241001269238 Data Species 0.000 description 2
- 239000008186 active pharmaceutical agent Substances 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 241000406668 Loxodonta cyclotis Species 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000002910 structure generation Methods 0.000 description 1
- 238000013316 zoning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2228—Indexing structures
- G06F16/2264—Multidimensional index structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种数据多维建模系统及数据多维建模方法,基于预先存储的数据库生成多维数据表,包括:选表部,从预先存储的数据库中,根据分析主题选取目标主表以及与目标主表相关的目标附表;数据类型判断部,在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成部,对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。由此,自动产生星形结构多维数据库,提高了数据分析的效率,降低了智能分析的生产成本和数据处理的门槛。
Description
技术领域
本发明涉及数据多维建模系统及数据多维建模方法,尤其涉及智能分析领域中自动产生多维模型的多维建模系统及数据多维建模方法。
背景技术
在BI(Business Intelligence:商业智能)等智能分析领域中,多维分析Cube(数据立方体)是一种行之有效且广泛采用的多维分析工具。而且,由于性能、权限、业务划分等原因,往往需要生成大量的多维分析Cube。
例如,在OLAP(在线分析处理)领域中,Cube作为数据立方体,是以商业分析或数据可视化为目的,通过在多维数据库上的一系列映射获得的逻辑模型。在生成Cube之前,要求把例如交易数据库中的传统E-R(实体-联系)关系的二维表,转换成星形结构的多维模型并保存在数据库中。这是生成Cube的基础,也是现存OLAP引擎的先决条件。
然而,在现有技术中,缺少基于例如交易数据库自动地产生多维模型的数据多维建模技术。例如,专利文献1(CN102541656)虽然从资源分配的角度介绍了如何产生Cube的过程,但没有公开如何产生作为生成Cube的基础的星形结构的多维模型。结果,现有技术往往需要人工产生多维模型,造成智能分析的生产成本上升和数据处理的门槛增高,严重影响了商业智能分析等智能分析的效率和实用性。
发明内容
本发明为了解决现有技术中的上述技术问题中的至少一个,采用以下技术方案。
本发明提供一种数据多维建模系统,基于预先存储的数据库生成多维数据表,其特征在于,包括:选表部,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;数据类型判断部,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成部,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
根据本发明的数据多维建模系统,通过机器学习的方式将多维建模的过程自动化,对例如交易数据库的数据库中的二维数据表,通过“选表”、“数据类型判断”和“多维模型生成”的处理,自动产生例如供OLAP引擎通用的星形结构多维数据库,提高了数据分析的效率。其中,不需要用户具有数据库操作和多维建模知识背景,能够使用户集中于其自身领域的分析,降低了智能分析的生产成本和数据处理的门槛。
在上述数据多维建模系统中,所述选表部也可以根据分析主题,从数据库中预先存储的由交易或事务产生的交易表中选取所述目标主表,并从数据库中预先存储的用于描述对象的对象定义表中,选取与选取的所述交易表相关的所述目标附表。
由此,能够根据分析主题适当地确定用于生成多维数据表的目标主表和对象定义表。
在上述数据多维建模系统中,所述数据类型判断部也可以包括:结构定义获取部,获取所述目标主表的结构定义;基本数据类型划分部,根据所述结构定义,将所述目标主表的所述多个数据列划分为与所述结构定义直接对应的多种基本数据类型;以及子数据类型划分部,根据生成所述多维数据表所需的维度或度量,将所述多种基本数据类型进一步划分为与生成所述多维数据表所需的维度或度量对应的多种子数据类型作为所述数据类型。
由此,通过首先将目标主表的各数据列的数据类型划分为与结构定义对应的基本数据类型,进而将基本数据类型划分为与生成多维数据表所需的维度或度量对应的多种子数据类型,能够合理且准确地确定目标主表的各数据列对应于何种维度或度量。
在上述数据多维建模系统中,所述基本数据类型也可以包括整型,所述子数据类型划分部还包括整型数据类型判断部,所述整型数据类型判断部首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符,进而,所述整型数据类型判断部针对非ID的整型数据列,判断各数据项是否均被包含在所述目标附表中,将各数据项均被包含在所述目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在所述目标附表中的整型数据列的子数据类型判断为整型度量。
由此,针对基本数据类型为整型的数据列,能够根据目标主表中ID唯一、自增、等差的特性、以及整型维度应该全部被包含在关联的目标附表中的特性,准确地判断出子数据类型。
在上述数据多维建模系统中,所述基本数据类型也可以还包括浮点型,所述子数据类型划分部还包括浮点型数据类型判断部,所述浮点型数据类型判断部将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量。
由此,针对基本数据类型为浮点型的数据列,根据列名判断是否为经纬度信息,能够准确地判断出子数据类型。
在上述数据多维建模系统中,所述基本数据类型也可以还包括字符型及日期时间型,所述子数据类型划分部还包括字符型数据类型判断部和日期时间型数据类型判断部,所述字符型数据类型判断部将字符型数据列的子数据类型判断为字符维度,所述日期时间型数据类型判断部将日期时间型数据列的子数据类型判断为时间维度。
由此,针对基本数据类型为字符型或日期时间型的数据列,能够准确地判断其子数据类型为字符维度或时间维度。
在上述数据多维建模系统中,所述多维模型生成部也可以根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。
由此,能够高效地生成星形结构的多维数据表所需的维度表和事实表。
在上述数据多维建模系统中,在由所述数据类型判断部划分的所述数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型的情况下,所述多维模型生成部也可以按由每个维度的最小单位构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。
由此,通过与各个维度的最小单位的组合对应地将度量聚合,能够得到可实现的最小单位下的度量值,从而实现更精细的智能分析。
在上述数据多维建模系统中,在所述数据类型包括地理信息维度和时间维度的情况下,所述多维模型生成部也可以按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。
由此,能够得到地理和时间的组合的最小单位下的度量值,从而实现位置时间更精确的智能分析。
本发明还提供一种数据多维建模方法,基于预先存储的数据库生成多维数据表,其特征在于,包括:选表步骤,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;数据类型判断步骤,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及多维模型生成步骤,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
本发明还可以通过数据多维建模装置、或者通过能够使计算机执行数据多维建模方法的数据多维建模程序实现,或者通过记录了该程序的记录介质等实现。另外,本发明的数据多维建模系统的上述多种方式也能够适用于本发明的数据多维建模方法、数据多维建模装置、数据多维建模程序或记录介质,并获得同样的技术效果。
附图说明
图1是表示本发明的第一实施方式的数据多维建模系统的结构的框图。
图2是表示本发明的第一实施方式的数据类型判断部的一个具体例的结构的框图。
图3是表示本发明的第一实施方式的数据多维建模方法的流程图。
图4是表示本发明的第一实施方式的数据类型判断步骤的一个具体例的流程图。
图5是表示目标主表的结构定义的一例的表。
图6是表示本发明的第一实施方式中整型数据类型判断处理的一个具体例的流程图。
图7是表示本发明的第一实施方式中多维模型生成处理的一个具体例的流程图。
图8是表示本发明的第一实施例中获取目标主表和目标附表的示意图。
图9是表示本发明的第一实施例中划分数据类型的示意图。
图10是表示本发明的第一实施例中整型维度表的示意图。
图11是表示本发明的第一实施例中生成地理信息维度表、并替换目标主表中的经纬度的示意图。
图12是表示本发明的第一实施例中生成时间维度表、并替换目标主表中的时间的示意图。
图13是表示本发明的第一实施例中生成的事实表的示意图。
图14是表示本发明的第一实施例中生成的星形结构的多维数据表的示意图。
附图标记说明:
1数据多维建模系统;2数据库;3OLAP引擎;10选表部;20数据类型判断部;30多维模型生成部;21结构定义获取部;22基本数据类型划分部;23子数据类型划分部;231整型数据类型判断部;232浮点型数据类型判断部;233字符型数据类型判断部;234日期时间型数据类型判断部。
具体实施方式
以下结合附图及实施方式对本发明进行更详细的说明。此外,在附图中给同一或者相应部分附以同一附图标记,省略重复的说明。
(第一实施方式)
首先,结合图1说明本发明的第一实施方式的数据多维建模系统1的结构。图1是表示本发明的第一实施方式的数据多维建模系统的结构的框图。如图1所示,数据多维建模系统1基于预先存储的数据库2生成多维数据表,例如供OLAP(在线分析处理)引擎3使用。数据多维建模系统1包括选表部10、数据类型判断部20和多维模型生成部30。上述各部既可以通过数据多维建模系统1所具有的处理器执行存储器中存储的软件程序来实现,也可以通过专用的集成电路等硬件来实现。另外,数据多维建模系统1也可以作为数据多维建模装置实现。
选表部10从预先存储的数据库2中,根据分析主题选取目标主表以及与目标主表相关的目标附表。数据库2如图1所示,可以是商业智能领域中使用的交易数据库,但不限于此,也可以是其他领域中使用的数据库。
在数据库2为交易数据库的情况下,选表部10根据分析主题,从数据库2中预先存储的由交易或事务产生的交易表中选取目标主表,并从数据库2中预先存储的用于描述对象的对象定义表中,选取与选取的交易表相关的目标附表。由此,能够根据分析主题适当地确定用于生成多维数据表的目标主表和对象定义表。例如,在分析主题确定的前提下,可以通过语义分析等手段,在交易数据库中确定目标主表(交易表)M、以及与目标主表(交易表)相关的至少一个目标附表(对象定义表)L1、L2、L3、……。
数据类型判断部20在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型。即,在通过选表部10确定目标主表以及目标附表后,在目标主表中选取分析所需的数据列作为维度或度量,并根据后续处理的不同将维度和度量划分为不同的数据类型。
以下结合附图说明本发明的第一实施方式的数据类型判断部20的一个具体例。其中,该具体例仅是数据类型判断部20的一例,不对数据类型判断部20构成任何限定。图2是表示本发明的第一实施方式的数据类型判断部的一个具体例的结构的框图。如图2所示,数据类型判断部20包括结构定义获取部21、基本数据类型划分部22和子数据类型划分部23。
其中,结构定义获取部21获取目标主表的结构定义。在该结构定义中,包括目标主表中的各数据类型与本实施方式中目标主表的各数据列的基本数据类型之间的对应关系。
基本数据类型划分部22根据结构定义,将目标主表的多个数据列划分为与结构定义直接对应的多种基本数据类型。其中,在本具体例中,基本数据类型划分为整型、浮点型、字符型和日期时间型这四种类型,但不限于此,基本数据类型既可以包括整型、浮点型、字符型和日期时间型中的至少一个,也可以还包括其他类型。
子数据类型划分部23根据生成多维数据表所需的维度或度量,将多种基本数据类型进一步划分为与生成多维数据表所需的维度或度量对应的多种子数据类型作为数据类型。其中,在本具体例中,子数据类型划分为ID、整型维度、整型度量、地理信息维度、浮点型度量、字符维度、时间维度这七种类型,子数据类型划分部23还包括整型数据类型判断部231、浮点型数据类型判断部232、字符型数据类型判断部233和日期时间型数据类型判断部234。
其中,整型数据类型判断部231针对基本数据类型中的整型进一步划分为ID、整型维度或整型度量。浮点型数据类型判断部232针对基本数据类型中的浮点型进一步划分为地理信息维度或浮点型度量。字符型数据类型判断部233针对基本数据类型中的字符型进一步划分为字符维度。日期时间型数据类型判断部234针对基本数据类型中的日期时间型进一步划分为时间维度。
但本例不限于此,子数据类型既可以包括ID、整型维度、整型度量、地理信息维度、浮点型度量、字符维度、时间维度中的至少一个,也可以还包括其他类型,子数据类型划分部23所包括的各部也可以相应地酌情增减。
由此,通过首先将目标主表的各数据列的数据类型划分为与结构定义对应的基本数据类型,进而将基本数据类型划分为与生成多维数据表所需的维度或度量对应的多种子数据类型,能够合理且准确地确定目标主表的各数据列对应于何种维度或度量。
返回图1继续说明。多维模型生成部30对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。其中,事实表是数据仓库结构中的中央表,包含联系事实与维度表的数字度量值和键。事实表包含描述业务内特定事件的数据。维度是维度属性的集合,是观察数据的特定角度,是考虑问题时的一类属性。属性的集合构成一个维。多维模型生成部30所生成的星形结构的多维数据表可以如图1所示用于OLAP引擎,但不限于此,也可以用于其他智能分析。
根据本实施方式的数据多维建模系统1,通过机器学习的方式将多维建模的过程自动化,对例如交易数据库的数据库中的二维数据表,通过“选表”、“数据类型判断”和“多维模型生成”的处理,自动产生例如供OLAP引擎通用的星形结构多维数据库,提高了数据分析的效率。其中,不需要用户具有数据库操作和多维建模知识背景,能够使用户集中于其自身领域的分析,降低了智能分析的生产成本和数据处理的门槛。
以下说明本发明的第一实施方式的数据多维建模系统1所执行的数据多维建模方法。图3是表示本发明的第一实施方式的数据多维建模方法的流程图。如图3所示,数据多维建模方法包括选表步骤S10、数据类型判断步骤S20和多维模型生成步骤S30。以下分别具体说明。
在选表步骤S10中,数据多维建模系统1的选表部10从预先存储的数据库中,根据分析主题选取目标主表以及与目标主表相关的至少一个目标附表。
在数据类型判断步骤S20中,数据类型判断部20在目标主表中选取分析所需的多个数据列,将多个数据列划分为分别与生成多维数据表所需的维度或度量对应的多种数据类型。以下说明数据类型判断步骤S20的一个具体例。图4是表示本发明的第一实施方式的数据类型判断步骤的一个具体例的流程图。如图4所示,数据类型判断步骤S20可以包括结构定义获取步骤S21、基本数据类型划分步骤S22和子数据类型划分步骤S23。
在结构定义获取步骤S21中,结构定义获取部21例如通过SQL语句获取目标主表的结构定义。图5是表示目标主表的结构定义的一例的表。在图5中,左侧例示了例如通过对目标主表使用describe语句而得到的MySQL数据类型列表,右侧示出了与左侧的MySQL数据类型分别对应的基本数据类型。
在基本数据类型划分步骤S22中,基本数据类型划分部22根据结构定义获取步骤S21中获取的结构定义,将目标主表的多个数据列划分为与结构定义直接对应的多种基本数据类型。例如,如图5所示,根据目标主表的结构定义,将目标主表的各数据列分别映射成以下4种基本数据类型中的某一种:整型(I1、I2、……)、浮点型(F1、F2、……)、字符型(S1、S2、……)、日期时间型(T1、T2、……)。
在子数据类型划分步骤S23中,子数据类型划分部23根据生成多维数据表所需的维度或度量,将多种基本数据类型进一步划分为与生成多维数据表所需的维度或度量对应的多种子数据类型作为数据类型。
首先说明整型数据类型判断处理。图6是表示本发明的第一实施方式中整型数据类型判断处理的一个具体例的流程图。如图6所示,整型数据类型判断部231例如遍历目标主表中的所有整型数据列(I1、I2、……),判断数据列中各数据项是否唯一(步骤S2311)。例如,可以通过比较各整型数据列中的数据项数量与该整型数据列中删除了重复数据项之后的数据项数量是否一致,判断各整型数据列中各数据项是否唯一。在判断为数据列中各数据项唯一的情况下(步骤S2311为是),将该数据列排序(步骤S2312),并进一步判断排序后的数据列中各相邻数据项之间是否等差、例如差值是否为1(步骤S2313)。在判断为排序后的数据列中各相邻数据项等差的情况下(步骤S2313为是),将该数据列的子数据类型判断为ID(步骤S2314)。在判断为数据列中各数据项不唯一的情况下(步骤S2311为否)、或者判断为排序后的数据列中各相邻数据项不等差的情况下(步骤S2313为否),将该数据列的子数据类型判断为非ID(步骤S2315)。即,整型数据类型判断部231首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符。
接着,整型数据类型判断部231例如遍历目标主表中非ID的数据列,判断该数据列中各数据项是否均被包含在目标附表中(步骤S2316)。例如,根据主表与附表的外键关联,在目标附表(L1、L2、L3、……)中,分别查找可以与各非ID的数据列所包含的全部数据项对应的数据列。在目标附表中存在这样的数据列的情况下(步骤S2316为是),将该数据列的子数据类型判断为整型维度DI(步骤S2317)。否则,将该数据列的子数据类型判断为整型度量MI(步骤S2318)。即,整型数据类型判断部231针对非ID的整型数据列,判断各数据项是否均被包含在目标附表中,将各数据项均被包含在目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在目标附表中的整型数据列的子数据类型判断为整型度量。
由此,针对基本数据类型为整型的数据列,能够根据目标主表中ID唯一、自增、等差的特性、以及整型维度应该全部被包含在关联的目标附表中的特性,准确地判断出子数据类型。
接着说明浮点型数据类型判断处理。浮点型数据类型判断部232例如遍历目标主表中全部浮点型数据列(F1、F2、……),将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度DG,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量MF。由此,针对基本数据类型为浮点型的数据列,根据列名判断是否为经纬度信息,能够准确地判断出子数据类型。
另外,字符型数据类型判断部233例如遍历目标主表中所有字符型数据列(S1、S2、……),将字符型数据列的子数据类型判断为字符维度DS。日期时间型数据类型判断部234例如遍历目标主表中所有日期时间型数据列(T1、T2、……),将日期时间型数据列的子数据类型判断为时间维度DT。由此,针对基本数据类型为字符型或日期时间型的数据列,能够准确地判断其子数据类型为字符维度和时间维度。
在多维模型生成步骤S30中,多维模型生成部30对与生成多维数据表所需的维度和度量对应的多种数据类型的数据列以及目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。图7是表示本发明的第一实施方式中多维模型生成处理的一个具体例的流程图。如图7所示,在本具体例中,多维模型生成部30对数据类型判断步骤S20中生成的维度和度量做后续处理,把选表步骤S10中选取的目标主表和目标附表L1、L2、L3……,转换成以事实表为中心且以维度表为分支的星形结构模型。
首先,多维模型生成部30针对数据类型为维度的各数据列,判断其数据类型为哪种维度(步骤S301)。图7中示出了目标主表的数据列包括整型维度、地理信息维度和时间维度的情况,但不限于此,可以根据需要增减。
在整型维度DI的情况下,作为和目标附表关联的外键,可以直接作为维度使用(步骤S302)。其中,对应的目标附表作为该维度上的维度表,层次关系例如按照表中数据列之间的亲子关系。
在地理信息维度DG的情况下,作为经纬度信息,通过地理信息解析的方法,可以得到对应的行政区划数据,其内容例如包括街道、县(镇)、市、省和国家等区划,维度表和层次结构也相应地产生(步骤S303)。接着,将目标主表中的地理信息维度替换为地理信息维度表的最小粒度(最小单位,例如为街道)(步骤S304),地理信息维度表与目标主表通过地理信息维度表的最小粒度外键关联,从而将地理信息维度表标记为与目标主表中该数据列关联的维度表(步骤S305)。
在时间维度DT的情况下,即类型为时间戳的数据列,通过例如SQL的时间函数,能够将其整理成时间戳,生成小时、天、月份和年份为层次结构的时间维度表(步骤S306)。接着,将目标主表中的时间维度替换为时间维度表中的最小粒度(最小单位,例如为天)(步骤S307),时间维度表与目标主表通过时间维度表的最小粒度外键关联,从而将时间维度表标记为与目标主表中该数据列关联的维度表(步骤S308)。
另外,虽未图示,针对目标主表中的ID,因为分析数据库的特性,在多维模型中作为后述数据聚合的参数。针对字符型维度DS,例如通过对主题的语义分析,得到相关的字符型维度作为维度保留在目标主表中,并忽略不相关的字符型维度。
由此,对目标主表中全部维度进行处理,生成新的维度表并与目标主表进行关联。在此基础上,对度量进行聚合,例如做聚合函数,由此将目标主表转换成新维度的最小粒度(最小单位)和在此基础上生成的度量的集合,由此得到的新的目标主表就是事实表(步骤S309)。另外,如上所述,维度表通过外键与新的目标主表关联,星形结构生成完毕。
如上所述,在多维模型生成步骤S30中,多维模型生成部30根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。这样,能够高效地生成星形结构的多维数据表所需的维度表和事实表。
在由数据类型判断部20划分的数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型(例如整型维度、地理信息维度和时间维度)的情况下,在多维模型生成步骤S30中,多维模型生成部30按由每个维度的最小单位(最小粒度)构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。由此,通过与各个维度的最小单位的组合对应地将度量聚合,能够得到可实现的最小单位下的度量值,从而实现更精细的智能分析。
其中,在数据类型包括地理信息维度和时间维度的情况下,在多维模型生成步骤S30中,多维模型生成部30按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。由此,能够得到地理和时间的组合的最小单位下的度量值,从而实现位置时间更精确的智能分析。
(第一实施例)
以上说明了本发明的一个实施方式,接下来具体说明与该实施方式对应的一个具体实施例。本实施例只是为了容易理解本发明的实施方式而举出的例子,不对本发明的实施方式构成限定。
本实施例是关于“车辆报警”分析的例子。图8是表示本发明的第一实施例中获取目标主表和目标附表的示意图。如图8所示,数据库(交易数据库)2中存放了多个由交易或事务产生的交易表、以及对象定义表。选表部10根据用户输入的分析主题“警报分析”,通过语义分析,在数据库(交易数据库)2中选取“警报历史”表作为目标主表M,并选取“警报类型”表作为目标附表L。
图9是表示本发明的第一实施例中划分数据类型的示意图。如图9所示,数据类型判断部20根据目标主表M的结构定义,将目标主表M中的数据列划分为基本数据类型。例如,警报编号和类别被划分为整型,经度和纬度被划分为浮点型,时间被划分为日期时间型。进而,数据类型判断部20将基本数据类型进一步划分为子数据类型。例如,警报编号被划分为ID,类别被划分为整型维度,经度和纬度被划分为地理信息维度,时间被划分为时间维度。
接着,多维模型生成部30根据某些特殊维度的属性,生成维度表或找到交易数据库中对应的维度表。图10是表示本发明的第一实施例中整型维度表的示意图。如上所述,多维模型生成部30将图10所示的目标附表L(对象定义表)直接作为整型维度表使用,并与目标主表M中的整型维度数据列建立关联。
图11是表示本发明的第一实施例中生成地理信息维度表、并替换目标主表中的经纬度的示意图。如图11所示,多维模型生成部30根据经纬度信息,利用Geo Coding等技术,生成地理信息维度表。其中,生成的地理信息维度表的最小粒度(最小单位)为街道。接着,利用生成的地理信息维度表的最小粒度(街道)替换目标主表M中的经纬度。
图12是表示本发明的第一实施例中生成时间维度表、并替换目标主表中的时间的示意图。如图12所示,多维模型生成部30根据时间戳,生成时间维度表。其中,生成的时间维度表的最小粒度(最小单位)为天。接着,利用生成的时间维度表的最小粒度(天)替换目标主表M中的时间。
接着,多维模型生成部30通过新生成的维度与度量的聚合,生成事实表。图13是表示本发明的第一实施例中生成的事实表的示意图。如图13所示,多维模型生成部30将目标主表M中的ID数据列剔除,并根据新导入的维度对度量进行聚合计算,生成新的度量列(次数)。在图13中,按每个整型维度(类别)、地理信息维度(位置)的最小粒度(街道)、时间维度(时间)的最小粒度(天),对警报发生的合计次数进行计数(聚合),从而生成最右侧的度量列。
接着,多维模型生成部30产生以事实表为中心且以维度表为分支的星形结构的多维模型的数据库表,并保存在数据库中,完成建模过程。图14是表示本发明的第一实施例中生成的星形结构的多维数据表的示意图。如图14所示,事实表中的各维度(类别、位置、时间)分别与各自的维度表建立关联,从而构成星形结构的多维模型。
以上参照附图说明了本发明的实施方式和具体实施例。其中,以上说明的实施方式和实施例仅是本发明的具体例子,用于理解本发明,而不用于限定本发明的范围。本领域技术人员能够基于本发明的技术思想对各实施方式和实施例进行各种变形、组合和要素的合理省略,由此得到的方式也包括在本发明的范围内。
Claims (10)
1.一种数据多维建模系统,基于预先存储的数据库生成多维数据表,其特征在于,包括:
选表部,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;
数据类型判断部,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及
多维模型生成部,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
2.如权利要求1所述的数据多维建模系统,其特征在于,
所述选表部根据分析主题,从数据库中预先存储的由交易或事务产生的交易表中选取所述目标主表,并从数据库中预先存储的用于描述对象的对象定义表中,选取与选取的所述交易表相关的所述目标附表。
3.如权利要求1所述的数据多维建模系统,其特征在于,
所述数据类型判断部包括:
结构定义获取部,获取所述目标主表的结构定义;
基本数据类型划分部,根据所述结构定义,将所述目标主表的所述多个数据列划分为与所述结构定义直接对应的多种基本数据类型;以及
子数据类型划分部,根据生成所述多维数据表所需的维度或度量,将所述多种基本数据类型进一步划分为与生成所述多维数据表所需的维度或度量对应的多种子数据类型作为所述数据类型。
4.如权利要求3所述的数据多维建模系统,其特征在于,
所述基本数据类型包括整型,
所述子数据类型划分部还包括整型数据类型判断部,
所述整型数据类型判断部首先判断整型数据列中的各数据项是否是唯一且等差,并将各数据项唯一且等差的整型数据列的子数据类型判断为ID即标识符,
进而,所述整型数据类型判断部针对非ID的整型数据列,判断各数据项是否均被包含在所述目标附表中,将各数据项均被包含在所述目标附表中的整型数据列的子数据类型判断为整型维度,将有数据项未被包含在所述目标附表中的整型数据列的子数据类型判断为整型度量。
5.如权利要求4所述的数据多维建模系统,其特征在于,
所述基本数据类型还包括浮点型,
所述子数据类型划分部还包括浮点型数据类型判断部,
所述浮点型数据类型判断部将列名表示经纬度信息的浮点型数据列的子数据类型判断为地理信息维度,将列名不表示经纬度信息的浮点型数据列的子数据类型判断为浮点型度量。
6.如权利要求5所述的数据多维建模系统,其特征在于,
所述基本数据类型还包括字符型及日期时间型,
所述子数据类型划分部还包括字符型数据类型判断部和日期时间型数据类型判断部,
所述字符型数据类型判断部将字符型数据列的子数据类型判断为字符维度,所述日期时间型数据类型判断部将日期时间型数据列的子数据类型判断为时间维度。
7.如权利要求1-6中任一项所述的数据多维建模系统,其特征在于,
所述多维模型生成部根据与维度对应的数据类型的数据列,生成与维度对应的维度表,并根据新生成的维度表中的维度对度量进行聚合计算,生成与度量对应的数据列,由此生成事实表。
8.如权利要求7所述的数据多维建模系统,其特征在于,
在由所述数据类型判断部划分的所述数据类型包括与度量对应的数据类型以及多个与维度对应的数据类型的情况下,所述多维模型生成部按由每个维度的最小单位构成的多个组合,对每个组合的度量进行聚合,从而生成以各个组合的聚合后的度量作为数据项的数据列,作为事实表中的与度量对应的数据列。
9.如权利要求8所述的数据多维建模系统,其特征在于,
在所述数据类型包括地理信息维度和时间维度的情况下,所述多维模型生成部按生成的地理信息维度表中的最小地理单位和时间维度表中的最小时间单位构成的多个组合,对每个组合的度量进行聚合。
10.一种数据多维建模方法,基于预先存储的数据库生成多维数据表,其特征在于,包括:
选表步骤,从所述预先存储的数据库中,根据分析主题选取目标主表以及与所述目标主表相关的目标附表;
数据类型判断步骤,在所述目标主表中选取分析所需的多个数据列,将所述多个数据列划分为分别与生成所述多维数据表所需的维度或度量对应的多种数据类型;以及
多维模型生成步骤,对与生成所述多维数据表所需的维度和度量对应的所述多种数据类型的数据列以及所述目标附表进行转换聚合,生成事实表和维度表,由此生成以事实表为中心且以维度表为分支的星形结构的多维数据表。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710052982.2A CN108345602B (zh) | 2017-01-22 | 2017-01-22 | 数据多维建模系统及数据多维建模方法 |
JP2018008094A JP6530829B2 (ja) | 2017-01-22 | 2018-01-22 | データ多次元モデル生成システム及びデータ多次元モデル生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710052982.2A CN108345602B (zh) | 2017-01-22 | 2017-01-22 | 数据多维建模系统及数据多维建模方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108345602A true CN108345602A (zh) | 2018-07-31 |
CN108345602B CN108345602B (zh) | 2021-06-25 |
Family
ID=62961809
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710052982.2A Expired - Fee Related CN108345602B (zh) | 2017-01-22 | 2017-01-22 | 数据多维建模系统及数据多维建模方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6530829B2 (zh) |
CN (1) | CN108345602B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784846A (zh) * | 2018-12-29 | 2019-05-21 | 福建华闽通达信息技术有限公司 | 一种根据数量判断表单是否生成附表的方法及计算机设备 |
CN110908989A (zh) * | 2019-11-20 | 2020-03-24 | 无锡识凌科技有限公司 | 一种应用于数据清洗工具的数据匹配方法 |
CN111159173A (zh) * | 2018-11-08 | 2020-05-15 | 王纹 | 一种构造多维语义数据库的方法 |
CN111240742A (zh) * | 2018-11-29 | 2020-06-05 | 株式会社日立制作所 | 性能数据管理装置 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109345117B (zh) * | 2018-09-30 | 2022-02-08 | 北京工业大学 | 一种多维数据驱动的交通运输主体综合画像方法 |
CN112527919A (zh) * | 2020-12-04 | 2021-03-19 | 广州橙行智动汽车科技有限公司 | 一种数据处理的方法和装置 |
CN113505128B (zh) * | 2021-06-30 | 2024-05-31 | 平安科技(深圳)有限公司 | 创建数据表的方法、装置、设备及存储介质 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5940818A (en) * | 1997-06-30 | 1999-08-17 | International Business Machines Corporation | Attribute-based access for multi-dimensional databases |
JP2003316901A (ja) * | 2002-04-24 | 2003-11-07 | Sanyo Electric Co Ltd | 診療データ調査分析システムと方法 |
CN1508728A (zh) * | 2002-12-18 | 2004-06-30 | �Ҵ���˾ | 使用元数据在关系数据库中创建多维数据集的方法和系统 |
US20060036637A1 (en) * | 2004-08-13 | 2006-02-16 | Mehmet Sayal | System and method for developing a star schema |
US20070203933A1 (en) * | 2006-02-24 | 2007-08-30 | Iversen Heine K | Method for generating data warehouses and OLAP cubes |
CN101111838A (zh) * | 2004-11-30 | 2008-01-23 | 科格洛斯公司 | 多维企业软件系统中的自动关系模式生成 |
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和系统 |
CN103093322A (zh) * | 2013-02-21 | 2013-05-08 | 用友软件股份有限公司 | 即席分析业务数据的系统和方法 |
CN103955483A (zh) * | 2014-04-08 | 2014-07-30 | 方芳 | 一种rfid供应链数据的多维分析方法 |
CN104299102A (zh) * | 2014-10-31 | 2015-01-21 | 国电南瑞科技股份有限公司 | 电网调控一体化系统多维数据模型的建模方法 |
CN104391948A (zh) * | 2014-12-01 | 2015-03-04 | 广东电网有限责任公司清远供电局 | 数据仓库的数据标准化构建方法及系统 |
CN105787052A (zh) * | 2016-02-26 | 2016-07-20 | 广州品唯软件有限公司 | 数据处理模型建立方法及基于数据处理模型数据筛选方法 |
CN106021486A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种基于大数据的数据多维分析处理方法 |
-
2017
- 2017-01-22 CN CN201710052982.2A patent/CN108345602B/zh not_active Expired - Fee Related
-
2018
- 2018-01-22 JP JP2018008094A patent/JP6530829B2/ja not_active Expired - Fee Related
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5940818A (en) * | 1997-06-30 | 1999-08-17 | International Business Machines Corporation | Attribute-based access for multi-dimensional databases |
JP2003316901A (ja) * | 2002-04-24 | 2003-11-07 | Sanyo Electric Co Ltd | 診療データ調査分析システムと方法 |
CN1508728A (zh) * | 2002-12-18 | 2004-06-30 | �Ҵ���˾ | 使用元数据在关系数据库中创建多维数据集的方法和系统 |
US20060036637A1 (en) * | 2004-08-13 | 2006-02-16 | Mehmet Sayal | System and method for developing a star schema |
CN101111838A (zh) * | 2004-11-30 | 2008-01-23 | 科格洛斯公司 | 多维企业软件系统中的自动关系模式生成 |
US20070203933A1 (en) * | 2006-02-24 | 2007-08-30 | Iversen Heine K | Method for generating data warehouses and OLAP cubes |
CN101197876A (zh) * | 2006-12-06 | 2008-06-11 | 中兴通讯股份有限公司 | 一种对消息类业务数据进行多维分析的方法和系统 |
CN103093322A (zh) * | 2013-02-21 | 2013-05-08 | 用友软件股份有限公司 | 即席分析业务数据的系统和方法 |
CN103955483A (zh) * | 2014-04-08 | 2014-07-30 | 方芳 | 一种rfid供应链数据的多维分析方法 |
CN104299102A (zh) * | 2014-10-31 | 2015-01-21 | 国电南瑞科技股份有限公司 | 电网调控一体化系统多维数据模型的建模方法 |
CN104391948A (zh) * | 2014-12-01 | 2015-03-04 | 广东电网有限责任公司清远供电局 | 数据仓库的数据标准化构建方法及系统 |
CN105787052A (zh) * | 2016-02-26 | 2016-07-20 | 广州品唯软件有限公司 | 数据处理模型建立方法及基于数据处理模型数据筛选方法 |
CN106021486A (zh) * | 2016-05-18 | 2016-10-12 | 广东源恒软件科技有限公司 | 一种基于大数据的数据多维分析处理方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111159173A (zh) * | 2018-11-08 | 2020-05-15 | 王纹 | 一种构造多维语义数据库的方法 |
CN111159173B (zh) * | 2018-11-08 | 2023-04-18 | 王纹 | 一种构造多维语义数据库的方法 |
CN111240742A (zh) * | 2018-11-29 | 2020-06-05 | 株式会社日立制作所 | 性能数据管理装置 |
CN109784846A (zh) * | 2018-12-29 | 2019-05-21 | 福建华闽通达信息技术有限公司 | 一种根据数量判断表单是否生成附表的方法及计算机设备 |
CN109784846B (zh) * | 2018-12-29 | 2022-09-13 | 福建华闽通达信息技术有限公司 | 一种根据数量判断表单是否生成附表的方法及计算机设备 |
CN110908989A (zh) * | 2019-11-20 | 2020-03-24 | 无锡识凌科技有限公司 | 一种应用于数据清洗工具的数据匹配方法 |
CN110908989B (zh) * | 2019-11-20 | 2023-09-15 | 无锡识凌科技有限公司 | 一种应用于数据清洗工具的数据匹配方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2018116706A (ja) | 2018-07-26 |
CN108345602B (zh) | 2021-06-25 |
JP6530829B2 (ja) | 2019-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108345602A (zh) | 数据多维建模系统及数据多维建模方法 | |
CN107533577B (zh) | 使用电路模板的生成和实例化的集成电路设计 | |
CN106294887B (zh) | 基于四维空间的对客观世界存在的物体和事件的描述方法 | |
Juddoo | Overview of data quality challenges in the context of Big Data | |
Dai et al. | Data profiling technology of data governance regarding big data: review and rethinking | |
CN110119395B (zh) | 大数据治理中基于元数据实现数据标准与数据质量关联处理的方法 | |
Kusumasari | Data profiling for data quality improvement with OpenRefine | |
US9153051B2 (en) | Visualization of parallel co-ordinates | |
CN112434024B (zh) | 面向关系型数据库的数据字典生成方法、装置、设备及介质 | |
CN106372044A (zh) | 一种基于报表生成类型化维度xbrl报告的方法 | |
CN104268686A (zh) | 一种基于xml的空间数据质量检查方法及系统 | |
Isaksen | “O what a tangled web we weave”: towards a practice that does not deceive | |
Zhang et al. | Detecting colocation flow patterns in the geographical interaction data | |
Kim et al. | p‐Functional Clusters Location Problem for Detecting Spatial Clusters with Covering Approach | |
Neto et al. | Multivariate data explanation by jumping emerging patterns visualization | |
Goasdoué et al. | An Evaluation Framework For Data Quality Tools. | |
Zhu et al. | Environmental Observations in Knowledge Graphs. | |
CN117312578A (zh) | 一种非遗传承图谱的构建方法与系统 | |
Ren et al. | Visual analytics of air pollution propagation through dynamic network analysis | |
Talha et al. | Towards a powerful solution for data accuracy assessment in the big data context | |
Wu et al. | A nonparametric approach to uncovering connected anomalies by tree shaped priors | |
CN106844765A (zh) | 基于卷积神经网络的显著信息检测方法及装置 | |
Robson et al. | The structure and behaviour of hierarchical infrastructure networks | |
Del Aguila et al. | Towards a more straightforward and more expressive metamodel for SDW modeling | |
Frantz et al. | Relating network topology to the robustness of centrality measures |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210625 |