CN101089846A - 数据分析方法、设备以及数据分析辅助方法 - Google Patents

数据分析方法、设备以及数据分析辅助方法 Download PDF

Info

Publication number
CN101089846A
CN101089846A CNA2006100928491A CN200610092849A CN101089846A CN 101089846 A CN101089846 A CN 101089846A CN A2006100928491 A CNA2006100928491 A CN A2006100928491A CN 200610092849 A CN200610092849 A CN 200610092849A CN 101089846 A CN101089846 A CN 101089846A
Authority
CN
China
Prior art keywords
entity
attribute
data
mapping
term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006100928491A
Other languages
English (en)
Inventor
裘照明
杨洋
谢国彤
马立
潘越
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CNA2006100928491A priority Critical patent/CN101089846A/zh
Priority to US11/691,671 priority patent/US9171058B2/en
Publication of CN101089846A publication Critical patent/CN101089846A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models

Abstract

本申请涉及数据分析方法、设备,以及数据分析辅助方法。其中,预先建立语义实体库,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射。在进行数据聚集时,从所述语义实体库中选择要分析的实体、属性和/或属性取值,定义指标的计算方式,并根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。

Description

数据分析方法、设备以及数据分析辅助方法
技术领域
本申请涉及数据处理技术。尤其涉及一种数据分析方法、数据分析设备,以及数据分析辅助方法。
背景技术
随着商业活动中信息数据量的增加,以及人们对商业分析价值认识的提高,数据分析例如OLAP(在线分析处理)系统变得越来越普及。多维模型视图是商业分析中最为自然的组织方式。OLAP数据分析提供对数据的多维概念视图(包括对分级结构的完全支持)。例如,用于销售评估的OLAP数据分析模型可以被组织为二维:“地理”和“时间”。时间维可以包括年、月、日各个级别。类似地,地理维则可以细分为:国家、省(州)、县等。
OLAP数据分析系统将事实组织为维度。维度是对事实进行归类以进行分析的方式。在帮助评估收支平衡目标、生成报告等方面,OLAP数据分析系统是有价值的、回报高的商业智能设备。这种方法允许用户发现数据中的规律和趋势,例如某个地域或者某个人群最喜欢的产品,某个公司或者某个产业的销售业绩等。
为此,OLAP数据分析按维把数据组织成所谓的“立方体”。OLAP数据立方体并非严格几何意义上的立方体,而是可以有多于三个或者少于三个的维度。换句话说,“数据立方体”的表述仅是为了理解和说明的方便,其实质在于按照多维形式组织的数据。只要确定了维度(这取决于要分析的对象和目的),就确定了数据立方体。如果将其用图表表示并且恰好是三维,则可以看见真正的立方体。
数据立方体的设计可以按照商业的划分来构造,比如销售或者市场营销。数据立方体可以通过数据聚集将数据转换为有用的信息。通过数据立方体,商业用户可以根据商业分析的需要随意对数据进行切割。
一句话,由于其灵活性和强大的商业分析能力,OLAP数据分析是非常有价值的。一旦在OLAP数据分析服务器内定义了事实和维度,数据分析设备就可以简单地拖放维度和事实来分析数据。
当前,构建OLAP数据分析模型的方法是通过直接定义立方体所应具有的维度和指标。这样的方法只关注于定义所需要的维度,而忽略了各维度之间存在的关系和结构。而且对于商业人士来说这种方法难以重复利用这些维度。人们可能不得不在设计立方体时非常困难地寻找对分析有用的所有维度。使问题进一步复杂化的地方在于,可能有某些维度是依赖于时间的,例如公司的信用等级。大多数已有的数据分析系统在处理与时间相关的维度时不能产生正确的分析结果。因此,需要有一种方便的方法来解决这些问题。
发明内容
鉴于上述问题,本发明的主要目的在于简化构建OLAP数据分析模型的过程。本发明次要的目的在于解决由于存在与时间相关的维度而使分析结果不正确的问题。
根据本发明的第一方面,上述主要目的是通过一种数据分析方法实现的。该方法包括:建立语义实体库的建库步骤,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;选择步骤,从所述语义实体库中选择要分析的实体、属性和/或属性取值;指标定义步骤,定义指标的计算方式;以及数据装载步骤,根据所述映射,装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
根据本发明的第二方面,上述主要目的是通过一种数据分析设备辅助方法实现的。该方法包括:提供语义实体库,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;提供选择装置,用于从所述语义实体库中选择要分析的实体、属性和/或属性取值;提供指标定义装置,用于定义指标的计算方式;提供数据装载器,用于根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
根据本发明的第三方面,上述主要目的是通过一种数据分析设备实现的。该设备包括:语义实体库存储装置,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;选择装置,用于从所述语义实体库中选择要分析的实体、属性和/或属性取值;指标定义装置,用于定义指标的计算方式;数据装载器,用于根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
本发明还提供了能够实现上述方法的程序产品。
根据上述技术方案,可能的维度的含义对于商业人员来说含义清晰并易于理解,不需要技术人员的支持。同时,对资产的重复使用变得方便、容易,不再需要临时寻找要分析的实体和属性。
为了实现上述次要目的,还可以对随时间变化的维度作出标记,并定义用于跟踪所述变化的到数据仓库的映射,在与所述随时间变化的属性相关的指标的计算方式中,包括进与所述变化相关的调整项。
这样,根据上述优选方案,在装载数据时,基于实体的聚集能够容易地支持随时间变化的维度的聚集,从而避免由于随时间变化的维度的存在而导致聚集结果不正确。
附图说明
下面将结合附图描述本发明的优选实施例。在附图中:
图1是包含本发明的数据分析设备的一种实施方式的系统的框图;
图2是用于解释实体、数据仓库和数据立方体的示意图;
图3是语义实体库的一个例子;
图4是在图3所示的语义实体库中选择实体和属性的例子;
图5是在图4的基础上选择属性的参考范围的例子;
图6是指标定义和形成数据立方体的一个例子;
图7的示意图用于说明传统的数据聚集没有考虑属性随时间的变化;
图8的示意图用于说明根据本发明的一种优选实施方式,进行数据聚集时考虑了属性随时间的变化;
图9是包含本发明的数据分析设备的几种优选实施方式的系统的框图;
图10是本发明的数据分析设备的另一种优选实施方式的示意图;
图11是本发明的数据分析方法的一种实施方式的流程图。
具体实施方式
本申请提出了一种基于语义技术的构建数据分析和报告系统的新方法和新设备。作为使用本发明的方法和设备的环境,图1描述了数据分析系统的总体配置示意图。
如图1所示,作为被分析的对象的数据源自在线事务处理系统102(OLTP,On-Line Transaction Processing),经过数据清洗系统104(ETL,Extraction,Transformation and Loading)的清洗,被存储在数据仓库106中。
如背景部分所述,现有的构建数据分析模型的方法是通过直接定义立方体所应具有的维度和指标。这样的方法只关注于定义所需要的维度,而忽略了各维度之间存在的关系和结构。而且对于商业人士来说这种方法难以重复利用这些维度。人们可能不得不在设计立方体时非常困难地寻找对分析有用的所有维度。为解决此问题,本发明的基本构思是提供预先定义好的库,其中存储可能的维度,从而使得用户只需要从这个库中选择所需要的维度即可。为方便维度库的定义和使用,本发明采用了语义技术。
下面对数据分析设备进行详细说明。
如图1中虚线框所示,本发明的数据分析设备100主要由四个部件构成:语义实体库(SER,semantic entity repository)108、选择装置110、指标定义装置122以及从数据仓库向数据立方体装载数据的数据装载器112。下面依次说明。
语义实体库108
每一个数据立方体涉及许多商业实体。每一个实体代表一个要分析的对象。例如,如图2所示,在一个图示地区A和地区B的所有超市的收入的简单的数据分析系统中,“超市”就是要分析的实体。
语义实体库108是在其中存储与数据分析相关的商业实体的库,包括三种主要的成员:对实体138及其属性140(见图10)进行结构化描述的实体集118;一组预定义的参考范围,描述属性的可能范围;以及语义实体库实体和属性与数据仓库的数据结构之间的映射,使得在进行数据聚集时能够进行数据检索。
语义实体库的功能是在设计数据立方体时提供参考和增强可重复使用性。通过在语义实体库中定制相关的实体及其属性,用户可以方便地定义想要的任何数据分析模型。
语义实体库中的一个实体表示一个商业概念。一个实体可以有多个属性。语义实体库中的实体的属性可以具有三种功能。第一种功能是维护商业概念之间的逻辑关系,比如图3中“有贷款”表示概念“客户”和“贷款”之间的关系;属性可以具有的第二种功能是用作数据立方体的“维度”,例如图3中“客户”的“信用等级”。如果某个属性被选择为一个维度,则称该属性为维度属性。维度属性的范围被称为该属性的参考范围。参考范围中的每一个值被采用为维度的坐标。属性也可以用来定义数据立方体的指标(关于指标的说明请见下文)。
语义实体库实体可以被组织为分级结构。一个实体能够从其祖先那里继承属性。例如,商业概念“客户”的实体是“公司”和“个人”的父概念。因此“公司”和“个人”从实体“客户”继承属性“信用等级”和“地址”。作为举例,在图3到图6中,空心箭头表示属性具有继承关系,而实心箭头则表示属性没有继承关系。
参考范围表示维度属性可能具有的所有可能的值。
语义实体库的另一个重要组成部分是语义实体库实体属性和数据仓库之间的映射。映射的作用是规定实体的实例及其属性存储在数据仓库中什么地方。具体地,一个实体的映射指向存储该实体的实例的表的主键。一个属性的映射则指向存储实例的属性值的列。
通过映射,在聚集数据立方体时,系统能够自动地找出从数据仓库中的什么地方检索数据。
图3图示了显示在图形用户界面上的具有实体和参考范围的语义实体库的一个例子。它可以用OWL表达如下:
<owl:Class rdf:about=″&sbst;Loan″/>
 <owl:Class rdf:about=″&sbst;Customer″/>
<owl:Class rdf:about=″&sbst;Company″>
<rdfs:subClassOf rdf:resource=”&sbst;Customer”/>
</owl:Class>
<owl:Class rdf:about=″&sbst;Individual″>
<rdfs:subClassOf rdf:resource=”&sbst;Customer”/>
</owl:Class>
<owl:ObjectProperty rdf:about=″&sbst;hasLoan″>
  <rdfs:domain rdf:resource=″&sbst;Customer″/>
  <rdfs:range rdf:resource=″&sbst;Loan″/>
</owl:ObjectProperty>
<owl:ObjectProperty rdf:about=″&sbst;productType″>
         <rdfs:domain
rdf:resource=″&sbst;ProductTypeRange″/>
         <rdfs:range rdf:resource=″&sbst;Loan″/>
      </owl:ObjectProperty>
      <owl:DatatypePropertyrdf:about=″&sbst;loanAmount″>
         <rdfs:domain rdf:resource=″&sbst;Customer″/>
         <rdfs:range
rdf:resource=″http://www.w3.org/2001/XMLSchema#float″/>
      </owl:DatatypeProperty>
      <owl:Class rdf:about=”&sbst;ProductTypeRange”/>
      <owl:Class rdf:about=”&sbst;FinancialService”>
      <rdfs:subClassOf rdf:resource=”&sbst;ProductTypeRange”/>
      </owl:Class>
      <owl:Class rdf:about=”&sbst;TermLoanRange”/>
      <rdfs:subClassOf rdf:resource=”&sbst;FinancialService”/>
      </owl:Class>
      <sbst:FinancialService
rdf:about=”&sbst;PreferenceShareLoan”/>
      <sbst:FinancialService rdf:about=”&sbst;SharedEquityLoan”
/>
      <sbst:TermLoanRange rdf:about=”&sbst;MortgageLoan”/>
      <sbst:TermLoanRange rdf:about=”&sbst;VehicleLoan”/>
      <sbst:TermLoanRange rdf:about=”&sbst;HouseLoan”/>
图3中,直角框表示实体,圆角框表示属性的参考范围。参考范围内的字符串表示直接属于参考范围的成员。例如,如图3所示,其中图示了四个实体:公司,客户,个人和贷款。各个实体有自己的属性。为了简明起见,图3中只详细图示了“贷款”的属性:产品类型,担保类型和贷款日期。每一个属性可以进一步细分,称之为属性的“参考范围”,也就是属性的取值范围。该参考范围中的取值可以进一步分类。因此,某个属性的整个参考范围可以组织为树形结构。例如,在保险类型的参考范围的树结构中,根“保险类型”有三个子节点:保证,抵押和质押。而“保证”又有至少三个子节点:银行保证,外国FI以及合资企业FI等。
需要注意的是,属性及其参考范围有相对性。作为例子,虽然图3所示的结构是比较合理的,但是也完全可以将图3中参考范围的某个树分解为两个树,其根节点直接作为实体的不同属性。例如,可以将图3中保险类型的树分解为以“保证”和“其他担保类型”为根节点的两个树。“保证”和“其他担保类型”直接作为实体“贷款”的属性。同时,树的结构本身也可以按照不同的标准进行组织。
指标定义装置122
指标是要分析的目标。例如在图2所示的例子中,所分析的实体是图2(A)所示的超市,其对应于图2(B)所示的数据仓库。图2(C)是某一个分析所得到的“立方体”。该立方体涉及两个实体,即“超市”和“收入”,这两个实体之间的逻辑关系是“超市具有收入”。该立方体具有三个维度。第一个维度是“时间”(横轴),它是“收入”的属性,其参考范围是第一季(Q1)到第四季(Q4),构成“时间”维度上的坐标。第二个维度是“地址”(在图2(C)中用不同灰度表示),它是“超市”的属性,其参考范围是“地区A”和“地区B”,其构成“地址”维度上的坐标。
在该立方体中,“不同地区的超市在各季度的总收入”即为要分析的指标。显然,该指标的计算方式为将图2(B)所示的数据仓库中的收入列的数值(对应于语义实体库中的“收入”实体)按时间(时间列)和地区(地址列)加和。为了构成平面图示,图2(C)的纵轴表示指标刻度,并将“地址”维用带灰度的柱图区分。作为另一个例子,纵轴的含义可以变成另一个指标,例如“不同地区的所有超市在各季度的平均收入”,此时的计算方式就是将前述和除以相应地区内的超市数量。
指标定义装置122就是用来定义指标。如果指标不与语义实体库中的实体或者属性(或者数据仓库中的值)直接对应,则需要定义其计算方式(例如上述)。换句话说,定义了计算方式,也就定义了指标。如果指标与语义实体库中的实体或者属性(或者数据仓库中的值)直接对应,则只需要直接指定就可以了(也可以认为定义了诸如“X=A”这样的计算方式),例如,如果为了在立方体中直观地显示各超市的情况,可以构建以“时间”、“店铺名称(店铺ID)”和作为指标的“每季收入”为三维的立方体。此时,该指标“每季收入”就直接等于图2(B)中“收入”列中的每一个数值。
显然,指标和计算方式的定义是与立方体的维度的选取相关的。因此指标定义装置同时还可以完成从语义实体库中选择所需的维度的工作。上述工作可以通过在例如图3所显示的图形界面上进行选择来完成。当然,从语义实体库中选择所需维度的工作也可以由选择装置110来完成,如图1所示。
数据装载器112
选择了所需的维度,并定义了指标计算方式之后,就形成了数据立方体。之后,数据装载器112可以根据在语义实体库108中定义的映射关系,从数据仓库106中检索数据,将数据载入所述立方体计算并显示结果。当然,最方便的方式是进行图形化显示和报告。但是当然也可以是其他方式,比如简单列表的方式。
利用上面所描述的数据分析设备,用户即可方便地进行数据分析,在语义实体库中定义好的实体和属性等可以直接拿来作为参考,无需临时分析概念和建立概念之间的联系。
下面对数据分析方法以及数据分析设备的其他优选实施方式进行说明。
下面结合图11的流程图以及其他示意图具体描述用户利用该数据分析设备进行数据分析时的步骤。
首先,用户需要建立语义实体库。建立语义实体库的方式有多种。在本发明的数据分析方法的第一种实施方式中,使用前述数据分析设备预先提供的基本语义实体库。也就是说,一旦载入前述数据分析设备,就完成了对语义实体库的建立(未图示)。这种实施方式要求预先提供比较完备的基本语义实体库。
在本发明的数据分析方法的第二种实施方式中,可以考虑到基本语义实体库可能不是很完备,因此可能需要对基本语义实体库加以修改。也就是说,如果基本语义实体库中的实体、属性或者属性的参考范围、逻辑关系等与实际使用需要不符或者需要加以充实,则用户可以对基本语义实体库中的元素进行修改、添加或者删除等工作,从而完成语义实体库的建立。
在本发明的数据分析方法的第三种实施方式中,考虑到用户需求的多样化和成本问题,可以使数据分析设备所提供的基本语义实体库为具有基于本发明的结构的空库,用户可以按照数据分析设备所建立的结构从头建立自己的语义实体库(也可以认为是对具有特定逻辑结构的空库的修改)。
与此相应,在本发明的数据分析设备的更为优选的实施方式中,该数据分析设备还可以包括修改语义实体库的修改装置,通过创建、修改、删除实体、属性、属性参考范围等来修改语义实体库。
具体来说,如图9所示,在本发明的数据分析设备100的一个优选实施方案中,该数据分析设备100还可以包括修改装置124。其可以具体包括:实体集描述装置128,用于添加、删除或修改所述实体集中的实体及其属性;参考范围描述装置130,用于描述或者修改属性的可能取值的参考范围;以及数据映射装置124,用于建立、删除或者修改实体和属性与数据仓库的数据结构之间的映射。
与此相应,就数据分析方法的上述第二种和第三种实施方式而言,如图11所示,本发明的数据分析方法的建库步骤包括:实体集描述步骤1102,参考范围描述步骤1104以及数据映射步骤1106。需要说明的是,参考范围的描述要基于对属性的描述,属性的描述要基于对实体的描述。而数据映射要基于对实体、属性和参考范围的描述。所以,就某一个实体的某一个属性而言,这三个步骤具有前述叙述顺序那样的逻辑顺序。但是,对于多个实体及其属性而言,这三个步骤可以交替进行。
还需要说明的是,建立语义实体库的工作是进行具体的数据分析工作之前的基础工作,其在时间上与下面将要描述的维度选择、指标定义和数据装载等步骤不一定是紧密相连的。但是,在进行具体的数据分析工作的时候可能会发现语义实体库需要予以修改或者补充,此时,建立语义实体库的步骤又是与下面所述的步骤相互交织的。
接下来是维度选择步骤1108(图11),利用选择装置110(图1)从语义实体库108中选择构成维度的实体和属性,以及构成维度上的坐标的属性取值范围,以及指标定义步骤1110(图11),利用指标定义装置122(图1)定义指标及其计算方式。
如上面所述,在本发明的数据分析方法的又一种优选实施方式中,如果在维度选择步骤1108和/或指标定义步骤1110中发现没有所要的实体、属性、属性取值范围,则可以使用前述实体集描述装置128、参考范围描述装置130和数据映射装置124创立并将其保存在语义实体库中。选中的实体会被用作基本聚集单元,被选为维度属性的属性会被用作维度。
图4图示了在图3所示图形用户界面上选择实体及其属性的一个例子。图中的突出现实的框(粗线框)表示已经被选中的实体,突出显示的文字(黑体字)表示选中的维度属性。
选择了实体及其维度属性之后,也就确定了数据分析的维度。例如图4中的选择结果即针对“公司”的具有“贷款”的“客户”的情况构成五个维度:公司的产业类别,客户的信用等级,以及贷款的产品类型、担保类型和贷款日期。
然后是选择维度属性的可能的值。这一步可以通过用选择装置110定制语义实体库中维度属性的参考范围来完成(也就是在参考范围中进行选择)。
在本发明的数据分析方法的又一种优选实施方式中,可以考虑到在有时候,维度属性的实际范围与指定的参考范围可能不相同。在这种情况下,用户可以定义实际范围和参考范围之间的值映射(图11中未图示)。例如,实体“贷款”的属性“贷款额”的实际范围是实际的数值。但是其参考范围可能被定义为{大额,小额}。在这种情况下,值映射需要将所述实际的数值转换为“大额”或者“小额”。与此相应,前述数据分析设备100的又一种优选实施方式还可以包括参考范围映射装置134(图9),用于将属性的实际取值范围映射到语义实体库中定义的参考范围。
图5给出了在图3所示的图形用户界面上对维度属性定制参考范围的一个例子。如图所示,被选中的属性参考范围(圆角框)变为突出显示(粗线框)。
接着还要用指标定义装置122定义指标及其计算方式。指标表示在数据分析中要评估的数据值,前文已有详细讨论。为了定义用于数据分析的指标,用户可以使用概念的属性以及预定的统计功能来定义如何计算指标。例如:
总贷款额=贷款额之和
总还款额=还款额之和
平均贷款额=总贷款额/“客户”的数量
平均还款额=总还款额/“客户”的数量
完成了实体、属性及其取值范围的选择以及指标及其计算方式的定义之后,如前文所述,也就完成了数据立方体114的逻辑建构。因为语义实体库中已经包含了实体、属性及其取值范围之间的逻辑关系,并且已经定义了指标的计算方式,也就是指标与所选择的实体、属性和属性取值范围之间的关系。也就是说,所选取和定义的实体、属性、属性的取值范围、指标已经形成一个唯一的、内在逻辑关系确定的集合。
但是,在一种优选实施方式中,为了使该集合对用户来说直观易懂,可以将其构建成数据立方体图形来在图形用户界面上显示。为此,所述数据分析设备还可以包括图形化装置132(图9)来进行这样的操作。具体地,该图形化装置提取被选为维度属性的所有属性,将每一个维度属性转换为数据立方体的一个维度,维度属性的参考范围中的被选取的成员则作为相应维度上的坐标,并根据指标定义建立数据立方体的指标。
图6图示了生成数据立方体图形显示的一个例子。其中,为简明起见,并没有显示在图4和图5中所选择的全部内容。如图6所示,被选中的属性产品类型、信用等级和贷款日期(时间)作为三个维度。上述属性的具体取值则作为各个维度上的坐标。其中,对于产品类型,由于其取值范围为树形结构,所以该维度上的坐标也可以被组织为分级结构。在该维度上(图6中的横轴),最高级坐标为“金融服务”(如果在图5中也选择了“保险服务”,则在该横轴上可以有另一个坐标“保险服务”与“金融服务”并列),其下一级坐标为“优先股贷款”和“定期贷款”。“优先股贷款”没有下一级坐标,而“定期贷款”的下一级还有“房屋贷款”和“汽车贷款”。另外,“信用评级”维度有A、B、C三个取值,“时间”维度有按月份的坐标(图中显示了三个月份)。这样,三个坐标轴及其上面的坐标就构成了一个数据立方体。在图6所示的数据立方体中,按每一个取值范围树形结构的叶节点计,包括3×3×3=27个数据点。例如,离原点最近的数据点是“2001年1月信用评级为A级的客户的优先股贷款”。
该数据分析方法的最后一步,则是用数据装载器112根据前述语义实体库与数据仓库数据结构之间的映射,按照指标的定义计算指标并将有关数据装载到上述数据立方体中的数据装载步骤1112(图11)。在从数据仓库进行聚集时,使用数据仓库和语义实体库之间的映射,数据装载器112可以找到每一个实体的对应数据,并按照指标的计算方式的定义计算指标。例如,对于前述数据点“2001年1月信用评级为A级的客户的优先股贷款”,可以计算“总贷款额”、“平均总贷款额”等指标,并将计算结果载入上述立方体。
在立方体图形化的情况下,也可以由前述图形化装置132用图形来在各个数据点显示所述指标(图11中未图示)。该图形可以是数字本身,或者不同的颜色,或者与数据大小相应大小的图形,或者前述方式的组合等等。
下面对随时间变化的属性进行说明。
发明人还注意到,时间是一个特殊的维度。其指示随着时间的改变不同事件的发生。根据本发明的更为优选的实施方式,区别于传统的数据分析系统,当装载数据进入数据分析数据时,扩展到随时间变化的维度。说一个维度是随时间变化的,意思是该维度的某些实例的值不是静态的,会随时间而变。例如,客户的信用评级会随时间而变。传统的OLAP数据分析系统不能支持随时间变化的维度,它们假设所有的维度都是静态的。这样会导致数据分析结果的误差。
例如,在图7所示的例子中,(A)和(B)是基于银行数据仓库中的贷款表格(D)和客户表格(E)的数据立方体。其中(A)表示不同信用评级的公司在各月份的贷款额,(B)表示不同信用评级的公司在各月份的累计贷款额。但是在(B)的立方体中,未能考虑到ABC公司的信用评级已在2001年2月由A变为B(图7(E))。在2001年2月之后,ABC公司的贷款会按照贷款人的评级为B来计算,如果需要计算在2001年2或3月累计贷给A级客户的贷款总额,则ABC公司在2001年1月的贷款也不应计算在内。
为了在数据立方体中支持随时间变化的维度,用户首先需要定义哪些维度属性是随时间变化的,并定义其额外的到数据仓库的映射,跟踪随时间变化的属性的值的变化。这可以通过用户界面来实现。为此,所述数据分析设备100还可以包括标记装置136(图10),用于标记可能随时间变化的属性140(维度),并定义用于跟踪所述变化的映射(如图8中的虚线双箭头所示)。
其次,为了支持对随时间变化的维度的聚集,用户需要对每一个相关指标定义一个额外的列。该列称为该指标的调整列。该列的功能是捕捉随时间发生了值的改变的随时间变化的维度带来的指标的变化。基于该列,就可以对数据进行正确的聚集。这个过程可以由数据分析设备中的指标定义装置122来完成。例如,如图8(D)所示,针对诸如“累计总贷款额”这样的指标,设置“调整列”。在该列中,“-200”表示由于ABC公司在2001年1月由A级降为B级,需在A级公司2001年2月累计总贷款额中减去ABC公司在A级期间的“200”的贷款额,相应地,在B级公司2001年2月累计总贷款额中应加上ABC公司在A级期间的“200”的贷款额。这样,在定义所述指标的计算方式时,除了按照传统方式进行简单加和外,还要加入所述调整列。这样,对就能够正确地进行对随时间变化的维度的聚集,正确地计算包含前述指标的数据立方体,如图2(E)所示。
下面对数据分析辅助方法进行说明。
本发明还提供了一种方法,为用户配置数据分析设备,该方法包括提供数据分析设备中各个装置的步骤,所述各个装置可以使用户使用或者修改已建立的语义实体库对数据仓库中的数据进行数据聚集。具体而言,该方法包括:提供语义实体库存储装置的步骤,其中该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;提供选择装置的步骤,其中该选择装置用于从所述语义实体库中选择要分析的实体、属性和/或属性取值;提供指标定义装置的步骤,其中该指标定义装置用于定义指标的计算方式;提供数据装载器的步骤,其中该数据装载器用于根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。其中,语义实体库以及各种装置已在前面的部分进行了详细的说明,在此不再赘述。
如本领域的普通技术人员所能理解的,本发明的方法和设备的全部或者任何步骤或者部件,可以在任何计算设备(包括处理器、存储介质等)或者计算设备的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在了解本发明的内容的情况下运用他们的基本编程技能就能实现的,因此不需在此具体说明。
此外,显而易见的是,在上面的说明中涉及到选择、指定、修改、增加、删除、定义等动作的时候,无疑要使用与任何计算设备相连的任何显示设备和任何输入设备、相应的接口和控制程序。总而言之,计算机、计算机系统或者计算机网络中的相关硬件、软件和实现本发明的前述方法中的各种操作的硬件、固件、软件或者它们的组合,即构成本发明的数据分析设备及其各组成部件。在此意义上,本说明书中所涉及的“语义实体库”等,可以理解成逻辑上的库,也可以理解成构成本发明的数据分析设备的组成结构之一。
因此,基于上述理解,本发明的目的还可以通过在任何信息处理设备上运行一个程序或者一组程序来实现。所述信息处理设备可以是公知的通用设备。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者设备的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是本领域技术人员已知的,或者将来所开发出来的任何类型的存储介质,因此也没有必要在此对各种存储介质一一列举。
在本发明的设备和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。

Claims (14)

1.一种数据分析方法,包括:
建立语义实体库的建库步骤,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;
选择步骤,从所述语义实体库中选择要分析的实体、属性和/或属性取值;
指标定义步骤,定义指标的计算方式;以及,
数据装载步骤,根据所述映射,装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
2.如权利要求1所述的数据分析方法,其特征在于,所述建库步骤包括修改已有的语义实体库,其中,所述已有的语义实体库中的所述实体集、所述参考范围和所述映射至少为可以添加新成员的空集;
其中,修改已有的语义实体库的步骤包括:
实体集描述步骤,添加、删除或修改所述实体集中的实体及其属性;
参考范围描述步骤,描述或者修改属性的可能取值的参考范围;以及
数据映射步骤,建立、删除或者修改实体和属性与数据仓库的数据结构之间的映射。
3.如权利要求2所述的数据分析方法,其特征在于,还包括参考范围映射步骤:当所述参考范围和数据仓库中的数据的实际范围不一致时,在所述参考范围和数据仓库中的数据的实际范围之间建立映射。
4.如权利要求1所述的数据分析方法,其特征在于,还包括参考范围映射步骤:当所述参考范围和数据仓库中的数据的实际范围不一致时,在所述参考范围和数据仓库中真实数据的实际范围之间建立映射。
5.如权利要求1到4之一所述的数据分析方法,其特征在于,还包括图形化步骤:生成所选择的实体、属性、属性取值和所定义的指标以及所述计算结果的图形显示。
6.如权利要求1到4之一所述的数据分析方法,其特征在于还包括标记步骤:标记可能随时间变化的属性,并定义用于跟踪所述变化的到数据仓库的映射,其中,所述指标定义步骤包括:在与所述随时间变化的属性相关的指标的计算方式中,包括进与所述变化相关的调整项。
7.一种数据分析设备,包括:
语义实体库存储装置,该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;
选择装置,用于从所述语义实体库中选择要分析的实体、属性和/或属性取值;
指标定义装置,用于定义指标的计算方式;
数据装载器,用于根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
8.如权利要求7所述的数据分析设备,其特征在于,所述实体集、所述参考范围和所述映射至少为可以添加新成员的空集,并且该方法还包括修改所述语义实体库的修改装置,该修改装置包括:
实体集描述装置,用于添加、删除或修改所述实体集中的实体及其属性;
参考范围描述装置,用于描述或者修改属性的可能取值的参考范围;以及
数据映射装置,用于建立、删除或者修改实体和属性与数据仓库的数据结构之间的映射。
9.如权利要求8所述的数据分析设备,其特征在于,还包括在所述参考范围和数据仓库中的数据的实际范围之间建立映射的参考范围映射装置。
10.如权利要求7所述的数据分析设备,其特征在于,还包括在所述参考范围和数据仓库中的数据的实际范围之间建立映射的参考范围映射装置。
11.如权利要求7到10之一所述的数据分析设备,其特征在于,还包括:生成所选择的实体、属性、属性取值和所定义的指标以及所述计算结果的图形显示的图形化装置。
12.如权利要求7到10之一所述的数据分析设备,其特征在于还包括标记装置,用于标记可能随时间变化的属性,并定义用于跟踪所述变化的到数据仓库的映射,其中,所述指标定义装置在与所述随时间变化的属性相关的指标的计算方式中,包括进与所述变化相关的调整项。
13.一种为用户配置数据分析设备的方法,该方法包括:
提供语义实体库存储装置的步骤,其中该语义实体库包括:结构化描述的实体及其属性构成的实体集,描述属性的可能取值的参考范围,以及实体和属性与数据仓库的数据结构之间的映射;
提供选择装置的步骤,其中该选择装置用于从所述语义实体库中选择要分析的实体、属性和/或属性取值;
提供指标定义装置的步骤,其中该指标定义装置用于定义指标的计算方式;
提供数据装载器的步骤,其中该数据装载器用于根据所述映射装载数据仓库中与所选择的实体、属性、属性取值对应的数据,计算得到所定义的指标。
14.一种程序产品,包括存储在计算机可读存储介质中的程序代码,所述程序代码用于完成前述权利要求1-6或13中任何一个权利要求的操作。
CNA2006100928491A 2006-06-16 2006-06-16 数据分析方法、设备以及数据分析辅助方法 Pending CN101089846A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNA2006100928491A CN101089846A (zh) 2006-06-16 2006-06-16 数据分析方法、设备以及数据分析辅助方法
US11/691,671 US9171058B2 (en) 2006-06-16 2007-03-27 Data analyzing method, apparatus and a method for supporting data analysis

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100928491A CN101089846A (zh) 2006-06-16 2006-06-16 数据分析方法、设备以及数据分析辅助方法

Publications (1)

Publication Number Publication Date
CN101089846A true CN101089846A (zh) 2007-12-19

Family

ID=38862739

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006100928491A Pending CN101089846A (zh) 2006-06-16 2006-06-16 数据分析方法、设备以及数据分析辅助方法

Country Status (2)

Country Link
US (1) US9171058B2 (zh)
CN (1) CN101089846A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944116A (zh) * 2010-09-20 2011-01-12 常州伊冉科技有限公司 一种数据仓库中复杂多维层次的连接和聚集方法
CN102902565A (zh) * 2012-09-28 2013-01-30 用友软件股份有限公司 内存对象加载装置和内存对象加载方法
CN103177055A (zh) * 2011-12-22 2013-06-26 Sap股份公司 存储为行存储和列存储二者的混合数据库表
CN104102698A (zh) * 2014-06-30 2014-10-15 湖南中烟工业有限责任公司 基于实体交叉与选择的数据视图切换和旋转方法和装置
CN104102670A (zh) * 2013-04-12 2014-10-15 Sap股份公司 绩效指标分析框架
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统
CN104603781A (zh) * 2012-09-03 2015-05-06 爱克发医疗保健公司 按需语义数据仓库
CN106255965A (zh) * 2014-01-30 2016-12-21 微软技术许可有限责任公司 用于电子表格的自动见解
CN107544992A (zh) * 2016-06-27 2018-01-05 阿里巴巴集团控股有限公司 数据分析的方法和装置
CN107679917A (zh) * 2017-10-17 2018-02-09 京北方信息技术股份有限公司 基于数据处理的精准营销方法、装置、设备及存储介质
CN108647235A (zh) * 2018-03-30 2018-10-12 上海连尚网络科技有限公司 一种基于数据仓库的数据分析方法、设备以及介质
CN110362551A (zh) * 2018-04-02 2019-10-22 阿里巴巴集团控股有限公司 数据仓库构建方法、装置、设备及存储介质
CN113032613A (zh) * 2021-03-12 2021-06-25 哈尔滨理工大学 一种基于交互注意力卷积神经网络的三维模型检索方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI436222B (zh) * 2011-12-28 2014-05-01 Chunghwa Telecom Co Ltd Real - time multi - dimensional analysis system and method on cloud
US9411874B2 (en) * 2012-06-14 2016-08-09 Melaleuca, Inc. Simplified interaction with complex database
CN104376483B (zh) * 2014-12-10 2018-05-18 用友网络科技股份有限公司 业务系统嵌入多维分析模型的装置和方法
US10304007B2 (en) * 2015-12-08 2019-05-28 International Business Machines Corporation Using a plurality of heterogeneous decision engines to produce a single decision
CN109558522A (zh) * 2018-12-19 2019-04-02 重庆百行智能数据科技研究院有限公司 企业网络图的建立方法、装置和计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0895169B1 (en) 1997-08-01 2003-03-05 International Business Machines Corporation Deriving process models for workflow management systems from audit trails
US6604110B1 (en) * 2000-08-31 2003-08-05 Ascential Software, Inc. Automated software code generation from a metadata-based repository
US7756822B2 (en) 2003-12-01 2010-07-13 Sap Ag Operational reporting architecture
US7647356B2 (en) * 2004-05-07 2010-01-12 Oracle International Corporation Methods and apparatus for facilitating analysis of large data sets
US7650332B2 (en) 2004-07-09 2010-01-19 Microsoft Corporation Database query tools

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101944116B (zh) * 2010-09-20 2013-01-16 常州伊冉科技有限公司 一种数据仓库中复杂多维层次的连接和聚集方法
CN101944116A (zh) * 2010-09-20 2011-01-12 常州伊冉科技有限公司 一种数据仓库中复杂多维层次的连接和聚集方法
CN103177055A (zh) * 2011-12-22 2013-06-26 Sap股份公司 存储为行存储和列存储二者的混合数据库表
CN103177055B (zh) * 2011-12-22 2017-09-05 Sap欧洲公司 存储为行存储和列存储二者的混合数据库表
CN104603781A (zh) * 2012-09-03 2015-05-06 爱克发医疗保健公司 按需语义数据仓库
CN102902565B (zh) * 2012-09-28 2015-07-29 用友软件股份有限公司 内存对象加载装置和内存对象加载方法
CN102902565A (zh) * 2012-09-28 2013-01-30 用友软件股份有限公司 内存对象加载装置和内存对象加载方法
CN104102670A (zh) * 2013-04-12 2014-10-15 Sap股份公司 绩效指标分析框架
CN104424229B (zh) * 2013-08-26 2019-02-22 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统
CN104424229A (zh) * 2013-08-26 2015-03-18 腾讯科技(深圳)有限公司 一种多维度拆分的计算方法及系统
CN106255965A (zh) * 2014-01-30 2016-12-21 微软技术许可有限责任公司 用于电子表格的自动见解
US10747950B2 (en) 2014-01-30 2020-08-18 Microsoft Technology Licensing, Llc Automatic insights for spreadsheets
CN104102698B (zh) * 2014-06-30 2017-06-20 湖南中烟工业有限责任公司 基于实体交叉与选择的数据视图切换和旋转方法和装置
CN104102698A (zh) * 2014-06-30 2014-10-15 湖南中烟工业有限责任公司 基于实体交叉与选择的数据视图切换和旋转方法和装置
CN107544992A (zh) * 2016-06-27 2018-01-05 阿里巴巴集团控股有限公司 数据分析的方法和装置
CN107679917A (zh) * 2017-10-17 2018-02-09 京北方信息技术股份有限公司 基于数据处理的精准营销方法、装置、设备及存储介质
CN108647235A (zh) * 2018-03-30 2018-10-12 上海连尚网络科技有限公司 一种基于数据仓库的数据分析方法、设备以及介质
CN110362551A (zh) * 2018-04-02 2019-10-22 阿里巴巴集团控股有限公司 数据仓库构建方法、装置、设备及存储介质
CN113032613A (zh) * 2021-03-12 2021-06-25 哈尔滨理工大学 一种基于交互注意力卷积神经网络的三维模型检索方法
CN113032613B (zh) * 2021-03-12 2022-11-08 哈尔滨理工大学 一种基于交互注意力卷积神经网络的三维模型检索方法

Also Published As

Publication number Publication date
US20070294269A1 (en) 2007-12-20
US9171058B2 (en) 2015-10-27

Similar Documents

Publication Publication Date Title
CN101089846A (zh) 数据分析方法、设备以及数据分析辅助方法
Ballard et al. Data modeling techniques for data warehousing
US8190992B2 (en) Grouping and display of logically defined reports
US9684703B2 (en) Method and apparatus for automatically creating a data warehouse and OLAP cube
US9158831B2 (en) Business intelligent architecture system and method
US7840896B2 (en) Definition and instantiation of metric based business logic reports
US7698349B2 (en) Dimension member sliding in online analytical processing
US8126750B2 (en) Consolidating data source queries for multidimensional scorecards
US20100131457A1 (en) Flattening multi-dimensional data sets into de-normalized form
US20070143174A1 (en) Repeated inheritance of heterogeneous business metrics
US7818286B2 (en) Computer-implemented dimension engine
US8314798B2 (en) Dynamic generation of contextual charts based on personalized visualization preferences
Nogués et al. Business Intelligence Tools for Small Companies
Dolk Integrated model management in the data warehouse era
US7243106B2 (en) Static drill-through modelling
GB2413665A (en) A data warehouse and OLAP cube
US20110153643A1 (en) Analyzing data within a data report
Albano Decision support databases essentials
Abdellatif et al. Comparing online analytical processing and data mining tasks in enterprise resource planning systems
Gallo et al. Data warehouse design and management: theory and practice
Marques PRESENTING BUSINESS INSIGHTS ON ADVANCED PRICING AGREEMENTS USING A BUSINESS INTELLIGENCE FRAMEWORK
Nogués et al. Business intelligence for everybody
Rocha Customers' revenue fluctuation in a Telecommunication company: Data Warehouse Construction and Visualization
Najem Building a business intelligence model for “Steelouette”
Chatzistefanou Data Warehousing in Business Intelligence and ETL Processes

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication