CN116431736A - 一种在线数据仓库模型的构建方法及系统 - Google Patents
一种在线数据仓库模型的构建方法及系统 Download PDFInfo
- Publication number
- CN116431736A CN116431736A CN202310066395.4A CN202310066395A CN116431736A CN 116431736 A CN116431736 A CN 116431736A CN 202310066395 A CN202310066395 A CN 202310066395A CN 116431736 A CN116431736 A CN 116431736A
- Authority
- CN
- China
- Prior art keywords
- data
- service
- business
- index
- layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000004364 calculation method Methods 0.000 claims abstract description 47
- 238000013507 mapping Methods 0.000 claims description 59
- 230000011218 segmentation Effects 0.000 claims description 40
- 239000002131 composite material Substances 0.000 claims description 21
- 150000001875 compounds Chemical class 0.000 claims description 12
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000013506 data mapping Methods 0.000 claims description 7
- 238000013461 design Methods 0.000 abstract description 13
- 238000010276 construction Methods 0.000 abstract description 9
- 238000011161 development Methods 0.000 abstract description 4
- 238000013499 data model Methods 0.000 abstract description 3
- 230000008676 import Effects 0.000 abstract description 3
- 230000009286 beneficial effect Effects 0.000 description 10
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000018109 developmental process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000007711 solidification Methods 0.000 description 1
- 230000008023 solidification Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种在线数据仓库模型的构建方法及系统,包括:在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;基于动态计算逻辑,生成与所述业务需求对应的业务数据表;本发明对业务进行拆解定义,得到对应的指标,利用指标引擎实现对指标的组装,得到动态计算逻辑,实现数据模型的设计即开发,实现数据建模与数据标准的无缝衔接,通过页面的配置快速完成数据仓库的架构、模型的创建与生成、数据的自动导入与生成,大大提高了数据仓库建设的工作效率。
Description
技术领域
本发明涉及数据建模领域,特别涉及一种在线数据仓库模型的构建方法及系统。
背景技术
数据仓库,主要功能仍是将组织透过资讯系统之联机事务处理经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,做有系统的分析整理,以利各种分析方法如联机分析处理、数据挖掘之进行,并进而支持如决策支持系统、主管资讯系统之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能。
离线数据仓库向来是数据资产建设的重点,但多年来数据仓库的建设存在如下几方面问题,一是标准与实际开发两张皮现象严重;二是数据仓库集市层数据的汇聚链路长,维护成本较大;三是数据仓库结构固化程度较高,需求变更与响应不及时现象较为严重。如何借助标准化、规范化手段,打通数据标准与数据开发之间的桥梁,让数据建模过程更加敏捷、更加可控,是目前需要探索的问题。
发明内容
本发明提供一种一种在线数据仓库模型的构建方法及系统,实现数据建模与数据标准的无缝衔接,大大提高了数据仓库建设的工作效率。
一种在线数据仓库模型的构建方法,包括:
S1:在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
S2:将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
S3:基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
S4:基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
优选的,S1中,在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词,包括:
获取业务需求中的数据源,并获取数据源中的实体,根据业务需求,确定多个主题,并确定每个实体所在的主题域;
确定每个实体在所在的主题下的数据结构关系;
基于所述主题和主题下的数据结构关系拆解得到业务关键词。
优选的,S2中,将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标,包括:
将所述业务关键词从部门属性和主题属性进行分析,基于所述部门属性,获取第一关系特征,基于所述主题属性,获取第二关系特征;
将第一关系特征映射为第一关系矩阵,将第二关系特征映射为第二关系矩阵,确定第一关系矩阵和第二关系矩阵中的关联元素,其他元素作为无关元素;
基于无关元素,从原子、维度和时间进行定义,生成从原子、维度和时间方面的新指标.基于关联元素及其元素对应关系,生成业务限定的新指标。
优选的,S3中,基于指标引擎,将所述新指标进行组装,得到动态计算逻辑,包括:
建立所述新指标之间的逻辑模型,并基于所述逻辑模型获取业务数据的树结构、图结构、二维表和综合结构,根据所述树结构、图结构、二维表和综合结构的数据结构特征,设定对应的遍历方式,并基于遍历方式对树结构、图结构、二维表和综合结构分别进行遍历,确定sql分词,并确定sql分词之间的分词关联;
基于业务指标关系,设定新指标的维度,并确定维度对应的主维度表,并基于所述主维度表,对所述sql分词进行划分,得到每个主维度下sql分词集合;
获取所述sql分词集合中的分词特征,并确定所述分词特征与对应的主维度的维度特征的匹配度,判断所述匹配度是否大于预设匹配度;
若是,将所述主维度作为目标主维度;
否则,基于分词特征和维度特征,对主维度进行扩展,得到目标主维度;
确定将所述目标主维度与指标实体进行再次匹配,根据匹配结果,确定在所述目标主维度下的sql分词,并基于目标主维度下的sql分词生成基础动态计算逻辑。
优选的,得到基础动态计算逻辑后,基于所述基础动态计算逻辑,构建复合动态计算逻辑,包括:
根据sql分词之间的分词关联,确定出关联主维度,并基于所述关联主维度的关联特征,确定出新sql分词;
基于所述新sql分词,确定关联主维度下的新sql分词的复合方式,基于所述复合方式对所述关联主维度下的新sql分词进行复合计算,得到复合sql分词;
基于指标引擎,将所述复合sql分词和sql分词进行自动组合,得到目标动态计算逻辑。
优选的,S2中,在将所述业务关键词从原子、维度、业务限定和时间进行定义之前,包括:
将所述业务关键词与指标库进行匹配,判断指标库中是否与所述业务关键词对应的原指标;
若是,确定业务关键词对应的原指标;
否则,将所述业务关键词从原子、维度、业务限定和时间进行定义,得到新指标。
优选的,所述原指标包括派生指标和衍生指标。
优选的,S4中,基于动态计算逻辑,生成与所述业务需求对应的业务数据表,包括:
生成所述动态计算逻辑对应的标准业务数据;
对所述标准业务数据的数据格式进行分析,基于数据格式和数据层的预设对应关系,确定所述映射数据可能所属的数据层;
基于所述可能所属的数据层的数据内容,对所述映射数据进行关键词分析,确定所述标准业务数据对应的目标数据层;
根据所述目标数据层在整个数据层中的层数,确定所述映射数据经过的中间数据层,并基于目标数据层对所述标准业务数据进行第一标记,根据中间数据层对标准业务数据进行第二标记;
根据每个数据层在所有数据层中的位置,为每个数据层设置数据输入端口和数据输出端口,根据每个数据层与上级数据层之间的数据映射关系,并在两个数据层之间建立满足所述数据映射关系的数据管道,且建立所述数据输入端口、数据输出端口和数据管道之间的导向关系;
将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成业务数据表。
优选的,将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成生成业务数据表,包括:
将所述标准业务数据输入所有数据层的第一层中,第一数据层对业务数据标准业务数据进行标记匹配,若所述第一数据层与第一标记匹配,则接收并根据业务数据表的数据内容,将所述标准业务数据存储至所述第一数据层中对应的数据区域;
若所述第一数据层与第二标识匹配,则根据导向关系和数据管道,将所述标准业务数据自动进入下一数据层,直到进入的数据层与第一标识匹配,则接收并根据标准业务数据的数据内容,将所述标准业务数据存储至所述进入的数据层中对应的数据区域;
完成对所有标准业务数据的导入后,利用每个数据层中的标准业务数据进行配置,生成业务数据表。
一种在线数据仓库模型的构建系统,包括:
业务拆解模块,用于在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
指标获取模块,用于将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
逻辑生成模块,用于基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
数据表生成模块,用于基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种在线数据仓库模型的构建方法的流程图;
图2为本发明实施例中生成新指标的流程图;
图3为本发明实施例中一种在线数据仓库模型的构建系统的结构图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1
本发明实施例提供一种在线数据仓库模型的构建方法,如图1所示,包括:
S1:在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
S2:将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
S3:基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
S4:基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
在该实施例中,所述动态计算逻辑为sql语言。
在该实施例中,所述指标引擎可以在输入指标后自动生成动态计算逻辑。
上述设计方案的有益效果是:通过对业务进行拆解定义,得到对应的指标,利用指标引擎实现对指标的组装,得到动态计算逻辑,实现数据模型的设计即开发,实现数据建模与数据标准的无缝衔接,通过页面的配置快速完成数据仓库的架构、模型的创建与生成、数据的自动导入与生成,大大提高了数据仓库建设的工作效率。
实施例2
基于实施例1的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,其特征在于,S1中,在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词,包括:
获取业务需求中的数据源,并获取数据源中的实体,根据业务需求,确定多个主题,并确定每个实体所在的主题域;
确定每个实体在所在的主题下的数据结构关系;
基于所述主题和主题下的数据结构关系拆解得到业务关键词。
在该实施例中,所述主题例如为交互主题,对应为交互的数据实体;用户主题,对应为用户的实体数据等。
上述设计方案的有益效果是:通过确定多个主题后,在主题下进行数据逻辑的划分,拆解得到业务关键词,保证得到的业务关键词对数据关系确定的规范性,为生成新指标提供基础。
实施例3
基于实施例1的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,如图2所示,S2中,将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标,包括:
S21:将所述业务关键词从部门属性和主题属性进行分析,基于所述部门属性,获取第一关系特征,基于所述主题属性,获取第二关系特征;
S22:将第一关系特征映射为第一关系矩阵,将第二关系特征映射为第二关系矩阵,确定第一关系矩阵和第二关系矩阵中的关联元素,其他元素作为无关元素;
S23:基于无关元素,从原子、维度和时间进行定义,生成从原子、维度和时间方面的新指标;基于关联元素及其元素对应关系,生成业务限定的新指标。
在该实施例中,所述关联元素为第一关系特征和第二关系特征中关系实体或关系特征相同的元素。
上述设计方案的有益效果是:通过根据业务部门的部门属性和业务需求的主题属性,来分别确定关系特征,并建立矩阵来获取两者关联的关系特征,最终得到业务关系,保证业务关系的全面性,最后,基于无关元素,从原子、维度和时间进行定义,生成从原子、维度和时间方面的新指标.基于关联元素及其元素对应关系,生成业务限定的新指标。,保证定义业务的精简性,提高得到业务关系模型的识别度,为数据仓库模型的建立提供基础,为生成业务数据表提供基础。
实施例4
基于实施例1的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,S3中,基于指标引擎,将所述新指标进行组装,得到动态计算逻辑,构建数据仓库模型,包括:
建立所述新指标之间的逻辑模型,并基于所述逻辑模型获取业务数据的树结构、图结构、二维表和综合结构,根据所述树结构、图结构、二维表和综合结构的数据结构特征,设定对应的遍历方式,并基于遍历方式对树结构、图结构、二维表和综合结构分别进行遍历,确定sql分词,并确定sql分词之间的分词关联;
基于业务指标关系,设定新指标的维度,并确定维度对应的主维度表,并基于所述主维度表,对所述sql分词进行划分,得到每个主维度下sql分词集合;
获取所述sql分词集合中的分词特征,并确定所述分词特征与对应的主维度的维度特征的匹配度,判断所述匹配度是否大于预设匹配度;
若是,将所述主维度作为目标主维度;
否则,基于分词特征和维度特征,对主维度进行扩展,得到目标主维度;
确定将所述目标主维度与指标实体进行再次匹配,根据匹配结果,确定在所述目标主维度下的sql分词,并基于目标主维度下的sql分词生成基础动态计算逻辑。
在该实施例中,所述树结构用来表示业务数据的层次逻辑关系,图结构用于来时业务数据的网状逻辑关系,二维表用于表示业务数据的定义逻辑关系,综合结构包括树结构、图结构和二维表中的任意两个或全部。
在该实施例中,例如指标实体为日期,指标数值为具体的年月日。
在该实施例中,所述指标关联例如为一个业务中日期、地点、操作之间的关联。
在该实施例中,主维度扩展例如为对主维度为地点进行扩展,扩展为国家和城市,对主维度进行扩展,使得到的目标主维度更加细致精确。
在该实施例中,在述目标主维度下确定基础指标,确定了基础指标的维度特征,同时,为复合指标的构建提供基础。
上述设计方案的有益效果是:首先根据逻辑模型来确定出作为基础指标的指标实体和指标数值,然后根据业务关系模型来确定出主维度,并确定每个sql分词所属的主维度,在确定出sql分词的基础上,确定sql分词的主维度,使得sql分词更加准确和有序,保证生成的基础动态计算逻辑的准确性。
实施例5
基于实施例4的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,得到基础动态计算逻辑后,基于所述基础动态计算逻辑,构建复合动态计算逻辑,包括:
根据sql分词之间的分词关联,确定出关联主维度,并基于所述关联主维度的关联特征,确定出新sql分词;
基于所述新sql分词,确定关联主维度下的新sql分词的复合方式,基于所述复合方式对所述关联主维度下的新sql分词进行复合计算,得到复合sql分词;
基于指标引擎,将所述复合sql分词和sql分词进行自动组合,得到目标动态计算逻辑。
在该实施例中,例如关联主维度包括销售量、商品价格、商品进价,确定的复合指标实体为销售利润,复合计算为销售量*(商品价格-商品进价)。
上述设计方案的有益效果是:确定出sql分词后,根据sql分词所属的主维度进行关联分析来确定复合指标,保证新sql分词确定的准确性和效率,同时,根据主维度使得复合计算有序进行,降低新sql分词的错误率,最终保证生成目标动态计算逻辑的有序性和准确性,为建立数据仓库提供基础。
实施例6
基于实施例1的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,S2中,在将所述业务关键词从原子、维度、业务限定和时间进行定义之前,包括:
将所述业务关键词与指标库进行匹配,判断指标库中是否与所述业务关键词对应的原指标;
若是,确定业务关键词对应的原指标;
否则,将所述业务关键词从原子、维度、业务限定和时间进行定义,得到新指标。
上述设计方案的有益效果是:通过根据业务关键词与指标库进行匹配来确定指标的获取方式,可以直接从指标库中获取相关的指标,保证了获取指标的效率。
实施例7
基于实施例6的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,所述原指标包括派生指标和衍生指标。
实施例8
本发明实施例提供一种在线数据仓库模型的构建方法,S4中,基于动态计算逻辑,生成与所述业务需求对应的业务数据表,包括:
生成所述动态计算逻辑对应的标准业务数据;
对所述标准业务数据的数据格式进行分析,基于数据格式和数据层的预设对应关系,确定所述映射数据可能所属的数据层;
基于所述可能所属的数据层的数据内容,对所述映射数据进行关键词分析,确定所述标准业务数据对应的目标数据层;
根据所述目标数据层在整个数据层中的层数,确定所述映射数据经过的中间数据层,并基于目标数据层对所述标准业务数据进行第一标记,根据中间数据层对标准业务数据进行第二标记;
根据每个数据层在所有数据层中的位置,为每个数据层设置数据输入端口和数据输出端口,根据每个数据层与上级数据层之间的数据映射关系,并在两个数据层之间建立满足所述数据映射关系的数据管道,且建立所述数据输入端口、数据输出端口和数据管道之间的导向关系;
将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成业务数据表。
在该实施例中,将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成生成业务数据表,包括:
将所述标准业务数据输入所有数据层的第一层中,第一数据层对业务数据标准业务数据进行标记匹配,若所述第一数据层与第一标记匹配,则接收并根据业务数据表的数据内容,将所述标准业务数据存储至所述第一数据层中对应的数据区域;
若所述第一数据层与第二标识匹配,则根据导向关系和数据管道,将所述标准业务数据自动进入下一数据层,直到进入的数据层与第一标识匹配,则接收并根据标准业务数据的数据内容,将所述标准业务数据存储至所述进入的数据层中对应的数据区域;
完成对所有标准业务数据的导入后,利用每个数据层中的标准业务数据进行配置,生成业务数据表。
在该实施例中,所述数据层包括缓冲数据层(第一层)、源数据层(第二层)、模型数据层(第三层)和仓库数据层(第四层)。
在该实施例中,首先对标准业务数据的数据格式进行判断,确定可能的数据层,然后再对数据内容进行判断,确定最终的目标数据层,避免直接对标准业务数据进行内容分析导致数据分析工作量的增加,提高对标准业务数据的分析处理效率,从而提高数据仓库模型建立的效率。
在该实施例中,第一标识表示标准业务数据所属的目标数据层,若一个数据层与所属第一标识匹配,则表示所述标准业务数据属于这个数据层,否则,则与第二标识匹配,表示这个数据层为标准业务数据经过的中间数据层。
上述设计方案的有益效果是:首先对标准业务数据的数据格式进行判断,确定可能的数据层,然后再对数据内容进行判断,确定最终的目标数据层,避免直接对标准业务数据进行内容分析导致数据分析工作量的增加,提高对标准业务数据的分析处理效率,从而提高数据仓库模型建立的效率,其次,将标准业务数据输入第一数据层,根据预设设计的第一标识、第二标识、数据管道和导向关系,实现自动对标准业务数据在各个数据层的导入,大大提高了业务数据表建设的工作效率,让业务数据表建立过程更加敏捷、更加可控。
实施例9
基于实施例8的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,S3中,生成所述动态计算逻辑对应的标准业务数据,包括:
获取所述动态计算逻辑中的基础指标,并获取相同指标名称的基础指标的不同数据来源,建立相同指标名称和数据来源的第一映射关系;
获取复合指标的相关基础指标的指标名称,并基于所述第一映射关系,确定所述复合指标的多个目标数据来源;
根据数据仓库模型的数据标准格式,结合第一映射关系,计算基础指标的第一映射取值;
所述第一映射取值K1的计算公式如下:
其中,kmax表示相同指标名称和数据来源的第一映射关系中映射关系最简单的目标相同指标名称和其对应数据来源的第一映射值,取值为(0,1),Fmax表示所述目标相同指标名称对应数据来源的数据格式,Fa表示业务数据表的数据标准格式,H(Fmax→Fa)表示所述目标相同指标名称对应数据来源的数据格式转换到业务数据表的数据标准格式的转换次数,Hi(Fmax→Fa)表示所述目标相同指标名称对应数据来源的数据格式转化到业务数据表的数据标准格式第i次转换的转换取值,取值为(0,1);
从映射规则库中获取与所述第一映射取值对应的映射规则对基础指标进行映射,得到对应的映射数据。
在该实施例中,kmax表示相同指标名称和数据来源的第一映射关系中映射关系最简单的目标相同指标名称和其对应数据来源的第一映射值,由于同一个基础指标可能有不同的数据来源,而同一个基础指标只需要选择一个即可,此时根据第一映射关系选取最大的第一映射值,表明映射关系最简单,可保证映射过程的映射效率。
在该实施例中,所述基础指标根据sql分词决定,和复合指标根据新sql分词决定。
在该实施例中,目标相同指标名称对应数据来源的数据格式转换到业务数据表的数据标准格式的要经过多次中间转换才能实现。
在该实施例中,映射规则库为根据预先训练结果得到映射取值和映射规则之间的关系。
在该实施例中,所述复合指标有多个基础指标确定,例如复合指标为方差,则对应的基础指标为每个元素的取值。
上述设计方案的有益效果是:通过根据基础指标的数据来源,来选择同一个基础指标名称最终的基础指标的数据来源,保证基础指标在数据映射过程中的简单性和效率,然后根据预先训练结果得到映射取值和映射规则之间的关系的映射规则库,结合得到的第一映射取值,实现对基础指标的映射,保证映射的效率,实现对基础指标的批量映射,最终,大大提高了业务数据表建立的工作效率。
实施例10
基于实施例6的基础上,本发明实施例提供一种在线数据仓库模型的构建方法,还包括:
根据业务数据表的数据标准格式,结合所述第一映射取值,计算复合指标的第二映射取值;
所述第二映射取值K2的计算公式为:
其中,m表示复合指标对应的相关基础指标的个数,K1j表示第j个相关基础指标的第一映射取值,K1max表示相关基础指标中最大的第一映射取值,K1min表示相关基础指标中最小的第一映射取值;
从映射规则库中获取与所述第二映射取值对应的映射规则对复合指标进行映射,得到对应的映射数据。
在该实施例中,映射取值的取值范围均为(0,1)。
上述设计方案的有益效果是:通过对基础指标的映射结果,实现对复合指标的映射,保证对复合指标映射结果的准确性,同时,也提高了映射效率,最终,大大提高了业务数据表建立的工作效率。
实施例11
本发明实施例提供一种在线数据仓库模型的构建系统,如图3所示,包括:
业务拆解模块,用于在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
指标获取模块,用于将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
逻辑生成模块,用于基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
数据表生成模块,用于基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
在该实施例中,所述动态计算逻辑为sql语言。
在该实施例中,所述指标引擎可以在输入指标后自动生成动态计算逻辑。
上述设计方案的有益效果是:通过对对业务进行拆解定义,得到对应的指标,利用指标引擎实现对指标的组装,得到动态计算逻辑,实现数据模型的设计即开发,实现数据建模与数据标准的无缝衔接,通过页面的配置快速完成数据仓库的架构、模型的创建与生成、数据的自动导入与生成,大大提高了数据仓库建设的工作效率。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种在线数据仓库模型的构建方法,其特征在于,包括:
S1:在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
S2:将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
S3:基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
S4:基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
2.根据权利要求1所述的一种在线数据仓库模型的构建方法,其特征在于,S1中,在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词,包括:
获取业务需求中的数据源,并获取数据源中的实体,根据业务需求,确定多个主题,并确定每个实体所在的主题域;
确定每个实体在所在的主题下的数据结构关系;
基于所述主题和主题下的数据结构关系拆解得到业务关键词。
3.根据权利要求1所述的一种在线数据仓库模型的构建方法,其特征在于,S2中,将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标,包括:
将所述业务关键词从部门属性和主题属性进行分析,基于所述部门属性,获取第一关系特征,基于所述主题属性,获取第二关系特征;
将第一关系特征映射为第一关系矩阵,将第二关系特征映射为第二关系矩阵,确定第一关系矩阵和第二关系矩阵中的关联元素,其他元素作为无关元素;
基于无关元素,从原子、维度和时间进行定义,生成从原子、维度和时间方面的新指标.基于关联元素及其元素对应关系,生成业务限定的新指标。
4.根据权利要求1所述的一种在线数据仓库模型的构建方法,其特征在于,S3中,基于指标引擎,将所述新指标进行组装,得到动态计算逻辑,包括:
建立所述新指标之间的逻辑模型,并基于所述逻辑模型获取业务数据的树结构、图结构、二维表和综合结构,根据所述树结构、图结构、二维表和综合结构的数据结构特征,设定对应的遍历方式,并基于遍历方式对树结构、图结构、二维表和综合结构分别进行遍历,确定sql分词,并确定sql分词之间的分词关联;
基于业务指标关系,设定新指标的维度,并确定维度对应的主维度表,并基于所述主维度表,对所述sql分词进行划分,得到每个主维度下sql分词集合;
获取所述sql分词集合中的分词特征,并确定所述分词特征与对应的主维度的维度特征的匹配度,判断所述匹配度是否大于预设匹配度;
若是,将所述主维度作为目标主维度;
否则,基于分词特征和维度特征,对主维度进行扩展,得到目标主维度;
确定将所述目标主维度与指标实体进行再次匹配,根据匹配结果,确定在所述目标主维度下的sql分词,并基于目标主维度下的sql分词生成基础动态计算逻辑。
5.根据权利要求4所述的一种在线数据仓库模型的构建方法,其特征在于,得到基础动态计算逻辑后,基于所述基础动态计算逻辑,构建复合动态计算逻辑,包括:
根据sql分词之间的分词关联,确定出关联主维度,并基于所述关联主维度的关联特征,确定出新sql分词;
基于所述新sql分词,确定关联主维度下的新sql分词的复合方式,基于所述复合方式对所述关联主维度下的新sql分词进行复合计算,得到复合sql分词;
基于指标引擎,将所述复合sql分词和sql分词进行自动组合,得到目标动态计算逻辑。
6.根据权利要求1所述的一种在线数据仓库模型的构建方法,其特征在于,S2中,在将所述业务关键词从原子、维度、业务限定和时间进行定义之前,包括:
将所述业务关键词与指标库进行匹配,判断指标库中是否与所述业务关键词对应的原指标;
若是,确定业务关键词对应的原指标;
否则,将所述业务关键词从原子、维度、业务限定和时间进行定义,得到新指标。
7.根据权利要求6所述的一种在线数据仓库模型的构建方法,其特征在于,所述原指标包括派生指标和衍生指标。
8.根据权利要求1所述的一种在线数据仓库模型的构建方法,其特征在于,S4中,基于动态计算逻辑,生成与所述业务需求对应的业务数据表,包括:
生成所述动态计算逻辑对应的标准业务数据;
对所述标准业务数据的数据格式进行分析,基于数据格式和数据层的预设对应关系,确定所述映射数据可能所属的数据层;
基于所述可能所属的数据层的数据内容,对所述映射数据进行关键词分析,确定所述标准业务数据对应的目标数据层;
根据所述目标数据层在整个数据层中的层数,确定所述映射数据经过的中间数据层,并基于目标数据层对所述标准业务数据进行第一标记,根据中间数据层对标准业务数据进行第二标记;
根据每个数据层在所有数据层中的位置,为每个数据层设置数据输入端口和数据输出端口,根据每个数据层与上级数据层之间的数据映射关系,并在两个数据层之间建立满足所述数据映射关系的数据管道,且建立所述数据输入端口、数据输出端口和数据管道之间的导向关系;
将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成业务数据表。
9.根据权利要求8所述的一种在线数据仓库模型的构建方法,其特征在于,将所述标准业务数据输入所有数据层的第一层中,结合所述数据输入端口、数据输出端口和数据管道之间的导向关系,完成对所有标准业务数据的导入,生成生成业务数据表,包括:
将所述标准业务数据输入所有数据层的第一层中,第一数据层对业务数据标准业务数据进行标记匹配,若所述第一数据层与第一标记匹配,则接收并根据业务数据表的数据内容,将所述标准业务数据存储至所述第一数据层中对应的数据区域;
若所述第一数据层与第二标识匹配,则根据导向关系和数据管道,将所述标准业务数据自动进入下一数据层,直到进入的数据层与第一标识匹配,则接收并根据标准业务数据的数据内容,将所述标准业务数据存储至所述进入的数据层中对应的数据区域;
完成对所有标准业务数据的导入后,利用每个数据层中的标准业务数据进行配置,生成业务数据表。
10.一种在线数据仓库模型的构建系统,其特征在于,包括:
业务拆解模块,用于在线分析业务部门的业务需求中的数据结构关系进行业务拆解,得到业务关键词;
指标获取模块,用于将所述业务关键词从原子、维度、业务限定和时间进行定义,生成新指标;
逻辑生成模块,用于基于指标引擎,将所述新指标进行组装,得到动态计算逻辑;
数据表生成模块,用于基于动态计算逻辑,生成与所述业务需求对应的业务数据表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066395.4A CN116431736B (zh) | 2023-02-06 | 2023-02-06 | 一种在线数据仓库模型的构建方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310066395.4A CN116431736B (zh) | 2023-02-06 | 2023-02-06 | 一种在线数据仓库模型的构建方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116431736A true CN116431736A (zh) | 2023-07-14 |
CN116431736B CN116431736B (zh) | 2023-10-20 |
Family
ID=87080364
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310066395.4A Active CN116431736B (zh) | 2023-02-06 | 2023-02-06 | 一种在线数据仓库模型的构建方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116431736B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377961B1 (en) * | 1998-01-23 | 2002-04-23 | Samsung Electronics, Co., Ltd. | Method for displaying internet search results |
US20100138399A1 (en) * | 2008-12-01 | 2010-06-03 | Electronics And Telecommunications Research Institute | Method for data encryption and method for data search using conjunctive keyword |
CN104217032A (zh) * | 2014-09-28 | 2014-12-17 | 北京国双科技有限公司 | 数据库维度的处理方法及装置 |
CN105718565A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 数据仓库模型的构建方法和构建装置 |
CN108052542A (zh) * | 2017-11-22 | 2018-05-18 | 链家网(北京)科技有限公司 | 一种基于presto的数据的多维数据的分析方法 |
CN108628894A (zh) * | 2017-03-21 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 数据仓库中的数据指标查询方法及装置 |
CN112131203A (zh) * | 2020-08-28 | 2020-12-25 | 北京思特奇信息技术股份有限公司 | 一种数据仓库搭建的方法和系统 |
CN112364094A (zh) * | 2020-11-17 | 2021-02-12 | 珠海市卓轩科技有限公司 | 数据仓库可视化建模方法、装置及介质 |
CN113392646A (zh) * | 2021-07-07 | 2021-09-14 | 上海软中信息技术有限公司 | 一种数据中台系统、构建方法及装置 |
CN113407681A (zh) * | 2021-08-18 | 2021-09-17 | 国网浙江省电力有限公司信息通信分公司 | 一种能源行业公共数据模型构建方法 |
CN113627825A (zh) * | 2021-08-27 | 2021-11-09 | 安徽达云思拓信息科技有限公司 | 一种产业链生态大数据模型的建模方法及其应用 |
CN113760891A (zh) * | 2020-12-02 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种数据表的生成方法、装置、设备和存储介质 |
CN114490571A (zh) * | 2021-12-28 | 2022-05-13 | 阿里云计算有限公司 | 一种建模方法、服务器及存储介质 |
CN115048451A (zh) * | 2022-07-08 | 2022-09-13 | 成都中科大旗软件股份有限公司 | 一种基于业务与数据一体化的体系构建方法及系统 |
CN115374329A (zh) * | 2022-10-25 | 2022-11-22 | 杭州比智科技有限公司 | 一种管理企业业务元数据和技术元数据的方法及系统 |
CN115470195A (zh) * | 2022-09-29 | 2022-12-13 | 信华信技术股份有限公司 | 一种融合维度模型的指标数据自动化计算方法及装置 |
CN115688731A (zh) * | 2022-11-03 | 2023-02-03 | 平安科技(深圳)有限公司 | 银行业务指标生成方法、装置、电子设备及存储介质 |
-
2023
- 2023-02-06 CN CN202310066395.4A patent/CN116431736B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6377961B1 (en) * | 1998-01-23 | 2002-04-23 | Samsung Electronics, Co., Ltd. | Method for displaying internet search results |
US20100138399A1 (en) * | 2008-12-01 | 2010-06-03 | Electronics And Telecommunications Research Institute | Method for data encryption and method for data search using conjunctive keyword |
CN104217032A (zh) * | 2014-09-28 | 2014-12-17 | 北京国双科技有限公司 | 数据库维度的处理方法及装置 |
CN105718565A (zh) * | 2016-01-20 | 2016-06-29 | 北京京东尚科信息技术有限公司 | 数据仓库模型的构建方法和构建装置 |
CN108628894A (zh) * | 2017-03-21 | 2018-10-09 | 阿里巴巴集团控股有限公司 | 数据仓库中的数据指标查询方法及装置 |
CN108052542A (zh) * | 2017-11-22 | 2018-05-18 | 链家网(北京)科技有限公司 | 一种基于presto的数据的多维数据的分析方法 |
CN112131203A (zh) * | 2020-08-28 | 2020-12-25 | 北京思特奇信息技术股份有限公司 | 一种数据仓库搭建的方法和系统 |
CN112364094A (zh) * | 2020-11-17 | 2021-02-12 | 珠海市卓轩科技有限公司 | 数据仓库可视化建模方法、装置及介质 |
CN113760891A (zh) * | 2020-12-02 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种数据表的生成方法、装置、设备和存储介质 |
CN113392646A (zh) * | 2021-07-07 | 2021-09-14 | 上海软中信息技术有限公司 | 一种数据中台系统、构建方法及装置 |
CN113407681A (zh) * | 2021-08-18 | 2021-09-17 | 国网浙江省电力有限公司信息通信分公司 | 一种能源行业公共数据模型构建方法 |
CN113627825A (zh) * | 2021-08-27 | 2021-11-09 | 安徽达云思拓信息科技有限公司 | 一种产业链生态大数据模型的建模方法及其应用 |
CN114490571A (zh) * | 2021-12-28 | 2022-05-13 | 阿里云计算有限公司 | 一种建模方法、服务器及存储介质 |
CN115048451A (zh) * | 2022-07-08 | 2022-09-13 | 成都中科大旗软件股份有限公司 | 一种基于业务与数据一体化的体系构建方法及系统 |
CN115470195A (zh) * | 2022-09-29 | 2022-12-13 | 信华信技术股份有限公司 | 一种融合维度模型的指标数据自动化计算方法及装置 |
CN115374329A (zh) * | 2022-10-25 | 2022-11-22 | 杭州比智科技有限公司 | 一种管理企业业务元数据和技术元数据的方法及系统 |
CN115688731A (zh) * | 2022-11-03 | 2023-02-03 | 平安科技(深圳)有限公司 | 银行业务指标生成方法、装置、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
韦芳等: "基于大数据构建企业智慧税务管理的探索", 《国际税收 》, pages 23 - 27 * |
韦芳等: "基于大数据构建企业智慧税务管理的探索", 《国际税收》, pages 23 - 27 * |
Also Published As
Publication number | Publication date |
---|---|
CN116431736B (zh) | 2023-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241185B (zh) | 数据处理方法以及装置 | |
US9361358B2 (en) | Syntactic loci and fields in a functional information system | |
US11748371B2 (en) | Systems and methods for searching for and translating real estate descriptions from diverse sources utilizing an operator-based product definition | |
US20070255646A1 (en) | Methods and Systems for Multi-Credit Reporting Agency Data Modeling | |
CN110490761A (zh) | 一种电网配网设备台账数据模型建模方法 | |
CN112330342A (zh) | 企业名称与系统用户名称优化匹配的方法及系统 | |
CN115860436A (zh) | 一种基于知识图谱的城市热线派单方法及系统 | |
Coyle | Interior library GIS | |
CN113379432B (zh) | 一种基于机器学习的销售系统客户匹配方法 | |
CN114490571A (zh) | 一种建模方法、服务器及存储介质 | |
RU105491U1 (ru) | Автоматизированная система доступа к информационным ресурсам на основе универсального классификатора бюджетных данных | |
CN116431736B (zh) | 一种在线数据仓库模型的构建方法及系统 | |
CN114004575A (zh) | 一种个性化招聘系统及实现招聘系统个性化的方法 | |
Avdeenko et al. | Modeling information space for decision-making in the interaction of higher education system with regional labor market | |
Gharehbaghi | On-Site engineering information systems (EIS) for building and construction projects | |
CN115952174B (zh) | 一种数据表联接方法、系统、终端及存储介质 | |
Cam et al. | Hypothesis-driven simulation experiments with an extension to SED-ML | |
Zuniga et al. | A new trivariate model for stochastic episodes | |
Mbala et al. | Evaluation of Data Warehouse Systems by Models Comparison | |
Song | Facilitating Location and Use of Socio-economic Data with Minimal User Intervention | |
WO2023053112A1 (en) | System and method for prediction of residential real-estate values | |
Fähnrich et al. | A Strategy for Formal Service Product Model Specification | |
CN116205716A (zh) | 衍生变量管理平台 | |
CN118364004A (zh) | 一种基于知识图谱的发供用电量图数据库校核方法及系统 | |
Riehl | Property Recommendation System With Geospatial Data Analytics Andnatural Language Processing For Urban Land Use |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |