CN117033346A - 一种基于企业数据的数仓建模方法、系统、设备及介质 - Google Patents
一种基于企业数据的数仓建模方法、系统、设备及介质 Download PDFInfo
- Publication number
- CN117033346A CN117033346A CN202311004562.9A CN202311004562A CN117033346A CN 117033346 A CN117033346 A CN 117033346A CN 202311004562 A CN202311004562 A CN 202311004562A CN 117033346 A CN117033346 A CN 117033346A
- Authority
- CN
- China
- Prior art keywords
- enterprise data
- data
- source table
- enterprise
- data source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000008569 process Effects 0.000 claims description 15
- 238000000638 solvent extraction Methods 0.000 claims description 3
- 238000005192 partition Methods 0.000 claims 1
- 238000009960 carding Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 11
- 230000008859 change Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 8
- 238000004458 analytical method Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 5
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000011068 loading method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/211—Schema design and management
- G06F16/212—Schema design and management with details for data modelling support
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种基于企业数据的数仓建模方法、系统、设备及介质,涉及数据仓库建模领域。在该方法中,包括以下步骤:获取业务需求信息;获取企业数据来源表;根据业务需求信息确定多个数据主题域,并建立各数据主题域之间的业务逻辑关联;将各企业数据来源表划分至对应的数据主题域;对各数据主题域中的企业数据来源表进行处理,生成多张企业数据明细表;根据业务逻辑关联确定各企业数据明细表之间的数据逻辑关联;根据各企业数据明细表与各企业数据明细表之间的数据逻辑关联建立企业数据仓库模型。通过采用本申请提供的技术方案,完成来源企业数据的口径统一与关系梳理,从而能够较好的建立多维度企业数据的数据仓库的数据仓库模型。
Description
技术领域
本申请涉及数据仓库建模领域,尤其是涉及一种基于企业数据的数仓建模方法、系统、设备及介质。
背景技术
一条完整的企业数据本身可以由企业工商信息、行业信息、工商变更、年报、投融资、法律、诉讼、专利、版权、商标等多个部分组成,在此基础上进行各种清洗、业务处理、提炼、挖掘、扩展等处理,导入业务系统数据库供用户进行检索查询、分析等操作。
区别于市面上常见的电商、物流、广告等领域的数据,企业数据具备更为繁复的数据维度,因此在构建企业数据的数据仓库模型时,若复用现有的数据仓库模型构建方法,会导致构建的企业数据仓库数据关系不明确、血缘混乱、口径不一致等问题,现有的数据仓库建模方法无法较好的处理多维度的企业数据。
发明内容
为了能够较好的对多维度的企业数据进行处理,本申请提供一种基于企业数据的数仓建模方法、系统、设备及介质。
第一方面,本申请提供了一种基于企业数据的数仓建模方法,所述方法包括以下步骤:
获取业务需求信息;
获取企业数据来源表,所述企业数据来源表包括有多张;
根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;
将各所述企业数据来源表划分至对应的数据主题域;
对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表;
根据所述业务逻辑关联确定各所述企业数据明细表之间的数据逻辑关联;
根据各所述企业数据明细表与各所述企业数据明细表之间的所述数据逻辑关联建立企业数据仓库模型。
通过采用上述技术方案,企业数据来源表中包含有多维度数据,通过划分主题域与拆分企业数据来源表,将企业数据来源表转化为只包含单一维度数据的企业数据明细表,从而对企业数据进行了二次数据域的划分,保障了企业数据口径的统一;同时梳理了各个企业数据明细表之间的数据逻辑关系,保障数据仓库模型中各企业数据的血缘清晰,使得较好的建立多维度企业数据的数据仓库的数据仓库模型。
可选的,在对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表前,还包括对所述企业数据来源表的分类过程,所述分类过程具体为:
所述企业数据来源表包括第一企业数据来源表与第二企业数据来源表,识别全部所述企业数据来源表中的多值字段;
将包含所述多值字段的所述企业数据来源表作为所述第一企业数据来源表,不包含所述多值字段的所述企业数据来源表作为所述第二企业数据来源表。
通过采用上述技术方案,完成对企业数据来源表的分类,将包含有多值字段的企业数据来源表与不包含多值字段的企业数据来源表区分开来,为后续拆分企业数据明细表提供数据基础。
可选的,在对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表中,具体包括:
根据所述第一企业数据来源表中包含的所述多值字段对所述第一企业数据来源表进行拆分,得到多张第一企业数据明细表,所述第一企业数据明细表中仅包含有单一字段;
将所述第二企业数据来源表直接转化为第二企业数据明细表;
获取所述第一企业数据明细表与所述第二企业数据明细表,完成所述企业数据明细表的生成。
通过采用上述技术方案,企业数据来源表中若包含有多值字段,则会导致建立的数据仓库模型出现数据冗余、查询性能下降、数据完整性较差、表设计复杂等问题,对第一企业数据来源表进行拆分,得到对应的第一企业数据明细表,使得最终获取到的企业数据明细表中只包含有单一字段,在后续建模时避免了多值字段带来的各类问题。
可选的,在将各所述企业数据来源表划分至对应的数据主题域中,具体包括:
分别获取各所述企业数据来源表的来源表特征;
根据各所述来源表特征将各所述企业数据来源表划分至对应的所述数据主题域中。
通过采用上述技术方案,来源特征对企业数据来源表进行了描述,通过来源表特征确定企业数据来源表的归属数据主题域,保证数据主题域分配的准确性。
可选的,在分别获取各所述企业数据来源表的来源表特征中,具体包括:
根据各所述企业数据来源表中包含的数据字段提取各所述企业数据来源表的所述来源表特征。
通过采用上述技术方案,来源表特征用于企业数据来源表描述,通过企业数据来源表中的各个数据字段抽取来源表特征,保证了来源表特征对企业数据来源表描述的准确性。
可选的,在分别获取各所述企业数据来源表的来源表特征中,具体包括:
获取各所述企业数据来源表关联的数据字典;
根据各所述企业数据来源表关联的所述数据字典提取各所述企业数据来源表的所述来源表特征。
通过采用上述技术方案,数据字典是对企业数据仓库中的数据进行全面描述和定义的文档或数据库,包括数据表、字段、数据类型、数据格式、数据来源等信息。通过企业数据来源表关联的数据字典抽取来源表特征,进一步保证了来源表特征对企业数据来源表描述的准确性
可选的,在根据各所述来源表特征将各所述企业数据来源表划分至对应的所述数据主题域中,具体包括:
获取各所述数据主题域的数据主题特征;
根据所述数据主题特征与所述来源表特征分别计算各所述数据主题域与各所述企业数据来源表之间的归属度;
将所述企业数据来源表划分至与自身具备最高所述归属度的所述数据主题域中。
通过采用上述技术方案,抽取各个数据主题域的数据主题特征,对各数据主题域进行描述,通过主题域特征与来源表特征计算数据主题域与企业数据来源表之间的归属度,确定企业数据来源表属于何种数据主题域。计算方便、准确,有利于提高数据仓库建模效率。
在本申请的第二方面提供了一种基于企业数据的数仓建模系统,所述系统包括以下模块:
业务需求信息获取模块,用于获取业务需求信息;
企业数据来源表获取模块,用于获取企业数据来源表,所述企业数据来源表包括有多张;
业务逻辑关联确定模块,用于根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;
企业数据来源表划分模块,用于将各所述企业数据来源表划分至对应的数据主题域;
企业数据明细表生成模块,用于对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表;
数据逻辑关联确定模块,用于根据所述业务逻辑关联确定各所述企业数据明细表之间的数据逻辑关联;
企业数据仓库模型建立模块,用于根据各所述企业数据明细表与各所述企业数据明细表之间的所述数据逻辑关联建立企业数据仓库模型。
在本申请的第三方面提供了一种电子设备;
在本申请的第四方面提供了一种计算机可读存储介质;
综上所述,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
1、企业数据来源表中包含有多维度数据,通过划分主题域与拆分企业数据来源表,将企业数据来源表转化为只包含单一维度数据的企业数据明细表,从而对企业数据进行了二次数据域的划分,保障了企业数据口径的统一;同时梳理了各个企业数据明细表之间的数据逻辑关系,保障数据仓库模型中各企业数据的血缘清晰,使得较好的建立多维度企业数据的数据仓库的数据仓库模型。
2、企业数据来源表中若包含有多值字段,则会导致建立的数据仓库模型出现数据冗余、查询性能下降、数据完整性较差、表设计复杂等问题,对第一企业数据来源表进行拆分,得到对应的第一企业数据明细表,使得最终获取到的企业数据明细表中只包含有单一字段,在后续建模时避免了多值字段带来的各类问题。
3、通过企业数据来源表中的各个数据字段抽取来源表特征,抽取各个数据主题域的数据主题特征,通过主题域特征与来源表特征计算数据主题域与企业数据来源表之间的归属度,确定企业数据来源表属于何种数据主题域。数据主题域划分快速、准确。
附图说明
图1是本申请实施例提供的一种基于企业数据的数仓建模方法的流程示意图。
图2是本申请实施例公开的一种基于企业数据的数仓建模系统的结构示意图。
图3是本申请实施例的公开的一种电子设备的结构示意图。
附图标记说明:201、业务需求信息获取模块;202、企业数据来源表获取模块;203、业务逻辑关联确定模块;204、企业数据来源表划分模块;205、企业数据明细表生成模块;206、数据逻辑关联确定模块;207、企业数据仓库模型建立模块;300、电子设备;301、处理器;302、通信总线;303、用户接口;304、网络接口;305、存储器。
具体实施方式
为了使本领域的技术人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
在本申请实施例的描述中,“例如”或者“举例来说”等词用于表示作例子、例证或说明。本申请实施例中被描述为“例如”或者“举例来说”的任何实施例或设计方案不应被解释为比其他实施例或设计方案更优选或更具优势。确切而言,使用“例如”或者“举例来说”等词旨在以具体方式呈现相关概念。
在本申请实施例的描述中,术语“多个”的含义是指两个或两个以上。例如,多个系统是指两个或两个以上的系统,多个屏幕终端是指两个或两个以上的屏幕终端。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
在对本申请实施例进行介绍之前,首先对本申请实施例中涉及的部分名词进行定义与说明。
数据仓库(Data Warehouse,DW):数据仓库是一个用于存储和管理企业大量数据的系统,这些数据来自多个不同的操作系统和数据源。它是一个面向主题的、集成的、稳定的、非易失性的、时变的数据集合,用于支持企业决策和分析。数据仓库的设计和构建是为了满足企业需要进行高效的查询和分析,以及支持决策制定。数据仓库通常包括数据抽取、转换和加载(ETL)过程,以及数据存储和查询工具。数据仓库本身并不“生产”任何数据,其数据来源于不同外部系统;同时数据仓库自身也不需要“消费”任何的数据,其结果开放给各个外部应用使用。
数据仓库模型:数据仓库模型是指将数据仓库中的数据组织成一种特定的结构,以支持数据仓库中的数据分析和查询。
参照图1,本申请提供了一种基于企业数据的数仓建模方法,该方法具体包括以下步骤:
S1:获取业务需求信息;
具体的,数据仓库用于为企业的决策与分析提供数据支持,对于企业数据的数据仓库,在本申请提供的一种实施例中,企业数据的数据仓库为企业数据查询系统提供集成式的数据服务,从而为用户提供企业数据查询支持。
基于上述企业数据的数据仓库,该数据仓库的面向主题为用户的企业数据查询活动,基于该主题可以建立数据仓库的业务需求模型,对建立的业务需求模型进行数据结构化,从而得到业务需求信息。
具体来说,业务需求模型需要根据相关技术人员对于企业数据查询系统的功能规划确定,确定企业数据查询系统中涉及到的各个业务域,并且根据实际业务场景建立起各个业务域之间的逻辑关联,从而完成业务需求模型的建立。
在本申请一种可行的实施例中,当用户在企业查询系统中对某一特定企业的企业数据进行查询时,我们期望能够向用户展示企业数据中的“企业工商信息”、“行业信息”、“工商变更”、“年报”、“投融资”、“法律”、“诉讼”、“专利”、“版权”、“商标”,那么在建立业务需求模型时,业务需求模型的业务域即被设置为“企业工商信息”、“行业信息”、“工商变更”、“年报”、“投融资”、“法律”、“诉讼”、“专利”、“版权”、“商标”。在确定业务需求模型的业务域后,根据在实际业务场景建立各个业务域之间的逻辑关联,例如对于“企业工商信息”与“行业信息”,由于不同行业的企业存在有不同的工商注册要求,同时不同的行业监管政策也会对企业的工商信息产生影响,因此可以在“企业工商信息”与“行业信息”之间建立起逻辑关联。
需要说明的是,业务需求模型的建立是由本领域技术人员进行的,业务需求模型也可以由本领域技术人员的经验进行适应性变更。在获取到业务需求模型后,将各个业务域以及各个业务域之间的逻辑关联转化为结构化的数据,得到业务需求信息。在本申请提供的实施例中,业务需求信息可以以SOP、XML、JSON或CSV格式进行存储,以被本申请实施例提供的一种基于企业数据的数仓建模方法的执行主体识别与获取。
S2:获取企业数据来源表;
具体的,企业数据来源表可以是从企业业务流程涉及的各个业务系统中获取的,也可以是从外部的数据供应商中获取的。企业数据来源表通常以关系型数据库的形式体现。企业数据来源表是数据仓库中的一个重要组成部分,用于记录企业不同业务系统中的数据表和数据字段等信息。
企业数据来源表中通常包含有数据表名、数据表描述、数据字段名、数据字段类型、数据字段描述以及数据表间关系描述。其中,数据表名用于记录各个业务系统中的数据表名称;数据表描述用于记录各个数据表的简要描述信息,包括数据表所属的业务领域、数据表的作用和功能等;数据字段名用于记录各个数据表中的数据字段名称;数据字段类型用于记录各个数据字段的数据类型,例如整型、字符型、日期型等;数据字段描述用于记录各个数据字段的简要描述信息,包括数据字段的含义、数据来源等;数据表间关系描述用于记录各个数据表之间的关系,例如一对多关系、多对多关系等。
在进行进一步的数据仓库建模前,需要对企业数据来源表进行分类。企业数据来源表具体包括第一企业数据来源表与第二企业数据来源表,识别获取到的企业数据来源表中的多值字段,将包含多值字段的企业数据来源表作为第一企业数据来源表,不包含多值字段的企业数据来源表作为第二企业数据来源表。
具体来说,企业数据来源表中的多值字段通常指的是一个数据字段中包含多个值的情况。在本申请一种可行的实施例中,对于多值字段的识别可以通过SQL查询工具进行,由于企业数据来源表通常以关系型数据库的形式体现,使用SQL查询语言可以查询和分析关系型数据库中的数据,例如使用字符串函数、正则表达式等函数来查找多值字段。在本申请另一种可行的实施例中,还可以通过NLTK、SpaCy等自然语言处理工具对各个企业数据来源表进行处理,通过自然语言处理技术对企业数据来源标准包含的数据字段进行文本分析,从而完成多值字段的识别。
同时,每个企业数据来源表还关联有一数据字典,数据字典是对企业数据仓库中的数据进行全面描述和定义的文档或数据库,包括数据表、字段、数据类型、数据格式、数据来源等信息,用于对企业数据来源表进行整体描述。
S3:根据业务需求信息确定多个数据主题域,并建立各数据主题域之间的业务逻辑关联;
具体的,根据业务需求信息描述的数据仓库的构建目的确定需要将企业数据来源表划分到的数据主题域,例如,在实际业务需求中,用户希望通过数据仓库对企业数据进行查询与分析,从而对企业数据对应的企业进行了解,那么则可以设定有与企业本身属性相关的多个数据主题域,在本申请一种可行的实施例中,数据主题域设置有工商信息、行业信息、工商变更、年报、投融资、法律、诉讼、专利、版权以及商标共10个,实际上,这些数据主题域的设置与业务需求模型中业务域的设置相互对应。
在确定完成数据主题域后,根据实际业务确定各个数据主题域之间的业务逻辑关联,业务逻辑关联即在实际业务过程中各个业务环节之间的关联关系。例如,工商变更主题域记录了企业在工商行政部门进行的各种变更信息,而工商信息主题域则记录了企业的基本信息和注册信息等,在实际业务过程中,工商变更以工商信息为基础,因此可以在工商信息主题域与工商变更主题域之间建立业务逻辑关联。
S4:将各企业数据来源表划分至对应的数据主题域;
具体的,提取各个企业数据来源表的来源表特征,提取各个数据主题域的数据主题特征,根据各个企业数据来源表的来源表特征与各个数据主题域的数据主题特征分别计算企业数据来源表与数据主题域之间的归属度,将企业数据来源表划分至与自身具备最高归属度的数据主题域中。
企业数据来源表的来源表特征用于对企业数据来源表进行描述,在本申请一种可行的实施例中,根据企业数据来源表中包含的数据字段提取企业数据来源表的来源表特征。在本申请另一种可行的实施例中,获取与企业数据来源表关联的数据字典,基于数据字典提取企业数据来源表的来源表特征。
同理,数据主题域的数据主题特征是对于数据主题域的描述,在本申请一种可行的实施例中,将数据主题域的主题域命名进行特征向量化,将向量化后的主题域命名作为数据主题域的数据主题特征。
对于一企业数据来源表,将其对应的来源表特征分别与各个数据主题域的数据主题特征进行特征相似度计算,将来源表特征与数据主题特征进行特征之间的相似度作为来源表特征对应的企业数据来源表与数据主题特征对应的数据主题域之间的归属度,选取归属度最高的数据主题域,将该企业数据来源表划分至与其自身具备最高归属度的数据主题域中。
来源表特征与数据主题特征均以文本型特征体现,对于文本型特征,可以使用编辑距离、Jaccard系数、TF-IDF等方法来计算特征之间的相似度,此外现有技术,在此不做赘述。
S5:对各数据主题域中的企业数据来源表进行处理,生成多张企业数据明细表;
具体的,在确定数据主题域并将企业数据来源表划分至对应的数据主题域后,对各数据主题域中的企业数据来源表进行处理,生成多张企业数据明细表。对于第一企业数据来源表,第一企业数据来源表中包含有多值字段,拆分第一企业数据来源表,得到与多值字段对应的多张第一企业数据明细表;对于第二企业数据来源表,直接将第二企业数据来源表转化为第二企业数据明细表。
第一企业数据明细表与第二企业数据明细表中只包含有单一字段,对于第一企业数据来源表的拆分,具体包括以下步骤:
步骤1:识别多值字段;
首先需要识别出数据来源表中包含多值字段的列,通常这些列中的数据是用分隔符分隔的多个数值或文本。
步骤2:拆分多值字段;
对于包含多值字段的列,可以将其拆分为多个列,每个列只包含一个数值或文本,同时为了保证数据的完整性,需要在拆分后的列中添加一个标识符,表示该列属于哪个多值字段,例如,“企业行业分类:农业;机械”。
步骤3:创建第一企业数据明细表;
拆分后的列可以组成一个新的第一企业数据明细表,该第一企业数据明细表中每一行表示一个多值字段对应的数值或文本,同时需要包含一个列,用于表示该多值字段所属的记录。
步骤4:使用外键关联;
在第一企业数据来源表和第一企业数据明细表之间,可以使用外键关联来建立关系,以便在数据分析中能够准确地处理多值字段。
步骤5:数据导入;
将拆分后的数据导入到新的第一企业数据明细表中,并更新第一企业数据来源表中相应的列,使用外键关联来保证数据的一致性。
S6:根据业务逻辑关联确定各企业数据明细表之间的数据逻辑关联;
具体的,以由业务需求信息推断的业务逻辑关系与各企业数据来源表之间的数据表间关系,建立各个企业数据明细表之间的数据逻辑关联。具体来说,各个企业数据明细表之间的数据逻辑关联包括主外键关系、一对多关系、多对多关系等逻辑关系,这些关系用于描述各个企业数据明细表之间的业务联系。
S7:根据各企业数据明细表与各企业数据明细表之间的数据逻辑关联建立企业数据仓库模型;
通过上述方案,完成了企业数据仓库中全部数据的组织方式与结构关系的设计,通过各企业数据明细表之间的数据逻辑关联建立维度表,以各企业数据明细表为明细表,实现企业数据仓库模型的建立。
参照图2,本申请还提供了一种基于企业数据的数仓建模系统,该系统具体包括以下模块:
业务需求信息获取模块201,用于获取业务需求信息;
企业数据来源表获取模块202,用于获取企业数据来源表,企业数据来源表包括有多张;
业务逻辑关联确定模块203,用于根据业务需求信息确定多个数据主题域,并建立各数据主题域之间的业务逻辑关联;
企业数据来源表划分模块204,用于将各企业数据来源表划分至对应的数据主题域;
企业数据明细表生成模块205,用于对各数据主题域中的企业数据来源表进行处理,生成多张企业数据明细表;
数据逻辑关联确定模块206,用于根据业务逻辑关联确定各企业数据明细表之间的数据逻辑关联;
企业数据仓库模型建立模块207,用于根据各企业数据明细表与各企业数据明细表之间的数据逻辑关联建立企业数据仓库模型。
需要说明的是:上述实施例提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置和方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请还公开一种电子设备300。参照图3,图3是本申请实施例的公开的一种电子设备300的结构示意图。该电子设备300可以包括:至少一个处理器301,至少一个网络接口304,用户接口303,存储器305,至少一个通信总线302。
其中,通信总线302用于实现这些组件之间的连接通信。
其中,用户接口303可以包括显示屏(Display)、摄像头(Camera),可选用户接口303还可以包括标准的有线接口、无线接口。
其中,网络接口304可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器301可以包括一个或者多个处理核心。处理器301利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器305内的指令、程序、代码集或指令集,以及调用存储在存储器305内的数据,执行服务器的各种功能和处理数据。可选的,处理器301可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器301可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器301中,单独通过一块芯片进行实现。
其中,存储器305可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器305包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器305可用于存储指令、程序、代码、代码集或指令集。存储器305可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方法实施例中涉及的数据等。存储器305可选的还可以是至少一个位于远离前述处理器301的存储装置。参照图3,作为一种计算机存储介质的存储器305中可以包括操作系统、网络通信模块、用户接口模块以及一种基于企业数据的数仓建模方法的应用程序。
在图3所示的电子设备300中,用户接口303主要用于为用户提供输入的接口,获取用户输入的数据;而处理器301可以用于调用存储器305中存储一种基于企业数据的数仓建模方法的应用程序,当由一个或多个处理器301执行时,使得电子设备300执行如上述实施例中一个或多个所述的方法。需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必需的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几种实施方式中,应该理解到,所披露的装置,可通过其他的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些服务接口,装置或单元的间接耦合或通信连接,可以是电性或其他的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储器305中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器305中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储器305包括:U盘、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述者,仅为本公开的示例性实施例,不能以此限定本公开的范围。即但凡依本公开教导所作的等效变化与修饰,皆仍属本公开涵盖的范围内。本领域技术人员在考虑说明书及实践真理的公开后,将容易想到本公开的其他实施方案。
本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未记载的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的范围和精神由权利要求限定。
Claims (10)
1.一种基于企业数据的数仓建模方法,其特征在于,所述方法包括以下步骤:
获取业务需求信息;
获取企业数据来源表,所述企业数据来源表包括有多张;
根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;
将各所述企业数据来源表划分至对应的数据主题域;
对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表;
根据所述业务逻辑关联确定各所述企业数据明细表之间的数据逻辑关联;
根据各所述企业数据明细表与各所述企业数据明细表之间的所述数据逻辑关联建立企业数据仓库模型。
2.根据权利要求1所述的基于企业数据的数仓建模方法,其特征在于,在对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表前,还包括对所述企业数据来源表的分类过程,所述分类过程具体为:
所述企业数据来源表包括第一企业数据来源表与第二企业数据来源表,识别全部所述企业数据来源表中的多值字段;
将包含所述多值字段的所述企业数据来源表作为所述第一企业数据来源表,不包含所述多值字段的所述企业数据来源表作为所述第二企业数据来源表。
3.根据权利要求2所述的基于企业数据的数仓建模方法,其特征在于,在对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表中,具体包括:
根据所述第一企业数据来源表中包含的所述多值字段对所述第一企业数据来源表进行拆分,得到多张第一企业数据明细表,所述第一企业数据明细表中仅包含有单一字段;
将所述第二企业数据来源表直接转化为第二企业数据明细表;
获取所述第一企业数据明细表与所述第二企业数据明细表,完成所述企业数据明细表的生成。
4.根据权利要求1所述的基于企业数据的数仓建模方法,其特征在于,在将各所述企业数据来源表划分至对应的数据主题域中,具体包括:
分别获取各所述企业数据来源表的来源表特征;
根据各所述来源表特征将各所述企业数据来源表划分至对应的所述数据主题域中。
5.根据权利要求4所述的基于企业数据的数仓建模方法,其特征在于,在分别获取各所述企业数据来源表的来源表特征中,具体包括:
根据各所述企业数据来源表中包含的数据字段提取各所述企业数据来源表的所述来源表特征。
6.根据权利要求4所述的基于企业数据的数仓建模方法,其特征在于,在分别获取各所述企业数据来源表的来源表特征中,具体包括:
获取各所述企业数据来源表关联的数据字典;
根据各所述企业数据来源表关联的所述数据字典提取各所述企业数据来源表的所述来源表特征。
7.根据权利要求4所述的基于企业数据的数仓建模方法,其特征在于,在根据各所述来源表特征将各所述企业数据来源表划分至对应的所述数据主题域中,具体包括:
获取各所述数据主题域的数据主题特征;
根据所述数据主题特征与所述来源表特征分别计算各所述数据主题域与各所述企业数据来源表之间的归属度;
将所述企业数据来源表划分至与自身具备最高所述归属度的所述数据主题域中。
8.一种基于企业数据的数仓建模系统,其特征在于,所述系统包括:
业务需求信息获取模块(201),用于获取业务需求信息;
企业数据来源表获取模块(202),用于获取企业数据来源表,所述企业数据来源表包括有多张;
业务逻辑关联确定模块(203),用于根据所述业务需求信息确定多个数据主题域,并建立各所述数据主题域之间的业务逻辑关联;
企业数据来源表划分模块(204),用于将各所述企业数据来源表划分至对应的数据主题域;
企业数据明细表生成模块(205),用于对各所述数据主题域中的所述企业数据来源表进行处理,生成多张企业数据明细表;
数据逻辑关联确定模块(206),用于根据所述业务逻辑关联确定各所述企业数据明细表之间的数据逻辑关联;
企业数据仓库模型建立模块(207),用于根据各所述企业数据明细表与各所述企业数据明细表之间的所述数据逻辑关联建立企业数据仓库模型。
9.一种电子设备,其特征在于,包括处理器(301)、存储器(305)、用户接口(303)及网络接口(304),所述存储器(305)用于存储指令,所述用户接口(303)和网络接口(304)用于给其他设备通信,所述处理器(301)用于执行所述存储器(305)中存储的指令,以使所述电子设备(300)执行如权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有指令,当所述指令被执行时,执行如权利要求1-7任意一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004562.9A CN117033346A (zh) | 2023-08-09 | 2023-08-09 | 一种基于企业数据的数仓建模方法、系统、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311004562.9A CN117033346A (zh) | 2023-08-09 | 2023-08-09 | 一种基于企业数据的数仓建模方法、系统、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117033346A true CN117033346A (zh) | 2023-11-10 |
Family
ID=88625752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311004562.9A Pending CN117033346A (zh) | 2023-08-09 | 2023-08-09 | 一种基于企业数据的数仓建模方法、系统、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117033346A (zh) |
-
2023
- 2023-08-09 CN CN202311004562.9A patent/CN117033346A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12056120B2 (en) | Deriving metrics from queries | |
CN112199366B (zh) | 数据表处理方法、装置及设备 | |
Zakir et al. | Big data analytics. | |
Karnitis et al. | Migration of relational database to document-oriented database: structure denormalization and data transformation | |
US8943059B2 (en) | Systems and methods for merging source records in accordance with survivorship rules | |
US9355145B2 (en) | User defined function classification in analytical data processing systems | |
US20090300043A1 (en) | Text based schema discovery and information extraction | |
US20160004757A1 (en) | Data management method, data management device and storage medium | |
CN113760891B (zh) | 一种数据表的生成方法、装置、设备和存储介质 | |
CN110795524B (zh) | 主数据映射处理方法、装置、计算机设备及存储介质 | |
JP2013517585A (ja) | データベース内の大容量コレクションオブジェクトテーブルにアクセスするための方法 | |
CN110928903A (zh) | 数据提取方法及装置、设备和存储介质 | |
US9652740B2 (en) | Fan identity data integration and unification | |
CN114741392A (zh) | 数据查询方法、装置、电子设备及存储介质 | |
CN115658680A (zh) | 数据存储方法、数据查询方法和相关装置 | |
US20200380022A1 (en) | Auto derivation of summary data using machine learning | |
CN118093632A (zh) | 基于大语言模型和图结构的图数据库查询方法和装置 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN115329011A (zh) | 数据模型的构建方法、数据查询的方法、装置及存储介质 | |
CN110704635B (zh) | 一种知识图谱中三元组数据的转换方法及装置 | |
CN112508119A (zh) | 特征挖掘组合方法、装置、设备及计算机可读存储介质 | |
WO2016119508A1 (zh) | 基于Spark系统的大规模对象识别方法 | |
US10877998B2 (en) | Highly atomized segmented and interrogatable data systems (HASIDS) | |
CN110941952A (zh) | 一种完善审计分析模型的方法及装置 | |
Isa et al. | Business Intelligence for Analyzing Department Unit Performance in eProcurement System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |