CN106095862B - 集中式可扩展融合型多维复杂结构关系数据的存储方法 - Google Patents
集中式可扩展融合型多维复杂结构关系数据的存储方法 Download PDFInfo
- Publication number
- CN106095862B CN106095862B CN201610390831.3A CN201610390831A CN106095862B CN 106095862 B CN106095862 B CN 106095862B CN 201610390831 A CN201610390831 A CN 201610390831A CN 106095862 B CN106095862 B CN 106095862B
- Authority
- CN
- China
- Prior art keywords
- data
- relational database
- extensible
- dimensional
- multidimensional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种用于构建集中式可扩展融合型多维复杂结构关系数据的存储方法,主要内容包括,制定数据传输接口格式、动态配置属性参数、构建多维数据集关系数据库、构建多维数据集关系数据库中的关系数据元祖模型、构建多维数据集关系数据库中的关系数据对象模型、构建维度可扩展的多维数据集关系数据库和构建可扩展融合型复杂结构关系的多维数据集关系数据库。本发明适合存储、分析和管理企业的大中小规模的复杂数据,为面向用户的企业级大数据集成平台提供有效和有质量保障的数据,并提供可扩展和可用的数据存储和访问技术,解决了半结构化、结构化和非结构化数据、小数据和大数据、实时数据和历史数据的入库和查询性能问题。
Description
技术领域
本发明属于企业级Web应用平台开发技术领域,特别涉及一种集中式可扩展融合型多维复杂结构关系的数据存储方法。
背景技术
数据存储不仅是企业级Web数据集成的基础,也是所有应用平台的重要构成部分。数据存储方式决定了应用平台对数据的访问和处理方式。不同的数据特点和用户对数据处理方式的不同需求,决定了数据存储模型的不同。合理的数据存储技术会从数据处理流的源头上保障企业级Web数据集成的可用性和扩展性。
传统的关系数据库存储技术经过了近40年的发展,早已成为了一种成熟的主流数据管理和分析技术,迄今为止,仍在不断地演进。关系数据库存储技术的主流应用包括联机分析处理(OLAP)应用、联机事物处理(OLTP)应用以及面向主题的数据仓库等。由于SQL语言的标准化,在访问关系数据库数据时,将其作为关系数据库的主要存取语言,且经过不断扩充和应用,其功能和表达能力已不断地增强。
但是在胜任大数据分析任务方面,关系数据库存储技术在扩展性和可用性方面遇到了很大的障碍。Tony Bain在2009年的论文中就探讨过关系数据库的末日是否己经来临的问题(T.BAIN,1s the relational database doomed,2009.http://www.readwriteweb.com/enterPrise/2009/02/is-the-relational-database-doomed.PhP.)。该文献指出关系数据库在伸缩性上会遇到一些挑战,尤其是在高负荷环境中,如Web Services发布应用程序时,应用程序对数据库的伸缩性需求会十分明显。而且,现有关系数据库要在实际的系统中应用,才能表述出真正的逻辑关系内涵。否则,如果关系数据库脱离了系统应用,就数据库而言,没有任何价值。
web技术的发展以及XML语言的出现,导致关系模型扩展、对象模型及相关技术融合关系数据库、多维关系数据库等第三代数据库技术应运而生。为了更加适合用户和开发者的真实需求,其中,多维关系数据库中的多维数据模型可以使数据的建模更加简单,且极大地缩短了执行复杂关系数据处理的时间,可将关系数据库中需要建立的许多表格的数据看做是存放在一个“立方体”中,这个“立方体”有很多“面”,这些“面”将数据进行分类和相互映射,可以快速获取数据,并且清除了冗余的数据。关系模型扩展是指在关系数据库基础上,以二维关系来表示数据的多维概念的模型。面向对象模型由于其模块化和强大的内部操作能力,简化了应用程序的维护和升级,可以有效地提高开发人员的生产率。第三次变革的数据库技术代表,如1997年出现的InterSystems公司的Cache,它利用多维数据模型来描述数据之间的关系,是传统的关系数据库的扩展,突破了传统关系数据库的局限,适合Client/Server环境下的突发大负载的情况。
但是,第三代数据库,如面向对象的关系数据库,虽然其理论完美,但其系统的市场发展并不理想,主要原因在于,第三代数据库产品的设计思想是想用新型数据库系统来取代现有的数据库系统,这对多年来一直运用传统数据库并积累了大量数据的用户而言,无法承受由于新旧数据间的转换而导致的巨大工作量及费用。
新一代数据库技术是在大数据的环境下,为满足面向用户和面向应用领域开发的需求而出现的,是数据库系统发展的第四次大的变革。它是SQL(Structured QueryLanguage)和NoSQL技术融合的产物,而不仅只是NoSQL数据库或代表关系数据库的SQL数据库,是将NoSQL技术的优点融入到关系数据库中,形成了称之为NewSQL的数据库。NoSQL数据模型的思想:关系数据模型主要分析数据间的结构和关系,其设计理念是“面向答案”;NoSQL数据模型是对数据的存取方式着手,其设计理念是“面向问题”。NoSQL数据模型在设计时,对比关系数据模型,需要对数据结构和算法有更深的理解。将二者相互融合为NewSQL模型,可以适应新的数据环境和用户需求,可以解决大数据的结构化、半结构化和非结构化的复杂数据结构关系问题。NewSQL存储管理技术中的NoSQL和关系数据库管理技术是相互补充的关系,NewSQL既实现了NoSQL的核心特性,也实现了关系数据库的支持SQL或ACID(Atomicity,Consistency,Isolation,Durability)特性,且具有可配置的持久化机制。
当前,NewSQL数据库的代表如Facebook、MapReduce与RDBMS(关系数据库管理系统)的融合及Hive(基于Hadoop的一个数据仓库工具)。Facebook(一个社交网络服务网站)数据分析系统就是一个典型的NewSQL数据库范例,海量的数据迫使Facebook使用新的数据处理架构。在Facebook系统中,关系数据库系统负责OLTP类的事务处理,Hive系统进行重要的分析处理。经过Hive系统的分析和聚集的数据结果,可以重新注入关系数据库系统中。MapReduce(一种用于大规模数据集并行运算的编程模型)与RDBMS的融合是对MapReduce与RDBMS的混合技术研究,由于关系数据库和MapReduce技术各有优缺点,如何融合关系数据库和MapReduce技术,设计同时具备两者优点的技术架构,既有MapReduce的高度扩展性和容错性,又有RDBMS的高性能,也是大数据分析技术的研究趋势。
在企业级Web应用平台开发技术领域,企业级Web应用平台系统的数据处理流程技术和企业对数据存储、分析和管理的实际需求,是影响企业级Web数据存储技术模型设计和构建的两个主要因素。首先,企业级Web应用平台系统的数据处理是对SOA(ServiceOriented Architecture)架构下的结构化、半结构化和非结构化混合大中小型数据进行处理,其面向服务的数据处理流程技术与传统的数据处理流程技术有较大的差异;其次,当企业数据的来源不断增加,复杂的数据来源,会导致数据类型持续增多,产生复杂的“结构化”、“半结构化”和“非结构化”混合式大中小型多维度数据类型。因而,传统的小规模数据存储技术已经不能适应当前企业级数据的研究和应用。再者,对复杂结构的多维大数据的有效数据存储模式的研究也一直是当前国内外研究的热点和重要课题之一。
综观当前国内外研究的进展与成果,在企业级Web应用平台开发技术领域的数据存储技术部分,复杂结构的多维大中小型关系数据的存储技术研究中还存在着以下明显的问题及亟待解决的技术难点:
(1)中小数据的实时在线处理,大数据的历史查询和分析处理。
(2)结构化、半结构化和非结构化数据的处理。
(3)可变化的层次结构多维度处理。
(4)可自定义面向用户和面向主题的历史数据查询。
(5)面向用户的可动态新增、删除和变更维度和主题的处理;可扩展性维度及维度在B/S(Browser/Server)结构下能层次树状显示。这既是企业用户的迫切需求,也一直是企业级多维应用软件扩展性的瓶颈之一。
(6)仅使用传统的数据存储管理模式——关系数据模式已经不能胜任对高度稀疏和高维度复杂数据的分析工作,而企业大数据通常是高度稀疏和高维度的。
为了适应新环境的发展,需要研究新的数据存储与处理方法,开发新的数据存储与处理技术。
发明内容
针对现有企业级Web应用平台开发技术领域中数据存储技术所存在的问题,本发明的目的旨在提供一种集中式可扩展融合型多维复杂结构关系数据的存储方法,以满足对企业中高度稀疏和高维度的复杂大数据进行分析工作的迫切需求。
本发明的方法是利用数据库技术和Web技术相结合来构建企业级Web数据集成的数据存储中心,基本内容概括起来主要包括五个方面,一是多维数据集关系数据库构建方法;二是NoSQL思想和技术;三是关系数据对象模型的构建方法;四是维度的可扩展性设计方法;五是建立原型系统框架。
本发明的目的可通过采用由以下技术措施构成的技术方案来实现。本发明提出的集中式可扩展融合型多维复杂结构关系数据的存储方法,运行实施于计算机运行的企业级Web应用平台软件系统的客户端、服务器和数据库的三层结构中,其方案主要包括以下步骤:
(1)制定数据传输接口格式:制定所需集成的异构数据库数据、本系统结构的实时数据和历史数据进入多维数据集关系数据库的接口格式,制定多维数据集关系数据库与企业级Web应用平台原型软件系统客户端界面之间数据的存储与访问的格式;
(2)动态配置属性参数:在由计算机运行的企业级Web应用平台原型软件系统的交互界面,动态配置多维数据集关系数据库所需的属性参数;
(3)构建多维数据集关系数据库:为了在由计算机运行的企业级Web应用平台软件系统客户端,以层次化结构展现多维数据,如n维,对系统数据库的设计。即采用关系数据库技术,结合多维数据集技术,以“基础数据表”为中心,采用维度表关联“基础数据表”的雪花型结构,构建多维数据集关系数据库;
(4)构建多维数据集关系数据库中的关系数据元祖模型:在多维数据集关系数据库中,将来源于客户端计算机的已经清洗过的结构化元数据,按照数据库规范化理论设计后,得到完整的实体数据,再将这些实体数据存储到维度可扩展的多维数据集关系数据库中多个表的元组中去,这些表是面向存储的元组级别的关系数据模式表,如此组成多维数据集关系数据库中的关系数据元祖模型;
(5)构建多维数据集关系数据库中的关系数据对象模型:在多维数据集关系数据库中,针对来源于客户端计算机已经清洗过的半结构化和非结构化数据,经过客户端、服务器和数据库的访问和处理,用关系数据对象模型的构建方法,生成多维数据集关系数据库中的关系数据对象模型;
(6)构建维度可扩展的多维数据集关系数据库:在多维数据集关系数据库中,设计逻辑上的由“维度”、“维度成员”和“维度连接中间表”三部分组成的维度管理模块,以维度可扩展性方法,构建维度可扩展的多维数据集关系数据库;
(7)构建可扩展融合型复杂结构关系的多维数据集关系数据库:在维度可扩展的多维数据集关系数据库的关系数据元组模型中,对结构化数据的处理,采用SQL技术,用SQL语言编写代码;对半结构化和非结构化数据的处理,采用NoSQL思想,用SQL语言编写“嵌套集合”算法代码,实现NoSQL的通用数据建模技术。利用SQL和NoSQL技术,经过客户端、服务器和数据库的访问和处理,生成可扩展融合型复杂结构关系的多维数据集关系数据库;
(8)充实和完善关系数据存储系统:反复进行(1)至(7)的步骤,不断充实和完善企业级Web应用平台软件系统中所建立的集中式可扩展融合型多维复杂结构关系数据存储系统,至达到企业对数据的完整性要求、面向用户和主题的数据存储和查询、半结构化和非结构化数据的客户端的层次结构展现和动态修改维度和主题等的目的。
本发明进一步的技术方案,构建好的可扩展融合型复杂结构关系的多维数据集关系数据库,最好通过计算机运行的企业级Web应用平台软件系统的用户应用界面,使用至少包括录入、查询、审核、主题或指标动态配置的功能,对在计算机运行的企业级Web应用平台软件系统中的所建立的集中式可扩展融合型多维复杂结构关系数据存储系统管理中心进行应用验证。
在本发明的上述技术方案中,步骤(4)中所述来源于客户端计算机的结构化元数据最好是已经清洗过的结构化元数据,以减少数据的冗余。
在本发明的上述技术方案中,在步骤(5)中优先采用下述方法对客户端、服务器和数据库进行访问和处理:在服务器中,通过嵌套集合算法,生成对象图,将对象图保存到计算机运行的企业级Web应用平台软件系统的维度可扩展多维数据集关系数据库表中;在客户端运行的计算机,经服务器端对数据库进行访问,取出数据库中的相关模型数据后至服务器中,用堆栈方法将数据生成对象图,再将此对象图经过转换为JSON格式保存,再传送至客户端;最后运行的客户端计算机,通过解析接收的JSON格式文件,装载到界面显示出树状层次数据。
在本发明的上述技术方案中,在步骤(6)中优先采用将Web应用系统中所有维度以表的行记录方式保存到多维数据集关系数据库的维度管理模块中,并利用“嵌套集合”模型算法来实现维度管理模块的维度信息的层次结构存储和访问,形成维度的可扩展性方法,构建维度可扩展的多维数据集关系数据库。
本发明提供的集中式可扩展融合型多维复杂结构关系数据的存储方法,基于NoSQL与面向对象的建模技术所构建的关系数据对象模型及其结果,构成了多维关系数据库中的层次对象模型,以关系数据元组模型为主,以关系数据对象模型为补充,共同构建本发明模型,弥补了传统关系数据模型的缺陷,使得本发明更加适合用来构建SOA架构下的数据存储及管理中心。本发明所具有的优点和技术效果主要体现在以下方面:
(1)是个集中式多维数据存储模型,适合企业的大中小规模的数据存储、分析和管理。
(2)发明方法的核心思想是采用多维数据集关系数据模型、数据仓库模型和NoSQL思想及技术三者结合共同创建可扩展的融合型多维数据存储管理中心。“集中式可扩展融合型多维复杂结构关系数据的存储方法”是企业级Web大数据集成的数据存储管理中心构建的关键模型方法,据“集中式可扩展融合型多维复杂结构关系数据的存储方法”建立的数据存储及管理中心,实现了面向用户,而不仅是面向存储的需求。
(3)多维数据集关系数据库与数据仓库的融合技术。该融合技术将企业中的实时在线数据集成到多维数据集关系数据库,用“一致性”原则满足企业数据的唯一性要求;将历史数据集成到数据仓库中,便于海量数据的统计、计算和查询,提升了海量数据的查询效率。
(4)多维数据集关系数据库设计方法。发明中涉及的多维数据集关系数据模型在逻辑上组合应用关系数据元组模型和关系数据对象模型,用于解决企业中结构化、半结构化和非结构化数据的存储和可变的层次结构展现问题。
(5)将NoSQL技术的嵌套集合算法改进后设计和实现维度的可扩展性方案。在嵌套集合算法中增加“成员路径”参数,记录各节点所在树中的位置,查找和插入节点时能避免循环嵌套,可以将时间复杂度从原来的O(n)降到O(1),极大地提高了查询效率。
(6)设计关系数据对象模型的构建方法和技术,并给出了其算法实现。
附图说明
图1是多维数据集关系数据库设计框图。
图2是多维数据集关系数据模型图。
图3是关系数据对象模型的研究框架图。
图4是可扩展融合型数据存储模型框图。
图5是改进型雪花型结构模型例图。
图6是基于EJB(Enterprise Java Beans)融合型架构下的数据存储管理中心图。
图7是层次结构的集合关系及其树形结构图。
图8是原型系统功能模块图。
图9是原型系统界面指标录入图。
图10是原型系统界面指标审核图。
图11是原型系统指标查询数据图。
图12是原型系统指标查询图表图。
图13是原型系统指标动态配置图。
图14是原型系统新增“数量维度”的维度成员“数值维度测试OOO”例图。
图15是JSON格式文件图
具体实施方式
为了更清楚的理解本发明,以下对发明的详细内容、并结合附图和发明人依本发明的技术方案完成的实例对本发明作进一步的详细论述。
1、构建多维数据集关系数据库
针对企业级Web数据存储管理中实际需求,既能存储中小型多维实时数据,又能多维钻取、查询和分析海量历史数据,还要面向主题的多维度查询的问题,本发明提出构建多维数据集关系数据库来解决该需求。本发明通过利用现有的关系数据库来设计多维数据集和维度,采用关系数据库技术结合多维数据集技术,构建多维数据集关系数据库,可以实现“一对多”和“多对多”关系,来清晰地表达多维概念。将关系数据库作为基础,在关系数据库中设计多维数据模型,并将维度和“基础数据表”的数据以行记录形式存放在关系数据库中的二维表中,构建以“基础数据表”为中心,维度表关联“基础数据表”的雪花型结构。本发明采用雪花型结构来去除数据的冗余。数据虽然存放于二维关系表结构中,但是维度表与“基础数据表”间的雪花型结构使数据逻辑上的关系是n维立体的,即用雪花结构将n维的数据降维平铺在一个平面上,数据在被访问读出时,又将平面上的雪花结构关联数据抽象出来,升维还原为n维数据,送到服务器中待被处理。处理n维数据的工作在服务器端完成,通过构建n维数组来保存n维数据,再用JSON(基于JavaScript语言的轻量级的数据交换格式)格式文件记录和封装n维数组及其数据,传送至客户端,解析JSON格式文件,就可以将n维数据以层次化结构展现出来。如此,本发明设计了多维数据集关系数据库的构建方法。
多维数据集关系数据库设计框图如图1。
所述多维数据集关系数据模型应满足如下要求:
(1)主要存储和管理实时数据,“基础数据表”用“一致性”原则保证数据的唯一性,满足企业对实时数据的完整性需求。
(2)能处理主流的结构化数据和非主流的层次结构数据。
(3)能管理数据仓库的数据。
(4)采用多维数据集技术和关系数据管理技术,基础数据表与维度表之间的结构以雪花型结构实现。
(5)通过逻辑上的维度管理模块,在客户端就可以实现面向用户的维度新增、变更和删除功能操作,而不必更改源代码和数据库表结构。
多维数据集关系数据模型如图2所示。
2、构建关系数据元组和对象模型
针对企业级Web应用平台软件系统面向用户而不仅是面向存储、层次结构数据的存储和树形展现的需求,在维度可扩展的多维数据集关系数据库中,在数据库的关系数据元组模型基础上,从面向用户角度来研究关系数据模式,以对象的观点来研究关系数据和构建关系数据模型,设计关系数据对象模型的构建方法。在关系数据库上增加对象级别的关系数据建模,以作为关系数据库上元组级别的关系数据建模的补充。
本发明的关系数据对象模型分两步构成。首先,保存层次结构数据到数据库。将来源于客户端的已经清洗过的元数据,在服务器中,按照嵌套集合算法,进行预排序处理,生成节点左右界加权的对象图,接着创建对象索引,最后将关系数据对象集合保存到数据库表中。其次,由客户端的查询或装载事件触发请求,经服务器端对数据库进行访问;取出数据库中的相关模型数据后,在服务器中,将数据用堆栈方法生成对象图,再将对象图封装,转换为JSON格式,其目的是保存具有多维数组的对象图,然后将封装好的数据传送至客户端;在客户端,接收JSON格式的数据对象图后,解析接收的JSON格式文件,还原成一棵树状层次数据,装载到界面显示出来,或者供用户按照先序遍历算法进行搜索,查询节点。
关系数据对象模型的研究框架图如图3所示。
3、维度的可扩展性设计方法
针对企业级Web应用平台软件系统的面向用户的多维度扩展性需求问题,发明维度可扩展性设计方法。在多维数据集关系数据库构建的基础上,该方法是一改进型雪花结构模型的构建方法。即通过设计逻辑上的维度管理模块,由“维度”、“维度成员”和“维度连接中间表”三部分组成。首先,将Web应用系统中所有维度都放到维度管理模块中,改变每个具体的维度在数据库表中以列字段枚举方式存在,而是以表的行记录方式保存。这样,我们可以随时增加和删除表的行记录来增添和删减维度,而不会影响表的结构更改。其次,用关系数据对象模型来设计和构建维度管理模块,利用改进的NoSQL的通用数据建模技术——“嵌套集合”模型算法来实现维度管理模块的维度信息的层次结构存储和访问。
设计的可扩展性维度的方案,可以实现两种功能。一是可以在客户端由用户直接进行增添和删除维度功能,而不必修改数据库和程序代码;二是维度在B/S结构下能层次树状显示,以便于下拉选择维度成员节点和查询分析时快速查找节点。用关系数据对象模型来设计和构建维度管理模块,本文用改进的NoSQL的通用数据建模技术——“嵌套集合”模型算法来实现维度管理模块的维度信息的层次结构存储和访问。嵌套集合模型特别适合层次结构中节点类型经常变化的系统。
可扩展融合型数据存储模型如图4所示。
改进型雪花型结构模型如图5所示。
4、集中式可扩展融合型多维复杂结构关系数据存储系统的应用型框架
在上述原理、方法研究的基础上,本发明基于EJB融合型架构下,设计和构建了可扩展融合型多维复杂结构关系数据存储系统的一个集中式应用型框架,组成了企业级Web应用平台原型软件系统的存储管理中心部分,实现可扩展融合型多维复杂结构关系数据存储方法的结构化、半结构化和非结构化数据的存储和可变的层次结构展现、维度可扩展、面向用户和主题的历史数据查询等功能。
基于EJB融合型架构下的数据存储管理中心,如图6所示。
实施例
发明人基于相关的系统架构设计、其他关键技术、本发明上述所论述的理论、方法、算法和编程技术,开发了一个企业级Web应用平台原型软件系统——“经济金融信息决策管理系统”,该原型软件系统的数据存储模块部分的功能实现是以本发明所论述的理论、方法和算法来实现的。
以经济指标为例,关心的经济指标大致如下:
表 经济指标
主题的设定:
由用户自己定义,通过配置主题下所涉及的相关指标,便可成功得到所需主题数据。
在以上16个指标中,对GDP(Gross Domestic Product)指标而言,它是由16个门类构成(其中16个门类又由98个大类组成),所以,本系统可以将GDP也作为“GDP主题”来查询;将其16个门类或90多个大类指标再加上GDP(现价)增速累计指标作为该主题涉及的相关内容。
再例如,想自定义一个“四川企业压力主题”,其中包含的指标大致有:GDP(第二产业)、工业增加值、工业对GDP的贡献率等,通过配置界面配置后,立刻就会得到“企业压力主题”包含内容的所有信息,还可给出同比、环比、占比、增速等数据,并辅以图表展示,直观、有效。
原型系统数据存储模块设计如下面步骤:
(1)原型系统数据存储模块中数据获取和传输交互界面设计
原型系统数据存储模块中数据获取和传输交互界面如图9所示。主要包含功能菜单区、窗体数据显示区、窗体数据显示区的操作控件如输入框、按钮等功能数据区。其中功能菜单区提供各种功能的树形层次结构展示;功能数据区的按钮为用户提供了各类确定性功能操作如查询、删除、保存数据等,其他控件如录入框、GRID(网格)等控件则为数据的获取、缓存和传输提供了界面交互接口,并通过上述控件来动态配置原型系统所需的属性参数。
(2)构建多维数据集关系数据库
在关系数据库基础上实现了多维数据模型,且将关系数据库的数据清洗转化为数据仓库中的数据,并通过多维数据关系数据库管理数据仓库。
多维数据模型(雪花型结构)关系数据库设计的特色在于:
特点一是既可以实现和满足用户的复杂需求——将各部门独立的、纵向的经济金融数据横向地综合汇集,便于使用者分析决策时对多部门数据同时选取、统计和对比;而且,该行业数据量大,且维度(地区、机构等)和指标(GDP、汇率等)是可变化的,需要新增或更改。
特点二是又可以在关系数据库基础上,通过清洗关系数据库中的数据进入数据仓库的事实表中,便于利用Cognos(在商业智能核心平台上,以服务为导向进行架构的一种数据模型)平台的数据分析手段,提供不同维度,不同度量的数据分析展示,也可以实现按任意维度进行所需数据的钻取功能。
(3)构建关系数据元组模型
对不需要分层的结构数据,如GDP、汇率等,经过数据库规范化理论设计,得到完整的实体数据,将这些数据存储到关系数据库元组级别关系数据模式中多个表的多个元组中去,组成关系数据库中的关系数据元祖模型。
(4)构建关系数据对象模型
对要以树形结构分层的非结构和半结化数据,如指标主题、维度及成员,的存储采用关系数据对象模型构建方法—嵌套集合模型。对指标主题、维度及成员等要分层的树形结构数据的存储采用嵌套集合模型,其优点为:
(A)使系统趋于形成在关系模型中融合面向对象的数据结构。
(B)DB2(美国IBM公司开发的一套关系型数据库系统)数据库使用SQL语言,SQL本身就是一种面向集合的语言。
(C)便于更好和高效率地检索整个分类表。
对比邻接表模型,搜索整个树形时邻接表模型需要为每层添加一个自连接,随着层的增加,自连接变得越来越复杂,检索性能自然下降,而嵌套集合模型,不再是线与点了,是集合,可以不用多个自连接就可以检索出所需路径,而且,检索所有叶子节点,其方法比邻接表模型的left join(左连接)方法简便多了,当然检索效率被大大地提高了。再者,实际需求是树的层次深度可能很大,数据信息量庞大。综合以上优点和实际需求,数据库系统设计对指标主题、维度及成员等要分层的树形结构数据的存储采用嵌套集合模型。
层次结构的集合关系和层次结构的树形结构,如图7所示。
(5)维度的可扩展性设计
为了解决用户实际需求—维度和指标是可变化的,需要新增或更改设计。采用本发明的维度可扩展性设计方法,将指标、维度的存储设计从常规字段模式变为新的记录关联模式来适应面向用户的实际需求。数据库关系表的这一功能设计,使得系统在数据库层就具备可以开发动态新增或更改指标维度的基础。用户在原型系统的交互界面就可以自定义主题,自主选择“主题”下包含的指标,实现“主题”的动态构成。
经过步骤(1)至(5),就完成了集中型可扩展融合型复杂结构关系的多维数据集关系数据库的构建工作。
(6)功能模块设计
运行的原型系统的用户应用界面,使用其录入、查询、审核、主题或指标动态配置等功能,可以体现原型系统中据本发明所论述的理论、方法和算法研发的数据存储模块部分的功能实现。原型系统界面功能分别如下图所示。其中,原型系统功能模块如图8所示,原型系统界面指标录入如图9所示,原型系统界面指标审核如图10所示,原型系统指标查询数据如图11所示,原型系统指标查询图表如图12所示,原型系统指标动态配置如图13所示,原型系统新增“数量维度”的维度成员“数值维度测试000”如图14所示。
Claims (5)
1.一种集中式可扩展融合型多维复杂结构关系数据的存储方法,其特征在于包括以下步骤:
(1)制定数据传输接口格式
制定所需集成的异构数据库数据、本系统结构的实时数据和历史数据进入多维数据集关系数据库的接口格式,制定多维数据集关系数据库与企业级Web应用平台原型软件系统客户端界面之间数据的存储与访问的格式;
动态配置属性参数:在由计算机运行的企业级Web应用平台原型软件系统的交互界面,动态配置多维数据集关系数据库所需的属性参数;
(2)构建多维数据集关系数据模型
为了满足企业对实时数据的完整性需求,为了满足面向用户的可动态新增、删除和变更维度的处理以及可自定义面向用户和面向主题的数据查询需求,构建多维数据集关系数据库:采用关系数据库技术,结合多维数据集技术,以“基础数据表”为中心,采用维度表关联“基础数据表”的改进型雪花型结构,构建多维数据集关系数据库;
为了满足企业对实时数据的完整性和结构化数据的处理需求,构建多维数据集关系数据库中的关系数据元祖模型:在多维数据集关系数据库中,将来源于客户端计算机的已经清洗过的结构化元数据,按照数据库规范化理论设计后,得到完整的实体数据,再将这些实体数据存储到维度可扩展的多维数据集关系数据库中多个表的元组中去,这些表是面向存储的元组级别的关系数据模式表; 如此,组成多维数据集关系数据库中的关系数据元祖模型;
为了满足企业对实时数据的完整性、半结构、非结构化数据的处理需求,为了满足可变化的层次结构多维度处理以及面向用户的可动态新增、删除和变更维度的处理需求,构建多维数据集关系数据库中的关系数据对象模型:在多维数据集关系数据库中,针对来源于客户端计算机已经清洗过的半结构化和非结构化数据,经过客户端、服务器和数据库的访问和处理,用关系数据对象模型的构建方法,生成多维数据集关系数据库中的关系数据对象模型;
(3)构建可扩展融合型复杂结构关系的多维数据集关系数据模型
为了满足企业对实时数据的完整性需求,为了满足面向用户的可动态新增、删除和变更维度的处理需求,构建维度可扩展的多维数据集关系数据库:在多维数据集关系数据库中,设计逻辑上的由“维度”、“维度成员”和“维度连接中间表”三部分组成的维度管理模块,以维度可扩展性方法,构建维度可扩展的多维数据集关系数据库;
为了满足企业对实时数据的完整性需求,为了满足可变化的层次结构多维度处理以及面向用户的可动态新增、删除和变更维度的处理需求,构建可扩展融合型复杂结构关系的多维数据集关系数据库:在维度可扩展的多维数据集关系数据库的关系数据元组模型中,对结构化数据的处理,采用SQL技术,用SQL语言编写代码;对半结构化和非结构化数据的处理,采用NoSQL思想,用SQL语言编写改进的“嵌套集合”算法代码,实现NoSQL的通用数据建模技术; 利用SQL和NoSQL技术,经过客户端、服务器和数据库的访问和处理,生成可扩展融合型复杂结构关系的多维数据集关系数据库;
(4)充实和完善关系数据存储系统
反复进行(1)至(7)的步骤,不断充实和完善企业级Web应用平台软件系统中所建立的集中式可扩展融合型多维复杂结构关系数据存储系统,至达到企业对数据的实时性完整性要求、面向用户和主题的数据存储和查询、半结构化和非结构化数据的客户端的层次结构展现和动态修改维度和主题等的目的。
2.根据权利要求1所述的集中式可扩展融合型多维复杂结构关系数据的存储方法,其特征在于,通过计算机运行的企业级Web应用平台软件系统的用户应用界面,使用至少包括录入、查询、审核、主题或指标动态配置的功能,对在计算机运行的企业级Web应用平台软件系统中的所建立的集中式可扩展融合型多维复杂结构关系数据存储系统管理中心进行应用验证。
3.根据权利要求1或2所述的集中式可扩展融合型多维复杂结构关系数据的存储方法,其特征在于,在步骤(5)中,经过下述方法对客户端、服务器和数据库进行访问和处理:在服务器中,通过嵌套集合算法,生成对象图,将对象图保存到计算机运行的企业级Web应用平台软件系统的维度可扩展多维数据集关系数据库表中;在客户端运行的计算机,经服务器端对数据库进行访问,取出数据库中的相关模型数据后至服务器中,用堆栈方法将数据生成对象图,再将此对象图经过转换为JSON格式保存,再传送至客户端;最后运行的客户端计算机,通过解析接收的JSON格式文件,装载到界面显示出树状层次数据。
4.根据权利要求1或2所述的集中式可扩展融合型多维复杂结构关系数据的存储方法,其特征在于,在步骤(6)中,采用将Web应用系统中所有维度以表的行记录方式保存到多维数据集关系数据库的维度管理模块中,并利用改进的“嵌套集合”模型算法来实现维度管理模块的维度信息的层次结构存储和访问,形成维度的可扩展性方法,构建维度可扩展的多维数据集关系数据库。
5.根据权利要求3所述的集中式可扩展融合型多维复杂结构关系数据的存储方法,其特征在于,在步骤(6)中,采用将Web应用系统中所有维度以表的行记录方式保存到多维数据集关系数据库的维度管理模块中,并利用“嵌套集合”模型算法来实现维度管理模块的维度信息的层次结构存储和访问,形成维度的可扩展性方法,构建维度可扩展的多维数据集关系数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610390831.3A CN106095862B (zh) | 2016-06-02 | 2016-06-02 | 集中式可扩展融合型多维复杂结构关系数据的存储方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610390831.3A CN106095862B (zh) | 2016-06-02 | 2016-06-02 | 集中式可扩展融合型多维复杂结构关系数据的存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106095862A CN106095862A (zh) | 2016-11-09 |
CN106095862B true CN106095862B (zh) | 2020-11-17 |
Family
ID=57447606
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610390831.3A Expired - Fee Related CN106095862B (zh) | 2016-06-02 | 2016-06-02 | 集中式可扩展融合型多维复杂结构关系数据的存储方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106095862B (zh) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106528810B (zh) * | 2016-11-18 | 2021-07-13 | 党玉龙 | 一种融合异构数据便于快速大数据分析的方法 |
CN110019109B (zh) * | 2017-07-12 | 2021-05-25 | 北京京东尚科信息技术有限公司 | 用于处理数据仓库数据的方法及装置 |
CN107391744B (zh) * | 2017-08-10 | 2020-06-16 | 东软集团股份有限公司 | 数据存储、读取方法、装置及其设备 |
CN107967369B (zh) * | 2017-12-29 | 2021-07-23 | 北京酷我科技有限公司 | 一种缓存中数据转换为数组结构的方法 |
CN109284435B (zh) * | 2018-03-28 | 2020-05-26 | 北京航空航天大学 | 面向互联网的用户交互痕迹捕获、存储和检索系统及方法 |
CN108875038A (zh) * | 2018-06-27 | 2018-11-23 | 南京南瑞继保电气有限公司 | 关系数据库数据下装到层次结构实时数据库的方法及系统 |
US20210191929A1 (en) * | 2018-08-23 | 2021-06-24 | Siemens Aktiengesellschaft | Method, device and system for forming fusion model, medium, processor and terminal |
CN109213820B (zh) * | 2018-08-30 | 2021-10-22 | 成都索贝数码科技股份有限公司 | 一种实现多种类型的数据库融合使用的方法 |
CN109753590A (zh) * | 2018-12-07 | 2019-05-14 | 中国银行业监督管理委员会福建监管局 | 一种查询关联信息的方法及终端 |
CN110109654A (zh) * | 2019-05-15 | 2019-08-09 | 中山大学 | 一种多维数据分析系统界面的交互设计方法及系统 |
CN110825744B (zh) * | 2019-10-31 | 2023-06-20 | 武汉工程大学 | 一种基于集群环境的空气质量监测大数据分区存储方法 |
CN111897824A (zh) * | 2020-03-25 | 2020-11-06 | 上海云励科技有限公司 | 数据操作方法、装置、设备和存储介质 |
CN112286929B (zh) * | 2020-06-08 | 2022-04-05 | 上海柯林布瑞信息技术有限公司 | 多维数据集的生成方法及装置、计算机可读存储介质 |
CN112256667B (zh) * | 2020-09-16 | 2024-03-22 | 珠海市新德汇信息技术有限公司 | 多生物特征归一方法 |
CN112418802B (zh) * | 2020-11-25 | 2024-02-09 | 珠海市呼呼网络科技有限责任公司 | 一种实现工程项目基础数据四维翻转的数据架构方法 |
CN113722549B (zh) * | 2021-09-03 | 2022-06-21 | 优维科技(深圳)有限公司 | 一种基于图的数据状态融合存储系统及方法 |
CN114547160B (zh) * | 2022-01-06 | 2023-02-03 | 华能威海发电有限责任公司 | 一种应用于电力并网的涉外数据子站整合系统 |
CN115905315A (zh) * | 2022-11-08 | 2023-04-04 | 北京德塔精要信息技术有限公司 | 多类型数据的融合处理方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111835A (zh) * | 2004-11-30 | 2008-01-23 | 科格洛斯公司 | 多维企业软件系统中的自动默认维度选择 |
CN102650995A (zh) * | 2011-02-25 | 2012-08-29 | 中国银联股份有限公司 | 多维数据分析模型生成系统及方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020029207A1 (en) * | 2000-02-28 | 2002-03-07 | Hyperroll, Inc. | Data aggregation server for managing a multi-dimensional database and database management system having data aggregation server integrated therein |
US20120101860A1 (en) * | 2010-10-25 | 2012-04-26 | Ezzat Ahmed K | Providing business intelligence |
-
2016
- 2016-06-02 CN CN201610390831.3A patent/CN106095862B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101111835A (zh) * | 2004-11-30 | 2008-01-23 | 科格洛斯公司 | 多维企业软件系统中的自动默认维度选择 |
CN102650995A (zh) * | 2011-02-25 | 2012-08-29 | 中国银联股份有限公司 | 多维数据分析模型生成系统及方法 |
Non-Patent Citations (2)
Title |
---|
数据仓库、OLAP 和数据挖掘在商业智能中的应用研究;徐玉鹏;《中国优秀硕士学位论文全文数据库信息科技辑》;20120215 * |
消费金融业数据仓库和风险分析的研究和应用;赵敏杰;《中国优秀硕士学位论文全文数据库信息科技辑》;20101115;32页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106095862A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106095862B (zh) | 集中式可扩展融合型多维复杂结构关系数据的存储方法 | |
US11176132B2 (en) | Processing database queries using format conversion | |
Chebotko et al. | A big data modeling methodology for Apache Cassandra | |
CN108038222B (zh) | 用于信息系统建模和数据访问的实体-属性框架的系统 | |
CN104767813B (zh) | 基于openstack的公众行大数据服务平台 | |
US20080281801A1 (en) | Database system and related method | |
Park et al. | Toward total business intelligence incorporating structured and unstructured data | |
Borkar et al. | Have your data and query it too: From key-value caching to big data management | |
CN112699100A (zh) | 一种基于元数据管理分析系统 | |
Abdel Azez et al. | Optimizing join in HIVE star schema using key/facts indexing | |
Pokorný | New database architectures: Steps towards big data processing | |
Arputhamary et al. | A review on big data integration | |
Khalil et al. | New approach for implementing big datamart using NoSQL key-value stores | |
Dhanda | Big data storage and analysis | |
Chen | Database Design and Implementation | |
Ekren et al. | The potential and capabilities of NoSQL databases for ERP systems | |
Ahmed et al. | Generating data warehouse schema | |
Nimmagadda et al. | Knowledge base smarter articulations for the open directory project in a sustainable digital ecosystem | |
Jakawat et al. | Graphs enriched by cubes for OLAP on bibliographic networks | |
Aydin et al. | Data modelling for large-scale social media analytics: design challenges and lessons learned | |
Westerlund | Business intelligence: Multidimensional data analysis | |
Yangui et al. | DW4SN: A Tool for Dynamic Data Warehouse Building from Social Network. | |
Reisser et al. | Utilizing semantic web technologies for efficient data lineage and impact analyses in data warehouse environments | |
Viazilov et al. | Choosing a Data Model for the Digital Twin of Environment | |
Khatiwada | Architectural issues in real-time business intelligence |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20201117 Termination date: 20210602 |
|
CF01 | Termination of patent right due to non-payment of annual fee |