CN105681402A - 一种基于PCIe闪存卡的分布式高速数据库集成系统 - Google Patents

一种基于PCIe闪存卡的分布式高速数据库集成系统 Download PDF

Info

Publication number
CN105681402A
CN105681402A CN201610000468.XA CN201610000468A CN105681402A CN 105681402 A CN105681402 A CN 105681402A CN 201610000468 A CN201610000468 A CN 201610000468A CN 105681402 A CN105681402 A CN 105681402A
Authority
CN
China
Prior art keywords
distributed
high speed
data
node
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610000468.XA
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wenyun Yixun Technology Co Ltd
Original Assignee
Beijing Wenyun Yixun Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wenyun Yixun Technology Co Ltd filed Critical Beijing Wenyun Yixun Technology Co Ltd
Publication of CN105681402A publication Critical patent/CN105681402A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种基于PCIe闪存卡的分布式高速数据库集成系统,是面向企业数据中心所提供一站式交付的、集成的、分布式高速数据库集成系统。其特点是将计算节点、高速并发Infiniband网络节点与分布式PCIe闪存存储节点,通过分布式存储处理软件集成为一个整体系统。解决数据库性能瓶颈,提升数据库系统IOPS,提升吞吐率,缩短数据存储延迟等指标。本发明适用于联机事务处理与联机事务分析应用场景。

Description

一种基于PCIe闪存卡的分布式高速数据库集成系统
技术领域:
一种基于PCIe闪存卡的分布式高速数据库集成系统,是面向企业数据中心所提供一站式交付的、集成的、分布式高速数据库集成系统。其特点是将计算节点、高速并发Infiniband网络节点与分布式PCIe闪存存储节点,通过分布式存储处理软件集成为一个整体系统。解决数据库性能瓶颈,提升数据库系统IOPS,提升吞吐率,缩短数据存储延迟等指标。本发明适用于联机事务处理与联机事务分析应用场景。
图1是系统的逻辑示意图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统的逻辑架构。
背景技术:
1.一种基于PCIe闪存卡的分布式高速数据库集成系统,是面向企业数据中心所提供一站式交付的、集成的、分布式高速数据库集成系统。它的特点是将计算节点、高速并发Infiniband网络节点与分布式PCIe闪存存储节点,通过分布式存储软件融合为一个整体系统。其中计算节点包括多个用于数据库计算处理的服务器,高速并发Infiniband网络节点包括多个用于数据交换传输的Infiniband网络交换机,分布式PCIe闪存存储节点包括基于PCIe闪存卡的,用于数据高速读取的服务器。
2.计算节点包括多台用于数据库计算的服务器。
3.PCIe闪存存储节点包括至少三个PCIe闪存存储服务器。
4.高速并发Infiniband网络节点至少包括两个Infiniband网络交换机。
5.Infiniband网络交换机支持RDMA、IPoverIB、RDS协议。
6.系统中通过分布式存储软件实现硬件融合与管理功能。
7.计算节点与存储节点分别安装分布式存储软件。
8.分布式PCIe闪存存储节点提供数据存储功能与多副本的数据镜像。
9.系统中所有数据全部存储在分布式PCIe闪存存储节点中。
10.多副本数据镜像包括两副本数据镜像与三副本数据镜像。
11.一种基于PCIe闪存卡的分布式高速数据库集成系统,可以有效整合联机事物处理、联机分析处理与混合的工作负载到一个系统中,成为具有成本效益的数据库平台。
12.本发明的特点:
1)极速提升数据库的处理能力。
2)减少数据库延时到微秒级别。
3)超过250万TPM值。
4)冗余架构设计与多副本数据保护,提高系统与数据的可靠性与稳定性。
5)分布式弹性扩展架构,平滑升级。
6)容量与性能均线性增长。
7)实现零数据丢失与灾难恢复。
发明内容:
基于PCIe闪存卡的分布式高速数据库集成系统的可靠性设计包含高业务连续性、设备冗余保护、数据冗余保护、不存在单点故障源。
基于PCIe闪存卡的分布式高速数据库集成系统开发了特有的分布式计算与存储架构,总共三层硬件体系:
●数据处理层
由计算节点群组成,主要包含多个用于数据库计算的计算服务器。
●高速并发网络层
通过使用冗余的Infiniband网络与RDMA(远程直接内存访问)协议,实现数据的高速传输。
●存储处理层
基于PCIe闪存卡的分布式数据存储节点,全面提升数据库处力能力,解决数据库IO瓶颈。存储节点根据用户的需要可以动态增加,性能与容量承线性增长。
基于PCIe闪存卡的分布式高速数据库集成系统,使得存储服务器在分布式计算与存储的架构中,系统性能得到充分的保障,是能够替代小型机与高端存储设备的重要技术。它提升了系统安全可控水平,打破了传统封闭式技术体系的技术壁垒,极大地降低对于小型机与高端存储设备的建设成本。
相对于传统SAN存储,基于PCIe闪存卡的分布式高速数据库集成系统具有以下优势:
●性能优越
基于PCIe闪存卡的分布式高速数据库集成系统最大的优势在于能够性能的提升。PCIe接口闪存卡不仅可以降低数据传输的延迟,还能绕过任何存储区域网络来存储或取回数据,因此,是最快的数据访问方式。相比传统基于SAN存储的毫秒延迟,基于PCIe闪存卡的分布式高速数据库集成系统实现了微秒延迟。
●高可靠性
全冗余架构,无单点故障,利用成熟可靠的OracleASM功能实现数据的冗余,保证数据的可靠性。
●节省成本
基于PCIe闪存卡的分布式高速数据库集成系统极大节省耗电与冷却成本。传统的存储解决方案需要数百个硬盘驱动器(HDD)、光纤控制器、以及大量的能源及冷却成本,才能实现高吞吐量、低延迟和高IOPS。●节省空间
基于PCIe闪存卡的分布式高速数据库集成系统结构紧凑,降低了存储服务器对于机架空间的需求。
●易于部署
基于PCIe闪存卡的分布式高速数据库集成系统的实装部署极为简单,几乎达到“开箱即用”的程度,帮助用户加快应用系统上线运行。
基于PCIe闪存卡的分布式高速数据库集成系统通过自主研发的分布式软件将PCIe闪存卡的存储空间进行划分,形成粒度更小的存储分区,从而在集成系统中形成一个存储资源池,用户从这个资源池中可以动态为上层的计算节点灵活分配存储空间。数据在不同的存储分区中进行镜像,并且原数据与镜像数据分别自动的存储在不同的存储节点中,这是分布式架构设计所带来的优势。
在基于PCIe闪存卡的分布式高速数据库集成系统中,用户通过它独有的全局图形化监控管理工具,可以轻松掌控基于PCIe闪存卡的分布式高速数据库集成系统中所有组件与数据库的状态,实时了解集成系统性能、设备健康程度、数据库与系统报警信息,为用户进行系统管理与故障排查提供强有力的支持。提高工作效率与行动响应能力。
在基于PCIe闪存卡的分布式高速数据库集成系统支持动态灵活、随需弹性扩展,用户通过动态增加节点,达到性能与容量线性增长。
具体实施方式:
IO性能测试值
测试数据库整体的IOPS/MBPS,能够准确测试存储子系统的IO性能,并且能分析出IO瓶颈是由数据库还是由存储子系统所导致的。
图2是系统的性能指标图
附图说明:基于PCIe闪存卡的分布式高速数据库集成系统的性能指标,包括最大IOPS,最大吞吐量与最大延迟。
图3是系统的性能图
附图说明:基于PCIe闪存卡的分布式高速数据库集成系统的性能测试脚本与性能输出结果。
图4是系统中两个计算节点的性能指标图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统中两个计算节点的性能指标,包括每节点的IOPS,单块读8k平均等待时间,吞吐量与多块(128×8k)平均等待时间。所有等待时间均小于1毫秒。
稳定性测试场景
图5是系统在TPC-C测试的性能结果图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统在TPC-C测试的性能结果,其单位是TPM,值体现了“每分钟交易处理量”,广泛用于衡量计算机系统的事务处理能力。TPM值越高,处理能力越强。
图6是系统TPC-C测试中实时获得的结果图
附图说明:基于PCIe闪存卡的分布式高速数据库集成系统TPC-C测试中的实时获得的结果。
计算节点与存储节点间通过高带宽、低延迟的Infinibad网络进行互联的同时,利用远程直接内存访问(RDMA)协议进行数据访问。
InfiniBand是一串行网络技术,它继承了目前多数开放系统服务器使用的PCI总线。作为一种低成本的系统及组件设计技术,InfiniBand串行总线/网络被认为是增长最快的网络技术之一。
图7是系统的InfiniBand网络拓朴的示意图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统的InfiniBand网络拓朴。
InfiniBand传输模型
图8是系统的InfiniBand网络传输模型的示意图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统的InfiniBand网络传输模型。
RDMA(RemoteDirectMemoryAccess)技术全名是“远程直接内存访问”。它就是为了解决网络传输中服务器端数据处理的延迟而产生的。RDMA是指在通过网络进行数据传输时,数据通过网络直接写入服务器的一块存储区域,在这个过程中不需占用太多的服务器的处理能力。通过最小化处理过程的开销和带宽的需求,RDMA减少了延迟时间。
制约网络速率的因素主要在两方面:应用通信强度和主机CPU在内核与应用存储器间处理数据的效率。要达到特定的性能级别,需要追加主机CPU资源,配置高效的软件并增强系统负荷管理。传统的TCP/IP技术在处理数据传输的过程中需要占用大量的服务器资源。这样以太网的低投入、低运营成本优势就难以体现。为充分发挥万兆位以太网的性能优势,必须解决应用性能问题。系统不能以软件方式持续处理以太网通信;主机CPU资源必须释放专注于应用处理。解决这类问题的关键,是要消除主机CPU中不必要的频繁数据传输,减少系统间的信息延迟。总的来说,需要从协议、软件和硬件三方面入手。
如图9所示,RDMA是通过网络把资料直接传入计算机的存储区,将数据从一个系统快速移动到远程系统存储器中,而不对操作系统造成任何影响,这样就不需要用到多少计算机的处理功能。它消除了外部存储器复制和文本交换操作,因而能腾出总线空间和CPU周期用于改进应用系统性能。目前通用的做法需由系统先对传入的信息进行分析,然后再存储到正确的区域。
图9是系统中服务器通过InfiniBand网络互联的系统示意图
附图说明:显示了基于PCIe闪存卡的分布式高速数据库集成系统中服务器通过InfiniBand网络互联系统。
当一个应用执行RDMA读或写请求时,不执行任何数据复制。在不需要任何内核内存参与的条件下,RDMA请求从运行在用户空间中的应用中发送到本地NIC(网卡),然后经过网络传送到远程NIC。请求完成既可以完全在用户空间中处理(通过轮询用户级完成排列),或者在应用一直睡眠到请求完成时的情况下通过内核内存处理。RDMA操作使应用可以从一个远程应用的内存中读数据或向这个内存写数据。用于操作的远程虚拟内存地址包含在RDMA信息中。远程应用除了为其本地NIC注册相关内存缓冲区外,不需要做其他任何事情。远程节点中的CPU完全不参与输入的RDMA操作,这些对CPU没有任何负担。
RDMA让计算机可以直接存取其它计算机的内存,而不需要经过处理器耗时的传输,因为通常这样的数据要求还要经过操作系统及其他软件层。内存瓶颈随着连接速度超过服务器的处理能力和内存带宽而变得更加严重。远程直接内存访问(RDMA)使一台计算机可以直接将信息传送到另一台计算机内存中。

Claims (10)

1.一种基于PCIe闪存卡的分布式高速数据库集成系统,是面向企业数据中心所提供一站式交付的、集成的、分布式高速数据库集成系统。它的特点是将计算节点、高速并发Infiniband网络节点与分布式PCIe闪存存储节点,通过分布式存储软件融合为一个整体系统。其中计算节点包括多个用于数据库计算处理的服务器,高速并发Infiniband网络节点包括多个用于数据交换传输的Infiniband网络交换机,分布式PCIe闪存存储节点包括基于PCIe闪存卡的,用于数据高速读取的服务器。
2.根据权利要求书1所述,计算节点包括多台用于数据库计算的服务器;PCIe闪存存储节点包括至少三个PCIe闪存存储服务器。
3.根据权利要求书1所述,高速并发Infiniband网络节点至少包括两个Infiniband网络交换机。
4.根据权利要求书1所述,Infiniband网络交换机支持RDMA、IPoverIB、RDS协议。
5.根据权利要求书1所述,系统中通过分布式存储软件实现硬件融合与管理功能;所有数据全部存储在分布式PCIe闪存存储节点中。
6.根据权利要求书1所述,计算节点与存储节点分别安装分布式存储软件。
7.根据权利要求书1所述,分布式PCIe闪存存储节点提供数据存储功能与多副本的数据镜像;多副本数据镜像包括两副本数据镜像与三副本数据镜像。
8.根据权利要求书1所述,一种基于PCIe闪存卡的分布式高速数据库集成系统,可以有效整合联机事物处理、联机分析处理与混合的工作负载到一个系统中,成为具有成本效益的数据库平台。
9.根据权利要求书1所述,本发明的特点:
1)极速提升数据库的处理能力。
2)减少数据库延时到微秒级别。
3)超过250万TPM值。
4)冗余架构设计与多副本数据保护,提高系统与数据的可靠性与稳定性。
5)分布式弹性扩展架构,平滑升级。
6)容量与性能均线性增长。
7)实现零数据丢失与灾难恢复。
10.根据权利要求书1至9所述,以上特征的发明创造权利归北京文云易迅科技有限公司以及公司开发的“一种基于PCIe闪存卡的分布式高速数据库集成系统”所有,未经公司授权其他人不得使用,一旦发现未经授权使用者,北京文云易迅科技有限公司将予以追究相应的法律责任。
CN201610000468.XA 2015-11-25 2016-01-05 一种基于PCIe闪存卡的分布式高速数据库集成系统 Pending CN105681402A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510821278X 2015-11-25
CN201510821278 2015-11-25

Publications (1)

Publication Number Publication Date
CN105681402A true CN105681402A (zh) 2016-06-15

Family

ID=56298694

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610000468.XA Pending CN105681402A (zh) 2015-11-25 2016-01-05 一种基于PCIe闪存卡的分布式高速数据库集成系统

Country Status (1)

Country Link
CN (1) CN105681402A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126409A (zh) * 2016-07-01 2016-11-16 浪潮(北京)电子信息产业有限公司 一种实时监控oracle单块读延迟的方法及装置
CN106686099A (zh) * 2017-01-03 2017-05-17 杭州沃趣科技股份有限公司 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法
CN107135277A (zh) * 2017-07-06 2017-09-05 郑州云海信息技术有限公司 一种一体机实现方法及装置
CN107888657A (zh) * 2017-10-11 2018-04-06 上海交通大学 低延迟分布式存储系统
CN108762673A (zh) * 2018-05-24 2018-11-06 浪潮电子信息产业股份有限公司 一种远程数据存取处理系统
CN109257431A (zh) * 2018-10-12 2019-01-22 微网云(深圳)技术有限公司 分布式服务器系统
CN109933631A (zh) * 2019-03-20 2019-06-25 江苏瑞中数据股份有限公司 基于Infiniband网络的分布式并行数据库系统及数据处理方法
WO2021052230A1 (zh) * 2019-09-18 2021-03-25 华为技术有限公司 一种存储系统、存储节点和数据存储方法
CN114661637A (zh) * 2022-02-28 2022-06-24 中国科学院上海天文台 针对射电天文数据密集型科学运算的数据处理系统及方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080183961A1 (en) * 2001-05-01 2008-07-31 The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations Distributed raid and location independent caching system
CN103595799A (zh) * 2013-11-18 2014-02-19 北京中创信测科技股份有限公司 一种实现分布式共享数据库的方法
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080183961A1 (en) * 2001-05-01 2008-07-31 The Board Of Governors For Higher Education, State Of Rhode Island And Providence Plantations Distributed raid and location independent caching system
CN103595799A (zh) * 2013-11-18 2014-02-19 北京中创信测科技股份有限公司 一种实现分布式共享数据库的方法
CN103873559A (zh) * 2014-02-13 2014-06-18 南京斯坦德通信股份有限公司 一种高速存储的数据库一体机

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106126409A (zh) * 2016-07-01 2016-11-16 浪潮(北京)电子信息产业有限公司 一种实时监控oracle单块读延迟的方法及装置
CN106126409B (zh) * 2016-07-01 2018-11-23 浪潮(北京)电子信息产业有限公司 一种实时监控oracle单块读延迟的方法及装置
CN106686099A (zh) * 2017-01-03 2017-05-17 杭州沃趣科技股份有限公司 一种基于infiniband网络实现Oracle RAC数据库跨机房双活的方法
CN107135277A (zh) * 2017-07-06 2017-09-05 郑州云海信息技术有限公司 一种一体机实现方法及装置
CN107888657A (zh) * 2017-10-11 2018-04-06 上海交通大学 低延迟分布式存储系统
CN108762673A (zh) * 2018-05-24 2018-11-06 浪潮电子信息产业股份有限公司 一种远程数据存取处理系统
CN109257431A (zh) * 2018-10-12 2019-01-22 微网云(深圳)技术有限公司 分布式服务器系统
CN109257431B (zh) * 2018-10-12 2021-04-13 微网云(深圳)科技有限公司 分布式服务器系统
CN109933631A (zh) * 2019-03-20 2019-06-25 江苏瑞中数据股份有限公司 基于Infiniband网络的分布式并行数据库系统及数据处理方法
WO2021052230A1 (zh) * 2019-09-18 2021-03-25 华为技术有限公司 一种存储系统、存储节点和数据存储方法
CN114661637A (zh) * 2022-02-28 2022-06-24 中国科学院上海天文台 针对射电天文数据密集型科学运算的数据处理系统及方法

Similar Documents

Publication Publication Date Title
CN105681402A (zh) 一种基于PCIe闪存卡的分布式高速数据库集成系统
US10108654B2 (en) Workload balancing in a distributed database
Li et al. Composable architecture for rack scale big data computing
US20180095996A1 (en) Database system utilizing forced memory aligned access
US10241880B2 (en) Efficient validation/verification of coherency and snoop filtering mechanisms in computing systems
US11262933B2 (en) Sharing memory resources between asynchronous replication workloads
US9940152B2 (en) Methods and systems for integrating a volume shadow copy service (VSS) requester and/or a VSS provider with virtual volumes (VVOLS)
CN103873559A (zh) 一种高速存储的数据库一体机
US8065442B1 (en) High performance journaling for replication and continuous data protection
US9965350B2 (en) Maintaining cyclic redundancy check context in a synchronous I/O endpoint device cache system
US11231987B1 (en) Debugging of memory operations
US9886394B2 (en) Migrating buffer for direct memory access in a computer system
US10331581B2 (en) Virtual channel and resource assignment
US20220358106A1 (en) Proxy-based database scaling
CN105302489B (zh) 一种异构多核远程嵌入式存储器系统与方法
US8108580B1 (en) Low latency synchronous replication using an N-way router
US9372796B2 (en) Optimum cache access scheme for multi endpoint atomic access in a multicore system
Al Maruf et al. Memory disaggregation: advances and open challenges
US11748285B1 (en) Transaction ordering management
US20230221971A1 (en) Multiple port emulation
WO2023124304A1 (zh) 芯片的缓存系统、数据处理方法、设备、存储介质及芯片
CN104601729A (zh) 一种采用NVMe实现高性能云存储的方法
Moroo et al. Operating System for the K computer
CN103207762A (zh) 存储虚拟化系统
WO2019223444A1 (zh) 数据存储系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 102206 Beijing city Changping District Small Town Zhu Daxinzhuang North Agricultural Road No. 2 building D room 1203

Applicant after: BEIJING WENYUN YIXUN TECHNOLOGY CO., LTD.

Address before: 100192 Beijing city Chaoyang District Lin and crafts Road No. 1 Hospital No. 2 Serenade family building 1 unit 1302

Applicant before: BEIJING WENYUN YIXUN TECHNOLOGY CO., LTD.

COR Change of bibliographic data
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160615

WD01 Invention patent application deemed withdrawn after publication