CN106599253A

CN106599253A - 一种采用NoSQL数据库实现分布式计算的方法

Info

Publication number: CN106599253A
Application number: CN201611189207.3A
Authority: CN
Inventors: 宋健健; 戴鸿君; 于治楼
Original assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Current assignee: Jinan Inspur Hi Tech Investment and Development Co Ltd
Priority date: 2016-12-21
Filing date: 2016-12-21
Publication date: 2017-04-26

Abstract

本发明涉及计算机分布式计算技术领域，特别涉及一种采用NoSQL数据库实现分布式计算的方法。本发明是在分布式环境下，采用NoSQL方式创建数据仓库，建立该数据仓库的全文索引，利用全文所以对数据仓库进行文本分析和数据挖掘，同时，采用Hadoop对存储数据进行处理，处理系统包括一个Hadoop主节点和若干子节点，每一个子节点中包含一个NoSQL数据库，主节点响应数据计算请求，进行资源的调度和分配。本发明的一种采用NoSQL数据库实现分布式计算的方法，其采用NOSQL来存储需要计算的分区数据，并使用NoSQL进行并行数据增量的处理，降低分布式计算的成本。

Description

一种采用NoSQL数据库实现分布式计算的方法

技术领域

本发明涉及计算机分布式计算技术领域，特别涉及一种采用NoSQL数据库实现分布式计算的方法。

背景技术

分布式计算是将计算分解成许多小部分，分配给多台计算机进行处理，节约整体计算时间，提高计算的效率。分布式计算可以共享稀有资源，可以平衡多台计算机的运行负载，可以选择最适宜的主机进行计算。

NoSQL，泛指非关系型的数据库。随着互联网web2.0网站的兴起，传统的关系数据库在应付web2.0网站，特别是超大规模和高并发的SNS类型的web2.0纯动态网站已经显得力不从心，暴露了很多难以克服的问题，而非关系型的数据库则由于其本身的特点得到了非常迅速的发展。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战，尤其是大数据应用难题。

对于NoSQL并没有一个明确的范围和定义，但是他们都普遍存在下面一些共同特征：

1、不需要预定义模式：不需要事先定义数据模式，预定义表结构。数据中的每条记录都可能有不同的属性和格式。当插入数据时，并不需要预先定义它们的模式。

2、无共享架构：相对于将所有数据存储的存储区域网络中的全共享架构。NoSQL往往将数据划分后存储在各个本地服务器上。因为从本地磁盘读取数据的性能往往好于通过网络传输读取数据的性能，从而提高了系统的性能。

3、弹性可扩展：可以在系统运行的时候，动态增加或者删除结点。不需要停机维护，数据可以自动迁移。

4、分区：相对于将数据存放于同一个节点，NoSQL数据库需要将数据进行分区，将记录分散在多个节点上面。并且通常分区的同时还要做复制。这样既提高了并行性能，又能保证没有单点失效的问题。

5、异步复制：和RAID存储系统不同的是，NoSQL中的复制，往往是基于日志的异步复制。这样，数据就可以尽快地写入一个节点，而不会被网络传输引起迟延。缺点是并不总是能保证一致性，这样的方式在出现故障的时候，可能会丢失少量的数据。

6、BASE：相对于事务严格的ACID特性，NoSQL数据库保证的是BASE特性。BASE是最终一致性和软事务。

NoSQL数据库并没有一个统一的架构，两种NoSQL数据库之间的不同，甚至远远超过两种关系型数据库的不同。可以说，NoSQL各有所长，成功的NoSQL必然特别适用于某些场合或者某些应用，在这些场合中会远远胜过关系型数据库和其他的NoSQL。

Hadoop是一个由Apache基金会所开发的分布式系统基础架构。

用户可以在不了解分布式底层细节的情况下，开发分布式程序。充分利用集群的威力进行高速运算和存储。

Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（largedata set）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件系统中的数据。

Hadoop的框架最核心的设计就是：HDFS和MapReduce。HDFS为海量的数据提供了存储，则MapReduce为海量的数据提供了计算。

Hadoop实现一个分布式的文件系统，具有高容错性的特点。它可以通过提高吞吐量来增加应用程序数据的访问，也可以以数据流的形式来访问文件系统中的数据。

分布式增量数据处理是利用Hadoop的数据处理能力，解决分布式计算在数据处理方面的欠缺，通过在Hadoop的文件系统中运行数据处理操作，使得计算过程不用考虑数据处理的具体细节，例如数据分片、输入、输出等问题。

基于中间件的分布式计算模型，如图1所示。

发明内容

为了解决现有技术的问题，本发明提供了一种采用NoSQL数据库实现分布式计算的方法，其采用NoSQL来存储需要计算的分区数据，并使用NoSQL进行并行数据增量的处理，降低分布式计算的成本。

本发明所采用的技术方案如下：

一种采用NoSQL数据库实现分布式计算的方法，包括以下步骤：

A、在分布式系统中，采用NoSQL方式创建数据仓库，建立该数据仓库的全文索引；

B、同时，采用Hadoop对所述数据仓库内的数据进行处理，处理系统包括一个Hadoop主节点和若干子节点，每一个子节点中包含一个数据仓库，主节点响应数据计算请求，进行资源的调度和分配；

C、分布式系统汇总单个计算节接收任务后，首先将数据仓库中的数据传到Hadoop的文件系统中，在传递过程中，采用建立的全文索引进行数据查询；在Hadoop的文件系统中进行数据计算，通过数据增量计算操作。

步骤A中，利用全文索引对数据仓库进行文本分析和数据挖掘。

步骤A中，通过数据文本化、分析文本的方式建立全文索引。

本发明提供的技术方案带来的有益效果是：

针对分布式计算的实现，本发明采用NoSQL来存储需要计算的分区数据，并使用NoSQL进行并行数据增量的处理，降低分布式计算的成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为现有技术下的基于中间件的分布式计算模型的原理图；

图2为本发明的一种采用NoSQL数据库实现分布式计算的方法的方法原理图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一

如附图1所示，在分布式环境下，采用NoSQL方式创建数据仓库，建立该数据仓库的全文索引，利用全文所以对数据仓库进行文本分析和数据挖掘。在进行计算任务分配之前将任务进行分片处理，将子任务分给网络中的计算机进行计算，降低计算成本。

基于NoSQL创建文本数据库，并通过数据文本化、分析文本等过程构建文本索引，通过索引进行数据查询。分布式系统汇总单个计算节接收任务后，首先将NoSQL中的数据传到Hadoop的文件系统中，在传递过程中，采用建立的文本索引进行数据查询。在Hadoop的文件系统中进行数据计算，通过数据增量计算操作，计算对象只是数据库的增量数据，减少计算任务量，提高计算效率。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种采用NoSQL数据库实现分布式计算的方法，包括以下步骤：

2.根据权利要求1所述的一种采用NoSQL数据库实现分布式计算的方法，其特征在于，所述的步骤A中，利用全文索引对数据仓库进行文本分析和数据挖掘。

3.根据权利要求1所述的一种采用NoSQL数据库实现分布式计算的方法，其特征在于，所述的步骤A中，通过数据文本化、分析文本的方式建立全文索引。