CN104679893A

CN104679893A - 一种基于大数据的信息检索方法

Info

Publication number: CN104679893A
Application number: CN201510117844.9A
Authority: CN
Inventors: 陈海清; 刘宇波
Original assignee: CHENGDU GOLDENWAY TECHNOLOGY Co Ltd
Current assignee: CHENGDU GOLDENWAY TECHNOLOGY Co Ltd
Priority date: 2015-03-18
Filing date: 2015-03-18
Publication date: 2015-06-03

Abstract

本发明提供了一种基于大数据的信息检索方法，该方法包括:在实时的分布式架构下进行节点间数据的冗余备份与一致性维护，移动终端上传的数据通过通信服务器分别存储至集群数据服务器的多个节点中形成多重冗余备份，当某个节点无法正常工作而造成该节点数据拷贝失效时，其他拷贝对应的节点进行存储和检索。本发明对数据的多重备份与一致性维护，并能够适应系统结构的动态调整，具备较高的性能与可靠性、可扩展性，能够满足当前的实际应用需求。

Description

一种基于大数据的信息检索方法

技术领域

本发明涉及数据检索，特别涉及一种基于大数据的信息检索方法。

背景技术

数据存储检索作为系统提供各项数据服务的基础，其设计与实现的优劣直接影响到整个实时数据库的运行效率、数据安全与弹性扩展能力。现有数据检索技术利用了业务数据的时态特性，但是主要面向集中式环境，难以满足系统的可用性和可靠性要求，在大数据规模的分布式环境中难以发挥其性能。

发明内容

为解决上述现有技术所存在的问题，本发明提出了一种基于大数据的信息检索方法，包括:

在实时的分布式架构下进行节点间数据的冗余备份与一致性维护，移动终端上传的数据通过通信服务器分别存储至集群数据服务器的多个节点中形成多重冗余备份，当某个节点无法正常工作而造成该节点数据拷贝失效时，其他拷贝对应的节点进行存储和检索。

优选地，通过在多个物理服务器间实现不同数量的冗余备份，以区别核心数据与非核心数据，并且在移动终端上传数据的过程中进一步包括:

(1)数据移动终端通过主动轮询或事件触发方式获取当前实时数据，经压缩过滤后发往通信服务器；

(2)通信服务器通过用户配置的数据点组态将实时数据上传至集群数据服务器；

(3)集群数据服务器的管理节点将实时数据中的数据点名转换为数据点ID，并按照一致性散列算法建立数据点ID与物理服务器的映射，从而将数据发送至指定的服务器节点中；

该方法还包括：在多重冗余备份过程中，默认的拷贝数量为1，并在组态过程中数据可靠性要求对拷贝数量进行配置，备份数据与主拷贝数据存储在不同的物理服务器，存储规则由主拷贝对应节点所加载的脚本实现，默认为依次存储在一致性散列算法计算得到的前向两个节点上，数据在主拷贝对应节点的内存缓存期间不进行备份操作，当记录容量达到缓存页面大小后，或者超过最大缓存时间后，存储归档服务在执行本地数据持久化的同时，将缓存数据发送至指定的备份节点，当存在多个服务器间的数据拷贝差异时，通过存储数据时附加的管理信息进行数据一致性的判定和缺失数据的定位，冗余拷贝的一致性判定和修复工作为周期性触发，通过追加缺失的数据来完成修复。

本发明相比现有技术，具有以下优点:

本发明对数据的多重备份与一致性维护，并能够适应系统结构的动态调整，具备较高的性能与可靠性、可扩展性，能够满足当前的实际应用需求。

附图说明

图1是根据本发明实施例的基于大数据的信息检索方法的流程图。

具体实施方式

下文与图示本发明原理的附图一起提供对本发明一个或者多个实施例的详细描述。结合这样的实施例描述本发明，但是本发明不限于任何实施例。本发明的范围仅由权利要求书限定，并且本发明涵盖诸多替代、修改和等同物。在下文描述中阐述诸多具体细节以便提供对本发明的透彻理解。出于示例的目的而提供这些细节，并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本发明。

本发明提出一种分布式冗余的实时数据检索方法。在保证数据存取实时性的基础上实现备份同步、一致性修复等核心功能，从而有效提高实时数据库的大数据存储与处理能力，适应数据高可用性、高可靠性的应用需求。图1是根据本发明实施例的基于大数据的信息检索方法流程图。

本发明提出的数据检索方法在满足实时性的分布式架构下进行节点间数据的冗余备份与一致性维护。移动终端上传的数据通过通信服务器分别存储至集群数据服务器的多个节点中形成多重冗余，当某个节点无法正常工作而造成该节点数据拷贝失效时，其他拷贝对应的节点仍能够存储、检索，提供与失效节点完全一致的数据服务。数据安全性方面，通过在多个物理服务器间实现不同数量的冗余备份，能够区别对待核心数据与非核心数据，兼顾系统的存储成本与可靠性。

系统中的通信服务器是一个分布式的通信系统，又称为大数据系统，为复杂网络、多平台应用提供大数据接收、发送服务，保障数据传输的可靠性、实时性、安全性和高效性。

由集群数据服务器和数据移动终端接入到通信服务器，作为分布式应用服务的数据存储层，对外提供实时与历史数据服务。集群中对等的各个服务器节点由系统注册服务统一分配令牌号，通过一致性散列算法计算得到各服务器的数据点存储范围。

系统的数据存储流程可分为以下3步:

(1)数据移动终端通过主动轮询或事件触发方式获取当前实时数据，经压缩过滤后发往通信服务器。

(2)通信服务器通过用户配置的数据点组态将实时数据上传至集群数据服务器。

(3)集群数据服务器的管理节点将实时数据中的数据点名转换为数据点ID，并按照一致性散列算法建立数据点ID与物理服务器的映射，从而将数据发送至指定的服务器节点中。

存储过程中的大数据实时性保障机制和多重冗余备份方法如下：

为保障大数据写入存储服务器的实时性，对数据上传机制进行如下优化:

(1)将移动终端进行分组，并按组名建立与物理服务器的映射，防止数据存储过于分散。移动终端在向集群管理节点进行存储定位后，可直接连至指定的物理服务器，从而尽量减少不必要的数据转发。

(2)移动终端在数据写入第一个物理服务器的内存缓存后即认为写入成功，由该服务器节点执行后继的冗余备份流程，从而减少了数据发送时的阻塞等待时间，在满足高可用性的前提下提升了系统吞吐量。数据发送的可靠性由通信服务器保证。

为保障数据服务的可用性，需要对历史数据存储进行冗余备份。系统默认的拷贝数量为1，可在组态过程中按生产应用的数据可靠性要求对拷贝数量进行配置。备份数据与主拷贝数据存储在不同的物理服务器，存储规则由主拷贝对应节点所加载的脚本实现，默认为依次存储在一致性散列算法计算得到的前向两个节点上。

由于系统实时性限制，数据在主拷贝对应节点的内存缓存期间不进行备份操作。当记录容量达到缓存页面大小后，或者超过最大缓存时间后，存储归档服务在执行本地数据持久化的同时，将缓存数据发送至指定的备份节点。

由于节点失效、网络异常等原因，可能造成多个服务器间的数据拷贝差异。通过存储数据时附加的管理信息可进行数据一致性的快速判定和缺失数据的准确定位。冗余拷贝的一致性判定和修复工作一般为周期性触发，通过追加缺失的数据来完成修复。

当出现存储异常(如时间跳变，操作员误操作修改数据等)导致多个拷贝间产生差异时，需要数据存储检索方法支持备份同步、差异快速定位等功能。为实现在分布式冗余存储时能够进行数据的快速同步，并很好地应对异常存储情况，本发明提出了基于多版本控制的数据管理方案，能够通过记录的追加操作来实现正常和异常情况下的数据存储，从而便于数据的一致性维护。

基于多版本控制的数据管理方案通过使用追加操作来实现正常和异常情况下的数据存储，并通过版本号进行正常和异常数据的区分，从而尽可能避免在存储异常时磁盘中的数据发生改写或迁移，同时也便于失效节点恢复后的数据同步。正常数据与发生时间回跳后产生的异常数据在时间段重叠的部分是不会发生混合的。将使用最新版本数据替代先前版本的数据。

为高效存储时间回跳状态下同一时间段的不同版本数据，在追加记录新版本数据的同时，通过维护数据管理信息中的版本标识与原有数据形成区分，保证了异常情况下数据不发生丢失和乱序。

在基于多版本控制的数据管理方案中，以固定长度的页面(通常为1kB或4kB)为最小单元进行数据管理，页面类型包括数据记录页、索引页和版本页。数据记录页记录了该数据点在某段时间的实时值、质量码与时间戳，当该页记录过程发生异常时不会切换页面，而是使用累加的版本号和异常发生时的页面记录偏移量进行标识；索引页记录了数据记录页的简要信息，如数据记录页的版本变化标识、页面编号和时标索引等；版本页记录了各版本号对应的起止时间、所关联的数据记录页起始编号及其页面记录偏移量等信息。各页面间以链表方式进行关联，便于指定时间段存储数据的快速定位。

由主拷贝对应节点在数据页写入磁盘的同时将其发送至指定的单个或多个备份节点，从而实现多重拷贝的写入操作。各备份节点对接收到的数据记录页的处理流程与主拷贝完全相同，并在页面成功写入磁盘后通过特定消息告知主拷贝对应节点。同时，在各备份节点定期进行自检操作，通过检测指定数据点所有版本编号的连续性，以及各版本中所有数据记录页编号的连续性，可以快速确认是否存在数据缺失。如果数据是完整的，则在结果文件中记录当前的检测位置，防止已检测的数据内容被重复检测，否则将发起修复操作。

(1)与主拷贝对应节点进行协商，确定缺失的数据记录页对应的编号范围。(2)向主拷贝对应节点请求缺失的数据记录页，在获取到所有页面后追加写入当前归档文件，并修改索引页中维护的时标索引信息。

(3)如果存在版本号变化，则对应的版本页也将进行同步，以保证所有版本编号的连续性。

当用户在组态中添加节点时，集群管理节点通过一致性散列算法计算得到该新增节点的数据存储范围。随后该新增节点向原主拷贝对应节点请求存储范围内的所有数据记录页，而获取到数据记录页之后的处理流程与主拷贝完全相同。

当节点失效或网络故障导致无法访问某一节点时，其原有存储职责将由一致性散列算法确定的前向节点进行代理。此时，所有实时数据由代理节点进行存储，保证备份节点中的数据完整性。

当该节点恢复访问时，将按照上文中的数据一致性维护机制与代理节点进行数据同步，从而获取异常期间缺失的数据内容。数据同步完成后，代理节点停止代理功能，当前节点恢复原有存储职责。

为提升查询效率和系统吞吐量，必须充分利用多重拷贝存储的优势，将查询过程中的磁盘I/O操作尽可能均匀地分配给各备份节点。由于查询请求首先到达集群管理节点，需要由集群管理节点在处理查询请求时进行负载均衡，防止某一存储服务器负荷过重，而对应的备份节点却处于空闲状态的现象发生。集群管理节点确定查询目标服务器后，由查询客户端直接向对应的服务器进行本地查询。进入本地数据查询流程后，通过相互链接的索引页中记录的时标索引，可以快速定位到指定时间范围内的数据存储位置。如果页面的版本变化标识被设置，说明该页面中混合存放有正常数据和异常数据，如果不加以区分而直接按时间顺序进行拟合，将产生错误的拟合结果。

通过版本页进行时序数据的版本控制，在版本发生变化的区间使用最新版本的数据进行拟合，从而避免正常数据与异常数据混合交错导致错误的查询拟合结果。

来自查询客户端的查询请求经通信服务器路由后，首先提交给集群管理节点，由集群管理节点依据查询时间长度决定是否将查询请求进行分解。如果查询时间跨度大于预设值，则将原始查询请求按时间范围分解为多个子查询请求，并按一致性散列算法指派给多个存储服务器节点。查询客户端获取到应答信息后，与每个存储服务器节点建立直连，分别完成各自的本地数据查询流程。如果不需要进行查询请求分解，则按负载均衡算法在主从备份节点中选择合适的单个存储服务器进行后继查询。

各数据存储服务器在接收到本地查询请求后，将依据版本页中的内容判断查询时间范围内是否存在版本更新。如果该时间段内的过程数据属于同一版本，则直接由索引页定位到实际存储位置进行数据读取，否则将按各版本更替时间点进行查询范围分割，各分割区间内使用最新版本的数据进行拟合，从而完成本地数据查询流程。

为进一步提升查询效率，在各存储服务器节点进行查询结果缓存。处理本地查询请求时优先在查询结果缓存中查找是否有对应记录，一旦查找成功则直接返回缓存结果，从而减少了磁盘I/O次数。

综上所述，本发明对数据的多重备份与一致性维护，并能够适应系统结构的动态调整，具备较高的性能与可靠性、可扩展性，能够满足当前的实际应用需求。

显然，本领域的技术人员应该理解，上述的本发明的各模块或各步骤可以用通用的计算系统来实现，它们可以集中在单个的计算系统上，或者分布在多个计算系统所组成的网络上，可选地，它们可以用计算系统可执行的程序代码来实现，从而，可以将它们存储在存储系统中由计算系统来执行。这样，本发明不限制于任何特定的硬件和软件结合。

应当理解的是，本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理，而不构成对本发明的限制。因此，在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。此外，本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。

Claims

1.一种基于大数据的信息检索方法，其特征在于，包括:

2.根据权利要求1所述的方法，其特征在于，通过在多个物理服务器间实现不同数量的冗余备份，以区别核心数据与非核心数据，并且在移动终端上传数据的过程中进一步包括: