CN104239377A

CN104239377A - 跨平台的数据检索方法及装置

Info

Publication number: CN104239377A
Application number: CN201310560579.2A
Authority: CN
Inventors: 宋立新; 杨勇; 张建杰
Original assignee: Xinhua Reed (beijing) Network Technology Co Ltd
Current assignee: Xinhua Reed (beijing) Network Technology Co Ltd; Beijing Xinhua Ruide Technology Co Ltd
Priority date: 2013-11-12
Filing date: 2013-11-12
Publication date: 2014-12-24

Abstract

本发明提供了一种跨平台的数据检索方法及装置。其中，该方法包括：建立在云网络上各个平台的所有数据文件的索引，其中，所述索引中携带有所述数据文件的存储地址；根据所述索引对所述数据文件进行检索。采用本发明提供的上述技术手段，解决了相关技术中，数据检索方案不能满足大数据量检索要求等技术问题，从而可以实现对大数据的快速检索。

Description

跨平台的数据检索方法及装置

技术领域

本发明涉及数据检索领域，尤其是涉及一种跨平台的数据检索方法及装置。

背景技术

目前，企业面临着数据量的大规模增长，据互联网数据中心（Internet Data Center，简称为IDC）最近的报告人预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模从几十TB到数PB不等。大数据有四个特点：第一，数据体量巨大；第二，数据类型繁多；第三价值密度低。第四，处理速度快。大数据检索的主要挑战在于：海量数据规模的处理，多字段多类型数据的整合，高效的索引压缩技术及这毫秒级的索引更新技术。面对这样的挑战，传统的数据库管理经常不能胜任。

几乎所有的应用都会用到数据库，都需要从数据库中查询数据。而有些特殊行业的数据库往往都是海量数据，从这种数据库中直接查询数据所等待的时间对于实时性要求很高的系统是不可接受的，基于云平台的高效数据检索可以极大地缩短查询时间，满足实时性系统的要求。

大数据存储及检索是比较难以全面掌握的技术，正确的检索方法可以使效率提高上万倍，而低效的检索可能浪费数据库空间。本文后分析了几种特殊形式检索的特性，并且从技术及使用方面论证了该方法的可行性。

需要分析检索的数据，通常会分散在网络上若干不同平台的服务器中，且通常是以大数据文件的形式存在，在实际上的任何一个平台中，数据检索都是必不可少的功能，而检索的效率又影响到平台响应时间和性能这两个关键指标，尤其当数据量变得越来越大时，如果处理大数据量的检索是每个平台架构设计必须面对的问题。

针对相关技术中的上述问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中，现有的数据检索方案不能满足大数据量检索要求等技术问题，本发明提供了一种跨平台的数据检索方法及装置，以至少解决上述问题。

为了达到上述目的，根据本发明的一个方面，提供了一种跨平台的数据检索方法，包括：建立在云网络上各个平台的所有数据文件的索引，其中，上述索引中携带有上述数据文件的存储地址；根据上述索引对上述数据文件进行检索。

优选地，根据上述索引对上述数据文件进行检索之前，包括：将上述索引按照上述索引对应的数据文件的特征信息进行分类；将分类后的上述索引按照类别进行分类存储。

优选地，上述特征信息包括以下至少之一：业务类型、数据文件属性。

优选地，建立在云网络上各个平台运行上的所有数据文件的索引，包括：对数据文件大小超过预设阈值的数据文件进行分块；对分块后的上述数据文件建立索引。

优选地，建立在云网络上各个平台运行上的所有数据文件的索引，包括：监测上述各个平台中数据文件的变化情况；对新产生的数据文件建立索引。

优选地，根据上述索引对上述数据文件进行检索之后，还包括：对检索到的数据进行缓存处理。

为了达到上述目的，根据本发明的再一个方面，一种跨平台的数据检索装置，包括：建立模块，用于建立在云网络上各个平台的所有数据文件的索引，其中，上述索引中携带有上述数据文件的存储地址；检索模块，用于根据上述索引对上述数据文件进行检索。

优选地，上述装置还包括：分类模块，用于将上述索引按照上述索引对应的数据文件的特征信息进行分类；存储模块，用于将分类后的上述索引按照类别进行分类存储。

优选地，上述建立模块包括：分块单元，用于对数据文件大小超过预设阈值的数据文件进行分块；第一建立单元，用于对分块后的上述数据文件建立索引。

优选地，上述建立模块包括：监测单元，用于监测上述各个平台中数据文件的变化情况；第二建立单元，用于对新产生的数据文件建立索引。

通过本发明，采用建立各个平台的所有数据文件的索引，并根据上述索引对所述数据文件进行检索的技术手段，解决了相关技术中，数据检索方案不能满足大数据量检索要求等技术问题，从而可以实现对大数据的快速检索。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为根据本发明实施例的跨平台的数据检索方法的流程图；

图2为根据本发明实施例的跨平台的数据检索装置的结构框图；

图3为根据本发明优选实施例的跨平台的数据检索装置的结构框图；

图4为根据本发明实施例1的跨平台的数据检索的整体架构图；

图5为根据本发明实施例1的跨平台的数据检索的原理流程示意图；

图6为根据本发明实施例1的跨平台的数据检索的核心模块示意图；

图7为根据本发明实施例2的内存索引结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

图1为根据本发明实施例的跨平台的数据检索方法的流程图。如图1所示，该方法包括：

步骤S102，建立在云网络上各个平台的所有数据文件的索引，其中，上述索引中携带有上述数据文件的存储地址；需要说明的是，此处“平台”的含义可以理解为云网络上的各个计算节点。

为了实现数据的快速检索，可以将上述索引按照该索引对应的数据文件的特征信息进行分类；将分类后的上述索引按照类别进行分类存储。这样在检索时，便可以进行分类检索，提供了检索效率。其中，上述特征信息包括以下至少之一：业务类型、数据文件属性。

在本实施例中，步骤S102的实现可以包括但不限于以下处理过程：

（1）对数据文件大小超过预设阈值的数据文件进行分块；对分块后的上述数据文件建立索引。

（2）监测上述各个平台中数据文件的变化情况；对新产生的数据文件建立索引。

步骤S104，根据上述索引对上述数据文件进行检索。

在根据上述索引对上述数据文件进行检索之后，为了避免重复加载数据，对检索到的数据进行缓存处理，这样，在检索相同数据时，便可以从缓存中直接读取或加载缓存中的数据。

在本实施例中还提供了一种数据检索装置，用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述，下面对该装置中涉及到的模块进行说明。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。图2为根据本发明实施例的跨平台的数据检索装置的结构框图。如图2所示，该装置包括：

建立模块20，连接至检索模块22，用于建立在网络上各个平台的所有数据文件的索引，其中，上述索引中携带有上述数据文件的存储地址；

检索模块22，用于根据上述索引对上述数据文件进行检索。

优选地，如图3所示，上述装置还可以包括以下处理模块：分类模块30，连接至存储模块32，用于将上述索引按照上述索引对应的数据文件的特征信息进行分类；存储模块32，用于将分类后的上述索引按照类别进行分类存储。

优选地，如图3所示，上述建立模块20包括：分块单元200，连接至第一建立单元202，用于对数据文件大小超过预设阈值的数据文件进行分块；第一建立单元202，用于对分块后的上述数据文件建立索引。

优选地，上述建立模块20包括：监测单元204，连接至第二建立单元206，用于监测上述各个平台中数据文件的变化情况；第二建立单元206，用于对新产生的数据文件建立索引。

为了更好地理解上述实施例，以下结合优选实施例详细说明。

实施例1

本实施例的主要设计思想在于，设置一套可以统一管理系统运行时所有数据文件，并且能够负责与实际磁盘文件交互的缓存管理系统，在内存中映射出大数据文件的索引，并以惯常使用的索引特性为ID，将数据文件分块进行内存映射，并发地将数据文件依次的映射到文件处理服务器进程中的一个较小的地址空间。

由于一般互联网的特征：信息发布较为频繁，刚发布完的信息被编辑、修改的可能性大。基于这个特征，在本实施例中，使用独立的数据文件监控器，监控数据文件变化情况，对新入库的数据建立新的内存映射索引，并以主索引+增量索引更新方式加载、从而提高访问的效率以及速度。对于复杂数据的统计查询过程，可以分解成两个过程，统计计算归集和实时查询，将统计计算归集过程放在后台运行。

其中，主索引和增量索引的映射实现过程如下：扫描器定时扫描数据的变化情况，并判断在每天某一时间之前的数据变化，自动建立主文件索引并重建映射关系；对于某一时间之后的最新数据，间隔固定时间自动更新增量索引，并重建映射关系，主索引和增量索引是父子关系，主索引包含增量索引的ID，通过查询主索引定位到相应的增量索引。

其中，上述统计计算归集的具体实现过程如下：每间隔固定时间统计分析新增数据，归集过程只归集增量数据，将新增数据与原数据整合，形成新的数据归集，从而大大提高了大数据量统计查询的执行效率。

如图4所示，索引服务器根据海量文件数据的变化情况，采用不同的策略定时更新索引群的内容，当有数据检索任务的时候，由集群索引调度服务来根据服务器的负载情况定位到相应的服务器，通过查询索引，检查数据缓冲区是否包含相关数据，否则直接从文件服务器读取数据，同时将数据写入数据缓冲区。其中，集群索引调度服务和服务器之间通过简单对象访问协议（Simple Objective Access Protocol，简称为SOAP）执行相关任务（Task）。

如图5所示，检索服务对外提供多种检索接口，包括PC端，移动终端（操作系统可以为Android、IOS）等，当终端发送检索请求以及检索条件到检索服务器后，检索服务根据所检索的内容不同，查询数据索引，定位到不同数据管理系统，包括非关系型数据库（Not OnlyStructured Query Language，简称为NoSQL）数据库，关系型数据库，以及文件存储系统，相关数据库管理系统会根据所提供的查询条件，将相应结果返回给检索服务，由检索服务的统一接口返回给调用者。

如图6所示，权重计算器、索引管理器、数据文件管理器三个管理器共同构建成了系统的核心基础，其中，权重计算器负责根据服务器的负载情况，将任务分配到不同的索引管理器上；索引管理器负责监控数据文件的变化情况，并根据变化的情况下更新索引和重建映射，并对已有的索引进行管理，去除无效索引和，根据检索情况的不同将高频数据放入数据缓存；数据文件管理负责对数据文件的存、取、删除操作，并随时监控数据文件的变化情况，将变化情况反馈给索引管理器；数据缓存里保存检索频率比较高的数据文件，用以提高检索的效率；搜索引擎对外部开发，为用户提供数据文件的检索服务，当有检索任务的时候，引擎通过索引进行检索，根据索引情况从缓存或数据存储读取相应数据。

实施例2

1、大数据存储

随着集群中计算节点的数量的增长，带宽开销也会增长。通常情况下，使用Hadoop分布式文件系统（Hadoop Distributed File System，简称为HDFS）的多模计算集群在处理大数据时将会产生大量流量。这是因为HDFS在集群的成员服务器间传输数据(以及计算资源)。

在大多数情况下，基于服务器的本地存储并没有高效率的优点，比较本地服务器存储和基于SAN的存储时，本地存储在两个方面占据优势：成本和整体性能。为了改善本地存储在扩展方面的问题，现有两种方法可以使用，一种方法是增加具有更多本地存储的额外的服务器。第二种方法是增加集群服务器的容量。这两种方法都需要购买和配置硬件，无论使用哪种方法都要比向SAN增加容量要便宜，可以说，这是一个显著的成本优势。

2、建立索引数据文件

在进行检索之前，需要对保存在库里或者数据文件系统里的数据建立相应的索引。在大数据时代数据更多的以数据文件的方式保存，需要建立独立的数据索引文件，将数据文件的存储地址映射到相应的索引中。给定一个哈希键值，我们可以先求哈希函数的值，然后根据该值寻找相应的数据文件，最后只须在该数据文件中寻找包含给定哈希键值的记录即可。如果我们选取的文件数目B和档案中所有记录的数目大体相当，那么分配到每个数据的记录数目都会较小，这样在文件系统内部的搜索速度就会很快。

图7给出了包含姓名（name）、地址（address）和电话号码（phone）字段的记录的内存索引结构的大概结构。这里，索引基于电话号码字段构建，采用链表结构。图7中展示电话号码800-555-1212所对应的哈希号码为17。对于索引头(bucket header)构成的数组，其第i个元素实际上是第i个桶对应链表的头指针。图中展开了链表中的一个元素，它包含姓名、地址和电话号码字段的一条记录。事实上，该元素对应记录包含的电话号码正好是800-555-1212，但是其它记录可能包含也可能不包含这个电话号码，此时只知道这些记录中的电话号码经过哈希变换之后结果都是17。

3、缓存管理

普通的索引文件只解决了通常检索的需要，在大数据环境下，如果想要实现高效的数据文件的索引，建立内存索引映射无疑是一种很有效的方法。系统设置了一套可以统一管理系统运行时所有数据文件，并且能够负责与实际磁盘文件交互的缓存管理系统，缓存管理系统责任在缓存内建立一个映射大数据文件夹的索引表，以普通使用的索引特性为身份标识（Identity，简称为ID），将数据文件根据其不同的业务特性及文件属性的不同，在缓存中映射到不同的存储块。对于较大的数据文件夹，将数据文件分块进行内存映射，并发的将数据文件依次的映到文件处理服务器进程中的一个较小的地址空间。

缓存管理系统设置一个缓冲区，对于已经加载过的数据会保存相关的记录，如果再次出现访问则不需要再次加载、从而提高访问的效率以及速度。对于复杂数据的统计查询过程，本方法把这一过程包分解成两个过程，统计计算归集和实时查询，将统计计算归集过程放在后台运行，并且归集过程只归集增量数据，从而大大提高了大数据量统计查询的执行效率。

4、词索引与查询功能

系统中提供了传统的字索引，但是为提高查询检索的准确度，系统采用自然语言断词机制和灵活的词索引开关，用户可根据需要选择词索引或字索引。具体功能如下：

中文句子将透过智能型自动断词技术以达到词索引的效果，自动分析与断词，并建立词索引；

词索引功能通过开关灵活设置；

检索字串首先通过自动断词，将其断词结果进行组合检索；

提供「词库」编辑器，针对断词用的「词库」进行维护和调整；使中文切分词更符合使用者的行业特点，提高查询的速度和准确度。

优势如下：

提高精确度：输入「民法」不会找到「人民法院」；

更小的索引空间：通过词索引的方式，索引数据库相对字索引需要更少的磁盘空间；同样数据量下，检索时需要的内存（Memory）更少；

检索性能更高：配合高效算法，词索引的搜索性能相对字索引平均高出3倍以上。

5、信息萃取和服务

此部分提供对数据提取的内容所包含的信息，进行数据处理分析，包含：

分类模式建立自动分类功能。

针对非结构性数据建立词库，词库须包含同音词库、同义词库、专业词库。

自动分类机制与专业词库须具备自动学习与修正之功能以提升数据处理准确度。

可针对不同使用层级、项目进行非结构性数据权限控管。依照使用者不同等级提供不同权限的查询功能接口。

应用本系统一系列内容分析与索引核心组件群，将汇整的内容进行断词、索引、分类、文件特征等运算与处理，以便满足信息检索与信息管理的应用，提供多功能全面性的数据分析能力，可针对不同情境应用加以整合，快速达到使用者需求。

同时，用户利用本系统的搜索引擎处理提供的强大的搜索功能，如中文同音搜索、简繁体对译、模糊搜索、同义词搜索、文章概念搜索、分类浏览等，快速、准确、完整、及时、有效地搜索到符合自己搜索条件的信息。

6、数据监控和索引更新

由于一般互联网的特征：信息发布较为频繁，刚发布完的信息被编辑、修改的可能性大。基于这个特征，使用独立的数据文件监控器，监控器实时扫描数据文件存储器，监控数据文件变化情况，对新入库的数据建立新的内存映射索引，并以主索引+增量索引更新方式，根据应用场景的不同，灵活设置一个分隔时间点，对于当天该时间之前的数据建立主文件映射，每天定时重建映射，对于该时间之后的最新数据，间隔固定时间自动重建映射，以这种方式实现增量数据的定期归集，并保证数据索引的实时性和准确性，保证了检索的正确率。

综上所述，本发明实施例提供的上述方案实现了以下有益效果：

采用的高效率的整合搜索，大幅减少组织成员在取得信息时花费的时间，它能对企业内部绝大多数的信息创建索引和搜索，具备强大的信息整合及快速回应能力，可在最短时间内，完整、准确、及时地从海量数据库中搜索到相应的信息。

可以实现对非结构/非组织的信息的管理。文件/档案以及非经过分类管理的信息，因为附加信息稀少，往往成为知识利用上难以判断、分析的信息。本发明实施例提供的方案可以直接针对内容全文分析、关联，使这类信息同样可让使用者以检索方式，快速筛选利用。

整合容易，使用简易，导入迅速，易于接受。可以实现套装化、模块化的设计及灵活的整合能力，能在企业内迅速的安装设置；操作方式简单，企业成员易于接受，导入方便。以最经济的时间、人力及费用成本为企业创建信息流通、充分分享的知识环境。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种跨平台的数据检索方法，其特征在于，包括：

建立在云网络上各个平台的所有数据文件的索引，其中，所述索引中携带有所述数据文件的存储地址；

根据所述索引对所述数据文件进行检索。

2.根据权利要求1所述的方法，其特征在于，根据所述索引对所述数据文件进行检索之前，包括：

将所述索引按照所述索引对应的数据文件的特征信息进行分类；

将分类后的所述索引按照类别进行分类存储。

3.根据权利要求2所述的方法，其特征在于，所述特征信息包括以下至少之一：

业务类型、数据文件属性。

4.根据权利要求1所述的方法，其特征在于，建立在云网络上各个平台运行上的所有数据文件的索引，包括：

对数据文件大小超过预设阈值的数据文件进行分块；

对分块后的所述数据文件建立索引。

5.根据权利要求1所述的方法，其特征在于，建立在云网络上各个平台运行上的所有数据文件的索引，包括：

监测所述各个平台中数据文件的变化情况；

对新产生的数据文件建立索引。

6.根据权利要求1至5任一项所述的方法，其特征在于，根据所述索引对所述数据文件进行检索之后，还包括：

对检索到的数据进行缓存处理。

7.一种跨平台的数据检索装置，其特征在于，包括：

建立模块，用于建立在云网络上各个平台的所有数据文件的索引，其中，所述索引中携带有所述数据文件的存储地址；

检索模块，用于根据所述索引对所述数据文件进行检索。

8.根据权利要求7所述的装置，其特征在于，还包括：

分类模块，用于将所述索引按照所述索引对应的数据文件的特征信息进行分类；

存储模块，用于将分类后的所述索引按照类别进行分类存储。

9.根据权利要求7所述的装置，其特征在于，所述建立模块包括：

分块单元，用于对数据文件大小超过预设阈值的数据文件进行分块；

第一建立单元，用于对分块后的所述数据文件建立索引。

10.根据权利要求7所述的装置，其特征在于，所述建立模块包括：

监测单元，用于监测所述各个平台中数据文件的变化情况；

第二建立单元，用于对新产生的数据文件建立索引。