CN107180113B

CN107180113B - 一种大数据检索平台

Info

Publication number: CN107180113B
Application number: CN201710455589.8A
Authority: CN
Inventors: 王琛
Original assignee: Shenzhen Yiscn Technology Co ltd
Current assignee: Shenzhen Yiscn Technology Co ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2020-12-29
Anticipated expiration: 2037-06-16
Also published as: CN107180113A

Abstract

本发明公开了一种大数据检索平台包括：数据适配模块用于实时获取多种类型的数据，并将获取的数据存入数据库中；数据索引模块用于：对数据进行格式转换、将待索引数据分发至索引服务器、将数据写入数据队列、对队列中的数据执行索引、将新追加的索引同步到索引库、定时对历史数据进行清理；云检索控制模块用于整合各检索服务器的统一计算能力，完成检索响应；扩展支持模块，用于对平台进行扩展支持；检索定制API模块用于进行接口定制，与上层系统对接，实现了利用大数据检索平台能够高效、低成本的实现大数据检索的技术效果。

Description

一种大数据检索平台

技术领域

本发明涉及数据处理技术领域，具体地说，是一种大数据检索平台。

背景技术

随着现代社会信息量的急剧增长，各种以Internet为载体的电子信息愈来愈多，如何有效、快速、准确地在海量信息中查找所需要的信息，已经成为人们的重要需求。

在信息化建设的初期，SQL Server、Oracle、Informix等结构化数据库，就能够满足大家对数据查询的需求。但是随着互联网的发展,非结构化的数据越来越多，并且增长迅速，传统的关系型数据库已经不能满足对这类数据的处理要求。以性能和效率为主的非关系型数据库成为大数据检索的常用解决方案。

随着数据量的进一步增大，全文检索数据库替代了结构化数据库，成为大数据量检索的常用解决方案。

在信息量继续以几何级爆炸式增长的今天，以高性能单服务器或集群服务器的解决方案已经不能满足每天数以TB计的实时数据流。现有技术中的大数据检索通常采用简单增加服务器来实现，导致检索效率较低，成本较高。

综上所述，本申请发明人在实现本申请发明技术方案的过程中，发现上述技术至少存在如下技术问题：

在现有技术中，现有的大数据检索存在检索效率较低，成本较高的技术问题。

发明内容

本发明的目的在于提供一种大数据检索平台，解决现有的大数据检索存在检索效率较低，成本较高的技术问题，实现利用大数据检索平台能够高效、低成本的实现大数据检索的技术效果。

为实现以上目的，本发明是通过以下技术方案来实现的，本申请提供了一种大数据检索平台，本申请中的大数据检索平台采用分布式并行运算技术，可整合多台服务器的计算能力，为前端应用提供毫秒级的检索响应速度，并可动态增加服务器来应对数据量或并发量的增长。

平台采用深度定制开发的策略，从核心算法一直到外围接口，可以根据具体项目、数据规模、数据类型以及检索用例进行相应的定制开发，保证最大化利用服务器性能，在提升检索效率的同时，降低硬件采购成本。

所述平台包括：数据适配模块、数据索引模块、云检索控制模块、扩展支持模块、检索定制API模块；

数据适配模块，用于实时获取多种类型的数据，并将获取的数据存入数据库中；对不同的数据源(如:文件数据,数据库数据,网络数据)定制适配器，并且能够实时跟踪该数据源数据的变化；

数据索引模块，用于对数据进行格式转换、将待索引数据分发至索引服务器、将数据写入数据队列、对队列中的数据执行索引、将新追加的索引同步到索引库、定时对历史数据进行清理；

云检索控制模块，所述云检索控制模块用于整合各检索服务器的统一计算能力，完成检索响应；

扩展支持模块，用于对平台进行扩展支持；

检索定制API模块，用于进行接口定制，与上层系统对接。

其中，所述扩展支持模块包括以下内容：

数据冗余：将数据按预设规则在数据源服务器中形成备份；

负载均衡：在数据检索请求高并发时，将请求均匀的分发给各检索服务器；

高速缓存：将某一时间段内频繁检索的数据放入高速缓存序列；

数据静态化：对执行过2次以上的历史检索数据，将数据源作为序列化文件存放在本地硬盘，再次检索时直接返回该反序列化对象；

连接池：将连接信息缓存在内存中；

统计分析定制：根据需求对统计分析需求进行定制；

平台状态查询：平台管理员通过图形化界面，查询平台中各服务器以及服务的运行情况；

平台稳定性测试：在预定的时间间隔后，自动对平台各部件进行稳定性测试；

故障通知服务：平台自动进行稳定性测试，若发现异常，将故障通知给平台管理员。

进一步的，所述数据索引模块的索引步骤包括：

步骤1：根据数据类型特点，采用预定义的分词方式对实体数据进行分词；

步骤2：:对分词后的标识信息按照倒排序索引或其它索引算法进行索引；

步骤3：存放索引标识和原始数据。

其中，倒排索引(Inverted Index)：倒排索引是实现“单词-文档矩阵”的一种具体存储形式，通过倒排索引，可以根据单词快速获取包含这个单词的文档列表。倒排索引主要由两个部分组成：“单词词典”和“倒排文件”。

单词词典(Lexicon)：搜索引擎的通常索引单位是单词，单词词典是由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的一些信息以及指向“倒排列表”的指针。

倒排列表(PostingList)：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项(Posting)。根据倒排列表，即可获知哪些文档包含某个单词。

倒排文件(Inverted File)：所有单词的倒排列表往往顺序地存储在磁盘的某个文件里，这个文件即被称之为倒排文件，倒排文件是存储倒排索引的物理文件。

通过对文字进行倒排序索引后，可大幅加快全文检索速度，为更大数量的分析利用，提供基础保障。

进一步的，基于所述云检索控制模块的检索步骤包括：

云检索控制模将分散在各检索服务器上的索引统一为一个整体虚拟索引；初始化数据；预装载内存；开启对外服务。

进一步的，云检索模块通过数据适配模块实时获取数据，数据分发服务将数据均匀的分发到数据索引模块中各索引服务；索引服务开始建立索引；将新追加的索引同步到索引库；检索服务在索引库中查询检索词；返回结果集给上层应用。

进一步的，数据索引模块包括多个检索服务器，索引服务器对数据进行索引后，对数据进行拆分并定时同步到指定的检索服务器；云检索控制模块将分散在各检索服务器上的索引整合为统一的虚拟索引；云检索控制模块处理检索请求时，并行向多个检索服务器发出检索指令，等待最后一个检索服务器返回后，对数据按照请求参数进行相关度或字段排序，返回给上层应用。

进一步的，云检索模块包括多个索引服务器和多个数据分发服务器，数据分发服务器将获得的源数据分发到各个索引服务器。

进一步的，云检索模块包括多个检索服务器，将索引进行拆分平均分配到多个检索服务器，通过调整索引服务器分割粒子，重新分配各检索服务器HashCode范围。

进一步的，在云检索模块中的索引服务器上，逐个对检索服务器进行Master/Slave标识；索引服务器在将索引同步到Master检索服务器的同时，对Slave检索服务器进行同步；云检索控制模块根据Master/Slave标识对检索服务器进行分组，均匀的将请求发送到各个分组。

进一步的，所述平台设有多个云检索控制模块，云检索控制模块上部署有负载均衡模块；负载均衡模块之间采用P2P进行连接；当请求发送到任意一台云检索控制模块时，负载均衡模块将请求转发到当前资源占用最少的云检索控制模块，实现数据高并发处理。

进一步的，写入索引时，按照预定义的冗余规则，对数据形成多份写入，同一条数据，分别写入不同的两台或更多服务器，互为备份，当一定数量的服务器同时出现故障时，仍然能够保持对外服务。故障出现时，并发处理能力会下降，当管理员修复故障后，即可恢复。

数据冗余在增加少量服务器的基础上，可以实现基本的可靠性保障，但如果故障全面爆发，连续多个关键点同时出现故障，整个云检索平台将会崩溃。此时可进行“1+1”扩展，进一步提升可靠性。通过对“分布式部署”进行复制，并搭配两台“请求分发服务器”(避免单点故障)，分发请求到各个分布式部署，达到双机热备效果的同时，还可提升1倍的并发处理能力。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

通过增加检索服务器、增加索引服务器、增加数据分发服务器实现了高性能；通过增加检索服务器用于分散索引和主从复制、通过增加云检索控制服务器实现数据高并发处理；通过数据冗余和1+1备份实现高可靠；实现了利用大数据检索平台能够高效、低成本的实现大数据检索的技术效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中大数据检索平台的整体系统架构图；

图2是本申请中大数据检索平台的处理流程示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

谈到云检索平台的部署方案之前，首先要谈到我们的小企业解决方案。大多数小企业应用初期的数据量和并发都非常的小，通过简单的部署即可满足检索和索引的需求。

实现细节：

1、一台服务器上同时部署索引服务和检索服务；

2、索引服务定时的从数据源获取数据，将索引加入到本地数据库；

3、上层应用调用检索定制接口，即可进行检索。

4、在数据量和并发量都不是很大的情况下，以上方案完全可以满足小企业的需求。但当数据量上升到一个非常庞大的规模后，简单的通过提升机器配置已经不可能满足需求时，就需要对方案进行扩展。下面将分析如何一步一步的解决各个系统瓶颈，提升性能。

而本申请通过大数据检索平台来解决数据量大后带来的相应问题，请参考图1-图2，具体的实现方式为：

一、如何实现高性能：

1、增加检索服务器

根据数据特点，把数据按一定的原则，分布到多个服务器上，这样就可以利用多台服务器的计算能力来并行的处理同一个检索请求，实现高效率的检索响应。

比如把1000万的数据放在一台服务器上做检索，平均耗时1秒。把数据拆分成10份，每个服务器放100万条，通过并行查询再合并检索结果，理论上平均检索耗时为100毫秒。

实际情况中，当单服务器数量级下降后，数据结构的复杂程度呈几何下降，检索效率的提升也是指数提升的。

实现细节：

(1)读写操作分离，把检索和索引分别部署在不同的服务器上，分散硬盘IO；

(2)索引服务器对数据进行索引后，按照检索服务器的数量以及冗余规则，对数据进行拆分并定时同步到指定的检索服务器；

(3)分散后的索引需要一个统一的调度，通过增加“云检索控制服务器”，把分散在各服务器上的索引整合为统一的虚拟索引。处理检索请求时，并行向多个检索服务器发出检索指令，等待最后一个服务器返回后，对数据按照请求参数进行相关度或字段排序，返回给上层应用。

2、增加索引服务器

当数据量增大，一台索引服务器不能胜任时，增加多个索引服务器来同时处理索引，保证数据能够即时的被索引。

比如数据源每秒能产生30MB的数据，而单个索引服务器每秒只能索引15M，这时用两台索引服务器来分担数据，分别向数据源获取50％的数据，保证数据索引的及时性，避免出现恶性循环。

实现细节：

(1)增加多个索引服务器；

(2)多个索引服务器需要一个调度，通过增加“数据分发服务器”，将获得的源数据，分发到各个索引服务器。分发服务器只做数据转发，不处理索引，所以处理效率接近硬盘最高写入速度；

(3)各索引服务器接收数据后，对数据进行索引，并定时同步到指定的检索服务器；

3、增加数据分发服务器

当数据源产生数据的速度，已经超过单个“数据分发服务器”的IO极限后，需要增加“数据分发服务器”来保证及时的获取数据，每个“数据分发服务器”指定不同的数据适配，分散IO。

比如数据源每秒产生200MB数据，能产生这么超大规模的数据，数据源服务器必定不止一个。一台普通服务器的IO极限，大概在100MB左右(固态硬盘要高一些，但是目前普及率太低)，这时通过增加一台或两台服务器，分别从不同的数据源获取数据，再向下分发，即可保证数据获取的及时性。

实现细节：

(1)多个“数据分发服务器”上都部署数据适配器，调整数据适配参数，以一对多的形式，每台服务器指定向某几台数据源服务器获取数据；

(2)将获取后的源数据分散到各索引服务器进行索引。

二、如何实现高并发

前面已经解决了性能问题，现在面临并发量提升的需求，提高并发量的前提是检索速度得到满足的前提下。所以就有了两种路线来实现并发量的提升。

1、增加检索服务器——用于分散索引

增加检索服务器，把索引进一步拆散，减少每台服务器数据量，达到提升效率的目的。通过分散索引的方式，可以进一步减少数据结构复杂程度，指数级提升检索响应。

实现细节：

通过调整索引服务器分割粒子，重新分配各服务器HashCode范围；

2、增加检索服务器——用于主从复制

增加当前一倍或多倍的检索服务器，检索服务器组之间分主从关系，可分担并发相应，效率的提升是线性的。

实现细节：

(1)在索引服务器上，逐个对检索服务器进行Master/Slave标识；

(2)索引服务器在将索引同步到Master检索服务器的同时，对Slave检索服务器进行同步。保证数据一致性；

(3)云检索控制根据Master/Slave标识对检索服务器进行分组，均匀的将请求发送到各个分组。

3、增加云检索控制服务器

通过以上两种方式，正常情况下已经可以满足较高的并发。“云检索控制服务器”是典型的CPU密集型，需要发出多线程检索请求，还需要合并数据并排序。当并发增加到相对较大的数据量级时，瓶颈就会出现在“云检索控制服务器”上，此时通过增加多个“云检索控制服务器”，来分担检索请求。

实现细节：

(1)增加多个“云检索控制服务器”；

(2)在多个“云检索控制服务器”上部署负载均衡模块；

(3)负载均衡模块之间不分主从，采用P2P进行连接；

(4)当请求发送到任意一台“云检索控制服务器”，负载均衡会自动把请求转发到当前资源占用最少的服务器，均衡检索处理能力。

三、如何实现高可靠

在高性能和高并发已经满足需求的前提下，需要进一步提升平台的可靠性，减少因为单点故障造成整个平台崩溃的可能性。

目前我们有两种方案来实现高可靠性：

1、数据冗余

写入索引时，按照预定义的冗余规则，对数据形成多份写入，同一条数据，分别写入不同的两台或更多服务器，互为备份，当一定数量的服务器同时出现故障时，仍然能够保持对外服务。故障出现时，并发处理能力会下降，当管理员修复故障后，即可恢复。

实现细节：

(1)在“索引服务器”上根据需要调整冗余参数；

(2)“云检索控制服务器”根据冗余参数，任意组合“检索服务器”组对外服务；

(3)当检索不能在指定的超时时间内返回时，则自动检测故障服务器，跳过故障服务器后，另外组合“检索服务器”组对外服务。同时根据预定义方式，将故障通知管理员。

2、1+1备份

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种大数据检索平台，其特征在于，所述平台包括：数据适配模块、数据索引模块、云检索控制模块、扩展支持模块、检索定制API模块；所述数据索引模块包括多个索引服务器和多个数据分发服务器，用于实现数据的高并发处理；

数据适配模块，用于实时获取多种类型的数据，并将获取的数据存入数据库中；

数据索引模块，用于对数据进行格式转换、将待索引数据分发至索引服务器、将数据写入数据队列、对队列中的数据执行索引、将新追加的索引同步到索引库、定时对历史数据进行清理；写入索引时，按照预定义的冗余规则，对数据形成多份写入，同一条数据，分别写入不同的两台或更多索引服务器；

云检索控制模块，用于整合各检索服务器的统一计算能力，完成检索响应；

扩展支持模块，用于对平台进行扩展支持；

检索定制API模块，用于进行接口定制，与上层系统对接，其中，平台中的每个模块由不同的服务器来完成该模块的功能；

数据适配模块包括若干数据适配器，所述平台中多个数据分发服务器上都部署数据适配器，调整数据适配参数，以一对多的形式，每台数据分发服务器指定向某几台数据源服务器获取数据，将获取后的源数据分散到各索引服务器进行索引；

所述平台设有多个云检索控制模块，云检索控制模块上部署有负载均衡模块；负载均衡模块之间采用P2P进行连接；当请求发送到任意一台云检索控制模块时，负载均衡模块将请求转发到当前资源占用最少的云检索控制模块；

所述平台采用分布式并行运算方式，通过对分布式部署进行复制，所述平台搭配两台请求分发服务器，分发请求到各个分布式部署；

云检索控制模块中包括多个检索服务器，将索引进行拆分平均分配到多个检索服务器，通过调整索引服务器分割粒子，重新分配各检索服务器HashCode范围，进一步实现数据高并发处理；在索引服务器上，逐个对检索服务器进行Master/Slave标识；索引服务器在将索引同步到Master检索服务器的同时，对Slave检索服务器进行同步；云检索控制模块根据Master/Slave标识对检索服务器进行分组，均匀的将请求发送到各个分组，进一步实现数据高并发处理；

云检索控制模块处理检索请求时，并行向多个检索服务器发出检索指令，等待最后一个检索服务器返回后，对数据按照请求参数进行相关度或字段排序，返回给上层应用。

2.根据权利要求1所述的大数据检索平台，其特征在于，所述扩展支持模块具体用于：

数据冗余：将数据按预设规则在数据源服务器中形成备份；

数据静态化：对执行过2次以上的历史检索数据，将数据源作为序列化文件存放在本地硬盘，再次检索时直接返回反序列化对象；

连接池：将连接信息缓存在内存中；

统计分析定制：根据需求对统计分析需求进行定制；

3.根据权利要求1所述的大数据检索平台，其特征在于，所述数据索引模块的索引步骤包括：

根据数据类型特点，采用预定义的分词方式对实体数据进行分词；

对分词后的标识信息进行倒排序索引；

存放索引标识和原始数据；

其中，对分词后的标识信息进行倒排序索引具体包括：

通过倒排索引，根据单词获取包含该单词的文档列表；倒排索引包括：单词词典、倒排列表、倒排文件；

单词词典：搜索引擎的索引单位是单词，单词词典为由文档集合中出现过的所有单词构成的字符串集合，单词词典内每条索引项记载单词本身的信息以及指向倒排列表的指针；

倒排列表：倒排列表记载了出现过某个单词的所有文档的文档列表及单词在该文档中出现的位置信息，每条记录称为一个倒排项；根据倒排列表，即可获知哪些文档包含某个单词；

倒排文件：所有单词的倒排列表存储在磁盘的倒排文件中，倒排文件是存储倒排索引的物理文件。

4.根据权利要求1所述的大数据检索平台，其特征在于，基于所述云检索控制模块的检索步骤包括：

5.根据权利要求1所述的大数据检索平台，其特征在于，平台通过数据适配模块实时获取数据，数据分发服务将数据均匀的分发到数据索引模块中各索引服务；索引服务开始建立索引；将新追加的索引同步到索引库；检索服务在索引库中查询检索词；返回结果集给上层应用。

6.根据权利要求1所述的大数据检索平台，其特征在于，云检索控制模块中包括多个检索服务器，当数据处理需求超过检索服务器时，采用多台检索服务器同时进行处理，索引服务器对数据进行索引后，对数据进行拆分并定时同步到指定的检索服务器；云检索控制模块将分散在各检索服务器上的索引整合为统一的虚拟索引；云检索控制模块处理检索请求时，并行向多个检索服务器发出检索指令，等待最后一个检索服务器返回后，对数据按照请求参数进行相关度或字段排序，返回给上层应用。