CN105224658A

CN105224658A - 一种大数据的实时查询方法和系统

Info

Publication number: CN105224658A
Application number: CN201510641107.9A
Authority: CN
Inventors: 孔云龙
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2016-01-06
Anticipated expiration: 2035-09-30
Also published as: CN105224658B

Abstract

本发明公开了一种大数据的实时查询方法和系统。所述方法包括：采集系统实时采集用户操作产生的互联网数据,并根据采集系统的传输规则将所述数据分类传输给消息订阅系统；所述消息订阅系统根据所述采集系统的传输规则将存储空间划分为不同的目录结构，所述不同的目录结构分别接收并存储由所述采集系统传输的不同类别的所述数据；所述消息订阅系统根据消息订阅系统的配置规则，将所述目录结构中的数据划分为最新数据和过期数据；查询引擎在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中；所述查询引擎发起查询请求，将数据读取到内存中进行处理。上述方法可实现高效的海量数据的实时查询。

Description

一种大数据的实时查询方法和系统

技术领域

本发明实施例涉及大数据领域中的实时数据查询处理技术，尤其涉及一种大数据的实时查询方法和系统。

背景技术

对海量数据进行高效快速的实时查询可以增强数据处理的准确性以及提高快速决策能力。

现有技术常采用高查询效率的Presto(查询引擎)和高吞吐量的Kafka(消息订阅系统)进行实时数据查询。图1是现有技术中Presto通过Kafka实时查询数据的示意图。如图1所示，数据源中的数据直接或者间接的实时发送到Kafka集群中，Kafka集群将数据存储在本地硬盘中，Presto通过结构化查询语言(StructuredQueryLanguage，SQL)对Kafka集群中的数据进行查询，可以保证查询的结果来自当前时间点之前的所有数据。

上述现有技术的方案中，Presto每一次通过SQL查询Kafka集群中的数据时，都是通过Kafka连接器将Kafka集群中存储的所有数据抽取到Presto集群之中，然后再对数据进行过滤，获取到需要的数据。随着Kafka集群中存储的数据越来越多，每次从Kafka集群中抽取的数据也会越来越多，在Presto集群中执行SQL查询的时间随之越来越长，经过太长的时间获取到的查询结果已经丧失了“实时性”的要求，这无疑对查询效率造成极大的制约。

发明内容

本发明提供一种大数据的实时查询方法和系统，以实现大数据的快速实时数据查询。

第一方面，本发明实施例提供了一种大数据的实时查询方法，包括：

采集系统实时采集用户操作产生的互联网数据,并根据采集系统的传输规则将所述数据分类传输给消息订阅系统；

所述消息订阅系统根据所述采集系统的传输规则将存储空间划分为不同的目录结构，所述不同的目录结构分别接收并存储由所述采集系统传输的不同类别的所述数据；

所述消息订阅系统根据消息订阅系统的配置规则，将所述目录结构中的数据划分为最新数据和过期数据；

查询引擎在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中；

所述查询引擎发起查询请求，将数据读取到内存中进行处理。

第二方面，本发明实施例还提供了一种大数据的实时查询系统，包括：

采集系统，用于实时采集用户操作产生的互联网数据,并根据采集系统的传输规则将所述数据分类传输给消息订阅系统；

消息订阅系统，用于根据所述采集系统的传输规则将存储空间划分为不同的目录结构，所述不同的目录结构分别接收并存储由所述采集系统传输的不同类别的所述数据；

所述消息订阅系统，还用于根据消息订阅系统的配置规则，将所述目录结构中的数据划分为最新数据和过期数据；

查询引擎，用于在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中；

调度系统，用于配合查询引擎实现过期数据的迁移；

数据仓库工具，用于接收并存储调度系统传输的所述过期数据；

所述查询引擎，还用于发起查询请求，将数据读取到内存中进行处理。

本发明实施例提供的技术方案，将实时互联网数据中的最新数据和过期数据分别存放在消息订阅系统和数据仓库工具中，避免了数据查询时由于数据存储量过大，造成目标信息获取较慢的问题，实现了高效的海量数据的实时查询。

附图说明

图1是现有技术中Presto通过Kafka实时查询数据的示意图；

图2是本发明实施例一中的一种大数据的实时查询方法的流程图；

图3是本发明实施例一中的基于Presto和Kafka的实时数据流查询方案流程图；

图4是本发明实施例三中的一种大数据的实时查询系统的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图2是本发明实施例一中的一种大数据的实时查询方法的流程图，本实施例可适用于海量数据的实时查询，该方法可以由大数据的实时查询系统来执行，所述装置通过软件和/或硬件实现。

参见图2，该方法具体包括：

步骤110、采集系统实时采集用户操作产生的互联网数据,并根据采集系统的传输规则将所述数据分类传输给消息订阅系统；

用户在互联网通信终端上的操作，例如，浏览网页，都会产生实时互联网数据，本实施例中，使用采集系统(Flume)对上述互联网数据进行实时采集，由用户在采集系统中预先设定传输规则，该传输规则包括对采集到的互联网数据的分类原则、对分类数据进行分类传输的原则、指导消息订阅系统进行不同目录结构划分的原则以及将分类数据传输到消息订阅系统对应目录结构下的原则。具体的，可按照互联网数据产生的网域进行分类，由一种网域产生的互联网数据作为一类，将不同类的数据进行分类传输。

步骤120、所述消息订阅系统根据所述采集系统的传输规则将存储空间划分为不同目录结构，所述不同目录结构分别接收并存储由所述采集系统传输的不同类别的所述数据；

上述指导消息订阅系统进行不同目录结构划分的原则实质意义是：使消息订阅系统参照数据的分类进行目录结构划分，即划分好的每一个目录或子目录与特定类的数据相对应，用于只存储这一类的数据。

消息订阅系统根据上述传输规则进行目录结构的划分后，采集系统将数据分类传输到对应的目录空间中。例如，当采集系统根据网域对数据进行分类传输时，消息订阅系统中的一个或多个目录空间或子目录空间对应接收和存储的是某一个网域产生的数据。

步骤130、所述消息订阅系统根据消息订阅系统的配置规则，将所述目录空间中的数据划分为最新数据和过期数据；

在本实施例中，消息订阅系统是Kafka，存储空间为Kafka中的topic(话题)下的不同Partitions。数据在每一个topic中分为多个Partition(分区)存放，每一个partition中数据又是分段存放的，消息订阅系统在对接收的数据进行存储时，先将数据存储在第一个分段中，当第一个分段中存储的数据达到设定的段长时，生成第二个分段，并继续存储数据。消息订阅系统的配置规则包括了对分段保留时间、滚动生成新的分段的周期和分段长度以及过期数据处理策略的设定。在每个topic中，对应分段的修改时间未超过保留时间的数据为最新数据，对应分段的修改时间超过保留时间的数据为过期数据，过期数据将会被标记，根据处理策略进行处理。本实施例中，消息订阅系统只用来存放最新数据，因此过期数据需要迁移出去，迁移完成之后原数据会被删除。

步骤140、查询引擎在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中；

消息订阅系统中过期数据的具体迁移过程是：查询引擎(Presto)在调度系统(Azkaban)的配合下将过期数据迁移到专门存放过期数据的数据仓库工具中(Hive)后，消息订阅系统根据配置规则中的数据处理策略将该过期数据删除。

进一步的，所述查询引擎在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中，包括：

所述调度系统对数据查询周期、过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系进行设置；

所述消息订阅系统对根据所述配置规则产生的过期数据进行标定；

所述查询引擎根据所述数据查询周期在消息订阅系统的数据中查询被标定的过期数据，并根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将被标定的过期数据迁移至数据仓库工具的对应分区中。

调度系统在对数据迁移任务进行调度的时候，需要查询引擎的配合，具体的，消息订阅系统中的数据会在存入一段时间后，从最新数据变为过期数据，因此需要对消息订阅系统中的数据进行周期性的查询，以保证能定时确定生成的过期数据，并及时进行调度。调度系统的调度周期应该与消息订阅系统中数据的有效期相一致，在设定好的数据查询周期下，查询引擎对消息订阅系统中的数据进行查询，并按照预设的过期数据迁移周期，在数据迁移时间点将分类的被标定过期数据插入到数据仓库指定的分区之中，其中，由调度系统根据调度系统设置的调度规则对被标定的过期数据进行分类。

在本实施例中，数据仓库工具专门用于存放过期数据，且为方便对过期数据的查询，数据仓库工具中的每个表(table)包括多个分区(partition)，用于对过期数据进行分类存储。具体的，过期数据根据调度系统设置的调度规则进行分类，不同类别的数据对应数据仓库工具中不同的分区。消息订阅系统存储空间中的过期数据通过查询引擎迁移到对应设置的数据仓库工具的分区中，数据仓库工具中的分区与消息订阅系统中的过期数据的对应关系由调度系统进行设置。

查询引擎根据过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将被标定的过期数据迁移到对应的数据仓库工具的分区中。

进一步的，所述查询引擎根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系将被标定的过期数据迁移至数据仓库工具的对应分区中，包括：

所述调度系统根据时间特征，将每个数据仓库工具分区对应的被标定过期数据分类；

所述查询引擎根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将分类的被标定过期数据分别迁移至数据仓库分区对应设置的子分区中。

其中，时间特征仅为调度系统对被标定过期数据分类的分类策略之一，所述分类策略还可为用户自定义的其他分类属性。

数据仓库工具的每个分区可进一步划分为多级分区，多级分区对应为多个子分区，用于对过期数据进行更为细致的分类存储。示例性的，消息订阅系统中有一周的过期数据需要迁移，则与该过期数据对应设置的数据仓库工具中的分区存储该过期数据，可将上述分区分为七个子分区，分别存储一周七天的数据，具体的，由调度系统将这一周内的数据分类传输到对应设置的七个子分区中。

步骤150、所述查询引擎发起查询请求，将数据读取到内存中进行处理。

在对数据进行查询时，由查询引擎发起查询请求，具体的，查询可根据需要对最新数据和过期数据中的一中或两种进行查询。查询引擎在确定查询请求后，根据查询请求的内容，将对应的数据读取到内存进行处理找到目标数据。

图3是本发明实施例一中的基于Presto和Kafka的实时数据流查询方案流程图。参见图3，可进一步明确上述步骤及对应的数据流向。

本实施例提供的技术方案，使用采集系统对互联网的实时数据进行采集，并将所述数据中的最新数据存储在消息订阅系统，过期数据迁移到数据仓库工具，实现最新数据和过期数据的单独存储，减少了查询过程中需处理的数据量，提高了对海量互联网数据实时查询的效率。

实施例二

本实施例以上述实施例一为基础，对数据的查询过程做进一步的说明。

示例性的，所述查询引擎发起查询请求，将数据读取到内存中进行处理之前，还包括：

将所述消息订阅系统和数据仓库工具中的数据合并，对合并后的数据建立视图。

在本实施例中，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

所述查询引擎向消息订阅系统发起查询请求；

所述查询引擎将所述消息订阅系统中的所有最新数据读取到内存中；

计算节点对读取到内存中的数据进行过滤得到目标数据。

或者，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

所述查询引擎向数据仓库工具发起查询请求；

所述查询引擎将所述数据仓库工具对应分区或子分区中的数据读取到内存中；

计算节点对读取到内存中的数据进行过滤得到目标数据。

又或者，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

所述查询引擎向消息订阅系统和数据仓库工具或视图发起联合查询请求；

所述查询引擎将消息订阅系统和数据仓库工具中的相关数据读取到内存中；

计算节点对读取到内存中的数据进行过滤得到目标数据。

本实施例中，数据库的实时查询方法可对最新数据和/或过期数据进行单独查询或联合查询。

用户根据查询需求在查询引擎的客户端输入相应的查询请求，查询引擎根据获取到的查询请求内容，读取对应的数据至内存中，并进行处理得到目标数据。具体的，当查询引擎获取到的是查询最新数据的查询请求时，将最新数据所在的消息订阅系统中的所有数据读取到查询引擎的内存中，并通过计算节点对数据进行计算过滤，得到目标数据。当查询引擎获取到的是查询过期数据的查询请求时，将过期数据所在的数据仓库工具分区或子分区中的数据读取到查询引擎的内存中，并通过计算节点对数据进行计算过滤，得到目标数据。示例性的，数据仓库工具分区(一级分区)指定存放最近一周的过期数据，子分区(二级分区)中分别存放这一周内七天的数据，当需要对这一周数据进行查询时，将这一周的数据所在分区中的数据都读取都内存中；当只需要对周三的数据进行查询时，将周三数据所在子分区(二级分区)中的数据读取到内存中即可。

无法判断目标数据是最新数据还是过期数据时，需要对最新数据和过期数据进行联合查询。进行联合查询时，用户需要在查询引擎的客户端输入查询请求，为便于查询请求的编辑，本实施例中对消息订阅系统中的最新数据和数据仓库工具中的过期数据进行合并，对合并后的数据建立视图。用户在客户端编辑查询请求时，即可通过视图对最新数据和过期数据进行联合查询，也可直接通过消息订阅系统和数据仓库工具对最新数据和过期数据进行联合查询。两种情况下只是发起请求的方式不同，但实质上数据的处理是相同的，都是查询引擎在获取查询请求后，将消息订阅系统和数据仓库工具中的对应的所有数据读取到内存中，通过计算节点对数据进行计算过滤得到目标数据。

本实施例提供的技术方案，用户可根据需要对消息订阅系统中的最新数据或数据仓库工具分区或子分区中的过期数据进行单独查询，也可通过视图或消息订阅系统和数据仓库工具对最新数据和过期数据进行联合查询。提高了对最新数据和过期数据进行独立查询的效率，且建立视图简化了用户查询请求的编辑过程，达到提高海量数据实时查询效率的有益效果。

实施例三

图4是本发明实施例三中提供的一种大数据的实时查询系统的结构图。所述大数据的实时查询系统，包括：

采集系统310，用于实时采集用户操作产生的互联网数据,并根据采集系统310的传输规则将所述数据分类传输给消息订阅系统320；

消息订阅系统320，用于根据所述采集系统310的传输规则将存储空间划分为不同的目录空间，所述不同目录空间分别接收并存储由所述采集系统310传输的不同类别的所述数据；

所述消息订阅系统320，还用于根据消息订阅系统320的配置规则，将所述目录空间中的数据划分为最新数据和过期数据；

查询引擎340，用于在调度系统330的配合下，按照调度系统330设置的调度规则将所述过期数据迁移至数据仓库工具350不同的分区中；

调度系统330，用于配合查询引擎340实现过期数据的迁移；

数据仓库工具350，用于接收并存储调度系统330传输的所述过期数据；

所述查询引擎340，还用于发起查询请求，将数据读取到内存中进行处理。

在本实施例中，所述调度系统330，具体用于对数据查询周期、过期数据迁移时间点、过期数据迁移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系进行设置；

所述查询引擎340，具体用于根据所述数据查询周期对消息订阅系统320中的数据进行查询；

所述调度系统330，还用于对查询引擎340查询到的过期数据进行标定；

所述查询引擎340，还用于根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系将被标定的过期数据迁移至数据仓库工具350的对应分区中。

进一步的，所述调度系统330，用于根据时间特征，将每个数据仓库工具350分区对应的被标定过期数据分类；

所述查询引擎340，用于根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统320中的过期数据与数据仓库工具350分区的对应关系，将分类的被标定过期数据分别迁移至数据仓库工具350分区对应设置的子分区中。

进一步的，所述查询引擎340，具体用于：

发起查询请求，将数据读取到内存中进行处理之前，将所述消息订阅系统320和数据仓库工具350中的数据合并，对合并后的数据建立视图。

示例性的，所述查询引擎340，具体用于：

向消息订阅系统320发起查询请求；

将所述消息订阅系统320中的所有最新数据读取到内存中；

通过计算节点对读取到内存中的数据进行过滤得到目标数据。

或者，所述查询引擎340，具体用于：

向数据仓库工具350发起查询请求；

将所述数据仓库工具350对应分区或子分区中的数据读取到内存中；

又或者，所述查询引擎340，具体用于：

向消息订阅系统320和数据仓库工具350或视图发起联合查询请求；

将消息订阅系统320和数据仓库工具350中的相关数据读取到内存中；

上述大数据的实时查询系统可执行本发明任意实施例所提供的大数据的实时查询方法，具备执行大数据的实时查询方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的数据库的操作。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种大数据的实时查询方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述查询引擎在调度系统的配合下，按照调度系统设置的调度规则将所述过期数据迁移至数据仓库工具不同的分区中，包括：

所述查询引擎根据所述数据查询周期在消息订阅系统的数据中查询被标定的过期数据，并根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系,将所述被标定的过期数据迁移至数据仓库工具的对应分区中。

3.根据权利要求2所述的方法，其特征在于，所述查询引擎根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系,将所述被标定的过期数据迁移至数据仓库工具的对应分区中，包括：

所述查询引擎根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将分类的被标定过期数据分别迁移至数据仓库工具分区对应设置的子分区中。

4.根据权利要求1所述的方法，其特征在于，所述查询引擎发起查询请求，将数据读取到内存中进行处理之前，还包括：

5.根据权利要求1所述的方法，其特征在于，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

所述查询引擎向消息订阅系统发起查询请求；

计算节点对读取到内存中的数据进行过滤得到目标数据。

6.根据权利要求1或3所述的方法，其特征在于，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

所述查询引擎向数据仓库工具发起查询请求；

计算节点对读取到内存中的数据进行过滤得到目标数据。

7.根据权利要求1或4所述的方法，其特征在于，所述查询引擎发起查询请求，将数据读取到内存中进行处理，包括：

计算节点对读取到内存中的数据进行过滤得到目标数据。

8.一种大数据的实时查询系统，其特征在于，包括：

调度系统，用于配合查询引擎实现过期数据的迁移；

9.根据权利要求8所述的系统，其特征在于：

所述调度系统，具体用于对数据查询周期、过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系进行设置；

所述消息订阅系统，具体用于对根据所述配置规则产生的过期数据进行标定；

所述查询引擎，具体用于根据所述数据查询周期在消息订阅系统的数据中查询被标定的过期数据，并根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将所述被标定的过期数据迁移至数据仓库工具的对应分区中。

10.根据权利要求9所述的系统，其特征在于：

所述调度系统，用于根据时间特征，将每个数据仓库工具分区对应的被标定过期数据分类；

所述查询引擎，用于根据所述过期数据迁移时间点、过期数据迁移周期以及消息订阅系统中的过期数据与数据仓库工具分区的对应关系，将分类的被标定过期数据分别迁移至数据仓库分区对应设置的子分区中。

11.根据权利要求8所述的系统，其特征在于，所述查询引擎，具体用于：

发起查询请求，将数据读取到内存中进行处理之前，将所述消息订阅系统和数据仓库工具中的数据合并，对合并后的数据建立视图。

12.根据权利要求8所述的系统，其特征在于，所述查询引擎,具体用于：

向消息订阅系统发起查询请求；

将所述消息订阅系统中的所有最新数据读取到内存中；

13.根据权利要求8或10所述的系统，其特征在于，所述查询引擎，具体用于：

向数据仓库工具发起查询请求；

将所述数据仓库工具对应分区或子分区中的数据读取到内存中；

14.根据权利要求8或11所述的系统，其特征在于，所述查询引擎,具体用于：

向消息订阅系统和数据仓库工具或视图发起联合查询请求；

将消息订阅系统和数据仓库工具中的相关数据读取到内存中；