CN109857729A

CN109857729A - 数据服务方法和装置

Info

Publication number: CN109857729A
Application number: CN201811635204.7A
Authority: CN
Inventors: 王雪松; 刘铁生
Original assignee: Rtvu Online Distance Education Technology Co Ltd
Current assignee: Rtvu Online Distance Education Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-06-07

Abstract

本发明公开了一种数据服务方法和装置，包括：获取数据；将数据整合至数据分析平台；通过数据分析平台对数据进行分析，获取数据分析结果；对数据分析结果进行搜索查询，获取搜索查询结果。本发明能够对大量结构化或非结构化数据进行分析处理，并进行实时的数据搜索，具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点，用于满足各种复杂的数据分析、数据搜索的需求。

Description

数据服务方法和装置

技术领域

本发明涉及计算机技术领域，特别涉及数据服务方法和装置。

背景技术

随着大量结构化及非结构化数据在教育云平台中的应用以及海量数据的计算分析需求，急需一种在线教育云平台实时数据搜索系统。

现有技术中，数据搜索系统无法提供对海量数据进行实时和并发的搜索查询服务。

发明内容

本发明实施例提供了一种数据服务方法和装置。旨在解决现有技术无法提供对海量数据进行实时和并发的搜索查询服务的问题。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本发明实施例的第一方面，提供了一种数据服务方法，包括：

获取数据；

将数据整合至数据分析平台；

通过数据分析平台对数据进行分析，获取数据分析结果；

对数据分析结果进行搜索查询，获取搜索查询结果。

可选的，将数据整合至数据分析平台，包括：

通过logstash和kafka将数据整合至数据分析平台。

可选的，通过logstash和kafka将数据整合至数据分析平台，包括：

通过logstash抽取数据，并对数据进行数据格式转换及数据清洗；

通过kafka将数据整合至数据分析平台。

可选的，数据分析平台包括Spark，通过数据分析平台对数据进行分析，获取数据分析结果，包括：

通过Spark对数据进行分析，获取数据分析结果。

可选的，数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。

根据本发明实施例的第二方面，提供了一种数据服务装置，包括：

接收器，用于获取数据；

处理器，用于将数据整合至数据分析平台；

通过数据分析平台对数据进行分析，获取数据分析结果；

对数据分析结果进行搜索查询，获取搜索查询结果。

可选的，处理器还用于：

过logstash和kafka将数据整合至数据分析平台。

可选的，处理器还用于：

通过kafka将数据整合至数据分析平台。

可选的，数据分析平台包括Spark，处理器还用于：

通过Spark对数据进行分析，获取数据分析结果。

本发明实施例公开的技术方案，能够对大量结构化或非结构化数据进行分析处理，并进行实时的数据搜索，具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点，用于满足各种复杂的数据分析、数据搜索的需求。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例公开的一种数据服务方法的流程图；

图2是本发明实施例公开的一种数据服务装置的示意图。

具体实施方式

以下描述和附图充分地示出本发明的具体实施方案，以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求，否则单独的部件和功能是可选的，并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围，以及权利要求书的所有可获得的等同物。在本文中，各实施方案可以被单独地或总地用术语“发明”来表示，这仅仅是为了方便，并且如果事实上公开了超过一个的发明，不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中，诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来，而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言，由于其与实施例公开的部分相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本发明实施例公开了一种数据服务方法，如图1所示，包括：

S101、获取数据；

S102、将数据整合至数据分析平台；

S103、通过数据分析平台对数据进行分析，获取数据分析结果；

S104、对数据分析结果进行搜索查询，获取搜索查询结果。

在S101中，获取的数据可以包括从业务服务等中产生的数据，示例性的，业务服务产生的数据可以包括学生基本数据、课程选择数据等。

在S102中，将数据整合至数据分析平台，可以包括实时的数据整合和非实时的数据整合。示例性的，当S102中包括将数据实时整合至数据分析平台时，数据整合可以与数据产生同步进行，以便进一步实现对数据的实时分析和搜索。

在S103中，数据分析平台可以用于对整合接入的数据进行分析处理，获取数据分析结果。特别的，数据分析平台还可以将获取的数据分析结果保存至分析结果数据库中。

在S104中，通过对数据分析结果进行搜索查询，可以获取搜索查询结果，进一步的，可以通过外部接口对外提供搜索查询结果。

可选的，S102可以包括：

S1021、通过logstash和kafka将数据整合至数据分析平台。

logstash是一个开源的数据收集引擎，并且具有实时数据传输能力，可以统一过滤来自不同数据源的数据，并按照开发者制定的规范将数据输出到目的地。

一般的，logstash收集的数据对象包括日志文件，通常日志文件来源多，且内容杂乱，不便于进行观察。因此，可以使用logstash对日志文件进行收集和统一过滤，形成可读性高的内容，方便开发者或运维人员观察。

kafka是一个分布式、支持分区的、多副本的分布式消息系统，可以实时处理大量数据以满足各种场景的需求，处理动作流数据。

在S1021中，可以通过logstash和kafka将数据整合至数据分析平台。

进一步的，S1021可以包括：

S1022、通过logstash抽取数据，并对数据进行数据格式转换及数据清洗；

S1023、通过kafka将数据整合至数据分析平台。

示例性的，可以首先通过logstash将业务层产生的数据抽取出来，并对数据进行数据格式转换及数据清洗等处理，然后将数据发送到kafka中，由kafka作为统一的数据交换中继，将数据整合至数据分析平台。

可选的，数据分析平台可以包括Spark，S103可以包括：

S1031、通过Spark对数据进行分析，获取数据分析结果。

Spark是专为大规模数据处理而设计的快速通用的计算引擎，具有强大的流式计算能力和数据分析处理能力。

示例性的，通过Spark流式计算从kafka接收数据，通过Spark强大的数据分析处理能力对接入的数据进行分析处理，并可以将结果保存到分析结果数据库中。

进一步的，数据分析结果可以包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合，从而满足各种不同特性的数据搜索业务需求。

本发明实施例公开的技术方案，能够用于解决海量数据搜索查询时的实时性和并发性问题。根据Spark集群的部署和实际运行情况，可以随时调整Spark运行节点及各节点的资源配置，达到高伸缩性；根据Spark集群的容错和恢复机制，达到高可用性；根据Spark集群中各节点的综合计算处理能力，来达成更高的数据分理处理性能；根据可伸缩的数据搜索服务提升并发度。

本发明实施例还公开了一种数据服务装置20，包括：

接收器201，用于获取数据；

处理器202，用于将数据整合至数据分析平台；

通过数据分析平台对数据进行分析，获取数据分析结果；

对数据分析结果进行搜索查询，获取搜索查询结果。

数据服务装置20，可以用于执行如图1所示的方法，能够对大量结构化或非结构化数据进行分析处理，并进行实时的数据搜索，具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点，用于满足各种复杂的数据分析、数据搜索的需求。

可选的，处理器202还可以用于：

过logstash和kafka将数据整合至数据分析平台。

可选的，处理器202还可以用于：

通过kafka将数据整合至数据分析平台。

可选的，数据分析平台包括Spark，处理器202还可以用于：

通过Spark对数据进行分析，获取数据分析结果。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的流程及结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims

1.一种数据服务方法，包括：

获取数据；

将所述数据整合至数据分析平台；

通过所述数据分析平台对所述数据进行分析，获取数据分析结果；

对所述数据分析结果进行搜索查询，获取搜索查询结果。

2.根据权利要求1所述的方法，其特征在于，将所述数据整合至所述数据分析平台，包括：

通过logstash和kafka将所述数据整合至所述数据分析平台。

3.根据权利要求2所述的方法，其特征在于，通过logstash和kafka将所述数据整合至所述数据分析平台，包括：

通过logstash抽取所述数据，并对所述数据进行数据格式转换及数据清洗；

通过kafka将所述数据整合至所述数据分析平台。

4.根据权利要求1所述的方法，其特征在于，所述数据分析平台包括Spark，通过所述数据分析平台对所述数据进行分析，获取所述数据分析结果，包括：

通过Spark对所述数据进行分析，获取所述数据分析结果。

5.根据权利要求1所述的方法，其特征在于，所述数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。

6.一种数据服务装置，包括：

接收器，用于获取数据；

处理器，用于将所述数据整合至数据分析平台；

对所述数据分析结果进行搜索查询，获取搜索查询结果。

7.根据权利要求6所述的装置，其特征在于，所述处理器还用于：

过logstash和kafka将所述数据整合至所述数据分析平台。

8.根据权利要求7所述的装置，其特征在于，所述处理器还用于：

通过kafka将所述数据整合至所述数据分析平台。

9.根据权利要求6所述的装置，其特征在于，所述数据分析平台包括Spark，所述处理器还用于：

通过Spark对所述数据进行分析，获取所述数据分析结果。

10.根据权利要求6所述的装置，其特征在于，所述数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。