CN109857729A - 数据服务方法和装置 - Google Patents

数据服务方法和装置 Download PDF

Info

Publication number
CN109857729A
CN109857729A CN201811635204.7A CN201811635204A CN109857729A CN 109857729 A CN109857729 A CN 109857729A CN 201811635204 A CN201811635204 A CN 201811635204A CN 109857729 A CN109857729 A CN 109857729A
Authority
CN
China
Prior art keywords
data
data analysis
result
analysis platform
integration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811635204.7A
Other languages
English (en)
Inventor
王雪松
刘铁生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rtvu Online Distance Education Technology Co Ltd
Original Assignee
Rtvu Online Distance Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rtvu Online Distance Education Technology Co Ltd filed Critical Rtvu Online Distance Education Technology Co Ltd
Priority to CN201811635204.7A priority Critical patent/CN109857729A/zh
Publication of CN109857729A publication Critical patent/CN109857729A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据服务方法和装置,包括:获取数据;将数据整合至数据分析平台;通过数据分析平台对数据进行分析,获取数据分析结果;对数据分析结果进行搜索查询,获取搜索查询结果。本发明能够对大量结构化或非结构化数据进行分析处理,并进行实时的数据搜索,具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点,用于满足各种复杂的数据分析、数据搜索的需求。

Description

数据服务方法和装置
技术领域
本发明涉及计算机技术领域,特别涉及数据服务方法和装置。
背景技术
随着大量结构化及非结构化数据在教育云平台中的应用以及海量数据的计算分析需求,急需一种在线教育云平台实时数据搜索系统。
现有技术中,数据搜索系统无法提供对海量数据进行实时和并发的搜索查询服务。
发明内容
本发明实施例提供了一种数据服务方法和装置。旨在解决现有技术无法提供对海量数据进行实时和并发的搜索查询服务的问题。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。
根据本发明实施例的第一方面,提供了一种数据服务方法,包括:
获取数据;
将数据整合至数据分析平台;
通过数据分析平台对数据进行分析,获取数据分析结果;
对数据分析结果进行搜索查询,获取搜索查询结果。
可选的,将数据整合至数据分析平台,包括:
通过logstash和kafka将数据整合至数据分析平台。
可选的,通过logstash和kafka将数据整合至数据分析平台,包括:
通过logstash抽取数据,并对数据进行数据格式转换及数据清洗;
通过kafka将数据整合至数据分析平台。
可选的,数据分析平台包括Spark,通过数据分析平台对数据进行分析,获取数据分析结果,包括:
通过Spark对数据进行分析,获取数据分析结果。
可选的,数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。
根据本发明实施例的第二方面,提供了一种数据服务装置,包括:
接收器,用于获取数据;
处理器,用于将数据整合至数据分析平台;
通过数据分析平台对数据进行分析,获取数据分析结果;
对数据分析结果进行搜索查询,获取搜索查询结果。
可选的,处理器还用于:
过logstash和kafka将数据整合至数据分析平台。
可选的,处理器还用于:
通过logstash抽取数据,并对数据进行数据格式转换及数据清洗;
通过kafka将数据整合至数据分析平台。
可选的,数据分析平台包括Spark,处理器还用于:
通过Spark对数据进行分析,获取数据分析结果。
可选的,数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。
本发明实施例公开的技术方案,能够对大量结构化或非结构化数据进行分析处理,并进行实时的数据搜索,具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点,用于满足各种复杂的数据分析、数据搜索的需求。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。
图1是本发明实施例公开的一种数据服务方法的流程图;
图2是本发明实施例公开的一种数据服务装置的示意图。
具体实施方式
以下描述和附图充分地示出本发明的具体实施方案,以使本领域的技术人员能够实践它们。实施例仅代表可能的变化。除非明确要求,否则单独的部件和功能是可选的,并且操作的顺序可以变化。一些实施方案的部分和特征可以被包括在或替换其他实施方案的部分和特征。本发明的实施方案的范围包括权利要求书的整个范围,以及权利要求书的所有可获得的等同物。在本文中,各实施方案可以被单独地或总地用术语“发明”来表示,这仅仅是为了方便,并且如果事实上公开了超过一个的发明,不是要自动地限制该应用的范围为任何单个发明或发明构思。本文中,诸如第一和第二等之类的关系术语仅仅用于将一个实体或者操作与另一个实体或操作区分开来,而不要求或者暗示这些实体或操作之间存在任何实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素。本文中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的结构、产品等而言,由于其与实施例公开的部分相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本发明实施例公开了一种数据服务方法,如图1所示,包括:
S101、获取数据;
S102、将数据整合至数据分析平台;
S103、通过数据分析平台对数据进行分析,获取数据分析结果;
S104、对数据分析结果进行搜索查询,获取搜索查询结果。
在S101中,获取的数据可以包括从业务服务等中产生的数据,示例性的,业务服务产生的数据可以包括学生基本数据、课程选择数据等。
在S102中,将数据整合至数据分析平台,可以包括实时的数据整合和非实时的数据整合。示例性的,当S102中包括将数据实时整合至数据分析平台时,数据整合可以与数据产生同步进行,以便进一步实现对数据的实时分析和搜索。
在S103中,数据分析平台可以用于对整合接入的数据进行分析处理,获取数据分析结果。特别的,数据分析平台还可以将获取的数据分析结果保存至分析结果数据库中。
在S104中,通过对数据分析结果进行搜索查询,可以获取搜索查询结果,进一步的,可以通过外部接口对外提供搜索查询结果。
本发明实施例公开的技术方案,能够对大量结构化或非结构化数据进行分析处理,并进行实时的数据搜索,具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点,用于满足各种复杂的数据分析、数据搜索的需求。
可选的,S102可以包括:
S1021、通过logstash和kafka将数据整合至数据分析平台。
logstash是一个开源的数据收集引擎,并且具有实时数据传输能力,可以统一过滤来自不同数据源的数据,并按照开发者制定的规范将数据输出到目的地。
一般的,logstash收集的数据对象包括日志文件,通常日志文件来源多,且内容杂乱,不便于进行观察。因此,可以使用logstash对日志文件进行收集和统一过滤,形成可读性高的内容,方便开发者或运维人员观察。
kafka是一个分布式、支持分区的、多副本的分布式消息系统,可以实时处理大量数据以满足各种场景的需求,处理动作流数据。
在S1021中,可以通过logstash和kafka将数据整合至数据分析平台。
进一步的,S1021可以包括:
S1022、通过logstash抽取数据,并对数据进行数据格式转换及数据清洗;
S1023、通过kafka将数据整合至数据分析平台。
示例性的,可以首先通过logstash将业务层产生的数据抽取出来,并对数据进行数据格式转换及数据清洗等处理,然后将数据发送到kafka中,由kafka作为统一的数据交换中继,将数据整合至数据分析平台。
可选的,数据分析平台可以包括Spark,S103可以包括:
S1031、通过Spark对数据进行分析,获取数据分析结果。
Spark是专为大规模数据处理而设计的快速通用的计算引擎,具有强大的流式计算能力和数据分析处理能力。
示例性的,通过Spark流式计算从kafka接收数据,通过Spark强大的数据分析处理能力对接入的数据进行分析处理,并可以将结果保存到分析结果数据库中。
进一步的,数据分析结果可以包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合,从而满足各种不同特性的数据搜索业务需求。
本发明实施例公开的技术方案,能够用于解决海量数据搜索查询时的实时性和并发性问题。根据Spark集群的部署和实际运行情况,可以随时调整Spark运行节点及各节点的资源配置,达到高伸缩性;根据Spark集群的容错和恢复机制,达到高可用性;根据Spark集群中各节点的综合计算处理能力,来达成更高的数据分理处理性能;根据可伸缩的数据搜索服务提升并发度。
本发明实施例还公开了一种数据服务装置20,包括:
接收器201,用于获取数据;
处理器202,用于将数据整合至数据分析平台;
通过数据分析平台对数据进行分析,获取数据分析结果;
对数据分析结果进行搜索查询,获取搜索查询结果。
数据服务装置20,可以用于执行如图1所示的方法,能够对大量结构化或非结构化数据进行分析处理,并进行实时的数据搜索,具有高可伸缩性、高可用性、高容错性、高实时性、高性能的特点,用于满足各种复杂的数据分析、数据搜索的需求。
可选的,处理器202还可以用于:
过logstash和kafka将数据整合至数据分析平台。
可选的,处理器202还可以用于:
通过logstash抽取数据,并对数据进行数据格式转换及数据清洗;
通过kafka将数据整合至数据分析平台。
可选的,数据分析平台包括Spark,处理器202还可以用于:
通过Spark对数据进行分析,获取数据分析结果。
可选的,数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的流程及结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (10)

1.一种数据服务方法,包括:
获取数据;
将所述数据整合至数据分析平台;
通过所述数据分析平台对所述数据进行分析,获取数据分析结果;
对所述数据分析结果进行搜索查询,获取搜索查询结果。
2.根据权利要求1所述的方法,其特征在于,将所述数据整合至所述数据分析平台,包括:
通过logstash和kafka将所述数据整合至所述数据分析平台。
3.根据权利要求2所述的方法,其特征在于,通过logstash和kafka将所述数据整合至所述数据分析平台,包括:
通过logstash抽取所述数据,并对所述数据进行数据格式转换及数据清洗;
通过kafka将所述数据整合至所述数据分析平台。
4.根据权利要求1所述的方法,其特征在于,所述数据分析平台包括Spark,通过所述数据分析平台对所述数据进行分析,获取所述数据分析结果,包括:
通过Spark对所述数据进行分析,获取所述数据分析结果。
5.根据权利要求1所述的方法,其特征在于,所述数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。
6.一种数据服务装置,包括:
接收器,用于获取数据;
处理器,用于将所述数据整合至数据分析平台;
通过所述数据分析平台对所述数据进行分析,获取数据分析结果;
对所述数据分析结果进行搜索查询,获取搜索查询结果。
7.根据权利要求6所述的装置,其特征在于,所述处理器还用于:
过logstash和kafka将所述数据整合至所述数据分析平台。
8.根据权利要求7所述的装置,其特征在于,所述处理器还用于:
通过logstash抽取所述数据,并对所述数据进行数据格式转换及数据清洗;
通过kafka将所述数据整合至所述数据分析平台。
9.根据权利要求6所述的装置,其特征在于,所述数据分析平台包括Spark,所述处理器还用于:
通过Spark对所述数据进行分析,获取所述数据分析结果。
10.根据权利要求6所述的装置,其特征在于,所述数据分析结果包括联合查询结果、数据排序结果、数据过滤结果、数据分组结果和数据聚合结果中的一项或多项的组合。
CN201811635204.7A 2018-12-29 2018-12-29 数据服务方法和装置 Pending CN109857729A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811635204.7A CN109857729A (zh) 2018-12-29 2018-12-29 数据服务方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811635204.7A CN109857729A (zh) 2018-12-29 2018-12-29 数据服务方法和装置

Publications (1)

Publication Number Publication Date
CN109857729A true CN109857729A (zh) 2019-06-07

Family

ID=66893203

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811635204.7A Pending CN109857729A (zh) 2018-12-29 2018-12-29 数据服务方法和装置

Country Status (1)

Country Link
CN (1) CN109857729A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649426A (zh) * 2016-08-05 2017-05-10 浪潮软件股份有限公司 一种数据分析方法和数据分析平台以及服务器
CN108365985A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种集群管理方法、装置、终端设备及存储介质
US20180341956A1 (en) * 2017-05-26 2018-11-29 Digital River, Inc. Real-Time Web Analytics System and Method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649426A (zh) * 2016-08-05 2017-05-10 浪潮软件股份有限公司 一种数据分析方法和数据分析平台以及服务器
US20180341956A1 (en) * 2017-05-26 2018-11-29 Digital River, Inc. Real-Time Web Analytics System and Method
CN108365985A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种集群管理方法、装置、终端设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
杨茵: "基于Spark的固网业务日志统计分析平台设计与应用", 《电信科学》 *

Similar Documents

Publication Publication Date Title
CN104424229B (zh) 一种多维度拆分的计算方法及系统
Ding et al. Enabling smart transportation systems: A parallel spatio-temporal database approach
Zhu et al. A clustering-based QoS prediction approach for Web service recommendation
JP2019532370A (ja) ユーザ権限データ検索方法および電子機器
Matallah et al. Towards a new model of storage and access to data in big data and cloud computing
CN105243169B (zh) 一种数据查询方法及系统
CN107332685A (zh) 国网云中应用的一种基于大数据运维日志的方法
CN106528683B (zh) 一种基于索引分片均衡的大数据云搜索系统及其方法
CN109582551A (zh) 日志数据解析方法、装置、计算机设备和存储介质
KR20130113653A (ko) 대용량 데이터의 클러스터 결과 분석 시스템 및 방법
Alarabi et al. TAREEG: a MapReduce-based web service for extracting spatial data from OpenStreetMap
CN106168963B (zh) 实时流数据的处理方法、装置及服务器
Chebbi et al. Big data: Concepts, challenges and applications
CN106453320B (zh) 恶意样本的识别方法及装置
CN103731498B (zh) 一种基于副本选择的大数据实时查询系统负载均衡方法
CN109542741A (zh) 日志自动分组存储方法、装置、计算机设备和存储介质
CN113360554A (zh) 一种数据抽取、转换和加载etl的方法和设备
CN103984713A (zh) 一种基于云计算的财务数据查询方法
Li et al. Sampling big trajectory data
Chen et al. SSTD: A distributed system on streaming spatio-textual data
Reddy et al. A comprehensive literature review on data analytics in IIoT (Industrial Internet of Things)
You et al. A complete and fast scraping method for collecting tweets
CN102999558A (zh) 使用数据结构处理搜索查询
CN109857729A (zh) 数据服务方法和装置
CN110458432A (zh) 一种基于云模型的电力光传输网可靠性诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190607

RJ01 Rejection of invention patent application after publication