CN110109990A - 时序数据处理方法、设备、数据处理设备及介质 - Google Patents

时序数据处理方法、设备、数据处理设备及介质 Download PDF

Info

Publication number
CN110109990A
CN110109990A CN201910205507.3A CN201910205507A CN110109990A CN 110109990 A CN110109990 A CN 110109990A CN 201910205507 A CN201910205507 A CN 201910205507A CN 110109990 A CN110109990 A CN 110109990A
Authority
CN
China
Prior art keywords
data
time series
configuration information
data processing
series data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910205507.3A
Other languages
English (en)
Inventor
陈越晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing QIYI Century Science and Technology Co Ltd
Original Assignee
Beijing QIYI Century Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing QIYI Century Science and Technology Co Ltd filed Critical Beijing QIYI Century Science and Technology Co Ltd
Priority to CN201910205507.3A priority Critical patent/CN110109990A/zh
Publication of CN110109990A publication Critical patent/CN110109990A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2474Sequence data queries, e.g. querying versioned data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种时序数据处理方法、设备、数据处理设备及介质。一种时序数据处理方法,包括:接收用户输入,包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、及数据呈现配置信息;解析数据处理配置信息,并生成至少一个数据处理任务,通过执行至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;解析数据存储配置信息,并存储时序数据处理结果;及解析数据呈现配置信息,并呈现时序数据分析结果。本发明通过使得用户能够通过简单地配置输入,便可以基于时序数据来生成分析结果,而不需要用户自己编程来开发大数据处理任务,并且也不需要用户自己比较熟悉计算引擎和存储引擎才能生成分析报表。

Description

时序数据处理方法、设备、数据处理设备及介质
技术领域
本发明涉及数据处理技术,尤其涉及时序数据处理方法、设备、数据处理设备及介质。
背景技术
随着实时计算的兴起,大众对实时数据进行分析和处理的需求越来越多。由于大部分的实时数据都是时序数据,因此分析的需求也往往集中在基于特定维度的聚合分析上。在本文中,时序数据指时间序列数据。
然而当前,在现有技术中,基于时序数据进行实时分析和处理往往需要先进行技术选型以寻找适用的计算引擎与存储引擎,然后再开发大数据处理任务以将时序数据采集到存储引擎中,然后基于存储引擎的查询特性来定制一套时序数据的分析报表,如图1所示。
由此可见,图1所示的现有技术的时序数据处理方法对于用户的要求较高,比如,需要用户能够编程来开发大数据处理任务,而且需要用户对所选择的计算引擎和存储引擎比较熟悉才能够进行时序数据的实时分析来生成分析报表。
而对于普通用户来说,很难达到上面的这些要求,因此,需要一种简单有效的时序数据处理方法,能够为普通用户所使用。
发明内容
为了解决以上问题之一,本发明提供了一种时序数据处理方法、设备、数据处理设备及介质。
具体地,本发明提出一种端到端的时序数据一站式处理工具,用户可以通过简单地配置输入,便可以从时序数据生成分析结果,而不需要用户自己编程来开发大数据处理任务,并且也不需要用户自己比较熟悉计算引擎和存储引擎才能生成分析报表。
换而言之,在本发明中,普通用户可以基于时序数据的场景,只要预先定义一套数据处理逻辑、数据存储配置和数据呈现配置,便无需其再关心大数据的计算与存储,即可完成数据分析和处理。由此可见,本发明能够大大降低时序数据分析和处理的门槛,并且能够大大提高时序数据分析和处理的效率。
根据本发明的一种实施例,提供一种时序数据处理方法,包括:接收用户输入,所述用户输入包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、以及数据呈现配置信息;解析所述数据处理配置信息,并基于解析的所述数据处理配置信息来生成至少一个数据处理任务,通过执行所述至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;解析所述数据存储配置信息,并基于解析的所述数据存储配置信息来存储所述时序数据处理结果;以及解析所述数据呈现配置信息,并基于解析的所述数据呈现配置信息来分析时序数据,呈现时序数据分析结果。
可选地,数据处理配置信息包括用户对于以下的时序数据处理有关的配置信息:时序数据关联处理、时序数据合并处理、时序数据变换处理。
可选地,数据存储配置信息包括用户对于存储维度、度量字段以及时间列有关的配置信息。
可选地,数据呈现配置信息包括数据图表样式、图表上要呈现的数据的类型。
可选地,通过萃取-转置-载入ETL工具来解析所述数据处理配置信息并生成至少一个数据处理任务。
可选地,通过数据库连接池工具来解析所述数据存储配置信息并分析时序数据并呈现。
可选地,上述的时序数据处理方法还包括:响应于用户对所述数据呈现结果的查询操作,得到数据查询结果。
根据本发明的一种实施例,提供一种时序数据处理设备,包括:接收装置,被配置用于接收用户输入,所述用户输入包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、以及数据呈现配置信息;数据处理装置,被配置用于解析所述数据处理配置信息,并基于解析的所述数据处理配置信息来生成至少一个数据处理任务,通过执行所述至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;数据存储装置,被配置用于解析所述数据存储配置信息,并基于解析的所述数据存储配置信息来存储所述时序数据处理结果;以及数据呈现装置,被配置用于解析所述数据呈现配置信息,并基于解析的所述数据呈现配置信息来分析时序数据,呈现时序数据分析结果。
可选地,数据处理配置信息包括用户对于以下的时序数据处理有关的配置信息:时序数据关联处理、时序数据合并处理、时序数据变换处理。
可选地,数据存储配置信息包括用户对于存储维度、度量字段以及时间列有关的配置信息。
可选地,数据呈现配置信息包括数据图表样式、图表上要呈现的数据的类型。
可选地,所述数据处理装置包括萃取-转置-载入ETL工具。
可选地,通过数据库连接池工具来解析所述数据存储配置信息并分析时序数据并呈现。
可选地,上述的时序数据处理设备还包括:数据查询装置,被配置用于响应于用户对所述数据呈现结果的查询操作,得到数据查询结果。
根据本发明的一种实施例,提供一种数据处理设备,包括:处理器;以及存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行上述方法之一。
根据本发明的一种实施例,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行上述方法之一。
在本发明中,普通用户可以通过基于时序数据的场景,预先定义一套数据处理逻辑、数据存储配置和数据呈现配置,便无需其再关心大数据的计算与存储,即可完成数据分析和处理。由此可见,本发明能够大大降低时序数据分析和处理的门槛,并且能够大大提高时序数据分析和处理的效率。
附图说明
通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的附图标记通常代表相同部件。
图1给出了现有技术中常用的时序数据处理方法。
图2给出了要进行时序数据分析通常需要执行的任务。
图3给出了根据本发明的一个示例性实施例的时序数据处理方法的示意性流程图。
图4给出了根据本发明的一个示例性实施例的时序数据处理设备的示意性框图。
图5给出了根据本发明的另一个示例性实施例的时序数据处理方法的示意性流程图。
图6给出了根据本发明的另一个示例性实施例的时序数据处理设备的示意性框图。
图7给出了根据本发明的一个示例性实施例的数据处理设备的示意性框图。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。这里需要说明的是,本申请中的数字、序号以及附图标记仅是为了方便描述而出现的,对于本发明的步骤、顺序等等均不构成任何限制,除非在说明书中明确指出了步骤的执行有特定的先后顺序。
通常,对时序数据进行分析可以抽象成以下步骤,如图2所示。
1)数据处理:通过计算引擎,对时序数据进行数据加工。
2)数据存储:数据加工后被存储到合适的存储引擎。
3)数据分析:基于用户的需求来制作或定制分析报表。
如前所述,为了提高实时计算方面的开发效率,本发明提出一种时序分析工具,可以无需用户自己开发大数据处理任务和熟悉计算引擎与存储引擎,便可快速有效地从时序数据生成分析结果。
为了便于理解和描述,接下来将先大致分析本发明的设计思路如下。
1)在数据处理方面,本发明支持用户配置而不是亲自开发数据处理任务。
例如,在本发明中,可以通过前端入口来配置流表、维度表、临时表、结果表等等,然后,这些配置可以转换成数据处理的任务。
可以通过数据萃取-转置-载入(即,Extract-Transform-Load,简称ETL),工具来将这些配置转换成(或者更准确地说,基于用户定义的数据处理配置信息来生成)数据处理的任务,例如,这些数据处理任务可以是数据处理操作的集合,其主要作用是使时序数据经过根据用户配置所作的这些数据处理操作后,再导入到存储引擎以进行存储、分析、处理等等。
当前已经有很多可用的ETL工具,例如Datastage、Powercenter等等。对于本发明而言,只要能够使用ETL工具来进行上述的处理即可,不关注具体使用哪种ETL工具。并且,如何使用ETL工具也不是本申请关注的内容,因此本文对于这些不再加以描述。
2)在数据存储方面,本发明支持用户如数据处理那样,通过前端入口的方式来简单地配置维度、度量、时间列等参数,而不需要普通用户自己非常熟悉存储引擎。
3)在数据分析方面,本发明可以基于用户之前在前端入口输入的配置,制作数据呈现结果(例如,分析报表)。
为了便于理解和描述,下面在具体介绍时,将以基于OLAP的存储引擎Druid(Druid是一个数据库连接池)作为例子来说明存储引擎的有关内容。
图3示出了根据本发明的一个示例性实施例的时序数据处理方法的示意性流程图。
如图3所示,在步骤S110,接收用户输入。
其中,用户的输入可以包含例如以下内容。
1)数据处理配置信息(包括数据处理逻辑):用于定义要如何进行数据处理,具体地,可以包含例如时序数据的关联、时序数据的合并、时序数据的变换等等的各种数据处理任务的逻辑。
2)数据存储配置信息:用户定义与时序数据的存储有关的配置,包括例如要存储时序数据的维度、度量字段、时间列等等(例如,这里的“时间列”可以是数据中用于表明数据的产生时间的字段等)相关内容。
3)数据呈现配置信息:用于定义数据分析结果的呈现方式,例如对于哪些字段、基于哪些维度与查询条件、呈现哪些指标等等这些与数据分析结果的呈现有关的配置信息。
在步骤S120,解析用户输入的数据处理配置信息,并根据解析的数据处理配置信息,来生成相应的用于完成时序数据分析所需的数据处理的数据处理任务。
更具体而言,在本步骤,基于用户输入的数据处理配置信息中的时序数据的关联、合并、变换等的相关配置信息,生成数据处理的一系列任务,即,生成时序数据分析所需的数据处理操作的集合。
然后,在步骤S130,解析用户输入中有关数据存储的配置信息(例如上述的维度、度量、时间列的配置等),并根据这些配置信息,在存储引擎中建立存储源。
然后,在步骤S140,解析用户输入的数据呈现配置信息,并根据解析的数据呈现配置信息来生成数据分析结果。
进一步地,可以将数据分析结果发布或者呈现在用户系统上,比如发布或者呈现在用户可见的报表平台上。这里的数据分析结果的发布或呈现可以指,将用户定义的分析流程的结果实际呈现出来,例如,无论是出一张或多张报表,还是出一个或多个实时的监控报警,都是可以的。
综上可知,本发明提出一种端到端的时序数据一站式分析工具,用户可以通过简单地配置输入,便可以从时序数据生成分析结果,而不需要用户自己编程来开发大数据处理任务,并且也不需要用户自己比较熟悉计算引擎和存储引擎才能生成分析报表。
换而言之,在本发明中,普通用户可以基于时序数据的场景,只要预先定义一套用于数据处理的配置的信息、用于数据存储的配置的信息和用于数据呈现的配置的信息,便无需其再关心大数据的计算与存储,即可完成数据分析。由此可见,本发明能够大大降低时序数据分析的门槛,并且能够大大提高时序数据分析的效率。
为了更容易理解,下面将进一步具体介绍本发明的更详细内容。
首先,例如,用户定义的输入的示例可以如下。
1)需要处理的时序数据的类型。
例如可以是实时流,比如Kafka流。
2)MySQL维度表。
请注意,该MySQL维度表是数据处理的维度表,不是后续在数据存储以及数据查询分析时涉及的维度表。
3)至少一个处理过程。
可以在用户输入过程中,在前端入口,例如通过图形页面的形式来展示对于例如下述内容的配置。
A.上述的时序数据关联
这样的处理过程的输入用于定义在时序数据之间进行的关联处理。比如,可以定义Kafka流中的id字段与MySQL维度表的id字段做关联的处理。
B.上述的时序数据合并
这样的处理过程的输入用于定义在时序数据之间进行的合并处理。比如,多个Kafka流做合并的处理。
C.上述的时序数据变换
这样的处理过程的输入用于定义在时序数据之间进行的变换处理。比如,将Kafka流中的数据的ip字段通过转换函数设置成省份或城市等的处理。
4)用户选出哪个处理过程为最终输出结果。
在本发明中,可以按照现有的或将来可用的生成实时流SQL的方法,生成实时流SQL(即,基于用户的输入所需进行的数据处理操作的集合)。然后,基于在上述的3)中定义的至少一个处理过程以及每个处理过程所生成的结果,由用户来确定哪个处理过程得到的结果是最终输出结果,即,确定由哪个处理过程得到的结果是要最后导入到存储引擎的。
其中,可以理解,用户定义的至少一个数据处理过程(例如关联、变换、合并等)之间是关联的,最终将有一个数据处理过程的结果将导入到存储引擎以供存储数据,所以,由用户来选择最终是什么样的结果将进入存储引擎来存储。
以下将进一步地详细描述本发明的数据处理任务。即,在基于用户的数据处理配置信息,生成数据处理任务的集合(即,上述的实时SQL流)之后,启动这些数据处理任务,以对实时数据(即时序数据)进行相应的处理(例如,时序数据关联、合并、变换等),然后使得由用户选定的处理得到的时序数据处理结果最终进入存储引擎以供存储。
然后,本发明可以基于用户输入的这些配置信息中的有关数据处理的配置信息,生成要执行用户期望的时序数据分析所需的数据处理的集合(SQL)。
这里,例如可以通过HTTP接口的方式,将配置信息发送给ETL工具,然后由ETL工具来解析和生成数据处理SQL。
由上可知,在本发明中,只需通过前端入口提供数据处理配置信息即可,而无需像原来在现有技术中那样,需要用户自己非常熟悉数据开发工作来开发大数据处理任务,由此,本发明避免了用户需要自己开发大数据处理任务的负担,大大降低了时序数据分析任务中尤其是数据处理任务的复杂性。
在本发明中,还根据用户输入的有关数据存储的配置信息,例如维度、度量、时间列等有关的配置信息,在存储引擎中建立存储源。
例如,如果使用Druid存储引擎,此时用户可以通过前端入口提供上述的数据存储配置的信息,然后该前端入口可以通过例如HTTP接口的方式可以将用户给出的期望的存储配置信息转发给Druid存储引擎,以使其根据这些配置信息来建立存储源,更具体地,使其解析这些配置信息并根据这些配置信息来建立所需的存储源,以供存储数据。
由上可知,在本发明中,只需通过前端入口提供配置信息即可,而无需像原来在现有技术中那样,需要用户直接在Druid里提供例如维度、度量、时间列等的存储配置信息,由此,本发明避免了用户需要非常熟悉存储引擎才能完成配置所需数据存储任务的负担,大大降低了时序数据分析任务中尤其是数据存储任务的配置的复杂性。
在存储之后,根据本发明的示例性实施例的数据分析引擎会根据用户输入的数据处理配置中的例如维度、度量、时间列等信息,在内部启动任务做聚合计算,待查询时进行分析。
这里,数据分析引擎可以是例如Druid存储引擎(Druid存储引擎具备所需的分析功能),所作的聚合计算和分析可以在Druid存储引擎中由Druid执行。
另一方面,也可以设置单独的数据分析引擎来进行所需的聚合计算和分析,本发明对此不作任何限制。
进一步地,用户的数据呈现配置信息(即数据呈现需求)一般包括下述内容。
1)要展示什么样的图表(例如,曲线图、柱状图、饼图等)。
2)图表是如何定义的。
比如曲线图需定义时间戳,饼图需要定义聚集维度。
在本发明中,通过用户在前端入口的配置,便能够生成查询与最终的图表。
举例来说,比如,用户定义了下述数据呈现配置信息。
1)结果呈现为折线图。
2)时间戳变量定义为timestamp,展现维度是用户(可以例如通过不同的接口来区分用户)独立计数(count)。
根据上述的数据呈现配置信息,可以生成一张x轴是时间戳timestamp变量、y轴是用户独立计数count变量的折线图。
这里,可以使用常用的图表生成方法或工具来生成用户定义的数据呈现配置,这里不再赘述。
在本发明中,通过用户在前端入口的配置,便能够生成查询与最终的图表,对用户而言,简化了数据呈现的处理,减轻了其工作负担。
为了更容易理解,下面将进一步来举例说明。
例如,实时流时序数据如下面的topic 1和topic 2中所示。
用户的需求为:对topic 1和topic 2两个实时流中的各个服务名(serviceName)的实时访问量(即用户独立计数count)进行分析,数据结果的呈现方式为折线图。
topic 1:
[
{timestamp:“2018/11/1010:07”,serviceName:“jianquan”,count:200},/*2018/11/1010:07到2018/11/1010:08(时间粒度为1分钟),服务名为jianquan的用户独立计数为200*/
{timestamp:“2018/11/1010:07”,serviceName:“vip”,count:200},
{timestamp:“2018/11/1110:07”,serviceName:“guanggao”,count:200},
{timestamp:“2018/11/1010:07”,serviceName:“vip”,count:200},
{timestamp:“2018/11/1210:07”,serviceName:“guanggao”,count:200}
]
topic 2:
[
{timestamp:“2018/11/1010:07”,serviceName:“jianquan”,count:200},/*2018/11/1010:07到2018/11/1010:08(时间粒度为1分钟),服务名为jianquan的用户独立计数为200*/
{timestamp:“2018/11/1010:07”,serviceName:“vip”,count:200},
{timestamp:“2018/11/1110:07”,serviceName:“guanggao”,count:200},
{timestamp:“2018/11/1010:07”,serviceName:“vip”,count:200},
{timestamp:“2018/11/1210:07”,serviceName:“guanggao”,count:200}
]
在用户输入阶段,用户可以通过前端入口(例如在用户界面上)输入以下内容。
1)数据处理配置信息:topic1,topic2,数据格式为{timestamp:long,serviceName:String},定义成数据合并。
请注意,为了简洁和容易理解,此例子中没有涉及数据变换与关联。
2)数据存储配置信息:维度=serviceName、度量=计数count、时间戳=timestamp。
3)数据呈现配置信息:1张折线图、x轴是timestamp、y轴为根据数据存储配置信息中定义的维度serviceName而分成多条曲线。
通过本发明描述的在步骤S120-S140中的处理,可生成根据数据呈现配置信息中定义的、作为数据呈现结果的分析报表。
由此可见,在本发明中,通过用户在前端入口的配置,便能够生成查询与最终的图表,对用户而言,简化了数据呈现的处理,减轻了其工作负担。
图4示出了根据本发明的一个示例性实施例的时序数据处理设备的示意性框图。
如图4所示,根据本发明的一个示例性实施例的时序数据处理设备100包括接收装置110、数据处理装置120、数据存储装置130、数据呈现装置140。
其中,接收装置110可以被配置用于接收用户输入,所述用户输入包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、以及数据呈现配置信息。
数据处理装置120可以被配置用于解析所述数据处理配置信息,并基于解析的所述数据处理配置信息来生成至少一个数据处理任务,通过执行所述至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;
数据存储装置130可以被配置用于解析所述数据存储配置信息,并基于解析的所述数据存储配置信息来存储所述时序数据处理结果。
数据呈现装置140可以被配置用于解析所述数据呈现配置信息,并基于解析的所述数据呈现配置信息来分析时序数据,呈现时序数据分析结果。
这里,上述的接收装置110、数据处理装置120、数据存储装置130、数据呈现装置140的操作与图3的步骤110、120、130与140的操作类似,在此不再赘述。
其中,上述的数据处理配置信息包括用户对于以下的时序数据处理有关的配置信息:时序数据关联处理、时序数据合并处理、时序数据变换处理。
数据存储配置信息包括用户对于存储维度、度量字段以及时间列有关的配置信息。
数据呈现配置信息包括数据图表样式、图表上要呈现的数据的类型。
另外,与数据处理步骤类似,这里的数据处理装置包括萃取-转置-载入ETL工具。
此外,可以通过数据库连接池工具(例如Druid)来解析所述数据存储配置信息并分析时序数据并呈现。
在本发明中,普通用户可以基于时序数据的场景,预先定义一套数据处理逻辑的配置信息、数据存储的配置信息和数据呈现的配置信息,便无需其再关心大数据的计算与存储,即可完成数据分析。由此可见,本发明能够大大降低时序数据分析的门槛,并且能够大大提高时序数据分析的效率。
图5示出了根据本发明的另一个示例性实施例的时序分析处理方法的示意性流程图。
这里,根据本发明的另一个示例性实施例的时序数据处理方法中的步骤S210-S240分别与图3中的步骤S110-S140类似,但是图5还包括数据查询步骤S250。
如图5所示,在数据查询步骤S150,用户在查看经过在图5所示的步骤S240进行上述的数据分析而生成的呈现结果后,可以基于该呈现结果来触发所需的查询,以得到所需的查询结果。
例如,用户可以定义一个查询,比如该查询的限定可以为:开始时间为“****年**月**日**:**”(表示年/月/日/具体几点几分)、结束时间为“****年**月**日**:**”(表示年/月/日/具体几点几分)、时间查询粒度为“分钟”(还可以为其它时间粒度,例如“若干小时”、“若干秒”等),并触发一个向存储引擎的查询(通过例如点击用户查询界面上的“查询”按钮等),最终返回的结果是一个时间序列的聚合结果。
为了容易理解,下面举一个查询的例子。
1)数据查询需求:求从2018/11/1010:07到2018/11/1010:08,以1分钟的时间粒度、按服务名(serviceName)的维度聚集的用户独立计数count。
2)得到的查询结果如下。
{timestamp:“2018/11/1010:07”,serviceName:“jianquan”,count:200}/*2018/11/1010:07到2018/11/1010:08,服务名为jianquan的用户独立计数为200*/
{timestamp:“2018/11/1010:07”,serviceName:“vip”,count:200}
{timestamp:“2018/11/1010:08”,serviceName:“jianquan”,count:200}
{timestamp:“2018/11/1010:08”,serviceName:“vip”,count:200}
由此可见,在本发明中,普通用户可以基于时序数据的场景,预先定义一套数据处理逻辑的配置、数据存储的配置和数据呈现的配置,便无需其再关心大数据的计算与存储,即可完成数据分析,而且还能够实现数据查询功能。因此,本发明能够大大降低时序数据分析的门槛,并且能够大大提高时序数据分析的效率和使用的便利性。
图6示出了根据本发明的一个示例性实施例的时序数据处理设备的示意性框图。
如图6所示,除了与图4所示的接收装置110、数据处理装置120、数据存储装置130、数据呈现装置140类似的接收装置210、数据处理装置220、数据存储装置230、数据呈现装置240之外,时序数据处理设备200还包括数据查询装置250。
其中,该数据查询装置250可以被配置用于响应于用户对所述数据呈现结果的查询操作,得到数据查询结果。该数据查询装置250的操作与图5中的步骤S250的操作类似,在此不再赘述。
由此可见,在本发明中,普通用户可以基于时序数据的场景,预先定义一套数据处理逻辑的配置、数据存储的配置和数据呈现的配置,便无需其再关心大数据的计算与存储,即可完成数据分析,而且还能够实现数据查询功能。因此,本发明能够大大降低时序数据分析的门槛,并且能够大大提高时序数据分析的效率和使用的便利性。
综上可知,本发明的核心功能是将“数据处理配置信息(用户自定义处理逻辑)、数据存储配置信息(包括指标、维度)、以及数据呈现配置信息(用户自定义分析过程和呈现方式,比如用户报表)”转换成了前端配置,定义了一套通用的时序数据分析手段。
其中,Druid仅是作为OLAP引擎,用于数据存储和分析的例子。实际上,本发明可以利用任何OLAP数据存储,而非仅限于Druid。
图7示出了根据本发明的一种实施方式的数据处理设备的结构示意图。
参见图7,数据处理设备2包括存储器10和处理器20。
处理器20可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器20可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、数字信号处理器(DSP)等等。在一些实施例中,处理器20可以使用定制的电路实现,例如特定用途集成电路(ASIC,Application Specific Integrated Circuit)或者现场可编程逻辑门阵列(FPGA,Field Programmable Gate Arrays)。
存储器10可以包括各种类型的存储单元,例如系统内存、只读存储器(ROM)、以及永久存储装置。其中,ROM可以存储处理器20或者计算机的其他模块需要的静态数据或者指令。永久存储装置可以是可读写的存储装置。永久存储装置可以是即使计算机断电后也不会失去存储的指令和数据的非易失性存储设备。在一些实施方式中,永久性存储装置采用大容量存储装置(例如磁或光盘、闪存)作为永久存储装置。另外一些实施方式中,永久性存储装置可以是可移除的存储设备(例如软盘、光驱)。系统内存可以是可读写存储设备或者易失性可读写存储设备,例如动态随机访问内存。系统内存可以存储一些或者所有处理器在运行时需要的指令和数据。此外,存储器10可以包括任意计算机可读存储媒介的组合,包括各种类型的半导体存储芯片(DRAM,SRAM,SDRAM,闪存,可编程只读存储器),磁盘和/或光盘也可以采用。在一些实施方式中,存储器10可以包括可读和/或写的可移除的存储设备,例如激光唱片(CD)、只读数字多功能光盘(例如DVD-ROM,双层DVD-ROM)、只读蓝光光盘、超密度光盘、闪存卡(例如SD卡、min SD卡、Micro-SD卡等等)、磁性软盘等等。计算机可读存储媒介不包含载波和通过无线或有线传输的瞬间电子信号。
存储器10上存储有可处理代码,当可处理代码被处理器20处理时,可以使处理器20执行上文述及的方法。
此外,根据本发明的方法还可以实现为一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品包括用于执行本发明的上述方法中限定的上述各步骤的计算机程序代码指令。
或者,本发明还可以实施为一种非暂时性机器可读存储介质(或计算机可读存储介质、或机器可读存储介质),其上存储有可执行代码(或计算机程序、或计算机指令代码),当所述可执行代码(或计算机程序、或计算机指令代码)被电子设备(或计算设备、服务器等)的处理器执行时,使所述处理器执行根据本发明的上述方法的各个步骤。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。
附图中的流程图和框图等等显示了根据本发明的多个实施例的系统和方法的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (10)

1.一种时序数据处理方法,其特征在于,包括:
接收用户输入,所述用户输入包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、以及数据呈现配置信息;
解析所述数据处理配置信息,并基于解析的所述数据处理配置信息来生成至少一个数据处理任务,通过执行所述至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;
解析所述数据存储配置信息,并基于解析的所述数据存储配置信息来存储所述时序数据处理结果;以及
解析所述数据呈现配置信息,并基于解析的所述数据呈现配置信息来分析时序数据,呈现时序数据分析结果。
2.如权利要求1所述的时序数据处理方法,其特征在于,数据处理配置信息包括用户对于以下的时序数据处理有关的配置信息:时序数据关联处理、时序数据合并处理、时序数据变换处理。
3.如权利要求1所述的时序数据处理方法,其特征在于,数据存储配置信息包括用户对于存储维度、度量字段以及时间列有关的配置信息。
4.如权利要求1所述的时序数据处理方法,其特征在于,数据呈现配置信息包括数据图表样式、图表上要呈现的数据的类型。
5.如权利要求1所述的时序数据处理方法,其特征在于,通过萃取-转置-载入ETL工具来解析所述数据处理配置信息并生成至少一个数据处理任务。
6.如权利要求1所述的时序数据处理方法,其特征在于,通过数据库连接池工具来解析所述数据存储配置信息并分析时序数据并呈现。
7.如权利要求1所述的时序数据处理方法,其特征在于,还包括:
响应于用户对所述数据呈现结果的查询操作,得到数据查询结果。
8.一种时序数据处理设备,其特征在于,包括:
接收装置,被配置用于接收用户输入,所述用户输入包括进行时序数据分析所需的数据处理配置信息、数据存储配置信息、以及数据呈现配置信息;
数据处理装置,被配置用于解析所述数据处理配置信息,并基于解析的所述数据处理配置信息来生成至少一个数据处理任务,通过执行所述至少一个数据处理任务对时序数据进行处理,得到时序数据处理结果;
数据存储装置,被配置用于解析所述数据存储配置信息,并基于解析的所述数据存储配置信息来存储所述时序数据处理结果;以及
数据呈现装置,被配置用于解析所述数据呈现配置信息,并基于解析的所述数据呈现配置信息来分析时序数据,呈现时序数据分析结果。
9.一种数据处理设备,包括:
处理器;以及
存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如权利要求1~7中任何一项所述的方法。
10.一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1~7中任何一项所述的方法。
CN201910205507.3A 2019-03-18 2019-03-18 时序数据处理方法、设备、数据处理设备及介质 Pending CN110109990A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910205507.3A CN110109990A (zh) 2019-03-18 2019-03-18 时序数据处理方法、设备、数据处理设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910205507.3A CN110109990A (zh) 2019-03-18 2019-03-18 时序数据处理方法、设备、数据处理设备及介质

Publications (1)

Publication Number Publication Date
CN110109990A true CN110109990A (zh) 2019-08-09

Family

ID=67484417

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910205507.3A Pending CN110109990A (zh) 2019-03-18 2019-03-18 时序数据处理方法、设备、数据处理设备及介质

Country Status (1)

Country Link
CN (1) CN110109990A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909010A (zh) * 2019-11-25 2020-03-24 杭州晨鹰军泰科技有限公司 一种数据智能分析配置管理方法、装置、设备及存储介质
CN111522890A (zh) * 2020-06-11 2020-08-11 中国建设银行股份有限公司 一种金融数据处理方法、装置、系统和存储介质
CN112612823A (zh) * 2020-12-14 2021-04-06 南京铁道职业技术学院 一种基于PySpark和Pandas融合的大数据时序分析方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103003803A (zh) * 2010-08-11 2013-03-27 株式会社日立制作所 时序数据处理装置及其方法
CN106294673A (zh) * 2016-08-08 2017-01-04 杭州玳数科技有限公司 一种用户自定义规则实时解析日志数据的方法与系统
WO2018051373A1 (en) * 2016-09-19 2018-03-22 Jetsynthesys Pvt Ltd Systems and methods for providing data from plurality of sources
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103003803A (zh) * 2010-08-11 2013-03-27 株式会社日立制作所 时序数据处理装置及其方法
CN106294673A (zh) * 2016-08-08 2017-01-04 杭州玳数科技有限公司 一种用户自定义规则实时解析日志数据的方法与系统
WO2018051373A1 (en) * 2016-09-19 2018-03-22 Jetsynthesys Pvt Ltd Systems and methods for providing data from plurality of sources
CN108268529A (zh) * 2016-12-30 2018-07-10 亿阳信通股份有限公司 一种基于业务抽象和多引擎调度的数据汇总方法和系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110909010A (zh) * 2019-11-25 2020-03-24 杭州晨鹰军泰科技有限公司 一种数据智能分析配置管理方法、装置、设备及存储介质
CN110909010B (zh) * 2019-11-25 2022-09-06 杭州晨鹰军泰科技有限公司 一种数据智能分析配置管理方法、装置、设备及存储介质
CN111522890A (zh) * 2020-06-11 2020-08-11 中国建设银行股份有限公司 一种金融数据处理方法、装置、系统和存储介质
CN111522890B (zh) * 2020-06-11 2024-02-13 中国建设银行股份有限公司 一种金融数据处理方法、装置、系统和存储介质
CN112612823A (zh) * 2020-12-14 2021-04-06 南京铁道职业技术学院 一种基于PySpark和Pandas融合的大数据时序分析方法

Similar Documents

Publication Publication Date Title
US10608905B2 (en) Method and system for temporal sampling in evolving network
US9542256B2 (en) Analysis stack for an event flow
CN110109990A (zh) 时序数据处理方法、设备、数据处理设备及介质
WO2020005895A1 (en) Systems and methods of windowing time series data for pattern detection
US20150213066A1 (en) System and method for creating data models from complex raw log files
US20130346161A1 (en) Benchmarking with peer groups in a cloud environment
CN108984155A (zh) 数据处理流程设定方法和装置
JP7015319B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
CN106656662A (zh) 异常带宽确定方法、系统及电子设备
CN110083625A (zh) 实时流处理方法、设备、数据处理设备及介质
CN110100415A (zh) 用于将网络流量准备好进行快速分析的系统
CN110162521A (zh) 一种支付系统交易数据处理方法及系统
Vidgof et al. Cherry-picking from spaghetti: Multi-range filtering of event logs
CN106909454B (zh) 一种规则处理方法和设备
CN108182204A (zh) 基于房产交易多维度数据的数据查询的处理方法及装置
CN109726313A (zh) 操作数据库的方法及装置
JP7015320B2 (ja) データ分析支援装置、データ分析支援方法およびデータ分析支援プログラム
CN108805597B (zh) 模型构建方法及装置、数据报表生成方法及装置
CN112564996A (zh) 压力测试流量调度、控制方法、设备以及计算机可读介质
CN113901094B (zh) 一种数据处理方法、装置、设备及存储介质
CN110083624B (zh) 流数据处理方法、设备、数据处理设备、计算机介质
CN115080607A (zh) 一种结构化查询语句的优化方法、装置、设备及存储介质
US20150302324A1 (en) Object lifecycle analysis tool
CN113934894A (zh) 基于指标树的数据显示方法、终端设备
Molloy et al. A framework for the use of business activity monitoring in process improvement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190809