CN108319704B

CN108319704B - 一种分析数据的方法、装置、设备及存储介质

Info

Publication number: CN108319704B
Application number: CN201810113658.1A
Authority: CN
Inventors: 鹿凌华; 田亚; 廖家绪; 王能
Original assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Current assignee: Beijing Zhongguancun Kejin Technology Co Ltd
Priority date: 2018-02-05
Filing date: 2018-02-05
Publication date: 2020-11-06
Anticipated expiration: 2038-02-05
Also published as: CN108319704A

Abstract

本申请公开了一种分析数据的方法，包括获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据；若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。通过将实时数据中的有状态数据和无状态数据分别进行处理，从而不需要对有状态数据进行排列组合并进行计算，大大减少了计算量，从而减少计算的时间，降低数据分析的延时。本申请还公开了一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

Description

一种分析数据的方法、装置、设备及存储介质

技术领域

本发明涉及数据处理领域，特别涉及一种分析数据的方法、装置、设备及计算机可读存储介质。

背景技术

随着计算机及网络技术的飞速发展，当今社会的信息化程度也越来越高，对数据处理的技术要求也越来越高。一些实时性较强的实际应用例如反欺诈和风险控制等，需要对实时数据进行快速分析以便用于决策，然而基于传统关系型数据库或者NoSql数据库(非关系型的数据库)统计分析数据的性能都无法满足这类业务的需求。

现有技术中的数据实时分析技术主要是来自apache的开源项目kylin(中国自主知识产权操作系统)，在获得实时数据后，先根据预设的时间间隔对实时数据进行分片，然后将同一个片段中的实时数据的所有维度数据进行排列组合后再进行计算并得出计算结果，然后将计算结果进行存储得出预计算结果表。但是一般的，实时数据分为有状态数据和无状态数据，无状态数据就是没有实例变量的对象，现有技术将包括有状态数据和无状态数据在内的所有实时数据的维度数据进行排列组合后进行计算，在计算能力有限的情况下，大量的计算将导致计算时间过长，从而导致得出分析数据的结果的延时比较长，不能满足实时应用场景中的实时分析数据的要求。

因此，如何提高数据分析的实时性是本领域技术人员目前需要解决的技术问题。

发明内容

有鉴于此，本发明的目的在于提供一种分析数据的方法，能够提高数据分析的实时性；本发明的另一目的是提供一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

为解决上述技术问题，本发明提供一种分析数据的方法，包括：

获取实时数据并确定所述实时数据的数据类型；其中，所述数据类型包括无状态数据和有状态数据；

若所述实时数据为所述无状态数据，则将所述无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；

若所述实时数据为所述有状态数据，则按照预先设置的存储规则存储所述有状态数据以获得维度结构表。

优选地，进一步包括：

在获取操作指令时，按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算。

优选地，所述操作指令具体为标准SQL，对应的，所述按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算具体为：

通过Calcite SQL执行引擎将所述标准SQL解析为Java执行程序；

利用所述Java执行程序调用hbase查询接口，以便利用所述hbase查询接口访问所述预计算结果表和/或所述维度结构表；

按照操作指令的要求对访问的内容进行计算。

优选地，所述获取实时数据并确定所述实时数据的数据类型具体包括：

利用流计算引擎获取所述实时数据；

将所述实时数据按照预设的规则进行分流处理得到多个处理线程；

设置各所述处理线程分别进入所述确定所述实时数据的数据类型的步骤。

优选地，所述按照预先设置的存储规则存储所述有状态数据以获得维度结构表具体包括：

根据预先设置的数据结构要求将所述有状态数据的维度数据进行拆分或合并；

将拆分或合并后的所述有状态数据的维度数据存储于所述数据结构要求对应的表格中以得到所述维度结构表。

优选地，所述计算逻辑具体包括sum、count和average。

为解决上述技术问题，本发明还提供一种分析数据的装置，包括：

获取模块，用于获取实时数据并确定所述实时数据的数据类型；其中，所述数据类型包括无状态数据和有状态数据；

第一处理模块，用于若所述实时数据为所述无状态数据，则将所述无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；

第二处理模块，用于若所述实时数据为所述有状态数据，则按照预先设置的存储规则存储所述有状态数据以获得维度结构表。

优选地，进一步包括：

计算模块，用于在获取操作指令时，按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算。

为解决上述技术问题，本发明还提供一种分析数据的设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一种分析数据的方法的步骤。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种分析数据的方法的步骤。

本发明提供的分析数据的方法，包括获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据；若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。也就是说，在获取实时数据后，判断实时数据的数据类型，根据不同实时数据的数据类型进行不同的处理：将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；将有状态数据按照预先设置的存储规则进行存储得到维度结构表；通过将实时数据中的有状态数据和无状态数据分别进行处理，从而不需要对有状态数据进行排列组合并进行计算，大大减少了计算量，从而减少计算的时间，降低数据分析的延时。

为解决上述技术问题，本发明还提供了一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例提供的一种分析数据的方法的流程图；

图2为本发明实施例提供的另一种分析数据的方法的流程图；

图3为本发明实施例提供的一种分析数据的装置的结构图；

图4为本发明实施例提供的另一种分析数据的装置的结构图；

图5为本发明实施例提供的一种分析数据的设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例的核心是提供一种分析数据的方法，能够提高数据分析的实时性；本发明的另一核心是提供一种分析数据的装置、设备及计算机可读存储介质，均具有上述有益效果。

为了使本领域技术人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。

图1为本发明实施例提供的一种分析数据的方法的流程图。请参考图1，分析数据的方法具体包括：

S10：获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据。

需要说明的是，实时数据可以分为两种数据类型，一种是有状态数据，即有实例变量的对象，在不同方法之间调用不保留任何状态；另一种是无状态数据，也就是没有实例变量的对象；具体的，无状态数据是一种不包含任何域(field)，也不包含引用任何其他类中的域(field)的对象，成员方法计算的临时状态仅存在线程栈上的局部变量中，并且之后能由正在执行的线程访问。

在本实施例中，先获取实时数据，并根据获取的实时数据确定实时数据的数据类型，即确定实时数据是有状态数据还是无状态数据。作为优选的实施方式，本实施例是通过从消息中间件获取输入到数据库中的实时数据；另外还可以通过日志同步的方式将数据库中的数据同步至消息中间件，再通过消息中间件获取实时数据；本实施例对获取实时数据的方式不做限定。

S20：若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；

S30：若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。

可以理解的是，在确定实时数据的数据类型具体为有状态数据或者是无状态数据之后，根据不同的数据类型进行对应的处理：若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。

也就是说，当确定实时数据的数据类型为无状态数据时，则按照预先设置的时间段对无状态数据进行分片，再对同一片内的无状态数据的维度数据进行排列组合，最后按照预先设置的计算逻辑对排列组合后的维度数据进行计算，得到预计算结果表。

更具体的，假设预先设置时间段为一分钟，也就是以一分钟为一个批次，对无状态数据进行划分，将同一分钟内获取到的无状态数据设置为同一批次，将同一批次的无状态数据的维度数据进行排列组合，然后按照预先设置的计算逻辑对排列组合后形成的数据进行计算，并将计算结果放入表中，以得到预计算结果表。

当确定实时数据的数据类型为有状态数据时，则按照预先设置的存储规则存储有状态数据以获得维度结构表。具体的，可以通过在数据库服务中做扩展插件的方式得到维度结构表，也就是说，预先设置有状态数据的存储规则，在获取到有状态数据后，将有状态数据存储于数据库中，然后再根据预先设置的存储规则，利用数据库对有状态数据进行相应的处理，得到处理后的数据并进行存储，得到维度结构表。需要说明的是，本实施例对预计算结果表和/或维度结构表的存储位置不做限定，一般存储于数据库中，对具体是何种数据库也不做限定。在本实施例中，优选地将预计算结果表和/或维度结构表存储于hbase(Hadoop Database，分布式存储系统)中。需要说明的是，hbase是一个分布式的、面向列的开源数据库，具有高可靠性、高性能、面向列、可伸缩等特性。另外，作为优选的实施方式，存储主键一般设计为后期计算时可能用到的查询条件，以便计算时可以快速查找访问纬度结构表中的数据内容。

本实施例提供的分析数据的方法，包括获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据；若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。也就是说，在获取实时数据后，判断实时数据的数据类型，根据不同实时数据的数据类型进行不同的处理：将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；将有状态数据按照预先设置的存储规则进行存储得到维度结构表；通过将实时数据中的有状态数据和无状态数据分别进行处理，从而不需要对有状态数据进行排列组合并进行计算，大大减少了计算量，从而减少计算的时间，降低数据分析的延时。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，按照预先设置的存储规则存储有状态数据以获得维度结构表具体包括：

根据预先设置的数据结构要求将有状态数据的维度数据进行拆分或合并；

将拆分或合并后的有状态数据的维度数据存储于数据结构要求对应的表格中以得到维度结构表。

也就是说，当实时数据的数据类型为有状态数据时，也可以先将有状态数据按照预先设置的规则进行相应的处理，例如将有状态数据的维度数据进行拆分或者合并，然后再将拆分或者合并后得到的数据插入预先设置的表格中，从而得到维度结构表。

可以理解的是，通过先根据预先设置的数据结构要求将有状态数据的维度数据进行拆分或合并，然后再将拆分或合并后的有状态数据的维度数据存储于数据结构要求对应的表格中以得到维度结构表，可以避免在数据库服务中做插件的方式得到维度结构表时由于嵌入性太强而影响分析数据过程的性能，从而提高分析数据过程的稳定性。

图2为本发明实施例提供的另一种分析数据的方法的流程图。本实施例对技术方案作了进一步的说明和优化，具体的，如图2所示，进一步包括：

S40：在获取操作指令时，按照操作指令并利用预计算结果表和/或维度结构表的内容进行计算。

可以理解的是，在获得预计算结果表和/或维度结构表之后，可以直接获取预计算结果表和/或维度结构表中的内容，以便了解数据情况或者用于决策等操作；也可以通过操作指令获取预计算结果表和/或维度结构表中的内容，并进行再次计算。

可见，通过对预计算结果表和/或维度结构表中的内容进行再次计算，可以更便捷地获取需要的数据信息。

作为优选的实施方式，操作指令具体为标准SQL，对应的，按照操作指令并利用预计算结果表和/或维度结构表的内容进行计算具体为：

通过Calcite SQL执行引擎将标准SQL解析为Java执行程序；

利用Java执行程序调用hbase查询接口，以便利用hbase查询接口访问预计算结果表和/或维度结构表；

按照操作指令的要求对访问的内容进行计算。

可以理解的是，由于标准SQL不能直接访问预计算结果表和/或维度结构表，因此通过Calcite SQL执行引擎将标准SQL解析为Java执行程序，然后利用Java执行程序调用hbase查询接口，以便利用hbase查询接口访问预计算结果表和/或维度结构表；在访问到目的数据后，按照操作指令的要求对目的数据进行计算。

另外，需要说明的是，计算逻辑具体包括sum、count和average。

也就是说，实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表的过程中的计算逻辑，可以是sum(即求数据的和)、count(即求数据的个数)和average(即求数据的平均值)等等，可以理解的是，还可以是其他的计算逻辑，本实施例对此不做限定。

在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，获取实时数据并确定实时数据的数据类型具体包括：

利用流计算引擎获取实时数据；

将实时数据按照预设的规则进行分流处理得到多个处理线程；

设置各处理线程分别进入确定实时数据的数据类型的步骤。

也就是说，在获取实时数据时，具体为通过流计算引擎获取实时数据，然后将实时数据按照预设的规则进行分流处理得到多个处理线程，并使得各个线程分别进入确定实时数据的数据类型的步骤，即通过流计算引擎将数据分析的进程分为多个线程并行处理，各个线程之间互不干扰，从而提高分析数据的效率。

在实际应用中，例如银行贷款业务、金融反欺诈业务等时效性要求高的业务中，需要对用户数据即实时数据进行分析计算，从而进行决策；也就是通过分析实时数据及时准确地判断用户的信用情况，例如是否有欺诈行为。具体的，有用户信息输入到业务数据库时，通过数据库日志同步工具进行同步，将用户数据同步到Kafka中并触发后续的分析过程。需要说明的是，本实施例对数据库同步工具的具体类型不做限定，一般的，使用数据库日志同步工具Canal实现业务数据库的实时同步。Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者规模的网站中的所有动作流数据。在将数据进行分析得出预计算结果表和/或维度结构表之后，通过变量计算逻辑以及通过访问并获取预计算结果表和/或维度结构表中的内容作为变量计算出数据参数，从而根据数据参数判断用户的信用情况。

需要说明的是，现有技术中的数据分析过程由于时延过长，因此在获取操作指令并按照操作指令对预计算结果进行访问时，可能存在访问时还没有得出预计算结果，因此无法访问预计算结果的情况，从而导致无法得到准确的结果。而在本实施例中，由于大大缩短了计算时延，并且在实际的业务当中，一个查询计算的过程可以在毫秒内完成，因此提高了数据分析的效率，给实际应用中需要利用预计算结果表和/或维度结构表的内容进行计算的过程带来便利。

可见，通过利用上述实施例提供的方法，可以提高业务的服务能力，有效地改善实际应用中的用户体验。

上文对于本发明提供的一种分析数据的方法的实施例进行了详细的描述，本发明还提供了一种与该方法对应的分析数据的装置、设备及计算机可读存储介质，由于装置、设备及计算机可读存储介质部分的实施例与方法部分的实施例相互照应，因此装置、设备及计算机可读存储介质部分的实施例请参见方法部分的实施例的描述，这里暂不赘述。

图3为本发明实施例提供的一种分析数据的装置的结构图。如图所示，分析数据的装置具体包括：

获取模块31，用于获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据；

第一处理模块32，用于若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；

第二处理模块33，用于若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。

图4为本发明实施例提供的另一种分析数据的装置的结构图。在上述实施例的基础上，本实施例对技术方案作了进一步的说明和优化，具体的，如图4所示，分析数据的装置进一步包括：

计算模块34，用于在获取操作指令时，按照操作指令并利用预计算结果表和/或维度结构表的内容进行计算。

本实施例提供的分析数据的装置，具有上述分析数据的方法的有益效果。

图5为本发明实施例提供的一种分析数据的设备的结构图。如图所示，分析数据的设备包括：

存储器51，用于存储计算机程序；

处理器52，用于执行计算机程序时实现如下步骤：

获取实时数据并确定实时数据的数据类型；其中，数据类型包括无状态数据和有状态数据；

若实时数据为无状态数据，则将无状态数据的维度数据进行排列组合后按照预先设置的计算逻辑进行计算，得到预计算结果表；

若实时数据为有状态数据，则按照预先设置的存储规则存储有状态数据以获得维度结构表。

本实施例提供的分析数据的设备，具有上述分析数据的方法的有益效果。

为解决上述技术问题，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现下步骤：

本实施例提供的计算机可读存储介质，具有上述分析数据的方法的有益效果。

以上对本发明所提供的分析数据的方法、装置、设备及计算机可读存储介质进行了详细介绍。本文中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

Claims

1.一种分析数据的方法，其特征在于，包括：

获取实时数据并确定所述实时数据的数据类型；其中，所述数据类型包括无实例变量的无状态数据和有实例变量的有状态数据；

若所述实时数据为所述有状态数据，则按照预先设置的存储规则存储所述有状态数据以获得维度结构表；

在获取操作指令时，按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算；

其中，所述操作指令具体为标准SQL，对应的，所述按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算具体为：

通过Calcite SQL执行引擎将所述标准SQL解析为Java执行程序；

按照所述操作指令的要求对访问的内容进行计算。

2.根据权利要求1所述的方法，其特征在于，所述获取实时数据并确定所述实时数据的数据类型具体包括：

利用流计算引擎获取所述实时数据；

3.根据权利要求1所述的方法，其特征在于，所述按照预先设置的存储规则存储所述有状态数据以获得维度结构表具体包括：

4.根据权利要求1所述的方法，其特征在于，所述计算逻辑具体包括sum、count和average。

5.一种分析数据的装置，其特征在于，包括：

获取模块，用于获取实时数据并确定所述实时数据的数据类型；其中，所述数据类型包括无实例变量的无状态数据和有实例变量的有状态数据；

第二处理模块，用于若所述实时数据为所述有状态数据，则按照预先设置的存储规则存储所述有状态数据以获得维度结构表；

计算模块，用于在获取操作指令时，按照所述操作指令并利用所述预计算结果表和/或所述维度结构表的内容进行计算；

其中，所述操作指令具体为标准SQL，对应的，所述计算模块具体用于：

通过Calcite SQL执行引擎将所述标准SQL解析为Java执行程序；

按照所述操作指令的要求对访问的内容进行计算。

6.一种分析数据的设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至4任一项所述的分析数据的方法的步骤。

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述的分析数据的方法的步骤。