CN112084224A

CN112084224A - 一种数据管理方法、系统、设备及介质

Info

Publication number: CN112084224A
Application number: CN202010916686.4A
Authority: CN
Inventors: 丁宝存; 谢永恒; 万月亮
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2020-09-03
Filing date: 2020-09-03
Publication date: 2020-12-15
Anticipated expiration: 2040-09-03
Also published as: CN112084224B

Abstract

本发明公开了一种数据管理方法、装置、设备及存储介质，其特征在于，由集成在实时流计算框架Flink上的数据管理系统执行，包括：解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，其中，各所述流数据具备不同数据来源；采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中。本发明基于Flink框架解析不同来源的流数据，获得流数据的数据属性信息，根据数据属性信息存储至指定数据库中，实现了对不同来源的流数据进行指定存储、快速索引和及时流量预警。

Description

一种数据管理方法、系统、设备及介质

技术领域

本发明实施例涉及信息技术领域的数据存储技术，尤其涉及一种数据管理方法、系统、设备及介质。

背景技术

随着网络技术发展，使得各行各业每秒产出大量连续流数据。海量数据反映了人们的日常规律，如何有效分析和处理海量流数据提取准确的流数据呈现规律和知识，将是数据信息领域重要的技术手段；但海量数据具备：数据量大、数据种类和来源多样化、增长速度快、数据准确性低、数据价值密度相对较低等特性，使得流数据呈现规律和知识的提取并非易事。现有技术中海量数据存储和索引方法中不同来源的流数据处理流程复杂、流数据处理的时效较差、也不能对海量数据处理时的流数据量进行预警。

发明内容

本发明提供了一种数据管理方法、系统、设备及介质，以实现根据不同来源数据的属性信息，对不同来源的流数据进行指定存储、快速索引和及时流量预警。

第一方面，本发明实施例提供了一种数据管理方法，由集成在实时流计算框架Flink上的数据管理系统执行，包括：

解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，其中，各所述流数据具备不同数据来源；

采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中。

第二方面，本发明实施例还提供了一种数据管理系统，集成在实时流计算框架Flink上，包括：

数据解析模块，用于解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息；

数据存储模块，用于采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中；

其中，各所述流数据具备不同数据来源。

第三方面，本发明实施例还提供一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现任一所述的数据管理方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现所述的数据存储方法。

本发明通过在Flink框架上进行数据管理，解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，其中，各所述流数据具备不同数据来源；采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中解决海量数据存储和索引方法中不同来源的流数据处理流程复杂、流数据处理的时效较差、也不能对海量数据处理时的流数据量进行预警等问题，实现了根据不同来源数据的属性信息，对不同来源的流数据进行指定存储、快速索引和及时流量预警效果。

附图说明

图1是本发明实施例一中的一种数据管理方法的流程图；

图2是本发明实施例一中的一种数据管理方法的实现架构示例图；

图3是本发明实施例二中的一种数据管理系统的结构示意图；

图4是本发明实施例三中的计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种数据管理方法的流程图，本实施例可适用于海量数据进行管理的情况，该方法可以由集成在实时流计算框架FlinkFlink上的数据管理系统执行，具体包括如下步骤：

步骤S110，解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，其中，各所述流数据具备不同数据来源；

其中，流数据为连续或聚合的随时间无线增长的动态数据集合，可以是海量日志数据。

其中，分布式消息系统可以处理消费规模的网站中的所有动作流数据，不仅要像分布式文件系统一样做日志数据处理和离线分析，还能对实时处理进行限制。例如，分布式消息系统kafka，通过分布式文件系统的并行加载机制来实现对线上和离线数据的处理，以提供实时的消费信息。

其中，流数据的数据属性信息为流数据使用、处理、存储过程中所体现的数据特性或者数据内容的数字化信息。例如，流数据的数据属性信息可以是数据来源信息、数据索引信息、数据属性信息、数据存储信息、数据量化信息等。

本发明实施例中，通过从分布是消息系统拉取流数据进入Flink搜索引擎，解析拉取的流数据，获得流数据的数据属性信息，相当于对流数据进行简单的分析生成流数据的数据属性信息。根据生成的流数据的数据属性信息可以进一步的对流数据的使用、处理、存储提供数据支持。

需要说明的是，本发明是基于Flink框架的流数据处理，可以支持本地存储、集群、云等多种部署模式。Flink框架利用同一种底层技术来实现流处理和批处理，具有支持高吞吐，低延迟、高性能的流处理；支持高度灵活的窗口操作；拥有支持状态计算完备语义和强大的处理性能，简化数据处理流程，应用程序的维护变得易操作。实际上在Flink程序的基础构架模块是流与转换，每一个数据流都起始于一个或多个源，并且终止于一个或多个节点。在本发明实施例中，基于Flink框架进行流数据管理的过程中，同时兼备Flink框架在数据处理中技术效果这里不进行详细的描述。

步骤S120，采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中。

其中，存储策略为根据流数据属性信息制定的预设存储关系，用于根据预设存储关系将流数据进行对应存储。

其中，预设的时间窗口为根据数据属性信息对预设时间间隔内的流数据预设的处理操作。例如，预设的时间窗口的处理操作可以是分类操作，也可以是数据统计操作等。

其中，第一指定数据库为预设存储关系中一个存储数据库，用于存储流数据及相关信息。第一指定数据库可以是分布式数据库，例如，Hbase数据库。

本发明实施例中，根据流数据的数据属性信息匹配该流数据所对应的存储策略，根据匹配的流数据的存储策略，对各流数据进行分组后流入预设的时间窗口。预设的时间窗口根据各流数据的组别进行对应存储，这个过程相当于对流数据进行分类整理，使得被整理后的流数据进行对应存储，为Flink搜索引擎的检索提供便利。

进一步的，数据管理方法还包括：

确定所述时间窗口在所对应设定时间戳下的流数据量值，并将所述流数据量值及流经时间段关联存储至第二指定数据库中。

其中，时间戳为数据进入时间窗口后，时间窗口根据预设时间阈值对数据添加的信息，用于对进入时间窗口的数据进行标记。时间戳生成的方式有很多种，可以是根据预设时间阈值进行时间标记，也可以是根据数据进入时间窗口的具体时间进行标记，在这里不进行进一步的限定。

其中，流数据量值为流经数据时间窗口所统计的数据流量。

其中，流经时间段为预设的时间窗口处理数据的预设时间阈值，即流数据划分片段的时间节点。

示例性的，当预设的时间窗口的预设时间阈值设置为5分钟，将流数据划分为5分钟片段，统计每个5分钟时间段内的流数据量值，并将每个5分钟时间段内的流数量值与对应的5分钟时间段进行对应存储至并行数据库。

其中，第二指定数据库为预设存储关系中一个存储数据库，用于存储时间窗口统计数据，第二指定数据库可以是并行数据库，例如，MPP数据库。

本发明实施例中，将预设时间窗口在预设时间阈值下的流数据量值，即统计当前时间至预设时间阈值内流数据经预设时间窗口的数据量值。将统计的数据量值与数据量值的流经时间段关联，即将统计的数据量值与对应的流经时间段进行对应存储，存储至第二指定数据库。

进一步的，数据管理方法还包括：

实时监测所述设定时间戳下的流数据量值，并当所述流数据量值大于预设流量阈值时，以设定警告形式进行流量负载预警。

其中，预设流量阈值为流数据流经预设的时间窗口的预警监测值，用于监测预设的时间窗口是否超负载进行处理操作，以保证预设的时间窗口处理流数据的准确性。

本发明实施例中，通过设置流量预警监测值，实时对流经预设时间窗口的流数据量值进行监测，将流经预设时间窗口的流数据量值控制在预设范围内，避免预设时间窗口负载过大，降低流数据处理的准确性。并进一步生成按照预设警告形式生成预警信息，便于Flink实时计算系统及时发现预设时间窗口负载过大对系统进行调整保持系统的稳定性。

进一步的，解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，包括：

从预设的元数据规则集中确定匹配各所述流数据的目标元数据规则，并采用各所述目标元数据规则处理相应的流数据，获得各所述流数据属性信息。

其中，目标元数据规则为预设的元数据规则集匹配到的各流数据的元数据规则，用于根据元数据规则获取各流数据的属性信息，以便于根据流数据的数据属性信息进行快速全文检索。

本发明实施例中，通过预设的元数据规则集匹配各流数据对应的元数据规则，根据元数据规则将对应的流数据进行解析操作，来获取流数据的数据属性信息，以便于在对流数据使用、处理、存储过程中根据流数据的数据属性信息进行相关操作。

进一步的，数据管理方法还包括：

根据各所述流数据的数据属性信息以及相应的目标元数据规则，对存储至所述第一指定数据库的各流数据在指定索引库中建立全文索引。

本发明实施例中，通过对流数据的数据属性信息的分析，进而对流数据存储至指定的数据库中，以便于利用流数据的数据属性信息对流数据在指定数据库中进行快速检索。

进一步的，还包括：

在接收到所述指定索引库发送的数据索引请求时，从第一指定数据库中查找匹配所述数据索引请求的目标数据并反馈至所述指定索引库。

其中，索引请求为Flink搜引擎通过输入的信息和现有的信息进行查找的请求，索引请求信息包括流数据的数据属性信息中唯一行键信息。

本发明实施例中，通过输入或者其他方式对流数据的数据属性信息中唯一行键的显示，进一步的通过指定数据库中的流数据的数据属性信息中唯一行键的匹配，快速查找对应的流数据位置。

进一步的，所述数据属性信息至少包括：流数据的数据类别以及流数据的唯一行键信息；

相应的，所述采用各所述数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中，包括：

将各所述流数据按照数据类别进行分组；

采用对应各所述数据类别的存储策略，将处于各分组的流数据通过预设的时间窗口以设定格式存储至第一指定数据库中。

其中，数据类别为根据数据来源预设数据类别。

其中，设定格式为根据流数据的数据属性信息进行对应存储前的数据格式变化。

其中，唯一键行信息为流数据中的一个字段或一组字段数据与其它行的数据相比是唯一的信息，用于保证全部行数据独一无二性。

本发明实施例中，在缓存于分布式消息系统中或存储于指定的数据库时，需要按照分布式消息系统或指定数据库可存储格式进行对应的存储，避免了数据在存储的过程中因为格式而不能存储操作或者流数据的实质数据内容的损坏，最终导致无法索引或者再次使用。

示例性的，流数据管理方法，具体如下：

图2为实现本发明所提供一种数据管理方法的实现架构示例图，如图2所示，该实现架构中具体包括了：分布式消息系统kafka、分布式服务系统zookeeper、Flink实时流计算框架。其中，分布式消息系统kafka作为缓存系统能处理消费者在网站中的所有动作流数据，通过Hadoop的并行加载机制统一线上和离线的消息进行处理并缓存，用于缓存流数据，以便于Flink实时流计算框架进行数据拉取。其中，分布式服务系统zookeeper作为协调系统为Flink实时流计算框架提供配置维护、名字服务、分布式同步、组服务等功能，用于存储预设的元数据规则集和预设的存储策略，以便于Flink实时流计算框架按照预设的元数据规则及匹配各流数据的目标元数据规则后，根据各流数据的目标元数据规则进行数据处理。其中，日志数据进行格式变化后缓存于kafka分布式消息系统，所预设不同来源的数据存储策略以及所预设数据的元数据规则均存储在分布式服务系统中。具体的，通过采用Flink实时流计算框架与kafka分布式消息系统以及zookeeper的交互，实现数据管理的过程可以描述为：

Flink实时流计算框架拉取缓存于分布式消息系统kafka日志数据。

Flink实时流计算框架根据预设不同来源的数据存储策略和预设数据的元数据规则对拉取的日志数据进行解析，获取日志数据的数据属性信息。

其中，日志数据的数据属性信息中包括日志数据的元数据规则和日志数据的存储策略，而日志数据的元数据规则包括唯一行键信息。

Flink实时流计算框架根据日志数据的数据属性信息对日志数据进行分组，将分组后的日志数据和日志数据的属性信息经时间窗口，按照分组Flink时间窗口将日志数据和日志数据属性信息存储至第一指定数据库Hbase中。

同时，Flink实时流计算框架中预设时间窗口统计预设时间阈值内流经预设的时间窗口的流数据量值，并将预设时间阈值内的流数据量值与流经时间段并行存储至第二指定数据库MPP中。

此外，还可以在接收到索引请求后，根据索引请求中包含的唯一行键信息与Hbase数据库中日志数据的元数据规则中的唯一行键信息匹配结果，若匹配到与该索引请求中包含的唯一行键消息，查找快速查找对应的日志数据。

实施例二

图3为本发明实施例二提供的一种数据管理系统的结构示意图，如图3所示，所述数据管理系统集成在实时流计算框架Flink上，包括：数据解析模块310，数据存储模块320；

数据解析模块310，用于解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息；

数据存储模块320，用于采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中

其中，各所述流数据具备不同数据来源。

进一步的，数据存储模块320包括关联存储模块321；

关联存储模块321，用于确定所述时间窗口在所对应设定时间戳下的流数据量值，并将所述流数据量值及流经时间段关联存储至第二指定数据库中。

进一步的，数据存储模块320包括流量监测模块322；

流量监测模块322，用于实时监测所述设定时间戳下的流数据量值，并当所述流数据量值大于预设流量阈值时，以设定警告形式进行流量负载预警。

进一步的，数据解析模块310，具体用于解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，包括：

进一步的，数据管理系统还包括索引建立模块；

索引建立模块，用于根据各所述流数据的数据属性信息以及相应的目标元数据规则，对存储至所述第一指定数据库的各流数据在指定索引库中建立全文索引。

进一步的，数据管理系统还包括索引响应模块330；

索引响应模块330，用于在接收到所述指定索引库发送的数据索引请求时，从第一指定数据库中查找匹配所述数据索引请求的目标数据并反馈至所述指定索引库。

相应的，数据存储模块310，具体用于所述采用各所述数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中，包括：

将各所述流数据按照数据类别进行分组；

上述实施例中提供的数据管理系统可执行本申请任意实施例所提供的数据管理方法，具备执行该方法相应的功能模块和有益效果。

实施例三

图4为本发明实施例三提供的一种计算机设备的结构示意图。图4示出了适于用来实现本发明实施方式的示例性计算机设备12的框图。图4显示的计算机设备12仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图4所示，计算机设备12以通用计算设备的形式表现。计算机设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括系统存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(ISA)总线，微通道体系结构(MAC)总线，增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。

计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

系统存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图4未显示，通常称为“硬盘驱动器”)。尽管图4中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该计算机设备12交互的设备通信，和/或与使得该计算机设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与计算机设备12的其它模块通信。应当明白，尽管图4中未示出，可以结合计算机设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在系统存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的数据管理方法。

实施例四

本发明实施例四还提供了一种包括计算机执行指令的存储介质，所述计算可执行指令在由计算机处理器执行时用于执行一种数据管理方法，由集成在实时流计算框架Flink上的数据管理系统执行，包括：

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种数据管理方法，其特征在于，由集成在实时流计算框架Flink上的数据管理系统执行，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，解析从分布式消息系统中所拉取的流数据，获得各所述流数据的数据属性信息，包括：

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求1-6任一项所述的方法，其特征在于，所述数据属性信息至少包括：流数据的数据类别以及流数据的唯一行键信息；

将各所述流数据按照数据类别进行分组；

8.一种数据管理系统，其特征在于，集成在实时流计算框架Flink上，包括：

数据存储模块，用于采用各所述流数据属性信息匹配的存储策略，将相应的流数据通过预设的时间窗口存储至第一指定数据库中

其中，各所述流数据具备不同数据来源。

9.一种计算机设备，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7中任一所述的数据存储方法。

10.一种计算机存储介质，时实现如权利要求1-7中任一所述的数据存储方法。