CN114781961A

CN114781961A - 基于聚合模型的数据监控方法、装置、设备和存储介质

Info

Publication number: CN114781961A
Application number: CN202210326569.1A
Authority: CN
Inventors: 张�浩; 杨周龙; 聂英春; 康元佳; 刘镕硕; 高书增
Original assignee: Dongpu Software Co Ltd
Current assignee: Dongpu Software Co Ltd
Priority date: 2022-03-30
Filing date: 2022-03-30
Publication date: 2022-07-22

Abstract

本发明公开了一种基于聚合模型的数据监控方法、装置、设备和存储介质，通过创建聚合模型，实现以下数据处理步骤：获取存储于物流分拨中心的基础数据库中的业务数据，对所述业务数据进行预处理，得到多字段数据聚合表；采用Replace if not null方法更新多字段数据聚合表；采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据；服务端通过该聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。通过上述方法将物流分拨中心海量的扫描数据，写入Doris数据库，实现秒级的接口响应速度，满足数据的实时监控及分析。

Description

基于聚合模型的数据监控方法、装置、设备和存储介质

技术领域

本发明属于数据处理的技术领域，尤其涉及一种基于聚合模型的数据监控方法、装置、设备和存储介质。

背景技术

随着快递行业的日益增长，物流快递数据的单日票件量已达亿级，面对如此大的数据量，不仅有票件数据，还有智能硬件、比如说车辆摄像头等一些监控方面的数据，要对这些数据进行处理，需要有一个交互的分析平台。

对于一家快递公司来说，其物流服务质量是它在行业中的立身之本，那么分拨中心作为在物流环节中最为重要的一环，公司需要从数据层面对分拨中心的操作效率进行监控，及时找到它在操作中出现的问题，进行纠正，从而提升物流服务质量。

发明内容

本发明的目的是提供一种基于聚合模型的数据监控方法、装置、设备和存储介质，实现从数据层面对分拨中心的操作效率进行监控，及时找到操作中出现的问题，进行纠正，从而提升的物流服务质量。

为解决上述问题，本发明的技术方案为：

一种基于聚合模型的数据监控方法，包括：

服务端创建聚合模型，所述聚合模型实现以下数据处理步骤：

获取存储于物流分拨中心的基础数据库中的业务数据，对所述业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表；

采用Replace if not null方法更新所述多字段数据聚合表；

采用bitmap_union方法对所述多字段数据聚合表进行去重统计，得到物流订单的汇总数据；

服务端通过所述聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

根据本发明一实施例，所述对业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表进一步包括：

以SUM函数对所述业务数据进行物流订单数量的统计；

以MIN函数计算物流订单的最早进站时间及出站时间；

以MAX函数计算物流订单的最晚进站时间及出站时间、大包标识、最大重量；

得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

根据本发明一实施例，所述服务端通过所述聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中进一步包括：

将物流分拨中心的基础数据库中的业务数据导入Doris数据库中时，创建数据表，设置维度列和指标列，并在指标列中设置SUM、MIN、MAX、Replace if not null、bitmap_union中任一聚合函数；

所述业务数据根据所述维度列进行分组，并根据所述指标列进行聚合。

根据本发明一实施例，所述根据指标列进行聚合进一步包括：

当进行数据导入时，对同一个导入批次的数据进行聚合；

当进行数据融合时，对不同导入批次的数据进行聚合；

当进行数据查询时，对未进行聚合的数据，若符合查询条件，则进行内部聚合后，再返回给客户端。

根据本发明一实施例，所述将物流分拨中心的基础数据库中的业务数据写入Doris数据库中之后还包括：

基于Doris对业务数据进行维护，确定需要监控的指定维度项目和指定指标项目，响应于所述指定维度项目和/或所述指定指标项目异常，利用与所述指定维度项目和/或所述指定指标项目相对应的至少一种异常分析算法，确定至少一个异常分析结果。

根据本发明一实施例，所述确定至少一个异常分析结果进一步包括：

按照异常置信度，从高到低地提取所述至少一个异常分析结果中预设数量的异常分析结果，将所述预设数量的异常分析结果进行融合，得到最终异常分析结果。

一种基于聚合模型的数据监控装置，包括：

模型创建模块，用于服务端创建聚合模型，所述聚合模型实现以下数据处理步骤：

采用Replace if not null方法更新所述多字段数据聚合表；

模型应用模块，用于服务端通过所述聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

根据本发明一实施例，所述聚合模型以SUM函数对所述业务数据进行物流订单数量的统计，以MIN函数计算物流订单的最早进站时间及出站时间，以MAX函数计算物流订单的最晚进站时间及出站时间、大包标识、最大重量；得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

一种基于聚合模型的数据监控设备，包括：存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行本发明一实施例中的基于聚合模型的数据监控方法中的步骤。

一种存储有计算机可读指令的存储介质，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本发明一实施例中的基于聚合模型的数据监控方法中的步骤。

本发明由于采用以上技术方案，使其与现有技术相比具有以下的优点和积极效果：

本发明一实施例中的基于聚合模型的数据监控方法，通过创建聚合模型，实现以下数据处理步骤：获取存储于物流分拨中心的基础数据库中的业务数据，对所述业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表；采用Replace if not null方法更新多字段数据聚合表；采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据；服务端通过该聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。通过上述方法将物流分拨中心海量的扫描数据，写入Doris数据库，实现秒级的接口响应速度，满足数据的实时监控及分析。

附图说明

图1为本发明一实施例中的基于聚合模型的数据监控方法流图；

图2为本发明一实施例中的基于聚合模型的数据监控装置框图；

图3为本发明一实施例中的基于聚合模型的数据监控设备的示意图。

具体实施方式

以下结合附图和具体实施例对本发明提出的一种基于聚合模型的数据监控方法、装置、设备和存储介质作进一步详细说明。根据下面说明和权利要求书，本发明的优点和特征将更清楚。

实施例一

本实施例针对快递公司海量的扫描数据，需要与别的明显数据进行join，并且达到数据的实时性和准确性要求，提供了一种基于聚合模型的数据监控方法，从数据层面对分拨中心的操作效率进行监控，及时找到操作中出现的问题，进行纠正，从而提升的物流服务质量。

具体的，请参看图1，该基于聚合模型的数据监控方法，包括以下步骤：

S100：服务端创建聚合模型，该聚合模型实现以下数据处理步骤：

S101：获取存储于物流分拨中心的基础数据库中的业务数据，对业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表；

S102：采用Replace if not null方法更新该多字段数据聚合表；

S103：采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据；

S200：服务端通过该聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

在步骤S100中，服务端创建聚合模型，该聚合模型可以是基于Aggregate的聚合模型。在Aggregate聚合模型的代码实现中，可分为两部分，首先是定义一个Entity(实体)，作为Aggregate Root，一般称之为聚合根；第二部分则是遵循Aggregate的完整性规则对领域数据进行操作。

Aggregate的完整性规则由下面两点组成:

所有的代码只能通过Aggregate Root，即聚合根这个特殊的Entity访问系统的Entity，而不能随便的操作任一的Entity。

每个事务范围只能更新一个Aggregate Root及它所关联的Entity状态。

在Aggregate聚合模型中，需要实现以下的数据聚合功能：

表达式	功能描述
		SUN	求和，多行的值进行累加
MIN	保留最小值
		MAX	保留最大值
Replace	替换，单个字段数据的更新

该基于Aggregate的聚合模型具体应用到本实施例对物流分拨中心的数据进行处理时，首先从物流分拨中心的基础数据库中获取所有的业务数据，通常数据库中的数据以表格的形式存在，该业务数据中包含了大量的数据表，有扫描设备产生的票件扫描数据，也有监控设备产生的监控方面的数据。

在步骤S101中，获取存储于物流分拨中心的基础数据库中的业务数据，对业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

该基于Aggregate的聚合模型对获取的业务数据进行预处理。例如，以SUM函数对业务数据进行物流订单数量的统计，以MIN函数计算物流订单的最早进站时间及出站时间，以MAX函数计算物流订单的最晚进站时间及出站时间、大包标识、最大重量；得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

在步骤S102中，采用Replace if not null方法更新该多字段数据聚合表。由于基于Aggregate的聚合模型中的Replace方法用于单个字段的一个更新，若用Replace方法对多字段数据聚合表进行更新，则会出现目标字段得到了更新，而其他字段变成空的情况。为了避免出现这种情况，本实施例采用Replace if not null方法更新多字段数据聚合表。

该Replace if not null方法实现当且仅当新导入数据是非NULL值时会发生替换行为。若新导入的数据是NULL，那么Doris仍然会保留原值。若在建表时REPLACE_IF_NOT_NULL列指定了NOT NULL，那么Doris仍然会将其转化NULL，数据库系统不会报错。

在步骤S103中，采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据。

该基于Aggregate的聚合模型采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据。该bitmap_union方法是一种聚合函数，其去重统计的原理可以理解为：给定一个数组A，其取值范围为[0,n)(注：不包括n)，对该数组去重，可采用(n+7)/8的字节长度的bitmap，该bitmap初始化为全0，逐个处理数组A的元素，以A中元素取值作为bitmap的下标，将该下标的bit置1；最后统计bitmap中1的个数即为数组A的countdistinct结果。

在步骤S200中，服务端通过该聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

本实施例中的聚合模型可将数据表中的列分为Key和Value两种。其中，Key就是数据的维度列，比如时间，地区等；Value则是数据的指标列，比如订单量，花费等。维度列位于指标列之前，每个指标列具有自己的聚合函数，包括SUM、MIN、MAX和bitmap_union等。

将该聚合模型应用在将物流分拨中心的基础数据库中的业务数据导入Doris数据库中时，首先需要创建数据表，设置维度列和指标列，并在指标列中设置SUM、MIN、MAX、Replace if not null、bitmap_union中任一聚合函数；当导入业务数据时，数据会根据维度列进行分组，根据指标列进行聚合。

通过上述聚合模型导入数据时，对于Key列相同的行会聚合成一行，得到的数据是聚合后的数据，即明细数据会丢失。为了保留明细数据，本实施例在建表的时候，在维度列中增加timestamp字段，记录精确到秒的数据导入时间，只要列值不相同就不会聚合，达到保留业务数据的明细的目的。

该聚合模型对数据聚合的应用可分为三个阶段：

当进行数据导入(insert)时，对同一个导入批次的数据进行聚合；

当进行数据融合(在Doris的BE层进行compaction)时，对不同导入批次的数据进行聚合；

当进行数据查询时，对在BE层未进行聚合的数据，若符合查询条件，则进行内部聚合后，再返回给客户端。

在Doris数据库中，其数据表是有几种不同前缀的，每一种前缀代表了不同的数据分层；

ODS层：最原始的数据，比如日志，数据保持原有数据格式不变；

DWD层：对ODS层的数据进行清洗并聚合，比如去除掉一些脏数据，空值等；

DWS层：在DWD层的基础上，进行聚合，形成宽表，比如续报信息，会有新报、先报、续报等信息；宽表：一张表会涵盖比较多的业务内容。

本实施例通过上述基于Aggregate的聚合模型，将物流分拨中心的业务数据写入Doris数据库。其实现过程可以理解为将业务数据写入Doris数据库的ODS层，利用聚合模型对ODS层的数据进行处理，得到DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

将物流分拨中心的业务数据写入Doris数据库中之后，可以基于Doris对业务数据进行维护，确定需要监控的指定维度项目和指定指标项目，响应于指定维度项目和/或所述指定指标项目异常，利用与指定维度项目和/或指定指标项目相对应的至少一种异常分析算法，确定至少一个异常分析结果。

对于物流分拨中心来说，其主要业务是对各物流订单的接收与分发，及时的将各物流票件送交到客户手上。为了顺利而有序地完成向客户配送票件的任务，需要对其操作过程进行监控。如：需要监控物流订单的进、出时间，统计物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量等指标项目。

以物流订单的数量为例，需要对物流分拨中心每天进、出的物流订单进行监控，那么就需要先对每天的物流订单的数量进行统计。计算每天的物流订单的数量的同比、环比以及连续几日增长的变化率和变化量，若订单数超出预设的阈值时(这个阈值是由数据开发人员配置，不做限制)，就会被判定为异常。

上述利用与指定维度项目和/或指定指标项目相对应的至少一种异常分析算法，确定至少一个异常分析结果，确定至少一个异常分析结果是指：

按照异常置信度，从高到低地提取至少一个异常分析结果中预设数量的异常分析结果，将预设数量的异常分析结果进行融合，得到最终异常分析结果。

继上述对物流订单的数量的监控异常分析，当物流订单数超出预设的阈值时，对比算法的异常结果，只要存在两个异常(例如，同比、环比都异常)，那就会被最终认定为异常。

本实施例中的基于聚合模型的数据监控方法，通过创建聚合模型，实现以下数据处理步骤：获取存储于物流分拨中心的基础数据库中的业务数据，对所述业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表；采用Replace if not null方法更新多字段数据聚合表；采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据；服务端通过该聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。通过上述方法将物流分拨中心海量的扫描数据，写入Doris数据库，实现秒级的接口响应速度，满足数据的实时监控及分析；从数据层面对分拨中心的操作效率进行监控，及时找到它在操作中出现的问题，进行纠正，从而提升的物流服务质量。

实施例二

本实施例提供了一种基于聚合模型的数据监控装置，请参看图2，该数据监控装置包括：

模型创建模块1，用于服务端创建聚合模型，所述聚合模型实现以下数据处理步骤：

获取存储于物流分拨中心的基础数据库中的业务数据，对业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表；

采用Replace if not null方法更新多字段数据聚合表；

采用bitmap_union方法对多字段数据聚合表进行去重统计，得到物流订单的汇总数据；

模型应用模块2，用于服务端通过聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中，自动生成DWD层的物流订单聚合数据或DWS层的物流订单汇总数据。

其中，模型创建模块1中的聚合模型以SUM函数对业务数据进行物流订单数量的统计，以MIN函数计算物流订单的最早进站时间及出站时间，以MAX函数计算物流订单的最晚进站时间及出站时间、大包标识、最大重量；得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

上述模型创建模块1、模型应用模块2的功能及实现方法均如上述实施例一所述，在此不再赘述。

实施例三

本实施例提供了一种基于聚合模型的数据监控设备。请参看图3，该基于聚合模型的数据监控设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processing units，CPU)510(例如，一个或一个以上处理器)和存储器520，一个或一个以上存储应用程序533或数据532的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器520和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对基于聚合模型的数据监控设备500中的一系列指令操作。

进一步，处理器510可以设置为与存储介质530通信，在基于聚合模型的数据监控设备500上执行存储介质530中的一系列指令操作。

基于聚合模型的数据监控设备500还可以包括一个或一个以上电源540，一个或一个以上有线或无线的网络接口550，一个或一个以上输入输出接口560，和/或，一个或一个以上操作系统531，例如Windows Serve、Vista等等。

本领域技术人员可以理解，图3示出的基于聚合模型的数据监控设备结构并不构成对基于聚合模型的数据监控设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

本发明的另一实施例还提供了一种计算机可读存储介质。

该计算机可读存储介质可以为非易失性计算机可读存储介质，该计算机可读存储介质也可以为易失性计算机可读存储介质。该计算机可读存储介质中存储有指令，当该指令在计算机上运行时，使得计算机执行实施例一中的基于聚合模型的数据监控方法的步骤。

基于聚合模型的数据监控方法如果以程序指令的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件的形式体现出来，该计算机软件存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-only memory，ROM)、随机存取存储器(Random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

所属领域的技术人员可以清楚地了解到，为描述得方便和简洁，上述描述的系统及设备的具体执行的识别内容，可以参考前述方法实施例中的对应过程。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式。即使对本发明作出各种变化，倘若这些变化属于本发明权利要求及其等同技术的范围之内，则仍落入在本发明的保护范围之中。

Claims

1.一种基于聚合模型的数据监控方法，其特征在于，包括：

采用Replace if not null方法更新所述多字段数据聚合表；

2.如权利要求1所述的基于聚合模型的数据监控方法，其特征在于，所述对业务数据进行预处理，得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表进一步包括：

以SUM函数对所述业务数据进行物流订单数量的统计；

以MIN函数计算物流订单的最早进站时间及出站时间；

3.如权利要求1所述的基于聚合模型的数据监控方法，其特征在于，所述服务端通过所述聚合模型，将物流分拨中心的基础数据库中的业务数据写入Doris数据库中进一步包括：

4.如权利要求3所述的基于聚合模型的数据监控方法，其特征在于，所述根据指标列进行聚合进一步包括：

当进行数据导入时，对同一个导入批次的数据进行聚合；

当进行数据融合时，对不同导入批次的数据进行聚合；

5.如权利要求1所述的基于聚合模型的数据监控方法，其特征在于，所述将物流分拨中心的基础数据库中的业务数据写入Doris数据库中之后还包括：

6.如权利要求5所述的基于聚合模型的数据监控方法，其特征在于，所述确定至少一个异常分析结果进一步包括：

7.一种基于聚合模型的数据监控装置，其特征在于，包括：

采用Replace if not null方法更新所述多字段数据聚合表；

8.如权利要求7所述的基于聚合模型的数据监控装置，其特征在于，所述聚合模型以SUM函数对所述业务数据进行物流订单数量的统计，以MIN函数计算物流订单的最早进站时间及出站时间，以MAX函数计算物流订单的最晚进站时间及出站时间、大包标识、最大重量；得到包含物流订单的总数、最早进站/出站的时间、最晚进站/出站的时间、大包标识及最大重量在内的多字段数据聚合表。

9.一种基于聚合模型的数据监控设备，其特征在于，包括：存储器和处理器，所述存储器中存储有计算机可读指令，所述计算机可读指令被所述处理器执行时，使得所述处理器执行如权利要求1至6中任意一项所述的基于聚合模型的数据监控方法中的步骤。

10.一种存储有计算机可读指令的存储介质，其特征在于，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至6中任意一项所述的基于聚合模型的数据监控方法中的步骤。