CN113010382A

CN113010382A - 一种埋点数据的计算方法、装置、存储介质和电子设备

Info

Publication number: CN113010382A
Application number: CN202110282866.6A
Authority: CN
Inventors: 吴辉; 江敏
Original assignee: Hangzhou Dtwave Technology Co ltd
Current assignee: Hangzhou Dtwave Technology Co ltd
Priority date: 2021-03-16
Filing date: 2021-03-16
Publication date: 2021-06-22

Abstract

本申请提供一种埋点数据的计算方法、装置、存储介质和电子设备。先将采集到的埋点数据进行划分和标识，再将划分出的数据分片自动分配给不同的计算任务执行计算，最后根据各个数据分片的标识将同一采集来源的多个计算结果进行合并计算。该方法在同一时间能计算多个数据分片，提高了计算效率，且支持对多个采集来源的埋点数据同时进行计算。

Description

一种埋点数据的计算方法、装置、存储介质和电子设备

技术领域

本发明涉及数据处理技术，更具体而言，涉及一种埋点数据的计算方法、装置、存储介质和电子设备。

背景技术

埋点是指对目标事件进行捕获、处理和上报的相关技术及实施过程。具体来说，埋点就是在定义的事件代码中植入一段用于监控的代码，这段用于监控的代码也可被称为埋点代码。用户一旦触发所定义的事件就会上报埋点代码中定义的需要上报的字段信息，这些被上报的字段信息可以被称为埋点数据。通常来说，埋点可以用来监控用户都打开了哪些页面，点击了哪些按钮，停留了多长时间，等等。

在得到上报的埋点数据后，还需要对埋点数据进行计算，以得到最终的可用数据。传统方案通常使用单台机器对埋点信号进行解析计算。由于单台机器的内存和计算能力有限，同一时间只能对一小部分埋点数据进行计算，不能及时得到计算结果。

发明内容

依据本申请的第一方面，提供了一种埋点数据的计算方法，包括：

将采集到的埋点数据进行划分，得到多个数据分片，每个数据分片携带有唯一标识信息；

将所述多个数据分片分配给多个计算任务执行计算，得到与所述多个数据分片分别对应的多个计算结果；

基于所述多个数据分片中的每个数据分片所携带的唯一标识信息，确定采集来源相同的数据分片；以及

将所述多个计算结果中所述采集来源相同的数据分片所对应的计算结果发送给同一个汇总节点进行合并处理。

依据本申请的第二方面，提供了一种埋点数据的计算装置，包括：

数据划分模块，被配置为将采集到的埋点数据进行划分，得到多个数据分片，每个数据分片携带有唯一标识信息；

数据分配模块，被配置为将所述多个数据分片分配给多个计算任务执行计算，得到与所述多个数据分片分别对应的多个计算结果；

数据识别模块，被配置为基于所述多个数据分片中的每个数据分片所携带的唯一标识信息，确定采集来源相同的数据分片；以及

数据合并模块，被配置为将所述多个计算结果中所述采集来源相同的数据分片所对应的计算结果发送给同一个汇总节点进行合并处理。

依据本申请的第三方面，还提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为能够执行所述指令，以实现如第一方面所述的方法。

依据本申请的第四方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令被计算机执行时能够执行如第一方面所述的方法。

本申请的实施例能够在同一时间分别计算大量埋点数据形成的多个数据分片，支持多位用户同时计算，效率较高。且能保证埋点数据的计算结果的连续性。

附图说明

图1是本申请一示例性实施例示出的埋点数据的计算方法的一种流程图；

图2是本申请一示例性实施例示出的实时采集的一种流程图；

图3是本申请一示例性实施例示出的数据分片过程的一种示意图；

图4是本申请一示例性实施例示出的埋点信号的一种示意图；

图5是本申请一示例性实施例示出的埋点数据的计算方法的另一种流程图；

图6是本申请一示例性实施例示出的排序方式的一种示意图；

图7是本申请一示例性实施例示出的埋点数据的计算方法的一种示意图；

图8是本申请一示例性实施例示出的埋点数据的计算装置的一种示意图。

具体实施方式

现在将参照若干示例性实施例来论述本发明的内容。应当理解，论述了这些实施例仅是为了使得本领域普通技术人员能够更好地理解且因此实现本发明的内容，而不是暗示对本发明的范围的任何限制。

如本文中所使用的，术语“包括”及其变体要被解读为意味着“包括但不限于”的开放式术语。术语“基于”要被解读为“至少部分地基于”。术语“一个实施例”和“一种实施例”要被解读为“至少一个实施例”。术语“另一个实施例”要被解读为“至少一个其他实施例”。

埋点数据从采集到展现这一过程是实时流式的，参见图1和如下步骤一到步骤四，是示例性的整体流程：

一、实时采集埋点数据；

二、通过WebServer将采集到埋点数据存放在日志文件(如access.log文件)；

三、使用Flume+Kafka+Spark/Storm对日志文件中的埋点数据进行实时传输和计算；

四、将埋点数据传输并存放在RDBMS/NoSql/Hbase,然后进行可视化展现。

对于以上第三步的计算过程，本申请的实施例提供了一种具体的埋点数据的计算方法，以及应用所述埋点数据的计算方法的设备。参见图2，根据一示例性实施例示出了一种埋点数据的计算方法的示意图，包括以下步骤S201～步骤S203。

在步骤S201中，将采集到的埋点数据进行划分，得到多个数据分片，每个数据分片携带有唯一标识信息；

将埋点数据划分为数据分片时，可以采取现有已知的划分方式。例如图3，示例性展示了数据输入到Map端时进行数据分片的过程，具体不再赘述。

在对采集到的埋点数据进行划分时，可以把同一采集来源的埋点数据按照采集时间顺序等间隔地划分出多个数据分片。即，每个数据分片可以对应等长的采样时间(注：最后一个数据分片可能小于该等长采样时间)。

在数据的采样频率(采集时间间隔)相同的情况下，等间隔划分出数据分片可以使每个数据分片存储的数据量大小(或者说采样点数)相同，保证计算任务在计算时的负载均衡。

在一些实施例中，每个数据分片的大小选取可同时参考设备(例如分布式集群)的规模和计算任务允许调用的内存来确定。

在一些实施例中，划分出的每个数据分片所包含的字段信息可以包括但不限于如下信息：

·采集来源

采集来源用于标识该数据分片中埋点数据的来源。例如，来源用户(产生埋点数据的用户)的用户ID，或者来源设备(产生埋点数据的设备)的设备标识，等等。

·分片序号

分片序号是按照采集时间顺序为同一采集来源的数据分片所分配的序号。例如：针对同一采集来源，分片序号从数字1开始编码。采样时间是10:00-10:05的数据分片的分片序号是1，采样时间是10：05-10:10的数据分片的分片序号是2，等等。

·采样频率

·分片大小

分片大小是为数据划分所设定的划分单元。默认情况下，数据分片的采样点数等于分片大小，最后一个数据分片的采样点数可能小于分片大小。

·采样开始时间

·采样点数

采样点数表示数据分片中所存储的数据的数目。每采集一个数据都会得到一个采样值，并对应增加一个采样点。

·采样数据集

采样数据集字段存储实际的埋点数据，由一系列采样值组成。这一系列采样值之间可以用指定的间隔符(如分号)分开。

每个数据分片携带有唯一标识信息，该唯一标识信息可以由上述字段信息中的一项或多项组成。

在一些实施例中，采集来源可以作为数据分片的唯一标识信息。

在另一些实施例中，采集来源和分片序号可以共同组成数据分片的唯一标识信息。例如：唯一标识信息＝用户ID(采集来源)+数字序号(分片序号)。

在步骤S202中，将所述多个数据分片分配给多个计算任务执行计算，得到与所述多个数据分片分别对应的多个计算结果；

在一些实施例中，将该多个数据分片分配给不同的计算任务执行计算时，可以采用随机自动的分配方式。

该不同的计算任务可以由不同的计算节点(例如不同的计算机设备)来开启和运行。

执行计算时主要包括两个过程：无效数据过滤过程和解析过程。

无效数据过滤过程用于过滤掉一些明显错误的数据，比如姓名为乱码的数据，或者身份证号码不符合规则的数据。该过滤条件可以自定义。

解析过程用于将多种格式的埋点数据内容通过自定义的规则进行解析并规则化，并进行一部分数据的预计算，目的是降低后续的合并处理阶段的计算量。

参见图4的示例性展示。在图4中，记录了所采集到的用户在终端产生的各类数据。包括点击事件中的点击次数数据、浏览事件中的浏览次数数据、停留事件中的停留时长数据和跳转事件中的跳转次数数据。具体而言，埋点数据本身是文本形式的json数据，其中的数据内容的格式比较多样(例如坐标格式，ID格式，时间格式，加密格式等等)，数据分片中的埋点数据也是如此。这些埋点数据可以通过向量化生成对应的波形图(埋点信号)，基于该埋点信号进行无效数据过滤(波形检测和信号去噪)后，数据会更加清洁，后续的计算结果会更加准确。

计算任务用于计算数据分片中的埋点信号，在一些实施例中，计算任务可以在Mapper端执行，其中的无效数据过滤过程至少包括信号去噪步骤和波形检测提取步骤。

在一些实施例中，信号去噪步骤可以使用基于PDE的非线性扩散滤波方法(简称P-M)，也可以使用其他信号去噪方法，只要能够降低或去除信号中的噪声即可，本申请对具体使用的信号去噪方法不做限制。

在一些实施例中，波形检测步骤中可以使用各种波形检测算法，如差分阈值检测法、数学形态学法、小波变换法、神将网络法等。

在实际应用中，可以采用Hadoop或ODPS系统执行本实施例的方案，在系统中开启并运行MAP任务作为计算任务，以执行数据分片的计算。

在步骤S203中，基于所述多个数据分片中的每个数据分片所携带的唯一标识信息，确定采集来源相同的数据分片；

在步骤S204中，将所述多个计算结果中所述采集来源相同的数据分片所对应的计算结果发送给同一个汇总节点进行合并处理。

在一些实施例中，可以采用Hadoop或ODPS系统执行本实施例的方案，使用系统中的Reducer节点作为汇总节点，执行对计算结果的合并处理，以便得到针对来自同一采集来源的合并处理结果。

在上述步骤S201-步骤S204所构成的实施例中，先将采集到的埋点数据进行划分和标识(使用唯一标识信息)，再将划分出的数据分片自动分配给不同的计算任务执行数据过滤和解析，最后根据各个数据分片的标识将同一采集来源的多个计算结果进行合并计算。该方法在同一时间能计算多个数据分片，提高了计算效率，且支持对多个采集来源的埋点数据同时进行计算。

参见图5，为本申请一示例性实施例示出的另一种数据质量监控方法的示意图，包括步骤S501到步骤S505：

在步骤S501中，将采集到的埋点数据进行划分，得到多个数据分片，每个数据分片携带有唯一标识信息；

在步骤S502中，将所述多个数据分片分配给不同的Map端进行并行计算，得到计算结果；

举例说明：使用系统(指Hadoop或ODPS)启动多个Map任务来同时计算多个用户(采集来源)的埋点数据，每个Map任务负责计算多个数据分片。

在步骤S503中，基于每个数据分片所携带的唯一标识信息确定来自同一用户的数据分片,以及同一用户的数据分片的分片序号；

在步骤S504中，针对同一用户的数据分片，将对应的计算结果按照分片序号重新排序；

在步骤S505中，将所述计算结果发送给同一个Reducer节点，在进行去重处理后将去重后的计算结果按照分片序号进行串联，得到同一采集用户的具有时间连续性的计算结果。

由于数据加载的自主性和网络传输过程的随机性，不能保证Reducer端接受的数据是按照分片序号排序的，需要在Reducer端合并计算开始前对数据分片做重新排序处理。

具体而言，在Reducer节点的计算阶段，会启动多个Reduce任务来同时计算多个用户的计算结果，每个Reduce任务会处理一个或多个用户的计算结果。

参见图6，在Reducer阶段计算开始前，可以采用二次排序技术(例如Hadoopsecondary sort技术)对同一个用户所有数据分片的计算结果按照分片序号进行升序排序操作，以保证同一用户的计算结果的以其采集时间从先到后的顺序进行排序。

在埋点数据发送过程中，因为潜在的网络抖动，可能导致埋点数据短间隔内重复发送，因此相邻的数据分片上可能存在重复的数据。即冗余存储数据，因此本实施例在Reduce阶段还执行了对于冗余存储数据的去重操作。

在一些实施例中，如果检测到两个连续的信号周期的间期小于指定的阈值(例如平均间期的2/3)，则可以将这两个信号周期视为同一组埋点数据所形成的信号，只是在两个不同的数据分片上计算所得。此时触发执行去重操作，去除其中一个信号数据。

在上述步骤S501-步骤S505所构成的实施例中，能够在同一时间能计算同一用户的多个数据分片，支持针对多位用户同时计算，效率较高，并能保证从每个用户采集到数据的计算结果具有时间连续性。

参见图7，通过一个示例性实施例，说明本申请方案在实际场景中的一种具体应用方式。该应用方式是一种基于spark的埋点信号采集检测方法其中，spark是一种大数据计算框架，可以理解为一种工具。发明使用spark进行埋点数据的分布式计算(去噪、mapper端计算和reducer端计算)，如下：

在输入阶段，将图7中的8个数据分片分配给Mapper端。Mapper端开启计算任务Mapper1、Mapper2和Mapper3。

其中，计算任务Mapper1负责计算数据分片<A，1，D1>、<A，3，D3>和<A，2，D2>；计算任务Mapper2负责计算数据分片<A，5，D5>和<B，1，D3>；计算任务Mapper3负责计算数据分片<B，3，D3>、<B，2，D7>和<A，4，D4>；

举例说明数据分片<A，1，D1>，A表示用户A(采集来源A)，数字1表示为用户A的数据分片按照时间顺序所分配的分片序号是1，D1表示数据分片中包含的采样数据集。

每个计算任务处理的数据分片可以由调度引擎自动分配，通常不能保障同一用户的数据分片分配到同一计算任务，计算任务也不能按照分片序号顺序来处理。

在Mapper端，经过Mapper1的计算，数据分片<A，1，D1>、<A，3，D3>和<A，2，D2>的计算结果分别为<A，1，R1>、<A，3，R3>和<A，2，R2>。其中的用户A和分片序号是唯一标识信息，计算后未发生改变。而采样数据集D1、D3和D2在计算(无效数据过滤，数据解析)后得到计算结果R1、R3和R2。

在Mapper端和Reducer端还存在Shuffle阶段和Sort阶段，在Shuffle阶段，基于唯一标识信息将属于同一用户的计算结果提取并集合到一起。在Sort阶段，将所提取出的同一用户的计算结果按照其分片序号进行重新排序，然后将排序后的计算结果传给Reducer端。

具体而言，同一个Reducer(汇总节点)会处理一个或者多个用户的埋点数据的计算结果。将每个数据分片的计算结果通过用户ID来检测出计算分区，即可确定Reducer端的路由地址。如此能保证一个用户的所有数据分片的计算结果在同一个Reducer上进行处理。即，用户A的检测计算结果均发送给Reducer1处理，用户B的检测计算结果均发送给Reducer2处理，等等。

在Reducer端，将已经排序完成的属于同一用户的计算结果进行合并计算，得到最终的可用数据。

相应于上述方法实施例，本申请实施例还提供一种埋点数据的计算装置，参见图8所示，所述装置可以包括：

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本申请实施例还提供一种电子设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述埋点数据的计算方法，所述方法包括：

本申请实施例还提供一种计算机可读介质，其上存储有计算机可读指令，所述指令被执行时可实施本申请各实施例的方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁存储设备存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

根据需要，本申请各实施例的系统、方法和装置可以实现为纯粹的软件(例如用Java和SQL来编写的软件程序)，也可以根据需要实现为纯粹的硬件(例如专用ASIC芯片或FPGA芯片)，还可以实现为结合了软件和硬件的系统(例如存储有固定代码的固件系统或者带有通用存储器和处理器的系统)。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

以上所述仅是本申请实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请实施例的保护范围。

Claims

1.一种埋点数据的计算方法，包括：

2.如权利要求1所述的方法，其中所述唯一标识信息中包括采集来源，以及相对于该采集来源，按照采集时间顺序为所述唯一标识信息对应的数据分片分配的分片序号。

3.如权利要求2所述的方法，其中所述将所述多个计算结果中所述采集来源相同的数据分片所对应的计算结果发送给同一个汇总节点进行合并处理，包括：

根据所述分片序号，将对应的计算结果重新排序；以及

将排序后的计算结果发送给同一个汇总节点进行合并处理，得到所述采集来源的具有时间连续性的计算结果。

4.如权利要求1所述的方法，其中所述合并处理前，还包括：对所述计算结果进行去重处理。

5.如权利要求1所述的方法，其中所述采集来源包括：产生所采集埋点数据的用户。

6.如权利要求1所述的方法，其中所述数据分片还携带有采样频率、分片大小、采样开始时间、采样点数和采样数据集中的一项或多项信息。

7.如权利要求1所述的方法，其中所述多个计算任务在执行计算时是并行的。

8.如权利要求1所述的方法，其中所述多个计算任务执行所述计算时，至少对所述多个数据分片执行信号去噪处理和波形检测提取处理。

9.如权利要求1所述的方法，其中所述波形检测提取处理时使用差分阈值检测法、数学形态学法、小波变换法或神将网络法中的至少一项。

10.一种埋点数据的计算装置，包括：

11.如权利要求10所述的装置，其中所述唯一标识信息中包括采集来源，以及相对于该采集来源，按照采集时间顺序为所述唯一标识信息对应的数据分片分配的分片序号。

12.如权利要求11所述的装置，其中所述数据合并模块，在将所述多个计算结果中所述采集来源相同的数据分片所对应的计算结果发送给同一个汇总节点进行合并处理时，还被配置为：

根据所述分片序号，将对应的计算结果重新排序；以及

13.如权利要求10所述的装置，还包括数据去重模块，其被配置为在所述合并处理前，对所述计算结果进行去重处理。

14.如权利要求10所述的装置，其中所述采集来源包括：产生所采集埋点数据的用户。

15.如权利要求10所述的装置，其中所述数据分片还携带有采样频率、分片大小、采样开始时间、采样点数和采样数据集中的一项或多项信息。

16.如权利要求10所述的装置，其中所述多个计算任务在执行计算时是并行的。

17.如权利要求10所述的装置，所述数据分配模块在对所述多个计算任务执行所述计算时，还被配置为对所述多个数据分片执行信号去噪处理和波形检测提取处理。

18.如权利要求10所述的装置，其中所述波形检测提取处理时使用差分阈值检测法、数学形态学法、小波变换法或神将网络法中的至少一项。

19.一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为能够执行所述指令，以实现如权利要求1至9中任一项所述的方法。

20.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令被计算机执行时能够执行如权利要求1-9中任一项所述的方法。