CN117454086A

CN117454086A - 一种时间序列数据检重的方法、装置和设备

Info

Publication number: CN117454086A
Application number: CN202311414641.7A
Authority: CN
Inventors: 白晨旭; 曹文洁; 万月亮
Original assignee: Beijing Ruian Technology Co Ltd
Current assignee: Beijing Ruian Technology Co Ltd
Priority date: 2023-10-27
Filing date: 2023-10-27
Publication date: 2024-01-26

Abstract

本发明提供了一种时间序列数据检重的方法、装置和设备，涉及数据分析的技术领域，该方法，包括：设置去重周期；获取待处理时序数据，所述待处理时序数据具有对应的时序值；当所述待处理时序数据的时序值不在当前时序数据的去重周期内时，将所述待处理时序数据保存至时序数据集合，所述当前时序数据为所述时序数据集合中的任意一条时序数据，所述时序数据集合中的时序数据为已处理过的时序数据，解决了时序数据中存在重复的时序数据的技术问题，提高了时序数据质量的技术效果。

Description

一种时间序列数据检重的方法、装置和设备

技术领域

本发明涉及数据分析技术领域，尤其是涉及一种时间序列数据检重的方法、装置和设备。

背景技术

随着物联网相关技术的发展时序数据正在大量产生，针对时序时间的分析处理可以挖掘出有价值的数据，但是在时序数据的产生和处理过程中，由于数据源头抖动或者中间环节处理程序的异常等会产生重复的时序数据。

因为时序数据本身具有数量大的特点，因此重复的时序数据将会极大的降低时序数据的质量。

发明内容

本发明的目的在于提供一种时间序列数据检重的方法、装置和设备，以缓解了现有技术中存在的时序数据质量较低的技术问题。

本发明提供了一种时间序列数据检重方法，包括：

设置去重周期；

获取待处理时序数据，所述待处理时序数据具有对应的时序值；

当所述待处理时序数据的时序值不在当前时序数据的去重周期内时，将所述待处理时序数据保存至时序数据集合，所述当前时序数据为所述时序数据集合中的任意一条时序数据，所述时序数据集合中的时序数据为已处理过的时序数据。

在可能的实施方式中，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内，包括：

基于所述待处理时序数据的时序值与所述当前时序数据的时序值之间的绝对差值，判断所述绝对差值是否在所述当前时序数据的去重周期内。

当所述待处理时序数据的时序值在当前时序数据的去重周期内时，删除所述待处理时序数据。

在可能的实施方式中，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内之前，包括：

获取所述当前时序数据的当前标识位状态，所述标识位状态包括无数据状态和有数据状态。

在可能的实施方式中，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内之后，包括：

若保存所述待处理时序数据，则更新所述当前标识位状态。

在可能的实施方式中，更新所述当前标识位状态，包括：

保存待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为无数据状态，将所述当前标识位状态更新为有数据状态。

在可能的实施方式中，更新所述当前标识位状态，包括：

删除待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为有数据状态，所述当前时序数据的标识位状态不变。

在可能的实施方式中，所述设置去重周期，包括：

根据业务场景确定所述去重周期的大小。

在可能的实施方式中，所述获取待处理时序数据，包括：

基于预处理规则，对时序数据进行分组，得到若干个待处理时序数据组。

本发明还提供一种时间序列数据检重装置，包括：

设置模块，用于设置去重周期；

获取模块，用于获取待处理时序数据，所述待处理时序数据具有对应的时序值；

检重模块，用于当所述待处理时序数据的时序值不在当前时序数据的去重周期内时，将所述待处理时序数据保存至时序数据集合，所述当前时序数据为所述时序数据集合中的任意一条时序数据，所述时序数据集合中的时序数据为已处理过的时序数据。

本发明还提供一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序实现如上述任一项所述一种时间序列数据检重方法的步骤。

本发明提供的一种时间序列数据检重的方法、装置和设备，通过设置去重周期，确认待处理时序数据是否落入当前时序数据的去重周期内，若未落入，则保留当前时序数据，从而提高时序数据的质量。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种时间序列数据检重方法的流程示意图；

图2为本发明实施例提供的T₀，T₁，T₂，T_-1，T_-2的获取时刻和时间戳以及时间范围示意图；

图3为本发明实施例提供的状态标识位全为0的示意图；

图4本发明实施例提供的状态标识位第一位为1，其余为0的示意图；

图5本发明实施例提供的状态标识位第一、二位为1，其余为0的示意图；

图6本发明实施例提供的状态标识位第一、八为1，其余为0的示意图；

图7本发明实施例提供的状态标识位全为0的另一个示意图；

图8为本发明提供的一种时间序列数据检重装置的结构示意图；

图9为本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。

因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明的描述中，还需要说明的是，除非另有明确的规定和限定，术语“设置”、“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

时序数据是指时间序列数据，时间序列数据是同一统一指标按时间顺序记录的数据列，本申请中的时序数据包括数据值和时序值。

重复的时序数据包括两种情况，一种是完全重复，即重复的时序数据的数据值和时序值完成相同；另一种是非完成重复，即重复的时序数据的数据值和时序值完全不一样，但是重复的时序数据很接近，其接近程度由具体的业务场景决定。例如，假如有两条时序数据都是由主体对象O产生的，时序值T1、T2分别是19:01和19:02，根据具体的业务场景，设定|T1-T2|≤2即两个时间戳的绝对值小于等于2，则认为两条时序数据为重复的时序数据。

下面结合附图1，对本发明的一些实施方式作详细说明。在不冲突的情况下，下述的实施例及实施例中的特征可以相互组合。

本发明提供一种时间序列数据检重方法，包括以下步骤：

S110、设置去重周期。

在本发明实施中，根据业务场景确定去重周期的大小，例如，可基于时序时间，设定去重周期P为120S。

S120、获取待处理时序数据，所述待处理时序数据具有对应的时序值。

在本发明实施中，获取待处理时序数据，包括：基于预处理规则，对时序数据进行分组，得到若干个待处理时序数据组。

具体的，根据主体对象产生的时序数据的顺序，将若干个时序数据分为一组，得到若干个待处理时序数据组，在对每个待处理时序数据组中的待处理时序数据进行去重，将每个待处理时序数据组中的时序数据去重后，把剩余的是时序数据集合在一起，得到预处理时序数据组，再根据需要对预处理时序数据组进行去重处理。通过上述分布式对时序数据进行去重，进而提高效率，节约时间。

S130、当所述待处理时序数据的时序值不在当前时序数据的去重周期内时，将所述待处理时序数据保存至时序数据集合，所述当前时序数据为所述时序数据集合中的任意一条时序数据，所述时序数据集合中的时序数据为已处理过的时序数据。

进一步，基于所述待处理时序数据的时序值与所述当前时序数据的时序值之间的绝对差值，判断所述绝对差值是否在所述当前时序数据的去重周期内。

在可能的实施方式中，当所述待处理时序数据的时序值在当前时序数据的去重周期内时，删除所述待处理时序数据。

例如，待处理时序数据A的时序值为T_A，当前时序数据B的时序值为T_B，去重周期为P＝120S，绝对差值为|T_B-T_A|，该绝对差值是否在(-120,120)内，若在，则待处理时序数据A为当前时序数据B的重复数据，若不在，则待处理时序数据A为当前时序数据B的非重复数据，将待处理时序数据A保存至时序数据集合中。

进一步，当前时序数据可为产生时序数据的第一条时序数据，或是接收到的第一条时序数据，也可能是时序数据集合中的任意一条时序数据，时序数据集合中的时序数据为已经处理过的时序数据。

进一步，若待处理时序数据为非重复数据，则保存待处理数据，将待处理数据作为新的当前时序数据，重新获取新的待处理时序数据，判断新的待处理时序数据是否为新的当前时序数据的重复数据，例如，对时序数据A、B和C进行去重，首先将时序数据A作为当前时序数据，时序数据B为待处理时序数据，经过上述方法判断待处理时序数据B为当前时序数据A的非重复数据，保留时序数据B，此时，将时序数据B作为当前时序数据，时序数据C为待处理时序数据，经过上述方法判断待处理时序数据C为当前时序数据B的重复数据，删除时序数据C，也可以判断时序数据C是否为时序数据A的重复数据。

确定一条时序数据是否为重复数据，可基于时序数据集合中的一条时序数据进行判断，也可以基于时序数据集合中的多个时序数据进行判断。

例如，设定生产时序的主体对象记为O，主体对象O的时序数据记为R，时序数据的产生时间记为T，也就是时序数据的时序值记为T，去重周期记为P，单位为秒，去重周期时间范围标记为Trange。

主体对象O的第一条时序数据R₀的时序值为T₀，第二条时序数据R_x的时序值为T_x，根据第一条时序数据和第二条时序数据可知：T_x＝T₀+X，X为绝对差值，假设，设置去重周期为P＝120S(秒)，则，当X位于-120<X≤120时，去重周期时间范围为:T₀-120＜Trange≤T₀+120时间范围的某一时刻，由此可见，R_x在R₀的去重周期范围内，即R_x为R₀的重复数据；

当120＜X≤240时，T_x为T₀+120＜Trange≤T₀+240时间范围的某一时刻，此时T_x不是R₀的重复数据而是在R₁的去重周期内，当X的取值范围大于正数去重周期P时Trange满足条件：Trange＝T₀+X，n*p<X<(n+1)*p，其中n为第几条数据，R₁为R₀的前一个时序数据；

当-240＜X≤-120时，T_x为T₀-240＜Trange≤T₀-120时间范围的某一时刻，此时R_x不是R₀的重复数据而是在R_-1的去重周期内，当X的取值范围小于负数去重周期P时Trange满足条件：Trange＝T₀+X,(n-1)*120＜X≤n*120，其中，R_-1为R₀的后一个时序数据。

基于上述方法，可通过设置去重周期对时间序列数据中的时序数据进行筛选，提高时序数据的质量。

在可能的实施方式中，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内之前，包括：获取所述当前时序数据的当前标识位状态，所述标识位状态包括无数据状态和有数据状态。

在可能的实施方式中，判断所述绝对差值是否落入所述去重周期，若未落入，则保存所述待处理时序数据，包括：若保存所述待处理时序数据，则更新所述当前标识位状态。

在可能的实施方式中，更新所述当前标识位状态，包括：保存待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为无数据状态，将所述当前标识位状态更新为有数据状态。

在可能的实施方式中，更新所述当前标识位状态，包括：删除待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为有数据状态，所述当前时序数据的标识位状态不变。

例如，主体对象O产生的时序数据为R_x、R_y和R_z，可通过上述计算方法得到T_x、T_y和T_z属于哪个去重周期时间范围，确认去重周期时间范围所在的数据状态标识位中的标识状态，根据标识位的状态判断时序数据R_x、R_y和R_z是否为重复数据，其中标识状态分为：有数据和无数据，用1标识有数据，用0标识无数据。

进一步，本申请中通过二进制的一个bit(bit代表二进制位)来标识两种状态，且一个字节共有8bit可以用来标识连续的8个去重周期的数据状态。

进一步，新的时序数据R_m通过计算其数据时序值T_m所属的Trange，检查对应的State(状态)，取值为1则说明R_m为重复数据应该丢弃掉，取值为0则说明R_m为非重复数据应该保留，随着时序数据不断产生，T₀以及数据标识位会设置不同的值，但始终保持对一定时间跨度时序数据的检重能力，取决于去重周期P以及存储数据状态的字节长短。

本申请通过以去重周期120秒为例，每一个时间范围用1bit标识，则1个字节可以标识8个120秒的时间范围。以Java为例，占8个字节的long类型可以存储8*8＝64个120秒的时间范围，即可以存储时间跨度为128分钟的时序数据状态，每增加一个字节可以多存储16分钟的时序数据状态，当去重周期为120秒时，通过存储8字节的状态可以检测128分钟内的因上游数据源抖动或者处理异常等各种原因产生的重复时序数据。

例如，以主体对象O的第一条时序数据R₀的产生时间1694403941作为T₀，去重周期P设置为120秒，主体对象O以T₀＝1694403941，P＝120作为基准数据，对后续的时序数据进行重复检测。如图2所示，T₀，T₁，T₂，T_-1，T_-2的获取时刻和时间戳以及时间范围。

如图3所示，本申请中使用Key-Value型存储介质Redis的Hash数据类型存储时序数据检重数据—主体对象O、T₀、数据状态标识位的示意图，其中无底色的部分为Key部分，有底色的部分为Hash结构部分，“T₀”占用一个Hash-Key，1694403941为T₀对应的时间戳，“State”占用一个Hash-Key，下面的每一个“0”占用一个bit，值为1时代表此时间范围内已经有时序数据，值为0时代表此时间范围内无时序数据。除Redis的Hash数据类型外，还可以使用其他的数据结构、存储介质来存储时序数据检重数据。

本申请，通过T0＝1694403941，P＝120，State使用1字节(8bit)空间作为基准数据，说明主体对象O产生新的时序数据R_new时数据T₀和State如何更新存储范围。

一、R_new为T₀的重复数据。

新的时序数据R_new的产生时间T_new-T₀，绝对差值在(-120，120)区间，此时T₀及State不发生变化，即依然为图3的情况，新的时序数据R_new为重复数据。

二、R_new为非重复数据，且未超出1字节State的标识范围。

新的时序数据R_new的产生时间T_new-T₀，结果值在(120,240)区间，此时T₀不发生变化，State的第一个0变换为1见图4，新的时序数据R_new为非重复数据；

新的时序数据R_new的产生时间T_new-T₀，结果值在(240,360)区间，此时T₀不发生变化，State的第二个0变换为1见图5，新的时序数据R_new为非重复数据。

三、R_new为非重复数据，且已超出1字节State的标识范围。

当新的时序数据R_new的产生时间T_new-T₀，结果值在(1080,1200)区间，此时T_new的Trange(1080,1200)为第9个超出了1字节8bit存储范围，需要将State的所有状态向左移动1位，原来的T₁变换成T₀，原来的T₂变换成T₁，即T_n变换为T_n-1，其中T₀的值取T₁的左边界。

如果新的时序数据R_new的产生时间T_new-T₀，结果值大于等于1200那么State的所有状态要向左移动更多的位，移动的位数等于((T_new-T₀)/120)-8向下取整，即向左移动的位数等于((T_new-T₀)/P)-8用于存储State的bit数。

图6为在图5的基础上向左移动1位以后的状态，如果需要移动的位数大于用于存储State的bit数，此时T_new成为T₀，State的所有状态位为0，如需要移动的位数为9位，大于1字节的存储State的bit数8，图7为当T₀＝1694403941，P＝120，T_new＝1694405861时移动后的状态。

四、R_new为非重复数据，T_new-T₀，结果值小于等于-120。

此时State的状态位应该向右移动，T_new成为T₀，因为T_new小于T₀且差值大于去重周期P属于异常场景，可以一定程度容忍此数据但不能无限制，限制条件即向右移动时不能丢失State中原来状态值为1的状态，如图6的最右边的状态位为1，就不满足向右移动的条件；图5可以向右移动6位，移动后State中的后3位状态位成为1，其他状态位成为0，T_new成为T₀，图4可以向右移动7为，移动后State中的后2为状态成为1，其他状态成为0，T_new成为T₀；图3可以向右移动8位，移动后State中的最后一位成为1，其他状态依然为0，T_new成为T₀。

下面对本发明提供的一种时间序列数据检重装置进行描述，下文描述的一种时间序列数据检重装置与上文描述的一种时间序列数据检重方法可相互对应参照。

图8描述本发明的一种时间序列数据检重装置，包括：

设置模块，用于设置去重周期；

在可能的实施方式中，检重模块包括对比单元，基于所述待处理时序数据的时序值与所述当前时序数据的时序值之间的绝对差值，判断所述绝对差值是否在所述当前时序数据的去重周期内。

在可能的实施方式中，检重模块，还用于当所述待处理时序数据的时序值在当前时序数据的去重周期内时，删除所述待处理时序数据。

在可能的实施方式中，检重模块包括标识位状态单元，用于获取所述当前时序数据的当前标识位状态，所述标识位状态包括无数据状态和有数据状态。

在可能的实施方式中，检重模块还包括更新单元，用于若保存所述待处理时序数据，则更新所述当前标识位状态。

在可能的实施方式中，检重模块还包括更新单元，用于保存待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为无数据状态，将所述当前标识位状态更新为有数据状态；删除待处理时序数据时，获取当前时序数据的当前标识位状态，所述当前标识位状态为有数据状态，所述当前时序数据的标识位状态不变。

在可能的实施方式中，设置模块还用于根据业务场景确定所述去重周期的大小。

在可能的实施方式中，获取模块还用于基于预处理规则，对时序数据进行分组，得到若干个待处理时序数据组。

图9示例了一种电子设备的实体结构示意图，如图9所示，该电子设备可以包括：处理器(processor)810、通信接口(Communications Interface)820、存储器(memory)830和通信总线840，其中，处理器810，通信接口820，存储器830通过通信总线840完成相互间的通信。处理器810可以调用存储器830中的逻辑指令，以执行一种时间序列数据检重方法，该方法包括：设置去重周期，所述去重周期为单位周期；获取待处理时序数据，所述待处理时序数据具有对应的时序值；当所述待处理时序数据的时序值不在当前时序数据的去重周期内时，将所述待处理时序数据保存至时序数据集合，所述当前时序数据为所述时序数据集合中的任意一条时序数据，所述时序数据集合中的时序数据为已处理过的时序数据。

此外，上述的存储器830中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种时间序列数据检重方法，其特征在于，包括：

设置去重周期；

2.根据权利要求1所述的一种时间序列数据检重方法，其特征在于，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内，包括：

3.根据权利要求1所述的一种时间序列数据检重方法，其特征在于，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内，包括：

4.根据权利要求1所述的一种时间序列数据检重方法，其特征在于，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内之前，包括：

5.根据权利要求4所述的一种时间序列数据检重方法，其特征在于，确定所述待处理时序数据的时序值是否在当前时序数据的去重周期内之后，包括：

若保存所述待处理时序数据，则更新所述当前标识位状态。

6.根据权利要求5所述的一种时间序列数据检重方法，其特征在于，更新所述当前标识位状态，包括：

7.根据权利要求5所述的一种时间序列数据检重方法，其特征在于，更新所述当前标识位状态，包括：

8.根据权利要求1所述的一种时间序列数据检重方法，其特征在于，所述设置去重周期，包括：

根据业务场景确定所述去重周期的大小。

9.一种时间序列数据检重装置，其特征在于，包括：

设置模块，用于设置去重周期；

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序实现如权利要求1至8任一项所述一种时间序列数据检重方法的步骤。