CN109460398A

CN109460398A - 时间序列数据的补全方法、装置及电子设备

Info

Publication number: CN109460398A
Application number: CN201811192133.8A
Authority: CN
Inventors: 傅思颖; 游延筠; 夏天松; 柳林; 唐红
Original assignee: Shenzhen Lumi United Technology Co Ltd
Current assignee: Shenzhen Lumi United Technology Co Ltd
Priority date: 2018-10-12
Filing date: 2018-10-12
Publication date: 2019-03-12
Anticipated expiration: 2038-10-12
Also published as: CN109460398B

Abstract

本发明公开了一种时间序列数据的补全方法、装置及电子设备，该方法包括：将采集的数据按照设定格式构建数据集，所述数据集至少包含一个系列的数据；将每个系列需补全的时间点插入所述数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据。本方法在分布式的计算框架下，对缺失的时间序列数据进行向前补全或者是向后补全，在进行数据补全的时候只需要少量的变量经过一次遍历就可以完成数据补全。

Description

时间序列数据的补全方法、装置及电子设备

技术领域

本发明涉及计算机技术领域，更具体地，涉及一种时间序列数据的补全方法、装置及电子设备。

背景技术

随着计算机科学技术、互联网技术以及物联网技术的迅猛发展，出现信息量爆增的现象，从中找到有用信息的难度也日益增大，而在一台服务器中处理所有需要的数据也变得越来越困难，分布式计算框架的出现恰好解决了这个问题，使得数据可以分布不同的服务器中，并行的进行处理，如此解决了单台服务器的性能瓶颈。

时间序列是指将同一指标的数值按其发生的时间先后顺序排列而成的数列，其大量存在于人类社会和自然界中，例如金融数据时间序列、交通时间序列以及物联网中传感器数据时间序列等。时间序列相似性能够寻找同类领域诸多相似的时间序列，从而为物理现象和社会现象的分析提供极有利的数据。

目前的时间序列相似性方法主要针对没有缺失数据的情况，但是在实际场景的应用中，无法确保每个时刻都有数据。例如，在物联网的应用中，可能会存在多个设备，而每个设备的采样时间不能确保完全相同，如果以其中一个设备的采样时间为基准来分析其他设备，会导致时间序列有大量的缺失值。

发明内容

有鉴于此，本发明提出了一种时间序列数据的补全方法、装置及电子设备，以解决上述问题。

第一方面，本发明实施例提供了一种时间序列数据的补全方法，该方法包括：将采集的数据按照设定的格式构建数据集，且这个数据集中至少包括一个系列数据；将每个系列需补全的时间点插入到这个数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对各分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据。

第二方面，本发明实施例提供了一种基于时间序列的缺失数据补全方法的装置，该装置包括构建模块、插入模块、分区模块、排序模块及遍历模块。其中构建模块，用于将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据。插入模块，用于将每个系列需补全的时间点插入所述数据集中。分区模块，用于将插入时间点数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内。排序模块，用于对分区内的数据进行排序得到数据列表。遍历模块，用于分别对分区内的数据进行遍历，补全数据。

第三方面，本发明实施例提供了一种电子设备，该电子设备包括：一个或多个处理器；存储器，用于存储一个或多个程序；一个或多个应用程序。其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行本申请任意实施例提供的时间序列数据的补全的方法。

第四方面，本发明实施例提供了一种计算机可读取存储介质，计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行本申请任意实施例提供的时间序列数据的补全方法。

相对于现有技术，本发明实施例提供的一种时间序列数据的补全方法、装置、电子设备及可读取存储介质，通过将采集的数据按照设定的格式构建数据集；将每个系列需补全的时间点插入到这个数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对各分区内的数据进行排序得到数据列表；分别对分区内的数据进行遍历，补全数据，这种方式下，人们通过遍历数据集，可快速有效的获取到分布式环境下所有需要补全的数据，同时在取得较好补全效果的时候，本方法的可解释性较强，背后的物理含义较为清晰，因此还可以在该方法的基础上进行较多的扩展。

为使本申请实施例的上述目的、特征和优点能够更明显易懂，下文特举较佳实施例，并配合所附附图，做详细说明如下。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本申请的某些实施例，因此不应被看作是对范围的限定，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他相关的附图。

图1示出了本申请实施例提供的一种网络系统的示意图；

图2示出了本申请一实施例提出的一种时间序列数据的补全方法的流程图；

图3示出了本申请一实施例提出的对分区内的数据进行排序的流程图；

图4示出了本申请另一实施例提出的一种时间序列数据的补全方法的流程图；

图5示出了本申请另一实施例提出的对分区内的数据进行递归操作的流程图；

图6示出了本申请再一实施例提出的一种时间序列数据的补全方法的流程图；

图7示出了本申请再一实施例提出的对分区内的数据进行循环操作的流程图；

图8示出了本申请实施例提出的一种时间序列数据的补全装置的结构框图；

图9示出了本申请实施例提出的用于执行根据本申请实施例的时间序列数据的补全方法的电子设备的结构框图；

图10示出了本申请实施例提出的用于保存或者携带实现根据本申请实施例的时间序列数据的补全方法的程序代码的存储单元。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为了便于详细说明本申请方案，下面先将结合附图对本申请所应用环境进行介绍。

请参阅图1，为本申请实施例提供的一种网络系统10，该网络系统10包括：移动终端11、服务器12、ZigBee网关13、子设备14以及路由器15。其中，ZigBee网关13为基于ZigBee协议搭建，子设备14可以是预先加入ZigBee网关13中的设备；也可以是后续通过用户操作连接至ZigBee网关13中的设备。

需要说明的是，本申请实施例中，ZigBee网关13和子设备 14统称为ZigBee设备。

子设备14用于采集时间序列数据，并将采集的时间序列数据通过ZigBee网关13和路由器15传输到服务器12上，服务器12 根据接收到的时间序列数据构建数据集，并以一定的时间刻度为单位对需要补全的时间点进行相应的补全操作。

目前时间序列补全方法多数是在单机环境下进行，没有专门针对分布式环境的时间序列补全方法。发明人在研究中发现如果将现有的时间序列补全方法用到分布式的计算框架下，虽然可以完成缺失值的补全，但是在分布式的计算框架下，数据分布在哪个服务器上是无法确定的，若想要补全所有系列的缺失数据，需要用过滤的方法取出每个系列或者以系列进行分组处理，如此需多次遍历数据集，会造成磁盘读写开销很大。另外，有一些复杂的算法需要经过多次迭代才能计算出结果，当数据量大时，这些复杂的算法不仅耗时而且需要大量计算资源。因此，发明人提出了本申请，可以在分布式的框架下对缺失的时间序列数据进行向前插值补全或者是向后插值补全。

下面将结合附图具体描述本申请的各实施例。

请参阅图2，本申请一实施例提出的一种时间序列数据的补全方法，该方法包括：

步骤S110：将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据。

以图1所示系统为例，子设备采集的数据为时间序列数据，时间序列数据是指不同时间长度，同一个体或多个统计指标组成的数据。这类数据强调不同时间长度，并且数据严格按照时间顺序排序，时间长度可以人为指定，如月、日、季度、年度甚至分秒等。由于时间序列数据存在先后顺序，而这种顺序前后相承，因此常用于于反映某一事物、现象的变化状态或程度。子设备将采集的时间序列数据传输给服务器，服务器将获取到的时间序列数据构建成设定格式的数据集。其中，设定格式可以包括系列名称、采样时间、属性名称以及属性值等。

系列名称指的是某种产品或者服务的名称，其主要是为了更好区别或宣传不同系列的产品，例如，在物联网场景中系列名称指的是某组设备，常见的物联网设备有传感器、激光扫描器、全球定位系统、条码以及射频识别等。

采样时间指的是属性数据被采样器采集的时间，其中属性为采样指标，采样指标可以是温度、湿度、加速度、压力或敏感度等。

属性名称指的是采样指标的名称，不同的系列含有不同的采样指标，在物联网场景中采样指标会因物联设备的不同而不同。例如，当设备为温度传感器的时候，采样指标为温度。当设备为湿度传感器的时候采样指标为湿度。当设备为加速度传感器的时候采样指标为加速度，采样指标也可以为压力、距离、敏感度等。另外属性名称也可以根据需求进行自定义命名，例如“温度_A”或“温度_B”等。

属性值指的是具体采样的值。例如，当采样指标为温度时，属性值指的是温度值。当采样指标为湿度时，属性值指的是湿度值。当采样指标为加速度时，属性值指的是加速度值，等等。

下面将给出一个例子来方便理解设定格式中的四个部分：

表一

发生的时间	系列名称	属性名称	属性值
				t3	X系列	温度_B	10
t1	Y系列	温度_A	10
				t2	Y系列	温度_A	10
t5	X系列	温度_A	10
				t4	X系列	温度_B	10

请参见表一，在表一中，X系列和Y系列表示不同的两个系列名称；温度_A和温度_B表示采样指标的名称，由采样指标名称可以看出本实施例中采样指标是温度。在表一中属性值为10，属性值主要随时间和环境的变化而变化。

构建的数据集可以按照表一的格式存储在服务器上。所述数据集中至少包括一个系列的数据，即数据集中既可以包括一个系列的数据，也可以包括一个以上系列的数据。例如，表一中包括X 和Y两个系列的数据。数据集中的采集指标根据需求不同而变化，其可以为温度、湿度也可以是加速度和压力等，具体情况这里就再详细叙述了。

在实际应用场景中，不能保证每个时刻都有数据，如果物联网中存在大量的设备，且每个设备的采样时间不相同，当以某个设备的采样时间为基准分析全部设备的时候会有大量的缺失值。例如，设备A采集到的数据点包括时刻t1，t3，t5，设备B采集到的数据点包括时刻t2，t4，t6，当某些情况需要分析设备B在设备A采集时刻的数据，会发现设备B没有t1，t3，t5时刻的数据。

步骤S120：将每个系列需补全的时间点插入所述数据集中。

针对每个系列，分别插入需要补全的时间点，每个系列需要补全的时间点可以通过逐行扫描数据集分析获得，也可以根据不同需求来定。例如，想获取t1时刻的数据，就可以将t1设置为需要补全的时间点，同理，如果想知道t3时刻的数据，可以将t3设置为需要补全的时间点。

在插入之前，可以先将需补全的时间点按照设定格式进行设置。例如，在一些具体实施方式中，可以将每个系列需补全的时间点的系列名称设置为对应的系列名称、属性名称设置为预设名称、属性值设置为空。

预设名称可以是任意与数据集中原属性名称不同的字符段，例如可以设置为“需要的时间”、“缺失值”、“预测值”等。

将设置好的时间点随机插入到构建好的数据集中，插入的位置可以是在数据集的表头也可以是数据集的表尾，也可以视情况插入表中，因为数据的插入不影响后面数据的补全，故只要能够将数据插入到数据集中即可。假设X系列需要补全的时间点是t4， Y系列需要补全的也是t4，将这些时间点的系列名称设置为对应的 X系列和Y系列，将属性名称设置为预设名称，本实施例将预设名称设置为“需要的时间”，属性值设置为空“NULL”，详细如表二所示：

表二

发生的时间	系列名称	属性名称	属性值
				t3	X系列	温度_B	10
t4	Y系列	需要的时间	NULL
				t1	Y系列	温度_A	10
t2	Y系列	温度_A	10
				t5	X系列	温度_A	10
t4	X系列	温度_B	10
				t4	X系列	需要的时间	NULL

请参见表二，在表二中，系列名称和发生的时间都是无序的，即将设置好的时间点插入到构建好的数据集中后，不能保证同一个系列的数据位于同一个分区中，且无法保证这些数据是有序的。

步骤S130：将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内。

重新分区主要是按照系列名称进行分区，即将同一个系列名称的数据放入同一个分区里面，因为分区的数量可能会远小于系列的数量，所以一个分区内可能会存在多个系列。重新分区是分布式计算框架中的一个过程，具体的实现方法有很多种，这里就不在详细描述，只要能够达到分区的效果即可。

需要说明的是，重新分区的对象可以是数据集中的所有系列的数据，重新分区后先前存储的数据仍然可以被有效访问，不会因为重新分区而将之前的数据丢失。

下面将给出重新分区后的表格：

表三

发生的时间	系列名称	属性名称	属性值
				t3	X系列	温度_B	10
t5	X系列	温度_A	10
				t4	X系列	温度_B	10
t4	X系列	需要的时间	NULL
				t4	Y系列	需要的时间	NULL
t1	Y系列	温度_A	10
				t2	Y系列	温度_A	10

比较表二和表三的数据集可以看出两者的主要区别是：表三中所有X系列的数据和Y系列的数据分开存储，而表二中两个系列的数据是混合存在的，即表二中的同一系列的数据可能位于同一分区内，也可能不位于同一分区内，而表三中经过重新分区后同一系列数据的一定位于同一个分区内。

步骤S140：对分区内的数据进行排序得到数据列表。

对数据进行重新分区后，为了方便对数据的遍历可以对数据进行进一步的排序。

在一些具体实施方式中，可以对分区内的数据按照系列名称进行升序或降序排序，按照系列名称排序主要是通过比较字符串进行排序的，本文对字符串排序主要按照字符对应的ASCII(American Standard Code for Information Interchange，美国信息交换标准代码)码大小进行排序，请参见图3，数据排序的详细过程如下所述：

步骤S141：将系列名称转换为ASCII码值。

服务器先将系列名称转化成GB2312编码，再根据GB2312编码规则将系列名称中的汉字、数字或者英文转化成对应的ASCLL码值，如0～9对应的ASCII码为48～59，A～Z对应的ASCII码为65～90，a～z 对应的ASCII码的大小为97～122等等，另外将其他标点符号转化成空格的ASCII码，空格的ASCII码主要起到了分隔符的作用。

步骤S142：根据ASCII码值对系列名称进行升序或降序排序。

服务器将各系列名称转换得到的ASCII码值进行比较，据字符串值对应的ASCII码值的大小对数据进行排序。通过对系列名称字符串值的排序能够综合考虑组成字符串的所有字段对排序结果的影响，使得排序结果更加准确。

步骤S143：对同一个系列的数据按时间大小进行排序。

按照采样时间进行升序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最后；按照采样时间进行降序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最前。

需要说明的是对系列名称排序和对时间排序没有先后之分，换句话说可以先按系列名称排序再对同一系列按时间大小排序，也可以先按时间大小排序再按系列名称排序。按照上述排序规则对表格中的数据进行向前插值补全，使得数据为升序排列，下面将给出排序后的表格：

表四

发生的时间	系列名称	属性名称	属性值
				t3	X系列	温度_B	10
t4	X系列	温度_B	10
				t4	X系列	需要的时间	NULL
t5	X系列	温度_A	10
				t1	Y系列	温度_A	10
t2	Y系列	温度_A	10
				t4	Y系列	需要的时间	NULL

通过表四可以看出在升序排序时，Y系列的数据排在X系列之后，因为Y的ASCII码值比X的ASCII码值大，同一系系列的数据则按照时间大小进行排序的，如X系列t4排在t3之后。

同理按照上述排序规则对表格中的数据进行向后插值补全，使得数据为降序排列，降序排列的表格只需要将升序的表格倒置即可，这里将不再对其进行一一赘述。向后插值补全如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最前。

在实际应用时可能会综合向前插值补全和向后插值补全两种机制一起使用，值得注意的是按照时间排序这个步骤可以在重新分区的时候同步进行。

步骤S150：分别对分区内的数据进行遍历，补全数据。

对分区内的数据进行遍历，补全数据的方法可以包括分别对分区内的数据进行递归操作，补全数据；或者分别对分区内的数据进行循环操作，补全数据。通过不断遍历数据获得需要补全的时间点数据，这些数据构成结果集，所述结果集的格式同数据集的格式类似。

本申请实施例通过将采集的数据按照设定的格式构建数据集；将每个系列需补全的时间点插入到这个数据集中；将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；对各分区内的数据进行排序得到数据列表；最后分别对分区内的数据进行遍历，补全数据。这种方式下，人们通过遍历数据集，可快速有效的获取到分布式环境下所有需要补全的数据，同时在取得较好补全效果的时候，通过使用少量的变量实现数据的补全，且在遍历数据的时候只需要遍历一次就可以完成补全操作，即以很小的代价补全数据，从而满足应用的整体需求。本方法的可解释性较强，背后的物理意义较为清晰，因此还可以在该方法的基础上进行较多的扩展。

请参阅图4，本申请另一实施例提出的一种时间序列数据的补全方法，在本实施例中，采用了递归操作对数据进行补全，所述方法包括：

步骤S210：将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据。

步骤S220：将每个系列需补全的时间点插入所述数据集中。

步骤S230：将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内。

步骤S240：对分区内的数据进行排序得到数据列表。

步骤S210-240的具体实现方式可以参考前述实施例的对应步骤，这里不再赘述。

步骤S250：分别对分内的数据进行递归操作，补全数据。

服务器分别对分区内排序得到的数据进行递归操作，递归是指程序调用自身的编程技巧，其常用于程序设计语言中，递归操作只需要少量的程序就可以描述出解题过程所需要的多次重复计算，可以大大减少程序的代码量。构成递归需要具备的条件有两个，第一个是子问题与原始问题为同样的事，且更为简单；第二个是不能无限制地调用本身，须有个出口，化简非递归状况处理。

请参阅图5，步骤S250可以包括：

步骤S251：输入一个设定格式的键值对(key-value)、一个设定格式的系列名称和数据列表。

服务器输入一个设定格式的键值对，所述键值对中的键对应的是属性名称，而值对应的则是属性值。输入键值对和系列名称之前可以将它们设置为任意一个符号要求的值，如本实施例中进行递归操作之前先将键值对和字符串初始化成一个空的值。分区内的数据列表是经过重新分区和排序获得的。

步骤S252：判断数据列表是否为空。

服务器通过条件语句判断分区内的数据列表是否为空，即判断分区内的数据列表是否等于NULL值。

步骤S253：如果数据列表为空，则返回结果集，递归操作结束。

如果服务器判断分区内的数据列表为空，则表示数据列表中不存在任何数据，返回结果集，递归操作结束。所述结果集和数据集的格式类似，也是按照设定格式构建的，不同之处在于，结果集的设定格式包括发生的时间、系列名称和键值对。发生的时间指的是需要补全的时间点；键值对指的是数据的属性名称和属性值；这里的系列名称和数据集中的系列名称是相同。

步骤S254：如果数据列表不为空则取出数据列表的第一行数据。

例如，表四不为空，则取出的第一行数据关于X系列t3时刻的数据，将第一行数据进行后续的比较与判断。

步骤S255：判断数据列表的第一行数据的系列名称和输入的设定格式的系列名称是否相同。

服务器判断取出的数据列表的第一行数据的系列名称和输入的设定格式的系列名称是否相同，本实施例将系列名称初始化为空值“NULL”，如表四中第一行数据的系列名称为“X系列”，判断“NULL”和“X系列”是否相同。

步骤S256：如果数据列表的第一行数据的系列名称和输入的设定格式的系列名称不相同则清空输入的设定格式的键值对，并根据数据列表的第一行数据的系列名称更新输入的设定格式的系列名称，根据数据列表第一行数据的属性名称和属性值更新输入的设定格式的键值对。

当数据列表的第一行数据的系列名称和输入的设定格式的系列名称不相同的时候，将输入的设定格式的键值对清空，因为“NULL”和“X系列”是不相同的，所以将设定格式的系列名称清空。值得注意的是，如果设定格式的系列名称为空则不需要清空，直接用第一行数据的系列名称更新输入的设定格式的系列名称，即将设定格式的系列名称更新为“X”系列，同时用第一行的数据的属性名称和属性值更新输入的设定格式的键值对，即输入的设定格式的键更新成温度_B，值更新为10。

步骤S257：如果数据列表的第一行数据的系列名称和输入的设定格式的系列名称相同，则根据数据列表的第一行行数据的属性名称和属性值更新输入的设定格式的键值对。

步骤S258：判断数据列表的第一行数据的属性名称是否等于预设名称。

本实施例中预设名称为“需要的时间”，表四中的第一行数据的属性名称为“温度_B”，将这两个字符串进行比较，判断它们是否相等。

步骤S259：如果数据列表的第一行数据的属性名称不等于预设名称，则删除数据列表的第一行数据，传入剩余的数据列表、新的键值对以及新的系列名称进行递归操作，直到数据列表为空。

显然表四中的属性名称“温度_B”不等于“需要的时间”，所以直接将第一行的数据删除掉，继续对剩余的数据列表、新的键值对以及新的系列名称进行递归操作，直到数据列表为空。

步骤S260：如果数据列表的第一行数据的属性名称等于预设名称，则将新的键值对、新的系列名称以及数据列表的第一行数据的采样时间存入结果集中，删除数据列表的第一行数据，传入剩余的数据列表、新的键值对以及新的系列名称进行递归操作，直到所述数据列表为空。

通过不断递归操作就可以得到需要补全的时间点的数据，这里就不进行逐一的比较与判断，最终的结果集如下表所示：

表五

发生的时间	系列名称	键值对
			t4	X系列	温度_B->10
t4	Y系列	温度_A->10

表五中可以看到最终获取到X系列需要补全的时间点t4的数据为温度_B->10，Y系列需要补全的时间点t4的数据为温度_A->10，至此时间序列数据补全完成。

为了更加清晰的理解在分布式计算框架下对缺失的时间序列数据的补全，本实施例将详细说明递归操作补全数据的过程，下面将给出具体时间的数据列表：

表六

表六中的数据是经过插入数据、重新分区和排序的，这里就不再详细描述这些步骤，以下重点描述递归操作补全数据的相关部分。另外为了方便理解递归操作补全数据，表六省略了同一分区的其他系列，只给出了一个系列的数据，即X系列的数据。

通过表六可以看出设备A需要补全的数据是设备B上1:30、2:30 以及3:30的湿度数据。本实施例中将输入的键值对和系列名称都设置为空的，同时将预设名称设置为“需要的时间”，具体步骤请参阅图5，这里就不进行详细描述，下面将通过简单举例来说明递归操作的过程：

第一轮递归，更新键值对得到新的键值对信息为：温度_A->10，“温度_A”不等于“需要的时间”，删除该行数据，进入下一轮递归。

第二轮递归，更新键值对得到新的键值对信息为：温度_A->10，湿度_B->20，“湿度_B”不等于“需要的时间”，删除该行数据，进入下一轮递归。

第三轮递归，属性名称为“需要的时间”，键值对不更新，直接将新的键值对、新的系列名称和采样时间存入结果集，即设备A获取到设备B上1:30的湿度数据，同理，删除该行数据，进入下一轮递归。

第四轮递归，更新键值对得到新的键值对信息为：温度_A->11，湿度_B->20，“温度_A”不等于“需要的时间”，删除该行数据，进入下一轮递归。

第五轮递归，更新键值对得到新的键值对信息为：温度_A->11，湿度_B->22，“湿度_B”不等于“需要的时间”，删除该行数据，进入下一轮递归。

如此类推，详细情况这里就不在赘述，获得最后的结果集为：

表七

发生的时间	系列名称	键值对
			1:30	X系列	温度_A->10，湿度_B->20
2:30	X系列	温度_A->11，湿度_B->22
			3:30	X系列	温度_A->10，湿度_B->21

从表七可以看出，通过不断递归操作补全数据，就可以通过A设备获取到B设备上需要补全的湿度数据。

通过递归操作遍历数据集，可快速有效的获取到分布式环境下所有需要补全的数据，递归操作补全数据，不需要重新定义变量，在一定程度上节约了遍历时间，同时递归操作只需少量的程序就可描述出解题过程所需要的多次重复计算，大大地减少了程序的代码量，即递归操作代码精简，可读性好。

请参阅图6，本申请再一实施提出的一种时间序列数据的补全方法，在本实施例中，采用了循环操作对数据进行补全，所述方法包括：

步骤S310：将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据。

步骤S320：将每个系列需补全的时间点插入所述数据集中。

步骤S330：将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内。

步骤S340：对分区内的数据进行排序得到数据列表。

步骤S310-S340的具体实现方式可以参考前述实施例的对应步骤，这里不再赘述。

步骤S350：分别对分内的数据进行循环操作，补全数据。

服务器分别对分区内排序得到的数据进行循环操作，同递归相同的是循环也是用于解决重复操作的机制，循环指的是在满足条件的情况下，重复执行同一代码，即逐个访问列表中的每一项。

请参阅图7，步骤350可以包括：

步骤S351：输入一个设定格式的键值对、一个设定格式的系列名称、一个变量i以及分区内的数据列表。

本实施例在定义变量i的时候将其初始值设置为1，通过不断改变变量i实现对数据列表的循环操作。

步骤S352：判断变量i是否大于数据列表的长度。

服务器判断变量i是否大于数据列表的长度，数据列表的长度可以通过特征串长度信息工具获取。常见的特征字符串长度信息工具有stren工具、length工具或size工具等，假设数据列表的名称为Arr，那么数据列表的长度等于len(Arr)。

步骤S353：如果变量i大于数据列表的长度则返回结果集，循环操作结束。

步骤S354：如果变量i小于数据列表的长度则取出数据列表的第 i行数据。

步骤S355：判断数据列表的第i行数据的系列名称和设定格式的系列名称是否相同。

步骤S356：如果数据列表的第i行数据的系列名称和设定格式的系列名称不相同，则清空所述设定格式的键值对，并根据所述数据列表的第i行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对。

步骤S357：如果数据列表的第i行数据的系列名称和设定格式的系列名称相同，则根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对。

步骤S358：判断所述数据列表的第i行数据的属性名称是否等于所述预设名称。

步骤S359：如果数据列表的第i行数据的属性名称等于所述预设名称，则将新的键值对、新的系列名称以及所述数据列表的第i行数据的采样时间存入结果集中，进入步骤S360对变量i加1遍历所述数据列表的下一行数据，直到所述变量i大于所述数据列表的长度。

步骤S360：如果数据列表的第i行数据的属性名称不等于所述预设名称，则直接给所述变量i加1遍历所述数据列表的下一行数据，直到所述变量i大于所述数据列表的长度。

通过不断循环操作就可以得到需要补全的时间点的数据，其存储于结果集中，最终结果如表五所示。

总结上述可以知道，在本申请实施例中不论使用递归操作还是使用循环操作，都可以快速有效的获取到需要补全的时间点的数据。不过两种方法也要根据情况不同来选择，因为递归和循环各有优劣，例如循环虽然操作速度快，结构简单，但是并不是所有的办法都能用循环解决，而递归虽然代码简洁、清晰但是在实现的时候却需要消耗很多时间和空间。

需要说明的是，上述实施例虽然以图1所示系统进行举例说明，但是可以理解的是，本申请实施例中的时间序列数据的补全方法并不限于应用于上述系统。另外，上述方法的执行主体也不限于服务器，具有计算能力的电子设备(例如网关设备，终端设备等)均可以用于实现上述方法。

请参阅图8，本申请实施例提出的一种时间序列数据的补全装置 400，运行于，该装置包括构建模块410，插入模块420，分区模块 430排序模块440以及遍历模块450。

构建模块410，用于将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据。

具体的，构建模块410设定格式包括系列名称、采样时间、属性名称以及属性值。

插入模块420，用于将每个系列需补全的时间点插入所述数据集中。

插入模块420用于将每个系列需补全的时间点插入所述数据集中，具体包括：将每个系列需补全的时间点的系列名称设置为对应的系列名称、属性名称设置为预设名称、属性值设置为空；将设置好的时间点插入到所述数据集中。

分区模块430，用于将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内。

排序模块440，用于对分区内的数据进行排序得到数据列表。

排序模块440用于对分区内的数据进行排序，具体包括：对分区内的数据按照系列名称进行升序或降序排序；对排序后的数据分别按照采样时间进行升序或降序排序。

进一步的，所述排序模块440按照采样时间进行升序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最后；排序模块440按照采样时间进行降序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最前。

遍历模块450，用于分别对分区内的数据进行遍历，补全数据。

遍历模块450用于分别对分区内的数据进行遍历，补全数据，具体包括：分别对分区内的数据进行递归操作，补全数据；或者分别对分区内的数据进行循环操作，补全数据。

进一步，所述遍历模块450用于分别对分区内的数据进行递归操作，补全数据包括：输入一个设定格式的键值对和一个设定格式的系列名称；对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据。所述对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据，包括：判断所述数据列表是否为空，如果所述数据列表为空则返回结果集，如果所述数据列表不为空则取出所述数据列表的第一行数据；判断所述数据列表的第一行数据的系列名称和所述设定格式的系列名称是否相同，如果相同，则根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对，如果不相同，则清空所述设定格式的键值对，并根据所述数据列表的第一行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对；判断所述数据列表的第一行数据的属性名称是否等于所述预设名称，如果等于，则将新的键值对、新的系列名称以及所述数据列表的第一行数据的采样时间存入结果集中，删除所述数据列表的第一行数据，如果不等于，则直接删除所述数据列表的第一行数据；对剩余的数据列表、新的键值对以及新的系列名称进行递归操作，直到所述数据列表为空。

在另一些实施方式中，所述遍历模块450还用于分别对分区内的数据进行循环操作，补全数据，包括：输入一个设定格式的键值对、一个设定格式的系列名称以及一个变量i；对所述数据列表、设定格式的键值对、设定格式的系列名称以及变量i进行循环操作，补全数据。所述对所述数据列表、设定格式的键值对、设定格式的系列名称以及变量i进行循环操作，补全数据，包括：判断变量i是否大于所述数据列表的长度，如果大于则返回结果集，如果小于则取出所述数据列表的第i行数据；判断所述数据列表的第i行数据的系列名称和所述设定格式的系列名称是否相同，如果相同，则根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对，如果不相同，则清空所述设定格式的键值对，并根据所述数据列表的第i行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对；判断所述数据列表的第i行数据的属性名称是否等于所述预设名称，如果等于，则将新的键值对、新的系列名称以及所述数据列表的第i行数据的采样时间存入结果集中，所述变量i加1遍历所述数据列表的下一行数据，如果不等于，则直接给所述变量i加 1遍历所述数据列表的下一行数据，直到所述变量i大于所述数据列表的长度。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

请参考图9，本申请实施例提出的用于执行根据本申请实施例的时间序列数据的补全方法的电子设备的结构框图。该电子设备500 可以是智能手机、平板电脑、电子书等能够运行应用程序的电子设备。本申请中的电子设备500可以包括一个或多个如下部件：处理器510、存储器520、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器520中并被配置为由一个或多个处理器 510执行，一个或系统的指令多个程序配置用于执行如前述方法实施例所描述的方法。

处理器510可以包括一个或者多个处理核。处理器510利用各种接口和线路连接整个电子设备500内的各个部分，通过运行或执行存储在存储器520内的指令、程序、代码集或指令集，以及调用存储在存储器520内的数据，执行电子设备500的各种功能和处理数据。可选地，处理器510可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA) 中的至少一种硬件形式来实现。处理器510可集成中央处理器 (CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器510中，单独通过一块通信芯片进行实现。

存储器520可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器520可用于存储指令、程序、代码、代码集或指令集。存储器520可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储终端电子设备500在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。

请参考图10，本申请实施例提出的用于保存或者携带实现根据本申请实施例的时间序列数据的补全方法的程序代码的存储单元。该计算机可读存储介质600中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质600可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质600包括非瞬时性计算机可读介质 (non-transitory computer-readable storage medium)。计算机可读存储介质600具有执行上述方法中的任何方法步骤的程序代码 610的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码610 可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种时间序列数据的补全方法，其特征在于，包括：

将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据；

将每个系列需补全的时间点插入所述数据集中；

将插入时间点的数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；

对分区内的数据进行排序得到数据列表；

分别对分区内的数据进行遍历，补全数据。

2.根据权利要求1所述的方法，其特征在于，所述设定格式包括系列名称、采样时间、属性名称以及属性值。

3.根据权利要求2所述的方法，其特性在于，所述将每个系列需补全的时间点插入所述数据集中，包括：

将每个系列需补全的时间点的系列名称设置为对应的系列名称、属性名称设置为预设名称、属性值设置为空；

将设置好的时间点插入到所述数据集中。

4.根据权利要求1所述的方法，其特征在于，所述对分区内的数据进行排序，包括：

对分区内的数据按照系列名称进行升序或降序排序；

对排序后的数据分别按照采样时间进行升序或降序排序。

5.根据权利要求4所述的方法，其特征在于，所述对排序后的数据分别按照采样时间进行升序或降序排序，包括：

按照采样时间进行升序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最后；

按照采样时间进行降序排序时，如果同一系列、同一采样时间对应有多个属性名称，则将属性名称为预设名称的数据排在最前。

6.根据权利要求1所述的方法，其特征在于，所述分别对分区内的数据进行遍历，补全数据，包括：

分别对分区内的数据进行递归操作，补全数据；

或者分别对分区内的数据进行循环操作，补全数据。

7.根据权利要求6所述的方法，其特征在于，所述分别对分区内的数据进行递归操作，补全数据，包括：

输入一个设定格式的键值对和一个设定格式的系列名称；

对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据。

8.根据权利要求7所述的方法，其特征在于，所述对所述数据列表、设定格式的键值对以及设定格式的系列名称进行递归操作，补全数据，包括：

判断所述数据列表是否为空，如果所述数据列表为空则返回结果集，如果所述数据列表不为空则取出所述数据列表的第一行数据；

判断所述数据列表的第一行数据的系列名称和所述设定格式的系列名称是否相同，如果相同，则根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对，如果不相同，则清空所述设定格式的键值对，并根据所述数据列表的第一行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第一行数据的属性名称和属性值更新所述设定格式的键值对；

判断所述数据列表的第一行数据的属性名称是否等于所述预设名称，如果等于，则将新的键值对、新的系列名称以及所述数据列表的第一行数据的采样时间存入结果集中，删除所述数据列表的第一行数据，如果不等于，则直接删除所述数据列表的第一行数据；

对剩余的数据列表、新的键值对以及新的系列名称进行递归操作，直到所述数据列表为空。

9.根据权利要求6所述的方法，其特征在于，所述分别对分区内的数据进行循环操作，补全数据，包括：

输入一个设定格式的键值对、一个设定格式的系列名称以及一个变量i；

对所述数据列表、设定格式的键值对、设定格式的系列名称以及变量i进行循环操作，补全数据。

10.根据权利要求9所述的方法，其特征在于，所述对所述数据列表、设定格式的键值对、设定格式的系列名称以及变量i进行循环操作，补全数据，包括：

判断变量i是否大于所述数据列表的长度，如果大于则返回结果集，如果小于则取出所述数据列表的第i行数据；

判断所述数据列表的第i行数据的系列名称和所述设定格式的系列名称是否相同，如果相同，则根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对，如果不相同，则清空所述设定格式的键值对，并根据所述数据列表的第i行数据的系列名称更新所述设定格式的系列名称，根据所述数据列表的第i行数据的属性名称和属性值更新所述设定格式的键值对；

判断所述数据列表的第i行数据的属性名称是否等于所述预设名称，如果等于，则将新的键值对、新的系列名称以及所述数据列表的第i行数据的采样时间存入结果集中，所述变量i加1遍历所述数据列表的下一行数据，如果不等于，则直接给所述变量i加1遍历所述数据列表的下一行数据，直到所述变量i大于所述数据列表的长度。

11.一种时间序列数据的补全装置，其特征在于，包括：

构建模块，用于将采集的数据按照设定格式构建数据集，所述数据集中至少包括一个系列的数据；

插入模块，用于将每个系列需补全的时间点插入所述数据集中；

分区模块，用于将插入时间点数据集按照系列进行重新分区，将同一个系列的数据放入同一个分区内；

排序模块，用于对分区内的数据进行排序得到数据列表；

遍历模块，用于分别对分区内的数据进行遍历，补全数据。

12.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

一个或多个应用程序，其中所述一个或多个应用程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-10任一项所述的方法。

13.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-10任一项所述的方法。