CN109947812B

CN109947812B - 连续缺失值填充方法、数据分析装置、终端及存储介质

Info

Publication number: CN109947812B
Application number: CN201810748247.XA
Authority: CN
Inventors: 郑立颖; 徐亮; 肖京
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2023-11-10
Anticipated expiration: 2038-07-09
Also published as: CN109947812A; WO2020010677A1

Abstract

本发明公开了一种连续缺失值填充方法、数据分析装置、数据分析终端及计算机可读存储介质，该连续缺失值填充方法包括：若检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列；对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列；获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值；对各目标时间点上的所有序列特征值作均值计算，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值。本发明提高了时间序列的数据真实性。

Description

连续缺失值填充方法、数据分析装置、终端及存储介质

技术领域

本发明涉及数据分析技术领域，尤其涉及一种连续缺失值填充方法、数据分析装置、数据分析终端及计算机可读存储介质。

背景技术

在现实生活中，人们会对采集到的指标数据进行统计，通常指标数据的连续变化能够体现一种历史走势，并对后续走势起到预测作用。但是，指标数据在统计过程中，经常会出现一些意外，例如在系统故障或设备替换的时间段中无法继续采集统计指标数据，导致在该段连续的时间序列中指标数据出现连续的缺失值。而现有的统一均值填充会造成填充值不符合时间序列本身的分布，而移动均值填充会引入异常数据值。因此，传统的单点缺失值填充方法容易造成填充后的指标数据发生较大的偏移，无法保障数据的真实性。

发明内容

本发明的主要目的在于提供一种连续缺失值填充方法、数据分析装置、数据分析终端及计算机可读存储介质，旨在解决传统的单点缺失值填充方法在对连续缺失值的填充计算过程容易引入异常数据值，使得计算出来的填充值偏移量较大，导致数据真实性降低的技术问题。。

为实现上述目的，本发明实施例提供一种连续缺失值填充方法，所述连续缺失值填充方法包括：

当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列；

对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列；

获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值；

对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值。

优选地，所述对每个特征数据序列进行基于孤立森林算法的异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤包括：

确定所述每个特征数据序列中的所有特征时间点以及对应的序列特征值，根据特征时间点和序列特征值在模型空间中对应的数据点的位置，以生成数据点集合，并统计所述数据点集合的总数据点个数；

按照孤立森林算法的预设切割规则对所述数据点集合中的所有数据点进行迭代空间切割，直至获取到所有单独被切割在单一空间内的单一数据点；

获取所述各个单一数据点产生时所属的迭代次数，并获取所述所有单一数据点中迭代次数在前预设次数中的目标数据点；

统计所述所有目标数据点的数据点个数，计算所述数据点个数在所述总数据点个数中的占比值，并将所述占比值设置为异常得分；

若异常得分大于零，则确定该异常得分对应的特征数据序列为正常数据序列。

优选地，所述对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤之后还包括：

统计当前所有正常数据序列的序列个数；

若序列个数小于第一预设值，则从预设样本数据库中导入新的时间序列样本，并根据新的时间序列样本获取到新的正常数据序列，直至所有正常数据序列的序列个数不小于第一预设值。

优选地，所述对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值的步骤之后还包括：

对各个连续缺失值对应的填充参考值进行标记，并将各填充参考值对应参考的各个正常数据序列中的序列特征值进行映射标记。

将所有正常数据序列转化为对应的正常序列分布曲线，并将基于填充参考值的目标时间序列转化为目标序列分布曲线；

将所述正常序列分布曲线和目标序列分布曲线显示在预设坐标系中，以供用户分析。

优选地，所述获取所有正常数据序列中所有目标时间点上的序列特征值的步骤还包括：

若检测到任一正常数据序列中目标时间点上的序列特征值为缺失值时，将该正常数据序列删除。

优选地，所述若检测到任一正常数据序列中目标时间点上的序列特征值为缺失值时，将该正常数据序列删除的步骤之后还包括：

若检测到所有正常数据序列中任一目标时间点上的序列特征值的数值个数小于第二预设值，则从预设样本数据库中导入新的时间序列样本；

根据新的时间序列样本执行获取新的正常数据序列的步骤，并从新的正常数据序列中获取所有目标时间点上的序列特征值，直至所有正常数据序列中任一目标时间点上的序列特征值的数值个数不小于第二预设值。

本发明还提供一种数据分析装置，所述数据分析装置包括：

采集模块，用于当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列；

检测模块，用于对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列；

获取模块，用于获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值；

填充模块，用于对所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值。

此外，为实现上述目的，本发明还提供一种数据分析终端，所述数据分析终端包括：存储器、处理器、通信总线以及存储在所述存储器上的连续缺失值填充程序，其中所述连续缺失值填充程序被所述处理器执行时，实现如上述的连续缺失值填充方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有连续缺失值填充程序，其中所述连续缺失值填充程序被处理器执行时，实现如上述的连续缺失值填充方法的步骤。

本发明通过当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列；对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列；获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值；对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值。本发明从时间序列样本中抽取序列特征值，通过异常检测判定正常数据序列，从多个正常数据序列中的目标时间点上的特征值进行均值计算，并把均值作为连续缺失值在对应时间点上的填充值，减少了异常特征值的干扰，保证了填充参考值的数据可靠性，提升了连续缺失值填充效率，解决了传统的单点缺失值填充方法在对连续缺失值的填充计算过程容易引入异常数据值，使得计算出来的填充值偏移量较大，导致数据真实性降低的技术问题，而保留了时间序列本身的分布特性，并降低了计算复杂度。

附图说明

图1为本发明连续缺失值填充方法第一实施例的流程示意图；

图2为图1中步骤S20的细化流程示意图；

图3为本发明数据分析装置的功能模块示意图；

图4为本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种连续缺失值填充方法，在连续缺失值填充方法第一实施例中，参照图1，所述连续缺失值填充方法包括：

步骤S10，当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列；

所述目标时间序列是指系统基于预设时间间隔采集到的数据指标集合，所述连续缺失值指的是在目标时间序列中由于特殊原因无法正常记录的序列特征值。当目标时间序列中存在连续缺失值时，为补充该连续缺失值，系统将按照预设时间间隔从时间序列样本中采集所有的序列特征值，以作为目标时间序列的参考数据。

可以理解的是，目标时间序列中的序列特征值在被采集阶段时所采用的时间间隔可以与本发明中从时间序列样本中采集序列特征时的预设时间间隔不一样，但是目标时间序列中的时间间隔必须大于或等于从时间序列样本中采集数据时的预设时间间隔。例如目标时间序列的时间间隔为每隔1小时采集一个数据，那么时间序列样本中的预设时间间隔必须小于或等于1小时采集一个数据的时间间隔，如每隔30分钟采集一个数据、每隔20分钟采集一个数据等等。这样从时间序列样本中采集到的所有序列特征值能够作为目标时间序列的参考值。否则，若时间序列样本采用的预设时间间隔为2小时采集一个数据，大于目标时间样本的时间间隔，则在一天之内，时间序列样本所采集的序列特征值有12个(按预设时间间隔为2小时)，而目标时间序列的序列特征值有24个(按时间间隔为1小时)。二者根本不对等，若目标时间序列的3个连续缺失值发生在连续的1.5个小时内，则作为时间序列样本的1.5小时内至多只有1个序列特征值作参考，无法解决本发明的技术问题。

系统检测到连续缺失值后，将由预设时间间隔从所有时间序列样本中采集所有序列特征值，所有序列特征值映射到各自时间序列样本中，生成个时间序列样本的特征数据序列。

为方便理解，本步骤可为以下举例所述：假设用电量统计序列(即目标时间序列)是1月13号每隔1小时采集的，而在用电量统计序列中从15时至18时的用电量未采集到，那么15时至18时一共有3个用电量数值即为连续缺失值。此时系统将按照每隔1小时采集一个数据的时间间隔对历史用电量统计序列(时间序列样本)中13号当天的用电量进行采集，并获取到24个时间点对应的用电量数值。该24个用电量数值即为特征数据序列。

步骤S20，对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列；

每个特征数据序列中都可能会存在异常数据，例如因为系统故障或者数据录入出错导致数据异常，而特征数据序列的数据异常会影响到连续缺失值的准确性，因此需要对每个特征数据序列执行异常检测计算，已将筛选出特征数据序列中的正常数据序列。异常检测计算是为了检测序列中是否有游离的异常数据，例如采用主成分分析法，多元高斯分布法，孤立森林算法等等，从而将正常分布的特征数据序列筛选出来。

参照图2，所述步骤S20包括：

步骤S21，确定所述每个特征数据序列中的所有特征时间点以及对应的序列特征值，根据特征时间点和序列特征值在模型空间中对应的数据点的位置，以生成数据点集合，并统计所述数据点集合的总数据点个数；

可以理解的是，每个特征数据序列中有特征时间点以及序列特征值两类数据，并且这两类数据都是相互映射的，因此每个特征数据序列中可根据特征时间点和序列特征值得到对应的数据点，将各个数据点代入到孤立森林算法模型中，模型中配置有模型空间，用于归纳放置所有数据点。即模型空间相当于一个坐标空间，根据各个数据点的坐标值，系统可确定各个特征数据序列中所有数据点的坐标位置，从而在模型空间中生成相应的数据点集合。例如当前序列A中包括0时的用电量值为5，6时的用电量值为8，12时的用电量值为10，18时的用电量值为8。因此序列A中的数据点包括A1＝(0，5)，A2＝(6，8)，A3＝(12，10)，A4＝(18，8)。而这些数据点将在模型空间中根据坐标依次排列，从而获取到各个数据点的数据点集合，并根据数据点集合统计其中所有数据点的总数据点个数。以上所述例子仅为举例，并不代表数据点集合仅包括以上四个数据点的具体数值。

步骤S22，按照孤立森林算法的预设切割规则对所述数据点集合中的所有数据点进行迭代空间切割，直至获取到所有单独被切割在单一空间内的单一数据点；

孤立森林算法的预设切割规则是对所有数据点集合进行迭代空间切割。所述空间切割是指将模型空间中的数据点集合进行预设规则的切割，并计算各个切割空间内的数据点数量。假设数据点集合中各数据点较为集中，那么在空间切割过程中就不容易有单独的数据点内切割在一个空间内。而若是数据点集合中存在部分数据点较为松散或游离在数据点集合的边缘时，那么那些游离的数据点将容易被单独切割在一个空间内。系统通过迭代空间切割，从而获得所有被单独切割在单一空间内的单一数据点。可以理解的是，数据点集合中每个数据点被单独切割在单一空间内时，此时即产生了单一数据点，系统将记录该单一数据点。且所有单一数据点的数量等于数据点集合中所有数据点的数量。

步骤S23，获取所述各个单一数据点产生时所属的迭代次数，并获取所述所有单一数据点中迭代次数在前预设次数中的目标数据点；

步骤S24，统计所述所有目标数据点的数据点个数，计算所述数据点个数在所述总数据点个数中的占比值，并将所述占比值设置为异常得分；

系统获取各单一数据点产生时的迭代次数。例如单一数据点A在第一次空间切割时产生，单一数据点B、C在第二次空间切割时产生，单一数据点D、E、F、G在第三次空间切割时产生等等，系统将统计各个单一数据点产生时的迭代次数。假设预设次数为2，则系统将获取在前2次空间迭代中产生的目标数据点A、B和C。当前系统统计目标数据点的数据点个数总共为3个，假设当前数据点集合中的总数据点个数15个，那么数据点个数占总比的占比值为3/15＝0.2。系统将把占比值设置为异常得分，以作为后续数值比较的参考值。

具体地，在本实施例中，将24个时间点对应的用电量数值进行异常检测计算，例如通过孤立森林算法进行计算，以剔除异常数值，将无效的游离数据过滤掉，从而得到符合正常分布规律的正常数据。通过将特征数据序列中序列特征值进行空间切割，并对各空间内的序列特征值进行再切割，直到获取到被单独切割在数据空间中的序列特征值。该过程将以二叉树分层的形式体现出来，也就是说，被切割在同一侧数据空间的所有序列特征值将继续进行迭代切割，二叉树将继续向下分层，而被单独留在数据空间内的序列特征值由于不会再继续切割，则停留在当前二叉树所在层的高度。孤立森林算法将根据所有离散的序列特征值的高度，统计出特征数据序列的异常得分。

步骤S25，若异常得分大于零，则确定该异常得分对应的特征数据序列为正常数据序列。

所述异常得分反映了所有用电量数值整体的偏移程度，当异常得分大于零时，证明当前所有用电量数值的分布情况属于正常情况，序列特征值是正常数值，对应的的所有特征数据序列(即用电量数值)为正常数据序列。而利用孤立森林算法可捕捉到无效的游离特征值，并对其进行数据量化。且通过孤立森林算法所获得的异常得分即是该序列特征值的反映参数。系统只需对异常得分的数值进行判断。

步骤S30，获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值；

连续缺失值在目标时间序列中有各自的目标时间点，而该目标时间点对应到正常数据序列中也有相应的序列特征值。而在正常数据序列中该序列特征值将作为后续连续缺失值的计算参考数值。当特征数据序列被判定为正常数据序列时，系统可直接调用正常数据序列中与目标时间点对应的序列特征值。

例如用电量统计序列中连续缺失值所在的目标时间点13号的15时，16时，17时和18时，那么系统将从各月份的用电量正常数据序列中得到13号的15时，16时，17时和18时的用电量数值。

步骤S40，对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值。

系统获取到的序列特征值是多个时间序列样本在对应目标时间点上的特征值。由于每一个序列特征值都可以作为目标时间序列中的参考值，因此，系统将对所有正常数据序列中各个目标时间点上的特征值进行平均计算，以得到该目标时间点的平均值，该平均值可作为连续缺失值的填充值。计算特征均值是为了抹平不同正常数据序列在同一目标时间点上数值的波动差异，使得填充参考值的数值更能够反映该时间点上的分布情况。

例如，系统分别获取到不同月份13号15时，16时，17时，18时四个用电量数值，计算这四个用电量数值的均值，假设不同月份13号15时的均值a，不同月份13号16时的均值b，不同月份13号17时的均值c，不同月份13号18时的均值d。那么，a，b，c，d将作为目标时间序列中15时至18时中连续缺失值的填充值。

进一步地，在本发明连续缺失值填充方法第一实施例的基础上，提出本发明连续缺失值填充方法第二实施例，与前述实施例的区别在于，所述对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤之后还包括：

步骤S50，统计当前所有正常数据序列的序列个数；

在现实情况中，可能出现特征数据序列较多，但经过筛选后正常数据序列极少的现象发生。而在本实施例中，正常数据序列的样本若是少于某个数值，会影响到最终填充参考值的精确度。只有正常数据序列的样本量够大，才能保证正常数据序列能够为填充参考值提供较高的参考性。例如，用电量序列统计序列中，夏冬两季的用电量数值可能相较于春秋两季偏高，因此只有保障正常数据序列的样本数据量在合理数值内，才能确保最终填充参考值的精确。故，系统将统计当前所有正常数据序列的序列个数。

步骤S60，若序列个数小于第一预设值，则从预设样本数据库中导入新的时间序列样本，并根据新的时间序列样本获取到新的正常数据序列，直至所有正常数据序列的序列个数不小于第一预设值。

根据实际业务需求，系统可设定第一预设值，该第一预设值可根据实际业务需求而动态调整。例如，系统可指定：当连续缺失值为N个时，正常数据序列的序列个数不得少于2N个，即序列个数的多少需要根据系统指定而调整。第一预设值即为序列个数的最低门限值，若序列个数小于第一预设值，说明当前序列个数过少，对最终填充参考值会造成精确度影响。系统需从预设的样本数据库中导入新的时间序列样本，并通过对时间序列样本执行第一实施例中的步骤，获取到新的正常数据序列。

在本实施例中，鉴于系统对精确度的严格要求，系统将循环执行步骤S50和步骤S60，不断获取到新的正常数据序列，并将当前所有正常数据序列进行序列个数统计，再进行基于第一预设值的判断，直至序列个数不小于第一预设值。通过上述步骤，即可保障正常数据序列能够提供足够的数据样本，从而提高最终填充参考值的数据可靠性。

进一步地，在本发明连续缺失值填充方法第二实施例的基础上，提出本发明连续缺失值填充方法第三实施例，与前述实施例的区别在于，所述对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值的步骤之后还包括：

步骤S70，对各个连续缺失值对应的填充参考值进行标记，并将各填充参考值对应参考的各个正常数据序列中的序列特征值进行映射标记。

通常所有指标数据都具有统计意义，本发明中得到的填充参考值实质上是从其他历史数据中推算而得，并不代表真实数据，为避免用户将数据引用为真实数据，本实施例将对目标时间写中由填充参考值填充的数值进行标记，并且将各填充参考值所参考的各个正常数据序列中的序列特征值进行映射标记。

假设当前存在用电量统计序列，而用户想要对该序列中的数值进行统计以获得某种趋势，由于其中的填充参考值不是真实数据，因此系统将获取到填充参考值的特征均值，并将计算特征均值时所应用的各个序列特征值查询出来，再对应到各自的特征数据序列中，由当前填充参考值的目标时间点将各个序列特征值映射到对应的时间点上。最后再将各个特征数据上的目标时间点所引用的序列特征值标记出来作为参照数值。

因此，本实施例的效果是各个连续缺失值都标识出采用的所有序列特征值以及该序列特征值所在的特征数据序列，用户可方便地查询到数据源头，再进行分析计算。

进一步地，在本发明连续缺失值填充方法第三实施例的基础上，提出本发明连续缺失值填充方法第四实施例，与前述实施例的区别在于，所述获取所有正常数据序列中所有目标时间点上的序列特征值的步骤还包括：

获取到的正常数据序列虽然保障了该序列中的特征值为正常值，但若是该正常数据序列中处于目标时间点上的序列特征值也为缺失值，意味着该正常数据序列对最终填充参考值的计算并没有任何数据支撑，还会增加计算复杂度，无法为连续缺失值的填充提供有效的数据源。因此该正常数据序列将作为无效数据序列被系统删除，既可以减轻计算复杂度，又可以避免引入无效数据，降低填充参考值的数据可靠性。

进一步地，在本发明连续缺失值填充方法第四实施例的基础上，提出本发明连续缺失值填充方法第五实施例，与前述实施例的区别在于，所述若检测到任一正常数据序列中目标时间点上的序列特征值为缺失值时，将该正常数据序列删除的步骤之后还包括：

步骤S80，若检测到所有正常数据序列中任一目标时间点上的序列特征值的数值个数小于第二预设值，则从预设样本数据库中导入新的时间序列样本；

本实施例中，由于删除了序列特征值为缺失值的正常数据序列，导致当前正常数据序列的序列个数减少了1个。若序列个数不小于第一预设值，则其他的正常数据序列依旧可用。但是相应的，目标时间点上的序列特征值会应为1个正常数据序列被删除而减少了1个。也就是说，正常数据序列的序列个数达标，而该正常数据序列可能是无效数据，例如用电量统计序列中，A用电量数据序列对应的该月用电量是正常的，但是所有用电量数值中大部分数据是新能源用电(如电能是风能发电获取的)的电量数据，而不是传统用电(如电能是火力发电获取的)的电量数据，虽然用电量没有变，但本发明要统计的是火力用电的电量数据，因此该正常数据序列不能被统计在内。

而系统为保障序列特征值的数据参考性，通常会指定序列特征值的数值个数必须达到一个合理数值，以确保能够大范围覆盖样本，提高均值计算的准确性。因此系统设定了一个第二预设值，所述第二预设值将作为数值个数的参考门限值。系统将统计所有正常数据序列中任一目标时间点的序列特诊值的数值个数，若数值个数小于第二预设值，说明当前序列特征值的数据样本量不达标，可能对填充参考值的计算精度存在影响，因此需要增加正常数据序列的序列特征值。此时系统将从预设样本数据库中导入新的时间序列样本。

步骤S90，根据新的时间序列样本执行获取新的正常数据序列的步骤，并从新的正常数据序列中获取所有目标时间点上的序列特征值，直至所有正常数据序列中任一目标时间点上的序列特征值的数值个数不小于第二预设值。

获取到新的时间序列样本之后，系统将执行第一实施例中获取正常数据序列的步骤，并从由新的时间序列样本中获取到的新的正常数据序列对应的目标时间点上的序列特征值，最后重新执行步骤S80和步骤S90，直至所有正常数据序列中任一目标时间点上的序列特征值的数值个数都不小于第二预设值。

以下将通过举例进行解释说明，当前正常数据序列总共有5个，对应的各目标时间点上的序列特征值的数值个数也为5个，假设系统设定的第二预设值是6，则数值个数小于第二预设值，此时需要补充新的时间序列样本，系统从预设样本数据库中导入新的时间序列样本。根据第二预设值和数值个数，系统导入的新的时间序列样本的样本数量为1个，对新的时间序列样本执行异常检测计算，得到正常数据序列后得到序列特征值的步骤，再重新统计所有正常数据序列中序列特征值的数值个数，最后进行数值个数比对。若最后数值个数大于或等于第二预设值，则本实施例执行结束。

进一步地，在本发明连续缺失值填充方法第一实施例的基础上，提出本发明连续缺失值填充方法第六实施例，与前述实施例的区别在于，所述对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值的步骤之后还包括：

步骤a，将所有正常数据序列转化为对应的正常序列分布曲线，并将基于填充参考值的目标时间序列转化为目标序列分布曲线；

步骤b，将所述正常序列分布曲线和目标序列分布曲线显示在预设坐标系中，以供用户分析。

本实施例中，为方便用户直观地查看分析正常数据序列和目标时间序列在序列特征值上的差异，在将特征均值作为连续缺失值的填充参考值之后，系统将把正常数据序列和包括填充参考值的目标时间序列分别转化为正常序列分布曲线和目标序列分布曲线。用户可在预设坐标系中显示正常数据序列的正常分布情况以及目标时间序列的真实分布情况。将数据可视化为曲线的意义在于，用户可以直观地观测并分析填充参考值是否偏离了正常分布情形，并针对观测结果进行再分析。

参照图3，本发明提供了一种数据分析装置，所述数据分析装置包括：

参照图4，图4是本发明实施例方法涉及的硬件运行环境的设备结构示意图。

本发明实施例终端可以是PC，也可以是智能手机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、便携计算机等终端设备。

如图4所示，该数据分析终端可以包括：处理器1001，例如CPU，存储器1005，通信总线1002。其中，通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，该数据分析终端还可以包括用户接口、网络接口、摄像头、RF(RadioFrequency，射频)电路，传感器、音频电路、WiFi模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

本领域技术人员可以理解，图4中示出的数据分析终端结构并不构成对数据分析终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图4所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及连续缺失值填充程序。操作系统是管理和控制数据分析终端硬件和软件资源的程序，支持连续缺失值填充程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信，以及与数据分析终端中其它硬件和软件之间通信。

在图4所示的数据分析终端中，处理器1001用于执行存储器1005中存储的连续缺失值填充程序，实现以下步骤：

进一步地，所述对每个特征数据序列进行基于孤立森林算法的异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤包括：

进一步地，所述对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤之后还包括：

统计当前所有正常数据序列的序列个数；

进一步地，所述对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值的步骤之后还包括：

进一步地，所述获取所有正常数据序列中所有目标时间点上的序列特征值的步骤还包括：

进一步地，所述若检测到任一正常数据序列中目标时间点上的序列特征值为缺失值时，将该正常数据序列删除的步骤之后还包括：

本发明数据分析终端的具体实施方式与上述连续缺失值填充方法各实施例基本相同，在此不再赘述。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于：

本发明计算机可读存储介质具体实施方式与上述连续缺失值填充方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种用电量统计中的连续缺失值填充方法，其特征在于，所述用电量统计中的连续缺失值填充方法包括：

当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列，所述目标时间序列为用电量统计序列，所述所有时间序列样本为历史用电量统计序列；

获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值，所述正常数据序列为用电量正常数据序列；

对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值；

所述对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤包括：

2.如权利要求1所述的用电量统计中的连续缺失值填充方法，其特征在于，所述对每个特征数据序列执行异常检测计算，以确定所有特征数据序列中的正常数据序列的步骤之后还包括：

统计当前所有正常数据序列的序列个数；

3.如权利要求1所述的用电量统计中的连续缺失值填充方法，其特征在于，

所述对各目标时间点上的所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值的步骤之后还包括：

4.如权利要求1所述的用电量统计中的连续缺失值填充方法，其特征在于，所述获取所有正常数据序列中所有目标时间点上的序列特征值的步骤还包括：

5.如权利要求4所述的用电量统计中的连续缺失值填充方法，其特征在于，所述若检测到任一正常数据序列中目标时间点上的序列特征值为缺失值时，将该正常数据序列删除的步骤之后还包括：

6.如权利要求1所述的用电量统计中的连续缺失值填充方法，其特征在于，

7.一种数据分析装置，其特征在于，所述数据分析装置包括：

采集模块，用于当检测到基于预设时间间隔采集到的目标时间序列中存在连续缺失值时，按照预设时间间隔从所有时间序列样本中采集所有序列特征值，以生成各时间序列样本的特征数据序列，所述目标时间序列为用电量统计序列，所述所有时间序列样本为历史用电量统计序列；

获取模块，用于获取所述连续缺失值在目标时间序列中对应的目标时间点，并获取所有正常数据序列中所有目标时间点上的序列特征值，所述正常数据序列为用电量正常数据序列；

填充模块，用于对所有序列特征值作均值计算，以获得各个目标时间点上的特征均值，并将所述特征均值作为对应目标时间点的连续缺失值的填充参考值；

所述检测模块，还用于确定所述每个特征数据序列中的所有特征时间点以及对应的序列特征值，根据特征时间点和序列特征值在模型空间中对应的数据点的位置，以生成数据点集合，并统计所述数据点集合的总数据点个数；按照孤立森林算法的预设切割规则对所述数据点集合中的所有数据点进行迭代空间切割，直至获取到所有单独被切割在单一空间内的单一数据点；获取所述各个单一数据点产生时所属的迭代次数，并获取所述所有单一数据点中迭代次数在前预设次数中的目标数据点；统计所述所有目标数据点的数据点个数，计算所述数据点个数在所述总数据点个数中的占比值，并将所述占比值设置为异常得分；若异常得分大于零，则确定该异常得分对应的特征数据序列为正常数据序列。

8.一种数据分析终端，其特征在于，所述数据分析终端包括：存储器、处理器、通信总线以及存储在所述存储器上的用电量统计中的连续缺失值填充程序，所述处理器用于执行所述用电量统计中的连续缺失值填充程序，以实现如权利要求1至6中任一项所述的用电量统计中的连续缺失值填充方法的步骤。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有用电量统计中的连续缺失值填充程序，所述用电量统计中的连续缺失值填充程序被处理器执行时实现如权利要求1至6中任一项所述的用电量统计中的连续缺失值填充方法的步骤。