CN108984798A

CN108984798A - 一种数据处理方法及装置

Info

Publication number: CN108984798A
Application number: CN201810957006.6A
Authority: CN
Inventors: 李明
Original assignee: Beijing Harmony Information Technology Ltd By Share Ltd
Current assignee: Beijing Harmony Information Technology Ltd By Share Ltd
Priority date: 2018-08-21
Filing date: 2018-08-21
Publication date: 2018-12-11

Abstract

本发明实施例公开了一种数据处理方法及装置，所述方法包括：获取具有特定排列顺序的第一异常数据向量；获取具有所述特定排列顺序的至少两个第一参考数据向量；利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

Description

一种数据处理方法及装置

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种数据处理方法及装置。

背景技术

目前各大数据服务平台均围绕数据采集、数据挖掘、数据应用及数据共享，在包括环保、安全、健康等众多领域推出产品和服务。在以车辆网相关的大数据支持与应用服务为例来说，由于数据采集的准确性受诸多因素的影响，数据异常的情况时有发生。相关技术中，为了实现异常数据的修复，通常采用线性插值法或数据点平滑处理算法。

然而，相关技术中的数据修复算法存在如下明显的缺陷：1)算法不够成熟，修复准确性低；2)算法执行时间长，不稳定；3)很多异常数据不能识别或识别不准确。

发明内容

本发明实施例为了有效克服现有数据修复算法的缺陷，创造性地提供一种数据处理方法及装置。

根据本发明的第一方面，提供一种数据处理方法，所述方法包括：获取具有特定排列顺序的第一异常数据向量；获取具有所述特定排列顺序的至少两个第一参考数据向量；利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

根据本发明一实施方式，其中，利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复，包括：确定所述第一异常数据向量中至少一个异常数据位；根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据，得到第二异常数据向量；根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据，得到至少两个第二参考数据向量；针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度；基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

根据本发明一实施方式，其中，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。

根据本发明一实施方式，其中，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的距离；根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离，进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。

根据本发明一实施方式，其中，基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数向量进行修复，包括：针对所述第一异常数据向量中任一异常数据位，分别采用如下方式进行数据修复：根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据；将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子，将所有获取的对应异常数据位的数据进行加权平均，得到加权平均值；将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。

根据本发明的第二方面，还提供一种数据处理装置，所述装置包括：第一获取模块，用于获取具有特定排列顺序的第一异常数据向量；第二获取模块，用于获取具有所述特定排列顺序的至少两个第一参考数据向量；数据修复模块，用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

根据本发明一实施方式，其中，所述数据修复模块包括:确定单元，用于确定所述第一异常数据向量中至少一个异常数据位；省略单元，用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据，得到第二异常数据向量；还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据，得到至少两个第二参考数据向量；相似度确定单元，用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度；数据修复单元，用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

根据本发明一实施方式，其中，所述相似度确定单元，还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。

根据本发明一实施方式，其中，所述相似度确定单元，还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的距离；根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离，进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。

根据本发明一实施方式，其中，所述数据修复单元，还用于针对所述第一异常数据向量中任一异常数据位，分别采用如下方式进行数据修复：根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据；将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子，将所有获取的对应异常数据位的数据进行加权平均，得到加权平均值；将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。

本发明实施例所述数据处理方法和装置，首先获取具有特定排列顺序的第一异常数据向量；获取具有所述特定排列顺序的至少两个第一参考数据向量；利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。如此，一方面数据以向量为维度，方便管理和计算；另一方面，采用所获取的具有与第一异常数据向量相同排列顺序的至少两个第一参考数据向量(即形成矩阵数据)来对第一异常数据向量进行修复，从而增加数据的修复力度和数据的广度。

需要理解的是，本发明的教导并不需要实现上面所述的全部有益效果，而是特定的技术方案可以实现特定的技术效果，并且本发明的其他实施方式还能够实现上面未提到的有益效果。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

在附图中，相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例数据处理方法的实现流程示意图；

图2示出了本发明实施例利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复的具体实现流程示意图；

图3示出了本发明实施例数据处理装置的组成结构示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本发明更加透彻和完整，并且能够将本发明的范围完整地传达给本领域的技术人员。

下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。

图1示出了本发明实施例数据处理方法的实现流程示意图。

如图1所示，本发明实施例所述数据处理方法包括：操作101，获取具有特定排列顺序的第一异常数据向量；操作102，获取具有所述特定排列顺序的至少两个第一参考数据向量；操作103，利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

在操作101，所述特定排列顺序可以为时间先后顺序；所述特定排列顺序还可以为位置偏移顺序，如以经纬度坐标来表示的位置偏移顺序。当然，本领域技术人员应该理解的是，所述特定排列顺序可以为根据需求或实际应用场景中大数据的任意排列顺序。

这里，为了便于管理和计算，本发明实施例可以将获取的具有特定排列顺序的异常数据α₁，α₂，…，α_n通过向量的形式表示，即形成第一异常数据向量

同理，在操作102，获取具有所述特定排列顺序的z个第一参考数据向量，表示如下：

……

图2示出了本发明实施例利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复的具体实现流程示意图。

如图2所示，本发明实施例通过矩阵数据修复方法来实现异常数据修复，操作103的具体操作流程如下：

操作1031：确定所述第一异常数据向量中至少一个异常数据位，如m个异常数据位；

操作1032：根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据，得到第二异常数据向量

操作1033：根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据，得到至少两个第二参考数据向量，表示如下：

……

操作1034：针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度；

本发明一实施方式中，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度；其余弦相似度的计算表达式如下：

本发明又一实施方式中，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的距离；根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离，进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。

操作1035：基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。这样，本发明实施例仅通过对异常数据和对应异常数据位左右相邻的若干数据的分析处理，即可实现异常数据修复，从而提高计算速率。

根据本发明一实施方式，基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数向量进行修复，包括：针对所述第一异常数据向量中任一异常数据位，分别采用如下方式进行数据修复：根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据；将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子，将所有获取的对应异常数据位的数据进行加权平均，得到加权平均值；将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。这样，本发明实施例基于数据向量之间的相似度作为梯度对每个参考数据向量进行局部加权，能够增加数据修复的合理性，得以降低数据修复的错误率。

本发明实施例所述数据处理方法，首先获取具有特定排列顺序的第一异常数据向量；获取具有所述特定排列顺序的至少两个第一参考数据向量；利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。如此，一方面数据以向量为维度，方便管理和计算；另一方面，采用所获取的具有与第一异常数据向量相同排列顺序的至少两个第一参考数据向量(即形成矩阵数据)来对第一异常数据向量进行修复，从而增加数据的修复力度和数据的广度。

下面结合一应用示例来对本发明实施例所述数据处理方法的算法逻辑加以示例说明。

第一步，获取按时间先后顺序编排的存在数据异常的整个数据列，如下表一所示，其中，Nan为异常数据；

表一

进一步地，将所述数据列转换为异常数据向量：Vb＝(。。。，12，321，12，234，Nan，123，。。。)。

第二步，获取所述异常数据向量中的包括异常数据位在内的若干个数据，作为第一异常数据向量：V＝(12，321，12，234，Nan，123)，同时记录异常数据位，即对应时间编码数值5。

第三步，同理，获取4个与所述第一异常数据向量最相近的参考数据列，即正常数据列，如下表二所示：

表二

第1个	。。。	12	321	12	234	230	123	。。。
									第2个	。。。	12	321	12	234	223	123	。。。
第3个	。。。	12	321	12	234	220	123	。。。
									第4个	。。。	12	321	12	234	240	123	。。。

进一步地，将所述参考数据列转换为第一参考数据向量：

V1＝(12，321，12，234，230，123)；

V2＝(12，321，12，234，223，123)；

V3＝(12，321，12，234，220，123)；

V4＝(12，321，12，234，240，123)。

第四步，分别基于异常数据位“5”来省略第一异常数据向量和4个第一参考数据向量中对应数据位的数据(相当于对数据向量进行减秩处理)，从而得到第二异常数据向量V’＝(12，321，12，234，123)和如下表示的4个第二参考数据向量：

(12，321，12，234，123)；

(12，321，12，234，123)。

第五步，计算第二异常数据向量V’分别与前述4个第二参考数据向量的距离，分别记为d1,d2,d3,d4；

进一步对距离进行归一化：e^-d1，e^-d2，e^-d3，e^-d4；其中，e^-di为e的负di次方。

第六步，计算第二异常数据向量V’分别与前述4个第二参考数据向量的相似度，分别记为s1,s2,s3,s4；

第七步，基于每一个第二参考数据向量与第二异常数据向量V’之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复，从而得到异常数据Nan＝(V1(5)*e^-d1*s1+V2(5)*e^-d2*s2+V3(5)*e^-d3*s3+V4(5)*e^-d4*s4)/(e^-d1+e^-d2+e^-d3+e^-d4)，至此完成异常数据Nan的修复。

图3示出了本发明实施例数据处理装置的组成结构示意图。

如图3所示，所述数据处理装置30包括：

第一获取模块301，用于获取具有特定排列顺序的第一异常数据向量；

第二获取模块302，用于获取具有所述特定排列顺序的至少两个第一参考数据向量；

数据修复模块303，用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

这里需要指出的是：以上数据处理装置实施例的描述，与前述方法实施例的描述是类似的，具有同方法实施例相似的有益效果，因此不做赘述。对于本发明数据处理装置实施例中未披露的技术细节，请参照本发明方法实施例的描述而理解，为节约篇幅，因此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，如：多个单元或组件可以结合，或可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的，作为单元显示的部件可以是、或也可以不是物理单元；既可以位于一个地方，也可以分布到多个网络单元上；可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外，在本发明各实施例中的各功能单元可以全部集成在一个处理单元中，也可以是各单元分别单独作为一个单元，也可以两个或两个以上单元集成在一个单元中；上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：移动存储设备、只读存储器(Read Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的介质。

或者，本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括：移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取具有特定排列顺序的第一异常数据向量；

获取具有所述特定排列顺序的至少两个第一参考数据向量；

利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

2.根据权利要求1所述的方法，其特征在于，利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复，包括:

确定所述第一异常数据向量中至少一个异常数据位；

根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据，得到第二异常数据向量；

根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据，得到至少两个第二参考数据向量；

针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度；

基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

3.根据权利要求2所述的方法，其特征在于，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：

针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。

4.根据权利要求2所述的方法，其特征在于，针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度，包括：

针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的距离；

根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离，进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。

5.根据权利要求2所述的方法，其特征在于，基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复，包括:

针对所述第一异常数据向量中任一异常数据位，分别采用如下方式进行数据修复：

根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据；

将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子，将所有获取的对应异常数据位的数据进行加权平均，得到加权平均值；

将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。

6.一种数据处理装置，其特征在于，所述装置包括：

第一获取模块，用于获取具有特定排列顺序的第一异常数据向量；

第二获取模块，用于获取具有所述特定排列顺序的至少两个第一参考数据向量；

数据修复模块，用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

7.根据权利要求6所述的装置，其特征在于，所述数据修复模块包括:

确定单元，用于确定所述第一异常数据向量中至少一个异常数据位；

省略单元，用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据，得到第二异常数据向量；还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据，得到至少两个第二参考数据向量；

相似度确定单元，用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度；

数据修复单元，用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度，根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

8.根据权利要求7所述的装置，其特征在于，

所述相似度确定单元，还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。

9.根据权利要求7所述的装置，其特征在于，

所述相似度确定单元，还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量，分别确定每一个第二参考数据向量与第二异常数据向量之间的距离；根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离，进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。

10.根据权利要求7所述的装置，其特征在于，

所述数据修复单元，还用于针对所述第一异常数据向量中任一异常数据位，分别采用如下方式进行数据修复：根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据；将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子，将所有获取的对应异常数据位的数据进行加权平均，得到加权平均值；将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。