CN108984798A - 一种数据处理方法及装置 - Google Patents

一种数据处理方法及装置 Download PDF

Info

Publication number
CN108984798A
CN108984798A CN201810957006.6A CN201810957006A CN108984798A CN 108984798 A CN108984798 A CN 108984798A CN 201810957006 A CN201810957006 A CN 201810957006A CN 108984798 A CN108984798 A CN 108984798A
Authority
CN
China
Prior art keywords
data vector
data
abnormal
vector
abnormal data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810957006.6A
Other languages
English (en)
Inventor
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Harmony Information Technology Ltd By Share Ltd
Original Assignee
Beijing Harmony Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Harmony Information Technology Ltd By Share Ltd filed Critical Beijing Harmony Information Technology Ltd By Share Ltd
Priority to CN201810957006.6A priority Critical patent/CN108984798A/zh
Publication of CN108984798A publication Critical patent/CN108984798A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明实施例公开了一种数据处理方法及装置,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。

Description

一种数据处理方法及装置
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种数据处理方法及装置。
背景技术
目前各大数据服务平台均围绕数据采集、数据挖掘、数据应用及数据共享,在包括环保、安全、健康等众多领域推出产品和服务。在以车辆网相关的大数据支持与应用服务为例来说,由于数据采集的准确性受诸多因素的影响,数据异常的情况时有发生。相关技术中,为了实现异常数据的修复,通常采用线性插值法或数据点平滑处理算法。
然而,相关技术中的数据修复算法存在如下明显的缺陷:1)算法不够成熟,修复准确性低;2)算法执行时间长,不稳定;3)很多异常数据不能识别或识别不准确。
发明内容
本发明实施例为了有效克服现有数据修复算法的缺陷,创造性地提供一种数据处理方法及装置。
根据本发明的第一方面,提供一种数据处理方法,所述方法包括:获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:确定所述第一异常数据向量中至少一个异常数据位;根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。
根据本发明一实施方式,其中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
根据本发明一实施方式,其中,基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数向量进行修复,包括:针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。
根据本发明的第二方面,还提供一种数据处理装置,所述装置包括:第一获取模块,用于获取具有特定排列顺序的第一异常数据向量;第二获取模块,用于获取具有所述特定排列顺序的至少两个第一参考数据向量;数据修复模块,用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,所述数据修复模块包括:确定单元,用于确定所述第一异常数据向量中至少一个异常数据位;省略单元,用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;相似度确定单元,用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;数据修复单元,用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。
根据本发明一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
根据本发明一实施方式,其中,所述数据修复单元,还用于针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。
本发明实施例所述数据处理方法和装置,首先获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。如此,一方面数据以向量为维度,方便管理和计算;另一方面,采用所获取的具有与第一异常数据向量相同排列顺序的至少两个第一参考数据向量(即形成矩阵数据)来对第一异常数据向量进行修复,从而增加数据的修复力度和数据的广度。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例数据处理方法的实现流程示意图;
图2示出了本发明实施例利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复的具体实现流程示意图;
图3示出了本发明实施例数据处理装置的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了本发明实施例数据处理方法的实现流程示意图。
如图1所示,本发明实施例所述数据处理方法包括:操作101,获取具有特定排列顺序的第一异常数据向量;操作102,获取具有所述特定排列顺序的至少两个第一参考数据向量;操作103,利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
在操作101,所述特定排列顺序可以为时间先后顺序;所述特定排列顺序还可以为位置偏移顺序,如以经纬度坐标来表示的位置偏移顺序。当然,本领域技术人员应该理解的是,所述特定排列顺序可以为根据需求或实际应用场景中大数据的任意排列顺序。
这里,为了便于管理和计算,本发明实施例可以将获取的具有特定排列顺序的异常数据α1,α2,…,αn通过向量的形式表示,即形成第一异常数据向量
同理,在操作102,获取具有所述特定排列顺序的z个第一参考数据向量,表示如下:
……
图2示出了本发明实施例利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复的具体实现流程示意图。
如图2所示,本发明实施例通过矩阵数据修复方法来实现异常数据修复,操作103的具体操作流程如下:
操作1031:确定所述第一异常数据向量中至少一个异常数据位,如m个异常数据位;
操作1032:根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量
操作1033:根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量,表示如下:
……
操作1034:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;
本发明一实施方式中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度;其余弦相似度的计算表达式如下:
本发明又一实施方式中,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
操作1035:基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。这样,本发明实施例仅通过对异常数据和对应异常数据位左右相邻的若干数据的分析处理,即可实现异常数据修复,从而提高计算速率。
根据本发明一实施方式,基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数向量进行修复,包括:针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。这样,本发明实施例基于数据向量之间的相似度作为梯度对每个参考数据向量进行局部加权,能够增加数据修复的合理性,得以降低数据修复的错误率。
本发明实施例所述数据处理方法,首先获取具有特定排列顺序的第一异常数据向量;获取具有所述特定排列顺序的至少两个第一参考数据向量;利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。如此,一方面数据以向量为维度,方便管理和计算;另一方面,采用所获取的具有与第一异常数据向量相同排列顺序的至少两个第一参考数据向量(即形成矩阵数据)来对第一异常数据向量进行修复,从而增加数据的修复力度和数据的广度。
下面结合一应用示例来对本发明实施例所述数据处理方法的算法逻辑加以示例说明。
第一步,获取按时间先后顺序编排的存在数据异常的整个数据列,如下表一所示,其中,Nan为异常数据;
表一
进一步地,将所述数据列转换为异常数据向量:Vb=(。。。,12,321,12,234,Nan,123,。。。)。
第二步,获取所述异常数据向量中的包括异常数据位在内的若干个数据,作为第一异常数据向量:V=(12,321,12,234,Nan,123),同时记录异常数据位,即对应时间编码数值5。
第三步,同理,获取4个与所述第一异常数据向量最相近的参考数据列,即正常数据列,如下表二所示:
表二
第1个 。。。 12 321 12 234 230 123 。。。
第2个 。。。 12 321 12 234 223 123 。。。
第3个 。。。 12 321 12 234 220 123 。。。
第4个 。。。 12 321 12 234 240 123 。。。
进一步地,将所述参考数据列转换为第一参考数据向量:
V1=(12,321,12,234,230,123);
V2=(12,321,12,234,223,123);
V3=(12,321,12,234,220,123);
V4=(12,321,12,234,240,123)。
第四步,分别基于异常数据位“5”来省略第一异常数据向量和4个第一参考数据向量中对应数据位的数据(相当于对数据向量进行减秩处理),从而得到第二异常数据向量V’=(12,321,12,234,123)和如下表示的4个第二参考数据向量:
(12,321,12,234,123);
(12,321,12,234,123);
(12,321,12,234,123);
(12,321,12,234,123)。
第五步,计算第二异常数据向量V’分别与前述4个第二参考数据向量的距离,分别记为d1,d2,d3,d4;
进一步对距离进行归一化:e^-d1,e^-d2,e^-d3,e^-d4;其中,e^-di为e的负di次方。
第六步,计算第二异常数据向量V’分别与前述4个第二参考数据向量的相似度,分别记为s1,s2,s3,s4;
第七步,基于每一个第二参考数据向量与第二异常数据向量V’之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,从而得到异常数据Nan=(V1(5)*e^-d1*s1+V2(5)*e^-d2*s2+V3(5)*e^-d3*s3+V4(5)*e^-d4*s4)/(e^-d1+e^-d2+e^-d3+e^-d4),至此完成异常数据Nan的修复。
图3示出了本发明实施例数据处理装置的组成结构示意图。
如图3所示,所述数据处理装置30包括:
第一获取模块301,用于获取具有特定排列顺序的第一异常数据向量;
第二获取模块302,用于获取具有所述特定排列顺序的至少两个第一参考数据向量;
数据修复模块303,用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,所述数据修复模块包括:确定单元,用于确定所述第一异常数据向量中至少一个异常数据位;省略单元,用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;相似度确定单元,用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;数据修复单元,用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
根据本发明一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。
根据本发明一实施方式,其中,所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
根据本发明一实施方式,其中,所述数据修复单元,还用于针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。
这里需要指出的是:以上数据处理装置实施例的描述,与前述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明数据处理装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取具有特定排列顺序的第一异常数据向量;
获取具有所述特定排列顺序的至少两个第一参考数据向量;
利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
2.根据权利要求1所述的方法,其特征在于,利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:
确定所述第一异常数据向量中至少一个异常数据位;
根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;
根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;
针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;
基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
3.根据权利要求2所述的方法,其特征在于,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:
针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。
4.根据权利要求2所述的方法,其特征在于,针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度,包括:
针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;
根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
5.根据权利要求2所述的方法,其特征在于,基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复,包括:
针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:
根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;
将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;
将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。
6.一种数据处理装置,其特征在于,所述装置包括:
第一获取模块,用于获取具有特定排列顺序的第一异常数据向量;
第二获取模块,用于获取具有所述特定排列顺序的至少两个第一参考数据向量;
数据修复模块,用于利用所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
7.根据权利要求6所述的装置,其特征在于,所述数据修复模块包括:
确定单元,用于确定所述第一异常数据向量中至少一个异常数据位;
省略单元,用于根据所确定的所有异常数据位省略所述第一异常数据向量中的异常数据,得到第二异常数据向量;还用于根据所确定的所有异常数据位分别省略所述至少两个第一参考数据向量中对应数据位的数据,得到至少两个第二参考数据向量;
相似度确定单元,用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的相似度;
数据修复单元,用于基于每一个第二参考数据向量与第二异常数据向量之间的相似度,根据所述至少两个第一参考数据向量对所述第一异常数据向量进行修复。
8.根据权利要求7所述的装置,其特征在于,
所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别计算每一个第二参考数据向量与第二异常数据向量之间的余弦相似度。
9.根据权利要求7所述的装置,其特征在于,
所述相似度确定单元,还用于针对所述至少两个第二参考数据向量中每一个第二参考数据向量,分别确定每一个第二参考数据向量与第二异常数据向量之间的距离;根据所确定的每一个第二参考数据向量与第二异常数据向量之间的距离,进一步确定每一个第二参考数据向量与第二异常数据向量之间的相似度。
10.根据权利要求7所述的装置,其特征在于,
所述数据修复单元,还用于针对所述第一异常数据向量中任一异常数据位,分别采用如下方式进行数据修复:根据所述异常数据位分别从所述至少两个第一参考数据向量中获取对应异常数据位的数据;将每一个第二参考数据向量与第二异常数据向量之间的相似度对应作为从每一个第二参考数据向量所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量对应异常数据位的修复数据来修复所述第一异常数据向量中的异常数据。
CN201810957006.6A 2018-08-21 2018-08-21 一种数据处理方法及装置 Pending CN108984798A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810957006.6A CN108984798A (zh) 2018-08-21 2018-08-21 一种数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810957006.6A CN108984798A (zh) 2018-08-21 2018-08-21 一种数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN108984798A true CN108984798A (zh) 2018-12-11

Family

ID=64554115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810957006.6A Pending CN108984798A (zh) 2018-08-21 2018-08-21 一种数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN108984798A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100004898A1 (en) * 2008-07-03 2010-01-07 Caterpillar Inc. Method and system for pre-processing data using the Mahalanobis Distance (MD)
CN106804059A (zh) * 2017-01-18 2017-06-06 南京邮电大学 基于信号强度的室内定位技术中的终端差异消除方法
CN107591811A (zh) * 2017-10-17 2018-01-16 中国农业大学 配电网无功优化方法及装置
CN107978147A (zh) * 2017-10-31 2018-05-01 上海工程技术大学 一种基于knn算法的交通流异常数据双向检测修复方法
CN108228862A (zh) * 2018-01-12 2018-06-29 上海市建筑科学研究院 一种能耗监测平台的异常数据处理方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100004898A1 (en) * 2008-07-03 2010-01-07 Caterpillar Inc. Method and system for pre-processing data using the Mahalanobis Distance (MD)
CN106804059A (zh) * 2017-01-18 2017-06-06 南京邮电大学 基于信号强度的室内定位技术中的终端差异消除方法
CN107591811A (zh) * 2017-10-17 2018-01-16 中国农业大学 配电网无功优化方法及装置
CN107978147A (zh) * 2017-10-31 2018-05-01 上海工程技术大学 一种基于knn算法的交通流异常数据双向检测修复方法
CN108228862A (zh) * 2018-01-12 2018-06-29 上海市建筑科学研究院 一种能耗监测平台的异常数据处理方法及系统

Similar Documents

Publication Publication Date Title
Giustolisi et al. New modularity-based approach to segmentation of water distribution networks
CN103959192B (zh) 用于估算超越函数的数学电路
Kuo et al. Optimal reliability modeling: principles and applications
US11032941B2 (en) Modular thermal energy management designs for data center computing
Coffrin et al. Strategic stockpiling of power system supplies for disaster recovery
Levitin et al. Reliability of nonrepairable phased-mission systems with common cause failures
Alemany et al. Symmetry issues in mixed integer programming based Unit Commitment
Ostfeld Water distribution systems connectivity analysis
US7376633B2 (en) Configurational density process and structure
Tiemessen et al. Reducing costs of repairable inventory supply systems via dynamic scheduling
Shivaie et al. An implementation of improved harmony search algorithm for scenario-based transmission expansion planning
Sorce et al. Towards an optimal sampling of peculiar velocity surveys for Wiener Filter reconstructions
Cha et al. Stochastically ordered subpopulations and optimal burn-in procedure
CN106447025B (zh) 基于离散粒子群的测试性指标分配与测试选取联合方法
Zhang et al. An efficient forest-based tabu search algorithm for the split-delivery vehicle routing problem
CN108984798A (zh) 一种数据处理方法及装置
Raymond et al. Positive edge: A pricing criterion for the identification of non-degenerate simplex pivots
Domanski et al. Applications of heterogeneous computing in computational and simulation science
Heyde et al. Improved classical limit analogues for Galton-Watson processes with or without immigration
Kim et al. Mixed power flow analysis using AC and DC models
US8161079B2 (en) Acquisition and expansion of storage area network interoperation relationships
Alkubaisi Modified Vogel method to find Initial Basic Feasible Solution (IBFS) introducing a new methodology to find best IBFS
Zhao et al. A new test points selection method for analog fault dictionary techniques
CN104335161A (zh) 使用图对网络鲁棒性的有效评估
CN109189773A (zh) 一种数据修复方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20181211