CN109189773B - 一种数据修复方法及装置 - Google Patents

一种数据修复方法及装置 Download PDF

Info

Publication number
CN109189773B
CN109189773B CN201810956999.5A CN201810956999A CN109189773B CN 109189773 B CN109189773 B CN 109189773B CN 201810956999 A CN201810956999 A CN 201810956999A CN 109189773 B CN109189773 B CN 109189773B
Authority
CN
China
Prior art keywords
abnormal data
data
vectors
abnormal
vector set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810956999.5A
Other languages
English (en)
Other versions
CN109189773A (zh
Inventor
李明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Muheda Information Technology Co ltd
Original Assignee
Beijing Muheda Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Muheda Information Technology Co ltd filed Critical Beijing Muheda Information Technology Co ltd
Priority to CN201810956999.5A priority Critical patent/CN109189773B/zh
Publication of CN109189773A publication Critical patent/CN109189773A/zh
Application granted granted Critical
Publication of CN109189773B publication Critical patent/CN109189773B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据修复方法及装置,所述方法包括:首先获取至少存在一个异常数据的第一异常数据向量集;进一步获取具有与所述第一异常数据向量集互为同型向量的z个第一参考数据向量集;接着确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;之后,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。

Description

一种数据修复方法及装置
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种数据修复方法及装置。
背景技术
目前各大数据服务平台均围绕数据采集、数据挖掘、数据应用及数据共享,在包括环保、安全、健康等众多领域推出产品和服务。在以车辆网相关的大数据支持与应用服务为例来说,由于数据采集的准确性受诸多因素的影响,数据异常的情况时有发生。相关技术中,为了实现异常数据的修复,通常采用线性插值法或数据点平滑处理算法。
然而,相关技术中的数据修复算法存在如下明显的缺陷:1)算法不够成熟,修复准确性低;2)算法执行时间长,不稳定;3)很多异常数据不能识别或识别不准确。
发明内容
本发明实施例为了有效克服现有数据修复算法的缺陷,创造性地提供一种数据修复方法及装置。
根据本发明的第一方面,提供一种数据修复方法,所述方法包括:获取至少存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复,包括:根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集;根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集;确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度;基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的距离;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的距离大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复,包括:根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
根据本发明一实施方式,其中,在确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度之后,所述方法还包括:基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
根据本发明的第二方面,还提供一种数据修复装置,所述装置包括:获取模块,用于获取存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;还用于获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;确定模块,用于确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;修复模块,用于根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,所述修复模块包括:第一省略单元,用于根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集;第二省略单元,用于根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集;相关度确定单元,用于确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度;修复单元,用于基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,所述相关度确定单元,还用于针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,所述相关度确定单元,还用于针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的距离;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的距离大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,所述修复单元,还用于根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
根据本发明一实施方式,其中,所述修复模块还包括:梯度排序单元,用于在相关度确定单元确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度之后,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
本发明实施例所述数据修复方法和装置,首先获取至少存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;进一步获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;接着确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;之后,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。如此,一方面数据以向量集格式的多边向量为平面,方便发现数据的自身特征;另一方面,采用所获取的具有与所述第一异常数据向量集互为同型向量的z个第一参考数据向量集(即形成多边立体数据)来对对所述第一异常数据向量集进行修复,从而增加数据的修复力度和数据的广度。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1示出了本发明实施例数据修复方法的实现流程示意图;
图2示出了本发明根据所确定的异常数据位基于z个第一参考数据向量集对第一异常数据向量集进行修复的具体实现流程示意图;
图3示出了本发明一应用实例中第一异常数据向量集的多边向量构建示意图;
图4示出了本发明一应用实例中第一参考数据向量集的多边向量构建示意图;
图5示出了本发明实施例数据修复装置的组成结构示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本发明更加透彻和完整,并且能够将本发明的范围完整地传达给本领域的技术人员。
下面结合附图和具体实施例对本发明的技术方案进一步详细阐述。
图1示出了本发明实施例数据修复方法的实现流程示意图。
如图1所示,本发明实施例所述数据修复方法包括:操作101,获取至少存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;操作102,获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;操作103,确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;操作104,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
在操作101,所述第一异常数据向量集可以为用于表征车联网中任意特征维度的数据向量集,如以经纬度坐标来表示的地理环境等。当然,本领域技术人员应该理解的是,所述数据向量集也可以表征除车联网之外的任意实际应用场景的大数据。
这里,为了便于发现数据的自身特征,本发明实施例可以将获取的存在至少一个异常数据的异常数据向量a1n,a2n,…ain,amn通过矩阵的形式表示,即形成多边向量形式的第一异常数据向量集:
Figure BDA0001772900090000061
其中ain为Amn的第i个分向量,每个ain=(xi1,xi2,xi3,...,xin
同样的,在操作102,获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集:
Figure BDA0001772900090000062
在操作103,所述异常数据位可以通过二维坐标表示,L(i,j);其中,i,j分别表示异常数据在第一异常数据向量集Amn中所处的行序号和列序号。
图2示出了本发明实施例根据所确定的异常数据位基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复的具体实现流程示意图。
如图2所示,本发明实施例通过多边向量数据修复方法来实现异常数据修复,操作104的具体操作流程如下:
操作1041:根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集。
这里,第一异常数据向量集表示为如下的矩阵形式:
Figure BDA0001772900090000063
假设该第一异常数据向量集中的第i行第j列存在数据问题,这样所确定的异常数据位可表示为二维坐标L(i,j),那么省略该第一异常数据向量集中的第i行和第j列,从而得到第二异常数据向量集:
Figure BDA0001772900090000064
操作1042:根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集。
同理,与操作1041相类似,在z个第一参考数据向量集:
Figure BDA0001772900090000065
中分别省略每一个向量集中的第i行和第j列,得到对应的z个第二参考数据向量集:
Figure BDA0001772900090000066
操作1043:确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
本发明实施例存在两种方式用于确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
在本发明一实施方式中,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
这里,每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度的具体计算表达式如下:
Figure BDA0001772900090000071
其中,
Figure BDA0001772900090000072
用于表示第二参考数据向量集与第二异常数据向量集的乘积;
Figure BDA0001772900090000073
分别用于表示第二参考数据向量集和第二异常数据向量集的模。
在本发明一实施方式中,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的距离;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的距离大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
这里,每一个第二参考数据向量集与第二异常数据向量集之间的距离的计算表达式如下:
Figure BDA0001772900090000081
需要补充说明的是,所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度可以近似为所述z个第一参考数据向量集中每一个第一参考数据向量集与第一异常数据向量集之间的相关度。因此,在第一异常数据向量集存在异常数据的情况下,可以直接基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,在操作1043之后,所述方法还包括:基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
这里,基于前述确定相关度的两种不同方式,可以对应实施有两种不同的梯度排序方法,具体参见如下表一:
表一
Figure BDA0001772900090000082
操作1044:基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
在本发明一实施方式中,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复,包括:根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
在一示例中,假设xij为异常数据,那么修复过程如下:
令dk=cos xk
Figure BDA0001772900090000094
Figure BDA0001772900090000091
对应
Figure BDA0001772900090000092
那么
Figure BDA0001772900090000093
这样,本发明实施例根据距离梯度或余弦相似度对立体多边向量集进行正序排序,之后可以进一步对每个多边向量集进行局部加权,增加数据修复的合理性,从而提高修复准确率。
本发明实施例所述数据修复方法,首先获取至少存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;进一步获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;接着确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;之后,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。如此,一方面数据以向量集格式的多边向量为平面,方便发现数据的自身特征;另一方面,采用所获取的具有与所述第一异常数据向量集互为同型向量的z个第一参考数据向量集(即形成多边立体数据)来对对所述第一异常数据向量集进行修复,从而增加数据的修复力度和数据的广度。
下面结合一应用示例来对本发明实施例所述数据修复方法的算法逻辑加以示例说明。
第一步,获取存在异常数据的整个数据(即第一异常数据向量集),按数据相似度进行多边向量构建,如图3所示,Nan为异常数据;其中,L(x,y)为多边向量的坐标,其中,Nan为异常数据。在图3中不难发现,所述异常数据Nan对应的异常数据位的坐标可表示为L(4,5)和L(4,6)。
第二步,同理,获取z个与前述如图3所示的整个数据最相似的正常数据(即z个第一参考数据向量集),其中,z的取值为4,构造成格式一致的立体多边向量,如图4所示。其中,图4中框为数据相似框,其中的对应于异常数据位L(4,5)和L(4,6)的数据位与异常数据对应的位置数据。当然,本领域技术人员应该理解的是,该图4中的框的形状不限于如图4所示的矩形框,还可以为如圆形、三角形之类的其他框形,具体框形的选择可以基于整个数据的特征来确定。
另外,需要补充说明的是,框内的数据可以看作为关联数据,每个框内的关联数据均对应有自身的关联度,且关联度与异常数据的空间位置成反比。
第三步,结合图4,利用如前述操作1044的实现方式即可完成对图3中所示的异常数据的修复。
图5示出了本发明实施例数据修复装置的组成结构示意图。如图5所示,所述数据修复装置50包括:
获取模块501,用于获取存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;还用于获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;
确定模块502,用于确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;
修复模块503,用于根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,所述修复模块503包括:第一省略单元,用于根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集;第二省略单元,用于根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集;相关度确定单元,用于确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度;修复单元,用于基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
根据本发明一实施方式,其中,所述相关度确定单元,还用于针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,所述相关度确定单元,还用于针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的距离;根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的距离大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
根据本发明一实施方式,其中,所述修复单元,还用于根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
根据本发明一实施方式,其中,所述修复模块503还包括:梯度排序单元,用于在相关度确定单元确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度之后,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
这里需要指出的是:以上数据修复装置实施例的描述,与前述方法实施例的描述是类似的,具有同方法实施例相似的有益效果,因此不做赘述。对于本发明数据修复装置实施例中未披露的技术细节,请参照本发明方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种数据修复方法,其特征在于,所述方法包括:
获取至少存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;
获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;
确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;
根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复;
其中,根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复,包括:
根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集;
根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集;
确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度;
基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
2.根据权利要求1所述的方法,其特征在于,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:
针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度;
根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的余弦相似度大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
3.根据权利要求1所述的方法,其特征在于,确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度,包括:
针对所述z个第二参考数据向量集中每一个第二参考数据向量集,分别计算每一个第二参考数据向量集与第二异常数据向量集之间的距离;
根据所计算的每一个第二参考数据向量集与第二异常数据向量集之间的距离大小确定每一个第二参考数据向量集与第二异常数据向量集之间的相关度。
4.根据权利要求1所述的方法,其特征在于,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复,包括:
根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;
将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;
将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
5.根据权利要求1所述的方法,其特征在于,在确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度之后,所述方法还包括:
基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
6.一种数据修复装置,其特征在于,所述装置包括:
获取模块,用于获取存在一个异常数据的第一异常数据向量集Amn,m,n均为大于等于2的正整数;还用于获取具有与所述第一异常数据向量集Amn互为同型向量的z个第一参考数据向量集Bmn (z),z为大于等于2的正整数;
确定模块,用于确定所述第一异常数据向量集中每一个异常数据对应的异常数据位;
修复模块,用于根据所确定的异常数据位,基于所述z个第一参考数据向量集对所述第一异常数据向量集进行修复;
其中,所述修复模块包括:
第一省略单元,用于根据所确定的异常数据位省略所述第一异常数据向量集中与所述异常数据位对应的行向量和列向量,得到第二异常数据向量集;
第二省略单元,用于根据所确定的异常数据位分别省略所述z个第一参考数据向量集中与所述异常数据位对应的行向量和列向量,得到z个第二参考数据向量集;
相关度确定单元,用于确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度;
修复单元,用于基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度,利用所述z个第一参考数据向量集对所述第一异常数据向量集进行修复。
7.根据权利要求6所述的装置,其特征在于,
所述修复单元,还用于根据所述异常数据位分别从所述z个第一参考数据向量集中获取对应异常数据位的数据;将每一个第二参考数据向量集与第二异常数据向量集之间的相关度对应作为从每一个第二参考数据向量集所获取的对应异常数据位的数据的加权因子,将所有获取的对应异常数据位的数据进行加权平均,得到加权平均值;将所述加权平均值作为对应所述第一异常数据向量集对应异常数据位的修复数据来修复所述第一异常数据向量集中的异常数据。
8.根据权利要求6所述的装置,其特征在于,所述修复模块还包括:
梯度排序单元,用于在相关度确定单元确定所述z个第二参考数据向量集中每一个第二参考数据向量集与第二异常数据向量集之间的相关度之后,基于所述每一个第二参考数据向量集与第二异常数据向量集之间的相关度对所述z个第一参考数据向量集进行梯度排序。
CN201810956999.5A 2018-08-21 2018-08-21 一种数据修复方法及装置 Expired - Fee Related CN109189773B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810956999.5A CN109189773B (zh) 2018-08-21 2018-08-21 一种数据修复方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810956999.5A CN109189773B (zh) 2018-08-21 2018-08-21 一种数据修复方法及装置

Publications (2)

Publication Number Publication Date
CN109189773A CN109189773A (zh) 2019-01-11
CN109189773B true CN109189773B (zh) 2020-10-20

Family

ID=64918823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810956999.5A Expired - Fee Related CN109189773B (zh) 2018-08-21 2018-08-21 一种数据修复方法及装置

Country Status (1)

Country Link
CN (1) CN109189773B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114237134B (zh) * 2022-02-25 2022-05-06 中国航空工业集团公司沈阳飞机设计研究所 一种飞机飞行控制方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819682A (zh) * 2012-08-02 2012-12-12 清华大学 一种多阈值空间相关的浮动车数据清洗和修复算法
CN104461781A (zh) * 2014-12-01 2015-03-25 华中科技大学 一种基于纠删码的数据块重建方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5022025B2 (ja) * 2006-12-27 2012-09-12 インターナショナル・ビジネス・マシーンズ・コーポレーション コンテンツのデータ・ストリームとメタデータを同期するための方法および装置。
CN102088613B (zh) * 2009-12-02 2013-03-20 宏碁股份有限公司 图像修复方法
CN102970707A (zh) * 2012-12-20 2013-03-13 李惠 基于压缩感知的无线传输数据丢失恢复方法
CN107978147B (zh) * 2017-10-31 2021-05-11 上海工程技术大学 一种基于knn算法的交通流异常数据双向检测修复方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102819682A (zh) * 2012-08-02 2012-12-12 清华大学 一种多阈值空间相关的浮动车数据清洗和修复算法
CN104461781A (zh) * 2014-12-01 2015-03-25 华中科技大学 一种基于纠删码的数据块重建方法

Also Published As

Publication number Publication date
CN109189773A (zh) 2019-01-11

Similar Documents

Publication Publication Date Title
US11573942B2 (en) System and method for determining exact location results using hash encoding of multi-dimensioned data
CN110532414B (zh) 一种图片检索方法及装置
CN111862337B (zh) 视觉定位方法、装置、电子设备和计算机可读存储介质
US20120296900A1 (en) Adaptively learning a similarity model
US9195713B2 (en) Outlier data point detection
CN109741209B (zh) 台风灾害下配电网多源数据融合方法、系统及存储介质
CN111461164A (zh) 样本数据集的扩容方法及模型的训练方法
CN115293332A (zh) 一种图神经网络的训练方法、装置、设备及存储介质
CN109189773B (zh) 一种数据修复方法及装置
CN108875901B (zh) 神经网络训练方法以及通用物体检测方法、装置和系统
CN113704276A (zh) 地图更新方法、装置、电子设备及计算机可读存储介质
CN106600691B (zh) 多路二维视频图像在三维地理空间中融合校正方法、系统
CN111402429A (zh) 一种尺度还原、三维重建方法、系统、存储介质及设备
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN113706222B (zh) 一种门店选址的方法、装置
CN105677843A (zh) 一种自动获取宗地四至属性的方法
CN113706173B (zh) 一种信息管理方法、装置、电子设备及存储介质
CN115905864A (zh) 异常数据检测模型训练方法、装置、计算机设备
CN111581487B (zh) 一种信息处理方法及装置
KR102136222B1 (ko) 그래프 데이터 클러스터링 시스템 및 방법과, 이를 위한 컴퓨터 프로그램
CN115879120A (zh) 用于获取用户权限的方法及装置、电子设备、存储介质
CN111144765A (zh) 一种特定地点间关联关系的确定方法及装置
CN111797282A (zh) 产品标签权重确定方法、装置、电子设备及可读存储介质
CN109800359A (zh) 信息推荐处理方法、装置、电子设备及可读存储介质
Shahraki et al. Introducing free-function camera calibration model for central-projection and omni-directional lenses

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20201020