CN113590605B - 数据处理方法、装置、电子设备及存储介质 - Google Patents

数据处理方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113590605B
CN113590605B CN202110907660.8A CN202110907660A CN113590605B CN 113590605 B CN113590605 B CN 113590605B CN 202110907660 A CN202110907660 A CN 202110907660A CN 113590605 B CN113590605 B CN 113590605B
Authority
CN
China
Prior art keywords
data
tuple
tuples
target
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110907660.8A
Other languages
English (en)
Other versions
CN113590605A (zh
Inventor
曹逊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Dajia Internet Information Technology Co Ltd
Original Assignee
Beijing Dajia Internet Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Dajia Internet Information Technology Co Ltd filed Critical Beijing Dajia Internet Information Technology Co Ltd
Priority to CN202110907660.8A priority Critical patent/CN113590605B/zh
Publication of CN113590605A publication Critical patent/CN113590605A/zh
Application granted granted Critical
Publication of CN113590605B publication Critical patent/CN113590605B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开关于一种数据处理方法、装置、电子设备及存储介质,该方法包括:获取待处理的数据集合中存在冲突的至少两个目标数据元组;数据集合中包含多个数据元组;确定各目标数据元组与数据集合中其他数据元组的相似度;根据各目标数据元组的相似度,从至少两个目标数据元组中确定出异常数据元组,并从数据集合中删除异常数据元组。本公开的方案,基于相似度对数据记录进行准确删除,当存在至少两个具有冲突的数据记录时,通过比较其对应的相似度,优先将存在异常可能性更高的数据记录删除,有效提高数据修复的准确性和修复质量。

Description

数据处理方法、装置、电子设备及存储介质
技术领域
本公开涉及数据修复技术,尤其涉及一种数据处理方法、装置、电子设备及存储介质。
背景技术
随着移动终端技术和自媒体领域的高速发展,数据爆炸式增长。当数据中存在冲突数据时,将大大降低数据应用和分析的可靠性。因此需对数据进行修复和清洗。
现有的数据修复方法,可以在检测多条数据记录之间所存在的冲突后,基于最小修复的原则获取最少个数的错误数据记录,通过删除这些错误数据记录而保证余下的数据不存在冲突。
然而,在上述方法中,被删除的错误数据记录可能并非应当删除的数据记录,存在修复质量差的问题。
发明内容
本公开提供一种数据处理方法、装置、电子设备及存储介质,以至少解决相关技术中修复质量差的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种数据处理方法,包括:
获取待处理的数据集合中存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组;
确定各目标数据元组与所述数据集合中其他数据元组的相似度;
根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
在一示例性实施例中,每个数据元组中包含第一类数据和第二类数据,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,包括:
获取预设的校验规则;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系;
获取待处理的数据集合中相对于所述校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组;所述至少两个目标数据元组中的第一类数据相同,第二类数据不同。
在一示例性实施例中,所述确定各目标数据元组与所述数据集合中其他数据元组的相似度,包括:
针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度,包括:
获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;K为大于零的自然数;
基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,包括:
获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,包括:
针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
在一示例性实施例中,所述从所述数据集合中删除所述异常数据元组,包括:
逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
根据本公开实施例的第二方面,提供一种数据处理装置,包括:
目标数据元组获取单元,被配置为获取待处理的数据集合中存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组;
相似度确定单元,被配置为确定各目标数据元组与所述数据集合中其他数据元组的相似度;
数据元组删除单元,被配置为根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
在一示例性实施例中,每个数据元组中包含第一类数据和第二类数据,所述目标数据元组获取单元,包括:
校验规则获取模块,被配置为获取预设的校验规则;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系;
校验模块,被配置为获取待处理的数据集合中相对于所述校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组;所述至少两个目标数据元组中的第一类数据相同,第二类数据不同。
在一示例性实施例中,所述相似度确定单元,包括:
数组距离后去模块,被配置为针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
相似度获取模块,被配置为基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述相似度获取模块,包括:
目标数组距离获取模块,被配置为获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;
相似度计算模块,被配置为基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述目标数据元组获取单元,包括:
冲突元组对获取模块,被配置为获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述数据元组删除单元,包括:
相似度比较模块,被配置为针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
在一示例性实施例中,所述目标数据元组获取单元,包括:
逐一删除模块,被配置为逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如上任一项所述的数据处理方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如上任一项所述的数据处理方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上任一项所述的数据处理方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
通过获取待处理的数据集合中存在冲突的至少两个目标数据元组,确定各目标数据元组与数据集合中其他数据元组的相似度,进而可以根据各目标数据元组的相似度,从至少两个目标数据元组中确定出异常数据元组,并从数据集合中删除异常数据元组,实现了基于相似度对数据记录进行准确删除,当存在至少两个具有冲突的数据记录时,通过比较其对应的相似度,优先将存在异常可能性更高的数据记录删除,有效提高数据修复的准确性和修复质量。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种数据处理方法的流程图。
图2是根据一示例性实施例示出的另一种数据处理方法的流程图。
图3是根据一示例性实施例示出的一种数组距离的示意图。
图4是根据一示例性实施例示出的一种数据处理装置的框图。
图5是根据一示例性实施例示出的一种电子设备的框图。
图6是根据一示例性实施例示出的另一种电子设备的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
随着移动终端技术和自媒体领域的高速发展,数据爆炸式增长。数据量的急剧增加,也使得数据质量的问题愈发引起重视。实际应用中,由于网络阻塞、传感器故障、系统异常或用户错误输入等各种原因,采集到的数据中普遍存在脏数据,例如冲突数据。例如,A商品的价格为10元,某天A商品降价为1元,针对A商品存在两条对应的数据元组,即(A,10)与(A,1),针对同一商品存在两个不同的价格,可以确定数据(A,10)与数据(A,1)存在冲突。
当数据中存在冲突数据时,将大大降低数据应用和分析的可靠性。基于此,可以对数据进行修复和清洗,提高数据质量。
现有的其中一种数据修复方法,可以在检测多条数据记录之间所存在的冲突后,基于最小修复的原则获取最少个数的错误数据记录,通过删除这些错误数据记录而保证余下的数据不存在冲突,进而可以利用修复后剩余的数据记录进行准确的分析和应用,保证数据在应用过程中的可靠性和有效性。
然而,在上述方法中,被删除的错误数据记录可能并非应当删除的数据记录,例如在检测到存在数据冲突的两条数据记录,基于最小修复的原则将其中一条删除,然而被删除的数据记录对应的数据质量可能高于被保留的数据记录,由此导致错误删除正确的数据记录而保留错误的数据记录。由此可见,现有的数据修复方法存在修复质量差的问题。
在一示例性实施例中,如图1所示,提供了一种数据处理方法,以该方法应用于终端进行举例说明。可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,可以包括以下步骤:
在步骤S110中,获取待处理的数据集合中存在冲突的至少两个目标数据元组。
作为一示例,数据集合中包含多个数据元组,其中,数据元组可以是通过对数据进行创建、收集、统计或分析中的任一项或多项处理后得到数据记录,如数据库中的数据记录、由客户端或服务端采集的数据记录或基于此进行分析后得到的数据记录、通过人工或计算机创建而得到的数据记录等。
在多个数据元组中,可以包括存在冲突的至少两个目标数据元组。具体而言,当数据集合中的两个或两个以上的数据元组,针对同一对象的记录存在差异或矛盾,则可以确定该两个或两个以上的数据元组存在冲突,该冲突也可以称为数据冲突。例如,同一商品存在两个不同的价格。
在本公开中,终端可以获取待处理的数据集合中存在冲突的至少两个数据元组作为目标数据元组。
在步骤S120中,确定各目标数据元组与所述数据集合中其他数据元组的相似度。
具体实现中,在同一数据集合中的各个数据元组,相互之间可以存在相似性,针对不同的数据元组该相似性可以存在差异。在获取到至少两个目标数据元组后,针对每个目标数据元组,可以确定该目标数据元组与数据集合中其他数据元组的相似度。
作为一个示例,当数据集合中存在多个数据元组,例如数据元组A、B、C、D时,若确定目标数据元组A和目标数据元组B冲突,则可以确定目标数据元组A与数据元组C和数据元组D的相似度s1,以及,确定目标数据元组B与数据元组C和数据元组D的相似度s2。
在步骤S130中,根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
在实际应用中,目标数据元组与其他数据元组的相似度可以与该目标数据元组存在异常或错误的可能性呈正相关。当目标数据元组与其他数据元组的相似度越低,该目标数据元组存在异常或发生错误的可能性则越大;当相似度越高,该目标数据元组与数据集合中的其他数据元组则越接近,其存在错误的可能性则更低。
基于此,在确定出各个目标数据元组各自的相似度后,可以各个目标数据元组的相似度进行比较,根据各个目标数据元组对应的相似度,从至少两个目标数据元组中,确定出异常数据元组,并将该异常数据元组从数据集合中删除。例如,在确定目标数据元组A对应的相似度s1和目标数据元组B对应的相似度s2后,可以通过对相似度s1和相似度s2进行比对,从目标数据元组A和目标数据元组B中确定出异常数据元组,如确定数据元组A为异常数据元组,则可以将数据元组A从数据集合中删除。
本公开中,可以获取待处理的数据集合中存在冲突的至少两个目标数据元组,确定各目标数据元组与数据集合中其他数据元组的相似度,进而可以根据各目标数据元组的相似度,从至少两个目标数据元组中确定出异常数据元组,并从数据集合中删除异常数据元组,实现了基于相似度对数据记录进行准确删除,当存在至少两个具有冲突的数据记录时,通过比较其对应的相似度,优先将存在异常可能性更高的数据记录删除,有效提高数据修复的准确性和修复质量。
在一示例性实施例中,每个数据元组中包含第一类数据和第二类数据,在步骤S110中,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,可以包括如下步骤:
获取预设的校验规则;获取待处理的数据集合中相对于所述校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组。
作为一示例,第一类数据和/或第二类数据可以是由一个或多个属性对应的数据所构成的集合。具体地,每个数据元组可以是由不同属性的多个数据构成,例如,针对数据元组ti=(ti[A1],ti[A2],…,ti[AM]),该数据元组可以是由定义在M个属性A上的M个数据构成,其中,ti[Aj]表示数据元组ti的第j个属性所对应的数据。
校验规则可以描述数据集合中数据元组之间的数据特征,具体而言,校验规则可以表征数据元组之间的第一类数据与第二类数据之间应满足的约束关系。通过该校验规则可检测多个数据元组之间是否存在数据冲突的规则。校验规则可以由用户指定;也可以通过对多个数据元组进行分析、获取到数据元组之间的规律或特征后得到,例如基于置信度的规则挖掘方法获取校验规则。在一示例中,校验规则可以是以下的至少一种类型:函数依赖、条件函数依赖、拒绝约束。
通过校验规则获取到至少两个目标数据元组中,各目标数据元组的第一类数据相同,且第二类数据不同。
在实际应用中,可以获取预设的校验规则。具体而言,可以对数据元组的属性进行划分,得到第一类属性和第二类属性,进而可以定义第一类属性所对应的第一类数据与第二类属性所能够的第二类数据,两者之间应满足的约束关系,得到校验规则。
在获取到校验规则后,则可以采用该校验规则对数据集合中的多个数据元组进行校验,获取相对于校验规则存在冲突的至少两个数据元组,得到目标数据元组。具体地,可以获取待处理的数据集合中任意的具有相同第一类数据的多个数据元组,并判断多个数据元组的第二类数据是否相同,若是,则可以确定多个数据元组满足预设的校验规则,不存在数据冲突;若否,则可以将第二类数据不相同的至少两个数据元组,确定为目标数据元组。
例如,针对任意两个数据元组ti和tj中的第一类属性X和第二类属性Y,ti的第一类属性X对应的数据可以记为ti[X],tj的第一类属性X对应的数据可以记为tj[X];ti的第二类属性Y对应的数据可以记为ti[Y],tj的第二类属性Y对应的数据可以记为tj[Y]。当ti[X]与tj[X]相同时,可以判断ti[Y]与tj[Y]是否相同。若不相同,则可以认为其存在数据冲突。
在本公开中,可以获取预设的校验规则,并获取待处理的数据集合中相对于校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组,能够快速检测到数据集合中存在冲突的多个目标数据元组。
在一示例性实施例中,如图2所示,在步骤S120中,所述确定各目标数据元组与所述数据集合中其他数据元组的相似度,可以包括如下步骤:
在步骤S121中,针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离。
作为一示例,数组距离的度量方式可以根据数据元组的数据类型确定。例如,当数据类型为字符数据时,可以采用以下任意一种距离度量方式确定数组距离:Jaccard相似度、编辑距离(也可以称为莱文斯坦距离)、余弦相似度;当数据类型为数值数据时,则可以基于绝对差异值或归一化距离确定数组距离。
在实际应用中,目标数据元组与其他数据元组之间的数组距离,可以与目标数据元组与其他数据元组的相似度关联,由此可以通过数组距离确定目标数据元组存在异常的可能性。如图3所示,目标数据元组t1、目标数据元组t2和其他数据元组对应的点分布在图3的坐标系中,由图3可知,目标数据元组t1距离其他数据元组的数组距离较远,而目标数据元组t2距离其他数据元组的数组距离更近,具有更多、更近的近邻数据元组。由于目标数据元组t1的分布更偏离数据集合中的其他数据元组,而目标数据元组t2则更贴近其他数据元组,因此可以确定目标数据元组t1存在异常的可能性更高。
基于此,在获取到至少两个目标数据元组后,针对每个目标数据元组,可以获取该目标数据元组与数据集合中各个其他数据元组对应的数组距离。具体地,可以确定数据集合中数据元组的数据类型,并获取与该数据类型对应的距离度量方式计算目标数据元组与数据集合中其他各个数据元组之间的距离。
在步骤S122中,基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
在获取到该目标数据元组与各个其他数据元组之间的数组距离后,可以基于多个数组距离,确定该目标数据元组与数据集合中其他数据元组的相似度。例如可以基于多个数组距离的平均值确定,也可以基于多个数组距离中的一个数组距离确定,如中位数、最大值、最小值或者按照其他方式选取的数组距离。
在本公开中,针对各目标数据元组,可以获取该目标数据元组与数据集合中各个其他数据元组对应的数组距离,并基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与数据集合中其他数据元组的相似度,能够通过目标数据元组与其他数据元组的距离,快速对数据元组之间的相似度进行定量的准确度量。
在一示例性实施例中,在步骤S122中,所述基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度,可以包括如下步骤:
获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
在具体实现中,针对每个目标数据元组,在获取到该目标数据元组与数据集合中各个其他数据元组之间的数组距离后,可以从多个数组距离中,获取距离值第K小的一个目标数组距离,其中,K为大于0的自然数,本领域技术人员可以根据实验或实际情况设定K的大小。示例性地,在获取到多个数组距离后,可以升序排列多个数组距离,并将第K个数组距离确定为目标数组距离。
在确定目标数组距离后,则可以基于目标数组距离确定目标数组距离与数据集合中其他数据元组的相似度。在一示例中,由于数组距离与相似度负相关,可以获取目标数组距离的倒数作为目标数据元组与所述数据集合中其他数据元组的相似度。
在本公开中,通过获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离,并基于目标数组距离确定目标数据元组与数据集合中其他数据元组的相似度,能够基于目标数据元组与距离值第K小的数组距离,确定相似度。
在一示例性实施例中,在步骤S110中,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,可以包括如下步骤:
获取待处理的数据集合中的多对冲突元组对;
所述根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,包括:
针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
作为一示例,每对冲突元组对中包含两个存在冲突的目标数据元组。
具体实现中,可以获取待处理的数据集合中的多对冲突元组对。具体地,可以获取预设的校验规则,并基于校验规则,确定待处理的数据集合中的任意两个数据元组是否存在冲突,若确定选取的两个数据元组存在数据冲突,则将两个数据元组确定为目标数据元组,并生成包含两个目标数据元组的冲突元组对。通过遍历数据集合中的各个数据元组,可以获取到多对冲突元组对。
在获取到多对冲突元组对后,针对每组冲突元组对中包含的两个目标数据元组,在确定各个目标数据元组对应的相似度后,可以将相似度交底的一个目标数据元组确定为异常数据元组。
在本公开中,可以获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组,进而针对每对冲突元组包含的两个目标数据元组,可以将其中相似度低的一个目标数据元组,确定为异常数据元组,能够通过两两成对地确定冲突元组对,并从中确定出异常数据元组,实现异常数据元组的快速筛选。
在一示例性实施例中,在步骤S130中,所述从所述数据集合中删除所述异常数据元组,可以包括:
逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
在具体实现中,在确定每对冲突元组对中的异常数据元组后,可以逐一删除每对冲突元组对中的异常数据元组,知道将多对冲突元组对中的异常数据元组删除完毕。具体地,确定每对冲突元组对中的异常数据元组后,可以从多对冲突元组中获取当前待修复的一冲突元组对,并删除该冲突元组对中的异常数据元组。在删除该冲突元组对的异常数据元组后,可以将再次执行从多对冲突元组中获取当前待修复的一冲突元组对,重复上述过程,直到多对冲突元组对中的异常数据元组删除完毕。在一示例中,在删除异常数据元组时,可以确定包含该异常数据元组的多个冲突元组对,并将多个冲突元组对中的该异常数据元组删除。在删除后,若检测到的冲突元组对中有一数据元组作为异常数据元组已被删除,则可以继续获取下一冲突元组对。
在本公开中,可以逐一删除每对冲突元组对中的异常数据元组,直到多对冲突元组对中的异常数据元组删除完毕,能够无遗漏地删除数据集合中存在的多个异常数据元组,避免仅删除指定数量的错误数据记录,提高了数据修复质量。
为了使本领域技术人员能够更好地理解上述步骤,以下通过一个例子对本申请实施例加以示例性说明,但应当理解的是,本申请实施例并不限于此。
在实际应用中,可以预先获取待处理的数据集合和校验规则集合。其中,数据集合中可以包含有待修复的脏数据;校验规则集合中可以包含一条或多条约束规则。
在获取到数据集合和校验规则集合后,可以从校验规则集合中获取一校验规则,并采用该校验规则对数据集合进行校验,得到多对冲突元组对。其中,每对冲突元组对可以包括两个存在冲突的目标数据元组,多对冲突元组对可以构成冲突元组对集合。
针对冲突元组对集合中的每对冲突元组对,可以确定冲突元组对中各个目标数据元组与数据集合中其他数据元组的数组距离,针对每一目标数据元组,可以将距离值第K小的数组距离确定为该目标数据元组与其他数据元组的相似度。在确定每个目标数据元组对应的相似度后,可以将每对冲突元组对中具有较小相似度的目标数据元组确定为目标数据元组。
在确定每对冲突元组对中的异常数据元组后,可以确定当前待修复的一对冲突元组对中的异常数据元组,并确定包含该异常数据元组的冲突元组对,将其中的该异常数据元组删除。在删除该异常数据元组后,可以再次执行确定当前待修复的一对冲突元组对中的异常数据元组的步骤,重复上述异常数据元组的删除过程,直到对所有冲突元组对修复完毕。
在通过当前校验规则检测出的所有冲突元组对修复完毕后,可以从校验规则集合中获取一新的校验规则,再次执行采用该校验规则对数据集合进行校验的步骤,直到将通过校验规则集合中各个校验规则检测到的冲突元组对修复完毕后,可以结束数据修复流程。
应该理解的是,虽然图1和图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1和图2中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
图4是根据一示例性实施例示出的一种数据处理装置框图。参照图4,该装置包括目标数据元组获取单元401,相似度确定单元402和数据元组删除单元403。
目标数据元组获取单元401,被配置为获取待处理的数据集合中存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组;
相似度确定单元402,被配置为确定各目标数据元组与所述数据集合中其他数据元组的相似度;
数据元组删除单元403,被配置为根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
在一示例性实施例中,每个数据元组中包含第一类数据和第二类数据,所述目标数据元组获取单元401,包括:
校验规则获取模块,被配置为获取预设的校验规则;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系;
校验模块,被配置为获取待处理的数据集合中相对于所述校验规则存在冲突的至少两个数据元组,作为至少两个目标数据元组;所述至少两个目标数据元组中的第一类数据相同,第二类数据不同。
在一示例性实施例中,所述相似度确定单元402,包括:
数组距离后去模块,被配置为针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
相似度获取模块,被配置为基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述相似度获取模块,包括:
目标数组距离获取模块,被配置为获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;K为大于零的自然数;
相似度计算模块,被配置为基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
在一示例性实施例中,所述目标数据元组获取单元401,包括:
冲突元组对获取模块,被配置为获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述数据元组删除单元,包括:
相似度比较模块,被配置为针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
在一示例性实施例中,所述目标数据元组获取单元401,包括:
逐一删除模块,被配置为逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图5是根据一示例性实施例示出的一种用于执行数据处理方法的电子设备500的框图。例如,设备500可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。
参照图5,设备500可以包括以下一个或多个组件:处理组件502、存储器504、电源组件506、多媒体组件508、音频组件510、输入/输出(I/O)的接口512、传感器组件514以及通信组件516。
处理组件502通常控制设备500的整体操作,诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件502可以包括一个或多个处理器520来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件502可以包括一个或多个模块,便于处理组件502和其他组件之间的交互。例如,处理组件502可以包括多媒体模块,以方便多媒体组件508和处理组件502之间的交互。
存储器504被配置为存储各种类型的数据以支持在设备500的操作。这些数据的示例包括用于在设备500上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器504可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。
电源组件506为设备500的各种组件提供电力。电源组件506可以包括电源管理系统,一个或多个电源,及其他与为设备500生成、管理和分配电力相关联的组件。
多媒体组件508包括在所述设备500和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件508包括一个前置摄像头和/或后置摄像头。当设备500处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件510被配置为输出和/或输入音频信号。例如,音频组件510包括一个麦克风(MIC),当设备500处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器504或经由通信组件516发送。在一些实施例中,音频组件510还包括一个扬声器,用于输出音频信号。
I/O接口512为处理组件502和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件514包括一个或多个传感器,用于为设备500提供各个方面的状态评估。例如,传感器组件514可以检测到设备500的打开/关闭状态,组件的相对定位,例如所述组件为设备500的显示器和小键盘,传感器组件514还可以检测设备500或设备500一个组件的位置改变,用户与设备500接触的存在或不存在,设备500方位或加速/减速和设备500的温度变化。传感器组件514可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件514还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件514还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。
通信组件516被配置为便于设备500和其他设备之间有线或无线方式的通信。设备500可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件516经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件516还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,设备500可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器504,上述指令可由设备500的处理器520执行以完成上述方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图6是根据一示例性实施例示出的一种用于执行上述数据处理方法的服务器600的框图。例如,设备600可以为一服务器。参照图6,设备600包括处理组件620,其进一步包括一个或多个处理器,以及由存储器622所代表的存储器资源,用于存储可由处理组件620的执行的指令,例如应用程序。存储器622中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件620被配置为执行指令,以执行上述的数据处理方法。
设备600还可以包括一个电源组件624被配置为执行设备600的电源管理,一个有线或无线网络接口626被配置为将设备600连接到网络,和一个输入输出(I/O)接口628。设备600可以操作基于存储在存储器622的操作系统,例如Window6 6erver,Mac O6 X,Unix,Linux,FreeB6D或类似。
在示例性实施例中,还提供了一种包括指令的计算机可读存储介质,例如包括指令的存储器622,上述指令可由设备600的处理器执行以完成上述方法。存储介质可以是计算机可读存储介质,例如,所述计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供一种计算机程序产品,包括计算机指令,所述计算机指令被处理器执行时实现如上任一项所述的数据处理方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (14)

1.一种数据处理方法,其特征在于,包括:
获取待处理的数据集合中相对于预设的校验规则存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组,每个数据元组中包含第一类数据和第二类数据;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系,所述至少两个目标数据元组中的第一类数据相同,第二类数据不同;
确定各目标数据元组与所述数据集合中其他数据元组的相似度;
根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
2.根据权利要求1所述的方法,其特征在于,所述目标数据元组存在异常的可能性,与该目标数据元组与其他数据元组的相似度呈正相关。
3.根据权利要求1所述的方法,其特征在于,所述确定各目标数据元组与所述数据集合中其他数据元组的相似度,包括:
针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
4.根据权利要求3所述的方法,其特征在于,所述基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度,包括:
获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;K为大于零的自然数;
基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
5.根据权利要求1所述的方法,其特征在于,所述获取待处理的数据集合中存在冲突的至少两个目标数据元组,包括:
获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,包括:
针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
6.根据权利要求5所述的方法,其特征在于,所述从所述数据集合中删除所述异常数据元组,包括:
逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
7.一种数据处理装置,其特征在于,包括:
目标数据元组获取单元,被配置为获取待处理的数据集合中相对于预设的校验规则存在冲突的至少两个目标数据元组;所述数据集合中包含多个数据元组,每个数据元组中包含第一类数据和第二类数据;所述校验规则表征第一类数据与第二类数据之间应满足的约束关系,所述至少两个目标数据元组中的第一类数据相同,第二类数据不同;
相似度确定单元,被配置为确定各目标数据元组与所述数据集合中其他数据元组的相似度;
数据元组删除单元,被配置为根据各目标数据元组的所述相似度,从所述至少两个目标数据元组中确定出异常数据元组,并从所述数据集合中删除所述异常数据元组。
8.根据权利要求7所述的装置,其特征在于,所述目标数据元组存在异常的可能性,与该目标数据元组与其他数据元组的相似度呈正相关。
9.根据权利要求7所述的装置,其特征在于,所述相似度确定单元,包括:
数组距离后去模块,被配置为针对各目标数据元组,获取该目标数据元组与所述数据集合中各个其他数据元组对应的数组距离;
相似度获取模块,被配置为基于该目标数据元组与多个其他数据元组对应的多个数组距离,确定该目标数据元组与所述数据集合中其他数据元组的相似度。
10.根据权利要求9所述的装置,其特征在于,所述相似度获取模块,包括:
目标数组距离获取模块,被配置为获取该目标数据元组与多个其他数据元组对应的多个数组距离中,距离值第K小的一个目标数组距离;K为大于零的自然数;
相似度计算模块,被配置为基于所述目标数组距离确定所述目标数据元组与所述数据集合中其他数据元组的相似度。
11.根据权利要求7所述的装置,其特征在于,所述目标数据元组获取单元,包括:
冲突元组对获取模块,被配置为获取待处理的数据集合中的多对冲突元组对,每对冲突元组对中包含两个存在冲突的目标数据元组;
所述数据元组删除单元,包括:
相似度比较模块,被配置为针对每对冲突元组包含的两个目标数据元组,将其中相似度低的一个目标数据元组,确定为异常数据元组。
12.根据权利要求11所述的装置,其特征在于,所述目标数据元组获取单元,包括:
逐一删除模块,被配置为逐一删除每对冲突元组对中的所述异常数据元组,直到所述多对冲突元组对中的所述异常数据元组删除完毕。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的数据处理方法。
14.一种计算机可读存储介质,其特征在于,当所述计算机可读存储介质中的指令由电子设备的处理器执行时,使得所述电子设备能够执行如权利要求1至6中任一项所述的数据处理方法。
CN202110907660.8A 2021-08-09 2021-08-09 数据处理方法、装置、电子设备及存储介质 Active CN113590605B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110907660.8A CN113590605B (zh) 2021-08-09 2021-08-09 数据处理方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110907660.8A CN113590605B (zh) 2021-08-09 2021-08-09 数据处理方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113590605A CN113590605A (zh) 2021-11-02
CN113590605B true CN113590605B (zh) 2024-01-05

Family

ID=78256298

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110907660.8A Active CN113590605B (zh) 2021-08-09 2021-08-09 数据处理方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113590605B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064628B (zh) * 2021-11-25 2022-05-31 北京中海兴达建设有限公司 一种用于施工工地的火灾预警的数据处理系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN107203550A (zh) * 2016-03-17 2017-09-26 华为技术有限公司 一种数据处理方法和数据库服务器
CN107609048A (zh) * 2017-08-18 2018-01-19 中国人民大学 一种可延迟唯一约束的方法
CN109753372A (zh) * 2018-12-20 2019-05-14 东软集团股份有限公司 多维数据异常检测方法、装置、可读存储介质及电子设备
CN109976668A (zh) * 2019-03-14 2019-07-05 北京达佳互联信息技术有限公司 数据删除方法、数据删除装置和计算机可读存储介质
CN110443264A (zh) * 2018-05-03 2019-11-12 北京京东尚科信息技术有限公司 一种聚类的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104268216A (zh) * 2014-09-24 2015-01-07 江苏名通信息科技有限公司 一种基于互联网信息的数据清洗系统
CN107203550A (zh) * 2016-03-17 2017-09-26 华为技术有限公司 一种数据处理方法和数据库服务器
CN106776951A (zh) * 2016-12-02 2017-05-31 航天星图科技(北京)有限公司 一种清洗对比入库方法
CN107609048A (zh) * 2017-08-18 2018-01-19 中国人民大学 一种可延迟唯一约束的方法
CN110443264A (zh) * 2018-05-03 2019-11-12 北京京东尚科信息技术有限公司 一种聚类的方法和装置
CN109753372A (zh) * 2018-12-20 2019-05-14 东软集团股份有限公司 多维数据异常检测方法、装置、可读存储介质及电子设备
CN109976668A (zh) * 2019-03-14 2019-07-05 北京达佳互联信息技术有限公司 数据删除方法、数据删除装置和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DR-RDC:基于校准否定约束集的数据修复方法;卢菁;党延领;刘丛;;小型微型计算机系统(05);全文 *

Also Published As

Publication number Publication date
CN113590605A (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
EP2919165B1 (en) Method and device for clustering
CN109359056B (zh) 一种应用程序测试方法及装置
US20220084056A1 (en) Methods and apparatuses for managing visitor information, electronic devices and storage media
CN111539443A (zh) 一种图像识别模型训练方法及装置、存储介质
CN112783779B (zh) 测试用例的生成方法、装置、电子设备和存储介质
CN112417318B (zh) 一种兴趣点的状态确定方法、装置、电子设备及介质
CN110738267B (zh) 图像分类方法、装置、电子设备及存储介质
CN113590605B (zh) 数据处理方法、装置、电子设备及存储介质
CN114201484A (zh) 信息处理方法、装置、电子设备及存储介质
CN112486770B (zh) 客户端打点上报方法、装置、电子设备和存储介质
CN111797746B (zh) 人脸识别方法、装置及计算机可读存储介质
CN111428806B (zh) 图像标签确定方法、装置、电子设备及存储介质
CN111382161B (zh) 状态数据处理方法、装置、电子设备及存储介质
CN109842688B (zh) 一种内容推荐方法、装置、电子设备及存储介质
CN113704315B (zh) 一种用户推荐方法、装置、电子设备及存储介质
CN116541238A (zh) 日志文件采集方法、装置、电子设备及可读存储介质
CN116127353A (zh) 分类方法、分类模型训练方法、设备及介质
CN109857660A (zh) 项目度量方法、系统、装置和计算机可读存储介质
CN115408277A (zh) 一种接口测试方法及装置
CN107203315A (zh) 点击事件的处理方法、装置及终端
CN114298227A (zh) 文本去重方法、装置、设备及介质
US20150373130A1 (en) Device and method for connecting celebrities and fans
CN113206772B (zh) 应答报文正确性判别方法、装置、设备、介质及产品
CN113312252B (zh) 一种实现服务请求测试的方法及装置
CN105959139A (zh) 信息显示方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant