CN112231514A

CN112231514A - 一种数据去重方法、装置及存储介质和服务器

Info

Publication number: CN112231514A
Application number: CN202011120490.0A
Authority: CN
Inventors: 刘振华
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-10-19
Filing date: 2020-10-19
Publication date: 2021-01-15
Anticipated expiration: 2040-10-19
Also published as: CN112231514B

Abstract

本发明实施例公开了一种数据去重方法、装置及存储介质和服务器，应用于基于人工智能的信息处理技术领域。在本实施例的方法中，数据去重装置在确定待去重数据中与目标数据重复的数据时，主要是采用相对相似参数值来确定，其中，相对相似参数值为：与目标数据之间的相似参数值在预置范围内的相似数据的相似参数值，与目标数据的基准相似参数之间的差别，实践证明，本实施例中的相对相似参数值更能准确地对目标数据与其重复数据之间关系进行描述，因此，确定出的重复数据更准确。

Description

一种数据去重方法、装置及存储介质和服务器

技术领域

本发明涉及基于人工智能的信息处理技术领域，特别涉及一种数据去重方法、装置及存储介质和服务器。

背景技术

单个视频可以看成有限连续图片与音频的集合，由于视频的存储通常需要消耗大量的资源，且图片和音频的特征都属于高维度，且大量信息冗余的数据，因此，有必要对重复视频进行去重处理，以节省视频存储所占的资源。

现有的视频去重方法主要是基于图像哈希(hash)的视频去重方法，比如差异hash(dHash)，感知hash(pHash)，平均hash(aHash)等，具体地，通过将视频中的图片进行缩放，转换成特定的图片hash编码，再通过hash编码之间的汉明距离比较不同图片的相似性，通过大量图片的匹配，确定相似的视频。但是，在图像哈希过程中，由于大量数据的损失，导致该方法的视频数据召回低，且当视频发生变化，如拉升，剪裁，增加花边等，则确定相似视频的处理能力有限。

发明内容

本发明实施例提供一种数据去重方法、装置及存储介质和服务器，实现了更准确地确定重复数据。

本发明实施例一方面提供一种数据去重方法，包括：

确定待去重数据中与目标数据之间的相似参数值在预置范围内的多条相似数据；

确定所述目标数据对应的基准相似参数，所述基准相似参数用于指示所述目标数据与已去重数据中最相似数据之间的相似程度；

根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据；

对所述多条相似数据中与所受目标数据重复的相似数据进行去重处理。

本发明实施例另一方面提供一种数据去重装置，包括：

相似确定单元，用于确定待去重数据中与目标数据之间的相似度在预置范围内的多条相似数据；

基准确定单元，用于确定所述目标数据对应的基准相似参数，所述基准相似参数用于指示所述目标数据与已去重数据中最相似数据之间的相似程度；

重复确定单元，用于根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据；

去重单元，用于对所述多条相似数据中与所述目标数据重复的相似数据进行去重处理。

本发明实施例另一方面还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如本发明实施例一方面所述的数据去重方法。

本发明实施例另一方面还提供一种终端设备，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如本发明实施例一方面所述的数据去重方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

可见，在本实施例的方法中，数据去重装置在确定待去重数据中与目标数据重复的数据时，主要是采用相对相似参数值来确定，其中，相对相似参数值为与目标数据之间的相似参数值在预置范围内的相似数据的相似参数值，与目标数据的基准相似参数之间的差别，实践证明，本实施例中的相对相似参数值更能准确地对目标数据与其重复数据之间关系进行描述，因此，确定出的重复数据更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种数据去重方法的示意图；

图2是本发明一个实施例提供的一种数据去重方法的流程图；

图3是本发明一个实施例中目标数据与已去重数据库中较为相似的数据之间的相似度的分布示意图；

图4是本发明应用实施例提供的一种数据去重方法的示意图；

图5是本发明另一应用实施例中数据去重方法所应用于的分布式系统的示意图；

图6是本发明另一应用实施例中区块结构的示意图；

图7是本发明实施例提供的一种数据去重装置的结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排它的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供一种数据去重方法，主要是对任一待去重数据库中的数据进行去重，如图1所示，数据去重装置可以按照如下方法进行去重：

确定待去重数据中与目标数据之间的相似参数值在预置范围内的多条相似数据(图中以n条相似数据为例说明)；确定所述目标数据对应的基准相似参数，所述基准相似参数用于指示所述目标数据与已去重数据中最相似数据之间的相似程度；根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据；对所述多条相似数据中与所述目标数据重复的相似数据进行去重处理。

在实际应用过程中，上述的目标数据具体可以为图片或视频数据，而本发明实施例的数据去重方法可以应用到储存图片或视频的系统中，比如自媒体系统或云系统等，当系统需要储存新的目标数据时，可以触发上述的数据去重流程，比如，当用户通过视频客户端向视频后台上传新的视频后，视频后台则可以将新的视频作为目标数据，并触发上述的数据去重流程，这种情况下，视频后台即为数据去重装置。

这样，在确定待去重数据库中目标数据的重复数据时，主要是采用相对相似参数值来确定，实践证明，本实施例中的相对相似参数值更能准确地对目标数据与其重复数据之间关系进行描述，因此，确定出的重复数据更准确。

本发明实施例提供一种数据去重方法，主要是数据去重装置所执行的方法，流程图如图2所示，包括：

步骤101，确定待去重数据与目标数据之间的相似参数值在预置范围内的多条相似数据。

可以理解，数据去重装置可以针对任一条待储存的目标数据发起本实施例的流程，首先需要针对该目标数据待储存的数据库(即待去重数据库)中已储存的数据，确定待去重数据库中与该目标数据相似的数据，这就需要计算目标数据分别与待去重数据库中任一条数据之间的相似参数值，并基于该相似参数值确定多条相似数据。

这里相似参数值是用于描述两条数据之间的相似性的参数，可以采用多种方式来衡量，比如余弦相似度、欧式距离(即L2距离)、曼哈顿距离(即L1距离)、汉明距离或编辑距离等。其中，如果两条数据之间的相似度(比如余弦相似度)越高，则这两条数据越相似，如果两条数据之间的距离(比如欧式距离等)越小，则这两条数据越相似。

具体地，在待去重数据库中直接储存大量临时未去重数据的特征信息，则数据去重装置在确定多条相似数据时，可以确定待去重数据库中，与目标数据的目标特征信息之间的第一距离或第一相似度在预置范围内的多组相似特征信息，而每一组相似特征信息对应一条相似数据。一般是将待去重数据库中储存的特征信息按照与目标数据的目标特征信息之间的第一距离或第一相似度进行排序，并将第一距离小于预设距离的多组特征信息作为上述多组相似特征信息，或将第一相似度大于预设相似度的多组特征信息作为上述多组相似特征信息。其中，第一距离小于预设距离的多组特征信息可以为第一距离最小的多组特征信息，第一相似度大于预设相似度的多组特征信息可以为第一相似度最大的多组特征信息。所述预设距离和预设相似度可根据具体情况确定。

其中，任一条数据的特征信息(包括目标特征信息和相似特征信息)可以采用多种形式的特征信息，比如原始的嵌入(Embedding)向量特征，即将数据的特征压缩到特定维度的连续向量，或是对原始Embedding向量进行降维或压缩后的向量特征等。

需要说明的是，这里任一条数据的特征信息可以是由特征提取模型得到，而特征提取模型在提取任一条数据的特征信息时，可以包括多层提取单元，这多层提取单元串联连接，即某一层提取单元得到的特征信息输出到下一层提取单元中，而本实施例中，在计算第一距离或第一相似度时所用到的特征信息可以是任一层提取单元得到的特征信息。

上述特征提取模型具体为基于人工智能的机器学习模型。其中，人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

而机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

另外，需要说明的是，上述步骤101中确定的相似数据主要是基于两条数据之间的绝对相似参数值来确定的，但是只是基于绝对相似参数值来确定重复数据时不是很准确，比如，两个游戏类的视频，由于背景十分相似，它们之间的相似度可能高于0.9，但实际并非同一视频，而两个重复的视频，由于增加编辑，增加花边等操作，使得它们之间的相似度可能低于0.9，但实际却是重复的视频。因此，本实施例中，首先基于相似参数值粗略地确定出多条相似数据，再进一步地对这些相似数据进行如下步骤的操作，从而确定出目标数据的重复数据。

在实际应用中，上述的目标数据与相似数据可以是图片数据，或是视频数据等，在这里并不限定数据的具体形式。

步骤102，确定目标数据对应的基准相似参数，基准相似参数用于指示目标数据与已去重数据中最相似数据之间的相似程度。

具体地，数据去重装置可以计算目标数据的目标特征信息与已去重数据库中较为相似的数据的特征信息之间的相似程度，具体地，基准相似参数可以是这些最相似数据与目标数据之间的相似参数值(比如距离或相似度等)的平均值，或中位数，或是一个区间分布值比如(a，b)的区间值。

需要说明的是，针对上述步骤101和102，在具体实现过程中，数据去重装置可以设置两个数据库，即待去重数据库和已去重数据库，两个数据库中都分别储存有多条数据的特征信息，比如浮子(float)embedding向量特征等，相比在数据库中直接储存原始数据，可以大幅地降低存储数量和资源使用量。不同的是，已去重数据库是较大规模且相对干净的数据库，储存大量已去重数据的特征信息，这些特征信息对应的原始数据(比如图片或视频)之间没有重复数据或重复数据较少；而待去重数据库中储存大量临时的未去重数据分别对应的特征信息。

这样，数据去重装置在执行步骤102时，会计算目标特征信息分别与已去重数据库中每一条数据的特征信息之间的第二距离或第二相似度，并选择与目标特征信息之间的第二距离小于预设距离的多组特征信息或者选择与目标特征信息之间的第二相似度大于预设相似度的多组特征信息，计算这多组特征信息对应的第二距离或第二相似度的平均值、中位数或区间分布值。这样，数据去重装置确定的基准相似参数就可以描述目标数据与已去重数据库中较为相似的数据之间的相似程度，其中，这些较为相似的数据中没有重复数据或重复数据较少。其中，第二距离小于预设距离的多组特征信息可以为第二距离最小的多组特征信息，第二相似度大于预设相似度的多组特征信息可以为第二相似度最大的多组特征信息。所述预设距离和预设相似度可根据具体情况确定。

其中，上述步骤101中得到的多组相似特征信息的数量大于步骤102中得到的多组特征信息的数量，这多组特征信息是与目标特征信息之间的第二距离小于预设距离或第二相似度大于预设相似度的特征信息，比如在执行步骤102时得到20组特征信息，而在上述步骤101中得到200组相似特征信息。

实践证明，当上述已去重数据库中特征信息的存储量是百万级别时，确定的基准相似参数在不同条件下会相对稳定，且该基准相似参数能忍耐已去重数据库存在一定重复数据的干扰。

步骤103，根据多条相似数据中各相似数据对应的相似参数值与基准相似参数之间的差值，确定多条相似数据中与目标数据重复的相似数据，即目标数据的重复数据。

具体地，一种情况下，当基准相似参数为一个数值时，比如为平均值或中位数时，则相似数据对应的相似参数值与基准相似参数的绝对差值大于阈值时，相似数据为与目标数据重复的相似数据。其中，绝对差值为相似数据对应的相似参数值与基准相似参数之间的差值的绝对值。

如果基准相似参数为区间分布值，则当相似数据的相似参数值与该区间中的最小值(或最大值)之间的绝对差值是否大于阈值时，相似数据为与目标数据重复的相似数据。其中，是将相似数据的相似参数值与区间的最大值比较，还是将相似数据的相似参数值与区间的最小值比较，主要是由区间的宽度及相似参数值的具体形式来决定，其中区间的宽度为区间的最大值与最小值之间的差值，比如，上述相似参数值为数据之间的相似度，当区间的宽度大于某一值，则将相似数据的相似参数值与区间的最大值比较，当区间的宽度小于某一值，则将相似数据的相似参数值与区间的最小值比较；又比如，上述相似参数值为数据之间的距离，则当区间的宽度大于某一值，则将相似数据的相似参数值与区间的最小值比较，当区间的宽度小于某一值，则将相似数据的相似参数值与区间的最大值比较。

可以理解，对于目标数据来说，如果基于目标数据与其它数据之间的绝对相似参数值来确定与目标数据重复的相似数据时，确定的结果不是很准确，例如，两条数据之间的相似度大于0.95时，并不能说明这两条数据重复，同样，两条数据之间的相似度小于0.9时，也不能说明这两条数据不重复。但是，对于同一目标数据，与该目标数据较为相似的数据之间的相对相似参数值是可以一定程度来描述该目标数据的重复数据，例如，与目标数据A最相似的数据为B、C、D和E，它们与目标数据A之间的相似度分别是0.92,0.90,0.8,0.7，此时，目标数据A与数据B、C的相似程度大于目标数据A与数据D、E的相似程度，同时，目标数据A与数据B、C重复的概率会大于目标数据A与数据D、E重复的概率。

因此，本实施例中，采用与目标数据较为相似的数据之间的相对相似参数值来确定目标数据的重复数据，较为准确，具体体现为根据相似数据对应的相似参数值与基准相似参数之间的差值来确定与目标数据重复的相似数据。如果某一目标数据与其相似数据之间的相似参数值和基准相似参数相比之下，如果存在显著的差距，则该相似数据有非常大的概率是与目标数据重复的相似数据。

以数据之间的相似参数值为相似度为例来说明，例如图3中所示为目标数据与已去重数据库中较为相似的数据之间的相似度的分布，可以看出，在第(1)次数据去重流程中，当根据与目标数据较为相似的20条数据对应的相似度确定了基准相似参数，具体为这20条数据对应的相似度的中位数，某一条相似数据与目标数据之间的相似度显著地高于基准相似参数，则该条相似数据为与目标数据重复的相似数据；在第(2)次数据去重流程中，当根据与目标数据较为相似的20条数据对应的相似度确定了基准相似参数后，各条相似数据与目标数据之间的相似度与基准相似参数比较，其中的极值与基准相似参数之间的差别不是很大，则这些相似数据都不是与目标数据重复的相似数据。

另一种情况下，数据去重装置在根据该差值确定相似数据是否为与目标数据重复的相似数据时，也可以根据该差值及预置的分类模型来确定，这里预置的分类模型是基于人工智能的机器学习模型，可以根据一定的训练方法得到，并将其运行逻辑预置到数据去重装置中的。

其中，在训练分类模型时，确定的训练样本可以包括：多组正样本和多组负样本，正样本中包括两条重复的样本数据及是重复数据的第一标注信息，负样本中包括两条不重复的样本数据及不是重复数据的第二标注信息，在训练的过程中，分类模型会根据每组样本数据之间的相似度与其中一条样本数据的基准相似参数之间的差值，得到每组样本中两条样本数据是否为重复数据的结果。其中，样本数据的基准相似参数的获取见上述实施例中所述，在此不进行赘述。

步骤104，对多条相似数据中与目标数据重复的相似数据进行去重处理，比如删除，或者为任一相似数据打去重标签等。

以下以一个具体的应用实例来说明本发明的数据去重方法，本实施例的方法具体应用于储存视频的系统中，具体地，目标数据为视频数据，待去重数据库和已去重数据库都可以为Faiss数据库，这里Faiss数据库是用于高效相似性搜索和密集矢量聚类的库，具体如图4所示，本实施例的数据去重方法包括如下步骤：

步骤201，用户通过操作视频客户端，使得视频客户端向视频后台上传视频，而视频后台针对接收的新视频，按照一定的周期，将新视频作为目标视频，发起对待去重数据库的数据去重。

其中，待去重数据库中具体储存有大量临时的未去重的视频数据的特征信息。

步骤202，视频后台获取目标视频的目标特征信息，计算目标特征信息分别与待去重数据库中储存的每一条视频数据的特征信息之间的相似参数值，在本实施例中，具体为第一相似度，并将第一相似度最高的多组(比如m1组)特征信息作为目标视频的相似特征信息。其中，每组相似特征信息对应待去重数据库中的一条相似数据。

步骤203，视频后台计算目标特征分别与待已去重数据库中储存的每一条视频数据的特征信息之间的第二相似度，并选择第二相似度最高的多组(比如m2组)特征信息，再计算这多组特征信息的第二相似度的平均值，则该平均值为目标视频的基准相似参数。这里m2小于上述m1，比如m2取20，m1取200。

具体地，假设视频后台获取到的m2个特征信息对应的第二相似度为余弦相似度，记为sim_score，则计算的基准相似参数base_score可以通过如下公式1来表示：

步骤204，视频后台计算上述步骤202得到的每一条相似数据的相似特征信息对应的第一相似度分别与步骤203得到的基准相似参数的差值，并根据计算的差值分别确定各相似数据是否为与目标视频重复的相似数据。

步骤205，视频后台根据上述步骤204确定的每一条相似数据是否为与目标视频重复的相似数据，对待去重数据库中的与目标视频重复的相似数据进行去重操作，比如打重复标签，或删除等。

可见，本实施例中，在待去重数据库和已去重数据库中直接储存各条视频的特征信息，比如embedding向量特征等，相对于直接储存原始视频数据，本实施例中数据库的存储压力和资源消耗仅为后者的千分之一到十分之一之间；其次，本实施例中使用视频数据之间的相对相似参数值，克服了通用绝对相似参数不能很好地衡量视频之间相似情况的缺陷，使本实施例中的方法能够有较低的应用成本。

以下以另一具体的应用实例来说明本发明中数据去重方法，本发明实施例中的数据去重装置主要为分布式系统100，该分布式系统可以包括客户端300及多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)，客户端300与节点200之间通过网络通信的形式连接。

以分布式系统为区块链系统为例，参见图5是本发明实施例提供的分布式系统100应用于区块链系统的一个可选的结构示意图，由多个节点200(接入网络中的任意形式的计算设备，如服务器、用户终端)和客户端300形成，节点之间形成组成的点对点(P2P，Peer ToPeer)网络，P2P协议是一个运行在传输控制协议(TCP，Transmission Control Protocol)协议之上的应用层协议。在分布式系统中，任何机器如服务器、终端都可以加入而成为节点，节点包括硬件层、中间层、操作系统层和应用层。

参见图5示出的区块链系统中各节点的功能，涉及的功能包括：

1)路由，节点具有的基本功能，用于支持节点之间的通信。

节点除具有路由功能外，还可以具有以下功能：

2)应用，用于部署在区块链中，根据实际业务需求而实现特定业务，记录实现功能相关的数据形成记录数据，在记录数据中携带数字签名以表示任务数据的来源，将记录数据发送到区块链系统中的其它节点，供其它节点在验证记录数据来源以及完整性成功时，将记录数据添加到临时区块中。

在本实施例中，节点中的应用可以包括实现数据去重功能的代码，该数据去重功能主要包括：

确定待去重数据中与目标数据之间的相似参数值在预置范围内的多条相似数据；确定所述目标数据对应的基准相似参数，所述基准相似参数用于指示所述目标数据与已去重数据中最相似数据之间的相似程度；根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据；对所述多条相似数据中与所述目标数据重复的相似数据进行去重处理。

3)区块链，包括一系列按照产生的先后时间顺序相互接续的区块(Block)，新区块一旦加入到区块链中就不会再被移除，区块中记录了区块链系统中节点提交的记录数据。

参见图6为本发明实施例提供的区块结构(Block Structure)一个可选的示意图，每个区块中包括本区块存储交易记录的哈希值(本区块的哈希值)、以及前一区块的哈希值，各区块通过哈希值连接形成区块链。另外，区块中还可以包括有区块生成时的时间戳等信息。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了相关的信息，用于验证其信息的有效性(防伪)和生成下一个区块。

本发明实施例还提供一种数据去重装置，其结构示意图如图7所示，具体可以包括：

相似确定单元10，用于确确定待去重数据中与目标数据之间的相似度在预置范围内的多条相似数据。

基准确定单元11，用于确定所述目标数据对应的基准相似参数，所述基准相似参数用于指示所述目标数据与已去重数据中最相似数据之间的相似程度。

基准确定单元11，具体用于确定所述待去重数据中与所述目标数据的目标特征信息之间的第一距离或第一相似度在预置范围内的多组相似特征信息，则任一组相似特征信息对应一条相似数据，其中，所述待去重数据库中包括多条数据的特征信息。

基准确定单元11，具体用于计算所述目标数据的目标特征信息分别与已去重数据库中每一条数据的特征信息之间的第二距离或第二相似度；选择与所述目标特征信息之间的第二距离小于预设距离的多组特征信息或者选择与所述目标特征信息之间的第二相似度大于预设相似度的多组特征信息；统计所述多组特征信息对应的第二距离或第二相似度的平均值、中位数或区间分布值。其中，所述多组相似特征信息的数量大于与所述多组特征信息的数量，所述多组特征信息为与目标特征信息之间的第二距离小于预设距离或第二相似度大于预设相似度的多组特征信息的数量。

重复确定单元12，用于根据所述相似确定单元10确定的多条相似数据中各相似数据对应的相似参数值与所述基准确定单元11确定的基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据。

去重单元13，用于对所述重复确定单元12确定的多条相似数据中与所述目标数据重复的相似数据进行去重处理。

所述重复确定单元12，具体用于当所述相似数据对应的相似参数值与所述基准相似参数的绝对差值大于阈值时，所述相似数据为与所述目标数据重复的相似数据；或者，所述重复确定单元12，具体用于根据所述相似数据对应的相似参数值与所述基准相似参数的绝对差值与预置的分类模型，确定所述多条相似数据中与目标数据重复的相似数据。

可见，在本实施例的装置中，重复确定单元12在确定待去重数据中与目标数据重复的数据时，主要是采用相对相似参数值来确定，其中，相对相似参数值为：与目标数据之间的相似参数值在预置范围内的相似数据的相似参数值，与目标数据的基准相似参数之间的差别，实践证明，本实施例中的相对相似参数值更能准确地对目标数据与其重复数据之间关系进行描述，因此，确定出的重复数据更准确。

本发明实施例还提供一种服务器，其结构示意图如图8所示，该服务器可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(centralprocessing units，CPU)20(例如，一个或一个以上处理器)和存储器21，一个或一个以上存储应用程序221或数据222的存储介质22(例如一个或一个以上海量存储设备)。其中，存储器21和存储介质22可以是短暂存储或持久存储。存储在存储介质22的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中的一系列指令操作。

具体地，在存储介质22中储存的应用程序221包括数据去重的应用程序，且该程序可以包括上述数据去重装置中的相似确定单元10，基准确定单元11，重复确定单元12和去重单元13，在此不进行赘述。更进一步地，中央处理器20可以设置为与存储介质22通信，在服务器上执行存储介质22中储存的数据去重的应用程序对应的一系列操作。

服务器还可以包括一个或一个以上电源23，一个或一个以上有线或无线网络接口24，和/或，一个或一个以上操作系统223，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM等等。

上述方法实施例中所述的由上述数据去重装置所执行的步骤可以基于该图8所示的服务器的结构。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行上述数据去重装置所执行的数据去重方法。

本发明实施例另一方面还提供一种服务器，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行上述数据去重装置所执行的数据去重方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM)、随机存取存储器(RAM)、磁盘或光盘等。

以上对本发明实施例所提供的一种数据去重方法、装置及存储介质和终端设备进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种数据去重方法，其特征在于，包括：

对所述多条相似数据中与所述目标数据重复的相似数据进行去重处理。

2.如权利要求1所述的方法，其特征在于，所述确定待去重数据中与目标数据之间的相似参数值在预置范围内的多条相似数据，具体包括：

确定待去重数据库中与所述目标数据的目标特征信息之间的第一距离或第一相似度在预置范围内的多组相似特征信息，则任一组相似特征信息对应一条相似数据，其中，所述待去重数据库中包括多条数据的特征信息。

3.如权利要求2所述的方法，其特征在于，所述确定所述目标数据对应的基准相似参数，具体包括：

计算所述目标数据的目标特征信息分别与已去重数据库中每一条数据的特征信息之间的第二距离或第二相似度；

选择与所述目标特征信息之间的第二距离小于预设距离的多组特征信息或者选择与所述目标特征信息之间的第二相似度大于预设相似度的多组特征信息；

统计所述多组特征信息对应的第二距离或第二相似度的平均值、中位数或区间分布值。

4.如权利要求3所述的方法，其特征在于，

所述多组相似特征信息的数量大于所述多组特征信息的数量，所述多组特征信息与所述目标特征信息之间的第二距离小于预设距离或第二相似度大于预设相似度。

5.如权利要求4所述的方法，其特征在于，所述目标数据为视频数据或图片数据。

6.如权利要求4所述的方法，其特征在于，所述待去重数据库和已去重数据库中包括的数据的特征信息为：视频数据的原始嵌入向量特征或图片数据的原始嵌入向量特征。

7.如权利要求4所述的方法，其特征在于，所述待去重数据库和已去重数据库中包括的数据的特征信息为：视频数据的降维或压缩后的嵌入向量特征，或图片数据的降维或压缩后的嵌入向量特征。

8.如权利要求1至7任一项所述的方法，其特征在于，所述根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据，具体包括：

当所述相似数据对应的相似参数值与所述基准相似参数的绝对差值大于阈值时，所述相似数据为与所述目标数据重复的相似数据。

9.如权利要求1至7任一项所述的方法，其特征在于，所述根据所述多条相似数据中各相似数据对应的相似参数值与所述基准相似参数之间的差值，确定所述多条相似数据中与所述目标数据重复的相似数据，具体包括：

根据所述相似数据对应的相似参数值与所述基准相似参数的绝对差值与预置的分类模型，确定所述相似数据是否为与目标数据重复的相似数据。

10.一种数据去重装置，其特征在于，包括：

11.如权利要求10所述的装置，其特征在于，

所述重复确定单元，具体用于当所述相似数据对应的相似参数值与所述基准相似参数的绝对差值大于阈值时，所述相似数据为与所述目标数据重复的相似数据；或者，

所述重复确定单元，具体用于根据所述相似数据对应的相似参数值与所述基准相似参数的绝对差值与预置的分类模型，确定所述相似数据与所述目标数据重复的相似数据。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质储存多个计算机程序，所述计算机程序适于由处理器加载并执行如权利要求1至9任一项所述的数据去重方法。

13.一种服务器，其特征在于，包括处理器和存储器；

所述存储器用于储存多个计算机程序，所述计算机程序用于由处理器加载并执行如权利要求1至9任一项所述的数据去重方法；所述处理器，用于实现所述多个计算机程序中的各个计算机程序。