CN108536753A

CN108536753A - 重复信息的确定方法及相关装置

Info

Publication number: CN108536753A
Application number: CN201810206487.7A
Authority: CN
Inventors: 余宗桥
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-13
Filing date: 2018-03-13
Publication date: 2018-09-14
Anticipated expiration: 2038-03-13
Also published as: CN108536753B

Abstract

本申请实施例公开了一种重复信息的确定方法及相关装置，属于信息处理领域。该方法包括：获得待去重文件集合；提取该集合中每个文件的特征量，并将至少一个文件作为聚类中心，针对每一个聚类中心，执行：计算各个文件与聚类中心的特征量的特征相似度；以各个文件与该聚类中心的特征相似度的大小顺序，将各个文件排序为一个文件序列；并，在文件序列中，以每一个文件为基准文件分别执行：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。本申请实施例仅在指定序列长度内查找基准文件的重复文件，相对于遍历所有文件能够减少计算量提高效率。

Description

重复信息的确定方法及相关装置

技术领域

本申请实施例涉及信息处理技术领域，特别涉及重复信息的确定方法及相关装置。

背景技术

随着数字化和网络技术的不断发展，企业或个人接触的信息量日益增长。在庞大的信息网中，重复的信息给人们来带诸多不便。例如，提供信息的企业，存储重复的信息造成存储资源的浪费。对于个人而言，查看重复的信息还造成时间成本的增加。故此，如何更有效的管理或运用信息成为业内渴望解决的问题。因而，衍生出了确定重复信息的技术。

现有技术中，以信息为图像为例，通常首先计算图像的哈希值，然后针对任一图像，遍历所有其他图像，将具有相同哈希值的图像确定为重复图像。

然而，上述方法中，随着信息量的增加，遍历操作会加重处理负荷，导致确定重复信息的效率有待提高。

发明内容

为了解决通过遍历所有信息确定重复信息而导致处理效率低的问题，本申请实施例提供了重复信息的确定方法及相关装置。所述技术方案如下：

根据本申请实施例的第一方面，提供了一种重复信息的确定方法，该方法包括：

获得待去重文件集合；

提取待去重文件集合中每个文件的特征量，并将至少一个文件作为聚类中心，针对每一个聚类中心，执行：

计算各个文件与聚类中心的特征量的特征相似度；

以各个文件与该聚类中心的特征相似度的大小顺序，将各个文件排序为一个文件序列；并，

在文件序列中，以每一个文件为基准文件分别执行：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。

在一些可能的实施方式中，所述提取待去重文件集合中每个文件的特征量，包括：

根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。

在一些可能的实施方式中，采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。

在一些可能的实施方式中，所述提取待去重文件集合中每个文件的特征量，包括对待去重文件集合中的每一个文件分别按照下述步骤提取特征量：

对文件进行DCT(Discrete Cosine Transform，离散余弦)变换；

对DCT变换的结果采用预设计算模型进行计算；

对计算结果进行二进制编码，将编码结果作为提取的特征量。

在一些可能的实施方式中，所述计算各个文件与聚类中心的特征量的特征相似度，包括：

计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。

所述计算各个文件与聚类中心的特征量的特征相似度，包括：

在一些可能的实施方式中，计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。

在一些可能的实施方式中，所述方法还包括：

为确定出重复文件的基准文件构建重复文件组，其中，每个重复文件组中包括基准文件标识，该基准文件的重复文件的文件标识；

对重复文件组进行合并，合并后的每个重复文件组中的文件标识不重复，且任两个重复文件组之间没有交集；

将所有合并后的重复文件组中包含的文件标识所对应的文件，存储为已经去重的文件组。

在一些可能的实施方式中，所述方法还包括：

接收展示排重结果的展示请求；

按照重复文件数量多少的顺序依次输出已经去重的文件组。

在一些可能的实施方式中，所述方法还包括：

从待去重文件集合中随机选取指定数量的文件作为聚类中心。

根据本申请实施例的第二方面，提供了一种重复信息的确定装置，所述装置包括：

文件获取模块，用于获得待去重文件集合；

特征量提取模块，用于提取待去重文件集合中每个文件的特征量，

处理模块，用于将至少一个文件作为聚类中心，针对每一个聚类中心，执行：计算各个文件与聚类中心的特征量的特征相似度；以各个文件与该聚类中心的特征相似度的大小顺序，将各个文件排序为一个文件序列；并，在文件序列中，以每一个文件为基准文件分别执行：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。

在一些可能的实施方式中，特征量提取模块根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。

在一些可能的实施方式中，处理模块用于采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。

在一些可能的实施方式中，处理模块用于对待去重文件集合中的每一个文件分别按照下述步骤提取特征量：对文件进行DCT变换；对DCT变换的结果采用预设计算模型进行计算；对计算结果进行二进制编码，将编码结果作为提取的特征量。

在一些可能的实施方式中，处理模块用于计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。

在一些可能的实施方式中，该装置还包括：

组构建模块，用于为确定出重复文件的基准文件构建重复文件组，其中，每个重复文件组中包括基准文件标识，该基准文件的重复文件的文件标识；

合并模块，用于对重复文件组进行合并，合并后的每个重复文件组中的文件标识不重复，且任两个重复文件组之间没有交集；

存储模块，用于将所有合并后的重复文件组中包含的文件标识所对应的文件，存储为已经去重的文件组。

在一些可能的实施方式中，该装置还包括：

接收模块，用于接收展示排重结果的展示请求；

输出模块，用于按照重复文件数量多少的顺序依次输出已经去重的文件组。

在一些可能的实施方式中，该装置还包括：

聚类中心选择模块，用于从待去重文件集合中随机选取指定数量的文件作为聚类中心。

本申请另一实施例还提供了一种计算设备，其包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行本申请实施例中的任一重复信息的确定方法。

本申请另一实施例还提供了一种计算机存储介质，其中，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行本申请实施例中的任一重复信息的确定方法。

本申请实施例中，基于类似文件的特征类似，且与聚类中心相比，类似文件与聚类中心的特征相似度也几乎相同，所以首先根据各文件与聚类中心的特征相似度大小对各文件进行排序后，类型文件在序列中的位置基本集中。所以在排序序列中，针对每个文件只需在以其为基准的指定序列长度内查找重复文件即可，这样，重复文件的查找缩小的指定序列长度内，而不是遍历所有文件，故此可以提高确定重复文件的效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一个实施例提供的重复信息的确定方法的架构图之一；

图2示出了本申请一个实施例提供的重复信息的确定方法的架构图之二；

图3示出了本申请一个实施例提供的重复信息的确定方法的流程示意图之一；

图4示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之一；

图5示出了本申请一个实施例提供的信息序列的示意图；

图6示出了本申请一个实施例提供的深度卷积神经网络的结构示意图；

图7示出了本申请一个实施例提供的自动编码器的结构示意图；

图8示出了本申请一个实施例提供的合并重复信息组的示意图；

图9示出了本申请一个实施例提供的重复信息的确定方法的流程示意图之二；

图10示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之二；

图11示出了本申请一个实施例提供的重复信息的确定方法的操作界面示意图之三；

图12示出了本申请一个实施例提供的重复信息的确定装置的结构示意图；

图13示出了本申请一个实施例提供的服务器的结构示意图；

图14示出了本申请一个实施例提供的终端的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

为了方便理解，下面对本申请实施例中涉及的名词进行解释：

文件，能够数字化传输和处理的对象，本申请实施例中主要指以下中的至少一种：音频、图像、文本、多媒体文件等。

特征相似度，两文件之间的特征相似度能够表征两文件的相似程度，特征相似度越高表示两文件为同一文件的可能性越高，反之，特征相似度越低，表示两文件为同一文件的可能性越低。

深度卷积神经网络模型，基于深度学习技术的一种模型，能够提取文件的高级语义特征。以图像为例，图像的颜色特征和灰度直方图为图像的低级特征，然而图像的全局表示和局部细节表示可以为图像的高级语义特征。例如，高级语义特征能够识别图像局部内容，例如识别出图像中包括背着书包的小朋友而不是简单分析出图像的颜色。

自动编码器，一种无监督的神经网络模型，可以学习到输入数据的隐含特征，称为编码(coding)，同时用学习到的新特征可以重构出原始输入数据，称之为解码(decoding)，通过调整编码和解码的参数可以训练出能够准确识别出数据特征的自动编码器。

余弦距离，也称为余弦相似度，即采用夹角法计算的相似度值。具体的，是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量，余弦距离越大表征两个个体越相似，反之，余弦距离越小表征两个个体的差异越大。

接下来对本申请的基本原理做简要说明：本申请实施例为了提高确定重复文件的效率，从待去重文件集合中选择一些文件作为聚类中心。由于重复文件具有类似的特征，其与聚类中心的特征相似度几乎无差距，故此，针对每个聚类中心，根据各文件与该聚类中心的特征相似度对各文件进行排序后，类似的文件将在序列中集中在一起。故此，可以在一定序列长度内查找重复文件。所以，针对序列中各文件而言，其查找重复文件的范围限定在一定的序列长度内，而不是将其与所有的其他文件进行比对，故此能够减少比对的数量，提高确定重复文件的效率。

下面对本申请实施例能够适用的应用场景做一些简单介绍，需要说明的是，该应用场景仅用于说明本申请实施例而非限定。具体实施时，可以根据实际需要应用本申请实施例提供的技术方案。

参考图1，其为本申请实施例提供的应用场景示意图之一，该场景例如可以包括用户10、终端设备11和服务器12。其中，所述终端设备11中可安装有各种客户端，如用于存储和浏览文件的客户端、相册管理客户端等等。其中，客户端中可存储有需要确定重复的文件。该文件例如是套图、日常的自拍图片、连拍图片、从网上下载的多篇文献，多个网页等等。终端设备11的客户端和服务器12建立通信连接后，可以将需要确定重复的文件发送给服务器12，由服务器执行本申请的方案确定出重复文件。然后由服务器12将确定的重复文件发送给终端设备11显示。

当然具体实施时，上述方案可以理解为一种在线确定重复文件的方案，具体实施时，也可以由终端设备11采用离线的方式执行本申请的技术方案。

需要说明的是，具体实施时，还可以采用部分由终端设备11执行、部分由服务器12执行，例如特征量的提取可以由服务器在线完成，剩下的操作可以由终端设备11完成。

其中，终端设备11和服务器12可通过通信网络进行通信连接，该网络可以为局域网、广域网等。终端设备11可以为手机、平板电脑、笔记本电脑、个人计算机等。

参考图2，其为本申请实施例提供的另一应用场景示意图。该场景中包括一个或多个文件存储服务器20，以及用于确定重复文件的服务器21。文件存储服务器20可以为客户提供云存储的服务器，也可以是提供海量文件的搜索服务器，例如提供在线文献检索的企业将收集的海量文献存储在文件存储服务器20中。具体实施时，服务器21获取文件存储服务器20中的文件，并执行本申请的方案确定出重复文件，然后可以根据自定义的排重策略，将重复文件删除。

为便于进一步说明本申请实施例提供的技术方案，下面结合具体实施例对此作进一步说明。

参考图3，其为本申请实施例提供的重复信息的确定方法的流程示意图，包括：

步骤301：获得待去重文件集合。

步骤302：提取待去重文件集合中每个文件的特征量。

其中，在一个实施例中，文件的类型一般是相同的，文件类型可以为以下中的任一种：图片、音频、文本、多媒体等。

步骤303：在待去重文件集合中确定出N个聚类中心。

具体实施时，可以配置交互界面，为用户提供指定聚类中心的功能。如图4所示，假设处理的文件为图像，以手机为载体对该界面进行说明。图4中，用户可以输入需要的聚类中心数量(如图中的4)，并可从下面显示的图片中选择作为聚类中心的图片，例如图4中标有选中标识的图1和图8表示被选择为聚类中心。这样，用户可以根据自己的需求确定聚类中心的数量以及指定聚类中心。

当然，具体实施时，聚类中心的数量也可以根据待去重文件集合中的文件量来确定。例如，可以设定取值在0-1之间的比例系数，使用比例系数乘以文件总数量，得到聚类中心的个数。当然，具体实施时，聚类中心的个数如何计算，可以根据实际需求确定合理的计算公式，对此不作限定。此外，聚类中心的数量也可以由随机数来确定，例如产生的随机数为3则需要确定三个聚类中心。

进一步的，在大数据量的情况下，人工难以指定哪个文件作为聚类中心，为克服该问题同时还要保证选择的聚类中心的合理性，本申请实施例中可以从待去重文件集合中随机选取指定数量的文件作为聚类中心。随机选取时，可以采用预置的随机函数，具体的随机函数可以根据现有技术确定，这里不做限定。由于聚类中心随机选取，在概率上能够尽可能使得聚类中心之间有明显的区别，使得后续步骤303中根据聚类中心进行排序时得到的文件序列尽可能不同。

步骤304：针对每一个聚类中心，依据各个文件与该聚类中心的特征相似度的大小顺序，将所有文件排列为一个文件序列。

在排序时，可以按照特征相似度由大到小的顺序排序，也可以按照由小到大的顺序，本申请对此不作限定。

步骤305：针对每一个文件序列，分别以其中一个文件作为基准序列，在包含该基准文件的指定序列长度内确定基准文件的重复文件。

在步骤303中可能得到多个文件序列，继而在步骤304中，每一个文件序列，都需要遍历所有文件进行查重。查重时可以采用特征相似度进行判断，即：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。

假设文件数量为Q，那么现有技术中比对数量为

根据上述四个步骤，假设聚类中心有N个，以聚类中心将所有文件组合为N个文件序列，在每个文件序列中顺次遍历所有文件进行查重。每个基准序列需要和指定长度为M的文件进行对比，则针对一个聚类中心，考虑到排序在前和在后的几个文件的对比数量小于M，则一个文件系列中，文件之间的对比数量不大于Q*M，所有N个文件序列查重完成后，文件之间的对比数量不大于N*Q*M，所有聚类中心的对比数量不大于Q*N，则本申请中总的比对数量不大于(N+1)*Q*M。与现有技术相比，比对数量能够减少的数量设为y，y值如下公式(1)：

因为N和M均为常数，所以上述公式(1)可看做为二次函数，该二次函数形状为抛物线。根据二次函数性质，该抛物线的对称轴为故此，若使y≥0，则：

Q≥2*(N+1)*M+1 (2)

由于二次项的系数为故此，该抛物线开口朝上，则Q值越大，y值越大。由于二次项系数较小，所以开口较小，那么随着Q值的增加，y值将急剧增加。故此，在海量文件的情况下，本申请能够极大的减少计算量。

故此，聚类中心的数量可以根据公式(2)中，Q、M、N三者之间的关系来确定。

当然，具体实施时，聚类中心的具体数量可以根据待去重文件集合中的文件量来确定。例如，可以设定比例系数，使用比例系数乘以文件总数量，得到聚类中心的个数。当然，具体实施时，聚类中心的个数如何计算，可以根据实际需求确定合理的计算公式，对此不作限定。此外，聚类中心的数量也可以由随机数来确定，例如产生的随机数为3则需要确定三个聚类中心。

关于哪些文件作为聚类中心，具体实施时，可以配置交互界面，为用户提供指定聚类中心的功能。如图4所示，假设处理的文件为图像，以手机为载体对该界面进行说明。图4中，用户可以输入需要的聚类中心数量(如图中的4)，并可从下面显示的图片中选择作为聚类中心的图片，例如图4中标有选中标识的图1和图8表示被选择为聚类中心。这样，用户可以根据自己的需求确定聚类中心的数量以及指定聚类中心。

其中，在一个实施例中，预设条件为能够确定为重复文件的条件，具体实施时可包括以下两种方案：

方案1：根据设定预设阈值，确定的预设条件：

针对指定序列长度内的各文件：若该文件与基准文件的特征相似度大于或等于预设阈值，则确定该文件为基准文件的重复文件；否则，若该文件与基准文件的特征相似度小于预设阈值，则确定该文件并非为基准文件的重复文件；

或者，针对指定序列长度内的各文件：若该文件与基准文件的特征相似度大于预设阈值，则确定该文件为基准文件的重复文件；否则，若该文件与基准文件的特征相似度小于或等于预设阈值，则确定该文件并非为基准文件的重复文件；

方案2：根据特征相似度的等级范围确定的预设条件：

例如，假设特征相似度的值域为(0,1]，值越高代表相似程度越高。如表1所示，按照取值范围将相似度划分为三个等级，

表1

等级	特征像素的取值范围	说明
			A	[0.9,1]	相似程度非常高
B	[0.8,0.9)	相似程度一般高
			C	(0,08)	相似程度低

具体实施时，针对指定序列长度内的各文件：可以确定该文件与基准文件的特征相似度对应的等级，若该等级为指定等级(例如等级A或B)，则确定该文件为基准文件的重复文件，否则不为重复文件。

针对指定序列长度，例如，如图5所示假设文件序列中包括7个文件，分布命名为A、B、C、D、E、F、G指定序列长度为前后各2个文件，则在文件序列中以D为基准文件、得到4个文件分别为B、C、E、F。参照上述方案1，若B与D的特征相似度大于预设阈值，则确定B与D为重复文件，对C、E、F的处理以此类推，不再赘述。需要说明的是，指定序列长度可以为一固定值，也可以为根据文件序列的长度变化的值，例如取文件序列长度的百分之一为指定序列长度，本申请对此不作限定。

此外，背景技术中提及采用哈希值来确定重复文件，该方法还存在另一个问题，即：哈希值只能确定绝对重复的文件，其可能漏掉经过简单变换后的文件。例如，图像经过缩放和旋转之后得到的新图像，较原图没有实质性的改变，但是凭借哈希值不能确定为重复图像。有鉴于此，本申请实施例中可以根据以下方法提取特征量，可包括：

根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中各文件的特征。

其中，深度卷积神经网络模型的结构可如图6所示，该模型中包括convolution(卷积层)和pooling(池化层)以及fully connected(全连接层)。卷积层用于提取文件的特征，采用池化层将提取的特征进行降维处理并保留主要的特征，采用全连接层将提取的特征进行整合。图6所示的模型中包括两个卷积层、两个池化层和一个全连接层，其中卷积层和池化层交替连接，最后由全连接层得到最终提取的特征。具体实施时，深度卷积神经网络模型的结构可以根据实际需要进行设计，能够提取文件的高级语义特征即可，本申请对此不作限定。

自动编码器：将输入Inputs进行编码Encoder，得到新的特征，和神经网络结构一样，其编码就是线性组合之后加上非线性的激活函数。利用新的特征，可以对输入重构，即解码过程。并且希望重构得到的输出Outputs能够极大的近似Inputs。

这样，通过提取文件的高级语义特征，对于简单的文件变换，仍能够确定出重复文件，提高方案的鲁棒性。

其中，在一个实施例中，当特征量用向量形式表示时，在进行特征相似度计算时，可以采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。具体实施时，距离测度法中使用的距离为以下距离中的一种：马氏距离、欧式距离、明式距离、manhattan(曼哈顿)距离、Jffreys&Matusita(杰氏)距离、Camberra距离等；相似性函数法为以下中的任一种：夹角余弦法、相关系数法、广义Dice系数法、广义jaccard(杰卡德系数)系数法等。

上述列举的距离测度法均是比较成熟的距离测度法，其中，明式距离是距离的通用形式，欧式距离和manhattan距离都是其特殊形式。manhattan距离运算量较低，简单明了，且其对向量中的每个元素的误差都同等对待。欧氏距离能够在一定程度上放大较大元素的误差在距离测度中的作用。Jffreys&Matusita距离实在欧式距离的基础上能够放大较小元素误差在距离测度中的作用，其对欧式距离有所修正。Camberra距离做了自身的标准化，特别适合高度偏倚的数据。马氏距离计算时考虑了向量中各个元素之间的相关性。故，具体实施时，可以根据实际需要确定采用的距离。

而相似性函数法是用函数的方法来表征两向量相似的程度，较距离测度法应用广泛。在上述列举的相似性函数法中，其他方法都是夹角余弦法的衍变，为了计算效率一般采用夹角余弦法即可。在确定重复文件时，夹角余弦法计算出的结果可称为余弦距离，余弦距离越大表示两者越相似，反之，余弦距离越小表示两者越具有差异。当然，具体实施时，可以根据实际需求选择相应的特征相似度计算方法。

除了用向量表示文件的特征之外，本申请实施例中还可以采用编码结果表示文件的特征，具体的，可以对对待去重文件集合中的每一个文件进行DCT变换，对DCT变换的结果采用预设计算模型进行计算；对计算结果进行二进制编码，将编码结果作为提取的特征量。

综上可知，本申请实施例中提取的特征量既可以是用向量形式表示的特征向量，也可以是编码形式得到编码，故此，只要是能够衡量个体间特征相似度的特征均适用于本申请实施例。

而当用编码结果作为特征量时，计算各个文件与聚类中心的特征量的特征相似度可执行为：计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。

其中，预设计算模型为获得二进制编码服务，故此，该预设计算模型可以根据现有技术确定，本申请对此不作赘述。

需要说明的是，本申请实施例中采用海明距离的倒数，当然也可以采用与海明距离负相关的其他计算方法来表示特征相似度。

其中，在一个实施例中，由于各聚类中心单独执行操作，例如，在聚类中心T1对应的文件序列中确定出文件对<Ii,Ij>为重复文件，在聚类中心T2对应的文件序列中确定出文件对<Ii,Ik>为重复文件，那么<Ii,Ij,Ik>三者必然为重复文件。故此，依据各聚类中心得到的重复文件需要进一步整合，有鉴于此，本申请实施例中还包括整合重复文件的操作。整合重复文件的主要思路可以是：为确定出重复文件的基准文件构建重复文件组，其中，每个重复文件组中包括基准文件标识，该基准文件的重复文件的文件标识；对重复文件组进行合并，合并后的每个重复文件组中的文件标识不重复，且任两个重复文件组之间没有交集；将所有合并后的重复文件组中包含的文件标识所对应的文件，存储为已经去重的文件组。形象的来说可以理解为，为基准文件确定出重复文件之后，构建重复文件组；对重复文件组进行合并，实现重复文件组成员的扩大，直到合并后的各重复文件组不能再扩大，且没有相同成员为止。

举一个例子，开始构建重复文件组后，由所有文件队列对应的重复文件组构成队列。如图8所示(图中线连接的两集合为合并的集合)，假设队列中各重复文件组依次为<I1,I2>、<I4,I9>、<I2,I3,I4>、<I4,I5>、<I7,I8>。若以<I1,I2>为基准按照列出的顺序依次比对时，则<I1,I2>、<I4,I9>没有并集，故此，基准重复文件组没变，且<I4,I9>保留在队列中。比对<I2,I3,I4>后，重复文件组变为<I1,I2,I3,I4>，在队列中删除<I2,I3,I4>；继续比对<I4,I5>后，重复文件组成长为<I1,I2,I3,I4,I5>，并在队列中删除<I4,I5>；比对<I7,I8>后，重复文件组没有变化。由于这一轮比对后的重复文件组和队列均发生变化。新的队列变为<I1,I2,I3,I4,I5>、<I4,I9>、<I7,I8>，经过再一轮比对后，最终的重复文件组为<I1,I2,I3,I4,I5,I9>和<I7,I8>。

此外，在本申请实施例中，为了便于用户了解重复文件的确定结果，确定新的重复文件组为最终重复文件组之后，还可以：接收展示排重结果的展示请求；按照重复文件数量多少的顺序依次输出最终的重复文件组。

以用户管理自己的云相册为例，对本申请实施例提供的重复信息的确定方法做进一步说明，如图9所示，终端与服务器建立连接后，服务器为终端的图片进行排重，可实现为：

步骤901：终端接收将云相册的指定文件夹下的图片传送给服务器的指令后，将指定文件夹下的图片发送给服务端。

其中，选择需要排重的图片的交互界面可以如图10所示。选择需要去重的文件夹1之后，点击上传按钮即将待去重图片上传给服务端。

步骤902：服务器接收到图片后，提取各图片的特征量。

步骤903：服务器从图片中随机选择4张图片作为聚类中心，并针对每一个聚类中心，执行：计算各图片与聚类中心的特征量的特征相似度；以各图片与该聚类中心的特征相似度的由大到大小的顺序，将各图片排序为一个图片序列；并，在图片序列中，以每一图片为基准文件分别执行：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度大于预设阈值的图片确定为该基准文件的重复图片。

步骤904：服务器构建重复文件组，进行重复文件整合操作得到最终重新文件组。

步骤905：服务器确定各最终重复文件组的文件数量，按照数量由多到少的顺序将最终重复文件组发送给终端。

步骤906：终端接收最终重复文件组并展示。

其中，展示结果图，可如图11所示。

综上所述，本申请实施例中，提出一种合理的假设，即通过聚类中心对文件进行排序，与聚类中心特征越相似的离聚类中心越近，否则离聚类中心越远，这样，根据与聚类中心的相似程度对文件进行排序后，类似文件能够在序列中集中在一起。那么，为文件查找重复文件时，就可以该文件为基准文件，在一定序列长度内查找，而无需遍历所有文件。这样，能够减少计算量，提高确定重复文件的效率。

此外，本申请实施例中，由于各操作的耦合度低，可以采用并行处理的思想加快处理速度。例如深度卷积神经网络的训练可以采用GPU(Graphics Processing Uni，图形处理器)来完成。提取图像的特征之后，针对聚类中心的处理可以采用GPU加速并行完成。例如，GPU可以含有多个流处理器(core)作为运算器，特征相似度的计算可以交由多个core来并行执行，从而达到加速的目的。

当然，除了采用GPU加速运算之外，也可以采用CPU(Central Processing Unit，中央处理器)集群来实现加速。例如，一个聚类中心的处理交由1个CPU来完成，则所以针对聚类中心的处理也可以由多个CPU并行完成。

而对于文字和音频文件等，只要能够提取出其特征量，均可采用本申请的方法进行排重，以上例中图片排重的原理相同，这里不再赘述。

下述为本申请装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图12，其示出了本申请一个实施例提供的重复文件的确定装置的结构方框图，该装置通过硬件或者软硬件的结合实现成为图1中服务器12或终端11的全部或者一部分，或者实现成为图2中服务器21的全部或者一部分；该装置包括：

文件获取模块1201，用于获得待去重文件集合；

特征量提取模块1202，用于提取待去重文件集合中每个文件的特征量，

处理模块1203，用于将至少一个文件作为聚类中心，针对每一个聚类中心，执行：计算各个文件与聚类中心的特征量的特征相似度；以各个文件与该聚类中心的特征相似度的大小顺序，将各个文件排序为一个文件序列；并，在文件序列中，以每一个文件为基准文件分别执行：在包含该基准文件的指定序列长度内，将与该基准文件的特征相似度满足预设条件的文件确定为该基准文件的重复文件。

其中，在一个实施例中，所述特征量提取模块1202，用于根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。

其中，在一个实施例中，特征量提取模块1202根据预先训练好的深度卷积神经网络模型或自动编码器提取待去重文件集合中每个文件的特征。

其中，在一个实施例中，处理模块1203用于采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。

其中，在一个实施例中，处理模块1203用于对待去重文件集合中的每一个文件分别按照下述步骤提取特征量：对文件进行DCT变换；对DCT变换的结果采用预设计算模型进行计算；对计算结果进行二进制编码，将编码结果作为提取的特征量。

其中，在一个实施例中，处理模块1203用于计算各个文件与聚类中心的二进制编码之间的海明距离的倒数作为特征相似度。

其中，在一个实施例中，该装置还包括：

接收模块，用于接收展示排重结果的展示请求；

其中，在一个实施例中，该装置还包括：

本申请实施例还提供一种计算设备，其可以包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行本申请实施例提供的重复信息的确定方法。

接下来，请参考图13，其示出了计算设备为服务器为例的结构方框图。该服务器600实现为图1或图2中的服务器1300。具体来讲：

服务器1300包括中央处理单元(CPU)1301、包括随机存取存储器(RAM)1302和只读存储器(ROM)1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述服务器1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1208和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为服务器1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

根据本申请的各种实施例，所述服务器1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的重复信息的确定方法的指令。

本领域普通技术人员可以理解上述实施例的签到方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

请参考图14，其示出了本申请一个实施例提供的终端的结构示意图。该终端1400为图1中或图9中的终端。具体来讲：

终端1400可以包括RF(Radio Frequency，射频)电路1410、包括有一个或一个以上计算机可读存储介质的存储器1420、输入单元1430、显示单元1440、传感器1450、音频电路1460、近场通信模块1470、包括有一个或者一个以上处理核心的处理器1480、以及电源1490等部件。本领域技术人员可以理解，图13中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1410可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1480处理。通常，RF电路1410包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路1410还可以通过无线通信与网络和其他设备通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobile communication，全球移动通讯系统)、GPRS(GeneralPacket Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband Code Division Multiple Access,宽带码分多址)、LTE(LongTerm Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1420可用于存储软件程序以及模块，处理器1480通过运行存储在存储器1420的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据终端1400的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器1420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1420还可以包括存储器控制器，以提供处理器1480和输入单元1430对存储器1420的访问。

输入单元1430可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1430可包括图像输入设备1431以及其他输入设备1432。图像输入设备1431可以是摄像头，也可以是光电扫描设备。除了图像输入设备731，输入单元1430还可以包括其他输入设备1432。具体地，其他输入设备1432可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1440可用于显示由用户输入的信息或提供给用户的信息以及终端700的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1440可包括显示面板1441，可选的，可以采用LCD(Liquid Crystal Display，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1441。

终端1400还可包括至少一种传感器1450，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1441的亮度，接近传感器可在终端1400移动到耳边时，关闭显示面板1441和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于终端1400还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1460、扬声器1461，传声器1462可提供用户与终端1400之间的音频接口。音频电路1460可将接收到的音频数据转换后的电信号，传输到扬声器1461，由扬声器1461转换为声音信号输出；另一方面，传声器1462将收集的声音信号转换为电信号，由音频电路1460接收后转换为音频数据，再将音频数据输出处理器1480处理后，经RF电路1410以发送给比如另一电子设备，或者将音频数据输出至存储器1420以便进一步处理。音频电路1460还可能包括耳塞插孔，以提供外设耳机与终端1400的通信。

终端1400通过近场通信模块1470与外部设备建立近场通信连接，并通过该近场通信连接进行数据交互。本实施例中，该近场通信模块1470具体包括蓝牙模块和/或WiFi模块。

处理器1480是终端1400的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器1420内的软件程序和/或模块，以及调用存储在存储器1420内的数据，执行终端1400的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器1480可包括一个或多个处理核心；优选的，处理器1480可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1480中。

终端1400还包括给各个部件供电的电源1490(比如电池)，优选的，电源可以通过电源管理系统与处理器1480逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1490还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，终端1400还可以包括蓝牙模块等，在此不再赘述。

具体在本实施例中，终端1400还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行以实现上述重复信息的确定方法。

本领域普通技术人员可以理解上述实施例的签到方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random AccessMemory)、磁盘或光盘等。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种重复信息的确定方法，其特征在于，所述方法包括：

获得待去重文件集合；

计算各个文件与聚类中心的特征量的特征相似度；

2.根据权利要求1所述的方法，其特征在于，所述提取待去重文件集合中每个文件的特征量，包括：

3.根据权利要求2所述的方法，其特征在于，采用距离测度法或相似性函数计算各个文件与聚类中心的特征相似度。

4.根据权利要求1所述的方法，其特征在于，所述提取待去重待去重文件集合中每个文件的特征量，包括对待去重文件集合中的每一个文件分别按照下述步骤提取特征量：

对文件进行离散余弦变换；

对离散余弦变换的结果采用预设计算模型进行计算；

5.根据权利要求4所述的方法，其特征在于，所述计算各个文件与聚类中心的特征量的特征相似度，包括：

6.根据权利要求1-5中任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

接收展示排重结果的展示请求；

按照重复文件数量多少的顺序依次输出已经去重的文件组。

8.根据权利要求1所述的方法，其特征在于，所述方法还包括：

9.一种重复信息的确定装置，其特征在于，所述装置包括：

文件获取模块，用于获得待去重文件集合；

10.一种计算设备，其特征在于，包括存储器和处理器，其中，所述存储器用于存储程序指令，所述处理器用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1～8任一所述的重复信息的确定方法。

11.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1～7任一所述的重复信息的确定方法。