CN102831127A

CN102831127A - 重复数据处理方法、装置及系统

Info

Publication number: CN102831127A
Application number: CN2011101648501A
Authority: CN
Inventors: 何一昕; 叶瑞海; 吴协尧; 张文波
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2011-06-17
Filing date: 2011-06-17
Publication date: 2012-12-19
Anticipated expiration: 2031-06-17
Also published as: CN102831127B; EP2721477A1; EP2721477A4; US20130013597A1; JP6051212B2; WO2012174268A1; JP2014517426A; HK1173540A1; TW201301063A; TWI518530B

Abstract

本申请公开了一种重复数据处理方法、装置及系统，该方法包括：将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；将处理之后的待比较数据与重复数据库中的数据进行比较，确定待比较数据是否是重复数据。通过本申请提高了服务器进行去重处理时的效率，节约了服务器资源。

Description

重复数据处理方法、装置及系统

技术领域

本申请涉及网络技术领域，具体而言，涉及一种重复数据处理方法、装置及系统。

背景技术

对于网站而言，数据重复是不可避免的，例如，在电子商务网站中会出现重复的商品信息。在现有技术中通常通过三个步骤来对重复数据进行清理(为了描述方便，以下将需要判定是否重复的信息称为A，将需要从存储系统获取的和A进行比较的信息称为B)：

步骤S10，系统取数逻辑。

该步骤用于从数据存储系统中取出需要比较重复的信息数据集。对于海量数据来说，数据集的大小直接决定整个系统的运行效率。在该步骤中，通常采用线性排队的方式，即，等待上一条信息处理完毕后再继续下一条信息的处理。对于B的筛选通常通过以下的方式来实现：

方式一，通过数据库或者其他数据源查询的方式，逐个取信息B和A进行比较，该方式没有对B进行筛选；

方式二，通过预定条件只筛选出部分和A有明显共性的信息B进行比较(例如，同一个发布者发布的信息，或者和A属于同一个行业的信息B)来缩小查询条件。

以下以清理重复商品信息(其他重复数据也可以采用相同的处理方式)为例对方式二进行说明。图1是根据现有技术的清理重复商品信息的系统取数据的流程图，如图1所示，该流程包括如下步骤：步骤S102，读取会员分布信息；步骤S104，逐个行业读取信息；步骤S106，按序取一条信息；步骤S108，执行下述步骤S20判断是否为重复数据，在不是重复数据的情况下，返回步骤S106，在是重复数据的情况执行步骤S110；步骤S110，进行步骤S30的去重处理。

步骤S20，判定A是否为重复信息。

在该步骤中涉及到判断信息是否相似的算法，而不同的算法也会直接影响到系统处理方案的准确度和有效性。在现有技术中通常会采用以下方式：

方式一，对A和B所涉及到所有数据进行完全比对；

方式二，有选择性的只选取A和B的关键数据进行完全比对；

方式三，进行相似度比较，根据A和B中的数据的相似程度来判断A和B是否相同，例如，对某些说明部分文字进行相识度比较。

步骤S30，清理重复信息。

现有技术中的上述处理方法对于数据量较少的情况比较适用，但是对于海量数据而言，上述方法处理效率就会变低，例如，现有技术的清理重复信息的方法的算法效率是O(n)，其中，n代表数据量，O(n)代表算法执行的时间，O(n)的值与n值是成线性关系甚至成指数关系的，无论成什么的函数关系，有一点是可以确定的，即O(n)的值是随着n值的增大而增加的。因此，当n值相当大的前提下，必然导致用于执行O(n)的服务器负荷过大，无法及时对重复数据进行处理，导致信息审核速度根本跟不上新信息发布的速度。

现有技术中，解决上述问题的方式是可以通过缩小数据集(即n值)的方式来降低服务器的负荷的，例如，按信息发布者所在行业，然后按每个行业逐个取数据的方式来实现。但是，虽然在一定程度上缩小了整个数据集(即，n值)，但算法的效率可以认为是O(n(n-1)/2)，当信息发布者有很多信息(例如，海量数据)的时候，该方法的效率依然太低。从而，为了解决该问题，只能通过增大硬件投入的方式(有些情况仅仅依靠加大硬件投入也无法取得理想的效果)满足去除重复数据要求，这种处理方式也存在问题：其一，无法满足今后扩展的需求；其二，浪费了服务器资源，整体效能太低。

发明内容

本申请的主要目的在于提供一种重复数据处理方法、装置及系统，以至少解决上述问题之一。

根据本申请的一个方面，提供了一种重复数据处理方法，包括以下步骤：将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，所述重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；将处理之后的所述待比较数据与所述重复数据库中的数据进行比较，确定所述待比较数据是否是重复数据；在所述待比较数据不是重复数据的情况下，将所述待比较数据写入所述数据库。

在处理之后的所述待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下，确定所述待比较数据是否为重复数据包括：在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，确定所述待比较数据为重复数据。

在处理之后的所述待比较数据还包括一张或多张图片的大小的情况下，确定所述待比较数据是否为重复数据包括：在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据所述待比较数据中的一张或多张图片的大小与所述重复数据库中的该数据的一张或多张图片的大小的关系，确定所述待比较数据为重复数据的方式，其中，所述重复数据的方式包括：所述待比较数据与所述重复数据库中的该数据完全相同、所述待比较数据包含所述重复数据库中的该数据、或者所述重复数据库中的该数据包括所述待比较数据。

所述第一信息至少包括：将数据中需要进行完全匹配的部分中的一个或多个形成一个组合并将所述组合通过散列算法或加密算法所得到的值；和/或，所述第二信息至少包括：将数据中需要进行相似度匹配的部分通过压缩算法所得到的值。

形成所述组合的一个或多个部分是预先配置的。

所述第一信息和所述第二信息在所述重复数据库中通过键-值对的方式保存。

在将所述待比较数据的数据结构处理成与所述重复数据库中的数据的数据结构相同之前，还包括：对所述待比较数据进行预处理，其中，所述预处理包括以下至少之一：大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记。

在将所述待比较数据的数据结构处理成与所述重复数据库中的数据的数据结构相同之前，还包括：接收所述待比较数据，其中，所述待比较数据是经过负载均衡处理之后发送过来的。

根据本申请的另一个方面，还提供了一种重复数据处理装置，包括：处理模块，用于将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，所述重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；比较模块，用于将处理之后的所述待比较数据与所述重复数据库中的数据进行比较，确定所述待比较数据是否为重复数据；写入模块，用于在所述待比较数据不是重复数据的情况下，将所述待比较数据写入所述数据库。

在处理之后的所述待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下，所述比较模块，用于在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，确定所述待比较数据为重复数据。

在处理之后的所述待比较数据还包括一张或多张图片大小的情况下，所述比较模块，用于在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据所述待比较数据中的一张或多张图片的大小与所述重复数据库中的该数据的一张或多张图片的大小的关系，确定所述待比较数据为重复数据的方式，其中，所述重复数据的方式包括：所述待比较数据与所述重复数据库中的该数据完全相同、所述待比较数据包含所述重复数据库中的该数据、或者所述重复数据库中的该数据包括所述待比较数据。

该装置还包括：预处理模块，用于对所述待比较数据进行预处理，其中，所述预处理包括以下至少之一：大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记。

根据本申请的再一个方面，还提供了一种重复数据处理系统，包括：一个或多个上述的重复数据处理装置、以及分发装置，其中所述分发装置用于根据所述一个或多个重复数据处理装置的负载向所述一个或多个重复数据处理装置发送待比较数据。

通过本申请，解决了现有技术中去重处理效率较低而为了提高效率只能增加服务器所导致的问题，进而提高了服务器进行去重处理时的效率，节约了服务器资源。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据现有技术的清理重复商品信息的流程图；

图2是根据本申请实施例的重复数据处理方法流程图；

图3是根据本申请实施例的重复数据处理装置的结构示意图；

图4是根据本申请实施例优选的重复数据处理装置的结构示意图；

图5是根据本申请优选实施例的快速检测清理重复信息子系统的结构示意图；

图6是根据本申请优选实施的对标题预处理方法的流程图；

图7是根据本申请优选实施的对对详细说明预处理方法的流程图；

图8是根据本申请优选实施的对产品属性参数的预处理方法的流程图；

图9是根据本申请优选实施例的基于分布式缓存的信息重复比对库及其输入输出的示意图；

图10是根据本申请优选实施例的重复判断的流程图；

图11是根据本申请优选实施例的A包含B时的重复处理方法的流程图；以及

图12是根据本申请优选实施例的A＝＝B时的重复处理方法的流程图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

以下实施例中的重复数据处理方法可以应用在服务器上，该服务器可以专用于进行重复数据的处理，当然也可以应用于一组服务器上。或者也可以作为服务器中的一个模块与执行其他功能的服务器公用。

以下实施例中用于进行重复数据比对的数据库采用了内存数据库(在以下实施例中称为重复数据库)的方式(以下实施例可以适用于基于键-值对的内存数据库，但是并不限于此，在以下的实施例中会以示例的方式对基于键-值对的内存数据库进行说明)。在现有技术中的重复数据的处理方式均是采用直接读取数据库进行逐条比较的方式来进行的(而这正是导致现有技术中处理方法效率较低的原因)，在以下实施例中正是由于采用了内存数据库作为重复数据库(或简称重复库)，使得数据的处理效率相比于现有技术高，如果采用O(n)的评判方式的话，由于内存数据库处理速度很快，因此，n的大小将对O(n)影响并不是很大。因此，以下实施例相比于现有技术改善了服务器的内部性能，可以在占用服务器较少资源的情况下，完成较大数据的去重处理，即在相同的处理效率下，以下实施例使用的服务器资源较少，在相同的服务器资源的情况下，以下实施例的处理效率更高。并且，由于采用的是内存数据库的处理方式，因此，扩展相对也比较容易。

图2是根据本申请实施例的重复数据处理方法流程图，如图2所示，该方法包括如下步骤：

步骤S202，将待比较数据(即，需要进行比较的数据，也称为待审核信息，待对比信息，待处理数据)的数据结构处理成与重复数据库中的数据的数据结构相同，其中，重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的，在此处，重复数据库中数据的数据结构即与预设的数据结构相同，其可以与数据库中的数据结构相同，但是，这样会导致重复数据库数据量稍大。作为一个比较优的实施方式，重复数据库中数据的数据结构可以与数据库中数据的数据结构不同，例如，重复数据库中的数据可以是数据库中的数据通过预处理、部分压缩后等的内存映射，这样的处理相当于进行了很多抽取、浓缩等工作，一方面可以减少重复数据库的数据量，另一方面可以为数据的比较提供更好的数据结构；

步骤S204，将处理之后的待比较数据与重复数据库中的数据进行比较，确定待比较数据是否是重复数据；

步骤S206，在待比较数据不是重复数据的情况下，将待比较数据写入数据库。

通过上述步骤，不仅能够通过内存映射的方式避免数据库逐条查询，还能够在信息入库前进行去重处理，实现了从源头上清理了重复数据。

作为一个优选实施例方式，重复数据库的数据结构是内存映射，并且，对应同一条数据、重复数据库是数据库数据预处理后(例如，可以只保留核心的、需要比对的部分)的一份拷贝，因此，在该优选实施方式中，重复数据库的大小要比原数据库精简的多。

对于步骤S204中的确定待比较数据是否为重复数据的比较方式可以采用现有的比较方式进行比较，例如，可以采用完全比对的方式。即使采用现有的比较方式，由于在上述步骤中使用了内存数据库，也可以取得比现有技术更高的效率。

在本实施中提供了一种比现有技术更优的比较方式，该方式结合了完全比对和相似度比对，兼顾了比较的准确性和效率。下面对该优选的比较方式进行说明。

可以将待比较数据处理为第一信息和第二信息，其中，第一信息用于进行完全匹配，第二信息用于进行相似度匹配。这样，可以首先比较第一信息，在待比较数据的第一信息与重复数据库中的数据的第一信息完全一致的情况下，再比较第二信息，如果待比较数据的第二信息与重复数据库中的该数据的第二信息相似度超过阈值，则可以确定待比较数据为重复数据。对于第一信息，可以是比较重要的信息，例如，标题、核心关键字、发布者ID等等，对于这些比较重要的信息可以只比对其中的一项，也可以对这些关键信息的组合进行比对，这样做可以灵活的把握需要精确匹配的幅度。当然，比较的信息越多准确率就越高。对于第二信息，可以是数据量相对较大的数据，例如，商品的说明书、产品的介绍等。由于数据量较大的信息一般不会完全相同，但是往往又是相似的，作为一个比较优的实施方式，是对第二信息进行相似度比较。

对于完全匹配的比较可以采用对于需要比较的部分进行逐一比较的方式，例如，如果需要比较标题和发布者，那么可以首先比较标题是否相同，在标题相同的情况下再比较发布者是否相同，这样的比较方式实现简单，但是比较效率较低。在本实施例中提供了一种更优的处理方式，下面对该优选实施方式进行说明。

对于需要完全匹配的部分，首先，将这些的部分中的一个或多个形成一个组合，然后，将该组合通过散列算法或加密算法进行计算得到一个值，然后使用该值进行比较。通过这样的比较方式，在需要比较多个部分的情况下可以通过一次比较完成。例如，可以采用消息摘要算法5(Message DigestAlgorithm5，简称为MD5)(还可以采用其他的算法，例如，安全哈希算法SHA)对需要进行完全匹配的部分中的一个或多个形成的组合进行计算，得到一个128比特的值，当然，重复数据库中保存的可以是这些需要完全匹配的部分，也可以是这些部分中的一个或多个的组合，或者是这些组合经过散列算法或加密算法所得到的值。

例如，需要完全匹配的部分(或者字段)为标题和发布者ID，标题+发布者ID就可以得到一个字符串(如“三防手机mobie3”，其中三防手机为商品的名称，mobie3为发布者ID)，然后对该字符串进行MD5运算得到一个128比特的值，使用该值进行比较。

由于在某些大型的数据库中，涉及到的关键部分(或者字段)比较多，因此，为了灵活处理，可以将需要进行完全匹配的部分配置在配置文件中，每次通过读取该配置文件来得到需要比较那些关键部分(或者字段)，即形成组合的一个或多个部分是可以预先配置的。

对于相似度匹配，由于需要进行相似度匹配的部分数据量比较大，可以采用抽取关键字的比较方式，例如对于不同的行数可以抽取不同位置的关键词，如果这些关键词均相同(相似度为100％)或者相似度超过90％，则可以认为是重复数据。然而这种处理方法稍显复杂。在本实施例中还可以采用另外一种比较好的处理方式，即将数据中需要进行相似度匹配的部分通过压缩算法所得到的值进行比较，例如，将待比较数据的详细说明进行压缩之后得到一个值，将重复数据库中的详细说明进行压缩之后得到一个值(例如，压缩之后的大小)，然后对这两个值进行比较，在这两个值的相似度超过一定阈值时，表明是重复数据(例如，A为待比较数据的详细说明部分压缩之后的大小，B为重复数据库中的详细说明部分压缩之后的大小，那么该阈值可以是(A-B)/A，如果该比值小于1％，可以认定为重复数据)。

需要说明的是，上述较优的完全匹配方式和相似度匹配的处理方式，可以择一应用，也可以结合起来应用。只要采用了这两种优选方式的一种就可以在兼顾准确度的同时提高比较的效率，如果两种结合起来使用将达到更好的效果。

上述对于相似度匹配和完全匹配比较优的可以用于对字符的处理，当然也可以应用在对图片的处理中(例如，将图片转换成二进制数据之后进行比较)。在本实施例中提供了另外一种优选的处理方式，即在待比较数据的第一信息与重复数据库中的数据的第一信息完全一致，并且待比较数据的第二信息与重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据待比较数据中的一张或多张图片的大小与重复数据库中的该数据的一张或多张图片的大小的关系，确定待比较数据是否为重复数据的方式，其中，确定是重复数据的方式包括：待比较数据与重复数据库中的该数据完全相同、待比较数据包含重复数据库中的该数据、或者重复数据库中的该数据包括待比较数据。通过对图片的比较，可以使重复数据的判断更加准确。

优选地，为了使完全匹配和相似度匹配得到比较结果更加准确，可以在将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同之前，对待比较数据进行预处理，例如，大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记，其中，可以进行上述预处理中的一个或多个，进行的预处理越多，那么得到的数据就越便于进行重复数据判断。

对于数据量较大的情况，可以采用多个服务器来进行去重处理，例如，该比较数据可以是通过具有负载均衡功能的异步消息系统发送过来的。在采用多个服务器的情况下，可以根据服务器的负载情况，或者根据待比较数据的标识选择在哪个服务器进行处理(通常在待比较的数据会有一个数字的ID，如何没有数字的ID可以使用流水号的方式对待比较的数据进行标号，例如，该待比较数据的ID或流水号为3334，如果有3台服务器，可以将3334除以3得到的余数为1，这使用1号服务器处理该待比较数据)。在存在多个服务器的情况下，可以采用基于内存数据库的分布式数据库架构。内存数据库的分布式架构在现有技术中有不同的实现方式。而在本实施例中可以通过使用内存数据库和分布式数据库代理的整合来实现，例如，H2是一个高性能的内存数据库，Amoeba是分布式数据库代理，在现有技术中，Amoeba已经可以和Mysql进行整合，而对于Amoeba而言，Mysql节点和H2节点作为一个存储是一样的，因此，可以将现有技术中的Amoeba与Mysql的整合移植到Amoeba与H2的整合中，通过Amoeba和H2的整合可以实现基于内存数据库的分布式数据库架构。

在本实施例中还提供一种重复数据处理装置，该数据处理装置用于实现上述实施例中提及的实施方式，已经进行过说明的不再赘述，如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统和方法较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的，下面结合图3对该装置中涉及到的模块进行说明。

图3是根据本申请实施例的重复数据处理装置的结构示意图，如图3所示，该装置包括：处理模块300，比较模块302和写入模块304。其中，处理模块300，用于将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；比较模块302连接至处理模块300，该模块用于将处理之后的待比较数据与重复数据库中的数据进行比较，确定待比较数据是否为重复数据；写入模块304连接至比较模块302，该模块用于在待比较数据不是重复数据的情况下，将待比较数据写入数据库。

优选地，在处理之后的待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下，比较模块302，用于在待比较数据的第一信息与重复数据库中的数据的第一信息完全一致，并且待比较数据的第二信息与重复数据库中的该数据的第二信息相似度超过阈值的情况下，确定待比较数据为重复数据。

优选地，在处理之后的待比较数据还包括一张或多张图片大小的情况下，比较模块302，用于在待比较数据的第一信息与重复数据库中的数据的第一信息完全一致，并且待比较数据的第二信息与重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据待比较数据中的一张或多张图片的大小与重复数据库中的该数据的一张或多张图片的大小的关系，确定待比较数据为重复数据的方式，其中，确定其为重复数据的方式包括：待比较数据与重复数据库中的该数据完全相同、待比较数据包含重复数据库中的该数据、或者重复数据库中的该数据包括待比较数据，但不限于此。

图4是根据本申请实施例优选的重复数据处理装置的结构示意图，如图4所示，该优选的重复数据处理装置包括图3所示的处理模块300，比较模块302，写入模块304，还包括预处理模块306，其中，预处理模块306连接至处理模块300，该模块用于对待比较数据进行预处理，其中，预处理包括以下至少之一：大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记。

在本实施例中，还提供了一种重复数据处理系统，该系统包括一个或多个上述的重复数据处理装置之外，还包括分发装置，该分发装置用于根据一个或多个重复数据处理装置的负载向一个或多个重复数据处理装置发送待比较数据。

在以上实施例及优选实施方式中，通过内存映射的方式(即使是海量数据也只需要一次内存映射)快速定位、对商品信息的预处理，以及精确匹配和相似度匹配相结合的比较方式，从源头上的永久清理重复数据，实现了信息入库前的去重处理，提高效率，排除不必要的干扰，提高匹配的准确度。需要说明的是，这些技术效果并不是上述所有的实施方式所具有的，有些技术效果是某些优选实施方式才能取得的。

下面结合大型的电子商务网站中的商品信息的去重处理对本申请的一个优选的具体实施进行说明。需要说明的是，以下实施例是以商品信息为例进行的说明，但是并不限于此，对于其他信息的去重处理，也可以采用以下实施例中的实施方式。

在本优选实施例中，提供了一种快速检测清理重复信息系统，该系统是后台审核系统的一个子系统，其中，被比对信息(即待比较信息)会通过消息队列发送到本系统中处理。图5是根据本申请优选实施例的快速检测清理重复信息子系统的结构示意图，如图5所示，该清理重复子系统包括：去重信息监听器、去重分发组件(实现上述分发装置的功能)、一个或多个去重监听器(也可以理解为执行去重功能的服务器)和数据库，下面结合图5对商品信息的重复信息的清理过程进行说明。需要说明的是，在实施时，去重监听器可以是一个或多个专用于处理去重逻辑的服务器，当然，如果该去重监听器自身的内存足够大，也可以兼做内存数据库。

后台信息审核监听器执行所有与信息审核相关的其他处理逻辑，然后，待审核信息通过消息队列流入去重信息监听器，然后，去重分发组件会根据发布者的ID(例如，可以根据ID的首字母来确定将该信息发送到哪个去重监听器中)和/或每台服务器的负载将待审核信息分发到不同的消息队列中(在实施时，可以优选的通过负载均衡的方式来保证每台服务器处理量均分)，每个消息队列由一个去重监听器来处理。其中，去重信息监听器、去重分发组件和去重监听器执行清理重复的逻辑，该清理重复逻辑包括：预处理、判重和去重操作，并根据操作结果决定是否更新数据库。重复信息被清理后，优选地，可以记录相关日志，这样可以通过一个专门的日志查询界面查询被清理的信息。

作为一个较优的实施例，上述系统可以是一个信息异步消息系统，该系统基于异步、非阻塞的消息传递机制，能够与其他子系统实现松耦合，该松耦合可以实现可插拔的方式，这表示上述的去重系统可以作为子系统方便的对接到其他系统中。更优地，上述的异步、非阻塞的消息传递机制可以提高吞吐量和处理速度。再辅助以负载均衡，可以适合大吞吐量操作。

下面对本优选实施例中的商品信息的预处理过程进行说明，该预处理过程是在商品信息比对之前进行的，在本优选实施例中，以针对信息的文本部分的预处理过程为例进行说明。可以通过以下几个模块的至少之一来实现预处理过程，当然，如果采用了下面的所有模块会取得更好的效果：

特殊字符过滤模块，用于过滤指定字符表中的特殊字符(例如，换行符、I、←↑、罗马字符等)。

形音词替换模块，用于根据字表对形，音，意相似的字词进行转换(例如，“像”和“相”、“千克”和“kg”等)。

简单无意义词替换模块，用于对简单无意义词进行替换(例如，的、得、(图)等)。

核心关键字抽取模块，用于根据字符表将指定字符(或称为核心关键字)从文本中快速分离出来。

需要说明的是，上述模块的处理方式可以采用基于字典的方式，即，根据各自的处理逻辑，维护处理规则对应的字典文件，系统启动时将对应的字典文件加载在内存中。

下面结合附图以信息的标题、详细说明和属性参数为例，对信息的预处理过程进行说明。

图6是根据本申请优选实施的对标题预处理方法的流程图，如图6所示，该处理过程包括如下步骤：

步骤S602，将处理前的标题的全角转换为半角，大写转换为小写；

步骤S604，对标题中简单无意义词进行替换；

步骤S606，对特殊字符进行过滤；

步骤S608，对标题中的形音词进行替换。

图7是根据本申请优选实施的对详细说明预处理方法的流程图，如7所示，该处理过程包括如下步骤：

步骤S702，除去常见的HTML标记(保留图片标)；

步骤S704，转换全角为半角，大写为小写；

步骤S706，特殊字符过滤；

步骤S708，抽取核心关键词作为精确匹配用，剩下的部分做相似度匹配用。

图8是根据本申请优选实施的对产品属性参数的预处理方法的流程图，如8所示，该处理过程包括：

步骤S802，转换全角为半角，大写为小写；

步骤S804，特殊字符过滤；

步骤S806，替换形音词。

通过对待比较信息的关键部分(标题，详细说明，属性参数，图片等)做一系列的预处理，使得商品信息可以排除很多不必要的干扰，从而大大提高匹配精确度。

在本优选实施例中，提供了一个基于分布式缓存的信息重复比对库，通过采用内存映射的方式来代替数据库的直接循环查询比对。图9是根据本申请优选实施例的基于分布式缓存的信息重复比对库及其输入输出的示意图，下面结合图9对利用该信息重复比对库对海量商品信息的处理过程进行说明，图9示出的逻辑结构Map结构(即，在内存中维护的一个键-值对)，其结构为：

Key＝MD5(信息发布者ID+核心关键字串+专业化属性+标题)，其中的信息发布者ID、核心关键字串、专业化属性和标题是示例性说明，也可以对其他的关键字段或者关键字段的组合进行MD5的运算。

Value＝list of<信息ID，图片大小列表，经过预处理的详细说明>，其中的信息ID、图片大小列表、经过预处理的详细说明也是示例性说明，并不限于此。

其中，Key是一串把一条商品信息所有需要精确匹配的部分合并生成的MD5信息摘要，由于所用到的关键字段在之前的预处理过程中进行了预处理，使得该结构可以简单、快速地实现精确匹配。同时MD5串本身大大减少了内存占用。

当Key被匹配到之后，再通过相似度算法对Value部分进行相似度匹配，如果相似度超过阈值，则被认为是重复信息。

在实际使用过程中对应哪些部分需要精确匹配是根据实际情况而定的，例如，某些情况下只要信息的标题不一样就认为是重复信息；而在另外情况下标题相同的情况下还需要发布者ID进行完全比配才可以判定该信息是否为重复信息。因此，在实施时，可以留有预先自定义需要精确匹配的部分的接口，例如，可以用专门的配置文件来记录需要进行完全匹配的部分，这样就实现了灵活地指定不同的需要进行完全匹配的组合。

更优地，重复库本身也可以通过最近最少使用算法(Least Recently Used，简称为LRU)控制容量上限，例如，对于重复库中的一条信息B已经存放了一个月没有被匹配到时，那么就可以将该信息从内存数据库中删除，这样可以有效控制内存数据库的大小，节约内存。

在本优选实施例中，基于分布式的缓存系统，通过生成MD5，以及精确匹配和相似度匹配相结合的方式。克服了单台服务器访问瓶颈，以及容量瓶颈。从而实现了精确快速匹配，并且实现了自身线性扩展，兼顾效率和准确性，同时，精确匹配部分可以通过规则自定义，实现了系统匹配的最大灵活性和比对效率。更优地，为了提高吞吐量，还可以采用上述已经进行过说明的异步消息处理机制。

图10是根据本申请优选实施例的重复判断的流程图，下面结合图10该流程进行说明。为了进行更清楚的说明，进行如下约定：

(1)被比对信息B进入系统，预处理后与重复库中的信息A比对。

(2)【M，N】表示处理结果，M为数据库中存在哪些信息，N为重复库中存在哪些信息。例如：【A，A】表示处理后A仍存在数据库和重复库中，此时B已被清除，既不存在于数据库中，也不存在于重复库中。

(3)～A表示更新信息A的审核通过时间为系统当前时间。

(4)A.MD5表示A(例如，发布者ID+核心关键字串+专业化属性+标题)的MD5值。

(5)A.Pic1表示A信息的第一张图片的大小，A.PicSet表示A信息除了第一张图片的所有其他图片大小的集合。

(6)Similar(A，B)表示A与B是否相似，其优选的一个判定方法为：zip(A+B)/zip(A)+zip(A+B)/zip(B)＜2.1，其中，zip(A)表示对A的详细说明做zip压缩得到的大小，当然，zip仅仅是压缩算法的一个示例性说明，并不限于此，也可以采用其他的压缩算法。

(7)A与B相交表示A和B不是重复相似信息，A＝＝B表示A和B重复相似信息，A包含B表示A包含B的所有内容，B包含A表示B包含A的所有内容；

(8)NEW/MOD表示信息的状态：待审核的新信息/修改后待审核的信息；APP/PUB表示信息的状态：后台审核通过的信息/已经对外发布上网的信息；TBD/DEL/EXP表示信息的状态：后台审核未通过的信息/被后台审核系统删除的信息/已过期的在线信息。

如图10所示，该流程包括如下步骤：

步骤S1002，判断A.MD5是否等于B.MD5，如果是，则A与B相交，否则，执行步骤S1004；

步骤S1004，判断A与B是否相似，例如，zip(A+B)/zip(A)+zip(A+B)/zip(B)是否小于一个阈值(例如，2.1)，如果不相似，则A与B相交，否则，执行步骤S1006；

步骤S1006，判断A的第一张图片的大小是否等于B的第一张图片的大小，如果不相等，即，A.Pic1！＝B.Pic1，则A与B相交，否则，执行步骤S1008；

步骤S1008，判断A的除了第一张图片的所有其他图片的大小的集合与B的除了第一张图片的所有其他图片的大小的集合是否相等，如果相等，即A.PicSet.equals(B.PicSet)，则A＝＝B；如果A的除了第一张图片的所有其他图片的大小的集合包含B的除了第一张图片的所有其他图片的大小的集合，即A.PicSet.contains(B.PicSet)，则A包含B；如果B的除了第一张图片的所有其他图片的大小的集合包含A的除了第一张图片的所有其他图片的大小的集合，即B.PicSet.contains(A.PicSet)，则B包含A。

在该流程中，也可以加入控制重复库大小的步骤，例如，判断B的时间戳(timestamp)离当前时间是否超出指定值，如果是，则按B的信息ID查找重复库，并将B从重复库中删除。该步骤的执行时间不受到限制，例如，可以在服务器的负载低于阈值时进行。

上述重复判断可以用代码表示如下：

a)IF A.MD5！＝B.MD5 ＝＞ A与B相交

b)ELSEIF ！Similar(A，B) ＝＞ A与B相交

c)ELSEIF A.Pic1！＝B.Pic1＝＞ A与B相交

d)ELSEIF A.PicSet.equals(B.PicSet) ＝＞ A＝＝B

e)ELSEIF A.PicSet.contains(B.PicSet) ＝＞ A包含B

f)ELSEIF B.PicSet.contains(A.PicSet) ＝＞ B包含A

g)ELSE A与B相交

图11是根据本申请优选实施例的A包含B时的重复处理方法的流程图，需要说明的是，该流程中的相关约定与图10相同。下面结合图11对A包含B时的重复处理方法进行说明：

步骤S1102，判断A是否为NEW/MOD，如果是，则【A，A】(表示在数据库和重复库中均保存A)，否则，执行步骤S1104；

步骤S1104，判断A是否为APP/PUB，如果是，则【～A，A】(表示在数据库中更新信息A的审核通过时间为系统当前时间，并且在重复库中保存A)，否则，执行步骤S1106；

步骤S1106，判断A是否为TBD/DEL/EXP，如果是，则【A～B，B】(表示在数据库中保存A并且在数据库中更新信息B的审核通过时间为系统当前时间，在重复库中保存B)。

需要说明的是，上述的步骤不一定按照步骤S1102至步骤S1106的顺序执行，按照其他的顺序执行也可以取得同样的效果，上述的步骤S1102至步骤S1106仅仅是示例性说明。

图12是根据本申请优选实施例的A＝＝B时的重复处理方法的流程图，需要说明的是，该流程为图10所示的后续流程，相关的约定与图10相同。下面结合图12对A＝＝B时的重复处理方法进行说明：

步骤S1202，判断A是否为NEW/MOD，如果是，则【B，B】，否则，执行步骤S1204；

步骤S1204，判断A是否为APP/PUB，如果是，则【～A，A】，否则，执行步骤S1206；

步骤S1206，判断A是否为TBD/DEL/EXP，如果是，则【AB，B】(表示在数据库中保存A和B，而在重复库中保存B)。

需要说明的是，上述的步骤不一定按照步骤S1202至步骤S1206的顺序执行，按照其他的顺序执行也可以取得同样的效果，上述的步骤S1202至步骤S1206仅仅是示例性说明。

除图10和图11所示出的A包含B和A＝＝B的情况之外，可以认为A和B相交，此时【AB，AB】(表示A和B均在数据库和重复库中保存)。

上述重复处理的流程可以用代码表示如下：

a) IF A包含B

i. IF A为NEW/MOD ＝＞【A，A】

ii LSEIF A为APP/PUB ＝＞【～A，A】

iii ELSE A为TBD/DEL/EXP ＝＞【A～B，B】

b)ELSEIF A＝＝B

i. IF A为NEW/MOD ＝＞【B，B】

ii ELSE IF A为APP/PUB＝＞【～A，A】

iii ELSE A为TBD/DEL/EXP＝＞【AB，B】

c)ELSE A与B相交＝＞【AB，AB】

在另外一个实施例中，还提供了一种重复数据处理软件，该软件用于执行上述实施例及优选实施例中描述的技术方案。

在另外一个实施例中，还提供了一种存储介质，该存储介质中存储有上述重复数据处理软件，该存储介质包括但不限于：光盘、软盘、硬盘、可擦写存储器等。

显然，本领域的技术人员应该明白，上述的本申请的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种重复数据处理方法，其特征在于包括以下步骤：

将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，所述重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；

将处理之后的所述待比较数据与所述重复数据库中的数据进行比较，确定所述待比较数据是否为重复数据；

在所述待比较数据不是重复数据的情况下，将所述待比较数据写入所述数据库。

2.根据权利要求1所述的方法，其特征在于，在处理之后的所述待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下，确定所述待比较数据是否为重复数据包括：

在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，确定所述待比较数据为重复数据。

3.根据权利要求2所述的方法，其特征在于，在处理之后的所述待比较数据还包括一张或多张图片的大小的情况下，确定所述待比较数据是否为重复数据包括：

在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据所述待比较数据中的一张或多张图片的大小与所述重复数据库中的该数据的一张或多张图片的大小的关系，确定所述待比较数据为重复数据的方式，其中，所述重复数据的方式包括：所述待比较数据与所述重复数据库中的该数据完全相同、所述待比较数据包含所述重复数据库中的该数据、或者所述重复数据库中的该数据包括所述待比较数据。

4.根据权利要求2所述的方法，其特征在于，

所述第一信息至少包括：将数据中需要进行完全匹配的部分中的一个或多个形成一个组合并将所述组合通过散列算法或加密算法所得到的值；和/或，

所述第二信息至少包括：将数据中需要进行相似度匹配的部分通过压缩算法所得到的值。

5.根据权利要求4所述的方法，其特征在于，形成所述组合的一个或多个部分是预先配置的。

6.根据权利要求2至5中任一项所述的方法，其特征在于，所述第一信息和所述第二信息在所述重复数据库中通过键-值对的方式保存。

7.根据权利要求1至5中任一项所述的方法，其特征在于，在将所述待比较数据的数据结构处理成与所述重复数据库中的数据的数据结构相同之前，还包括：

对所述待比较数据进行预处理，其中，所述预处理包括以下至少之一：大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记。

8.根据权利要求1至5中任一项所述的方法，其特征在于，在将所述待比较数据的数据结构处理成与所述重复数据库中的数据的数据结构相同之前，还包括：

接收所述待比较数据，其中，所述待比较数据是经过负载均衡处理之后发送过来的。

9.一种重复数据处理装置，其特征在于，包括：

处理模块，用于将待比较数据的数据结构处理成与重复数据库中的数据的数据结构相同，其中，所述重复数据库是将数据库中的数据按照预设的数据结构进行处理后通过内存映射形成的；

比较模块，用于将处理之后的所述待比较数据与所述重复数据库中的数据进行比较，确定所述待比较数据是否为重复数据；

写入模块，用于在所述待比较数据不是重复数据的情况下，将所述待比较数据写入所述数据库。

10.根据权利要求9所述的装置，其特征在于，在处理之后的所述待比较数据包括用于进行完全匹配的第一信息和用于进行相似度匹配的第二信息的情况下，

所述比较模块，用于在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，确定所述待比较数据为重复数据。

11.根据权利要求10所述的装置，其特征在于，在处理之后的所述待比较数据还包括一张或多张图片大小的情况下，

所述比较模块，用于在所述待比较数据的第一信息与所述重复数据库中的数据的第一信息完全一致，并且所述待比较数据的第二信息与所述重复数据库中的该数据的第二信息相似度超过阈值的情况下，根据所述待比较数据中的一张或多张图片的大小与所述重复数据库中的该数据的一张或多张图片的大小的关系，确定所述待比较数据为重复数据的方式，其中，所述重复数据的方式包括：所述待比较数据与所述重复数据库中的该数据完全相同、所述待比较数据包含所述重复数据库中的该数据、或者所述重复数据库中的该数据包括所述待比较数据。

12.根据权利要求10所述的装置，其特征在于，

13.根据权利要求9至12中任一项所述的装置，其特征在于，还包括：

预处理模块，用于对所述待比较数据进行预处理，其中，所述预处理包括以下至少之一：大小写转换、全半角转换、特殊字符过滤、形音词替换、无意义词替换、关键词抽取、去除HTML标记。

14.一种重复数据处理系统，其特征在于，包括：一个或多个权利要求9至13中任一项所述的重复数据处理装置、以及分发装置，其中所述分发装置用于根据所述一个或多个重复数据处理装置的负载向所述一个或多个重复数据处理装置发送待比较数据。