CN101296220B

CN101296220B - 一种过滤信息的方法及装置

Info

Publication number: CN101296220B
Application number: CN2007100974085A
Authority: CN
Inventors: 冯凌圣; 陈思儒
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2007-04-29
Filing date: 2007-04-29
Publication date: 2011-03-16
Anticipated expiration: 2027-04-29
Also published as: CN101296220A; HK1120967A1

Abstract

本发明公开了一种过滤信息的方法，用于提高过滤信息的速度，减轻装置负载。所述方法为：将未过滤的信息与之前过滤后保留的信息进行两两比较，并在所述未过滤的信息中的各条信息之间进行两两比较；以及，在确定存在多条信息相似时，仅保留该多条信息中的一条信息。本发明还公开了一种用于过滤信息的装置。

Description

一种过滤信息的方法及装置

技术领域

本发明涉及计算机及通信领域，特别是涉及一种过滤信息的方法及装置。

背景技术

随着网络的发展和用户量的迅速增加，网络中的信息发布量也在迅速增长。用户常常为了提高信息的曝光率，经常多次发布内容相似的信息，或同时在多处发布内容相似的信息，或者不同的用户发布相似的信息，而这些信息均在有效期内，网络中则充斥着大量相似的信息，占用大量网络资源，并且影响网络中信息的质量，为其它用户在搜索信息时带来很大的干扰，用户很难看到有用的信息。

目前现有解决上述问题的方法有多种，一种方法是人工排除，即由人工对信息进行逐条比较，将相似或相等的信息删除，只保留其中的一条信息。这种方式的缺点是效率非常低，在信息量非常大的情况下，人员的工作量非常高，占用大量人力资源，并且可能存在由于人员的失误导致删除错误或遗漏的情况。

另一种方法是机器自动排除，即由机器对当前网络中的所有信息进行完整比较，将相似或相等的信息删除，只保留其中的一条信息。这种方式的缺点是机器的工作量较大，处理速度较慢，并且占用大量资源，能耗较大。

发明内容

本发明实施例提供一种过滤信息的方法及装置，用于提高过滤信息的速度，减轻装置负载。

一种过滤信息的方法，包括以下步骤：

将未过滤的信息与之前过滤后保留的信息进行两两比较，并在所述未过滤的信息中的各条信息之间进行两两比较；以及

在确定存在多条信息相似时，仅保留该多条信息中的一条信息。

一种用于过滤信息的装置，包括：

存储模块，用于存储未过滤的信息和之前过滤后保留的信息；

比较模块，用于将未过滤的信息与之前过滤后保留的信息进行两两比较，并在所述未过滤的信息中的各条信息之间进行两两比较，以及确定相似的信息；

执行模块，用于在确定存在多条信息相似时，仅保留所述存储模块中该多条信息中的一条信息。

本发明实施例在过滤信息过程中不对过滤后保留的信息之间进行重复比较，减少了过滤次数，提高了过滤信息的速度，同时减轻的过滤装置的负载。

附图说明

图1为本发明实施例中过滤装置的结构图；

图2为本发明实施例中过滤信息的主要方法流程图；

图3为本发明实施例中具有信息分类功能的装置结构图；

图4为本发明实施例中过滤信息时仅对同类信息比较的方法流程图；

图5为本发明实施例中具有提取部分信息功能的装置结构图；

图6为本发明实施例中过滤信息时只比较部分信息的方法流程图。

具体实施方式

在本发明实施例中，本次比较后保留的信息，在下次比较时不进行内部比较，只将本次保留的信息与到下次比较时新加入的信息进行比较，以及将新加入的信息进行内部比较，以减少比较次数，提高过滤信息的速度。在本实施例中确定信息为过滤后保留的信息还是新加入的信息的方式有多种，如一种方式是：通过接收信息时的时间(即用户发布信息的时间)对该信息进行标记，在本次过滤操作起始时刻之前接收到的所有信息中，在本次过滤操作结束时保留下来的信息即为下次过滤操作过程中所述的过滤后保留的信息，在本次过滤操作起始时刻之后接收到的信息，由于该信息未参与本次的过滤操作，故作为下次过滤操作过程中所述的新加入的信息。因此根据信息的接收时间可判断该信息是否经过过滤。如一种方式是：将在本次过滤操作起始时刻之后接收到的信息作为下次过滤操作过程中所述的新加入的信息，并集中存储，以及将在本次过滤操作结束时保留下来的信息作为下次过滤操作过程中所述的过滤后保留的信息，并集中存储。根据存储地址可判断该信息是否经过过滤。该存储可以是物理存储也可以是逻辑存储。

参见图1，本实施例中用于过滤信息的装置主要包括接收模块101、存储模块102、比较模块103和执行模块104。

接收模块101接收用户发布的信息，并将信息存储到存储模块102。

存储模块102存储接收模块101接收到的信息，以及接收执行模块104的删除指令。存储模块102可以将过滤后保留的信息集中存放，以及将过滤后新接收到的信息集中存放，方便其它模块读取信息。本实施例中的存储模块包括缓存、硬盘、磁带等存储介质。

比较模块103从存储模块102中读取需要比较的信息，将新接收到的信息(即未经过过滤的信息)与之前已过滤并保留的信息进行比较，以及在新接收到的信息之间进行比较，将确定相似的信息或信息标识发送给执行模块104。例如，过滤后保留的信息为A1、A2、A3、A4、A5，未经过过滤的信息为B1、B2、B3、B4、B5，则将B1分别与A1、A2、A3、A4、A5比较，再将B2分别与A1、A2、A3、A4、A5比较，以此类推，以及将B1分别与B2、B3、B4、B5比较，B2分别与B3、B4、B5比较，同样以此类推的比较。

本实施例中，将需要比较的信息进行两两比较，确定相等的部分与参与比较的部分的比值(本实施例中称该比值为相似度)不小于预设阈值的两条信息为相似信息。

执行模块104从确定相似的信息中选择一条信息保留，并从存储模块102中删除其它相似信息。执行模块104可以随机选择，或根据信息发布时间选择最近发布的信息或最早发布的信息保留，或选择相似信息中长度最长的信息保留。

参见图2，本实施例中过滤信息的主要方法流程如下，该方法适用于搜索引擎等：

步骤201：接收用户发布的信息并保存。

步骤202：当需要过滤信息时，将之前过滤后保留的信息与未经过过滤的信息进行比较，以及在未经过过滤的信息之间进行比较，并确定相似的信息。

步骤203：保留多条相似信息中的一条信息，删除其它相似信息。

在步骤202中，对信息进行比较的方法有多种，如一种具体实现方式是将所有需要比较的信息进行两两比较，在比较结束时只保留多条相似信息中的一条信息，具体步骤如下：

步骤202A：从未经过过滤的信息中提取一条信息与其它未经过过滤的信息及之前过滤后保留的信息进行比较。

步骤202B：在确定存在多条相似的信息时，用同一标记来标识所述多条相似的信息。

步骤202C：判断未经过过滤的信息中是否有未提取的信息，若有，则继续步骤202A，否则继续步骤202D。

步骤202D：保留带有同一标记的多条相似信息中的一条信息，并删除带有同一标记的其它信息。如带有同一标记的信息为B1、B3、B4和A1，则保留A1，删除B1、B3和B4。

如另一种具体实现方式是：如果过滤后保留的信息数量比较大，则可以先在未经过过滤的信息之间进行比较，保留相似信息中的一条信息，再将剩余信息与过滤后保留的信息进行比较，以减少比较次数。具体步骤如下：

例如未经过过滤的信息为B1、B2、B3、B4、B5，过滤后保留的信息为A1、A2、A3、A4、A5、A6、A7、A8、A9、A0。

步骤202H：从未经过过滤的信息中提取一条信息与其它未经过过滤的信息进行比较。如将B1与B2、B3、B4、B5进行比较。

步骤202I：在比较过程中确定两条信息相似时，删除其中一条信息，被保留的信息继续参与后续比较。如B1与B3相似，当删除B3时，B1继续与B4、B5比较，当删除B1时，由B3代替B1继续与B4、B5比较。

步骤202J：判断未经过过滤的信息中是否至少有两条未提取的信息，若有，则继续步骤202H，否则继续步骤202K。

步骤202K：从经过步骤202H至步骤202J保留的信息中提取一条信息与之前过滤后保留的信息进行比较。如将B2与A1、A2、A3、A4、A5、A6、A7、A8、A9、A0比较。

步骤202L：在确定存在两条相似的信息时，删除其中一条信息。

步骤202M：判断步骤202L中是否有未取到的信息，若有，则继续步骤202L，否则结束流程。

通过举例可以看出，采用步骤202A至步骤202D所述的方法，比较次数为60次，采用步骤202H至步骤202M所述的方法，比较次数为35次，过滤速度明显提高。

如再一种具体实现方式是：如果未经过过滤的信息数量比较大，则可以先将过滤后保留的信息与未经过过滤的信息进行比较，保留相似信息中的一条信息，再在未经过过滤的信息中保留下来的信息之间进行比较，以减少比较次数。

例如未经过过滤的信息为B1、B2、B3、B4、B5、B6、B7、B8、B9、B0，过滤后保留的信息为A1、A2、A3、A4、A5。

步骤202R：从未经过过滤的信息中提取一条信息与之前过滤后保留的信息进行比较。如将B1与A1、A2、A3、A4、A5进行比较。

步骤202S：在比较过程中确定两条信息相似时，删除其中一条信息，被保留的信息继续参与后续比较。如B1与A3相似，当删除A3时，B1继续与A4、A5比较，当删除A3时，由B1代替A3并终止B1与A4、A5的比较，继续步骤202T。

步骤202T：判断未经过过滤的信息中是否有未取到的信息，若有，则继续步骤202R，否则继续步骤202U。例如，B1与A3相似，B2与A2相似，B3与A1相似，B4与A4相似，B5与A5相似，则剩余信息有B6、B7、B8、B9、B0。

步骤202U：从未经过过滤的信息经过步骤202R至202T后保留的信息中提取一条信息与其它未经过过滤的信息经过步骤202R至202T后保留的信息进行比较。如将B6与B7、B8、B9、B0比较。

步骤202V：在确定存在两条相似的信息时，删除其中一条信息。如B6与B7、B8相似，则保留B6。

步骤202W：判断步骤202U中是否至少有两条未取到的信息，若有，则继续步骤202U，否则结束流程。

通过举例可以看出，采用步骤202A至步骤202D所述的方法，比较次数为95次；采用步骤202H至步骤202M所述的方法，比较次数为70次；采用步骤202R至步骤202W所述的方法，比较次数为55次，过滤速度明显提高。

本实施例还可以在步骤202之后，即在确定相似信息后，通过人工对相似信息做进一步判断，并删除需要删除的信息。

本实施例中的装置还包括分类模块105，参见图3所示。分类模块105根据预设的条件对信息进行分类，比较模块103在之前所述的比较方式基础上，只需对同类信息进行比较，进一步减少了比较次数。分类条件包括账户名相同、发布时间相同(例如发布时间均为1月1日。)、来自同一地区、属于同一领域(如通信领域)、具有相同的关键词(如动物)等。每次比较时可以根据实际需要选择上述条件中的一项或多项条件对信息进行分类。例如根据账户名相同对信息进行分类，删除同一账户发布的相似信息，此种方法较适用于电子商务领域。

下面介绍的过滤信息的方法为对同类信息比较的具体方法流程，参见图4所示：

步骤401：接收用户发布的信息并保存。

步骤402：根据预设的条件对信息进行分类，该步骤可以在接收信息时实时的进行，或者在需要过滤信息时进行。例如根据关键词对信息进行分类。对应关键词“动物”的信息被分为一类。

步骤403：当需要过滤信息时，将之前过滤后保留的信息与未经过过滤的信息并且属于同一类的信息进行比较，以及在未经过过滤的信息之间并且属于同一类的信息进行比较，确定相似的信息。例如，仅对对应关键词“动物”的信息进行比较，不必将对应关键词“手机”的信息与对应关键词“动物”的信息进行比较。因为它们之间为相似信息的可能性极小。

步骤404：保留相似信息中的一条信息，删除其它相似信息。

本实施例中的装置还包括提取模块106，参见图5所示。提取模块106确定需要比较的信息，并从需要进行比较的两条信息中选择部分信息交由比较模块103进行比较。提取模块106先将信息的头部删除，从剩余部分选择参与比较的部分。头部包括信息的名称、发布的时间、发布者信息及程序代码等。头部中的内容通常会影响对信息相似性判断的准确性，并且增加了比较的工作量。如果是以超文本连接标识语言(HTML)展示信息，则程序代码包括<head>等。提取模块106从需要进行比较的两条信息中选择相同位置、相同长度的信息参与比较，可以是随机选择，也可以是根据参数选择。例如，位置参数为100，长度参数为10，则从每100个字中选择前10个字参与比较。如果一条信息的长度小于另一条信息，缺少的部分设为0，显然相似度也为0。

此时，确定两条信息是否相似的方法有多种，如一种方法是：在从两条信息中选择的多处信息中，如果有一处信息的相似度不小于预设的阈值，则确定两条信息相似，两条信息的后续部分也就不需要参与比较。这种方法较适用于每处信息的长度较长的情况，如100。如另一种方法是：在从两条信息中选择的多处信息中，各处信息的相似度的平均值不小于预设的阈值，则确定两条信息相似；或者多处信息的相似度均不小于预设的阈值，则确定两条信息相似，这种方法较适用于每处信息的长度较短的情况，如10。

下面介绍的过滤信息的方法为对信息中部分内容比较的具体方法流程，参见图6所示：

步骤601：接收用户发布的信息并保存。

步骤602：根据预设的条件对信息进行分类，该步骤可以在接收信息时实时的进行，或者在需要过滤信息时进行。例如根据关键词对信息进行分类。对应关键词“动物”的信息被分为一类。

步骤603：当需要过滤信息时，确定之前过滤后保留的信息与未经过过滤的信息并且属于同一类的信息需要进行比较，以及在未经过过滤的信息之间并且属于同一类的信息需要进行比较，并从需要进行比较的两条信息中选择部分信息参与比较。

步骤604：对参与比较的信息进行比较，并根据比较结果确定相似的信息。

步骤605：保留相似信息中的一条信息，删除其它相似信息。

上述方法流程是一种较佳的实施方式，也可以不对信息进行分类，仅确定之前过滤后保留的信息与未经过过滤的信息需要进行比较，以及在未经过过滤的信息之间需要进行比较，并从需要进行比较的两条信息中选择部分信息参与比较。

本发明实施例在过滤信息过程中不对过滤后保留的信息之间进行重复比较，减少了过滤次数，提高了过滤信息的速度，同时减轻的过滤装置的负载。本发明实施例还通过改变信息比较的次序，以减少需要比较的信息量。同时，本发明实施例还只对同类信息进行比较，减少需要比较的信息量。并且，本发明实施例只对信息中的部分信息进行比较，减少比较信息的长度，从而提高了过滤信息的速度。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种过滤信息的方法，其特征在于，包括以下步骤：

2.如权利要求1所述的过滤信息的方法，其特征在于，根据预设的条件将信息进行分类，仅对同类信息进行比较。

3.如权利要求2所述的过滤信息的方法，其特征在于，所述预设的条件为多个。

4.如权利要求1所述的过滤信息的方法，其特征在于，各信息的头部不参与比较。

5.如权利要求1至4中任一项所述的过滤信息的方法，其特征在于，从需要进行比较的两条信息中分别选取一处或多处相同位置且相同长度的部分信息，并进行比较。

6.如权利要求5所述的过滤信息的方法，其特征在于，在确定至少一处部分信息相似时，确定所述两条信息相似；或者，在确定所有部分信息整体相似时，确定所述两条信息相似。

7.如权利要求1所述的过滤信息的方法，其特征在于，对信息进行两两比较，在发现两条信息相似时删除其中一条信息。

8.如权利要求7所述的过滤信息的方法，其特征在于，当所述未过滤的信息数量大于所述之前过滤后保留的信息数量时，先将未过滤的信息与之前过滤后保留的信息进行比较，再在所述未过滤的信息中的各条信息之间进行比较；当所述之前过滤后保留的信息数量大于所述未过滤的信息数量时，先在所述未过滤的信息中的各条信息之间进行比较，再将未过滤的信息与之前过滤后保留的信息进行比较。

9.如权利要求1所述的过滤信息的方法，其特征在于，在比较过程中集中标识相似的信息，以及在比较结束时从集中标识的相似信息中选择一条信息并保留。

10.如权利要求1所述的过滤信息的方法，其特征在于，进行比较的两条信息中相等的部分与进行比较的部分的比值不小于预设的阈值时确定所述两条信息相似。

11.一种用于过滤信息的装置，其特征在于，包括：

12.如权利要求11所述的用于过滤信息的装置，其特征在于，还包括：

分类模块，用于根据预设的条件将信息进行分类；

所述比较模块仅对同类信息进行比较。

13.如权利要求11或12所述的用于过滤信息的装置，其特征在于，还包括：

提取模块，用于从需要进行比较的两条信息中分别选取一处或多处相同位置且相同长度的部分信息；

所述比较模块对需要进行比较的两条信息中选取的部分信息进行比较。