CN101296220B - 一种过滤信息的方法及装置 - Google Patents

一种过滤信息的方法及装置 Download PDF

Info

Publication number
CN101296220B
CN101296220B CN2007100974085A CN200710097408A CN101296220B CN 101296220 B CN101296220 B CN 101296220B CN 2007100974085 A CN2007100974085 A CN 2007100974085A CN 200710097408 A CN200710097408 A CN 200710097408A CN 101296220 B CN101296220 B CN 101296220B
Authority
CN
China
Prior art keywords
information
filtering
similar
unfiltered
compare
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007100974085A
Other languages
English (en)
Other versions
CN101296220A (zh
Inventor
冯凌圣
陈思儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN2007100974085A priority Critical patent/CN101296220B/zh
Publication of CN101296220A publication Critical patent/CN101296220A/zh
Priority to HK08114084.0A priority patent/HK1120967A1/xx
Application granted granted Critical
Publication of CN101296220B publication Critical patent/CN101296220B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种过滤信息的方法,用于提高过滤信息的速度,减轻装置负载。所述方法为:将未过滤的信息与之前过滤后保留的信息进行两两比较,并在所述未过滤的信息中的各条信息之间进行两两比较;以及,在确定存在多条信息相似时,仅保留该多条信息中的一条信息。本发明还公开了一种用于过滤信息的装置。

Description

一种过滤信息的方法及装置
技术领域
本发明涉及计算机及通信领域,特别是涉及一种过滤信息的方法及装置。
背景技术
随着网络的发展和用户量的迅速增加,网络中的信息发布量也在迅速增长。用户常常为了提高信息的曝光率,经常多次发布内容相似的信息,或同时在多处发布内容相似的信息,或者不同的用户发布相似的信息,而这些信息均在有效期内,网络中则充斥着大量相似的信息,占用大量网络资源,并且影响网络中信息的质量,为其它用户在搜索信息时带来很大的干扰,用户很难看到有用的信息。
目前现有解决上述问题的方法有多种,一种方法是人工排除,即由人工对信息进行逐条比较,将相似或相等的信息删除,只保留其中的一条信息。这种方式的缺点是效率非常低,在信息量非常大的情况下,人员的工作量非常高,占用大量人力资源,并且可能存在由于人员的失误导致删除错误或遗漏的情况。
另一种方法是机器自动排除,即由机器对当前网络中的所有信息进行完整比较,将相似或相等的信息删除,只保留其中的一条信息。这种方式的缺点是机器的工作量较大,处理速度较慢,并且占用大量资源,能耗较大。
发明内容
本发明实施例提供一种过滤信息的方法及装置,用于提高过滤信息的速度,减轻装置负载。
一种过滤信息的方法,包括以下步骤:
将未过滤的信息与之前过滤后保留的信息进行两两比较,并在所述未过滤的信息中的各条信息之间进行两两比较;以及
在确定存在多条信息相似时,仅保留该多条信息中的一条信息。
一种用于过滤信息的装置,包括:
存储模块,用于存储未过滤的信息和之前过滤后保留的信息;
比较模块,用于将未过滤的信息与之前过滤后保留的信息进行两两比较,并在所述未过滤的信息中的各条信息之间进行两两比较,以及确定相似的信息;
执行模块,用于在确定存在多条信息相似时,仅保留所述存储模块中该多条信息中的一条信息。
本发明实施例在过滤信息过程中不对过滤后保留的信息之间进行重复比较,减少了过滤次数,提高了过滤信息的速度,同时减轻的过滤装置的负载。
附图说明
图1为本发明实施例中过滤装置的结构图;
图2为本发明实施例中过滤信息的主要方法流程图;
图3为本发明实施例中具有信息分类功能的装置结构图;
图4为本发明实施例中过滤信息时仅对同类信息比较的方法流程图;
图5为本发明实施例中具有提取部分信息功能的装置结构图;
图6为本发明实施例中过滤信息时只比较部分信息的方法流程图。
具体实施方式
在本发明实施例中,本次比较后保留的信息,在下次比较时不进行内部比较,只将本次保留的信息与到下次比较时新加入的信息进行比较,以及将新加入的信息进行内部比较,以减少比较次数,提高过滤信息的速度。在本实施例中确定信息为过滤后保留的信息还是新加入的信息的方式有多种,如一种方式是:通过接收信息时的时间(即用户发布信息的时间)对该信息进行标记,在本次过滤操作起始时刻之前接收到的所有信息中,在本次过滤操作结束时保留下来的信息即为下次过滤操作过程中所述的过滤后保留的信息,在本次过滤操作起始时刻之后接收到的信息,由于该信息未参与本次的过滤操作,故作为下次过滤操作过程中所述的新加入的信息。因此根据信息的接收时间可判断该信息是否经过过滤。如一种方式是:将在本次过滤操作起始时刻之后接收到的信息作为下次过滤操作过程中所述的新加入的信息,并集中存储,以及将在本次过滤操作结束时保留下来的信息作为下次过滤操作过程中所述的过滤后保留的信息,并集中存储。根据存储地址可判断该信息是否经过过滤。该存储可以是物理存储也可以是逻辑存储。
参见图1,本实施例中用于过滤信息的装置主要包括接收模块101、存储模块102、比较模块103和执行模块104。
接收模块101接收用户发布的信息,并将信息存储到存储模块102。
存储模块102存储接收模块101接收到的信息,以及接收执行模块104的删除指令。存储模块102可以将过滤后保留的信息集中存放,以及将过滤后新接收到的信息集中存放,方便其它模块读取信息。本实施例中的存储模块包括缓存、硬盘、磁带等存储介质。
比较模块103从存储模块102中读取需要比较的信息,将新接收到的信息(即未经过过滤的信息)与之前已过滤并保留的信息进行比较,以及在新接收到的信息之间进行比较,将确定相似的信息或信息标识发送给执行模块104。例如,过滤后保留的信息为A1、A2、A3、A4、A5,未经过过滤的信息为B1、B2、B3、B4、B5,则将B1分别与A1、A2、A3、A4、A5比较,再将B2分别与A1、A2、A3、A4、A5比较,以此类推,以及将B1分别与B2、B3、B4、B5比较,B2分别与B3、B4、B5比较,同样以此类推的比较。
本实施例中,将需要比较的信息进行两两比较,确定相等的部分与参与比较的部分的比值(本实施例中称该比值为相似度)不小于预设阈值的两条信息为相似信息。
执行模块104从确定相似的信息中选择一条信息保留,并从存储模块102中删除其它相似信息。执行模块104可以随机选择,或根据信息发布时间选择最近发布的信息或最早发布的信息保留,或选择相似信息中长度最长的信息保留。
参见图2,本实施例中过滤信息的主要方法流程如下,该方法适用于搜索引擎等:
步骤201:接收用户发布的信息并保存。
步骤202:当需要过滤信息时,将之前过滤后保留的信息与未经过过滤的信息进行比较,以及在未经过过滤的信息之间进行比较,并确定相似的信息。
步骤203:保留多条相似信息中的一条信息,删除其它相似信息。
在步骤202中,对信息进行比较的方法有多种,如一种具体实现方式是将所有需要比较的信息进行两两比较,在比较结束时只保留多条相似信息中的一条信息,具体步骤如下:
步骤202A:从未经过过滤的信息中提取一条信息与其它未经过过滤的信息及之前过滤后保留的信息进行比较。
步骤202B:在确定存在多条相似的信息时,用同一标记来标识所述多条相似的信息。
步骤202C:判断未经过过滤的信息中是否有未提取的信息,若有,则继续步骤202A,否则继续步骤202D。
步骤202D:保留带有同一标记的多条相似信息中的一条信息,并删除带有同一标记的其它信息。如带有同一标记的信息为B1、B3、B4和A1,则保留A1,删除B1、B3和B4。
如另一种具体实现方式是:如果过滤后保留的信息数量比较大,则可以先在未经过过滤的信息之间进行比较,保留相似信息中的一条信息,再将剩余信息与过滤后保留的信息进行比较,以减少比较次数。具体步骤如下:
例如未经过过滤的信息为B1、B2、B3、B4、B5,过滤后保留的信息为A1、A2、A3、A4、A5、A6、A7、A8、A9、A0。
步骤202H:从未经过过滤的信息中提取一条信息与其它未经过过滤的信息进行比较。如将B1与B2、B3、B4、B5进行比较。
步骤202I:在比较过程中确定两条信息相似时,删除其中一条信息,被保留的信息继续参与后续比较。如B1与B3相似,当删除B3时,B1继续与B4、B5比较,当删除B1时,由B3代替B1继续与B4、B5比较。
步骤202J:判断未经过过滤的信息中是否至少有两条未提取的信息,若有,则继续步骤202H,否则继续步骤202K。
步骤202K:从经过步骤202H至步骤202J保留的信息中提取一条信息与之前过滤后保留的信息进行比较。如将B2与A1、A2、A3、A4、A5、A6、A7、A8、A9、A0比较。
步骤202L:在确定存在两条相似的信息时,删除其中一条信息。
步骤202M:判断步骤202L中是否有未取到的信息,若有,则继续步骤202L,否则结束流程。
通过举例可以看出,采用步骤202A至步骤202D所述的方法,比较次数为60次,采用步骤202H至步骤202M所述的方法,比较次数为35次,过滤速度明显提高。
如再一种具体实现方式是:如果未经过过滤的信息数量比较大,则可以先将过滤后保留的信息与未经过过滤的信息进行比较,保留相似信息中的一条信息,再在未经过过滤的信息中保留下来的信息之间进行比较,以减少比较次数。
例如未经过过滤的信息为B1、B2、B3、B4、B5、B6、B7、B8、B9、B0,过滤后保留的信息为A1、A2、A3、A4、A5。
步骤202R:从未经过过滤的信息中提取一条信息与之前过滤后保留的信息进行比较。如将B1与A1、A2、A3、A4、A5进行比较。
步骤202S:在比较过程中确定两条信息相似时,删除其中一条信息,被保留的信息继续参与后续比较。如B1与A3相似,当删除A3时,B1继续与A4、A5比较,当删除A3时,由B1代替A3并终止B1与A4、A5的比较,继续步骤202T。
步骤202T:判断未经过过滤的信息中是否有未取到的信息,若有,则继续步骤202R,否则继续步骤202U。例如,B1与A3相似,B2与A2相似,B3与A1相似,B4与A4相似,B5与A5相似,则剩余信息有B6、B7、B8、B9、B0。
步骤202U:从未经过过滤的信息经过步骤202R至202T后保留的信息中提取一条信息与其它未经过过滤的信息经过步骤202R至202T后保留的信息进行比较。如将B6与B7、B8、B9、B0比较。
步骤202V:在确定存在两条相似的信息时,删除其中一条信息。如B6与B7、B8相似,则保留B6。
步骤202W:判断步骤202U中是否至少有两条未取到的信息,若有,则继续步骤202U,否则结束流程。
通过举例可以看出,采用步骤202A至步骤202D所述的方法,比较次数为95次;采用步骤202H至步骤202M所述的方法,比较次数为70次;采用步骤202R至步骤202W所述的方法,比较次数为55次,过滤速度明显提高。
本实施例还可以在步骤202之后,即在确定相似信息后,通过人工对相似信息做进一步判断,并删除需要删除的信息。
本实施例中的装置还包括分类模块105,参见图3所示。分类模块105根据预设的条件对信息进行分类,比较模块103在之前所述的比较方式基础上,只需对同类信息进行比较,进一步减少了比较次数。分类条件包括账户名相同、发布时间相同(例如发布时间均为1月1日。)、来自同一地区、属于同一领域(如通信领域)、具有相同的关键词(如动物)等。每次比较时可以根据实际需要选择上述条件中的一项或多项条件对信息进行分类。例如根据账户名相同对信息进行分类,删除同一账户发布的相似信息,此种方法较适用于电子商务领域。
下面介绍的过滤信息的方法为对同类信息比较的具体方法流程,参见图4所示:
步骤401:接收用户发布的信息并保存。
步骤402:根据预设的条件对信息进行分类,该步骤可以在接收信息时实时的进行,或者在需要过滤信息时进行。例如根据关键词对信息进行分类。对应关键词“动物”的信息被分为一类。
步骤403:当需要过滤信息时,将之前过滤后保留的信息与未经过过滤的信息并且属于同一类的信息进行比较,以及在未经过过滤的信息之间并且属于同一类的信息进行比较,确定相似的信息。例如,仅对对应关键词“动物”的信息进行比较,不必将对应关键词“手机”的信息与对应关键词“动物”的信息进行比较。因为它们之间为相似信息的可能性极小。
步骤404:保留相似信息中的一条信息,删除其它相似信息。
本实施例中的装置还包括提取模块106,参见图5所示。提取模块106确定需要比较的信息,并从需要进行比较的两条信息中选择部分信息交由比较模块103进行比较。提取模块106先将信息的头部删除,从剩余部分选择参与比较的部分。头部包括信息的名称、发布的时间、发布者信息及程序代码等。头部中的内容通常会影响对信息相似性判断的准确性,并且增加了比较的工作量。如果是以超文本连接标识语言(HTML)展示信息,则程序代码包括<head>等。提取模块106从需要进行比较的两条信息中选择相同位置、相同长度的信息参与比较,可以是随机选择,也可以是根据参数选择。例如,位置参数为100,长度参数为10,则从每100个字中选择前10个字参与比较。如果一条信息的长度小于另一条信息,缺少的部分设为0,显然相似度也为0。
此时,确定两条信息是否相似的方法有多种,如一种方法是:在从两条信息中选择的多处信息中,如果有一处信息的相似度不小于预设的阈值,则确定两条信息相似,两条信息的后续部分也就不需要参与比较。这种方法较适用于每处信息的长度较长的情况,如100。如另一种方法是:在从两条信息中选择的多处信息中,各处信息的相似度的平均值不小于预设的阈值,则确定两条信息相似;或者多处信息的相似度均不小于预设的阈值,则确定两条信息相似,这种方法较适用于每处信息的长度较短的情况,如10。
下面介绍的过滤信息的方法为对信息中部分内容比较的具体方法流程,参见图6所示:
步骤601:接收用户发布的信息并保存。
步骤602:根据预设的条件对信息进行分类,该步骤可以在接收信息时实时的进行,或者在需要过滤信息时进行。例如根据关键词对信息进行分类。对应关键词“动物”的信息被分为一类。
步骤603:当需要过滤信息时,确定之前过滤后保留的信息与未经过过滤的信息并且属于同一类的信息需要进行比较,以及在未经过过滤的信息之间并且属于同一类的信息需要进行比较,并从需要进行比较的两条信息中选择部分信息参与比较。
步骤604:对参与比较的信息进行比较,并根据比较结果确定相似的信息。
步骤605:保留相似信息中的一条信息,删除其它相似信息。
上述方法流程是一种较佳的实施方式,也可以不对信息进行分类,仅确定之前过滤后保留的信息与未经过过滤的信息需要进行比较,以及在未经过过滤的信息之间需要进行比较,并从需要进行比较的两条信息中选择部分信息参与比较。
本发明实施例在过滤信息过程中不对过滤后保留的信息之间进行重复比较,减少了过滤次数,提高了过滤信息的速度,同时减轻的过滤装置的负载。本发明实施例还通过改变信息比较的次序,以减少需要比较的信息量。同时,本发明实施例还只对同类信息进行比较,减少需要比较的信息量。并且,本发明实施例只对信息中的部分信息进行比较,减少比较信息的长度,从而提高了过滤信息的速度。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (13)

1.一种过滤信息的方法,其特征在于,包括以下步骤:
将未过滤的信息与之前过滤后保留的信息进行两两比较,并在所述未过滤的信息中的各条信息之间进行两两比较;以及
在确定存在多条信息相似时,仅保留该多条信息中的一条信息。
2.如权利要求1所述的过滤信息的方法,其特征在于,根据预设的条件将信息进行分类,仅对同类信息进行比较。
3.如权利要求2所述的过滤信息的方法,其特征在于,所述预设的条件为多个。
4.如权利要求1所述的过滤信息的方法,其特征在于,各信息的头部不参与比较。
5.如权利要求1至4中任一项所述的过滤信息的方法,其特征在于,从需要进行比较的两条信息中分别选取一处或多处相同位置且相同长度的部分信息,并进行比较。
6.如权利要求5所述的过滤信息的方法,其特征在于,在确定至少一处部分信息相似时,确定所述两条信息相似;或者,在确定所有部分信息整体相似时,确定所述两条信息相似。
7.如权利要求1所述的过滤信息的方法,其特征在于,对信息进行两两比较,在发现两条信息相似时删除其中一条信息。
8.如权利要求7所述的过滤信息的方法,其特征在于,当所述未过滤的信息数量大于所述之前过滤后保留的信息数量时,先将未过滤的信息与之前过滤后保留的信息进行比较,再在所述未过滤的信息中的各条信息之间进行比较;当所述之前过滤后保留的信息数量大于所述未过滤的信息数量时,先在所述未过滤的信息中的各条信息之间进行比较,再将未过滤的信息与之前过滤后保留的信息进行比较。
9.如权利要求1所述的过滤信息的方法,其特征在于,在比较过程中集中标识相似的信息,以及在比较结束时从集中标识的相似信息中选择一条信息并保留。
10.如权利要求1所述的过滤信息的方法,其特征在于,进行比较的两条信息中相等的部分与进行比较的部分的比值不小于预设的阈值时确定所述两条信息相似。
11.一种用于过滤信息的装置,其特征在于,包括:
存储模块,用于存储未过滤的信息和之前过滤后保留的信息;
比较模块,用于将未过滤的信息与之前过滤后保留的信息进行两两比较,并在所述未过滤的信息中的各条信息之间进行两两比较,以及确定相似的信息;
执行模块,用于在确定存在多条信息相似时,仅保留所述存储模块中该多条信息中的一条信息。
12.如权利要求11所述的用于过滤信息的装置,其特征在于,还包括:
分类模块,用于根据预设的条件将信息进行分类;
所述比较模块仅对同类信息进行比较。
13.如权利要求11或12所述的用于过滤信息的装置,其特征在于,还包括:
提取模块,用于从需要进行比较的两条信息中分别选取一处或多处相同位置且相同长度的部分信息;
所述比较模块对需要进行比较的两条信息中选取的部分信息进行比较。
CN2007100974085A 2007-04-29 2007-04-29 一种过滤信息的方法及装置 Active CN101296220B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2007100974085A CN101296220B (zh) 2007-04-29 2007-04-29 一种过滤信息的方法及装置
HK08114084.0A HK1120967A1 (en) 2007-04-29 2008-12-30 A method and device for filtering information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100974085A CN101296220B (zh) 2007-04-29 2007-04-29 一种过滤信息的方法及装置

Publications (2)

Publication Number Publication Date
CN101296220A CN101296220A (zh) 2008-10-29
CN101296220B true CN101296220B (zh) 2011-03-16

Family

ID=40066235

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100974085A Active CN101296220B (zh) 2007-04-29 2007-04-29 一种过滤信息的方法及装置

Country Status (2)

Country Link
CN (1) CN101296220B (zh)
HK (1) HK1120967A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104050189B (zh) * 2013-03-14 2019-05-28 华为技术有限公司 页面共享处理方法及装置
CN103514285A (zh) * 2013-09-29 2014-01-15 方正国际软件有限公司 最优记录数据的生成系统和生成方法
CN105007504B (zh) * 2015-07-13 2018-10-26 无锡天脉聚源传媒科技有限公司 一种浏览记录处理方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1416644A (zh) * 2000-11-09 2003-05-07 皇家菲利浦电子有限公司 基于内容过滤以限制重复出现的方法和系统
CN1486036A (zh) * 2003-08-22 2004-03-31 北京港湾网络有限公司 海量信息高速分类和过滤的方法
CN1794719A (zh) * 2005-12-31 2006-06-28 西安交大捷普网络科技有限公司 一种基于权重关键字的Web过滤方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1416644A (zh) * 2000-11-09 2003-05-07 皇家菲利浦电子有限公司 基于内容过滤以限制重复出现的方法和系统
CN1486036A (zh) * 2003-08-22 2004-03-31 北京港湾网络有限公司 海量信息高速分类和过滤的方法
CN1794719A (zh) * 2005-12-31 2006-06-28 西安交大捷普网络科技有限公司 一种基于权重关键字的Web过滤方法

Also Published As

Publication number Publication date
CN101296220A (zh) 2008-10-29
HK1120967A1 (en) 2009-04-09

Similar Documents

Publication Publication Date Title
CN103377200A (zh) 用户偏好信息采集方法和装置
CN104461742B (zh) 计算设备优化方法及装置
CN105868332A (zh) 一种热点概念的推荐方法和装置
CN102148805A (zh) 特征匹配方法和装置
CN107798046B (zh) 客户身份信息处理方法、装置、存储介质和计算机设备
CN104462096B (zh) 舆情监测分析方法和装置
CN110377908A (zh) 语义理解方法、装置、设备及可读存储介质
CN101296220B (zh) 一种过滤信息的方法及装置
CN104778271A (zh) 一种视频数据的缓存方法及装置
CN106033428B (zh) 统一资源定位符的选择方法和统一资源定位符的选择装置
CN110175152A (zh) 一种日志查询方法、中转服务器集群及日志查询系统
CN109800416A (zh) 一种电力设备名称识别方法
CN101686279A (zh) 短信自动归类收藏的方法
CN112633992A (zh) 基于语音识别的销售管理方法及系统
CN106856014A (zh) 一种停车场管理系统及方法
CN103634470A (zh) 一种基于终端移动数据接入网Qos的人机交互预测方法
CN103942226A (zh) 获取热点内容的方法和装置
CN112035534A (zh) 一种实时大数据处理方法、装置及电子设备
CN105718524A (zh) 确定视频正本的方法和装置
CN105653617B (zh) 多媒体文件管理器快速显示文件的方法及系统
CN107193922A (zh) 一种信息处理的方法及装置
CN111182485A (zh) 一种单条话单总流量控制系统及方法
CN202870847U (zh) 虹膜ic卡识别仪
CN113655958A (zh) 应用数据的存储方法
CN101827175A (zh) 一种话单分拣分目录存储的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1120967

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1120967

Country of ref document: HK