CN104834685A - 一种对评论类网页中的评论信息块进行处理的方法与装置 - Google Patents

一种对评论类网页中的评论信息块进行处理的方法与装置 Download PDF

Info

Publication number
CN104834685A
CN104834685A CN201510184704.3A CN201510184704A CN104834685A CN 104834685 A CN104834685 A CN 104834685A CN 201510184704 A CN201510184704 A CN 201510184704A CN 104834685 A CN104834685 A CN 104834685A
Authority
CN
China
Prior art keywords
comment
invalid
webpage
invalid content
class webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510184704.3A
Other languages
English (en)
Inventor
俞健
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baidu International Technology Shenzhen Co Ltd
Original Assignee
Baidu International Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baidu International Technology Shenzhen Co Ltd filed Critical Baidu International Technology Shenzhen Co Ltd
Priority to CN201510184704.3A priority Critical patent/CN104834685A/zh
Publication of CN104834685A publication Critical patent/CN104834685A/zh
Pending legal-status Critical Current

Links

Abstract

本发明的目的是提供一种对评论类网页中的评论信息块进行处理的方法与装置。其中,本发明识别包含一个或多个评论信息块的评论类网页,并进一步基于无效内容规则库来识别并过滤这些评论信息块中的无效内容信息块,例如包含“顶”、“沙发”等无效的评论内容的帖子,进而将过滤后的评论类网页提供给用户。因此,本发明可以使用户更方便、准确地获得有效的信息,节省用户的时间和精力,提高用户获取信息的效率。

Description

一种对评论类网页中的评论信息块进行处理的方法与装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种对评论类网页中的评论信息块进行处理的技术。
背景技术
当前,百度贴吧、天涯社区等评论网站非常流行。用户可以在这些网站中发表评论主题、回复评论内容。例如,一个用户在天涯社区发起一个评论主题,随后,该用户以及其他用户可以在该主题下的一个或多个网页中回复评论内容。在本文中,评论内容(即通常所称的帖子)所在的页面分块可以被称为评论信息块。并且,包含这些评论信息块的网页可以被称为评论类网页。
然而,这些评论内容中通常存在大量无效的水帖,例如“顶”、“沙发”等。用户想在包含大量水帖的网页中找到有效帖子或自己需要的帖子通常需要花费较大的时间和精力。
显然,现有技术仅简单地为用户提供评论类网页,但并未对其中无效的评论信息块进行任何特殊的处理。因此,用户很难准确地获得有效信息。
发明内容
本发明的目的是提供一种对评论类网页中的评论信息块进行处理的方法与装置。
根据本发明的一个方面,提供了一种对评论类网页中的评论信息块进行处理的方法,其中,该方法包括:
-识别评论类网页,所述评论类网页包含一个或多个评论信息块;
-基于无效内容规则库,识别所述评论信息块中的无效内容信息块;
-对所述无效内容信息块进行过滤,以获得过滤后的评论类网页;
-将所述过滤后的评论类网页提供给用户。
根据本发明的另一个方面,还提供了一种对评论类网页中的评论信息块进行处理的装置,其中,该装置包括:
-用于识别评论类网页的装置,所述评论类网页包含一个或多个评论信息块;
-用于基于无效内容规则库,识别所述评论信息块中的无效内容信息块的装置;
-用于对所述无效内容信息块进行过滤,以获得过滤后的评论类网页的装置;
-用于将所述过滤后的评论类网页提供给用户的装置。
与现有技术相比,本发明识别包含一个或多个评论信息块的评论类网页,并进一步基于无效内容规则库来识别并过滤这些评论信息块中的无效内容信息块,例如包含“顶”、“沙发”等无效的评论内容的帖子,进而将过滤后的评论类网页提供给用户。因此,本发明可以使用户更方便、准确地获得有效的信息,节省用户的时间和精力,提高用户获取信息的效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一个实施例的一种对评论类网页中的评论信息块进行处理的方法流程图;
图2示出根据本发明一个实施例的一种对评论类网页中的评论信息块进行处理的装置示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
在上下文中所称“计算机设备”,也称为“电脑”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由ASIC、FPGA、DSP等硬件执行预定处理过程,或是由上述二者组合来实现。计算机设备包括但不限于服务器、个人电脑、笔记本电脑、平板电脑、智能手机等。
所述计算机设备例如包括用户设备与网络设备。其中,所述用户设备包括但不限于智能手机、PDA、PC、笔记本电脑等;所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。其中,所述计算机设备可单独运行来实现本发明,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本发明。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、VPN网络等。
需要说明的是,所述用户设备、网络设备和网络等仅为举例,其他现有的或今后可能出现的计算机设备或网络如可适用于本发明,也应包含在本发明保护范围以内,并以引用方式包含于此。
本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。
这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本发明的示例性实施例的目的。但是本发明可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。
应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。
这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。
还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。
下面结合附图对本发明作进一步详细描述。
本发明可由用户设备实现。具体地,用户设备识别评论类网页,所述评论类网页包含一个或多个评论信息块;接着,用户设备基于无效内容规则库,识别该(等)评论信息块中的无效内容信息块;随后,用户设备对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页;接着,用户设备将过滤后的评论类网页提供给用户。
优选地,本发明的方案可以由一种安装并运行于用户设备中的具有浏览器性征的应用来实现。在此,所述具有浏览器性征的应用典型地如浏览器,其包括运行于PC、笔记本电脑的各种浏览器应用程序,以及运行于移动终端的各种浏览器APP或具有浏览器功能的各种APP。进一步地,本发明的方案可以作为一个功能模块集成在前述具有浏览器性征的应用中。
其中,移动终端包括但不限于任何一种基于智能操作系统的手持式电子产品,其可与用户通过键盘、虚拟键盘、触摸板、触摸屏以及声控设备等输入设备来进行人机交互,诸如智能手机、平板电脑等。其中,智能操作系统包括但不限于任何通过向移动设备提供各种移动应用来丰富设备功能的操作系统,诸如安卓(Android)、IOS、WindowsPhone等。
此外,本发明也可以由网络设备实现。具体地,网络设备识别评论类网页,所述评论类网页包含一个或多个评论信息块;接着,网络设备基于无效内容规则库,识别该(等)评论信息块中的无效内容信息块;随后,网络设备对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页;接着,网络设备将过滤后的评论类网页提供给用户。
在此,网络设备包括但不限于各种在用户设备与网站服务器之间进行数据中转的中转网络设备。典型地,中转网络设备例如代理服务器、转码服务器等。
为简单说明起见,本发明多以浏览器对评论类网页中的评论信息块进行处理进行举例。本领域技术人员应能理解,网络设备或其它设备对评论类网页中的评论信息块进行处理的方案,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
图1示出根据本发明一个实施例的方法流程图,其具体示出一种对评论类网页中的评论信息块进行处理的过程。在步骤S1中,浏览器识别评论类网页,所述评论类网页包含一个或多个评论信息块;在步骤S2中,浏览器基于无效内容规则库,识别该(等)评论信息块中的无效内容信息块;在步骤S3中,浏览器对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页;在步骤S4中,浏览器将过滤后的评论类网页提供给用户。
具体地,在步骤S1中,浏览器识别评论类网页,所述评论类网页包含一个或多个评论信息块。
在此,应对评论类网页做广义理解,其不仅指通常所认为的就一评论主题回复评论内容的网页,诸如百度贴吧、天涯社区中各评论主题下的评论页面,还应包括其他任何具有该相同表现形式的交互类网页,只要该交互类网页满足以下形式要件:具有一个主题以及对应于该主题的一个或多个回复,具体如各种问答类网页,如百度知道中的各问答页面。
评论信息块意指网页中包含有文字或图片等评论信息的分区或分块。评论信息块例如可以包括评论者名称(ID)、评论者头像、评论内容(帖子)等信息。
浏览器至少可以基于以下3种方式识别评论类网页:
1)浏览器根据评论类网页的网页结构特征信息,识别评论类网页。
在此,网页结构特征信息包括但不限于各种从结构或架构的角度体现网页特征的信息。
评论类网页的网页结构特征信息主要通过块类别来体现,例如网页代码中<div class="atl-con-bd clearfix">、<div class="atl-reply">、<divclass="core_reply j_lzl_wrapper">、<div class="core_reply_tail">等块类别信息。评论类网页的网页结构特征信息可以通过预先分析各评论类网页的网页结构来确定。
据此,浏览器可以基于预先分析确定的评论类网页的网页结构特征信息扫描网页的代码,如果一网页的网页代码中包含前述任一网页结构特征信息,则该网页属于评论类网页;如果一网页的网页代码中不包含前述任一网页结构特征信息,则该网页不属于评论类网页。
预先分析确定的评论类网页的网页结构特征信息可以被保存在网页结构特征信息库中。该网页结构特征信息库可以从网络设备等其他设备获得或更新。
2)浏览器识别当前网页所属的评论类站点;接着,浏览器根据该评论类站点中评论类网页的网页结构特征信息,识别评论类网页。
其中,评论类站点意指评论类网页所归属的站点。评论类站点例如百度贴吧、天涯论坛等。
在此,属于评论类站点的网页并不一定属于评论类网页。例如,百度贴吧中“文科吧”、“樱桃小丸子吧”这些“吧”的首页以及百度贴吧的首页不一定包含评论信息块,因此,这些网页不一定属于评论类网页。
当前网页所属的评论类站点可以由浏览器基于评论类站点的站点标识信息来识别。所述站点标识信息包括但不限于各种可以用于标识特定站点的信息。评论类站点的站点标识信息例如http://bbs.tianya.cn、http://tieba.baidu.com等网址,以及天涯论坛、百度贴吧等网页标题。评论类站点的站点标识信息可以通过预先分析评论类站点的网址、网页标题等站点标识信息来确定。
接着,浏览器根据所识别的评论类站点中评论类网页的网页结构特征信息,识别评论类网页。
在此,浏览器可以通过查询评论类站点特征信息关联表来确定评论类站点中评论类网页的网页结构特征信息。所述评论类站点特征信息关联表中保存有多个评论类站点以及每个评论类站点中评论类网页的网页结构特征信息。所述评论类站点特征信息关联表可以从网络设备等其他设备获得或更新。所述评论类站点特征信息关联表如以下表1所示:
表1
浏览器根据通过查询表1所确定的评论类站点中评论类网页的网页结构特征信息,扫描属于该评论类站点的网页的网页代码,如果该网页的网页代码中包含相应的网页结构特征信息,则该网页属于评论类网页;如果该网页的网页代码中不包含相应的网页结构特征信息,则该网页不属于评论类网页。
根据本发明一个优选实施例,浏览器识别当前网页所属的评论类站点为天涯论坛;接着,浏览器根据该评论类站点中评论类网页的网页结构特征信息<div class="atl-con-bd clearfix">和<divclass="atl-reply">,确定当前网页是否属于评论类网页。
浏览器先识别当前网页所属的评论类站点,再根据所识别的评论类站点中评论类网页的网页结构特征信息来识别评论类网页的过程可以独立实施,该过程也可以被认为是浏览器根据评论类网页的网页结构特征信息来识别评论类网页的一种优选实施方式。
在此,对于不属于评论类站点的网页,浏览器将不再根据评论类网页的网页结构特征信息对该网页进行识别。因此,浏览器识别当前网页所属的评论类站点的步骤可以避免对所有网页进行其是否属于评论类网页的识别,从而提高了计算处理的效率。并且,浏览器可以根据所识别的评论类站点准确地确定相应的评论类网页的网页结构特征信息,从而可以避免根据预先分析确定的所有评论类网页的网页结构特征信息来识别评论类网页,这也可以提高计算处理的效率。
3)浏览器根据评论类网页的网页标识信息,识别评论类网页。
其中,网页标识信息包括但不限于各种可以用于标识特定网页的信息。网页标识信息例如网址、网页标题等。
由于评论类网页的网址、网页标题等网页标识信息具有一定的命名规则,因此评论类网页的网页标识信息可以通过预先分析相应的命名规则来确定。
例如,百度贴吧中评论类网页的网页标识信息例如网址“http://tieba.baidu.com/p/XXXXXXXXXX”(XXXXXXXXXX可以为任何数字字符)、网页标题“YYYY_ZZZZ吧_百度贴吧”(YYYY、ZZZZ均可以为任何数字或文字字符)等。
据此,浏览器可以将预先分析确定的评论类网页的网页标识信息与当前网页的网页标识信息相比较,如果相同,则该网页属于评论类网页;如果不同,则该网页不属于评论类网页。
预先分析确定的评论类网页的网页标识信息可以被保存在网页标识信息库中。该网页标识信息库可以从网络设备等其他设备获得或更新。
本领域技术人员应能理解,前述3种识别评论类网页的方式仅为举例,而不应被视为对本发明的任何限制,任何现有其它方案或今后可能出现的识别评论类网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于不属于评论类网页的网页,浏览器并不做特殊处理,因此,该类网页不属于本文的讨论范围。
在步骤S2中,浏览器基于无效内容规则库,识别评论类网页的一个或多个评论信息块中的无效内容信息块。
其中,无效内容信息块意指包含无效的或被认为无效的信息的评论信息块。
所述无效内容规则库包括一个或多个无效内容规则。浏览器可以对评论类网页的网页代码进行分析,以获得评论类网页的一个或多个评论信息块,进而识别该(等)评论信息块中符合无效内容规则的无效内容信息块。
在此,无效内容规则包括但不限于以下至少任一项:
1)无效的评论内容。
在此,无效的评论内容例如“沙发”、“顶”、“路过”等。
如果一评论信息块的内容仅包括无效的评论内容而不包括任何其他信息,该评论信息块可以被识别为无效内容信息块。或者,浏览器可以按照更严厉地方式识别无效内容信息块。例如,只要一评论信息块的内容中包括无效的评论内容,则该评论信息块即被识别为无效内容信息块。
2)无效的评论者名称。
在此,评论者名称意指评论者的ID。
无效的评论者例如经常发布广告信息的评论者,又如被封禁的评论者,还如用户不希望看到其评论的评论者。
如果一评论信息块的评论者名称与无效的评论者名称一致,该评论信息块可以被识别为无效内容信息块。
3)无效的评论者等级。
在此,评论者等级包括但不限于评论者经验值、评论者头衔等表示评论者资历的信息。
无效的评论者等级可以为任意等级。例如,无效的评论者等级可以被配置为评论者经验值低于500或菜鸟评论者等。
如果一评论信息块的评论者等级对应于无效的评论者等级,则该评论信息块被识别为无效内容信息块。
4)无效的评论时间。
在此,评论时间意指评论者发出评论的时间。
无效的评论时间可以为任何时间。例如,无效的评论时间可以被配置为2015年3月24日10:00之前,或者被配置为2015年3月24日10:00至10:30的区间之内。
如果一评论信息块的评论时间对应于无效的评论时间,则该评论信息块被识别为无效内容信息块。
在此,无效内容规则库可以为浏览器的本地数据库,也可以为网络设备的网络数据库。进一步地,当无效内容规则库为浏览器的本地数据库,其也可以根据网络设备的网络数据库来建立和/或更新。
例如,无效内容规则可以为开发人员预配置的。无效内容规则库可以在浏览器安装过程中被保存在用户设备中。或者,浏览器也可以向网络设备发送无效内容规则查询/获取请求,并获得该网络设备响应该请求为浏览器返回的一个或多个无效内容规则。
优选地,无效内容规则可以由用户配置。
例如,浏览器可以为用户呈现用于配置无效内容规则的图形用户界面。用户可以在该图形用户界面中对无效的评论内容、无效的评论者名称、无效的评论者等级、无效的评论时间等无效内容规则进行配置。浏览器可以保存用户所配置的无效内容规则。
更优选地,当无效内容规则库还包括网络设备的网络数据库时,网络设备可以根据多个用户所配置的无效内容规则,建立或更新该网络数据库。
例如,各浏览器可以将用户配置的无效内容规则发送给网络设备,相应地,网络设备获得多个用户配置的无效内容规则,以建立或更新网络数据库(无效内容规则库)。
其中,所述建立网络数据库意指从无到有的存储无效内容规则,以构建网络数据库的过程。
所述更新网络数据库意指在网络数据库建立后,对其中存储的无效内容规则进行更新的过程,该更新可以包括无效内容规则的新增、删除和更改。
对于浏览器的本地数据库,浏览器可以从其他设备获取无效内容规则库的更新信息,以更新该本地数据库。
其中,所述其他设备包括但不限于网络设备以及手机、ipad等其他用户设备。
例如,浏览器可以从网络设备获取无效内容规则库的更新信息,该更新信息包括新增的三个无效内容规则;接着,浏览器将这三个无效内容规则增加至浏览器的本地数据库(无效内容规则库)中。
在此,浏览器从其他设备获取无效内容规则库的更新信息与浏览器获取用户配置的无效内容规则并非相互排斥的。例如,在基于用户配置的无效内容规则建立本地数据库后,浏览器再基于从其他设备获取的无效内容规则库的更新信息来更新本地数据库。
从更新频率角度而言,浏览器可以按照多种方式更新本地数据库。例如,浏览器可以在每次被开启时均向其他设备请求无效内容规则库的更新信息并更新本地数据库。再如,浏览器可以在预定的时间(如每周五20:00)向其他设备请求无效内容规则库的更新信息并更新本地数据库。
在步骤S3中,浏览器对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页。在步骤S4中,浏览器将过滤后的评论类网页提供给用户。
在此,浏览器可以按照以下两种方式对无效内容信息块进行过滤:
1、浏览器对无效内容信息块进行过滤。
在此,浏览器可以过滤掉整个无效内容信息块,也即,包含评论者名称(ID)、评论者头像、评论内容等信息的完整页面块被过滤。随后,被提供给用户的过滤后的评论类网页中将不再包含关于无效内容信息块的任何信息。
其中,浏览器对无效内容信息块进行过滤的方式包括但不限于以下2种:
1)浏览器可以将无效内容信息块的块(div)属性修改为隐藏(hidden)。
进一步地,浏览器还可以在评论类网页中被过滤的无效内容信息块的位置处,如右上角,增加一交互按钮,如隐藏/展开按钮。当用户触发该展开按钮时,被隐藏的无效内容信息块将被呈现给用户;该按钮随后被显示为隐藏,当用户再次触发该隐藏按钮时,该无效内容信息块将被隐藏。
2)浏览器可以删除无效内容信息块对应的全部网页代码。
例如,一个评论类网页包括20个评论信息块。其中,第5个评论信息块被识别为无效内容信息块。在该无效内容信息块被过滤后,过滤后的评论类网页中仅19个评论信息块对用户可见。
2、浏览器仅对无效内容信息块中无效的评论内容进行过滤。
在此,浏览器也可以仅将对应于无效的评论内容的网页代码进行删除。随后,被提供给用户的过滤后的评论类网页中将不再包含无效的评论内容。而该无效的评论内容所属的无效内容信息块中的评论者名称(ID)、评论者头像等其他信息仍然对用户可见。
进一步地,浏览器还可以在无效内容信息块中增加一交互按钮,如隐藏/展开按钮。当用户触发该展开按钮时,被隐藏的无效内容信息将被呈现给用户;该按钮随后被显示为隐藏,当用户再次触发该隐藏按钮时,无效内容信息将被隐藏。
本领域技术人员应能理解,前述两种对无效内容信息块进行过滤的方式仅为举例,而不应被视为对本发明的任何限制,任何现有或今后可能出现的其他对无效内容信息块进行过滤的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,浏览器还可以统计无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量。并且,浏览器还可以将所统计的无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量与过滤后的评论类网页一并提供给用户。
其中,无效内容信息块的类别可以基于多种方式确定。例如,无效内容信息块所对应的无效内容规则可以作为无效内容信息块的类别。
例如,在包括15个评论信息块的评论类网页中,浏览器统计得到以下信息:内容为“沙发”的无效内容信息块有2个;内容为“顶”的无效内容信息块有3个。浏览器则将前述统计信息与过滤后的评论类网页一并提供给用户。
在此,浏览器可以将无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量与评论类网页同时提供给用户。或者,无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量也可以在用户浏览到评论类网页中某一位置时通过弹框的方式提供给用户,如当页面滑动至邻近无效内容信息块的区域时,浏览器通过弹框向用户提示邻近无效内容信息块的类别及数量。
图2示出根据本发明一个实施例的装置示意图,其具体示出一种对评论类网页中的评论信息块进行处理的装置,也即过滤装置10。如图2所示,过滤装置10被装置于浏览器中,并具体包括装置11-14。
装置11识别评论类网页,所述评论类网页包含一个或多个评论信息块(为便于区分,以下将装置11称为评论网页识别装置11);装置12基于无效内容规则库,识别该(等)评论信息块中的无效内容信息块(为便于区分,以下将装置12称为无效内容识别装置12);装置13对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页(为便于区分,以下将装置13称为无效内容过滤装置13);装置14将过滤后的评论类网页提供给用户(为便于区分,以下将装置14称为评论网页提供装置14)。
具体地,评论网页识别装置11识别评论类网页,所述评论类网页包含一个或多个评论信息块。
在此,应对评论类网页做广义理解,其不仅指通常所认为的就一评论主题回复评论内容的网页,诸如百度贴吧、天涯社区中各评论主题下的评论页面,还应包括其他任何具有该相同表现形式的交互类网页,只要该交互类网页满足以下形式要件:具有一个主题以及对应于该主题的一个或多个回复,具体如各种问答类网页,如百度知道中的各问答页面。
评论信息块意指网页中包含有文字或图片等评论信息的分区或分块。评论信息块例如可以包括评论者名称(ID)、评论者头像、评论内容(帖子)等信息。
评论网页识别装置11至少可以基于以下3种方式识别评论类网页:
1)评论网页识别装置11根据评论类网页的网页结构特征信息,识别评论类网页。
在此,网页结构特征信息包括但不限于各种从结构或架构的角度体现网页特征的信息。
评论类网页的网页结构特征信息主要通过块类别来体现,例如网页代码中<div class="atl-con-bd clearfix">、<div class="atl-reply">、<divclass="core_reply j_lzl_wrapper">、<div class="core_reply_tail">等块类别信息。评论类网页的网页结构特征信息可以通过预先分析各评论类网页的网页结构来确定。
据此,评论网页识别装置11可以基于预先分析确定的评论类网页的网页结构特征信息扫描网页的代码,如果一网页的网页代码中包含前述任一网页结构特征信息,则该网页属于评论类网页;如果一网页的网页代码中不包含前述任一网页结构特征信息,则该网页不属于评论类网页。
预先分析确定的评论类网页的网页结构特征信息可以被保存在网页结构特征信息库中。该网页结构特征信息库可以从网络设备等其他设备获得或更新。
2)评论网页识别装置11识别当前网页所属的评论类站点;接着,评论网页识别装置11根据该评论类站点中评论类网页的网页结构特征信息,识别评论类网页。
其中,评论类站点意指评论类网页所归属的站点。评论类站点例如百度贴吧、天涯论坛等。
在此,属于评论类站点的网页并不一定属于评论类网页。例如,百度贴吧中“文科吧”、“樱桃小丸子吧”这些“吧”的首页以及百度贴吧的首页不一定包含评论信息块,因此,这些网页不一定属于评论类网页。
当前网页所属的评论类站点可以由评论网页识别装置11基于评论类站点的站点标识信息来识别。所述站点标识信息包括但不限于各种可以用于标识特定站点的信息。评论类站点的站点标识信息例如http://bbs.tianya.cn、http://tieba.baidu.com等网址,以及天涯论坛、百度贴吧等网页标题。评论类站点的站点标识信息可以通过预先分析评论类站点的网址、网页标题等站点标识信息来确定。
接着,评论网页识别装置11根据所识别的评论类站点中评论类网页的网页结构特征信息,识别评论类网页。
在此,评论网页识别装置11可以通过查询评论类站点特征信息关联表来确定评论类站点中评论类网页的网页结构特征信息。所述评论类站点特征信息关联表中保存有多个评论类站点以及每个评论类站点中评论类网页的网页结构特征信息。所述评论类站点特征信息关联表可以从网络设备等其他设备获得或更新。所述评论类站点特征信息关联表如以上表1所示。
评论网页识别装置11根据通过查询表1所确定的评论类站点中评论类网页的网页结构特征信息,扫描属于该评论类站点的网页的网页代码,如果该网页的网页代码中包含相应的网页结构特征信息,则该网页属于评论类网页;如果该网页的网页代码中不包含相应的网页结构特征信息,则该网页不属于评论类网页。
根据本发明一个优选实施例,评论网页识别装置11识别当前网页所属的评论类站点为天涯论坛;接着,评论网页识别装置11根据该评论类站点中评论类网页的网页结构特征信息<div class="atl-con-bdclearfix">和<div class="atl-reply">,确定当前网页是否属于评论类网页。
评论网页识别装置11先识别当前网页所属的评论类站点,再根据所识别的评论类站点中评论类网页的网页结构特征信息来识别评论类网页的操作可以独立实施,该操作也可以被认为是评论网页识别装置11根据评论类网页的网页结构特征信息来识别评论类网页的一种优选实施方式。
在此,对于不属于评论类站点的网页,评论网页识别装置11将不再根据评论类网页的网页结构特征信息对该网页进行识别。因此,评论网页识别装置11识别当前网页所属的评论类站点的操作可以避免对所有网页进行其是否属于评论类网页的识别,从而提高了计算处理的效率。并且,评论网页识别装置11可以根据所识别的评论类站点准确地确定相应的评论类网页的网页结构特征信息,从而可以避免根据预先分析确定的所有评论类网页的网页结构特征信息来识别评论类网页,这也可以提高计算处理的效率。
3)评论网页识别装置11根据评论类网页的网页标识信息,识别评论类网页。
其中,网页标识信息包括但不限于各种可以用于标识特定网页的信息。网页标识信息例如网址、网页标题等。
由于评论类网页的网址、网页标题等网页标识信息具有一定的命名规则,因此评论类网页的网页标识信息可以通过预先分析相应的命名规则来确定。
例如,百度贴吧中评论类网页的网页标识信息例如网址“http://tieba.baidu.com/p/XXXXXXXXXX”(XXXXXXXXXX可以为任何数字字符)、网页标题“YYYY_ZZZZ吧_百度贴吧”(YYYY、ZZZZ均可以为任何数字或文字字符)等。
据此,评论网页识别装置11可以将预先分析确定的评论类网页的网页标识信息与当前网页的网页标识信息相比较,如果相同,则该网页属于评论类网页;如果不同,则该网页不属于评论类网页。
预先分析确定的评论类网页的网页标识信息可以被保存在网页标识信息库中。该网页标识信息库可以从网络设备等其他设备获得或更新。
本领域技术人员应能理解,前述3种识别评论类网页的方式仅为举例,而不应被视为对本发明的任何限制,任何现有其它方案或今后可能出现的识别评论类网页的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
对于不属于评论类网页的网页,过滤装置10并不做特殊处理,因此,该类网页不属于本文的讨论范围。
随后,无效内容识别装置12基于无效内容规则库,识别评论类网页的一个或多个评论信息块中的无效内容信息块。
其中,无效内容信息块意指包含无效的或被认为无效的信息的评论信息块。
所述无效内容规则库包括一个或多个无效内容规则。无效内容识别装置12可以对评论类网页的网页代码进行分析,以获得评论类网页的一个或多个评论信息块,进而识别该(等)评论信息块中符合无效内容规则的无效内容信息块。
在此,无效内容规则包括但不限于以下至少任一项:
1)无效的评论内容。
在此,无效的评论内容例如“沙发”、“顶”、“路过”等。
如果一评论信息块的内容仅包括无效的评论内容而不包括任何其他信息,该评论信息块可以被识别为无效内容信息块。或者,无效内容识别装置12可以按照更严厉地方式识别无效内容信息块。例如,只要一评论信息块的内容中包括无效的评论内容,则该评论信息块即被识别为无效内容信息块。
2)无效的评论者名称。
在此,评论者名称意指评论者的ID。
无效的评论者例如经常发布广告信息的评论者,又如被封禁的评论者,还如用户不希望看到其评论的评论者。
如果一评论信息块的评论者名称与无效的评论者名称一致,该评论信息块可以被识别为无效内容信息块。
3)无效的评论者等级。
在此,评论者等级包括但不限于评论者经验值、评论者头衔等表示评论者资历的信息。
无效的评论者等级可以为任意等级。例如,无效的评论者等级可以被配置为评论者经验值低于500或菜鸟评论者等。
如果一评论信息块的评论者等级对应于无效的评论者等级,则该评论信息块被识别为无效内容信息块。
4)无效的评论时间。
在此,评论时间意指评论者发出评论的时间。
无效的评论时间可以为任何时间。例如,无效的评论时间可以被配置为2015年3月24日10:00之前,或者被配置为2015年3月24日10:00至10:30的区间之内。
如果一评论信息块的评论时间对应于无效的评论时间,则该评论信息块被识别为无效内容信息块。
在此,无效内容规则库可以为浏览器的本地数据库,也可以为网络设备的网络数据库。进一步地,当无效内容规则库为浏览器的本地数据库,其也可以根据网络设备的网络数据库来建立和/或更新。
例如,无效内容规则可以为开发人员预配置的。无效内容规则库可以在浏览器安装过程中被保存在用户设备中。或者,无效内容识别装置12或过滤装置10中的其他特定装置也可以向网络设备发送无效内容规则查询/获取请求,并获得该网络设备响应该请求返回的一个或多个无效内容规则。
优选地,无效内容规则可以由用户配置。
例如,过滤装置10可以为用户呈现用于配置无效内容规则的图形用户界面。用户可以在该图形用户界面中对无效的评论内容、无效的评论者名称、无效的评论者等级、无效的评论时间等无效内容规则进行配置。过滤装置10可以保存用户所配置的无效内容规则。
更优选地,当无效内容规则库还包括网络设备的网络数据库时,网络设备还可以包括一网络数据库构建装置(网络设备、网络数据库构建装置均未在图2中示出),网络数据库构建装置可以根据多个用户所配置的无效内容规则,建立或更新该网络数据库。
例如,各浏览器的过滤装置10可以将用户配置的无效内容规则发送给网络设备,相应地,网络设备的网络数据库构建装置获得多个用户配置的无效内容规则,以建立或更新网络数据库(无效内容规则库)。
其中,所述建立网络数据库意指从无到有的存储无效内容规则,以构建网络数据库的过程。
所述更新网络数据库意指在网络数据库建立后,对其中存储的无效内容规则进行更新的过程,该更新可以包括无效内容规则的新增、删除和更改。
对于浏览器的本地数据库,浏览器还可以包括一本地数据库更新装置(图2中未示出),本地数据库更新装置可以从其他设备获取无效内容规则库的更新信息,以更新该本地数据库。
其中,所述其他设备包括但不限于网络设备以及手机、ipad等其他用户设备。
例如,本地数据库更新装置可以从网络设备获取无效内容规则库的更新信息,该更新信息包括新增的三个无效内容规则;接着,本地数据库更新装置将这三个无效内容规则增加至浏览器的本地数据库(无效内容规则库)中。
在此,本地数据库更新装置从其他设备获取无效内容规则库的更新信息与过滤装置10获取用户配置的无效内容规则并非相互排斥的。例如,在过滤装置10基于用户配置的无效内容规则建立本地数据库后,本地数据库更新装置再基于从其他设备获取的无效内容规则库的更新信息来更新本地数据库。
从更新频率角度而言,本地数据库更新装置可以按照多种方式更新本地数据库。例如,本地数据库更新装置可以在每次被开启时均向其他设备请求无效内容规则库的更新信息并更新本地数据库。再如,本地数据库更新装置可以在预定的时间(如每周五20:00)向其他设备请求无效内容规则库的更新信息并更新本地数据库。
随后,无效内容过滤装置13对所识别的无效内容信息块进行过滤,以获得过滤后的评论类网页。接着,评论网页提供装置14将过滤后的评论类网页提供给用户。
在此,无效内容过滤装置13可以按照以下两种方式对无效内容信息块进行过滤:
1、无效内容过滤装置13对无效内容信息块进行过滤。
在此,无效内容过滤装置13可以过滤掉整个无效内容信息块,也即,包含评论者名称(ID)、评论者头像、评论内容等信息的完整页面块被过滤。随后,被提供给用户的过滤后的评论类网页中将不再包含关于无效内容信息块的任何信息。
其中,无效内容过滤装置13对无效内容信息块进行过滤的方式包括但不限于以下2种:
1)无效内容过滤装置13可以将无效内容信息块的块(div)属性修改为隐藏(hidden)。
进一步地,无效内容过滤装置13还可以在评论类网页中被过滤的无效内容信息块的位置处,如右上角,增加一交互按钮,如隐藏/展开按钮。当用户触发该展开按钮时,被隐藏的无效内容信息块将被呈现给用户;该按钮随后被显示为隐藏,当用户再次触发该隐藏按钮时,该无效内容信息块将被隐藏。
2)无效内容过滤装置13可以删除无效内容信息块对应的全部网页代码。
例如,一个评论类网页包括20个评论信息块。其中,第5个评论信息块被识别为无效内容信息块。在该无效内容信息块被过滤后,过滤后的评论类网页中仅19个评论信息块对用户可见。
2、无效内容过滤装置13仅对无效内容信息块中无效的评论内容进行过滤。
在此,无效内容过滤装置13也可以仅将对应于无效的评论内容的网页代码进行删除。随后,被提供给用户的过滤后的评论类网页中将不再包含无效的评论内容。而该无效的评论内容所属的无效内容信息块中的评论者名称(ID)、评论者头像等其他信息仍然对用户可见。
进一步地,无效内容过滤装置13还可以在无效内容信息块中增加一交互按钮,如隐藏/展开按钮。当用户触发该展开按钮时,被隐藏的无效内容信息将被呈现给用户;该按钮随后被显示为隐藏,当用户再次触发该隐藏按钮时,无效内容信息将被隐藏。
本领域技术人员应能理解,前述两种对无效内容信息块进行过滤的方式仅为举例,而不应被视为对本发明的任何限制,任何现有或今后可能出现的其他对无效内容信息块进行过滤的方式如可适用于本发明,也应包含在本发明保护范围以内,并在此以引用方式包含于此。
优选地,过滤装置10还可以包括一无效内容统计装置(图2中未示出),无效内容统计装置统计无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量。并且,评论网页提供装置14还可以将所统计的无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量与过滤后的评论类网页一并提供给用户。
其中,无效内容信息块的类别可以基于多种方式确定。例如,无效内容信息块所对应的无效内容规则可以作为无效内容信息块的类别。
例如,在包括15个评论信息块的评论类网页中,无效内容统计装置统计得到以下信息:内容为“沙发”的无效内容信息块有2个;内容为“顶”的无效内容信息块有3个。评论网页提供装置14则将前述统计信息与过滤后的评论类网页一并提供给用户。
在此,评论网页提供装置14可以将无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量与评论类网页同时提供给用户。或者,无效内容信息块的类别以及每个类别所对应的无效内容信息块的数量也可以在用户浏览到评论类网页中某一位置时通过弹框的方式提供给用户,如当页面滑动至邻近无效内容信息块的区域时,评论网页提供装置14通过弹框向用户提示邻近无效内容信息块的类别及数量。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,本发明的各个装置可采用专用集成电路(ASIC)或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面:
1.一种对评论类网页中的评论信息块进行处理的方法,其中,该方法包括:
-识别评论类网页,所述评论类网页包含一个或多个评论信息块;
-基于无效内容规则库,识别所述评论信息块中的无效内容信息块;
-对所述无效内容信息块进行过滤,以获得过滤后的评论类网页;
-将所述过滤后的评论类网页提供给用户。
2.根据条款1所述的方法,其中,所述识别评论类网页的步骤具体包括:
-根据评论类网页的网页结构特征信息,识别所述评论类网页。
3.根据条款1或2所述的方法,其中,所述识别评论类网页的步骤具体包括:
-识别当前网页所属的评论类站点;
-根据所述评论类站点中评论类网页的网页结构特征信息,识别所述评论类网页。
4.根据条款1所述的方法,其中,所述识别评论类网页的步骤具体包括:
-根据评论类网页的网页标识信息,识别所述评论类网页。
5.根据条款1至4中任一项所述的方法,其中,所述无效内容规则库包括一个或多个无效内容规则,所述无效内容规则包括以下至少任一项:
-无效的评论内容;
-无效的评论者名称;
-无效的评论者等级;
-无效的评论时间。
6.根据条款5所述的方法,其中,所述无效内容规则由所述用户配置。
7.根据条款6所述的方法,其中,所述无效内容规则库为网络设备的网络数据库;
其中,该方法还包括:
-根据多个用户所配置的无效内容规则,建立或更新所述网络数据库。
8.根据条款1至7中任一项所述的方法,其中,所述无效内容规则库为浏览器的本地数据库;
其中,该方法还包括:
-从其他设备获取所述无效内容规则库的更新信息,以更新所述本地数据库。
9.根据条款1至8中任一项所述的方法,其中,该方法还包括:
-统计所述无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量;
其中,所述将所述过滤后的评论类网页提供给用户的步骤还包括:
-将所述类别以及所述每个类别所对应的无效内容信息块的数量一并提供给用户。
10.一种对评论类网页中的评论信息块进行处理的装置,其中,该装置包括:
-用于识别评论类网页的装置,所述评论类网页包含一个或多个评论信息块;
-用于基于无效内容规则库,识别所述评论信息块中的无效内容信息块的装置;
-用于对所述无效内容信息块进行过滤,以获得过滤后的评论类网页的装置;
-用于将所述过滤后的评论类网页提供给用户的装置。
11.根据条款10所述的装置,其中,所述识别评论类网页的装置具体用于:
-根据评论类网页的网页结构特征信息,识别所述评论类网页。
12.根据条款10或11所述的装置,其中,所述识别评论类网页的装置具体用于:
-识别当前网页所属的评论类站点;
-根据所述评论类站点中评论类网页的网页结构特征信息,识别所述评论类网页。
13.根据条款10所述的装置,其中,所述识别评论类网页的装置具体用于:
-根据评论类网页的网页标识信息,识别所述评论类网页。
14.根据条款10至13中任一项所述的装置,其中,所述无效内容规则库包括一个或多个无效内容规则,所述无效内容规则包括以下至少任一项:
-无效的评论内容;
-无效的评论者名称;
-无效的评论者等级;
-无效的评论时间。
15.根据条款14所述的装置,其中,所述无效内容规则由所述用户配置。
16.根据条款15所述的装置,其中,所述无效内容规则库为网络设备的网络数据库;
其中,该装置还包括:
-用于根据多个用户所配置的无效内容规则,建立或更新所述网络数据库的装置。
17.根据条款10至16中任一项所述的装置,其中,所述无效内容规则库为浏览器的本地数据库;
其中,该装置还包括:
-用于从其他设备获取所述无效内容规则库的更新信息,以更新所述本地数据库的装置。
18.根据条款10至17中任一项所述的装置,其中,该装置还包括:
-用于统计所述无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量的装置;
其中,所述将所述过滤后的评论类网页提供给用户的装置还用于:
-将所述类别以及所述每个类别所对应的无效内容信息块的数量一并提供给用户。
19.一种浏览器,包括如条款10至18中任一项所述的对评论类网页中的评论信息块进行处理的装置。
20.一种网络设备,包括如条款10至18中任一项所述的对评论类网页中的评论信息块进行处理的装置。

Claims (20)

1.一种对评论类网页中的评论信息块进行处理的方法,其中,该方法包括:
-识别评论类网页,所述评论类网页包含一个或多个评论信息块;
-基于无效内容规则库,识别所述评论信息块中的无效内容信息块;
-对所述无效内容信息块进行过滤,以获得过滤后的评论类网页;
-将所述过滤后的评论类网页提供给用户。
2.根据权利要求1所述的方法,其中,所述识别评论类网页的步骤具体包括:
-根据评论类网页的网页结构特征信息,识别所述评论类网页。
3.根据权利要求1或2所述的方法,其中,所述识别评论类网页的步骤具体包括:
-识别当前网页所属的评论类站点;
-根据所述评论类站点中评论类网页的网页结构特征信息,识别所述评论类网页。
4.根据权利要求1所述的方法,其中,所述识别评论类网页的步骤具体包括:
-根据评论类网页的网页标识信息,识别所述评论类网页。
5.根据权利要求1至4中任一项所述的方法,其中,所述无效内容规则库包括一个或多个无效内容规则,所述无效内容规则包括以下至少任一项:
-无效的评论内容;
-无效的评论者名称;
-无效的评论者等级;
-无效的评论时间。
6.根据权利要求5所述的方法,其中,所述无效内容规则由所述用户配置。
7.根据权利要求6所述的方法,其中,所述无效内容规则库为网络设备的网络数据库;
其中,该方法还包括:
-根据多个用户所配置的无效内容规则,建立或更新所述网络数据库。
8.根据权利要求1至7中任一项所述的方法,其中,所述无效内容规则库为浏览器的本地数据库;
其中,该方法还包括:
-从其他设备获取所述无效内容规则库的更新信息,以更新所述本地数据库。
9.根据权利要求1至8中任一项所述的方法,其中,该方法还包括:
-统计所述无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量;
其中,所述将所述过滤后的评论类网页提供给用户的步骤还包括:
-将所述类别以及所述每个类别所对应的无效内容信息块的数量一并提供给用户。
10.一种对评论类网页中的评论信息块进行处理的装置,其中,该装置包括:
-用于识别评论类网页的装置,所述评论类网页包含一个或多个评论信息块;
-用于基于无效内容规则库,识别所述评论信息块中的无效内容信息块的装置;
-用于对所述无效内容信息块进行过滤,以获得过滤后的评论类网页的装置;
-用于将所述过滤后的评论类网页提供给用户的装置。
11.根据权利要求10所述的装置,其中,所述识别评论类网页的装置具体用于:
-根据评论类网页的网页结构特征信息,识别所述评论类网页。
12.根据权利要求10或11所述的装置,其中,所述识别评论类网页的装置具体用于:
-识别当前网页所属的评论类站点;
-根据所述评论类站点中评论类网页的网页结构特征信息,识别所述评论类网页。
13.根据权利要求10所述的装置,其中,所述识别评论类网页的装置具体用于:
-根据评论类网页的网页标识信息,识别所述评论类网页。
14.根据权利要求10至13中任一项所述的装置,其中,所述无效内容规则库包括一个或多个无效内容规则,所述无效内容规则包括以下至少任一项:
-无效的评论内容;
-无效的评论者名称;
-无效的评论者等级;
-无效的评论时间。
15.根据权利要求14所述的装置,其中,所述无效内容规则由所述用户配置。
16.根据权利要求15所述的装置,其中,所述无效内容规则库为网络设备的网络数据库;
其中,该装置还包括:
-用于根据多个用户所配置的无效内容规则,建立或更新所述网络数据库的装置。
17.根据权利要求10至16中任一项所述的装置,其中,所述无效内容规则库为浏览器的本地数据库;
其中,该装置还包括:
-用于从其他设备获取所述无效内容规则库的更新信息,以更新所述本地数据库的装置。
18.根据权利要求10至17中任一项所述的装置,其中,该装置还包括:
-用于统计所述无效内容信息块的类别以及其中每个类别所对应的无效内容信息块的数量的装置;
其中,所述将所述过滤后的评论类网页提供给用户的装置还用于:
-将所述类别以及所述每个类别所对应的无效内容信息块的数量一并提供给用户。
19.一种浏览器,包括如权利要求10至18中任一项所述的对评论类网页中的评论信息块进行处理的装置。
20.一种网络设备,包括如权利要求10至18中任一项所述的对评论类网页中的评论信息块进行处理的装置。
CN201510184704.3A 2015-04-17 2015-04-17 一种对评论类网页中的评论信息块进行处理的方法与装置 Pending CN104834685A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510184704.3A CN104834685A (zh) 2015-04-17 2015-04-17 一种对评论类网页中的评论信息块进行处理的方法与装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510184704.3A CN104834685A (zh) 2015-04-17 2015-04-17 一种对评论类网页中的评论信息块进行处理的方法与装置

Publications (1)

Publication Number Publication Date
CN104834685A true CN104834685A (zh) 2015-08-12

Family

ID=53812572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510184704.3A Pending CN104834685A (zh) 2015-04-17 2015-04-17 一种对评论类网页中的评论信息块进行处理的方法与装置

Country Status (1)

Country Link
CN (1) CN104834685A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426524A (zh) * 2015-12-08 2016-03-23 北京奇虎科技有限公司 一种网页界面展示方法和装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
US8073915B1 (en) * 2008-05-16 2011-12-06 Google Inc. Detection of chain-letters in user-generated comments for websites
CN103136259A (zh) * 2011-11-30 2013-06-05 百度在线网络技术(北京)有限公司 一种基于内容块标识处理网页内容的方法与设备
CN103488675A (zh) * 2013-07-11 2014-01-01 哈尔滨工程大学 一种多网页新闻评论内容自动精确提取装置
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101251855A (zh) * 2008-03-27 2008-08-27 腾讯科技(深圳)有限公司 一种互联网网页清洗方法、系统及设备
US8073915B1 (en) * 2008-05-16 2011-12-06 Google Inc. Detection of chain-letters in user-generated comments for websites
CN102208992A (zh) * 2010-06-13 2011-10-05 天津海量信息技术有限公司 面向互联网的不良信息过滤系统及其方法
CN103136259A (zh) * 2011-11-30 2013-06-05 百度在线网络技术(北京)有限公司 一种基于内容块标识处理网页内容的方法与设备
CN104281606A (zh) * 2013-07-08 2015-01-14 腾讯科技(北京)有限公司 一种展示微博评论的方法和装置
CN103488675A (zh) * 2013-07-11 2014-01-01 哈尔滨工程大学 一种多网页新闻评论内容自动精确提取装置
CN103544210A (zh) * 2013-09-02 2014-01-29 烟台中科网络技术研究所 一种识别网页类型的系统和方法
CN104281665A (zh) * 2014-09-25 2015-01-14 北京百度网讯科技有限公司 一种用于确定评论的有效性的方法与装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
刘星: ""基于融合分类器的垃圾评论识别方法研究"", 《中国优秀硕士学位论文全文数据库信息利技辑》 *
聂卉 等: ""产品评论垃圾识别研究综述"", 《情报分析与研究》 *
马焕强: "论坛垃圾回帖的识别与过滤", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105426524A (zh) * 2015-12-08 2016-03-23 北京奇虎科技有限公司 一种网页界面展示方法和装置
CN105426524B (zh) * 2015-12-08 2019-05-31 北京奇虎科技有限公司 一种网页界面展示方法和装置

Similar Documents

Publication Publication Date Title
CN103544178A (zh) 一种用于提供与目标页面相对应的重构页面的方法和设备
CN104572084B (zh) 卡片业务中用户界面生成及数据下发方法、装置
CN102819555A (zh) 一种在网页的阅读模式中进行推荐信息加载的方法和装置
CN106168978A (zh) 一种网页中弹窗的处理方法和装置
CN103345493B (zh) 用于移动终端上的文本内容显示的方法、装置及系统
CN102339311B (zh) 在用户设备上基于查询分类搜索网页内容的方法与设备
CN104750754A (zh) 网站所属行业的分类方法和服务器
CN106909694A (zh) 分类标签数据获取方法以及装置
CN103440260A (zh) 一种用于提供呈现信息的方法与设备
CN103559194B (zh) 一种搜索方法、服务器、系统
CN104765746A (zh) 用于移动通讯终端浏览器的数据处理方法和装置
CN102314494B (zh) 一种用于处理网页内容的方法和设备
CN105677654A (zh) 广告过滤方法及装置
CN105094775A (zh) 网页生成方法和装置
CN103744575A (zh) 一种用于提供输入应用的输入辅助区域的方法与设备
CN103491116A (zh) 正文相关的结构化数据的处理方法及装置
CN103577447A (zh) 一种用于确定目标页面的页面类型信息的方法和设备
CN104765526A (zh) 一种过滤候选词条的方法与装置
CN105095236A (zh) 广告过滤方法和装置
CN103164423A (zh) 一种用于确定渲染网页的浏览器内核类型的方法与设备
CN103354556A (zh) 一种用于实现共享用户的提醒消息的方法与设备
CN102222095B (zh) 一种用于对待显示的页面进行转换处理的设备及其方法
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN103136259A (zh) 一种基于内容块标识处理网页内容的方法与设备
CN105653550A (zh) 网页过滤方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812