CN103838728B - 网页信息的处理方法及浏览器 - Google Patents
网页信息的处理方法及浏览器 Download PDFInfo
- Publication number
- CN103838728B CN103838728B CN201210474312.7A CN201210474312A CN103838728B CN 103838728 B CN103838728 B CN 103838728B CN 201210474312 A CN201210474312 A CN 201210474312A CN 103838728 B CN103838728 B CN 103838728B
- Authority
- CN
- China
- Prior art keywords
- text
- information
- target
- pending
- url
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Transfer Between Computers (AREA)
Abstract
本发明实施例公开了一种网页信息的处理方法及浏览器,涉及移动互联网领域,提高了对网页中无关信息进行过滤的效率,并且提高了网页过滤方法的利用率。本发明的方法包括:获取待处理网页的域名,并从所述待处理网页中提取待匹配内容,再判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同,如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
Description
技术领域
本发明涉及移动互联网领域,特别涉及一种网页信息的处理方法及浏览器。
背景技术
随着移动互联网的快速发展,通过移动终端浏览器浏览网页的用户数量也越来越多。由于移动终端的屏幕尺寸比较小,很难通过浏览器将网页中所有内容进行显示,目前浏览器通过抽取和转码技术可以将网页的正文内容提取出来后进行显示。然而不少网页在正文开头、正文结尾会嵌入无关信息,在网页正文中也会嵌入无关图片,比如在网页正文开头或结尾嵌入声明信息,在网页正文中嵌入广告图片等,影响了浏览器的显示效果。
目前,针对上述问题,各网站通过人工对本网站网页中的相应无关信息进行过滤删除;该种人工过滤删除方法虽然在一定程度上能够将一定的无关信息删除,但是,由于该种方法由人工操作,其过滤的效率较低,成本较高;并且由于不同网站中信息嵌入的方式各不相同,进行人工过滤删除的操作人员只了解本网站网页中信息嵌入的方式,不了解除该网站以外的其他网站网页中信息嵌入的方式,因此该人工过滤方法只能针对某个具体网站进行特殊处理,针对除该网站以外的其他网站中的网页则不适用,造成网页过滤方法的利用率较低。
发明内容
本发明实施例提供一种网页信息的处理方法及浏览器,提高了对网页中无关信息进行过滤的效率,并且提高了网页过滤方法的利用率。
本发明实施例采用的技术方案为:
一种网页信息的处理方法,包括:获取待处理网页的域名,并从所述待处理网页中提取待匹配内容,所述待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL;
判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同,所述预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本;
如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
一种浏览器,包括:
第一获取单元,用于获取待处理网页的域名;
提取单元,用于从所述待处理网页中提取待匹配内容,所述待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL;
判断单元,用于判断所述提取单元提取的待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同,所述预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本;
过滤单元,用于如果所述判断单元判断所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
本发明提供的网页信息的处理方法及浏览器,与现有技术中由人工对网页中的无关信息进行过滤删除相比,对网页中的无关信息进行过滤时,是按照与待处理网页的域名对应的过滤信息对待处理网页中的无关信息进行过滤删除,不需要由人工对网页中的无关信息进行过滤删除,提升了过滤效率,降低了成本,并且可以用于对不同网站中的网页进行过滤处理,提升了网页过滤方法的利用率。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种网页信息的处理方法流程图;
图2为本发明实施例提供的另一种网页信息的处理方法流程图;
图3为本发明实施例提供的一种浏览器的结构示意图;
图4为本发明实施例提供的另一种浏览器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
为使本发明技术方案的优点更加清楚,下面结合附图和实施例对本发明作详细说明。
本发明实施例提供一种网页信息的处理方法,如图1所示,所述方法包括:
101、获取待处理网页的域名,并从所述待处理网页中提取待匹配内容。
其中,各个网站都有各自特定的域名,每个网站的域名下都可以包括多个不同的网页。待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL。
102、判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同。
其中,预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本。待匹配内容中的第一文本在预设过滤规则中的相应信息为第一目标文本,待匹配内容中的第二文本在预设过滤规则中的相应信息为第二目标文本,待匹配内容中的图片URL在预设过滤规则中的相应信息为目标图片URL。
具体地,由于无关信息主要出现在网页正文的开始或网页正文的结束位置,所以优选地,第一行号可以为从网页正文第一行开始向后,第一次包含有用信息文本的行号,第二行号可以为从网页正文第一行开始向后,最后一次包含有用信息文本的行号,第一目标文本可以为所述网页正文在所述第一行号前包含的无关信息文本,第二目标文本为所述网页正文中在所述第二行号后包含的无关信息文本,无关信息可以为广告信息、无关声明等,目标图片URL(统一资源定位符,Universal Resource Locator)可以为无关图片URL,例如广告图片URL。
例如,若网页正文中只在开头嵌入了无关信息,则预设过滤规则可以包括第一行号和第一目标文本;若网页正文中只在结尾嵌入了无关信息,则预设过滤规则可以包括第二行号和第二目标文本;若网页正文中只嵌入了无关图片,则预设过滤规则可以包括目标图片URL;若网页正文中在开头嵌入了无关信息、并且在结尾嵌入了无关信息、并且嵌入了无关图片,则预设过滤规则可以包括第一行号和第一目标文本、第二行号和第二目标文本、和目标图片URL。
103、如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
本发明实施例提供的网页信息的处理方法,与现有技术中由人工对网页中的无关信息进行过滤删除相比,对网页中的无关信息进行过滤时,是按照与待处理网页的域名对应的预设过滤规则对待处理网页中的无关信息进行过滤删除,不需要由人工对网页中的无关信息进行过滤删除,提升了过滤效率,降低了成本,并且可以用于对不同网站中的网页进行过滤处理,提升了网页过滤方法的利用率。
进一步地,本发明实施例提供了另一种网页信息的处理方法,如图2所示,所述方法包括如下步骤:
201、获取待处理网页的域名,并从所述待处理网页中提取待匹配内容。
其中,各个网站都有各自特定的域名,每个网站的域名下都可以包括多个不同的网页。待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL。
202、判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同。
其中,预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本。
具体地,判断所述第一文本是否与所述第一目标文本相同、所述第二文本是否与所述第二目标文本相同、和/或所述待处理网页正文中的图片URL是否与所述目标图片URL相同。
优选地,由于无关信息主要出现在网页正文的开始或网页正文的结束位置,因此第一行号可以为从网页正文第一行开始向后,第一次包含有用信息文本的行号,第二行号可以为从网页正文第一行开始向后,最后一次包含有用信息文本的行号,第一目标文本可以为所述网页正文在所述第一行号前包含的无关信息文本,第二目标文本为所述网页正文中在所述第二行号后包含的无关信息文本,无关信息可以为广告信息、无关声明等,目标图片URL(统一资源定位符,Universal Resource Locator)可以为无关图片URL,例如广告图片URL。
203a、如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
具体地,如果所述第一文本与所述第一目标文本相同,则删除所述第一文本;如果所述第二文本与所述第二目标文本相同,则删除所述第二文本;如果所述图片URL与所述目标图片URL相同,则删除所述图片URL对应的图片。
203b、如果所述第一文本与所述第一目标文本不同,或者所述第二文本与所述第二目标文本不同,或者所述图片URL与所述目标图片URL不同,则从预设数据库中获取与所述待处理网页的域名相同的各个目标网页的正文。
其中,预设数据库中包括近期该网站域名下不符合该网站当前预设过滤规则的各个目标网页正文。由于每个网站会定期更新在该网站下各个目标网页中的广告信息、广告图片等,因此数据库中保存的各个目标网页虽然不符合当前预设过滤规则,但是可以通过对比待处理网页与数据库中保存的各个目标网页,获取新的过滤规则对近期数据库中保存的各个目标网页进行过滤。
204b、根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,生成新过滤规则。
具体地,所述根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,生成新过滤规则包括:根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,获取所述域名对应的新过滤信息;然后根据所述新过滤信息生成所述域名对应的所述新过滤规则。
其中,所述过滤信息为以下信息中的任一种或多种,该信息包括:第一信息、第二信息或目标图片URL,所述第一信息为第一行号和第一目标文本,所述第二信息为第二行号和第二目标文本。
具体地,当所述新过滤信息为第一行号和第一目标文本时,从所述待处理网页正文中的第一行开始向后,依次将所述待处理网页正文中每一行与所述各个目标网页正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第一行号,并将所述待处理网页正文中位于第一行号前的文本保存为第一目标文本。
例如,数据库中保存有50个目标网页,从所述待处理网页正文中的第一行开始向后,依次将所述待处理网页正文中每一行与各个目标网页的正文中的相应行进行比对,获取到待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号为5的情况出现了45次,行号为4的情况出现了3次,行号为3的情况出现了两次,则确定第一行号为5,并保存待处理网页正文中前4行的具体内容作为第一目标文本。
另外,除了上述描述的方法以外,该步骤还可以采用如下的方法或方案,当所述新过滤信息为第二行号和第二目标文本,从所述待处理网页正文中的最后一行开始向前,依次将所述待处理网页正文中每一行与所述各个目标网页的正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第二行号,并将所述待处理网页正文中位于第二行号后的文本保存为第二目标文本。
例如,数据库中保存有50个目标网页,待处理网页正文中一共有25行,从所述待处理网页正文中的第25行开始向前,依次将所述待处理网页正文中每一行与各个目标网页的正文中的相应行进行比对,获取到待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号为22的情况出现了48次,行号为23的情况出现了2次,则确定第二行号为22,并保存待处理网页正文中23-25行的具体内容作为第二目标文本。
另外,除了上述描述的方法以外,该步骤还可以采用如下的方法或方案,当所述新过滤信息为目标图片URL时,依次将所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL进行比对,依次确定所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL相同的图片并保存所述图片URL,获取所述图片URL中重复次数最多的图片URL作为所述目标图片URL。
例如,数据库中保存有50个目标网页,依次将所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL进行比对,获取到形式为http://www.xx.com/images/xx.JPG的图片URL出现了49次,形式为http://www.xxx.com/images/xxx.JPG的图片URL出现了1次,则确定http://www.xx.com/images/xx.JPG为目标图片URL。
205b、将与所述待处理网页的域名对应的预设过滤规则更新为所述新过滤规则。
206b、通过新过滤规则对待处理网页进行过滤。
对于本发明实施例,应用的场景可以为但不局限于以下形式,包括:网站1对应的预设过滤规则中的过滤信息为:第一行号为3、第一目标文本、第二行号为23、第二目标文本、目标图片URL为http://www.xx.com/images/xx.JPG,现在要对网站1中的待处理网页进行过滤时,若浏览器判断待处理网页正文中的前两行的内容与第一目标文本的内容相同,并且待处理网页正文中在第23行以后的文本的内容与第二目标文本的内容相同,并且判断待处理网页正文中的图片URL为http://www.xx.com/images/xx.JPG,则删除待处理网页正文中的前两行内容、并且删除待处理网页正文中在第23行以后的文本的内容,并且将待处理网页正文中URL为http://www.xx.com/images/xx.JPG的图片删除,从而完成了对待处理网页正文的过滤。
对于本发明实施例,应用的场景还可以为但不局限于以下形式,包括:网站2对应的预设过滤规则中的过滤信息为:目标图片URL为http://www.xxXX.com/images/xxXX.JPG,现在要对网站2中的待处理网页进行过滤时,若浏览器判断待处理网页正文中的图片URL为http://www.xxXX.com/images/xxXX.JPG,则将待处理网页正文中URL为http://www.xxXX.com/images/xxXX.JPG的图片删除,从而完成了对待处理网页正文的过滤。
需要说明的是,上述应用场景仅为事例性说明,不应构成对本发明实施例的限制。
本发明实施例提供的网页信息的处理方法,与现有技术中由人工对网页中的无关信息进行过滤删除相比,对网页中的无关信息进行过滤时,是按照与待处理网页的域名对应的预设过滤规则对待处理网页中的无关信息进行过滤删除,不需要由人工对网页中的无关信息进行过滤删除,提升了过滤效率,降低了成本,并且可以用于对不同网站中的网页进行过滤处理,提升了网页过滤方法的利用率。
进一步地,作为对图2所示方法实施例的实现,本发明实施例还提供了一种浏览器,用以实现图2所示的方法实施例。如图3所示,所述浏览器包括:获取单元31、提取单元32、判断单元33、过滤单元34。
获取单元31,可以用于获取待处理网页的域名。
提取单元32,可以用于从所述待处理网页中提取待匹配内容。
判断单元33,可以用于判断所述提取单元32提取的待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同。
过滤单元34,可以用于如果所述判断单元33判断所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
再进一步地,作为对图2所示方法实施例的实现,本发明实施例还提供了另一种浏览器,用以实现图2所示的方法实施例。如图4所示,所述浏览器包括:第一获取单元41、提取单元42、判断单元43、过滤单元44、第二获取单元45、生成单元46、更新单元47。
第一获取单元41,可以用于获取待处理网页的域名。
提取单元42,可以用于从所述待处理网页中提取待匹配内容。判断单元43,可以用于判断所述提取单元42提取的待匹配内容是否与预设过滤规则中的相应信息相同。
判断单元43,还可以用于判断所述第一文本是否与所述第一目标文本相同、所述第二文本是否与所述第二目标文本相同、和/或所述待处理网页正文中的图片URL是否与所述目标图片URL相同。
过滤单元44,可以用于如果所述判断单元43判断所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理。
过滤单元44,还可以用于如果所述第一文本与所述第一目标文本相同,则删除所述第一文本。
过滤单元44,还可以用于如果所述第二文本与所述第二目标文本相同,则删除所述第二文本。
过滤单元44,还可以用于如果所述图片URL与所述目标图片URL相同,则删除所述图片URL对应的图片。
第二获取单元45,可以用于如果所述第一文本与所述第一目标文本不同,或者所述第二文本与所述第二目标文本不同,或者所述图片URL与所述目标图片URL不同,则从预设数据库中获取与所述待处理网页的域名相同的各个目标网页的正文。
第二获取单元45,还可以用于根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,获取所述域名对应的新过滤信息。
第二获取单元45,可以用于从所述待处理网页正文中的第一行开始向后,依次将所述待处理网页正文中每一行与所述各个目标网页正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第一行号,并将所述待处理网页正文中位于第一行号前的文本保存为第一目标文本。
第二获取单元45,可以用于从所述待处理网页正文中的最后一行开始向前,依次将所述待处理网页正文中每一行与所述各个目标网页的正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第二行号,并将所述待处理网页正文中位于第二行号后的文本保存为第二目标文本。
第二获取单元45,可以用于依次将所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL进行比对,依次确定所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL相同的图片并保存所述图片URL,获取所述图片URL中重复次数最多的图片URL作为所述目标图片URL。
生成单元46,可以用于根据所述第二获取单元45获取的新过滤信息生成与所述域名对应的新过滤规则。
更新单元47,可以用于将所述待处理网页的域名对应的预设过滤规则更新为所述生成单元46生成的所述新过滤规则。
需要说明的是,本发明实施例提供的浏览器所涉及各功能单元的其他相应描述,可以参考图1和图2中对应的描述,本发明实施例此处将不再赘述。
本发明实施例提供的浏览器,与现有技术中由人工对网页中的无关信息进行过滤删除相比,对网页中的无关信息进行过滤时,是按照与待处理网页的域名对应的预设过滤规则对待处理网页中的无关信息进行过滤删除,不需要由人工对网页中的无关信息进行过滤删除,提升了过滤效率,降低了成本,并且可以用于对不同网站中的网页进行过滤处理,提升了网页过滤方法的利用率。
本发明实施例提供的浏览器可以实现上述提供的方法实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。本发明实施例提供的网页信息的处理方法及浏览器可以适用于移动互联网领域,但不仅限于此。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (6)
1.一种网页信息的处理方法,其特征在于,包括:
获取待处理网页的域名,并从所述待处理网页中提取待匹配内容,所述待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL;
判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同,所述预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本;
如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理;
所述判断所述待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同包括:
判断所述第一文本是否与所述第一目标文本相同、所述第二文本是否与所述第二目标文本相同、和/或所述待处理网页正文中的图片URL是否与所述目标图片URL相同;
如果所述第一文本与所述第一目标文本不同,或者所述第二文本与所述第二目标文本不同,或者所述图片URL与所述目标图片URL不同,则从预设数据库中获取与所述待处理网页的域名相同的各个目标网页的正文,所述目标网页为不满足所述预设过滤规则的网页;
根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,获取所述域名对应的新过滤信息,所述新过滤信息为以下信息中的任一种或多种,所述信息包括:第一信息、第二信息或目标图片URL,所述第一信息为第一行号和第一目标文本,所述第二信息为第二行号和第二目标文本;
根据所述新过滤信息生成与所述域名对应的新过滤规则;
将所述待处理网页的域名对应的预设过滤规则更新为所述新过滤规则。
2.根据权利要求1所述的网页信息的处理方法,其特征在于,所述如果所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理包括:
如果所述第一文本与所述第一目标文本相同,则删除所述第一文本;
如果所述第二文本与所述第二目标文本相同,则删除所述第二文本;
如果所述图片URL与所述目标图片URL相同,则删除所述图片URL对应的图片。
3.根据权利要求1所述的网页信息的处理方法,其特征在于,所述根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,获取所述域名对应的新过滤信息包括:
从所述待处理网页正文中的第一行开始向后,依次将所述待处理网页正文中每一行与所述各个目标网页正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第一行号,并将所述待处理网页正文中位于第一行号前的文本保存为第一目标文本;
从所述待处理网页正文中的最后一行开始向前,依次将所述待处理网页正文中每一行与所述各个目标网页的正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第二行号,并将所述待处理网页正文中位于第二行号后的文本保存为第二目标文本;
依次将所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL进行比对,依次确定所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL相同的图片并保存所述图片URL,获取所述图片URL中重复次数最多的图片URL作为所述目标图片URL。
4.一种浏览器,其特征在于,包括:
第一获取单元,用于获取待处理网页的域名;
提取单元,用于从所述待处理网页中提取待匹配内容,所述待匹配内容包括以下任一种或多种内容:所述待处理网页正文中位于第一行号前的第一文本、位于第二行号后的第二文本或图片URL;
判断单元,用于判断所述提取单元提取的待匹配内容是否与所述域名对应的预设过滤规则中的相应信息相同,所述预设过滤规则包括过滤信息中的任一种或多种信息,所述过滤信息包括:第一信息、第二信息或目标图片URL,所述第一信息为所述第一行号和第一目标文本,所述第二信息为所述第二行号和第二目标文本;
过滤单元,用于如果所述判断单元判断所述待匹配内容与所述预设过滤规则中的相应信息相同,则对所述待匹配内容进行过滤处理;
所述判断单元,用于判断所述第一文本是否与所述第一目标文本相同、所述第二文本是否与所述第二目标文本相同、和/或所述待处理网页正文中的图片URL是否与所述目标图片URL相同;
第二获取单元,用于如果所述第一文本与所述第一目标文本不同,或者所述第二文本与所述第二目标文本不同,或者所述图片URL与所述目标图片URL不同,则从预设数据库中获取与所述待处理网页的域名相同的各个目标网页的正文,所述目标网页为不满足所述预设过滤规则的网页;
所述第二获取单元,还用于根据所述待处理网页正文和与所述待处理网页的域名相同的各个目标网页的正文,获取所述域名对应的新过滤信息,所述新过滤信息为以下信息中的任一种或多种,所述信息包括:第一信息、第二信息或目标图片URL,所述第一信息为第一行号和第一目标文本,所述第二信息为第二行号和第二目标文本;
生成单元,用于根据所述第二获取单元获取的新过滤信息生成与所述域名对应的新过滤规则;
更新单元,用于将所述待处理网页的域名对应的预设过滤规则更新为所述生成单元生成的所述新过滤规则。
5.根据权利要求4所述的浏览器,其特征在于,
所述过滤单元,用于如果所述第一文本与所述第一目标文本相同,则删除所述第一文本;
所述过滤单元,用于如果所述第二文本与所述第二目标文本相同,则删除所述第二文本;
所述过滤单元,用于如果所述图片URL与所述目标图片URL相同,则删除所述图片URL对应的图片。
6.根据权利要求4所述的浏览器,其特征在于,
所述第二获取单元,用于从所述待处理网页正文中的第一行开始向后,依次将所述待处理网页正文中每一行与所述各个目标网页正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第一行号,并将所述待处理网页正文中位于第一行号前的文本保存为第一目标文本;
所述第二获取单元,用于从所述待处理网页正文中的最后一行开始向前,依次将所述待处理网页正文中每一行与所述各个目标网页的正文中的相应行进行比对,依次确定所述待处理网页正文中与所述各个目标网页的正文中相应行的内容第一次出现不同时的行号,获取所述行号中重复次数最多的行号作为所述第二行号,并将所述待处理网页正文中位于第二行号后的文本保存为第二目标文本;
所述第二获取单元,用于依次将所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL进行比对,依次确定所述待处理网页正文中的图片URL与所述各个目标网页的正文中的图片URL相同的图片并保存所述图片URL,获取所述图片URL中重复次数最多的图片URL作为所述目标图片URL。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210474312.7A CN103838728B (zh) | 2012-11-21 | 2012-11-21 | 网页信息的处理方法及浏览器 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210474312.7A CN103838728B (zh) | 2012-11-21 | 2012-11-21 | 网页信息的处理方法及浏览器 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103838728A CN103838728A (zh) | 2014-06-04 |
CN103838728B true CN103838728B (zh) | 2018-01-09 |
Family
ID=50802243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210474312.7A Active CN103838728B (zh) | 2012-11-21 | 2012-11-21 | 网页信息的处理方法及浏览器 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103838728B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104683496B (zh) * | 2015-02-13 | 2018-06-19 | 小米通讯技术有限公司 | 地址过滤方法及装置 |
CN104899320A (zh) * | 2015-06-18 | 2015-09-09 | 安一恒通(北京)科技有限公司 | 网页修复方法、终端、服务器及系统 |
JP6395227B2 (ja) * | 2016-02-15 | 2018-09-26 | Necプラットフォームズ株式会社 | ルータ装置及びルータ装置のフィルタリング方法 |
CN107193870B (zh) * | 2017-04-12 | 2020-12-04 | 广东万丈金数信息技术股份有限公司 | 网页内容的提取方法和系统 |
CN107622266B (zh) * | 2017-09-21 | 2019-05-07 | 平安科技(深圳)有限公司 | 一种ocr识别的处理方法、存储介质和服务器 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1723525A (zh) * | 2002-07-25 | 2006-01-18 | Google公司 | 通过互联网提供过滤的和/或屏蔽的广告的系统和方法 |
CN1786947A (zh) * | 2004-12-07 | 2006-06-14 | 国际商业机器公司 | 基于网页页面布局提取网页核心内容的系统、方法和程序 |
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
CN102035883A (zh) * | 2010-11-26 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中用于优化网页的方法和设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8051104B2 (en) * | 1999-09-22 | 2011-11-01 | Google Inc. | Editing a network of interconnected concepts |
-
2012
- 2012-11-21 CN CN201210474312.7A patent/CN103838728B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1723525A (zh) * | 2002-07-25 | 2006-01-18 | Google公司 | 通过互联网提供过滤的和/或屏蔽的广告的系统和方法 |
CN1786947A (zh) * | 2004-12-07 | 2006-06-14 | 国际商业机器公司 | 基于网页页面布局提取网页核心内容的系统、方法和程序 |
CN101094135A (zh) * | 2006-06-23 | 2007-12-26 | 腾讯科技(深圳)有限公司 | 一种互联网内容信息的提取方法和提取系统 |
CN102035883A (zh) * | 2010-11-26 | 2011-04-27 | 百度在线网络技术(北京)有限公司 | 一种在网络设备中用于优化网页的方法和设备 |
Also Published As
Publication number | Publication date |
---|---|
CN103838728A (zh) | 2014-06-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103838728B (zh) | 网页信息的处理方法及浏览器 | |
CN103546505B (zh) | 将页面分块按优先级顺序显示的方法、系统及装置 | |
CN103186670B (zh) | 一种完整采集网页信息的方法和系统 | |
CN100562873C (zh) | 获取网页中网页元素的系统及方法 | |
WO2018022359A1 (en) | Web page display systems and methods | |
CN105589956B (zh) | 一种用户画像的方法及装置 | |
CN102521258A (zh) | 一种用于提供壁纸图片的方法与设备 | |
CN104462495B (zh) | 在弹幕载体上向用户推送信息的方法、设备及系统 | |
EP2951759A2 (en) | Method, device and system for publishing merchandise information | |
CN103617267B (zh) | 社交化扩展搜索方法及装置、系统 | |
CN104243273A (zh) | 即时通讯客户端显示信息的方法及设备和信息显示系统 | |
WO2014040080A1 (en) | Methods for facilitating web page image hotspots and devices thereof | |
CN107357903A (zh) | 用户行为数据整合方法、装置及电子设备 | |
CN110399546A (zh) | 基于网络爬虫的链接去重方法、装置、设备及存储介质 | |
CN102682011B (zh) | 建立域名描述名称信息表、搜索的方法、装置及系统 | |
CN108282509A (zh) | 页面分享方法、装置及服务器 | |
CN103761257B (zh) | 基于移动浏览器的网页处理方法及系统 | |
CN106446617A (zh) | 一种具有源文件保护功能的静态页面访问方法 | |
CN105550179B (zh) | 一种网页收藏方法和浏览器插件 | |
WO2017092455A1 (zh) | 一种移动终端网页浏览方法及移动终端 | |
CN107370628A (zh) | 基于埋点的日志处理方法及系统 | |
CN108108381B (zh) | 页面的监测方法及装置 | |
CN104426863A (zh) | 一种页面请求方法、页面请求装置、中转服务器及终端 | |
CN104615596B (zh) | 历史记录信息的清除方法及浏览器 | |
CN104008190B (zh) | 一种爬虫系统及其方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20221206 Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000 Patentee after: Shenzhen Yayue Technology Co.,Ltd. Address before: 2, 518000, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd. |