CN104021126B - 网页内容的过滤方法及服务器 - Google Patents

网页内容的过滤方法及服务器 Download PDF

Info

Publication number
CN104021126B
CN104021126B CN201310065929.8A CN201310065929A CN104021126B CN 104021126 B CN104021126 B CN 104021126B CN 201310065929 A CN201310065929 A CN 201310065929A CN 104021126 B CN104021126 B CN 104021126B
Authority
CN
China
Prior art keywords
webpage
url address
multimedia
web page
filtered
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310065929.8A
Other languages
English (en)
Other versions
CN104021126A (zh
Inventor
王涛伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201310065929.8A priority Critical patent/CN104021126B/zh
Publication of CN104021126A publication Critical patent/CN104021126A/zh
Application granted granted Critical
Publication of CN104021126B publication Critical patent/CN104021126B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网页内容的过滤方法及服务器,涉及电子设备应用领域,能够解决由于误将垃圾图片判断为主体内容导致的漏滤垃圾图片的问题。所述方法包括:将待过滤网页的网页统一资源定位符URL地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联,并保存在关系数据库中,所述关系数据库用于保存网页URL地址与多媒体URL地址之间的映射关系;判断所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果;如果所述判断结果为是,则将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤。本发明应用于网络访问的过程中。

Description

网页内容的过滤方法及服务器
技术领域
本发明涉及电子设备应用领域,尤其涉及一种网页内容的过滤方法及服务器。
背景技术
随着移动通信技术的发展,通过移动终端浏览网页得到广泛普及。由于移动终端(如手机)的屏幕远小于个人计算机(Personal Computer,简称PC机)以及笔记本电脑的屏幕,因此不能将在PC机上展现的源网页直接展现在手机屏幕上,如果直接展现用户需要不断的滚屏才能浏览完一个完整的源网页。此外,由于移动终端的上网带宽和内存容量远小于PC机,因此也不能将在PC机上展现的源网页直接展现在手机上,因为移动终端获取源网页内容将占用大量内容,同时耗费较多的移动流量。基于屏幕大小以及内存的问题,需要对源网页进行网页转码,以适应移动终端的浏览。
网页转码能够将源网页中和主体信息内容无关的文字和图片去除,抽取出主体内容和图片,并对图片进行缩略,对文字段落重新进行排版,生成一个新的利于在手机上展现、方便手机下载获取、利于用户阅读、且未损耗源网页中主体信息的新页面。进行网页转码时需要用到垃圾图片识别技术,也可称作图片过滤技术。网页转码将过滤掉页面内不影响用户对主体内容信息获取的图片,被过滤掉的图片称作垃圾图片。垃圾图片将不出现在转码之后的页面内容中,垃圾图片包括广告图片和其他与页面主体内容无关的图片。具体的,通过下述方式过滤垃圾图片:在一个网页中,根据图片在网页所处的位置(通常处于网页顶部、边框、底部出现垃圾图片的几率较大)、图片的说明文字、图片所在的段落是否是主体段落块、图片的宽高信息等属性信息,确定该网页中的垃圾图片,并将垃圾图片从网页中过滤掉。
在实现上述图片过滤的过程中,发明人发现现有技术中至少存在如下问题:由于垃圾图片的过滤依据为图片的属性信息,因此如果垃圾图片的属性信息与主体内容的属性信息相同或相似,则不被确定为垃圾图片,导致误判。例如某广告图片,其出现在网页中间位置,宽高也和主体图片相同,所在的块也是正文块,由于该广告图片的属性信息与主体内容的属性信息相同,则将垃圾图片确定为主体内容,此时出现误判。
发明内容
本发明提供的一种网页内容的过滤方法及服务器,能够解决由于误将垃圾图片判断为主体内容导致的漏滤垃圾图片的问题。
一方面,本发明提供了一种网页内容的过滤方法,包括:
将待过滤网页的网页统一资源定位符(Uniform Resource Locator,简称URL)地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联,并保存在关系数据库中,所述关系数据库用于保存网页URL地址与多媒体URL地址之间的映射关系;
判断所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果;
如果所述判断结果为是,则将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤。
另一方面,本发明还提供了一种服务器,包括:
关联单元,用于将待过滤网页的网页统一资源定位符URL地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联,
存储单元,用于保存在关系数据库中,所述关系数据库用于保存所述关联单元关联的网页URL地址与多媒体URL地址之间的映射关系;
判断单元,用于判断所述存储单元存储的所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果;
过滤单元,用于当所述判断单元判断出的所述判断结果为是时,将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤。
本发明提供的网页内容的过滤方法及服务器,能够将网页URL地址与多媒体URL地址进行关联,当判断出同一个多媒体URL地址关联了多于一个的网页URL地址时,确定该多媒体URL地址链接的多媒体内容为垃圾多媒体内容。现有技术中通过多媒体内容的属性信息进行判断,当垃圾多媒体内容的属性信息与主体内容的属性信息相似时,无法区分垃圾多媒体内容与主体内容,造成误判。本发明中能够确定同一个多媒体内容与不同网页URL地址的对应关系,进而确定同一个多媒体内容是否出现在不同的网页中。由于垃圾多媒体内容存在于诸多网页中,将存在于不同网页中的相同多媒体内容确定为垃圾多媒体内容,避免因属性信息相似造成误判,提高网页过滤的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中一个网页内容的过滤方法的流程图;
图2为本发明实施例中另一个网页内容的过滤方法的流程图;
图3为本发明实施例中在一个网页内容的过滤方法的流程图;
图4为本发明实施例中第一个服务器的结构示意图;
图5为本发明实施例中第二个服务器的结构示意图;
图6为本发明实施例中第三个服务器的结构示意图;
图7为本发明实施例中第四个服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
本发明实施例提供了一种网页内容的过滤方法,如图1所示,包括:
步骤101、将待过滤网页的网页统一资源定位符URL地址与待过滤网页中多媒体内容的多媒体URL地址进行关联,并保存在关系数据库中,关系数据库用于保存网页URL地址与多媒体URL地址之间的映射关系。
所述关系数据库的作用为保存映射关系,其不限于字面意义上单纯的数据库,还可以为数据库中的数据表单等,凡是能够达到存储所述映射关系的文件均能够作为所述关系数据库。通过所述待过滤网页URL地址能够获取所述待过滤网页URL地址对应的待过滤网页内容,通过解析所述待过滤网页内容能够得到所述待过滤网页中包含有的多媒体URL地址。将所述待过滤网页URL地址域所述多媒体URL地址进行关联后,可以将两者的映射关系以表项的形式存储到所述关系数据库中,如表1所示,所述表1为所述关系数据库。
表1
步骤102、判断关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果。
在步骤101将映射关系保存到关系数据库中之后,根据所述关系数据库保存的所述映射关系,以多媒体URL地址作为查找条件,将包含有相同多媒体URL地址的表项筛选出来。若筛选出的表项多于一个,则表明关系数据库中同一个多媒体URL地址所关联的网页URL地址多于一个,此时判断结果为是。
步骤103、如果判断结果为是,则将多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将垃圾多媒体内容进行过滤。
当步骤102的判断结果为是时,表明同一个多媒体URL地址出现在不同的网页中,该多媒体URL地址对应的多媒体内容为垃圾多媒体内容,被确定为垃圾多媒体内容的多媒体内容将被过滤掉。在表1中,由于含有多媒体URL地址为“www.abc.cba.com/pic/01.swf”的记录有两条,因此确定“www.abc.cba.com/pic/01.swf”为垃圾多媒体URL地址。含有多媒体URL地址为“www.abc.cba.com/pic/01.jpg”的记录只有一条,因此确定“www.abc.cba.com/pic/01.jpg”为主体文件URL地址。
本发明实施例中提及的所述多媒体包括静态图片、动态图片以及音频数据。
本发明提供的网页内容的过滤方法,能够将网页URL地址与多媒体URL地址进行关联,当判断出同一个多媒体URL地址关联了多于一个的网页URL地址时,确定该多媒体URL地址链接的多媒体内容为垃圾多媒体内容。现有技术中通过多媒体内容的属性信息进行判断,当垃圾多媒体内容的属性信息与主体内容的属性信息相似时,无法区分垃圾多媒体内容与主体内容,造成误判。本发明中能够确定同一个多媒体内容与不同网页URL地址的对应关系,进而确定同一个多媒体内容是否出现在不同的网页中。由于垃圾多媒体内容存在于诸多网页中,将存在于不同网页中的相同多媒体内容确定为垃圾多媒体内容,避免因属性信息相似造成误判,提高网页过滤的准确性。
实施例二
作为对实施例一的技术方案的进一步描述,本发明实施例提供了一种网页内容的过滤方法,所述方法进一步包括:选取所述待过滤网页,如图2所示,所述选取所述待过滤网页包括:
步骤201、获取网页URL地址日志,网页URL地址日志用于记录已浏览网页的网页URL地址。
用户通过移动终端访问网页时,服务器将用户当前访问的网页的URL记录到网页RUL地址日志中,因此网页URL地址日志记载了移动终端已访问的所有网页的网页URL地址。
步骤202、根据预设条件将网页URL地址日志中的至少一个网页URL地址所链接的至少一个网页确定为待过滤网页。
根据预设条件在所述网页URL地址日志中选择出至少一个网页URL地址,并将这些选择出的至少一个网页URL地址链接的网页确定为待过滤网页。
具体的,从所述网页URL地址日志的每一个网页URL地址子域中获取预设数量的网页URL地址,将所述网页URL地址链接的网页确定为所述待过滤网页。
将网站URL作为一个父域,该网站内的各板块的URL则为该网页URL地址父域下的网页URL地址子域。例如:若网页URL地址父域为“www.abc.cba.com”,则“www.abc.cba.com/music”以及“www.abc.cba.com/news”为该父域下的网页URL地址子域。每个网页URL地址子域内包含有多个子网页,例如“www.abc.cba.com/music/12”、“www.abc.cba.com/music/12/first”、“www.abc.cba.com/music/13”等。所述预设数量可以为一个数量值也可为一个百分比,例如从每一个网页URL地址子域中获取10个网页URL地址,或者每一个网页URL地址子域中获取总网页URL地址个数的25%的网页URL地址。所述预设数量可以根据服务器的负载量以及所述网页URL地址日志所含有的网页URL地址个数确定。需要注意的是,在获取所述待过滤网页时,需要从父域内每一个网页URL地址子域中获取预设数量的网页URL地址,进而达到对各网页URL地址子域的全部覆盖。
进一步的,发明人发现,网页中有时会包含有诸如“上一页”、“下一页”等按钮,这些较小的按钮配有缩略图。这些缩略图由于重复出现,因此在步骤102中将被确定为垃圾多媒体内容。作为对图1所述方法的进一步补充,在步骤103中所述将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容之后,所述方法进一步包括:
根据预设的多媒体属性信息从所述垃圾多媒体内容中提取主体多媒体内容,将所述主体多媒体内容确定为非垃圾多媒体内容;
其中,所述多媒体属性信息包括下述至少一种信息:位置信息、宽高信息、说明信息。
所述属性信息用于对出现频率较高的功能按键的缩略图进行描述,例如:宽高信息中,宽度值为30mm,高度值为10mm。当所述垃圾多媒体内容的宽度值小于等于30mm,高度值小于等于10mm时,将所述垃圾多媒体内容确定为主体多媒体内容,将所述主体多媒体内容确定为非垃圾多媒体内容。所述位置信息用于描述所述垃圾多媒体内容在网页中的坐标或者所属块的名称。所述说明信息用于描述所述垃圾多媒体内容。
进一步的,步骤103中所述将所述垃圾多媒体内容进行过滤,如图3所示,进一步包括:
步骤301、将垃圾多媒体内容对应的垃圾多媒体URL地址保存到结果数据库中,所述结果数据库用于保存垃圾多媒体URL地址。
步骤302、将结果数据库中保存的至少一个垃圾多媒体URL地址发送给网页转码模块,以便网页转码模块根据垃圾多媒体URL地址对源网页进行转码。
将所述垃圾多媒体URL地址进行保存并将至少一个垃圾多媒体URL地址发送给网页转码模块,能够保证步骤102确定出的多个垃圾多媒体URL地址在一次传输过程中发送到网页转码模块,提高网页转码模块的效率。此外,还可直接将所述结果数据库中保存的所述垃圾多媒体URL地址发送给网页转码模块,减少步骤102的重复执行。
本发明实施例中提及的所述多媒体包括静态图片、动态图片以及音频数据。
本发明实施例提供的网页内容的过滤方法,能够将网页URL地址与多媒体URL地址进行关联,当判断出同一个多媒体URL地址关联了多于一个的网页URL地址时,确定该多媒体URL地址链接的多媒体内容为垃圾多媒体内容。现有技术中通过多媒体内容的属性信息进行判断,当垃圾多媒体内容的属性信息与主体内容的属性信息相似时,无法区分垃圾多媒体内容与主体内容,造成误判。本发明中能够确定同一个多媒体内容与不同网页URL地址的对应关系,进而确定同一个多媒体内容是否出现在不同的网页中。由于垃圾多媒体内容存在于诸多网页中,将存在于不同网页中的相同多媒体内容确定为垃圾多媒体内容,能够避免因属性信息相似造成误判,提高网页过滤的准确性。此外,在网页URL地址日志中选择待过滤网页,能够实现服务器能够根据自身的运行能力对待过滤网页进行筛选。从每个网页URL地址子域中获取待过滤网页,能够达到全面过滤垃圾多媒体内容的效果。通过预设的多媒体属性信息对已筛选出的垃圾多媒体内容进行二次筛选,能够从垃圾多媒体内容中找到主体多媒体内容,进一步提高网页过滤的准确度。将垃圾多媒体URL地址发送给网页转码模块,能够使得网页转码模块根据接收到的所述垃圾多媒体URL地址,结合自身的基于多媒体属性信息的过滤策略,在针对单个网页内容进行过滤的基础上,综合多个网页中具有的相同的垃圾多媒体内容的信息,进一步提高过滤效率,减少误判几率。
实施例三
本发明实施例提供了一种服务器,如图4所示,包括:
关联单元41,用于将待过滤网页的网页统一资源定位符URL地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联。
关联单元41通过所述待过滤网页URL地址能够获取所述待过滤网页URL地址对应的待过滤网页内容,通过解析所述待过滤网页内容能够得到所述待过滤网页中包含有的多媒体URL地址。将所述待过滤网页URL地址域所述多媒体URL地址进行关联后,可以将两者的映射关系以表项的形式存储到所述关系数据库中。
存储单元42,用于保存在关系数据库中,所述关系数据库用于保存所述关联单元41关联的网页URL地址与多媒体URL地址之间的映射关系。
判断单元43,用于判断所述存储单元42存储的所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果。
在关联单元41将映射关系保存到存储单元42的关系数据库中之后,判断单元43根据所述存储单元42保存的所述映射关系,以多媒体URL地址作为查找条件,将包含有相同多媒体URL地址的表项筛选出来。若筛选出的表项多于一个,则表明关系数据库中同一个多媒体URL地址所关联的网页URL地址多于一个,此时判断结果为是。
过滤单元44,用于当所述判断单元43判断出的所述判断结果为是时,将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤。
当判断单元43得出的判断结果为是时,表明同一个多媒体URL地址出现在不同的网页中,该多媒体URL地址对应的多媒体内容为垃圾多媒体内容,被过滤单元44确定为垃圾多媒体内容的多媒体内容并被过滤单元44过滤掉。
进一步的,如图5所示,所述服务器还包括选取单元51,用于选取所述待过滤网页;
所述选取单元51还包括:
获取子单元511,用于获取网页URL地址日志,所述网页URL地址日志用于记录已浏览网页的网页URL地址。
确定子单元512,用于根据预设条件将所述获取单元获取到的所述网页URL地址日志中的至少一个网页URL地址所链接的至少一个网页确定为所述待过滤网页。
进一步的,所述确定子单元512还用于,从所述网页URL地址日志的每一个网页URL地址子域中获取预设数量的网页URL地址,将所述网页URL地址链接的网页确定为所述待过滤网页。
进一步的,如图6所示,所述服务器进一步包括:确定单元61,用于根据预设的多媒体属性信息从所述过滤单元44确定的所述垃圾多媒体内容中提取主体多媒体内容,将所述主体多媒体内容确定为非垃圾多媒体内容;
其中,所述多媒体属性信息包括下述至少一种信息:位置信息、宽高信息、说明信息。
进一步的,如图7所示,所述过滤单元44进一步包括:
存储子单元441,用于将所述垃圾多媒体内容对应的垃圾多媒体URL地址保存到结果数据库中,所述存储单元42还用于保存所述结果数据库,所述结果数据库用于保存垃圾多媒体URL地址。
发送子单元442,用于将所述结果数据库中保存的至少一个垃圾多媒体URL地址发送给网页转码模块,以便所述网页转码模块根据所述垃圾多媒体URL地址对源网页进行转码。
本发明实施例中提及的所述多媒体包括静态图片、动态图片以及音频数据。
本发明实施例提供的服务器,关联单元41能够将网页URL地址与多媒体URL地址进行关联,当判断单元43判断出同一个多媒体URL地址关联了多于一个的网页URL地址时,过滤单元44确定该多媒体URL地址链接的多媒体内容为垃圾多媒体内容。现有技术中通过多媒体内容的属性信息进行判断,当垃圾多媒体内容的属性信息与主体内容的属性信息相似时,无法区分垃圾多媒体内容与主体内容,造成误判。本发明中判断单元43能够确定同一个多媒体内容与不同网页URL地址的对应关系,进而确定同一个多媒体内容是否出现在不同的网页中。由于垃圾多媒体内容存在于诸多网页中,将存在于不同网页中的相同多媒体内容确定为垃圾多媒体内容,能够避免因属性信息相似造成误判,提高网页过滤的准确性。此外,确定子单元512在获取子单元511获取到的网页URL地址日志中选择待过滤网页,能够实现服务器能够根据自身的运行能力对待过滤网页进行筛选。确定子单元512从每个网页URL地址子域中获取待过滤网页,能够达到全面过滤垃圾多媒体内容的效果。发送子单元442将垃圾多媒体URL地址发送给网页转码模块,能够使得网页转码模块根据接收到的所述垃圾多媒体URL地址,结合自身的基于多媒体属性信息的过滤策略,在针对单个网页内容进行过滤的基础上,综合多个网页中具有的相同的垃圾多媒体内容的信息,进一步提高过滤效率,减少误判几率。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (8)

1.一种网页内容的过滤方法,其特征在于,包括:
将待过滤网页的网页URL地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联,并保存在关系数据库中,所述关系数据库用于保存网页URL地址与多媒体URL地址之间的映射关系;
判断所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果;
如果所述判断结果为是,则将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤;
根据预设的多媒体属性信息从所述垃圾多媒体内容中提取主体多媒体内容,将所述主体多媒体内容确定为非垃圾多媒体内容;其中,所述多媒体属性信息包括下述至少一种信息:位置信息、宽高信息、说明信息。
2.根据权利要求1所述的网页内容的过滤方法,其特征在于,所述方法还包括选取所述待过滤网页;
所述选取所述待过滤网页包括:
获取网页URL地址日志,所述网页URL地址日志用于记录已浏览网页的网页URL地址;
根据预设条件将所述网页URL地址日志中的至少一个网页URL地址所链接的至少一个网页确定为所述待过滤网页。
3.根据权利要求2所述的网页内容的过滤方法,其特征在于,所述根据预设条件将所述网页URL地址日志中的至少一个网页URL地址所链接的至少一个网页确定为所述待过滤网页,包括:
从所述网页URL地址日志的每一个网页URL地址子域中获取预设数量的网页URL地址,将所述网页URL地址链接的网页确定为所述待过滤网页。
4.根据权利要求1所述的网页内容的过滤方法,其特征在于,所述将所述垃圾多媒体内容进行过滤,进一步包括:
将所述垃圾多媒体内容对应的垃圾多媒体URL地址保存到结果数据库中,所述结果数据库用于保存垃圾多媒体URL地址;
将所述结果数据库中保存的至少一个垃圾多媒体URL地址发送给网页转码模块,以便所述网页转码模块根据所述垃圾多媒体URL地址对源网页进行转码。
5.一种服务器,其特征在于,包括:
关联单元,用于将待过滤网页的网页URL地址与所述待过滤网页中多媒体内容的多媒体URL地址进行关联,
存储单元,用于保存在关系数据库中,所述关系数据库用于保存所述关联单元关联的网页URL地址与多媒体URL地址之间的映射关系;
判断单元,用于判断所述存储单元存储的所述关系数据库中同一个多媒体URL地址所关联的网页URL地址是否多于一个,得出判断结果;
过滤单元,用于当所述判断单元判断出的所述判断结果为是时,将所述多媒体URL地址所链接的多媒体内容确定为垃圾多媒体内容,将所述垃圾多媒体内容进行过滤;
确定单元,用于根据预设的多媒体属性信息从所述过滤单元确定的所述垃圾多媒体内容中提取主体多媒体内容,将所述主体多媒体内容确定为非垃圾多媒体内容;其中,所述多媒体属性信息包括下述至少一种信息:位置信息、宽高信息、说明信息。
6.根据权利要求5所述的服务器,其特征在于,所述服务器还包括选取单元,用于选取所述待过滤网页;
所述选取单元还包括:
获取子单元,用于获取网页URL地址日志,所述网页URL地址日志用于记录已浏览网页的网页URL地址;
确定子单元,用于根据预设条件将所述获取子单元获取到的所述网页URL地址日志中的至少一个网页URL地址所链接的至少一个网页确定为所述待过滤网页。
7.根据权利要求6所述的服务器,其特征在于,所述确定子单元还用于,从所述网页URL地址日志的每一个网页URL地址子域中获取预设数量的网页URL地址,将所述网页URL地址链接的网页确定为所述待过滤网页。
8.根据权利要求5所述的服务器,其特征在于,所述过滤单元进一步包括:
存储子单元,用于将所述垃圾多媒体内容对应的垃圾多媒体URL地址保存到结果数据库中,所述存储单元还用于保存所述结果数据库,所述结果数据库用于保存垃圾多媒体URL地址;
发送子单元,用于将所述结果数据库中保存的至少一个垃圾多媒体URL地址发送给网页转码模块,以便所述网页转码模块根据所述垃圾多媒体URL地址对源网页进行转码。
CN201310065929.8A 2013-02-28 2013-02-28 网页内容的过滤方法及服务器 Active CN104021126B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310065929.8A CN104021126B (zh) 2013-02-28 2013-02-28 网页内容的过滤方法及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310065929.8A CN104021126B (zh) 2013-02-28 2013-02-28 网页内容的过滤方法及服务器

Publications (2)

Publication Number Publication Date
CN104021126A CN104021126A (zh) 2014-09-03
CN104021126B true CN104021126B (zh) 2020-02-07

Family

ID=51437883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310065929.8A Active CN104021126B (zh) 2013-02-28 2013-02-28 网页内容的过滤方法及服务器

Country Status (1)

Country Link
CN (1) CN104021126B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104683496B (zh) * 2015-02-13 2018-06-19 小米通讯技术有限公司 地址过滤方法及装置
CN106611355A (zh) * 2015-10-27 2017-05-03 深圳市多尼卡电子技术有限公司 一种节省航空网络广告流量的方法及系统
CN110912900B (zh) * 2019-11-27 2021-08-31 郑龙海 一种基于物联网的边界智能安防监控方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20040026167A (ko) * 2002-09-23 2004-03-30 인터내셔널 비지네스 머신즈 코포레이션 사용자가 입력한 유알엘 및/또는 검색어에 근거하여광고를 제공하는 방법 및 장치
CN101383713B (zh) * 2007-09-06 2011-06-22 上海艾瑞市场咨询有限公司 一种互联网广告信息处理方法
CN102033881A (zh) * 2009-09-30 2011-04-27 国际商业机器公司 用于识别网页中的广告的方法和系统
CN102622435B (zh) * 2012-02-29 2017-12-12 百度在线网络技术(北京)有限公司 一种检测黑链的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1920815A (zh) * 2006-05-09 2007-02-28 上海态格文化传播有限公司 基于网页内容的网页清洗方法
CN101093485A (zh) * 2006-06-22 2007-12-26 上海新纳广告传媒有限公司 一种网页重复内容过滤方法

Also Published As

Publication number Publication date
CN104021126A (zh) 2014-09-03

Similar Documents

Publication Publication Date Title
US7797350B2 (en) System and method for processing downloaded data
WO2015196907A1 (zh) 一种挖掘用户需求的搜索推送方法和装置
CN103559288A (zh) 一种智能收藏与分享的方法及移动终端
CN102841911A (zh) 手持式电子装置及其多媒体片段记录方法
EP2846268A1 (en) Graphical bookmark realization method, device and terminal for embedded browser
WO2013063940A1 (zh) 历史记录的整理方法和装置
CN102831242A (zh) 搜索图片信息的方法及装置
CN103425644A (zh) 网页正文中图片的提取方法及装置
JP2014219974A (ja) ウェブページの部分コンテンツを取得するための方法及び装置
CN104021126B (zh) 网页内容的过滤方法及服务器
CN103455547B (zh) 一种用于网页加载的方法及装置
CN101715026B (zh) 一种便于查看和管理移动终端多媒体信息的方法和装置
CN103218461A (zh) 浏览页面的分类管理方法、系统、终端和云端服务器
CN103761257A (zh) 基于移动浏览器的网页处理方法及系统
CN103246729A (zh) 一种处理安卓移动端的多媒体文件的方法和系统
US9454531B1 (en) Media content presentation by categorizing and formatting media types
CN104090878B (zh) 一种多媒体查找方法、终端、服务器及系统
CN103309896B (zh) 网页浏览方法、装置及终端
CN104113509B (zh) 媒体文件推送方法和服务器
CN101233494B (zh) 插件模块、浏览器、邮箱运行方法及终端装置
CN111737613A (zh) App页面收藏方法、装置、计算机设备和存储介质
CN101782915A (zh) 一种聚合内容rss订阅方法和装置
US9648381B2 (en) Method and system for managing display of web-based content on portable communication devices
US11468126B2 (en) Method for collecting component model in component e-commerce platform
CN102307259A (zh) 基于移动终端应用的内容处理方法及移动终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant