CN102200971B - 一种实现网页内容预览的方法和设备 - Google Patents

一种实现网页内容预览的方法和设备 Download PDF

Info

Publication number
CN102200971B
CN102200971B CN201010128845.0A CN201010128845A CN102200971B CN 102200971 B CN102200971 B CN 102200971B CN 201010128845 A CN201010128845 A CN 201010128845A CN 102200971 B CN102200971 B CN 102200971B
Authority
CN
China
Prior art keywords
preview
content
webpage
text
web
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201010128845.0A
Other languages
English (en)
Other versions
CN102200971A (zh
Inventor
方高林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201010128845.0A priority Critical patent/CN102200971B/zh
Publication of CN102200971A publication Critical patent/CN102200971A/zh
Application granted granted Critical
Publication of CN102200971B publication Critical patent/CN102200971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种实现网页预览的方法和设备,通过应用本发明的技术方案,可以通过获取网页中或即时通信工具中的URL所对应的网页的关键内容,实现对该网页内容的预览,在保证用户了解网页内容的情况下,降低了用户因访问未知网页而感染病毒的危险,提高了网络应用过程中的安全性,而关键内容预览的形式,也降低了下载网页全部内容所带来的系统资源和网络的占用,改善了用户的使用体验。

Description

一种实现网页内容预览的方法和设备
技术领域
本发明涉及互联网信息处理领域,尤其涉及一种实现网页内容预览的方法和设备。
背景技术
随着互联网科技的不断前进与发展,人们对于网页内容的浏览速度也在不断加快。互联网中的网页通常是HTML(Hyper Text Mark-up Language,超文本标记语言或超文本链接标示语言)格式,一般经由URL(UniversalResource Locator,统一资源定位符)来识别与获取,当用户在浏览器输入网址后,经过一系列的信令交互处理和数据传输,网页文件会被传送到用户的计算机,然后再通过浏览器将网页的内容展示到用户的眼前。WEB内容一般包括普通文本文件、图片、脚本文件、风格文件等多种资源,这些资源通过HTTP(Hypertext Transfer Protocol,超文本传输协议)协议进行传输。
当用户想要浏览一个网页的时候,通常会通过一个浏览器加载所要浏览的页面,例如:利用IE(Internet Explorer,互联网浏览器)加载一个网站首页,则该网站首页呈现在用户面前,由于网页中包含有大量的链接,因此,用户想要快速了解某一个链接的具体内容,只能是通过链接的锚文本了解网页的大概内容,然后再去判断是否需要进一步点击URL进入相应的页面去了解详细的信息内容。
此外,在用户利用即时通讯工具进行信息通讯时,经常会收到对端用户发送来的带有URL链接的文字内容,用户如果想知道此URL链接的具体内容,也必须点击此URL链接后,获取网页的全部内容来实现。
发明人在实现本发明的过程中,发现现有技术至少存在以下缺陷:
现有技术中,对于利用浏览器加载需要访问的页面的情况,因为页面包含大量链接,用户只能通过链接的锚文本了解网页内容,然后才能判断是否需要进一步点击URL进入相应的页面去了解详细的信息内容,发明人认为这种网页打开模式存在以下三个问题:
第一、通过链接的锚文本对网页进行网页内容了解时,由于可显示内容非常有限,所以,用户由此对网页的具体详细内容知之甚少,不足以判断是否应进行下一步的操作;
第二、打开页面的时候需要下载很多信息内容。例如页面中的图片信息、脚本文件、音乐以及Flash动画等,这样会大大降低浏览速度,如果用户的带宽很小,可能会出现页面卡死现象,甚至会使系统出现暂时down机状态,影响其他应用软件的运行状态;
第三、对于一些链接到未知网站的网页,由于不能判断网页的安全性能,因此打开链接时候很容易遭受病毒的侵犯,例如:蠕虫病毒、木马病毒等,直接对系统造成危害,甚至会成为“肉鸡”。
对于即时通讯工具而言,如果用户在打开对端用户发送过来的URL链接,不仅会使打开速度变慢,也很容易被病毒攻击。
此外,大多数情况下,浏览器所显示的网页中包含有很多的URL链接,如果想通过预下载方式进行网页内容的了解,基本上很难实现,因为不知道用户下一步将要预览哪个网页,如果对整个网页中的所有URL链接内容都要下载,将需要消耗很大的带宽,占用大量的系统资源,同时,网络传输速度上也不允许。
发明内容
本发明提供了一种实现网页预览的方法和设备,通过触发事件来获取网页的关键内容,并实现对网页内容的预览过程。
本发明提供了一种实现网页预览的方法,包括以下步骤:
当达到预设的预览触发条件时,获取待预览网页的URL;
下载所述URL对应的待预览网页的文本内容;
根据所述待预览网页的文本内容的类型,获取所述待预览网页的关键内容;
通过显示窗口显示所述待预览网页的关键内容。
优选的,所述预设的预览触发条件,具体包括:
指针在一个URL上停留的时间达到预设的停留时间阈值;或,
当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令。
优选的,所述通过预设按键或预设的按键操作触发的网页预览指令,具体为:
单击鼠标右键所触发的网页预览指令;或,
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或,
按下多个按键所组成的按键组合所触发的网页预览指令;或,
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。
优选的,根据所述待预览网页的文本内容的类型,获取所述待预览网页的关键内容,具体包括:
按照预设的识别规则,根据下载的所述URL对应的页面文本,识别待预览网页的文本内容的类型;
当所述待预览网页的文本内容为内容型网页时,获取所述待预览网页的正文内容作为关键内容;
当所述待预览网页的文本内容为目录型网页时,获取所述待预览网页的重要块作为关键内容。
优选的,所述当所述待预览网页的文本内容为内容型网页时,获取所述待预览网页的正文内容作为关键内容,具体为:
统计所述待预览网页中的各文本块的大小,确定最大文本块;
判断是否需要对所述最大文本块所对应节点进行扩展,如果需要,则进行扩展,并通过扩展后的内容更新所述最大文本块的内容;
对所述最大文本块的内容进行分析,确定噪声信息;
删除所述最大文本块中的噪声信息,将剩余的内容作为所述待预览网页的关键内容。
优选的,统计所述待预览网页中的各文本块的大小,确定最大文本块,还包括:
根据所述待预览网页中的各文本块的大小,确定次大文本块;
判断所述最大文本块是否为版权信息块;
如果是,则将所述次大文本块确定为最大文本块。
优选的,所述判断是否需要对所述最大文本块所对应节点进行扩展,具体为:
确定所述最大文本块所对应节点的父节点下所包含的文本长度;
判断所述最大文本块所对应节点下所包含的文本长度与所述父节点下所包含的文本长度的比例,是否小于预设阈值;
如果小于,将所述最大文本块所对应节点的内容向所述父节点的内容进行扩展,如果不小于,则不需要对所述最大文本块所对应节点进行扩展。
优选的,所述噪声信息,具体包括以下内容中的一项或多项:
所述最大文本块中所包含的图像、图像标题和评论信息。
优选的,当所述待预览网页的文本内容为目录型网页时,获取所述待预览网页的重要块作为关键内容,具体为:
识别所述待预览网页的文本内容中所包含的各块的类型;
删除所述待预览网页的文本内容中的导航块和广告块,将剩余的重要块作为所述待预览网页的关键内容。
优选的,通过显示窗口显示所述待预览网页的关键内容,具体为:
通过当前窗口所对应的的浮动窗口显示所述待预览网页的关键内容;或,
通过新的窗口显示所述待预览网页的关键内容。
另一方面,本发明还提供了一种实现网页预览的设备,具体包括:
设置模块,用于设置预览触发条件;
获取模块,与所述设置模块连接,用于当达到所述设置模块所设置的预览触发条件时,获取待预览网页的URL;
下载模块,与所述获取模块连接,用于根据所述获取模块所获取的URL,下载相对应的待预览网页的文本内容;
处理模块,与所述下载模块连接,用于识别所述下载模块所下载的待预览网页的文本内容的类型,获取所述待预览网页的关键内容;
显示模块,与所述处理模块连接,用于通过显示窗口显示所述处理模块所获取的待预览网页的关键内容。
优选的,所述设置模块所设置的预览触发条件,具体包括:
指针在一个URL上停留的时间达到预设的停留时间阈值;或,
当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令;
其中,所述通过预设按键或预设的按键操作触发的网页预览指令,具体为:
单击鼠标右键所触发的网页预览指令;或,
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或,
按下多个按键所组成的按键组合所触发的网页预览指令;或,
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。
优选的,所述设置模块还用于设置识别规则;
所述处理模块按照所述设置模块所设置的识别规则,根据所述下载模块所下载的所述URL对应的页面文本,识别待预览网页的文本内容的类型,当所述待预览网页的文本内容为内容型网页时,所述处理模块获取所述待预览网页的正文内容作为关键内容,当所述待预览网页的文本内容为目录型网页时,所述处理模块获取所述待预览网页的重要块作为关键内容。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,可以通过获取网页中或即时通信工具中的URL所对应的网页的关键内容,实现对该网页内容的预览,在保证用户了解网页内容的情况下,降低了用户因访问未知网页而感染病毒的危险,提高了网络应用过程中的安全性,而关键内容预览的形式,也降低了下载网页全部内容所带来的系统资源和网络的占用,改善了用户的使用体验。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对本发明或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提出的一种实现网页预览的方法流程示意图;
图2为本发明所提出的一种具体应用场景下的实现网页预览的方法流程示意图;
图3为本发明中的一种内容型网页预览效果图;
图4为本发明中的一种目录型网页预览效果图;
图5为本发明所提出的一种实现网页预览的装置结构示意图。
具体实施方式
下面将结合本发明中的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明所提出的一种实现网页预览的方法的流程示意图,具体包括以下步骤:
步骤S101、当达到预设的预览触发条件时,获取待预览网页的URL。
其中,本步骤中的预设的预览触发条件,具体包括以下两种情况:
情况一、指针在一个URL上停留的时间达到预设的停留时间阈值。
此种情况因具体应用场景的变化,具体的内容也会进行相应的调整,具体说明如下:
1、对于鼠标操控的计算机设备,指针即为鼠标指针,由于鼠标停止运动,而使指针静止于一个URL上的时间达到预设的阈值时,此种情况所对应的预览触发条件生效,触发相应的网页预览操作。
2、对于触摸式操作的计算机设备,指针对应于操控触摸屏的手指或手写笔等工具在触摸屏上的停留位置,如果操控触摸屏的手指或手写笔等工具在一个URL上停留时间达到预设的阈值时,此种情况所对应的预览触发条件生效,触发相应的网页预览操作。
3、对于键盘操作的计算机设备,指针对应于键盘操控所对应的光标,如果光标或由光标所产生的选择标识在一个URL上停留时间达到预设的阈值时,此种情况所对应的预览触发条件生效,触发相应的网页预览操作。
在具体的应用场景中,可以根据具体的应用需要选择相应的对应方案,需要指出的是,上述的各种计算机设备,在自身功能设定允许的情况下,也可以使用上述的其他方式进行预览触发,例如,对于鼠标操控的计算机设备,同样可以通过键盘进行操控,这样的变化并不影响本发明的保护范围。
情况二、当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令。
在具体的应用场景中,预设按键或预设的按键操作包括以下几种情况:
单击鼠标右键所触发的网页预览指令;或,
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或,
按下多个按键所组成的按键组合所触发的网页预览指令;或,
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。
上述的鼠标也可以是能够起到操控作用的替代装置,比如应用于便携式电脑上的触摸板,这样的变化同样属于本发明的保护范围。
步骤S102、下载URL对应的待预览网页的文本内容。
仅下载文本内容,避免了网络资源的大量占用和消耗。
步骤S103、根据待预览网页的文本内容的类型,获取待预览网页的关键内容。
本步骤的实现过程具体包括:
按照预设的识别规则,根据下载的URL对应的页面文本,识别待预览网页的文本内容的类型;
当待预览网页的文本内容为内容型网页时,获取待预览网页的正文内容作为关键内容;
当待预览网页的文本内容为目录型网页时,获取待预览网页的重要块作为关键内容。
进一步的,对应上述的两种类型处理流程,说明本发明的技术方案如下:
一、内容型网页的处理流程
1、统计待预览网页中的各文本块的大小,确定最大文本块。
进一步的,确定最大文本块的过程中还包括对于确定的最大文本块的校验过程,具体为:
根据待预览网页中的各文本块的大小,确定次大文本块;
判断最大文本块是否为版权信息块;
如果是,则将次大文本块确定为最大文本块。
2、判断是否需要对最大文本块所对应节点进行扩展,如果需要,则进行扩展,并通过扩展后的内容更新最大文本块的内容,具体的判断方式说明如下:
确定最大文本块所对应节点的父节点下所包含的文本长度;
判断最大文本块所对应节点下所包含的文本长度与父节点下所包含的文本长度的比例,是否小于预设阈值;
如果小于,将最大文本块所对应节点的内容向父节点的内容进行扩展,如果不小于,则不需要对最大文本块所对应节点进行扩展。
3、对最大文本块的内容进行分析,确定噪声信息。
其中,噪声信息具体包括以下内容中的一项或多项:
最大文本块中所包含的图像、图像标题和评论信息。
4、删除最大文本块中的噪声信息,将剩余的内容作为待预览网页的关键内容,具体为:
识别待预览网页的文本内容中所包含的各块的类型;
删除待预览网页的文本内容中的导航块和广告块,将剩余的重要块作为待预览网页的关键内容。
步骤S104、通过显示窗口显示待预览网页的关键内容。
本步骤具体包括以下两种情况:
通过当前窗口所对应的的浮动窗口显示待预览网页的关键内容;或,
通过新的窗口显示待预览网页的关键内容。
需要进一步指出的是,上述的步骤中所提及的URL可以是在浏览器所显示的网页中所存在的URL,也可以是在即时通信工具的对话窗口中所显示的URL的字符串,还可以是在其他文本编辑工具的操作界面上所显示的能够表征URL的有效字符串,具体的URL类型的变化并不会影响本发明的保护范围。
对应于上述的多种URL类型,进行预览内容显示的显示窗口的类型也可以进行相应的调整,例如,对于浏览器所显示网页上的URL,可以直接通过浮动窗口进行显示,而对于即时通信工具对话窗口中的URL,则可以在提示打开浏览器之后,在新的浏览器窗口中进行显示,这样的变化并不会影响本发明的保护范围。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,可以通过获取网页中或即时通信工具中的URL所对应的网页的关键内容,实现对该网页内容的预览,在保证用户了解网页内容的情况下,降低了用户因访问未知网页而感染病毒的危险,提高了网络应用过程中的安全性,而关键内容预览的形式,也降低了下载网页全部内容所带来的系统资源和网络的占用,改善了用户的使用体验。
下面,进一步结合具体的实施例,对本发明的技术方案进行详细、具体的描述。
如图2所示,为本发明一种实现网页预览的方法流程示意图,具体包括以下步骤:
步骤S201、当达到预设的预览触发条件时,获取待预览网页的URL。
首先,以微软公司的Microsoft Internet Explorer为例进行说明,IE浏览器获取到对一个网页地址(例如一个网站首页的网址)的访问指令后,IE浏览器加载该网页地址所对应的网页,并对该网页的内容进行呈现。
在通过鼠标控制的应用场景中,当鼠标所控制的指针移动至当前网页中的一个URL上,并通过点击鼠标右键的方式触发对该URL所对应网页的预览时,系统获取该URL的信息,并将对该URL所对应的网页进行后续的预览操作。
如前,触发预览的方式不仅限于点击鼠标右键的形式,还可以包括其他能够达到相同技术效果的方案,在此不再重复说明。
另一方面,如果出现URL的场景不是IE浏览器,而是在一个即时通信工具的对话窗口,或者是其他文本编辑工具的操作界面上出现表征URL的字符串,那么,还需要对该字符串是否是合法的URL进行识别,如果确认该字符串表示一个合法的URL,则在达到预览触发条件,触发相应的预览,具体的识别字符串的方式可以是模板识别或关键字识别等方式,具体识别方式的变化并不会影响本发明的保护范围。
后续说明中主要以IE浏览器显示网页中的URL的情况为例进行说明,其他形式的URL所对应的处理流程不再赘述。
步骤S202、下载URL对应的待预览网页的文本内容。
具体的,根据获取到的待预览网页的URL信息,访问该URL所对应的网页,并下载该网页所对应的页面文本,其中,该页面文本可以是HTML页面文本或者TXT文本,但不限于上述文本形式,可以根据具体的应用场景发生变化。
相应的下载的方式可以为实时的下载方式。以一个网站首页为例,在获取到该网站首页中某一条新闻链接的URL信息时,IE浏览器的下载模块对此URL对应的网页的页面文本内容进行实时的下载,下载模块且只针对HTML文本和TXT文本进行下载,并而不下载该网页页面中的其他的元素信息,例如:该网页中的图片、音乐、Flash,javascript脚本等内容将不再进行下载。
同时,如果该网页所对应的网页源支持gzip或者deflate的传输方式,则本地的IE浏览器下载模块采将采用压缩方式进行下载,从而可以更有效的这样做的好处是可以节省网络资源,减少下载所花费的时间代价,提高下载速度。为了提高易用性,下载模块也支持代理功能。
步骤S203、按照预设的识别规则,根据下载的URL对应的页面文本,识别待预览网页的文本内容的类型。
具体的,网页按照其包含的内容文本与链接文本的比例可以分为:内容型网页和目录型网页。
如果识别结果为内容型网页,则执行步骤S204,获取待预览网页的正文内容作为关键内容;
如果识别结果为目录型网页,则执行步骤S208,获取待预览网页的重要块作为关键内容。
在本发明的实施例中可以通过预设的识别规则自动判断网页是内容型网页还是目录型网页。
内容型网页一般具有以下特点:
网页中具有大段的内容文本,包含少量的链接文本,但链接文本与内容文本相比,在页面内容中所占的比例较低,且在内容型网页中,内容文本一般处于中间位置,而导航块、广告块等链接文本处于两边成独立的状态。
在具体的应用场景中,内容型网页包括:新闻网页的内容页面、BBS的内容网页等。
目录型网页一般具有以下特点:
网页中包含较多的链接文本,且不包含大段的内容文本,链接文本与内容文本相比,在页面内容中所占的比例较高,该类网页具有明显的块,例如sina首页,Yahoo首页等。
因此,根据上述网页特征,制定较优的实现方法如下:
如果最大文本块的大小和整个网页中的文本的大小的比例大于0.04,且包含HTML标签信息p的文本块的个数大于20,则判断该网页为内容型网页。
否则,如果整个网页包含的文本块数量和整个网页链接文本数量的比例小于1.5,而且文本块数量小于50,则判断该网页为目录型网页;
或者,如果最大文本块的大小和整个网页中的文本的大小的比例小于0.08,则判断该网页为目录型网页;
除上述情况外的其他情况均判断为内容型网页。
需要指出的是,上述实施例中的数值只是本发明实施例中优选的一种实施方式,改变其中的具体数值并不影响本发明的保护范围。
步骤S204、统计待预览网页中的各文本块的大小,确定最大文本块。
通过对预览网页中各文本块的大小的统计结果的比较,确定最大文本块。
本发明提出自底向上的后序遍历统计方法,在遍历过程中,通过在结构块子树中设定是否被包含的标志位,从而能够有效的统计出各块包含的文本大小,以及确定最大文本块。
具体的方法流程设定如下:
int TraversePostNode(Node*tnod,int& nNum,int& nLinkNum)
{//返回>=1表示包含table和div,0为不包含
   初始化节点包含的文本数nNum为0,链接文本数nLinkNum为0;
   获到tnod的最左儿子节点tempnode;
   if(最左儿子节点为空){
       统计叶子节点包含的文本数
       如果该叶子节点是链接,设定链接文本树nLinkNum等于nNum;
   }
   else{
       while(节点tempnode不等于空){
            递归调用TraversePostNode(tempnode,nTempNum,nTempLinkNum),并返回是否包含结构块标识nval;
            累加nval,并保存在nInclude;
            累加nTempNum并保存在nNum;累加nTempLinkNum并保存在nLinkNum;
            对下一个兄弟节点进行处理,tempnode=GetNext(tempnode);
    }
    if(节点是包含20个字以上的有效结构块){
        if(标志nInclude为0){
            if(结构块是文本块)
            统计最大文本块,同时统计次最大文本块
    }
    返回包含结构块信息标志1;
}
if(标志nInclude大于0)
  返回包含结构块信息标志1;;
}
    返回包含结构块信息标志0;
}
在上述的流程描述中,最左儿子节点即为根节点的第一级子节点。
在完成了最大文本块的统计过程后,进一步判断该最大文本块是否是版权信息块(具体如包含网页制作者信息、网页授权审核信息、网页归属者的联系信息等的信息块),如果该最大信息块是版权信息块,则访问者不能直接通过预览该最大信息块了解网页内容,所以,进一步选择次大信息块,并用次大信息块替换现有的最大信息块中的内容。
需要指出的是,在替换完成后,同样可以再次判断替换后的最大信息块是否仍为版权信息,如果是,则继续用其他的信息块内容进行替换,直至判断结果为不是版权信息,则将最终的最大信息块的内容进行后续处理。
步骤S205、判断是否需要对最大文本块所对应节点进行扩展。
如果不需要,则保持现有的最大文本块的内容;
如果需要,则对最大文本块所对应节点进行扩展,并通过扩展后的内容更新最大文本块的内容。
具体的,扩展的判断是否需要扩展的规则主要是根据上下文的文本信息增益来判断,如果文本的信息增益小于设置阈值,则扩展至根上级节点。
文本的信息增益以ContentIG(Ui)表示,具体的,当前节点和其上级节点,即其父节点之间的文本增益的计算规则如下:
ContentIG ( U i ) = ContentLen ( U i ) ContentLen ( U p i ) ,
其中,U表示网页中的节点;
i表示当前节点标识;
ContentLen(Ui)表示当前节点中包含的文本长度;
Pi表示当前节点的父节点;
Figure GSA00000038617000132
表示在块节点树上该节点的父节点包含文本的长度。
进一步的,如果当前最大文本块所对应的节点的内容已经扩展至其父节点,那么,进一步判断是否需要进行进一步扩展,如果需要,则继续向更上级的节点进行扩展,直至判断不需要扩展,或已扩展至当前网页的根节点,并用扩展后的信息更新最大文本块。
步骤S206、对最大文本块的内容进行分析,确定噪声信息。
具体的分析过程在最大文本块内部进行。如果当前的最大文本块已经进行了扩展,那么,从最顶端的节点开始向下进行分析,获取包含最大扇出子树的节点,对每个扇出子树的节点进行分析,并对开头和结尾的标签进行处理。
具体的,在对每个扇出子树的节点进行分析后,分别判断每个子树块是否是链接块,每个子树是否具有连续的结构符号,具有连续的结构符号一般不会是噪声信息,由于开始部分和结尾部分可能具有一些短的评论信息,系统会对这些标签分别处理。
在具体的应用场景中,噪声信息具体包括以下内容中的一项或多项:
最大文本块中所包含的图像、图像标题和评论信息。
通过上述分析,可以识别出最大文本块中的噪声信息。
步骤S207、删除最大文本块中的噪声信息,将剩余的内容作为待预览网页的关键内容。
具体的,在最大文本块中,将图像的标签信息(IMG)作为噪声信息的一种识别条件,识别成功后,将该标签信息所对应的内容删除,然后在DOM(Document Object Model,文档对象模型)中寻找相应的文本节点,并判断其对应的信息是否为图像标题信息,如果是,则一并删除此信息。
在去除所有的噪声信息后,还需要获取最大文本块的标题信息与时间信息,这里的标题信息是指正文内容的标题,不同于前述的图片标题,在最大文本块中,标题信息主要是通过视觉信息来判断,如该节点块是否比当前的其他内容的字体大,字体是否是黑体,该节点块的背景颜色是否不同于当前其他内容的背景颜色等。而时间信息主要是通过时间模板的格式来获取。
标题信息和时间信息获取后将与文本信息一并显示给用户,以便用户能够了解正文内容的主题和发布时间。
在去除噪声信息后,该网页的文本内容中剩余的内容(包括标题信息和时间信息)作为待预览网页的关键内容执行后续步骤S210的操作。
步骤S208、识别待预览网页的文本内容中所包含的各块的类型。
区分导航块、广告块和重要块等类型。
其中,重要块所包含的文本块对应的文字多,通常每个URL对应的文本超过5个以上,导航块通常是一些比较短的文本,而广告块的特点则是通常URL比较长,而且URL包含很多具有广告特征的关键词。
基于上述思路,在已经建立DOM树结构中,利用Table、Div、TR、TD、LI、DL、P、UL等标签形成的最底层块中,利用后续遍历的方法自底向上地删除,去除认为是广告块、或者是导航块的信息,而保留下来的就是重要块。
具体的,对于广告块的识别,主要采用的识别方法是通过统计URL的长度以及URL中是否包含数据库中具有广告特性的关键词。例如:如果URL中包含ad、go、goto、ads、adsclick等词,或者该URL字节长度大于32,将该节点认为是广告块节点,设置该节点为删除节点。
而对于导航块的识别,则是根据每一块的文本字数比较少,平均每个URL对应的文本不超过3个。这样从最底层的URL节点中判断,如果URL包含的文本节点/URL个数<4,将该节点认为是导航块节点,设置该节点为删除节点。
进一步的,在完成上述的广告块和导航块的识别后,还进一步包括根据节点包含关系所进行的识别过程:
如果一个节点下包含的子节点中的大多数节点都已经设置为删除节点,那么,对应的该节点也被设置为删除节点。
如果一个节点下包含的子节点中的绝大多数节点(超过一个预设阈值)都被保留,那么该节点下少量的删除节点也可以被保留。
这样处理的原因在于,在实际的应用场景中,对于一些网页,很难完整地将全部的重要块提取出来,即使提取出来,也通常丢掉了标题信息等有用信息,因为通常标题是作为一个特殊标记的文本块存在。
通过上述的根据节点包含关系所进行的识别过程,只是将广告、导航等认为对用户没用的信息设置为删除对象,并且从中找出有用信息予以保留,从而总体保存网页的整体结构信息,能够完整保留如标题这些与重要块相邻的重要视觉信息。
步骤S209、删除待预览网页的文本内容中的导航块和广告块,将剩余的重要块作为待预览网页的关键内容。
最后,根据上述过程中的设置结果,遍历整个网页,删除被设置为删除节点的节点,以及javascript等信息,输出作为重要块的HTML网页信息。
步骤210、通过显示窗口显示待预览网页的关键内容。
显示窗口可以是新打开的浏览器窗口,也可以是基于当前窗口所创建的浮动窗口,具体形式的变化并不会影响本发明的保护范围。
显示窗口中主要将网页关键内容进行展示,由于网页分为不同类型,对于不同类型网页显示的预览内容不同:
对于内容型网页,显示提取的正文的文本内容,结果见图3所示;
对于目录型网页,去除广告网页块、导航网页块,而只保留重要的网页块,结果见图4所示。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,可以通过获取网页中或即时通信工具中的URL所对应的网页的关键内容,实现对该网页内容的预览,在保证用户了解网页内容的情况下,降低了用户因访问未知网页而感染病毒的危险,提高了网络应用过程中的安全性,而关键内容预览的形式,也降低了下载网页全部内容所带来的系统资源和网络的占用,改善了用户的使用体验。
为了实现本发明的技术方案,本发明还提出了一种实现网页预览的设备。
如图5所示,为本发明提供的一种实现网页预览的设备的结构示意图,具体包括:
设置模块51,用于设置预览触发条件;
在具体的应用场景中,预览触发条件,具体包括:
指针在一个URL上停留的时间达到预设的停留时间阈值;或,
当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令;
其中,通过预设按键或预设的按键操作触发的网页预览指令,具体为:
单击鼠标右键所触发的网页预览指令;或,
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或,
按下多个按键所组成的按键组合所触发的网页预览指令;或,
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。
获取模块52,与设置模块51连接,用于当达到设置模块51所设置的预览触发条件时,获取待预览网页的URL;
下载模块53,与获取模块52连接,用于根据获取模块52所获取的URL,下载相对应的待预览网页的文本内容;
处理模块54,与下载模块53连接,用于识别下载模块53所下载的待预览网页的文本内容的类型,获取待预览网页的关键内容;
显示模块55,与处理模块54连接,用于通过显示窗口显示处理模块54所获取的待预览网页的关键内容。
另一方面,设置模块51还用于设置识别规则;
处理模块54按照设置模块51所设置的识别规则,根据下载模块53所下载的URL对应的页面文本,识别待预览网页的文本内容的类型,当待预览网页的文本内容为内容型网页时,处理模块54获取待预览网页的正文内容作为关键内容,当待预览网页的文本内容为目录型网页时,处理模块54获取待预览网页的重要块作为关键内容。
与现有技术相比,本发明具有以下优点:
通过应用本发明的技术方案,可以通过获取网页中或即时通信工具中的URL所对应的网页的关键内容,实现对该网页内容的预览,在保证用户了解网页内容的情况下,降低了用户因访问未知网页而感染病毒的危险,提高了网络应用过程中的安全性,而关键内容预览的形式,也降低了下载网页全部内容所带来的系统资源和网络的占用,改善了用户的使用体验。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。
本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以集成于一体,也可以分离部署;可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上公开的仅为本发明的几个具体实施例,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。

Claims (11)

1.一种实现网页预览的方法,其特征在于,包括以下步骤: 
当达到预设的预览触发条件时,获取待预览网页的URL; 
下载所述URL对应的待预览网页的文本内容; 
根据所述待预览网页的文本内容的类型,获取所述待预览网页的关键内容; 
通过显示窗口显示所述待预览网页的关键内容; 
其中,根据所述待预览网页的文本内容的类型,获取所述待预览网页的关键内容,具体包括: 
按照预设的识别规则,根据下载的所述URL对应的页面文本,识别待预览网页的文本内容的类型; 
当所述待预览网页的文本内容为内容型网页时,获取所述待预览网页的正文内容作为关键内容; 
当所述待预览网页的文本内容为目录型网页时,获取所述待预览网页的重要块作为关键内容。 
2.如权利要求1所述的方法,其特征在于,所述预设的预览触发条件,具体包括: 
指针在一个URL上停留的时间达到预设的停留时间阈值;或, 
当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令。 
3.如权利要求2所述的方法,其特征在于,所述通过预设按键或预设的按键操作触发的网页预览指令,具体为: 
单击鼠标右键所触发的网页预览指令;或, 
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或, 
按下多个按键所组成的按键组合所触发的网页预览指令;或, 
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。 
4.如权利要求1所述的方法,其特征在于,所述当所述待预览网页的文本内容为内容型网页时,获取所述待预览网页的正文内容作为关键内容,具体为: 
统计所述待预览网页中的各文本块的大小,确定最大文本块; 
判断是否需要对所述最大文本块所对应节点进行扩展,如果需要,则进行扩展,并通过扩展后的内容更新所述最大文本块的内容; 
对所述最大文本块的内容进行分析,确定噪声信息; 
删除所述最大文本块中的噪声信息,将剩余的内容作为所述待预览网页的关键内容。 
5.如权利要求4所述的方法,其特征在于,统计所述待预览网页中的各文本块的大小,确定最大文本块,还包括: 
根据所述待预览网页中的各文本块的大小,确定次大文本块; 
判断所述最大文本块是否为版权信息块; 
如果是,则将所述次大文本块确定为最大文本块。 
6.如权利要求4所述的方法,其特征在于,所述判断是否需要对所述最大文本块所对应节点进行扩展,具体为: 
确定所述最大文本块所对应节点的父节点下所包含的文本长度; 
判断所述最大文本块所对应节点下所包含的文本长度与所述父节点下所包含的文本长度的比例,是否小于预设阈值; 
如果小于,将所述最大文本块所对应节点的内容向所述父节点的内容进行扩展,如果不小于,则不需要对所述最大文本块所对应节点进行扩展。 
7.如权利要求4所述的方法,其特征在于,所述噪声信息,具体包括以下内容中的一项或多项: 
所述最大文本块中所包含的图像、图像标题和评论信息。 
8.如权利要求1所述的方法,其特征在于,当所述待预览网页的文本内容为目录型网页时,获取所述待预览网页的重要块作为关键内容,具体为: 
识别所述待预览网页的文本内容中所包含的各块的类型; 
删除所述待预览网页的文本内容中的导航块和广告块,将剩余的重要块作为所述待预览网页的关键内容。 
9.如权利要求1所述的方法,其特征在于,通过显示窗口显示所述待预览网页的关键内容,具体为: 
通过当前窗口所对应的的浮动窗口显示所述待预览网页的关键内容;或, 
通过新的窗口显示所述待预览网页的关键内容。 
10.一种实现网页预览的设备,其特征在于,具体包括: 
设置模块,用于设置预览触发条件; 
获取模块,与所述设置模块连接,用于当达到所述设置模块所设置的预览触发条件时,获取待预览网页的URL; 
下载模块,与所述获取模块连接,用于根据所述获取模块所获取的URL,下载相对应的待预览网页的文本内容; 
处理模块,与所述下载模块连接,用于识别所述下载模块所下载的待预览网页的文本内容的类型,获取所述待预览网页的关键内容; 
显示模块,与所述处理模块连接,用于通过显示窗口显示所述处理模块所获取的待预览网页的关键内容;
所述设置模块还用于设置识别规则; 
所述处理模块按照所述设置模块所设置的识别规则,根据所述下载模块所下载的所述URL对应的页面文本,识别待预览网页的文本内容的类型,当所述待预览网页的文本内容为内容型网页时,所述处理模块获取所述待预览网页的正文内容作为关键内容,当所述待预览网页的文本内容为目录型网页时,所述处理模块获取所述待预览网页的重要块作为关键内容。 
11.如权利要求10所述的设备,其特征在于,所述设置模块所设置的预览触发条件,具体包括: 
指针在一个URL上停留的时间达到预设的停留时间阈值;或, 
当指针停留在一个URL上时,接收到通过预设按键或预设的按键操作触发的网页预览指令; 
其中,所述通过预设按键或预设的按键操作触发的网页预览指令,具体为: 
单击鼠标右键所触发的网页预览指令;或, 
按下鼠标右键的时间达到预设的时间阈值时,所触发的网页预览指令;或, 
按下多个按键所组成的按键组合所触发的网页预览指令;或, 
按下多个按键所组成的按键组合达到预设的时间阈值时,所触发的网页预览指令。 
CN201010128845.0A 2010-03-22 2010-03-22 一种实现网页内容预览的方法和设备 Active CN102200971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201010128845.0A CN102200971B (zh) 2010-03-22 2010-03-22 一种实现网页内容预览的方法和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201010128845.0A CN102200971B (zh) 2010-03-22 2010-03-22 一种实现网页内容预览的方法和设备

Publications (2)

Publication Number Publication Date
CN102200971A CN102200971A (zh) 2011-09-28
CN102200971B true CN102200971B (zh) 2014-06-18

Family

ID=44661657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201010128845.0A Active CN102200971B (zh) 2010-03-22 2010-03-22 一种实现网页内容预览的方法和设备

Country Status (1)

Country Link
CN (1) CN102200971B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103067252B (zh) * 2011-10-21 2015-06-24 腾讯科技(深圳)有限公司 一种传输信息的方法及信息传输装置
CN103577479B (zh) * 2012-08-06 2015-08-19 腾讯科技(深圳)有限公司 网页内容显示方法及系统
CN103677547B (zh) * 2012-09-04 2018-05-25 腾讯科技(深圳)有限公司 界面显示方法和装置
CN107045414B (zh) * 2012-12-17 2019-07-12 华为终端有限公司 控制具有触控屏的终端的方法及终端
CN104252353B (zh) * 2013-06-28 2018-10-02 腾讯科技(深圳)有限公司 浏览器中页面声音的控制方法和装置
CN103353886B (zh) 2013-06-28 2017-11-07 优视科技有限公司 预览网页的方法及系统
CN103368951B (zh) * 2013-06-29 2017-02-22 广州市动景计算机科技有限公司 文件下载方法及系统
CN104331224B (zh) 2013-07-22 2018-02-23 腾讯科技(深圳)有限公司 一种网页内容浏览方法及装置、终端设备
CN103425765A (zh) * 2013-08-06 2013-12-04 优视科技有限公司 网页正文的提取方法和装置、网页预览方法和系统
CN104461265A (zh) * 2013-09-12 2015-03-25 联想(北京)有限公司 一种用户操作的响应方法和装置
KR102150624B1 (ko) * 2014-07-01 2020-09-01 삼성전자 주식회사 스미싱 알림 방법 및 장치
CN104156488B (zh) * 2014-08-29 2017-05-03 小米科技有限责任公司 网页变化检测方法及装置
CN104468720B (zh) * 2014-11-07 2019-04-26 广州市至德科技企业孵化器有限公司 一种确定预览链接并对其提供动态预览信息的方法
CN105872609A (zh) * 2015-12-10 2016-08-17 乐视网信息技术(北京)股份有限公司 一种控制视频切换的方法、发送视频信息的方法及装置
CN105577518A (zh) * 2015-12-17 2016-05-11 掌赢信息科技(上海)有限公司 一种在即时通信中显示网址对应信息的方法及电子设备
CN106095453B (zh) * 2016-06-16 2019-12-24 北京金山安全软件有限公司 一种信息展示方法、装置及电子设备
CN105956199B (zh) * 2016-06-20 2019-07-23 北京小米移动软件有限公司 信息展示方法及装置
CN106528691A (zh) * 2016-10-25 2017-03-22 珠海市魅族科技有限公司 一种网页内容的处理方法及移动终端
CN106776924B (zh) * 2016-11-30 2021-05-11 北京奇虎科技有限公司 网页页面预览方法及装置
CN108628870A (zh) * 2017-03-16 2018-10-09 北京搜狗科技发展有限公司 一种网页预览方法和装置
CN110020064A (zh) * 2017-07-19 2019-07-16 北京国双科技有限公司 网页的爬取方法和装置
CN110020331A (zh) * 2017-07-20 2019-07-16 北京国双科技有限公司 网页类型识别方法和装置
CN107516042B (zh) * 2017-09-02 2021-04-20 刘兴丹 一种二维码、网址链接截图预览的方法、装置及系统
CN108363775B (zh) * 2018-02-09 2022-08-12 上海宝尊电子商务有限公司 基于规则引擎的高扩展性线上预览环境方法
CN108287919B (zh) * 2018-02-13 2020-05-12 Oppo广东移动通信有限公司 网页应用的访问方法、装置、存储介质及电子设备
CN108647224A (zh) * 2018-03-22 2018-10-12 腾讯科技(深圳)有限公司 页面显示方法、装置、存储介质和电子装置
CN108664303B (zh) * 2018-04-28 2023-06-30 北京小米移动软件有限公司 网页内容的显示方法及装置
CN110750739B (zh) * 2018-07-04 2022-07-05 北京国双科技有限公司 一种页面类型确定方法及装置
CN109391540A (zh) * 2018-10-31 2019-02-26 珠海市小源科技有限公司 一种rcs消息的处理方法及装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042695A (zh) * 2006-03-20 2007-09-26 腾讯科技(深圳)有限公司 一种搜索结果页面缩略显示方法及系统

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101042695A (zh) * 2006-03-20 2007-09-26 腾讯科技(深圳)有限公司 一种搜索结果页面缩略显示方法及系统

Also Published As

Publication number Publication date
CN102200971A (zh) 2011-09-28

Similar Documents

Publication Publication Date Title
CN102200971B (zh) 一种实现网页内容预览的方法和设备
CN103166981B (zh) 一种无线网页转码方法及装置
CN101197849B (zh) 将互联网页面转换为无线应用协议页面的转换方法
CN107391675B (zh) 用于生成结构化信息的方法和装置
CN107153716B (zh) 网页内容提取方法和装置
CN104331474A (zh) 页面处理方法及装置
CN104766014A (zh) 用于检测恶意网址的方法和系统
WO2011072434A1 (en) System and method for web content extraction
CN103870486A (zh) 确定网页类型的方法和装置
CN103955495B (zh) 页面子资源的下载方法及装置
CN103064845B (zh) 网页信息处理装置和网页信息处理方法
CN106874271A (zh) 一种将pc网页转换为移动终端网页的方法及系统
CN110442286B (zh) 一种页面展示方法、装置及电子设备
CN104750851A (zh) 网页内容的延迟加载方法及系统
US20110258528A1 (en) Method and system for removing chrome from a web page
CN112685671A (zh) 页面显示方法、装置、设备及存储介质
CN106598409B (zh) 文本复制方法、装置和智能终端
CN106294885A (zh) 一种面向异构网页的数据收集与标注方法
Ghasemisharif et al. Speedreader: Reader mode made fast and private
CN113569181A (zh) 一种分页数据采集方法及系统
CN102955852A (zh) 一种网页资源处理方法、装置及设备
CN111381809A (zh) 一种焦点页面的查找方法及装置
CN107451163A (zh) 一种动画显示方法和装置
KR102290380B1 (ko) 페이지 구축방법, 장치, 디바이스 및 비발휘성 컴퓨터 기억매체
CN105094363A (zh) 表情符号的处理方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20221123

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518133

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 2, 518057, East 403 room, SEG science and Technology Park, Zhenxing Road, Shenzhen, Guangdong, Futian District

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.