CN103020246B - 用于浏览器的网页数据展现方法及装置 - Google Patents

用于浏览器的网页数据展现方法及装置 Download PDF

Info

Publication number
CN103020246B
CN103020246B CN201210553767.8A CN201210553767A CN103020246B CN 103020246 B CN103020246 B CN 103020246B CN 201210553767 A CN201210553767 A CN 201210553767A CN 103020246 B CN103020246 B CN 103020246B
Authority
CN
China
Prior art keywords
web page
extraction
data
page contents
webpage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210553767.8A
Other languages
English (en)
Other versions
CN103020246A (zh
Inventor
谢洲为
潘洪学
糜裕峰
任寰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201210553767.8A priority Critical patent/CN103020246B/zh
Publication of CN103020246A publication Critical patent/CN103020246A/zh
Application granted granted Critical
Publication of CN103020246B publication Critical patent/CN103020246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种用于浏览器的网页数据展现方法及装置,该装置包括:加载设置模块:用于加载网页内容提取设置;匹配设置模块:用于在浏览器侧进行网页内容的下载,获得该下载网页的数据组织结构,并与记录的数据组织结构相匹配;获取设置模块:用于获取一与下载的网页具有相匹配的数据组织结构的网页内容提取设置;提取数据模块:用于根据该匹配的网页内容提取设置中的数据提取方式,提取下载的网页中的网页数据;显示数据模块:用于加载提取的网页数据以进行显示;其中,如果匹配设置模块没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则提取数据模块用于以最为接近的网页内容提取设置提取下载的网页中的网页数据。

Description

用于浏览器的网页数据展现方法及装置
技术领域
本发明涉及计算机技术领域,尤其涉及一种用于浏览器的网页数据展现方法及装置。
背景技术
随着互联网技术的普及,网络已经成为人们获取信息的重要途径之一,其中网页中的文本内容是信息的主要载体。现在网页中内容多种多样,除了常规的文字内容外,网页中也部分或者全部地包括图片和其它非文字类别的多媒体内容,例如Flash插件、音频播放插件、广告类弹窗或者图片。对于小说网站这一类的网页内容全是文本的网站,其主要的内容多是文本,小说内容才是用户需要进行阅读的主要部分,但是其网页中的右侧或者左侧等网页部分会设置有大量的广告类图片信息,影响用户的阅读。而对于一些漫画网站,其网页中的图片是主要内容,其网页中的右侧或者左侧等网页部分会设置有大量的广告类图片信息,也会影响用户的阅读。
可见,在一般网页中,含有图片信息的内容排版的不规则,大量广告图片、页面非内容图片太多,以至于影响用户阅读体验,并且用户无法屏蔽其余多余内容,而聚集在真正阅读内容上,严重影响了用户的阅读体验。
发明内容
鉴于上述问题,提出了本发明,以便提供一种克服上述问题或者至少部分地解决上述问题的用于浏览器的网页数据展现方法及装置。
为解决上述技术问题,本发明提供一种用于浏览器的网页数据展现方法,包括:加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;如果没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
本发明的另一方面,提供一种用于浏览器的网页数据展现装置,包括:加载设置模块:用于加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;匹配设置模块:用于在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;获取设置模块:用于获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;提取数据模块:用于根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;显示数据模块:用于依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;其中,如果所述匹配设置模块没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则所述提取数据模块用于以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
与现有技术相比,本发明可以针对不同格式、结构的网页,通过分层解析获得该网页的数据组织结构,从而能与网页内容提取设置中记录的网页的数据组织结构相匹配,从而确定并获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置,并且根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据在浏览器侧进行显示。由于所述网页内容提取设置的数据组织结构能够与网页的数据组织结构相匹配,所以这种显示可以确保显示的网页内容不发生混乱,并且可以剔除不与之匹配的不重要的、杂乱的内容,例如大量广告图片、页面非内容图片太多,使浏览器用户可以将注意力聚集在真正想要阅读的内容上,提高用户阅读体验。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明实施例所述的一种用于浏览器的网页数据展现方法的流程图;
图2示出了根据本发明实施例所述的一种在浏览器侧展现图片及其对应文字的方法的流程图;
图3示出了根据本发明实施例所述的一种在浏览器侧展现图片及其对应文字的方法中图片及文字在网页中的结构图;
图4示出了根据一个网页内容提取设置由网页300提取内容后最终显示的网页300S;
图5示出了一种依据用户使用“网页内容提取设置”的频率达到第一频率设定的“网页内容提取设置”作为用户特性化数据并进行网页内容提取和显示的方法流程图;
图6A、图6B示出了一种采用网页内容提取设置中包括“图文关联项目”的显示效果图;
图7示出了一种提供用户选择可扩展项目的用户界面700结构图;
图8示出了一种根据本发明实施例所述的一种用于浏览器的网页数据展现装置800的模块结构图;
图9示出了一种根据本发明实施例所述的一种用于浏览器的网页数据展现装置900的模块结构图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,为本发明实施例提供的一种用于浏览器的网页数据展现方法,包括:
步骤101:加载至少一个“网页内容提取设置”;所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;
一般的,所述网页内容提取设置,在可扩展的XML文件中被定义;所述网页内容提取设置定义相应的内容块的结构体;
下面结合一段代码的示例对网页内容提取设置进行具体说明,以下是一段表达一个网页内容提取设置的代码,其中,其中的title是对应网页标题的,bookpic是对应网页中的图片的,text是对应该图片的描述文字的,next是下一个网页的链接,prev是上一个网页的链接。
优选的,所述网页内容提取设置包括,图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。例如,在XML中增加一个图文关联项目,说明bookpic与text之间的关系:“bookpic与text之间属于同一个内容块,需要进行关联的显示”这样就可以实现在本地加载显示时的,明确图片和文字之间的关联性,不出现文字和图片的混乱,而且是可以相对应地显示加载的。
优选的,所述网页内容提取设置通过以下方法获得:将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧并且/或者同步到浏览器对应的服务器侧;在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。所述第一频率限定可以由本方法定义,或者由用户定义,例如:浏览频率达5%以上。
优选的,所述网页内容提取设置通过以下方法获得:根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,例如:视频、flash、声音等可以显示或播放的内容;接收用户对于所述可以扩展的显示项目在该“网页内容提取设置”中的添加或更改操作指令,重新设定所述网页内容提取设置,例如:用窗口提示用户可加载的内容,提供用户选择,并预览选择后的效果,当用户确定选择后,按照用户的选择重新设定网页内容提取设置。优选的,在完成所述重新设定所述网页内容提取设置后,可将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。
优选的,所述网页内容提取设置通过以下方法获得:对以下内容进行解析比较:1、浏览频率达到第二频率限定的网页的DOM,2、所述用户设定的网页内容提取设置,3、加载提取的网页数据在浏览器侧进行显示的页面中的DOM,依据对三者的分析设定“常用的网页中的图文样式”,并自动设定相应网页内容提取设置。
优选的,还可针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。例如,有A、B、C三个网页内容提取设置;其中A被加载过50;B被加载过100次,C被加载过25次,则其排序为BAC,加载的网页内容提取设置的遍历顺序为BAC。
优选的,还可为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改,这种方式可让用户完全自定义地编辑网页内容提取设置。
步骤102:在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;
优选的,步骤102还包括,通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。因为网页内容的呈现形式为Html语言,所以,网页内容提取设置的解析是针对Html语言的。通过分层解析网页的DOM结构,能够获取相应的网页内容。对DOM结构可以实现网页内容提取设置的匹配。
步骤103:获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;
优选的,步骤103还包括,当有多个匹配的数据组织结构网页内容提取设置时,可以依据用户的选择获得其中一个;优选的,可以依据用户的习惯性选择默认挑选一个用户常用的匹配;优选的,当没有获得匹配的数据组织结构网页内容提取设置时,可以挑选最接近的数据组织结构网页内容提取设置;
步骤104:根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;
优选的,步骤104还包括,将所述提取到的下载的网页中的网页数据保存在计算机本地目录的第一文件中,所述第一文件为本方法设定的一个特定文件;优选的,获得第一文件后,启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL;优选的,对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
优选的,步骤104还包括,如果没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
优选的,步骤104还包括,当侦测到浏览器用户登录时,使用获得匹配次数最多的网页内容提取设置直接提取已经加载的网页中的数据。
优选的,步骤102~步骤104还可以包括,在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。优选的,其又包括,启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存;将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中,所述第一文件为本方法设定的一个特定文件;获得第一文件后,启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL;优选的,对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
步骤105:依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示。
优选的,步骤105还包括,在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,由用户决定是否显示,接收用户对所述按钮的触发,选择显示时,加载所述提取的网页数据在浏览器侧进行显示。
如图2所示,为根据本发明实施例所述的一种在浏览器侧展现图片及其对应文字的方法的流程图,如图3所示,为根据本发明实施例所述的一种在浏览器侧展现图片及其对应文字的方法中图片及文字在网页300中的结构图,如图4所示,为根据一个网页内容提取设置由网页300提取内容后最终显示的网页300S;所述方法包括以下步骤:
步骤201:加载至少一个网页内容提取设置,所述设置中记录有网页的图片和文字的组织结构以及该结构下的图片和文字提取方式,其需要获得图片的Url;
步骤202:通过自建浏览器在浏览器侧进行网页300内容的下载,自建浏览器浏览网页300,在收到DocumentComplete事件后,遍历已经加载的网页内容提取设置,通过分层解析获得该下载网页的图片和文字的组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配。
步骤203:获取一与所述下载的网页具有相匹配的图片和文字的组织结构的网页内容提取设置;
步骤204:根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据,保存在第一文件中,启动一个线程对所述第一文件中的项目逐一核实,包括获取所需提取的URL,依据该URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL。
步骤205:依据用户的触发指令加载所述提取的网页图片及文字在浏览器侧进行显示。
如图3,所示,为根据本发明实施例所述的一种在浏览器侧展现图片及其对应文字的方法中图片及文字在网页300中的结构图;网页中包含文字块Title301(为网页300的标题文字)、图片A302、图片A302对应的文字块A303、图片B304、图片B304对应的文字块B305、Flash块306、相关文章链接块307、独立的文字块C308、“上一页”按钮309、下一页按钮“310”。
实例中的一个网页内容提取设置由如下代码规定:
其规则为,提取网页的标题文字;提取图片;提取所述图像对应的描述文字;提取上一页按钮的链接;提取下一页按钮的链接。
针对所述网页300,文字块Title301为网页300的标题文字,所以被提取;图片A302被提取;文字块A303,由于其在网页html语言描述中对应于图片A302,其被提取;同理;图片B304和文字块B305被提取;Flash块306、相关文章链接块307由于不属于被提取的内容类型,所以不提取;独立的文字块C308由于没有在html语言描述中对应任何一张图片,所以不提取;“上一页”按钮309的链接,下一页按钮“310”的链接都被提取。
判断提取内容后,将需提取的图片块URL和文字块存储在第一文件中,下载URL指向的图片,并将文件中URL更改为下载的本地图片存储地址,并通知浏览器测,待用户触发指令后,加载所述第一文件中的图片存储地址和文字,在浏览器侧进行显示。
最终显示的效果如图4,最终显示网页300S中包括:文字块Title301、图片A302、文字块A303、图片B304、文字块B305、“上一页”按钮309的链接,下一页按钮“310”的链接。
如图5所示,为一种依据用户使用“网页内容提取设置”的频率达到第一频率设定的“网页内容提取设置”作为用户特性化数据并进行网页内容提取和显示的方法流程图。包括以下步骤:
步骤501:侦测浏览器用户(例如:张三)使用各“网页内容提取设置”的频率;
步骤502:判断所述用户使用某“网页内容提取设置”的频率值达到第一频率限定(所述第一频率限定可以由本方法定义,或者由用户定义,例如:浏览频率达10%以上。)
步骤503:将所述网页内容提取设置作为所述用户的特性化数据保存在浏览器侧并且/或者同步到浏览器对应的服务器侧;
步骤504:在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置;
步骤505:采用所述网页内容提取设置提取网页内容并显示。
如图6A、图6B所示:为一种采用网页内容提取设置中包括“图文关联项目”的显示效果图。包括文字块A601、图片A缩略图602、图片A603。
所述网页内容提取设置包括,图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。例如,在XML中增加一个图文关联项目,说明bookpic与text之间的关系:“bookpic与text之间属于同一个内容块,需要进行关联的显示”这样就可以实现在本地加载显示时的,明确图片和文字之间的关联性,不出现文字和图片的混乱,而且是可以相对应地显示加载的。
如图6A所示,右边图片A缩略图602为图片A603的缩略图,左边为图片A603对应的文字块A601,所述图文关联项目确保了图片A603的缩略图和文字块A601正确的显示关系。当鼠标悬浮在图片缩略图上会加载原尺寸图片,显示为图6B;当鼠标移出后显示还原为图6A。
如图7:为一种提供用户选择可扩展项目的用户界面700结构图,包括界面701,界面702,界面703。当加载某一网页内容提取设置后,根据当前用户浏览的当前网页和所述网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目(例如:Flash),此时弹出此用户界面700,在界面701中,用户可选择是否添加此项目,在界面702中,根据用户的选择可以预览显示出匹配的初步结果显示在页面上,在界面703中,接收用户对于所述可以扩展的显示项目在该网页内容提取设置中的添加、或更改、或者仅使用一次此设置的指令,重新设定所述网页内容提取设置,或者可以取消设置。并且,可以通过这种有用户匹配接入的方式,更新上述的网页内容提取设置库,并形成特定用户的网页内容提取设置,形成用户特定数据。
此外,浏览器侧可以进行自动的调整所述网页内容提取设置,在对于阅读模式下的页面中的DOM结构的解析、用户经常阅读的网页的DOM、以及用户设置的网页内容提取设置进行比较后,设置其中的常出现的“文字+图片”等的样式,并自动进行所述网页内容提取设置的更新设置。
如图8所示,为根据本发明实施例所述的一种用于浏览器的网页数据展现装置800的模块结构图,所述装置包括:
加载设置模块810:用于加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;
匹配设置模块820:用于在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;
获取设置模块830:用于获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;
提取数据模块840:用于根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;
显示数据模块850:用于依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示。
如图9所示:为根据本发明实施例所述的一种用于浏览器的网页数据展现装置900的模块结构图,所述装置包括:
加载设置模块910:用于加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;
一般的,所述网页内容提取设置,在可扩展的XML文件中被定义;所述网页内容提取设置定义相应的内容块的结构体;
下面结合一段代码的示例对网页内容提取设置进行具体说明,以下是一段表达一个网页内容提取设置的代码,其中,其中的title是对应网页标题的,bookpic是对应网页中的图片的,text是对应该图片的描述文字的,next是下一个网页的链接,prev是上一个网页的链接。
优选的,所述网页内容提取设置包括,图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。例如,在XML中增加一个图文关联项目,说明bookpic与text之间的关系:“bookpic与text之间属于同一个内容块,需要进行关联的显示”这样就可以实现在本地加载显示时的,明确图片和文字之间的关联性,不出现文字和图片的混乱,而且是可以相对应地显示加载的。
优选的,加载设置模块910包括“常用设置加载模块”911,其用于,将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧并且/或者同步到浏览器对应的服务器侧;在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。所述第一频率限定可以由本方法定义,或者由用户定义,例如:浏览频率达5%以上。
优选的,加载设置模块910包括“扩展设置加载模块”912,其用于,根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,例如:视频、flash、声音等可以显示或播放的内容;接收用户对于所述可以扩展的显示项目在该“网页内容提取设置”中的添加或更改操作指令,重新设定所述网页内容提取设置,例如:用窗口提示用户可加载的内容,提供用户选择,并预览选择后的效果,当用户确定选择后,按照用户的选择重新设定网页内容提取设置。优选的,在完成所述重新设定所述网页内容提取设置后,可将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。
优选的,加载设置模块910包括“自动设置加载模块”913,其用于,对以下内容进行解析比较:1、浏览频率达到第二频率限定的网页的DOM,2、所述用户设定的网页内容提取设置,3、加载提取的网页数据在浏览器侧进行显示的页面中的DOM,依据对三者的分析设定“常用的网页中的图文样式”,并自动设定相应网页内容提取设置。
优选的,加载设置模块910包括“顺序设置加载模块”914,其用于,针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。例如,有A、B、C三个网页内容提取设置;其中A被加载过50;B被加载过100次,C被加载过25次,则其排序为BAC,加载的网页内容提取设置的遍历顺序为BAC。
优选的,加载设置模块910包括“编辑设置模块”915,其用于,为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改,这种方式可让用户完全自定义地编辑网页内容提取设置。
匹配设置模块920:用于在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;
优选的,匹配设置模块920包括“DOM匹配模块”921,其用于,通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。因为网页内容的呈现形式为Html语言,所以,网页内容提取设置的解析是针对Html语言的。通过分层解析网页的DOM结构,能够获取相应的网页内容。对DOM结构可以实现网页内容提取设置的匹配。
获取设置模块930:用于获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;
优选的,获取设置模块930包括“用户选择模块”931,其用于,当有多个匹配的数据组织结构网页内容提取设置时,依据用户的选择获得其中一个;
优选的,获取设置模块930包括“默认选择模块”932,其用于,依据用户的习惯性选择默认挑选一个用户常用的匹配;
提取数据模块940:用于根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;
优选的,提取数据模块940包括“保存模块”941,其用于,将所述提取到的下载的网页中的网页数据保存在计算机本地目录的第一文件中,所述第一文件为本方法设定的一个特定文件;
优选的,提取数据模块940包括“核实模块”942,其用于,获得第一文件后,启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL;
优选的,提取数据模块940包括“通知模块”943,其用于,对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
优选的,提取数据模块940包括“近似提取模块”944,其用于,如果没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
优选的,提取数据模块940包括“最常提取模块”945,其用于,当侦测到浏览器用户登录时,使用获得匹配次数最多的网页内容提取设置直接提取已经加载的网页中的数据。
优选的,匹配设置模块920、获取设置模块930、提取数据模块940可以整合为一个“匹配内容模块”(未在图9中示出),其用于,在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。
优选的,“匹配内容模块”包括“遍历匹配模块”,其用于,启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存。将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中,所述第一文件为本方法设定的一个特定文件;获得第一文件后,启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL;优选的,对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
显示数据模块950:用于依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示。
优选的,显示数据模块950包括“启动显示模块”951,在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,由用户决定是否显示,接收用户对所述按钮的触发,选择显示时,加载所述提取的网页数据在浏览器侧进行显示。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的如图8、图9所示装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
本文公开了A1、一种用于浏览器的网页数据展现方法,包括:加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;如果没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。A2、如A1所述方法,其特征在于,所述网页内容提取设置,在可扩展的XML文件中被定义,所述网页内容提取设置定义相应的内容块的结构体。A3.如A1所述方法,其特征在于,所述通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配包括:通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。A4、如A1所述方法,其特征在于,所述根据该匹配的网页内容提取设置中的数据提取方式按照对应的数据组织结构提取所述下载的网页中的网页数据包括:在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。A5、如A4所述方法,其特征在于,所述遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据包括:启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存。A6、如A5所述方法,其特征在于,所述将可以匹配网页内容提取设置的内容块作为匹配结果进行保存包括:将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中。A7、如A6所述方法,其特征在于,进一步包括:启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL。A8、如A7所述方法,其特征在于,进一步包括:对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。A9、如A1所述方法,其特征在于,所述依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示包括:在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,接收用户对所述按钮的触发,加载所述提取的网页数据在浏览器侧进行显示。A10、如A1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧;在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。A11、如A1所述方法,其特征在于,所述网页内容提取设置包括图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。A12、如A1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,接收用户对于所述可以扩展的显示项目在该网页内容提取设置中的添加或更改操作指令,重新设定所述网页内容提取设置。A13、如A12所述方法,其特征在于,进一步包括:在完成重新设定所述网页内容提取设置后,将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。A14.如A1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:对浏览频率达到第二频率限定的网页的DOM和所述用户设定的网页内容提取设置,以及加载提取的网页数据在浏览器侧进行显示的页面中的DOM结构进行解析比较;设定常用的网页中的图文样式,并自动设定相应网页内容提取设置。A15、如A1所述的方法,其特征在于,进一步包括:针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。A16、如A15所述的方法,其特征在于,进一步包括:当侦测到浏览器用户登录时,使用获得匹配次数最多的网页内容提取设置直接提取已经加载的网页中的数据。A17、如A1所述的方法,其特征在于,进一步包括:为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改。
本文公开了B18、一种用于浏览器的网页数据展现装置,包括:加载设置模块:用于加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;匹配设置模块:用于在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;获取设置模块:用于获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;提取数据模块:用于根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据;显示数据模块:用于依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;其中,如果所述匹配设置模块没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则所述提取数据模块用于以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。B19、如B18所述装置,其特征在于,所述网页内容提取设置,在可扩展的XML文件中被定义,所述网页内容提取设置定义相应的内容块的结构体。B20、如B18所述装置,其特征在于,所述匹配设置模块,还用于通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。B21、如B18所述装置,其特征在于,所述提取数据模块,还用于在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。B22、如B21所述装置,其特征在于,所述提取数据模块,还用于启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存。B23、如B22所述装置,其特征在于,所述提取数据模块,还用于将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中。B24、如B23所述装置,其特征在于,所述提取数据模块,还用于启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL。B25、如B24所述装置,其特征在于,所述提取数据模块,还用于对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。B26、如B18所述装置,其特征在于,所述显示数据模块,还用于在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,接收用户对所述按钮的触发,加载所述提取的网页数据在浏览器侧进行显示。B27、如B18所述装置,其特征在于,所述加载设置模块,还用于,将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧;在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。B28、如B18所述装置,其特征在于,所述网页内容提取设置包括图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。B29、如B18所述装置,其特征在于,所述加载设置模块,还用于,根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,接收用户对于所述可以扩展的显示项目在该网页内容提取设置中的添加或更改操作指令,重新设定所述网页内容提取设置。B30、如B29所述装置,其特征在于,所述加载设置模块,还用于,在完成重新设定所述网页内容提取设置后,将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。B31.如B18所述装置,其特征在于,所述加载设置模块,还用于,对浏览频率达到第二频率限定的网页的DOM和所述用户设定的网页内容提取设置,以及加载提取的网页数据在浏览器侧进行显示的页面中的DOM结构进行解析比较;设定常用的网页中的图文样式,并自动设定相应网页内容提取设置。B32、如B18所述的装置,其特征在于,所述加载设置模块,还用于,针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。B33、如B32所述的装置,其特征在于,还用于,当侦测到浏览器用户登录时,所述加载设置模块用于获得匹配次数最多的网页内容提取设置,所述提取数据模块用于直接以其提取已经加载的网页中的数据。B34、如B18所述的装置,其特征在于,所述加载设置模块,还用于,为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改。

Claims (34)

1.一种用于浏览器的网页数据展现方法,包括:
加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;
在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;
获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;
根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据,所述数据提取方式包括提取图片对应的描述文字;
依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;
如果没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
2.如权利要求1所述方法,其特征在于,所述网页内容提取设置,在可扩展的XML文件中被定义,所述网页内容提取设置定义相应的内容块的结构体。
3.如权利要求1所述方法,其特征在于,所述通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配包括:
通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。
4.如权利要求1所述方法,其特征在于,所述根据该匹配的网页内容提取设置中的数据提取方式按照对应的数据组织结构提取所述下载的网页中的网页数据包括:
在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。
5.如权利要求4所述方法,其特征在于,所述遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据包括:
启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存。
6.如权利要求5所述方法,其特征在于,所述将可以匹配网页内容提取设置的内容块作为匹配结果进行保存包括:
将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中。
7.如权利要求6所述方法,其特征在于,进一步包括:
启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL。
8.如权利要求7所述方法,其特征在于,进一步包括:
对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
9.如权利要求1所述方法,其特征在于,所述依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示包括:
在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,接收用户对所述按钮的触发,加载所述提取的网页数据在浏览器侧进行显示。
10.如权利要求1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:
将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧;
在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。
11.如权利要求1所述方法,其特征在于,所述网页内容提取设置包括图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。
12.如权利要求1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:
根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,
接收用户对于所述可以扩展的显示项目在该网页内容提取设置中的添加或更改操作指令,重新设定所述网页内容提取设置。
13.如权利要求12所述方法,其特征在于,进一步包括:
在完成重新设定所述网页内容提取设置后,将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。
14.如权利要求1所述方法,其特征在于,所述网页内容提取设置通过以下方法获得:
对浏览频率达到第二频率限定的网页的DOM和所述用户设定的网页内容提取设置,以及加载提取的网页数据在浏览器侧进行显示的页面中的DOM结构进行解析比较;
设定常用的网页中的图文样式,并自动设定相应网页内容提取设置。
15.如权利要求1所述的方法,其特征在于,进一步包括:
针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;
根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。
16.如权利要求15所述的方法,其特征在于,进一步包括:
当侦测到浏览器用户登录时,使用获得匹配次数最多的网页内容提取设置直接提取已经加载的网页中的数据。
17.如权利要求1所述的方法,其特征在于,进一步包括:
为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改。
18.一种用于浏览器的网页数据展现装置,包括:
加载设置模块:用于加载至少一个网页内容提取设置,所述设置中记录有网页的数据组织结构以及该结构下的数据提取方式;
匹配设置模块:用于在浏览器侧进行网页内容的下载,通过分层解析获得该下载网页的数据组织结构,并与所述网页内容提取设置中记录的网页的数据组织结构相匹配;
获取设置模块:用于获取一与所述下载的网页具有相匹配的数据组织结构的网页内容提取设置;
提取数据模块:用于根据该匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据,所述数据提取方式包括提取图片对应的描述文字;
显示数据模块:用于依据用户的触发指令加载所述提取的网页数据在浏览器侧进行显示;
其中,如果所述匹配设置模块没有匹配到与当前已经加载的网页的数据组织结构相匹配的网页内容提取设置,则所述提取数据模块用于以最为接近的网页内容提取设置提取所述下载的网页中的网页数据。
19.如权利要求18所述装置,其特征在于,所述网页内容提取设置,在可扩展的XML文件中被定义,所述网页内容提取设置定义相应的内容块的结构体。
20.如权利要求18所述装置,其特征在于,所述匹配设置模块,还用于通过分层解析所述网页的DOM结构获取所述的网页内容,并通过所述DOM结构与所述网页内容提取设置中记录的网页的数据组织结构相匹配。
21.如权利要求18所述装置,其特征在于,所述提取数据模块,还用于在自建浏览器浏览网页并收到网页加载的DocumentComplete事件后,遍历与所述网页匹配的网页内容提取设置,并根据匹配的网页内容提取设置中的数据提取方式,按照对应的数据组织结构提取所述下载的网页中的网页数据。
22.如权利要求21所述装置,其特征在于,所述提取数据模块,还用于启动一个线程,在该线程中遍历与所述网页匹配的网页内容提取设置,依据所述匹配的网页内容提取设置的其中一个,对所述下载网页中已经解析完成的DOM进行结构上的查找,将可以匹配网页内容提取设置的内容块作为匹配结果进行保存。
23.如权利要求22所述装置,其特征在于,所述提取数据模块,还用于将所述作为匹配结果的提取得到的所述下载的网页中的网页数据保存在计算机本地目录的第一文件中。
24.如权利要求23所述装置,其特征在于,所述提取数据模块,还用于启动一个线程对所述第一文件中的项目逐一核实,并依据其中的图片的URL在后台下载图片,并将下载在计算机本地的所述图片的路径替换所述图片的URL。
25.如权利要求24所述装置,其特征在于,所述提取数据模块,还用于对所述第一文件中的项目逐一核实后,通知浏览器侧可以使用该第一文件在浏览器侧进行显示。
26.如权利要求18所述装置,其特征在于,所述显示数据模块,还用于在按照对应的数据组织结构提取所述下载的网页中的网页数据后,在浏览器侧加载一按钮,接收用户对所述按钮的触发,加载所述提取的网页数据在浏览器侧进行显示。
27.如权利要求18所述装置,其特征在于,所述加载设置模块,还用于,将某浏览器用户使用频率达到第一频率限定的网页内容提取设置作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧;在所述用户登录并使用浏览器时,获得所述保存的网页内容提取设置。
28.如权利要求18所述装置,其特征在于,所述网页内容提取设置包括图文关联项目,所述图文关联项目用于规定图片及与其对应的文字的关系,以确保加载所述提取的网页数据在浏览器侧进行显示时,所述图片及其对应的文字符合预定显示要求。
29.如权利要求18所述装置,其特征在于,所述加载设置模块,还用于,根据某用户浏览的当前网页和某一网页内容提取设置匹配的结果,判定所述匹配结果中可以扩展的显示项目,接收用户对于所述可以扩展的显示项目在该网页内容提取设置中的添加或更改操作指令,重新设定所述网页内容提取设置。
30.如权利要求29所述装置,其特征在于,所述加载设置模块,还用于,在完成重新设定所述网页内容提取设置后,将所述网页内容提取设置其作为所述用户的特性化数据保存在浏览器侧或者同步到浏览器对应的服务器侧。
31.如权利要求18所述装置,其特征在于,所述加载设置模块,还用于,对浏览频率达到第二频率限定的网页的DOM和所述用户设定的网页内容提取设置,以及加载提取的网页数据在浏览器侧进行显示的页面中的DOM结构进行解析比较;设定常用的网页中的图文样式,并自动设定相应网页内容提取设置。
32.如权利要求18所述的装置,其特征在于,所述加载设置模块,还用于,针对不同网页内容提取设置,分别统计与已经加载的网页获得匹配的次数;根据所述统计次数确定对所述已经加载的网页内容提取设置的遍历顺序。
33.如权利要求32所述的装置,其特征在于,还用于,当侦测到浏览器用户登录时,所述加载设置模块用于获得匹配次数最多的网页内容提取设置,所述提取数据模块用于直接以其提取已经加载的网页中的数据。
34.如权利要求18所述的装置,其特征在于,所述加载设置模块,还用于,为所述网页内容提取设置提供编辑接口,以对网页内容提取设置中的项目进行添加或修改。
CN201210553767.8A 2012-12-18 2012-12-18 用于浏览器的网页数据展现方法及装置 Active CN103020246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210553767.8A CN103020246B (zh) 2012-12-18 2012-12-18 用于浏览器的网页数据展现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210553767.8A CN103020246B (zh) 2012-12-18 2012-12-18 用于浏览器的网页数据展现方法及装置

Publications (2)

Publication Number Publication Date
CN103020246A CN103020246A (zh) 2013-04-03
CN103020246B true CN103020246B (zh) 2018-01-05

Family

ID=47968849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210553767.8A Active CN103020246B (zh) 2012-12-18 2012-12-18 用于浏览器的网页数据展现方法及装置

Country Status (1)

Country Link
CN (1) CN103020246B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102982181B (zh) * 2012-12-18 2016-09-28 北京奇虎科技有限公司 一种在浏览器侧展现网页数据的方法及装置
CN104346176B (zh) * 2013-07-24 2019-04-12 腾讯科技(深圳)有限公司 一种浏览器启动的方法及装置
CN104423788B (zh) * 2013-09-09 2018-02-27 联想(北京)有限公司 一种信息处理方法和电子设备
CN104270447A (zh) * 2014-10-09 2015-01-07 浪潮通用软件有限公司 一种html页面上内容的同步模块化加载方法
CN104573129A (zh) * 2015-02-11 2015-04-29 卢秋阳 一种图片显示方法和装置
CN114490315B (zh) * 2021-12-16 2022-09-13 北京志凌海纳科技有限公司 Web应用程序自动化测试方法和装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN101364979A (zh) * 2007-08-10 2009-02-11 鸿富锦精密工业(深圳)有限公司 下载资料解析及处理系统及方法
CN101373478A (zh) * 2008-10-21 2009-02-25 腾讯科技(深圳)有限公司 一种数据显示的方法及装置
CN101908044A (zh) * 2009-06-04 2010-12-08 上海灵慧软件技术有限公司 一种动态可调的模板及其使用方法
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN102982181A (zh) * 2012-12-18 2013-03-20 北京奇虎科技有限公司 一种在浏览器侧展现网页数据的方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192234A (zh) * 2007-06-07 2008-06-04 腾讯科技(深圳)有限公司 一种基于网页抽取的搜索系统及搜索方法
CN101364979A (zh) * 2007-08-10 2009-02-11 鸿富锦精密工业(深圳)有限公司 下载资料解析及处理系统及方法
CN101373478A (zh) * 2008-10-21 2009-02-25 腾讯科技(深圳)有限公司 一种数据显示的方法及装置
CN101908044A (zh) * 2009-06-04 2010-12-08 上海灵慧软件技术有限公司 一种动态可调的模板及其使用方法
CN102222310A (zh) * 2011-07-18 2011-10-19 深圳证券信息有限公司 证券信息发布方法和平台
CN102591971A (zh) * 2011-12-31 2012-07-18 北京百度网讯科技有限公司 一种网页信息提取的方法和设备
CN102982181A (zh) * 2012-12-18 2013-03-20 北京奇虎科技有限公司 一种在浏览器侧展现网页数据的方法及装置

Also Published As

Publication number Publication date
CN103020246A (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN102982181B (zh) 一种在浏览器侧展现网页数据的方法及装置
CN103020246B (zh) 用于浏览器的网页数据展现方法及装置
CN103533442B (zh) 视频弹幕的加载方法及装置
US10146887B2 (en) Providing separate views for items
US10542123B2 (en) System and method for generating and monitoring feedback of a published webpage as implemented on a remote client
CN104360882B (zh) 一种浏览器中对网页中图片进行显示方法和装置
CN103678639B (zh) 浏览器中进行信息更新提醒的方法及设备
CN102831148B (zh) 一种基于浏览器的推荐数据加载方法和装置
CN103942290B (zh) 用于在终端中提供网页中的图像的方法和设备
CN105593805B (zh) 基于移动装置定向定制移动媒体片尾用户界面
US9916388B2 (en) Simplified website creation, configuration, and customization system
KR20160137935A (ko) 소셜 네트워크 정보흐름 표시방법, 장치, 서버, 프로그램 및 컴퓨터가 판독가능한 기록매체
WO2009078020A2 (en) System and method for automatic creation of web content for mobile communicators
CN104462516B (zh) 一种信息提示方法及移动终端
CN103853768B (zh) 一种网络收藏内容分享方法和装置
CN104021016B (zh) 加载浏览器插件图标的方法及浏览器
CN102929484B (zh) 浏览器皮肤加载显示方法及装置
CN103631630A (zh) 浏览器动态皮肤的加载方法和浏览器装置
CN103942231B (zh) 一种网页的显示方法及电子设备
CN105224657B (zh) 一种基于搜索引擎的信息推荐方法及电子设备
CN105100916B (zh) 一种视频播放器的制作方法和装置
US9183215B2 (en) Mosaic display systems and methods for intelligent media search
CN107632751A (zh) 信息显示方法和装置
CN106371706A (zh) 应用快捷方式位置选择的方法及装置
CN106055688A (zh) 搜索结果的展现方法、装置和移动终端

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220725

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co.,Ltd.

TR01 Transfer of patent right