实施例二,详细介绍本发明提供的一种基于网页的图片显示方法。
参照图2,示出了本发明实施例二所述一种基于网页的图片显示方法流程图。
参照图3,示出了本发明实施例二所述一种基于网页的图片显示方法中步骤21的流程图。
步骤21,基于当前显示网页的URL,判断该网页是否属于预设的图片显示类网页;
在浏览网页时,每个网页对应唯一一个URL,判断所述URL是否属于预设的图片显示类网页。步骤21包括以下步骤:
步骤211,对当前网页的URL进行解析,得到URL的域名及其中的关键字;
对当前网页的URL进行解析,得到当前网页的URL的各组成部分内容,从中得到URL的域名及其中的关键字。
例如,当前网页的URL为
“http://www.narutom.com/onepiece/manhua/15199.html”,
其中,“www.narutom.com”是域名,,“manhua”是其中的关键字。
步骤212,判断所述域名是否属于预设的URL名单中的域名;
通过步骤211得到当前网页的域名“www.narutom.com”后,判断所述当前网页的域名是否属于预设的URL名单中的域名。
例如,当前网页的域名是“www.narutom.com”,判断“www.narutom.com”是否属于与预先设定的URL名单中的域名。
步骤213,判断所述关键字是否与图书、图片相关联;
得到的所述关键字为“manhua”,判断所述“manhua”关键字是否与图书、图片相关联。
步骤214,当所述域名属于预设的URL名单中的域名或所述关键字与图书、图片相关联时,确定该网页属于预设的图片显示类网页;
如果预设的URL名单中包含“www.narutom.com”,则所述域名“www.narutom.com”属于预设的URL名单中的域名;
所述关键字“manhua”表示的意思为“漫画”,与图书、图片现关联,则确定当前网页属于预设的图片显示类网页。
其中判断的条件包括域名和关键字,当这两个条件中满足任意一个条件,即可判断所述当前网页属于预设的图片显示类网页。
参照图4,示出了本发明实施例二所述一种基于网页的图片显示方法中步骤22的流程图。
步骤22,如果是,基于对当前网页的DOM树解析结果获取当前网页中的图片;
在步骤21对当前网页进行判断后,当前网页属于预先设定的图片显示类网页,基于DOM树解析结果中的元素、节点和文本等,获取得到当前网页中的图片。
所述步骤22包括:
步骤221,遍历DOM树解析结果,生成图片获取模式,其中所述图片获取模式包括定位路径;
生成图片获取模式分两个步骤:
(1)归纳样本网页信息块定位路径;
(2)定位信息块内信息点路径。
(1)归纳样本网页信息块定位路径,根据用户提供的样本网页的结构特点,将样本网页按相似结构分块,本发明实施例二所要获取的图片就位于这些相似结构的信息块中,即,被提取信息点位于结构相似的信息块内,各信息点之间没有其他信息。
(2)定位信息块内信息点路径,确定了样本网页中信息块的定位路径之后,可以通过在信息块内先序遍历得到具体信息点的定位路径,这个定位路径用XPath表示,XPath是一门在XML文档中查找信息的语言。XPath用于在XML文档中通过元素和属性进行导航。
步骤222,根据所述图片获取模式,编写扩展样式表转换文档;
根据所述图片获取模式,利用归纳学习得到的XPath,编写扩展样式表转换文档。
步骤223,根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成只保留所述定位路径指定节点的,包括图片的XML文档;
根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成一个XML文档,这个XML文档中只保留XPath指定的包括图片的节点。
步骤224,在所述XML文档中获取所述图片的下载地址,下载得到所述图片;
所述XML文档中保存有所述图片的下载地址信息,根据所述下载地址信息,下载得到所述图片。
参照图5,示出了本发明实施例二所述一种基于网页的图片显示方法中步骤23的流程图。
步骤23,在网页浏览器主窗口上创建一个显示窗口,在该显示窗口中加载所获取的当前网页中的图片;
在网页浏览器所处的操作系统桌面上创建一个显示窗口,该窗口可以是一个传统意义上的窗口,如Windows操作系统中的窗口;也可以是一个虚拟出来的窗口,作为显示图片的一个载体。
在所述显示窗口内,将步骤22中所获得的漫画类图片加载显示出来。
所述在显示窗口中加载所获取的图片包括:
漫画类图片、报刊类图片、书籍类图片中的至少一种。
在所述显示窗口中显示图片时,预先加载当前图片的下一张图片,并对下一张图片通过小图标进行预览。
通过将网页浏览器的组件对象模型(Component Object Model,com)组件传递到应用程序编程接口(Application Programming Interface,API)里面,可以获取下一张图片的截图。
所述步骤23包括:
步骤231,获取网页浏览器页签的浏览器窗口;
根据所述图片所在页签绑定的唯一ID,确定与所述ID对应的页签数据,获取其中的浏览器窗口。
步骤232,获取浏览器窗口的Container窗口;
获取到所述浏览器窗口后,根据所述浏览器窗口的属性信息,获取到Container(容器)窗口。
步骤233,以Container为父窗口创建Popup类型窗口;
以所述Container窗口为父窗口,在浏览器主窗口创建弹出类型的显示窗口(具有ws_popup窗口风格)。
步骤234,根据所述网页中的图片对应的唯一编号的顺序规则,在所述显示窗口中顺序加载显示所述图片;
如果当前网页中的漫画类图片有10幅,编号依次为1、2、3……10,并且这10幅图片按照编号由小到大的顺序在当前网页中排列,则这10幅图片在所述显示窗口中也按照1、2、3……10的顺序加载显示。
步骤24,通过分析网页中文字信息的脚本文件,确定与所述在显示窗口中加载的图片具有对应关系的文字信息;
并将所述文字信息与图片一同加载显示在所述显示窗口中;
获取到网页中的文字信息,分析所述文字信息的脚本文件,根据脚本文件中的属性信息,确定与所述在显示窗口中加载的图片具有对应关系的文字信息。
本发明实施例二所述的一种基于网页的图片显示方法,还可以实现:
检测当前网页的下一页的URL;基于下一页的URL,判断下一页是否属于预设的图片显示类网页;如果是,基于对下一页的DOM树解析结果,预先获取下一页中的图片;
在对当前网页中的图片进行在显示窗口中加载显示时,预先检测当前网页的下一页的URL,对下一页的URL进行判断操作,如果下一页属于预设的图片显示类网页,预先获取下一页中的图片。
并且,可以接收用户操作,将所述在显示窗口中加载的图片保存为PDF文件;
通过鼠标右键点击所述在显示窗口中加载的图片,选择另存为PDF文件,也可以通过接收用户的其他操作方式,进行保存操作,此处应理解为对用户操作的限制条件。
同时,也可以在所述网页浏览器所处的操作系统的桌面上创建显示窗口,在该显示窗口中加载所获取的当前网页中的图片。
所述显示窗口不仅可以创建在浏览器主窗口上,还可以创建在网页浏览器所处的操作系统的桌面上,并在该显示窗口中加载所获取的当前网页中的图片。
实施例四,详细介绍本发明提供的一种基于网页的图片显示装置。
参照图7,示出了本发明实施例四所述一种基于网页的图片显示装置结构图。
所述一种基于网页的图片显示装置包括:
第一网页判断模块401,第一图片获取模块402,第一显示窗口创建模块403,第一图片加载模块404,以及,文字信息确定显示模块405。
其中,所述第一网页判断模块401包括:
URL解析子模块4011,域名判断子模块4012,关键字判断子模块4013,以及,网页确定子模块4014。
所述第一图片获取模块402包括:
获取模式生成子模块4021,扩展样式表转换文档编写子模块4022,XML文档生成子模块4023,以及,图片获取子模块4024。
所述第一显示窗口创建模块403包括:
浏览器窗口获取子模块4031,Container窗口获取子模块4032,以及,Popup类型窗口创建子模块4033。
下面分别详细介绍各模块的功能以及模块之间的关系。
参照图8,示出了本发明实施例四所述一种基于网页的图片显示装置中第一网页判断模块401的结构图。
第一网页判断模块401,其配置为基于当前显示网页的URL,判断该网页是否属于预设的图片显示类网页;
所述第一网页判断模块401根据当前网页的URL
“http://www.narutom.com/onepiece/manhua/15199.html”,判断当前网页是否属于某一预先设定的图片显示类网页。
所述第一网页判断模块401包括:
URL解析子模块4011,其配置为对当前网页的URL进行解析,得到URL的域名及其中的关键字;
所述URL解析子模块4011对URL
“http://www.narutom.com/onepiece/manhua/15199.html”进行分析,得到所述URL的域名“www.narutom.com”以及关键字“manhua”。
域名判断子模块4012,其配置为判断所述域名是否属于预设的URL名单中的域名;
所述域名判断子模块4012判断当前网页的域名“www.narutom.com”是否属于预设的URL名单中的域名。
关键字判断子模块4013,其配置为判断所述关键字是否与图书、图片相关联;
得到的所述关键字为“manhua”,所述关键字判断子模块4013判断所述“manhua”关键字是否与图书、图片相关联。网页确定子模块4014,其配置为当所述域名属于预设的URL名单中的域名或所述关键字与图书、图片相关联时,确定该网页属于预设的图片显示类网页;
当域名“www.narutom.com”属于预设的URL名单中的域名;
所述关键字“manhua”表示的意思为“漫画”,与图书、图片现关联,所述网页确定子模块4014确定当前网页属于预设的图片显示类网页。
参照图9,示出了本发明实施例四所述一种基于网页的图片显示装置中第一图片获取模块402的结构图。
第一图片获取模块402,其配置为如果当前网页属于预设的图片显示类网页,基于对当前网页的DOM树解析结果,获取当前网页中的图片;
当所述网页确定子模块4014判断当前网页属于预先设定的图片显示类网页时,所述第一图片获取模块402基于DOM树解析结果中的元素、节点和文本等,获取得到所述网页中的动漫类的图片。
所述第一图片获取模块402包括:
获取模式生成子模块4021,其配置为遍历DOM树解析结果,生成图片获取模式,其中所述图片获取模式包括定位路径;
所述获取模式生成子模块4021通过遍历DOM树解析结果,归纳样本网页信息块定位路径,定位信息块内信息点路径,生成包括定位路径图片获取模式。
扩展样式表转换文档编写子模块4022,其配置为根据所述图片获取模式,编写扩展样式表转换文档;
所述扩展样式表转换文档编写子模块4022根据所述图片获取模式,利用归纳学习得到的XPath,编写扩展样式表转换文档。
XML文档生成子模块4023,其配置为根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成只保留所述定位路径指定节点的,包括图片的XML文档;
所述XML文档生成子模块4023根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成一个XML文档,这个XML文档中只保留XPath指定的包括图片的节点。
图片获取子模块4024,其配置为在所述XML文档中获取所述图片的下载地址,下载得到所述图片;
所述XML文档中保存有所述图片的下载地址信息,所述图片获取子模块424根据所述下载地址信息,下载得到所述图片。
参照图10,示出了本发明实施例四所述一种基于网页的图片显示装置中第一显示窗口创建模块403的结构图。
第一显示窗口创建模块403,其配置为在网页浏览器主窗口上创建一个显示窗口;
所述第一显示窗口创建模块403在网页浏览器主窗口上创建一个显示窗口,该窗口可以是一个传统意义上的窗口,如Windows操作系统中的窗口;也可以是一个虚拟出来的窗口,作为显示图片的一个载体。
所述第一显示窗口创建模块403包括:
浏览器窗口获取子模块4031,其配置为获取网页浏览器页签的浏览器窗口;
所述浏览器窗口获取子模块4031根据所述图片所在页签绑定的唯一ID,确定与所述ID对应的页签数据,获取其中的浏览器窗口。
Container窗口获取子模块4032,其配置为获取浏览器窗口的Container窗口;
所述Container窗口获取子模块4032获取到所述浏览器窗口后,根据所述浏览器窗口的属性信息,获取到Container(容器)窗口。
Popup类型窗口创建子模块4033,其配置为以Container为父窗口创建Popup类型窗口;
所述Popup类型窗口创建子模块4033以所述Container窗口为父窗口,在浏览器主窗口创建弹出类型的显示窗口(具有ws_popup窗口风格)。
第一图片加载模块404,其配置为在所述显示窗口中加载所获取的当前网页中的图片;
所述第一图片加载模块404在所述第一显示窗口创建模块403创建的显示窗口中加载所获取的当前网页中的图片。
所述第一图片加载模块404根据所述网页中的图片对应的唯一编号的顺序规则,在所述显示窗口中顺序加载显示所述图片。
所述在显示窗口中加载所获取的图片包括:
漫画类图片、报刊类图片、书籍类图片中的至少一种。
文字信息确定显示模块405,其配置为通过分析网页中文字信息的脚本文件,确定与所述在显示窗口中加载的图片具有对应关系的文字信息;
并将所述文字信息与图片一同加载显示在所述显示窗口中。
所述文字信息确定显示模块405分析网页中文字信息的脚本文件,根据脚本文件中的属性信息,确定与所述在显示窗口中加载的图片具有对应关系的文字信息。
本发明实施例四所述一种基于网页的图片显示装置,还可以包括以下模块:
预先加载模块,其配置为在所述显示窗口中显示图片时,预先加载当前图片的下一张图片,并对下一张图片通过小图标进行预览;
所述预先加载模块通过将网页浏览器的组件对象模型(ComponentObject Model,com)组件传递到应用程序编程接口(ApplicationProgramming Interface,API)里面,可以获取下一张图片的截图。
URL检测模块,其配置为检测当前网页的下一页的URL;
在对当前网页中的图片进行在显示窗口中加载显示时,所述URL检测模块预先检测当前网页的下一页的URL。
第二网页判断模块,其配置为基于下一页的URL,判断下一页是否属于预设的图片显示类网页;
所述第二网页判断模块基于所述URL检测模块预先检测当前网页的下一页的URL,断下一页是否属于预设的图片显示类网页。
第二图片获取模块,其配置为如果下一页属于预设的图片显示类网页,基于对下一页的DOM树解析结果,预先获取下一页中的图片;
如果所述第二网页判断模块判断下一页属于预设的图片显示类网页,则所述第二图片获取模块基于对下一页的DOM树解析结果,预先获取下一页中的图片。
图片保存模块,其配置为接收用户操作,将所述在显示窗口中加载的图片保存为PDF文件;
所述图片保存模块接收用户鼠标或者键盘等输入操作,将所述在显示窗口中加载的图片保存为PDF文件。
第二显示窗口创建模块,其配置为在所述网页浏览器所处的操作系统的桌面上创建显示窗口;
所述第二显示窗口创建模块在网页浏览器所处的操作系统的桌面上创建一个显示窗口,该窗口可以是一个传统意义上的窗口,如Windows操作系统中的窗口;也可以是一个虚拟出来的窗口,作为显示图片的一个载体。
第二图片加载模块,其配置为在该显示窗口中加载所获取的当前网页中的图片。
所述第二图片加载模块将所获取的当前网页中的图片,在所述第二显示窗口创建模块创建的显示窗口中加载显示。
对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明实施例所必须的。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
上述本发明实施例中的方法和装置适用于各种网络或者客户端环境中,例如可以实现在诸如个人计算机设备之类的计算机设备中,或者可以实现在诸如移动电话、移动通信设备、个人数字助理(PDA)等其他便携式电子设备或者非便携式电子设备中。因此本领域技术人员要明确的是,本发明的保护范围并不限于PC上运行浏览器中的判断当前网页是否属于预设的图片显示类网页,并获取当前网页中图片的功能和在创建的显示窗口内加载所获取的当前网页中的图片的功能,仅是出于描述的简洁和方便而在本发明实施例中采用了PC上运行浏览器中的判断当前网页是否属于预设的图片显示类网页,并获取当前网页中图片的功能和在创建的显示窗口内加载所获取的当前网页中的图片的功能进行描述。
本发明的实施例公开了:A1、一种基于网页的图片显示方法,包括:
基于当前显示网页的URL,判断该网页是否属于预设的图片显示类网页;
如果是,基于对当前网页的DOM树解析结果,获取当前网页中的图片;
在网页浏览器主窗口上创建一个显示窗口,在该显示窗口中加载所获取的当前网页中的图片。
A2、根据A1所述的方法,所述在显示窗口中加载所获取的图片包括:
漫画类图片、报刊类图片、书籍类图片中的至少一种。
A3、根据A1所述的方法,所述判断该网页是否属于预设的图片显示类网页,包括以下步骤:
对当前网页的URL进行解析,得到URL的域名及其中的关键字;
判断所述域名是否属于预设的URL名单中的域名;
判断所述关键字是否与图书、图片相关联;
当所述域名属于预设的URL名单中的域名或所述关键字与图书、图片相关联时,确定该网页属于预设的图片显示类网页。
A4、根据A1所述的方法,所述基于对当前网页的DOM树解析结果,获取当前网页中的图片的步骤包括:
遍历DOM树解析结果,生成图片获取模式,其中所述图片获取模式包括定位路径;
根据所述图片获取模式,编写扩展样式表转换文档;
根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成只保留所述定位路径指定节点的,包括图片的XML文档;
在所述XML文档中获取所述图片的下载地址,下载得到所述图片。
A5、根据A1所述的方法,所述在该显示窗口中加载所获取的当前网页中的图片的步骤包括:
根据所述网页中的图片对应的唯一编号的顺序规则,在所述显示窗口中顺序加载显示所述图片。
A6、根据A1所述的方法,所述在网页浏览器主窗口上创建一个显示窗口,包括:
获取网页浏览器页签的浏览器窗口;
获取浏览器窗口的Container窗口;
以Container为父窗口创建Popup类型窗口。
A7、根据A1所述的方法,进一步包括:
通过分析网页中文字信息的脚本文件,确定与所述在显示窗口中加载的图片具有对应关系的文字信息;
并将所述文字信息与图片一同加载显示在所述显示窗口中。
A8、根据A1所述的方法,进一步包括:
在所述显示窗口中显示图片时,预先加载当前图片的下一张图片,并对下一张图片通过小图标进行预览。
A9、根据A1所述的方法,进一步包括:
检测当前网页的下一页的URL;
基于下一页的URL,判断下一页是否属于预设的图片显示类网页;
如果是,基于对下一页的DOM树解析结果,预先获取下一页中的图片。
A10、根据A1所述的方法,还包括:
接收用户操作,将所述在显示窗口中加载的图片保存为PDF文件。
A11、根据A1所述的方法,还包括:
在所述网页浏览器所处的操作系统的桌面上创建显示窗口,在该显示窗口中加载所获取的当前网页中的图片。
本发明实施例还公开了B12、一种基于网页的图片显示装置,包括:
第一网页判断模块,其配置为基于当前显示网页的URL,判断该网页是否属于预设的图片显示类网页;
第一图片获取模块,其配置为如果当前网页属于预设的图片显示类网页,基于对当前网页的DOM树解析结果,获取当前网页中的图片;
第一显示窗口创建模块,其配置为在网页浏览器主窗口上创建一个显示窗口;
第一图片加载模块,其配置为在所述显示窗口中加载所获取的当前网页中的图片。
B13、根据B12所述的装置,所述在显示窗口中加载所获取的图片包括:
漫画类图片、报刊类图片、书籍类图片中的至少一种。
B14、根据B12所述的装置,所述第一网页判断模块包括:
URL解析子模块,其配置为对当前网页的URL进行解析,得到URL的域名及其中的关键字;
域名判断子模块,其配置为判断所述域名是否属于预设的URL名单中的域名;
关键字判断子模块,其配置为判断所述关键字是否与图书、图片相关联;
网页确定子模块,其配置为当所述域名属于预设的URL名单中的域名或所述关键字与图书、图片相关联时,确定该网页属于预设的图片显示类网页。
B15、根据B12所述的装置,所述第一图片获取模块包括:
获取模式生成子模块,其配置为遍历DOM树解析结果,生成图片获取模式,其中所述图片获取模式包括定位路径;
扩展样式表转换文档编写子模块,其配置为根据所述图片获取模式,编写扩展样式表转换文档;
XML文档生成子模块,其配置为根据所述扩展样式表转换文档转换DOM树解析结果中的节点,生成只保留所述定位路径指定节点的,包括图片的XML文档;
图片获取子模块,其配置为在所述XML文档中获取所述图片的下载地址,下载得到所述图片。
B16、根据B12所述的装置,所述第一图片加载模块根据所述网页中的图片对应的唯一编号的顺序规则,在所述显示窗口中顺序加载显示所述图片。
B17、根据B12所述的装置,所述第一显示窗口创建模块包括:
浏览器窗口获取子模块,其配置为获取网页浏览器页签的浏览器窗口;
Container窗口获取子模块,其配置为获取浏览器窗口的Container窗口;
Popup类型窗口创建子模块,其配置为以Container为父窗口创建Popup类型窗口。
B18、根据B12所述的装置,进一步包括:
文字信息确定显示模块,其配置为通过分析网页中文字信息的脚本文件,确定与所述在显示窗口中加载的图片具有对应关系的文字信息;
并将所述文字信息与图片一同加载显示在所述显示窗口中。
B19、根据B12所述的装置,进一步包括:
预先加载模块,其配置为在所述显示窗口中显示图片时,预先加载当前图片的下一张图片,并对下一张图片通过小图标进行预览。
B20、根据B12所述的装置,进一步包括:
URL检测模块,其配置为检测当前网页的下一页的URL;
第二网页判断模块,其配置为基于下一页的URL,判断下一页是否属于预设的图片显示类网页;
第二图片获取模块,其配置为如果下一页属于预设的图片显示类网页,基于对下一页的DOM树解析结果,预先获取下一页中的图片。
B21、根据B12所述的装置,还包括:
图片保存模块,其配置为接收用户操作,将所述在显示窗口中加载的图片保存为PDF文件。
B22、根据B12所述的装置,还包括:
第二显示窗口创建模块,其配置为在所述网页浏览器所处的操作系统的桌面上创建显示窗口;
第二图片加载模块,其配置为在该显示窗口中加载所获取的当前网页中的图片。
以上对本发明所提供的一种基于网页的图片显示方法和装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。