CN103491451A

CN103491451A - 一种网页数据获取方法及装置

Info

Publication number: CN103491451A
Application number: CN201310447145.1A
Authority: CN
Inventors: 赵剑萍
Original assignee: Shenzhen TCL New Technology Co Ltd
Current assignee: Shenzhen TCL New Technology Co Ltd
Priority date: 2013-09-26
Filing date: 2013-09-26
Publication date: 2014-01-01
Anticipated expiration: 2033-09-26
Also published as: CN103491451B

Abstract

本发明公开了一种网页数据获取方法及装置，其中，该方法包括：获取浏览器当前激活页面的资源数据和各个资源数据对应的路径数据；解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录；将所述各个资源数据与各个所述文件夹目录进行匹配，并将所述各个资源数据存储至与之匹配的文件夹目录下；将存储所述资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包，并将生成的压缩文件包发送给预定服务器。采用本发明，研发人员可通过读取该压缩文件包直接复现浏览器的当前激活页面，提高工作效率。

Description

一种网页数据获取方法及装置

技术领域

本发明涉及到网络通信技术领域，特别涉及到一种网页数据获取方法及装置。

背景技术

随着智能电视的快速发展，DTV（Digital Television，数字电视）和OTT（OTT是“Over The Top”的缩写，是指通过互联网向用户提供各种应用服务）网络业务应用快速的发展，智能电视的业务系统引入的业务应用越来越多，而这些业务应用都需要通过智能电视的浏览器来实现，即需要嵌入式浏览器支持的功能需求越来越复杂，例如，HTML5音视频播放、3D页面显示、Widget应用、多窗口展示、网络离线存储等新业务应用的迅速推广需求。在诸多新的功能需求和复杂的应用面前，业务开发人员在编码的过程中出现问题的可能性在逐渐的增加，一旦编码出现问题，则浏览器在运行过程中就会出现显示异常、功能异常等，甚至出现难以定位的问题和不可预料的异常问题，进而导致用户无法正常使用智能电视。当浏览器的这类异常问题出现时，就需要浏览器开发人员及时定位和解决出现的异常问题，因而，获取出现问题的页面和恢复页面流程调用的关系对解决出现的异常问题起着至关重要的作用。

现有技术中，当智能电视上的浏览器页面展示或功能出现异常时，由开发人员指导现场工作人员进行组网，与同一个网段内的电脑进行连接，然后再通过抓包软件（如wireshark软件，网络封包分析软件）进行抓取网络包后保存，将保存后的网络包发送给浏览器的开发人员；浏览器开发人员对接收到的网络包进行分析，如：提取各种各样的页面数据，并且重新提取页面调用关系和修改各种页面数据（例如图片、css文件、js文件，在抓包软件抓取这些页面数据时是将页面的每一资源数据当作独立的个体来抓取的，因此并不会保存各个资源数据之间的关联关系，在开发人员进行异常分析之前，需要手工重建它们之间的关联关系），才能进行问题的复现，从而找到解决问题的方法；这样的一个过程非常复杂并且耗时，往往定位一个问题需要很长的时间，极大的降低了解决问题的速度。

发明内容

本发明的主要目的为提供一种网页数据获取方法及装置，获取浏览器当前激活页面的资源数据和各个资源数据对应的路径信息，并将该资源数据存储至与之匹配的文件夹目录下，将存储该资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包。研发人员可从该预定服务器中读取该压缩文件包直接复现出现异常的浏览器的当前激活页面，而不需人工对出现异常的当前激活页面进行复现（包括重建各资源数据之间的关联关系），提高效率。

本发明提供一种网页数据获取方法，该方法包括以下步骤：

获取浏览器当前激活页面的资源数据和各个资源数据对应的路径数据；

解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录；

将所述各个资源数据与各个所述文件夹目录进行匹配，并将所述各个资源数据存储至与之匹配的文件夹目录下；

将存储所述资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包，并将生成的压缩文件包发送给预定服务器。

优选地，所述解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录；将所述各个资源数据与各个所述文件夹目录进行匹配，并将所述各个资源数据存储至与之匹配的文件夹目录下的步骤具体为：

解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录及该文件夹目录下文件的文件名；

将所述各个资源数据的名称与各个所述文件夹目录下文件的文件名进行匹配，若有所述文件夹目录下文件的文件名与所述资源数据的名称匹配，则将所述资源数据存储至与所述资源数据的名称匹配的文件夹目录下。

优选地，所述获取浏览器当前激活页面的资源数据和各个资源数据对应的路径数据的步骤还包括：

获取浏览器当前激活页面的父页面的资源数据和各个资源数据对应的路径数据。

优选地，所述解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录及该文件夹目录下文件的文件名的步骤之后，该方法还包括：

判断所述路径数据对应的文件夹目录是否存在，若所述路径数据对应的文件夹目录不存在，则重新创建所述路径数据对应的文件夹目录。

优选地，所述资源数据包括网络数据、图片文件、css文件及/或js文件。

本发明还提供一种网页数据获取装置，该装置包括：第一获取模块，与所述第一获取模块连接的解析模块，与所述解析模块连接的匹配存储模块，与所述匹配存储模块连接的生成模块，与所述生成模块连接的发送模块，其中：

该第一获取模块，用于获取浏览器当前激活页面的资源数据和各个资源数据对应的路径数据；

该解析模块，用于解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录；

该匹配存储模块，用于将所述各个资源数据与各个所述文件夹目录进行匹配，并将所述各个资源数据存储至与之匹配的文件夹目录下；

该生成模块，用于将存储所述资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包；

该发送模块，用于将所述生成的压缩文件包发送给预定服务器。

优选地，所述解析模块还用于解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录及该文件夹目录下文件的文件名；

所述匹配存储模块还用于将所述各个资源数据的名称与各个所述文件夹目录下文件的文件名进行匹配，若有所述文件夹目录下文件的文件名与所述资源数据的名称匹配，则将所述资源数据存储至与所述资源数据的名称匹配的文件夹目录下。

优选地，所述第一获取模块用于获取浏览器当前激活页面的父页面的资源数据和各个资源数据对应的路径数据。

优选地，该装置还包括与所述解析模块连接的判断模块，与所述判断模块和匹配存储模块分别连接的重建模块，其中：

该判断模块，用于判断所述路径数据对应的文件夹目录是否存在；

该重建模块，用于在所述判断模块的判断结果为所述路径数据对应的文件夹目录不存在时，重新创建所述路径数据对应的文件夹目录。

采用本发明，通过获取浏览器当前激活页面的资源数据和各个资源数据对应的路径信息，并将该资源数据存储至与之匹配的文件夹目录下，将各资源数据按照实际调用关系进行存储，并将存储所述资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包，并将生成的压缩文件包发送给预定服务器。该生成的压缩文件包不仅包括了资源数据，还相应的包括了各资源数据的实际调用关系。研发人员可从该预定服务器中读取该压缩文件包直接复现浏览器的当前激活页面，提高工作效率。

附图说明

图1为本发明的网页数据获取方法的第一实施例流程示意图；

图2为本发明的网页数据获取装置的第一实施例结构框图；

图3为本发明的网页数据获取装置的第二实施例结构框图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明的网页数据获取方法的第一实施例流程示意图，该方法包括：

S10、获取该浏览器当前激活页面的资源数据和各个资源数据对应的路径数据。

当智能电视上的浏览器出现异常时（如显示异常和视频播放异常等）或用户想对浏览器数据进行分析时，由工作人员通过网络登录智能电视后台系统，在系统内首先查找该浏览器进程的进程ID号，如输入linux命令：ps|grep–r“browser”，可以得到浏览器的进程号ID，如查找到浏览器进程号ID为1000。

当查找到浏览器进程号以后，由用户手动发送一个linux系统的异常处理信号给浏览器进程，该异常处理信号由浏览器在启动时进行注册，例如采用linux系统的USR1信号量和USR2信号量，用户输入linux命令：Kill–USR11000或者Kill–USR21000（浏览器进程号为1000）以发送异常处理信号。

浏览器捕获用户手动发送过来的异常处理信号，当该异常处理信号是USR1信号量或USR2信号量时，获取该浏览器当前激活页面的资源数据和各个资源数据对应的路径数据。在该步骤S10中获取的资源数据和各个资源数据对应的路径数据分别可以是一个或多个。获取浏览器当前激活页面的资源数据可通过读取该浏览器的缓存数据获得，该资源数据包括网络数据（文件关联和调用关系等方面的数据）、图片文件、css文件、js文件等，如图片文件包括1.jpg、2.jpg、3.jpg等；该路径数据如http://eds.iptv.gd.cn/EDS/jsp/search.jsp、http://eds.iptv.gd.cn/EDS/1.jpg、http://eds.iptv.gd.cn/EDS/2.jpg等。

S20、解析各个该路径数据，以得到各个该路径数据对应的文件夹目录。

在该步骤S20中，解析各个路径数据，得到各个路径数据对应的文件夹目录，如对路径数据http://eds.iptv.gd.cn/EDS/1.jpg进行解析，得到该路径数据对应的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS。当路径数据包括多层路径时，则可解析出多个子目录。

S30、将该资源数据与各个该文件夹目录进行匹配，并将该资源数据存储至与之匹配的文件夹目录下。

在该步骤S30中，将该资源数据与各个该文件夹目录进行匹配，当该资源数据与其中一个文件夹目录匹配时，则将该资源数据存储至该匹配的文件夹目录下。

S40、将存储该资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包，并将生成的压缩文件包发送给预定服务器。

将存储该资源数据的文件夹目录及其包括的资源数据进行压缩打包以生成对应的压缩文件包，可在浏览器的页面出现异常时，将该浏览器当前激活页面的资源数据存储到对应的文件夹目录下，将各资源数据按照实际调用关系进行存储，该生成的压缩文件包不仅包括了资源数据，还相应的包括了各资源数据的实际调用关系。研发人员可从该预定服务器中读取该压缩文件包直接复现出现异常的浏览器的当前激活页面。

在该步骤S40中，可将生成的压缩文件包通过wget工具（该wget是名称的由来是“World Wide Web”与“get”的结合，wget工具是一个从网络上自动下载文件的自由工具，支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载，并可以使用HTTP代理）发送给预定服务器，该预定服务器可以是FTP服务器。

进一步的，该步骤S20包括：

S21、解析各个该路径数据，以得到各个该路径数据对应的文件夹目录及该文件夹目录下文件的文件名。

在该步骤S21中，解析各个路径数据，得到各个路径数据对应的文件夹目录和该文件夹目录下文件的文件名，如对路径数据http://eds.iptv.gd.cn/EDS/1.jpg

进行解析，得到该路径数据对应的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS；该文件夹目录下文件的文件名为1.jpg。当路径数据包括多层路径时，则可解析出多个子目录。

进一步的，该步骤S30包括：

S31、将该各个资源数据的名称与各个该文件夹目录下文件的文件名进行匹配，若有该文件夹目录下文件的文件名与该资源数据的名称匹配，则将该资源数据存储至与该资源数据的名称匹配的文件夹目录下。

在该步骤S31中，将该资源数据的名称与各个该文件夹目录下文件的文件名进行匹配，如资源数据的名称为1.jpg，则将该1.jpg与各个文件夹目录下文件的文件名进行匹配，若有该文件夹目录下文件的文件名与该资源数据的名称匹配，如有一个“根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS”的文件夹目录下包括一个文件的文件名为1.jpg，则将资源数据名称为1.jpg的资源数据存储至该“根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS”的子目录EDS下；即将资源数据1.jpg存储至路径数据http://eds.iptv.gd.cn/EDS/1.jpg解析出的文件夹目录下。

进一步的，该步骤S10还包括：

S11、获取该浏览器当前激活页面的父页面的资源数据和各个资源数据对应的路径数据。

在该步骤S11中，还根据当前激活页面查找该激活页面的父页面，该父页面可包括多个，如根据当前激活页面查找到该激活页面的父页面为第一父页面，该第一父页面又具有父页面时，则也获取该第一父页面的父页面为第二父页面，依次查找直至查找到该当前激活页面的主窗口页面，即获取到该当前激活页面的所有父页面。在查找到该当前激活页面的所有父页面时，还获取各父页面的资源数据和路径数据。该各父页面的资源数据包括网络数据、图片文件、css文件、js文件等，如图片文件包括10.jpg、20.jpg、30.jpg等；该路径数据如http://eds.iptv.gd.cn/EDS/jsp/news.jsp、http://eds.iptv.gd.cn/EDS/10.jpg、http://eds.iptv.gd.cn/EDS/20.jpg等。

进一步的，在步骤S21之后，该方法还包括：

S22、判断该路径数据对应的文件夹目录是否存在，若该路径数据对应的文件夹目录不存在，则重新创建该路径数据对应的文件夹目录。

在该步骤S22中，首先判断在步骤S21中解析得到的文件夹目录是否存在，如解析出的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS；若该根目录eds.iptv.gd.cn不存在，则重新创建该根目录eds.iptv.gd.cn及该根目录下的子目录EDS，若该根目录eds.iptv.gd.cn存在，但是该根目录eds.iptv.gd.cn不存在子目录EDS，则需要在该根目录eds.iptv.gd.cn在重新建立子目录EDS。

参照图2，图2为本发明的网页数据获取装置的第一实施例结构框图，该装置包括第一获取模块10，与该第一获取模块10连接的解析模块20，与该解析模块20连接的匹配存储模块30，与该匹配存储模块30连接的生成模块40，与该生成模块40连接的发送模块50，其中：

该第一获取模块10，用于获取该浏览器当前激活页面的资源数据和各个资源数据对应的路径数据；

该解析模块20，用于解析各个该路径数据，以得到各个该路径数据对应的文件夹目录；

该匹配存储模块30，用于将该各个资源数据与各个该文件夹目录进行匹配，并将该各个资源数据存储至之匹配的文件夹目录下；

该生成模块40，用于将存储该资源数据的文件夹目录及其包括的资源数据进行压缩打包，以生成对应的压缩文件包；

该发送模块50，用于将该生成的压缩文件包发送给预定服务器。

当智能电视上的浏览器出现异常时（如显示异常和视频播放异常）或用户想对浏览器数据进行分析时，由工作人员通过网络登录智能电视后台系统，在系统内首先查找该浏览器进程的进程ID号，如输入linux命令：ps|grep–r“browser”，可以得到浏览器的进程号ID，如查找到浏览器进程号ID为1000。

浏览器捕获用户手动发送过来的异常处理信号，当该异常处理信号是USR1信号量或USR2信号量时，则通过第一获取模块10获取该浏览器当前激活页面的资源数据和各个资源数据对应的路径数据。该第一获取模块10获取的资源数据和路径数据分别可以是一个或多个。获取浏览器当前激活页面的资源数据可通过读取该浏览器的缓存数据获得，该资源数据包括网络数据（文件关联和调用关系等方面的数据）、图片文件、css文件、js文件等，如图片文件包括1.jpg、2.jpg、3.jpg等；该路径数据如http://eds.iptv.gd.cn/EDS/jsp/search.jsp、http://eds.iptv.gd.cn/EDS/1.jpg、http://eds.iptv.gd.cn/EDS/2.jpg等。

该解析模块20解析各个路径数据，得到各个路径数据对应的文件夹目录，如对路径数据http://eds.iptv.gd.cn/EDS/1.jpg进行解析，得到该路径数据对应的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS。当路径数据包括多层路径时，则可解析出多个子目录。

该匹配存储模块30将该资源数据与各个该文件夹目录进行匹配，当该资源数据与其中一个文件夹目录匹配时，则将该资源数据存储至该匹配的文件夹目录下。

该生成模块40将存储该资源数据的文件夹目录及其包括的资源数据进行压缩打包以生成对应的压缩文件包，可在浏览器的页面出现异常时，将该浏览器当前激活页面的资源数据存储到对应的文件夹目录下，将各资源数据按照实际调用关系进行存储，该生成的压缩文件包不仅包括了资源数据，还相应的包括了各资源数据的实际调用关系。

该发送模块50将生成的压缩文件包发送给预定服务器，具体的，可将生成的压缩文件包通过wget工具（该wget是名称的由来是“World Wide Web”与“get”的结合，wget工具是一个从网络上自动下载文件的自由工具，支持通过HTTP、HTTPS、FTP三个最常见的TCP/IP协议下载，并可以使用HTTP代理）发送给预定服务器，该预定服务器可以是FTP服务器。研发人员可从该预定服务器中读取该压缩文件包直接复现出现异常的浏览器的当前激活页面。

进一步的，该解析模块20还用于解析各个该路径数据，以得到各个该路径数据对应的文件夹目录及该文件夹目录下文件的文件名；

该匹配存储模块30还用于将该各个资源数据的名称与各个该文件夹目录下文件的文件名进行匹配，若有该文件夹目录下文件的文件名与该资源数据的名称匹配，则将该资源数据存储至与该资源数据的名称匹配的文件夹目录下。

该解析模块20解析各个路径数据，得到各个路径数据对应的文件夹目录和该文件夹目录下文件的文件名，如对路径数据http://eds.iptv.gd.cn/EDS/1.jpg进行解析，得到该路径数据对应的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS；该文件夹目录下文件的文件名为1.jpg。当路径数据包括多层路径时，则可解析出多个子目录。

该匹配存储模块30将该资源数据的名称与各个该文件夹目录下文件的文件名进行匹配，如资源数据的名称为1.jpg，则将该1.jpg与各个文件夹目录下文件的文件名进行匹配，若有该文件夹目录下文件的文件名与该资源数据的名称匹配，如有一个“根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS”的文件夹目录下包括一个文件的文件名为1.jpg，则将资源数据名称为1.jpg的资源数据存储至该“根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS”的子目录EDS下；即将资源数据1.jpg存储至路径数据http://eds.iptv.gd.cn/EDS/1.jpg解析出的文件夹目录下。

进一步的，该第一获取模块10还用于获取浏览器当前激活页面的父页面的资源数据和各个资源数据对应的路径数据。

该第一获取模块10根据当前激活页面查找该激活页面的父页面，该父页面可包括多个，如根据当前激活页面查找到该激活页面的父页面为第一父页面，该第一父页面又具有父页面时，则也获取该第一父页面的父页面为第二父页面，依次查找直至查找到该当前激活页面的主窗口页面，即获取到该当前激活页面的所有父页面。在查找到该当前激活页面的所有父页面时，还获取各父页面的资源数据和路径数据。该各父页面的资源数据包括网络数据、图片文件、css文件、js文件等，如图片文件包括10.jpg、20.jpg、30.jpg等；该路径数据如http://eds.iptv.gd.cn/EDS/jsp/news.jsp、http://eds.iptv.gd.cn/EDS/10.jpg、http://eds.iptv.gd.cn/EDS/20.jpg等。

参照图3，图3为本发明的网页数据获取装置的第二实施例结构框图。

基于上述网页数据获取装置的第一实施例，该装置还包括与该解析模块20连接的判断模块60，与该判断模块60和匹配存储模块30分别连接的重建模块70，其中：

该判断模块60，用于判断该路径数据对应的文件夹目录是否存在；

该重建模块70，用于在该判断模块的判断结果为该路径数据对应的文件夹目录不存在时，重新创建该路径数据对应的文件夹目录。

该判断模块60判断解析模块20解析得到的文件夹目录是否存在，如解析出的文件夹目录为：根目录为eds.iptv.gd.cn，该根目录eds.iptv.gd.cn下包括子目录EDS；若该根目录eds.iptv.gd.cn不存在，则通过重建模块70重新创建该根目录eds.iptv.gd.cn及该根目录下的子目录EDS，若该根目录eds.iptv.gd.cn存在，但是该根目录eds.iptv.gd.cn不存在子目录EDS，则通过重建模块70在该根目录eds.iptv.gd.cn在重新建立子目录EDS。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围。

Claims

1.一种网页数据获取方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录；将所述各个资源数据与各个所述文件夹目录进行匹配，并将所述各个资源数据存储至与之匹配的文件夹目录下的步骤具体为：

3.根据权利要求1或2所述的方法，其特征在于，所述获取浏览器当前激活页面的资源数据和各个资源数据对应的路径数据的步骤还包括：

4.根据权利要求2所述的方法，其特征在于，所述解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录及该文件夹目录下文件的文件名的步骤之后，该方法还包括：

5.根据权利要求1所述的方法，其特征在于，所述资源数据包括网络数据、图片文件、css文件及/或js文件。

6.一种网页数据获取装置，其特征在于，该装置包括：第一获取模块，与所述第一获取模块连接的解析模块，与所述解析模块连接的匹配存储模块，与所述匹配存储模块连接的生成模块，与所述生成模块连接的发送模块，其中：

7.根据权利要求6所述的装置，其特征在于，所述解析模块还用于解析各个所述路径数据，以得到各个所述路径数据对应的文件夹目录及该文件夹目录下文件的文件名；

8.根据权利要求6或7所述的装置，其特征在于，所述第一获取模块用于获取浏览器当前激活页面的父页面的资源数据和各个资源数据对应的路径数据。

9.根据权利要求7所述的装置，其特征在于，该装置还包括与所述解析模块连接的判断模块，与所述判断模块和匹配存储模块分别连接的重建模块，其中：

10.根据权利要求6所述的装置，其特征在于，所述资源数据包括网络数据、图片文件、css文件及/或js文件。