CN104573001A

CN104573001A - 一种基于移动终端的网页数据采集及归类的方法

Info

Publication number: CN104573001A
Application number: CN201510008016.1A
Authority: CN
Inventors: 孙连英; 刘畅; 任运贵
Original assignee: Beijing Union University
Current assignee: Beijing Union University
Priority date: 2015-01-07
Filing date: 2015-01-07
Publication date: 2015-04-29

Abstract

一种基于移动终端的网页数据采集及归类的方法，确定所需要解析的内容。查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置，指定XML文档的路径。获取HTML网页源代码。根据标签元素路径解析HTML标签，同时要解析出所需要的内容。内容归类，或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类，比如要解析一个网页中的所有图片，就需要找到所有图片的链接获取，再在移动客户端上使用HTTP协议进行二次请求获取图片内容，保存到移动客户端上。显示到移动客户端。

Description

一种基于移动终端的网页数据采集及归类的方法

技术领域

本发明应用于移动互联网领域，是一种新型的基于移动终端的网页数据采集及归类的方法。

背景技术

为了美观或者功能上的要求，现在的网页集成了许多的插件或控件，而大多数核心的数据还是原始数据，如文字、图像及视频等，只是使用了不同效果给网页加工，让用户在浏览网页的时候有很好的体验效果。由于移动终端与PC机存在硬件及软件上的差异，移动终端上的浏览器对于PC上的来说，功能及插件要比PC少，如PC端上浏览器的Flash插件及Flash插件的扩展插件，移动终端上的浏览器无法扩展这些插件。而这些效果多的网页，在移动终端浏览可能无法展示出与网页同样的效果，甚至有些数据不能在移动终端上的浏览器识别，导致网页无法正常显示，并且有些数据不是用户需要的。这时就需要对网页数据进行筛选、整理，使之能够适配移动终端，并且提供用户需要的数据。

发明内容

针对上述问题，本发明提供了一种基于移动终端的网页数据采集及归类的方法，利用HTML解析器--HtmlAgilityPack类库提供的接口、方法及对象抽取网页数据，方便网页数据的提取。

目前的Web网页主要使用HTML标记语言，HTML语言比较擅长网页的布局和外观设置，但缺乏对网页信息内容的表达能力，HTML语言的语法要求也很不严谨。使用程序直接从HTML页面提取数据是非常困难的。网页信息抽取的核心技术在于能够从网页所包含的无结构或半结构的信息中识别用户感兴趣的数据，并将其转化为结构化或语义更清晰的格式。接下来将介绍一种基于移动终端的网页数据采集及归类的方法。

处理对象是HTML网页的源代码，每个网页都有相应的源代码，源代码通过html语法规则显示图片、文字等内容。网页数据采集方法是通过程序来解析用户感兴趣的特定的网页内容。

网页下载到本地使用了超文本传送协议(HTTP-Hypertext transfer protocol)，Http协议向服务器发送下载请求，下载html文件，即下载网页的源代码。

基于移动终端的网页数据采集及归类的方法包括以下步骤：

步骤一，确定所需要解析的内容，这些内容从资源的角度而言包括文字、图片、音频和视频。从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表，其解析内容由用户需求决定。

步骤二，查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置，指定XML文档的路径。XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力。HTML可转换成XML，所以对于HTML的元素来说也具有XPath，即根据XPath找到HTML元素。找XPath根据浏览器的扩展工具进行查找，如使用“Google Chrome的审查元素”功能快速查找。

步骤三，获取HTML网页源代码。移动客户端通过HTTP协议请求下载HTML文件，网页的获取需要结合多线程及异步操作进行下载，防止堵塞界面，提高性能。

步骤四，根据标签元素路径解析HTML标签，同时要解析出所需要的内容。能解析的内容参考步骤一。

步骤五，内容归类，或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类，比如要解析一个网页中的所有图片，就需要找到所有图片的链接获取，再在移动客户端上使用HTTP协议进行二次请求获取图片内容，保存到移动客户端上。

步骤六，显示到移动客户端。

上述移动客户端是IOS、Android、或Windows Phone下的移动客户端。使用相对应的移动应用开发工具建立一个工程，然后设计必要的界面，再在后台代码进行处理下载的数据，将所需解析的内容显示到移动客户端上。

本发明的有益效果是：本发明提出的一种基于移动终端上的网页数据采集及归类的方法，考虑到了用户在移动终端上访问网页的时候可能出现的网页资源显示不完整的影响，同时对网页资源进行了归类，显示在移动终端上，给用户呈现出有用的内容，增加了用户体验，使用户浏览网页的时候更加方便；在获取网页资源的时候使用了多线程与异步操作，以达到避免主线程(即UI线程)阻塞导致界面堵塞的目的。

附图说明

图1为一种基于移动终端上的网页数据采集及归类的方法的实现流程。

具体实施方式

一种基于移动终端的网页数据采集及归类的方法的实现依据图1为参考对象，采集网页文章内容，该实现在Windows Phone移动客户端下进行，实现过程包括以下步骤：

步骤一，确定所需要解析的内容。由于html源代码的相对不规则性，整个确定解析的内容需要进行人工定位。所需要解析的内容一般是局部具有规则的html标签，如一个文章列表，列表里面是一列表文章标题，该列表的标签元素是固定的，而列表里的文章标题内容及数量可以随着服务器的数据改变而发生改变，这时就需要定位到文章列表的html标签元素。

步骤二，查找并记录标签元素的路径XPath。找标签元素可以使用浏览器的扩展工具快速审查元素，这样就无需对网页的源代码逐一分析，大大提高了查找效率。快速定位到所要找的标签后，将其XPath记录下来。现在需要把网页的文章数据的XPath记录下来。

步骤三，获取HTML网页文件。使用Visual Studio工具建立一个Windows PhoneApplication工程，使用Http协议异步请求下载HTML网页，获取的网页只是网页的源文件，获取后保存在内存中。

步骤四，将源文件加载到HtmlDocument中，根据标签元素路径解析HTML标签，同时要解析出所需要的内容。

步骤五，将获取到的内容进行归类，或根据所解析出来的内容的链接二次获取详细内容，同时使用异步请求及多线程下载。内容的归类就是决定要把网页的内容按照需求显示到移动客户端，例如，现在有一个网页，网页上有很多文章，同时也有很多其他的图片，但是这些图片不在文章中，现在需要把文章与图片分开来显示，这里就需要将图片整合在一起，把文章整合在一起，这就是内容归类。内容归类采取自动方法。方法如下：

例如，图片资源的文件格式为式有bmp、jpg、png、gif等；

视频格式有：mp4、flv、avi、mpeg、wmv、rmvb等。

使用HTTP协议自动获取图片、视频资源至自定义的文件夹中，如一个专门放图片的文件夹。

步骤六，保存资源。资源可直接保存移动到客户端的独立存储，独立存储是移动客户端能够使用的存储，是一种数据存储机制，它在代码与保存的数据之间定义了标准化的关联方式，从而提供隔离性和安全性。资源名称采用hash表数据结果存储，将文件的绝对URL转换为SHA-1作为其文件名。当同一个资源将被再下载时，将URL转换成SHA-1安全码，然后检索独立存储，判断资源是否已存在。使用SHA-1算法安全加密，以提高存储的安全性，便于管理独立存储。SHA-1算法由美国车家标准技术研究院(NIST)与美国国家安全局(NSA)设计，SHA-1可以对长度不超过264比特的消息进行计算，产生160比特的消息摘要作为输出。同时采用多线程与异步操作，避免主线程(即UI线程)阻塞导致界面堵塞。

步骤七，后台代码控制将文字或图片等资源显示到移动客户端。

Claims

1.一种基于移动终端的网页数据采集及归类的方法，其特征在于：该方法包括以下步骤，

步骤一，确定所需要解析的内容，这些内容从资源的角度而言包括文字、图片、音频和视频；从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表，其解析内容由用户需求决定；

步骤二，查找并记录标签元素的路径XPath；XPath用来确定XML文档中的位置，指定XML文档的路径；XPath基于XML的树状结构，提供在数据结构树中找寻节点的能力；HTML可转换成XML，所以对于HTML的元素来说也具有XPath，即根据XPath找到HTML元素；找XPath根据浏览器的扩展工具进行查找，如使用“Google Chrome的审查元素”功能快速查找；

步骤三，获取HTML网页源代码；移动客户端通过HTTP协议请求下载HTML文件，网页的获取需要结合多线程及异步操作进行下载，防止堵塞界面，提高性能；

步骤四，根据标签元素路径解析HTML标签，同时要解析出所需要的内容；能解析的内容参考步骤一；

步骤五，内容归类，或根据所解析出来的内容的链接二次获取详细内容；内容归类依据需求进行归类，比如要解析一个网页中的所有图片，就需要找到所有图片的链接获取，再在移动客户端上使用HTTP协议进行二次请求获取图片内容，保存到移动客户端上；

步骤六，显示到移动客户端；

上述移动客户端是IOS、Android、或Windows Phone下的移动客户端；使用相对应的移动应用开发工具建立一个工程，然后设计必要的界面，再在后台代码进行处理下载的数据，将所需解析的内容显示到移动客户端上。

2.根据权利要求1所述的一种基于移动终端的网页数据采集及归类的方法，其特征在于：采集网页文章内容，该实现在Windows Phone移动客户端下进行，实现过程包括以下步骤：

步骤一，确定所需要解析的内容；由于html源代码的相对不规则性，整个确定解析的内容需要进行人工定位；所需要解析的内容一般是局部具有规则的html标签，如一个文章列表，列表里面是一列表文章标题，该列表的标签元素是固定的，而列表里的文章标题内容及数量可以随着服务器的数据改变而发生改变，这时就需要定位到文章列表的html标签元素；

步骤二，查找并记录标签元素的路径XPath；找标签元素可以使用浏览器的扩展工具快速审查元素，这样就无需对网页的源代码逐一分析，大大提高了查找效率；快速定位到所要找的标签后，将其XPath记录下来；现在需要把网页的文章数据的XPath记录下来；

步骤三，获取HTML网页文件；使用Visual Studio工具建立一个Windows PhoneApplication工程，使用Http协议异步请求下载HTML网页，获取的网页只是网页的源文件，获取后保存在内存中；

步骤四，将源文件加载到HtmlDocument中，根据标签元素路径解析HTML标签，同时要解析出所需要的内容；

步骤五，将获取到的内容进行归类，或根据所解析出来的内容的链接二次获取详细内容，同时使用异步请求及多线程下载；内容的归类就是决定要把网页的内容按照需求显示到移动客户端，例如，现在有一个网页，网页上有很多文章，同时也有很多其他的图片，但是这些图片不在文章中，现在需要把文章与图片分开来显示，这里就需要将图片整合在一起，把文章整合在一起，这就是内容归类；内容归类采取自动方法；方法如下：

例如，图片资源的文件格式为式有bmp、jpg、png、gif等；

视频格式有：mp4、flv、avi、mpeg、wmv、rmvb等；

使用HTTP协议自动获取图片、视频资源至自定义的文件夹中，如一个专门放图片的文件夹；

步骤六，保存资源；资源可直接保存移动到客户端的独立存储，独立存储是移动客户端能够使用的存储，是一种数据存储机制，它在代码与保存的数据之间定义了标准化的关联方式，从而提供隔离性和安全性；资源名称采用hash表数据结果存储，将文件的绝对URL转换为SHA-1作为其文件名；当同一个资源将被再下载时，将URL转换成SHA-1安全码，然后检索独立存储，判断资源是否已存在；