CN104573001A - 一种基于移动终端的网页数据采集及归类的方法 - Google Patents

一种基于移动终端的网页数据采集及归类的方法 Download PDF

Info

Publication number
CN104573001A
CN104573001A CN201510008016.1A CN201510008016A CN104573001A CN 104573001 A CN104573001 A CN 104573001A CN 201510008016 A CN201510008016 A CN 201510008016A CN 104573001 A CN104573001 A CN 104573001A
Authority
CN
China
Prior art keywords
content
webpage
html
mobile client
article
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510008016.1A
Other languages
English (en)
Inventor
孙连英
刘畅
任运贵
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Union University
Original Assignee
Beijing Union University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Union University filed Critical Beijing Union University
Priority to CN201510008016.1A priority Critical patent/CN104573001A/zh
Publication of CN104573001A publication Critical patent/CN104573001A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种基于移动终端的网页数据采集及归类的方法,确定所需要解析的内容。查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置,指定XML文档的路径。获取HTML网页源代码。根据标签元素路径解析HTML标签,同时要解析出所需要的内容。内容归类,或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类,比如要解析一个网页中的所有图片,就需要找到所有图片的链接获取,再在移动客户端上使用HTTP协议进行二次请求获取图片内容,保存到移动客户端上。显示到移动客户端。

Description

一种基于移动终端的网页数据采集及归类的方法
技术领域
本发明应用于移动互联网领域,是一种新型的基于移动终端的网页数据采集及归类的方法。
背景技术
为了美观或者功能上的要求,现在的网页集成了许多的插件或控件,而大多数核心的数据还是原始数据,如文字、图像及视频等,只是使用了不同效果给网页加工,让用户在浏览网页的时候有很好的体验效果。由于移动终端与PC机存在硬件及软件上的差异,移动终端上的浏览器对于PC上的来说,功能及插件要比PC少,如PC端上浏览器的Flash插件及Flash插件的扩展插件,移动终端上的浏览器无法扩展这些插件。而这些效果多的网页,在移动终端浏览可能无法展示出与网页同样的效果,甚至有些数据不能在移动终端上的浏览器识别,导致网页无法正常显示,并且有些数据不是用户需要的。这时就需要对网页数据进行筛选、整理,使之能够适配移动终端,并且提供用户需要的数据。
发明内容
针对上述问题,本发明提供了一种基于移动终端的网页数据采集及归类的方法,利用HTML解析器--HtmlAgilityPack类库提供的接口、方法及对象抽取网页数据,方便网页数据的提取。
目前的Web网页主要使用HTML标记语言,HTML语言比较擅长网页的布局和外观设置,但缺乏对网页信息内容的表达能力,HTML语言的语法要求也很不严谨。使用程序直接从HTML页面提取数据是非常困难的。网页信息抽取的核心技术在于能够从网页所包含的无结构或半结构的信息中识别用户感兴趣的数据,并将其转化为结构化或语义更清晰的格式。接下来将介绍一种基于移动终端的网页数据采集及归类的方法。
处理对象是HTML网页的源代码,每个网页都有相应的源代码,源代码通过html语法规则显示图片、文字等内容。网页数据采集方法是通过程序来解析用户感兴趣的特定的网页内容。
网页下载到本地使用了超文本传送协议(HTTP-Hypertext transfer protocol),Http协议向服务器发送下载请求,下载html文件,即下载网页的源代码。
基于移动终端的网页数据采集及归类的方法包括以下步骤:
步骤一,确定所需要解析的内容,这些内容从资源的角度而言包括文字、图片、音频和视频。从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表,其解析内容由用户需求决定。
步骤二,查找并记录标签元素的路径XPath。XPath用来确定XML文档中的位置,指定XML文档的路径。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。HTML可转换成XML,所以对于HTML的元素来说也具有XPath,即根据XPath找到HTML元素。找XPath根据浏览器的扩展工具进行查找,如使用“Google Chrome的审查元素”功能快速查找。
步骤三,获取HTML网页源代码。移动客户端通过HTTP协议请求下载HTML文件,网页的获取需要结合多线程及异步操作进行下载,防止堵塞界面,提高性能。
步骤四,根据标签元素路径解析HTML标签,同时要解析出所需要的内容。能解析的内容参考步骤一。
步骤五,内容归类,或根据所解析出来的内容的链接二次获取详细内容。内容归类依据需求进行归类,比如要解析一个网页中的所有图片,就需要找到所有图片的链接获取,再在移动客户端上使用HTTP协议进行二次请求获取图片内容,保存到移动客户端上。
步骤六,显示到移动客户端。
上述移动客户端是IOS、Android、或Windows Phone下的移动客户端。使用相对应的移动应用开发工具建立一个工程,然后设计必要的界面,再在后台代码进行处理下载的数据,将所需解析的内容显示到移动客户端上。
本发明的有益效果是:本发明提出的一种基于移动终端上的网页数据采集及归类的方法,考虑到了用户在移动终端上访问网页的时候可能出现的网页资源显示不完整的影响,同时对网页资源进行了归类,显示在移动终端上,给用户呈现出有用的内容,增加了用户体验,使用户浏览网页的时候更加方便;在获取网页资源的时候使用了多线程与异步操作,以达到避免主线程(即UI线程)阻塞导致界面堵塞的目的。
附图说明
图1为一种基于移动终端上的网页数据采集及归类的方法的实现流程。
具体实施方式
一种基于移动终端的网页数据采集及归类的方法的实现依据图1为参考对象,采集网页文章内容,该实现在Windows Phone移动客户端下进行,实现过程包括以下步骤:
步骤一,确定所需要解析的内容。由于html源代码的相对不规则性,整个确定解析的内容需要进行人工定位。所需要解析的内容一般是局部具有规则的html标签,如一个文章列表,列表里面是一列表文章标题,该列表的标签元素是固定的,而列表里的文章标题内容及数量可以随着服务器的数据改变而发生改变,这时就需要定位到文章列表的html标签元素。
步骤二,查找并记录标签元素的路径XPath。找标签元素可以使用浏览器的扩展工具快速审查元素,这样就无需对网页的源代码逐一分析,大大提高了查找效率。快速定位到所要找的标签后,将其XPath记录下来。现在需要把网页的文章数据的XPath记录下来。
步骤三,获取HTML网页文件。使用Visual Studio工具建立一个Windows PhoneApplication工程,使用Http协议异步请求下载HTML网页,获取的网页只是网页的源文件,获取后保存在内存中。
步骤四,将源文件加载到HtmlDocument中,根据标签元素路径解析HTML标签,同时要解析出所需要的内容。
步骤五,将获取到的内容进行归类,或根据所解析出来的内容的链接二次获取详细内容,同时使用异步请求及多线程下载。内容的归类就是决定要把网页的内容按照需求显示到移动客户端,例如,现在有一个网页,网页上有很多文章,同时也有很多其他的图片,但是这些图片不在文章中,现在需要把文章与图片分开来显示,这里就需要将图片整合在一起,把文章整合在一起,这就是内容归类。内容归类采取自动方法。方法如下:
例如,图片资源的文件格式为式有bmp、jpg、png、gif等;
视频格式有:mp4、flv、avi、mpeg、wmv、rmvb等。
使用HTTP协议自动获取图片、视频资源至自定义的文件夹中,如一个专门放图片的文件夹。
步骤六,保存资源。资源可直接保存移动到客户端的独立存储,独立存储是移动客户端能够使用的存储,是一种数据存储机制,它在代码与保存的数据之间定义了标准化的关联方式,从而提供隔离性和安全性。资源名称采用hash表数据结果存储,将文件的绝对URL转换为SHA-1作为其文件名。当同一个资源将被再下载时,将URL转换成SHA-1安全码,然后检索独立存储,判断资源是否已存在。使用SHA-1算法安全加密,以提高存储的安全性,便于管理独立存储。SHA-1算法由美国车家标准技术研究院(NIST)与美国国家安全局(NSA)设计,SHA-1可以对长度不超过264比特的消息进行计算,产生160比特的消息摘要作为输出。同时采用多线程与异步操作,避免主线程(即UI线程)阻塞导致界面堵塞。
步骤七,后台代码控制将文字或图片等资源显示到移动客户端。

Claims (2)

1.一种基于移动终端的网页数据采集及归类的方法,其特征在于:该方法包括以下步骤,
步骤一,确定所需要解析的内容,这些内容从资源的角度而言包括文字、图片、音频和视频;从形式的角度来而言包括一段文字、一篇文章、一个文章列表、图片列表、音频或视频列表,其解析内容由用户需求决定;
步骤二,查找并记录标签元素的路径XPath;XPath用来确定XML文档中的位置,指定XML文档的路径;XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力;HTML可转换成XML,所以对于HTML的元素来说也具有XPath,即根据XPath找到HTML元素;找XPath根据浏览器的扩展工具进行查找,如使用“Google Chrome的审查元素”功能快速查找;
步骤三,获取HTML网页源代码;移动客户端通过HTTP协议请求下载HTML文件,网页的获取需要结合多线程及异步操作进行下载,防止堵塞界面,提高性能;
步骤四,根据标签元素路径解析HTML标签,同时要解析出所需要的内容;能解析的内容参考步骤一;
步骤五,内容归类,或根据所解析出来的内容的链接二次获取详细内容;内容归类依据需求进行归类,比如要解析一个网页中的所有图片,就需要找到所有图片的链接获取,再在移动客户端上使用HTTP协议进行二次请求获取图片内容,保存到移动客户端上;
步骤六,显示到移动客户端;
上述移动客户端是IOS、Android、或Windows Phone下的移动客户端;使用相对应的移动应用开发工具建立一个工程,然后设计必要的界面,再在后台代码进行处理下载的数据,将所需解析的内容显示到移动客户端上。
2.根据权利要求1所述的一种基于移动终端的网页数据采集及归类的方法,其特征在于:采集网页文章内容,该实现在Windows Phone移动客户端下进行,实现过程包括以下步骤:
步骤一,确定所需要解析的内容;由于html源代码的相对不规则性,整个确定解析的内容需要进行人工定位;所需要解析的内容一般是局部具有规则的html标签,如一个文章列表,列表里面是一列表文章标题,该列表的标签元素是固定的,而列表里的文章标题内容及数量可以随着服务器的数据改变而发生改变,这时就需要定位到文章列表的html标签元素;
步骤二,查找并记录标签元素的路径XPath;找标签元素可以使用浏览器的扩展工具快速审查元素,这样就无需对网页的源代码逐一分析,大大提高了查找效率;快速定位到所要找的标签后,将其XPath记录下来;现在需要把网页的文章数据的XPath记录下来;
步骤三,获取HTML网页文件;使用Visual Studio工具建立一个Windows PhoneApplication工程,使用Http协议异步请求下载HTML网页,获取的网页只是网页的源文件,获取后保存在内存中;
步骤四,将源文件加载到HtmlDocument中,根据标签元素路径解析HTML标签,同时要解析出所需要的内容;
步骤五,将获取到的内容进行归类,或根据所解析出来的内容的链接二次获取详细内容,同时使用异步请求及多线程下载;内容的归类就是决定要把网页的内容按照需求显示到移动客户端,例如,现在有一个网页,网页上有很多文章,同时也有很多其他的图片,但是这些图片不在文章中,现在需要把文章与图片分开来显示,这里就需要将图片整合在一起,把文章整合在一起,这就是内容归类;内容归类采取自动方法;方法如下:
例如,图片资源的文件格式为式有bmp、jpg、png、gif等;
视频格式有:mp4、flv、avi、mpeg、wmv、rmvb等;
使用HTTP协议自动获取图片、视频资源至自定义的文件夹中,如一个专门放图片的文件夹;
步骤六,保存资源;资源可直接保存移动到客户端的独立存储,独立存储是移动客户端能够使用的存储,是一种数据存储机制,它在代码与保存的数据之间定义了标准化的关联方式,从而提供隔离性和安全性;资源名称采用hash表数据结果存储,将文件的绝对URL转换为SHA-1作为其文件名;当同一个资源将被再下载时,将URL转换成SHA-1安全码,然后检索独立存储,判断资源是否已存在;
步骤七,后台代码控制将文字或图片等资源显示到移动客户端。
CN201510008016.1A 2015-01-07 2015-01-07 一种基于移动终端的网页数据采集及归类的方法 Pending CN104573001A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510008016.1A CN104573001A (zh) 2015-01-07 2015-01-07 一种基于移动终端的网页数据采集及归类的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510008016.1A CN104573001A (zh) 2015-01-07 2015-01-07 一种基于移动终端的网页数据采集及归类的方法

Publications (1)

Publication Number Publication Date
CN104573001A true CN104573001A (zh) 2015-04-29

Family

ID=53089063

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510008016.1A Pending CN104573001A (zh) 2015-01-07 2015-01-07 一种基于移动终端的网页数据采集及归类的方法

Country Status (1)

Country Link
CN (1) CN104573001A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106372109A (zh) * 2016-08-19 2017-02-01 中国银联股份有限公司 互联网资源文件缓存方法及装置
CN107066626A (zh) * 2017-05-15 2017-08-18 惠州市德赛工业研究院有限公司 一种终端收藏夹文件下载存储、分类管理方法及装置
CN107562802A (zh) * 2017-08-07 2018-01-09 腾讯科技(深圳)有限公司 文本数据显示方法和装置与存储介质及电子装置
CN107704464A (zh) * 2016-08-08 2018-02-16 北京国双科技有限公司 解析静态资源的路径的方法及装置
CN108062371A (zh) * 2017-12-12 2018-05-22 华南理工大学 一种Android设备网页数据处理系统及其数据处理方法
CN109635176A (zh) * 2018-11-14 2019-04-16 新华三大数据技术有限公司 网页数据获取方法、装置及电子设备
CN109683999A (zh) * 2017-10-19 2019-04-26 北京国双科技有限公司 一种跨页面元素定位方法及装置
CN112882993A (zh) * 2021-03-22 2021-06-01 申建常 一种资料查找方法及查找系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030562A1 (en) * 2010-07-30 2012-02-02 Hon Hai Precision Industry Co., Ltd. Device and method for generating customized webpages
CN102982113A (zh) * 2012-11-08 2013-03-20 山东大学 一种针对Android系统的基于内容分组的浏览器页面加载方法
CN103166981A (zh) * 2011-12-08 2013-06-19 腾讯科技(深圳)有限公司 一种无线网页转码方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030562A1 (en) * 2010-07-30 2012-02-02 Hon Hai Precision Industry Co., Ltd. Device and method for generating customized webpages
CN103166981A (zh) * 2011-12-08 2013-06-19 腾讯科技(深圳)有限公司 一种无线网页转码方法及装置
CN102982113A (zh) * 2012-11-08 2013-03-20 山东大学 一种针对Android系统的基于内容分组的浏览器页面加载方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107704464A (zh) * 2016-08-08 2018-02-16 北京国双科技有限公司 解析静态资源的路径的方法及装置
CN107704464B (zh) * 2016-08-08 2021-05-07 北京国双科技有限公司 解析静态资源的路径的方法及装置
CN106372109A (zh) * 2016-08-19 2017-02-01 中国银联股份有限公司 互联网资源文件缓存方法及装置
CN107066626A (zh) * 2017-05-15 2017-08-18 惠州市德赛工业研究院有限公司 一种终端收藏夹文件下载存储、分类管理方法及装置
CN107562802A (zh) * 2017-08-07 2018-01-09 腾讯科技(深圳)有限公司 文本数据显示方法和装置与存储介质及电子装置
CN109683999A (zh) * 2017-10-19 2019-04-26 北京国双科技有限公司 一种跨页面元素定位方法及装置
CN108062371A (zh) * 2017-12-12 2018-05-22 华南理工大学 一种Android设备网页数据处理系统及其数据处理方法
CN109635176A (zh) * 2018-11-14 2019-04-16 新华三大数据技术有限公司 网页数据获取方法、装置及电子设备
CN112882993A (zh) * 2021-03-22 2021-06-01 申建常 一种资料查找方法及查找系统

Similar Documents

Publication Publication Date Title
CN104573001A (zh) 一种基于移动终端的网页数据采集及归类的方法
US10366169B2 (en) Real-time natural language processing of datastreams
US10515142B2 (en) Method and apparatus for extracting webpage information
US8683311B2 (en) Generating structured data objects from unstructured web pages
US20140089786A1 (en) Automated Processor For Web Content To Mobile-Optimized Content Transformation
US8972374B2 (en) Content acquisition system and method of implementation
US11417074B2 (en) Methods and apparatus for identifying objects depicted in a video using extracted video frames in combination with a reverse image search engine
US8489609B1 (en) Indexing multimedia web content
CN108021598B (zh) 页面抽取模板匹配方法、装置及服务器
US11496585B2 (en) Browser navigation for facilitating data access
US20140009472A1 (en) Information processing device, information providing device, information system, and computer program product
US20100077300A1 (en) Computer Method and Apparatus Providing Social Preview in Tag Selection
CN102253994A (zh) 自动搜索装置和自动搜索方法
US10606935B2 (en) Transforming a website for dynamic web content management
KR101503268B1 (ko) 시맨틱 클라이언트, 시맨틱 정보 관리 서버, 시맨틱 정보생성 방법, 시맨틱 정보 검색 방법 및 그 방법들을수행하기 위한 컴퓨터 기록매체
KR100765364B1 (ko) 메타데이터를 이용한 이종 단말 간의 멀티미디어 컨텐츠관리 시스템
US20100198945A1 (en) Information processing apparatus, method and program
CN104363237A (zh) 一种互联网媒体资源元数据的处理方法及其系统
CN103793516A (zh) 网址图标的获取方法和获取装置
US20140195240A1 (en) Visual content feed presentation
Hausenblas et al. Deploying multimedia metadata in cultural heritage on the semantic web
KR101696026B1 (ko) 오픈 응용프로그램 인터페이스를 이용한 디자인트랜드정보제공방법
JP5428953B2 (ja) Webサービス記憶プログラム、および、Webサービス記憶装置
Papadakis et al. An automatic multi-agent web image and associated keywords retrieval system
CA2872429A1 (en) An automated processor for web content to mobile-optimized content transformation

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150429