CN101192213B - 网络信息自动下载和处理方法 - Google Patents

网络信息自动下载和处理方法 Download PDF

Info

Publication number
CN101192213B
CN101192213B CN2006101282903A CN200610128290A CN101192213B CN 101192213 B CN101192213 B CN 101192213B CN 2006101282903 A CN2006101282903 A CN 2006101282903A CN 200610128290 A CN200610128290 A CN 200610128290A CN 101192213 B CN101192213 B CN 101192213B
Authority
CN
China
Prior art keywords
information
page
extract
download
further comprise
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2006101282903A
Other languages
English (en)
Other versions
CN101192213A (zh
Inventor
贾小波
朱建永
任永奎
王明恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Vcom Technology Co., Ltd.
Original Assignee
ZHENGZHOU WEIKEMU TECHNOLOGY DEVELOPMENT Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZHENGZHOU WEIKEMU TECHNOLOGY DEVELOPMENT Co Ltd filed Critical ZHENGZHOU WEIKEMU TECHNOLOGY DEVELOPMENT Co Ltd
Priority to CN2006101282903A priority Critical patent/CN101192213B/zh
Publication of CN101192213A publication Critical patent/CN101192213A/zh
Application granted granted Critical
Publication of CN101192213B publication Critical patent/CN101192213B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种网络信息自动下载和处理方法,它包括计算机,其方法如下:设定要下载网址URL,本方法通过计算机就可以获取网址URL所指定网页的信息,包括文本和图片,根据事先设定页面属性,可以提取网页的标题,发布时间、正文等信息。根据指定的网址URL获取返回信息流、判断编码方式、保存信息流到文件、提取页面属性、分析下载图片、递归分析和下载、保存页面属性。本发明具有如下优点:实时性:用户可实时地从互联网上下载、分析处理网络信息;实用性:通过此方法用户快速方便获取自己需要的网络信息,适用于个人信息搜索和建立商业化的信息搜索分类中心。

Description

网络信息自动下载和处理方法
技术领域
本发明涉及实现针对指定的网址URL,根据预先设置的属性,自动下载和分析页面,提取所需要信息即页面属性。具体地说涉及一种网络信息自动下载和处理方法
背景技术
面对浩瀚如海而又飞速增加和更新的网络信息,能够迅速快捷的搜集和跟踪某行业信息的技术显得尤为重要。
信息化时代,对于人们来说获取信息是极其容易的,但是面对这些轻易得来的信息,如何从中获取真正需要的那一部分,让很多人束手无策。我们的网络信息自动下载和处理方法在这种环境下应运而生。不但可以应用于个人信息搜索,而且可以用来建立商业化的信息搜集分类中心。与人工搜索分类相比,极大的节省人力、物力,提高搜集效率。
发明内容
本发明的目的就在于提供一种网络信息下载、处理的方法,方便用户有目的、有范围、快捷地获取自己需要的信息。
本发明的目的可通过以下措施来实现:
本发明方法具体实现步骤如下:
A.获取返回信息流,进一步包括:
1)传递要下载页面的网址URL;
2)发送页面请求;
3)在限定时间内获取返回信息;
B.判断编码方式,进一步包括:
1)获取返回信息流的ContentType;
2)分析ContentType,是否含有″charset=utf-8″字样,如果有则为utf-8格式,否则为Encoding.Default;
C.保存信息流到文件,进一步包括:
1)根据获取的编码格式,将得到的信息流进行转换处理;
2)保存到指定的文件中;
D.提取页面属性,进一步包括:
1)按照预先设定的标题标志提取标题;
2)按照预先设定的正文标志提取正文;
3)依次按照设定的标志提取其他属性,其他属性包括发布时间、作者信息;
E.分析下载图片,进一步包括:
1)分析保存的信息流文件,获取所有图片连接;
2)去除重复的连接;
3)按照既定规则创建图片目录;
4)下载图片,保存到指定目录;
5)修改信息流中图片路径;
F.递归分析和下载,进一步包括:
1)判断页面是否含有下一页或者下几页;
2)如果有,提取其连接递归执行上述A-E步骤;
G.保存页面属性,进一步包括:
将信息的标题、正文、拼音搜索键、发布时间、作者信息保存入数据库。
本发明中G步骤保存页面属性中,还将信息标题的前两个字转换为拼音,存入到数据库中,作为拼音搜索键。
本发明具有如下优点:实时性:用户可实时地从互联网上下载、分析网络信息。实用性:通过此方法用户快速方便获取自己需要的网络信息。
经济性:用户可以通过指定的网络信息源,此方法会自动下载、处理,比用户临时在浩瀚互联网去搜索信息,更加节省时间。
附图说明
附图是本发明的流程图。
具体实施方式
本发明以下结合附图和实施例作以详细的描述:
实施例1
本发明包括计算机,其方法如下:
设定要下载网址URL,本方法通过计算机就可以获取网址URL所指定网页的信息,包括文本和图片,根据事先设定页面属性,可以提取网页的标题,
发布时间、正文、作者等信息;具体实现步骤如下:
A.获取返回信息流
1)传递要下载页面的网址URL
2)发送页面请求
3)在限定时间内获取返回信息
B.判断编码方式
1)获取返回信息流的ContentType
2)分析ContentType,是否含有″charset=utf-8″字样,如果有则为utf-8格式,否则为Encoding.Default
C.保存信息流到文件
1)根据获取的编码格式,将得到的信息流进行转换处理
2)保存到指定的文件中
D.提取页面属性
1)按照预先设定的标题标志提取标题
2)按照预先设定的正文标志提取正文
3)依次按照设定的标志提取其他属性
E.分析下载图片
1)分析保存的信息流文件,获取所有图片连接
2)去除重复的连接
3)按照既定规则创建图片目录
4)下载图片,保存到指定目录
5)修改信息流中图片路径
F.递归分析和下载
1)判断页面是否含有下一页或者下几页
2)如果有,提取其连接递归执行上述A-E步骤
G.保存页面属性
将信息的标题、正文、发布时间、作者等属性保存入数据库。
实施例2
本发明包括计算机:
设定要下载网址URL,本方法通过计算机就可以获取网址URL所指定网页的信息,包括文本和图片,根据事先设定页面属性,可以提取网页的标题,发布时间、正文等信息;具体实现步骤如下:
A.获取返回信息流
1)传递要下载页面的网址URL
2)发送页面请求
3)在限定时间内获取返回信息
B.判断编码方式
1)获取返回信息流的ContentType
2)分析ContentType,是否含有″charset=utf-8″字样,如果有则为utf-8格式,否则为Encoding.Default
C.保存信息流到文件
1)根据获取的编码格式,将得到的信息流进行转换处理
2)保存到指定的文件中
D.提取页面属性
1)按照预先设定的标题标志提取标题
2)按照预先设定的正文标志提取正文
3)依次按照设定的标志提取其他属性
E.分析下载图片
1)分析保存的信息流文件,获取所有图片连接
2)去除重复的连接
3)按照既定规则创建图片目录
4)下载图片,保存到指定目录
5)修改信息流中图片路径
F.递归分析和下载
1)判断页面是否含有下一页或者下几页
2)如果有,提取其连接递归执行上述A-E步骤
G.保存页面属性
将信息的标题、正文等属性保存入数据库。
本发明中G步骤保存页面属性中,还可以将信息标题的前两个字转换为拼音,存入到数据库中,作为搜索键。

Claims (2)

1.一种网络信息自动下载和处理方法,其特征在于:
其方法具体实现步骤如下:
A.获取返回信息流,进一步包括:
1)传递要下载页面的网址URL;
2)发送页面请求;
3)在限定时间内获取返回信息;
B.判断编码方式,进一步包括:
1)获取返回信息流的ContentType;
2)分析ContentType,是否含有″charset=utf-8″字样,如果有则为utf-8格式,否则为Encoding.Default;
C.保存信息流到文件,进一步包括:
1)根据获取的编码格式,将得到的信息流进行转换处理;
2)保存到指定的文件中;
D.提取页面属性,进一步包括:
1)按照预先设定的标题标志提取标题;
2)按照预先设定的正文标志提取正文;
3)依次按照设定的标志提取其他属性,其他属性包括发布时间、作者信息;
E.分析下载图片,进一步包括:
1)分析保存的信息流文件,获取所有图片连接;
2)去除重复的连接;
3)按照既定规则创建图片目录;
4)下载图片,保存到指定目录;
5)修改信息流中图片路径;
F.递归分析和下载,进一步包括:
1)判断页面是否含有下一页或者下几页;
2)如果有,提取其连接递归执行上述A-E步骤;
G.保存页面属性,进一步包括:
将信息的标题、正文、拼音搜索键、发布时间、作者信息保存入数据库。
2.根据权利要求1所述的网络信息自动下载和处理方法,其特征在于:所述G步骤保存页面属性中,还将信息标题的前两个字转换为拼音,存入到数据库中,作为拼音搜索键。
CN2006101282903A 2006-11-28 2006-11-28 网络信息自动下载和处理方法 Active CN101192213B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2006101282903A CN101192213B (zh) 2006-11-28 2006-11-28 网络信息自动下载和处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101282903A CN101192213B (zh) 2006-11-28 2006-11-28 网络信息自动下载和处理方法

Publications (2)

Publication Number Publication Date
CN101192213A CN101192213A (zh) 2008-06-04
CN101192213B true CN101192213B (zh) 2010-09-01

Family

ID=39487210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101282903A Active CN101192213B (zh) 2006-11-28 2006-11-28 网络信息自动下载和处理方法

Country Status (1)

Country Link
CN (1) CN101192213B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101504649B (zh) * 2008-11-14 2011-11-30 北京搜狗科技发展有限公司 一种页面资源的处理方法及装置
CN101771552B (zh) * 2009-01-04 2012-05-23 英业达股份有限公司 以识别码减少图片重复下载的装置、系统及其方法
CN101534294B (zh) * 2009-01-21 2012-04-18 凌阳科技股份有限公司 在多媒体播放器实现下载网络数据的方法与系统
CN101783817B (zh) * 2010-03-26 2013-01-02 西南科技大学 一种网页文本还原系统及方法
CN102855265A (zh) * 2012-04-20 2013-01-02 江苏奇异点网络有限公司 浏览和下载网页图片系统
CN103593360A (zh) * 2012-08-16 2014-02-19 江苏金鸽网络科技有限公司 基于页面分析的互联网信息发表时间提取方法
CN104504016A (zh) * 2014-12-10 2015-04-08 河海大学 一种面向用户的web信息自动提取方法
CN105160041A (zh) * 2015-10-16 2015-12-16 山西晶科光电材料有限公司 一种蓝宝石报警图片的搜索方法
CN111767254B (zh) * 2020-07-07 2021-01-05 江苏中威科技软件系统有限公司 基于版式数据流文件技术的多文件阅读装置及其方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1473301A (zh) * 2000-09-14 2004-02-04 �Ҵ���˾ 显示多模式Web页面的部分的方法和装置
CN1492335A (zh) * 2002-10-25 2004-04-28 �Ҵ���˾ 用于媒体内容数据文件网络发布的安全系统及方法
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1473301A (zh) * 2000-09-14 2004-02-04 �Ҵ���˾ 显示多模式Web页面的部分的方法和装置
CN1492335A (zh) * 2002-10-25 2004-04-28 �Ҵ���˾ 用于媒体内容数据文件网络发布的安全系统及方法
CN1716243A (zh) * 2004-06-30 2006-01-04 马·研究公司 利用网络爬行者程序在网上进行价格收集的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
CN 1716243 A,全文.

Also Published As

Publication number Publication date
CN101192213A (zh) 2008-06-04

Similar Documents

Publication Publication Date Title
CN101192213B (zh) 网络信息自动下载和处理方法
Dewantara et al. Mengatasi Pelanggaran Hak Asasi Manusia dengan Model Sekolah Ramah HAM (SR-HAM)
EP1182586A3 (en) System and method for acquisition of related graphical material in a digital graphics album
EP2169603A3 (en) Systems and methods to create continuous queries associated with push-type and pull-type data
CN106599174A (zh) 一种新闻实时推荐系统及其方法
CN104731874A (zh) 一种评价信息生成方法和装置
CN101819584A (zh) 轻量级智能网页内容解析方法
CN101655843A (zh) 一种信息获取方法、信息搜索方法及其装置和系统
CN103886069B (zh) 一种软件多语言版本实时切换方法及其系统
Gossen et al. The iCrawl Wizard–supporting interactive focused crawl specification
CN108132919A (zh) 一种网页内容抽取的方法
WO2004006111A3 (en) System and method for generating invoices using a markup language
US8082259B2 (en) Information processing apparatus for extracting objects
CN107608974A (zh) 一种基于条件随机场的柬‑汉人名翻译方法
Marashian Identifying Strategies Affecting Iran Public Diplomacy through Sport and Its Consequences
Martin et al. Road Marker Classification Mechanism Using Slope Contour Analysis in Foggy
Nabeshima et al. Frame Rate Stabilization by Multi Resolution Shape Reconstruction for Real-Time Free-viewpoint Video Generation
Field et al. Reciprocal Moss Ornament Transplant for Heavy Metal Deposition Rate and Spatial Variability
Putri NOUN PHRASES IN TOURISM SLOGANS OF ASIAN COUNTRIES
Samaeng et al. Applying of Human Centred Design Theory for Mobile application Development with public transport map in Mahasarakham Municipality
Jiau et al. Automatic Internet Media Clipper
Renzel et al. Virtual Campfire-Collaborative Multimedia Semantization with Mobile Social Software
Koå Mider et al. SieÄ neuronowa oceniajaÌ § ca zapach mieszanin cykloheksanu i heksanu
Gidarakos et al. Toxicity evaluation for the broad area of the Asbestos Mine of Northern Greece
Porncharoenwiroj THE EXECUTIVE DEVELOPMENT FOR RESULTS BASED MANAGEMENT OF MUNICIPALITY IN SONGKHLA PROVINCE

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ZHENGZHOU VCOM TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: ZHENGZHOU WEIKEMU TECHNOLOGY DEVELOPMENT CO., LTD.

Effective date: 20140120

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 450052 ZHENGZHOU, HENAN PROVINCE TO: 450001 ZHENGZHOU, HENAN PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20140120

Address after: 450001 No. 5 Lianhua street, hi tech Development Zone, Henan, Zhengzhou

Patentee after: Zhengzhou Vcom Technology Co., Ltd.

Address before: 450052 No. 1, Huainan street, Zhengzhou, Henan

Patentee before: Zhengzhou Weikemu Technology Development Co., Ltd.