CN101364979B - 下载资料解析及处理系统及方法 - Google Patents
下载资料解析及处理系统及方法 Download PDFInfo
- Publication number
- CN101364979B CN101364979B CN2007102013400A CN200710201340A CN101364979B CN 101364979 B CN101364979 B CN 101364979B CN 2007102013400 A CN2007102013400 A CN 2007102013400A CN 200710201340 A CN200710201340 A CN 200710201340A CN 101364979 B CN101364979 B CN 101364979B
- Authority
- CN
- China
- Prior art keywords
- picture
- data
- information
- server
- downloaded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Abstract
本发明提供一种下载资料解析及处理系统,该系统包括本地服务器。该本地服务器包括:资料缓存区,用于暂存下载资料;资料解析模块,用于解析所述下载资料得到该下载资料的文字信息,所述文字信息包括下载资料中图片的URL信息;图片属性变更模块,用于将下载资料中各图片的URL信息更改为预先定义好、包含该图片标识符的的字符串;及资料存储模块,用于将上述下载资料的文字信息储存于数据库服务器,根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器中该图片的信息记录中。本发明同时提供一种下载资料解析及处理方法。
Description
技术领域
本发明涉及一种下载资料解析及处理系统及方法。
背景技术
近年来,由于计算机技术和网络技术的迅速发展,网上浏览资讯已成为人们日常工作、学习和生活中不可或缺的一个重要部分,网络以其信息量大、信息更新迅速,成为全球“最大的图书馆”。
通过网络,人们可以了解任何各种各样的事物,收集自己想要的资料。例如,在企业进行新产品研发过程中,研发人员需要通过本地端服务器从网上下载大量与产品相关的资料并将这些资料储存于本地端的数据库,这些资料大多是以网页的形式显示的。
通常,在下载资料的过程中,原始资料中图片的URL(un而rmresource locator,统一资源定位符)在本地服务器端会被网管修改成可显示图片的本地URL。与本地服务器相连的用户可以通过该本地URL获取图片。这样做的缺陷是,若显示图片的本地URL发生变化,用户端未收到变更后的新的本地URL时,或者原本地URL没有映射到新的本地URL,用户将无法通过原本地URL访问图片。
发明内容
鉴于以上内容,有必要提供一种下载资料解析及处理系统,可以在本地服务器下载资料过程中对资料中的图片URL信息进行灵活处理,提高用户访问下载资料时图片显示的灵活性。
此外,还有必要提供一种下载资料解析及处理方法,可以在本地服务器下载资料过程中对资料中的图片URL信息进行灵活处理,提高用户访问下载资料时图片显示的灵活性。
一种下载资料解析及处理系统,该系统包括通过网络从远端服务器下载资料的本地服务器、与本地服务器相连的数据库服务器及图片储存服务器。所述本地服务器包括:资料缓存区,用于暂存所述下载资料;资料解析模块,用于解析所述下载资料得到该下载资料的文字信息,所述文字信息包括下载资料中图片的原始URL信息;图片属性变更模块,用于将下载资料中每一张图片的原始URL信息替换为一个预先定义好且包含该图片标识符的字符串;及资料存储模块,用于将上述下载资料的文字信息及上述替换图片原始URL信息的字符串,储存于所述数据库服务器,根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器中该图片的信息记录中。
一种下载资料解析及处理方法,该方法包括以下步骤:(A)将本地服务器从远端服务器下载的资料暂存于本地服务器的资料缓存区;(B)解析所述下载资料得到该下载资料的文字信息,包括下载资料中图片的原始URL信息;(C)将下载资料中每一张图片的URL信息替换为一个预先定义好且包含该图片标识符的字符串;(D)将所述文字信息及上述替换图片原始URL信息的字符串,储存于所述数据库服务器;(E)数据库服务器为下载资料中的每一张图片分配一个标识,并为每一张图片创建一条信息记录,以记录该图片的识别信息及该图片的存储路径信息;(F)数据库服务器返回图片识别信息给本地服务器;(G)本地服务器根据图片识别信息从资料缓存区撷取相应图片,并将该图片储存于图片储存服务器;及(H)本地服务器接收图片储存服务器返回的图片的存储路径信息,并将该存储路径信息添加至该图片的信息记录中。
相较于现有技术,本发明所提供的下载资料解析及处理系统及方法不直接将下载资料中图片的原始URL属性更改为下载服务器端定义的URL,而是替换为为预先定义好、包含该图片标识符的的字符串,当下载服务器的用户访问下载资料时,字符串自动转换成用户想要显示所述的图片的URL。
附图说明
图1是本发明下载资料解析及处理系统较佳实施例的硬件架构图。
图2是图1中本地服务器10的功能模块图。
图3是本发明下载资料解析及处理方法较佳实施例的流程图。
图4是用户向应用本发明网页信息解析及处理方法的本地服务器10请求浏览新闻网页时的作业流程图。
具体实施方式
如图1所示,是本发明下载资料解析及处理系统较佳实施例的硬件架构图。该系统包括本地服务器10,该本地服务器10通过互联网20从远端服务器30下载资料(如新闻网页),并将所下载的资料储存于数据库,如本地服务器10将新闻网页中的文字信息及图片信息分别储存于数据库服务器40及图片储存服务器50。该数据库服务器40及该图片储存服务器50可以位于本地服务器10内部,也可以位于本地服务器10外部。
进一步地,本地服务器10通过内部网络60连接多个客户端70,接收客户端访问下载网页的请求,从数据库服务器40及图片储存服务器50撷取网页的相关文字信息和图片信息返回给客户端70。
客户端70具有交互式图形界面,供用户向本地服务器10发送请求及浏览本地服务器10提供的网页资料。
如图2所示,是图1中本地服务器10的功能模块图。该本地服务器10包括资料下载模块110、资料解析模块120、图片属性变更模块130及资料储存模块140。
资料下载模块110用于通过互联网20从远端服务器30下载资料,如下载新闻网页,并将下载资料暂存于本地服务器10的资料缓存区100。
资料解析模块120用于解析缓存区100储存的下载资料,如解析新闻网页,获取新闻网页中的文字信息,包括新闻网址、新闻发布机构、发布时间、新闻标题、摘要、网页中图片的URL等信息。
图片属性变更模块130用于每一笔下载资料中每一张图片的URL信息替换为一个预先定义好且包含该图片标识符的字符串。例如,将一个新闻网页中<imagesrc=http://www.google.com/intl/zh-CN_ALL/images/logo.gif/>替换成<image src=“$1”,其中数字1表示该图片为该新闻网页中的第一幅图片。
资料储存模块140用于将解析所得的文字信息及上述替换图片原始URL信息的字符串,储存于数据库服务器40。
数据库服务器40接收上述解析所得的资料的文字信息后,为每一笔下载资料及该笔下载资料中的每一个图片分配一个标识,例如为每一个新闻网页分配一个新闻标识(newID)、为该新闻网页中的每一张图片分配一个图片标识(imageID)。进一步地,数据库服务器40为每一张图片创建一条信息记录,记录中包括该图片所属资料的标识、图片标识、图片原始URL信息、替换该原始URL信息的字符串信息及图片存储路径等栏位。最后,数据库服务器40并将各信息记录中的图片识别信息,包括图片标识、图片原始URL信息及替换该原始URL信息的字符串信息,返回给资料解析模块120。
接下来,资料解析模块120根据数据库服务器40返回的上述图片识别信息将资料缓存区100中的相应图片储存至图片储存服务器50;图片储存服务器50返回该图片的存储路径信息通过本地服务器10送交数据库服务器40。最后,数据库服务器40将该图片存储路径信息添加至该图片的信息记录中。
如图3所示,是本发明下载资料解析及处理方法较佳实施例的流程图。首先,资料下载模块110通过互联网20从远端服务器30下载资料(如一个新闻网页),并将该下载资料暂存于资料缓存区100(步骤S10)。资料解析模块120解析下载资料得到该下载资料的文字信息,如解析所述新闻网页,获取新闻网址、新闻发布机构、发布时间、新闻标题、摘要、网页中图片的URL属性等信息(步骤S12)。图片属性变更模块130将该下载资料中每一张图片的URL信息替换为一个预先定义好且包含该图片标识符的的字符串。例如,将一个新闻网页中<imagesrc=http://www.google.com/intl/zh-CN_ALL/images/logo.gif/>替换成<image src=“$1”,其中数字1表示该图片为该新闻网页中的第一幅图片(步骤S14)。资料储存模块140将解析所得的文字信息及上述替换图片原始URL信息的字符串,储存于数据库服务器40(步骤S16)。数据库服务器40接收上述下载资料的文字信息后,为该下载资料及该下载资料中的每一张图片各分配一个标识,例如为每一个新闻网页分配一个新闻标识(newID)、为该新闻网页中的每一条图片属性信息分配一个图片标识(imageID),并为每一张图片创建一条信息记录,记录中包括该图片所属资料的标识、图片标识、图片原始URL信息、替换该原始URL信息的字符串信息及图片存储路径等栏位(步骤S18)。数据库服务器40将记录中的图片识别信息,包括图片标识、图片原始URL信息及替换该原始URL信息的字符串信息,返回给资料解析模块120(步骤S20)。资料解析模块120根据数据库服务器40返回的上述图片识别信息从资料缓存区100撷取相应图片,并将该图片储存至图片储存服务器50(步骤S22)。本地服务器1将图片储存服务器50返回的该图片的存储路径信息添加至数据库服务器40中该图片的信息记录中(步骤S24)。
如图4所示,是用户向应用本发明网页信息解析及处理方法的本地服务器10请求浏览新闻网页时的作业流程图。首先,客户端70的用户通过内部网络60向本地服务器10发送浏览新闻网页的请求(步骤S30)。本地服务器10接收请求后,从数据库服务器40获取该新闻网页的记录信息,包括新闻标识、图片标识、图片的存储路径、替换图片原始URL信息的字符串信息(步骤S32)。进一步地,本地服务器10根据图片的存储路径信息从图片储存服务器50中获取该网页中的图片(步骤S34)。本地服务器10将图片被储存时所生成的属性信息,即替换图片原始URL信息的字符串替换成用户需要显示该图片的URL(步骤S36)。最后,本地服务器10返回一个完整的新闻网页供用户浏览(步骤S38)。
Claims (5)
1.一种下载资料解析及处理系统,该系统包括本地服务器、与本地服务器相连的数据库服务器及图片储存服务器,该本地服务器通过网络从远端服务器下载资料,其特征在于,该本地服务器包括:
资料缓存区,用于暂存所述下载资料;
资料解析模块,用于解析所述下载资料得到该下载资料的文字信息,所述文字信息包括下载资料中图片的原始URL信息;
图片属性变更模块,用于将下载资料中每一张图片的原始URL信息替换为一个预先定义好且包含该图片标识符的字符串;及
资料存储模块,用于将下载资料的文字信息及上述替换图片原始URL信息的字符串储存于所述数据库服务器;
所述数据库服务器用于接收下载资料的文字信息并为下载资料中的每一张图片创建一条信息记录,以记录该图片的识别信息及该图片的存储路径信息,并返回图片识别信息给资料存储模块;
所述资料存储模块根据数据库服务器返回的图片识别信息将资料缓存区中的相应图片储存于所述图片储存服务器,并将图片储存服务器返回的图片存储路径保存至上述数据库服务器该图片的信息记录。
2.如权利要求1所述的下载资料解析及处理系统,其特征在于,所述数据库服务器还用于为所述下载资料及该下载资料中的各图片分别分配一个标识。
3.如权利要求2所述的下载资料解析及处理系统,其特征在于,所述数据库服务器返回的图片识别信息包括该图片所属下载资料的标识、该图片的标识、该图片的原始URL信息及替换该原始URL信息的字符串。
4.一种下载资料解析及处理方法,其特征在于,该方法包括以下步骤:
将本地服务器从远端服务器下载的资料暂存于本地服务器的资料缓存区;
解析所述下载资料得到该下载资料的文字信息,包括下载资料中图片的原始URL信息;
将下载资料中每一张图片的原始URL信息替换为一个预先定义好且包含该图片标识符的字符串;
将所述文字信息及上述替换图片原始URL信息的字符串储存于数据库服务器;
数据库服务器为下载资料中的每一张图片分配一个标识,并为每一张图片创建一条信息记录,以记录该图片的识别信息及该图片的存储路径信息;
数据库服务器返回图片识别信息给本地服务器;
本地服务器根据图片识别信息从资料缓存区撷取相应图片,并将该图片储存于图片储存服务器;及
本地服务器接收图片储存服务器返回的图片的存储路径信息,并将该存储路径信息添加至该图片的信息记录中。
5.如权利要求4所述的下载资料解析及处理方法,其特征在于,所述数据库服务器返回的图片识别信息包括该图片所属下载资料的标识、该图片的标识、该图片的原始URL信息及替换该原始URL信息的字符串信息。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007102013400A CN101364979B (zh) | 2007-08-10 | 2007-08-10 | 下载资料解析及处理系统及方法 |
US11/967,091 US7797350B2 (en) | 2007-08-10 | 2007-12-29 | System and method for processing downloaded data |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007102013400A CN101364979B (zh) | 2007-08-10 | 2007-08-10 | 下载资料解析及处理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101364979A CN101364979A (zh) | 2009-02-11 |
CN101364979B true CN101364979B (zh) | 2011-12-21 |
Family
ID=40347494
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007102013400A Expired - Fee Related CN101364979B (zh) | 2007-08-10 | 2007-08-10 | 下载资料解析及处理系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7797350B2 (zh) |
CN (1) | CN101364979B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020114152A1 (zh) * | 2018-12-06 | 2020-06-11 | 深圳云天励飞技术有限公司 | 品牌知识图谱显示方法、装置、图服务器及存储介质 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9479812B2 (en) * | 2009-06-05 | 2016-10-25 | Time Warner Cable Enterprises Llc | User selection of software components in a television set-top box |
JP2011048438A (ja) * | 2009-08-25 | 2011-03-10 | Olympus Corp | 病理診断処理装置および病理診断処理システム |
US9053203B2 (en) | 2010-12-08 | 2015-06-09 | Microsoft Technology Licensing, Llc | Provider-specific parsing for content retrieval |
CN102136942B (zh) | 2010-12-31 | 2014-06-25 | 华为技术有限公司 | 软件的下载方法和装置 |
CN102685080B (zh) * | 2011-03-17 | 2015-05-20 | 腾讯科技(北京)有限公司 | 图片处理方法及系统 |
US8994748B2 (en) * | 2011-05-10 | 2015-03-31 | Google Inc. | Anchors for displaying image sprites, sub-regions and 3D images |
CN102789470B (zh) * | 2011-05-20 | 2016-08-24 | 腾讯科技(深圳)有限公司 | 加载网页中的图片的方法和装置 |
CN102651017A (zh) * | 2012-03-30 | 2012-08-29 | 北京英富森信息技术有限公司 | 一种基于url地址改写的网页原版原貌展现方法 |
CN102982181B (zh) * | 2012-12-18 | 2016-09-28 | 北京奇虎科技有限公司 | 一种在浏览器侧展现网页数据的方法及装置 |
CN103020246B (zh) * | 2012-12-18 | 2018-01-05 | 北京奇虎科技有限公司 | 用于浏览器的网页数据展现方法及装置 |
CN104125273A (zh) * | 2014-07-16 | 2014-10-29 | 百度在线网络技术(北京)有限公司 | 网页中图片传输方法、图片服务器、网络服务器和客户端 |
CN105635221A (zh) * | 2014-11-06 | 2016-06-01 | 宏碁股份有限公司 | 下载管控方法及执行该方法的服务器系统、限制下载方法 |
KR101705197B1 (ko) * | 2015-05-29 | 2017-02-22 | 주식회사 코어라인소프트 | 로컬 서버 장치 및 그의 데이터 중계 방법 |
CN104899319B (zh) * | 2015-06-18 | 2018-07-24 | 深圳市茁壮网络股份有限公司 | 一种网页图标加载方法及装置 |
CN107301182B (zh) * | 2016-04-15 | 2020-06-30 | 北京京东尚科信息技术有限公司 | 一种展示内嵌图片的网页的方法和装置 |
CN107172070B (zh) * | 2017-06-15 | 2020-02-18 | 绿湾网络科技有限公司 | 资源访问处理方法及装置 |
CN109739993A (zh) * | 2018-12-06 | 2019-05-10 | 深圳云天励飞技术有限公司 | 服饰知识图谱显示方法、装置、图服务器及存储介质 |
CN111611265B (zh) * | 2020-05-21 | 2024-01-23 | 山东三宏信息科技有限公司 | App图标更新系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1356644A (zh) * | 2000-11-30 | 2002-07-03 | 国际商业机器公司 | 从网络服务器向客户计算机提供资源的方法 |
CN1452095A (zh) * | 2002-04-13 | 2003-10-29 | 鸿富锦精密工业(深圳)有限公司 | 资料自动下载之系统及方法 |
US6964009B2 (en) * | 1999-10-21 | 2005-11-08 | Automated Media Processing Solutions, Inc. | Automated media delivery system |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6131098A (en) * | 1997-03-04 | 2000-10-10 | Zellweger; Paul | Method and apparatus for a database management system content menu |
US7010536B1 (en) * | 1998-01-30 | 2006-03-07 | Pattern Intelligence, Inc. | System and method for creating and manipulating information containers with dynamic registers |
US6917965B2 (en) * | 1998-09-15 | 2005-07-12 | Microsoft Corporation | Facilitating annotation creation and notification via electronic mail |
US6587856B1 (en) * | 1998-12-07 | 2003-07-01 | Oracle International Corporation | Method and system for representing and accessing object-oriented data in a relational database system |
US6336117B1 (en) * | 1999-04-30 | 2002-01-01 | International Business Machines Corporation | Content-indexing search system and method providing search results consistent with content filtering and blocking policies implemented in a blocking engine |
US6654741B1 (en) | 1999-05-03 | 2003-11-25 | Microsoft Corporation | URL mapping methods and systems |
HK1024380A2 (en) * | 2000-03-28 | 2000-08-25 | Lawrence Wai Ming Mo | Internet-based font server |
US6513043B1 (en) * | 2000-09-01 | 2003-01-28 | Syntricity, Inc. | System and method for storing, retrieving, and analyzing characterization data |
US6970876B2 (en) * | 2001-05-08 | 2005-11-29 | Solid Information Technology | Method and arrangement for the management of database schemas |
US7149754B2 (en) * | 2001-07-19 | 2006-12-12 | William H. Carpenter, Jr. | Method for transmitting a transferable information packet |
US7035862B2 (en) * | 2002-05-09 | 2006-04-25 | Siemens Medical Solutions Health Services Corporation | Method for processing information from an information repository |
US7146367B2 (en) * | 2002-05-14 | 2006-12-05 | Advectis, Inc. | Document management system and method |
US7181456B2 (en) * | 2002-08-20 | 2007-02-20 | Microsoft Corporation | Process description language |
US7236990B2 (en) * | 2004-04-13 | 2007-06-26 | Bea Systems, Inc. | System and method for information lifecycle workflow integration |
-
2007
- 2007-08-10 CN CN2007102013400A patent/CN101364979B/zh not_active Expired - Fee Related
- 2007-12-29 US US11/967,091 patent/US7797350B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6964009B2 (en) * | 1999-10-21 | 2005-11-08 | Automated Media Processing Solutions, Inc. | Automated media delivery system |
CN1356644A (zh) * | 2000-11-30 | 2002-07-03 | 国际商业机器公司 | 从网络服务器向客户计算机提供资源的方法 |
CN1452095A (zh) * | 2002-04-13 | 2003-10-29 | 鸿富锦精密工业(深圳)有限公司 | 资料自动下载之系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020114152A1 (zh) * | 2018-12-06 | 2020-06-11 | 深圳云天励飞技术有限公司 | 品牌知识图谱显示方法、装置、图服务器及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101364979A (zh) | 2009-02-11 |
US7797350B2 (en) | 2010-09-14 |
US20090043815A1 (en) | 2009-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101364979B (zh) | 下载资料解析及处理系统及方法 | |
US11372935B2 (en) | Automatically generating a website specific to an industry | |
CN101288067B (zh) | 从电子文档组装、提取和配置内容的方法和装置 | |
CN102982058B (zh) | 用于支持播客的技术和系统 | |
CA2802746C (en) | System and methods for facilitating the synchronization of data | |
US8707167B2 (en) | High precision data extraction | |
US9535999B1 (en) | Trending search magazines | |
CN102073726B (zh) | 搜索引擎系统的结构化数据的引入方法和装置 | |
US7418412B2 (en) | Multi-picture online commerce feature | |
US20130326333A1 (en) | Mobile Content Management System | |
CN102939601A (zh) | 启动字体子集 | |
WO2017107620A1 (zh) | 一种页面数据的加载方法和系统 | |
CN104063460A (zh) | 一种在浏览器中加载网页的方法和装置 | |
CN1987851A (zh) | 一种网页数据的更新显示方法 | |
Sundaramoorthy et al. | Newsone—an aggregation system for news using web scraping method | |
CN112100550A (zh) | 一种页面构建方法和装置 | |
KR101638423B1 (ko) | 배너형 기사 자동 생성을 통한 기사 작성 및 온라인 배포 방법 | |
CN110245069A (zh) | 页面版本的测试方法和装置、页面的展示方法和装置 | |
KR20170073693A (ko) | 유사 그룹 요소 추출 | |
Zamith | Capturing and analyzing liquid content: A computational process for freezing and analyzing mutable documents | |
KR20080011767A (ko) | Rss 뉴스를 이용한 개인 미디어 서비스 방법 및 시스템 | |
JP2006343827A (ja) | サイト間関係表示システム | |
JP5397507B2 (ja) | 書籍コンテンツに広告を挿入配信するサーバ装置 | |
CN100392649C (zh) | 对屏幕显示的特定匹配词语实现快速链接的方法 | |
Koehl et al. | M. site: Efficient content adaptation for mobile devices |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20111221 Termination date: 20150810 |
|
EXPY | Termination of patent right or utility model |