CN101140578B - 多线程分析网页资料的系统及方法 - Google Patents

多线程分析网页资料的系统及方法 Download PDF

Info

Publication number
CN101140578B
CN101140578B CN2006102008484A CN200610200848A CN101140578B CN 101140578 B CN101140578 B CN 101140578B CN 2006102008484 A CN2006102008484 A CN 2006102008484A CN 200610200848 A CN200610200848 A CN 200610200848A CN 101140578 B CN101140578 B CN 101140578B
Authority
CN
China
Prior art keywords
web page
page contents
analysis rule
analyzing
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2006102008484A
Other languages
English (en)
Other versions
CN101140578A (zh
Inventor
李忠一
叶建发
卢秋桦
陈旭纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2006102008484A priority Critical patent/CN101140578B/zh
Priority to US11/760,736 priority patent/US20080059480A1/en
Publication of CN101140578A publication Critical patent/CN101140578A/zh
Application granted granted Critical
Publication of CN101140578B publication Critical patent/CN101140578B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

一种多线程分析网页资料的方法,其特征在于,该方法包括如下步骤:下载所需分析的网页,并将该网页保存至下载网页资料库;将该网页内容格式转换为可扩展标记语言格式;判断网页分析规则库中是否有与该网页内容相应的分析规则;若网页分析规则库中有相应的分析规则,则根据所述分析规则对该网页内容进行分析;判断是否对分析后网页内容进行评估;若所述分析规则中有对网页内容的限定时,则对分析后的网页内容进行评估;判断分析后的网页内容是否符合评估要求;若分析后的网页内容符合评估要求,则将所述评估后的网页内容保存至分析网页资料库。利用本发明可以能快速、有效地萃取所需浏览网页中的信息。

Description

多线程分析网页资料的系统及方法
技术领域
本发明涉及一种多线程分析网页资料的系统及方法。
背景技术
近年来,由于网络世界的蓬勃发展,网上各种信息数量巨大,内容丰富,已成为人们日常工作、学习和生活中获取有用信息的主要来源。
一般而言,网络中信息都是以网页的形式存在,这种非结构化信息使用起来不方便,而且存在大量冗余信息。当用户通过因特网连接上一个网站后,在打开的网页里面显示有用的信息和一些用户不可用或令人厌烦的数据,例如广告、垃圾网站等,这些不可用的数据能减慢搜索引擎的执行或阻碍其准确性,给用户获取有用信息带来干扰。因此,对网页中不需要的内容的检测成为日益严重的问题。
发明内容
鉴于以上内容,有必要提供一种多线程分析网页资料的系统,能快速、有效地萃取所需浏览网页中的信息,并可过滤不需要的网页内容。
此外,还有必要提供一种多线程分析网页资料的方法,能快速、有效地萃取所需浏览网页中的信息,并可过滤不需要的网页内容。
一种多线程分析网页资料的系统,包括应用服务器、网页分析规则库、下载网页资料库及分析网页资料库,所述应用服务器包括:下载模块,用于下载所需分析的网页,并将该网页保存至下载网页资料库;转换模块,用于将网页内容格式转换为可扩展标记语言格式;判断模块,用于根据该可扩展标记语言内容结点判断所述网页分析规则库中是否有与该网页内容相应的分析规则,根据所述分析规则中是否有对网页内容的限定判断是否对分析后的网页内容进行评估及根据所述分析规则中的限定判断所述分析后的网页内容是否符合评估要求;分析模块,用于当所述网页分析规则库中有与该网页内容相应的分析规则时,根据所述分析规则对网页内容进行分析,及当所述分析规则中有对网页内容的限定时,对分析后的网页内容进行评估;储存模块,用于将符合评估要求的网页内容保存至分析网页资料库;反馈模块,用于当分析后的网页内容不符合评估要求时,将该分析规则反馈到网页分析规则库。
一种多线程分析网页资料的方法,其特征在于,该方法包括如下步骤:下载所需分析的网页,并将该网页保存至下载网页资料库;将该网页内容格式转换为可扩展标记语言格式;根据该可扩展标记语言格式内容结点判断网页分析规则库中是否有与该网页内容相应的分析规则;若网页分析规则库中有相应的分析规则,则根据所述分析规则对该网页内容进行分析;根据所述分析规则中是否有对网页内容的限定,判断是否对分析后网页内容进行评估;若所述分析规则中有对网页内容的限定时,则对分析后的网页内容进行评估;根据该分析后的网页内容是否符合所述分析规则中网页内容的限定,判断分析后的网页内容是否符合评估要求;若分析后的网页内容符合评估要求,则将所述评估后的网页内容保存至分析网页资料库。
相较于现有技术,所述的多线程分析网页资料的系统及方法,能利用分析规则库中的分析规则快速、有效地萃取所需浏览网页中的信息,并可过滤不需要的网页内容,使用户能更方便、快速的获取所需网页信息。
附图说明
图1是本发明多线程分析网页资料的系统的较佳实施例的硬件框架图。
图2是图1中应用服务器的功能模块图。
图3是本发明多线程分析网页资料的方法较佳实施例的流程图。
具体实施方式
如图1所示,是本发明一种多线程分析网页的系统较佳实施例的硬件架构图。该系统包括应用服务器1、网页分析规则库2、下载网页资料库3、分析网页资料库4、防火墙5及因特网6。该系统通过应用服务器1从因特网6下载所需分析网页,并将下载的网页存入下载网页资料库3中,应用服务器1根据网页分析规则库2中相应的分析规则对下载网页进行分析,并将分析后的网页存入分析网页资料库4。防火墙5用于管控外部网络的资讯安全。
所述网页分析规则库2、下载网页资料库3和分析网页资料库4可以位于应用服务器1内。该网页分析规则库2、下载网页资料库3和分析网页资料库4可以是硬盘或者闪存盘等存储设备。
如图2所示,是图1中应用服务器的的功能模块图。该应用服务器1包括下载模块10、转换模块12、判断模块14、分析模块16、储存模块18及反馈模块20。
所述下载模块10,用于通过因特网6下载所需分析网页,并将该网页保存至下载网页资料库3。
所述转换模块12,用于将所下载网页内容格式转换为可扩展标记语言(ExtensibleMarkup Language,XML)格式。下载模块10所下载的网页内容为超文本标记语言(HypetextMarked Language,HTML)格式,而该系统使用的分析引擎是基于XML的查询语言,只能解析XML格式的文件,因此,需将所下载的网页内容转换成XML格式。
所述判断模块14,用于根据网页XML格式的内容结点判断所述网页分析规则库2中是否有与该网页内容相应的分析规则,根据所述分析规则中是否有对网页内容的限定判断是否对分析后的网页内容进行评估及根据所述分析规则中的限定判断所述分析后的网页内容是否符合评估要求。其中,所述网页相应的分析规则可以是零个、一个或多个。不同的网页根据不同的内容结点对应不同的分析规则,一个网页中各个版块根据不同的内容结点也对应不同的分析规则。所述分析规则中可以包括一些对网页内容的限定,例如:对网页内容范围的限定range=(400,500),关键字的设定keyword=“电子”。若从网页分析规则库2中查找到相应的分析规则,则判断模块14判断网页分析规则库2中有相应的分析规则;若从网页分析规则库2中没有查找到相应的分析规则,则判断模块14判断网页分析规则库2中没有相应的分析规则。例如:有所下载网页的内容结点为<content>,若从网页分析规则库2中查找到有对内容结点的分析规则语句//content,则判断模块14判断网页分析规则库2中有相应的分析规则;若从网页分析规则库2中没有查到相应内容结点content的分析规则语句,则判断模块14判断网页分析规则库2中没有相应的分析规则。若分析规则中有对网页内容进行限定,则判断模块14判断需对分析后的网页内容进行评估;若分析规则中没有没有对网页内容进行限定,则判断模块14判断不对分析后的网页内容进行评估。若经过所述分析后的网页内容符合分析规则中的限定要求,则判断模块14判断所述分析后的网页内容符合评估要求;若经过所述分析后的网页内容不符合分析规则中的限定要求,则判断模块14判断所述分析后的网页内容不符合评估要求。
所述分析模块16,用于当判断模块14判断网页分析规则库2中有相应的分析规则时,根据所述分析规则对网页内容进行分析及当判断模块14判断需要对分析后的网页内容进行评估时,对所述分析后的网页内容进行评估。所述对网页内容的分析是指,根据所述分析规则中的结点提取所述网页内容中该结点包含的内容,同时过滤网页内容中其他结点所包含的内容。例如:若有网页内容中包含内容结点<content>、<body>等,分析规则中所包含的结点为body,则分析后得到的网页内容只包括内容<body>所包含的内容,同时过滤掉<content>等其他内容结点所包含的内容。所述对分析后网页内容的评估是指评估分析后的网页内容是否符合分析规则中的限定要求。例如:若在分析规则中包括对内容文字范围的限定,则评估分析后的网页内容是否在该范围之内;若在分析规则中设定网页内容中必须包括关键字“电子”,则评估分析后的网页内容中是否包含关键字“电子”。
所述储存模块18,用于将所述分析后的网页内容保存至分析网页资料库4及将所述符合评估要求的网页内容保存至分析网页资料库4。
所述反馈模块20,用于当判断模块14判断所述分析后的网页内容不符合评估要求时,将分析规则反馈到网页分析规则库2。例如:若在分析规则中包括对内容文字范围的限定range=(400,500),而分析后的网页内容不在该范围range=(400,500)之内,则将该范围限定range=(400,500)反馈到网页分析规则库,以便相关工作人员对该分析规则做修改。
如图3所示,是本发明一种多线程分析网页资料方法的较佳实施例的流程图。首先,步骤S10,下载模块10通过因特网6下载所需分析网页,并将该网页保存至下载网页资料库3。步骤S12,转换模块12将网页内容转换为XML格式。步骤S14,判断模块14根据该XML格式内容结点判断所述网页分析规则库中是否有相应的分析规则。例如:若所需分析网页中含有内容结点<content>,则从网页分析规则库中查找相应包含结点content的分析规则语句。步骤S16,若所述网页分析规则库中有相应的分析规则,则分析模块16根据所述分析规则对网页内容进行分析。步骤S18,判断模块14根据所述分析规则中是否有对网页内容的限定判断是否对分析后的网页内容进行评估。步骤S20,若所述分析规则中有对网页内容的限定,则分析模块16对分析后的网页内容进行评估。例如:若在分析规则中设定有网页内容中必须包括关键字“电子”的限定,则分析模块16对分析后的网页内容进行评估,评估分析后的网页内容中是否包含关键字“电子”。步骤S22,判断模块14根据所述分析规则中的限定判断分析后的网页内容是否有符合评估要求。步骤S24,若分析后的网页内容符合评估要求,则储存模块18将该符合要求的网页内容保存至分析网页资料库4。例如:分析后的网页内容中若包含关键字“电子”,则表示分析后的网页内容符合评估要求,储存模块18将该符合要求的网页内容保存至分析网页资料库4。
在步骤S14中,若所述网页分析规则库2中没有相应的分析规则,则转至步骤S26将该网页保存至分析网页资料库4后结束本流程。
在步骤S18中,若不需对分析后的网页内容进行评估,则转至步骤S28将分析后的网页内容保存至分析网页资料库4后结束本流程。
在步骤S22中,若分析后的网页内容不符合评估要求,则转至步骤S30将所述分析规则反馈到网页分析规则库2后结束本流程。

Claims (8)

1.一种多线程分析网页资料的系统,包括应用服务器、网页分析规则库、下载网页资料库及分析网页资料库,其特征在于,所述应用服务器包括:
下载模块,用于下载所需分析的网页,并将该网页保存至下载网页资料库;
转换模块,用于将网页内容格式转换为可扩展标记语言格式;
判断模块,用于根据该可扩展标记语言格式内容结点判断所述网页分析规则库中是否有与该网页内容相应的分析规则,根据所述分析规则中是否有对网页内容的限定判断是否对分析后的网页内容进行评估,及根据所述分析规则中的限定判断所述分析后的网页内容是否符合评估要求;
分析模块,用于当所述网页分析规则库中有与该网页内容相应的分析规则时,根据所述分析规则对网页内容进行分析,及当所述分析规则中有对网页内容的限定时,对分析后的网页内容进行评估,所述评估是指评估分析后的网页内容是否符合分析规则中的限定要求;
储存模块,用于将符合评估要求的网页内容保存至分析网页资料库;及
反馈模块,用于当分析后的网页内容不符合评估要求时,将该分析规则反馈到网页分析规则库。
2.如权利要求1所述的多线程分析网页资料的系统,其特征在于,所述储存模块还用于当网页分析规则库中没有与该网页内容相应的分析规则时,直接将该网页保存至分析网页资料库,及当不需对分析后的网页内容进行评估时,直接将分析后的网页内容保存至分析网页资料库。
3.如权利要求1所述的多线程分析网页资料的系统,其特征在于,所述分析规则是根据网页可扩展标记语言内容中的内容结点进行确定。
4.如权利要求3所述的多线程分析网页资料的系统,其特征在于,所述对网页内容的分析是指,根据分析规则中的内容结点提取所述网页内容中该结点包含的内容,同时过滤该网页内容中非分析规则中的内容结点所包含的内容。
5.一种多线程分析网页资料的方法,其特征在于,该方法包括如下步骤:
下载所需分析的网页,并将该网页保存至下载网页资料库;
将该网页内容格式转换为可扩展标记语言格式;
根据该可扩展标记语言格式内容结点判断网页分析规则库中是否有与该网页内容相应的分析规则;
若网页分析规则库中有相应的分析规则,则根据所述分析规则对该网页内容进行分析;
根据所述分析规则中是否有对网页内容的限定,判断是否对分析后网页内容进行评估;
若所述分析规则中有对网页内容的限定时,则对分析后的网页内容进行评估,所述评估是指评估分析后的网页内容是否符合分析规则中的限定要求;
根据该分析后的网页内容是否符合所述分析规则中网页内容的限定,判断分析后的网页内容是否符合评估要求;及
若分析后的网页内容符合评估要求,则将所述评估后的网页内容保存至分析网页资料库。
6. 如权利要求5所述的多线程分析网页资料的方法,其特征在于,该方法还包括步骤:
若网页分析规则库中没有与该网页内容相应的分析规则,则直接将该网页内容保存至分析网页资料库。
7.如权利要求5所述的多线程分析网页资料的方法,其特征在于,该方法还包括步骤:
若所述分析规则中没有对网页内容的限定时,则将分析后的网页内容保存至分析网页资料库。
8.如权利要求5所述的多线程分析网页资料的方法,其特征在于,该方法还包括步骤:
若分析后的网页内容不符合评估要求,则将该分析规则反馈到网页分析规则库。
CN2006102008484A 2006-09-06 2006-09-06 多线程分析网页资料的系统及方法 Expired - Fee Related CN101140578B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006102008484A CN101140578B (zh) 2006-09-06 2006-09-06 多线程分析网页资料的系统及方法
US11/760,736 US20080059480A1 (en) 2006-09-06 2007-06-09 System and method for filtering contents of a web page

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006102008484A CN101140578B (zh) 2006-09-06 2006-09-06 多线程分析网页资料的系统及方法

Publications (2)

Publication Number Publication Date
CN101140578A CN101140578A (zh) 2008-03-12
CN101140578B true CN101140578B (zh) 2010-12-08

Family

ID=39153236

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006102008484A Expired - Fee Related CN101140578B (zh) 2006-09-06 2006-09-06 多线程分析网页资料的系统及方法

Country Status (2)

Country Link
US (1) US20080059480A1 (zh)
CN (1) CN101140578B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106547749B (zh) * 2015-09-16 2021-02-12 北京国双科技有限公司 网页数据采集的方法和装置
CN106845092B (zh) * 2017-01-03 2021-06-04 青岛海信医疗设备股份有限公司 一种系统对接方法及装置
US10521106B2 (en) 2017-06-27 2019-12-31 International Business Machines Corporation Smart element filtering method via gestures
CN107484040A (zh) * 2017-08-29 2017-12-15 四川长虹电器股份有限公司 一种实现网络加速的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6449636B1 (en) * 1999-09-08 2002-09-10 Nortel Networks Limited System and method for creating a dynamic data file from collected and filtered web pages
WO2002010981A2 (en) * 2000-07-28 2002-02-07 Easyask, Inc. Distributed search system and method
EP1430420A2 (en) * 2001-05-31 2004-06-23 Lixto Software GmbH Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
US7305414B2 (en) * 2005-04-05 2007-12-04 Oracle International Corporation Techniques for efficient integration of text searching with queries over XML data
US20070233645A1 (en) * 2006-03-28 2007-10-04 Trenten Peterson System and Method for Building an XQuery Using a Model-Based XQuery Building Tool

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1536483A (zh) * 2003-04-04 2004-10-13 陈文中 网络信息抽取及处理的方法及系统

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
张茂元,邹春燕.基于自然语言处理的网页过滤方法研究.计算机与数字工程31 3.2003,31(3),第24-28页、第11页.
张茂元,邹春燕.基于自然语言处理的网页过滤方法研究.计算机与数字工程31 3.2003,31(3),第24-28页、第11页. *
王斌.网络数据智能提取.计算机仿真21 1.2004,21(1),第84-86页.
王斌.网络数据智能提取.计算机仿真21 1.2004,21(1),第84-86页. *
陈红叶.基于HTML和XML的信息提取方法研究.微机发展13.2003,13第54-55页. *

Also Published As

Publication number Publication date
US20080059480A1 (en) 2008-03-06
CN101140578A (zh) 2008-03-12

Similar Documents

Publication Publication Date Title
CN101515300B (zh) 一种Ajax网页内容的抓取方法及系统
Fantechi et al. Applications of linguistic techniques for use case analysis
Panichella et al. Mining source code descriptions from developer communications
CN100576201C (zh) 用于从自然语言文本开发本体的方法和电子数据处理系统
US20020174147A1 (en) System and method for transcoding information for an audio or limited display user interface
US11263062B2 (en) API mashup exploration and recommendation
CN1987863A (zh) 在html文档中包括可访问角色和状态信息的方法和系统
CN112597373A (zh) 一种基于分布式爬虫引擎的数据采集方法
CN101140578B (zh) 多线程分析网页资料的系统及方法
CN101763432A (zh) 一种轻量级网页动态视图快速构建方法
Osman et al. From natural language text to visual models: A survey of issues and approaches
CN111459537A (zh) 冗余代码去除方法、装置、设备与计算机可读存储介质
CN100543741C (zh) 自动下载和过滤网页的系统及方法
CN111381809A (zh) 一种焦点页面的查找方法及装置
Rocco et al. Domain-specific web service discovery with service class descriptions
CN110516185B (zh) 动态网站的处理方法及装置
US20150248500A1 (en) Documentation parser
US20070255670A1 (en) Method and System for Automatically Producing Computer-Aided Control and Analysis Apparatuses
Shafiq et al. NCL-Crawl: A large scale language-specific Web crawling system
CN113806667A (zh) 一种支持网页分类的方法和系统
Castillo et al. Information extraction from webpages based on DOM distances
JP2003076711A (ja) 電子メールを利用した情報検索方法、情報検索システムおよびプログラム
Paulakis et al. Sewep: a web mining system supporting semantic personalization
Poibeau A corpus-based approach to Information Extraction
Cserkúti et al. SmartWeb–Web content adaptation for mobile devices

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101208

Termination date: 20140906

EXPY Termination of patent right or utility model