CN101206649B - 多任务解析系统及方法 - Google Patents
多任务解析系统及方法 Download PDFInfo
- Publication number
- CN101206649B CN101206649B CN2006101577134A CN200610157713A CN101206649B CN 101206649 B CN101206649 B CN 101206649B CN 2006101577134 A CN2006101577134 A CN 2006101577134A CN 200610157713 A CN200610157713 A CN 200610157713A CN 101206649 B CN101206649 B CN 101206649B
- Authority
- CN
- China
- Prior art keywords
- task
- xquery
- script file
- tasks
- script
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/83—Querying
- G06F16/835—Query processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99943—Generating database or data structure, e.g. via user interface
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种多任务解析系统及方法,该方法包括如下步骤:设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库中;将所述任务注册到排程服务器中;在到达所述任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;脚本解析服务器接收所述任务请求后,从数据库中载入所述任务对应的XQuery脚本文件;根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。利用本发明可以对多个任务的XQuery脚本文件同时进行解析。
Description
技术领域
本发明涉及一种多任务解析系统及方法,尤其涉及一种XQuery多任务解析系统及方法。
背景技术
随着XML(Extensible Markup Language,可扩展标记语言)越来越成熟,目前已成为数据存储、共享及处理的主要形式,需要有新的工具和系统来提高XML的灵活性。其中一个需要提高的重要方面是怎样提高查询XML数据的能力。具体地说,随着互联网络的普及,许多数据都以XML格式存在于网页中,怎样从这些XML网页中查询想要的数据变得越来越重要。
XQuery是用来查询和操纵XML数据或任何能以XML形式出现的数据,如关系型数据库。XQuery提供了解析XML的功能,可以对查询任务进行解析,但由于网络信息量巨大而且复杂,XQuery对查询任务的解析效率有待提高。
发明内容
鉴于以上内容,有必要提供一种多任务解析系统,其可对多个任务的XQuery脚本文件同时进行解析。
鉴于以上内容,还有必要提供一种多任务解析方法,其可对多个任务的XQuery脚本文件同时进行解析。
一种多任务解析系统,包括任务管理计算机、排程服务器、脚本解析服务器及数据库,所述数据库中存储有XQuery脚本文件,所述XQuery脚本文件中设置有每一个任务对应需要解析的网页及节点,所述任务管理计算机包括:任务设置模块,用于设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存 储到数据库中;注册模块,用于将所述任务注册到排程服务器中;所述排程服务器包括:发送模块,用于在到达所述任务的运行时间后,向脚本解析服务器发送任务请求;所述脚本解析服务器包括:脚本载入模块,用于从数据库中载入所述任务对应的XQuery脚本文件;脚本解析模块,用于根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;及合并模块,用于将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
一种多任务解析方法,包括如下步骤:设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库中;将所述任务注册到排程服务器中;在到达所述任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;脚本解析服务器接收所述任务请求后,从数据库中载入所述任务对应的XQuery脚本文件;根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
相较于现有技术,所述的多任务解析系统及方法,可以对多个任务的XQuery脚本文件同时进行解析,提高了任务解析的效率。
附图说明
图1是本发明多任务解析系统较佳实施例的系统架构图。
图2是本发明多任务解析系统较佳实施例的功能模块关联图。
图3是本发明多任务解析方法较佳实施例的流程图。
具体实施方式
如图1所示,是本发明多任务解析系统较佳实施例的系统架构图。该系统主要包括任务管理计算机10、排程服务器20、脚本解析 服务器30、数据库40及网络50。
所述数据库40连接有任务管理计算机10和脚本解析服务器30,用于存储XQuery脚本文件及脚本解析服务器30对任务进行解析后得到的数据。所述XQuery脚本文件中设置有每一个任务对应需要解析的网页及节点(该节点代表网页所包含的数据类型),对该XQuery脚本文件进行解析,可以获取这些网页中该节点对应的数据,所述网页可以XML格式。由于网页中含有大量的数据,有些数据是不重要的(比如一些广告),在对网页中的数据进行分析时,需要过滤那些不重要的数据,只获取查询任务想要查询的数据。通过在XQuery脚本文件中设置每一个任务对应需要解析的网页及节点,当脚本解析服务器30对该XQuery脚本文件进行解析时,只获取网页中该节点对应的数据。
所述任务管理计算机10连接有排程服务器20,用于设置不同任务的XQuery脚本文件及该任务的运行时间,其中,一个任务可以包括多个XQuery脚本文件,对任务进行解析即对该任务对应的XQuery脚本文件进行解析。所述任务可以是一个查询请求,例如,定期从网络50连接的网页中搜寻所需的技术情报,所述网络50可以是国际互联网络或局域网络。当设定好一个任务后,再将该任务注册到排程服务器20中。所述排程服务器20用于管理排程,其中,一个排程可以包括多个任务,用于排定任务管理计算机10设置的任务的运行时间,当到达某一任务的运行时间后,就向脚本解析服务器30发送一个任务请求。
所述脚本解析服务器30连接有排程服务器20和网络50,用于接收排程服务器20发送的任务请求,对该任务进行解析,即根据XQuery脚本文件中设置的该任务对应需要解析的网页及节点,对XQuery脚本文件进行解析,获取网页中该节点对应的数据。通过解析该任务从网络50的网页中获取该任务需要查询的数据,然后将查询得到的数据保存在数据库40中。如果多个任务的运行时间相同,脚本解析服务器30会同时对多个任务的XQuery脚本文件进行解析。 在本实施例中,将以多个任务的运行时间相同进行描述。
如图2所示,是本发明多任务解析系统较佳实施例的功能模块关联图。所述任务管理计算机10包括任务设置模块110及注册模块111。所述排程服务器20包括发送模块210。所述脚本解析服务器30包括脚本载入模块310,脚本解析模块311及合并模块312。本发明所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,因此在本发明对软件描述中都以模块描述。
首先,用户通过任务设置模块110在任务管理计算机10中设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库40中。所述任务的运行时间可以设定为每天的固定时间点,其中,一个任务可以包括多个XQuery脚本文件,所述XQuery脚本文件中设置有每个任务对应需要解析的网页及节点。然后,注册模块111将所述任务注册到排程服务器20中。当到达所述任务的运行时间后,排程服务器20中的发送模块210向脚本解析服务器30发送任务请求。脚本解析服务器30接收所述任务请求后,脚本载入模块310从数据库40中载入所述任务对应的XQuery脚本文件。
脚本解析模块311根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对多个任务的XQuery脚本文件同时进行解析,从网络50的网页中获取每个节点对应的数据。
当脚本解析模块311解析完所述任务对应需要解析的XQuery脚本文件后,合并模块312将每个任务的XQuery脚本文件解析得到的数据合并在一起,得到每个任务所需的数据,并将每个任务的数据存储到数据库40中。例如,任务A包括脚本script 1及script 2,任务B包括脚本script 3及script 4。当脚本解析模块311解析完脚本script1、script 2、script 3及script 4,合并模块312将任务A的脚本script 1及script 2解析得到的数据合并在一起,得到任务A所需的数据,将任务B的脚本script 3及script 4解析得到的数据合并在一起,得到任务B所需的数据,并将任务A和任务B的数据存储到数据库40中。
在对XQuery脚本文件进行解析时,脚本解析模块311会判断网络连接是否中断,当出现网络连接中断的情形时,脚本解析模块311会重新开始解析XQuery脚本文件。
如图3所示,是本发明多任务解析方法较佳实施例的流程图。首先,步骤S401,用户通过任务设置模块110在任务管理计算机10中设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库40中。所述任务的运行时间可以设定为每天的固定时间点,其中,一个任务可以包括多个XQuery脚本文件,所述XQuery脚本文件中设置有每个任务对应需要解析的网页及节点。
步骤S402,注册模块111将所述任务注册到排程服务器20中。
步骤S403,当到达所述任务的运行时间后,排程服务器20中的发送模块210向脚本解析服务器30发送任务请求。
步骤S404,脚本解析服务器30接收所述任务请求后,脚本载入模块310从数据库40中载入所述任务对应的XQuery脚本文件。
步骤S405,脚本解析模块311根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对多个任务的XQuery脚本文件同时进行解析,从网络50的网页中获取每个节点对应的数据。
步骤S406,当脚本解析模块311解析完所述任务对应需要解析的XQuery脚本文件后,合并模块312将每个任务的XQuery脚本文件解析得到的数据合并在一起,得到每个任务所需的数据,并将每个任务的数据存储到数据库40中。
在对XQuery脚本文件进行解析时,脚本解析模块311会判断网络连接是否中断,当出现网络连接中断的情形时,脚本解析模块311会重新开始解析XQuery脚本文件。
Claims (6)
1.一种多任务解析系统,包括任务管理计算机、排程服务器、脚本解析服务器及数据库,其特征在于,所述数据库中存储有XQuery脚本文件,所述XQuery脚本文件中设置有待解析的网页及节点,该节点代表网页所包含的数据类型,所述任务管理计算机包括:
任务设置模块,用于设置多个任务的XQuery脚本文件及所述多个任务的运行时间,并将XQuery脚本文件存储到数据库中,每一任务包括一个或多个XQuery脚本文件;及
注册模块,用于将所述多个任务注册到排程服务器中;
所述排程服务器包括:
发送模块,用于在到达所述多个任务的运行时间后,向脚本解析服务器发送任务请求;
所述脚本解析服务器包括:
脚本载入模块,用于从数据库中载入所述多个任务对应的XQuery脚本文件;
脚本解析模块,用于根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;及
合并模块,用于将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
2.如权利要求1所述的多任务解析系统,其特征在于,所述多个任务的运行时间相同。
3.如权利要求1所述的多任务解析系统,其特征在于,所述脚本解析模块还用于:在对XQuery脚本文件进行解析时,判断网络连接是否中断,如果网络连接中断,则重新开始解析XQuery脚本文件。
4.一种多任务解析方法,其特征在于,该方法包括如下步骤:
设置多个任务的XQuery脚本文件及所述多个任务的运行时间,并将XQuery脚本文件存储到数据库中,每一任务包括一个或多个XQuery脚本文件;
将所述多个任务注册到排程服务器中;
在到达所述多个任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;
脚本解析服务器接收所述任务请求后,从数据库中载入所述多个任务对应的XQuery脚本文件;
根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据,该节点代表网页所包含的数据类型;及
将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
5.如权利要求4所述的多任务解析方法,其特征在于,所述多个任务的运行时间相同。
6.如权利要求4所述的多任务解析方法,其特征在于,在对XQuery脚本文件进行解析时,如果网络连接中断,则重新开始解析XQuery脚本文件。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101577134A CN101206649B (zh) | 2006-12-20 | 2006-12-20 | 多任务解析系统及方法 |
US11/770,756 US7596557B2 (en) | 2006-12-20 | 2007-06-29 | System and method for filtering XML files |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2006101577134A CN101206649B (zh) | 2006-12-20 | 2006-12-20 | 多任务解析系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101206649A CN101206649A (zh) | 2008-06-25 |
CN101206649B true CN101206649B (zh) | 2011-06-22 |
Family
ID=39544365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2006101577134A Expired - Fee Related CN101206649B (zh) | 2006-12-20 | 2006-12-20 | 多任务解析系统及方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US7596557B2 (zh) |
CN (1) | CN101206649B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7487134B2 (en) * | 2005-10-25 | 2009-02-03 | Caterpillar Inc. | Medical risk stratifying method and system |
CN101770502A (zh) * | 2009-12-30 | 2010-07-07 | 深圳市同洲电子股份有限公司 | 一种脚本处理的方法、装置和嵌入式浏览器 |
CN108008937A (zh) * | 2017-12-14 | 2018-05-08 | 携程计算机技术(上海)有限公司 | 流程图的绘制方法及系统 |
CN108880949A (zh) * | 2018-09-26 | 2018-11-23 | 郑州云海信息技术有限公司 | 一种基于云平台的信息解析的方法和装置 |
CN113918576B (zh) * | 2021-12-13 | 2022-03-22 | 北京宇信科技集团股份有限公司 | 一种元数据管理平台及管理方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291063A (zh) * | 2000-07-11 | 2001-04-11 | 深圳黎明电脑网络有限公司 | 扩展标记语言(xml)数据信息的交换方法 |
CN1560763A (zh) * | 2004-02-19 | 2005-01-05 | 北京大学 | 一种可扩展标记语言路径查询翻译为结构查询的方法 |
CN1614594A (zh) * | 2003-11-07 | 2005-05-11 | 国际商业机器公司 | Xml文档的聚类方法和系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7013289B2 (en) * | 2001-02-21 | 2006-03-14 | Michel Horn | Global electronic commerce system |
US7991786B2 (en) * | 2003-11-25 | 2011-08-02 | International Business Machines Corporation | Using intra-document indices to improve XQuery processing over XML streams |
US20080027782A1 (en) * | 2006-04-07 | 2008-01-31 | Juliana Freire | Managing provenance of the evolutionary development of workflows |
US8151323B2 (en) * | 2006-04-12 | 2012-04-03 | Citrix Systems, Inc. | Systems and methods for providing levels of access and action control via an SSL VPN appliance |
-
2006
- 2006-12-20 CN CN2006101577134A patent/CN101206649B/zh not_active Expired - Fee Related
-
2007
- 2007-06-29 US US11/770,756 patent/US7596557B2/en not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1291063A (zh) * | 2000-07-11 | 2001-04-11 | 深圳黎明电脑网络有限公司 | 扩展标记语言(xml)数据信息的交换方法 |
CN1614594A (zh) * | 2003-11-07 | 2005-05-11 | 国际商业机器公司 | Xml文档的聚类方法和系统 |
CN1560763A (zh) * | 2004-02-19 | 2005-01-05 | 北京大学 | 一种可扩展标记语言路径查询翻译为结构查询的方法 |
Non-Patent Citations (1)
Title |
---|
CN 1560763 A,全文. |
Also Published As
Publication number | Publication date |
---|---|
CN101206649A (zh) | 2008-06-25 |
US7596557B2 (en) | 2009-09-29 |
US20080154881A1 (en) | 2008-06-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102317535B1 (ko) | 소프트웨어 개발 키트로 데이터 추적을 구현하는 방법 및 시스템 | |
JP5298117B2 (ja) | 分散コンピューティングにおけるデータマージング | |
US20140108087A1 (en) | Log management system and log management method | |
WO2012131927A1 (ja) | 計算機システム及びデータ管理方法 | |
CN105550268A (zh) | 大数据流程建模分析引擎 | |
CN101206649B (zh) | 多任务解析系统及方法 | |
CN103853743A (zh) | 一种分布式系统及其日志查询方法 | |
CN110134738B (zh) | 分布式存储系统资源预估方法、装置 | |
CN104050261A (zh) | 基于Storm的可变逻辑的通用数据处理系统及方法 | |
CN101853466A (zh) | 一种计算机显示快速更新报价信息的方法 | |
CN103473696A (zh) | 一种收集、分析和分发网络商业信息的方法和系统 | |
CN101551760A (zh) | 用于并行化的数据转换过程的表示 | |
CN103207882A (zh) | 店铺访问数据处理方法及系统 | |
CN110580189A (zh) | 生成前端页面的方法、装置、计算机设备以及存储介质 | |
CN104462179A (zh) | 处理大数据的方法、执行其的装置以及储存其的存储媒介 | |
CN103927314A (zh) | 一种数据批量处理的方法和装置 | |
CN113901078A (zh) | 业务订单关联查询方法、装置、设备及存储介质 | |
CN109753596A (zh) | 用于大规模网络数据采集的信源管理与配置方法和系统 | |
CN1983313A (zh) | 工作流数据处理装置及方法 | |
CN109586970B (zh) | 资源分配方法、装置及系统 | |
CN113268530A (zh) | 海量异构数据采集方法、系统、计算机设备和存储介质 | |
CN101495978B (zh) | 减少总线连接的消费者和产生者之间的消息流 | |
CN113434311A (zh) | 业务数据交互方法、装置、设备及存储介质 | |
CN111026796A (zh) | 多源异构数据采集方法、装置、系统、介质和设备 | |
KR100974621B1 (ko) | Rfid 비즈니스 인식 프레임워크 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110622 Termination date: 20141220 |
|
EXPY | Termination of patent right or utility model |