CN101206649A - 多任务解析系统及方法 - Google Patents

多任务解析系统及方法 Download PDF

Info

Publication number
CN101206649A
CN101206649A CNA2006101577134A CN200610157713A CN101206649A CN 101206649 A CN101206649 A CN 101206649A CN A2006101577134 A CNA2006101577134 A CN A2006101577134A CN 200610157713 A CN200610157713 A CN 200610157713A CN 101206649 A CN101206649 A CN 101206649A
Authority
CN
China
Prior art keywords
task
xquery
script file
tasks
script
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006101577134A
Other languages
English (en)
Other versions
CN101206649B (zh
Inventor
李忠一
叶建发
卢秋桦
陈旭纯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2006101577134A priority Critical patent/CN101206649B/zh
Priority to US11/770,756 priority patent/US7596557B2/en
Publication of CN101206649A publication Critical patent/CN101206649A/zh
Application granted granted Critical
Publication of CN101206649B publication Critical patent/CN101206649B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种多任务解析系统及方法,该方法包括如下步骤:设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库中;将所述任务注册到排程服务器中;在到达所述任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;脚本解析服务器接收所述任务请求后,从数据库中载入所述任务对应的XQuery脚本文件;根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。利用本发明可以对多个任务的XQuery脚本文件同时进行解析。

Description

多任务解析系统及方法
技术领域
本发明涉及一种多任务解析系统及方法,尤其涉及一种XQuery多任务解析系统及方法。
背景技术
随着XML(Extensible Markup Language,可扩展标记语言)越来越成熟,目前已成为数据存储、共享及处理的主要形式,需要有新的工具和系统来提高XML的灵活性。其中一个需要提高的重要方面是怎样提高查询XML数据的能力。具体地说,随着互联网络的普及,许多数据都以XML格式存在于网页中,怎样从这些XML网页中查询想要的数据变得越来越重要。
XQuery是用来查询和操纵XML数据或任何能以XML形式出现的数据,如关系型数据库。XQuery提供了解析XML的功能,可以对查询任务进行解析,但由于网络信息量巨大而且复杂,XQuery对查询任务的解析效率有待提高。
发明内容
鉴于以上内容,有必要提供一种多任务解析系统,其可对多个任务的XQuery脚本文件同时进行解析。
鉴于以上内容,还有必要提供一种多任务解析方法,其可对多个任务的XQuery脚本文件同时进行解析。
一种多任务解析系统,包括任务管理计算机、排程服务器、脚本解析服务器及数据库,所述数据库中存储有XQuery脚本文件,所述Xquery脚本文件中设置有每一个任务对应需要解析的网页及节点,所述任务管理计算机包括:任务设置模块,用于设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库中;注册模块,用于将所述任务注册到排程服务器中;所述排程服务器包括:发送模块,用于在到达所述任务的运行时间后,向脚本解析服务器发送任务请求;所述脚本解析服务器包括:脚本载入模块,用于从数据库中载入所述任务对应的XQuery脚本文件;脚本解析模块,用于根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;及合并模块,用于将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
一种多任务解析方法,包括如下步骤:设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库中;将所述任务注册到排程服务器中;在到达所述任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;脚本解析服务器接收所述任务请求后,从数据库中载入所述任务对应的XQuery脚本文件;根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
相较于现有技术,所述的多任务解析系统及方法,可以对多个任务的XQuery脚本文件同时进行解析,提高了任务解析的效率。
附图说明
图1是本发明多任务解析系统较佳实施例的系统架构图。
图2是本发明多任务解析系统较佳实施例的功能模块关联图。
图3是本发明多任务解析方法较佳实施例的流程图。
具体实施方式
如图1所示,是本发明多任务解析系统较佳实施例的系统架构图。该系统主要包括任务管理计算机10、排程服务器20、脚本解析服务器30、数据库40及网络50。
所述数据库40连接有任务管理计算机10和脚本解析服务器30,用于存储XQuery脚本文件及脚本解析服务器30对任务进行解析后得到的数据。所述XQuery脚本文件中设置有每一个任务对应需要解析的网页及节点(该节点代表网页所包含的数据类型),对该XQuery脚本文件进行解析,可以获取这些网页中该节点对应的数据,所述网页可以XML格式。由于网页中含有大量的数据,有些数据是不重要的(比如一些广告),在对网页中的数据进行分析时,需要过滤那些不重要的数据,只获取查询任务想要查询的数据。通过在XQuery脚本文件中设置每一个任务对应需要解析的网页及节点,当脚本解析服务器30对该XQuery脚本文件进行解析时,只获取网页中该节点对应的数据。
所述任务管理计算机10连接有排程服务器20,用于设置不同任务的XQuery脚本文件及该任务的运行时间,其中,一个任务可以包括多个XQuery脚本文件,对任务进行解析即对该任务对应的XQuery脚本文件进行解析。所述任务可以是一个查询请求,例如,定期从网络50连接的网页中搜寻所需的技术情报,所述网络50可以是国际互联网络或局域网络。当设定好一个任务后,再将该任务注册到排程服务器20中。所述排程服务器20用于管理排程,其中,一个排程可以包括多个任务,用于排定任务管理计算机10设置的任务的运行时间,当到达某一任务的运行时间后,就向脚本解析服务器30发送一个任务请求。
所述脚本解析服务器30连接有排程服务器20和网络50,用于接收排程服务器20发送的任务请求,对该任务进行解析,即根据XQuery脚本文件中设置的该任务对应需要解析的网页及节点,对XQuery脚本文件进行解析,获取网页中该节点对应的数据。通过解析该任务从网络50的网页中获取该任务需要查询的数据,然后将查询得到的数据保存在数据库40中。如果多个任务的运行时间相同,脚本解析服务器30会同时对多个任务的XQuery脚本文件进行解析。在本实施例中,将以多个任务的运行时间相同进行描述。
如图2所示,是本发明多任务解析系统较佳实施例的功能模块关联图。所述任务管理计算机10包括任务设置模块110及注册模块111。所述排程服务器20包括发送模块210。所述脚本解析服务器30包括脚本载入模块310,脚本解析模块311及合并模块312。本发明所称的模块是完成一特定功能的计算机程序段,比程序更适合于描述软件在计算机中的执行过程,因此在本发明对软件描述中都以模块描述。
首先,用户通过任务设置模块110在任务管理计算机10中设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库40中。所述任务的运行时间可以设定为每天的固定时间点,其中,一个任务可以包括多个XQuery脚本文件,所述XQuery脚本文件中设置有每个任务对应需要解析的网页及节点。然后,注册模块111将所述任务注册到排程服务器20中。当到达所述任务的运行时间后,排程服务器20中的发送模块210向脚本解析服务器30发送任务请求。脚本解析服务器30接收所述任务请求后,脚本载入模块310从数据库40中载入所述任务对应的XQuery脚本文件。
脚本解析模块311根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对多个任务的XQuery脚本文件同时进行解析,从网络50的网页中获取每个节点对应的数据。
当脚本解析模块311解析完所述任务对应需要解析的XQuery脚本文件后,合并模块312将每个任务的XQuery脚本文件解析得到的数据合并在一起,得到每个任务所需的数据,并将每个任务的数据存储到数据库40中。例如,任务A包括脚本script 1及script 2,任务B包括脚本script 3及script 4。当脚本解析模块311解析完脚本script1、script 2、script 3及script 4,合并模块312将任务A的脚本script 1及script 2解析得到的数据合并在一起,得到任务A所需的数据,将任务B的脚本script 3及script 4解析得到的数据合并在一起,得到任务B所需的数据,并将任务A和任务B的数据存储到数据库40中。
在对XQuery脚本文件进行解析时,脚本解析模块311会判断网络连接是否中断,当出现网络连接中断的情形时,脚本解析模块311会重新开始解析XQuery脚本文件。
如图3所示,是本发明多任务解析方法较佳实施例的流程图。首先,步骤S401,用户通过任务设置模块110在任务管理计算机10中设置多个任务的XQuery脚本文件及所述任务的运行时间,并将XQuery脚本文件存储到数据库40中。所述任务的运行时间可以设定为每天的固定时间点,其中,一个任务可以包括多个XQuery脚本文件,所述XQuery脚本文件中设置有每个任务对应需要解析的网页及节点。
步骤S402,注册模块111将所述任务注册到排程服务器20中。
步骤S403,当到达所述任务的运行时间后,排程服务器20中的发送模块210向脚本解析服务器30发送任务请求。
步骤S404,脚本解析服务器30接收所述任务请求后,脚本载入模块310从数据库40中载入所述任务对应的XQuery脚本文件。
步骤S405,脚本解析模块311根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对多个任务的XQuery脚本文件同时进行解析,从网络50的网页中获取每个节点对应的数据。
步骤S406,当脚本解析模块311解析完所述任务对应需要解析的XQuery脚本文件后,合并模块312将每个任务的XQuery脚本文件解析得到的数据合并在一起,得到每个任务所需的数据,并将每个任务的数据存储到数据库40中。
在对XQuery脚本文件进行解析时,脚本解析模块311会判断网络连接是否中断,当出现网络连接中断的情形时,脚本解析模块311会重新开始解析XQuery脚本文件。

Claims (6)

1.一种多任务解析系统,包括任务管理计算机、排程服务器、脚本解析服务器及数据库,其特征在于,所述数据库中存储有XQuery脚本文件,所述Xquery脚本文件中设置有待解析的网页及节点,所述任务管理计算机包括:
任务设置模块,用于设置多个任务的XQuery脚本文件及所述多个任务的运行时间,并将XQuery脚本文件存储到数据库中,每一任务包括一个或多个XQuery脚本文件;及
注册模块,用于将所述多个任务注册到排程服务器中;
所述排程服务器包括:
发送模块,用于在到达所述多个任务的运行时间后,向脚本解析服务器发送任务请求;
所述脚本解析服务器包括:
脚本载入模块,用于从数据库中载入所述多个任务对应的XQuery脚本文件;
脚本解析模块,用于根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;及
合并模块,用于将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
2.如权利要求1所述的多任务解析系统,其特征在于,所述多个任务的运行时间相同。
3.如权利要求1所述的多任务解析系统,其特征在于,所述脚本解析模块还用于:在对Xquery脚本文件进行解析时,判断网络连接是否中断,如果网络连接中断,则重新开始解析Xquery脚本文件。
4.一种多任务解析方法,其特征在于,该方法包括如下步骤:
设置多个任务的XQuery脚本文件及所述多个任务的运行时间,并将XQuery脚本文件存储到数据库中,每一任务包括一个或多个XQuery脚本文件;
将所述多个任务注册到排程服务器中;
在到达所述多个任务的运行时间后,排程服务器向脚本解析服务器发送任务请求;
脚本解析服务器接收所述任务请求后,从数据库中载入所述多个任务对应的XQuery脚本文件;
根据XQuery脚本文件中设置的每个任务对应需要解析的网页及节点,对所述多个任务的XQuery脚本文件同时进行解析,从网页中获取每个节点对应的数据;及
将每个任务的XQuery脚本文件解析得到的数据合并在一起,并将每个任务的数据存储到数据库中。
5.如权利要求4所述的多任务解析方法,其特征在于,所述多个任务的运行时间相同。
6.如权利要求4所述的多任务解析方法,其特征在于,在对Xquery脚本文件进行解析时,如果网络连接中断,则重新开始解析Xquery脚本文件。
CN2006101577134A 2006-12-20 2006-12-20 多任务解析系统及方法 Expired - Fee Related CN101206649B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006101577134A CN101206649B (zh) 2006-12-20 2006-12-20 多任务解析系统及方法
US11/770,756 US7596557B2 (en) 2006-12-20 2007-06-29 System and method for filtering XML files

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006101577134A CN101206649B (zh) 2006-12-20 2006-12-20 多任务解析系统及方法

Publications (2)

Publication Number Publication Date
CN101206649A true CN101206649A (zh) 2008-06-25
CN101206649B CN101206649B (zh) 2011-06-22

Family

ID=39544365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006101577134A Expired - Fee Related CN101206649B (zh) 2006-12-20 2006-12-20 多任务解析系统及方法

Country Status (2)

Country Link
US (1) US7596557B2 (zh)
CN (1) CN101206649B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011079733A1 (zh) * 2009-12-30 2011-07-07 深圳市同洲电子股份有限公司 一种脚本处理的方法、装置和嵌入式浏览器
CN108008937A (zh) * 2017-12-14 2018-05-08 携程计算机技术(上海)有限公司 流程图的绘制方法及系统
CN108880949A (zh) * 2018-09-26 2018-11-23 郑州云海信息技术有限公司 一种基于云平台的信息解析的方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7487134B2 (en) * 2005-10-25 2009-02-03 Caterpillar Inc. Medical risk stratifying method and system
CN113918576B (zh) * 2021-12-13 2022-03-22 北京宇信科技集团股份有限公司 一种元数据管理平台及管理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1185906C (zh) * 2000-07-11 2005-01-19 深圳黎明电脑网络有限公司 扩展标记语言(xml)数据信息的交换方法
US7013289B2 (en) * 2001-02-21 2006-03-14 Michel Horn Global electronic commerce system
US7512615B2 (en) * 2003-11-07 2009-03-31 International Business Machines Corporation Single pass workload directed clustering of XML documents
US7991786B2 (en) 2003-11-25 2011-08-02 International Business Machines Corporation Using intra-document indices to improve XQuery processing over XML streams
CN1560763B (zh) * 2004-02-19 2010-05-05 北京大学 一种可扩展标记语言路径查询翻译为结构查询的方法
US20080027782A1 (en) * 2006-04-07 2008-01-31 Juliana Freire Managing provenance of the evolutionary development of workflows
US8151323B2 (en) * 2006-04-12 2012-04-03 Citrix Systems, Inc. Systems and methods for providing levels of access and action control via an SSL VPN appliance

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011079733A1 (zh) * 2009-12-30 2011-07-07 深圳市同洲电子股份有限公司 一种脚本处理的方法、装置和嵌入式浏览器
CN108008937A (zh) * 2017-12-14 2018-05-08 携程计算机技术(上海)有限公司 流程图的绘制方法及系统
CN108880949A (zh) * 2018-09-26 2018-11-23 郑州云海信息技术有限公司 一种基于云平台的信息解析的方法和装置

Also Published As

Publication number Publication date
US20080154881A1 (en) 2008-06-26
US7596557B2 (en) 2009-09-29
CN101206649B (zh) 2011-06-22

Similar Documents

Publication Publication Date Title
JP5298117B2 (ja) 分散コンピューティングにおけるデータマージング
JP5342087B2 (ja) 計算機システム及びデータ管理方法
US20140108087A1 (en) Log management system and log management method
CN102880503A (zh) 数据分析系统及数据分析方法
CN105550268A (zh) 大数据流程建模分析引擎
CN101206649B (zh) 多任务解析系统及方法
CN110134738B (zh) 分布式存储系统资源预估方法、装置
CN101853466A (zh) 一种计算机显示快速更新报价信息的方法
CN101551760A (zh) 用于并行化的数据转换过程的表示
CN103136364A (zh) 集群数据库系统及其数据查询处理方法
CN103207882A (zh) 店铺访问数据处理方法及系统
CN101661584A (zh) 动态订单工作流模板实例器和解耦合器
CN110580189A (zh) 生成前端页面的方法、装置、计算机设备以及存储介质
CN104462179A (zh) 处理大数据的方法、执行其的装置以及储存其的存储媒介
CN113901078A (zh) 业务订单关联查询方法、装置、设备及存储介质
KR20150017052A (ko) 워크플로우의 실행 방법 및 시스템
CN109753596A (zh) 用于大规模网络数据采集的信源管理与配置方法和系统
CN102043679A (zh) 一种获取应用系统性能分析数据的方法与系统
CN113434311B (zh) 业务数据交互方法、装置、设备及存储介质
CN1983313A (zh) 工作流数据处理装置及方法
CN109586970B (zh) 资源分配方法、装置及系统
CN113268530A (zh) 海量异构数据采集方法、系统、计算机设备和存储介质
CN104834730A (zh) 数据分析系统和方法
CN111026796A (zh) 多源异构数据采集方法、装置、系统、介质和设备
KR100974621B1 (ko) Rfid 비즈니스 인식 프레임워크

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110622

Termination date: 20141220

EXPY Termination of patent right or utility model