CN101211336A - 可视化生成查询文件的系统及方法 - Google Patents

可视化生成查询文件的系统及方法 Download PDF

Info

Publication number
CN101211336A
CN101211336A CNA2006100646033A CN200610064603A CN101211336A CN 101211336 A CN101211336 A CN 101211336A CN A2006100646033 A CNA2006100646033 A CN A2006100646033A CN 200610064603 A CN200610064603 A CN 200610064603A CN 101211336 A CN101211336 A CN 101211336A
Authority
CN
China
Prior art keywords
file
xml
xml document
document dbject
dbject model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2006100646033A
Other languages
English (en)
Other versions
CN101211336B (zh
Inventor
李忠一
叶建发
卢秋桦
肖伟清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Original Assignee
Hongfujin Precision Industry Shenzhen Co Ltd
Hon Hai Precision Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hongfujin Precision Industry Shenzhen Co Ltd, Hon Hai Precision Industry Co Ltd filed Critical Hongfujin Precision Industry Shenzhen Co Ltd
Priority to CN2006100646033A priority Critical patent/CN101211336B/zh
Priority to US11/930,169 priority patent/US20080163077A1/en
Publication of CN101211336A publication Critical patent/CN101211336A/zh
Application granted granted Critical
Publication of CN101211336B publication Critical patent/CN101211336B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/84Mapping; Conversion
    • G06F16/88Mark-up to mark-up conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种可视化生成查询文件的系统,该系统包括:文件模型建立模块,用于将用户访问网络所打开的网页内容修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型为标准的W3C文件对象模型;可视化编辑模块,用于将上述网页表现成可视化且可编辑的基本组件;XPath表达式生成模块,用于分析用户在上述可编辑的网页上选取的基本组件并根据所述基本组件在XML文件对象模型中的位置生成Xpath表达式;查询文件合成模块,用于根据生成的每个XPath表达式在XML文件对象模型中的位置关系组合成一个符合Xquery标准的查询文件。本发明还提供一种可视化生成查询文件的方法。本发明可使用户按照需求可视化的选择提取内容,自动分析选中内容生成XPath表达式,再将该生成的XPath表达式合成一个查询文件。

Description

可视化生成查询文件的系统及方法
技术领域
本发明涉及一种可视化生成查询文件的系统及方法。
背景技术
目前W3C(World Wide Web Consortium)标准已经成为高端客户设计网站的首选。该标准是国际上的通用标准,符合此标准的网站,能用任何浏览器来浏览您的网站。比如,我们知道国内上网者中,用IE浏览器的比较多,但从国内或全世界的上网客户来看,有些客户并不是用IE来上网浏览内容的,他们会用一些其它的浏览工具如:Netscape,Mozilla,FireFox,Opera等,如果网站采用的不是W3C标准,那么使用其它浏览器的用户,就无法看到该网站。
W3C拥有XML Path Language(XPath)Version 1.0规范,XPath是W3C定义的语言和正式的W3C推荐,XPath语言提供了用于从XML文档选择节点的简单、简洁的语法。XPath还提供了将XML文件对象模型(DOM,Document Object Model)树中的节点转换为布尔值、double值或字符串值的规则。Xpath是一种非XML的语法,其可用于定位文件中的第三个位址(address)元素。
文件对象模型是一种以树状图为基础的应用编程接口(ApplicationProgramming Interface,API),将XML文件看作一种不同属性的巢状物件集合。XML文件对象模型将网页上的基本组件(如图形、文字、表格)都当成是对象,在使用时只要为卷标设定一个ID(辨识名称),就可以其当成对象来使用。因此,网页设计者在撰写Html文件时,只要为卷标设定一个ID,就可以将Html卷标所标示的内容当作对象来用。DOM是W3C制订的规范,目的在建立一种共通的方式,好让程序能将文件当成一组对象来存取。
XQuery是用于从XML文件中抽取单个项目或一组项目的查询语言。XQuery与XML的关系正像SQL与关系数据库的关系。
原来编写Xquery文件大多是采用文本的编辑方式,编写查询网页资料非常不方便。
发明内容
鉴于以上内容,本发明提供一种可视化生成查询文件的系统,该系统安装在计算机上,用户通过该计算机访问网络。该系统包括:文件模型建立模块,用于将用户访问网络所打开的网页内容修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型为标准的W3C文件对象模型;可视化编辑模块,用于将上述网页表现成可视化且可编辑的基本组件;XPath表达式生成模块,用于分析用户在上述可编辑的网页上选取的基本组件并根据所述基本组件在XML文件对象模型中的位置生成Xpath表达式;查询文件合成模块,用于根据生成的每个XPath表达式在XML文件对象模型中的位置关系组合成一个符合Xquery标准的查询文件。
本发明还提供一种可视化生成查询文件的方法,该方法包括步骤:将一个网页文件修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型为标准的W3C文件对象模型;将该网页上的基本组件表现为可编辑的状态;依次接收用户在该可视化编辑状态的网页页面上所选择的需要提取的基本组件,分析所述每个基本组件在上述XML文件对象模型中的位置,根据分析的位置生成每个基本组件对应的XPath表达式;根据上述每个XPath表达式在该XML文件对象模型中的的位置关系组合成一个符合Xquery标准的查询文件。
本发明可使用户按照需求可视化的选择提取内容,自动分析选中内容生成XPath表达式,再将该生成的XPath表达式合成一个查询文件,方便用户后续查询作业。
附图说明
图1为本发明可视化生成查询文件的系统的功能模块图。
图2为本发明可视化生成查询文件的方法的较佳实施例的流程图。
图3为本发明可视化生成查询文件系统的一个可视化编辑页面的示意图。
具体实施方式
参阅图1所示,为本发明可视化生成查询文件的系统的功能模块图。该系统11运行在计算机10中,该计算机10连接互联网,用户可通过该计算机10上网浏览网页。其中,该系统11包括文件模型建立模块111,可视化编辑模块112、XPath表达式生成模块113及查询文件合成模块114。
该文件模型建立模块111用于根据用户打开的网页内容建立XML文件对象模型(Document Object Model,DOM),该XML文件对象模型为标准的W3C文件对象模型。
其中,用户打开的网页内容是一个Html文件,Html是目前在Web上制作超级链接文件(Hypertext)的通用格式。然后再利用XHtml(The eXtensible Hypertext Markup Language)将该Html文件修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型即为标准的W3C文件对象模型。该XML文件对象模型是由一组代表XML文件中不同基本组件的程序设计对象所组成,其以阶层式的树状数据结构来储存该XML文件数据。该XML文件对象模型将网页上的基本组件都当成是对象,该基本组件包括图形、文字、表格。其中DOM是W3C制订的规范,目的在建立一种共通的方式,可方便地让程序能将文件当成一组对象来存取。原本在计算机中,信息通讯被组成一组对象,但在传输时被视为一份文件。
在XML文件对象模型中,将代表XML文件的程序设计对象,称为节点(nodes)。当Internet Explorer 5处理被链接的XML文件并储存于XML文件对象模型中时,它会为XML文件的每一个基本组件建立一个节点。这些基本组件包括了元素、属性,XML文件对象模型会使用不同形态的节点来代表不同形态的XML文件中的基本组件。例如,元素是储存在Element节点中,而属性则是储存在Attribute节点中。
可以从节点中的nodeName属性获得每个节点的名称。这个名称是以字符#起始,代表那些未在文件中命名的XML文件中的基本组件节点的标准名称。例如,在XML文件中的批注并未命名,因此,XML文件对象模型将使用标准名称#comment。其它节点的名称则是由指定到XML文件中相对应基本组件的名称衍生而来。
还可以从节点的nodeValue属性取得每个节点的节点值。如果XML基本组件拥有一个相关的值,例如属性,该值将会被储存于节点的节点值中。如果XML基本组件并没有节点值,例如元素,则XML文件对象模型将会把节点值设成null。
XML文件对象模型将XML文件的节点建构成树状的阶层结构,反映出XML文件本身的阶层结构。XML文件对象模型将会建立一个单一文件节点来表示整个XML文件,并将其视为阶层结构的根节点。XML元素的逻辑阶层结构,包含了整个XML文件;结构中的根节点,只是XML文件对象模型中节点的阶层结构的一个分枝。每个节点,就像可程序化的对象,提供了属性和方法,让你可以存取、显示、管理,和取得对应到XML基本组件上的信息。
该可视化编辑模块112用于将上述网页表现成可视化且可编辑的基本组件,即将该对应网页页面上的图形、表格(table)、栏位(field)等基本组件以所见即所得的编辑方式呈现在用户面前,该网页上的基本组件与所述XML文件对象模型中的基本组件是一一对应的。见图3所示,为一个网页的可视化编辑形式。
该XPath表达式生成模块113用于分析用户在上述可编辑的网页上选取的基本组件并根据该基本组件在所述该网页对应的XML文件对象模型(DOM)中的位置生成Xpath表达式。如在图3中所选择的一个基本组件,该Xpath表达式生成模块113分析该基本组件在所述XML文件对象模型中所处的节点(node)位置,采用递归的方法,从该节点位置依次往上递归寻找该节点的父节点,直到找到该XML文件对象模型的根节点处。Xpath是W3C通用查询语言规范,用于对XML文件的某些部分进行寻址。
该查询文件合成模块114用于根据生成的每个XPath表达式在所述XML文件对象模型中的位置关系组合成一个符合Xquery标准的文本文件,该文本文件即是所需要的查询文件。
参阅图2所示,为本发明可视化生成查询文件的方法的较佳实施例的流程图。首先,步骤S300,用户打开一个网页文件,该网页文件是一个Html文件。
步骤S302,文件模型建立模块111将该Html网页文件修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型即为标准的W3C文件对象模型。该XML文件对象模型以阶层式的树状数据结构来储存XML文件数据。在建立文件模型过程中,该XML文件的节点被建构成树状的阶层结构,反映出XML文件本身的阶层结构。其中建立一个单一文件节点来表示整个XML文件,并将其视为阶层结构的根节点。XML元素的逻辑阶层结构,包含了整个XML文件;结构中的根节点,只是该XML文件对象模型中节点的阶层结构的一个分枝。每个节点,就像可程序化的对象,提供了属性和方法,让你可以存取、显示、管理,和取得对应到XML组件上的信息。
步骤S304,可视化编辑模块112将该Html网页上的组件如图形、文字、表格、栏位等表现为可编辑的状态,如图3所示。
步骤S306,用户在该可视化编辑状态的网页页面上选择需要提取的基本组件,如图形、文字或表格。
步骤S308,XPath表达式生成模块113接收用户所选择的基本组件,分析该基本组件在上述XML文件对象模型中的位置,也即是分析该所选择的基本组件在所述阶层式的树状数据结构中具体位置。如采用递归的方法在该XML文件对象模型中寻找该基本组件所对应节点的父节点,直到找到该XML文件对象模型的根节点处。再根据所分析的该基本组件的位置生成该基本组件的XPath表达式。若用户需要选择多个基本组件,则重复步骤S306及步骤S308。
步骤S310,查询文件生成模块114根据上述每个XPath表达式在XML文件对象模型中的位置关系组合成一个符合Xquery标准的文本文件,该文本文件即是所需要的查询文件。

Claims (6)

1.一种可视化生成查询文件的系统,该系统安装在计算机上,用户通过该计算机访问网络,其特征在于,该系统包括:
文件模型建立模块,用于将用户访问网络所打开的网页内容修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型为标准的W3C文件对象模型;
可视化编辑模块,用于将上述网页表现成可视化且可编辑的基本组件;
XPath表达式生成模块,用于分析用户在上述可编辑的网页上选取的基本组件并根据所述基本组件在XML文件对象模型中的位置生成Xpath表达式;
查询文件合成模块,用于根据生成的每个XPath表达式在XML文件对象模型中的位置关系组合成一个符合Xquery标准的查询文件。
2.如权利要求1所述的可视化生成查询文件的系统,其特征在于,该XML文件对象模型以阶层式的树状数据结构来储存XML文件数据,该树状数据结构的节点代表XML文件的基本组件。
3.如权利要求2所述的可视化生成查询文件的系统,其特征在于,该XPath表达式生成模块采用递归的方法在该XML文件对象模型中查找所选取基本组件对应的节点的父节点,直到该XML文件对象模型的根节点。
4.一种可视化生成查询文件的方法,其特征在于,该方法包括步骤:
将一个网页文件修改为符合XML语法规格的XML文件对象模型,该XML文件对象模型为标准的W3C文件对象模型;
将该网页上的基本组件表现为可编辑的状态;
依次接收用户在该可视化编辑状态的网页页面上所选择的需要提取的基本组件,分析所述每个基本组件在上述XML文件对象模型中的位置,根据分析的位置生成每个基本组件对应的XPath表达式;
根据上述每个XPath表达式在该XML文件对象模型中的的位置关系组合成一个符合Xquery标准的查询文件。
5.如权利要求4所述的可视化生成查询文件的方法,其特征在于,该XML文件对象模型以阶层式的树状数据结构储存XML文件数据,该树状数据结构的节点代表XML文件的基本组件。
6.如权利要求5所述的可视化生成查询文件的方法,其特征在于,该方法包括步骤:
采用递归的方法在该XML文件对象模型中查找所选取基本组件对应的节点的父节点,直到该XML文件对象模型的根节点。
CN2006100646033A 2006-12-29 2006-12-29 可视化生成查询文件的系统及方法 Expired - Fee Related CN101211336B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN2006100646033A CN101211336B (zh) 2006-12-29 2006-12-29 可视化生成查询文件的系统及方法
US11/930,169 US20080163077A1 (en) 2006-12-29 2007-10-31 System and method for visually generating an xquery document

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2006100646033A CN101211336B (zh) 2006-12-29 2006-12-29 可视化生成查询文件的系统及方法

Publications (2)

Publication Number Publication Date
CN101211336A true CN101211336A (zh) 2008-07-02
CN101211336B CN101211336B (zh) 2011-05-04

Family

ID=39585824

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2006100646033A Expired - Fee Related CN101211336B (zh) 2006-12-29 2006-12-29 可视化生成查询文件的系统及方法

Country Status (2)

Country Link
US (1) US20080163077A1 (zh)
CN (1) CN101211336B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763263A (zh) * 2010-01-04 2010-06-30 山东浪潮齐鲁软件产业股份有限公司 一种基于web的业务组件可视化开发工具的配置方法
CN102135976A (zh) * 2010-09-27 2011-07-27 华为技术有限公司 超文本标识语言页面结构化数据提取方法及装置
WO2012012950A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Method for selecting user desirable content from web pages
CN102750265A (zh) * 2011-08-26 2012-10-24 新奥特(北京)视频技术有限公司 一种数据替换的方法及装置
CN102760167A (zh) * 2012-06-13 2012-10-31 上海方正数字出版技术有限公司 基于粒子群优化算法的XQuery查询路径优化方法
CN102929497A (zh) * 2011-09-12 2013-02-13 微软公司 虚拟视口和具有光学缩放的固定定位
CN103810153A (zh) * 2014-02-17 2014-05-21 深圳市世纪安软信息技术有限公司 用于测温终端的测温表格生成方法及装置、测温系统
CN105224531A (zh) * 2014-05-28 2016-01-06 腾讯科技(深圳)有限公司 定位xml节点的方法和装置
CN105808260A (zh) * 2016-03-10 2016-07-27 成都神秘方块科技有限公司 一种逻辑节点树状可视化编辑游戏引擎
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9720811B2 (en) * 2011-06-29 2017-08-01 Red Hat, Inc. Unified model for visual component testing
CN105022757A (zh) * 2014-04-29 2015-11-04 腾讯科技(深圳)有限公司 网页修改方法及网页修改装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6538673B1 (en) * 1999-08-23 2003-03-25 Divine Technology Ventures Method for extracting digests, reformatting, and automatic monitoring of structured online documents based on visual programming of document tree navigation and transformation
US7886221B1 (en) * 1999-11-05 2011-02-08 Decentrix, Inc. Method and apparatus for storing web site data by web site dimensions and generating a web site having complementary elements
US20030088639A1 (en) * 2001-04-10 2003-05-08 Lentini Russell P. Method and an apparatus for transforming content from one markup to another markup language non-intrusively using a server load balancer and a reverse proxy transcoding engine
EP1430420A2 (en) * 2001-05-31 2004-06-23 Lixto Software GmbH Visual and interactive wrapper generation, automated information extraction from web pages, and translation into xml
CN1537285A (zh) * 2001-08-03 2004-10-13 �ʼҷ����ֵ��ӹɷ����޹�˾ 用于更新文档的方法和系统
US7016915B2 (en) * 2002-12-28 2006-03-21 International Business Machines Corporation Method for processing XML queries over relational data and meta-data using a relational database system
US7451392B1 (en) * 2003-06-30 2008-11-11 Microsoft Corporation Rendering an HTML electronic form by applying XSLT to XML using a solution
JP4625464B2 (ja) * 2004-04-08 2011-02-02 株式会社ジャストシステム 文書処理装置

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763263A (zh) * 2010-01-04 2010-06-30 山东浪潮齐鲁软件产业股份有限公司 一种基于web的业务组件可视化开发工具的配置方法
WO2012012950A1 (en) * 2010-07-30 2012-02-02 Hewlett-Packard Development Company, L.P. Method for selecting user desirable content from web pages
CN102135976B (zh) * 2010-09-27 2013-12-18 华为技术有限公司 超文本标识语言页面结构化数据提取方法及装置
CN102135976A (zh) * 2010-09-27 2011-07-27 华为技术有限公司 超文本标识语言页面结构化数据提取方法及装置
CN102750265A (zh) * 2011-08-26 2012-10-24 新奥特(北京)视频技术有限公司 一种数据替换的方法及装置
CN102929497A (zh) * 2011-09-12 2013-02-13 微软公司 虚拟视口和具有光学缩放的固定定位
US9588679B2 (en) 2011-09-12 2017-03-07 Microsoft Technology Licensing, Llc Virtual viewport and fixed positioning with optical zoom
CN102760167A (zh) * 2012-06-13 2012-10-31 上海方正数字出版技术有限公司 基于粒子群优化算法的XQuery查询路径优化方法
CN102760167B (zh) * 2012-06-13 2014-07-23 北大方正集团有限公司 基于粒子群优化算法的XQuery查询路径优化方法
CN103810153A (zh) * 2014-02-17 2014-05-21 深圳市世纪安软信息技术有限公司 用于测温终端的测温表格生成方法及装置、测温系统
CN105224531A (zh) * 2014-05-28 2016-01-06 腾讯科技(深圳)有限公司 定位xml节点的方法和装置
CN105808260A (zh) * 2016-03-10 2016-07-27 成都神秘方块科技有限公司 一种逻辑节点树状可视化编辑游戏引擎
CN107437158A (zh) * 2016-05-26 2017-12-05 北京京东尚科信息技术有限公司 基于浏览器插件的数据查询方法和装置

Also Published As

Publication number Publication date
CN101211336B (zh) 2011-05-04
US20080163077A1 (en) 2008-07-03

Similar Documents

Publication Publication Date Title
CN101211336B (zh) 可视化生成查询文件的系统及方法
Ngu et al. Semantic-based mashup of composite applications
US6732102B1 (en) Automated data extraction and reformatting
US7370061B2 (en) Method for querying XML documents using a weighted navigational index
US7860815B1 (en) Computer knowledge representation format, system, methods, and applications
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
CN100422997C (zh) 网页加入可搜索的深标签及浏览器插件和脚本结合的方法
CN100449485C (zh) 信息处理装置和方法
US20050198567A1 (en) Web navigation method and system
CN101344881A (zh) 海量文件型数据的索引生成方法及装置和搜索系统
WO2001050349A1 (en) Electronic document customization and transformation utilizing user feedback
JP5113764B2 (ja) データベースと電子ドキュメントとの間での階層データの転送および表示
CN101073076A (zh) 在标记语言环境中利用新片段和新方案来创建新文档的文档处理和管理方法
Jiang et al. Towards reengineering web sites to web-services providers
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质
Qureshi et al. Determining the complexity of XML documents
KR100522186B1 (ko) 동적으로 홈페이지를 제작하는 방법 및 이 방법을 웹에서구현하는 장치
Saputra et al. A metadata approach for building web application user interface
CN1326078C (zh) 包装器的生成方法
JP3842576B2 (ja) 構造化文書編集方法及び構造化文書編集システム
JP3842572B2 (ja) 構造化文書管理方法および構造化文書管理装置およびプログラム
Lingam et al. Supporting end-users in the creation of dependable web clips
US20070244860A1 (en) Querying nested documents embedded in compound XML documents
WO2010147453A1 (en) System and method for designing a gui for an application program
Valverde et al. An Abstract Interaction Model for a MDA Software Production Method.

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110504

Termination date: 20141229

EXPY Termination of patent right or utility model