CN1520563A - 在用二进制表示的结构化的文档中,快速查找数据元或属性的方法或快速筛选片段的方法 - Google Patents

在用二进制表示的结构化的文档中,快速查找数据元或属性的方法或快速筛选片段的方法 Download PDF

Info

Publication number
CN1520563A
CN1520563A CNA02812782XA CN02812782A CN1520563A CN 1520563 A CN1520563 A CN 1520563A CN A02812782X A CNA02812782X A CN A02812782XA CN 02812782 A CN02812782 A CN 02812782A CN 1520563 A CN1520563 A CN 1520563A
Authority
CN
China
Prior art keywords
path
type
data
encoded
xml
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA02812782XA
Other languages
English (en)
Inventor
A
A·赫特
J·霍耶尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Publication of CN1520563A publication Critical patent/CN1520563A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/81Indexing, e.g. XML tags; Data structures therefor; Storage structures
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99942Manipulating data structure, e.g. compression, compaction, compilation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明主要涉及一种对文本路径进行编码的方法,以检索和查询结构化的、譬如基于XML的文挡,以及改进筛选用二进制表示的XML文挡。通过所述方法的具体实施导致的效果是所述的检索对于采用多形态的情况也是相同的。在存储这些进行检索或查询的文本路径时,只需存储或传输很少的数据量。因此,在查询时也可很快地实现这些数据的比较,因为需进行比较的数据量也很少。

Description

在用二进制表示的结构化的文挡中,快速查 找数据元或属性的方法或快速筛选片段的方法
本发明涉及按基于文本路径表达式方式查询结构化的、譬如基于XML或SGML的文挡的方法。为检索和查询结构化的、譬如基于XML的文挡,文本路径譬如是上下文路径,如在文献[1]所述的,或也可能是文本路径数据,如在文献[2]详述的。
从文献[3]中,已知有一种使用文本路径的系统,以便检索XML文挡的内容。在此,按文挡的每个数据元(Element)譬如在散列表中存储绝对路径和子路径。然后,在基于所存储文挡中的存储地址的情况下查询这些数据元。
此外,从文献[4]中,已知有一种查询语言,该查询语言按基于文本路径表达式方式可将询问列式譬如纳入数据库。
现在,作为本发明基础的任务在于,给出了在用二进制表示的基于XML的文挡中,查找数据元或筛选片段(Fragment)的方法,这些方法速度特别快和码效率特别高。
关于快速查找数据元,这个任务由权利要求1或7的特征来解决,关于快速筛选片段,这个任务可由权利要求6的特征解决。
其它的权利要求涉及本发明所述方法的优选方案。
本发明主要涉及一种对文本路径进行编码的方法,以检索和查询结构化的、譬如基于XML的文挡,以及改进筛选用二进制表示的XML文挡。通过所述的方法导致的效果是所述的检索对于采用多形态的情况也是相同的。在存储这些进行检索或查询的文本路径时,只需存储或传输很少的数据量。因此,在查询时也可很快地实现这些数据的比较,因为需进行比较的数据量也很少。
下面用图中所示的实施例说明本发明。图中:
图1A-1C示出了已编码的路径的结构、有损失的已编码的子路径的结构以及无损失的子路径的结构,并且
图2A和2B示出了一条绝对路径和一条子路径的示意图。
如开头所述,文本路径可用于检索基于XML文挡的内容,以便能快速地存取数据。
采用本发明所述的方法时,不是在基于XML的文挡的开始、就是在相应的传输的开始或是却可重复地传输进行检索的文本路径。
在本发明所述的方法中,采用如文本路径在检索和查询表述中所详述的那样,与所述的结构化文挡的内容相似,也即与在文献[1]所述相似,对文本路径编码。
在图1A中从原理上示出了本发明对绝对路径的编码,在图1B中从原理上示出了有损失的子路径的图,在图1C中从原理上示出了本发明对无损失的子路径的编码。
为区分这3种路径类型,在举例给出的3种代码的每一种代码的开始时都传一个具有2比特的路径类型PT的信令。
如果从一个作为基础的数据结构的根节点出发的路径进行检索是可能的,则如图1A所示,能够只通过路径类型PT,作为由绝对路径AP紧跟其后的绝对路径,的数据,来实现编码。在图2A中示出了一个这样地从根节点R出发的绝对路径AbsP。在此,值得一提的是,尽管譬如按照文献[1]所定义的必须插入所谓的位置码,但是只允许用图解分支码SBC和树形分支码TBC进行路径编码。
在图2B中示出了具有一个子路径TeilP的树状数据结构,该子路径TeilP与绝对路径不同,原因是它未从根节点R出发。在子路径编码的情况中,在路径中的第一个节点只能通过类型代码涉及普通的基本类型的那种类型代码、譬如原型进行详述,也即如图1B所示,按照路径类型PT的数据对一个绝对类型代码ATC进行编码。然后,可通过一个相对路径RP的数据如在文献[1]所给出的那样和也可能如在第一种情况给出的那样,改进式地对其余的路径进行编码。但是,路径的这种编码却是有损失的,因为第一个节点名称不能确定,而是只确定了数据类型。然而,在许多应用情况中,这却没有意义。
但是,在保持所述特性的情况下,无损失的编码却能通过图1C所示的编码实现,在所述的这种编码中,除路径类型PT的数据、绝对类型代码ATC的数据和相对路径RP的数据之外,还具有类型或子数据元的一个数N,紧接在其后还有由一个绝对类型AT和一个子数据元的图解分支代码SBC组成的至少一个绝对类型AT或一个多元组(Tupel)。数NT给出了节点的数量,这些节点从一个子数据元出发包括所给出的子路径。这些节点类型AT、AT`,...的类型代码涉及到同一种基本类型,并且譬如根据代码以一种递增的顺序排列。通过图解分支码SBC,..的数据,如果用子路径TeilP的绝对类型代码ATC的类型来说明多个子数据元,则可对所确定的、子路径由此出发的子数据元传信令。
按照本发明所述的方法在检索中对路径编码是有利的,因为在检索时通常无须译码或只需经编码传递的文挡的代码转换。此外,能减少对检索的存储要求,这就使得能快速地执行询问或意味着计算花费小。
在询问数据现存量的过程中,对路径编码是有利的,因为可减少从接受询问的设备到处理询问的设备所传输的数据量。此外,如果按照上面的叙述存储检索,则处理询问的设备无须对该询问进行译码。这使得快速执行询问成为可能。
通过本发明所述的方法,可按二进制对文本路径表达式有效地进行编码,并且通过比特模式比较使查找成为可能。
在本发明所述的方法的优选的方案中,对进行检索数据元和/或属性的文本路径将如此地进行编码,以致于在路径中特许的、由多形态导出的数据类型以单义方式可用标准化的数据类型代替,其中各自标准化的数据类型的确定采用的方式是从各自数据类型的基本类型出发查找一种数据类型,该数据类型包括在路径中跟随的数据元或属性,并且涉及得出的基本类型单义地确定。由此,对已编码的文本路径单义地按其比特模式进行识别,并且以此可在已编码的基于XML的文挡中寻找出被查找的数据元和/或属性。
这些标准化一般可应用到文本路径、也即不仅应用到文本路径以进行检索,而且如在文献[1]中所述的,还可应用到上下文路径以进行编码。可以有理由地说,这些标准化的优点在于,使不同文挡的相同的文本路径都统一到唯一的一种二进制的表示式上,甚至于当在路径中所包含的节点在文挡中不同于数据类型时也是如此。因此,在借助已编码路径的比特模式查找文本路径时,只是还要考虑每条路径的唯一的比特模式。最后,另一个优点在于,所产生的比特模式通常都比相应的非标准的比特模式短。出于上述原因,关于文本路径也可通过上述的上下文路径的标准化,实现快速地筛选用二进制表示的基于XML文挡的片段。这具有的优点在于,上下文路径和以此在片段中包含的含的信息都可快速地筛选,无须在此将用于由多形态所形成的不同的数据类型的多个比特模式进行比较。
在此文中,引用如下参考文献:
[1]″ISO/IEC FCD 15938-1 Information technology-Multimediacontent description interface:Systems″,/7,ISO/IEC JTC1 SC29/WG11/N4001,Singapur,Mrz 2001
[2]XML Path Language,Version 1.0,W3C Recommendation,16November 1999, http://www.w3.org/TR/xpath.
[3]dbXML-XML Database Application Server,Version 0.4,ThedbXML Group,2000,http://www.dbxml.org/docs/CoreSpecs.pdf.
[4]J.Robie,J.Lapp,D.Schach,XML Query Language(XQL),1998, http://www.w3.org/TandS/QL/QL98/pp/xql.html.
[5]XML Schema Language,XML Schema Part 1:Structures,§6,W3C Recommendation,2 May 2001http://www.w3.org/XML/Schema

Claims (8)

1、在用二进制表示的结构化的、特别是基于XML的文挡中,快速查找数据元的方法,
其中对用于进行检索数据元和/或属性的一个文本路径(AbsP,TeilP)如此地进行编码,以致于在路径中特许的、由多形态得出的数据类型以单义的方式用标准化的数据类型代替,其中各自标准化的数据类型的确定采用的方式是从各自数据类型的基本类型出发查找一种数据类型,该数据类型包括在路径中跟随的数据元或属性,并且就其得出的基本类型要单义地确定,并且其中,则可对已编码的文本路径单义地按其比特模式进行识别,并且以此可在已编码的基于XML的文挡中找出被查找的数据元和/或属性。
2、按照权利要求1所述的方法,
其中确定标准化的数据类型,方式是从各自的数据类型的基本数据类型出发查找一种数据类型,该数据类型包括在路径中跟随的数据元或属性,并且按照定义从基本类型出发具有最低的或最高的类型代码和/或具有最小或最大数量的传统步骤(Vererbungsschritten)。
3、按照权利要求1所述的方法,
其中通过一个路径类型(PT)和一个已编码的绝对路径(AP)的数据对文本路径(AbsP)进行编码,其中不需要对具有位置码的路径进行编码。
4、按照权利要求1所述的方法,
其中通过一个路径类型(PT)、一个绝对类型代码(ATC)和一个已编码的相对路径(RP)的数据对文本路径(TeilP)进行编码,其中不需要对具有位置码的路径进行编码。
5、按照权利要求4所述的方法,
通过一个类型数(NT)的附加的数据和由一个各自的绝对类型和一个各自的图解分支码组成的用该类型数确定的多元组(AT,SBC)的数对文本路径(TeilP)进行编码。
6、在用二进制表示的结构化的、特别是基于XML的文挡中,快速筛选片段的方法,
其中对用于进行检索数据元和/或属性的上下文路径如此地进行编码,以致于在路径中特许的、由多形态得出的数据类型以单义的方式用标准化的数据类型代替,其中各自标准化的数据类型的确定采用的方式是从各自数据类型的基本类型出发查找一种数据类型,该数据类型包括在路径中跟随的数据元或属性,并且就其得出的基本类型要单义地确定,并且其中,则可对文本的上下文路径单义地按其已编码的表示的比特模式进行识别,并且以此可在已编码的基于XML的文挡中找出被查找的数据元。
7、在用二进制表示的结构化的、特别是基于XML的文挡中,快速查找数据元的方法,
其中构成至少一个文本路径以检索被查找的数据元,并且
其中或是通过一个路径类型(PT)的和一个已编码的绝对路径(AP)的数据、或是通过一个路径类型(PT)的、一个绝对类型代码(ATC)的和一个已编码的相对路径(RP)的数据对文本路径进行编码,其中不需要对具有位置码的路径进行编码。
8、按照权利要求7所述的方法,
其中通过类型数(NT)的附加数据和由一个各自的绝对类型和一个各自的图解分支码组成的用该类型数确定的多元组(AT,SBC)的数对文本路径(TeilP)进行编码。
CNA02812782XA 2001-06-25 2002-06-25 在用二进制表示的结构化的文档中,快速查找数据元或属性的方法或快速筛选片段的方法 Pending CN1520563A (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
DE10130525.7 2001-06-25
DE10130525 2001-06-25
DE10211385 2002-03-14
DE10211385.8 2002-03-14

Publications (1)

Publication Number Publication Date
CN1520563A true CN1520563A (zh) 2004-08-11

Family

ID=26009582

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA02812782XA Pending CN1520563A (zh) 2001-06-25 2002-06-25 在用二进制表示的结构化的文档中,快速查找数据元或属性的方法或快速筛选片段的方法

Country Status (5)

Country Link
US (1) US7464098B2 (zh)
EP (1) EP1399857B1 (zh)
CN (1) CN1520563A (zh)
DE (1) DE50212603D1 (zh)
WO (1) WO2003001404A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE10309336B4 (de) 2003-03-04 2005-11-24 Siemens Ag Verfahren zur Codierung eines strukturierten Dokuments
US20070143664A1 (en) * 2005-12-21 2007-06-21 Motorola, Inc. A compressed schema representation object and method for metadata processing
US7747558B2 (en) 2007-06-07 2010-06-29 Motorola, Inc. Method and apparatus to bind media with metadata using standard metadata headers
WO2009031370A1 (ja) * 2007-09-07 2009-03-12 Nec Corporation Xmlデータ処理システム、該システムに用いられるデータ処理方法及びxmlデータ処理制御プログラム
EP2605481A1 (de) * 2011-12-13 2013-06-19 Siemens Aktiengesellschaft Verfahren und Vorrichtung zum Filtern von Netzwerkverkehr

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6721727B2 (en) * 1999-12-02 2004-04-13 International Business Machines Corporation XML documents stored as column data
US6782380B1 (en) * 2000-04-14 2004-08-24 David Victor Thede Method and system for indexing and searching contents of extensible mark-up language (XML) documents
US6745206B2 (en) * 2000-06-05 2004-06-01 International Business Machines Corporation File system with access and retrieval of XML documents
DE10047338C2 (de) 2000-09-25 2002-09-19 Siemens Ag Verfahren zur Datenkompression von strukturierten Dokumenten und Anordnung zur Durchführung des Verfahrens
JP4405146B2 (ja) * 2000-10-17 2010-01-27 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ Mpeg−7インスタンス用の二進フォーマット
US7178100B2 (en) * 2000-12-15 2007-02-13 Call Charles G Methods and apparatus for storing and manipulating variable length and fixed length data elements as a sequence of fixed length integers
JP2004517410A (ja) 2000-12-22 2004-06-10 シーメンス アクチエンゲゼルシヤフト Mpeg−7および他のxmlベースのコンテンツ記述のバイナリ表現機能を改善する方法
FR2820228B1 (fr) * 2001-01-30 2004-03-12 Expway Procede de codage et de decodage d'un chemin dans l'arborescence d'un document structure
WO2002062070A2 (de) 2001-02-01 2002-08-08 Siemens Aktiengesellschaft Verfahren zur verbesserung der funktionalität der binären repräsentation von mpeg-7 und anderen xml-basierten inhaltsbeschreibungen
JP4615827B2 (ja) * 2001-02-05 2011-01-19 エクスプウェイ 文書の構造化された記述を圧縮するための方法
US6804677B2 (en) * 2001-02-26 2004-10-12 Ori Software Development Ltd. Encoding semi-structured data for efficient search and browsing
EP1407610B1 (de) 2001-06-25 2006-09-27 Siemens Aktiengesellschaft System zur verbesserten encodierung/decodierung von strukturierten, insbesondere xml-basierten, dokumenten sowie verfahren und vorrichtungen zur verbesserten encodierung/decodierung von binären repräsentationen von solchen dokumenten

Also Published As

Publication number Publication date
WO2003001404A3 (de) 2003-10-09
WO2003001404A2 (de) 2003-01-03
US7464098B2 (en) 2008-12-09
EP1399857B1 (de) 2008-08-06
DE50212603D1 (de) 2008-09-18
EP1399857A2 (de) 2004-03-24
US20040193581A1 (en) 2004-09-30

Similar Documents

Publication Publication Date Title
JP4561150B2 (ja) 階層データ形式のためのデータベースモデル
US7043686B1 (en) Data compression apparatus, database system, data communication system, data compression method, storage medium and program transmission apparatus
JP4373721B2 (ja) マークアップ言語文書を符号化するための方法およびシステム
US5963966A (en) Automated capture of technical documents for electronic review and distribution
US5797008A (en) Memory storing an integrated index of database records
US20110283183A1 (en) Method for compressing/decompressing structured documents
US7627589B2 (en) High performance XML storage retrieval system and method
US8335779B2 (en) Method and apparatus for gathering, categorizing and parameterizing data
CN1998241B (zh) 用于对xml文档编码和/或解码的方法及装置
US20080010256A1 (en) Element query method and system
US20140195523A1 (en) Method and system for indexing information and providing results for a search including objects having predetermined attributes
CN1251135C (zh) 自描述数据标签
CN101346689A (zh) 压缩模式表示对象和用于元数据处理的方法
US20040122851A1 (en) Identifier generating method, identity determining method, identifier transmitting method, identifier generating apparatus, identity determining apparatus, and identifier transmitting apparatus
US7676742B2 (en) System and method for processing of markup language information
KR101102629B1 (ko) 구조화된 문서들의 코딩 방법
CN1520563A (zh) 在用二进制表示的结构化的文档中,快速查找数据元或属性的方法或快速筛选片段的方法
CN1739243A (zh) 用于从索引树中产生比特流的方法
US7552384B2 (en) Systems and method for optimizing tag based protocol stream parsing
US20030131014A1 (en) Processing data objects
US7627586B2 (en) Method for encoding a structured document
CN1294758C (zh) 改善基于mpeg-7和其它xml内容描述的二进制表示的功能的方法
US20040143574A1 (en) System and method for creating a data file for use in searching a database
KR100898614B1 (ko) 스키마, 구문 분석 방법 및 스키마에 기초하여 비트 스트림을 발생시키는 방법
US20020099792A1 (en) Method of performing a search of a numerical document object model

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication