JP4978894B2 - 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム - Google Patents

構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム Download PDF

Info

Publication number
JP4978894B2
JP4978894B2 JP2007500615A JP2007500615A JP4978894B2 JP 4978894 B2 JP4978894 B2 JP 4978894B2 JP 2007500615 A JP2007500615 A JP 2007500615A JP 2007500615 A JP2007500615 A JP 2007500615A JP 4978894 B2 JP4978894 B2 JP 4978894B2
Authority
JP
Japan
Prior art keywords
search
structured document
state transition
automaton
analysis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007500615A
Other languages
English (en)
Other versions
JPWO2006080469A1 (ja
Inventor
圭一 井口
和也 小山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007500615A priority Critical patent/JP4978894B2/ja
Publication of JPWO2006080469A1 publication Critical patent/JPWO2006080469A1/ja
Application granted granted Critical
Publication of JP4978894B2 publication Critical patent/JP4978894B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/80Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
    • G06F16/83Querying
    • G06F16/835Query processing
    • G06F16/8373Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、構造化文書検索装置、構造化文書検索方法および構造化文書検索用プログラムに関し、特に、検索式を用いて構造化文書の特定要素を検索抽出する構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラムに関する。
構造化文書としてのXML文書内の特定の要素を抽出するための検索式としてXパス(XML Path Language:XPath)が利用されている。XPathは標準化団体W3C(WWWコンソーシアム)によって規格化されその仕様が、文献1(「エックスエムエル パス ランゲージ(エックスパス)“XML Path Language”」、[online]、[2004年12月22日検索]、インターネット、<URL:http://www.w3.org/TR/xpath>)に記載されている。
XPathではXMLの要素を“/”で区切って列記し構造中の特定の要素を指定する。従来、XML文書中からXPathで指定された要素を検索する際に、一旦XML文書を記憶域にDOM(Document Object Model)形式に展開した後、検索を行っていた。しかし、XML文書をDOM形式に展開する処理は負荷が大きく、また大きな記憶域を必要とするため、XPathの検索は負荷の重い処理であった。
その問題を解決するために、XML文書をDOMに展開することなく、SAX(Simple API for XML)パーサを利用して逐次的に解析することでXPathに合致する要素を抽出するための技術が特開2003−323429号公報や文献2(マフォメット アルティネル(Mehmet Altinel)、ミカエル フランクリン(Michael Franklin)著、エフィシエント フィルタリング オブ エックスエムエル ドキュメンツ フォー セレクティブ デセミネイション オブ インフォーメイション(Efficient Filtering of XML Documents for Selective Dissemination of Information)、ヴェリー ラージ データ ベース エンドーメント(Very Large Data Base Endowment)出版、2000年、pp.53−64)に記載されている。
そのような構造化文書検索装置800は、図11に示すように、構造化文書解析部810と、検索式解析部820と、検索オートマトン管理部840と、記憶装置850とから構成されている。
図12は、図11に示された構造化文書検索装置800の動作を示すフローチャートである。検索式解析部820に検索式が入力されると検索式の解析が行われ、解析結果が検索オートマトン管理部840に渡される(ステップS110)。検索オートマトン管理部840は、検索式の解析結果を受け取ると、検索オートマトン851を作成し記憶装置850に記録する(ステップS830)。図13は作成される検索オートマトン851の例である。図14に示す検索式の例であるXPath式510が入力された場合、検索オートマトン851が作成される。検索オートマトン851には4つの状態911、912、913、914が含まれ、状態914は終了状態である。また各状態間の状態遷移921、922、923も含み、状態遷移に必要なイベントが記載されている。
続いて、構造化文書(例えば、受信したメッセージにおけるXML文書)が構造化文書解析部810に入力されると(ステップS140)、構造化文書解析部810は構造化文書を逐次解析し、解析結果を検索オートマトン管理部840に渡す(ステップS150)。構造化文書の解析は部分(例えば、要素)ごとに行われ、そのたびに検索オートマトン管理部840に渡される。
検索オートマトン管理部840は、構造化文書の解析結果が渡されると、検索オートマトン処理(ステップS870)を行う。図15は、ステップS870で行われる処理を示すフローチャートである。検索オートマトン管理部840は、渡された解析結果のイベントが状態遷移の対象となる要素に関するものか否か調べ、状態遷移の対象でない場合には検索オートマトンの処理を終了する(ステップSl71)。
続いて、解析結果のイベントの種類が要素の開始を示すイベントか、要素の終了を示すイベントかを判断し(ステップS172)、要素の終了を示すイベントである場合には、オートマトン151の状態を遷移前の状態に逆向きに遷移し、状態を記憶装置150に記録する(ステップS178)。ステップS172の結果、要素の開始を示すイベントである場合には、検索オートマトン851に従って状態を遷移し、現在の状態を記憶装置850に記録する(ステップS173)。状態遷移の結果、検索オートマトン851の状態が終了状態に達した場合には(ステップS174)、検索式に合致したと判断し、結果を出力する(ステップS175)。
構造化文書全体の処理が終了するまでステップS150からステップS870の処理を繰り返す(ステップS160)。
従来の構造化文書検索システムの問題点は、検索式にマッチする要素を過不足なく得るためには、構造化文書を最後まで検索する必要があるということである。その理由は、従来システムでは、目的とする要素が偏りなく存在する文書を主な対象としているので、構造化文書中のどこに目的とする要素が存在するかの情報を保持していないためである。例えば、通信文中の識別情報の抽出など、抽出すべき要素は構造化文書中の前半に出現することが分かっている場合には無駄な解析処理がシステムの実行性能を低下させる主因にもなり得る。
そこで、本発明は、構造化文書検索システムにおいて、構造化文書の必要な個所を解析するだけで検索式にマッチする要素を過不足なく得ることを可能にし、処理効率を向上させることができるようにすることを目的とする。
本発明による構造化文書検索装置は、構造化文書を逐次的に解析する構造化文書解析手段(例えば、構造化文書解析部110、SAXパーサ410)と、構造情報を解析し、目的とする要素がそれ以上現れないことを確認した段階で、構造化文書の解析を中断する構造情報解析手段(例えば、構造化文書解析部110、SAXパーサ410、検索オートマトン管理部140、240)とを備えたことを特徴とする。構造情報とは、構造化文書を構成する要素に関して、要素間の包含関係を含み、要素の出現順序と出願回数の制約(回数そのものまたは回数に関する範囲)のいずれかまたは両方を含む情報である。
また、本発明による構造化文書検索装置は、検索式(例えば、XPath式:XML Path Language式)によって指定された要素を構造化文書(例えばXML文書)から抽出する構造化文書検索装置(例えば、構造化文書処理装置100、200、XPath検索装置400)であって、構造情報から抽出すべき要素がそれ以上出現しなくなる中断条件を作成し(例えば、ステップS130)、構造化文書解析部(例えば、構造化文書解析部110、SAXパーサ410)により構造化文書を逐次的に解析し(例えば、ステップS150)、検索処理部(例えば、検索オートマトン管理部140、240)により検索式に合致する要素を検索し、すべての中断条件を満たした場合には構造化文書の解析を中断し、検索を終了する(例えば、ステップS180)ことを特徴とする。
上述した構成とすることで、構造化文書を最後まで解析することなく検索式によって指定された要素を過不足なく抽出することが可能になる。
また、検索式で指定された要素が出現しなくなる条件を検索オートマトンに付加し、条件が満たされた場合に解析を終了することによって、構造化文書を最後まで解析することなく、検索式で指定された要素を過不足なく検索できる。
また、検索式で指定された要素が出現しなくなる条件を検索オートマトンに付加し、条件が満たされた場合に解析を終了することによって、構造化文書を最後まで解析することなく、検索式で指定された要素が出現しないことを判断できる。
図1は、本発明の第1の実施の形態における構造化文書検索装置の構成例を示すブロック図である。
図2は、本発明の第1の実施の形態における構造化文書検索装置の動作を示すフローチャートである。
図3は、本発明の第1の実施の形態における検索オートマトン処理の動作を示すフローチャートである。
図4は、本発明の第2の実施の形態における構造化文書検索装置の構成例を示すブロック図である。
図5は、構造化文書検索を実行させるための構造化文書検索プログラムを含む構成の例を示すブロック図である。
図6は、本発明の実施例のXPath検索装置を示すブロック図である。
図7は、XML Schemaの例を示す説明図である。
図8は、本発明の実施例における検索オートマトンの例を示す説明図である。
図9は、XML文書の例を示す説明図である。
図10は、SAXパーサから生成されるイベント列の例を示す説明図である。
図11は、従来の構造化文書検索装置の例を示すブロック図である。
図12は、従来の構造化文書検索装置の動作を示すフローチャートである。
図13は、従来の構造化文書検索装置における検索オートマトンの例を示すブロック図である。
図14は、XPath式の例を示す説明図である。
図15は、従来の構造化文書検索装置における検索オートマトン処理の動作を示すフローチャートである。
次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
図1は本発明の第1の実施の形態における構造化文書検索装置100の構成例を示すブロック図である。図1に示すように、構造化文書検索装置100は、構造化文書解析部110と、検索式解析部120と、構造情報解析部130と、検索オートマトン管理部140と、記憶装置150とを含む。
構造化文書解析部110は、例えば入力機器やネットワークインタフェースなどの入力装置や、RAMやハードディスクなどの記憶装置から入力された構造化文書を解析し、解析結果を逐次的に検索処理部である検索オートマトン管理部140に渡す。検索式解析部120は、入力装置や記憶装置から入力された検索式を解析する機能を有する。検索式解析部120は入力された検索式を解析し、解析結果を検索オートマトン管理部140に渡す。構造情報解析部130は、入力装置や記憶装置から入力された構造情報を解析する機能を有する。構造情報解析部130は、入力された構造情報を解析し、解析結果を検索オートマトン管理部140に渡す。検索オートマトン管理部140は、検索オートマトン151を作成する機能と、検索オートマトン状態遷移機能とを有する。
検索オートマトン管理部140は、検索式解析部120から渡される検索式の解析結果、および構造情報解析部130から渡される構造情報の解析結果を元に検索オートマトン151を作成し、記憶装置150に記録する。作成した検索オートマトン151には構造情報解析部130から得た構造情報を元に、各状態遷移を発生させる要素が出現しなくなる条件を中断条件として記録する。
中断条件の好適な例として、要素の最大出現回数の情報を利用できる。また、要素の出現順序の情報も利用できる。要素の出現順序が構造情報に記載されている場合には、状態遷移を発生させる要素の最後の出現よりも後にのみ出現する要素が出現したときに、状態遷移を発生させる要素はそれ以上発生しないと判断できるので、要素の出現順序の情報を中断条件として利用できる。構造化文書が、好適な例であるXMLの場合には、構造情報の好適な例としてXMLスキーマ(XML Schema)を利用できる。またDTD(Document Type Definition)も利用できる。また、RELAX NGも利用できる。例えば、XML Schemaの場合には、中断条件は、maxOccurとして記載される要素の最大出現数が利用でき、またsequenceで記載される要素の出現順序も利用できる。
また、検索オートマトン管理部140は、構造化文書解析部110から得た構造化文書の逐次解析結果にもとづいて、記憶装置150に記録されている検索オートマトン151の状態を遷移させる。また、検索オートマトン151に付加した中断条件にマッチした状態遷移を検索オートマトン151から削除する。状態遷移を削除した結果、検索オートマトン151から有効な状態遷移がなくなったときには、引き続き解析を行っても検索式にマッチする要素は出現しないと判断し、構造化文書解析部110に解析の終了を指示する。さらに、検索オートマトン151が終了状態に達した場合には、検索式にマッチしたと判断し結果を出力する。
記憶装置150は、例えばRAMなどの記憶媒体によって構成され、検索オートマトン151等の各種の情報が記憶される。
次に、図1のブロック図と図2のフローチャートを参照して本実施の形態の全体の動作について詳細に説明する。図2は、構造化文書検索装置100が実行する構造化文書検索の例を示すフローチャートである。
検索式が入力されると、検索式解析部120は、検索式の解析を行い、解析結果を検索オートマトン管理部140に渡す(ステップS110)。検索式の好適な例として、XPathを利用できる。また、XPointer(XML Pointer)も利用できる。
次に、構造情報が入力されると、構造情報解析部130は、構造情報を解析し、解析結果を検索オートマトン管理部140に渡す(ステップS120)。なお、ステップS110とステップS120の実行順序は入れ替え可能である。検索式の解析結果と構造情報の検索結果を受け取ると、検索オートマトン管理部140は、検索オートマトン151を作成し、記憶装置150に記録する(ステップS130)。
続いて、構造化文書が構造化文書解析部110に入力されると(ステップS140)、構造化文書解析部110は、構造化文書を逐次解析し、解析結果を検索オートマトン管理部140に渡す(ステップS150)。構造化文書解析部110は、構造化文書の解析を部分ごとに行い、解析を行うたびに、検索オートマトン管理部140に解析結果を渡す。
例えば、構造化文書が、好適な例であるXMLの場合には、タグ毎に解析が行われることが望ましい。このような解析結果の渡し方として、例えばSAX形式が利用できる。また、StAXなどのPull型解析も利用できる。
なお、SAX形式はイベントベースのXML解析のための標準インターフェイスとして開発されたものであり、インターネット<http://java.sun.com/j2se/1.4/ja/docs/ja/api/org/xml/sax/package−summary.html>に実装マニュアルが掲載されている。また、StAXはXMLを文書順に必要な部分のみ読み出して解析するためのインターフェイスであり、インターネット<http://jcp.org/en/jsr/detail?id=173>に仕様要求が記載されている。
構造化文書の解析結果が渡されると、検索オートマトン管理部140は、検索オートマトン処理(ステップS170)を行う。図3は、ステップS170で行われる処理を示すフローチャートである。検索オートマトン管理部140は、渡された解析結果のイベントが状態遷移の対象となる要素に関するものか否か調べ、状態遷移の対象でない場合はステップS176以降の処理へ移る(ステップS171)。続いて、解析結果のイベントの種類が要素の開始を示すイベントか、要素の終了を示すイベントかを判断し(ステップS172)、要素の終了を示すイベントである場合には、オートマトン151の状態を遷移前の状態に逆向きに遷移し、状態を記憶装置150に記録する(ステップS178)。
ステップS172の処理の結果、要素の開始を示すイベントである場合は、検索オートマトン151に従い状態を遷移し、次の状態遷移が削除されている場合は復元し、現在の状態を記憶装置150に記録する(ステップS173)。状態遷移の結果、検索オートマトン151の状態が終了状態に達した場合には(ステップS174)、検索式にマッチしたと判断し、結果を出力する(ステップS175)。続いて、中断条件が満たされた場合には(ステップS176)、中断条件にマッチした状態遷移を検索オートマトン151から削除し、記憶装置150に記録する(ステップS177)。
検索オートマトン処理が終了すると、検索オートマトン管理部140は、検索オートマトン151に有効な状態遷移が残っているか確認する(ステップS180)。有効な状態遷移が残っている場合には、引き続きステップS150からステップS180の処理を繰り返す。有効な状態遷移がない場合には、構造化文書解析部110に解析の終了を指示して検索を終了する。
次に、本実施の形態の効果について説明する。本実施の形態では、構造情報解析部130により構造情報から中断条件を取得し、検索オートマトン管理部140は、中断条件が満たされた場合には該当する状態遷移を削除し、有効な状態遷移がなくなった場合には解析の終了を指示するように構成されている。その結果、構造化文書の解析処理を削減することができ、検索処理の負荷を軽減することができる。
次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
図4は本発明の第2の実施の形態における構造化文書検索装置200の構成例を示すブロック図である。なお、図4において、図1に示した構造化文書検索装置100における構成要素と同様の構成要素については、同一の符号を付与してその詳細な説明を省略する。
図4に示すように、構造化文書検索装置200は、構造化文書解析部110と、検索式解析部120と、構造情報解析部230と、検索オートマトン管理部240と、記憶装置250とを含む。
構造情報解析部230は、第1の実施の形態における構造情報解析部130と同様、入力された構造情報を解析する機能を有する。構造情報解析部130は、入力された構造情報を解析するが、記憶装置250に解析結果を構造情報252として記録する。
検索オートマトン管理部240は、第1の実施の形態における検索オートマトン管理部140と同様の機能を有するが、必要な構造情報を、記憶装置250に記録された構造情報252から取得する部分が異なる。記憶装置250は、第1の実施の形態における記憶装置150が記録する情報に加えて、構造情報252を記録する。
このように構成された第2の実施の形態の構造化文書検索装置200は、第1の実施の形態における構造化文書検索装置100と同様に動作する。すなわち、検索式が入力されると、検索式解析部120は、検索式の解析を行い、解析結果を検索オートマトン管理部240に渡す(図2におけるステップS110参照)。構造情報が入力されると、構造情報解析部230は、構造情報を解析し、解析結果を検索オートマトン管理部240に渡す(ステップS120)。ただし、本実施の形態では、構造情報解析部230は、構造情報を記憶装置250にも渡す。検索式の解析結果を受け取ると、検索オートマトン管理部240は、検索オートマトン151を作成し、記憶装置250に記録する(ステップS130)。ただし、本実施の形態では、検索オートマトン管理部240は、記憶装置250から構造情報の検索結果を入力する。構造化文書が構造化文書解析部110に入力されると(ステップS140)、構造化文書解析部110は、構造化文書を解析し、解析結果を検索オートマトン管理部240に渡す(ステップS150)。構造化文書の解析結果が渡されると、検索オートマトン管理部140は、第1の実施の形態の場合と同様に、検索オートマトン処理(ステップS170)を行う。
第2の実施の形態では、構造情報252を記憶装置250に記録する構成にしたので、検索式の入力のたびに構造情報を入力する必要がなく、記憶装置250に蓄積した構造情報252を再利用することができる。
なお、上述した各実施の形態では特に言及していないが、構造化文書検索装置100,200での各種制御処理は、構造化文書検索処理を実行させるための構造化文書検索プログラム320(図5参照)に従って実行されている。
図5は、上述した構造化文書検索処理を実行させるための構造化文書検索プログラム320と、構造化文書処理プログラム320に従って動作するデータ処理装置330とを含むブロック図である。なお、図5には、入出力部310と記憶装置150も記載されている。
データ処理装置330は、中央処理装置(CPU)を内蔵し、第1および第2の実施の形態における構造化文書検索装置100,200において、各種の制御処理を実行する部分(構造化文書解析部110、検索式解析部120、構造情報解析部130,230および検索オートマトン管理部140,240)をまとめて示す制御手段である。構造化文書処理プログラム320は、データ処理装置330に上述した各種の制御処理を実行させるための制御プログラムであり、例えばデータ処理装置330に搭載されている。
データ処理装置330は、構造化文書検索プログラム320に従って、記憶装置150への情報の書き込みや記憶装置150からの情報の読み出しを行うほか、第1および第2の実施の形態における各種の制御を実行する。
次に、本発明の具体的実施例について説明する。図6は、本実施例の構造化文書検索装置を示すブロック図である。本実施例の構造化文書検索装置は、検索式XML Path言語(XPath)によって記述された特定の要素をXML文書から抽出するXPath検索装置400である。
図6に示すように、XPath検索装置400は、構造化文書解析部としてのSAXパーサ410、検索式解析部としてのXPath解析部420、および構造情報解析部としてのXML Schema解析部430を備えている。
ここでは、例えばキーボード(図示せず)から検索式として図14に示すXPath式510が入力されたとする。XPath式510がXPath解析部420に入力されると、解析結果が検索オートマトン管理部140に渡される。また、この例では、例えばハードディスク(図示せず)から構造情報として図7に示すXML Schema520が入力されたとする。XML Schema520には「aタグは1度しか出現しない、aタグの中にはb、dの順にタグがある、bタグの中にはcタグは1度しか出現しない」という情報が記載されている。XML Schema520がXML Schema解析部430に入力されると、XML Schema解析部430による解析結果が検索オートマトン管理部140に渡される。
XPath式510の解析結果と構造情報520の解析結果を受け取った検索オートマトン管理部140は、図8に示す検索オートマトン600を作成する。検索オートマトン600は、状態611〜614の4つの状態を持ち、各状態間の状態遷移621〜623を持つ。なお、状態614は終了状態である。ここで、状態遷移621〜623に中断条件が記載されていることが、本発明の特徴である。中断条件には、一例として、構造情報520の解析結果にもとづく状態遷移の発生する最大数max(1)(状態遷移621、623)、状態遷移要素の次の要素next(d)(状態遷移622)が記載されている。
さらに、この例では、例えばネットワークインタフェースから図9に示すXML文書530がSAXパーサ410に入力されたとする。図10はXML文書530をSAXパーサ410により最後まで解析した場合に発生するイベントを示している。SAXパーサ410から検索オートマトン管理部140にイベント701から703が渡されると、はじめ状態611の検索オートマトン600は、状態612、状態613、状態614と順に遷移し1回目の結果を出力する。このとき、状態遷移621と623は最大出現回数の中断条件が合致するため削除される。次いで、イベント704、705により状態612に戻る。さらに、イベント706により状態613に遷移するが、このとき状態遷移623の中断条件はステップS173の処理に従い初期値に戻され、状態遷移が復元される。さらにイベント707により2回目の結果を出力する。このとき残っている状態遷移は状態遷移622のみである。イベント708,709により状態612に戻り、イベント710によって次要素の中断条件が満たされるため状態遷移622も削除される。これによって検索オートマトン600内に有効な状態遷移がすべてなくなるため、SAXパーサ410に中断を指示し、検索を終了する。
このように動作することにより、イベント710以降の処理を行う必要がなく、検索の負荷を軽減することができる。
上述した構成とすることで、構造化文書を最後まで解析することなく検索式によって指定された要素を過不足なく抽出することが可能になる。
また、検索式で指定された要素が出現しなくなる条件を検索オートマトンに付加し、条件が満たされた場合に解析を終了することによって、構造化文書を最後まで解析することなく、検索式で指定された要素を過不足なく検索できる。
また、検索式で指定された要素が出現しなくなる条件を検索オートマトンに付加し、条件が満たされた場合に解析を終了することによって、構造化文書を最後まで解析することなく、検索式で指定された要素が出現しないことを判断できる。
本発明によれば、XML文書から特定の情報を抽出する用途に適用できる。また、本発明によれば、例えば、通信路上を流れるXML文書から特定の要素を抽出してルーティングを行うルータに適用できる。さらに、経路制御、ログの採取、アクセス制御、メッセージ変換など様々な制御を通信経路上で行う通信中継装置といった用途に適用できる。また、検索装置に到着したXML文書等の構造化文書から抽出した要素に応じて処理モジュールを決定する処理装置として適用することも可能である。

Claims (11)

  1. 検索式によって指定された要素を構造化文書から抽出する構造化文書検索装置であって、
    前記構造化文書を解析する構造化文書解析部と、
    検索式を入力して解析する検索式解析部と、
    構造情報を入力して解析する構造情報解析部と、
    検索オートマトン管理部とを含み、
    前記検索オートマトン管理部は、
    前記検索式解析部が解析した前記検索式の解析結果と前記構造情報解析部が解析した前記構造情報とから、前記構造情報から状態遷移を中断するための中断情報を当該状態遷移に付加した検索オートマトンを作成し、
    前記検索式の解析結果に基づいて前記検索オートマトンを状態遷移し、
    前記中断条件が満たされた場合には前記検索オートマトンから該当する状態遷移を削除し、
    前記解析結果のイベントが要素の開始を示すイベントである場合において、当該要素とその子要素とに係る前記状態遷移が削除されている場合は、当該削除されている状態遷移を復元し、
    前記検索オートマトン内に有効な状態遷移がなくなった場合には、前記構造化文書解析部に解析の中断を指示し検索を終了することを特徴とする構造化文書検索装置
  2. 構造情報解析部は、記憶装置を備え、入力された前記構造情報の解析結果を前記記憶装置に蓄積し、
    前記検索オートマトン管理部は、前記検索式解析部から渡された検索式に従って、前記記憶装置から、蓄積された前記構造情報の解析結果を取得することを特徴とする請求項1に記載の構造化文書検索装置
  3. 前記構造情報が、要素の最大出現回数および要素の出現順序のいずれかまたは両方を含み、
    前記検索オートマトン管理部は、前記要素の最大出現回数の情報および要素の出現順序の情報のいずれかまたは両方から前記中断条件を生成することを特徴とする請求項1または請求項2記載の構造化文書検索装置
  4. 前記構造化文書がXML文書であることを特徴とする
    請求項1から請求項3のうちのいずれか1項に記載の構造化文書検索装置
  5. 前記検索式がXパスであることを特徴とする
    請求項1から請求項4のうちのいずれか1項に記載の構造化文書検索装置
  6. 前記構造情報がXMLスキーマであることを特徴とする
    請求項1から請求項5のうちのいずれか1項に記載の構造化文書検索装置
  7. 検索式によって指定された要素を構造化文書から抽出する構造化文書検索方法であって、
    検索式を入力して解析し、
    構造情報を入力して解析し、
    検索式の解析結果と構造情報の解析結果とから、前記構造情報の解析結果から状態遷移を中断するための中断条件を当該状態遷移に付加した検索オートマトンを作成し、
    前記検索式の解析結果に基づいて前記検索オートマトンを状態遷移し、
    前記中断条件が満たされた場合には前記検索オートマトンから該当する状態遷移を削除し、
    前記解析結果のイベントが要素の開始を示すイベントである場合において、当該要素とその子要素とに係る前記状態遷移が削除されている場合は、当該削除されている状態遷移を復元し、
    有効な状態遷移がなくなった場合には、前記構造化文書の解析を中断し検索を終了する
    ことを特徴とする構造化文書検索方法
  8. 前記構造情報を蓄積しておき、入力された前記検索式から必要な構造情報を決定し使用することを特徴とする
    請求項7記載の構造化文書検索方法
  9. 検索式によって指定された要素を構造化文書から抽出する構造化文書検索プログラムであって、
    コンピュータに、
    検索式を入力して解析するステップと、
    検索式の解析結果と構造情報の解析結果とから、前記構造情報から状態遷移を中断するための中断条件を当該状態遷移に付加した検索オートマトンを作成するステップと、
    前記検索式の解析結果に基づいて前記検索オートマトンを状態遷移するステップと、
    前記中断条件が満たされた場合には前記検索オートマトンから該当する状態遷移を削除するステップと、
    前記解析結果のイベントが要素の開始を示すイベントである場合において、当該要素とその子要素とに係る前記状態遷移が削除されている場合は、当該削除されている状態遷移を復元するステップと、
    有効な状態遷移がなくなった場合に前記構造化文書の解析を中断し、検索を終了するステップとを実行させる
    ことを特徴とする構造化文書検索プログラム
  10. コンピュータに、
    入力された前記構造情報を解析して、前記検索オートマトンの作成に使用するステップを実行させる請求項9記載の構造化文書検索プログラム
  11. コンピュータに、
    前記構造情報を蓄積するステップと、
    入力された前記検索式から必要な構造情報を決定し、蓄積された前記構造情報から取得するステップと
    を実行させる請求項9記載の構造化文書検索プログラム
JP2007500615A 2005-01-25 2006-01-23 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム Expired - Fee Related JP4978894B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007500615A JP4978894B2 (ja) 2005-01-25 2006-01-23 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005017331 2005-01-25
JP2005017331 2005-01-25
PCT/JP2006/301373 WO2006080469A1 (ja) 2005-01-25 2006-01-23 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
JP2007500615A JP4978894B2 (ja) 2005-01-25 2006-01-23 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム

Publications (2)

Publication Number Publication Date
JPWO2006080469A1 JPWO2006080469A1 (ja) 2008-06-19
JP4978894B2 true JP4978894B2 (ja) 2012-07-18

Family

ID=36740491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007500615A Expired - Fee Related JP4978894B2 (ja) 2005-01-25 2006-01-23 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム

Country Status (3)

Country Link
US (1) US20080133450A1 (ja)
JP (1) JP4978894B2 (ja)
WO (1) WO2006080469A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4982154B2 (ja) * 2006-11-08 2012-07-25 株式会社日立製作所 構造化文書の構文解析方法及び装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339311A (ja) * 1999-05-28 2000-12-08 Nec Corp 言語解析装置及び方法並びに記録媒体
JP2001282856A (ja) * 2000-03-31 2001-10-12 Toshiba Corp インデックス作成方法、インデックス表示方法、インデックス検索方法及びインデックス作成装置
WO2003088665A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Dispositif d'edition de metadonnees, dispositif de reproduction de metadonnees, dispositif de distribution de metadonnees, dispositif de recherche de metadonnees, dispositif d'etablissement de conditions de reproduction de metadonnees, et procede de distribution de metadonnees
JP2004295221A (ja) * 2003-03-25 2004-10-21 Internatl Business Mach Corp <Ibm> 情報処理装置、データベース検索システム及びそのアクセス権解析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3568062B2 (ja) * 1995-06-22 2004-09-22 富士ゼロックス株式会社 文書データベース管理装置と文書データベース管理方法
KR100558765B1 (ko) * 2002-11-14 2006-03-10 한국과학기술원 적응형 경로 인덱스를 이용한 xml 질의 수행 방법
JP4267336B2 (ja) * 2003-01-30 2009-05-27 インターナショナル・ビジネス・マシーンズ・コーポレーション 構造パターン候補を生成する方法、システムおよびプログラム
US7124147B2 (en) * 2003-04-29 2006-10-17 Hewlett-Packard Development Company, L.P. Data structures related to documents, and querying such data structures

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000339311A (ja) * 1999-05-28 2000-12-08 Nec Corp 言語解析装置及び方法並びに記録媒体
JP2001282856A (ja) * 2000-03-31 2001-10-12 Toshiba Corp インデックス作成方法、インデックス表示方法、インデックス検索方法及びインデックス作成装置
WO2003088665A1 (fr) * 2002-04-12 2003-10-23 Mitsubishi Denki Kabushiki Kaisha Dispositif d'edition de metadonnees, dispositif de reproduction de metadonnees, dispositif de distribution de metadonnees, dispositif de recherche de metadonnees, dispositif d'etablissement de conditions de reproduction de metadonnees, et procede de distribution de metadonnees
JP2004295221A (ja) * 2003-03-25 2004-10-21 Internatl Business Mach Corp <Ibm> 情報処理装置、データベース検索システム及びそのアクセス権解析方法

Also Published As

Publication number Publication date
WO2006080469A1 (ja) 2006-08-03
JPWO2006080469A1 (ja) 2008-06-19
US20080133450A1 (en) 2008-06-05

Similar Documents

Publication Publication Date Title
US9767082B2 (en) Method and system of retrieving ajax web page content
US7380239B1 (en) Method and mechanism for diagnosing computer applications using traces
JP4097263B2 (ja) ウェブアプリケーションモデル生成装置、ウェブアプリケーション生成支援方法及びプログラム
JP4427500B2 (ja) 意味解析装置、意味解析方法および意味解析プログラム
US20100058118A1 (en) Storage medium recording information reacquisition procedure generation program and information reacquisition procedure generation apparatus
US20040049768A1 (en) Method and program for compiling processing, and computer-readable medium recoding the program thereof
US11030384B2 (en) Identification of sequential browsing operations
US20110307488A1 (en) Information processing apparatus, information processing method, and program
CN111522708B (zh) 一种日志记录方法、计算机设备及存储介质
US20050187899A1 (en) Structured document processing method, structured document processing system, and program for same
JP4951416B2 (ja) プログラム検証方法、プログラム検証装置
JP5413198B2 (ja) ユーザインタフェース認識装置、ユーザインタフェース認識方法およびプログラム
KR20190058141A (ko) 문서로부터 추출되는 데이터를 생성하는 방법 및 그 장치
JP2020098596A (ja) ウェブページから情報を抽出する方法、装置及び記憶媒体
JP4978894B2 (ja) 構造化文書検索装置、構造化文書検索方法および構造化文書検索プログラム
CN106991144B (zh) 一种定制数据爬取工作流的方法及系统
JP2009259248A (ja) ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体
US20140337069A1 (en) Deriving business transactions from web logs
Liu et al. Testing of AJAX-based Web applications using hierarchical state model
US12001324B2 (en) Operation pattern generation apparatus, operation pattern generation method and program
US8775528B2 (en) Computer readable recording medium storing linking keyword automatically extracting program, linking keyword automatically extracting method and apparatus
JP4134824B2 (ja) 情報処理装置及びプログラム
JP4313698B2 (ja) 電子文書処理装置、電子文書処理方法および電子文書処理プログラム
US20050027470A1 (en) Interactive stub apparatus for testing a program and stub program storage medium
CN118013146A (zh) 一种支持自动收集和压缩字体的方法和装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080919

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110422

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20111017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120116

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20120124

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120326

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120408

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150427

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4978894

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees