JP5374456B2 - 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム - Google Patents

文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム Download PDF

Info

Publication number
JP5374456B2
JP5374456B2 JP2010169162A JP2010169162A JP5374456B2 JP 5374456 B2 JP5374456 B2 JP 5374456B2 JP 2010169162 A JP2010169162 A JP 2010169162A JP 2010169162 A JP2010169162 A JP 2010169162A JP 5374456 B2 JP5374456 B2 JP 5374456B2
Authority
JP
Japan
Prior art keywords
document
row
search
sub
identifiers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2010169162A
Other languages
English (en)
Other versions
JP2012032858A (ja
Inventor
恭太郎 堀口
壮 日比野
清 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2010169162A priority Critical patent/JP5374456B2/ja
Publication of JP2012032858A publication Critical patent/JP2012032858A/ja
Application granted granted Critical
Publication of JP5374456B2 publication Critical patent/JP5374456B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラムに関するものである。
XML文書のような構造化文書を格納して検索する方法としては、大きく分けると、構造情報を利用して汎用的な検索を実現する方式と、用途に特化して従来の記述の上で検索を実現するという2つの方針がある。前者の方針の例としては構造化データの構造定義(スキーマ)を参照してノードの位置を表すパスとノード間の関係を用いて文書のデータを平坦化しリレーショナルデータベースなどに格納して検索を行うものがある(特許文献1)。
そのほかの方法としては平坦化を行わず構造を直接記憶装置に格納するものがある。
後者の方針は具体的には既知の構造のXML文書で検索に用いる情報のみをリレーショナルデータベースに格納してリレーショナル演算の結果XMLデータを単なる文字列として取り出すという方法がとられることが多い。
また別の観点では近年大容量のメモリを搭載したコンピュータが安価になっていることと、要求される情報処理の速度の飛躍的な高まりに対応するために比較的大容量の情報をすべてメモリ上で処理するということも行われるようになってきている。東京証券取引所のアローヘッドなどは最近の代表例となる。
さらにはすべてのデータを識別子だけから取り出すという操作に特化することでデータの取得の所要時間を劇的に低下させる仕組み(キーバリューストア/KVS)も普及してきている。
特許第3583688号公報
前述の一番目の方針は汎用性を目指しており、最終的にはXpathやXquery などの構造化文書における検索言語を完全にカバーすることを目標としているため一般的に処理が複雑で性能の限界値はそれほど高くはない。二番目の方針に関してもリレーショナルモデルをベースとしているため再帰的な繰り返し構造を持つXMLデータを格納するために元々単一の文書中のデータを一旦複数のテーブルに分割して登録し、検索の際には各テーブルの検索結果の集合演算に際して文書IDに関する結合演算(JOIN)を行う必要があり、処理量が非常に多くなることが避けられない。
XMLベースで情報の受け渡しを行うシステムやサービスに対してデータや検索のための付加情報をすべてメモリの上で扱うオンメモリ化のアプローチをとることのみでもそれなりに高速化は望めるが、それでも前者の方針に基づく方式ではそれほど複雑な検索条件などを利用しない用途にはそもそも処理量が大きく、後者の方針に関してはメモリ上のみで動作するリレーショナルデータベースシステムは少ない。
リレーショナルデータベースでの結合演算の処理に広く使われている方式にはネステッドループ・ジョイン、ソートマージ・ジョイン、ハッシュ・ジョインがあるが、オンメモリを前提とした場合でも文字列キーによる結合ではネステッドループ・ジョインでは O(n^2)回の文字列比較が、ソートマージ・ジョインではソートにクイックソートを使ったものとすれば平均O(n log n), 最大O(n^2)の文字列比較とマージ処理でO(n)回の文字列比較が必要で、ハッシュ・ジョインではシノニムの程度によるがO(n)回程度の文字列比較が必要となる。またいずれの場合もソートのためのカラムデータの取得と変換のステップが必要となる。
文書の構成があらかじめ決まっていて、検索のパターンの複雑度がそれほど高くない用途に対しては上記の方法が実現しうる機能はいずれも過大なものとなる。
本発明は、上記の課題に鑑みてなされたものであり、その目的とするところは、文書を高速に検索できる文書検索装置の動作方法を提供することにある。
上記の課題を解決するために、本発明に係る文書検索装置の動作方法は、1以上の各文書に1対1で対応し且つ該当文書の内容を含む行を有するマスタテーブルと、該マスタテーブルのいずれかの行に対応する文書を示す文書識別子と当該文書の別な内容とを含む行を有するサブテーブルとを備える文書検索装置の動作方法であって、入力された文書から前記マスタテーブルに記憶すべき内容を取り出し該内容を含む行を前記マスタテーブルに生成し、当該文書から前記サブテーブルに記憶すべき内容を取り出し該内容と当該文書を示す文書識別子とを有する行を前記サブテーブルに生成する文書登録ステップと、前記マスタテーブルから行集合を得る処理、前記サブテーブルから行集合を得る処理、行集合間の集合演算で行集合を得る処理、当該各処理を繰り返して行集合を得る処理の中から、入力された文書検索文で指定された処理を選択して行い、サブテーブルから得た行集合間の集合演算では、一方の行集合内の文書識別子の集合と、他方の行集合内の文書識別子の集合とで集合演算を行い、マスタテーブルから得た行集合とサブテーブルから得た行集合の間の集合演算では、マスタテーブルから得た行集合に対応する文書識別子の集合と、サブテーブルから得た行集合内の文書識別子の集合とで集合演算を行う文書検索ステップとを備える。
本発明によれば、サブテーブルから得た行に含まれる文書識別子を用いて集合演算を行うので、サブテーブルから得た行に含まれる文書の内容を用いて集合演算を行う必要がなく、よって、文書を高速に検索することができる。
本実施の形態に係る文書検索装置の構成図である。 構造化文書の構成と内容の例を示す図である。 構造化文書の構成を示すスキーマの例を示す図である。 テーブルの構成と内容の例を示す図である。 テーブルの別な構成と内容の例を示す図である。 文書登録部13の動作を示すフローチャートである。 文書検索部14の動作を示すフローチャートである。 文書検索部14の詳細な動作を示すフローチャートである。 集合演算についての第1例を示す図である。 集合演算についての第2例を示す図である。 集合演算についての第3例を示す図である。 集合演算についての第4例を示す図である。 文書検索文の例を示す図である。 検索実行ツリーの例を示す図である。
以下、本発明の実施の形態について図面を参照して説明する。
図1は、本実施の形態に係る文書検索装置の構成図である。
文書検索装置1は、構造化文書を登録し、検索端末2から入力される文書検索文を満たす構造化文書を検索し、検索結果を検索端末2に出力するものである。
文書検索装置1は、1つのマスタテーブル11と、1以上のサブテーブル12と、マスタテーブル11とサブテーブル12に構造化文書を登録する文書登録部13と、マスタテーブル11とサブテーブル12から構造化文書を検索する文書検索部14とを備える。
文書登録部13は、外部から構造化文書を取得し、構造化文書から必要な情報を取り出すパース処理部131と、取りだした情報をマスタテーブル11とサブテーブル12に記憶させるデータ登録部132とを備える。
文書検索部14は、文書検索文の構造を解析する構文解析部141と、解析により得た検索ツリーにより検索を実行する検索実行部142と、得られた検索結果を検索端末2に出力する結果返却部143を備える。
マスタテーブル11とサブテーブル12は、記憶装置に設けられる。
図2は、構造化文書の構成と内容の例を示す図である。
図2(a)に示す構造化文書Aは、該当の構造化文書の英語の題名「A Search method for structured documents」および英語を示す情報「en」の組、該当の構造化文書の日本語の題名「構造化文書の検索方法」および日本語を示す情報「ja」の組、該構造化文書の制作年「2010」、該構造化文書のジャンルを示す情報「information processing」を含む。
図2(b)に示す構造化文書Bは、該当の構造化文書の英語の題名「Semi−structured data」および英語を示す情報「en」の組、該当の構造化文書の日本語の題名「半構造データ」および日本語を示す情報「ja」の組、該構造化文書の制作年「2001」、該構造化文書のジャンルを示す情報「information processing」を含む。
図3は、構造化文書の構成を示すスキーマの例を示す図である。
スキーマには、例えば、“title”、“year”、“genre”を含む各行があり、これにより、構造化文書が題名、制作年、ジャンルを示す情報を含むべき旨が示されいる。
図4は、テーブルの構成と内容の例を示す図である。
マスタテーブル11は、ここでは、複数の行を有する。各行は、該当の構造化文書に1対1で対応し、該当の構造化文書の制作年、該当の構造化文書のジャンルを示す情報を含む。
サブテーブル12の先頭行は、マスタテーブル11の先頭行に対応する構造化文書を示す文書識別子「1」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。また、2番目の行は、同じ文書識別子「1」、当該構造化文書の英語の題名および英語を示す情報「en」を含む。
3番目の行は、マスタテーブル11の2番目の行に対応する構造化文書を示す文書識別子「2」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。また、3番目の行は、同じ文書識別子「2」、当該構造化文書の英語の題名および英語を示す情報「en」を含む。
5番目の行は、マスタテーブル11の3番目の行に対応する構造化文書を示す文書識別子「3」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。
6番目の行は、マスタテーブル11の4番目の行に対応する構造化文書を示す文書識別子「4」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。また、7番目の行は、同じ文書識別子「4」、当該構造化文書の英語の題名および英語を示す情報「en」を含む。また、8番目の行は、同じ文書識別子「4」、当該構造化文書のドイツ語の題名およびドイツ語を示す情報「de」を含む。
9番目の行は、マスタテーブル11の5番目の行に対応する構造化文書を示す文書識別子「5」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。
10番目の行は、マスタテーブル11の6番目の行に対応する構造化文書を示す文書識別子「6」、当該構造化文書の日本語の題名および日本語を示す情報「ja」を含む。
文書識別子はCPUの1命令で直接扱えるものが望ましく、特にマスタテーブル11がメモリにある場合は、マスタテーブル11の行のデータが格納されているメモリアドレスを文書識別子としてもよい。
なお、図4の構成に代えて、図5のようにしてもよい。
つまり、マスタテーブル11の各行には、該当の構造化文書の制作年を含ませ、図4のサブテーブル12とは別に、さらにサブテーブル12を設け、その各行には、マスタテーブル11の行に対応する構造化文書を示す文書識別子、当該構造化文書のジャンルを示す情報を含ませてもよい。
(文書検索装置1の動作)
次に、文書検索装置1の動作を説明する。まず、文書登録部13の動作を説明する。
図6は、文書登録部13の動作を示すフローチャートである。
パース処理部131は、外部から対象の構造化文書を取得し、構造化文書を要素に分解する(S1)。次に、データ登録部132が、マスタテーブル11に登録すべき要素を含む行をマスタテーブル11に生成する(S2)。次に、データ登録部132が、当該行に対応する構造化文書つまり取得した構造化文書を示す文書識別子を取得し(S3)、当該文書識別子と、サブテーブル12に登録すべき要素とを含む行をサブテーブル12に生成する(S4)。
文書登録部13は、他の構造化文書についても同様な処理を行う。こうして、マスタテーブル11とサブテーブル12の行が増加していく。
図3に示したスキーマを用いて、図4のマスタテーブル11、サブテーブル12を構築する際には、パース処理部131は、外部から対象の構造化文書を取得し、スキーマに基づいて、当該構造化文書から日本語の題名、英語の題名、制作年、ジャンルを取り出す(S1)。
次に、データ登録部132が、取りだした制作年、ジャンルを含む行をマスタテーブル11に生成する(S2)。また、データ登録部132は、当該行に対応する構造化文書つまり取得した構造化文書を示す文書識別子を取得し(S3)、当該文書識別子と、取り出した日本語の題名および情報「ja」の組を含む行をサブテーブル12に生成する(S4)。また、データ登録部132は、当該文書識別子と、取り出した英語の題名および情報「en」の組を含む行をサブテーブル12に生成する(S4)。
次に、文書検索部14の動作を説明する。
図7は、文書検索部14の動作を示すフローチャートである。
構文解析部141は、検索端末2から文書検索文を取得し、構文解析を行い、検索実行ツリーに変換する(S11)。次に、検索実行部142は、検索実行ツリーのルートノードから再帰的にノードを処理する(S12)。次に、検索実行部142は、処理結果を結果返却部143を介して、検索端末2に出力し(S13)、処理を終える。
図8は、図7のステップS12における処理のフローチャートである。
検索実行部142は、まず、ルートノードからノードの種別を判定する(S121)。検索実行部142は、そのノードが検索ノードなら、検索を実行し、結果を出力し(S123)、処理を終わる。
検索実行部142は、そのノードが集合演算ノードなら、左辺、右辺の各ノード処理を行う(S125、S127)。検索実行部142は、このノード処理については、図8のフローチャートに従って再帰的に処理を行う。
次に、検索実行部142は、ステップS125で得られた集合と、ステップS127で得られた集合と、に対し、ステップS121で判定したノードに対応する集合演算を行い、結果を出力し(S129)、処理を終わる。
[集合演算の例(1)]
ここで、図8のステップS125、S127のそれぞれで、マスタテーブル11の検索の結果、または、再帰処理の結果として、文書識別子の集合が得られた場合のステップS129での集合演算の例を説明する。
図9に示すように、ステップS125で、例えば、文書識別子の集合「1,3,4,9,13,16,32,38,…」が得られ、ステップS127で、例えば、文書識別子の集合「2,4,5,32,58,62…」が得られる。
検索実行部142は、ステップS129の集合演算が論理積演算なら、これらの文書識別子の集合の論理積演算の結果、文書識別子の集合「4、32、…」を出力する。
なお、図示省略するが、図8のステップS125、S127のそれぞれで、同一のサブテーブル12の検索の結果、または、再帰処理の結果として、当該サブテーブルの行を示す識別子(行識別子という)の集合が得られた場合、検索実行部142は、ステップS129の集合演算が論理積演算なら、図9に示す文書識別子の集合の論理積演算と同様に、行識別子の集合の論理積演算を行い、結果(行識別子の集合)を出力する。
[集合演算の例(2)]
次に、図8のステップS125、S127のそれぞれで、異なるサブテーブル12の検索の結果、または、再帰処理の結果として、当該サブテーブルの行を示す行識別子が得られた場合のステップS129での集合演算の例を説明する。
図10に示すように、ステップS125で、例えば、行識別子の集合「61,28,94,29,86,33,39,89,…」が得られ、ステップS127で、行識別子の集合「61,28,94,27,86,33,39,90,…」が得られる。
検索実行部142は、まず、ステップS125の検索で得た行識別子を有する行内の文書識別子の集合「2,4,5,32,58,62,…」を得て、また、ステップS127の検索で得た行識別子を有する行内の文書識別子の集合「2,4,6,32,58,61,…」を得る。
検索実行部142は、ステップS129の集合演算が論理積演算なら、これらの文書識別子の集合の論理積演算の結果、文書識別子の集合「2,4,32,58,…」を得る。
そして、検索実行部142は、ステップS129では、最終的に文書識別子の集合「2,4,32,58,…」を有する当該サブテーブル内の行識別子の集合「61,28,94,86,33,39,…」を出力する。
[集合演算の例(3)]
次に、図8のステップS125で、マスタテーブル11の検索の結果、または、再帰処理の結果として、文書識別子の集合が得られ、ステップS127でサブテーブル12の検索の結果、または、再帰処理の結果として、当該サブテーブルの行識別子が得られた場合のステップS129での集合演算の例を説明する。
図11に示すように、ステップS125で、例えば、文書識別子の集合「1,3,4,9,13,16,32,38,…」が得られ、ステップS127で、例えば、サブテーブルの行識別子の集合「61,28,94,27,86,33,39,90,…」が得られる。
検索実行部142は、まず、ステップS127の検索で得た行識別子を有する行内の文書識別子の集合「2,4,6,32,58,61,…」を得る。
検索実行部142は、ステップS129の集合演算が論理積演算なら、これらの文書識別子の集合の論理積演算の結果、ステップS129では、最終的に文書識別子の集合「4,32,…」を出力する。
[集合演算の例(4)]
次に、図8のステップS125で、サブテーブル12の検索の結果、または、再帰処理の結果として、当該サブテーブルの行識別子が得られ、ステップS127で、マスタテーブル11の検索の結果、または、再帰処理の結果として、文書識別子の集合が得らた場合のステップS129での集合演算の例を説明する。
図12に示すように、ステップS125で、例えば、行識別子の集合「61,28,94,29,86,33,39,89,…」が得られ、ステップS127で、文書識別子の集合「2,4,6,32,58,61,…」が得られる。
検索実行部142は、まず、ステップS125の検索で得た行識別子を有する行内の文書識別子の集合「2,4,5,32,58,62,…」を得る。
検索実行部142は、ステップS129の集合演算が論理積演算なら、これらの文書識別子の集合の論理積演算の結果、文書識別子の集合「2,4,32,58,…」を得る。
そして、検索実行部142は、ステップS129では、最終的に文書識別子の集合「2,4,32,58,…」を有する当該サブテーブル内の行識別子の集合「61,28,94,86,33,39,…」を出力する。
図13は、文書検索文の例を示す図である。
この文書検索文は、「題名に「structured」を含み、当該題名の言語である英語を示す情報「en」を含み、制作年が「2010」より後である構造化文書を検索せよ」との意味を有する。
図14は、検索実行ツリーの例を示す図である。
図13の文書検索文から変換された検索実行ツリーは、「題名の言語である英語を示す情報「en」を含む」という条件に該当する検索ノードN1と、「題名が「structured」を含む」という条件に該当する検索ノードN2と、検索ノードN1、N2に接続されて「検索ノードN1、N2の検索結果の論理積(AND)」を求める集合演算を示す集合演算ノードN3と、「制作年が「2010」より後である」という条件に該当する検索ノードN4と、集合演算ノードN3と検索ノードN4とに接続されて「集合演算ノードN3の演算結果と検索ノードN4の検索結果の論理積(AND)」を求める集合演算を示す集合演算ノードN5(ルートノード)とを有する。
集合演算ノードN5に対し、検索ノードN4が左辺、集合演算ノードN3が右辺となっている。また、集合演算ノードN3に対し、検索ノードN1が左辺、検索ノードN2が右辺となっている。
図14の検索実行ツリーによる検索は、図7、図8のフローチャート、図9…図12の例にしたがい、以下のように実行される。
まず、ルートノードの左辺に該当する検索ノードN4の条件に合致するマスタテーブル11の行の集合が検索され、対応する文書識別子の集合が取得される。
次に、ルートノードの右辺に該当するノードが集合演算ノードN3なので、集合演算ノードN3の左辺に該当する検索ノードN1の条件に合致するサブテーブル12の行の集合が検索され、対応する行識別子の集合が取得される。
次に、集合演算ノードN3の右辺に該当する検索ノードN2の条件に合致するマスタテーブル11の行の集合が検索され、対応する文書識別子の集合が取得される。
次に、集合演算ノードN3に該当する演算において、まず、検索ノードN1の検索で得られた行識別子の集合に対応する文書識別子の集合が得られ、この文書識別子の集合と検索ノードN2の検索で得られた文書識別子の集合の論理積(文書識別子の集合)が得られ、この文書識別子の集合に対応する行識別子の集合が得られる。
次に、集合演算ノードN5に該当する演算において、まず、集合演算ノードN3の演算で得られた行識別子の集合に対応する文書識別子の集合が得られ、この文書識別子の集合と検索ノードN4の検索で得られた文書識別子の集合の論理積(文書識別子の集合)が得られる。
以上説明したように、本実施の形態によれば、文書検索装置は、1以上の各文書に1対1で対応し且つ該当文書の内容を含む行を有するマスタテーブル11と、該マスタテーブル11のいずれかの行に対応する文書を示す文書識別子と当該文書の別な内容とを含む行を有するサブテーブルとを備え、入力された文書からマスタテーブル11に記憶すべき内容を取り出し該内容を含む行をマスタテーブルに生成し、当該文書からサブテーブルに記憶すべき内容を取り出し該内容と当該文書を示す文書識別子とを有する行をサブテーブルに生成し(文書登録ステップ)、マスタテーブルから行集合を得る処理、サブテーブルから行集合を得る処理、行集合間の集合演算で行集合を得る処理、当該各処理を繰り返して行集合を得る処理の中から、入力された文書検索文で指定された処理を選択して行い、サブテーブルから得た行集合間の集合演算では、一方の行集合内の文書識別子の集合と、他方の行集合内の文書識別子の集合とで集合演算を行い、マスタテーブルから得た行集合とサブテーブルから得た行集合の間の集合演算では、マスタテーブルから得た行集合に対応する文書識別子の集合と、サブテーブルから得た行集合内の文書識別子の集合とで集合演算を行う(文書検索ステップ)ので、つまり、サブテーブルから得た行に含まれる文書識別子を用いて集合演算を行うので、サブテーブルから得た行に含まれる文書の内容を用いて集合演算を行う必要がなく、よって、文書を高速に検索することができる。
すなわち、マスタテーブルとサブテーブルは文書識別子によって予め結合されている状態となっているので、集合演算が高速に実行でき、構造化文書を高速に検索することができる。
なお、本実施の形態に係る文書検索装置の動作方法をコンピュータを実行させるためのコンピュータプログラムは、半導体メモリ、磁気ディスク、光ディスク、光磁気ディスク、磁気テープなどのコンピュータ読み取り可能な記録媒体に記録でき、また、インターネットなどの通信網を介して伝送させて、広く流通させることができる。
1…文書検索装置
2…検索端末
11…マスタテーブル
12…サブテーブル
13…文書登録部
14…文書検索部
131…パース処理部
132…データ登録部
141…構文解析部
142…検索実行部
143…結果返却部

Claims (2)

  1. 1以上の各文書に1対1で対応し且つ該当文書の内容を含む行を有するマスタテーブルと、該マスタテーブルのいずれかの行に対応する文書を示す文書識別子と当該文書の別な内容とを含む行を有するサブテーブルとを備える文書検索装置の動作方法であって、
    入力された文書から前記マスタテーブルに記憶すべき内容を取り出し該内容を含む行を前記マスタテーブルに生成し、当該文書から前記サブテーブルに記憶すべき内容を取り出し該内容と当該文書を示す文書識別子とを有する行を前記サブテーブルに生成する文書登録ステップと、
    前記マスタテーブルから行集合を得る処理、前記サブテーブルから行集合を得る処理、行集合間の集合演算で行集合を得る処理、当該各処理を繰り返して行集合を得る処理の中から、入力された文書検索文で指定された処理を選択して行い、サブテーブルから得た行集合間の集合演算では、一方の行集合内の文書識別子の集合と、他方の行集合内の文書識別子の集合とで集合演算を行い、マスタテーブルから得た行集合とサブテーブルから得た行集合の間の集合演算では、マスタテーブルから得た行集合に対応する文書識別子の集合と、サブテーブルから得た行集合内の文書識別子の集合とで集合演算を行う文書検索ステップと
    を備える文書検索装置の動作方法。
  2. 請求項1記載の文書検索装置の動作方法をコンピュータに実行させるためのコンピュータプログラム。
JP2010169162A 2010-07-28 2010-07-28 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム Active JP5374456B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010169162A JP5374456B2 (ja) 2010-07-28 2010-07-28 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010169162A JP5374456B2 (ja) 2010-07-28 2010-07-28 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム

Publications (2)

Publication Number Publication Date
JP2012032858A JP2012032858A (ja) 2012-02-16
JP5374456B2 true JP5374456B2 (ja) 2013-12-25

Family

ID=45846227

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010169162A Active JP5374456B2 (ja) 2010-07-28 2010-07-28 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP5374456B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108434A (zh) * 2017-12-19 2018-06-01 福建中金在线信息科技有限公司 一种管理数据库的方法及装置

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000123014A (ja) * 1998-10-13 2000-04-28 Ricoh Co Ltd データ検索システムおよび方法
JP4398664B2 (ja) * 2003-04-03 2010-01-13 株式会社セック Xmlデータの検索方法及び検索装置、並びにプログラムおよびプログラムを記録した記録媒体
JP2005157898A (ja) * 2003-11-27 2005-06-16 Mitsubishi Electric Corp Xml/データベース連携装置
JP2005284575A (ja) * 2004-03-29 2005-10-13 Fujitsu Ltd タグ付き構造化文書格納システム、そのプログラム、及びその方法。
JP2007094733A (ja) * 2005-09-28 2007-04-12 Hitachi Ltd 情報処理装置、スキーマ作成方法、及びプログラム

Also Published As

Publication number Publication date
JP2012032858A (ja) 2012-02-16

Similar Documents

Publication Publication Date Title
US8255394B2 (en) Apparatus, system, and method for efficient content indexing of streaming XML document content
KR100493882B1 (ko) Xml 데이터 검색을 위한 질의 처리 방법
US9171100B2 (en) MTree an XPath multi-axis structure threaded index
US7461074B2 (en) Method and system for flexible sectioning of XML data in a database system
US8935267B2 (en) Apparatus and method for executing different query language queries on tree structured data using pre-computed indices of selective document paths
US7493305B2 (en) Efficient queribility and manageability of an XML index with path subsetting
US8862636B2 (en) Scalable algorithms for mapping-based XML transformation
US7398265B2 (en) Efficient query processing of XML data using XML index
WO2004053734A1 (en) Evaluating relevance of results in a semi-structured data-base system
Mani et al. XML to relational conversion using theory of regular tree grammars
JP5800441B2 (ja) 文書の圧縮、解凍及び照会のための方法及び装置
WO2015010509A1 (zh) 一种基于一维线性空间实现Trie树的词典检索方法
US20060161525A1 (en) Method and system for supporting structured aggregation operations on semi-structured data
KR100899616B1 (ko) 관계형 데이터베이스를 이용한 메타데이터 관리 방법 및시스템
US20130297657A1 (en) Apparatus and Method for Forming and Using a Tree Structured Database with Top-Down Trees and Bottom-Up Indices
US20090043806A1 (en) Efficient tuple extraction from streaming xml data
KR101221306B1 (ko) 데이터 구조를 항해하기 위한 방법 및 시스템
CN111475534B (zh) 一种数据查询方法及相关设备
US20090307187A1 (en) Tree automata based methods for obtaining answers to queries of semi-structured data stored in a database environment
CA2561734C (en) Index for accessing xml data
JP5374456B2 (ja) 文書検索装置の動作方法およびこれをコンピュータに実行させるためのコンピュータプログラム
KR101225333B1 (ko) 구문론적으로 분석된 텍스트 코퍼스로부터 정보를 추출하는 트리 패턴 표현식을 이용한 시스템 및 방법
TWI405089B (zh) 資料庫索引之建立方法、其電腦系統與電腦程式產品
Kim et al. Efficient processing of regular path joins using PID
Böttcher et al. S2CX: from relational data via SQL/XML to (Un-) Compressed XML

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130221

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130226

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130917

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130920

R150 Certificate of patent or registration of utility model

Ref document number: 5374456

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350