JP2002351881A - 構造化文書格納検索装置および構造化文書格納検索プログラム - Google Patents
構造化文書格納検索装置および構造化文書格納検索プログラムInfo
- Publication number
- JP2002351881A JP2002351881A JP2001153963A JP2001153963A JP2002351881A JP 2002351881 A JP2002351881 A JP 2002351881A JP 2001153963 A JP2001153963 A JP 2001153963A JP 2001153963 A JP2001153963 A JP 2001153963A JP 2002351881 A JP2002351881 A JP 2002351881A
- Authority
- JP
- Japan
- Prior art keywords
- structured document
- storage
- input
- link
- procedure
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
(57)【要約】
【課題】 構造化文書を高速に検索するための索引付け
をおこないながらも、構造化文書を分割せずそのまま格
納して、検索の結果を得ることができること。 【解決手段】 構造化文書格納検索装置100は、構造
化文書ファイルを入力する文書入力部101と、入力さ
れた構造化文書ファイルに加工を加えずそのまま格納す
る記憶装置104と、入力された構造化文書ファイルか
ら、特定のタグで囲まれた部分の文字列を所定のデータ
型に解釈し、解釈されたデータ型と記憶装置104に格
納された構造化文書ファイルの格納位置とのリンクを構
築する索引付け・格納処理部103と、検索条件を入力
する問い合わせ入力部105と、入力された検索条件
と、索引付け・格納処理部103により構築されたリン
クに基づいて、構造化文書を検索する問い合わせ処理部
106と、を備える。
をおこないながらも、構造化文書を分割せずそのまま格
納して、検索の結果を得ることができること。 【解決手段】 構造化文書格納検索装置100は、構造
化文書ファイルを入力する文書入力部101と、入力さ
れた構造化文書ファイルに加工を加えずそのまま格納す
る記憶装置104と、入力された構造化文書ファイルか
ら、特定のタグで囲まれた部分の文字列を所定のデータ
型に解釈し、解釈されたデータ型と記憶装置104に格
納された構造化文書ファイルの格納位置とのリンクを構
築する索引付け・格納処理部103と、検索条件を入力
する問い合わせ入力部105と、入力された検索条件
と、索引付け・格納処理部103により構築されたリン
クに基づいて、構造化文書を検索する問い合わせ処理部
106と、を備える。
Description
【0001】
【発明の属する技術分野】本発明は、構造化文書格納検
索装置および構造化文書格納検索プログラムに関し、特
に、構造化文書を格納し、構造化文書の論理構造に対す
る検索をおこなう構造化文書格納検索装置および構造化
文書格納検索プログラムに関する。
索装置および構造化文書格納検索プログラムに関し、特
に、構造化文書を格納し、構造化文書の論理構造に対す
る検索をおこなう構造化文書格納検索装置および構造化
文書格納検索プログラムに関する。
【0002】
【従来の技術】従来、一般に、電子的な文書は、その属
性として、たとえば、表題が何か、作成者は誰か、作成
日はいつか、本文は何かなどの論理的な構造を持ってい
る。近年、このような文書の論理的な構造を表現するた
めに、XMLという言語が提案されている。XMLにお
いては、文書を構成する文字列を<…>と</…>の対
で囲むことによって、その部分がどのような論理的な構
造の構成要素となるかを示すことができる。
性として、たとえば、表題が何か、作成者は誰か、作成
日はいつか、本文は何かなどの論理的な構造を持ってい
る。近年、このような文書の論理的な構造を表現するた
めに、XMLという言語が提案されている。XMLにお
いては、文書を構成する文字列を<…>と</…>の対
で囲むことによって、その部分がどのような論理的な構
造の構成要素となるかを示すことができる。
【0003】このような<…>と</…>はタグと呼ば
れている。たとえば、XML言語で、 <作成日>19991206</作成日>と表記するこ
とにより、19991206が文書の「作成日」である
という論理構造を表現することが可能である。
れている。たとえば、XML言語で、 <作成日>19991206</作成日>と表記するこ
とにより、19991206が文書の「作成日」である
という論理構造を表現することが可能である。
【0004】一方、文書を含む情報の格納および検索に
は、リレーショナルデータベースシステムが用いられて
いる。リレーショナルデータベースシステムは、情報を
列と行からなる二次元の表に格納するデータベースシス
テムである。このシステムでは、列の値から行を特定す
るための索引を用いて、列の値の条件を満たす行を高速
に検索することが可能である。
は、リレーショナルデータベースシステムが用いられて
いる。リレーショナルデータベースシステムは、情報を
列と行からなる二次元の表に格納するデータベースシス
テムである。このシステムでは、列の値から行を特定す
るための索引を用いて、列の値の条件を満たす行を高速
に検索することが可能である。
【0005】列の値の条件には、「与えられた値と等し
い」や「与えられた値以上」であるといった大小の比較
の条件があり、このような条件を処理するためにバイナ
リツリーによる索引が一般に使われ、また最近では、
「与えられた文字列を含む」という条件を高速に処理す
る全文索引機能を備えたシステムもある。
い」や「与えられた値以上」であるといった大小の比較
の条件があり、このような条件を処理するためにバイナ
リツリーによる索引が一般に使われ、また最近では、
「与えられた文字列を含む」という条件を高速に処理す
る全文索引機能を備えたシステムもある。
【0006】リレーショナルデータベースシステムは、
その構造上、XMLのような構造化文書との親和性が高
い。特定のタグで囲まれた部分を表の特定の列と対応付
けることにより、構造化文書を列の並び、すなわち表の
行とみなすことができるからである。したがって、この
ように構造化文書をデータベースシステムに格納すれ
ば、表の列に索引をつけることができ、その結果とし
て、構造化文書の検索を高速におこなうことが可能とな
る。
その構造上、XMLのような構造化文書との親和性が高
い。特定のタグで囲まれた部分を表の特定の列と対応付
けることにより、構造化文書を列の並び、すなわち表の
行とみなすことができるからである。したがって、この
ように構造化文書をデータベースシステムに格納すれ
ば、表の列に索引をつけることができ、その結果とし
て、構造化文書の検索を高速におこなうことが可能とな
る。
【0007】なお、このような従来技術として、たとえ
ば、特開平5−189430号公報「索引語管理装
置」、特開平6−348756号公報「索引作成装置及
び索引利用装置」、特開平9−218880号公報「ド
キュメントデータ検索システム」、特開平10−116
284号公報「文書処理装置」が挙げられる。
ば、特開平5−189430号公報「索引語管理装
置」、特開平6−348756号公報「索引作成装置及
び索引利用装置」、特開平9−218880号公報「ド
キュメントデータ検索システム」、特開平10−116
284号公報「文書処理装置」が挙げられる。
【0008】
【発明が解決しようとする課題】しかしながら、従来の
技術では以下の問題点があった。すなわち、構造化文書
とリレーショナルデータベースシステムとは親和性が高
いといわれてはいるが、リレーショナルデータベースシ
ステムでは、列の数が固定の表を用いているので、構造
化文書に繰り返しが存在する場合には、一つの文書が複
数の行に分割される現象が発生する。
技術では以下の問題点があった。すなわち、構造化文書
とリレーショナルデータベースシステムとは親和性が高
いといわれてはいるが、リレーショナルデータベースシ
ステムでは、列の数が固定の表を用いているので、構造
化文書に繰り返しが存在する場合には、一つの文書が複
数の行に分割される現象が発生する。
【0009】たとえば、図3に示した文書を構造化文書
で表すと図4の様になる。図に示したように、「<発注
データ>」と「</発注データ>」とによって囲まれた
部分の繰り返しが存在するため、これをリレーショナル
データベースの表で表現すると図5に示すように複数の
行に分解する必要がある。
で表すと図4の様になる。図に示したように、「<発注
データ>」と「</発注データ>」とによって囲まれた
部分の繰り返しが存在するため、これをリレーショナル
データベースの表で表現すると図5に示すように複数の
行に分解する必要がある。
【0010】このため、データベースに入っているデー
タから構造化文書を得るためには、それぞれの列の役割
や意味を覚えておき、複雑な操作をおこなう必要があ
る。図5に示した例では、「発注番号」の列は発注書の
番号であり、これが同じ値である行のデータが一枚の発
注書のデータを構成するという役割や意味を覚えてお
き、発注書番号の値が同じになっている行を表から探し
て構造化文書を得なければいけない。
タから構造化文書を得るためには、それぞれの列の役割
や意味を覚えておき、複雑な操作をおこなう必要があ
る。図5に示した例では、「発注番号」の列は発注書の
番号であり、これが同じ値である行のデータが一枚の発
注書のデータを構成するという役割や意味を覚えてお
き、発注書番号の値が同じになっている行を表から探し
て構造化文書を得なければいけない。
【0011】上の例では一つの表のみを作ったのである
が、「扱い者」などの列に同じ値が繰り返し存在するた
め、通常はこの重複を取り除くために表の正規化という
操作がおこなわれる。たとえば、誰がどの発注書を取り
扱ったかを表す表を別に用意することがおこなわれる。
その結果、もともと一つであった表が複数の表に分割さ
れてしまい、もとの構造化文書を得るためには、ますま
す複雑な操作が要求されるという問題点があった。
が、「扱い者」などの列に同じ値が繰り返し存在するた
め、通常はこの重複を取り除くために表の正規化という
操作がおこなわれる。たとえば、誰がどの発注書を取り
扱ったかを表す表を別に用意することがおこなわれる。
その結果、もともと一つであった表が複数の表に分割さ
れてしまい、もとの構造化文書を得るためには、ますま
す複雑な操作が要求されるという問題点があった。
【0012】このような問題を解決する手段の一つとし
ては、構造化文書全体に全文索引をつけることが考えら
れる。実際、全文索引は特定の文字列を含む文書を探す
ことは高速にできる。たとえば、扱い者が山田である文
書を探すには、<扱い者>山田</扱い者>という文字
列を含む文書を全文索引を用いて検索すればよい。しか
し、全文索引では、文書を文字の並びとして扱っている
ため、たとえば、「発注日が1992年3月1日以降の
文書」といったような大小日比較による条件によって検
索することはできないという問題点があった。
ては、構造化文書全体に全文索引をつけることが考えら
れる。実際、全文索引は特定の文字列を含む文書を探す
ことは高速にできる。たとえば、扱い者が山田である文
書を探すには、<扱い者>山田</扱い者>という文字
列を含む文書を全文索引を用いて検索すればよい。しか
し、全文索引では、文書を文字の並びとして扱っている
ため、たとえば、「発注日が1992年3月1日以降の
文書」といったような大小日比較による条件によって検
索することはできないという問題点があった。
【0013】本発明は上記に鑑みてなされたものであっ
て、構造化文書を高速に検索するための索引付けをおこ
ないながらも、構造化文書を分割せずそのまま格納し
て、検索の結果を得ることができることを目的とする。
て、構造化文書を高速に検索するための索引付けをおこ
ないながらも、構造化文書を分割せずそのまま格納し
て、検索の結果を得ることができることを目的とする。
【0014】
【課題を解決するための手段】上記の目的を達成するた
めに、請求項1に記載の構造化文書格納検索装置は、構
造化文書ファイルを入力する構造化文書入力手段と、前
記構造化文書入力手段により入力された構造化文書ファ
イルに加工を加えずそのまま格納する構造化文書格納手
段と、前記構造化文書入力手段により入力された構造化
文書ファイルから、特定のタグで囲まれた部分の文字列
を所定のデータ型に解釈するタグ内容解釈手段と、前記
タグ内容解釈手段により解釈されたデータ型と前記構造
化文書格納手段により格納された構造化文書ファイルの
格納位置とのリンクを構築するリンク構築手段と、検索
条件を入力する検索条件入力手段と、前記検索条件入力
手段により入力された検索条件と、前記リンク構築手段
により構築されたリンクに基づいて、構造化文書を検索
する構造化文書検索手段と、を備えたことを特徴とす
る。
めに、請求項1に記載の構造化文書格納検索装置は、構
造化文書ファイルを入力する構造化文書入力手段と、前
記構造化文書入力手段により入力された構造化文書ファ
イルに加工を加えずそのまま格納する構造化文書格納手
段と、前記構造化文書入力手段により入力された構造化
文書ファイルから、特定のタグで囲まれた部分の文字列
を所定のデータ型に解釈するタグ内容解釈手段と、前記
タグ内容解釈手段により解釈されたデータ型と前記構造
化文書格納手段により格納された構造化文書ファイルの
格納位置とのリンクを構築するリンク構築手段と、検索
条件を入力する検索条件入力手段と、前記検索条件入力
手段により入力された検索条件と、前記リンク構築手段
により構築されたリンクに基づいて、構造化文書を検索
する構造化文書検索手段と、を備えたことを特徴とす
る。
【0015】また、請求項2に記載の構造化文書格納検
索装置は、請求項1に記載の構造化文書格納検索装置に
おいて、前記リンク構築手段が、前記所定のデータ型も
しくは前記部分の文字列をキーとし、前記格納位置をバ
リューとしてリンクを構築することを特徴とする。
索装置は、請求項1に記載の構造化文書格納検索装置に
おいて、前記リンク構築手段が、前記所定のデータ型も
しくは前記部分の文字列をキーとし、前記格納位置をバ
リューとしてリンクを構築することを特徴とする。
【0016】また、請求項3に記載の構造化文書格納検
索プログラムは、コンピュータに、構造化文書ファイル
を入力する構造化文書入力手順と、前記構造化文書入力
手順により入力された構造化文書ファイルに加工を加え
ずそのまま格納する構造化文書格納手順と、前記構造化
文書入力手順により入力された構造化文書ファイルか
ら、特定のタグで囲まれた部分の文字列を所定のデータ
型に解釈するタグ内容解釈手順と、前記タグ内容解釈手
順により解釈されたデータ型と前記構造化文書格納手順
により格納された構造化文書ファイルの格納位置とのリ
ンクを構築するリンク構築手順と、検索条件を入力する
検索条件入力手順と、前記検索条件入力手順により入力
された検索条件と、前記リンク構築手順により構築され
たリンクに基づいて、構造化文書を検索する構造化文書
検索手順と、を実行させることを特徴とする。
索プログラムは、コンピュータに、構造化文書ファイル
を入力する構造化文書入力手順と、前記構造化文書入力
手順により入力された構造化文書ファイルに加工を加え
ずそのまま格納する構造化文書格納手順と、前記構造化
文書入力手順により入力された構造化文書ファイルか
ら、特定のタグで囲まれた部分の文字列を所定のデータ
型に解釈するタグ内容解釈手順と、前記タグ内容解釈手
順により解釈されたデータ型と前記構造化文書格納手順
により格納された構造化文書ファイルの格納位置とのリ
ンクを構築するリンク構築手順と、検索条件を入力する
検索条件入力手順と、前記検索条件入力手順により入力
された検索条件と、前記リンク構築手順により構築され
たリンクに基づいて、構造化文書を検索する構造化文書
検索手順と、を実行させることを特徴とする。
【0017】また、請求項4に記載の構造化文書格納検
索プログラムは、請求項3に記載の構造化文書格納検索
プログラムにおいて、前記リンク構築手順が、前記所定
のデータ型もしくは前記部分の文字列をキーとし、前記
格納位置をバリューとしてリンクを構築することを特徴
とする。
索プログラムは、請求項3に記載の構造化文書格納検索
プログラムにおいて、前記リンク構築手順が、前記所定
のデータ型もしくは前記部分の文字列をキーとし、前記
格納位置をバリューとしてリンクを構築することを特徴
とする。
【0018】すなわち、本発明は、構造化文書を記憶装
置に与えられたまま格納し、構造化文書の特定のタグで
囲まれた部分の文字列を適切なデータ型で解釈し、その
値をキーとし、文書の格納位置をバリューとするような
索引付けをおこなう。
置に与えられたまま格納し、構造化文書の特定のタグで
囲まれた部分の文字列を適切なデータ型で解釈し、その
値をキーとし、文書の格納位置をバリューとするような
索引付けをおこなう。
【0019】換言すれば、本発明は、従来のように構造
化文書の内容を列と行のデータに分割せず、与えられた
まま記憶装置に格納し、特定のタグで囲まれた部分に対
して、その部分を適切なデータ型として解釈した値をキ
ーとし、文書の格納位置をバリューとする索引を直接つ
ける。
化文書の内容を列と行のデータに分割せず、与えられた
まま記憶装置に格納し、特定のタグで囲まれた部分に対
して、その部分を適切なデータ型として解釈した値をキ
ーとし、文書の格納位置をバリューとする索引を直接つ
ける。
【0020】
【発明の実施の形態】以下、本発明の実施の形態を図面
を参照しながら詳細に説明する。
を参照しながら詳細に説明する。
【0021】まず、本発明の特徴点について述べる。本
発明の構造化文書格納検索装置は、構造化文書を格納す
る際に、構造化文書に対して分割などの加工を施さず、
与えられたまま格納する点に特徴がある。このとき、格
納された文書の一部分に対して索引付けをおこなう。ま
た、索引付けは、構造化文書のある特定のタグで囲まれ
た部分に対しておこなうこととする。このとき、タグで
囲まれる部分の文字列をタグの種類に対して決められた
解釈方法により適切な型のデータとしておこなわれる。
発明の構造化文書格納検索装置は、構造化文書を格納す
る際に、構造化文書に対して分割などの加工を施さず、
与えられたまま格納する点に特徴がある。このとき、格
納された文書の一部分に対して索引付けをおこなう。ま
た、索引付けは、構造化文書のある特定のタグで囲まれ
た部分に対しておこなうこととする。このとき、タグで
囲まれる部分の文字列をタグの種類に対して決められた
解釈方法により適切な型のデータとしておこなわれる。
【0022】次に、本発明の構造化文書格納検索装置の
構成について説明する。図1は、本発明の構造化文書格
納検索装置の概略構成を示したブロック図である。構造
化文書格納検索装置100は、文書入力部101と、文
書構造解析部102と、索引付け・格納処理部103
と、記憶装置104と、問い合わせ入力部105と、問
い合わせ結果出力部107と、問い合わせ処理部106
とを有する。
構成について説明する。図1は、本発明の構造化文書格
納検索装置の概略構成を示したブロック図である。構造
化文書格納検索装置100は、文書入力部101と、文
書構造解析部102と、索引付け・格納処理部103
と、記憶装置104と、問い合わせ入力部105と、問
い合わせ結果出力部107と、問い合わせ処理部106
とを有する。
【0023】構造化文書格納検索装置100は、構造化
文書、たとえばXMLで記述された文書を、文書入力部
101から入力する。入力された構造化文書は、文書構
造解析部102で構造化文書の構造が正しいかどうかが
検査され、また、索引付けをおこなうタグで囲まれた部
分が特定される。
文書、たとえばXMLで記述された文書を、文書入力部
101から入力する。入力された構造化文書は、文書構
造解析部102で構造化文書の構造が正しいかどうかが
検査され、また、索引付けをおこなうタグで囲まれた部
分が特定される。
【0024】索引付け・格納処理部103では、文書構
造解析部102から出力された構造化文書をそのまま記
憶装置104に格納し、記憶装置104から格納位置に
関する情報を入力する。同時に、索引付け・格納処理部
103は、タグで囲まれた文字列部分を適切なデータ型
に解釈し、その値がキーであり文書の格納位置がバリュ
ーとなる索引データを作成し、記憶装置104内に設け
られている索引データに追加する。
造解析部102から出力された構造化文書をそのまま記
憶装置104に格納し、記憶装置104から格納位置に
関する情報を入力する。同時に、索引付け・格納処理部
103は、タグで囲まれた文字列部分を適切なデータ型
に解釈し、その値がキーであり文書の格納位置がバリュ
ーとなる索引データを作成し、記憶装置104内に設け
られている索引データに追加する。
【0025】文書の検索をおこなう場合には、構造化文
書格納検索装置100は、検索の条件を問い合わせ入力
部105から入力する。問い合わせ入力部105に入力
された検索の条件は問い合わせ処理部106へ送られ、
記憶装置104に格納された索引のデータを参照して条
件を満たす文書の格納位置を取得する。そして、記憶装
置104中の当該位置に入力されたままで格納されてい
る文書を取り出し、問い合わせ結果出力部107からそ
の文書を表示する。
書格納検索装置100は、検索の条件を問い合わせ入力
部105から入力する。問い合わせ入力部105に入力
された検索の条件は問い合わせ処理部106へ送られ、
記憶装置104に格納された索引のデータを参照して条
件を満たす文書の格納位置を取得する。そして、記憶装
置104中の当該位置に入力されたままで格納されてい
る文書を取り出し、問い合わせ結果出力部107からそ
の文書を表示する。
【0026】次に本発明の構造化文書格納検索装置10
0の物理構成(ハードウェア構成)の例を示す。図2
は、構造化文書格納検索装置のハードウェア構成の一例
を示した概略構成図である。構造化文書格納検索装置1
00は、CPU201、RAM202、ROM203、
ディスク装置(ハードディスク)204、キーボード2
05、ディスプレイ206がバス207にそれぞれ接続
されている。
0の物理構成(ハードウェア構成)の例を示す。図2
は、構造化文書格納検索装置のハードウェア構成の一例
を示した概略構成図である。構造化文書格納検索装置1
00は、CPU201、RAM202、ROM203、
ディスク装置(ハードディスク)204、キーボード2
05、ディスプレイ206がバス207にそれぞれ接続
されている。
【0027】図1に示した構成との対応を述べる。図2
に示したキーボード205が文書入力部101と問い合
わせ入力部105に相当する。CPU201は文書構造
解析部102に、索引付け・格納処理部103、問い合
わせ処理部106における各機能を実現するプログラム
の実行部分である。ROM203にはこの各機能を実現
するプログラムが格納されている。なお、このプログラ
ムは、必要に応じて適宜RAM202にロードされる。
に示したキーボード205が文書入力部101と問い合
わせ入力部105に相当する。CPU201は文書構造
解析部102に、索引付け・格納処理部103、問い合
わせ処理部106における各機能を実現するプログラム
の実行部分である。ROM203にはこの各機能を実現
するプログラムが格納されている。なお、このプログラ
ムは、必要に応じて適宜RAM202にロードされる。
【0028】なお、使用の態様によっては、ROM20
3にプログラムを格納しておく代わりにディスク装置2
04に格納する構成であってもよい。RAM202は、
キーボード205から入力された文書を一時的に格納
し、また、文書構造解析部102でおこなわれる処理の
結果も一時的に格納する。ディスク装置204には、索
引のデータが格納され、また、キーボード205から入
力された文書がそのままの形で格納される。
3にプログラムを格納しておく代わりにディスク装置2
04に格納する構成であってもよい。RAM202は、
キーボード205から入力された文書を一時的に格納
し、また、文書構造解析部102でおこなわれる処理の
結果も一時的に格納する。ディスク装置204には、索
引のデータが格納され、また、キーボード205から入
力された文書がそのままの形で格納される。
【0029】キーボード205から検索条件が入力され
ると、RAM202に格納された問い合わせ処理部10
6を実現するプログラムがはたらき、ディスク装置20
4に格納された索引データを使って、条件を満たす文書
の格納位置が求められ、その格納位置に存在する文書が
ディスプレイ206に送出され、検索条件を満たす文書
が表示される。
ると、RAM202に格納された問い合わせ処理部10
6を実現するプログラムがはたらき、ディスク装置20
4に格納された索引データを使って、条件を満たす文書
の格納位置が求められ、その格納位置に存在する文書が
ディスプレイ206に送出され、検索条件を満たす文書
が表示される。
【0030】なお、上記の構成においては、キーボード
205から文書が入力されるとしたが、ここで示した構
成以外にも、たとえばスキャナ装置で読み込まれた画像
データに対して、OCR処理をおこなった結果が入力さ
れる場合や、インターネットなどのネットワークを介し
て文書が送られ、RAM202の中の文書構造解析部1
02を担当するプログラムに送られる構成としてもよ
い。
205から文書が入力されるとしたが、ここで示した構
成以外にも、たとえばスキャナ装置で読み込まれた画像
データに対して、OCR処理をおこなった結果が入力さ
れる場合や、インターネットなどのネットワークを介し
て文書が送られ、RAM202の中の文書構造解析部1
02を担当するプログラムに送られる構成としてもよ
い。
【0031】また、検索結果はディスプレイ206に表
示されるとしたが、これ以外にも、プリンタに印字され
て出力されたり、インターネットなどのネットワークを
介して別の装置へ送られる構成であってもよい。
示されるとしたが、これ以外にも、プリンタに印字され
て出力されたり、インターネットなどのネットワークを
介して別の装置へ送られる構成であってもよい。
【0032】以上説明したように、構造化文書格納検索
装置100は、索引を用いて高速に構造化文書の格納位
置が特定でき、何の複雑な操作を施すことなく構造化文
書を取り出すことができる。これは、構造化文書をリレ
ーショナルデータベースの表に格納する際に、行と列の
データに分解せず、タグで囲まれた部分の文字列を表の
列のデータとして格納することによりデータ型としての
解釈をおこない、索引付けを可能としているからであ
る。
装置100は、索引を用いて高速に構造化文書の格納位
置が特定でき、何の複雑な操作を施すことなく構造化文
書を取り出すことができる。これは、構造化文書をリレ
ーショナルデータベースの表に格納する際に、行と列の
データに分解せず、タグで囲まれた部分の文字列を表の
列のデータとして格納することによりデータ型としての
解釈をおこない、索引付けを可能としているからであ
る。
【0033】したがって、構造化文書格納検索装置10
0は、たとえば扱い者が特定の人になっている発注書を
探したり、<発注日>と</発注日>とで囲まれた部分
を日付型のデータとして解釈をおこなって索引付けをお
こなうことにより、発注日が特定の日付以降の文書を高
速に検索し、その文書をそのまま取り出すことができ
る。
0は、たとえば扱い者が特定の人になっている発注書を
探したり、<発注日>と</発注日>とで囲まれた部分
を日付型のデータとして解釈をおこなって索引付けをお
こなうことにより、発注日が特定の日付以降の文書を高
速に検索し、その文書をそのまま取り出すことができ
る。
【0034】
【発明の効果】以上説明したように、本発明の構造化文
書格納検索装置は、複雑な操作をおこなわずに格納され
た文書が得られる。また、データベースシステムの表に
文書が格納されていないにもかかわらず、文書の特定の
部分に対してつけられた索引により、高速に文書の検索
をおこなうことができる。
書格納検索装置は、複雑な操作をおこなわずに格納され
た文書が得られる。また、データベースシステムの表に
文書が格納されていないにもかかわらず、文書の特定の
部分に対してつけられた索引により、高速に文書の検索
をおこなうことができる。
【0035】更に、文書のどの部分に索引をつけるか
は、構造化文書で用いられているタグを用いることによ
り簡単に特定することができ、タグの種類によって文書
の一部を構成する文字列を適切な型のデータとして解釈
をすることができ、大小比較による検索もおこなうこと
ができる。
は、構造化文書で用いられているタグを用いることによ
り簡単に特定することができ、タグの種類によって文書
の一部を構成する文字列を適切な型のデータとして解釈
をすることができ、大小比較による検索もおこなうこと
ができる。
【図1】本発明の構造化文書格納検索装置の概略構成を
示したブロック図である。
示したブロック図である。
【図2】構造化文書格納検索装置のハードウェア構成の
一例を示した概略構成図である。
一例を示した概略構成図である。
【図3】構造化文書によらない文書表現の一例を示した
図である。
図である。
【図4】図3に示した文書を構造化文書で表示した例を
示した図である。
示した図である。
【図5】図4に示した構造化文書をリレーショナルデー
タベースの表で表現した例を説明した図である。
タベースの表で表現した例を説明した図である。
100 構造化文書格納検索装置 101 文書入力部 102 文書構造解析部 103 索引付け・格納処理部 104 記憶装置 105 問い合わせ入力部 106 問い合わせ処理部 107 問い合わせ結果出力部
Claims (4)
- 【請求項1】 構造化文書ファイルを入力する構造化文
書入力手段と、 前記構造化文書入力手段により入力された構造化文書フ
ァイルに加工を加えずそのまま格納する構造化文書格納
手段と、 前記構造化文書入力手段により入力された構造化文書フ
ァイルから、特定のタグで囲まれた部分の文字列を所定
のデータ型に解釈するタグ内容解釈手段と、 前記タグ内容解釈手段により解釈されたデータ型と前記
構造化文書格納手段により格納された構造化文書ファイ
ルの格納位置とのリンクを構築するリンク構築手段と、 検索条件を入力する検索条件入力手段と、 前記検索条件入力手段により入力された検索条件と、前
記リンク構築手段により構築されたリンクに基づいて、
構造化文書を検索する構造化文書検索手段と、 を備えたことを特徴とする構造化文書格納検索装置。 - 【請求項2】 前記リンク構築手段は、前記所定のデー
タ型もしくは前記部分の文字列をキーとし、前記格納位
置をバリューとしてリンクを構築することを特徴とする
請求項1に記載の構造化文書格納検索装置。 - 【請求項3】 コンピュータに、 構造化文書ファイルを入力する構造化文書入力手順と、 前記構造化文書入力手順により入力された構造化文書フ
ァイルに加工を加えずそのまま格納する構造化文書格納
手順と、 前記構造化文書入力手順により入力された構造化文書フ
ァイルから、特定のタグで囲まれた部分の文字列を所定
のデータ型に解釈するタグ内容解釈手順と、 前記タグ内容解釈手順により解釈されたデータ型と前記
構造化文書格納手順により格納された構造化文書ファイ
ルの格納位置とのリンクを構築するリンク構築手順と、 検索条件を入力する検索条件入力手順と、 前記検索条件入力手順により入力された検索条件と、前
記リンク構築手順により構築されたリンクに基づいて、
構造化文書を検索する構造化文書検索手順と、を実行さ
せることを特徴とする構造化文書格納検索プログラム。 - 【請求項4】 前記リンク構築手順は、前記所定のデー
タ型もしくは前記部分の文字列をキーとし、前記格納位
置をバリューとしてリンクを構築することを特徴とする
請求項3に記載の構造化文書格納検索プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001153963A JP2002351881A (ja) | 2001-05-23 | 2001-05-23 | 構造化文書格納検索装置および構造化文書格納検索プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001153963A JP2002351881A (ja) | 2001-05-23 | 2001-05-23 | 構造化文書格納検索装置および構造化文書格納検索プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2002351881A true JP2002351881A (ja) | 2002-12-06 |
Family
ID=18998392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001153963A Pending JP2002351881A (ja) | 2001-05-23 | 2001-05-23 | 構造化文書格納検索装置および構造化文書格納検索プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2002351881A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100775852B1 (ko) * | 2006-01-18 | 2007-11-13 | 포스데이타 주식회사 | 응용 프로그램의 자원 검색 시스템 및 방법 |
-
2001
- 2001-05-23 JP JP2001153963A patent/JP2002351881A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR100775852B1 (ko) * | 2006-01-18 | 2007-11-13 | 포스데이타 주식회사 | 응용 프로그램의 자원 검색 시스템 및 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11853334B2 (en) | Systems and methods for generating and using aggregated search indices and non-aggregated value storage | |
JP4162711B2 (ja) | Nグラム・ワード分解を用いた携帯型文書索引付け用のシステム及び方法 | |
US7792832B2 (en) | Apparatus and method for identifying potential patent infringement | |
CN1728142B (zh) | 信息检索系统中的短语识别方法和设备 | |
US8316032B1 (en) | Book content item search | |
US9384225B2 (en) | Systems and methods for providing hi-fidelity contextual search results | |
WO2006036487A2 (en) | System and method for management of data repositories | |
US8001462B1 (en) | Updating search engine document index based on calculated age of changed portions in a document | |
JP4207438B2 (ja) | Xml文書格納/検索装置及びそれに用いるxml文書格納/検索方法並びにそのプログラム | |
US20240311432A1 (en) | System and method for search discovery | |
CN111400323A (zh) | 数据检索方法、系统、设备及存储介质 | |
CN114117242A (zh) | 数据查询方法和装置、计算机设备、存储介质 | |
JP3784060B2 (ja) | データベース検索システム、その検索方法及びプログラム | |
US20030018617A1 (en) | Information retrieval using enhanced document vectors | |
JP4621680B2 (ja) | 定義付けシステムおよび方法 | |
JP2002351881A (ja) | 構造化文書格納検索装置および構造化文書格納検索プログラム | |
JP2000231560A (ja) | 文書自動分類方式 | |
JP3287307B2 (ja) | 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体 | |
JPH0991305A (ja) | 情報処理方法及び装置 | |
US20060179046A1 (en) | Web operation language | |
JP2000339333A (ja) | 自然言語検索支援システムおよび自然言語検索支援方法 | |
JPH09212523A (ja) | 全文検索方法 | |
JP2006163723A (ja) | ドキュメント検索方法 | |
JPH08249341A (ja) | 文書データベースの文書格納・検索装置 | |
JP2003030237A (ja) | ファイル検索方法とこの方法を利用可能なファイル検索装置、検索サーバ |