JP3579945B2 - 階層項目検索装置および階層項目検索方法 - Google Patents

階層項目検索装置および階層項目検索方法 Download PDF

Info

Publication number
JP3579945B2
JP3579945B2 JP04093695A JP4093695A JP3579945B2 JP 3579945 B2 JP3579945 B2 JP 3579945B2 JP 04093695 A JP04093695 A JP 04093695A JP 4093695 A JP4093695 A JP 4093695A JP 3579945 B2 JP3579945 B2 JP 3579945B2
Authority
JP
Japan
Prior art keywords
search
relation
hierarchical
expression
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP04093695A
Other languages
English (en)
Other versions
JPH08235194A (ja
Inventor
忠信 宮内
満美子 岡
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Priority to JP04093695A priority Critical patent/JP3579945B2/ja
Publication of JPH08235194A publication Critical patent/JPH08235194A/ja
Application granted granted Critical
Publication of JP3579945B2 publication Critical patent/JP3579945B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【産業上の利用分野】
本発明は、キーワードによりデータベースの検索を行なう検索装置に関連するものであり、特に、目次や索引などの階層関係に基づく検索を行なう階層項目検索装置および階層項目検索方法に関するものである。
【0002】
【従来の技術】
従来より、テキスト検索の研究が活発に行なわれている。テキスト検索における主な技術として、キーワード検索と全文検索がよく知られている。キーワード検索は、あらかじめデータに対してキーワードを付与しておき、これに基づき検索するものである。例えば、タイトル、著者名、掲載誌、発行年など、特定の属性に対して一意に決まるもののいずれかまたはそれらの組合せがわかっていて検索する場合には、検索効率も良く、非常に有効な手法である。ところが、本文やアブストラクトなどの、内容に直接かかわる表現から検索しようとすると、うまくいかないことが多い。これは、検索者の意図に沿ったキーワードがあらかじめ付与されているとは限らないためである。このような場合、全文検索が有効である。すなわち、利用者の検索要求が文中のどこかに含まれていれば、必ず検索ができるためである。
【0003】
一方、文献情報においては、目次も重要な情報である。一般に目次は、文献で述べられている主な内容を簡潔に表現しているため、テキスト検索の重要な手がかりとなり得る。しかし、既存の方式においては、目次の検索に向いた手法は見当たらない。
【0004】
図2は、文書における目次の一例の説明図である。図2に示すような科学技術論文の目次について考える。図2に示すように、目次は階層的に表現され、特に科学技術論文などでは、例えば、「概要」、「目的」のようなしばしば用いられる単語が多い。このため、キーワード検索のためのキーワードを付与することを考えると、他の文献と重複するものが多くなり過ぎてしまい、有効なキーワードとはならない。
【0005】
一方、全文検索を用いた場合も問題点は同様で、ある単語から検索しようとしても候補が非常に多くなりすぎてしまう。こうした場合、キーワード検索、全文検索を問わず、情報検索一般で行なわれる方法として、AND条件などによる絞り込みが挙げられる。例えば、「キーワード検索の方法」に関する目次を検索したい場合、「キーワード&検索&方法」という検索式で検索することになる。しかし、単純にこのような検索式で検索した場合、図2に示したような目次を有する文書以外に、関係のない文書を多数含む検索結果しか得られない。例えば、「全文検索の方法」に関する項目を有する文書中に、「キーワード検索との違い」の項目が存在すれば、その文書は検索結果中に含まれてしまう。このように、目次において階層的な関係が項目間に存在するにもかかわらず、単純なAND条件による絞り込みでは階層関係が無視されてしまう。
【0006】
もし、多少検索式が複雑になることをいとわなければ、階層構造を意識した検索も可能ではある。例えば、前述の「キーワード検索の方法」に関する目次を検索する場合、図2に示した目次を検索することを目標として、「キーワード検索」の章の下位の「方法」を検索するように検索式を構成すればよい。しかし、目次表現としては、文書の構成によっては別の章立てになっていることもある。図3は、文書における目次の別の例の一部を示す説明図である。例えば、図3においても、「キーワード検索の方法」に関する目次は存在すると言える。この例に示した目次を検索するには、「方法」の章の下位に展開されている「キーワード検索」の節を検索する検索式を用いて検索を行なわなければならない。このように、同じ内容を検索するために、階層の上位/下位を入れ換えて検索するなどの必要がある。これでは検索式が複雑になり過ぎて一般の利用者にとっては使いにくいものになってしまうという問題があった。
【0007】
このように、従来の技術においては、目次のような階層を持つ情報の検索に向く手法はなかった。
【0008】
【発明が解決しようとする課題】
本発明は、上述した事情に鑑みてなされたもので、特に目次や索引などの階層を持つ項目を容易かつ効率的に検索可能とした階層項目検索装置および階層項目検索方法を提供することを目的とするものである。
【0009】
【課題を解決するための手段】
本発明は、請求項1に記載の発明においては、階層項目検索装置において、階層を持つ項目を含む文書を格納したデータベースと、検索要求を与える検索要求入力手段と、前記検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を抽出する関係表現抽出手段と、前記データベースに格納されている前記文書から前記階層を持つ項目における項目間の階層の上下関係を取り出す階層関係抽出手段と、前記関係表現抽出手段により得られた前記関係表現と前記階層関係抽出手段により抽出された階層の上下関係とを比較し前記関係表現と一致し得る階層の上下関係を含む文書を検索結果として返す検索手段と、前記検索結果を出力する出力手段とを有することを特徴とするものである。
同様に請求項4に記載の発明においては、階層項目検索方法において、階層を持つ項目を含む文書がデータベースに格納されており、検索要求入力手段から与えられる検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を関係表現抽出手段により抽出し、前記データベースに格納されている前記文書から前記階層を持つ項目における項目間の階層の上下関係を階層関係抽出手段により取り出し、得られた前記階層の上下関係と抽出された前記関係表現とを比較し、前記関係表現と一致し得る前記階層の上下関係を含む文書を検索手段により検索して、検索結果を出力手段で出力することを特徴とするものである。
【0010】
請求項2に記載の発明においては、請求項1に記載の階層項目検索装置において、階層関係抽出手段は、前記文書の目次あるいは索引から前記階層を持つ項目における項目間の階層の上下関係を取り出すことを特徴とするものである。
【0011】
請求項3に記載の発明においては、階層項目検索装置において、検索要求を与える検索要求入力手段と、前記検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を抽出する関係表現抽出手段と、索引を含む文書から該索引の表記が省略された部分を前記索引の階層の上位の語と置換して句表現を抽出して該句表現中の単語間の関係表現を抽出する階層関係抽出手段と、前記関係表現を前記文書とともに格納したデータベースと、前記関係表現抽出手段により得られた前記関係表現と対応する前記階層関係抽出手段により抽出された前記関係表現を含む文書を検索結果として返す検索手段と、前記検索結果を出力する出力手段とを有することを特徴とするものである。
同様に請求項5に記載の発明においては、階層項目検索方法において、索引を含む文書から該索引の表記が省略された部分を前記索引の階層の上位の語と置換して句表現を抽出して該句表現中の単語間の関係表現を階層関係抽出手段で抽出し、前記関係表現を前記文書とともにデータベースに格納しておき、検索要求入力手段から与えられた検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を関係表現抽出手段により抽出し、得られた前記関係表現と対応する前記階層関係抽出手段により抽出された前記関係表現を含む文書を検索手段により検索し、検索結果を出力手段で出力することを特徴とするものである。
【0012】
【作用】
請求項1,2,4に記載の発明によれば、関係表現検索手段は、検索要求に含まれる複数の単語とそれらの単語間の関係表現と階層関係抽出手段にて得られた項目間の階層の上下関係を比較し、その関係表現と一致し得る階層の上下関係を含む文書を、データベースから検索する。これにより、検索要求中の単語間の関係表現に合った階層の上下関係を持つ文書のみを効率よく検索することができる。また、検索要求中の単語間の関係表現と、階層関係抽出手段にて得られた項目間の階層の上下関係に基づき検索を行なうので、例えば、階層の上下関係が逆転していても検索できるなど、階層項目に対する柔軟性の高い検索を行なうことができる。
【0013】
また請求項3,5に記載の発明によれば、索引から予め単語間の関係表現を抽出してデータベースに登録しておくことによって、上述の発明と同様の検索を行なうことができる。
【0014】
【実施例】
図1は、本発明の階層項目検索装置の第1の実施例を示す概略構成図である。図中、1は検索要求入力部、2は階層関係抽出部、3は関係表現検索部、4は出力部、5はデータベース部、11はキーボード、12はOCRスキャナ、13はマイク、14は記憶装置、15は受信部、31は関係表現抽出部、32はブール検索部、33は関係比較部、41は端末、42はFAX/プリンタ、51は論文データベース、52は雑誌データベース、53は教科書データベースである。この第1の実施例では、本発明の階層項目検索装置を目次検索システムに適用した場合の構成を説明する。
【0015】
検索要求入力部1は、ユーザの検索要求を与える。検索要求入力部1としては、例えば、キーボード11、OCRスキャナ12、音声認識により入力するマイク13、赤外線や無線を用いた携帯情報機器の受信部15などにより構成することができる。もちろん、これ以外の入力装置を用いるようにしてもよいし、ネットワークに接続された記憶装置14に検索要求を入力した文書を入れておき、ここから入力として取り出すように構成しても良い。
【0016】
階層関係抽出部2は、少なくともデータベース部5に接続され、検索対象となる階層を持つ項目群から上位−下位の項目間の関係を取り出す。
【0017】
関係表現検索部3は、関係表現抽出部31、ブール検索部32、関係比較部33を有している。関係表現抽出部31は、検索要求入力部1から与えられた検索要求から、複数の表現とその間の関係を取り出す。以下、複数の表現とその間の関係を関係表現と呼ぶ。ブール検索部32は、関係表現抽出部31により得られた表現をキーワードとし、これに基づくブール検索を行なう。関係比較部33は、関係表現抽出部31により得られた関係表現と、ブール検索部32によるブール検索結果から階層関係抽出部2で抽出された階層関係を比較し、一致しうるもののみを検索結果として返す。
【0018】
出力部4は、関係表現検索部3により得られた検索結果を出力する。出力部4は、端末41、ファクシミリ/プリンタ42などから構成することができる。もちろん、これ以外の出力装置を用いるようにしてもよいし、いったんネットワークに接続された記憶装置に蓄えるように構成してもよい。
【0019】
データベース部5は、検索対象となる論文データベース51、雑誌データベース52、教科書データベース53など、各種のデータベースシステムから構成され、階層を持つ項目を含む文書が格納されている。もちろん、図示した3つのデータベース以外のデータベースを含むこともあり、階層を持つ項目を含む文書が格納された1つ以上のデータベースで構成される。
【0020】
以下、本発明の第1の実施例における動作の一例を説明する。ここでは、おもに科学技術文献を想定して説明する。科学技術文献において、代表的な章立ての形式としては、例えば、図2に示したように、1つのまとまった技術ごとに、その目的、方法、例、結果などが記述される。目次には、このような章立てのまま、文書の構造が記述されている。こうした形式においては、自然語で表現すれば「全文検索における目的」、「キーワード検索の実現例」のように、上位項目が下位項目を限定する関係が存在する。
【0021】
また、別の形式としては、例えば、図3に示したように、目的、方法などの各項目ごとに、それぞれの技術を説明する形式も、一般的に用いられている。この場合も、自然語で表現すれば「全文検索の目的」、「キーワード検索の実現例」のような関係を有している。この場合には、下位項目が上位項目を限定している関係を有している。
【0022】
このように、目次においては「目的」、「実現」といった項目間の関係を担う典型的な単語が存在する。そこで、このような典型的な単語を集めた特定語テーブルを用意する。図4は、特定語テーブルの一例の説明図である。図4に示した特定語テーブルの例は、科学技術文献における一般的な構成でよく用いられる基本語と、それぞれに関連する関連語からなり、検索要求および対象文書の目次から関係を抽出する際に用いる。
【0023】
この特定語テーブルは、文書の構成に依存するので、対象となる分野ごとに異なるものを用いるとよい。さらに、契約書や公文書など、分野によって形式が決まっているものにおいては、より詳細な特定語テーブルを構成することが可能である。
【0024】
検索要求入力部1から与えられたユーザの検索要求は、関係表現検索部3に渡され、関係表現抽出部31において自然語表現の検索要求から関係表現が抽出される。関係表現を抽出する手法としては、例えば、検索要求を形態素解析した後、解析結果のパタンマッチングによって関係を抽出する手法を用いることができ、さらに特定語の出現位置情報を加える。
【0025】
形態素解析とパタンマッチングによる関係の抽出については、例えば、特願平6−213392号などに記載されている。この出願に記載されている方法では、まず、抽出される単語群の基本的なパターンが登録されている単語群抽出規則を用いて、「前自立語並び+付属語並び+後自立語並び」というパターンの単語群の抽出を行なう。そして、抽出したパターンをもとに、単語群とその単語群が有する関係とが対にして登録されている関係抽出規則を用い、そのパターンに付与すべき関係を得る。さらに、概念的に同一になり得る表現が登録されている関係展開規則を用いて関係を正規化することも記載されている。
【0026】
この実施例では、簡単な例として、表現を2項に分解し、特定語を前または後ろの表現のどちらに含むかという関係のみを扱う。関係としては、例えば、特定語が前にある場合は(前)、両方の場合は(前後)、共に特定語でない場合は(無し)が付与される。もちろん、よりユーザの検索意図を反映させるのであれば、特願平6−213392号にも述べられているように、単語間の格関係などを抽出することも有効である。
【0027】
このようにして得られる関係表現の抽出結果を、関係比較部33に渡すとともに、キーワードに分割してブール検索部32に渡す。ブール検索部32は、与えられた単語に基づき、検索式を生成し、データベース部5に対して検索を行なう。
【0028】
ここまでの動作を具体例を用いて説明する。例えば、検索要求として、検索要求入力部1から「全文検索の評価」と入力されたとする。関係表現抽出部31では、まず形態素解析を行なう。この検索要求を形態素解析すると、以下のような結果が得られる。
全文(名詞)/検索(サ変)/の(付属語)/評価(サ変)
【0029】
続いて、形態素解析が行なわれた検索要求は、付属語「の」で前後に分割される。そして、「全文検索」と「評価」の間の関係が抽出される。この場合、例えば、図4に示したような特定語テーブルと各表現とのパタンマッチングの結果、特定語「評価」が後に出現しているので、次のようなパターンが取り出される。
全文検索−評価(後)
これは、「全文検索」という表現と「評価」という表現において、後に置かれた「評価」という表現が目次における特定語であるという関係を担うことを意味する。
【0030】
この結果を、関係比較部に渡すとともに、キーワードに分割してブール検索部32に渡し、検索を行なう。この場合、「全文検索」と「評価」のAND条件で結んだ検索式を生成し、検索を行なう。
【0031】
続いて、階層関係抽出部2は、ブール検索結果の文書から、あらかじめ目次の項目間の関係を抽出する。図5は、階層関係抽出処理の一例を示すフローチャートである。なお、ここでは、対象となる文書は論理構造を付与されており、項目間の上位−下位関係が容易にたどれることを前提とする。しかし、文書が論理構造を持たず、プレーンテキストとして保持される場合においても、目次においては、ポイントシステムやインデントによって示されることが一般的であり、簡単な処理により上位−下位関係をたどることは可能である。
【0032】
S61〜S64は、前処理である。S61でスタックをクリアし、S62で各種の変数をクリアする。スタックは、下位項目を処理している場合、それらの項目の上位の項目が保持される。変数としては、ここでは変数ITEMを用いている。この変数ITEMは、文書から取り出した項目が格納される。さらに、S63で文書の先頭の項目の位置を設定し、S64で検索範囲を設定する。
【0033】
前処理ののち、S65において、項目を取り出し、変数ITEMに格納する。続いて、S66において、スタックの内容をチェックする。スタックが空の場合にはS69へ進み、スタックが空でない場合にはS67およびS68の処理を行なった後、S69へ進む。S67では、スタックの最上位に格納されている項目および変数ITEMに格納されている項目と、特定語テーブルに格納されている項目とのパタンマッチングを行ない、S68において、パタンマッチングの結果に従った階層関係を、スタックの最上位に格納されている項目および変数ITEMに格納されている項目とともに出力する。
【0034】
S69では、下位の項目が存在するか否かがチェックされる。下位の項目が存在する場合にはS70へ進む。また、下位の項目が存在しない場合には、S72へ進む。S70では、変数ITEMに格納されている項目をスタックにプッシュするとともに、S71において下位の項目へ移行する。そして、下位の項目の処理を行なうべく、S65へ戻る。
【0035】
下位の項目が存在しない場合には、S72において、継続項目が存在するか否かがチェックされる。継続項目が存在する場合には、存在する継続項目の処理を行なうべく、S65へ戻る。継続項目が存在しない場合には、S73において、スタックの内容をチェックし、スタックが空、すなわち最上位の項目の処理が終了した場合には、処理を終わる。スタックが空でない場合には、S74においてスタックをポップし、S75において上位項目に移行する。そして、S72へ戻り、継続項目の有無の判定処理を行なう。
【0036】
上述の階層関係抽出処理の一例を、上述の図2に示した目次を例として説明する。前処理ののち、S65で「1.はじめに」を項目として取り出し、変数ITEMに格納する。実際には、番号などを除いた項目名そのものである「はじめに」が格納される。
【0037】
続いて、S66でスタックの内容をチェックするが、空のままなのでS69へ進む。S69では、下位の項目が存在するか否かがチェックされる。ここでは存在しないのでS72へ進み、継続項目が存在するか否かがチェックされる。継続項目が存在するのでS65に戻る。S65では、続く「概要」が変数ITEMに格納され、同様にS69まで進む。
【0038】
S69において、今度は下位の項目が存在するため、S70において変数ITEMの内容である「概要」をスタックにプッシュし、S71で1レベル下に降り、S65に戻る。そして、S65において取り出した項目「全文検索」を変数ITEMに格納する。
【0039】
S66において、今度はスタックが空ではない。そのためS67へ進み、項目間の関係を取り出す。ここでは、基本的には上位−下位という関係のみを扱うが、特定のパターンにおいてはより詳細な関係を付与することが可能である。関係の抽出にあたっては、検索要求からの関係表現抽出時と同じ特定語テーブルを用いる。ここでは、特定語を下位項目に含むパターンについては、上位から下位という意味で「上→下」、特定語を上位項目に含むパターンにおいては、下位から上位という意味で「下→上」という関係を持たせることとする。どちらにも特定語を持たない、または両方に持つ場合は、関係が推定できないため「不明」とする。ここでは、スタックに格納されている「概要」が上位、取り出した項目「全文検索」が下位である。例えば、図4に示す特定語テーブルを用いると、「概要」が特定語である。そのため、これらの項目の間には「下→上」という関係が得られ、これを出力する。
【0040】
続いて、S69で下位の項目があるか否かをチェックするが、下位項目は存在しないのでS72に進む。S72では、同じレベルで継続する項目があるか否かをチェックする。この場合には同じレベルの項目が存在するのでS65に戻り、先ほどと同様に項目「キーワード検索」を取り出し、S67,S68で「概要」と「キーワード検索」に「下→上」という関係を持たせ、出力する。ここでは下位項目、継続項目ともに存在しないのでS73に進む。S73では、スタックが空か否かをチェックする。ここでは空ではないのでS74へ進む。S74では、スタックをポップして、S75で上位項目へ戻る。S72で「概要」の継続項目がチェックされ、継続項目が存在するのでS65へ戻る。
【0041】
今度は変数ITEMに「全文検索」を格納して同様に処理を進める。この時点でスタックは空であるのでS69へ進み、下位が存在するのでS70で「全文検索」がスタックにプッシュされる。続く項目「目的」がS65で変数ITEMに格納され、S67のパタンマッチングの結果、これらの項目の間に関係として「上→下」が付与され、S68で出力される。以下同様に処理が進み、「全文検索」と「方法」、「全文検索」と「実現例」についてそれぞれ「上→下」という関係が付与される。
【0042】
続いて、項目「実現例」にはさらに下位レベルの項目が存在するため、今度は「実現例」をスタックにプッシュし、次の項目が変数ITEMに読み込まれる。このように、処理はスタックを用いて再帰的に進められる。このとき変数ITEMには「XX1システム」が格納され、関係「下→上」が出力される。同様に「XX2システム」についても処理がなされ、関係「下→上」が出力される。今度は続く同レベルの項目がないため、S74でスタックがポップされて「実現例」が取り出され、上位レベルに戻る。
【0043】
以上のような処理が他の項目においても同様に行なわれ、最終的には次のような階層関係が得られる。
概要−全文検索(下→上)
概要−キーワード検索(下→上)
全文検索−方法(上→下)
全文検索−実現例(上→下)
実現例−XX1システム(下→上)
実現例−XX2システム(下→上)
全文検索−評価(上→下)
全文検索−結果(上→下)
キーワード検索−概要(上→下)
キーワード検索−目的(上→下)
キーワード検索−方法(上→下)
キーワード検索−実現例(上→下)
実現例−YY1システム(下→上)
実現例−YY2システム(下→上)
キーワード検索−評価(上→下)
キーワード検索−結果(上→下)
比較−実験(上→下)
比較−考察(上→下)
新しい検索方式−キーリレーション検索(不明)
新しい検索方式−ファジィ検索(不明)
【0044】
このようにして抽出された階層関係を、あらかじめ抽出した検索要求中の関係表現と、関係比較部にて比較する。上述の検索要求「全文検索の評価」の例では、関係表現として「全文検索−評価(後)」が得られていた。これは、次の階層関係と一致し得る。
(1)全文検索−評価(上→下)
(2)評価−全文検索(下→上)
さきほど図2の例の目次から抽出した階層関係においては、(1)の階層関係を含む。そのため、検索結果の一つとしてこの目次を有する文書が返され、出力部から出力される。以上をもって、検索が終了する。
【0045】
上述のように、この検索においては、関係表現「全文検索−評価(後)」から(1)に示す階層関係だけでなく、(2)に示す階層関係を有する場合も検索結果として得ることができる。しかし、単に「全文検索」、「評価」という単語を目次に有しているだけでは、検索結果として出力されない。このように、この第1の実施例では、目次から、検索要求の内容に近いものだけを検索結果として得ることができる。
【0046】
次に、本発明の階層項目検索装置の第2の実施例について説明する。この第2の実施例では、索引を検索するシステムについて述べる。索引は、文書の論理構造を直接反映した目次とは異なり、文中に出現した表現から直接本文中の特定の位置をたどれるものである。図6は、索引の一例の説明図である。図6に示した索引の一例は、中西著,近代科学社「Lisp入門」(1985)の索引より「あ」の部分を抜粋したものである。索引においても、例えば、図6に示すように、「アトム」の項目の下位に例えば「アトムの形」、「記号アトム」など、いくつかの項目が展開されている場合がある。このような階層構造を有した索引を検索することを考える。
【0047】
従来のシステムにおいては、目次の場合の問題同様、単語からの検索しかサポートされいていないのが一般的である。このため、索引にしばしば見られるある語を含む句による表現から検索する場合、ユーザは表現に含まれる語をいったん検索し、そこからさらに求める句を捜し出し、無い場合には別の単語からまた検索するといった手間を要した。図6に示した例では、「記号アトム」と「アトム記号」はまったく異なる概念を示すうえ、索引の出現場所も「記号」の側にあるかもしれず、通常の検索システムではうまく検索できない。
【0048】
そこで、図6に示した例のように、索引においても句を表わすために階層表現が用いられることを利用する。これにより、目次のような上下のみの関係ではなく、格関係などをより容易に取り出すことができる。このため、検索要求中の関係表現と、より適合度の高い検索が可能となる。
【0049】
図7は、本発明の階層項目検索装置の第2の実施例を示す概略構成図である。図中、図1と同様の部分には同じ符号を付して説明を省略する。6は原データ、34は関係インデックス検索部である。この実施例では、予め階層関係を抽出して関係インデックスとしてデータベースに登録しておく場合の例を示している。
【0050】
階層関係抽出部2は、原データ6の索引をもとに、その索引から階層関係を抽出し、関係インデックスとして登録する。索引は一般に量が多いので、このような構成が適当である。関係インデックス検索部34は、関係表現抽出部31において検索要求から抽出した関係表現に基づき、データベース部5に登録されている関係インデックスを検索する。検索結果は出力部4へ出力される。
【0051】
具体例をもとに、本発明の第2の実施例の動作を説明する。階層関係抽出部2は、まず原データ6内の索引から、階層をたどって句表現を取り出す。以下の説明では、原データ6が図6に示した索引を有するものとして説明する。句表現を取り出す処理は、基本的には上述の第1の実施例における目次の場合と同様であるが、さらに、図6に示した例においては、「―」の部分を階層の上位の語と置換するなどの処理が必要である。こうして、例えば、
アトムの形
記号アトム
アトム記号
アトムの作成

といった句表現が抽出される。
【0052】
さらに、得られた句表現中の単語間の関係を抽出する。この単語間の関係を抽出する技術としては、例えば、上述の特願平6−213392号に記載されている技術を用いることができる。すなわち、まず形態素解析によって単語に分解し、単語群抽出規則を用いて、「前自立語並び+付属語並び+後自立語並び」というパターンの単語群の抽出を行なう。そして、抽出したパターンをもとに、関係抽出規則を用い、そのパターンに付与すべき関係を得る。さらに、関係展開規則を用いて関係を正規化することもできる。
【0053】
この例においては次のような関係表現を抽出することができる。
アトム−形[ノ]
記号−アトム[直結]
アトム−記号[直結]
アトム−作成[ノ]

これらの関係表現は、原データ6の関係インデックスとして、原データ6とともにデータベース部5に格納される。
【0054】
一方、検索時においては、関係表現抽出部31において、検索要求から関係表現を抽出する。ここでは、例えば、上述の特願平6−213392号に記載されている技術を用い、検索要求から関係表現を抽出する。検索要求として「アトムを作成すること」と入力されたとすると、関係表現抽出部31において次のような関係表現が抽出される。
アトム−作成[ヲ]
この関係表現はデータベース部5に登録された関係インデックスの「アトム−作成[ノ]」と一致し得る。このとき、違う格を有する関係でも一致させるために、例えば、上述の特願平6−213392号に記載されている関係展開規則を用いることができる。図6に示した索引は、検索要求を満足するので、関係インデックス検索部34からの指示により、データベース部5から対応する文書が取り出され、出力部4に送られる。さらに、索引には対応ページが記載されているので、文書中の検索された項目の出現ページを直接表示すると大変便利である。
【0055】
このようにして、階層構造を有する索引に対して、検索要求を満足する文書を検索することができる。このとき、単に単語を検索するだけでなく、単語間の関係を考慮した検索を行なっているので、検索要求の意味あいに適合する文書のみを検索することができる。
【0056】
この第2の実施例においても、上述の第1の実施例と同様、検索を行なった後、関係比較部33で関係を比較する構成としてもよい。また、第1の実施例においても、第2の実施例と同様、予め原データから階層関係を抽出してデータベースにインデックスとして登録しておき、登録したインデックスを検索するように構成してもよい。
【0057】
上述の第1および第2の実施例に示すように、本発明は、検索システムの目的に応じてさまざまに適用し得る。本発明は、階層に基づく検索を伴う処理一般に対して適用可能であり、前述の目次や索引に限らず適用可能である。
【0058】
【発明の効果】
以上の説明から明らかなように、本発明によれば、階層を持つ項目における項目間の関係と、検索要求に含まれる複数の単語とその間の関係に基づく検索を可能とし、これにより、利用者にとって軽い負担で効率の良い検索を実現することができるという効果がある。
【図面の簡単な説明】
【図1】本発明の階層項目検索装置の第1の実施例を示す概略構成図である。
【図2】文書における目次の一例の説明図である。
【図3】文書における目次の別の例の一部を示す説明図である。
【図4】特定語テーブルの一例の説明図である。
【図5】階層関係抽出処理の一例を示すフローチャートである。
【図6】索引の一例の説明図である。
【図7】本発明の階層項目検索装置の第2の実施例を示す概略構成図である。
【符号の説明】
1…検索要求入力部、2…階層関係抽出部、3…関係表現検索部、4…出力部、5…データベース部、6…原データ、11…キーボード、12…OCRスキャナ、13…マイク、14…記憶装置、15…受信部、31…関係表現抽出部、32…ブール検索部、33…関係比較部、34…関係インデックス検索部、41…端末、42…FAX/プリンタ、51…論文データベース、52…雑誌データベース、53…教科書データベース。

Claims (5)

  1. 階層を持つ項目を含む文書を格納したデータベースと、検索要求を与える検索要求入力手段と、前記検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を抽出する関係表現抽出手段と、前記データベースに格納されている前記文書から前記階層を持つ項目における項目間の階層の上下関係を取り出す階層関係抽出手段と、前記関係表現抽出手段により得られた前記関係表現と前記階層関係抽出手段により抽出された階層の上下関係とを比較し前記関係表現と一致し得る階層の上下関係を含む文書を検索結果として返す検索手段と、前記検索結果を出力する出力手段とを有することを特徴とする階層項目検索装置。
  2. 前記階層関係抽出手段は、前記文書の目次あるいは索引から前記階層を持つ項目における項目間の階層の上下関係を取り出すことを特徴とする請求項1に記載の階層項目検索装置。
  3. 検索要求を与える検索要求入力手段と、前記検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を抽出する関係表現抽出手段と、索引を含む文書から該索引の表記が省略された部分を前記索引の階層の上位の語と置換して句表現を抽出して該句表現中の単語間の関係表現を抽出する階層関係抽出手段と、前記関係表現を前記文書とともに格納したデータベースと、前記関係表現抽出手段により得られた前記関係表現と対応する前記階層関係抽出手段により抽出された前記関係表現を含む文書を検索結果として返す検索手段と、前記検索結果を出力する出力手段とを有することを特徴とする階層項目検索装置。
  4. 階層を持つ項目を含む文書がデータベースに格納されており、検索要求入力手段から与えられる検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を関係表現抽出手段により抽出し、前記データベースに格納されている前記文書から前記階層を持つ項目における項目間の階層の上下関係を階層関係抽出手段により取り出し、得られた前記階層の上下関係と抽出された前記関係表現とを比較し、前記関係表現と一致し得る前記階層の上下関係を含む文書を検索手段により検索して、検索結果を出力手段で出力することを特徴とする階層項目検索方法。
  5. 索引を含む文書から該索引の表記が省略された部分を前記索引の階層の上位の語と置換して句表現を抽出して該句表現中の単語間の関係表現を階層関係抽出手段で抽出し、前記関係表現を前記文書とともにデータベースに格納しておき、検索要求入力手段から与えられた検索要求に含まれる複数の単語と該単語間の関係とからなる関係表現を関係表現抽出手段により抽出し、得られた前記関係表現と対応する前記階層関係抽出手段により抽出された前記関係表現を含む文書を検索手段により検索し、検索結果を出力手段で出力することを特徴とする階層項目検索方法。
JP04093695A 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法 Expired - Fee Related JP3579945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04093695A JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04093695A JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Publications (2)

Publication Number Publication Date
JPH08235194A JPH08235194A (ja) 1996-09-13
JP3579945B2 true JP3579945B2 (ja) 2004-10-20

Family

ID=12594394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04093695A Expired - Fee Related JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Country Status (1)

Country Link
JP (1) JP3579945B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3166689B2 (ja) 1997-11-18 2001-05-14 富士ゼロックス株式会社 シソーラス検索合成システム
US6085188A (en) * 1998-03-30 2000-07-04 International Business Machines Corporation Method of hierarchical LDAP searching with relational tables
JP4803805B2 (ja) * 2006-06-27 2011-10-26 株式会社日立ソリューションズ 検索装置

Also Published As

Publication number Publication date
JPH08235194A (ja) 1996-09-13

Similar Documents

Publication Publication Date Title
US9201957B2 (en) Method to build a document semantic model
CN106997382B (zh) 基于大数据的创新创意标签自动标注方法及系统
CN103136352B (zh) 基于双层语义分析的全文检索系统
US5278980A (en) Iterative technique for phrase query formation and an information retrieval system employing same
Zhang et al. The past is not a foreign country: Detecting semantically similar terms across time
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
Attardi et al. Categorisation by Context.
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
Kruger et al. DEADLINER: Building a new niche search engine
Mahata et al. Theme-weighted ranking of keywords from text documents using phrase embeddings
US20230138014A1 (en) System and method for performing a search in a vector space based search engine
JPH08137898A (ja) 文書検索装置
US20020059219A1 (en) System and methods for web resource discovery
JP2000276487A (ja) 事例蓄積・検索装置、並びに事例蓄積方法および事例検索方法、並びに事例蓄積プログラムを記録したコンピュータで読取可能な記録媒体および事例検索プログラムを記録したコンピュータで読取可能な記録媒体
Nguyen et al. Named entity disambiguation: A hybrid statistical and rule-based incremental approach
Pedersen et al. Snippet search: A single phrase approach to text access
JP3579945B2 (ja) 階層項目検索装置および階層項目検索方法
De Nart et al. A domain independent double layered approach to keyphrase generation
KR100376931B1 (ko) 정보 검색 기술을 이용한 한영번역 데이터베이스 시스템 구축 방법
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
De Virgilio et al. A reverse engineering approach for automatic annotation of Web pages
Fogarolli Wikipedia as a source of ontological knowledge: state of the art and application
Thambi et al. Graph based document model and its application in keyphrase extraction
Sutcliffe et al. Beyond keywords: Accurate retrieval from full text documents
Gulla et al. An interactive ontology learning workbench for non-experts

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees