JPH08235194A - 階層項目検索装置 - Google Patents

階層項目検索装置

Info

Publication number
JPH08235194A
JPH08235194A JP7040936A JP4093695A JPH08235194A JP H08235194 A JPH08235194 A JP H08235194A JP 7040936 A JP7040936 A JP 7040936A JP 4093695 A JP4093695 A JP 4093695A JP H08235194 A JPH08235194 A JP H08235194A
Authority
JP
Japan
Prior art keywords
search
relation
hierarchical
relationship
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP7040936A
Other languages
English (en)
Other versions
JP3579945B2 (ja
Inventor
Tadanobu Miyauchi
忠信 宮内
Mamiko Oka
満美子 岡
Yoshihiro Ueda
良寛 上田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP04093695A priority Critical patent/JP3579945B2/ja
Publication of JPH08235194A publication Critical patent/JPH08235194A/ja
Application granted granted Critical
Publication of JP3579945B2 publication Critical patent/JP3579945B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】 階層を持つ項目を容易かつ効率的に検索可能
とした階層項目検索装置を提供する。 【構成】 データベース部5には、階層を持つ項目を含
む文書が格納されている。検索要求入力部1は、ユーザ
の検索要求を受け取り、関係表現検索部3に与える。階
層関係抽出部2は、少なくともデータベース部5に接続
されており、検索対象となる階層を持つ項目群から上位
−下位の項目間の関係を取り出す。関係表現検索部3
は、検索要求入力部1から与えられた検索要求から、複
数の表現とその間の関係を取り出す。そして、取り出し
た表現とその間の関係、および、階層関係抽出部2で抽
出した関係に基づき、データベース部5の検索を行な
う。関係表現検索部3により得られた検索結果は、出力
部4に出力され。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、キーワードによりデー
タベースの検索を行なう検索装置に関連するものであ
り、特に、目次や索引などの階層関係に基づく検索を行
なう階層項目検索装置に関するものである。
【0002】
【従来の技術】従来より、テキスト検索の研究が活発に
行なわれている。テキスト検索における主な技術とし
て、キーワード検索と全文検索がよく知られている。キ
ーワード検索は、あらかじめデータに対してキーワード
を付与しておき、これに基づき検索するものである。例
えば、タイトル、著者名、掲載誌、発行年など、特定の
属性に対して一意に決まるもののいずれかまたはそれら
の組合せがわかっていて検索する場合には、検索効率も
良く、非常に有効な手法である。ところが、本文やアブ
ストラクトなどの、内容に直接かかわる表現から検索し
ようとすると、うまくいかないことが多い。これは、検
索者の意図に沿ったキーワードがあらかじめ付与されて
いるとは限らないためである。このような場合、全文検
索が有効である。すなわち、利用者の検索要求が文中の
どこかに含まれていれば、必ず検索ができるためであ
る。
【0003】一方、文献情報においては、目次も重要な
情報である。一般に目次は、文献で述べられている主な
内容を簡潔に表現しているため、テキスト検索の重要な
手がかりとなり得る。しかし、既存の方式においては、
目次の検索に向いた手法は見当たらない。
【0004】図2は、文書における目次の一例の説明図
である。図2に示すような科学技術論文の目次について
考える。図2に示すように、目次は階層的に表現され、
特に科学技術論文などでは、例えば、「概要」、「目
的」のようなしばしば用いられる単語が多い。このた
め、キーワード検索のためのキーワードを付与すること
を考えると、他の文献と重複するものが多くなり過ぎて
しまい、有効なキーワードとはならない。
【0005】一方、全文検索を用いた場合も問題点は同
様で、ある単語から検索しようとしても候補が非常に多
くなりすぎてしまう。こうした場合、キーワード検索、
全文検索を問わず、情報検索一般で行なわれる方法とし
て、AND条件などによる絞り込みが挙げられる。例え
ば、「キーワード検索の方法」に関する目次を検索した
い場合、「キーワード&検索&方法」という検索式で検
索することになる。しかし、単純にこのような検索式で
検索した場合、図2に示したような目次を有する文書以
外に、関係のない文書を多数含む検索結果しか得られな
い。例えば、「全文検索の方法」に関する項目を有する
文書中に、「キーワード検索との違い」の項目が存在す
れば、その文書は検索結果中に含まれてしまう。このよ
うに、目次において階層的な関係が項目間に存在するに
もかかわらず、単純なAND条件による絞り込みでは階
層関係が無視されてしまう。
【0006】もし、多少検索式が複雑になることをいと
わなければ、階層構造を意識した検索も可能ではある。
例えば、前述の「キーワード検索の方法」に関する目次
を検索する場合、図2に示した目次を検索することを目
標として、「キーワード検索」の章の下位の「方法」を
検索するように検索式を構成すればよい。しかし、目次
表現としては、文書の構成によっては別の章立てになっ
ていることもある。図3は、文書における目次の別の例
の一部を示す説明図である。例えば、図3においても、
「キーワード検索の方法」に関する目次は存在すると言
える。この例に示した目次を検索するには、「方法」の
章の下位に展開されている「キーワード検索」の節を検
索する検索式を用いて検索を行なわなければならない。
このように、同じ内容を検索するために、階層の上位/
下位を入れ換えて検索するなどの必要がある。これでは
検索式が複雑になり過ぎて一般の利用者にとっては使い
にくいものになってしまうという問題があった。
【0007】このように、従来の技術においては、目次
のような階層を持つ情報の検索に向く手法はなかった。
【0008】
【発明が解決しようとする課題】本発明は、上述した事
情に鑑みてなされたもので、特に目次や索引などの階層
を持つ項目を容易かつ効率的に検索可能とした階層項目
検索装置を提供することを目的とするものである。
【0009】
【課題を解決するための手段】本発明は、請求項1に記
載の発明においては、階層項目検索装置において、階層
を持つ項目を含む文書を格納したデータベースシステム
と、検索要求を与える検索要求入力手段と、前記階層を
持つ項目における項目間の関係を取り出す階層関係抽出
手段と、前記検索要求に含まれる複数の単語と該単語間
の関係および前記データベースシステムに格納されてい
る前記文書から前記階層関係抽出手段にて得た項目間の
関係に基づき前記データベースシステムを用いて検索を
行ないその検索結果として前記検索要求に対応する階層
関係を含む文書を返す関係表現検索手段と、前記検索結
果を出力する出力手段を有することを特徴とするもので
ある。
【0010】請求項2に記載の発明においては、請求項
1に記載の階層項目検索装置において、前記関係表現検
索手段は、前記検索要求に含まれる複数の単語と該単語
間の関係を抽出する関係表現抽出手段と、該関係表現抽
出手段により得られた単語に基づきブール検索を行ない
ブール検索結果を得るブール検索手段と、前記関係表現
抽出手段により得られた前記単語間の関係と前記ブール
検索結果から前記階層関係抽出手段により抽出された階
層関係を比較し一致しうる階層関係を含む文書のみを検
索結果として返す関係比較手段を含むことを特徴とする
ものである。
【0011】請求項3に記載の発明においては、請求項
1に記載の階層項目検索装置において、前記階層関係抽
出手段は、階層を持つ項目を含む原データより予め前記
階層を持つ項目における項目間の関係を取り出し該項目
間の関係をキーとして原データとともに前記データベー
スに登録し、前記関係表現検索手段は、前記検索要求に
含まれる複数の単語と該単語間の関係を抽出する関係表
現抽出手段と、予め前記階層関係抽出手段により前記項
目間の関係をキーとして登録した前記データベースに対
して前記関係表現抽出手段により抽出された前記単語と
単語間の関係と一致しうる階層関係を含む文書を検索結
果として返す関係インデックス検索手段を含むことを特
徴とするものである。
【0012】
【作用】本発明によれば、関係表現検索手段は、検索要
求に含まれる複数の単語とそれらの単語間の関係と、階
層関係抽出手段にて得られた項目間の関係に基づき、デ
ータベースシステムを用いて検索を行なう。これによ
り、検索要求中の単語間の関係に合った階層関係を持つ
項目を含む文書のみを効率よく検索することができる。
また、検索要求中の単語間の関係と、階層関係抽出手段
にて得られた項目間の関係に基づき検索を行なうので、
例えば、階層の上下関係が逆転していても検索できるな
ど、階層項目に対する柔軟性の高い検索を行なうことが
できる。
【0013】関係表現検索手段は、例えば、請求項2や
請求項3に記載したように、用途に応じ種々の構成をと
ることができ、検索の目的に応じた処理が可能となる。
請求項2に記載の発明によれば、関係表現抽出手段で検
索要求に含まれる複数の単語と該単語間の関係を抽出
し、得られた単語に基づきブール検索を行なう。そし
て、階層関係抽出手段によりブール検索の結果から階層
関係を抽出し、この階層関係と関係表現抽出手段により
得られた単語間の関係とを関係比較手段で比較して、一
致しうる階層関係を含む文書のみを検索結果とする。ま
た、請求項3に記載の発明によれば、階層関係抽出手段
は、階層を持つ項目を含む原データより予め前記階層を
持つ項目における項目間の関係を取り出し該項目間の関
係をキーとして原データとともに前記データベースに登
録しておく。検索の際には、関係表現抽出手段が検索要
求に含まれる複数の単語と該単語間の関係を抽出し、抽
出した単語と単語間の関係と一致しうる階層関係を含む
文書を検索結果とする。
【0014】
【実施例】図1は、本発明の階層項目検索装置の第1の
実施例を示す概略構成図である。図中、1は検索要求入
力部、2は階層関係抽出部、3は関係表現検索部、4は
出力部、5はデータベース部、11はキーボード、12
はOCRスキャナ、13はマイク、14は記憶装置、1
5は受信部、31は関係表現抽出部、32はブール検索
部、33は関係比較部、41は端末、42はFAX/プ
リンタ、51は論文データベース、52は雑誌データベ
ース、53は教科書データベースである。この第1の実
施例では、本発明の階層項目検索装置を目次検索システ
ムに適用した場合の構成を説明する。
【0015】検索要求入力部1は、ユーザの検索要求を
与える。検索要求入力部1としては、例えば、キーボー
ド11、OCRスキャナ12、音声認識により入力する
マイク13、赤外線や無線を用いた携帯情報機器の受信
部15などにより構成することができる。もちろん、こ
れ以外の入力装置を用いるようにしてもよいし、ネット
ワークに接続された記憶装置14に検索要求を入力した
文書を入れておき、ここから入力として取り出すように
構成しても良い。
【0016】階層関係抽出部2は、少なくともデータベ
ース部5に接続され、検索対象となる階層を持つ項目群
から上位−下位の項目間の関係を取り出す。
【0017】関係表現検索部3は、関係表現抽出部3
1、ブール検索部32、関係比較部33を有している。
関係表現抽出部31は、検索要求入力部1から与えられ
た検索要求から、複数の表現とその間の関係を取り出
す。以下、複数の表現とその間の関係を関係表現と呼
ぶ。ブール検索部32は、関係表現抽出部31により得
られた表現をキーワードとし、これに基づくブール検索
を行なう。関係比較部33は、関係表現抽出部31によ
り得られた関係表現と、ブール検索部32によるブール
検索結果から階層関係抽出部2で抽出された階層関係を
比較し、一致しうるもののみを検索結果として返す。
【0018】出力部4は、関係表現検索部3により得ら
れた検索結果を出力する。出力部4は、端末41、ファ
クシミリ/プリンタ42などから構成することができ
る。もちろん、これ以外の出力装置を用いるようにして
もよいし、いったんネットワークに接続された記憶装置
に蓄えるように構成してもよい。
【0019】データベース部5は、検索対象となる論文
データベース51、雑誌データベース52、教科書デー
タベース53など、各種のデータベースシステムから構
成され、階層を持つ項目を含む文書が格納されている。
もちろん、図示した3つのデータベース以外のデータベ
ースを含むこともあり、階層を持つ項目を含む文書が格
納された1つ以上のデータベースで構成される。
【0020】以下、本発明の第1の実施例における動作
の一例を説明する。ここでは、おもに科学技術文献を想
定して説明する。科学技術文献において、代表的な章立
ての形式としては、例えば、図2に示したように、1つ
のまとまった技術ごとに、その目的、方法、例、結果な
どが記述される。目次には、このような章立てのまま、
文書の構造が記述されている。こうした形式において
は、自然語で表現すれば「全文検索における目的」、
「キーワード検索の実現例」のように、上位項目が下位
項目を限定する関係が存在する。
【0021】また、別の形式としては、例えば、図3に
示したように、目的、方法などの各項目ごとに、それぞ
れの技術を説明する形式も、一般的に用いられている。
この場合も、自然語で表現すれば「全文検索の目的」、
「キーワード検索の実現例」のような関係を有してい
る。この場合には、下位項目が上位項目を限定している
関係を有している。
【0022】このように、目次においては「目的」、
「実現」といった項目間の関係を担う典型的な単語が存
在する。そこで、このような典型的な単語を集めた特定
語テーブルを用意する。図4は、特定語テーブルの一例
の説明図である。図4に示した特定語テーブルの例は、
科学技術文献における一般的な構成でよく用いられる基
本語と、それぞれに関連する関連語からなり、検索要求
および対象文書の目次から関係を抽出する際に用いる。
【0023】この特定語テーブルは、文書の構成に依存
するので、対象となる分野ごとに異なるものを用いると
よい。さらに、契約書や公文書など、分野によって形式
が決まっているものにおいては、より詳細な特定語テー
ブルを構成することが可能である。
【0024】検索要求入力部1から与えられたユーザの
検索要求は、関係表現検索部3に渡され、関係表現抽出
部31において自然語表現の検索要求から関係表現が抽
出される。関係表現を抽出する手法としては、例えば、
検索要求を形態素解析した後、解析結果のパタンマッチ
ングによって関係を抽出する手法を用いることができ、
さらに特定語の出現位置情報を加える。
【0025】形態素解析とパタンマッチングによる関係
の抽出については、例えば、特願平6−213392号
などに記載されている。この出願に記載されている方法
では、まず、抽出される単語群の基本的なパターンが登
録されている単語群抽出規則を用いて、「前自立語並び
+付属語並び+後自立語並び」というパターンの単語群
の抽出を行なう。そして、抽出したパターンをもとに、
単語群とその単語群が有する関係とが対にして登録され
ている関係抽出規則を用い、そのパターンに付与すべき
関係を得る。さらに、概念的に同一になり得る表現が登
録されている関係展開規則を用いて関係を正規化するこ
とも記載されている。
【0026】この実施例では、簡単な例として、表現を
2項に分解し、特定語を前または後ろの表現のどちらに
含むかという関係のみを扱う。関係としては、例えば、
特定語が前にある場合は(前)、両方の場合は(前
後)、共に特定語でない場合は(無し)が付与される。
もちろん、よりユーザの検索意図を反映させるのであれ
ば、特願平6−213392号にも述べられているよう
に、単語間の格関係などを抽出することも有効である。
【0027】このようにして得られる関係表現の抽出結
果を、関係比較部33に渡すとともに、キーワードに分
割してブール検索部32に渡す。ブール検索部32は、
与えられた単語に基づき、検索式を生成し、データベー
ス部5に対して検索を行なう。
【0028】ここまでの動作を具体例を用いて説明す
る。例えば、検索要求として、検索要求入力部1から
「全文検索の評価」と入力されたとする。関係表現抽出
部31では、まず形態素解析を行なう。この検索要求を
形態素解析すると、以下のような結果が得られる。 全文(名詞)/検索(サ変)/の(付属語)/評価(サ
変)
【0029】続いて、形態素解析が行なわれた検索要求
は、付属語「の」で前後に分割される。そして、「全文
検索」と「評価」の間の関係が抽出される。この場合、
例えば、図4に示したような特定語テーブルと各表現と
のパタンマッチングの結果、特定語「評価」が後に出現
しているので、次のようなパターンが取り出される。 全文検索−評価(後) これは、「全文検索」という表現と「評価」という表現
において、後に置かれた「評価」という表現が目次にお
ける特定語であるという関係を担うことを意味する。
【0030】この結果を、関係比較部に渡すとともに、
キーワードに分割してブール検索部32に渡し、検索を
行なう。この場合、「全文検索」と「評価」のAND条
件で結んだ検索式を生成し、検索を行なう。
【0031】続いて、階層関係抽出部2は、ブール検索
結果の文書から、あらかじめ目次の項目間の関係を抽出
する。図5は、階層関係抽出処理の一例を示すフローチ
ャートである。なお、ここでは、対象となる文書は論理
構造を付与されており、項目間の上位−下位関係が容易
にたどれることを前提とする。しかし、文書が論理構造
を持たず、プレーンテキストとして保持される場合にお
いても、目次においては、ポイントシステムやインデン
トによって示されることが一般的であり、簡単な処理に
より上位−下位関係をたどることは可能である。
【0032】S61〜S64は、前処理である。S61
でスタックをクリアし、S62で各種の変数をクリアす
る。スタックは、下位項目を処理している場合、それら
の項目の上位の項目が保持される。変数としては、ここ
では変数ITEMを用いている。この変数ITEMは、
文書から取り出した項目が格納される。さらに、S63
で文書の先頭の項目の位置を設定し、S64で検索範囲
を設定する。
【0033】前処理ののち、S65において、項目を取
り出し、変数ITEMに格納する。続いて、S66にお
いて、スタックの内容をチェックする。スタックが空の
場合にはS69へ進み、スタックが空でない場合にはS
67およびS68の処理を行なった後、S69へ進む。
S67では、スタックの最上位に格納されている項目お
よび変数ITEMに格納されている項目と、特定語テー
ブルに格納されている項目とのパタンマッチングを行な
い、S68において、パタンマッチングの結果に従った
階層関係を、スタックの最上位に格納されている項目お
よび変数ITEMに格納されている項目とともに出力す
る。
【0034】S69では、下位の項目が存在するか否か
がチェックされる。下位の項目が存在する場合にはS7
0へ進む。また、下位の項目が存在しない場合には、S
72へ進む。S70では、変数ITEMに格納されてい
る項目をスタックにプッシュするとともに、S71にお
いて下位の項目へ移行する。そして、下位の項目の処理
を行なうべく、S65へ戻る。
【0035】下位の項目が存在しない場合には、S72
において、継続項目が存在するか否かがチェックされ
る。継続項目が存在する場合には、存在する継続項目の
処理を行なうべく、S65へ戻る。継続項目が存在しな
い場合には、S73において、スタックの内容をチェッ
クし、スタックが空、すなわち最上位の項目の処理が終
了した場合には、処理を終わる。スタックが空でない場
合には、S74においてスタックをポップし、S75に
おいて上位項目に移行する。そして、S72へ戻り、継
続項目の有無の判定処理を行なう。
【0036】上述の階層関係抽出処理の一例を、上述の
図2に示した目次を例として説明する。前処理ののち、
S65で「1.はじめに」を項目として取り出し、変数
ITEMに格納する。実際には、番号などを除いた項目
名そのものである「はじめに」が格納される。
【0037】続いて、S66でスタックの内容をチェッ
クするが、空のままなのでS69へ進む。S69では、
下位の項目が存在するか否かがチェックされる。ここで
は存在しないのでS72へ進み、継続項目が存在するか
否かがチェックされる。継続項目が存在するのでS65
に戻る。S65では、続く「概要」が変数ITEMに格
納され、同様にS69まで進む。
【0038】S69において、今度は下位の項目が存在
するため、S70において変数ITEMの内容である
「概要」をスタックにプッシュし、S71で1レベル下
に降り、S65に戻る。そして、S65において取り出
した項目「全文検索」を変数ITEMに格納する。
【0039】S66において、今度はスタックが空では
ない。そのためS67へ進み、項目間の関係を取り出
す。ここでは、基本的には上位−下位という関係のみを
扱うが、特定のパターンにおいてはより詳細な関係を付
与することが可能である。関係の抽出にあたっては、検
索要求からの関係表現抽出時と同じ特定語テーブルを用
いる。ここでは、特定語を下位項目に含むパターンにつ
いては、上位から下位という意味で「上→下」、特定語
を上位項目に含むパターンにおいては、下位から上位と
いう意味で「下→上」という関係を持たせることとす
る。どちらにも特定語を持たない、または両方に持つ場
合は、関係が推定できないため「不明」とする。ここで
は、スタックに格納されている「概要」が上位、取り出
した項目「全文検索」が下位である。例えば、図4に示
す特定語テーブルを用いると、「概要」が特定語であ
る。そのため、これらの項目の間には「下→上」という
関係が得られ、これを出力する。
【0040】続いて、S69で下位の項目があるか否か
をチェックするが、下位項目は存在しないのでS72に
進む。S72では、同じレベルで継続する項目があるか
否かをチェックする。この場合には同じレベルの項目が
存在するのでS65に戻り、先ほどと同様に項目「キー
ワード検索」を取り出し、S67,S68で「概要」と
「キーワード検索」に「下→上」という関係を持たせ、
出力する。ここでは下位項目、継続項目ともに存在しな
いのでS73に進む。S73では、スタックが空か否か
をチェックする。ここでは空ではないのでS74へ進
む。S74では、スタックをポップして、S75で上位
項目へ戻る。S72で「概要」の継続項目がチェックさ
れ、継続項目が存在するのでS65へ戻る。
【0041】今度は変数ITEMに「全文検索」を格納
して同様に処理を進める。この時点でスタックは空であ
るのでS69へ進み、下位が存在するのでS70で「全
文検索」がスタックにプッシュされる。続く項目「目
的」がS65で変数ITEMに格納され、S67のパタ
ンマッチングの結果、これらの項目の間に関係として
「上→下」が付与され、S68で出力される。以下同様
に処理が進み、「全文検索」と「方法」、「全文検索」
と「実現例」についてそれぞれ「上→下」という関係が
付与される。
【0042】続いて、項目「実現例」にはさらに下位レ
ベルの項目が存在するため、今度は「実現例」をスタッ
クにプッシュし、次の項目が変数ITEMに読み込まれ
る。このように、処理はスタックを用いて再帰的に進め
られる。このとき変数ITEMには「XX1システム」
が格納され、関係「下→上」が出力される。同様に「X
X2システム」についても処理がなされ、関係「下→
上」が出力される。今度は続く同レベルの項目がないた
め、S74でスタックがポップされて「実現例」が取り
出され、上位レベルに戻る。
【0043】以上のような処理が他の項目においても同
様に行なわれ、最終的には次のような階層関係が得られ
る。 概要−全文検索(下→上) 概要−キーワード検索(下→上) 全文検索−方法(上→下) 全文検索−実現例(上→下) 実現例−XX1システム(下→上) 実現例−XX2システム(下→上) 全文検索−評価(上→下) 全文検索−結果(上→下) キーワード検索−概要(上→下) キーワード検索−目的(上→下) キーワード検索−方法(上→下) キーワード検索−実現例(上→下) 実現例−YY1システム(下→上) 実現例−YY2システム(下→上) キーワード検索−評価(上→下) キーワード検索−結果(上→下) 比較−実験(上→下) 比較−考察(上→下) 新しい検索方式−キーリレーション検索(不明) 新しい検索方式−ファジィ検索(不明)
【0044】このようにして抽出された階層関係を、あ
らかじめ抽出した検索要求中の関係表現と、関係比較部
にて比較する。上述の検索要求「全文検索の評価」の例
では、関係表現として「全文検索−評価(後)」が得ら
れていた。これは、次の階層関係と一致し得る。 (1)全文検索−評価(上→下) (2)評価−全文検索(下→上) さきほど図2の例の目次から抽出した階層関係において
は、(1)の階層関係を含む。そのため、検索結果の一
つとしてこの目次を有する文書が返され、出力部から出
力される。以上をもって、検索が終了する。
【0045】上述のように、この検索においては、関係
表現「全文検索−評価(後)」から(1)に示す階層関
係だけでなく、(2)に示す階層関係を有する場合も検
索結果として得ることができる。しかし、単に「全文検
索」、「評価」という単語を目次に有しているだけで
は、検索結果として出力されない。このように、この第
1の実施例では、目次から、検索要求の内容に近いもの
だけを検索結果として得ることができる。
【0046】次に、本発明の階層項目検索装置の第2の
実施例について説明する。この第2の実施例では、索引
を検索するシステムについて述べる。索引は、文書の論
理構造を直接反映した目次とは異なり、文中に出現した
表現から直接本文中の特定の位置をたどれるものであ
る。図6は、索引の一例の説明図である。図6に示した
索引の一例は、中西著,近代科学社「Lisp入門」
(1985)の索引より「あ」の部分を抜粋したもので
ある。索引においても、例えば、図6に示すように、
「アトム」の項目の下位に例えば「アトムの形」、「記
号アトム」など、いくつかの項目が展開されている場合
がある。このような階層構造を有した索引を検索するこ
とを考える。
【0047】従来のシステムにおいては、目次の場合の
問題同様、単語からの検索しかサポートされいていない
のが一般的である。このため、索引にしばしば見られる
ある語を含む句による表現から検索する場合、ユーザは
表現に含まれる語をいったん検索し、そこからさらに求
める句を捜し出し、無い場合には別の単語からまた検索
するといった手間を要した。図6に示した例では、「記
号アトム」と「アトム記号」はまったく異なる概念を示
すうえ、索引の出現場所も「記号」の側にあるかもしれ
ず、通常の検索システムではうまく検索できない。
【0048】そこで、図6に示した例のように、索引に
おいても句を表わすために階層表現が用いられることを
利用する。これにより、目次のような上下のみの関係で
はなく、格関係などをより容易に取り出すことができ
る。このため、検索要求中の関係表現と、より適合度の
高い検索が可能となる。
【0049】図7は、本発明の階層項目検索装置の第2
の実施例を示す概略構成図である。図中、図1と同様の
部分には同じ符号を付して説明を省略する。6は原デー
タ、34は関係インデックス検索部である。この実施例
では、予め階層関係を抽出して関係インデックスとして
データベースに登録しておく場合の例を示している。
【0050】階層関係抽出部2は、原データ6の索引を
もとに、その索引から階層関係を抽出し、関係インデッ
クスとして登録する。索引は一般に量が多いので、この
ような構成が適当である。関係インデックス検索部34
は、関係表現抽出部31において検索要求から抽出した
関係表現に基づき、データベース部5に登録されている
関係インデックスを検索する。検索結果は出力部4へ出
力される。
【0051】具体例をもとに、本発明の第2の実施例の
動作を説明する。階層関係抽出部2は、まず原データ6
内の索引から、階層をたどって句表現を取り出す。以下
の説明では、原データ6が図6に示した索引を有するも
のとして説明する。句表現を取り出す処理は、基本的に
は上述の第1の実施例における目次の場合と同様である
が、さらに、図6に示した例においては、「―」の部分
を階層の上位の語と置換するなどの処理が必要である。
こうして、例えば、 アトムの形 記号アトム アトム記号 アトムの作成 : といった句表現が抽出される。
【0052】さらに、得られた句表現中の単語間の関係
を抽出する。この単語間の関係を抽出する技術として
は、例えば、上述の特願平6−213392号に記載さ
れている技術を用いることができる。すなわち、まず形
態素解析によって単語に分解し、単語群抽出規則を用い
て、「前自立語並び+付属語並び+後自立語並び」とい
うパターンの単語群の抽出を行なう。そして、抽出した
パターンをもとに、関係抽出規則を用い、そのパターン
に付与すべき関係を得る。さらに、関係展開規則を用い
て関係を正規化することもできる。
【0053】この例においては次のような関係表現を抽
出することができる。 アトム−形[ノ] 記号−アトム[直結] アトム−記号[直結] アトム−作成[ノ] : これらの関係表現は、原データ6の関係インデックスと
して、原データ6とともにデータベース部5に格納され
る。
【0054】一方、検索時においては、関係表現抽出部
31において、検索要求から関係表現を抽出する。ここ
では、例えば、上述の特願平6−213392号に記載
されている技術を用い、検索要求から関係表現を抽出す
る。検索要求として「アトムを作成すること」と入力さ
れたとすると、関係表現抽出部31において次のような
関係表現が抽出される。 アトム−作成[ヲ] この関係表現はデータベース部5に登録された関係イン
デックスの「アトム−作成[ノ]」と一致し得る。この
とき、違う格を有する関係でも一致させるために、例え
ば、上述の特願平6−213392号に記載されている
関係展開規則を用いることができる。図6に示した索引
は、検索要求を満足するので、関係インデックス検索部
34からの指示により、データベース部5から対応する
文書が取り出され、出力部4に送られる。さらに、索引
には対応ページが記載されているので、文書中の検索さ
れた項目の出現ページを直接表示すると大変便利であ
る。
【0055】このようにして、階層構造を有する索引に
対して、検索要求を満足する文書を検索することができ
る。このとき、単に単語を検索するだけでなく、単語間
の関係を考慮した検索を行なっているので、検索要求の
意味あいに適合する文書のみを検索することができる。
【0056】この第2の実施例においても、上述の第1
の実施例と同様、検索を行なった後、関係比較部33で
関係を比較する構成としてもよい。また、第1の実施例
においても、第2の実施例と同様、予め原データから階
層関係を抽出してデータベースにインデックスとして登
録しておき、登録したインデックスを検索するように構
成してもよい。
【0057】上述の第1および第2の実施例に示すよう
に、本発明は、検索システムの目的に応じてさまざまに
適用し得る。本発明は、階層に基づく検索を伴う処理一
般に対して適用可能であり、前述の目次や索引に限らず
適用可能である。
【0058】
【発明の効果】以上の説明から明らかなように、本発明
によれば、階層を持つ項目における項目間の関係と、検
索要求に含まれる複数の単語とその間の関係に基づく検
索を可能とし、これにより、利用者にとって軽い負担で
効率の良い検索を実現することができるという効果があ
る。
【図面の簡単な説明】
【図1】 本発明の階層項目検索装置の第1の実施例を
示す概略構成図である。
【図2】 文書における目次の一例の説明図である。
【図3】 文書における目次の別の例の一部を示す説明
図である。
【図4】 特定語テーブルの一例の説明図である。
【図5】 階層関係抽出処理の一例を示すフローチャー
トである。
【図6】 索引の一例の説明図である。
【図7】 本発明の階層項目検索装置の第2の実施例を
示す概略構成図である。
【符号の説明】
1…検索要求入力部、2…階層関係抽出部、3…関係表
現検索部、4…出力部、5…データベース部、6…原デ
ータ、11…キーボード、12…OCRスキャナ、13
…マイク、14…記憶装置、15…受信部、31…関係
表現抽出部、32…ブール検索部、33…関係比較部、
34…関係インデックス検索部、41…端末、42…F
AX/プリンタ、51…論文データベース、52…雑誌
データベース、53…教科書データベース。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 上田 良寛 神奈川県横浜市保土ヶ谷区神戸町134番地 横浜ビジネスパークイーストタワー 富 士ゼロックス株式会社内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 階層を持つ項目を含む文書を格納したデ
    ータベースシステムと、検索要求を与える検索要求入力
    手段と、前記階層を持つ項目における項目間の関係を取
    り出す階層関係抽出手段と、前記検索要求に含まれる複
    数の単語と該単語間の関係および前記データベースシス
    テムに格納されている前記文書から前記階層関係抽出手
    段にて得た項目間の関係に基づき前記データベースシス
    テムを用いて検索を行ないその検索結果として前記検索
    要求に対応する階層関係を含む文書を返す関係表現検索
    手段と、前記検索結果を出力する出力手段を有すること
    を特徴とする階層項目検索装置。
  2. 【請求項2】 前記関係表現検索手段は、前記検索要求
    に含まれる複数の単語と該単語間の関係を抽出する関係
    表現抽出手段と、該関係表現抽出手段により得られた単
    語に基づきブール検索を行ないブール検索結果を得るブ
    ール検索手段と、前記関係表現抽出手段により得られた
    前記単語間の関係と前記ブール検索結果から前記階層関
    係抽出手段により抽出された階層関係を比較し一致しう
    る階層関係を含む文書のみを検索結果として返す関係比
    較手段を含むことを特徴とする請求項1に記載の階層項
    目検索装置。
  3. 【請求項3】 前記階層関係抽出手段は、階層を持つ項
    目を含む原データより予め前記階層を持つ項目における
    項目間の関係を取り出し該項目間の関係をキーとして原
    データとともに前記データベースに登録し、前記関係表
    現検索手段は、前記検索要求に含まれる複数の単語と該
    単語間の関係を抽出する関係表現抽出手段と、予め前記
    階層関係抽出手段により前記項目間の関係をキーとして
    登録した前記データベースに対して前記関係表現抽出手
    段により抽出された前記単語と単語間の関係と一致しう
    る階層関係を含む文書を検索結果として返す関係インデ
    ックス検索手段を含むことを特徴とする請求項1に記載
    の階層項目検索装置。
JP04093695A 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法 Expired - Fee Related JP3579945B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP04093695A JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP04093695A JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Publications (2)

Publication Number Publication Date
JPH08235194A true JPH08235194A (ja) 1996-09-13
JP3579945B2 JP3579945B2 (ja) 2004-10-20

Family

ID=12594394

Family Applications (1)

Application Number Title Priority Date Filing Date
JP04093695A Expired - Fee Related JP3579945B2 (ja) 1995-02-28 1995-02-28 階層項目検索装置および階層項目検索方法

Country Status (1)

Country Link
JP (1) JP3579945B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6085188A (en) * 1998-03-30 2000-07-04 International Business Machines Corporation Method of hierarchical LDAP searching with relational tables
US6282509B1 (en) 1997-11-18 2001-08-28 Fuji Xerox Co., Ltd. Thesaurus retrieval and synthesis system
JP2008009543A (ja) * 2006-06-27 2008-01-17 Hitachi Systems & Services Ltd 検索装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6282509B1 (en) 1997-11-18 2001-08-28 Fuji Xerox Co., Ltd. Thesaurus retrieval and synthesis system
US6085188A (en) * 1998-03-30 2000-07-04 International Business Machines Corporation Method of hierarchical LDAP searching with relational tables
JP2008009543A (ja) * 2006-06-27 2008-01-17 Hitachi Systems & Services Ltd 検索装置

Also Published As

Publication number Publication date
JP3579945B2 (ja) 2004-10-20

Similar Documents

Publication Publication Date Title
US9201957B2 (en) Method to build a document semantic model
Kowalski et al. Information storage and retrieval systems: theory and implementation
US7272558B1 (en) Speech recognition training method for audio and video file indexing on a search engine
Zhang et al. The past is not a foreign country: Detecting semantically similar terms across time
JP5376163B2 (ja) 文書管理・検索システムおよび文書の管理・検索方法
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
CN112507109A (zh) 一种基于语义分析与关键词识别的检索方法和装置
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
JP4333318B2 (ja) 話題構造抽出装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
US20070112839A1 (en) Method and system for expansion of structured keyword vocabulary
Tkach Text Mining Technology
KR100341396B1 (ko) 계층 단어를 이용한 3차원 클러스터링 생성 시스템 및 그방법
JP2001184358A (ja) カテゴリ因子による情報検索装置,情報検索方法およびそのプログラム記録媒体
JP3617096B2 (ja) 関係表現抽出装置および関係表現検索装置、関係表現抽出方法、関係表現検索方法
CN100361126C (zh) 使用本体论和用户查询处理技术解决问题的方法
JPH0844771A (ja) 情報検索装置
WO2009136426A1 (ja) 検索クエリ提供装置
JPH08235194A (ja) 階層項目検索装置
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
Dhar et al. Mathematical document retrieval system based on signature hashing
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
JP2002183195A (ja) 概念検索方式
Shah Review of indexing techniques applied in information retrieval
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
Ding News Article Name Disambiguation Model Based on Reinforcement Learning

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040309

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040712

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080730

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090730

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100730

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110730

Year of fee payment: 7

LAPS Cancellation because of no payment of annual fees