JPH1074207A - 情報検索装置及び情報検索方法 - Google Patents

情報検索装置及び情報検索方法

Info

Publication number
JPH1074207A
JPH1074207A JP8230965A JP23096596A JPH1074207A JP H1074207 A JPH1074207 A JP H1074207A JP 8230965 A JP8230965 A JP 8230965A JP 23096596 A JP23096596 A JP 23096596A JP H1074207 A JPH1074207 A JP H1074207A
Authority
JP
Japan
Prior art keywords
search
language
phrase
represented
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8230965A
Other languages
English (en)
Inventor
Takeshi Nakamura
健 中村
Toshihide Fujimaki
俊秀 藤巻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AdIn Research Inc
Original Assignee
AdIn Research Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by AdIn Research Inc filed Critical AdIn Research Inc
Priority to JP8230965A priority Critical patent/JPH1074207A/ja
Publication of JPH1074207A publication Critical patent/JPH1074207A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】 【課題】 本発明は、種々の表記又は言語表現が混在す
る情報を検索の抜けなく検索する方法及び装置の提供を
目的とする。 【解決手段】 本発明の情報検索方法は、(a)文字列
で表された検索キーを入力し、(b)検索キーを用いて
データベースから文書を検索し、(c)検索結果が良く
ない場合に、検索キーを文字列の組に分解して新たな検
索キーを生成し、又は、検索キーと類似した意味を持つ
別の語句を新たな検索キーとして、(b)に戻り、
(d)検索結果が良いか、検索キーが文字列の組に分解
できなくなるか、或いは、検索キーと類似した意味を持
つ別の語句が得られなくなるまで、(b)、(c)及び
(d)を繰り返し、検索の結果を出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、コンピュータシス
テム及び各種ネットワークシステム上に構築されたデー
タベースの検索装置に係り、特に、文書検索の装置及び
方法に関する。
【0002】
【従来の技術】従来、複数の文書から要求する文書を検
索抽出する処理は、語又は語句を検索キーとして、検索
キーと、文書の全体又は文書の内容を表わすキーワード
との文字列照合により行われている。図8は従来技術に
よる情報検索装置の構成図である。従来の情報検索装置
は、検索キーを入力する検索キー入力部2と、検索対象
の文書等が格納されたデータベース6と、入力された検
索キーを用いてデータベース6から文書等を検索する検
索処理部4とからなる。情報検索装置は、検索処理部4
で得られた検索結果の可否等を評価する検索結果評価部
8と、検索処理部4からの検索結果と、検索結果評価部
8からの評価とを受けて、検索結果をディスプレイ、プ
リンタ等の出力装置に供給する検索結果出力部10とを
更に有する。
【0003】例えば、データベースから要求する文書を
検索抽出する際には、(a)最初に、検索抽出したい文
書に含まれると思われる特徴的な語又は語句が検索キー
として入力され、(b)次に、文書全体に対して上記検
索キーとの文字列照合を行い、検索キーを含む文書を検
索結果として抽出し、又は、(c)データベース内に予
め保持されている文書内容の特徴を表わすキーワード群
との文字列照合を行い、検索キーを含む文章を検索結果
として抽出する。上記検索キー、即ち、検索条件は、操
作者が様々な背景要因等を考慮し、又は、試行錯誤する
ことによって設定される。上記従来の処理によれば、文
字列照合が成功するのは、検索キーとして与えられた各
語句又は字句の全体が検索の対象文書内に含まれる場
合、或いは、検索キーと同一の文字列が対象文書のキー
ワード群に含まれる場合に限られる。
【0004】
【発明が解決しようとする課題】上記従来の処理の
(b)又は(c)は、何れも、上記処理(a)において
検索キーとして与えられた文字列が複合語である場合に
は、その複合語を構成する単語が独立した文字列として
対象文書又は対象文書のキーワード群に含まれていても
文字列照合に失敗するので、有効な検索結果が得られな
い。例えば、検索キーとして“計算機技術者”が与えら
れたとき、対象文書内又は対象文書のキーワード群に
“計算機”及び“技術者”という個別の文字列が存在し
ていても、文字列“計算機技術者”全体として一致する
文字列が存在しないので、上記対象文書は有効な検索結
果対象として扱われない。
【0005】更に、上記処理(b)又は(c)における
文字列照合による検索では、対象文書内又は対象文書の
キーワード群の中に、検索キーと類似した語句、又は、
検索キーと同じ意味を持つ別の語句が存在していても、
有効な検索結果が得られない。例えば、検索キーとして
“計算機”と“技術者”とが与えられたとき、対象文書
内又は対象文書のキーワード群の中に“コンピュー
タ”、“ハードウェア”又は“エンジニア”等のよう
に、上記検索キーと密接な意味を持ち、或いは、一般的
に上記検索キーの同義語として扱われる語句が含まれて
いても、上記検索キーは文字列として上記語句に一致し
ていないので、かかる対象文書は有効な検索結果対象と
しては扱われない。
【0006】上記の如く、従来技術によれば、検索キー
とした与えられた語又は語句が複合語を構成する場合、
或いは、検索キーとして与えられた語又は語句の同義語
が対象文書又は対象文書のキーワード群中に存在する場
合に、有効な検索結果対象が得られないという問題があ
る。
【0007】例えば、同義語検索を行うためシソーラス
を利用することが考えられるが、一般にある言語、特
に、日本語に関しシソーラスを入手することは簡単では
なく、かつ、シソーラス自体の構築は容易ではない。本
発明は、上記従来の技術の問題点に鑑み、検索の抜けを
生じることなく、種々の表記又は言語表現が混在する情
報を検索する情報検索方法及び装置の提供を目的とす
る。
【0008】本発明の更なる目的は、背景要因の考慮、
或いは、試行錯誤を行うことなく、検索条件を設定し、
簡単な操作で適切な検索結果が得られる情報検索方法及
び装置の提供である。
【0009】
【課題を解決するための手段】図1は上記目的を達成す
る本発明の原理構成図である。同図には、検索対象とな
る情報を格納するデータベース6と、与えられた検索条
件を用いて上記データベースから所望のデータを検索す
る検索処理手段4と、上記検索処理手段4による検索に
よって得られたデータが所定の検索結果条件を満たすか
どうかを評価する検索結果評価手段8と、上記検索結果
評価手段8によって得られた評価に応じて上記検索処理
手段4による検索によって得られたデータを検索結果と
して出力する検索結果出力手段10とからなる情報検索
装置が示されている。本発明の情報検索装置は、上記デ
ータベース6から検索されるべき情報に含まれる可能性
がある文章を入力する文章入力手段2と、上記文章入力
手段2から供給された上記文章を、上記検索条件に対応
するキーワードの組に分解する文章分解手段12とを更
に有する。上記情報検索装置は、上記検索処理手段4に
よる検索によって得られたデータが上記所定の検索結果
条件を満たさない場合に、上記検索条件に対応した語又
は語句を類似した語又は語句に拡張する手段と、上記類
似した語又は語句を新しい検索条件とすることにより検
索条件を変更する手段と、上記新しい検索条件を上記検
索処理手段に供給する手段とからなる検索条件変更手段
14を更に有する。
【0010】文章分解手段12は、検索のため入力され
た文章を、検索条件に対応するキーワード、即ち、語又
は語句単位のキーワードに分解する。これにより、利用
者は、特徴抽出したい文章をそのまま検索装置に与える
ことができるので、特徴的な語又は語句を検索キーとし
て抽出する必要が回避される。また、検索のため入力さ
れた文章に複合語が含まれていても、複合語が語又は語
句単位のキーワードに分解されるので、検索対象の情報
の中に複合語が分解された単語しか含まれていない場合
でも、その情報を有効な検索結果として得ることが可能
である。
【0011】検索条件変更手段14は、検索条件を拡
張、又は、キーワードを曖昧化する。例えば、同義語、
類似語が得られるように検索条件を拡張することによ
り、文字列として同一ではなくても、検索条件と密接な
関係の意味を持つ語、一般的に同義として扱われる語句
が有効な検索結果として得られる。
【0012】
【発明の実施の形態】図2は本発明の文章分解による検
索キー変換を用いた情報検索方法のフローチャートであ
る。上記方法は、文字列で表された検索キーを用いて文
書のデータベースから所望の文書を検索する情報検索方
法であって、(a)上記検索キーを入力する段階(ステ
ップ1)と、(b)上記検索キーを用いて上記データベ
ースから文書を検索する段階(ステップ2)と、(c)
検索の結果として上記所望の文書が得られなかった場合
(ステップ3)に、上記検索に使用された検索キーを、
文字列の組に分解する段階(ステップ4)と、(d)上
記文字列の組が得られた場合(ステップ5)に、上記文
字列の組を新たな検索キーとして、上記段階(b)に戻
る段階(ステップ6)と、(e)検索の結果として上記
所望の文書が得られるか、或いは、上記検索に使用され
た検索キーを文字列の組に分解できなくなるまで、上記
段階(b)、(c)及び(d)を繰り返す段階(ステッ
プ2、3、4、5及び6)と、(f)検索の結果を出力
する段階(ステップ7)とからなる。
【0013】上記方法によれば、検索条件として入力さ
れた検索キーが検索対象文書又は情報内に存在せず、か
つ、検索キーが意味のある語句に分解可能である場合
に、検索キーが段階的に分解され、分解された個々の要
素が独立した検索キーとして再検索が行われる。
【0014】従来技術の場合には、例えば、検索キーと
して“計算機技術者”が与えられた場合には、比較対象
情報に“計算機の技術者”という表記が存在している場
合でも、文字列全体としては一致しないため、検索が失
敗する。一方、本発明によれば、“計算機技術者”で検
索が失敗した場合、検索キーを“計算機”と“技術者”
という複数の検索キーに分解し、再検索を行うことがで
きる。従って、検索の抜けを回避することが可能であ
る。
【0015】検索キーの分解は、対象言語における一般
的な辞典(国語辞典、各種用語辞典等)に登録された語
句を単位として分解する方法を用いる。上記分解方法
は、対象言語体系への依存度が非常に低いので、対象言
語文法に依存している従来の形態素解析よりも広い範囲
で容易に応用することが可能である。
【0016】更に、本発明によれば、検索条件として入
力された検索キーが検索対象文書(情報)内に存在しな
い場合、検索キーと同一の意味を持つ語句(群)又は類
似する意味を持つ語句(群)を導出し、導出された各語
句を検索キーとして再検索を行う方法が提供される。
【0017】従来技術の場合に、例えば、検索キーとし
て“計算機”が与えられた場合に、比較対象情報に“計
算機”という表記が存在していなければ、文字列全体と
しては一致しないため、検索は失敗する。一方、本発明
によれば、“計算機”で検索が失敗した場合に、検索キ
ーから類似、或いは、同一の意味を持つ“コンピュー
タ”、“ハードウェア”、“CPU”等の語句を導出
し、再検索を行うことができるので、検索の抜けを回避
することが可能である。
【0018】本発明は、類似、又は、同一の意味を持つ
語句の導出を行うキーワードの曖昧化による検索条件拡
張処理として、(1)検索キーに対応する語句を翻訳す
る際の異なる言語間での語彙定義の曖昧性を利用して語
彙数を拡張する方式と、(2)検索キーに対応する語句
を別の言語における類似語を用いて語彙数を拡張する方
式と、(3)検索キーに対応する語句の定義文章と類似
した定義文章を持つ別の語句を用いて語彙数を拡張する
方式の3通りの方式を提案する。以下、上記各方式に基
づく情報検索方法について説明する。
【0019】図3は、異なる言語間の語彙定義の曖昧性
を利用した情報検索方法のフローチャートである。上記
方法は、第1の言語で表された検索キーを用いて文書の
データベースから所望の文書を検索する情報検索方法で
あって、上記第1の言語で表された検索キーを入力する
段階(ステップ11)と、上記第1の言語で表された検
索キーを上記第2の言語で表された語句に翻訳する段階
(ステップ12)と、上記第2の言語で表された各語句
を、上記各語句に対応する上記第1の言語で表された少
なくとも1個の文字列に翻訳する段階(ステップ13)
と、上記第1の言語で表された少なくとも1個の文字列
を個別の拡張された検索キーとして、上記データベース
から文書を検索する段階(ステップ14)と、検索の結
果を出力する段階(ステップ15)とからなる。
【0020】上記方法は、一般に提供される異なる言語
間のディジタル化された翻訳辞典、例えば、和英辞典、
英和辞典、和独辞典、独和辞典等を用いて、ある言語に
おける検索キーである語又は語句に対応する他の言語に
おける語又は語句を得る際に、語彙定義の曖昧性を利用
して語彙数を拡張する。次に、再度、元の言語の語句に
翻訳することにより、最初の検索キーに類似した語又は
語句を新しい検索キーとして検索の際に利用する。尚、
以下の説明で、辞典は、計算機で利用可能なディジタル
化された辞書又は辞典を意味する。
【0021】例えば、第1の言語が日本語、第2の言語
が英語、第1の言語で表された検索キーが“技術者”で
ある場合を例として上記方法を説明する。検索キー“技
術者”は、和英辞典を用いて、“engineer”に翻訳され
る。次いで、英和辞典を用いて“engineer”を含む語句
を検索し、“engineer”等の語句を日本語に翻訳する。
これにより、最初の検索キー“技術者”に対する同義語
又は類義語としての“技師”、“工学者”等の語が得ら
れる。
【0022】図4は、検索キーに対応する語句を別の言
語における類似語を用いて語彙数を拡張する本発明の情
報検索方法のフローチャートである。上記方法は、第1
の言語で表された検索キーを用いて文書のデータベース
から所望の文書を検索する情報検索方法であって、上記
第1の言語で表された検索キーを入力する段階(ステッ
プ21)と、上記第1の言語で表された検索キーを上記
第2の言語で表された語句に翻訳する段階(ステップ2
2)と、上記第2の言語で表された語句を、上記語句に
対応する上記第2の言語で表された類似語の組に変換す
る段階(ステップ23)と、上記第2の言語で表された
類似語の組に含まれる各語句を、上記各語句に対応する
上記第1の言語で表された少なくとも1個の文字列に翻
訳する段階(ステップ24)と、上記第1の言語で表さ
れた少なくとも1個の文字列を個別の拡張された検索キ
ーとして、上記データベースから文書を検索する段階
(ステップ25)と、検索の結果を出力する段階(ステ
ップ26)とからなる。
【0023】上記方法は、一般に提供される異なる言語
間の翻訳辞書と、検索対象の文書が表された言語とは別
の言語において一般に提供される類似語辞書を用いる。
ある言語で表された検索キーである語又は語句が、翻訳
辞書を用いて、別の言語において、元の言語の語又は語
句に対応する語又は語句に翻訳される。次いで、別の言
語における語又は語句は、その別の言語における類似語
辞書を用いて類似語が得られ、語彙数が拡張される。次
いで、異なる言語間の翻訳辞書を用いて、上記別の言語
における各類似語が元の言語の語又は語句に翻訳され、
新しい検索キーとされる。
【0024】例えば、第1の言語が日本語、第2の言語
が英語、第1の言語で表された検索キーが“計算機”で
ある場合を例として上記方法を説明する。検索キー“計
算機”は、和英辞典を用いて、“computer”に翻訳され
る。次いで、英語の同義語辞典(シソーラス)を用い
て、“computer”の類義語又は同義語を検索することに
より、例えば、“calculator”、“slide rule”等の英
単語が得られる。これらの英単語を英和辞典を用いて日
本語に翻訳する。これにより、最初の検索キー“技術
者”に対する同義語又は類義語としての“電卓”、“計
算尺”等の語が得られる。
【0025】図5は、本発明による検索キーに対応する
語句の定義文章と類似した定義文章を持つ別の語句を用
いて語彙数を拡張する情報検索方法のフローチャートで
ある。上記方法は、文字列で表された検索キーを用いて
文書のデータベースから所望の文書を検索する情報検索
方法であって、上記文字列で表された検索キーを入力す
る段階(ステップ31)と、上記検索キーに対応する語
句を定義する第1の定義文章と、上記検索キーと対照さ
れる対照語句を定義する第2の定義文章とを得る段階
(ステップ32)と、上記第1の定義文章と上記第2の
定義文章が類似しているかどうかを判定する段階(ステ
ップ33)と、上記第1の定義文章と上記第2の定義文
章が類似している場合(ステップ34)に、上記対照語
句を拡張された検索キーとして上記データベースから文
章を検索する段階(ステップ35)と、検索の結果を出
力する段階(ステップ36)とからなる。上記方法によ
れば、検索キーに対応する語句の定義文章と類似した定
義文章を持つ別の語句を用いて語彙数が拡張される。定
義文章の類似性は、例えば、当該言語の辞書、即ち、国
語辞典を用いて判定することができる。
【0026】例えば、検索キー“運転”と、検索キーと
対照される語として“操縦”とが与えられた場合を考え
る。“運転”に対する国語辞典における定義文章
が“...〔機械について〕動力を操作して動かすこ
と。...”であり、“操縦”に対する国語辞典の定義
文章が“...自分の思う通りに機械や人を動かすこ
と。...”が得られた場合に、両方の定義文章を比較
して、“運転”と“操縦”の類似性を判定する。例え
ば、両方の定義文章に共通した字句の出現率が所定の割
合を越えたとき、“運転”と“操縦”が同義語として判
定される。
【0027】上記の検索条件拡張処理によって拡張され
た語彙の拡張履歴は、語句と語句の意味的な結合関係で
あると考えられるので、かかる拡張処理の後、同じ語句
の拡張がもう一度要求された場合には、かくして、得ら
れた拡張の結果を再利用することが望ましい。
【0028】
【実施例】図6は本発明の一実施例の情報検索装置の構
成図である。本発明の一実施例の情報検索装置は、検索
対象となる文書情報を格納する文書データベース6と、
与えられた検索条件を用いて上記文書データベース6か
ら所望の文書を検索する検索処理部4と、検索結果表示
部10と、検索結果評価部8とからなる。検索結果表示
部10は、検出処理部4によって検索条件に合う文書が
見つけられた場合に、文書名等を表示して利用者に通知
する。検索結果評価部8は、上記検索処理部4による検
索によって得られた文書数が所定数以上に達したか、或
いは、利用者からの処理停止の指示があった場合に、検
索処理を終了させる。
【0029】上記情報検索装置は、上記検索結果評価部
8と上記検索処理部4とに接続され、上記検索結果評価
部8から検索条件の変更要求を受け、検索条件を拡張し
て、新しい検索条件を上記検索処理部4に与える検索条
件変更部14を更に有する。検索条件変更部14は、検
索結果評価部8からの要求を受けて、検索条件の変更方
式を選択する検索条件変更制御部16からなる。
【0030】上記情報検索装置は、検索条件変更部14
における語又は語句から類似した語又は語句への拡張の
履歴を履歴ファイル42の形で保持する語彙拡張履歴保
持部40を更に有する。検索条件変更制御部16は、上
記語又は語句から上記類似した語又は語句への拡張の履
歴を上記語彙拡張履歴保持部40に供給する。検索条件
変更部14は、上記語彙拡張履歴保持部40に格納され
た上記履歴に基づいて、上記検索条件に対応した語又は
語句を、上記類似した語又は語句に拡張する履歴情報利
用部26を更に有する。
【0031】上記検索条件変更部14は、検索条件の変
更方式に対応して、文章分解部12と、言語間翻訳処理
部20と、他言語同義語処理部22と、定義文章比較処
理部24とを更に有する。図7は本発明の一実施例の情
報検索装置の動作フローチャートである。以下、同図を
参照して、本発明の一実施例の情報検索装置の文書検索
の動作を説明する。以下の説明では、検索条件として
“コンピュータによる故障診断”が設定された場合を考
える。
【0032】(ステップ41)検索条件入力部2が検索
条件を受ける。 (ステップ42)最初に、検索処理部4は、入力された
検索条件を検索キーとして、文書データベース6から検
索条件に合う文書、即ち、“コンピュータによる故障診
断”を含む文章を抽出する。
【0033】(ステップ43)検索結果評価部8は、検
索処理部4から検索の結果を受け、抽出文書数が所定数
以上に達したか、或いは、利用者による処理停止の指示
があったかどうかを判定する。検索が成功した場合に
は、ステップ46に進む。 (ステップ44)検索が成功しなかった場合には、検索
結果評価部8は、検索条件変更制御部16に検索条件の
変更を要求する。検索条件変更制御部16は、例えば、
文章分解が要求された場合、文章分解部12を起動す
る。
【0034】(ステップ44a)文章分解部12は、
“コンピュータによる故障診断”を、一般辞典(所定の
言語の国語辞典、各種用語辞典等)に登録されている語
句単位に分割する。この場合、接続詞や助詞など、単独
のキーワードとして用いられない部分は削除される。従
って、“コンピュータによる故障診断”は、“コンピュ
ータ”、“故障”、“診断”の3語に分解される。
【0035】(ステップ45)新しい検索キーが生成さ
れたので、検索条件変更部16は、分解生成された全て
のキーワードを検索処理部4に送り、全てのキーワード
を用いた全文検索(論理和(OR)検索及び論理積(A
ND)検索など)を検索処理部4に要求し、ステップ4
2に戻る。
【0036】(ステップ42)検索処理部46は、新し
い検索条件に基づいて、文書データベース部6から文章
を抽出する。 (ステップ43)抽出された文書は、検索結果評価部8
に送られ、検索結果評価部8は、所定の終了条件を満た
しているので、例えば、キーワードの出現数又は出現割
合によって表わされるキーワードの含有率、或いは、文
書内におけるキーワード間の距離を表わす出現距離によ
って、検索抽出された文書に対する評価値を算出し、検
索抽出された文書を順序付けし、検索結果表示部10を
起動する。
【0037】(ステップ46)検索結果表示部10は、
最初に抽出された“コンピュータによる故障診断”を含
む文章名等の情報と、検索結果評価部8において順序付
けされた文書の情報を利用者へ通知し、一連の検索処理
を終了する。次に、検索条件として“エンジニア”が設
定された場合を例として情報検索装置の動作を説明す
る。ステップ41乃至ステップ43の処理は、上記の
“コンピュータによる故障診断”の例の場合と同様であ
る。検索条件の拡張処理のため、言語間翻訳処理部20
が起動された場合の処理について説明する。
【0038】ステップ44bにおいて、言語間翻訳処理
部20は、検索キー“エンジニア”を和英翻訳辞典32
を用いて、“engineer”に翻訳し、次いで、別の英和翻
訳辞典32を用いて“engineer”を含む語句を検索し、
“engineer”等の語句を日本語に翻訳する。これによ
り、最初の検索キー“エンジニア”に対する同義語又は
類義語としての“技師”、“工学者”等の語が得られ
る。かくして拡張された検索キーが、検索処理部4に送
られ、検索処理が繰り返される。
【0039】別の例として、検索条件の拡張処理のた
め、他言語同義語処理部22が起動された場合の処理に
ついて説明する。ステップ44bにおいて、他言語同義
語処理部22は、検索キー“エンジニア”を和英翻訳辞
典32を用いて、“engineer”に翻訳する。次いで、同
義語辞典34を用いて、“engineer”の類義語又は同義
語を検索することにより、例えば、“artificer ”、
“mechanician ”等の英単語が得る。かかる英単語を英
和辞典32を用いて日本語に翻訳することにより、最初
の検索キー“エンジニア”に対する同義語又は類義語と
しての“職人”、“機械技師”等の語が得られる。かく
して拡張された検索キーが、検索処理部4に送られ、検
索処理が繰り返される。
【0040】更に別の例として、検索条件の拡張処理の
ため、定義文章比較処理部24が起動された場合の処理
について説明する。ステップ44bにおいて、定義文章
比較処理部24は、例えば、検索キー“エンジニア”
と、検索キーと対照される語“技術者”に対する国語辞
典等の一般辞典30における定義文章“...〔機械・
土木等の〕技師、技術家...”と、“...職業とし
て特殊な技術を身につけている人...”を得る。両方
の定義文章を比較して、両方の定義文章に共通した字句
の出現率が所定の割合を越えたとき、“エンジニア”と
“技術者”が同義語として判定される。かくして拡張さ
れた検索キーが、検索処理部4に送られ、検索処理が繰
り返される。
【0041】検索処理部4において適当な検索結果が得
られたならば、検索結果評価部8と検索結果表示部10
が上記の説明の機能を実行する。最後に、検索条件の拡
張処理のため履歴情報利用部26が起動された場合の処
理について説明する。ステップ44aにおいて、履歴情
報利用部26は、検索条件変更制御部16と、語彙拡張
履歴保磁部40とを介して、履歴ファイル42から“エ
ンジニア”に類似した語句として過去に導出、確定され
た語句(群)を検索する。類似した語句が履歴ファイル
に存在しない場合には、検索条件変更生業部16は、言
語間翻訳処理部20と、他言語同義語処理部22と、定
義文章比較処理部24の中の何れかを起動して、類義語
を導出し、導出・確定された語群を語彙拡張履歴保持部
40を介して履歴ファイル42に追加記録する。この場
合にも、かくして拡張された検索キーが、検索処理部4
に送られ、検索処理が繰り返される。検索処理部4にお
いて適当な検索結果が得られたならば、検索結果評価部
8と検索結果表示部10が上記の説明の機能を実行す
る。
【0042】即ち、本発明の一実施例によれば、一旦拡
張された語彙の拡張履歴を保存し、再利用することによ
り、情報検索装置の動作時の検索条件変更処理の効率、
即ち、情報検索の処理速度が高められる。このように蓄
積された拡張履歴を語句間の意味的結合と解釈すること
により、固有の同義語辞書を構築することが可能であ
る。更に、拡張履歴の収集は、例えば、情報検索装置の
通常の動作時以外の時に、実際の情報検索とは別個に行
うことことにより、辞書を効率的に構築することが可能
である。
【0043】以下、本発明の一実施例の情報検索装置の
検索処理部4に含まれる3種類の機能を説明する。一般
的な文字列照合機能が文書内における検索キーの照合の
ため用いられる。例えば、検索キーが“計算機”である
場合に、文書Aの“...計算機科学..”は一致して
いると判定され、文書Bの“...計算手法...”は
一致しないと判定される。
【0044】複数の検索キーが指定された場合の照合
は、各検索キーに対する上記文字列照合の結果の組み合
わせとして得られる。即ち、検索結果全体の結果は、各
検索キーに対する照合の結果の論理和又は論理積によっ
て得られる。論理和が用いられた場合には、検索キーが
出現した場合の結果を1、検索キーが出現しなかった場
合の結果を0とすると、各検索キーの出現の有無によっ
て相和平均が合致度として算出される。論理積の場合に
は、全ての検索キーが出現した場合に限り、合致したと
判定される。両方の手法によって得られる結果は、共
に、検索キーの出現順序とは無関係とする。例えば、検
索キーが、“コンピュータ”、“自動”、“制御”であ
る場合に、論理和検索によると、 ...コンピュータによる自動制御が行われ... 合致度100% ...プラントの制御自動化するには... 合致度66.7% が得られ、一方、論理積検索によると、 ...コンピュータによる自動制御が行われ... 合致度100% ...プラントの制御自動化するには... 合致度0% が得られる。
【0045】上記論理和/論理積による合致度算出に加
え、検索結果文書の順序付けによる更に詳細な合致度算
出が行われる。 (a)検索キーの出現数による合致度算出 当該文書における検索キーの出現総数を指標とする。即
ち、同じ検索キーを有する文書が複数個存在する場合
に、より多数の検索キーを含む文書の方が高い合致度を
有すると判定される。
【0046】(b)検索キーの文書比率による合致度算
出 上記(a)の算出法と類似した算出法であり、指標とし
て比率を用いる。従って、当該文書全体の大きさに左右
されにくい結果が得られるので、例えば、論文中のアブ
ストラクトだけに限定した検索等に有効である。
【0047】(c)検索キーの出現距離による合致度算
出 複数の検索キーが提示された場合に、各検索キーの当該
文書における出現位置関係に基づいて算出される。検索
キー相互の出現距離と合致度は反比例する。例えば、検
索キーが、“コンピュータ”、“自動”、“制御”であ
る場合に、 ...コンピュータによる自動制御が行われ... ...各機器の制御コンピュータにより自動化さ
れ... ...コンピュータから自動的に渡される制御命令
が... 上記3通りの文章は、合致度が高い順に並べられてい
る。
【0048】
【発明の効果】上記の説明のように、本発明によれば、
検索の対象は、主として、文字列を主体とするデータベ
ースであるが、文字列以外のデータを含むデータベース
の場合でも、文字列部分を対象とすることで適用可能で
ある。
【0049】本発明は、基盤技術として文字列処理を前
提としているので、従来技術の文書分解処理、或いは、
語彙拡張処理において必要とされた意味解釈手段と、対
象言語の文法に基づいて構文解析処理が不要となるの
で、処理速度を大幅に向上させることが可能であり、か
つ、処理系を小さくさせ、かつ、比較的安価に構築し得
る利点がある。
【図面の簡単な説明】
【図1】本発明の原理構成図である。
【図2】本発明の文章分解による検索キー変換を用いた
情報検索方法のフローチャートである。
【図3】本発明による異なる言語間の語彙定義の曖昧性
を利用した情報検索方法のフローチャートである。
【図4】本発明による別の言語における類似語を用いて
検索キーの語彙数を拡張する情報検索方法のフローチャ
ートである。
【図5】本発明による定義文章の類似性を利用して検索
キーの語彙数を拡張する情報検索方法のフローチャート
である。
【図6】本発明の一実施例の情報検索装置の構成図であ
る。
【図7】本発明の一実施例の情報検索装置の動作フロー
チャートである。
【図8】従来の情報検索処理装置の構成図である。
【符号の説明】
2 文章入力手段 4 検索処理手段 6 データベース 8 検索結果評価手段 10 検索結果出力手段 12 文章分解手段 14 検索条件変更手段

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 検索対象となる情報を格納するデータベ
    ースと、 与えられた検索条件を用いて上記データベースから所望
    のデータを検索する検索処理手段と、 上記検索処理手段による検索によって得られたデータが
    所定の検索結果条件を満たすかどうかを評価する検索結
    果評価手段と、 上記検索結果評価手段からの評価に応じて上記検索処理
    手段による検索結果を出力する検索結果出力手段とから
    なる情報検索装置であって、 上記データベースから検索される情報に含まれるべき文
    章を入力する文章入力手段と、 上記文章入力手段から供給された上記文章を、上記検索
    条件に対応するキーワードの組に分解する文章分解手段
    と、 上記検索条件に対応した語又は語句を類似した語又は語
    句に拡張し、上記類似した語又は語句を新しい検索条件
    とすることにより検索条件を変更し、上記新しい検索条
    件を上記検索処理手段に供給する検索条件変更手段とを
    更に有する情報検索装置。
  2. 【請求項2】 上記検索条件変更手段における上記語又
    は語句から上記類似した語又は語句への拡張の履歴を保
    持する語彙拡張履歴保持手段を更に有し、 上記検索条件変更手段は、上記語又は語句から上記類似
    した語又は語句への拡張の履歴を上記語彙拡張履歴保持
    手段に供給する手段と、上記語彙拡張履歴保持手段に格
    納された上記履歴に基づいて、上記検索条件に対応した
    語又は語句を、上記類似した語又は語句に拡張する手段
    とを更に有する請求項1記載の情報検索装置。
  3. 【請求項3】 文字列で表された検索キーを用いて文書
    のデータベースから所望の文書を検索する情報検索方法
    であって、 (a)上記検索キーを入力する段階と、 (b)上記検索キーを用いて上記データベースから文書
    を検索する段階と、 (c)検索の結果として上記所望の文書が得られなかっ
    た場合に、上記検索に使用された検索キーを、文字列の
    組に分解する段階と、 (d)上記文字列の組が得られた場合に、上記文字列の
    組を新たな検索キーとして、上記段階(b)に戻る段階
    と、 (e)検索の結果として上記所望の文書が得られるか、
    或いは、上記検索に使用された検索キーを文字列の組に
    分解できなくなるまで、上記段階(b)、(c)及び
    (d)を繰り返す段階と、 (f)検索の結果を出力する段階とからなる情報検索方
    法。
  4. 【請求項4】 第1の言語で表された検索キーを用いて
    文書のデータベースから所望の文書を検索する情報検索
    方法であって、 上記第1の言語で表された検索キーを入力する段階と、 上記第1の言語で表された検索キーを上記第2の言語で
    表された語句に翻訳する段階と、 上記第2の言語で表された各語句を、上記各語句に対応
    する上記第1の言語で表された少なくとも1個の文字列
    に翻訳する段階と、 上記第1の言語で表された少なくとも1個の文字列を個
    別の拡張された検索キーとして、上記データベースから
    文書を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  5. 【請求項5】 第1の言語で表された検索キーを用いて
    文書のデータベースから所望の文書を検索する情報検索
    方法であって、 上記第1の言語で表された語句を入力する段階と、 上記第1の言語で表された語句を上記第2の言語で表さ
    れた語句に翻訳する段階と、 上記第2の言語で表された各語句を、上記各語句に対応
    する上記第1の言語で表された少なくとも1個の文字列
    に翻訳する段階と、 上記第1の言語で表された語句と上記第1の言語で表さ
    れた少なくとも1個の文字列の組を語彙の拡張の履歴と
    して保存する段階と、 上記第1の言語で表された検索キーを入力する段階と、 上記保存された語彙の拡張の履歴の中から、上記第1の
    言語で表された検索キーに対応する第1の言語で表され
    た語句を含む組を抽出し、上記抽出された組に含まれる
    上記第1の言語で表された少なくとも1個の文字列を新
    しい検索キーとして得る段階と、 上記得られた新しい検索キーを用いて上記データベース
    から文書を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  6. 【請求項6】 第1の言語で表された検索キーを用いて
    文書のデータベースから所望の文書を検索する情報検索
    方法であって、 上記第1の言語で表された検索キーを入力する段階と、 上記第1の言語で表された検索キーを上記第2の言語で
    表された語句に翻訳する段階と、 上記第2の言語で表された語句を、上記語句に対応する
    上記第2の言語で表された類似語の組に変換する段階
    と、 上記第2の言語で表された類似語の組に含まれる各語句
    を、上記各語句に対応する上記第1の言語で表された少
    なくとも1個の文字列に翻訳する段階と、 上記第1の言語で表された少なくとも1個の文字列を個
    別の拡張された検索キーとして、上記データベースから
    文書を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  7. 【請求項7】 第1の言語で表された検索キーを用いて
    文書のデータベースから所望の文書を検索する情報検索
    方法であって、 上記第1の言語で表された語句を入力する段階と、 上記第1の言語で表された語句を上記第2の言語で表さ
    れた語句に翻訳する段階と、 上記第2の言語で表された語句を、上記語句に対応する
    上記第2の言語で表された類似語の組に変換する段階
    と、 上記第2の言語で表された類似語の組に含まれる各語句
    を、上記各語句に対応する上記第1の言語で表された少
    なくとも1個の文字列に翻訳する段階と、 上記第1の言語で表された語句と上記第1の言語で表さ
    れた少なくとも1個の文字列の組を語彙の拡張の履歴と
    して保存する段階と、 上記第1の言語で表された検索キーを入力する段階と、 上記保存された語彙の拡張の履歴の中から、上記第1の
    言語で表された検索キーに対応する第1の言語で表され
    た語句を含む組を抽出し、上記抽出された組に含まれる
    上記第1の言語で表された少なくとも1個の文字列を新
    しい検索キーとして得る段階と、 上記得られた新しい検索キーを用いて上記データベース
    から文書を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  8. 【請求項8】 文字列で表された検索キーを用いて文書
    のデータベースから所望の文書を検索する情報検索方法
    であって、 上記文字列で表された検索キーを入力する段階と、 上記検索キーに対応する語句を定義する第1の定義文章
    と、上記検索キーと対照される対照語句を定義する第2
    の定義文章とを得る段階と、 上記第1の定義文章と上記第2の定義文章が類似してい
    るかどうかを判定する段階と、 上記第1の定義文章と上記第2の定義文章が類似してい
    る場合に、上記対照語句を拡張された検索キーとして上
    記データベースから文章を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  9. 【請求項9】 文字列で表された検索キーを用いて文書
    のデータベースから所望の文書を検索する情報検索方法
    であって、 文字列で表された語句を入力する段階と、 上記語句を定義する第1の定義文章と、上記語句と対照
    される対照語句を定義する第2の定義文章とを得る段階
    と、 上記第1の定義文章と上記第2の定義文章が類似してい
    るかどうかを判定する段階と、 上記第1の定義文章と上記第2の定義文章が類似してい
    る場合に、上記入力された語句と、上記対照語句の組を
    語彙拡張の履歴として保存する段階と、 上記文字列で表された検索キーを入力する段階と、 上記保存された語彙の拡張の履歴の中から、上記検索キ
    ーに対応する語句を含む組を抽出し、上記抽出された組
    に含まれる上記対照語句を新しい検索キーとして得る段
    階と、 上記得られた新しい検索キーを用いて上記データベース
    から文書を検索する段階と、 検索の結果を出力する段階とからなる情報検索方法。
  10. 【請求項10】 文字列で表された検索キーを用いて文
    書のデータベースから所望の文書を検索する情報検索方
    法であって、 (a)上記検索キーを入力する段階と、 (b)上記検索キーを用いて上記データベースから文書
    を検索する段階と、 (c)検索の結果として上記所望の文書が得られなかっ
    た場合に、(c1)上記検索に使用された検索キーが文
    字列の組に分解された場合に、分解によって得られた上
    記文字列の組を新たな検索キーとする段階、又は、(c
    2)上記検索に使用された検索キーに対応した語句と類
    似した意味を持つ別の語句が得られた場合に、上記別の
    語句を新たな検索キーとする段階を選択的に実行し、上
    記段階(b)に戻る段階と、 (d)検索の結果として上記所望の文書が得られるか、
    上記検索に使用された検索キーが文字列の組に分解でき
    なくなるか、或いは、上記検索に使用された検索キーに
    対応した語句と類似した意味を持つ別の語句が得られな
    くなるまで、上記段階(b)、(c)及び(d)を繰り
    返す段階と、 (e)検索の結果を出力する段階とからなる情報検索方
    法。
  11. 【請求項11】 上記段階(c2)は、 第1の言語で表された検索キーを第2の言語で表された
    語句に翻訳する段階と、 上記第2の言語で表された各語句を、上記拡張検索キー
    として上記各語句に対応する上記第1の言語で表された
    少なくとも1個の文字列に翻訳する段階とを更に有する
    請求項10記載の情報検索方法。
  12. 【請求項12】 上記段階(c2)は、 第1の言語で表された検索キーを第2の言語で表された
    語句に翻訳する段階と、 上記第2の言語で表された各語句を、上記拡張検索キー
    として上記各語句に対応する上記第1の言語で表された
    少なくとも1個の文字列に翻訳する段階とを更に有する
    請求項10記載の情報検索方法。
  13. 【請求項13】 上記段階(c2)は、 第1の言語で表された検索キーを第2の言語で表された
    語句に翻訳する段階と、 上記第2の言語で表された語句を、上記語句に対応する
    上記第2の言語で表された類似語の組に変換する段階
    と、 上記第2の言語で表された類似語の組に含まれる各語句
    を、上記拡張検索キーとして上記各語句に対応する上記
    第1の言語で表された少なくとも1個の文字列に翻訳す
    る段階とからなる請求項10記載の情報検索方法。
  14. 【請求項14】 上記段階(c2)は、 上記拡張検索キーに対応する語句を、上記検索キーに対
    応する語句に類似した語句として登録する段階を更に有
    する請求項10乃至13のうちいずれか1項記載の情報
    検索方法。
JP8230965A 1996-08-30 1996-08-30 情報検索装置及び情報検索方法 Pending JPH1074207A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8230965A JPH1074207A (ja) 1996-08-30 1996-08-30 情報検索装置及び情報検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8230965A JPH1074207A (ja) 1996-08-30 1996-08-30 情報検索装置及び情報検索方法

Publications (1)

Publication Number Publication Date
JPH1074207A true JPH1074207A (ja) 1998-03-17

Family

ID=16916105

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8230965A Pending JPH1074207A (ja) 1996-08-30 1996-08-30 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JPH1074207A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2360611A (en) * 1999-09-24 2001-09-26 Wordmap Ltd Apparatus for and method of searching
US7054813B2 (en) 2002-03-01 2006-05-30 International Business Machines Corporation Automatic generation of efficient grammar for heading selection
JP2008198139A (ja) * 2007-02-15 2008-08-28 Oki Electric Ind Co Ltd 付加情報検索装置
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
CN112084342A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 试题生成方法、装置、计算机设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03286371A (ja) * 1990-04-02 1991-12-17 Ricoh Co Ltd 文書情報検索装置
JPH06259480A (ja) * 1993-03-10 1994-09-16 Hitachi Ltd 文書検索方法
JPH06274538A (ja) * 1993-03-22 1994-09-30 Nec Corp 情報検索装置
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH07210568A (ja) * 1994-01-19 1995-08-11 Oki Electric Ind Co Ltd ファイル管理装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03286371A (ja) * 1990-04-02 1991-12-17 Ricoh Co Ltd 文書情報検索装置
JPH06259480A (ja) * 1993-03-10 1994-09-16 Hitachi Ltd 文書検索方法
JPH06274538A (ja) * 1993-03-22 1994-09-30 Nec Corp 情報検索装置
JPH06309362A (ja) * 1993-04-27 1994-11-04 Fujitsu Ltd 情報検索方法
JPH07210568A (ja) * 1994-01-19 1995-08-11 Oki Electric Ind Co Ltd ファイル管理装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
松本 裕治: "複数の言語資源からのシソーラス構築", 情報処理学会研究報告, vol. 第96巻 第70号, CSNG200000474004, 26 July 1996 (1996-07-26), JP, pages 23 - 28, ISSN: 0000774255 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2360611A (en) * 1999-09-24 2001-09-26 Wordmap Ltd Apparatus for and method of searching
US7054813B2 (en) 2002-03-01 2006-05-30 International Business Machines Corporation Automatic generation of efficient grammar for heading selection
JP2008198139A (ja) * 2007-02-15 2008-08-28 Oki Electric Ind Co Ltd 付加情報検索装置
JP2018028732A (ja) * 2016-08-15 2018-02-22 株式会社トヨタマップマスター 施設検索装置、施設検索方法、コンピュータプログラム及びコンピュータプログラムを記録した記録媒体
CN112084342A (zh) * 2020-09-07 2020-12-15 中国平安财产保险股份有限公司 试题生成方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
JP4306894B2 (ja) 自然言語処理装置及びその方法、及び自然言語認識装置
US5528491A (en) Apparatus and method for automated natural language translation
KR100594512B1 (ko) 지식 창조 능력을 가지는 문서 의미 분석/선택 시스템 및그 방법
US6473729B1 (en) Word phrase translation using a phrase index
JP3027052B2 (ja) 文書検索システム
JP4544674B2 (ja) 選択文字列に関連する情報を提供するシステム
US5890103A (en) Method and apparatus for improved tokenization of natural language text
US20040117352A1 (en) System for answering natural language questions
US20090138454A1 (en) Semi-Automatic Example-Based Induction of Semantic Translation Rules to Support Natural Language Search
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
US5608623A (en) Special cooccurrence processing method and apparatus
US5283737A (en) Mechanism for generating linguistic expressions based on synonyms and rules derived from examples
Neumann et al. A cross–language question/answering–system for german and english
JPH09198395A (ja) 文書検索装置
JP4162223B2 (ja) 自然文検索装置、その方法及びプログラム
JPH1074207A (ja) 情報検索装置及び情報検索方法
Silberztein Text indexation with INTEX
Al-Taani et al. Searching concepts and keywords in the Holy Quran
JP3780556B2 (ja) 自然言語事例検索装置及び自然言語事例検索方法
JP4262529B2 (ja) 全文検索装置、方法、プログラム及び記録媒体
JP2002278963A (ja) 事例翻訳装置
JPH07244669A (ja) 文書検索方式
JPH08161354A (ja) 文書検索装置
Curia et al. Textual document pre-processing and feature extraction in olex

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050830

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051031

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051213

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060919