JPH0765013A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH0765013A
JPH0765013A JP5211406A JP21140693A JPH0765013A JP H0765013 A JPH0765013 A JP H0765013A JP 5211406 A JP5211406 A JP 5211406A JP 21140693 A JP21140693 A JP 21140693A JP H0765013 A JPH0765013 A JP H0765013A
Authority
JP
Japan
Prior art keywords
word
keyword
dictionary
different notation
headword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5211406A
Other languages
English (en)
Inventor
Isamu Iwai
勇 岩井
Toshihiro Ozaki
敏宏 尾崎
Yukio Nakamoto
幸夫 中本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Computer Engineering Corp
Original Assignee
Toshiba Corp
Toshiba Computer Engineering Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Computer Engineering Corp filed Critical Toshiba Corp
Priority to JP5211406A priority Critical patent/JPH0765013A/ja
Publication of JPH0765013A publication Critical patent/JPH0765013A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】文書データベースからの検索漏れのない効果的
な検索を可能にする。 【構成】異表記関係にある複数の単語からなる異表記単
語群を同異表記単語群中の1つを代表語として格納する
ための異表記辞書210と、類語単語群とその属性を包
括する様な意味を持つ単語を見出し語として格納するた
めの類語辞書209と、類語辞書209に格納された見
出し語を異表記辞書210に基づいて代表語に置き換え
る見出し語置換部203と、異表記辞書210に基づい
てキーワードを対応する代表語に置き換える入力キーワ
ード置換部205と、入力キーワード置換部205によ
ってキーワードから置き換えられた代表語と見出し語置
換部203によって見出し語から置き換えられた代表語
とを比較し、この比較結果に基づいて、文書検索に用い
られる検索条件式を生成する入力キーワード展開部20
6とを具備し、生成された検索条件式を用いて検索を行
なう。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、データベースに登録さ
れた文書を与えられたキーワードをもとに検索する文書
検索装置に関する。
【0002】
【従来の技術】一般に、文書をデータベースとして登録
する場合、検索を容易にするために、文書データと共
に、文書に特徴的な単語を見出し語として登録してお
く。データベースに登録された大量の文書から必要な文
書を検索する際には、1つ以上の単語をキーワードとし
て与え、このキーワードに該当する見出し語が登録され
た文書を候補として検索する。
【0003】複数のキーワードが与えられた場合、所定
の論理関係(AND条件、OR条件)でキーワードを論
理的に結合して検索条件式を作成し、この検索条件式を
もとにして該当する文書の候補について絞り込みを行な
う。すなわち、複数のキーワードを効果的に論理的に結
合することにより、大量の文書データベースから該当す
る文書を漏れなく検索することができる。
【0004】キーワードを入力して文書を効率的に検索
する検索方式として次のようなものがある。例えば「パ
ソコン」「ワークステーション」に対する「OA機器」
の様に、ある複数の単語の意味を包括する様な意味を持
つ類語関係にある単語を見出し語として予め登録してお
き、文書検索時に、入力されたキーワードが見出し語と
して登録されているか検索する。キーワードと一致する
見出し語がある場合、その見出し語と類語関係にある複
数の単語をOR条件で論理的に結合して検索条件式とし
て検索を実施する。
【0005】この方式であれば、少ないキーワードで多
くの類語関係にある見出し語によってデータベースの検
索が行なわれるので、検索漏れなどの不都合を回避する
ことができ、効果的に所望する文書の検索が可能とな
る。
【0006】
【発明が解決しようとする課題】しかしながら、前述し
たような検索方式を用いる文書検索装置では、「コンピ
ュータ」と「コンピューター」のような異表記関係にあ
るキーワードで別々に検索した場合には、検索結果が異
なる可能性がある。
【0007】例えば、類語関係にある単語の見出し語と
して「コンピュータ」と登録している場合、入力キーワ
ードが「コンピューター」であると、登録してある見出
し語の「コンピュータ」と一致しない。
【0008】従って、入力キーワードの「コンピュータ
ー」と、「コンピュータ」と類語関係にある複数の単語
とをOR条件で論理的に結合して検索条件式としないの
で、「コンピュータ」と類語関係にある複数の単語によ
って文書の検索が実行されないことになる。この場合、
検索漏れが生じることがあり、所望する文書を効率的に
検索することができないという問題があった。本発明は
前記のような事情を考慮してなされたもので、検索漏れ
のない効果的な検索が可能な文書検索装置を提供するこ
とを目的とする。
【0009】
【課題を解決するための手段】本発明は、任意の文字列
からなるキーワードをもとに文書検索を行なう文書検索
装置において、同一の意味を持ち表記が異なる異表記関
係にある複数の単語からなる異表記単語群を、同異表記
単語群中の1つを代表語として格納するための異表記辞
書と、表記は異なるが同一の属性を持つ複数の単語から
なる類語単語群とその属性を包括する様な意味を持つ単
語を見出し語として格納するための類語辞書と、前記類
語辞書に格納された見出し語を、前記異表記辞書に基づ
いて、対応する代表語に置き換える見出し語置換手段
と、前記異表記辞書に基づいて、キーワードを対応する
代表語に置き換える入力キーワード置換手段と、前記キ
ーワード置換手段によってキーワードから置き換えられ
た代表語と前記見出し語置換手段によって見出し語から
置き換えられた代表語とを比較し、この比較結果に基づ
いて、少なくともキーワードを含む文書検索に用いられ
る検索条件式を生成するキーワード展開手段と、前記キ
ーワード展開手段によって生成された検索条件式を用い
て検索を行なう検索手段とを具備して構成するものであ
る。
【0010】また、前記キーワード展開手段は、比較の
結果、代表語が一致しない場合には、キーワードと、同
キーワードに応じて前記異表記辞書から求められる異表
記単語群の各単語とを論理結合して検索条件式を生成
し、代表語が一致する場合には、キーワードと、同キー
ワードに応じて前記異表記辞書から求められる異表記単
語群の各単語と、代表語に応じて前記類語辞書から求め
られる類語単語群中の各単語とを論理結合して検索条件
式を生成することを特徴とする。
【0011】
【作用】このような構成によれば、類語辞書の複数の類
語単語群のそれぞれの見出し語と入力キーワードについ
て、それぞれを代表語に置き換え、入力キーワードに異
表記関係にある単語が存在する場合には、該当する異表
記単語群の代表語と見出し語から置き換えられた代表語
との比較が行なわれる。
【0012】その結果、文字列(代表語)が一致する場
合には、一致した類語辞書の見出し語と類語関係にある
複数の単語とをOR条件で論理的に結合して検索条件式
が生成される。
【0013】この検索条件式で検索を行なうことによ
り、異表記関係にある単語のどれをキーワードとして入
力しても、それが類語辞書の見出し語として登録されて
いるならば、キーワードの異表記を考慮することなく、
同じように検索条件式が生成されることになる。従っ
て、この検索条件式を用いることにより、漏れのない検
索結果が得られることになり、文書検索の性能が向上さ
れる。
【0014】
【実施例】以下、図面を参照して本発明の一実施例を説
明する。図1は本実施例に係わる文書検索装置の概略構
成を示すブロック図である。図1に示すように、文書検
索装置は、制御装置1、入力装置2、表示装置3、及び
外部記憶装置4によって構成されている。
【0015】制御装置1は、CPU、メモリ等から構成
されており、文書検索装置全体の制御を司るもので、図
2に示す機能構成を有している。入力装置2は、キーボ
ード等などにより構成されている。表示装置3は、テキ
ストデータや検索用キーワード入力用の画面などを表示
する。外部記憶装置4は、データベース等を格納するも
ので、検索対象となる大量の文書データなどが格納され
る。
【0016】制御装置1は、図2に示すように、処理部
20、辞書部21、及びバッファ部22によって構成さ
れている。処理部20は、制御部201、システム初期
化部202、見出し語置換部203、キーワード入力部
204、入力キーワード置換部205、入力キーワード
展開部206、検索部207、及び表示部208によっ
て構成されている。辞書部21は、類語辞書209、及
び異表記辞書210によって構成されている。バッファ
部22は、見出し語置換バッファ211によって構成さ
れている。
【0017】制御部201は、制御装置1の全体の制御
を司るものであり、処理部20中に設けられた各処理機
能の動作制御や、これら各処理機能間でのデータの転送
等を行なう。
【0018】システム初期化部202は、データベース
検索処理実行に際して、検索の実施に必要なシステムの
初期化を行なう。見出し語置換部203は、類語辞書2
09(後述する)に登録された見出し語を、異表記辞書
210(後述する)を参照して代表語に置き換え、見出
し語置換バッファ211に格納する。
【0019】キーワード入力部204は、外部記憶装置
4に格納されたデータベース中の大量の文書から所望す
る文書を検索するための検索用キーワードとなる文字列
を入力装置2から入力する。
【0020】入力キーワード置換部205は、キーワー
ド入力部204を介して入力された文書検索に用いられ
るキーワードを、異表記辞書210を参照して、対応す
る代表語に置き換える。
【0021】入力キーワード展開部206は、入力キー
ワード置換部205によって入力キーワードに対応して
置き換えられた代表語と、見出し語置換部203によっ
て見出し語に対応して置き換えられ見出し語置換バッフ
ァ211に格納された代表語との比較を行なう。入力キ
ーワード展開部206は、両方の代表語が一致した場
合、類語辞書209内の見出し語と同一の意味を持つ他
の表記の単語と入力キーワードと見出し語とをOR条件
で論理結合し、入力キーワードを検索条件式に展開す
る。
【0022】検索部207は、入力キーワード展開部2
06によって展開された検索条件式に従って、外部記憶
装置4に格納されたデータベースから該当する文書の検
索を行なう。
【0023】表示部208は、検索用キーワード入力用
の画面、ユーザによって入力された検索キーワード、検
索部207による検索結果等を表示装置3に表示させ
る。類語辞書209は、図3に示すように、表記は異な
るが同一の属性を持つ類語単語群(類語1、類語2、…
から成る)と、その属性を包括するような意味を持つ単
語を見出し語として対応づけて格納された構成を持つ。
【0024】異表記辞書210は、図4に示すように、
同一の意味を持つが表記が異なる複数の単語からなる異
表記単語群を、その1つを異表記単語群の代表語とし、
その他の異表記である単語を、異表記1、異表記2、
…、として対応づけて格納された構成を持つ。
【0025】見出し語置換バッファ211は、図5に示
すように、図3に示す類語辞書209中の見出し語を、
図4に示す異表記辞書210を用いて、見出し語と同じ
異表記単語群に対応する代表語に置換し、類語辞書20
9の見出し語の順番で(類語辞書209の見出し語と見
出し語置換バッファ211に格納される代表語とを対応
づけて)格納するための構成を持つ。
【0026】次に、本実施例の動作について、図6に示
すフローチャートを参照しながら説明する。まず、シス
テムが起動されると、システム初期化部202は、検索
に必要な各種の初期設定を行う(ステップS601)。
【0027】次に、制御部201は、見出し語置換部2
03を起動する。見出し語置換部203は、類語辞書2
09中の全ての見出し語について、それぞれ異表記辞書
210を参照して異表記として登録された単語と同じも
のがあるか検索する。
【0028】異表記単語群中に見出し語と同じ単語が存
在する場合、この異表記単語群の代表語を見出し語置換
バッファ211に格納する(ステップS602)。見出
し語置換バッファ211に格納される代表語は、類語辞
書209の見出し語と対応づけて格納される。
【0029】ここで、文書検索のためのキーワードが入
力可能な状態となる。入力装置2からキーワード入力部
204を介して検索キーワードが入力されると(ステッ
プS603)、入力キーワード置換部205は、異表記
辞書210を参照して異表記単語群中に入力キーワード
と同じ単語があるかを検索する。
【0030】異表記単語群中に入力キーワードと同じ単
語がある場合、入力キーワード置換部205は、入力キ
ーワードを、該当する異表記単語群の代表語に置き換え
る(ステップS604)。
【0031】次に、入力キーワード展開部206は、入
力キーワード置換部205によって入力キーワードから
置換された代表語と、見出し語置換バッファ211に格
納された見出し語から置換された代表語とを比較して、
一致するものがあるか判別する(ステップS605)。
【0032】ここで、類語辞書209に格納された見出
し語と、入力キーワードから置き換えられた異表記の代
表語とを比較する処理(ステップS602,S604,
S605)について、図7を用いて具体的に説明する。
【0033】類語辞書209の見出し語「コンピュータ
ー」は、異表記辞書210の番号1の異表記単語群中に
「コンピューター」が異表記1として格納されているた
め、この異表記単語群の代表語である「コンピュータ」
に置換され、見出し語置換バッファ211に格納され
る。
【0034】また、入力キーワードが「コンピュータ
ー」であった場合、同様に異表記辞書210を参照して
「コンピュータ」に置換される。こうして、見出し語置
換バッファ211の類語辞書209の各見出し語から置
換された複数の代表語と、入力キーワードから置換され
た代表語との比較を実施する。
【0035】ステップS605における比較の結果、見
出し語置換バッファ211に一致する代表語がある場
合、入力キーワード展開部206は、この代表語に対応
する類語辞書209の見出し語を判別する。そして、入
力キーワード展開部206は、この見出し語と類語関係
にある複数の単語(類語)と、入力キーワードと、入力
キーワードに対応する異表記とをOR条件で論理的に結
合して検索条件式を生成する(ステップS606)。
【0036】一方、比較の結果、見出し語置換バッファ
211に一致する代表語がない場合、入力キーワード展
開部206は、入力キーワードと、入力キーワードに対
応する異表記とをOR条件で論理的に結合して検索条件
式を生成する(ステップS607)。
【0037】ここで、入力キーワードを検索論理式に展
開する処理(ステップS606、S607)を、図8を
用いて具体的に説明する。例えば、ステップS603に
おいて入力されたキーワードが「コンピューター」
(a)であった場合、異表記辞書210に「コンピュー
ター」が格納されていない場合には、そのまま入力キー
ワードが検索条件式「コンピューター」(d)となる。
【0038】異表記辞書210に「コンピューター」が
格納されている場合には、入力キーワードは代表語「コ
ンピュータ」(c)に置換される。入力キーワードから
置き換えられた代表語と、類語辞書209の見出し語か
ら置き換えられた代表語(見出し語置換バッファ211
の内容)との比較の結果、一致した単語(代表語)がな
い場合には類語がないことになる。この場合には、入力
キーワード「コンピューター」と、その異表記である
「コンピュータ」とのOR条件で論理的に結合すること
によって検索条件式(e)が生成される。
【0039】また、類語がある場合(一致する代表語が
ある場合)には、入力キーワードの「コンピューター」
(a)と、その異表記である「コンピュータ」(c)
と、類語辞書209中の見出し語「コンピューター」に
包括される意味を持つ単語「パソコン」「ワークステー
ション」とをOR条件で論理的に結合することにより検
索条件式(f)が生成される。
【0040】類語辞書209、異表記辞書210の内容
が、それぞれ図3、図4に示すものであった場合には、
検索条件式(f)の結果が得られることになる。これに
対して、例えば、入力キーワードが「コンピューター」
の異表記である「コンピュータ」であった場合、異表記
辞書210の「コンピュータ」を含む異表記単語群の代
表語(この場合「コンピュータ」)と見出し語置換バッ
ファ211に格納された代表語とが比較されるので、結
果的に、入力キーワードが「コンピューター」である場
合と同じになる。従って、検索条件式も入力キーワード
が「コンピューター」である場合と同じ、図8に示す検
索条件式(f)となる。
【0041】検索部207は、前述のようにして、入力
キーワード展開部206によって生成された検索条件式
に基づいて、外部記憶装置4に格納された文書データベ
ースから、該当する文書を検索する(ステップS60
8)。
【0042】表示部208は、検索部207によって得
られた検索結果を表示装置に出力させる(ステップS6
09)。さらに、検索処理を継続する場合にはステップ
S603へ制御を移行し、新たにキーワードを入力して
文書の検索を行なう(ステップS610)。
【0043】このようにして、異表記関係にある単語群
の中の一つを代表語とし、類語辞書209の見出し語
と、入力キーワードを異表記の代表語に置き換えて比較
を行うことにより、どの異表記関係にある入力キーワー
ドでも、類語関係にある複数の単語をOR条件で論理的
に結合した検索条件式で検索を行えるようになる。
【0044】また、装置の起動時に類語辞書209の見
出し語を異表記関係にある単語群の代表語に置き換える
ことで、類語辞書209の見出し語が異表記辞書の代表
語と必ずしも一致しなくても良くなるため、ユーザ側は
異表記を意識することなく、独自の類語辞書209を作
成でき、システム側は類語辞書209に影響することな
く異表記辞書210の更新を行なうことができる。
【0045】
【発明の効果】以上のように本発明によれば、キーワー
ドが異表記辞書に格納された異表記単語群中に含まれる
単語であれば、異表記単語であっても、他の異表記単語
及び類語を考慮した同じ検索条件式が生成されて文書検
索が実行されるので、検索漏れのない効果的な検索が可
能となるものである。
【図面の簡単な説明】
【図1】本発明の一実施例に係わる文書検索装置の概略
構成を示すブロック図。
【図2】本実施例における図1中に示すの制御装置1の
詳細な構成を示すブロック図。
【図3】本実施例における類語辞書209に格納された
複数の類語単語群と各類語単語群に対応する見出し語の
一例を示す図。
【図4】本実施例における異表記辞書210に格納され
た複数の異表記単語群と各異表記単語群に対応する代表
語の一例を示す図。
【図5】本実施例における見出し語置換バッファ211
に格納される代表語の一例を示す図。
【図6】本実施例の動作を説明するためのフローチャー
ト。
【図7】本実施例において入力キーワードから置換され
た代表語と類語辞書209の見出し語から置換した代表
語との比較を説明するための図。
【図8】本実施例において入力キーワードから検索条件
式へ展開する具体例を説明するための図。
【符号の説明】
1…制御装置、2…入力装置、3…表示装置、4…外部
記憶装置、201…制御部、202…システム初期化
部、203…見出し語置換部、204…キーワード入力
部、205…入力キーワード置換部、206…入力キー
ワード展開部、207…検索部、208…表示部、20
9…類語辞書、210…異表記辞書、211…見出し語
置換バッファ。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 尾崎 敏宏 東京都青梅市新町1381番地1 東芝コンピ ュ―タエンジニアリング株式会社内 (72)発明者 中本 幸夫 東京都青梅市新町1381番地1 東芝コンピ ュ―タエンジニアリング株式会社内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】 任意の文字列からなるキーワードをもと
    に文書検索を行なう文書検索装置において、 同一の意味を持ち表記が異なる異表記関係にある複数の
    単語からなる異表記単語群を、同異表記単語群中の1つ
    を代表語として格納するための異表記辞書と、 表記は異なるが同一の属性を持つ複数の単語からなる類
    語単語群とその属性を包括する様な意味を持つ単語を見
    出し語として格納するための類語辞書と、 前記類語辞書に格納された見出し語を、前記異表記辞書
    に基づいて、対応する代表語に置き換える見出し語置換
    手段と、 前記異表記辞書に基づいて、キーワードを対応する代表
    語に置き換えるキーワード置換手段と、 前記キーワード置換手段によってキーワードから置き換
    えられた代表語と前記見出し語置換手段によって見出し
    語から置き換えられた代表語とを比較し、この比較結果
    に基づいて、少なくともキーワードを含む文書検索に用
    いられる検索条件式を生成するキーワード展開手段と、 前記キーワード展開手段によって生成された検索条件式
    を用いて検索を行なう検索手段と、 を具備したことを特徴とする文書検索装置。
  2. 【請求項2】 前記キーワード展開手段は、 比較の結果、代表語が一致しない場合には、キーワード
    と、同キーワードに応じて前記異表記辞書から求められ
    る異表記単語群の各単語とを論理結合して検索条件式を
    生成し、 比較の結果、代表語が一致する場合には、キーワード
    と、同キーワードに応じて前記異表記辞書から求められ
    る異表記単語群の各単語と、代表語に応じて前記類語辞
    書から求められる類語単語群中の各単語とを論理結合し
    て検索条件式を生成することを特徴とする請求項1記載
    の文書検索装置。
JP5211406A 1993-08-26 1993-08-26 文書検索装置 Pending JPH0765013A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5211406A JPH0765013A (ja) 1993-08-26 1993-08-26 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5211406A JPH0765013A (ja) 1993-08-26 1993-08-26 文書検索装置

Publications (1)

Publication Number Publication Date
JPH0765013A true JPH0765013A (ja) 1995-03-10

Family

ID=16605436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5211406A Pending JPH0765013A (ja) 1993-08-26 1993-08-26 文書検索装置

Country Status (1)

Country Link
JP (1) JPH0765013A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250682A (ja) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd 情報抽出システム
JP2010257085A (ja) * 2009-04-22 2010-11-11 Ntt Communications Kk 検索装置、検索方法、および検索プログラム

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6211932A (ja) * 1985-07-10 1987-01-20 Hitachi Ltd 情報検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005250682A (ja) * 2004-03-02 2005-09-15 Oki Electric Ind Co Ltd 情報抽出システム
JP2010257085A (ja) * 2009-04-22 2010-11-11 Ntt Communications Kk 検索装置、検索方法、および検索プログラム

Similar Documents

Publication Publication Date Title
US7970768B2 (en) Content data indexing with content associations
US6523030B1 (en) Sort system for merging database entries
US6473729B1 (en) Word phrase translation using a phrase index
US20060031207A1 (en) Content search in complex language, such as Japanese
JPH07104870B2 (ja) データ処理方法
JPH11110413A (ja) データベース検索結果を生成するための方法および装置
US5899989A (en) On-demand interface device
JP3352799B2 (ja) 機械翻訳方法及び機械翻訳装置
JPH1115841A (ja) 情報検索装置及び情報検索プログラムを記録した媒体
JP2894301B2 (ja) 文脈情報を用いた文書検索方法および装置
JPH0765013A (ja) 文書検索装置
US7130470B1 (en) System and method of context-based sorting of character strings for use in data base applications
EP1605371A1 (en) Content search in complex language, such as japanese
JP4024906B2 (ja) タグ付文書検索システム
JP2004318381A (ja) 類義性計算方法、類義性計算プログラム、類義性計算プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JPH0793345A (ja) 文書検索装置
KR20020059555A (ko) 자연어 질의 응답 검색 엔진 및 검색 방법
JPH08137893A (ja) 文書検索方法及び文書検索装置
JP2990314B2 (ja) データ管理装置
JPH08235191A (ja) 文書検索方法及び文書検索装置
JPH0973454A (ja) 文書作成装置及び文書作成方法
JPH0462664A (ja) データ検索装置
JP2000348055A (ja) 情報検索方法及びその装置並びにコンピュータ可読記録媒体
JPH08153108A (ja) 情報検索方法及びその装置