JPH09198393A - 文書検索装置 - Google Patents

文書検索装置

Info

Publication number
JPH09198393A
JPH09198393A JP8004858A JP485896A JPH09198393A JP H09198393 A JPH09198393 A JP H09198393A JP 8004858 A JP8004858 A JP 8004858A JP 485896 A JP485896 A JP 485896A JP H09198393 A JPH09198393 A JP H09198393A
Authority
JP
Japan
Prior art keywords
expansion
keyword
range
expansion range
identifier
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8004858A
Other languages
English (en)
Inventor
Shinji Kawamoto
真司 川本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP8004858A priority Critical patent/JPH09198393A/ja
Publication of JPH09198393A publication Critical patent/JPH09198393A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 入力キーワードをシソーラス展開して検索語
とする際、所望の語の検索漏れ及び不要な語の検索を防
止し、効率的な文書検索を実現する。 【解決手段】 シソーラス辞書管理部120が管理する
シソーラス辞書には、登録キーワードの関連語グループ
毎に固有の展開範囲識別子(Area ID )が付与されてい
る。検索時、キーワード入力部100からキーワードを
入力し、展開範囲指定部110から展開範囲を指定す
る。キーワード展開処理部130は、展開範囲1が指定
された場合には、入力キーワードに対してシソーラス辞
書内の登録キーワード中の当該入力キーワードの関連語
グループの範囲内で展開を行い、展開範囲2が指定され
た場合には、上記関連語グループに付された展開範囲識
別子を参照し、同じ展開範囲識別子を持つ関連語グルー
プに属する語まで範囲を広げて展開する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、キーワードを用い
て文書データベース内から所望の文書を検索する文書検
索装置に関する。
【0002】
【従来の技術】大量の文書データベース内から所望の文
書を検索するために有用な検索方式として、キーワード
を指定し、この指定したキーワードを含む文書を文書デ
ータベース内から検索する方式が知られている。この検
索方式を採用した文書検索装置では、キーワードの与え
方として、文書データベースに文書を登録する際に与え
る方法もあるが、検索をより柔軟に行うために、予めキ
ーワードを与えず、検索時にユーザが自由にキーワード
を指定するような運用を行う全文検索という方法も知ら
れている。
【0003】こうした全文検索においては、ユーザが自
由にキーワードを指定できることから、検索の柔軟性が
増す反面、検索漏れが発生し易いという不都合もあっ
た。そのための対策として、今日では、語彙と語彙との
関係を体系化したシソーラスを用いて、キーワードの類
似語や同義語などのキーワードに関連する語すなわちキ
ーワードの上位あるいは下位概念の語も検索語として検
索することにより、検索漏れを減らすという方法が知ら
れている。
【0004】図11は、この検索方法を適用した従来装
置におけるシソーラス辞書の一形態を示す概念図であ
る。このシソーラス辞書内の登録キーワードを、例え
ば、『コンピュータ』という入力キーワードで検索し、
シソーラス展開したものを検索語とする場合、上記登録
キーワード中における『コンピュータ』と同じ関連語グ
ループ(同図に示すの範囲)に属する語『電子計算
機』,『電算機』に展開することができる。また、更
に、キーワードを意味的に広げるべく下位概念の語に展
開した場合、『コンピュータ』という入力キーワードに
対して、登録キーワード中における『パソコン』,『P
C』,『パーソナルコンピュータ』,『WS』,『ワー
クステーション』など『コンピュータ』の属する関連語
グループの下位概念の関連語グループ(同図に示すの
範囲)に属する語に展開ができる。
【0005】しかしながら、この種の従来装置では、展
開範囲を拡張する場合に、単に、シソーラスの体系的に
上位下位の関係をたどって語の展開を行うことを基本と
しており、検索キーワードとしては同義語あるいは類義
語として扱った方がよい場合や、同じ上位概念をもつ語
でも文書検索の際には異なる概念として扱った方がよい
場合等の意味的結合による検索が全く配慮されていなか
った。
【0006】このため、上記の検索処理を例にあげる
と、『コンピュータ』という入力キーワードを意味的に
広げるべく下位概念の語に展開した場合、この入力キー
ワード『コンピュータ』に対して、登録キーワード中に
おける『パソコン』,『PC』,『パーソナルコンピュ
ータ』,『WS』,『ワークステーション』など『コン
ピュータ』の属する関連語グループの下位概念の関連語
グループ(同図に示すの範囲)に属する語に展開がで
きるものの、この場合に、登録キーワード『コンピュー
タ』が属する関連語グループと同じグループの語『電子
計算機』,『電算機』には展開できず、これらの語『電
子計算機』,『電算機』は検索語から漏れてしまうこと
になった。
【0007】この種の装置の公知例としては、他に、特
開平4-10062 号があげられる。この公知例では、語彙と
語彙の上位及び下位関係を記憶した辞書データを持ち、
入力文字列からその文字列の下位あるいは上位の語彙を
表す文字列を検索語として検索するようにしており、シ
ソーラスを用いて入力キーワードを意味的に広げて検索
漏れを低減しようという手法を採用したものと言える。
しかしながら、この公知例においても、入力キーワード
の展開処理に際し、上述した意味的な関係に従った展開
処理への配慮が欠如しているという点で他の従来技術と
変わらなかった
【0008】。
【発明が解決しようとする課題】上述の如く、入力キー
ワードをシソーラス辞書を用いて検索語として展開する
方式を採用した従来の文書検索装置では、登録キーワー
ド中における入力キーワードの同義語のみを検索語とし
て抽出していたため、シソーラスの体系上、意味的には
上位下位関係にあってもキーワード展開の際には同じ扱
いにすべき場合や、意味階層的には同レベルであって
も、キーワード展開においては別の概念ととらえた方が
よい場合などの対応が難しく、検索漏れが起こったり、
逆に、ユーザの検索意図と異なる思わぬ語まで検索語と
して検索されてしまうという問題点があった。
【0009】本発明は、入力キーワードをシソーラス展
開して検索語とする際、所望の語が検索から漏れたり逆
に不要な語までも検索されたりすることを防止し、効率
の良い文書検索が行える文書検索装置を提供することを
目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、キーワードをシソーラス辞書を用いて検
索語として展開し、該検索語を用いて文書データの検索
を行う文書検索装置において、同一の範囲内で展開され
るべき関連語グループ単位に同一の展開範囲識別情報を
付与して成るシソーラス辞書を管理する辞書管理手段
と、検索に用いるキーワードを入力するキーワード入力
手段と、該キーワード入力手段により入力されたキーワ
ードのシソーラス展開に係る展開範囲を指定する展開範
囲指定手段と、該展開範囲指定手段により設定された展
開範囲が、前記シソーラス辞書内の前記キーワードが含
まれる関連語グループの範囲を越える場合、前記シソー
ラス辞書内の前記キーワードが含まれる関連語グループ
と同じ展開範囲識別情報を持つ関連語グループの語を抽
出して前記検索語として展開するキーワード展開処理手
段とを具備することを特徴とする。
【0011】望ましくは、本発明において、前記辞書管
理手段は、前記シソーラス辞書内の前記関連語グループ
単位の展開範囲識別子に拡張展開範囲識別子を対応付け
て登録した展開範囲識別子関連テーブルを具備し、前記
キーワード展開処理手段は、前記展開範囲指定手段によ
り前記キーワードが含まれる関連語グループと同じ展開
範囲識別情報を持つ関連語グループの語の範囲を越える
展開範囲が指定された場合、当該展開範囲識別子に対応
する拡張展開範囲識別子を持つ関連語グループの語も前
記検索語として抽出することを特徴とする。
【0012】また、本発明においては、所望の関連語グ
ループと該関連語グループに属する語を、前記展開範囲
識別子または前記拡張展開識別子と関連付けて定義した
個別展開範囲情報を管理する個別展開範囲情報管理手段
と、前記個別展開範囲情報を編集する編集手段とを具備
し、前記キーワード展開処理手段は、前記キーワードを
関連語グループの展開範囲識別子または拡張展開識別子
に基づきシソーラス展開する際、該展開範囲識別子また
は拡張展開識別子と同じ識別子を持つ前記個別展開範囲
情報中の語も前記検索語として抽出することを特徴とす
る。
【0013】
【発明の実施の形態】以下、本発明の実施の形態につい
て説明する。図1は本発明の第1の実施の形態に係わる
文書検索装置の概略構成図である。この文書検索装置
は、検索に用いるキーワードを入力するキーワード入力
部1、上記入力キーワードを検索語に展開する際の展開
範囲を指定する展開範囲指定部110、上記入力キーワ
ードを展開する際の検索対象語(登録キーワード)を概
念上の上位下位関係を有する関連語あるいは同義語と関
係付けてシソーラス体系化したシソーラス辞書を管理す
るシソーラス辞書管理部120、上記入力キーワードを
指定された展開範囲内で上記シソーラス辞書を用いて検
索語に展開して検索語保持部131に保持するキーワー
ド展開処理部130、検索対象の文書を登録した文書デ
ータベース140、上記検索語保持部131に保持され
た検索語に基づき、文書データベース140を検索し、
該検索語を含む文書を検索する検索処理部150、該検
索処理部150による文書検索結果を保持する検索結果
保持部160を具備して構成される。この装置におい
て、シソーラス辞書管理部120が管理するシソーラス
辞書には、登録キーワードの関連語グループ単位に展開
範囲識別子(Area ID )が付与されている。展開範囲指
定部110では、例えば、展開範囲が拡張する程に大き
な数値となるように、展開範囲1,2,3という指示内
容で上記入力キーワードに対する検索語の展開範囲を指
定する。キーワード展開処理部130は、展開範囲1が
指定された場合には、この時の入力キーワードに対して
シソーラス辞書内の登録キーワード中における当該入力
キーワードの関連語グループの範囲内での展開を行い、
展開範囲2が指定された場合には、登録キーワード中に
おける当該入力キーワードの関連語グループに付された
展開範囲識別子を参照し、これと同じ展開範囲識別子を
持つ関連語グループに属する語の範囲内での展開を行
う。
【0014】次に、この第1の実施の形態に係わる装置
の検索動作の概略を、図2に示すフローチャートを参照
して説明する。まず、検索に際し、ユーザは、キーワー
ド入力部100からキーワードを入力する(ステップ2
00)。次いで、ユーザは、展開範囲指定部110か
ら、上記入力キーワードをシソーラス展開して検索語と
する際の展開範囲を指定する(ステップ210)。
【0015】キーワード展開処理部130では、まず、
キーワード入力部100からの入力キーワードがシソー
ラス辞書管理部120のシソーラス辞書内に登録キーワ
ードとして存在するかどうかを判断する(ステップ22
0)。ここで、上記入力キーワードがシソーラス辞書内
に存在しない場合(ステップ220NO)には、直ちに
検索動作を終了し、存在する場合(ステップ220YE
S)には、展開範囲指定部110により指定された展開
範囲が(展開範囲=1)であるかどうかすなわち展開範
囲が関連語グループの範囲内に留まるものかどうかを判
断する(ステップ230)。
【0016】ここで、指定された展開範囲が関連語のみ
に留まるものであれば(ステップ230YES)、キー
ワード展開処理部130は、上記入力キーワードに対し
て関連語展開処理を行い、該入力キーワードと同じ登録
キーワードを含む関連語グループに属する語を検索語と
して抽出し、検索語保持部131に保持する(ステップ
240)。
【0017】これに対し、指定された展開範囲が関連語
のみに留まらない場合、すなわち指定展開範囲>1の場
合(ステップ230NO)には、キーワード展開処理部
130は、シソーラス辞書内の上記入力キーワードと同
じ登録キーワードを含む関連語グループの展開範囲識別
子を抽出し(ステップ250)、これと同じ値の展開範
囲識別子を持つ関連語グループをシソーラス辞書内から
抽出し(ステップ251)、この抽出した関連語グルー
プに属する語を検索語として検索語保持部131に保持
する(ステップ252)。
【0018】次に、検索処理部150は、ステップ24
0またはステップ252でキーワード展開処理部130
の検索語保持部131に保持された検索語が含まれる文
書を文書データベース140から検索し(ステップ27
0)、この検索結果を検索結果保持部160に転送す
る。検索結果保持部160は、該検索結果を保持し(ス
テップ280)、一連の検索動作を終了する。
【0019】このように、第1の実施の形態では、単
に、入力キーワードと同じ登録キーワードを含む関連語
グループに属する語を検索語とするだけでなく、登録キ
ーワードの関連語グループ単位に付与した固有の展開範
囲識別子を基に展開範囲指定部110から展開範囲を指
定し、上記入力キーワードと同じ登録キーワードを含む
関連語グループを中心に、その指定された展開範囲内の
関連語グループに含まれる語も検索語として文書検索を
行うようにしている。
【0020】次に、具体例をあげながら実際の検索処理
内容を説明する。図3は、本実施の形態に係わるシソー
ラス辞書管理130で管理されるシソーラス辞書のデー
タ構造の概念図であり、図4は、このシソーラス辞書の
概念図を示している。
【0021】図3からも分かるように、このシソーラス
辞書では、コンピュータ,パソコン,ワークステーショ
ン等の登録キーワードの関連語グループ毎に「215
5」,「3446」,「3447」等の関連語グループ
IDが付され、更に、これら関連語グループIDに対応
して「151」,「154」等の展開範囲識別子(Area
ID )が付されている。特に、この例では、コンピュー
タ,パソコン,メインフレームといった登録キーワード
の関連語グループが同一の展開範囲識別子「151」を
持ち、同一の展開範囲環境下におかれている。
【0022】このように、登録キーワードの関連語グル
ープ単位に展開範囲識別子を保持して成るシソーラス辞
書を用いた文書検索にあたって、展開範囲指定部110
から展開範囲を広げるような指定があった場合、キーワ
ード展開処理部130は、先に入力された入力キーワー
ドと同じ登録キーワードを含む関連語グループの展開範
囲識別子を参照し、同じ値の展開範囲識別子を持つ関連
語グループに属する語を検索語とする。
【0023】これにより、例えば、『コンピュータ』と
いう入力キーワードを展開範囲1で展開した場合、この
入力キーワードと同じ登録キーワード『コンピュータ』
の関連語グループに属する語(『電子計算機』,『電算
機』)の範囲(図4に示すの範囲)で展開される。こ
の展開処理は、従来の技術の欄で述べた同義語あるいは
類似語展開と同様の処理である。
【0024】更に、キーワードを意味的に広げる場合、
『コンピュータ』という入力キーワードに対して展開範
囲2を指定すると、この入力キーワードと同じ登録キー
ワード『コンピュータ』の属する関連語グループの展開
範囲識別子「151」を参照することにより、これと同
じ展開範囲識別子「151」を持つ関連語グループであ
る(『コンピュータ』,『パソコン』,『ワークステー
ション』,『スーパーコンピュータ』,『メインフレー
ム』)の範囲(図4に示すの範囲)が展開範囲に含ま
れ、これら関連語グループに属する語も検索語となる。
【0025】このように、第1の実施の形態では、シソ
ーラス概念上の上位下位関係とは全く別に、検索用の展
開範囲識別子を用いて展開範囲を規定することで、入力
キーワードをより適切に意味的に拡張して検索を行うも
のである。この方法によれば、意味的には上位下位関係
にあってもキーワード展開の際には同じ扱いにすべき場
合や、意味階層的には同レベルであっても、キーワード
展開においては別の概念ととらえた方がよい場合などの
要望に対し、上記展開範囲識別子の設定を変えることで
容易に対処できる。
【0026】従って、シソーラス辞書に定義された単語
間の意味的な上位下位関係だけによるキーワード展開で
は漏れてしまう検索語として必要な語を、関連語グルー
プ単位に付与された展開範囲識別子を利用して、キーワ
ード検索処理に適応した展開処理が行えるようになり、
展開処理により抽出された検索語からキーワードとして
有用な語を漏らしてしまったり、無駄な語を検索語とし
てシソーラス辞書から抽出することが少なくなり、検索
精度の向上につながる。
【0027】次に、本発明の第2の実施の形態について
述べる。本実施の形態は、展開範囲識別子間の関係の設
定によって展開範囲を更に拡張可能にしたものである。
すなわち、本実施の形態では、登録キーワードの関連語
グループの展開範囲識別子に拡張領域の関連語グループ
の識別子を対応付けて管理する手法を採用する。
【0028】図5は、第2の実施の形態に係わる装置の
構成を示すものである。この装置では、シソーラス辞書
管理部120内に展開範囲識別子関連テーブル121を
設け、このテーブル121に、図3に示すようなデータ
に付随して、上述した展開範囲識別子と拡張展開範囲識
別子間の関係を定義した情報を格納する。図6は、この
テーブル121に格納された関係識別子のデータ例を示
すものであり、「150」,「151」,「152」等
の展開範囲識別子に各々対応付けて、「282」,「1
54」等の拡張範囲識別子が設定されている。また、図
7は、図6の関係識別子データを含むシソーラス辞書の
概念図であり、『パソコン』という語(登録キーワー
ド)の拡張領域の関連語グループの語として、この『パ
ソコン』という語が持つ展開範囲識別子「151」に対
応する拡張展開識別子「154」が付与された『デスク
トップ』,『ラップトップ』,『ノート型』という語が
登録されている。
【0029】以下、この第2の実施の形態に係わる装置
の検索動作の概略を図8に示すフローチャートを参照し
て説明する。この装置では、第1の実施の形態に係わる
装置の処理に、上記拡張展開範囲識別子を用いた展開範
囲の拡張に係わるステップ260,261,262の処
理が追加される。
【0030】すなわち、本実施の形態において、ステッ
プ230までの処理は第1の実施の形態に係わる装置と
同じである。ステップ130において、指定展開範囲が
関連語のみに留まるもの(指定展開範囲=1)であれば
(ステップ230YES)、キーワード展開処理部13
0は、上記入力キーワードに対して関連語展開処理を行
い、該入力キーワードと同じ登録キーワードを含む関連
語グループに属する語を検索語として抽出し、検索語保
持部131に保持する(ステップ240)。
【0031】これに対し、指定展開範囲が関連語のみに
留まらない(指定展開範囲>1)場合(ステップ230
NO)、キーワード展開処理部130は、シソーラス辞
書内の上記入力キーワードと同じ登録キーワードを含む
関連語グループの展開範囲識別子を抽出し(ステップ2
50)、これと同じ展開範囲識別子を持つ関連語グルー
プをシソーラス辞書内から検索し(ステップ251)、
更に、この関連語グループに属する語を検索語として検
索語保持部131に保持する(ステップ252)。
【0032】次に、キーワード展開処理部120は、そ
れまでに展開処理を完了した範囲がステップ210で指
定された展開範囲に到達したかどうかを判断する(ステ
ップ260)。ここで、指定展開範囲まで達していれば
(ステップ260YES)、ステップ270へと処理を
進める。
【0033】一方、指定展開範囲まで達していない場
合、すなわち指定展開範囲>2の場合(ステップ260
NO)、次いで、キーワード展開処理部130は、展開
範囲識別子関連テーブル121を検索し、上記ステップ
250で抽出した関連語グループに拡張展開範囲識別子
があるかどうかを判断する(ステップ261)。
【0034】ここで、上記関連語グループに拡張展開範
囲識別子があれば(ステップ261YES)、その拡張
展開範囲識別子を抽出し(ステップ262)、その抽出
した拡張展開範囲識別子に対してステップ251、25
2の処理を指定された展開範囲に到達するまで繰り返し
実施する。
【0035】この間に、展開範囲が指定された範囲に到
達し(ステップ260YES)、展開処理が処理が終了
すると、検索処理部150は、上記ステップ240若し
くはステップ252において検索語保持部131に保持
された検索語が含まれる文書を文書データベース140
から検索し(ステップ270)、この検索結果を検索結
果保持部160へと転送し、保持せしめる(ステップ2
80)。
【0036】このように、第2の実施の形態では、展開
範囲識別子関連テーブル121を利用し、キーワード展
開範囲を段階的に広げていくことができるので、ユーザ
の意図に合わない無駄な語を検索語として検索すること
が少なくなり、検索の適合率の向上につながる。
【0037】次に、この第2の実施の形態における展開
範囲識別子間の関係を用いた展開範囲拡張処理の具体例
について説明する。例えば、第1の実施の形態におい
て、『コンピュータ』という入力キーワードに付随して
展開範囲2を指定した場合、この入力キーワードと同じ
登録キーワード『コンピュータ』の属する関連語グルー
プの展開範囲識別子「151」を参照することにより、
これと同じ展開範囲識別子を持つ関連語グループである
『コンピュータ』,『パソコン』,『ワークステーショ
ン』,『スーパーコンピュータ』,『メインフレーム』
の範囲(図4に示すの範囲)が検索語としての展開範
囲となるが、ここで、所望の文書が検索できなかった場
合、更に入力キーワードを意味的に広げて検索する要望
が生じることがある。
【0038】このような場合、第2の実施の形態では、
展開範囲識別子関連テーブル121に定義された展開範
囲識別子間の関係を用いて展開範囲を広げることができ
る。すなわち、入力キーワード『コンピュータ』を意味
的に更に広げることを希望する場合、ユーザは、展開範
囲2より更に展開範囲の広い展開範囲3を指定する。こ
の場合、キーワード展開処理部130は、展開範囲識別
子関連テーブル121を検索することにより、この時の
入力キーワードと同じ登録キーワード『コンピュータ』
の展開範囲識別子に対応する拡張展開範囲識別子を抽出
し、この拡張展開範囲識別子を持つ関連語グループまで
も含めた拡張展開処理を行う。
【0039】この例の場合、『コンピュータ』という入
力キーワードに対して展開された登録キーワードの関連
語グループの展開範囲識別子は「151」であり、対応
する拡張展開範囲識別子は「154」であるので(図6
参照)、この「154」という値を展開範囲識別子とし
て持つ関連語グループを検索することで、「デスクトッ
プ」,「ラップトップ」,「ノート型」の関連語グルー
プの語が抽出される(図7参照)。
【0040】このように、第2の実施の形態では、展開
範囲識別子関連テーブル121を参照し、展開した関連
語グループの拡張展開範囲識別子をたどっていくことに
より、入力キーワードと同じ登録キーワードの関連語グ
ループに含まれる語も検索語に加えながら、段階的にキ
ーワード展開範囲を広げることが可能となる。
【0041】次に、本発明の第3の実施の形態について
述べる。上述した第1及び第2の各実施の形態では、関
連語グループ単位に付与した固有の展開範囲識別子を用
いてキーワード展開する場合に、検索対象の文書の種別
やユーザの特性によって、展開時に利用する関連語グル
ープ間の関係が異なり、キーワード展開が行えない場合
がある。
【0042】第3の実施の形態では、このような場合で
も、対象文書の種別やユーザの特性に応じたキーワード
展開が行えるようにするものであり、構成上、第1及び
第2の実施の形態に係わる装置の基本構造に、展開範囲
識別子、あるいは展開範囲識別子と拡張展開識別子間の
関係を編集する機能が付加される。
【0043】図9は本実施の形態に係わる装置の概略構
成を示すものであり、上記編集機能を実現するための構
成要素として、シソーラス辞書管理部120内で、ユー
ザが独自に登録した個別展開範囲情報を管理する個別展
開範囲情報管理部122と、この個別展開範囲情報管理
部122が管理する個別展開範囲情報を編集する展開範
囲情報編集部123とが具備される。
【0044】個別展開範囲情報は、ユーザが必要とする
関連語グループとそのグループに属する関連語をユーザ
自らが定義し、これらの語を上述した展開範囲識別子ま
たは拡張展開識別子と関連付けて、個別展開範囲情報管
理部122に登録されるものであり、入力キーワードの
展開時、シソーラス辞書内の登録キーワードの展開範囲
識別子あるいは拡張展開識別子と同様に参照される。こ
の時、検索要求を発したユーザや検索対象文書の種別に
応じて、参照する個別展開範囲情報を、展開範囲情報編
集部123からの操作に応じて適宜変えることも可能で
ある。
【0045】本実施の形態に係わる検索処理の基本的な
流れは、例えば、第2の実施の形態に係わるフローチャ
ート(図8参照)と同様であり、あえて図示しないが、
その中で、上述した個別展開情報の参照の処理が以下の
如くなされる。
【0046】すなわち、本実施の形態に係わる装置の検
索動作では、図8におけるステップ250の処理におい
て、入力キーワードと同じ登録キーワードを含む関連語
グループの展開範囲識別子を抽出する際に、シソーラス
辞書管理部120にもともと管理されている情報の他
に、個別展開範囲情報管理部122が管理する個別展開
範囲情報をも抽出対象として扱う。同様に、ステップ2
61,262の処理で、入力キーワードと同じ登録キー
ワードを含む関連語グループの拡張展開範囲識別子の存
在を判別しかつ抽出する際にも、シソーラス辞書管理部
120内の登録情報及び個別展開範囲情報管理部122
内の個別展開範囲情報の双方を抽出対象として扱う。こ
れにより、本実施の形態では、ユーザが独自に登録した
個別展開範囲情報も検索対象とした、より柔軟なキーワ
ード展開に対処できるようになる。
【0047】次に、本実施の形態における検索動作を具
体例をあげて詳述する。ここで、入力キーワードをシソ
ーラスを用いて展開し、更に展開範囲識別子あるいは拡
張展開範囲識別子を用いて展開範囲を広げて検索した場
合に検索漏れが発生する状況として、例えば、第2の実
施の形態において、『コンピュータ』という語で拡張展
開範囲識別子を用いて展開範囲を広げ、コンピュータの
ひとつである『パームトップ』という語を所望して検索
を行う場合を考えてみる。
【0048】この場合、図7に示す概念図からも分かる
ように、コンピュータのひとつである『パームトップ』
についてはシソーラス辞書に登録されておらず、この
『パームトップ』などという語の含まれた文書を文書デ
ータベース160から検索できない。
【0049】こうした検索漏れに対し、本実施の形態で
は、ユーザが所望の関連語グループを定義しこのグルー
プに属する関連語を上記個別展開範囲情報として個別展
開範囲情報管理部122に登録しておくことで対処でき
る。特に、上述した『パームトップ』という語の検索漏
れに対しては、ユーザは、「パームトップ」というユー
ザ独自の関連語グループを定義し、この関連語グループ
に属する語として『パームトップ』や『パームトップマ
シン』という語を登録し、更に、この関連語グループの
展開範囲識別子を「デスクトップ」や「ラップトップ」
と同じ値「154」とした個別展開範囲情報を登録す
る。
【0050】図10は、上記登録時の個別展開範囲識別
子を含むシソーラス辞書の概念図であり、「パームトッ
プ」や「パームトップマシン」を内包した『パームトッ
プ』という語が、『デスクトップ』,『ラップトッ
プ』,『ノート型』という拡張展開識別子「154」を
有する語とともに、展開範囲識別子「151」を有する
『パソコン』という語の拡張展開範囲の環境下におかれ
る。かかる設定環境下で、『コンピュータ』という入力
キーワードを拡張展開範囲識別子を用い、展開範囲を広
げて検索した場合、『パームトップ』という語も検索語
の一つとして抽出することが可能となる。
【0051】なお、個別展開範囲情報管理部122に格
納される個別展開範囲情報としては、上述した未登録を
補うための関連語グループ単位の登録だけでなく、シソ
ーラス辞書内の既存の関連語グループのうち不要なもの
の削除情報や既存の関連語グループ内への単語単位での
登録や削除の情報も含めることができる。
【0052】
【発明の効果】以上詳細に説明したように、本発明によ
れば、シソーラス辞書内の登録キーワードの関連語グル
ープ単位に固有の展開範囲識別子を付与し、入力キーワ
ードをシソーラス展開して検索語とする際、この入力キ
ーワードと同じ登録キーワードを含む関連語グループの
展開範囲識別子に基づいて展開を行うようにしたため、
単純にシソーラスの上位下位関係だけに基づいてキーワ
ード展開を行う場合に比べ、より精度の高い展開処理が
行える。また、展開範囲を限定して段階的にキーワード
展開を行えるようにしたため、関係ない文書が候補とし
て検索されることを低減でき、検索作業の効率を大幅に
向上させることができる。
【0053】望ましくは、本発明においては、シソーラ
ス辞書内の登録キーワードの関連語グループ単位に付与
した展開範囲識別子に拡張展開範囲識別子を対応付けて
登録した展開範囲識別子関連テーブルを設け、展開範囲
の拡張の指示に応じて、上記展開範囲識別子から更にこ
の展開範囲識別子に対応する拡張展開範囲識別子をたど
って段階的に展開範囲を拡張することで、ユーザの意図
に合わない無駄な語が検索語として展開される状況を低
減して検索適合率の向上に寄与できる。
【0054】また、本発明においては、所望の関連語グ
ループと該グループに属する語を、展開範囲識別子また
は拡張展開識別子と関連付けてユーザが独自に定義した
個別展開範囲情報を管理及び編集する手段を設け、入力
キーワードをこの入力キーワードと同じ登録キーワード
を含む関連語グループの展開範囲識別子に基づいて展開
を行う際、シソーラス辞書内の展開範囲識別子または拡
張展開識別子と同様に上記個別展開範囲情報も参照する
ようにしたため、シソーラス辞書内に登録された展開範
囲識別子に基づく画一的な展開処理に留まらず、ユーザ
が独自に登録した個別展開範囲情報に基づき、対象文書
の種別やユーザの特性に応じたより細やかなキーワード
展開が行え、より高精度の検索語の展開が実現できる。
【図面の簡単な説明】
【図1】第1の実施の形態に係わる文書検索装置の概略
構成図。
【図2】図1における装置の検索処理の一例を示すフロ
ーチャート。
【図3】図1における装置で用いるシソーラス辞書のデ
ータ内容を示す図。
【図4】図1における装置で用いるシソーラス辞書の概
念図。
【図5】第2の実施の形態に係わる文書検索装置の概略
構成図。
【図6】図5における装置の展開範囲識別子関連テーブ
ルの概念図。
【図7】図6におけるテーブルの内容を含むシソーラス
辞書の概念図。
【図8】図5における装置の検索処理の一例を示すフロ
ーチャート。
【図9】第3の実施の形態に係わる文書検索装置の概略
構成図。
【図10】図9の装置で扱う個別展開範囲情報を含むシ
ソーラス辞書の概念図。
【図11】従来の文書検索装置で用いるシソーラス辞書
の概念図。
【符号の説明】
100…キーワード入力部、110…展開範囲指定部、
120…シソーラス辞書管理部、121…展開範囲識別
子関連テーブル、122…個別展開範囲情報管理部、1
23…展開範囲情報編集部、130…キーワード展開処
理部、131…検索語保持部、140…文書データベー
ス、150…検索処理部、160…検索結果保持部

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】 キーワードをシソーラス辞書を用いて検
    索語として展開し、該検索語を用いて文書データの検索
    を行う文書検索装置において、 同一の範囲内で展開されるべき関連語グループ単位に同
    一の展開範囲識別情報を付与して成るシソーラス辞書を
    管理する辞書管理手段と、 検索に用いるキーワードを入力するキーワード入力手段
    と、 該キーワード入力手段により入力されたキーワードのシ
    ソーラス展開に係る展開範囲を指定する展開範囲指定手
    段と、 該展開範囲指定手段により設定された展開範囲が、前記
    シソーラス辞書内の前記キーワードが含まれる関連語グ
    ループの範囲を越える場合、前記シソーラス辞書内の前
    記キーワードが含まれる関連語グループと同じ展開範囲
    識別情報を持つ関連語グループの語を抽出して前記検索
    語として展開するキーワード展開処理手段とを具備する
    ことを特徴とする文書検索装置。
  2. 【請求項2】 前記辞書管理手段は、前記シソーラス辞
    書内の前記関連語グループ単位の展開範囲識別子に拡張
    展開範囲識別子を対応付けて登録した展開範囲識別子関
    連テーブルを具備し、前記キーワード展開処理手段は、
    前記展開範囲指定手段により前記キーワードが含まれる
    関連語グループと同じ展開範囲識別情報を持つ関連語グ
    ループの語の範囲を越える展開範囲が指定された場合、
    当該展開範囲識別子に対応する拡張展開範囲識別子を持
    つ関連語グループの語も前記検索語として抽出すること
    を特徴とする請求項1記載の文書検索装置。
  3. 【請求項3】 所望の関連語グループと該関連語グルー
    プに属する語を、前記展開範囲識別子または前記拡張展
    開識別子と関連付けて定義した個別展開範囲情報を管理
    する個別展開範囲情報管理手段と、前記個別展開範囲情
    報を編集する編集手段とを具備し、前記キーワード展開
    処理手段は、前記キーワードを関連語グループの展開範
    囲識別子または拡張展開識別子に基づきシソーラス展開
    する際、該展開範囲識別子または拡張展開識別子と同じ
    識別子を持つ前記個別展開範囲情報中の語も前記検索語
    として抽出することを特徴とする請求項1または2記載
    の文書検索装置。
JP8004858A 1996-01-16 1996-01-16 文書検索装置 Pending JPH09198393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8004858A JPH09198393A (ja) 1996-01-16 1996-01-16 文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8004858A JPH09198393A (ja) 1996-01-16 1996-01-16 文書検索装置

Publications (1)

Publication Number Publication Date
JPH09198393A true JPH09198393A (ja) 1997-07-31

Family

ID=11595383

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8004858A Pending JPH09198393A (ja) 1996-01-16 1996-01-16 文書検索装置

Country Status (1)

Country Link
JP (1) JPH09198393A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132555A (ja) * 1998-10-22 2000-05-12 Fujitsu Ltd キーワード検索方法及び装置並びにキーワード検索プログラムを記録した記録媒体
US6915507B1 (en) * 2000-11-21 2005-07-05 Microsoft Corporation Extensible architecture for project-development systems

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000132555A (ja) * 1998-10-22 2000-05-12 Fujitsu Ltd キーワード検索方法及び装置並びにキーワード検索プログラムを記録した記録媒体
US6915507B1 (en) * 2000-11-21 2005-07-05 Microsoft Corporation Extensible architecture for project-development systems
US7631298B2 (en) 2000-11-21 2009-12-08 Microsoft Corporation Extensible architecture for project development systems

Similar Documents

Publication Publication Date Title
US6094649A (en) Keyword searches of structured databases
US7076484B2 (en) Automated research engine
US6523030B1 (en) Sort system for merging database entries
JP5203934B2 (ja) オリジナルのユーザ入力に基づくユーザ入力の提案および絞込み
JP2006004427A (ja) 日本語などの複雑言語のコンテンツを検索するシステム及び方法
Dong et al. Normalization of duplicate records from multiple sources
JP3687118B2 (ja) 関連語辞書作成装置および関連語辞書作成方法
Chouni et al. Information retrieval system based semantique and big data
JPH05151253A (ja) 文書検索装置
JPH09198396A (ja) 文書検索装置
JPH09198393A (ja) 文書検索装置
JP3123836B2 (ja) テキスト型データベース装置
JPH01145721A (ja) 文献の検索妥当性判定方式
JPH0944506A (ja) 文書検索装置
JP3558267B2 (ja) 文書検索装置
JPH0581326A (ja) データベース検索装置
JP2000003366A (ja) 文書登録方法と文書検索方法及びその実施装置並びにその処理プログラムを記録した媒体
KR20000041817A (ko) 음절 단위 패턴으로 구성한 패턴 테이블을 이용한 문자열 부분검색 시스템 및 그 방법
JPH07210565A (ja) 情報検索方法及び装置
JP2002132789A (ja) 文書検索方法
JPH0644309A (ja) データベース管理方式
Khan et al. Keyword extraction for medium-sized documents using corpus-based contextual semantic smoothing
JPH05151273A (ja) シソーラス検索システム
Kolthoff et al. Automated retrieval of graphical user interface prototypes from natural language requirements
JPH08287083A (ja) 辞書未登録語展開方法及び装置