JPH0410062A - 語彙拡張機能を有する文書検索方法 - Google Patents

語彙拡張機能を有する文書検索方法

Info

Publication number
JPH0410062A
JPH0410062A JP2110010A JP11001090A JPH0410062A JP H0410062 A JPH0410062 A JP H0410062A JP 2110010 A JP2110010 A JP 2110010A JP 11001090 A JP11001090 A JP 11001090A JP H0410062 A JPH0410062 A JP H0410062A
Authority
JP
Japan
Prior art keywords
vocabulary
character string
document
search
extracted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2110010A
Other languages
English (en)
Inventor
Atsushi Hatakeyama
敦 畠山
Hiromichi Fujisawa
藤沢 浩道
Kanji Kato
加藤 寛次
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2110010A priority Critical patent/JPH0410062A/ja
Publication of JPH0410062A publication Critical patent/JPH0410062A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 本発明は1文書デーベースを文字列を指定して検索する
方式に係わり、指定すべき文字列として単語を限定する
ことなく、あいまいな表現でも検索を可能とする方法に
関する。
〔従来の技術〕
従来の文書検索システムでは、登録する文書の内容を表
す単語(キーワードと呼ぶ)をインデックスとする方式
がとられている。この方式では、登録時に付与したキー
ワードと、検索時に指定したキーワードが異ると検索で
きないという問題がある。
例えば、″コンピュータ″というキーワードで登録した
文書は、″電算機″、あるいは″電子計算機″では検索
できない。このように、登録時のキーワードと検索時の
キーワードが同じ意味を表す言葉でも、表現形態が異な
ると検索できなくなるという問題がある。
従って、この問題を避けるために統制語辞書(キーワー
ド辞書)を用意し、キーワードとして使用可能な言葉を
あらかじめ規定しておくという方式がとられている。こ
のような方式では、文書の登録時のみならず検索時にも
、ユーザは統制語辞書に熟知している必要があるととも
に、文書内容を統制語辞書のキーワードを用いて的確に
表現する専門的な能力が求められることになる。通常、
この文書の登録及び検索の作業は、データベースの分野
毎にインデクサ−と呼ばれる専門家によって行われてき
ている。すなわち、一般のユーザには簡単に扱うことが
難しいという問題があった。
このような問題を解決するため、特開昭62−1193
2のように、ユーザが入力した検索語の同義語や異表記
を検索時に自動的に展開して検索する方式を提案した。
すなわち、検索者の入力した検索語から、その言葉と同
じ意味を表す言葉を検索システムの内部で自動的に展開
して、これらもキーワードに加えて検索する方式である
。この技術を用いることにより、検索者は、統制語辞書
に関する知識がなくても、思い付いた自由な言葉で検索
することができるようになった。
〔発明が解決しようとする課題〕 しかし、上記引例では″計算機″に関する文書を検索す
る際、″電子計算機I+  11電算機・・ tI:l
ピユータ″等の同義語関係にある言葉で登録された文書
は検索できるものの、これよりさらに具体的な言葉がキ
ーワードになっているものは検索できないという問題が
ある。このような例としては、“スーパーコンピュータ
パ″マイクロコンピュータl1%lワークステーション
”等のように″計算機″の下位概念を表す言葉があげら
れる。
また、「具体的な名称は忘れたが、何かパ大学″が関係
している文書であった」というあいまいな情報をもとに
して検索したい場合もある。すなわち、″大学′″とい
うキーワードから、その具体的な概念であるパ東京大学
″″東大II 、 、 II大阪大学tr、u阪−大″
等という言葉に展開して検索したい場合もある。
この二つの場合とも、上記引例では対応できないという
問題がある。
本発明の解決しようとする課題は、より具体的な言葉に
絞りきれない時でも、あいまいな言葉そのもので具体的
な言葉を含む文書を検索できるようにすることである。
〔課題を解決するための手段〕
上記課題を解決するために、文書データベースに付与さ
れたキーワードに関する語彙情報を格納した語彙辞書と
、これらの語彙情報間の関係を記述した関係リストを持
ち、キーボードから入力した検索語から、語彙辞書及び
関係リストを参照してより具体的な言葉を抽出する語常
展開手段を持ち、この語彙展開手段によって抽出された
全ての言葉を検索語として文書データベースを検索する
検索手段により検索システムを構成する。
〔作用〕
以上の手段によって、検索者が入力した検索語の語彙概
念を検索時に解析し、あらかじめ定義しておいた語彙辞
書と関係リストから、より具体的な語彙を示す言葉を自
動的に展開し、展開した全ての語を検索語として検索す
るために、あいまいな検索語を指定しても、すなわち探
したい語の上位概念にある言葉を指定しても、目的とす
る文書の検索が可能となる。
〔実施例〕
本実施例は、一般的な電子計算機を用いて実施する場合
を想定したものである。110はユーザが検索語を入力
するキーボードであり、ここから入力された検索語は、
語彙展開部130に送られる。語彙展開部130では、
後で記述する語彙辞書150と関係リスト160を参照
して入力検索語180に対して、より具体的な概念を表
す語彙190を導出する。
語彙展開部130で求められた検索文字列すなわち展開
文字列190は検索部140に送られる。
ここでは文書データベース170が読み込まれ、該展開
文字列190を含む文書があるか検索される。
語彙辞書150は、第2図に示すような内容を持つ。す
なわち5語彙辞書150は、語彙番号、語彙文字列及び
文字列種別の3つのフィールドからなるレコードの集ま
りである。ここで、語彙文字列は語彙の書き方を表した
文字列コードを格納したものである。語彙番号は、語彙
辞書に記述された語常の中で同一の語彙すなわち同じ意
味を持つ文字列群に付与した識別番号である。例えば、
本図では″東京大学″と″東大″には同じ語彙番号58
が、″大阪大学″と″阪大″には同じ語彙番号107が
付与されている。文字列種別は、該当する文字列が同一
の語彙を示す文字列群の代表文字列か否かを表す識別子
である。例えば本図では、″東京大学″は正式名称であ
り、代表文字列とみなせるものなので識別子p(ρri
mary)が。
″東大″は″東京大学″の略称で代表文字列ではないの
で、識別子s  (secondary)が付与されて
いる。
次に関係リスト160の内容を第3図に示す。
関係リスト160は、語彙番号と上位語彙番号の2つの
フィールドからなるレコードの集まりによって構成され
る。これらの語彙番号は、前述の語彙辞書に記述されて
いる語彙番号を示している。
例えば、語彙番号58と上位語彙64からなるレコード
は、第2図における語彙番号58の″東京大学″の上位
概念にあたる語彙として、語彙番号64の″大学″が相
当することを示している。同様にして、語彙番号107
”大阪大学″の上位語も語彙番号64の″大学″である
ことを示してぃる。
文献データベース170には、第4図のように文書番号
、題名、著者、日付、文書内容すなわち本文等が蓄えら
れている。例えば、文書番号10の文書は、題名が[電
子メール通信システムの標準化j、著者が「東大」、日
付「89年1月9日」で、本文が「電子メール通信シス
テムは、・・・」という内容を持っていることを示して
いる。
上述した語彙辞書150及び関係リスト160を参照し
て語彙展開部130における具体的な展開の処理内容に
ついて以下説明する。
語彙展開処理の流れを第5図にPAD (プログラム 
アナライジス ダイアグラム: ProgramAna
lysis Diagram)で示す。
まずキーボードより入力された検索語と、語彙辞書15
0に蓄えられた語彙文字列をもとに該当する語彙番号を
探索する(510)。ここでは、第2図に示す語彙文字
列と検索語との文字列探索で該当する語彙番号を得る。
例えば、゛大学′″という検索語が与えられた場合、語
彙検索510の結果は語り番号64となる。
第2のステップでは、関係リスト160を用いて関係情
報を探索し、より具体的な語彙番号を抽出する(520
)、ここでは、前ステップ(510)で探索した語彙番
号をもとに、関係リストの上位語彙番号を持つ下位の語
常番号を全て探索し、語彙番号のリストを出力する。例
えば、関係リストとして第3図に示したデータが格納さ
れている場合、語彙番号64から、出力として語彙番号
58及び107が出力される。
第3のステップでは、語彙番号のリストをもとにして、
これを語彙辞書150を用いて該当する文字列のリスト
へ変換する(530)。この時、該当する語彙番号を持
つ文字列を全て抽出する。
すなわち、語彙番号58では、代表文字列の″東京大学
″のみならず、それと同位の意味を示すパ東大”も同時
に抽出する。こうすることにより、該語彙が示す同位の
語を全て取り出すことができる。複数個の語彙番号が前
ステップ(520)で出力され、かつ各語彙には複数個
の文字列が対応している場合が多いので、出力も複数個
の文字列がでてくる。例えば、58,107という語彙
番号リストから、第2図に示す語彙辞書を参照して″東
京大学JT%東大II 、  it大阪大学T1.lL
阪大″という4個の文字列を出力する。
以上が語彙展開部130の処理内容である。
以上の語彙展開部の展開文字列190を受けて。
検索部140では文書データベース170の検索を行な
う(540)。例えば、文書データベース170の著者
のフィールドを上記の展開文字列″東京大学I+、11
東大″、″′大阪大学II、II阪大″で検索した場合
、文書番号10及び12のデータが結果として得られる
この検索部140で実行する複数文字列の検索には、例
えばニー・ブイ・エイホー アンド エム ジェー コ
ラジック:エフィシェント ストリング マツチング 
コム ニーシーエム(A、V。
Aho and M、J、Corasick: ”Ef
ficient StringMatching”、C
omm、ACM)Vo 1.18.No。
6.1975に記述された方法を用い、文字列照合処理
の高速化を図ることもできる。
次に、本発明の第二の実施例について説明する。
本実施例は、入力した語から一旦上位の語彙を抽出し、
抽出した上位の語彙からもう一度下位の概念を示す語彙
へ展開して検索する語彙展開方法を用いるものである。
この方法は、指定した検索語と関係の深い情報を得るの
に有効である。例えば、″東大″から゛′大学″を一旦
抽出し、″大学″の下位の概念である″東大r1.LL
東京大学II%L阪大II、It大大阪大学へ展開して
検索する。こうして、″東大″という一つの検索語から
関連の深い情報、ここではパ大学″に関する情報を得る
ことができる。
この展開処理について、第6図のPAD図を用いて説明
する。まず、語彙辞書150の語彙文字列を参照して、
検索語が示す語彙の番号を抽出する(610)。例えば
、検索語が゛東大″の場合、抽出結果は語彙番号58と
なる。
次に、関係リストを参照し、抽出した語彙番号の上位語
彙番号を探索する(620)。検索語が″東大″の場合
だと結果は″大学″を示す語彙番号64となる。そして
、もう−度関係リストを参照して、今抽出した語彙番号
の下位の概念を示す語彙番号を全て抽出する(630)
。これにより、第一の実施例と同じく″大学″の下位概
念である語彙番号58と107が得られる。
最後にこうして得られた語彙番号のリストを語彙辞書1
50を参照して、該当する文字列のリストへ変換する(
640)。この結果、検索語がパ東大″の場合、最終結
果としてパ東京大学″゛′東大T1.LL大阪大学n、
u阪大″という4個の文字列が得られることになる。こ
の後、第一の実施例と同様に展開した文字列でデータベ
ースを検索する(650)。
このように、入力した検索語から一旦上位の語彙を抽出
し、更に再び下位の語彙へ展開することで、検索語のみ
ならず、検索語と非常に近い関係を持った文書をも検索
することができるようになる。
以上第二の実施例について説明した。
以下、第三の実施例の説明をする。第−及び第二の実施
例では、−階層分下位の語彙を持つ文字列への展開処理
について説明してきた。第三の実施例では、これを拡張
し詳細に分類して語彙を登録した辞書を用いて、検索語
が示す語彙の下位の語彙をすべて抽出し、これをすべて
検索語として文書を検索することにより、関連のある文
書をすべて検索できるようにしたものである。以下、本
方法の処理について説明する。
語彙を細かに上下関係を分類すると第7図のように、多
階層の分類木構造で管理できることになる。本図におい
て、楕円は一つの語彙を示し、楕円の右肩の数字は語彙
番号を示し、また矢印は上位の語彙を指している。例え
ば、″東大″の上位の語彙は″国立大学″で″国立大学
″の上位の語彙は″公立大学″′、さらに″公立大学″
の上位の語彙は″大学″である。すなわち、゛′大学″
がパ公立大学n、u国立大学″と細く上下関係が分類さ
れている。
本図に示すような語彙分類木を構成する語彙辞書と関係
リストを第8図及び第9図に示す。これは、第一の実施
例及び第二の実施例の語彙辞書及び関係リストに対応す
る。
以下、検索語から対応する語彙の下位の語彙すべてを展
開する処理を第10図を用いて説明する。
本実施例では例えば1、第8図及び第9図に示す語彙辞
書150及び関係リスト190が用いられる。
まず第一の実施例と同様に入力した検索語から、対応す
る語彙番号と、その語彙が持つ下位の語彙番号のリスト
を作成する(510,520)。例えば、″大学″とい
う検索語が指定された場合、語彙番号リストとして、語
彙番号72と73が得られる。
次に、語彙番号リストとは別に新語彙番号リストを設け
、初期値として該語彙番号リス1−と同じ内容を設定す
る(1010)。本実施例では前ステップで得られた語
彙番号リストと同じ語彙番号72と73が蓄えられる。
次に、新語彙番号リストの内容が無くなるまで、すなわ
ち下位の語彙が現われなくなるまで何度も下位の語彙を
探索しては新しく探索した語彙を新語彙リストとして置
き換え(1020)、さらに語彙番号リストに新しく探
索した語彙を付は加えてい< (1021)。この処理
については後に具体例を用いて説明する。
最後に、第一の実施例と同様に得られた語彙リストから
対応する文字列へ変換し、これらの文字列で文書データ
ベースを検索する(530 、540)。
以上が第三の実施例の語彙展開処理の流れであるが、本
実施例での特徴的な処理(1020゜1021)につい
て、具体例を用いて説明する。
例えば、新語彙番号リストが72と73であれば、それ
ぞれの下位の語彙番号を関係リスト160を参照して1
語彙番号74,75,76.77を得て、これを新語彙
リストとして置き換える(1020)。語彙リストはこ
れらの新しい語彙番号を今までのリストにつけ加えて、
語彙番号72.73,74,75,76.77とする(
1021)。
新語彙番号リストが空にならないため、もう−度新語彙
番号リストア4,75,76.77のそれぞれの語彙番
号の下位の語彙番号を関係リスト160を参照して求め
る。この時、語彙番号75゜76.77については、下
位の語彙番号がないため、結局新語彙番号リストは語彙
番号74の下位の語彙番号である58,90,107と
なる(1020)。また、語彙番号リストは、新しく得
られた語常をさらにつけ加えて、語彙番号72゜73.
74,75,76.77.58,90゜107となる(
1021)。
新語彙番号リストが空でないため、すなわち下位語彙が
まだ求まるため、もう−度1020の処理をするが、今
度はどの語彙も下位の語彙を持たない。したがって、新
語彙番号は空となり、処理1021では語彙番号リスト
には何もつけ加えられない。
こうして、最終的には“大学″の下位の語常として、語
彙番号リストア2,73,74,75゜76.77.5
8,90,107が得られ、対応する文字列へ変換する
ことにより、″公立大学″″私立大学11.#国立大学
′″、゛′市立大学″″早大II 、  II早稲田大
学11.ll慶応大IZ11慶応大学′″  ″東京大
学n、rr東大JI%L北太″パ北海道大学u 、  
rr阪大II、N大阪大学″が得られる。
このように階層化された語彙辞書、語彙関係リストを用
いて、検索語として指定された下位の語常すべてを網羅
的に抽出して展開処理することができるため、より抽象
的な語常の指定からでも、非常に具体的な語常を持つ文
書をも検索することができるようになる。
最後に、第四の実施例を示す。本実施例は、語常の展開
処理をさらに拡張して、n段目の下位レベルにある語常
のみ、あるいはn段目までの全ての下位語彙を展開抽出
する処理を行い、これらをすべて検索語として文書を検
索することによっである広さを持つ概念の言葉だけで検
索できるようにしたものである。以下、この内容につい
て説明する。ここで、n段目の下位語彙とは、例えば第
7図の″大学″の1段目の下位語彙が″公立大学″。
゛′私立大学″、2段目の下位語彙が″国立大学″″市
立大学+l、II慶応大n、u事大″というように、階
層の深さを示すものである。数値nは、ユーザが自由に
設定できるものとする。
n段目までの下位語彙を抽出するには、第三の実施例で
の展開処理アルゴリズムを少し変更すれば良い。すなわ
ち、1o20及び1o21の処理を新語彙番号リストが
空になるまででなく、n回処理を行うように変更すれば
良い。このように変更すれば、n回目のループの後、新
語彙番号リストにn段目の下位語彙の番号が得られ、語
彙番号リストには、n段目までの下位の語彙番号すべて
が得られる。
このようにn段目までの下位語彙に限定して展開処理す
ることにより、階層的にきれいに整備された語彙辞書、
関係リストを有効に活用することができる。例えば、語
彙階層本で1階層目は製品の大分類、2階層目は細分類
、3階層目は製品のシリーズ名称、4階層目は製品名、
というようによく管理された階層木をなす語彙辞書と関
係リストを用い、4階層目を指定して検索すれば、具体
的な各製品名での検索が可能となる。あるいは、2階層
目までの全下位語彙を指定して、抽象的概念で記述され
ているような文書を網羅的に検索することが可能となる
〔発明の効果〕
本発明によれば、検索者の入力する検索語があいまいな
場合でも、また漠然とした大きな概念を表す場合にでも
、より具体的な方法で検索を行なうことが可能となり、
検索漏れの少ない、使い勝手のよい検索システムが実現
できることになる。
また、入力された検索語と同じ概念レベルにある言葉を
含む文書、すなわち関連性の強い文書もすべて検索する
ことが可能となる。
【図面の簡単な説明】
第1図は本発明の特徴となる検索方式の処理概要図、第
2図は語彙辞書の格納形態を示す概念図、第3図は関係
リストの格納形態を示す概念図、第4図は文献データベ
ースの格納形態を示す概念図、第5図は本発明の第一の
実施例の処理を示す流れ図、第6図は本発明の第二の実
施例の処理を示す流口、第7図は第三の実施例で用いる
語彙辞書及び語彙関係リストが持つ語彙間の階層関係を
示す概念図、第8図は第三の実施例で用いる語彙辞書の
具体例を示す概念図、第9図は第三の実施例で用いる関
係リストの具体例を示す概念図、第10χ 図 貞 話澹祐尼木 築 舅 ? 捷ます名 /Gl 禎 q 喝 間係りスト /デρ /θ 図

Claims (1)

  1. 【特許請求の範囲】 1、文字列を入力し、入力した文字列をもとに該文字列
    が記述された文書を検索する検索方法において、語彙と
    語彙の上位及び下位関係を記憶した辞書データを持ち、
    入力文字列からその文字列が示す語彙の下位の語彙を表
    す文字列を、前記語彙辞書を参照して抽出し、それら全
    ての文字列を検索語として文書を検索し、いずれかの文
    字列を持つ文書を抽出するようにしたことを特徴とする
    文書検索方法。 2、文字列を入力し、入力した文字列をもとに該文字列
    が記述された文書を検索する検索方法において、語彙と
    語彙の上位及び下位関係を記憶した辞書データを持ち、
    入力文字列からその文字列が示す語彙の上位の語彙を表
    す文字列を、前記語彙辞書を参照して抽出し、それら全
    ての文字列を検索語として文書を検索し、いずれかの文
    字列を持つ文書を抽出するようにしたことを特徴とする
    文書検索方法。 3、文字列を入力し、入力した文字列をもとに該文字列
    が記述された文書を検索する検索方法において、語彙と
    語彙の上位及び下位関係を記憶した辞書データを持ち、
    入力文字列からその言葉が示す語彙の上位の語彙を、前
    記語彙辞書を参照して一旦抽出し、さらに抽出した上位
    の語彙の下位の語彙を表す文字列を抽出し、それら全て
    の文字列を検索語として文書を検索し、いずれかの文字
    列を持つ文書を抽出するようにしたことを特徴とする文
    書検索方法。 4、請求項1記載の文書検索方法において、同一の語彙
    を示す文字列にはユニークな語彙番号を定めた語彙辞書
    と、語彙の上位下位関係を該語彙番号で記述した関係リ
    ストを持ち、入力文字列から語彙辞書を参照してその文
    字列が示す語彙番号を一旦抽出し、抽出した語彙番号か
    ら関係リストを参照して該語彙の下位の語彙番号を抽出
    して、さらにもう一度語彙辞書を参照して抽出した語彙
    番号を持つすべての語彙文字列を抽出し、それら全ての
    文字列を検索語として文書を検索し、いずれかの文字列
    を持つ文書を抽出するようにしたことを特徴とする文書
    検索方法。 5、請求項1記載の文書検索方法において、語彙辞書を
    参照して入力文字列から下位の語彙を表す文字列を抽出
    する際、上位下位関係を再帰的に参照して、抽出した下
    位語彙のさらに下位の語彙を抽出して行き、これ以上下
    位の語彙がないところまで下位の語彙を抽出して、それ
    ら全ての語彙と対応する文字列を検索語として文書を検
    索し、いずれかの文字列を持つ文書を抽出するようにし
    たことを特徴とする文書検索方法。 6、請求項1記載の文書検索方法において、語彙辞書を
    参照して入力文字列から下位の語彙を表す文字列を抽出
    する際、上位下位関係を再帰的に参照して、抽出した下
    位語彙のさらに下位の語彙を抽出する処理を指定段数繰
    り返して下位の語彙を抽出して、それら全ての語彙と対
    応する文字列を検索語として文書を検索し、いずれかの
    文字列を持つ文書を抽出するようにしたことを特徴とす
    る文書検索方法。 7、請求項1記載の文書検索方法において、語彙辞書を
    参照して入力文字列から下位の語彙を表す文字列を抽出
    する際、上位下位関係を再帰的に参照して、抽出した下
    位語彙のさらに下位の語彙を抽出して行き、これ以上下
    位の語彙がないところまで下位の語彙を抽出して、これ
    らの下位の語彙のうち、最下位のこれ以上下位の語彙を
    持たないという語彙に対応する文字列すべてを検索語と
    して文書を検索し、いずれかの文字列を持つ文書を抽出
    するようにしたことを特徴とする文書検索方法。
JP2110010A 1990-04-27 1990-04-27 語彙拡張機能を有する文書検索方法 Pending JPH0410062A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2110010A JPH0410062A (ja) 1990-04-27 1990-04-27 語彙拡張機能を有する文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2110010A JPH0410062A (ja) 1990-04-27 1990-04-27 語彙拡張機能を有する文書検索方法

Publications (1)

Publication Number Publication Date
JPH0410062A true JPH0410062A (ja) 1992-01-14

Family

ID=14524829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2110010A Pending JPH0410062A (ja) 1990-04-27 1990-04-27 語彙拡張機能を有する文書検索方法

Country Status (1)

Country Link
JP (1) JPH0410062A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146877A (ja) * 1993-11-25 1995-06-06 Canon Inc 情報処理装置
JP2006134019A (ja) * 2004-11-05 2006-05-25 Fuji Xerox Co Ltd 情報処理システム、情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US7664803B2 (en) 1998-09-30 2010-02-16 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07146877A (ja) * 1993-11-25 1995-06-06 Canon Inc 情報処理装置
US7664803B2 (en) 1998-09-30 2010-02-16 Canon Kabushiki Kaisha Information search apparatus and method, and computer readable memory
JP2006134019A (ja) * 2004-11-05 2006-05-25 Fuji Xerox Co Ltd 情報処理システム、情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP4622462B2 (ja) * 2004-11-05 2011-02-02 富士ゼロックス株式会社 情報処理システム、情報処理装置、および情報処理方法、並びにコンピュータ・プログラム

Similar Documents

Publication Publication Date Title
US5835912A (en) Method of efficiency and flexibility storing, retrieving, and modifying data in any language representation
JP3143079B2 (ja) 辞書索引作成装置と文書検索装置
US20080288442A1 (en) Ontology Based Text Indexing
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP2000020537A (ja) テキスト検索装置及びテキスト検索プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3565239B2 (ja) 情報検索装置
US7280997B2 (en) Numerical information retrieving device for transforming the form in which numerical information is presented
JP2005242416A (ja) 自然言語文の検索方法および検索装置
JPH0410062A (ja) 語彙拡張機能を有する文書検索方法
JPH09198396A (ja) 文書検索装置
KR100659370B1 (ko) 시소러스 매칭에 의한 문서 db 형성 방법 및 정보검색방법
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
CN112818645A (zh) 一种化学信息抽取方法、装置、设备及存储介质
JP3328104B2 (ja) キーワード自動抽出装置および文書検索装置
JP2002183195A (ja) 概念検索方式
Pantelia ‘Noûs, INTO CHAOS’: THE CREATION OF THE THESAURUS OF THE GREEK LANGUAGE
KR20000063488A (ko) 전자화된 문서의 의미적 지식 데이터베이스 자동구축장치와 방법 및 그 기록매체
JPH06124305A (ja) 文書検索方法
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法
JP4034503B2 (ja) 文書検索システムおよび文書検索方法
JP2009181524A (ja) 文書検索システム及び文書検索方法
JPH03229367A (ja) テキストベース検索方式
Madankar et al. A Review on Indexing Techniques and its Application in Multilingual Information Retrieval System.
JPH02253474A (ja) テキストベース検索方法
JPH11203312A (ja) キーワード検索装置、文書検索装置、キーワード検索プログラムを記録した記録媒体及び文書検索プログラムを記録した記録媒体