JP2001202389A - 文書検索装置及び文書検索方法 - Google Patents

文書検索装置及び文書検索方法

Info

Publication number
JP2001202389A
JP2001202389A JP2000376596A JP2000376596A JP2001202389A JP 2001202389 A JP2001202389 A JP 2001202389A JP 2000376596 A JP2000376596 A JP 2000376596A JP 2000376596 A JP2000376596 A JP 2000376596A JP 2001202389 A JP2001202389 A JP 2001202389A
Authority
JP
Japan
Prior art keywords
document
search
analysis
unit
storage unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000376596A
Other languages
English (en)
Other versions
JP3281361B2 (ja
Inventor
Seiji Miike
誠司 三池
Kenji Ono
顕司 小野
Kazuo Sumita
一男 住田
Yoichi Takebayashi
洋一 竹林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2000376596A priority Critical patent/JP3281361B2/ja
Publication of JP2001202389A publication Critical patent/JP2001202389A/ja
Application granted granted Critical
Publication of JP3281361B2 publication Critical patent/JP3281361B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【目的】本発明は、多くの文書の中から所望する文書を
簡単に入手することができる文書検索装置を提供する。 【構成】本発明は、複数の文書を文書格納手段15に格
納しておき、キーワード抽出手段144によりこの格納
された文書を要約し、この要約された文書からキーワー
ドを抽出する。そして、入力部11より文書検索のため
のキーワードを入力させると、検索手段18はこのキー
ワードとキーワード抽出手段の抽出キーワードとを比較
し、前記文書格納手段より該当する文書を検索する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文書を格納
した文書データベースから所望の文書を検索する文書検
索装置及び文書検索方法に関するものである。
【0002】
【従来の技術】近年、ワープロや計算機の普及を始めと
して、電子ニュ−スや電子メールの普及により、これま
で紙の上でしか得られなかった情報について、CD‐R
OMによる出版(辞書、百科辞典など)など、文書の電
子化が進みつつある。今後、このような文書の電子化は
加速的に進んでいくと予測される。
【0003】これにともない、蓄積した文書を有効利用
するため、大量の文書から所望の文書を検索する情報検
索システムが注目されている。
【0004】しかして、従来より実用化されている文書
検索システムとして、キーワードをAND、OR、NO
Tなどの論理演算子あるいはキーワード間に存在する文
字・文・段落の数を指定する近接演算子と組み合わせ
て、そのキーワードを含有する文書を検索するものが知
られている。
【0005】しかし、このような従来の文書検索システ
ムによると、必ずしも利用者が所望する文書を検索でき
るわけではなかった。これは論理演算子を用いた検索式
で、例えば「計算機 AND 設計」と指定すると、
「計算機を使って設計する」という内容の文書も、「計
算機自体を設計する」という内容の文書も同様に検索さ
れてしまう。近接演算子を用いた検索式でも、キーワー
ド間の物理的な距離を判定するのみであり、必ずしも適
切な文書を検索できるわけでなかった。
【0006】
【発明が解決しようとする課題】このように従来の文書
検索システムにあっては、検索結果に利用者が所望する
文書でない文書が多く含まれるため、所望する文書を見
落としてしまうような検索もれを防ぐため、所望する文
書に関連すると思われるキーワードを多く用いて検索式
を作成する。しかしこの検索式に基づいて文書検索をす
ると、非常に多くの検索ノイズ、ゴミが検索結果に含ま
れてしまう。
【0007】このため、検索した結果が所望の文書であ
るか否かを利用者が判定する作業に多大な時間が必要で
あった。逆に、検索ノイズを少なくするために、キーワ
ードの数を少なくして検索式を作成し検索した場合に
は、検索もれを起こしてしまう可能性が高い。
【0008】このため、従来のキーワード検索において
は、検索もれを起こさず検索ノイズを少なくするには、
どのような文書にどのようなキーワードが付与されてい
るかを熟知した人間でなければ難しく、このような知識
のない利用者にとっては極めて扱いにくいものであっ
た。
【0009】本発明は、上記事情に鑑みてなされたもの
で、多くの文書の中から所望する文書を簡単に入手する
ことができる文書検索装置及び文書検索方法を提供する
ことを目的とする。
【0010】
【課題を解決するための手段】上記目的を達成するた
め、本発明は、文書検索のためのキーワードを入力させ
る手段と、複数の文書を格納した文書格納手段と、この
文書格納手段に格納された文書を要約し、この要約され
た文書からキーワードを抽出するキーワード抽出手段
と、このキーワード抽出手段より抽出されたキーワード
と前記入力手段より入力されたキーワードとを比較し前
記文書格納手段より該当する文書を検索する検索手段と
を具備したことを特徴とする。
【0011】
【作用】本発明は、複数の文書を格納した文書格納手段
の文書を要約し、この要約された文書からキーワードを
抽出する。そして、文書検索のためのキーワードを入力
すると、この入力されたキーワードと前記抽出されたキ
ーワードとを比較することにより、前記文書格納手段よ
り該当する文書を検索する。
【0012】この結果、多くの文書の中から利用者が所
望する文書を容易に入手できるようになる。
【0013】
【実施例】以下、本発明の実施例を図面に従い説明す
る。
【0014】(第1実施例)図1は、第1実施例の概略
構成を示している。図において、1は中央処理手段で、
この中央処理手段1には、記憶手段2を接続し、また、
表示コントローラ3を介して表示手段4を接続するとと
もに、入力コントローラ5を介して入力手段6を接続し
ている。
【0015】ここで、中央処理手段1は、入力解析、検
索処理や主題解析などの処理を行うものである。記憶手
段2は、文書などを記憶しておくもので、半導体メモ
リ、固定磁気ディスク、光磁気ディスクなどからなって
いる。表示手段4は、表示コントローラ3の表示制御に
従って検索結果である文書のテキストや、それに含まれ
るグラフィックス、オーディオ、音声などを表示または
出力するようにしている。そして、入力手段6は、検索
命令の入力などを行うキーボードやマウスからなるもの
で、入力コントローラ5により入力制御されるようにな
っている。
【0016】なお、図1において、入力解析、検索処理
や主題解析などの処理を行う中央処理手段1や文書を格
納しておく記憶手段2は、単数の構成ではなく、複数を
有する構成であっても構わない。これらが、パスやネッ
トワークなどを介した形で、本実施例を実施することは
容易である。
【0017】次に、図2は、第1実施例の機能構成を示
している。この場合、自然言語文を入力する入力部1
1、その入力文を形態素解析、構文解析および意味解析
する入力解析部12、入力文から抽出したキーワードか
ら検索式を作成し、検索式と入力文の構文意味解析結果
に従って文書を検索する検索処理部13、検索した個々
の文書の要約文を生成する主題解析部14、文書データ
ベースを格納しておく文書格納部15、検索した文書な
どを格納する個人情報格納部16、入力解析部、検索処
理部や主題解析部などで解析した結果に基づいて表示を
行う検索結果表示部17、そして、入力部11、入力解
析部12、検索処理部13、主題解析部14、検索結果
表示部17などの制御や利用者との対話管理を行う検索
制御部18から構成される。
【0018】ここで、文書格納部15ならびに個人情報
格納部16は、図1における記憶手段2の一部に設定さ
れ、入力部11、入力解析部12、検索処理部13、主
題解析部14、検索結果表示部17および検索制御部1
8は、図1における中央処理手段1に設定される。
【0019】また、図2において、太線はデータ線を表
し、細線は制御線を表している。
【0020】このような構成において、検索制御部18
は、以下述べる処理が順次実行されるように各処理モジ
ュールを起動していく。
【0021】図3に、この処理の流れを示している。ま
ず、入力部11に入力された文字列は入力解析部12に
転送される。入力解析部12では、入力された文字列を
形態素解析、構文解析および意味解析し、その結果を個
人情報格納部16に格納する(ステップ301)。
【0022】次に、検索制御部18は検索処理部13を
起動する。検索処理部13は個人情報格納部16に格納
されたキーワードから論理演算子などを用いて演算式を
作成し(ステップ302)、この演算式に従って文書格
納部15に格納された文書データベースを検索する(ス
テップ303)。
【0023】また、検索処理部13は検索した文書集合
を個人情報格納部16に格納する。さらに検索処理部1
3は、個人情報格納部16に入力文字列の構文意味解析
結果が格納されているか判断し(ステップ304)、格
納されている場合に、個人情報格納部16に格納された
文書集合に基づいて、文書格納部15に格納された各文
書の構文意味解析と当該の入力文字列の構文意味解析結
果とを照合する(ステップ305)。そして、検索処理
部13は照合に成功した文書集合を個人情報格納部16
に格納する。
【0024】次に、検索制御部18は、個人情報格納部
16に格納された文書集合に基づいて、文書格納部15
に格納されている原文書を取り出し、個々の原文書につ
いて主題解析部14を起動する。主題解析部14では、
原文書から要約文を生成し個人情報記憶部16に格納す
る。次に、主題解析部14は、個人情報格納部16に格
納された各文書について、キーワードまたは構文意味解
析結果が各文書の要約文に含まれるか否かの照合を行い
(ステップ306)、その結果を個人情報格納部16に
格納する。そして、これらの一連の処理が終了した段階
で、検索制御部18により、検索結果表示部17を起動
し、各文書の文書名または要約文を所定の優先順序で表
示する(ステップ307)。
【0025】この場合、検索結果表示部17は、個人情
報格納部16に格納されている情報を、入力部1から入
力される利用者の指示に従って表示、変更できるように
している。
【0026】次に、各処理モジュールにおける動作につ
いて説明する。
【0027】図4は、検索制御部18での制御の流れを
示している。この場合、検索制御部18は、入力部11
からの入力待ちから(ステップ401)、入力部11に
文字列が入力されたことを検知して、入力解析部12を
起動する(ステップ402)。次に、入力解析部12の
処理が終了したことを検知して(ステップ403)、検
索処理部13を起動する(ステップ404)。さらに、
検索処理部13の処理待ちの後(ステップ405)、処
理が終了したことを検知して、主題解析部14を起動す
る(ステップ406)。最後に、主題解析部14での処
理待ちの後(ステップ407)、主題解析部14の処理
が終了したことを検知して、検索結果表示部17を起動
し(ステップ408)、検索結果表示部17の処理待ち
となる。
【0028】図5は、入力解析部12の機能構成を示
し、図6に入力解析部12の処理の流れを示している。
【0029】この場合、入力解析部12は、形態素解析
部120、構文解析部121、意味解析部122、不要
表現規則適用部123、自立語抽出部124、検索式作
成部125、解析用辞書126、解析用文法127、不
要表現規則辞書128、関連語辞書129から構成して
いる。
【0030】しかして、まず、入力文に対して形態素解
析部120で形態素解析を行ない(ステップ601)、
解析用辞書126を用いて単語ごとに分割する。次に、
解析用辞書126と解析用文法127を用いて構文解析
部121と意味解析部122で構文解析および意味解析
を行う(ステップ602,603)。ここで、形態素解
析・構文解析の手法については、本願の主旨ではなく、
例えば、文献1(「自然言語処理の基礎技術」、野村浩
郷、電子情報通信学会編)などに開示されている手法を
流用すれば良い。
【0031】さらに、構文意味解析結果に対して、不要
表現規則適用部123により不要表現規則辞書128中
の不要表現規則を適用し、不要表現規則中の表現に一致
するものがあれば、その構造を削除し(ステップ60
4)、得られた構造を個人情報格納部に格納するととも
に(ステップ605)、得られた構造から自立語抽出部
124で自立語を抽出し(ステップ606)、検索式作
成部125により検索式を作成する(ステップ60
8)。ここで、検索式を作成する際には、関連語辞書を
参照し、該当する関連語も検索語とする(ステップ60
8)。そして、全ての検索式を個人情報格納部に格納す
る(ステップ609)。
【0032】図7は、このような入力解析部12の入力
例、ならびにその入力の解析結果を説明するものであ
る。
【0033】この場合、同図(a)に示す入力文に対し
て形態素解析を行うと、この形態素解析結果として同図
(b)に示すように入力文は単語単位に分割される。次
に、構文解析を行うと、この構文解析結果として同図
(c)に示すように構文構造を表す木構造が生成され、
さらに意味解析を行うと、この意味解析結果として同図
(d)に示すように意味構造を表す木構造が生成され
る。ここでの意味解析には、例えば図8に示すような解
析用辞書中の意味解析に用いる規則が適用される。この
規則は、適用前の構文構造として示しているように、
「用いる」という単語が名詞の単語とサ変名詞の単語の
間に出現している場合に、適用後の意味構造として示し
ているように、当該名詞の単語と当該サ変名詞の単語は
道具格(instrument)の関係の意味構造に変
化する規則である。同様な規則が「使用する」「援用す
る」などについても記述されている。なお、図7におけ
るobjectは対象格の関係を表している。
【0034】次いで、不要表現規則辞書中の規則を適用
して、同図(e)に示すように一致する部分構造を削除
する。ここでの不要表現規則適用結果は個人情報格納部
に格納される。そして、不要表現規則適用結果から同図
(F)に示すような自立語を抽出し、この抽出した自立
語から、論理演算子の+を用いて同図(g)に示す検索
式を作成し、個人情報格納部に格納されるようになる。
なお、図9は、不要表現規則辞書中の規則の一例を示し
ているが、この不要表現規則辞書中の規則は、部分意味
構造だけでなく、単語でもよい。
【0035】次に、図10は、検索処理部13の機能構
成を示し、図11に検索処理部13での処理の流れを示
している。
【0036】この場合、検索処理部13は、キーワード
インデックス照合部131、意味構造照合部132、文
書ファィル集合計算部133から構成している。
【0037】しかして、キーワードインデックス照合部
131では、個人情報格納部16から検索式を取り出し
(ステップ1101)、この検索式により後述するキー
ワードインデックス記憶部を検索し、検索式中のキーワ
ードを含む文書を求める(ステップ1102)。そし
て、文書ファイル集合計算部133により検索された文
書について検索式にしたがって集合演算を行い、その結
果を個人情報格納部16に格納する(ステップ110
3)。さらに、意味構造照合部132により個人情報格
納部16に1つ以上の文書が検索され、かつ、入力文字
列から構文意味解析結果が抽出されているか判断し(ス
テップ1104)、ここでYESの場合に、個人情報格
納部16から入力文字列の意味構造を取り出し(ステッ
プ1105)、意味構造で意味構造インデックス記憶部
を検索し(ステップ1106)、得られた結果を個人情
報格納部16に格納するようになる(ステップ110
7)。
【0038】図12は、キーワードインデックス記憶部
の内容の一例を示し、図13、図14は、キーワードイ
ンデックス照合部131での処理の流れを示している。
【0039】この場合、文書データベース中のキーワー
ドは、TREE構造の形式でキーワードインデックス記
憶部に格納している。このキーワードインデックス記憶
部は、文書格納部15に含まれる。また、TREE構造
は、記憶容量ならびに検索の手間を削減するため、各キ
ーワードのうち同じ文字列を共有化して記憶している。
このようにしたキーワードインデックス記憶部では、各
キーワードを構成する文字とその文字の間のリンク情報
を格納している。例えば、「機械」というキーワードに
対応して、文字「機」のリンク情報には「00935」
というリンク情報がある。このリンク情報は、文字
「械」の格納されているアドレスを表している。そして
アドレス「00935」に格納されている文字「械」に
は、キーワード「機械」を含む文書データが、「fil
e4」であること、さらに「機械」を前2文字の部分文
字列として含む別のキーワード、「機械翻訳」について
のリンク情報として、「01201」が格納されてい
る。このリンク情報をたどることにより、「機械翻訳」
をキーワードとする文書データが、「file25」と
「file21」であることがわかる(「file4」
などは文書データが格納されている文書ファイル名を表
している)。
【0040】また、キーワード「実例」と「実験」のよ
うに、前方に同じ文字列を含むキーワードは、文字
「実」のリンク情報に格納されている二つのアドレス
「01003」と「01004」が、それぞれ「験」と
「例」の格納されているアドレスを表している。
【0041】なお、リンク情報における「0」は、アド
レスや文書データのセパレータを表している。また、す
べてのキーワードの一文字目については、一定の連続す
る記憶領域にJISコード順などの順序でソートされて
格納されている。
【0042】しかして、キーワードインデックス照合部
131では、検索語の集合を入力として、キーワードイ
ンデックス記憶部を参照し、各検索語について対応する
文書ファイルを求めるようになる。
【0043】図13、図14において、まず、初期化処
理として変数i、Nをそれぞれ1、検索語の個数に設定
する(ステップ1301)。ここで、変数iは対象とす
る検索語を示すインデックスを表している。
【0044】そして、変数iが変数Nより小さい間、検
索語iの一文字目の文字について「一文字目の文字の格
納領域」を検索し、その文字が格納されているブロック
を求め、そのブロックをブロックAとする(ステップ1
302,1303)。ここで、「一文字目の文字の格納
領域」には、文字がソートされて格納されているので、
文字が格納されているブロックを求めるためには、バイ
ナリサーチによって求めることができる。
【0045】次に、変数kに2を格納する(ステップ1
304)。この変数kは、検索語iのうち着目している
文字位置を表す。変数kに格納されている値が、検索語
iの文字列長より小さい間、各ブロックに格納されてい
る文字と、検索語の各文字の照合を行い対応するブロッ
クを求める(ステップ1305,1306)。
【0046】そして、最終的に、検索語に対応する文書
データが存在する場合、それに対応して、キーワードイ
ンデックス中のブロックが検出できることになる。その
ブロックのリンク情報に格納されている文書ファイル名
を文書ファイル集合iに設定する(ステップ1307,
1308)。このような処理を、すべての検索語に対し
て行うことにより、文書ファイル集合1から文書ファイ
ル集合Nには、それぞれの検索語に対応する文書ファイ
ル集合が設定されるようになる(ステップ1309,1
310)。
【0047】このようにして、すべての文書ファィル集
合についての共通部分を、集合演算により求めて最終的
な文書ファイル集合とする。
【0048】一方、意味構造照合部132は、意味構造
インデックス記憶部を参照し、入力文字列の構文意味解
析結果と一致する意味構造を含む文書を求める処理を行
う。
【0049】次に、図15に意味構造照合部132の処
理の流れを示し、図16に意味構造インデックス記憶部
の内容の一例を示している。
【0050】ここで、意味構造インデックス記憶部に格
納される情報は、予め次のように作成されている。この
場合、文書格納部15に格納されている各文書を対象と
し、各文書に含まれる文について入力解析を行う。そし
て、この処理の結果得られた意味構造と、それを含む文
の番号とファイル名を格納するようにしている。なお、
入力解析の処理において、複数の解析結果が得られた場
合には、それらすべての解析結果を格納するようにして
いる。また、意味構造インデックス記憶部は、文書格納
部15に含まれる。
【0051】しかして、意味構造照合部132では、入
力文字列の意味構造の係り先の単語で意味構造インデッ
クス記憶部の係り先の単語を引く(ステップ150
1)。そして、一致する係り先の単語があったか判断す
る(ステップ1502)。ここで、一致する係り先の単
語があれば関係記号を照合し(ステップ1503)、さ
らに一致する関係記号があったか判断する(ステップ1
504)。ここでも一致する関係記号があれば、係り元
の単語を照合し(ステップ1505)、次いで、一致す
る係り元の単語があったか判断する(ステップ150
6)。そして、一致する係り元の単語があれば意味構造
と、ファイル名および文番号を個人情報格納部16に格
納するようになる。
【0052】次に、図17は、主題解析部14の概略構
成を示している。
【0053】この場合、主題解析部14は、文書構造解
析部141、文脈構造解析部142、キーセンテンス判
定部143、文章再構成部144から構成している。こ
こで、文書構造解析部141は、文書の章や節を表すタ
イトル情報を抽出し、文書の章立ての構造を解析する。
文脈構造解析部142は、文章中で用いられている修辞
的な表現を抽出し、各章あるいは節の文章部分の論理的
な構造を解析する。キーセンテンス判定部143は、解
析した文書構造ならびに文脈構造に基づいてキーセンテ
ンスを判定する。そして、文章再構成部144は、キー
センテンス判定部143での判定結果から要約文を生成
するようにしている。
【0054】この場合、文書構造解析部141における
処理自体は、本願の発明の主旨ではない。例えば文献2
(文書自動レイアウトシステム、岩井、東芝レビュー)
で開示されている方法を用いることができる。この処理
により対象とする文書についての章や節の構成を解析す
ることができる。
【0055】また、文脈構造解析部142における処理
自体も、本願の発明の主旨ではない。例えば文献3(A
Discouse Structure Analy
zerfor Japanese Text.K.Su
mita,Int.Conf.on Fifth Ge
neration Computer‘92)で開示さ
れている方法を用いることができる。
【0056】このような処理により、図18(b)に示
す文章に対して、同図(a)に示す文脈構造を得ること
ができる。ここで図示した文脈構造は、第2文が第1文
に対して「展開」という関係にあり、さらに第3文が第
1文と第2文に対して「予定」という関係にあることを
表している。
【0057】なお、文脈構造は、図19に示すデータ構
造で記憶される。ここでのデータ構造は、そのノードの
持つ関係(文脈構造.Rel)と、左右のノードへのリ
ンク(文脈構造.L、文脈構造.R)を表現している。
ただし、終端ノードの場合、文脈構造.Relには、対
応する文へのポインタを、文脈構造.Lと文脈構造.R
には、それぞれ−1を格納している。
【0058】次に、図20は、キーセンテンス判定部1
43の処理の流れを示している。この場合、キーセンテ
ンス判定部143は、ペナルティ計算を再起的に行うこ
とにより処理を進める(ステップ2001)。そして、
処理が終わった段階でペナルティの小さい終端ノード
が、より重要であることになる。
【0059】図21は、ペナルティ計算による処理の流
れを示している。この場合、文脈構造解析部で解析した
文脈構造、ならびにペナルティの初期値を入力とする。
始めに、文脈構造が終端ノードか否かを判定する(ステ
ップ2101)。
【0060】ここで、文脈構造.Lに格納されている値
が−1である場合は、終端ノードであるので、入力され
たペナルティを文脈構造.Pに設定する(ステップ21
02)。一方、文脈構造.Lに格納されている値が−1
でなければ場合終端ノードではなく、非終端ノードであ
る。この場合、文脈構造.Relに格納されている関係
が右重点型か左重点型か、あるいはそのいずれでもない
かの判定を行う(ステップ2103)。この判定は、あ
らかじめ記憶しておいた関係テーブルに基づいて行う。
ここで、関係テーブルの一例を示すと下記のようにな
る。
【0061】 順接 右重点型 予定 左重点型 例示 左重点型 ここでの関係テーブルは、「順接」という関係が右重点
型であることを表している。
【0062】そして、文脈構造.Relに格納されてい
る関係が右重点型である場合、右ノードの方が重要であ
るから、ペナルティPにペナルティP1を足し合わせた
値を左ノードの側のペナルティ計算に与え、ペナルティ
Pを右ノードの側のペナルティ計算に与える(ステップ
2104,2105)。
【0063】逆に、文脈構造.Relに格納されている
関係が右重点型でなく、左重点型である場合(ステップ
2106)、左ノードが重要であるので、ペナルティP
を左ノードの側のペナルティ計算に与え、ペナルティP
にペナルティP1を足し合わせた値を右ノードの側のペ
ナルティ計算に与える(ステップ2107,210
8)。また、文脈構造.Relに格納されている関係が
右重点型でも左重点型でもない場合、左右のノードそれ
ぞれについてのペナルティ計算には、ペナルティPがそ
のまま引き渡される(ステップ2109,2110)。
【0064】このようにしてペナルティ計算を再起的に
行うことにより、重要度の高い文のペナルティには小さ
い値が、逆に、重要度の低い文のペナルティには大きい
値が設定されることになる。
【0065】そして、このキーセンテンス判定部143
の処理に用いられている関係テーブルに格納される情報
を変えることにより、重要度のペナルティの設定の具合
を変えることが可能である。したがって、この関連テー
ブルにおいていずれかの関係が右重点型か左重点型かを
利用者が定義することにより利用者の所望する視点での
要約文を生成することができる。
【0066】次に、図22は、文書再構成部144の処
理の流れを示している。
【0067】この場合、文書再構成部144は、キーセ
ンテンス判定部143で求めたすべての文のペナルティ
を参照し、あらかじめ定めたペナルティP2以下の文を
取り出し(ステップ2201)、接続表現の変更を行い
(2202)、要約文を生成する。
【0068】例えば、次のような文章を仮定する(ここ
で1、2、3は文を表現している)。
【0069】1 よい建築物を作るためにはよい材料が
必要である。
【0070】2 しかし、よい道具も必要である。
【0071】3 つまり、材料だけではダメである。
【0072】そして、この文章に対応する文脈構造が次
のような構造であること。
【0073】(1 <逆接> (2 <重複> 3)) さらに、キーセンテンス判定部により文1と文3がキー
センテンスとして選択されたものと仮定する。
【0074】しかして、文1と文3を単純につなげた場
合、原文と論理的に異なる次のような文章が生成され
る。
【0075】よい建築物を作るためにはよい材料が必要
である。
【0076】つまり、材料だけではダメである。
【0077】そこで、接続表現の変更では、キーセンテ
ンスと判定された文間の最も上位の関係に対応する接続
表現に付け代える。
【0078】上記の例では、文1と文3の間の最も上位
の関係は、<逆接>であるので、この関係に対応する接
続表現「しかし」に置き換えることにより、次のような
文章を生成する。
【0079】よい建築物を作るためにはよい材料が必要
である。
【0080】しかし、材料だけではダメである。
【0081】このようにして文書再構成部144では、
原文と論理的に整合性のある要約文が生成される。ま
た、文書再構成部144におけるペナルティP2の値を
変化させることにより、要約文として生成する文の量を
制御することができる。したがって、利用者がこのペナ
ルティP2を設定し直すことにより、表示される要約文
の量を制御することが可能である。
【0082】次に、図23は要約文と原文との対応を記
憶した要約文章記憶部を示している。この場合、記憶デ
ータは、原文へのポインタ、要約文へのポインタ、要約
文文番号からなっている。そして、連続する記憶領域
に、原文へのポインタと要約文へのポインタを格納する
ことにより、それらの対応情報を記憶している。要約文
文番号には、要約文を構成している文の文番号が格納さ
れている。これらの情報は、図2に示した個人情報格納
部16に含まれている。
【0083】図2に示す検索制御部18では、検索処理
部13により実行されて個人情報格納部16に格納され
た検索式と入力文の構文意味解析とによる検索結果と、
主題解析部14により実行されて個人情報格納部16に
格納された要約文書の情報を用いて、検索結果の文書の
表示優先順序を決定する。
【0084】この場合、図24に示す表示優先規則辞書
に格納された優先順位の条件に従って表示優先順位を決
定する。そして、この決定された表示優先順位に従って
検索結果の文書のタイトルを優先順位とともに検索結果
表示部17に表示させる。
【0085】図25は、個人情報格納部16の一例を示
し、その内容に対して表示優先順位規則に従って設定さ
れた表示優先順位を図26に示している。
【0086】なお、検索処理部13は、文書ごとに該文
書が検索された回数を文書格納部15に蓄積しておき、
ある検索処理の結果、表示優先順位が同じである文書が
存在した場合には、文書集合の中で文書格納部15に蓄
積された検索回数の多いものから表示する。図37は図
26の検索結果に対応する文書データを図示している。
図38は、図26の検索結果に従って画面表示した一例
である。
【0087】(第2実施例)上述の第1実施例では、入
力解析部の入力文字列の形態素解析、構文解析および意
味解析において、解析結果に曖昧性がない場合について
説明したが、第2実施例では、入力文字列の形態素解
析、構文解析または意味解析の結果に曖昧性がある場合
について説明する。
【0088】この場合、図2で述べた検索制御部18
は、以前の検索において利用者が選択した入力文字列の
解析結果を格納しておく解析結果学習辞書を有してい
る。図27に解析結果学習辞書の一例を示している。ま
た、検索処理部13における意味構造インデックス記憶
部は、文書中の文を構文意味解析した際に複数の解析結
果がえられた場合に、それらすべての解析結果を対応付
けて格納するようにしている。その他は、上述した第1
実施例の考えと同様である。
【0089】図28は、第2実施例における処理の流れ
を示している。
【0090】いま、図29に示すような入力解析部解析
結果が得られたものとし、かかる入力解析において構文
意味解析の結果に曖昧性があったような場合(ステップ
2801)、図2に示す入力解析部12では、それら複
数の解析結果を個人情報格納部16に格納し、検索制御
部18にシグナルを送る。
【0091】検索制御部18は、入力解析部12からの
シグナルを受けとると、個人情報格納部16に格納され
た複数の解析結果とそれに対応する入力文字列の部分を
取り出し、次いで、当該入力文字列の部分で解析結果学
習辞書を検索し、さらに各々の構文意味解析結果で意味
構造インデックス記憶部を検索する(ステップ280
2,2803)。そして、それらの検索結果とメッセー
ジを複数の解析結果とともに検索結果表示部17に表示
する(ステップ2804)。すなわち、解析結果学習辞
書に入力文字列の部分と一致する文字列が存在した場合
には、それに対応する解析結果に当該解析結果が過去に
選択された旨のメッセージを付与し、意味構造インデッ
クス記憶部に一致する意味構造が存在した場合には、文
書格納部の中に当該意味構造を含む文書が存在する旨の
メッセージを付与して検索結果表示部17から表示す
る。
【0092】そして、利用者により、表示された複数の
解析結果の中から適切な解析結果が選択されるのを待つ
(ステップ2805)。ここで、適切な解析結果がない
場合には、解析結果の中の一つを修正して選択すること
ができる。
【0093】そして、曖昧性のある解析結果の中の一つ
が選択された場合(ステップ2806)、「選択されな
かった解析結果は意味構造インデックス記憶部から削除
するか否か」のメッセージを表示し(ステップ280
7)、「削除する」を選択すると(ステップ280
8)、選択されなかった解析結果を意味構造インデック
ス記憶部から削除し(ステップ2809)、選択された
解析結果を解析結果学習辞書と個人情報格納部16に格
納する(ステップ2810)。
【0094】図30は、第2実施例における意味構造イ
ンデックス記憶部を説明するもので、同図(a)では、
利用者が選択する前で曖昧性のある解析結果が複数存在
する場合を示し、同図(b)では、利用者が「計算機…
object…設計」の意味構造を画面上で選択した後
の状態を示している。
【0095】図31は検索制御部18での処理の流れを
示すものである。この場合、検索制御部18は、個人情
報格納部16に格納された解析結果を取り出し、解析結
果学習辞書に格納し入力解析部12にシグナルを送る。
入力解析部12は、個人情報格納部16に格納された入
力文字列の構文意味解析結果から検索式を取り出す(ス
テップ3101)。この場合、構文意味解析結果として
は、上述の意味構造インデックス記憶部を検索した結果
が用いられる。そして、この検索語にしたがってキーワ
ードインデックス記憶部を検索し(ステップ310
2)、検索された文書について検索式にしたがって集合
計算を行い、その結果を個人情報格納部16に格納する
(ステップ3103)。
【0096】(第3実施例)上述した第1実施例では、
自然言語文を入力文字列としていたが、この第3実施例
では、論理式との組合せで入力することができる。
【0097】この場合、図2に示す入力解析部12にお
いて、入力文字列に論理式演算子が用いられていた場
合、論理式解釈処理を行うようになる。
【0098】図32は、論理式演算子の+を用いて入力
した場合であり、論理式解釈処理の結果として4つに展
開され、各々の検索結果の文書集合の和集合が最終的な
検索結果とされる。
【0099】また、図33は、「何か」という単語は記
号「?」に変換される場合で、当該記号は任意の単語に
一致すると解釈されて検索処理が行われる。なお、同図
においてgoalは目的の関係を表す記号である。
【0100】(第4実施例)上述した第1実施例では、
タイトル、作者、作成日付などの書誌事項が明示されて
いない文書を全文検索したが、この第4実施例では、検
索の対象となる文書がタイトル、作者、作成日付などの
書誌事項が明示されている文書である場合に、入力文字
列に応じて当該の書誌事項を利用して検索するようにし
ている。
【0101】図34は、第4実施例での入力解析部解析
結果を示すもので、図35に示す書誌事項解析規則を適
用して、検索処理部13は書誌事項中の発行年が「19
80年」以降であり、書誌事項中の著者に「田中誠」を
含む文書を検索するようになる。そして、図34により
得られた入力解析部解析の結果に従って、「機械翻訳」
という検索語でキーワードインデックス記憶部を検索す
る。ここでは図36に示した不要表現規則により論文は
検索語とされていない。なお、検索処理については、第
1実施例と同じ方法をとればよいので、説明を省略す
る。
【0102】(第5実施例)上述した第1実施例では、
主題解析部14において、文書の本文の要訳を作成して
検索結果の文書に重み付けを行ったが、この第5実施例
では、本文の要訳文とともに、タイトル、目次、索引、
参考文献などの文書の構造を解析した結果を用いて、表
示優先得点を設定し文書の重み付けを行なうようにして
いる。
【0103】図39は、表示優先得点の一例を示すもの
で、かかる表示優先得点に従って、検索語または意味構
造が該当する条件の中で最も高い得点を文書に与え、こ
れを合計して文書の得点とすることにより、得点の多い
文書から優先的に表示するようにしている。
【0104】(第6実施例)上述した第1実施例では、
検索結果表示部17から検索された文書のタイトルと表
示優先順位が表示されるのみであったが、この第6実施
例では、図2に示す文書格納部15に格納された文書と
検索された文書について利用者の操作により各種の情報
を表示するようにしている。
【0105】この場合、検索処理部13は、入力部11
からの利用者の指示に従って、検索式中の2単語が意味
構造インデックス記憶部の係り先の単語と係り元の単語
に一致する場合に、当該単語と関係記号の組を検索結果
表示部17に一覧表示する。例えば、図40に示すよう
な意味構造インデックス記憶部の場合、「計算機」と
「設計」の関係が異なる文書が存在することが示される
と、検索処理部13では、入力部11からの利用者の指
示に従って、検索式中の1単語が意味構造インデックス
記憶部の係り先または係り元の単語に一致すると、当該
単語、関係記号、他方の単語の組を検索結果表示部17
に一覧表示する。また、図41に示すような意味構造イ
ンデックス記憶部の場合、「実例」が他の単語とどのよ
うな関係にあるかが示されると、利用者はこれらの表示
により文書格納部に格納された文書にどのような意味構
造が含まれているかを知ることができる。
【0106】しかして、検索処理部13は、検索式に従
ってキーワード検索を行なった後、入力部11からの利
用者の指示により、当該キーワード検索の結果得られた
文書について、そのファイル名で意味構造インデックス
記憶部を検索し、文書ごとに文書名と当該文書に含まれ
ているすべての意味構造、すなわち係り先の単語、関係
記号および係り元の単語を検索結果表示部17に表示す
る。このとき、検索式中の検索語は強調表示したり、意
味構造ごとにまとめて当該意味構造と当該意味構造を含
む文書を一覧表示することにより、利用者は、これらキ
ーワード検索の結果得られた文書にどのような意味構造
が含まれているかを知ることができるようになる。
【0107】同様に、検索処理部13は、入力文字列の
構文意味解析結果に基づく検索を行なった後に、入力部
11からの利用者の指示に従って、当該検索の結果得ら
れた文書について、そのファイル名で意味構造インデッ
クス記憶部を検索し、文書ごとに文書名と当該文書に含
まれているすべての意味構造、すなわち係り先の単語、
関係記号および係り元の単語を検索結果表示部17に表
示する。このとき、検索式中の検索語は強調表示した
り、意味構造ごとに当該意味構造と当該意味構造を含む
文書を一覧表示することにより、利用者はこれにより検
索文書の内容を予想することもできる。
【0108】検索制御部18は、主題解析部14の処理
を行なった後に、検索文書の要約文章や、要約文と意味
構造の対応などを検索結果表示部17に表示することが
でき、これにより利用者は、検索文書の内容等を知るこ
ともできる。
【0109】(第7実施例)上述した第1実施例では、
入力文字列が一文であり、2単語の関係を解析し検索可
能にしている。
【0110】この第7実施例では、一文に限らず二文以
上でもよく、特定の文書を検索することを目的に作成さ
れた文や文章ではない任意の文字列でもよい。さらに、
3単語以上の単語間の関係も解析し検索する。図42
は、第7実施例における意味構造インデックス記憶部の
一例を示している。
【0111】(第8実施例)上述した第1実施例では、
入力文字列の形態素解析、構文解析および意味解析を行
なった後にキーワード検索と意味構造に基づく検索を行
っているが、この第8実施例では、形態素解析を行なっ
てキーワード検索を行ない、次に入力文の構文解析と意
味解析を行なって意味構造に基づく検索を行なうように
している。
【0112】この場合、図2に示す入力解析部12は検
索語抽出規則辞書をもち、この検索語抽出規則辞書に格
納された規則に適合する自立語を抽出する。利用者は当
該辞書の規則を修正、削除、追加することができる。こ
こで、図43は、検索語抽出規則辞書の一例を示してい
る。
【0113】また、図44は、第8実施例の入力解析お
よび検索処理の流れを示している。この場合、図2に示
す入力解析部12において、文または文章などの入力文
字列の形態素解析を行ない、その結果を個人情報格納部
16に格納する(ステップ4401)。次に、形態素解
析結果から検索語抽出規則辞書と不要語辞書を用いて自
立語を検索語として抽出する。この場合、図43に示し
た検索語抽出規則辞書中の規則から、品詞が名詞または
動詞である単語を抽出し、次いで当該単語で不要語辞書
を検索して不要語辞書に存在しない自立語を検索語とす
る(ステップ4402,4403)。
【0114】次に、検索語と、論理演算子または近接演
算子等を用いて検索式を作成し(ステップ4404)、
個人情報格納部に格納する。また、自立語で関連語辞書
を引くことにより自立語を関連語で置き換えた検索式も
作成する(ステップ4405)。
【0115】そして、これらの検索式に従って、キーワ
ードインデックス記憶部を検索し(ステップ440
6)、検索された文書について検索式にしたがって集合
演算を行い、その結果を個人情報格納部16に格納する
(ステップ4407)。
【0116】さらに、個人情報格納部16に1つ以上の
文書が格納されており、2つ以上の検索語を含む文があ
るか判断する(ステップ4408)。
【0117】そして、当該文書が存在する場合のみに、
入力解析部12が個人情報格納部16から形態素解析結
果を取り出し、構文解析と意味解析を行なう(ステップ
4409,4410)。さらに、不要表現規則中の構造
に一致する構造があれば、その構造を削除し(ステップ
4411)、次に、意味構造を得られたか判断し(ステ
ップ4412)、意味構造を得られた場合に、当該意味
構造で意味構造インデックス記憶部を検索し、その結果
を個人情報格納部に格納する(ステップ4413,44
14)。
【0118】(第9実施例)上述した第1実施例、第8
実施例では、文書格納部15に格納されている文書はあ
らかじめ形態素解析、構文解析および意味解析されて意
味構造インデックス記憶部が作成されていたが、この第
9実施例では、当該文書をあらかじめ形態素解析、構文
解析および意味解析していない場合を示している。
【0119】この場合、図2に示す検索処理部13で
は、入力解析部12で作成され個人情報格納部16に格
納された検索式に従ってキーワード検索を行なう。そし
て、当該キーワード検索の結果1つ以上の文書が得られ
た場合に、当該キーワード検索で得られた文書のファイ
ル名と検索語を含む文の文番号の集合から、2つ以上の
検索語を含む文が1つ以上存在している文書が存在する
か否かを検査する。そして、当該文書が存在する場合
に、その文書に含まれる文を形態素解析、構文解析およ
び意味解析し、その結果を個人情報格納部16に格納す
る。
【0120】また、入力解析部12は、個人情報格納部
16に格納されている入力文字列の形態素解析結果を取
り出し、さらに構文解析と意味解析を行なう。構文意味
解析結果を得られた場合に、当該構文意味解析結果と、
個人情報格納部16に格納された文書の構文意味解析結
果とを照合し、その結果を個人情報格納部16に格納す
る。
【0121】このとき、「計算機を用いた設計自動化体
制」の名詞句の照合などのように構造が完全に一致しな
い場合でも検索結果に含める。ただし、検索結果にこの
情報も付随させて個人情報格納部16に格納する。この
情報は表示優先順位の設定で用いられ、同じ表示優先順
位の文書の中でこの情報をもたない文書が、この情報を
もつ文書より表示優先順位が高くされる。
【0122】図45の(a)は、入力文字列の解析によ
って得られた意味構造を表し、同図(b)は、文書の中
に「計算機を用いた設計自動化体制」のような表現があ
り、当該表現を解析して得られた意味構造である。
【0123】ここで、(b)の意味構造は、(a)の意
味構造そのものを含まないが、(b)の意味構造の中
に、「計算機」と関係instrument、および
「設計」を含んでいるので、(b)の文書は検索結果の
中に含められる。
【0124】(第10実施例)上述した第1実施例、第
8実施例、第9実施例では、キーワード検索、構文意味
解析結果による検索および主題解析を連続して行なった
が、この第10実施例では、利用者がキーワード検索、
構文意味解析結果による検索および主題解析の順序を指
定できるとともに、当該検索または主題解析の後にその
後の処理を行なうかどうかを指定することができるよう
にしている。
【0125】この場合、利用者は、複数の文書格納部か
ら任意の文書格納部を選択することが可能であり、選択
した文書格納部や特定の検索の対象の文書などに応じて
検索や主題解析の選択を行なうことができるようにな
る。
【0126】(第11実施例)上述した第1実施例で
は、主題解析部14において、要約文の生成についての
情報がなかったが、この第11実施例では、要約文の生
成の手がかりに用いた修辞表現の数や比率などを表示し
て要約文の信頼度を明示するようにしている。
【0127】この場合、「例えば」、「背景には」など
のような修辞表現の数や、当該修辞表現の文書全体の文
節数に対する比率、あるいは当該修辞表現の文書全体に
対する文字数比を文書あるいは要約文に付随させて表示
する。図46は、このような場合の表示画面の一例を示
している。
【0128】(第12実施例)上述した第1実施例で
は、検索語などの情報を記憶しなかったが、この第12
実施例では、検索語などの情報を記憶するようにしてい
る。
【0129】この場合、検索制御部は、主題解析部によ
り作成された要約文に含まれていた検索語または意味構
造を、当該要約文の元の文書に付随させて文書格納部に
格納する。検索処理部は、文書に付随した検索語または
意味構造が存在する場合、これを利用してキーワード検
索または意味構造に基づく検索のみを行なう。なお、検
索語または意味構造を文書に付随させるのではなく、当
該検索語および意味構造のための、主題解析キーワード
インデックス記憶部および主題解析意味構造インデック
ス記憶部を作成しこれを検索することもできる。
【0130】(第13実施例)上述した第1実施例で
は、検索の後に主題解析を行なったが、この第13実施
例では、あらかじめ文書格納部の文書について主題解析
を行ない、その結果に従って、要約文に含まれていた単
語および意味構造のみをキーワードインデックス記憶部
および意味構造インデックス記憶部に登録するようにし
ている。この場合、検索処理部はキーワード検索および
入力文の構文意味解析結果に基づく検索のみを行なう。
【0131】(第14実施例)上述した第1実施例で
は、意味構造に単語を用いていたが、この第14実施例
では、単語ではなく単語の表す意味に設定した記号また
は番号を用いるようにしている。
【0132】この場合、図2に示す入力解析部12で
は、単語の意味の記述とその記号または番号を格納した
解析用単語辞書を保持する。そして、入力文字列中の単
語が多義語である場合は、検索結果表示部17に単語の
意味を表示することで、利用者に該当する意味を選択さ
せることができる。また、入力解析部12は、選択され
た意味に対応する記号または番号を単語とともに解析結
果記憶部と個人情報記憶部16に格納する。検索処理部
13および主題解析部17においても、単語ではなく単
語の表す意味に設定した記号または番号を用いて処理を
行うようになる。
【0133】なお、本発明は上述した各実施例にのみ限
定されず、要旨を変更しない範囲で適宜変形して実施で
きる。例えば、第1実施例では、主題解析部で要約文生
成を検索時に随時行うようにしたが、記憶容量に余裕が
あるシステムを構築する場合は、要約文を文書格納部に
格納しておくように変形することができる。さらに、生
成した要約文をテキストとしては記憶しておかず、解析
した文書構造ならびに文脈構造だけを記憶しておき、そ
の文書構造ならびに文脈構造からキーセンテンス判定
部、文章再構成部により、随時、要約文を求めるように
変形することも可能である。
【0134】
【発明の効果】本発明によれば、より多くの文書の中か
ら利用者が所望する文書を優先的に表示して、利用者が
容易に所望する文書を手に入れることができる。
【図面の簡単な説明】
【図1】本発明の第1実施例の概略構成を示す図。
【図2】第1実施例の機能構成を示す図。
【図3】第1実施例の処理の流れを示す図。
【図4】第1実施例の検索制御部での処理の流れを示す
図。
【図5】第1実施例の入力解析部の機能構成を示す図。
【図6】第1実施例の入力解析部での処理の流れを示す
図。
【図7】第1実施例の入力解析部での解析結果の例を示
す図。
【図8】第1実施例の解析用辞書中の規則の例を示す
図。
【図9】第1実施例の不要表現規則辞書中の規則の例を
示す図。
【図10】第1実施例の検索処理部の機能構成を示す
図。
【図11】第1実施例の検索処理部での処理の流れを示
す図。
【図12】第1実施例のキーワードインデックス記憶部
の内容の一例を示す図。
【図13】第1実施例のキーワード照合の処理の流れを
示す図。
【図14】第1実施例のキーワード照合の処理の流れを
示す図。
【図15】第1実施例の意味構造インデックス記憶部で
の処理の流れを示す図。
【図16】第1実施例の意味構造インデックス記憶部の
内容の一例を示す図。
【図17】第1実施例の主題解析部の機能構成を示す
図。
【図18】第1実施例の文脈構造の一例を説明するため
の図。
【図19】第1実施例の文脈構造のデータ構造を示す
図。
【図20】第1実施例のキーセンテンス判定部の処理の
流れを示す図。
【図21】第1実施例のキ−センテンス判定部の処理の
流れを示す図。
【図22】第1実施例の文章再構成部での処理の流れを
示す図。
【図23】第1実施例の要約文章記憶部を示す図。
【図24】第1実施例の表示優先順位規則辞書の内容の
一例を示す図。
【図25】第1実施例の個人情報記憶部の一例を示す
図。
【図26】第1実施例の表示優先順位の一例を示す図。
【図27】本発明の第2実施例の解析結果学習辞書の一
例を示す図。
【図28】第2実施例の処理の流れを示す図。
【図29】第2実施例の入力解析部解析結果を示す図。
【図30】第2実施例の意味構造インデックス記憶部を
示す図。
【図31】第2実施例の検索制御部での処理の流れを示
す図。
【図32】本発明の第3実施例における入力解析部解析
結果を示す図。
【図33】第3実施例における入力文を示す図。
【図34】本発明の第4実施例における入力解析部解析
結果を示す図。
【図35】第4実施例の書誌事項解析規則を示す図。
【図36】第4実施例の不要表現規則を示す図。
【図37】第1実施例のファイル名と文書の対応表を示
す図。
【図38】第1実施例の画面表示の一例を示す図。
【図39】本発明の第5実施例での表示優先得点の一例
を示す図。
【図40】本発明の第6実施例の意味構造インデックス
記憶部の第一例を示す図。
【図41】第6実施例の意味構造インデックス記憶部の
第二例を示す図。
【図42】本発明の第7実施例の意味構造インデックス
記憶部を示す図。
【図43】本発明の第8実施例の検索語抽出規則辞書を
示す図。
【図44】第8実施例の入力解析および検索処理の流れ
を示す図。
【図45】本発明の第9実施例の意味構造の例を示す
図。
【図46】本発明の第11実施例の画面表示の一例を示
す図。
【符号の説明】
1…中央処理手段、2…記憶手段、3…表示コントロー
ラ、4…表示手段、5…入力コントローラ、6…入力手
段、11…入力部、12…入力解析部、13…検索処理
部、14…主題解析部、15…文書格納部、16…個人
情報格納部、17…検索結果表示部、18…検索制御
部、120…形態素解析部、121…構文解析部、12
2…意味解析部、123…不要表現規則適用部、124
…自立語抽出部、125…検索式作成部、126…解析
用辞書、127…解析用文法、128…不要表現規則辞
書、129…関連語辞書、131…キーワードインデッ
クス照合部、132…意味構造照合部、133…文書フ
ァイル集合計算部、141…文書構造解析部、142…
文脈構造解析部、143…キーセンテンス判定部、14
4…文章再構成部。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 住田 一男 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内 (72)発明者 竹林 洋一 神奈川県川崎市幸区小向東芝町1番地 株 式会社東芝研究開発センター内

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】文書検索のためのキーワードを入力させる
    手段と、 複数の文書を格納した文書格納手段と、 この文書格納手段に格納された文書を要約し、この要約
    された文書からキーワードを抽出するキーワード抽出手
    段と、 このキーワード抽出手段より抽出されたキーワードと前
    記入力手段より入力されたキーワードとを比較し前記文
    書格納手段より該当する文書を検索する検索手段とを具
    備したことを特徴とする文書検索装置。
  2. 【請求項2】文書検索のためのキーワードを入力させ、 複数の文書を格納した文書格納手段の文書を要約しこの
    要約された文書からキーワードを抽出し、 抽出されたキーワードと入力されたキーワードとを比較
    し、前記文書格納手段より該当する文書を検索すること
    を特徴とする文書検索方法。
JP2000376596A 2000-12-11 2000-12-11 文書検索装置及び文書検索方法 Expired - Lifetime JP3281361B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000376596A JP3281361B2 (ja) 2000-12-11 2000-12-11 文書検索装置及び文書検索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000376596A JP3281361B2 (ja) 2000-12-11 2000-12-11 文書検索装置及び文書検索方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP01256193A Division JP3202381B2 (ja) 1993-01-28 1993-01-28 文書検索装置及び文書検索方法

Publications (2)

Publication Number Publication Date
JP2001202389A true JP2001202389A (ja) 2001-07-27
JP3281361B2 JP3281361B2 (ja) 2002-05-13

Family

ID=18845437

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000376596A Expired - Lifetime JP3281361B2 (ja) 2000-12-11 2000-12-11 文書検索装置及び文書検索方法

Country Status (1)

Country Link
JP (1) JP3281361B2 (ja)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
JPH03105566A (ja) * 1989-09-20 1991-05-02 Hitachi Ltd 抄録作成方式
JPH03191475A (ja) * 1989-12-20 1991-08-21 Nec Corp 文書要約方式
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH04156663A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 文章圧縮装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02181261A (ja) * 1989-01-05 1990-07-16 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH02257266A (ja) * 1989-02-06 1990-10-18 Teremateiiku Kokusai Kenkyusho:Kk 抄録文作成装置
JPH02254566A (ja) * 1989-03-29 1990-10-15 Nippon Telegr & Teleph Corp <Ntt> 自動抄録生成装置
JPH03105566A (ja) * 1989-09-20 1991-05-02 Hitachi Ltd 抄録作成方式
JPH03191475A (ja) * 1989-12-20 1991-08-21 Nec Corp 文書要約方式
JPH03278270A (ja) * 1990-03-28 1991-12-09 Ricoh Co Ltd 抄録文作成装置
JPH04156663A (ja) * 1990-10-20 1992-05-29 Fujitsu Ltd 文章圧縮装置

Also Published As

Publication number Publication date
JP3281361B2 (ja) 2002-05-13

Similar Documents

Publication Publication Date Title
US20190079983A1 (en) Techniques for creating computer generated notes
JP2783558B2 (ja) 要約生成方法および要約生成装置
US20020194156A1 (en) Information retrieval apparatus and information retrieval method
JPH02301869A (ja) 自然言語処理システム保守支援方式
Krizhanovsky et al. An approach to automated construction of a general-purpose lexical ontology based on Wiktionary
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
JP2885487B2 (ja) 文書内情報検索装置
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JP3202381B2 (ja) 文書検索装置及び文書検索方法
De Roeck et al. YPA—an intelligent directory enquiry assistant
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
WO2009136426A1 (ja) 検索クエリ提供装置
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JP3281361B2 (ja) 文書検索装置及び文書検索方法
Toirova Establishment of a national corpus the uzbek language is a requirement of a new era
Guerram et al. A domain independent approach for ontology semantic enrichment
Labidi New combined method to improve Arabic POS tagging
Souter et al. Using Parsed Corpora: A review of current practice
JPH0561902A (ja) 機械翻訳システム
Colton Text classification using Python
JP2009205629A (ja) 重要語句抽出装置
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
Тоирова Establishment of a national corpus the uzbek language is a requirement of a new era
JP3538636B2 (ja) 階層構造データ検索システム,階層構造データ検索処理方法およびそのプログラム記録媒体
Kadam Develop a Marathi Lemmatizer for Common Nouns and Simple Tenses of Verbs

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080222

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090222

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100222

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100222

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110222

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120222

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130222

Year of fee payment: 11

EXPY Cancellation because of completion of term