JP2957875B2 - 文書情報検索装置及び文書検索結果表示方法 - Google Patents

文書情報検索装置及び文書検索結果表示方法

Info

Publication number
JP2957875B2
JP2957875B2 JP5351276A JP35127693A JP2957875B2 JP 2957875 B2 JP2957875 B2 JP 2957875B2 JP 5351276 A JP5351276 A JP 5351276A JP 35127693 A JP35127693 A JP 35127693A JP 2957875 B2 JP2957875 B2 JP 2957875B2
Authority
JP
Japan
Prior art keywords
document
search
sentence
unit
processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP5351276A
Other languages
English (en)
Other versions
JPH07182373A (ja
Inventor
一男 住田
誠司 三池
顕司 小野
洋一 竹林
公人 武田
悦雄 伊藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JPH07182373A publication Critical patent/JPH07182373A/ja
Application granted granted Critical
Publication of JP2957875B2 publication Critical patent/JP2957875B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】複数の文書情報を格納した文書デ
ータベースから、所望の文書を検索表示する文書情報検
索装置及び文書検索結果表示方法に関わる。
【0002】
【従来の技術】近年、ワープロや計算機の普及、電子ニ
ュースや電子メールの普及、従来紙の上でしか得られな
かった情報のCDROMによる出版(辞書、百科事典な
ど)など、文書の電子化が進みつつある。今後、このよ
うな文書の電子化は加速的に進んでいくと予測される。
【0003】これにともない、蓄積した文書を有効に利
用するため、大量の文書から所望の文書を検索する情報
検索システムの需要が増加しつつある。
【0004】従来より実現されている文書情報検索シス
テムにおいては、キーワードをAND、OR、NOTな
どの論理演算子で組み合わせて、そのキーワードを含む
文書を検索するシステムが存在する。しかし、このよう
な従来の文書情報検索システムでは、検索結果の表示と
しては、検索結果の件数を表示するだけであるか、ある
いは検索結果のタイトルを表示するだけのものであっ
た。検索した結果が所望のものであるかどうかを利用者
が検証するためには、検索した個々の文書の全文を利用
者が読んで判断しなければならなかった。
【0005】このように従来型の文書情報検索システム
にあっては、検索した結果が所望の文書であるか否かを
利用者が判定するために、個々の文書の全文を詳細に読
むという作業を行わなければならないため、所望の文書
を得るまでに多大な時間を要していた。
【0006】そこで、検索した結果の一部だけを表示す
ることで、全文を読まなければならないという手間を軽
減する方法が考えられている。しかし、その表示した一
部が文書において他の部分とどのような関係にあるか明
らかでなければ、その文書が所望の文書であるかどうか
を判断できない。例えば、ある文書について背景情報を
述べている部分が表示され、また他の文書について結論
を述べている部分が表示された場合、統一した視点で見
渡すことができないため、いずれの文書が必要であるか
を判定することが困難である。したがって、表示した部
分が全文に対してどのような位置付けにあるかを理解す
るためには、全文を読まなければならず、結果的には手
間の軽減にはならない。
【0007】また、格納されている個々の文書の要約文
を人手で作成し、これを元に文書に対応づけて格納して
おくことができる。検索結果の表示において、この要約
文を表示することで、利用者の検証の手間を軽減するこ
とを可能にしている。しかるに、要約文を人手で作成す
るには多大な時間を要し、利用規模の大きいデータベー
スでなければ、到底利用できないものである。また、こ
れまで個々の文書についての要約が準備されていないよ
うなデータベースも存在しており、それらについて人手
で要約を作成することは多大な費用と労力を要する。
【0008】さらに、人手で作成した要約文は、一般向
けに作成されるため、利用者の目的にあった視点で要約
されているとは限らない。このため、利用者にとって
は、ピント外れの文書となっている場合があり、所望の
文書であるかどうかを判定するのに手間がかかるという
問題点があった。
【0009】さらに、最近では、検索した文書に対して
計算機で要約文を自動的に作成する試みがある。しかし
ながら、人手で作成した要約文と同様に検索の視点を全
てカバーする要約文を作成することは極めて困難であ
る。
【0010】
【発明が解決しようとする課題】本発明は、上述のよう
な事情を考慮してなされたもので、人間の視覚情報処理
の能力が限られていることを考慮し、利用者が効率的に
把握できる視点で整理した要約文を一欄表示する。これ
により、利用者が所望の文書であるか否かをすばやく理
解することを可能ならしめる文書情報検索装置及び文書
検索結果表示方法を提供する。
【0011】
【課題を解決するための手段】本発明では、利用者が所
望する文書を、キーワードや自然言語文で検索指示し、
その検索命令に従って対応する文書を検索し、該当する
検索した文書の識別名を一覧表示し、その一覧表示で選
択された文書についての要約文を自動生成し、原文書と
一緒に表示することを特徴としている。
【0012】具体的な構成としては、利用者の入力をキ
ーボードなどの入力手段から受取り、利用者の入力を検
索式に変換し、検索式に従って複数の文書を記憶した文
書記憶部から文書を検索し、文書識別名を一覧表示する
と同時に、文書一覧で表示された文書の一つの要約文を
自動生成し原文書と一緒に表示する。また、他の文書識
別名がマウスなどで選択された場合は、選択された文書
識別名に連動して対応する原文書を取り出して、要約文
を自動生成し、原文書と一緒に表示する。
【0013】
【作用】本発明によれば、キーワードや自然言語文で指
示した文書を検索し、その検索結果の要約の一覧を表示
することができる。この要約は、利用者の所望する視点
に従って要約文を生成するものであるので、キーワード
や自然言語文で表現した検索命令に対応する文書である
か否かを効率的に利用者が判定する手段を提供すること
ができる。
【0014】また本発明によれば、キーワードや自然言
語文で指示された文書を検索し、その検索結果の要約の
一覧表示すると同時に、原文と要約文を合わせて表示す
るものであるので、キーワードや自然言語文で表示した
検索命令に対応する文書であるか否かを効率的に利用者
が判定する手段を提供することができる。
【0015】
【実施例】以下、図面を参照して本発明の実施例を説明
する。
【0016】(実施例1) まず、実施例1について説明する。
【0017】図1に、実施例を構成するための機器構成
を図示する。この装置は、検索処理や要約文生成処理を
行う中央処理手段1、文書情報などを記憶しておく半導
体メモリや、固定磁気ディスク、光磁気ディスクなどの
記憶手段2、検索した結果の文書におけるテキストや、
それに含まれるグラフィックス、オーディオ、音声など
を表示または出力する表示手段1、およびそのマウスな
どの入力手段6、およびその入力の制御を行う入力コン
トローラ5から構成される。
【0018】なお、図1において、文書情報を格納して
おく記憶手段や、検索処理や要約文生成処理などの処理
を行う中央処理手段は、単数の構成ではなく、複数を有
する構成であっても構わない。これらが、バスやネット
ワークなどを介した形で、本実施例を実施することは容
易である。
【0019】図1に示した機器構成により、本発明を実
施した場合の機能構成を図2に図示する。検索命令とな
るキーワード、および自然言語文を入力する入力部1、
その入力を解析し検索処理部の検索コマンドに変換する
入力解析部2、変換した検索コマンドに従って文書を検
索する検索処理部3、検索した個々の文書の要約文を生
成する要約文生成部7、個々の文書の文書内の関連情報
の解析を行う文書内関連情報解析部6、個々の文書とそ
の文書外との関係を解析する文書外関連情報解析部5、
文書データベースを格納しておく文書情報記憶部8、検
索した文書から生成した要約文などを格納する個人情報
記憶部9、検索処理部・要約文生成部・文書内関連情報
解析部、文書外関連情報解析部などで解析した結果に基
づいて表示や利用者との対話管理を行う検索結果表示部
4、加えて、検索処理の制御を行う検索制御部10、検
索結果に対する要約文生成処理などの制御を行う検索結
果処理制御部11から構成される。
【0020】文書情報記憶部ならびに個人情報記憶部
は、図1における記憶手段の一部に設定される。また、
入力部・入力解析部・検索処理部・要約文生成部・文書
内関連情報解析部・文書外関連情報解析部・検索結果表
示部・検索制御部・検索結果処理制御部は、図1におけ
る中央処理手段に設定される。
【0021】図2において、太線はデータ線を表してお
り、細線は制御線を表している。
【0022】検索制御部10は次のような処理が順次行
われるように各処理モジュールを起動していく。すなわ
ち、入力部で入力された検索命令は入力解析部2に転送
される。入力解析部2は、入力された検索命令から検索
語のリストを構成し、それらを検索処理部3に渡す。検
索処理部3では、文書情報記憶部8に格納されている文
書データから、検索語のリストに基づき関連する文書集
合を検索する。そして、検索した文書集合を個人情報記
憶部9に格納する。これらの一連の検索処理が終了した
段階で、検索結果処理制御部11に起動シグナルを送
り、制御を引き渡す。
【0023】検索結果処理制御部11は、個人情報記憶
部9に格納された文書集合に基づいて、文書情報記憶部
8に格納されている原文書を取り出し、個々の原文書に
ついての要約文生成部7・文書内関連情報解析部6・文
書外関連情報解析部5などを起動する。
【0024】要約文生成部7は、原文書から要約文を生
成し、原文書との対応情報とともに要約文を、個人情報
記憶部9に格納する。また、文書内関連情報解析部6な
らびに文書外関連情報解析部5も、解析で得られた関連
情報を個人情報記憶部9に格納する。これらの一連の処
理が終了した段階で、検索処理結果制御部11は、検索
結果表示部4を起動する。
【0025】検索結果表示部4は、個人情報記憶部9に
格納されている要約文・文書内外の関連情報を入力部か
ら入力される利用者の指示にしたがって、表示・変更を
行う以下に、各処理モジュールの詳細について説明す
る。
【0026】図3に、検索制御部10の制御の流れを図
示する。検索制御部10は、入力部1から検索命令が入
力されたことを検知して、入力解析部2を起動する。次
に入力解析部2の処理が終了したことを検知して、検索
処理部3を起動する。そして、検索処理部3の処理が終
了したことを検知して検索結果処理制御部11に起動シ
グナルを送り、以降、検索結果処理制御部11からの起
動シグナルが得られるまで処理を中断する。
【0027】図4に、入力解析部2の構成、図5に、入
力解析部2の処理の流れを図示する。本実施例における
入力解析部2は、図4に示すように形態素解析部41、
自立語抽出部42、不要語辞書43からなる。まず始め
に入力文に対して形態素解析を施し、単語ごとに分割す
る。
【0028】ここで、形態素解析の手法は、本願の主旨
ではなく、例えば、文献1(「自然言語処理の基礎技
術」、野村浩郷、電子情報通信学会編)などに開示され
ている手法を流用すれば良い。
【0029】次に、形態素解析結果に基づいて、自立語
抽出を行う。自立語を抽出する際には、不要語辞書43
を参照し、該辞書に格納されている語と照合する自立語
については、検索語としない。
【0030】図6に入力の一例、ならびにその入力を入
力解析部2で処理した結果を図示する。
【0031】この例は、不要語辞書43に「話題」とい
う語が格納されている場合を仮定している。入力文に対
して形態素解析を施した結果(形態素解析結果として図
示)、入力文は、単語単位に分割される。次に、分割さ
れた自立語(自立語抽出結果として図示)のうち、不要
語辞書43に格納されている単語「話題」以外が、検索
語として検索処理部3に渡される。
【0032】図7に、検索処理部3の機能構成を図示す
る。検索処理部3は、キーワードインデックス照合部7
1ならびに文書ファイル集合計算部72からなる。キー
ワードインデックス照合部71は、入力解析部2から入
力された検索語ごとに、文書情報記憶部8に格納されて
いる文書データを検索し、その検索語を含む文書データ
の集合を求める。そして、文書ファイル集合計算部72
は、論理的な集合演算により最終的な文書ファイル集合
を求める計算を行う。
【0033】図8及び図9に、検索処理部3の処理の流
れを図示する。検索処理部3は、キーワードインデック
ス記憶部を参照し、検索語を含む文書データを求める処
理を行う。
【0034】本実施例では、データベース中の各文書デ
ータには、あらかじめキーワードが付与されている実施
例について説明する。ただし、本発明は、各文書データ
にキーワードが付与されていない文書データベースに対
しても、例えば既に開示されている全文検索の技術を利
用することにより実施できることはいうまでもない。
【0035】本実施例では、文書データベース中のキー
ワードは、TREE構造の形式でキーワードインデック
ス記憶部71に格納されている。なお、このキーワード
インデックス記憶部71は、文書情報記憶部8に含まれ
る。このキーワードインデックス記憶部71の内容の一
例を図10に図示する。図示したようにTREE構造で
は、記憶容量ならびに検索の手間を削除するため、各キ
ーワードのうち同じ文字列を共有化して記憶している。
【0036】図10に示したキーワードインデックス記
憶部71は、各キーワードを構成する文字とその文字の
間のリンク情報を格納している。例えば、「機械」とい
うキーワードに対応して、文字「機」のリンク情報には
「00935」というリンク情報がある。このリンク情
報は、文字「機」の格納されているアドレスを表してい
る。そしてアドレス「00935」に格納されている文
字「機」には、キーワート「機械」を含む文書データ
が、「file4」であること、さらに「機械」を前2
文字の部分文字列として含む別のキーワード、「機械翻
訳」についてのリンク情報として、「01201」が格
納されている。このリンク情報をたどることにより、
「機械翻訳」をキーワードとする文書データが、「fi
le25」と「file21」であることがわかる
(「file4」などは文書データが格納されている文
書ファイル名を表している)。
【0037】また、キーワード「事例」と「事象」のよ
うに、前方に同じ文字列を含むキーワードは、文字
「事」のリンク情報に格納されている二つのアドレス
「01003」と「01004」が、それぞれ「象」と
「例」の格納されているアドレスを表している。
【0038】なお、リンク情報における「0」は、アド
レスや文書データのセパレータを表している。また、す
べてのキーワードの一文字目については、一定の連続す
る記憶領域にJISコード順などの順序でソートされて
格納されている。
【0039】検索処理部3では、検索語の集合を入力と
して、キーワードインデックス記憶部を参照し、各検索
語について対応する文書ファイルを求める。
【0040】まず始めに、図8乃至図9に示すように初
期化処理として変数i、Nをそれぞれ1、検索語の個数
に設定する。変数iは対象とする検索語を示すインデッ
クスを表す。
【0041】変数iが変数Nより小さい間、検索語iの
一文字目の文字について「一文字目の文字の格納領域」
を検索し、その文字が格納されているブロックを求め、
そのブロックをブロックAとする。「一文字目の文字の
格納領域」では、文字がソートされて格納されているの
で、文字が格納されているブロックを求めるためには、
バイナリサーチによって求めることができる。
【0042】次に、変数kに2を格納する。この変数k
は、検索語iのうち着目している文字位置を表す。変数
kに格納されている値が、検索語iの文字列長より小さ
い間、各ブロックに格納されている文字と、検索語の各
文字の照合を行い対応するブロックをもとめることを行
っていく。最終的に、検索語に対応する文書データが存
在する場合、それに対応して、キーワードインデックス
中のブロックが検出できることになる。そのブロックの
リンク情報に格納されている文書ファイル名を文書ファ
イル集合iに設定する。
【0043】上記の処理を、すべての検索語に対して行
うことにより、文書ファイル集合1から文書ファイル集
合Nには、それぞれの検索語に対応する文書ファイル集
合が設定されることになる。
【0044】次のステップでは、すべての文書ファイル
集合についての共通部分を、集合演算によりもとめ最終
的な文書ファイル集合とする。
【0045】図11に検索結果処理制御部11の制御の
流れを図示する。検索制御部10からの起動シグナルを
受けとると、検索結果処理制御部11は、要約文生成部
7、文書外関連情報解析部5、文書内関連情報解析部6
をそれぞれ起動する。そして、上記の各処理部における
処理が終了した時点で、検索結果表示部4を起動する。
そして、検索結果表示部4での処理が終了した時点で検
索制御部10へ起動シグナルを送信する。
【0046】図12に、要約文生成部7の構成を図示す
る。
【0047】本実施例における要約文生成部7は、文書
構造解析部121、文脈構造解析部122、キーセンテ
ンス判定部123、文書再構成部124からなる。文書
構造解析部121は、文章の章や節を表すタイトル情報
を抽出し、文章の章立ての構造を解析する。文脈構造解
析部122は、文章中で用いられている修辞的な表現を
抽出し、各章あるいは節の文章部分の論理的な構造を解
析する。キーセンテンス判定部123は、解析した文書
構造ならびに文脈構造に基づいてキーセンテンスを判定
する。
【0048】文章構造解析部121における処理自体
は、一般的に知られており、公知の技術を用いることが
できる。この処理により対象とする文章についての章や
節の構成を解析することができる。
【0049】また、文脈構造解析部122における処理
自体も、例えば文献(A Discourse Str
ucture Analyzer for Japan
ese Text,K.Sumita,Int. Co
nf. on FifthGeneration Co
mputer ´92)で開示されている方法を用いる
ことができる。この処理により、図12(b)に示す文
書に対して、図13(a)に示す文脈構造を得ることが
できる。図示した文脈構造は、第2文が第1文に対して
「展開」という関係にあり、さらに第3文と第1文と第
2文とに対して「予定」という関係にあることを表して
いる。
【0050】文脈構造は、図14に示すデータ構造で記
憶する。データ構造は、そのノードの持つ関係(文脈構
造.Re1)と、左右のノードへのリンク(文脈構造.
L、文脈構造.R)を表現している。ただし、終端ノー
ドの場合、文脈構造.Relには対応する文へのポイン
タを、また文脈構造.+Lと文脈構造.Rには−1をそ
れぞれ格納する。
【0051】図15にキーセンテンス判定部123の処
理の流れを示す。キーセンテンス判定部123は、ペナ
ルティ計算を再起的に行うことにより処理を進める。処
理が終わった段階でペナルティの小さい終端ノードが、
より重要であることになる。
【0052】ペナルティ計算は、文脈構造解析部121
で解析した文脈構造、ならびにペナルティの初期値を入
力とする。始めに、文脈構造が終端ノードか否かを判定
する。文脈構造.Lに格納されている値が−1である場
合終端ノードであるので、入力されたペナルティを文脈
構造.Pに設定する。
【0053】一方、文脈構造.Lに格納されている値が
−1でなければ終端ノードではなく、非終端ノードであ
る。この場合、文脈構造.Relに格納されている関係
が右重点型か左重点型か、あるいはそのいずれでもない
かの判定を行う。この判定は、あらかじめ記憶しておい
た関係テーブルに基づいて行う。関係テーブルの一例を
下に示す。
【0054】順接 右重点型 予定 左重点型 例示 左重点型 上記のテーブルは、「順接」という関係が右重点型であ
ることを表している。
【0055】文脈構造.Relに格納されている関係が
右重点型である場合、右ノードの方が重要であるから、
ペナルティPにペナルティP1を足し合わせた値を左ノ
ードの側のペナルティ計算に与え、ペナルティPを右ノ
ードの側のペナルティ計算に与える。
【0056】逆に、文脈構造.Relに格納されている
関係が左重点型である場合、左ノードが重要であるの
で、ペナルティPを左ノードの側のペナルティ計算に与
え、ペナルティPにペナルティP1を足し合わせた値を
右ノードの側のペナルティ計算に与える。
【0057】また、文脈構造.Relに格納されてる関
係が右重点型でも左重点型でもない場合、左右のノード
それぞれについてのペナルティ計算には、ペナルティP
がそのまま引き渡される。
【0058】以上の再起的な処理により、重要度の高い
文のペナルティには小さい値が、一方、重要度の低い文
のペナルティには大きい値が設定されることになる。
【0059】このキーセンテンス判定部123の処理で
用いている関係テーブルに格納されている情報を換える
ことにより、重要度のペナルティの設定の具合を換える
ことが可能である。したがって、この関連テーブルにお
いていずれの関係が右重点型か左重点型かを利用者が定
義することにより利用者の所望する視点での要約文を生
成することができる。
【0060】図16に文章再構成部124の処理の流れ
を示す。文書再構成部124では、キーセンテンス判定
部123で求めたすべての文のペナルティを参照し、あ
らかじめ定めたペナルティ以下の文を取り出す。そし
て、接続表現の変更を行い要約文を生成する。例えば、
次のような文章を生成する(ここで1,2,3は文を表
現する)。
【0061】1よい建築物を作るためにはよい材料が必
要である。
【0062】2しかし、よい道具も必要である。
【0063】3つまり、材料だけではダメである。
【0064】そして、この文章に対応する文脈構造が次
のような構造であること (1 <逆説> (2 <重複> 3)) さらに、キーセンテンス判定部123により、文1と文
3がキーセンテンスとして選択されたものと仮定する。
【0065】文1と文3を単純につなげた場合、原文と
論理的に異なる次のような文章が生成される。
【0066】よい建築物を作るためにはよい材料が必要
である。
【0067】つまり、材料だけではダメである。
【0068】そこで、接続表現の変更では、キーセンテ
ンスと判定された文間の最も上位の関係に対応する接続
表現に付け加える。上記の例では、文1と文3の間の最
も上位の関係は、<逆説>であるので、この関係に対応
する接続表現「しかし」に置き換えることにより、次の
ような文章を生成する。
【0069】よい建築物を作るためにはよい材料が必要
である。
【0070】しかし、材料だけではダメである。
【0071】文章再構成部124により、原文と論理的
に整合性のある要約文が生成される。また、文章再構成
部におけるペナルティP2の値を変化させることによ
り、要約文として生成する文の量を制御することができ
る。したがって、利用者がこのペナルティP2を設定し
直すことにより、表示される要約文の量を制御すること
が可能である。
【0072】図17に、文書内関連情報解析部6の処理
の流れを図示する。文書内関連情報解析部6では、一つ
の文書内で互いに関係し合う部分の関係づけを行う。
【0073】文書データには、その分野の専門用語や、
その文書だけで定義している用語などが存在する場合が
ある。本発明における要約文生成処理では、原文のうち
の一部分だけを取り出して、利用者に提示する。このた
め、原文の始めのほうで定義されている用語が、定義な
しで提示されてしまうことがある。このような場合、利
用者は、その用語の定義がわからないため提示された要
約文の内容を了解することができなくなってしまう。そ
こで、文書内関連情報解析部6では、用語の定義部分を
文章中から抽出し、関係づけを行う。
【0074】図18に、ある文章を示す。文2では、
「FMCRD」という用語が用いられている。ところ
が、この用語の定義は文2中に存在しないため、利用者
がこの文を読んだだけでは、内容を了解することができ
ない。文書内関連情報解析部6は、この関連情報を解析
する。
【0075】図18に示すようにFMCRDの語の定義
は、文1で行われている。文書内関連情報解析部6は、
図17に示すようにこのような定義を行っている文を抽
出し、用語の間の関係を取り出す。
【0076】まず始めに、形態素解析ならびに自立語抽
出を行う。
【0077】次に、各文で用いられる名詞が含まれてい
るか否かを、前方のすべての文について判定する。な
お、文書の先頭の文から開始し、対象としている文の直
前の文までについて、順次判定する。対象とする名詞
が、含まれている場合、その文の形態素解析、構文解析
を行い、構文構造を求める。構文構造は、各文節の間の
掛かり受け関係ならびにそれらの文節についての構文カ
テゴリからなる。次に、抽出された自立語のうち、用語
定義表現テーブルを参照し、対応する表現が原文中の各
文に存在するか否かを判定する。
【0078】用語定義表現テーブルの一例を示す。
【0079】$(名詞句) ($(名詞句)) 本稿では、$(名詞句)を$(名詞句)と呼ぶ。用語定
義表現テーブルの第一の内容は、名詞句の直後に対象と
する単語が用いられていることを示している。上で述べ
た例の場合、文1中の「運転性、負荷追従性の向上を意
図した電動式制御棒駆動装置(FMCRD)」が照合す
る。図示した用語定義表現テーブルにおいて、$(名詞
句)は、名詞句として解析される構成要素を示してい
る。
【0080】文書内情報解析部6は、解析した構文構造
と用語定義表現テーブルの各要素と比較する。この際、
用語定義表現テーブルで“$”が用いられた場合、構文
カテゴリが表現されているものとみなし、構文構造の構
文カテゴリを表現した部分と照合する。
【0081】用語定義表現テーブルのうち、第二の内容
は、「本稿では、接続詞などの修辞的表現で規定される
文書の論理的構造を文脈構造と呼ぶ。」という表現と照
合する。
【0082】定義表現が存在する場合、定義されている
単語を用いている他の文を探し、その対応を文書内関連
情報として記憶する。
【0083】次に、図19に、文書外関連情報解析部5
の処理の流れを図示する。文書外関連情報解析部5は、
文書間の相互の関係を解析する。ここで、文書間の相互
の関係とは、文献として参照されている文書が対象とす
る文書のどのような部分で参照されているかを表現する
ものである。例えば、ある文書で、背景を述べている部
分である文献が参照された場合、その文献に対応する文
献は、対象としている文書に対して背景という関係に関
係づけを行う。
【0084】一方、定義を述べている部分である文献が
参照された場合、その文献に対応する文書は、対象とし
ている文書に対して定義という関係に関係づけを行う。
【0085】文書外関連情報解析部5は、文脈構造解析
を行い、その解析情報に基づいて処理を行う。ここで、
文脈構造解析は、要約文生成処理と同じ処理であるの
で、要約文生成処理で解析した情報をそのまま用いれば
よい。
【0086】文脈構造解析の後、それぞれの文に対して
参照表現が存在するかどうかを判断し、参照表現が存在
する場合、その参照先の文書名を参考文献を記述してい
る部分から抽出する。そして、その対応を文書外関連情
報として記憶する。
【0087】参照表現の取り出しのための表現パターン
としては、次のようなテーブル形式であらかじめ記憶し
ておき、このテーブルの内容と照合することにより参照
表現を取り出す。
【0088】<上付き開始制御コード>($(数
字))、上付き終了制御コード) [$(固有名詞)$(数字)] 第1の内容において、<上付き開始制御コード>ならび
に<上付き終了制御コード>はそれぞれ上付き文字列の
開始ならびに終了を表現するコードである。また、第2
の内容は、例えば「佐藤91]というような表現に対応
する表現パターンである。
【0089】図20に要約文と原文との対応を記憶した
データ構造を示す。記憶データは、原文へのポインタ、
要約文へのポインタ、補助情報からなる。連続する記憶
領域に、原文へのポインタと要約文へのポインタを格納
することにより、それらの対応情報を記憶している。補
助情報には、原文に対応する文書についての文書内関連
情報の格納場所へのポインタ、文書構造ならびに文脈構
造の格納場所へのポインタ、文書外関連情報の格納場所
へのポインタなどが格納される。
【0090】これらの情報は、図2に図示した個人情報
記憶部9に含まれる情報である。
【0091】図21に、文書内関連情報のデータ構造を
示す。この記憶には、検索結果の各文書ごとに、文書内
関連情報解析部6で解析した、定義文において定義され
ている単語、その単語を使用している文へのポインタ、
定義文へのポインタを、文書ID(アイデンティファイ
ア)と対応させて格納している。
【0092】図22に、文書外関連情報のデータ構成を
示す。この記憶には、検索結果の各文書ごとに、文書外
関連情報解析部で解析した、関係名、参照した文の位置
情報、文書名の対応を、文書IDと対応させて格納して
いる。
【0093】図23に、検索結果表示部4の機能構成を
図示する。検索結果表示部4は、検索結果要約文表示部
231、文書選択処理部232、終了処理部233、視
点変更処理部234、視点選択処理部235、文書内関
連情報表示部236、文書外関連情報表示部237、な
らびにこれらの要素モジュールを制御する検索結果表示
制御部238からなる。
【0094】検索結果要約文表示部231は、検索結果
の最初の表示画面として文書に対応するタイトルならび
に要約文を表示する。文書選択処理部232では、表示
されている文書の一つが指定されることにより視点変更
処理部234または終了処理部233が起動される。視
点変更処理部234では、指定されている文書に対し
て、入力されるコードにしたがって視点選択処理部23
5、文書内関連情報表示部236、文書外関連情報表示
部237、終了処理が起動される。視点選択処理では、
視点選択メニューが表示され、入力されるコードにした
がって視点変更処理部234、終了処理部233が起動
される。
【0095】図24乃至図26に、検索結果表示部4の
処理の流れを図示する。また、図27にその表示の様子
を図示する。図24の(a)が、図23に図示した検索
結果要約文表示部の処理の流れを示している。表示部始
めに検索処理部3から入力された文書ファイル集合に含
まれる各文書に対応する要約文を表示する。図27の
(1)が、この表示に相当する。
【0096】要約文を表示する場合、各原文について要
約文生成処理を行う必要がある。要約文生成部7は、一
度要約文を生成した場合、その要約文ならびにその要約
文と原文との対応情報を個人情報記憶部9に格納されて
いる。検索結果表示部が起動された時点では、すでに要
約文生成部7が個々の文書の要約文を生成し、原文とそ
の要約文の対応情報が個人情報記憶部9に記憶されてる
ので、この記憶部から取り出し、表示を行う。
【0097】次に、検索結果表示部4はマウスのボタン
クリックによる入力イベントを待ち合わせる。入力が文
書選択を指示する入力の場合、文書選択処理を起動し、
終了処理を指示する入力の場合、終了処理を起動する。
【0098】図24の(b)に図示した終了処理の処理
の流れは、図23の終了処理部の処理の流れを示してい
る。この処理は、生成したウィンドウを消去する処理で
あり、この処理を起動した後、検索結果表示処理を終了
する。
【0099】一方、図24の(c)に図示した文書選択
処理の処理の流れは、図23の文書選択処理部の処理の
流れに相当する。この処理では、選択された文書を反転
表示した後、視点選択メニューを表示した後、入力イベ
ントを待ち合わせる。この時点での画面表示の一例を図
27の(2)に図示する。
【0100】図26の(a)に示した視点選択メニュー
表示処理の処理の流れは、図23の視点選択処理部の処
理の流れを示している。視点選択メニューにおいて表示
されるメニューは、表示している文書の文脈構造ルート
ノードからあらかじめ定めた深さまでのノードに付与さ
れる関係が表示される。そして、この関係のいずれかを
選択することにより、視点変更処理が起動され、指定し
た関係で結び付けられている部分を表示する。この時点
の表示の一例を図27の(3)に図示する。
【0101】図25に図示した視点変更処理の処理の流
れは、図23の視点変更処理部の処理の流れを示してい
る。この処理では、視点変更処理のイベント待ちで視点
選択を指示する入力を受け付けた場合、文書内関連情報
表示が、また文書外関連情報表示を指示する入力を受け
付けた場合、文書外関連情報表示がそれぞれ起動され
る。
【0102】図25の視点選択メニュー表示処理が起動
された場合、図27(4)に図示するような視点選択メ
ニューが表示され、視点の入力を促す。ここで、提示さ
れた視点のうちいずれかを選ぶことで、選択している文
書の一部分について文脈構造上で関連づけられている文
書の一部分が表示される。この時点の表示を図27
(5)に図示する。
【0103】図26の(b)に図示した文書内関連情報
表示は、図23の文書内関連情報表示部の処理の流れを
図示している。ここでは、選択されている単語に対応す
る文書内関連情報を取り出し、その情報に設定されてい
る定義文をディスプレイに表示する。この定義文を表示
するにあたっては、その定義文単独の表示ではなく、そ
の前後の文を含めて表示する。
【0104】図26の(c)の文書外関連情報表示は、
図23の文書外関連情報表示部の処理の流れを図示して
いる。ここでは、格納されている文書外関連情報を取り
出し、その情報をディスプレイ上に表示する。この時点
の表示を図27(6)に図示する。
【0105】以上述べた構成ならびに処理手続きに従っ
て、文書データの検索ならびにその文書の要約文の表
示、表示する視点の提示、その視点を選択することによ
る対応する部分の表示、さらに、文書内の関連情報の表
示を行うことができる。
【0106】なお、本実施例では、検索結果要約文表示
部では、要約生成部で生成した要約文を表示したが、こ
こでは検索結果のタイトルだけを表示し、視点変更の指
示が行われた時点でそのタイトルに対応する文書の要約
文を表示するように変更することは容易である。
【0107】(実施例2) 次に、実施例2について説明する。
【0108】実施例1における検索処理部3は、各文書
データにあらかじめキーワードを設定している場合に対
して検索処理を行うものであるが、この検索処理を全文
検索の処理置き換えることが可能である。本願の実施
例2では、検索処理部3において全文検索処理を行う
うにする
【0109】なお、全文検索自体は本願の発明の主旨で
はなく、例えば文献(テスト検索ブロセッサ、高橋恒
介、電子情報通(宮学会編)などで開示されている方法
を利用すれはよい。
【0110】全文検索により検索処理部を構成した場
合、検索語が存在した原文の部分を特定することができ
る。さらに、原文の要約文を生成するための要約文生成
処理において文脈構造解析を行っているので、検索語が
存在する原文の一部分が、文脈構造上で何の関係で全体
構造と関係づけられているかの情報を得ることができ
る。そして、検索処理部で得られた文書集合を、この照
合部分の関係に従ってあらかじめ定められた順序で並び
換えることが可能である。例えば、検索結果の文書ファ
イル集合が、次のようなものであり、文書1、文書2、
文書3、文書4照合部分の関係が、それぞれ次のよう
なものである場合を仮定する。
【0111】順接(右)、例示(右)、順接(右)、順
接(左) 上記の表現の括弧内は、原文の文脈構造において関係の
左右いずれのノードの文の単語が検索語と照合したかを
表現している。関係ごとに並べ換えを行うことにより、
次のような文書の並びを求められる。
【0112】文書1、文書3、文書4、文書2 図28に実施例2の検索処理部3の構成を示す。検索処
理部3は、全文検索部281、文書ファイル集合計算部
282、並べ替え部283、ならびに並べ替え部283
が参照する関係順序テーブル284からなる。処理手順
は、全文検索を行った後、要約文生成部7の文脈構造解
析結果に基づいて、検索語との照合部分の関係を求め、
その関係ごとに文書ファイル集合の並べ替えを行う。文
書ファイル集合計算部の処理の流れは、図8に既に図示
した。また、全文検索部での処理は、既に開示されてい
る全文検索処理のアルゴリズムに基づくものである。
【0113】図29に、関係順序テーブル284に格納
されているデータを図示する。関係順序テーブル284
には、並べ替え部283で参照する順序情報を格納して
いる。すなわち、関係と左右いずれかの情報が格納され
ている。
【0114】図30に、各文書ごとに個人情報記憶部9
に格納されている文脈構造のデー夕構造を図示する。各
ノードに相当するブロックは、4つのデータからなって
いる。すなわち、関係名、左部分木へのポインタ、右部
分木へのポインタ、ルートノードからのパス長(2分木
としてルートノードから対象とするノードまでのアーク
の数)である。図14のデータ構造と比較して、ルート
ノードからのバス長の情報が付加されており、図中で
は、各ブロックの文脈構造.Levelに設定されてい
る。
【0115】図31及び図32に、並べ替え部283の
処理の流れを図示する。なお、並べ替え部283の入力
としては、文書ファイル集合として文書名の集合が与え
られるものとする。
【0116】まず始めに、並べ替え部283では、変数
iと変数jを順次増やしていくことにより、照合関係抽
出で得られるそれぞれの(関係i、アークi)と(関係
j、アークj)との比較を関係順序テーブルに基づいて
行う。照合関係抽出処理を呼び出す際に与える文番号i
は、文書名iに対して検索語が照合した文番号である。
また、変数Nは、検索結果として得られた文書数であ
る。
【0117】照合関係抽出理由は、文書名、文番号を受
け取り、関係、アークをそれぞれ返り値として返すサブ
ルーチンである。この処理では、文書名に対応する文脈
構造を参照し、入力された文番号をノードとするブロッ
クを見つけ出す。そして、そのノードから順次ルートノ
ードへ向かって、構造をたどっていき各ブロックに格納
されているLevelの値があらかじめ定めたしきい値
Tより小さい場合、そのブロックのRelの部分に設定
されている関係名を関係の返り値に、さらに左右いずれ
のアークをたどってきたかの情報をアークの返り値に、
それぞれ設定しサブルーチンとしての処理を終える。
【0118】この検索処理部3によって得られた並べ換
えられた文書名にしたがって、検索結果表示部4は、要
約文の表示を行う。
【0119】(実施例3) 次に、表示する要約文の長さを制御することができるよ
うにした実施例である実施例3について説明する。
【0120】実施例1では、要約文の生成にあたり、あ
らかじめ定められたペナルティP2以下の文を用いてい
た。ペナルティP2を変更することにより、表示する要
約文の長さを制御することができる。すなわち、ペナル
ティP2を低めに設定すれば短い要約文が生成され、一
方、ペナルティP2を高めに設定すれば長い要約文が生
成される。
【0121】実施例3では、このペナルティP2を表示
するウィンドウの行数と表示する文書数や行数から決定
し要約文を生成する。
【0122】図33に実施例3の要約文生成部7の構成
を示す。図示する構成は、実施例1の構成とは異なり、
圧縮率決定部331を有している。この圧縮率決定部3
31において表示ウィンドウの行数、一画面に表示する
文書数からペナルティP2を決定し、文章再構成部にそ
の値を送る構成となっている。
【0123】圧縮率決定部331は、例えば次のような
式によりペナルティP2を決定する。
【0124】 P2−C1(表示ウィンドウの行数)(一画面に表示する文書数) …(1) ただし、この式においてC1、ならびに一画面に表示す
る文書数は、あらかじめ定められた定数である。
【0125】また、次式によって一文書あたりの行数を
求め、 L=(表示ウィンドウの行数)×(一画面に表示する文書数) …(2) 個々の文書の要約文の行数がLを越えた場合、ペナルテ
ィP2の大きさを減らし、再度文章再構成処理を行うこ
とにより、個々の文書を規定の行数に収めるようにする
ことも可能である。
【0126】(実施例4) 次に、実施例4について説明する。
【0127】図34に本発明の実施例4における要約文
生成部7の機能構成を図示する。本実施例における要約
文生成部7は、文書構造解析部341、文脈構造解析部
342、キーセンテンス判定部343、文章再構成部3
44、圧縮率入力部345からなる。
【0128】文書構造解析部341、文脈構造解析部3
42、キーセンテンス判定部343、文章再構成部34
4は、実施例1でそれぞれ説明した。
【0129】実施例3では、圧縮率決定部において一画
面に表示する文書数をあらかじめ定められた値としてい
た。実施例4では、この圧縮率決定部を圧縮率入力部3
45とする。圧縮率入力部345は、利用者が入力する
一画面に表示する文書数を受け取り、その値から実施例
3で説明した式(1)もしくは式(2)から要約文生成
のためのペナルテイまたは、文書あたりの行数を求め
る。文書再構成部は、この値に基づいて要約文を生成す
る。
【0130】入力する値としては、一文書あたりの行数
を入力するようにしてもよい。実施例3と同様に、ペナ
ルティP2の大きさを減らし、再度文章再構成処理を行
うことにより、個々の文書を規定の行数に収めるように
することが可能である。
【0131】一画面に表示する文書数などの入力は、図
35(a)に示すように表示ウィンドウの一部に入力エ
リアを設け、入力するようにすることができる(下線
部)。また、図35(b)に図示するように、環境を設
定するメニューを設け、そのメニューの一項目としてこ
のような項目を設定しておいても構わない。
【0132】(実施例5) 次に、実施例5について説明する。
【0133】表示ウィンドウ上に表示できる量の文書量
を検知する手段を有する実施例は、図36の如きであ
る。図において実施例1の機能構成(図2)との相違
は、表示文書量検知部と実行制御部を有していることで
ある。
【0134】表示文書量検知部13は、表示ウィンドウ
上に表示できる文書量の検知を行う。また、実行制御部
は、表示文書量検知部13から入力された文書量(文書
量1)と要約文生成部で生成している文書量(文書量
2)を比較し、文書量2が文書量1を越えた時点で、実
行制御部は要約文生成部で生成した要約文を検索結果表
示部14に送る制御を行う。
【0135】検索結果を表示後も要約文生成部7は残り
の各検索文書の要約文の生成を行う。そして、検索結果
表示部4から残りの要約文の要求があった場合、これら
要約文を検索結果表示部4に送る。
【0136】以上の実施例6では、表示ウィンドウに表
示できる文書量を検知し、要約文生成部で生成した要約
文がその量に達した段階で、検索結果の表示が行えるた
め、すべての処理が終了するまで表示を待つ必要がな
く、快適な作業性を実現できる。
【0137】以上、本願発明の実施例1乃至実施例6に
ついて詳細を述べた。本明細書で述べた実施例は、本願
発明の一実施例にすぎず、本願発明の主旨を逸脱しない
範囲で本願発明を変形できることはいうまでもない。
【0138】(実施例6) 次に、スクロール表示を行うことができるようにした実
施例としての実施例6を説明する。
【0139】図37を用いて実施例6を説明する。この
例は要約文そのものを検索対象とするものであり、元の
文書を記憶する文書情報記憶部8の情報を要約文生成部
7によって、一旦、全ての要約文を生成しておき要約文
記憶部371を作成する。そして、検索処理部3による
検索を要約文記憶部371を対象として行い、検索結
、つまり、検索された要約文を表示制御部を介して表
示するというものである。この時検索処理部3は検索
された要約文と文書情報記憶部8の元の文書との対応関
係を記憶しておくことで、要約文に対応する元の文書は
容易に出力することができる。又、上述した全ての例に
おいて、要約文の各要約部分1、2と対応の本文とが対
応づけられるように図37(b)のように表示してもよ
い。この場合要約部分と対応の本文との位置が等しくな
るようにスクロール表示されることは言うまでもない。
【0140】このようなスクロール表示についての実施
例について詳しく説明する。まず上述した図1を用いて
説明する。
【0141】ここで、中央処理手段1は、入力解析、検
索処理や主題解析を行うものである。表示手段4は、表
示コントローラ3の制御に従って検索結果を表示するよ
うになっている。通常ビットマップディスプレイなどが
使用され、画面を分割して検索された文書の識別名一
覧、原文書および要約文を同時に表示する。そして、入
力手段6は、検索命令の入力、検索された文書の選択や
コマンドの入力を行うキーボードやマウスからなるもの
で、入力コントローラ5により制御されている。
【0142】なお、図1において、入力解析、検索や主
題解析などの処理を行う中央処理手段1や文書を格納し
ておく記憶手段2は、単数の構成でなく、複数を有する
構成であっても構わない。これらが、ネットワークなど
を介した形で接続されていても、本実施例を実施するこ
とは容易である。
【0143】図38は、実施例の機能構成を示してい
る。この場合、自然言語文を入力する入力部1、その入
力文を形態素解析、構文解析および意味解析する入力解
析部2、入力文から抽出したキーワードから検索式を作
成し、検索式と入力文の構文意味解析結果に従って文書
を検索する検索処理部3、検索した文書の要約文を生成
する主題解析部38、文書データベースを格納しておく
文書格納部382、検索した文書の情報を格納する検索
情報格納部384、入力解析部、検索部および主題解析
部などで解析した結果を表示する検索結果表示部38
3、そして、入力部1、入力解析部2、検索処理部3、
主題解析部381、検索結果表示部383などの制御を
行う検索制御部10から構成されている。
【0144】ここで、文書格納部382ならびに検索情
報格納部384は、図1における記憶手段2の一部に設
定され、入力部1、入力解析部2、検索処理部3、主題
解析部381、検索結果表示部383および検索制御部
10は、図1における中央処理手段1に設定される。
【0145】また、図38において、実線は制御の流
れ、点線はデータの流れを表している。
【0146】このように構成において、検索制御部10
は、以下に述べる処理を順次実行する。
【0147】図39に、この処理の流れを示している。
まず、入力部1に入力された文字列は入力解析部2に転
送される。入力解析部2では、入力された文字列を形態
素解析、構文解析および意味解析を行い、その結果を検
索情報格納部384に出力する(ステップ391)。実
施例では、自然言語文の入力を受け取り、形態素解析、
構文解析および意味解析を行う例で説明するが、キーワ
ードおよび検索式を直接入力することもできる。キーワ
ードおよび検索式が入力された場合は、入力解析部2の
処理を省略して検索処理部3がすぐに起動される。
【0148】次に、検索制御部10は検索部3に検索要
求をする。検索処理部3は検索情報記憶部3に格納され
たキーワードから論理演算子などを用いて検索式を作成
し(ステップ392)、この検索式に従って文書格納部
381に格納されている文書データベースを検索する
(ステップ393)。
【0149】検索処理部3は検索式に該当する検索した
文書集合または文書の識別名を検索情報格納部384に
出力する。実施例では全ての文書の情報を検索情報格納
部に出力する例で説明するが、検索式に該当する文書数
が少ない場合は、全ての文書を出力する様にし、該当す
る文書数が多い場合には、文書の識別名だけを出力し、
主題解析部382および検索結果表示部383で文書格
納部381から文書の識別名に従って読み出すように構
成してもよい。また、検索情報格納部384は、該当す
る文書数が多い場合には、外部接続されたディスクなど
に一時的に出力することもできる。
【0150】さらに、検索処理部3は、検索情報格納部
384に入力文字列の構文意味解析結果が出力されてい
るか判断し(ステップ394)、出力されている場合に
は、検索情報格納部384に出力されている構文意味解
析結果と、各文書の構文意味解析結果を照合する(ステ
ップ395)。検索処理部3は照合が成功した文書集合
を優先または限定して出力する。各文書の構文意味解析
結果は、前もって文書と一緒に文書記憶部381に格納
しておくこともできる。
【0151】次に、検索制御部10は、検索情報格納部
384に出力された文書集合の個々の文書に対して、主
題解析部382に要約文を生成する要求をする。主題解
析部381では、要求された文書の原文書から要約文を
生成し、検索情報格納部384に出力する。出力する情
報は、原文書と要約文との対応関係、タイトル、英文タ
イトル、著者、章・見出しなどの種別および各章毎の抄
録情報からなる。また、検索キーワードまたは構文意味
解析結果を含む文章の番号をキーワードに対応させて出
力する(ステップ396)。検索情報格納部384に出
力された文書集合に対し、これらの一連の処理が終了し
た段階で、検索制御部16は、検索結果表示部383
に、各文書の文書識別名を所定の優先順位で一覧表示す
る要求をする(ステップ397)。合わせて、優先順位
の最初の文書の要約文および原文書の表示する要求をす
る(ステップ398)。
【0152】検索結果表示部383は、入力部1から入
力される利用者の指示に従って表示、変更できるように
している。利用者の指示が別の文書識別名を選択したと
きは、要約文および原文書の表示を選択した文書識別名
に表示変更する。また、表示されている要約文または原
文書の表示変更の指示のときは、対応する原文書または
要約文に対応する要約文または原文書に表示変更する。
【0153】以上の説明では、検索情報格納部384に
出力された文書集合の全てに対し、主題解析部382で
要約文を生成する例を示したが、所定の優先順序の最初
の文書に対して要約文を生成し、検索結果表示部383
に表示するように制御し、利用者が別の文書識別名を選
択したとき、選択された文書の要約文を生成することも
できる。
【0154】次に、各処理部における動作について説明
する。
【0155】図40は、検索制御部10での制御の流れ
を示している。この場合、検索制御部10は、入力部1
からの入力待ちから(ステップ401)、入力部1に文
字列が入力されたことを検知して、入力解析部2に解析
要求をする(ステップ402)。次に、入力解析部2の
解析が終了したことを検知して(ステップ403)、検
索処理部3に検索要求をする(ステップ404)。さら
に、検索処理部3の検索の終了待ちの後(ステップ40
5)、検索が終了したことを検知して、主題解析部38
2に要約文の生成要求をする(ステップ406)。最後
に、主題解析部382の要約文の生成の終了待ち後(ス
テップ407)、主題解析部382の終了したことを検
知して、検索結果表示部382に該当する文書識別名の
一覧表示および一覧表示で先頭に表示される文書の要約
文と原文書の表示要求を行い(ステップ408)、検索
結果表示部382は利用者からの入力待ちとなる。
【0156】図41は、入力解析部2の機能構成を示
し、図42に入力解析部2の処理の流れを示している。
【0157】この場合は、入力解析部2は、形態素解析
部410、構文解析部411、意味解析部412、不規
則表現規則適用部413、自立語抽出部414、検索式
作成部415、解析用辞書416、解析用文法417、
不要表現規則辞書418、関連語辞書419から構成し
ている。
【0158】しかして、まず、入力文に対して形態素解
析部410で形態素解析を行い(ステップ421)、解
析用辞書416を用いて単語ごとに分割する。次に、解
析用辞書416と解析用文法417を用いて構文解析部
411と意味解析部412で構文解析および意味解析を
行う(ステップ422,423)。ここで、形態素解析
・構文解析の手法については、本願の趣旨でなく、例え
ば、文献1(「自然言語処理の基礎技術」)、野村浩
郷、電子情報通信学会編)などに開示されている手法を
流用すれば良い。
【0159】さらに、構文意味解析結果に対して、不要
表現規則適用部413により不要表現規則辞書418中
の不要表現規則を適用し、不要表現規則中の表現に一致
するものがあれば、その構造を削除し(ステップ42
4)、得られた構造を検索情報格納部に出力するととも
に(ステップ425)、検索式作成部415により検索
式を作成する(ステップ428)。ここで、検索式を作
成する際には、関連語辞書を参照し、該当する関連語も
検索語とする(ステップ428)。そして、全ての検索
式を検索情報格納部に出力する(ステップ429)。
【0160】図43は、このような入力解析部2の入力
例、ならびにその入力の解析結果を説明する。
【0161】この場合、同図(a)に示す入力部に対し
て形態素解析を行うと、この形態素解析結果として同図
(b)に示すように入力文は単語単位に分割される。次
に、構文解析を行うと、この構文解析結果として同図
(c)に示すように構文構造を示す木構造が生成され、
さらに意味解析を行うと、この意味解析結果として同図
(d)に示すように意味構造を表す木構造が生成され
る。ここでの意味解析には、例えば図44に示すような
解析用辞書中の意味解析に用いる規則が適用される。こ
の規則は、適用前の構文構造として示しているように、
「用いる」という単語が名詞の単語とサ変名詞の単語の
間に出現している場合に、適用後の意味構造として示し
ているように、当該名詞の単語と当該サ変名詞の単語は
道具格(instrument)の関係の意味構造に変
化する規則である。同様な規則が「使用する」「援用す
る」などについても記述されている。なお、図43にお
けるobjectは対象格の関係を表している。
【0162】次いで、不要表現規則辞書中の規則を適用
して、同図(c)に示すように一致する部分構造を削除
する。ここでの不要表現規則適用結果は検索情報格納部
に出力される。そして、不要表現規則適用結果から同図
(f)に示すような自立語を抽出し、この抽出した自立
語から、論理演算子の「+」を用いて同図(g)に示す
検索式を作成し、検索情報格納部に出力される。なお、
図45は、不要表現規則辞書中の規則の一例を示してい
るが、この不要表現規則辞書中の規則は、部分意味構造
だけでなく、単語でも良い。
【0163】次に、図46は、検索処理部3の機能構成
を示し、図47に検索処理部3での処理の流れを示して
いる。
【0164】この場合、検索処理部3は、キーワードイ
ンデックス照合部461、意味構造照合部462、文書
ファイル集合計算部463から構成している。
【0165】しかして、キーワードインデックス照合部
461では、検索情報格納部384から検索式を取り出
し(ステップ1101)、この検索式により後述するキ
ーワードインデックス記憶部を検索し、検索式中のキー
ワードを含む文書を求める(ステップ1102)。そし
て、文書ファイル集合計算部463により検索された文
書について検索式にしたがって集合演算を行い、その結
果を検索情報格納部364に出力する(ステップ110
3)。さらに、意味構造照合部462により検索情報格
納部384に1つ以上の文書が検索され、かつ、入力文
字列から構文意味解析結果が抽出されているか判断し
(ステップ1104)、ここでYESの場合に、検索情
報格納部384から入力文字列の意味構造を取り出し
(ステップ1105)、意味構造で意味構造インデック
ス記憶部を検索し(ステップ1106)、得られた結果
を検索情報格納部384に出力するようになる(ステッ
プ1107)。
【0166】キーワードインデックス記憶部の内容の一
例を上記した図10に示し、キーワードインデックス照
合部461での処理の流れを図8、図9に示している。
【0167】この場合、文書データベース中のキーワー
ドは、木構造の形式でキーワードインデックス記憶部に
格納している。このキーワードインデックス記憶部は、
文書格納部381に含まれる。また、木構造は、記憶容
量ならびに検索の手間を削減するため、各キーワードの
うち同じ文字列を共有化して記憶している。このように
したキーワードインデックス記憶部では、各キーワード
を構成する文字とその文字の間のリンク情報を格納して
いる。例えば、「機械」というキーワードに対応しえ、
文字「機」のリンク情報には「00935」というリン
ク情報がある。このリンク情報は、文字「機」の格納さ
れているアドレスを表している。そしてアドレス「00
935」に格納されている文字「機」には、キーワード
「機械」を含む文書データが、「fi1e4」であるこ
と、さらに「機械」を前2文字の部分文字列として含む
別のキーワード、「機械翻訳」についてのリンク情報と
して、「01201」が格納されている。このリンク情
報をたどることにより、「機械翻訳」をキーワードとす
る文書データが、「fi1e25」と「fi1e21」
であることがわかる(「fi1e4」などは書データ
が格納されている文書ファイル名を表している)。
【0168】また、キーワード「実例」と「実験」のよ
うに、前方に同じ文字列を含むキーワードは、文字
「実」のリンク情報に格納されている二つのアドレス
「01003」と「01004」が、それぞれ「験」と
「例」の格納されているアドレスを表している。
【0169】なお、リンク情報における「0」は、アド
レスや文書データのセパレータを表している。また、す
べてのキーワードの一文字目については、一定の連続す
る記憶領域にJISコード順などの順序でソートされて
格納されている。
【0170】しかして、キーワードインデックス照合部
131では、検索語の集合を入力として、キーワードイ
ンデックス記憶部を参照し、各検索語について対応する
文書ファイルを求める。
【0171】図8、図9については上述したが、まず、
初期化処理として変数i、Nをそれぞれ1、検索語の個
数の設定する。ここで、変数iは対象とする検索語を示
すインデックスを表している。
【0172】そして、変数iが変数Nより小さい間、検
索語iの一文字目に文字について、「一文字目の文字の
格納領域」を検索し、その文字が格納されているブロッ
クを求め、そのブロックをブロックAとする。ここで、
「一文字目の文字の格納領域」には、文字がソートされ
て格納されているので、文字が格納されているブロック
を求めるためには、バイナリサーチによって求めること
ができる。
【0173】次に、変数kに2を格納する。この変数k
は、検索語iのうち着目している文字位置を表す。変数
kに格納されている値が、検索語iの文字列長より小さ
い間、各ブロックに格納されている文字と、検索語の各
文字の照合を行い対応するブロックを求める。
【0174】そして、最終的に、検索語に対応する文書
データが存在する場合、それに対応して、キーワードイ
ンディクス中のブロックが検出できることになる。その
ブロックのリンク情報に格納されている文書ファイル名
を文書ファイル集合iに設定する。
【0175】このような処理を、すべての検索語に対し
て行うことにより、文書ファイル集合1から文書ファイ
ル集合Nには、それぞれの検索語に対応する文書ファイ
ル集合が設定されることになる。
【0176】このようにして、すべての文書ファイル集
合についての共通部分を、集合演算により求め最終的な
文書ファイル集合とする。
【0177】一方、意味構造照合部462は、意味構造
インデックス記憶部を照合し、入力文字列の構文意味解
析結果と一致する意味構造を含む文書を求める処理を行
う。
【0178】次に、図48に意味構造照合部462の処
理の流れを示し、図16に意味構造インデックス記憶部
の内容の一例示している。
【0179】ここで、意味構造インデックス記憶部に格
納される情報は、予め次のように作成されている。この
場合、文書格納部383に格納されている各文書を対象
とし、各文書に含まれる文について入力解析を行う。そ
して、この処理の結果得られた意味構造と、それを含む
文の番号とファイル名とを格納するようにしている。な
お、入力解析部の処理において、複数の解析結果が得ら
れた場合には、それらすべての解析結果を格納するよう
にしている。また、意味構造インデックス記憶部は、文
書格納部382に含まれる。
【0180】しかして、意味構造照合部462では、入
力文字列の意味構造の係り先の単語で意味構造インデッ
クス記憶部の係り先の単語を引く(ステップ150
1)。そして、一致する係り先の単語があったか判断す
る(ステップ1502)。ここで、一致する係り先の単
語があれば関係記号を照合し(ステップ1503)、さ
らに一致する関係記号があったか判定する(ステップ1
504)。ここでも一致する関係記号があれば、係り元
の単語を照合し(ステップ1505)、次いで、一致す
る係り元の単語があったか判断する(ステップ150
6)。そして、一致する係り元の単語があれば意味構造
と、ファイル名および文番号を検索情報格納部384に
出力する。
【0181】次に図50は、主題解析部381の概略合
成を示している。
【0182】この場合、主題解析部381は、文書構造
解析部501、文脈構造解析部502、キーセンテンス
判定部503、文書再構成部504から構成されてい
る。ここで、文書構造解析部501は、文書の章や節を
表すタイトル情報を抽出し、文書の章立ての構造を解析
する。文脈構造解析部502は、文章中で用いられてい
る修辞的な表現を抽出し、各章あるいは節の文章部分の
論理的な構造を解析する。キーセンテンス判定部503
は、解析した文書構造ならびに文脈構造に基づいてキー
センテンスを判定する。そして、文章再構成部504
は、キーセンテンス判定部503での判定結果から要約
文を生成するようにしている。
【0183】この場合、文書構造解析部501における
処理自体は、本願の発明の主旨ではない。例えば文献2
(文書自動レイアウトシステム、岩井、東芝レビュー)
で開示されている方法を用いることができる。この処理
により対象とする文書についての章や節の構成を解析す
ることができる。
【0184】また、文脈構造解析部502における処理
自体も、本願の発明の主旨ではない。例えば文献3(A
Discourse Structure Anal
yzer for Japanese Text,K.
Sumita,Int.Conf.on Fifth
Generation Computer '92)で開
示されている方法を用いることができる。
【0185】このような処理により、図51の(b)に
示す文章に対して、同図の(a)に示す文脈構造を得る
ことができる。ここで図示した文脈構造は、第2文が第
1文に対して「展開」という関係にあり、さらに第3文
が第1文と第2文とに対して「予定」という関係にある
ことを表している。
【0186】なお、文脈構造は、図53に示すデータ構
造で記憶される。ここでのデータ構造は、そのノードの
持つ関係(文脈構造、Rel)と、左右のノードへのリ
ンク(文脈構造.L、文脈構造.R)を表現している。
ただし、終端ノードの場合、文脈構造.Relには対応
する文へのポインタを、また文脈構造.Lと文脈構造.
Rには−1をそれぞれ格納している。
【0187】次に、図53は、キーセンテンス判定部5
03の処理の流れを示している。この場合、キーセンテ
ンス判定部503は、ペナルティ計算を再起的に行うこ
とにより処理を進める(ステップ2001)。そして、
処理が終わった段階でペナルティの小さい終端ノード
が、より重要であることになる。
【0188】ペナルティ計算による処理の流れは図15
に既に示している。この場合、文脈構造解析部で解析し
た文脈構造、ならびにペナルティの初期値を入力とす
る。始めに、文脈構造が終端ノードか否かを判定する。
【0189】ここで、文脈構造.Lに格納されている値
が−1である場合終端ノードであるので、入力されたペ
ナルティを文脈構造.Pに設定する。一方、文脈構造.
Lに格納されている値が−1でない場合は終端ノードで
はなく、非終端ノードである。この場合、文脈構造.R
elに格納されている関係が右重点型が左重点型か、あ
るいはそのいずれでもないかの判定を行う。この判定
は、あらかじめ記憶しておいた関係テーブルに基づいて
行う。ここで、関係テーブルの一例を示すと下記のよう
になる。
【0190】順接 右重点型 予定 左重点型 例示 左重点型 ここでの関係テーブルは「順接」という関係が右重点型
であることを表している。
【0191】そして、文脈構造.Relに格納されてい
る関係が右重点型である場合、右ノードの方が重要であ
るから、ペナルティPにペナルティP1を足し合わせた
値を左ノードの側のペナルティ計算に与え、ペナルティ
Pを右ノードの側のペナルティ計算に与える。
【0192】逆に、文脈構造.Relに格納されている
関係が右重点型でなく、左重点型である場合、左ノード
が重要であるので、ペナルティPを左ノードの側のペナ
ルティ計算に与え、ペナルティPにペナルティP1を足
し合わせた値を右ノードの側のペナルティ計算に与え
る。また、文脈構造.Relに格納されている関係が右
重点型でも左重点型でもない場合、左右のノードそれぞ
れについてのペナルティ計算には、ペナルティPがその
まま引き渡される。
【0193】このようにしてペナルティ計算を再起的に
行うことにより、重要度の高い文のペナルティには小さ
い値が、重要度の低い文のペナルティには大きい値が設
定されることになる。
【0194】そして、このキーセンテンス判定部503
の処理で用いられている関係テーブルに格納されている
情報を換えることにより、重要度のペナルティの設定の
具合を変えることが可能である。したがって、この関連
テーブルにおいていずれの関係が右重点型か左重点型か
を利用者が定義することにより利用者の所望する視点で
の要約文を生成することができる。
【0195】次に、図54は、文章再構成部504の処
理の流れを示している。
【0196】この場合、文章再構成部504は、キーセ
ンテンス判定部503で求めたすべての文のペナルティ
を参照し、あらかじめ定めたペナルティP2以下の文を
取り出し、接続表現の変更を行い、要約文を生成する。
【0197】例えば、次のような文章を仮定する(ここ
で1、2、3は文を表現する)。
【0198】1 よい建築物を作るためにはよい材料が
必要である。
【0199】2 しかし、よい道具も必要である。
【0200】3 つまり、材料だけではダメである。
【0201】そして、この文章に対応する文脈構造が次
のような構造であること。
【0202】(1<逆接> (2<重複>3)) さらに、キーセンテンス判定部により文1と文3がキー
センテンスとして選択されたものと仮定する。
【0203】しかして、文1と文3を単純につなげた場
合、原文と論理的に異なる次のような文章が生成され
る。
【0204】よい建築物を作るためにはよい材料が必要
である。
【0205】つまり、材料だけではダメである。
【0206】そこで、接続表現の変更では、キーセンテ
ンスと判定された文間の最も上位の関係に対応する接続
表現に付け代える。
【0207】上記の例では、文1と文3の間の最も上位
の関係は、<逆接>であるので、この関係に対応する接
続表現「しかし」に書き換えることにより、次のような
文章を生成する。
【0208】よい建築物を作るためにはよい材料が必要
である。
【0209】しかし、材料だけではダメである。
【0210】このようにして文章再構成部504では、
原文と論理的に整合性のある要約文が生成される。ま
た、文章再構成部504におけるペナルティP2の値を
変化させることにより、要約部として生成する文の量を
制御することができる。したがって、利用者がこのペナ
ルティP2を設定し直すことにより、表現される要約文
の量を制御することができる。
【0211】次に、図55に要約文と原文との対応を記
憶した要約情報記憶部を示している。この場合、記憶デ
ータは、原文書へのポインタ、要約文書へのポインタ、
原文書の論理構造へのポインタなどを記憶している。そ
して、連続する記憶領域に、原文書へのポインタと要約
文書へのポインタを格納することにより、それらの対応
関係を記憶している。原文書の論理構造には、原文書の
文番号と文の位置、文番号に対応する文タイトル、英文
タイトル、著者、章・節見出しなどの種別などを記憶し
ている。要約文書には原文書と要約文書の対応を示す原
文書の文番号および要約文を記憶している。これらの情
報は、図2に示した検索情報格納部384に含まれる情
報である。
【0212】図2に示す検索制御部10では、検索処理
部3により実行されて検索情報格納部384に格納され
た検索式と入力文の構文意味解析とによる検索結果と、
主題解析部382により実行されて検索情報格納部に格
納された要約文書の情報とを用いて、検索結果の文書に
表示優先順位を決定する。
【0213】この場合、図56に示す表示優先規則辞書
に格納された優先順位の条件に従って表示優先順位を決
定する。そして、この決定された表示順序に従って検索
結果を検索結果表示部384に表示させる。
【0214】図57は、検索制御部10で設定された表
示優先順位に従って検索された文書識別名として文書の
タイトルと著者を表示している例を示している。文書識
別名のタイトルを囲む枠が選択されている文書を示して
いる。検索直後は、表示優先順序の先頭の文書が選択さ
れたとして表示している。
【0215】図58、図59は、表示優先順序が先頭の
文書に対する要約文および対応する原文書を表示した例
を示している。
【0216】なお、検索処理部3は、文書ごとに該文書
が検索された回数を文書格納部381に蓄積しておき、
ある検索の結果、表示優先順位が同じである文書が存在
した場合には、文書集合の中で文書格納部381に蓄積
された検索回数の多いものから表示する。
【0217】次に、図58の要約文表示画面の表示変更
に付いて説明する。図60は、表示変更を指示する画面
の例を示している。実施例では、表示されているボタン
をマウスで選択することで実現している。図61、図6
2は、例えば、次ページボタンを選択した場合の要約文
書および対応する原文書を表示した例を示している。図
63、図64は、表示変更の処理の流れを示している。
【0218】この場合、利用者からの表示変更要求を検
知すると(ステップ3201)、続いて何の表示変更が
されたか検出する。実施例では、先頭、前ページ、次ペ
ージ、文末、前の章、次の章に対して要求された例で示
す。この要求は順番に要求されたコードと比較をするこ
とで判定する(ステップ3202,3204,320
6,3208,3210,3112)。
【0219】要約文の先頭の表示変更する要求がされた
場合は、要約文書の表示ポインタを先頭位置に設定する
(ステップ3103)。同様に、前ページ表示変更する
要求がされた場合は、要約文書の表示ポインタを1画面
分減じる(ステップ3105)。この減じる値は、表示
画面の大きさで変更されるようにすることで、利用者が
自由な大きさを設定できるようになる。同様に、次ペー
ジ、文末、前の章、次の章に対しての表示変更の要求が
された場合は、要約文書の表示ポインタを変更する(ス
テップ3107,3109,3111,3113)。前
後の章への表示変更は、原文書の論理構造を基にポイン
タを変更する。
【0220】図65は、前の章への表示変更の方法を説
明する流れを示している。
【0221】この場合、要約文書の表示ポインタが示す
原文書の文番号を取り出し(ステップ3201)、原文
書の論理構造に記憶されている原文書の文番号と順次比
較を行い、前の文番号をサーチする(ステップ320
2)。サーチで前の章が存在しない場合は、メッセージ
を表示する(ステップ3203,3204)。前の章が
存在する場合は、その位置を原文書の表示ポインタに入
れる(ステップ3205)。次に、原文書でサーチした
前の章の文番号をキーとして、要約文書に付けられてい
る同じ文番号を持っている要約文をサーチする(ステッ
プ3206)。同じ文番号を持っている要約文の位置を
要約文表示ポインタに入れる(ステップ3207)。
【0222】このようにして、章を単位とする表示位置
を求める。次の章の場合も同様な処理であるので説明は
省略する。要約文書の表示ポインタの変更が終了したら
表示ポインタが示す位置から要約文書を表示する(ステ
ップ3114)。次に、対応する原文書を表示するため
に、要約文書の表示ポインタが示す原文書の文番号を取
り出す(ステップ3115)。原文書の論理構造に記憶
されている原文書の文番号と順次比較を行い、同じ文番
号を持っている原文書の位置を求める(ステップ311
6)。その位置を原文書の表示ポインタに入れて(ステ
ップ3117)、原文書の表示ポインタが示す位置から
原文書を表示する(ステップ3118)。
【0223】図63に表示されているステップ311
9,3120の文字列検索ボタンの処理は、入力された
検索文字列に対して文字列検索する処理であり、この方
法は公知であるので説明は省略する。また、実施例は、
要約文書に対して検索する流れで示されているが、原文
書に対して検索する場合は、比較する対象を原文書に変
更すれば良い。
【0224】図66、図67は、原文書に対して要求さ
れた次ページの表示変更に対して表示変更された要約文
書と原文書の表示例を示している。
【0225】図68、別の文書識別名が選択された場合
の表示例を示している。文書のタイトルを囲む枠が3番
目の文書のタイトルに表示され、この文書が選択されて
いることを示している。図69、図70は、選択された
文書識別名に対応する要約文書と原文書の表示例を示し
ている。選択された文書識別名と要約文書および原文書
の対応は、図55に示した検索情報格納部384に含ま
れる要約情報記憶部に記憶される原文書へのポインタ、
要約文書へのポインタ、原文書の論理構造が連続した領
域に格納されていることを利用して行う。
【0226】次に、要約文書に出力する量を制御する方
法について説明する。図71は、実施例における要約量
の変更画面を示している。各項目の前にチェックマーク
がある項目が選択されていることを示す。同図は、タイ
トル、章・節見出し、各章の抄録が要求されていること
を示している。但し、各章の抄録において、すべての章
の抄録には、チェックマークがないことから、「はじめ
に」および「おわりに」に対応する章の抄録が出力され
る。
【0227】図73に、図71の設定要求における要約
文書の表示例を示す。この要約文書として出力する項目
は、図55に示した、原文書の論理構造として記憶され
ている文の種別によって判定する。
【0228】次に、要約文書をマウスなどの入力手段で
指示することにより、対応する原文書を表示させる方法
について説明する。例えば、図72で示した表示画面に
おいて、「3 システム機能」に対応する原文書を画面
に呼び出す場合について説明する。
【0229】図73は、要約文書を指示された場合の対
応する原文書の読み出し処理の流れを示している。
【0230】この場合、「3 システム機能」のどれか
の文字にカーソルを移動してマウスのボタンを押すと指
示した文字位置が入力される。要約文書のどれかの文字
が選択されたかチェックが行われ(ステップ400
1)、他の表示領域が選択された場合は、他の入力処理
に移る。要約文書の文字が選択された場合は、選択され
た文字位置を取り出す(ステップ4002)。実施例の
説明は、表示領域の最初の文字からの文字数が入力され
る例で説明する。指示された文字位置を要約文書の文番
号に変換する(ステップ4003)。この変換は、例え
ば、図74に示す要約文書テーブルを表示に合わせて作
成し、このテーブルの文ごとの表示位置と指示された文
字位置を順次比較する。表示位置の範囲に囲まれる指示
位置が選択された要約文番号となる。「3 システム機
能」が指示された場合は、95〜102が入力されるの
で要約番号は、5番目の要約文であることが分かり、対
応する原文書の文番号として16番を取り出す(ステッ
プ4004)。
【0231】次に、原文書の文番号に対応する原文書の
位置を求め、原文表示ポインタに入れる(ステップ40
05)。原文書の位置は、原文書の論理構造に記憶され
ている原文書の文番号と順次比較を行い、同じ文番号を
持っている原文書の位置を取り出す。
【0232】原文書の表示ポインタが示す位置から原文
書を表示する(ステップ4006)。表示が終了したら
次の入力待ちとなる(ステップ4007)。
【0233】図75は、この様にして呼び出された原文
書の表示例を示している。
【0234】以上本明細書で述べた実施例は、あくま
でも一例である。従って、次のように発明を変形でき
る。
【0235】例えば、実施例では、主題解析部では要約
文生成を検索時に随時行うようにしたが、記憶容量に余
裕があるシステムを構築する場合は、要約文を文書格納
部に格納しておくように変形することができる。さら
に、生成した要約文をテキストとしては記憶しておか
ず、解析した文書構造ならびに文脈構造だけを記憶して
おき、その文書構造ならびに文脈構造からキーセンテン
ス判定部、文章再構成部により、随時要約文を求めるよ
うに変形することも可能である。
【0236】(実施例7) 次に、実施例7を説明する。
【0237】この実施例7では、要約文書を生成すると
きに、原文書において異なる段落が含まれていた文の間
に段落を明示するためのコードを挿入する機能を備えて
いる。
【0238】この実施例7は、実施例1に対し、図12
の文書構造解析部121の文章再構成部124の処理の
内容について述べたものである。これら以外の説明は、
実施例1と同様であるので省略する。
【0239】文章構造解析部121では実施例1と同様
に、原文書の章や節の構成を解析する。このとき、章ま
たは節の見出しの間に存在する文章中の段落の情報を抽
出し格納する。
【0240】図76に、段落情報の抽出処理の流れを図
示する。図77に原文書の一例を図示し、図78に図3
9の文書の文書構造解析の結果の一例を図示する。
【0241】図79に、文章再構成部124の処理の流
れを図示する。図80に図77の文書が処理された例を
図示する。図80では、第1章の「まえがき」の要約文
が表示されており、そこに原文中の1番目の文と6番目
の文が表示されている。ここで、6番目の文(段落番号
3)は、1番目の文(段落番号1)と異なる段落に含ま
れていたので、6番目の文は改行された後に表示されて
いる。
【0242】(実施例8) 次に、実施例8について説明する。
【0243】実施例8では、利用者などにより設定され
た画面の広さ(行数)に応じて、要約文書の長さ(行
数)を調整する機能を備えている。
【0244】この実施例8は、実施例1および実施例3
に対して、図2の検索結果表示部4と図33の圧縮率決
定部331の処理内容について述べたものである。これ
ら以外の説明は、実施例1および実施例3と同様である
ので省略する。
【0245】図81に、検索結果表示部4の機能構成を
図示する。図81において、実施例1における機構構成
(図23)との相違は、要約変更処理部411を有して
いることである。
【0246】要約変更処理部411は、表示された要約
文書中でのポインテイングが行われた場合に、検索結果
表示制御部により起動される、図82に画面に表示され
た要約文書の例を図示し、図83に利用者がポインテイ
ングデバイスで領域を設定した場合の例を図示する。ま
た、図84に、要約変更処理部411の処理の流れを図
示する。
【0247】圧縮率決定部331(図33)では、次の
式によりペナルティP2を決定する。
【0248】P2=C1×(表示される行数) 図85に、図86に示した要約文書中の要約が変更され
た例を示す。図83で指定された領域は2.1節の2行
下までであったので、図85の2.1節の抄録では、
(1)で始まる行と(2)で始まる行の2行が追加され
ている。
【0249】なお、図85および図86において、w1
<w2である場合には、要約文書の戦闘からw1個の文
字を表示するように変形することが可能である。このと
き、w1番目の文字が「。」でない(文の途中である)
場合に、その最後の文を除いて表示することも可能であ
る。
【0250】(実施例9) 次に、実施例9を説明する。
【0251】先に説明した実施例4では利用者が圧縮率
の値を入力したが、実施例9では、圧縮率の変更の候補
を提示し、その中から利用者が選択できるようにしてい
る。
【0252】実施例9における検索結果表示部4の機構
構成は、図81と同様である。実施例9は、実施例1お
よび実施例4に対し、図81の文書選択処理部と要約変
更処理部の処理内容について述べたものである。これ以
外の説明は、図1および図4の実施例と同様であるので
省略する。
【0253】図86に文書選択処理部の処理の流れを図
示する。図86において、実施例1における文書選択処
理部の処理の流れ(図24(c) )との相違は、要約変更
処理を行う点である。
【0254】図87に、要約処理変更処理部411の処
理の流れを図示する。
【0255】圧縮率入力部345(図34)では、次の
式によりペナルティP2を決定する。
【0256】P2=C1×Q3 図88に、画面表示された抄録文書において、第1章
「まえがき」がポインテイングされ、右下のウィンドウ
に要約文書中の数と、原文書中の文の数との比が表示さ
れているを図示する。図89は、当該のウィンドウで7
文、54%が選択された図を表している。図90は、そ
れに従って要約変更処理が行われて表示された要約文書
である。
【0257】図88において、要約文書の文数と原文書
の文の数とを比較して表示したが、文の数ではなく単語
の数や文字の数を、比較および表示の対象として用いる
ことは容易である。
【0258】また、図90では、生成した要約文書を、
最初に要約文書を表示するために生成したウィンドウの
中に挿入し表示しているが、別の新たなウィンドウを生
成し、そこへ生成した要約文書の章の見出しと要約文書
を表示してもよい。
【0259】(実施例10) 次に、実施例10を説明する。
【0260】実施例4では利用者が圧縮率の値を入力し
たが、実施例10では、圧縮率を変更するための指示の
みを行うようにしている。
【0261】この実施例10は、実施例1および実施例
4に対し、図2の検索結果表示部4と図23の文書選択
処理部232との処理内容について述べたものである。
これ以外の説明は、実施例1および実施例4と同様であ
るので省略する。
【0262】図91に、検索結果表示部4の機能構成を
図示する。図91において、実施例1での機能構成(図
23)との相違は、要約詳細化処理部471、要約簡単
化処理部472、原文表示処理部473を有しているこ
とである。
【0263】図92に文書選択処理部の処理の流れを図
示する。図92において、実施例1における文書選択処
理部の処理の流れ(図24(c) )との相違は、要約詳細
化イベント、要約簡単化イベント、原文表示イベントの
処理を行う点である。
【0264】図93、図94および図95に、要約詳細
化処理部、要約簡単化処理部および原文表示処理部の処
理の流れを図示する。原文表示処理部により、要約変更
の処理を行うことなく、即時に原文を表示することがで
きる。
【0265】図96では、表示された要約文書におい
て、第1章の「まえがき」の最初の文の先頭にカーソル
がある。図96で「詳しく」と表示されたボタンが選択
され場合の例を図97に図示する。図97では、第1章
の要約文の中で追加された文が強調表示されている(破
線部分)。
【0266】圧縮率入力部345(図34)では、次の
式によりペナルティP2を決定する。
【0267】P2=C1×Q4 また、図93および図94では、生成した要約文書を、
最初に要約文書を表示するために生成したウインドウの
中に挿入し表示するが、別の新たなウインドウを生成し
そこへ生成した要約文書の章の見出しと要約文書を表示
してもよい。
【0268】次に、実施例11を説明する。
【0269】実施例11では、要約文書と対応する原文
とを同時に表示し、要約文書中の文が原文のどこに存在
するかが判るように表示している。
【0270】この実施例11は、実施例1および実施例
10に対し、図93の要約詳細化処理部と図94の要約
簡単化処理部の処理の内容について述べたものである。
これら以外の説明は、実施例1および実施例10と同様
であるので省略する。
【0271】図98に文書選択処理部の処理の流れを図
示する。図98において、実施例10における文書選択
処理部の処理の流れ(図48)との相違は、要約文書と
ともに対応する原文書を表示し、要約文書中の文に対応
する原文書中の文を強調表示することである。
【0272】図99に要約詳細化処理部の処理の流れを
図示し、図100に要約簡単化処理部の処理の流れを図
示する。原文表示処理部の処理の流れは図95と同様で
あるので説明を省略する。図99において、実施例10
における要約詳細化処理部の処理の流れ(図93)との
相違は、文番号リストL2にある文番号に対応する原文
書の文を強調表示する処理を行う点である。図100に
おいて、実施例10における要約簡単化処理部の処理の
流れ(図94)との相違は、同様に文番号リストL2に
ある文番号に対応する原文書の文を強調表示する処理を
行う点である。
【0273】図101(a) は表示された要約文書であ
り、図101(b) は (a)に対応する原文書である。図1
00(a) に示される要約文書の第1章[まえがき」で
は、原文書の第1章の最初と最後の文が表示されてお
り、図101(b) ではそれらの文が強調表示されている
(破線部分)。原文書の文との対応は、要約文書再構成
部において、ペナルティP2以下の文を選択するとき
に、その文が原文の何文めの文であったかの情報を利用
する。
【0274】実施例11では、要約文書と対応する原文
とを同時に表示したが、原文書のみを表示し、原文書の
中でペナルティの小さい文から順に強調表示することも
可能である。
【0275】
【発明の効果】本発明によれば、検索した結果が利用者
の指定する視点に基づいて整理されて提示することがで
きるため、検索結果として提示されている個々の文書デ
ータが所望の情報であるか否かの判定が容易になる。し
かも、検索結果の表示データを作成する際に、作成する
要約文は、一度生成すると原文と対応づけて記憶するた
め、再度要約文を生成する必要がなくなる。これによ
り、以後の処理時間を大幅に節約することが可能とな
る。
【0276】本発明によれば、キーワードまたは自然言
語文で文書を検索し、その検索結果の文書を一覧表示す
ると同時に、検索された文書の中で表示優先順位が最初
の原文書と要約文を合わせて表示することで、検索され
た結果に対して適切に判断することができる。また、表
示された別の文書識別名を選択することにより、対応す
る原文書と要約文を表示することで所望の文書を容易に
得ることができる。また、表示された要約文の表示変更
に対応して原文書を表示することで利用者の負担を大幅
に減少することができる。
【図面の簡単な説明】
【図1】機器構成を示す図
【図2】機能構成を示す図
【図3】検索制御部の処理の流れを示すフロー図
【図4】入力解析部の機能構成を示す図
【図5】入力解析部の処理の流れを示すフロー図
【図6】入力解析部解析結果を示す図
【図7】検索処理部の機能構成を示す図
【図8】検索処理部の処理の流れを示すフロー図
【図9】検索処理部の処理の流れを示すフロー図
【図10】キーワードインデックス記憶部のデータ構造
を示す図
【図11】検索結果処理制御部の処理の流れを示すフロ
ー図
【図12】要約文生成部の機能構成を示す図
【図13】文脈構造の一例を示す図
【図14】文脈構造のデータ構造を示す図
【図15】キーセンテンス判定部の処理の流れを示すフ
ロー図
【図16】文章再構成部の処理の流れを示すフロー図
【図17】文書内関連情報解析部の処理の流れを示すフ
ロー図
【図18】文章列を示す図
【図19】文書外関連情報解析部の処理の流れを示すフ
ロー図
【図20】要約文書の格納の内容を示す図
【図21】文書内関連情報の格納の内容を示す図
【図22】文書外関連情報の格納の内容を示す図
【図23】検索結果表示部の機能構成を示す図
【図24】検索結果表示部の処理の流れを示すフロー図
【図25】検索結果表示部の処理の流れを示すフロー図
【図26】検索結果表示部の処理の流れを示すフロー図
【図27】検索結果の表示例を示す図
【図28】実施例2における検索処理部の機能構成を示
す図
【図29】関係順序テーブルを示す図
【図30】文脈構造のデータ構造を示す図
【図31】並べ替え部の処理の流れを示すフロー図
【図32】並べ替え部の処理の流れを示すフロー図
【図33】実施例3における要約文生成部の機能構成を
示す図
【図34】実施例4における要約文生成部の機能構成を
示す図
【図35】実施例4における画面表示文書数の入力例を
示す図
【図36】実施例5の機能構成を示す図
【図37】他の実施例を示す図
【図38】実施例の機能構成を示す図
【図39】実施例の処理の流れを示す図
【図40】実施例の検索制御部での処理の流れを示す図
【図41】実施例の入力解析部の機能構成を示す図
【図42】実施例の入力解析部での処理の流れを示す図
【図43】実施例の入力解析部解析結果の例を示す図
【図44】実施例の解析用辞書中の規則の例を示す図
【図45】実施例の不要表現規則辞書中の規則の例を示
す図
【図46】実施例の検索処理部の機能構成を示す図
【図47】実施例の検索処理部の処理の流れを示す図
【図48】実施例の意味構造インデックス記憶部での処
理の流れを示す図
【図49】実施例の意味構造インデックス記憶部の内部
を示す図
【図50】実施例の主題解析部の機能構成を示す図
【図51】実施例の文脈構造の一例を説明するための図
【図52】実施例の文脈構造のデータ構造を示す図
【図53】実施例のキーセンテンス判定部の処理の流れ
を示す図
【図54】実施例の文章再構成部の処理の流れを示す図
【図55】実施例の要約文章記憶部を示す図
【図56】実施例の表示優先順位規則辞書の内容の一例
を示す図
【図57】実施例の検索結果表示部での文書識別名の表
示例を示す図
【図58】実施例の検索結果表示部での要約文章の表示
例を示す図
【図59】実施例の検索結果表示部での原文書の表示例
を示す図
【図60】実施例の検索結果表示部での表示変更ボタン
の表示例を示す図
【図61】実施例の検索結果表示部での表示変更後の要
約文章の表示例を示す図
【図62】実施例の検索結果表示部での表示変更後の原
文書の表示例を示す図
【図63】実施例の検索結果表示部の表示変更の処理の
流れを示す図
【図64】検索結果表示部の表示変更の処理の流れを示
す図
【図65】実施例の検索結果表示部の前の章への表示変
更の処理の流れを示す図
【図66】実施例の検索結果表示部での原文書に対して
の表示変更後の要約文章の表示例を示す図
【図67】実施例の検索結果表示部での原文書に対して
の表示変更後の原文書の表示例を示す図
【図68】実施例の検索結果表示部での他の文書識別名
が選択された場合の表示例を示す図
【図69】実施例の検索結果表示部での他の文書識別名
が選択された場合の要約文の表示例を示す図
【図70】実施例の検索結果表示部での他の文書識別名
が選択された場合の原文書の表示例を示す図
【図71】実施例の検索結果表示部での要約文章の出力
量を変更画面の表示例を示す図
【図72】実施例の検索結果表示部での要約文章の出力
量を変更した場合の要約文の表示例を示す図
【図73】実施例の検索結果表示部での要約文を指示さ
れた場合の原文書の表示変更の処理の流れを示す図
【図74】実施例の検索結果表示部での要約文章表示テ
ーブルの内容の一例を示す図
【図75】実施例の検索結果表示部での要約文を指示さ
れた場合の原文書の変更後の表示例を示す図
【図76】段落処理情報の抽出処理の流れを示す図
【図77】原文の一例を示す図
【図78】文書構造解析結果の一例を示す図
【図79】文章再構成部の処理の流れを示す図
【図80】再構成された文書の一例を示す図
【図81】検索結果表示部の機能構成図
【図82】画面に表示された要約文書の一例を示す図
【図83】ポインティングで領域指定を行ったときの例
を示す図
【図84】要約変更処理部の処理の流れを示す図
【図85】変更された要約文書の一例を示す図
【図86】文書選択処理部の処理の流れを示す図
【図87】要約変更処理部の処理の流れを示す図
【図88】画面に表示された抄録文書の一例を示す図
【図89】要約文書量の変更を指定したとき画面表示例
を示す図
【図90】要約変更処理が行われた要約文書の一例を示
す図
【図91】検索結果表示部の機能構成図
【図92】文書選択処理部の処理の流れを示す図
【図93】要約詳細化処理部の処理の流れを示す図
【図94】要約簡単化処理部の処理の流れを示す図
【図95】原文表示処理部の処理の流れを示す図
【図96】表示された要約文書の一例を示す図
【図97】追加された部分が強調表示された要約文の表
示例を示す図
【図98】文書選択処理部の処理の流れを示す図
【図99】要約詳細化処理部の処理の流れを示す図
【図100】要約簡単化処理部の処理の流れを示す図
【図101】要約文書と原文書とを示す図
【符号の説明】
1…中央処理手段 2…記憶手段 3…表示コントローラ 4…表示手段 5…入力コントローラ 6…入力手段
フロントページの続き (72)発明者 竹林 洋一 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝研究開発センター内 (72)発明者 武田 公人 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝研究開発センター内 (72)発明者 伊藤 悦雄 神奈川県川崎市幸区小向東芝町1番地 株式会社東芝研究開発センター内 (56)参考文献 特開 平5−233689(JP,A) 特開 平4−281559(JP,A) 特開 平4−243480(JP,A) 特開 平2−112068(JP,A) 特開 平2−254566(JP,A) 特開 平2−181261(JP,A) 小野顕司ほか,「日本語論説文の自動 抄録のための文脈構造解析」情報処理学 会第46回(平成5年前期)全国大会講演 論文集,pp3−187〜3−188(平成5 年3月1日発行) 知野哲郎,小野顕司ほか,「日本語論 文抄録システムの試作と評価」,情報処 理学会第46回(平成5年前期)全国大会 講演論文集,pp3−189〜3−190(平 成5年3月1日発行) (58)調査した分野(Int.Cl.6,DB名) G06F 17/30

Claims (5)

    (57)【特許請求の範囲】
  1. 【請求項1】複数の文書データを蓄積する文書情報記憶
    手段と、 利用者の入力を解析し文書を前記文書情報記憶部から検
    索するための検索手段と、 この検索手段によって検索された文書を要約すべく処理
    するものであって、文書の要約は文書構造解析および文
    脈解析して得られた結果から求めた重要度に応じて実施
    する要約文生成手段と、生成された要約文と元の文書とを対応づけるための対応
    情報を格納する手段と、 この手段に格納された対応情報をもとに、 前記要約文生
    成手段によって要約された結果を表示する表示手段とを
    備えることを特徴とする文書情報検索装置。
  2. 【請求項2】複数の文書データを蓄積する文書情報記憶
    手段と、 利用者の入力を解析し文書を前記文書情報記憶部から検
    索するための検索手段と、 この検索手段によって検索された文書を、文書構造解析
    および文脈解析して得られた結果から求めた重要度に応
    じて要約すべく処理するものであって、元の文書の文脈
    構造を解析するとともに、検索時の利用者の入力と、文
    脈構造上のいずれの部分で照合したかをその照合部分の
    関係に従って整理して並べ換える要約文生成手段と、 前記要約文生成手段によって要約された結果を表示する
    表示手段とを備えることを特徴とする文書情報検索装
    置。
  3. 【請求項3】複数の文書データを蓄積する文書情報記憶
    手段と、 利用者の入力を解析し文書を前記文書情報記憶部から検
    索するための検索手段と、 この検索手段によって検索された文書を要約すべく処理
    するものであって、文書の要約は文書構造解析および文
    脈解析して得られた結果から求めた重要度に応じて実施
    する要約文生成手段と、指定された文書数に応じて要約文生成手段での要約の圧
    縮率を前記重要度の値に応じて設定する手段と、 この手段によって設定された圧縮率に応じて 前記要約文
    生成手段によって要約された結果を表示する表示手段と
    を備えることを特徴とする文書情報検索装置。
  4. 【請求項4】複数の文書データを蓄積する文書情報記憶
    手段と、 利用者の入力を解析し文書を前記文書情報記憶部から検
    索するための検索手段と、 この検索手段によって検索された文書を要約すべく処理
    するものであって、文書の要約は文書構造解析および文
    脈解析して得られた結果から求めた重要度に応じて実施
    する要約文生成手段と、 前記要約文生成手段によって要約された結果を表示する
    表示手段とを備え、前記要約文生成手段は、一画面で表示できる量を定め、
    生成した要約文がその文書量に達した時点で表示手段に
    表示させることを特徴とする文書情報検索装置。
  5. 【請求項5】文書を検索するための検索文字列を与える
    と、この検索文字列を解析し、複数の文書データを記憶
    した文書情報記憶手段の文書データ当該文字列を含む文
    書を検索処理する検索処理ステップと、 検索された原文書を要約すべく処理するものであって、
    文書の要約は文書構造解析および文脈解析して得られた
    結果から求めた重要度に応じて実施する要約文生成ステ
    ップと、 この要約された結果を表示するとともに、要約された結
    果または原文書の表示を変更する指示がなされたとき、
    対応する原文書または要約された結果を表示変更するス
    テップとを備えることを特徴とする文書検索結果表示方
    法。
JP5351276A 1993-03-17 1993-12-29 文書情報検索装置及び文書検索結果表示方法 Expired - Fee Related JP2957875B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP5670393 1993-03-17
JP25099993 1993-09-14
JP5-250999 1993-09-14
JP5-56703 1993-09-14

Publications (2)

Publication Number Publication Date
JPH07182373A JPH07182373A (ja) 1995-07-21
JP2957875B2 true JP2957875B2 (ja) 1999-10-06

Family

ID=26397687

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5351276A Expired - Fee Related JP2957875B2 (ja) 1993-03-17 1993-12-29 文書情報検索装置及び文書検索結果表示方法

Country Status (1)

Country Link
JP (1) JP2957875B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3810463B2 (ja) * 1995-07-31 2006-08-16 株式会社ニューズウオッチ 情報フィルタリング装置
JP3976811B2 (ja) * 1996-01-10 2007-09-19 キヤノン株式会社 文書処理装置及び文書処理装置における文書処理方法
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
JP3715444B2 (ja) * 1998-06-30 2005-11-09 株式会社東芝 構造化文書保存方法及び構造化文書保存装置
JP3791879B2 (ja) 1999-07-19 2006-06-28 富士通株式会社 文書要約装置およびその方法
JP3918374B2 (ja) 1999-09-10 2007-05-23 富士ゼロックス株式会社 文書検索装置および方法
US6796800B2 (en) 2001-01-23 2004-09-28 Educational Testing Service Methods for automated essay analysis
US7127208B2 (en) 2002-01-23 2006-10-24 Educational Testing Service Automated annotation
JP4488886B2 (ja) * 2004-12-20 2010-06-23 シャープ株式会社 文書配送登録システム
JP4185500B2 (ja) 2005-03-14 2008-11-26 株式会社東芝 文書検索システム、文書検索方法及びプログラム
JP6054816B2 (ja) * 2013-06-19 2016-12-27 Kddi株式会社 複数のコンテンツの検索結果にユーザ選択用のヒント情報を明示するプログラム、装置及び方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02112068A (ja) * 1988-10-21 1990-04-24 Hitachi Ltd テキスト簡略表示方式
JPH04243480A (ja) * 1991-01-18 1992-08-31 Nec Corp 縮小画像による検索方式
JP2937520B2 (ja) * 1991-03-08 1999-08-23 株式会社東芝 文書検索装置
JPH05233689A (ja) * 1992-02-18 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 文書自動要約方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
小野顕司ほか,「日本語論説文の自動抄録のための文脈構造解析」情報処理学会第46回(平成5年前期)全国大会講演論文集,pp3−187〜3−188(平成5年3月1日発行)
知野哲郎,小野顕司ほか,「日本語論文抄録システムの試作と評価」,情報処理学会第46回(平成5年前期)全国大会講演論文集,pp3−189〜3−190(平成5年3月1日発行)

Also Published As

Publication number Publication date
JPH07182373A (ja) 1995-07-21

Similar Documents

Publication Publication Date Title
US5907841A (en) Document detection system with improved document detection efficiency
JP3691844B2 (ja) 文書処理方法
US6411924B1 (en) System and method for linguistic filter and interactive display
JP2783558B2 (ja) 要約生成方法および要約生成装置
US6442540B2 (en) Information retrieval apparatus and information retrieval method
US6381593B1 (en) Document information management system
US6745181B1 (en) Information access method
JP3408291B2 (ja) 辞書作成支援装置
JP2005537532A (ja) 自然言語理解アプリケーションを構築するための総合開発ツール
JPH09311870A (ja) ハイパーテキスト検索装置
JPH07325827A (ja) ハイパーテキスト自動生成装置
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JP2957875B2 (ja) 文書情報検索装置及び文書検索結果表示方法
JP2885487B2 (ja) 文書内情報検索装置
JP3383049B2 (ja) 文書検索装置
JP3202381B2 (ja) 文書検索装置及び文書検索方法
JP2806867B2 (ja) ドキュメントデータベースの構築方法、表示方法、及び表示装置
JPH08129554A (ja) 関係表現抽出装置および関係表現検索装置
JP3714723B2 (ja) 文書表示システム
JP3281361B2 (ja) 文書検索装置及び文書検索方法
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP4138048B2 (ja) 情報検索装置およびその装置としてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
JP3056810B2 (ja) 文書検索方法および装置
JPH08137892A (ja) 文書検索方法及び文書検索装置
JPH0561902A (ja) 機械翻訳システム

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 12

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 13

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 14

LAPS Cancellation because of no payment of annual fees