JP2001043219A - 文書処理方法及び装置並びに記録媒体 - Google Patents

文書処理方法及び装置並びに記録媒体

Info

Publication number
JP2001043219A
JP2001043219A JP11212651A JP21265199A JP2001043219A JP 2001043219 A JP2001043219 A JP 2001043219A JP 11212651 A JP11212651 A JP 11212651A JP 21265199 A JP21265199 A JP 21265199A JP 2001043219 A JP2001043219 A JP 2001043219A
Authority
JP
Japan
Prior art keywords
document
sentence
abstract
document processing
summary sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP11212651A
Other languages
English (en)
Inventor
Katashi Nagao
確 長尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP11212651A priority Critical patent/JP2001043219A/ja
Publication of JP2001043219A publication Critical patent/JP2001043219A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 電子文書の要約文を作成する際に、先行詞の
ない代名詞等による文章の不明瞭化を防止するようにす
る。 【解決手段】 文書の要約文を作成する際に、作成され
る要約文中に含まれる代名詞等の被参照エレメントに対
応する参照エレメントが上記要約文中に含まれていない
とき(ステップS74でYES,S75でNO)に、元の
文書中の上記対応する参照エレメントを上記要約文中の
被参照エレメントに置き換える(ステップS77)。こ
れにより、要約文中に代名詞や限定節等の被参照エレメ
ントが存在するにも拘わらず、対応する先行詞としての
参照エレメントが要約文中に含まれていない場合に、最
初に現れた被参照エレメントが参照エレメントで置き換
えられ、その後の同じ参照エレメントに対応する被参照
エレメントについては、置き換えされずにそのまま要約
文に加えられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、電子文書を処理す
る文書処理方法及び装置並びに電子文書を処理する文書
処理プログラムが記録された記録媒体に関する。
【0002】
【従来の技術】従来、インターネットにおいて、ウィン
ドウ形式でハイパーテキスト型情報を提供するアプリケ
ーションサービスとしてWWW(World Wide Web)が知
られている。
【0003】WWWは、文書の作成、公開又は共有化の
文書処理を実行し、新しいスタイルの文書の在り方を示
したシステムである。しかし、文書の実際上の利用の観
点からは、文書の内容に基づいた文書の分類や要約とい
った、WWWを越える高度な文書処理が求められてい
る。このような高度な文書処理には、文書の内容の機械
的な処理が不可欠である。
【0004】しかしながら、文書の内容の機械的な処理
は、以下のような理由から依然として困難である。すな
わち、第1に、ハイパーテキストを記述する言語である
HTML(Hyper Text Markup Language)は、文書の表
現については規定するが、文書の内容についてはほとん
ど規定しない点、第2に、文書間に構成されたハイパー
テキストのネットワークは、文書の読者にとって文書の
内容を理解するために必ずしも利用しやすいものではな
い点、第3に、一般に文章の著作者は読者の便宜を念頭
に置かずに著作するが、文書の読者の便宜が著作者の便
宜と調整されることはない点が、文書の機械的処理を困
難とする理由である。
【0005】このように、WWWは新しい文書の在り方
を示したシステムであるが、文書を機械的に処理しない
ので、高度な文書処理を行うことができなかった。換言
すると、高度な文書処理を実行するためには、文書を機
械的に処理することが必要となる。
【0006】そこで、文書の機械的な処理を目標とし
て、文書の機械的な処理を支援するシステムが自然言語
研究の成果に基づいて開発されている。自然言語研究に
よる文書処理として、文書の著作者等による文書の内部
構造についての属性情報、いわゆるタグの付与を前提と
した、文書に付与されたタグを利用する機械的な文書処
理が提案されている。
【0007】ところで、近年のコンピュータの普及や、
ネットワーク化の進展に伴い、文章処理や、文書の内容
に依存した索引などで、テキスト文書の作成、ラベル付
け、変更などを行う文書処理の高機能化が求められてい
る。例えば、ユーザの要望に応じた文書の要約や、文書
の分類等が望まれる。
【0008】すなわち、ユーザは、例えばいわゆるサー
チエンジンのような情報検索システムを利用し、インタ
ーネットを介して提供される膨大な情報の中から所望の
情報を探し出すようにしている。この情報検索システム
は、指定されたキーワードに基づいて情報を検索し、検
索した情報をユーザに提供するシステムである。ユーザ
は、提供された情報の中から所望の情報を選択する。
【0009】情報検索システムにおいては、このように
容易に情報を検索することができるが、ユーザは、検索
されて提供された情報を一読して概略を理解し、それが
希望する情報であるか否かを判断する必要がある。この
作業は、特に、提供された情報の量が多い場合には、ユ
ーザにとって大きな負担となる。そこで、最近、テキス
ト情報、すなわち文書の内容を自動的に要約するシステ
ムであるいわゆる自動要約文作成システムが注目されて
いる。
【0010】自動要約文作成システムは、元の情報、す
なわち文書の大意を保持したままテキストの情報の長さ
や複雑さを減らすことによって、要約文を作成するシス
テムである。ユーザは、この自動要約文作成システムに
より作成された要約文を一読することで、文書の概略を
理解することができる。
【0011】通常、自動要約文作成システムは、テキス
ト中の文や単語を1つの単位とし、それに何らかの情報
に基づいた重要度を付与して順序付けする。そして、自
動要約文作成システムは、上位に順序付けした文や単語
を寄せ集め、要約文を作成する。
【0012】
【発明が解決しようとする課題】ところで、上述した自
動要約文作成システムにおいては、文書から要約文を作
成することが可能であるが、作成される要約文の情報量
は、文書の情報量等により決定されていた。そのため、
自動要約文作成システムにおいては、例えば、作成され
た要約文が簡略すぎてユーザが文書の概略を把握できな
い場合、ユーザは、より詳細な要約文を参照することが
できなかった。
【0013】また、元の文中の代名詞を含む部分を要約
文に取り入れる場合の処理や、元の文中の主語の省略さ
れている部分を要約文に取り入れる場合の処理を適切に
行わないと、要約文から正確な内容把握が行えないこと
にもなる。
【0014】本発明は、上述の実情に鑑みて提案された
ものであり、入力された文書に対して、ユーザの理解が
容易で正確な内容の要約文を自動生成し得るような文書
処理方法及び装置、並びに文書処理プログラムが記録さ
れてなる記録媒体を提供することを目的とする。
【0015】
【課題を解決するための手段】上述の課題を解決するた
めに、本発明は、電子文書の形態の文書を処理する文書
処理方法及び装置において、文書の要約文を作成し、作
成される要約文中に含まれる被参照エレメントに対応す
る参照エレメントが要約文中に含まれていないときに元
の文書中の対応する参照エレメントを要約文中の被参照
エレメントに置き換えることを特徴としている。
【0016】ここで、上記被参照エレメントは例えば代
名詞又は限定節であり、上記参照エレメントは例えば先
行詞である。上記置き換えの際には、要約文中の被参照
エレメントに対応する参照エレメントが要約文中に含ま
れているか否かを判別し、対応する参照エレメントが要
約文中に含まれていないとき要約文中の被参照エレメン
トを対応する参照エレメントに置き換え、上記対応する
参照エレメントが要約文中に含まれているとき上記要約
文中の上記被参照エレメントを置き換えないことが好ま
しい。
【0017】これによって、要約文中に先行詞なしの代
名詞や限定節が含まれることが回避される。
【0018】
【発明の実施の形態】以下、図面を参照して、本発明に
係る文書処理方法及び装置並びに文書処理プログラムが
記録された記録媒体の実施の形態について説明する。
【0019】本発明の実施の形態としての文書処理装置
は、図1に示すように、制御部11及びインターフェー
ス12を備える本体10と、ユーザからの入力を受けて
本体10に送る入力部20と、外部からの信号を受信し
て本体10に送る通信部22と、本体10からの出力を
表示する表示部30と、記録媒体32に対して情報を記
録/再生する記録/再生部31とを有している。
【0020】本体10は、制御部11及びインターフェ
ース12を有し、この文書処理装置の主要な部分を構成
している。制御部11は、この文書処理装置における処
理を実行するCPU13と、揮発性のメモリであるRA
M14と、不揮発性のメモリであるROM15とを有し
ている。CPU13は、例えばROM15に記録された
プログラムの手順にしたがって各処理を実行するための
制御を行う。RAM14には、CPU13が各種の処理
を実行する上で必要なプログラムやデータが一時的に格
納される。インターフェース12は、制御部11、入力
部20、通信部22、表示部30及び記録/再生部31
に接続されている。このインターフェース12は、制御
部11の制御の下に、入力部20及び通信部22からの
データの入力、表示部30へのデータの送信、記録/再
生部31に対するデータの送受信について、データを送
信するタイミングを調整したり、データの形式を変換し
たりする。
【0021】入力部20は、この文書処理装置に対する
ユーザの入力を受ける部分であり、例えばキーボードや
マウスにより構成される。ユーザは、この入力部20を
用い、キーボードによりキーワードを入力したり、マウ
スにより表示部30に表示されている電子文書のエレメ
ントを選択して入力したりすることができる。なお、以
下では電子文書を単に文書と称することにする。ここ
で、エレメントとは文書を構成する要素であって、例え
ば文書、文、句及び語が含まれる。
【0022】通信部22は、この文書処理装置に外部か
ら通信路、例えば電話回線を介して送信される信号を受
信する部分である。具体的には、通信部22は、例え
ば、モデム、ターミナルアダプタ等により構成され、電
話回線を介してインターネット23に接続され、インタ
ーネットに接続されているサーバ24にアクセスし、そ
こから文書等のデータを受信することができるようにさ
れている。このような通信部22は、外部から送信され
た複数の文書等のデータを受信し、受信したデータを本
体10に送る。
【0023】表示部30は、この文書処理装置からの文
字や画像情報の出力を表示する。表示部30は、例えば
陰極線管(cathode ray tube;CRT)や液晶表示装置(li
quidcrystal display;LCD)から構成され、例えば単数
又は複数のウィンドウを表示したり、文字、図形、又は
画像等を表示したりする。
【0024】記録/再生部31は、例えばフロッピーデ
ィスク、光ディスク、光磁気ディスクのような着脱可能
な記録媒体32に対してデータの記録及び/又は再生を
行う。記録媒体32には、文書を処理する文書処理プロ
グラムが記録されている。この記録媒体32には、文書
を処理するための電子文書処理プログラムや処理対象と
する文書が記録されている。
【0025】ハードディスクドライブ33は、大容量の
磁気記録媒体であるハードディスクに対してデータの記
録及び/又は再生を行う。
【0026】このような文書処理装置は、以下のように
して所望の文書を受信し、表示部31に表示する。
【0027】文書処理装置においては、まずユーザが入
力部20を操作してインターネット23を介して通信を
行うためのプログラムを起動し、サーバ24(サーチエ
ンジン)のURL(Uniform Resource Locator)を入力
すると、制御部11は、通信部22を制御し、サーバ2
4にアクセスする。
【0028】これに応じて、サーバ24は、インターネ
ット23を介して、文書処理装置の通信部22に検索画
面のデータを出力する。文書処理装置においてCPU1
3は、このデータをインターフェース12を介して表示
部30に出力し、表示させる。
【0029】文書処理装置においては、ユーザが入力部
20を用いてこの検索画面上でキーワード等を入力して
検索を指令すると、通信部22からインターネット23
を介して、サーチエンジンとしてのサーバ24に対して
検索命令が送信される。
【0030】サーバ24は、検索命令を受信すると、こ
の検索命令を実行し、得られた検索結果をインターネッ
ト23を介して通信部22に送信する。文書処理装置に
おいて制御部11は、通信部22を制御し、サーバ24
から送信される検索結果を受信させ、その一部を表示部
30に表示させる。
【0031】具体的には、ユーザが入力部20を用いて
例えば「TCP」というキーワードを入力して検索を指
令した場合には、文書処理装置には、サーバ24から
「TCP」のキーワードを含む各種情報が送信され、表
示部30に表示される。
【0032】続いて、本実施の形態における文書につい
て説明する。本実施の形態においては、文書処理は、文
書に付与された属性情報であるタグを参照して行われ
る。本実施の形態で用いられるタグには、文書の構造を
示す統語論的(syntactic)タグと、多言語間で文書の
機械的な内容理解を可能にするような意味的(semanti
c)・語用論的タグとがある。
【0033】統語論的なタグとしては、文書の内部構造
を記述するものがある。タグ付けによる内部構造は、図
2に示すように、文書、文、語彙エレメント等の各エレ
メントが、通常リンク、参照・被参照リンクにより関連
付けられて構成されている。図中において、白丸“○”
はエレメントを示し、最下位の白丸は文書における最小
レベルの語に対応する語彙エレメントである。また、実
線は文書、文、語彙エレメント等のエレメント間のつな
がり示す通常リンク(normal link) である。破線は参
照・被参照による係り受け関係を示す参照リンク(refe
rence link)である。文書の内部構造は、上位から下位
への順序で、文書(document)、サブディビジョン(su
bdivision) 、段落(paragraph)、文(sentence) 、
サブセンテンシャルセグメント(subsentential segmen
t) 、・・・、語彙エレメントから構成される。これら
のうち、サブディビジョンと段落とは、例えばオプショ
ンとして用いられるものである。
【0034】一方、意味論・語用論的なタグ付けとして
は、係り受け、例えば代名詞の指示対象等を示す統語構
造(syntactic structure) に関するタグ付けや多義語
の意味のように意味(semantic)の情報を記述するもの
がある。本実施の形態におけるタグ付けは、HTML
(Hyper Text Markup Language)と同様なXML(eXte
nsible Markup Language)の形式によるものである。
【0035】以下にタグ付けされた文や文書の例を示す
が、文書へのタグ付けはこの方法に限定されるものでは
ない。また、以下では英語と日本語の文書の例を示す
が、タグ付けによる内部構造の記述は、他の言語にも同
様に適用することができることは勿論である。
【0036】例えば、“Time flies like an arrow.”
という文については、下記のようなタグ付けをすること
ができる。
【0037】<文><名詞句 語義=“time0”>time
</名詞句> <動詞句><動詞 語義=“fly1”>flies</動詞> <形容動詞句><形容動詞 語義=“like0”>like<
/形容動詞> <名詞句>an<名詞 語義=“arrow0”>arrow</名
詞></名詞句> </形容動詞句></動詞句>.</文> ここで<文>、<名詞>、<名詞句>、<動詞>、<動
詞句>、<形容動詞>、<形容動詞句>は、それぞれ
文、名詞、名詞句、動詞、動詞句、形容詞を含む前置詞
句又は後置詞句/形容詞句、形容詞句/形容動詞句のよ
うな文の統語構造(syntactic structure) を表してい
る。タグは、エレメントの先端の直前及び終端の直後に
対応して配置される。エレメントの終端の直後に配置さ
れるタグは、記号“/”によりエレメントの終端である
ことを示している。エレメントは統語的構成素、すなわ
ち句、節、及び文を示す。なお、語義(word sense)=
“time0”は、語“time”の有する複数の意味、すなわ
ち複数の語義のうちの第0番目の意味を指している。具
体的には、語“time”には少なくとも名詞、形容詞、動
詞の意味があるが、ここでは語“time”が名詞であるこ
とを示している。同様に、語“オレンジ”は少なくとも
植物の名前、色、果物の意味があるが、これらも語義に
よって区別することができる。
【0038】本実施の形態に用いられる文書は、図3に
示すように、上記図1の表示部30のウィンドウ101
に統語構造を表示することができる。このウィンドウ1
01においては、右半面103に語彙エレメントが、左
半面102に文の内部構造がそれぞれ表示されている。
このウィンドウ101においては、日本語で記述された
文書のみならず、英語等の任意の言語で記述された文書
についても、統語構造を表示することができる。
【0039】このウィンドウ101には、一例として、
タグ付けにより内部構造を記述された次に示すような文
書「A氏のB会が終わったC市で、一部の大衆紙と一般
紙がその写真報道を自主規制する方針を紙面で明らかに
した。」の一部が表示されている。この文書のタグ付け
の例を次に示す。
【0040】<文書><文><形容動詞句 関係=“位
置”><名詞句><形容動詞句 場所=“C市”> <形容動詞句 関係=“主語”><名詞句 識別子=
“B会”><形容動詞句関係=“所属”><人名 識別
子=“A氏”>A氏</人名>の</形容動詞句><組
織名 識別子=“B会”>B会</組織名></名詞句
>が</形容動詞句> 終わった</形容動詞句><地名 識別子=“C市”>
C市</地名></名詞句>で、</形容動詞句><形
容動詞句 関係=“主語”><名詞句 識別子=“pres
s” 統語=“並列”><名詞句><形容動詞句>一部
の</形容動詞句>大衆紙</名詞句>と<名詞>一般
紙</名詞></名詞句>が</形容動詞句> <形容動詞句 関係=“目的語”><形容動詞句 関係
=“内容” 主語=“press”><形容動詞句 関係=
“目的語”><名詞句><形容動詞句><名詞共参照=
“B会”>そ</名詞>の</形容動詞句>写真報道<
/名詞句>を</形容動詞句> 自主規制する</形容動詞句>方針を</形容動詞句> <形容動詞句 関係=“位置”>紙面で</形容動詞句
> 明らかにした。</文></文書> この文書においては、「一部の大衆紙と一般紙」は、統
語=“並列”というタグにより並列であることが表され
ている。並列の定義は、係り受け関係を共有すると言う
ことである。特に何も指定がない場合は、例えば、<名
詞句 関係=x><名詞>A</名詞><名詞>B</
名詞></名詞句> はAがBに依存関係のあることを
表す。関係=xは関係属性を表す。
【0041】関係属性は、統語、意味、修辞についての
相互関係を記述する。主語、目的語、間接目的語のよう
な文法機能、動作主、被動作者、受益者などのような主
題役割、及び理由、結果などのような修辞関係はこの関
係属性により記述される。本実施の形態では、主語、目
的語、間接目的語のような比較的容易な文法機能につい
て関係属性を記述する。
【0042】また、この文書においては、“A氏”、
“B会”、“C市”のような固有名詞について、地名、
人名、組織名等のタグにより属性が記述されている。こ
れら地名、人名、組織名等のタグが付与される語は固有
名詞である。
【0043】また、このようなタグ付けされた文書にお
いては、代名詞や限定節についての参照、被参照関係が
タグにより表される。例えば、上記文書においては、
「その写真報道を」のエレメントの「その」の部分が、
「共参照=“B会”」という属性を持つことにより、そ
の部分が「識別子=“B会”」という属性を持つエレメ
ント(この場合は名詞句)「A氏のB会」であることが
示されている。従って、上記「その写真報道を」の「そ
の」の部分を置き換えると、「A氏のB会の写真報道
を」となる。
【0044】さらに、このようなタグ付けされた文書に
おいては、省略された主語や目的語等を他の部分によっ
て補うことができる。すなわち、上記文書の例において
は、「自主規制する」のエレメントが「主語=“pres
s”」 という属性を持つことにより、その意味上の主語
が「識別子=“press”」 という属性を持つエレメント
(この場合は名詞句)「一部の一般紙と大衆紙」である
ことが示されている。従って、主語を補ったものは、
「(一部の一般紙と大衆紙が)自主規制する」となる。
このように、省略が他の部分によって補われることをゼ
ロ照応と呼ぶ。
【0045】以下、本発明に係る実施の形態の文書処理
装置の具体的な動作について説明する。本実施の形態の
文書処理装置は、上述したようなタグ付けされた文書に
対して、自動要約処理を行わせるものであり、この要約
文作成の際に、代名詞や限定節の置き換え処理や、省略
された主語を補うようなゼロ照応処理を行う。
【0046】文書処理装置において文書の要約文を作成
する場合には、その文書が図1の表示部30に文書が表
示されている状態で、ユーザが入力部20を操作し、自
動要約モードに切り換える。制御部11は、この自動要
約モードに切り換えられたとき、図4に示すような自動
要約文作成プログラムの初期画面を表示して、ユーザに
よる自動要約文作成の開始操作を待つ。
【0047】すなわち、ユーザが上記自動要約文作成モ
ードに切り換え操作したときには、図1の制御部11
は、ハードディスク装置33に保存されている自動要約
文作成プログラムを起動し、表示部30を制御し、図4
に示すような自動要約文作成プログラムの初期画面を表
示させる。この例においては、表示部31に表示される
ウィンドウ190は、文書の名称が表示される文書名表
示部191、キーワードが入力されるキーワード入力部
192、文書の要約文を作成するための実行ボタンであ
る要約文作成実行ボタン193等が表示される表示領域
200と、文書が表示される表示領域210と、文書の
要約文が表示される表示領域220とに区分されてい
る。
【0048】表示領域200の文書名表示部191に
は、表示領域210に表示される文書の文書名等が表示
される。また、キーワード入力部192には、例えば入
力部20のキーボード等を用いて文書の要約文を作成す
るためのキーワードが入力される。要約文作成実行ボタ
ン193は、例えば入力部20のマウス等を用いて押さ
れることによって、表示領域210に表示されている文
書の要約文作成処理を実行開始するための実行ボタンで
ある。
【0049】表示領域210には、文書が表示される。
表示領域210の右端には、スクロールバー211と、
このスクロールバー211を上下に動かすためのボタン
212,213が設けられており、ユーザが例えば入力
部20のマウス等を用いて、スクロールバー211を上
下に直接動かしたり、ボタン212,213を押してス
クロールバー211を上下に動かすことによって、表示
領域210に表示される表示内容を縦方向にスクロール
することができる。ユーザは、入力部20を操作するこ
とによって、表示領域210に表示されている文書の一
部を選択して要約させることもでき、文書全体を要約さ
せることもできる。
【0050】表示領域220には、要約文が表示され
る。図4においては、要約文がまだ作成されていない状
態であるため、この表示領域220には、何も表示され
ていない。ユーザは、入力部20を操作することによっ
て、要約文の表示領域220の表示範囲(大きさ)を変
更することができる。具体的には、ユーザは、同図に示
す表示領域220の表示範囲(大きさ)を、例えば図5
に示すように拡大することができる。
【0051】文書処理装置は、ユーザが例えば入力部2
0のマウス等を用いて、要約文作成実行ボタン193を
押してオン状態とすると、CPU13の制御のもとに、
図6に示す処理を実行して要約文の作成を開始する。
【0052】文書から要約文を作成する処理は、文書の
内部構造に関するタグ付けに基づいて実行される。文書
処理装置においては、先に図5に示したように、ウィン
ドウ190の表示領域220の大きさを変更することが
できる。文書処理装置は、CPU13の制御のもとに、
新たにウィンドウ190が表示部31に描画されるか、
又は、表示領域220の大きさが変更された後、要約文
作成実行ボタン193が操作されたときには、表示領域
220に適合するように、ウィンドウ190の表示領域
210に少なくともその一部が表示されている文書か
ら、要約文を作成する処理を実行する。
【0053】まず、文書処理装置は、図6に示すよう
に、ステップS21において、CPU13の制御のもと
に、活性拡散と呼ばれる処理を行う。本実施の形態にお
いては、活性拡散により得られた中心活性値を重要度と
して採用することによって、文書の要約文を行う。すな
わち、内部構造に関するタグ付けがされた文書において
は、活性拡散を行うことによって、各エレメントに対し
て、内部構造に関するタグ付けに応じた中心活性値を付
与することができる。
【0054】ここで、活性拡散は、中心活性値の高いエ
レメントと関わりのあるエレメントにも高い中心活性値
を与えるような処理である。すなわち、活性拡散は、照
応(anaphora;共参照(coreference))表現されたエ
レメントとその先行詞との間で中心活性値が等しくな
り、それ以外では各中心活性値が同じ値に収束してい
く。この中心活性値は、文書の内部構造に関するタグ付
けに応じて決定されるため、内部構造を考慮した文書の
分析に利用することができる。
【0055】文書処理装置は、図7に示す一連の工程を
経ることによって、活性拡散を実行する。
【0056】まず、文書処理装置は、図7に示すよう
に、ステップS41において、CPU13の制御のもと
に、各エレメントの初期化を行う。文書処理装置は、語
彙エレメントを除いた全てのエレメントと語彙エレメン
トとに対して中心活性値の初期値を割り当てる。例え
ば、文書処理装置は、中心活性値の初期値として、語彙
エレメントを除いた全てのエレメントに対しては“1”
を、語彙エレメントに対しては“0”を割り当てる。ま
た、文書処理装置は、各エレメントの中心活性値の初期
値に均一ではない値を予め割り当てることによって、活
性拡散の結果得られた中心活性値に、初期値の偏りを反
映させることができる。例えば、文書処理装置は、ユー
ザが関心を有するエレメントに対しては、中心活性値の
初期値を高く設定することによって、ユーザの関心を反
映した中心活性値を得ることができる。
【0057】エレメント間で参照・被参照による係り受
けの関係にあるリンクである参照・被参照リンクと、そ
れ以外のリンクである通常リンクとに関しては、エレメ
ントを連結するリンクの端点の端点活性値を“0”に設
定する。文書処理装置は、このようにして付与した端点
活性値の初期値を例えばRAM14に記憶させる。
【0058】ここで、エレメントとエレメントの連結構
造の一例を図8に示す。同図においては、文書を構成す
るエレメントとリンクの構造の一部として、エレメント
i及びエレメントEjが示されている。エレメントEi
とエレメントEjとは、それぞれ、中心活性値ei,ej
を有し、リンクLijにて接続されている。リンクLij
エレメントEiに接続する端点は、Tijであり、エレメ
ントEjに接続する端点は、Tjiである。エレメントEi
は、リンクLijにより接続されるエレメントEjの他
に、リンクLik,Lil及びLimにより図示しないエレメ
ントEk,El及びEmにそれぞれ接続している。エレメ
ントEjは、リンクLjiにより接続されるエレメントEi
の他に、リンクLjp,Ljq及びLjrにより図示しないエ
レメントEp,Eq及びErにそれぞれ接続している。
【0059】続いて、文書処理装置は、図7中のステッ
プS42において、CPU13の制御のもとに、文書を
構成するエレメントEiを計数するカウンタの初期化を
行う。すなわち、文書処理装置は、エレメントを計数す
るカウンタのカウンタ値iを“1”に設定する。このこ
とにより、カウンタは、第1番目のエレメントE1を参
照していることになる。
【0060】続いて、文書処理装置は、ステップS43
において、CPU13の制御のもとに、カウンタが参照
するエレメントについて、新たな中心活性値を計算する
リンク処理を実行する。このリンク処理については、さ
らに後述する。
【0061】続いて、文書処理装置は、ステップS44
において、CPU13の制御のもとに、文書中の全ての
エレメントについて新たな中心活性値の計算が完了した
か否かを判断する。
【0062】ここで、文書処理装置は、文書中の全ての
エレメントについて新たな中心活性値の計算が完了した
ことを判断した場合には、ステップS45へと処理を移
行し、一方、文書中の全てのエレメントについて新たな
中心活性値の計算が完了していないことを判断した場合
には、ステップS47へと処理を移行する。
【0063】具体的には、文書処理装置は、CPU13
の制御のもとに、カウンタのカウンタ値iが、文書が含
むエレメントの総数に達したか否かを判断する。そし
て、文書処理装置は、カウンタのカウンタ値iが、文書
が含むエレメントの総数に達したことを判断した場合に
は、全てのエレメントが計算済みであるものとして、ス
テップS45へと処理を移行する。一方、文書処理装置
は、カウンタのカウンタ値iが、文書が含むエレメント
の総数に達していないことを判断した場合には、全ての
エレメントについて計算が終了していないものとしてス
テップS47へと処理を移行する。
【0064】文書処理装置は、カウンタのカウンタ値i
が、文書が含むエレメントの総数に達していないことを
判断した場合には、ステップS47において、CPU1
3の制御のもとに、カウンタのカウント値iを“1”だ
けインクリメントさせ、カウンタのカウント値を“i+
1”とする。このことにより、カウンタは、i+1番目
のエレメント、すなわち次のエレメントを参照する。そ
して、文書処理装置は、ステップS43へと処理を移行
し、端点活性値の計算及びこれに続く一連の行程が、次
のi+1番目のエレメントについて実行される。
【0065】また、文書処理装置は、カウンタのカウン
タ値iが、文書が含むエレメントの総数に達したことを
判断した場合には、ステップS45において、CPU1
3の制御のもとに、文書に含まれる全てのエレメントの
中心活性値の変化分、すなわち新たに計算された中心活
性値の元の中心活性値に対する変化分について平均値を
計算する。
【0066】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された元の中心活性値と新
たに計算した中心活性値を、文書に含まれる全てのエレ
メントについて読み出す。文書処理装置は、新たに計算
した中心活性値の元の中心活性値に対するそれぞれの変
化分の総和を文書に含まれるエレメントの総数で除する
ことにより、全てのエレメントの中心活性値の変化分の
平均値を計算する。文書処理装置は、このように計算し
た全てのエレメントの中心活性値の変化分の平均値を、
例えばRAM14に記憶させる。
【0067】そして、文書処理装置は、ステップS46
において、CPU13の制御のもとに、ステップS45
で計算した全てのエレメントの中心活性値の変化分の平
均値が、予め設定された閾値以内であるか否かを判断す
る。そして、文書処理装置は、この変化分が閾値以内で
あると判断した場合には、この一連の行程を終了する。
一方、文書処理装置は、変化分が閾値以内でないと判断
した場合には、ステップS42へと処理を移行し、カウ
ンタのカウント値iを“1”に設定して文書のエレメン
トの中心活性値を計算する一連の行程を再び実行する。
文書処理装置においては、これらのステップS42乃至
ステップS46のループが繰り返される毎に、変化分
は、徐々に減少する。
【0068】文書処理装置は、このようにして活性拡散
を行うことができる。つぎに、この活性拡散を行うため
にステップS43において実行されるリンク処理につい
て図9を参照して説明する。なお、同図に示すフローチ
ャートは、1つのエレメントEiに対する処理を示した
ものであるが、この処理は、全てのエレメントに対して
行われるものである。
【0069】まず、文書処理装置は、図9に示すよう
に、ステップS51において、CPU13の制御のもと
に、文書を構成する1つのエレメントEiと一端が接続
されたリンクを計数するカウンタの初期化を行う。すな
わち、文書処理装置は、リンクを計数するカウンタのカ
ウント値jを“1”に設定する。このカウンタは、エレ
メントEiと接続された第1番目のリンクLijを参照す
ることになる。
【0070】続いて、文書処理装置は、ステップS52
において、CPU13の制御のもとに、エレメントEi
とEjを接続するリンクLijについて、関係属性のタグ
を参照することによって、そのリンクLijが通常リンク
であるか否かを判断する。文書処理装置は、リンクLij
が、語に対応する語彙エレメント、文に対応する文エレ
メント、段落に対応する段落エレメント等の間の関係を
示す通常リンクと、参照・被参照による係り受けの関係
を示す参照リンクのいずれであるかを判断する。文書処
理装置は、リンクLijが通常リンクであると判断した場
合には、ステップS53へと処理を移行し、リンクLij
が参照リンクであると判断した場合には、ステップS5
4へと処理を移行する。
【0071】文書処理装置は、リンクLijが通常リンク
であると判断した場合には、ステップS53において、
エレメントEiの通常リンクLijに接続された端点Tij
の新たな端点活性値を計算する処理を行う。
【0072】このステップS53では、ステップS52
における判別により、リンクLijが通常リンクであるこ
とが明らかになっている。エレメントEiの通常リンク
ijに接続される端点Tijの新たな端点活性値tijは、
エレメントEjの端点活性値のうち、リンクLij以外の
リンクに接続する全ての端点Tjp,Tjq,Tjrの端点活
性値tjp、tjq,tjrと、エレメントEiがリンクLij
により接続されるエレメントEjの中心活性値ejとを加
算し、この加算で得た値を文書に含まれるエレメントの
総数で除することにより求められる。
【0073】文書処理装置は、CPU13の制御のもと
に、例えばRAM14から必要な端点活性値及び中心活
性値を読み出す。文書処理装置は、読み出された端点活
性値及び中心活性値について、上述のようにその通常リ
ンクと接続された端点の新たな端点活性値を計算する。
そして、文書処理装置は、このように計算した新たな端
点活性値を、例えばRAM14に記憶させる。
【0074】一方、文書処理装置は、リンクLijが通常
リンクでないと判断した場合には、ステップS54にお
いて、エレメントEiの参照リンクに接続された端点T
ijの端点活性値を計算する処理を行う。
【0075】このステップS54では、ステップS52
における判別により、リンクLijが参照リンクであるこ
とが明らかになっている。エレメントEiの参照リンク
ijに接続される端点Tijの端点活性値tijは、エレメ
ントEjの端点活性値のうち、リンクLijを除いたリン
クに接続される全ての端点Tjp,Tjq,tjrの端点活性
値tjp,tjq,tjrと、エレメントEiがリンクLij
より接続されるエレメントEjの中心活性値ejとを加算
することにより求められる。
【0076】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された端点活性値及び中心
活性値から、必要な端点活性値及び中心活性値を読み出
す。文書処理装置は、読み出された端点活性値及び中心
活性値を用いて、上述のように参照リンクと接続された
新たな端点活性値を計算する。そして、文書処理装置
は、このように計算した端点活性値を、例えばRAM1
4に記憶させる。
【0077】これらのステップS53における通常リン
クの処理及びステップS54における参照リンクの処理
は、ステップS52からステップS55に至り、ステッ
プS57を介してステップS52に戻るループに示すよ
うに、カウント値iにより参照されているエレメントE
iに接続される全てのリンクLijに対して実行される。
なお、ステップS57では、エレメントEiに接続され
るリンクを計数するカウント値jをインクリメントして
いる。
【0078】文書処理装置は、これらのステップS53
又はステップS54の処理を行った後、ステップS55
において、CPU13の制御のもとに、エレメントEi
に接続される全てのリンクについて端点活性値が計算さ
れたか否かを判別する。そして、文書処理装置は、全て
のリンクについて端点活性値が計算されていると判断し
た場合には、ステップS56の処理へと移行し、全ての
リンクについて端点活性値が計算されていないと判断し
た場合には、ステップS57へと処理を移行する。
【0079】ここで、文書処理装置は、全てのリンクに
ついて端点活性値が計算されていると判断した場合に
は、ステップS56において、CPU13の制御のもと
に、エレメントEiの中心活性値eiの更新を実行する。
【0080】エレメントEi の中心活性値ei の新たな
値、すなわち更新値は、エレメントEiの現在の中心活
性値eiと、エレメントEiの全ての端点の新たな端点活
性値との和であるei’=ei+Σtj’をとることによ
り求められる。ここで、プライム“’”は、新たな値と
いう意味である。このように、新たな中心活性値は、そ
のエレメントの元の中心活性値に、そのエレメントの端
点の新たな端点活性値の総和に加えることにより得られ
る。
【0081】文書処理装置は、CPU13の制御のもと
に、例えばRAM14に記憶された端点活性値及び中心
活性値から必要な端点活性値を読み出す。文書処理装置
は、上述したような計算を実行し、そのエレメントEi
の中心活性値eiを算出する。そして、文書処理装置
は、計算した新たな中心活性値eiを例えばRAM14
に記憶させる。
【0082】このようにして、文書処理装置は、文書中
の各エレメントについて、新たな中心活性値を計算す
る。そして、文書処理装置は、このようにして図6中の
ステップS21における活性拡散を実行する。
【0083】続いて、文書処理装置は、図6中のステッ
プS22において、CPU13の制御のもとに、先に図
4に示した表示部30に表示されているウィンドウ19
0の表示領域220の大きさ、すなわちこの表示領域2
20に表示可能な最大文字数をWsと設定する。また、
文書処理装置は、CPU13の制御のもとに、要約文S
を初期化して初期値S0=””と設定する。これは、要
約文に何も文字列が存在していないことを示す。文書処
理装置は、このように設定した、表示領域220に表示
可能な最大文字数Ws及び要約文Sの初期値S0を、例え
ばRAM14に記憶させる。
【0084】続いて、文書処理装置は、ステップS23
において、CPU13の制御のもとに、要約文の骨格の
順次での作成をカウントするカウンタのカウント値iを
“1”に設定する。すなわち、文書処理装置は、カウン
ト値について、i=1と設定する。文書処理装置は、こ
のように設定したカウント値iを例えばRAM14に記
憶させる。
【0085】続いて、文書処理装置は、ステップS24
において、CPU13の制御のもとに、カウンタのカウ
ント値iについて、要約文作成対照の文章からi番目に
平均中心活性値の高い文の骨格を抽出する。ここで、平
均中心活性値とは、1つの文を構成する各エレメントの
中心活性値を平均したものである。文書処理装置は、例
えばRAM14に記憶させた要約文Si-1を読み出し、
この要約文Si-1に対して抽出した文の骨格の文字列を
加えて、要約文Siとする。そして、文書処理装置は、
このようにして得た要約文Siを、例えばRAM14に
記憶させる。同時に、文書処理装置は、文の骨格に含ま
れないエレメントの中心活性値順のリストliを作成
し、このリストliを例えばRAM14に記憶させる。
【0086】すなわち、このステップS24において
は、文書処理装置は、CPU13の制御のもとに、活性
拡散の結果を用いて、平均中心活性値の大きい順に文を
選択し、選択された文の骨格を抽出する。文の骨格は、
文から抽出した必須エレメントにより構成される。必須
エレメントになり得るものは、エレメントの主辞(hea
d)と、主語(subject)、目的語(object)、間接目的
語(indirect object)、所有者(posessor)、原因(c
ause)、条件(condition)又は比較(comparison)の
関係属性を有するエレメントと、等位構造とされた関連
するエレメントが必須エレメントのときには、その等位
構造に直接含まれるエレメントとである。文書処理装置
は、文の必須エレメントをつなげて文の骨格を生成し、
要約文に加える。
【0087】続いて、文書処理装置は、ステップS25
において、CPU13の制御のもとに、要約文Siの長
さ、すなわち文字数が、ウィンドウ190の表示領域2
20の最大文字数Wsよりも多いか否かを判断する。
【0088】ここで、文書処理装置は、要約文Siの文
字数が最大文字数Wsよりも多いと判断した場合には、
ステップS30において、CPU13の制御のもとに、
要約文Si-1を最終的な要約文として設定し、一連の処
理を終了する。なお、この場合には、要約文Si=S0
“”を出力するため、要約文は、表示領域220に表示
されないことになる。
【0089】一方、文書処理装置は、要約文Siの文字
数が最大文字数Wsよりも多くないと判断した場合に
は、ステップS26の処理へと移行し、CPU13の制
御のもとに、i+1番目に平均中心活性値が高い文の平
均中心活性値と、ステップS24で作成したリストli
のエレメントの中で最も中心活性値が高いエレメントの
中心活性値とを比較する。そして、文書処理装置は、i
+1番目に平均中心活性値が高い文の平均中心活性値
が、リストliのエレメントの中で最も中心活性値が高
いエレメントの中心活性値よりも高いと判断した場合に
は、ステップS27へと処理を移行する。一方、文書処
理装置は、i+1番目に平均中心活性値が高い文の平均
中心活性値が、リストliのエレメントの中で最も中心
活性値が高いエレメントの中心活性値よりも高くないと
判断した場合には、ステップS28へと処理を移行す
る。
【0090】文書処理装置は、i+1番目に平均中心活
性値が高い文の平均中心活性値が、リストliのエレメ
ントの中で最も中心活性値が高いエレメントの中心活性
値よりも高いと判断した場合には、ステップS27にお
いて、CPU13の制御のもとに、カウンタのカウント
値iを“1”だけインクリメントさせ、ステップS24
へと処理を戻す。
【0091】また、文書処理装置は、i+1番目に平均
中心活性値が高い文の平均中心活性値が、リストli
エレメントの中で最も中心活性値が高いエレメントの中
心活性値よりも高くないと判断した場合には、ステップ
S28において、CPU13の制御のもとに、リストl
iのエレメントの中で最も中心活性値の高いエレメント
eを要約文Siに加えてSSiを生成し、さらに、エレメ
ントeをリストliから削除する。そして、文書処理装
置は、このようにして生成した要約文SSiを例えばR
AM14に記憶させる。
【0092】続いて、文書処理装置は、ステップS29
において、CPU13の制御のもとに、要約文SSi
文字数がウィンドウ190の表示領域220の最大文字
数Wsよりも多いか否かを判別する。文書処理装置は、
要約文SSiの文字数が最大文字数Wsよりも多くないと
判別した場合には、ステップS26からの処理を繰り返
す。一方、文書処理装置は、要約文SSiの文字数が最
大文字数Wsよりも多いと判別した場合には、ステップ
S31において、CPU13の制御のもとに、要約文S
iを最終的な要約文として設定し、表示領域220に表
示して一連の処理を終了する。このようにして、文書処
理装置は、最大文字数Wsよりも多くならないように要
約文を生成する。
【0093】文書処理装置は、このような一連の処理を
行うことによって、タグ付けされた文書を要約して要約
文を作成することができる。文書処理装置は、例えば図
4に示した文書を要約した場合には、図10に示すよう
な要約文を作成し、表示範囲の表示領域220に表示す
る。
【0094】すなわち、文書処理装置は、「TCP/IPの歴
史はARPANETを抜きにして語ることはできない。ARPANET
は1969年北米西海岸の4個所の大学、研究機関のホスト
コンピュータを50kbpsの回線で結んだ小規模なネットワ
ークからARPANETは出発した。当時は1964年にメインフ
レームの汎用コンピュータシリーズが開発された。この
時代背景を考えると、将来のコンピュータ通信の最盛を
見越したこのようなプロジェクトは、まさに米国ならで
はのものであったといえるだろう。」という要約文を作
成し、表示領域220に表示する。
【0095】文書処理装置においては、ユーザは、文書
の全文章を一読する代わりに、この要約文を読むこと
で、文章の概要を理解し、この文章が所望する情報であ
るか否かを判定することができる。
【0096】なお、文書処理装置においては、文書中の
エレメントに対して重要度を付与する方法としては、必
ずしも上述したような活性拡散を用いる必要はなく、例
えば、文書中に出現する単語の重みの総和を文書の重要
度とする方法でもよい。また、重要度の付与方法は、こ
れらの方法以外のものを利用することもできる。さら
に、表示領域200のキーワード入力部192にキーワ
ードを入力することによって、そのキーワードに基づい
た重要度の設定を行うこともできる。
【0097】さて、文書処理装置は、先に図5に示した
ように、表示部31に表示されるウィンドウ190の表
示領域220の表示範囲を拡大することができるが、作
成した要約文が表示領域220に表示されている状態に
おいて、表示領域220の表示範囲を変更すると、その
表示範囲に応じて、要約文の情報量を変更することがで
きる。
【0098】この場合、文書処理装置は、CPU13の
制御のもとに、ユーザが入力部20を操作することに対
応して、表示部31に表示されたウィンドウ190の表
示領域220の表示範囲が変更されるまで待機する。そ
して、文書処理装置は、表示領域220の表示範囲が変
更されると、CPU13の制御のもとに、先に図6に示
した一連の処理と同様の処理を行い、表示領域220の
表示範囲に対応した要約文を作成する。
【0099】文書処理装置は、このようにして、表示領
域220の表示範囲に応じた要約文を新たに作成するこ
とができる。例えば、文書処理装置は、ユーザが入力部
20のマウスをドラッグ操作することにより表示領域2
20の表示範囲を拡大すると、より詳細な要約文を新た
に作成し、図11に示すように、新たな要約文をウィン
ドウ190の表示領域220に表示する。
【0100】すなわち、文書処理装置は、「TCP/IPの歴
史はARPANETを抜きにして語ることはできない。ARPANET
はアメリカ国防省DODの国防高等研究計画局がスポンサ
ーとなって構築されてきた、実験および研究用のパケッ
ト交換ネットワークである。1969年北米西海岸の4個所
の大学、研究機関のホストコンピュータを50kbpsの回線
で結んだきわめて小規模なネットワークからARPANETは
出発した。当時は1945年に世界初のコンピュータである
ENIACがペンシルバニア大学で開発され、1964年にはじ
めてICを理論素子として実装したメインフレームの汎用
コンピュータシリーズが開発され、やっとコンピュータ
が産声をあげたばかりあった。この時代背景を考える
と、将来のコンピュータ通信の最盛を見越したこのよう
なプロジェクトは、まさに米国ならではのものであった
といえるだろう。」という要約文を作成し、表示領域2
20に表示する。
【0101】このように、文書処理装置においては、表
示された要約文が簡略すぎて文書の概略を把握すること
ができない場合、ユーザは、表示領域220の表示範囲
を拡大することで、より多くの情報量を有するより詳細
な要約文を参照することができる。
【0102】ここで、文書処理装置は、このようにして
文書の要約文を作成する際に、その要約文中に、代名詞
や限定節が要約文に含まれる場合には置き換えを行い、
また主語や目的語等が省略されている場合には対応する
主語や目的語等を補うような上述したゼロ照応の処理を
行っている。
【0103】先ず、この代名詞等の置き換えやゼロ照応
の具体例について、次のような文書を参照しながら説明
する。
【0104】「仕事について。
【0105】わたしは今の仕事があまり好きではない。
しかし、それをやらなければならない。」この文書のタ
グ付けの例は、次のようになる。
【0106】<文書> <タイトル><形容動詞句 関係=“目的語”><名詞
句>仕事</名詞句>に</形容動詞句>ついて</タ
イトル> <段落> <文><形容動詞句 関係=“主語”><名詞句 識別
子=“識別子1”>わたし</名詞句>は</形容動詞
句><形容動詞句 関係=“目的語”><名詞句識別子
=“識別子0”><形容動詞句>今の</形容動詞句>
仕事</名詞句>が</形容動詞句><動詞><形容動
詞句 関係=“程度”>あまり</形容動詞句><動詞
>好きではない</動詞></動詞>。</文><文>
<形容動詞句>しかし、</形容動詞句><動詞><形
容動詞句 関係=“目的語”><名詞句 参照=“識別
子0”>それ</名詞句>を</形容動詞句><動詞
主語=“識別子1”>やらなければならない</動詞>
</動詞>。</文> </段落> </文書>
【0107】この文書において、「それ」という名詞句
は、「参照=“識別子0”」という属性を有し、「識別
子=“識別子0”」を含むエレメントである「今の仕
事」という名詞句を参照している。すなわち、被参照エ
レメントである代名詞「それ」に対応する先行詞となる
参照エレメントが「今の仕事」である。従って、要約文
中に名詞句「それ」が含まれるにも拘わらず名詞句「今
の仕事」が含まれていない場合には、要約文中の「そ
れ」を「今の仕事」に置き換えるものである。
【0108】また、上記文書において、「やらなければ
ならない」という動詞は、「主語=“識別子1”」とい
う属性を有することから、その意味上の主語は、「識別
子=“識別子1”」という属性を有するエレメントであ
る「わたし」という名詞句であることが分かる。すなわ
ち、エレメント「やらなければならない」のゼロ照応エ
レメントが「わたし」である。従って、要約文中に「や
らなければならない」が含まれているにも拘わらず意味
上の主語「わたし」が含まれていない場合には、要約文
中で、「(わたしが)やらなければならない」のように
ゼロ照応エレメントを補うものである。
【0109】このような代名詞等の置き換え処理やゼロ
照応処理は、上述した要約文作成に続いて、あるいは要
約文作成と同時に行われるものであり、これらの処理内
容の具体例について、図12及び図13のフローチャー
トを参照しながら説明する。
【0110】すなわち、図12は、代名詞や限定節が要
約文に含まれる場合の処理を説明するためのフローチャ
ートであり、この図12に示す処理は、例えば上記図6
のステップS30,S31に続いて行われる。この図1
2に示す処理において、文書中の参照・被参照関係にお
ける代名詞などの被参照エレメントをリストアップする
ために被参照リストRBListを用いており、要約用の語彙
エレメントの配列のi番目の要素をti とし、この語彙
エレメントti の参照エレメントをri としている。
【0111】図12の最初のステップS71において、
文書処理装置は、図1のCPU13の制御のもとに、上
記被参照リストRBListを空にする。次のステップS72
で、文書処理装置は、要約用の語彙エレメントを配列順
にカウントするカウンタのカウント値iを1に設定する
(i=1)。
【0112】次のステップS73で、文書処理装置は、
要約用の語彙エレメントの配列のi番目のエレメントt
i に関して、該語彙エレメントti の被参照エレメント
集合を被参照リストRBListに加える。また、語彙エレメ
ントti の参照エレメントをri とする。このステップ
S73での処理は、当該エレメントti を他の代名詞等
が参照している場合には他の代名詞等を被参照リストRB
Listに加え、当該エレメントti が代名詞等であって他
のエレメント(先行詞)を参照している場合には参照し
ているエレメント(先行詞)を参照エレメントri とす
るものである。
【0113】次のステップS74で、文書処理装置は、
語彙エレメントti の参照エレメントri が存在するか
否かを判別する。文書処理装置は、このステップS74
でYES、すなわちri が存在する、と判別されたときは
ステップS75に進み、NOのときはステップS76に
進む。すなわち、ステップS74での判別により、当該
エレメントti が代名詞等であって参照エレメントri
が存在しているときのみ、ステップS75に進む。
【0114】ステップS75で、文書処理装置は、語彙
エレメントti が上記被参照リストRBListの要素である
か否かを判別し、YESのときはステップS76に進み、
NOのときはステップS77に進む。ステップS76
で、文書処理装置は、語彙エレメントti を要約文に追
加し、ステップS79に進む。ステップS77で、文書
処理装置は、ti の参照エレメントri の語彙列を要約
文に追加して、ステップS78に進み、ri の被参照エ
レメント集合を被参照リストRBListに加えた後、ステッ
プS79に進む。
【0115】これらのステップS75〜S78での処理
は、エレメントti が代名詞等であって他のエレメント
を参照している場合に、当該エレメントti が被参照リ
ストRBListの要素であれば、すなわち既に先行詞が要約
文中に含まれていれば、エレメントti を先行詞で置き
換えることなくそのまま要約文に加え、エレメントti
が被参照リストRBListの要素でなければ、先行詞がまだ
要約文中にふくまれていないことから、当該エレメント
i を先行詞である参照エレメントri で置き換えて要
約文に加えるものである。
【0116】ステップS79で、文書処理装置は、要約
用の語彙エレメントの配列の全てについてステップS7
3以降の処理が終了したか否かを判別し、NOのときは
ステップS80にて上記カウント値iを1だけインクリ
メント(i=i+1)した後、ステップS73に戻り、
YESのときは処理を終了する。
【0117】以上のような置き換え処理により、要約文
中に代名詞や限定節等の被参照エレメントが存在するに
も拘わらず、対応する先行詞としての参照エレメントが
要約文中に含まれていない場合に、最初に現れた被参照
エレメントti が参照エレメントri で置き換えられる
と共に、この参照エレメントri の被参照エレメント集
合が被参照リストRBListに加えられるから、その後の同
じ参照エレメントriに対応する被参照エレメントにつ
いては、置き換えされずにそのまま要約文に加えられる
ことになる。
【0118】なお、図12に示す具体的な置き換え処理
の例については、上記図6に示す要約文作成の処理に続
いて行うものとして説明しているが、要約文作成と同時
に行わせてもよい。
【0119】次に、図13は、要約文に省略された主語
や目的語等を含む文が存在する場合の前述したようなゼ
ロ照応処理を説明するためのフローチャートであり、こ
の図13に示す処理は、例えば上記図6のステップS3
0,S31に続いて、上記図12の処理の前、後、ある
いは同時に行われる。この図13に示す処理において、
文書中の省略された主語や目的語等のゼロ照応エレメン
トをリストアップするためにゼロ照応リストZAListを用
いており、要約用の語彙エレメントの配列のi番目の要
素をti とし、この語彙エレメントti のゼロ照応エレ
メントをzi としている。
【0120】図13の最初のステップS81において、
文書処理装置は、図1のCPU13の制御のもとに、上
記ゼロ照応リストZAListを空にする。次のステップS8
2で、文書処理装置は、要約用の語彙エレメントを配列
順にカウントするカウンタのカウント値iを1に設定す
る(i=1)。
【0121】次のステップS83で、文書処理装置は、
要約用の語彙エレメントの配列のi番目の要素をti
関して、該語彙エレメントti のゼロ照応エレメントが
存在すればそれをri とする。次のステップS84で、
文書処理装置は、語彙エレメントti のゼロ照応エレメ
ントzi が存在するか否かを判別する。このステップS
84でYES(ゼロ照応エレメントzi が存在)と判別さ
れたときはステップS85に進み、NOのときはステッ
プS86に進む。
【0122】ステップS85で、文書処理装置は、語彙
エレメントti が上記ゼロ照応リストZAListの要素であ
るか否かを判別し、YESのときはステップS86に進
み、NOのときはステップS87に進む。ステップS8
6では、語彙エレメントti を要約文に追加し、ステッ
プS89に進む。文書処理装置は、ステップS87で
は、ゼロ照応エレメントzi が要約文中に既に含まれて
存在しているか否かを判別し、YESのときは上記ゼロ照
応リストZAListにゼロ照応エレメントzi を加えてステ
ップS86に進み、NOのときはステップS89に進
む。ステップS89で、文書処理装置は、語彙エレメン
トti のゼロ照応エレメントzi の語彙列を括弧でくく
り、語彙エレメントti と共に要約文に追加して、ステ
ップS90に進み、語彙エレメントti とゼロ照応エレ
メントzi とをゼロ照応リストZAListに加えた後、ステ
ップS91に進む。ステップS89、S90において
は、文書処理装置は、ゼロ照応エレメントzi が主語な
らばその語彙列に「が」を付加して括弧でくくり、目的
語ならばその語彙列に「を」を付加して括弧でくくっ
て、語彙エレメントti の前あるいは後に配置する。日
本語の場合には、ゼロ照応エレメントは語彙エレメント
の前に配置する。
【0123】文書処理装置は、ステップS91で、要約
用の語彙エレメントの配列の全てについてステップS8
3以降の処理が終了したか否かを判別し、NOのときは
ステップS92にて上記カウント値iを1だけインクリ
メント(i=i+1)した後、ステップS83に戻り、
YESのときは処理を終了する。
【0124】以上のようなゼロ照応処理により、要約文
中に主語や目的語等が省略されたエレメントti が存在
するにも拘わらず、対応するゼロ照応エレメントzi
要約文中に含まれていない場合に、当該エレメントti
にゼロ照応エレメントzi が括弧でくくられて付加され
ると共に、このエレメントti とゼロ照応エレメントz
i とがゼロ照応リストZAListに加えられるから、その後
の同じゼロ照応エレメントzi に対応するエレメントに
ついては、ゼロ照応エレメントzi が付加されずにその
まま要約文に加えられることになる。
【0125】ところで、これらの図12に示す代名詞等
の置き換え処理や、図13に示すゼロ照応処理を、上述
した図6に示した要約文作成に続いて行う場合には、要
約文中の文字数が変化し、上述した要約文の最大文字
数、すなわち上記要約文表示領域の大きさに応じて決ま
る表示可能な最大文字数を超えてしまったり、最大文字
数よりも少なくなってしまうことがある。そこで、要約
文中の文字数を上記最大文字数以内の最大の文字数にす
るために、最終的な文字数の調整作業が必要である。こ
れは、上記代名詞等の置き換え処理やゼロ照応処理を行
うことにより要約文中の文字数が最大文字数を超えた場
合には、要約文中の重要度の低いエレメント、すなわち
上記中心活性値の低いエレメントから順次削除して、要
約文中の文字数が上記最大文字数以内に収まるようにす
る。また、文字数が最大文字数よりも少なくなった場合
には、元の文書中の要約文に含まれないエレメントの内
の最も中心活性値が高いエレメントから順に要約文中に
付加して行き、上記最大文字数を超える直前でエレメン
トの付加を停止することで、上記最大文字数に最も近
く、最大文字数以内の文字数の要約文を得ることができ
る。
【0126】なお、本実施の形態においては、文書への
タグ付けの方法の一例を示したが、本発明がこのタグ付
けの方法に限定されないことは勿論である。また、本実
施の形態においては、文書処理装置の通信部22に外部
から電話回線を介して文書が送信されるとしたが、本発
明はこれに限定されない。例えば、衛星等を介して文書
が送信される場合にも適用でき、また、記録/再生部3
1において記録媒体32から読み出されたり、文書処理
装置のROM13に文書が書き込まれていたりしてもよ
い。
【0127】また、本発明の実施の形態においては、上
記図1の記録媒体32として、上述した文書処理プログ
ラムが書き込まれたディスク状記録媒体やテープ状記録
媒体等を提供することも容易に実現できる。さらに、上
述した文書処理プログラムについては、通信回線等の伝
送媒体を介して供給することも容易に実現できる。
【0128】また、上述の実施の形態においては、文書
処理装置の表示部30に表示された文書から所望のエレ
メントを選択するデバイスとしてマウスを例示したが、
本発明がこれに限定されないことはいうまでもない。文
書処理装置におけるエレメントの入力には、タブレッ
ト、ライトペン等の他のデバイスを利用することができ
る。
【0129】さらに、上述の実施の形態においては日本
語の文章を例示したが、本発明は、日本語に限定され
ず、英語、ドイツ語、フランス語、ロシア語、イタリア
語、スペイン語、中国語、韓国語等の種々の言語に適用
できることはいうまでもない。
【0130】
【発明の効果】以上の説明からも明らかなように、本発
明によれば、文書の要約文を作成し、作成される要約文
中に含まれる被参照エレメントに対応する参照エレメン
トが要約文中に含まれていないときに元の文書中の対応
する参照エレメントを要約文中の被参照エレメントに置
き換えることにより、要約文中に代名詞や限定節等の被
参照エレメントが存在するにも拘わらず、対応する先行
詞としての参照エレメントが要約文中に含まれていない
場合に、最初に現れた被参照エレメントが参照エレメン
トで置き換えられ、その後の同じ参照エレメントに対応
する被参照エレメントについては、置き換えされずにそ
のまま要約文に加えられる。
【0131】これによって、要約文中に先行詞なしの代
名詞や限定節が含まれることが回避され、ユーザの理解
が容易で正確な内容の要約文を自動生成することができ
る。
【図面の簡単な説明】
【図1】本実施の形態を適用した文書処理装置の概略構
成を示すブロック図である。
【図2】文書のタグ付けによる内部構造の一例を示す図
である。
【図3】文書のタグ付けによる内部構造を表示したウィ
ンドウを示す図である。
【図4】文書を表示したウィンドウを示す図である。
【図5】文書を表示したウィンドウを示す図であって、
要約文を表示する表示領域が図13に示す表示領域より
も拡大された様子を示す図である。
【図6】要約文を作成する際の一連の処理を説明するフ
ローチャートである。
【図7】活性拡散を行う際の一連の処理を説明するフロ
ーチャートである。
【図8】活性拡散の処理を説明するためのエレメントの
連結構造を示す図である。
【図9】活性拡散のリンク処理を行う際の一連の処理を
説明するフローチャートである。
【図10】文書とその要約文を表示したウィンドウを示
す図である。
【図11】文書とその要約文を表示したウィンドウを示
す図であって、図5に示すウィンドウに要約文を表示し
た様子を示す図である。
【図12】被参照エレメントが要約文に含まれる場合の
参照エレメントでの置き換え処理を説明するためのフロ
ーチャートである。
【図13】要約文中でのゼロ照応処理を説明するための
フローチャートである。
【符号の説明】
10 文書処理装置の本体、 11 制御部、 12
インターフェース、13 CPU、 20 入力部、
22 通信部、 30 表示部、 31 記録/再生
部、 32 記録媒体、 33 ハードディスク装置

Claims (21)

    【特許請求の範囲】
  1. 【請求項1】 電子文書の形態の文書を処理する文書処
    理方法において、 上記文書の要約文を作成する要約文作成工程と、 上記作成される要約文中に含まれる被参照エレメントに
    対応する参照エレメントが上記要約文中に含まれていな
    いときに元の文書中の上記対応する参照エレメントを上
    記要約文中の被参照エレメントに置き換える置き換え工
    程とを有することを特徴とする文書処理方法。
  2. 【請求項2】 上記要約文作成工程は、 上記文書の要約文が表示される要約文表示領域の全表示
    領域内における大きさを可変に設定する設定工程と、 上記設定工程で設定された表示領域の大きさに基づいて
    上記文書の要約文の長さを決定する決定工程と、 上記決定工程で決定された要約文の長さに基づいて上記
    要約文表示領域内におさまる長さの上記文書の要約文を
    作成する工程とを有して成ることを特徴とする請求項1
    記載の文書処理方法。
  3. 【請求項3】 上記文書は、複数のエレメントが階層化
    された内部構造を有し、上記内部構造を示すタグ情報が
    予め付与されていることを特徴とする請求項1記載の文
    書処理方法。
  4. 【請求項4】 上記タグ情報には、上記複数のエレメン
    トの間の参照、被参照の関係を示す属性情報を含むこと
    を特徴とする請求項3記載の文書処理方法。
  5. 【請求項5】 上記要約文作成工程では、上記タグ情報
    に基づいて活性拡散を行うことにより、上記文書の要約
    文を作成することを特徴とする請求項3記載の文書処理
    方法。
  6. 【請求項6】 上記置き換え工程は、上記要約文中の被
    参照エレメントに対応する参照エレメントが要約文中に
    含まれているか否かを判別し、上記対応する参照エレメ
    ントが要約文中に含まれていないとき上記要約文中の上
    記被参照エレメントを上記対応する参照エレメントに置
    き換え、上記対応する参照エレメントが要約文中に含ま
    れているとき上記要約文中の上記被参照エレメントを置
    き換えないことを特徴とする請求項1記載の文書処理方
    法。
  7. 【請求項7】 上記被参照エレメントは代名詞又は限定
    節であり、上記参照エレメントは先行詞であることを特
    徴とする請求項1記載の文書処理方法。
  8. 【請求項8】 電子文書の形態の文書を処理する文書処
    理装置において、 上記文書の要約文を作成する要約文作成手段と、 上記作成される要約文中に含まれる被参照エレメントに
    対応する参照エレメントが上記要約文中に含まれていな
    いときに元の文書中の上記対応する参照エレメントを上
    記要約文中の被参照エレメントに置き換える置き換え手
    段とを有することを特徴とする文書処理装置。
  9. 【請求項9】 上記要約文作成手段は、 上記文書の要約文が表示される要約文表示領域の全表示
    領域内における大きさを可変に設定する設定手段と、 上記設定手段で設定された表示領域の大きさに基づいて
    上記文書の要約文の長さを決定する決定手段と、 上記決定手段で決定された要約文の長さに基づいて上記
    要約文表示領域内におさまる長さの上記文書の要約文を
    作成する手段とを有して成ることを特徴とする請求項8
    記載の文書処理装置。
  10. 【請求項10】 上記文書は、複数のエレメントが階層
    化された内部構造を有し、上記内部構造を示すタグ情報
    が予め付与されていることを特徴とする請求項8記載の
    文書処理装置。
  11. 【請求項11】 上記タグ情報には、上記複数のエレメ
    ントの間の参照、被参照の関係を示す属性情報を含むこ
    とを特徴とする請求項10記載の文書処理装置。
  12. 【請求項12】 上記要約文作成手段は、上記タグ情報
    に基づいて活性拡散を行うことにより、上記文書の要約
    文を作成することを特徴とする請求項10記載の文書処
    理装置。
  13. 【請求項13】 上記置き換え手段は、上記要約文中の
    被参照エレメントに対応する参照エレメントが要約文中
    に含まれているか否かを判別し、上記対応する参照エレ
    メントが要約文中に含まれていないとき上記要約文中の
    上記被参照エレメントを上記対応する参照エレメントに
    置き換え、上記対応する参照エレメントが要約文中に含
    まれているとき上記要約文中の上記被参照エレメントを
    置き換えないことを特徴とする請求項8記載の文書処理
    装置。
  14. 【請求項14】 上記被参照エレメントは代名詞又は限
    定節であり、上記参照エレメントは先行詞であることを
    特徴とする請求項8記載の文書処理装置。
  15. 【請求項15】 電子文書の形態の文書を処理するコン
    ピュータ制御可能な文書処理プログラムが記録された記
    録媒体において、 上記文書処理プログラムは、 上記文書の要約文を作成する要約文作成工程と、 上記作成される要約文中に含まれる被参照エレメントに
    対応する参照エレメントが上記要約文中に含まれていな
    いときに元の文書中の上記対応する参照エレメントを上
    記要約文中の被参照エレメントに置き換える置き換え工
    程とを有することを特徴とする文書処理プログラムが記
    録された記録媒体。
  16. 【請求項16】 上記要約文作成工程は、 上記文書の要約文が表示される要約文表示領域の全表示
    領域内における大きさを可変に設定する設定工程と、 上記設定工程で設定された表示領域の大きさに基づいて
    上記文書の要約文の長さを決定する決定工程と、 上記決定工程で決定された要約文の長さに基づいて上記
    要約文表示領域内におさまる長さの上記文書の要約文を
    作成する工程とを有して成ることを特徴とする請求項1
    5記載の文書処理プログラムが記録された記録媒体。
  17. 【請求項17】 上記文書は、複数のエレメントが階層
    化された内部構造を有し、上記内部構造を示すタグ情報
    が予め付与されていることを特徴とする請求項15記載
    の文書処理プログラムが記録された記録媒体。
  18. 【請求項18】 上記タグ情報には、上記複数のエレメ
    ントの間の参照、被参照の関係を示す属性情報を含むこ
    とを特徴とする請求項17記載の文書処理プログラムが
    記録された記録媒体。
  19. 【請求項19】 上記要約文作成工程では、上記タグ情
    報に基づいて活性拡散を行うことにより、上記文書の要
    約文を作成することを特徴とする請求項17記載の文書
    処理プログラムが記録された記録媒体。
  20. 【請求項20】 上記置き換え工程は、上記要約文中の
    被参照エレメントに対応する参照エレメントが要約文中
    に含まれているか否かを判別し、上記対応する参照エレ
    メントが要約文中に含まれていないとき上記要約文中の
    上記被参照エレメントを上記対応する参照エレメントに
    置き換え、上記対応する参照エレメントが要約文中に含
    まれているとき上記要約文中の上記被参照エレメントを
    置き換えないことを特徴とする請求項15記載の文書処
    理プログラムが記録された記録媒体。
  21. 【請求項21】 上記被参照エレメントは代名詞又は限
    定節であり、上記参照エレメントは先行詞であることを
    特徴とする請求項15記載の文書処理プログラムが記録
    された記録媒体。
JP11212651A 1999-07-27 1999-07-27 文書処理方法及び装置並びに記録媒体 Withdrawn JP2001043219A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11212651A JP2001043219A (ja) 1999-07-27 1999-07-27 文書処理方法及び装置並びに記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11212651A JP2001043219A (ja) 1999-07-27 1999-07-27 文書処理方法及び装置並びに記録媒体

Publications (1)

Publication Number Publication Date
JP2001043219A true JP2001043219A (ja) 2001-02-16

Family

ID=16626166

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11212651A Withdrawn JP2001043219A (ja) 1999-07-27 1999-07-27 文書処理方法及び装置並びに記録媒体

Country Status (1)

Country Link
JP (1) JP2001043219A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
JP2008033470A (ja) * 2006-07-27 2008-02-14 Mitsubishi Electric Building Techno Service Co Ltd ビル設備作業報告書作成システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006178978A (ja) * 2004-12-21 2006-07-06 Palo Alto Research Center Inc ユーザ関心反映型検索結果指示子使用及び作成システム及び方法
JP2008033470A (ja) * 2006-07-27 2008-02-14 Mitsubishi Electric Building Techno Service Co Ltd ビル設備作業報告書作成システム

Similar Documents

Publication Publication Date Title
US6981218B1 (en) Document processing apparatus having an authoring capability for describing a document structure
US7941745B2 (en) Method and system for tagging electronic documents
US7992085B2 (en) Lightweight reference user interface
US7191131B1 (en) Electronic document processing apparatus
JP4214598B2 (ja) 文書処理方法および装置ならびに記録媒体
EP0952533B1 (en) Text summarization using part-of-speech
US7610546B1 (en) Document processing apparatus having capability of controlling video data
US20070005649A1 (en) Contextual title extraction
JPH11161682A (ja) 情報検索装置、情報検索方法及び記録媒体
JPH1125098A (ja) 情報処理装置、リンク先ファイルの取得方法および記憶媒体
JP3143345B2 (ja) 文字列検索装置
WO2000043909A1 (fr) Procede et dispositif de traitement de documents et support d'enregistrement
GB2380109A (en) Apparatus for interpreting electronic legal documents
JP2001043220A (ja) 文書処理方法及び装置並びに記録媒体
JP2001109762A (ja) 文書処理方法及び装置並びに記録媒体
JP2001043219A (ja) 文書処理方法及び装置並びに記録媒体
JP2000099526A (ja) 文書情報抽出装置
JP2001027997A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP3734101B2 (ja) ハイパーメディア構築支援装置
JP2000353165A (ja) 文書処理方法及び装置並びに記録媒体
JP2001027996A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP2001014305A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体
JP3537260B2 (ja) リンク付文書検索表示システム
JP3969689B2 (ja) 文書作成支援装置、文書作成支援方法及び文書作成支援プログラムを記憶した記憶媒体
JP2001014137A (ja) 電子文書処理方法及び電子文書処理装置並びに電子文書処理プログラムが記録された記録媒体

Legal Events

Date Code Title Description
A300 Withdrawal of application because of no request for examination

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20061003