JP2000305928A - テキスト集合要約装置 - Google Patents

テキスト集合要約装置

Info

Publication number
JP2000305928A
JP2000305928A JP11113552A JP11355299A JP2000305928A JP 2000305928 A JP2000305928 A JP 2000305928A JP 11113552 A JP11113552 A JP 11113552A JP 11355299 A JP11355299 A JP 11355299A JP 2000305928 A JP2000305928 A JP 2000305928A
Authority
JP
Japan
Prior art keywords
network
text
text set
node
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP11113552A
Other languages
English (en)
Inventor
Jun Toyoura
潤 豊浦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
REAL WORLD COMPUTING PARTNERSH
Mitsubishi Electric Corp
Real World Computing Partnership
Original Assignee
REAL WORLD COMPUTING PARTNERSH
Mitsubishi Electric Corp
Real World Computing Partnership
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by REAL WORLD COMPUTING PARTNERSH, Mitsubishi Electric Corp, Real World Computing Partnership filed Critical REAL WORLD COMPUTING PARTNERSH
Priority to JP11113552A priority Critical patent/JP2000305928A/ja
Publication of JP2000305928A publication Critical patent/JP2000305928A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 類似の内容を持つ複数のテキスト集合の内容
を一括して要約することができるテキスト集合要約装置
を提供する。 【解決手段】 本発明に係るテキスト集合要約装置は、
テキスト集合を入力とし、テキストの文法的・意味的に
解析した結果を出力する文脈解析部(20)と、前記文
脈解析部の出力を入力とし、前記文脈解析の結果を単語
に対応するノードと単語間の格関係に対応するリンクに
よって表されるネットワーク表現に変換した結果を出力
するネットワーク構築部(30)と、前記ネットワーク
構築部の出力を入力とし、ネットワーク表現された情報
を自然言語に変換して出力する要約構成部(40)を備
える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキストの要約文
を作成する方式、及び複数のテキストを包絡的に要約す
る方式に関する。
【0002】
【従来の技術】従来のテキストの要約技術の分野には、
単一のテキストの要約を得るための技術として、テキス
ト中の主題を記述しているキーセンテンスを抽出する方
式[1:特開平9ー34905号公報(キーセンテンス
抽出方式及び抄録方式及び文検索方式)]、形態素解析
・構文解析を行ない文の主動詞などを求める方法[2:
特開平5ー101120号公報(文章抄録生成装
置)]、形態素解析・構文解析を行なった後に文間の関
係を求める方法[3:特開平5ー274345号公報
(要約文章生成装置)]などがあった。
【0003】
【発明が解決しようとする課題】自動要約が最も必要と
されるのは、記述内容の要約を知りたいテキストが大量
にあり、これらのテキスト全体に人が目を通すことが物
理的に困難な場合である。特に、対象となるテキストの
記述内容が類似している場合は、タイトルなどの書誌情
報でテキストを分別することは困難であるため、テキス
ト本文の参照が必定である。
【0004】上に示したような状況は、例えば情報検索
で大量のテキストが検索された場合に生じる。このとき
検索されたテキストは、例えば同じ事件について報じた
異なる新聞社の記事のように、表記は異なっていても記
述の概要は同じであるテキストを多く含んでいる。よっ
て、従来技術によりテキストを個別に要約しても、利用
者は同じような要約文を何度も読むことになり、非効率
的であるという問題があった。
【0005】本発明は、こうした問題を解決しようとす
るものであり、類似の内容を持つ複数のテキスト集合の
内容を一括して要約することができるテキスト集合要約
装置を提供することを目的とするものである。
【0006】
【課題を解決するための手段】本発明に係るテキスト集
合要約装置は、テキスト集合を入力とし、テキストの文
法的・意味的に解析した結果を出力する文脈解析部と、
前記文脈解析部の出力を入力とし、前記文脈解析の結果
を単語に対応するノードと単語間の格関係に対応するリ
ンクによって表されるネットワーク表現に変換した結果
を出力するネットワーク構築部と、前記ネットワーク構
築部の出力を入力とし、ネットワーク表現された情報を
自然言語に変換して出力する要約構成部を備えるもので
ある。
【0007】また、本発明の好適な態様に係るテキスト
集合要約装置は、そのネットワーク構築部に対して入出
力を持つ同義語・上位下位語情報を持つシソーラスを備
えるものである。
【0008】さらに、本発明の他の好適な態様に係るテ
キスト集合要約装置は、そのネットワーク構築部で出力
するネットワークの任意のノードを、ユーザが取捨選択
する手段を備え、前記ネットワーク構築部はユーザの選
択した語を含むネットワークを再構築するものである。
【0009】さらにまた、本発明の更に他の好適な態様
に係るテキスト集合要約装置は、そのネットワーク構築
部で出力するネットワークのリンクが、両端のノードに
対応する単語間に係り受けの関係があったテキストを特
定するラベルを持ち、前記ネットワーク構築部はユーザ
の指定したテキストを含むネットワークを再構築するも
のである。
【0010】また、本発明の更にまた他の好適な態様に
係るテキスト集合要約装置は、そのネットワーク構築部
で出力するネットワークのリンクが、入力テキスト中で
両端のノードに対応する単語間に係り受けの関係があっ
た頻度を表す頻度情報を持ち、ユーザが頻度の閾値を入
力する手段を備え、前記ネットワーク構築部は前記ユー
ザの所定の閾値以上の頻度情報を持つ前記リンクと、そ
の両端のノードだけをを用いてネットワークを再構築す
るものである。
【0011】
【発明の実施の形態】以下、添付図面を参照して本発明
の実施の形態について説明する。
【0012】実施の形態1.図1は本発明の実施の形態
1に係るテキスト集合要約装置を示すものである。この
テキスト集合要約装置では、複数のテキストを要素に持
つテキスト集合10が、テキストの文法的・意味的に解
析した結果を出力する文脈解析部20に入力され、この
文脈解析部20の出力は、文脈解析の結果を単語に対応
するノードと単語間の格関係に対応するリンクによって
表されるネットワーク表現に変換した結果を出力するネ
ットワーク構築部30に入力され、このネットワーク構
築部30の出力は、ネットワーク表現された情報を自然
言語に変換して出力する要約構成部40に入力され、こ
の要約構成部40の出力が、前記テキスト集合10の要
約出力50として出力される。
【0013】次に、図1乃至10を参照して、この実施
の形態1について具体的に説明する。文脈解析部20に
入力されたテキスト集合10のテキストが、文脈解析部
20で処理される手順を図2に示す。この図2に示すよ
うに、入力されたテキストは、最初に、テキスト整形部
21において、必要に応じて整形される。具体的には、
余分な空白や、文の途中での改行や、HTML(HYP
ER TEXT MARKUP LANGUAGE)の
タグなど、言語とは無関係な情報が除去される。次に、
このように整形されたテキストは、文分割部22で、句
点や疑問符など文の終端を示す記号の情報を用いて、文
単位に分割される。次に、抽出された文は、形態素解析
部23において、単語に分割され、各単語には品詞が割
り当てられる。最後に、形態素解析結果は、統語解析部
24で、係り受け解析される。
【0014】ここで、形態素解析と統語解析について図
3に示す例を使って説明する。いま、図3に示すよう
に、形態素解析部23に、「この評価基準は、機械翻訳
システムを導入しようとするユーザに、導入が望ましい
機械翻訳システムのタイプを提案するものである。」と
いう例文1が入力されたとする。このときの形態素解析
部23の出力を、図3の形態素解析結果に、単語1(品
詞1)単語2(品詞2)…の形式で示す。ここで品詞体
系は必ずしも一通りでなく、形態素解析部23の仕様に
より決まる。
【0015】統語解析部24は、形態素解析部23で出
力された単語と品詞情報を用いて、一般に文節と呼ぶ、
1つ以上の連続する単語から成り、1個以上の自立語を
含む、意味の最小単位を決める。図3では、「この」は
1つで文節を、その次の「評価」「基準」は複合語、続
く「は」は付属語なので「評価基準は」が、1つの文節
となる。なお、句読点は便宜的に直前の文節に含ませて
いる。次に、求めた文節間には係り受け関係が解析され
る。図3の統語解析結果は段組と補助線で係り受け関係
を示したもので、例えば、「この」は連体修飾で直後の
「評価基準は」に係り、「評価基準は」は話題提示とし
て最後の「提案するものである」に係っている。
【0016】最終的には、形態素解析部23と統語解析
部24の両出力が、文脈解析部20から出力される。
【0017】文脈解析部20の出力は、ネットワーク構
築部30に入力され、ネットワーク形式に変換される。
図4に示した、例文1のネットワークを用いてネットワ
ーク形式への変換方法を説明する。まず、統語解析結果
の各文節を構成する単語の中から文節の内容を示すキー
ワードを選択する。例えば、文節「提案するものであ
る」のうち自立語は「提案」「する」「もの」の3語で
あるが、形式名詞「もの」は、具体的な意味を持たず、
またサ変動詞「する」も、それ自体は特定の動作・状態
を表しておらず、直前のサ変名詞に付属的に用いられて
いるため、「提案」が選択される。また、文節「評価基
準は」の自立語「評価」「基準」は連続して複合名詞を
構成していると考えられるので「評価基準」が選択され
ている。
【0018】次に、選択されたキーワードをノードと
し、統語解析結果の係り受け関係をリンクとするネット
ワークが構成される。例えば図4のノード120の「こ
の」の元の文節「この」は、ノード110の「評価基
準」の元の文節「評価基準は」に係っているので、ノー
ド120からノード110に向かってリンクが張られ
る。ここで、係る側の文節の終端に格関係を示す助詞が
ある場合は、その助詞をリンクのラベルとする。例え
ば、例文1の「機械翻訳システムを」から「導入しよう
とする」への係り受けでは、係る側の「機械翻訳システ
ムを」の終端の格助詞「を」が、係り受けの格関係を表
しているので、ノード122からノード121へのリン
クのラベルとして「を」が与えられる。また、例文1の
「機械翻訳システムを」と「機械翻訳システムの」2つ
の文節では、同じキーワード「機械翻訳システム」が選
択されるが、このように異なる文節が同じキーワードを
持つ場合は1つのノードに集約される。例えば、ノード
122からノード121へのリンクとノード122から
ノード112へのリンクは異なる文節「機械翻訳システ
ムを」と「機械翻訳システムの」の係り受けを表すが、
ネットワーク上では同一のノード122が用いられる。
【0019】ここで、例文1の後に「昨年度、当委員会
は機械翻訳システムの評価基準を作成した。」という例
文2が入力されたとする、例文2が文脈解析部20で解
析された結果を図5に示す。図5の結果を図4のネット
ワークに追加した結果を図6に示す。図6で、破線で表
されたノードとリンクが、追加されたものである。「機
械翻訳システム」と「評価基準」は、ノード122とノ
ード110が、既にネットワーク中に存在するため、新
規のノードは作成されていない。このように、ノードは
複数回使われる場合もあるが、ノードが使われた頻度情
報をノードに記憶させることにする。図4、図6では、
ノードのキーワードの右下隅に記された数字が、頻度を
表している。
【0020】以上説明した方法で、複数テキストの入力
に対して、ノード・リンクを必要に応じて追加する形
で、ネットワークが形成され、これを表す情報がネット
ワーク構築部30から出力される。
【0021】ネットワーク構築部30の出力を参照して
要約構成部40が要約を構成する方法を以下に示す。
【0022】まず、要約を構成するための中心になるノ
ードを探す。いまリンクの出る側のノードを葉、入る方
向のノードを根と表現することにする。特に、ノードへ
入る方向のリンクを1本経由する場合は、リンクの出る
側を1次の葉、ノードへ入る方向のリンクを2本経由す
る場合は、リンクの出る側を2次の葉、一般にノードへ
入る方向のリンクをN本経由する場合は、リンクの出る
側をN次の葉と呼ぶことにする。例えば図6では、ノー
ド100に向けて、ノード110、ノード111、ノー
ド112から、それぞれ3本のリンクが張られており、
上の表現を使えば、ノード100は、3個の1次の葉を
持つ。ノード110を根と見ると、ノード120、ノー
ド122が葉のノードになり、ノード111については
ノード121が、ノード112についてはノード122
がそれぞれ葉になる。ここで、ノード122を重複して
数えないことにすれば、結局ノード100は、3個の2
次の葉を持つこととなる。図3、図5の統語解析結果の
右下の文節は、文意を表すことが多く、その文節に対応
するノードには、入る方向のリンクも多く張られる。よ
って、ネットワークの中でも、葉が多いノードは、入力
テキスト群の中でも、筆者の意図に近いと考えられる。
図6では、ノード100、次にノード101が、葉が多
い。両者は1次の葉は同数だが、2次の葉の数に差があ
る。
【0023】一方、根のノードを1個決めることによ
り、その根のノードと葉のノードの組合せで要約文が構
成できる。例えば、図6のノード100を根とすると、
葉のノード110、ノード111、ノード112との組
合せで、「評価基準は、ユーザに、タイプを、提案す
る」という文が再現できる。更に、葉のノードを根とし
たときの葉のノードを含めると、要約文は詳しくなる。
図6のノード100を根とした例では、ノード110の
葉のノード120とノード122、ノード111の葉の
ノード121、ノード112の葉のノード122を用い
ると、要約文は「この評価基準は、機械翻訳システムの
評価基準は、導入ユーザに、機械翻訳システムのタイプ
を提案する」となる。
【0024】次に、要約が含むべき重要なノード探す。
例えば、ノードに記憶させた頻度情報を使えば、図6で
はノード122の「機械翻訳システム」は3回、ノード
110の「評価基準」、ノード121の「導入」が2回
ずつ使われており、中心的な話題であると推察できる。
しかし、出現頻度が高くても重要でないキーワードもあ
る。一般に、連体詞や接続詞などは重要でない、例えば
図6の「この」は指示語で、単語自体には情報がない。
そこで、出現頻度の高いノードから、登録しておいた重
要でない品詞・単語を含むノードを除いたものを、重要
なノードとする。
【0025】要約構成部40は、以上の方法で決定した
根のノードと重要なノードを各々幾つ用いるか、要約は
どの程度詳しくするかをパラメータとして持つ。要約の
詳しさは、要約の対象の範囲を根のノードからN次の葉
のノードまでとして、Nで決める。Nが大きいほど要約
は詳しくなる。また根のノード数をR、重要なノード数
をIとする。NとIの値が大きければ要約は詳しくな
る。しかし、R、N、Iの値が大きすぎると要約の意味
がなくなるので、通常は小さめの値に設定する。例えば
図6について、R、N、Iの値をそれぞれ1に設定して
要約を作成する場合は、ノード100を根として、1次
の葉のノード110、ノード111、ノード112が選
択される。また、ノード122は重要なノードなので、
ノード100の2次の葉であるが、要約に含める。結局
「機械翻訳システムの評価基準は、ユーザに、機械翻訳
システムのタイプを、提案する」という文が要約構成部
40から出力される。
【0026】実施の形態2.図7は、本発明の実施の形
態2に係るテキスト集合要約装置における要約文作成方
式を示すものである。この実施の形態2のテキスト集合
要約装置の構成は図1及び図2に示される前記実施の形
態1と同様である。この実施の形態2では、ネットワー
ク構築部30で文節毎に選択されたキーワードの一部
が、シソーラスで上位語、または同義語のなかの代表語
に置き換えられ、置き換えた語でネットワークが構成さ
れる。具体的には、図7に示すように、ネットワーク構
築部30で選択されたキーワードの上位語がシソーラス
にあるか無いかを調べ、あった場合にはその上位語で置
き換え、無かった場合は、このキーワードの同義語がシ
ソーラスにあるか無いかを調べ、あった場合は同義語の
中の代表語で置き換え、無かっ場合には選択されたキー
ワードをそのまま用いて、ネットワークを構築する。こ
こで、代表語とはシソーラスが定めた同義語の中で最も
代表的な語を指す。例えば、「野球」と「ベースボー
ル」は同義語であるが、「野球」を代表語と決めること
で、「野球」、「ベースボール」と異表記された箇所を
「野球」に統一できる。
【0027】実施の形態3.本発明の実施の形態3に係
るテキスト集合要約装置においては、図1のネットワー
ク構築部30で構築されたネットワークのノードを取捨
選択する手段を備えており、ユーザが不要と考えるノー
ドを除去し、必要と考えるノードを残すことにより、ネ
ットワーク構築部30で自動的に構築されたネットワー
クを、ユーザの意図に応じて再構築する。具体的には、
取捨選択する手段は、ユーザが不要とするノードを特定
する信号を入力する手段を持ち、前記ノードと、そのノ
ードに入出力するリンクを消去する。例えば、図6のネ
ットワークを見たユーザが、ノード120の「この」は
有用な情報を含まないと考えたとき、この取捨選択する
手段を用いてノード120と、ノード120からノード
110へのリンクが削除される。
【0028】実施の形態4.図8及び図9は、本発明の
実施の形態4に係るテキスト集合要約装置における要約
文作成方式を示すものである。この実施の形態4のテキ
スト集合要約装置の構成は図1及び図2に示される前記
実施の形態1とほぼ同様である。この実施の形態4で
は、図1のテキスト集合要約装置にテキスト集合10と
共に、各々のテキストを特定するIDが入力される。そ
して、ネットワーク構築部30で、リンクを生成すると
き入力されたIDがラベルとしてリンクに与えられる。
例を使って説明すると、図3の例文1のIDが001、
図5の例文2のIDが002のテキストだとすると、構
築されるネットワークでは、図8のように、すべてのリ
ンクに001か002がラベルとして付けられている。
ここで、図8のリンクには、テキストのID以外に格情
報を表す助詞もラベルとして付けられているが、テキス
トIDと格情報を表す助詞は対でラベルになるものとす
る。例えば、図8に例文3として、ID003の「ユー
ザが提案する」という入力があった場合、ノード111
からノード100へのリンクには、『「001」+
「に」』に『「003」+「が」』が追加される。ま
た、ノード113からノード101へのリンクのように
格情報を表す助詞がない場合は、格情報が空集合である
と見て『「002」+「φ」』のように、リンクにラベ
ルを与える。
【0029】この実施の形態4は、図9に示すように、
ユーザが前記リンクのラベルを参照し、ユーザの意図に
応じてテキストを取捨選択するテキスト取捨選択手段2
00を更に備える。このテキスト取捨選択手段200を
用いて、ユーザがネットワークを再構築する方法を図9
により説明する。まず、ユーザはネットワーク構築部3
0で構築されたネットワーク上で関心のあるリンクを指
定し、テキスト取捨選択手段200に入力する。テキス
ト取捨選択手段200は、要約構成部40のネットワー
ク制御部41に対して指定されたリンクのラベル上のテ
キストIDを要求し、ネットワーク制御部41はその結
果を入力テキスト210に出力する。入力テキスト21
0からは指定されたIDのテキスト本文がテキスト取捨
選択手段200に出力され、これをユーザが読む。リン
クを指定してテキストを読む過程を任意回数だけ行なっ
た後、ユーザは不要なテキストをテキスト取捨選択手段
200に対して指定する。テキスト取捨選択手段200
は指定された不要テキストのIDをネットワーク制御部
41に出力し、ネットワーク制御部41はネットワーク
上のリンクの持つラベルから前記テキストのIDを、こ
れと対になっている格情報と共に消去する。次に、ラベ
ルが無くなったリンクを消去する。その次に、入力リン
クも出力リンクもないノードを消去する。以上の操作
で、ネットワークが再構築される。
【0030】実施の形態5.図10は、本発明の実施の
形態5に係るテキスト集合要約装置における要約文作成
方式を示すものである。この実施の形態5のテキスト集
合要約装置の構成は図1及び図2に示される前記実施の
形態1と同様である。この実施の形態5では、ネットワ
ーク構築部30で構築するネットワークに関して、新た
にリンクを追加する場合は、頻度情報1をラベルとして
リンクに与え、既に存在するラベルに追加更新する場合
は、更新のときラベルにある頻度情報を1増分させる。
以上のようにリンクの頻度情報を図4のネットワークに
前記例文3が入力されてできたネットワークについて図
10に示した。図10において、ノード111からノー
ド100へのリンクのみが頻度2である。
【0031】この実施の形態5では、ユーザは、ネット
ワーク構築部30にリンクの頻度の閾値を入力する。そ
して、頻度が前記閾値未満のリンクが消去される。次
に、入力リンクも出力リンクもないノードを消去する。
以上の操作で、ネットワークが再構築される。
【0032】
【発明の効果】以上のように、本発明に係るテキスト集
合要約装置によれば、複数のテキストを要素に持つテキ
スト集合を文法的・意味的に解析した結果を、単語に対
応するノードと単語間の格関係に対応するリンクによっ
て表される単一のネットワーク表現に変換し、前記ネッ
トワーク表現から要約を構成するようにしたので、複数
のテキストの内容を1つのネットワークに変換すること
により、入力テキストの全体の要約の作成が可能とな
る。また、要約文の数、要約の詳しさもパラメータを入
力して制御することができる。
【0033】また、本発明によれば、ネットワーク構築
部に対して出入力を持つシソーラスを備えることによ
り、ネットワークを構成するキーワードを少数に抑える
と同時に、類義語や同義語で同じ内容の要約が生成され
ることを回避し、より短く無駄のない要約の作成が可能
となる。
【0034】さらに、本発明によれば、ネットワーク構
築部で出力するネットワークの任意のノードを、ユーザ
が取捨選択する手段を備えることにより、ユーザが不要
と判断したキーワードを要約から除くことができ、ユー
ザの意図を反映した要約を作成することができる。
【0035】さらにまた、本発明によれば、ネットワー
ク構築部で出力するネットワークのリンクが、両端のノ
ードに対応する単語間に係り受けの関係があったテキス
トを特定するラベルと持ち、且つ任意のテキストをユー
ザが取捨選択する手段を備えることにより、ユーザが不
要と判断したテキストに由来する部分を除去したネット
ワークが再構築でき、ユーザの意図を反映した要約を作
成することができる。
【0036】また、本発明によれば、ネットワーク構築
部で出力するネットワークのリンクが、入力テキスト中
で両端のノードに対応する単語間に係り受けの関係があ
った頻度を表す頻度情報を持ち、ユーザがリンクの頻度
の閾値を入力する手段を備えることにより、ユーザの入
力した閾値以上の頻度情報を持つリンクのみでネットワ
ークを再構築できるため、頻度の高い係り受けだけを含
む重要な内容に絞ったテキストの要約を作成することが
できる。
【図面の簡単な説明】
【図1】 本発明の実施の形態1に係るテキスト集合要
約装置の全体構成を示す図である。
【図2】 本発明による文脈解析部の構成を示す図であ
る。
【図3】 本発明による文脈解析部の解析例1を示す図
である。
【図4】 本発明によるネットワーク構成部の出力例1
を示す図である。
【図5】 本発明による文脈解析部の解析例2を示す図
である。
【図6】 本発明によるネットワーク構成部の出力例2
を示す図である。
【図7】 本発明の実施の形態2に係るシソーラスを用
いたネットワーク構成図である。
【図8】 本発明の実施の形態4に係るテキストIDを
ラベルに持つネットワークの例を示す図である。
【図9】 本発明の実施の形態4によるリンクを参照し
たネットワークの再構成図である。
【図10】 本発明の実施の形態5によるリンクの頻度
情報をラベルに持つネットワークの例を示す図である。
【符号の説明】
10 テキスト集合、20 文脈解析部、21 テキス
ト整形部、22 文分割部、23 形態素解析部、24
統語解析部、30 ネットワーク構築部、40 要約
構成部、41 ネットワーク制御部、50 要約出力、
100 ノード、101 ノード、110 ノード、1
11 ノード、112 ノード、113ノード、120
ノード、121 ノード、122 ノード、200
テキスト取捨選択手段、210 入力テキスト。
───────────────────────────────────────────────────── フロントページの続き Fターム(参考) 5B075 ND03 NS01 UU06 5B091 AA15 CA02 CA05 CA12 CA14 CA24 DA03 DA06

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 複数のテキストを要素に持つテキスト集
    合を入力とするテキスト集合要約装置において、 前記テキスト集合を入力とし、テキストの文法的・意味
    的に解析した結果を出力する文脈解析部と、 前記文脈解析部の出力を入力とし、前記文脈解析の結果
    を単語に対応するノードと単語間の格関係に対応するリ
    ンクによって表されるネットワーク表現に変換した結果
    を出力するネットワーク構築部と、 前記ネットワーク構築部の出力を入力とし、ネットワー
    ク表現された情報を自然言語に変換して出力する要約構
    成部と、 を備えることを特徴とするテキスト集合要約装置。
  2. 【請求項2】 請求項1のテキスト集合要約装置におい
    て、前記ネットワーク構築部に対して入出力を持つ同義
    語・上位下位語情報を持つシソーラスを備え、前記ネッ
    トワーク構築部は前記同義語・上位下位語情報を用いて
    ネットワークを構築することを特徴とするテキスト集合
    要約装置。
  3. 【請求項3】 請求項1のテキスト集合要約装置におい
    て、前記ネットワーク構築部で出力するネットワークの
    任意のノードを、ユーザが取捨選択する手段を更に備
    え、前記ネットワーク構築部は前記ユーザのノード取捨
    選択情報を用いてネットワークを再構築することを特徴
    とするテキスト集合要約装置。
  4. 【請求項4】 請求項1のテキスト集合要約装置におい
    て、前記ネットワーク構築部で出力するネットワークの
    リンクが、両端のノードに対応する単語間に係り受けの
    関係があったテキストを特定するラベルを持ち、前記テ
    キスト集合要約装置はユーザが前記ラベルを参照してテ
    キストを取捨選択する手段を更に備え、前記ネットワー
    ク構築部は前記ユーザのテキスト取捨選択情報を用いて
    ネットワークを再構築することを特徴とするテキスト集
    合要約装置。
  5. 【請求項5】 請求項1のテキスト集合要約装置におい
    て、ネットワーク構築部で出力するネットワークのリン
    クが、入力テキスト中で両端のノードに対応する単語間
    に係り受けの関係があった頻度を表す頻度情報を持ち、
    前記テキスト集合要約装置はユーザが頻度の閾値を入力
    する手段を更に備え、前記ネットワーク構築部は前記ユ
    ーザの所定の閾値以上の頻度情報を持つ前記リンクと、
    その両端のノードだけをを用いてネットワークを再構築
    することを特徴とするテキスト集合要約装置。
JP11113552A 1999-04-21 1999-04-21 テキスト集合要約装置 Pending JP2000305928A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP11113552A JP2000305928A (ja) 1999-04-21 1999-04-21 テキスト集合要約装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP11113552A JP2000305928A (ja) 1999-04-21 1999-04-21 テキスト集合要約装置

Publications (1)

Publication Number Publication Date
JP2000305928A true JP2000305928A (ja) 2000-11-02

Family

ID=14615198

Family Applications (1)

Application Number Title Priority Date Filing Date
JP11113552A Pending JP2000305928A (ja) 1999-04-21 1999-04-21 テキスト集合要約装置

Country Status (1)

Country Link
JP (1) JP2000305928A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム

Similar Documents

Publication Publication Date Title
JP3429184B2 (ja) テキスト構造解析装置および抄録装置、並びにプログラム記録媒体
US7254530B2 (en) System and method of generating dictionary entries
JP2007287134A (ja) 情報抽出装置、及び情報抽出方法
JP2003186875A (ja) 自然言語パーシング方法
JPH083815B2 (ja) 自然言語の共起関係辞書保守方法
JPH0447364A (ja) 自然言語解析装置及び方法並びに自然言語解析用知識ベース構築方法
JP2002215617A (ja) 品詞タグ付けをする方法
JP2001101185A (ja) 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP2806867B2 (ja) ドキュメントデータベースの構築方法、表示方法、及び表示装置
JPH09190453A (ja) データベース装置
JP2000305928A (ja) テキスト集合要約装置
Meelen 2 Annotating Middle Welsh: POS tagging and chunk-parsing a corpus of native prose
JP2005063030A (ja) 概念表現方法、概念表現生成方法及び概念表現生成装置並びに該方法を実現するプログラム及び該プログラムが記録された記録媒体
JPH10149370A (ja) 文脈情報を用いた文書検索方法および装置
JP2004334382A (ja) 構造化文書要約装置、プログラムおよび記録媒体
JPH02112069A (ja) 自動要約方式
JP2006053907A (ja) 情報抽出方法、情報抽出装置、情報抽出プログラム及び情報抽出プログラムが記載された記録媒体
JP2010117832A (ja) 関係情報抽出装置、その方法、プログラム及び記録媒体
JPH09237277A (ja) 複合名詞解析方法
JP3680489B2 (ja) 機械翻訳装置および機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH0561902A (ja) 機械翻訳システム
JPH04211867A (ja) 日本語構文解析システム
JP3358100B2 (ja) 日本語質問メッセージ解析方法及び装置
JPH11282839A (ja) 機械翻訳システム及び機械翻訳処理プログラムを記録したコンピュータ読み取り可能な記録媒体