JP2003281164A - 文書要約装置、文書要約方法、及び文書要約プログラム - Google Patents

文書要約装置、文書要約方法、及び文書要約プログラム

Info

Publication number
JP2003281164A
JP2003281164A JP2002078739A JP2002078739A JP2003281164A JP 2003281164 A JP2003281164 A JP 2003281164A JP 2002078739 A JP2002078739 A JP 2002078739A JP 2002078739 A JP2002078739 A JP 2002078739A JP 2003281164 A JP2003281164 A JP 2003281164A
Authority
JP
Japan
Prior art keywords
sentence
score
word
document
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002078739A
Other languages
English (en)
Inventor
Mamiko Oka
満美子 岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2002078739A priority Critical patent/JP2003281164A/ja
Publication of JP2003281164A publication Critical patent/JP2003281164A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 的確な要約を生成できる文書要約装置を提供
する。 【解決手段】 入力された文書情報20に対し、形態素
解析部11と係り受け解析部12とが形態素解析と係り
受け解析とを行い、単語スコア評価部13が各自立語に
ついて単語スコアを設定し、関係スコア評価部14が各
係り受け関係に関係スコアを設定し、文スコア評価部1
5が、単語スコアと関係スコアとから文スコアを演算
し、当該文スコアを利用して重要文選択部16が、文書
に含まれる文の一部を選択的に抽出して要約を生成する
文書要約装置である。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書情報の要約を
作成する文書要約装置、文書要約方法、及び文書要約プ
ログラムに関する。
【0002】
【従来の技術】インターネット等の電子情報の伝達手段
の発展に伴って、大量の文書情報が流通している。この
大量の文書情報の中から必要な情報を見つけ出すこと
は、情報の読者にとって大きい負担となっている。この
ため、近年では必要な情報を含んだ文書情報を容易に見
つけ出すための手段が重要視されている。このようなも
のとして、文書情報からその文書情報の内容を示す文を
選択し、これにより要約を生成する文書要約技術が知ら
れている。
【0003】かかる文書要約技術としては、文書を構成
する各文について、文毎に所定の条件で演算されるスコ
アを付与し、スコアの高い順に文を抜き出して要約とし
て生成する技術がある。ここでスコアの演算には、所与
のキーワードの出現頻度や、段落中での位置情報などに
基づくものが提案されている。
【0004】例えば、特開平2−93866号公報に
は、コンピュータに予め登録してあるキーワードを、よ
り多く含む文ほど重要度の高い文(重要文)として選択
する技術が開示されている。また、特開平6−3486
96号公報には、各文に含まれる単語ごとに単語スコア
を演算し、そのうちの自立語の単語スコアの積算値が高
い文を重要文として選択する技術が開示されている。こ
こで自立語とは、独立して文節を構成することができる
単語などを意味する。
【0005】一般的に、文書の中に含まれる単語の重要
度を計算する方法としては、文書中の単語の出現頻度t
f(Term Frequency)と、文書群中で当該単語を含む文
書がどれだけ出現するかの頻度の逆数IDF(Inverse
Document Frequency)との積を用いる方法(tf*ID
F方法)等が知られている。また、文書を形態素解析し
て得られた各単語の品詞情報に基づいて、名詞や動詞と
なる単語の重要度は高く、副詞、形容詞、助詞等となる
単語の重要度は低くするなどの方法も用いられている。
【0006】
【発明が解決しようとする課題】しかしながら、上記従
来の文書要約に関する技術においては、単語間の係り受
け関係の重要度が、文の重要度に反映されていないた
め、次の問題点があった。
【0007】すなわち、同じ「りんご」(品詞は名詞)
という自立語であっても、「…りんごの味…」という態
様で用いられた場合は、「味」(品詞は名詞)に対する
属性(形容する関係)として用いられているのに対し
て、「…りんごを仕入れた…」という態様で用いられた
場合は、「仕入れた」(品詞は動詞)に対する対象(目
的となる関係)として用いられていることになる。この
例のように、同じ単語が用いられている場合において
も、他の単語と属性の関係にある場合と、他の単語と対
象の関係にある場合では、それらの関係の重要度が異な
るといえる。
【0008】このため自立語間の関係を利用しない要約
の場合、その文書の内容を反映しない文が含まれていた
り、逆に、文書の内容を的確に反映する、重要度の高い
文が欠落した要約が生成されてしまうこととなる。
【0009】本発明は、上記実情に鑑みて為されたもの
で、的確な要約を生成できる文書要約装置を提供するこ
とを目的とする。
【0010】
【課題を解決するための手段】上記従来例の問題点を解
決するための本発明は、複数の文を含んでなる文書情報
について、その要約を生成する文書要約装置であって、
各文を構成する単語のうち、自立語について、第1の所
定条件に基づき演算される単語スコアを関連づける単語
スコア評価手段と、前記自立語同士の間の関係につい
て、第2の所定条件に基づいて関係スコアを演算し、そ
の関係スコアを各文ごとに関連づける関係スコア評価手
段と、を含み、各文ごとに、その文を構成する自立語に
関連づけられた前記単語スコア、並びに前記関係スコア
が演算され、当該演算の結果が、前記文書情報の要約の
生成処理に供されることを特徴としている。ここで、前
記自立語間の関係は自立語間の係り受け関係であること
とするのも好ましい。
【0011】また、各文について、当該文を構成する自
立語に関連づけられた前記単語スコア、並びに前記関係
スコアに基づき文スコアが演算され、当該文スコアがさ
らに、当該文の長さ、又は当該文の前記文書情報内の位
置の少なくとも一方に基づいて補正され、当該補正され
た文スコアが、前記文書情報の要約の生成処理に供され
ることとするのも好ましい。
【0012】また、上記従来例の問題点を解決するため
の本発明は、複数の文を含んでなる文書情報について、
その要約を生成する文書要約装置であって、前記文に含
まれる自立語及び自立語間の関係に基づいて、前記文書
情報から前記複数の文の一部を選択的に抽出することに
より要約を生成することを特徴としている。
【0013】さらに、本発明のある態様によれば、複数
の文を含んでなる文書情報について、その要約を生成す
る文書要約方法であって、各文を構成する単語のうち、
自立語について、第1の所定条件に基づき演算される単
語スコアを関連づける工程と、前記自立語同士の間の関
係について、第2の所定条件に基づいて関係スコアを演
算し、その関係スコアを各文ごとに関連づける工程と、
を含み、各文ごとに、その文を構成する自立語に関連づ
けられた前記単語スコア、並びに前記関係スコアが演算
され、当該演算の結果が、前記文書情報の要約の生成処
理に供されることを特徴とする。ここで前記自立語間の
関係は自立語間の係り受け関係であることも好ましい。
【0014】さらに、各文について、当該文を構成する
自立語に関連づけられた前記単語スコア、並びに前記関
係スコアに基づき文スコアが演算され、当該文スコアが
さらに、当該文の長さ、又は当該文の前記文書情報内の
位置の少なくとも一方に基づいて補正され、当該補正さ
れた文スコアが、前記文書情報の要約の生成処理に供さ
れるようにするのも好適である。
【0015】また、上記従来例の問題点を解決するため
の本発明によれば、複数の文を含んでなる文書情報につ
いて、その要約を生成する文書要約方法であって、前記
文に含まれる自立語及び自立語間の関係に基づいて、前
記文書情報から前記複数の文の一部を選択的に抽出する
ことにより要約を生成することを特徴としている。
【0016】また、本発明の別の態様によれば、複数の
文を含んでなる文書情報について、その要約を生成する
文書要約プログラムであって、コンピュータに、各文を
構成する単語のうち、自立語について、第1の所定条件
に基づき演算される単語スコアを関連づける手順と、前
記自立語同士の間の関係について、第2の所定条件に基
づいて関係スコアを演算し、その関係スコアを各文ごと
に関連づける手順と、を実行させ、各文ごとに、その文
を構成する自立語に関連づけられた前記単語スコア、並
びに前記関係スコアが演算され、当該演算の結果が、前
記文書情報の要約の生成処理に供されることとしてい
る。
【0017】さらに、本発明のある態様によると、複数
の文を含んでなる文書情報について、その要約を生成さ
せる文書要約プログラムであって、コンピュータに、前
記文に含まれる自立語及び自立語間の関係に基づいて、
前記文書情報から前記複数の文の一部を選択的抽出を行
わせ、要約を生成させることとしている。
【0018】
【発明の実施の形態】本発明の第1の実施の形態に係る
文書要約装置について、図面を参照しながら説明する。
本実施形態の文書要約装置は、文書情報に含まれる自立
語の間の関係を利用して、その文書情報を構成する各文
について、その文スコアを演算し、当該文スコアに基づ
いて文を選択的に抽出することで要約を生成する。
【0019】本実施の形態の文書要約装置は、図1に示
すように、形態素解析部11と、係り受け解析部12
と、単語スコア評価部13と、関係スコア評価部14
と、文スコア評価部15と、重要文選択部16と、単語
スコア補正部17と、を含んでなる。また、この文書要
約装置に入力される文書情報20には複数の文が含まれ
ている。また各文は複数の単語からなり、各単語は、自
立語と付属語(助詞など)とに大別される。
【0020】形態素解析部11は、入力される文書情報
20に含まれる各文について広く知られた形態素解析処
理を施して、文書情報20内の各文を品詞判定等を用い
て単語単位に分割し、各単語ごとに品詞情報を付与す
る。この形態素解析処理の結果は、係り受け解析部12
に出力される。
【0021】係り受け解析部12は、形態素解析処理の
結果に基づき、係り受け解析処理を行なう。ここで、係
り受け解析の技術は、広く知られたものを用いることが
できる。係り受け解析部12では、形態素解析処理で得
られた各単語間の係り受け関係を解析すると共に、各単
語に付与された品詞情報等に基づいて、各単語を自立語
又は付属語に分類する。これらの解析結果は、単語スコ
ア評価部13に出力される。
【0022】単語スコア評価部13は、係り受け解析部
12で得られた各自立語に、例えば、従来と同様のtf
*IDF法を用いて単語スコアを付与し、その結果を関
係スコア評価部14に出力する。
【0023】関係スコア評価部14は、係り受け解析部
12において解析された結果について、例えば、係り受
け関係のうち、「係り」側の単語の品詞と、「受け」側
の単語の品詞と、係り受けの関係(格関係、修飾、並列
等の関係)との関係において事前に定められた関係スコ
アを、各係り受け関係に付与する。具体的に、この関係
スコア評価部14は、図2に示すようなテーブルによっ
て関係スコアを保持しており、解析の結果から、このテ
ーブルを参照して、各係り受け関係についての関係スコ
アを付与することになる。なお、図2のテーブルは一例
であり、例えば、さらに主格と目的格で関係スコアの値
を変えたり、係り受け関係が所有か属性かによって関係
スコアの値を変えるなどと、さらに細かく関係スコアを
設定しても良い。そして、この関係スコア評価部14
は、各係り受け関係に対して、自立語の単語スコアと、
その間の関係スコアを付与する。
【0024】文スコア評価部15は、関係スコア評価部
14で各係り受け関係に付与された自立語の単語スコア
と、その間の関係スコアとに基づき、文ごとのスコア
(文スコア)を決定する。文スコアの演算方法として
は、係り受け関係ごとに、係り側及び受け側の単語スコ
アの和に、その間の関係の関係スコアを掛けて、その値
をその係り受け関係の重要度とし、文中の全ての係り受
け関係の重要度の総和を取る方法を用いることができ
る。また、構文木のルートとなる自立語を選択し、その
自立語から順に、その自立語に係る自立語の単語スコア
を、その自立語間の関係の関係スコアで重み付けし、そ
の値の総和を算出する方法を用いても良い。この文スコ
ア評価部15は、こうして決定した文スコアを各文に関
連づけて出力する。
【0025】重要文選択部16は、例えば、最も高い文
スコアが付与された文を1つ選択し、その文を要約を構
成する文として出力する。また、選択された文を単語ス
コア補正部17へ出力する。また、この重要文選択部1
6は、文スコアが事前に設定されたしきい値より大きい
文を選択的に抽出するようにしても構わない。
【0026】また、本実施の形態の文書要約装置は、内
容が互いに類似する複数の文を並べたような要約が生成
されてしまうことも避けるために、単語スコア補正部1
7を備えている。単語スコア補正部17は、重要文選択
部16で選択された文に含まれる自立語の単語スコア
を、現在値よりも小さくなるように単語スコア補正処理
を行なう。例えば、単語スコアに0.5を乗算して、新
たな単語スコアとする。これによって、文スコア評価部
15で、文スコアを再度算出する際に、既に要約として
選択された文に含まれる自立語を含む文の文スコアを小
さくすることができ、同じ単語を含む文が要約として選
択され難くすることができる。補正された単語スコア
は、文スコア評価部15へ出力され、補正された単語ス
コアを用いて、所定数の文が要約として抽出されるまで
文スコア評価部15からの処理が継続される。
【0027】本実施の形態の文書要約装置は、処理対象
となった文書情報20について、当該文書情報20に含
まれる各文について上記の処理を繰返して行う。すなわ
ち、本実施の形態の文書要約装置は、図3に示すよう
に、文書情報20が入力されると、当該文書情報20に
ついて形態素解析処理を実行し(ST1)、その結果を
用いて係り受け解析処理を行い(ST2)、その結果を
用いて、各自立語の単語スコアを決定し(ST3)、さ
らに係り受け解析処理の結果を利用して各係り受け関係
に対する関係スコアを決定する(ST4)。
【0028】そして文書要約装置は、処理ST3にて得
られた単語スコアと、処理ST4にて得られた関係スコ
アとから、文書に含まれる各文の文スコアを決定する
(ST5)。さらに、文スコアを重要度とした重要文選
択処理を行ない(ST6)、文書中で最も高い文スコア
が付与された文を出力する。次に、要約を構成する所定
数の文を抽出したか否かを調べ(ST7)、所定数の文
をまだ抽出していない場合は、処理ST8へ移行し、所
定数の文を既に抽出した場合は、処理を終了する。処理
ST8では、単語スコア補正処理を行ない、抽出された
文に含まれる自立語の単語スコアを補正する。その後、
処理ST5へ戻って、既に抽出された文以外の文に対象
として、処理を繰り返す。
【0029】次に、本実施の形態の文書要約装置の動作
について、入力される文書情報20に含まれる文、「A
社は、商品のライフサイクル全体を視野に入れた総合的
なリサイクルモデルの構築に取り組む。」に対する処理
を利用して説明する。この文に対する形態素解析処理並
びに、係り受け解析の結果は、図4に示すような状態と
なる。図4では、係り受け解析の結果を当業者間で広く
用いる構文木を用いて記述している。この構文木では、
係り受け関係が、「係り」側の自立語(係り側単語)と
「受け」側の自立語(受け側単語)と、これらの自立語
間を繋ぐ係り受け関係と、を表示する。図4では、例え
ば、係り側単語としての「リサイクルモデル」と、受け
側単語としての「構築」は、助詞「の」を介した係り受
け関係にある。図4では、係り受け関係を特に、係り側
単語を囲む枠から、受け側単語を囲む枠へ向う矢印で示
している。
【0030】この図4の中で、例えば「リサイクルモデ
ル」→「構築」という係り受け関係(助詞「の」を介す
る)に注目して関係スコアの評価の例を示すと、次のよ
うになる。すなわち、「リサイクルモデル」→「構築」
なる部分は、「名詞」→「名詞」の関係であって、係り
受けは、「対象」の関係にあるといえる。そこで、係り
側単語が「名詞」、受け側単語が「名詞」、係り受けが
「対象」となっている関係スコアを、図2に例示したテ
ーブルから参照すると、この関係スコアは「3」である
と決定される。
【0031】一方、各単語の単語スコアが文書全体の関
係から決定され、これらの結果、例えば図4に対して
「A社は、商品のライフサイクル全体を視野に入れた総
合的なリサイクルモデルの構築に取り組む。」という文
に対して単語スコア及び関係スコアの評価を行なった結
果を図5に示す。図5において、各自立語を囲む枠近傍
に示した数値が、その自立語に対する単語スコアを、各
自立語間の係り受け関係を示す矢印近傍に示した数値が
関係スコアを表す。
【0032】そして単語スコア及び関係スコアに基づ
き、文スコアを演算する。具体的に文スコアは、構文木
のルートとなる自立語として「取り組む」を選択し、そ
の自立語から順に、その自立語に係る自立語の単語スコ
アpを、その自立語間の関係の関係スコアsに掛けて、
その値の総和として算出することができる。その単語が
係り側単語とならない場合は、s=1とする。具体的に
図5の場合、
【数1】14.3+14.3×3+6.7×3+14.3×3+7.9×2+3.5×3+
7.8×3+14.3×3+5.7×2=224.2となるから、この文スコ
アの値は224.2となる。他の文に対しても同様に文
スコアを求めることができる。そして、この文スコアの
最も高い文を選択的に抽出して要約と出力する。
【0033】以上のように、本実施形態によれば、文書
情報に含まれる自立語の重要度に加えて、自立語間の関
係の重要度も考慮した要約を生成することができる。そ
のため、自立語の重要度のみを用いた場合に比べて、よ
り文書情報の内容に沿った文からなる、的確な要約を生
成することができる。
【0034】第1の実施形態の文書要約装置において
は、単語スコアと関係スコアとの積を総和したものとし
て文スコアが規定される場合、文の長さが長くなるにつ
れて文スコアが高くなってしまう。つまり、単語スコア
や関係スコアが大きくても(文としては重要文として選
択されるべきものであっても)、文長の短いものは、文
スコアとしては大きい値とならず、一方で、単語スコア
や関係スコアが小さくても(文としては重要でなく、選
択されるべきでないものであっても)、文長が長くなる
ほど、上記の総和の結果としての文スコアが大きい値と
なってしまう。そのため、文書の内容を表すような重要
な文であっても、短い文は文スコアが低くなって選択さ
れず、要約に含められない場合が生じる。
【0035】そこで、本発明の第2の実施の形態に係る
文書要約装置は、文スコア評価の後に文長に応じて文ス
コアを補正する処理を行う。具体的に本実施の形態に係
る文書要約装置は、図6に示すように、形態素解析部1
1と、係り受け解析部12と、単語スコア評価部13
と、関係スコア評価部14と、文スコア評価部15と、
重要文選択部16と、単語スコア補正部17と、さらに
補正処理部18とを含んで構成される。なお、第1の実
施の形態に係るものと同様の構成をとる部分について
は、同じ符号を付して詳細な説明を省略する。
【0036】補正処理部18は、文スコア評価部15か
ら文スコアの入力を受けて、当該文の長さに応じて文ス
コアを補正する。具体的には、文の長さとして、当該文
に含まれる文字数又は自立語の数をカウントし、当該文
字数又は自立語の数で文スコアを除して、補正スコアを
生成し、この補正スコアを重要文選択部16に出力す
る。すなわち、本実施の形態においては、重要文選択部
16は、この補正スコアに基づいて文の選択的抽出を行
うことになる。
【0037】さらに、文書においては、文の出現位置に
よってその文の重要度が左右される場合も多い。一般に
は、文書の冒頭部分や最後の部分に出現する文は、中間
的位置にある文よりも、当該文書を特徴づける内容を示
していることが多い。そこで補正処理部18は、文の長
さに応じた文スコアの補正に代えて、又はその補正とと
もに、当該文の出現位置に応じて文スコアを補正するこ
ととするのも好適である。例えば、文書の最初の段落に
出現する文と、最後の段落に出現する文とについて、そ
の文スコアが高くなるように所定の値を乗算して、補正
スコアを演算する。
【0038】なお、上記の第1、第2の実施の形態の文
書処理装置は、コンピュータを用いてソフトウエア的に
実現することもできる。この場合、例えば図2に示した
処理を実行するプログラム(文書要約プログラム)を記
憶媒体(CD−ROM等のリムーバブルデバイスでも、
ハードディスクのような固定デバイスでも、RAM等の
記憶素子でも構わない)に固定しておき、これをコンピ
ュータの制御装置に読込ませて実行させることになる。
さらに、インターネット等を介して例えば形態素解析を
行うサーバに対して形態素解析処理を行わせて受信する
など、サーバ装置を適宜利用した形態とすることも好適
である。
【図面の簡単な説明】
【図1】 本発明の第1の実施の形態に係る文書要約装
置の構成ブロック図である。
【図2】 自立語間の係り受け関係に対する関係スコア
を設定したテーブルの一例を示す説明図である。
【図3】 本発明の第1の実施の形態に係る文書要約装
置の動作を表すフローチャート図である。
【図4】 係り受け解析の結果を示す説明図である。
【図5】 例文に対する単語スコア、及び関係スコアの
評価結果を表す説明図である。
【図6】 本発明の第2の実施の形態に係る文書要約装
置の構成ブロック図である。
【符号の説明】
11 形態素解析部、12 係り受け解析部、13 単
語スコア評価部、14関係スコア評価部、15 文スコ
ア評価部、16 重要文選択部、17 単語スコア補正
部、18 補正処理部。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 複数の文を含んでなる文書情報につい
    て、その要約を生成する文書要約装置であって、 各文を構成する単語のうち、自立語について、第1の所
    定条件に基づき演算される単語スコアを関連づける単語
    スコア評価手段と、 前記自立語同士の間の関係について、第2の所定条件に
    基づいて関係スコアを演算し、その関係スコアを各文ご
    とに関連づける関係スコア評価手段と、 を含み、各文ごとに、その文を構成する自立語に関連づ
    けられた前記単語スコア、並びに前記関係スコアが演算
    され、当該演算の結果が、前記文書情報の要約の生成処
    理に供されることを特徴とする文書要約装置。
  2. 【請求項2】 請求項1に記載の文書要約装置におい
    て、 前記自立語間の関係は自立語間の係り受け関係であるこ
    とを特徴とする文書要約装置。
  3. 【請求項3】 請求項1又は2に記載の文書要約装置に
    おいて、 各文について、当該文を構成する自立語に関連づけられ
    た前記単語スコア、並びに前記関係スコアに基づき文ス
    コアが演算され、当該文スコアがさらに、当該文の長
    さ、又は当該文の前記文書情報内の位置の少なくとも一
    方に基づいて補正され、当該補正された文スコアが、前
    記文書情報の要約の生成処理に供されることを特徴とす
    る文書要約装置。
  4. 【請求項4】 複数の文を含んでなる文書情報につい
    て、その要約を生成する文書要約装置であって、 前記文に含まれる自立語及び自立語間の関係に基づい
    て、前記文書情報から前記複数の文の一部を選択的に抽
    出することにより要約を生成することを特徴とする文書
    要約装置。
  5. 【請求項5】 複数の文を含んでなる文書情報につい
    て、その要約を生成する文書要約方法であって、 各文を構成する単語のうち、自立語について、第1の所
    定条件に基づき演算される単語スコアを関連づける工程
    と、 前記自立語同士の間の関係について、第2の所定条件に
    基づいて関係スコアを演算し、その関係スコアを各文ご
    とに関連づける工程と、 を含み、各文ごとに、その文を構成する自立語に関連づ
    けられた前記単語スコア、並びに前記関係スコアが演算
    され、当該演算の結果が、前記文書情報の要約の生成処
    理に供されることを特徴とする文書要約方法。
  6. 【請求項6】 請求項5に記載の文書要約方法におい
    て、 前記自立語間の関係は自立語間の係り受け関係であるこ
    とを特徴とする文書要約方法。
  7. 【請求項7】 請求項4又は5に記載の文書要約方法に
    おいて、 各文について、当該文を構成する自立語に関連づけられ
    た前記単語スコア、並びに前記関係スコアに基づき文ス
    コアが演算され、当該文スコアがさらに、当該文の長
    さ、又は当該文の前記文書情報内の位置の少なくとも一
    方に基づいて補正され、当該補正された文スコアが、前
    記文書情報の要約の生成処理に供されることを特徴とす
    る文書要約方法。
  8. 【請求項8】 複数の文を含んでなる文書情報につい
    て、その要約を生成する文書要約方法であって、 前記文に含まれる自立語及び自立語間の関係に基づい
    て、前記文書情報から前記複数の文の一部を選択的に抽
    出することにより要約を生成することを特徴とする文書
    要約方法。
  9. 【請求項9】 複数の文を含んでなる文書情報につい
    て、その要約を生成する文書要約プログラムであって、 コンピュータに、 各文を構成する単語のうち、自立語について、第1の所
    定条件に基づき演算される単語スコアを関連づける手順
    と、 前記自立語同士の間の関係について、第2の所定条件に
    基づいて関係スコアを演算し、その関係スコアを各文ご
    とに関連づける手順と、 を実行させ、各文ごとに、その文を構成する自立語に関
    連づけられた前記単語スコア、並びに前記関係スコアが
    演算され、当該演算の結果が、前記文書情報の要約の生
    成処理に供されることを特徴とする文書要約プログラ
    ム。
  10. 【請求項10】 複数の文を含んでなる文書情報につい
    て、その要約を生成させる文書要約プログラムであっ
    て、 コンピュータに、前記文に含まれる自立語及び自立語間
    の関係に基づいて、前記文書情報から前記複数の文の一
    部を選択的抽出を行わせ、要約を生成させることを特徴
    とする文書要約プログラム。
JP2002078739A 2002-03-20 2002-03-20 文書要約装置、文書要約方法、及び文書要約プログラム Pending JP2003281164A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002078739A JP2003281164A (ja) 2002-03-20 2002-03-20 文書要約装置、文書要約方法、及び文書要約プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002078739A JP2003281164A (ja) 2002-03-20 2002-03-20 文書要約装置、文書要約方法、及び文書要約プログラム

Publications (1)

Publication Number Publication Date
JP2003281164A true JP2003281164A (ja) 2003-10-03

Family

ID=29228525

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002078739A Pending JP2003281164A (ja) 2002-03-20 2002-03-20 文書要約装置、文書要約方法、及び文書要約プログラム

Country Status (1)

Country Link
JP (1) JP2003281164A (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2012123455A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 要約装置、要約作成方法及びプログラム
JP2014044538A (ja) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置及び方法及びプログラム
JP2014044539A (ja) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置及び方法及びプログラム
JP2015170224A (ja) * 2014-03-07 2015-09-28 日本電信電話株式会社 文書要約装置、方法、及びプログラム
CN111739536A (zh) * 2020-05-09 2020-10-02 北京捷通华声科技股份有限公司 一种音频处理的方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011138306A (ja) * 2009-12-28 2011-07-14 National Institute Of Information & Communication Technology 文書要約装置、文書処理装置、文書要約方法、文書処理方法、及びプログラム
JP2012123455A (ja) * 2010-12-06 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 要約装置、要約作成方法及びプログラム
JP2014044538A (ja) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置及び方法及びプログラム
JP2014044539A (ja) * 2012-08-27 2014-03-13 Nippon Telegr & Teleph Corp <Ntt> 要約生成装置及び方法及びプログラム
JP2015170224A (ja) * 2014-03-07 2015-09-28 日本電信電話株式会社 文書要約装置、方法、及びプログラム
CN111739536A (zh) * 2020-05-09 2020-10-02 北京捷通华声科技股份有限公司 一种音频处理的方法和装置

Similar Documents

Publication Publication Date Title
JP2007114507A (ja) 韻律制御規則生成方法、音声合成方法、韻律制御規則生成装置、音声合成装置、韻律制御規則生成プログラム及び音声合成プログラム
EP1091303A3 (en) Method and system for providing alternatives for text derived from stochastic input sources
JP6260294B2 (ja) 情報検索装置、情報検索方法および情報検索プログラム
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
CN108182182B (zh) 翻译数据库中文档匹配方法、装置及计算机可读存储介质
JP2003281164A (ja) 文書要約装置、文書要約方法、及び文書要約プログラム
JP2007164583A (ja) 判定装置,判定方法および判定プログラム
US20040088327A1 (en) Sentence creation apparatus and creation method
JP2004272352A (ja) 類似度計算方法、装置、プログラムおよび該プログラムを格納した記録媒体
JP2006139518A (ja) 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP2003108571A (ja) 文書要約装置、文書要約装置の制御方法、文書要約装置の制御プログラムおよび記録媒体
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
JP4055638B2 (ja) 文書処理装置
JP2009295101A (ja) 音声データ検索システム
JP2009015398A (ja) 文章分割プログラム、文章分割装置および文章分割方法
JP2004287683A (ja) 評価表現抽出装置、プログラム、記憶媒体及び評価表現抽出方法
JP2004258723A (ja) 話題抽出装置、話題抽出方法およびプログラム
JP2011090447A (ja) 文書判定条件生成装置および文書判定条件生成方法
JP5242722B2 (ja) 代表文抽出装置およびプログラム
JP2010170303A (ja) 機械翻訳装置及びプログラム
JP4250024B2 (ja) テキスト要約装置、およびテキスト要約プログラム
JP4934115B2 (ja) キーワード抽出装置、方法及びプログラム
JP2004151926A (ja) キーワード抽出装置、キーワード抽出方法並びにプログラムおよび記録媒体
JPH10177575A (ja) 語句抽出装置および方法、情報記憶媒体
JP2004326600A (ja) 構造化文書のクラスタリング装置