JP2002197097A - 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体 - Google Patents

記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体

Info

Publication number
JP2002197097A
JP2002197097A JP2000396639A JP2000396639A JP2002197097A JP 2002197097 A JP2002197097 A JP 2002197097A JP 2000396639 A JP2000396639 A JP 2000396639A JP 2000396639 A JP2000396639 A JP 2000396639A JP 2002197097 A JP2002197097 A JP 2002197097A
Authority
JP
Japan
Prior art keywords
article
sentence
language
input
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2000396639A
Other languages
English (en)
Inventor
Mamiko Hatayama
満美子 畑山
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2000396639A priority Critical patent/JP2002197097A/ja
Publication of JP2002197097A publication Critical patent/JP2002197097A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 新聞記事などを入力し,記事特有の定型パタ
ーンの情報を利用することによって,適切な要約文を自
動生成する。 【解決手段】 新聞記事などの要約文生成対象となる記
事に現れやすい文章またはその一部のパターンをルール
テーブル105として保存しておき,単語情報抽出部1
04においてルールテーブル105と入力記事内の複数
の文章との照合を行うことにより,重要な語句を抽出
し,第1言語文生成部106,第2言語文生成部108
において,抽出した語句をあらかじめ用意されている第
1言語文テンプレート107,第2言語文テンプレート
109に埋め込むことにより,第1言語または第2言語
の要約文を生成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は,新聞,雑誌,論文
等の記事を要約する記事要約文生成装置に関し,特に新
聞記事などの特有の定型パターンの情報を利用すること
によって,記事の適切な要約文を生成することを可能に
した装置に関するものである。
【0002】第1言語で記述された新聞記事の要約文自
動生成,第2言語に翻訳した要約文自動生成,新聞記事
の見出し自動生成,および他言語ヘッドライン自動生成
などに用いることができる。
【0003】
【従来の技術】新聞記事の本文から自動的に要約文を生
成する技術として,「日本語記事の重要情報に基づく英
文ヘッドライン生成法」(言語処理学会第5回年次大会
論文集,pp17−20,1999)がある。この手法
は,新聞記事本文から重要文を選定し,各単語から最も
重要になる動詞(主動詞)を決定し,主動詞のSVOに
相当する単語を抽出して文を生成し,日本語要約文,英
語要約文として出力するものである。
【0004】
【発明が解決しようとする課題】従来の方法では,重要
語句が1文に存在せず複数の文に散在している場合,記
事に対する適切な要約文を生成することができない。ま
た,新聞記事には独特の定型パターンを持つ種類の記事
があり,重要語句が通常のSVOに相当する単語中に使
用されていない場合がある。この場合も,要約文に適切
な単語情報を得ることができず,記事に対する適切な要
約文を生成することができないといった問題があった。
【0005】本発明は,これらの問題を解決し,記事要
約文に必要な重要語句が1文に存在せず複数の文に散在
している場合や,重要語句が通常のSVOに相当する単
語中に使用されていない場合でも,新聞記事などの特有
の定型パターンの情報を利用することによって,記事の
適切な要約文を生成することができるようにすることを
目的としている。
【0006】
【課題を解決するための手段】本発明は,上記課題を解
決するため,新聞記事などの要約文生成対象となる記事
に現れやすい文章またはその一部のパターン情報をルー
ルテーブルとして保存しておき,このルールテーブル中
のパターン情報と入力記事内の複数の文章との照合を行
なうことにより,重要な語句を抽出し,抽出した語句を
あらかじめ用意されているテンプレートに埋め込むこと
を最も主要な特徴とする。
【0007】入力記事が第1言語で記述されているもの
である場合に,第1言語文のテンプレートを用意してお
くことにより,入力記事と同じ言語の要約文を生成する
ことができるとともに,第2言語文のテンプレートを用
意しておくことにより,第1言語とは異なる第2言語の
要約文を生成することもできる。
【0008】ルールテーブルに格納されたパターン情報
の各フレームを特徴づけるキー情報をフレームごとにフ
レームキーテーブルに用意しておき,これを用いて入力
記事とキー情報とのマッチ率を計算し,計算したマッチ
率によってフレームを選択する手段を設けることによっ
て,ルールテーブルの参照による照合処理を効率よく実
行することができる。
【0009】さらに,入力記事を形態素解析する手段を
設け,ルールテーブルとの照合によって抽出する語句の
特徴を形態素解析の結果で限定することにより,重要な
語句を精度よく抽出することが可能になる。
【0010】以上の各処理手段をコンピュータによって
実現するためのプログラムは,コンピュータが読み取り
可能な可搬媒体メモリ,半導体メモリ,ハードディスク
などの適当な記録媒体に格納することができる。
【0011】本発明では,記事要約文に必要な重要語句
が1文に存在せず複数の文に散在している場合や,重要
語句が通常のSVOに相当する単語中に使用されていな
い場合でも,新聞記事などの特有の定型パターンの情報
を利用することによって,記事の適切な要約文を生成す
ることが可能になる。
【0012】また,第1言語で記述された記事から第2
言語要約文の生成が可能になり,特に,新聞記事などの
特定の種類の記事に特有のスタイルに合った要約文を生
成することが可能になる。
【0013】
【発明の実施の形態】以下では,新聞記事を入力し,そ
の要約文を生成する例を説明するが,本発明は,新聞記
事に限らず雑誌や論文などの新聞記事以外の記事につい
ても同様に適用することができる。
【0014】図1は,本発明に係る記事要約文生成装置
の概略構成を示す。図1において,第1言語新聞記事1
00は,第1言語で記述された要約文生成対象となる電
子文書化された記事である。入力装置101は,第1言
語新聞記事100を入力する装置である。フレーム選択
部102は,各フレームを特徴づけるキー情報がフレー
ムごとに格納されたフレームキーテーブル103を用い
て,入力記事とキー情報とのマッチ率を計算することに
よりフレームを選択する手段である。
【0015】単語情報抽出部104は,フレーム名と記
事に現れやすい文章またはその一部のパターン情報とが
格納されたルールテーブル105中のパターン情報と入
力記事との照合によって入力記事から単語情報を抽出す
る手段である。
【0016】第1言語文生成部106は,第1言語文に
よる要約文のパターン化されたテンプレートを記憶する
第1言語文テンプレート107と,単語情報抽出部10
4により抽出した単語情報とによって,入力記事の第1
言語要約文111を生成する手段である。第2言語文生
成部108は,第2言語文のテンプレートを記憶する第
2言語文テンプレート109と,単語情報抽出部104
により抽出した単語情報とによって,入力記事の第2言
語要約文112を生成する手段である。
【0017】出力装置110は,第1言語文生成部10
6により生成した第1言語要約文111および第2言語
文生成部108により生成した第2言語要約文112
を,ディスプレイ,プリンタまたは外部記憶装置等に出
力する。
【0018】形態素解析部113は,入力記事について
所定の形態素辞書(図示省略)を用いて形態素解析を行
なう。この結果をフレーム選択部102もしくは単語情
報抽出部104に通知する。
【0019】〔第1の実施の形態〕第1の実施の形態と
して,日本文の第1言語新聞記事100を入力して日本
文による第1言語要約文111を生成する場合の構成例
を説明する。第1の実施の形態では,図1に示すモジュ
ールのうち,100〜101,104〜107,110
〜111のモジュールを用いる。
【0020】図2に,本実施の形態を説明するための要
約文生成対象となる日本文による第1言語新聞記事10
0の例を示す。なお,後述する他の実施の形態において
も同様に図2の日本文新聞記事の要約文を生成する例に
ついて説明する。
【0021】図1において,図2に示す第1言語新聞記
事100が入力装置101によって入力され,その記事
は単語情報抽出部104に渡される。単語情報抽出部1
04による処理例を,図3,図4を用いて詳しく説明す
る。図3は単語情報抽出部104の処理フローチャー
ト,図4は単語情報抽出部104で使用されるルールテ
ーブル105の一例を示す。
【0022】単語情報抽出部104では,図3に示す処
理によって,図4に示すルールテーブル105の先頭か
ら順にフレームを選び,フレームと記事の照合を行な
う。
【0023】ルールテーブル105には,抽出する単語
の位置を示すスロット情報を含むフレームが格納されて
いる。フレームは,入力記事との照合を行なうための,
新聞記事に現れやすい文章またはその一部のパターンで
あり,各々にフレームを識別する情報(これをフレーム
名と呼ぶ)が付与されている。スロット情報に,必要に
応じて抽出する単語の特徴(品詞等)を示す情報を含ま
せてもよい。
【0024】単語情報抽出部104は,まず最初に,処
理1041によって,ルールテーブル105から先頭の
地震−001フレーム1051を選択し,フレーム「、
<地名>に津波注意報が出された。」と,スロット情報
<地名>を獲得する。次に,フレーム1051と入力記
事20(図2の第1言語新聞記事100)とを照合する
が,マッチする部分がないため,スロット<地名>の情
報を獲得することができない。スロットが埋まらなかっ
た場合,ルールテーブル105から次のフレームを選択
する(処理1041,1042)。
【0025】次に,ルールテーブル105から地震−0
02フレーム1052を選択し,フレーム「死傷者の数
は<数字>人」と,スロット情報を獲得するが,入力記
事20とマッチする部分がないため,スロット<数字>
の情報を獲得することができない。スロットが埋まらな
かったので,ルールテーブル105から次のフレームを
選択する(処理1041,1042)。
【0026】次に,ルールテーブル105から地震−0
03フレーム1053を選択し,フレーム「、<地名>
で震度<数字>(*震)の地震があった。」と,スロッ
ト情報を獲得する。地震−003フレーム1053と入
力記事20とを照合すると,「、関東地方で」がマッチ
するが,「震度<数字>(*震)」とマッチする部分が
ないため,スロット<数字>の情報を獲得することがで
きない。スロットが埋まらなかったので,ルールテーブ
ル105から次のフレームを選択する(処理1041,
1042)。なお,フレーム中の”*”は,ワイルドカ
ードであり,任意の文字または文字列と一致することを
表す。
【0027】次に,ルールテーブル105から地震−0
04フレーム1054を選択し,フレーム「各地の震度
は次の通り。(改行)震度<数字>(*震)<地名
>、」と,スロット情報を獲得する。地震−004フレ
ーム1054と入力記事20とを照合すると,入力記事
20の「各地の震度は次の通り。(改行)震度3(弱
震)東京、」と,地震−004フレーム1054「各地
の震度は次の通り。(改行)震度<数字>(*震)<地
名>、」とがマッチするため,図5に示す単語情報30
のように,スロット<数字>には単語情報「3」が,ス
ロット<地名>には単語情報「東京」が入力される。
【0028】スロットが全て埋まったので(処理104
3),単語情報30の「3」「東京」を,次の処理を行
なう第1言語文生成部106に渡す。
【0029】次に,図1における第1言語文生成部10
6の処理例を,図6,図7を用いて詳しく説明する。図
6は第1言語文生成部106の処理フローチャート,図
7は第1言語を日本語とした場合に使用される第1言語
文テンプレート107の一例を示す。
【0030】第1言語文生成部106は,単語情報抽出
部104が抽出した単語情報30と,図7に示す日本語
の第1言語文テンプレート107を用いて,図6に示す
第1言語文生成部106の処理1061によって日本語
要約文を生成し,その第1言語要約文111を出力す
る。例えば,単語情報30のフレーム名「地震−00
4」から,日本語テンプレート情報1071「<地名>
で震度<数字>の地震が発生。」を獲得し,日本語テン
プレートにおけるスロット部分のスロット<地名>に単
語情報「東京」を,スロット<数字>に単語情報「3」
を入力する。これによって,日本語の第1言語要約文1
11として「東京で震度3の地震が発生。」が出力され
る。
【0031】〔第2の実施の形態〕第2の実施の形態と
して,日本文の第1言語新聞記事100を入力して英文
による第2言語要約文112を生成する場合の構成例を
説明する。第2の実施の形態では,図1に示すモジュー
ルのうち,100〜101,104〜105,108〜
110,112のモジュールを用いる。
【0032】第1言語新聞記事100の入力から単語情
報抽出部104までの処理は,前述した第1の実施の形
態と同様であるので,単語情報抽出部104が図5に示
す単語情報30を抽出した後の第2言語文生成部108
の処理について,図8,図9を用いて詳しく説明する。
図8は第2言語文生成部108の処理フローチャート,
図9は第2言語を英語とした場合に使用される第2言語
文テンプレート109の一例を示す。
【0033】第2言語文生成部108は,単語情報30
と,図9に示す英語の第2言語文テンプレート109を
用いて,図8に示す第2言語文生成部108の処理10
81,1082によって英文ヘッドラインを生成し,そ
の英文ヘッドラインを第2言語要約文112の出力とす
る。例えば,図5に示す単語情報30の抽出単語301
を,既存の機械翻訳機によって日英翻訳することによっ
て,単語情報30には,スロット<地名>に”Tokyo ”
の単語情報が,スロット<数字>に”three ”の単語情
報が入力される(処理1081)。次に,単語情報30
のフレーム名「地震−004」から英語テンプレート情
報1091”<数字>-level earthquake shakes <地
名>.”を獲得し,英語テンプレートにおけるスロット
部分のスロット<地名>に単語情報”Tokyo ”を,スロ
ット<数字>に単語情報”three”を入れる(処理10
82)。これによって,英語要約文”Three-level eart
hquake shakes Tokyo .”を出力する。
【0034】〔第3の実施の形態〕上記第1の実施の形
態と第2の実施の形態とを組み合わせることにより,例
えば日本語の第1言語新聞記事100から日本語の第1
言語要約文111と英語の第2言語要約文112とを自
動生成することができる。
【0035】〔第4の実施の形態〕次に,入力記事から
フレーム選択部102によって事前にフレームを選択
し,選択したフレーム情報を用いて単語抽出を行なう第
4の実施の形態について説明する。ここでは,日本語の
第1言語新聞記事100から日本語の第1言語要約文1
11と英語の第2言語要約文112の両方を自動生成す
るものとするが,どちらか一方だけを生成することもで
きる。この例では,図1に示すモジュールのうち,10
0〜112のモジュールを用いる。
【0036】図1において,第1言語新聞記事100が
入力装置101によって入力され,その入力記事20
(図2)は,フレーム選択部102に渡される。
【0037】フレーム選択部102の処理例を,図1
0,図11を用いて詳しく説明する。図10はフレーム
選択部102の処理フローチャート,図11はフレーム
選択部102で使用されるフレームキーテーブル103
の一例を示す。ここでは,説明を簡単にするために,フ
レームキーテーブル103をルールテーブル105とは
別に設けた例を説明するが,フレームキーテーブル10
3におけるフレームキーをルールテーブル105中に組
み込んだ形で一体化して設けることも可能である。
【0038】フレーム選択部102は,入力装置101
から第1言語新聞記事100の入力記事20を受け取
り,図11に示すフレームキーテーブル103を用いて
フレームキーと記事のマッチ率を計算する(処理102
1)。
【0039】地震−001フレーム1031の場合,
「地震」「震度」「津波」「注意報」の4単語のうち,
入力記事20に含まれるものは「地震」「震度」の2単
語なので,マッチ率は2/4=0.5と計算される。同
様に,地震−002フレーム1032の場合,「地震」
「震度」「死傷者」の3単語のキーのうち,入力記事2
0に含まれるものは「地震」「震度」の2単語なので,
マッチ率は2/3=0.66と計算される。同様に,地
震−003フレーム1033の場合,マッチ率は4/4
=1.0,地震−004フレーム1034の場合,マッ
チ率は4/4=1.0,地震−005フレーム1035
の場合,マッチ率は4/5=0.8と計算される。
【0040】次に処理1022によって,マッチ率の高
い順にソートしたフレームリスト120(図12参照)
を作る。マッチ率が同得点のフレームが2つ以上ある場
合,番号の若いフレームの順位を上げる。フレームリス
ト120は,順位が高い順に地震−003フレーム10
33>地震−004フレーム1034>地震−005フ
レーム1035>地震−002フレーム1032>地震
−001フレーム1031,のリストとなる。そのフレ
ームリスト120の例を図12に示す。
【0041】次に,本実施の形態における単語情報抽出
部104の処理例を,図13,図4を用いて詳しく説明
する。図13は単語情報抽出部104の処理フローチャ
ートである。単語情報抽出部104は,図4に示したル
ールテーブル105を使用するものとする。
【0042】図13に示す単語情報抽出部104の処理
1044において,順位付けされたフレームリスト12
0(図12)から順位の最も高いフレーム,地震−00
3フレーム1201を選択し,図4に示すルールテーブ
ル105からスロット情報を含むフレーム1053の情
報を獲得する。獲得したフレーム情報と入力記事20と
を照合すると,「、関東地方で」がマッチするが,「震
度<数字>(*震)」とマッチする部分がないため,ス
ロット<数字>の情報を獲得することができない。
【0043】次に,スロットが埋まらなかったので,処
理1045により,フレームリスト120から次候補の
フレームの地震−004フレーム1202を選択し,ル
ールテーブル105からスロット情報を含むフレーム1
054の情報を獲得する(処理1044)。この情報と
入力記事20とを照合すると,入力記事20の「各地の
震度は次の通り。(改行)震度3(弱震)東京、」と,
フレーム1054の「各地の震度は次の通り。(改行)
震度<数字>(*震)<地名>、」がマッチするため,
図5に示す単語情報30のようにスロット<数字>に
は,単語情報「3」が,スロット<地名>には単語情報
「東京」が入力される。
【0044】スロットが全て埋まったので(処理104
6),単語情報30の「3」「東京」を,次の処理を行
なう第1言語文生成部106および第2言語文生成部1
08に渡す。
【0045】第1言語文生成部106による処理および
第2言語文生成部108による処理は,前述した第1お
よび第2の実施の形態と同様であるので,それらの処理
の説明を省略する。第1言語文生成部106によって,
日本語要約文「東京で震度3の地震が発生。」が生成さ
れ,第2言語文生成部108によって,英語要約文”Th
ree-level earthquake shakes Tokyo.”が生成される。
これらの要約文は,第1言語要約文111および第2言
語要約文112として,出力装置110により出力され
る。
【0046】〔第5の実施の形態〕次に,図1に示す形
態素解析部113によって入力記事を形態素解析してか
ら重要語句の単語を抽出する第5の実施の形態を説明す
る。ここでは,前の実施の形態と同様に,日本語の第1
言語新聞記事100から日本語の第1言語要約文111
と英語の第2言語要約文112とを自動生成するものと
する。この例では,図1に示すモジュールのうち,モジ
ュール100〜101,104〜113のモジュールを
用いる。
【0047】図1において,第1言語新聞記事100が
入力装置101によって入力され,その入力記事20
(図2)は,形態素解析部113に渡される。形態素解
析部113において,入力記事20は形態素解析され,
図15に示す形態素解析結果150のように,入力記事
20の各入力文の単語ごとに品詞情報,単語カテゴリ情
報が付与され,それらの情報が単語情報抽出部104に
渡される。形態素解析は,図示省略した形態素辞書を用
いて行なわれるが,形態素解析の処理については周知の
技術であるので,ここでの詳細な説明は省略する。
【0048】本実施の形態における単語情報抽出部10
4の処理例を,図3,図14を用いて詳しく説明する。
図3は単語情報抽出部104の処理フローチャート,図
14は単語情報抽出部104で使用されるルールテーブ
ル105の一例を示す。本実施の形態で用いる図14の
ルールテーブル105と,前述した図4に示すルールテ
ーブル105との違いは,本実施の形態の場合,入力記
事20について形態素解析を行なうので,単語の区切り
を明確に把握することができ,フレームにおいて句読点
などの記号を省略しても正しく照合できることである。
そのため,図4の地震−001フレーム1051や地震
−003フレーム1053では,フレームの先頭に読点
「、」が入っているが,図14の地震−001フレーム
1051’,地震−003フレーム1053’では,読
点「、」を省略している。もちろん,図14のルールテ
ーブル105においても地震−004フレーム105
4’のように句読点を用いてもかまわない。
【0049】図3に示す単語情報抽出部104の処理1
041において,図14に示すルールテーブル105の
先頭から順にフレームを選び,フレームと記事との照合
を行なう。まず最初にルールテーブル105の先頭か
ら,地震−001フレーム1051’を選択し,フレー
ム「<地名>に津波注意報が出された。」と,スロット
情報<地名>を獲得する。次に,フレーム1051’と
入力記事20とを照合するが,マッチする部分がないた
め,スロット<地名>の情報を獲得することができな
い。スロットが埋まらなかった場合,ルールテーブル1
05から次のフレームを選択する(処理1041,10
42)。
【0050】次に,ルールテーブル105から地震−0
02フレーム1052’を選択し,フレーム「死傷者の
数は<数字>人」と,スロット情報を獲得するが,入力
記事20とマッチする部分がないため,スロット<数字
>の情報を獲得することができない。スロットが埋まら
なかったので,ルールテーブル105から次のフレーム
を選択する(処理1041,1042)。
【0051】次に,ルールテーブル105から地震−0
03フレーム1053’を選択し,フレーム「<地名>
で震度<数字>(*震)の地震があった。」と,スロッ
ト情報を獲得する。フレーム1053’と入力記事20
とを照合すると,入力記事20の「<地名>で」の部分
がフレーム1053’の部分とマッチする。
【0052】また,形態素解析結果150から,「東
北」「関東地方」が地名であることが分かるので,「東
北,関東地方」が条件にマッチし,スロット<地名>に
入力される。しかし,次の「震度<数字>(*震)」に
マッチする部分がないため,スロット<数字>の情報を
獲得することができない。スロットが埋まらなかったの
で,ルールテーブル105から次のフレームを選択する
(処理1041,1042)。
【0053】次に,ルールテーブル105から地震−0
04フレーム1054’を選択し,「各地の震度は次の
通り。震度<数字>(*震)<地名>、」というスロッ
ト情報を含むフレームを獲得する。フレーム1054’
と入力記事20を照合すると,入力記事20の「各地の
震度は次の通り。(改行)震度3(弱震)東京、」と,
フレーム1054’の「各地の震度は次の通り。(改
行)震度<数字>(*震)<地名>、」とが表層的にマ
ッチする。また,形態素解析結果150から,「3」は
数字,「東京」は地名であることが分かり,単語意味的
にも条件を満たすため完全マッチとなる。
【0054】この結果,図5の単語情報30に示すよう
に,スロット<数字>には単語情報「3」が,スロット
<地名>には単語情報「東京」が入力される。スロット
が全て埋まったので(処理1043),抽出単語301
の「3」「東京」を次の処理を行なう第1言語文生成部
106および第2言語文生成部108に渡す。以下の処
理は,前述した実施の形態の場合と同様である。
【0055】〔第6の実施の形態〕第6の実施の形態と
して,図1に示す形態素解析部113によって入力記事
を形態素解析し,さらにフレーム選択部102によって
フレームを選択してから重要語句の単語を抽出する場合
の例を説明する。ここでは,前の実施の形態と同様に,
日本語の第1言語新聞記事100から日本語の第1言語
要約文111と英語の第2言語要約文112とを自動生
成するものとする。この例では,図1に示すモジュール
100〜113のすべてのモジュールを用いる。
【0056】図1において,第1言語新聞記事100が
入力装置101によって入力され,その入力記事20
(図2)は,形態素解析部113に渡される。形態素解
析部113において,入力記事20は形態素解析され,
図15に示す形態素解析結果150のように,入力記事
20の各入力文の単語ごとに品詞情報,単語カテゴリ情
報が付与され,それらの情報がフレーム選択部102に
渡される。
【0057】フレーム選択部102は,図10に示す処
理1021によって第1言語新聞記事100の入力記事
20について,図11に示すフレームキーテーブル10
3を用いてフレームキーと記事のマッチ率を計算する。
地震−001フレーム1031の場合,「地震」「震
度」「津波」「注意報」の4単語のうち,入力記事20
に含まれるものは「地震」「震度」の2単語なので,マ
ッチ率は2/4=0.5と計算される。同様に,地震−
002フレーム1032の場合,「地震」「震度」「死
傷者」の3単語のキーのうち,入力記事20に含まれる
ものは「地震」「震度」の2単語なので,マッチ率は2
/3=0.66と計算される。同様に,地震−003フ
レーム1033の場合,マッチ率は4/4=1.0,地
震−004フレーム1034の場合,マッチ率は4/4
=1.0,地震−005フレーム1035の場合,マッ
チ率は4/5=0.8と計算される。
【0058】次に,図10の処理1022によって,マ
ッチ率の高い順にソートしたフレームリスト120(図
12参照)を作る。マッチ率が同得点のフレームが2つ
以上ある場合,番号の若いフレームの順位を上げる。フ
レームリスト120は,順位の高い順に地震−003フ
レーム1033>地震−004フレーム1034>地震
−005フレーム1035>地震−002フレーム10
32>地震−001フレーム1031,のリストとな
る。
【0059】次に,単語情報抽出部104の図13に示
す処理1044において,順位付けされたフレームリス
ト120(図12)から順位の最も高いフレームである
地震−003フレーム1201を選択し,図14に示す
ルールテーブル105から地震−003フレーム105
3’のスロット情報を含む「<地名>で震度<数字>
(*震)の地震があった。」を獲得する。フレーム10
53’と入力記事20とを照合すると,入力記事20の
「<地名>で」がフレーム1053’の部分とマッチす
る。また,形態素解析結果150から,「東北」「関東
地方」が地名であることが分かるので,「東北,関東地
方」が条件にマッチし,スロット<地名>に入力され
る。しかし,次の「震度<数字>(*震)」にマッチす
る部分がないため,スロット<数字>の情報を獲得する
ことができない。スロットが埋まらなかったので,ルー
ルテーブル105から次のフレームを選択する(処理1
044,1045)。
【0060】次に,ルールテーブル105から地震−0
04フレーム1054’を選択し,スロット情報を含む
フレーム「各地の震度は次の通り。震度<数字>(*
震)<地名>、」を獲得する。フレーム1054’と入
力記事20とを照合すると,入力記事20の「各地の震
度は次の通り。(改行)震度3(弱震)東京、」と,フ
レーム1054’の「各地の震度は次の通り。(改行)
震度<数字>(*震)<地名>、」とが表層的にマッチ
する。また,形態素解析結果150から,「3」は数
字,「東京」は地名であることが分かり,単語意味的に
も条件を満たすため完全マッチとなる。この結果,図5
の単語情報30に示すように,スロット<数字>には単
語情報「3」が,スロット<地名>には単語情報「東
京」が入力される。
【0061】スロットが全て埋まったので(処理104
6),抽出単語301の「3」「東京」を次の処理を行
なう第1言語文生成部106および第2言語文生成部1
08に渡す。以下の処理は,前述した実施の形態の場合
と同様である。
【0062】
【発明の効果】以上で述べたように,本発明によれば,
フレームを定めるルールテーブル,要約文の定型パター
ンが格納されたテンプレートを用いることにより,通常
の語句の重要度判定では抽出できない,新聞等の特有の
定型記事に書かれた記事要約文に使用される重要語句を
抽出し,適切な記事要約文を生成することが可能にな
る。また,他言語の要約文を生成することができる。ま
た,新聞記事から新聞見出し,ヘッドラインを生成する
ことができるという効果がある。
【図面の簡単な説明】
【図1】本発明に係る記事要約文生成装置の基本ブロッ
ク図である。
【図2】入力する第1言語新聞記事の例を示す図であ
る。
【図3】単語情報抽出部の処理フローチャートである。
【図4】ルールテーブルの例を示す図である。
【図5】第1言語文生成部,第2言語文生成部で使用さ
れる単語情報の例を示す図である。
【図6】第1言語文生成部の処理フローチャートであ
る。
【図7】第1言語文テンプレートの例を示す図である。
【図8】第2言語文生成部の処理フローチャートであ
る。
【図9】第2言語文テンプレートの例を示す図である。
【図10】フレーム選択部の処理フローチャートであ
る。
【図11】フレームキーテーブルの例を示す図である。
【図12】単語情報抽出部で使用されるフレームリスト
の例を示す図である。
【図13】フレームリストを使用する場合の単語情報抽
出部の処理フローチャートである。
【図14】ルールテーブルの例を示す図である。
【図15】第1言語新聞記事の入力文を形態素解析した
結果を示す図である。
【符号の説明】
100 第1言語新聞記事 101 入力装置 102 フレーム選択部 103 フレームキーテーブル 104 単語情報抽出部 105 ルールテーブル 106 第1言語文生成部 107 第1言語文テンプレート 108 第2言語文生成部 109 第2言語文テンプレート 110 出力装置 111 第1言語要約文 112 第2言語要約文 113 形態素解析部

Claims (11)

    【特許請求の範囲】
  1. 【請求項1】 与えられた記事に対してその記事の要約
    文を生成する装置であって,記事を読み込む入力手段
    と,フレーム名と記事に現れやすい文章またはその一部
    のパターン情報とが格納されたルールテーブルと,上記
    ルールテーブル中のパターン情報と入力記事との照合に
    よって入力記事から単語情報を抽出する手段と,上記ル
    ールテーブル中のフレーム名によって決定されるテンプ
    レートを記憶する手段と,上記テンプレートと,上記で
    抽出された単語情報とによって入力記事の要約文を生成
    する手段と,上記で生成された要約文を出力する手段と
    を有することを特徴とする記事要約文生成装置。
  2. 【請求項2】 与えられた記事に対してその記事の要約
    文を生成する装置であって,第1言語で記述された記事
    を読み込む入力手段と,フレーム名と記事に現れやすい
    文章またはその一部のパターン情報とが格納されたルー
    ルテーブルと,上記ルールテーブル中のパターン情報と
    入力記事との照合によって入力記事から単語情報を抽出
    する手段と,上記ルールテーブル中のフレーム名によっ
    て決定される第2言語文テンプレートを記憶する手段
    と,上記第2言語文テンプレートと,上記で抽出された
    単語情報とによって第2言語要約文を生成する手段と,
    上記で生成された第2言語要約文を出力する手段とを有
    することを特徴とする記事要約文生成装置。
  3. 【請求項3】 与えられた記事に対してその記事の要約
    文を生成する装置であって,第1言語で記述された記事
    を読み込む入力手段と,フレーム名と記事に現れやすい
    文章またはその一部のパターン情報とが格納されたルー
    ルテーブルと,上記ルールテーブル中のパターン情報と
    入力記事との照合によって入力記事から単語情報を抽出
    する手段と,上記ルールテーブル中のフレーム名によっ
    て決定される第1言語文テンプレートを記憶する手段
    と,上記第1言語文テンプレートと,上記で抽出された
    単語情報とによって第1言語要約文を生成する手段と,
    上記ルールテーブル中のフレーム名によって決定される
    第2言語文テンプレートを記憶する手段と,上記の第2
    言語文テンプレートと,上記で抽出された単語情報とに
    よって第2言語要約文を生成する手段と,上記で生成さ
    れた第1言語要約文および第2言語要約文を出力する手
    段とを有することを特徴とする記事要約文生成装置。
  4. 【請求項4】 請求項1から請求項3までのいずれかに
    記載の記事要約文生成装置において,各フレームを特徴
    づけるキー情報がフレームごとに格納されたフレームキ
    ーテーブルと,上記フレームキーテーブルを用いて,入
    力記事とキー情報とのマッチ率を計算することによりフ
    レームを選択するフレーム選択手段とを有し,上記単語
    情報を抽出する手段は,上記フレーム選択手段よって選
    択されたフレームについて上記ルールテーブルを参照し
    て単語情報を抽出することを特徴とする記事要約文生成
    装置。
  5. 【請求項5】 請求項1から請求項4までのいずれかに
    記載の記事要約文生成装置において,入力記事中の文の
    形態素解析を行なう形態素解析手段を有し,上記単語情
    報を抽出する手段は,形態素解析の結果を用いて上記ル
    ールテーブル中のパターン情報と入力記事との照合を行
    なうことを特徴とする記事要約文生成装置。
  6. 【請求項6】 与えられた記事に対してその記事の要約
    文をコンピュータによって生成する方法であって,要約
    文生成対象となる記事を入力し,あらかじめ記事中に現
    れやすい文章またはその一部のパターン情報が格納され
    たルールテーブル中のパターン情報と入力記事との照合
    によって入力記事から単語情報を抽出し,抽出した単語
    情報をあらかじめ用意されているテンプレートに埋め込
    むことにより入力記事の要約文を生成することを特徴と
    する記事要約文生成処理方法。
  7. 【請求項7】 与えられた記事に対してその記事の要約
    文をコンピュータによって生成する方法であって,要約
    文生成対象となる第1言語で記述された記事を入力し,
    あらかじめ記事中に現れやすい文章またはその一部のパ
    ターン情報が格納されたルールテーブル中のパターン情
    報と入力記事との照合によって入力記事から単語情報を
    抽出し,抽出した単語情報を第2言語に翻訳し,それを
    あらかじめ用意されている第2言語文のテンプレートに
    埋め込むことにより入力記事の第2言語要約文を生成す
    ることを特徴とする記事要約文生成処理方法。
  8. 【請求項8】 与えられた記事に対してその記事の要約
    文をコンピュータによって生成する方法であって,要約
    文生成対象となる第1言語で記述された記事を入力し,
    あらかじめ記事中に現れやすい文章またはその一部のパ
    ターン情報が格納されたルールテーブル中のパターン情
    報と入力記事との照合によって入力記事から単語情報を
    抽出し,抽出した単語情報をあらかじめ用意されている
    第1言語文のテンプレートに埋め込むことにより入力記
    事の第1言語要約文を生成し,抽出した単語情報を第2
    言語に翻訳し,それをあらかじめ用意されている第2言
    語文のテンプレートに埋め込むことにより入力記事の第
    2言語要約文を生成することを特徴とする記事要約文生
    成処理方法。
  9. 【請求項9】 請求項6から請求項8までのいずれかに
    記載の記事要約文生成処理方法において,入力記事から
    単語情報を抽出する前の段階で,あらかじめ各フレーム
    を特徴づけるキー情報がフレームごとに格納されたフレ
    ームキーテーブルを用いて,入力記事とキー情報とのマ
    ッチ率を計算することによりフレームを選択し,上記入
    力記事から単語情報を抽出する際に,選択されたフレー
    ムについて上記ルールテーブルを参照して単語情報を抽
    出することを特徴とする記事要約文生成処理方法。
  10. 【請求項10】 請求項6から請求項9までのいずれか
    に記載の記事要約文生成処理方法において,入力記事中
    の文の形態素解析を行ない,上記入力記事から単語情報
    を抽出する際に,形態素解析の結果を用いて上記ルール
    テーブル中のパターン情報と入力記事との照合を行なう
    ことを特徴とする記事要約文生成処理方法。
  11. 【請求項11】 請求項6から請求項10までのいずれ
    かに記載の記事要約文生成処理方法をコンピュータに実
    行させるためのプログラムを記録したことを特徴とする
    記事要約文生成処理プログラムの記録媒体。
JP2000396639A 2000-12-27 2000-12-27 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体 Pending JP2002197097A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000396639A JP2002197097A (ja) 2000-12-27 2000-12-27 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000396639A JP2002197097A (ja) 2000-12-27 2000-12-27 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体

Publications (1)

Publication Number Publication Date
JP2002197097A true JP2002197097A (ja) 2002-07-12

Family

ID=18861896

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000396639A Pending JP2002197097A (ja) 2000-12-27 2000-12-27 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体

Country Status (1)

Country Link
JP (1) JP2002197097A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274803A1 (en) * 2009-04-28 2010-10-28 Hitachi, Ltd. Document Preparation Support Apparatus, Document Preparation Support Method, and Document Preparation Support Program
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
JP2011028638A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> 要約文作成装置、要約文作成方法、プログラム
JP2012003701A (ja) * 2010-06-21 2012-01-05 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2018156593A (ja) * 2017-03-21 2018-10-04 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2021067979A (ja) * 2019-10-17 2021-04-30 日本放送協会 要約装置およびプログラム

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100274803A1 (en) * 2009-04-28 2010-10-28 Hitachi, Ltd. Document Preparation Support Apparatus, Document Preparation Support Method, and Document Preparation Support Program
JP2011028638A (ja) * 2009-07-28 2011-02-10 Nippon Telegr & Teleph Corp <Ntt> 要約文作成装置、要約文作成方法、プログラム
JP4625535B1 (ja) * 2009-12-14 2011-02-02 株式会社野村総合研究所 情報抽出システム及び情報抽出プログラム
JP2011123794A (ja) * 2009-12-14 2011-06-23 Nomura Research Institute Ltd 情報抽出システム及び情報抽出プログラム
JP2012003701A (ja) * 2010-06-21 2012-01-05 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2014130613A (ja) * 2014-02-06 2014-07-10 Nomura Research Institute Ltd 談話要約生成システムおよび談話要約生成プログラム
JP2018156593A (ja) * 2017-03-21 2018-10-04 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP2021067979A (ja) * 2019-10-17 2021-04-30 日本放送協会 要約装置およびプログラム
JP7365849B2 (ja) 2019-10-17 2023-10-20 日本放送協会 要約装置およびプログラム

Similar Documents

Publication Publication Date Title
Pasha et al. Madamira: A fast, comprehensive tool for morphological analysis and disambiguation of arabic.
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
Sadat et al. Combination of Arabic preprocessing schemes for statistical machine translation
Zaghouani RENAR: A rule-based Arabic named entity recognition system
Woodsend et al. Generation with quasi-synchronous grammar
US6678409B1 (en) Parameterized word segmentation of unsegmented text
Steingrímsson et al. Augmenting a BiLSTM tagger with a morphological lexicon and a lexical category identification step
US20090083026A1 (en) Summarizing document with marked points
US20240104290A1 (en) Device dependent rendering of pdf content including multiple articles and a table of contents
JPH05158401A (ja) 文書速読支援表示方式並びに文書処理装置及び文書検索装置
JP2002197097A (ja) 記事要約文生成装置,記事要約文生成処理方法および記事要約文生成処理プログラムの記録媒体
Milo et al. A new strategy for Arabic OCR: archigraphemes, letter blocks, script grammar, and shape synthesis
JP4018668B2 (ja) 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
Koanantakool et al. Computers and the thai language
JP5285491B2 (ja) 情報検索システム、方法及びプログラム、索引作成システム、方法及びプログラム、
JP5298834B2 (ja) 例文マッチング翻訳装置、およびプログラム、並びに翻訳装置を含んで構成された句翻訳装置
CN112231512A (zh) 歌曲标注检测方法、装置和系统及存储介质
US11842141B2 (en) Device dependent rendering of PDF content
Singh et al. An efficient Romanization of Gurmukhi Punjabi proper nouns for pattern matching
JP3136973B2 (ja) 言語解析システムおよび方法
US20230069113A1 (en) Text Summarization Method and Text Summarization System
JP4397221B2 (ja) テキスト文から抽出した情報を利用したリンク設定装置およびその方法
JP3788864B2 (ja) 関連語自動抽出装置及び方法並びに情報記憶媒体
KR20070083757A (ko) 텍스트 데이터 구조, 텍스트 데이터 처리방법, 텍스트데이터 처리 프로그램 및 텍스트 데이터 처리 프로그램을기록한 기록 매체
Iglesias-Franjo et al. Any papyrus about" a hand over a stool and a bread loaf, followed by a boat"? Dealing with hieroglyphic texts in IR