JP2005038282A - データ処理方法及びデータ処理装置 - Google Patents

データ処理方法及びデータ処理装置 Download PDF

Info

Publication number
JP2005038282A
JP2005038282A JP2003276034A JP2003276034A JP2005038282A JP 2005038282 A JP2005038282 A JP 2005038282A JP 2003276034 A JP2003276034 A JP 2003276034A JP 2003276034 A JP2003276034 A JP 2003276034A JP 2005038282 A JP2005038282 A JP 2005038282A
Authority
JP
Japan
Prior art keywords
data
phrase
word
extracted
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003276034A
Other languages
English (en)
Inventor
Minoru Harada
実 原田
Tomokazu Yago
友和 矢後
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tama TLO Co Ltd
Original Assignee
Tama TLO Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tama TLO Co Ltd filed Critical Tama TLO Co Ltd
Priority to JP2003276034A priority Critical patent/JP2005038282A/ja
Publication of JP2005038282A publication Critical patent/JP2005038282A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 意味的に重要な語句の欠落の可能性を低下させ、要約品質を高め、表層情報では抽出できない意味的に重要な語句を抽出することができるデータ処理方法及びデータ処理装置を提供する。
【解決手段】 意味解析結果である格フレーム群23を入力とし、要約部24において、EDR電子化辞書21を用いて、要約ルール22(反復語句抽出ルール、反復語句と意味関係がある語句の抽出ルール、抽出された重要語句中の不要語句の削除ルール)に基づき、「反復語句の抽出」、「反復語句以外の重要語句の抽出」、「抽出された重要語句で意味的に冗長な語句の削除」を行い、その要約結果の格フレーム群25を文生成部26により3つの出力形式で原文及び要約結果27として出力する。
【選択図】 図2

Description

本発明は、原文から所定の要約ルールに基づいて要約文を生成するデータ処理方法及びデータ処理装置に関する。
近年、コンピュータネットワークに代表される計算機技術の急速な進歩により、膨大な量のテキスト情報が手に入るようになり、自動要約に対する期待が高まっている。昨今の要約に関する研究では、文単位での要約から、語句単位で重要な語句を抽出するといった要約へと関心が移ってきている。
語句単位での要約を行った研究として、「キーワード」あるいは「文生成に必要な語句」に着目した重要語句抽出を行い、抽出した語句から文生成をするという要約を行っている(第1の従来技術)。また、要約結果を“句”の長さで表現する手法が提案されており、語間に重要と思われる関係を持つ語の組を列挙することで要約結果を得ている(第2の従来技術)。
しかしながら、上記の第1の従来技術においては、語句抽出の際に用いる情報が、表層情報や構文情報のみなので、語意に基づく精密な重要語句抽出を行うことは困難である。また、第2の従来技術においては、利用する情報は表層情報や構文情報のみであり、第1の従来技術と同様な問題点をかかえている。
以上のように、語句抽出の際に用いる情報が表層情報や構文情報のみでは文章の内容を意味理解していないので、文章内で意味的に重要な語句が削除されてしまったり、不要な語句が多く要約文に残ってしまう可能性がある。
本発明は、上記課題を解決するもので、意味的に重要な語句の欠落の可能性を低下させ、要約品質を高め、表層情報では抽出できない意味的に重要な語句を抽出することができるデータ処理方法及びデータ処理装置を提供することを目的とする。
請求項1の発明は、複数の語句から構成される文章の要約をコンピュータが生成するデータ処理方法であって、前記文章を示す文章データから反復語句データを抽出する第1の工程と、前記文章データから、前記第1の工程で抽出した前記反復語句データ以外の語句データであって、前記要約を示す要約データの作成に用いる語句データを抽出する第2の工程と、前記第1の工程で抽出した前記反復語句データと、前記第2の工程で抽出した前記語句データとを用いて、前記要約データを生成する第3の工程とを有し、前記第2の工程は、前記第1の工程で抽出した前記反復語句データと深層格で隣接した第1の語句データを、前記文章データから抽出する第4の工程と、前記第4の工程で抽出した前記第1の語句データが用言データである場合に、当該第1の語句データと必須格で隣接する第2の語句データを、当該第2の語句データが前記第1の工程で前記反復語句データとして抽出されていないことを条件に、前記文章データから抽出する第5の工程と、前記第1の工程で抽出した前記反復語句データまたは前記第4の工程で抽出した前記第1の語句データと深層格で隣接する用言データと、当該用言データに必須格で隣接する第3の語句データとを、前記文章データから抽出する第6の工程とを有し、前記第3の工程は、前記第4の工程で抽出した前記第1の語句データと、前記第5の工程で抽出した前記第2の語句データと、前記第6の工程で抽出した前記用言データ及び前記第3の語句データとを用いて、前記要約データを生成することを特徴とする。
請求項1の発明によれば、反復語句データと深層格で隣接した第1の語句データ、第1の語句データと必須格で隣接する第2の語句データ、第1の語句データと深層格で隣接する用言データ、用言データに必須格で隣接する第3の語句データを文章データから抽出し、要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質が高くなる(漏れがなくかつ無駄のない要約を生成できる)。
請求項2の発明は、前記用言データの前記必須格は、前記コンピュータが前記要約データの生成に用いる辞書データ内で当該用言データについての全深層格の出現総数で各深層格の出現数を除算して規定される出現頻度が所定値以上となるであることを特徴とする。
請求項2の発明によれば、必須格や重要語句を探索する際に深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句の抽出が可能となる。
請求項3の発明は、前記文章データ内の前記第1の工程で抽出した前記反復語句が最初に出現した文データの文末に位置する用言データと、当該用言データと必須格で隣接する第4の語句データを前記文章データから抽出する第7の工程をさらに有し、前記第3の工程は、前記第7の工程で抽出した前記第4の語句データをさらに用いて、前記要約データを生成する。
請求項3の発明によれば、反復語句が最初に出現した文データの文末に位置する用言データと必須格で隣接する第4の語句データを文章データから抽出し、第4の語句データをさらに用いて要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質が高くなる。
請求項4の発明は、前記深層格は、動詞を中心とした語と語の間の意味関係を表す格であることを特徴とする。
請求項4の発明によれば、必須格や重要語句を探索する際に、動詞を中心とした語と語の間の意味関係を表す深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句の抽出が可能となる。
請求項5の発明は、前記第6の工程は、前記第1の工程で抽出した前記反復語句データまたは前記第4の工程で抽出した前記第1の語句データと、reason格、cause格、sequence格などの深層格で隣接する用言データを前記文章データから抽出することを特徴とする。
請求項5の発明によれば、反復語句データまたは第1の語句データと、reason格、cause格、sequence格などの深層格で隣接する用言データを文章データから抽出するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質が高くなる。
請求項6の発明は、前記反復語句データは、前記文章データ中の異なる文データに二度以上出現する同一語句データ、同義・類義語句データであることを特徴とする。
請求項6の発明によれば、表層的な反復語句の抽出だけでなく、同一語句、同義・類義語句も反復語句として抽出するため、意味的に重要な語句の欠落の可能性が低下する。
請求項7の発明は、複数の語句から構成される文章の要約を生成するデータ処理装置であって、前記文章を示す文章データから反復語句データを抽出する反復語句抽出手段と、前記文章データから、前記反復語句抽出手段で抽出した前記反復語句データ以外の語句データであって、前記要約を示す要約データの作成に用いる語句データを抽出する語句抽出手段と、前記反復語句抽出手段で抽出した前記反復語句データと、前記語句抽出手段で抽出した前記語句データとを用いて、前記要約データを生成する生成手段とを有し、前記語句抽出手段は、前記反復語句抽出手段で抽出した前記反復語句データと深層格で隣接した第1の語句データを、前記文章データから抽出する第1の語句抽出手段と、前記第1の語句抽出手段で抽出した前記第1の語句データが用言データである場合に、当該第1の語句データと必須格で隣接する第2の語句データを、当該第2の語句データが前記反復語句抽出手段で前記反復語句データとして抽出されていないことを条件に、前記文章データから抽出する第2の語句抽出手段と、前記反復語句抽出手段で抽出した前記反復語句データまたは前記第1の語句抽出手段で抽出した前記第1の語句データと深層格で隣接する用言データと、当該用言データに必須格で隣接する第3の語句データとを、前記文章データから抽出する第3の語句抽出手段とを有し、前記生成手段は、前記第1の語句抽出手段で抽出した前記第1の語句データと、前記第2の語句抽出手段で抽出した前記第2の語句データと、前記第3の語句抽出手段で抽出した前記用言データ及び前記第3の語句データとを用いて、前記要約データを生成することを特徴とする。
請求項7の発明によれば、反復語句データと深層格で隣接した第1の語句データ、第1の語句データと必須格で隣接する第2の語句データ、第1の語句データと深層格で隣接する用言データ、用言データに必須格で隣接する第3の語句データを文章データから抽出し、要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質が高くなる。
請求項1の発明によれば、反復語句データと深層格で隣接した第1の語句データ、第1の語句データと必須格で隣接する第2の語句データ、第1の語句データと深層格で隣接する用言データ、用言データに必須格で隣接する第3の語句データを文章データから抽出し、要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質を高めることができる。これにより、従来のように、要約時の語句抽出の際に用いる情報が表層情報や構文情報のみのために、文章内で意味的に重要な語句が削除されてしまったり、不要な語句が多く要約文に残ってしまう可能性を解消することができる。
請求項2の発明によれば、必須格や重要語句を探索する際に深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句を抽出することが可能となる。
請求項3の発明によれば、反復語句が最初に出現した文データの文末に位置する用言データと必須格で隣接する第4の語句データを文章データから抽出し、第4の語句データをさらに用いて要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質を高めることができる。
請求項4の発明によれば、必須格や重要語句を探索する際に、動詞を中心とした語と語の間の意味関係を表す深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句を抽出することが可能となる。
請求項5の発明によれば、反復語句データまたは第1の語句データと、reason格、cause格、sequence格などの深層格で隣接する用言データを文章データから抽出するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質を高めることができる。
請求項6の発明によれば、表層的な反復語句の抽出だけでなく、同一語句、同義・類義語句も反復語句として抽出するため、意味的に重要な語句の欠落の可能性を低下させることができる。
請求項7の発明によれば、反復語句データと深層格で隣接した第1の語句データ、第1の語句データと必須格で隣接する第2の語句データ、第1の語句データと深層格で隣接する用言データ、用言データに必須格で隣接する第3の語句データを文章データから抽出し、要約データを生成するため、即ち、意味的に重要な語句以外を要約文に残さないため、要約品質を高めることができる。
以下、本発明の実施の形態を図面を参照しながら説明する。
本実施形態では、原文中の意味的に重要な語句のみからなる要約文を生成する要約システム(ABISYS)について説明する。ABISYSへの入力には、与えられた日本語文章を意味解析システム(SAGE)によって意味解析した格フレーム群を用いる。SAGEでは、形態素解析と係り受け解析の結果に基づき、EDR電子化辞書で定義された語の語意や語間の深層格関係などを解析し、解析結果を格フレーム群として出力する。なお、ゼロ代名詞の照応関係を解析するために、照応解析システム(Anasys)も併せて利用する。
ここで、深層格とは、動詞を中心とした語と語の間の意味関係を表すものである。
深層格は、例えば、Fillmoreの定義、EDR電子化辞書による定義、さらに、それらに複合語の構成語を表す格などを追加して定義される。
ゼロ代名詞とは、用言データの必須格で文章データに存在しない語句データである。格フレームについては後述する。
本実施形態においては、要約システム(ABISYS)について、以下、「1.基本的考え方」、「2.システム概要」、「3.ABISYSの要約手順」、「4.まとめ」の順で詳細に説明する。
「1.基本的考え方」
1.1 反復語句
まず、基本的考え方について説明する。国立大の文科系大学生に日本語文章を与えて要約文を作成させ、原文と要約文を比較し、要約文に残りやすい語句の調査を行った。その結果から、「“反復語句”は文章全体の内容を示す可能性が極めて高く、要約文に残りやすい」、「“話題提示の冒頭部”や“内容予告の部分”など、文章中の特定の役割を担う語句が要約文に残りやすい」ことを示唆した。ここで、反復語句とは、「文章中の異なる文に二度以上出現する同一語句ないしは同義・類義語句(ただし、付属語・感動詞・接続詞・連体詞・形式名詞・補助用言・指示語句は除く)」のことをいう。
本実施形態では、この調査研究を基に、文章中の反復語句に着目し、これを抽出し、また、これをベースに要約を行う。以下、本実施形態では、表記上同じ語句を同一語、同義・類義語句を同意語と呼ぶ。
1.2 反復語句以外の重要な語句
上記調査研究では、反復語句以外で要約文に残りやすい語句は、「反復語句かそれを含む語句、節、文の中などに位置しており、反復語句の前後のある範囲の語句」であると述べている。
本実施形態では、「反復語句の前後のある範囲」という言葉を、意味的に関係がある語句と考え、「反復語句と深層格で接続している語句」として、反復語句以外の重要語句として抽出する。
1.3 重要語句だが要約文で削除されやすい意味的に冗長な語句
上記調査研究では、「要約文では、補足語修飾節を構成する述語と被修飾名詞の格関係が「ヲ」格、「ニ」格、「デ」格、「ガ」格の時、削除されやすい」「要約文では引用動詞が削除されやすい」と述べている。
本実施形態では、この2つの観点から、抽出された重要語句に対し語の削除を行う。
「2.システム概要」
図1は本実施形態の要約システムを実現するためのコンピュータの基本構成を示すブロック図である。コンピュータは、CPU1、ROM2、RAM3、外部記憶装置4、表示部5、操作部6、システムバス7を備えている。
CPU1は、システムバス7を介して各部を制御する中央演算処理装置であり、ROM2に格納されている制御プログラム(後述の要約部、文生成部を含む)を動作させることで図11〜図13のフローチャートに示す処理を実行する。ROM2は、制御プログラム、固定データを格納する。RAM3は、CPU1のワーク領域、データの一時記憶領域として使用される。外部記憶装置4は、ハードディスク、CD−ROM等から構成され、後述のEDR電子化辞書、要約ルールを格納している。表示部5は、液晶ディスプレイまたはCRTディスプレイから構成され、要約結果等の画面を表示する。操作部6は、キーボード、マウス等から構成され、データ入力や指示を行う際に使用する。
2.1 入力形式
本システムでは、入力として、SAGEによって解析された格フレーム群を用いる。格フレームの要素は、フレーム番号、語の文中での表記、読み、茶筅品詞に対応するEDR品詞、JUMAN品詞に対応するEDR品詞、辞書見出し語、茶筅品詞、JUMAN品詞、活用、助詞、概念ID(語意)、深層格情報、文番号、文節番号の14の要素からなる。
ここで、中心となる動詞は、自分のまわりにどういう格を集めるかを特定しておく必要がある。この格を集める順序集合を格フレーム(case frame)と呼ぶ。格フレームは、その動詞にとって不可欠(obligatory)なものか、あってもなくても良いものか(optional)を指定される。なお、茶筅品詞とは、茶筅辞書システムで定義された品詞であり、EDR品詞とはEDR辞書システムで定義された品詞であり、JUMAN品詞とはJUMAN辞書システムで定義された品詞である。
2.2 出力形式
本システムでは、(1)原文、(2)原文から削除される語を“[ ]”で示した原文、(3)要約文、の3つの出力を行う。
2.3 EDR電子化辞書
本システムでは、例えば、図2に示すように、26万単語、40万概念が記述されたEDR電子化辞書21を用いて、要約ルール22(反復語句抽出ルール、反復語句と意味関係がある語句の抽出ルール、抽出された重要語句中の不要語句の削除ルール)に基づき要約処理を行う。図示は省略するが、その中でも特に、語の概念構造を記述した概念体系辞書と、実際の例文を係り受け解析し、その結果を各語の語意と語間の関係として記述した共起辞書を用いる。
2.4 システム構成
本システムは、図2に示すように、意味解析結果である格フレーム群23を入力とし、それを要約部24で「反復語句の抽出」「反復語句以外の重要語句の抽出」「抽出された重要語句で意味的に冗長な語句の削除」を行い、その要約結果の格フレーム群25を文生成部26により、上述したような3つの出力形式で原文及び要約結果27として出力する。
ここで、要約部24および文生成部26は、CPU1が上記制御プログラムを実行することで実現される。
本システムでは、3つの要約手順すなわち要約ルール(反復語句抽出ルール、反復語句と意味関係がある語句の抽出ルール、抽出された重要語句中の不要語句の削除ルール)と、EDR電子化辞書を用いて要約処理を行う。そして、その要約処理結果のフレームを基に、3つの形式で文を構築する。
「3.ABISYSの要約手順」
ABISYSの要約手順は以下に示す4つの手順である。
3.1 反復語句の抽出
要約部24が、入力された上記格フレーム群から反復語句の抽出する。
具体的には、要約部24が、格フレーム群から異なる文に二度以上出現する同一語句及び同意語句を抽出する。ただし、「ある」「こと」「もの」等の反復語句の定義で除外された語は除く。
具体的には、以下の3つのステップで行う。
3.1.1 反復語句候補の決定
まず、始めに、要約部24が、入力格フレーム群から、以下の条件に合致するフレームを反復語句候補Rとし抽出する。
(i)フレーム要素の茶筅品詞に対応するEDR品詞が、体言(名詞、代名詞、数詞の総称)などを表すJAM、JN1、JN2、JN3、JN4、JN5、JN6、JSA、JT4、JNPである。なお、JAM、JN1、JN2、JN3、JN4、JN5、JN6、JSA、JT4、JNPとはEDR辞書システムで定義された値である。
(ii)見出しが「指示詞」(「これ」等)、「形式名詞」(「こと」等)ではない。
(iii)既に反復語句として抽出された語句ではない。
3.1.2 反復語句候補の出現数の調査
次に、要約部24が、上記抽出された反復語句候補Rの出現数を以下の手順で求める。
(i)要約部24が、反復語句候補Rの格フレームの「見出し」要素を基準に、入力フレーム群から「見出し」が一致するフレームの出現数を求める(同一語の探索)。
(ii)要約部24が、(i)で一致しなかった入力フレーム群の各フレームが表す語と反復語句候補Rの概念距離≦3のフレームの出現数を求める(同意語の探索)。
(iii)要約部24が、(i)及び(ii)において出現数の合計≧2ならば、反復語句候補Rを反復語句と判定し、抽出する。
例えば、要約部24は、図3に示すように、フレーム番号2の「茶」が反復語句候補として抽出されたとする。同一語の探索で、フレーム番号76の「茶」が「見出し」要素が一致するため、出現数を1増やす。
また、要約部24は、同意語の探索において、図4に示すように、フレーム番号163の「飲み物」との概念距離(共通概念「飲みもの」までの距離の大きい方)が3以下のため、これを同意語として出現数を1増やす。よって、フレーム番号2の「茶」は出現数=3≧2となるので、反復語句として抽出される。
3.1.3 要約文に残す反復語句の決定
要約部24は、最後に、ユーザが要約強度として指定した値が1から3のそれぞれに対し、以下の(i)〜(iii)のようにして最終的に要約要素語として残す反復語句を決定する。ここで、要約強度とは、ユーザが指定した要約度合い(1:強、2:中、3:弱)である。また、最終的に要約文に残る語を要約要素語と呼ぶ。
(i)出現数が最大の反復語句のみを要約文に残す。
(ii)出現数が2番目までの反復語句のみを要約文に残す。
(iii)出現数が3番目までの反復語句のみを要約文に残す。
語意・深層格に基づいて重要な語句を選択するABISYSによる要約手法は、ステップ1:「3.1 反復語句の抽出」、ステップ2:「3.2 反復語句以外の重要語句の抽出」、ステップ3:「3.3 冗長な重要語句の削除(重要語句の再検討)」、の3つのステップに大別することができる。
ABISYSによる要約手法における上記ステップ1:「3.1 反復語句の抽出」についてまとめると以下のようになる。
1.異なる文に2度以上出現する見出しが同一の同一語句の抽出
2.異なる文に2度以上出現する意味的に類似した同意語句の抽出
3.要約強度から要約文に残す反復語句を選択
ステップ1では、要約部24が反復語句を抽出する。反復語句の抽出手順は、同一語句の抽出、同意語句の抽出を行い、ユーザが指定した要約強度1〜3から最終的に要約文に残す反復語句を選択する。
ステップ1について具体的に説明する。
まず、最初に、要約部24が、品詞が上記JAM、JN1等の品詞であり、見出し要素が指示詞(「これ」等)・形式名詞(「こと」等)ではなく、既に反復語句として抽出された語句ではないという条件を満たす語を反復語句候補Rとして抽出する。本例では、図3に示したフレーム番号2の「茶」が反復語句候補Rとして抽出される。
次に、要約部24が、反復語句候補Rの出現数を計算する。まず、反復語句候補Rの格フレーム要素の「見出し」を基準に、「見出し」が一致する語の出現数を調べる。本例では、図3に示したフレーム番号76の「茶」が反復語句候補Rと「見出し」で一致する。
次に、要約部24が、同一格の探索でマッチしなかった語に対し、反復語句候補Rと概念距離が3以下の語の出現数を調べる。概念距離とは、上述したように、ある語とある語の共通概念までの距離の大きい方を指す。同意語の探索の例は、図3に示したフレーム番号2の「茶」の同意語として、フレーム番号163の「飲み物」が抽出される。最後に、要約部24が、同一語及び同意語の探索で出現数の合計が2以上なら反復語句と判定する。
反復語句抽出の最後の手順において、要約部24は、ユーザが指定した要約強度から、反復語句の出現数を基に、要約文に残す反復語句を決定する。ここでは、要約強度1〜3の順に、出現数1〜3の反復語句を選択する。
3.2 反復語句以外の重要語句の抽出
要約部24は、反復語句以外で、要約要素語として残す重要語句の抽出を、以下の4ステップで行う。
(1)3.1で前述したようにして抽出した反復語句(本発明の反復語句データ)と深層格で隣接した隣接語句B(本発明の第1の語句データ)を、入力した格フレーム(本発明の文章データ)から抽出する。
(2)隣接語句Bが用言(動詞、形容詞、形容動詞の総称)ならば、隣接語句Bの必須格(本発明の第2の語句データ)を抽出する。この場合に、当該必須格が上記反復語句として抽出されていないこと条件に、当該必須格の抽出を行う。
(3)反復語句Aまたは隣接語句Bと、reason格、cause格、sequence格などの深層格で隣接する用言Cと、その隣接必須格(本発明の第3の語句データ)を抽出する。
ここで、reason格とは、対象となる動詞に対して、その動詞が示す意味の理由となる意味関係をいう。
また、cause格とは、対象となる動詞に対して、その動詞が示す意味の原因となる意味関係をいう。
また、sequence格とは、対象となる動詞に対して、その動詞が示す事象、事実の順序の意味関係をいう。
(4)反復語句が最初に現れた文の、文末の用言と、その必須格を抽出する。
ここで、必須格とは、本実施形態のコンピュータが要約データの生成に用いる辞書データ内で、対応する用言データについての全深層格の出現総数で各深層格の出現数を除算して規定される出現頻度が所定値以上となる深層格である。
要約部24は、用言の必須格を以下のように決定する。
すなわち、要約部24は、対象となる用言の深層格(agent格(行為者格)、object格(対象格))について全深層格に対する当該発生頻度を求め、その頻度が所定値を超えるものを必須格とする。
抽出の流れを例を用いて説明すると、文「・・・烏龍茶でもどうぞと言って烏龍茶の水割りなる妙ちきりんな飲み物を出される」の意味木を表す図5の〔1〕の「飲み物」が予め反復語句として抽出されているので、最初にその隣接語句である図中〔2〕の「妙ちきりん」と「なる」と「出さ」が要約部24によって抽出される。次に、「出さ」は用言なので、sequence格で繋がる図中〔3〕の用言「言って」が要約部24によって抽出される。また、この場合、「出さ」の必須格に当たるobject格で接続する「飲み物」は既に反復語句として抽出されているので、必須格としての抽出は行わない。
3.2.1 必須格の決定方法
本システムでの用言の必須格の決定方法を以下のように行う。
すなわち、要約部24は、、図6に示す出現頻度(=各深層格の出現数/全深層格の出現総数)を求め、出現頻度が0.15の閾値(agent格は0.08)以上の深層格を用言の必須格と決定する。この閾値は照応解析システムの実験を基にして定めたものである。例として、図7に示す「重ねる」という用言の出現頻度を見ると、agent格、object格がそれぞれ閾値を超える出現頻度を持つので、用言「重ねる」の必須格はagent格、object格となる。
ABISYSによる要約手法における要約部24が行う上記ステップ2「3.2 反復語句以外の重要語句の抽出」についてまとめると以下のようになる。
1.反復語句と深層格関係を持つ隣接体言の抽出
2.反復語句と深層格関係を持つ隣接用言の抽出 及び
(i)その必須格の語句の抽出
(ii)その用言と深層格関係を持つ他の用言とその必須格の抽出
3.反復語句として抽出された語が最初に現れた文の文末の用言とその必須格の抽出
要約部24は、ステップ2において、上記ステップ1で抽出した反復語句を基にそれ以外の重要語句を抽出する。まず、反復語句と深層格関係を持つ隣接体言を抽出し、次に隣接用言を抽出する。ただし、要約部24は、その隣接用言の必須格の語句や、その隣接用言と深層格関係を持つ他の用言とその必須格の抽出も行う。最後に、要約部24は、反復語句として抽出された語が最初に現れた文の文末の用言(main格を持つ用言)とその必須格を抽出する。
ステップ2について具体的に説明する。
まず、要約部24は、最初に抽出された反復語句と深層格で隣接する隣接語句Bを抽出する。「烏龍茶でもどうぞと言って烏龍茶の水割りなる妙ちきりんな飲み物を出される」という例では、反復語句「飲み物」に対し、「出さ」「妙ちきりん」「なる」が隣接語句Bにあたる。
次に、要約部24は、隣接語句Bが用言ならば、その必須格も抽出する。必須格の抽出は、出現頻度を用いて判定する。隣接語句Bで用言なのは「出さ」であるが、必須格にあたる「飲み物」は既に反復語句として抽出されているので、重要語句としては抽出しない。
次に、要約部24は、隣接語句Bとreason、cause、sequence格等の深層格で接続する用言Cとその隣接必須格を抽出する。本例では、「出さ」のsequence格の宛て先語である用言「言って」が抽出される。
また、要約部24は、重要語句の抽出の最後に、各反復語句が最初に現れた文の、main格を持つ用言とその必須格を抽出する。
3.3 冗長な重要語句の削除
ここでは、上記の1.3 重要語句だが意味的に冗長な語句の削除、で既に述べたように、要約要素格として抽出された語句の中で意味的に冗長な語句の削除を要約部24は以下の2ステップで行う。
3.3.1 連体修飾節の一種である補足語修飾節の削除
要約部24は、補足語修飾節の削除手順を以下の4ステップで行う。
(i)重要語句から、体言などを表す品詞である、JN1、JN2、JN3、JN4、JN5、JN6、JN7、JSAの被修飾名詞Aを探索する。
(ii)被修飾名詞Aが持つ補足語修飾節を表すwhich格の宛て先語Bを探索する。
(iii)被修飾名詞Aが持つ補足語修飾節を表すmodifier格の宛て先語Cを探索する。
(iv)語Bが被修飾名詞Aに対して、object格、goal格、place格、agent格を持ち、かつ、語Cが存在すれば、補足語修飾節を構成する語(語Bを根に持つ部分木)を全て削除する。
補足語修飾節削除の流れを文「烏龍茶の水割りなる妙ちきりんな飲み物」を用いて説明すると、図示は省略するが、フレーム番号163の「飲み物」が被修飾名詞の候補になる。「飲み物」はwhich格としてフレーム番号162の用言「なる」を持ち、「なる」はフレーム番号163の「飲み物」をobject格として持つので、図8に示すように、図中〔1〕の被修飾名詞「飲み物」の補足語修飾節を構成する語である図中〔2〕の「なる」、「烏龍茶」、「水割り」が削除される。
結局、この例では、「烏龍茶の水割りなる妙ちきりんな飲み物」という補足語修飾節が「妙ちきりんな飲み物」と要約される。ただし、補足語修飾節を削除した後、底の名詞だけが要約文に残る形になると意味がわからなくなる場合があるので、連体修飾節以外にも修飾語「妙ちきりんな」を持つ場合のみこの削除を行う。
3.3.2 引用節を導く引用動詞の削除
要約部24は、引用動詞の削除を以下の4ステップで行われる。
(i)重要語句中の用言で、上位概念が、「考える」という概念を表す“30f878”や「思考する」という概念を表す“444dda”等の語Aを探索する。
(ii)語Aが持つ、logical格、timing格、purpose格の語Bを探索する。
(iii)語B(語Bが構成語ならそれを含む複合語)の品詞が用言を表すJVE、JPR、JSAであり、かつ、語Bの助詞が「と」「ように」「とか」等ならば、語Bと深層格で繋がる語Aを引用動詞と判断し、語Aを削除する。
(iv)語Aの引用節以外の深層格先の語を全て削除する。
引用動詞削除の流れを文「とんでもないと思うのだが」を用いて説明すると、図示は省略するが、まず、フレーム番号208の「思う」の上位概念が「考える」という概念の「30f878」で、「思う」は、図9に示す〔2〕のフレーム番号192の「とんでも」をlogical格として持つ。そして、「とんでも」は構成語で、これをconsist格の宛て先として持つフレーム番号194の複合語「とんでもない」の品詞はJPRで、助詞に「と」を持つ。よって、フレーム番号208の「思う」は引用動詞となり、図9に示すように図中〔1〕の「思う」と、〔2〕の引用節「とんでもないと」以外の、〔3〕で示した、「思う」の深層格の宛て先の語「の」「のだが」「だ」を全て要約部24が削除する。
ABISYSによる要約手法における要約部24による上記ステップ3「3.3 冗長な重要語句の削除(重要語句の再検討)」についてまとめると以下のようになる。
1.重要語句で、意味的に冗長なものを削除
(i)補足語修飾節の削除
(ii)引用動詞の削除
ステップ3では、上記ステップ2で抽出した重要語句中で意味的に冗長な語句を削除する。ここでは、補足語修飾節の削除、引用動詞の削除を行う。
ステップ3について具体的に説明する。
まず、補足語修飾節は、節内の述語が被修飾名詞と補足関係を持つ節である。例えば「烏龍茶の水割りなる妙ちきりんな飲み物を出される」において、「烏龍茶の水割りなる」が補足語修飾節であり、「飲み物」が被修飾名詞である。
要約部24は、補足語修飾節の削除手順を以下のように行う。まず、要約部24は、抽出された重要語句から被修飾名詞Aを探索する。次に、要約部24は、被修飾名詞Aが持つwhich格先の語Bを探索する。次に、要約部24は、被修飾名詞Aが持つmodifier格先の語Cを探索する。最後に、要約部24は、語Bが被修飾名詞Aに対して、object格、goal格、place格、agent格を持ち、かつ、語Cが存在すれば、補足語修飾節を構成する語、つまり語Bを根に持つ部分木を全て削除する。
次に、引用動詞は、引用節を導く動詞であり、引用節は、引用の「と」「ように」等が後節した述語を含む節である。例えば「とんでもないと思うのだが」の「思うのだが」が引用動詞である。
引用動詞の削除手順は以下のとおりである。まず、重要語句中の用言で、上位概念が「30f878%(考える)」「444dda%(思考する)」等の語Aを探索する。次に、語Aが持つ、logical格、timing格、purpose格の語Bを探索する。語B(またはその語の複合語)の品詞が、JVE、JPR、JSAであり、かつ語Bの助詞が「と」「ように」「とか」等であるならば、語Aを引用動詞と判断し、語Aを削除する。最後に、引用節以外の引用動詞Aを根に持つ意味木を構成する語を要約部24が削除する。
3.4 要約結果フレームに基づいた文生成
文生成部26による文生成は以下の4ステップで行われる。
(i)これまでの要約処理の結果、残った全ての要約要素語Aに対して、その構成語B(consist格の宛て先の語)を探し、これら全て削除する。
(ii)同一文番号を持つ要約要素語中にmain格を持つ用言がない場合、その文番号を持つ語全てを削除する。
(iii)残りの全ての要約要素語Cを、文節番号の値の小さい順にソートする。
(iv)ソート結果順に、要約要素語Cとその助詞を出力する。ただし、要約要素語Cの中で文末の語は、「。」と「改行」を語の後ろに付与する。また、文末語が用言でない場合は文末に最も近い用言より後の語を削除し、この用言を文末語とする。
文生成の手順を例を用いて説明すると、図10の〔1〕に示したフレーム番号1の「中国」及びフレーム番号2の「茶」は構成語なので削除する。次に、〔2〕で示したとおり、残りの語を文節番号でソートし、格フレーム要素の助詞を補って繋げる。最後に文末の語の後に「改行」及び「。」を追加する。
「4.まとめ」
4.1 評価
事例として、中国茶に関する論説文を扱い、以下の項目について調査した。
(i)原文と要約文の文数の比較
原文の文数は16文で、要約結果は要素強度1、2、3に従って、4文、6文、9文(要約品質:0.25、0.375、0.5625)となった。
(ii)原文と要約文の字数の比較
原文の字数は422字で、要約結果は要素強度1、2、3に従って、53字、99字、157字(要約品質:0.126、0.235、0.372)となった。
(iii)要約文の意味内容
本実施形態で示した事例では、要約強度が1の場合では、要約文から原文の内容の一部を理解することはできない結果になったが、要約強度が2や3の場合では、大筋の内容を理解することができる要約文を生成した。
以上の調査結果から、原文の意味をもらすことなく、原文の字数を約4分の1程度まで要約することが可能となる。その主な理由は以下の2点である。
(i)語の言い換えへの対応
人が文章を書く際に、同じ語を何度も繰り返し用いることを嫌い、その語を意味的には同じだが表層的に違う語句として言い換える場合は多い。本手法は、表層的な反復語句の抽出だけでなく、同意語も反復語句として抽出するので、意味的に重要な語句の欠落の可能性が低い。また、意味的に重要な語句以外を要約文に残さないため、要約品質が高くなる。
(ii)深層格を用いた要約要素語抽出
必須格や重要語句を探索する際に深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句を抽出することが可能である。
今後、長文においては、反復語句を文章の起承転結において適切に変動っせながら抽出すること、同意語抽出の際の概念距離の調整や、重要語句抽出の際に重要視すべき深層格などを特定していくことによって、さらなる改良をすることが課題である。
次に、上記で詳細に説明した要約システムにおける本実施形態の特徴的な処理である、複数の語句から構成される文章の要約データを生成する処理を図11〜図13のフローチャートを参照しながら説明する。
図11において、まず、文章を示す文章データから反復語句データを抽出する(ステップS11)。次に、文章データから、ステップS11で抽出した反復語句データ以外の語句データであって、要約を示す要約データの作成に用いる語句データを抽出する(ステップS12)。次に、ステップS11で抽出した反復語句データと、ステップS12で抽出した語句データとを用いて、要約データを生成する(ステップS13)。
次に、ステップS12の詳細を説明する。図12において、ステップS11で抽出した反復語句データ(例:「飲み物」)と、深層格で隣接した第1の語句データ(例:「出さ」「妙ちきりん」「なる」)を文章データから抽出する(ステップS121)。次に、ステップS121で抽出した第1の語句データが用言データ(例:「出さ」)である場合に、当該第1の語句データと必須格で隣接する第2の語句データ(例:「飲み物」)を、当該第2の語句データがステップS11で反復語句データとして抽出されていないことを条件(例:満たさない)に文章データから抽出する(ステップS122)。次に、ステップS11で抽出した反復語句データまたはステップS121で抽出した第1の語句データと深層格で隣接する用言データ(例:「言って」)と、当該用言データに必須格で隣接する第3の語句データとを文章データから抽出する(ステップS123)。
次に、ステップS13の詳細を説明する。図13において、ステップS12で抽出した第1の語句データ、第2の語句データ、ステップS123で抽出した用言データ及び第3の語句データとを用いて、要約データを生成する(ステップS131)。
上述したように、本実施形態の要約システムによれば、表層的な反復語句の抽出だけでなく、同意語も反復語句として抽出するので、意味的に重要な語句の欠落の可能性を低下させることができる。また、意味的に重要な語句以外を要約文に残さないため、要約品質を高めることができる。また、必須格や重要語句を探索する際に深層格を用いて抽出しているため、表層情報では抽出できない意味的に重要な語句を抽出することが可能となる。
これにより、従来のように、要約時の語句抽出の際に用いる情報が表層情報や構文情報のみのために、語意に基づく精密な重要語句抽出を行うことが困難で、文章内で意味的に重要な語句が削除されてしまったり、不要な語句が多く要約文に残ってしまう可能性を解消することができる。
本発明は、原文から所定の要約ルールに基づいて要約文を生成する場合に適用できる。
本発明の実施形態の要約システムを実現するためのコンピュータの基本構成を示すブロック図である。 要約システムにおける処理の流れを示す図である。 反復語句の抽出を説明するための図である。 概念距離を示す図である。 重要語句の抽出を説明するための図である。 出現頻度の算出式を示す図である。 必須格の算出例を示す図である。 補足語修飾節を説明するための図である。 引用動詞の削除を説明するための図である。 要約要素語フレーム群からの要約文生成を説明するための図である。 文章の要約データを生成する処理を示すフローチャートである。 図11のステップS12の詳細を示すフローチャートである。 図11のステップS13の詳細を示すフローチャートである。
符号の説明
1 CPU
2 ROM
4 外部記憶装置
21 EDR電子化辞書
22 要約ルール
23 格フレーム群
24 要約部
25 要約結果の格フレーム群
26 文生成部
27 原文及び要約結果

Claims (7)

  1. 複数の語句から構成される文章の要約データをコンピュータが生成するデータ処理方法であって、
    前記文章を示す文章データから反復語句データを抽出する第1の工程と、
    前記文章データから、前記第1の工程で抽出した前記反復語句データ以外の語句データであって、前記要約を示す要約データの作成に用いる語句データを抽出する第2の工程と、
    前記第1の工程で抽出した前記反復語句データと、前記第2の工程で抽出した前記語句データとを用いて、前記要約データを生成する第3の工程と
    を有し、
    前記第2の工程は、
    前記第1の工程で抽出した前記反復語句データと深層格で隣接した第1の語句データを、前記文章データから抽出する第4の工程と、
    前記第4の工程で抽出した前記第1の語句データが用言データである場合に、当該第1の語句データと必須格で隣接する第2の語句データを、当該第2の語句データが前記第1の工程で前記反復語句データとして抽出されていないことを条件に、前記文章データから抽出する第5の工程と、
    前記第1の工程で抽出した前記反復語句データまたは前記第4の工程で抽出した前記第1の語句データと深層格で隣接する用言データと、当該用言データに必須格で隣接する第3の語句データとを、前記文章データから抽出する第6の工程と
    を有し、
    前記第3の工程は、前記第4の工程で抽出した前記第1の語句データと、前記第5の工程で抽出した前記第2の語句データと、前記第6の工程で抽出した前記用言データ及び前記第3の語句データとを用いて、前記要約データを生成する
    ことを特徴とするデータ処理方法。
  2. 前記用言データの前記必須格は、前記コンピュータが前記要約データの生成に用いる辞書データ内で、当該用言データについての全深層格の出現総数で各深層格の出現数を除算して規定される出現頻度が所定値以上となる深層格である
    ことを特徴とする請求項1に記載のデータ処理方法。
  3. 前記文章データ内の前記第1の工程で抽出した前記反復語句が最初に出現した文データの文末に位置する用言データと、当該用言データと必須格で隣接する第4の語句データを前記文章データから抽出する第7の工程
    をさらに有し、
    前記第3の工程は、前記第7の工程で抽出した前記第4の語句データをさらに用いて、前記要約データを生成する
    ことを特徴とする請求項1に記載のデータ処理方法。
  4. 前記深層格は、動詞を中心とした語と語の間の意味関係を表す格である
    ことを特徴とする請求項1に記載のデータ処理方法。
  5. 前記第6の工程は、前記第1の工程で抽出した前記反復語句データまたは前記第4の工程で抽出した前記第1の語句データと、reason格、cause格、sequence格などの深層格で隣接する用言データを前記文章データから抽出する
    ことを特徴とする請求項1に記載のデータ処理方法。
  6. 前記反復語句データは、前記文章データ中の異なる文データに二度以上出現する同一語句データ、同義・類義語句データである
    ことを特徴とする請求項1に記載のデータ処理方法。
  7. 複数の語句から構成される文章の要約データを生成するデータ処理装置であって、
    前記文章を示す文章データから反復語句データを抽出する反復語句抽出手段と、
    前記文章データから、前記反復語句抽出手段で抽出した前記反復語句データ以外の語句データであって、前記要約を示す要約データの作成に用いる語句データを抽出する語句抽出手段と、
    前記反復語句抽出手段で抽出した前記反復語句データと、前記語句抽出手段で抽出した前記語句データとを用いて、前記要約データを生成する生成手段と
    を有し、
    前記語句抽出手段は、
    前記反復語句抽出手段で抽出した前記反復語句データと深層格で隣接した第1の語句データを、前記文章データから抽出する第1の語句抽出手段と、
    前記第1の語句抽出手段で抽出した前記第1の語句データが用言データである場合に、当該第1の語句データと必須格で隣接する第2の語句データを、当該第2の語句データが前記反復語句抽出手段で前記反復語句データとして抽出されていないことを条件に、前記文章データから抽出する第2の語句抽出手段と、
    前記反復語句抽出手段で抽出した前記反復語句データまたは前記第1の語句抽出手段で抽出した前記第1の語句データと深層格で隣接する用言データと、当該用言データに必須格で隣接する第3の語句データとを、前記文章データから抽出する第3の語句抽出手段と
    を有し、
    前記生成手段は、前記第1の語句抽出手段で抽出した前記第1の語句データと、前記第2の語句抽出手段で抽出した前記第2の語句データと、前記第3の語句抽出手段で抽出した前記用言データ及び前記第3の語句データとを用いて、前記要約データを生成する
    ことを特徴とするデータ処理装置。

JP2003276034A 2003-07-17 2003-07-17 データ処理方法及びデータ処理装置 Pending JP2005038282A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003276034A JP2005038282A (ja) 2003-07-17 2003-07-17 データ処理方法及びデータ処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003276034A JP2005038282A (ja) 2003-07-17 2003-07-17 データ処理方法及びデータ処理装置

Publications (1)

Publication Number Publication Date
JP2005038282A true JP2005038282A (ja) 2005-02-10

Family

ID=34212483

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003276034A Pending JP2005038282A (ja) 2003-07-17 2003-07-17 データ処理方法及びデータ処理装置

Country Status (1)

Country Link
JP (1) JP2005038282A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013129195A1 (ja) * 2012-02-28 2013-09-06 日本電気株式会社 ファセット提示装置、ファセット提示方法およびコンピュータ読み取り可能な記録媒体
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
CN110609997A (zh) * 2018-06-15 2019-12-24 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
WO2022029839A1 (ja) * 2020-08-03 2022-02-10 富士通株式会社 テキスト生成プログラム、テキスト生成装置および機械学習方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013129195A1 (ja) * 2012-02-28 2013-09-06 日本電気株式会社 ファセット提示装置、ファセット提示方法およびコンピュータ読み取り可能な記録媒体
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
CN110609997A (zh) * 2018-06-15 2019-12-24 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
CN110609997B (zh) * 2018-06-15 2023-05-23 北京百度网讯科技有限公司 生成文本的摘要的方法和装置
WO2022029839A1 (ja) * 2020-08-03 2022-02-10 富士通株式会社 テキスト生成プログラム、テキスト生成装置および機械学習方法

Similar Documents

Publication Publication Date Title
Cussens Part-of-speech tagging using Progol
US10496756B2 (en) Sentence creation system
Zechner Automatic generation of concise summaries of spoken dialogues in unrestricted domains
Ramisch et al. mwetoolkit: A framework for multiword expression identification.
Duh et al. POS tagging of dialectal Arabic: a minimally supervised approach
JP4534666B2 (ja) テキスト文検索装置及びテキスト文検索プログラム
Hayoun et al. The hebrew framenet project
JP2005038282A (ja) データ処理方法及びデータ処理装置
JP2002278949A (ja) 表題生成装置及び方法
Kishore et al. Document Summarization in Malayalam with sentence framing
Ma et al. Combining n-gram and dependency word pair for multi-document summarization
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Alias et al. A Malay text summarizer using pattern-growth method with sentence compression rules
Alwan et al. A proposed textual graph based model for arabic multi-document summarization
JP2001503540A (ja) アノテートされたテキストの自動翻訳
Luong et al. Word graph-based multi-sentence compression: Re-ranking candidates using frequent words
Al-Arfaj et al. Arabic NLP tools for ontology construction from Arabic text: An overview
CN108763229B (zh) 一种基于特征性句干提取的机器翻译方法及装置
Chen The construction, use, and evaluation of a lexical knowledge base for English-Chinese cross-language information retrieval
Shibata et al. Web information organization using keyword distillation based clustering
Patkar et al. A new way for semi supervised learning based on data mining for product reviews
Boizou et al. An online linguistic analyser for scottish gaelic
KR100978223B1 (ko) 어학학습 컨텐츠 생성방법
Cheng et al. Improving Abstractive Multi-document Summarization with Predicate-Argument Structure Extraction
JP4088681B2 (ja) 複数言語入力での言語処理装置