JP2008242612A - 文書要約装置、その方法及びプログラム - Google Patents

文書要約装置、その方法及びプログラム Download PDF

Info

Publication number
JP2008242612A
JP2008242612A JP2007079397A JP2007079397A JP2008242612A JP 2008242612 A JP2008242612 A JP 2008242612A JP 2007079397 A JP2007079397 A JP 2007079397A JP 2007079397 A JP2007079397 A JP 2007079397A JP 2008242612 A JP2008242612 A JP 2008242612A
Authority
JP
Japan
Prior art keywords
sentence
phrase
paragraph
phrases
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007079397A
Other languages
English (en)
Inventor
Hirosato Nomura
浩郷 野村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyushu Institute of Technology NUC
Original Assignee
Kyushu Institute of Technology NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyushu Institute of Technology NUC filed Critical Kyushu Institute of Technology NUC
Priority to JP2007079397A priority Critical patent/JP2008242612A/ja
Publication of JP2008242612A publication Critical patent/JP2008242612A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】文章構造解析から文章の論述の流れを捉え、「文」より小さいレベルとしての「句」を抽出することによって、冗長性の低い報知的な要約文章の生成の可能な文書要約装置の提供を目的とする。
【解決手段】本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段211と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段212と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段311と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段312と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段32とから構成される。
【選択図】図2

Description

長い文章を自動的に短くすることによって、ユーザの情報の発見を支援する文書要約装置に関する。
大量の情報が飛び交う情報社会において、我々が処理しなければならない情報量は増加している。しかし、それらを処理する人間の情報処理能力には限界があり、求めている情報のみを得ることは決して容易ではない。そのため、近年、ユーザーが効率よく目的の情報までアクセスできることを支援する技術の開発が急速に求められている。現在、キーワードを基にしたWebページの検索は一般的に広く普及している。しかし、キーワードによる単純な情報検索ではヒットした文章がたとえ求めていた情報の書かれた文章であったとしても内容が非常に長かった場合にユーザーに極度のストレスを与えることがある。
そこで、文章自体を自動的に小さくすることによって要約文を作成する要約文作成システム及びその方法が、特開2002−297635号公報に開示されている。
背景技術の要約文作成システム及びその方法は、入力された文章を文に区切り単語に分割する形態素解析ステップ(S1)と、前記文の中から名詞と形容動詞及びそれらに類する単語を抽出する単語抽出ステップ(S2)と、前記単語の夫々を座標軸とする多次元ベクトル空間に前記単語の使用頻度及び/又は重要性の重み付けに応じてベクトルマップした単語ベクトルを設定し文ベクトルを計算する文ベクトル計算ステップ(S3)と、その文ベクトル計算ステップ(S3)を文章中に含まれる全ての文に対して徹底させる徹底ステップ(S4)と、前記文ベクトル計算ステップ(S3)と同様だが文章全体の単語に対して計算した単語ベクトルを文章全体のベクトルとする文章ベクトル計算ステップ(S5)と、前記文ベクトルの夫々と前記文章ベクトルの内積を計算するベクトル内積計算ステップ(S6)と、そのベクトル内積計算ステップ(S6)の計算値のうち最大値をもたらす文を抽出して重要文の候補とする内積値最大文抽出ステップ(S7)と、前記重要文のベクトルを前記文章ベクトルから引くことにより文章を補正する文章ベクトル補正ステップ(S8)と、それらのベクトル内積計算ステップ(S6)から内積値最大文抽出ステップ(S7)及び文章ベクトル補正ステップ(S8)からなる三ステップを適宜繰り返すことにより設定自在の要約率に到達させる要約率達成ステップ(S9)と、複数の重要文が得られた場合に元の文章の並び順を踏襲して整列し接続詞及び/又は指示代名詞が有れば指定の語句に置換又は削除して自然さを確保する出力文章整形ステップ(S10)を実行することを特徴とするものである。
特開2002−297635号公報
前記背景技術の要約文作成システム及びその方法によれば、複数の課題を含む文章を要約した場合にも、2番目以降の課題を箇条書き説明にも近い簡潔明瞭さを徹底するなどして、最重要課題の繰り返し説明を避け、結果的には冗漫さを極力排除して、しかも自然で読みやすい要約文を提供できる。
しかしながら、この方法では、文に含まれる修飾句などのような冗長な部分までも要約文書に残るため、生成された要約文書が簡潔なものとはならない欠点がある。また、重要文をむりやり繋げるため、要約文書内での文の流れ(結束性=coherence)が不自然となる。これは、重要文抽出による要約では文内に残る冗長性を排除することができないために、文字数制限の点から報知的な要約には非常に不利であることが多い。
ここで、一般的に自動要約には以下のような指向があると言われている。例えば、テキストの量としては、「単一テキスト要約」、「複数テキスト要約」の分類があり、ユーザーへの特化としては、「user−focusedな要約」、「genericな要約」の分類があり、利用目的としては、「指示的(indicative)な要約」、「報知的(information) な要約」がある。これらの指向の中で最も大きな違いとして、利用目的の違いによる指示的な要約と報知的な要約の違いが挙げられる。まず、指示的な要約とは、原文が読むに値するかを調べるための要約である。つまり、この要約の背後には要約を読んだ後で原文を読むという前提があり、TF*IDF値などで文章のキーワードを特定し、そのキーワードの含まれた文を抽出する要約で、ある程度十分にその機能を発揮する。一方、報知的な要約とは生成された要約文章を原文の代用として用いることを目的としている。そのため、指示的な要約では、あまり重要とされない原文の内容をどれだけ反映させているかという「情報の網羅性」や文章の読みやすさである「テキストの可読性」が非常に重要な鍵となり、一気に生成の難易度が増す。様々な新聞社や放送局が独自のWebページで無料で情報を配信しはじめた近年の状況を鑑みるに、報知的な要約の生成は更なる情報化社会の進展とともに重要な位置を占めてくる。ここで、報知的な要約では「情報の網羅性」と「テキストの可読性」が鍵となるが、これら2つの性質は相反するもので、トレードオフの関係にあると言える。なぜなら、「テキストの可読性」を高めるには、原文内の1つの話題について、ある程度内容を絞る必要があるが、内容を絞れば「情報の網羅性」は下がるからである。一方、「情報の網羅性」を高めるには、原文内の情報を多く載せればよいが、多くの情報を掲載すれば要約文章の首尾一貫性が失われ、「テキストの可読性」は著しく低下する。
そこで、原文に視点を戻すと、原文はたとえ多くの話題が掲載されていても、それらが論理的な関係によって結び付いているため、違和感無く読む事ができる。つまり、原文の論述の展開を要約文にも反映できれば、これら2つの相反する性質を反映できると考えられる。そして、そのためには文を切って句を生成し、掲載できる情報の量を増やすのはもちろん、何らかの形で原文の文章構造を解析する必要がある。
本発明は、前記課題を解決するためになされたものであり、文章構造解析から文章の論述の流れを捉え、「文」より小さいレベルとしての「句」を抽出することによって、冗長性の低い報知的な要約文章の生成の可能な文書要約装置の提供を目的とする。
ここで、本発明において重要な概念となる句の認定について以下に詳説する。重要な内容を含む句を抽出し、それらを基に要約文章を生成するにあたり、抽出する単位として句の単位の認定が必要となる。そこで、本発明では、ベケシュの要約文残存認定単位[参考文献:残存認定単位の規定と出現傾向、佐久間まゆみ(編)、文章構造と要約文の諸相、くろしお出版、2000]を参考にして、句の抽出単位を定める。ここで、要約文残存認定単位とは、人手による要約を分析し、日本語の要約で使われる最小の単位を統計により定めたものである。しかし、ベケシュの研究は言語学研究上のものであり、それを要約装置に応用するためには表層的な特徴以外に非常に高度な意味理解の能力が必要となる。そこで、便宜的に要約文残存認定単位に制限をつけ、本発明の要約装置に適用するにあたって以下の規則を用いる。なお、日本語では句には明確な定義が無く言語単位の一種として幅広く取り扱われていることに鑑み、節なども句の一種とする。
[主節、従属節について]
単純に用言が用言にかかっている場合に主節従属節の関係とする。ただし、各用言が格関係を持たないものは抽出時に意味が通じない場合が多いので、句とせず統合してひとつの句とする。
例)事件は国会でも取り上げられ|反響を呼んでいる。
(a)事件は反響を呼んでいる。
(b)国会でもとりあげられる。
[連体修飾節について]
連体修飾節には被連体修飾語との関係によって内の関係、外の関係がある。内の関係とは被修飾語が連体修飾節の格要素になりうる関係で、外の関係とは被修飾語が連体修飾節の格要素にならない関係である。ここでは解析の困難さから、それら全てを内の関係として扱う。また、連体修飾節では、被修飾語を連体修飾節の主題主格として新たに文節を設け、以下のように分離することで句を生成する。
例)昨日響灘で発生した|海難事故は惨事になった。
(a)海難事故は昨日響灘で発生した。
(b)海難事故は惨事になった。
[引用節について]
引用の格助詞「と」を基に係り受け関係から抜き出し、句とする。ただし、重要度評価の結果、引用節の外が要約として抽出された場合には補完する。以下の例で言えば、2つめの句は本来は「被害者はいう」であるが、重要度評価の結果「被害者はいう」が重要であると判断された場合にはこれだけでは意味がよく理解できないので、「川の中に頭を突っ込まれたと」を加え「被害者は川の中に頭を突っ込まれたという」とする。
例)被害者は|川の中に頭を突っ込まれたと|いう。
(a)川の中に頭を突っ込まれた。
(b)被害者は(川の中に頭を突っ込まれたと)いう。
[副詞、接続表現について]
副詞や接続詞は文の連接関係を示す指標である場合が多く、これらを句に残すのは不適当である。
例)しかし、|その法律は万能とは言えない。
(a)しかし
(b)その法律は万能とは言えない。
以上の規則を本発明に適用する。
(1)本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段とから構成される。
これにより、入力された記事の意味段落の線形の連接関係を作成し、意味段落の流れを保ちながら線形の連接関係を単純化し、意味段落から陳述形式による句の評価及び句の評価に重みを付けて句を抽出し、語を補完して要約文を作成することができるので、連接関係から局所的な文章構造をみながら、首尾一貫性の高い報知的な要約を生成することができる。また、文書に書かれている内容をすばやく理解し、推測することができる。
(2)本発明に係る文書要約装置は必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手段とから構成される。
これにより、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造をみることができるので、主題に沿った意味段落の流れをより反映する形で首尾一貫性の高い報知的な要約を生成することができる。
(3)本発明に係る文書要約装置は必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手段とから構成される。
これにより、連接関係から局所的な文章構造を見つつ陳述形式によって句を抽出し、飛び地構造の解析によって大極的な文章構造をみながら語の類似度による句の抽出をすることができるので 、意味段落の流れを反映した出現頻度の高い重要語を多く含む首尾一貫性の高い報知的な要約を生成することができる。
(4)本発明に係る文書要約装置は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、意味段落同士の飛び地構造を解析する飛び地構造解析手段と、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手段と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手段から構成される。
これにより、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造をみながら語の類似度により句を抽出することができるので、主題に沿った出現頻度の高い重要語に着目した首尾一貫性の高い報知的な要約を生成することができる。
(5)本発明に係る文書要約装置は、文章構造木を入力する文章構造木入力手段と、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手段と、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手段と、素性関数の重みを作成する素性関数重み作成手段と、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手段と、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手段と、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手段と、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手段とから構成される。
ここで、「文章構造木を入力する」とは、例えば、「人手によって作成された文章構造木を入力する」などを含む。また、「素性」とは、例えば、「文節」、「文末の付属語」、「相対的な類似度」、「主語の種類」、「主語の連鎖」、「陳述形式の評価値」、「葉ノードのからの距離」、「連接関係」、「shift素性」などを含む。また、「素性関数の重みを作成する」とは、例えば「反復スケジューリング法により素性関数の重みを作成する」ことを含む。また、「自動的に文章構造木を生成する」とは、例えば、「CKY法による文章構造木を生成する」ことを含む。また、「言語表現から一定の条件を満たした重要句」とは、例えば、「展開型」、「逆接型」、「転換型」、「累加型」、「同格型」、「比較型」、「補足型」で定められた各ルールを含む。
これにより、文章構造木から素性を自動抽出し、その素性から素性関数及びその重み、意味段落における最大エントロピーを求めて、求められた最大エントロピーを利用した文章構造木を生成し、文章構造木における言語表現から一定の条件を満たした重要句を抽出し、句を補完することで要約文を作成することができるので、文章構造を意味段落間の2項関係によって階層的に構成することによって連接関係に順位付けを行いながら、主題に沿った形でより強く文章構造を要約文章に反映させ、かつ、冗長な記述を排除できる。また、簡潔で、文章として構文的、意味的結束性を保つ良質な要約が生成できる。
(6)本発明に係る文書要約方法は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価ステップと、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出ステップと、前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップとから構成される。
(7)本発明に係る文書要約方法は必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析ステップとから構成される。
(8)本発明に係る文書要約方法は必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出ステップとから構成される。
(9)本発明に係る文書要約方法は、入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出ステップと、前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップとから構成される。
(10)本発明に係る文書要約方法は、文章構造木を入力する文章構造木入力ステップと、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出ステップと、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成ステップと、素性関数の重みを作成する素性関数重み作成ステップと、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算ステップと、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成ステップと、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出ステップと、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理ステップとから構成される。
(11)本発明に係る文書要約プログラムは、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手順と、前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手順と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手順としてコンピュータを機能させる。
(12)本発明に係る文書要約プログラムは必要に応じて、単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手順としてコンピュータを機能させる。
(13)本発明に係る文書要約プログラムは必要に応じて、陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手順としてコンピュータを機能させる。
(14)本発明に係る文書要約プログラムは、入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、意味段落同士の飛び地構造を解析する飛び地構造解析手順と、文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手順と、前記抽出された句で構成された要約文に対する語の補完を行う語補完手順としてコンピュータを機能させる。
(15)本発明に係る文書要約プログラムは、文章構造木を入力する文章構造木入力手順と、入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手順と、文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手順と、素性関数の重みを作成する素性関数重み作成手順と、素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手順と、求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手順と、自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手順と、前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手順としてコンピュータを機能させる。
これら前記の発明の概要は、本発明に必須となる特徴を列挙したものではなく、これら複数の特徴のサブコンビネーションも発明となり得る。
ここで、本発明は多くの異なる形態で実施可能である。したがって、下記の実施形態の記載内容のみで解釈すべきではない。実施形態では、主に装置について説明するが、所謂当業者であれば明らかな通り、本発明は、コンピュータで使用可能なプログラムとしても実施できる。また、本発明では、ハードウェア、ソフトウェア、または、ソフトウェア及びハードウェアの実施形態で実施可能である。プログラムは、ハードディスク、CD―ROM、DVD−ROM、光記憶装置または磁気記憶装置等の任意のコンピュータ可読媒体に記録できる。さらに、プログラムはネットワークを介した他のコンピュータに記録することができる。
(本発明の第1の実施形態)
[1.ハードウェア構成]
図1に本発明の第1の実施形態における文書要約装置のハードウェア構成図を示す。コンピュータ1は、例えば、CPU(Central processing Unit)2、メインメモリ3、HDD(Hard Disk Drive)4、ビデオカード5、マウス6、キーボード7、光学ディスク8等により構成される。コンピュータ1は、CPU2によって制御される。コンピュータ1に電源を投入すると、CPU2は、メインメモリ3に記憶されたIPL(Initial Program Loader)を実行する。IPLは、HDD4、光学ディスク8などの記録媒体に記憶されたOS(Operating System)プログラムを読み出して実行するプログラムである。OSを起動した後、CPU2は、マウス6、キーボード7などにより入力されたユーザの指示にしたがって、あるいは、HDD4などにあらかじめ記述された設定ファイルの内容にしたがって、HDD4などに記憶されたアプリケーションプログラムを実行することができる。プログラムの実行に伴ない、ユーザに結果を報告したり、途中経過を見せるため、CPU2は、液晶ディスプレイなどの表示装置に当該情報を表示することができる。また、必要に応じて、コンピュータ1はネットワークを介してデータベース等に接続することができる。
[1.2ブロック構成]
図2は、本発明の第1の実施形態に係る文書要約装置のブロック構成図である。
文書要約装置は、入力部10、文章構造解析部20、要約文作成部30、出力部40から構成される。また、文章構造解析部20は、連接関係構造解析部21、飛び地構造解析部22から構成される。連接関係構造解析部21は、連接関係作成部211、文章構成再編部212から構成される。また、要約文作成部30は、句抽出部31、語補完部32から構成される。句抽出部31は、句評価部311、句重み付け部312、語類似度評価部313から構成される。まず、入力部10に入力された記事データは文章構造解析部20に送られ、文章構造解析が行われる。ここで、文章構造解析部20における文章構造解析処理について以下に詳説する。
[1.2.1文章構造解析]
[1.2.1.1連接関係構造解析]
「句」、「文」、「段落」といった文章表現間の連接関係は、文章の論述展開を見るうえで欠かせないものであるから、文章構造解析部20における連接関係構造解析部21の連接関係作成部211で連接関係による線形な文章構造解析を行う。
図3は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係の種類の説明図である。「文章論総説」[参考文献:永野賢、朝倉書店、東京、1986]を参考に連接関係から文章構造を解析する。前述の「文章論総説」では、連接関係を図3のようにその性質から「展開型」、「反対型」、「累加型」、「同格型」、「補足型」、「対比型」、「転換型」の7種類に分類している。「展開型」は前文を受けて、後の文でいろいろに展開する。例えば、「だから」、「それで」、「すると」などを含む。「反対型」は、前文に対して、後の文でその反対の事柄を述べる。例えば、「だが」、「しかし」、「それなのに」などを含む。「累加型」は、前文に後の内容を付け加えたり、並列したりする。単純に文を連ねる。例えば、「そして」、「あわせて」、「〜も」などを含む。「同格型」は、前文の換言、要約、例示、説明、繰り返しである。例えば、「つまり」、「例えば」などである。「補足型」は、前文の内容に対して、後の文で説明を補う。例えば、「それは」、「〜からだ」、「なぜなら」、「というのは」などを含む。「対比型」は、前文の内容に後文の内容を対比、対立、または選択させる。例えば、「『〜は』の連続使用」、「または」、「あるいは」などを含む。「転換型」は、前文と違った内容のことに話題を変える。例えば、「さて」、「次に」、「では」、「ところで」などを含む。連接関係構造解析部21は、図3をもとに接続詞や接続助詞を分類する。さらに、接続詞や接続助詞だけでは連接関係の解析として不十分であるため、接続詞や接続助詞以外の表現から抜き出したパターンマッチなどを連接関係の解析に用いることができる。そして、連接関係をもとに文章表現をまとめ、話材のまとまりである意味段落を構築する。つまり、接続詞等の分類結果により話の流れを作り、それ以外の表現により意味を付加する。構築された意味段落の連接関係を大きく分類すると、図3に示すようにその性質から「展開型」、「反対型」、「転換型、「累加型」、「同格型」、「補足型」、「対比型」に分類することができる。
次に、入力されたデータは、連接関係作成部211から文章構成再編部212に送られる。図4は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係及び連接関係の単純化の説明図である。図4(a)は、連接関係作成部211によって作成された6つの段落の関係が、右から「添加」、「転換」、「補足」、「展開」、「同格」により構成されていることを示している。なお、ここでの連接関係は線形となる。文章構成再編部212が、図4(a)のような連接関係が与えられた場合に、人が文章を読み進めるのと同様に前から段落をまとめ上げていく。それによって、意味的なまとまりである意味段落を構成し、図4(b)のように文章の構成を単純化することができる。具体的には、「添加」、「補足」、「同格」で接続された段落同士は、1つの意味段落としてまとめることができる。そうすると、6つの段落構成が、右から「転換」、「展開」によって接続される3つの意味段落によって再編される。そして、各意味段落から均等に句を抽出していくことにより論述展開を壊さずに要約を生成することとなる。なお、意味段落を考える上で文や段落内の情報は非常に話材同士の結束性が強いので、それらの単位を壊し、全てをフラットにして考えるのは好ましくない。そこで、文内、段落内、記事全体と言語表現ごとに階層的に意味段落を生成していくこととなる。
[1.2.1.2飛び地構造解析]
線形の連接関係による文章構造解析では、段落間の離れた繋がりである段落の飛び地構造を解析することができない。そこで、段落間の離れた繋がりである段落の飛び地構造を解析するために、連接関係構造解析部21から飛び地構造解析部22に送られる。前述の「文章論総説」では、単に文を連ねた場合は累加の連接関係であるとしているが、パターン化できるほどの情報を与えずに文脈に関係無い表現を用いる場合がある。ここで、飛び地構造解析について以下に詳説する。
図5は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の段落間の関連性の説明図である。例示段落Aと段落Aによって内容を例示されている段落Bがあったとする。線の太さを類似度の大きさとし、図示すると図5(a)のようになる。段落Aは段落Bの例を示しているので、段落Aは段落Bに対しては類似度が高くとも、段落B以外の段落については類似度が低い。一方、段落Bは例示段落ではないので、段落Aだけでなく、他の段落との類似度も高い。
そこで、この特徴を反映させるために、段落間に類似度を基にした向き付きのリンクを張る。そして、段落間にネットワークを構成し、抽出があった段落からある一定の値をネットワークのリンクの太さに応じて伝搬させる。そして、その値がある一定の閾値を越えない場合には連接関係から抽出候補となっている場合でも抽出候補から外すこととする。段落間ネットワークは段落間に含まれるの単語の類似度を基にしている。EDR電子化辞書を用いて単語間の類似度を以下の式で求める。まず、概念は一般的に多義であり、さらに多重継承によっていくつかの上位概念を持っている。そこで最上位概念までのすべての経路を探索する。本発明ではそれらの経路1本を便宜上、上位概念列とし、それらの集合を上位概念列集合と呼ぶこととする。上位概念列集合の類似度uSim(A,B)を以下に示す。
Figure 2008242612

A:上位概念列集合
i:上位概念列
|A|:集合Aの大きさ
また、語の類似度 Sim(C,D)を以下に示す。
Figure 2008242612
C(i):語Cの概念i
P(C(i)|C):語Cが概念C(i)である確率
C(i)U:概念C(i)の上位概念列集合
このようにして求まった語間の類似度を基に段落間にある全ての単語の類似度を求め、そしてその平均をとる。それを段落間の類似度とする。次に、その類似度の特徴を際立たせるために、他段落との類似度で最も高いものを1、最も低いものを0として正規化する。これによって0〜1までの段落間の相対的な類似度が計算される。段落間の相対的な類似度RelativePSim(A,B)を以下に示す。
Figure 2008242612
PSim(A,B):段落間の語の類似度リンクの平均値
PSim(A,max(A)):段落Aと段落Aとの類似度が最大である段落との類似度
PSim(A,min(A)):段落Aと段落Aとの類似度が最小である段落との類似度
その結果、例えば図5(a)には図5(b)のようなネットワークができあがる。このようにして、連接関係から局所的な文章構造を見つつ、飛び地構造の解析によって大極的な文章構造を見ることで、首尾一貫性と論述展開を保存することができる。
[1.2.2要約文作成]
[1.2.2.1句の陳述形式による重要度評価]
句の接辞表現を見ると筆者が話材をどれだけ伝えたいのか知ることができる。図6は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の辞の分類の説明図である。前述の「文章論総説」では文末の接辞表現を分析し、筆者から読者への話材を訴える強度を図6のように7段階に分類している。「態度」としては、「客体事象の叙述」、「主体的立場の陳述」、「読み手への働きかけ」の3つに分類できる。また、「志向」としては、「客体事象の叙述」の「話材志向」、「話材→自分志向」、「主体的立場の陳述」の「自分志向」、「読み手への働きかけ」の「自分→相手志向」の4つに分類できる。具体的な語例として、「話材志向」では、例えば、「格助詞」などを含む。「話材→自分志向」では、上位に、「接続助詞」、「副助詞」などを含み、下位に「た(過去)」、「てしまう」などを含む。「自分志向」では、上位に「だ(形容動詞終止形零記号を含む)」、「そうだ(伝聞推量)」などを含み、下位に「た(確認)」、「のだ」などを含む。「自分→相手志向」では、上位に「か」、「ではないか(驚き)」などを含み、下位に「ね」、「よ」などを含む。図6は下へ行くほど読み手への志向が強い事を表しており、筆者の訴えたい句を選ぶ際の基準となる。そこで、一般に社説記事で重要な句は筆者の主張であるという性質から、まず陳述形式によって句抽出部31における句評価部311が句の評価を行う。ここでは単純に図6の上から順に1から7まで値をつけ、それを陳述形式の重みとする。しかし、陳述形式の評価だけではなく連接関係によっても重要度に違いは生じる。
図7は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係の重みの変化の説明図である。そこで、句抽出部31における句重み付け部312が陳述形式の評価に連接関係による重要度評価を加味させるために、多少乱暴な処理ではあるが陳述形式の重みを、その性質から言語表現間の連接関係によって図7のように変化させる。連接関係が「展開」、「反対」では、変化として「後の言語表現の陳述形式の重みの増加」とする。「累加」、「添加」では、「重み付けを変化させない」とする。また、「同格」、「対比」では、「前の言語表現の陳述形式の重みの増加」とする。「補足」では、「前の言語表現がまだ抽出されていない場合、選出候補から外す」とする。
[1.2.2.2語の類似度に基づく句の重要度評価方法]
しかしながら、陳述形式は図6のように種類が少なく、それだけでは句を選択できない状態が起きる。その時には、できるだけ主題に沿った句を抽出したほうが良い。また、文章の主題は原文中で何度も参照されているため出現頻度が高いとされる。そこで、図5で示した段落間ネットワークを作る際に利用した語間の類似度を用い、句抽出部31における語類似度評価部313が句を構成する語の類似度の総和の平均値が最も高い句を重要句とする。
[1.2.2.3語の補完]
句抽出の要約では多くの場合、主語の省略や指示代名詞によって句単体では句の意味が不十分であることが多い。図8は、本発明の第1の実施形態に係る文書要約装置における文章構造解析の語の置換の説明図である。そこで、図8のような処理を行い、情報を補間する。「補完対象」は、「連体詞」、「句頭の指示詞」、「句内の指示詞」、「ゼロ主語」がある。「補完方法」については、連体詞は「連体詞の被修飾語との類似度から類似度が高く、最も近い名詞で置換する」とする。また、句頭の指示語は「直前の句を補完」とする。また、句内の指示語は「共起辞書より素性を調べ、前5文中から素性との類似度と中心化理論[参考文献:M.OKUMURA,K.TAMURA,“Zero Pronoun Resolution in Japanese Discourse Based on Centering Theory”,http://acl.ldc.upenn.edu/C/C96/C96−2147.pdf]より置換する」とする。また、ゼロ主語は「直前の句の主語を補完」とする。
[1.2.2.4要約文章の作成]
要約文章の生成は、要約文生成部30において句抽出部31、語補完部32からの処理と同時に行われるので以下に詳説する。
図9は、本発明の第1の実施形態に係る文書要約装置における陳述形式からの句の抽出の説明図である。まず、新聞社説記事において、最も重要な筆者の主張は最終段落にあると仮定する。そこでまず要約の核となる句として最終段落から句抽出部31が句を抽出する。句の抽出方法の例として今、図4(a)からの抽出を行うとする。まず、句評価部311が図4(a)の陳述形式の評価を行った結果、□の中の数字を陳述評価として、図9(a)のような右の段落から「3、4、6、4、5、3」の陳述形式の評価値が得られたとする。次に図9(b)に示すように、連接関係によって意味段落を構成し、句重み付け部312が意味段落内で連接関係によって陳述形式の評価を変化させる。そうすると、陳述形式の評価値は右の段落から「3、4、×、4、5、4」となる。そして、図9(c)に示すように、陳述形式を変化させた後、各意味段落から最も評価値の高いものを抜き出す。再び、連接関係より句重み付け部312が評価値を変化させる。最終的には、図9(d)に示された形となる。
図10は、本発明の第1の実施形態に係る文書要約装置における類似度による評価の説明図である。すると、今度は陳述形式からでは句を抽出できないので、語類似度評価部313により評価された句を構成する語の類似度から句を抽出する。なお、図10にて○は文節を、実線は係り受け関係を、破線は類似度を表しているものとする。その結果、図9(a)での前から3番目の句が重要句として抽出される。そして、さらに抽出を進める。段落間ネットワークに最終段落から値を伝搬させる。ここで、便宜上、段落間ネットワークに流れる値を活性値、その値がある閾値を越えた状態を活性状態、越えていない状態を不活性状態とする。
図11は、本発明の第1の実施形態に係る文書要約装置における句の抽出過程の説明図である。今、段落fから活性値を伝搬させた結果、段落aと段落eが活性状態になったとする。図11(a)に、最終段落の抽出を示す。なお、図11(a)は図9(a)と似ているが図11(a)は最終段落内を表し、図はテキスト全体を表しているものである。この2つは全く別である。また、図11では実線の□を活性状態の段落、破線の□を不活性状態の段落として表現している。ここで、図11(b)に示すように、論述展開を保つために、抽出句の含まれる段落を次回の抽出候補から除外する。その結果、段落aのみ抽出候補となるので、上述の方法で句を抽出し、段落aから活性値を伝搬させる。その結果、図11(c)のようになったとする。段落dが活性状態になったものの、段落cと段落dは補足の関係にあり、段落cから抽出されるまでdから抽出を行うことはできない。つまり、抽出候補が無くなったので、図11(d)に示すように、論述展開を保つために抽出候補から排除していた制限を解除する。その結果、次は段落eから句の抽出が行われる。これを繰り返し、要約の文字数が要求の文字数になるまで抽出を行う。
[1.3動作]
図12は、本発明の第1の実施形態に係る文書要約装置のフローシートである。
ユーザは記事を入力する(S100)。なお、データベース等の記憶装置に記録されている記事を読み込むこともできる。連接関係作成部211が、入力された記事を構造解析し、意味段落の線形の連接関係を作成する(S110)。文章構成再編部212が、意味段落の流れを保った状態で連接関係の構成を単純化する(S120)。飛び地構造解析部22が意味段落同士の飛び地構造を解析する(S130)。句評価部311が、意味段落の中から陳述形式による句の評価を行う(S140)。句重み付け部312が、陳述形式による句の評価に重みを付けて抽出を行う(S150)。語類似度評価部313が、陳述形式によって抽出された以外の句に対する語の類似度による句の抽出を行う(S160)。語補完部32が、前記抽出された句の集合について語の補完を行う(S170)。要約文作成部30が抽出された句及び補完された語により要約文を作成する(S180)。要約文が所定の字数を満たしているか否かを判断する(S190)。要約文が所定の字数を満たしていない場合に、陳述形式による句の評価に戻る(S140)。出力部40が要約文が所定の字数を満たしている場合には、作成された要約文を出力する(S200)。
(本発明の第2の実施形態)
[2.1ブロック構成図]
図13は、本発明の第2の実施形態に係る文書要約装置のブロック図である。
文書要約装置は、入力部10、文章構造解析部20a、要約文作成部30a、出力部40から構成される。また、文章構造解析部20aは、素性抽出部23、素性関数作成部24、素性関数重み作成部25、最大エントロピー計算部26、自動文章構造木作成部27から構成される。また、要約文作成部30aは、重要句抽出部31a、句補完処理部32aから構成される。
[2.1.1文章構造解析]
文章構造をより強く要約文章に反映させるには連接関係になんらかの順位付けが必要である。そこで、本発明の第2の実施形態では、文章構造を意味段落間の2項関係によって階層的に構成することによって連接関係に順位付けを行う。また、第1の実施形態では接続詞や相当表現で言語表現間の連接関係を作成するが、接続詞にも曖昧さがあり、人は連接関係を指示詞、接続詞だけで判断しているとは限らず、様々な要素が連接関係を作る上で特徴となっている。そこで、本発明の第2の実施形態では前処理により作成された文章構造木を入力し、素性抽出部23が特徴となりそうなものを自動抽出し、最大エントロピー計算部26によって求められる最大エントロピー法を用いて、部分木の構成される確率を求めながら、自動文章構造木作成部27が図14のような文章構造木を生成する。ここで、前処理された文章構造木は、人によって作成することもできる。図14は、本発明の第2の実施形態に係る文書要約装置における文章構造木の一例の図である。
[2.1.1.1最大エントロピー法]
ここで、最大エントロピー法について説明する。最大エントロピー法とは、与えられた制約のもとで、その制約を満たしつつエントロピーH(P)=―Σx,yP(x,y)logP(x,y)を最大化するような一様な確率モデルを推定することである。ここで、制約をfiで表し、n個の制約が与えられたとする。EP[fi]を推定される確率モデルの期待値、(数式9)の制約条件1の右辺を学習データから導かれる経験的確率分布の期待値とすると、この時、以下のような制約等式を満たすモデルの集合Pが定義される。
Figure 2008242612
一般に集合Pの要素は無数に存在するが、推定すべき確率モデルは、この中でエントロピーを最大にするものである。
Figure 2008242612
(数式5)を最大エントロピー原理と呼ぶ。この最大エントロピー原理を満たすように確率モデルを定めることが最大エントロピー法の特徴である。最大エントロピー法ではエントロピーが最大になるような一様な確率モデルを選ぶため、局所解に陥りづらく、モデルに組み込むべき特性を制約として容易に記述できるためゼロ頻度問題に伴うパラメータの増大や学習データの断片化を防ぐことができる。最大エントロピー法ではモデルに対する制約は素性関数という2値関数で与える。素性関数作成部24が、素性関数を(数式6)のように定義することができる。
Figure 2008242612
上記の素性関数f1(wi,wj)の場合はwiがw1のとき1を返し、それ以外の場合には0を返す素性関数を表している。ここで、条件付き最大エントロピーモデルについて説明する。本発明の第2の実施形態では、ある特徴が現れたときにそれがどのような連接関係で結合するかという確率が必要であるので、条件付き最大エントロピーモデルを用いる。条件付き最大エントロピーモデルは以下の(数式7)で与えられる。
Figure 2008242612
Figure 2008242612
ここで、fi(x,y)は素性関数、Λ=λ1,・・・,λnはモデルのパラメータである。また、ZΛ(x)はΣyΛ(y|x)=1とするための正規化項である。そして、λiは素性関数fi(x,y)に対する重みで、素性関数の重要さを表している。最大エントロピー法では後述する反復スケーリング法という方法を用いてΛ= λ1,・・・,λnを学習データから定める。ここで、最大エントロピー原理を満たすモデルの導出について説明する。最大エントロピー原理を満たすモデルを求める問題はH(P)を最大にするような確率分布を以下の制約条件下で見付けることである。
Figure 2008242612
この最適化問題を解くために、制約条件付きの最適化問題の解法としてよく用いられるラグランジュ関数▲L▼(P,Λ)を導入する。ここで、Λ={λ1,・・・,λn}は制約条件1に対応するラグランジュ乗数である。
Figure 2008242612
ここで、Aは後に述べる反復スケーリング法で求めるので、Λを固定し、Pに関して▲L▼(P,Λ)を最大化する。そのためには、ΛをP(y|x)で偏微分し、それを0とおいて解を求める。
Figure 2008242612
これを0と置き、P(y|x)について解くと、以下のようになる。
Figure 2008242612
ここで、制約条件2、3を満たすために
Figure 2008242612
ここで、ZA(x)=Σyexp(Σiλii(x,y))とおくと以下のようになる。
Figure 2008242612
となり、(数式7)と一致する。
[2.1.1.2反復スケーリング法]
素性関数重み作成部25が各素性関数の重みを決定するために、反復スケーリング法を用いる。反復スケーリング法とはまず、Λ= λ1,・・・,λnに適当な初期値を与えておいて、対数尤度L(PΛ)を増加させるようにΛを徐々に修正していく方法である。まず、パラメータΛをΛ+Δに変化させた時の変化量の下限を与える式A(Λ,Δ)を求める。
Figure 2008242612
そして、A(Λ,Δ)を最大にするようなΔを求めることにより、Λ+Δを最適値に近づけるものである。式の変形には、補助定理として以下のジェンセンの不等式を用いる。
補助定理1:logx≧x−1
補助定理2:P(x) が確率分布ならば、
Figure 2008242612
また、以下の式の変形にて、便宜上
Figure 2008242612
と表現する。
ここで、反復スケーリング法の導出を以下に示す。
Figure 2008242612
ここで、補助定理1より
Figure 2008242612
ここで、補助定理2より
Figure 2008242612
ここで、(数式20)をA(Λ,Δ)と置いて、δiについて偏微分を行う。
Figure 2008242612
これを0とおくと、
Figure 2008242612
ここで、任意のx,yについてf#(x,y)が定数でない場合、ニュートン法等の数値解析的な手法により、δiを計算するか、次のような新しい素性関数fn+1を用意して、f#(x,y)を定数にしてδiを計算する。なお、本発明の第2の実施形態ではfn+1を用意して計算を行う。
Figure 2008242612
以上より、反復スケーリング法のアルゴリズムは次の(1)から(4)ようになる。
(1)Λ={λ1,・・・,λn}に適当な初期値を与える。
(2)(数式22)、(数式23)より、Λの増分である、Δ={δ1,・・・,δn}を計算する。
(3)Λの値を更新する。λi=λi+δi
(4)Λの値が収束していなければ、ステップ2へ戻る。
[2.1.1.3利用素性]
前処理によって作成された文章構造木を基に以下の素性を素性抽出部23が自動抽出し、素性関数作成部24が素性関数として与えて学習を行う。また、文章構造木を生成する際には特徴として以下の素性を自動抽出し、確率を最大エントロピー法で計算する。なお、本発明の第2の実施形態では、文をまとめて意味段落を構成したり、段落をまとめて意味段落を構成したり、意味段落と文をまとめて意味段落を構成する。そこで、文、段落、意味段落を全てまとめて、便宜上「言語表現」とする。また、意味段落を構成する2つの言語表現のうち、原文内での位置的に前にあるものを「前言語表現」、後ろにあるものを「後言語表現」とする。なお、各利用素性については次の(1)から(8)に説明する。
(1)文節
接続詞、指示詞は連接関係を作る上で非常に大きな特徴になる。他にも「言い替えれば」、「第一に」、「とはいえ」など接続詞に相当するような言語表現は多い。そこで、後言語表現の先頭の文を対象とし、それらをそのまま素性として与えることができる。なお、全ての文節を利用すると、素性関数の量が爆発してしまう上に、ノイズとしていらない情報まで加わり、精度を下げる結果になる場合もあるため、以下の制約を満たすものを素性として抜き出すこともできる。
(制約1)文節内の自立語が複合語や一般名詞、固有名詞ではない。形態素解析器の精度に大きく依存してしまうが、一般名詞、固有名詞、複合語は一般的にその文章の特徴語にはなり得ても、連接関係を形作るような汎用性のある言葉である可能性は低い。
(制約2)品詞が名詞、形容詞、動詞、形容動詞、未知語の場合、先頭から2文節以内。
文の後ろの方にある語は前言語表現との連接関係を取りづらい。
「〜を言い替えるならば」など、文節より大きなレベルで特徴語となりうるものもあるが、ここでは単一文節のみを扱う。なお、複数文節を扱うこともできる。
(2)文末の付属語
「〜だからだ」のように文末の情報で補足のような連接関係を特定できるものもある。
そこで、文末の付属語を素性として与える。例えば、「〜だからだ」の場合には、「だ」「から」「だ」の3つの素性を抽出できる。また、対象は文節素性と同じく後言語表現の先頭の文とし、付属語が無い場合には「無」として素性を与えることができる。
(3)相対的な類似度
第1の実施形態では、段落間の相対的な類似度を用いることで要約の精度が格段に向上することから、相対的な類似度は、文脈を考える上で大きな指標になっている。そこで、前言語表現を構成する段落から後言語表現を構成する段落への相対的な類似度の平均値と後言語表現を構成する段落から前言語表現を構成する段落への相対的な類似度の平均値をその意味段落間の相対的な類似度とし、その差を0.5刻みで4段階にわけ、それを素性として与えることができる。言語表現Aから言語表現Bへの相対的な類似度をRelSimA(B)とすると、相対的な類似度素性RelSimFeat(A,B)は以下のように表せる。
Figure 2008242612
(4)主語の種類
日本語の主語には主格主語と主題主語の2種類がある。簡単に言えば、主格主語とは「〜が」という主語で、主題主語とは「〜は」という主語である。前述の「文章論総説」では主格主語は主語に力点が置かれるため、新しいことを述べ始めるときに使われることが多く、主題主語は文の内容に力点が置かれるため、内容に意味を付加して発展させていく傾向が強いとしている。そこで、後言語表現の先頭文を見て「主格主語」、「主題主語」、「ゼロ主語」の3種類で素性を与える。なお、ゼロ主語とは主語が省略されているものである。
(5)主語の連鎖
主語が意味的につながっている場合、話が1つのまとまりであることが多い。前言語表現のうち陳述形式の評価値が最も高い文でできるだけ前にある文の主語と後言語表現の先頭文の主語を、前章で述べた方法で、類似度を計算し、0.8以上で真、それ以外を偽で素性として与えることができる。なお、ゼロ主語の場合は真として扱うことができる。
(6)陳述形式の評価値
前言語表現の陳述形式の評価値が後言語表現の陳述形式の評価値より高い場合補足の関係になっていることが多い。また、その逆の場合では話を展開させている場合が多い。そこで、各言語表現の中の最大の陳述形式の重みを、その言語表現の陳述形式の重みとし、その差をとって、5段階で素性を与えることができる。なお、陳述形式の重みは第1の実施の形態で説明した図6を基にしている。しかし、接辞表現だけは「〜に怒りを覚える」のような接辞表現はないが表現として訴える力の強いものに対して対応できていなかったので、文末表現辞書を図6に基づいて再分類して利用する。言語表現Aの陳述形式の評価値をDescValueAとすると、陳述形式の素性Describe Feat(A,B)は以下のように表せる。
Figure 2008242612
(7)葉ノードからの距離
構造木の葉付近と根付近とでは段落同士を結束させる力が違うことが予測されるため、意味段落を構成する2つの言語表現のうち、葉ノードからの距離が遠い方を素性とし、0、1、2、それ以上で与えることができる。図14で言えば、葉ノードからの距離素性が0となるのは言語表現G、H、1は、言語表現I、2は言語表現J、3は言語表現Kとなる。
(8)連接関係
先述の7つの連接関係以外に、連接関係を作らない連接関係として、Shiftという素性を加える。Shift素性は正解の構造木で繋がっていない部分に作られる。以上の7つの素性から入力素性を以下のようなベクトルで表現して与える。
Figure 2008242612
つまり、最大エントロピー法を用いて、ある葉ノードからの距離にある意味段落でxを素性とした時にある連接関係の導かれる確率を求める。なお、素性ベクトルxは、文節素性、文末の付属語素性1つにつき1つ作られる。文末の付属語素性は付属語が無くても「無」素性が1つ作られるので、全ての意味段落から少なくとも1つの素性ベクトルxが生成される。また、素性関数f(x,y)は、y とx1が一致し、それ以外の素性のうち2つが一致したときに1を返す関数とした。理由として、連接関係の解析に接続詞が用いられるように、連接関係を見る上で文節素性の影響は強い。そこで、本発明の第2の実施形態では、x1素性は必ず一致し、学習データに無い関係がきても問題がないように、その他の制約は2つだけとする。
[2.1.1.4学習データからの素性の自動抽出]
最大エントロピー法を利用するには、まず、制約である素性関数を手に入れなければならない。本発明の第2の実施形態では、前処理された文章構造木から特徴を素性抽出部23が自動抽出し、それをもとに確率モデルを定める。まず、前処理として、文章構造解析結果を基に、文章構造木を構成する。ここで、仮に図14のような文章構造木が構築されたとする。A、B、C、D、E、Fを段落、G、H、I、J、Kを意味的なまとまりということで意味段落とする。また、段落Aと段落Bとの間で生成された素性をxA,Bと表記する。なお、文節素性や文末の付属語素性の数だけxA,Bは生成されるのでxA,Bは1つだけとは限らないが、便宜的にxA,Bだけであるとする。まず、素性抽出部23が連接関係を持つ全ての素性をトップダウンに下りながら抽出していく。その結果、素性関数作成部24によって、以下のような素性関数が手に入る。
1(xA,J,{展開,3})f2(xI,H,{展開,2})f3(xG,D,{同格,1})
4(xB,C,{逆説,0})f5(xE,F,{累加,0})
次に、連接関係を切り離す関係であるShiift素性を抽出していく。Shift素性は構造木の中で連接関係によって接続されていない場所から取っていく。
6(xA,I,{Shift,2})f7(xA,G,{Shift,1})
8(xA,B,{Shift,0})f9(xI,E,{Shift,2})
10(xC,D,{Shift,0})f11(xD,H,{Shift,1})
12(xD,E,{Shift,0})
こうして、構造木から素性が自動抽出される。なお、自動抽出方法の性質上、Shift素性がそれ以外の素性の合計より多く抽出されるために学習データがShift側に強く出てしまうことから、1記事ごとに素性関数の頻度がShiftとそれ以外の素性の頻度でほぼ同数になるようにShift以外の素性の頻度に(Shiftの素性関数の頻度)/(Shift以外の素性関数の頻度)をかけることで頻度差を補正する。
[2.1.1.5文章構造木の生成]
文章構造木は構文解析でもよく知られているCKY法[参考文献:野村浩郷、自然言語処理の基礎技術、電子情報通信学会、1988]を基に解析を行う。図15は本発明の第2の実施形態に係る文書要約装置におけるの文章構造解析のCKY法の説明図である。CKY法とは図15のように自動文章構造木作成部27が小さい部分解析木から大きな部分解析木を作成するという操作を繰り返し、解析を行うものである。その解析アルゴリズムは以下のとおりである。なお、Piは段落を表し、P1は最初の段落、Pnは最終段落を表しているものとする。
1.i=1,2,・・・,nに対してti,1={A|A→Pi}を作成する。
2.j=2,3,・・・,nに対して、以下の操作を行う。
i=1,2,・・・,n−j+1に対して、以下の操作を行う。
k=1,2,・・・,j−1に対して、以下の操作を行う。
i,j={A|A→BC,B∈ti,k,C∈ti+k,j-k
そして、各部分構造木を生成する際に、一時的に意味段落を構成し、その意味段落から素性xを取り出して、ある連接関係でその意味段落が構成される確率を次の方法で計算する。まず、連接関係relで段落A、B、葉ノードからの距離dの意味段落が構成される確率は、
Figure 2008242612
となる。次に、段落A、Bか、葉ノードからの距離dの意味段落が構成されない確率は
Figure 2008242612
となる。ここで、段落A、段落Bの存在する確率をそれぞれP(ParagA)、P(ParagB)とすると、(数式27)、(数式28)から意味段落ParagA,Bが存在する確率P(ParagA,B)は
Figure 2008242612
となる。なお、通常、xA,Bは1つではないので、素性が複数ある場合は確率が最大になるものを採用する。また、意味段落の連接関係は確率が最大となる関係名を採用する。
[2.1.2文章要約]
[2.1.2.1重要度評価]
要約文章の生成は、要約文生成部30において重要句抽出部31a、句補完処理部32aからの処理と同時に行われるので以下に詳説する。要約文作成部30aは、連接関係の意味的な性質から文章構造木をトップダウンに以下の(1)から(5)ルール順に下り、重要句を探索し、要約を生成する。
(1)展開型:後言語表現から句を抽出する。展開型の場合、後言語表現に結論があるので、後言語表現に探索に向かう。
(2)逆接型、転換型:前後の両方の言語表現から句を抽出する。逆接型はなんらかの話があって、それに対して反論するというタイプの論述展開である。当然、結論が大切であるのだが、前提となる前の話が無いと宙に浮いた表現になりやすい。そのため、前後両方から重要句を抽出しに向かう。転換型も話の筋は転換するものの、内容としては前の事を踏まえているケースが多いので、前後の両方から句を抽出する。
(3)累加型:前後両方の言語表現から抽出し、既抽出句との類似度の高い方を採用する。累加型は既に出ている事柄に話を加えて話題を膨らませる働きをする。そのため、既に抽出している句と類似性した話題の方が良い。そこで、前後両方の意味段落から句を抽出してきて、既に抽出している句との類似度が高い方を句として採用する。既抽出句が無い場合は、後に結論があると考え、後言語表現より抽出を行う。
(4)同格型、比較型:前後の両方の言語表現から句を抽出する。同格や比較はあるものとあるものとを比較したり並べて出すケースである。特に比較の関係は前後両方が無いと比較にならない。そこで、両方から抜き出す。
(5)補足型:前言語表現から句を抽出する。補足型は前言語表現に後言語表現が意味を補足する形を取るので、当然、前言語表現の方が重要となる。そこで、前言語表現から抽出を行う。重要句抽出部31aが以下のような手順で抽出を進めていく。例えば、図14のような文章構造木が構成されたとすると、その後の処理は以下のように示される。
図16は、本発明の第2の実施形態に係る文書要約装置における文章構造木からの句の抽出の説明図である。まず、図16(a)に示すように言語表現Kの連接関係は「展開型」なので後言語表現であるJに移る。次に、言語表現J も「展開型」なので、言語表現Hへ移る。言語表現Hは「累加型」なので、子ノードである段落Eと段落Fから重要句を抽出し比較する。しかし、まだ抽出句が無いので、今回は後言語表現であるFからの抽出句を採用する。次に、図16(b)に示すように論述展開を保つために、J、H、Fが抽出不可能の状態に遷移する。そして、図16(c)に示すように再び抽出に移る。今度はJに移ることができないので、段落Aから抽出を行う。そして、図16(d)に示すようにAは抽出不可能の状態に移る。すると、今度はどこからも抽出できなくなる。そこで、図16(e)に示すように一段階制約を解除して、Jに移る。JではHに遷移することができないので、Iに移る。Iは「同格型」の関係なので、Dから句を抽出しながら、Gに移る。すると今度はGが「逆接型」なので、BとCから句を抽出する。こうして、I以下の段落は全て抽出不可能の状態になる。同様にして、次はAから抽出を行い、次はJに移る。すると既にIは抽出できないので、Hへ向かい、Fは抽出できないので、Eから抽出を行う。このように抽出可能状態と抽出不可能状態を繰り返し、句を抽出していく。
[2.1.2.2補完処理]
可読性を上げるためには語の補完は必要不可欠である。特に句抽出の場合、1つの抽出単位あたりの情報量が文より少なくなるため、語の補完を行わないと句が意味のわからない「文字の羅列」となりかねない。そこで、句補完処理部32aでは、指示詞等の補完対象を決めても、その語で置換するのではなく、補完対象を含む句全てを抜き出す。これにより、1つの句が長くなり過ぎるということも無くなり、補完対象を間違っていた場合でも、句を抜き出すことで、その語に対する情報が付加されて宙に浮いた表現にはなりづらくなる。さらに今回、階層的な文章構造を構築したことによって、補完対象の探索範囲を変える。構造木を遡り、補足の関係でない一番近い段落を補完の対象の探索範囲とする。また、記事の冒頭には読者に内容について簡単に入れるように導入として簡単な記事の要約が載せられる傾向があり、そこには語についての端的な要約が含まれている可能性がある。そこで、記事全体の4分の1以下になる範囲を探索の範囲に加える。
[2.1.2.3要約文章の生成]
まず、抽出された句の表示状態として「圧縮状態」と「通常状態」の2つの表示状態があるが、それらを含めて次の(1)から(5)のように取り扱う。
(1)圧縮状態については、格要素と、その格要素への用言の連体修飾で用言に格要素がある場合に表示する。
(2)通常状態については、句を構成する文節の全ての要素を表示する。ここで、先述のルールを基に、文章構造木を下り、文になるまで木を下ったら、文内の句の中で既抽出句との類似度がもっとも高いものを抽出句の核となる「Core Phrase」として通常状態で採用する。次に「Core Phrase」と同じ文内の他の句との関係を参照する。「Core Phrase」との関係が以下の場合には、可読性を上げるためにその句を圧縮状態で追加する。
(3)逆接、対比、同格については、接続助詞を参照し。これらの関係にある場合は、言語表現を下る時の操作と同様の理由から、句を追加する。
(4)埋め込み文については、例えば、「市場から日銀に規制の早期緩和を求める声が上がっている。」という文があったとき、これまでの方法で句に分割すると「声は日銀に規制の早期緩和を求める」「市場から声が上がっている」の2つに分割される。しかし、「声」という名詞は非常に抽象的なため、この場合ではどちらかが単一で抽出されても意味がわかりづらい。そこで「Core Phrase」として「市場から声が上がっている」が採用された場合には「声」が、ある程度具体的になると思われる複合名詞である場合を除いて「声は日銀に規制の早期緩和を求める」の句も補完する事とし、「Core Phrase」として「声は日銀に規制の早期緩和を求める」が採用された場合は、「市場から声が上がっている」も補完する。
(5)引用については、引用句を外から参照する場合はその句を補完する。これらの規則については、適当に決めたものであるので、補完すべきところが補完できなかったり、補完しなくてもよいところで補完したりする。しかし、今回はこれについては詳しくは扱わない事とする。こうして抜き出された各句から、指示詞による参照対象を含む句を圧縮状態としてさらに追加する。また、その句についても、宙に浮いた表現にならないようにするために、上述の補完を繰り返す。こうすることで、可読性を保ちつつ、文章構造を反映した要約文章を生成する。
[2.2動作]
図17は、本発明の第2の実施形態に係る文書要約装置のフローシートである。
ユーザは、あらかじめ前処理された文章構造木を入力する(S200)。素性抽出部23が、入力された文章構造木から素性を抽出する(S210)。素性関数作成部24が抽出された素性から素性関数を作成する(S220)。素性関数重み作成部25が素性関数の重みを作成する(S230)。最大エントロピー計算部26が最大エントロピーを計算する(S240)。自動文章構造木作成部27がCKY法により自動的に文章構造木を生成する(S250)。なお、文章構造木が生成されると、素性抽出に戻る(S210)。重要句抽出部31aが、重要句を抽出する(S260)。句補完処理部32aが句の補完処理を行う(S270)。要約文作成部30aが抽出された句及び補完された句により要約文を作成する(S280)。要約文が所定の字数を満たしているか否かを判断する(S290)。要約文が所定の字数を満たしていない場合に、重要句の抽出に戻る(S260)。出力部40が要約文が所定の字数を満たしている場合には、作成された要約文を出力する(S300)。
以上の前記各実施形態により本発明を説明したが、本発明の技術的範囲は実施形態に記載の範囲には限定されず、これら各実施形態に多様な変更又は改良を加えることが可能である。そして、かような変更又は改良を加えた実施の形態も本発明の技術的範囲に含まれる。このことは、特許請求の範囲及び課題を解決する手段からも明らかなことである。
本発明の第1の実施形態に係る文書要約装置のハードウェア構成図である。 本発明の第1の実施形態に係る文書要約装置のブロック構成図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係の種類の説明図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係及び連接関係の単純化の説明図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の段落間の関連性の説明図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の辞の分類の説明図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の連接関係の重みの変化の説明図である。 本発明の第1の実施形態に係る文書要約装置における文章構造解析の語の置換の説明図である。 本発明の第1の実施形態に係る文書要約装置における陳述形式からの句の抽出の説明図である。 本発明の第1の実施形態に係る文書要約装置における類似度による評価の説明図である。 本発明の第1の実施形態に係る文書要約装置における句の抽出過程の説明図である。 本発明の第1の実施形態に係る文書要約装置のフローシートである。 本発明の第2の実施形態に係る文書要約装置のブロック図である。 本発明の第2の実施形態に係る文書要約装置における文章構造木の一例の図である。 本発明の第2の実施形態に係る文書要約装置におけるの文章構造解析のCKY法の説明図である。 本発明の第2の実施形態に係る文書要約装置における文章構造木からの句の抽出の説明図である。 本発明の第2の実施形態に係る文書要約装置のフローシートである。
符号の説明
1 コンピュータ
2 CPU
3 メインメモリ
4 HDD
5 ビデオカード
6 マウス
7 キーボード
8 光学ディスク
10 入力部
20 文章構造解析部
20a 文章構造解析部
21 連接関係構造解析部
22 飛び地構造解析部
23 素性抽出部
24 素性関数作成部
25 素性関数重み作成部
26 最大エントロピー計算部
27 自動文章構造木作成部
30 要約文作成部
30a 要約文作成部
31 句抽出部
31a 重要句抽出部
32 語補完部
32a 句補完処理部
40 出力部
211 連接関係作成部
212 文章構成再編部
311 句評価部
312 句重み付け部
313 語類似度評価部

Claims (15)

  1. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、
    前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手段と、
    前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手段と、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完手段と、
    から構成される文書要約装置。
  2. 単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手段と、
    から構成される請求項1の文書要約装置。
  3. 陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手段と、
    から構成される請求項1又は請求項2の文書要約装置。
  4. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成手段と、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手段と、
    意味段落同士の飛び地構造を解析する飛び地構造解析手段と、
    文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手段と、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完手段と、
    から構成される文書要約装置。
  5. 文章構造木を入力する文章構造木入力手段と、
    入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手段と、
    文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手段と、
    素性関数の重みを作成する素性関数重み作成手段と、
    素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手段と、
    求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手段と、
    自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手段と、
    前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手段と、
    から構成される文書要約装置。
  6. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、
    前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価ステップと、
    前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出ステップと、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップと、
    から構成される文書要約方法。
  7. 単純化された意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、
    から構成される請求項6の文書要約方法。
  8. 陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出ステップと、
    から構成される請求項6又は請求項7の文書要約方法。
  9. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成ステップと、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編ステップと、
    意味段落同士の飛び地構造を解析する飛び地構造解析ステップと、
    文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出ステップと、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完ステップと、
    から構成される文書要約方法。
  10. 文章構造木を入力する文章構造木入力ステップと、
    入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出ステップと、
    文章構造木から自動抽出された素性から素性関数を作成する素性関数作成ステップと、
    素性関数の重みを作成する素性関数重み作成ステップと、
    素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算ステップと、
    求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成ステップと、
    自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出ステップと、
    前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理ステップと、
    から構成される文書要約方法。
  11. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、
    前記文章構成再編された意味段落から陳述形式による句の評価を行う句評価手順と、
    前記陳述形式による句の評価に重みを付けて句の抽出を行う句重み付け抽出手順と、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完手順
    としてコンピュータを機能させる文書要約プログラム。
  12. 単純化された意味段落同士の飛び地構造を解析する飛び地構造解析手順
    としてコンピュータを機能させる請求項11の文書要約プログラム。
  13. 陳述形式による句の抽出された以外の句について語の類似度による句の抽出を行う語類似度抽出手順
    としてコンピュータを機能させる請求項11又は請求項12の文書要約プログラム。
  14. 入力された記事の意味段落の線形の連接関係を作成する連接関係作成手順と、
    意味段落の流れを保った状態で前記線形の連接関係を単純化する文章構成再編手順と、
    意味段落同士の飛び地構造を解析する飛び地構造解析手順と、
    文章構成の再編及び飛び地構造解析された意味段落から語の類似度による句の抽出を行う語類似度抽出手順と、
    前記抽出された句で構成された要約文に対する語の補完を行う語補完手順
    としてコンピュータを機能させる文書要約プログラム。
  15. 文章構造木を入力する文章構造木入力手順と、
    入力された又は自動作成された文章構造木から素性を自動抽出する素性抽出手順と、
    文章構造木から自動抽出された素性から素性関数を作成する素性関数作成手順と、
    素性関数の重みを作成する素性関数重み作成手順と、
    素性関数重み及び素性関数から意味段落における最大エントロピーを求める最大エントロピー計算手順と、
    求められた最大エントロピーを利用した自動的に文章構造木を生成する自動文章構造木作成手順と、
    自動的に作成された文章構造木における言語表現から一定の条件を満たした重要句を抽出する重要句抽出手順と、
    前記抽出された句で構成された要約文に対する句の補完処理を行う句補完処理手順
    としてコンピュータを機能させる文書要約プログラム。
JP2007079397A 2007-03-26 2007-03-26 文書要約装置、その方法及びプログラム Pending JP2008242612A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007079397A JP2008242612A (ja) 2007-03-26 2007-03-26 文書要約装置、その方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007079397A JP2008242612A (ja) 2007-03-26 2007-03-26 文書要約装置、その方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2008242612A true JP2008242612A (ja) 2008-10-09

Family

ID=39913917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007079397A Pending JP2008242612A (ja) 2007-03-26 2007-03-26 文書要約装置、その方法及びプログラム

Country Status (1)

Country Link
JP (1) JP2008242612A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011068178A1 (ja) * 2009-12-04 2011-06-09 日本電気株式会社 関連文書検索システム、装置、方法及びプログラム
JP2013171330A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
CN111666405A (zh) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073644A (ja) * 2000-08-28 2002-03-12 Suuri Giken:Kk 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002073644A (ja) * 2000-08-28 2002-03-12 Suuri Giken:Kk 重要文抽出処理装置、重要文抽出処理方法、および重要文抽出処理プログラムを格納したコンピュータ読み取り可能な記憶媒体

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
CSNG200100155010; 小堀 誠 外1名: '段落中の接続関係と段落間の重要度配分による文章要約' 情報処理学会研究報告 第2000巻第29号, 20000322, p.79-86, 社団法人情報処理学会 *
CSNG200500802013; 江上 修平 外3名: '文章構造と意味ネットワークを用いた句抽出による文章要約' 情報処理学会研究報告 第2004巻第108号, 20041106, P.83〜88, 社団法人情報処理学会 *
CSNJ201010013192; 小堀 誠 外1名: '句、節、文の接続関係を考慮したパラグラフの自動要約' 第59回(平成11年後期)全国大会講演論文集(2) 人工知能と認知科学 , 19990928, p.2-395〜2-396, 社団法人情報処理学会 *
CSNJ201010074104; 大島 隆義 外1名: '文章構造に着目した要約に関する研究' 第49回(平成6年後期)全国大会講演論文集(3) 人工知能及び認知科学 データ処理 , 19940920, p.3-207〜3-208, 社団法人情報処理学会 *
JPN6012021500; 江上 修平 外3名: '文章構造と意味ネットワークを用いた句抽出による文章要約' 情報処理学会研究報告 第2004巻第108号, 20041106, P.83〜88, 社団法人情報処理学会 *
JPN6012021503; 小堀 誠 外1名: '段落中の接続関係と段落間の重要度配分による文章要約' 情報処理学会研究報告 第2000巻第29号, 20000322, p.79-86, 社団法人情報処理学会 *
JPN6012021504; 小堀 誠 外1名: '句、節、文の接続関係を考慮したパラグラフの自動要約' 第59回(平成11年後期)全国大会講演論文集(2) 人工知能と認知科学 , 19990928, p.2-395〜2-396, 社団法人情報処理学会 *
JPN6012021506; 大島 隆義 外1名: '文章構造に着目した要約に関する研究' 第49回(平成6年後期)全国大会講演論文集(3) 人工知能及び認知科学 データ処理 , 19940920, p.3-207〜3-208, 社団法人情報処理学会 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011068178A1 (ja) * 2009-12-04 2011-06-09 日本電気株式会社 関連文書検索システム、装置、方法及びプログラム
JPWO2011068178A1 (ja) * 2009-12-04 2013-04-18 日本電気株式会社 関連文書検索システム、装置、方法及びプログラム
JP5712930B2 (ja) * 2009-12-04 2015-05-07 日本電気株式会社 関連文書検索システム、装置、方法及びプログラム
JP2013171330A (ja) * 2012-02-17 2013-09-02 Nippon Telegr & Teleph Corp <Ntt> テキスト要約装置、方法、及びプログラム
JP2016186772A (ja) * 2015-03-27 2016-10-27 富士通株式会社 短縮文生成装置、方法、及びプログラム
JP2020035272A (ja) * 2018-08-31 2020-03-05 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
JP7288293B2 (ja) 2018-08-31 2023-06-07 株式会社日立ソリューションズ東日本 要約生成装置および要約生成方法
CN111666405A (zh) * 2019-03-06 2020-09-15 百度在线网络技术(北京)有限公司 用于识别文本蕴含关系的方法和装置

Similar Documents

Publication Publication Date Title
El-Kassas et al. Automatic text summarization: A comprehensive survey
Korhonen Subcategorization acquisition
Zouaghi et al. Combination of information retrieval methods with LESK algorithm for Arabic word sense disambiguation
EP3203383A1 (en) Text generation system
Sarwadnya et al. Marathi extractive text summarizer using graph based model
JP2008242612A (ja) 文書要約装置、その方法及びプログラム
JP5678774B2 (ja) テキストデータの冗長性を解析する情報解析装置
EP1503295A1 (en) Text generation method and text generation device
JP2001331515A (ja) 単語シソーラス構築方法及びコンピュータシステムに単語シソーラスの構築を行わせるためのコンピュータソフトウエアプログラム製品
Yafoz et al. Sentiment analysis in Arabic social media using deep learning models
Séaghdha Annotating and learning compound noun semantics
Heidary et al. Automatic Persian text summarization using linguistic features from text structure analysis
Riedl et al. There’s no ‘count or predict’but task-based selection for distributional models
Zhang et al. Dual attention model for citation recommendation with analyses on explainability of attention mechanisms and qualitative experiments
Zulkhazhav et al. Kazakh text summarization using fuzzy logic
Orasan Comparative evaluation of modular automatic summarisation systems using CAST
JPH0844763A (ja) キーワード自動抽出装置
Kirmani et al. Analysis of Abstractive and Extractive Summarization Methods.
Saetia et al. Combining Thai EDUs: Principle and Implementation
CN117648917B (zh) 一种版式文件对比方法及系统
Moosavi et al. A ranking approach to Persian pronoun resolution
Miháltz Semantic resources and their applications in Hungarian natural language processing
Abdelwahab et al. Arabic Text Summarization using Pre-Processing Methodologies and Techniques.
Rocha et al. Towards a mention-pair model for coreference resolution in portuguese
Jayawardane Automatic sinhala text summarization for government gazettes using abstractive and extractive methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090925

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120420

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121002