JP4572321B2 - 文書出力装置及びその制御方法 - Google Patents

文書出力装置及びその制御方法 Download PDF

Info

Publication number
JP4572321B2
JP4572321B2 JP2004067660A JP2004067660A JP4572321B2 JP 4572321 B2 JP4572321 B2 JP 4572321B2 JP 2004067660 A JP2004067660 A JP 2004067660A JP 2004067660 A JP2004067660 A JP 2004067660A JP 4572321 B2 JP4572321 B2 JP 4572321B2
Authority
JP
Japan
Prior art keywords
output
document
summarization
sentence
paragraph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004067660A
Other languages
English (en)
Other versions
JP2005258676A (ja
Inventor
田 岩 音 池
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP2004067660A priority Critical patent/JP4572321B2/ja
Publication of JP2005258676A publication Critical patent/JP2005258676A/ja
Application granted granted Critical
Publication of JP4572321B2 publication Critical patent/JP4572321B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書出力装置及びその制御方法に関に関する。
出力する文書の情報量を減らすために、現在のWebブラウザソフトウェア、各種のアプリケーションソフトウェア、及び、プリンタドライバでは、指定したページだけ出力したり、指定したフレームや選択したフレームのみを出力する機能などを備えている。
例えば、特開平11−203100号公報(特許文献1)で開示されているネットワークプリンタでは、HTML文書中の特定情報(テキスト、GIF画像)だけダウンロードし、それ以外の情報形式(JPEG、BMP、MPEGなど)や、広告情報、データ量の大きすぎる画像情報や映像情報などはダウンロードせず、ダウンロードした情報だけを元のレイアウトに従って印刷している。
また、この特開平11−203100号公報を受けて、特開2002−32364号公報(特許文献2)で開示されている文書出力装置では、HTMLやXMLなどで記述された構造化文書において、文書構造中の要素(タグ)などを分析することで、重要度の高い要素を抽出することにより出力文書の占有領域の大きさを減らし、文書情報の内容把握を効率的に行っている。
特開平11−203100号公報 特開2002−32364号公報
しかしながら、特開2002−32364号公報の文書出力装置では、HTMLやXMLなどで記述された構造化文書から重要な要素を抽出する場合、要素単位で取捨選択されるので、情報量の変化が段階的になる。また、要素中の文章表現が冗長であった場合には、占有領域が大きいことを理由に省かれることとなり、本来であれば選択されるべき要素が選択されないという事態が生じる。
さらに、重要度の高い要素が大量にある場合や、重要な要素中の文書量が多い場合(例えば、論文など)には、必ずしも効率的に出力文書の占有領域を減らすことにはならない。また、そもそも非構造化文書においては、その出力文書の占有領域を減らすことができない。
そこで本発明は、前記課題に鑑みてなされたものであり、出力する文書の占有領域を適切に減らすことのできる文書出力装置を提供することを目的とする。
上記課題を解決するため、本発明に係る文書出力装置は、
タグを用いて文書構造が定義された構造化文書が入力される、文章入力部と、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断する、判断部と、
前記判断部で出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小し、出力用文章を生成する、縮小部と、
前記縮小部で生成した出力用文章を出力する、出力部と、
を備える文書出力装置であって、
前記縮小部は、
前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定する、要約率設定部と、
前記要約率設定部で設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力する、要約部と、
を備えるとともに、
前記要約率設定部では、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする。
この場合、前記要約部では、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど要約率を大きく設定するようにしてもよい。
或いは、前記要約部では、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど要約率を大きくするようにしてもよい。
また、前記構造化文書に含まれる文章の自立語を、より文字数の少ない異表記に置き換えることにより、文章を短くする、異表記処理部をさらに備えるようにしてもよい。
また、前記構造化文書に含まれる文章の自立語を、より文字数の少ない同義語に置き換えることにより、文章を短くする、同義語処理部をさらに備えるようにしてもよい。
本発明に係る文書出力装置の制御方法は、
タグを用いて文書構造が定義された構造化文書が入力されるステップと、
前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断するステップと、
出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小して、出力用文章を生成するステップと、
前記生成した出力用文章を出力するステップと、
を備える文書出力装置の制御方法であって、
前記文章を縮小して、出力用文書を生成するステップは、前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定するステップと、
前記設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力するステップと、
を備えるとともに、
前記初期要約率と前記要約率閾値とを設定するステップでは、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
ことを特徴とする。
図1は、本実施形態に係る文書出力装置の構成を説明するブロック図である。この図1に示すように、本実施形態に係る文書出力装置は、出力量解析部10と、要約率評価部20と、形態素解析部30と、文書解析縮小部40と、文書出力部50と、自立語解析変換部60と、要約文出力部70と、文ベクトル生成比較部80とを備えて構成されている。また、本実施形態に係る文書出力装置は、さらに、データベースとして、形態素解析辞書100と、同義語辞書110と、分野別特徴ベクトル辞書120とを備えて構成されている。
出力量解析部10には、出力対象文書が入力される。本実施形態では、この出力対象文書は、文章を含む構造化文書で構成されている。また、この文書出力装置では、出力制約条件として、出力先領域の大きさが、例えば用紙枚数1枚などというように指定されているものとする。このため、この出力量解析部10では、入力された出力対象文書を解析して、この文書を出力した場合の占有領域の大きさを算出する。そして、出力量解析部10は、出力制約条件と出力占有領域の大きさとを比較して、入力された文書の占有領域の大きさが、出力制約条件に定められている大きさに収まった場合には、文章出力部50からそのまま文書出力を行う。一方、入力された文書の占有領域の大きさが、出力制約条件に定められている大きさを上回った場合、文章解析縮小部40において、次のような物理的な情報量削減工程に移行する。
第1段階として、形態素解析部30において、形態素解析辞書100を用いて、出力対象文書の文章を単語に分解し自立語(言葉の最小単位である単語のうち一語だけで意味のわかる単語)を抽出する。そして、自立語解析変換部60において、同義語辞書110を用いて、文章中の自立語を文字数のより少ない異表記(表記のゆれ)に置き換えることにより、出力文書の占有領域を減少させる。出力量解析部10では、この置き換えられた文書について、再度、出力制約条件と占有領域の大きさとを比較する。
まだ占有領域の方が出力制約条件より大きい場合には、自立語解析変換部60において、同義語辞書110を用いて、文章中の自立語をより短い文字数の同義語に置き換える。そして、置き換えられた文書について、出力量解析部10では、再度、出力制約条件と占有領域の大きさとを比較する。
まだ占有領域の方が出力制約条件より大きい場合には、第2段階として、要約文出力部70において、冗長性を排した要約文に変換する。このとき、与えられた要約率に基づいて、要約文が生成される。本実施形態においては、段落の重要度に応じて、段落毎に初期要約率と要約率閾値を設定し、高い要約率(例えば90%)から要約文の生成処理を開始する。
段落の重要度を設定する際には、要約文出力部70及び文ベクトル生成比較部80が、分野別特徴ベクトル辞書を参酌しながら、段落の重要度を設定する。
次に、生成した要約文について、出力量解析部10で、再度、出力制約条件と占有領域の大きさとを比較する。比較の結果、まだ占有領域の方が出力制約条件より大きい場合には、要約文出力部70において、要約率を前回よりさらに下げて、要約文を生成する。すなわち、例えば、前回の90%から5%さげて、85%の要約率で、要約文を生成する。このような要約文の生成処理を繰り返して、占有領域の大きさが出力制約条件で定められた領域に収まるまで、要約率を低くしながら繰り返す。
但し、要約率評価部20においては、所定の要約率に達したかどうかを判断しており、所定の要約率に達した場合には、そこで要約文の生成処理を中止し、ユーザにその旨を通知する。具体的には、設定した要約率閾値に達した場合には、要約文の生成処理を中止する。この場合、ユーザは、出力制約条件の領域の大きさを再調整するなどして、再度、この処理を最初から実行させる。要約率に制限を設けるのは、要約のしすぎで、論理的(意味的)な情報量が極端に低下するのを防止するためである。
一方、要約文を出力した場合の占有領域の大きさが出力制約条件以下になった場合には、文章出力部50から出力対象文書の文章が出力される。
本実施形態に係る文書出力装置の処理の概要は以上であるが、次に、この文書出力装置の処理内容を、図2に示すフローチャートを用いて、詳細に説明する。この図2は、本実施形態に係る文書出力装置が実行する出力処理の内容を説明するフローチャートである。
出力対象文書が入力された場合、まず、出力量解析部10が、その出力対象文書を出力した場合の占有領域を算出する(ステップS10)。続いて、出力量解析部10は、算出した占有領域の大きさと、出力制約条件に定められている領域の大きさとを比較し、算出した占有領域の大きさが、出力制約条件に定められている大きさよりも、大きいかどうかを判断する(ステップS12)。
算出した占有領域の大きさが、出力制約条件の定められている大きさより大きくない場合(ステップS12:No)、すなわち、出力制約条件に定められている大きさに、算出した占有領域の大きさが収まる場合には、文書出力部50は、その内容で文章出力を行い(ステップS14)、この出力処理を終了する。
一方、算出した占有領域の大きさが、出力制約条件の定められている大きさより大きい場合(ステップS12:Yes)には、要約率評価部20は、その時点の要約率が所定の要約率に達しているかどうかを判断する(ステップS16)。すなわち、その時点の要約率が、後述する要約率閾値に達しているかどうかを判断する。所定の要約率に達している場合(ステップS16:Yes)には、これ以上要約すると原文からの情報量の低下が大きすぎることになるので、ユーザに出力処理ができない旨を通知して(ステップS18)、この出力処理を終了する。
一方、所定の要約率に達していない場合(ステップS16:No)には、文書解析縮小部40は文書縮小処理を行う(ステップS20)。
図3は、本実施形態に係るステップS20で行われる文書縮小処理の内容を説明するフローチャートを示す図である。この図3に示すように、まず、自立語解析変換部60において、自立語変換処理済みであるかどうかを判断する(ステップS30)。自立語変換処理済みでない場合(ステップS30:No)には、自立語解析変換部60において、異表記処理済みであるかどうかを判断する(ステップS32)。
異表記処理済みでない場合(ステップS32:No)には、形態素解析部30は文章を文に区切り単語に分割し、自立語解析変換部60は、自立語に属する単語を抽出、解析し異表記処理を行う(ステップS34)。すなわち、文章中における自立語を文字数が減少するような異表記に置き換える処理を行う。
図4は、本実施形態に係るステップS34で行われる異表記処理の内容を説明するフローチャートを示す図である。この図4に示すように、異表記処理では、文章を単語に分解するとともに、自立語解析変換部60において抽出した自立語に対して、異表記処理の前処理を行い、自立語を置き換えることにより減少する文字数に基づいて、出力の占有領域の大きさを算出する(ステップS50)。
次に、自立語解析変換部60は、算出した占有領域の大きさに余裕がある場合には、置き換える自立語の単語数を減らしたり、置き換える単語の文字数を調整したりする最適化処理を行う(ステップS52)。これにより、なるべく原文の情報量を減らさずに且つイメージを保ったまま、文字数を減らすようにしている。これら異表記前処理及び異表記最適化処理においては、適宜、同義語辞書110が参酌される。これにより、本実施形態に係る異表記処理が終了する。
図5は、本実施形態に係る異表記処理の一例を説明するための図である。この図5に示すように、標準表記で「取り扱い」は、「取扱い」、「取扱」、「とり扱い」、「取りあつかい」、「とりあつかい」のような異なる表記がある。また、標準表記で「当たり外れ」は、「当り外れ」、「当外れ」、「当外」、「当たりはずれ」、「あたり外れ」、「あたりはずれ」のような異表記がある。このような異表記は同義語辞書110に登録されている。このため、自立語解析変換部60は、同義語辞書110を検索し、文中に使われている表現の異表記の中から、より文字数の短い単語を選び出して、これに置き換える処理を行う。これにより、文章の文字数を減らすことができるのである。
これに対して、図3のステップS32で、自立語解析変換部60が異表記処理済みであると判断した場合(ステップS32:Yes)には、同義語処理を行う(ステップS36)。
図6は、本実施形態に係るステップS36で行われる同義語処理の内容を説明するフローチャートを示す図である。この図5に示すように、同義語処理では、自立語解析変換部60は、同義語処理の前処理を行い、同義語を置き換えることにより減少する文字数に基づいて、出力の占有領域の大きさの算出する(ステップS60)。
次に、自立語解析変換部60は、算出した占有領域の大きさに余裕がある場合には、置き換える自立語の単語数を減らしたり、置き換える単語の文字数を調整したりする最適化処理を行う(ステップS62)。これにより、なるべく原文の情報量を減らさずに且つイメージを保ったまま、文字数を減らすようにしている。これら同義語前処理及び同義語最適化処理においては、適宜、同義語辞書110が参酌される。これにより、本実施形態に係る同義語処理が終了する。
図7は、本実施形態に係る同義語処理の一例を説明するための図である。この図7に示すように、例えば「打ち合わせ」には、「会議」、「ミーティング」という同義語がある。また、「首相」には「内閣総理大臣」という同義語がある。このような同義語は同義語辞書110に登録されている。このため、自立語解析変換部60は、同義語辞書110を検索し、文中に使われている表現の同義語の中から、より文字数の短い単語を選び出して、これに置き換える処理を行う。これにより、文章の文字数を減らすことができるのである。
このような異表記処理と同義語処理を施した文章の一例を示す。原文は次のような文章だったとする。
「優れた舞台芸術公演の海外フェスティバル等への参加・我が国で開催される国際フェスティバルへの支援や、若手芸術家の在外研修、国民文化祭等を通じた文化団体の招へい・派遣、国宝・重要文化財等の古美術品の海外展の開催、文化財の保存修復に関する国際共同研究等の実施及びユネスコによる世界遺産保護への協力などを推進し、また、スポーツ国際交流も積極的に進めています。」
このような原文に対して異表記処理と同義語処理を施すと、例えば、次のような文章となる。
「優れた舞台芸術公演の海外記念祭等への参加・我国で開催される国際記念祭への支援や、若手芸術家の在外研修、国民文化祭等を通じた文化団体の招聘・派遣、国宝・重要文化財等の古美術品の海外展の開催、文化財の保存修復に関する国際共同研究等の実施及びUNESCOによる世界遺産保護への協力等を推進し、又、スポーツ国際交流も積極的に進めている。」
再び図3の説明に戻り、図3のステップS30で、自立語解析変換部60が自立語変換処理済みであると判断した場合(ステップS30:Yes)には、要約率の設定を行い(ステップS38)、文章要約処理を行う(ステップS40)。
本実施形態においては、要約率の設定は、その段落の重要度を加味して、段落毎に設定される。そして、順次、この要約率を小さくしていくことにより、出力制約条件で定められた領域に、出力対象文書を出力した占有領域の大きさが、収まるようにしていく。
このステップS38の要約率の設定にあたっては、まず、構造化文書から文章や段落を抜き出す。本実施形態においては、基本的に、タグによって文章や段落を抽出する。例えば、HTML4.0の仕様に基づく場合、標準的に用いられる文書タグから文章の構成要素を取り出す。
文章や段落を抽出するために用いられる標準的なタグには、例えば、見出しを示す<Hn>タグや、段落(パラグラフ)を示す<p>タグや、箇条書きを示す<UL>タグなどがある。HTML4.0の一般的な構造化文書では、これらのタグが次のように使われている。

HTML4.0
<HTML>
<HEAD>
<TITLE>文書のタイトル</TITLE>
</HEAD>
<BODY>
<H1>主見出し</H1>
<P>パラグラフ</P>
<P>パラグラフ</P>
<UL>
<LI>リスト項目</LI>
<LI>リスト項目</LI>
</UL>
</BODY>
</HTML>

無論、その他HTML以外でも、文書構造を表す任意に定義されたタグを用いて、文章や段落を抽出してもよい。例えば、次のように、構造化文書を構成する文書タグとして、<題>、<段落>を用いるような場合には、<題>、<段落> の部分を文章として抽出する。

<文書 改訂日付="2004年2月1日">
<題>サンプル</題>
<段落>これはサンプル文書です。</段落>
<段落>これもサンプル文書です</段落>
</文書>

そして、本実施形態においては、構造を解析して抽出した段落毎に、要約率を設定する。例えば、図8に示すように、タグ付けにより段落が階層化されている場合、一般に下位になるほど上位の内容を受けた記述となるため、下位ほど要約率を小さくする(文章をより短くする)ことができる。このため、下位の階層の段落ほど、要約率を小さい値に設定にする。
HTMLにおいて段落を階層化する場合には、次のようなタグの用いられ方がなされる。
・入れ子による階層化の場合
<P>パラグラフ1
<P>パラグラフ2</P>
<P>パラグラフ2
<P>パラグラフ3</P>
</P>
</P>

・引用(インデント)タグによる階層化の場合
<P>パラグラフ1</P>
<BLOCKQUOTE>
<P>パラグラフ2</P>
<BLOCKQUOTE>
<P>パラグラフ2</P>
</BLOCKQUOTE>
<P>パラグラフ3</P>
</BLOCKQUOTE>

また、本実施形態においては、タグ付けによる文書構造化の階層化がなされていない場合には、文章全体の主題(話題)を抽出し、抽出した話題に類似した段落(パラグラフ)ほど重要段落として要約率を大きく(文章をあまり短くしない)設定し、類似性が低い段落ほど要約率を小さく(文章をより短くする)設定する。
主題の抽出は、例えば、以下の手法で行う。同じ主題の段落においては同じような特徴語が抽出されることから、文書から特徴語を抽出することによって主題を推定する。特徴語の選択のための統計的尺度として、tf・idf を用いる。語wi、文書単位dj に対するtf・idfの定義は以下の式で与えられる。

tf・idf(wi,dj) = (Fij/Fi) log (N/Ni)

ここで、Fijは語wiの文書単位djにおける出現数、Fiは全文書中の出現数を示している。Niは語wiを含む文書単位数、Nは文書単位の総数を示している。分析対象語は形態素解析により名詞のみで行う。
段落の類似性の決定には、ある文書全体から特徴語をいくつか抽出する。さらに段落(パラグラフ)ごとに抽出した特徴語との類似度をシソーラスのパスをたどることで計算する。パスをたどった結果、そのパスが深いほど類似度が低いことを意味している。そして、各語との類似度の総和を正規化して段落の主題との類似性を取得する。
例えば、文書全体および、段落ごとに特徴語をn語抽出するとし、文書全体の特徴語をTn ( n=1,,n)、段落ごとの特徴語tn ( n=1,,n)とすると、類似性Qは、次のように表される。
Figure 0004572321

また、特開2002−32364の例のように、タグの要素の予め付与されているLebel属性によって、Lebel属性の低い要素ほど、要約率を小さくする(文書をより短くする)設定にすることもできる。
このように段落ごとに要約率を変えることを、要約強度として表し、初期の要約率から閾値となる要約率まで、要約強度の強い段落ほど優先して要約処理を行う。すなわち、上位の階層の段落の要約強度を弱く設定し(要約率は大きい)、下位の階層の段落の要約強度を強く設定する(要約率は小さい)。なお、本実施形態では、要約強度は、強、弱の2段階であるが、もっと段階を多く分けても良い。
そして、段落ごとに設定された要約率に基づいて要約文を作成する。例えば、ある文書において、抽出された段落が段落1から段落5までの5個あったとする。前述した手法により要約強度を設定すると、例えば表1に示すようになる。すなわち、各段落毎に、要約強度、要約率閾値、初期要約率が設定される。
Figure 0004572321
各々の段落の文章は、まず、初期要約率によって要約処理される。全ての段落の要約処理が終わっても、まだ、出力制約条件の領域に収まらない場合、要約率強度の強い段落を優先に所定の割合(例えば、−10%)で要約率を小さくして処理を続け、要約率閾値になるまで続行する。
図3のステップS40で行われる文章要約処理の処理には種々の既知の手法があり、例えば、サイエンス社から出版された吉村賢治著の「自然言語処理の基礎」や、 共立出版から出版されたInderjeet Mani(著), 奥村学, 難波英嗣, 植田禎子(訳)の「自動要約」を参照されたい。以下には、図9に示した本実施形態における文章要約処理のフローチャートを用いながら、具体的な内容を簡単に説明する。
例えば、次のような原文が与えられたとする。
「いつの間にか夜が明けていた。朝日が昇りだすころ、物語が始まった。不思議な物語はその朝に始まり、明るい朝日に照らされるにつれ、その男の物語も佳境に及んだ。男は短い髪をかきあげて、顔をあげた。女は手に汗を握り、男の顔に視線を寄せ、言葉のほとばしる男の口元をじっと見つめた。」
この原文は、(1)〜(5)の5つの文に区切られる(ステップS100)。ここで、主だった単語に対する各指標値は、表2及び表3のように算出できる。これに、各単語のIDF値を掛けることで、表4のようにTFIDF値を計算できる(ステップS102)。
Figure 0004572321
Figure 0004572321
Figure 0004572321
上記各行の単語を成分とした4次元ベクトルを想定し、前述の文章全体の単語頻度を成分とした4次元ベクトルと比較する。比較する時は内積を計算し、最大のものを最重要文とする(ステップS104)。この様な計算で算出された最重要文は(3)となる。
次に、その段落のすべての文を選択したかどうかを判断する(ステップS106)。ここでは、すべての文を選択していないので(ステップS106:No)、文(3)の単語頻度を文章全体の単語頻度から引く(ステップS108)。そうすると、文章全体における各単語のTFは、 「朝日」1 「物語」1 「男」3 「顔」2 となり、これを新たな文章全体のベクトルとして、前記「各文の単語の頻度」からの計算と同じように内積を計算し、次の重要文を選択する(ステップS104)。この例では、次なる重要文は(4)となる。
以下、同様の計算で内積を算出して行くと、重要文は続いて(1)、(2)、(5)となる。このようにして、ベクトル内積計算ステップ、内積値最大文抽出ステップ、及び、文章ベクトル補正ステップを繰り返して、重要文を順次選択していく。この例では、(3)、(4)、(1)、(2)、(5)の順に重要な文が抽出され、5回目の抽出で、文章中に残る文は無くなる(ステップS106:No)。
次に、ステップS38において表1に基づいて各段落毎に定められた要約率で、要約処理を実行して、要約文を生成する(ステップS110)。この時、生成された要約文に接続詞「そして」や、指示代名詞「その」が含まれていれば、出力文章整形ステップにより、指定の語句に置換又は削除して自然さを確保する(ステップS112)。
次に、すべての段落について要約文の生成処理をしたかどうかを判断し(ステップS114)、すべての段落について要約文の生成処理をしていない場合(ステップS114:No)には、次の段落を選択して(ステップS116)、ステップS100からを繰り返す。一方、すべての段落について要約文の生成処理をした場合(ステップS114:Yes)には、この文章要約処理を終了する。
なお、本実施形態においては、TFIDFによる語句の重要度判定は、次のように行う。
ベクトル空間法により、
文書d,…,d,…,dからなる文書データベースdb
に含まれる全ての語句termt,…,t,…,tを次元とするベクトル空間を想定する。そこで、以下の通りに定義付ける。
(1)TF文書dにおける、語句termtの頻度freqij= tf(d,t) freqij の文書dにおける最大値=maxfreq
文書dにおける、異なるtermの種類数=lengthとする。ここで、tf(d,t) は文書dの性質、文書長に依存するので、正規化をおこなう。以下正規化の例を(a)(b)として2つ示す。
(a) c・freqij =K+(1−K)・(freqij /max・freq
(b) n・freqij =[log(freqij 1)/loglength
ただし、ここでc,n,Kは正規化処理における適数とする。
(2)IDF対象とする文書データベースdbに含まれる文書総数=DB・size(db)
termtが現れる文書データベースdbの文書数=freq(ti,db)である。idf(ti)=log[DB・size(db)/freq(ti,db)]+1となる。少ない文書にしか現れないが重要である語句との定義付けをし、前記TFと併用する。
(3) (1),(2)より、TFIDF文書dにおけるtermtの重みw(d,t)を以下の様に定義する。
w(d,t)=tf(d,t) ・idf(t
ここで、tf(d,t) 部分に前記c・freqij, n・freqijの何れかを代入しても良い。
c・freqij を用いた場合、w(d,t)=K+(1−K)・(freqij /max・freq)・idf(t)となり、一方、 n・freqijを用いた場合、w(d,t)=[log(freqij +1)/loglength]・idf(t) などとなる。
続いて、要約処理の実例を示す。以下のように4段落からなる文章において、前述した手法によって要約強度を設定したとする。
[段落1] 要約強度 -弱
人の手を借りて「政敵」を追い出してもらってきたボスザル(オス、推定20歳)が、ボス就任18年目をゆったり過ごしている。静岡県浜松市の市動物園のサル山に君臨する「信長」で、老境に差しかかりながらいまのところ歯が立つ相手はおらず、数年単位でボスが代わる野生では考えられない長期政権になっている。
[段落2] 要約強度 -強
浜松市動物園には現在、24頭のニホンザルがいる。信長は群を抜いて体格が良く、しっぽを立てて歩く姿に風格が漂う。信長が来園したのは1983年2月。動物園の移転を2カ月後に控え、全国から2―4歳の子ザル約30頭が集められた。集団に序列はなかったが、しばらくしてボス候補に成長した信長は、体格のいいメス2頭と主導権争いを始めた。信長は形勢不利になると、手下を連れて2度もサル山から脱走した。
[段落3] 要約強度 - 強
動物園は「訪れる人たちにサル同士の殺し合いや、傷ついた姿を見せたくない」との配慮から、宿敵のメス2頭をほかの動物園に出してまで信長をボスにした。自力で政権を奪い取ったのではなく、しかも手本となる先輩ザルがいなかったせいか、信長はトビがえさを目がけて急降下すると真っ先に逃げるほど、だらしない。半面、けんかの仲裁などで力強さを見せることもあり、メスからの支持は厚い。年に4、5頭生まれる子ザルの大半は信長の子だという。
[段落4] 要約強度 - 弱
次のボス候補は推定10歳のリュウ。だが、メスザルに人気がなく、信長の正妻オノウよりも序列は低い。飼育係の杉浦正樹さん(25)は「信長が生きている間はボス交代はないかも。少なくとも1、2年は安泰」とみている。
要約処理をした場合、例えば、次のように要約される。なお、要約強度の後の数値は要約率の閾値を示しており、その後の括弧書きは実際の要約率を示している。
[段落1] 要約強度 -弱 80%(83%)
人の手を借りてきたボスザルが、ボス就任18年目をゆったり過ごしている。静岡県浜松市の市動物園のサル山に君臨する「信長」で、老境に差しかかりながらいまのところ歯が立つ相手はいない、数年単位でボスが代わる野生では考えられない長期政権になっている。
[段落2] 要約強度 -強 30%(55%)
浜松市動物園には現在、24頭のニホンザルがいる。信長は抜きんでて体格が良く、しっぽを立てて歩く姿に風格が漂う。集団に序列はなかったが、しばらくしてボス候補に成長した信長は、体格のいいメス2頭と主導権争いを始めた。
[段落3] 要約強度 - 強 30% (64%)
動物園は「訪れる人たちにサル同士の殺し合いや、傷ついた姿を見せたくない」との配慮から、宿敵のメス2頭をほかの動物園に出してまで信長をボスにした。半面、けんかの仲裁などで力強さを見せることもあり、メスからの支持は厚い。年に4、5頭生まれる子ザルの大半は信長の子だという。
[段落4] 要約強度 - 弱 80%(82%)
次のボス候補は推定10才のリュウ。だが、メスザルに不人気で、信長の正妻オノウよりも序列は低い。飼育係の杉浦正樹さん(25)は「信長が生きているあいだのボス交代はないかも。
以上のように、本実施形態に係る文書出力装置によれば、重要度に応じて段落毎に初期要約率と要約率閾値を設定し、段落毎に異なる要約率で文章の要約を生成することとした。このため、重要度の高い段落では、大きい要約率で要約を生成することにより、原文の情報量やイメージを維持することができるとともに、重要度の低い段落では、小さい要約率で要約を生成することにより、出力制約条件で定められた領域に、出力する文書を収めることができるようになる。
また、このような要約処理をするに先立ち、文章に含まれる自立語を、より文字数の少ない異表記に置き換えることにより、文章を短くすることとしたので、原文の情報量を保持したまま文章を短くすることができる。
同様に、このような要約処理をするに先立ち、文章に含まれる自立語を、より文字数の少ない同義語に置き換えることにより、文章を短くすることとしたので、原文の情報量を保持したまま文章を短くすることができる。
なお、本発明は上記実施形態に限定されず種々に変形可能である。例えば、出力対象文書の構造化文書は、HTMLに限るものではなく、他の形式の構造化文章であってもよい。また、文章を要約する手法は、上述の例に限らず、種々の手法を用いることができる。
さらに、上述した実施形態では、ハードウェアにより各種の処理を実現する例を説明したが、ソフトウェアによりその一部の処理或いは全部の処理を実現することもできる。
この場合、ソフトウェアで実現する各処理については、これら各処理を実行するためのプログラムをフレキシブルディスク、CD−ROM(Compact Disc-Read Only Memory)、ROM、メモリカード等の記録媒体に記録して、記録媒体の形で頒布することが可能である。この場合、このプログラムが記録された記録媒体を文書出力装置に読み込ませ、実行させることにより、上述した実施形態を実現することができる。
また、文書出力装置は、オペレーティングシステムや別のアプリケーションプログラム等の他のプログラムを備える場合がある。この場合、文書出力装置の備える他のプログラムを活用し、記録媒体にはその文書出力装置が備えるプログラムの中から、上述した実施形態と同等の処理を実現するプログラムを呼び出すような命令を記録するようにしてもよい。
さらに、このようなプログラムは、記録媒体の形ではなく、ネットワークを通じて搬送波として頒布することも可能である。ネットワーク上を搬送波の形で伝送されたプログラムは、文書出力装置に取り込まれて、このプログラムを実行することにより上述した実施形態を実現することができる。
また、記録媒体にプログラムを記録する際や、ネットワーク上を搬送波として伝送される際に、プログラムの暗号化や圧縮化がなされている場合がある。この場合には、これら記録媒体や搬送波からプログラムを読み込んだ文書出力装置は、そのプログラムの復号や伸張化を行った上で、実行する必要がある。
本実施形態に係る文書出力装置の構成を説明するブロック図。 本実施形態に係る文書出力装置が実行する出力処理を説明するフローチャートを示す図。 本実施形態に係る文書出力装置が実行する文書縮小処理を説明するフローチャートを示す図。 本実施形態に係る文書出力装置が実行する異表記処理を説明するフローチャートを示す図。 本実施形態に係る異表記処理の実例を説明するための図。 本実施形態に係る文書出力装置が実行する同義語処理を説明するフローチャートを示す図。 本実施形態に係る同義語処理の実例を説明するための図。 階層化されている段落の構成を説明する図。 本実施形態に係る文書出力装置が実行する文章要約処理を説明するフローチャートを示す図。
符号の説明
10 出力量解析部
20 要約率評価部
30 形態素解析部
40 文章解析縮小部
50 文章出力部
60 自立語解析変換部
70 要約文出力部
80 文ベクトル生成比較部

Claims (4)

  1. タグを用いて文書構造が定義された構造化文書が入力される、文章入力部と、
    前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断する、判断部と、
    前記判断部で出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小し、出力用文章を生成する、縮小部と、
    前記縮小部で生成した出力用文章を出力する、出力部と、
    を備える文書出力装置であって、
    前記縮小部は、
    前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定する、要約率設定部と、
    前記要約率設定部で設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力する、要約部と、
    を備えるとともに、
    前記要約率設定部では、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
    ことを特徴とする文書出力装置。
  2. 前記構造化文書に含まれる文章の自立語を、より文字数の少ない異表記に置き換えることにより、文章を短くする、異表記処理部をさらに備えることを特徴とする請求項1に記載の文書出力装置。
  3. 前記構造化文書に含まれる文章の自立語を、より文字数の少ない同義語に置き換えることにより、文章を短くする、同義語処理部をさらに備えることを特徴とする請求項1又は請求項2に記載の文書出力装置。
  4. タグを用いて文書構造が定義された構造化文書が入力されるステップと、
    前記構造化文書をそのまま出力した場合に、出力制約条件で定められた領域に収まるかどうかを判断するステップと、
    出力制約条件に定められた領域に収まらないと判断した場合に、前記構造化文書に含まれる文章を縮小して、出力用文章を生成するステップと、
    前記生成した出力用文章を出力するステップと、
    を備える文書出力装置の制御方法であって、
    前記文章を縮小して、出力用文書を生成するステップは、前記文書構造を定義しているタグを用いて前記構造化文書を解析して、重要度に応じて段落毎に初期要約率と要約率閾値とを設定するステップと、
    前記設定した初期要約率に基づいて、各段落の要約処理を行い、前記出力制約条件に定められた領域に収まらない場合には、重要度の低い段落から、要約率を前記要約率閾値に至るまで段階的に小さくし、前記出力制約条件に定められた領域に収まった場合には、これを出力用文章として、前記出力部に出力するステップと、
    を備えるとともに、
    前記初期要約率と前記要約率閾値とを設定するステップでは、前記構造化文書の解析の結果、前記構造化文書の段落が階層化されている場合には、階層の上位の段落ほど重要度を高くして、要約率閾値を大きく設定し、前記構造化文書の段落が階層化されていない場合には、文章から特徴語を抽出し、この特徴語に基づいて段落の重要度を設定して、重要度の高い段落ほど前記要約率閾値を大きくする、
    ことを特徴とする文書出力装置の制御方法。
JP2004067660A 2004-03-10 2004-03-10 文書出力装置及びその制御方法 Expired - Fee Related JP4572321B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004067660A JP4572321B2 (ja) 2004-03-10 2004-03-10 文書出力装置及びその制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004067660A JP4572321B2 (ja) 2004-03-10 2004-03-10 文書出力装置及びその制御方法

Publications (2)

Publication Number Publication Date
JP2005258676A JP2005258676A (ja) 2005-09-22
JP4572321B2 true JP4572321B2 (ja) 2010-11-04

Family

ID=35084344

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004067660A Expired - Fee Related JP4572321B2 (ja) 2004-03-10 2004-03-10 文書出力装置及びその制御方法

Country Status (1)

Country Link
JP (1) JP4572321B2 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008171302A (ja) * 2007-01-15 2008-07-24 Nippon Telegr & Teleph Corp <Ntt> アウトライン生成装置、アウトライン生成方法およびアウトライン生成プログラム
JP5104642B2 (ja) * 2008-08-13 2012-12-19 富士通株式会社 データ閲覧管理システム
JP5317638B2 (ja) * 2008-11-13 2013-10-16 日本電信電話株式会社 Web文書主要コンテンツ抽出装置及びプログラム
JP5884814B2 (ja) * 2013-11-27 2016-03-15 カシオ計算機株式会社 表示処理装置及びプログラム
JP6516650B2 (ja) * 2015-10-13 2019-05-22 三菱電機株式会社 文書出力制御装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
JPH0944497A (ja) * 1995-07-28 1997-02-14 Maruzen Kk タイトル文作成装置
JP2000099536A (ja) * 1998-09-24 2000-04-07 Nippon Hoso Kyokai <Nhk> 自動要約装置および自動要約プログラムを記録した記録媒体
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2001184352A (ja) * 1999-12-27 2001-07-06 Dainippon Screen Mfg Co Ltd 要約文自動作成装置および記録媒体
JP2002032364A (ja) * 2000-07-14 2002-01-31 Ricoh Co Ltd 文書情報処理方法、文書情報処理装置及び記録媒体
JP2002259112A (ja) * 2001-02-15 2002-09-13 Internatl Business Mach Corp <Ibm> デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体
JP2003141027A (ja) * 2001-10-31 2003-05-16 Toshiba Corp 要約作成方法および要約作成支援装置およびプログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07129605A (ja) * 1993-09-13 1995-05-19 Toshiba Corp 文書検索装置
JPH0944497A (ja) * 1995-07-28 1997-02-14 Maruzen Kk タイトル文作成装置
JP2000099536A (ja) * 1998-09-24 2000-04-07 Nippon Hoso Kyokai <Nhk> 自動要約装置および自動要約プログラムを記録した記録媒体
JP2001052032A (ja) * 1999-05-28 2001-02-23 Nippon Telegr & Teleph Corp <Ntt> 要約文作成方法及び装置及び要約文作成プログラムを格納した記憶媒体
JP2001184352A (ja) * 1999-12-27 2001-07-06 Dainippon Screen Mfg Co Ltd 要約文自動作成装置および記録媒体
JP2002032364A (ja) * 2000-07-14 2002-01-31 Ricoh Co Ltd 文書情報処理方法、文書情報処理装置及び記録媒体
JP2002259112A (ja) * 2001-02-15 2002-09-13 Internatl Business Mach Corp <Ibm> デジタル文書閲覧システム、ブラウザ、文章要約システム、デジタル文書表示方法、文章要約方法、プログラム及び記憶媒体
JP2003141027A (ja) * 2001-10-31 2003-05-16 Toshiba Corp 要約作成方法および要約作成支援装置およびプログラム

Also Published As

Publication number Publication date
JP2005258676A (ja) 2005-09-22

Similar Documents

Publication Publication Date Title
Cohn et al. Sentence compression beyond word deletion
US6199103B1 (en) Electronic mail determination method and system and storage medium
Im Walde Experiments on the automatic induction of German semantic verb classes
US7979370B1 (en) Neural network for electronic search applications
JP6466952B2 (ja) 文章生成システム
Azmi et al. A text summarizer for Arabic
JP2015057716A (ja) インターネットコーパスを用いた、文脈依存言語の自動的な修正および改善
CN110069636B (zh) 融合依存关系与篇章修辞关系的事件时序关系识别方法
JP2000514218A (ja) コンピュータシステムによる日本語テキストの単語の識別
Adler Hebrew morphological disambiguation: An unsupervised stochastic word-based approach
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
CN110889292B (zh) 一种基于句义结构模型的文本数据生成观点摘要的方法及系统
JP4572321B2 (ja) 文書出力装置及びその制御方法
US20060116861A1 (en) Systems and methods for user-interest sensitive note-taking
Hawwari et al. A framework for the classification and annotation of multiword expressions in dialectal arabic
Sobh et al. An optimized dual classification system for Arabic extractive generic text summarization
CN112818711A (zh) 一种翻译科技文献中一词多义的专业术语的机器翻译方法
JP3879324B2 (ja) 文書要約装置、文書要約方法及び記録媒体
US20060116860A1 (en) Systems and methods for user-interest sensitive condensation
Hachey et al. Sentence classification experiments for legal text summarisation
CN111274384A (zh) 一种文本标注方法及其设备、计算机存储介质
Arens Using Language and Context in the Analysis of Text.
WO2021042234A1 (zh) 应用程序的介绍方法、移动终端及服务器
Schweiger Suffixaufnahme and related case marking patterns in Australian languages
JP2001184352A (ja) 要約文自動作成装置および記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070306

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20090909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090925

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091118

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100112

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100416

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100507

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100713

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100726

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130827

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees