JP2014112315A

JP2014112315A - 要約生成装置及び要約生成方法

Info

Publication number: JP2014112315A
Application number: JP2012266581A
Authority: JP
Inventors: Tsuyoshi Kato; 剛志加藤
Original assignee: NTT Docomo Inc
Current assignee: NTT Docomo Inc
Priority date: 2012-12-05
Filing date: 2012-12-05
Publication date: 2014-06-19
Anticipated expiration: 2032-12-05
Also published as: JP5969908B2

Abstract

【課題】文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供する。
【解決手段】インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。
【選択図】図１

Description

本発明は、文章の要約として適切な要約文の抽出が可能な要約生成装置及び当該要約生成装置が行う要約生成方法に関する。

従来、文章を解析処理して、文章の内容を容易に把握するための要約文を得る技術が提案されている。例えば特許文献１に記載の文章要約装置では、文章の書かれた意図、目的等による特別な要素を予め選択基準として設定しておき、文章を構文解析して得られた情報をこの選択基準と照合比較して、重要と思われるものを要約文として抽出選択している。

また、例えば特許文献２に記載の要約文章生成装置では、直前の行よりも短い行が現われた場合には、その直前の行を要約文章の始まりとして、要約文章を作成している。これにより、処理時間を短くしている。

更に、例えば特許文献３に記載のテキスト要約装置では、まず、テキストを単語に切り分けて、テキスト中の単語から部分単語列を生成する。次に、この装置では、その部分単語列に含まれる連続したＮ個の単語に対して、Ｎ個の単語が連続して出現する確率を付与する。そして、この装置では、部分単語列の要約文確率を算出して、複数の部分単語列の中から要約文確率が最も高い部分単語列を要約文として決定している。

特開平２−２９７１５７号公報特開平１０−３０７８２１号公報特開２００４−３４８５６６号公報

特許文献１に記載の文章要約装置では、選択基準を用いて要約文を抽出選択している。しかしながら、選択基準の設定内容によっては、抽出選択された要約文が適切なものでない可能性がある。

また、特許文献２に記載の要約文章生成装置では、直前の行よりも短い行が現われた場合には、その直前の行を要約文章の始まりとして要約文章を作成している。しかしながら、本来、要約文章は行の長短に関わらないものであるため、作成された要約文章が適切なものでない可能性がある。

更に、特許文献３に記載のテキスト要約装置では、Ｎ個の単語が連続して出現する確率を、テーブルを参照して得ている。しかしながら、テーブルの内容によっては、決定された要約文が適切なものでない可能性がある。

そこで本発明は、前述した問題点を解消する為になされたものであり、文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供することを目的とする。

本発明の一形態に係る要約生成装置は、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を取得する取得手段と、取得手段により取得されたコメント情報に対する分解処理を行って複数のワード情報を取得するワード分解手段と、取得手段により取得された文章情報に対する分解処理を行って複数のセンテンス情報を取得するセンテンス分解手段と、センテンス分解手段により取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出する抽出手段と、を備えることを特徴とする。

本発明の一形態に係る要約生成装置によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、文章の要約として適切な要約文の抽出が可能になる。

別の形態に係る要約生成装置では、取得手段は、コメント情報に含まれるサイト情報から、サイトのＵＲＬ以外の文字列を削除する処理を行い、当該処理後のサイト情報におけるＵＲＬに対応するサイトにおける文章情報を取得してもよい。

この形態では、コメント情報に含まれるサイト情報から、サイトのＵＲＬ以外の文字列を削除する処理が行われ、当該処理後のサイト情報におけるＵＲＬに対応するサイトにおける文章情報が取得される。このため、サイト情報におけるＵＲＬに対応するサイトにおける文章情報をより確実に取得することが可能になる。

別の形態に係る要約生成装置では、センテンス分解手段により取得された複数のセンテンス情報を、文章情報に対応するサイトのＵＲＬと対応付けて記憶するセンテンス記憶手段を更に備え、抽出手段は、センテンス記憶手段により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、センテンス記憶手段により記憶されたＵＲＬに対応するサイトの要約として抽出してもよい。

この形態では、センテンス記憶手段により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数が最多となるセンテンス情報が、センテンス記憶手段により記憶されたＵＲＬに対応するサイトの要約として抽出される。このため、センテンス記憶手段により記憶されたＵＲＬに対応するサイトの要約を抽出することが可能になる。

別の形態に係る要約生成装置では、センテンス記憶手段により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数をカウントするカウント手段を更に備え、抽出手段は、センテンス記憶手段により記憶された複数のセンテンス情報から、カウント手段によりカウントされた出現回数が最多となるセンテンス情報を、要約として抽出してもよい。

この形態では、センテンス記憶手段により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数がカウントされ、センテンス記憶手段により記憶された複数のセンテンス情報から、カウントされた出現回数が最多となるセンテンス情報が、要約として抽出される。このため、各ワード情報の出現回数をカウントした上で、カウントされた出現回数が最多となるセンテンス情報を要約として抽出することが可能になる。

別の形態に係る要約生成装置では、カウント手段は、ワード分解手段により取得された各ワード情報を品詞毎に分類し、カウントに用いるワード情報を当該分類結果に基づいて選択してカウントしてもよい。

この形態では、取得された各ワード情報が品詞毎に分類され、カウントに用いるワード情報が当該分類結果に基づいて選択されてカウントされる。このため、カウントに用いるワード情報を、品詞毎の分類結果に基づいて選択することが可能になる。

別の形態に係る要約生成装置では、カウント手段は、ワード分解手段により取得された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントしてもよい。

この形態では、取得された各ワード情報が品詞毎に分類され、各ワード情報に対して当該分類結果に基づいて重み付けが行われてカウントされる。このため、カウントに用いるワード情報に対して、品詞毎の分類結果に基づいて重み付けを行ってカウントすることが可能になる。

本発明の一形態に係る要約生成方法は、要約生成装置が行う要約生成方法であって、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を要約生成装置が取得する取得ステップと、取得ステップにより取得されたコメント情報に対する分解処理を要約生成装置が行って複数のワード情報を取得するワード分解ステップと、取得ステップにより取得された文章情報に対する分解処理を要約生成装置が行って複数のセンテンス情報を取得するセンテンス分解ステップと、センテンス分解ステップにより取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解ステップにより取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として要約生成装置が抽出する抽出ステップと、を有することを特徴とする。

本発明の一形態に係る要約生成方法によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、文章の要約として適切な要約文の抽出が可能になる。

本発明によれば、文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供することができる。

特徴文出力装置の主な機能構成の概略を説明するための機能ブロック図である。特徴文出力装置の主な物理構成の概略を説明するための物理構成図である。コメント文記憶部のテーブル構成例を示すテーブル構成図である。ワード記憶部のテーブル構成例を示すテーブル構成図である。文章記憶部のテーブル構成例を示すテーブル構成図である。センテンス記憶部のテーブル構成例を示すテーブル構成図である。センテンス出力部のデータ出力例を示すデータ構成図である。ワード登録処理の流れを説明するためのフローチャートである。センテンス登録処理の流れを説明するためのフローチャートである。特徴文抽出処理の流れを説明するためのフローチャートである。ワード記憶部のテーブル構成例の変形例を示すテーブル構成図である。

以下、添付図面を参照しながら本発明の好適な実施形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明を省略する。

（１）要約生成装置の構成
まず、本実施形態に係る要約生成装置としての特徴文出力装置全体の構成について、図１及び図２を用いて説明する。図１は、特徴文出力装置１００の主な機能構成の概略を説明するための機能ブロック図であり、図２は、特徴文出力装置１００の主な物理構成の概略を説明するための物理構成図である。スマートフォンやノートパソコン等の通信端末のユーザは、例えばtwitter（登録商標）等の短文投稿サービス、Facebook（登録商標）等のＳＮＳ（Social Networking Service）を用いて、種々のコメント等の情報を発信することが可能である。ユーザが発信したコメント情報は、インターネットにおいて開示され閲覧可能となる。インターネットにおいて開示されたコメント情報において、特定のサイト等に関するサイト情報（例えば、ニュース、ブログ等のサイトのＵＲＬ）が言及されることがある。本実施形態に係る特徴文出力装置１００は、このコメント情報を収集し、言及されたサイトにおける文章の要約を生成して外部に出力するサーバ装置である。

特徴文出力装置１００は、図２に示されるように、主な物理的な構成要素としてＣＰＵ１１、主記憶装置であるＲＡＭ１２（Random Access Memory）及びＲＯＭ１３（Read Only Memory）、通信を行うための通信モジュール１４、並びにハードディスク等の補助記憶装置１５等のハードウェアを備えるコンピュータとして構成される。なお、主記憶装置は、ＲＡＭ、ＲＯＭといったものに限定されず、例えばフラッシュメモリといった主記憶装置の役割を果たすものに置き換えてもよい。特徴文出力装置１００は、上記の記憶装置に記憶されたプログラムにおける命令によって、これらの構成要素が動作することにより、各種処理を実行する機能が発揮される。

特徴文出力装置１００は、図１に示されるように、主な機能的な構成要素として、情報収集部１０１（取得手段）、コメント文記憶部１０２（取得手段）、ワード分解部１０３（ワード分解手段）、ワード記憶部１０４（ワード記憶手段）、文章記憶部１０５（取得手段）、センテンス分解部１０６（センテンス分解手段）、センテンス記憶部１０７（センテンス記憶手段）、注目度判定部１０８（カウント手段及び抽出手段）、及びセンテンス出力部１０９（抽出手段）を有している。なお、特徴文出力装置１００における各機能は、単一のサーバ装置内に配置されていなくてもよく、物理的な構成は限定されない。各機能が、ＬＡＮ（Local Area Network）やインターネットで接続された別個のサーバ装置内に配置されていてもよい。

情報収集部１０１は、インターネットにおいて開示されたコメント情報を、通信ネットワーク網ＮＷを介して取得・収集する通信処理部分である。コメント情報とは、例えば、上記の複数のユーザからの、特定の対象に対する評判、感想、コメント文等を示す情報である。通信ネットワーク網ＮＷは、公衆通信網、専用線、同一物理装置内の通信バス等の組み合わせであってもよく、これらの物理的な配置は限定されない。情報収集部１０１は、例えば、twitter（登録商標）等の短文投稿サービスにおける特定のユーザ（ニュース、企業等を含む）のアカウントを複数フォローしておくことにより得られる、当該ユーザに対する他のユーザからのリツイート（返信）をコメント情報として取得してもよい。同様に、情報収集部１０１は、例えば、Facebook（登録商標）等のＳＮＳ（Social Networking Service）におけるユーザの投稿をコメント情報として取得してもよい。

そして、情報収集部１０１は、取得・収集したコメント情報に基づいて、当該コメント情報に含まれるサイト情報（例えば、ニュース、ブログ等のサイトのＵＲＬ）と、当該サイト情報に対応するサイトにおいて開示された説明文等の文章情報とを、通信ネットワーク網ＮＷを介して取得・収集する。サイト情報とは、例えば、特定のサイトのＵＲＬ、特定のサイトを検索するために必要な検索キーワード等を示す情報である。文章情報とは、例えば、当該特定のサイトに存在するコンテンツとなる文章等を示す情報である。

なお、情報収集部１０１は、コメント情報に含まれるサイト情報から、サイトのＵＲＬ以外の文字列（例えば、サイトのタイトル、サイトの文章の一部等の、コメント情報の生成時に短文投稿サービス及びＳＮＳ等によって自動的に追加された文字列）を削除する処理を行うことが可能である。この場合、情報収集部１０１は、削除処理後のサイト情報におけるＵＲＬに対応するサイトにおける文章情報を取得する。

コメント文記憶部１０２は、情報収集部１０１によって取得・収集されたコメント情報を、当該コメント情報に含まれるサイト情報と対応付けて記憶・保持するデータベース機能部分である。コメント文記憶部１０２は、例えば図３に示されるように、情報収集部１０１によって取得・収集されたコメント情報における「コメント文」を、当該コメント情報に含まれるサイト情報である「サイトＵＲＬ」と対応付けて記憶・保持する。

一例として、「コメント文」を一意に識別する「ＩＤ」である「ＸＸＸＸＸ１」と、「サイトＵＲＬ」である「http://xxxxx」と、「コメント文」である「スカイツリー（登録商標）はやはり高い。スカイツリータウン（登録商標）も面白そうだな。スカイツリー（登録商標）に行く。」とが対応付けられている。

ワード分解部１０３は、コメント文記憶部１０２に記憶・保持されたコメント情報に対する第一の分解処理（形態素解析処理）を行って、複数のワード情報に分解して当該複数のワード情報を取得する解析処理部分である。ワード情報とは、名詞（固有名詞を含む）、助詞、副詞、形容詞、形容動詞等の、品詞の最小単位である。

一例として、「コメント文」が「スカイツリー（登録商標）はやはり高い。スカイツリータウン（登録商標）も面白そうだな。スカイツリー（登録商標）に行く。」である場合、「スカイツリー（登録商標）」、「は」、「やはり」、「高い」、「スカイツリータウン（登録商標）」、「も」、「面白そうだ」、及び「な」、「スカイツリータウン（登録商標）」、「に」、「行く」という十二のワード情報に分解される。

ワード記憶部１０４は、ワード分解部１０３が取得した複数のワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報と対応付けて記憶・保持するデータベース機能部分である。ワード記憶部１０４は、例えば図４に示されるように、ワード分解部１０３によって取得されたワード情報である「ワード」を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報である「サイトＵＲＬ」と対応付けて記憶・保持する。

一例として、「コメント文」を一意に識別する「ＩＤ」である「ＸＸＸＸＸ１」と、「サイトＵＲＬ」である「http://xxxxx」と、「ワード」である「スカイツリー（登録商標）」とが対応付けられている。なお、ワード分解部１０３によってワード情報が取得される度に当該ワード情報がワード記憶部１０４に記憶・保持されるため、図４に示されるように、「ＸＸＸＸＸ１」という同一の「ＩＤ」について「スカイツリー（登録商標）」という「ワード」が複数回、記憶・保持されることもある。ワード記憶部１０４により、特定のサイトのＵＲＬに対するコメント情報に含まれるワード情報の一覧を抽出・出力することが可能になる。

文章記憶部１０５は、情報収集部１０１によって取得・収集されたサイト情報を、当該サイト情報に対応するサイトにおける文章情報と対応付けて記憶・保持するデータベース機能部分である。文章記憶部１０５は、例えば図５に示されるように、情報収集部１０１によって取得・収集されたサイト情報である「サイトＵＲＬ」を、当該サイト情報に対応するサイトにおける文章情報である「文章」と対応付けて記憶・保持する。

一例として、「サイトＵＲＬ」を一意に識別する「ＩＤ」である「ＸＸＸＸＸ１」と、「サイトＵＲＬ」である「http://xxxxx」と、「文章」である「本日スカイツリー（登録商標）がオープンし・・・。当面、入場券は予約販売・・・。・・・。」とが対応付けられている。

センテンス分解部１０６は、文章記憶部１０５に記憶・保持された文章情報に対する第二の分解処理（例えば、句点、改行コード等を区切り位置とする文章分解処理）を行って、複数のセンテンス情報に分解して当該複数のセンテンス情報を取得する解析処理部分である。センテンス情報とは、一つのセンテンス（文）を表す情報である。

一例として、「文章」が「本日スカイツリー（登録商標）がオープンし・・・。当面、入場券は予約販売・・・。・・・。」である場合、「本日スカイツリー（登録商標）がオープンし・・・」、「当面、入場券は予約販売・・・」、及び「・・・」という三つのセンテンス情報に分解される。

センテンス記憶部１０７は、センテンス分解部１０６によって取得された複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬと対応付けて記憶・保持するデータベース機能部分である。センテンス記憶部１０７は、例えば図６に示されるように、センテンス分解部１０６によって取得されたセンテンス情報である「センテンス」を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬである「サイトＵＲＬ」と対応付けて記憶・保持する。

一例として、「サイトＵＲＬ」を一意に識別する「ＩＤ」である「ＸＸＸＸＸ１」と、「サイトＵＲＬ」である「http://xxxxx」と、「センテンス」である「本日スカイツリー（登録商標）がオープンし・・・」とが対応付けられている。センテンス記憶部１０７により、インターネット上でコメント情報により言及されているサイトのＵＲＬにおいて記載された文章情報の中のセンテンス情報の一覧を抽出・出力することが可能となる。

注目度判定部１０８は、センテンス記憶部１０７により記憶・保持された複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数をカウントする計数処理部分である。まず、注目度判定部１０８は、ワード記憶部１０４から、特定のサイト情報に紐付けられた（対応付けられた）各ワード情報（例：図４における上から一つ目の「スカイツリー（登録商標）」）を、上述の第一の分解処理前の元のコメント情報に含まれるサイトのＵＲＬ（例：「http://xxxxx」）と対応付けて取得する。

そして、注目度判定部１０８は、センテンス記憶部１０７から、同一の特定のサイトのＵＲＬ（例：「http://xxxxx」）に紐付けられた（対応付けられた）複数のセンテンス情報（例：「本日スカイツリー（登録商標）がオープンし・・・」及び「当面、入場券は予約販売・・・」）を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬ（例：「http://xxxxx」）と対応付けて取得する。次に、注目度判定部１０８は、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報（例：「スカイツリー（登録商標）」）の出現回数を、同一の特定のサイト情報毎にカウントする。「本日スカイツリー（登録商標）がオープンし・・・」における出現回数は「１回」であり、「当面、入場券は予約販売・・・」における出現回数は「３回」であったとする。

なお、注目度判定部１０８によって、ワード記憶部１０４から、図４における上から二つ目の「スカイツリー（登録商標）」が、上述の第一の分解処理前の元のコメント情報に含まれるサイトのＵＲＬ（例：「http://xxxxx」）と対応付けて取得される処理も、行われる。この場合、注目度判定部１０８は、取得した複数のセンテンス情報のそれぞれに出現する、取得した図４における上から二つ目の「スカイツリー（登録商標）」の出現回数を、同一の特定のサイト情報毎にカウントし、上述の結果との総計を算出する演算処理を行う。すなわち、上述の結果と併せて、「本日スカイツリー（登録商標）がオープンし・・・」における出現回数が１回から２回に倍増し、且つ、「当面、入場券は予約販売・・・」における出現回数が３回から６回に倍増することになる。

なお、注目度判定部１０８は、ワード記憶部１０４により記憶・保持された各ワード情報を品詞毎に分類し、上記のカウントに用いるワード情報を当該分類結果に基づいて選択・特定してカウントすることが可能である。より詳しくは、注目度判定部１０８は、上記のカウントに用いるワード情報の中から特定の品詞（例：名詞、形容詞、動詞）であるワード情報のみを選択・特定して、上記のカウント処理に用いてもよい。

更に、注目度判定部１０８は、ワード記憶部１０４により記憶・保持された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントすることも可能である。より詳しくは、注目度判定部１０８は、上記のカウントに用いるワード情報のうち名詞であるワード情報が１回出現した場合にのみ、１回出現したとカウントするのではなく１より大きい回数（例えば１．５回）出現したとして重み付けによる傾斜を付けて、上記のカウント処理に用いてもよい。

センテンス出力部１０９は、センテンス記憶部１０７により記憶・保持された複数のセンテンス情報から、（注目度判定部１０８によってカウントされた）各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出して外部出力する通信処理部分である。上記の例において、センテンス出力部１０９は、取得されたワード情報（例：「スカイツリー（登録商標）」）の出現回数が多い方のセンテンス情報である「当面、入場券は予約販売・・・」を、要約として抽出する。

なお、センテンス出力部１０９は、抽出された要約としてのセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬと対応付けて、要約受信サービスの実施が許可されたスマートフォンやノートパソコン等の通信端末に送信することが可能である。センテンス出力部１０９は、例えば図７に示されるように、抽出された要約としてのセンテンス情報である「出力センテンス」を、センテンス記憶部１０７により記憶・保持されたＵＲＬである「サイトＵＲＬ」と対応付けて外部出力する。

一例として、「サイトＵＲＬ」を一意に識別する「ＩＤ」である「ＸＸＸＸＸ１」と、「サイトＵＲＬ」である「http://xxxxx」と、「出力センテンス」である「当面、入場券は予約販売・・・」とが対応付けられている。これにより、センテンス出力部１０９は、センテンス記憶部１０７により記憶・保持された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報を、センテンス記憶部１０７により記憶・保持されたＵＲＬに対応するサイトの要約として抽出することが可能である。

（２）情報収集部１０１、コメント文記憶部１０２、ワード分解部１０３、及びワード記憶部１０４によるワード登録処理の流れ
引き続き、情報収集部１０１、コメント文記憶部１０２、ワード分解部１０３、及びワード記憶部１０４によるワード登録処理の流れについて、図８を用いて説明する。図８は、このワード登録処理の流れを説明するためのフローチャートである。このワード登録処理は、例えば３時間毎といったように所定時間毎に行われてもよい。

まず、情報収集部１０１が、twitter（登録商標）等の短文投稿サービス、Facebook（登録商標）等のＳＮＳ（SocialNetworking Service、社会的ネットワークサービス）を用いてインターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報と、当該サイト情報に対応するサイトにおける文章情報とを、通信ネットワーク網ＮＷを介して取得・収集する（ステップＳ０１、取得ステップ）。そして、コメント文記憶部１０２が、情報収集部１０１によって取得・収集されたコメント情報を、当該コメント情報に含まれるサイト情報と対応付けて記憶・保持する（ステップＳ０１、取得ステップ）。なお、情報収集部１０１は、コメント情報に含まれるサイト情報から、サイトのＵＲＬ以外の文字列（例えば、サイトのタイトル、サイトの文章の一部等の、コメント情報の生成時に自動的に追加された文字列）を削除する処理を行うことが可能である。この場合、情報収集部１０１は、削除処理後のサイト情報におけるＵＲＬに対応するサイトにおける文章情報を取得する。

次に、ワード分解部１０３が、コメント文記憶部１０２に記憶・保持されたコメント情報に対する第一の分解処理（形態素解析処理）を行って、複数のワード情報に分解して当該複数のワード情報を取得する（ステップＳ０２、ワード分解ステップ）。そして、ワード記憶部１０４が、ワード分解部１０３が取得した複数のワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報と対応付けて記憶・保持する（ステップＳ０２、ワード分解ステップ）。

（３）情報収集部１０１、文章記憶部１０５、センテンス分解部１０６、及びセンテンス記憶部１０７によるセンテンス登録処理の流れ
引き続き、情報収集部１０１、文章記憶部１０５、センテンス分解部１０６、及びセンテンス記憶部１０７によるセンテンス登録処理の流れについて、図９を用いて説明する。図９は、このセンテンス登録処理の流れを説明するためのフローチャートである。このセンテンス登録処理は、例えば３時間毎といったように所定時間毎に行われてもよい。

まず、情報収集部１０１が、twitter（登録商標）等の短文投稿サービス、Facebook（登録商標）等のＳＮＳ（SocialNetworking Service、社会的ネットワークサービス）を用いてインターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報と、当該サイト情報に対応するサイトにおける文章情報とを、通信ネットワーク網ＮＷを介して取得・収集する（ステップＳ１１、取得ステップ）。そして、文章記憶部１０５が、情報収集部１０１によって取得・収集されたサイト情報を、当該サイト情報に対応するサイトにおける文章情報と対応付けて記憶・保持する（ステップＳ１１、取得ステップ）。

次に、センテンス分解部１０６が、文章記憶部１０５に記憶・保持された文章情報に対する第二の分解処理（例えば、句点、改行コード等を区切り位置とする文章分解処理）を行って、複数のセンテンス情報に分解して当該複数のセンテンス情報を取得する（ステップＳ１２、センテンス分解ステップ）。そして、センテンス記憶部１０７が、センテンス分解部１０６によって取得された複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬと対応付けて記憶・保持する（ステップＳ１２、センテンス分解ステップ）。

（４）注目度判定部１０８及びセンテンス出力部１０９による特徴文抽出処理の流れ
引き続き、注目度判定部１０８及びセンテンス出力部１０９による特徴文抽出処理の流れについて、図１０を用いて説明する。図１０は、この特徴文抽出処理の流れを説明するためのフローチャートである。この特徴文抽出処理は、例えば３時間毎といったように所定時間毎に行われてもよい。

まず、注目度判定部１０８が、ワード記憶部１０４から、特定のサイト情報に紐付けられた（対応付けられた）各ワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイトのＵＲＬと対応付けて取得する（ステップＳ２１、抽出ステップ）。そして、注目度判定部１０８が、センテンス記憶部１０７から、同一の特定のサイト情報に紐付けられた（対応付けられた）複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのＵＲＬと対応付けて取得する（ステップＳ２１、抽出ステップ）。

次に、注目度判定部１０８が、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報の出現回数を、同一の特定のサイト情報毎に紐付けてカウントする（ステップＳ２２、抽出ステップ）。なお、注目度判定部１０８は、ワード記憶部１０４により記憶・保持された各ワード情報を品詞毎に分類し、上記のカウントに用いるワード情報を当該分類結果に基づいて選択・特定してカウントすることが可能である。また、注目度判定部１０８は、ワード記憶部１０４により記憶・保持された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントすることも可能である。

次に、注目度判定部１０８が、取得した複数のセンテンス情報と、取得した各ワード情報の出現回数を示す出現数情報とを、サイトのＵＲＬと対応付けて、センテンス出力部１０９に送信する（ステップＳ２３、抽出ステップ）。そして、センテンス出力部１０９が、センテンス記憶部１０７により記憶・保持された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出して外部出力する（ステップＳ２４、抽出ステップ）。各ワード情報の出現回数が最多となるセンテンス情報は、センテンス記憶部１０７により記憶・保持されたＵＲＬである「サイトＵＲＬ」と対応付けて外部出力される。

（５）本発明による作用及び効果
特徴文出力装置１００によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。

このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、最も注目度が高く、且つ、文章の特徴をよく表す可能性が非常に高い、要約として適切な要約文の抽出が可能になる。

また、特徴文出力装置１００によれば、コメント情報に含まれるサイト情報から、サイトのＵＲＬ以外の文字列を削除する処理が行われ、当該処理後のサイト情報におけるＵＲＬに対応するサイトにおける文章情報が取得される。このため、サイト情報におけるＵＲＬに対応するサイトにおける文章情報をより確実に取得することが可能になる。

また、特徴文出力装置１００によれば、センテンス記憶部１０７により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数が最多となるセンテンス情報が、センテンス記憶部１０７により記憶されたＵＲＬに対応するサイトの要約として抽出される。このため、センテンス記憶部１０７により記憶されたＵＲＬに対応するサイトの要約を抽出することが可能になる。

また、特徴文出力装置１００によれば、センテンス記憶部１０７により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解部１０３により取得された各ワード情報の出現回数がカウントされ、センテンス記憶部１０７により記憶された複数のセンテンス情報から、カウントされた出現回数が最多となるセンテンス情報が、要約として抽出される。このため、各ワード情報の出現回数をカウントした上で、カウントされた出現回数が最多となるセンテンス情報を要約として抽出することが可能になる。

また、特徴文出力装置１００によれば、取得された各ワード情報が品詞毎に分類され、カウントに用いるワード情報が当該分類結果に基づいて選択されてカウントされる。このため、カウントに用いるワード情報を、品詞毎の分類結果に基づいて選択することが可能になる。また、ワード情報が適切に選択される可能性が高くなることから、要約として適切な要約文の抽出がより確実に可能になる。

また、特徴文出力装置１００によれば、取得された各ワード情報が品詞毎に分類され、各ワード情報に対して当該分類結果に基づいて重み付けが行われてカウントされる。このため、カウントに用いるワード情報に対して、品詞毎の分類結果に基づいて重み付けを行ってカウントすることが可能になる。また、ワード情報が適切に選択される可能性が高くなることから、要約として適切な要約文の抽出がより確実に可能になる。

（６）変形例
上記の実施例では、注目度判定部１０８は特定の品詞（例：名詞、形容詞、動詞）であるワード情報のみを選択・特定して上記のカウント処理に用いてもよい、と説明したが、検索キーワードとして短時間のうちに頻繁に用いられた用語をワード情報として上記のカウント処理に用いてもよい。

また、上記の実施例では、ワード登録処理、センテンス登録処理、及び特徴文抽出処理は例えば３時間毎といったように所定時間毎に行われてもよい、と説明したが、情報収集部１０１により取得・収集されたコメント情報の数が急増してピークが現れた場合に（即ち、規定時間あたりのコメント数が規定数以上となった場合に）、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。

更に、情報収集部１０１により取得・収集されたコメント情報が所定数以上となった場合に、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。なお、情報収集部１０１により取得・収集されたコメント情報が所定数未満の場合に、上記の所定時間（例えば３時間）が経過してもワード登録処理、センテンス登録処理、及び特徴文抽出処理を行わず、それより長い時間（例えば４時間）が経過した場合に、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。

また、上記の実施例では、ワード分解部１０３によってワード情報が取得される度に当該ワード情報がワード記憶部１０４に記憶・保持される構成として説明したが、例えば図１１に示されるように、ワード分解部１０３が取得した複数のワード情報のそれぞれが、上述の第一の分解処理前の元のコメント情報に出現する回数の総数である「コメント回数」と、対応付けて記憶・保持される構成としてもよい。

一例として、ワード分解部１０３が取得した「ワード」の一つである「スカイツリー（登録商標）」と、図３における「ＩＤ」が「ＸＸＸＸＸ１」である「コメント文」に当該「ワード」が出現した回数の総数である「２」とが、対応付けられて記憶・保持されている。すなわち、図１１に示されるテーブル構成例は、図４に示されるテーブル構成例を同一の「ワード」に関してマージ（併合）したものである。このような構成の場合、注目度判定部１０８は、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報（例：「スカイツリー（登録商標）」）の出現回数に対して、この「コメント回数」を乗じる演算を行って、同一の特定のサイト情報毎にカウントする。

すなわち、「本日スカイツリー（登録商標）がオープンし・・・」における「スカイツリー（登録商標）」の出現回数は１回であり、「当面、入場券は予約販売・・・」における「スカイツリー（登録商標）」の出現回数は３回であったとする場合、コメント回数が「２」回であるという上述の結果に基づいて、「本日スカイツリー（登録商標）がオープンし・・・」における出現回数が１回から２回に倍増し、且つ、「当面、入場券は予約販売・・・」における出現回数が３回から６回に倍増することになる。

１００…特徴文出力装置、１０１…情報収集部、１０２…コメント文記憶部、１０３…ワード分解部、１０４…ワード記憶部、１０５…文章記憶部、１０６…センテンス分解部、１０７…センテンス記憶部、１０８…注目度判定部、１０９…センテンス出力部、ＮＷ…通信ネットワーク網。

Claims

インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を取得する取得手段と、
前記取得手段により取得された前記コメント情報に対する分解処理を行って複数のワード情報を取得するワード分解手段と、
前記取得手段により取得された前記文章情報に対する分解処理を行って複数のセンテンス情報を取得するセンテンス分解手段と、
前記センテンス分解手段により取得された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出する抽出手段と、
を備える要約生成装置。
前記取得手段は、前記コメント情報に含まれる前記サイト情報から、前記サイトのＵＲＬ以外の文字列を削除する処理を行い、当該処理後のサイト情報におけるＵＲＬに対応するサイトにおける前記文章情報を取得する、請求項１に記載の要約生成装置。
前記センテンス分解手段により取得された前記複数のセンテンス情報を、前記文章情報に対応するサイトのＵＲＬと対応付けて記憶するセンテンス記憶手段を更に備え、
前記抽出手段は、前記センテンス記憶手段により記憶された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、前記センテンス記憶手段により記憶されたＵＲＬに対応するサイトの要約として抽出する、請求項１又は２に記載の要約生成装置。
前記センテンス記憶手段により記憶された前記複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数をカウントするカウント手段を更に備え、
前記抽出手段は、前記センテンス記憶手段により記憶された前記複数のセンテンス情報から、前記カウント手段によりカウントされた前記出現回数が最多となるセンテンス情報を、要約として抽出する、請求項３に記載の要約生成装置。
前記カウント手段は、前記ワード分解手段により取得された各ワード情報を品詞毎に分類し、カウントに用いるワード情報を当該分類結果に基づいて選択してカウントする、請求項４に記載の要約生成装置。
前記カウント手段は、前記ワード分解手段により取得された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントする、請求項４に記載の要約生成装置。
要約生成装置が行う要約生成方法であって、
インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を前記要約生成装置が取得する取得ステップと、
前記取得ステップにより取得された前記コメント情報に対する分解処理を前記要約生成装置が行って複数のワード情報を取得するワード分解ステップと、
前記取得ステップにより取得された前記文章情報に対する分解処理を前記要約生成装置が行って複数のセンテンス情報を取得するセンテンス分解ステップと、
前記センテンス分解ステップにより取得された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解ステップにより取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として前記要約生成装置が抽出する抽出ステップと、
を有する要約生成方法。