JP2014112315A - 要約生成装置及び要約生成方法 - Google Patents

要約生成装置及び要約生成方法 Download PDF

Info

Publication number
JP2014112315A
JP2014112315A JP2012266581A JP2012266581A JP2014112315A JP 2014112315 A JP2014112315 A JP 2014112315A JP 2012266581 A JP2012266581 A JP 2012266581A JP 2012266581 A JP2012266581 A JP 2012266581A JP 2014112315 A JP2014112315 A JP 2014112315A
Authority
JP
Japan
Prior art keywords
information
sentence
word
site
acquired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012266581A
Other languages
English (en)
Other versions
JP5969908B2 (ja
Inventor
Tsuyoshi Kato
剛志 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2012266581A priority Critical patent/JP5969908B2/ja
Publication of JP2014112315A publication Critical patent/JP2014112315A/ja
Application granted granted Critical
Publication of JP5969908B2 publication Critical patent/JP5969908B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供する。
【解決手段】インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。
【選択図】図1

Description

本発明は、文章の要約として適切な要約文の抽出が可能な要約生成装置及び当該要約生成装置が行う要約生成方法に関する。
従来、文章を解析処理して、文章の内容を容易に把握するための要約文を得る技術が提案されている。例えば特許文献1に記載の文章要約装置では、文章の書かれた意図、目的等による特別な要素を予め選択基準として設定しておき、文章を構文解析して得られた情報をこの選択基準と照合比較して、重要と思われるものを要約文として抽出選択している。
また、例えば特許文献2に記載の要約文章生成装置では、直前の行よりも短い行が現われた場合には、その直前の行を要約文章の始まりとして、要約文章を作成している。これにより、処理時間を短くしている。
更に、例えば特許文献3に記載のテキスト要約装置では、まず、テキストを単語に切り分けて、テキスト中の単語から部分単語列を生成する。次に、この装置では、その部分単語列に含まれる連続したN個の単語に対して、N個の単語が連続して出現する確率を付与する。そして、この装置では、部分単語列の要約文確率を算出して、複数の部分単語列の中から要約文確率が最も高い部分単語列を要約文として決定している。
特開平2−297157号公報 特開平10−307821号公報 特開2004−348566号公報
特許文献1に記載の文章要約装置では、選択基準を用いて要約文を抽出選択している。しかしながら、選択基準の設定内容によっては、抽出選択された要約文が適切なものでない可能性がある。
また、特許文献2に記載の要約文章生成装置では、直前の行よりも短い行が現われた場合には、その直前の行を要約文章の始まりとして要約文章を作成している。しかしながら、本来、要約文章は行の長短に関わらないものであるため、作成された要約文章が適切なものでない可能性がある。
更に、特許文献3に記載のテキスト要約装置では、N個の単語が連続して出現する確率を、テーブルを参照して得ている。しかしながら、テーブルの内容によっては、決定された要約文が適切なものでない可能性がある。
そこで本発明は、前述した問題点を解消する為になされたものであり、文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供することを目的とする。
本発明の一形態に係る要約生成装置は、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を取得する取得手段と、取得手段により取得されたコメント情報に対する分解処理を行って複数のワード情報を取得するワード分解手段と、取得手段により取得された文章情報に対する分解処理を行って複数のセンテンス情報を取得するセンテンス分解手段と、センテンス分解手段により取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出する抽出手段と、を備えることを特徴とする。
本発明の一形態に係る要約生成装置によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、文章の要約として適切な要約文の抽出が可能になる。
別の形態に係る要約生成装置では、取得手段は、コメント情報に含まれるサイト情報から、サイトのURL以外の文字列を削除する処理を行い、当該処理後のサイト情報におけるURLに対応するサイトにおける文章情報を取得してもよい。
この形態では、コメント情報に含まれるサイト情報から、サイトのURL以外の文字列を削除する処理が行われ、当該処理後のサイト情報におけるURLに対応するサイトにおける文章情報が取得される。このため、サイト情報におけるURLに対応するサイトにおける文章情報をより確実に取得することが可能になる。
別の形態に係る要約生成装置では、センテンス分解手段により取得された複数のセンテンス情報を、文章情報に対応するサイトのURLと対応付けて記憶するセンテンス記憶手段を更に備え、抽出手段は、センテンス記憶手段により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、センテンス記憶手段により記憶されたURLに対応するサイトの要約として抽出してもよい。
この形態では、センテンス記憶手段により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数が最多となるセンテンス情報が、センテンス記憶手段により記憶されたURLに対応するサイトの要約として抽出される。このため、センテンス記憶手段により記憶されたURLに対応するサイトの要約を抽出することが可能になる。
別の形態に係る要約生成装置では、センテンス記憶手段により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数をカウントするカウント手段を更に備え、抽出手段は、センテンス記憶手段により記憶された複数のセンテンス情報から、カウント手段によりカウントされた出現回数が最多となるセンテンス情報を、要約として抽出してもよい。
この形態では、センテンス記憶手段により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解手段により取得された各ワード情報の出現回数がカウントされ、センテンス記憶手段により記憶された複数のセンテンス情報から、カウントされた出現回数が最多となるセンテンス情報が、要約として抽出される。このため、各ワード情報の出現回数をカウントした上で、カウントされた出現回数が最多となるセンテンス情報を要約として抽出することが可能になる。
別の形態に係る要約生成装置では、カウント手段は、ワード分解手段により取得された各ワード情報を品詞毎に分類し、カウントに用いるワード情報を当該分類結果に基づいて選択してカウントしてもよい。
この形態では、取得された各ワード情報が品詞毎に分類され、カウントに用いるワード情報が当該分類結果に基づいて選択されてカウントされる。このため、カウントに用いるワード情報を、品詞毎の分類結果に基づいて選択することが可能になる。
別の形態に係る要約生成装置では、カウント手段は、ワード分解手段により取得された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントしてもよい。
この形態では、取得された各ワード情報が品詞毎に分類され、各ワード情報に対して当該分類結果に基づいて重み付けが行われてカウントされる。このため、カウントに用いるワード情報に対して、品詞毎の分類結果に基づいて重み付けを行ってカウントすることが可能になる。
本発明の一形態に係る要約生成方法は、要約生成装置が行う要約生成方法であって、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を要約生成装置が取得する取得ステップと、取得ステップにより取得されたコメント情報に対する分解処理を要約生成装置が行って複数のワード情報を取得するワード分解ステップと、取得ステップにより取得された文章情報に対する分解処理を要約生成装置が行って複数のセンテンス情報を取得するセンテンス分解ステップと、センテンス分解ステップにより取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、ワード分解ステップにより取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として要約生成装置が抽出する抽出ステップと、を有することを特徴とする。
本発明の一形態に係る要約生成方法によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、文章の要約として適切な要約文の抽出が可能になる。
本発明によれば、文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供することができる。
特徴文出力装置の主な機能構成の概略を説明するための機能ブロック図である。 特徴文出力装置の主な物理構成の概略を説明するための物理構成図である。 コメント文記憶部のテーブル構成例を示すテーブル構成図である。 ワード記憶部のテーブル構成例を示すテーブル構成図である。 文章記憶部のテーブル構成例を示すテーブル構成図である。 センテンス記憶部のテーブル構成例を示すテーブル構成図である。 センテンス出力部のデータ出力例を示すデータ構成図である。 ワード登録処理の流れを説明するためのフローチャートである。 センテンス登録処理の流れを説明するためのフローチャートである。 特徴文抽出処理の流れを説明するためのフローチャートである。 ワード記憶部のテーブル構成例の変形例を示すテーブル構成図である。
以下、添付図面を参照しながら本発明の好適な実施形態を説明する。なお、図面の説明において同一要素には同一符号を付し、重複する説明を省略する。
(1)要約生成装置の構成
まず、本実施形態に係る要約生成装置としての特徴文出力装置全体の構成について、図1及び図2を用いて説明する。図1は、特徴文出力装置100の主な機能構成の概略を説明するための機能ブロック図であり、図2は、特徴文出力装置100の主な物理構成の概略を説明するための物理構成図である。スマートフォンやノートパソコン等の通信端末のユーザは、例えばtwitter(登録商標)等の短文投稿サービス、Facebook(登録商標)等のSNS(Social Networking Service)を用いて、種々のコメント等の情報を発信することが可能である。ユーザが発信したコメント情報は、インターネットにおいて開示され閲覧可能となる。インターネットにおいて開示されたコメント情報において、特定のサイト等に関するサイト情報(例えば、ニュース、ブログ等のサイトのURL)が言及されることがある。本実施形態に係る特徴文出力装置100は、このコメント情報を収集し、言及されたサイトにおける文章の要約を生成して外部に出力するサーバ装置である。
特徴文出力装置100は、図2に示されるように、主な物理的な構成要素としてCPU11、主記憶装置であるRAM12(Random Access Memory)及びROM13(Read Only Memory)、通信を行うための通信モジュール14、並びにハードディスク等の補助記憶装置15等のハードウェアを備えるコンピュータとして構成される。なお、主記憶装置は、RAM、ROMといったものに限定されず、例えばフラッシュメモリといった主記憶装置の役割を果たすものに置き換えてもよい。特徴文出力装置100は、上記の記憶装置に記憶されたプログラムにおける命令によって、これらの構成要素が動作することにより、各種処理を実行する機能が発揮される。
特徴文出力装置100は、図1に示されるように、主な機能的な構成要素として、情報収集部101(取得手段)、コメント文記憶部102(取得手段)、ワード分解部103(ワード分解手段)、ワード記憶部104(ワード記憶手段)、文章記憶部105(取得手段)、センテンス分解部106(センテンス分解手段)、センテンス記憶部107(センテンス記憶手段)、注目度判定部108(カウント手段及び抽出手段)、及びセンテンス出力部109(抽出手段)を有している。なお、特徴文出力装置100における各機能は、単一のサーバ装置内に配置されていなくてもよく、物理的な構成は限定されない。各機能が、LAN(Local Area Network)やインターネットで接続された別個のサーバ装置内に配置されていてもよい。
情報収集部101は、インターネットにおいて開示されたコメント情報を、通信ネットワーク網NWを介して取得・収集する通信処理部分である。コメント情報とは、例えば、上記の複数のユーザからの、特定の対象に対する評判、感想、コメント文等を示す情報である。通信ネットワーク網NWは、公衆通信網、専用線、同一物理装置内の通信バス等の組み合わせであってもよく、これらの物理的な配置は限定されない。情報収集部101は、例えば、twitter(登録商標)等の短文投稿サービスにおける特定のユーザ(ニュース、企業等を含む)のアカウントを複数フォローしておくことにより得られる、当該ユーザに対する他のユーザからのリツイート(返信)をコメント情報として取得してもよい。同様に、情報収集部101は、例えば、Facebook(登録商標)等のSNS(Social Networking Service)におけるユーザの投稿をコメント情報として取得してもよい。
そして、情報収集部101は、取得・収集したコメント情報に基づいて、当該コメント情報に含まれるサイト情報(例えば、ニュース、ブログ等のサイトのURL)と、当該サイト情報に対応するサイトにおいて開示された説明文等の文章情報とを、通信ネットワーク網NWを介して取得・収集する。サイト情報とは、例えば、特定のサイトのURL、特定のサイトを検索するために必要な検索キーワード等を示す情報である。文章情報とは、例えば、当該特定のサイトに存在するコンテンツとなる文章等を示す情報である。
なお、情報収集部101は、コメント情報に含まれるサイト情報から、サイトのURL以外の文字列(例えば、サイトのタイトル、サイトの文章の一部等の、コメント情報の生成時に短文投稿サービス及びSNS等によって自動的に追加された文字列)を削除する処理を行うことが可能である。この場合、情報収集部101は、削除処理後のサイト情報におけるURLに対応するサイトにおける文章情報を取得する。
コメント文記憶部102は、情報収集部101によって取得・収集されたコメント情報を、当該コメント情報に含まれるサイト情報と対応付けて記憶・保持するデータベース機能部分である。コメント文記憶部102は、例えば図3に示されるように、情報収集部101によって取得・収集されたコメント情報における「コメント文」を、当該コメント情報に含まれるサイト情報である「サイトURL」と対応付けて記憶・保持する。
一例として、「コメント文」を一意に識別する「ID」である「XXXXX1」と、「サイトURL」である「http://xxxxx」と、「コメント文」である「スカイツリー(登録商標)はやはり高い。スカイツリータウン(登録商標)も面白そうだな。スカイツリー(登録商標)に行く。」とが対応付けられている。
ワード分解部103は、コメント文記憶部102に記憶・保持されたコメント情報に対する第一の分解処理(形態素解析処理)を行って、複数のワード情報に分解して当該複数のワード情報を取得する解析処理部分である。ワード情報とは、名詞(固有名詞を含む)、助詞、副詞、形容詞、形容動詞等の、品詞の最小単位である。
一例として、「コメント文」が「スカイツリー(登録商標)はやはり高い。スカイツリータウン(登録商標)も面白そうだな。スカイツリー(登録商標)に行く。」である場合、「スカイツリー(登録商標)」、「は」、「やはり」、「高い」、「スカイツリータウン(登録商標)」、「も」、「面白そうだ」、及び「な」、「スカイツリータウン(登録商標)」、「に」、「行く」という十二のワード情報に分解される。
ワード記憶部104は、ワード分解部103が取得した複数のワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報と対応付けて記憶・保持するデータベース機能部分である。ワード記憶部104は、例えば図4に示されるように、ワード分解部103によって取得されたワード情報である「ワード」を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報である「サイトURL」と対応付けて記憶・保持する。
一例として、「コメント文」を一意に識別する「ID」である「XXXXX1」と、「サイトURL」である「http://xxxxx」と、「ワード」である「スカイツリー(登録商標)」とが対応付けられている。なお、ワード分解部103によってワード情報が取得される度に当該ワード情報がワード記憶部104に記憶・保持されるため、図4に示されるように、「XXXXX1」という同一の「ID」について「スカイツリー(登録商標)」という「ワード」が複数回、記憶・保持されることもある。ワード記憶部104により、特定のサイトのURLに対するコメント情報に含まれるワード情報の一覧を抽出・出力することが可能になる。
文章記憶部105は、情報収集部101によって取得・収集されたサイト情報を、当該サイト情報に対応するサイトにおける文章情報と対応付けて記憶・保持するデータベース機能部分である。文章記憶部105は、例えば図5に示されるように、情報収集部101によって取得・収集されたサイト情報である「サイトURL」を、当該サイト情報に対応するサイトにおける文章情報である「文章」と対応付けて記憶・保持する。
一例として、「サイトURL」を一意に識別する「ID」である「XXXXX1」と、「サイトURL」である「http://xxxxx」と、「文章」である「本日スカイツリー(登録商標)がオープンし・・・。当面、入場券は予約販売・・・。・・・。」とが対応付けられている。
センテンス分解部106は、文章記憶部105に記憶・保持された文章情報に対する第二の分解処理(例えば、句点、改行コード等を区切り位置とする文章分解処理)を行って、複数のセンテンス情報に分解して当該複数のセンテンス情報を取得する解析処理部分である。センテンス情報とは、一つのセンテンス(文)を表す情報である。
一例として、「文章」が「本日スカイツリー(登録商標)がオープンし・・・。当面、入場券は予約販売・・・。・・・。」である場合、「本日スカイツリー(登録商標)がオープンし・・・」、「当面、入場券は予約販売・・・」、及び「・・・」という三つのセンテンス情報に分解される。
センテンス記憶部107は、センテンス分解部106によって取得された複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのURLと対応付けて記憶・保持するデータベース機能部分である。センテンス記憶部107は、例えば図6に示されるように、センテンス分解部106によって取得されたセンテンス情報である「センテンス」を、上述の第二の分解処理前の元の文章情報に対応するサイトのURLである「サイトURL」と対応付けて記憶・保持する。
一例として、「サイトURL」を一意に識別する「ID」である「XXXXX1」と、「サイトURL」である「http://xxxxx」と、「センテンス」である「本日スカイツリー(登録商標)がオープンし・・・」とが対応付けられている。センテンス記憶部107により、インターネット上でコメント情報により言及されているサイトのURLにおいて記載された文章情報の中のセンテンス情報の一覧を抽出・出力することが可能となる。
注目度判定部108は、センテンス記憶部107により記憶・保持された複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数をカウントする計数処理部分である。まず、注目度判定部108は、ワード記憶部104から、特定のサイト情報に紐付けられた(対応付けられた)各ワード情報(例:図4における上から一つ目の「スカイツリー(登録商標)」)を、上述の第一の分解処理前の元のコメント情報に含まれるサイトのURL(例:「http://xxxxx」)と対応付けて取得する。
そして、注目度判定部108は、センテンス記憶部107から、同一の特定のサイトのURL(例:「http://xxxxx」)に紐付けられた(対応付けられた)複数のセンテンス情報(例:「本日スカイツリー(登録商標)がオープンし・・・」及び「当面、入場券は予約販売・・・」)を、上述の第二の分解処理前の元の文章情報に対応するサイトのURL(例:「http://xxxxx」)と対応付けて取得する。次に、注目度判定部108は、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報(例:「スカイツリー(登録商標)」)の出現回数を、同一の特定のサイト情報毎にカウントする。「本日スカイツリー(登録商標)がオープンし・・・」における出現回数は「1回」であり、「当面、入場券は予約販売・・・」における出現回数は「3回」であったとする。
なお、注目度判定部108によって、ワード記憶部104から、図4における上から二つ目の「スカイツリー(登録商標)」が、上述の第一の分解処理前の元のコメント情報に含まれるサイトのURL(例:「http://xxxxx」)と対応付けて取得される処理も、行われる。この場合、注目度判定部108は、取得した複数のセンテンス情報のそれぞれに出現する、取得した図4における上から二つ目の「スカイツリー(登録商標)」の出現回数を、同一の特定のサイト情報毎にカウントし、上述の結果との総計を算出する演算処理を行う。すなわち、上述の結果と併せて、「本日スカイツリー(登録商標)がオープンし・・・」における出現回数が1回から2回に倍増し、且つ、「当面、入場券は予約販売・・・」における出現回数が3回から6回に倍増することになる。
なお、注目度判定部108は、ワード記憶部104により記憶・保持された各ワード情報を品詞毎に分類し、上記のカウントに用いるワード情報を当該分類結果に基づいて選択・特定してカウントすることが可能である。より詳しくは、注目度判定部108は、上記のカウントに用いるワード情報の中から特定の品詞(例:名詞、形容詞、動詞)であるワード情報のみを選択・特定して、上記のカウント処理に用いてもよい。
更に、注目度判定部108は、ワード記憶部104により記憶・保持された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントすることも可能である。より詳しくは、注目度判定部108は、上記のカウントに用いるワード情報のうち名詞であるワード情報が1回出現した場合にのみ、1回出現したとカウントするのではなく1より大きい回数(例えば1.5回)出現したとして重み付けによる傾斜を付けて、上記のカウント処理に用いてもよい。
センテンス出力部109は、センテンス記憶部107により記憶・保持された複数のセンテンス情報から、(注目度判定部108によってカウントされた)各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出して外部出力する通信処理部分である。上記の例において、センテンス出力部109は、取得されたワード情報(例:「スカイツリー(登録商標)」)の出現回数が多い方のセンテンス情報である「当面、入場券は予約販売・・・」を、要約として抽出する。
なお、センテンス出力部109は、抽出された要約としてのセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのURLと対応付けて、要約受信サービスの実施が許可されたスマートフォンやノートパソコン等の通信端末に送信することが可能である。センテンス出力部109は、例えば図7に示されるように、抽出された要約としてのセンテンス情報である「出力センテンス」を、センテンス記憶部107により記憶・保持されたURLである「サイトURL」と対応付けて外部出力する。
一例として、「サイトURL」を一意に識別する「ID」である「XXXXX1」と、「サイトURL」である「http://xxxxx」と、「出力センテンス」である「当面、入場券は予約販売・・・」とが対応付けられている。これにより、センテンス出力部109は、センテンス記憶部107により記憶・保持された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報を、センテンス記憶部107により記憶・保持されたURLに対応するサイトの要約として抽出することが可能である。
(2)情報収集部101、コメント文記憶部102、ワード分解部103、及びワード記憶部104によるワード登録処理の流れ
引き続き、情報収集部101、コメント文記憶部102、ワード分解部103、及びワード記憶部104によるワード登録処理の流れについて、図8を用いて説明する。図8は、このワード登録処理の流れを説明するためのフローチャートである。このワード登録処理は、例えば3時間毎といったように所定時間毎に行われてもよい。
まず、情報収集部101が、twitter(登録商標)等の短文投稿サービス、Facebook(登録商標)等のSNS(SocialNetworking Service、社会的ネットワークサービス)を用いてインターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報と、当該サイト情報に対応するサイトにおける文章情報とを、通信ネットワーク網NWを介して取得・収集する(ステップS01、取得ステップ)。そして、コメント文記憶部102が、情報収集部101によって取得・収集されたコメント情報を、当該コメント情報に含まれるサイト情報と対応付けて記憶・保持する(ステップS01、取得ステップ)。なお、情報収集部101は、コメント情報に含まれるサイト情報から、サイトのURL以外の文字列(例えば、サイトのタイトル、サイトの文章の一部等の、コメント情報の生成時に自動的に追加された文字列)を削除する処理を行うことが可能である。この場合、情報収集部101は、削除処理後のサイト情報におけるURLに対応するサイトにおける文章情報を取得する。
次に、ワード分解部103が、コメント文記憶部102に記憶・保持されたコメント情報に対する第一の分解処理(形態素解析処理)を行って、複数のワード情報に分解して当該複数のワード情報を取得する(ステップS02、ワード分解ステップ)。そして、ワード記憶部104が、ワード分解部103が取得した複数のワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイト情報と対応付けて記憶・保持する(ステップS02、ワード分解ステップ)。
(3)情報収集部101、文章記憶部105、センテンス分解部106、及びセンテンス記憶部107によるセンテンス登録処理の流れ
引き続き、情報収集部101、文章記憶部105、センテンス分解部106、及びセンテンス記憶部107によるセンテンス登録処理の流れについて、図9を用いて説明する。図9は、このセンテンス登録処理の流れを説明するためのフローチャートである。このセンテンス登録処理は、例えば3時間毎といったように所定時間毎に行われてもよい。
まず、情報収集部101が、twitter(登録商標)等の短文投稿サービス、Facebook(登録商標)等のSNS(SocialNetworking Service、社会的ネットワークサービス)を用いてインターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報と、当該サイト情報に対応するサイトにおける文章情報とを、通信ネットワーク網NWを介して取得・収集する(ステップS11、取得ステップ)。そして、文章記憶部105が、情報収集部101によって取得・収集されたサイト情報を、当該サイト情報に対応するサイトにおける文章情報と対応付けて記憶・保持する(ステップS11、取得ステップ)。
次に、センテンス分解部106が、文章記憶部105に記憶・保持された文章情報に対する第二の分解処理(例えば、句点、改行コード等を区切り位置とする文章分解処理)を行って、複数のセンテンス情報に分解して当該複数のセンテンス情報を取得する(ステップS12、センテンス分解ステップ)。そして、センテンス記憶部107が、センテンス分解部106によって取得された複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのURLと対応付けて記憶・保持する(ステップS12、センテンス分解ステップ)。
(4)注目度判定部108及びセンテンス出力部109による特徴文抽出処理の流れ
引き続き、注目度判定部108及びセンテンス出力部109による特徴文抽出処理の流れについて、図10を用いて説明する。図10は、この特徴文抽出処理の流れを説明するためのフローチャートである。この特徴文抽出処理は、例えば3時間毎といったように所定時間毎に行われてもよい。
まず、注目度判定部108が、ワード記憶部104から、特定のサイト情報に紐付けられた(対応付けられた)各ワード情報を、上述の第一の分解処理前の元のコメント情報に含まれるサイトのURLと対応付けて取得する(ステップS21、抽出ステップ)。そして、注目度判定部108が、センテンス記憶部107から、同一の特定のサイト情報に紐付けられた(対応付けられた)複数のセンテンス情報を、上述の第二の分解処理前の元の文章情報に対応するサイトのURLと対応付けて取得する(ステップS21、抽出ステップ)。
次に、注目度判定部108が、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報の出現回数を、同一の特定のサイト情報毎に紐付けてカウントする(ステップS22、抽出ステップ)。なお、注目度判定部108は、ワード記憶部104により記憶・保持された各ワード情報を品詞毎に分類し、上記のカウントに用いるワード情報を当該分類結果に基づいて選択・特定してカウントすることが可能である。また、注目度判定部108は、ワード記憶部104により記憶・保持された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントすることも可能である。
次に、注目度判定部108が、取得した複数のセンテンス情報と、取得した各ワード情報の出現回数を示す出現数情報とを、サイトのURLと対応付けて、センテンス出力部109に送信する(ステップS23、抽出ステップ)。そして、センテンス出力部109が、センテンス記憶部107により記憶・保持された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出して外部出力する(ステップS24、抽出ステップ)。各ワード情報の出現回数が最多となるセンテンス情報は、センテンス記憶部107により記憶・保持されたURLである「サイトURL」と対応付けて外部出力される。
(5)本発明による作用及び効果
特徴文出力装置100によれば、まず、インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、が取得される。次に、取得されたコメント情報に対する分解処理が行われて複数のワード情報が取得され、また、取得された文章情報に対する分解処理が行われて複数のセンテンス情報が取得される。そして、取得された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、取得された各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出される。
このように、取得された複数のセンテンス情報から、各ワード情報の出現回数が最多となるセンテンス情報が、要約として抽出されるため、上記の選択基準、要約の長短、及びテーブルの内容に関わらずに、最も注目度が高く、且つ、文章の特徴をよく表す可能性が非常に高い、要約として適切な要約文の抽出が可能になる。
また、特徴文出力装置100によれば、コメント情報に含まれるサイト情報から、サイトのURL以外の文字列を削除する処理が行われ、当該処理後のサイト情報におけるURLに対応するサイトにおける文章情報が取得される。このため、サイト情報におけるURLに対応するサイトにおける文章情報をより確実に取得することが可能になる。
また、特徴文出力装置100によれば、センテンス記憶部107により記憶された複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、各ワード情報の出現回数が最多となるセンテンス情報が、センテンス記憶部107により記憶されたURLに対応するサイトの要約として抽出される。このため、センテンス記憶部107により記憶されたURLに対応するサイトの要約を抽出することが可能になる。
また、特徴文出力装置100によれば、センテンス記憶部107により記憶された複数のセンテンス情報のそれぞれに出現する、ワード分解部103により取得された各ワード情報の出現回数がカウントされ、センテンス記憶部107により記憶された複数のセンテンス情報から、カウントされた出現回数が最多となるセンテンス情報が、要約として抽出される。このため、各ワード情報の出現回数をカウントした上で、カウントされた出現回数が最多となるセンテンス情報を要約として抽出することが可能になる。
また、特徴文出力装置100によれば、取得された各ワード情報が品詞毎に分類され、カウントに用いるワード情報が当該分類結果に基づいて選択されてカウントされる。このため、カウントに用いるワード情報を、品詞毎の分類結果に基づいて選択することが可能になる。また、ワード情報が適切に選択される可能性が高くなることから、要約として適切な要約文の抽出がより確実に可能になる。
また、特徴文出力装置100によれば、取得された各ワード情報が品詞毎に分類され、各ワード情報に対して当該分類結果に基づいて重み付けが行われてカウントされる。このため、カウントに用いるワード情報に対して、品詞毎の分類結果に基づいて重み付けを行ってカウントすることが可能になる。また、ワード情報が適切に選択される可能性が高くなることから、要約として適切な要約文の抽出がより確実に可能になる。
(6)変形例
上記の実施例では、注目度判定部108は特定の品詞(例:名詞、形容詞、動詞)であるワード情報のみを選択・特定して上記のカウント処理に用いてもよい、と説明したが、検索キーワードとして短時間のうちに頻繁に用いられた用語をワード情報として上記のカウント処理に用いてもよい。
また、上記の実施例では、ワード登録処理、センテンス登録処理、及び特徴文抽出処理は例えば3時間毎といったように所定時間毎に行われてもよい、と説明したが、情報収集部101により取得・収集されたコメント情報の数が急増してピークが現れた場合に(即ち、規定時間あたりのコメント数が規定数以上となった場合に)、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。
更に、情報収集部101により取得・収集されたコメント情報が所定数以上となった場合に、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。なお、情報収集部101により取得・収集されたコメント情報が所定数未満の場合に、上記の所定時間(例えば3時間)が経過してもワード登録処理、センテンス登録処理、及び特徴文抽出処理を行わず、それより長い時間(例えば4時間)が経過した場合に、ワード登録処理、センテンス登録処理、及び特徴文抽出処理が行われる、としてもよい。
また、上記の実施例では、ワード分解部103によってワード情報が取得される度に当該ワード情報がワード記憶部104に記憶・保持される構成として説明したが、例えば図11に示されるように、ワード分解部103が取得した複数のワード情報のそれぞれが、上述の第一の分解処理前の元のコメント情報に出現する回数の総数である「コメント回数」と、対応付けて記憶・保持される構成としてもよい。
一例として、ワード分解部103が取得した「ワード」の一つである「スカイツリー(登録商標)」と、図3における「ID」が「XXXXX1」である「コメント文」に当該「ワード」が出現した回数の総数である「2」とが、対応付けられて記憶・保持されている。すなわち、図11に示されるテーブル構成例は、図4に示されるテーブル構成例を同一の「ワード」に関してマージ(併合)したものである。このような構成の場合、注目度判定部108は、取得した複数のセンテンス情報のそれぞれに出現する、取得した各ワード情報(例:「スカイツリー(登録商標)」)の出現回数に対して、この「コメント回数」を乗じる演算を行って、同一の特定のサイト情報毎にカウントする。
すなわち、「本日スカイツリー(登録商標)がオープンし・・・」における「スカイツリー(登録商標)」の出現回数は1回であり、「当面、入場券は予約販売・・・」における「スカイツリー(登録商標)」の出現回数は3回であったとする場合、コメント回数が「2」回であるという上述の結果に基づいて、「本日スカイツリー(登録商標)がオープンし・・・」における出現回数が1回から2回に倍増し、且つ、「当面、入場券は予約販売・・・」における出現回数が3回から6回に倍増することになる。
本発明によれば、文章の内容を容易に把握するための、文章の要約として適切な要約文の抽出が可能な要約生成装置及び要約生成方法を提供することができる。
100…特徴文出力装置、101…情報収集部、102…コメント文記憶部、103…ワード分解部、104…ワード記憶部、105…文章記憶部、106…センテンス分解部、107…センテンス記憶部、108…注目度判定部、109…センテンス出力部、NW…通信ネットワーク網。

Claims (7)

  1. インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を取得する取得手段と、
    前記取得手段により取得された前記コメント情報に対する分解処理を行って複数のワード情報を取得するワード分解手段と、
    前記取得手段により取得された前記文章情報に対する分解処理を行って複数のセンテンス情報を取得するセンテンス分解手段と、
    前記センテンス分解手段により取得された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として抽出する抽出手段と、
    を備える要約生成装置。
  2. 前記取得手段は、前記コメント情報に含まれる前記サイト情報から、前記サイトのURL以外の文字列を削除する処理を行い、当該処理後のサイト情報におけるURLに対応するサイトにおける前記文章情報を取得する、請求項1に記載の要約生成装置。
  3. 前記センテンス分解手段により取得された前記複数のセンテンス情報を、前記文章情報に対応するサイトのURLと対応付けて記憶するセンテンス記憶手段を更に備え、
    前記抽出手段は、前記センテンス記憶手段により記憶された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数が最多となるセンテンス情報を、前記センテンス記憶手段により記憶されたURLに対応するサイトの要約として抽出する、請求項1又は2に記載の要約生成装置。
  4. 前記センテンス記憶手段により記憶された前記複数のセンテンス情報のそれぞれに出現する、前記ワード分解手段により取得された各ワード情報の出現回数をカウントするカウント手段を更に備え、
    前記抽出手段は、前記センテンス記憶手段により記憶された前記複数のセンテンス情報から、前記カウント手段によりカウントされた前記出現回数が最多となるセンテンス情報を、要約として抽出する、請求項3に記載の要約生成装置。
  5. 前記カウント手段は、前記ワード分解手段により取得された各ワード情報を品詞毎に分類し、カウントに用いるワード情報を当該分類結果に基づいて選択してカウントする、請求項4に記載の要約生成装置。
  6. 前記カウント手段は、前記ワード分解手段により取得された各ワード情報を品詞毎に分類し、各ワード情報に対して当該分類結果に基づいて重み付けを行ってカウントする、請求項4に記載の要約生成装置。
  7. 要約生成装置が行う要約生成方法であって、
    インターネットにおいて開示されたコメント情報と、当該コメント情報に含まれるサイト情報に対応するサイトにおける文章情報と、を前記要約生成装置が取得する取得ステップと、
    前記取得ステップにより取得された前記コメント情報に対する分解処理を前記要約生成装置が行って複数のワード情報を取得するワード分解ステップと、
    前記取得ステップにより取得された前記文章情報に対する分解処理を前記要約生成装置が行って複数のセンテンス情報を取得するセンテンス分解ステップと、
    前記センテンス分解ステップにより取得された前記複数のセンテンス情報から、当該複数のセンテンス情報のそれぞれに出現する、前記ワード分解ステップにより取得された各ワード情報の出現回数が最多となるセンテンス情報を、要約として前記要約生成装置が抽出する抽出ステップと、
    を有する要約生成方法。
JP2012266581A 2012-12-05 2012-12-05 要約生成装置及び要約生成方法 Active JP5969908B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012266581A JP5969908B2 (ja) 2012-12-05 2012-12-05 要約生成装置及び要約生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012266581A JP5969908B2 (ja) 2012-12-05 2012-12-05 要約生成装置及び要約生成方法

Publications (2)

Publication Number Publication Date
JP2014112315A true JP2014112315A (ja) 2014-06-19
JP5969908B2 JP5969908B2 (ja) 2016-08-17

Family

ID=51169409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012266581A Active JP5969908B2 (ja) 2012-12-05 2012-12-05 要約生成装置及び要約生成方法

Country Status (1)

Country Link
JP (1) JP5969908B2 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297667A (ja) * 2001-03-29 2002-10-11 Sanyo Electric Co Ltd 文書閲覧装置
JP2003016082A (ja) * 2001-06-29 2003-01-17 Just Syst Corp リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002297667A (ja) * 2001-03-29 2002-10-11 Sanyo Electric Co Ltd 文書閲覧装置
JP2003016082A (ja) * 2001-06-29 2003-01-17 Just Syst Corp リンク集作成装置、リンク集作成方法、及びリンク集作成プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原田昌紀 他2名: "参照元HTMLテキストからのWebサイト紹介文抽出", 第63回(平成13年後期)全国大会講演論文集(3), JPN6016024402, 26 September 2001 (2001-09-26), JP, pages 39 - 3, ISSN: 0003345304 *

Also Published As

Publication number Publication date
JP5969908B2 (ja) 2016-08-17

Similar Documents

Publication Publication Date Title
Shiha et al. The effects of emoji in sentiment analysis
CN108287858B (zh) 自然语言的语义提取方法及装置
KR101737887B1 (ko) 크로스 미디어 분석에 기반한 소셜 미디어 텍스트의 주제 카테고리 자동 분류 방법 및 그 장치
CN103020140B (zh) 一种对互联网用户评论内容自动过滤的方法和装置
Kestemont et al. Cross-genre authorship verification using unmasking
CN103313248B (zh) 一种识别垃圾信息的方法和装置
WO2008022581A1 (fr) Procédé et dispositif d'obtention de mots nouveaux et système et procédé de saisie
CN107102976A (zh) 基于微博的娱乐新闻自动构建技术与系统
Narr et al. Extracting semantic annotations from twitter
Burbano et al. Identifying human trafficking patterns online
JP5718405B2 (ja) 発話選択装置、方法、及びプログラム、対話装置及び方法
CN112597307A (zh) 人物动作相关数据的提取方法、装置、设备及存储介质
US9454568B2 (en) Method, apparatus and computer storage medium for acquiring hot content
Ertam et al. Abstractive text summarization using deep learning with a new Turkish summarization benchmark dataset
CN115033668A (zh) 故事脉络构建方法、装置、电子设备和存储介质
JP2014085694A (ja) 検索装置、検索プログラムおよび検索方法
Sultana et al. Authorship recognition of tweets: A comparison between social behavior and linguistic profiles
CN110019763B (zh) 文本过滤方法、系统、设备及计算机可读存储介质
Patil et al. Inflectional and derivational hybrid stemmer for sentiment analysis: a case study with Marathi tweets
KR101105798B1 (ko) 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법
JP5969908B2 (ja) 要約生成装置及び要約生成方法
Vidulin et al. Training a genre classifier for automatic classification of Web pages
CN109597879B (zh) 一种基于“引文关系”数据的业务行为关系抽取方法及装置
TW201333735A (zh) 中文網路資訊監測分析系統及其方法
JP2015103101A (ja) テキスト要約装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150814

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160628

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160708

R150 Certificate of patent or registration of utility model

Ref document number: 5969908

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250