JP2016110213A - 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム - Google Patents
情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム Download PDFInfo
- Publication number
- JP2016110213A JP2016110213A JP2014244296A JP2014244296A JP2016110213A JP 2016110213 A JP2016110213 A JP 2016110213A JP 2014244296 A JP2014244296 A JP 2014244296A JP 2014244296 A JP2014244296 A JP 2014244296A JP 2016110213 A JP2016110213 A JP 2016110213A
- Authority
- JP
- Japan
- Prior art keywords
- unit
- time
- information processing
- keyword
- unit time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 119
- 238000003672 processing method Methods 0.000 title claims description 7
- 230000008859 change Effects 0.000 claims abstract description 85
- 238000004458 analytical method Methods 0.000 claims description 222
- 238000001514 detection method Methods 0.000 claims description 62
- 238000000034 method Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 27
- 238000011156 evaluation Methods 0.000 claims description 2
- 238000010187 selection method Methods 0.000 claims description 2
- 238000000605 extraction Methods 0.000 description 66
- 238000003860 storage Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 26
- 238000010586 diagram Methods 0.000 description 24
- 238000004140 cleaning Methods 0.000 description 15
- 230000007423 decrease Effects 0.000 description 15
- 230000006870 function Effects 0.000 description 15
- 238000004891 communication Methods 0.000 description 12
- 238000003825 pressing Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 4
- 230000036541 health Effects 0.000 description 4
- 230000000877 morphologic effect Effects 0.000 description 3
- 239000007787 solid Substances 0.000 description 3
- 238000001816 cooling Methods 0.000 description 2
- 238000005401 electroluminescence Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 206010001497 Agitation Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】投稿件数の特徴的な変化をもたらす話題をユーザに把握させる。【解決手段】選択部は単位時間毎に投稿された文章から語句を選択し、検出部は投稿された文章の単位時間毎の投稿数が所定の時間変化特性を有する単位時間を検出し、通知部は検出部が検出した単位時間と、当該単位時間において選択された代表キーワードとを対応付けて出力する。【選択図】図2
Description
本発明は、メッセージの投稿に関する情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラムに関する。
従来から、ユーザによる投稿メッセージ(例えば、ツイート(登録商標))を収集し、収集した投稿メッセージとその件数の時系列を公開する情報サービスがインターネット上で提供されている(非特許文献1〜3参照)。これらの情報処理サービスでは、ユーザが設定した条件に合った投稿メッセージの件数の特徴的な変化、例えば、盛り上がりが明示されることがある。盛り上がりとは、ある時間帯における投稿件数が所定数を超え、かつ、その直前及び直後の時間帯における件数よりも多い状態である。盛り上がりは、所定時間毎の件数の急激な増加として検出され、ユーザの関心の傾向、宣伝、広告の効果等、を分析するために用いられることがある。
"BuzzFinder",[online],NTTコム・オンライン・マーケティング・ソリューション株式会社,[平成26年10月23日検索],インターネット<URL:http://www.nttcoms.com./service/buzzfinder>
"Google Trends",[online],Google Incorporated,[平成26年10月23日検索],インターネット<URL:http://www.google.co.jp/trends/>
"Yahoo!検索(リアルタイム)",[online],ヤフー株式会社,[平成26年10月23日検索],インターネット<URL:http://search.yahoo.co.jp/realtime>
非特許文献1、3に記載のサービスでは、件数の時系列と投稿メッセージとが別個に表示される。非特許文献2に記載のサービスでは、関連するニュース記事が件数の時系列を示すグラフ上に表示されることがある。
しかしながら、いずれのサービスも盛り上がりの箇所に投稿メッセージやその話題を表示するものではない。そのため、件数の時系列を見たユーザは、盛り上がりの原因となる話題を直ちに把握することができないことがあった。
しかしながら、いずれのサービスも盛り上がりの箇所に投稿メッセージやその話題を表示するものではない。そのため、件数の時系列を見たユーザは、盛り上がりの原因となる話題を直ちに把握することができないことがあった。
本発明は、以上のような課題を解決するためになされたものであって、投稿件数の特徴的な変化をもたらす話題をユーザに把握させることができる情報処理装置、情報処理システム、端末装置、情報処理方法及び情報処理プログラムを提供する。
本発明は、上記の課題を解決するためになされたものであり、本発明の一態様は、単位時間毎に投稿された文章から語句を選択する選択部と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、を備える情報処理装置である。
本発明によれば、投稿件数の特徴的な変化をもたらす話題をユーザに把握させることができる。
(第1の実施形態)
本発明の第1実施形態について、図面を参照しながら説明する。
図1は、本実施形態に係る情報処理システムS1の構成を示すブロック図である。
情報処理システムS1は、端末装置1と、投稿サーバ装置2と、情報処理装置3と、端末装置4と、を含んで構成される。端末装置1、投稿サーバ装置2、情報処理装置3及び端末装置4は、ネットワーク61を介してデータを相互に送受信可能である。ネットワーク61は、無線ネットワーク、有線ネットワーク、又はこれらの組み合わせであってもよい。図1では、端末装置1、4が、それぞれ1台のみ表示されているが、端末装置1、4の台数は、一般には複数である。
本発明の第1実施形態について、図面を参照しながら説明する。
図1は、本実施形態に係る情報処理システムS1の構成を示すブロック図である。
情報処理システムS1は、端末装置1と、投稿サーバ装置2と、情報処理装置3と、端末装置4と、を含んで構成される。端末装置1、投稿サーバ装置2、情報処理装置3及び端末装置4は、ネットワーク61を介してデータを相互に送受信可能である。ネットワーク61は、無線ネットワーク、有線ネットワーク、又はこれらの組み合わせであってもよい。図1では、端末装置1、4が、それぞれ1台のみ表示されているが、端末装置1、4の台数は、一般には複数である。
端末装置1は、ユーザの操作入力を受け付けることにより、メッセージを生成し、生成したメッセージを投稿サーバ装置2に送信する。また、端末装置1は、ユーザの操作を受け付けることにより、メッセージの検索条件を定める。端末装置1は、定めた検索条件でメッセージの検索を指示するメッセージ検索要求信号を投稿サーバ装置2に送信する。端末装置1は、メッセージ検索要求信号の応答として、投稿サーバ装置2から検索条件に応じた種々のメッセージを受信する。端末装置1は、例えば、パーソナルコンピュータ(PC:Personal Computer)、携帯電話機、タブレット端末装置、等である。なお、以下の説明では、端末装置1から送信されたメッセージを投稿メッセージと呼ぶ。
投稿サーバ装置2は、端末装置1から収集した投稿メッセージを管理する。投稿サーバ装置2は、収集部21、抽出部22、及び投稿データベース23を含んで構成される。
投稿サーバ装置2は、CPU(Central Processing Unit)及び記憶装置を含んで構成されるサーバ装置である。記憶装置は、例えば、HDD(Hard−disk Drive)、フラッシュメモリ、ROM(Read−only Memory)、RAM(Random Access Memory)、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、投稿データベース23の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、収集部21及び抽出部22の機能を実現する。
投稿サーバ装置2は、CPU(Central Processing Unit)及び記憶装置を含んで構成されるサーバ装置である。記憶装置は、例えば、HDD(Hard−disk Drive)、フラッシュメモリ、ROM(Read−only Memory)、RAM(Random Access Memory)、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、投稿データベース23の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、収集部21及び抽出部22の機能を実現する。
収集部21は、API(Application Program Interface)を用いて端末装置1からネットワーク61を介して受信した投稿メッセージを収集する。収集部21は、収集した投稿メッセージを、端末装置1のアドレスと受信時刻とを対応付けて投稿データベース23に記憶する。
抽出部22は、端末装置1から受信したメッセージ検索要求信号が指示する検索条件を満たす投稿メッセージを、投稿データベース23から検索し、検索した投稿メッセージをその送信元の端末装置1のアドレスと受信時刻とを対応付けて読み取る。以下の説明では、送信元の端末装置1のアドレスを投稿アドレス、受信時刻を投稿時刻と呼ぶ。抽出部22は、読み取った投稿メッセージを、投稿アドレスと投稿時刻とを対応付けてメッセージ検索要求信号の送信元の端末装置1にネットワーク61を介して送信する。
なお、抽出部22は、投稿データベース23に記憶した投稿メッセージを、所定の時間間隔で投稿アドレスと投稿時刻とを対応付けて読み取り、それらを情報処理装置3に送信する。
抽出部22は、端末装置1から受信したメッセージ検索要求信号が指示する検索条件を満たす投稿メッセージを、投稿データベース23から検索し、検索した投稿メッセージをその送信元の端末装置1のアドレスと受信時刻とを対応付けて読み取る。以下の説明では、送信元の端末装置1のアドレスを投稿アドレス、受信時刻を投稿時刻と呼ぶ。抽出部22は、読み取った投稿メッセージを、投稿アドレスと投稿時刻とを対応付けてメッセージ検索要求信号の送信元の端末装置1にネットワーク61を介して送信する。
なお、抽出部22は、投稿データベース23に記憶した投稿メッセージを、所定の時間間隔で投稿アドレスと投稿時刻とを対応付けて読み取り、それらを情報処理装置3に送信する。
投稿サーバ装置2は、例えば、ソーシャルメディアサーバ装置である。ソーシャルメディアとは、個人による情報発信、個人間のコミュニケーション、人の結びつきを利用した情報流通等の、社会的要素を含んだメディアである。ソーシャルメディアは、例えば、ブログやミニブログ、電子掲示板、ソーシャルネットワークサービス、投稿サービス、動画共有サービス等がある。
また、ソーシャルメディアでは、参加者間において双方向のコミュニケーションが可能であり、多くの参加者が関心を有する話題が扱われている場合には投稿数が増加する傾向がある。投稿メッセージは、客観的な事実を表す文章の他、投稿者の意見、感情を表す文章を含んで構成される。かかる文章は、投稿メッセージの本文の他、表題に掲げられることがある。ある投稿者の投稿メッセージには、他者の投稿メッセージの一部又は全部を引用されていることがある。引用された投稿メッセージには、その投稿者のアドレス、名称、又は別名、及びその引用である旨の記号が付加されることがある。
情報処理装置3は、取得した投稿メッセージの件数や話題の推移を分析する分析サーバ装置である。
情報処理装置3は、投稿サーバ装置2の投稿データベース23から投稿メッセージを、所定の取得時間間隔で投稿者に関するデータ(例えば、投稿アドレス)と投稿時刻とを対応付けてネットワーク61を介して取得する。情報処理装置3は、端末装置4が設定した単位時間毎に投稿されたメッセージからキーワードを抽出し、投稿されたメッセージの単位時間毎の件数が所定の時間変化特性(例えば、盛り上がり)を有する単位時間を検出する。情報処理装置3は、端末装置4からの要求に応じて、検出した単位時間と、この単位時間に抽出されたキーワードを対応付けて端末装置4に送信する。
情報処理装置3は、投稿サーバ装置2の投稿データベース23から投稿メッセージを、所定の取得時間間隔で投稿者に関するデータ(例えば、投稿アドレス)と投稿時刻とを対応付けてネットワーク61を介して取得する。情報処理装置3は、端末装置4が設定した単位時間毎に投稿されたメッセージからキーワードを抽出し、投稿されたメッセージの単位時間毎の件数が所定の時間変化特性(例えば、盛り上がり)を有する単位時間を検出する。情報処理装置3は、端末装置4からの要求に応じて、検出した単位時間と、この単位時間に抽出されたキーワードを対応付けて端末装置4に送信する。
端末装置4は、情報処理装置3においてキーワードを抽出する単位時間を設定し、設定した単位時間を情報処理装置3に送信する。端末装置4は、情報処理装置3から受信した単位時間と、キーワードを対応付けて表示部に出力する。端末装置4は、例えば、PC、タブレット端末装置、携帯電話機、等である。
(情報処理装置の構成)
次に、本実施形態に係る情報処理装置3の構成について説明する。
図2は、本実施形態に係る情報処理装置3の構成を示すブロック図である。
情報処理装置3は、取得部31、記憶部32、検知部33及び抽出部34を含んで構成される。
情報処理装置3は、CPU及び記憶装置を備えるサーバ装置である。記憶装置は、例えば、HDD、フラッシュメモリ、ROM、RAM、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、記憶部32の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、取得部31、記憶部32、検知部33及び抽出部34の機能の全部又は一部を実現する。
次に、本実施形態に係る情報処理装置3の構成について説明する。
図2は、本実施形態に係る情報処理装置3の構成を示すブロック図である。
情報処理装置3は、取得部31、記憶部32、検知部33及び抽出部34を含んで構成される。
情報処理装置3は、CPU及び記憶装置を備えるサーバ装置である。記憶装置は、例えば、HDD、フラッシュメモリ、ROM、RAM、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、記憶部32の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、取得部31、記憶部32、検知部33及び抽出部34の機能の全部又は一部を実現する。
取得部31は、ネットワーク61を介して所定の取得時間間隔で投稿メッセージを、投稿アドレスと投稿時刻とを対応付けて投稿サーバ装置2から取得する。取得部31は、取得した投稿メッセージを、投稿アドレスと投稿時刻と対応付けて記憶部32に記憶する。
記憶部32は、当該投稿メッセージ、投稿アドレス及び投稿時刻を対応付けて記憶する。
記憶部32は、当該投稿メッセージ、投稿アドレス及び投稿時刻を対応付けて記憶する。
検知部33は、単位時間毎に当該単位時間内の投稿メッセージの件数を計数する。検知部33は、計数した件数の時間変化特性を検知する。以下、投稿メッセージの件数を投稿数と呼ぶ。抽出部34は、検知部33によって投稿数の所定の時間変化特性が検知された単位時間内の投稿メッセージを記憶部32から読み出し、読み出した投稿メッセージからキーワードを抽出する。抽出部34は、投稿メッセージから事前に抽出されたキーワードを読み出してもよい。抽出部34は、抽出したキーワードを示すキーワード情報を検知部33に出力する。検知部33は、抽出部34から入力されたキーワード情報を、所定の時間変化特性が検知された単位時間を示す情報を対応付けて端末装置4に出力する。
次に、検知部33及び抽出部34の構成について説明する。
検知部33は、検出部331と、通知部332(出力部)とを含んで構成される。
検出部331は、端末装置4から投稿メッセージの分析条件を示す分析条件情報を受信する。分析条件情報には、分析対象の投稿メッセージを抽出するための分析キーワード、投稿数を計数する単位時間、投稿メッセージを分析するための分析期間の開始時刻と終了時刻とを示す情報である。検出部331は、投稿時刻が分析期間内に含まれ、分析キーワードを含む投稿メッセージを記憶部32から読み取る。分析期間は、単位時間よりも長い時間である。例えば、単位時間が1時間、分析期間が1日間である。
なお、分析条件情報には分析キーワードが含まれないことがある。その場合には、検出部331は、投稿時刻が分析期間内に含まれる投稿メッセージ全件を記憶部32から読み取る。
検知部33は、検出部331と、通知部332(出力部)とを含んで構成される。
検出部331は、端末装置4から投稿メッセージの分析条件を示す分析条件情報を受信する。分析条件情報には、分析対象の投稿メッセージを抽出するための分析キーワード、投稿数を計数する単位時間、投稿メッセージを分析するための分析期間の開始時刻と終了時刻とを示す情報である。検出部331は、投稿時刻が分析期間内に含まれ、分析キーワードを含む投稿メッセージを記憶部32から読み取る。分析期間は、単位時間よりも長い時間である。例えば、単位時間が1時間、分析期間が1日間である。
なお、分析条件情報には分析キーワードが含まれないことがある。その場合には、検出部331は、投稿時刻が分析期間内に含まれる投稿メッセージ全件を記憶部32から読み取る。
検出部331は、読み取った投稿メッセージのうち単位時間毎の投稿数を計数し、計数した投稿数が所定の時間変化特性を有するか否かを判定する。所定の時間変化特性は、例えば、盛り上がりである。盛り上がりは、投稿数が分析期間内の所定の基準投稿数よりも多く、時間経過に対して極大になる状態である。基準投稿数は、例えば分析期間内の投稿数の平均値よりも有意に大きい値、例えば、当該平均値に値a・σを加えた値である。aは、所定の正の実数である。aは、典型的には0.5から2.5までのいずれか、例えば、1.0、2.0、等である。σは、分析期間内の投稿数の標準偏差を示す。基準投稿数は、分析期間内の中間値、最頻値、中央値等の統計的な代表値よりも有意に大きい値であってもよい。時間経過に対して極大とは、直前及び直後の単位時間の投稿数よりも大きい状態、つまりピークを意味する。よって、検出部331は、その前後の単位時間よりも投稿数が多い単位時間を盛り上がりが生じた単位時間として判定することができる。検出部331は、盛り上がりを検出した単位時間を示す盛り上がり情報を通知部332及び抽出部34に出力する。
通知部332には、検出部331及び抽出部34で取得された各種の情報、例えば、検出部331から盛り上がり情報が入力され、抽出部34からキーワード情報と、キーワードの属性を示す属性情報(後述)が入力される。通知部332は、端末装置4から情報要求信号を受信する場合には、情報要求信号が指示する情報を端末装置4にネットワーク61を介して送信する。例えば、盛り上がり情報を指示する情報要求情報が入力された場合には、通知部332は、入力された盛り上がり情報にキーワード情報と属性情報を単位時間毎に対応付けて端末装置4に送信する。また、特徴語リスト(後述)を指示する情報要求情報が入力された場合には、通知部332は、特徴語リストを端末装置4に送信する。
抽出部34は、読出部341と、分析部342とを含んで構成される。
読出部341は、検出部331から入力された盛り上がり情報が示す単位時間より前の所定の参照時間内の投稿メッセージであって、端末装置4から受信した分析条件情報が示す分析キーワードを含む投稿メッセージ(分析条件情報に分析キーワードが含まれない場合は投稿メッセージ全件)を投稿時刻と対応付けて記憶部32から読み出す。参照時間は、分析に際して投稿メッセージを参照する時間である。参照時間は、単位時間よりも長く、参照時間の終了時刻は、単位時間の開始時刻の前となる。また、参照時間は、典型的には分析期間よりも短い。例えば、単位時間、分析期間がそれぞれ1時間、2日である場合、参照時間は、6時間である。読出部341は、読み出した投稿メッセージを投稿時刻と対応付けて分析部342に出力する。参照時間は、典型的には分析期間よりも長くてもよい。
読出部341は、検出部331から入力された盛り上がり情報が示す単位時間より前の所定の参照時間内の投稿メッセージであって、端末装置4から受信した分析条件情報が示す分析キーワードを含む投稿メッセージ(分析条件情報に分析キーワードが含まれない場合は投稿メッセージ全件)を投稿時刻と対応付けて記憶部32から読み出す。参照時間は、分析に際して投稿メッセージを参照する時間である。参照時間は、単位時間よりも長く、参照時間の終了時刻は、単位時間の開始時刻の前となる。また、参照時間は、典型的には分析期間よりも短い。例えば、単位時間、分析期間がそれぞれ1時間、2日である場合、参照時間は、6時間である。読出部341は、読み出した投稿メッセージを投稿時刻と対応付けて分析部342に出力する。参照時間は、典型的には分析期間よりも長くてもよい。
分析部342は、読出部341から入力された投稿メッセージから、後述するように複数のキーワードを抽出する。分析部342は、入力された投稿メッセージから、抽出したキーワードのいずれかを含む投稿メッセージを代表メッセージとして抽出する。分析部342は、抽出した代表メッセージに出現する単語の順序に、抽出したキーワードを並び替え、並び替えたキーワードを示すキーワード情報を生成する。キーワードは、必ずしも文法上の単語に限られず、複数の単語から構成される句である場合もある。分析部342は、生成したキーワード情報を通知部332に出力する。
図3は、本実施形態に係る分析部342の構成を示すブロック図である。
分析部342は、キーワード抽出部3421、重み算出部3422、重み付け部3423、キーワード選択部3424、文章抽出部3425、語順変更部3426、及びメッセージ分析部3427(語句分析部)を含んで構成される。
キーワード抽出部3421は、読出部341から入力された投稿メッセージについて、例えば、形態素解析を行ってキーワードを抽出する。形態素解析によれば、投稿メッセージを、当該投稿メッセージを構成する単語に区分され、区分された単語毎に品詞が特定される。キーワード抽出部3421は、区分した単語のうち、その品詞が自立語、例えば、名詞又は形容詞である単語をキーワードとして抽出する。キーワード抽出部3421は、抽出したキーワードを重み算出部3422に出力する。
分析部342は、キーワード抽出部3421、重み算出部3422、重み付け部3423、キーワード選択部3424、文章抽出部3425、語順変更部3426、及びメッセージ分析部3427(語句分析部)を含んで構成される。
キーワード抽出部3421は、読出部341から入力された投稿メッセージについて、例えば、形態素解析を行ってキーワードを抽出する。形態素解析によれば、投稿メッセージを、当該投稿メッセージを構成する単語に区分され、区分された単語毎に品詞が特定される。キーワード抽出部3421は、区分した単語のうち、その品詞が自立語、例えば、名詞又は形容詞である単語をキーワードとして抽出する。キーワード抽出部3421は、抽出したキーワードを重み算出部3422に出力する。
重み算出部3422は、キーワード抽出部3421から入力されたキーワード毎の出現回数を、各投稿メッセージについて計数する。重み算出部3422は、キーワード毎の各投稿メッセージについての出現回数を、単位時間内、参照時間内のそれぞれについて集計する。また、重み算出部3422は、単位時間内、参照時間内のそれぞれについて投稿数N0、投稿数N10を集計する。重み算出部3422は、単位時間内、参照時間内のそれぞれについて、キーワードw毎の出現回数c0(w)、出現回数c10(w)を投稿数N0、投稿数N10でそれぞれ正規化して、単位時間内、参照時間内のそれぞれについてキーワードw毎の出現率r0(w)、出現率r10(w)を算出する。重み算出部3422は、キーワードw毎の単位時間内の出現率r0(w)を参照時間内の出現率r10(w)で除算して、キーワードw毎の重みWeight(w)を算出する。重み算出部3422は、入力されたキーワードw、当該キーワードw毎の重みWeight(w)及び当該キーワード毎の単位時間内の出現回数c0(w)を重み付け部3423に出力する。従って、参照時間との比較で単位時間内において頻繁に出現するキーワードwほど高い重みWeight(w)が算出され、稀に出現するキーワードwほど低い重みWeight(w)が算出される。
重み付け部3423は、重み算出部3422から入力されたキーワードw毎に、単位時間内の出現回数c0(w)に重みWeight(w)を乗算することにより、重み付けられた出現回数Weight(w)・c0(w)を単語スコアs(w)として算出する。重み付け部3423は、単語スコアs(w)が大きい順に入力されたキーワードwを並び替え、並び替えたキーワードwと、キーワードw毎の単語スコアs(w)をキーワード選択部3424に出力する。これらのキーワードw及びキーワードw毎の単語スコアs(w)を示す情報を特徴語リストと呼ぶ。重み付け部3423には、特徴語リストに含まれるキーワードwの数Nwを予め設定しておく。キーワードの数Nwは、例えば、15である。単語スコアs(w)は、単位時間内の出現回数c0(w)が、単位時間内における相対的な出現回数で重みづけて算出されるので、出現回数が等しくても単位時間内に特異的に出現したキーワードwほど高くなる。重み付け部3423は、生成した特徴語リストをキーワード選択部3424と通知部332に出力する。特徴語リストには、キーワードw毎の単位時間内の出現率r0(w)が含まれてもよい。
キーワード選択部3424は、重み付け部3423から入力された特徴語リストが示す単語スコアs(w)が高いキーワードwほど優先して、選択されたキーワードの全長が所定の長さの範囲内となる個数のキーワードを選択する。例えば、キーワード選択部3424は、特徴語リストが示すキーワードwのうち、最も単語スコアs(w)が高いキーワードw1を選択する。最も単語スコアs(w)が高いキーワードwが複数ある場合には、キーワード選択部3424は、その複数のキーワードwn(nは自然数)を選択する。選択したキーワード数が1個であり、そのキーワードw1を形成する文字数が所定の文字数の下限(例えば、5文字)よりも少ない場合には、キーワード選択部3424は、特徴語リストから次に単語スコアs(w)の高いキーワードw2を選択する。但し、単語スコアs(w)が所定の単語スコアの下限よりも低い場合には、キーワード選択部3424は、当該キーワードw2を選択しなくてもよい。
また、キーワード選択部3424は、選択されたキーワードwの全長、例えば、文字数の合計が所定の上限(例えば、20文字)以下である間、特徴語リストからさらに次に単語スコアs(w)の高いキーワードwを選択する処理を繰り返してもよい。また、キーワード選択部3424は、選択されたキーワードwの全長として、そのキーワードwの数が所定の上限(例えば、3個)以下である間、特徴語リストからさらに次に単語スコアs(w)の高いキーワードwを選択する処理を繰り返してもよい。以下の説明では、キーワード選択部3424が選択したキーワードを代表キーワードと呼ぶことがある。キーワード選択部3424は、選択した代表キーワードwを語順変更部3426に出力する。選択した代表キーワードwの数が複数である場合には、キーワード選択部3424は、選択した代表キーワードwと、選択した代表キーワード毎の単語スコアs(w)を文章抽出部3425に出力する。
文章抽出部3425には、読出部341から投稿メッセージが入力され、キーワード選択部3424から代表キーワードwと代表キーワード毎の単語スコアs(w)が入力される。文章抽出部3425は、入力された投稿メッセージのうち単位時間内の投稿メッセージから、入力された代表キーワードwの少なくともいずれか1つを含む投稿メッセージを選択する。文章抽出部3425は、選択した投稿メッセージ毎に、入力された代表キーワードw毎の単語スコアs(w)の総和を投稿メッセージ点数として算出する。文章抽出部3425は、算出した投稿メッセージ点数が最も高い投稿メッセージを代表メッセージとして抽出する。文章抽出部3425は、抽出した代表メッセージを語順変更部3426に出力する。
なお、文章抽出部3425が、単位時間内の投稿メッセージから、入力された代表キーワードwの少なくともいずれか1つを含む投稿メッセージを選択できなかった場合には、投稿メッセージの抽出の失敗を示す抽出失敗情報を語順変更部3426に出力する。
また、文章抽出部3425は、入力された投稿メッセージのうち単位時間内の投稿メッセージから、入力された代表キーワードwのうち複数を含む投稿メッセージを選択してもよい。この場合、文章抽出部3425は、時間的に最も早く投稿された投稿メッセージを代表メッセージとして抽出するようにしてもよい。
なお、文章抽出部3425が、単位時間内の投稿メッセージから、入力された代表キーワードwの少なくともいずれか1つを含む投稿メッセージを選択できなかった場合には、投稿メッセージの抽出の失敗を示す抽出失敗情報を語順変更部3426に出力する。
また、文章抽出部3425は、入力された投稿メッセージのうち単位時間内の投稿メッセージから、入力された代表キーワードwのうち複数を含む投稿メッセージを選択してもよい。この場合、文章抽出部3425は、時間的に最も早く投稿された投稿メッセージを代表メッセージとして抽出するようにしてもよい。
語順変更部3426は、キーワード選択部3424から入力された代表キーワードwの数が複数である場合、入力された複数の代表キーワードwが文章抽出部3425から入力された代表メッセージに出現する順序に、その複数の代表キーワードwの順序を並び替える。語順変更部3426は、並び替えた代表キーワードwを示すキーワード情報を生成する。なお、文章抽出部3425から抽出失敗情報が入力される場合には、入力された代表キーワードwの順序を変更せずに、その順序で配列された代表キーワードwを示すキーワード情報を生成する。また、入力された代表キーワードwの数が1個である場合には、その代表キーワードwを示すキーワード情報を生成する。語順変更部3426は、生成したキーワード情報をメッセージ分析部3427に出力する。
メッセージ分析部3427は、読出部341から入力された投稿メッセージから、語順変更部3426から入力されたキーワード情報が示す代表キーワードを含んだ投稿メッセージを分析対象メッセージとして選択する。メッセージ分析部3427は、分析対象メッセージを用いて当該代表キーワードの属性を分析する。メッセージ分析部3427は、選択した属性を示す属性情報を、入力されたキーワード情報と対応付けて通知部332に出力する。メッセージ分析部3427における代表キーワードの属性分析の例については、後述する。
図4は、本実施形態に係るキーワード抽出部3421及び重み算出部3422の処理の一例を説明する図である。
処理例Ex1は、キーワード抽出部3421が、投稿メッセージから抽出したキーワードの例を示す。例えば、投稿メッセージ「[新製品 家電: FL電機] ロボット掃除機「お掃除くん」、全国の量販店にて発売」から、キーワードとして、「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」のそれぞれが抽出される。
処理例Ex1は、キーワード抽出部3421が、投稿メッセージから抽出したキーワードの例を示す。例えば、投稿メッセージ「[新製品 家電: FL電機] ロボット掃除機「お掃除くん」、全国の量販店にて発売」から、キーワードとして、「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」のそれぞれが抽出される。
処理例Ex2は、重み算出部3422が集計したキーワード毎の単位時間内の投稿メッセージにおける出現回数の例を示す。各キーワードの末尾に付されたカッコ[12]内の数値は、そのキーワードが投稿メッセージ内で出現した回数(この場合は、12回)を示す。例えば、キーワード「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」の出現回数は、それぞれ12、16、17、27、24、5、7、15件である。
処理例Ex3は、重み算出部3422が集計したキーワード毎の参照時間内の投稿メッセージにおける出現回数の例を示す。例えば、キーワード「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」の出現回数は、それぞれ42、53、20、29、27、28、24、29件である。
処理例Ex4は、重み算出部3422がキーワード毎の単位時間内の投稿メッセージにおける出現率を、参照時間内の投稿メッセージにおける出現率で除算して算出した重みの例を示す。例えば、キーワード「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」の重みは、それぞれ0.36、0.41、2.25、3.35、2.82、0.21、0.28、0.54である。キーワード「FL電機」、「ロボット掃除機」、「お掃除くん」の重みは、その他のキーワードの重みよりも大きく、それぞれ1を超えている。このことは、これらのキーワードがその時点の単位時間において他の時間帯よりも頻出していることを示す。
図5は、本実施形態に係る重み付け部3423、キーワード選択部3424、文章抽出部3425、及び語順変更部3426の処理の一例を説明する図である。
処理例Ex5は、重み付け部3423が、キーワード毎に単位時間内の出現回数に重みを乗算して算出した単語スコアの例である。
例えば、キーワード「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」の単語スコアは、それぞれ4.32、6.56、38.25、90.45、78.68、1.05、1.96、8.10である。キーワード「FL電機」、「ロボット掃除機」、「お掃除くん」の単語スコアは、その他のキーワードの単語スコアよりも大きく、それぞれ30を超えている。それ以外のキーワードの単語スコアは、いずれも10未満である。このように単位時間内における出現回数が、その他の時間帯における出現回数よりも多いキーワードほど単語スコアが大きくなり、単位時間内における出現回数が少ないキーワードほど単語スコアが小さくなる。
そして、キーワード選択部3424は、単語スコアが最も大きい代表キーワードから3番目に大きい代表キーワードとして、「ロボット掃除機」、「お掃除くん」、「FL電機」を選択する。このようにして、「ロボット掃除機」、「お掃除くん」、「FL電機」が主な話題を示す代表キーワードとして選択される。
処理例Ex5は、重み付け部3423が、キーワード毎に単位時間内の出現回数に重みを乗算して算出した単語スコアの例である。
例えば、キーワード「新製品」、「家電」、「FL電機」、「ロボット掃除機」、「お掃除くん」、「全国」、「量販店」、「発売」の単語スコアは、それぞれ4.32、6.56、38.25、90.45、78.68、1.05、1.96、8.10である。キーワード「FL電機」、「ロボット掃除機」、「お掃除くん」の単語スコアは、その他のキーワードの単語スコアよりも大きく、それぞれ30を超えている。それ以外のキーワードの単語スコアは、いずれも10未満である。このように単位時間内における出現回数が、その他の時間帯における出現回数よりも多いキーワードほど単語スコアが大きくなり、単位時間内における出現回数が少ないキーワードほど単語スコアが小さくなる。
そして、キーワード選択部3424は、単語スコアが最も大きい代表キーワードから3番目に大きい代表キーワードとして、「ロボット掃除機」、「お掃除くん」、「FL電機」を選択する。このようにして、「ロボット掃除機」、「お掃除くん」、「FL電機」が主な話題を示す代表キーワードとして選択される。
処理例Ex6は、文章抽出部3425が、投稿メッセージ毎に算出した代表キーワードw毎の単語スコアs(w)の総和(投稿メッセージ点数)の例である。例えば、投稿メッセージ「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」の投稿メッセージ点数は、233.55である。
処理例Ex7は、文章抽出部3425が、投稿メッセージ点数が最も高い投稿メッセージとして選択した代表メッセージの例を示す。例えば、「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」が代表メッセージとして選択される。
処理例Ex7は、文章抽出部3425が、投稿メッセージ点数が最も高い投稿メッセージとして選択した代表メッセージの例を示す。例えば、「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」が代表メッセージとして選択される。
処理例Ex8は、語順変更部3426が、文章抽出部3425が選択した代表メッセージにおいて出現する順序に並び替えた代表キーワードの例である。例えば、代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」が、代表メッセージ「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」において出現する順序に並び替えられる。従って、代表メッセージの順序に代表キーワード間の構文上の関係が反映される。
(代表キーワードの属性分析)
次に、メッセージ分析部3427による代表キーワードの属性分析の例について説明する。代表キーワードの属性は、例えば、当該代表キーワードの出所である。代表キーワードの出所は、当該代表キーワードが出現した投稿メッセージの投稿者を意味し、例えば、(1)著名ユーザ、(2)一般ユーザ、(3)著名ユーザと一般ユーザの両者、に分類される。著名ユーザとは、その投稿メッセージ、その他の行動や事業が大衆から注目されるユーザである。著名ユーザには、例えば、新聞社、放送局、等の報道機関(マスメディア)、官公庁、国際機関、地方公共団体、大企業等の法人の他、政治家、芸能人、スポーツ選手、実業家、作家、等の著名人が含まれる。一般ユーザとは、著名ユーザ以外の投稿者を意味する。一般ユーザは、主に自然人である。
そこで、記憶部32に著名ユーザによる投稿メッセージを識別する情報を含むユーザデータを予め記憶しておく。メッセージ分析部3427は、ユーザデータを参照して代表キーワードの出所を分析する。
次に、メッセージ分析部3427による代表キーワードの属性分析の例について説明する。代表キーワードの属性は、例えば、当該代表キーワードの出所である。代表キーワードの出所は、当該代表キーワードが出現した投稿メッセージの投稿者を意味し、例えば、(1)著名ユーザ、(2)一般ユーザ、(3)著名ユーザと一般ユーザの両者、に分類される。著名ユーザとは、その投稿メッセージ、その他の行動や事業が大衆から注目されるユーザである。著名ユーザには、例えば、新聞社、放送局、等の報道機関(マスメディア)、官公庁、国際機関、地方公共団体、大企業等の法人の他、政治家、芸能人、スポーツ選手、実業家、作家、等の著名人が含まれる。一般ユーザとは、著名ユーザ以外の投稿者を意味する。一般ユーザは、主に自然人である。
そこで、記憶部32に著名ユーザによる投稿メッセージを識別する情報を含むユーザデータを予め記憶しておく。メッセージ分析部3427は、ユーザデータを参照して代表キーワードの出所を分析する。
次に、ユーザデータの例について説明する。
図6は、本実施形態に係るユーザデータの例を示す図である。ユーザデータは、著名ユーザの名称、アドレス、別称を含み、これらが対応付けられている。名称は、そのユーザの名称である。名称は、必ずしも正式名称に限られず、ユーザ本人により投稿メッセージの投稿の際に用いられる名称であればよい。アドレスは、投稿メッセージにおいて公開されるアドレスであり、必ずしも公式のアドレスでなくてもよい。別称は、当該ユーザの呼称であって、名称とは異なる呼称、例えば、通称、愛称、略称、筆名、等である。メッセージ分析部3427は、ユーザデータを参照して、分析対象メッセージに含まれる名称、アドレス、別称が、ユーザデータに存在する場合、分析対象メッセージに含まれる代表キーワードの出所が、(2)著名ユーザ、であると判定する。また、メッセージ分析部3427は、分析対象メッセージに含まれる名称、アドレス、別称が、ユーザデータに存在しない場合、分析対処メッセージに含まれる代表キーワードの出所が、(1)一般ユーザ、であると判定する。
図6は、本実施形態に係るユーザデータの例を示す図である。ユーザデータは、著名ユーザの名称、アドレス、別称を含み、これらが対応付けられている。名称は、そのユーザの名称である。名称は、必ずしも正式名称に限られず、ユーザ本人により投稿メッセージの投稿の際に用いられる名称であればよい。アドレスは、投稿メッセージにおいて公開されるアドレスであり、必ずしも公式のアドレスでなくてもよい。別称は、当該ユーザの呼称であって、名称とは異なる呼称、例えば、通称、愛称、略称、筆名、等である。メッセージ分析部3427は、ユーザデータを参照して、分析対象メッセージに含まれる名称、アドレス、別称が、ユーザデータに存在する場合、分析対象メッセージに含まれる代表キーワードの出所が、(2)著名ユーザ、であると判定する。また、メッセージ分析部3427は、分析対象メッセージに含まれる名称、アドレス、別称が、ユーザデータに存在しない場合、分析対処メッセージに含まれる代表キーワードの出所が、(1)一般ユーザ、であると判定する。
但し、分析対象メッセージには所定の符号(例えば、「RT」)又は文字列(例えば、頭文字が「@」である別称、アドレス)が含まれる場合がある。その場合には、メッセージ分析部3427は、当該分析対象メッセージが他の投稿メッセージに対する再投稿メッセージ(例えば、リツイート(登録商標))であると判定する。そして、メッセージ分析部3427は、再投稿メッセージと判定された分析対象メッセージに含まれる代表キーワードの出所が、(1)著名ユーザ、(2)一般ユーザ、(3)著名ユーザと一般ユーザの両者、のいずれであるかを判定する。
例えば、次の場合において、メッセージ分析部3427は、代表キーワードの出所が、(1)著名ユーザ、であると判定する。(1−1)分析対象メッセージが、他の著名ユーザによる投稿メッセージに対する、ある著名ユーザが再投稿した投稿メッセージである場合。(1−2)著名ユーザによる投稿メッセージに対して一般ユーザが再投稿した投稿メッセージであるが、著名ユーザによる文章の全部又は一部が引用され、一般ユーザ独自の文章が含まれない場合。(1−3)分析対象メッセージが、一般ユーザによる投稿メッセージに対して著名ユーザが再投稿した投稿メッセージであるが、一般ユーザによる文章が含まれず、著名ユーザ独自の文章が含まれる場合。
また、次の場合において、メッセージ分析部3427は、代表キーワードの出所が、(2)一般ユーザ、であると判定する。(2−1)分析対象メッセージが、他の一般ユーザによる投稿メッセージに対して、ある一般ユーザが再投稿した投稿メッセージである場合。(2−2)著名ユーザによる投稿メッセージに対して一般ユーザが再投稿した投稿メッセージであるが、著名ユーザによる文章が含まれず、一般ユーザ独自の文章が含まれる場合。(2−3)分析対象メッセージが、一般ユーザによる投稿メッセージに対して著名ユーザが再投稿した投稿メッセージであるが、一般ユーザによる文章の一部又は全部が引用され、著名ユーザ独自の文章が含まれない場合。
また、次の場合において、メッセージ分析部3427は、代表キーワードの出所が、(3)著名ユーザと一般ユーザの両者、であると判定する。(3−1)著名ユーザによる投稿メッセージに対して一般ユーザが再投稿した投稿メッセージであり、著名ユーザによる文章の全部又は一部が引用され、かつ、一般ユーザ独自の文章が含まれる場合。(3−2)一般ユーザによる投稿メッセージに対して著名ユーザが再投稿した投稿メッセージであり、一般ユーザによる文章の全部又は一部が引用され、かつ、著名ユーザ独自の文章が含まれる場合。
ここで、メッセージ分析部3427は、分析対象メッセージのうち、上述した所定の符号(例えば、「RT」)又は文字列(例えば、頭文字が「@」である別称、アドレス)の直後に続く一群の文字列からなる文章を、引用部分と判定する。また、メッセージ分析部3427は、頭文字が「@」である別称又はアドレスのうち、ユーザデータに含まれる別称又はアドレスを、著名ユーザの別称又はアドレスと判定する。なお、別称又はアドレスが、分析対象メッセージ冒頭の記述欄に記述されている場合、メッセージ分析部3427は、それらの別称又はアドレスを投稿者(再投稿者)の別称又はアドレスと判定する。また、名称、別称又はアドレスが、分析対象メッセージを構成する本文の記述欄に記述されている場合、メッセージ分析部3427は、それらの名称、別称又はアドレスを引用元の投稿者(原投稿者)の名称、別称又はアドレスと判定する。
次に、メッセージ分析部3427の処理について説明する。
図7は、本実施形態に係るメッセージ分析部3427の処理の一例を説明する図である。
Tw11は、著名ユーザが投稿した投稿メッセージの一例である。投稿メッセージTw11は、文章抽出部3425が抽出した1つの代表メッセージである。投稿メッセージTw11は、表題Tw11−1、名称Tw11−2、投稿日時Tw11−3、及び本文Tw11−4を含む。投稿日時Tw11−3は、投稿時刻のうち年月日で表される情報である。
メッセージ分析部3427は、投稿メッセージTw11から名称Tw11−2「ニューステレビ」を読み取り、ユーザデータに読み取った名称Tw11−2「ニューステレビ」と一致する名称があると判定する。また、メッセージ分析部3427は、投稿メッセージTw11から読み取った本文Tw11−4において、所定の文字列「RT」が含まれておらず、ユーザデータに含まれるアドレス、別称のいずれにも一致するものがないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw11に含まれる代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」の出所が、(1)著名ユーザ、であると判定することができる。これにより、当該単位時間において代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」に関する話題が、著名ユーザの投稿を一因として頻出していることが検知される。
図7は、本実施形態に係るメッセージ分析部3427の処理の一例を説明する図である。
Tw11は、著名ユーザが投稿した投稿メッセージの一例である。投稿メッセージTw11は、文章抽出部3425が抽出した1つの代表メッセージである。投稿メッセージTw11は、表題Tw11−1、名称Tw11−2、投稿日時Tw11−3、及び本文Tw11−4を含む。投稿日時Tw11−3は、投稿時刻のうち年月日で表される情報である。
メッセージ分析部3427は、投稿メッセージTw11から名称Tw11−2「ニューステレビ」を読み取り、ユーザデータに読み取った名称Tw11−2「ニューステレビ」と一致する名称があると判定する。また、メッセージ分析部3427は、投稿メッセージTw11から読み取った本文Tw11−4において、所定の文字列「RT」が含まれておらず、ユーザデータに含まれるアドレス、別称のいずれにも一致するものがないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw11に含まれる代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」の出所が、(1)著名ユーザ、であると判定することができる。これにより、当該単位時間において代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」に関する話題が、著名ユーザの投稿を一因として頻出していることが検知される。
Tw12は、一般ユーザが投稿した投稿メッセージの一例である。投稿メッセージTw12は、名称Tw12−1、本文Tw12−2、及び投稿日時Tw12−3を含む。名称Tw12−1の記述欄には、名称「ユーザ1」、別称「@user1」が記述されている。
メッセージ分析部3427は、投稿メッセージTw12から読み取った名称「ユーザ1」又は別称「@user1」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw12から読み取った本文Tw12−2において、所定の文字列「RT」が含まれておらず、ユーザデータに含まれるアドレス、別称のいずれにも一致するものがないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw12に含まれる代表キーワード「お掃除くん」の出所が、(2)一般ユーザ、であると判定することができる。
メッセージ分析部3427は、投稿メッセージTw12から読み取った名称「ユーザ1」又は別称「@user1」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw12から読み取った本文Tw12−2において、所定の文字列「RT」が含まれておらず、ユーザデータに含まれるアドレス、別称のいずれにも一致するものがないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw12に含まれる代表キーワード「お掃除くん」の出所が、(2)一般ユーザ、であると判定することができる。
Tw13は、一般ユーザが再投稿した投稿メッセージの一例である。投稿メッセージTw13は、名称Tw13−1、本文Tw13−2、及び投稿日時Tw13−3を含む。名称Tw13−1の記述欄には、名称「ユーザ2」、別称「@user2」が記述されている。
メッセージ分析部3427は、投稿メッセージTw13から読み取った名称「ユーザ2」又は別称「@user2」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw13から読み取った本文Tw13−2において、ユーザデータに含まれる別称と一致する別称「@ニュースTV」が含まれると判定する。そのため、メッセージ分析部3427は、投稿メッセージTw13が著名ユーザである「ニューステレビ」による投稿メッセージに対して、一般ユーザである「ユーザ2」が再投稿した投稿メッセージであると判定する。また、本文13−2において、別称「@ニュースTV」の直後に文章が含まれ、別称「@ニュースTV」に先行した位置に、文章が含まれていないため、著名ユーザの文章の一部「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」が含まれているが、一般ユーザ独自の文章が含まれていないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw13に含まれる代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」の出所が、(1)著名ユーザ、であると判定することができる。
メッセージ分析部3427は、投稿メッセージTw13から読み取った名称「ユーザ2」又は別称「@user2」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw13から読み取った本文Tw13−2において、ユーザデータに含まれる別称と一致する別称「@ニュースTV」が含まれると判定する。そのため、メッセージ分析部3427は、投稿メッセージTw13が著名ユーザである「ニューステレビ」による投稿メッセージに対して、一般ユーザである「ユーザ2」が再投稿した投稿メッセージであると判定する。また、本文13−2において、別称「@ニュースTV」の直後に文章が含まれ、別称「@ニュースTV」に先行した位置に、文章が含まれていないため、著名ユーザの文章の一部「「お掃除くん」は、FL電機と健康機器メーカーのY屋と共同で開発したロボット掃除機」が含まれているが、一般ユーザ独自の文章が含まれていないと判定する。従って、メッセージ分析部3427は、投稿メッセージTw13に含まれる代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」の出所が、(1)著名ユーザ、であると判定することができる。
Tw14は、一般ユーザが再投稿した投稿メッセージの他の例である。投稿メッセージTw14は、名称Tw14−1、本文Tw14−2、及び投稿日時Tw14−3を含む。名称Tw14−1の記述欄には、名称「ユーザ3」、別称「@user3」が記述されている。
メッセージ分析部3427は、投稿メッセージTw14から読み取った名称「ユーザ3」又は別称「@user3」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw14から読み取った本文Tw14−2において、所定の符号「RT」が含まれ、ユーザデータに含まれる別称と一致する別称が含まれないと判定する。そのため、投稿メッセージTw14が一般ユーザ「@user1」による投稿メッセージに対して、一般ユーザである「ユーザ3」が再投稿した投稿メッセージであると判定する。また、本文13−2において、符号「RT」及び別称「@user1」に先行した位置に一般ユーザ「ユーザ3」の独自の文章「近所のYB電気は開店前から人だかり」が追加され、符号「RT」及び別称「@user1」の直後に一般ユーザ「ユーザ1」の文章の一部「今日も朝からくしゃみ」が引用されていると判定する。従って、メッセージ分析部3427は、投稿メッセージTw14に含まれる代表キーワード「YB電気」の出所が、(2)一般ユーザ、であると判定することができる。
メッセージ分析部3427は、投稿メッセージTw14から読み取った名称「ユーザ3」又は別称「@user3」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw14から読み取った本文Tw14−2において、所定の符号「RT」が含まれ、ユーザデータに含まれる別称と一致する別称が含まれないと判定する。そのため、投稿メッセージTw14が一般ユーザ「@user1」による投稿メッセージに対して、一般ユーザである「ユーザ3」が再投稿した投稿メッセージであると判定する。また、本文13−2において、符号「RT」及び別称「@user1」に先行した位置に一般ユーザ「ユーザ3」の独自の文章「近所のYB電気は開店前から人だかり」が追加され、符号「RT」及び別称「@user1」の直後に一般ユーザ「ユーザ1」の文章の一部「今日も朝からくしゃみ」が引用されていると判定する。従って、メッセージ分析部3427は、投稿メッセージTw14に含まれる代表キーワード「YB電気」の出所が、(2)一般ユーザ、であると判定することができる。
Tw15は、一般ユーザが再投稿した投稿メッセージのさらに他の例である。投稿メッセージTw15は、名称Tw15−1、本文Tw15−2、及び投稿日時Tw15−3を含む。名称Tw15−1の記述欄には、名称「ユーザ4」、別称「@user4」が記述されている。
メッセージ分析部3427は、投稿メッセージTw15から読み取った名称「ユーザ4」又は別称「@user4」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw15から読み取った本文Tw15−2において、所定の符号「RT」が含まれ、ユーザデータに含まれる別称と一致する別称「ニュースTV」が含まれると判定する。そのため、投稿メッセージTw15が著名ユーザ「ニューステレビ」による投稿メッセージに対して、一般ユーザである「ユーザ4」が再投稿した投稿メッセージであると判定する。また、本文15−2において、符号「RT」及び別称「@ニュースTV」に先行した位置に一般ユーザ「ユーザ4」の独自の文章「近所のYB電気は開店前から人だかり」が追加されている。符号「RT」及び別称「@ニュースTV」の直後に著名ユーザ「ニューステレビ」の文章の一部「価格は5万円と高めだ」が含まれ、別称「@user1」の直後に一般ユーザ「ユーザ1」の文章の一部「お掃除くん欲しい!」が引用されていると判定する。従って、メッセージ分析部3427は、投稿メッセージTw15に含まれる代表キーワード「お掃除くん」の出所が、(3)著名ユーザと一般ユーザの両者、であると判定することができる。
メッセージ分析部3427は、投稿メッセージTw15から読み取った名称「ユーザ4」又は別称「@user4」と一致する名称又は別称が、ユーザデータにないと判定する。また、メッセージ分析部3427は、投稿メッセージTw15から読み取った本文Tw15−2において、所定の符号「RT」が含まれ、ユーザデータに含まれる別称と一致する別称「ニュースTV」が含まれると判定する。そのため、投稿メッセージTw15が著名ユーザ「ニューステレビ」による投稿メッセージに対して、一般ユーザである「ユーザ4」が再投稿した投稿メッセージであると判定する。また、本文15−2において、符号「RT」及び別称「@ニュースTV」に先行した位置に一般ユーザ「ユーザ4」の独自の文章「近所のYB電気は開店前から人だかり」が追加されている。符号「RT」及び別称「@ニュースTV」の直後に著名ユーザ「ニューステレビ」の文章の一部「価格は5万円と高めだ」が含まれ、別称「@user1」の直後に一般ユーザ「ユーザ1」の文章の一部「お掃除くん欲しい!」が引用されていると判定する。従って、メッセージ分析部3427は、投稿メッセージTw15に含まれる代表キーワード「お掃除くん」の出所が、(3)著名ユーザと一般ユーザの両者、であると判定することができる。
なお、分析対象メッセージの個数は、1個に限られず、複数個であってもよい。メッセージ分析部3427は、複数個の分析対象メッセージの1つ、例えば、文章抽出部3425が抽出した代表メッセージについて処理を行ってもよいし、複数個の分析対象メッセージのそれぞれについて処理を行ってもよい。複数個の分析対象メッセージのそれぞれについて処理を行った場合には、メッセージ分析部3427は、代表キーワード毎に、判定された出所(1)著名ユーザ、(2)一般ユーザ、(3)著名ユーザと一般ユーザの両者、それぞれについて分析対象メッセージの件数を計数する。語順変更部3426から入力された代表キーワード情報が示す代表キーワードが複数個ある場合には、代表キーワード間で、出所毎の分析対象メッセージの件数を加算して、出所毎の分析対象メッセージの合計件数を算出する。そして、語順変更部3426は、算出した合計件数が最も多い出所を特定する。これにより、当該単位時間において選択された代表キーワード「お掃除くん」、「FL電機」、「ロボット掃除機」に関する話題が、主にいかなる出所の投稿メッセージに起因して頻出しているかを推定することができる。
(端末装置4の構成)
次に、本実施形態に係る端末装置4の構成について説明する。
図8は、本実施形態に係る端末装置4の構成を示すブロック図である。
端末装置4は、入出力部411、通信部412、記憶部413、条件設定部414、分析情報取得部415(出力部)、操作入力部421、及び表示部422を含んで構成される。
端末装置4は、CPU及び記憶装置を備える。記憶装置は、例えば、HDD、フラッシュメモリ、ROM、RAM、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、記憶部413の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、入出力部411、通信部412、条件設定部414、及び分析情報取得部415のそれぞれの全部又は一部の機能を実現する。
次に、本実施形態に係る端末装置4の構成について説明する。
図8は、本実施形態に係る端末装置4の構成を示すブロック図である。
端末装置4は、入出力部411、通信部412、記憶部413、条件設定部414、分析情報取得部415(出力部)、操作入力部421、及び表示部422を含んで構成される。
端末装置4は、CPU及び記憶装置を備える。記憶装置は、例えば、HDD、フラッシュメモリ、ROM、RAM、又はそれらの組み合わせである。記憶装置には、CPUで実行される各種のプログラム、CPUで実行される処理に用いられる各種のデータ、CPUで実行された処理により生成されたデータを記憶することにより、記憶部413の機能を実現する。CPUは、記憶装置に記憶されているプログラムを実行することにより、入出力部411、通信部412、条件設定部414、及び分析情報取得部415のそれぞれの全部又は一部の機能を実現する。
入出力部411は、操作入力部421から入力された操作信号を条件設定部414又は分析情報取得部415に出力する。入出力部411は、条件設定部414又は分析情報取得部415から入力された各種の画像信号を表示部422に出力する。入出力部411は、例えば、データ入出力インタフェースである。
通信部412は、ネットワーク61に接続して情報処理装置3との間で各種のデータを送受信する。通信部412は、例えば、通信インタフェースである。
記憶部413は、端末装置4における各種の処理に用いられるデータ、処理によって生成されたデータ、端末装置4が受信したデータを記憶する記憶媒体を含んで構成される。
通信部412は、ネットワーク61に接続して情報処理装置3との間で各種のデータを送受信する。通信部412は、例えば、通信インタフェースである。
記憶部413は、端末装置4における各種の処理に用いられるデータ、処理によって生成されたデータ、端末装置4が受信したデータを記憶する記憶媒体を含んで構成される。
条件設定部414は、投稿メッセージの分析条件を示す分析条件情報を設定する。条件設定部414は、予め記憶部413に記憶させておいた各種の表示画面データを読み取り、読み取った表示画面データを、入出力部411を介して表示部422に出力する。表示画面データには、初期画面を示す初期画面データ、各種の情報を重ね合わせて表示するための情報表示画面データがある。表示部422には、条件設定部414から入力された表示画面データに基づく表示画面が表示される。表示画面には、各種の分析条件が操作信号により入力可能な入力欄が設けられている。分析条件は、上述した単位時間、分析期間、及び分析キーワードが含まれる。条件設定部414は、入出力部411を介して入力された操作信号に基づいて指定された分析条件を示す分析条件情報を生成する。条件設定部414は、生成した分析条件情報を、通信部412を介して情報処理装置3に送信する。
分析情報取得部415は、入出力部411を介して入力された操作信号に基づいて投稿メッセージを分析して生成された情報を取得する。分析情報取得部415は、操作信号が指示する各種の情報の要求を示す情報要求信号を生成し、生成した情報要求信号を、通信部412を介して情報処理装置3に送信する。分析情報取得部415は、その応答として操作信号が指示する情報を情報処理装置3から受信する。
表示部422に初期画面が表示されている場合には、分析情報取得部415は、初期画面を消去し、予め記憶部413に記憶させておいた情報表示画面データを読み取り、読み取った情報表示画面データを、入出力部411を介して表示部422に出力する。表示部422には、情報表示画面データに基づく情報表示画面が表示される。分析情報取得部415は、取得した各種の情報を情報表示画面に合成し、合成した情報表示画面を示す情報表示画面データを生成する。分析情報取得部415は、生成した情報表示画面データを、入出力部411を介して表示部422に出力する。これにより、表示部422には、各種の情報が合成された情報表示画面が表示される。また、分析情報取得部415は、情報処理装置3から取得した各種の情報を記憶部413に記憶してもよく、記憶部413から操作信号より指示された情報を読み取り、情報表示画面に合成して表示部422に表示させてもよい。
分析情報取得部415は、例えば、次の情報が取得可能である。(a)投稿数の時系列を示す投稿数情報、(b)盛り上がりが検出された単位時間を示す盛り上がり情報、(c)盛り上がりが検出された単位時間において選択された代表キーワードを示すキーワード情報、(d)単位時間毎に抽出されたキーワードのリストとキーワード毎の単語スコアを示す特徴語リスト、(e)分析期間内に抽出された頻出語のリストと、頻出語間の共起関係を示す関連語情報、等がある。頻出語とは、出現回数が多いキーワードを意味し、特徴語リストが示すキーワードの全部または一部該当する。頻出語間の共起関係とは、例えば、1つの頻出語と他の1つの頻出語の両方が出現する投稿メッセージの件数の、分析期間内における投稿メッセージの総数に対する割合(出現率)である。表示部422に表示される表示画面の例については、後述する。
操作入力部421は、ユーザから受け付けた操作に応じた操作信号を生成し、生成した操作信号を入出力部411に出力する。操作入力部421は、例えば、キーボード、タッチパネル、マウス、等を含んで構成される。
表示部422は、入出力部411から入力された表示用データが示す情報、例えば、投稿情報、盛り上がり情報、等を表示する。表示部422は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro−luminescence)ディスプレイである。操作入力部421がタッチセンサである場合には、表示部422は、操作入力部421と一体化されたタッチパネルとして構成されてもよい。
表示部422は、入出力部411から入力された表示用データが示す情報、例えば、投稿情報、盛り上がり情報、等を表示する。表示部422は、例えば、液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL(Electro−luminescence)ディスプレイである。操作入力部421がタッチセンサである場合には、表示部422は、操作入力部421と一体化されたタッチパネルとして構成されてもよい。
(表示画面の例)
次に、表示部422に表示される表示画面の例について説明する。
図9は、初期画面の一例を示す図である。初期画面には、分析条件を設定するためのプルダウンメニューd05、入力欄d07、ボタンd08と、取得すべき情報を指定するためのプルダウンメニューd10、ボタンd12〜d15と、を含んで構成される。
次に、表示部422に表示される表示画面の例について説明する。
図9は、初期画面の一例を示す図である。初期画面には、分析条件を設定するためのプルダウンメニューd05、入力欄d07、ボタンd08と、取得すべき情報を指定するためのプルダウンメニューd10、ボタンd12〜d15と、を含んで構成される。
プルダウンメニューd05は、予め設定された複数の分析期間と単位時間のセットから1つのセットを、操作信号により選択するために用いられる。プルダウンメニューd05の「直近1日(1時間単位)」との表示は、分析期間が、直近の1日であって、単位時間が1時間単位であることを意味する。直近とは、取得済みの投稿メッセージを用いる場合には、集計済みの直近、つまり、その取得期間のうちの最も現在に近い時間帯を意味し、新規の投稿メッセージを用いる場合には、現在までの時間帯を意味する。
入力欄d07は、操作信号により入力された分析キーワードを入力するために用いられる。ボタンd08(「確定」)は、押下されることにより入力欄d07に表示された分析キーワードを確定するために用いられる。確定した分析キーワードは、当該分析キーワードを含む投稿メッセージを分析対象として絞り込むために用いられる。「押下」とは、ユーザの操作により生じた操作信号であって、表示領域内の位置を指示する操作信号が取得されることを意味する。なお、入力欄d07では、複数の分析キーワードと論理演算子「AND」、「OR」、「NOT」とからなる論理式が設定されてもよい。その場合には、設定された論理式が示す条件に合致する投稿メッセージが分析対象として指示される。例えば、分析キーワードとして、「コピー」と「紙詰まり」の両者を含む投稿メッセージを抽出するためには、「コピー AND 紙詰まり」と設定されればよい。また、「コピー」と「紙詰まり」の少なくともいずれか一方を含む投稿メッセージを抽出するためには、「コピー OR 紙詰まり」と設定されればよい。また、「コピー」を含み、かつ「紙詰まり」を含まない投稿メッセージを抽出するためには、「コピー AND NOT 紙詰まり」と設定されればよい。
プルダウンメニューd10は、分析に用いられる投稿メッセージ(使用データ)を新規に投稿サーバ装置2から情報処理装置3に取得させるか、取得済みの投稿メッセージから前もって抽出したキーワードを用いて分析させるかを、操作信号により選択するために用いられる。プルダウンメニューd10の「抽出済」との表示は、取得済みの投稿メッセージを用いて分析させることを意味する。データ名の欄における「KADEN」との表示d02は、取得済みの投稿メッセージの集合を示す名称(データ名)である。
ボタンd12は、「時系列チャート」との文字列が表示され、投稿数情報を、押下により指示するために用いられる。分析情報取得部415は、取得した投稿数情報が示す単位時間毎の投稿数を表す時系列チャートを表示部422に表示させる。投稿数は、指示された分析キーワード又は論理式に合致する投稿メッセージの単位時間毎の件数である。
ボタンd13は、「相対値」との文字列が表示され、時系列を構成する情報として相対値を、押下により指示するために用いられる。相対値は、単位時間毎の指定された分析キーワード又はその論理式に合致した投稿メッセージの件数の、全投稿メッセージの件数に対する比である。入力欄d07により分析キーワード又はその論理式が指定されていない場合には、ボタンd13は、押下不可能であってもよいし、非表示であってもよい。
ボタンd13は、「相対値」との文字列が表示され、時系列を構成する情報として相対値を、押下により指示するために用いられる。相対値は、単位時間毎の指定された分析キーワード又はその論理式に合致した投稿メッセージの件数の、全投稿メッセージの件数に対する比である。入力欄d07により分析キーワード又はその論理式が指定されていない場合には、ボタンd13は、押下不可能であってもよいし、非表示であってもよい。
ボタンd14は、「関連語表示」という文字列が表示され、関連語情報を、押下により指示するために用いられる。分析情報取得部415は、取得した関連語情報が示す分析期間内(盛り上がりが検出された単位時間内に限らない)に抽出された頻出語のリストと頻出語間の共起関係を示すグラフを表示部422に表示させる。
ボタンd15は、「頻出語時系列」という文字列が表示され、特徴語リスト(頻出語のリスト)を、押下により指示するために用いられる。分析情報取得部415は、指示された分析期間内(盛り上がりが検出された単位時間内に限らない)の単位時間毎のキーワード(頻出語)のリストと出現率を表示部422に表示させる。
ボタンd15は、「頻出語時系列」という文字列が表示され、特徴語リスト(頻出語のリスト)を、押下により指示するために用いられる。分析情報取得部415は、指示された分析期間内(盛り上がりが検出された単位時間内に限らない)の単位時間毎のキーワード(頻出語)のリストと出現率を表示部422に表示させる。
図10は、情報表示画面の一例を示す図である。初期画面と同一の構成要素については、同一の符号を付して上述の説明を援用する。図10に示す情報表示画面は、初期画面上のボタンd12の押下に応じて分析情報取得部415により表示部422に表示される画面である。当該画面には、分析条件を設定するためのプルダウンメニューd05、e05、入力欄d07、e02、e03、ボタンd08と、取得すべき情報を指定するためのプルダウンメニューd10、ボタンd12〜d14、ボタンe07〜e11と、単位時間毎の時系列を表示するための表示欄e21と、その表題e22を含んで構成される。
入力欄e02は、投稿数の表示期間の開始時刻を入力するために用いられ、その開始時刻を示す年、月、日、時、分、が操作信号により入力可能である。表示期間は、表示欄e21に表示させる投稿数の範囲である。表示期間は、分析期間に含まれる期間であり、少なくとも1個以上の単位時間を含む期間である。
入力欄e03は、投稿数の表示期間の終了時刻を入力するために用いられ、その終了時刻を示す年、月、日、時、分、が操作信号により入力可能である。
指定された開始時刻「2014−03−14 00:00」、終了時刻「2014−03−26 00:00」、表示期間内の投稿数の合計値「168729件」は、表題e22にも表示される。
プルダウンメニューe05は、予め設定された複数の単位時間から1つの単位時間を、操作信号により選択するために用いられる。プルダウンメニューe05の「60分」との表示は、単位時間として60分が選択されることを示す。
入力欄e03は、投稿数の表示期間の終了時刻を入力するために用いられ、その終了時刻を示す年、月、日、時、分、が操作信号により入力可能である。
指定された開始時刻「2014−03−14 00:00」、終了時刻「2014−03−26 00:00」、表示期間内の投稿数の合計値「168729件」は、表題e22にも表示される。
プルダウンメニューe05は、予め設定された複数の単位時間から1つの単位時間を、操作信号により選択するために用いられる。プルダウンメニューe05の「60分」との表示は、単位時間として60分が選択されることを示す。
ボタンe07は、「左へ」という文字列が表示され、その時点で指示された表示期間よりも遅い期間を表示期間として押下により指示するために用いられる。分析情報取得部415は、指示された表示期間内における単位時間毎の投稿数を示す時系列チャートを表示部422に表示させる。
ボタンe08は、「右へ」という文字列が表示され、その時点で指示された表示期間よりも早い期間を表示期間として押下により指示するために用いられる。分析情報取得部415は、指示された表示期間内における単位時間毎の投稿数を示す時系列チャートを表示部422に表示させる。
ボタンe08は、「右へ」という文字列が表示され、その時点で指示された表示期間よりも早い期間を表示期間として押下により指示するために用いられる。分析情報取得部415は、指示された表示期間内における単位時間毎の投稿数を示す時系列チャートを表示部422に表示させる。
ボタンe09は、「頻出語表示」という文字列が表示され、表示期間内の特徴語リストを、押下により指示するために用いられる。分析情報取得部415は、指示された表示期間内の単位時間毎のキーワード(頻出語)のリストと出現率を表示部422に表示させる。
ボタンe10は、「全体表示」という文字列が表示され、分析期間の全体を表示期間として押下により指示するために用いられる。分析情報取得部415は、分析期間の全体における単位時間毎の投稿数を示す時系列チャートを表示部422に表示させる。
ボタンe11は、ボタンd15と同様に「頻出語時系列」という文字列が表示され、分析期間の全体における特徴語リストを、押下により指示するために用いられる。なお、分析情報取得部415は、出現率に代えて、又は出現率とともに単語スコアが情報表示画面に重ね合わせて表示されてもよい。
ボタンe10は、「全体表示」という文字列が表示され、分析期間の全体を表示期間として押下により指示するために用いられる。分析情報取得部415は、分析期間の全体における単位時間毎の投稿数を示す時系列チャートを表示部422に表示させる。
ボタンe11は、ボタンd15と同様に「頻出語時系列」という文字列が表示され、分析期間の全体における特徴語リストを、押下により指示するために用いられる。なお、分析情報取得部415は、出現率に代えて、又は出現率とともに単語スコアが情報表示画面に重ね合わせて表示されてもよい。
表示欄e21には、指定された表示期間内の単位時間毎の投稿数を示す時系列チャートが表示される。当該時系列チャートの横軸、縦軸は、それぞれ時刻、投稿数である。表示欄e21上の、ある単位時間(盛り上がりが検出された単位時間内に限らない)の投稿数を示すプロットが押下されたとき、分析情報取得部415は、その単位時間に係る特徴語リストを表示部422に表示させてもよい。ユーザは、所望の単位時間における頻出語と、それぞれの出現の度合いとそれらの順序を知得することができる。
また、図10に示す例では、5個の盛り上がりp01〜p05が表されている。
また、図10に示す例では、5個の盛り上がりp01〜p05が表されている。
図11は、盛り上がりの検出日時とレベルのリストの一例である。図11に示す検出日時は、盛り上がりp01〜p05の単位時間の開始時刻である。例えば、第2行の日時「2014−03−24 12:00」は、盛り上がりp01が検出された単位時間の開始時刻である。レベルは、盛り上がり毎の投稿数を分析期間内の平均値からの偏差を、標準偏差で正規化して算出された値である。第2行のレベル「2.57」は、盛り上がりp10の投稿数1055件についての平均値389件からの偏差666を、標準偏差259で除算して算出される。
図12は、ボタンe09の押下により表示部422に表示される特徴語リストの一例を示す図である。図12に示す特徴語リストは、ある単位時間において選択されたキーワードと、キーワード毎の単語スコアとが、単語スコアの降順に配列される。例えば、キーワード「ロボット」、「お掃除くん」、「FL電機」、「発売」、「家電」、「新製品」が、それぞれの単語スコア「90.45」、「67.88」、「38.25」、「8.10」、「6.45」、「4.32」の順に配列されている。
上述した時系列チャートによれば、盛り上がりp01〜p05の時間帯において、ユーザは投稿が活発に行われていたことを直感的に把握することができる。しかしながら、この情報のみでは、話題を把握することはできない。ユーザは、盛り上がりが検出された単位時間における投稿数を示すプロットを指示し、特徴語リストを表示させることで、その単位時間内における話題を把握することができる。その場合でも、同時に複数の単位時間を跨いだ話題、とりわけ表示期間もしくは分析期間にわたる話題の変遷を即座に把握することは困難である。その一方で、表示部422の表示領域は有限であるため、全単位時間のそれぞれについてキーワードを表示することは現実的ではない。
そこで、本実施形態では、分析情報取得部415は、情報処理装置3の通知部332から盛り上がり情報とキーワード情報とを対応付けて取得する。また、分析情報取得部415は、取得したキーワード情報が示す代表キーワードを、当該代表キーワードを選択した盛り上がりと対応付けて表示部422に表示させる。分析情報取得部415は、さらに属性情報をキーワード情報と対応付けて取得し、取得した属性情報が示す代表キーワードの属性を、代表キーワードと対応付けて表示部422に表示させてもよい。代表キーワードの属性の表示は、文字で表示されてもよいが、後述するように代表キーワードの表示態様(色、装飾、大きさ、等)により表現されてもよい。これらの情報は、単位時間毎の投稿数を示す時系列チャートに重ね合わせて表示される。
図13は、表示部422に表示される時系列チャートの一例を示す図である。図13に示す単位時間毎の投稿数は、図10の表示欄e21に表された単位時間毎の投稿数と同様である。図10との差異点は、盛り上がり毎にキーワード情報が示す代表キーワードが、その盛り上がりが検出された単位時間の投稿数のプロットに対応付けられて表示されている点である。また、盛り上がりが検出された単位時間の代表キーワードは、その単位時間の属性情報に応じた線種の線分からなる枠で囲まれている点である。例えば、盛り上がりp01、p02、p03、p04、p05を表すプロットをそれぞれ一端とし、代表キーワード「Y屋コラボ企画」、「Y屋コラボ企画」、「花粉除去」、「ロボット掃除機」、「特価キャンペーン」をそれぞれ他端とする線分(リンク)が表示されている。また、代表キーワード「Y屋コラボ企画」、「Y屋コラボ企画」、「ロボット掃除機」、「特価キャンペーン」は、それぞれ実線の四角形の枠で囲まれ、「花粉除去」は、破線の四角形の枠で囲まれている。実線の四角形の枠は、代表キーワードの属性が、出所が(2)一般ユーザ、であることを示す。破線の四角形の枠は、代表キーワードの属性が、出所が(1)著名ユーザ、であることを示す。また、枠の線種と、対応する代表キーワードとを結ぶ線分の線種とを共通に表示することで、盛り上がり、代表キーワード及ぶ代表キーワードの属性との対応関係を、盛り上がり間で明瞭に識別することができる。
このように、盛り上がりが検出された単位時間内に選択された代表キーワードが、その単位時間と対応付けられることで、ユーザは盛り上がりが検出された単位時間内における主な話題を即座に把握することができる。また、盛り上がりが検出された単位時間内の投稿メッセージに含まれている代表キーワードの属性が、その単位時間と対応付けられることで、ユーザは盛り上がりが検出された時間帯における話題を表す代表キーワードの属性を直感的に把握することができる。代表キーワードの属性として、例えば、出所が著名ユーザ、一般ユーザ、著名ユーザと一般ユーザの両方、のいずれかが把握される。
なお、盛り上がりp01、p02のように複数の盛り上がり間において、代表キーワードが共通である場合には、その複数の盛り上がり間で共通の1つの代表キーワードが表示されてもよい。これにより、複数の盛り上がりのそれぞれについて代表キーワードが表示される場合よりも、異なる単位時間の間で主な話題が共通であることをユーザに直感的に把握させることができ、代表キーワードの表示領域を節約することができる。
図14、図15は、本実施形態に係る情報処理を示すシーケンス図である。
図14において、(ステップS101)端末装置4の条件設定部414は、操作入力部421から入力された操作信号に基づいて操作投稿メッセージの分析条件を示す分析条件情報を設定する。
(ステップS102)端末装置4の条件設定部414は、設定した分析条件情報を情報処理装置3に送信する。
(ステップS103)情報処理装置3の記憶部32には、投稿サーバ装置2から取得した投稿メッセージが投稿アドレスと投稿時刻と対応付けて記憶されている。検出部331は、端末装置4から受信した分析条件情報が示す分析条件を満たす投稿メッセージを記憶部32から読み取る。
(ステップS104)情報処理装置3の検出部331は、読み取った投稿メッセージの投稿数を単位時間毎に計数し、計数した投稿数から盛り上がりを検出する。
図14において、(ステップS101)端末装置4の条件設定部414は、操作入力部421から入力された操作信号に基づいて操作投稿メッセージの分析条件を示す分析条件情報を設定する。
(ステップS102)端末装置4の条件設定部414は、設定した分析条件情報を情報処理装置3に送信する。
(ステップS103)情報処理装置3の記憶部32には、投稿サーバ装置2から取得した投稿メッセージが投稿アドレスと投稿時刻と対応付けて記憶されている。検出部331は、端末装置4から受信した分析条件情報が示す分析条件を満たす投稿メッセージを記憶部32から読み取る。
(ステップS104)情報処理装置3の検出部331は、読み取った投稿メッセージの投稿数を単位時間毎に計数し、計数した投稿数から盛り上がりを検出する。
(ステップS105)情報処理装置3のキーワード抽出部3421は、盛り上がりが検出された単位時間内に投稿された投稿メッセージからキーワードを抽出する。
(ステップS106)情報処理装置3の重み算出部3422は、抽出されたキーワード毎の盛り上がりが検出された単位時間内の出現率を算出する。
(ステップS107)情報処理装置3の重み算出部3422は、抽出されたキーワード毎の盛り上がりが検出された単位時間を含む参照時間内の出現率を算出する。
(ステップS108)情報処理装置3の重み算出部3422は、キーワード毎に算出した単位時間内の出現率と参照時間内の出現率に基づいて重みを算出する。
(ステップS109)情報処理装置3の重み付け部3423は、キーワード毎に算出した重みと盛り上がりが検出された単位時間内の出現回数に基づいて単語スコアを算出する。
(ステップS106)情報処理装置3の重み算出部3422は、抽出されたキーワード毎の盛り上がりが検出された単位時間内の出現率を算出する。
(ステップS107)情報処理装置3の重み算出部3422は、抽出されたキーワード毎の盛り上がりが検出された単位時間を含む参照時間内の出現率を算出する。
(ステップS108)情報処理装置3の重み算出部3422は、キーワード毎に算出した単位時間内の出現率と参照時間内の出現率に基づいて重みを算出する。
(ステップS109)情報処理装置3の重み付け部3423は、キーワード毎に算出した重みと盛り上がりが検出された単位時間内の出現回数に基づいて単語スコアを算出する。
図15に進み、(ステップS111)情報処理装置3のキーワード選択部3424は、単語スコアが最も高いキーワードを選択する。
(ステップS112)情報処理装置3のキーワード選択部3424は、選択されたキーワードの全長が所定の範囲内(例えば、5文字以上20文字以内)であるか否かを判定する。所定の範囲内と判定された場合には(ステップS112 YES)、ステップS113の処理に進む。所定の範囲外であると判定された場合には(ステップS112 NO)、ステップS114の処理に進む。
(ステップS113)情報処理装置3のキーワード選択部3424は、単語スコアが次に高いキーワードを選択する。その後、ステップS112の処理に戻る。
(ステップS112)情報処理装置3のキーワード選択部3424は、選択されたキーワードの全長が所定の範囲内(例えば、5文字以上20文字以内)であるか否かを判定する。所定の範囲内と判定された場合には(ステップS112 YES)、ステップS113の処理に進む。所定の範囲外であると判定された場合には(ステップS112 NO)、ステップS114の処理に進む。
(ステップS113)情報処理装置3のキーワード選択部3424は、単語スコアが次に高いキーワードを選択する。その後、ステップS112の処理に戻る。
(ステップS114)情報処理装置3のキーワード選択部3424が選択した代表キーワードの個数が複数である場合には、文章抽出部3425は、代表メッセージを抽出する。代表メッセージとして、盛り上がりが検出された単位時間内の投稿メッセージのうち、投稿メッセージに出現した代表キーワード毎の単語スコアの総和が最も大きい投稿メッセージが選択される。
(ステップS115)情報処理装置3のキーワード選択部3424が選択した代表キーワードの個数が複数である場合には、語順変更部3426は、複数の代表キーワードを抽出した代表メッセージに出現する順序に並び替える。
(ステップS115)情報処理装置3のキーワード選択部3424が選択した代表キーワードの個数が複数である場合には、語順変更部3426は、複数の代表キーワードを抽出した代表メッセージに出現する順序に並び替える。
(ステップS116)情報処理装置3のメッセージ分析部3427は、キーワード選択部3424が選択した代表キーワードを含む投稿メッセージから、当該代表キーワードの属性を分析する。
(ステップS117)情報処理装置3の通知部332は、盛り上がりが検出された単位時間を示す盛り上がり情報、選択された代表キーワードを示すキーワード情報、及び分析された代表キーワードの属性を示す属性情報を、当該単位時間毎に対応付ける。
(ステップS118)情報処理装置3の通知部332は、単位時間毎に対応付けた盛り上がり情報、キーワード情報及び属性情報を端末装置4に送信する。
(ステップS117)情報処理装置3の通知部332は、盛り上がりが検出された単位時間を示す盛り上がり情報、選択された代表キーワードを示すキーワード情報、及び分析された代表キーワードの属性を示す属性情報を、当該単位時間毎に対応付ける。
(ステップS118)情報処理装置3の通知部332は、単位時間毎に対応付けた盛り上がり情報、キーワード情報及び属性情報を端末装置4に送信する。
(ステップS119)端末装置4の分析情報取得部415は、操作入力部421から入力された操作信号に基づいて時系列チャートの表示が指示されたとき、以下のステップの処理を行う。
(ステップS120)端末装置4の分析情報取得部415は、情報処理装置3からの盛り上がり情報、キーワード情報及び属性情報を取得する。
(ステップS121)端末装置4の分析情報取得部415は、単位時間毎の投稿数を示す時系列チャートに、キーワード情報が示す代表キーワードを重ね合わせて表示部422に表示させる。分析情報取得部415は、当該代表キーワードを盛り上がり情報が示す単位時間に対応付け、属性情報が示す代表キーワードの属性に対応する態様で表示させる。その後、図15に示す処理を終了する。
(ステップS120)端末装置4の分析情報取得部415は、情報処理装置3からの盛り上がり情報、キーワード情報及び属性情報を取得する。
(ステップS121)端末装置4の分析情報取得部415は、単位時間毎の投稿数を示す時系列チャートに、キーワード情報が示す代表キーワードを重ね合わせて表示部422に表示させる。分析情報取得部415は、当該代表キーワードを盛り上がり情報が示す単位時間に対応付け、属性情報が示す代表キーワードの属性に対応する態様で表示させる。その後、図15に示す処理を終了する。
以上に説明したように、本実施形態に係る情報処理装置3は、単位時間毎に投稿された投稿メッセージから代表キーワードを選択するキーワード選択部3424と、投稿メッセージの単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部331を備える。また、検出部331が検出した単位時間と当該単位時間に選択された代表キーワードとを対応付けて端末装置4に出力する通知部332とを備える。
この構成によれば、所定の時間変化特性が検出された単位時間内に投稿された投稿メッセージから抽出された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の特徴的な変化をもたらす話題をユーザに直ちに把握させることができる。
この構成によれば、所定の時間変化特性が検出された単位時間内に投稿された投稿メッセージから抽出された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の特徴的な変化をもたらす話題をユーザに直ちに把握させることができる。
また、検出部331が検出する所定の時間変化特性は、時間経過に対して極大であって、投稿数が単位時間よりも長い分析期間内の平均値よりも多い時間変化特性である。
この構成によれば、投稿数がその前後の単位時間よりも多い期間に相当する単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の顕著な増加の要因となりうる話題を表す代表キーワードをユーザに把握させることができる。
この構成によれば、投稿数がその前後の単位時間よりも多い期間に相当する単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の顕著な増加の要因となりうる話題を表す代表キーワードをユーザに把握させることができる。
また、キーワード選択部3424は、単位時間内に投稿された文章への出現頻度に基づく単語スコアが大きいキーワードほど優先して代表キーワードとして選択する。
この構成によれば、当該単位時間内に投稿された投稿メッセージに頻出する代表キーワードが当該単位時間と対応付けられるので、投稿件数の特徴的な変化の主要因となる話題をユーザに把握させることができる。
この構成によれば、当該単位時間内に投稿された投稿メッセージに頻出する代表キーワードが当該単位時間と対応付けられるので、投稿件数の特徴的な変化の主要因となる話題をユーザに把握させることができる。
また、キーワード選択部3424は、全長が所定の長さの範囲内となるように選択する代表キーワードの個数を制限する。
この構成によれば、単位時間と対応付けて出力される代表キーワードの全長が所定の長さの範囲内に制限される。そのため、出力される代表キーワードの長さが短すぎるためにユーザによる話題の把握が困難になることや、限られた表示領域において、代表キーワードが長過ぎるために他の情報の表示領域を占有してしまうことを避けることができる。
この構成によれば、単位時間と対応付けて出力される代表キーワードの全長が所定の長さの範囲内に制限される。そのため、出力される代表キーワードの長さが短すぎるためにユーザによる話題の把握が困難になることや、限られた表示領域において、代表キーワードが長過ぎるために他の情報の表示領域を占有してしまうことを避けることができる。
また、情報処理装置3は、キーワード選択部3424が選択した代表キーワードを含む投稿メッセージに基づいて当該代表キーワードの属性を分析するメッセージ分析部3427を備え、通知部332は、代表キーワードとその属性とを対応付けて出力する。
この構成によれば、盛り上がりが検出された単位時間と、選択された代表キーワードに加え、当該代表キーワードの属性が対応付けて出力される。そのため、盛り上がりが検出された投稿メッセージにおける話題の傾向と、その話題に係る属性、例えば、投稿者の種別との関係をユーザに把握させることができる。
従って、本実施形態によれば投稿メッセージに対する分析効率を向上することができる。
この構成によれば、盛り上がりが検出された単位時間と、選択された代表キーワードに加え、当該代表キーワードの属性が対応付けて出力される。そのため、盛り上がりが検出された投稿メッセージにおける話題の傾向と、その話題に係る属性、例えば、投稿者の種別との関係をユーザに把握させることができる。
従って、本実施形態によれば投稿メッセージに対する分析効率を向上することができる。
(第2の実施形態)
次に、本実施形態の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
本実施形態に係る情報処理システムS1を構成する情報処理装置3の検出部331は、投稿数の所定の時間変化特性として、投稿数の一時的低下を検出する。一時的低下は、投稿数が分析期間内の所定の第2の基準投稿数よりも少なく、時間経過に対して極小となる状態である。所定の第2の基準投稿数は、分析期間内の投稿数の平均値以下の正の値である。時間経過に対して極小とは、直前及び直後の単位時間の投稿数よりも少ない状態、つまりボトムを意味する。よって、検出部331は、その前後の単位時間よりも投稿数が少ない単位時間を一時的低下が生じた単位時間として判定することができる。
次に、本実施形態の第2の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
本実施形態に係る情報処理システムS1を構成する情報処理装置3の検出部331は、投稿数の所定の時間変化特性として、投稿数の一時的低下を検出する。一時的低下は、投稿数が分析期間内の所定の第2の基準投稿数よりも少なく、時間経過に対して極小となる状態である。所定の第2の基準投稿数は、分析期間内の投稿数の平均値以下の正の値である。時間経過に対して極小とは、直前及び直後の単位時間の投稿数よりも少ない状態、つまりボトムを意味する。よって、検出部331は、その前後の単位時間よりも投稿数が少ない単位時間を一時的低下が生じた単位時間として判定することができる。
検出部331は、一時的低下を検出した単位時間を示す一時的低下情報を通知部332及び抽出部34に出力する。通知部332、抽出部34は、上述した盛り上がりに対する処理と同様な処理を、一時的低下に対しても行う。例えば、通知部332は、一時的低下が検出された単位時間の投稿メッセージから選択された代表キーワードを示すキーワード情報と、当該代表キーワードの属性を示す属性情報を対応付けて端末装置4に送信する。
端末装置4は、上述した盛り上がりに対する処理と同様な処理を、一時的低下に対しても行う。例えば、分析情報取得部415は、情報処理装置3から一時的低下情報、キーワード情報及び属性情報を取得する。分析情報取得部415は、単位時間毎の投稿数を示す時系列チャートに、キーワード情報が示す代表キーワードを重ね合わせて表示部422に表示させる。ここで、分析情報取得部415は、当該代表キーワードを一時的低下情報が示す単位時間に対応付け、属性情報が示す代表キーワードの属性に対応する態様で表示させる。
図16は、表示部422に表示される時系列チャートの一例を示す図である。図16に示す単位時間毎の投稿数は、図13に表された単位時間毎の投稿数と同様である。図16には、盛り上がりp01〜p05の他に、一時的低下b01、b02毎にキーワード情報が示す代表キーワードが、その一時的低下が検出された単位時間の投稿数のプロットに対応付けられて表示されている。一時的低下が検出された単位時間の代表キーワードは、その単位時間の属性情報に対応した線種の線分からなる枠で囲まれている。一時的低下b01、b02を表すプロットをそれぞれ一端とし、代表キーワード「花冷え対策」、「除湿機能付き清浄機」をそれぞれ他端とする線分が表示されている。また、代表キーワード「花冷え対策」、「除湿機能付き清浄機」は、それぞれ破線、実線の四角形の枠で囲まれている。破線の四角形の枠は、代表キーワードの属性が、出所が(1)著名ユーザ、であることを示し、実線の四角形の枠は、代表キーワードの属性が、出所が(2)一般ユーザ、であることを示す。
なお、図16において、盛り上がりp01〜p05の表示が省略されてもよい。
なお、図16において、盛り上がりp01〜p05の表示が省略されてもよい。
以上に説明したように、本実施形態に係る情報処理装置3において検出部331が検出する所定の時間変化特性は、時間経過に対して極小であって、投稿数が単位時間よりも長い分析期間内の平均値以下である時間変化特性である。
この構成によれば、投稿数がその前後の単位時間よりも少ない期間に相当する単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、時間経過に応じて投稿数が低下する区間から投稿数が増加する区間に遷移する際に生じがちな話題の転換をユーザに把握させることができる。
この構成によれば、投稿数がその前後の単位時間よりも少ない期間に相当する単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、時間経過に応じて投稿数が低下する区間から投稿数が増加する区間に遷移する際に生じがちな話題の転換をユーザに把握させることができる。
(第3の実施形態)
次に、本実施形態の第3の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
本実施形態に係る情報処理システムS1を構成する情報処理装置3の検出部331は、
投稿数の所定の時間変化特性として、投稿数の急変を検出する。投稿数の急変は、単位時間毎の投稿数が急激に変化することを意味する。よって、検出部331は、その時点の単位時間内の投稿数から直前の単位時間内の投稿数の差分の絶対値が、所定の差分の閾値よりも大きい単位時間を、投稿数の急変が生じた単位時間として判定することができる。所定の差分の閾値は、例えば、b・σである。bは、所定の正の実数である。bは、典型的には0.3から1.5までのいずれかの値、例えば、0.5、1.0、等である。また、所定の差分の閾値は、投稿数が増加する場合と減少する場合とで、等しくてもよいし、異なってもよい。
次に、本実施形態の第3の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。
本実施形態に係る情報処理システムS1を構成する情報処理装置3の検出部331は、
投稿数の所定の時間変化特性として、投稿数の急変を検出する。投稿数の急変は、単位時間毎の投稿数が急激に変化することを意味する。よって、検出部331は、その時点の単位時間内の投稿数から直前の単位時間内の投稿数の差分の絶対値が、所定の差分の閾値よりも大きい単位時間を、投稿数の急変が生じた単位時間として判定することができる。所定の差分の閾値は、例えば、b・σである。bは、所定の正の実数である。bは、典型的には0.3から1.5までのいずれかの値、例えば、0.5、1.0、等である。また、所定の差分の閾値は、投稿数が増加する場合と減少する場合とで、等しくてもよいし、異なってもよい。
検出部331は、投稿数の急変を検出した単位時間を示す急変情報を通知部332及び抽出部34に出力する。通知部332、抽出部34は、上述した盛り上がりに対する処理と同様な処理を、投稿数の急変に対して行う。例えば、通知部332は、投稿数の急変が検出された単位時間の投稿メッセージから選択された代表キーワードを示すキーワード情報と、当該代表キーワードの属性を示す属性情報を対応付けて端末装置4に送信する。
端末装置4は、上述した盛り上がりに対する処理と同様な処理を、投稿数の急変に対して行う。例えば、分析情報取得部415は、情報処理装置3から急変情報、キーワード情報及び属性情報を取得する。分析情報取得部415は、単位時間毎の投稿数を示す時系列チャートに、キーワード情報が示す代表キーワードを重ね合わせて表示部422に表示させる。ここで、分析情報取得部415は、当該代表キーワードを急変情報が示す単位時間に対応付け、属性情報が示す代表キーワードの属性に対応する態様で表示させる。
図17は、表示部422に表示される時系列チャートの一例を示す図である。図17に示す単位時間毎の投稿数は、図13に表された単位時間毎の投稿数と同様である。図17には、投稿数の急変v01〜v07毎にキーワード情報が示す代表キーワードが、投稿数の急変が検出された単位時間の投稿数のプロットに対応付けられて表示されている。投稿数の急変が検出された単位時刻の代表キーワードは、その単位時間の属性情報に対応した線種の線分からなる枠で囲まれている。投稿数の急変v01〜v07を表すプロットをそれぞれ一端とし、代表キーワード「Y屋コラボ企画」、「花粉飛散量」、「花粉飛散量」、「除湿機能付き清浄機」、「花粉除去」、「ロボット掃除機」、「特価キャンペーン」をそれぞれ他端とする線分が表示されている。但し、投稿数の急変v02、v03に対応する代表キーワードは「花粉飛散量」と共通である。また、代表キーワード「Y屋コラボ企画」、「除湿機能付き清浄機」、「ロボット掃除機」、「特価キャンペーン」は、それぞれ実線の四角形の枠で囲まれ、代表キーワード「花粉飛散量」、「花粉除去」は、それぞれ破線の四角形の枠で囲まれている。破線の四角形の枠は、代表キーワードの属性が、出所が(1)著名ユーザ、であることを示し、実線の四角形の枠は、代表キーワードの属性が、出所が(2)一般ユーザ、であることを示す。
なお、図17において、盛り上がりp01〜p05と、一時的低下b01、b02のいずれか又は両者が表示されてもよい。
なお、図17において、盛り上がりp01〜p05と、一時的低下b01、b02のいずれか又は両者が表示されてもよい。
以上に説明したように、本実施形態に係る情報処理装置3において検出部331が検出する所定の時間変化特性は、投稿数の時間変化が所定の時間変化の閾値よりも大きい時間変化特性である。
この構成によれば、投稿数の急変が検出された単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の顕著な変化をもたらす話題をユーザに把握させることができる。
この構成によれば、投稿数の急変が検出された単位時間内に投稿された投稿メッセージから選択された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の顕著な変化をもたらす話題をユーザに把握させることができる。
(第4の実施形態)
次に、本実施形態の第4の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る情報処理システムS1C(図示せず)は、情報処理システムS1において情報処理装置3に代えて情報処理装置3Cを備え、端末装置4に代えて端末装置4Cを備える。
情報処理装置3Cは、図18に示すように情報処理装置3において分析部342に代えて分析部342Cを備える。
次に、本実施形態の第4の実施形態について説明する。上述した実施形態と同一の構成については、同一の符号を付して説明を援用する。本実施形態に係る情報処理システムS1C(図示せず)は、情報処理システムS1において情報処理装置3に代えて情報処理装置3Cを備え、端末装置4に代えて端末装置4Cを備える。
情報処理装置3Cは、図18に示すように情報処理装置3において分析部342に代えて分析部342Cを備える。
分析部342Cは、図19に示すように、キーワード抽出部3421、重み算出部3422、及び重み付け部3423を含んで構成される。即ち、分析部342Cは、分析部342からキーワード選択部3424、文章抽出部3425、語順変更部3426、及びメッセージ分析部3427が省略されて構成される。
通知部332は、検出部331から入力された盛り上がり情報、分析部342Cから入力された特徴語リスト、記憶部32から読み取った投稿メッセージを端末装置4に送信する。
通知部332は、検出部331から入力された盛り上がり情報、分析部342Cから入力された特徴語リスト、記憶部32から読み取った投稿メッセージを端末装置4に送信する。
端末装置4Cは、図20に示すように端末装置4において、さらにキーワード選択部416C、文章抽出部417C、語順変更部418C、及びメッセージ分析部419Cを備える。キーワード選択部416C、文章抽出部417C、語順変更部418C、及びメッセージ分析部419Cの機能は、キーワード選択部3424、文章抽出部3425、語順変更部3426、及びメッセージ分析部3427とそれぞれ同様であるため、それらの説明を援用する。また、記憶部413は、情報処理装置3Cから受信した盛り上がり情報、分析部342Cから入力された特徴語リスト、記憶部32から読み取った投稿メッセージを記憶する。キーワード選択部416C、文章抽出部417Cは、それぞれ記憶部413から特徴語リスト、投稿メッセージを読み取る。また、メッセージ分析部3427は、生成した属性情報、キーワード選択部416Cから入力されたキーワード情報及び記憶部413に記憶した盛り上がり情報を対応付けて分析情報取得部415に出力する。
以上に説明したように、本実施形態に係る情報処理システムS1Cにおいて、端末装置4Cは、単位時間毎に投稿された投稿メッセージから代表キーワードを選択するキーワード選択部416Cを備える。また、情報処理装置3Cは、投稿メッセージの単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部331を備える。また、検出部331が検出した単位時間と当該単位時間に選択された代表キーワードとを対応付けて表示部422に出力する分析情報取得部415とを備える。
この構成によれば、所定の時間変化特性が検出された単位時間内に投稿された投稿メッセージから抽出された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の特徴的な変化をもたらす話題をユーザに直ちに把握させることができる。
この構成によれば、所定の時間変化特性が検出された単位時間内に投稿された投稿メッセージから抽出された代表キーワードが、その単位時間と対応付けて出力される。そのため、投稿数の特徴的な変化をもたらす話題をユーザに直ちに把握させることができる。
また、端末装置4Cは、キーワード選択部416C、文章抽出部417C、語順変更部418C、及びメッセージ分析部419Cを備える。この構成により、分析情報取得部415は、操作入力部421から入力された操作信号により指定される多様な条件(例えば、表示期間)に応じた情報を、逐次に情報処理装置3Cに照会せずに効率的に取得可能となる。また、キーワード抽出部3421、重み算出部3422及び重み付け部3423を情報処理装置3Cに残すことにより、端末装置4Cにおける処理量が過大になることを避けることができる。
なお、本発明は上述した各実施形態に限定されるものではなく、特許請求の範囲に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的構成を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。
また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
例えば、情報処理装置3Cの検出部331は、所定の時間変化特性として盛り上がりに限らず、第2、第3の実施形態に係る情報処理装置3の検出部331と同様に、投稿数の一時的低下、投稿数の急変のいずれか一方又は両方を検出してもよい。
また、情報処理装置3、3Cのキーワード抽出部3421は、形態素解析を行うことにより、抽出した代表キーワード間において係り受けの関係にあるか否かを示す係り受け情報を生成し、生成した係り受け情報をキーワード選択部3424、416Cに出力してもよい。キーワード選択部3424、416Cは、単語スコアが最も高い代表キーワードと、その代表キーワードと係り受けの関係にある代表キーワードを選択し、選択した代表キーワードを示すキーワード情報をメッセージ分析部3427、419Cに出力してもよい。これにより、意味上のまとまりがある複数の代表キーワードからなる組が選択されるので、ユーザは話題をより的確に把握することができる。その場合には、文章抽出部3425、417C、語順変更部3426、418Cは省略可能である。
また、情報処理装置3、3Cのキーワード抽出部3421は、形態素解析を行うことにより、抽出した代表キーワード間において係り受けの関係にあるか否かを示す係り受け情報を生成し、生成した係り受け情報をキーワード選択部3424、416Cに出力してもよい。キーワード選択部3424、416Cは、単語スコアが最も高い代表キーワードと、その代表キーワードと係り受けの関係にある代表キーワードを選択し、選択した代表キーワードを示すキーワード情報をメッセージ分析部3427、419Cに出力してもよい。これにより、意味上のまとまりがある複数の代表キーワードからなる組が選択されるので、ユーザは話題をより的確に把握することができる。その場合には、文章抽出部3425、417C、語順変更部3426、418Cは省略可能である。
また、メッセージ分析部3427、419Cは、代表キーワードの属性として、その出所であるユーザの分類、(1)著名ユーザ、(2)一般ユーザ、(3)著名ユーザと一般ユーザの両者、を分析する場合を例にしたが、これには限られない。メッセージ分析部3427、419Cは、代表キーワードの属性として、上述した手法により、その出所である個々のユーザ(投稿者)を特定してもよい。これにより、投稿数の特徴的な変化をもたらす話題と、特定の投稿者との関係をユーザに把握させることができる。
また、メッセージ分析部3427、419Cは、代表キーワードの属性として、上述した手法により、その個々のユーザ(投稿者)のユーザ属性を分析してもよい。ユーザ属性とは、例えば、法人か自然人かの区別、法人である場合には業種、組織形態、自然人である場合には、職業、年齢、性別、国籍、等がある。ユーザデータは、予め名称、アドレス及び別称に、さらにユーザ属性を対応付けて生成し、記憶部32、413に記憶しておく。ここで、メッセージ分析部3427、419Cは、上述した手法により、分析対象メッセージに基づいて特定されたユーザの名称、アドレス又は別称に対応するユーザ属性をユーザデータから読み取る。これにより、投稿数の特徴的な変化をもたらす話題と、投稿者の属性との関係をユーザに把握させることができる。
また、メッセージ分析部3427、419Cは、代表キーワードの属性として、上述した手法により、その個々のユーザ(投稿者)のユーザ属性を分析してもよい。ユーザ属性とは、例えば、法人か自然人かの区別、法人である場合には業種、組織形態、自然人である場合には、職業、年齢、性別、国籍、等がある。ユーザデータは、予め名称、アドレス及び別称に、さらにユーザ属性を対応付けて生成し、記憶部32、413に記憶しておく。ここで、メッセージ分析部3427、419Cは、上述した手法により、分析対象メッセージに基づいて特定されたユーザの名称、アドレス又は別称に対応するユーザ属性をユーザデータから読み取る。これにより、投稿数の特徴的な変化をもたらす話題と、投稿者の属性との関係をユーザに把握させることができる。
また、情報処理装置3、3Cは、投稿サーバ装置2と一体化した単一のサーバ装置として実施されてもよい。
また、端末装置4、4Cは、端末装置1と同一の機能を有してもよい。この構成により、端末装置4、4Cのユーザが投稿メッセージを投稿サーバ装置2に投稿することができる。また、端末装置4、4Cにおいて、操作入力部421と表示部422のいずれか一方又は両方は、その他の部分とデータを入出力可能であれば、別体であってもよい。
また、端末装置4、4Cは、端末装置1と同一の機能を有してもよい。この構成により、端末装置4、4Cのユーザが投稿メッセージを投稿サーバ装置2に投稿することができる。また、端末装置4、4Cにおいて、操作入力部421と表示部422のいずれか一方又は両方は、その他の部分とデータを入出力可能であれば、別体であってもよい。
また、上述した実施形態における投稿サーバ装置の一部、例えば、収集部21、抽出部22、情報処理装置3、3Cの一部、例えば、検知部33、抽出部34、端末装置4、4Cの一部、例えば、条件設定部414、分析情報取得部415、キーワード選択部416C、文章抽出部417C、語順変更部418C、メッセージ分析部419C、をコンピュータで実現するようにしてもよい。その場合、この制御機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、認識データ伝送装置に内蔵されたコンピュータシステムであって、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
なお、本発明は次の態様でも実施することができる。
(1)単位時間毎に投稿された文章から語句を選択する選択部と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、を備える情報処理装置。
(1)単位時間毎に投稿された文章から語句を選択する選択部と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、を備える情報処理装置。
(2)前記所定の時間変化特性は、時間経過に対して極大であって、前記件数が前記単位時間よりも長い分析期間内の基準投稿数よりも多い時間変化特性である(1)の情報処理装置。
(3)前記所定の時間変化特性は、時間経過に対して極小であって、前記件数が前記単位時間よりも長い分析期間内の基準投稿数以下である時間変化特性である(1)または(2)に記載の情報処理装置。
(4)前記所定の時間変化特性は、前記件数の時間変化が所定の時間変化の閾値よりも大きいことである(1)から(3)のいずれかの情報処理装置。
(5)前記選択部は、前記単位時間内に投稿された文章への出現頻度に基づく評価値が大きい語句ほど優先して選択する(1)から(4)のいずれかの情報処理装置。
(6)前記選択部は、全長が所定の長さの範囲内となるように選択する語句の個数を制限する(5)の情報処理装置。
(7)前記選択部が選択した語句を含む文章に基づいて当該語句の属性を分析する語句分析部を備え、前記出力部は、前記語句と前記属性を対応付けて出力する(1)から(6)のいずれかの情報処理装置。
(8)情報処理装置と端末装置とを備える情報処理システムであって、単位時間毎に投稿された文章から語句を選択する選択部と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、を備える情報処理システム。
(9)(8)の情報処理システムに用いる端末装置であって、操作入力に基づいて前記単位時間を設定する設定部と、前記出力部を備え、前記出力部は、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて表示部に出力する端末装置。
(10)情報処理装置における情報処理方法であって、単位時間毎に投稿された文章から語句を選択する選択過程と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出過程と、前記検出過程で検出された単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力過程と、を有する情報処理方法。
(11)情報処理装置のコンピュータに、単位時間毎に投稿された文章から語句を選択する選択手順と、前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出手順と、前記検出手順で検出された単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力手順と、を実行させるための情報処理プログラム。
S1、S1C…情報処理システム、1…端末装置、2…投稿サーバ装置、21…収集部、22…抽出部、23…投稿データベース、3、3C…情報処理装置、31…取得部、32…記憶部、33…検知部、331…検出部、332…通知部、34…抽出部、341…読出部、342、342C…分析部、3421…キーワード抽出部、3422…重み算出部、3423…重み付け部、3424…キーワード選択部、3425…文章抽出部、3426…語順変更部、3427…メッセージ分析部、4、4C…端末装置、411…入出力部、412…通信部、413…記憶部、414…条件設定部、415…分析情報取得部、416C…キーワード選択部、417C…文章抽出部、418C…語順変更部、419C…メッセージ分析部、421…操作入力部、422…表示部、61…ネットワーク
Claims (11)
- 単位時間毎に投稿された文章から語句を選択する選択部と、
前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、
前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、
を備える情報処理装置。 - 前記所定の時間変化特性は、時間経過に対して極大であって、前記件数が前記単位時間よりも長い分析期間内の基準投稿数よりも多い時間変化特性である請求項1に記載の情報処理装置。
- 前記所定の時間変化特性は、時間経過に対して極小であって、前記件数が前記単位時間よりも長い分析期間内の基準投稿数以下である時間変化特性である請求項1または請求項2に記載の情報処理装置。
- 前記所定の時間変化特性は、前記件数の時間変化が所定の時間変化の閾値よりも大きいことである請求項1から3のいずれか一項に記載の情報処理装置。
- 前記選択部は、前記単位時間内に投稿された文章への出現頻度に基づく評価値が大きい語句ほど優先して選択する請求項1から4のいずれか一項に記載の情報処理装置。
- 前記選択部は、全長が所定の長さの範囲内となるように選択する語句の個数を制限する請求項5に記載の情報処理装置。
- 前記選択部が選択した語句を含む文章に基づいて当該語句の属性を分析する語句分析部を備え、
前記出力部は、前記語句と前記属性を対応付けて出力する請求項1から6のいずれか一項に記載の情報処理装置。 - 情報処理装置と端末装置とを備える情報処理システムであって、
単位時間毎に投稿された文章から語句を選択する選択部と、
前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出部と、
前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力部と、
を備える情報処理システム。 - 請求項8に記載の情報処理システムに用いる端末装置であって、
操作入力に基づいて前記単位時間を設定する設定部と、
前記出力部を備え、
前記出力部は、前記検出部が検出した単位時間と、当該単位時間において選択された語句とを対応付けて表示部に出力する端末装置。 - 情報処理装置における情報処理方法であって、
単位時間毎に投稿された文章から語句を選択する選択過程と、
前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出過程と、
前記検出過程で検出された単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力過程と、
を有する情報処理方法。 - 情報処理装置のコンピュータに、
単位時間毎に投稿された文章から語句を選択する選択手順と、
前記文章の前記単位時間毎の件数が所定の時間変化特性を有する単位時間を検出する検出手順と、
前記検出手順で検出された単位時間と、当該単位時間において選択された語句とを対応付けて出力する出力手順と、
を実行させるための情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244296A JP2016110213A (ja) | 2014-12-02 | 2014-12-02 | 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014244296A JP2016110213A (ja) | 2014-12-02 | 2014-12-02 | 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016110213A true JP2016110213A (ja) | 2016-06-20 |
Family
ID=56124365
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014244296A Pending JP2016110213A (ja) | 2014-12-02 | 2014-12-02 | 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016110213A (ja) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147411A (ja) * | 2017-03-08 | 2018-09-20 | 株式会社Spectee | データ処理装置、データ処理方法、データ処理システム及びプログラム |
JP6476395B1 (ja) * | 2018-01-22 | 2019-03-06 | データ・サイエンティスト株式会社 | 検索語の評価装置、評価システム、及び評価方法 |
JP2019046016A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 算出装置、算出方法及び算出プログラム |
JP2019121302A (ja) * | 2018-01-11 | 2019-07-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP2019144905A (ja) * | 2018-02-21 | 2019-08-29 | 富士通株式会社 | 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法 |
JP2021182308A (ja) * | 2020-05-20 | 2021-11-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2021182307A (ja) * | 2020-05-20 | 2021-11-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
-
2014
- 2014-12-02 JP JP2014244296A patent/JP2016110213A/ja active Pending
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018147411A (ja) * | 2017-03-08 | 2018-09-20 | 株式会社Spectee | データ処理装置、データ処理方法、データ処理システム及びプログラム |
JP7078244B2 (ja) | 2017-03-08 | 2022-05-31 | 株式会社Spectee | データ処理装置、データ処理方法、データ処理システム及びプログラム |
JP2019046016A (ja) * | 2017-08-31 | 2019-03-22 | ヤフー株式会社 | 算出装置、算出方法及び算出プログラム |
JP7388617B2 (ja) | 2017-08-31 | 2023-11-29 | Lineヤフー株式会社 | 算出装置、算出方法及び算出プログラム |
JP2019121302A (ja) * | 2018-01-11 | 2019-07-22 | ヤフー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
JP6476395B1 (ja) * | 2018-01-22 | 2019-03-06 | データ・サイエンティスト株式会社 | 検索語の評価装置、評価システム、及び評価方法 |
JP2019128622A (ja) * | 2018-01-22 | 2019-08-01 | データ・サイエンティスト株式会社 | 検索語の評価装置、評価システム、及び評価方法 |
JP2019144905A (ja) * | 2018-02-21 | 2019-08-29 | 富士通株式会社 | 情報処理プログラム、メッセージ解析プログラム、情報処理装置及び情報処理方法 |
JP2021182308A (ja) * | 2020-05-20 | 2021-11-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP2021182307A (ja) * | 2020-05-20 | 2021-11-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
JP7008102B2 (ja) | 2020-05-20 | 2022-01-25 | ヤフー株式会社 | 情報処理装置、情報処理方法、及び情報処理プログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2016110213A (ja) | 情報処理装置、情報処理システム、端末装置、情報処理方法、及び情報処理プログラム | |
Calvin et al. | # bully: Uses of hashtags in posts about bullying on Twitter | |
AU2011202431B2 (en) | Methods, Apparatus, and Articles of Manufacture to Rank Users in an Online Social Network | |
US20130304469A1 (en) | Information processing method and apparatus, computer program and recording medium | |
US20130024813A1 (en) | Method, system, and means for expressing relative sentiments towards subjects and objects in an online environment | |
US9292598B2 (en) | System for extracting customer feedback from a microblog site | |
JP2008287443A (ja) | 広告サーバ装置、広告表示方法、および広告サーバプログラム | |
JP2010170436A (ja) | インターネットのウェブページ(デジタルコンテンツ)内の任意のキーワードにレコメンド広告を配信して表示する方法、およびその広告の品質の評価方法、ならびにその品質評価に基づいて課金する方法。 | |
JP5547669B2 (ja) | 関連語抽出装置、関連語抽出方法、関連語抽出プログラム | |
JP5556711B2 (ja) | カテゴリ分類処理装置、カテゴリ分類処理方法、カテゴリ分類処理プログラム記録媒体、カテゴリ分類処理システム | |
Liu et al. | Toward an aggregate, implicit, and dynamic model of norm formation: Capturing large-scale media representations of dynamic descriptive norms through automated and crowdsourced content analysis | |
JPWO2013179340A1 (ja) | 情報分析システム及び情報分析方法 | |
Kim et al. | Understanding the role of firm-generated content by hotel segment: the case of Twitter | |
JP5229475B2 (ja) | 情報システム | |
JP6356268B2 (ja) | 電子メール分析システム、電子メール分析システムの制御方法、及び電子メール分析システムの制御プログラム | |
JP6036331B2 (ja) | 管理方法、管理装置および管理プログラム | |
KR101486924B1 (ko) | 소셜 네트워크 서비스를 이용한 미디어 콘텐츠 추천 방법 | |
O’Boyle et al. | How Twitter drives the global news agenda: Tweets from Brazil, Russia, India, China, the UK and US and online discourse about the 2016 US presidential election | |
US20150051951A1 (en) | Systems and methods for analyzing online surveys and survey creators | |
JP7019984B2 (ja) | 情報提示システム、情報提示方法及びプログラム | |
KR101132431B1 (ko) | 관심 정보 제공 시스템 및 방법 | |
JP2005032197A (ja) | 情報解析システム及び方法 | |
JP5843581B2 (ja) | 対話システム、対話方法およびプログラム | |
JP6446851B2 (ja) | レコメンドシステム、レコメンド方法及びプログラム | |
Mackenzie | Improving the quality and impact of public health social media activity in Scotland during 2016:# ScotPublicHealth |