JP4764864B2 - 情報伝播抽出装置および情報伝播抽出方法 - Google Patents

情報伝播抽出装置および情報伝播抽出方法 Download PDF

Info

Publication number
JP4764864B2
JP4764864B2 JP2007285998A JP2007285998A JP4764864B2 JP 4764864 B2 JP4764864 B2 JP 4764864B2 JP 2007285998 A JP2007285998 A JP 2007285998A JP 2007285998 A JP2007285998 A JP 2007285998A JP 4764864 B2 JP4764864 B2 JP 4764864B2
Authority
JP
Japan
Prior art keywords
information
burst
word
attention
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2007285998A
Other languages
English (en)
Other versions
JP2009116440A5 (ja
JP2009116440A (ja
Inventor
有紀子 森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2007285998A priority Critical patent/JP4764864B2/ja
Publication of JP2009116440A publication Critical patent/JP2009116440A/ja
Publication of JP2009116440A5 publication Critical patent/JP2009116440A5/ja
Application granted granted Critical
Publication of JP4764864B2 publication Critical patent/JP4764864B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、情報伝播抽出装置および情報伝播抽出方法に関し、特に、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供する情報伝播抽出装置および情報伝播抽出方法に関する。
近年、インターネットにおいては、ブログと呼ばれる日記形式のウェブサイトが数多く公開されている。ブログは、ウェブログの略称であり、ユーザが自由に画像や文章をウェブ上に公開することができることから、手軽な情報発信の手段として多くのユーザに重宝されている。そして、ブログには、ユーザの関心事や関心事に対する意見などが掲載されることが多いため、例えばあるニュースが席巻すれば、このニュースに言及するブログ数が増加し、世間の関心事の趨勢が如実に反映される。このような傾向は、ブログ以外にも、例えばインターネット上の掲示板などで見られ、話題性のある単語の出現頻度が一時的に増加することがある。
そこで、例えば非特許文献1に記載されたように、ブログや掲示板などのインターネット上の複数のドキュメントにおける単語の出現頻度を示すバースト度を算出し、バースト度が高い単語を検出することにより、注目されている話題を自動的に抽出することが検討されている。この非特許文献1に記載された手法によれば、所望の期間に話題となっている(すなわち、バーストしている)単語を容易に見出すことができ、例えば流行に即した商品開発などに供することができる。
藤木稔明、南野朋之、鈴木泰裕、奥村学、「document streamにおけるburstの発見」、情報処理学会研究報告 自然言語処理、2004-NL-160-(13) pp.85-92、2004年3月
上述したように、非特許文献1の手法によれば、所望の期間に注目された話題を抽出することが可能となる。ところで、一般に、注目される話題の中には、国や地方などの地域限定で注目されるものがある。また、ある地域で注目された話題が、次第に近隣の地域へ伝搬していくことなどもあり、単に話題が注目された期間を特定するだけでは、十分に世間の関心事の分析・予測を行うことができないという問題がある。
具体的には、例えばある地方において飲食店が新たに開店する場合、当該地方においてはこの飲食店の開店が注目されると考えられるが、国や世界全体として注目されることはなく、「飲食店の開店」という話題の出現頻度が高くなる期間(バースト)は埋没してしまうことがある。また、例えば「石油価格の上昇」など、世界全体の関心事については、国ごとの影響の度合いに応じて話題が伝搬していくと考えられるが、従来の手法ではバーストの伝搬性を把握することはできない。
本発明はかかる点に鑑みてなされたものであり、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供することができる情報伝播抽出装置および情報伝播抽出方法を提供することを目的とする。
上記課題を解決するために、本発明に係る情報伝播抽出装置は、ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出手段と、前記算出手段によって算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出手段と、前記検出手段によって検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得手段と、前記取得手段によって取得された位置情報に基づいて単語が注目された位置を決定する決定手段と、前記決定手段によって決定された位置を含む注目期間情報を送信する送信手段とを有する構成を採る。
この構成によれば、同一の単語が注目されている注目期間のそれぞれに関して、この単語が注目されていた国や地方などの位置を特定することができ、単語が注目された期間の情報と位置の情報とを関係づけて提供することができる。すなわち、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記取得手段は、ユーザが投稿する日記形式のウェブログに記載されて流通した単語について、個々のウェブログデータを投稿したユーザの位置情報を取得する構成を採る。
この構成によれば、多くのユーザが同一の単語をブログに記載した場合に、この単語が注目されていると判断し、主にどの地域のユーザが単語に注目してブログを投稿したかを特定することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記取得手段は、ウェブログに対応付けて記憶されたユーザのプロバイダ情報またはユーザの接続元アドレス情報からユーザの位置情報を推定する構成を採る。
この構成によれば、ブログと対応付けて記憶された比較的正確なユーザの位置情報を取得することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記取得手段は、ウェブログに記載された文面からユーザの位置情報を推定する構成を採る。
この構成によれば、ユーザの位置情報に関する情報がブログに対応付けて記憶されていない場合でも、ユーザの位置情報を推定することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記決定手段は、前記取得手段によって取得されたすべての位置情報のうち所定割合以上の位置情報が共通して示す最小の地域を単語の注目位置と決定する構成を採る。
この構成によれば、同一の単語を流通させた多くのユーザの位置情報に共通する最小の地域が単語の注目位置となり、単語が注目されている地域を容易かつ正確に特定することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、ユーザが注目期間情報の把握を希望する単語を指定する単語情報を受信する受信手段をさらに有し、前記算出手段は、前記受信手段によって受信された単語情報が示す単語の注目度指標値を算出する構成を採る。
この構成によれば、ユーザが注目期間や注目位置の情報取得を希望する単語について、注目期間や注目位置を得ることができ、ユーザの希望に応じた情報提供を行うことができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記算出手段は、tf/idf法による単語の出現頻度の評価結果に基づいて注目度指標値を算出する構成を採る。
この構成によれば、単に出現頻度が高い単語の注目度指標値を大きくするのではなく、普遍的に使用されることによる出現頻度の上昇を考慮して、確実に注目されている単語のみの注目度指標値を大きくすることができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記取得手段は、インターネットの検索サイトにおける検索によって流通した単語について、検索を行ったユーザの位置情報を取得する構成を採る。
この構成によれば、多くのユーザが同一の単語を検索した場合に、この単語が注目されていると判断し、主にどの地域のユーザが単語に注目して検索したかを特定することができる。
また、本発明に係る情報伝播抽出装置は、上記構成において、前記取得手段は、インターネットの掲示板サイトに対する書き込みによって流通した単語について、書き込みを行ったユーザの位置情報を取得する構成を採る。
この構成によれば、多くのユーザが同一の単語を掲示板に書き込んだ場合に、この単語が注目されていると判断し、主にどの地域のユーザが単語に注目して掲示板への書き込みを行ったかを特定することができる。
また、本発明に係る情報伝播抽出方法は、ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出ステップと、前記算出ステップにて算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出ステップと、前記検出ステップにて検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得ステップと、前記取得ステップにて取得された位置情報に基づいて単語が注目された位置を決定する決定ステップと、前記決定ステップにて決定された位置を含む注目期間情報を送信する送信ステップとを有するようにした。
また、本発明に係る情報提供プログラムは、コンピュータによって実行される情報提供プログラムであって、前記コンピュータに、ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出ステップと、前記算出ステップにて算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出ステップと、前記検出ステップにて検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得ステップと、前記取得ステップにて取得された位置情報に基づいて単語が注目された位置を決定する決定ステップと、前記決定ステップにて決定された位置を含む注目期間情報を送信する送信ステップとを実行させるようにした。
これらによれば、同一の単語が注目されている注目期間のそれぞれに関して、この単語が注目されていた国や地方などの位置を特定することができ、単語が注目された期間の情報と位置の情報とを関係づけて提供することができる。すなわち、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供することができる。
本発明によれば、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供することができる。
本発明の骨子は、ユーザがネットワーク上に流通させたキーワードとユーザの位置情報とを関連付け、キーワードに関する話題が注目された場合に、このキーワードを流通させたユーザの位置情報に基づいて、キーワードが注目された地域に関する情報を提供することである。以下、本発明の一実施の形態について、図面を参照して詳細に説明する。なお、以下においては、ユーザがブログを投稿することによってネットワーク上にキーワードを流通させる場合について説明するが、本発明はこれに限定されず、例えばインターネット上の掲示板に対する書き込みや検索サイトに対する検索キーワードの入力などもキーワードの流通に該当する。
図1は、本発明の一実施の形態に係る通信システムの概要を示すブロック図である。同図に示す通信システムは、ユーザ端末100−1〜100−mがネットワークNを介してバースト情報提供装置200およびブログサーバ300に接続される構成となっている。
ユーザ端末100−1〜100−mは、それぞれユーザが操作する端末であり、ネットワークNに接続されている。ユーザ端末100−1〜100−mは、ユーザが例えばブログを投稿する際に、入力されたブログデータをネットワークNを介してブログサーバ300へ送信する。また、ユーザ端末100−1〜100−mは、ユーザが所望のキーワードを入力すると、このキーワードをネットワークNを介してバースト情報提供装置200へ送信した後、キーワードの注目度に関するバースト情報をバースト情報提供装置200から受信して表示する。
バースト情報提供装置200は、ユーザ端末100−1〜100−mからキーワードを受信すると、キーワードを含むブログデータをブログサーバ300から取得し、キーワードのバースト度を算出する。そして、バースト情報提供装置200は、キーワードのバースト度が高くバーストが発生している場合には、バーストの発生期間および発生位置を示すバースト情報をユーザ端末100−1〜100−mへ送信する。また、バースト情報提供装置200は、キーワードのバースト度が低くバーストが発生していない場合には、バースト度の変遷を示すバースト情報をユーザ端末100−1〜100−mへ送信する。なお、バースト情報提供装置200の構成および動作については、後に詳述する。
ブログサーバ300は、ユーザ端末100−1〜100−mからブログデータが送信されると、このブログデータを記憶・更新する。そして、ブログサーバ300は、ユーザ端末100−1〜100−mからブログの閲覧要求が受信されると、指定されたブログデータをユーザ端末100−1〜100−mへ送信する。さらに、ブログサーバ300は、バースト情報提供装置200によってブログの検索が実行されると、検索ヒットしたブログデータをバースト情報提供装置200へ出力する。
図2は、本実施の形態に係るバースト情報提供装置200の要部構成を示すブロック図である。同図に示すバースト情報提供装置200は、情報のバーストが伝播する状態を抽出する情報伝播抽出装置を含んでいる。具体的には、バースト情報提供装置200は、検索要求受信部201、検索部202、時系列整列部203、バースト度算出部204、バースト判定部205、位置推定部206、バースト位置解析部207、結果ページ生成部208、およびバースト情報送信部209を有している。
検索要求受信部201は、ユーザ端末100−1〜100−mから送信された検索要求を受信する。すなわち、検索要求受信部201は、ユーザがバースト情報の取得を希望するキーワードを含む検索要求を受信する。
検索部202は、ブログサーバ300に記憶された全ブログを検索して、検索要求に含まれるキーワードが記載されているブログを選別する。そして、検索部202は、選別された(すなわち、検索ヒットした)ブログのブログデータをブログサーバ300から取得する。ブログデータには、ユーザが投稿した日時ごとの1つ以上の記事のデータが含まれている。なお、本実施の形態においては、検索部202が直接ブログサーバ300内を検索するものとしたが、ブログサーバ300の代わりにブログのインデクスを保持するデータベースを検索するようにしても良い。この場合、データベースには、定期的なクローリングにより、ブログサーバ300に記憶されたブログの見出しとなるインデクスが記憶されている。また、当然ながら、検索部202は、複数のブログサーバ内を横断的に検索しても良い。
時系列整列部203は、検索部202によって取得されたブログデータを時系列順に整列する。すなわち、ブログは日記形式のウェブサイトであるため、ブログデータにはそれぞれの記事が投稿された日時が記録されており、時系列整列部203は、各記事のブログデータの投稿日時を比較しながら、時系列順に整列する。
バースト度算出部204は、時系列順に整列されたブログデータにおけるキーワードの出現頻度を用いて、例えば1日などの期間単位でキーワードのバースト度を算出する。具体的には、バースト度算出部204は、例えばtf/idf(term frequency/inverse document frequency)法などを用いて、ブログデータにおけるキーワードの出現頻度を統計的に評価し、キーワードに関する1日ごとのバースト度を算出する。このとき、キーワードの出現頻度が特定の期間において高くなっていると、その期間におけるキーワードのバースト度が高くなる。すなわち、バースト度は、キーワードの注目度を表す指標値となっている。注目度の指標値を求める際にtf/idf法を用いることにより、単に出現頻度が高いキーワードが注目されていることになるのではなく、普遍的に使用される単語ではないにもかかわらず出現頻度が高いキーワードが注目されていることになる。
バースト判定部205は、期間ごとのバースト度と所定の閾値とを比較し、バースト度が所定の閾値以上である期間においてキーワードのバーストが発生していると判定する。換言すれば、バースト判定部205は、キーワードのバースト度が他に比べて突出している期間をキーワードが注目された期間と判定する。したがって、バースト判定部205は、例えば1日ごとに断続的にバースト度が所定の閾値以上となっていれば、1日単位のバーストが複数回発生したと判定し、例えば1週間連続してバースト度が所定の閾値以上となっていれば、1週間連続するバーストが1回発生したと判定する。そして、バースト判定部205は、それぞれのバーストに対応する期間をバースト位置解析部207へ通知する。なお、バースト判定部205は、キーワードについてのバーストが発生していなければ、全期間におけるバースト度の変遷をバースト位置解析部207へ出力する。
位置推定部206は、検索部202によって取得されたブログデータそれぞれを投稿したユーザの位置を推定する。具体的には、位置推定部206は、ブログデータにユーザが加入するプロバイダや投稿時に使用されたユーザ端末100−1〜100−mのIPアドレスなどが含まれていれば、これらの情報からユーザの居住地もしくはユーザがブログを投稿した国や地方などの位置情報を特定する。また、位置推定部206は、ユーザが加入するプロバイダやIPアドレスが不明であれば、ブログデータの文面における言葉遣いや地域を示唆する単語などからユーザの位置情報を推定する。すなわち、位置推定部206は、ブログデータの文面に対する形態素解析などを実行し、文章中の方言や固有名詞などから、ブログを投稿したユーザの位置情報を推定する。
バースト位置解析部207は、バースト判定部205からバーストの発生期間が通知されると、各バーストに属するブログデータの位置情報を解析して、バーストが発生した位置を決定する。具体的には、バースト位置解析部207は、バーストが発生した期間にキーワードが記載されたブログデータの位置情報を位置推定部206から取得し、所定割合以上のブログデータに共通する最小の地域においてバーストが発生したと決定する。すなわち、例えばバーストに属するブログデータの8割以上が東京都のユーザによって投稿されていれば、このバーストの位置を東京都と決定し、例えばバーストに属するブログデータが日本各地のユーザによって投稿されていれば、このバーストの位置を日本と決定する。そして、バースト位置解析部207は、各バーストの発生期間および発生位置を結果ページ生成部208へ出力する。なお、バースト位置解析部207は、全期間におけるバースト度の変遷がバースト判定部205から出力された場合には、このバースト度の変遷を結果ページ生成部208へ出力する。
結果ページ生成部208は、バースト位置解析部207からバーストの発生期間および発生位置が出力されると、地図上に各バーストの発生期間および発生位置を表示する結果ページを生成する。具体的には、結果ページ生成部208は、例えばバーストが狭い地域から広い地域へ徐々に広がっているような場合には、それぞれのバーストの発生位置が地図上で区別可能に囲まれた結果ページを生成する。また、結果ページ生成部208は、例えばバーストが複数の地域を順に伝搬しているような場合には、それぞれのバーストの発生位置が発生順に矢印などで結ばれた結果ページを生成する。なお、結果ページ生成部208は、バースト位置解析部207からバースト度の変遷が出力された場合には、このバースト度の変遷を例えば折れ線グラフとして表示する結果ページを生成する。
バースト情報送信部209は、結果ページ生成部208によって生成された結果ページをキーワード送信元のユーザ端末100−1〜100−mへ送信する。バースト情報送信部209が送信する結果ページには、バーストの発生期間および発生位置を視覚的に示すバースト情報か、またはバースト度の変遷を視覚的に示すバースト情報が含まれている。
次いで、上記のように構成されたバースト情報提供装置200の動作について、図3に示すフロー図を参照して、具体的に例を挙げながら説明する。なお、以下の説明においては、ユーザ端末100−1がキーワードに関するバースト情報の取得を目的とした検索要求を送信したものとする。
ユーザ端末100−1から送信された検索要求は、ネットワークNを介してバースト情報提供装置200の検索要求受信部201によって受信される(ステップS101)。受信された検索要求には、ユーザがバースト情報の取得を希望するキーワードが含まれているため、検索部202によって、ブログサーバ300に記憶された全ブログが検索され、キーワードが記載されたブログのブログデータが取得される(ステップS102)。そして、このブログデータは、時系列整列部203および位置推定部206へ出力される。
ブログデータが位置推定部206へ出力されると、位置推定部206によって、各ブログデータに付加された、ユーザが加入するプロバイダやユーザ端末100−1のIPアドレスの情報から、各ブログデータを投稿したユーザの位置情報(例えば居住地やブログ投稿場所)が推定される(ステップS103)。また、プロバイダやIPアドレスの情報がブログデータに付加されていなければ、位置推定部206によって、ブログデータの各記事の文面が解析され、文中の例えば方言や固有名詞などからユーザの位置情報が推定される。
同時に、ブログデータが時系列整列部203へ出力されると、時系列整列部203によって、各ブログデータの記事が時系列に整列される(ステップS104)。そして、バースト度算出部204によって、1日などの期間ごとにキーワードのブログデータにおける出現頻度が評価され、期間ごとのバースト度が算出される(ステップS105)。これにより、例えば図4に示すように、1日ごとのバースト度の変遷が得られる。図4においてバースト度が高くなっている期間は、主にブログデータ中のキーワードの出現頻度が他の期間に比べて高くなっている期間である。そして、ブログデータ中の出現頻度が高いということは、キーワードが多くのユーザによって注目された結果、キーワードに関連する話題に言及するブログが多く投稿されているということに他ならない。つまり、バースト度が高い期間には、多くのユーザがキーワードに関心を持っていることになる。
こうしてブログデータが投稿された全期間にわたるバースト度が算出されると、バースト判定部205によって、バーストの発生の有無を判定する対象月日が設定される(ステップS106)。すなわち、ここでは、例えば全期間の初日が対象月日に設定され、バースト判定部205によって、対象月日のバースト度が所定の閾値以上であるか否かが判定される(ステップS107)。この結果、バースト度が所定の閾値以上であれば(ステップS107Yes)、対象月日においてキーワードがバースト状態にあると判定される(ステップS108)。一方、バースト度が所定の閾値未満であれば(ステップS107No)、対象月日においてキーワードが非バースト状態にあると判定される(ステップS109)。
対象月日に関するバースト状態・非バースト状態の判定が完了すると、引き続きバースト判定部205によって、バースト度が算出されている全期間についてバースト状態・非バースト状態の判定が終了したか否かが判断され(ステップS110)、ここでは、初日に関する判定が完了したのみであるため(ステップS110No)、新たにバーストの発生の有無を判定する対象月日が設定される(ステップS106)。すなわち、ここでは、全期間の2日目が対象月日に設定され、再びバースト判定部205によって、2日目においてキーワードのバーストが発生しているか否かが判定される。
このようにバースト判定部205によるバースト発生の有無の判定が繰り返され、全期間に関する判定が終了すると(ステップS110Yes)、2日間以上連続してバースト状態と判定された場合には、バースト状態と判定された期間が1つのバーストとしてまとめられ、全期間中のバーストが検出される。具体的には、例えば図5に示すように、バースト度が所定の閾値以上となる「バースト#1」および「バースト#2」がそれぞれバーストとして検出される。
なお、本実施の形態においては、バースト判定部205が1日単位でバースト度が所定の閾値以上であるか否かを判定することにより、対象月日においてキーワードがバースト状態にあるか否かの判定を繰り返した。しかし、図5に示す「バースト#1」および「バースト#2」を検出するためには、バースト判定部205は、バースト度が所定の閾値以上となる期間を全期間から抽出するようにしても良い。また、バースト判定部205によってバーストが1つも検出されない場合には、全期間にわたるバースト度の変遷がそのままバースト位置解析部207を介して結果ページ生成部208へ出力され、バースト度の変遷を例えば折れ線グラフにして示す結果ページが生成され、バースト情報送信部209からユーザ端末100−1へ送信される。
バースト判定部205によってバーストが検出されると、それぞれ検出されたバーストに対応する期間がバースト位置解析部207へ通知される。そして、バースト位置解析部207によって、それぞれのバーストに対応する期間に投稿されたブログデータを特定され、バーストごとのブログデータを投稿したユーザの位置情報が解析され(ステップS111)、バーストごとの位置が決定される。具体的には、バースト位置解析部207によって、バーストに属するブログデータを投稿したユーザの位置情報が位置推定部206から取得され、位置情報によって示される地域のうち所定割合以上のユーザに共通する最小の地域がバーストの位置と決定される。
バースト位置の決定について具体例を挙げると、例えば図6に示すように、「バースト#1」が2007年10月25日に発生しており、「バースト#1」に属するブログデータのうち所定割合以上のブログデータの位置情報が「日本国東京都」であれば、「バースト#1」の位置は「東京都」と決定される。同様に、「バースト#2」が2007年11月3日から2007年11月7日に発生しており、「バースト#2」に属するブログデータのうち所定割合以上のブログデータの位置情報が関東地方に該当する都県であれば、「バースト#2」の位置は「関東地方」と決定される。さらに、例えば、バーストに属するブログデータの位置情報が日本各地に分散していれば、このバーストの位置は「日本」となる。
バースト位置解析部207によってバーストごとの位置が決定されると、それぞれのバースト位置が結果ページ生成部208へ出力され、結果ページ生成部208によって、バースト位置を視覚的に確認可能な結果ページが生成される(ステップS112)。すなわち、例えば地図上にそれぞれのバースト位置を囲んで表示したり、それぞれのバースト位置間を矢印で結んで表示したりする結果ページが生成される。
具体例を挙げると、例えば図7に示すように、「東京●●タウン」というキーワードのバーストが3つ検出された場合、結果ページ生成部208によって、それぞれのバーストのバースト位置を日本地図上に囲んでバーストの期間とともに表示する結果ページが生成される。このような結果ページによれば、「東京●●タウン」というキーワードが最初に東京都近辺でバースト状態となり、その後関東地方近辺でバースト状態となり、続いて本州・四国・九州近辺でバースト状態となったということが把握可能となる。したがって、このような結果ページを閲覧するユーザは、例えば「東京●●タウン」に関する話題が東京から発信され、徐々に周囲の地域に広がっていったなどと推測することが可能となる。
また、例えば図8に示すように、「石油」というキーワードのバーストが3つ検出された場合、結果ページ生成部208によって、それぞれのバースト位置を世界地図上で結んでバーストの期間とともに表示する結果ページが生成される。このような結果ページによれば、「石油」というキーワードが最初にサウジアラビアなどの中東付近でバースト状態となり、その後アメリカ付近でバースト状態となり、続いて日本でバースト状態となったということが把握可能となる。したがって、このような結果ページを閲覧するユーザは、例えば「石油」の価格上昇が最初に中東の社会情勢に影響を与え、この影響がアメリカ、日本へと連鎖したなどと推測することが可能となる。
結果ページ生成部208によって結果ページが生成されると、生成された結果ページは、バースト情報送信部209から検索要求送信元のユーザ端末100−1へ送信される(ステップS113)。そして、ユーザは、ユーザ端末100−1に表示される結果ページを閲覧し、キーワードに関するバースト情報を得ることができる。すなわち、キーワードについてバーストが発生していれば、それぞれのバーストの期間と位置を視覚的に確認することができ、キーワードについてバーストが発生していなければ、全期間にわたるキーワードのバースト度の変遷を折れ線グラフなどで確認することができる。そして、ユーザは、これらのバースト情報を、例えば商品開発のための需要予測や株取引などに利用することができる。
以上のように、本実施の形態によれば、ブログにおけるキーワードの出現頻度からキーワードのバースト度を算出し、バースト度が所定の閾値以上となる期間をキーワードのバーストとして検出し、それぞれのバーストに属するブログのユーザの位置情報を解析してバーストごとの位置を決定する。そして、バーストの期間のみではなく、バーストごとの位置をユーザへ提供するため、ユーザは、キーワードに関する話題の伝搬状況など、バーストの発生位置に関する詳細な情報を得ることができる。換言すれば、バースト情報提供装置は、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供することができる。
なお、上記一実施の形態においては、ブログにおけるキーワードの出現頻度を基にしてバースト度を算出するものとしたが、例えば検索サイトにおける検索キーワードの検索頻度や掲示板サイトへの書き込みにおけるキーワードの出現頻度などを基にしてバースト度を算出しても良い。さらに、ブログ、検索サイト、および掲示板サイトを2つ以上組み合わせてバースト度を算出しても良い。これらの場合には、検索サイトや掲示板サイトへアクセスしたユーザのIPアドレスなどからユーザの位置情報を推定すれば良い。また、上記一実施の形態において説明した情報伝播抽出方法をコンピュータが実行可能な形式で記述した情報提供プログラムを生成し、この情報提供プログラムをコンピュータに実行させることにより本発明の情報伝播抽出装置および情報伝播抽出方法を実現することも可能である。このとき、情報提供プログラムをコンピュータが読み取り可能な記録媒体に記憶させ、記録媒体を用いてコンピュータに情報提供プログラムを導入することも可能である。
本発明は、ネットワークの利用を通じて世間の関心事の特性をより詳細に分析する際に必要となる情報を提供する場合に適用することができる。
一実施の形態に係る通信システムの概要を示すブロック図である。 一実施の形態に係るバースト情報提供装置の要部構成を示すブロック図である。 一実施の形態に係るバースト情報提供装置の動作を示すフロー図である。 一実施の形態に係るバースト度の変遷の例を示す図である。 一実施の形態に係るバースト判定の例を示す図である。 一実施の形態に係るバースト位置解析結果の例を示す図である。 一実施の形態に係る結果ページの例を示す図である。 一実施の形態に係る結果ページの他の例を示す図である。
符号の説明
200 バースト情報提供装置
201 検索要求受信部
202 検索部
203 時系列整列部
204 バースト度算出部
205 バースト判定部
206 位置推定部
207 バースト位置解析部
208 結果ページ生成部
209 バースト情報送信部
300 ブログサーバ

Claims (11)

  1. ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出手段と、
    前記算出手段によって算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出手段と、
    前記検出手段によって検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得手段と、
    前記取得手段によって取得された位置情報に基づいて単語が注目された位置を決定する決定手段と、
    前記決定手段によって決定された位置を含む注目期間情報を送信する送信手段と
    を有することを特徴とする情報伝播抽出装置。
  2. 前記取得手段は、
    ユーザが投稿する日記形式のウェブログに記載されて流通した単語について、個々のウェブログデータを投稿したユーザの位置情報を取得することを特徴とする請求項1記載の情報伝播抽出装置。
  3. 前記取得手段は、
    ウェブログに対応付けて記憶されたユーザのプロバイダ情報またはユーザの接続元アドレス情報からユーザの位置情報を推定することを特徴とする請求項2記載の情報伝播抽出装置。
  4. 前記取得手段は、
    ウェブログに記載された文面からユーザの位置情報を推定することを特徴とする請求項2記載の情報伝播抽出装置。
  5. 前記決定手段は、
    前記取得手段によって取得されたすべての位置情報のうち所定割合以上の位置情報が共通して示す最小の地域を単語の注目位置と決定することを特徴とする請求項1記載の情報伝播抽出装置。
  6. ユーザが注目期間情報の把握を希望する単語を指定する単語情報を受信する受信手段をさらに有し、
    前記算出手段は、
    前記受信手段によって受信された単語情報が示す単語の注目度指標値を算出することを特徴とする請求項1記載の情報伝播抽出装置。
  7. 前記算出手段は、
    tf/idf法による単語の出現頻度の評価結果に基づいて注目度指標値を算出することを特徴とする請求項1記載の情報伝播抽出装置。
  8. 前記取得手段は、
    インターネットの検索サイトにおける検索によって流通した単語について、検索を行ったユーザの位置情報を取得することを特徴とする請求項1記載の情報伝播抽出装置。
  9. 前記取得手段は、
    インターネットの掲示板サイトに対する書き込みによって流通した単語について、書き込みを行ったユーザの位置情報を取得することを特徴とする請求項1記載の情報伝播抽出装置。
  10. コンピュータが実行する情報伝播抽出方法であって、前記コンピュータが、
    ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出ステップと、
    前記算出ステップにて算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出ステップと、
    前記検出ステップにて検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得ステップと、
    前記取得ステップにて取得された位置情報に基づいて単語が注目された位置を決定する決定ステップと、
    前記決定ステップにて決定された位置を含む注目期間情報を送信する送信ステップと
    を有することを特徴とする情報伝播抽出方法。
  11. コンピュータによって実行される情報提供プログラムであって、前記コンピュータに、
    ネットワークを流通する単語の一定期間ごとの注目度指標値を算出する算出ステップと、
    前記算出ステップにて算出された注目度指標値が所定の閾値以上となる単語の注目期間を検出する検出ステップと、
    前記検出ステップにて検出された注目期間内に実際に流通した個々の単語データの流通元の位置情報を取得する取得ステップと、
    前記取得ステップにて取得された位置情報に基づいて単語が注目された位置を決定する決定ステップと、
    前記決定ステップにて決定された位置を含む注目期間情報を送信する送信ステップと
    を実行させることを特徴とする情報提供プログラム。
JP2007285998A 2007-11-02 2007-11-02 情報伝播抽出装置および情報伝播抽出方法 Active JP4764864B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007285998A JP4764864B2 (ja) 2007-11-02 2007-11-02 情報伝播抽出装置および情報伝播抽出方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007285998A JP4764864B2 (ja) 2007-11-02 2007-11-02 情報伝播抽出装置および情報伝播抽出方法

Publications (3)

Publication Number Publication Date
JP2009116440A JP2009116440A (ja) 2009-05-28
JP2009116440A5 JP2009116440A5 (ja) 2009-07-30
JP4764864B2 true JP4764864B2 (ja) 2011-09-07

Family

ID=40783548

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007285998A Active JP4764864B2 (ja) 2007-11-02 2007-11-02 情報伝播抽出装置および情報伝播抽出方法

Country Status (1)

Country Link
JP (1) JP4764864B2 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5077711B2 (ja) * 2009-10-05 2012-11-21 Necビッグローブ株式会社 時系列分析装置、時系列分析方法、及びプログラム
JP2011166621A (ja) * 2010-02-12 2011-08-25 Nomura Research Institute Ltd 映像コンテンツの推奨装置、推奨する映像コンテンツの決定方法、及びコンピュータプログラム
JP5487006B2 (ja) * 2010-05-11 2014-05-07 日本無線株式会社 カメラ選択システム、及びカメラ選択装置
JP5583164B2 (ja) * 2012-03-29 2014-09-03 日本電信電話株式会社 専門度推定装置及び方法及びプログラム
JP5512737B2 (ja) * 2012-04-23 2014-06-04 株式会社Nttドコモ 話題抽出装置及び話題抽出方法
JP5798081B2 (ja) * 2012-04-25 2015-10-21 日本電信電話株式会社 情報検索装置及び方法及びプログラム
JP5977576B2 (ja) * 2012-05-11 2016-08-24 株式会社 ミックウェア 情報処理装置、情報処理方法、およびプログラム
JP5223018B1 (ja) * 2012-05-30 2013-06-26 楽天株式会社 情報処理装置、情報処理方法、情報処理プログラム及び記録媒体
JP5458143B2 (ja) * 2012-06-12 2014-04-02 ヤフー株式会社 携帯端末、情報処理方法及びコンピュータプログラム
JP5548243B2 (ja) * 2012-08-07 2014-07-16 日本電信電話株式会社 イベント発生地点抽出装置、方法、及びプログラム
US20140081998A1 (en) * 2012-09-17 2014-03-20 General Electric Company Utility management analysis through social network data
JP5901499B2 (ja) * 2012-11-08 2016-04-13 日本電信電話株式会社 バースト検出装置、バースト検出方法、及びプログラム
JP5718304B2 (ja) * 2012-11-22 2015-05-13 日本電信電話株式会社 デイリーワード学習装置、デイリーワード抽出装置、方法、及びプログラム
JP6021650B2 (ja) * 2013-01-15 2016-11-09 日本放送協会 情報抽出装置及びプログラム
JP6051081B2 (ja) * 2013-03-18 2016-12-21 株式会社富士通アドバンストエンジニアリング 検索装置、検索方法および検索プログラム
JP5785977B2 (ja) * 2013-04-23 2015-09-30 日本電信電話株式会社 ユーザの位置推定装置及び方法及びプログラム
JP6229354B2 (ja) * 2013-07-29 2017-11-15 日本電気株式会社 需要予測装置、需要予測方法、および需要予測プログラム
JP6059683B2 (ja) * 2014-05-28 2017-01-11 日本電信電話株式会社 ローカル話題語抽出装置、ローカル話題語抽出方法及びローカル話題語抽出プログラム
JP6529133B2 (ja) * 2016-01-29 2019-06-12 Kddi株式会社 複数地域でのトピックの評価を分析する装置、プログラム及び方法
JP6870467B2 (ja) * 2017-05-12 2021-05-12 富士通株式会社 広告効果推定装置、広告効果推定方法及び広告効果推定プログラム
CN110019556B (zh) * 2017-12-27 2023-08-15 阿里巴巴集团控股有限公司 一种话题新闻获取方法、装置及其设备
JP6702626B2 (ja) * 2018-07-03 2020-06-03 ヤフー株式会社 情報処理装置、情報処理方法、及び情報処理プログラム
JP7023920B2 (ja) * 2019-12-17 2022-02-22 ヤフー株式会社 情報処理装置、情報処理方法、および情報処理プログラム
JP7418054B1 (ja) 2023-02-16 2024-01-19 株式会社Coクリエイト 情報処理装置およびコンピュータプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002198997A (ja) * 2000-12-26 2002-07-12 Keisuke Yamamoto Ipアドレス取得分類システム、ipアドレス取得分類システムを用いた情報送信システム、及びipアドレス取得分類システムを用いた地域別アクセス統計集計システム、並びに地域別アクセス統計集計システムを用いたデータの再配置処理システム
JP4185059B2 (ja) * 2005-02-18 2008-11-19 大日本印刷株式会社 トレンド予測装置およびトレンド予測方法

Also Published As

Publication number Publication date
JP2009116440A (ja) 2009-05-28

Similar Documents

Publication Publication Date Title
JP4764864B2 (ja) 情報伝播抽出装置および情報伝播抽出方法
Zhang et al. Search engine optimization: Comparison of link building and social sharing
US10678807B1 (en) Generating real-time search results
Weber et al. The demographics of web search
US10530899B2 (en) Method and system for establishing a trust association
US9710555B2 (en) User profile stitching
RU2406129C2 (ru) Ассоциирование информации с электронным документом
US9020922B2 (en) Search engine optimization at scale
US20070143300A1 (en) System and method for monitoring evolution over time of temporal content
US20110040787A1 (en) Presenting comments from various sources
TWI522822B (zh) 互聯網營銷之優化方法
US8898166B1 (en) Temporal content selection
Kalogeropoulos et al. ‘I saw the news on Facebook’: brand attribution when accessing news from distributed environments
US20100325129A1 (en) Determining the geographic scope of web resources using user click data
CA2724515A1 (en) System and method for monitoring visits to a target site
JP6663005B2 (ja) インターネットコンテンツ提供サーバ及びその方法が具現化されたコンピュータで判読できる記録媒体
KR100856916B1 (ko) 관심사를 반영하여 추출한 정보 제공 방법 및 시스템
JP2007264718A (ja) ユーザ興味分析装置、方法、プログラム
JP2006164256A (ja) 属性評価プログラム、属性評価システムおよび属性評価方法
Sohail Search Engine Optimization Methods & Search Engine Indexing for CMS Applications
Trejo-Pech et al. Violations of standard practices by predatory economics journals
JP5133953B2 (ja) 情報伝播を検知するウェブページ関係評価装置
KR20120020558A (ko) 폭소노미 기반 개인화 웹 검색 방법 및 이를 수행하는 시스템
Lewandowski Ranking search results
Cant et al. The Use of Search Engines in the Marketing of Accommodation Establishments: Adopt or Reject the Use of Google AdWords?

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090617

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090617

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110518

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110524

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110613

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140617

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4764864

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250