JP5725619B2 - 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 - Google Patents

多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 Download PDF

Info

Publication number
JP5725619B2
JP5725619B2 JP2011286637A JP2011286637A JP5725619B2 JP 5725619 B2 JP5725619 B2 JP 5725619B2 JP 2011286637 A JP2011286637 A JP 2011286637A JP 2011286637 A JP2011286637 A JP 2011286637A JP 5725619 B2 JP5725619 B2 JP 5725619B2
Authority
JP
Japan
Prior art keywords
comment
event position
tagging
sentences
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011286637A
Other languages
English (en)
Other versions
JP2013134738A (ja
Inventor
昌美 中澤
昌美 中澤
池田 和史
和史 池田
小野 智弘
智弘 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
KDDI Corp
Original Assignee
KDDI Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by KDDI Corp filed Critical KDDI Corp
Priority to JP2011286637A priority Critical patent/JP5725619B2/ja
Publication of JP2013134738A publication Critical patent/JP2013134738A/ja
Application granted granted Critical
Publication of JP5725619B2 publication Critical patent/JP5725619B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、位置情報にキーワードをタグ付けする技術に関する。
近年、インターネットを介して、ブログ(Web log)やミニブログ(mini Web log)(例えばtwitter(登録商標))のようなサイトに対して、不特定多数の第三者からのコメント文章が、活発に発信されている。これらコメント文章は、単に発信するだけでなく、共通の話題に対して議論し合うこともできることに特徴がある。これは、多数のユーザと話題を共有しているという感覚が得られる。例えばtwitterによれば、投稿者は、固有のハッシュタグを含むコメント文章を発信し、閲覧者は、このハッシュタグを含むコメント文章全体を閲覧することができる。例えば、ある地域でお祭りのような地域イベントが開催されている場合、そのお祭りに紐付けられたハッシュタグを用いてコメント文章を発信することができる。一方で、閲覧者は、このハッシュタグを用いて閲覧することによって、そのお祭りに関するtweets全体を閲覧することができる。
これに対し、例えばtwitterにおけるジオタグ付きtweetsを用いて、地域イベントを発見することができる技術がある(例えば非特許文献1参照)。ジオタグ付きtweetsとは、GPS(Global Positioning System)機能を用いて、現在位置情報がコメント文章(つぶやき)に自動的に付加されたものをいう。この技術によれば、多くの人々の活動が活発となるお祭りのような地域イベントについて、普段と異なる特別な動向が見られる地域を検知することができる。
藤坂達也、李龍、角谷和俊、「Twitterユーザの集合経験知を用いた地域的ノーマル状態に基づく地域イベントの発見」、WebDBForum 2010、[online]、[平成23年12月27日検索]、インターネット<URL:http://www.shse.u-hyogo.ac.jp/sumiya/japanese/kenkyuu_jyusyou.html>
しかしながら、非特許文献1に記載の技術によれば、イベント位置を検出できるものの、そのイベントの内容までは検出することができない。即ち、イベント名や、カテゴリ(スポーツ、花火、事故など)、その詳細内容(イベント関連Web情報など)を検出することはできない。特にジオタグ付きtweetsの場合、その位置情報のみがコメント文章に付加されているだけであって、そのイベントの内容まで特定するものではない。結果的に、イベントに基づくコメント文章は、ハッシュタグによって収集する必要がある。但し、ハッシュタグによって収集したコメント文章は、その地域に滞在しないユーザの端末からも投稿することができ、その地域に実際に滞在するユーザの端末から投稿されたコメント文章とは、その性質が異なってくる。
そこで、本発明によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けする装置、プログラム及び方法を提供することを目的とする。
本発明によれば、不特定多数の第三者から投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を蓄積したタグ付け装置であって、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
を有することを特徴とする。
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込むことも好ましい。
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、所定時間帯に投稿された多数のコメント文章の中で、位置情報を含むコメント文章のみを抽出し、且つ、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことも好ましい。
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込むことも好ましい。
本発明のタグ付け装置における他の実施形態によれば、イベント位置検出手段は、コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、イベント位置を検出することも好ましい。
本発明のタグ付け装置における他の実施形態によれば、タグ付け手段によって記憶されたイベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべきコメントキーワードとを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することも好ましい。
本発明のタグ付け装置における他の実施形態によれば、コメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、コメントキーワードとして抽出することも好ましい。
本発明のタグ付け装置における他の実施形態によれば、
コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
ブログサーバ又は掲示板サイトサーバから、コメント文章を収集するコメント文章収集手段を更に有することも好ましい。
本発明のタグ付け装置における他の実施形態によれば、
ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
コメントキーワード抽出手段は、ハッシュタグを、コメントキーワードとして抽出することも好ましい。
本発明のタグ付け装置における他の実施形態によれば、
ハッシュタグを含むコメント文章を、twitter(登録商標)サーバを用いて更に検索するコメントキーワード再検索手段を更に有し、
コメントキーワード再検索手段によって取得されたコメント文章を、コメント文章収集手段によって取得されたものとする
ことも好ましい。
本発明によれば、置に搭載されたコンピュータを機能させるタグ付けプログラムであって、
ログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集するコメント文章収集手段と、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
イベント位置毎に、コメントキーワードをタグとして対応付けるタグ付け手段と
してコンピュータを機能させることを特徴とする。
本発明によれば、装置のタグ付け方法であって、
ログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集する第1のステップと、
所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出する第2のステップと、
イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する第3のステップと、
イベント位置毎に、コメントキーワードをタグとして対応付ける第4のステップと
を有することを特徴とする。
本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けすることができる。
本発明におけるシステム構成図である。 本発明におけるタグ付けサーバの機能構成図である。 イベント検出部におけるフローチャートである。 本発明における地図上のイベント位置にキーワードを表示した画面図である。
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
図1は、本発明におけるシステム構成図である。
図1によれば、不特定多数の第三者から投稿されたコメント文章を公開するブログ(Web log)サーバ(又は掲示板サイトサーバ)2が、インターネットに接続されている。ブログサーバ2は、例えばtwitterサーバのようなミニブログサーバである。
ここで、図1によれば、特定の地域範囲で、地域イベントが開催されているとする。地域イベントとは、普段と異なる特別な動向が見られる地域、即ち、お祭りのようにその日時間帯だけ人が集中するような地域であるとする。このイベント位置には多数のユーザが滞在しており、各ユーザは、自ら所持する端末3を用いて、ミニブログサーバ2へコメント文章を投稿することができる。端末3は、ユーザと共に移動可能なものであって、携帯電話機やスマートフォンのような携帯端末である。
また、図1によれば、本発明を構成するタグ付けサーバ(装置)1が、インターネットに更に接続されている。タグ付けサーバ1は、ミニブログサーバ2から多数のコメント文章を収集する。勿論、ミニブログサーバ2と通信することは必須の構成要素ではなく、タグ付け装置(サーバ)1が、多数のコメント文章を予め蓄積したものであってもよい。そして、タグ付けサーバ1は、これらコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けする。また、他のユーザは、自ら所持する端末4を用いて、タグ付けサーバ1へアクセスし、イベント位置とそのキーワードとを紐付けて閲覧することができる。
図2は、本発明におけるタグ付けサーバの機能構成図である。
図2によれば、タグ付けサーバ1は、インターネットに接続された通信インタフェース部10と、コメント文章収集部111と、イベント位置検出部112と、コメントキーワード抽出部113と、タグ付け部114と、イベント位置記憶部115と、地図情報送信部116と、コメントキーワード再検索部117とを有する。これら機能構成部は、サーバに搭載されたコンピュータを機能させるプログラムを実行することによって実現される。
[コメント文章収集部111]
コメント文章収集部111は、ミニブログサーバ(例えばtwitterサーバ)2から、投稿時刻及び位置情報を含むコメント文章を収集する。これらコメント文章は、ジオタグ付きtweetsであり、ユーザid(user_id)、発信時間(created_at)、位置情報(loc_lat, loc_lng)(緯度・経度情報)、テキスト(texts)を含む。ここで、コメント文章収集部111は、所定時間帯に投稿されたコメント文章のみを収集することも好ましい。地域イベントは、一定の時間帯でのみ開催されるものであるからである。勿論、コメント文章収集部111に代えて、多数のコメント文章を予め蓄積したコメント文章蓄積部であってもよい。
コメント文章内における位置情報は、例えば以下のように表される。
「I'm at (場所名) http://t.co/BNw9NbL2」
「@XXX http://t.co/3acyFI3K」
「(場所名)にタッチ! http://t.co/4a7dabK」
また、コメント文章収集部111は、例えばtwitterサーバに対して、StreamingAPIを用いることも好ましい。twitterのAPIは基本的にpull型であるのに対し、StreamingAPIは、クライアントが、twitterサーバへ接続を開き、リクエストを送信した後、切断されるまで接続を維持することできる。その間、サーバは、レスポンス(投稿されたコメント文章)をリアルタイムに、クライアント(タグ付けサーバ1)へ送信し続けることができる。また、StreamingAPIによれば、位置情報を含むコメント文章のみや、特定キーワードを含むコメント文章のみを収集するよう設定することもできる。そして、コメント文章収集部111によって収集されたコメント文章は、イベント位置検出部112へ出力される。
[イベント位置検出部112]
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲に所定数以上のコメント文章が集中するイベント位置を検出する。
図3は、イベント検出部におけるフローチャートである。
(S31)イベント位置候補の検出(位置情報のクラスタリング)
イベントが開催されている地域では、投稿数が集中していると想定する。そこで、最初に、イベント位置検出部112は、コメント文章に付加された緯度経度情報を平面上にプロットし、その位置をクラスタリングすることによって、コメント文章が集中するイベント位置(密集地)を検出する。このクラスタリングには、例えばDBSCAN(Density-Based Spatial Clustering)を用いることができる。k-meansによれば、クラスタ数kを事前に与える必要があるのに対し、DBSCANによれば、クラスタ数を事前に与えことなく、比較的に直感的なクラスタを抽出できる。
DBSCANは、超球状ではない任意形状のクラスタの抽出を目的としたクラスタリング方法であって、2つの点における直接密度到達可能(directly density-rechable)を導出するものである。あるseed点から、直接密度到達可能な関係を推移的に辿って、到達可能な極大集合を1つのクラスタとして抽出する。
DBSCANによれば、Eps(epsilon、距離)及びMinPts(minimum points、最低ポイント)の2つのパラメータを用いる。例えばEps=0.0005及びMinPts=10を事前に与えるものであってもよい。また、これらパラメータを、測位の所定時間周期や最終的な住所居所推定の結果によって変更するものであってもよい。
(S32)日常的に所定数以上の投稿数がある位置情報の除外
次に、イベント位置検出部112は、S31におけるイベント位置の候補の中から、日常的に、所定数以上の投稿数がある位置情報の除外して絞り込む。常に投稿数が多い場所として、例えば「駅」がある。駅のような場所は、普段と異なる特別な動向が見られるイベント位置ではない。そのために、日常的に投稿数が多い位置は、イベント位置候補からために、除外する。
(S33)所定割合以下のユーザ数しか存在しないイベント位置の除外
イベント位置検出部112は、イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込む。このようなイベント位置では、同一ユーザが多数回、コメント文章を投稿しており、多数のユーザが集まるイベント位置ではないことが多い。そこで、このようなイベント位置の候補は除外する。例えば、その地域における投稿数の半分より少ない場合(10個のコメント文章が投稿された地域について、そのユーザ数が4人以下である場合)、このイベント位置を候補から除外する。
(S34)投稿者自身が主張する文章が記述されていないコメント文章の除外
イベント位置検出部112は、所定時間帯に投稿された多数のコメント文章の中で、投稿者自身が主張する文章が記述されていないコメント文章を除外する。例えば、「I'm at (場所)」や「(場所)にタッチ!」など、位置情報登録サイト特有の言い回しのみで構成される場合が多い。このため、このような言い回しのコメント文章のみで、且つ、投稿者自身が主張する文章が記述されていないコメント文章を、除外する。このようなコメント文章は、その地域イベントを特定するに適したキーワードが含まれていないためである。
×のコメント文章は、投稿者自身が主張する文章が記述されておらず、S33によって除外される。
(コメント文章1)○ 着いた。さっきの学生さん達は、A大でした。@都庁西新宿ビル http://t.co/3acyFI3K
(コメント文章2)○ OSC 2011 Tokyo/Fall にやってまいりました #osc11tk (@ 都庁 西新宿ビル w/ 3 others) http://t.co/BNw9NbL2
(コメント文章3)× I'm at 都庁西新宿ビル 28階http://t.co/v66BR2Iv
(コメント文章4)○ ついた (@都庁西新宿ビル w/ 4 others) http://t.co/RZkmuSG8',
(コメント文章5)× I'm at 都庁西新宿ビル w/ @hirokazu_nishi http://t.co/HdCZoVD4',
(コメント文章6)○ #osc11tkに参加。いやぁしかし、広いキャンパスだなぁ。(@都庁西新宿ビル w/ 7 others) http://t.co/V1YAzqZg
(コメント文章7)× I'm at 都庁西新宿ビル w/ @minky0 http://t.co/5aYa34CN
(コメント文章8)× I'm at 都庁西新宿ビル D2-1-1, C市) w/ 10 others http://t.co/Uxcc0IrB
(S35)所定閾値以上の出現頻度のキーワードが検出されないイベント位置の除外
イベント位置検出部112は、イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込む。イベント位置である場合、そのイベントの内容に応じて、一定以上の出現頻度のキーワードが必ず検出されると考えられる。即ち、そのキーワードは、そのイベントの内容を表すに適切なものである場合が多い。一方で、一定以上の出現頻度のキーワードが検出されないということは、特定のイベントが開催されていないと考えられる。従って、そのようなイベント位置の候補は、除外する。
[コメントキーワード抽出部113]
コメントキーワード抽出部113は、イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する。抽出されたコメントキーワードは、タグ付け部114へ出力される。
コメントキーワード抽出部113は、最初に、複数のコメント文章から形態素解析によって単語を抽出する。「形態素解析」とは、文章を、意味のある単語に区切り、辞書を利用して品詞や内容を判別する技術をいう。「形態素」とは、文章の要素のうち、意味を持つ最小の単位を意味する。
ここで、形態素解析には、例えばオープンソースの形態素解析エンジン「MeCab」を用いることができる。このエンジンによれば、階層化された品詞体系を有し、形態素の品詞も解析することができる。形態素毎に、「名詞」「固有名詞」「組織」「地域」「一般」・・・等の品詞も出力される。但し、本発明によれば、コメントキーワードからは、地名や住所を除外することが好ましい。地名自体は、そのイベントの内容を表さないからである。
次に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的なキーワードを、コメントキーワードとして抽出する。TF−IDFとは、各単語に重みを付けて、クエリから文書をベクトル空間で表し、文書とクエリの類似度でランク付けをする技術である。ランク付けられた値が高いほど、重要キーワードと認識される。
また、コメントキーワード抽出部113は、例えばtwitterサーバから収集したコメント文章については、ハッシュタグ(#)を、コメントキーワードとして更に抽出することも好ましい。ハッシュタグは、共通の話題についてコメント文章同士を紐付けるものである。
[タグ付け部114]
タグ付け部114は、イベント位置毎に、コメントキーワードをタグとして対応付ける。そして、イベント位置(緯度経度情報)+コメントキーワードは、イベント位置記憶部115へ出力される。
[イベント位置記憶部115]
イベント位置記憶部115は、イベント位置(緯度経度情報)+コメントキーワードを記憶する。
[地図情報送信部116]
地図情報送信部116は、地図情報と、その地図に含まれるイベント位置に描画されるコメントキーワードとを、ユーザ操作可能な端末3へ送信する。
図4は、本発明における地図上のイベント位置にキーワードを表示した画面図である。
図4によれば、地図上のイベント位置に、特徴的なコメントキーワードが表示されている。ここでは、図3のコメント文章に基づいて、都庁西新宿のイベント位置に、コメントキーワード「#osc11tk」「OSC2011 Tokyo/Fall」「A大学」が表示されている。閲覧者は、この地図を見ることによって、都庁西新宿の位置に、コメントキーワードに基づくイベントが開催されていることを、直感的に認識することができる。
[コメントキーワード再検索部117]
コメントキーワード再検索部117は、コメントキーワード抽出部113から出力されたコメントキーワードをキーとして、twitter(登録商標)サーバを用いて更に検索する。コメントキーワードは、例えばハッシュタグ(#)やイベント固有名詞を含み、これらを含むコメント文章を再検索する。
例えばtwitterの場合、ジオタグ付き付きコメント文章は、全体の0.5%程度(日本の2010年統計)しか存在しない。一方で、そのイベント位置から投稿されているにも拘わらず、位置情報が付加されていないコメント文章も数多く存在する。そこで、コメントキーワード再検索部117によって、コメントキーワードを含むコメント文章を更に検索し、これらコメント文章を、コメント文章収集部111へ出力される。これによって、コメント文章収集部111によって収集可能なコメント文章の数を増大させることができる。位置情報が付加されたいないコメント文章からも、そのイベント位置に基づく特徴的なキーワードが更に抽出される。
例えばtwitterサーバよれば、以下のように指定したキーワードを含むコメント文章(tweets)を検索することができる。例えば、キーワード"OSC2011
Tokyo/Fall"が含まれるtweetsを検索する場合、以下のURL(Uniform Resource Locator)を指定する。
http://search.twitter.com/search.atom?phrase="OSC2011 Tokyo/Fall"
また、例えばtwitterによれば、ハッシュタグ(#)が付加されたコメント文章tweetsのみを収集することもできる。twitterの場合、ハッシュタグを用いることで、話題を共通化することできる。例えば、ハッシュタグ"#osc11tk"が付加されたtweetを検索する場合、以下のURLを指定する。
http://search.twitter.com/search.atom?q=%23osc11tk
また、日付を指定することによって、最大1週間分のtweetsを検索することもできる。
他の実施形態として、コメントキーワードが抽出されたコメント文章について、そのコメント文章を投稿したユーザを検出し、そのユーザから投稿されたコメント文章を更に再検索することも好ましい。このユーザのコメント文章の全体から、当該イベントの終了時刻を抽出することもできる。例えば「終了」「閉館」「閉会」のようなキーワードを検出し、その投稿時刻を抽出することもできる。このようにして抽出された終了時刻に基づいて、イベント位置記憶部115に記憶されたアイテム(イベント位置−キーワード群)を削除することもできる。
また、他の実施形態として、コメントキーワードの意味を表すカテゴリを、地図上に更に付与することも好ましい。図4によれば、「OSC2011 Tokyo/Fall」と記述されているが、例えば「OSC2011
Tokyo/Fall(学会)」とカテゴリも加えて記述する。このような記述を実現するためには、イベント毎に、予め準備しておいたイベント関連語リストを作成しておく必要がある。イベント関連語リストには、例えば「OSC -> 学会」が記憶されており、「OSC」を含むことよって、カテゴリ「学会」が検索される。このように、コメントキーワードに加えて、カテゴリも付加することによって、閲覧者に、更に直感的に理解させることができる。
以上、詳細に説明したように、本発明のタグ付け装置、プログラム及び方法によれば、多数のコメント文章に基づいて、普段と異なる特別な動向が見られるイベント位置に、リアルタイムなキーワードをタグ付けすることができる。特定の地域について、投稿者が発信した所定のイベントに関する投稿文から、その地域で何が起きているかを検出し、そのキーワードをその位置に付与することができる。そして、閲覧者は、位置(イベント位置)にコメントキーワードが紐付けらえた地図を閲覧することによって、その位置でどのようなイベントが開催されていることを、直感的に認識することができる。
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
1 タグ付けサーバ
10 通信インタフェース部
111 コメント文章収集部
112 イベント位置検出部
113 コメントキーワード抽出部
114 タグ付け部
115 イベント位置記憶部
116 地図情報送信部
117 コメントキーワード再検索部
2 ミニブログサーバ
3 投稿者用端末
4 閲覧者用端末

Claims (12)

  1. 不特定多数の第三者から投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を蓄積したタグ付け装置であって、
    所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
    前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
    前記イベント位置毎に、前記コメントキーワードをタグとして対応付けるタグ付け手段と
    を有することを特徴とするタグ付け装置。
  2. 前記イベント位置検出手段は、前記イベント位置毎に、コメント文章の全体数に対して、これらコメント文章を投稿したユーザ数が所定割合値以下である場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1に記載のタグ付け装置。
  3. 前記イベント位置検出手段は、所定時間帯に投稿された多数のコメント文章の中で、位置情報を含むコメント文章のみを抽出し、且つ、投稿者自身が主張する文章が記述されていないコメント文章を除外して絞り込むことを特徴とする請求項1又は2に記載のタグ付け装置。
  4. 前記イベント位置検出手段は、前記イベント位置毎に、該出現頻度が所定閾値以上となる単語が1語も存在しない場合、当該イベント位置を除外して絞り込むことを特徴とする請求項1から3のいずれか1項に記載のタグ付け装置。
  5. 前記イベント位置検出手段は、前記コメント文章に含まれる位置情報を要素として、DBSCAN(Density-Based Spatial Clustering)アルゴリズムを用いて、前記イベント位置を検出することを特徴とする請求項1から4のいずれか1項に記載のタグ付け装置。
  6. 前記タグ付け手段によって記憶された前記イベント位置を指し示す地図情報と、その地図上の当該イベント位置の部分に記述すべき前記コメントキーワードとを、ユーザ操作可能な端末へ送信する地図情報送信手段を更に有することを特徴とする請求項1から5のいずれか1項に記載のタグ付け装置。
  7. 前記コメントキーワード抽出手段は、複数のコメント文章から形態素解析によって単語を抽出すると共に、TF−IDF(Term Frequency - Inverse Document Frequency:単語の出現頻度−逆出現頻度)によって特徴的単語を、前記コメントキーワードとして抽出する
    ことを特徴とする請求項1から6のいずれか1項に記載のタグ付け装置。
  8. 前記コメント文章は、ブログ(Web log)サーバ又は掲示板サイトサーバから取得されたものであり、
    前記ブログサーバ又は掲示板サイトサーバから、コメント文章を収集するコメント文章収集手段を更に有することを特徴とする請求項1から7のいずれか1項に記載のタグ付け装置。
  9. 前記ブログサーバは、ミニブログサーバのtwitter(登録商標)サーバであり、
    前記コメントキーワード抽出手段は、ハッシュタグを、前記コメントキーワードとして抽出する
    ことを特徴とする請求項8に記載のタグ付け装置。
  10. 前記ハッシュタグを含むコメント文章を、前記twitter(登録商標)サーバを用いて更に検索するコメントキーワード再検索手段を更に有し、
    前記コメントキーワード再検索手段によって取得されたコメント文章を、前記コメント文章収集手段によって取得されたものとする
    ことを特徴とする請求項9に記載のタグ付け装置。
  11. 置に搭載されたコンピュータを機能させるタグ付けプログラムであって、
    ログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集するコメント文章収集手段と、
    所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出するイベント位置検出手段と、
    前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出するコメントキーワード抽出手段と、
    前記イベント位置毎に、前記コメントキーワードをタグとして対応付けるタグ付け手段と
    してコンピュータを機能させることを特徴とするタグ付けプログラム。
  12. 装置のタグ付け方法であって、
    ログサーバから、不特定多数の第三者によって投稿された投稿時刻及び位置情報(緯度経度)を含むジオタグ付きコメント文章を収集する第1のステップと、
    所定時間帯に投稿された多数のコメント文章を用いて、所定位置範囲(緯度経度範囲)に所定数以上のコメント文章が集中するイベント位置(緯度経度)を検出する第2のステップと、
    前記イベント位置毎に、コメント文章の群から単語を抽出し、該単語毎に出現頻度を計数し、出現頻度が所定数以上となるコメントキーワードを抽出する第3のステップと、
    前記イベント位置毎に、前記コメントキーワードをタグとして対応付ける第4のステップと
    を有することを特徴とするタグ付け方法。
JP2011286637A 2011-12-27 2011-12-27 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法 Active JP5725619B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011286637A JP5725619B2 (ja) 2011-12-27 2011-12-27 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011286637A JP5725619B2 (ja) 2011-12-27 2011-12-27 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法

Publications (2)

Publication Number Publication Date
JP2013134738A JP2013134738A (ja) 2013-07-08
JP5725619B2 true JP5725619B2 (ja) 2015-05-27

Family

ID=48911355

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011286637A Active JP5725619B2 (ja) 2011-12-27 2011-12-27 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法

Country Status (1)

Country Link
JP (1) JP5725619B2 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6369108B2 (ja) * 2014-04-18 2018-08-08 富士通株式会社 イベント発生場所推定方法、イベント発生場所推定プログラムおよびイベント発生場所推定装置
JP6497657B2 (ja) * 2014-08-20 2019-04-10 Kddi株式会社 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法
US20160110381A1 (en) * 2014-10-17 2016-04-21 Fuji Xerox Co., Ltd. Methods and systems for social media-based profiling of entity location by associating entities and venues with geo-tagged short electronic messages
CN106934005A (zh) * 2017-03-07 2017-07-07 重庆邮电大学 一种基于密度的文本聚类方法
JP6624174B2 (ja) * 2017-08-10 2019-12-25 株式会社ニコン 情報処理装置
CN108153856B (zh) * 2017-12-22 2022-09-06 北京百度网讯科技有限公司 用于输出信息的方法和装置
CN110750646B (zh) * 2019-10-16 2022-12-06 乐山师范学院 一种旅店评论文本的属性描述提取方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5390840B2 (ja) * 2008-11-27 2014-01-15 株式会社日立製作所 情報分析装置
JP2011103101A (ja) * 2009-11-12 2011-05-26 Shunsuke Tajiri 情報提供装置および情報提供方法

Also Published As

Publication number Publication date
JP2013134738A (ja) 2013-07-08

Similar Documents

Publication Publication Date Title
US11870864B2 (en) System and method for automatic storyline construction based on determined breaking news
Xu et al. Crowdsourcing based description of urban emergency events using social media big data
US11153253B2 (en) System and method for determining and delivering breaking news utilizing social media
JP5725619B2 (ja) 多数のコメント文章に基づいて位置情報にキーワードをタグ付けする装置、プログラム及び方法
US10223465B2 (en) Customizable, real time intelligence channel
US8805823B2 (en) Content processing systems and methods
Xu et al. Building the multi-modal storytelling of urban emergency events based on crowdsensing of social media analytics
US10176265B2 (en) Awareness engine
CN112486917A (zh) 从多个微博自动生成信息丰富的内容的方法以及系统
US20210173875A1 (en) Computerized system and method for extracting entity information from text communications and displaying content based therefrom
JP6130270B2 (ja) メディアコンテンツに対応するコメント集合をソートして明示するコメントリスト公開サーバ、プログラム及び方法
Troudi et al. A new mashup based method for event detection from social media
Pereira et al. The role of context in transport prediction
Kim et al. TwitterTrends: a spatio-temporal trend detection and related keywords recommendation scheme
JP6147629B2 (ja) ページコンテンツについて注目箇所を直ぐに表示するページサイトサーバ、プログラム及び方法
KR102195686B1 (ko) 지역 기반 아이템 추천 장치 및 방법
JP5836892B2 (ja) イベント位置に地理的な特徴物の識別名称をタグ付けする装置、プログラム及び方法
Devkota et al. Utilizing user generated contents to describe tourism areas of interest
JP2014052809A (ja) 情報分類プログラム及び情報処理装置
Xu et al. Crowd sensing of urban emergency events based on social media big data
JP5836902B2 (ja) イベントに関するコメント文章のみ検出するイベントコメント文章検出装置、プログラム及び方法
JP6152333B2 (ja) メディアコンテンツに対応する要約語を明示する装置、サーバ、プログラム及び方法
KR20110039120A (ko) 장소 또는 사회 관계 기반의 컨텐츠 추천 리스트 제공 시스템
KR102279125B1 (ko) 취향필터에 기반한 추천 정보 제공 단말 및 장치
Sangameswar et al. Building a Natural Disaster Management System based on Blogging Platforms.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140725

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150302

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150310

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150325

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150327

R150 Certificate of patent or registration of utility model

Ref document number: 5725619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150