JP2014089583A - ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。 - Google Patents

ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。 Download PDF

Info

Publication number
JP2014089583A
JP2014089583A JP2012239077A JP2012239077A JP2014089583A JP 2014089583 A JP2014089583 A JP 2014089583A JP 2012239077 A JP2012239077 A JP 2012239077A JP 2012239077 A JP2012239077 A JP 2012239077A JP 2014089583 A JP2014089583 A JP 2014089583A
Authority
JP
Japan
Prior art keywords
location
user
content
social media
event
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012239077A
Other languages
English (en)
Inventor
Yohei Ikawa
洋平 伊川
Yuto Yamaguchi
祐人 山口
Miki Enoki
美紀 榎
Michiaki Tachibori
道昭 立堀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2012239077A priority Critical patent/JP2014089583A/ja
Priority to US14/067,178 priority patent/US9380121B2/en
Publication of JP2014089583A publication Critical patent/JP2014089583A/ja
Priority to US15/178,677 priority patent/US9954960B2/en
Priority to US15/881,155 priority patent/US10356186B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/52Network services specially adapted for the location of the user terminal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/2866Architectures; Arrangements
    • H04L67/30Profiles
    • H04L67/306User profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】 ミニブログ等のソーシャル・メディアにおいて、プロフィール欄にロケーションに関する記載のないユーザに関連するロケーションを推定する技術を提供する。
【解決手段】 ソーシャル・メディアにおいてユーザとロケーションとの対応を推定する方法であり、第1のロケーションと対応付けられた第1のユーザが前記ソーシャル・メディアにポストした第1のコンテンツを入手するステップと、前記第1のロケーションに基づいて、前記第1のコンテンツの地域的な局所性を判断するステップと、ロケーションと対応付けられていない第2のユーザが前記ソーシャル・メディアにポストした第2のコンテンツを入手するステップと、前記第1のコンテンツと前記第2のコンテンツとの関連性を判断するステップと、前記局所性と前記関連性とに基づいて、前記第1のロケーションを前記第2のユーザと対応付けるステップとを備える。
【選択図】 図6

Description

本発明は、情報処理技術に関係し、より詳しくは、ミニブログ等のソーシャル・メディアにおいてあるユーザに関連あるロケーションを推定する技術に係る。
ソーシャル・メディアが広範に利用されるに従い、各ユーザと関連のあるロケーション(例えば、居住地、勤務地等)を知りたい、との要請が存在する。例えば、ユーザから災害情報が発信された場合に、そのロケーションをいち早く推定し、必要な対策を採ることが可能となる。また、ユーザのロケーションが推定できると、地域毎の販売促進策が可能となる。一方、ソーシャル・メディアには、一般にユーザのプロフィールを記載・公開する欄が存在するが、プロフィール欄に正確なロケーションを記載しているユーザは一部であり、例えば、あるソーシャル・メディアにおいては正確なロケーションを記載しているユーザの比率は20数%であると報告されている。このような課題に対して、従来から、様々なアプローチが試みられてきた。例えば、モバイルデバイスのGPS(グローバル・ポジショニング・システム)機能を利用し、ユーザが発信する情報にジオタグと呼ばれる緯度・経度の情報を付加することが試みられている(非特許文献3参照)。また、発信された情報のテキストを分析し、テキストに含まれる地理的名称からロケーションを推定する技術が提案されている(特許文献1、特許文献2参照)。
また、ポストされた文章中に使用されている単語の地域的な偏在性(その地域に特徴的な単語や方言など)から、ユーザのロケーションを推定する技術も提案されている(非特許文献1)。さらに、ソーシャル・メディアが実装するユーザ同士の関係性(フォロー/被フォロー)に着目し、この関係性に地域的な偏在性が反映されている、という仮説の元、ユーザのロケーションを推定する技術も提案されている(非特許文献2)。
Cheng, et al. "You are whereyoutweet: A content-based approach to geo-locationg Twitterusers". In Proceedings of CIKM, 2010. Clodoveu, et al. "Evaluation of the quality of anonline geocoding resource in the context of a largeBrazilian city", Transactions in GIS, Volume 15, Issue6, pp.851-868, December 2011. T. Sakamaki,et al. "マイクロブログのジオタグを用いたユーザの行動パターンの調査に関する研究", IEICETechnical Report, NLC2010-37. 特表2010−517147号公報 特開2008−158564号公報
しかし、このような従来手法には、それぞれ次のような課題があり、その成果は限定的である。まず、ジオタグが付加された情報、発信された情報のテキスト中に地理的名称が含まれることは一般的に期待できないのが現実である。また、単語の地域的偏在性やユーザ関係の地域的偏在性による推定は十分な精度が期待できない。
本発明はこのような課題に鑑みてなされたものであり、関心を呼ぶ範囲に地域の局所性がある「ローカルイベント」を同定し、そのイベントに言及している居住地未確認ユーザがその地域に居住している可能性が高いと推定する、とうい知見に基づいている。そして、本発明の目的の一つは、ミニブログ等のソーシャル・メディアにおいて、プロフィール欄にロケーションに関する記載のないユーザに関連するロケーションを推定する技術を提供することにある。
本発明は、ソーシャル・メディアにおいてユーザとロケーションとの対応を推定する方法であり、1のロケーションと対応付けられた第1のユーザが前記ソーシャル・メディアにポストした第1のコンテンツを入手するステップと、前記第1のロケーションに基づいて、前記第1のコンテンツの地域的な局所性を判断するステップと、ロケーションと対応付けられていない第2のユーザが前記ソーシャル・メディアにポストした第2のコンテンツを入手するステップと、 前記第1のコンテンツと前記第2のコンテンツとの関連性を判断するステップと、前記局所性と前記関連性とに基づいて、前記第1のロケーションを前記第2のユーザと対応付けるステップとを備える方法である。
ここで、前記局所性を判断するステップは、ランダムに抽出した前記第1のコンテンツの地域的な分布を示す基準分布を演算するステップと、特定のイベントに関する前記第1のコンテンツの地域的な分布を示すイベント分布を演算するステップと、前記基準分布と前記イベント分布との差に基づいて、前記第1のコンテンツの地域的な局所性を判断するステップと を含むように構成することができる。
さらに、前記ソーシャル・メディアは、各ユーザに対応付けられたプロフィールを備え、前記プロフィールはロケーション欄を備え、前記基準分布を演算するステップは、ランダムに抽出した前記第1のコンテンツをポストしたユーザに対応する前記ロケーション欄に記載された地名を取得するステップと、地名と緯度経度との対応を示す地名辞書を参照し、前記取得された地名に基づいて、前記取得された地名に対応する緯度経度を求めるステップと、予め対象地域を分割した複数のセルのうち、前記求められた緯度経度に対応する単一のセルを特定するステップとを含むように構成することができる。なお、前記特定された単一のセルが前記第1のロケーションとしてもよいし、前記対象地域の分割精度は、変更可能にすることもできる。
また、前記特定のイベントに関する前記第1のコンテンツは、特定のキーワードを含む前記第1のコンテンツとすることができ、前記特定のキーワードはその出現回数が予め定められた閾値を超えたキーワードとすることができる。
また、前記ソーシャル・メディアは、各ユーザに対応付けられたプロフィールを備え、前記プロフィールはロケーション欄を備え、前記イベント分布を演算するステップは、特定のイベントに関する前記第1のコンテンツをポストしたユーザに対応する前記ロケーション欄に記載された地名を取得するステップと、地名と緯度経度との対応を示す地名辞書を参照し、前記取得された地名に基づいて、前記取得された地名に対応する緯度経度を求めるステップと、予め対象地域を分割した複数のセルのうち、前記求められた緯度経度に対応する単一のセルを特定するステップとを含むように構成してもよい。
ここで、前記第1のコンテンツの地域的な局所性は、前記基準分布と前記イベント分布とのKL-divergenceにより演算されることができる。また、前記関連性を判断するステップは、前記第1のコンテンツと前記第2のコンテンツとが同一の特定のイベントに関するものであるか否かを判断することができ、記関連性を判断するステップは、
前記第1のコンテンツと前記第2のコンテンツとが同一のキーワードを含むものであるか否かを判断することができる。
また、前記対応付けるステップは、前記局所性が予め定められた閾値よりも高いことを条件に、前記第1のロケーションを前記第2のユーザと対応付けることができる。また、前記対応付けるステップは、前記局所性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付けることもできる。さらに、前記対応付けるステップは、前記関連性が予め定められた閾値よりも高いことを条件に、前記第1のロケーションを前記第2のユーザと対応付けることができる。また、前記対応付けるステップは、前記関連性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付けることができる。
また、複数の前記第1のロケーションが単一の前記第2のユーザに対応付けられることに応答して、最も多く対応付けられた前記第1のロケーションを前記第2のユーザに対応付けられる第2のロケーションと推定するステップを更に備えることができる。また、前記対応付けるステップは、前記関連性がより高く、かつ前記局所性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付け、複数の前記第1のロケーションが単一の前記第2のユーザに対応付けられることに応答して、最も強く対応付けられた前記第1のロケーションを前記第2のユーザに対応付けられる第2のロケーションと推定するステップを更に備えることもできる。
また、前記第2のユーザuが前記第1のロケーションlに対応付けられる確率P(l|u)は数1の数式で与えられ、特定のイベントeが第1のロケーションlに対応付けられている第1のユーザuの関心を特に呼ぶ確率P(l|e)は数2の数式で与えられ、第2のユーザuがイベントeに関して言及している確率P(e|u)は数3の数式で与えられるものとすることもできる。
Figure 2014089583
Figure 2014089583
Figure 2014089583
なお、前記コンテンツは、前記ソーシャル・メディアに投稿されたメッセージから所定の条件の下にサンプリングされたメッセージとすることができる。また、前記メッセージは、前記ソーシャル・メディアに所定の期間内に投稿されたメッセージのうち、所定のキーワードを含む条件の下にサンプリングされたメッセージとすることもできる。また、前記ソーシャル・メディアがマイクロブログであってもよい。
本発明コンピュータ・プログラム、コンピュータ・システムとして把握した場合にも、上述した本発明を方法として把握した場合と実質的に同一の技術的特徴を備える事ができる。
本発明によれば、ミニブログ等のソーシャル・メディアにおいてユーザのロケーションをより精度良く推定することができる。
マイクロブログのシステムを説明する概念図 ユーザ端末としてのスマートフォンとその画面表示の説明図 マイクロブログ・サーバ内のハードディスク装置内に記憶されているデータのデータ構造の説明図 コンピュータのハードウェア構成を説明するブロック図 コンピュータの機能を説明するブロック図 このコンピュータが実行する処理を説明する基本的なフローチャート ベース分布作成の処理を説明するフローチャート 地理的な分布データ作成の処理を説明するフローチャート ローカルイベント検出の処理を説明するフローチャート イベント検出の処理を説明するフローチャート 居住地推定の処理を説明するフローチャート 分布データの作成過程を説明する模式図
実施形態
以下、本発明を実施するための最良の形態を図面に基づいて詳細に説明するが、以下の実施形態は特許請求の範囲にかかる発明を限定するものではなく、また実施形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。また、本発明は多くの異なる態様で実施することが可能であり、実施の形態の記載内容に限定して解釈されるべきものではない。また、実施の形態の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須とは限らないことに留意されたい。実施の形態の説明の全体を通じて(特段の断りのない限り)同じ要素には同じ番号を付している。
図1は、ソーシャル・メディアの一例として、マイクロブログのシステムを説明する概念図である。本システムは、マイクロブログ・サーバ2と、ユーザ端末とを含み、これらはインタネット4を介して互いに通信可能に接続されている。また、ユーザ端末としては、通信機能を備えたあらゆる形態のコンピュータを採用することができる。例えば、モバイルデバイスとして、図示するスマートフォン31、タブレット32、(ノート型)パーソナル・コンピュータ33の他にも、図示しないパーソナル・データ・アシスタント(PDA、携帯情報端末)、車載コンピュータ、ネットブック等を採用することができる。
図2は、一例として、ユーザ端末としてのスマートフォン31とその画面表示を説明するものである。このスマートフォン31のタッチスクリーンには、マイクロブログ・アプリケーションの画面が表示されており、当該アプリケーション画面は、上から順に、ホーム部分311、タイムライン部分312、操作部分313に分かれている。ホーム部分には、メニューボタンと、タイムライン部分312がユーザAAAのタイムラインである旨が表示されている。タイムライン部分312には、上から順に、ユーザAAAのメッセージ部分312a、312b、(フォローしている)ユーザBBBのメッセージ部分312cが表示されている。これらのメッセージ部分312a〜cは、時系列沿って表示されている。つまり、最上部の発言部分312aが最新のメッセージに対応している。
図3は、マイクロブログ・サーバ2内のハードディスク装置20、22内に記憶されているデータのデータ構造を説明するものである。ハードディスク装置20に記憶されているメッセージテーブル(図3(a))には、各メッセージが発信された日時を示す発信日時(created_at)、各メッセージを特定するメッセージID(id)と、そのメッセージを発信したユーザを特定するユーザID(user_id)と、メッセージの内容であるテキスト(text)を備えている。なお、テキストには文字数制限(例えば、140文字以内等)を設けることができる。一方、ハードディスク装置22に記憶されているプロフィールテーブル(図3(b))には、各ユーザを特定するユーザID(user_id)、ユーザの名前(name)、ユーザの住所や勤務先等の場所(location)、ユーザのプロフィールを示すプロフィール情報(profile)、関連するウェブページのアドレスであるURL情報(url)を備えている。なお、ここでは、各ハードディスク装置20、22は個別のものとして描いたが、これらが一体的に構成されていても、さらに複数の装置に分散されていてもよい。
図4は、パーソナル・コンピュータ1のハードウェア構成を説明するブロック図である。コンピュータ1のハードウェア構成は、(低速及び高速の)バス10、バス10に接続されるCPU(演算制御装置)11、RAM(ランダム・アクセス・メモリ:記憶装置)12、ROM(リード・オンリ・メモリ:記憶装置)13、HDD(ハード・ディスク・ドライブ:記憶装置)14、通信インタフェース15、入出力インタフェース16を備えている。さらに、入出力インタフェース16に接続されるマウス17、フラット・パネル・ディスプレイ(表示装置)18、キーボード19等を備えている。なお、コンピュータ1は一般的なパーソナル・コンピュータ・アーキテクチャを採用するものとして説明したが、例えば、より高いデータ処理能力や可用性を求めて、CPU11やHDD14等を多重化することができる。また、デスクトップ型の他、様々なタイプのコンピュータ・システムを採用することができる。
このコンピュータ1のソフトウェア構成は、基本的な機能を提供するオペレーティング・システム(OS)と、OSの機能を利用するアプリケーション・ソフトウェアと、入出力装置のドライバ・ソフトウェアとを備えている。これらの各ソフトウェアは、各種データと共にRAM12上にロードされ、CPU11等により実行され、コンピュータ1は全体として、図5に示す機能モジュールとして機能し、図6から図11に示す処理を実行する。
図5は、実施例に係るコンピュータ1の機能モジュールを説明するブロック図である。コンピュータ1は、基準分布演算モジュール101、イベント分布演算モジュール102、局所性判断モジュール103、居住地推定モジュール104として機能する。
図6は、実施例に係るコンピュータ1が実行する処理を示すフローチャートであり、大きく分けて、ベース分布作成ステップ(S1)と、ローカルイベント検出ステップ(S2)と、居住地推定ステップ(S3)とを備える。
図7及び図8は、ベース分布作成ステップ(S1)をより詳細に説明するフローチャートである。基準分布演算モジュール101は、マイクロブログ・サーバ2から、APIを利用して、プロフィール情報の居住地欄に何らかの情報が入力されているユーザ(居住地確認済みユーザ)が発信したメッセージをランダムに取得する(S11)。次に、基準分布演算モジュール101は、取得したメッセージに基づいて、地理的な分布データを作成する(S12)。
図8は、地理的な分布データの作成手順を示すフローチャートである。また、図12は、地理的な分布データの作成過程について説明する概念図である。地理的な分布データは、対象となるエリアをメッシュ状に分割して構成される。例えば、北緯30度から45度、東経130度から145度のエリア(図12(a)参照)を南北に100個、東西に100個、メッシュ状に等分割することができる(図12(b)参照:但し、図面中の分割数は一致しない。)。ここで、分割して得られた各セルに対して値を付与することが可能である。また、セルの大きさ(等分割数)は、任意に設定することができる。まず、各セルの値を0(ゼロ)として初期化する(S121)。その後、対象となるメッセージ集合(ここでは、居住地確認済みユーザが発信したメッセージをランダムに取得した集合(S11))のうち、各メッセージについてS123からS125の処理を行う(S122、S126)。
つまり、発信者のプロフィール情報の居住地欄に記入されているテキストを取得する(S123)。次に、地名と緯度経度との対応辞書を利用し、取得されたテキスト(地名)に対応する緯度経度を求める(S124)。次に、求められた緯度経度に対応するセルの値に1加算する(S125)。
ここで、各発信者がプロフィール情報の居住地欄に記入しているテキスト(地名)の詳細さは様々であることが想定されるが、例えば、次のように処理することができる。まず、各セルの大きさとの関係で、どの行政区分レベルが適切であるかを予め決定する。ここでは、例えば、市区レベルの行政区分レベルが適切であるとする。もし、ユーザが市区レベルよりも下位レベルの地名(町レベル)を入力している場合には、上位の市区レベルの地名を用いる(詳細な町レベルの地名は捨象する)。もし、ユーザが市区レベルよりも上位レベルの地名(都道府県レベル)しか入力していない場合には、下位の代表的な市区レベルの地名(例えば、県庁所在地の市区)を用いる。なお、これらの処理を後述する対応辞書の構成に予め反映させておくこともできる。
また、地名と緯度経度との対応辞書は、図示しないが、HDD14に記憶されており、基準分布演算モジュール101によりアクセスされる。ここでは、地名と緯度経度との関係は、一つの地名に対して、例えば、その市区庁舎所在地の緯度経度、のように1対1であることを想定しているが、これが1対N(自然数)の関係であってもよい。また、ここでは、緯度経路と加算するセルとの関係は、一つの緯度経度に対してその緯度経度を含む一つのセル、のように1対1であることを想定しているが、例えば、求められた緯度経度を含む一つのセルと、そのセルに隣接する複数のセルに対して、求められた緯度経度と各セルの中心緯度経度との距離に応じて重み付けをした数値をそれぞれ付与することもできる。さらに、ここでは、地名と緯度経度との対応辞書を用いているが、例えば、地名とセルとの対応辞書を予め用意しておくこともできる。
ランダムに取得したメッセージの集合を対象に、このような処理(S123からS125)を繰り返すことにより、その地域的な分布を示す基準分布を得ることができる(図12(c)参照)。つまり、図12(c)が示すように、グレーのメッシュ部分は、そこに関連する(そこに住んでいる、又は働いている)ユーザがメッセージを発信したことを示し、各グレー部分の濃さは、発信数の多さを示している。
図9及び図10は、ローカルイベント検出ステップ(S2)をより詳細に説明するフローチャートである。イベント分布演算モジュール102は、まず、イベントの検出を行う(S21)。具体的には、マイクロブログ・サーバ2から、APIを利用して、居住地確認済みユーザが発信したメッセージを、メッセージの発信時刻を元に一定の時間間隔(例えば、30分)毎のメッセージ集合に分割して、取得する(S211)。次に、イベント分布演算モジュール102は、各時間におけるメッセージ集合に対して、以下の処理を行う(S212及びS215)。つまり、メッセージ集合の各メッセージに対して、メッセージ本文に含まれるキーワードを抽出し、そのキーワード毎にその出現回数をカウントする(S213)。出現回数が予め定められた閾値(例えば、30)を超えているキーワードを含むメッセージの集合を、「イベント」として特定する(S214)。
次に、イベント分布演算モジュール102及び局所性判断モジュール103は、イベントとして特定されたメッセージの集合に対して、以下の処理を行う(S22及びS27)。
まず、イベント分布演算モジュール102が、イベントとして特定されたメッセージの集合に基づいて、地理的な分布データを作成する(S23)。これは、図8で示した処理と同様に、対象となるメッセージ集合(ここでは、イベントとして特定されたメッセージの集合)のうち、各メッセージについて、発信者のプロフィール情報の居住地欄に記入されているテキストを取得し(S123参照)、地名と緯度経度との対応辞書を利用し、取得されたテキスト(地名)に対応する緯度経度を求め(S124参照)、求められた緯度経度に対応するセルに1加算する(S125参照)。イベントとして特定されたメッセージの集合を対象に、このような処理(S123からS125)を繰り返すことにより、その地域的な分布を示す基準分布を得ることができる(図12(d)参照)。結果として、図12(d)が示すように、グレーのメッシュ部分は、そこに関連する(そこに住んでいる、又は働いている)ユーザがそのイベントとして特定されたメッセージを発信したことを示し、各グレー部分の濃さは、発信数の多さを示している。
次に、局所性判断モジュール103が、このようにして演算されたイベント分布(図12(d)参照)と先のベース分布(図12(c)参照)とを比較し、両者のKL-divergenceを演算する(S24)。なお、KL-divergenceは、2つの確率分布の差異を計る尺度であるが、その詳細な演算方法は周知であるので、ここでは詳述しない。次に、局所性判断モジュール103は、KL-divergenceの値が、予め定められた閾値(例えば、1.5)以上か否かを判断し(S25)、閾値未満であれば、次のイベントとして特定されたメッセージの集合に対して、同様の処理を施し(S22)、閾値以上であれば、そのメッセージの集合をローカルイベントとして特定する(S26)。なお、KL-divergenceの値に基づいて、各ローカルイベントを重み付けすることもできる。
図11は、居住地推定ステップ(S3)をより詳細に説明するフローチャートである。居住地推定モジュール104は、各ローカルイベントに対して、以下の処理を繰り返す(S31とS33)。具体的には、マイクロブログ・サーバ2から、APIを利用して、プロフィール情報の居住地欄に情報が入力されていないユーザ(居住地未確認ユーザ)が発信したメッセージを取得し、そのうち、ローカルイベントに言及したメッセージ(メッセージ中にローカルイベントのキーワードを含むもの)を発信したユーザに対して、ユーザ毎にそれぞれ数5のP(l|e)及び数6のP(e|u)を演算し、数4のP(l|u)に足し込む(S32)。なお、ここでは、メッセージ中にローカルイベントのキーワードを含むか否かにより両者の関連性を判断しているが、メッセージ中に存在するローカルイベントのキーワードの数等に基づいて、その関連性を重み付けしてもよい。
Figure 2014089583
Figure 2014089583
Figure 2014089583
居住地推定モジュール104は、あるユーザのP(l|u)で、最も確率の高い場所が、そのユーザの居住地であると推定する(S34)。さらに、居住地推定モジュール104は、その結果をディスプレイ18等に表示させることができる。
本実施例では、イベントのうち、ユーザの関心を呼ぶ範囲に地域な局所性があるローカルイベントを同定し、そのイベントに言及している居住地未確認ユーザがその地域に居住している可能性が高いとみなすものである。ここで、「イベント」とは、ある期間に出現数が急増(バースト)したキーワードを含むメッセージの集合であり、ローカルイベントとは、特定の地域で関心を呼んでいるイベントであり、このローカルイベントを複数同定する。つまり、イベントについて言及した居住地確認済みユーザーを用いて、地域の局所性があるイベントを同定する。そして、あるローカルイベントに言及している居住地未確認ユーザーはその地域に居住している可能性が高いとみなす。ある地域の複数のローカルイベントに言及しているユーザーは、その地域に居住している可能性はより高くなる。
本発明は、全体がハードウェアの実施形態、全体がソフトウェアの実施形態、またはハードウェアおよびソフトウェア両方のエレメントを包含する実施形態の形を取ることができる。ある好適な実施形態において、本発明は、以下に限らないが、ファームウェア、常駐ソフトウェア、マイクロコード、構文解析ピココードなどを含めた、ソフトウェアに実装される。
さらに、本発明は、コンピュータまたは任意の命令実行システムによってまたはこれに関連させて使用するプログラム・コードを備えるコンピュータ・プログラム、コンピュータ可読媒体の形態を採ることもできる。本説明目的の上で、コンピュータ可読媒体は、任意の命令実行システム、装置、またはデバイスによってまたはこれに関連させて使用するためのプログラムを、収容、格納、通信、伝搬、または伝送できる任意の装置であり得る。具体的には、前述の構文解析制御モジュールは、この意味で命令実行システム、または「コンピュータ」を構成する。
媒体は、電子的、磁気的、光学的、電磁気的、赤外的、または半導体のシステム(もしくは装置もしくはデバイス)または伝搬媒体とすることができる。コンピュータ可読媒体の例には、半導体または固体メモリ、磁気テープ、着脱可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM:random access memory)、読み取り専用メモリ(ROM:read−only memory)、剛体磁気ディスク、および光ディスクが含まれる。光ディスクの現時点での例には、コンパクト・ディスク読み取り専用メモリ(CD−ROM:compact disk read only memory)、コンパクト・ディスク読み取り/書き込み(CD−R/W:compact disk read/write)メモリ、およびDVDが含まれる。
プログラム・コードを格納もしくは実行またはその両方を行うのに適したデータ処理システムは、システム・バスを介して直接的または間接的にメモリ・エレメントに連結された少なくとも一つのプロセッサを含み得る。このメモリ・エレメントには、プログラム・コードの実際の実行の過程で使われるローカル・メモリ、バルク記憶装置、および、実行中にバルク記憶装置から読み出さねばならない回数を低減するために、少なくとも一部のプログラム・コードに一時的保管を提供するキャッシュ・メモリを含めることができる。
1…パーソナル・コンピュータ、
11…CPU(演算制御装置)
12…RAM(ランダム・アクセス・メモリ:記憶装置)
13…ROM(リード・オンリ・メモリ:記憶装置)
14…HDD(ハード・ディスク・ドライブ:記憶装置)
15…通信インタフェース
16…入出力インタフェース
17…マウス
18…フラット・パネル・ディスプレイ(表示装置)
101…基準分布演算モジュール
102…イベント分布演算モジュール
103…局所性判断モジュール
104…居住地推定モジュール
2…マイクロブログ・サーバ
20、22…ハード・ディスク・ドライブ
31…スマートフォン
32…タブレット
33…(ノート型)パーソナル・コンピュータ

Claims (20)

  1. ソーシャル・メディアにおいてユーザとロケーションとの対応を推定する方法であり、
    第1のロケーションと対応付けられた第1のユーザが前記ソーシャル・メディアにポストした第1のコンテンツを入手するステップと、
    前記第1のロケーションに基づいて、前記第1のコンテンツの地域的な局所性を判断するステップと、
    ロケーションと対応付けられていない第2のユーザが前記ソーシャル・メディアにポストした第2のコンテンツを入手するステップと、
    前記第1のコンテンツと前記第2のコンテンツとの関連性を判断するステップと、
    前記局所性と前記関連性とに基づいて、前記第1のロケーションを前記第2のユーザと対応付けるステップと
    を備える方法。
  2. 前記局所性を判断するステップは、
    ランダムに抽出した前記第1のコンテンツの地域的な分布を示す基準分布を演算するステップと、
    特定のイベントに関する前記第1のコンテンツの地域的な分布を示すイベント分布を演算するステップと、
    前記基準分布と前記イベント分布との差に基づいて、前記第1のコンテンツの地域的な局所性を判断するステップと
    を含む請求項1に記載の方法。
  3. 前記特定のイベントに関する前記第1のコンテンツは、特定のキーワードを含む前記第1のコンテンツである請求項2に記載の方法。
  4. 前記特定のキーワードは、一定時間当たりの出現回数が予め定められた閾値を超えたキーワードである請求項3に記載の方法。
  5. 前記第1のコンテンツの地域的な局所性は、前記基準分布と前記イベント分布とのKL-divergenceにより演算される請求項2に記載の方法。
  6. 前記ソーシャル・メディアは、各ユーザに対応付けられたプロフィールを備え、前記プロフィールはロケーション欄を備え、
    前記基準分布を演算するステップは、
    ランダムに抽出した前記第1のコンテンツをポストしたユーザに対応する前記ロケーション欄に記載された地名を取得するステップと、
    地名と緯度経度との対応を示す地名辞書を参照し、前記取得された地名に基づいて、前記取得された地名に対応する緯度経度を求めるステップと、
    予め対象地域を分割した複数のセルのうち、前記求められた緯度経度に対応する単一のセルを特定するステップと
    を含む請求項2に記載の方法。
  7. 前記ソーシャル・メディアは、各ユーザに対応付けられたプロフィールを備え、前記プロフィールはロケーション欄を備え、
    前記イベント分布を演算するステップは、
    特定のイベントに関する前記第1のコンテンツをポストしたユーザに対応する前記ロケーション欄に記載された地名を取得するステップと、
    地名と緯度経度との対応を示す地名辞書を参照し、前記取得された地名に基づいて、前記取得された地名に対応する緯度経度を求めるステップと、
    予め対象地域を分割した複数のセルのうち、前記求められた緯度経度に対応する単一のセルを特定するステップと
    を含む請求項2に記載の方法。
  8. 前記特定された単一のセルが前記第1のロケーションである請求項6又は7に記載の方法。
  9. 前記対象地域の分割精度は、変更可能である請求項6又は7に記載の方法。
  10. 前記関連性を判断するステップは、
    前記第1のコンテンツと前記第2のコンテンツとが同一の特定のイベントに関するものであるか否かを判断する請求項1に記載の方法。
  11. 前記関連性を判断するステップは、
    前記第1のコンテンツと前記第2のコンテンツとが同一の特定のキーワードを含むものであるか否かを判断する請求項1に記載の方法。
  12. 前記対応付けるステップは、前記局所性が予め定められた閾値よりも高いことを条件に、前記第1のロケーションを前記第2のユーザと対応付ける請求項1に記載の方法。
  13. 前記対応付けるステップは、前記局所性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付ける請求項1に記載の方法。
  14. 前記対応付けるステップは、前記関連性が予め定められた閾値よりも高いことを条件に、前記第1のロケーションを前記第2のユーザと対応付ける請求項1に記載の方法。
  15. 前記対応付けるステップは、前記関連性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付ける請求項1に記載の方法。
  16. 複数の前記第1のロケーションが単一の前記第2のユーザに対応付けられることに応答して、最も多く対応付けられた前記第1のロケーションを前記第2のユーザに対応付けられる第2のロケーションと推定するステップを更に備える請求項1に記載の方法。
  17. 前記対応付けるステップは、前記関連性がより高く、かつ前記局所性がより高いことに応答して、前記第1のロケーションを前記第2のユーザとより強く対応付け、
    複数の前記第1のロケーションが単一の前記第2のユーザに対応付けられることに応答して、最も強く対応付けられた前記第1のロケーションを前記第2のユーザに対応付けられる第2のロケーションと推定するステップを更に備える請求項1に記載の方法。
  18. 前記第2のユーザuが前記第1のロケーションlに対応付けられる確率P(l|u)は数1の数式で与えられ、特定のイベントeが第1のロケーションlに対応付けられている第1のユーザuの関心を特に呼ぶ確率P(l|e)は数2の数式で与えられ、第2のユーザuがイベントeに関して言及している確率P(e|u)は数3の数式で与えられる請求項1に記載の方法。
    Figure 2014089583
    Figure 2014089583
    Figure 2014089583
  19. コンピュータに実行されることで前記コンピュータに請求項1乃至18のいずれかに記載の方法を実行させるコンピュータ・プログラム。
  20. ソーシャル・メディアにおいてユーザとロケーションとの対応を推定するコンピュータであり、
    第1のロケーションと対応付けられた第1のユーザが前記ソーシャル・メディアにポストした第1のコンテンツを入手する手段と、
    前記第1のロケーションに基づいて、前記第1のコンテンツの地域的な局所性を判断する手段と、
    ロケーションと対応付けられていない第2のユーザが前記ソーシャル・メディアにポストした第2のコンテンツを入手する手段と、
    前記第1のコンテンツと前記第2のコンテンツとの関連性を判断する手段と、
    前記局所性と前記関連性とに基づいて、前記第1のロケーションを前記第2のユーザと対応付ける手段と
    を備えるコンピュータ。
JP2012239077A 2012-10-30 2012-10-30 ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。 Pending JP2014089583A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2012239077A JP2014089583A (ja) 2012-10-30 2012-10-30 ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。
US14/067,178 US9380121B2 (en) 2012-10-30 2013-10-30 Method, computer program and computer for estimating location based on social media
US15/178,677 US9954960B2 (en) 2012-10-30 2016-06-10 Method, computer program and computer for estimating location based on social media
US15/881,155 US10356186B2 (en) 2012-10-30 2018-01-26 Method, computer program and computer for estimating location based on social media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012239077A JP2014089583A (ja) 2012-10-30 2012-10-30 ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。

Publications (1)

Publication Number Publication Date
JP2014089583A true JP2014089583A (ja) 2014-05-15

Family

ID=50548452

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012239077A Pending JP2014089583A (ja) 2012-10-30 2012-10-30 ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。

Country Status (2)

Country Link
US (3) US9380121B2 (ja)
JP (1) JP2014089583A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045938A (ja) * 2014-08-20 2016-04-04 Kddi株式会社 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法
JP2017084225A (ja) * 2015-10-30 2017-05-18 株式会社Nttドコモ ユーザ種別判定装置
CN113641917A (zh) * 2020-05-11 2021-11-12 杭州海康威视数字技术股份有限公司 关系获取方法及装置

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105183870B (zh) * 2015-09-17 2018-07-27 武汉大学 一种利用微博位置信息的城市功能区探测方法及系统
CN106202488B (zh) * 2016-07-19 2019-04-19 西北工业大学 估算用户到物理事件距离的方法
EP3549037B1 (en) * 2016-11-09 2024-08-07 Thomson Reuters Enterprise Centre GmbH System and method for detecting geo-locations in social media
US10629053B2 (en) * 2017-11-27 2020-04-21 International Business Machines Corporation Automatic detection and alert of an emergency from social media communication
US11487720B2 (en) * 2018-05-08 2022-11-01 Palantir Technologies Inc. Unified data model and interface for databases storing disparate types of data
US11843669B2 (en) * 2020-06-18 2023-12-12 Nec Corporation Posting location ordinariness/extraordinariness determination system
CN112052171B (zh) * 2020-09-03 2021-05-28 上海复深蓝软件股份有限公司 测试报文处理方法、装置、计算机设备及存储介质

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6883019B1 (en) 2000-05-08 2005-04-19 Intel Corporation Providing information to a communications device
JP3434487B2 (ja) 2000-05-12 2003-08-11 株式会社イサオ 位置連動式チャットシステム、そのための位置連動式チャット方法、および、プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2003006221A (ja) 2001-06-20 2003-01-10 Masakatsu Morii 予測分析型検索システム、予測分析型検索方法およびコンピュータプログラム
JP2003242169A (ja) 2002-02-15 2003-08-29 Nippon Telegr & Teleph Corp <Ntt> 情報収集配信処理方法,情報収集配信装置,そのプログラムおよびそのプログラムの記録媒体
JP4199671B2 (ja) 2002-03-15 2008-12-17 富士通株式会社 地域情報検索方法及び地域情報検索装置
JP2003288299A (ja) 2002-03-28 2003-10-10 Sony Corp コンテンツ配信システム
JP4217132B2 (ja) 2003-08-22 2009-01-28 日本電信電話株式会社 コミュニティ位置インデックスサーバ
US7613467B2 (en) 2003-10-31 2009-11-03 The Boeing Company Geo-cast systems and methods
JP2007079945A (ja) 2005-09-14 2007-03-29 Hellosystem Ltd 地域指定による情報配信システム
JP5045982B2 (ja) 2006-06-26 2012-10-10 克秀 浅沼 グループ分けシステム、グループ分け管理サーバ及びグループ分けプログラム
JP4881147B2 (ja) 2006-12-20 2012-02-22 トヨタ自動車株式会社 情報検索装置
US8005822B2 (en) 2007-01-17 2011-08-23 Google Inc. Location in search queries
CN101651634A (zh) 2008-08-13 2010-02-17 阿里巴巴集团控股有限公司 提供地域化信息的方法和系统
US8515049B2 (en) 2009-03-26 2013-08-20 Avaya Inc. Social network urgent communication monitor and real-time call launch system
US20120317104A1 (en) * 2011-06-13 2012-12-13 Microsoft Corporation Using Aggregate Location Metadata to Provide a Personalized Service
US20130315042A1 (en) * 2012-05-24 2013-11-28 Bizlogr, Inc Geo-normalization of Calendar Items
US9412136B2 (en) * 2012-07-09 2016-08-09 Facebook, Inc. Creation of real-time conversations based on social location information

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016045938A (ja) * 2014-08-20 2016-04-04 Kddi株式会社 多数のコメントから地域固有コメントを抽出するコメント分類プログラム、サーバ及び方法
JP2017084225A (ja) * 2015-10-30 2017-05-18 株式会社Nttドコモ ユーザ種別判定装置
CN113641917A (zh) * 2020-05-11 2021-11-12 杭州海康威视数字技术股份有限公司 关系获取方法及装置

Also Published As

Publication number Publication date
US20140122604A1 (en) 2014-05-01
US10356186B2 (en) 2019-07-16
US9954960B2 (en) 2018-04-24
US9380121B2 (en) 2016-06-28
US20180152527A1 (en) 2018-05-31
US20160285980A1 (en) 2016-09-29

Similar Documents

Publication Publication Date Title
US10356186B2 (en) Method, computer program and computer for estimating location based on social media
US20230419566A1 (en) Geocoding Personal Information
US8862589B2 (en) System and method for predicting a geographic origin of content and accuracy of geotags related to content obtained from social media and other content providers
CN109981785B (zh) 用于推送信息的方法和装置
US8856229B2 (en) System and method for social networking
JP5957048B2 (ja) 曖昧性を解消する教師データの生成方法、生成システム、及び生成プログラム
US20120144343A1 (en) User Interface with Media Wheel Facilitating Viewing of Media Objects
KR20150082440A (ko) 소셜 미디어 콘텐츠의 요약을 위한 메타데이터 사용
CN113826092A (zh) 使用实况数据流和/或搜索查询来确定关于发展中的事件的信息
CN105045889B (zh) 一种信息推送方法及装置
JP2018077821A (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
JP2021523492A (ja) 検索動作出力要素のアクションインジケータ
CA2940198A1 (en) Building user trust in profile creation and recommendations based on managed interaction with user
JP5893050B2 (ja) ソーシャル・メデイアにおけるコミュニティを検出する方法、コンピュータ・プログラム、コンピュータ
US11556231B1 (en) Selecting an action member in response to input that indicates an action class
US9773209B1 (en) Determining supervised training data including features pertaining to a class/type of physical location and time location was visited
CN110083677B (zh) 联系人的搜索方法、装置、设备及存储介质
JP5911335B2 (ja) ソーシャル・メデイアに基づいてロケーションを推定する方法、コンピュータ・プログラム、コンピュータ。
JP5639490B2 (ja) タグ推薦装置
CN110881056A (zh) 用于推送信息的方法和装置
JP2010186371A (ja) 文書検索装置、文書検索方法、文書検索プログラムおよびそのプログラムを記録した記録媒体。
WO2013094352A1 (ja) ソーシャル・メデイアにおけるトレンドを検出する方法、コンピュータ・プログラム、コンピュータ。
US9607009B2 (en) Automatically branding topics using color
JP2012194783A (ja) アプリケーションマーケットにおいて使用されるサーバ、通信端末、システム及びgui決定方法
CN110532540B (zh) 确定用户偏好的方法、系统、计算机系统和可读存储介质