JP6540314B2 - 施設推定方法、デバイス及びプログラム - Google Patents

施設推定方法、デバイス及びプログラム Download PDF

Info

Publication number
JP6540314B2
JP6540314B2 JP2015143846A JP2015143846A JP6540314B2 JP 6540314 B2 JP6540314 B2 JP 6540314B2 JP 2015143846 A JP2015143846 A JP 2015143846A JP 2015143846 A JP2015143846 A JP 2015143846A JP 6540314 B2 JP6540314 B2 JP 6540314B2
Authority
JP
Japan
Prior art keywords
facility
social
message
facilities
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015143846A
Other languages
English (en)
Other versions
JP2016177764A (ja
Inventor
ボカイ カオ
ボカイ カオ
チェン フランシーン
チェン フランシーン
ジョシ ディラジ
ジョシ ディラジ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd, Fujifilm Business Innovation Corp filed Critical Fuji Xerox Co Ltd
Publication of JP2016177764A publication Critical patent/JP2016177764A/ja
Application granted granted Critical
Publication of JP6540314B2 publication Critical patent/JP6540314B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Information Transfer Between Computers (AREA)

Description

本開示は、施設推定方法、デバイス及びプログラムに関する。
ソーシャルプラットフォーム(例えば、ツイッター(登録商標))はアクティビティ、考え及び評価を共有するためによく用いられる。ソーシャルメッセージ(例えば、ツイート)に位置情報タグを付することは、位置情報に基づいてユーザの経験をアプリケーションがパーソナライズすることを可能とする。しかしながら、プライバシーの観点から、少数のユーザだけが、ソーシャルメッセージを投稿する際に位置を公開することを選択し、他のユーザは、稀にしかソーシャルメッセージの位置を公開しない。
ソーシャルメッセージ(例えば、ツイート)の位置を推定することは、ソーシャルメディアにおいて重要かつ興味深い対象となってきている。位置情報タグを付されたソーシャルメッセージの割合は比較的低く、関連付けられている特定施設を有するソーシャルメッセージはさらに稀であるためである。ソーシャルメディアにおいて位置利用可能な機能が稀にしか使用されていないため、これはチャレンジングな問題である。例えば、ある研究によれば、位置情報タグを付されているツイートは1%に満たない。位置情報タグを付されていないツイートについて、位置を推定するために使用可能な最も明示的な情報は、ツイートのテキストコンテンツである。ツイートのテキストコンテンツでは明確な位置信号を含まない様々な日々のアクティビティ(例えば、食事、スポーツ、感情、評価)が混合されている。ツイートは、通常、短く、非公式であり、伝統的な地名辞典の用語は、ツイートの語彙には全く存在しない可能性がある。適切な場所の名称がツイートに含まれていたとしても、まだ、困難な問題があり得る。例えば、チェーン店である。例えば、バークレイのスターバックスに関連付けられているツイートのコンテンツとスタンフォードのスターバックスに関連付けられているツイートのコンテンツとの間には大きい差異がないかもしれない。従って、ツイートがどの支店から投稿されたかを、ツイートのコンテンツから知ることは容易ではない。
位置情報タグを付されていないソーシャルメッセージ(例えば、ツイート)の位置を推定することは、ユーザの地理的背景の理解をより促進し得る。これにより、サーチクエリーにおける地理的意図をより適切に推定し、広告をより適切な位置に配置し、ユーザの地理的近傍のイベント、関心点及び人々に関する情報を表示することが可能となる。ソーシャルネットワークにおいて位置をモデル化する従来のシステム及び方法は、位置検出に使用する技術に基づいて、ソーシャルメッセージ(例えば、ツイート)のコンテンツ分析及びユーザのソーシャルな関係による推定、の2つのグループに分類され得る。予測されるオブジェクトに依存して、異なるシステム及び方法が、ユーザの位置を推測し、もしくは、個人のソーシャルメッセージ(例えば、ツイート)に焦点を当てる。
"カテゴリ:分類アルゴリズム"、[online]、[2015年5月31日検索]、インターネット(URL:http://en.wikipedia.org/wiki/Category:Classification_algorithms) "自然言語ツールキット"、[online]、[2015年5月31日検索]、インターネット(URL:http://www.nltk.org)
従来システム及び方法の他の不適切さは、既存のシステム及び方法のほとんどがユーザの位置もしくはソーシャルメッセージ(例えば、ツイート)を、国、州から市までの粗い粒度のレベルで推定することである。このレベルは、場所による広告についての潜在的受信者を識別するために十分ではない。従って、より細かい粒度のレベルで、ソーシャルメッセージ(例えば、ツイート)の場所を識別することが必要とされる。
しかしながらソーシャルメッセージ(例えば、ツイート)についてより細かいレベルで(例えば、地理的施設レベルで)位置を推測することは困難であり、チャレンジングなタスクである。チェックインについて、関心点/施設をユーザに明示的に選択させる位置ベースサービス(例えば、フォースクエア)以外に、モバイルデバイスのほとんどのソーシャルメディアアプリケーション(ツイッターもしくはインスタグラム)は、緯度経度対とソーシャルメッセージ(例えば、ツイート)及び/もしくは写真とを関連付ける形態の位置情報タグを提供する。
さらに、座標の形態での位置情報タグは、例えば、制限された地理的領域内では、常に非常に詳細ではない可能性がある。例えば、ソーシャルメッセージ(例えば、ツイート)がアップルストアで投稿されたのか、隣接するスターバックスで投稿されたのか、位置情報タグから判定することは、困難であるかも知れない。このように、緯度経度対と関心点/施設との間の一対一対応を生成することは容易ではない。よいレストランで食事をした後、家に帰る途中で、食事について、ユーザがソーシャルメッセージ(例えば、ツイートもしくはフェイスブックの投稿)を投稿するシナリオでは、ソーシャルメッセージ(例えば、ツイート)とレストランとが関連付けられることが所望されるが、問題はより困難になる。従って、ソーシャルメッセージ(例えば、ツイート)についての位置情報タグは、実用的な利用の観点で固有の雑音を有する。
本発明は、ソーシャルメッセージの位置情報の推定精度を向上させることを目的とする。
第1の態様は、ソーシャルメッセージから施設を推定する方法であって、一つもしくは複数のプロセッサ及び前記プロセッサによって実行される命令を記憶するメモリを含むコンピュータシステムが、施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否かを予測する分類器を訓練し、新ソーシャルメッセージを受信し、前記施設一覧の施設各々について、前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、訓練された前記分類器のための特徴ベクトルとして前記対応メタパスを符号化し、前記特徴ベクトルの要素各々は前記特定施設に接続されたソーシャルメッセージのタイプ各々に基づく測定値を含み、前記施設一覧の施設各々について、前記新ソーシャルメッセージが前記施設にリンクされているか否か示すスコアを前記訓練された分類器によって計算し、前記スコアに基づいて、前記新ソーシャルメッセージについて、予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける。
第2の態様は、第1の態様の方法であって、前記ソーシャルメッセージが施設一覧の施設にリンクされているか否かを予測する分類器を訓練することは、訓練ソーシャルメッセージのセットを呼び出し、複数のソーシャルメッセージ及び施設の対を取得し、前記ソーシャルメッセージ及び施設の対の各々は 訓練ソーシャルメッセージのセットの訓練ソーシャルメッセージ及び施設一覧の施設を含み、複数の前記ソーシャルメッセージ及び施設の対の1つについて、ラベルとして、対の訓練ソーシャルメッセージの各々を符号化し、前記ラベルは、訓練ソーシャルメッセージが施設にリンクされているか否か示し、前記訓練ソーシャルメッセージの各々について、対の施設の各々への対応訓練メタパスを識別し、対応訓練特徴ベクトルに前記対応訓練メタパスを符号化し、前記対応訓練特徴ベクトルの要素の各々は、対の施設の各々に接続されている訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含み、符号化された前記ラベル及び訓練特徴ベクトルを、訓練のために前記分類器に与える。
第3の態様は、第1または第2の態様の方法であって、新ソーシャルメッセージについて、前記特定施設に対応する前記メタパスを識別することは、エンティティのタイプ及びメッセージ一覧及び施設一覧から抽出された関係に基づいて、ソーシャルネットワークスキーマとしてソーシャルグラフを取得し、前記エンティティのタイプの各々は前記ソーシャルネットワークスキーマのノードのタイプとして示され、前記エンティティの間の関係は異なるタイプのリンクとして示され、前記ソーシャルグラフ、新ソーシャルメッセージのコンテンツ及び/もしくはユーザが書いた新ソーシャルメッセージ及び/もしくはユーザのソーシャルともだちに基づいて、前記新ソーシャルメッセージについて、前記特定施設に新ソーシャルメッセージを接続する対応メタパスを識別し、対応する前記メタパスの各々はリンクタイプのシーケンスを含むソーシャルネットワークのパスのタイプを含む。
第4の態様は、第1〜第3の何れかの態様の方法であって、前記メタパスは、施設へのユーザのソーシャルメッセージに直接関連するEGOPATH、ともだちを介した施設へのユーザのソーシャルメッセージに関連するFRIENDPATH、施設カテゴリを介してソーシャルメッセージ及び施設の間の関係を拡張するINTERESTPATH、及び施設に関するソーシャルメッセージのコンテンツをモデル化するTEXTPATHの一つもしくは複数を含む。
第5の態様は、第1〜第4の何れかの態様の方法であって、前記測定値は、特定施設に接続されているソーシャルメッセージのタイプの各々の頻度を含み、訓練された前記分類器の特徴ベクトルとして対応メタパスを符号化することは、前記特定施設に接続されているソーシャルメッセージのタイプの各々の頻度を示す対応メタパスの各々についてパスカウントを取得し、前記特徴ベクトルの要素の各々の測定値としてパスカウントを設定する。
第6の態様は、第5の態様の方法であって、全体特徴マトリックスを生成するために異なるメタパスについて前記パスカウントを組み合わせる、ことをさらに含む。
第7の態様は、第1〜第6の何れかの態様の方法であって、前記測定値は位置情報タグを付されていないメッセージを投稿したユーザの位置情報タグを付したソーシャルメッセージ及び施設の各々の間の最短距離を測定する施設vでユーザuによって投稿されたツイートtについてのEGOGEOスコアである。
第8の態様は、第1〜第7の何れかの態様の方法であって、前記測定値は、以下の式によって計算され、

はuによって投稿された位置情報タグを付されたソーシャルメッセージのセットを示し、以下の記号は、位置情報タグを付されたソーシャルメッセージと施設との間のマンハッタン距離を示し、

εは、デフォルト値10−9によるアンダーフローを回避するために加算されている。
第9の態様は、第1〜第8の何れかの態様の方法であって、前記測定値は新ソーシャルメッセージを投稿したユーザのともだちの位置情報タグを付されたソーシャルメッセージ及び施設の各々の間の最短距離を測定するFRIENDGEOスコアである。
第10の態様は、第1〜第9の何れかの態様の方法であって、前記測定値は、以下の式によって計算されるFRIENDGEOスコアである。
第11の態様は、第1〜第10の何れかの態様の方法であって、前記分類器は線形カーネル及びデフォルトパラメータを有するサポートベクターマシン(SVM)であり、前記分類器の出力として確率推定が利用可能である。
第12の態様は、第1〜第11の何れかの態様の方法であって、前記スコアに基づいて、予測施設として少なくとも1つの候補施設を識別することは、確率として示される最高スコアを有する少なくとも1つの候補施設を前記予測施設として識別する、ことを含む。
第13の態様は、第1〜第12の何れかの態様の方法であって、所定の領域、施設のタイプ、施設名、ユーザによる嗜好、施設推定の履歴、もしくはソーシャルメッセージに関連付けられている地理的座標からの距離の少なくとも1つに基づいて、施設の一覧が選択される。
第14の態様は、第1〜第13の何れかの態様の方法であって、前記新ソーシャルメッセージは位置情報タグを付されていない。
第15の態様は、デバイスであって、メモリと、一つもしくは複数のプロセッサと、一つもしくは複数の前記プロセッサによって実行される、メモリに記憶されている一つもしくは複数のプログラムと、を含み、一つもしくは複数の前記プログラムは、施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否か予測する分類器を訓練し、新ソーシャルメッセージを受信し、前記施設一覧の施設の各々について、前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、訓練された前記分類器のために特徴ベクトルとして前記対応メタパスを符号化し、前記特徴ベクトルの要素の各々は、前記特定施設に接続されたソーシャルメッセージのタイプの各々に基づく測定値を含み、前記施設一覧の施設の各々について、前記新ソーシャルメッセージが施設にリンクされているか否かを示すスコアを訓練された前記分類器によって計算し、前記スコアに基づいて、前記新ソーシャルメッセージについて予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける、命令を含む。
第16の態様は、第15の態様のデバイスであって、ソーシャルメッセージが施設一覧の施設にリンクされているか否か予測する分類器を訓練することは、訓練ソーシャルメッセージのセットを呼び出し、複数のソーシャルメッセージ及び施設の対を取得し、複数の前記ソーシャルメッセージ及び施設の対の各々は、前記訓練ソーシャルメッセージのセットからの訓練ソーシャルメッセージ及び前記施設一覧からの施設を含み、複数の前記ソーシャルメッセージ及び施設の対の1つについて、ラベルとして対の訓練ソーシャルメッセージの各々を符号化し、前記ラベルは訓練メッセージが施設にリンクされているか否かを示し、前記訓練ソーシャルメッセージの各々について、対の施設の各々への対応する訓練メタパスを識別し、対応訓練特徴ベクトルに対応訓練メタパスを符号化し、前記対応訓練特徴ベクトルの要素の各々は対の施設の各々に接続されている前記訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含み、訓練のために符号化された前記ラベル及び訓練特徴ベクトルを分類器に与える。
第17の態様は、第15または第16の態様のデバイスであって、新ソーシャルメッセージについて、特定施設への対応メタパスを識別することは、エンティティのタイプ及びメッセージ一覧及び施設一覧から抽出された関係に基づいて、ソーシャルネットワークスキーマとしてソーシャルグラフを取得し、前記エンティティのタイプの各々は、前記ソーシャルネットワークスキーマのノードのタイプとして示され、前記エンティティの間の関係はリンクの異なるタイプとして示され、ソーシャルグラフ、新ソーシャルメッセージのコンテンツ及び/もしくはユーザが書いた新ソーシャルメッセージ及び/もしくはユーザのソーシャルともだちに基づいて、前記新ソーシャルメッセージについて、前記特定施設に新ソーシャルメッセージを接続する対応メタパスを識別し、前記対応メタパスの各々は、リンクタイプのシーケンスを含む、ソーシャルネットワーク内のパスのタイプを示す。
第18の態様は、第15〜第17の何れかの態様のデバイスであって、メタパスは、施設にユーザのソーシャルメッセージを直接関連付けるEGOPATH、ともだちを介して施設にユーザのソーシャルメッセージを関連付けるFRIENDPATH、施設のカテゴリを介して、ソーシャルメッセージ及び施設の間の関係を拡張するINTERESTPATH、及び、施設についてのソーシャルメッセージのコンテンツをモデル化するTEXTPATHの一つもしくは複数を含む。
第19の態様は、第15〜第18の何れかの態様のデバイスであって、前記新ソーシャルメッセージは位置情報タグを付されていない。
第20の態様は、プログラムであって、施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否か予測する分類器を訓練し、位置情報タグを付されていない新ソーシャルメッセージを受信し、前記施設一覧の施設の各々について、前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、訓練された前記分類器のために特徴ベクトルとして対応メタパスを符号化し、前記特徴ベクトルの要素の各々は、前記特定施設に接続されているソーシャルメッセージのタイプの各々に基づく測定値を含み、前記施設一覧の施設の各々について、新ソーシャルメッセージが施設にリンクされているか否か示すスコアを訓練された前記分類器によって計算し、前記スコアに基づいて、新ソーシャルメッセージについて予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける、処理をコンピュータに実行させる。
ソーシャルメッセージの位置情報の推定精度が向上する。
実装のいくつかによるソーシャルメッセージの施設推定システムを例示するブロック図である。 実装のいくつかによるサーバシステムを例示するブロック図である。 実装のいくつかによるクライアントデバイスを例示するブロック図である。 実装のいくつかによるソーシャルメッセージから施設を推定する方法を例示するフローチャートである。 実装のいくつかによるソーシャルメッセージから施設を推定するために使用される検証された施設の空間的分布を示す。 実装のいくつかによるツイッター及びフォースクエアのともだちの数に対するユーザの数の分布を例示する。 実装のいくつかによるソーシャルメッセージから施設を推定するために使用されるネットワークスキーマを例示する。 実装のいくつかによるソーシャルメッセージの施設推定システムで使用されるメタパスを例示する。 実装のいくつかによるソーシャルメッセージから施設を推定する訓練フェイズの間の分類器への入力を例示する。 実装のいくつかによるソーシャルメッセージから施設を推定する訓練された分類器を用いたフローチャートを例示する。 実装のいくつかによるフォースクエアから収集されたスタンフォードショッピングセンターの検証された施設の空間的分布を例示する。 実装のいくつかによるサンフランシスコベイエリアのスターバックス(青ピン)、マクドナルド(緑ピン)、アップルストア(赤ピン)の空間的分布を例示する。 実装のいくつかによるサンフランシスコベイエリアの19,000を越える施設を列挙するために異なる戦略を用いた場合の性能を例示する。 実装のいくつかによるスタンフォードショッピングセンターの地理的施設を推定する場合の性能を例示する。 実装のいくつかによるスターバックス、マクドナルド、アップルストアに関連付けられているツイートの地理的施設推定の性能を例示する。 実装のいくつかによるVIT(ツイートの施設推定)で使用される異なる特徴の性能を例示する。 実装のいくつかによる情報を表示する方法のフローチャートを例示する。 実装のいくつかによる情報を表示する方法のフローチャートを例示する。 実装のいくつかによる情報を表示する方法のフローチャートを例示する。 実装のいくつかによる情報を表示する方法のフローチャートを例示する。 実装のいくつかによる情報を表示する方法のフローチャートを例示する。
本開示は、ソーシャルメッセージの位置検出及び施設を予測することに関する。ソーシャルメッセージ(例えば、ツイート)で位置情報タグが付されている割合は少ないため、本開示は、位置情報タグを付されていないソーシャルメッセージ(例えば、ツイート)の地理的施設を推定するシステム及び方法を開示する。「位置情報タグを付されたソーシャルメッセージ」とはソーシャルメッセージに付加された地理識別メタデータを含むソーシャルメッセージである。地理識別メタデータは、緯度経度座標、高度、方角、距離、正確さのデータ及び/もしくは場所名を含み得る。位置情報タグにより、ユーザは様々な位置特定情報を見付けることができる。
本開示の実装によるシステム及び方法は、ユーザによる他のソーシャルメッセージ(例えば、ツイート、フェイスブック投稿など)及びユーザのソーシャルネットワークによって投稿されるソーシャルメッセージ(例えば、ツイート)を利用する。実装のいくつかにおいて、構築された異種情報ネットワークに埋め込まれているソーシャルアクティビティを分析し、地理的データに限定される利用可能なデータを使用することによって問題を解決するためのアプローチが提示される。実装のいくつかによる位置情報タグを付されていないソーシャルメッセージ(例えば、地理的識別メタデータを有さないツイート)の位置を推定することは、ユーザの地理的背景の適切な理解を促し、サーチクエリーにおける地理的意図のより適切な推定、広告のより適切な配置、イベントについての情報、関心点及びユーザの地理的近傍にいる人々の表示を可能とする。
実装のいくつかにおいて、本方法は、位置情報タグを付されていないソーシャルメッセージ(例えば、位置情報タグを付されていないツイート)の特定施設及び位置を識別する。同時に、ソーシャルメッセージ(例えば、ツイート)に関連付けられている非常に細かい粒度の地理的位置及び施設名を示す。ソーシャルネットワーク情報はメタパス技術を用いて符号化される。ソーシャルネットワークに埋め込まれている地理的情報も使用される。新しい施設への一般化を提供する分類器は、ツイート及び位置検出施設がリンクされている確率を計算するために訓練される。ソーシャルメッセージ(例えば、ツイート)にリンクされている確率が最高である候補地理検出施設は、ソーシャルメッセージ(例えば、ツイート)施設及び位置として選択され得る。
ソーシャルメッセージの地理的施設を推定する問題に関する、本開示の実装のいくつかの性能をテストの結果のいくつかが示す。例えば、ソーシャル関係特徴の4つのタイプ及びソーシャルネットワークに埋め込まれている地理的特徴の3つのタイプの性能が、ツイート及び施設がリンクされているか否か予測する場合についてテストされる。19000を越えるツイートから位置情報タグを付されていないツイートの地理的施設を推定する特徴を用いた場合、上位5つが、29%の正確さで観察された。
実装のいくつかによる方法及びシステムは、位置情報タグを付されていないソーシャルメッセージの施設推定に特に有用である。しかしながら、実装のいくつかによる方法及びシステムは位置情報タグを付されたソーシャルメッセージの施設推定も支援することができる。例えば、本方法及びシステムを用いて、位置情報タグを付されたソーシャルメッセージに施設推定を実行し得る。
実装のいくつかにおいて、よく知られた分類器が使用される。例えば、情報ファジィネットワーク、多層パーセプトロン、ナイーブベイズ、ランダムフォレスト及び人工ニューラルネットワークなどであってよいが、これらに限定されない。
同様の参照符号は対応する要素を参照する。
様々な実装の詳細を説明する。実装の例は、添付の図面に示される。以下の詳細な説明において、本開示の全体的な理解及び説明する実装を提供するために、多くの特定の詳細を記述する。しかしながら、本開示はこれらの特定の詳細なしに実用され得る。一方、よく知られた方法、プロシージャ、構成要素及び回路については、実装の態様を不必要に曖昧にしないように詳細には説明しない。
図1は、実装のいくつかによる分類モジュール114を含む分散システム100のブロック図である。分散システム100は、一つもしくは複数の通信ネットワーク108によって相互に接続される、一つもしくは複数のクライアント102、及び、サーバ104を含む。
クライアント102(「クライアントデバイス」もしくは「クライアントコンピュータ」とも呼ばれる)は、任意のコンピュータもしくは同様のデバイスであってよく、クライアント102のユーザ103は、クライアント102を介してサーバ104にリクエストを提出し、サーバ104から結果もしくはサービスを受け取ることができる。例えば、クライアント102は、デスクトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルフォンなどのモバイルデバイス、PDA(personal digital assistant)、セットアップボックス、もしくはこれらの任意の組み合わせであってよいが、これらに限定されるものではない。クライアント102の各々は、サーバ104にアプリケーション実行リクエストを提出する少なくとも1つのクライアントアプリケーションを含んでいてもよい。例えば、クライアントアプリケーションはウェブブラウザもしくは、サーチ、ブラウズ及び/もしくは通信ネットワーク108を介して、サーバ104から呼び出されるリソースの使用をユーザ103に可能とさせる任意のタイプのアプリケーションであってよい。
実装のいくつかにおいて、クライアント102はラップトップ、スマートフォンなどのモバイルデバイスであってよく、ユーザ103は、クライアント102から、ツイッター、フォースクエア及びフェイスブックなどの外部サービスとインタラクションするメッセージ及びソーシャルメディアアプリケーションを実行することができる。サーバ104は、メッセージ、エンティティ及び施設推定のための施設データを取得するために、外部サービス122に接続する。
実装のいくつかにおいて、クライアント102はローカルの分類モジュールを有する。ローカルの分類モジュールは、サーバ104の分類モジュール114と共に、実装のいくつかによるソーシャルメッセージ分類システムの構成要素である。実装のいくつかにおいて、後述するように、分類モジュールは、外部サービス122もしくはサーバ104に記憶されている大規模ソーシャルメディアの一覧のソーシャルメッセージを編成し、取り出すソフトウェアアプリケーションである。ローカルの分類モジュールはクライアント102の部分であってもよいし、ローカルの分類モジュールはサーバ104の分類モジュールの部分として実装されてもよい。他の実装において、ローカルの分類モジュール及び分類モジュール114は別個のサーバもしくは複数のサーバで実装され得る。
通信ネットワーク108は、イントラネット、エクストラネット、インターネットもしくはこれらのネットワークの組み合わせなどの有線もしくは無線のローカルエリアネットワーク(LAN)及び/もしくはワイドエリアネットワーク(WAN)の何れかであってよい。実装のいくつかにおいて、通信ネットワーク108は、TCP/IP(Transmission Control Protocol/Internet Protocol)を使用して、情報を搬送するためにHTTP(HyperText Transport Protocol)を使用する。HTTPは、通信ネットワーク108を介して、クライアントが利用可能な様々なリソースを呼び出すことを可能とする。しかしながら、様々な実装は、特定のプロトコルの何れかの使用に限定されない。ここで、「リソース」は、コンテンツ位置識別子(例えば、URL)を介して呼び出し可能な任意の情報、及び/もしくは、サービスを示し、例えば、ウェブページ、ドキュメント、データベース、画像、計算処理オブジェクト、サーチエンジン、もしくは、他のオンライン情報サービスであってよい。
実装のいくつかにおいて、サーバ104はコンテンツ(例えば、施設、ソーシャルメッセージ、ウェブページ、画像、デジタル写真、ドキュメント、ファイル、広告、他の形態の情報)を配信する。サーバ104は、多くのファイルもしくは様々なタイプの他のデータ構造を含んでいてもよい。これらのファイルもしくはデータ構造はテキスト、グラフィック、ビデオ、音声、デジタル写真及び他のデジタルメディアファイルの任意の組み合わせを含み得る。実装のいくつかにおいて、サーバ104はサーバインターフェイス110、分類モジュール114,データストレージ120を含む。サーバインターフェイス110はクライアント102からのリクエストを扱うように構成され、通信ネットワーク108を介して外部サービス122とインタラクションする。分類モジュール114は、拡張されたスケーラビリティを有するソーシャルメッセージの編成もしくは分類を自動化するユーザツールを生成するために、ツイッターによって蓄積されたツイート、フォースクエアによって蓄積された施設及び/もしくは他のソーシャルメディアリポジトリなどの既存のソーシャルメッセージ及び施設の大規模な一覧を利用する機械学習アプリケーションである。
実装のいくつかにおいて、サーバインターフェイス110を介して、サーバ104は外部サービス122に接続し、外部サービス122によって収集されたソーシャルメッセージ及び施設などの情報を取得する。取得された情報は、サーバ104のデータストレージ120に記憶される。実装のいくつかにおいて、データストレージ120は、ローカルの分類モジュール及び/もしくは分類モジュール114を実行する際に呼び出されるソーシャルメッセージ124及び施設126の大規模な一覧を記憶する。データストレージ120は訓練データ122,ソーシャルメッセージ124もしくは施設126を含むデータを記憶してもよい。実装のいくつかにおいて、訓練データ122は、実装によって、ソーシャルメッセージ124を分類する分類モジュール114を訓練するために使用され得る符号化されたソーシャルメッセージのデータセットである。実装のいくつかにおいて、訓練データ122はソーシャルメッセージ124及び施設126のサブセットである。訓練されると、分類モジュール114及び/もしくはローカルの分類モジュールは、施設126と関連付けられているソーシャルメッセージ124の可能性を予測するために使用され得る。
図2は、実装のいくつかによる図1のサーバ104のブロック図である。サーバ104の一つもしくは複数の構成要素は、単一のコンピュータもしくは複数のコンピュータデバイスから呼び出され得る。他の一般的な構成要素が含まれてもよいが、簡潔さの点から、図には示されない。サーバ104は、一般的に、一つもしくは複数の処理ユニット(CPU)202、一つもしくは複数のネットワークもしくは他のネットワークインターフェイス220、メモリ204、及び、これらの構成要素を相互に接続する一つもしくは複数の通信バス218を含む。通信バス218は、システムコンポーネントの間を相互に接続し、通信を制御する回路(チップセットとも呼ばれる)を含み得る。
サーバ104は、例えば、ディスプレイ224、入力デバイス226及び出力デバイス228を含むユーザインターフェイス222を含んでいてもよいが、必須ではない。入力デバイス226は、例えば、キーボード、マウス、タッチセンシティブディスプレイスクリーン、タッチパッドディスプレイスクリーンもしくはサーバ104に情報を入力することを可能とする任意の他の適切なデバイスを含み得る。出力デバイス228は、例えば、ビデオディスプレイユニット、プリンタ、もしくは、出力データを提供することが可能な任意の他の適切なデバイスを含み得る。入力デバイス226及び出力デバイス228は、代替的に、単一の入力/出力デバイスであってもよい。
メモリ204は、高速ランダムアクセスメモリを含んでもよいし、一つもしくは複数の磁気ディスクストレージデバイスなどの不揮発性メモリを含んでいてもよい。メモリ204はCPU202から離して配置される大容量ストレージを含み得る。メモリ204、もしくは、代替的に、メモリ204内の不揮発性メモリデバイスは、コンピュータ可読ストレージ媒体を含む。メモリ204は以下の構成要素、もしくは、これらの構成要素のサブセットを記憶する。メモリ204は、追加の構成要素も含み得る。
●オペレーティングシステム207。オペレーティングシステム207は様々な基本サーバシステムサービスを扱い、ハードウェア依存タスクを実行するプロシージャを含む。
●通信モジュール209。通信モジュール209は、インターネット、他のワイドエリアネットワーク、ローカルエリアネットワーク、及び、メトロポリタンエリアネットワークなどの一つもしくは複数の通信ネットワーク(有線もしくは無線)を介して、他のサーバもしくはコンピュータにサーバ104を接続するために使用される。いくつかの実装において、通信モジュール209はサーバインターフェイス110の部分である。
●分類モジュール215。分類モジュール215は、実装のいくつかによって、施設推定を自動化するための、ソーシャルメッセージ及び施設の大規模な一覧を使用して、メディアファイル分類システムを訓練する構成要素(例えば、一つもしくは複数の分類器238)を含む。
●データストレージ217。データストレージ217は、以下のデータを含む、分類モジュール114を実行するための分類データ232を記憶する。
○訓練データ234。訓練データ234は、実装のいくつかによって分類モジュール114を訓練するために使用され得る符号化されたソーシャルメッセージと施設との対のデータセットを含む。実装のいくつかにおいて、訓練データ234はソーシャルメッセージ124及び施設データ126のサブセットである。
○ソーシャルメッセージデータ248。ソーシャルメッセージデータ248は実装のいくつかによる外部サービス122から収集され符号化されたソーシャルメッセージを含む。
○施設データ230。施設データ230は、実装のいくつかによって外部サービス122から収集され符号化された施設を含む。
図3は、実装のいくつかによる一般的なクライアント102を例示するブロック図である。クライアント102は、一般的に一つもしくは複数の処理ユニット(CPU)302、一つもしくは複数のネットワークインターフェイス304、メモリ306、ユーザインターフェイス310、及び、これらの構成要素(チップセットと呼ばれる)を相互に接続する一つもしくは複数の通信バス308を含む。ユーザインターフェイス310は、一つもしくは複数のスピーカ及び/もしくは一つもしくは複数の可視表示を含むメディアコンテンツの提示を可能とする一つもしくは複数の出力デバイス312を含む。ユーザインターフェイス310は、キーボード、マウス、音声コマンド入力ユニット又はマイクロフォン、タッチスクリーンディスプレイ、タッチセンシティブ入力パッド、(例えば、符号化画像をスキャンするための)カメラ、ジェスチャ取得カメラ、もしくは、他の入力ボタン又はコントロールなどのユーザ入力を促進するユーザインターフェイスコンポーネントを含む、一つもしくは複数の入力デバイス314を含む。また、クライアント102のいくつかは、キーボードを補足するもしくはキーボードと置き替えられるマイクロフォン及び音声認識もしくはカメラ及びジェスチャ認識を使用する。
メモリ306は、DRAM、SRAM、DDR RAMもしくは他のランダムアクセスソリッドステートメモリなどの高速ランダムアクセスメモリを含む。メモリ306は、また、一つもしくは複数の磁気ディスクストレージデバイス、一つもしくは複数の光ディスクストレージデバイス、一つもしくは複数のフラッシュメモリデバイス、もしくは一つもしくは複数の他の不揮発性ソリッドステートストレージデバイスなどの不揮発性メモリを含んでもよい。メモリ306は、また、一つもしくは複数のCPU302と離して配置される一つもしくは複数のストレージデバイスを含んでもよい。メモリ306、もしくは代替的にメモリ306内の不揮発性メモリは非一時的コンピュータ可読ストレージ媒体を含む。実装のいくつかにおいて、メモリ306、もしくはメモリ306の非一時的コンピュータ可読ストレージ媒体は、以下のプログラム、モジュール及びデータ構造もしくはプログラム、モジュール及びデータ構造のサブセットを記憶する。
●オペレーティングシステム316。オペレーティングシステム316は様々な基本システムサービスを扱うための及びハードウェア依存タスクを実行するためのプロシージャを含む。
●ネットワーク通信モジュール318。ネットワーク通信モジュール318は一つもしくは複数のネットワークインターフェイス304(有線または無線)を介して、一つもしくは複数の通信ネットワーク108に接続されている他の計算処理デバイス(例えば、サーバ104及び外部サービス122)にクライアント102を接続する。
●提示モジュール320。提示モジュール320は、ユーザインターフェイス310に関連付けられている一つもしくは複数の出力デバイス312(例えば、ディスプレイ、スピーカなど)を介して、クライアント102で情報の提示(例えば、ソーシャルネットワーキングプラットフォームのためのユーザインターフェイス、ウィジェット、ウェブページ、ゲーム、及び/もしくはアプリケーション、音声及び/もしくはビデオコンテンツ、テキスト及び/もしくはスキャンするための符号化画像の表示)を可能とする。
●入力処理モジュール322。入力処理モジュール322は、一つもしくは複数の入力デバイス314の1つから一つもしくは複数のユーザ入力もしくはインタラクションを検出し、検出されたユーザ入力もしくはインタラクションを解釈する(例えば、クライアントのカメラによってスキャンされる符号化画像を処理する)。
●一つもしくは複数のアプリケーション326−1〜326−N。一つもしくは複数のアプリケーション326−1〜326−N(例えば、カメラモジュール、センサモジュール、ゲーム、アプリケーションマーケットプレイス、ペイメントプラットフォーム、ソーシャルネットワークプラットフォーム及び/もしくは様々なユーザオペレーションを含む他のアプリケーション)は、クライアント102によって実行される。
●クライアント側モジュール352。クライアント側モジュール352は、以下を含むクライアント側データ処理及び機能を提供する。
○通信システム332。通信システム332は、エンティティプロファイリングのリクエストを生成し送信し、ショートメッセージ及び/もしくはインスタントメッセージアプリケーションを含むメッセージを送信する。
●クライアントデータ340。クライアントデータ340は以下を含むクライアントに関連付けられているユーザのデータを記憶する。
○ユーザプロファイルデータ342。ユーザプロファイルデータ342はクライアント102のユーザと関連付けられている一つもしくは複数のユーザアカウントを記憶する。ユーザアカウントデータは一つもしくは複数のユーザアカウント、ユーザアカウントの各々のログイン証明書、ユーザアカウントの各々に関連付けられている支払いデータ(例えば、リンクされているクレジットカード情報、アプリケーションクレジットもしくはギフトカードバランス、請求先住所、配送先住所など)、ユーザアカウントの各々の顧客パラメータ(例えば、年齢、位置、趣味など)、ユーザアカウントの各々のソーシャルネットワークコンタクト)を含む。
○ユーザデータ344。ユーザデータ344は、クライアント102のユーザアカウントの各々の使用データを記憶する。
上記識別された要素の各々は、上記メモリの一つもしくは複数に記憶されてもよい。また、上記機能を実行する命令セットに対応してもよい。上記識別されたモジュールもしくはプログラム(即ち、命令セット)は別個のソフトウェアプログラム、プロシージャ、モジュール、もしくはデータ構造で実装される必要はなく、これらのモジュールの様々なサブセットは組み合わされてもよく、様々な実装で再構成されてもよい。実装のいくつかにおいて、メモリ306は、上記モジュール及びデータ構造のサブセットを記憶してもよい。さらに、メモリ306は、上記されていない他のモジュール及びデータ構造を記憶してもよい。
実装のいくつかにおいて、サーバ104の機能の少なくともいくつかは、クライアント102によって実行され、これらの機能の対応するサブモジュールは、サーバ104ではなくクライアント102に配置されていてもよい。実装のいくつかにおいて、クライアント102の機能の少なくともいくつかは、サーバ104によって実行される。これらの機能の対応するサブモジュールは、クライアント102ではなくサーバ104内に配置されていてもよい。図3のクライアント102及び図2のサーバ104は、各々、単なる例示であり、ここで説明された機能を実装するためのモジュールは様々な実装において異なる構造を有していてもよい。
図4は、実装のいくつかによるソーシャルメッセージの施設推定方法400のフローチャートである。実装のいくつかにおいて、方法400は施設推定システム100で実行される。図4において、実装のいくつかによる施設推定方法400は訓練フェイズとテストフェイズとを含む。訓練フェイズにおいて、サーバ104は、一つもしくは複数の外部サービス(例えば、フォースクエア)に記憶されている位置検出施設404の一覧及び一つもしくは複数の外部サービス(例えば、ツイッター)に記憶されている投稿402の一覧を呼び出す。位置検出施設404の一覧及び投稿402の一覧は、一つもしくは複数の分類器238を訓練するために、分類モジュール114によって使用される。一つもしくは複数の訓練された分類器は、テストステージにおいて、候補施設416の一覧の施設にソーシャルメッセージがリンクされているか否か予測するために使用され得る。実装のいくつかにおいて、候補施設416の施設のセット及び位置検出施設404の施設セットは同一である。実装のいくつかにおいて、候補施設416が、所定の領域、施設のタイプ、施設名、ユーザの嗜好、もしくは、位置検出施設404の施設推定の履歴の少なくとも1つに基づいて、選択されるように、一つもしくは複数のスマートフィルタが、位置情報タグを付された施設に適用され得る。
ここで説明されたソーシャルメッセージの施設推定方法400は、特定施設としてソーシャルメッセージ(例えば、ツイート)の位置を識別することが可能である。ソーシャルメッセージの位置は、非常に細かい粒度で地理的位置及びソーシャルメッセージ(例えば、ツイート)に関連付けられている施設名を同時に示す。位置情報タグを付されていないソーシャルメッセージ(例えば、ツイート)の位置及び施設名を推測することは、ユーザの地理的背景の理解をより促進し、より詳細に情報を提示し、サービスを推奨し、及び広告のターゲットを設定することをアプリケーションに可能とさせる。さらに、ここで説明される施設推測システム及び方法は、ソーシャルメッセージ投稿及びソーシャルメディアプラットフォームからの施設を含む大規模データセットを用いて評価され得る。図5〜16は、ツイッター及びフォースクエアから収集されたデータを含む大規模データセットを使用して、施設推定方法400を適用し、及び施設推定方法400を評価すること、を示す。
例えば、図5に例示するように、投稿402として大規模データセットを収集する場合、サンフランシスコベイエリアの緯度及び経度に関する境界ボックス502が定義される。ツイッターのストリーミングAPIの位置情報タグフィルタオプションを使用して、タイムフレームの境界ボックスのツイートが投稿402として収集される。代替的に、ユーザの家の位置に基づいて、ツイートを収集してもよい。ツイッターREST APIが、フォロワー及びフォローされているユーザのリストを収集するために呼び出される。ツイッターにおけるともだち関係は、相互にフォローするユーザの間で定義される。2013年6月から2014年4月までのツイートのサンプルデータの一覧において、収集された10,080,973のツイートの中で、3,276,724のともだち関係リンクが、251,660のツイートを生成したツイッターユーザの中から識別された。図6は、ツイッターユーザ毎のともだちの数の分布を示す。x軸の200付近のピークは、ツイッターからサンプリングされるサブネットワークであることを考慮すると、データ収集の際のツイッターのフォロー限界によるかもしれない。
フォースクエアAPIを使用して、上記境界ボックス502内の非プライベート施設が収集され、2009年2月から2014年6月までこれらの施設の各々と関連付けられているチップスの全てが記録される。これらのチップスを投稿したユーザの間のともだち関係の情報も収集される。チップスを有さない253,653の施設に加えて、84,338の施設に関連付けられている105,340のフォースクエアユーザによって、400,941のチップスを含む最終的なデータセットが生成される。評価のために、フォースクエアのビジネスオーナーによって検証されるこれらの施設のみが、図5のピンによって可視化されている総計19,084の位置検出施設404及び候補施設416と看做される。
フォースクエアAPIは、存在する場合、フォースクエアユーザの対応するツイッターアカウントを提供する。異なるソーシャルネットワークに亘って同一のユーザを識別するために、この情報が収集される。14.85%付近のフォースクエアユーザは、フォースクエアアカウントにリンクされているツイッターアカウントを有する。プライバシーのために、チェックインレコードはフォースクエアから明示的に利用可能ではない。代わりに、特定施設での最大チェックインレコードを有するユーザを示すメイヤーシップ情報が収集される。さらに、フォースクエアをソースとするツイートは、ユーザがともだちと共有することを望むチェックインレコードのサンプルとして使用される。
図4に戻ると、上記実装による大規模データセットを取得した後、サーバ104は、訓練フェイズで一つもしくは複数の分類器238を訓練するために投稿402及び位置検出施設404を使用する。サーバ104は、まず、外部サービス122に保存されている投稿402(例えば、ツイッターに保存されているツイート)など、訓練ソーシャルメッセージのセットを呼び出す。次に、サーバ104は、複数のソーシャルメッセージ及び施設の対を取得する。ソーシャルメッセージ及び施設の対の各々は、投稿402などの訓練ソーシャルメッセージのセットからの訓練ソーシャルメッセージ及び位置検出施設404などの施設の一覧からの施設を含む。複数のソーシャルメッセージ及び施設の対を用いて、サーバ104は、メタパス及び地理的座標情報に基づいて、特徴を計算する(406)。実装のいくつかにおいて、メタパスは、特徴を計算するために使用される。計算された特徴は地理的特徴の測定値を含む。
実装のいくつかにおいて、複数のソーシャルメッセージ及び施設の対の1つについて、計算(406)が実行される。まず、ラベルとして、対の訓練ソーシャルメッセージの各々を符号化する。ラベルは、訓練メッセージが施設にリンクされているか否かを示す。ラベルを符号化すると、サーバ104は、さらに、対の施設の各々への対応する訓練メタパスを訓練ソーシャルメッセージの各々について識別する。最後に、サーバ104は、対応する訓練特徴ベクトルに対応する訓練メタパスを符号化する。対応する訓練特徴ベクトルの要素の各々が対の施設の各々に接続されている訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含む。実装のいくつかにおいて、異なるメタパスのパスカウントは、全体特徴マトリックスを生成するために結合され、全体特徴マトリックスは訓練特徴ベクトルとして表わされる。メタパス及び地理的特徴を表わす符号化された訓練特徴ベクトル及び符号化されたラベルは、ソーシャルメッセージ(例えば、ツイート)が施設にリンクされているか否か分類するために、次に、サポートベクターマシン(SVM)などの分類器を訓練するために、ステップ408で分類器に与えられる。訓練されたモデル410は、訓練フェイズを完結するために、訓練(408)の結果として生成される。
テストフェイズにおいて、投稿412などの新ソーシャルメッセージは、外部サービス122からサーバ104によって受信され得る。実装のいくつかにおいて、投稿412は位置情報タグが付されていない。サーバ104は、候補施設416の一覧において、候補施設の各々に位置情報タグが付されていない投稿412がリンクされているか否か分類する(418)ために、訓練されたモデル410を使用し得る。分類(418)を実行するために、サーバ104は、テストステージにおいて、サーバ104が、メタパス及び地理的特徴を計算する(414)ために、投稿及び候補施設416を前処理するように、訓練ステージにおいて、上記ステップ406について説明されているように同様の前処理ステップを実行する。実装のいくつかにおいて、計算(414)は、特定施設に対応するメタパスを新しい投稿412について、まず識別する。次に、訓練された分類子410について、特徴ベクトルとして、対応するメタパスを符号化する。特徴ベクトルの各々の要素は、ソーシャルメッセージ及び特定施設の間のメタパスベース接続のタイプの各々に基づく測定値を含む。
実装のいくつかにおいて、上記前処理及び計算ステップ406及び414は、スキーマとして異種情報ネットワークを用いて実行され得る。収集された複数のタイプのエンティティ及び関係に基づいて、異種情報ネットワークは、埋め込まれたソーシャル関係を分析するために構築され得る。地理的施設として、ソーシャルメッセージ(例えば、ツイート)の位置を識別するために限定されてはいるが地理的データをレバレッジとして利用可能である。図7は、上記方法によって収集されたデータセットを用いて構築された例示的な情報ネットワークを示す。
図7において、エンティティのタイプの各々は、例えば、ユーザ、ツイート、チップス、施設などのネットワークスキーマのノードのタイプとして示される。これらのエンティティ間の関係は、例えば、書くリンク、位置検出リンク、アンカーリンクなどの異なるタイプのリンクとして示され得る。ワードは、ネットワークスキーマのノードのタイプとしても示される。テキスト処理について、ストップワードは、NLTKを用いて除去される。10より少ないツイートで現れるこれらのワードはフィルタリングされる。ワードがツイート/チップスに現れる場合、含まれるリンクは、ツイート/チップス及びワードの間に付加される。
位置情報タグが付加されているツイートの割合は低いため、実装によるシステム及び方法は、位置情報タグを付されていないツイートが投稿された地理的施設を推定するために使用される。下記表1は、上記方法によって収集されたデータセットの位置情報タグを付されたツイートの4つの例を示す。データセットの分析に基づいて、フォースクエアからのツイートのほとんどは、「私はどこかにいる」というフォーマットである。これは、このタイプのツイートについて施設を推定することを容易にする。したがって、実装のいくつかにおいて、上記したように、チェックインは、まず、フォースクエアからのツイートについて図7の構築されたネットワークにリンクのタイプとして明示的にチェックインが付加される。次に、評価するためにツイートのセットからチェックインは除去される。
実装のいくつかにおいて、評価に使用されるデータセットはフォースクエア以外のソースからの位置情報タグを付されたツイートを含む。フォースクエアと同様に、いくつかの他の一般的なモバイルアプリ(例えば、インスタグラム、パス)は、地理的情報を有する投稿にユーザがタグ付けすることを可能とする。表1に示されるように、「@」には、位置情報タグを付されたツイートの施設名(例えば、t4の@walgreens)が続き、また、他のユーザ(例えば、t3の@usernarne)を説明するためにも使用され得る。他のアプリによって投稿されたツイートは、ユーザの現在の位置によって位置情報タグが付されてもよい。テストに使用されるデータセットについて、ツイートのサブセットが選択される。ツイートのサブセットは、施設名、もしくは、略称を可能とするように、施設名に含まれるワードの少なくとも半分を、テキストに含む。さらに、ユーザを示す「@」からの実際の施設を明瞭にするために、ツイートの位置検出は、適合する施設の近傍で要求される。テストにおいて近傍は0.0008度もしくは290フィートの範囲で定義される。これにより、126,917のツイートについて実際の施設が取得される。「@」に続くワードは、相互検証を用いたモデル学習及びテストについて、ツイートから除去される。ツイートの座標も、評価で使用することを除いて、保留される。ツイートの各々は、モデルが訓練されている場合、位置情報タグが付されていないものとして扱われる。現在のツイート以外のツイートについて地理的情報が利用可能である場合、調査も実行される。
図7に示されるようにネットワークスキーマを使用すると、異なるタイプのメタパスが抽出され得る。ツイートの施設推定の問題は、以下のように定義され得る。位置情報タグが付されていないツイートtiが与えられた場合、最大確率を有する施設vest(ti)がツイートの実際の施設vact (ti)であるように、施設vpで投稿されたツイートの確率p(link(vp | ti) = 1)を推定する。
ここで使用されるように、メタパスは、リンクタイプのあるシーケンスを含むネットワークスキーマのパスタイプに対応する。例えば、図7において、以下のメタパスは、ツイートから施設への複合関係を示す。

このメタパスのセマンティックな意味は、ツイート及び施設がチップスを介して共通のワードを共有する、ということである。リンクタイプ「contain-1」は「contain(含む)」と反対の関係を示す。メタパスを介して接続されているツイート及び施設は、相関関係を有さないものよりリンクされている可能性が高いと看做され得る。
異なるメタパスは、異なるセマンティックな意味を有するリンクされたノードの間で異なる関係を示す。例えば、以下のメタパスは、フォースクエアの施設のメイヤーであるツイッターユーザによって投稿されたツイートを示す。

一方、以下のメタパスは、ともだちが施設にチェックインしたツイッターユーザによって投稿されたツイートを示す。

これにより、ツイート及び施設の間の関係は、異なるセマンティックな意味を有する異なるメタパスによって記述され得る。
したがって、図7に示されるメタパスの4つのパスは抽出され図8に示される。
図8において、エゴパス(EGOPATH)は施設に対するユーザのツイートに直接的に関連する。
ツイート施設対(ti, vp)が与えられると、ツイートtiを投稿したユーザがuiとして示される。リンク(ti, vp)の存在確率(p(linkvp | ti)=1)を推定することは、例えば、チェックインした、チップを書いた、メイヤーである、ソーシャルアクティビティとして参照される施設と直接インタラクションする任意のタイプをuiが有するか否か知るために非常に有用である。上記したように、以下のメタパスは、tiが、フォースクエアで、vpのメイヤーであるuiによって投稿されたか否か検出することが可能である。
明らかに、tiは、接続のない施設よりも、tiからvpへのメタパスが存在する場合、施設vpに関連付けられる可能性が高い。同様に、他のメタパスは、図8にEGOPATHとして示されるように、tiとvpとの間の相関関係をuiを介して取得するために抽出される。
FRIENDPATH(ともだちパス)はともだちを介した施設へのユーザのツイートを関連付ける。EGOPATHは、ツイッター及びフォースクエアを亘って、uiの明示的なソーシャルアクティビティをレバレッジすることにより、ti及びvpの間の相関関係を示すためにたいへん重要であることが予測され得るが、少数のツイートだけが、リンクされたフォースクエアアカウントを有さないユーザにとってたいへん困難であるこの方法により、推定され得ることが観察される。リサーチのいくつかにおいて、ソーシャル関係が、全ての人の動きの約10%〜30%を説明することが可能であることを観察した。ソーシャルサイエンスにおいて、同類性の原理の考えによってインスパイアされているように、uiのソーシャルアクティビティを見ることに加え、uiのともだちのアクティビティを利用することも可能である。施設vpでの任意のソーシャルアクティビティをともだちujが有する場合、ユーザujは接続を有さない施設より、vpでのツイートtiを投稿する可能性が高いと考えられる。例えば、以下のメタパスによれば、uiのともだちの何れかが施設vpでのチェックインを有するか否かを知るためにことができる。

図8に示されるように、ともだちの情報にレバレッジするメタパスがFRIENDPATHとして示される。INTERESTPATH(関心パス)は、フォースクエアカテゴリを介してツイートと施設との間の関係を拡張する。ユーザの関心を考慮に入れると、ユーザは、関心をひく同様の施設でツイートする傾向があると仮定される。例えば、vpはロスアルトスのChef Chuであり、vqはマウンテンビューのCooking Papaであり、両方ともチャイニーズレストランのカテゴリに属する。直感的に、ユーザuiがvqでのチェックインを有する場合、チャイニーズフードが好きであることを示し、tiは、接続を有さない施設よりvpでuiによって投稿される可能性が高い。図7のリンクタイプによって示されるように、フォースクエアから収集されたデータにおいて、施設の各々は、429のカテゴリの1つに関連付けられる。以下のメタパスは、tiが、vpと同様のカテゴリを共有する施設でチェックインを有するユーザによって投稿されたか否か効率的に検出することが可能である。

メタパスのタイプは、図8のINTERESTPATHとして示される。
TEXTPATH(テキストパス)は、施設についてツイートされたワードをモデル化する。コンテンツ分析のテキスト処理に焦点を合わせる従来のアプローチとは異なり、図7の構築されたネットワークスキーマに、ワードはノードのタイプとして示される。メタパスの考えに従い、ワードを介したメタパスはツイート及び施設の間のテキストの類似性を示すために定義される。例えば、TEXTPATHとして示される以下のメタパスは、ツイートti及び施設vpがチップスを介して共通のワードを共有するか否か符号化することが可能である。

接続を有さない施設より、tiは、同様のテキストコンテンツを共有するvpと関連付けられている可能性が高い、と考えられる。
メタパスを取得すると、メタパスのカウントは計算され、ソーシャルメッセージ(例えば、ツイート)が施設にリンクされているか否かを判定するために、一つもしくは複数の分類器238へ入力される特徴ベクトルの要素として使用される。実装のいくつかにおいて、パスタイプの異なるメタパスのパスカウントは、疎らなパスカウントをプールするために合計されてもよい。例えば、3つのEGOPATHは組み合わせ得る(例えば、合計される)。メタパスを計算し、パスカウントを合計することに加えて、前処理及び計算処理ステップ406及び414において、サーバ104は、また、実装のいくつかによる地理的特徴を計算する。地理的特徴は、位置情報タグを付されたユーザもしくはユーザのともだちのツイートに含まれる利用可能な地理的情報を示す。地理的値は、ソーシャルメッセージ及び施設の対の各々を示す追加的な特徴として使用され得る。これらの特徴は、ソーシャルメッセージ(例えば、ツイート)自身の地理的位置は含まない。したがって、実装のいくつかによる施設推定方法は、位置情報タグを有さないソーシャルメッセージに適用され得る。実装のいくつかにおいて、地理的特徴は、EGOGEO(エゴジオ)スコア及びFRIENDGEO(フレンドジオ)スコアの2つの方法で表される。
実装のいくつかにおいて、EGOGEOスコアは、ユーザuによって投稿された他のツイートの地理的情報を有する場合、ツイートtの施設推定を促進するために使用される。uによって投稿された位置情報タグを付されたツイートのセットをTとすると、tと候補施設vとの間の地理的スコアは以下のように定義し得る。

以下の記号は、位置情報を付されたツイートと施設との間のマンハッタン距離を示す。∈はデフォルト値10−9のアンダーフローを回避するために加算される。
上記は、tを投稿したユーザの位置情報タグを付されたツイート及び候補施設vの間の最短距離を計測するための式である。直感的に、tは、uがvの近傍で位置情報タグを付されたツイートを投稿した場合、vと関連付けられている可能性が高い。したがって、EGOGEO(t,v)の値が高いと、リンク(t,v)の存在確率も高い。
実装のいくつかにおいて、FRIENDGEOスコアが、ユーザが新しい場所に行きツイートするシナリオで使用される。EGOGEOは当該情報を獲得することはできない。しかしながら、ともだちとよく外出し、関心を有する場所で一緒にツイートする人々を考慮すると、FIRENDGEO測定値は、ともだちの位置情報タグを付されたツイートに基づくことが、意図される。

はuのともだちであるユーザのセットであり、Tはuによるツイートである。
上式は、位置情報タグを付されたuのともだちのツイートと候補施設vとの間の最短距離を計測する。uのともだちがvの近傍で位置情報タグを付されたツイートを投稿した場合、tは、相関関係を有さない施設よりもvと関連付けられている可能性が高い。リンク(t,v)の存在確率が、FRIENDGEO(t,v)と正の相関関係を有する確率が高い、即ち、P(y(t,v)=1)∝FRIENDGEO(t,v)である。
図4に戻ると、ステップ406及び414で特徴ベクトルを計算すると、特徴ベクトルは、訓練ステップ408及び分類ステップ418の入力として一つもしくは複数の分類器238に与えられ得る。実装のいくつかにおいて、分類器はサポートベクターマシン(SVM)を含む。例えば、線形カーネル及びデフォルトパラメータを有するSCIKIT−LEARN7で実装されるSVMは、メタパス及び上記地理的特徴などの特徴によって分類子として使用され得る。確率推定は出力として利用可能である。SVMの一般的な使用は、クラスの各々の一対全の個別モデルを訓練することである。施設推定タスクにおいて、地理的施設の各々の個別SVMを訓練することを必要とする。しかしながら、施設推定の入力特徴は、ソーシャルメッセージ及び施設を暗示的に符号化する。これにより、SVMモデルは、ソーシャルメッセージ及び施設の間のリンクが肯定的であるか否定的であるかを分類するために訓練される。このアプローチは、新しい施設への一般化の効果を有する。60の符号化されたソーシャルメッセージ及び検証された施設の対応するラベルを含む分類器への入力例を図9に示す。
図9において、特徴ベクトルの各々(例えば、901−1、901−2、901−3、901−4、901−5及び901−6など)は、施設及びソーシャルメッセージ対の各々についてエゴパス902、ソーシャルパス904、インタレストパス906、及びテキストパス908などのパスカウントを含む。パスカウントに加えて、特徴ベクトルはソーシャルメッセージの各々についてのEGOGEOスコア910及びFRIENDGEOスコア912などの地理的値を含む。ソーシャルメッセージの各々は、リンクされている場合1、リンクされていない場合0として、ラベルベクトル920に符号化される。他の一般的な符号化、1及び−1など、もしくは他のユニークな整数の対が、ソーシャルメッセージが検証された施設にリンクされているか否かを示すために使用され得る。
例えば、ラベルベクトル920の第1の要素は1038として符号化された施設にリンクされている918372として符号化されている対応するツイートを示す1の値を有する。対応する特徴ベクトル901−1は、5EGOPATH、0FRIENDPATH、12INTERESTPATH、3TEXTPATHを経由して施設1038にツイート918372がリンクされていることを示す。さらに、特徴ベクトル901−1は、ソーシャルメッセージ918372を投稿したユーザによって投稿された他のツイートの地理的位置及び施設1038の間の最短距離の測定値によって計算された20.72326584のEGOGEOスコアを含む。特徴ベクトル901−1はユーザのともだちによって投稿されたツイートの地理的位置及び施設1038の間の最短距離の測定値によって計算される8.72692089のFRIENDGEOスコアを含む。
図4に戻ると、分類器が図9に示される例示的な特徴ベクトル及びラベルベクトルなどの入力を受信した後、実装のいくつかにおいて、システムは、符号化された投稿402及び符号化された位置検出された施設404などを含む、訓練されたモデル410を生成する。訓練されたモデル410は、投稿412などの新ソーシャルメッセージが候補施設416の各々にリンクされているか否かを分類する(418)ために使用され得る。実装のいくつかにおいて、テストステージで、訓練されたモデル410を用いて、訓練された分類器238(例えば、SVM)は、投稿412などの新ソーシャルメッセージが施設にリンクされているか否かを示す、候補施設416の各々の施設のスコアを計算することができる。スコアに基づいて、サーバ104は、新ソーシャルメッセージの予測施設として少なくとも1つの候補施設を識別することが可能であり、新ソーシャルメッセージと予測施設とは関連付けられている。実装のいくつかにおいて、サーバ104は、訓練されたSVM出力から候補施設である可能性が高い一つもしくは複数を選択する(420)。訓練されたSVMは、出力として利用可能な線形カーネル、デフォルトパラメータ、確率推定を有する。選択された候補施設は予測施設422と看做される。
実装のいくつかにおいて、予測は、三重相互検証の設定で行われ得る。訓練データの各々において、ツイート及び施設の既知のリンクの半分は、肯定的なリンクとしてサンプリングされる。残りの半分のリンク(ti, vp)について、施設vqはV - vpから、否定的なリンク(ti, vq)をランダムに生成され得る。これにより、肯定的なリンク及び否定的なリンク(例えば、肯定的なリンクの特徴ベクトルである901−1、901−2及び901−3、否定的なリンクの特徴ベクトル901−4、901−5、901−6)を同数含む、図9に示されたようなバランスデータセットは、訓練されたプロセスについて導出され得る。テストセットの既知のリンクは評価に使用され得る。
例えば、図10は、実装のいくつかによって、テストフェイズの間、ソーシャルメッセージの施設推定を例示する。評価の間、実装のいくつかにおいて、ソーシャルメッセージを書くユーザに対する新ソーシャルメッセージ投稿(例えば、メッセージX)に関連するマトリックスが生成され得る。マトリックスは、特徴ベクトルの特徴数及び新ソーシャルメッセージの数のサイズを有する。ユーザが新しいユーザであれば、軸としてユーザを有するメタパスマトリックスは、可能であれば、新しいユーザを含むように更新される。いくつかの場合、ユーザは、フォースクエアなどの施設外部サービスにアカウントを有していない場合がある。これにより、ユーザによって書き込まれた新ソーシャルメッセージを受信することは、同様の更新の原因とはならない。ユーザ更新の後、入信ツイート及び可能な施設の各々の対について、図10の1002〜1008などのテスト特徴ベクトルは、訓練特徴ベクトルが計算された方法と同様なマトリックス乗算を用いて計算され得る。特徴ベクトルの各々は、メタパスカウント1010〜1016及び地理的スコア1018〜1020などの要素を有する。テスト特徴ベクトルは、次に、リンクされているソーシャルメッセージ及び候補施設の確率を予測するために、訓練されている分類器1022(例えば、訓練されているSVM)に与えられ得る。施設は、リンクされている確率によってランク付けされている。
例えば、図10に示されているように、最高から最低までのランクは、メッセージXにリンク付けされている可能性は、候補施設1、N、2及びN−1について、95%、78%、46%、5%である。メッセージXは、1のEGOPATH及び4のINTERESTPATHを介して候補施設にリンク付けされ、図10に示される他の候補施設に関連する最高のEGOGEOスコアを有する。候補施設N−1は、メッセージXへ候補施設N−1をリンクするEGOPATH、FRIENDPATH、INTERESTPATH、TEXTPATHを有さず、EGOGEOスコアは最も低い。したがって、メッセージXは、候補施設1へリンクする可能性が高く、候補施設N−1へリンクする可能性は低い。
ここで開示されている施設推定システム及び方法の品質を評価するために、ツイートの推定された施設と実際の施設とが比較され得る。実装のいくつかにおいて、考慮される第1の測定値は、実際の施設の位置と推定された施設の位置との間の距離(マイル)を量子化したErrDistである。ErrDistは以下の式で定義される。

Tはテストツイートのセットである。
ErrDistが低いことは、モデルは実際の施設に近いツイートの地理的位置検出が可能であることを意味するが、施設推定エラーの分布についての強い直感を直接的には提供できない。したがって、Accuracyは、実際の施設に適切に適合する推定された施設をツイートが有する割合を測定するために検討される。

以下の識別関数は、実際の施設が推定された施設のセット内で適合し得るか否かチェックすることができる。
施設推定子が確かさが低減する順序でツイートの各々についてkの施設を予測する。kの予測を含むErrDistはErrDist@kとして示され、上位kの施設に亘って同一のErrDist測定値が適用され、実際の施設までの最小誤差距離を選択する。

estj(t)は、確かさが低減する順序で、tについて予測されたj番目の施設である。
同様に、kの予測を有するAccuracyはAccuracy@kとして定義される。
これにより、最初の予測に誤差があったとしても、適切な候補施設を識別するために、訓練された分類器の許容性を示す。
図7に示されるように、構築されたネットワークから抽出された特徴及び利用可能な地理データに基づいて、ツイート及び施設の間の与えられたリンクの存在確率は識別され得る。vで投稿されるtの確率P(link(t,v)=1は予測可能である。実際の施設vact(t)をどのように識別するか、を与えられたツイートtについて検討する。P(link(t,v)=1)、ツイートtの各々について∀v∈Vを計算するための、直感的な考えである。Vは候補施設のセットであり、最大確率P(link(t,v)=1)を有するvは推定施設vest(t)であり得る。これにより、Vのサイズ、即ち、|V|は、推定処理の効率に影響する。Vに全ての施設が列挙される。しかしながら、例えば、FRIENDPATH、TEXTPATHなどを介して接続されている施設など関連性の高い施設をサンプリングすることにより最適化され得る。
実装のいくつかにおいて、制限された地理的領域(例えば、図11に示されるスタンフォードショッピングセンター)内でツイートが投稿された特定施設を知ることが所望される適用シナリオが主に評価される。スタンフォードショッピングセンターで投稿されたツイートの知識は、いくつかの方法で取得し得る。例えば、ユーザは、スタンフォードショッピングセンターについて記述するか、もしくは、ユーザがツイートを投稿する場合、位置検出サービスをオンにする。また、ショッピングセンターの位置などの追加情報及び関連付けられているショッピングセンターの店舗は、地理的情報を取得するために、施設データ230に保存され得る。
ツイートが、チェーン店(例えば、図12に示されるスターバックス、マクドナルド、アップルストア)の複数の地理的施設のどの店舗から投稿されたかを予測することは興味深い。ショッピングモールで近接する異なる施設、及び、異なるスターバックス店舗でのツイートによって共有される同様のトピックを検討することは、未だチャレンジングな問題である。しかしながら、これらの場合、本開示の実装による方法及びシステムはまだ効率的である。候補施設の数が限定されているからである。
ツイートについて地理的施設を列挙するために3つの戦略が検討される。
●ツイートの施設推定(VIT)は全ての候補施設を列挙する。
●VIT(パス)は、図8で定義されるようにメタパスを介してツイートに接続される施設を列挙するだけである。
●VIT(ランダム)はツイートの各々についてVIT(パス)と同数の施設をランダムにサンプリングする。
図13(a)は、全ての候補施設を列挙することにより、VIT(ツイートの施設を推定するための発明者によって開発されたテストシステム)が実際の施設の周囲2マイル内の(19,084の候補施設の内)上位20の予測の施設の位置を検出することができることを示す。
図13(b)は、ツイートの約50%について、VITによる上位20の予測において、実際の施設が適切に識別されることを示す。図8のメタパスにレバレッジすることにより、VIT(パス)は、ErrDist@kのVITによる比較可能な結果に到達し、ツイートの40%について上位20の予測の実際の施設を識別することが可能である。VIT(パス)のツイートの各々について列挙される施設の平均数は、データセットにおいて1,571であり、VITより小さい。正確さと効率との間のVITについてトレードオフを示す。施設を列挙する処理は、ほとんどのツイートについて促進され得る。ツイートに関連付けられている実際の施設は、通常、構築されたネットワークに埋め込まれているユーザのソーシャルアクティビティに関連するためである。VIT(ランダム)より性能がたいへん優れていることをVIT(パス)によって確認することができる。
次に、例えば、スタンフォードショッピングセンターなどの限定された地理的領域内で、ツイートが投稿された施設をどのように予測するかについて検討が行われる。図11に示されるように、スターバックス、アップルストア、メイシーズなどを含むスタンフォードショッピングセンターに位置する65の異なる施設がある。他の従来のシステムにおいて検討された国レベルもしくは市レベルの予測と比較すると、異なる店舗間が近接しているため、ショッピングモールの細かい粒度の施設推定はたいへんチャレンジングである。
図14は、スタンフォードショッピングセンターの地理的施設を推定する際の性能を示す。VITは、スタンフォードショッピングセンターのツイートの74%の上位10の予測において、実際の施設を適切に識別することができる、ことが観察されている。図14は、メタパスベース特徴(PATH)もしくは地理的データ(GEO)に基づく特徴が使用される場合の結果を含む。施設は小規模領域内で推定されるので、GEOはタスクにおいてPATHより重要度が低い役割を演じる。詳細な特徴分析は、図18の説明に関連して以下で提示される。
サンフランシスコベイエリアに亘って分散するチェーン店の複数の施設から、ツイートが投稿された特定の店舗を識別することも興味深い。スターバックス、マクドナルド、アップルストアの3つのチェーン店が検討される。図12に示されるグーグルマップに示されるように、スターバックス、マクドナルド、アップルストアの検証された施設数は、データ収集領域において、409、184、14である。ツイートが投稿された正確な支店を推定することは、チェーン店のビジネス分析について重要である。例えば、バークレイのスターバックスでツイートが投稿されたか、もしくは、スタンフォードのスターバックスでツイートが投稿されたかを予測することは、異なるキャンパスでのユーザの購入行動をより適切に理解し、バークレイ及び/もしくはスタンフォードでキャンパスプロモーションを行うか否かを判定することを促進することを可能とする。
図15は、スターバックス、マクドナルド、アップルストアと関連付けられているツイートについて、地理的施設を推定する際に、VITの性能を例示する。VITは、これらの3つのチェーンについて、実際の施設の周囲2マイル内で上位10の予測で(Accuracy@10)支店の位置を検出することが可能であることを示す。困難な問題は、候補施設の数と肯定的な相関関係を有するので、アップルストアの性能が最高である。同様に、VITは、アップルストアに関するツイートの約90%についての上位3の予測において実際の施設を適切に識別することができる。スターバックス及びマクドナルドのAccuracy@10は66%及び78%である。
追加的なテストは、リンク予測の設定において異なる特徴の区別可能なパワーを分析するために実行される。上記したように、バランスデータセットは訓練に使用される。さらに、テストデータの同一の量の否定的なリンク(即ち、特定施設を推定しないソーシャル投稿)がサンプリングされる。ランダムな推測は、リンクが存在するか否か予測する際に50%の弱いベースラインと看做され得る。図16にテスト結果が示される。正確さ、精度、リコール及びF1スコアによって、性能は評価される。
図16で観察されるように、EGOPATHは、チェックインした、チップスを書いた、メイヤーである、などの他のソーシャルアクティビティをユーザが有する正確に同一の場所である施設でツイートが投稿された場合のみ有用である。図16で観察されるように、EGOPATHは、精度はたいへん高いが、リコールはたいへん低い。ツイート及び施設の間のリンクは、ネットワークにおいてたいへん疎であり得る対応するEGOPATHがある場合、肯定的に予測されるので、合理的である。FRIENDPATHを見ると、リコールはEGOPATHより高いが、精度はEGOPATHより低い。相関関係はEGOPATHと同様の確実性はないが、ツイッターもしくはフォースクエアのユーザのともだちのソーシャルアクティビティをレバレッジすることにより、FRIENDPATHはツイート及び施設の間の相関関係を多くの場合検出可能である。全体的に、FRIENDPATHは、よりよい正確さ及びFIスコアを達成する。ユーザの関心を考慮すると、INTERESTPATHは、EGOPATH及びFRIENDPATHと比較可能な性能を有する。ユーザがソーシャルアクティビティと同様のカテゴリを共有する施設でツイートする傾向があることを示す。ある研究は、認識してもしくは認識せずに、ユーザが、ツイートのコンテンツに位置情報を暗示的に表わすことを見出しており、テキストは、通常、位置推定のために重要な特徴である。TEXTPATHは、ツイート及び施設に関連するチップスの間で共通なワードをマッチングすることによって、ツイート及び施設の間のテキストの類似度を符号化するための方法で使用される。単一のメタパスを使用することによって、ツイート施設対の73.67%が正確に分類され得る。4つのタイプのメタパスベース特徴を組み合わせると、単一の特徴と比較して、PATHは正確さ及びFIスコアの両方を大幅に改善する。構築された異種情報ネットワークに含まれる複数のタイプのメタパスを使用する効果を示す。
ユーザのツイートのいくつかにおいて、地理的データが利用可能である場合、EGOGEOは、ユーザの位置情報タグが付されたツイートと候補施設との間の距離を使用することができる。図16に示されるEGOGEOの性能のよさは、ユーザが以前ツイートした施設の近傍でユーザがツイートとする傾向があることを示す。地理的にアクティブでない(即ち、位置情報タグを付されたツイートがない)ユーザについて、本開示の実装による方法は、ユーザのともだちの地理的情報を見ることによりFRIENDGEOから利益を得ることができる。他の研究のいくつかと共に、この結果は、ツイッターユーザの各々がともだちの位置を推定するためのセンサと看做され得ることを示す。地理的データに基づいてこれらの2つのタイプの特徴を結び合わせることにより、GEOはツイートの地理的施設を識別する際に適切に働く。
図16は、PATH及びGEOをつなぐことにより、VITが単一の特徴よりよい性能を示し、88.59%の正確さを有する非常によい性能を達成することができることを示す。この結果は、ツイートの施設推定の問題について、構築された異種情報ネットワークに埋め込まれたソーシャル関係を分析し、同時に利用可能な地理的データをレバレッジすることが有用であることを示す。
実装のいくつかによってここで説明されるアプローチは、ツイートが投稿された施設及び地理的位置を推定するために使用され得る。これは、情報を提示し、サービスを推奨し、ハイパーローカルレベルで広告の目標を設定することに適用可能である。構築された異種情報ネットワークに埋め込まれたソーシャルアクティビティを分析し、利用可能な地理的データをレバレッジすることにより、本方法は、ツイートの施設推定の問題にたいへんよい性能を示す。
開示の方法の潜在的な拡張は時間情報を考慮することである。例えば、ツイートが投稿された時間にともだちと共通する場所に存在することにより、ツイートがユーザの友達の位置の近傍の施設と関連付けられている可能性は高い。他の拡張は、より大きい地理的領域に作業を拡張することを含む。効率を改善するために、アプローチの1つは、ユーザ及びともだちの家の位置及びソーシャルアクティビティに基づいて領域を絞り込み、もしくは、候補施設の空間的分布をレバレッジすることにより関連性の高い施設のサンプリングを繰り返す。
図17は、実装のいくつかによるソーシャルメッセージから施設を推定する方法1700のフローチャートである。実装のいくつかにおいて、方法1700は、一つもしくは複数のプロセッサ(例えば、CPU202)及びプロセッサ(例えば、CPU202)によって実行される指示を記憶するメモリ(例えば、メモリ204)を有するコンピュータシステム(例えば、施設推定システム100のサーバ104)で実行される(1702)。実装のいくつかにおいて、分類器の訓練及び訓練された分類器の評価がサーバ104の分類モジュール215によって実行される。
サーバ104は施設の一覧に呼び出し(1704)、ソーシャルメッセージが施設の一覧の施設にリンクされているか否かを予測する分類器(例えば、複数の分類器238の1つ)を訓練する。実装のいくつかにおいて、施設の一覧は外部サービス122から通信モジュール209を介して取得され、サーバ104の施設データ230に保存される。実装のいくつかにおいて、施設の一覧(例えば、候補施設416)は所定の領域、施設のタイプ、施設名、ユーザの嗜好、施設推定の履歴、もしくはソーシャルメッセージと関連付けられている地理的座標からの距離の少なくとも1つに基づいて、選択される(1706)。例えば、図5は、サンフランシスコベイエリアの検証された施設の一覧を例示する。これらの検証された施設は、実装のいくつかによる訓練及び/もしくは評価のために施設の一覧として使用され得る。実装のいくつかにおいて、スマートフィルタは、テストフェイズにおいて訓練及び/もしくは評価について、検証された施設のサブセットを使用するために適用され得る。例えば、図11は、スタンフォードショッピングセンターなどの所定の領域の施設が訓練及び/もしくは評価に使用されることを例示し、図12は、施設のタイプ及び/もしくは、スターバックス、マクドナルド、アップルストアなどの施設名の施設識別が訓練及び/もしくは評価に使用されることを例示する。
実装のいくつかにおいて、サーバ104は訓練ソーシャルメッセージ(例えば、投稿402もしくは投稿402のサブセット)のセットにまず呼び出すことにより分類器を訓練する(1708)。サーバ104は、次に、複数のソーシャルメッセージ及び施設の対を取得する(1710)。複数のソーシャルメッセージ及び施設の対の各々は、訓練ソーシャルメッセージのセットの訓練ソーシャルメッセージ及び施設の一覧の施設を有する。実装のいくつかにおいて、訓練に使用されるソーシャルメッセージ及び施設の対はサーバ104の訓練データ234に保存される。実装のいくつかにおいて、複数のソーシャルメッセージ及び施設の対について(1712)、サーバ104は、対の訓練ソーシャルメッセージの各々をラベルとして符号化する(1714)。ラベルは、訓練メッセージが施設にリンクされているか否かを示し、対の施設の各々への対応する訓練メタパスを訓練ソーシャルメッセージの各々について識別し(1716)、対応する訓練特徴ベクトルへの対応する訓練メタパスを符号化する(1718)。対応する訓練特徴ベクトルの要素の各々は、対の施設の各々に接続されている訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含む。サーバ104は、分類器に符号化されたラベル及び訓練特徴ベクトルを与える(1720)。
実装のいくつかにおいて、分類器は、線形カーネル及びデフォルトパラメータを有するサポートベクターマシン(SVM)である(1722)。確率推定は分類器の出力として利用可能である。例えば、図9に示されるように、60の例示的なソーシャルメッセージ及び施設の対が訓練のために取得される。ソーシャルメッセージ及び施設の対の各々で、ソーシャルメッセージが施設にリンクされているか、もしくはリンクされていないことが、ラベルベクトル920で1または0によって符号化される。特徴ベクトルの要素の各々は、EGOPATHカウント902、FRIENDPATHカウント904、INTERESTPATH906、TEXTPATHカウント908、EGOGEOスコア910、及びFRIENDGEOスコア912などの、サーバ104によって計算される測定値を含む。特徴ベクトルの要素は、施設にソーシャルメッセージを接続するメタパスを識別した後、計算され得る。実装のいくつかにおいて、図7に示されるように、ソーシャルグラフが、メタパスを取得するためにソーシャルネットワークスキーマとして使用され得る。図9に示されるラベルベクトル920の符号化されたラベル及び特徴ベクトルは、線形カーネル、デフォルトパラメータ及び分類器の出力として利用可能な確率推定を有するSVMに与えられる。
訓練フェイズが完了すると、訓練されたモデルは、位置情報タグを付されていない新ソーシャルメッセージが施設にリンクされているか否か予測するために使用され得る。サーバ104は、一つもしくは複数の外部サービス122から新ソーシャルメッセージを受信する(1724)。実装のいくつかにおいて、新ソーシャルメッセージは位置情報タグを付されていない(1725)。実装のいくつかにおいて、新ソーシャルメッセージは通信モジュール209を介して外部サービス122から取得され、サーバ104のソーシャルメッセージデータ248に保存される。施設の一覧の施設の各々について(1726)、サーバ104は新ソーシャルメッセージを2つのステップで前処理する。最初のステップで、サーバは、特定施設への対応するメタパスを新ソーシャルメッセージについて識別する(1728)。次のステップで、サーバは、訓練された分類器のために特徴ベクトルとして対応するメタパスを符号化する(1736)。特徴ベクトルの要素の各々は、特定施設に接続されているソーシャルメッセージのタイプの各々に基づく測定値を含む。特徴ベクトルは、訓練された分類器が新ソーシャルメッセージが施設にリンクされているか否か示す施設の一覧の施設の各々のスコアを計算するように(1754)、訓練された分類器に与えられる。スコアに基づいて、サーバ104は、新ソーシャルメッセージ及び新ソーシャルメッセージに関連付けられている予測された施設について予測された施設として少なくとも1つの候補施設を識別する(1756)。実装のいくつかにおいて、サーバ104は、予測施設として、確率として示される最大スコアを有する少なくとも1つの候補施設を識別する(1758)。
実装のいくつかにおいて、サーバ104は新ソーシャルメッセージについてエンティティのタイプ及びメッセージの一覧及び施設の一覧から抽出された関係に基づいて、ソーシャルネットワークスキーマとしてソーシャルグラフを取得する(1730)ことにより、特定施設に対応するメタパスを識別する(1728)。エンティティのタイプの各々はソーシャルネットワークスキーマのノードのタイプとして示され、エンティティの間の関係は異なるタイプのリンクとして示される。サーバ104は、ソーシャルグラフ、新ソーシャルメッセージのコンテンツ及び/もしくはユーザの書いた新ソーシャルメッセージ及び/もしくはユーザのソーシャルなともだちに基づいて、新ソーシャルメッセージについて、特定施設に新ソーシャルメッセージを接続する対応するメタパスを識別する(1732)。対応するメタパスの各々は、リンクタイプのシーケンスを含むソーシャルネットワークのパスのタイプを示す。
実装のいくつかにおいて、測定値はパスカウントなどの特定施設に接続されているソーシャルメッセージのタイプの各々の頻度を含む(1738)。測定値がパスカウントである場合、サーバ104は特定施設に接続されているソーシャルメッセージのタイプの各々の頻度を示す対応するメタパスの各々についてのパスカウントを取得し(1740)、特徴ベクトルの要素の各々の測定値としてパスカウントを設定する(1742)。実装のいくつかにおいて、疎らなパスカウントをまとめるために、サーバ104は全体的な特徴マトリックスを生成するように異なる施設のパスカウントを合計する(1744)。
実装のいくつかにおいて、メタパスは、施設とユーザのソーシャルメッセージを直接関連付けるEGOPATH、ともだちを通して施設にユーザのソーシャルメッセージを関連付けるFRIENDPATH、施設のカテゴリを通してソーシャルメッセージと施設との間の関係を拡張するINTERESTPATH、施設についてのソーシャルメッセージのコンテンツをモデル化するTEXTPATHの一つもしくは複数を含む(1734)。
実装のいくつかにおいて、測定値は位置情報タグを付されていないメッセージを投稿したユーザの位置情報タグを付されたソーシャルメッセージと施設の各々との間の最短距離を計測するEGOGEOスコアである(1746)。
実装のいくつかにおいて、測定値は以下の式によって計算されるEGOGEOスコアである(1748)。

はuによって投稿された位置情報タグを付されたソーシャルメッセージのセットを示す。εはデフォルト値10−9によるアンダーフローを回避するために加算される。
実装のいくつかにおいて、測定値は、新ソーシャルメッセージを投稿したユーザのともだちの位置情報タグを付されたソーシャルメッセージと施設の各々との間の最短距離を計測するFRIENDGEOスコアである。
実装のいくつかにおいて、測定値は以下の式によって計算されるFRIENDGEOスコアである(1752)。
例えば、図10に示されるように、新ソーシャルメッセージXは施設候補1、候補2、…、候補N−1及び候補Nの一覧の施設の各々について符号化される。図7に示されるソーシャルグラフをソーシャルネットワークスキーマとして用いて、新ソーシャルメッセージX及び/もしくは新ソーシャルメッセージXを書くユーザ及び/もしくはユーザのソーシャルともだちに基づいて、図8に示される対応するメタパスを識別し得る。メタパスは、EGOPATHカウント1010、FRIENDPATHカウント1012、INTERESTPATHカウント1014、TEXTPATHカウント1016、EGOGEOスコア1018、FRIENDGEOスコア1020などの測定値を計算するために符号化される。符号化されたメタパスは特徴ベクトルとして訓練されたSVMなどの訓練された分類器1022に与えられる。訓練されたSVMは分類器の出力として利用可能な確率推定を有することができる。訓練された分類器の出力は、施設に関連する可能性が98%である最高候補N−1及び施設に関連する可能性が10%である最低候補Nなどの確率によってランク付けされ得る。ランク付けされた確率に基づいて、実装のいくつかにおいて、サーバ104は新しいメッセージXにリンクされている予測された施設として少なくとも候補N−1を識別する。
「第1」、「第2」などの用語は様々な要素を説明するために使用されるが、これらの要素はこれらの用語によって限定されない。これらの用語は要素を相互に区別するためにのみ使用される。例えば、第1のコンタクトは第2のコンタクトであってもよい。また、第2のコンタクトは第1のコンタクトであってもよい。「第1のコンタクト」の全て及び「第2のコンタクト」の全てが矛盾なく変更されると、説明の意味は変更され得る。第1のコンタクト及び第2のコンタクトは両方ともコンタクトであるが、同一のコンタクトではない。
ここで使用される用語は、特定の実装を説明するためであり、発明の範囲を限定する意図はない。実装の説明で単数が使用されている場合、明確に単数のみを示すことが記載されていない限り、複数も含み得る。「及び/もしくは」は、一つもしくは複数の関連するアイテムの任意の及び全ての可能な組み合わせを包含する。「含む」との記載は、特徴、整数、ステップ、操作、要素及び/もしくは構成要素を特定するが、一つもしくは複数の他の特徴、整数、ステップ、操作、要素、構成要素及び/もしくはこれらのグループの存在もしくは追加を除外しない。
様々な実装への参照が行われ、実装の例は添付の図面で例示される。上記の説明において、本開示及び実装の全体的な理解を提供するために多くの特定の詳細が記載された。しかしながら、本開示はこれらの特定の詳細なしに実施され得る。他の例において、よく知られた方法、プロシージャ、構成要素及び回路は、実装の態様を不必要に不明瞭にしないように詳細には説明されていない。
上記では、説明のために、特定の実装を参照して説明している。しかしながら、上記の例示的な説明は、網羅的であること、もしくは開示された詳細な形態に開示を限定することを意図していない。上記開示の観点から多くの変更が可能である。開示の原理及び実用的な応用をもっとも適切に説明するために実装は選択され説明された。これにより、開示をもっとも適切に利用することが可能となり、特定の使用に適するように、様々な変更が可能である。
100 分散システム
102 クライアント
104 サーバ
108 通信ネットワーク
122 外部サービス
202 CPU
215 分類モジュール
238 分類器

Claims (18)

  1. ソーシャルメッセージから施設を推定する方法であって、
    一つもしくは複数のプロセッサ及び前記プロセッサによって実行される命令を記憶するメモリを含むコンピュータシステムが、
    施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否かを予測する分類器を訓練し、
    新ソーシャルメッセージを受信し、
    前記施設一覧の施設各々について、
    前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、
    訓練された前記分類器のための特徴ベクトルとして前記対応メタパスを符号化し、
    前記特徴ベクトルの要素各々は前記特定施設と新ソーシャルメッセージとの間の接続のタイプ各々に基づく測定値を含み、
    前記施設一覧の施設各々について、前記新ソーシャルメッセージが前記施設にリンクされているか否か示すスコアを前記訓練された分類器によって計算し、
    前記スコアに基づいて、前記新ソーシャルメッセージについて、予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける、
    方法。
  2. 前記ソーシャルメッセージが施設一覧の施設にリンクされているか否かを予測する分類器を訓練することは、
    訓練ソーシャルメッセージのセットを呼び出し、
    複数のソーシャルメッセージ及び施設の対を取得し、
    前記ソーシャルメッセージ及び施設の対の各々は 訓練ソーシャルメッセージのセットの訓練ソーシャルメッセージ及び施設一覧の施設を含み、
    複数の前記ソーシャルメッセージ及び施設の対の1つについて、
    ラベルとして、対の訓練ソーシャルメッセージの各々を符号化し、
    前記ラベルは、訓練ソーシャルメッセージが施設にリンクされているか否か示し、
    前記訓練ソーシャルメッセージの各々について、対の施設の各々への対応訓練メタパスを識別し、
    対応訓練特徴ベクトルに前記対応訓練メタパスを符号化し、
    前記対応訓練特徴ベクトルの要素の各々は、対の施設の各々に接続されている訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含み、
    符号化された前記ラベル及び訓練特徴ベクトルを、訓練のために前記分類器に与える、
    請求項1に記載の方法。
  3. 新ソーシャルメッセージについて、前記特定施設に対応メタパスを識別することは、
    エンティティのタイプ及びメッセージ一覧及び施設一覧から抽出された関係に基づいて、ソーシャルネットワークスキーマとしてソーシャルグラフを取得し、
    前記エンティティのタイプの各々は前記ソーシャルネットワークスキーマのノードのタイプとして示され、
    前記エンティティの間の関係は異なるタイプのリンクとして示され、
    前記ソーシャルグラフ、新ソーシャルメッセージのコンテンツ及び/もしくはユーザが書いた新ソーシャルメッセージ及び/もしくはユーザのソーシャルともだちに基づいて、
    前記新ソーシャルメッセージについて、前記特定施設に新ソーシャルメッセージを接続する対応メタパスを識別し、
    対応メタパスの各々はリンクタイプのシーケンスを含むソーシャルネットワークのパスのタイプを含む、 請求項1または請求項2に記載の方法。
  4. メタパスは、施設へのユーザのソーシャルメッセージに直接関連するEGOPATH、ともだちを介した施設へのユーザのソーシャルメッセージに関連するFRIENDPATH、施設カテゴリを介してソーシャルメッセージ及び施設の間の関係を拡張するINTERESTPATH、及び施設に関するソーシャルメッセージのコンテンツをモデル化するTEXTPATHの一つもしくは複数を含む請求項1〜請求項3の何れか1項に記載の方法。
  5. 前記測定値は位置情報タグを付されていないメッセージを投稿したユーザの位置情報タグを付したソーシャルメッセージ及び施設の各々の間の最短距離を測定する施設vpでユーザuiによって投稿されたツイートtiについてのEGOGEOスコアである、
    請求項1〜請求項の何れか1項に記載の方法。
  6. 前記測定値は、以下の式によって計算され、

    Tiはuiによって投稿された位置情報タグを付されたソーシャルメッセージのセットを示し、
    以下の記号は、位置情報タグを付されたソーシャルメッセージと施設との間のマンハッタン距離を示し、

    εは、デフォルト値10−9によるアンダーフローを回避するために加算された、
    請求項1〜請求項5の何れか1項に記載の方法。
  7. 前記測定値は新ソーシャルメッセージを投稿したユーザのともだちの位置情報タグを付されたソーシャルメッセージ及び施設の各々の間の最短距離を測定するFRIENDGEOスコアである、
    請求項1〜請求項6の何れか1項に記載の方法。
  8. 前記測定値は、以下の式によって計算されるFRIENDGEOスコアである、

    請求項1〜請求項7の何れか1項に記載の方法。
  9. 分類器は線形カーネル及びデフォルトパラメータを有するサポートベクターマシン(SVM)であり、
    前記分類器の出力として確率推定が利用可能である、
    請求項1〜請求項8の何れか1項に記載の方法。
  10. スコアに基づいて、予測施設として少なくとも1つの候補施設を識別することは、
    確率として示される最高スコアを有する少なくとも1つの候補施設を前記予測施設として識別する、
    ことを含む、
    請求項1〜請求項9の何れか1項に記載の方法。
  11. 所定の領域、施設のタイプ、施設名、ユーザによる嗜好、施設推定の履歴、もしくはソーシャルメッセージに関連付けられている地理的座標からの距離の少なくとも1つに基づいて、施設の一覧が選択される、請求項1〜請求項10の何れか1項に記載の方法。
  12. 新ソーシャルメッセージは位置情報タグを付されていない、請求項1〜請求項11の何れか1項に記載の方法。
  13. メモリと、
    一つもしくは複数のプロセッサと、
    一つもしくは複数の前記プロセッサによって実行される、メモリに記憶されている一つもしくは複数のプログラムと、
    を含み、
    一つもしくは複数の前記プログラムは、
    施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否か予測する分類器を訓練し、
    新ソーシャルメッセージを受信し、
    前記施設一覧の施設の各々について、
    前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、
    訓練された前記分類器のために特徴ベクトルとして前記対応メタパスを符号化し、
    前記特徴ベクトルの要素の各々は前記特定施設と新ソーシャルメッセージとの間の接続のタイプ各々に基づく測定値を含み、
    前記施設一覧の施設の各々について、前記新ソーシャルメッセージが施設にリンクされているか否かを示すスコアを訓練された前記分類器によって計算し、
    前記スコアに基づいて、前記新ソーシャルメッセージについて予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける、
    命令を含む、
    デバイス。
  14. ソーシャルメッセージが施設一覧の施設にリンクされているか否か予測する分類器を訓練することは、
    訓練ソーシャルメッセージのセットを呼び出し、
    複数のソーシャルメッセージ及び施設の対を取得し、 複数の前記ソーシャルメッセージ及び施設の対の各々は、前記訓練ソーシャルメッセージのセットからの訓練ソーシャルメッセージ及び前記施設一覧からの施設を含み、
    複数の前記ソーシャルメッセージ及び施設の対の1つについて、
    ラベルとして対の訓練ソーシャルメッセージの各々を符号化し、
    前記ラベルは訓練メッセージが施設にリンクされているか否かを示し、
    前記訓練ソーシャルメッセージの各々について、対の施設の各々への対応する訓練メタパスを識別し、
    対応訓練特徴ベクトルに対応訓練メタパスを符号化し、
    前記対応訓練特徴ベクトルの要素の各々は対の施設の各々に接続されている前記訓練ソーシャルメッセージの各々のタイプの各々に基づく測定値を含み、
    訓練のために符号化された前記ラベル及び訓練特徴ベクトルを分類器に与える、
    請求項13に記載のデバイス。
  15. 新ソーシャルメッセージについて、特定施設への対応メタパスを識別することは、
    エンティティのタイプ及びメッセージ一覧及び施設一覧から抽出された関係に基づいて、ソーシャルネットワークスキーマとしてソーシャルグラフを取得し、
    前記エンティティのタイプの各々は、前記ソーシャルネットワークスキーマのノードのタイプとして示され、前記エンティティの間の関係はリンクの異なるタイプとして示され、ソーシャルグラフ、新ソーシャルメッセージのコンテンツ及び/もしくはユーザが書いた新ソーシャルメッセージ及び/もしくはユーザのソーシャルともだちに基づいて、
    前記新ソーシャルメッセージについて、前記特定施設に新ソーシャルメッセージを接続する対応メタパスを識別し、
    前記対応メタパスの各々は、リンクタイプのシーケンスを含む、ソーシャルネットワーク内のパスのタイプを示す、
    請求項13または請求項14に記載のデバイス。
  16. メタパスは、施設にユーザのソーシャルメッセージを直接関連付けるEGOPATH、ともだちを介して施設にユーザのソーシャルメッセージを関連付けるFRIENDPATH、施設のカテゴリを介して、ソーシャルメッセージ及び施設の間の関係を拡張するINTERESTPATH、及び、施設についてのソーシャルメッセージのコンテンツをモデル化するTEXTPATHの一つもしくは複数を含む、
    請求項13請求項15の何れか1項に記載のデバイス。
  17. 前記新ソーシャルメッセージは位置情報タグを付されていない、請求項13請求項16の何れか1項に記載のデバイス。
  18. 施設一覧を呼び出し、ソーシャルメッセージが前記施設一覧の施設にリンクされているか否か予測する分類器を訓練し、
    位置情報タグを付されていない新ソーシャルメッセージを受信し、
    前記施設一覧の施設の各々について、
    前記新ソーシャルメッセージについて、特定施設への対応メタパスを識別し、
    訓練された前記分類器のために特徴ベクトルとして対応メタパスを符号化し、
    前記特徴ベクトルの要素の各々は前記特定施設と新ソーシャルメッセージとの間の接続のタイプ各々に基づく測定値を含み、
    前記施設一覧の施設の各々について、新ソーシャルメッセージが施設にリンクされているか否か示すスコアを訓練された前記分類器によって計算し、
    前記スコアに基づいて、新ソーシャルメッセージについて予測施設として少なくとも1つの候補施設を識別し、前記新ソーシャルメッセージと前記予測施設とを関連付ける、
    処理をコンピュータに実行させるためのプログラム。
JP2015143846A 2015-03-20 2015-07-21 施設推定方法、デバイス及びプログラム Active JP6540314B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US14/664,734 US10395179B2 (en) 2015-03-20 2015-03-20 Methods and systems of venue inference for social messages
US14/664,734 2015-03-20

Publications (2)

Publication Number Publication Date
JP2016177764A JP2016177764A (ja) 2016-10-06
JP6540314B2 true JP6540314B2 (ja) 2019-07-10

Family

ID=56925152

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015143846A Active JP6540314B2 (ja) 2015-03-20 2015-07-21 施設推定方法、デバイス及びプログラム

Country Status (2)

Country Link
US (1) US10395179B2 (ja)
JP (1) JP6540314B2 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10073822B2 (en) 2016-05-04 2018-09-11 Adobe Systems Incorporated Method and apparatus for generating predictive insights for authoring short messages
US11405696B2 (en) * 2016-08-17 2022-08-02 International Business Machines Corporation System and method for targeting mass media ads on the television to given physical locations using online activity profiles at the locations
US20180129929A1 (en) * 2016-11-09 2018-05-10 Fuji Xerox Co., Ltd. Method and system for inferring user visit behavior of a user based on social media content posted online
US10121190B2 (en) * 2016-12-22 2018-11-06 Capital One Services, Llc System and method of sharing an augmented environment with a companion
JP6403842B1 (ja) * 2017-07-13 2018-10-10 ヤフー株式会社 情報処理装置、コンテンツ提供システム、情報処理方法、およびプログラム
US9980100B1 (en) 2017-08-31 2018-05-22 Snap Inc. Device location based on machine learning classifications
CN109635989B (zh) * 2018-08-30 2022-03-29 电子科技大学 一种基于多源异构数据融合的社交网络链路预测方法
CN111507788B (zh) * 2019-01-31 2023-07-14 阿里巴巴华北技术有限公司 数据推荐方法、装置、存储介质及处理器
US10863316B1 (en) * 2019-03-18 2020-12-08 Facebook, Inc. Predicting a physical location of an online system user from multiple candidate physical locations based on a geographic location of a client device associated with the user
US11200587B2 (en) * 2019-08-09 2021-12-14 International Business Machines Corporation Facilitating use of select hyper-local data sets for improved modeling
CN110837930B (zh) * 2019-11-07 2023-09-19 腾讯科技(深圳)有限公司 一种选址方法、装置、设备及存储介质
US11057322B1 (en) * 2019-12-20 2021-07-06 Twitter, Inc. Ranking messages of conversation graphs in a messaging platform using machine-learning signals
US11516155B1 (en) 2019-12-20 2022-11-29 Twitter, Inc. Hard and soft ranking messages of conversation graphs in a messaging platform
US20210248461A1 (en) * 2020-02-11 2021-08-12 Nec Laboratories America, Inc. Graph enhanced attention network for explainable poi recommendation
US11232135B2 (en) * 2020-04-02 2022-01-25 Shantanu Bhattacharyya Methods and system of using N-gram analysis to discover points of interest in a given geographic region
CN111476322B (zh) * 2020-05-22 2022-05-20 哈尔滨工程大学 一种基于特征优化的元路径挖掘方法
CN111738447B (zh) * 2020-06-22 2022-07-29 东华大学 基于时空关系学习的移动社交网络用户关系推断方法
CN111832724B (zh) * 2020-07-14 2023-03-28 西北工业大学 一种基于深度神经网络的异构网络推荐方法
CN112364219A (zh) * 2020-10-26 2021-02-12 北京五八信息技术有限公司 内容发布方法、装置、电子设备及存储介质
US20220318653A1 (en) * 2021-03-31 2022-10-06 Fujitsu Limited Social media content recommendation
CN115033804B (zh) * 2022-06-06 2024-02-27 西北工业大学 一种基于随机生长的社交网络关键转发者检测方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005108230A (ja) 2003-09-25 2005-04-21 Ricoh Co Ltd オーディオ/ビデオコンテンツ認識・処理機能内蔵印刷システム
US7716162B2 (en) * 2004-12-30 2010-05-11 Google Inc. Classification of ambiguous geographic references
WO2010148415A1 (en) 2009-06-19 2010-12-23 Blekko, Inc. Scalable cluster database
US8200247B1 (en) 2010-02-08 2012-06-12 Google Inc. Confirming a venue of user location
DE202011110872U1 (de) 2010-02-09 2017-01-18 Google Inc. Geokodierte Kommentare in einem Messaging-Dienst
CN102348050A (zh) 2010-08-03 2012-02-08 国基电子(上海)有限公司 数码照相设备及其获取地理标签的方法
US9530167B2 (en) 2011-08-12 2016-12-27 Facebook, Inc. Coefficients attribution for different objects based on natural language processing
US8990327B2 (en) 2012-06-04 2015-03-24 International Business Machines Corporation Location estimation of social network users
US9262438B2 (en) 2013-08-06 2016-02-16 International Business Machines Corporation Geotagging unstructured text
US20170109615A1 (en) 2015-10-16 2017-04-20 Google Inc. Systems and Methods for Automatically Classifying Businesses from Images

Also Published As

Publication number Publication date
JP2016177764A (ja) 2016-10-06
US20160275401A1 (en) 2016-09-22
US10395179B2 (en) 2019-08-27

Similar Documents

Publication Publication Date Title
JP6540314B2 (ja) 施設推定方法、デバイス及びプログラム
JP6575335B2 (ja) ソーシャルメディアメッセージ及び施設の間のリンクを推定する方法、コンピュータシステム、及びプログラム
JP6784308B2 (ja) 施設特性を更新するプログラム、施設をプロファイリングするプログラム、コンピュータ・システム、及び施設特性を更新する方法
JP6759844B2 (ja) 画像を施設に対して関連付けるシステム、方法、プログラム及び装置
JP6145576B2 (ja) オンライン・ソーシャル・ネットワークにおける大規模ページ推薦
US20180144256A1 (en) Categorizing Accounts on Online Social Networks
JP6911603B2 (ja) ユーザによって訪問される施設のカテゴリの予測モデルを生成する方法、プログラム、サーバ装置、及び処理装置
US20150032535A1 (en) System and method for content based social recommendations and monetization thereof
US10412037B2 (en) Methods and systems for providing notifications to users of a social networking service
WO2018175750A1 (en) Intelligent visual object management system
WO2019169964A1 (zh) 一种资源和营销推荐方法、装置及电子设备
Cao et al. Inferring crowd-sourced venues for tweets
US20130227026A1 (en) Location profiles
US20230325947A1 (en) Automatic analysis of digital messaging content method and apparatus
JP2016525236A (ja) 拡張現実コンテンツを選別するための方法、装置、およびシステム
CN112241489A (zh) 信息推送方法、装置、可读存储介质和计算机设备
TW201903705A (zh) 用於基於種子監督學習提供推薦的系統和方法
US20170249381A1 (en) Member quality score
US20220239620A1 (en) Estimating device, estimating method, and estimating program
US10455031B2 (en) Systems and methods to determine location recommendations
US11550859B2 (en) Analytics system entity resolution
Saluwadana et al. A Mobile App for Location Based Customer Notifications About Sales Offers
WO2023105568A1 (ja) 情報提供装置、情報提供方法及びプログラム
JP7146037B1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2024073786A (ja) 処理装置、処理方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190423

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540314

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350