JP6536058B2

JP6536058B2 - ユーザの人口統計学特性を推定する方法、コンピュータ・システム、及びプログラム

Info

Publication number: JP6536058B2
Application number: JP2015022653A
Authority: JP
Inventors: ジョシディラジ; チェンフランシーン; リン　ディー．　ウィルコックス; ディー．ウィルコックスリン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2014-05-15
Filing date: 2015-02-06
Publication date: 2019-07-03
Anticipated expiration: 2035-02-06
Also published as: US9589205B2; US20150332087A1; JP2015219904A

Description

開示の技術は、ユーザの人口統計学特性を推定する方法、コンピュータ・システム、及びプログラムに関する。

（Ｔｗｉｔｔｅｒ（登録商標）などの）マイクロブログ・プラットフォームは、今日、ウェブ上の数百万のユーザの意見を具現化している。マイクロブログは、ユーザによるより短い長さの投稿であり、よりオープンなエコシステムである点で、従来のソーシャル・ネットワークとはいくらか異なっている。マイクロブログは、歴史的に、テキスト・ベース・メッセージにフォーカスしているが、現在は、画像及びビデオをサポートしているマイクロブログもある。一方、写真またはビデオ専用のソーシャル・ネットワークも存在する。スマートフォンによって写真を投稿することはより容易になった。そして、写真によって伝えられる情報は、テキストよりも多いことがある。

ソーシャル・マルチメディアのトレンドの１つは、自分自身の写真を撮影すること（「自撮り」と呼ばれることもある）である。スマートフォンにインカメラ（ディスプレイ側に搭載されたカメラ）が導入されたことによって、「自撮り」は一層容易になった。

ビジネスの観点から、マイクロブログは、適切な人々に向けられるべき製品の推奨／広告を可能にするマーケティング情報の良いソースとなり得る。マイクロブログ上でアクティブなユーザにフォーカスすることは、（１）マイクロブログは、一般的に、そのコンテンツがより動的であり、人々が、現在の話題をアクティブに議論する傾向があり、（２）特に、第三者にとって、マイクロブログのデータはアクセスし易い、などの利点を有する。

米国特許出願公開第２０１３／０３０４６５８Ａ１号米国特許出願公開第２０１１／０１３５１６８Ａ１号

アロウィブディ（Alowibdi）、「ツイッターにおける言語非依存性別分類（Language Independent Gender Classification on Twitter）」、ソーシャル・ネットワーク分析及びマイニングにおける進歩に関するＩＥＥＥ／ＡＣＭ国際会議（IEEE/ACM International Conf. on Advances in Social Networks Analysis and Mining）、２０１３年８月２５日〜２８日、頁５

ビジネス・アプリケーションは、ソーシャルの人口統計学と現在のもしくは最新のトピックに関するソーシャル・センチメントとを関連付けることが可能である。例えば、企業が新製品の発売に関するセンチメントに注目している場合、もしくは、政治団体が発表を行う場合、企業は、人々が考えていることを、マイクロブログ上でより迅速に見つけることが可能である。他のユーザに向けた（ユーザによって明示的に生成された、もしくは、ユーザ・アクティビティから暗黙裡に生成された）ユーザ・プロファイルが存在する場合、企業は、異なる人口統計学グループが考えていることを推定することが可能である。しかしながら、ユーザに関する人口統計学情報が利用可能でない場合もある。

本発明は、ユーザに関する人口統計学特性（例えば、性別、年齢、居住地域、収入、及び学齢等の属性の特性）が利用可能でない場合であっても、ユーザの人口統計学特性を推定する方法、コンピュータ・システム、及びプログラムを提供する。

開示の技術の第１の態様は、ユーザの人口統計学特性を推定する方法であって、少なくとも１つのプロセッサ、及び、少なくとも１つの前記プロセッサによって実行される少なくとも１つのプログラムを記憶するメモリを含む計算処理デバイスが、ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、取得した前記写真から複数の顔画像を識別し、前記顔画像の選択されたサブセットに基づいて、前記ユーザの少なくとも１つの複数の人口統計学特性を推定する。

開示の技術の第２の態様は、第１の態様の方法であって、前記計算処理デバイスは、顔画像の前記サブセットを選択するために、前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、取得した前記プロファイル写真に最もマッチする複数の前記クラスタの内のクラスタを選択し、顔画像の選択された前記サブセットは、選択された前記クラスタの前記顔画像を含む。

開示の技術の第３の態様は、第１の態様の方法であって、前記計算処理デバイスは、顔画像の前記サブセットを選択するために、前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、前記プロファイル写真をクラスタリング・シードとして用いて、複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、顔画像の選択された前記サブセットは、前記プロファイル写真に対応する前記クラスタの前記顔画像を含む。

開示の技術の第４の態様は、第１の態様の方法であって、前記計算処理デバイスは、顔画像の前記サブセットを選択するために、前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、取得した前記プロファイル写真に対する類似度が予め定められた類似度の閾値より大きい前記顔画像のサブセットを選択する。

開示の技術の第５の態様は、第４の態様の方法であって、前記類似度は、空間ピラミッド・マッチングを用いて求められる。

開示の技術の第６の態様は、第１の態様の方法であって、前記計算処理デバイスは、顔画像の前記サブセットを選択するために、複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、最高クラスタ純度を有する複数の前記クラスタからクラスタを選択し、顔画像の選択された前記サブセットは、選択された前記クラスタの前記顔画像を含む。

開示の技術の第７の態様は、第１の態様の方法であって、前記計算処理デバイスは、顔画像の前記サブセットを選択するために、少なくとも１つの自撮り特徴を有する取得した前記写真内の顔画像の存在に基づいて、前記顔画像の少なくとも１つを選択する。

開示の技術の第８の態様は、第７の態様の方法であって、写真の前記自撮り特徴は、前記写真の占有領域割合閾値を越える顔画像を有することを含む。

開示の技術の第９の態様は、第７又は第８の態様の方法であって、写真の前記自撮り特徴は、前記写真の周囲に沿った前記写真の内の人物の腕の画像を検出することを含む、
請求項７又は請求項８に記載の方法。

開示の技術の第１０の態様は、第１〜第９の何れかの態様の方法であって、前記ユーザの少なくとも１つの人口統計学特性を推定することは、さらに、取得した前記写真の内の識別されたオブジェクトの画像に基づき、識別された前記オブジェクトは、少なくとも１つの人口統計学特性に対するスキューを有する。

開示の技術の第１１の態様は、第１０の態様の方法であって、識別されたオブジェクトの前記画像は、自撮りとして識別された写真に現れる。

開示の技術の第１２の態様は、第１〜第１１の何れかの態様の方法であって、前記ユーザの少なくとも１つの人口統計学特性を推定することは、識別された前記顔画像の数について人口統計学特性を決定し、決定された前記人口統計学特性の分布を計算し、ユーザのソーシャル・メディア写真の人口統計学特性の履歴データ及びユーザの人口統計学データに関してトレーニングされた分類手段への特徴入力として前記分布を用いる。

開示の技術の第１３の態様は、第１〜第１１の何れかの態様の方法であって、前記ユーザの少なくとも１つの人口統計学特性を推定することは、前記顔画像にＮ個の別個の推定手法を適用し、前記推定手法の各々は前記ユーザの画像であると推定された顔画像のセットの各々を識別し、Ｎは２以上の整数であり、顔画像の候補セットを形成するために識別された前記顔画像のセットの各々を組み合わせ、前記候補セットの内の顔画像の各々について、Ｎ次元特徴ベクトルを形成し、特徴ベクトルの各々の次元の各々は前記推定手法の１つに固有に対応し、特徴ベクトルの各々の値は、前記ユーザの画像であると顔画像の各々をどの推定手法が推定したかを示し、顔画像の各々が前記ユーザの画像であるか否か推定するためにトレーニングされた分類手段への入力として特徴ベクトルの各々を用い、前記顔画像の選択されたサブセットは、前記ユーザの画像であるとトレーニングされた前記分類手段によって決定された顔画像を含む。

開示の技術の第１４の態様は、第１〜第１１の何れかの態様の方法であって、前記ユーザの少なくとも１つの人口統計学特性を推定することは、前記顔画像に複数の推定手法を適用し、前記推定手法の各々は前記ユーザの画像であると推定された顔画像のセットの各々を識別し、顔画像の候補セットを形成するために顔画像の識別されたセットの各々を組み合わせ、前記推定手法によって提供されたスコアの加重平均を用いて前記候補セットの顔画像の各々にスコアを付け、前記顔画像の選択されたサブセットは加重平均されたスコアが予め定められた閾値を越える顔画像を含む。

開示の技術の第１５の態様は、第１〜第１４の何れかの態様の方法であって、少なくとも１つの前記人口統計学特性は年齢及び性別を含む。

開示の技術の第１６の態様は、ユーザの人口統計学特性を推定するコンピュータ・システムであって、少なくとも１つのプロセッサと、メモリと、前記メモリに記憶された少なくとも１つのプログラムと、を含み、少なくとも１つのプログラムは、ユーザによってソーシャル・メディア・サイトに投稿された複数の写真を取得し、取得した前記写真から複数の顔画像を識別し、顔画像の選択されたサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、ための命令を含む。

開示の技術の第１７の態様は、第１６の態様のコンピュータ・システムであって、顔画像のサブセットを選択するために、前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、取得した前記プロファイル写真と最もマッチする複数の前記クラスタからクラスタを選択する、命令をさらに含み、顔画像の選択された前記サブセットは、選択された前記クラスタの内の前記顔画像を含む。

開示の技術の第１８の態様は、第１６の態様のコンピュータ・システムであって、前記命令は、顔画像のサブセットを選択するために、複数のクラスタに複数の前記顔画像をグループ化するためにクラスタリング・アルゴリズムを適用し、複数の前記クラスタからクラスタ純度が最高であるクラスタを選択する、命令をさらに含み、顔画像の選択された前記サブセットは選択された前記クラスタの前記顔画像を含む。

開示の技術の第１９の態様は、第１６の態様のコンピュータ・システムであって、前記ユーザの少なくとも１つの人口統計学特性を推定する命令は、さらに、識別された前記顔画像の複数について人口統計学特性を決定し、決定された前記人口統計学特性の分布を計算し、ユーザのソーシャル・メディア写真の人口統計学特性の履歴データ及びユーザの人口統計学データについてトレーニングされた分類手段への特徴入力として前記分布を用いる、命令をさらに含む。

開示の技術の第２０の態様は、ユーザの人口統計学特性を推定する処理をコンピュータに実行させるためのプログラムであって、ユーザによってソーシャル・メディア・サイトに投稿された複数の写真を取得し、取得した前記写真から複数の顔画像を識別し、前記顔画像の選択されたサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する。

ユーザに関する人口統計学特性が利用可能でない場合であっても、ユーザの人口統計学特性を推定することが可能となる。

開示の技術が動作する実装のいくつかの環境を例示する。実装のいくつかの分析サーバのブロック図を例示する。実装のいくつかの写真から顔画像を抽出する処理を例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する方法の第１のフローチャートを例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する方法の第２のフローチャートを例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する方法の第３のフローチャートを例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する方法の第４のフローチャートを例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する方法の第４のフローチャートを例示する。実装のいくつかの自撮り特徴を用いて、ユーザの人口統計学特性を識別する技術を例示する。実装のいくつかの自撮り特徴を用いて、ユーザの人口統計学特性を識別する技術を例示する。実装のいくつかの外観コンセプトもしくはシーンに基づいて、ユーザの人口統計学特性を識別する処理を例示する。実装のいくつかのユーザの写真を用いて、ユーザの人口統計学特性を識別する他の方法のフローチャートを例示する。実装のいくつかの自撮り写真を識別する複数の手法の組み合わせを例示する。実装のいくつかのユーザの人口統計学特性を識別する複数の技術を組み合わせる処理を例示する。実装のいくつかのクライアント・デバイスを例示するブロック図を例示する。実装のいくつかのユーザの人口統計学特性を識別する処理を例示する。実装のいくつかのユーザの人口統計学特性を識別する処理を例示する。実装のいくつかのユーザの人口統計学特性を識別する処理を例示する。

本開示は、マイクロブログもしくはソーシャル・ネットワークなどのソーシャル・メディア・サイトにユーザが投稿する写真に基づいて、ユーザの人口統計学特性を推定する新規な手法について記述する。いくつかの例において、処理は、投稿された写真から自分自身を撮影した写真（「自撮り」）画像を識別し、ユーザの各々の人口統計学特性（例えば、年齢及び性別など）を推定するために自撮り画像を分析する。ソーシャル・メディア・サイトは、「ソーシャル・ネットワーク」とも呼ばれる。ソーシャル・メディア・サイトのいくつかは、一般的に、少量の投稿にフォーカスしている場合には、「マイクロブログ」とも呼ばれる。ここで記述される技術は、マイクロブログ・サイトへの特定の適用性を有する何れのソーシャル・メディア・サイトにも適用可能である。

開示の技術は、ユーザ特定情報は正確である必要がないため、ユーザ・プロファイルが人口統計学情報を特定するソーシャル・メディア・サイトについても価値を有する。いくつかの場合において、ユーザは、ユーザのプライバシーを保護するため、実年齢より上にあるいは下に見せるため、もしくは他の理由で、不正確なプロファイル情報を提示する。

開示の技術はユーザがプロファイル写真を提供したか否かに関係なく、価値を有する。いくつかの場合、プロファイル写真は不正確であるか、もしくは、ユーザを示さない。さらに、プロファイル写真のいくつかは低解像度であり、したがって、ユーザのデジタル写真に基づく人口統計学特性を推定するほうが、より正確であるかもしれない。

マイクロブログに投稿されたユーザの写真からのキューは、ユーザの年齢及び性別を推定することを可能にする。投稿された写真を用いることに加えて、実装のいくつかは、他の（例えば、現在のマイクロブログ・アカウントのユーザによってリストされた）ソーシャル・ネットワーク・アカウントから取得されたユーザのプロファイル写真を用いる。他のソーシャル・メディア・サイトにユーザによって投稿された写真が公的に利用可能であれば、人口統計学推定を行うために、ユーザの現在のマイクロブログ写真と組み合わされてもよい。

実装のいくつかは、人物の年齢及び性別を決定するために、人物のマイクロブログの写真を分析することにフォーカスするが、同様の技術は、ユーザに関連する複数の写真が存在する他のコンテキストでも適用可能である。例えば、いくつかの例において、スマートＴＶはスマートフォンのユーザの写真にアクセスし得る。写真は、ユーザの年齢及び性別を判断するために用いられることが可能であり、したがって、広告に適切な対象を絞ることが可能である。現在のスマートＴＶのいくつかは、異なる時間にＴＶを見ている人物のビデオをスマートに録画するために用いることが可能なカメラを有する。人物の各々の年齢及び性別の推定要約は、異なる時刻に適応的に対象とされた広告に用いることが可能である。ＴＶのコンテキストにおいて、ユーザのコンセプトは、（ｉ）ユーザの電話とＴＶとを同期する人物、もしくは、（ｉｉ）異なる時間にＴＶを見ている人物（一台のＴＶに複数のユーザが存在し得る）であり得る。

ソーシャル・ネットワーク及びソーシャル・ネットワークにおいてアカウントを維持する人が急増しているので、異なるネットワークを越えてアカウントをマッピングすることは有用である。年齢、性別、もしくは（人種などの）ユーザの他の人口統計学特性を推定する機能はマッチング処理で改善し得る。

ソーシャル・メディア・データ・マイニングに関する問題は、何を、どこに、誰が投稿するか、に基づいて、ネットワークに参加する人物に関する推定を行うことにフォーカスする。十分なマイクロブログ・テキストが存在しない場合、ユーザが投稿した写真は、年齢、性別もしくは他の人口統計学特性を判定するための有用なキューを提供し得る。この情報は、広告、製品、映画、サービス、旅行などの人口統計学特性特定推奨を実行するために用いることが可能である。

実装のいくつかは、人物の年齢及び性別に関する推定を行うためにユーザが投稿した写真を分析する。実装のいくつかにおいて、人種などの他の人口統計学特性も同様に推定される。一括して分析された場合は、人物の写真は、人物の年齢及び性別を識別する重要なキューを与え得る。例えば、多くの写真に幼い子供達が存在する場合、ユーザが父母もしくは祖父母であることを示し得る。写真に１０代もしくはヤング・アダルトが存在する場合、ユーザが１０代もしくはヤング・アダルトであることを示し得る。自撮りの存在は、年齢／性別予測処理を促進する。

写真のシーンもしくはコンセプト検出は、特に、一括して（例えば、検出された複数の写真もしくは複数のシーンもしくはコンセプトに）適用された場合、ユーザの年齢もしくは性別を示し得る。例えば、ユーザの写真が洋服、香水、もしくはマニキュアの写真を含む場合、ユーザは女性である可能性が高い。ユーザの写真がスポーツの写真を含む場合、ユーザは男性である可能性が高い。コンセプトに関連するキューは、単独では、年齢もしくは性別を予測するために十分ではないが、自撮り画像の男性もしくは女性の特徴を識別すること、などの、顔ベース推定との組み合わせで有用となり得る。年齢及び性別の推定を支援するために、投稿した写真とユーザのプロファイル写真とを比較することも可能である。単一のプロファイル写真は、年齢及び性別の適切な推定は提供しない可能性がある。例えば、プロファイル写真は古いかもしれないし、画質が悪いかもしれないし、（イラストなどの）人物以外の画像かもしれないし、他の人物を含むかもしれない。

実装のいくつかにおいて、写真を用いて行われる人口統計学推定は、推定の正確さもしくは信頼性を向上するために、（利用可能である場合）テキスト・ベース・人口統計学推定と組み合わされる。

実装のいくつかにおいて、ユーザの写真はマイクロブログから取得され、写真の各々の顔画像を０個もしくは複数個識別するために、顔検出が写真の各々に適用される。顔検出は、ＯｐｅｎＣＶ顔検出手段（face detector）などの様々なソフトウェアを用いて実行され得る。実装のいくつかにおいて、顔は、判別可能な顔の外観特徴を用いてクラスタリングされる。実装のいくつかは、顔を示すために、局所制約線形符号化（ＬＬＣ）を用いる。ＬＬＣフレームワークにおいて、顔の各々は、２１５０４次元（２１の空間ピラミッド・グリッド（spatial pyramid grids）の各々について１０２４次元の符号）のベクトルによって表される。次に、空間ピラミッド・マッチング・フレームワークを用いて顔間の類似度を含む類似マトリックスを計算する。計算された類似度マトリックスは、顔の外観クラスタを検出するために用いられる。実装のいくつかにおいて、アフィニティ伝搬（Affinity Propagation）が顔クラスタリングを実行するために用いられる。アフィニティ伝搬は、データ・ポイント間で受け渡しされるメッセージのコンセプトに基づく、反復クラスタリング・アルゴリズムである。多くのクラスタリング・アルゴリズムは、予め決定されている数のクラスタを必要とするが、アフィニティ伝搬は予め決定されている数のクラスタを必要としない。予めクラスタ（別個の人物）の数を計算することは容易ではないため、ユーザのマイクロブログ写真コレクション内で顔のクラスタリングを行うために、予め決定されている数のクラスタを必要としないことは、特に有用である。ユーザのプロファイル写真からのキューは、自撮りとして識別するために用いられ得る。顔検出は、存在すれば、ユーザのプロファイル写真にも実行される。プロファイル写真が人物の顔であれば、いくつかの手法が、特定のクラスタが「自撮り」クラスタであるか否かを識別するために用いられ得る。

実装のいくつかは、プロファイル写真で検出された顔を用いて、全てのクラスタの外観類似チェックを実行する。クラスタのプロファイル写真及び多くの顔の間の類似度が閾値を越えれば、クラスタは、自撮りクラスタとして識別される。実装のいくつかにおいて、このステップは、プロファイルの顔のＬＬＣ特徴を計算し、プロファイルの顔と全ての計算されたクラスタの全ての顔との間の類似度を計算するために空間ピラミッド・マッチングを用いる。次に、プロファイルの顔とクラスタとの間の平均類似度の値を計算するために用いられ得る。クラスタは、次に、平均プロファイル類似度スコアによってランク付けされ得る。より高い値は、顔がよりプロファイルの顔に類似していることを示す。実装のいくつかにおいて、ユーザ（例えば、２０人、５０人、もしくは１００人のユーザ）による制御されたテスト及びタグ付けされた自撮りクラスタを用いて、類似度の閾値が計算される。実装のいくつかにおいて、外観判定に基づいて適切な閾値を決定するためにクラスタの顔及び対応する類似度スコア（プロファイルの顔に対する類似度）を見ることを参加者は求められる。

実装のいくつかは、ユーザのコレクションの顔のクラスタリングを実行するためのシードとしてプロファイル写真で検出された顔を用い得る。顕著なクラスタが検出された場合、自撮りクラスタとして識別される。シードを特定することは、クラスタリング・アルゴリズムを導くために、クラスタの中心を初期化するための手法である。シードの値は、クラスタリング処理の間、クラスタ中心に、より高い重要度を与えられる。実装のいくつかにおいて、シードによる開始を含むアフィニティ伝搬の修正されたバージョンが適用される。

実装のいくつかは、クラスタリング・アルゴリズムを用い、最適なクラスタを選択するために複数の技術を用いる。上記したように、技術の１つはプロファイル写真へのマッチングである。実装のいくつかによって用いられた他の技術はクラスタのサイズである。最大クラスタが自撮りクラスタである場合がある。加えて、実装のいくつかはクラスタ純度に基づいて、クラスタを選択する。純度は様々な手法で測定され、クラスタ内の画像がどの程度類似しているかを示す。「完全」なクラスタは同一である顔画像の全てを含む。クラスタの画像が相互にあまり類似していない場合、クラスタの純度は低い。実装のいくつかは、最適なクラスタを識別するためにこれらの技術の組み合わせを用いる。実装のいくつかにおいて、技術の各々はクラスタの各々のスコアを計算し、スコアは加重平均を用いて組み合わされる。

実装のいくつかは、外観クラスタリングの代わりに外観サーチを用いる。外観サーチは、プロファイル写真で検出された顔を用いる。プロファイル写真は、ユーザの写真コレクションで検出された顔の各々と比較される。閾値より高い類似度スコアを有する顔画像は自撮りの候補であり得る。外観サーチの実装のいくつかは、プロファイル写真及び顔画像の各々のＬＬＣ特徴を計算し、空間ピラミッド・マッチングを用いて、プロファイルの顔とユーザの写真の顔との間の類似度の値を計算する。類似度の閾値は自撮り候補を検出するためのカットオフ値として選択される。実装のいくつかは、ユーザ（例えば、１０人のユーザもしくは１００人のユーザ）及びタグ付けされた自撮り候補による制御されたテストを用いる。実装のいくつかにおいて、参加者は、外観判定に基づいて、適切な閾値を決定するために、類似度スコア（プロファイルの顔への類似度）によってランク付けされた顔を見ることを求められる。

実装のいくつかにおいて、自撮りクラスタを識別するために１つ以上の手法が用いられる。この情報は、様々な手法で統合され、組み合わせられ得る。実装のいくつかは、複数の手法から推定された自撮りの結合セットを構築する。実装のいくつかは、顔画像の各々のｎ次元特徴ベクトルを形成する。ｎは、別個の推定手法の数である。顔画像の各々について、対応する特徴ベクトルの値は、推定手法の各々に基づいて、顔画像が自撮りである推定を示す。実装のいくつかにおいて、特徴ベクトルの値は０（自撮りではない）もしくは１（自撮りである）である。実装のいくつかにおいて、特徴ベクトルの値は、顔画像が自撮りである確率を示し、０と１との間の任意の値であり得る。実装のいくつかにおいて、推定手法のいくつかは、２値（値は０もしくは１である）であり、他の推定手法は連続値（例えば、０と１との間の値）である。特徴ベクトルは自撮りとして写真の各々を分類するために分類フレームワーク内で用いられ得る。例えば、分類ネットワークは、サポート・ベクター・マシン（ＳＶＭ）もしくはニューラル・ネットワークなどの機械学習を用いることが可能である。

実装のいくつかにおいて、特徴ベクトルは自撮りである確率の閾値を有する顔画像についてのみ計算される。実装のいくつかにおいて、推定手法の少なくとも１つが顔画像として識別する場合のみ、顔画像は含められる。この手法は、一般に、２値出力（イエスもしくはノー）を手法の各々が生成する場合に用いられる。確率出力を生成する推定手法について、実装のいくつかは、「候補」を宣言する、下方境界の閾値を設定し、推定手法の少なくとも１つに基づいて候補である場合のみ、顔画像は最終処理に含められる。

実装のいくつかにおいて、別個の推定手法の各々は顔画像の各々の確率もしくはスコアを計算する。確率もしくはスコアは様々な手法で組み合わされる。例えば、スコアは加重平均を用いて組み合わされてもよい。実装のいくつかにおいて、加重は、推定手法の各々の正確さを示す履歴情報に基づいて割り当てられる。実装のいくつかにおいて、計算され、組み合わされた確率、もしくはスコアは、顔画像が自撮りであるか否かに関する最終決定を行うために、閾値と比較される。実装のいくつかにおいて、組み合わされる確率もしくはスコアは、特徴ベクトルを用いて上記されるように、候補顔画像についてのみ計算される。

ユーザがプロファイル写真を有さない場合、もしくは、プロファイル写真が顔を含まない（即ち、顔が検出されない）場合、実装のいくつかは、ユーザがプロファイルに他のソーシャル・メディアのアカウントをリストしているか否かチェックする。実装のいくつかは、次に、他の指定されたソーシャル・メディアから適切なプロファイル写真を取得する。実装のいくつかは、他のソーシャル・ネットワークのユーザのプロファイルを推定し、利用可能であれば、プロファイル写真を取得する。実装のいくつかは、プロファイル写真がマイクロブログ・サイトで利用可能な場合でさえも他のソーシャル・メディアのプロファイル写真を識別し、当該プロファイル写真を用いる。他のプロファイル写真は、ユーザの年齢及び性別を決定するために、ユーザのマイクロブログ写真と組み合わされ得る。さらに、他のソーシャル・メディアに投稿された写真は、データを増大するために、マイクロブログの写真と組み合わせられ得る。２以上のプロファイル写真が利用可能である場合、自撮りクラスタを取得するために、顔をクラスタリングする複数のシードとして、全て用いられ得る。

プロファイル写真に加えて、自撮り写真もしくは自撮りクラスタを識別するための他の手法が存在する。一般的に、自撮りは、伸ばした腕で保持されるカメラによって撮影される。自撮りの顔は、写真の大きな割合を占める可能性がある。他の自撮り特徴もしくは指標は、腕が部分的に含まれていること、もしくは、風景が存在しないこと、を含む。肌検出は、コンピュータ・ビジョンの分野で研究されてきた。当該手法は、腕の存在の可能性を示すために、写真の境界に沿った肌の存在を検出するために用いられ得る。さらに、（サポート・ベクター・マシンなどの）分類手段は、自撮りの肌画素の存在し得る位置を認識するためにトレーニングされ得る。実装のいくつかは、自撮りを識別するためにクローズアップ写真と関連する他のカメラ・パラメータを用いる。

１つもしくは複数の自撮り画像が識別されると、年齢及び性別が、顔の外観に基づいて推定され得る。自撮りとして識別される顔画像は、一般に、複数存在するため、ユーザの年齢及び性別を推定するために、一括投票が行われる。

自撮りクラスタもしくは自撮り候補を用いて年齢及び性別を推定することに加え、実装のいくつかは、ユーザが投稿した写真の顔の全てについて年齢及び性別を推定する。実装のいくつかは年齢及び性別のカテゴリに関する推定の分布を形成する。例えば、実装のいくつかは年齢を範囲セットに分割し、カテゴリの各々（年齢範囲、性別）について、当該カテゴリに属すると推定される顔画像の数の合計を計算する。人口統計学セグメントへの分布は、機械学習（例えば、サポート・ベクター・マシンもしくはニューラル・ネットワーク）に基づいて、教師付き分類手段機構への入力として用いられる特徴ベクトルである。即ち、ユーザの年齢及び性別は、ユーザの写真の人物の年齢及び性別の分布に基づいて推定される。実装のいくつかは、自撮りに基づいて、他の手法と推定手法とを組み合わせる。

実装のいくつかは、予め定められた年齢及び性別に関連するコンセプトを識別するためにユーザが投稿した写真に関する外観コンセプト検出を用いる。シーンもしくはコンセプト検出は複数の写真に一括して適用され、ユーザの年齢もしくは性別を識別するために有用であり得る。例えば、ユーザの写真が学校もしくは大学の設定を示すならば、ユーザは、１０代もしくはヤング・アダルトである可能性が高い。ユーザの写真が観光地への旅行を示すならば、ユーザの年齢はもう少し上である可能性が高い。コンセプトもしくはシーン・ベースによる年齢及び性別の分類手段を学習させるために、実装のいくつかは、ユーザの制御されたセットを用い、ユーザの写真に外観コンセプト検出手段を適用する。次に、コンセプト分布の特徴ベクトルが、年齢及び性別推定の教師付き分類手段のために生成される。外観コンセプト検出は単一のアイテム（例えば、男性である可能性を示すフットボールの検出）だけでなく、多くのアイテム（例えば、１０代もしくはヤング・アダルトよりは年齢が上である可能性を示す多くの異なる観光地での画像）をカバーする。

実装のいくつかは、外観コンセプト及び人口統計学特性の間の相関が地理的位置などの他のファクタに基づいて異なる事実に対処する。例えば、カリフォルニアの人物についての外観コンセプト指標は、合衆国の他の地域もしくは他の国の外観コンセプト指標とは異なり得る。実装のいくつかは、指定されたサブグループにデータを分割し、関連するサブグループに基づいてユーザの各々の分析を実行することにより、この問題に対処する。

実装のいくつかにおいて、複数の手法が自撮りクラスタもしくは自撮り画像のセットを検出するために適用される。上記したように、実装のいくつかは「アーリー・フュージョン（early fusion）」を用いたデータを組み合わせる。この手法において、様々な手法の出力は特徴ベクトルに含められ、最終的な結果を決定するために、組み合わされた特徴ベクトルは分類手段によって用いられる。実装のいくつかは「レイト・フュージョン（late fusion）」を用いる。この手法において、実装のいくつかは、加重アプローチを用いて異なる分類手段によって与えられるスコアを組み合わせ、組み合わされたスコアに基づいて最終的な決定を行う。

実装のいくつかは、遅延フュージョン分類手段のために、グリーディ・フォワード・セレクション（greedy forward selection）を用いる。この技術は、（既知のグラウンド・トルース（ground truth）を含む）妥当性検証データセットへの分類実行に基づいて、異なる分類手段の加重を学習する。即ち、分類手段の予測は、その実行（例えば、注意深く構築された妥当性検証データセットへの実行）に基づいて信頼される。効率的に分類手段の加重を学習させるために、実装のいくつかはユーザの制御されたセットから妥当性検証データセットを構築する。実装のいくつかにおいて、分類手段の各々が適切に実行するように、データが収集されるに従って、加重は継時的に更新される。

実装のいくつかによれば、処理はユーザの人口統計学特性を識別する。処理は、１つもしくは複数のプロセッサ及び１つもしくは複数のプロセッサによって実行される１つもしくは複数のプログラムを記憶するメモリを含む計算処理デバイスで実行される。処理は、ユーザによってソーシャル・メディア・サイトに投稿された複数の写真を取得し、次に、取得した写真の複数の顔画像を識別する。処理は選択された顔画像のサブセットに基づいて、ユーザの１つもしくは複数の人口統計学特性を推定する。

図面において、同様の参照符号は、同様の要素を参照する。

図１は、本発明の実装のいくつかが動作する環境を例示する。図１において、ユーザ１００は、クライアント・デバイス１０２とインタラクションする。例えば、ユーザ１００は、写真１３３０をキャプチャするために、クライアント・デバイス１０２の画像センサ１３００を使用することが可能である（図１３）。いくつかの場合、ユーザ１００は、ソーシャル・メディア・アプリケーション１３２６もしくは、ソーシャル・メディア・ウェブ・アプリケーション１３２４を用いて、ソーシャル・メディア・サイト１１０−１に写真１３３０のいくつかをアップロードする。クライアント・デバイス１０２は、通信ネットワーク１０８を介して、ソーシャル・メディア・サイト１１０−１と通信する。通信ネットワーク１０８は、インターネット、ローカル・エリア・ネットワークなどを含むことが可能である。

ソーシャル・メディア・サイト１１０−１は、プロファイル写真４０８、ユーザ１００によってアップロードされたその他の写真３０２、及び、テキスト・ベース・メッセージ、ビデオ、ユーザ・プロファイル、アカウント情報などのその他のデータ１１４などユーザ１００に対応するいくつかのユーザ情報１１２を記憶する。図１に例示されるように、サイト１１０−２、…、１１０−ｋを含む多くの別個のソーシャル・メディア・サイト１１０が存在する。ユーザ１００は、写真及び／またはプロファイル写真をこれらのその他のソーシャル・ウェブサイトにもアップロードすることが可能である。

いくつかの場合、ユーザ情報１１２は、パブリックに利用可能に生成される。従って、解析サーバ１０４によるアクセスが可能である。解析サーバ１０４は、ソーシャル・メディア・サイト１１０とは無関係の第三者によって操作可能である。実装のいくつかにおいて、解析サーバ１０４は、情報のいくつか（例えば、写真３０２）を抽出し、情報を分析する。実装のいくつかにおいて、抽出された、もしくは計算されたデータは、ＳＱＬデータベース、１つもしくは複数のＣＳＶファイル、１つもしくは複数のＸＭＬファイル、もしくはクラウド・ストレージなどのデータベース１０６に記憶される。

図２は、実装のいくつかによる分析サーバ１０４を例示するブロック図である。分析サーバ１０４は、一般的に、１つもしくは複数の処理ユニット（ＣＰＵ）２０２、１つもしくは複数のネットワークもしくはその他の通信インターフェイス２０４、及び、これらの要素を相互に接続する１つもしくは複数の通信バス２１２を含む。通信バス２１２は、システム要素間の通信を相互に接続し、制御する回路（チップセットとも呼ばれる）を含むことが可能である。分析サーバ１０４は、ディスプレイ・デバイス２０８及び入力デバイス２１０（例えば、キーボード、マウス、タッチ・スクリーン、キーパッドなど）を含むユーザ・インターフェイス２０６を含むことが可能である。メモリ２１４は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭもしくはその他のランダム・アクセス・ソリッド・ステート・メモリ・デバイスなどの高速ランダム・アクセス・メモリを含む。また、メモリ２１４は、１つもしくは複数の磁気ディスク・ストレージ・デバイス、光ディスク・ストレージ・デバイス、フラッシュ・メモリ・デバイス、もしくはその他の不揮発性ソリッド・ステート・ストレージ・デバイスなどの不揮発性メモリを含むことも可能である。メモリ２１４は、ＣＰＵ２０２から離れて配置される１つもしくは複数のストレージ・デバイスを含むことが可能であるが、必須ではない。メモリ２１４、もしくはメモリ２１４内の不揮発性メモリ・デバイスは、非一時的コンピュータ可読ストレージ媒体を含む。実装のいくつかにおいて、メモリ２１４は、以下のプログラム、モジュール、及びデータ構造、もしくは、プログラム、モジュール、及びデータ構造のサブセットを記憶する。
●オペレーティング・システム２１６。
オペレーティング・システム２１６は、様々な基本システム・サービスを扱うためのプロシージャ及びハードウェア依存タスクを実行するためのプロシージャを含む。
●通信モジュール２１８。
通信モジュール２１８は、１つもしくは複数の通信インターフェイス２０４（有線もしくは無線）及び１つもしくは複数の通信ネットワーク１０８（インターネット、その他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワークなど）を介して、その他のコンピュータに分析サーバ１０４を接続するために使用される。
●ユーザ・インターフェイス・モジュール２２０（省略可能）。
ユーザ・インターフェイス・モジュール２２０は、入力デバイス２１０を介してユーザからコマンドを受信し、ディスプレイ・デバイス２０８のユーザ・インターフェイス・オブジェクトを生成する。
●人口統計学推定モジュール２２２。
人口統計学推定モジュール２２２は、年齢、性別など、ユーザの様々な人口統計学特性を推定するために、ソーシャル・メディア・サイト１１０に、ユーザ１００によって投稿された写真３０２を用いる。人口統計学推定モジュール２２２は、以下に記述する様々なその他のモジュールもしくはプロシージャを呼び出す。
●機械学習モジュール２２４。
機械学習モジュール２２４は、サポート・ベクター・マシンもしくはニューラル・ネットワークなどの１つもしくは複数の機械学習アルゴリズムを実装する。一般的に、機械学習は、トレーニングにおける入力及び出力の双方の履歴データを用いて、監督指導される。機械学習モジュール２２４は、図１０及び図１１を用いて後述するように、様々な手法において適用され得る。
●顔抽出モジュール２２６。
顔抽出モジュール２２６は、写真３０２の顔画像３０６を識別する。この識別については、図３を用いて後述する。
●クラスタリング・モジュール２２８。
クラスタリング・モジュール２２８は、顔画像３０６にクラスタリング・アルゴリズムを実行する。実装のいくつかにおいて、クラスタリング・モジュール２２８は、クラスタリングを開始するために、１つもしくは複数のシード画像（例えば、１つもしくは複数のプロファイル写真４０８）を用いる。アフィニティ伝播、階層クラスタリング、Ｋ平均、分布ベース・クラスタリング、密度ベース・クラスタリングなど、様々なクラスタリング・アルゴリズムを用いることが可能である。
●画像マッチング・モジュール２３０。
画像マッチング・モジュール２３０は、画像の個別のペアのマッチング及びクラスタとの個別の画像のマッチングを行う。実施形態のいくつかにおいて、画像マッチング・モジュールは、空間ピラミッド・マッチングによって測定された類似性による局所制約線形符号化（ＬＬＣ）に基づく外観特徴を用いる。実装のいくつかにおいて、画像マッチングは、画像のペアの類似スコアを求め、類似スコアがスコアの予め定められた閾値（画像マッチング閾値）２４８を越えた場合、画像のペアがマッチしたと判定する。
●外観コンセプト認識モジュール２３２。
外観コンセプト認識モジュール２３２は、データベース１０６に記憶された１つもしくは複数の外観コンセプトもしくはシーン２５０を識別する。詳細は、図９を用いて後述する。
●全体推定モジュール２３４。
全体推定モジュール２３４は、ユーザの顔画像３０６の各々の人口統計学特性を推定し、ユーザ１００の人口統計学を推定するために、（例えば、機械学習によって）トレーニングされた分類手段に、入力として当該情報を適用する。詳細は、図１０を用いて後述する。
●クラスタ純度計算モジュール２３６。
クラスタ純度計算モジュール２３６は、プロファイル写真４０８が存在しない場合にも効果的であり得る。顔画像３０６がクラスタリングされた後、クラスタ純度モジュールは、各クラスタの「純度」を求め、最高の純度を有するクラスタを自撮りクラスタであると推定する。クラスタ純度計算モジュール２３６については、図７Ａ及び図７Ｂを用いて、後述する。実装のいくつかにおいて、最小クラスタ・サイズ２３８は、小さいが故に高い純度を有する小さいクラスタを選択することを避けるために用いられる。
●自撮り特徴検出モジュール２４０。
自撮り特徴検出モジュール２４０は、顔画像３０６もしくは自撮り特徴もしくは自撮り指標を含む写真３０２を識別するように構成される。実装のいくつかにおいて、自撮り特徴検出モジュール２４０は、腕認識モジュール２４２もしくは顔サイズ占有領域モジュール２４４などの特定の特徴を識別するために構成されたサブモジュールを含む。これらのモジュールについては、図８Ａ及び図８Ｂを用いて後述する。
●データベース１０６。
データベース１０６は、様々なユーザ１００のデータを含む。ユーザの各々について、データベース１０６は、ユーザＩＤ２４６のような固有の識別子を含む。ユーザＩＤ２４６の各々は、写真３０２、プロファイル写真４０８、写真３０２から抽出された顔画像３０６のセット、画像クラスタ４０４の１つもしくは複数のセット、推定された自撮り４１２のセット、及び様々な計算の中間結果２５２と関連付けられる。いくつかの場合、これらのアイテムの全ては記憶されず、実装のいくつかでは、他のデータ要素も保存される。実装のいくつかにおいて、データベース１０６は、画像のペアがマッチしたと識別するか否か判定するために用いられる画像マッチング閾値２４８を記憶する。実装のいくつかにおいて、データベース１０６は、外観コンセプト認識モジュール２３２によって用いられる外観コンセプト２５０のセットを記憶する。

上述した要素の各々は、上記メモリ・デバイスの１つもしくは複数に記憶されることが可能であり、上記機能を実行するための命令のセットに対応する。命令のセットは、１つもしくは複数のプロセッサ（例えば、ＣＰＵ２０２）によって実行されることが可能である。上述したモジュールもしくはプログラム（即ち、命令のセット）は、別個のソフトウェア・プログラム、プロシージャもしくはモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットは様々な実装において、組み合わされ、もしくは、再構成されることが可能である。実装のいくつかにおいて、メモリ２１４は、上述したモジュール及びデータ構造のサブセットを記憶することが可能である。さらに、メモリ２１４は、上述されていないその他のモジュール及びデータ構造を記憶してもよい。

図２は分析サーバ１０４を示すが、図２は、ここで説明される実装の構造的な概要ではなく、サーバのセットにおいてあり得る様々な特徴の機能的な記述を意図している。実用においては、別個に示されたアイテムは結合されてもよいし、アイテムのいくつかは分離されてもよい。例えば、図２で別個に示されるアイテムのいくつかは、単一のサーバに実装されてもよいし、単一のアイテムが１つもしくは複数のサーバによって実装されてもよい。分析サーバ１０４を実装するために使用されるサーバの実際の数、及び、特徴が複数のサーバにどのように割り当てられるのか、は実装毎に異なり、ピーク使用時及び平均使用時にシステムが扱わなければならないデータ・トラフィック量に部分的に依存してもよい。

図３は、ユーザがアップロードした写真３０２から顔画像３０６を抽出する（３０４）処理を例示する。いくつかの場合、写真３０２の全てが、単一のソーシャル・メディア・サイト１１０から受信されるが、写真３０２は、２以上のソーシャル・メディア・サイト１１０から受信される場合もある。実装のいくつかにおいて、写真が２以上のソーシャル・メディア・サイト１１０から取り出されると、同一の画像は取り除かれる。プロファイル写真４０８が利用可能である場合、顔抽出処理３０４は、プロファイル写真４０８にも適用される。顔検出は、ＯｐｅｎＣＶ顔検出手段などの様々なソフトウェアを用いて実行されることが可能である。図３に例示されるように、単一の写真３０２は、任意の数の顔画像３０６を含み得る。この例示において、写真３０２−３は、顔画像３０６を含まない花の写真である。写真は、単一の人物のクローズアップ写真であり、したがって、単一の顔画像３０６−１が抽出される（３０４）。写真３０２−２は、二人の人物の写真であり、したがって、２つの顔画像３０６−２及び３０６−３が抽出される（３０４）。最後の写真３０２−ｍには、４人の人物が存在する。したがって、３０６−ｎを含む４つの顔画像３０６が抽出される。この図において、ｍ個の写真３０２及びｎ個の顔画像３０６が存在する。ｎ及びｍは正の整数である。いくつかの場合、詳細には、写真の多くが複数の顔を含む場合、ｎはｍよりも大きい。一方、人物を含まない風景写真が多く存在する場合、ｍはｎより大きくなり得る。

図４及び図５は、ユーザの写真３０２から抽出される顔画像３０６にクラスタリング・アルゴリズムを用いて自撮りを識別する２つの方法を例示する。図４及び図５の双方は、ユーザのプロファイル写真４０８を異なる方法で用いる。いくつかの例において、ユーザの写真３０２が保存されているソーシャル・メディア・サイト１１０から抽出される単一のプロファイル写真が存在する。いくつかの例において、写真が、あるソーシャル・メディア・サイトから利用可能でない場合、リンクされている他のソーシャル・メディア・サイト１１０がチェックされる。例えば、あるソーシャル・メディア・サイトにおいて、ユーザ１００は他のソーシャル・メディア・サイト１１０の１つもしくは複数のアカウントへのリンクを投稿することが可能である。実装のいくつかにおいて、リンクされているソーシャル・メディア・サイト１１０は、プロファイル写真が第１ソーシャル・メディア・サイト１１０−１から利用可能な場合であってもチェックされる。この場合、プロファイル写真は１つ以上存在してもよい。全体にわたって、プロファイル写真４０８は、複数のプロファイル写真が存在する場合を含む。異なるソーシャル・メディア・サイトにおけるプロファイル写真が同一である場合、実装のいくつかでは、重複したプロファイル写真を除去する。

顔画像３６０を一括してクラスタリングするために、２つの画像の「距離」即ち類似のコンセプトがいくつか存在すべきである。実装のいくつかは、局所制約線形符号化に基づく顔特徴を用いる。実装のいくつかにおいて、顔の各々は、２１個の空間ピラミッド・グリッド（spatial pyramid grids）の各々の１０２４個の符号を含む、２１，５０４の次元を有する特徴ベクトルによって示される。このコンテキストにおいて、画像の任意のペアの間の類似スコアを求めるために、空間ピラミッド・マッチングを用いることが可能である。その他の実装は、適切な顔認識システムもしくはその他の類似測定手法を用いる。実装のいくつかは、顔特徴を識別するために、もしくは、比較するために、ハフ変換を用いる。

ここで、適用されることが可能な、アフィニティ伝播、Ｋ平均、階層クラスタリング・アルゴリズムなど、様々な代替的なクラスタリング・アルゴリズムが存在する。クラスタリング・アルゴリズムのいくつかは、予め選択された数のクラスタを必要とする。アフィニティ伝播などのその他のアルゴリズムは、予め選択された数のクラスタを必要としない。凝集型クラスタリング・アルゴリズムのいくつかは、（単集合のクラスタから開始し、繰り返し結合することによって、）ボトム・アップからのクラスタを構築する。一方、分割クラスタリング・アルゴリズムは、全てを含む単一のクラスタリングで開始し、要素（顔画像３０６）が近くに存在するクラスタを形成するために分割される、トップ・ダウン・アプローチを有する。

クラスタリング処理４０２は、図４に例示するように、サイズが変動するいくつかのクラスタ４０４を構築する。ここでは、クラスタ４０４−１，４０４−２，４０４−３，…，４０４−ｒが存在し、ｒはｎより小さい整数である。クラスタリングを行った場合でも、いくつかの単集合のクラスタが存在する可能性がある。実用的には、クラスタの各々は、単一の人物の画像を示すことが期待される。１人の人物に対応する１つより多いクラスタが存在してもよい。例えば、人物は、前面からいくつかの自撮りを撮影してもよく、側面からより多くのその他の自撮りを撮影してもよい。これらは、異なるクラスタとして出現してもよい。いくつかの例において、髪型などのその他のファクタもグループ化に影響を与える可能性がある。

図４において、クラスタ４０４の各々は、１つもしくは複数の自撮りクラスタを識別するためにプロファイル写真４０８と比較される（４０６）。比較４０６は、一般的に、クラスタリング処理において用いられる距離即ち類似測定手法と同一の手法を用いる。実装のいくつかにおいて、自撮りクラスタを識別することは、クラスタにおいて顔画像３０６の各々及びプロファイル写真４０８の間の距離を求め、平均を採ることによって達成される。実装のいくつかにおいて、クラスタにおける画像へのプロファイル写真の平均距離が、閾値よりも短い場合、クラスタは、自撮りクラスタとして識別される。実装のいくつかにおいて、考慮されるための最小クラスタ・サイズが必要とされる。比較の結果は、１つもしくは複数の自撮りクラスタ４１０を識別することである。自撮りクラスタ４１０の顔画像は、自撮り画像４１２として識別される。図１２及び図１４Ａ〜図１４Ｃのフローチャートに例示されるように、自撮り４１２は、ユーザの人口統計学特性を推定するために用いられる。例えば、自撮り画像４１２の年齢及び性別が個別に推定され、平均化されることが可能である。実装のいくつかにおいて、信頼度の値も求められる。例えば、３個の自撮り画像が、人物が男性であることを示唆し、その他の３個の自撮り画像が、人物が女性であることを示唆する場合、当該人物の性別に関する信頼は存在しない。一方、６個全ての自撮り画像が、ユーザが女性であると推定した場合、結果の信頼はかなり高い。年齢、性別及び人種を推定するための様々な技術が適用可能である。

図５は、図４と同様であるが、プロファイル写真４０８は、クラスタリング処理のシードとして用いられる。プロファイル写真シードは当該シードを中心とするクラスタを育てるので、異なる結果を生み、より正確な自撮りクラスタとなる可能性がある。これは、ボトム・アップからクラスタを構築するクラスタリング・アルゴリズムに特に有用である。クラスタが構築された後（５０２）、１つの自撮りクラスタを識別することは容易である。そのクラスタは、プロファイル写真４０８を含む。しかしながら、複数の自撮りクラスタが存在してもよい。実装のいくつかにおいて、クラスタの画像とプロファイル写真との間の平均距離が閾値より短い場合、他のクラスタが、自撮りクラスタとして識別される。この例示では、自撮りクラスタはクラスタ５０４−１である。他のクラスタ５０４−２，５０４−３，５０４−ｓは、自撮りクラスタとして識別されない。ここで、クラスタの数は、図４のクラスタの数と同様である必要はない。プロファイル写真４０８を用いることによって、異なるクラスタが存在することとなってもよい。

図４と同様に、識別された自撮りクラスタの顔画像は自撮りとして識別され、ユーザの人口統計学特性は自撮りに基づいて推定される。

図６は、クラスタリングせずに、自撮りを個別に識別する処理を例示する。この手法を用いる場合、顔画像３０６の各々がプロファイル写真４０８と比較され（６０４）、類似スコアが画像マッチング閾値２４８を越えると、顔画像は自撮りとして識別される。２以上のプロファイル写真が利用可能である場合、顔画像３０６の各々はプロファイル写真の各々と比較されることが可能であり、類似スコアのいずれかが閾値３４８を越えると、顔画像３０６は自撮りであると宣言される。図６において、顔画像３０６−２及び３０６−３は、プロファイル写真４０８とマッチする（例えば、類似スコアが閾値２４８より大きい）が、他の顔画像はマッチしない。従って、顔画像３０６−２及び３０６−３は自撮り画像４１２として識別されない。自撮り画像４１２が識別されると、ユーザの人口統計学特性は図４を用いて上記されたように推定されることが可能である。

図７Ａ及び図７Ｂは図４と同様の処理を例示するが、この処理は、利用可能なプロファイル写真４０８が存在しない場合でさえも用いることが可能である。このアイデアは、自撮りクラスタは最も高い純度を有するか、もしくは、クラスタの画像間で最も高い類似度を有することに基づく。

図７Ａの上部に例示するように、クラスタを構築することは図４と同様である。クラスタを構築した（４０２）後、純度計算に基づいて最適なクラスタ７１０が選択され（７０６）、クラスタ７１０の画像３０６が自撮り４１２として識別される。図４、５及び６に示すように、自撮りがユーザ１００の人口統計学特性を推定するために用いられる。

最適なクラスタを識別するための処理を図７Ｂに例示する。実装のいくつかにおいて、純度は、クラスタ各々の画像３０６間の平均距離を計算することによって測定される。実装のいくつかにおいて、距離は、２つの画像の間の類似スコアの逆数として求められる。例えば、類似スコアが０〜１の間であり、１が完全なマッチを示す場合、逆数も０〜１の間である。しかしながら、類似スコアが１に近付くと逆数は０に近付く。画像３０６の間の距離の合計を最小化することは、純度を推定する手法の１つである。

実装のいくつかにおいて、画像の純度による選択（７０６）は最小（クラスタ）サイズ２３８を有するクラスタのみを推定する（７２０）。実装のいくつかにおいて、最小サイズは２もしくは３である。これによれば、単集合クラスタを「完全な」クラスタとして宣言することを避けることが可能である。実装のいくつかにおいて、最初のステップは、クラスタの各々の顔画像の各々の間の距離を計算する（７２２）ことである。実装のいくつかにおいて、この情報は、クラスタリング・アルゴリズム４０２から渡されてもよい。即ち、距離（もしくは、類似度）はクラスタリングのために計算されるので、データはクラスタ純度分析のためのその後の使用のために保存されていてもよい。計算された距離を用いる場合、各々のクラスタのために純度を計算する（７２４）ことが可能な複数の手法が存在する。実装のいくつかにおいて、クラスタ純度は、式７２４Ａに例示されるように、クラスタの各々について計算された距離ｄ（Ｆｉ，Ｆｊ）全ての平均、即ち、距離ｄ（Ｆｉ，Ｆｊ）全てを加算した値に２／（｜Ｃ｜（｜Ｃ｜−１））を乗算した値である。ここで、｜Ｃ｜は、所与の顔クラスタのサイズである。純粋なクラスタは、画像間の平均距離が短い。実装のいくつかは、式７２４Ｂの純度を用いる。式７２４Ｂでは、距離ｄ（Ｆｉ，Ｆｊ）の各々を二乗し、合計して、平方根を求め、当該値に２／（｜Ｃ｜（｜Ｃ｜−１））を乗算する。実用的には、式７２４Ｂは距離が大きいと高いペナルティを科す。純度が計算されると、最適なクラスタが、最も自撮りクラスタらしいクラスタとして選択される。

自撮りの性質は、それらを識別する特定の写真特性を導く。実装のいくつかは、これらの特性を、自撮りを識別する別個の手法として、もしくは、それらの精度を向上するために、上記された他の手法と共に用いる。例えば、実装のいくつかは、自撮りクラスタの識別を支援するために自撮り特徴を用いる。

図８Ａに例示するように、自撮りでは、写真の境界に沿って、一般的に、ユーザの腕８０２が存在する。境界に沿った腕は、写真が他の人物によって撮影された場合、あまり一般的ではない。実装のいくつかにおいて、自撮り特徴検出モジュール２４０もしくは腕認識モジュール２４２は、写真の境界に沿って、人物の肌を識別するための技術を適用することが可能である。実装のいくつかは、境界に沿った肌画素の可能な位置を認識するために（サポート・ベクター・マシンなどの）、分類手段を用いる。

図８Ｂに例示するように、自撮りの他の一般的な特性は、写真の大きい割合を顔８０４が占めることである。自撮り特徴検出モジュール２４０もしくは顔サイズ占有領域モジュール２４４は、占有領域割合の閾値（例えば、２５％）を設定し、写真で識別された顔８０４が当該閾値を越えた場合、写真は、仮に、自撮り画像であると識別される。

図８Ａ及び図８Ｂの特性は組み合わせられることが可能である。大きな顔及び腕を有する画像は、自撮りである可能性が高い。実装のいくつかにおいて、自撮り特徴は２値である（例えば、顔画像は特定の自撮り特徴を有するか、有さない。）。実装のいくつかにおいて、自撮り特徴は連続値である（例えば、顔画像が自撮りである確率を計算する。）。実装のいくつかにおいて、自撮りを示す可能性がある様々な特性（例えば、境界に沿った腕及び顔画像範囲）が個別に追跡される。実装のいくつかにおいて、特性の各々は「特徴」として参照される。実装のいくつかにおいて、複数の特性は、単一のスコアを計算するために組み合わされる（例えば、自撮り写真を示す可能性がある５個の別個の特性に基づいて単一のスコアを計算する）。実装のいくつかにおいて、組み合わされた特性は「特徴」として参照される。実装のいくつかにおいて、値は、各々の実装された自撮り特性について計算され、値は、履歴データに関してトレーニングされた分類手段への入力特徴ベクトルとして用いられる。

図９は、外観コンセプト認識モジュール２３２が、ユーザの人口統計学特性を識別するために、どのように人物の顔以外の写真の要素を利用するかを例示する。データベース１０６は、人口統計学特性を識別するために有用なコンセプトを含む外観コンセプト２５０のセットを保存する。例えば、鉛筆もしくは椅子などの多くの一般的なオブジェクトは、ユーザの年齢、性別、もしくは、人種を識別するための支援となる可能性は低い。一方、いくつかのコンセプトは、年齢、性別もしくは人種と相関を有する。図９において、写真は、保存された外観コンセプト２５０にマッチする可能性があるフットボール・ヘルメット９０２及びフットボール９０４の画像を含む。これらの２つのアイテムは、男性のユーザをより示している。また、これらは、アメリカ人のユーザを示し、国籍もしくは地理的位置が判定されている人口統計学特性である場合、有用であり得る。

図９において、コンセプト９０２及び９０４の双方が同一の写真に現れるが、この条件が必要とされるものではない。実装のいくつかは、ユーザの写真に亘って外観コンセプトをサーチし、人口統計学推定のための識別されたコンセプトを全て組み合わせる。例えば、ユーザの写真は、異なるナショナル・パーク、様々なおいしそうなデザート、女性の衣装、もしくは、他のそのような識別可能なアイテムの写真を含み得る。

実装のいくつかにおいて、ユーザの写真３０２の識別されたコンセプトは、トレーニングされた識別手段のための入力ベクトルを生成するために用いられる。例えば、外観コンセプト２５０の各々は、ベクトルの次元に対応し、ユーザ写真でコンセプトが発見された回数は、当該次元の値として用いられる。実装のいくつかにおいて、値は、異なる数の写真を有するユーザのために正規化される。個人のサンプリング及び個人の写真を用いる場合、分類手段は、人口統計学特性とユーザ写真のコンセプトとを関連付けるためにトレーニングされ得る。実装のいくつかにおいて、トレーニング処理は、ユーザの人口統計学特性を区別する際に、最も有用なコンセプトを識別するために用いられる。実装のいくつかにおいて、実際に用いられる外観コンセプトの数は１００、２００、５００、もしくは１０００である。処理スピードが重要でない場合、実装のいくつかはさらに他の外観コンセプト２５０を用いる。

図１０は、顔画像３０６のいくつかもしくは全ての人口統計学特性を推定し、当該推定に基づいてユーザの人口統計学特性を推定するアプローチを例示する。即ち、家族、友人及び自撮りのユーザ写真に基づいて、ユーザの特性を推定するが、いずれの写真が自撮りであるか詳細に識別しない。実装のいくつかにおいて、このアプローチは、全体推定モジュール２３４によって実行される。実装のいくつかにおいて、全体推定モジュール２３４は、顔画像３０６の全て（もしくは大部分）の人口統計学特性を推定する。これは、顔画像３０６の数が少ない（例えば、２０もしくは３０）場合に適している。顔画像の数がより多い（例えば、１００以上）の場合、実装のいくつかは、顔画像のサンプルを採り、当該サンプルの顔画像の人口統計学特性を求める。実装のいくつかにおいて、サンプルは総数における予め定められた割合（例えば、少なくとも５０％もしくは少なくとも２５％）を越える必要がある。実装のいくつかにおいて、サンプル・セットは、統計的に大きく（例えば、サンプルの結果が全体セットの結果を示す９５％の信頼度）なければならない。例のいくつかにおいて、３０もしくは５０の顔画像のサンプルは、１０００の顔画像の人口統計学特性を合理的に推定するために十分であり得る。この手法において、顔画像の実質的な数は、分布を構築するために用いられる。

図１０に例示されるように、全体アプローチは、顔画像３０６に対応する人口統計学特性を推定する（１００２）ことによって開始する。これには、既知の技術の何れかを用いることが可能である。この例において、顔画像３０６−１、３０６−２、３０６−３、３０６−４、…、３０６−ｎは、ｎ個の推定１００４−１、１００４−２、１００４−３、１００４−４、…、１００４−ｎをもたらす。いくつかの場合、推定が特定の画像について不確定であれば、当該画像はこのアプローチの他の処理から除外される。この例において、デモグラフィック特性は、年齢及び性別のみを含むが、同一の手法は人口統計学特性の他のセットにも適用され得る。上記したように、顔画像のセットが大きい場合、処理は、顔画像のサンプルを選択し、サンプルの顔画像（即ち、相当数の顔画像）の人口統計学特性を求める。

全体推定モジュール２３４は、次に、人口統計学特性に基づいてセグメントに分解することにより、推定の分布１００８を構築する（１００６）。この例示において、８個の年齢範囲が存在するが、実装は、より多くのもしくはより少ない範囲を用いてもよいし、範囲のサイズを調整してもよい。例えば、ヤング・アダルトについて範囲をより小さくすることがより重要であり得る。実装のいくつかにおいて、データが広告対象に対してその後用いられる場合、広告対象に必要とされる年齢範囲が推定に用いられる。実装のいくつかにおいて、分布１００８のデータは、ユーザの各々が有する写真の数について正規化される。例えば、分布エントリの全ての合計が１となるように、顔画像の合計によって数の各々を除算する。分布のデータは、トレーニングされた分類手段１０１６への入力（１０１４）として用いられる特徴ベクトル１０１２を構築する（１０１０）ために用いられる。分類手段は、ユーザ及びユーザの写真のサンプルに基づいてトレーニングされる。入力特徴ベクトル１０１２を用いた場合、トレーニングされた分類手段１０１６は、ユーザの人口統計学特性の推定（１０２０）を出力する（１０１８）。この例において、推定１０２０は、性別及び特定の年齢であるが、実装のいくつかにおいて、推定は性別及び年齢の範囲（例えば、分布１００８で用いられている年齢の範囲の１つ）である。

上記されるように、多くの異なる技術が、ユーザの人口統計学特性を識別するために適用され得る。実装のいくつかは、これらの技術の一つもしくは複数を組み合わせる。これによれば、より正確な結果を生成し、生成された推定はより高い信頼度を備えることが可能となる。図１１及び図１２は、技術が併合され得る２つの手法を例示する。

図１１において、自撮りを識別する技術は、どの写真が実際に自撮りであるかをより適切に推定するために組み合わされる。この例示において、３つの別個の技術１１０２−１、１１０２−２及び１１０２−３が別個に画像セット１１００に適用され、技術の各々は、推定された自撮りセット１１０４−１、１１０４−２及び１１０４−３を識別する。これらは、図４、図５、図６、図７Ａ、図７Ｂ、図８Ａ、図８Ｂ、図９に例示される技術などの任意の技術であってよい。

個別の技術の各々は、自撮りセット１１０４−１、１１０４−２及び１１０４−３から構築される（１１０６）特徴ベクトル１１０８のセットの次元と関連する。顔画像の各々について、特徴ベクトル１１０８は生成され（１１０６）、特徴ベクトルの要素は、どの技術が画像を自撮りとして推定したかを示す。例えば、第１顔画像Ｆ．１（３０６−１）は最初の２つの技術１１０２−１及び１１０２−２によって自撮りであると推定されるが、第３の技術１１０２−３によっては自撮りであるとして推定されない。したがって、対応する特徴ベクトル１１０８−１は［１，１，０］である。実装のいくつかにおいて、値は１もしくは０であり、当該値は、顔画像が自撮りとして識別されるか、されないか、を示す。実装のいくつかにおいて、技術の１つもしくは複数は自撮り確率を出力する。その値は０と１との間であり、自撮り確率は特徴ベクトル１１０８に用いられる。一般的に、少なくとも１つの技術によって自撮りとして識別された画像だけがさらに処理される。ここで、完璧を期すために、特徴ベクトル１１０８−２、１０８−５、１１０８−６、及び１１０８−７を例示する。これらのベクトルは、全て０である。なぜならば、対応する画像はいずれの技術によっても自撮りとして識別されないからである。

顔画像Ｆ．８は、３つの技術全てによって自撮りとして識別されるため、特徴ベクトル１１０８−８の要素は全て１である。特徴ベクトル１１０８−３及び１１０８−４は顔画像Ｆ．３（３０６−３）及びＦ．４（３０６−４）に対応する。これらの画像は少なくとも１つの技術によって自撮りであると識別されるが、１つもしくは複数の他の技術によっては、自撮りであると識別されない。（図示されない）実装のいくつかにおいて、技術のシンプルな多数決が、自撮り推定を組み合わせるために用いられる。シンプルな多数決によれば、顔画像Ｆ．１、Ｆ．３及びＦ．８は自撮りとして識別されるが、３票の内、１票しか獲得していないため、画像Ｆ．４は自撮りに含められない。

実装のいくつかにおいて、特徴ベクトル１１０８は、トレーニングされた分類手段１１１０（例えば、機械学習モジュール２２４）への入力として用いられる。分類手段は、ユーザのサンプル及び対応する写真を用いて予めトレーニングされている。実装のいくつかにおいて、１００人の人物のサンプルが、分類手段１１１０をトレーニングするために適切である。しかしながら、実装のいくつかにおいて、より多いもしくはより少ないサンプルが用いられる（例えば、５０人の人物もしくは、５００人の人物）。分類手段１１１０は、推定１１１４を求めるために入力ベクトル１１０８の各々を推定する（１１１２）。この例示において、推定１１１４−１，１１１４−３及び１１１４−８は、（画像Ｆ．１，Ｆ．３，及びＦ．８に対応する）自撮りを示し、推定１１１４−４は画像Ｆ．４が自撮りであると考えられないことを示す。実用において、推定１１１４−２，１１１４−５，１１１４−６及び１１１４−７は、入力ベクトルが全て０であるため、求められない。この手法において、複数の技術を組み合わせることによって、写真が自撮りである推定における信頼性が増大する。

図１２は、レイト・フュージョンとして参照されることがある手法における技術の組み合わせを例示する。この例において、技術の各々はユーザの人口統計学特性を推定するために適用される。最後に、一般的に、加重平均を用いて、技術の全ての結果が組み合わされる。この例において、上記された他の技術の各々が適用されるが、実装のいくつかはこれらの技術の全てより少ない技術を用いる。

図４、図５、図６、図７Ａ、図７Ｂ、図８Ａ、図８Ｂに上記したように、自撮り画像を識別するための様々な技術が存在する。自撮り画像のセットが識別されると、画像は、人口統計学特性を推定するために推定されてもよい。この例において、第１の技術は、ユーザが２７歳の男性であると推定し（１２０２−１）、第２の技術はユーザが２５歳の男性であると推定し（１２０２−２）、第３の技術はユーザが２７歳の女性であると推定し（１２０２−３）、第４の技術はユーザが３０歳の男性であると推定し（１２０２−４）、第５の技術はユーザが２８歳の男性であると推定する（１２０２−５）。この例において、これらは自撮り画像の識別に基づく５つの推定技術である。実装のいくつかにおいて、これらの技術（もしくはこれらの技術のサブセット）は、図１１に例示されるように組み合わされてもよい。

自撮りを用いた技術に加えて、実装のいくつかは、自撮り画像を詳細に識別しない１つもしくは複数の技術を含む。例えば、上記図９は、外観コンセプトを用いた技術を例示し、図１０は、顔画像の全てを用いた全体的アプローチを例示する。これらの技術の各々は、ユーザの人口統計学特性１２０２−６及び１２０２−７を推定するために適用され得る。

最後に、最終推定１２０６を生成するために、個別の推定１２０２の結果が組み合わされる（１２０４）。この例において、ユーザは、２７歳の男性であると推定される。この組み合わせは、個別推定の加重平均を用いて実行され得る。推定は、技術の各々の正確さの履歴に基づいて加重され得る。実装のいくつかにおいて、個別推定１２０２は、トレーニングされた分類手段への入力のための特徴ベクトルとして用いられ、分類手段は最終推定を求める。分類手段は、一般的に、サポート・ベクター・マシンもしくはニューラル・ネットワークなどの機械学習手法を用いる。

図１３は、実装のいくつかによるクライアント・デバイス１０２を例示するブロック図である。クライアント・デバイス１０２は、ソーシャル・メディア・サイト１１０にアクセス可能なデスクトップ・コンピュータ、ラップトップ・コンピュータ、モバイル・デバイス、もしくは、任意のほかの計算処理装置であってよい。クライアント・デバイス１００は、一般的に、１つもしくは複数の処理ユニット（ＣＰＵ）１３０２、１つもしくは複数のネットワークもしくは他の通信インターフェイス１３０４、メモリ１３１４、及びこれらの要素を相互に接続する１つもしくは複数の通信バス１３１２を含む。通信バス１３１２は、システム要素間を相互に接続し、システム要素間の通信を制御する（チップセットと呼ばれることがある）回路を含み得る。クライアント・デバイス１０２は、ディスプレイ・デバイス１３０８及び入力デバイス／機構１３１０（例えば、キーボード、マウス、タッチ・スクリーン、物理ボタンなど）を含むユーザ・インターフェイス１３０６を含む。例のいくつかにおいて、クライアント・デバイスは、さらに、写真を取得する画像センサ１３００を含む。

メモリ１３１４は、ＤＲＡＭ、ＳＲＡＭ、ＤＤＲＲＡＭもしくは他のランダム・アクセス・ソリッド・ステート・メモリ・デバイスなどの高速ランダム・アクセス・メモリを含む。メモリ１３１４は、１つもしくは複数の磁気ディスク・ストレージ・デバイス、光ディスク・ストレージ・デバイス、フラッシュ・メモリ・デバイスもしくは他の不揮発性ソリッド・ステート・ストレージ・デバイスなどの不揮発性メモリを含んでいてもよい。メモリ１３１４は、ＣＰＵ１３０２から離して配置された１つもしくは複数のストレージ・デバイスを含んでいてもよいが、必須ではない。メモリ１３１４もしくは代替的にメモリ１３１４内の不揮発性メモリ・デバイスは、コンピュータ可読ストレージ・メディアを含む。実装のいくつかにおいて、メモリ１３１４は、以下のプログラム、モジュール及びデータ構造もしくは、プログラム、モジュール及びデータ構造のサブセットを記憶する。
●オペレーティング・システム１３１６。
オペレーティング・システム１３１６は、様々な基本システム・サービスを扱うための、及び、ハードウェア依存タスクを実行するためのプロシージャを含む。
●通信モジュール１３１８。
通信モジュール１３１８は、１つもしくは複数の通信インターフェイス１３０４（有線もしくは無線）、及び、インターネット、他のワイド・エリア・ネットワーク、ローカル・エリア・ネットワーク、メトロポリタン・エリア・ネットワークなどの１つもしくは複数の通信ネットワークを介して、他のコンピュータ・システムにクライアント・デバイス１０２を接続するために用いられる。
●ユーザ・インターフェイス・モジュール１３２０。
ユーザ・インターフェイス・モジュール１３２０は、入力デバイス１３１０を介してユーザから命令を受信し、ディスプレイ・デバイス１３０８にユーザ・インターフェイス・オブジェクトを生成する。
●ウェブ・ブラウザ１３２２。
ウェブ・ブラウザ１３２２は、通信ネットワークを介して、リソース、ウェブ・ページ、ウェブ・アプリケーションに、ユーザがアクセスすることを可能にする。いくつかの例において、ユーザ１００は、ブラウザ内で稼働するソーシャル・メディア・ウェブ・アプリケーション１３２４を用いて、ソーシャル・メディア・サイト１１０にアクセスする。
●ソーシャル・メディア・アプリケーション１３２６。
ソーシャル・メディア・アプリケーション１３２６は、ウェブ・ブラウザ１３２２とは別個に稼働する。
●データベース１３２８。
実装のいくつかにおいて、データベースは、クライアント・デバイス１０２の画像センサ１３００によって取得された写真１３３０を保存する。

上記要素の各々は、上記機能を実行するための命令セットに対応し、上記メモリ・デバイスの１つもしくは複数に保存されてもよい。命令セットは、１つもしくは複数のプロセッサ（例えば、ＣＰＵ１３０２）によって実行され得る。上記モジュールもしくはプログラム（即ち、命令セット）は、別個のソフトウェア・プログラム、プロシージャ、もしくはモジュールとして実装される必要はなく、したがって、これらのモジュールの様々なサブセットが組み合わせられてもよいし、もしくは、様々な実装において再構成されてもよい。実装のいくつかにおいて、メモリ１３１４は、モジュールのサブセット及び上記データ構造を保存してもよい。さらに、メモリ１３１４は、上記されていない他のモジュール及びデータ構造を保存してもよい。

図１３は、クライアント・デバイス１０２を示すが、図１３は、ここで記述する実装の構造的概要ではなく、クライアント・デバイス１０２に存在する様々な特徴の機能的な記述を意図している。いくつかの例において、分析サーバ１０４に関して上記された機能は、クライアント・デバイス１０２によって実行されてもよいし、もしくは、処理は、クライアント・デバイス１０２と分析サーバ１０４との間で分割されてもよい。

図１４Ａ〜図１４Ｃは、年齢及び性別などのユーザ人口統計学特性を識別する（１４０２）ための処理１４００を例示する。処理は、１つもしくは複数のプロセッサ及び１つもしくは複数のプロセッサによる実行のための１つもしくは複数のプログラムを記憶するメモリを有する分析サーバ１０４などの計算処理デバイスによって実行される（１４０４）。処理１４００は、ユーザ１００によって、ソーシャル・メディア・サイト１１０に投稿された複数の写真３０２を取得する（１４０６）。実装のいくつかにおいて、写真３０２は、２以上のソーシャル・メディア・サイト１１０から取得される。実装のいくつかにおいて、写真３０２の１つもしくは複数は、他のユーザによってソーシャル・メディア・サイトに投稿され、ユーザ１００に対応する写真として「タグ付け」される。いくつかの例において、タグ付け処理は、ユーザ１００に対応する写真の特定の画像を識別する。実装のいくつかにおいて、ユーザ１００のタグ付けされた写真は、ユーザ１００の人口統計学特性を推定する他の手法を提供する。

処理は、図３を用いて上記されたように、取得された写真の顔画像を識別する（１４０８）。次に、図４〜１２に例示された処理を用いて、処理は、顔画像の選択されたサブセットに基づいて、ユーザの１つもしくは複数の人口統計学特性を推定する（１４１０）。実装のいくつかにおいて、人口統計学特性は年齢及び性別を含む（１４１２）。実装のいくつかにおいて、人口統計学特性は人種を含む。

実装のいくつかにおいて、処理は、ソーシャル・メディア・サイト１１０からプロファイル写真４０８を取得する（１４１４）。いくつかの例において、処理は、２以上のソーシャル・メディア・サイト１１０から、ユーザのプロファイル写真４０８を取得する。いくつかの例において、プロファイル写真４０８は、写真３０２が取得されたサイトとは異なるソーシャル・メディア・サイトから取得される。実装のいくつかにおいて、処理は、図４及び図５に例示されるように、顔画像をクラスタにグループ化するクラスタリング・アルゴリズムを適用する（１４１６）。これらの実装のいくつかにおいて、プロファイル写真４０８は、図５に例示されるように、クラスタリング・シードとして用いられる（１４１８）。

実装のいくつかにおいて、顔画像がクラスタリングされた後、処理は、取得したプロファイル写真４０８と最もマッチするクラスタを選択する（１４２０）。これは、図４のステップ４０６に例示されている。実装のいくつかにおいて、クラスタは、クラスタ純度が最高である（例えば、クラスタの画像が全て相互に「近い」）ことに基づいて選択される（１４２２）。クラスタ純度の使用は、図７Ａ及び図７Ｂを用いて上記された。実装のいくつかにおいて、選択されたクラスタは、ユーザの人口統計学特性を推定する顔画像のサブセットとして用いられる（１４２４）。実装のいくつかにおいて、プロファイル写真４０８がクラスタリング・シードとして用いられると、プロファイル画像を含むクラスタがユーザの人口統計学特性を決定する画像のサブセットとして用いられる（１４２６）。

実装のいくつかにおいて、人口統計学特性を推定するために用いられる顔画像のサブセットは、取得されたプロファイル写真４０８との類似度が予め定められた閾値よりも大きい画像セットである。これは、図６を用いて上記されている。実装のいくつかにおいて、類似度は、空間ピラミッド・マッチングを用いて測定される（１４３０）。

実装のいくつかにおいて、顔画像のサブセットは、１つもしくは複数の自撮り特徴を有する取得された写真の画像の存在に基づいて選択される（１４３２）。これは、自撮り特徴の２つの例を提供する図８Ａ及び図８Ｂを用いて上記された。図８Ｂに例示されたように、実装のいくつかにおいて、自撮り特徴は、写真の占有領域割合の閾値を越える顔画像を含むことである（１４３４）。図８Ｂに例示するように、自撮りは、一般的に、単一の大きな顔画像８０４を有する。図８Ａに例示するように、実装のいくつかにおいて、自撮り特徴は、写真の周囲に沿って、写真の人物の腕８０２の画像を検出することを含む（１４３６）。

実装のいくつかにおいて、人口統計学特性を推定することは、図９を用いて上記したように、取得した写真の識別されたオブジェクトの画像を用いる（１４３８）。識別されたオブジェクトは人口統計学特性の１つもしくは複数に対してスキューを有する（１４３８）。識別されたオブジェクトに基づいた推定は、複数のオブジェクトが同様のスキューを有すると識別された場合（例えば、男性ユーザと関連する可能性がより高い複数のオブジェクト）、より大きい信頼性を有する。識別されたオブジェクトは取得された写真の何れかに現れてもよく、同一の写真に現れる必要はない。実装のいくつかにおいて、識別されたオブジェクトの画像は、自撮りとして識別された写真に現れる（１４４０）。

実装のいくつかは、図１０に例示された他の技術を用いる。この技術によれば、処理１４００は、識別された顔画像の複数（実質的な数）についての人口統計学特性を決定する（１４４２）。図１０を用いて上記したように、実質的な数は、画像の全て、割合の閾値よりも多い（例えば、２５％より多い、もしくは、５０％より多い）数、もしくは、統計的に大きい数（例えば、９０％の信頼度もしくは９５％の信頼度であると推定されるために十分な数）であってよい。決定された人口統計学特性に基づいて、処理１４００は、決定された人口統計学特性の分布１００８を構築する（１４４４）。図１０に例示される分布１００８は、特定の年齢幅と共に、年齢及び性別を用いる。しかしながら、分布は、他のもしくは異なる特性を用いてもよいし、年齢を異なる範囲に分割してもよい。図１０の下部に例示されるように、実装のいくつかは、ユーザのソーシャル・メディア写真及びユーザの人口統計学データの人口統計学特性の履歴データに関してトレーニングされた分類手段への特徴入力として分布を用いる（１４４６）。

図１１及び図１２に例示されるように、ユーザの人口統計学特性を決定するために様々な開示の技術を組み合わせてもよい。実装のいくつかにおいて、処理１４００は、顔画像に対してＮ個の別個の推定手法を適用する（１４４８）。手法の各々は、ユーザの画像であると推定される顔画像のセットの各々を識別する（１４４８）。Ｎは２以上の整数である。実装のいくつかにおいて、処理は、顔画像の候補セットを形成するために、顔画像の識別されたセットの各々を組み合わせる（１４５０）。

候補セットの顔画像の各々について（１４５２）、実装のいくつかは、Ｎ次元特徴ベクトルを各々形成する（１４５４）。特徴ベクトルの各々の次元の各々は、推定手法の１つに固有に対応し（１４５４）、特徴ベクトルの各々の値は、どの推定手法が顔画像の各々をユーザの画像であると推定したかを示す（１４５４）。処理１４００は、顔画像の各々がユーザの画像であるか否かを推定するためにトレーニングされた分類手段への入力として特徴ベクトルの各々を用いる（１４５６）。これは、図１１に上記される。顔画像の選択されたサブセットは、トレーニングされた分類手段によってユーザの画像であると決定された顔画像を含む（１４５８）。

実装のいくつかにおいて、複数の推定手法が顔画像に適用される（１４６０）。手法の各々は、ユーザの画像であると推定された顔画像のセット各々を識別する（１４６０）。顔画像の識別されたセットは、顔画像の候補セットを形成するために組み合わされる（１４６２）。処理は、次に、推定手法によって提供されたスコアの加重平均を用いて候補セットの顔画像の各々にスコアを付ける（１４６４）。これは図１２を用いて上記されている。顔画像の選択されたサブセットは、予め定められた閾値を越える加重平均スコアを有する顔画像を含む（１４６６）。

説明のために、上記は特定の実装を参照して記述された。しかしながら、上記は、網羅的であること、もしくは、開示の詳細な形態に本発明を限定することを意図していない。多くの変形が上記教示の観点から可能である。例えば、上記様々な技術は、様々な手法で組み合わせ得る。これにより、推定のより高い正確性もしくは推定のより高い信頼性をもたらされる。本発明の原理及びその実用的な適用を最も適切に説明するために、実装が選択され、記述された。これにより、本発明及び様々な変更を含む様々な実装を考えられる特定の利用に適するように、もっとも適切に利用することが可能となる。

１０４分析サーバ
２０２ＣＰＵ
２２２人口統計学推定モジュール
２２６顔抽出モジュール
２３２外観コンセプト認識モジュール
２３４全体推定モジュール
２４０自撮り特徴検出モジュール

Claims

少なくとも１つのプロセッサ、及び、少なくとも１つの前記プロセッサによって実行される少なくとも１つのプログラムを記憶するメモリを含む計算処理デバイスが、
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、
前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記プロファイル写真と前記他のプロファイル写真とに最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ユーザの人口統計学特性を推定する方法。
少なくとも１つのプロセッサ、及び、少なくとも１つの前記プロセッサによって実行される少なくとも１つのプログラムを記憶するメモリを含む計算処理デバイスが、
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトに、前記ユーザのプロファイル写真が登録されていない場合、あるいは前記ユーザのプロファイル写真から顔が検出されない場合、前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記他のプロファイル写真に最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ユーザの人口統計学特性を推定する方法。
前記計算処理デバイスは、顔画像の前記サブセットを選択するために、
前記プロファイル写真をクラスタリング・シードとして用いて、複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
顔画像の選択された前記サブセットは、前記プロファイル写真に対応する前記クラスタの前記顔画像を含む、
請求項１又は請求項２に記載の方法。
前記計算処理デバイスは、顔画像の前記サブセットを選択するために、
取得した前記プロファイル写真に対する類似度が予め定められた類似度の閾値より大きい前記顔画像のサブセットを選択する、
請求項１又は請求項２に記載の方法。
前記類似度は、空間ピラミッド・マッチングを用いて求められる、請求項４に記載の方法。
前記計算処理デバイスは、顔画像の前記サブセットを選択するために、
最高クラスタ純度を有する複数の前記クラスタからクラスタを選択し、
顔画像の選択された前記サブセットは、選択された前記クラスタの前記顔画像を含む、
請求項１又は請求項２に記載の方法。
前記計算処理デバイスは、顔画像の前記サブセットを選択するために、
少なくとも１つの自撮り特徴を有する取得した前記写真内の顔画像の存在に基づいて、前記顔画像の少なくとも１つを選択する、
請求項１又は請求項２に記載の方法。
写真の前記自撮り特徴は、前記写真の占有領域割合閾値を越える顔画像を有することを含む、
請求項７に記載の方法。
写真の前記自撮り特徴は、前記写真の周囲に沿った前記写真の内の人物の腕の画像を検出することを含む、
請求項７又は請求項８に記載の方法。
前記ユーザの少なくとも１つの人口統計学特性を推定することは、
さらに、取得した前記写真の内の識別されたオブジェクトの画像に基づき、
識別された前記オブジェクトは、少なくとも１つの人口統計学特性に対するスキューを有する、
請求項１〜９の何れか１項に記載の方法。
識別されたオブジェクトの前記画像は、自撮りとして識別された写真に現れる、請求項１０に記載の方法。
前記少なくとも１つの人口統計学特性を推定することは、
識別された前記顔画像の数について人口統計学特性を決定し、
決定された前記人口統計学特性の分布を計算し、
ユーザのソーシャル・メディア写真の人口統計学特性の履歴データ及びユーザの人口統計学データに関してトレーニングされた分類手段への特徴入力として前記分布を用いる、
請求項１〜１１の何れか１項の方法。
前記ユーザの少なくとも１つの人口統計学特性を推定することは、
前記顔画像にＮ個の別個の推定手法を適用し、前記推定手法の各々は前記ユーザの画像であると推定された顔画像のセットの各々を識別し、Ｎは２以上の整数であり、
顔画像の候補セットを形成するために識別された前記顔画像のセットの各々を組み合わせ、
前記候補セットの内の顔画像の各々について、
Ｎ次元特徴ベクトルを形成し、特徴ベクトルの各々の次元の各々は前記推定手法の１つに固有に対応し、特徴ベクトルの各々の値は、前記ユーザの画像であると顔画像の各々をどの推定手法が推定したかを示し、
顔画像の各々が前記ユーザの画像であるか否か推定するためにトレーニングされた分類手段への入力として特徴ベクトルの各々を用い、
前記顔画像の選択されたサブセットは、前記ユーザの画像であるとトレーニングされた前記分類手段によって決定された顔画像を含む、
請求項１〜１１の何れか１項に記載の方法。
前記ユーザの少なくとも１つの人口統計学特性を推定することは、
前記顔画像に複数の推定手法を適用し、前記推定手法の各々は前記ユーザの画像であると推定された顔画像のセットの各々を識別し、
顔画像の候補セットを形成するために顔画像の識別されたセットの各々を組み合わせ、
前記推定手法によって提供されたスコアの加重平均を用いて前記候補セットの顔画像の各々にスコアを付け、
前記顔画像の選択されたサブセットは加重平均されたスコアが予め定められた閾値を越える顔画像を含む、
請求項１〜１１の何れか１項に記載の方法。
少なくとも１つの前記人口統計学特性は年齢及び性別を含む、請求項１〜１４の何れか１項に記載の方法。
少なくとも１つの前記人口統計学特性は人種を含む、請求項１〜１４の何れか１項に記載の方法。
前記ソーシャル・メディア・サイトから取得した前記ユーザのプロファイル写真と、前記他のソーシャル・メディアから取得した前記ユーザの他のプロファイル写真とが同一である場合、重複したプロファイル写真を除去することを含む、
請求項２、請求項２に従属する請求項３〜１６の何れか１項に記載の方法。
少なくとも１つのプロセッサと、
メモリと、
前記メモリに記憶された少なくとも１つのプログラムと、
を含み、
少なくとも１つの前記プログラムは、
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、
前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記プロファイル写真と前記他のプロファイル写真とに最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ための命令を含む、
ユーザの人口統計学特性を識別するコンピュータ・システム。
少なくとも１つのプロセッサと、
メモリと、
前記メモリに記憶された少なくとも１つのプログラムと、
を含み、
少なくとも１つの前記プログラムは、
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトに、前記ユーザのプロファイル写真が登録されていない場合、あるいは前記ユーザのプロファイル写真から顔が検出されない場合、前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記他のプロファイル写真に最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ための命令を含む、
ユーザの人口統計学特性を識別するコンピュータ・システム。
前記命令は、
顔画像のサブセットを選択するために、
複数のクラスタに複数の前記顔画像をグループ化するためにクラスタリング・アルゴリズムを適用し、
複数の前記クラスタからクラスタ純度が最高であるクラスタを選択する、
命令をさらに含み、
顔画像の選択された前記サブセットは選択された前記クラスタの前記顔画像を含む、
請求項１８又は請求項１９に記載のコンピュータ・システム。
前記ユーザの少なくとも１つの人口統計学特性を推定する命令は、さらに、
識別された前記顔画像の複数について人口統計学特性を決定し、
決定された前記人口統計学特性の分布を計算し、
ユーザのソーシャル・メディア写真の人口統計学特性の履歴データ及びユーザの人口統計学データについてトレーニングされた分類手段への特徴入力として前記分布を用いる、
命令をさらに含む、
請求項１８又は請求項１９に記載のコンピュータ・システム。
少なくとも１つの前記人口統計学特性は人種を含む、請求項１８〜２１の何れか１項に記載のコンピュータ・システム。
前記ソーシャル・メディア・サイトから取得した前記ユーザのプロファイル写真と、前記他のソーシャル・メディアから取得した前記ユーザの他のプロファイル写真とが同一である場合、重複したプロファイル写真を除去することを含む、
請求項１９、請求項１９に従属する請求項２０〜請求項２２の何れか１項に記載のコンピュータ・システム。
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトから前記ユーザのプロファイル写真を取得し、
前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記プロファイル写真と前記他のプロファイル写真とに最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ユーザの人口統計学特性を推定する処理をコンピュータに実行させるためのプログラム。
ユーザによってソーシャル・メディア・サイトに投稿される複数の写真を取得し、
取得した前記写真から複数の顔画像を識別し、
前記ソーシャル・メディア・サイトに、前記ユーザのプロファイル写真が登録されていない場合、あるいは前記ユーザのプロファイル写真から顔が検出されない場合、前記ソーシャル・メディア・サイトのプロファイルに、前記ユーザの他のソーシャル・メディアのアカウントが登録されているかを判定し、
前記他のソーシャル・メディアのアカウントが登録されている場合、当該他のソーシャル・メディアから、前記ユーザの他のプロファイル写真を取得し、
複数の前記顔画像を複数のクラスタにグループ化するクラスタリング・アルゴリズムを適用し、
複数の前記クラスタの内の、取得した前記他のプロファイル写真に最もマッチするクラスタを選択し、
選択された前記クラスタに含まれる前記顔画像を含むサブセットに基づいて、前記ユーザの少なくとも１つの人口統計学特性を推定する、
ユーザの人口統計学特性を推定する処理をコンピュータに実行させるためのプログラム。
少なくとも１つの前記人口統計学特性は人種を含む、請求項２４又は請求項２５に記載のプログラム。
前記ソーシャル・メディア・サイトから取得した前記ユーザのプロファイル写真と、前記他のソーシャル・メディアから取得した前記ユーザの他のプロファイル写真とが同一である場合、重複したプロファイル写真を除去することを含む、
請求項２５又は請求項２５に従属するに請求項２６記載のプログラム。