JP6451246B2

JP6451246B2 - 人のソーシャルタイプを決定する方法、システム及びプログラム

Info

Publication number: JP6451246B2
Application number: JP2014233405A
Authority: JP
Inventors: ジョシディラジ; リン　ディー．　ウィルコックス; ディー．ウィルコックスリン; チェンフランシーン
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2014-08-18
Filing date: 2014-11-18
Publication date: 2019-01-16
Anticipated expiration: 2034-11-18
Also published as: JP2016042346A; US10740802B2; US20160048887A1

Description

本発明は、一般にはビジュアルコンテンツの分析のためのシステム、方法及びプログラムであって、より具体的には人に関係するビジュアルコンテンツを用いた人のソーシャルライフの状況について知識を得るものであり、任意には動画広告のようなコンテンツを推薦するために本知識を用いるシステム、方法及びプログラムに関する。

多くの特定の写真や動画中心のソーシャルネットワークが最近登場している（例えば、インスタグラム、スナップチャット、タンブラーやパス）。ツイッターはテキストベースのマイクロブロギングサービスを大規模に始めたが、今では画像や動画のツイートをサポートしている。写真は（１０００語とまではいかないが）実にいくつかの言葉に値し、スマートフォンを用いてより簡単になっている写真のポスティングは時として分類よりも利点がある。人々がソーシャルネットワークを通して共有する写真の顔のタイプに注目することによって、写真の中の人々についてのあることを学ぶことが可能となる。例えば、人の写真が主に子供と、大人と子供の小さいグループだったとしたら、その人達は家族であろう。写真が主に人の大きなグループかほぼ同じ年齢だったとしたら、その人達はグループ活動を楽しむ誰かといった“グループの人”であろう。

米国特許出願公開第２０１１／０１３５１６８号明細書

チェンＹら、「グループ写真からの対の関係の予測と有益なソーシャルサブグラフの発見（Ｄｉｓｃｏｖｅｒｉｎｇｉｎｆｏｒｍａｔｉｖｅｓｏｃｉａｌｓｕｂ−ｇｒａｐｈｓａｎｄｐｒｅｄｉｃｔｉｎｇｐａｉｒｗｉｓｅｒｅｌａｔｉｏｎｓｈｉｐｓｆｒｏｍｇｒｏｕｐｐｈｏｔｏ）」、マルチメディアに関する第２０回国際会議抄録（Ｐｒｏｃｏｆ２０ｔｈＡＣＭＩｎｔＣｏｎｆｏｎＭｕｌｔ）、米国、頁６６９〜６７８シングラパラグ（ＳｉｎｇｌａＰａｒａｇ）、「マルコフ理論を用いたコンシューマ写真コレクションにおけるソーシャルリレーションの発見（Ｄｉｓｃｏｖｅｒｙｏｆｓｏｃｉａｌｒｅｌａｔｉｏｎｓｈｉｐｓｉｎｃｏｎｓｕｍｅｒｐｈｏｔo ｃｏｌｌｅｃｔｉｏｎｓｕｓｉｎｇＭａｒｋｏｖｌｏｇｉｃ）」、コンピュータビジョン及びパターン認識ワークショップ（ＣＶＰＲＷ）‘０８ＩＥＥＥ、米国、２００８年、頁１〜７ゴルベックジェニファー（ＧｏｌｂｅｃｋＪｅｎｎｉｆｅｒ）、「ソーシャルメディアを伴うパーソナリティの予測（Ｐｒｅｄｉｃｔｉｎｇｐｅｒｓｏｎａｌｉｔｙｗｉｔｈｓｏｃｉａｌｍｅｄｉａ）」、コンピューティングシステムにおけるヒューマンファクターに関する拡大抄録（ＥｘｔｅｎｄｅｄＡｂｓｔｒａｃｔｓｏｎＨｕｍａｎＦａｃｔｏｒｓｉｎＣｏｍｐｕｔｉｎｇＳｙｓｔｅｍｓ）ＡＣＭＣＨＩ‘１１、米国、２０１１年、頁２５３〜２６２チェンフィゾン（ＣｈｅｎＨｕｉｚｈｏｎｇ）、ギャラハーアンドリュー（ＧａｌｌａｇｈｅｒＡｎｄｒｅｗ）、ジロバーンド（ＧｉｒｏｄＢｅｒｎｄ）、「名前には何が：顔の属性としてのファーストネーム（ｗｈａｔ‘ｓｉｎａＮａｍｅ：ＦｉｒｓｔＮａｍｅｓａｓＦａｃｉａｌＡｔｔｒｉｂｕｔｅｓ）」、ＩＥＥＥＣＶＰＲ２０１３年抄録（ＰｒｏｃｏｆＩＥＥＥＣＶＰＲ２０１３）、米国

しかしながら、関係するユーザのソーシャルライフを特徴づけるための、オンラインのソーシャルネットワーキングソースに接続された一般に利用可能なユーザの写真や動画を含むビジュアルコンテンツを活用できる決まったツールは無かった。

本明細書に記載の実施形態の一態様によれば、処理ユニットとメモリを備える計算機システムで実行する方法が提供される。この方法は、人に関係するビジュアルコンテンツアイテムを複数取得し、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知するよう処理ユニットを用い、該検知した人間の顔の年齢及び性別を特定するよう処理ユニットを用い、該検知した顔の数に基づき複数の特徴値を認識するよう処理ユニットを用いる。該複数の特徴値を認識することは、検知された１または複数の人間の顔から特定された年齢と性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの１つに分類し、該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々について特徴値を計算することを含む。該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する。

一つもしくは複数の実施形態において、人のソーシャルタイプは、人に関する追加情報に基づき更に決定され、該追加情報は、人に関係するビジュアルコンテンツアイテム以外のソースから獲得される。

一つもしくは複数の実施形態において、人のソーシャルタイプの決定は、複数の異なるソーシャルタイプのモデルに基づき、機械学習を用いて実行される。

一つもしくは複数の実施形態において、複数の異なるソーシャルタイプは、個人、恋愛関係、家族の一員、または、グループの一員を含む。

一つもしくは複数の実施形態において、更に、決定された人のソーシャルタイプに基づき第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択することを含み、該選択された第二のコンテンツアイテムは最も適切に決定された人のソーシャルタイプである。

本明細書に記載の実施形態の一態様によれば、処理ユニット及びメモリを備える計算機システムで実行する方法が提供される。この方法は、人に関係するビジュアルコンテンツアイテムを複数取得し、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知するよう処理ユニットを用い、該検知した人間の顔の年齢及び性別を特定するよう処理ユニットを用い、該検知した顔の数に基づき複数の特徴値を認識するよう処理ユニットを用い、該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する。

一つもしくは複数の実施形態において、複数の特徴値は人の特徴ベクトルから構成され、また該複数の特徴値は人の特徴ベクトル座標である。

一つもしくは複数の実施形態において、複数の特徴値を認識することは、検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する。

一つもしくは複数の実施形態において、複数の人に関係するビジュアルコンテンツアイテムは複数の写真であり、更に複数の写真の内、１または複数の人間の顔を検知していない写真を除外する。

一つもしくは複数の実施形態において、複数の人に関係するビジュアルコンテンツアイテムは複数の動画であり、複数の動画の各々は複数の動画フレームを含み、１または複数の人間の顔は複数の動画フレームの各々から検知される。

一つもしくは複数の実施形態において、第二の複数のコンテンツアイテムは動画広告である。

一つもしくは複数の実施形態において、第二の複数のコンテンツアイテムは動画である。

一つもしくは複数の実施形態において、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択することは、第二の複数のコンテンツアイテムの各々の第二の複数の特徴値を認識し、該認識した第二の複数の特徴値と前記認識した複数の特徴値とを直接比較し、該比較の結果に基づき第二のコンテンツアイテムを選択する。

一つもしくは複数の実施形態において、第二の複数のコンテンツアイテムの各々の第二の複数の特徴値を認識することは、第二の複数のコンテンツアイテムから１または複数の第二の人間の顔を検知し、該検知した人間の顔の年齢及び性別を特定し、該検出した人間の顔の数に基づき第二の複数の特徴値を認識する、ことを含む。

一つもしくは複数の実施形態において、第二の複数の特徴値を認識することは、検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、ことを含む。

本明細書に記載の実施形態の別態様によれば、計算機システムが提供される。このシステムは、（ａ）人に関係するビジュアルコンテンツアイテムを複数取得する手段と、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知する手段と、該検知した人間の顔の年齢及び性別を特定する手段と、該検知した顔の数に基づき複数の特徴値を認識する手段であって、検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類する手段と、該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当てる手段と、検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する手段と、を含む手段と、該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する手段と、を備える。

本明細書に記載の実施形態の別態様によれば、計算機システムが提供される。このシステムは、人に関係するビジュアルコンテンツアイテムを複数取得する手段と、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知する手段と、該検知した人間の顔の年齢及び性別を特定する手段と、該検知した顔の数に基づき複数の特徴値を認識する手段と、該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する手段と、を備える。

本明細書に記載の実施形態の別の態様によれば、コンピュータにより実行されるプログラムが提供される。このプログラムは、コンピュータに、人に関係するビジュアルコンテンツアイテムを複数取得し、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、該検知した人間の顔の年齢及び性別を特定し、該検知した顔の数に基づき複数の特徴値を認識する、ことを実行させる。該複数の特徴値を認識することは、検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算することを含む。また、このプログラムは、コンピュータに、該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する、ことを実行させる。

本明細書に記載の実施形態の別の態様によれば、コンピュータにより実行されるプログラムが提供される。このプログラムは、コンピュータに、人に関係するビジュアルコンテンツアイテムを複数取得し、該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、該検知した人間の顔の年齢と性別を特定し、該検知した顔の数に基づき複数の特徴値を認識し、該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する、ことを実行させる。

人に関係するビジュアルコンテンツを用いた人のソーシャルライフの状況についての知識を得ることができる。

本明細書に記載の様々な実施例によるコンテンツのマッチングフレームワークについての一般的な全体例を示す。本明細書に記載の様々な実施例に関連して用いられる年齢・性別のカテゴリーを示す。本明細書に記載の様々な実施例に関連して用いられる年齢・性別のカテゴリーを示す。ユーザのビジュアルコンテンツアイテム（写真）と対応した特徴ベクトルをカテゴライズする４つの代表的なバケット例を示す。人に関係するビジュアルコンテンツを用いた人のソーシャルライフの状況についての知識を得るものであって、動画広告のようなコンテンツを推薦するためにその知識を用いる方法の実施例の代表的な操作順序を示す。人に関係するビジュアルコンテンツを用いた人のソーシャルライフの状況についての知識を得るものであって、動画広告のようなコンテンツを推薦するためにその知識を用いるコンピュータシステムの実施例を示す。

本発明に関するさらなる態様は、以下の記載で部分的に説明され、また記載から部分的に明白であり、発明の実施により習得することができる。本発明の態様は、以下の詳細な記載及び特許請求の範囲において特に指摘されたる要素、及び種々の要素と態様との組み合わせによって実施及び達成することができる。

上述また以下の記載は単なる例示や説明であり、特許請求の範囲に記載の発明もしくはその適用をいかなる形であれ制限することを意図したものではないことを理解されたい。

本明細書に組み込まれ本明細書の一部をなす添付図面は、本発明の実施形態を例示し、説明と相俟って本発明技術の原理の説明及び例示に供する。

以下の詳細な記述において、添付の図面を参照する。添付の図面において、同様の機能を有する構成要素は同様の参照符号を付されている。添付の図面は例示のためのものであり、限定を意図するものではない。特定の実施例及び実装は本発明の原理と矛盾しない。これらの実装は当業者が実施できる程度に十分詳細に記述される。その他の実装が使用されてもよく、様々な構成要素の構造の変更及び／もしくは置き換えが本発明の範囲及び思想から逸脱することなく可能であることは理解されるだろう。したがって、以下の詳細な記述は、限定的に解釈されるべきではない。さらに、記述される本発明の異なる実施例は、汎用計算機上で稼働するソフトウェアの形態によっても、専用ハードウェアの形態によっても、ソフトウェア及びハードウェアの組み合わせによっても、実装可能である。

本明細書に記載の実施例の一態様において、人に関係するビジュアルコンテンツを用いた人のソーシャルライフの状況についての知識を得るものであって、動画広告や音楽、書籍もしくは動画のようなコンテンツを推薦するためにその知識を用いるコンピュータシステムとコンピュータで実現される方法が提供されている。一つもしくは複数の実施例において、本明細書に記載のシステムは、人のソーシャルメディアの写真を用いて年齢・性別、グループの集まりの性質の集合的な統計が計算されるように、また、男性／女性が個人か、（これらに制限されるものではないが、）恋愛関係か、家族の一員かまたグループの一員かどうかの情報が包含されるだろう人のソーシャルな特徴をマップするために機械学習アプローチを用いるよう構成される。

人のソーシャルライフのプロフィール、特に年齢・性別のような標準的なプロフィール情報が結合された４つのソーシャルな特性に関連したもの、を知ることにより、パーソナライズされた広告配信において、たいへん価値を高めることが可能となる。例えば、自動車会社は、同じ車であっても、異なるタイプの人に対して適切な異なる広告を持つかもしれない。山でのレースをするスポーツカーを表す広告は、若い独身男性に対してはベストなターゲットになっているであろうし、同じ車でラクジュアリなホテルへドライブすることを示すものは、女性に向けた良いターゲットであろう。動画広告は、上述のカテゴリ（推薦のため）に直接的にラベルされ、また適切なタグを作るためにビジュアル的に分析される。あるいは、人を伴った動画広告はまた、そこに表される年齢・性別、グループの集まりの性質について、集合的な統計が計算するよう処理される。発明のフレームワークはそういうわけで（人のコレクションと広告における特徴ベクトルの類似性を直接計算することによって）類似の広告を引き出すために用いられる。

図１は、本明細書に記載の様々な実施例によるコンテンツのマッチングフレームワーク１００についての一般的な全体例を示す。図１に示されるように、ユーザのソーシャルメディアの写真１０１のようなビジュアルコンテンツアイテムは、ユーザの特徴ベクトル１０２に用いられる。特徴ベクトル１０２は、例えば当業者により良く知られている機械学習技術を用いて、モデル１０３を生成するために順番に用いられる。類似の処理は、動画広告１０４のような他のコンテンツに関して実行される。特に、各々の動画広告のために特徴ベクトル１０５とモデル１０６もまた生成される。直接比較は、特徴ベクトル１０２と１０５との間で実行されるかもしれず、もしくは追加や代替により、モデル１０３及び１０６がユーザにとって最も適切なコンテンツを決定するためにマッチングされるかもしれない。上述した操作は、次により詳しく示されるだろう。

一つもしくは複数の実施例において、本明細書に記載のシステムは、最初に、他のストレージ場所のマイクロブログ（例えば、ツイッター、インスタグラムやテンセントウェイボー）からの写真１０１のような人のビジュアルコンテンツアイテムを取得し、そこで顔検出を実行する。上述のビジュアルコンテンツアイテムのタイプにも依るが、顔検出は動画ファイルの分離フレームと同様に分離した写真で実行されてもよい。一つもしくは複数の実施例において、顔検出は当業者に良く知られているＯｐｅｎＣＶの顔検出のような既製の顔検出を使って実行される。これは検出された顔の年齢・性別予測へと続く。本発明の実施例では、顔の年齢・性別の予測は、特許文献１及び非特許文献４に示されるアルゴリズムを用いることで実行される。

一つもしくは複数の実施例において、人のソーシャルライフが示されている４つの属性が（人のソーシャルタイプとしてここに言及されたものもまた）用いられる：個人、恋愛関係、家族の一員、グループの一員。加えて、年齢・性別のカテゴリー（例えば、図２Ａ及び図２Ｂに示されるカテゴリー）もまた定義される。写真から検出されたグループの集まりの性質を表すために、顔の数は、シングル（１個の顔）、ペア（２個の顔）、小グループ（３〜６個の顔）、大グループ（７個或いはそれ以上の数の顔）に分類される。

一つもしくは複数の実施例において、すべての人は、図２Ａ及び図２Ｂに示されている複数の年齢・性別のカテゴリーの実施例の一つに分類される。図２Ａに示される最初の例には、３つの年齢のカテゴリー、Ｃ（赤ん坊か子供）、Ａ（若い成人か成人）、Ｓ（高齢者）と６つの年齢・性別カテゴリー、Ｃ１（男の赤ん坊か子供）、Ｃ２（女の赤ん坊か子供）、Ｃ３（男の若い成人か成人）、Ｃ４（女の若い成人か成人）、Ｃ５（男の高齢者）、Ｃ６（女の高齢者）がある。図２Ｂに示される二番目の例にはまた、３つの年齢のカテゴリー、Ｃ（赤ん坊か子供）、Ａ（若い成人か成人）、Ｓ（高齢者）と、またそれだけではなく、４つの年齢・性別カテゴリー、Ｃ１（男もしくは女の赤ん坊か子供）、Ｃ２（男の若い成人か成人）、Ｃ３（女の若い成人か成人）、Ｃ４（男もしくは女の高齢者）がある。本明細書に記載の発明のコンセプトは上述で列挙した年齢・性別カテゴリーに制限されるものではなく、他の適切な人の分類もまた用いられるかもしれないことも示されるべきであろう。このように、上述のカテゴリーの例は、限定された認識によって解釈されるべきものではない。

一つもしくは複数の実施例において、本明細書に記載のシステムは、次の方法において、男性／女性のソーシャルメディアの写真コレクション１０１を用いることにより人の特徴ベクトル１０２を構築するよう構成される。特に、一つもしくは複数の実施例において、図３に示される通り、システムは検出した顔が写っている写真を４つの異なるバケットの一つに入れる。その４つは（１）１個の顔の写真３０１、（２）２個の顔の写真３０２、（３）小グループ（３〜６個の顔）の写真、（４）大グループ（７個以上の顔）の写真である。本明細書に記載された写真のバケット３０１、３０２、３０３、３０４は一つの例であって、他の適切な写真分類が、本明細書に記載された実施例に関連して用いられることもできる。このように、上述のカテゴリーの例は、限定された認識によって解釈されるべきものではない。

その後、上述のバケット３０１〜３０４の各々のために、システムは年齢・性別、グループの集まりの性質についての集合的な統計を示す特徴ベクトルを計算する。これらの特徴は、人のための集合特徴ベクトル１０２を構築するよう集められることが可能である。本発明の実施例において、１個の顔のバケット３０１の特徴ベクトルは、例えば、図２Ｂに示される４つの年齢・性別カテゴリーＣ１、Ｃ２、Ｃ３、Ｃ４についてのヒストグラム（Ｘ１、Ｘ２、Ｘ３、Ｘ４）であってよい。

当業者により認められている通り、２個の顔のバケットの特徴ベクトルは、２個の顔における年齢・性別の関係を考慮して構成するためより複雑である。上述の顔での４つの年齢・性別カテゴリー（例えば、図２ＢのＣ１、Ｃ２、Ｃ３、Ｃ４）が与えられることで、システムは関係（Ｃ１＾４＋Ｃ２＾４）のような１０グループを構成することができる。図３に（Ｙ１，Ｙ２，…，Ｙ１０）のように示される特徴ベクトルは、したがって、それら１０グループの集合のヒストグラムである。３〜６個の顔のグループであるバケット３０３と７個以上の顔のグループ３０４においては、組み合せ的に、多くのグループの集まりになるだろう。本発明の２つの実施例において、（ｉ）４つの年齢・性別カテゴリーのヒストグラムを考えることができ、したがって４次元の特徴（Ｚ１，Ｚ２，Ｚ３，Ｚ４）及び（Ｗ１，Ｗ２，Ｗ３，Ｗ４）を構成することができ、もしくは（ｉｉ）１０次元の特徴（Ｚ１，Ｚ２，…，Ｚ１０）と（Ｗ１，Ｗ２，…，Ｗ１０）を得るために（写真における）隣接した顔のペア間の集まりを考えることができる。

一つもしくは複数の実施例において、クラシファイアー（分類器）は、次に、定義された特徴を用いて人を記述するベストな特性を予測するために構成される。一の実施例において、人々のソーシャルライフを示す４つの属性（個人、恋愛関係、家族の一員、グループの一員）は、各々の人を分類するために使われる。また、上述されたソーシャルの属性は、一例であり、他の適したソーシャルな人の分類を用いても良い。教師あり学習フレームワークにおいては、サポートベクターマシーン（ＳＶＭ）や決定木（例えば、ＣＡＲＴやｒａｎｄｏｍｆｏｒｅｓｔｓ）のようなクラシファイアー（分類器）は、ユーザコレクション（人手でラベリングされたソーシャルな属性）の学習セットを用いて学習させることができる。

変形例において、システムは、（すべての写真に一つの特徴ベクトルを組み合わせるよりも）各々の写真に同等の重みを与え、別の見本として各々の写真を扱うユーザを特定するよう構成されてもよい。一旦写真中のユーザの顔が認識されると、ユーザのソーシャルな関係は特徴づけられる。一の実施例では、写真中の顔のソーシャルなグラフが計算され、最近傍が特定される。ソーシャルグラフにおける近傍のユーザ間の関係のペアは、写真の特徴ベクトルを生成するために使われる。特徴ベクトルは、１）最近傍のユーザとユーザとの間での年齢の組み合わせのペアの分布（例えば総計）、２）ユーザを含まない年齢の組み合わせのペアの分類、３）写真中の顔の総数（すなわち、例えば{１、２、３、４―６、７＋}のように、量子化された値）により構成される。望ましいコンセプト（上述の４つのソーシャルな属性、もしくは父や母のような追加されたコンセプト）がラベリングされた画像のセットは、クラシファイアーが各々のコンセプトに分類するための学習に用いられる。つまり、顔の関係をベースとした特徴ベクトルが入力として用いられる。新たな画像にラベリングするために、クラシファイアーの各々は画像上で実行される。

一つもしくは複数の実施例において、次の処理ステップは、人の写真コレクションにおいてすべての顔の分類をするよう実行される。その後、クラシファイアーもしくは当業者によく知られているガウシアンミクスチャモデル（ＧＭＭ）が実行され、ユーザと写真コレクションの人々の各々のとの関係は、クラシファイアーやＧＭＭの重みから与えられたラベルのセットに基づいて特徴づけられる。

一つもしくは複数の実施例において、動画広告は、２つの方法により適切なタグが関連付けられる。一の実施例では、広告のクリエーターは年齢・性別、ソーシャルライフの属性を動画広告に手作業でタグ付ける。変形例では、動画広告は対応する適切なタグを自動的に生成するよう分析される。一つもしくは複数の実施例において、システムは、各々の動画広告と関係する、上述で議論された（個人、恋愛関係、家族の一員、グループの一員）４つのソーシャルライフの属性（タイプ）を決定するよう構成される。一の実施例では、これは、動画広告からキーフレームを抽出することにより、またキーフレームを人の写真コレクションとして扱うことにより実行される。上述の分類の生成は、人の写真でなされたように動画広告を分類するために用いられる。そのような分類の結果は、個人、恋愛関係、家族の一員、グループの一員を含むソーシャルライフの属性（タイプ）の一つになるだろう。

一つもしくは複数の実施例において、動画広告のキーフレームは、次の処理により抽出される。最初に、動画広告は、１秒ごとにｎフレーム（ｎは、１、２もしくは他の適切な数）がサブ抽出される。これは、仮に決定された期間の各々の動画セグメントからベストなフレームを抽出することにより実行される。一つもしくは複数の実施例において、ベストなフレームは、不鮮明さが最も小さいフレームとして定義される。しかしながら、ベストなフレームの他の定義が可能であれば、それらは本明細書に記載される実施例に関係して用いられても良い。

次に、顔の検出はそれらの抽出したフレームで実行される。一つもしくは複数の実施例において、人の顔が検出されないフレームは廃棄される。その後フレームは、フレーム間で計算された距離に基づき、凝集型クラスタリングを用いてクラスタリングされ、これらは、フレームあるいはフレームのクラスタを（凝縮のために）結合すべきかの決定に用いられる。一つもしくは複数の実施例において、これまでに述べられたフレーム間距離は、ビジュアル距離の測定に基づき決定される。

最後に、代表するキーフレームは、すべての他のクラスタのフレームと類似するフレームに基づき各々のクラスタの結果から選択されるが、本ケースにおける距離は、各々のキーフレームから検出された人の顔の数と同様にビジュアルの距離に基づく。一つもしくは複数の実施例において、フレーム間のビジュアル距離は、当業者によく知られているスケール普遍特徴変換（ＳＩＦＴ）に基づき計算される。しかしながら、変形例では、同目的で他のフレーム間距離計算技術を用いてもよい。

一つもしくは複数の実施例において、上述のＳＩＦＴの特徴は、最初にすべてのフレームから抽出され、ベクトル量子化のためビジュアルワードのセットを生成するのに用いられる。当業者によって認識されている通り、各々のキーフレームは、それに含まれる（まとまったビジュアルワード）ビジュアル特徴によって定義される。フレーム間の類似は、それらが共有するビジュアル特徴の数として計算される。凝集型クラスタリングの後に、クラスタのための最後のキーフレームは、クラスタのすべてのフレームにおいて人がカウントされるモードを最初に決定することにより、また人のカウントが決定されたモードと等しくないフレームを廃棄することにより選択される。それらの間、最後の代表キーフレームは、クラスタにおいて互いの写真で最もビジュアル的なワードを共有するものとして選択される。

動画広告を選択する方法の他の実施例は、上述の方法で、動画広告からキーフレームを選択する。しかしながら、直接広告を４つのソーシャルライフの属性の一つに分類するために、それら選択されたキーフレームを用いるのではなく、方法は、代わりに、人が共有する写真を用いて直接計算された特徴と、それら選択されたキーフレームの特徴とを直接比較する。ここで、（人のソーシャルメディアの写真から）計算された特徴は、（４つのソーシャルな属性への明確な分類の必要性なしに）顔のコンテンツに関して、人の年齢・性別、グループダイナミクスがマッチする最も適切な動画広告を引き出す検索フレームワークにおいて用いられる。そのようなシナリオにおいては、顔を伴う（上述で説明された）キーフレームのセットは、実用的に、写真コレクションのように扱われ、また上述の（年齢・性別、ソーシャルグループのコンテンツに代表される）特徴は、各々の広告動画のために抽出される。特定の人に対して、上述の方法の実施例は、年齢・性別、グループコンテンツにおいて最も類似する広告を得る。この目的のために、当業者によりよく知られているＫＬダイバージェンスやカイ二乗距離のようなヒストグラム類似尺度が用いられる。

変形例として、ガウシアンミクスチャモデル（ＧＭＭ）は、顔を含む写真に対して顔の関係をベースとした特徴ベクトルの多くのコレクションにわたってはじめに計算され、そしてＧＭＭの重みが使われる。コンセプトラベルのセットに対応するＧＭＭの潜在的な状況及びＧＭＭの重みは、ユーザと関連付く各々のコンセプトがどれくらい強いかにより示される。この情報は、ユーザのソーシャルな嗜好と最も適合する動画広告の選択に用いられる。

図４は、人の関係するビジュアルコンテンツを用いた人のソーシャルライフの状況についての知識を得るものであって、動画広告のようにコンテンツを推薦するためにその知識を使う方法の例における代表的な操作シーケンス４００を示す。操作シーケンス４００は、(ｉ)ユーザの特徴は機械学習アプローチを用いて構成されるモデルによって分類され、（ｉｉ）そのユーザの特徴は動画広告から抽出された特徴と直接比較される、という、アプローチを含む、上述の異なる処理ステップが組み入れられる。

最初に、ステップ４０１では、ソーシャルメディアの写真やユーザの他のビジュアルコンテンツを取得する。異なる実施例においては、ビジュアルコンテンツは、様々なオンラインのソーシャルネットワークのリソースにおけるユーザのページからダウンロードされてもよい。変形例においては、サーチエンジンが、コンテンツの位置を特定し、ダウンロードに用いられてもよい。次に、ステップ４０２では、検知された人の顔における年齢・性別の認識及び顔検知が、取得されたユーザのビジュアルコンテンツを用いて実行される。ステップ４０３では、ユーザの特徴ベクトルは、検知された人の顔が予め定められた数のユーザコレクション（写真バケット）におけるビジュアルコンテンツ（例えば、写真等）のアイテムの数に基づいて構成される。上述の通り、一つの実施例において、シングル（１個の顔）、ペア（２個の顔）、小グループ（３〜６個の顔）、大グループ（７個或いはそれ以上の顔）が、ユーザの特徴ベクトル座標を計算するためにあり得る写真バケットである。

次に、上述の方法で構成されたユーザの特徴ベクトルは、ユーザのソーシャルライフの状況に最も適した動画広告の推薦に用いられる。次のステップ４０８〜４１０は、ステップ４０４〜４０７が上述の直接比較アプローチを実行するのに対して、動画広告の選択のための上述の機械学習アプローチの詳細である。

直接比較アプローチに従うと、ステップ４０４では、年齢・性別の認識及び顔検出が動画広告のセットで実行される。ステップ４０５では、広告の特徴ベクトルは、上述のような予め定められた写真バケットに割り当てられた、検出された人の顔に基づき、各々の動画広告のために構成される。上記のように、一つの実施例において、シングル（１個の顔）、ペア（２個の顔）、小グループ（３〜６個の顔）、大グループ（７個或いはそれ以上の顔）が、広告の特徴ベクトル座標、を計算するためにあり得る写真バケットである。

ステップ４０６では、ユーザの特徴ベクトルは、予め定められた基準を用いて動画広告の特徴ベクトルと直接比較される。様々な比較基準は、上述の特徴ベクトルの比較に用いられてもよい。それゆえ、本明細書に記載のされるコンセプトは、どの特定の特徴ベクトルの比較基準にも限定されるものではない。最後に、ステップ４０７では、システムは、ユーザの特徴ベクトルに最も類似する特徴ベクトルを持つ動画広告を選択するよう構成される。この動画広告の選択はその後、ユーザのソーシャルな嗜好に最も適合するものとして推薦される。

一方で、上述の機械学習アプローチに従うと、ステップ４０８では、異なるソーシャルタイプの人に対する機械学習ベースのモデルが構成され、記憶され、もしくは他で取得される。ステップ４０９では、ステップ４０３で構成されたユーザ特徴ベクトルは、ユーザを分類する学習モデルによって、ソーシャルタイプの一つに分類される。以上により、ユーザのソーシャルタイプの例は、個人か、恋愛関係か、家族の一員か、またグループの一員かを含む。最後に、ステップ４１０では、ユーザの決定されたソーシャルタイプに最も適合する動画広告が推薦される。

上述の発明のコンセプトは動画広告の選択に制限されるものではないことに注意が必要である。本明細書に記載の様々な実施例は、ユーザの決定された特徴ベクトルに基づき、様々なコンテンツの推薦に提供するために用いられてもよい。推薦されたコンテンツの例には、書籍のようなテキスト素材、音楽や動画を含む視聴覚コンテンツを含んでもよい。この場合システムは、上述の機械学習アプローチもしくは上述の特徴ベクトルの直接比較アプローチのどちらを用いてもよい。一つもしくは複数の実施例において、ユーザに関連したビジュアルコンテンツを用いて計算されたユーザの特徴ベクトルに加えて、他のオンラインソースからもしくはソーシャルネットワークから直接得られる、性別、年齢、人種、言語知識、身体障害、移動手段、収入、自宅所有、雇用状況、及び／もしくは所在地、（これらに制限されるものではないが、）を含むユーザの属性に関する情報は、コンテンツ推薦のために追加して用いられてもよい。本明細書に記載される方法は、ユーザが特定のオンライン資源にアクセスして実質上リアルタイムに実行されてもよい（また、広告やその他のコンテンツが推薦のために選択されてもよい）ことにも注意が必要である。

図５は、人に関係するビジュアルコンテンツを用いて人のソーシャルライフの状況についての知識を獲得するものであって、また動画広告のようなコンテンツの推薦にその知識を用いる、計算処理システム５００の実施例を示す。一つもしくは複数の実施例において、計算処理システム５００の全体もしくはその一部は、当業者にはよく知られたデスクトップ型のフォームファクタに基づいて実装されてもよい。変形例において、計算処理システム５００は、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、スマートフォン、その他モバイルコンピューティングデバイスに基づき実行されてもよい。

計算処理システム５００はデータ・バス５０４あるいは計算処理システム５００の様々なハードウェアの間で情報を伝達するためのその他の相互接続機構もしくは通信機構を含むことができる。中央処理ユニット（ＣＰＵあるいは単にプロセッサ）５０１はデータ・バス５０４に接続され、情報を処理し、その他の計算処理タスク及び制御タスクを実行する。計算処理システム５００は、ランダム・アクセス・メモリ（ＲＡＭ）もしくはその他の動的記憶装置などのメモリ５１２を含む。メモリ５１２は、データ・バス５０４に接続され、様々な情報及びプロセッサ５０１によって実行される指示を記憶する。メモリ５１２は、磁気ディスク、光ディスク、半導体フラッシュ・メモリ・デバイス、もしくは、その他の不揮発性記憶デバイスなどの永久記憶装置を含んでいてもよい。

一つもしくは複数の実施例において、プロセッサ５０１によって指示を実行する間、一時的な変数もしくはその他の中間的な情報を記憶するために、メモリ５１２が使用されてもよい。計算処理システム５００は、さらに、リード・オンリー・メモリ（ＲＯＭもしくはＥＰＲＯＭ）５０２もしくはその他の半導体記憶装置を含んでもよいが、含むか否かは任意である。リード・オンリー・メモリ（ＲＯＭもしくはＥＰＲＯＭ）５０２もしくはその他の半導体記憶装置は、データ・バス５０４に接続され、計算処理システム５００の操作に必要なファームウェア、ＢＩＯＳ(basic input-output system)、計算処理システム５００の様々な構成パラメータなどの静的情報及びプロセッサ５０１への指示を記憶する。

一つもしくは複数の実施例において、計算処理システム５００は、ディスプレイ５０９を備えていてもよく、ディスプレイ５０９は、データ・バス５０４に接続され、計算処理システム５００のユーザに様々な情報を表示する。変形例において、ディスプレイ５０９は、（図示しない）グラフィック・コントローラ及び／もしくはグラフィック・プロセッサと関連付けられていてもよい。ディスプレイ５０９は、例えば、当業者にはよく知られているＴＦＴ(thin-film transistor)技術または有機ＬＥＤ(organic light emitting diode)技術を用いたＬＣＤ(liquid crystal display)として実装されていてもよい。異なる実施例において、ディスプレイ５０９は、計算処理システム５００のその他の構成要素と同じ一般的な筐体に含まれていてもよい。変形例において、ディスプレイ５０９はそのような筐体の外側に配置されていてもよい。

一つもしくは複数の実施例において、計算処理システム５００は、データ・バス５０４に接続されている音声再生装置５２５をさらに備えてもよく、当業者にはよく知られているＭＰＥＧ−４ファイルのような様々な動画ファイルの音声トラックもしくはＭＰＥＧ−３ファイルのような様々な音声ファイルを再生するように構成されてもよい。この場合、計算処理システム５００は、（図示しない）波形または音声プロセッサもしくは同様の装置を備えていてもよい。また、計算処理システム５００は、データ・バス５０４に接続されている音声録音装置５０３をさらに備えてもよい。

一つもしくは複数の実施例において、計算処理システム５００は、コマンドの選択指示をプロセッサ５０１に送り、また、ディスプレイ５０９上のカーソルを制御するために、マウス／ポインティングデバイス５１０のような、もしくは、マウスやトラックボール、タッチパッドもしくは直接情報を通信するカーソルダイレクトキーのような一つもしくは複数の入力デバイスを備えてもよい。この入力デバイス５１０は、典型的には、平面上の位置を特定するために、第１の軸（例えばｘ）及び第２の軸（例えばｙ）という２つの軸における２つの自由度を有してよい。

計算処理システム５００は、さらに様々な対象の動画や写真を取得するために、キーボード５０６と共にカメラ５１１を備えてもよい。キーボード５０６及びカメラ５１１は、プロセッサ５０１へのユーザコマンド、及び写真や動画（これらに限定されないが、）を含む情報を通信するためにデータ・バス５０４に接続されていてもよい。

一つもしくは複数の実施例において、計算処理システム５００は、データ・バス５０４に接続されているネットワーク・インターフェイス５０５などの通信インターフェイスをさらに備えていてもよい。ネットワーク・インターフェイス５０５は、ＷｉＦｉアダプタ５０７、ＧＳＭ（登録商標）／ＣＤＭＡ（携帯電話ネットワーク）アダプタ５０８、及び／もしくはローカルエリアネットワーク（LAN）アダプタ５２６の少なくとも一つを用いて、計算処理システム５００とインターネット５２４との間での通信を確立することができる。計算処理システム５００とインターネット５２４との間で、双方向データ通信を提供してもよい。ＷｉＦｉアダプタ５０７は、当業者にはよく知られている８０２．１１ａ、８０２．１１ｂ、８０２．１１ｇ及び／もしくは８０２．１１ｎ、Ｂｌｕｅｔｏｏｔｈ（登録商標）プロトコルに従って動作することができる。計算処理システム５００のローカルエリアネットワークアダプタ５２６は、統合デジタルサービス網（ISDN）カードあるいはモデムであってよく、これにより、インターネットサービスプロバイダのハードウェア（不図示）を用いてインターネット５２４に接続する、電話回線とのデータ通信を確立する。他の例として、ローカルエリアネットワークアダプタ５２６は、ローカルエリアネットワークのインターフェイス／カード（LAN NIC）であってよく、これにより、インターネット５２４と互換性を有する通信を提供してよい。ある実施例において、ＷｉＦｉアダプタ５０７、ＧＳＭ（登録商標）／ＣＤＭＡ（携帯電話ネットワーク）アダプタ５０８、及び、ローカルエリアネットワーク（LAN）アダプタ５２６は、様々なタイプのデジタルデータストリームを伝送するための電子的もしくは電磁的な信号を送受信する。

一つもしくは複数の実施例において、一般的に、インターネット５２４は、一つもしくは複数のサブ−ネットワークを介して、その他のネットワーク資源へのデータ通信を提供する。したがって、計算処理システム５００は、遠隔メディア・サーバ、ウェブ・サーバ、その他のコンテンツ・サービス、その他のネットワーク・データ・ストレージ資源などの、インターネット５２４のいずれかの位置に置かれている様々なネットワーク資源にアクセスすることができる。一つもしくは複数の実施例において、計算処理システム５００はメッセージ、メディア、及び、アプリケーション・プログラム・コードを含むその他のデータを、ネットワーク・インターフェイス５０５によって、インターネット５２４を含む様々なネットワークを介して、送受信する。例示的なインターネットにおいて、計算処理システム５００がネットワーク・クライアントとして動作する場合、計算処理システム５００上で稼働しているアプリケーション・プログラムのコードもしくはデータを計算処理システム５００は要求することができる。同様に、計算処理システム５００は、その他のネットワーク資源へ様々なデータもしくは計算処理コードを送信することができる。

一つもしくは複数の実施例において、ここで記述される機能は、メモリ５１２に含まれる一つもしくは複数の指示の一つもしくは複数のシーケンスを実行するプロセッサ５０１に応じて、計算処理システム５００によって実装される。指示は、他のコンピュータ読取可能媒体からメモリ５１２に読み込まれてもよい。メモリ５１２に含まれている指示のシーケンスを実行することによって、ここで記述されている様々な処理のステップがプロセッサ５０１によって実行される。変形例において、本発明の実施例を実装するために、ソフトウェアの指示に代えて、もしくは、ソフトウェアの指示と組み合わせて、ハードウェアによって実現されている回路が使用されてもよい。すなわち、本発明の実施例は、ハードウェア回路及びソフトウェアの任意の特定の組み合わせに限定されるものではない。

ここで使用される用語「コンピュータ読取可能媒体」は、プロセッサ５０１へ実行するための指示を提供する際に関与する任意の媒体であってよい。コンピュータ読取可能媒体は、機械読取可能媒体の単なる一例であり、ここで記述される方法及び／もしくは技術の何れかを実装するための指示を搬送することができる。このような媒体は、不揮発性媒体、揮発性媒体などを含むが、これらに限定されない、多くの形態を採ることができる。

非一時コンピュータ読取可能媒体の一般的な形態は、例えば、フロッピー（登録商標）・ディスク、フレキシブル・ディスク、ハード・ディスク、磁気テープ、もしくは、任意のその他の磁気媒体、ＣＤ−ＲＯＭ、任意のその他の光媒体、パンチカード、紙テープ、孔パターンを有する任意のその他の物理的な媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、フラッシュＥＰＲＯＭ、フラッシュ・ドライブ、メモリ・カード、任意のその他のメモリ・チップ、もしくはカートリッジ、もしくは、コンピュータがそこから読み取ることができる任意のその他の媒体を含む。コンピュータ読取可能媒体の様々な形態は、プロセッサ５０１への、一つもしくは複数の実行する指示の一つもしくは複数のシーケンスの搬送に関連してもよい。例えば、指示は、遠隔コンピュータから磁気ディスクにまず搬送されてもよい。代替的に、遠隔コンピュータは、遠隔コンピュータのダイナミック・メモリに指示をロードし、インターネット５２４によって指示を送信してもよい。詳細には、コンピュータの指示は、当業者にはよく知られている様々なネットワーク・データ通信プロトコルを用いて、インターネット５２４を介して、遠隔コンピュータから計算処理システム５００のメモリ５１２へ、ダウンロードされてもよい。

一つもしくは複数の実施例において、計算処理システム５００のメモリ５１２は、以下のソフトウェア・プログラム、アプリケーション、もしくは、モジュールのいずれかを記憶してもよい。
１．オペレーティング・システム（ＯＳ）５１３。オペレーティング・システム（ＯＳ）５１３は、基本システム・サービスを実装し、計算処理システム５００の様々なハードウェア構成要素を管理する携帯型装置用オペレーティング・システムであってもよい。

２．アプリケーション５１４。アプリケーション５１４は、例えば、計算処理システム５００のプロセッサ５０１によって実行される一連のソフトウェアを含んでよく、これによって、計算処理システム５００は、予め定められたある処理、例えば、ユーザインターフェイスをディスプレイ５０９に表示し、カメラ５１１を用いて動画を録画する処理を行ってよい。一つもしくは複数の実施例において、アプリケーション５１４は、ユーザの写真における年齢・性別の認識及び顔検知を実行し、また対応するユーザの特徴ベクトルを構成するユーザ写真処理アプリケーション５１５を含んでもよい。加えて、動画広告処理アプリケーション５１６は、動画広告における年齢・性別認識及び顔検知を実行し、また対応するユーザ特徴ベクトルを構成するために提供されてもよい。直接比較アプリケーション５１７は、動画広告処理アプリケーション５１６によって構成された広告特徴ベクトルを伴うユーザ写真処理アプリケーション５１５により生成されたユーザ特徴ベクトルを比較し、また、ユーザに向けた最適な広告を推薦するために提供されてもよい。一方で、機械学習アプリケーション５１８は、上述の機械学習技術を用いてユーザ写真処理アプリケーション５１５により生成されたユーザ特徴ベクトルに基づき動画広告の推薦を生成するよう提供されてもよい。

３．データストレージ５１９。データストレージ５１９は、例えば、動画広告や他の推薦を目的とするコンテンツを記憶するための動画広告ストレージ５２１、及び、ユーザと関連したビジュアルコンテンツ（例えば、写真や動画）を記憶するためのビジュアルコンテンツストレージ５２０を備えてもよい。

最後に、ここで記述される処理及び技術は特定の装置の何れかに固有に関連するものではなく、適切に組み合わせられた構成要素の何れかによって実装されてもよいことが理解されるべきである。さらに、様々な種類の汎用目的装置が本明細書に記載される技術に従って使用されてもよい。本明細書に記載される方法ステップを実行するために専用装置を構築することは有利であるかもしれない。本発明は、特定の例示に関連して記述されているが、この記述は、限定ではなく、例示を意図している。多くの異なるハードウェア、ソフトウェア及びファームウェアの組み合わせが本発明を実行するために適切であることは、当業者には明らかである。例えば、記述されるソフトウェアは、アセンブラ、Ｃ／Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ−Ｃ、ｐｅｒｌ、ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、現在知られているもしくは今後開発されるプログラミング言語もしくはスクリプト言語の何れかなどの様々なプログラミング言語もしくは記述言語によって実装されてもよい。

さらに、本明細書に記載された詳細及び実行を考慮すれば、本発明のその他の実装が当業者には明らかであろう。記述された実装の様々な態様及び／もしくは構成要素は、音声／映像のコンテンツをユーザがキャプチャーするのを支援し、そして、意図したものと実際のキャプチャーされたコンテンツとの間におそらく生じている不整合をユーザに通知するシステム及び方法を個別に、もしくは、任意に組み合わせて使用することができる。詳細及び例は例示としてのみ考慮されることを意図し、本発明の真の範囲及び思想は特許請求の範囲の記載によって示される。

５００計算処理システム
５０１ＣＰＵ
５０２ＥＰＲＯＭ／ファームウェアストレージ
５０３音声録音装置
５０４データ・バス
５０５ネットワーク・インターフェイス
５０６キーボード
５０７ＷＩＦＩアダプタ
５０８ＧＳＭ（登録商標）／ＣＤＭＡアダプタ
５０９ディスプレイ
５１０マウス／ポインティングデバイス
５１１カメラ
５１２メモリ

Claims

処理ユニットとメモリを備える計算機システムの前記処理ユニットが、
ａ．人に関係するビジュアルコンテンツアイテムを複数取得し、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、
ｃ．該検知した人間の顔の年齢及び性別を特定し、
ｄ．該検知した顔の数に基づき複数の特徴値を認識し、
該複数の特徴値を認識することは、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
ことを含み、
ｅ．該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する、
方法。
前記人のソーシャルタイプは、人に関する追加情報に基づき更に決定され、該追加情報は、人に関係するビジュアルコンテンツアイテム以外のソースから獲得される、請求項１記載の方法。
前記人のソーシャルタイプの決定は、複数の異なるソーシャルタイプのモデルに基づき、機械学習を用いて実行される、請求項１記載の方法。
前記複数の異なるソーシャルタイプは、個人、恋愛関係、家族の一員、または、グループの一員を含む、請求項３記載の方法。
更に、決定された人のソーシャルタイプに基づき第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択することを含み、該選択された第二のコンテンツアイテムは最も適切に決定された人のソーシャルタイプである、請求項１記載の方法。
処理ユニットとメモリを備える計算機システムの前記処理ユニットが、
ａ．人に関係するビジュアルコンテンツアイテムを複数取得し、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、
ｃ．該検知した人間の顔の年齢と性別を特定し、
ｄ．該検知した顔の数に基づき複数の特徴値を認識し、
ｅ．該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する、
方法であって、
前記複数の特徴値を認識することは、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
ことを含む方法。
前記複数の特徴値は人の特徴ベクトルから構成され、また該複数の特徴値は人の特徴ベクトル座標である、請求項１又は６記載の方法。
複数の前記人に関係するビジュアルコンテンツアイテムは複数の写真であり、更に、複数の写真の内、１または複数の人間の顔を検知していない写真を除外する、請求項１又は６記載の方法。
複数の前記人に関係するビジュアルコンテンツアイテムは複数の動画であり、複数の動画の各々は複数の動画フレームを含み、１または複数の人間の顔は複数の動画フレームの各々から検知される、請求項１又は６記載の方法。
前記第二の複数のコンテンツアイテムは動画広告である、請求項５又は６記載の方法。
前記第二の複数のコンテンツアイテムは動画である、請求項５又は６記載の方法。
前記第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択することは、第二の複数のコンテンツアイテムの各々の第二の複数の特徴値を認識し、該認識した第二の複数の特徴値と前記認識した複数の特徴値とを直接比較し、該比較の結果に基づき第二のコンテンツアイテムを選択することを含む、請求項６記載の方法。
前記第二の複数のコンテンツアイテムの各々の第二の複数の特徴値を認識することは、
ｉ）第二の複数のコンテンツアイテムから１または複数の第二の人間の顔を検知し、
ｉｉ）該検知した人間の顔の年齢と性別を特定し、
ｉｉｉ）該検知した人間の顔の数に基づき第二の複数の特徴値を認識する、
ことを含む、
請求項１２記載の方法。
前記第二の複数の特徴値を認識することは、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
ことを含む、
請求項１３記載の方法。
ａ．人に関係するビジュアルコンテンツアイテムを複数取得する手段と、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知する手段と、
ｃ．該検知した人間の顔の年齢及び性別を特定する手段と、
ｄ．該検知した顔の数に基づき複数の特徴値を認識する手段であって、
ｉ）検知された１または複数の人間の顔から特定された年齢と性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類する手段と、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当てる手段と、ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々に特徴値を計算する手段と、
を含む手段と、
ｅ．該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する手段と、
を備えた計算機システム。
ａ．人に関係するビジュアルコンテンツアイテムを複数取得する手段と、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知する手段と、
ｃ．該検知した人間の顔の年齢と性別を特定する手段と、
ｄ．該検知した顔の数に基づき複数の特徴値を認識する手段と、
ｅ．該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する手段と、
を備えた計算機システムであって、
前記複数の特徴値を認識する手段は、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
計算機システム。
ａ．人に関係するビジュアルコンテンツアイテムを複数取得し、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、
ｃ．該検知した人間の顔の年齢及び性別を特定し、
ｄ．該検知した顔の数に基づき複数の特徴値を認識し、
該複数の特徴値を認識することは、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
ことを含み、
ｅ．該特定された複数の特徴値に基づき、人のソーシャルタイプを決定する、
ことをコンピュータに実行させるためのプログラム。
ａ．人に関係するビジュアルコンテンツアイテムを複数取得し、
ｂ．該取得したビジュアルコンテンツアイテムから１または複数の人間の顔を検知し、
ｃ．該検知した人間の顔の年齢及び性別を特定し、
ｄ．該検知した顔の数に基づき複数の特徴値を認識し、
ｅ．該特定された複数の特徴値に基づき、第二の複数のコンテンツアイテムから第二のコンテンツアイテムを選択する、
ことをコンピュータに実行させるためのプログラムであって、
前記複数の特徴値を認識することは、
ｉ）検知された１または複数の人間の顔から特定された年齢及び性別に基づき、検知された１または複数の人間の顔の各々を複数のカテゴリーの一つに分類し、
ｉｉ）該分類された１または複数の人間の顔に基づき、検知された１または複数の人間の顔を伴う複数のビジュアルコンテンツアイテムの各々を複数のバケットの一つに割り当て、
ｉｉｉ）検知された１または複数の人間の顔のカテゴリーに基づき、複数のバケットの各々の特徴値を計算する、
ことを含むプログラム。