JP7111711B2

JP7111711B2 - メディアコンテンツ成果の予測のためのデータ処理方法

Info

Publication number: JP7111711B2
Application number: JP2019529561A
Authority: JP
Inventors: スジルテス，ガボール; オロズコ，ヤビエル; ペトラス，イストバン; スゾルガイ，ダニエル; ウタシ，アコス; コーン，ジェフリー・エフ
Original assignee: リアルアイズ・オーウー
Priority date: 2016-12-02
Filing date: 2017-11-16
Publication date: 2022-08-02
Anticipated expiration: 2037-11-16
Also published as: GB201620476D0; US20200126111A1; EP3549084A1; CN110036402A; US10540678B2; US20180158093A1; KR20190091488A; JP2020501260A

Description

本出願は、コンピュータにより実行される、１人または複数のユーザが消費する１つのメディアコンテンツ用の効果データを予測するための生の入力データのデータ処理方法に関する。詳細には、本発明は、メディアコンテンツ分析技術を使用して処理されて、１つのメディアの消費によって引き起こされる現実世界の結果を予測する、メディアコンテンツをユーザが消費するときの、ユーザの行動状態、肉体的状態および感情状態に関する生データを収集することに関する。

広告は、現実世界の消費者の感情状態に変化を誘発し、この感情状態の変化をセールスリフトなどの成果に移すことを目的とする。例えば、テレビのコマーシャルは、それと関連する製品の売り上げが増加するように見える可能性がある。現実世界の結果は、メディアコンテンツの消費と結合することができる客観的に測定可能な成果でありうる。成果は、予測効果データによって示すことができる。予測効果データは、例えば、予測セールスリフト（例えば、メディアコンテンツ、特定の製品の販売を目的とした広告である場合）、またはソーシャルメディア反応（例えば、バイラルになる可能性）、あるいは賞を獲得する可能性（例えば、広告関連のカンヌライオンズ賞）に関してもよい。例えば、効果データは、１つのメディアコンテンツが消費されたときに集められるユーザの感情の反応の特徴に基づいて予測することができる。米国だけでテレビ広告が年間約８兆８千億円（８００憶ドル）以上使われている。したがって、成果を予測することにより、公表前にメディアコンテンツの効果を評価できることに対する大きな要求がある。

広告の成果の効果を測定する１つの従来の選択肢は、所与のメディアコンテンツを売上実績と関係付けることである。しかし、こうした関連付けは、過去にさかのぼって行われ、消費者／ユーザの感情状態に気が付かないという問題が存在する。

別の従来の選択肢は、自己申告性フィードバックとも呼ばれ、ビデオコマーシャルなど、メディアコンテンツの成果を判定または予測しようとする、能動フィードバックを使用することである。能動ユーザフィードバックでは、ユーザは、メディアコンテンツを消費した後、口頭または書面のフィードバックを提供する。例えば、ユーザは、アンケートを記入してもよく、または、例えば、音声認識ツールを用いて手動または自動化された方法で、分析用に録音可能な口頭のフィードバックを提供してもよい。フィードバックは、メディアコンテンツを消費したときに経験した感情状態を表してもよい。

能動フィードバックが大きいサンプルサイズに対してスケーラブルにするため、そして、このように価値があるようにするため、フィードバックの書式は、例えば、はい、いいえ、の回答に制限された短いものにすることが必要である。これにより、リアルタイム、すなわち、秒毎の経験した感情状態の評価を除く。したがって、従来の能動フィードバック技術を使用して、能動フィードバックを使用する大きいサンプルサイズの典型的な感情状態データを対照することは、不可能である。

また、ユーザからの能動フィードバックは、実際に経験した（受動的）感情状態より、合理化された、意識的な思案プロセス引き出される。ユーザの嗜好は、意識的な認識の外にあり、受動的感情状態に強く影響されることが示されている。したがって、メディアコンテンツの成果は、能動感情状態フィードバックを用いて正確に予測できない。

能動フィードバックは、自己申告を使ってユーザの感情状態を測定する例である。感情状態のデータはまた、例えば、１つのメディアを消費している間の、ユーザの行動または生理学的特徴を表すデータを収集することによるなどの受動的方法で測定することができる。実際には、感情状態の情報を得るために行動データ、生理学的データおよび自己申告性データを含む生データ入力の組み合わせを使用することが望ましい場合がある。上述のソースの内の２つまたは３つの生データの組み合わせは、「誤った」指標を特定するのに有用でありうる。例えば、すべての３つのソースに由来の感情状態のデータが重複するまたは並ぶ場合、取得した信号の信頼性が高まる。信号の不一致は、誤測を示しうる。

生理学的パラメータは、どのような感情状態を経験したかという良い指標でありうる。多くの生理学的パラメータは、意識的に制御不能である、すなわち、消費者は生理学的パラメータに影響を与えない。したがって、生理学的パラメータは、メディアコンテンツを消費するユーザの本当の感情状態を判定するために使用することができ、原則、正確にメディアコンテンツ効果を予測するために使用することができる。測定可能な生理学的パラメータの例として、音声分析、心拍、心拍変動、皮膚電位（覚醒を示すことができる）、呼吸、体温、心電図（ＥＣＧ）信号、および脳波図（ＥＥＧ）信号が挙げられる。

ユーザが上述の種類の生理学的パラメータを記録可能なウェアラブルデバイスまたはポータブルデバイスを所有することは、ますます一般化している。これにより、メディアコンテンツ成果との関連付けを見ることができるように、統計的変動（ノイズ）を取り除くことができうる大きいサンプルサイズに対して、こうした生理学的測定はスケーラブルでありうる可能性を広げる。

ユーザの行動特性は、様々な方法で証明されうる。本明細書における「行動データ」または「行動情報」への参照は、ユーザの反応の目に見える態様を指してもよい。例えば、行動情報は、顔の反応、頭および体のしぐさまたはポーズ、および視線追跡を含んでもよい。

一例では、顔の反応は、経験した感情状態の受動的指標として使用されうる。ウェブカムビデオの取得は、１つのメディアコンテンツをユーザが消費するとき、画像フレームを捕捉することにより顔の反応を監視するため使用されてもよい。したがって、ビデオ画像を処理することにより感情状態をウェブカムを使用して捕捉することができる。

この方法で測定された感情状態の情報は、メディアコンテンツの効果、具体的にはセールスリフトと関連することが示されている。クライアント装置上のウェブカムの急増は、この種のデータの捕捉が大きいサンプルサイズに対してスケーラブルでありうることを意味する。

しかし、従来の受動的技術でさえ、様々な問題に直面する。顔の表情とメディアコンテンツの効果との間の相互関係は、精度が低い。例えば、メディアコンテンツの効果と顔の表情の相互関係は、能動フィードバックより高い可能性があることを示しているが、ソースデータがはっきりとフィルタ処理された場合だけである。コンテンツの効果と顔の表情の相互関係はまた、すべての製品カテゴリに適用可能ではない。これらのウェブカムベースの技術が、顔の表情とメディアコンテンツの効果との間に正の相関関係を証明する一方で、製品の範囲にわたる正確さおよび一貫性は、達成されない。

したがって、当技術分野には、様々な製品カテゴリにわたり消費者の感情状態を評価する不正確と非一貫性の問題ならびに従来の広告成果評価技術で提起される大規模データのスケーリングの困難を解決する必要がある。

本明細書に記載された方法の幅広い態様によれば、コンピュータにより実行される、クライアント装置でユーザが消費することができる１つのメディアコンテンツの効果データを予測する方法が提供される。１つまたは複数の実施形態では、メディアコンテンツを、それぞれが、それぞれのクライアント装置にいる、複数のユーザが消費することができる。例えば、メディアコンテンツは、ライブ映像ストリーム、ビデオコマーシャル、音声コマーシャル、映画の予告編、映画、ウェブ広告、アニメーションゲーム、または画像のうちのいずれでもよい。

本明細書に記載された１つまたは複数の実施形態によれば、その方法は、メディアコンテンツの消費中にメディアコンテンツに対するユーザの反応を示す生の入力データをクライアント装置で収集することを含む。クライアント装置は、ネットワーク上でサーバ装置と通信可能であり、収集した生の入力データの処理は、１つまたは複数の実施形態では、サーバ装置で起こる。生の入力データは、ユーザの行動データ、ユーザの生理学的データまたはメディアコンテンツに関連するメタデータのうちのいずれかを含む。例えば、生の入力データは、クライアント装置で捕捉された画像データまたはオーディオキャプチャ装置で捕捉された音声データを含む。画像データは、複数のユーザの顔の画像を示す画像フレームを含んでもよい。本態様を続けると、その方法は、収集した生の入力データを処理して、時系列の記述子データポイントを抽出し、時系列の感情状態のデータポイントを取得する。例えば、収集した生の入力データを処理するステップは、予測パラメータを判定すること、線形回帰を予測パラメータに加えて、線形回帰出力を出力すること、線形回帰出力を二値化して二値化出力を生成すること、かつロジスティック回帰を二値化出力に加えて、予測効果データを出力することにより実施される。１つまたは複数の実施形態では、各感情状態のデータポイントは、１つまたは複数の記述子データポイントに基づいて決定される。１つまたは複数の実施形態では、各記述子データポイントは、生の入力データから抽出された特徴を示す定量的パラメータを含む。例えば、予測パラメータは、時系列の感情状態のデータポイント中の隣接する感情状態のデータポイント間の定量的パラメータの相対的変化の関数であってもよい。１つまたは複数の実施形態では、各感情状態のデータポイントは、ユーザの感情状態を示す定量的パラメータを含む。例えば、予測パラメータは、時系列の感情状態のデータポイント中の隣接する感情状態のデータポイント間の定量的パラメータの相対的変化の関数であってもよい。１つまたは複数の実施形態では、各記述子データポイントは、顔の特徴の記述子データポイントである。例えば、各顔の特徴の記述子データポイントは、多次元データポイントであってもよく、多次元データポイントの各構成要素は、それぞれの顔の目印を表している。各顔の特徴の記述子データポイントは、複数の顔の目印を示す情報をエンコード可能である。１つまたは複数の実施形態では、各顔の特徴の記述子データポイントは、それぞれのフレームと関連付けられる。

本態様を続けると、その方法は、効果データと時系列の記述子データポイントまたは時系列の感情状態のデータポイントの予測パラメータとの間をマッピングする分類モデルに基づいてメディアコンテンツ用の予測効果データを出力する。予測パラメータは、メディアコンテンツに対するユーザの反応の相対的変化の定量的指標でありうる。１つまたは複数の実施形態では、効果データは、セールスリフトデータである。

１つまたは複数の実施形態では、その方法は追加で、複数のユーザそれぞれに対する時系列の記述子データポイントまたは時系列の感情状態のデータポイントから個々の予測パラメータを決定し、複数のユーザの個々の予測パラメータからグループ予測パラメータを決定し、予測効果データがグループ予測パラメータを使用して取得される。１つまたは複数の実施形態では、収集したデータを処理することは、グループ予測パラメータをグループ予測パラメータと効果データとの間をマッピングする分類モデルに入力することを含む。例えば、予測効果データ出力は、分類モデルの結果出力を使用して生成される。１つまたは複数の実施形態では、その方法はさらに、複数のグループ予測パラメータを取得することを含み、分類モデルが複数のグループ予測パラメータと効果データとの間をマッピングする。

１つまたは複数の実施形態では、方法はさらに、抽出された時系列の記述子データポイント間または時系列の感情状態のデータポイント間の時間差

を計算することを含み、そこでは、

であり、式中、x^j(t)は、ユーザjの抽出された記述子データポイントまたは抽出された感情状態データの時系列の定量的パラメータxである。そして、方法は、時間差を正規化して、平均差＜dx^j＞を時間差

から引くことにより正規化された時間差

を作成する。そこでは、

であり、Tは、時系列の持続期間である。その後、方法は、時系列を所定の持続時間を有する複数のタイムビンに分割し、

にしたがって、正規化された差異の最大値を計算する。式中、表記i∈kは、i番目の値がビンkに含まれることを意味する。そして、方法は、

にしたがって、複数のタイムビンそれぞれの値を加重し、合計する。式中、nはビンの数なので、変数のフレームインデックスまたはセグメントインデックスはもうない。１つまたは複数の実施形態では、方法は、メディアコンテンツの長さによってDx^jを正規化する。次に、方法は、複数のユーザにわたって予測パラメータを示す記述統計を生成する。

ユーザの反応は、ユーザの感情状態であってもよい。言い換えると、効果データは、時系列のデータポイント内のユーザの反応（例えば、感情状態）の変化の段階を反映する、予測パラメータのマッピングによって取得されうることが認められる。したがって、予測パラメータは、以前使用された静的パラメータにまさって効果の予測において大幅な改善を与えうる、ユーザの感情状態に関係する動的情報の特性である。

本発明の実施形態は、例示であり制限するものではない、添付図面を参照しながら、以下で詳細に説明されるが、同様の参照は、同様のまたは対応する部品を指すことを意図する。

本発明の実施形態である方法を実施するためのシステムの概略図である。本発明の実施形態で使用されるデータの種類の間の関係を示す概略データフローチャートである。本発明の実施形態で実施される工程段階を示すフローチャートである。時系列の感情状態の定量的パラメータから取得された、感情状態の定量的パラメータにおける時間差を示すグラフである。一連の所定のタイムビンに対する図４Ａのグラフから取得された最大の正規化された時間差を示すグラフである。複数のユーザの反応から取得された予測パラメータの分布を示すチャートである。複数の異なるメディアに対して集計された予測パラメータの分布を示すチャートである。本発明の実施形態で使用される予測モデルを示す概略流れ図である。

本明細書を通して、用語は明白に述べられた意味のほかに文脈中に連想させるまたは暗示される微妙な意味があってもよい。同様に、本明細書で使用される「一実施形態では」という句は、同じ実施形態を必ずしも指すものではなく、本明細書で使用される「別の実施形態では」という句は、必ずしも異なる実施形態を指すものではない。同様に、本明細書で使用される「１つまたは複数の実施形態では、」という句は、同じ実施形態を必ずしも指すものではなく、本明細書で使用される「少なくとも１つの実施形態では」という句は、必ずしも異なる実施形態を指すものではない。例えば、その意図は、クレームの主題は、すべてまたは一部において例示的な実施形態の組み合わせを含むことである。

最も一般的には、本明細書に開示の方法は、正確で典型的な予測効果データが１つのメディアコンテンツに対するユーザの反応の収集された生データから抽出されることを可能にするデータ分析技術を提案する。

一態様では、本明細書に記載の技術は、収集した生データの動的分析を使用して、静的分析を使用して得られる特徴よりメディアコンテンツ成果に対してより正確にマッピングする特徴またはパラメータを生じる。動的分析では、焦点は、収集したデータから取得されたまたは抽出された１つまたは複数の信号の時間的力学上にある（すなわち、時間による変化）。例えば、生データが加工されて、例えば、１つのメディアコンテンツの消費の持続期間の間、徐々にユーザの感情状態を示す情報を生じてもよい。

以前使用された方法は、こうした動的キューを大部分無視している。これらの以前の方法では、効果予測は、ある商品カテゴリでのみ達成され、かつ平均的コマーシャル（データの半分）が捨てられたときである。

本発明の広い態様によれば、１つまたは複数の実施形態における方法は、１つのメディアコンテンツを消費するユーザの反応に関する入力データを収集すること、収集された入力データを加工して時系列の記述子データポイントを抽出し、時系列の感情状態のデータポイントを取得すること、およびメディアコンテンツに対する効果データの予測を出力することを含む。出力予測は、時系列の記述子データポイントまたは感情状態のデータポイントの効果データと１つまたは複数の予測パラメータとの間の分類モデルマッピングに基づいていてもよい。予測パラメータは、メディアコンテンツに対するユーザの反応の相対的変化の定量的指標である。

実際には、メディアコンテンツは、それぞれがそれぞれのクライアント装置にいる、複数のユーザが消費することができる。１つまたは複数の実施形態では、本明細書に開示される方法は、複数のそれぞれのクライアント装置のそれぞれで、メディアコンテンツに対する複数のユーザの反応を示す生の入力データを収集することを含む。

本明細書に開示される方法は、ネットワーク環境で有効に実施されて、コンピュータリソースの利用効率を上げることができる。例えば、各クライアント装置は、サーバ装置とネットワーク上で通信可能であってもよく、そこでは収集した生の入力データの処理が、ローカルまたはサーバ装置のいずれかで発生してもよい。リモート処理のみに依存する従来の技術は、ユーザが１つのメディアコンテンツを消費する際にリアルタイムのデータ収集を実施するとき、ボトルネックの問題を受ける場合がある。このように、ローカルでの処理は、より効果的な負荷管理を容易にする。ローカルでの処理はまた、プライバシーに対する懸念を扱うのに助けとなる。

クライアント装置は、例えば、各ユーザの家庭など様々な場所に配置されてもよく、または、例えば、ここに開示される方法が、集合検定（ＣＬＴ）環境で使用可能となるように、中心部に存在してもよい。

本明細書に開示されるコンピュータにより実行される方法を使用して、効果データを、幅広い範囲の製品カテゴリのメディアコンテンツおよび幅広い消費者人口に対するメディアコンテンツから正確に安定して抽出することができる。メディアコンテンツをユーザが消費すると、受動的感情状態指標を使用して効果データを正確に確実に予測するので有利である。さらに、効果データは、ユーザに能動（例えば、書面または口頭の）感情状態フィードバックを提供するよう要求せずに抽出される。

各感情状態のデータポイントは、ユーザの感情状態を示す定量的パラメータを含んでもよい。定量的パラメータは、スコアまたはその他の数字で表したパラメータであってもよい。

予測パラメータは、時系列の感情状態のデータポイント中の隣接する感情状態のデータポイント間の定量的パラメータの相対的変化の関数であってもよい。一例では、予測パラメータは、メディアコンテンツの終端と関連する定量的パラメータの値とメディアコンテンツの残りと関連する定量的パラメータの値との間の差異を示してもよい。

ユーザの感情状態は、怒り、嫌悪感、恐れ、幸福感、悲しみ、および驚きから選択された１つ以上の感情状態を含んでもよい。誘発性および／または覚醒など、その他の感情の指標が使用されてもよい。メディアコンテンツが商業広告に関係する場合、嫌悪および驚きを符号化する信号は、セールスリフトに対応する効果データと強い相関関係を示してもよい。

生の入力データは、ユーザの行動データ、ユーザの生理学的データおよびメディアコンテンツに関連するメタデータのうちのいずれかを含んでもよい。複数のユーザから収集された生の入力データは、集計されてもよく、予測パラメータは、集計された生の入力データを表すまたは集計された生の入力データから取得された時系列の記述子データポイントおよび／または時系列の感情状態のデータポイントから生成されてもよい。代替でまたは追加で、個々の予測パラメータは、複数のユーザそれぞれの時系列の記述子データポイントおよび／または時系列の感情状態のデータポイントから決定されてもよい。そして、グループ予測パラメータは、複数のユーザの個々の予測パラメータから決定されてもよく、それにより予測効果データをグループ予測パラメータを使用して取得してもよい。したがって、効果を示す信号は、２つの方法で取得することができる。それは、個々のレベルで（すなわち、各ユーザに対する）取得され、その後、集計されるまたはその他の方法で分析されて（例えば、様々な統計学的手段を用いて）、予測モデルに対する入力を提供することができる、または、複数のユーザからのグループ（すなわち、すでに集計された）データから取得することができる。

複数の予測パラメータを、収集された入力データから取得することができる。同じ所望の出力パラメータと相関関係を示す複数の信号上に予測モデルを作ることにより、出力により高い信頼性を割り当てることができる。さらに、複数の予測パラメータを使用する場合、予測モデルへの入力は、予測が不正確であることを証明する状況に対するいくつかの診断値を持ってもよい。したがって、予測パラメータに伏在する定量的パラメータ時系列信号は、２つの機能、すなわち、効果を予測すること、および１つのメディアコンテンツが期待された通り効果がある、またはそうでないという理由を説明する手助けをすること、という役割を果たしてもよい。例えば、１つまたは複数の１式の予測パラメータの出力が「悪い」が、その他は良い場合、「悪い」出力は調査されて、メディアコンテンツに関するフィードバックを与えることができる。このフィードバックを使用して、リリース前にメディアコンテンツを最適化することができる。

収集したデータを処理して予測効果データを出力することは、予測パラメータを予測パラメータ（例えば、個々の予測パラメータまたはグループ予測パラメータ）と効果データとの間をマッピングする分類モデルに入力すること（例えば、コンピュータベースの予測モデル）を含んでもよい。

予測効果データ出力は、分類モデルからの結果出力を使用して生成されてもよい。
生の入力データは、それぞれのクライアント装置それぞれで捕捉された画像データであってもよい。画像データは、ユーザの顔の画像を示す複数の画像フレームを含んでもよい。さらに、画像データは、ユーザの顔の画像を示す時系列の画像フレームを含んでもよい。

画像フレームが、例えば、ユーザの口、目、まゆなど顔の特徴を描画し、それぞれの顔の特徴が、複数の顔の目印を含む場合、行動データは、各画像フレームに対する顔の目印の位置、形状、向き、濃淡などを示す情報を含んでもよい。

画像データは、それぞれのクライアント装置上で処理されてもよく、または処理のためネットワーク上のサーバ装置に直接流されてもよい。

各記述子データポイントは、行動データ中の選択された複数の顔の目印の位置、形状、向き、濃淡などを示す情報を含む顔の特徴の記述子データポイントであってもよい。

言い換えれば、各顔の特徴の記述子データポイントは、複数の顔の目印を示す情報を符号化可能である。各顔の特徴の記述子データポイントは、例えば、時系列の画像フレームからのそれぞれの画像フレームなどのそれぞれのフレームと関連付けることができる。各顔の特徴の記述子データポイントは、各構成要素が、それぞれの顔の目印を表している多次元データポイントであってもよい。

感情状態のデータポイントは、生データ入力、抽出記述子データまたはその２つの組み合わせから直接取得されうる。例えば、複数の顔の目印が選択されて、ユーザの感情を特徴付けることができる情報を含んでもよい。したがって、各感情状態のデータポイントは、分類子を１つの画像中または一連の画像中の１つまたは複数の顔の特徴の記述子データポイントに加えることにより決定されてもよい。一部の例では、深層学習技術を使用して、生データ入力からの感情状態のデータポイントまたはその他の関連のある定量的パラメータ時系列信号を生じてもよい。こうした深層学習技術は、人に対する要求を無視して、可能な記述子の特徴を選択し、それを感情状態の情報に変形することができる。原則、こうした技術を使用して、予測パラメータを生データ入力から直接生じることもできる。

コンピュータベースの予測モデルは、既知の効果データを有するメディアコンテンツの品目のトレーニングセットを備える機械学習によって訓練されてもよい。例えば、トレーニングセットは、計算された予測パラメータおよび複数のメディアコンテンツのトレーニングの対応する既知の効果値を含むデータであってもよい。

メディアコンテンツは、ユーザのフィードバックに関する情報が望ましい任意の種類のユーザ消費可能コンテンツであってもよい。本発明は、メディアコンテンツが、商業用途である（例えば、ビデオコマーシャルまたは広告）、成果が売上の向上に対して判断されうるなどの場合、特に有用でありうる。しかし、本発明は、例えば、ビデオコマーシャル、音声コマーシャル、アニマティック（例えば、コマーシャルまたはその他のビデオ物語に関する）、映画の予告編、映画、ウェブ広告、アニメーションゲーム画像などのいずれかなど、任意の種類のコンテンツに適用可能である。

効果データは、セールスリフトデータであってもよい。さらに、予測効果データは、所与のメディアコンテンツに対する予測されたセールスリフトであってもよい。

追加でまたは代替で、効果データは、ソーシャルメディア効果であってもよい。例えば、効果データは、フェイスブック、ユーチューブ、ツイッターなど、こうしたソーシャルメディアのプラットホームの好き／共有の数／頻度を含んでもよい。追加でまたは代替で、効果データは、コマーシャルで受賞した賞を含んでもよい。

追加でまたは代替で、任意のユーザに対する信号出力自体を、例えば、所定の種類のメディアを標的にしうるユーザの集団を特定するため、かつ／またはユーザを既存の集団に割り当てるため分類子ツールとして（または、その一部として）使用することができる。

１つまたは複数の実施形態では、頭部ポーズ力学および顔の表情力学は、感情状態および感情状態の変化と結合され、そこでは頭部ポーズ力学および顔の表情力学は組み合わされて、感情状態および感情状態の変化を信頼できる兆候を提供する。

上述に照らすと、本明細書に開示される方法は、予測効果データを所与のメディアコンテンツに対して抽出可能にするため、ユーザのメディアコンテンツの消費の間に収集された生データ上で処理動作を実行する。

以下の例では、生データは、例えば、ユーザ装置上のウェブカムなどの記録装置から取得された画像データであった。以下に説明するように、この生データは、感情状態の情報を取得することができる、顔の画像の形態で行動情報を提供する。しかし、本明細書に開示される実施形態は、この種の生データまたは行動情報に制限されない。むしろ、本発明は、効果データと有用な相関関係を有する信号を生成し分析する新しい技術を提供する。こうした信号は、原則、メディアコンテンツの消費の間のユーザの反応を示す任意の種類の生情報から取得されてもよい。したがって、生の情報は、上で論じた種類の行動情報、生理学的情報または自己申告型方法のうちの任意の１つ以上を提供してもよい。

効果データと関連するまたは正確に効果データにマッピングする１つまたは複数の信号は、以下で論じることと類似の技術を用いてあらかじめ決定されても、抽出されてもよい。代替で、信号は事前に知ることができない。代わりに、それは、深層学習技術を用いて決定されてもよい。

図１は、本発明に使用されうる、行動データを収集し、分析するために好適なシステム１００の概略図である。図１から分かるように、コンピュータにより実行される方法は、単一の装置で実施されなくてもよく、例えば、図示のコンピュータネットワーク１１２（例えば、ＷｉＦｉまたは携帯電話などの有線または無線ネットワーク）を介して、分散型計算機システムを跨いで実施されてもよい。単一のユーザ１０２によって使用中の単一のクライアント装置１０４が単純化のため図１に示される。クライアント装置１０４は、例えば、ＰＣ、タブレットＰＣ、移動電話、またはプロセッサ、メモリを有するその他のコンピューティングデバイスであってもよく、ネットワーク１１２上で通信するよう構成されてもよい。クライアント装置１０４のプロセッサは、プログラムコードとしてメモリに保存された命令を実施できる。ユーザ１０２は、例えば、アドサーバからダウンロードされ、クライアント装置１０４のビデオプレーヤ１０８に表示されるビデオコマーシャルなどの１つのメディアコンテンツ１０９を消費する。メディアコンテンツ１０９は、一連の画像フレームであり、付随する音声再生を含んでもよい。クライアント装置１０４がメディアコンテンツ１０９を再生すると同時に、クライアント装置１０４に動作可能に結合されたウェブカム１０６は、ユーザがメディアコンテンツを消費すると、例えば、ユーザの顔の時系列の画像フレームとして、ユーザの画像データを収集する。１つまたは複数の実施形態では、ウェブカム１０６はクライアント装置に一体化している。実施形態によっては、ウェブカム１０６はスタンドアロン装置である。ウェブカム１０６によって捕捉された複数の生の画像フレームは、行動データ収集アプリ１１０に通されるが、クライアント装置１０４のメモリまたは記憶装置あるいはネットワーク上の他の個所（例えば、クラウド記憶装置、リモート記憶装置）に保存することができる。そして、複数の生の画像は、行動収集アプリ１１０によって処理される。例えば、それらは、以下で論じる前処理工程を受けてもよい。そして、行動データ収集アプリ１１０は、処理された情報１１６をネットワーク１１２上の分析サーバ装置１１４に転送し、そこで予測パラメータを、行動データから抽出し、予測モデルを使用して、予測パラメータからメディアコンテンツに対する予測効果データを取得する。予測パラメータは、顔の表情の変化（すなわち、ほほえみまたはしかめっ面）を示しうる、特定の顔の特徴の記述子データポイントの変化を示す一連のデータポイントから得られた、メディアコンテンツに対するユーザの反応の相対変化の定量的指標であってもよい。予測モデルは、本明細書の他の箇所に開示されるように、例えば、分類モデルであってもよい。分析サーバ１１４は、同様のデータを追加の複数のクライアント装置から受け取ってもよい。

本発明は、生データが処理される場所によって制限されない。例えば、行動データ収集アプリ１１０は、クライアント装置１０４から受け取った生データを分析サーバ１１４に単に転送してもよく、またはそれ自体で予測パラメータを抽出し、それだけをネットワークを越えて送ってもよい。

図２は、どのように情報が処理され、本発明の１つまたは複数の実施形態で変形されるかを示す概略データ流れ図である。プロセスフロー２００は、ユーザｊの生データ入力２０２で始まる。生データは、１つのメディアコンテンツに対するユーザの進行中の反応を示す任意の適切なデータソースであってよい。以下に挙げられる特定の例では、生データ入力は、ユーザのコンピュータ上のウェブカムで収集された画像データである。その他の例では、生データが、ユーザに対して収集された任意の種類の自己申告型、行動データまたは生理学的データであってもよい。例えば、ユーザの音声データは、マイクを使用して記録することができ、生理学的データは、ウェアラブルデバイスまたは適切なセンサ（例えば、筋電図検査センサ、皮膚電位センサ、ＬＵＸ光センサ、心電図センサ）を使用して収集することができる。

生データ入力２０２を使用して、所望の出力と関係付けられる予測パラメータを計算することができる１つまたは複数の時系列信号を生成する。時系列信号は、生データ入力から取得することができるパラメータ（本明細書ではｘと示される）に基づく。生データ入力は、操作され、さらに処理または洗練されて、以下に論じるように時系列信号（複数可）を生成してもよい。しかし、時系列信号が、生データ入力自体の中で直接観察可能なパラメータでありうることも可能である。

図２に示す例では、プロセスフロー２００は、その後、プログラムコードを実施するプロセッサを介して生データ入力２０２から様々な記述子データ２０４を抽出する。特定の例では、生データ入力２０２が顔の画像データを含む場合、抽出された記述データ２０４は、相対位置または顔の特徴または顔もしくは頭の形状（例えば、向き）、あるいはそのそれぞれの部分（例えば、目、鼻、口）を示す情報であってもよい。抽出された記述データ２０４は、それ自体予測パラメータが取得される時系列信号に寄与してもよく、または、抽出されて、感情状態データ２０６を取得することができる感情状態分類子に、入力を与えてもよい。感情状態データ２０６は、抽出された記述データ２０４に基づくユーザの潜在的な感情状態を示す。

このように、生データ入力２０２を使用して、予測パラメータを取得することができる１つのメディアコンテンツに対するユーザの反応の定量的パラメータ２０８を表す１つまたは複数の時系列信号を引き出す。上記に説明したように、定量的パラメータは生の入力データから直接生じてもよく、またはデータ認識もしくはフィルタリング技術を使用して生の入力データから抽出されてもよく、あるいは分類技術を用いて生の入力データから引き出されてもよい。例えば、頭／顔の場所および予想ポーズ（偏揺れ角、傾斜角、および横揺れ角）が決定され、顔の目印（例えば、鼻、目、口）の位置が決定される。場所および予想ポーズは、メディアコンテンツを消費する間、どのようにユーザが見えるかという正確な描写を得るため、これら３つの寸法で測定される。これはまた、ユーザが積極的にメディアコンテンツを消費していない受け取ったデータを処分するよう働く。例えば、ユーザの頭がウェブカムに対して離れる、近づく、左になる、右になる、したがって、メディアコンテンツを見せているディスプレイを見ていないようであることを示す、偏揺れまたは傾斜が所定の角度の閾値（例えば、基準線から３０度超）を過ぎると判定される場合など、定量的パラメータが、ユーザがメディアコンテンツを見ていないと場所および予想ポーズが示すデータをフィルタ処理して取り除くことで引き出されてもよい。同様に、顔の目印の位置は、ユーザがメディアコンテンツを消費していない（例えば、データ認識技術がユーザの目が長い間閉じていることを示す）ことを示すことができる。以下の実施例では、１式の６つの定量的パラメータが、生の顔画像データ入力（３つの頭部ポーズ信号および３つの感情状態信号（ほほえみ、嫌悪、驚き）から取得される。

そして、各定量的パラメータに対応する時系列信号は処理されて、所望の出力との相関関係（例えば、メディアコンテンツに対する効果データ）を示す信号の特性である予測パラメータ２１０を生じる。本発明は、定量的パラメータが、メディアコンテンツとの相互作用の持続期間内のユーザの反応の相対変化の定量的指標である予測パラメータを生じる時系列信号であるという事実を利用する。以下の実施例では、定量的指標は、メディアコンテンツの最後の部分の定量的パラメータの値とメディアコンテンツの残りの値との間の差異を表す。その他の表現が使用されてもよい。

１つまたは複数の予測パラメータ２１０は、所与のユーザに対する各定量的パラメータの時系列２０８から取得されてもよい。各予測パラメータ２１０は、パラメータの関連する相対変化（例えば、記述子データまたは感情状態）を表す単一の値であってもよい。

対応する予測パラメータ２１２は、メディアコンテンツを同時に消費するか否かに関わらず、同じメディアコンテンツを消費する複数の他のユーザに対して取得されてもよい。ユーザグループに対する複数の予測パラメータは、ユーザグループに対する単一の予測パラメータ２１４が取得されうる値の分布を形成してもよい。１つまたは複数の実施形態では、グループまたは「集計」予測パラメータ２１４は、個々の予測パラメータの分布の所定の統計学的性質である。例えば、それは、分布の最大値または最小値であってもよく、あるいは、特定のパーセンタイル値（例えば、７５パーセンタイル）、または標準偏差であってもよい。所定の統計学的性質を予測される所望のパラメータと最も強い相関関係（正または負の）を示すグループ予測パラメータ２１４として選択することが望ましい。

任意の所与のメディアコンテンツに対して、上記のプロセスを繰り返して、それぞれが所与の定量的パラメータ時系列に対応する、複数のグループまたは「集計」予測パラメータ２１６を生じることができる。これらの予測パラメータは、この例では、その出力はメディアコンテンツに対する予測効果データ２２０である、予測モデル２１８に対する入力信号を形成する。どのようにモデリングが行われるかの例を以下に示す。

図３は、本発明の１つまたは複数の実施形態による方法３００のフローチャートである。方法３００は、本明細書に記載のシステムによって実施されてもよい。例えば、システム１００は、プロセッサおよびメモリを有する複数のコンピューティング装置を有し、プロセッサが、メモリ内に保存されたプログラムコードを実装し、こうしたプログラムコードが、方法のステップを実行するようプロセッサに命令する。方法３００は、本明細書のその他の箇所で開示されるように、生の入力データを収集するステップ３０２で始まる。方法３００は、生データ入力からの記述子データポイント（すなわち、時系列の記述子データ）を抽出するステップ３０４に続く。例えば、記述子データポイントは、顔の画像データから抽出することができる。方法３００は、好適な分類子への入力として抽出された記述子データポイントおよび／または生データ入力を使用して、１式の感情状態のデータポイント（すなわち、時系列の感情状態データ）を取得するステップ３０６に続く。分類子は、抽出された記述子データポイントまたは生データ入力を１つまたは複数の感情状態（例えば、ほほえみ、驚き、嫌悪など）にマッピングするよう訓練された機械学習ツールである。例えば、分類子からの出力は、記述子データポイントまたは生データ入力が取得されるユーザが、それぞれの感情の範囲を示している１式の見込みであってもよい。

方法３００を続けると、ステップ３０８では、本明細書の他の箇所で説明するように、時系列データ（記述子データおよび／または感情状態データおよび／または生データでありうる）を使用して、１つまたは複数の予測パラメータを計算する。ステップ３０２から３０８では、同じメディアコンテンツを消費する単一のユーザまたは複数のユーザから収集された生データに取り組んでもよい。ステップ３０８で取得された予測パラメータは、ユーザそれぞれから取得された個々の予測パラメータの分布の１つまたは複数の統計学的性質に対応するグループまたは「集計」パラメータを表してもよい。

方法３００は、予測パラメータを予測モデルに入力することによって始まる予測モデリングを実行するステップ３０９に続く。１つまたは複数の実施形態では、ステップ３０９は様々なサブステップを含んで、予測モデリングを処理する。この実施例では、ステップ３０９の予測モデルは、３つの段階で働く。予測モデリングの第１のステップ３１０では、線形回帰が予測パラメータに適用される。予測モデリングの第２のステップ３１２では、出力を閾値と比較して、それを二値化する。予測モデリングの第３のステップ３１４では、二値化出力がその目標変数が予測効果パラメータである（以下の実施例では、単に２進形で表されている）ロジスティック回帰に入力される。方法３００は、所与の効果記述子に関連付けられる確率であってもよい予測モデリングのステップ３０９からの出力で終わる。上述のデータフローおよび方法のさらなる詳細は、以下の詳細の実施例から明らかになろう。

以下に説明する実施例は、２つの目的を実現する。第１の目的は、速く、経済的な方法で（コンピュータリソースの効率を最大化する点で）セールスリフトデータが入手可能な所与の１組のコマーシャルに対する多くの自発的な行動反応をウェブカム経由で集めることである。第２の目的は、その後、利用できる観察からセールス効果を正確に予測することができる単純でわかりやすいモデルを設計、実施、および確認することである。

実施例の結果は、その後、異なる製品カテゴリにわたって消費者の感情状態の評価の間で精度が低く安定性に欠けるという問題に直面する既知の従来の静的分析技術と比較されて（Ｄ．Ｊ．ＭｃＤｕｆｆ，Ｃｒｏｗｄｓｏｕｒｃｉｎｇａｆｆｅｃｔｉｖｅｒｅｓｐｏｎｓｅｓｆｏｒｐｒｅｄｉｃｔｉｎｇｍｅｄｉａｅｆｆｅｃｔｉｖｅｎｅｓｓ，Ｐｈ．Ｄ．ｔｈｅｓｉｓ，ＭａｓｓａｃｈｕｓｅｔｔｓＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙＣａｍｂｒｉｄｇｅ，ＭＡ，ＵＳＡ（２０１４）；Ｄ．ＭｃＤｕｆｆ，Ｒ．Ｅ．Ｋａｌｉｏｕｂｙ，Ｅ．Ｋｏｄｒａ，Ｌ．Ｌａｒｇｕｉｎｅｔ，Ｄｏｅｍｏｔｉｏｎｓｉｎａｄｖｅｒｔｉｓｉｎｇｄｒｉｖｅｓａｌｅｓ？，ｉｎ：ＰｒｏｃｅｅｄｉｎｇｓｏｆＥＳＯＭＡＲＣｏｎｇｒｅｓｓ，２０１３，以下「ＭｃＤｕｆｆの研究」）、本発明の方法が、市場調査の目的の規模で行動反応を分析するための信頼できる実践的なツールを提供することを証明する。

データ収集
この実施例では、有給参加者の国勢調査ベースのパネル（平均的パネルサイズは２７７被験者）が第三者現場機関により６か国で採用されている。すべての被験者は、市場調査目的で取り組まれることに許可を出しており、特定のパネル（サンプル）が必要なときに使用される人口統計データを提供する。記録に先立ち、各被験者は、顔を記録することおよびさらなる分析にその記録を使用することを許可している。市場調査の分野の標準的倫理基準に従う。参加者の反応は、各家庭のコンピュータおよびウェブカムを経由して遠隔に記録される。この方法でビデオを見るよう要求することは、感情反応を引き出すために良く検証された手順である。自発行動に対する暗黙の証拠は、参加者が、記録されていることをよく忘れて、部屋を離れる、または話をする、食事をするなど、無関係な活動に従事するようになることである。

人口統計の制約に加えて、さらに２つの選択基準がある。技術的要求は、各参加者が、自宅のコンピュータにインターネットアクセスがあり、ウェブカムが取り付けられていることである。関連する要求は、コマーシャルが、広告の製品カテゴリに興味がある参加者にのみ表示されることであり（「カテゴリユーザ」）、こうして広告を関連性のあるものにする。これは、参加者の７６％だけが実際のカテゴリユーザである、ＭｃＤｕｆｆの研究とは対照的である。参加者の総数は、１８，７９３人であるが、以下に説明する品質の理由で、１２，２６２セッションだけが最終的に分析に使用されている。

コマーシャルは、菓子、食品、ペットフード、およびチューインガムという４つの製品カテゴリを表す。それらは、元々２０１３年～２０１５年の間に６つの異なる国で放送されている。コマーシャルの長さは、１０秒～３０秒の間にわたる。

コマーシャルのセールスリフトデータが取得されている。目標スコアは、「セールスリフト」に対する広告キャンペーンの実際の貢献によるものである。各コマーシャルのセールスリフトを測定するため、公表されたおよび制御（非公表）キャンペーングループが特定され、彼らの実際の購買が追跡される。公表グループの比較グループに対する購買傾向の比率は、公表／比較グループのセットにわたり平均化される。セールスリフトのレートは、トレーニング分類子に対し４点の順序尺度で数量化される。

回帰タスクは、２進問題に簡易化される、１および２のレーティングのコマーシャルは、「低」効果クラスに変換される一方で、「高」効果クラスは３および４のレーティングの広告に指定される。しかし、元の順序尺度で符号化された追加の情報は、予測モデルの訓練部分に使用されることに留意されてもよい。

この実施例では、分析は、コマーシャルの３分の１が互いの変形であるという事実により複雑化する。それらの間の差異が長さまたは内容のわずかな編集によるものである場合、２つのコマーシャルは、互いの変形と考えられる。例として、一部のコマーシャルは、同じ筋書きであるが、違うブランドのラベルを表示するまたは異なる言語で製造される。結果以下の段落で、関連する広告が単一のラベルに組み合わされたすべてのコマーシャルおよびケースに対して、別々に報告する。

ここでの実施例の設計は、以下を比較するＭｃＤｕｆｆの研究と同様であるが、（１）２つの追加の国を本実施例に含む、（２）ＭｃＤｕｆｆの研究で使用されたコマーシャルは、２００２年～２０１２年に放送されており、本実施例で使用されたものは、さらに最近放送されている、（３）ＭｃＤｕｆｆの研究のセットは、１６３の固有のコマーシャルを含む。本実施例は、利用可能な１４７のコマーシャルの中からの１１６の固有のものを含む、（４）ＭｃＤｕｆｆの研究のセールスリフトは、３ポイント順序尺度に数値化されているが、本実施例は、４ポイント順序尺度である、という上記の差異を除く。

すべてのコマーシャルを、参加者が自身のコンピュータで見ると同時に、例えば、図１に関連して説明されたことと同様のシステムを使用して、参加者の顔はウェブカムで記録され、サーバに流される。画像解像度は、６４０×４８０である。この「自然のまま」の設定により、画像品質とフレーム速度を犠牲にして研究所で可能になるより、より生態学的に有効な自発行動を確保する。平均フレーム速度は、約１３ｆｐｓである。顔がさえぎられるまたは被験者が話をするまたは食事をするなどの関係のない行動に従事する場合、ビデオは省略される。

被験者は、ランダムな順番で提示された４本までのコマーシャルを見る。セッションの長さは、約１０分である。対照的に、ＭｃＤｕｆｆの研究では、被験者は、ランダムな順番で提示された１０本のコマーシャルを見て、その間に自己申告のレーティングを完了する。セッションの長さは、平均３６分である。本実施例では、より短いフォーマットが選択される。というのは、他の研究では、セッションの長さとデータの品質との間に否定的な関連が見つかっているからである。加えて、長いサンプル（平均２７７人の被験者が、各広告対１００見ている）は、ビデオの品質のインパクトならびに視聴者の反応の可観測性の大きい変動に対抗するために使用される。

以下で論じる保守的な品質のフィルタ処理を適用した後でさえ、本実施例の効果的な平均サンプルサイズは１６４であり、それはＭｃＤｕｆｆの研究に報告されたものより著しく大きい。

データ処理
初段階では、収集した生データを４つの方法で処理する。第１に、広告の持続期間（最大差異を１．５秒に設定）と合わない記録は、処分される。これらは、ウェブカムが、広告が完了した後に起こったユーザの反応を記録した可能性がある記録である。その後のフレームのいずれかの間の遅れが２秒より長い場合の記録も、除外される。これらは、広告を参加者に届ける際に遅れを引き起こすネットワーク接続問題があった可能性がある記録である。第２に、カラーフレームをグレースケールの輝度に変換する。第３に、顔の特徴を抽出して、感情検出のため分類子に入力する。第４に、抽出された顔の特徴ならびに感情アルゴリズムの出力を使用して、予測モデリングに対する時系列信号を形成する。

ノイズを補い同じ広告に対応する時系列の時間的対応付けに役立てるため、当技術分野で既知であるように、すべての観察を平滑化およびリサンプリングするゼロ位相を適用することができてもよい。しかし、これらのステップを、本実施例では実行しない。というのは、所与の時間窓中の分散分布と同時に記述統計の一部は、こうしたステップに非常に影響を受けやすい場合があるからである。

各フレームに対して、頭／顔の場所および予想ポーズ（偏揺れ角、傾斜角、および横揺れ角）が決定され、１式の顔の目印（キーポイントの並び）の正確な位置に既知の技術を使用して位置付けられる。判定された場所および予想ポーズまたは顔の目印が、被験者が現在メディアコンテンツを消費することに従事していないことを示す場合、システムは、これらの画像フレームをフィルタ処理して分析から取り除いてもよい。例えば、システムは、被験者の頭がウェブカムから背けられている、または目が長い間閉じられていると判定して、こうした画像フレームの重要性を下げるまたは完全に無視してもよい。この情報は、上述の記述子データに対応する。

訓練された分類子に対する記述子として目印の局地的形状ならびにその周りのテクスチャパッチを使用して、顔の表情をほほえみ、驚きまたは嫌悪など別々の表情カテゴリに分類する。

最も多い顔の表情は、ほほえみである。ほほえみは、楽しみ、好意的評価、期待、および接近への行動傾向を伝えることができる。自動検出の観点から、ほほえみは、有利な比較的大きい幾何変形および質感変形を伴うことが多い。

実施例のデータセットのほとんどの広告は、面白くまたは楽しくなるように作られているので、ほほえみを識別することから得られる信号は、誘導された感情状態の情報を含むことが期待されている。追加で、驚きおよび嫌悪に関連する信号は、売上予測の課題に対して特に有益である。

本実施例中の処理段階からの出力は、その対応する確率出力と一緒に出力される予測頭部ポーズおよび３つの顔の表情の分類子の（等級ラベルが所与の１式の記述子のために選択される事後確率）多次元の時系列である。

売上予測の課題のための最適な表現を求める際、反応誘発刺激（すなわち、本実施例のメディアコンテンツまたは広告）の展開と関係する時間的変化を表示する特徴を識別することが望ましい。これらの特徴を識別するとき、こうした特徴と関連付けられた生データは、分類モデルに通されて、ユーザのメディアコンテンツの経験の改良された予測を生成することができる。加えて、個々の反応の点の集合を避け、すべての信号に対する共通の手順を提供し、そうして追加のパラメータの最適化の必要を回避することが望ましい。このように、結果としてのモデルは、トレーニングデータセットの特定の特性に対して頑健で影響を受けにくくなる。

共通のアプローチは以下の通りである。
１．頭部ポーズ推定量および顔の表情の分類子から取得された各時系列に対して、所与の記録中のその後のフレームの間の時間差を計算する（トレンド除去）。

式中、x^j(t)は、ユーザjの抽出された記述子データまたは分類された感情状態データの定量的パラメータxの時系列である。したがって、期間

は、被験者（ユーザ）jに対する時間iでの時間差を表す。
２．ステップ１からの時間差を、その時系列に対する平均差を引くことによって正規化する。すなわち、

そこでは、

Tは、時系列の持続期間である。
３．そして、時系列は、所定の持続期間（例えば、４秒）を有する複数のタイムビンに区分される。したがって、タイムビンは、フレームレートまたは全体の記録持続期間に関わらず、各記録に対する時間のセグメントを表す。

４．各ビンに対して、正規化された差異の最大を計算する。

式中、標記i∈kは、i番目の値（フレーム）がビンkに含まれることを意味する。値の実施の数字は、異なるビンの間で変化してもよい。

５．この実施例では、ビンの値は、その後、加重され合計されて、最後の１つまたは２つのセグメント（ビン）と残りの間の差異を説明する１つの数（予測パラメータDx^j）を生じる。

式中nは、ビンの数であり、したがって、変数のフレームまたはセグメントインデックスは、もはやない。

この実施例の加えられた重みベクトルは、単にゼロサムのステップ関数である。すなわち、Σ_kw_k=0
６．異なる持続期間の広告に対する特徴を比較可能にするため、結果としての合計を所与の広告の長さによって正規化する。

７．複数のユーザから取得された１式の予測パラメータの値から、特定の記述統計（例えば、標準変動または７５パーセンタイル）を計算して、続いて、ユーザのグループにわたる予測パラメータを示す「集計」値として使用する。したがって、これらの信号値は、所与の刺激に対するサンプル反応を説明し、時間または被験者の指標に左右されない。

８．任意のセグメント境界によるエイリアシング効果を減らすため、両方向に０．２５秒までビンを移動し、すべての上述のステップを繰り返す。最後に取得されたサンプル信号は、これらの計算の平均である。このステップは、必要ではないが、アプローチをより強固にする。

この手順の追加の最適化（タイムビンの変更、様々な正規化の形態、異なる重み関数の使用などの）は、より良い効果を生じそうであるが、こうした微調整は、全体の強固さおよびアプローチの実効性に対する懸念を増す場合がある。例えば、ビンのサイズは、我々の独占トレーニングデータセットにおける平均フレームレートと持続期間分布と注釈の付いたイベントの開始のばらつきに基づいて定義される。選択パラメータの小さな摂動が相関関係のグレースフルデグラデーションを示す場合、パラメータは、強固であると考えられうる。ＭｃＤｕｆｆの研究は、線形フィットの最大または勾配など、単に集計サンプル反応の簡易統計に依存するが、本実施例は、誘導された感情反応の力学が、集計がより強固で特有になる以前被験者のレベルで分析した原理に作用する。加えて、本実施例は、リモートでの記録の達成が難しい場合が多い、一定のビデオフレームレートを想定しない。

いくつかの候補の特徴から、様々な顔の表情から得られた３つの信号および頭部ポーズから得られた別の３つの信号を、本実施例で使用するために選択する。信号のソース、信号で使用される記述統計および二進数セールスリフトスコアを有するそれらのピアソン相関を表１に示す。

表１表は選択された信号（簡単な簡易統計）、対応するソースおよびセールスリフトスコアを有するピアソン相関を示す。

図４Ａ～図４Ｄは、個々の被験者への観察からサンプル分布（集計パネル反応）および対応する広告に割り当てられた最終信号値への提案された信号生成プロセスの主なステップを示す。図示のステップは、所与の広告への「驚き」信号の分類に関する。

図４Ａは、所与の被験者の驚きの分類子の出力から計算された時間差を示すグラフである。

図４Ｂは、２本の線プロットを示すグラフである。第１の線プロット４０２は、各時間セグメント

に対する正規化された時間差の最大値を示す。第２の線プロット４０４は、各ビンに正または負の重みを割り当てる重み関数w_kを示す。ビンの値の加重合計は、一人の被験者の驚きの反応を特徴付ける。

図４Ｃは、ユーザのサンプルの以前のステップで計算された個々の驚きの反応の分布を示す。図４Ｂの特定の実施例は、点４０６で示される。所与の広告の最後の「驚き」信号では、所与のパネルの被験者中の最大値が選択される（上記表１を参照）。その他の信号では、この分布の異なる特性を最終出力として選択してもよい。

図４Ｄは、広告中の最終出力「驚き」信号に分布を示す。図４Ｃに示す分布を生じた広告の計算された信号は、点４０８で示される。この信号とセールスリフトデータとの間に正の相関が見られるので、この特定の広告は、低効果クラスに属する可能性が高い。

この実施例では、スコアと嫌悪系信号との間に正の相関がある。追加で、すべての頭部ポーズ関連の信号は、セッションの終わり近くで、より頻繁にまたはより大きい頭部ポーズの変化を示す（横揺れ、傾斜および偏揺れの組み合わせは、高い相関を生じないので、横揺れ系の信号だけを使用する）。以前の作業から、視線の方向は、頭部ポーズと強い相関関係があることが分かっているので、大きな頭部ポーズの変化は、刺激内容の継続する影響を反映してもよく、刺激の最後の最後のセグメントには対応していない。というのも、極端な頭部ポーズを採る被験者は、スクリーンの方を見ていないからである。

また、にもかかわらず驚き信号の最後の最後のセグメントだけは、正の重みを割り当てられることがわかっている（すなわち、すべての信号は記録の最後の最後と残りの間の差異を測定する）。「驚き」では、高い相関が正の重みを８秒をカバーする最後の２つのセグメントに割り当てることにより達成されうることがわかっている。この偏差は、驚きの反応は、あまり同期されず（時間的な始まりが分散する）、持続期間も変化しうることを示しうる。

データサイズが小さいので（検査されるコマーシャルの数）、顔の表情と頭部ポーズの両方に関係する信号が売上効果について捕捉的な情報を含むという事実を強調する以外により完全で妥当な結果の解釈をすることは難しいと信じられている。

並べてみると、ＭｃＤｕｆｆの研究の信号は、特定の不連続の表情（まゆを上げるのは驚きと関連付けられることが多い）、不連続の表情（ほほえみ）ならびにすべての不連続の顔の表情の予測強度から得られた「誘発性」に強く関連する顔の動作ユニット起動の混合から抽出される。対照的に、本実施例は、一方は不連続の感情のカテゴリに関連するが（ほほえみ、嫌悪および驚き）、他方は測定が顔の動作ユニットより簡単な頭部ポーズの変化に関連する、２つの信号の種類のより単純な混合を使用する。顔全体の動作ユニットの判定を要求しないこのより単純な混合は、したがって、あまり計算力を必要せずに達成する。

モデリング
サンプルサイズが制限され、潜在的なラベルノイズがあることでモデリングが難しくなり、または使用されたアプローチが高い場合、不可能でさえある。本実施例は、以下の仮定を用いて平均化する単純なアンサンブルモデルを使用する。すなわち、（１）信号を独立したものとして扱い、信号の間の、投票をアンサンブルモデルに要約することができる、単なる（弱い）専門家をトレーニングすることを可能にする、高次相互作用を考慮しない。（２）線形の関係が信号と目標スコアの間に求められ、非直線性が閾値によって誘導される（個々の専門家の出力の二値化）。こうした閾値は、信号のノイズ処理を支持する。本実施例で使用されたモデルのワークフローを図５に示す。

図５では、モデルに対して５つの入力がある。すなわち、上述のように、３つの頭部ポーズ信号（x_p1；x_p2；およびx_p3）および３つの顔の表情に関連する信号（x_s；x_d；およびx_h、それぞれ、驚き、嫌悪、および幸せに関する）である。１つまたは複数の実施形態では、３つの頭部ポーズ信号は、ユーザの頭部の偏揺れ、横揺れ、および傾斜、それぞれに関する。ユーザが現在メディアコンテンツを消費していないことを示す３つの頭部ポーズ信号および３つの顔の表情に関連する信号の一部は、生の入力データをモデルに通す前にフィルタ処理して取り除かれてもよい。例えば、生の入力データが、ユーザの頭部が入力デバイスまたはメディアコンテンツディスプレイに向いていないことを示す場合、測定された時間が、メディアコンテンツの発表が終了したことを示す場合、または生データのその他の望まない態様がある場合、それらは、モデルに通すことを回避でき、したがって、メディアコンテンツを消費する際のユーザの経験についての生成された予測の正確さを向上できる。独立の線形回帰は、元の４つのポイントレーティングを用いてそれぞれ１つの寸法信号に照準される。リグレッサの出力は、最適な閾値をデータから学ぶ閾値を介して二値化される。この二値化のステップは、強い非線形ノイズ処理として働く。次の段階で、閾値は、単に合計され、再度二値化される。モデリングを単純にしておくため、各入力に同じ重みを割り当てるが、さらなる最適化は、信号の特定の重みを生じる。モデルパラメータのすべては、トレーニングセットで学ぶ。ロジスティック回帰入力は、アンサンブルの出力であり、その目的変数は、二値化されたレーティングである。最終ステップは、pで示される調整された見込みに基づく出力を確保する。

したがって、アンサンブルモデルは、標準線形回帰、非線形項（二値化）、合計および最終閾値から成る。受信者動作特性曲線（ＲＯＣＡＵＣ）の計算では、合計の出力が代わりに使用される。処理は、すべての信号で同じで、以下のステップを組み入れる。第１の段階での線形回帰への入力xは、上述の選択された特徴のうちの１つである。目標変数は、上述の通り、元の４ポイントのレーティングである。重みおよびバイアスパラメータw,βは、階段状の方法でトレーニングセットに照準される（同時に２つの段階ですべてのパラメータの同時最適化を提供する代わりに）。次のステップとして、リグレッサの出力yを二値化する。このステップで、閾値αを学ぶことによりノイズ抑圧が可能になる。この段階の後、個々の信号モデリングパスの出力

は、単なる合計および閾値によって組み合わされる。
ＭｃＤｕｆｆの研究では、選択の分類子は、ラジアル基底関数を用いたサポートベクターマシンカーネル（ＲＢＦ－ＳＶＭ）である。照準後、決定境界が、両方のクラスから区別することが最も難しい場合である、「サポートベクタ」により表される。この方法の欠点は、要求されるサンプルのサイズが、表現次第であることである。サンプルのサイズにわたるサポートベクタの高比率は、要求に合わないことを示し、結果のモデルは、見えないデータ上に大きい凡化誤差を持つ。ＭｃＤｕｆｆの研究の前身では、時系列を１０個の部分に区分し、簡易統計（最大、平均、最小）を各セグメントで計算する。そして、結果の高寸法表現をＳＶＭ分類子に入力する。ＭｃＤｕｆｆの研究自体では、分割は、除外され、同じ簡易統計を全体の時系列の顔の表情予測にわたって計算する（ＡＵの存在、所与の不連続の表情の強度など）。結果の表現は、まだ１６の寸法を有する。

結果
検定結果は、まずすべてのコマーシャル、国および製品カテゴリにわたり報告される。そして、結果は、よりきめ細かい比較に対して報告される。これらは、（１）サンプルコマーシャル間の相関のため、いずれのバイアスも取り除くが、減らした数のコマーシャルに影響されうる関連するコマーシャルの単一の変形だけを含み、（２）製品カテゴリと国との間を区別する、モデルである。

そして、現在の結果をＭｃＤｕｆｆの研究の結果と比較する。この比較は、本明細書に開示されてシステムおよび方法による動的特徴が、製品カテゴリにわたって正確さの上昇および安定性の拡大を可能にすることを表す。すべての比較では、受信者動作特性曲線（ＲＯＣＡＵＣ）の下で正確さと面積の両方が報告される。正確さは、すべてのケース別の真の正および真の負の合計である。直感的に訴えるが、分布が不均衡なとき、解釈が難しい。こうした場合、正確さは、分類子とグラウンドトルス度の間の同意の付勢された推定量になる。ＲＯＣＡＵＣは、真陽性と偽陽性との間の継続的な関係を数量化する。

より高いランクを「正のクラス」に割り当てる場合（すなわち、より高いスコアのコマーシャル）、曲線の下の面積は、無作為に選択された正の例が、無作為に選択された負の例よりランクが高くなる確率を与える。定義により、ＲＯＣＡＵＣは、無作為分類子の０．５である。ＲＯＣＡＵＣは、正のケースと負のケースの間の不均衡に影響を受けないが、精密の分類子と記憶の分類子との間の差異を隠しうる。我々のデータでは、クラスの不均衡は、製品カテゴリおよび国にわたって比較すると軽い（５６％）が、カテゴリ間または国間の比較では大きくなることが多い。したがって、正確さは、注意して解釈する必要がある。

訓練されたモデルが確実に過剰適合しないようにするため、そこではケースモデルは、トレーニングデータ中のノイズ要素を表すことおよび新しいデータで予測できなくなることを学び、異なる検証スキームを適用して、訓練されたモデルの凡化能力を評価する。サンプルのサイズが適切である、Ｋ－分割交差検証（Ｋｘ－ＣＶ）が使用され、そこでは、サンプルが、Ｋ分解訓練に反復的に分割され、検定セットおよび最終成果メトリクスは検定セットにわたり平均化される。検査では、Ｋ＝１０分割が使用され、手順がｎ＝１０回繰り返される。繰り返された測定から、確信間隔は９５％の確信で小さいサンプルサイズにより適しているｔ統計量を用いて計算される。結果の解釈に役立てるため、事前のトレーニングデータのクラス確率を備える無作為モデルである基準線が報告される。

広告は、地域および製品カテゴリなどのモデル独立要因に沿ってグループ化できるので、特定の交差検証を、分割がこれらの要因によって定義される場所で行うことができる。これらの検証スキームをリーブワンラベルアウト（ＬｅａｖｅＯｎｅＬａｂｅｌＯｕｔ（ＬＯＬＯ））検証と呼ぶ。これらの実験は、こうした要因内の変動に対するモデル効果の強固さをテストする。

ＭｃＤｕｆｆの研究と比較できるようにするため、検定フォールドが１つだけの標本を含む場合、リーブワンアウト（ＬｅａｖｅＯｎｅＯｕｔ（ＬＯＯ））を、実行する。しかし、一部の指標（具体的には、ＲＯＣＡＵＣ）に対して、ＬＯＯは、サンプルサイズが小さくなるとき、奇妙な反応を示す。

結果はまた、１つの広告の変形だけが選択された場合に対して、報告される。このデータのフィルタ処理は、集合要素における潜在的な曖昧性を低減しうるが、サンプルサイズを低減して、訓練をより難しくする。任意の選択により誘発されるバイアスを回避するため、少なめの交差検証を各グループの広告変形内の広告選択に対して、実行する。報告された指標は、ランダム広告選択にわたる平均である。

すべての標本の検定結果
提案されたモデルは、製品カテゴリまたは国に関係なく、すべてのコマーシャル（Ｎ＝１４７）に関して訓練され、交差検証される。ＲＯＣＡＵＣは、０．７４７で、高信頼性を示すたった±０．０２５の狭い確信間隔である。表２を参照。

表２すべての標本点を使用する交差検証検定（感情および頭部ポーズ信号＋アンサンブルモデル）
効果を、Ａｃｃｕｒａｃｙ関数およびＲＯＣＡＵＣで表す。適切な場合、確信間隔を同様に９５％の確信で報告する。

広告変形に対する強固さ
動的モデルを訓練し、変形（Ｎ＝１１６）を含まずに交差検証したとき、ＲＯＣＡＵＣは、同じままであり、確信間隔は、±０．０２５から±０．０１に減少した。この設定では、各広告グループのいくつかの選択肢の中から１つの変形だけを保持した。無作為選択によるバイアスに対抗するため、無作為広告選択を１０回繰り返し、各無作為選択に対し１０分割ＣＶを実行する。表３を参照。

表３広告の固有の変形の無作為選択を使用する提案されたアプローチの交差検証検定（感情および動的頭部ポーズ信号＋アンサンブルモデルの混合）
（サンプルサイズＮ＝１１６）
効果を、Ａｃｃｕｒａｃｙ関数およびＲＯＣＡＵＣで表す。適切な場合、確信間隔を同様に９５％の確信で報告する。

得られた結果は、すべてのデータポイントで取得されたものとかなり似ている。ラベルの曖昧性についての元の仮説と対照的に、広告変形は、実際には異なる行動反応を誘発することが示される。そして、変形は、独立の標本と考えることができる。

カテゴリおよび国の相違に対する強固さ
どれだけうまくモデルが、訓練一般化するかをテストするため、検定手順を以下のように修正する。訓練は、すべてに関して行われるが、１つの製品カテゴリのみであり、それに関する検定は省かれ、その後、各カテゴリに対し繰り返し訓練および検定を反復する。これを、リーブワンラベルアウト交差検証（ＬＯＬＯ検証）と呼ぶ。同様に、同一反復ＬＯＬＯを国に対して実行してもよい。

ＲＯＣＡＵＣは、１つ以外すべてのカテゴリにわたり、とても一貫性がある（唯一の例外は、非常に高いＲＯＣＡＵＣ値を有する非常に小さい食品カテゴリである）。異なる製品カテゴリ間の結果の一貫性は非常に注目すべき点である。

ＲＯＣＡＵＣはまた、１か国以外すべての国で非常に似ている（唯一の例外は、低ＲＯＣＡＵＣ値のロシアであり、レーティング４の最高効果の広告が１つもない）。

表４異なる製品カテゴリに関する提案された売上予測モデルの凡化効果
検証スキームはＬＯＬＯであり、訓練フォールドは、検定広告が属するカテゴリからの標本を含まない。低の数および高の数は、それぞれ、低および高効果クラスの標本の数を示す。

表５異なる地域からの広告に関する提案された売上予測モデルの凡化効果
検証スキームはＬＯＬＯであり、訓練フォールドは、検定広告が属する地域からの標本を含まない。低の数および高の数は、それぞれ、低および高効果クラスの標本の数を示す。

本明細書に開示されるアプローチ対従来の比較
ＭｃＤｕｆｆの研究に提案されたアプローチおよび本明細書に提示されたモデルは両方とも、同じ国の４つの同じ製品カテゴリに対する被験者の反応のウェブカムの評価を伴う。両方のケースで、セールスリフトデータを同じソースから取得している。両方のケースで、結果を、ＲＯＣＡＵＣで数値化しているが、ＭｃＤｕｆｆの研究ではＬＯＯ検証だけが報告されている。一方で、本実施例は、繰り返された１０分割交差検証を報告している。アプローチの間の２つの主要な相違は、データおよび適用された分類モデルを表す特性である。その他の態様においても異なる２つのアプローチは、特徴、製品、または国も種類に関係しない。コマーシャルの数（実施例のモデルではさらに少ない）および視聴期間（より最近および実施例のモデルでは数年にわたる）などのこれらの相違ならびにその他の手順の態様は、特徴の種類に関係しない。

統計的分析
上記の注意を念頭において、分類効果に関する特徴の影響を報告する。静的アプローチに関する過去の報告との比較に役立つように、同じＲＢＦ－ＳＶＭをこの研究で提案された特徴のセットに関して訓練する。表６では、ＭｃＤｕｆｆの信号に対する結果ならびに上述の実施例の信号の結果を伝える。特徴は、ＭｃＤｕｆｆの研究で使用されたものと全く同じではないものの、似ている（例えば、実際は、ほほえみなどのその他の分類子の起動から得られた「誘発性」の指標は、例示的な嫌悪の分類子の出力に置き換えられ、まゆを上げるのは、我々自身の驚きの分類子によって置き換えられる）。

また、頭部ポーズの情報だけを使用する表現および顔の表情の情報だけ（ほほえみ、驚きおよび嫌悪の力学に基づく）を使用する表現に対する別の結果を含む。提案された実施例のモデルでは、頭および顔の力学が独占的に使用されるより組み合わせられたとき、よい効果が出ている。これは、言葉を用いない行為、頭部ポーズおよび感情のパッケージが、セールスリフトを予測するのに独立して寄与することを示唆する。ＬＯＯおよび１０－分割交差検証の両方では、実施例のモデルの組み合わせた表現は、もっと大きい効果を生んでいるが、ＭｃＤｕｆｆの従来の表現を使用すると、無作為選択の効果を生じる。この結果は、頭部ポーズの情報およびセッションレベルの分析の重要性を強調する。表現間の差異の大きさは、手順の相違（見られたコマーシャルの数など）は、大した役割をしていないことを示す。総合問題のインジケータとして訓練後維持されるサポートベクタの数（♯ＳＶ）も、報告される。１０－分割交差検証スキームの１４７サンプルでは、訓練フォールドのサイズが約１３２である。＃ＳＶが全体の訓練フォールドと同じ大きさの場合、ＳＶＭモデルは、上手く一般化できない。結果は、ＭｃＤｕｆｆの研究で報告されたように低い効果は、非線形ＳＶＭによる高次元の表現の分類は多くのデータを必要とするという事実による仮定を確認している。この追加のデータの要求は、本明細書に開示された方法を実行するために必ずしも必要ではない。

アンサンブルモデルは、ＭｃＤｕｆｆ（０．７４７±０．０２５対０．７０１±０．０２１）のＳＶＭモデルより組み合わせた信号上で、より良い効果を出すだけでなく、際立って簡単である（２つの訓練されたモデル内のパラメータの数に示されるように）。一方、見えないデータについて凡化誤差がより少なくなることが期待される。別の利点は、その他の行動信号を加えることによる改良により、うまく制御された方法でモデルの複雑さを増すことであり、そうして、改良されたモデルの一般化を維持する。

表６分類効果に関する異なる表現のインパクト
分類子は、非線形動径基底関数カーネルと同じＳＶＭである。この比較はまた、頭部ポーズと顔の表情の情報の補完的な性質を示す。

今日の市場調査における最も大きな課題の一つは、分析されるべきメディアコンテンツの数の指数成長である。というのも、伝統的な調査ベースの方法は、うまく測定できていないからである。加えて、これらの方法は、コンテンツと消費者の間の相互作用の重要な感情の態様を捕捉できていない。

本明細書に開示された本システムおよび方法は、実践的な市場調査のための大規模行動データの収集および分析を可能にする実行可能なデータ獲得システムを生成する。こうしたシステムおよび方法はまた、高売上効果と低売上効果の広告を区別するよう学習した分類モデルを訓練している。トレーニングデータのサイズおよび構造は、制限されているが、学習したモデルは、モデリングで使われない一部の要因にわたって、うまく一般化することを示している。これらの有望な結果は、自動化され、コスト効率の良い、行動学的合図に動機づけられた分析のための市場調査ツールの新しい世代に対する道を開くことができる。

さらに方法を改良するため、いくつかの制限に取り組む必要がある。行動学的分析は、個々の相違が単に無作為の心の動揺であると仮定する平均的反応に基づいている。しかし、これらの個々の相違は、広告間の相違についての関連する情報を含む。別の制限は、我々のモデルは、観察の間のより多くの複雑な相互作用を認めないことである。より多くの標本が入手可能になれば、この方法は、より多くの特徴を含むように拡大でき、特徴間の線形または非線形相互作用も捕捉できる（一般化段階風線形回帰モデルは、体系的にペアワイズまたは特徴間の高次相互作用をチェックできる）。最後に、意識的記憶および即時行動－感情的反応をテストするハイブリッドモデルは、消費者の行為に関する広告のインパクトを完全に理解して開発する必要がある。

図１から図５は、本発明の説明を可能にする概念図である。同業者であれば、本発明の実施形態の様々な態様が、ハードウェア、ファームウェア、ソフトウェア、またはその組み合わせで実施されうることを理解するであろう。こうした実施形態では、様々な構成要素および／またはステップがハードウェア、ファームウェア、および／またはソフトウェアで実施されて、本発明の機能を実行する。すなわち、同一のハードウェア、ファームウェア、またはソフトウェアモジュールが、図示のブロック（例えば、構成要素またはステップ）の内の１つ以上を実行してもよい。

ソフトウェアの実装では、コンピュータソフトウェア（例えば、プログラムまたはその他の命令）および／またはデータは、コンピュータプログラム製品の一部としての機械可読媒体上に保存され、コンピュータシステムもしくはその他の装置あるいは着脱可能記憶装置、ハードドライブ、または通信インターフェース経由で機械にロードされる。コンピュータプログラム（コンピュータ制御ロジックまたはコンピュータ可読プログラムコードとも呼ばれる）は、メインおよび／または二次記憶装置に保存され、１つまたは複数のプロセッサ（コントローラなど）により実装されて、本明細書に説明されるように１つまたは複数のプロセッサに本発明の機能を実施させる。本書類において、「機械可読媒体」、「コンピュータプログラム媒体」および「コンピュータ使用可能媒体」という用語は、一般に、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、着脱可能記憶装置（例えば、磁気または光ディスク、フラッシュメモリデバイスなど）、ハードディスクなどの媒体を指すため使用される。

とりわけ、その他の実施形態が、説明のまたは図示の構成要素の一部またはすべての交換によって可能であるように、上記の図面および実施例は、本発明の範囲を単一の実施形態に制限することを意図しない。さらに、本発明の所定の構成要素が、部分的にまたは完全に既知の構成要素を使用して実装されうる場合、本発明の理解のために必要なこうした既知の構成要素のこれらの部分だけが説明され、本発明を不明瞭にしないため、こうした既知の構成要素のその他の部分の詳細の説明は省かれる。本明細書では、明示的に別段の定めをした場合を除き、単数の構成要素を示す実施形態は、複数の同じ構成要素を含むその他の実施形態に必ずしも制限されず、その逆も同様である。さらに、出願人は、明細書または特許請求の範囲のいずれの用語も一般的でないまたは特別な意味とみなされることを意図しないが、そのように明白に述べられた場合はその限りではない。さらに、本発明は、図示によって本明細書で言及される既知の構成要素に対する現在および未来の既知の等価物を含む。

特定の実施形態の上述の記述は、本発明の一般的な性質を完全に明らかにしているので、不要な実験をすることなく、本発明の全体の概念から逸脱することなく、他の人が、関連の技術（複数可）（参照により本明細書に記載され、組み入れられた書類の内容を含む）の技能内の知識を適用することによって、様々な用途のためにこうした特定の実施形態をすぐに修正および／または適合できる。したがって、こうした適合および修正は、本明細書に提示された教示および指示に基づいて、開示された実施形態の等価物の意味およびその範囲内にあることが意図される。本明細書の表現法または用語法説明の目的のためであって、制限のためではなく、それにより、本明細書の用語法または表現法は、当業者の知識との組み合わせで本明細書に提示された教示および指示に照らして、当業者（複数可）によって解釈されるべきであることを理解されたい。

様々な実施形態が本明細書に説明されてきたが、それらは、ほんの例として提示され、制限するものではないことを理解されたい。本発明の精神と範囲から逸脱することなく、形態および詳細の様々な変更が本明細書でなされることが可能であることは、同業者（複数可）には明らかであろう。したがって、本発明は、上述の例示的な実施形態のいずれにも制限されないが、以下の特許請求の範囲およびその等価物にしたがってのみ定義されるものである。

Claims

クライアント装置でユーザが消費することができる１つのメディアコンテンツの効果データを予測する、コンピュータにより実行される方法であって、
前記メディアコンテンツの消費中に前記メディアコンテンツに対するユーザの反応を示す生の入力データを前記クライアント装置で収集することと、
前記収集した生の入力データを処理して、
時系列の記述子データポイントを抽出することと、
時系列の感情状態のデータポイントを取得することと、
効果データと前記時系列の記述子データポイントまたは前記時系列の感情状態のデータポイントの予測パラメータとの間をマッピングする分類モデルに基づいて前記メディアコンテンツの予測効果データを出力することと、を含み、
前記予測パラメータが、前記メディアコンテンツに対する前記ユーザの反応の相対的変化の定量的指標であり、
前記メディアコンテンツを、それぞれがそれぞれのクライアント装置にいる、複数のユーザが消費することができ、前記方法が、複数の前記それぞれのクライアント装置それぞれで、前記メディアコンテンツに対する複数のユーザの反応を示す生の入力データを収集することをさらに含み、
前記複数のユーザそれぞれの前記時系列の記述子データポイントまたは前記時系列の感情状態のデータポイントからの個々の予測パラメータを決定することと、
前記複数のユーザの前記個々の予測パラメータからグループ予測パラメータを決定することと、をさらに含み、
前記予測効果データが、前記グループ予測パラメータを使用して取得される、コンピュータにより実行される方法。
前記収集した生の入力データを処理する前記ステップが、
前記予測パラメータを判定することと、
線形回帰を前記予測パラメータに加えて、線形回帰出力を出力することと、
前記線形回帰出力を二値化して、二値化出力を生成することと、
ロジスティック回帰を前記二値化出力に加えて、前記予測効果データを出力することと、をさらに含む、請求項１に記載のコンピュータにより実行される方法。
前記抽出された時系列の前記記述子データポイント間または前記時系列の感情状態のデータポイント間の時間差

を計算することとであって、そこでは、

であり、式中、x^j(t)は、ユーザjの前記抽出された記述子データポイントまたは前記抽出された感情状態データの時系列の定量的パラメータxである、前記計算することと、
前記時間差を正規化して、平均差＜dx^j＞を前記時間差

から引くことにより正規化された時間差

を作成することであって、
そこでは、

であり、Tは、前記時系列の持続期間である、前記作成することと、
前記時系列を所定の持続時間を有する複数のタイムビンに分割することと、

にしたがって、前記正規化された差異の最大値を計算することであって、式中、表記i∈kは、i番目の値がビンkに含まれることを意味する、前記計算することと、

にしたがって、前記複数のタイムビンそれぞれの前記値を加重し、合計することであって、式中nは、ビンの数であり、したがって、変数のフレームまたはセグメントインデック
スは、もはやない、前記合計することと、
前記メディアコンテンツの長さによってDx^jを正規化することと、
前記複数のユーザにわたって前記予測パラメータを示す記述統計を生成することと、をさらに含む、請求項１に記載のコンピュータにより実行される方法。
前記クライアント装置が、ネットワーク上でサーバ装置と通信可能であり、前記収集した生の入力データの処理が、前記サーバ装置で起こる、請求項１に記載のコンピュータにより実行される方法。
前記生の入力データが、ユーザの行動データ、ユーザの生理学的データまたは前記メディアコンテンツに関連するメタデータのうちのいずれかを含む、請求項１に記載のコンピュータにより実行される方法。
各感情状態のデータポイントが、１つまたは複数の記述子データポイントに基づいて決定される、請求項１に記載のコンピュータにより実行される方法。
各記述子データポイントが、前記生の入力データから抽出された特徴を示す定量的パラメータを含む、請求項６に記載のコンピュータにより実行される方法。
前記予測パラメータが、前記時系列の感情状態のデータポイント中の隣接する感情状態のデータポイント間の前記定量的パラメータの相対的変化の関数である、請求項７に記載のコンピュータにより実行される方法。
各感情状態のデータポイントが、ユーザの感情状態を示す定量的パラメータを含む、請求項１に記載のコンピュータにより実行される方法。
前記予測パラメータが、前記時系列の感情状態のデータポイント中の隣接する感情状態のデータポイント間の前記定量的パラメータの相対的変化の関数である、請求項９に記載のコンピュータにより実行される方法。
前記収集したデータを処理することが、前記グループ予測パラメータを前記グループ予測パラメータと前記効果データとの間をマッピングする分類モデルに入力することを含む、請求項１０に記載のコンピュータにより実行される方法。
複数のグループ予測パラメータを取得することをさらに含み、前記分類モデルが、前記複数のグループ予測パラメータと前記効果データとの間をマッピングする、請求項１１に記載のコンピュータにより実行される方法。
前記予測効果データ出力が、前記分類モデルの結果出力を使用して生成される、請求項１１に記載のコンピュータにより実行される方法。
前記生の入力データが、前記クライアント装置で捕捉された画像データを含む、請求項１に記載のコンピュータにより実行される方法。
前記画像データが、ユーザの顔の画像を示す複数の画像フレームを含む、請求項１４に記載のコンピュータにより実行される方法。
各記述子データポイントが、多次元データポイントである顔の特徴の記述子データポイントであり、前記多次元データポイントの各構成要素が、それぞれの顔の目印を表している、請求項６に記載のコンピュータにより実行される方法。
各顔の特徴の記述子データポイントが、それぞれのフレームと関連付けられる、請求項１６に記載のコンピュータにより実行される方法。
前記メディアコンテンツが、ライブ映像ストリーム、ビデオコマーシャル、音声コマーシャル、映画の予告編、映画、ウェブ広告、アニメーションゲーム、または画像のうちのいずれかである、請求項１に記載のコンピュータにより実行される方法。
前記効果データが、セールスリフトデータである、請求項１に記載のコンピュータにより実行される方法。