JP6984083B2

JP6984083B2 - 視聴者エンゲージメントを評価するためのシステム

Info

Publication number: JP6984083B2
Application number: JP2018536185A
Authority: JP
Inventors: シドゥ、インダービル; ヤンフェン、リュ; フ、ユン
Original assignee: テレビジョン・インサイツ、インコーポレイテッド
Priority date: 2016-01-06
Filing date: 2017-01-06
Publication date: 2021-12-17
Anticipated expiration: 2037-01-06
Also published as: WO2017120469A1; JP7207836B2; US20180007431A1; EP4080794A1; JP7451673B2; US11509956B2; EP3400661A1; JP2023036898A; JP2019507533A; EP3400661A4; JP2021184644A; US20220159341A1; US20230106115A1

Description

関連出願の相互参照
[0001]本出願は、その全体が参照により本明細書に組み込まれる、２０１６年１月６日に出願された「ＳＹＳＴＥＭＳＡＮＤＭＥＴＨＯＤＳＦＯＲＡＳＳＥＳＳＩＮＧＶＩＥＷＥＲＥＮＧＡＧＥＭＥＮＴ」と題する米国出願第６２／２７５，６９９号の優先権を主張する。

[0002]ＴＶオーディエンス測定（TV audience measurement）の従来の方法は、オーディエンスからデータを収集するために、ピープルメータ（people meter）および日記を使用することを含む。これらの方法は、一般に、ＴＶ受像機が設置された部屋にいる人間（潜在的オーディエンスメンバ）を認識しようとする。該方法はまた、ＴＶで再生している一連の画像（たとえば、ＴＶ番組またはコマーシャル広告）をキャプチャすることを伴い得る。次いで、各画像について、特定の画像が表示されたときに部屋にいる人々の数が推定され得る。

[0003]これらの方法はいくつかの欠陥を有する。第一に、これらの方法によって収集されたデータは、通常、ＴＶが設置された部屋にいる人々の数のみを含む。データは、一般に、視聴者がどのくらいの頻度でＴＶを実際に見ているかについて示さない（測定はＴＶがオンのときに行われる）。第二に、収集されたデータは、人々がどのくらいの頻度で特定のチャンネルに合わせるかについて示し得る。ただし、それは、番組または広告に対する人々の反応を測定せず、したがって、番組または広告の有効性について示さない。第三に、ＴＶレーティングは、世帯またはコミュニティにおける特定の層（demographics）について与えられない。

[0004]本発明の実施形態は、ＴＶオーディエンスの視聴者エンゲージメント（viewer engagement）を評価する装置、システム、および方法を含む。一例では、ディスプレイ上で再生しているビデオとの視聴者エンゲージメントを定量化するためのシステムは、ディスプレイの前の視聴エリア（viewing area）を撮像するように配設された、視聴エリアの画像データを取得するための少なくとも１つのカメラを含む。ディスプレイに結合されたスピーカによって発せられたオーディオデータを取得するために、マイクロフォンがディスプレイに近接して配設される。本システムはまた、カメラおよびマイクロフォンに動作可能に結合された、プロセッサ実行可能命令を記憶するためのメモリと、カメラ、マイクロフォン、およびメモリに動作可能に結合されたプロセッサとを含む。プロセッサ実行可能命令の実行時に、プロセッサは、カメラからの画像データと、マイクロフォンからのオーディオデータとを受信し、オーディオデータに少なくとも一部基づいて、ディスプレイ上に表示されたビデオの識別情報（identity）を決定する。プロセッサはまた、画像データに少なくとも一部基づいて、視聴エリア中に存在する人々の第１の数と、視聴エリア中のビデオにエンゲージしている人々の第２の数とを推定する。プロセッサはさらに、人々の第１の数および人々の第２の数に少なくとも一部基づいて、ビデオの視聴者エンゲージメントを定量化する。

[0005]別の例では、ディスプレイ上に示されるビデオとの視聴者エンゲージメントを定量化する方法は、少なくとも１つのカメラを用いて、ビデオがディスプレイ上に示されている間、ディスプレイの前の視聴エリアの画像を取得することを含む。本方法はまた、マイクロフォンを用いて、ディスプレイに結合されたスピーカによって発せられたビデオのサウンドトラックを表すオーディオデータを取得することを含む。本方法は、カメラおよびプロセッサに動作可能に結合されたプロセッサを用いて、オーディオデータに少なくとも一部基づいて、ビデオの識別情報を決定することと、プロセッサを用いて、画像データに少なくとも一部基づいて、ビデオがディスプレイ上に示されている間の視聴エリア中に存在する人々の第１の数、および視聴エリア中のビデオにエンゲージしている人々の第２の数を推定することとをさらに含む。本方法はまた、プロセッサによって、ビデオの識別情報、人々の第１の数、および人々の第２の数をリモートサーバに送信することを含む。

[0006]また別の例では、ディスプレイ上で再生しているビデオとの視聴者エンゲージメントを評価するためのシステムが開示される。ディスプレイは、ビデオのサウンドトラックを発するスピーカに結合される。本システムは、ビデオがディスプレイ上で再生している間、第１のサンプルレートで、ディスプレイの前の視聴エリアの可視画像を取得するための可視カメラを含む。第１のサンプルレートで、ビデオがディスプレイ上で再生している間、ディスプレイの前の視聴エリアの赤外線画像を取得するために、赤外線カメラが本システムに含まれる。第１のサンプルレートよりも低い第２のサンプルレートで、ビデオがディスプレイ上で再生している間、スピーカによって発せられたサウンドトラックのサンプルを取得するために、マイクロフォンがディスプレイに近接して配設される。本システムはまた、可視カメラ、赤外線カメラ、およびマイクロフォンに動作可能に結合された、（ｉ）サウンドトラックのサンプルに基づいてビデオを識別することと、（ｉｉ）可視画像および赤外線画像に基づいて、ビデオがディスプレイ上で再生している間の視聴エリア中の人々の数、およびビデオにエンゲージしている人々の数を推定することと、（ｉｉｉ）サウンドトラックのサンプル、可視画像、および赤外線画像を上書き、消去、および／または廃棄することとを行うためのプロセッサを含む。本システムはまた、プロセッサに動作可能に結合された、ビデオの識別情報、ビデオがディスプレイ上で再生している間の視聴エリア中の人々の数、およびビデオにエンゲージしている人々の数の表現（representation）を記憶するためのメモリを含む。本システムは、プロセッサに動作可能に結合された、表現をサーバに送信するためのネットワークインターフェースをさらに含む。

[0007]また別の例では、複数のビデオ中の一意のビデオについての視聴者エンゲージメントを定量化する方法は、複数の世帯中の各世帯において、ディスプレイの前の視聴エリアの画像データを取得することと、ディスプレイが複数のビデオ中のビデオを示しているかどうかを決定することとを含む。本方法はまた、複数のビデオ中の各一意のビデオについて、画像データおよび複数の世帯中の各世帯に関する人口統計学的情報（demographic information）に基づいて、（ｉ）視聴レート（viewing rate）および（ｉｉ）ウォッチングレート（watching rate）を推定することを含む。視聴レートは、ビデオを示しているディスプレイの合計数に対する、視聴エリア中の人々の合計数の比を表し、ウォッチングレートは、複数の世帯中の人々の合計数に対する、ディスプレイがビデオを示している世帯中の人々の合計数の比を表す。本方法はまた、複数のビデオ中の各一意のビデオについて、視聴レートおよびウォッチングレートに基づいて、視聴可能性インデックス（viewability index）を決定することを含む。

[0008]上記の概念と以下でさらに詳細に説明される追加の概念のすべての組合せが、（そのような概念が相互に矛盾しないという条件で）本明細書で開示される本発明の主題の一部であるものとして企図されることを諒解されたい。特に、本開示の最後に記載される、請求する主題のすべての組合せが、本明細書で開示される本発明の主題の一部であるものとして企図される。また、参照により組み込まれる開示にも記載され得る、本明細書で明示的に採用された用語は、本明細書で開示される特定の概念に最も一致する意味を与えられるべきであることを諒解されたい。

[0009]図面は、主に説明のためであり、本明細書で説明される本発明の主題の範囲を限定するものではないことを、当業者なら理解するであろう。図面は、必ずしも一定の縮尺であるとは限らず、いくつかの事例では、本明細書で開示される本発明の主題の様々な態様は、異なる特徴の理解を容易にするために、図面において誇張または拡大されて示されることがある。図面では、同様の参照符号は、概して、同様の特徴（たとえば、機能的に類似する要素および／または構造的に類似する要素）を指す。

[0010]図１は、ＴＶオーディエンスの視聴者エンゲージメントを評価するためのシステムの概略図を示す。 [0011]図２Ａは、図１に示されているシステムを使用してユーザエンゲージメントを定量化する方法を示す図である。 [0012]図２Ｂは、ユーザエンゲージメントを定量化するためのコンピュータビジョンモデルをトレーニングする方法を示す図である。 [0013]図３Ａは、顔および眼球追跡、顔認識、ならびに感情分析を含む、視聴者エンゲージメントの方法を示す図である。 [0014]図３Ｂは、視聴可能性インデックスおよび注意インデックス（attention index）の概念を示す図である。 [0015]図４Ａは、視聴可能性インデックスを推定することを含む、視聴者エンゲージメントを評価するためのプロセスを示す図である。 [0016]図４Ｂは、注意インデックスを推定することを含む、視聴者エンゲージメントを評価するためのプロセスを示す図である。 [0017]図５は、視聴エリア中の各人物の顔の向き（orientation）を決定することを含む、視聴者エンゲージメントを評価するためのプロセスを示す図である。 [0018]図６は、骨格、顔、識別情報、感情、およびエンゲージメントを検出するためのプロセスを示す図である。 [0019]図７は、視聴者エンゲージメント評価の例示的な方法におけるデータ取得アーキテクチャの概略図である。 [0020]図８Ａは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｂは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｃは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｄは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｅは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｆは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。図８Ｇは、図７に示されているアーキテクチャを使用して取得されたコマーシャルメッセージ（ＣＭ）曲線を示す図である。 [0021]図９は、サンプリングされたＴＶ局の各々についてのＣＭ曲線の比を示す図である。 [0022]図１０は、表５に示されている決定木の決定結果をもつ、決定木による分類モデルを示す図である。 [0023]図１１は、ＣＭの長さに対する視聴可能性レートを示す図である。 [0024]図１２は、番組の開始からの経過時間と視聴可能性レートとの間の相関を示す図である。 [0025]図１３は、図１〜図１２に示されている技術を使用して取得された視聴者エンゲージメントデータの通信を示す図である。 [0026]図１４は、図１〜図１２に示されている技術を使用して取得された視聴者エンゲージメントデータの配布および使用を示す図である。 [0027]図１５は、図１〜図１２に示されている技術を使用して取得された視聴者エンゲージメントデータのビッグデータ分析および視覚化を示す図である。 [0028]図１６は、図１〜図１２に示されている技術を使用して取得された視聴者エンゲージメントデータを補完するための追加のデータを取得するためのモデルを示す図である。

[0029]ＴＶオーディエンス測定の従来の方法における欠点に対処するために、本明細書で開示されるシステムおよび方法は、ビデオ（たとえば、ＴＶショー、映画、ウェブショー、広告、または他のコンテンツ）を再生しているディスプレイ（たとえば、ＴＶ、コンピュータ、またはタブレット）の前の視聴エリアの画像データを取得する。例示的なシステムは、画像データから、何人の人々が視聴エリアにいるか、およびそれらの人々のうちの誰がビデオを実際に見ているかを決定する。本システムはまた、マイクロフォンを用いてビデオのサウンドトラックをサンプリングし、サウンドトラックのサンプルを使用してビデオを識別する。本システムは、ビデオ、視聴エリア中の人々の数、およびビデオを見ている人々の数に関する情報を、ローカルメモリに記憶（および／または残存）し、その情報をインターネットまたは他のネットワーク接続を介してリモートサーバに送信する。

[0030]ビデオ自体に埋め込まれたデジタルウォーターマークに基づいてビデオを識別する、ビデオとの視聴者エンゲージメントを測定するための以前のシステムとは異なり、本発明のシステムの例は、ビデオのサウンドトラックに基づいてビデオを識別する。したがって、本発明のシステムは、視聴者の構内にあるディスプレイ、セットトップボックス、またはケーブル接続に接続される必要はない。このことは、それらを取り付けるおよび取り外すことを容易にする（したがって、採用される可能性が高くなる）。このことはまた、それらが誤動作する可能性、またはディスプレイがオフであるのにセットトップボックスをオンのままにすることによって引き起こされる「フォールスポジティブ」インプレッションを記録する可能性を低くする。

[0031]本発明のシステムはまた、視聴エリア中の人々の数とビデオにエンゲージしている人々の数とを決定するために、ローカルで、すなわち、視聴者の構内で画像データを処理する。それはまた、視聴エリアに誰かがいる間に表示されているビデオを識別するために、ローカルでオーディオデータを処理することができる。それは、ローカルに、すなわち、視聴者の構内のローカルデバイス中のまたはそれに結合されたメモリに、このデータを記憶する。処理された画像およびオーディオデータは、未処理（raw）の画像およびオーディオデータよりもはるかに少ないメモリを消費し、したがって、このローカルメモリは、より長い時間期間をカバーする情報を記憶することができる。言い換えれば、本発明のデバイスは、未処理のデータ（raw data）ではなく処理されたデータを記憶するので、より効率的にメモリを使用する。

[0032]ローカルデバイスは、視聴者エンゲージメントを評価するために視聴エリアから取得された、視覚情報と深度情報の両方を含み得る、未処理の画像データを処理する。ローカルデバイスは、視聴者のボディジェスチャ、動き、および顔の向き（facial orientation）を分析するために、人工知能（ＡＩ）技術および機械学習技法を使用することができる。ローカルデバイスはまた、画像データから、ビデオオーディエンスの個々の顔を認識し、各視聴者の感情を決定することができる。この処理では、個人の画像は、個人の構内の外に送信されない。認識は、構内のローカルデバイス上で実行され得る。世帯中の各個人は、その世帯のためのオンボーディングプロセス中に一意の識別子を付与され得る。認識プロセス中に一致があったとき、この識別子が一致に割り当てられ、次いで、この識別子がリモートサーバに送信され得る。さらに、処理は、（画像を含む）ストリーミングビデオまたはオーディオデータ上で行われる。言い換えれば、ビデオまたはオーディオデータは、ローカルメモリに残存されない。

[0033]ローカルデバイスは、視聴されている特定のビデオ（たとえば、ＴＶチャンネル、番組、または広告）を識別するために、未処理のオーディオデータをオーディオデータベース中のサンプルと照合または比較することによって、未処理のオーディオデータを処理する。代替または追加として、ローカルデバイスは、オーディオが属するコンテンツの識別情報を識別して返すサードパーティアプリケーションプログラミングインターフェース（ＡＰＩ）に、オーディオデータに基づくクエリをサブミットすることができる。いくつかの場合には、データベースまたはＡＰＩは、複数の一致候補を返すことがあり、リモートサーバは、ＴＶスケジュールに関する情報、後続のオーディオサンプル、あるいは限定はしないが、セットトップボックス、ケーブル／インターネット接続、またはコンテンツプロバイダ自体を含む他のソースから収集されたデータを使用して、最良の一致を選択することができる。

[0034]いくつかの実装形態では、ローカルデバイスは、後の検索のために未処理の画像またはオーディオデータを記憶しない。代わりに、ローカルデバイスは、処理のために未処理の画像およびオーディオデータを記憶する１つまたは複数のバッファに、未処理の画像およびオーディオデータを書き込み、次いで、未処理の画像およびオーディオデータが処理された後にバッファを上書きまたは消去する。言い換えれば、ローカルデバイスは、未処理の画像およびオーディオデータを、処理中に一時的に保持するにすぎない。本明細書で使用される、ローカルデバイスに未処理の画像およびオーディオデータを「保持する」ことは、（たとえば、それらの間の任意の値およびサブレンジを含む、１００ミリ秒未満、８０ミリ秒未満、６０ミリ秒未満、５０ミリ秒未満、または４０ミリ秒未満の）短い持続時間の間の、これらのデータの一時的な記憶を指す。未処理の画像およびオーディオデータを上書きまたは消去することは、ローカルデバイスによって必要とされるメモリの量を低減することを含む、いくつかの利点を与える。それはまた、視聴エリア中またはマイクロフォンの範囲内の、子供を含む人々を識別するために使用され得る画像またはオーディオデータをなくすことによって、データプライバシー法の遵守をより容易にする。

[0035]画像およびオーディオデータをローカルで処理および記憶することは、別の技術的利点を与え、すなわち、視聴習慣に関する情報をローカルデバイスからリモートサーバに伝達するために必要とされる帯域幅を低減する。未処理の画像およびオーディオデータと比較して、処理された画像およびオーディオデータは、より少ないメモリを消費し、したがって、送信のためにより小さい帯域幅を必要とする。処理された画像およびオーディオデータはまた、未処理の画像およびオーディオデータよりも緩やかに所与のメモリを埋め、したがって、より低い頻度でリモートサーバに送信され得る。ローカルデバイスは、ネットワーク帯域幅使用が比較的低い時間、たとえば、深夜または早朝にバースト送信をスケジュールすることによって、このフレキシビリティを利用し得る。視聴エリア中またはマイクロフォンの範囲内の、子供を含む人々を識別する情報を必ずしも含むとは限らない、処理された画像およびオーディオデータを送信することはまた、データプライバシー法の遵守の容易さを保証または向上させる。

[0036]リモートサーバは、異なる世帯におけるローカルデバイスから、処理された画像およびオーディオデータを収集する。それは、コミュニティ中の異なる世帯から収集された視聴者エンゲージメント情報を統計的に分析することによって、コミュニティ全体にわたる視聴者エンゲージメントを評価するために、このデータを処理する。たとえば、サーバは、各世帯から収集された極めて細かいデータから、検出された番組の全長に対する、視聴者エンゲージメントの比を定量化することができる。

[0037]統計的分析はさらに、ビデオを見ている人々および／または世帯中の人々の人口統計学的情報（たとえば、年齢、性別、世帯収入、民族など）を考慮に入れることができる。すべてのこの情報に基づいて、サーバは、視聴者エンゲージメントを定量化するために、視聴可能性インデックスおよび注意インデックス（attention index）（どちらも以下で定義される）など、様々なインデックスを計算し得る。これらの視聴者エンゲージメントインデックスは、視聴者のボディジェスチャ、動き、および視聴者の顔の向きに関する情報、ならびにビデオ情報を含む、ローカルデバイスによって提供される任意およびすべての情報に基づき得る。これらの定量的インデックスは、特に、（ｉ）誰がディスプレイを実際に見ているか、（ｉｉ）オーディエンスメンバがどのくらいの頻度でディスプレイを見るか、およびｉｉ）ディスプレイ上の番組および広告に対するオーディエンスの反応を示すことができる。

[0038]定量的インデックスは、次いで、リモートサーバによって中央ストレージ（たとえば、クラウドベースのデータベース）に転送され得、ここで、限定はしないが、ＴＶ広告代理店およびＴＶネットワークを含むサードパーティは、インデックスおよび場合によっては他のデータにもアクセスすることができる。代替的に、センサによって収集された未処理データ（raw data）は、クラウド上の中央ストレージに転送され得、そこで、本明細書で説明される方法によって分析され、関係するサードパーティにとって利用可能になる。サードパーティは、オプションによりシステムを通して未処理データにアクセスし得る。この例における未処理データは、（ビデオおよびオーディオストリーム自体ではなく）ビデオおよびオーディオストリームを処理した後に収集されたデータを含む。概して、未処理データは、１秒未満ごとの（たとえば、１／２秒以下ごとの）、視聴者の一意の識別子、視聴者の注意深さ（attentiveness）、および視聴者によって視聴されている番組を含むことができる。さらなる定量的インデックス（以下のさらなる詳細を参照）が、この未処理データを使用してリモートサーバ上で算出され得る。

[0039]広告主にとって有益であり得る、個々の層（demographics）の先例のない測定値を含む、この取得および分析されたデータは、コンテンツプロバイダまたは広告代理店などの収集エンティティが、ビデオの影響を正確に評価することを可能にすることができる。たとえば、広告代理店は、どのコマーシャル枠が広告代理店のターゲットオーディエンスに対する最良適合であるかを決定するために、データを使用することができる。人口統計学的情報を用いて、データは、オーディエンスのタイプと照合され得、効果的に購買行動を導き、それにより、番組における投資収益率（ＲＯＩ：return on investment）を高めることができる。ＴＶネットワークも、そのＴＶ番組のより正確なレーティング、オーディエンスタイプ、反応、および予測広告枠価値（predictive ad slot value）を収集することができるので、データから恩恵を受けることができる。これはさらに、どの広告枠が特定のターゲット層に対して最も高い価値を有し得るかを決定することに加えて、ＴＶネットワークがその番組をオーディエンスのタイプにより良く適合するように改善し、あまり人気がないショーをなくすことを可能にする。

[0040]取得および分析されたデータはまた、様々なビジネスモデルを可能にする。たとえば、収集エンティティは、国および／または地域の層を表す選択されたユーザ世帯に置かれた動き検知デバイスから収集された、分析のためのパフォーマンスベースのＴＶレーティングデータおよび未処理データを、ＴＶネットワーク、広告代理店、および他の関係するサードパーティに、ならびに広告代理店からデータを取得する広告主に間接的に、提供することができる。

[0041]視聴者エンゲージメントを評価するシステム
[0042]図１は、ディスプレイをもつ世帯、スポーツバー、または他の空間における視聴者エンゲージメントを評価するためのシステム１００の概略図を示す。システム１００は、視聴者エンゲージメントデータを収集するために各世帯に配設されたローカルデバイス１０５と、データを記憶するためのメモリおよびデータを分析するための（リモートプロセッサとも呼ばれる）プロセッサを含む、クラウドストレージおよびコンピューティングデバイスなど、リモートサーバ１７０とを含む。ローカルデバイス１０５は、インターネット接続などのネットワーク接続１７２を介して、リモートサーバ１７０に通信可能に結合される。たとえば、ローカルデバイス１０５は、家庭用ローカルエリアネットワーク（ＬＡＮ）に接続するための、ＷｉＦｉアンテナまたはイーサネット（登録商標）ポートなど、ネットワークインターフェース１６５を含み得る。このＬＡＮは、たとえば、インターネットサービスプロバイダ（ＩＳＰ）によって提供されるケーブルまたは光ファイバー接続を介して、ワイドエリアネットワーク（ＷＡＮ）に接続される。

[0043]図１中のローカルデバイス１０５は、テレビジョン（ＴＶ）、コンピュータスクリーン、タブレット、または他のデバイスなど、ディスプレイ１１の前の視聴エリア１０１を赤外線（ＩＲ）光で照射するためのＩＲエミッタ１１０を含む。このＩＲ光は、視聴エリア１０１中の（人間のオーディエンスを含む）物体から散乱または反射する照射パターンを生成するために、構造化または調整され得る。ローカルデバイス１０５はまた、これらの物体によって反射または散乱されたＩＲ光を検出するＩＲセンサ１２０を含む。ＩＲエミッタ１１０およびＩＲセンサ１２０に結合された（ローカルプロセッサ１５０とも呼ばれる）プロセッサ１５０は、視聴エリア１０１の１つまたは複数のＩＲ深度画像またはＩＲ深度マップを生成するために、照射パターンおよび検出されたＩＲ光に関する情報を使用する。より具体的には、プロセッサ１５０は、反射されたビームから導出された情報を深度情報に変換し、視聴者とセンサ１２０との間の距離を測定する。プロセッサ１５０は、何人の人々が視聴エリアにいるか、およびそれらの人々のうちの誰がディスプレイを見ているかを決定するために、これらのＩＲ深度画像を使用する。プロセッサ１５０はまた、ディスプレイを見ている人々の識別情報（identities）に関する情報を、ＩＲ深度画像から、場合によっては、その人々の顔またはジェスチャを認識することによって、あるいはその人々の層（たとえば、年齢、性別など）を決定することによって、導出し得る。

[0044]ローカルデバイス１０５は、視聴エリア１０１のカラー画像をキャプチャする（可視カメラとも呼ばれる）ＲＧＢセンサ１３０をさらに含む。また、プロセッサ１５０は、ＲＧＢセンサに結合され、視聴エリア中にいる人々の数と、ディスプレイにエンゲージしている人々の数と、視聴エリア中の人々に関する情報とを推定するために、単独で、またはＩＲ深度画像と組み合わせて、カラー画像を使用し得る。カラー画像は顔認識のためにも使用され得る。いくつかの場合には、プロセッサ１５０は、視聴エリア中の人々の数およびビデオにエンゲージしている人々の数の推定値の正確さを向上させるために、カラー画像とＩＲ深度画像の両方を使用する。

[0045]ローカルデバイス１０５はまた、ディスプレイ１１に結合されたスピーカ１３によって発せられた音を検出するように設置された１つまたは複数のマイクロフォン１４０を含む。動作中、スピーカ１３は、ディスプレイ１１上に示されているビデオのサウンドトラックを再生する。また、マイクロフォン１４０は、スピーカ１３によって再生されたサウンドトラックのオーディオサンプルをキャプチャする。マイクロフォン１４０に結合されたプロセッサ１５０は、ビデオ（サウンドトラック）のオーディオフィンガープリントを作成するために、これらのオーディオサンプルを使用し、これを、ディスプレイ１１上に示されているビデオを識別するために、所有者のまたはサードパーティのデータベース中の他のオーディオフィンガープリントと比較する。

[0046]システム１００は、Ｂｌｕｅｔｏｏｔｈ（登録商標）送信機１８５に対応したＢｌｕｅｔｏｏｔｈ受信機１８０をさらに含むことができる。いくつかの場合には、Ｂｌｕｅｔｏｏｔｈ送信機１８５は、視聴者によって装着されたリストバンドまたは腕時計に含まれ得る。動作中、Ｂｌｕｅｔｏｏｔｈ送信機１８５は、Ｂｌｕｅｔｏｏｔｈ受信機１８０によって受信される低電力Ｂｌｕｅｔｏｏｔｈビーコンを送信する。プロセッサ１５０は、次いで、受信されたＢｌｕｅｔｏｏｔｈビーコンに基づいて、ディスプレイ１１からの視聴者の距離を測定することができる。さらに、各Ｂｌｕｅｔｏｏｔｈ送信機１８５は、プロセッサ１５０によって認識され得る一意のＩＤを有することができる。送信機ＩＤはさらに、一意の視聴者に関連付けられ得る（たとえば、世帯中の各視聴者は、その人自身の送信機を有する）。このようにして、視聴者の識別情報も決定され得る。

[0047]いくつかの場合には、システム１００は、２つ以上のＢｌｕｅｔｏｏｔｈ受信機を含むことがある。これらの受信機は、各受信機が送信機１８５から異なるＢｌｕｅｔｏｏｔｈ信号強度を受信することができるように、異なるロケーションに配設され得る。この構成は、プロセッサ１５０が、ディスプレイ１１からの視聴者の距離だけでなく、（たとえば、ディスプレイ１１の左側または右側の）視聴者の相対ロケーションをも推定することを可能にすることができる。

[0048]システム１００は、位置および動きを検出するために、３軸加速度計などの他の動き検知デバイスを含み得る。動き検知デバイスは、たとえば、ＵＳＢケーブルを介して、デスクトップマシンなど、データ分析および処理デバイスと接続され得る。

[0049]図１は、ローカルデバイス１０５の一部として（たとえば、同じハウジング内）のデータ収集構成要素、ここでは、ＩＲエミッタ１１０、ＩＲセンサ１２０、ＲＧＢセンサ１３０、およびマイクロフォン１４０を示す。他の実施形態では、これらの構成要素のうちの１つまたは複数は、ＵＳＢ接続、ＲＳ２３２接続、イーサネット接続、ファイバー接続など、１つまたは複数のワイヤード接続、あるいはＷｉＦｉ接続、Ｂｌｕｅｔｏｏｔｈ接続、他のＲＦ接続、または赤外線接続など、１つまたは複数のワイヤレス接続によってプロセッサ１５０に結合された別個のデバイスとして実装され得る。たとえば、ＩＲエミッタ１１０およびＩＲセンサ１２０は、プロセッサ１５０に接続された、ＭｉｃｒｏｓｏｆｔＫｉｎｅｃｔなどの市販のデバイス（の中のもの）であり得る。同様に、マイクロフォン１４０は、視聴エリアの周りにまたはスピーカ１３の近くに設置されたマイクロフォンのアレイとして実装され得る。マイクロフォンアレイは、環境雑音から音声入力をより良く抽出することが可能であり得る。ローカルデバイス１０５は、同様に、他のセンサを含むかまたはそれらに結合され得る。

[0050]システム１００中のプロセッサ１５０は、ＩＲエミッタ１１０と、ＩＲセンサ１２０と、ＲＧＢセンサ１３０と、マイクロフォン１４０とを含むセンサによって取得された未処理データを処理するために採用される。処理は、プロセッサ１５０に結合されたメモリ１６０に記憶されたプロセッサ実行可能命令の実行時に行われ得る。一例では、リモートサーバ１７０から命令をダウンロードすることによって、ユーザが命令をメモリ１６０に手作業で記憶することができる。別の例では、ローカルデバイス１０５は、リモートサーバ１７０からダウンロードするために利用可能な更新された命令があるかどうかを（ルーチン的に）確認するように構成され得る。そうである場合、ローカルデバイス１０５は、ネットワーク接続１７２およびネットワークインターフェース１６５を介して、更新を自動的にダウンロードすることができる。また別の例では、リモートサーバ１７０は、更新または新しい命令のセットがダウンロードの準備ができているとき、ローカルデバイス１０５に通知を送るように構成され得る。通知を受信すると、ユーザは、更新をダウンロードおよび／またはインストールするかどうかを決定することができる。また別の例では、リモートサーバ１７０は、スマートフォンなどの別のユーザデバイスに更新通知を送るように構成され得る。通知を受信すると、ユーザは、更新をダウンロードおよび／またはインストールかどうかを決定することができる。

[0051]ローカルデバイス１０５中のメモリ１６０はまた、処理されたデータ（たとえば、視聴エリア中の人々の数の推定値、ディスプレイにエンゲージしている人々の数の推定値、およびビデオの識別情報、ならびに未処理の画像およびオーディオデータから導出された人口統計学的情報またはインデックス）を記憶する。メモリ１６０が処理されたデータを十分に蓄積すると、プロセッサ１５０は、アグリゲーション、さらなる処理、および報告のために、ネットワークインターフェース１６５およびネットワーク接続１７２を介して、処理されたデータをリモートサーバ１７０に送信する。ローカルメモリ１６０はまた、ローカル処理中に、画像およびオーディオデータを一時的に保持する。いくつかの場合には、この処理は１／４秒未満で完了される。

[0052]ローカルデバイスを用いて画像およびオーディオデータを収集および処理すること
[0053]図２Ａは、図１に示されているシステム１００のようなシステムを用いて取得された画像およびオーディオデータを収集および処理するためのプロセス２００を示す。上記で説明されたように、システムは、ディスプレイの前の視聴エリアの画像に対し、可視センサ、ＩＲセンサ、またはその両方を含めることができる（２０２）。一例では、ＲＧＢセンサ１３０およびＩＲセンサ１２０は、互いに独立して動作し、すなわち、センサは非同期的に画像を取得する。別の例では、ＲＧＢセンサ１３０およびＩＲセンサ１２０による画像取得は、実質的に同期される。ＲＧＢセンサ１３０が可視画像を取得するたびに、たとえば、同時にまたは交互に、ＩＲセンサ１２０がＩＲ画像を取得する。

[0054]ローカルプロセッサ（たとえば、プロセッサ１５０）は、視聴エリアの画像中の人々の数を検出し（２０４）、またそれらの人々のうちの誰がディスプレイにエンゲージしているかを決定する（２０６）。たとえば、ローカルプロセッサは、コンピュータビジョン／画像処理の技術分野で知られている骨格検出技法、顔認識技法、および視線追跡技法を含む、以下で説明される技法を使用し得る。いくつかの場合には、ローカルプロセッサ１５０は、各視聴者が視聴エリア中に存在する持続時間と、各視聴者がディスプレイにエンゲージしている持続時間と、表示されているビデオの識別情報とに関係する追加のインデックスを決定する（２０８）ことができ、ビデオの識別情報は、以下で説明されるようにオーディオデータから導出され得る（２２２）。

[0055]ローカルプロセッサはさらに、人口統計学的レベルで、視聴エリア１０１中の検出された各人物を識別することができる（たとえば、２５〜３０歳の男性、１２〜１５歳の少女）（２１０）。ローカルプロセッサ１５０が、たとえば、ローカルメモリ１６０またはリモートサーバ１７０を介して、ローカルデバイス１０５が設置された世帯に関する情報へのアクセスを有する場合、ローカルプロセッサ１５０は、視聴エリア１０１中の検出された各人物のより確信的な人口統計学的情報推定値を提供するために、この人口統計学的情報を使用し得る。ローカルプロセッサは、視聴エリアにいる世帯中の特定の人々を識別することさえある。

[0056]ローカルプロセッサ１５０はまた、視聴エリア１０１中の検出された各人物の気分または感情を推定することができる（２１２）。プロセッサ１５０によって決定され得る感情としては、たとえば、嬉しい、悲しい、またはどちらでもないがあり得る。ディスプレイ１１上のビデオを見ているときの視聴者の感情の分類は、ビデオに対する視聴者の反応を測定するために使用され、それにより、広告のターゲット配信を促進することができる。

[0057]各人物の気分または感情を推定するために、ローカルプロセッサ１５０は、ＲＧＢチャネルとＩＲチャネルの両方からリアルタイムで、（たとえば、視聴エリア１０１の画像から）視覚情報をキャプチャすることができる。視覚情報は、異なる気分または感情状態のシグネチャであり得るパターンおよび特徴を抽出するために、さらに処理され得る。両方のチャネルから抽出された特徴は、統合された特徴として融合され得る。分類器は、入力としてそのような特徴をとるようにトレーニングされ得る。次いで、感情／気分の推定が、毎回、いくつかのパターンに対する分類器の応答に基づいて行われ得る。

[0058]いくつかの場合には、気分または感情の推定は、以下の方法によって達成され得る。本方法は、特に、笑っている、および眉をひそめているなど、人々が様々な感情を示しているトレーニング画像を収集することを含む。各感情を表す特徴が、これらのトレーニング画像から（たとえば、プロセッサによって）抽出される。特徴および画像は、次いで、分類器が各特徴を対応する感情に相関させるようにトレーニングするために使用される。このようにして、分類器は、これらの特徴を様々な感情に割り当てることができる。本方法はまた、リアルタイムで視聴者感情を認識するために、ローカルデバイス上に分類器を展開することを含む。

[0059]システムが同期的に可視およびＩＲ画像を収集する場合、可視およびＩＲカメラは、人々を検出し（２０４）、エンゲージしている視聴者をカウントし（２０６）、人口統計学的に視聴者を識別し（２１０）、気分を推定する（２１２）ために、プロセッサによって使用されるコンピュータビジョンモデルをトレーニングするための画像を収集することができる。トレーニングは、「グラウンドトゥルース（ground truth）」を確立するために採用され得る。ほとんど並行してＩＲセンサとＲＧＢセンサの両方から画像データを収集すると、人間が、各画像中の検出された人々に注釈を付けることができる。この手作業のデータは、トレーニングアルゴリズムに供給され得、２つの別個のモデル、可視ＲＧＢスペクトルに関してトレーニングされた一方と、ＩＲスペクトルに関してトレーニングされた他方とをもたらす。次いで、「グラウンドトゥルース」に対する各モデルの検出レートは、より良く機能するモデルを選択するために比較される。このトレーニングのさらなる詳細は、図２Ｂを参照しながら以下で説明される。

[0060]また、２つのカメラ（たとえば、図１中のセンサ１２０および１３０）の同期は、ローカルプロセッサが画像処理をダブルチェックすることを可能にすることができる。たとえば、プロセッサ１５０は、各画像中の識別された人々の数を比較するか、あるいは一方の画像では見えるが他方の画像では見えにくいまたは見えないエラーを削除することができる。結果が互いに一致している場合、プロセッサ１５０は結果を記録することができる。そうでない場合、プロセッサ１５０は、画像のうちの少なくとも１つにおける、可能性のあるエラー（possible errors）を検出することができる。代替的に、プロセッサ１５０は、人間が介入するためのアラートを生成することができる。プロセッサ１５０はまた、これらの２つの画像から推定されたデータに関連付けられたフラグを生成し、このデータがあまり信頼できないことがあることを示すことができる。後続の分析では、問題となっている画像のこのペアの少し前または少し後に撮影された画像が、信頼できる人物認識を提供することができる場合、このデータはまったく使用されないことがある。

[0061]一例では、ローカルデバイス１０５は、画像データを撮影するために、常に可視センサ１２０およびＩＲセンサ１３０を使用する。別の例では、ローカルデバイス１０５は、画像データを撮影するために、センサ１２０またはセンサ１３０のうちの１つのみを使用することができる。また別の例では、ローカルデバイス１０５は、一方のセンサをデフォルトセンサとして使用し、他方のセンサをバックアップセンサとして使用することができる。たとえば、ローカルデバイス１０５は、画像撮影のために、大部分の時間ＲＧＢセンサ１３０を使用することができる。しかしながら、プロセッサ１５０が可視画像を満足できる程度に分析するのが困難な（たとえば、分析が所望されるほど信頼できるものでない）場合、プロセッサ１５０は、バックアップとしてＩＲセンサ１２０をオンにすることができる（またはその逆も同様である）。これは、たとえば、視聴エリアにおける周囲光レベルが低いときに起こり得る。

[0062]ローカルプロセッサはまた、視聴エリア中の人々の数と、視聴エリア中の人々の位置と、ディスプレイ上のビデオの識別情報とに基づいて、可視センサ、ＩＲセンサ、またはその両方のための画像取得レートを調整し得る（２１４）。概して、いずれか一方または両方のセンサについての画像取得は、実質的に毎秒約１５フレーム（ｆｐｓ）以上であり得る（たとえば、それらの間の任意の値およびサブレンジを含む、約１５ｆｐｓ、約２０ｆｐｓ、約３０ｆｐｓ、約５０ｆｐｓまたはさらに大きい）。この画像取得レートにおいて、センサは、ローカルプロセッサが視聴者エンゲージメントを評価するのに十分なだけ、眼球運動を検出することができる（２０６）。

[0063]ローカルプロセッサは、視聴エリア１０１中の人々の数に基づいて、画像取得レートを増加または減少させ得る。たとえば、プロセッサが視聴エリア１０１に誰もいないと決定した場合、プロセッサは、電力およびメモリ消費を低減するために、画像取得レートを低減し得る。同様に、（たとえば、視聴者が眠っているように見えるので）視聴者がビデオにエンゲージしていないとプロセッサが決定した場合、プロセッサは、電力、メモリ、またはその両方を節約するために、画像取得レートを低減し得る。逆に、視聴者がその注意（attention）をすばやくシフトしているように見える場合、視聴者がテンポの速いビデオ（たとえば、フットボールの試合またはアクション映画）を見ている場合、視聴者がすばやくチャンネルを変更している（たとえば、チャンネルサーフィンをしている）場合、または（たとえば、一連の広告の間に）コンテンツが比較的すばやく変化している場合、プロセッサは、画像取得レートを（たとえば、１５ｆｐｓよりも大きく）増加させ得る。

[0064]システムがＩＲ画像センサと可視画像センサの両方を含む場合、ローカルプロセッサはまた、照明条件または相対的画像品質に基づいて、画像取得を変化させ得る。たとえば、低光量条件では、ローカルプロセッサは、可視画像よりも高いレートでＩＲ画像を取得し得る。同様に、ローカルプロセッサが、可視画像を処理してＩＲ画像よりも良好な結果を得る場合、ローカルプロセッサは、ＩＲ画像よりも高いレートで可視画像を取得し得る（または反対が真の場合、その逆も同様である）。

[0065]システムはまた、マイクロフォン１４０を用いて、ビデオのサウンドトラックのサンプルを記録する（２２０）。概して、オーディオデータ取得レートまたはオーディオサンプリングレートは、画像取得レートより低い。たとえば、マイクロフォンは、３０秒ごとに１回のレートでオーディオサンプルを取得する。各取得では、マイクロフォン１４０は、オーディオサンプルに関連付けられたビデオの識別を可能にするように、有限持続時間を有するオーディオサンプルを記録する。オーディオサンプルの持続時間は、実質的に５秒以上であり得る（たとえば、それらの間の任意の値およびサブレンジを含む、約５秒、約６秒、約８秒、約１０秒、約２０秒、または約３０秒）。

[0066]ローカルプロセッサは、ディスプレイ上で再生されているビデオを識別するために、マイクロフォン１４０によって記録されたオーディオサンプルを使用する（２２２）。たとえば、プロセッサ１５０は、オーディオデータのフィンガープリントを作成し、サードパーティアプリケーションプログラミングインターフェース（ＡＰＩ）にクエリを実行するために該フィンガープリントを使用することができ、サードパーティアプリケーションプログラミングインターフェース（ＡＰＩ）は、そのクエリに対して、オーディオデータに関連付けられたビデオの識別情報で応答する。別の例では、プロセッサ１５０は、ビデオの識別情報を決定するために、フィンガープリントをローカルテーブルまたはメモリと比較することができる。

[0067]上述のように、ビデオを識別するためにビデオサウンドトラックのサンプルを使用することは、ビデオを識別するための従来のＴＶ調査デバイスによって使用されるデジタルウォーターマークに勝るいくつかの利点を与える。それは、デジタルウォーターマークをビデオ中に挿入することを必要とせず、コンテンツ製作者およびプロバイダと協調する必要をなくす。これにより、コンテンツ製作および配信が簡略化され、デジタルウォーターマークを提供することができないかまたは提供しない製作者および配信者を含む、より広範囲のビデオコンテンツを識別および評価することが可能になる。また、ローカルデバイスをケーブルまたはセットトップボックスに接続する必要をなくす。

[0068]さらに、デジタルウォーターマークの代わりにオーディオデータを使用することは、「フォールスポジティブ」のリスク、またはシステムが視聴エリア中の人々を検出し、ＴＶがオフのときでも実際に見られていないビデオを識別する場合の事例を低減する。これは、世帯のメンバが、ＴＶがオフのときでもセットトップボックスをオンのままにした場合に、セットトップボックスに取り付けられた従来のシステムで起こることがある。

[0069]いくつかの例では、ローカルプロセッサは、たとえば、ビデオの識別情報、視聴エリア中の人々の数、ビデオにエンゲージしている人々の数などに基づいて、オーディオサンプリングレートを調整する（２２４）。たとえば、ローカルプロセッサが単一のフィンガープリントからビデオを識別することができない場合（たとえば、ビデオサウンドトラックが、多くの異なるビデオサウンドトラック中に現れる流行歌を含むという理由で）、ローカルプロセッサおよびマイクロフォンは、あいまいさを解決するようにビデオを改善するために、より高いレートで、またはより長い持続時間のサンプルを取得し得る。プロセッサはまた、視聴エリア１０１に誰もいないか、または（たとえば、視聴者が眠っているように見えるので）視聴者がビデオにエンゲージしていない場合に、電力、メモリ、またはその両方を節約するために、オーディオサンプリングレートを減少させ得る。逆に、プロセッサは、視聴者がすばやくチャンネルを変更している（たとえば、チャンネルサーフィンをしている）場合に、または（たとえば、一連の広告の間に）コンテンツが比較的すばやく変化している場合に、オーディオサンプリングレートを増加させ得る。

[0070]実装形態に応じて、マイクロフォンは、一定の間隔で（すなわち、周期的に）、または不規則な間隔で（たとえば、非周期的にまたは時間変動する周期で）、オーディオサンプルを記録し得る。たとえば、マイクロフォンは、１日を通して一定のレート（たとえば、１分につき約２つのサンプル）で、オーディオデータを取得し得る。他の場合には、マイクロフォンは、ＴＶがオンであるかオンになりそうなとき（たとえば、夕方）、あるサンプリングレートで動作し、ＴＶがオフであるかオフになりそうなとき（たとえば、早朝、日中）、別の低いサンプリングレートで動作し得る。ローカルプロセッサが、オーディオサンプルからＴＶがオン（オフ）にされたことを検出した場合、ローカルプロセッサは、それに応じてサンプルレートを増加（減少）させ得る。また、オーディオサンプルからＴＶがオン（オフ）にされたことを検出したことに応答して、視聴エリアを撮像するのを開始（停止）するように画像センサをトリガし得る。

[0071]未処理の画像およびオーディオデータが処理されると、ローカルプロセッサは、未処理の画像およびオーディオデータを上書きするか、または未処理の画像およびオーディオデータをメモリから消去する（２３０）。言い換えれば、プロセッサ１５０が人間を検出および識別し、そのエンゲージメントおよび表情を測定する間、各画像はメモリ１５０に保持される。検出、識別、およびエンゲージメントデータはフレームごとに収集され、この情報は残存され、最終的にバックエンドサーバ１７０にアップロードされる。同様に、サードパーティＡＰＩがオーディオフィンガープリントを処理し、関連するビデオの識別情報を返す間、オーディオデータもメモリ１６０に保持される。識別情報は、以下で説明されるように、記憶されるか、および／またはバックエンドサーバ１７０にアップロードされる。

[0072]未処理の画像およびオーディオデータを上書きまたは消去（または場合によっては廃棄）することによって、ローカルプロセッサは、メモリの負担を低減し、視聴エリア中の個人を識別する能力を低減するかまたはなくす。このことは、システムをハッキングする潜在的試みに対してより少ない情報をさらすことによって、個人のプライバシーを守る。それはまた、個人の画像をサードパーティに送信する可能性をなくす。これは、児童オンラインプライバシー保護法（Children's Online Privacy Protection Act）による、視聴エリア中の子供のプライバシーを守るために特に有益である。

[0073]いくつかの場合には、ローカルプロセッサは、未処理の画像およびオーディオデータをメモリからアクティブに消去する。他の場合には、ローカルプロセッサは、あらかじめ決定された量（たとえば、１つの画像または１つのオーディオサンプル）を超える未処理の画像およびオーディオデータを記憶しないようにサイズ決定されたメモリ中の１つまたは複数のバッファに、その未処理の画像およびデータを記憶する。ローカルプロセッサは、次の画像またはオーディオサンプルがバッファを上書きするように、サンプル間の時間期間中に未処理の画像およびデータを分析する。

[0074]ローカルプロセッサ１５０はまた、処理されたデータをメモリ１６０に記憶する。処理されたデータは、メモリ要件を低減するために、カンマ区切り変数（ＣＳＶ）などの比較的コンパクトなフォーマットで記憶され得る。ＣＳＶまたは他のファイル中に含まれるデータは、たとえば、各画像中に誰かが存在するかどうか、各画像中の視聴エリア１０１中の人々の数、視聴エリア１０１中のディスプレイ１１を実際に見ている人々の数、各視聴者の感情の分類、および各視聴者の識別情報を示し得る。処理されたデータはまた、ＩＲ画像取得レート、可視画像取得レート、オーディオサンプリングレート、現在のソフトウェア／ファームウェアアップデートなどを含む、ローカルデバイスの動作状態に関する指示を含み得る。

[0075]ローカルプロセッサは、記憶のためにまたはさらなる処理のために、処理されたデータを（たとえば、ネットワークインターフェースを介して）リモートサーバに送信する（２３６）。処理されたデータが比較的コンパクトなフォーマットであるので、アップロード帯域幅は、未処理の画像およびオーディオデータの場合よりも、はるかに低い。また、送信されたデータは、視聴エリアの画像、または視聴者の音声を含み得るオーディオサンプルを含まないので、視聴者のプライバシーを脅かすリスクがあまりない。さらに、未処理の画像およびオーディオ画像がリモートサーバに送信され、該リモートサーバによって処理される場合よりも、処理されたデータのオーディオおよび画像部分は、それらがローカルに処理されるので、同期されており、引き続きそのままである可能性が高い。

[0076]いくつかの場合には、ローカルプロセッサは、処理されたデータを、それが処理されるにつれてリモートに送信し得る。他の場合には、ローカルプロセッサは、たとえば、利用可能なアップストリーム帯域幅、データの量などに基づいて、送信ウィンドウを識別し得る（２３４）。これらの送信ウィンドウは、あらかじめ決定されるか（たとえば、ＥＴ午前２時）、ローカルデバイスの取付け中に世帯のメンバによって設定されるか、（たとえば、ソフトウェアまたはファームウェアアップデートを介して）リモートサーバによって設定されるか、または帯域幅測定値に基づいてローカルプロセッサによって決定され得る。

[0077]図２Ｂは、視聴者エンゲージメントを定量化するためのコンピュータビジョンモデルをトレーニングする方法を示す。２４１において、ＲＧＢセンサとＩＲセンサの両方は、２つのタイプの処理を受けるビデオデータを取得する。２４２ａにおいて、ビデオデータは、各フレーム中の顔を識別するために、手作業で注釈を付けられる。２４２ｂにおいて、現在のモデル（たとえば、デフォルトモデルまたは前の使用からのモデル）が、各フレーム中の顔を自動的に検出するためにｓｕｅｄされる。２４３ｂにおいて、２４２ａにおいて取得された注釈付きビデオに対する、２４２ｂにおける自動検出の精度を算出するために、プロセッサが使用される。２４４において、精度が許容できる場合、方法２４０は２４５に進み、ここで、現在のモデルは（たとえば、方法２００において使用される）顔認識のためのプロダクションモデルとして設定される。精度が許容できない場合、方法２００は２４３ａに進み、ここで、ビデオは、ビデオのトレーニングセット（２４６ａ）とビデオのテストセット（２４６ｂ）とに分割される。たとえば、ＲＧＢビデオがトレーニングビデオ２４６ａとして選択され得、ＩＲビデオがテストビデオ２４６ｂとして選択され得る（またはその逆も同様である）。

[0078]トレーニングビデオ２４６ａは、２４７ａにおいて新しいモデルをトレーニングするために送られ、一方、テストビデオ（２４６ｂ）は、新しいモデルをテストするためにステップ２４７ｂに送られる。２４７ｂにおいて、トレーニングビデオ２４６ａおよびテストビデオ２４６ｂは、２４７ｃにおいて新しいモデルの精度を算出するために、一緒に収集される。２４９において、プロセッサは新しいモデルの精度を再び算出する。精度が許容できる場合、新しいモデルはプロダクションモデルとして設定される（２４５）。そうでない場合、方法２４０は２４８に進み、ここで、新しいモデルのパラメータが調整される。代替的に、２４８において、別の新しいモデルが構築され得る。いずれの場合も、新しいモデルのパラメータが２４７ａに送られ、ここで、トレーニングビデオ２４６ａが、新しいモデルをトレーニングするために使用される。このようにして、許容できる精度を有するように、新しいモデルが反復的に構築され得る。

[0079]リモートサーバ動作
[0080]動作中、リモートサーバ１７０は、異なる世帯に配設された異なるローカルデバイス１０５から送信されたデータを収集する。リモートサーバ１７０は、定期的に着信データを読み取ることができる。リモートサーバ１７０はまた、受信データを構文解析し、各々が保存されたときのタイムスタンプを使用して、ビデオ認識データをオーディオ認識データと結びつけることができる。

[0081]リモートサーバ１７０はまた、誤ったラベルを付けられたデータを正すことができる。たとえば、リモートサーバ１７０は、視聴者が識別されないかまたは誤識別されたときに、先行するまたは後続のタイムスタンプからのデータを使用してブリップを修正する（fix blips）ことができる。人物が、問題となっている画像に先行する画像中で識別され、問題となっている画像に後続する画像中でも識別された場合、リモートサーバ１７０は、この人物が問題となっている画像にも現れると決定することができる。

[0082]リモートサーバ１７０はまた、ローカルデバイス１０５から受信されたデータおよび／またはリモートサーバ１７０によって処理されたデータを、照会可能データベース（query-able database）にロードすることができる。一例では、リモートサーバ１７０はまた、ユーザにアクセスを与えることができ、その場合、ユーザは記憶されたデータを分析のために使用することができる。別の例では、照会可能データベース中の記憶されたデータはまた、リモートサーバ１７０によって実行されるさらなる分析を可能にすることができる。たとえば、リモートサーバ１７０は、データベースを使用して、注意インデックスおよび視聴者インデックスを計算することができる。

[0083]視聴者エンゲージメントを評価すること
[0084]図３Ａ〜図６は、視聴可能性インデックスおよび注意インデックスなどの尺度を使用して、ビデオとの視聴者エンゲージメントを定量化する方法を示す。以下の定義は、ビデオとの視聴者エンゲージメントを定量化するための本発明の方法および装置を理解するのに役立ち得る。

[0085]番組持続時間（Program Duration）は、たとえば、秒、分、または時間単位の、一意の番組の合計持続時間として定義される。異なる番組の持続時間が比較され得る限り、使用される実際の単位（秒、分、または時間）は重要でない。

[0086]コマーシャル持続時間（Commercial Duration）は、一意のコマーシャルの（たとえば、秒または分単位の）合計持続時間として定義される。

[0087]ウォッチング持続時間（Watching Duration）（秒）は、世帯ごとの、一意の番組またはコマーシャルの見られた合計持続時間（秒数）として定義される。代替的に、ウォッチング秒（Watching Second）は、秒単位の番組の合計持続時間から、どの世帯も番組を見ていない間の（秒単位の）合計時間を引いたものとして定義され得る。

[0088]総合ウォッチング持続時間（Aggregated Watching Duration）（秒）は、すべての世帯にわたる、一意の番組またはコマーシャルの見られた合計持続時間（秒数）として定義される。

[0089]ポジティブ持続時間比（Positive Duration Ratio）は、見られた番組またはコマーシャル広告のパーセンテージ（％）として定義される。より具体的には、番組または広告のポジティブ持続時間比は、番組または広告の合計持続時間×世帯の数分の、総合ウォッチング持続時間の比として計算され得る。

[0090]視聴者カウント（ＶＣ：Viewer Count）は、所与の番組またはコマーシャル広告について正のウォッチング秒をもつすべての世帯にわたる、視聴エリア中の視聴者の合計数として定義される。

[0091]ウォッチングレート（ＷＲ：Watching Rate）は、すべての世帯中の人々の合計数分の、ＴＶがオンであるすべての世帯にわたる人々の合計数の比として定義される。たとえば、本方法が合計３００人を有する１００世帯を考慮に入れる場合。１００人を有する３０世帯が、ＴＶ受像機をオンにした場合、ウォッチングレートは、３３．３％（すなわち、１００／３００）である。ただし、同じ３０世帯が１５０人を有する場合、ウォッチングレートは５０％（すなわち、１５０／３００）である。

[0092]視聴レート（ＶＲ：Viewing Rate）は、オンであるＴＶ受像機の合計数分の、すべての世帯にわたる視聴エリア中の人々の合計数の比として定義される。たとえば、４０個の異なるＴＶ受像機によって定義される視聴エリアに１００人がいる場合（各ＴＶ受像機は１つの視聴エリアを定義する）、視聴レートは２．５（すなわち、１００／４０）である。

[0093]注意レート（ＡＲ：Attention Rate）は、すべての世帯にわたる視聴エリア中の人々の合計数分の、すべての世帯にわたるＴＶに注意している人々の合計数の比として定義される。たとえば、本方法によって考慮に入れられるすべての個人にわたって１００人が視聴エリア中にいるが、６０人のみがＴＶを実際に見ている（残りの４０人は、他のことをしながらただＴＶをオンにままにし得る）場合、注意レートは０．６または６０％である。

[0094]視聴可能性インデックス（ＶＩ：Viewability Index）は、各番組およびコマーシャルについての視聴レート（ＶＲ）の平均として定義される。

[0095]注意インデックス（Attention Index）は、各番組およびコマーシャルについての注意レート（ＡＲ）の平均として定義される。

[0096]図３Ａは、顔および眼球追跡３１０、顔認識３２０、ならびに感情分析３３０を含む、視聴者エンゲージメントを評価する方法３００（たとえば、図２Ａの方法２００におけるボックス２０６）を示す。プロセッサ（たとえば、図１に示されているローカルプロセッサ１５０）が、方法３００を実装するために使用され得る。方法３００における入力データは、視聴エリアの画像データ、オーディオデータ、または深度データなど、図１に示されているローカルデバイス１０５によって取得されたデータであり得る。顔が動くにつれてそれを追跡するための特徴的データポイントを識別し、ユーザがスクリーンを見ているかどうかを決定するために、顔および眼球追跡３１０が採用される。たとえば、人工知能を使用して、視聴者の識別情報を決定するために、顔認識３２０が採用される。たとえば、特に、顔の特徴、ジェスチャ、および心拍数を分析するための人工知能を使用して、視聴者の感情を決定するために、感情分析３３０が採用される。

[0097]視聴者がスクリーンを実際に見ているかどうか、視聴者の識別情報、および視聴者の感情を含む、取得された情報は、様々なビデオレーティング３４０を決定するために使用される。一例では、取得された情報は、各世帯について個々のビデオレーティングを推定するために使用される。別の例では、取得された情報は、各人口統計学的領域について個々のビデオレーティングを推定するために使用される。また別の例では、取得された情報は、ビデオのグループについて全体的ビデオレーティングを推定するために使用される。また別の例では、取得された情報は、特定のビデオ（たとえば、番組および広告）に対するオーディエンス反応を推定するために使用される。取得された情報はまた、以下で説明されるように、視聴可能性インデックスおよび注意インデックスなど、視聴者エンゲージメントの定量的尺度を決定するために使用され得る。

[0098]方法３００におけるステップ３１０、３２０、および３３０は、パターン認識技法を使用して達成され得る。これらの技法は、たとえば、１つまたは複数の人間の顔を認識することによって、視聴者が視聴エリア中に存在するかどうかを決定することができる。実際に顔が認識された場合、これらの技法は、たとえば、認識された顔を、ビデオが再生している世帯の顔データを含むデータベースと比較することによって、視聴者が誰であるかをさらに決定することができる。代替的に、これらの技法は、視聴者が世帯からではない場合に備えて、より多くの人々（たとえば、可能な場合コミュニティ全体）の顔データを含むように拡張されたデータベースを使用し得る。これらの技法はまた、たとえば、視聴者がビデオを見ているかどうかを決定するために、顔の動きを追跡し、顔の向きを分析することができる。

[0099]人工知能、機械学習、およびトレーニングされたニューラルネットワーク学習技法も、視聴者の感情を分析するために使用され得る。この目的で、これらの技法は、特に、ボディジェスチャ（ある時点における静的ジェスチャ）、身体の動き（ジェスチャの変化）、顔の向き、顔の方向（direction）／動き／位置、および心拍数を分析する。

[0100]別の例では、方法３００は、たとえば、図１に示されているＲＧＢセンサ１４０およびＩＲセンサ１２０によって取得された画像データから、最初に顔を認識することができる。方法２００はまた、顔の位置を検出し、顔の特徴的ポイント（たとえば、図２Ａに示されている眼および口の境界ポイント）を識別し、顔が動くにつれてそれを追跡することができる。眼球追跡技法を使用して、方法３００は、ビューがビデオを実際に見ている（または、代わりに、ただ視聴エリアに座っているが、何か他のことをしている）かどうか、を決定することができる。次いで、トレーニングされたニューラルネットワーク学習の技法を使用して、方法３００は、同様の位置にあるデータベースからの顔の特徴を比較することによって、視聴者を世帯中の知られている人物と照合することができる。視聴者が識別されると、方法３００は、ユーザの気分および／または感情を決定するために、顕著な顔の構成について視聴者を継続的に追跡することができる。

[0101]方法３００はまた、特定のタイミングポイントにおいてどのビデオが再生されているかを確かめるために、（たとえば、図１に示されているマイクロフォン１４０によって取得された）オーディオデータを、ビデオ（たとえば、ＴＶショー）および他のオーディオのオーディオデータベースと比較することができる。一例では、ビデオ照合（video matching）は、方法３００によって識別された視聴者によってどのＴＶ局が視聴されているかを決定することができる。別の例では、ビデオ照合は、視聴者によってどのＴＶ番組が視聴されているかを決定することができる。また別の例では、ビデオ照合は、どのコマーシャル広告が視聴されているかを決定することができる。代替または追加として、視聴されているＴＶチャンネル、番組、または広告は、限定はしないが、ケーブルまたは衛星放送用セットトップボックス、あるいは他の番組プロバイダのハードウェアまたはブロードキャスト信号を含む、他のソースから収集されたデータから決定され得る。

[0102]図３Ｂは、本明細書で説明される視聴者エンゲージメントを定量化するための技法を介して推定され得る、視聴可能性インデックスおよび注意インデックスの概念を示す。概して、視聴可能性インデックスは、スクリーン上にあるものが人々を部屋に連れてくる傾向を定量化する。注意インデックスは、スクリーン上にあるものが視聴オーディエンスをエンゲージさせる傾向を定量化する。言い換えれば、視聴可能性インデックスは、ビデオ（または他の表示されたコンテンツ）が最初に視聴者を引きつける確率と考えられ得、注意インデックスは、視聴者がすでに視聴エリアにいるときから、ビデオが視聴者をディスプレイの前にとどめる確率と考えられ得る。図３Ｂに示されているように、視聴可能性インデックスは、視聴エリア中に存在する人々の数に依存し、注意インデックスは、ディスプレイを実際に見ている人々数に依存する。

[0103]視聴可能性インデックスおよび注意インデックスを用いて視聴者エンゲージメントを評価すること
[0104]図４Ａは、視聴可能性インデックスを使用して視聴者エンゲージメントを定量化する方法４０１を示す。方法４０１はプロセッサによって実装され得る。方法４０１は、たとえば、図１に示されているシステムにおけるローカルデバイス１０５を取り付けるかまたは使用することを介して本方法に参加する複数の世帯中の各世帯において、プロセッサによって画像データが取得される、ステップ４１１において開始する。画像データは、ビデオ（たとえば、ＴＶ番組、広告、ユーザリクエストビデオ、または他の任意のビデオ）を再生することができるディスプレイの前の視聴エリアの画像を含む。さらに、プロセッサはまた、ステップ４１１において、ディスプレイがビデオを示しているかどうかを決定する。ステップ４２１において、プロセッサは、ディスプレイによって再生される各ビデオについて、視聴レートおよびウォッチングレートを推定する。視聴レートは、上記で定義したように、ビデオを示しているディスプレイの合計数に対する、視聴エリア中の人々の合計数の比を表す。同様に、ウォッチングレートは、上記で定義したように、複数の世帯中の人々の合計数に対する、ディスプレイがビデオを示している世帯中の人々の合計数の比を表す。

[0105]視聴レートおよびウォッチングレートの推定は、ステップ４１１において取得された画像データと、複数の世帯中の各世帯に関する人口統計学的情報とに基づく。人口統計学的情報は、プロセッサが人口統計学的情報を容易に検索することができるように、プロセッサに動作可能に結合されたメモリに記憶され得る。別の例では、プロセッサは、別のサーバから人口統計学的情報を取得することができる。ステップ３３０において、プロセッサは、複数のビデオ中の各一意のビデオについて、視聴レートおよびウォッチングレートに基づいて視聴可能性インデックスを決定する。視聴可能性インデックスは、番組およびコマーシャルなど、各ビデオについての視聴レートの平均として上記で定義される。

[0106]方法４０１は、ディスプレイによって再生された各ビデオの視聴者カウントおよびポジティブ持続時間比を推定することをさらに含むことができる。該推定は、画像データと、複数の世帯中の各世帯に関する人口統計学的情報とに基づく。上記で定義したように、視聴者カウントは、各一意のビデオにエンゲージしている人々の合計数を表し、ポジティブ持続時間比は、一意のビデオの持続時間に対する、複数の世帯中の人々が一意のビデオを見ることによって費やされた合計時間の比を表す。

[0107]視聴者カウントおよびポジション持続時間比に基づいて、均衡視聴可能性インデックス（balanced viewability index）が決定され得る。一例では、均衡視聴可能性インデックスは、所与の各番組およびコマーシャルについて、視聴者カウントおよびポジティブ持続時間比を考慮に入れることによる、視聴可能性インデックス（ＶＩ）の加重平均として計算され得る。別の例では、均衡視聴可能性インデックスは、複数のビデオ中の一意のビデオにわたる視聴可能性インデックスを正規化することによって、計算され得る。

[0108]方法４０１は、平均視聴可能性インデックスを生成するために、有限時間期間の間のすべての番組およびコマーシャルにわたる視聴可能性インデックスを平均化することをさらに含むことができる。各番組およびコマーシャルの視聴可能性インデックスは、広告代理店、ＴＶ局、または他のコンテンツプロバイダなど、ユーザのための最終的な視聴可能性インデックス（無次元量）を生成するために、（たとえば、毎日、毎週、または毎月、算出される）平均視聴可能性インデックスで除算され得る。一例では、有限時間期間は、約２週間である。別の例では、有限時間期間は、約１か月である。また別の例では、有限時間期間は、約３か月である。

[0109]画像データは、様々な取得レートで取得され得る。一例では、画像データは毎秒５０回撮影され得る（５０Ｈｚ）。一例では、画像データは毎秒３０回撮影され得る（３０Ｈｚ）。また別の例では、画像データは１秒ごとに撮影され得る（１Ｈｚ）。また別の例では、画像データは２秒ごとに撮影され得る（０．５Ｈｚ）。また別の例では、画像データは５秒ごとに撮影され得る（０．２Ｈｚ）。さらに、方法３００は、世帯の人口統計学的情報を考慮に入れて視聴者エンゲージメント情報を導出するように、視聴エリア中の視聴者ごとに画像データを撮影および分類することができる。

[0110]図４Ｂは、注意インデックスを使用してビデオとのユーザエンゲージメントを定量化する方法４０２を示す。方法４０２は、視聴者エンゲージメント評価に参加する各世帯について、ディスプレイの前の視聴エリアの画像データが撮影される、ステップ４１２を含む。ステップ４１２において、プロセッサは、（たとえば、図１に示されているローカルデバイス１０５中のマイクロフォン１４０によって取得されたオーディオデータを介して）画像データが撮影されたとき、ディスプレイがビデオを示しているかどうかを決定する。ステップ４２２において、ディスプレイによって再生された各ビデオについて、プロセッサは、画像データと世帯に関する人口統計学的情報とに基づいて注意レートを推定する。上記で定義したように、注意レートは、視聴エリア中の人々の合計数に対する、ビデオにエンゲージしている人々の合計数の比を表す。ビデオの注意レートに基づいて、ステップ４３２において、ビデオの有効性を示すために注意インデックスが決定される。

[0111]方法４０２は、ディスプレイによって再生されたビデオの視聴者カウントおよびポジティブ持続時間比（positive duration ratio）を推定することをさらに含むことができる。方法４０１と同様に、方法４０２は、画像データと各世帯に関する人口統計学的情報とに基づいて、視聴者カウントおよびポジティブ持続時間レーション（positive duration ration）を決定することができる。視聴者カウントおよびポジティブ持続時間レーションを使用して、プロセッサは、次いで、均衡注意インデックスを決定することができる。方法４０２は、所与の時間期間（たとえば、１週間または１か月）にわたって、複数のビデオ中の一意のビデオにわたる注意インデックスを正規化することによって、正規化された注意インデックスを生成することを含むことができる。

[0112]方法４０２は、平均注意インデックスを生成するために、有限時間期間の間のすべての番組およびコマーシャルにわたる注意インデックスを平均化することをさらに含むことができる。各番組およびコマーシャルの注意インデックスは、広告代理店、ＴＶ局、または他のコンテンツプロバイダなど、顧客のための最終的な注意インデックス（無次元量）を生成するために、平均注意インデックスで除算され得る。

[0113]顔認識技法を使用して視聴者エンゲージメントを評価すること
[0114]図５は、顔認識技法および他の人工知能技法を使用して、ビデオとの視聴者エンゲージメントを評価する方法を示す。方法５００は、（たとえば、図１に示されているシステムを使用して）ディスプレイの前の視聴エリアの画像がキャプチャされる、ステップ５１０において開始する。取得された各画像について、視聴エリア中の人々の数がステップ５２０において推定される。一例では、推定は、たとえば、顔認識技法を使用して実行され得る。別の例では、推定は、身体骨格検出に基づいて実行され得る。

[0115]ステップ５３０において、ディスプレイに対して、視聴エリア中の各人物の顔の向きが決定される。たとえば、顔の向きはディスプレイに向かっていることがあり、これは、視聴者がディスプレイ上のビデオを実際に見ていることを示し得る。代替的に、顔の向きはディスプレイから離れていることがあり、これは、視聴者がディスプレイの視聴エリア内にいるが、その人はビデオを見ていないことを示し得る。したがって、視聴者の顔の向きに基づいて、プロセッサは、ステップ５４０において、視聴エリア中の各人物が実際にビデオにエンゲージしているかどうかを評価することができる。ビデオを実際に見ている人々を見ていない人々と区別することによって、プロセッサは、ビデオの有効性のより精確な決定を行うことができる。ビデオの有効性は、たとえば、ビデオがどのくらいの時間の間、視聴者をエンゲージしている状態に保つことができるかによって、定量化され得る。

[0116]骨格、顔、識別情報、感情、およびエンゲージメントを検出すること
[0117]図６は、骨格、顔、識別情報、感情、およびエンゲージメントを検出する方法６００を示すフローチャートであり、これは、上記で説明された視聴者エンゲージメント評価のために使用され得る。方法６００は、プロセッサ（たとえば、プロセッサ１５０またはリモートサーバ１７０中のプロセッサ）によって実装され得る。方法６００は、（たとえば、メモリによって、または図１に示されているＲＧＢセンサ１３０など、画像撮影デバイスから直接）ディスプレイの前の視聴エリアの画像データが与えられる、ステップ６１０において開始する。ステップ６２０において、プロセッサは、画像データから骨格フレーム（すなわち、可能性のある少なくとも１の視聴者の画像を含む画像フレーム、たとえば、図２Ａ中の２３０を参照）を取得する。ステップ６３０において、処理ループが開始され、ここで、プロセッサは、顔認識、感情分析、およびエンゲージメント決定を含む、さらなる処理のために、各骨格フレームについて６つの個々の骨格データポイント／セットを使用する。骨格データが処理されると、方法６００は、リフレッシュステップ６２５を介して、ステップ６２０における骨格フレーム取得に戻る。

[0118]方法６００におけるステップ６３５は判定ステップであり、ここで、プロセッサは、骨格フレーム中の選択された骨格データにおいて骨格が検出されたかどうかを判定する。検出されない場合、方法６００はステップ６３０に戻り、ここで、新しい骨格データが処理のためにピックアップされる。少なくとも１つの骨格が検出された場合、方法６００はステップ６４０に進み、ここで、画像データ中の視聴者の頭部エリアを識別するためのバウンディングボックスが生成される。バウンディングボックスは、たとえば、骨格情報に基づいて、たとえば、全体的骨格から頭部を識別することによって、生成され得る。

[0119]再び、ステップ６４５は判定ステップであり、ここで、プロセッサは、バウンディングボックスが生成されたかどうか（すなわち、頭部エリアが検出されたかどうか）を判定する。画像が視聴者の全体的骨格を含むが、視聴者の頭部部分が遮られ、したがって画像にない可能性がある。この場合、方法６００は、プロセッサが新しい骨格データをピックアップしたステップ６３０に再び戻る。バウンディングボックスが検出された場合、方法６００はステップ６５０に進み、ここで、プロセッサは、（顔検出とも呼ばれる）第２のレベルの顔認識を行う。このステップにおいて、プロセッサは、ステップ６４０において生成されたバウンディングボックス内の人間の顔を検出することを試みる。顔検出は、たとえば、ＯｐｅｎＣＶにおけるＨａａｒ特徴ベースカスケード分類器（Haar Feature-based Cascade Classifier）を使用して実行され得る。さらなる情報は、その全体が参照により本明細書に組み込まれる米国特許第８，４４７，１３９（Ｂ２）号において見つけられ得る。

[0120]ステップ６５５において、プロセッサは、ステップ６５０において顔が検出されたかどうかを判定する。検出されない場合、ステップ６６０において第１のレベルの顔認識が実行される。この第１のレベルの顔認識ステップは、ステップ６５０において実行される第２のレベルの顔認識と実質的に同様であり得る。顔検出をもう１回実行することは、顔認識技法の偶発的失敗の可能性を低減し得る。ステップ６６５は、ステップ６５５と同様の判定ステップであり、ここで、プロセッサは、顔が検出されたかどうかを判定する。

[0121]第１のレベルの顔認識または第２のレベルの顔認識のいずれかにおいて顔が検出された場合、方法６００は、顔特徴検出または顔キーポイント検出とも呼ばれる、顔ランドマーク検出を実行するためのステップ６７０に進む。ステップ６７０は、異なる顔の特徴（たとえば、眼、眉、および口の隅、鼻の先端など）のロケーションを決定するために採用される。顔ランドマーク検出のさらなる情報は、それらの全体が本明細書に組み込まれる、米国特許公開第２０１４／００５０３５８（Ａ１）号および米国特許第７，７５１，５９９（Ｂ２）号において見つけられ得る。

[0122]ステップ６７２において、プロセッサは、ステップ６７０において顔ランドマークが検出されたかどうかを判定する。検出されない場合、方法６００は、さらなる処理のために別の骨格データを選択するためのステップ６３０に戻る。少なくとも１つの顔ランドマークが検出された場合、判定ステップ６７４において、プロセッサはさらに、ステップ６５０における第２のレベルの顔認識において顔が検出されたかどうかを判定する。ＹＥＳの場合、方法６００はステップ６９０に進み、ここで、検出された顔が識別され（すなわち、視聴者が誰であるかを決定し）、その後に、本方法はステップ６８０に進み、ここで、顔ランドマークに基づく顔の感情が予測される。ステップ６７４において、プロセッサがステップ６５０において顔が検出されなかったことを発見した場合、方法６００は、プロセッサが視聴者の感情を推定するためのステップ６８０に直接進む。感情分析は、たとえば、ＯｐｅｎＣＶにおけるサポートベクターマシン（ＳＶＭ）を使用して実行され得る。さらなる情報は、その全体が本明細書に組み込まれる米国特許第８，４８８，０２３号において見つけられ得る。

[0123]一例では、図３〜図６に示されている方法は、ビデオの持続時間またはビデオの視聴者カウントにかかわらず、（ＴＶ番組および広告を含む）すべての利用可能なビデオを分析する。別の例では、図３〜図６に示されている方法は、視聴者エンゲージメントの定量分析を実行する前に、短すぎるかまたはあまりに小さい視聴者カウントを有するかのいずれかであるビデオを除外するための予備的フィルタ処理を実行する。このようにして、定量分析は、より統計的に信頼できる結果になり得る。たとえば、有限量未満の時間（たとえば、３０秒未満、２０秒未満、または１０秒未満）の間見られたビデオが除外され得る。さらに、有限期間（たとえば、１か月、２週間、または１週間）にわたって、一定数未満の人々（たとえば、２０人未満、１５人未満、または１０人未満）によって見られたビデオも除外され得る。

[0124]一例では、図３〜図６に示されている方法は、ライブＴＶ番組上で実行される。別の例では、図３〜図６に示されている方法は、録画されたＴＶ番組上で実行される。番組のタイミングが、（たとえば、ＴＶ局のデータベースからの）それの元の「フィンガークリエーションタイムスタンプ（finger creation timestamp）」から１０分よりも大きくシフトしたことが認識された場合、番組は録画ウォッチングとして決定される。他の場合、番組はライブウォッチングとして決定される。

[0125]コマーシャルメッセージ（ＣＭ）効果の実験的評価
[0126]このセクションは、コマーシャルメッセージ（ＣＭ）効果管理を考察するための、精確な視聴データ収集および分析について説明する。「視聴可能性」と呼ばれるインデックスは、人物が「ＴＶの前に」いるときを示す。視聴可能性インデックスは、この説明のためにおよびデータを生成する調査のために作成された。調査は、３０世帯からの８４人のサンプルを用いて、２週間行われた。ＣＭ曲線は、２つのシーン間の視聴可能性レートの時系列曲線を示すパターンとして定義される。シーン間のＣＭのパーソナル視聴レートは一定であり得るが、視聴可能性レートは変化し得る。調査結果は、ＣＭ曲線の７つのパターンがあることを示す。ＣＭの長さおよび視聴可能性レートの変数は、ＣＭ曲線の形状に有意に寄与することがある。さらに、多項ロジットモデル（multinomial logit model）が、ＣＭ曲線を決定するのに役立ち得る。

[0127]この実験は、コマーシャルメッセージ（ＣＭ）と、番組と、人間の視聴態度との間の関係を調査した。実験はまた、上記で説明されたシステムおよび方法を特徴づけた。ブロードキャストタイミングおよびＴＶ局などの番組情報と視聴態度との間の相関が統計的方法を使用して分析された。現在、日本で使用されるパーソナルオーディエンスレーティング調査は、ＴＶのリモコン上のカラーボタンを通して人々を登録し、ＴＶ視聴の開始および終了時にその人々がカラーボタンを押したときに記録する。さらに、ピープルメータ（ＰＭ）インジケータは、ＴＶオーディエンスが何を見たか、および誰が番組を見たかを記録する（参照により本明細書に組み込まれる、ＰＤＦフォーマットでＶＩＤＥＯＲ．ＣＯＭウェブサイトにおいて入手可能な、Video Research Ltd.(2014):「TV rating handbook」）。ただし、このオーディエンスレーティング調査は、通常、オーディエンスレーティングが精確にキャプチャされた場合でも、集中した（focused）視聴と何気ない（casual）視聴とを区別することを可能にしない。

[0128]HirakiおよびIto（参照により本明細書に組み込まれる、Hiraki, A.およびIto, K.(2000): Cognitive attitudes to television commercials based on eye tracking analysis combined with scenario, Japanese Journal of Human Engineering, Vol.36、２３９〜２５３ページ）は、眼球運動分析に基づく視覚情報を使用した画像認識へのＣＭの影響を分析するための方法を提案した。HirakiおよびItoは、再現された視聴状況の環境において、実際のＣＭを用いてＣＭ視聴実験を行った。HirakiおよびItoによれば、聴覚および視覚情報は商品理解を妨げることがある。

[0129]この実験では、パーソナルオーディエンスレーティングのほかに、システムによってキャプチャされる物理的存在のインジケータが、視聴態度を測定するために使用された。たとえば、ＣＭ中に、人々は座席を離れ、ＴＶの前に座ることなしに互いに注意を向けることがある。したがって、ＣＭ中の視聴態度は、２つのインデックス、すなわちパーソナルオーディエンスレーティングと物理的存在とを使用して統計的に分析された。後者のインデックスは、本明細書では「視聴可能性（viewability）」と呼ばれる。

[0130]３０世帯からの８４人の視聴態度調査実験は、２０１４年の１１月中旬から１１月の終わりまで行われた。データは、１４日間にわたって１日２４時間採取された。

[0131]図７は、ＴＶ７０２または他のディスプレイ上に示される番組または広告との、視聴エリア７０１中の視聴者のエンゲージメントを測定するデータ取得システム７００の概略図を示す。システム７００は、ＴＶ７０２がオンである間、視聴エリア７０１の画像をキャプチャする画像センサ７１０を含む。システム７００はまた、画像センサ７１０からの画像データを記憶および処理し、通信ネットワークを介して未処理のおよび／または処理された画像データをサーバ（図示せず）に通信する、コンピューティングデバイス７５０を含む。

[0132]いくつかの場合には、コンピューティングデバイス７５０および／またはサーバは、パーソナルオーディエンスレーティングに加えて視聴可能性を測定する。視聴可能性は、「ＴＶの前にいること」を示し、この用語は、左に７０度および右に７０度の間でＴＶの前面に顔を向けている、ＴＶから約０．５ｍ〜約４ｍの距離内のオーディエンスとして定義される。一例では、視聴可能性は、１秒のレートでキャプチャされ、それは、すべてのサンプル（この場合、８４）で除算された１秒間のサンプル数を示す。

[0133]図８Ａ〜図８Ｇは、パーソナルオーディエンスレーティングによって除算された視聴可能性の値の遷移を示す、ＣＭ曲線の７つの異なる形状を示す。この値は、ＴＶを実際に見ている人々のパーセンテージを示すことができる。

[0134]ＣＭ曲線の形状の差について説明するために、データの分類およびモデル化が実行され得る。この実験において採用される分析の方法は、以下で説明される。第一に、多項ロジットモデル（たとえば、参照により本明細書に組み込まれる、Agresti, A. Categorical data analysis. John Wiley & Sons(2013)参照）が、データモデル化のために採用され得る。次いで、少なくとも、サンプルサイズ（１，０６５）が大きいので、非階層クラスタリングがＫ平均法を使用して実行され得る。次に、決定木が構成され得る。説明変数が使用され、すべてのサンプルが段階的グルーピングを使用して分類される。概して、決定木は、複数の分類ルールを木構造で表す分類モデルである。ジニ係数が不純度関数（non-purity function）として使用された。

[0135]これらの方法を使用してＣＭ曲線の形状を決定するとき、分析は、ＣＭ曲線の形状を決定することに密接に関係する手法または変数をも考慮する。したがって、ＣＭブロードキャストと実質的に同時に観測される変数も含まれ得る。

[0136]１日のうちの高い視聴可能性時間範囲からのデータが使用され、これは、この実験では、１８：００〜２４：００の６時間である。５つのＴＶ局からのＣＭに対する視聴態度が分析される。ＴＶ局ごとのＣＭ曲線の比は、図９に示されている。

[0137]分析では、ＣＭ曲線の形状は従属変数であり、図８Ａ〜図８Ｇに示されているように、ＡからＧに分類される。説明変数は、ＣＭの長さ、テレビ局、ジャンル、番組の開始からの経過時間、ＣＭについての平均パーソナルオーディエンスレーティング、ＣＭの平均視聴可能性レート、前のシーンについての平均パーソナルオーディエンスレーティング、前のシーンの平均視聴可能性、パーソナルオーディエンスレーティングで除算された現在のシーンの視聴可能性レート、パーソナルオーディエンスレーティングで除算された前のシーンの視聴可能性レート、ならびに日付および曜日がある。前のシーンとは、ＣＭと前のＣＭとの間のシーンを指す。

[0138]多項ロジットモデルに基づく弁別結果は、表１に示されている。多項ロジットモデルにおける弁別率は、ランダムな弁別率よりも２０％高い。ＣＭ曲線の形状がＢまたはＧであるとき、弁別率は特に高い。

[0139]このモデルでは、７つの説明変数、すなわち、ＣＭの長さと、ＴＶ局と、番組の開始からの経過時間と、ＣＭについての平均パーソナルオーディエンスレーティングと、視聴可能性レートと、パーソナルオーディエンスレーティングで除算されたＣＭの視聴可能性レートと、パーソナルオーディエンスレーティングで除算された前のシーンの視聴可能性レートとが使用される。７つの変数のうち、ＣＭの長さおよびＴＶ局が、弁別率に最も寄与する。

[0140]７つの形状の被説明変数も、層化され得る。いくつかの異なる種類の層化が考慮され得るが、効率的な考察のために、以下の２種類の層化が比較された。

[0141]層化１：単調形状タイプ（Ｃ／Ｄ／Ｅ）および非単調形状タイプ（Ａ／Ｂ／Ｆ／Ｇ）。第一に、極値を有しない単調形状タイプと、極値を有する非単調形状タイプとが、層化された。各グループに対して多項ロジットモデルが適用され、次いで、各グループについての弁別率が計算され得る。層化１の弁別結果は、表２に示されている。単調形状タイプの弁別率は５９．３４％であり、単調形状タイプの弁別率は５１．７２％であり、全体的弁別率は、５３．６２％である。

[0142]単調および非単調形状タイプを層化した後では、全体的弁別率は、層化なしの多項ロジットモデルにおける弁別率よりも１５％高い。層化なしの多項ロジットモデルと比較して、ＣＭ曲線の形状間の弁別率の差は、正確に（Ｄ／Ｅ／Ｇ）および不正確に（Ｃ）決定され得る。

[0143]選択された説明変数は以下の通りである。単調形状タイプでは、６つの変数、すなわち、ＴＶ局と、番組の開始からの経過時間と、ＣＭについての平均パーソナルオーディエンスレーティングと、ＣＭの視聴可能性と、前のシーンの視聴可能性と、パーソナルオーディエンスレーティングで除算された前のシーンの視聴可能性とが選択される。非単調形状タイプでは、選択された６つの変数は、ＣＭの長さ、ＴＶ局、番組の開始からの経過時間、ＣＭについての平均パーソナルオーディエンスレーティング、ＣＭの視聴可能性レート、および前のシーンの視聴可能性レートである。層化なしの多項ロジットモデルに寄与するＣＭの長さは、単調形状タイプでは選択されない。

[0144]層化２：単純な形状タイプ（Ａ／Ｂ／Ｃ／Ｄ／Ｅ）および複雑な形状タイプ（Ｆ／Ｇ）。第二に、多くとも１つの極値を有する単純な形状タイプが層化され、２つ以上の極値を有する複雑な形状タイプが層化され得る。層化２の弁別結果は、表３に示されている。単純な形状タイプの弁別率は４６．５０％であり、複雑な形状タイプの弁別率は７７．５５％であり、全体的弁別率は、５２．２１％である。

[0145]単純な形状タイプの場合、９つの変数、すなわち、ＣＭの長さと、ＴＶ局と、番組の開始からの経過時間と、ＣＭについての平均パーソナルオーディエンスレーティングと、ＣＭの視聴可能性レートと、前のシーンの平均パーソナルオーディエンスレーティングと、ＣＭのパーソナルオーディエンスレーティングで除算された視聴可能性レートと、平均パーソナルオーディエンスレーティングで除算された前のシーンの視聴可能性と、日付とが選択される。さらに、複雑な形状タイプの場合、１つの変数のみ、すなわち、ＴＶ局が選択される。このモデルは１つの変数のみを有するので、すべてのサンプルがＦに分類される。単純な形状タイプの場合、選択された変数は、層化なしの多項ロジットモデルのそれと同様である。

[0146]説明変数を使用したクラスタ分析が実行され得る。クラスタ分析の弁別結果は、表４に示されている。弁別率は１５．７７％であり、クラスタ分析とランダム選択との間の弁別率に差はない。言い換えれば、非階層クラスタ分析では、ＣＭ曲線は分類されなかった。

[0147]図１０は、決定木による分類モデルを示す。決定木の決定結果は、表５に示されている。決定木の弁別率は４０％である。表５から、Ｇの弁別率は０％であるが、Ｄの弁別率は７３％程度で他のＣＭ曲線の弁別率よりも高いことがわかる。決定木の弁別率は、層化なしの多項ロジットモデルのそれよりもわずかに高い。

[0148]図１０から、ＣＭ曲線の各形状の特性が識別され得る。形状Ａは、視聴可能性レートが高いときに発生する。形状Ｂは、視聴可能性レートが低く、ＣＭの長さが長いときに発生する。形状Ｃは、シーンの視聴可能性レートが前のシーンのそれとあまり異ならないときに発生する。形状Ｄは、視聴可能性レートが低く、ＣＭの長さが短いときに発生する。形状Ｅは、前のシーンの視聴可能性レートが低く、ＣＭの長さが短いときに発生する。形状Ｆは、シーンの視聴可能性レートは低いが、前のシーンの視聴可能性レートは高いときに発生する。

[0149]比較および考察。各方法による弁別率は、表６にまとめられる。層化１の方法は、すべての方法のうち最も高いレートを有する。ただし、被説明変数が層化されたので、コネクション全体を検証することは不可能である。

[0150]層化なしの多項ロジットモデルの弁別率は、決定木の率とほぼ同じである。決定木は、視聴可能性レートが固定値より高いか否かによって決定されるので、直観的に理解することが困難であり、固定値は反復可能でない。したがって、ＣＭ曲線を決定するための最も好適な方法は、層化なしの多項ロジットモデルである。

[0151]すべての方法において、ＣＭの長さおよび視聴可能性レートの変数は、ＣＭ曲線を決定することに最も寄与する。したがって、ＴＶ視聴態度は、番組のジャンルおよびブロードキャスト時間に依存しないが、ＣＭの長さと現在および前のシーンの視聴可能性レートとに依存する。

[0152]これらの５つの方法において、ＣＭの長さおよび視聴可能性レートの変数は、ＣＭ曲線を決定することに大きく寄与する。この点について、２つのポイント、すなわち、１）ＣＭの長さと視聴可能性レートとの間の関係、および２）どのような状況において視聴可能性レートが高いかが考慮される。

[0153]ＣＭの長さと視聴可能性レートとの間の関係は、図１１に示されている。概して、ＣＭの長さが短いほど、視聴可能性レートは高くなる。ＣＭが長いほど、人々は興味をもたなくなりＴＶを見るのを止めることになるので、視聴可能性レートは低くなる。

[0154]さらに、どのような状況が高い視聴可能性レートをもたらすかが調査された。（ジャンルによっては）番組が開始した後ほとんど時間が経過していないとき、視聴可能性レートは高い。表７が示すように、各ジャンルの平均視聴可能性レート間には顕著な差がある。ニュース番組の視聴可能性レートは低いが、映画および音楽のそれは高い。図１２は、番組の開始からの経過時間と視聴可能性レートとの間の相関を示す。図１２から、番組の開始からより短い時間が経過したとき、視聴可能性レートがより高いことがわかる。

[0155]この実験的研究は、本発明のハードウェアおよびソフトウェア構成要素の例示的な実施形態を使用して、ＣＭと番組と人間の視聴態度との間の関係を解明する。ＣＭ曲線を決定するための最も好適な方法は、多項ロジットモデルである。

[0156]ＣＭ中に観測され得る変数は、ＣＭ曲線とこれらの変数との間の関係を考察するために分析される。すべての採用された方法において、ＣＭの長さおよび視聴可能性レートの変数は、ＣＭ曲線を決定することに最も寄与する。単調形状タイプの弁別率が高いので、変化なしか変化ありかにかかわらず、弁別はより容易である。言い換えれば、ＣＭ曲線の形状は、ジャンルおよび日付など、番組の特徴に関係しない。これは、ＣＭブロードキャスト時間がより長いとき、オーディエンスは見るのが嫌になることを示す。その上、番組の前のシーンがオーディエンスにとって面白くない場合、オーディエンスは次のＣＭを見ない。

[0157]視聴者エンゲージメントデータの適用例
[0158]図１３は、本明細書で説明される方法およびシステムを使用して取得されたデータの通信のシステムを示す。システム１３００は、動き検知デバイスを通してＴＶオーディエンスパネルからキャプチャされた未処理データ１３１０を記憶および処理し、これは、限定はしないが、デスクトップマシンなど、コンピューティングデバイス１３２０に転送される。次いで、視聴者エンゲージメントを評価する方法が、たとえば、データを分析および処理するためのデスクトップマシン上で実行され得る。本方法は、分析後のデータを、（１）誰がＴＶを実際に見ているか（誰がオーディエンスでいるか）と、（２）オーディエンスメンバはどのくらいの頻度でＴＶを見るかと、（３）ＴＶ番組および広告に対するオーディエンスの反応とを決定するために使用され得る、パフォーマンスベースのＴＶレーティングデータに変換する。この処理されたおよび／または集約されたデータは、次いで、サーバなど、クラウド上の中央ストレージロケーション１３３０に転送され、ここで、限定はしないが、ＴＶ広告代理店１３４０、ＴＶネットワーク１３５０、およびデータが有用であると発見し得る他の潜在的クライアント１３６０を含むサードパーティが、収集エンティティのクライアントのために特別に開発された、収集エンティティのソフトウェア、アプリケーションプログラミングインターフェース、またはウェブポータルを通して、いつでも好都合にデータにアクセスすることができる。代替的に、ハードウェア構成要素のセンサによって収集された未処理データ１３１０は、インターネット接続を通して直接または間接的にクラウド上の中央ストレージ１３３０に転送され、ここで、ソフトウェア構成要素によって分析され、関係するサードパーティ１３４０〜１３６０にとって利用可能になる。サードパーティは、オプションにより、システムを通して未処理データにアクセスし得る。

[0159]図１４は、本明細書で説明されるシステムおよび方法によって取得および分析されたデータを利用することができる例示的なシステム１４００の基本要素を示す。収集エンティティ１４３０（たとえば、ＴＶｉｓｉｏｎＩｎｓｉｇｈｔｓ）は、補償と引き換えにまたはボランティアにより、ＴＶ視聴率データ収集の目的で図１に示されたハードウェア構成要素の設置がパネルメンバ１４１０の世帯におけるテレビジョンの上に設置されることを許容する、パネルメンバ１４１０（たとえば、世帯のメンバ）を補償し得る。パネルメンバは、限定はしないが、クレジットカード取引データ、人口統計学的および社会経済的情報、ソーシャルメディアアカウントログイン、ならびにタブレット、スマートフォン、および他のデバイスからのデータを含む、追加情報１４２０を提供するように依頼され得る。このデータは収集され、ビデオおよびＩＲ画像は図１に示されたシステムを使用して記録され、ビデオは図２〜図６で説明された方法によって分析され得る。分析されると、ビデオを表すデータは収集エンティティ１４３０に送信され得、収集エンティティ１４３０は、次いで、広告主１４４０、ＴＶ局１４６０、ＴＶ代理店１４５０、および他の関係するサードパーティにデータを販売または場合によっては提供し得る。オプションにより、収集エンティティ１４３０は、個別の分析のために未処理の収集されたデータへのアクセスを提供し得る。開示されるビジネスモデルの一部として、収集エンティティ１４３０は、広告主１４４０に、広告主１４４０のＴＶ代理店１４５０がこのデータを購入するように促そうという動機を与えることができる。

[0160]図１５は、視聴者エンゲージメントを評価する方法において取得されたデータに基づくビッグデータ分析および視覚化を示す。これらのモデル１５００では、収集エンティティ１５２０（たとえば、図１５に示されているＴＶｉｓｉｏｎＩＮＳＩＧＨＴＳ）は、ＴＶ受像機を有する世帯１５１０からデータを収集することができる。引き換えに、参加する世帯１５１０は、収集エンティティ１５２０から金銭的補償（または他の利益）を受け取ることができる。収集エンティティ１５２０は、次いで、特定のＴＶ番組または広告の有効性などの情報を導出するために、ビッグデータ分析１５３０ａおよび視覚化技法１５３０ｂを使用して、参加する世帯から収集されたデータを分析する。このデータは、次いで、（顧客１５４０と総称される）広告主、広告代理店、ＴＶ局、あるいは他のコンテンツプロバイダまたはプロモーターに、番組の有効性を向上させるように指示するために、提供され得る。一例では、顧客１５４０は、月ごとに月額料金で、収集エンティティ１５２０にこのデータサービスを申し込むことができる。別の例では、顧客１５４０は、収集エンティティ１５２０から、特定のビデオ（たとえば、キャンペーンビデオ、スポーツイベント中の特別な広告など）に関係するデータを買うことができる。

[0161]図１６は、視聴者エンゲージメントデータ収集に参加する個人および世帯（ＴＶオーディエンス）からの追加情報１６００の収集の例を示す。ＴＶオーディエンスは、関係するサードパーティに有用な国および／または地域の層を表し得る。収集エンティティは、ビデオデータ１６１０および人口統計学的情報を収集し、システムによって集められＴＶ視聴率に関する方法によって分析されたデータとともにパッケージ化して、この情報を有償で顧客に提供することができる。ＴＶオーディエンスから収集され得る情報の例は、限定はしないが、特に、ＴＷＩＴＴＥＲ（登録商標）、Ｉｎｓｔａｇｒａｍ、ＦＡＣＥＢＯＯＫ（登録商標）など、ソーシャルメディアプロファイル１６２０を通して取得され得るすべての情報を含む。情報は、（テレビジョンオーディオと世帯中の個人から発せられた会話などのオーディオの両方を含む）システムから取得されたビデオデータおよびオーディオデータ１６４０と、スマートフォンおよびタブレット検索傾向、インターネット検索履歴、電子メールアカウント情報を含むマルチスクリーンデータ１６３０と、クレジットカード取引データ１６５０とをさらに含むことができる。このリストは網羅的なものではなく、限定するものとして解釈されるべきではない。

[0162]広告主にとって有益である、個々の層の先例のない測定値を含む、収集された情報およびデータは、収集エンティティが、ＴＶ広告の影響を正確に評価することを可能にする。広告主は、どの広告枠が広告主のターゲットオーディエンスに対する最良適合であるかを決定するために、データを使用することができる。また、メッセージは、オーディエンスのタイプに一層関連するものになり得、購買行動に効果的につながり、広告主にとっての投資収益率（ＲＯＩ）を高めることができる。

[0163]ＴＶネットワークも、そのＴＶ番組のより正確なレーティング、オーディエンスタイプ、反応、および予測広告枠価値を収集することが可能になるので、開示される発明から恩恵を受けることができる。これは、どの広告枠が特定のターゲット層に対して最も高い価値を有することになるかを決定することに加えて、ＴＶネットワークがその番組をオーディエンスのタイプにより良く適合するように改善し、人気がない番組をなくすことを可能にする。データはまた、番組および広告の比較評価のために、同じまたは異なる時間枠において、複数のチャンネルにわたって番組を比較するために使用され得る。同様に、ＴＶオーディエンスデータおよび行動は、ストリーミングコンテンツに対する所与の番組時間枠について、収集および比較され得る。ＴＶパイロット番組も、エピソードを発注する前に、システムを使用して評価され得る。

[0164]結論
[0165]様々な本発明の実施形態が本明細書で説明および図示されているが、機能を実行するための、ならびに／あるいは結果および／または本明細書で説明される利点のうちの１つまたは複数を得るための、様々な他の手段および／または構造を、当業者は容易に想定され、そのような変形および／または変更の各々は、本明細書で説明される本発明の実施形態の範囲内であると見なされる。より一般的には、本明細書で説明されるすべてのパラメータ、寸法、材料、および構成が例示的なものであることを意味し、実際のパラメータ、寸法、材料、および／または構成が、本発明の教示が使用される特定の１つまたは複数の適用例に依存することを、当業者は容易に諒解されよう。当業者は、通常の実験だけを使用して、本明細書で説明される特定の発明の実施形態の多くの均等物を認識し、または確認することが可能であろう。したがって、上記の実施形態は単に例として提示され、添付の特許請求の範囲およびそれの均等物の範囲内で、本発明の実施形態は、特に説明および請求された以外の他の方法で実施され得ることを理解されたい。本開示の発明の実施形態は、本明細書で説明されるそれぞれ個々の特徴、システム、物品、材料、キット、および／または方法を対象とするものである。さらに、２つまたはそれ以上のそのような特徴、システム、物品、材料、キット、および／または方法の任意の組合せは、そのような特徴、システム、物品、材料、キット、および／または方法が相互に矛盾しない場合、本開示の発明の範囲内に含まれる。

[0166]上記で説明された実施形態は、多数の方法のいずれかで実装され得る。たとえば、本明細書で開示される技術を設計および製作する実施形態は、ハードウェア、ソフトウェア、またはそれらの組合せを使用して実装され得る。ソフトウェアで実装されるとき、単一のコンピュータ中で提供されるか複数のコンピュータの間で分散されるかにかかわらず、ソフトウェアコードは任意の好適なプロセッサまたはプロセッサの集合上で実行され得る。

[0167]さらに、コンピュータは、ラックマウント式コンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、またはタブレットコンピュータなど、いくつかの形式のいずれかで実施され得ることを諒解されたい。さらに、コンピュータは、携帯情報端末（ＰＤＡ）、スマートフォン、あるいは他の好適なポータブルまたは固定電子デバイスを含む、概してコンピュータとして見なされないが好適な処理能力をもつデバイス中に埋め込まれ得る。

[0168]また、コンピュータは１つまたは複数の入出力デバイスを有し得る。これらのデバイスは、特に、ユーザインターフェースを提示するために使用され得る。ユーザインターフェースを提供するために使用され得る出力デバイスの例は、出力の視覚提示のためのプリンタまたはディスプレイスクリーン、および出力の可聴提示のためのスピーカまたは他の音発生デバイスを含む。ユーザインターフェースのために使用され得る入力デバイスの例は、キーボード、ならびにマウス、タッチパッド、およびデジタル化タブレットなど、ポインティングデバイスを含む。別の例として、コンピュータは、音声認識を通して、または他の可聴フォーマットで入力情報を受信し得る。

[0169]そのようなコンピュータは、エンタープライズネットワークなど、ローカルエリアネットワークまたはワイドエリアネットワーク、およびインテリジェントネットワーク（ＩＮ）またはインターネットを含む、任意の好適な形式で１つまたは複数のネットワークによって相互接続され得る。そのようなネットワークは、任意の好適な技術に基づき得、任意の好適なプロトコルに従って動作し得、ワイヤレスネットワーク、ワイヤードネットワークまたは光ファイバーネットワークを含み得る。

[0170]本明細書で概説される様々な方法またはプロセスは、様々なオペレーティングシステムまたはプラットフォームのいずれか１つを採用する、１つまたは複数のプロセッサ上で実行可能なソフトウェアとしてコーディングされ得る。さらに、そのようなソフトウェアは、いくつかの好適なプログラミング言語および／あるいはプログラミングまたはスクリプティングツールのいずれかを使用して記述され得、また、フレームワークまたは仮想マシン上で実行される、実行可能機械語コードまたは中間コードとしてコンパイルされ得る。

[0171]この点において、様々な本発明の概念は、１つまたは複数のコンピュータまたは他のプロセッサ上で実行されたとき、上記で説明された本発明の様々な実施形態を実装する方法を実行する１つまたは複数のプログラムで符号化された、コンピュータ可読記憶媒体（または複数のコンピュータ可読記憶媒体）（たとえば、コンピュータメモリ、１つまたは複数のフロッピー（登録商標）ディスク、コンパクトディスク、光ディスク、磁気テープ、フラッシュメモリ、フィールドプログラマブルゲートアレイまたは他の半導体デバイス中の回路構成、あるいは他の非一時的媒体または有形コンピュータ記憶媒体）として具現化され得る。コンピュータ可読媒体またはメディアは、記憶された１つまたは複数のプログラムが、上記で説明された本発明の様々な態様を実装するために、１つまたは複数の異なるコンピュータまたは他のプロセッサ上にロードされ得るように、トランスポート可能であり得る。

[0172]「プログラム」または「ソフトウェア」という用語は、本明細書では、上記で説明された実施形態の様々な態様を実装するようにコンピュータまたは他のプロセッサをプログラムするために採用され得る、任意のタイプのコンピュータコードまたはコンピュータ実行可能命令のセットを指すために、一般的な意味で使用される。さらに、一態様によれば、実行されたとき本発明の方法を実行する１つまたは複数のコンピュータプログラムは、単一のコンピュータまたはプロセッサ上に存在する必要はないが、本発明の様々な態様を実装するために、いくつかの異なるコンピュータまたはプロセッサの間においてモジュール様式で分散され得ることを諒解されたい。

[0173]コンピュータ実行可能命令は、プログラムモジュールなど、１つまたは複数のコンピュータまたは他のデバイスによって実行される多くの形式であり得る。概して、プログラムモジュールは、特定のタスクを実行するか、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、構成要素、データ構造などを含む。一般に、プログラムモジュールの機能は、様々な実施形態において必要に応じて組み合わされるかまたは分散され得る。

[0174]また、データ構造は、任意の好適な形式でコンピュータ可読媒体に記憶され得る。説明を簡単にするために、データ構造は、データ構造における場所を通して関係付けられるフィールドを有するように示されることがある。そのような関係は、フィールド間の関係を伝達するコンピュータ可読媒体における場所をフィールドの格納に割り当てることによって、同様に達成され得る。ただし、データ要素間の関係を確立するポインタ、タグ、または他の機構の使用によるものを含む、任意の好適な機構が、データ構造のフィールド中の情報間の関係を確立するために使用され得る。

[0175]また、様々な本発明の概念は、それの例が与えられている１つまたは複数の方法として実施され得る。本方法の一部として実行される行為は、任意の好適な方法で順序付けられ得る。したがって、例示的な実施形態において連続的な行為として示されている場合であっても、いくつかの行為を同時に実行することを含み得る、図示されたものとは異なる順序で行為が実行される実施形態が構成され得る。

[0176]本明細書で定義および使用されるすべての定義は、辞書の定義、参照により組み込まれる文書中の定義、および／または定義された用語の通常の意味を統制することを理解されたい。

[0177]本明細書および特許請求の範囲において、本明細書で使用される不定冠詞「ａ」および「ａｎ」は、そうでないことが明確に示されていない限り、「少なくとも１つ」を意味することを理解されたい。

[0178]本明細書および特許請求の範囲において、本明細書で使用される「および／または」という句は、そのように結合された要素、すなわち、いくつかの場合には結合して存在し、他の場合には分離して存在する要素の「いずれかまたは両方」を意味することを理解されたい。「および／または」を用いて列挙される複数の要素は、同じように、すなわち、そのように結合された要素のうちの「１つまたは複数」と解釈されたい。「および／または」節によって具体的に特定された要素以外の他の要素が、具体的に特定されたそれらの要素に関係するか関係しないかにかかわらず、随意に存在し得る。したがって、非限定的な例として、「Ａおよび／またはＢ」への言及は、「備える（comprising）」などの非限定的用語とともに使用されるとき、一実施形態では（Ｂ以外の要素を随意に含む）Ａのみを指し、別の実施形態では（Ａ以外の要素を随意に含む）Ｂのみを指し、また別の実施形態では（他の要素を随意に含む）ＡとＢの両方を指すことができる、などである。

[0179]本明細書および特許請求の範囲において、本明細書で使用される「または」は、上記で定義された「および／または」と同じ意味を有することを理解されたい。たとえば、リスト中の項目を分離するとき、「または」または「および／または」は、包含的なものであり、すなわち、いくつかの要素または要素のリスト、および随意に、リストに載っていない追加の項目のうちの、２つ以上も含む、少なくとも１つを含むこととして解釈されるものとする。「のうちの１つのみ」または「のうちの厳密に１つ」、あるいは特許請求の範囲で使用されるとき、「からなる（consisting of）」など、そうでないことが明確に示されている用語のみが、いくつかの要素または要素のリストのうちの厳密に１つの要素を含むことを指すことになる。一般に、本明細書で使用される「または」という用語は、「いずれか」、「のうちの１つ」、「のうちの１つのみ」、または「のうちの厳密に１つ」など、排他的用語に先行されるとき、排他的代替（すなわち、「一方または他方であるが両方ではない」）を示すものとして解釈されるものとする。特許請求の範囲で使用されるとき、「から本質的になる（consisting essentially of）」は、特許法の分野で使用されるそれの通常の意味を有するものとする。

[0180]本明細書および特許請求の範囲において、本明細書で使用される「少なくとも１つ」という句は、１つまたは複数の要素のリストに関して、要素のリスト中の要素のうちの１つまたは複数から選択される少なくとも１つの要素を意味するが、必ずしも要素のリスト内に具体的にリストされたあらゆる要素のうちの少なくとも１つを含むとは限らず、要素のリスト中の要素のいかなる組合せも除外しないことを理解されたい。この定義はまた、「少なくとも１つ」という句が指す要素のリスト内で具体的に特定された要素以外の要素が、具体的に特定されたそれらの要素に関係するか関係しないかにかかわらず、随意に存在することを可能にする。したがって、非限定的な例として、「ＡおよびＢのうちの少なくとも１つ」（または等価的に「ＡまたはＢのうちの少なくとも１つ」、または等価的に「Ａおよび／またはＢのうちの少なくとも１つ」）は、一実施形態では、Ｂが存在せず（Ｂ以外の要素を随意に含む）、２つ以上を随意に含む、少なくとも１つのＡを指し、別の実施形態では、Ａが存在せず（Ａ以外の要素を随意に含む）、２つ以上を随意に含む、少なくとも１つのＢを指し、また別の実施形態では、（他の要素を随意に含む）２つ以上を随意に含む、少なくとも１つのＡ、および２つ以上を随意に含む、少なくとも１つのＢを指すことができる、などである。

[0181]特許請求の範囲において、ならびに上記の明細書において、「備える」、「含む（including）」、「搬送する（carrying）」、「有する（having）」、「含んでいる（containing）」、「伴う（involving）」、「保持する（holding）」、「から構成される（composed of）」など、すべての移行句は、非限定的なもの、すなわち、限定はしないが含むことを意味するものであることを理解されたい。「からなる」および「から本質的になる」という移行句のみが、それぞれ、米国特許庁特許審査基準、セクション２１１１．０３に記載されている、限定的または半限定的な移行句であるものとする。
以下に、出願当初の特許請求の範囲に記載された発明を付記する。
［Ｃ１］
ディスプレイ上で再生しているビデオとの視聴者エンゲージメントを定量化するためのシステムであって、
前記ディスプレイの前の視聴エリアを撮像するように配設された、前記視聴エリアの画像データを取得するための少なくとも１つのカメラと、
前記ディスプレイに近接して配設された、前記ディスプレイに結合されたスピーカによって発せられたオーディオデータを取得するためのマイクロフォンと、
前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合された、プロセッサ実行可能命令を記憶するためのメモリと、
前記少なくとも１つのカメラ、前記マイクロフォン、および前記メモリに動作可能に結合されたプロセッサとを備え、ここにおいて、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記少なくとも１つのカメラからの前記画像データ、および前記マイクロフォンからの前記オーディオデータを受信することと、
前記オーディオデータに少なくとも一部基づいて、前記ディスプレイ上に表示された前記ビデオの識別情報を決定することと、
前記画像データに少なくとも一部基づいて、前記視聴エリア中に存在する人々の第１の数、および前記視聴エリア中の前記ビデオにエンゲージしている人々の第２の数を推定することと、
人々の前記第１の数および人々の前記第２の数に少なくとも一部基づいて、前記ビデオの前記視聴者エンゲージメントを定量化することと
を行う、システム。
［Ｃ２］
前記ビデオは、セットトップボックスを介して提供されるテレビ番組を含み、前記プロセッサは、前記セットトップボックスに接続されない、上記Ｃ１に記載のシステム。
［Ｃ３］
前記少なくとも１つのカメラは、可視カメラと赤外線カメラとを含み、前記画像データは、前記可視カメラによって取得された第１の画像と、前記赤外線カメラによって取得された第２の画像とを含む、上記Ｃ１に記載のシステム。
［Ｃ４］
前記プロセッサ実行可能命令の実行時に、前記プロセッサはさらに、
前記第１の画像から人々の第１の未処理の数、および前記第２の画像から人々の第２の未処理の数を推定することと、
前記第１の未処理の数または前記第２の未処理の数のうちの少なくとも一方における、可能性のあるエラーを検出するために、前記第１の未処理の数を前記第２の未処理の数と比較することと
を行う、上記Ｃ３に記載のシステム。
［Ｃ５］
前記少なくとも１つのカメラは、実質的に毎秒１フレーム以上のフレームレートで前記画像データを取得する、上記Ｃ１に記載のシステム。
［Ｃ６］
前記プロセッサは、身体骨格検出に基づいて、前記視聴エリア中に存在する人々の前記第１の数を推定する、上記Ｃ１に記載のシステム。
［Ｃ７］
前記プロセッサは、視線追跡に基づいて、前記ビデオにエンゲージしている人々の前記第２の数を推定する、上記Ｃ１に記載のシステム。
［Ｃ８］
前記マイクロフォンは、約０．１Ｈｚの取得レートで前記オーディオデータを取得する、上記Ｃ１に記載のシステム。
［Ｃ９］
前記プロセッサは、オーディオ信号フィンガープリンティングを使用して、前記ビデオの前記識別情報を決定する、上記Ｃ１に記載のシステム。
［Ｃ１０］
前記プロセッサは、
前記ビデオについての注意レートを推定することによって前記視聴者エンゲージメントを定量化し、前記注意レートは、所与の時間期間にわたる、前記視聴エリア中の人々の前記第１の数に対する、前記ビデオにエンゲージしている人々の前記第２の数の比を表す、上記Ｃ１に記載のシステム。
［Ｃ１１］
前記ビデオは、複数のビデオ中の一意のビデオであり、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データと前記視聴エリア中に潜在的に存在する人々に関する人口統計学的情報とに基づいて、視聴者カウントとポジティブ持続時間比とを推定し、前記視聴者カウントは、各一意のビデオにエンゲージしている人々の前記第２の数を表し、前記ポジティブ持続時間比は、前記一意のビデオの持続時間に対する、前記視聴エリア中の人々が前記一意のビデオを見ることによって費やされた合計時間の比を表す、
上記Ｃ１０に記載のシステム。
［Ｃ１２］
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データに少なくとも一部基づいて、前記視聴エリア中に存在する各人物の識別情報を決定することと、
識別された各人物についての前記視聴者エンゲージメントを定量化することと
を行う、上記Ｃ１に記載のシステム。
［Ｃ１３］
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
人々の前記第１の数および人々の前記第２の数を前記メモリに記憶することと、
前記画像データを消去および／または上書きすることと
を行う、上記Ｃ１に記載のシステム。
［Ｃ１４］
前記プロセッサに動作可能に結合された、人々の前記第１の数と人々の前記第２の数とをリモートサーバに送信するためのネットワークインターフェース
をさらに備える、上記Ｃ１に記載のシステム。
［Ｃ１５］
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記視聴エリア中に存在する各人物の感情を推定する
上記Ｃ１に記載のシステム。
［Ｃ１６］
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記オーディオデータに少なくとも一部基づいて、前記複数のビデオ中のあらかじめ決定されたビデオが前記ディスプレイ上に表示されているかどうかを決定し、ここにおいて、前記視聴者エンゲージメントを定量化することは、前記あらかじめ決定されたビデオが表示されているかどうかに少なくとも一部基づく、
上記Ｃ１に記載のシステム。
［Ｃ１７］
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データから前記視聴エリア中の各人物についての人口統計学的情報を推定すること
を行う、上記Ｃ１に記載のシステム。
［Ｃ１８］
前記人口統計学的情報は、年齢、性別、民族グループ、および顔の表情を含む、上記Ｃ１７に記載のシステム。
［Ｃ１９］
ディスプレイ上に示されるビデオとの視聴者エンゲージメントを定量化する方法であって、
少なくとも１つのカメラを用いて、前記ビデオが前記ディスプレイ上に示されている間、前記ディスプレイの前の視聴エリアの画像を取得することと、
マイクロフォンを用いて、前記ディスプレイに結合されたスピーカによって発せられた前記ビデオのサウンドトラックを表すオーディオデータを取得することと、
前記少なくとも１つのカメラおよびプロセッサに動作可能に結合された前記プロセッサを用いて、前記オーディオデータに少なくとも一部基づいて、前記ビデオの識別情報を決定することと、
前記プロセッサを用いて、前記画像データに少なくとも一部基づいて、前記ビデオが前記ディスプレイ上に示されている間の前記視聴エリア中に存在する人々の第１の数、および前記視聴エリア中の前記ビデオにエンゲージしている人々の第２の数を推定することと、
前記プロセッサによって、前記ビデオの前記識別情報、人々の前記第１の数、および人々の前記第２の数をリモートサーバに送信することと
を備える、方法。
［Ｃ２０］
前記画像を取得することは、可視カメラを使用して前記視聴エリアの第１の画像を取得することと、赤外線（ＩＲ）カメラを使用して前記視聴エリアの第２の画像を取得することとを含む、上記Ｃ１９に記載の方法。
［Ｃ２１］
前記視聴エリア中の人々の前記第１の数を推定することは、
前記第１の画像データから人々の第１の未処理の数、および前記第２の画像データから人々の第２の未処理の数を推定することと、
前記第１の未処理の数または前記第２の未処理の数のうちの少なくとも一方における、可能性のあるエラーを検出するために、前記第１の未処理の数を前記第２の未処理の数と比較することと
を含む、上記Ｃ２０に記載の方法。
［Ｃ２２］
前記画像データを取得することは、実質的に毎秒２０フレーム以上のフレームレートで前記視聴エリアの画像を取得することを含む、上記Ｃ１９に記載の方法。
［Ｃ２３］
前記オーディオデータを取得することは、約０．１Ｈｚの取得レートで前記オーディオデータを取得することを含む、上記Ｃ１９に記載の方法。
［Ｃ２４］
前記ビデオの前記識別情報を決定することは、オーディオ信号フィンガープリンティングに基づく、上記Ｃ１９に記載の方法。
［Ｃ２５］
前記視聴エリア中に存在する人々の前記第１の数を推定することは、身体骨格検出に基づく、上記Ｃ１９に記載の方法。
［Ｃ２６］
前記少なくともオンビデオにエンゲージしている人々の前記第２の数を推定することは、視線追跡に基づく、上記Ｃ１９に記載の方法。
［Ｃ２７］
複数の世帯中の各家世帯において、人々の前記第１の数および人々の前記第２の数に少なくとも一部基づいて、前記ビデオの前記視聴者エンゲージメントを定量化することをさらに備える、上記Ｃ１９に記載の方法。
［Ｃ２８］
前記視聴者エンゲージメントを定量化することは、
前記ビデオについての注意レートを推定することであって、前記注意レートは、前記視聴エリア中の人々の前記第１の数に対する、前記ビデオにエンゲージしている人々の前記第２の数の比を表す、推定することと、
複数のビデオ中の各一意のビデオについて、前記複数のビデオ中の前記ビデオの前記注意レートに基づいて注意インデックスを決定することと
を含む、上記Ｃ２７に記載の方法。
［Ｃ２９］
前記ビデオは、複数のビデオ中の一意のビデオであり、前記方法は、
前記画像データと前記複数の世帯中の各世帯に関する人口統計学的情報とに基づいて、視聴者カウントとポジティブ持続時間比とを推定することをさらに備え、前記視聴者カウントは、各一意のビデオにエンゲージしている人々の前記第２の数を表し、前記ポジティブ持続時間比は、前記一意のビデオの持続時間に対する、前記複数の世帯中の人々が前記一意のビデオを見ることによって費やされた合計時間の比を表す、
上記Ｃ２８に記載の方法。
［Ｃ３０］
前記画像データに少なくとも一部基づいて、前記視聴エリア中に存在する各人物の識別情報を決定することをさらに備え、
ここにおいて、前記ビデオの前記視聴者エンゲージメントを定量化することは、識別された各人物についての前記視聴者エンゲージメントを定量化することを含む、
上記Ｃ２７に記載の方法。
［Ｃ３１］
人々の前記第１の数と人々の前記第２の数とをリモートサーバに送信することをさらに備え、ここにおいて、前記視聴者エンゲージメントを定量化することは、前記リモートサーバにおいて行われる、上記Ｃ２７に記載の方法。
［Ｃ３２］
前記オーディオデータに少なくとも一部基づいて、前記複数のビデオ中のあらかじめ決定されたビデオが前記ディスプレイ上に表示されているかどうかを決定することをさらに備え、ここにおいて、前記視聴者エンゲージメントを定量化することは、前記あらかじめ決定されたビデオが表示されているかどうかに少なくとも一部基づく、
上記Ｃ２７に記載の方法。
［Ｃ３３］
人々の前記第１の数および人々の前記第２の数を、前記プロセッサに動作可能に結合されたメモリに記憶することと、
前記画像データを消去および／または上書きすることと
をさらに備える、上記Ｃ１９に記載の方法。
［Ｃ３４］
前記視聴エリア中に存在する各人物の感情を推定することをさらに備える、上記Ｃ１９に記載の方法。
［Ｃ３５］
前記画像データから前記視聴エリア中の各人物についての人口統計学的情報を推定すること
をさらに備える、上記Ｃ１９に記載の方法。
［Ｃ３６］
前記人口統計学的情報を推定することは、年齢、性別、民族グループ、および顔の表情を推定することを含む、上記Ｃ３５に記載の方法。
［Ｃ３７］
ディスプレイ上で再生しているビデオとの視聴者エンゲージメントを評価するためのシステムであって、前記ディスプレイは、前記ビデオのサウンドトラックを発するスピーカに結合され、前記システムは、
第１のサンプルレートで、前記ビデオが前記ディスプレイ上で再生している間、前記ディスプレイの前の視聴エリアの可視画像を取得するための可視カメラと、
前記第１のサンプルレートで、前記ビデオが前記ディスプレイ上で再生している間、前記ディスプレイの前の前記視聴エリアの赤外線画像を取得するための赤外線カメラと、
前記ディスプレイに近接して配設された、前記第１のサンプルレートよりも低い第２のサンプルレートで、前記ビデオが前記ディスプレイ上で再生している間、前記スピーカによって発せられた前記サウンドトラックのサンプルを取得するためのマイクロフォンと、
前記可視カメラ、前記赤外線カメラ、および前記マイクロフォンに動作可能に結合されたプロセッサであって、
（ｉ）前記サウンドトラックの前記サンプルに基づいて前記ビデオを識別すること、
（ｉｉ）前記可視画像および前記赤外線画像に基づいて、前記ビデオが前記ディスプレイ上で再生している間の前記視聴エリア中の人々の数、および前記ビデオにエンゲージしている人々の数を推定すること、ならびに
（ｉｉｉ）前記サウンドトラックの前記サンプル、前記可視画像、および前記赤外線画像を上書きおよび／または消去すること
を行うためのプロセッサと、
前記プロセッサに動作可能に結合された、前記ビデオの識別情報、前記ビデオが前記ディスプレイ上で再生している間の前記視聴エリア中の人々の前記数、および前記ビデオにエンゲージしている人々の前記数の表現を記憶するためのメモリと、
前記プロセッサに動作可能に結合された、前記表現をサーバに送信するためのネットワークインターフェースと
を備える、システム。
［Ｃ３８］
複数のビデオ中の一意のビデオについての視聴者エンゲージメントを定量化する方法であって、
複数の世帯中の各世帯において、ディスプレイの前の視聴エリアの画像データを取得することと、
前記ディスプレイが前記複数のビデオ中のビデオを示しているかどうかを決定することと、
前記複数のビデオ中の各一意のビデオについて、前記画像データおよび前記複数の世帯中の各世帯に関する人口統計学的情報に基づいて、（ｉ）視聴レートおよび（ｉｉ）ウォッチングレートを推定することであって、前記視聴レートは、ビデオを示しているディスプレイの合計数に対する、前記視聴エリア中の人々の合計数の比を表し、前記ウォッチングレートは、前記複数の世帯中の人々の合計数に対する、ディスプレイがビデオを示している世帯中の人々の合計数の比を表す、推定することと、
前記複数のビデオ中の各一意のビデオについて、前記視聴レートおよび前記ウォッチングレートに基づいて、視聴可能性インデックスを決定することと
を備える、方法。
［Ｃ３９］
前記複数のビデオ中の各一意のビデオについて、前記画像データおよび前記複数の世帯中の各世帯に関する人口統計学的情報に基づいて、（ｉｉｉ）視聴者カウントおよび（ｉｖ）ポジティブ持続時間比を推定することであって、前記視聴者カウントは、各一意のビデオにエンゲージしている人々の合計数を表し、前記ポジティブ持続時間比は、前記一意のビデオの持続時間に対する、前記複数の世帯中の人々が前記一意のビデオを見ることによって費やされた合計時間の比を表す、推定することと、
前記視聴者カウントおよび前記ポジティブ持続時間比に基づいて、前記視聴可能性インデックスを重み付けすることと
をさらに備える、上記Ｃ３８に記載の方法。
［Ｃ４０］
前記複数のビデオ中の前記一意のビデオにわたる前記視聴可能性インデックスを正規化することをさらに備える、上記Ｃ３９に記載の方法。
［Ｃ４１］
前記画像データを取得することは、光学カメラを使用して前記視聴エリアの第１の画像を取得することと、赤外線（ＩＲ）カメラを使用して前記視聴エリアの第２の画像を取得することとを含む、上記Ｃ３８に記載の方法。
［Ｃ４２］
前記ディスプレイが前記ビデオを示しているかどうかを決定することは、信号フィンガープリンティング技法を介した前記視聴エリアのオーディオデータに少なくとも一部基づく、上記Ｃ３８に記載の方法。
［Ｃ４３］
前記視聴レートと前記ウォッチングレートとをリモートサーバに送信することをさらに備え、ここにおいて、前記視聴可能性インデックスは、前記リモートサーバによって推定される、
上記Ｃ３８に記載の方法。

Claims

セットトップボックスまたはケーブル接続に接続されたテレビジョン上で再生しているビデオとの視聴者エンゲージメントを定量化するためのシステムであって、
前記テレビジョンの前の視聴エリアを撮像するように配設された、前記視聴エリアの画像データを取得するための少なくとも１つのカメラと、
前記テレビジョンに近接して配設された、前記テレビジョンに結合されたスピーカによって発せられたオーディオデータを取得するためのマイクロフォンと、
前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合された、プロセッサ実行可能命令を記憶し、前記画像データをサードパーティに送信する可能性をなくすために、前記画像データおよび前記オーディオデータが前記少なくとも１つのカメラからの後続の画像データおよび前記マイクロフォンからの後続のオーディオデータで上書きされる前に１００ミリ秒以下の間、前記画像データおよび前記オーディオデータを記憶するためのメモリと、
前記少なくとも１つのカメラ、前記マイクロフォン、および前記メモリに動作可能に結合され、前記テレビジョン、前記セットトップボックス、またはケーブル接続への接続を有さないプロセッサと、ここにおいて、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記少なくとも１つのカメラからの前記画像データ、および前記マイクロフォンからの前記オーディオデータを受信することと、
前記オーディオデータに少なくとも一部基づいて、テレビジョン上に表示された前記ビデオの識別情報を決定することと、
前記画像データおよび前記画像データに現れる顔の識別情報に少なくとも一部基づいて、前記視聴エリア中に存在する人々を識別するためのコンピュータビジョンモデルをトレーニングすることと、
前記コンピュータビジョンモデルを使用して、前記後続の画像データに基づいて前記視聴エリアにいる各人物についての一意の識別子を決定することと、
前記後続の画像データに少なくとも一部基づいて、前記視聴エリア中に存在する人々の第１の数、および前記視聴エリア中の前記ビデオにエンゲージしている人々の第２の数を推定することと、
人々の前記第１の数および人々の前記第２の数に少なくとも一部基づいて、前記ビデオの前記視聴者エンゲージメントを定量化することと
を行い、
前記プロセッサに動作可能に結合された、利用可能なアップストリーム帯域幅または送信されるデータの量のうちの少なくとも１つに基づいて選択された送信ウィンドウ中にバースト送信で、人々の前記第１の数、人々の前記第２の数、前記ビデオの前記識別情報、および前記視聴エリア中の前記人々のための前記一意の識別子をリモートサーバに送信するためのネットワークインターフェースと、
を備え、
前記プロセッサは、人々の前記第１の数または人々の前記第２の数に基づいて、オーディオサンプリングレートを調整する、
システム。
前記少なくとも１つのカメラは、実質的に毎秒１フレーム以上のフレームレートで前記画像データを取得する、請求項１に記載のシステム。
前記プロセッサは、身体骨格検出に基づいて、前記視聴エリア中に存在する人々の前記第１の数を推定する、請求項１に記載のシステム。
前記プロセッサは、視線追跡に基づいて、前記ビデオにエンゲージしている人々の前記第２の数を推定する、請求項１に記載のシステム。
前記マイクロフォンは、約０．１Ｈｚの取得レートで前記オーディオデータを取得する、請求項１に記載のシステム。
前記プロセッサは、オーディオ信号フィンガープリンティングを使用して、前記ビデオの前記識別情報を決定する、請求項１に記載のシステム。
前記プロセッサは、
前記ビデオについての注意レートを推定することによって前記視聴者エンゲージメントを定量化し、前記注意レートは、所与の時間期間にわたる、前記視聴エリア中の人々の前記第１の数に対する、前記ビデオにエンゲージしている人々の前記第２の数の比を表す、請求項１に記載のシステム。
前記ビデオは、複数のビデオ中の一意のビデオであり、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データと前記視聴エリア中に潜在的に存在する人々に関する人口統計学的情報とに基づいて、視聴者カウントとポジティブ持続時間比とを推定し、前記視聴者カウントは、各一意のビデオにエンゲージしている人々の前記第２の数を表し、前記ポジティブ持続時間比は、前記一意のビデオの持続時間に対する、前記視聴エリア中の人々が前記一意のビデオを見ることによって費やされた合計時間の比を表す、
請求項７に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記リモートサーバへの送信のために、人々の前記第１の数および人々の前記第２の数を前記メモリに記憶する、
請求項１に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記視聴エリア中に存在する各人物の感情を推定する
請求項１に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記オーディオデータに少なくとも一部基づいて、複数のビデオ中のあらかじめ決定されたビデオが前記テレビジョン上に表示されているかどうかを決定し、ここにおいて、前記視聴者エンゲージメントを定量化することは、前記あらかじめ決定されたビデオが表示されているかどうかに少なくとも一部基づく、
請求項１に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データから前記視聴エリア中の各人物についての人口統計学的情報を推定する、請求項１に記載のシステム。
前記人口統計学的情報は、年齢、性別、民族グループ、および顔の表情を含む、請求項１２に記載のシステム。
前記ビデオはストリーミングコンテンツを含む、請求項１に記載のシステム。
セットトップボックスを介してテレビジョン上で再生しているテレビ番組との視聴者エンゲージメントを定量化するためのシステムであって、
前記テレビジョンの前の視聴エリアを撮像するように配設された、実質的に毎秒１フレーム以上のフレームレートで前記視聴エリアの画像データを取得するための少なくとも１つのカメラと、
前記テレビジョンに近接して配設された、約０．１Ｈｚの取得レートで前記テレビジョンによって発せられたオーディオデータを取得するためのマイクロフォンと、
前記少なくとも１つのカメラおよび前記マイクロフォンに動作可能に結合された、プロセッサ実行可能命令を記憶するためのメモリと、
前記少なくとも１つのカメラ、前記マイクロフォン、および前記メモリに動作可能に結合され、前記テレビジョンにも前記セットトップボックスにも接続されないプロセッサと、ここにおいて、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記少なくとも１つのカメラからの前記画像データ、および前記マイクロフォンからの前記オーディオデータを受信することと、
オーディオ信号フィンガープリンティングを使用して前記オーディオデータに少なくとも一部基づいて、前記テレビジョン上に表示された前記テレビ番組の識別情報を決定することと、
前記画像データに少なくとも一部基づいて、前記視聴エリア中に存在する人々の第１の数を推定することと、
前記視聴エリア中の前記テレビ番組にエンゲージしている人々の第２の数を推定することと、
人々の前記第１の数および人々の前記第２の数に少なくとも一部基づいて、前記テレビ番組の前記視聴者エンゲージメントを定量化することと
を行い、
前記プロセッサに動作可能に結合された、人々の前記第１の数、人々の前記第２の数、および前記テレビ番組の前記識別情報をリモートサーバに送信するためのネットワークインターフェースと、
を備え、
前記プロセッサは、人々の前記第１の数または人々の前記第２の数に基づいて、オーディオサンプリングレートを調整する、
システム。
前記プロセッサは、
前記テレビ番組についての注意レートを推定することによって前記視聴者エンゲージメントを定量化し、前記注意レートは、所与の時間期間にわたる、前記視聴エリア中の人々の前記第１の数に対する、前記テレビ番組にエンゲージしている人々の前記第２の数の比を表す、請求項１５に記載のシステム。
前記テレビ番組は、複数のテレビ番組中の一意のテレビ番組であり、前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データと前記視聴エリア中に潜在的に存在する人々に関する人口統計学的情報とに基づいて、視聴者カウントとポジティブ持続時間比とを推定し、前記視聴者カウントは、各一意のテレビ番組にエンゲージしている人々の前記第２の数を表し、前記ポジティブ持続時間比は、前記一意のテレビ番組の持続時間に対する、前記視聴エリア中の人々が前記一意のテレビ番組を見ることによって費やされた合計時間の比を表す、
請求項１６に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記画像データに少なくとも一部基づいて、前記視聴エリア中に存在する各人物の識別情報を決定することと、
識別された各人物についての前記視聴者エンゲージメントを定量化することと
を行う、請求項１５に記載のシステム。
前記プロセッサ実行可能命令の実行時に、前記プロセッサは、
前記オーディオデータに少なくとも一部基づいて、複数のテレビ番組中のあらかじめ決定されたテレビ番組が前記テレビジョン上に表示されているかどうかを決定し、ここにおいて、前記視聴者エンゲージメントを定量化することは、前記あらかじめ決定されたテレビ番組が表示されているかどうかに少なくとも一部基づく、
請求項１５に記載のシステム。
前記プロセッサに動作可能に結合された、人物によって装着されたワイヤレス信号送信機からのワイヤレス信号を検出するための少なくとも１つのワイヤレス信号受信機をさらに備え、
前記プロセッサは、前記ワイヤレス信号に基づいて、前記人物と前記テレビジョンとの間の距離および前記テレビジョンに対する前記人物のロケーションを測定する、
請求項１５に記載のシステム。