JP2014526725A

JP2014526725A - 視線に基づくオーディオビジュアル再生の位置選択

Info

Publication number: JP2014526725A
Application number: JP2014529655A
Authority: JP
Inventors: エム．ライアンズ、ケントン; ジェイ．ラトクリフ、ジョシュア; ペリング、トレバー
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2011-09-08
Filing date: 2011-09-08
Publication date: 2014-10-06
Anticipated expiration: 2031-09-08
Also published as: EP2754005A1; KR101605276B1; WO2013036237A1; US20130259312A1; CN103765346B; CN103765346A; JP5868507B2; EP2754005A4; KR20140057595A

Abstract

ユーザーがディスプレイ画面上の何を見ているかの検出に応答して、その領域に関連付けられたオーディオメディア又はビジュアルメディアの再生を変更することができる。例えば、ユーザーが見ている領域内のビデオは、加速させるか又は減速させることができる。関心領域内の静止画像は、動画ピクチャに変換することができる。ディスプレイ画面上の関心領域に描写されるオブジェクトに関連付けられたオーディオは、ユーザーの視線の検出に応答してアクティブ化することができる。
【選択図】図１

Description

本願は、概して、コンピューターに関し、詳細には、コンピューターでの画像の表示及びオーディオビジュアル情報の再生に関する。

通常、コンピューターは、オーディオ／ビデオ再生用の幾つかの制御機構を含む。このための入出力装置は、キーボード、マウス、及びタッチスクリーンを含む。加えて、グラフィカルユーザーインターフェースを表示して、ビデオ又はオーディオの再生の開始及び停止、ビデオ又はオーディオの再生の一時停止、ビデオ又はオーディオの再生の高速先送り、及びオーディオ／ビデオの再生の巻き戻しというユーザー制御を可能にすることができる。

本発明の一実施形態の概略図である。本発明の一実施形態のフローチャートである。

幾つかの実施形態によれば、ユーザーの視線を解析して、ユーザーがコンピューターディスプレイ画面上の何を見ているかを厳密に特定することができる。ユーザー関心の視線検出領域に基づいて、オーディオ又はビデオの再生を制御することができる。例えば、ユーザーがディスプレイ画面上の特定の領域を見ている場合、選択されたオーディオファイル又は選択されたビデオファイルの再生をそのエリアで開始することができる。

同様に、ユーザーが何を見ているかに基づいて、そのエリアにおけるビデオの動きの速度を変更することができる。別の例として、ユーザーが或る領域を見る前は静止していたその領域で動きをオンにすることができる。更なる例として、ユーザーが或る領域を見ていることの検出に応答して、視線選択された領域のサイズを増大又は低減することができる。単にユーザーが特定の領域を見ることに基づいて、高速先送り、先送り、又は巻き戻しの制御を表示領域で導入することもできる。単に視線を検出することによって実施することができる他の制御としては、一時停止及び再生の開始が挙げられる。

図１を参照すると、コンピューターシステム１０は、デスクトップコンピューター又はテレビ若しくはメディアプレーヤー等の娯楽システムを含め、任意の種類のプロセッサに基づくシステムとすることができる。コンピューターシステム１０は、数例を挙げると、ラップトップコンピューター、タブレット、セルラ電話、又はモバイルインターネット装置等のモバイルシステムとすることもできる。

システム１０は、コンピューターに基づく装置１４に結合されるディスプレイ画面１２を含むことができる。コンピューターに基づく装置は、ビデオカメラ１６に結合されたビデオインターフェース２２を含むことができ、幾つかの実施形態では、ビデオカメラ１６はディスプレイ１２に関連付けることができる。例えば、カメラ１６は、幾つかの実施形態では、ディスプレイ１２に統合するか、又は搭載することができる。幾つかの実施形態では、赤外線送信機を提供することもでき、それにより、カメラが、ユーザーの目からの赤外線反射を検出し、目の動きを追跡できるようにする。本明細書で用いられる場合、「視線検出」は、目、頭部、及び顔の追跡を含め、ユーザーが何を見ているかを特定する任意の技法を含む。

プロセッサ２８は、記憶装置２４と、ディスプレイ１２を駆動するディスプレイインターフェース２６とに結合することができる。プロセッサ２８は、中央演算処理装置又はグラフィックス処理ユニットを含め、任意のコントローラーとすることができる。プロセッサ２８は、視線検出を用いてディスプレイ画面１２に表示される画像内の関心領域を識別するモジュール１８を有することができる。

幾つかの実施形態では、ディスプレイ画面上の視線位置の特定は、画像解析で補足することができる。特に、ビデオ画像解析を用いて画像の内容を解析して、描写内のオブジェクトを認識し、視線検出によって示唆される位置が厳密に正確であるか否かを評価することができる。例として、ユーザーは、撮像される人物の頭部を見ていることがあるが、視線検出技術が僅かに間違い、代わりに、焦点を合わせているエリアが頭部の近傍であるが、空白のエリア内にあることを示唆することがある。ビデオ解析を用いて、検出された視線位置の近傍にあるオブジェクトが、撮像される人物の頭部のみであることを検出することができる。したがって、システムは、真の焦点が撮像された人物の頭部にあることを推測することができる。したがって、幾つかの実施形態では、ビデオ画像解析を視線検出と組み合わせて用いて、視線検出の正確性を改善することができる。

関心領域識別モジュール１８は、関心領域及びメディアリンクモジュール２０に結合される。リンクモジュール２０は、ユーザーが見ているものを、画面に再生されている特定のオーディオビジュアルファイルにリンクすることを担当することができる。したがって、ディスプレイ画面内の各領域は、一実施形態では、オーディオビジュアル情報の進行中の表示において、特定の瞬間又は特定の場所における特定のファイルにリンクされる。

例えば、映画のタイムコードを特定の領域にリンクすることができ、デジタルストリーミングメディアに関連付けられたメタデータが、フレーム及び象限又はフレーム内の領域を識別することができる。例えば、各フレームを象限に分割することができ、象限は、デジタルコンテンツストリーム内のメタデータにおいて識別される。

別の例として、特定のオブジェクト又は特定の領域等の各画像部分又は別個の画像は、別個に操作可能なファイル又はデジタル電子ストリームとすることができる。これらの別個のファイル又はストリームのそれぞれは、特定の状況下でアクティブ化することができる他のファイル又はストリームにリンクすることができる。さらに、別個の各ファイル又はストリームは、後述するように非アクティブ化することができるか、又は制御することができる。

幾つかの実施形態では、表示される電子メディアファイルの一連の異なるバージョンを記憶することができる。例えば、第１のバージョンはビデオを第１の領域に有することができ、第２のバージョンはビデオを第２の領域に有することができ、第３のバージョンはビデオを有さなくてもよい。ユーザーが第１の領域を見る場合、第３のバージョンの再生は第１のバージョンの再生で置き換えられる。次に、ユーザーが第２の領域を見る場合、第１のバージョンの再生は第２のバージョンの再生で置き換えられる。

同様に、オーディオも同じ方法で扱うことができる。加えて、ビーム形成技法を用いて、マイクロホンアレイ内の異なるマイクロホンに関連付けられたオーディオを撮像シーンの異なるエリアに合わせることができるように、シーンのオーディオを記録することができる。したがって、ユーザーがシーンの１つのエリアを見ている場合、一実施形態では、最も近いマイクロホンからのオーディオを再生することができる。このようにして、オーディオ再生は、ユーザーが実際に注視している撮像シーン内のエリアと相関する。

幾つかの実施形態では、シーン内の異なるオブジェクトの複数のビデオを撮影することができる。グリーンスクリーン技法を用いて、これらのオブジェクトを記録することができ、それにより、これらのオブジェクトをステッチングして全体合成画像にすることができる。したがって、例を挙げると、水を噴出している公園内の噴水のビデオを、グリーンスクリーン技法を用いて記録することができる。次に、再生中のビデオは、水が噴出していない噴水を示すことができる。一方、ユーザーが噴水オブジェクトを見る場合、この噴水オブジェクトの描写をシーンから除去し、実際に水を噴出している噴水のステッチングされたセグメント化表示で置き換えることができる。したがって、全体シーンは、ユーザーがオブジェクトの位置を見ている場合、ステッチングして合成画像にすることができるセグメント化ビデオの合成画像で構成することができる。

幾つかの場合では、表示は、シーン内の幾つかのオブジェクトを表す様々なビデオにセグメント化することができる。ユーザーがこれらのオブジェクトのうちの１つを見る場合、オブジェクトのビデオをステッチングして全体合成画像にし、オブジェクトの外観を変更することができる。

リンクモジュール２０は、ディスプレイを駆動するディスプレイドライバ２６に結合することができる。モジュール２６は、ファイルを記憶する利用可能な記憶装置２４を有することもでき、ファイルは、画面の特定の領域の選択に関連してアクティブ化し、再生することができる。

したがって、図２を参照すると、シーケンス３０は、ソフトウェア、ファームウェア、及び／又はハードウェアによって実施することができる。ソフトウェア実施形態又はファームウェア実施形態では、シーケンスは、光学記憶装置、磁気記憶装置、又は半導体記憶装置等の非一時的なコンピューター可読媒体に記憶されたコンピューター可読命令によって実施することができる。例えば、コンピューター可読命令で具現されるそのようなシーケンスは、記憶装置２４に記憶することができる。

一実施形態では、シーケンス３０は、ビデオカメラ１６からのビデオフィード内のユーザーの目の位置を検出する（ブロック３２）ことによって開始する。よく知られた技法を用いて、人間の目に関連付けられたよく知られた物理的な特徴に対応する画像部分を識別することができる。

次に、一実施形態では、ブロック３４において、目として識別された領域が、識別のために、ここでもよく知られた人間の瞳孔の幾何学的形状を用いて人間の瞳孔を探して検索される。

瞳孔が位置特定されると、従来の目検出及び追跡技術を用いて、瞳孔の動きを追跡することができる（ブロック３６）。

瞳孔の動く方向（ブロック３６）を用いて、進行中の表示内の関心領域を識別することができる（ブロック３８）。例えば、瞳孔の位置は、ディスプレイ画面に対する視線角度に対応することができ、視線角度は、特定のピクセル位置へのジオメトリを用いて相関付けることができる。それらのピクセル位置が識別されると、データベース又はテーブルが、特定のピクセル位置を、画像オブジェクト又は画面の離散したセグメント若しくは領域を含め、画面上の特定の描写にリンクすることができる。

最後に、ブロック４０において、メディアファイルを関心領域にリンクすることができる。ここでも、示される領域又はオブジェクトの様々な変更は、ユーザーが実際にその領域を見ていることの検出に応答して自動的に実施することができる。

例えば、ユーザーが画面の１つのエリアを見ている場合、選択されたオーディオを再生することができる。ユーザーが画面の別の領域を見ている場合、別のオーディオファイルを自動的に再生することができる。

同様に、ビデオは、ユーザーが画面の１つの特定のエリアを見る場合、そのエリア内で開始することができる。ユーザーが画面の異なるエリアを見る場合、異なるビデオを開始することができる。

同様に、画面の領域での動きが既にアクティブな場合、ユーザーがその領域を見るときに動きの速度を増大させることができる。別の選択肢として、ユーザーが静止領域を見る場合、その領域で動きをオンにすることができ、逆の場合も同様である。

追加の例として、ユーザー視線検出に応答して、関心領域のディスプレイのサイズを増大又は低減することができる。また、ユーザー視線検出に応答して、先送り及び巻き戻しを選択的に実施することができる。更なる追加の例は、その領域内の再生の一時停止又は開始を含む。更に別の可能性は、関心領域での三次元（３Ｄ）効果の実施又は関心領域での３Ｄ効果の非アクティブ化である。

本明細書に記載のグラフィックス処理技法は、様々なハードウェアアーキテクチャで実施することができる。例えば、グラフィックス機能はチップセット内に統合することができる。代替的には、離散グラフィックスプロセッサを用いることができる。更に別の実施形態として、グラフィックス機能は、マルチコアプロセッサを含め、汎用プロセッサによって実施することができる。

本明細書全体を通しての「一実施形態」又は「一実施形態」の言及は、その実施形態に関連して説明される特定の特徴、構造、又は特性が、本発明内に包含される少なくとも１つの実施態様に含まれることを意味する。したがって、語句「一実施形態」又は「一実施形態では」の出現は、必ずしも同じ実施形態を参照しない。さらに、特定の特徴、構造、又は特性は、示される特定の実施形態以外の他の適する形態で導入することができ、そのような全ての形態は本願の特許請求の範囲内に包含することができる。

限られた数の実施形態に関して本発明を説明してきたが、当業者であれば、これらの実施形態から多数の変更及び変形を認識するであろう。添付の特許請求の範囲は、本発明の真の趣旨及び範囲に含まれる全ての変更及び変形をカバーすることを意図している。

限られた数の実施形態に関して本発明を説明してきたが、当業者であれば、これらの実施形態から多数の変更及び変形を認識するであろう。添付の特許請求の範囲は、本発明の真の趣旨及び範囲に含まれる全ての変更及び変形をカバーすることを意図している。
（項目１）
視線検出を用いてディスプレイ画面上の何をユーザーが見ているかを識別することと、
上記ユーザーが上記ディスプレイ画面上の何を見ているかに基づいて、オーディオ／ビジュアルメディアの再生を変更することと、を含む、方法。
（項目２）
上記ユーザーが上記ディスプレイ画面の一の領域を見ていることの検出に応答して、上記一の領域でビデオを再生することを含む、項目１に記載の方法。
（項目３）
ユーザーが見ている上記ディスプレイ画面の一の領域におけるオブジェクトの動きの速度を増大させることを含む、項目１に記載の方法。
（項目４）
上記ユーザーが見ている上記ディスプレイ画面上の一の領域に関連付けられたオーディオを開始すること又は停止することを含む、項目１に記載の方法。
（項目５）
上記ユーザーが見ている上記ディスプレイ画面上の一の領域を、静止画像から動画ピクチャに切り替えることを含む、項目１に記載の方法。
（項目６）
アイトラッカーを用いて、上記ディスプレイ画面上で何が見られているかを特定することを含む、項目１に記載の方法。
（項目７）
ビデオ画像解析を用いて、上記アイトラッカーを補足することを含む、項目６に記載の方法。
（項目８）
上記ユーザーが空白の画面領域を見ていることを上記アイトラッカーが示すか否かを判断することと、
上記ユーザーが空白の画面領域を見ていることを上記アイトラッカーが示す場合、ビデオ画像解析を用いて、上記ユーザーが見ていると上記アイトラッカーが特定したものの近傍にある撮像オブジェクトを識別することとを含む、項目７に記載の方法。
（項目９）
上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供することと、
上記領域にリンクされたマイクロホンからのオーディオを再生することとを含む、項目１に記載の方法。
（項目１０）
命令を記憶する非一時的なコンピューター可読媒体であって、上記命令は、コンピューターが、
ユーザーがディスプレイ画面上の何を見ているかに基づいて、オーディオ／ビジュアルメディアの再生を変更することを行えるようにする、命令を記憶する非一時的なコンピューター可読媒体。
（項目１１）
上記ユーザーが一の領域を見ていることの検出に応答して、上記ユーザーが見ている上記一の領域でビデオを再生する命令を更に記憶する、項目１０に記載の媒体。
（項目１２）
上記ユーザーが見ている領域に示されるオブジェクトの動きの速度を増大させる命令を更に記憶する、項目１０に記載の媒体。
（項目１３）
上記ユーザーが見ている上記ディスプレイ画面の一の領域に関連付けられたオーディオを開始する又は停止する命令を更に記憶する、項目１０に記載の媒体。
（項目１４）
上記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える命令を更に記憶する、項目１０に記載の媒体。
（項目１５）
視線検出を用いて、上記ディスプレイ画面上で何が見られているのかを特定する命令を更に記憶する、項目１０に記載の媒体。
（項目１６）
ビデオ画像解析を用いて、上記視線検出を補足する命令を更に記憶する、項目１５に記載の媒体。
（項目１７）
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示さているか否かを判断し、
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、近傍の撮像オブジェクトを識別する命令を更に記憶する、項目１６に記載の媒体。
（項目１８）
上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供する命令と、
識別された一の領域にリンクされたマイクロホンからの上記オーディオを再生する命令と、を更に記憶する、項目１０に記載の媒体。
（項目１９）
プロセッサと、
コンピューターシステムのユーザーのビデオを受信するビデオインターフェースと、を備え、
上記プロセッサは、上記ビデオを用いて、ユーザーがディスプレイ画面上で何を見ているのかを識別し、上記ユーザーが何を見ているかに基づいてオーディオメディア又はビジュアルメディアの再生を変更する、装置。
（項目２０）
上記プロセッサに結合されるビデオディスプレイを備える、項目１９に記載の装置。
（項目２１）
上記ビデオディスプレイに搭載され、上記ビデオインターフェースに結合されるカメラを備える、項目２０に記載の装置。
（項目２２）
上記プロセッサは、上記ユーザーが上記ディスプレイ画面の一の領域を見ていることの検出に応答して、上記一の領域でビデオを再生する、項目１９に記載の装置。
（項目２３）
上記プロセッサは、上記ユーザーが見ているオブジェクトの動きの速度を増大させる、項目１９に記載の装置。
（項目２４）
上記プロセッサは、上記ユーザーが見ているものに関連付けられたオーディオを開始する又は停止する、項目１９に記載の装置。
（項目２５）
上記プロセッサは、上記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える、項目１９に記載の装置。
（項目２６）
上記プロセッサは、視線検出を用いて、上記ディスプレイ画面上で何が見られているかを特定する、項目１９に記載の装置。
（項目２７）
上記プロセッサは、ビデオ画像解析を用いて上記視線検出を補足する、項目２６に記載の装置。
（項目２８）
上記プロセッサは、視線検出により、上記ユーザーが空白の画面領域を見ていることが示されているか否かを判断し、
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、上記視線検出に基づいて識別された位置の近傍の撮像オブジェクトを識別する、項目２７に記載の装置。
（項目２９）
上記プロセッサは、上記近傍の撮像オブジェクトに基づいて上記視線検出を補正する、項目２８に記載の装置。
（項目３０）
上記プロセッサは、上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供し、上記識別された領域にリンクされたマイクロホンからのオーディオを再生する、項目１９に記載の装置。

Claims

視線検出を用いてディスプレイ画面上の何をユーザーが見ているかを識別することと、
前記ユーザーが前記ディスプレイ画面上の何を見ているかに基づいて、オーディオ／ビジュアルメディアの再生を変更することと、を含む、方法。
前記ユーザーが前記ディスプレイ画面の一の領域を見ていることの検出に応答して、前記一の領域でビデオを再生することを含む、請求項１に記載の方法。
ユーザーが見ている前記ディスプレイ画面の一の領域におけるオブジェクトの動きの速度を増大させることを含む、請求項１に記載の方法。
前記ユーザーが見ている前記ディスプレイ画面上の一の領域に関連付けられたオーディオを開始すること又は停止することを含む、請求項１に記載の方法。
前記ユーザーが見ている前記ディスプレイ画面上の一の領域を、静止画像から動画ピクチャに切り替えることを含む、請求項１に記載の方法。
アイトラッカーを用いて、前記ディスプレイ画面上で何が見られているかを特定することを含む、請求項１に記載の方法。
ビデオ画像解析を用いて、前記アイトラッカーを補足することを含む、請求項６に記載の方法。
前記ユーザーが空白の画面領域を見ていることを前記アイトラッカーが示すか否かを判断することと、
前記ユーザーが空白の画面領域を見ていることを前記アイトラッカーが示す場合、ビデオ画像解析を用いて、前記ユーザーが見ていると前記アイトラッカーが特定したものの近傍にある撮像オブジェクトを識別することとを含む、請求項７に記載の方法。
前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供することと、
前記領域にリンクされたマイクロホンからのオーディオを再生することとを含む、請求項１に記載の方法。
命令を記憶する非一時的なコンピューター可読媒体であって、前記命令は、コンピューターが、
ユーザーがディスプレイ画面上の何を見ているかに基づいて、オーディオ／ビジュアルメディアの再生を変更することを行えるようにする、命令を記憶する非一時的なコンピューター可読媒体。
前記ユーザーが一の領域を見ていることの検出に応答して、前記ユーザーが見ている前記一の領域でビデオを再生する命令を更に記憶する、請求項１０に記載の媒体。
前記ユーザーが見ている領域に示されるオブジェクトの動きの速度を増大させる命令を更に記憶する、請求項１０に記載の媒体。
前記ユーザーが見ている前記ディスプレイ画面の一の領域に関連付けられたオーディオを開始する又は停止する命令を更に記憶する、請求項１０に記載の媒体。
前記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える命令を更に記憶する、請求項１０に記載の媒体。
視線検出を用いて、前記ディスプレイ画面上で何が見られているのかを特定する命令を更に記憶する、請求項１０に記載の媒体。
ビデオ画像解析を用いて、前記視線検出を補足する命令を更に記憶する、請求項１５に記載の媒体。
前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示さているか否かを判断し、
前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、近傍の撮像オブジェクトを識別する命令を更に記憶する、請求項１６に記載の媒体。
前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供する命令と、
識別された一の領域にリンクされたマイクロホンからの前記オーディオを再生する命令と、を更に記憶する、請求項１０に記載の媒体。
プロセッサと、
コンピューターシステムのユーザーのビデオを受信するビデオインターフェースと、を備え、
前記プロセッサは、前記ビデオを用いて、ユーザーがディスプレイ画面上で何を見ているのかを識別し、前記ユーザーが何を見ているかに基づいてオーディオメディア又はビジュアルメディアの再生を変更する、装置。
前記プロセッサに結合されるビデオディスプレイを備える、請求項１９に記載の装置。
前記ビデオディスプレイに搭載され、前記ビデオインターフェースに結合されるカメラを備える、請求項２０に記載の装置。
前記プロセッサは、前記ユーザーが前記ディスプレイ画面の一の領域を見ていることの検出に応答して、前記一の領域でビデオを再生する、請求項１９に記載の装置。
前記プロセッサは、前記ユーザーが見ているオブジェクトの動きの速度を増大させる、請求項１９に記載の装置。
前記プロセッサは、前記ユーザーが見ているものに関連付けられたオーディオを開始する又は停止する、請求項１９に記載の装置。
前記プロセッサは、前記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える、請求項１９に記載の装置。
前記プロセッサは、視線検出を用いて、前記ディスプレイ画面上で何が見られているかを特定する、請求項１９に記載の装置。
前記プロセッサは、ビデオ画像解析を用いて前記視線検出を補足する、請求項２６に記載の装置。
前記プロセッサは、視線検出により、前記ユーザーが空白の画面領域を見ていることが示されているか否かを判断し、
前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、前記視線検出に基づいて識別された位置の近傍の撮像オブジェクトを識別する、請求項２７に記載の装置。
前記プロセッサは、前記近傍の撮像オブジェクトに基づいて前記視線検出を補正する、請求項２８に記載の装置。
前記プロセッサは、前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供し、前記識別された領域にリンクされたマイクロホンからのオーディオを再生する、請求項１９に記載の装置。