JP2014526725A - 視線に基づくオーディオビジュアル再生の位置選択 - Google Patents

視線に基づくオーディオビジュアル再生の位置選択 Download PDF

Info

Publication number
JP2014526725A
JP2014526725A JP2014529655A JP2014529655A JP2014526725A JP 2014526725 A JP2014526725 A JP 2014526725A JP 2014529655 A JP2014529655 A JP 2014529655A JP 2014529655 A JP2014529655 A JP 2014529655A JP 2014526725 A JP2014526725 A JP 2014526725A
Authority
JP
Japan
Prior art keywords
user
area
display screen
video
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014529655A
Other languages
English (en)
Other versions
JP5868507B2 (ja
Inventor
エム. ライアンズ、ケントン
ジェイ. ラトクリフ、ジョシュア
ペリング、トレバー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of JP2014526725A publication Critical patent/JP2014526725A/ja
Application granted granted Critical
Publication of JP5868507B2 publication Critical patent/JP5868507B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/4223Cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4728End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for selecting a Region Of Interest [ROI], e.g. for requesting a higher resolution version of a selected region
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Controls And Circuits For Display Device (AREA)
  • Position Input By Displaying (AREA)
  • Transforming Electric Information Into Light Information (AREA)

Abstract

ユーザーがディスプレイ画面上の何を見ているかの検出に応答して、その領域に関連付けられたオーディオメディア又はビジュアルメディアの再生を変更することができる。例えば、ユーザーが見ている領域内のビデオは、加速させるか又は減速させることができる。関心領域内の静止画像は、動画ピクチャに変換することができる。ディスプレイ画面上の関心領域に描写されるオブジェクトに関連付けられたオーディオは、ユーザーの視線の検出に応答してアクティブ化することができる。
【選択図】図1

Description

本願は、概して、コンピューターに関し、詳細には、コンピューターでの画像の表示及びオーディオビジュアル情報の再生に関する。
通常、コンピューターは、オーディオ/ビデオ再生用の幾つかの制御機構を含む。このための入出力装置は、キーボード、マウス、及びタッチスクリーンを含む。加えて、グラフィカルユーザーインターフェースを表示して、ビデオ又はオーディオの再生の開始及び停止、ビデオ又はオーディオの再生の一時停止、ビデオ又はオーディオの再生の高速先送り、及びオーディオ/ビデオの再生の巻き戻しというユーザー制御を可能にすることができる。
本発明の一実施形態の概略図である。 本発明の一実施形態のフローチャートである。
幾つかの実施形態によれば、ユーザーの視線を解析して、ユーザーがコンピューターディスプレイ画面上の何を見ているかを厳密に特定することができる。ユーザー関心の視線検出領域に基づいて、オーディオ又はビデオの再生を制御することができる。例えば、ユーザーがディスプレイ画面上の特定の領域を見ている場合、選択されたオーディオファイル又は選択されたビデオファイルの再生をそのエリアで開始することができる。
同様に、ユーザーが何を見ているかに基づいて、そのエリアにおけるビデオの動きの速度を変更することができる。別の例として、ユーザーが或る領域を見る前は静止していたその領域で動きをオンにすることができる。更なる例として、ユーザーが或る領域を見ていることの検出に応答して、視線選択された領域のサイズを増大又は低減することができる。単にユーザーが特定の領域を見ることに基づいて、高速先送り、先送り、又は巻き戻しの制御を表示領域で導入することもできる。単に視線を検出することによって実施することができる他の制御としては、一時停止及び再生の開始が挙げられる。
図1を参照すると、コンピューターシステム10は、デスクトップコンピューター又はテレビ若しくはメディアプレーヤー等の娯楽システムを含め、任意の種類のプロセッサに基づくシステムとすることができる。コンピューターシステム10は、数例を挙げると、ラップトップコンピューター、タブレット、セルラ電話、又はモバイルインターネット装置等のモバイルシステムとすることもできる。
システム10は、コンピューターに基づく装置14に結合されるディスプレイ画面12を含むことができる。コンピューターに基づく装置は、ビデオカメラ16に結合されたビデオインターフェース22を含むことができ、幾つかの実施形態では、ビデオカメラ16はディスプレイ12に関連付けることができる。例えば、カメラ16は、幾つかの実施形態では、ディスプレイ12に統合するか、又は搭載することができる。幾つかの実施形態では、赤外線送信機を提供することもでき、それにより、カメラが、ユーザーの目からの赤外線反射を検出し、目の動きを追跡できるようにする。本明細書で用いられる場合、「視線検出」は、目、頭部、及び顔の追跡を含め、ユーザーが何を見ているかを特定する任意の技法を含む。
プロセッサ28は、記憶装置24と、ディスプレイ12を駆動するディスプレイインターフェース26とに結合することができる。プロセッサ28は、中央演算処理装置又はグラフィックス処理ユニットを含め、任意のコントローラーとすることができる。プロセッサ28は、視線検出を用いてディスプレイ画面12に表示される画像内の関心領域を識別するモジュール18を有することができる。
幾つかの実施形態では、ディスプレイ画面上の視線位置の特定は、画像解析で補足することができる。特に、ビデオ画像解析を用いて画像の内容を解析して、描写内のオブジェクトを認識し、視線検出によって示唆される位置が厳密に正確であるか否かを評価することができる。例として、ユーザーは、撮像される人物の頭部を見ていることがあるが、視線検出技術が僅かに間違い、代わりに、焦点を合わせているエリアが頭部の近傍であるが、空白のエリア内にあることを示唆することがある。ビデオ解析を用いて、検出された視線位置の近傍にあるオブジェクトが、撮像される人物の頭部のみであることを検出することができる。したがって、システムは、真の焦点が撮像された人物の頭部にあることを推測することができる。したがって、幾つかの実施形態では、ビデオ画像解析を視線検出と組み合わせて用いて、視線検出の正確性を改善することができる。
関心領域識別モジュール18は、関心領域及びメディアリンクモジュール20に結合される。リンクモジュール20は、ユーザーが見ているものを、画面に再生されている特定のオーディオビジュアルファイルにリンクすることを担当することができる。したがって、ディスプレイ画面内の各領域は、一実施形態では、オーディオビジュアル情報の進行中の表示において、特定の瞬間又は特定の場所における特定のファイルにリンクされる。
例えば、映画のタイムコードを特定の領域にリンクすることができ、デジタルストリーミングメディアに関連付けられたメタデータが、フレーム及び象限又はフレーム内の領域を識別することができる。例えば、各フレームを象限に分割することができ、象限は、デジタルコンテンツストリーム内のメタデータにおいて識別される。
別の例として、特定のオブジェクト又は特定の領域等の各画像部分又は別個の画像は、別個に操作可能なファイル又はデジタル電子ストリームとすることができる。これらの別個のファイル又はストリームのそれぞれは、特定の状況下でアクティブ化することができる他のファイル又はストリームにリンクすることができる。さらに、別個の各ファイル又はストリームは、後述するように非アクティブ化することができるか、又は制御することができる。
幾つかの実施形態では、表示される電子メディアファイルの一連の異なるバージョンを記憶することができる。例えば、第1のバージョンはビデオを第1の領域に有することができ、第2のバージョンはビデオを第2の領域に有することができ、第3のバージョンはビデオを有さなくてもよい。ユーザーが第1の領域を見る場合、第3のバージョンの再生は第1のバージョンの再生で置き換えられる。次に、ユーザーが第2の領域を見る場合、第1のバージョンの再生は第2のバージョンの再生で置き換えられる。
同様に、オーディオも同じ方法で扱うことができる。加えて、ビーム形成技法を用いて、マイクロホンアレイ内の異なるマイクロホンに関連付けられたオーディオを撮像シーンの異なるエリアに合わせることができるように、シーンのオーディオを記録することができる。したがって、ユーザーがシーンの1つのエリアを見ている場合、一実施形態では、最も近いマイクロホンからのオーディオを再生することができる。このようにして、オーディオ再生は、ユーザーが実際に注視している撮像シーン内のエリアと相関する。
幾つかの実施形態では、シーン内の異なるオブジェクトの複数のビデオを撮影することができる。グリーンスクリーン技法を用いて、これらのオブジェクトを記録することができ、それにより、これらのオブジェクトをステッチングして全体合成画像にすることができる。したがって、例を挙げると、水を噴出している公園内の噴水のビデオを、グリーンスクリーン技法を用いて記録することができる。次に、再生中のビデオは、水が噴出していない噴水を示すことができる。一方、ユーザーが噴水オブジェクトを見る場合、この噴水オブジェクトの描写をシーンから除去し、実際に水を噴出している噴水のステッチングされたセグメント化表示で置き換えることができる。したがって、全体シーンは、ユーザーがオブジェクトの位置を見ている場合、ステッチングして合成画像にすることができるセグメント化ビデオの合成画像で構成することができる。
幾つかの場合では、表示は、シーン内の幾つかのオブジェクトを表す様々なビデオにセグメント化することができる。ユーザーがこれらのオブジェクトのうちの1つを見る場合、オブジェクトのビデオをステッチングして全体合成画像にし、オブジェクトの外観を変更することができる。
リンクモジュール20は、ディスプレイを駆動するディスプレイドライバ26に結合することができる。モジュール26は、ファイルを記憶する利用可能な記憶装置24を有することもでき、ファイルは、画面の特定の領域の選択に関連してアクティブ化し、再生することができる。
したがって、図2を参照すると、シーケンス30は、ソフトウェア、ファームウェア、及び/又はハードウェアによって実施することができる。ソフトウェア実施形態又はファームウェア実施形態では、シーケンスは、光学記憶装置、磁気記憶装置、又は半導体記憶装置等の非一時的なコンピューター可読媒体に記憶されたコンピューター可読命令によって実施することができる。例えば、コンピューター可読命令で具現されるそのようなシーケンスは、記憶装置24に記憶することができる。
一実施形態では、シーケンス30は、ビデオカメラ16からのビデオフィード内のユーザーの目の位置を検出する(ブロック32)ことによって開始する。よく知られた技法を用いて、人間の目に関連付けられたよく知られた物理的な特徴に対応する画像部分を識別することができる。
次に、一実施形態では、ブロック34において、目として識別された領域が、識別のために、ここでもよく知られた人間の瞳孔の幾何学的形状を用いて人間の瞳孔を探して検索される。
瞳孔が位置特定されると、従来の目検出及び追跡技術を用いて、瞳孔の動きを追跡することができる(ブロック36)。
瞳孔の動く方向(ブロック36)を用いて、進行中の表示内の関心領域を識別することができる(ブロック38)。例えば、瞳孔の位置は、ディスプレイ画面に対する視線角度に対応することができ、視線角度は、特定のピクセル位置へのジオメトリを用いて相関付けることができる。それらのピクセル位置が識別されると、データベース又はテーブルが、特定のピクセル位置を、画像オブジェクト又は画面の離散したセグメント若しくは領域を含め、画面上の特定の描写にリンクすることができる。
最後に、ブロック40において、メディアファイルを関心領域にリンクすることができる。ここでも、示される領域又はオブジェクトの様々な変更は、ユーザーが実際にその領域を見ていることの検出に応答して自動的に実施することができる。
例えば、ユーザーが画面の1つのエリアを見ている場合、選択されたオーディオを再生することができる。ユーザーが画面の別の領域を見ている場合、別のオーディオファイルを自動的に再生することができる。
同様に、ビデオは、ユーザーが画面の1つの特定のエリアを見る場合、そのエリア内で開始することができる。ユーザーが画面の異なるエリアを見る場合、異なるビデオを開始することができる。
同様に、画面の領域での動きが既にアクティブな場合、ユーザーがその領域を見るときに動きの速度を増大させることができる。別の選択肢として、ユーザーが静止領域を見る場合、その領域で動きをオンにすることができ、逆の場合も同様である。
追加の例として、ユーザー視線検出に応答して、関心領域のディスプレイのサイズを増大又は低減することができる。また、ユーザー視線検出に応答して、先送り及び巻き戻しを選択的に実施することができる。更なる追加の例は、その領域内の再生の一時停止又は開始を含む。更に別の可能性は、関心領域での三次元(3D)効果の実施又は関心領域での3D効果の非アクティブ化である。
本明細書に記載のグラフィックス処理技法は、様々なハードウェアアーキテクチャで実施することができる。例えば、グラフィックス機能はチップセット内に統合することができる。代替的には、離散グラフィックスプロセッサを用いることができる。更に別の実施形態として、グラフィックス機能は、マルチコアプロセッサを含め、汎用プロセッサによって実施することができる。
本明細書全体を通しての「一実施形態」又は「一実施形態」の言及は、その実施形態に関連して説明される特定の特徴、構造、又は特性が、本発明内に包含される少なくとも1つの実施態様に含まれることを意味する。したがって、語句「一実施形態」又は「一実施形態では」の出現は、必ずしも同じ実施形態を参照しない。さらに、特定の特徴、構造、又は特性は、示される特定の実施形態以外の他の適する形態で導入することができ、そのような全ての形態は本願の特許請求の範囲内に包含することができる。
限られた数の実施形態に関して本発明を説明してきたが、当業者であれば、これらの実施形態から多数の変更及び変形を認識するであろう。添付の特許請求の範囲は、本発明の真の趣旨及び範囲に含まれる全ての変更及び変形をカバーすることを意図している。
限られた数の実施形態に関して本発明を説明してきたが、当業者であれば、これらの実施形態から多数の変更及び変形を認識するであろう。添付の特許請求の範囲は、本発明の真の趣旨及び範囲に含まれる全ての変更及び変形をカバーすることを意図している。
(項目1)
視線検出を用いてディスプレイ画面上の何をユーザーが見ているかを識別することと、
上記ユーザーが上記ディスプレイ画面上の何を見ているかに基づいて、オーディオ/ビジュアルメディアの再生を変更することと、を含む、方法。
(項目2)
上記ユーザーが上記ディスプレイ画面の一の領域を見ていることの検出に応答して、上記一の領域でビデオを再生することを含む、項目1に記載の方法。
(項目3)
ユーザーが見ている上記ディスプレイ画面の一の領域におけるオブジェクトの動きの速度を増大させることを含む、項目1に記載の方法。
(項目4)
上記ユーザーが見ている上記ディスプレイ画面上の一の領域に関連付けられたオーディオを開始すること又は停止することを含む、項目1に記載の方法。
(項目5)
上記ユーザーが見ている上記ディスプレイ画面上の一の領域を、静止画像から動画ピクチャに切り替えることを含む、項目1に記載の方法。
(項目6)
アイトラッカーを用いて、上記ディスプレイ画面上で何が見られているかを特定することを含む、項目1に記載の方法。
(項目7)
ビデオ画像解析を用いて、上記アイトラッカーを補足することを含む、項目6に記載の方法。
(項目8)
上記ユーザーが空白の画面領域を見ていることを上記アイトラッカーが示すか否かを判断することと、
上記ユーザーが空白の画面領域を見ていることを上記アイトラッカーが示す場合、ビデオ画像解析を用いて、上記ユーザーが見ていると上記アイトラッカーが特定したものの近傍にある撮像オブジェクトを識別することとを含む、項目7に記載の方法。
(項目9)
上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供することと、
上記領域にリンクされたマイクロホンからのオーディオを再生することとを含む、項目1に記載の方法。
(項目10)
命令を記憶する非一時的なコンピューター可読媒体であって、上記命令は、コンピューターが、
ユーザーがディスプレイ画面上の何を見ているかに基づいて、オーディオ/ビジュアルメディアの再生を変更することを行えるようにする、命令を記憶する非一時的なコンピューター可読媒体。
(項目11)
上記ユーザーが一の領域を見ていることの検出に応答して、上記ユーザーが見ている上記一の領域でビデオを再生する命令を更に記憶する、項目10に記載の媒体。
(項目12)
上記ユーザーが見ている領域に示されるオブジェクトの動きの速度を増大させる命令を更に記憶する、項目10に記載の媒体。
(項目13)
上記ユーザーが見ている上記ディスプレイ画面の一の領域に関連付けられたオーディオを開始する又は停止する命令を更に記憶する、項目10に記載の媒体。
(項目14)
上記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える命令を更に記憶する、項目10に記載の媒体。
(項目15)
視線検出を用いて、上記ディスプレイ画面上で何が見られているのかを特定する命令を更に記憶する、項目10に記載の媒体。
(項目16)
ビデオ画像解析を用いて、上記視線検出を補足する命令を更に記憶する、項目15に記載の媒体。
(項目17)
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示さているか否かを判断し、
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、近傍の撮像オブジェクトを識別する命令を更に記憶する、項目16に記載の媒体。
(項目18)
上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供する命令と、
識別された一の領域にリンクされたマイクロホンからの上記オーディオを再生する命令と、を更に記憶する、項目10に記載の媒体。
(項目19)
プロセッサと、
コンピューターシステムのユーザーのビデオを受信するビデオインターフェースと、を備え、
上記プロセッサは、上記ビデオを用いて、ユーザーがディスプレイ画面上で何を見ているのかを識別し、上記ユーザーが何を見ているかに基づいてオーディオメディア又はビジュアルメディアの再生を変更する、装置。
(項目20)
上記プロセッサに結合されるビデオディスプレイを備える、項目19に記載の装置。
(項目21)
上記ビデオディスプレイに搭載され、上記ビデオインターフェースに結合されるカメラを備える、項目20に記載の装置。
(項目22)
上記プロセッサは、上記ユーザーが上記ディスプレイ画面の一の領域を見ていることの検出に応答して、上記一の領域でビデオを再生する、項目19に記載の装置。
(項目23)
上記プロセッサは、上記ユーザーが見ているオブジェクトの動きの速度を増大させる、項目19に記載の装置。
(項目24)
上記プロセッサは、上記ユーザーが見ているものに関連付けられたオーディオを開始する又は停止する、項目19に記載の装置。
(項目25)
上記プロセッサは、上記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える、項目19に記載の装置。
(項目26)
上記プロセッサは、視線検出を用いて、上記ディスプレイ画面上で何が見られているかを特定する、項目19に記載の装置。
(項目27)
上記プロセッサは、ビデオ画像解析を用いて上記視線検出を補足する、項目26に記載の装置。
(項目28)
上記プロセッサは、視線検出により、上記ユーザーが空白の画面領域を見ていることが示されているか否かを判断し、
上記視線検出により、上記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、上記視線検出に基づいて識別された位置の近傍の撮像オブジェクトを識別する、項目27に記載の装置。
(項目29)
上記プロセッサは、上記近傍の撮像オブジェクトに基づいて上記視線検出を補正する、項目28に記載の装置。
(項目30)
上記プロセッサは、上記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供し、上記識別された領域にリンクされたマイクロホンからのオーディオを再生する、項目19に記載の装置。

Claims (30)

  1. 視線検出を用いてディスプレイ画面上の何をユーザーが見ているかを識別することと、
    前記ユーザーが前記ディスプレイ画面上の何を見ているかに基づいて、オーディオ/ビジュアルメディアの再生を変更することと、を含む、方法。
  2. 前記ユーザーが前記ディスプレイ画面の一の領域を見ていることの検出に応答して、前記一の領域でビデオを再生することを含む、請求項1に記載の方法。
  3. ユーザーが見ている前記ディスプレイ画面の一の領域におけるオブジェクトの動きの速度を増大させることを含む、請求項1に記載の方法。
  4. 前記ユーザーが見ている前記ディスプレイ画面上の一の領域に関連付けられたオーディオを開始すること又は停止することを含む、請求項1に記載の方法。
  5. 前記ユーザーが見ている前記ディスプレイ画面上の一の領域を、静止画像から動画ピクチャに切り替えることを含む、請求項1に記載の方法。
  6. アイトラッカーを用いて、前記ディスプレイ画面上で何が見られているかを特定することを含む、請求項1に記載の方法。
  7. ビデオ画像解析を用いて、前記アイトラッカーを補足することを含む、請求項6に記載の方法。
  8. 前記ユーザーが空白の画面領域を見ていることを前記アイトラッカーが示すか否かを判断することと、
    前記ユーザーが空白の画面領域を見ていることを前記アイトラッカーが示す場合、ビデオ画像解析を用いて、前記ユーザーが見ていると前記アイトラッカーが特定したものの近傍にある撮像オブジェクトを識別することとを含む、請求項7に記載の方法。
  9. 前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供することと、
    前記領域にリンクされたマイクロホンからのオーディオを再生することとを含む、請求項1に記載の方法。
  10. 命令を記憶する非一時的なコンピューター可読媒体であって、前記命令は、コンピューターが、
    ユーザーがディスプレイ画面上の何を見ているかに基づいて、オーディオ/ビジュアルメディアの再生を変更することを行えるようにする、命令を記憶する非一時的なコンピューター可読媒体。
  11. 前記ユーザーが一の領域を見ていることの検出に応答して、前記ユーザーが見ている前記一の領域でビデオを再生する命令を更に記憶する、請求項10に記載の媒体。
  12. 前記ユーザーが見ている領域に示されるオブジェクトの動きの速度を増大させる命令を更に記憶する、請求項10に記載の媒体。
  13. 前記ユーザーが見ている前記ディスプレイ画面の一の領域に関連付けられたオーディオを開始する又は停止する命令を更に記憶する、請求項10に記載の媒体。
  14. 前記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える命令を更に記憶する、請求項10に記載の媒体。
  15. 視線検出を用いて、前記ディスプレイ画面上で何が見られているのかを特定する命令を更に記憶する、請求項10に記載の媒体。
  16. ビデオ画像解析を用いて、前記視線検出を補足する命令を更に記憶する、請求項15に記載の媒体。
  17. 前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示さているか否かを判断し、
    前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、近傍の撮像オブジェクトを識別する命令を更に記憶する、請求項16に記載の媒体。
  18. 前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供する命令と、
    識別された一の領域にリンクされたマイクロホンからの前記オーディオを再生する命令と、を更に記憶する、請求項10に記載の媒体。
  19. プロセッサと、
    コンピューターシステムのユーザーのビデオを受信するビデオインターフェースと、を備え、
    前記プロセッサは、前記ビデオを用いて、ユーザーがディスプレイ画面上で何を見ているのかを識別し、前記ユーザーが何を見ているかに基づいてオーディオメディア又はビジュアルメディアの再生を変更する、装置。
  20. 前記プロセッサに結合されるビデオディスプレイを備える、請求項19に記載の装置。
  21. 前記ビデオディスプレイに搭載され、前記ビデオインターフェースに結合されるカメラを備える、請求項20に記載の装置。
  22. 前記プロセッサは、前記ユーザーが前記ディスプレイ画面の一の領域を見ていることの検出に応答して、前記一の領域でビデオを再生する、請求項19に記載の装置。
  23. 前記プロセッサは、前記ユーザーが見ているオブジェクトの動きの速度を増大させる、請求項19に記載の装置。
  24. 前記プロセッサは、前記ユーザーが見ているものに関連付けられたオーディオを開始する又は停止する、請求項19に記載の装置。
  25. 前記プロセッサは、前記ユーザーが見ている一の領域を、静止画像から動画ピクチャに切り替える、請求項19に記載の装置。
  26. 前記プロセッサは、視線検出を用いて、前記ディスプレイ画面上で何が見られているかを特定する、請求項19に記載の装置。
  27. 前記プロセッサは、ビデオ画像解析を用いて前記視線検出を補足する、請求項26に記載の装置。
  28. 前記プロセッサは、視線検出により、前記ユーザーが空白の画面領域を見ていることが示されているか否かを判断し、
    前記視線検出により、前記ユーザーが空白の画面領域を見ていることが示されている場合、ビデオ画像解析を用いて、前記視線検出に基づいて識別された位置の近傍の撮像オブジェクトを識別する、請求項27に記載の装置。
  29. 前記プロセッサは、前記近傍の撮像オブジェクトに基づいて前記視線検出を補正する、請求項28に記載の装置。
  30. 前記プロセッサは、前記ディスプレイ画面の領域にリンクされたビーム形成オーディオを提供し、前記識別された領域にリンクされたマイクロホンからのオーディオを再生する、請求項19に記載の装置。
JP2014529655A 2011-09-08 2011-09-08 視線に基づくオーディオビジュアル再生の位置選択 Expired - Fee Related JP5868507B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2011/050895 WO2013036237A1 (en) 2011-09-08 2011-09-08 Eye gaze based location selection for audio visual playback

Publications (2)

Publication Number Publication Date
JP2014526725A true JP2014526725A (ja) 2014-10-06
JP5868507B2 JP5868507B2 (ja) 2016-02-24

Family

ID=47832475

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014529655A Expired - Fee Related JP5868507B2 (ja) 2011-09-08 2011-09-08 視線に基づくオーディオビジュアル再生の位置選択

Country Status (6)

Country Link
US (1) US20130259312A1 (ja)
EP (1) EP2754005A4 (ja)
JP (1) JP5868507B2 (ja)
KR (1) KR101605276B1 (ja)
CN (1) CN103765346B (ja)
WO (1) WO2013036237A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506205A (ja) * 2014-12-23 2018-03-01 ノキア テクノロジーズ オーユー バーチャルリアリティコンテンツの制御
JP2022064987A (ja) * 2016-03-14 2022-04-26 ロバート エル リッチモンド、 デジタル媒体と観察者の相互作用の構成及び実現

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9131266B2 (en) 2012-08-10 2015-09-08 Qualcomm Incorporated Ad-hoc media presentation based upon dynamic discovery of media output devices that are proximate to one or more users
US9047042B2 (en) 2013-04-19 2015-06-02 Qualcomm Incorporated Modifying one or more session parameters for a coordinated display session between a plurality of proximate client devices based upon eye movements of a viewing population
EP3036918B1 (en) * 2013-08-21 2017-05-31 Thomson Licensing Video display having audio controlled by viewing direction
US9342147B2 (en) * 2014-04-10 2016-05-17 Microsoft Technology Licensing, Llc Non-visual feedback of visual change
US9318121B2 (en) 2014-04-21 2016-04-19 Sony Corporation Method and system for processing audio data of video content
GB2527306A (en) * 2014-06-16 2015-12-23 Guillaume Couche System and method for using eye gaze or head orientation information to create and play interactive movies
US9606622B1 (en) * 2014-06-26 2017-03-28 Audible, Inc. Gaze-based modification to content presentation
US20160035063A1 (en) * 2014-07-30 2016-02-04 Lenovo (Singapore) Pte. Ltd. Scaling data automatically
CN104731335B (zh) * 2015-03-26 2018-03-23 联想(北京)有限公司 一种播放内容调整方法及电子设备
US11269403B2 (en) 2015-05-04 2022-03-08 Disney Enterprises, Inc. Adaptive multi-window configuration based upon gaze tracking
US9774907B1 (en) 2016-04-05 2017-09-26 International Business Machines Corporation Tailored audio content delivery
US10153002B2 (en) * 2016-04-15 2018-12-11 Intel Corporation Selection of an audio stream of a video for enhancement using images of the video
FR3050895A1 (fr) * 2016-04-29 2017-11-03 Orange Procede de composition contextuelle d'une representation video intermediaire
CN106569598A (zh) * 2016-10-31 2017-04-19 努比亚技术有限公司 菜单栏的管理装置及方法
EP3470976A1 (en) 2017-10-12 2019-04-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and apparatus for efficient delivery and usage of audio messages for high quality of experience
US10481856B2 (en) 2017-05-15 2019-11-19 Microsoft Technology Licensing, Llc Volume adjustment on hinged multi-screen device
JP2019066618A (ja) * 2017-09-29 2019-04-25 フォーブ インコーポレーテッド 画像表示システム、画像表示方法及び画像表示プログラム
WO2020080867A1 (en) * 2018-10-18 2020-04-23 Samsung Electronics Co., Ltd. Display device and control method thereof
EP3940687A4 (en) * 2019-03-12 2022-05-04 Sony Group Corporation INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING METHOD AND PROGRAM
CN113906368A (zh) * 2019-04-05 2022-01-07 惠普发展公司,有限责任合伙企业 基于生理观察修改音频
WO2020242506A1 (en) * 2019-05-31 2020-12-03 Dts, Inc. Foveated audio rendering
CN112135201B (zh) * 2020-08-29 2022-08-26 北京市商汤科技开发有限公司 视频制作方法及相关装置
US11743670B2 (en) 2020-12-18 2023-08-29 Qualcomm Incorporated Correlation-based rendering with multiple distributed streams accounting for an occlusion for six degree of freedom applications

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000138872A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001008232A (ja) * 1999-06-25 2001-01-12 Matsushita Electric Ind Co Ltd 全方位映像出力方法と装置
JP2005091571A (ja) * 2003-09-16 2005-04-07 Fuji Photo Film Co Ltd 表示制御装置、及び表示システム
JP2006126965A (ja) * 2004-10-26 2006-05-18 Sharp Corp 合成映像生成システム,方法,プログラム,及び、記録媒体
JP2006155238A (ja) * 2004-11-29 2006-06-15 Hiroshima Univ 情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体
US20060256133A1 (en) * 2005-11-05 2006-11-16 Outland Research Gaze-responsive video advertisment display
JP2007036846A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 動画再生装置およびその制御方法
JP2008071162A (ja) * 2006-09-14 2008-03-27 Toyota Motor Corp 視線先推定装置
US20110109880A1 (en) * 2006-01-26 2011-05-12 Ville Nummela Eye Tracker Device

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6195640B1 (en) * 1999-01-29 2001-02-27 International Business Machines Corporation Audio reader
US6577329B1 (en) * 1999-02-25 2003-06-10 International Business Machines Corporation Method and system for relevance feedback through gaze tracking and ticker interfaces
US6456262B1 (en) * 2000-05-09 2002-09-24 Intel Corporation Microdisplay with eye gaze detection
US20050047629A1 (en) * 2003-08-25 2005-03-03 International Business Machines Corporation System and method for selectively expanding or contracting a portion of a display using eye-gaze tracking
US7500752B2 (en) * 2004-04-28 2009-03-10 Natus Medical Incorporated Diagnosing and training the gaze stabilization system
US7889244B2 (en) * 2005-12-27 2011-02-15 Panasonic Corporation Image processing apparatus
CN101405680A (zh) * 2006-03-23 2009-04-08 皇家飞利浦电子股份有限公司 用于图像操作的眼睛跟踪控制的热区
US8494215B2 (en) * 2009-03-05 2013-07-23 Microsoft Corporation Augmenting a field of view in connection with vision-tracking
US20120105486A1 (en) * 2009-04-09 2012-05-03 Dynavox Systems Llc Calibration free, motion tolerent eye-gaze direction detector with contextually aware computer interaction and communication methods
CN102073435A (zh) * 2009-11-23 2011-05-25 英业达股份有限公司 画面操作方法及应用该方法的电子装置
US20110228051A1 (en) * 2010-03-17 2011-09-22 Goksel Dedeoglu Stereoscopic Viewing Comfort Through Gaze Estimation
US8670019B2 (en) * 2011-04-28 2014-03-11 Cisco Technology, Inc. System and method for providing enhanced eye gaze in a video conferencing environment

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000138872A (ja) * 1998-10-30 2000-05-16 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2001008232A (ja) * 1999-06-25 2001-01-12 Matsushita Electric Ind Co Ltd 全方位映像出力方法と装置
JP2005091571A (ja) * 2003-09-16 2005-04-07 Fuji Photo Film Co Ltd 表示制御装置、及び表示システム
JP2006126965A (ja) * 2004-10-26 2006-05-18 Sharp Corp 合成映像生成システム,方法,プログラム,及び、記録媒体
JP2006155238A (ja) * 2004-11-29 2006-06-15 Hiroshima Univ 情報処理装置、携帯端末、情報処理方法、情報処理プログラム、およびコンピュータ読取可能な記録媒体
JP2007036846A (ja) * 2005-07-28 2007-02-08 Nippon Telegr & Teleph Corp <Ntt> 動画再生装置およびその制御方法
US20060256133A1 (en) * 2005-11-05 2006-11-16 Outland Research Gaze-responsive video advertisment display
US20110109880A1 (en) * 2006-01-26 2011-05-12 Ville Nummela Eye Tracker Device
JP2008071162A (ja) * 2006-09-14 2008-03-27 Toyota Motor Corp 視線先推定装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
呂山 他1名, 第54回(平成9年前期)全国大会講演論文集(4) インタフェース コンピュータと人間社会, JPN6015013010, 12 March 1997 (1997-03-12), pages 4 - 117, ISSN: 0003209698 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018506205A (ja) * 2014-12-23 2018-03-01 ノキア テクノロジーズ オーユー バーチャルリアリティコンテンツの制御
JP2022064987A (ja) * 2016-03-14 2022-04-26 ロバート エル リッチモンド、 デジタル媒体と観察者の相互作用の構成及び実現
US11782507B2 (en) 2016-03-14 2023-10-10 Jeffrey T. Haley Image changes based on facial appearance
US11816257B2 (en) 2016-03-14 2023-11-14 Jeffrey T. Haley Image changes based on gaze location

Also Published As

Publication number Publication date
KR101605276B1 (ko) 2016-03-21
KR20140057595A (ko) 2014-05-13
EP2754005A4 (en) 2015-04-22
CN103765346A (zh) 2014-04-30
JP5868507B2 (ja) 2016-02-24
CN103765346B (zh) 2018-01-26
EP2754005A1 (en) 2014-07-16
US20130259312A1 (en) 2013-10-03
WO2013036237A1 (en) 2013-03-14

Similar Documents

Publication Publication Date Title
JP5868507B2 (ja) 視線に基づくオーディオビジュアル再生の位置選択
JP6944564B2 (ja) 注視追跡のための装置及び方法
US10536661B2 (en) Tracking object of interest in an omnidirectional video
KR102087690B1 (ko) 임의의 위치 및 임의의 시간으로부터 비디오 컨텐츠를 재생하기 위한 방법 및 장치
US8964008B2 (en) Volumetric video presentation
JP6165846B2 (ja) 目のトラッキングに基づくディスプレイの一部の選択的強調
US9684435B2 (en) Camera selection interface for producing a media presentation
US20150036999A1 (en) Viewer Attention Controlled Video Playback
CN109154862B (zh) 用于处理虚拟现实内容的装置、方法和计算机可读介质
US20170134714A1 (en) Device and method for creating videoclips from omnidirectional video
KR102176598B1 (ko) 비디오 데이터를 위한 궤적 데이터 생성 방법
US20190026951A1 (en) An Apparatus and Associated Methods
WO2018004933A1 (en) Apparatus and method for gaze tracking
US20230010078A1 (en) Object or region of interest video processing system and method
RAI Document Image Quality Assessment

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150330

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150407

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151208

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160105

R150 Certificate of patent or registration of utility model

Ref document number: 5868507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees