JP2017510922A - ビデオデータのための軌道データの生成 - Google Patents

ビデオデータのための軌道データの生成 Download PDF

Info

Publication number
JP2017510922A
JP2017510922A JP2017500451A JP2017500451A JP2017510922A JP 2017510922 A JP2017510922 A JP 2017510922A JP 2017500451 A JP2017500451 A JP 2017500451A JP 2017500451 A JP2017500451 A JP 2017500451A JP 2017510922 A JP2017510922 A JP 2017510922A
Authority
JP
Japan
Prior art keywords
eye movement
moving image
position information
video data
trajectory data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017500451A
Other languages
English (en)
Other versions
JP6265299B2 (ja
Inventor
トルン、オーラ
アロンソン、パール・アンデシュ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JP2017510922A publication Critical patent/JP2017510922A/ja
Application granted granted Critical
Publication of JP6265299B2 publication Critical patent/JP6265299B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • G06F3/013Eye tracking input arrangements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/03Arrangements for converting the position or the displacement of a member into a coded form
    • G06F3/033Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
    • G06F3/0354Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/80Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/246Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
    • G06T7/248Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/18Eye characteristics, e.g. of the iris
    • G06V40/19Sensors therefor
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/005Reproducing at a different information rate from the information rate of recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/11Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/30Image reproducers
    • H04N13/366Image reproducers using viewer tracking
    • H04N13/383Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2200/00Indexing scheme for image data processing or generation, in general
    • G06T2200/24Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30041Eye; Retina; Ophthalmic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Ophthalmology & Optometry (AREA)
  • Signal Processing (AREA)
  • User Interface Of Digital Computer (AREA)
  • Position Input By Displaying (AREA)
  • Processing Or Creating Images (AREA)
  • Image Analysis (AREA)

Abstract

本発明は、ビデオデータのための軌道データの生成方法に関する。この方法によれば、動画像を見る観察者(10)の眼球(11)の眼球運動を捕捉装置(14)によって捕捉する。軌道データ(32)は、処理装置(15)を用いて前記眼球運動に基づいて自動的に決定され、軌道データ(32)は動画像を含むビデオデータに自動的に割り当てられる。【選択図】図2

Description

本発明は、ビデオデータのための軌道データの生成方法に関する。特に、本発明は、視線の追跡に基づいて軌道データを生成する方法であって、画像処理におけるコンピュータ計算(computational effort)回避する方法に関する。本発明は、当該方法を実施する、例えば携帯電話のようなユーザ機器にさらに関する。
様々なアプリケーションにおいて、ビデオ情報におけるオブジェクト運動、すなわちオブジェクトの軌道の決定は、有益であり又は必要なものである。例えば、非常に一般的な時間ベースのビデオ再生制御(time-based playback control of a video)の代わりに、ビデオ中でのナビゲーションのために、ユーザがビデオ中のオブジェクトの運動を直接制御するダイレクトオブジェクト操作(direct object manipulation)を用いることができる。例えば、ユーザがオブジェクトの運動軌道に沿ってオブジェクトを追跡し、その追跡運動のスピードが再生のスピードを決定する。このオブジェクトベースのダイレクト再生制御(direct object based playback control)は、例えば、ユーザが場面中の複数の運動に対して直接制御し、ユーザは興味あるオブジェクトが動いていないビデオの多くの部分をスキップすることができるというように、ユーザにとって様々な重要性を有する。このようなダイレクトオブジェクト操作を実現するために、ビデオの異なるフレームにおいてオブジェクトがどこに配置され又は位置しているかを知ることが必要である。例えば、オプティカルフローアルゴリズム(optic flow algorithm)と呼ばれるような、様々なオブジェクト追跡アルゴリズムが存在する。さらに、例えば、運動予測、カラーマッチング、形状マッチング等を用いて、遮蔽物(occlusion)の存在下でオブジェクトがどこに配置されているかを見積もる、又は推測するための多くのアルゴリズムが存在する。しかしながら、ビデオデータの画像処理をベースとするオブジェクト追跡アルゴリズムは、多大な処理能力と多大な処理時間とを必要とする。さらに、上述のダイレクトオブジェクト操作についてのユーザの経験の満足を妨げる技術的な複数の問題が存在する。これらの問題の1つは、例えば、オブジェクト及びそのオブジェクトの運動経路が他のオブジェクトにより、しばしば遮蔽されることである。
例えば、ユーザがサッカーゲームのビデオを見ている際に、ユーザがダイレクトオブジェクト操作を用いて当該ビデオにおけるナビゲーションを行うことを所望し、対応する運動経路に沿ってあるプレーヤ又はボールの追跡を行うことがある。例えば、当該ビデオは、走り、且つボールを持ってドリブルする特定のサッカープレーヤや、ボールを奪うことを試みる他の様々なサッカープレーヤを映し出す。この場合、他のサッカープレーヤが所定のサッカープレーヤ及びボールを部分的に遮蔽し、高い信頼性でボール及び所定のサッカープレーヤの位置を自動的に見積もることを難しくする。その結果、ボール、及び/又は、所定のサッカープレーヤの経路は、様々な小さな経路に分断され、もしくは、経路の追跡からしばしば外れることとなる。他の問題としては、誤ったオブジェクト追跡に起因して、関係のない異なる2つの経路が誤って結合されることがある。また、他の問題は、多数のオブジェクトの経路が存在する場合に発生する。例えば、ビデオがマラソンランナーの一群(crowd)を含んでおり、ユーザが、例えば、ビデオデータを再生する接触式ディスプレイ(touch-sensitive display)を用いてランナーの顔を追跡するというような、所定のランナーを直接的に操作することによるビデオ再生の制御を所望した場合である。しかしながら、当該ビデオには多くの運動、多くのランナーが含まれている。ランナーの分解能及び距離は、各ランナーの経路を決定するために顔認識アルゴリズムを用いることを難しくしている。
従って、ビデオデータにおける運動軌道の決定のための改良された方法が求められている。
本発明によれば、本目的は、クレーム1で定義されたビデオデータのための軌道データの生成方法、及び、クレーム10で定義されたユーザ機器により達成される。従属クレームは、本発明の好ましく、且つ、有利な実施形態を定義する。
本発明のある観点によれば、ビデオデータのための軌道データの生成方法が提供される。当該方法によれば、動画像(moving visual image)を見る観察者(viewer)の眼球(eye)の眼球運動(eye-movement)は、捕捉装置により捕捉される。捕捉装置は、例えば、観察者によって見られることができるように動画像が表示された表示装置に隣り合うように配置されたカメラを含むことができる。眼球運動に基づいて、軌道データは、捕捉装置を用いて捕捉された眼球運動の画像を算出する処理装置を用いて自動的に決定される。処理装置は、軌道データを、動画像を含むビデオデータに自動的に割り当てる。詳細には、軌道データはビデオデータのメタデータに自動的に割り当てられることができる。軌道データは、例えば、時間ごとの(over time)複数の位置情報を含むことができ、各位置情報は、動画像により示される運動するオブジェクトの位置に関係してもよい。言い換えると、観察者の眼球運動又は観察者の視線は軌道データを決定するために解析される。軌道データは、メタデータとして記録され、ビデオデータを見ている間に観察者が興味を持ったオブジェクト及び経路を見つけるために用いられることができる。
人は、例えばオブジェクトの遮蔽物が含まれる複雑な状況であっても、オブジェクトの追従において顕著な精度を有する。従って、ビデオデータに示されるオブジェクトの軌道は、眼球運動から高い精度を持って導き出すことができる。
原則として、人により行われる2つの異なる種類の眼球運動が存在する。1つ目の種類は、断続性運動(saccade)と呼ばれ、1つのポイントから他のポイントへと、小さなジャンプと各ポイントでの停止とにより眼球が運動する。ジャンプの間、眼球は本質的な瞬きを行い、見ていないにもかかわらず、脳により、対応する中間フレーム又は画像を用いて失われたフレーム又は画像が与えられる。そして、ある位置で眼球が停止すると、新しいフレーム又は画像を受け付ける。眼球運動の他の種類は、眼球が、運動するオブジェクトを追従する、円滑、且つ、連続的な軌道で運動する、円滑性追跡運動(smooth pursuit)と呼ばれるものである。軌道データを生成するために眼球運動を用いることにより、ビデオデータの画像処理に基づくオブジェクト追跡アルゴリズムの使用を避けることができる。円滑性追跡運動が自発的なトリガーにならないことにより、観察者が追従するオブジェクトを持つことと、観察者が運動経路の一部において遮蔽されたオブジェクトの追従を行うこととが要求される。従って、例えば円滑性追跡運動が検出された際には、視線の経路は、遮蔽物の対処を潜在的に行いながらオブジェクトの追跡を行い、それによりビデオデータ中の運動するオブジェクトの軌道データを正確に描き出すことができる。その結果、高価な算出用オブジェクト追跡アルゴリズム(computational expensive object tracking algorithm)の実施を必要としない。このことは、特に高細度ビデオの観点からは有利なことである。
一実施形態によれば、ビデオデータを再生する間、ユーザによって動かされたポインティング装置の、少なくとも第1の位置情報と第2の位置情報とが決定される。各位置情報は、動画像における対応位置を示す。決定された第1の位置情報と第2の位置情報とは、軌道データの複数の位置情報と比較される。ビデオデータの再生アプリケーションのパラメータは、当該比較に基づいて制御される。例えば、ビデオデータの再生のための再生スピードは、当該比較に基づいて調節されることができる。言い換えると、ビデオデータを見ているユーザは、ビデオの再生の間、指又は他のポインティング装置を用いて例えば接触式ディスプレイ上の経路を特定することができる。少なくとも第1の位置情報と第2の位置情報とを含む特定された経路は、ビデオデータとともにメタデータとして格納された軌道データと比較される。特定された経路と整合する軌道データが見つかった際には、ビデオ再生、又は、ビデオデータの再生プリケーションの他の機能は、軌道に沿ってユーザが接触式ディスプレイをタッチすることにより制御されることができる。
他の実施形態によれば、ユーザによって動かされたポインティング装置の少なくとも第1の位置情報と第2の位置情報とは、ビデオデータの再生の間に決定される。各位置情報は、動画像における対応位置を示す。少なくとも決定された第1の位置情報と第2の位置情報とは、軌道データの複数の位置情報と比較される。当該比較に基づいて、動画像中のオブジェクトが決定される。オブジェクトを指し示す、ユーザから決定された少なくとも第1の位置情報と第2の位置情報とは、ビデオデータの次の画像を作るために、例えば、オブジェクトが進行する経路の小さな部分を含むことができる。このオブジェクトの経路の一部分と、ビデオデータを見た他のユーザの眼球運動に基づいてメタデータとして事前に格納された軌道データとを比較することにより、オブジェクトの軌道は決定されることができる。この情報は、動画像中のオブジェクトを特定するために用いることができる。従って、上述の方法は、従来の、画像ベースのオブジェクト検出アルゴリズム(image-based object detection algorithm)と組み合わせて用いることができ、特定されたオブジェクトの軌道を提供することにより、従来の画像ベースのオブジェクト検出(image-based object detection)をサポートすることができる。これは、特に、特定されたオブジェクトがその外観を変化させる場合に、効果的である。例えば、運動するオブジェクトは飛ぶ鳥である場合である。ビデオデータに割り当てられた軌道データは、ビデオを見る観察者の眼球運動に基づく。人にとっては、翼の羽ばたきや鳥の外観が急速に変化する場合であっても、鳥を追従することは容易な課題である。しかしながら、画像ベースの追跡アルゴリズム(image-based object tracking algorithm)は、運動するオブジェクトの外観が変化することに起因して問題を生じさせる。眼球運動に基づく軌道データを用いた画像ベースの追跡アルゴリズムを組み合わせることにより、信頼性の高いオブジェクト追跡を確立することができる。
他の実施形態によれば、動画像中のオブジェクトの位置は、従来の動画像の画像処理により決定することができる。オブジェクトの位置は軌道データの複数の位置情報と比較され、オブジェクトの軌道は当該比較に基づき決定される。そして、従来の画像処理は、動画像におけるオブジェクトの運動を決定するために、眼球運動に基づいた軌道データと組み合わされることができる。従来の画像処理は、オブジェクトと、当該オブジェクトの運動の開始ポイントとを決定するために用いられる。そして、開始ポイントに基づいて、軌道データは決定されたオブジェクトの軌道を与えることができる。
他の実施形態によれば、複数の眼球運動が決定され、複数の眼球運動のそれぞれについて、眼球運動が円滑性追跡眼球運動(smooth pursuit eye movement)又は断続性眼球運動(saccade eye movement)であるかを決定する。眼球運動が断続性眼球運動である場合には、各断続性眼球運動に対して、対応する断続性眼球運動の停止位置に位置するオブジェクトを決定し、複数の断続性眼球運動及び停止位置にある関係するオブジェクトに基づいて、軌道データを決定する。従って、ビデオデータを見ている間に観察者が興味を持たない背景の情報は、興味あるオブジェクトと容易に区別することができる。従って、断続性眼球運動の停止位置にある興味あるオブジェクトのみが、興味あるオブジェクトの軌道データを決定するためにさらに処理される。眼球運動が円滑性追跡眼球運動である場合には、軌道データは、円滑性眼球運動の連続する運動の軌道データに基づいて直接的に決定されることができる。
他の実施形態によれば、動画像を生成するために環境における場面(scene)は第1の捕捉装置により捕捉される。捕捉の間、動画像は表示装置上に表示され、当該動画像を見る観察者の眼球の眼球運動は、表示装置に隣り合うように配置された第2の捕捉装置により捕捉される。ビデオデータは捕捉された動画像に基づいて生成され、軌道データは、眼球運動に基づいて決定され、ビデオデータに割り当てられる。言い換えると、すでにビデオデータが記録されている間に、軌道データは自動的に決定され、ビデオデータに割り当てられることができる。例えば、ビデオカメラ、又は、カメラを含む携帯電話のユーザが、例えば、サッカーゲームのような場面を捕捉した際、場面を記録している間、ユーザは、ビデオカメラ又は携帯電話のディスプレイ上の場面を見ることができる。ユーザの眼球運動を検出し、捕捉することができるように、表示装置に隣り合うように配置された第2の捕捉装置は眼球運動を捕捉するために用いられ、眼球運動に基づいて、軌道データは、直接的に導かれ、ビデオデータとともに格納されることができる。
他の実施形態によれば、記録されたビデオデータの動画像は表示装置上に表示され、観察者の眼球の眼球運動は、観察者が画像を見ている間に、表示装置に隣り合うように配置された捕捉装置によって捕捉される。この場合、既に記録されたビデオデータは表示装置上に再生され、観察者はビデオを見る。ビデオを見ている間、捕捉装置は観察者の各眼球運動を捕捉し、眼球運動に基づいて、軌道データは、導かれ、メタデータとして画像データに割り当てられることができる。従って、ビデオデータを見る観察者が増えれば、軌跡データの量が増加する。
本発明の他の観点によれば、ユーザ機器が提供される。当該ユーザ機器は、動画像を表示する表示装置と、表示装置上の動画像を見る観察者の眼球の眼球運動を捕捉する捕捉装置とを有する。好ましくは、捕捉装置は表示装置と隣り合うように配置される。ユーザ機器は、さらに、表示装置及び捕捉装置と接続される処理装置を有する。処理装置は、捕捉した眼球運動に基づいて軌道データを決定し、軌道データをビデオデータに割り当てる。ビデオデータは、動画像と、例えばメタデータとしての割り当てられた軌道データとを含む。従って、ユーザ機器は、上述の方法を実施するように構成されることができ、さらに上述の利点を有する。さらに、ユーザ機器は、例えば、モバイル装置、より具体的には、ノートブックコンピュータ、タブレットコンピュータ、ビデオカメラ、携帯電話又はモバイルメディアプレーヤを有することができる。
上述の概要及び以下の詳細な説明に記載された特定の特徴は、特定の実施形態及び本願発明の観点と関連して説明されるにもかかわらず、実施形態及びこれら観点の特徴は、それぞれ特段の断りがない限り、互いに組み合わせることができる。
本発明は、添付される図面を参照して詳細に説明される。
図1は、本発明の実施形態によるユーザ機器と共にユーザを模式的に示す。 図2は、本発明の実施形態によるビデオデータのための軌道データの生成方法の各方法ステップを示す。 図3は、動くオブジェクトの軌道データを模式的に示す。 図4は、本発明のさらなる他の実施形態による方法の各方法ステップを示す。 図5は、本発明の実施形態による決定された軌道データに基づくユーザのビデオデータの再生制御を模式的に示す。
以下に、本発明の例示としての実施形態を詳細に説明する。ここに記載された様々な例示としての実施形態の特徴は、特段の断りがない限り、互いに組み合わせることができる。また、様々な図面の同一の参照符号は、類似又は同一の要素を示す。図に示された要素又は装置との間の接続は、特段の断りがない限り、直接的又は間接的な接続であることができる。
図1は、例えば、携帯装置、タブレットPC、又はモバイルメディアプレーヤといったユーザ機器12を見るユーザ10を模式的に示す。ユーザ機器12は、例えばユーザ機器12に格納された、又は、例えば無線通信を介してサーバから受信されたビデオデータの動画像を表示するディスプレイ13を有する。ユーザ機器は、さらに、ディスプレイ13上の動画像を見るユーザ10の眼球11の眼球運動を捕捉する捕捉装置14を有する。捕捉装置14は、例えば、表示装置13に隣り合うように配置されたデジタルカメラを有し、ユーザ10がディスプレイ13を見ている際に、ユーザ10、具体的にはユーザ10の眼球11を捕捉するように指示される。このようなカメラ14は、例えばビデオ通話を確立するための携帯電話の場合のように、他の理由によりユーザ機器に12に設けられることができる。ユーザ機器12は、ディスプレイ13及びカメラ14と接続される、例えばマイクロプロセッサのような処理装置15をさらに有する。処理装置15は、図2とともに以下に説明される方法のステップを実施するように変形されることができる。
図2は、処理装置15によって実施される方法のステップ21から24を有する方法20を示す。ステップ21では、処理装置15は、例えば事前に記録されたビデオデータや、ユーザ機器12の背面側にある更なる捕捉装置を用いてユーザ機器12が現在捕捉しているビデオデータの動画像を表示する。例えば、更なる捕捉装置は、捕捉装置14とディスプレイ13とが配置された側とは反対の側にある。ディスプレイ13上に表示された動画像は、例えば図3に示すような場面を有することができ、当該場面においては、飛行機31が曇った空を飛んでいる。図3の飛行機31によって示される更なる位置にまでルート32に沿って飛ぶ飛行機31の動画像を表示している間、ユーザ10の眼球11の眼球運動は、ステップ22においてカメラ14により捕捉される。ステップ23においては、軌道データは、捕捉した眼球運動に基づいて決定される。決定された軌道データは、飛行機31が移動するルート32に対応する。ステップ24においては、決定された軌道データはビデオデータに割り当てられ、動画像と共に格納される。従って、飛行機31の軌道データは、動画像の画像処理を行うことなく、決定されることができる。
上述したように、2種類の眼球運動、断続性運動及び円滑性追跡運動が存在する。ルート32に沿って飛行機31が移動している際、空に雲がない場合には、ユーザ10は、円滑性追跡眼球運動を用いて空を横切る飛行機31に追従することができる。眼球運動から決定された走査経路は、例えばベジェ法(Bezier method)のような従来の方法を用いて円滑化されることができる。運動するオブジェクト(飛行機31)の軌道データは、眼球運動から直接的に決定されることができ、以下に詳細説明されるような例えばビデオの操作のために用いられる。しかしながら、図3に示すように曇った空の場合には、飛行機31は、雲34によりその経路32上で遮蔽されることとなる。ユーザ10が空を横切る飛行機31を追従することができる。飛行機が雲34を通過する際、ユーザ10の眼球11は、眼球を飛行機が現れると思われる位置に動かすような軌道上の断続的な運動を用いて追従することはできる。もしくは、その代わりとして、眼球は、円滑性追跡運動を行い、雲34を仮想的に通過する飛行機31に追従することができる。第1の場合(断続性運動)においては、雲34により飛行機31が遮蔽されるまでの第1の経路と、雲34を通過した後に飛行機31が現れた後の第2の経路とが、これらが同じ経路32に沿ったものであることから、1つの軌道を形成するように結合されることができる。第2の場合(円滑性追跡運動)においては、軌道データは、円滑性追跡眼球運動から直接的に決定されることができる。
上述したように、ビデオデータを見ている際のユーザの視線の経路から決定された軌道データは、ビデオデータとともにメタデータとして記録され、ユーザ10の視野(view)において最も興味深いオブジェクト及び経路を見つけるために用いられることができる。従って、動画処理に基づくオブジェクト追跡アルゴリズムの使用を完全に避けることができる。しかしながら、たとえオブジェクト追跡アルゴリズムを実施した場合であっても、上述したように決定された軌道データは、このようなオブジェクト追跡アルゴリズムの複雑さを減らすことを助け、ひいては計算に対する要求(computational requirement)を減らすことができる。さらに、オブジェクト追跡の精度は、オブジェクト追跡アルゴリズムからの情報を軌道メタデータと組み合わせることにより、向上させることができる。このことは、例えば、運動するオブジェクトが羽ばたく翼を持つ鳥である場合のような、運動するオブジェクトがその形状を変化させる場合に効果的である。
上述したように決定されタ軌道メタデータは、動画像を表示するアプリケーションの制御のために用いることができる。例えば、動画像が、ビデオ再生アプリケーションにより再生された、記録されたビデオデータの画像である場合、ビデオデータにおけるナビゲーションは、軌道データに基づいて達成される。ビデオデータにおけるナビゲーションは、例えば、再生スピードを変化させたり、ビデオデータにおいてジャンプしたり、スキップしたりのような、一時的なビデオデータでのナビゲーションを含むことができる。
ビデオ再生の制御を、図4及び図5とともにさらに詳細に説明する。図4は、方法ステップ41から45を有する方法40を示す。図2とともに上述した方法20をビデオデータ上で実施したと仮定した場合、ビデオデータは、事前にビデオデータを見たユーザの眼球運動に基づいた軌道データを示す追加的なメタデータを有することとなる。図5に示すように、2つの飛行機31及び51の2つの軌道32及び52は、ビデオデータを見たユーザの眼球運動に基づいて決定され、これら軌道データは、ビデオデータにメタデータとして格納される。そして、ステップ41においては、ビデオデータの動画像はディスプレイ13上で再生される。ディスプレイ13は、処理装置15が例えば指53を用いて観察者がディスプレイ13をタッチした位置を決定することができるような接触式の表面を有することができる(ステップ42)。処理装置15は、指53のタッチ位置を軌道32及び53と比較する。各軌道データは、時間ごとの(over time)複数の位置情報を有することができる。図5に示す例においては、処理装置15が、指53のタッチ位置が軌道データ32とマッチ(整合)していると決定する(ステップ43)。従って、ステップ44及び45においては、ビデオデータの再生は、軌道32に沿ってさらに検出されたタッチ位置に依存して制御されることができる。例えば、指53が動かない限りは、ビデオデータの再生は停止する。また、軌道32に沿って指53が移動した場合には、ビデオデータの再生は、動く指53とともに飛行機31を追従するように実施することができる。指53が軌道32に沿って逆行する方向に移動した場合には、ビデオデータの再生は逆方向に実施される。
再生制御の代わりに、ビデオデータに割り当てられた軌道データは、例えば、眼球運動を監視することにより事前に又はリアルタイムで引き出すことができる軌道データを供給する拡張現実感ビデオデータ(augmented reality video data)と合体したゲームアプリケーションのような、他のアプリケーションにおいて使用されることができる。
さらに、ビデオデータの代わりに、軌道データは、ゲーム又はユーザインターフェースの記録に割り当てられることができる。この場合、例えばディスプレイに沿って指を動かすことによる、ダイレクト操作は、ゲーム又はユーザインターフェースにおける運動を制御するために用いることができる。技術的には、記録には、ゲームにおける格納された空間的な位置が含まれ、指を動かすことが、ゲームのグラフィクス又はユーザインターフェースがどのように動くべきかについての入力となる。
眼球運動に基づく軌道データの生成のための上述の方法は、個別に運動する多数のオブジェクトを含むビデオデータのために有利に用いられることができる。例えば、ビデオデータが道に沿って走るマラソンランナーの一群を示す場合である。各マラソンランナーに対するオブジェクト追跡は、時間を消費し、多量な計算量を導く。ビデオデータを見るユーザはたった一人の又は数人のランナーを追従し、ユーザが最も興味を持ったオブジェクトの軌道データは眼球運動に基づいて少ない労力で決定されることができる。眼球運動に基づく軌道データは、ユーザが最も興味を持っていると思われるこれらのオブジェクト及び経路を解析するだけで得られることであることから、必要とされる仕事を急激に減らすためには効果的である。経路又はオブジェクトにおける興味は、円滑性追跡運動、及び断続性運動を用いてオブジェクトと他のオブジェクトの間をスイッチすることにより示されることができる。軌道の数を減らすことは、ビデオデータを各オブジェクト又はランナーの一群における多くの重なった経路に割り当てることを避けることができることから、例えば再生制御にとっては容易にする作用をさらに及ぼすことができる。さらに、ユーザの視線はその時に最も興味を持ったオブジェクト又は経路を明らかにすることから、例えばユーザインターフェースにおける再生制御の実施を円滑にすることを可能にする、追従される異なるオブジェクト間でのシームレスなスイッチのためにこの情報が用いられることを可能にする。

Claims (12)

  1. ビデオデータのための軌道データの生成方法であって、
    −捕捉装置(14)を用いて、動画像を見る観察者(10)の眼球(11)の眼球運動を捕捉し(22)、
    −処理装置(15)を用いて、前記眼球運動に基づいて前記軌道データ(32)を自動的に決定し(23)、
    −前記処理装置(15)を用いて、前記軌道データ(32)を前記動画像を含む前記ビデオデータに自動的に割り当てる(24)、
    ことを含む方法。
  2. 前記軌道データ(32)は、時間ごとの複数の位置情報を含み、前記複数の位置情報のそれぞれは、前記動画像により示される運動するオブジェクト(31)の位置に関係する、請求項1に記載の方法。
  3. −前記ビデオデータを再生する間ユーザによって動かされたポインティング装置(53)の少なくとも第1の位置情報及び第2の位置情報を決定し、前記位置情報のそれぞれは、前記動画像における対応位置を示し、
    −決定された少なくとも前記第1の位置情報及び前記第2の位置情報を前記軌道データ(32)の複数の位置情報と比較し、
    −前記比較に基づいて、前記ビデオデータの再生アプリケーションのパラメータを制御する、
    ことを含む請求項1又は2に記載の方法。
  4. 前記パラメータの制御は、前記比較に基づいて前記ビデオデータの再生のための再生スピードを調整することを含む、請求項3に記載の方法。
  5. −前記ビデオデータを再生する間、ユーザによって動かされたポインティング装置(53)の、少なくとも第1の位置情報及び第2の位置情報を決定し、前記位置情報のそれぞれは、前記動画像における対応位置を示し、
    −決定された少なくとも前記第1の位置情報及び前記第2の位置情報を前記軌道データ(32)の複数の位置情報と比較し、
    −前記比較に基づいて、前記動画像に含まれるオブジェクト(31)を決定する、
    ことをさらに含む、請求項1から4のいずれか1項に記載の方法。
  6. −前記動画像を処理することにより、前記動画像中のオブジェクト(31)の位置を決定し、
    −前記オブジェクト(31)の位置を前記軌道データ(32)の複数の位置情報と比較し、
    −前記比較に基づいて、前記オブジェクト(31)の軌道を決定する、
    ことをさらに含む、請求項1から5のいずれか1項に記載の方法。
  7. 前記眼球運動の決定は、
    −複数の前記眼球運動を決定し、
    −前記複数の眼球運動のそれぞれが、円滑性追跡眼球運動又は断続性眼球運動であるかを決定し、
    前記眼球運動が前記断続性眼球運動である場合には、
    −前記各断続性眼球運動に対して、対応する前記断続性眼球運動の停止位置に位置するオブジェクト(31)を決定し、
    −前記複数の断続性眼球運動及び前記停止位置にある関係する前記オブジェクト(31)に基づいて前記軌道データを決定し、
    前記眼球運動が前記円滑性追跡眼球運動である場合には、
    前記円滑性追跡眼球運動の連続運動の軌道データに基づいて、前記軌道データを決定する、
    ことを含む、請求項1から6のいずれか1項に記載の方法。
  8. 前記眼球運動の捕捉ステップは、
    −前記動画像の生成のために第1の捕捉装置を用いて環境における場面を捕捉し、
    −捕捉の間、表示装置(13)上に前記動画像を表示し、
    −前記表示装置(13)に隣り合うように配置された第2の捕捉装置(14)を用いて、前記動画像を見る前記観察者(10)の前記眼球(11)の前記眼球運動を捕捉し、
    −捕捉された前記動画像に基づいて前記ビデオデータを生成する、
    ことを含む請求項1から7のいずれか1項に記載の方法。
  9. 前記眼球運動の捕捉ステップは、
    −表示装置(13)上に記録された前記ビデオデータの前記動画像を表示し、
    −前記表示装置(13)に隣り合うように配置された捕捉装置(14)を用いて、前記動画像を見る前記観察者(10)の前記眼球(11)の前記眼球運動を捕捉する、
    ことを含む、請求項1から8のいずれか1項に記載の方法。
  10. −動画像を表示する表示装置(13)と、
    −前記表示装置(13)上の前記動画像を見る観察者(10)の眼球(11)の眼球運動を捕捉する捕捉装置(14)と、
    −捕捉された前記眼球運動に基づいて軌道データ(32)を決定し、前記動画像を含むビデオデータに前記軌道データを割り当てるように構成された処理装置(15)と、
    を備える、ユーザ機器。
  11. 前記ユーザ機器(12)は請求項1から9のいずれか1項に記載された方法を実施するように構成される、請求項10に記載のユーザ機器。
  12. 前記ユーザ機器(12)は、ノートブックコンピュータ、タブレットコンピュータ、ビデオカメラ、携帯電話、及びモバイルメディアプレーヤを含む一群のうちの少なくとも1つを含むモバイル装置を備える、請求項10又は11に記載のユーザ機器。
JP2017500451A 2014-03-20 2014-03-20 ビデオデータのための軌道データの生成 Expired - Fee Related JP6265299B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/IB2014/059986 WO2015140598A1 (en) 2014-03-20 2014-03-20 Generating trajectory data for video data

Publications (2)

Publication Number Publication Date
JP2017510922A true JP2017510922A (ja) 2017-04-13
JP6265299B2 JP6265299B2 (ja) 2018-01-24

Family

ID=50588765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017500451A Expired - Fee Related JP6265299B2 (ja) 2014-03-20 2014-03-20 ビデオデータのための軌道データの生成

Country Status (6)

Country Link
US (1) US9760779B2 (ja)
EP (1) EP3120218B1 (ja)
JP (1) JP6265299B2 (ja)
KR (1) KR102176598B1 (ja)
CN (1) CN106104418B (ja)
WO (1) WO2015140598A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3174287A1 (en) * 2015-11-26 2017-05-31 Vestel Elektronik Sanayi ve Ticaret A.S. Audio and video processing system, display device and method
US10979721B2 (en) * 2016-11-17 2021-04-13 Dolby Laboratories Licensing Corporation Predicting and verifying regions of interest selections
CN108197620B (zh) * 2018-01-23 2021-11-26 广东小天才科技有限公司 一种基于眼睛定位的拍照搜题方法、系统及手持拍照设备
JP7119425B2 (ja) * 2018-03-01 2022-08-17 ソニーグループ株式会社 画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法
CN109254662A (zh) * 2018-09-04 2019-01-22 平安普惠企业管理有限公司 移动设备操作方法、装置、计算机设备及存储介质
CN116882846B (zh) * 2023-09-07 2023-11-21 北京中科智易科技股份有限公司 操炮训练智能考核系统、方法及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271522A (ja) * 2007-04-18 2008-11-06 Fuji Xerox Co Ltd ノンリニアビデオ再生制御方法およびノンリニアビデオ再生制御プログラム
JP2011083379A (ja) * 2009-10-14 2011-04-28 Nippon Hoso Kyokai <Nhk> 映像酔い耐性評価装置及びプログラム
JP2013045445A (ja) * 2011-08-26 2013-03-04 Toyota Motor Engineering & Manufacturing North America Inc ユーザ凝視データに基づいた時空間データのセグメント化

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5859309B2 (ja) * 2008-11-24 2016-02-10 コーニンクレッカ フィリップス エヌ ヴェKoninklijke Philips N.V. 3dビデオ及び補助データの組み合わせ
US8774467B2 (en) * 2010-08-05 2014-07-08 Michael C. Ryan Predictive flight path and non-destructive marking system and method
CN102073415A (zh) * 2010-11-29 2011-05-25 广东威创视讯科技股份有限公司 触摸系统、辅助装置及其输入方法
WO2014111924A1 (en) * 2013-01-15 2014-07-24 Poow Innovation Ltd. Dynamic icons

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008271522A (ja) * 2007-04-18 2008-11-06 Fuji Xerox Co Ltd ノンリニアビデオ再生制御方法およびノンリニアビデオ再生制御プログラム
JP2011083379A (ja) * 2009-10-14 2011-04-28 Nippon Hoso Kyokai <Nhk> 映像酔い耐性評価装置及びプログラム
JP2013045445A (ja) * 2011-08-26 2013-03-04 Toyota Motor Engineering & Manufacturing North America Inc ユーザ凝視データに基づいた時空間データのセグメント化

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DON KIMBER: "TRAILBLAZING:VIDEO PLAYBACK CONTROL BY DIRECT OBJE", 2007 IEEE INTERNATIONAL CONFERENCE ON MULTIMEDIA A, JPN6017025638, 5 July 2007 (2007-07-05), pages 1015 - 1018, ISSN: 0003596700 *

Also Published As

Publication number Publication date
CN106104418B (zh) 2019-12-20
WO2015140598A1 (en) 2015-09-24
JP6265299B2 (ja) 2018-01-24
EP3120218B1 (en) 2019-12-18
CN106104418A (zh) 2016-11-09
EP3120218A1 (en) 2017-01-25
KR20160136336A (ko) 2016-11-29
US9760779B2 (en) 2017-09-12
US20170109587A1 (en) 2017-04-20
KR102176598B1 (ko) 2020-11-09

Similar Documents

Publication Publication Date Title
JP6944564B2 (ja) 注視追跡のための装置及び方法
JP7362806B2 (ja) 情報処理装置、情報処理装置の制御方法、情報処理システム及びプログラム
JP6265299B2 (ja) ビデオデータのための軌道データの生成
CN110944727B (zh) 控制虚拟照相机的系统和方法
US9939914B2 (en) System and method for combining three-dimensional tracking with a three-dimensional display for a user interface
US10861159B2 (en) Method, system and computer program product for automatically altering a video stream
US9684435B2 (en) Camera selection interface for producing a media presentation
US10045007B2 (en) Method and apparatus for presenting 3D scene
US10368784B2 (en) Sensor data damping
US10365728B2 (en) Adaptive provision of content based on user response
Looser et al. An evaluation of virtual lenses for object selection in augmented reality
US10474342B2 (en) Scrollable user interface control
EP3070942A1 (en) Method and apparatus for displaying light field video data
Gelb et al. Augmented reality for immersive remote collaboration
WO2018004933A1 (en) Apparatus and method for gaze tracking
CN117122890A (zh) 用于激活屏幕内容的选择性导航或放大的方法和系统
KR101374316B1 (ko) 시스루 디스플레이를 이용한 동작인식 장치 및 그 방법
US11778155B2 (en) Image processing apparatus, image processing method, and storage medium
Wang Viewing support system for multi-view videos

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161024

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170831

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171211

R151 Written notification of patent or utility model registration

Ref document number: 6265299

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R154 Certificate of patent or utility model (reissue)

Free format text: JAPANESE INTERMEDIATE CODE: R154

LAPS Cancellation because of no payment of annual fees