CN106104418B - 生成针对视频数据的轨迹数据的方法以及用户设备 - Google Patents
生成针对视频数据的轨迹数据的方法以及用户设备 Download PDFInfo
- Publication number
- CN106104418B CN106104418B CN201480077266.4A CN201480077266A CN106104418B CN 106104418 B CN106104418 B CN 106104418B CN 201480077266 A CN201480077266 A CN 201480077266A CN 106104418 B CN106104418 B CN 106104418B
- Authority
- CN
- China
- Prior art keywords
- eye movement
- eye
- video
- trajectory data
- video data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 36
- 230000004424 eye movement Effects 0.000 claims abstract description 79
- 230000000007 visual effect Effects 0.000 claims abstract description 35
- 238000012545 processing Methods 0.000 claims abstract description 29
- 230000004434 saccadic eye movement Effects 0.000 claims description 18
- 206010053694 Saccadic eye movement Diseases 0.000 claims description 9
- 238000001514 detection method Methods 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004091 panning Methods 0.000 description 1
- 230000001711 saccadic effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/011—Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
- G06F3/013—Eye tracking input arrangements
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/033—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor
- G06F3/0354—Pointing devices displaced or positioned by the user, e.g. mice, trackballs, pens or joysticks; Accessories therefor with detection of 2D relative movements between the device, or an operating part thereof, and a plane or surface, e.g. 2D mice, trackballs, pens or pucks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/80—Creating or modifying a manually drawn or painted image using a manual input device, e.g. mouse, light pen, direction keys on keyboard
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/18—Eye characteristics, e.g. of the iris
- G06V40/19—Sensors therefor
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/005—Reproducing at a different information rate from the information rate of recording
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/102—Programmed access in sequence to addressed parts of tracks of operating record carriers
- G11B27/105—Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/11—Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information not detectable on the record carrier
-
- G—PHYSICS
- G11—INFORMATION STORAGE
- G11B—INFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
- G11B27/00—Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
- G11B27/10—Indexing; Addressing; Timing or synchronising; Measuring tape travel
- G11B27/34—Indicating arrangements
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N13/00—Stereoscopic video systems; Multi-view video systems; Details thereof
- H04N13/30—Image reproducers
- H04N13/366—Image reproducers using viewer tracking
- H04N13/383—Image reproducers using viewer tracking for tracking with gaze detection, i.e. detecting the lines of sight of the viewer's eyes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2200/00—Indexing scheme for image data processing or generation, in general
- G06T2200/24—Indexing scheme for image data processing or generation, in general involving graphical user interfaces [GUIs]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30041—Eye; Retina; Ophthalmic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30241—Trajectory
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Ophthalmology & Optometry (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- User Interface Of Digital Computer (AREA)
- Position Input By Displaying (AREA)
- Processing Or Creating Images (AREA)
- Image Analysis (AREA)
Abstract
生成针对视频数据的轨迹数据的方法以及用户设备。本发明涉及一种用于生成针对视频数据的轨迹数据的方法。根据所述方法,利用捕捉装置(14)捕捉观看移动视觉图像的观看者(10)的眼睛(11)的眼睛移动。利用处理装置(15)基于所述眼睛移动自动地确定所述轨迹数据(32),以及将所述轨迹数据(32)自动分配给包括所述移动视觉图像的视频数据。
Description
技术领域
本发明涉及一种用于生成针对视频数据的轨迹数据的方法。特别是,本发明涉及一种用于基于凝视跟踪生成轨迹数据从而避免图像处理中的计算工作量的方法。而且,本发明还涉及实现本方法的用户设备,例如,移动电话。
背景技术
在许多应用中,确定对象在视频信息中的移动、对象的所谓轨迹可能是有用的或者被要求。例如,作为对视频的最常见的基于时间的回放控制的另选方案,可以使用直接对象操纵,其中,用户直接控制对象在视频内的移动,以用于在视频内导航。例如,用户可以沿对象的运动轨迹跟踪对象,并且跟踪移动的速度确定回放的速度。这种直接基于对象的回放控制对于用户可能具有多个结果,例如,用户可以取得对场景中的移动的直接控制,并且使得用户能够跳过大部分视频,其中,感兴趣的对象不移动。为了实现这种直接对象操纵,需要获知对象布置或位于视频的不同帧中的位置。存在许多不同对象跟踪算法,例如,所谓的光流算法。而且,存在用于估计或推测对象被布置在存在遮蔽的地方的大量算法,例如,使用运动预测、颜色匹配、形状匹配等等。然而,基于处理视频数据的图像的对象跟踪算法可能要求大量处理能力,或者可能要求很多处理时间。而且,结合上述直接对象操纵,可能存在妨碍满足用户体验的技术问题。这些问题中的一个例如是,当对象和由此还有对象的运动路径在一些时间被其它对象遮蔽时。
例如,当用户在观看足球比赛的视频时,用户可能想要使用直接对象操纵在视频内导航,并且由此可以沿对应运动轨迹跟踪特定运动员或球。例如,视频可以示出跑动并且带球的特定足球运动员和试图得到球的几个其他足球运动员。在这种情况下,其他足球运动员可能部分地遮蔽特定足球运动员和球,导致难以以高可靠性自动地估计球和特定足球运动员的位置。结果可能是,球和/或特定足球运动员的路径可能被剪切成多个更小路径或者路径的跟踪在一些时间内丢失。另一个问题可能是,两个不同不相关路径由于不正确对象跟踪被错误地连接。另一个问题可能当存在许多对象路径时出现。例如,视频可以包括一群马拉松运动员并且用户想要通过直接操纵特定奔跑者来控制视频的回放,例如,通过利用回放视频数据的触敏显示器来跟踪奔跑者的脸。然而,在视频内存在大量移动,并且存在大量奔跑者。分辨率和到奔跑者的距离可能使得很难使用面部识别算法来确定针对每个奔跑者的路径。
因此,需要一种用于确定视频数据中的运动轨迹的改进方法。
发明内容
根据本发明,该目的通过用于生成针对视频数据的轨迹数据的方法和用户设备来实现。
根据本发明的一方面,提供了一种用于生成针对视频数据的轨迹数据的方法。根据所述方法,利用捕捉装置捕捉观看移动视觉图像的观看者的眼睛的眼睛移动。所述捕捉装置例如可以包括相机,该相机与显示将被所述观看者观看的移动视觉图像的显示装置相邻布置。基于所述眼睛移动,利用估算通过所述捕捉装置捕捉的眼睛移动的图像的处理装置来自动确定轨迹数据。处理装置将轨迹数据自动地分配给包括移动视觉图像的视频数据。详细地,所述轨迹数据可以被自动地分配给所述视频数据的元数据。所述轨迹数据例如可以包括随着时间的多个位置信息,并且每个位置信息可能涉及由移动视觉图像表示的移动对象的位置。换句话说,分析所述观看者的眼睛移动或所述观看者的凝视,以确定轨迹数据。所述轨迹数据被记录为元数据,并且可以被用于寻找在观看视频数据期间所述观看者感兴趣的对象和路径。
甚至在包括例如对象遮蔽的复杂情形下,当跟随对象时人类也具有显著的准确度。因此,视频数据中示出的对象的轨迹可以从眼睛移动以高准确度得到。
原则上,存在由人类进行的两种两个不同眼睛移动。第一种被称作扫视,其中,眼睛以小跳跃从一个点移动至另一个点并且在每个点停止。在跳跃期间,眼睛基本上看不见,但是这不被体验为丢失帧,或者图像通过大脑用中间帧或图像被渲染(render)。接着,当眼睛停止在一位置时,接收新帧或图像。另一种眼睛移动被称作平滑追踪,其中,眼睛以跟随运动中的对象的平滑连续轨迹移动。通过使用用于生成轨迹数据的眼睛移动,可以避免使用基于图像处理视频数据的对象跟踪算法。因为平滑追踪不能被自发触发,所以要求观看者具有跟踪的对象,或者所述观看者正在跟随沿移动路径的局部部分可能被遮蔽的对象。因此,当例如检测到平滑追踪时,凝视路径可以是利用遮蔽处理潜在地跟踪对象,并且因此可以准确地描述移动对象在视频数据中的轨迹数据。从而,不需要执行计算上昂贵的对象跟踪算法。这从高清晰度视频的观点来看尤其有利。
根据一个实施方式,确定在回放视频数据期间由用户引导的定点装置的至少第一位置信息和第二位置信息。每个位置信息指示移动视觉图像中的对应位置。将所确定的第一位置信息和第二位置信息与轨迹数据的多个位置信息进行比较。基于所述比较控制回放所述视频数据的应用程序的参数。例如,可以基于所述比较调整(adapt)用于回放所述视频数据的回放速度。换句话说,观看视频数据的用户可以在视频回放期间利用手指或另一个定点装置在例如触敏显示器上指定路径。将包含至少所述第一位置和第二位置的指定路径与连同所述视频数据一起存储为元数据的轨迹数据进行比较。当发现与指定路径匹配的轨迹数据时,回放所述视频数据的应用程序的视频回放或另一个功能可以通过用户沿着该轨迹触摸触敏显示器来控制。
根据另一个实施方式,确定在回放所述视频数据期间由用户引导的定点装置的至少第一位置信息和第二位置信息,每个位置信息指示所述移动视觉图像中的对应位置。将所确定的至少第一位置信息和第二位置信息与所述轨迹数据的多个位置信息进行比较。基于所述比较,确定所述移动视觉图像中的对象。由用户瞄准对象确定的至少第一位置信息和第二位置信息例如可以包括对象将在视频数据的下一个图像中经历的路径的小部分。通过将所述对象的路径的该小部分与先前已经基于观看视频数据的其它用户的眼睛移动被存储为元数据的轨迹数据进行比较,可以确定对象的轨迹。该信息可以被用于识别移动视觉图像中的对象。因此,上述方法可以结合传统的基于图像的对象检测算法来使用,并且可以通过提供将被识别的对象的轨迹来支持传统基于图像的对象检测。这在将被识别的对象改变其外表的情况下尤其有帮助。例如,移动对象是飞翔的鸟。分配给视频数据的轨迹数据基于观看所述视频的观看者的眼睛移动。对于人类来说,甚至当翅膀扇动并且鸟的外表快速改变时,跟随鸟也是容易的任务。然而,基于图像的跟踪算法可能遭遇由于移动对象的改变外表造成的问题。通过组合基于图像的跟踪算法与基于眼睛移动的轨迹数据,可以实现更可靠对象跟踪。
根据另一个实施方式,可以通过对移动视觉图像的传统图像处理确定对象在移动视觉图像中的位置。将所述对象的位置与所述轨迹数据的多个位置信息进行比较,并且基于所述比较确定所述对象的轨迹。因此,可以将传统图像处理与基于眼睛移动的轨迹数据组合,以确定对象在移动视觉图像内的移动。传统图像处理被用于确定对象和对象的移动的起始点。然后,基于起始点,轨迹数据可以提供(deliver)所确定的对象的轨迹。
根据另一个实施方式,确定多个眼睛移动,并且针对所述多个眼睛移动中的每个,确定眼睛移动是平滑追踪眼睛移动还是扫视眼睛移动。在眼睛移动是扫视眼睛移动的情况下,针对每个扫视眼睛移动,确定位于对应扫视眼睛移动的停止位置处的对象,并且基于多个扫视眼睛移动和停止位置处的相关对象来确定所述轨迹数据。由此,可以容易地区分观看者在观看所述视频数据期间不感兴趣的背景信息与感兴趣的对象。因此,仅扫视眼睛移动的停止位置处的感兴趣对象可以被进一步处理,以确定感兴趣对象的轨迹数据。在眼睛移动是平滑追踪眼睛移动的情况下,可以基于平滑追踪眼睛移动的连续移动的轨迹数据,直接确定所述轨迹数据。
根据另一个实施方式,利用第一捕捉装置捕捉环境中的场景,以生成移动视觉图像。移动视觉图像在捕捉期间被显示在显示装置上,并且利用与显示装置相邻布置的第二捕捉装置捕捉观看所述移动视觉图像的观看者的眼睛的眼睛移动。基于所捕捉的移动视觉图像生成所述视频数据,并且所述轨迹数据基于所述眼睛移动被确定并且分配给所述视频数据。换句话说,在记录视频数据期间,所述轨迹数据已经可以自动地被确定并且被分配给所述视频数据。例如,当摄像机或包括相机的移动电话的用户正在捕捉场景(例如,足球比赛)时,在记录该场景期间,用户可以观看摄像机或移动电话的显示器上的场景。第二捕捉装置(其与显示装置相邻布置,以使其可以检测并且捕捉用户的眼睛移动)被用于捕捉所述眼睛移动,并且基于所述眼睛移动,轨迹数据可以直接得到并且与所述视频数据一起被存储。
根据另一个实施方式,在显示装置上显示所记录的视频数据的移动视觉图像,并且在观看者正在观看视觉图像时,利用与所述显示装置相邻布置的捕捉装置捕捉所述观看者的眼睛的眼睛移动。在这种情况下,在所述显示装置上回放已经记录的视频数据,并且所述观看者正在观看所述视频。在观看所述视频期间,捕捉装置捕捉观看者的每个眼睛移动,并且基于眼睛移动,轨迹数据可以被得到并且分配给所述视觉数据作为元数据。由此,更多观看者正在观看所述视频数据,轨迹数据的量可能增加。
根据本发明的另一个方面,提供了一种用户设备。所述用户设备包括:显示装置,该显示装置用于显示移动视觉图像;以及捕捉装置,该捕捉装置用于捕捉观看所述显示装置上的移动视觉图像的观看者的眼睛的眼睛移动。优选地,所述捕捉装置与所述显示装置相邻布置。所述用户设备还包括耦接至显示装置和捕捉装置的处理装置。处理装置基于所捕捉的眼睛移动确定轨迹数据,并且将所述轨迹数据分配给视频数据。视频数据包括所述移动视觉图像和例如作为元数据的所分配的轨迹数据。所述用户设备由此可以被设置成执行上述方法并且由此还包括上述优点。而且,所述用户设备例如可以包括移动装置,尤其是例如笔记本计算机、平板计算机、摄像机、移动电话或移动媒体播放器。
尽管结合本发明的具体实施方式和多个方面描述了以上概述和以下详细描述中描述的特定特征,但是应注意到,这些实施方式和方面的特征可以彼此组合,除非另外具体指明。
附图说明
下面参照附图对本发明进行更详细地描述。
图1示意性地示出结合根据本发明的一个实施方式的用户设备的用户。
图2示出根据本发明的一个实施方式的用于生成针对视频数据的轨迹数据的方法的方法步骤。
图3示意性地示出移动对象的轨迹数据。
图4示出根据本发明的另一个实施方式的方法的方法步骤。
图5示意性地示出用户基于根据本发明的实施方式确定的轨迹数据控制视频数据的回放。
具体实施方式
以下更详细地描述本发明的示例性实施方式。将理解,在此描述的各种示例性实施方式的特征可以彼此组合,除非另外具体指明。多个附图中的相同参考标号是指相似或相同组件。图中所示的组件或装置之间的任何耦接可以是直接或间接耦接,除非另外具体指明。
图1示意性地示出用户10查看用户设备12,例如,移动电话、平板PC或移动媒体播放器。用户设备12包括显示器13,该显示器13用于显示例如存储在用户设备12内或者例如经由无线通信从服务器接收的视频数据的移动视觉图像。用户设备12还包括捕捉装置14,该捕捉装置14用于捕捉观看显示器13上的移动视觉图像的用户10的眼睛11的眼睛移动。捕捉装置14例如包括数码相机,该数码相机与显示装置13相邻布置并且被引导以使得当用户10正在查看显示器13时可以捕捉用户10并且尤其是用户10的眼睛11。出于其它理由,这种相机14可以设置在用户设备12处,例如,在用于建立视频电话呼叫的移动电话的情况下。用户设备12还包括耦接至显示器13和相机14的处理装置15(例如,微处理器)。处理装置15可以适于执行下面结合图2描述的方法步骤。
图2示出包括通过处理装置15执行的方法步骤21-24的方法20。在步骤21中,处理装置15显示例如先前记录的视频数据的或者当前通过用户设备12利用在用户设备12的背面上(即,在布置捕捉装置14和显示器13的一侧的相反侧上)的另一个捕捉装置捕捉的视频数据的移动视觉图像。显示在显示器13上的移动视觉图像例如可以包括如图3中所示的场景,其中,飞机31正沿着多云天空飞行。在显示飞机31沿着路线32飞向图3中由飞机31指示的另一个位置的移动视觉图像期间,在步骤22中,利用相机14捕捉用户10的眼睛11的眼睛移动。在步骤23中,基于所捕捉的眼睛移动确定轨迹数据。所确定的轨迹数据对应于飞机31已经行进的路线32。在步骤24中,将所确定的轨迹数据分配给视频数据并且与移动视觉图像一起存储。由此,飞机31的轨迹数据可以在不执行移动视觉图像的图像处理的情况下被确定。
如上所述,存在两种眼睛移动:扫视和平滑追踪。当飞机31正沿着路径32行进并且天空中没有乌云时,用户10可以利用平滑追踪眼睛移动横跨天空跟随飞机31。从眼睛移动确定的扫描路径可以利用常规方法(Bezier方法)被平滑。移动对象(飞机31)的轨迹数据可以从眼睛移动直接确定,并且例如用于操纵视频,如下将详细描述的。然而,在图3中所示的多云天空的情况下,飞机31在其路径32上可能被乌云34遮住。不管如何,用户10可以横跨天空跟随飞机31。当飞机经过乌云34时,用户10的眼睛11可以借助于弹道扫视跟随,以使眼睛移动至假设飞机出现的位置。作为另选方案,眼睛可以执行平滑追踪,并且跟随事实上通过乌云34的飞机31。在第一种情况(扫视移动)下,直到飞机31被乌云34遮住为止的第一路径和飞机31在经过乌云34之后重新出现的第二路径可以连接,以形成单一轨迹,这是因为它们沿着相同路径32。在第二种情况(平滑追踪)下,轨迹数据可以从平滑追踪眼睛移动被直接确定。
如上所述,当查看视频数据时从用户的凝视路径确定的轨迹数据连同视频数据一起被记录为元数据,并且可以被用于寻找用户10看来最感兴趣的对象和路径。由此,可以完全避免使用基于处理移动视觉图像的对象跟踪算法。然而,即使实现对象跟踪算法,如上所述确定的轨迹数据也可以帮助降低针对这种对象跟踪算法的复杂性,由此减少计算要求。而且,可以通过组合来自对象跟踪算法的信息与轨迹元数据增加对象跟踪准确度。这在移动对象改变其形状的情况下有帮助,例如,如果移动对象是翅膀扇动的鸟。
如上所述确定的轨迹元数据可以被用于控制显示移动视觉图像的应用程序。例如,在移动视觉图像是正通过视频回放应用程序回放的所记录视频数据的图像的情况下,在视频数据内的导航可以基于轨迹数据被实现。在视频数据内的导航例如可以包括贯穿视频数据的时间导航,像改变回放速度或者贯穿视频数据的跳跃或跳过。
结合图4和图5更详细地描述控制视频回放。图4示出包括方法步骤41-45的方法40。假定已经对视频数据执行了上面结合图2描述的方法20,视频数据现在包括附加元数据,附加元数据指示基于此前已经观看视频数据的用户的眼睛移动的轨迹数据。如图5所示,两架飞机31和51的两个轨迹32和52已经基于观看视频数据的用户的眼睛移动被确定,并且轨迹已经作为元数据被存储为视频数据。现在,在步骤41中,视频数据的移动视觉图像在显示器13上被回放。显示器13可以包括触敏表面,使得处理装置15可以确定观看者例如利用手指53触摸显示器13的位置(步骤42)。处理装置15比较手指53的触摸位置与轨迹32和52。每个轨迹数据都可以包括随着时间的多个位置信息。在图5所示的示例中,处理装置15确定手指53的触摸位置与轨迹数据32匹配(步骤43)。因此,在步骤44和45中,可以根据沿着轨迹32的另一个检测到的触摸位置来控制回放视频数据。例如,只要手指53不移动,就停止视频数据回放。当手指53沿着轨迹32移动时,可以执行视频数据回放,以使飞机31跟随移动手指53并且与其一起。在手指53沿着轨迹32沿向后方向移动的情况下,可以沿相反方向执行视频数据回放。
代替回放控制,分配给视频数据的轨迹数据可以在其它应用程序中被使用,例如,在结合设置有轨迹数据的增强现实视频数据的游戏应用程序中,轨迹数据可以通过监测眼睛移动在前或实时地被重新获得。
而且,代替视频数据,可以将轨迹数据分配给游戏或者用户界面的记录。在这种情况下,直接操纵(例如通过沿着显示器移动手指)可以被用于控制在游戏或用户界面内的移动。在技术上,记录可以包括存储在游戏中的空间位置,并且移动手指是游戏或用户界面的图形应当怎样移动的输入。
用于基于眼睛移动生成轨迹数据的上述方法还可以被有利地用于包括大量单独移动对象的视频数据。例如,视频数据可以示出沿街道跑动的一群马拉松运动员。针对每个马拉松运动员的对象跟踪可能是耗时的且在计算上昂贵。查看视频数据的用户将仅跟随一个或很少的几个奔跑者,并且由此可以基于眼睛移动,以较低工作量确定用户最感兴趣的对象的轨迹数据。基于眼睛移动的轨迹数据帮助快速减少所需工作,如仅必须分析用户看起来最感兴趣的那些对象和路径。可以通过平滑追踪并且通过利用扫视在其与其它对象之间切换来示出感兴趣的路径或对象。数量减少的轨迹还可以使针对例如回放控制的交互更容易,因为其避免了针对人群中的每个对象或奔跑者给视频数据分配许多交叠路径。而且,由于用户凝视将揭示在该时刻对哪个对象或路径最感兴趣,因而可以使用该信息在跟随的不同对象之间无缝切换,其允许更平滑用户界面被实现,以例如用于控制回放。
Claims (10)
1.一种用于生成针对视频数据的轨迹数据的方法,所述方法包括:
利用捕捉装置(14)捕捉(22)观看视频帧的观看者(10)的眼睛(11)的眼睛移动,
利用处理装置(15)基于所述眼睛移动自动地确定(23)所述轨迹数据(32),以及
利用处理装置(15)将所述轨迹数据(32)自动分配(24)给包括所述视频帧的视频数据,
其特征在于:
确定多个眼睛移动,
针对所述多个眼睛移动中的每个眼睛移动,确定该眼睛移动是平滑追踪眼睛移动还是扫视眼睛移动,以及
在该眼睛移动是扫视眼睛移动的情况下:
针对每个扫视眼睛移动,确定位于对应扫视眼睛移动的停止位置处的对象(31),以及
基于多个扫视眼睛移动和所述停止位置处的相关对象(31)确定所述轨迹数据,以及
在该眼睛移动是平滑追踪眼睛移动的情况下:
基于所述平滑追踪眼睛移动的连续移动的轨迹数据确定所述轨迹数据。
2.根据权利要求1所述的方法,其中,所述轨迹数据(32)包括随着时间的多个位置信息,每个位置信息涉及由所述视频帧表示的移动对象(31)的位置。
3.根据权利要求1所述的方法,所述方法还包括:
确定在回放所述视频数据期间由用户引导的定点装置(53)的至少第一位置信息和第二位置信息,每个位置信息指示移动视觉图像中的对应位置,
将所确定的至少第一位置信息和第二位置信息与所述轨迹数据(32)的多个位置信息进行比较,以及
基于所述比较来控制回放所述视频数据的应用程序的参数。
4.根据权利要求3所述的方法,其中,控制所述参数包括:
基于所述比较调整用于回放所述视频数据的回放速度。
5.根据权利要求1所述的方法,所述方法还包括:
确定在回放所述视频数据期间由用户引导的定点装置(53)的至少第一位置信息和第二位置信息,每个位置信息指示所述视频帧中的对应位置,
将所确定的至少第一位置信息和第二位置信息与所述轨迹数据的多个位置信息进行比较,以及
基于所述比较确定所述视频帧中的对象(31)。
6.根据权利要求1所述的方法,所述方法还包括:
通过处理所述视频帧确定对象(31)在所述视频帧中的位置,
将所述对象(31)的位置与所述轨迹数据(32)的多个位置信息进行比较,以及基于所述比较确定所述对象(31)的轨迹。
7.根据权利要求1所述的方法,其中,捕捉所述眼睛移动的步骤包括:
利用第一捕捉装置捕捉环境中的场景以生成所述视频帧,
在捕捉期间在显示装置(13)上显示所述视频帧,
利用与所述显示装置(13)相邻布置的第二捕捉装置(14)捕捉观看所述视频帧的观看者(10)的眼睛(11)的眼睛移动,
基于所捕捉的视频帧生成所述视频数据。
8.根据权利要求1所述的方法,其中,捕捉所述眼睛移动的步骤包括:
在显示装置(13)上显示所记录的视频数据的视频帧,以及
利用与所述显示装置(13)相邻布置的捕捉装置(14)捕捉观看所述视频帧的所述观看者(10)的眼睛(11)的眼睛移动。
9.一种用户设备,所述用户设备包括:
显示装置(13),所述显示装置(13)用于显示视频帧,
捕捉装置(14),所述捕捉装置(14)用于捕捉观看所述显示装置(13)上的所述视频帧的观看者(10)的眼睛(11)的眼睛移动,以及
处理装置(15),所述处理装置(15)被设置成,
基于所捕捉的眼睛移动确定轨迹数据(32),以及
将所述轨迹数据(32)分配给包括所述视频帧的视频数据,
其中,所述处理装置(15)还被设置成:
确定多个眼睛移动,
针对所述多个眼睛移动中的每个眼睛移动,确定该眼睛移动是平滑追踪眼睛移动还是扫视眼睛移动,以及
在该眼睛移动是扫视眼睛移动的情况下:
针对每个扫视眼睛移动,确定位于对应扫视眼睛移动的停止位置处的对象(31),以及
基于多个扫视眼睛移动和所述停止位置处的相关对象(31)确定所述轨迹数据,以及
在该眼睛移动是平滑追踪眼睛移动的情况下:
基于所述平滑追踪眼睛移动的连续移动的轨迹数据确定所述轨迹数据。
10.根据权利要求9所述的用户设备,其中,所述用户设备(12)包括移动装置,所述移动装置包括以下组中的至少一个,所述组包括笔记本计算机、平板计算机、摄像机、移动电话、以及移动媒体播放器。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/IB2014/059986 WO2015140598A1 (en) | 2014-03-20 | 2014-03-20 | Generating trajectory data for video data |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106104418A CN106104418A (zh) | 2016-11-09 |
CN106104418B true CN106104418B (zh) | 2019-12-20 |
Family
ID=50588765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201480077266.4A Active CN106104418B (zh) | 2014-03-20 | 2014-03-20 | 生成针对视频数据的轨迹数据的方法以及用户设备 |
Country Status (6)
Country | Link |
---|---|
US (1) | US9760779B2 (zh) |
EP (1) | EP3120218B1 (zh) |
JP (1) | JP6265299B2 (zh) |
KR (1) | KR102176598B1 (zh) |
CN (1) | CN106104418B (zh) |
WO (1) | WO2015140598A1 (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3174287A1 (en) * | 2015-11-26 | 2017-05-31 | Vestel Elektronik Sanayi ve Ticaret A.S. | Audio and video processing system, display device and method |
US10979721B2 (en) * | 2016-11-17 | 2021-04-13 | Dolby Laboratories Licensing Corporation | Predicting and verifying regions of interest selections |
CN108197620B (zh) * | 2018-01-23 | 2021-11-26 | 广东小天才科技有限公司 | 一种基于眼睛定位的拍照搜题方法、系统及手持拍照设备 |
JP7119425B2 (ja) * | 2018-03-01 | 2022-08-17 | ソニーグループ株式会社 | 画像処理装置、符号化装置、復号化装置、画像処理方法、プログラム、符号化方法及び復号化方法 |
CN109254662A (zh) * | 2018-09-04 | 2019-01-22 | 平安普惠企业管理有限公司 | 移动设备操作方法、装置、计算机设备及存储介质 |
CN116882846B (zh) * | 2023-09-07 | 2023-11-21 | 北京中科智易科技股份有限公司 | 操炮训练智能考核系统、方法及计算机存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073415A (zh) * | 2010-11-29 | 2011-05-25 | 广东威创视讯科技股份有限公司 | 触摸系统、辅助装置及其输入方法 |
CN102224737A (zh) * | 2008-11-24 | 2011-10-19 | 皇家飞利浦电子股份有限公司 | 组合三维视频和辅助数据 |
EP2562684A2 (en) * | 2011-08-26 | 2013-02-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | Segmenting spatiotemporal data based on user gaze data |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080263592A1 (en) * | 2007-04-18 | 2008-10-23 | Fuji Xerox Co., Ltd. | System for video control by direct manipulation of object trails |
JP5351704B2 (ja) * | 2009-10-14 | 2013-11-27 | 日本放送協会 | 映像酔い耐性評価装置及びプログラム |
US8774467B2 (en) * | 2010-08-05 | 2014-07-08 | Michael C. Ryan | Predictive flight path and non-destructive marking system and method |
WO2014111924A1 (en) * | 2013-01-15 | 2014-07-24 | Poow Innovation Ltd. | Dynamic icons |
-
2014
- 2014-03-20 KR KR1020167027343A patent/KR102176598B1/ko active IP Right Grant
- 2014-03-20 EP EP14719864.2A patent/EP3120218B1/en active Active
- 2014-03-20 US US15/127,061 patent/US9760779B2/en active Active
- 2014-03-20 CN CN201480077266.4A patent/CN106104418B/zh active Active
- 2014-03-20 JP JP2017500451A patent/JP6265299B2/ja not_active Expired - Fee Related
- 2014-03-20 WO PCT/IB2014/059986 patent/WO2015140598A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102224737A (zh) * | 2008-11-24 | 2011-10-19 | 皇家飞利浦电子股份有限公司 | 组合三维视频和辅助数据 |
CN102073415A (zh) * | 2010-11-29 | 2011-05-25 | 广东威创视讯科技股份有限公司 | 触摸系统、辅助装置及其输入方法 |
EP2562684A2 (en) * | 2011-08-26 | 2013-02-27 | Toyota Motor Engineering & Manufacturing North America, Inc. | Segmenting spatiotemporal data based on user gaze data |
Non-Patent Citations (1)
Title |
---|
"Video playback control by direct object manipulation;Don Kimber ET AL;《2007 IEEE International Conference on Multimedia and Expo》;IEEE;20070731;第1017-1018页 * |
Also Published As
Publication number | Publication date |
---|---|
US20170109587A1 (en) | 2017-04-20 |
WO2015140598A1 (en) | 2015-09-24 |
US9760779B2 (en) | 2017-09-12 |
CN106104418A (zh) | 2016-11-09 |
JP6265299B2 (ja) | 2018-01-24 |
EP3120218B1 (en) | 2019-12-18 |
KR102176598B1 (ko) | 2020-11-09 |
JP2017510922A (ja) | 2017-04-13 |
EP3120218A1 (en) | 2017-01-25 |
KR20160136336A (ko) | 2016-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106104418B (zh) | 生成针对视频数据的轨迹数据的方法以及用户设备 | |
JP6944564B2 (ja) | 注視追跡のための装置及び方法 | |
US10536661B2 (en) | Tracking object of interest in an omnidirectional video | |
US10845969B2 (en) | System and method for navigating a field of view within an interactive media-content item | |
US9684435B2 (en) | Camera selection interface for producing a media presentation | |
US20180077345A1 (en) | Predictive camera control system and method | |
KR20200023634A (ko) | 가상 카메라를 제어하는 시스템 및 방법 | |
US10368784B2 (en) | Sensor data damping | |
US10474342B2 (en) | Scrollable user interface control | |
US10846535B2 (en) | Virtual reality causal summary content | |
Pidaparthy et al. | Keep your eye on the puck: Automatic hockey videography | |
US20210058609A1 (en) | Information processor, information processing method, and program | |
US10388323B2 (en) | Method and apparatus for displaying light field video data | |
Gelb et al. | Augmented reality for immersive remote collaboration | |
WO2018004933A1 (en) | Apparatus and method for gaze tracking | |
US11778155B2 (en) | Image processing apparatus, image processing method, and storage medium | |
US20240078687A1 (en) | Information processing apparatus, information processing method, and storage medium | |
Wang | Viewing support system for multi-view videos |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |