CN106104418B

CN106104418B - 生成针对视频数据的轨迹数据的方法以及用户设备

Info

Publication number: CN106104418B
Application number: CN201480077266.4A
Authority: CN
Inventors: O·索恩; P-A·阿龙松
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-03-20
Filing date: 2014-03-20
Publication date: 2019-12-20
Anticipated expiration: 2034-03-20
Also published as: US20170109587A1; WO2015140598A1; US9760779B2; CN106104418A; JP6265299B2; EP3120218B1; KR102176598B1; JP2017510922A; EP3120218A1; KR20160136336A

Abstract

生成针对视频数据的轨迹数据的方法以及用户设备。本发明涉及一种用于生成针对视频数据的轨迹数据的方法。根据所述方法，利用捕捉装置(14)捕捉观看移动视觉图像的观看者(10)的眼睛(11)的眼睛移动。利用处理装置(15)基于所述眼睛移动自动地确定所述轨迹数据(32)，以及将所述轨迹数据(32)自动分配给包括所述移动视觉图像的视频数据。

Description

生成针对视频数据的轨迹数据的方法以及用户设备

技术领域

本发明涉及一种用于生成针对视频数据的轨迹数据的方法。特别是，本发明涉及一种用于基于凝视跟踪生成轨迹数据从而避免图像处理中的计算工作量的方法。而且，本发明还涉及实现本方法的用户设备，例如，移动电话。

背景技术

在许多应用中，确定对象在视频信息中的移动、对象的所谓轨迹可能是有用的或者被要求。例如，作为对视频的最常见的基于时间的回放控制的另选方案，可以使用直接对象操纵，其中，用户直接控制对象在视频内的移动，以用于在视频内导航。例如，用户可以沿对象的运动轨迹跟踪对象，并且跟踪移动的速度确定回放的速度。这种直接基于对象的回放控制对于用户可能具有多个结果，例如，用户可以取得对场景中的移动的直接控制，并且使得用户能够跳过大部分视频，其中，感兴趣的对象不移动。为了实现这种直接对象操纵，需要获知对象布置或位于视频的不同帧中的位置。存在许多不同对象跟踪算法，例如，所谓的光流算法。而且，存在用于估计或推测对象被布置在存在遮蔽的地方的大量算法，例如，使用运动预测、颜色匹配、形状匹配等等。然而，基于处理视频数据的图像的对象跟踪算法可能要求大量处理能力，或者可能要求很多处理时间。而且，结合上述直接对象操纵，可能存在妨碍满足用户体验的技术问题。这些问题中的一个例如是，当对象和由此还有对象的运动路径在一些时间被其它对象遮蔽时。

例如，当用户在观看足球比赛的视频时，用户可能想要使用直接对象操纵在视频内导航，并且由此可以沿对应运动轨迹跟踪特定运动员或球。例如，视频可以示出跑动并且带球的特定足球运动员和试图得到球的几个其他足球运动员。在这种情况下，其他足球运动员可能部分地遮蔽特定足球运动员和球，导致难以以高可靠性自动地估计球和特定足球运动员的位置。结果可能是，球和/或特定足球运动员的路径可能被剪切成多个更小路径或者路径的跟踪在一些时间内丢失。另一个问题可能是，两个不同不相关路径由于不正确对象跟踪被错误地连接。另一个问题可能当存在许多对象路径时出现。例如，视频可以包括一群马拉松运动员并且用户想要通过直接操纵特定奔跑者来控制视频的回放，例如，通过利用回放视频数据的触敏显示器来跟踪奔跑者的脸。然而，在视频内存在大量移动，并且存在大量奔跑者。分辨率和到奔跑者的距离可能使得很难使用面部识别算法来确定针对每个奔跑者的路径。

因此，需要一种用于确定视频数据中的运动轨迹的改进方法。

发明内容

根据本发明，该目的通过用于生成针对视频数据的轨迹数据的方法和用户设备来实现。

根据本发明的一方面，提供了一种用于生成针对视频数据的轨迹数据的方法。根据所述方法，利用捕捉装置捕捉观看移动视觉图像的观看者的眼睛的眼睛移动。所述捕捉装置例如可以包括相机，该相机与显示将被所述观看者观看的移动视觉图像的显示装置相邻布置。基于所述眼睛移动，利用估算通过所述捕捉装置捕捉的眼睛移动的图像的处理装置来自动确定轨迹数据。处理装置将轨迹数据自动地分配给包括移动视觉图像的视频数据。详细地，所述轨迹数据可以被自动地分配给所述视频数据的元数据。所述轨迹数据例如可以包括随着时间的多个位置信息，并且每个位置信息可能涉及由移动视觉图像表示的移动对象的位置。换句话说，分析所述观看者的眼睛移动或所述观看者的凝视，以确定轨迹数据。所述轨迹数据被记录为元数据，并且可以被用于寻找在观看视频数据期间所述观看者感兴趣的对象和路径。

甚至在包括例如对象遮蔽的复杂情形下，当跟随对象时人类也具有显著的准确度。因此，视频数据中示出的对象的轨迹可以从眼睛移动以高准确度得到。

原则上，存在由人类进行的两种两个不同眼睛移动。第一种被称作扫视，其中，眼睛以小跳跃从一个点移动至另一个点并且在每个点停止。在跳跃期间，眼睛基本上看不见，但是这不被体验为丢失帧，或者图像通过大脑用中间帧或图像被渲染(render)。接着，当眼睛停止在一位置时，接收新帧或图像。另一种眼睛移动被称作平滑追踪，其中，眼睛以跟随运动中的对象的平滑连续轨迹移动。通过使用用于生成轨迹数据的眼睛移动，可以避免使用基于图像处理视频数据的对象跟踪算法。因为平滑追踪不能被自发触发，所以要求观看者具有跟踪的对象，或者所述观看者正在跟随沿移动路径的局部部分可能被遮蔽的对象。因此，当例如检测到平滑追踪时，凝视路径可以是利用遮蔽处理潜在地跟踪对象，并且因此可以准确地描述移动对象在视频数据中的轨迹数据。从而，不需要执行计算上昂贵的对象跟踪算法。这从高清晰度视频的观点来看尤其有利。

根据一个实施方式，确定在回放视频数据期间由用户引导的定点装置的至少第一位置信息和第二位置信息。每个位置信息指示移动视觉图像中的对应位置。将所确定的第一位置信息和第二位置信息与轨迹数据的多个位置信息进行比较。基于所述比较控制回放所述视频数据的应用程序的参数。例如，可以基于所述比较调整(adapt)用于回放所述视频数据的回放速度。换句话说，观看视频数据的用户可以在视频回放期间利用手指或另一个定点装置在例如触敏显示器上指定路径。将包含至少所述第一位置和第二位置的指定路径与连同所述视频数据一起存储为元数据的轨迹数据进行比较。当发现与指定路径匹配的轨迹数据时，回放所述视频数据的应用程序的视频回放或另一个功能可以通过用户沿着该轨迹触摸触敏显示器来控制。

根据另一个实施方式，确定在回放所述视频数据期间由用户引导的定点装置的至少第一位置信息和第二位置信息，每个位置信息指示所述移动视觉图像中的对应位置。将所确定的至少第一位置信息和第二位置信息与所述轨迹数据的多个位置信息进行比较。基于所述比较，确定所述移动视觉图像中的对象。由用户瞄准对象确定的至少第一位置信息和第二位置信息例如可以包括对象将在视频数据的下一个图像中经历的路径的小部分。通过将所述对象的路径的该小部分与先前已经基于观看视频数据的其它用户的眼睛移动被存储为元数据的轨迹数据进行比较，可以确定对象的轨迹。该信息可以被用于识别移动视觉图像中的对象。因此，上述方法可以结合传统的基于图像的对象检测算法来使用，并且可以通过提供将被识别的对象的轨迹来支持传统基于图像的对象检测。这在将被识别的对象改变其外表的情况下尤其有帮助。例如，移动对象是飞翔的鸟。分配给视频数据的轨迹数据基于观看所述视频的观看者的眼睛移动。对于人类来说，甚至当翅膀扇动并且鸟的外表快速改变时，跟随鸟也是容易的任务。然而，基于图像的跟踪算法可能遭遇由于移动对象的改变外表造成的问题。通过组合基于图像的跟踪算法与基于眼睛移动的轨迹数据，可以实现更可靠对象跟踪。

根据另一个实施方式，可以通过对移动视觉图像的传统图像处理确定对象在移动视觉图像中的位置。将所述对象的位置与所述轨迹数据的多个位置信息进行比较，并且基于所述比较确定所述对象的轨迹。因此，可以将传统图像处理与基于眼睛移动的轨迹数据组合，以确定对象在移动视觉图像内的移动。传统图像处理被用于确定对象和对象的移动的起始点。然后，基于起始点，轨迹数据可以提供(deliver)所确定的对象的轨迹。

根据另一个实施方式，确定多个眼睛移动，并且针对所述多个眼睛移动中的每个，确定眼睛移动是平滑追踪眼睛移动还是扫视眼睛移动。在眼睛移动是扫视眼睛移动的情况下，针对每个扫视眼睛移动，确定位于对应扫视眼睛移动的停止位置处的对象，并且基于多个扫视眼睛移动和停止位置处的相关对象来确定所述轨迹数据。由此，可以容易地区分观看者在观看所述视频数据期间不感兴趣的背景信息与感兴趣的对象。因此，仅扫视眼睛移动的停止位置处的感兴趣对象可以被进一步处理，以确定感兴趣对象的轨迹数据。在眼睛移动是平滑追踪眼睛移动的情况下，可以基于平滑追踪眼睛移动的连续移动的轨迹数据，直接确定所述轨迹数据。

根据另一个实施方式，利用第一捕捉装置捕捉环境中的场景，以生成移动视觉图像。移动视觉图像在捕捉期间被显示在显示装置上，并且利用与显示装置相邻布置的第二捕捉装置捕捉观看所述移动视觉图像的观看者的眼睛的眼睛移动。基于所捕捉的移动视觉图像生成所述视频数据，并且所述轨迹数据基于所述眼睛移动被确定并且分配给所述视频数据。换句话说，在记录视频数据期间，所述轨迹数据已经可以自动地被确定并且被分配给所述视频数据。例如，当摄像机或包括相机的移动电话的用户正在捕捉场景(例如，足球比赛)时，在记录该场景期间，用户可以观看摄像机或移动电话的显示器上的场景。第二捕捉装置(其与显示装置相邻布置，以使其可以检测并且捕捉用户的眼睛移动)被用于捕捉所述眼睛移动，并且基于所述眼睛移动，轨迹数据可以直接得到并且与所述视频数据一起被存储。

根据另一个实施方式，在显示装置上显示所记录的视频数据的移动视觉图像，并且在观看者正在观看视觉图像时，利用与所述显示装置相邻布置的捕捉装置捕捉所述观看者的眼睛的眼睛移动。在这种情况下，在所述显示装置上回放已经记录的视频数据，并且所述观看者正在观看所述视频。在观看所述视频期间，捕捉装置捕捉观看者的每个眼睛移动，并且基于眼睛移动，轨迹数据可以被得到并且分配给所述视觉数据作为元数据。由此，更多观看者正在观看所述视频数据，轨迹数据的量可能增加。

根据本发明的另一个方面，提供了一种用户设备。所述用户设备包括：显示装置，该显示装置用于显示移动视觉图像；以及捕捉装置，该捕捉装置用于捕捉观看所述显示装置上的移动视觉图像的观看者的眼睛的眼睛移动。优选地，所述捕捉装置与所述显示装置相邻布置。所述用户设备还包括耦接至显示装置和捕捉装置的处理装置。处理装置基于所捕捉的眼睛移动确定轨迹数据，并且将所述轨迹数据分配给视频数据。视频数据包括所述移动视觉图像和例如作为元数据的所分配的轨迹数据。所述用户设备由此可以被设置成执行上述方法并且由此还包括上述优点。而且，所述用户设备例如可以包括移动装置，尤其是例如笔记本计算机、平板计算机、摄像机、移动电话或移动媒体播放器。

尽管结合本发明的具体实施方式和多个方面描述了以上概述和以下详细描述中描述的特定特征，但是应注意到，这些实施方式和方面的特征可以彼此组合，除非另外具体指明。

附图说明

下面参照附图对本发明进行更详细地描述。

图1示意性地示出结合根据本发明的一个实施方式的用户设备的用户。

图2示出根据本发明的一个实施方式的用于生成针对视频数据的轨迹数据的方法的方法步骤。

图3示意性地示出移动对象的轨迹数据。

图4示出根据本发明的另一个实施方式的方法的方法步骤。

图5示意性地示出用户基于根据本发明的实施方式确定的轨迹数据控制视频数据的回放。

具体实施方式

以下更详细地描述本发明的示例性实施方式。将理解，在此描述的各种示例性实施方式的特征可以彼此组合，除非另外具体指明。多个附图中的相同参考标号是指相似或相同组件。图中所示的组件或装置之间的任何耦接可以是直接或间接耦接，除非另外具体指明。

图1示意性地示出用户10查看用户设备12，例如，移动电话、平板PC或移动媒体播放器。用户设备12包括显示器13，该显示器13用于显示例如存储在用户设备12内或者例如经由无线通信从服务器接收的视频数据的移动视觉图像。用户设备12还包括捕捉装置14，该捕捉装置14用于捕捉观看显示器13上的移动视觉图像的用户10的眼睛11的眼睛移动。捕捉装置14例如包括数码相机，该数码相机与显示装置13相邻布置并且被引导以使得当用户10正在查看显示器13时可以捕捉用户10并且尤其是用户10的眼睛11。出于其它理由，这种相机14可以设置在用户设备12处，例如，在用于建立视频电话呼叫的移动电话的情况下。用户设备12还包括耦接至显示器13和相机14的处理装置15(例如，微处理器)。处理装置15可以适于执行下面结合图2描述的方法步骤。

图2示出包括通过处理装置15执行的方法步骤21-24的方法20。在步骤21中，处理装置15显示例如先前记录的视频数据的或者当前通过用户设备12利用在用户设备12的背面上(即，在布置捕捉装置14和显示器13的一侧的相反侧上)的另一个捕捉装置捕捉的视频数据的移动视觉图像。显示在显示器13上的移动视觉图像例如可以包括如图3中所示的场景，其中，飞机31正沿着多云天空飞行。在显示飞机31沿着路线32飞向图3中由飞机31指示的另一个位置的移动视觉图像期间，在步骤22中，利用相机14捕捉用户10的眼睛11的眼睛移动。在步骤23中，基于所捕捉的眼睛移动确定轨迹数据。所确定的轨迹数据对应于飞机31已经行进的路线32。在步骤24中，将所确定的轨迹数据分配给视频数据并且与移动视觉图像一起存储。由此，飞机31的轨迹数据可以在不执行移动视觉图像的图像处理的情况下被确定。

如上所述，存在两种眼睛移动：扫视和平滑追踪。当飞机31正沿着路径32行进并且天空中没有乌云时，用户10可以利用平滑追踪眼睛移动横跨天空跟随飞机31。从眼睛移动确定的扫描路径可以利用常规方法(Bezier方法)被平滑。移动对象(飞机31)的轨迹数据可以从眼睛移动直接确定，并且例如用于操纵视频，如下将详细描述的。然而，在图3中所示的多云天空的情况下，飞机31在其路径32上可能被乌云34遮住。不管如何，用户10可以横跨天空跟随飞机31。当飞机经过乌云34时，用户10的眼睛11可以借助于弹道扫视跟随，以使眼睛移动至假设飞机出现的位置。作为另选方案，眼睛可以执行平滑追踪，并且跟随事实上通过乌云34的飞机31。在第一种情况(扫视移动)下，直到飞机31被乌云34遮住为止的第一路径和飞机31在经过乌云34之后重新出现的第二路径可以连接，以形成单一轨迹，这是因为它们沿着相同路径32。在第二种情况(平滑追踪)下，轨迹数据可以从平滑追踪眼睛移动被直接确定。

如上所述，当查看视频数据时从用户的凝视路径确定的轨迹数据连同视频数据一起被记录为元数据，并且可以被用于寻找用户10看来最感兴趣的对象和路径。由此，可以完全避免使用基于处理移动视觉图像的对象跟踪算法。然而，即使实现对象跟踪算法，如上所述确定的轨迹数据也可以帮助降低针对这种对象跟踪算法的复杂性，由此减少计算要求。而且，可以通过组合来自对象跟踪算法的信息与轨迹元数据增加对象跟踪准确度。这在移动对象改变其形状的情况下有帮助，例如，如果移动对象是翅膀扇动的鸟。

如上所述确定的轨迹元数据可以被用于控制显示移动视觉图像的应用程序。例如，在移动视觉图像是正通过视频回放应用程序回放的所记录视频数据的图像的情况下，在视频数据内的导航可以基于轨迹数据被实现。在视频数据内的导航例如可以包括贯穿视频数据的时间导航，像改变回放速度或者贯穿视频数据的跳跃或跳过。

结合图4和图5更详细地描述控制视频回放。图4示出包括方法步骤41-45的方法40。假定已经对视频数据执行了上面结合图2描述的方法20，视频数据现在包括附加元数据，附加元数据指示基于此前已经观看视频数据的用户的眼睛移动的轨迹数据。如图5所示，两架飞机31和51的两个轨迹32和52已经基于观看视频数据的用户的眼睛移动被确定，并且轨迹已经作为元数据被存储为视频数据。现在，在步骤41中，视频数据的移动视觉图像在显示器13上被回放。显示器13可以包括触敏表面，使得处理装置15可以确定观看者例如利用手指53触摸显示器13的位置(步骤42)。处理装置15比较手指53的触摸位置与轨迹32和52。每个轨迹数据都可以包括随着时间的多个位置信息。在图5所示的示例中，处理装置15确定手指53的触摸位置与轨迹数据32匹配(步骤43)。因此，在步骤44和45中，可以根据沿着轨迹32的另一个检测到的触摸位置来控制回放视频数据。例如，只要手指53不移动，就停止视频数据回放。当手指53沿着轨迹32移动时，可以执行视频数据回放，以使飞机31跟随移动手指53并且与其一起。在手指53沿着轨迹32沿向后方向移动的情况下，可以沿相反方向执行视频数据回放。

代替回放控制，分配给视频数据的轨迹数据可以在其它应用程序中被使用，例如，在结合设置有轨迹数据的增强现实视频数据的游戏应用程序中，轨迹数据可以通过监测眼睛移动在前或实时地被重新获得。

而且，代替视频数据，可以将轨迹数据分配给游戏或者用户界面的记录。在这种情况下，直接操纵(例如通过沿着显示器移动手指)可以被用于控制在游戏或用户界面内的移动。在技术上，记录可以包括存储在游戏中的空间位置，并且移动手指是游戏或用户界面的图形应当怎样移动的输入。

用于基于眼睛移动生成轨迹数据的上述方法还可以被有利地用于包括大量单独移动对象的视频数据。例如，视频数据可以示出沿街道跑动的一群马拉松运动员。针对每个马拉松运动员的对象跟踪可能是耗时的且在计算上昂贵。查看视频数据的用户将仅跟随一个或很少的几个奔跑者，并且由此可以基于眼睛移动，以较低工作量确定用户最感兴趣的对象的轨迹数据。基于眼睛移动的轨迹数据帮助快速减少所需工作，如仅必须分析用户看起来最感兴趣的那些对象和路径。可以通过平滑追踪并且通过利用扫视在其与其它对象之间切换来示出感兴趣的路径或对象。数量减少的轨迹还可以使针对例如回放控制的交互更容易，因为其避免了针对人群中的每个对象或奔跑者给视频数据分配许多交叠路径。而且，由于用户凝视将揭示在该时刻对哪个对象或路径最感兴趣，因而可以使用该信息在跟随的不同对象之间无缝切换，其允许更平滑用户界面被实现，以例如用于控制回放。

Claims

1.一种用于生成针对视频数据的轨迹数据的方法，所述方法包括：

利用捕捉装置(14)捕捉(22)观看视频帧的观看者(10)的眼睛(11)的眼睛移动，

利用处理装置(15)基于所述眼睛移动自动地确定(23)所述轨迹数据(32)，以及

利用处理装置(15)将所述轨迹数据(32)自动分配(24)给包括所述视频帧的视频数据，

其特征在于：

确定多个眼睛移动，

针对所述多个眼睛移动中的每个眼睛移动，确定该眼睛移动是平滑追踪眼睛移动还是扫视眼睛移动，以及

在该眼睛移动是扫视眼睛移动的情况下：

针对每个扫视眼睛移动，确定位于对应扫视眼睛移动的停止位置处的对象(31)，以及

基于多个扫视眼睛移动和所述停止位置处的相关对象(31)确定所述轨迹数据，以及

在该眼睛移动是平滑追踪眼睛移动的情况下：

基于所述平滑追踪眼睛移动的连续移动的轨迹数据确定所述轨迹数据。

2.根据权利要求1所述的方法，其中，所述轨迹数据(32)包括随着时间的多个位置信息，每个位置信息涉及由所述视频帧表示的移动对象(31)的位置。

3.根据权利要求1所述的方法，所述方法还包括：

确定在回放所述视频数据期间由用户引导的定点装置(53)的至少第一位置信息和第二位置信息，每个位置信息指示移动视觉图像中的对应位置，

将所确定的至少第一位置信息和第二位置信息与所述轨迹数据(32)的多个位置信息进行比较，以及

基于所述比较来控制回放所述视频数据的应用程序的参数。

4.根据权利要求3所述的方法，其中，控制所述参数包括：

基于所述比较调整用于回放所述视频数据的回放速度。

5.根据权利要求1所述的方法，所述方法还包括：

确定在回放所述视频数据期间由用户引导的定点装置(53)的至少第一位置信息和第二位置信息，每个位置信息指示所述视频帧中的对应位置，

将所确定的至少第一位置信息和第二位置信息与所述轨迹数据的多个位置信息进行比较，以及

基于所述比较确定所述视频帧中的对象(31)。

6.根据权利要求1所述的方法，所述方法还包括：

通过处理所述视频帧确定对象(31)在所述视频帧中的位置，

将所述对象(31)的位置与所述轨迹数据(32)的多个位置信息进行比较，以及基于所述比较确定所述对象(31)的轨迹。

7.根据权利要求1所述的方法，其中，捕捉所述眼睛移动的步骤包括：

利用第一捕捉装置捕捉环境中的场景以生成所述视频帧，

在捕捉期间在显示装置(13)上显示所述视频帧，

利用与所述显示装置(13)相邻布置的第二捕捉装置(14)捕捉观看所述视频帧的观看者(10)的眼睛(11)的眼睛移动，

基于所捕捉的视频帧生成所述视频数据。

8.根据权利要求1所述的方法，其中，捕捉所述眼睛移动的步骤包括：

在显示装置(13)上显示所记录的视频数据的视频帧，以及

利用与所述显示装置(13)相邻布置的捕捉装置(14)捕捉观看所述视频帧的所述观看者(10)的眼睛(11)的眼睛移动。

9.一种用户设备，所述用户设备包括：

显示装置(13)，所述显示装置(13)用于显示视频帧，

捕捉装置(14)，所述捕捉装置(14)用于捕捉观看所述显示装置(13)上的所述视频帧的观看者(10)的眼睛(11)的眼睛移动，以及

处理装置(15)，所述处理装置(15)被设置成，

基于所捕捉的眼睛移动确定轨迹数据(32)，以及

将所述轨迹数据(32)分配给包括所述视频帧的视频数据，

其中，所述处理装置(15)还被设置成：

确定多个眼睛移动，

在该眼睛移动是扫视眼睛移动的情况下：

在该眼睛移动是平滑追踪眼睛移动的情况下：

10.根据权利要求9所述的用户设备，其中，所述用户设备(12)包括移动装置，所述移动装置包括以下组中的至少一个，所述组包括笔记本计算机、平板计算机、摄像机、移动电话、以及移动媒体播放器。