CN104658032A

CN104658032A - 用于图像处理的方法、设备和系统

Info

Publication number: CN104658032A
Application number: CN201410647463.7A
Authority: CN
Inventors: 克里夫·亨利·吉尔拉德; 迈克尔·约翰·威廉斯; 罗伯特·马克·斯特凡·波特; 保尔·爱德华·普雷勒
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2013-11-15
Filing date: 2014-11-14
Publication date: 2015-05-27
Anticipated expiration: 2034-11-14
Also published as: GB201320219D0; CN104658032B; GB2520312A; US20150138188A1; US9747870B2

Abstract

本发明涉及用于图像处理的方法、设备和系统。本发明的实施方式提供了一种用于将图形叠加在从场景的第一图像的裁剪生成的第二图像上的设备，其包括接收器电路，被配置为接收第二图像和一组裁剪拐角坐标，每个裁剪拐角坐标给出在针对第一图像限定的第一二维(2D)坐标系中的裁剪的拐角点的位置；单应性确定电路，被配置为从一组裁剪拐角坐标确定在裁剪内限定的第一2D坐标系的坐标与针对第二图像限定的第二2D坐标系的坐标之间的单应性；特征确定电路，被配置为确定虚拟摄像机的视场内的场景的虚拟3D图的特征；图形生成器电路，被配置为从确定的虚拟3D图的特征生成图形；以及图形叠加电路，被配置为将生成的图形叠加在第二图像上。

Description

用于图像处理的方法、设备和系统

技术领域

本发明涉及用于图像处理的方法、设备和系统。

背景技术

本文中所提供的“背景技术”描述以对本公开的背景作一般性说明为目的。就其描述程度而言，描述在背景技术部分的、目前署名的发明人的工作以及申请时未另限定为现有技术资格的说明方面，既没有明确地也没有隐含地承认作为与本发明的相对的现有技术。

目前使用大的、高分辨率的图像和虚拟摄像机可以产生场景的放大图像。在这样的系统中，捕获的唯一真实图像是大的、高分辨率的图像。放大图像是通过选择大的、高分辨率的图像的一部分(也被称为裁剪(cut-out))完全电子地创建的。例如，可从4k或8k图像获得高清晰度(HD)裁剪。裁剪的形状可改变，以改变所显示的得到的放大图像的透视角(perspective)。这就允许电子地产生的放大图像以具有通过摇摄穿过场景的真实摄像机捕获的图像的特点。产生这样的透视角校正的放大图像的方法在其可被称作为对比文件1的GB1306050.4中公开，通过引用将其内容结合于此。

然而，伴随这些电子地产生的放大图像的问题是，因为实际上不是用真实摄像机产生图像，故难以使用电视插图器(television illustrator)(还被称为屏幕标记器(telestrator))系统处理放大的图像。屏幕标记器系统用于在现实生活的视频图像上产生计算机生成的图像(例如，标记足球场上球员的越位位置)并且传统上依赖于将真实三维(3D)场景中的特征映射成通过真实摄像机捕获的场景的二维(2D)图像中的特征。这允许屏幕标记器确定计算机生成的图像的正确位置，该计算机生成的图像是基于捕获的视频图像帧内的真实3D场景中的特征。本发明的目的是缓解这个问题。

发明内容

在一个方面中，本发明提供一种用于将图形(graphic)叠加在从场景的第一图像的裁剪生成的第二图像上的设备，该裁剪表示虚拟摄像机的视场(field of view)，该设备包括：接收器电路，被配置为接收第二图像和一组裁剪拐角坐标(corner coordinate)，每一个裁剪拐角坐标给出在针对第一图像限定的第一二维(2D)坐标系中的裁剪的拐角点的位置；单应性确定电路，被配置为从一组裁剪拐角坐标确定在裁剪内限定的第一2D坐标系的坐标与针对第二图像限定的第二2D坐标系的坐标之间的单应性(homography)；特征确定电路，被配置为从单应性、从表示针对场景限定的三维(3D)坐标系与针对第一图像限定的第一2D坐标系之间的关系的摄像机矩阵、以及从限定场景的3D坐标系中的场景的特征的场景的虚拟3D图(map)来确定虚拟摄像机的视场内的场景的虚拟3D图的特征；图形生成器电路，被配置为从确定的虚拟3D图的特征生成图形；以及图形叠加电路，被配置为将生成的图形叠加在第二图像上。

前述段落被提供用于一般性介绍，并不旨在限制下述权利要求的范围。通过参考以下结合附图的详细描述将更好地理解所描述的实施方式和另外的优点。

附图说明

当结合附图考虑时，通过参照以下示例性实施方式的详细描述，本发明更全面的理解及本发明容易获得的其伴随的优点将会变得更好理解，在附图中

图1示出了通过摄像机捕获的原始图像的裁剪；

图2示出了从裁剪生成的放大图像；

图3示出了裁剪的拐角点；

图4示出了根据实施方式的虚拟摄像机裁剪生成器；

图5示出了根据实施方式的屏幕标记器；

图6示出了场景的虚拟3D图；

图7示出了应用了屏幕标记器特征的放大图像；

图8示出了用于操作屏幕标记器的处理；

图9示出了用于控制放大图像的生成的方法；

图10示出了其中逐渐改变用于生成放大的图像的虚拟摄像机的偏转(yaw)、俯仰(pitch)、横滚(roll)和缩放(zoom)的处理；

图11示出了其中记录虚拟摄像机的运动序列的方法；

图12示出了表示记录的虚拟摄像机的运动序列的数据；

图13示出了其中生成原始图像的多个裁剪的布置；

图14示出了分别从生成自多个裁剪的多个放大图像生成的图像；

图15示出了其中多个虚拟摄像机裁剪生成器和屏幕标记器与图像组合单元平行使用的布置；

图16示出了用于校准摄像机矩阵的过程；

图17示出了用于执行在摄像机矩阵的校准中使用的点匹配处理的用户界面的实例；

图18A至图18D示出了超高清晰度图像上的特定点和在这样的图像上的阴影的效果；以及

图19示出了存储在屏幕标记器内的存储。

具体实施方式

本发明的实施方式提供一种用于将图形叠加在从场景的第一图像的裁剪生成的第二图像上，该裁剪表示虚拟摄像机的视场，该设备包括：接收器电路，被配置为接收第二图像和一组裁剪拐角坐标，每个裁剪拐角坐标给出了针对第一图像限定的第一二维(2D)坐标系中的裁剪的拐角点的位置；单应性确定电路，被配置为从该组裁剪拐角坐标确定在裁剪内限定的第一2D坐标系的坐标与针对第二图像限定的第二2D坐标系的坐标之间的单应性；特征确定电路，被配置为从单应性、从表示针对场景限定的三维(3D)坐标系与针对第一图像限定的第一2D坐标系之间的关系的摄像机矩阵以及从在场景的3D坐标系中限定场景的特征的场景的虚拟3D图来确定虚拟摄像机的视场内的场景的虚拟3D图的特征；图形生成器电路，被配置为从确定的虚拟3D图的特征生成图形；以及图形叠加电路，被配置为将生成的图形叠加在第二图像上。

有利地，通过第一图像的第一2D坐标系中的裁剪拐角坐标的使用确定单应性，减少了在第二图像中确定从其生成图形的场景的虚拟3D图中的特征的处理的量。

在一些实施方式中，设备包括点选择电路，该点选择电路被配置为接收针对第一图像限定的第一2D坐标系中选择的单个点，并从所选择的点确定虚拟摄像机的偏转、俯仰和横滚，该单个点限定裁剪内的点。

有利地，这为用户提供了一种容易且便利的方法以选择虚拟摄像机的偏转、俯仰和横滚。

在一些实施方式中，在选择单个点和/或虚拟摄像机的焦距时，虚拟摄像机的偏转、俯仰、横滚和/或焦距是逐渐改变的，直至到达与单个点相关联的偏转、俯仰和/或横滚和/或到达所选择的焦距；并且随着虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变，以预定帧速率连续接收多个第二图像和各组裁剪拐角坐标。

有利地，这允许在虚拟摄像机的偏转、俯仰和横滚上的改变模仿真实摄像机在摇摄穿过场景时的改变，使得对于用户来说观看更加自然和舒服。

在一些实施方式中，通过由用户可选的阻尼系数确定虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变的速度。

有利地，这给了用户对虚拟摄像机的加强的创造性控制。

在一些实施方式中，根据预定的虚拟摄像机运动序列控制虚拟摄像机的偏转、俯仰、横滚和/或焦距，通过选择单个点、焦距和/或阻尼系数的时间序列限定虚拟摄像机运动序列。

有利地，这允许用户响应于需要拍摄的场景中的某个事件迅速地选择虚拟摄像机的适当的运动序列。

在一些实施方式中，同时接收多个第二图像和各组裁剪拐角坐标；与第二图像中的第一个相关联的虚拟摄像机的偏转、俯仰、横滚和/或焦距不同于与第二图像中的第二个相关联的虚拟摄像机的偏转、俯仰、横滚和/或焦距；并且该设备包括图像组合电路，被配置为将第二图像的第一个与第二图像的第二个组合以形成第三图像。

有利地，这允许从原始图像拍摄场景的多个放大图像并且用于创建组合图像，因此允许用户增加产品价值。

在一些实施方式中，与第二图像中的第一个相关联的虚拟摄像机的偏转、俯仰、横滚和/或焦距和与第二图像中的第二个相关联的虚拟摄像机的偏转、俯仰、横滚和/或焦距使得与第二图像中的第二个相对应的裁剪处于与第二图像中的第一个相对应的裁剪内。

有利地，这允许组合图像以缩放/放大部分为特征，因此允许用户增加产品价值。

在一些实施方式中，设备包括用于使用所接收的第二图像确定摄像机矩阵的校准电路，该校准电路被配置为：将场景的虚拟3D图的多个特征中的每一个与第二图像中的各个真实图像特征相关联，并且确定第二图像的第二2D坐标系中的每个真实图像特征的位置；使用单应性确定第一图像的第一2D坐标系中的每个真实图像特征的位置；并且从第一图像的第一2D坐标系中的每个真实图像特征的位置和场景的虚拟3D图中的每个相应的特征的3D位置来确定摄像机矩阵。

有利地，这就通过能够将第二图像中的图像特征与场景中的对应特征匹配而允许更加精确的确定摄像机矩阵。因为第二图像是第一图像的放大版本，故待匹配的图像特征被更加详细地呈现给用户。

现在参照附图，贯穿几个视图，其中相同的参考标号指代相同或者相应的部分。

图1示出了已用摄像机捕获的足球场的图像100。还示出了图像的部分或裁剪105。图像的裁剪105可以被拍摄并且在电视等上显示为放大图像。图像100可具有任何适合的分辨率。例如，图像100可具有4k或8k的超高清晰度(UHD)分辨率。

图2示出了从裁剪105生成的放大图像200。裁剪105具有表示摇摄穿过图像100的虚拟摄像机的视场的形状。然后将裁剪105的像素的值映射到预定的矩形像素布置以便获得放大图像200。这意味着放大图像200的透视角被校正，以看起来像是使用摇摄穿过真实场景的真实摄像机捕获的。放大图像200可具有任何适合的分辨率。例如，放大图像可具有高清晰度(HD)分辨率。

在对比文件1中详细地描述了其中生成裁剪105的形状和放大图像200的方式，通过引用将其全部内容结合于此。

为了使屏幕标记器能够在从裁剪105生成的放大图像上电子地绘制图像，该图像基于真实3D场景中的特征，屏幕标记器必须能够将真实的3D场景中的特征映射成从裁剪105形成的场景的2D放大图像200中的特征。在本发明的实施方式中，这是通过在屏幕标记器校准处理中，首先将真实3D场景中的3D坐标点映射成2D原始图像100中的2D坐标点。场景中的3D点到场景的图像中的2D点的映射是本领域众所周知的，并且通常包括将所谓的投影矩阵(还被称为摄像机矩阵)应用到3D坐标点位置以获得对应的2D坐标点位置。摄像机矩阵包括控制2D缩放和居中的内部矩阵和一起指定捕获图像的摄像机的偏转、俯仰、横滚和平移的两个外部矩阵。分别限定内部矩阵和外部矩阵的内部参数和外部参数可使用本领域中已知的任何适合的方法来计算。例如，可使用直接线性转换(DLT)方法、Tsai算法或张的方法(Zhang’s method)用于确定内部参数和外部参数。在R.Y.Tsai的“An Efficient and Accurate Camera Calibration Techniquefor 3D Machine Vision”中描述了Tsai算法。1986年关于计算机视觉和模式识别的IEEE会议的会议记录的364至374页，通过引用将其全部内容结合于此。

一旦真实的3D场景的3D坐标点被映射成原始图像100中的2D坐标点，然后可使用原始图像100的2D坐标系中的裁剪105的拐角的位置依次将场景中的相关3D坐标点映射为针对放大图像200限定的不同的2D坐标系中的2D坐标点。这将从参照图3起更详细地进行描述。如将说明的，由于裁剪具有由于透透视角校正导致的非矩形形状，因而不能将针对原始图像100限定的2D坐标系直接用于放大图像200，故使用裁剪105的拐角点的额外的映射处理是必需的。

只要屏幕标记器被正确地校准(随后将对其进行说明)，那么这个映射就能被屏幕标记器使用，以便在放大图像200上电子地绘制虚拟图像。即，场景的虚拟3D图中生成的图像特征可适当被映射至放大图像200中的像素位置。场景的虚拟3D图是由在场景的3D坐标系中限定的图形图像特征组成的。

图3示出了图1的图像100和裁剪105。然而，现在可以看出已针对图像100限定了2D坐标系，并且已标记了裁剪105四个拐角点A、B、C和D的坐标。具体地，拐角点A具有2D坐标系中的位置(x_A，y_A)，拐角点B具有位置(x_B，y_B)，拐角点C具有位置(x_C，y_C)并且拐角点D具有位置(x_D，y_D)。在这个实例中，2D坐标系已被实施使得矩形图像100在x方向上从-1延伸至+1并且在y轴方向上从–a延伸至+a(其中，a＝图像高度/图像宽度)。当然，可使用任何其他适合的界限，诸如坐标在x方向和y方向均从-1延伸至+1。

因此，有利地，在实施方式中，为了使屏幕标记器知道将从场景的虚拟3D图生成的虚拟图像定位在放大图像200上的何处所需要的是在捕获的图像100的预定2D坐标系中的拐角点A、B、C和D的坐标位置。在裁剪105的生成过程中必然生成这些拐角坐标位置。具体地，如权利要求1中公开的，为了生成裁剪105，根据虚拟摄像机的偏转、俯仰、横滚和缩放来变换预定的矩形平面，以便参照针对场景的图像限定的2D坐标系来限定裁剪105的形状和位置。这个预定矩形平面的拐角的变换的坐标将会是图3中示出的拐角A、B、C和D的坐标位置。

拐角坐标位置能够以虚拟摄像机的放大图像200的每个帧由的屏幕标记器接收。例如，坐标位置(x_A，y_A)、(x_B，y_B)、(x_C，y_C)和(x_D，y_D)可被包括在放大的视频图像200的视频数据包的辅助数据中。可替换地，坐标位置可单独接收到放大视频图像数据。例如，这可以经由以太网连接。当然，可使用任何适合的方法将坐标位置传输到屏幕标记器。

图4示出了用于从最初捕获的图像100生成透视角校正的放大图像200的虚拟摄像机裁剪生成器400。通过裁剪生成器400将放大图像200作为视频馈送(video feed)输出。裁剪生成器400是如对比文件1中所公开的。此外，生成器输出拐角点A、B、C和D的坐标位置(x_A，y_A)、(x_B，y_B)、(x_C，y_C)和(x_D，y_D)(这些还可以被简单地称为拐角坐标)。裁剪生成器400能够执行这个是因为通过屏幕标记器应用于图像100的2D坐标系还通过裁剪生成器应用于图像100。换言之，在图像100上实施的2D坐标系在裁剪生成器400与屏幕标记器之间是同步的。

图5示出了根据实施方式的屏幕标记器500。屏幕标记器500包括用于接收来自虚拟摄像机裁剪生成器400的视频馈送的视频馈送接收器502。所以放大图像200是通过视频馈送接收器502接收的。屏幕标记器还包括拐角坐标接收器504。拐角坐标接收器接收裁剪105的拐角A、B、C和D的拐角坐标。在实施方式中，将理解的是视频馈送接收器502和拐角坐标接收器504可包括在单个的接收器内而不是作为两单独的接收器，如图5中所示。

当接收放大图像200和对应组的拐角坐标时，拐角坐标被传送到单应性确定单元506。单应性确定单元506从针对裁剪拐角A、B、C和D的拐角坐标确定裁剪105内限定的原始图像100的2D坐标点的组与针对放大图像200限定的不同的2D坐标系中的限定的2D坐标点的组之间的单应性。针对放大图像200限定的2D坐标系可被用于限定放大图像200的像素位置。

2D裁剪坐标与2D放大图像坐标之间的单应性是基于将拐角坐标A、B、C、D与限定放大图像200的2D坐标系中的放大图像200的拐角的坐标相匹配。因此，例如，如果放大图像200是全HD图像和放大图像坐标系，相应地，在x方向上从0延伸到1920并且在y方向上从0延伸到1080，将建立单应性使得拐角点A与点(0，1080)相匹配，点B与点(1920，1080)相匹配，点C与点(1920，0)相匹配，并且点D与点(0，0)相匹配。可以使用任何适合的单应性。例如，可以使用最小平方误差极小化方法，以便找到将四个拐角A、B、C、D映射到放大图像200的拐角的单应性的参数。单应性的方法是本领域众所周知的，因此这里不详细论述。

然后将在裁剪105内的2D坐标与放大图像200的2D坐标之间建立的单应性传送到特定的屏幕标记器特征确定单元508。这里，基于单应性并且基于在场景的3D坐标与原始图像100的2D坐标之间的对应性(如通过摄像机矩阵确定)来确定专用于放大图像200的屏幕标记器特征。这可能因为屏幕标记器特征现在可直接地与放大图像200的2D坐标系相关联，该屏幕标记器特征被限定为场景的3D坐标系中的图形特征以便形成场景的虚拟3D图。接着，这允许屏幕标记器特征直接与放大图像200中的像素相关联。场景的虚拟3D图和摄像机矩阵是通过特定的屏幕标记器特征确定单元508而从存储器510获得的。如以后将描述的，场景的虚拟3D图和摄像机矩阵的确定是作为屏幕标记器的校准处理的一部分执行的。

如已提及的，场景的虚拟3D图包括场景的3D坐标系中的虚拟图形。这些图形可表示原始图像100中已捕获的场景。这个的实例在图6中示出，其中已产生在图像100中捕获的场景的虚拟3D图600。可以看出这个图包括足球场的虚拟球场线602。在这个实例中，虚拟球场线602将足球场限定为具有x-y平面的共平面。图还包括限定足球场的球门的形状的虚拟线604。

一旦已通过特定的屏幕标记器确定单元508针对放大图像200确定了特定的屏幕标记器特征，视情况对特定的屏幕标记器特征进行变换(首先，利用摄像机矩阵从场景的3D坐标系到原始图像100的2D坐标系，并且其次，利用拐角匹配单应性从原始图像100的2D坐标系到放大图像200的2D坐标系)并通过特定的屏幕标记器应用单元512将其叠加在放大图像200上(如从视频馈送接收器502接收的)。换言之，将特定的屏幕标记器特征应用于放大图像200。

这在图7中示出，其中与放大图像200有关的足球场的虚拟球场线602和限定足球场的球门的虚拟线604已经被叠加到放大图像200上。虚拟线602、604可被看作比在放大图像200(参见图2)中捕获的真实球场线路粗的线。应注意，因为在放大图像200中球门的没有网700的虚拟表示存在于虚拟3D图600中，所以没有网700的虚拟表示被重叠在放大图像200上。

然后通过特定的屏幕标记器特征应用单元512将处理的放大图像200输出作为视频馈送的一部分。

由控制器514控制屏幕标记器的操作。

将理解的是，虚拟3D图可包括操作者会想要作为特定屏幕标记器特征叠加在放大图像200上的任何适合的虚拟图形特征。例如，虚拟3D图可包括团队标识语、球场周围体育场的特征、足球比赛期间具体参与者的位置、足球比赛期间球的位置等。一旦这些特征已建立在虚拟3D图上，然后可以使用摄像机对它们进行变换并叠加在放大图像200上。在实施方式中，虚拟3D图可实时更新，使得诸如具体运动员的位置和球的位置的特征在相关图形被叠加在放大图像200上之前最新的。

有利地，本发明的实施方式在没有由必须通过屏幕标记器处理的虚拟摄像机裁剪生成器400使用的特定参数的情况下，允许使用屏幕标记器500处理虚拟摄像机裁剪生成器400生成的放大图像200。如对比文件1中公开的，由生成器400使用的特定参数包括关于预定图像平面具体限定的虚拟摄像机的偏转、俯仰、横滚和缩放，并且对于屏幕标记器500很难直接使用这些参数确定哪个虚拟3D图的屏幕标记器特征是与具体的放大图像200相关。这导致了对于通过屏幕标记器500深入处理特定参数的需要。另一方面，在本发明的实施方式中，所有需要的是生成器400和屏幕标记器500知道图像100的共同的2D坐标系以及将裁剪105的四个拐角坐标传输到屏幕标记器500。四个拐角坐标对于屏幕标记器500来说更容易处理，因为唯一必需的处理是在裁剪105的2D坐标与放大图像200的2D坐标之间的单应性的建立。这个处理器深度更低。

图8示出描述根据实施方式的通过其屏幕标记器500将特定屏幕标记器特征应用到放大图像的处理的流程图。该处理开始于步骤800。在步骤802，屏幕标记器接收放大图像200和从其生成放大图像200的裁剪105的拐角坐标。在步骤804，拐角坐标被用于确定在裁剪105内限定的2D坐标与放大图像200的2D坐标之间的单应性。在步骤806，确定单应性，连同场景的虚拟3D图和摄像机矩阵一起被用于确定放大图像200的特定屏幕标记器特征。然后，在步骤808，确定的特定屏幕标记器特征被应用于放大图像。然后方法结束于步骤810。

在通过屏幕标记器500处理放大图像200之前，必须首先根据屏幕标记器操作者的希望通过屏幕标记器获得放大图像200。换言之，屏幕标记器操作者必须能够控制虚拟摄像机的偏转、俯仰、横滚和焦距以获得他们想要的放大图像200。在实施方式中，这是通过为屏幕标记器操作者提供用于选择他们希望虚拟摄像机指向的场景的一部分以及选择虚拟摄像机的焦距(或缩放水平)的手段来实现。具体地，参考回图3，屏幕标记器操作者可选择位于场景的原始图像100上的点P，点P指示屏幕标记器操作者希望虚拟摄像机指向的图像100的一部分。点P限定了从其生成放大图像200的裁剪105内的点。在这个实例中，点P表示裁剪105的中心。屏幕标记器还可以选择虚拟摄像机的缩放水平。缩放水平表示裁剪105的尺寸。可使用任何适合的方法通过屏幕标记器选择点P和虚拟摄像机的缩放水平。

图9示出了其中根据实施方式可通过屏幕标记器操作者确定点P和缩放水平的方式。这里，触摸屏平板电脑900(还被简称为平板电脑)被用于将图像100显示给操作者。平板电脑900的实例是索尼平板电脑Z。平板电脑900具有与屏幕标记器500和/或虚拟摄像机裁剪生成器400相连接的数据。这个数据连接可以是任何适合的有线或无线连接(例如，Wi-Fi或无线移动连接)。

图像100被显示在平板电脑的屏幕902上。为了选择点P，操作者简单地利用他们的手指904在图像上的期望的点处触摸屏幕902。然后平板电脑900处理这个输入并且在图像上限定的2D坐标系上确定由(x_P，y_P)给出(如参考图3描述的)的点P的位置。

操作者还可以使用滑杆906确定虚拟摄像机的缩放。具体地，用户将滑动标记908的位置向着加号标记910移动以放大(增大虚拟摄像机的焦距并使裁剪105更小)并且向着减号标记912移动以缩小(减少虚拟摄像机的焦距并使裁剪更大)。

然后将所选择的位置P和虚拟摄像机缩放传输到虚拟摄像机裁剪生成器400。这里，裁剪生成器400确定虚拟摄像机的偏转、俯仰和横滚并从这些值和缩放水平计算裁剪105的针对拐角A、B、C和D的拐角坐标。然后通过裁剪生成器400将放大图像200和拐角坐标以先前描述的方式输出到屏幕标记器。使用任何适合的方法从点P确定虚拟摄像机的偏转、俯仰和横滚。

例如，在实施方式中，当用户选择点P时，点P的坐标可以被确定为：

图像焦距是以其捕获原始图像100的焦距，并且在此以单位进行限定，使得90度的视场与焦距1相对应。

然后虚拟摄像机的俯仰由以下等式给出：

然后这个可被用来计算虚拟摄像机俯仰矩阵：

然后通过俯仰矩阵将针对点P限定的坐标变换为给定的P′：

P′＝P_V*P

可以从P’的x坐标计算虚拟摄像机的偏转θ_V：

然后可使用对比文件1中先前限定的的横滚等式来设定横滚。即，虚拟摄像机的横滚ρ_V可使用以下等式计算：

其中限定围绕预定摄像机俯仰轴捕获场景的摄像机的俯仰角并且ρ_rig限定围绕预定摄像机横滚轴捕获场景的摄像机的横滚角，预定的第一摄像机俯仰轴和横滚轴限定场景中的水平面(再次，参见对比文件1)。

因此，从点P确定虚拟摄像机偏转、俯仰和横滚中的每一个。当还接收到虚拟摄像机的缩放水平时，裁剪生成器400因此能够生成裁剪105并且将对应的放大图像200和拐角坐标输出到屏幕标记器500。

在实施方式中，图像100可在显示给用户之前进行变换，以便改善图像的视觉特性并且因此使用户更容易地选择适当的点P。例如，从图像100的具体选择的裁剪生成的变换后的图像可显示给用户，具体选择的裁剪用作使足球场很好地构图在平板电脑900的屏幕902上。在这种情况下，将从具体的虚拟摄像机旋转矩阵V_基准生成裁剪。在选择选择点P的坐标可以被如所描述的处理之前，首先这个变换不能已完成。这是通过经由以下等式从坐标P获得中间值实现的：

P_中间＝V_基准*P

然后如下重新计算P_中间的x和y值：

然后，使用和的值用在代替以上等式中的P_x和P_y的值。

在实施方式中，随着屏幕标记器操作者改变点P的位置和/或虚拟摄像机的缩放，点P的最新位置和/或虚拟摄像机的最新缩放被传输到依次输出放大图像200和用于生成那个放大图像200的裁剪的拐角坐标的裁剪生成器400。裁剪生成器400可以以任何适合的预定帧速率输出放大图像200和拐角坐标，例如，24Hz、50Hz、60Hz、100Hz或200Hz的速率。然后由屏幕标记器500以如先前描述的方式处理每个放大图像200以便将特定屏幕标记器特征应用到放大图像200。然后将处理的放大图像200显示在显示器(未示出)上。在实施方式中，可实时处理并显示给操作者由裁剪生成器400生成的每个放大图像。有利地，这允许操作者获得从他们所选择的P和虚拟摄像机缩放水平生成的虚拟摄像机视图的实时反馈。

在实施方式中，当通过操作者选择点P的新位置时，虚拟摄像机的偏转、俯仰和横滚可从当前偏转、俯仰和横滚逐渐改变成由重新选择的点P所确定的目标偏转、俯仰和横滚。经由阻尼系数的使用，这个逐渐改变是可行的，如在对比文件1中所描述的，并且给出从虚拟摄像机的视场生成的，实际上是从真实摄像机摇摄穿过场景生成的放大图像200的幻影。有利地，这是为了使用户更加舒服的观看放大图像200。

在实施方式中，随着逐渐改变虚拟摄像机的偏转、俯仰和横滚，中间放大图像200和拐角坐标可由裁剪生成器400生成并且以预定帧速率输出至屏幕标记器500并且进行处理。这允许随着虚拟摄像机的偏转、俯仰和横滚逐渐改变时，显示具有应用于他们的特定屏幕标记器特征的中间放大图像200。一旦到达对应于点P的偏转、俯仰和横滚，然后虚拟摄像机将持续具有这个相同的偏转、俯仰和横滚直至确定新的点P。另一方面，如果在虚拟摄像机偏转、俯仰和横滚逐渐改变至所选择的点P期间，选择了新的点P，然后目标偏转、俯仰和横滚将改变成对应于新的点P的那些并且虚拟摄像机的偏转、俯仰和横滚将逐渐向着这些新的目标值改变。

在实施方式中，屏幕标记器操作者可能想要增加或减少用于虚拟摄像机的偏转、俯仰和横滚到达新选择的点P确定的值所花费的时间的量。换言之，操作者可能希望改变由虚拟摄像机裁剪生成器400实施的阻尼系数。这可以以允许新的阻尼系数被通信至裁剪生成器400的任何适合的方式实现。作为实例，在图9中，可以看出平板电脑900的界面包括阻尼滑动条914。这允许操作者实时确定需要的阻尼水平。为了增加阻尼系数(从而增加对于虚拟摄像机到达由P确定的目标偏转、俯仰和横滚所花费的时间)，操作者向着加号标记918移动滑动标记916的位置。另一方面，为了减少阻尼系数(从而减少虚拟摄像机到达由点P确定的目标偏转、俯仰和横滚所花费的时间)，操作者向着减号标记920移动滑动标记196的位置。

因此，在实施方式中，操作者有利地具有在虚拟摄像机的位置上的优异的控制能力。具体地，操作者可以容易地确定虚拟摄像机的适合的偏转、俯仰和横滚，虚拟摄像机的适合的焦距以及针对虚拟摄像机的适合的阻尼系数。

在迄今为止描述的实施方式中，显示在平板电脑900上的图像100是由真实的摄像机捕获的场景的实况视频图像。这可以由虚拟摄像机裁剪生成器400输出并且被传输到平板电脑。可替换地，简单化地替代，可以利用平板电脑900使用在原始图像100的2D坐标系中的球场线的静止图像。有利地，这仍然允许用户准确地选择点P的位置，但当与将实况视频图像100传输到平板电脑900相比时减少了所使用的频带宽度的量。

图10示出了流程图，该流程图示出了屏幕标记器操作者确定虚拟摄像机的偏转、俯仰和横滚的处理。该处理开始于步骤1000。在步骤1002，确定针对最初捕获的图像100限定的2D坐标系中的点P的位置。在步骤1004，点P的坐标被传输到虚拟摄像机裁剪生成器400。在步骤1006，裁剪生成器将虚拟摄像机的偏转、俯仰和横滚逐渐改变成由点P确定的目标偏转、俯仰和横滚。随着偏转、俯仰和横滚逐渐改变，屏幕标记器接收并处理由裁剪生成器以预定帧速率传输的中间的新的放大图像200的视频馈送和拐角坐标。

在步骤1008，确定是否已确定了点P的新位置。如果点P的新位置已确定，然后处理回到步骤1004，其中新的P位置的坐标被传输到虚拟摄像机裁剪生成器400。另一方面，如果没有确定新的点P，那么处理移动到步骤1010。

在步骤1010，对应于点P确定是否已到达虚拟摄像机的偏转、俯仰和横滚。如果它们已到达，那么处理结束于步骤1012。另一方面，如果它们没有到达，那么处理移动回步骤1006，其中虚拟摄像机的偏转、俯仰和横滚继续逐渐改变。

在图10的流程图中，没有具体提及虚拟摄像机的焦距(缩放)。然而，将理解的是虚拟摄像机的焦距可由操作者(使用，例如，滑动条906)有规律地改变。因此，在实施方式中，将虚拟摄像机的焦距的任何更新传输到虚拟摄像机裁剪生成器400以便因此允许放大图像200和拐角坐标更新。

此外，在实施方式中，与改变至点P的位置相似，至虚拟摄像机缩放的任何改变还可经由阻尼系数经受衰减。有利地，这使得虚拟摄像机的焦距上的改变(由此放大图像200的缩放的水平)对于用户来说看起来更加自然和舒服。在这种情况下，将逐渐应用虚拟摄像机的焦距的改变直至满足目标焦距值。

屏幕标记器操作者可能想要记录某个虚拟摄像机运动序列，使得相同顺序可被多次使用。例如，当使用虚拟摄像机捕获足球比赛的放大图像时，操作者可能希望具有一个或多个预定的虚拟摄像机运动序列，诸如从足球场的球门中的一个到全部场景的广角视图的慢摇摄和缩小拍摄，例如。本发明的实施方式提供其中使虚拟摄像机运动序列能够记录和回放的方法。

图11示出了流程图，该流程图示出了根据实施方式通过其记录虚拟摄像机运动序列的处理。处理开始于步骤1100。在步骤1102，接收开始记录虚拟摄像机运动序列的命令。在实施方式中，这可以由屏幕标记器操作者触摸平板电脑900的屏幕上的记录按钮922发出，如图9中示出的。一旦已发出开始记录的命令，点P的当前位置、虚拟摄像机的当前焦距以及当前阻尼系数被记录为记录的计时起点时的点P位置、焦距和阻尼系数值。在这种情况下，如果虚拟摄像机的偏转、俯仰、横滚和/或焦距仍逐渐改变以满足由选择的P的位置和焦距确定的目标值，然后虚拟摄像机裁剪生成器400可暂时忽视阻尼系数并且建立虚拟摄像机的目标偏转、俯仰、横滚和焦距，使得可以开始记录处理。

然后处理继续到步骤1106。这里，确定是否已由操作者选择了P的新位置。如果已选择了P的新位置，那么处理进行到步骤1108，其中记录P的新位置和选择P的新位置的时间。然后处理进行到步骤1110上。另一方面，如果没有选择P的新位置，那么处理直接进行到步骤1110。

在步骤1110，确定用户是否已选择了虚拟摄像机的新焦距。如果已选择了新焦距，那么处理进行到步骤1112，其中记录新的焦距和选择新焦距的时间。然后处理进行到步骤1114上。另一方面，如果没有选择新焦距，那么处理直接进行到步骤1114。

在步骤1114，确定用户是否选择了新的阻尼系数。如果已选择了新阻尼系数，那么处理进行到步骤1116，其中记录新的阻尼系数和选择新阻尼系数的时间。然后处理进行到步骤1118上。另一方面，如果没有选择新的阻尼系数，那么处理直接进行到步骤1118。

在步骤1118，确定是否已接收到记录停止命令。在实施方式中，可通过操作者再次触摸屏幕上的记录按钮922发出记录停止命令。如果没有接收到记录停止命令，那么处理返回到步骤1106。另一方面，如果已接收到记录停止命令，那么处理进行到步骤1120上，其中记录接收到记录停止命令的时间。然后处理结束于步骤1122。

一旦虚拟摄像机运动序列的记录结束，以任何适合的形式电子地存储该序列。例如，序列可存储在表1200中，如在图12中示出的。这里，可以看到四个单独时间。应注意，在实施方式中序列可存储在与平板电脑900相关联的存储介质(未示出)中。

第一个时间是计时起点，即，继由用户发出记录起动命令之后，在该时间处记录被定义为已经开始进行。这里，记录发出记录起动命令时由用户选择的P位置、虚拟摄像机焦距和阻尼系数。应注意，尽管虚拟摄像机焦距是以mm毫米为单位给出的，但这是为了易于理解。实际上，如上所述，焦距可以以其中1焦距对应于90度视场的单位给出。

第二个时间是从发出记录起动命令时间起的3秒又百分之12秒。已记录这个第二时间，因为用户同时已确定新P位置和新的焦距。因此，连同新的P位置和焦距一起记录新时间。

第三个时间是从发出记录起动命令时间起的5秒又百分之56秒。再次，已记录这个第三时间，因为用户同时确定了新的P位置和新的焦距。

第四个时间是从发出记录起动命令时间起的7秒又百分之28秒。这里，尽管P位置没有改变，但已记录这个第四时间，因为用户同时确定了新的焦距和新的阻尼系数。

最终，从发出记录起动命令的时间起的10秒又百分之14秒的第五个时间，用户发出了记录停止命令。因此，针对P位置、虚拟摄像机焦距和阻尼系数中的每一个记录虚拟摄像机运动序列结束的标记标识符。这表示虚拟摄像机运动序列的记录已完成。

在实施方式中，当用户希望使用记录的虚拟摄像机运动序列时，他们使用平板电脑900的适合的屏幕上的界面从与平板电脑900相关联的存储介质选择记录序列1200。可使用任何适合的屏幕上界面。对于图9中示出的平板电脑，可以看出设置有四个屏幕上的序列快捷按钮924。这些中的每一个将与预先记录的虚拟摄像机运动序列相关联。因此用户通过选择适当的序列快捷按钮924选择四个预先记录的虚拟摄像机运动序列中的一个。

一旦选择了预先记录的虚拟摄像机运动序列1200，则将序列1200传输到虚拟摄像机裁剪生成器400。尽管其未被示出，但虚拟摄像机裁剪生成器400包括其中存储了接收运动序列表1200的存储介质。此外，虚拟摄像机裁剪生成器400包括运动序列控制单元(同样未示出)，该运动序列控制单元控制裁剪生成器400，以根据运动序列1200中记录的在每个时间值上的P位置、虚拟摄像机焦距和阻尼系数顺序地输出的放大图像200和拐角坐标。换言之，一旦针对新的P位置、虚拟摄像机焦距和阻尼系数的记录时间过去，序列1200中的新的P位置、虚拟摄像机焦距和阻尼系数记录的时间仅通过运动序列控制单元成为对于虚拟摄像机裁剪生成器400是可用的。

因此，在实施方式中，当由用户选择预先记录的虚拟摄像机运动序列时，运动序列1200被传输至虚拟摄像机裁剪生成器400，然后其根据运动序列的时刻将放大图像200和拐角坐标输出到屏幕标记器500。

例如，如果图12中的运动序列是由用户选择的并且被传输到虚拟摄像机裁剪生成器400，然后，裁剪生成器400最初根据表1200中计时起点处记录的P位置和焦距输出放大图像200。

然后，在3秒又百分之12秒之后，虚拟裁剪生成器400的目标P位置和焦距被改变为针对表1200中的这个时间记录的P位置和焦距。因此裁剪生成器根据目标P位置和焦距逐渐改变虚拟摄像机的偏转、俯仰、横滚和缩放，在这个逐渐改变的过程中以预定帧速率将放大图像200和拐角坐标输出至屏幕标记器500。逐渐改变的速率是由针对这个时间所指定的阻尼系数确定的。

针对运动序列1200中的另一时刻重复这些步骤。即，每次运动序列控制单元认为运动序列中的下一个记录的时间已过去，则更新虚拟摄像机裁剪生成器400的目标P位置、焦距和阻尼系数，并且根据目标P、焦距和阻尼系数随着虚拟摄像机偏转、俯仰、横滚和缩放逐渐改变而将放大图像和拐角坐标以预定帧速率提供至屏幕标记器500。其继续直至停止时间过去(在图12的实例中，停止时间是10秒又百分之14秒)，在该点处，保持虚拟摄像机的当前偏转、俯仰、横滚和缩放。将保持虚拟摄像机的当前偏转、俯仰、横滚和缩放直至从屏幕标记器操作者接收到另一输入。

可以看出图12中示出的虚拟摄像机运动序列的结果是虚拟摄像机从足球场的左手侧逐渐摇摄到球场的中心，同时逐渐从远距摄影视图(长焦距)缩小成广角视图(短焦距)。在结束时间之前的最终时间记录处(即，在7秒又百分之28秒)还增加了阻尼系数，意味着虚拟摄像机的逐渐缩小向着序列的末端是缓慢的(注意，对于结束时间之前的两个最终时间记录，目标中心P位置不改变，而是其仅改变缩放)。

因此，有利地，在实施方式中，提供允许用户迅速地并方便地记录和重新使用虚拟摄像机的运动序列的界面。应注意虚拟摄像机裁剪生成器400的运动序列控制单元对运动序列数据1200的利用有效地将位置P、焦距和阻尼系数的更新值以预定时间间隔自动地提供到虚拟摄像机裁剪生成器400，如参考图10所论述的(具体地，步骤1008)。

在实施方式中，可使用一个以上的虚拟摄像机同时生成原始图像200的一个以上的裁剪105。这允许同时生成多个独立的放大图像200。每个放大图像200可利用虚拟摄像机的不同的偏转、俯仰、横滚和/或缩放生成，从而允许在不同的放大图像200内捕获场景的不同区域。然后每个不同的放大图像200可通过屏幕标记器以先前所描述的方法进行处理。有利地，这给用户使用具有应用于这些图像中的每一个的屏幕标记器特征的场景的多个图像的选择，增加了捕获的视频镜头的产品价值。

在图13中给出其中可使用多个虚拟摄像机的方法的实例。这里，可以看出原始图像100的第一裁剪105A已经由具有第一偏转、俯仰、横滚和缩放的第一虚拟摄像机的使用而被创建。此外，原始图像100的第二裁剪105B已经由具有第二偏转、俯仰、横滚和缩放的第二虚拟摄像机的使用而被创建。可以看出，由于第二虚拟摄像机具有比第一虚拟摄像机更大的缩放，所以第二裁剪105B比第一裁剪105A更小。还可以看出，已相对于第一摄像机的偏转、俯仰和横滚选择了第二摄像机的偏转、俯仰和横滚，使得第二裁剪105B在第一裁剪与105A内部。

这种布置的结果是捕获了场景的相同的区域的两个单独的放大图像200，并且一个图像(即，从第二裁剪105B生成的放大图像200)放大超过另一个(即，从第一裁剪105A生成的放大图像200)。然后两个图像可组合使用以增加捕获的连续镜头(footage)的产品价值。在图14中给出了这个实例。这里，可以看出从第二裁剪105B生成的第二放大图像200B已叠加在从第一裁剪105A生成的第一放大图像200A的上面，作为组合图像。具体地，第二放大图像200B提供重叠在由第一放大图像200A提供的足球场的广阔图像上的运动员1400的放大图像。还示出了重叠的第二放大图像200B周围的放大镜的成像效果1405，给图像组合增加了另外的产品价值。

强调的是在图14中示出的图像组合仅是实例。在实施方式中，可组合使用任何数量的虚拟摄像机裁剪生成器400和屏幕标记器500以便创造可以以任何方式结合和操纵的相对应数量的放大图像200。在图15中示出了用于产生这样的图像组合的一般系统。这里，可以看出位置P和焦距FL被输入到多个裁剪生成器400中的每一个中。然后每个裁剪生成器400将放大图像200和拐角坐标输出到相应的屏幕标记器500。如果合适的话，那么每个屏幕标记器500将特定的屏幕标记器特征应用到其相应的图像。然后将具有应用了屏幕标记器特征的多个放大图像供应至图像组合单元1500。图像组合单元1500以用户确定的任何适合的方式组合放大图像200并且酌情将另外的成像效果添加到组合的图像(例如，可通过图像组合单元1500加入图14中的放大镜成像效果1405)。最终，通过图像组合单元1500输出具有应用了适当的成像效果的组合图像。

如已经提及的，在实施方式中，为了将特定屏幕标记器特征应用到接收的放大图像200，屏幕标记器将在场景的3D图中建立的图形特征变换并且将这些图形特征作为屏幕标记器特征映射到放大图像200的像素。这通过摄像机矩阵是可行的，该摄像机矩阵限定了场景的3D坐标系与原始图像200的2D坐标系之间的关系；并且通过在由原始图像200的裁剪105限定的2D坐标与放大图像200的2D坐标之间建立的单应性是可行的。在屏幕标记器的校准处理处理期间确定场景的虚拟3D图和虚拟摄像机矩阵。

图16示出了其示出根据实施方式的屏幕标记器校准处理的流程图。

处理开始于步骤1600。在步骤1602，在最初捕获的图像100的2D坐标系上确定点P的位置。注意，为了进行校准处理，必须已捕获原始图像100并且2D坐标系必须已应用于这个图像。虚拟摄像机裁剪生成器400和屏幕标记器500两者均能够参考2D坐标系。

一旦已确定点P的位置，将点P的位置从屏幕标记器500传输到虚拟摄像机裁剪生成器400。这里，裁剪生成器400利用P的位置确定虚拟摄像机的偏转、俯仰和横滚并且利用确定的虚拟摄像机的偏转、俯仰和横滚产生放大图像200和拐角坐标。如早先所描述的，从P的位置确定虚拟摄像机的偏转、俯仰和横滚并且从虚拟摄像机的偏转、俯仰和横滚确定拐角坐标。还应注意的是虚拟摄像机的缩放水平还将利用步骤1602中的点P的位置生成并且在步骤1604将点P的位置传输到裁剪生成器400以便从裁剪105生成放大图像200和拐角坐标。

在步骤1606，屏幕标记器500接收放大图像200和拐角坐标。然后，在步骤1608，拐角坐标用于确定在由裁剪所限定的2D坐标与放大图像的2D坐标之间的单应性。

因此，到目前为止，屏幕标记器知道在裁剪105的2D坐标与放大图像200的2D坐标之间的单应性。然而，如已经提及的，为了能够将特定的屏幕标记器特征应用到从虚拟摄像机生成的放大图像200，屏幕标记器500必须能够参考场景的虚拟3D图(其将包含可变换并叠加在放大图像200上的图形特征)并且能够知道用于使场景的3D坐标与原始图像100中的2D坐标相关的摄像机矩阵。

因此处理进行到步骤1610上，其中利用场景中存在的已知特征与在步骤1606中同拐角坐标一起接收的放大图像200执行点匹配处理。参考图17说明实施方式中的点匹配处理。

图17再次示出了可以与虚拟摄像机裁剪生成器400和屏幕标记器500一起使用的平板电脑900。这里，平板电脑900用于执行步骤1610的屏幕标记器校准处理。特定地，在平板电脑屏幕902上示出的是接收的放大图像200和足球场的模型图像1700。足球场模型图像1700包括已知存在于所有专业水平的足球场中的几个特征。具体地，模型图像1700包括足球场的标准线。校准处理的目的是包括场景的虚拟3D图中的这些标准特征。在实施方式中，这是通过将模型图像1700中的特征与放大图像200中捕获的真实特征相匹配来实现的。

这个匹配是通过用户首先指出场景中真实足球场的长度和宽度而实现的。这对于保证场景的最终虚拟3D图是精确的是必需的，因为不同的足球场的长度和宽度是变化的。用户可使用文本框1704输入球场的长度并且可使用文本框1706输入球场的宽度。长度和宽度必须以预定的单位输入(诸如用户可选的英尺或公尺)并且可使用位于平板电脑900上的屏幕上的键盘(未示出)输入。

一旦输入了球场的长度和宽度，然后用户需要将被包括在模型图像1700中的标准特征1702A中的某些个匹配到在放大图像200中对应的真实特征1702B。这可以被称作点匹配处理。为了执行这个，用户选择通过使用他们的手指触摸模型图像1700的适当的部分选择模型图像1700的第一标准特征1702A(在这种情况下，球场的左上角)，然后，一旦选择了这个第一标准特征，用户触摸其中存在对应的真实特征1702B的放大图像的部分。然后用户针对第二、第三等标准特征进行这些处理直至模型图像1700中的足够数量的标准特征已与放大图像200中对应的真实特征相匹配，从而允许创建虚拟3D图。需要的匹配的标准特征的数量可随着用于生成虚拟3D图的算法而改变。

应注意，将仅允许用户选择已经针对选择预定模型图像1700上的标准特征。如果用户选择不与预先确定的标准特征相对应的模型图像1700上的点，那么将报告误差。可替换地，可以使用并突出最接近于所选择的点的预定标准特征。

对于模型图像1700与放大图像200上的匹配的标准特征中的每一个，包含相同数量的数量标记1708被放置在紧挨着模型图像1700和放大图像两者上的标准特征处。这允许用户从已与放大图像200匹配的模型图像1700的容易地识别标准特征并允许它们容易地校正所有错误。已分配的模型图像1700的标准特征的错误可通过再次触摸模型图像1700上的相关标准特征1702A并将其与放大图像200上的新位置1702B相匹配而简单地校正。

一旦需要的数量的标准特征已匹配，用户触摸屏幕上的按钮1710以完成校准处理。此时，处理继续前进到步骤1612。

这里，使用在放大图像200中标记的标准特征的位置和放大图像200和裁剪105的2D坐标之间确定的单应性，以确定原始图像100中标记的标准特征的位置。在这种情况下，例如，如果单应性是由单应性矩阵限定的，那么逆单应性矩阵将被用于将位于放大图像200上标记的标准特征的2D位置映射到原始图像100的坐标系中的2D位置。

接下来，在步骤1610中由用户输入的球场的尺寸被用于确定场景的3D坐标系中的球场的标准特征的位置(如球场线、拐角等)，由此确定场景的虚拟3D图。已知的原始图像100中标记的标准特征的2D坐标位置然后可以被映射到3D场景中的那些相同的特征的3D位置。这允许确定限定原始图像100的2D坐标系与场景的3D坐标系之间的关系的摄像机矩阵。如已提及的，摄像机矩阵可使用包括通过Tsai算法的任何适合的方法来确定。

因此，通过点匹配处理，可以确定限定原始图像100的2D坐标系与场景的3D坐标系之间的关系的摄像机矩阵。当摄像机矩阵同放大图像200的2D坐标与具体裁剪105的2D坐标之间确定的单应性结合使用时，可将场景的3D坐标系(形成场景的虚拟3D图)中确定的图形特征作为屏幕标记器特征应用到从原始图像100的裁剪105生成的任何放大图像200。场景虚拟3D图存储在屏幕标记器500的存储器510中使得当将特定屏幕标记器特征应用到具体的放大图像200时其可由屏幕标记器500参考。

然后处理结束于步骤1614。

任何适合的图形特征可在任何时间添加到虚拟3D图并利用摄像机矩阵和裁剪单应性应用于放大图像200。例如，基于图形的足球球员位置信息可实时添加到虚拟3D图，允许诸如图形球员标识符等的屏幕标记器特征随着球员的四处移动而被叠加在放大图像200中的球员上。

有利地，通过将放大图像200用于点匹配处理，本发明允许足球场模型图像1700中的标准特征通过用户更加准确地映射为捕获图像100中的球场的真实特征。这是因为放大图像200提供了图像100的相关部分的更详细的视图，并且可由用户根据所选择的点P进行选择。

应注意，尽管在上述的实施方式中，最初捕获的图像100是单个图像，但本发明还可以用于通过将几个图像接合在一起而产生最初捕获的图像100。作何数量的图像都可以接合在一起以形成图像100。只要针对图像100限定了2D坐标系并且对于裁剪生成器400和屏幕标记器两者是已知，发明的实施方式将以描述的当从单个图像100生成图像100时的相同方式工作。

色度键控(Chroma Keying)

现在将描述根据本公开的实施方式的色度键控的处理。尽管色度键控对于将图形应用到视频馈送是已知的技术，但这个已知的技术需要图形覆盖其上的恒定颜色的背景。

然而，在将图形应用到体育场(或任何室外场景)的情况下，在任何点处的颜色根据包括阴影的移动的几个因素随着时间而改变。此外，在体育赛事期间，任何位置处的球场可受球场的损坏的影响(即，草被损坏，所以那个位置处的颜色从绿色变为褐色)。

图18A示出了从接合一起的至少两个低清晰度图像形成的超高清晰度图像1800的另一个实施例。尽管在实施方式中这产生8K分辨率的图像，但本公开不以任何方式限制图像的任何具体的尺寸或捕获图像的方法。

图像1800是足球场1805。图5的屏幕标记器的用户在图像1800上的几个位置进行标记。这些在足球场1805上被表示为点1810至1817。在本公开的实施方式中，可选择作何数量的点和/或可选择图像1800内的任何位置的点。实际上，点不是必须位于足球场1805。

点限定需要限定的图像1800的颜色的位置。具体地，通过限定这些位置处的颜色，可以获得图像1800的特定片段的有代表性的色度值和亮度值，如随后将说明的。色度和亮度的组合以下将简称为如技术人员理解的“颜色”。图像1800的特定片段的颜色值将被用于使图形能够覆盖在图像1800的特定片段的至少部分上，如随后将说明的。

尽管可在图像1800中限定任何点，但用户将选择在播放的过程中可能处于阴影中和在阴影外的图像中的点。此外，用户将选择在播放的过程中可能改变颜色的点。所以，在足球情景中，频繁通过的区域可能从绿色变成褐色。最终，用户可能选择放置图形的区域。这些通常是由节目的制片人预先限定的并且在足球比赛的情况下可包括罚球区和中心圆。

尽管用户可以使用任何机制以限定点，但可预见的是用户可能希望使用具有附带的鼠标和/或键盘的平板电脑设备或计算机并且将简单地选择图像1800上的一个或多个点。

图18B示出了具有在一个时间点投射穿过足球场1805的阴影1820的图18A的图像1800。显然地，在这个时候，选择的点1810、1811和1812与这些点在阴影1820以外的不同的时间相比将具有不同的颜色值。这些色差是使用CMC l：c颜色距离度量在CIE L*a*b*颜色空间中计算的，如将理解的。在这种情况下，L是颜色的光亮度，并且a和b是所谓的颜色对立尺寸。然而，如果需要将图形插入球场的左侧上的罚球区中(图18B中的阴影)，在那个时间点上点1810、1811和1812的色值与当这些点在阴影以外时的色值相比要更重。

图18C示出了具有在不同的时间点投射穿过足球场1805的不同部分的阴影1820的图18A的图像1800。显然的，在这个时候，选择的点1812到1817与这些点在阴影1820以外的不同的时间相比将具有不同颜色值。然而，如果需要将图形插入球场的右侧的罚球区中(图18C中的阴影)，在那个时间点上点1812到1817的色值与当这些点在阴影以外时的色值相比要更重。

图18D示出了具有裁剪的片段1825的图18A的图像1800。裁剪与图像1800的分辨率相比将具有更小的分辨率。所以例如如上所述，如果图像1800是诸如8K图像的超高清晰度图像，那么裁剪会是高清晰度图像。裁剪旨在用于在诸如高清电视或平板电脑等的显示器上观看。

在裁剪内，屏幕标记器500必须将图形插入图18D中由阴影线表示的区域1830中。因此，区域1830中的每一个像素的色值必须被建立以使用色度键控技术插入图形。这确定像素是否是前景像素或背景像素。

为了使屏幕标记器500计算区域1830中的每一个像素的色值并且确定是否那个像素是前景像素或背景像素，屏幕标记器500必须存储任何特定时间点处的可见的特定点(即，裁剪1825中的那些)的色值。为了实现这个，图19中示出的表格被存储在屏幕标记器500的存储器505中。在这种情况下，仅存储可见的特定点的L*a*b*值(在数据库中具有L*a*b*的空白输入的非可见特定点)。

每隔一定时间间隔，每个特定点由唯一标识符标记并且将特定点的坐标位置存储为与点相关联。该坐标位置是图像1800中(或现实场景中)的坐标，其中定位了特定点。坐标位置可以是球场上特定点的3D位置或者超高清图像1800中的2D坐标中的任意一个。在实施方式中，如果捕获超高清晰度图像的摄像机移动即使很小的量，那么用作2D坐标的3D坐标将成为无效的。可以使用以上指出的技术从图像中的位置计算现实场景中的3D位置。随着在3D坐标中指定关键位置，在随后的时间可以找到虚拟摄像机指向的地方。重要的是，以指定的时间间隔计算(即虚拟摄像机视场中的)每个可见的特定点处的色值。每隔一定时间间隔，确定每个可见的特定点处的色值并将其存储在表中。在实施方式中，时间间隔是每个帧，或者时间间隔可以是每秒，或每5秒或10秒等。时间间隔可根据用户的需求进行选择。

为了重叠图形，屏幕标记器500首先渲染视频层。这个视频层是图18D中的裁剪1825。然后将图解渲染在具有设定的半透明性的视频层的顶上。换言之，将图形覆盖到视频层上并且设定图形可被看透的程度。最终，屏幕标记器500再次渲染视频层。然而，这次，仅前景目标(如示例性实施方式中的足球球员)被渲染在图形层的顶部。为了确定哪些像素是前景像素(即球员)哪些是背景像素(即球场)，随后将描述制造的前景阿尔法遮罩(alpha mask)。然而，通过在图形的顶部上渲染球员并在球场的顶部上渲染图形，复杂的图形可以被插入播放的图像中。

如上所述，屏幕标记器500必须确定哪些像素是前景像素和哪些像素是背景像素。这是通过创建所谓的前景阿尔法遮罩实现的。为了计算前景阿尔法遮罩，计算L*a*b*格式中的当前像素值(取自裁剪1825)和图19中示出的来自表的每个可见的特定点之间的色差。如技术人员所认识到的，这个差异是使用CMC l：c颜色距离度量计算的。

然后选择最小差异。然后，使用针对每个基色的差值和方差参数计算当前像素是前景像素或背景像素的概率。

P_{f} = 1 - {\arg \max}_{i} (e^{\frac{{- d}_{i}^{2}}{{2 σ}_{i}^{2}}})

其中P_f是前景概率，i是基色指数(key colour index)，d_i是像素颜色与基色i之间的CMC颜色距离，并且σ_i ²是基色i的方差。这个方差参数可现场获知或预先指定。这产生在0与1之间改变的数，其中0是背景像素并且1是前景像素。在图形中不利的是由于希望具有两侧均具有小的斜面的二进制结果(前景或背景中的任意一个)以产生图形上的模糊的边线。

可用于实现这个的一个技术是实现二值化。换言之，选择以下临界值并且这个临界值以下值设定为0并且这个临界值以上的值设定为1。然后可以平滑地通过陡峭的边缘以实现小斜面。然而，发明人已发现这不是最佳的解决方案。具体地，在室外的情况中，与将图形应用到足球比赛相似，足球队服(soccer kit)的颜色可紧密地与特定点中的一个匹配或匹配处理中，kit的大量区域具有草污迹和泥污迹，该污迹是底色的部分。这导致裁剪像的大量区域的前景像素的颜色紧密的匹配背景像素的颜色。然后二值化过程会闪烁，因为色值在临界值以上和以下摆动。

作为替代，在实施方式中，逻辑压缩曲线被应用于概率函数的结果。这允许迫使大部分值为0或1中任意一个，所以实现了期望的的二值化效果。然而，在值接近临界值的情况下，这些值将保持0和1之间的中间值。这是有利的，因为不会连续地闪烁，图形以大约恒定水平的半透明度呈现。

为了减少系统中需要处理的量，可以确定球员跟踪信息以确定球场上每个球员的位置。提取这个信息的方法是已知的。例如，参见通过引用结合于此的GB 0717277.8的内容。一旦确定球场上每个球员的位置，这个可以如下使用。因为球场上的球员将在前景中，所以通过确定球员的位置，将不需要检查组成图像中的球员的像素。换言之，球员位于的区域将被视为前景像素。这降低了处理能力。当然，尽管提到的是球员跟踪，但原理可应用于位于前景中的任意对象。

尽管可具有每个点的颜色的单一值的表以高效存储，但可以储存每隔全部播放的时间间隔的色值。这允许在播放已完成之后添加图形。这是图19中示出的后面的情况。

此外，尽管上面已描述了播放过程中特定点保持不变，但可预见的是屏幕标记器500的用户在播放过程中可能选择更多特定点。同样，屏幕标记器500的用户可因为他们看着合适而除去或替换特定点。

此外，尽管上面已提到L*a*b*值，但可预见到任何适合的颜色特征。例如，可以使用Y、Cr、Cb值或色调、饱和度和光(HSL)或色调、饱和度和值(HSV)代替RGB值或除RGB值之外可使用以上值。然而，应该注意L*a*b*的使用尤其有利，因为L*a*b*值比RGB或YCbCr在感知上更加统一。这是因为在L*a*b*中两个颜色之间的欧几里德距离与RGB或YCbCr中限定的颜色相比较更接近地模拟了由人类观察感知的颜色上的差异。此外，L*a*b*同样将色度值和亮度值分离，这是有用的因为亮度具有更高的方差，这对于阴影、强调等是有效的。视频源信号中的YCbCr的使用是另外有用的，因为这被用于传输MPEG中的图像数据和HD-SDI并且这个信号同样将色度值和亮度值分离。

尽管上面描述了单个特定点处的色值的计算，但可预见的是多个特定点可聚集并且计算集群的色值并用作特定点的值。这个集群可以使用K方法集群或者另一个群集技术实现。有利的是因为可能有用户输入的大量关键位置(特定点)。因为色度处理的处理时间与关键点(或特定点)的数目成比例，由于对大量特定点的处理限制而不能够进行实时处理。然而，通过以这种方式动态地集群特定点，可以限制计算色差的特定点的数目。显然，根据上述教导本发明可以有许多的变形和修改。因此，应当理解，在所附权利要求的范围内，除了如本文中具体描述的以外，还可以以其他方式实践本公开。

在到目前为止已被描述为通过软件控制的数据处理设备实施(至少部分)的实施方式中，应当理解，如光盘、磁盘、半导体存储器等承载这样的软件的非暂时性机器可读介质也被认为是表示本发明的实施方式。

应当理解，为了清楚，以上说明已参照不同的功能单元、电路和/或处理器来描述实施方式。然而，显而易见的是，在没有背离实施方式的前提下，可以使用不同的功能单元、电路和/或处理器之间的任意适当的功能分布。

所描述的实施方式可以以包括硬件、软件、固件或它们的任意组合的任意适当的形式来实施。所描述的实施方式可选择地被至少部分地实施为运行在一个或多个数据处理器和/或数字信号处理器上的计算机软件。任意实施方式的元件和组件可以以任何适当的方式来物理地、功能地和逻辑地实施。当然，该功能可以被实施在单个单元、多个单元中或者该功能单元可以作为其他功能性单元的一部分来实施。如此，所公开的实施方式可以实施在单个单元中或者可以是物理地或功能地分布在不同的单元、电路和/或处理器之间。

尽管已结合一些实施方式描述了本发明，但这并不旨在限制本文中所阐述的特定形式。此外，尽管可能看起来结合具体的实施方式描述了特征，但本领域普通技术人员将认识到，所描述的实施方式的不同的特征可以以任何适当的方式组合以实施本技术。

条款

本公开的实施方式可以总体上由以下编号的段落来限定：

1.一种用于将图形叠加在从场景的第一图像的裁剪生成的第二图像上的设备，所述裁剪表示虚拟摄像机的视场，所述设备包括：

接收器电路，被配置为接收所述第二图像和一组裁剪拐角坐标，每一个所述裁剪拐角坐标给出在针对所述第一图像限定的第一二维(2D)坐标系中的所述裁剪的拐角点的位置；

单应性确定电路，被配置为从所述一组裁剪拐角坐标确定在所述裁剪内限定的所述第一2D坐标系的坐标与针对所述第二图像限定的第二2D坐标系的坐标之间的单应性；

特征确定电路，被配置为从所述单应性、从表示针对所述场景限定的三维(3D)坐标系与针对所述第一图像限定的所述第一2D坐标系之间的关系的摄像机矩阵、以及从限定所述场景的所述3D坐标系中的所述场景的特征的所述场景的虚拟3D图来确定所述虚拟摄像机的视场内的所述场景的所述虚拟3D图的特征；

图形生成器电路，被配置为从所确定的虚拟3D图的特征生成图形；以及

图形叠加电路，被配置为将所生成的图形叠加在所述第二图像上。

2.根据条款1所述的设备，包括点选择电路，所述点选择电路被配置为接收在针对所述第一图像限定的所述第一2D坐标系中选择的单个点，并且从选择的点确定所述虚拟摄像机的偏转、俯仰和横滚，所述单个点限定所述裁剪内的点。

3.根据条款2所述的设备，其中：

当选择所述单个点和/或所述虚拟摄像机的焦距时，所述虚拟摄像机的偏转、俯仰、横滚和/或焦距逐渐改变直至到达与所述单个点相关联的偏转、俯仰和/或横滚和/或到达选择的焦距；以及

随着所述虚拟摄像机的偏转、俯仰、横滚和/或焦距逐渐改变，以预定帧速率连续地接收多个第二图像和相应组的裁剪拐角坐标。

4.根据条款3所述的设备，其中，通过能够由用户选择的阻尼系数确定所述虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变的速度。

5.根据条款3至4中任一项所述的设备，其中，根据预定的虚拟摄像机运动序列控制所述虚拟摄像机的偏转、俯仰、横滚和/或焦距，通过选择的单个点、焦距和/或阻尼系数的时间序列限定所述虚拟摄像机运动序列。

6.根据前述条款中任一项所述的设备，其中：

同时接收多个所述第二图像和相应组的所述裁剪拐角坐标；

与所述第二图像中的第一个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距不同于与所述第二图像中的第二个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距；以及

所述设备包括图像组合电路，所述图像组合电路被配置为将所述第二图像中的第一个与所述第二图像中的第二个组合以形成第三图像。

7.根据条款6所述的设备，其中，与所述第二图像中的第一个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距和与所述第二图像中的第二个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距使得与所述第二图像中的第二个相对应的所述裁剪处于与所述第二图像中的第一个相对应的所述裁剪内。

8.根据前述条款任一项所述的设备，包括使用接收的第二图像用于确定所述摄像机矩阵的校准电路，所述校准电路被配置为：

将所述场景的所述虚拟3D图的多个特征中的每一个与所述第二图像中的相应的真实图像特征相关联，并且确定所述第二图像的所述第二2D坐标系中的每个真实图像特征的位置；

利用所述单应性确定在所述第一图像的所述第一2D坐标系中的每个真实图像特征的位置；以及

从所述第一图像的所述第一2D坐标系中的每个真实图像特征的位置和所述场景的所述虚拟3D图中的每个相应特征的3D位置来确定所述摄像机矩阵。

9.一种用于将图形叠加在从场景的第一图像的裁剪生成的第二图像上的方法，所述裁剪表示虚拟摄像机的视场，所述方法包括：

接收所述第二图像和一组裁剪拐角坐标，每一个所述裁剪拐角坐标给出针对所述第一图像限定的第一二维(2D)坐标系中的所述裁剪的拐角点的位置；

从所述一组裁剪拐角坐标确定在所述裁剪内限定的所述第一2D坐标系的坐标与针对所述第二图像限定的第二2D坐标系的坐标之间的单应性；

从所述单应性、从表示针对所述场景限定的三维(3D)坐标系与针对所述第一图像限定的所述第一2D坐标系之间的关系的摄像机矩阵、以及从限定所述场景的所述3D坐标系中的所述场景的特征的所述场景的虚拟3D图来确定所述虚拟摄像机的视场内的所述场景的所述虚拟3D图的特征；

从所确定的虚拟3D图的特征生成所述图形；以及

将所生成的图形叠加在所述第二图像上。

10.根据条款9所述的方法，包括：接收在针对所述第一图像限定的所述第一2D坐标系中选择的单个点，并且从选择的点确定所述虚拟摄像机的偏转、俯仰和横滚，所述单个点限定所述裁剪内的点。

11.根据条款10所述的方法，其中：

当选择所述单个点和/或所述虚拟摄像机的焦距时，所述虚拟摄像机的偏转、俯仰、横滚和/或焦距逐渐改变直至到达与所述单个点相关联的偏转、俯仰和/或横滚和/或到达所选择的焦距；以及

随着所述虚拟摄像机的偏转、俯仰、横滚和/或焦距逐渐改变，以预定帧速率连续地接收多个所述第二图像和相应组的所述裁剪拐角坐标。

12.根据条款11所述的方法，其中，通过由用户能够选择的阻尼系数确定所述虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变的速度。

13.根据条款11至12中任一项所述的方法，其中，根据预定的虚拟摄像机运动序列控制所述虚拟摄像机的偏转、俯仰、横滚和/或焦距，通过选择的单个点、焦距和/或阻尼系数的时间序列限定所述虚拟摄像机运动序列。

14.根据条款9至13中任一项所述的方法，其中：

同时接收多个所述第二图像和相应组的所述裁剪拐角坐标；

15.根据条款14所述的方法，其中，与所述第二图像中的第一个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距和与所述第二图像中的第二个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距是这样的：与所述第二图像中的第二个相对应的所述裁剪处于与所述第二图像中的第一个相对应的所述裁剪内。

16.根据条款9至15中任一项所述的方法，包括：使用所述接收的第二图像确定所述摄像机矩阵，所述校准电路被配置为：

17.一种程序，用于控制计算机执行根据条款9至16中任一项所述的方法。

18.一种记录介质，存储根据条款17所述的程序。

19.如在上文中参考附图充分描述的方法、设备、程序或记录介质。

Claims

图形生成器电路，被配置为从确定的虚拟3D图的特征生成图形；以及

图形叠加电路，被配置为将生成的图形叠加在所述第二图像上。

2.根据权利要求1所述的设备，包括点选择电路，所述点选择电路被配置为接收在针对所述第一图像限定的所述第一2D坐标系中选择的单个点，并且从选择的点确定所述虚拟摄像机的偏转、俯仰和横滚，所述单个点限定所述裁剪内的点。

3.根据权利要求2所述的设备，其中：

4.根据权利要求3所述的设备，其中，通过能够由用户选择的阻尼系数确定所述虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变的速度。

5.根据权利要求3所述的设备，其中，根据预定的虚拟摄像机运动序列控制所述虚拟摄像机的偏转、俯仰、横滚和/或焦距，通过选择的单个点、焦距和/或阻尼系数的时间序列限定所述虚拟摄像机运动序列。

6.根据权利要求1所述的设备，其中：

同时接收多个第二图像和相应组的裁剪拐角坐标；

所述设备包括图像组合电路，所述图像组合电路被配置为将所述第二图像中的第一个与所述第二图像中的第二个进行组合以形成第三图像。

7.根据权利要求6所述的设备，其中，与所述第二图像中的第一个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距和与所述第二图像中的第二个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距使得与所述第二图像中的第二个相对应的裁剪处于与所述第二图像中的第一个相对应的裁剪内。

8.根据权利要求1所述的设备，包括用于利用接收到的第二图像确定所述摄像机矩阵的校准电路，所述校准电路被配置为：

从确定的虚拟3D图的特征生成所述图形；以及

将生成的图形叠加在所述第二图像上。

10.根据权利要求9所述的方法，包括接收在针对所述第一图像限定的所述第一2D坐标系中选择的单个点，并且从选择的点确定所述虚拟摄像机的偏转、俯仰和横滚，所述单个点限定所述裁剪内的点。

11.根据权利要求10所述的方法，其中：

12.根据权利要求11所述的方法，其中，通过能够由用户选择的阻尼系数确定所述虚拟摄像机的偏转、俯仰、横滚和/或焦距的逐渐改变的速度。

13.根据权利要求11所述的方法，其中，根据预定的虚拟摄像机运动序列控制所述虚拟摄像机的偏转、俯仰、横滚和/或焦距，通过选择的单个点、焦距和/或阻尼系数的时间序列限定所述虚拟摄像机运动序列。

14.根据权利要求9所述的方法，其中：

同时接收多个第二图像和相应组的裁剪拐角坐标；

15.根据权利要求14所述的方法，其中，与所述第二图像中的第一个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距和与所述第二图像中的第二个相关联的所述虚拟摄像机的偏转、俯仰、横滚和/或焦距使得与所述第二图像中的第二个相对应的裁剪处于与所述第二图像中的第一个相对应的裁剪内。

16.根据权利要求9所述的方法，包括利用接收到的第二图像确定所述摄像机矩阵，所述校准电路被配置为：

17.一种程序，用于控制计算机执行根据权利要求9所述的方法。

18.一种记录介质，存储根据权利要求17所述的程序。

19.如在下文中参考附图充分描述的方法、设备、程序或记录介质。