CN113610003B

CN113610003B - 一种拍类运动增强视频创作方法

Info

Publication number: CN113610003B
Application number: CN202110908200.7A
Authority: CN
Inventors: 巫英才; 陈竹天; 叶帅男; 储向童; 张辉
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2023-11-10
Anticipated expiration: 2041-08-09
Also published as: CN113610003A

Abstract

本发明公开了一种拍类运动增强视频创作方法，包括：获取原始视频，基于多个层次类别采用机器学习方法获取原始视频的第一特征数据，将所述多个层次类别为对象层次、事件层次以及战术层次；基于事件层次，在原始视频的时间轴上标注事件类别，用于客户定位特征图像帧，基于对所述特征图像帧中的球员或球，以及所要展示的层次类别进行选定，得到所述球员或球的所述球员或球的层次类别数据，同时选定所述特征图像帧的叙述顺序，基于所述所述球员或球的层次类别数据和叙述顺序，通过条件概率分布模型，在所述特征图像帧中自动添加可视化内容以得到增强视频。该方法能够基于客户选择的数据和叙事顺序自动提供可视化内容。

Description

一种拍类运动增强视频创作方法

技术领域

本发明属于可视分析技术，具体涉及一种拍类运动增强视频创作方法。

背景技术

本节从基于视频的体育可视化、数据故事的智能设计工具以及体育视频的数据提取共四个方面进行现有背景技术的阐述。

基于视频的体育可视化：由于将数据直接展现在实际场景中具有直观、易于理解等优势，基于视频的体育数据可视化已被广泛用于简化专家对数据的分析以及吸引观众。按照展现的方式，基于视频的可视化可被分为并排、重叠以及嵌入三个类别。其中嵌入的方式与本发明关系最为密切。文献M.Stein,H.Janetzko,A.Lamprecht,T.Breitkreutz,P.Zimmermann,B.Goldl¨ucke,T.Schreck,G.Andrienko,M.Grossniklaus,andD.A.Keim.Bring It to the Pitch:Combining Video and Movement Data to EnhanceTeam Sport Analysis.IEEE TVCG,24(1):13–22,2017公开了足球视频可视化系统，其将原始比赛视频作为输入并自动地生成图形标记(例如箭头表示传球方向)对视频中的战术信息进行可视化。

文献M.Stein,T.Breitkreutz,J.H¨aussler,D.Seebacher,C.Niederberger,T.Schreck,M.Grossniklaus,D.A.Keim,and H.Janetzko.Revealing the Invisible:Visual Analytics and Explanatory Storytelling for Advanced Team SportAnalysis.In Proc.of BDVA,pp.1–9.IEEE,2018公开了展示信息的概念框架来提升系统的有效性。上述文献具有自动捕获视频中球员位置的功能并将状态信息(例如球员轨迹、出球命中率)嵌入视频中以此提升篮球视频的观赛感受。总而言之，基于视频的体育可视化研究尚处于起步阶段，而强劲的市场需求已经催生了非常成功的商业系统。尽管如此，这些商业系统的目标用户为具有熟练技能的视频编辑师，而对于体育分析师而言则具有较大的上手门槛，因为他们一般不具备这样的技能。

此外，这些商业系统仅从图形元素使用的角度进行视频的增强，而体育分析师则是希望从数据的角度增强体育视频。文献F.Amini,N.H.Riche,B.Lee,A.Monroy-Hernandez,and P.Irani.Authoring Data-Driven Videos with DataClips.IEEE TVCG,23(1):501–510,2017.公开一种允许普通用户使用预定义模板制作数据视频的创作工具。虽然已有相关为无需视频编辑专业知识的创作工具，但此发明所针对的应用场景与他们的应用场景不用，因此面临新的挑战。具体而言，这些工具将数据转化为新视频、利用视频作为媒介传达数据故事，而此发明专注于用数据增强现有的视频。两者相比而言，现有的视频在叙事顺序、可视化形式上具有额外的限制，即需要考虑视频本身的播放。在这些限制之下，如何将数据进行叙事可视化仍缺乏深入研究。

然而目前少有创作工具能够为体育视频的增强创作提供数据驱动的自动化支持，其中的挑战来自于将可视化创作流程融入视频编辑。

发明内容

本发明公开了一种拍类运动增强视频创作方法，该方法能够基于客户选择的数据和叙事顺序自动提供可视化内容。

一种拍类运动增强视频创作方法，包括：

S1：获取原始视频，基于多个层次类别采用机器学习方法获取原始视频的层次类别数据，其中，层次类别数据包括对象层次数据，事件层次数据和战术层次数据；

S2：基于事件层次数据，在原始视频的时间轴上标注事件类别，用于客户定位特征图像帧，基于对所述特征图像帧中的球员或球，以及所要展示的一种层次类别数据进行选定，得到所述球员或球的层次类别数据，同时选定所述特征图像帧的叙述顺序，基于所述所述球员或球的层次类别数据和叙述顺序，通过所述球员或球的层次类别数据和叙事顺序与添加的可视化内容存在映射关系，在所述特征图像帧中自动添加可视化内容以得到增强视频。

基于数据层级使用机器学习模型提取数据，并允许用户通过直接与视频中的对象进行交互来从提取的数据中筛选出待增强的数据，随后依据所选数据与叙述顺序推荐可视化效果并绘制为增强视频

所述的基于多个层次类别采用机器学习获取原始视频的层次类别数据，包括：

通过采用ImageNet数据集预训练后的ResNet-50模型提取原始视频的多个特征图像帧，然后采用TTNet模型分割多个特征图像帧中的球，场地，以及球员的位置，当球被遮挡时，采用线性插值的方式预测球的位置，采用BodyPix方法检测球员姿态，所述球、场地和球员的位置，球员姿态构建对象层次数据；

通过采用TTNet模型中的事件检测功能来判断多个特征图像帧中的球反弹、触网事件，通过利用球的速度以及球与球员持拍手之间的距离判断多个特征图中的击球事件，所述的球反弹事件、触网事件以及击球事件构建了事件层次数据；

基于球反弹事件和输入的专业领域知识预测得到球的潜在轨迹与落点位置，基于击球事件和输入的专业领域知识推断球员战术，所述球的潜在轨迹与落点位置，以及球员战术构建战术层次数据。

所述的采用BodyPix方法检测球员姿态，包括：将特征图像帧的球员像素点进行分割得到每个球员的包围盒、像素以及姿态关键点，以达到人体状态评估目的。

所述的通过利用球的速度以及球与球员持拍手之间的距离判断多个特征图中的击球事件，包括：

所述的球员持拍手的位置由所述球员的持拍手姿态关键点表示，当持拍手被遮挡时，采用脖子姿态关键点代替持拍手姿态关键点，在给定阈值时间内所述的距离降低到最小值，且球的速度方向发生改变，则标记一次击球事件。

所述的在原始视频的时间轴上标注事件类别，包括：在所述的原始视频的每个特征图像帧上标注球反弹、触网事件，或击球事件，用于客户识别并导航至特征图像帧。

所述的所述球员或球的层次类别数据以及对应的可视化内容均显示在编辑面板中，所述编辑面板用于基于客户需求修改可视化内容的展示效果。

所述的所述球员或球的层次类别数据和叙事顺序与添加的可视化内容存在映射关系，包括：

对收集到的增强视频集进行标记得到数据类别，可视化内容类别，多个层次类别，以及叙事顺序在所述现有增强视频集的频数，基于所述频数采用条件概率分布模型建立可视化内容与所述球员或球的层次类别数据和叙事顺序的映射关系函数。

可视化内容与所述球员或球的层次类别数据和叙事顺序的映射关系函数p为：

p＝f((d,v)|O)

其中，d、v和O分别为所述球员或球的层次类别数据、可视化内容和叙述顺序。

在所述特征图像帧中自动添加可视化内容以得到增强视频，包括：

将所述球员或球的层次类别数据和叙事顺序关系输入至可视化内容与数据和叙事顺序的映射关系函数，在遍历所有现有增强视频集中的可视化内容后，得到使得所述映射关系函数值最大的可视化内容，作为自动添加可视化内容。

与现有技术相比，本发明的有益效果为：

1)基于数据层次从视频中提取数据。增强体育视频依据数据所在的不同层次(如物理对象、事件或战术层次)以及叙述的目的以不同方式展现数据。因此系统需要依据数据层次与叙事顺序自动地抽取数据并进行组织。

2)直接与数据对象而非图形标记进行交互。由于数据分析师了解的是数据而非设计表示数据的图形，因此系统需要允许用户通过选择需要可视化的数据而不是让用户设计数据可视化。此外，用户应当可以直接在视频中与数据交互。

3)为不同的叙事顺序推荐可视化。不同的叙事顺序需要不同的可视化效果进行呈现。可视化推荐能够大大减轻用户创作的过程，让分析师专注于故事的讲述方式而无需考虑可视化设计的原理与细节。

附图说明

图1为具体实施方式提供的一种拍类运动增强视频创作方法的流程图，其中a为原始视频，b为处理流程图，c为增强视频；

图2为具体实施方式提供的一种拍类运动增强视频创作方法的用户界面图，其中，a为视频预览，b为时间轴，以及c为编辑面板；

图3为为具体实施方式提供的一种拍类运动增强视频创作方法的系统工作流程图，其中，a为数据提取流程图，b为增强内容选择流程图，c为可视化推荐流程图。

具体实施方式

本发明提供的采用VisCommentator系统对拍类增强视频的创作方法。如图1所示，将原始视频输入至VisCommentator系统得到增强视频，以下分别从数据处理、数据的交互以及数据可视化的三方面进行阐述VisCommentator系统。

1)通过机器学习模型处理数据。涉及到的数据类型包括对象层次数据、事件层次数据以及战术层次数据。

对于对象层次的数据，系统结合多种深度学习模型从输入的视频中完成数据的提取。具体而言，对于视频的每一帧，系统检测球、每一位运动员以及球座的位置。对于球员，系统进一步提取他们的姿态。为了实现这些数据的提取，系统首先采用ImageNet预训练的RestNet-50[提取每个帧的特征图。特征图被用于以下几个方面：

为了检测球，系统采用一个多任务模型TTNet，其可以检测和分割球、桌子和球员，以及识别反弹和击球等球事件。由于TTNet无法检测球员的姿势，因此系统只使用其来检测球与球桌。此外，系统在球被遮挡时采用线性插值的方式预测球的位置。

对于球员的姿态，系统采用BodyPix[11]进行检测，步骤包括分割球员在原始图像帧的像素点，并识别每个时刻的姿势。BodyPix是一个工业级别的模型，可用于实时的人体状态评估。模型的输出包括包含每个球员的包围盒、像素以及姿态关键点

最后，基于这三个基本的数据，系统进一步计算出其他对象层次数据，包括球的速度与轨迹，以及球员的移动方向。

对于事件层次的数据，系统主要捕获球与球员的事件。

球的事件包括球的反弹以及触网。系统重用了集成在TTNet中的事件检测功能来判断对视频帧内是否有球反弹或触网事件。

球员的主要事件为击球。为了检测击球事件，系统利用球的速度以及球与球员持拍手之间的距离这两个属性进行判断，其中球员持拍手位置由姿势关键点表示。由于持拍手有时会被遮挡未被检测到，此系统会使用球员的脖子关键点进行代替。若在一段时间内距离降低到最小值，同时速度方向发生改变，则标记一次击球事件。

最后，基于上述的数据，系统进一步计算出其他事件层级的数据，包括基于球反弹事件检测得到的球落点位置以及基于球员击球时的姿态分类得到的击球技术。

对于战术层次的数据，主要包括每一拍的潜在轨迹与落点，表示每拍中球员的技术选择。此数据通常包括多个事件且需要专业领域知识才可分析获得，因此无法直接通过计算机视觉模型识别得到。为此，系统采用了基于规则的方法来获取这类数据。具体而言，系统采用了由乒乓球领域专家提供的一系列规则来推断球员的战术、潜在的球轨迹与落点。例如，基于规则“如果球员在他的底线接球，他只能将球回对方的底线”，系统可以根据事件层次的数据计算潜在的球落点位置。

2)通过直接操作数据对象完成数据交互，如图2所示，具体步骤如下：

本发明利用数据提取的结果，将提取的数据对象作为可被交互的内容在视频场景中予以提示，从而允许用户直接与视频场景中的对象进行交互，增加了交互的直观性与简便性。具体而言，系统将提取到的事件数据显示在时间轴对应时间位置的下方并标记事件的类别(如球或球员的事件)，从而允许用户快速识别并导航至特定的拍回合，如图2b所示。此外，球员与球在主视图中可通过右键选中，如图2a1所示。通过此方法用户能够直接从视频场景中直接选择数据进行可视化增强。所有被选中的数据将被后续步骤(图3b)映射为对应可视化内容。同时，所有被选中的数据以及对应系统推荐的可视化映射也会显示在编辑面板中(图2c1)。用户可以进一步修改或微调可视化效果，例如修改颜色或线的粗细。

3)通过推荐生成可视化内容。VisCommentator结合了可视化推荐功能，根据不同叙述顺序将数据自动映射为可视化内容，从而满足设计目标。

本系统采用预先收集到的体育增强视频作为先验知识进行可视化效果的推荐。具体而言，本发明首先从信誉良好来源收集了233个增强体育视频，包含乒乓球、羽毛球、足球、网球与篮球等球类运动。随后，对这些体育视频进行标记。标记的内容包括被可视化增强的数据类型(球位置、球员技术等)、使用的可视化类型(热力图、曲线等)、数据层次(对象、事件与战术层面)以及叙事顺序(顺序播放、预告、重复、时间叉、倒叙、并行等类别)共4种属性。标记的结果是属性频数表格，记录了每个属性下各个值在收集到的视频集种出现的频数。基于统计结果，系统采用条件概率分布对视觉映射进行建模：p＝f((d,v)|O)，其中d、v和O分别为数据、可视化内容和叙述顺序。直观上看，这个模型表示了在特定叙述顺序下从数据到可视化映射的概率分布。此概率分布可以从统计表格中按照各个增强视频在不同数据、可视化效果以及叙事顺序下的出现频率统计而得。因此，对于给定d与O，系统将会搜索所有可能的可视化效果v使得上式最大，并将此v推荐给用户。最后，由于每一帧中物体(如球与运动员)的位置已被数据抽取模块检测到，因此系统直接依据这些位置在屏幕空间中渲染出物体对应的可视化效果。

基于双轨道渲染生成叙事顺序。为了将视觉效果正确地依据用户所选的叙事顺序渲染到视频中，系统采用了双轨渲染的方法，如图3c2所示。具体而言，系统在视频轨道与数据轨道两条并行的轨道上渲染视频的帧与数据可视化内容，从而控制各自出现的顺序。例如，在图3b中，用户选择了四帧的数据并使用预告模式进行渲染，即将在当前帧之后发生的数据呈现在当前帧的时间位置上。为此，系统会在播放第一帧后暂停视频轨道，并继续渲染接下来的三帧数据，其中每种可视化效果播放时长设置为默认值。视频轨道会在渲染完所有选择的数据后恢复播放。

具体实施例步骤如下，本实施例中增强体育视频系统包括三个部分：

利用机器学习模型的数据提取模块。数据的提取顺序如下所述。

首先采用多任模型TTNet完成视频中球与球桌的检测。对于球被遮挡成功而造成检测失败的问题，采用失败前后的检测位置进行线性插值的方式估计得到。此外，使用TTNet中的事件检测功能得出每帧中的球事件，包括球反弹时间和触网事件。

其次采用BodyPix检测球员的姿态。BodyPix能够直接从视频中分割球员像素点并估计球员的姿态，分别以包围盒以及姿态关键点的方式输出。

下一步，基于球在视频中出现的位置，得到球的运动轨迹，并结合每个位置的帧时刻粗略计算球的速度；对于球员，按照上下时刻包围盒所在的位置粗略计算球员每个时刻的移动方向。

下一步利用球速以及球与球员持拍手间的距离检测球员的击球事件，方法为在一段时间内此距离降低到最小值，并且速度方向发生改变，则标记为一次击球事件。其中持拍手的位置由BodyPix输出的姿态关键点得到。若姿态关键点中未包含手部(比如此部分由于被遮挡而检测失败)，则使用脖子关键点代替。

接着计算球落点，方法为将球反弹事件发生时球的位置(由TTNet得到)得到；

随后计算球员击球时的姿态识别，进而由姿态得到击球技术的分类结果。此实施例中采用temporal graph ConvNet(ST-GCN)进行球员姿态识别。依据ST-GCN的工作流程，首先将BodyPix检测得到的每帧的运动员姿态关键点构造为空间图，其中每个节点为状态关键点，边为每个关键点与其在相邻帧中的对应关键点的链接。这个空间图作为ST-GCN的输入，其输出采用了标准SoftMax分类器，可将空间图识别为相应的技术类别。为了训练ST-GCN，本实施例采集了来自上百场2016-2018赛季的国际乒联比赛共上千个击球。这些数据的标签是人为标记并以json的形式进行存储。存储的例子如下图所示。本实施例将每类技术对应的数据量维持一致，并将数量较少的技术类归为“其他”类别。随后，将每类技术的数据进一步分为两类：面向屏幕的球员姿态以及背向屏幕的球员姿态。最后，本实施例获得的数据量为7种技术(上旋、反拍、推、短、摆、进攻、其他)共14类，每类包含4375个记录。

最后，本实施例采用基于规则的方法获取战术层面数据。具体而言，系统采用了由乒乓球领域专家提供的一系列规则来推断球员的战术、潜在的球轨迹与落点。例如，基于规则“如果球员在他的底线接球，他只能将球回对方的底线”，系统可以根据事件层次的数据计算潜在的球落点位置。

通过搭建基于网页的交互界面完成数据交互，包括数据对象、数据层次以及叙述方式的选择。VisCommentator基于浏览器/服务器架构。

浏览器部分建立在HTML+CSS+JavaScript之上，负责视频以及用户界面的渲染。其中，用户界面使用HTML Canvas来渲染增强视频。为了提升网页端的效率，实施例使用OffscreenCanvas功能，它利用工作线程(现代浏览器中的多线程技术)来加速繁重的渲染任务。

服务器部分建立在Node.js+TypeScript之上。为了从视频中提取数据，实施例使用了PyTouch以及TensorFlow.js来支持使用Node.js运行预训练的深度学习模型。

可视化推荐则是利用最大条件概率从现有增强视频的统计结果种寻找数据对应的可视化效果。

增强视频收集：实施例收集的视频集包含6大常见的球类体育运动，包括3类团队运动(篮球、足球以及橄榄球)和3类拍类运动(网球、羽毛球和乒乓球)。每段视频至少一个运动事件(如击球等)。

视频集预处理：针对时长较长、包含运动事件过多的视频进行分割，确保每段视频的长度不超过3分钟并仅包含一个增强的运动事件。随后，为了控制视频的多样性，确保每类体育的类别平衡，实施例从分割后的视频集中随机采样得到样本集。采样过程中按照优先级依次满足以下3类数量的平衡：1)团队运动与球拍运动，2)不同的运动类型，以及3)不同的视频源。最后，实施例的视频集包括233个视频。

视频集标注：对每个视频片段，人为从四个维度标注此片段的值。具体而言，叙述顺序维度包括线性、预告、倒叙、时间叉、重复播放和并行；数据层次包括对象层次、事件层次与战术层次；数据类别包括轨迹、球员距离、球员所在区域、统计数字、场地区域、球员姿态、阵型、球事件；可视化以及视频编辑类别包括点、线、面、图符、标签、暂停、快进、慢放、镜头移动。每个片段都会从每个维度选取至少一个值进行打标签。

基于视频标签，得到属性值的分布。此分布为4维空间分布，对应于4个属性。空间中的每个值表示对应4个属性共同出现的频数。

可视化效果推荐：对于给定数据类型、数据层次以及叙述方式，系统将会搜索分布空间，找出可视化效果维度上频数最大的属性，并将此效果推荐给用户。最后，由于每一帧的数据(如球员与球的位置等)都已在抽取模块中获得，因此系统直接依据这些数据在屏幕空间中渲染出物体对应的可视化效果(如依据球位置用线的方式渲染出球轨迹)。

Claims

1.一种拍类运动增强视频创作方法，其特征在于，包括：

基于球反弹事件和输入的专业领域知识预测得到球的潜在轨迹与落点位置，基于击球事件和输入的专业领域知识推断球员战术，所述球的潜在轨迹与落点位置，以及球员战术构建战术层次数据；

S2：基于事件层次数据，在原始视频的时间轴上标注事件类别，用于客户定位特征图像帧，基于对所述特征图像帧中的球员或球，以及所要展示的一种层次类别数据进行选定，得到所述球员或球的层次类别数据，同时选定所述特征图像帧的叙述顺序，基于所述层次类别数据和叙述顺序，通过所述球员或球的层次类别数据和叙事顺序与添加的可视化内容存在映射关系，在所述特征图像帧中自动添加可视化内容以得到增强视频。

2.根据权利要求1所述的拍类运动增强视频创作方法，其特征在于，所述的采用BodyPix方法检测球员姿态，包括：将特征图像帧的球员像素点进行分割得到每个球员的包围盒、像素以及姿态关键点，以达到人体状态评估目的。

3.根据权利要求1所述的拍类运动增强视频创作方法，其特征在于，所述的通过利用球的速度以及球与球员持拍手之间的距离判断多个特征图中的击球事件，包括：

4.根据权利要求1所述的拍类运动增强视频创作方法，其特征在于，所述的在原始视频的时间轴上标注事件类别，包括：在所述的原始视频的每个特征图像帧上标注球反弹、触网事件，或击球事件，用于客户识别并导航至特征图像帧。

5.根据权利要求1所述的拍类运动增强视频创作方法，其特征在于，所述的所述球员或球的层次类别数据以及对应的可视化内容均显示在编辑面板中，所述编辑面板用于基于客户需求修改可视化内容的展示效果。

6.根据权利要求1所述的拍类运动增强视频创作方法，其特征在于，所述的所述球员或球的层次类别数据和叙事顺序与添加的可视化内容存在映射关系，包括：

对收集到的增强视频集进行标记得到数据类别，可视化内容类别，多个层次类别，以及叙事顺序在所述增强视频集的频数，基于所述频数采用条件概率分布模型建立可视化内容与所述球员或球的层次类别数据和叙事顺序的映射关系函数。

7.根据权利要求1或6所述的拍类运动增强视频创作方法，其特征在于，可视化内容与所述球员或球的层次类别数据和叙事顺序的映射关系函数p为：

p＝f((d,v)|O)

8.根据权利要求1或6所述的拍类运动增强视频创作方法，其特征在于，在所述特征图像帧中自动添加可视化内容以得到增强视频，包括：