CN114550067A

CN114550067A - 一种体育赛事自动直播与导播方法、装置、设备及存储介质

Info

Publication number: CN114550067A
Application number: CN202210188058.8A
Authority: CN
Inventors: 王灿进
Original assignee: Xinhua Zhiyun Technology Co ltd
Current assignee: Xinhua Fusion Media Technology Development Beijing Co ltd; Xinhua Zhiyun Technology Co ltd
Priority date: 2022-02-28
Filing date: 2022-02-28
Publication date: 2022-05-27

Abstract

本申请公开了一种体育赛事自动直播与导播方法，涉及赛事直播数据处理技术领域，包括以下步骤：获取赛事直播视频流；对视频流进行语义分割，得到赛场的关键区域信息；获取视频流中某一时刻的视频帧，对该视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；利用关键事件识别网络对视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。本方案先对赛场上的关键区域进行定位，再获取场上运动员和球的位置，然后结合这些信息计算出运镜中心的真实位置以实现自动运镜，最后识别赛事中的关键事件，并利用特写相机实现从多角度观察同一关键事件的效果，整个过程无需人工参与，实现了体育赛事的自动直播与转播。

Description

一种体育赛事自动直播与导播方法、装置、设备及存储介质

技术领域

本申请涉及赛事直播数据处理技术领域，尤其涉及一种体育赛事自动直播与导播方法、装置、设备及存储介质。

背景技术

现在的体育赛事直播时，通常是由摄影师架设相机，以手动操作的方式旋转相机的拍摄角度、手动变焦实现画面的远近缩放，再由导播根据导播规则对多个相机采集的视频进行现场制作，然后播出，整个过程需要多人协作才能完成，不仅耗费了大量的人力成本，而且直播质量不可避免地会受到人工操作的影响。

为了解决人工导播带来的问题，专利201911248535.X公开了一种可以代替体育赛事中人工导播的智能导播方法，其首先定义一项赛事的智能导播规则，包括镜头切换触发条件及对应导播信号，然后接收赛场上的多路实时信号，并对这些信号包含的视频帧进行图像识别，最后判断识别结果是否符合触发条件，如果符合就切换到该触发条件对应的导播信号播出，它虽实现了赛事的自动导播，但未能解决摄影师需手动操作相机的问题，直播质量仍受到人工操作影响。

发明内容

本申请提供的一种体育赛事自动直播与导播方法，旨在利用架设在比赛场地上的宽幅全景相机、多个角度的特写相机以及人工智能技术实现全场体育赛事的自动直播与导播，无需人工参与，节省人力成本。

为实现上述目的，本申请采用以下技术方案：

本申请的一种体育赛事自动直播与导播方法，包括以下步骤：

获取赛事直播视频流；

对所述视频流进行语义分割，得到赛场的关键区域信息；

获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

作为优选，所述对所述视频流进行语义分割，得到赛场的关键区域信息，包括：将所述视频流输入到预先建立的语义分割模型中进行训练，得到赛场的关键区域KEY_AREA＝{L_b,R_b,U_b,D_b,H_l,R_a,G}，其中L_b、R_b、U_b、D_b分别为赛场的左右上下边界,H_l为中场线、R_a为禁区、G为球门区域。

作为优选，所述预先建立的语义分割模型采用粗分加精细化的网络结构，其中，粗分网络为卷积->联合金字塔上采样->孔洞空间金字塔池化，细化网络为基于跳跃连接的优化模块。

作为优选，所述获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心，包括：

获取所述视频流中第t时刻的视频帧；

利用目标检测网络对所述视频帧进行处理，得到第t时刻赛场上球的位置B_t＝(x_b,y_b)以及运动员的位置P_t＝{(x₁,y₁),…,(x_k,y_k)}，其中，k为第t时刻赛场上运动员的数量；

根据球与运动员的位置，结合所述关键区域信息计算第t时刻的运镜中心。

作为优选，所述根据球与运动员的位置，结合所述关键区域信息计算第t时刻的运镜中心，包括：

计算第t时刻帧的初始运镜中心C_t，计算公式为：

C_t＝σ*B_t+(1-σ)*∑P_t/k

其中σ为球的权重系数，同时运镜中心C_t、运镜窗口宽高W_t、H_t满足：

其中C_t(x)、C_t(y)分别是C_t的x、y坐标；

在时间维度，采用指数加权平均对C_t进行平滑以滤除噪声，计算公式为：

其中

分别是t时刻、t-1时刻平滑后的运镜中心，β是指数平滑系数。

作为优选，所述利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换，包括：

利用关键事件识别网络识别所述视频流中关键事件的类型和发生时间；

获取所述关键事件对应的事件主体；

根据所述关键事件的类型、发生时间和事件主体，获取多个角度下所述关键事件的视频流，并进行切换播放。

作为优选，所述关键事件识别网络的形成过程包括：

采集不同角度的同类别比赛视频；

对所述视频进行关键事件标注，生成标签{(t_s，t_e，type)}，其中t_s为关键事件的起始时间，t_e为关键事件的结束时间，type为关键事件的类型；

从所述视频中提取训练样本，其中正样本与标注的时间区域t_s～t_e超过预设的重叠度阈值σ，其余为负样本；

利用识别网络对所述训练样本进行训练得到关键事件识别网络。

一种体育赛事自动直播与导播装置，包括：

获取模块，用于获取赛事直播视频流；

定位模块，用于对所述视频流进行语义分割，得到赛场的关键区域信息；

运镜模块，用于获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

导播模块，用于利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

一种电子设备，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如上述中任一项所述的一种体育赛事自动直播与导播方法。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述中任一项所述的一种体育赛事自动直播与导播方法。

本发明具有如下有益效果：

本方案通过对赛事的直播视频流进行语义分割，可以实现赛场上的关键区域定位，再利用目标检测网络追踪赛场上运动员和球的位置，然后结合这些信息计算出运镜中心的真实位置以实现运镜中心的自动转换，最后根据关键事件识别网络对赛事中的关键事件进行识别，并从多角度切换播放关键事件的相关片段，整个过程无需人工参与，实现了体育赛事的自动直播与转播。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例1实现一种体育赛事自动直播与导播方法第一流程图；

图2是本申请实施例2语义分割模型的结构图；

其中，D0为原图，D1为原图下采样后的图，P1为粗分预测结果，P0为精细化结果；

图3是本申请实施例3实现一种体育赛事自动直播与导播方法第二流程图；

图4是本申请实施例4实现一种体育赛事自动直播与导播方法第三流程图；

图5是本申请实施例5实现一种体育赛事自动直播与导播装置示意图；

图6是本申请实施例6实现一种体育赛事自动直播与导播方法的一种电子设备示意图。

具体实施方式

下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的权利要求书和说明书的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序，应该理解这样使用的术语在适当情况下可以互换，这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式，此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他单元。

实施例1

如图1所示，一种体育赛事自动直播与导播方法，包括以下步骤：

S110、获取赛事直播视频流；

S120、对所述视频流进行语义分割，得到赛场的关键区域信息；

S130、获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

S140、利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

根据实施例1可知，本方案使用了宽幅全景相机和多个特写相机，首先利用宽幅相机拍摄全场，生成画面宽高分别为W、H，视场覆盖全场的视频流S，利用预先建立的语义分割模型对该视频流S进行解析，得到赛场上的关键区域信息，包括赛场的左右上下边界、中场线、禁区和球门区域等，然后获取其中某一时刻的视频帧，利用目标检测网络定位场地上球与运动员的位置，也即运镜的目标位置，再结合前面获取的关键区域信息，利用运镜中心计算公式计算出该时刻真实的运镜中心，由此实现运镜中心的自动转换，接下来就是利用关键事件识别网络对视频流中包含的关键事件进行识别，获取关键事件的类型和发生时间，当犯规、争抢、进球等关键事件发生时，首先定位事件主体位置，采用镜头拉近特写、镜头跟踪等策略强化事件主体，并记下关键事件发生的时间戳t，然后在其他特写相机的视频流上定位时间戳t，并以其为起点截取关键事件的片段E＝{E₁，...,E_m}，其中m为特写相机的个数，通过在E的不同片段之间进行切换播放，实现从不同视角观察同一关键事件的效果。本方案利用架设在场地上的宽幅全景相机、多个角度的特写相机以及深度学习技术实现了全场体育比赛的自动直播与导播，无需人工参与，节省了人力成本，还避免了人工操作疏忽导致的错误，同时实现了镜头的自动切换，可以从多角度来描述同一关键事件，帮助观众更好地了解赛事情况。

实施例2

如图2所示，一种体育赛事自动直播与导播方法，包括：

S210、获取赛事直播视频流；

S220、将所述视频流输入到预先建立的语义分割模型中进行训练，得到赛场的关键区域信息；

S230、获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

S240、利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

根据实施例2可知，本方案在获取到宽幅相机拍摄的视频后，会利用已经训练好的语义分割模型对该视频进行解析以识别出球场上的关键区域KEY_AREA＝{L_b,R_b,U_b,D_b,H_l,R_a,G}，其中L_b、R_b、U_b、D_b分别为球场左右上下边界、H_l为中场线、R_a为禁区、G为球门区域，其中{L_b,R_b,U_b,D_b}分别按一定比例T往外扩充以作为后续自动运镜的边界，中场线、禁区、球门为后续运镜的重点覆盖区域。

现有的语义分割模型运算量与像素大小相关，由于本方案使用的宽幅相机成像分辨率较高(4k以上)，直接将高分辨率图片输入语义分割模型会导致显存占用过大、网络训练困难等问题，同时标注高分辨率图片也增加了标注的难度，因此，如图2，本申请训练的语义分割模型使用了粗分加精细化的网络结构，其中粗分网络为卷积->联合金字塔上采样->孔洞空间金字塔池化，细化网络为基于跳跃连接的优化模块，具体过程如下：

对原图D0进行下采样得到图D1，conv1-conv5均为3*3卷积+relu+池化的结构，convi层的特征尺度为conv(i-1)的一半，接着将conv3-conv5对应的特征图feat3-feat5分别卷积上采样到相同尺寸，再进行通道合并得到C1，用于对来自不同尺度的特征进行融合，然后对C1利用步长为s(s＝1，2，4，8)的多个步幅卷积在多个尺度上进行特征提取和合并，联合不同尺度的特征层得到C2，完成多层联合上采样，再经过空洞空间卷积池化金字塔(ASPP)后得到粗分预测结果P1。

精细化模块是采用原始图像D0和粗分结果P1来生成更加精细化的分割：首先对P1进行双线性上采样到与D0同样的尺寸，再与D0合并之后输入到网络中，经过金字塔池化、多级上采样和跳跃连接，能够捕获不同层次的图像内容和边界信息，融合多级粒度的分割特征，最终获取精细化的结果P0。

实施例3

如图3所示，一种体育赛事自动直播与导播方法，包括：

S310、获取赛事直播视频流；

S320、对所述视频流进行语义分割，得到赛场的关键区域信息；

S330、获取所述视频流中第t时刻的视频帧；

S340、利用目标检测网络对所述视频帧进行处理，得到第t时刻赛场上球的位置以及运动员的位置；

S350、根据球与运动员的位置，结合所述关键区域信息计算第t时刻的运镜中心；

S360、利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

根据实施例3可知，本方案在识别出赛场的关键区域后，会获取视频流中第t时刻的视频帧，先利用目标检测网络定位赛场上球的位置B_t＝(x_b,y_b)，以及运动员的位置P_t＝{(x₁,y₁),…,(x_k,y_k)}，其中k为第t时刻赛场上运动员的数量，与传统的目标检测网络不同的是本方案为了保持对球追踪的准确性，采用了多帧+时序输入的策略，令输入为多帧堆叠IP_t＝{I_t-d，…，I_t，…，I_t+d}，其中IP_t为第t时刻检测网络的输入，I_t-d、I_t、I_t+d分别为t-d、t、t+d时刻的图像，d为堆叠的前后时间跨度，然后在网络特征提取层输入多层lstm，以回归出当前检测框的位置和类别，这样既可以在球和运动员被遮挡的情况下，隐式地对时间序列进行建模，根据前帧估计当前帧的位置，同时也可排除对赛场上其他球进行误检的情况。

再来计算运镜的真实中心，首先计算第t时刻帧的初始运镜中心C_t，计算公式为：

C_t＝σ*B_t+(1-σ)*∑P_t/k

其中σ为球的权重系数，同时运镜中心C_t、运镜窗口宽高W_t、H_t应该满足：

其中C_t(x)、C_t(y)分别是C_t的x、y坐标。

其中

令第t时刻真实的运镜中心为R_t，运镜速度为V_t，则V_t＝γV_t-1+(1-γ)(R_t-R_t-1)，其中γ为速度保持系数，同时设定运镜启动阈值ST，当V_t≤S_T且V_t-1＝0时，V_t＝0，即当运镜速度小于启动阈值且前一帧图像为静止图像时，当前帧也为静止图像，此时运镜中心保持不变。

实施例4

如图4所示，一种体育赛事自动直播与导播方法，包括：

S410、获取赛事直播视频流；

S420、对所述视频流进行语义分割，得到赛场的关键区域信息；

S430、获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

S440、利用关键事件识别网络识别所述视频流中关键事件的类型和发生时间；

S450、获取所述关键事件对应的事件主体；

S460、根据所述关键事件的类型、发生时间和事件主体，获取多个角度下所述关键事件的视频流，并进行切换播放。

根据实施例4可知，本方案利用关键事件识别网络对视频流中的事件进行识别，并对识别出的关键事件进行多角度切换播放以实现从不同角度表现同一事件细节的效果，具体的为：在识别出犯规、争抢、进球等关键事件时，首先定位事件主体位置，采用镜头拉近特写、镜头跟踪等策略强化事件主体，并记下事件发生的时间戳t，然后在其他特写相机的视频流上定位时间戳t，并以其为起点截取识别出的关键事件片段E＝{E₁，...,E_m}，其中m为特写相机的个数，最后通过在E的不同片段之间进行切换播放，实现从不同视角观察同一事件的效果。

其中，本方案使用的关键事件识别网络的训练过程为：

(1)收集不同角度的同类别比赛视频；

(2)对收集的视频进行关键事件标注，生成标签{(t_s,t_e,type)}，其中t_s为关键事件的起始时间，t_e为关键事件的结束时间，type为关键事件的类型，包括犯规、争抢、进球等；

(3)从收集的视频中提取出训练样本，其中正样本与标注的时间区域t_s～t_e超过一定的重叠度阈值σ，其余为负样本；

(4)利用X3D、TPN等识别网络对提取的训练样本进行训练。

训练完成后，将实时比赛的视频流输入到关键事件识别网络中，即可定位比赛中的关键事件。

实施例5

如图5所示，一种体育赛事自动直播与导播装置，包括：

获取模块10，用于获取赛事直播视频流；

定位模块20，用于对所述视频流进行语义分割，得到赛场的关键区域信息；

运镜模块30，用于获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；

导播模块40，用于利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

上述装置的一种实施方式可为：获取模块10获取赛事直播视频流；定位模块20对所述视频流进行语义分割，得到赛场的关键区域信息；运镜模块30获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心；导播模块40利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换。

实施例6

如图6所示，一种电子设备，包括存储器601和处理器602，所述存储器601用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器602执行以实现上述的一种体育赛事自动直播与导播方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的电子设备的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

一种存储有计算机程序的计算机可读存储介质，所述计算机程序使计算机执行时实现如上述的一种体育赛事自动直播与导播方法。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器601中，并由处理器602执行，并由输入接口605和输出接口606完成数据的I/O接口传输，以完成本发明,一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机设备中的执行过程。

计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。计算机设备可包括，但不仅限于，存储器601、处理器602,本领域技术人员可以理解，本实施例仅仅是计算机设备的示例，并不构成对计算机设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件，例如计算机设备还可以包括输入器607、网络接入设备、总线等。

处理器602可以是中央处理单元(CentralProcessingUnit，CPU)，还可以是其他通用处理器602、数字信号处理器602(DigitalSignalProcessor，DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，ASIC)、现成可编程门阵列(Field-ProgRAM503mableGateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器602可以是微处理器602或者该处理器602也可以是任何常规的处理器602等。

存储器601可以是计算机设备的内部存储单元，例如计算机设备的硬盘或内存。存储器601也可以是计算机设备的外部存储设备，例如计算机设备上配备的插接式硬盘，智能存储卡(SmartMediaCard,SMC)，安全数字(SecureDigital,SD)卡，闪存卡(FlashCard)等,进一步地，存储器601还可以既包括计算机设备的内部存储单元也包括外部存储设备,存储器601用于存储计算机程序以及计算机设备所需的其他程序和数据,存储器601还可以用于暂时地存储在输出器608，而前述的存储介质包括U盘、移动硬盘、只读存储器ROM603、随机存储器RAM604、碟盘或光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种体育赛事自动直播与导播方法，其特征在于，包括以下步骤：

获取赛事直播视频流；

对所述视频流进行语义分割，得到赛场的关键区域信息；

2.根据权利要求1所述的一种体育赛事自动直播与导播方法，其特征在于，所述对所述视频流进行语义分割，得到赛场的关键区域信息，包括：将所述视频流输入到预先建立的语义分割模型中进行训练，得到赛场的关键区域KEY_AREA＝{L_b,R_b,U_b,D_b,H_l,R_a,G}，其中L_b、R_b、U_b、D_b分别为赛场的左右上下边界,H_l为中场线、R_a为禁区、G为球门区域。

3.根据权利要求2所述的一种体育赛事自动直播与导播方法，其特征在于，所述预先建立的语义分割模型采用粗分加精细化的网络结构，其中，粗分网络为卷积->联合金字塔上采样->孔洞空间金字塔池化，细化网络为基于跳跃连接的优化模块。

4.根据权利要求1所述的一种体育赛事自动直播与导播方法，其特征在于，所述获取所述视频流中某一时刻的视频帧，对所述视频帧进行运镜目标检测，并根据检测结果和所述关键区域信息计算同一时刻的运镜中心，包括：

获取所述视频流中第t时刻的视频帧；

5.根据权利要求1至4任意一项所述的一种体育赛事自动直播与导播方法，其特征在于，所述根据球与运动员的位置，结合所述关键区域信息计算第t时刻的运镜中心，包括：

计算第t时刻帧的初始运镜中心C_t，计算公式为：

C_t＝σ*B_t+(1-σ)*∑P_t/k

其中o为球的权重系数，同时运镜中心C_t、运镜窗口宽高W_t、H_t满足：

其中C_t(x)、C_t(y)分别是C_t的x、y坐标；

其中

6.根据权利要求1所述的一种体育赛事自动直播与导播方法，其特征在于，所述利用关键事件识别网络对所述视频流进行关键事件定位，并根据定位结果进行多角度镜头切换，包括：

获取所述关键事件对应的事件主体；

7.根据权利要求6所述的一种体育赛事自动直播与导播方法，其特征在于，所述关键事件识别网络的形成过程包括：

采集不同角度的同类别比赛视频；

对所述视频进行关键事件标注，生成标签{(t_s,t_e,type)}，其中t_s为关键事件的起始时间，t_e为关键事件的结束时间，type为关键事件的类型；

从所述视频中提取训练样本，其中正样本与标注的时间区域t_s～t_e超过预设的重叠度阈值o，其余为负样本；

8.一种体育赛事自动直播与导播装置，其特征在于，包括：

获取模块，用于获取赛事直播视频流；

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现如权利要求1～7中任一项所述的一种体育赛事自动直播与导播方法。

10.一种存储有计算机程序的计算机可读存储介质，其特征在于，所述计算机程序使计算机执行时实现如权利要求1～7中任一项所述的一种体育赛事自动直播与导播方法。