CN111491173A

CN111491173A - 一种直播封面确定方法、装置、计算机设备及存储介质

Info

Publication number: CN111491173A
Application number: CN202010293557.4A
Authority: CN
Inventors: 余自强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2020-08-04
Anticipated expiration: 2040-04-15
Also published as: CN111491173B

Abstract

本申请提供一种直播封面确定方法、装置、计算机设备及存储介质，涉及人工智能技术领域，该方法用于提升直播封面的吸引力。该方法包括：获得直播视频中的目标视频片段；识别所述目标视频片段中包含目标事件的目标视频帧；根据识别出的目标视频帧，设置所述目标视频片段的直播封面。该方法通过分析目标视频片段中包含目标事件的目标视频帧，根据目标视频帧设置直播封面，使得直播封面包括包含目标事件的视频帧，提升直播封面的吸引力。

Description

一种直播封面确定方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及人工智能技术领域，提供一种直播封面确定方法、装置、计算机设备及存储介质。

背景技术

为了便于各用户选择要观看的直播视频，直播客户端中会展示各个直播对应的直播封面。

目前，一种方式是主播创建直播视频时，自己选择直播视频的封面，这样展示出的直播封面取决于主播的主观意见，对于用户而言，直播封面吸引力并不大。另一种方式是对视频画面进行周期性截图，将截图作为直播封面，这样获得的直播封面随机性较大，对于用户而言，直播封面的吸引力并不大。

发明内容

本申请实施例提供一种直播封面确定方法、装置、计算机设备及存储介质，用于提升直播封面的吸引力。

一方面，提供一种直播封面确定方法，包括：

获得直播视频中的目标视频片段；

识别所述目标视频片段中包含目标事件的目标视频帧；

根据识别出的目标视频帧，设置所述目标视频片段的直播封面。

另一方面，提供一种直播封面确定装置，包括：

获得模块，用于获得直播视频中的目标视频片段；

识别模块，用于识别所述目标视频片段中包含目标事件的目标视频帧；

设置模块，用于根据识别出的目标视频帧，设置所述目标视频片段的直播封面。

在一种可能的实施例中，所述目标事件为至少两个目标对象之间进行互动时的动作特征满足设定条件的事件。

在一种可能的实施例中，所述至少两个目标对象之间进行互动时的动作特征满足设定条件具体包括，所述至少两个目标对象之间的位置关系满足设定条件；所述识别模块具体用于：

所述识别所述目标视频片段中包含目标事件的目标视频帧，具体包括：

针对各视频帧，分别根据设定的图像模板，识别视频帧中与图像模板匹配的图像块；其中，所述图像模板是根据各目标对象关联的特征图像块确定的，且每个目标对象与关联的特征图像块之间有确定的位置关系；

根据识别出的各个图像块以及每个目标对象与关联的特征图像块之间的位置关系，确定各个图像块对应的目标对象的位置；

将各目标对象的位置关系满足设定条件的视频帧确定为所述目标视频帧。

在一种可能的实施例中，所述识别模块具体用于：

根据识别出的各个图像块，获得每个图像块的候选位置；

将距离小于或等于第一阈值的两个候选位置合并为一个候选位置；

将合并后的剩余的各个候选位置作为各图像块的目标位置；

根据各图像块的目标位置，以及每个目标对象与关联的特征图像块之间的位置关系，获得每个目标对象的位置。

在一种可能的实施例中，所述直播视频为对抗游戏视频，所述至少两个目标对象包括两类目标对象，其中，所述两类目标对象之间是对抗关系；所述识别模块具体用于：

识别各图像块的图像特征，根据各图像块的图像特征，确定各类目标对象；其中，不同类的目标对象对应的图像块的图像特征不同；

确定两类目标对象之间的相对距离；

根据所述相对距离，确定各视频帧的战斗指数；其中，两类目标对象之间的相对距离越大，确定出的战斗指数越大；

将战斗指数大于第二阈值的视频帧确定为目标视频帧。

在一种可能的实施例中，所述两类目标对象之中的至少一个类包括多个目标对象；所述识别模块具体用于：

确定两类目标对象中，其中一类目标对象中的每一个目标对象分别与另一类目标对象中的每一个目标对象之间的距离值；

确定两类目标对象之间的相对距离为各距离值的平均值。

在一种可能的实施例中，识别出的目标视频帧包括多个目标视频帧；所述设置模块具体用于：

将识别出的目标视频帧中各目标视频帧的前后预设时长内的视频子片段设置为动态直播封面；或，

将识别出的目标视频帧循环播放设置的视频子片段设置为动态直播封面；或，

将识别出的目标视频帧中各目标视频帧进行拼接后的视频帧子片段设置为动态直播封面；或，

将识别出的目标视频帧中满足预设图像条件的一目标视频帧设置为静态直播封面。

在一种可能的实施例中，所述预设图像条件为图像颜色丰富度满足预设的阈值；其中，所述图像颜色丰富度根据各目标对象所在区域的饱和度和/或亮度确定。

在一种可能的实施例中，所述装置包括发送模块，其中：

所述发送模块，用于将设置的直播封面发送给各用户关联的直播客户端。

在一种可能的实施例中，所述装置包括播放模块，其中：

所述播放模块，用于响应于对直播封面的浏览操作，播放直播封面。

另一方面，提供一种计算机设备，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如一方面中任一直播封面确定方法。

另一方面，提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如一方面中任一直播封面确定方法。

由于本申请实施例采用上述技术方案，至少具有如下技术效果：

本申请实施例中，根据直播视频中的视频片段，识别出视频片段中包含的目标事件的目标视频帧，并根据识别出的目标视频帧设置直播封面，由于直播封面包含目标事件的视频帧，因此，直播封面具有一定的看点，增加了直播封面的吸引力。且，由于直播封面是基于视频片段中的视频帧确定的，因此直播封面是与直播视频相关的，能够一定程度上反映直播视频的真实内容。且，无需主播手动设置直播封面，利于提升直播过程中的效率。

附图说明

图1为本申请实施例提供的一种直播封面确定设备的结构示意图；

图2为本申请实施例提供的一种直播封面确定方法的应用场景示例图；

图3为本申请实施例提供的一种服务器和直播客户端之间的交互示意图；

图4为本申请实施例提供的一种图像模板的示例图；

图5为本申请实施例提供的一种视频帧的示例图；

图6为本申请实施例提供的图5视频帧与图像模板初始匹配的匹配效果图；

图7为本申请实施例提供的对图6中的匹配点进行阈值化后的效果图；

图8为本申请实施例提供的对图7中的匹配点进行合并后的匹配效果图；

图9为本申请实施例提供的目标视频片段的战斗指数的分布示意图；

图10为本申请实施例提供的一种颜色丰富度较高的视频帧的示意图；

图11为本申请实施例提供的一种直播列表封面的示例图；

图12为本申请实施例提供的一种直播封面确定方法的过程示意图；

图13为本申请实施例提供的一种直播封面确定装置的结构示意图；

图14为本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

为了更好的理解本申请实施例提供的技术方案，下面将结合说明书附图以及具体的实施方式进行详细的说明。

为了更清楚地说明本申请实施例中的技术方案，下面对本申请实施例涉及的专业名词进行介绍。

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。本申请实施例主要利用计算机视觉技术中的图像匹配，确定出图像中与图像模板匹配的图像块，进而识别目标对象的位置，具体处理过程可以参照下文实施例论述的内容，此处不再详述。

计算机视觉技术(Computer Vision,CV)：计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

直播封面：又可以称为直播间封面，是指在直播列表封面中用于展示视频概要的图像，直播封面可以是静态的图像，静态的直播封面又可以称为静态直播封面。直播封面也可以是动态的视频片段，动态的直播封面又可以称为动态直播封面。例如直播平台在直播列表封面展示的图像，展示的直播封面利于用户大致了解直播内容。

直播视频：是指直播产生的视频。

目标视频片段：泛指直播过程中产生的一个视频片段，比如可以是直播视频中每一个视频片段，或者直播过程中产生的满足预设条件的视频片段，预设条件比如视频片段的时长达到预设时长，或者比如视频片段中个视频帧的清晰度大于或等于第四阈值等。这里的第四阈值是指设定的清晰度阈值。

视频帧：视频内容是由一系列视频帧组成。视频的帧率(Frame rate)一般是固定的，帧率是指在单位时间内包括的视频帧的数量，帧率的单位可以是FPS，比如视频的帧率为30fps，那么就表示该视频每秒包括30个视频帧。视频中每个视频帧可以看成是一个静态图像，当这些视频帧按照顺序播放时，呈现了动态的视频。

关键帧：是指视频中角色或物体运动中关键动作所对应的那一帧。

游戏角色：包括玩家在游戏中选择或创建的角色，或者包括游戏自带的非玩家控制角色。

对抗游戏视频：泛指竞技类的游戏，在这类游戏中，包括不同的阵营，比如友方阵营，敌方阵营等，例如红色方、蓝色方。一个阵营包含的游戏角色可能是一个或多个。

友方游戏角色：与敌方游戏角色属于相对概念。在竞技类的游戏中，每个游戏角色属于对应的阵营，比如与自己属于同一个阵营的游戏角色，则为友方游戏角色，比如与自己不属于同一个阵营的游戏角色，则为敌方游戏角色。在某些游戏中，游戏进度不同，友方游戏角色和敌方游戏角色所包括的游戏角色可能不同。

目标对象：是指视频中的人物或事物等，以对抗游戏视频为例，目标对象可以是游戏中各个游戏角色等。根据游戏阵营，可以将游戏视频中的目标对象划分成对应的类别，比如第一类为敌方阵营，红色方，第二类为友方阵营，蓝色方等。

目标事件：是指视频片段中的特定事件。针对不同类型的视频，目标事件的具体内容可能不同，也可能相同。比如游戏视频片段中的目标事件可以是激烈的战斗，或者比如视频为录屏时，目标事件可以是作密集、操作难度比较大、或有特定操作时候的视频帧。以对抗游戏视频为例，目标事件为游戏视频中激烈对抗事件，在这种情况下，可以识别游戏视频片段，检测是否有目标事件。针对一个游戏视频片段，目标事件可以是一种或多种。可选的，可以是预先设定有多种事件，主播在创建视频之前，可以选择自己想要展示的目标事件，那么创主播的选择不同，目标事件也就不相同。主播是指进行直播的用户。目标事件可以是至少两个目标对象之间进行互动时的动作特征满足设定条件的事件，动作特征比如至少两个目标对象之间的战斗较为激烈，或者比如至少两个目标对象之间的达成目标任务等。

目标视频帧：是指视频中目标事件对应的视频帧。针对不同类型的直播，目标视频帧具体的内容可能不同。以对抗游戏视频为例，目标视频帧可以是不同阵营战斗激烈时对应的视频帧。

OpenCV：是一个基于BSD许可(开源)发行的跨平台计算机视觉库，可以运行在Linux、Windows、Android和Mac OS等各类操作系统上。

模板匹配：可以理解为将图像与一个模板进行匹配，从而找出图像与模板相似的部分。

图像模板：是指模板匹配时选择的模板，比如图像模板是根据各目标对象关联的特征图像块确定的，每个目标对象与关联的特征图像块之间有确定的位置关系。以直播视频为游戏直播视频为例，图像模板例如可以选择对抗游戏中目标对象的血条中的指定部分，指定部分包括第一格血以及部分第二格血。除此之外，图像模板还可以包括目标对象的等级信息。

色相-饱和度-明度(Hue-Saturation-Value，HSV)：是指一种颜色空间，具体是将红绿蓝色彩模型中的点在圆柱坐标系中的表示方法。

颜色丰富度：用于量化图像呈现的颜色效果。

应当说明的是，本申请实施例中所指的至少一个是指一个或一个以上，多个是指两个或两个以上。A和/或B是指包括A，B，以及A和B的三种情况。

下面对本申请实施例涉及的设计思想进行介绍。

很多用户喜欢观看直播视频，用户需要在直播列表界面中点击相应的直播封面来进入直播间，在进入直播间后才能看到直播的内容。因此直播封面作为对用户的第一印象，很大程度上决定了用户是否点击直播间。且直播封面作为一种内容预览形式，可以通过直播封面告知用户当前的直播内容，用户可在直播列表封面中选择自己感兴趣的直播房间。

在视频创作平台中，一种是由主播设置直播预览图作为直播封面，以供用户查看。另一种是对视频的画面进行周期性的截图，并将截图设置为直播封面，用户通过查看视频截图，来选择想要观看的视频内容。

由主播去设置直播封面，直播封面均取决于主播的偏好，对于用户可能并不具有吸引力；而采用周期性截图的方式，截出的直播封面随机性较大，也很难满足用户的观看需求。

鉴于此，本申请发明人设计一种直播封面确定方法，该方法应用于为直播视频设置直播封面，直播视频的类型可以是任意的，比如游戏类直播视频、教育类直播视频等。该方法通过对视频中的视频片段进行分析，识别出视频片段中存在目标事件的视频帧，并根据识别出的视频帧，设置目标视频片段的直播封面。这样，设置出的直播封面是包含目标事件的视频帧，可以提升直播封面的吸引力。且，设置出的直播封面来源于直播视频，即视频封面不会脱离直播视频的内容，使得直播封面与直播视频相关性更大。且，在主播直播过程中，可以实时分析不同的目标视频片段，确定出不提目标视频片段对应的目标视频帧，基于不同目标视频片段实时更新直播封面，丰富直播视频，进一步提升直播视频对用户的吸引力，提升用户的体验。

进一步地，本申请发明人进一步考虑，很多直播视频都是包含目标对象，比如人物等，而用户更倾向于观看目标对象的相关内容。因此，可以将至少两个目标对象之间进行互动时的动作特征满足设定条件的事件作为目标事件，这样一来，使得确定出的直播封面与目标对象的相关程度更大，确定出的直播封面更符合用户的观看需求，对于用户而言吸引力更大。

进一步地，本申请发明人进一步考虑，如果要直接识别目标对象的动作特征，难度较大，因此可以分析直播视频中各目标对象的位置关系，将目标对象的位置关系满足设定条件的视频帧确定为目标视频帧，如此一来，确定出的目标视频帧包含各目标对象，提升直播视频的吸引力，提升用户体验。

进一步地，本申请发明人进一步考虑，如果直播视频为对抗游戏视频，那么目标视频帧选择战斗情况比较激烈的视频帧更能吸引用户。因此，本申请发明人考虑可以利用对抗关系的第一类目标对象和第二类目标对象之间的距离来衡量游戏的战斗指数，提供了一种量化视频帧的战斗指数的方法，将战斗指数较高的视频帧设置为直播封面，使得确定出的直播封面更吸引用户。

进一步地，本申请发明人进一步考虑，一来视频中包含的目标对象的类型和数量随机性很大，识别难度较大；二来，对抗游戏中，目标对象可能较多，因此，如果是直接以图像识别方式去识别各目标对象，从而确定各目标对象的位置，确定直播封面的难度较大，且处理量也较大，这样可能会导致直播视频的直播封面的更新延迟的情况。因此，本申请发明人考虑可以利用图像模板去匹配出视频帧中的各图像块，这里的图像模板是根据目标对象的特征图像块确定的，即图像模板与目标对象相关，但并不是目标对象本身，这样相较于识别目标对象本身，本申请实施例利用图像模板与视频帧进行匹配的方式，可以快速和准确地确定出目标对象的位置，进而提高确定直播封面的效率。

基于上述设计思想，下面对本申请实施例涉及的直播封面确定方法涉及的应用场景进行介绍。

该方法可以由直播封面确定设备执行，下面对直播封面确定设备的结构进行介绍。请参照图1，表示一种同类元素确定设备的结构示意图。该直播封面确定设备100包括一个或多个输入设备101、一个或多个处理器102、一个或多个存储器103和一个或多个输出设备104。

输入设备101用于提供输入接口，以获取外界设备/主播录制的目标视频片段等，比如输入设备101从摄像头获取实时采集的目标视频片段，或者从终端设备获取目标视频片段等。在获得目标视频片段之后，输入设备101将该目标视频片段发送给处理器102，处理器102利用存储器103中存储的程序指令，确定目标视频片段的包含目标事件的目标视频帧，从而获得目标视频帧，并根据目标视频帧，设置直播封面。通过输出设备104输出直播封面的信息，或者直接展示该直播封面。

其中，输入设备101可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器102可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。存储器103可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器103也可以是非易失性存储器(non-volatile memory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard diskdrive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器103可以是上述存储器的组合。输出设备104例如显示器、扬声器或打印机等。

作为一种实施例，直播封面确定设备100可以是用户端设备，用户端设备可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。

作为一种实施例，直播封面确定设备100也可以是服务端设备。还可预见到的是，直播封面确定设备100能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。

下面对直播封面确定设备100的应用部署进行示例。

请参照图2，表示直播封面确定设备100的部署示意图，也可以表示直播封面确定方法的一种应用场景示意图。该应用场景包括多个终端设备210和服务器220，每个终端设备210包括直播客户端211，该直播客户端211可以预装在终端设备210中的客户端，或者是嵌入在第三方应用中，或者可以是网页版的客户端等，具体不做限制。终端设备220通过网络与服务器220通信，该服务器220可以是直播客户端211对应的后台服务器，或者为该直播客户端211提供确定直播封面服务的服务器220。

应当说明的是，多个终端设备210对应的多个直播客户端211包括用于直播视频创作的创作客户端和用于观看直播视频的观看客户端。创作客户端和观看客户端属于相对概念，比如一个用户在创作直播视频时，该用户对应的直播客户端211可以称为创作客户端，其他观看该直播视频的客户端可以称为观看客户端，当该用户在观看其他用户创作的直播视频时，该用户对应的直播客户端211可以称为观看客户端。

直播封面确定设备100具体实现方式不同，确定直播封面的过程也有差异，下面以直播封面确定设备100为服务器220或终端设备210为例，对确定直播封面的过程进行示例。

第一种应用场景：

直播封面确定设备100通过服务器220实现。

具体的，服务器220从主播对应的终端设备210中获取直播视频的目标视频片段，识别目标视频片段中各视频帧，确定出包含目标事件的目标视频帧，并根据目标视频帧，设置目标视频片段的直播封面，将直播封面的相关信息下发给各直播客户端211，以便于各直播客户端211更新该直播视频对应的直播封面，当各直播客户端211关联的用户点击直播封面之后，可以观看该直播视频的内容。

第二种应用场景：

直播封面确定设备100通过终端设备210实现。

具体的，当主播直播的过程中，终端设备210可以实时获取目标视频片段，识别目标视频片段中各视频帧，确定出包含目标事件的目标视频帧，并根据目标视频帧，设置目标视频片段的直播封面，将直播封面的相关信息直接发送给服务器220，再由服务器220下发各个直播客户端211。

基于图2论述的第一种应用场景，下面对本申请实施例涉及的直播封面确定方法进行介绍。请参照图3，表示服务器220和直播客户端211之间的交互示意图，该交互过程具体包括：

S301，服务器220获取目标视频片段。

比如主播想要直播时，可以打开直播客户端211，进行直播操作，直播客户端211响应于用户的直播操作，向服务器220发送直播请求，从而建立直播客户端211以及服务器220之间的实时通信。

用户可以通过终端设备210中直播客户端211进行直播，比如直播客户端211通过摄像头等拍摄设备实时录制主播设置的拍摄区域的相关画面，生成直播视频，直播客户端211可以实时或周期性地向服务器220上传视频片段，或者服务器220实时或周期性地从直播客户端211获取视频片段。服务器220可以将每个视频片段均作为目标视频片段，或者服务器220可以筛选满足预设条件的视频片段作为目标视频片段。

作为一种实施例，预设条件比如选择满足预设时长视频片段作为目标视频片段，以保证各目标视频片段的时长相同。或者比如视频片段中各视频帧的清晰度均大于或等于第四阈值，这样选择出的目标视频片段清晰度较高，也就利用后续确定出清晰度更高的直播封面。

S302，服务器220识别目标视频片段中存在包含目标事件的目标视频帧。服务器220在获得目标视频片段之后，解析目标视频片段，获得多个视频帧，可以对各个视频帧进行处理，以判断各个视频帧是否存在目标事件，如果存在目标事件，则将该视频帧确定为目标视频帧，如果不存在目标事件，该视频帧确定为非目标视频帧。一个目标视频片段中确定出的目标视频帧可以是一个或多个，具有不限制。目标事件不同，服务器220识别目标视频帧的方式也有所不同，下面进行示例说明。

一种识别目标视频帧的方式如下：

当目标事件为至少两个目标对象的动作特征满足设定条件的事件时，服务器220识别目标视频帧的过程包括如下步骤：

S1.1，针对各视频帧，分别根据设定的图像模板，识别视频帧中与图像模板匹配的图像块；

S1.2，根据识别出的每个图像块以及位置关系，确定至少一个目标对象中每个目标对象的位置；

S1.3，将各目标对象的位置关系满足设定条件的视频帧确定为目标视频帧。

该方式主要是利用图像匹配，将视频帧与设定的图像模板进行匹配，从而确定出视频帧中的图像块，基于图像块与目标对象之间的位置关系，进而确定目标对象在视频帧中的位置。

具体的，在匹配之前，可以先根据目标对象所在图像的特点选择出图像模板。比如可以选择满足如下特征的特征图像块作为图像模板：

(1)包括多个图像元素，且变化的图像元素数量小于指定数量。

在直播视频中往往会构造一些引导用户注意力的视觉元素，在识别目标对象时，可以借助这些视觉元素来确定目标对象的位置。以直播视频为游戏视频为例，一般游戏角色头顶上都会有一个固定形状的血条，由于每个目标对象的血条的外观轮廓几乎相同，因此可通过模板匹配在视频帧中寻找所有目标对象的位置，并根据血条位置获取对应的目标图像在视频帧中的位置。由于血条中的血量、颜色、冷却时间等内容会不断变化，因此可以以血条的都有的相同部分进行模板匹配。

(2)与各目标对象具有固定的相对位置关系、且随着目标对象的移动而移动的。

目标对象头顶一般都带着血条，且随着目标对象的移动而移动。具有该特征的图像内容与目标对象相对位置不会改变，故此适合制作成图像模板。

作为一种实施例，选择不同类别的目标对象所呈现的图像块的特征不同。

这里的不同可以理解为不同类别的目标对象所对应的图像块的特征不完全相同。比如不同类别的目标对象的图像块在某些特征上具有共同点，比如形状和轮廓，在某些特征上不相同，比如颜色。当选择血条作为图像块，一方面不同阵营的目标对象的血条形状是相同的，但是不同阵营的目标对象的血条颜色是不同的，这样可以方便图像匹配过程，又方便后续识别各目标对象的类别。

作为一种实施例，采用的模板图像可以不是完整的图像内容，而是图像内容中相对固定的指定内容。

因为游戏进程中血量大小会发生变化，因此可以选择血条前面第一血格和部分第二血格，并加上目标对象的游戏等级作为图像模板，并利用图像模板与视频帧进行匹配。这个图像模板考虑了视频帧中检测血条形状的特征，且又考虑了血条血量每个时刻都不一样的情况。

作为一种实施例，图像模板包括目标对象在视频帧中的等级和血条，血条包括血条中的第一血格，以及部分第二血格等。

作为一种实施例，除了可以目标对象的血条作为图像模板之外，还可以目标对象的ID、目标对象特有的配饰、装备、道具等作为图像模板。

例如，请参照图4，表示一种选取的图像模板，该图像模板包括目标对象在视频帧中的等级401和血条402，血条包括血条中的第一血格403，以及部分第二血格404。

作为一种实施例，在将图像模板与视频帧匹配之前，可以将视频帧转化为灰度图像，以避免图像颜色对模板匹配过程造成干扰。

在获得选定图像模板之后，可以将设定的图像模板与视频帧进行匹配，比如可以通过使用OpenCV的模板匹配函数(match Template)的标准相关匹配(TM_CCOEFF_NORMED)模式进行匹配，可以方便快速地完成视频帧与图像模板的匹配过程。

例如，请参照图5，表示视频帧的示例图，在该示例图中实际依次包括第一目标对象501，第二目标对象502，第三目标对象503和第四目标对象504，第五目标对象505，以及第六目标对象506。服务器220利用图4所示的图像模板，对图5所示的视频帧进行模板匹配，获得如图6所示的匹配效果示意图，在图6中包括8个匹配点，具体分别为图6中的a,b,c,d,e,f,g和h所示的8个圆圈，每个圆圈表示匹配出的视频帧可能的图像块。除了显示各个目标对象之后，还可以显示该主播的相关画面507。

作为一种实施例，可以依据图像模板的大小设定等大的滑动窗口，然后从目标图像中依序选择与滑动窗口等大的图像块用于与图像模板进行模板匹配操作。例如，在目标对象中按照从左至右，从上到下的顺序滑动滑动窗口依序提取出与不同滑动窗口对应的图像块。不同位置的滑动窗口具有对应的标记，用于标识相应位置的图像块。每个滑动窗口的匹配结果可以用一个匹配程度来表示，形成匹配结果图。该效果图中各像素值代表视频帧在该点与图像模板的匹配程度。

将匹配程度大于或等于第五阈值的点确定为图像块的候选匹配点，也就获得了阈值化后的效果图。该实施例中排除低于匹配程度较低的干扰点，获得更加准确的候选位置。第五阈值是指设定的匹配程度的阈值，比如可以取0.5，大于或等于0.5的点则确定为目标对象的候选位置。

例如，继续参照图6所示的匹配效果图，服务器220确定图6中匹配效果图中匹配点c与图像块的匹配程度小于0.5，因此排除匹配点c，显示如图7所示的阈值化后的效果图，图7中包括匹配点a,b,e,d,f,g和h所示的7个候选位置。

作为一种实施例，可以将多个候选位置中距离小于或等于第一阈值的两个候选位置合并为一个候选位置。这里的第一阈值可以是服务器220提前设定的距离阈值。

具体的，图像块的每个位置可能会匹配出多个候选位置，因此可以将位置接近的候选位置进行合并，比如每个设定大小的区域中一个候选位置作为图像块对应的候选位置。在合并的时候，可以以这两个候选位置的中间位置作为图像块对应的目标位置，或者可以将两个候选位置中任意一个候选位置作为图像块对应的匹配点。在合并处理后，将合并后剩余的候选位置作为各图像块的目标位置。由于每个特征图像块对应目标对象，因此在确定出各个图像块的目标位置之后，也就确定出目标对象对应的候选位置。该实施例对匹配点进行合并处理，利于获得更准确的匹配结果。

例如，请继续参照图7，服务器220对图7所示的结果进行合并处理，确定候选位置a和b之间距离小于阈值，将候选位置a和b进行合并，获得如图8所示意图，该图8中包括仅包括6个目标位置，具体为a,d,f,e,g和h。

作为一种实施例，可以是利用图像模板匹配出对应的图像块，直接基于这些图像块的位置，以及目标对象和特征图像块之间的位置关系，获得目标对象的位置。

在获得视频帧中各图像块的位置，基于目标对象和特征图像块之间的位置关系，以及各个图像块的位置，进而获得各个目标对象对应的位置。比如特征图像块的位置对应目标对象所在的位置，服务器220在获得各个图像块的位置之后，也就相当于获得各目标对象的位置。比如目标对象相较于特征图像块在第一方向上更靠下预设距离，那么在获得图像块的位置之后，对该图像块的位置在第一方向上补偿预设距离，获得目标对象的位置。

以此类推，可以获得目标视频片段中所有视频帧中每个视频帧中各目标对象的位置。

本申请实施例中，通过模板匹配的方式来提取目标对象的图像块，通过模板匹配能够迅速定位到目标对象相关的图像块，能够提升确定图像目标对象位置的效率。

在获得视频帧中各目标对象的位置之后，也就能获得各目标对象的位置关系，将各目标对象的位置关系满足预设条件的视频帧确定为目标视频帧，将各目标对象的位置关系满足预设条件的视频帧确定为目标视频帧的方式如下：

方式一：

获得每两个目标对象之间的相对距离，如果视频帧包括两个目标对象，那么只能获得一个相对距离，那么该相对距离如果小于或等于第六阈值，则将该视频帧作为目标视频帧。这里的第六阈值可以提前设定的距离阈值。如果该相对距离大于第六阈值，则该视频帧确定为非目标视频帧。

如果视频帧包括三个或三个以上的目标对象，那么就可以获得多个相对距离。如果这些相对距离中的最大值小于或等于第六阈值，则将该视频帧确定为目标视频帧，如果这些相对距离中的最大值大于第六阈值，则将该视频帧确定为非目标视频帧。

方式二：

将战斗指数大于第二阈值的视频帧确定为目标视频帧。

当直播视频为对抗游戏视频时，可以将游戏战斗指数较大的视频帧确定为目标视频帧，具体确定战斗指数的方式示例如下：

S2.1，识别各图像块的图像特征，根据各图像块的图像特征，确定各类目标对象；

S2.2，确定两类目标对象之间的相对距离；

S2.3，根据相对距离，确定各视频帧的战斗指数；其中，两类目标对象之间的相对距离越大，确定出的战斗指数越大；

S2.4，将战斗指数大于第二阈值的视频帧确定为目标视频帧。

具体的，如前文论述的内容，在获得视频帧中各个图像块的位置之后，可以根据各图像块的图像特征，确定出各目标对象的类别，为了更清楚地说明两类目标对象之间的关系，下文中以两类目标对象包括第一类目标对象和第二类目标对象为例进行说明，第一类目标对象和第二类目标对象之间可以是呈对抗关系，对抗关系可以理解为两类目标对象属于不同阵营。在确定出各目标对象的类别之后，从而获得视频帧中呈对抗关系的第一类目标对象和第二类目标对象。

应当说明的是，图像块的图像特征选取的是针对不同类的目标对象呈现出的图像特征不同的图像特征，比如对抗游戏中，不同阵营的目标对象呈现的血条颜色不同，那么图像块的图像特征就可以选择图像块的颜色，根据各个目标对象呈现出的颜色，确定各个目标对象到底属于哪一种分类。当然，对抗游戏视频中除了第一类目标对象和第二类目标对象之外，还可能包括其它类别的目标对象。

在区分出目标对象的类别之后，如果第一类目标对象包括一个，第二类目标对象包括一个，那么可以确定第一类目标对象与第二类目标对象之间的距离值，距离值比如可以是欧式距离，这个距离值也就是需要确定的相对距离，并基于该相对距离，确定战斗指数。

如果第一类目标对象包括多个，或者第二类目标对象包括多个，或者第一类目标对象和第二类目标对象均包括多个，那么可以确定每个第一类目标对象与每个第二类目标对象之间的距离值，进而可以获得多个距离值，将多个距离值之和，或者多个距离值的平均值作为第一类目标对象和第二类目标对象之间的相对距离。

一种确定每个第一类目标对象与每个第二类目标对象之间的距离值的公式如下：

其中，

表示第一类目标对象在x轴上的坐标，

表示第二类目标对象在x轴上的坐标，

表示第一类目标对象在y轴上的坐标，

表示第二类目标对象在y轴上的坐标。

如果相对距离越小，表示呈对抗关系的第一类目标对象和第二类目标对象之间的距离越小，那么表示双方战斗的可能性越高，战斗指数越大；

如果相对距离越大，表示呈对抗关系的第一类目标对象和第二类目标对象之间的距离越大，那么表示双方战斗的可能性越小，战斗指数越小。因此，可以利用相对距离以及预设函数，确定战斗指数，预设函数中自变量和因变量呈反相关关系即可。

一种确定战斗指数的公式如下：

其中，T表示第七阈值，为设定的一个距离阈值，

表示一个第一类目标对象的位置，

表示一个第二类目标对象的位置，w、h代表视频帧的宽度和高度。

表示第一类目标对象和第二类目标对象之间的相对距离。

当第一类目标对象只包括一个目标对象，以及当第二类目标对象只包括一个目标对象时，

和d的取值相同。当第一类目标对象包括多个目标对象时和/或第二类目标对象包括多个目标对象时，

则是前文论述的多个距离值的平均值。

以此类推，就可以获得目标视频片段中各个视频帧的战斗指数。在获得各视频帧的战斗指数之后，可以将战斗指数大于第二阈值的视频帧确定为目标视频帧。这样的方式简单直接。

作为一种实施例，基于目标视频帧，确定出战斗片段。战斗片段是指战斗指数相对较高的视频子片段。

比如可以以目标视频帧为中心，确定目标视频帧前后预设时长内的目标视频子片段，将目标视频子片段作为战斗片段。目标视频帧前后预设时长是指，以目标视频帧为中心，往视频时间轴往前取预设时长，以及往视频时间轴往后取预设时长，获得目标视频子片段。如果有多个目标视频帧，对应可以获得一个或多个目标视频子片段。

或者比如，可以以预设时长为周期，计算目标视频片段中每个预设时长对应的目标视频子片段的平均战斗指数。目标视频子片段为目标视频片段中预设时长的一个片段，目标视频子片段的总时长小于目标视频片段的总时长。在确定各目标视频子片段的平均战斗指数之后，将平均战斗指数最高的目标视频子片段确定为战斗片段。

例如，请参照图9，表示目标视频片段中各个目标视频子片段的战斗指数非分布示意图，该目标视频片段从13点40分～23点20分，每个目标视频子片段的时长为20分钟，从图9可以看出，在21点20分，以及16点40分的目标视频子片段的战斗指数相对较高。

作为一种实施例，服务器在确定直播封面的过程中，可以仅缓存上一个目标视频片段对应的战斗片段。这样不影响后续确定直播封面，也不会占用服务器220过多的缓存空间。

S303，根据目标视频帧，设置目标视频片段的直播封面。

在确定目标视频帧之后，可以根据目标视频帧设置直播封面。服务器220可以设置静态的直播封面，或者可以设置动态封面，下面对S303具体实现方式进行示例。

一：当服务器220设置静态的直播封面的情况下，具体设置方式如下：

A1：将一目标视频帧设置为目标视频片段对应的直播封面。

如前文论述的内容，目标视频片段包括的目标视频帧可能是一个或多个，如果目标视频片段包括多个目标视频帧时，可以随机将一个目标视频帧确定为直播封面。

A2：将战斗指数最高的目标视频帧确定为直播封面。

A3：将多个目标视频帧进行拼接，将拼接后的图像作为直播封面。

拼接是指将多个目标视频帧组成一张图像，具体拼接顺序或拼接样式可以是任意的。

A4：将多个目标视频帧中颜色丰富度满足第三阈值的目标视频帧确定为直播封面。画面颜色更加丰富，对于用户更具吸引力，因此可进一步地提取画面颜色丰富度高的目标视频帧作为直播封面。画面刺激更加强烈，可更好地被选定作为直播静态封面。

A5：将战斗片段中颜色丰富度满足第三阈值的视频帧确定为直播封面。

其中，A4和A5涉及到如何确定视频帧的颜色丰富度，下面对获得视频帧的颜色丰富度的方式进行示例说明：

S3.1，确定视频帧中各目标对象所在区域的饱和度和亮度；

S3.2，确定视频帧中所有目标对象所在区域的饱和度和亮度的平均值，获得视频帧的颜色丰富度。

具体的，如前文论述的内容，在获得视频帧中各目标对象所在的位置之后，可以基于预存的目标对象的尺寸，以及目标对象的位置，进而确定出目标对象所在区域，进而确定出目标对象所在区域的饱和度，以及目标对象所在区域的亮度。

不同目标对象都具有相应的尺寸。目标对象和相应的尺寸的对应关系可以保存在映射关系中。该映射关系可以存储在服务器220中。映射关系示例可如下下表一所示：

例如确定第一目标对象所在区域的饱和度，则是该第一目标对象对应的118*118区域中每个像素点的饱和度之和，以此类推，进而可以获得每个目标对象所在区域的饱和度，以及亮度。

计算视频帧中所有目标对象所在区域的饱和度和亮度的平均值，从而获得视频帧的颜色丰富度。具体颜色丰富度的计算公式示例如下：

其中，B表示颜色丰富度，C表示视频帧中目标对象的总数，i表示第i个目标对象所在区域，H表示目标对象所在区域的宽度，W表示目标对象所在区域的高度。S表示饱和度，V表示亮度，S和V的取值范围均为0～255。

该实施例中，以视频帧中各目标对象所在区域的颜色丰富度来评价视频帧，选择颜色丰富度较大的视频帧作为直播封面，可以保证视频帧中各目标对象的鲜艳度，且在游戏中，当目标对象释放一些技能时，视频帧也会呈现更丰富的颜色，更能表示战斗的激烈，提升直播封面的吸引力。

例如，请参照图10，表示目标视频片段中的视频帧，图10中的视频帧与图5中的视频帧时间相近，但是图10中由于目标对象释放大量技能，例如图10中所示的第一目标对象释放的禁锢圈1001，以及所示的第三目标对象释放的冰冻柱1002等，导致图10中的颜色丰富度大于图5所示的视频帧的颜色丰富度。

二：当服务器220设置动态的直播封面的情况下，具体设置方式如下：

B1：将前文论述的战斗片段设置为直播封面。

B2：将所有目标视频帧设置成循环播放的视频子片段，将该视频子片段设置为直播封面。

服务器220在获得多个目标视频帧之后，可以将每个视频帧设置一定的播放时长，从而将合成的视频子片段设置为直播封面。

S304，服务器220将设置的直播封面发送给各用户关联的直播客户端211。

具体的，服务器220在生成直播封面之后，可以将设置的直播封面依次下发给各个观看直播的直播客户端211，以便于各个直播客户端211显示直播封面。如果直播封面为目标视频片段中的某一视频子片段或者视频帧时，服务器220可以仅下发该某一视频子片段的标识或者视频帧的标识给各个直播客户端211。标识可以是视频子片段在时间轴上的时间，或者视频帧在时间轴上的时间。这里的观看直播用户的直播客户端211还包括主播对应的直播客户端211。

S305，直播客户端211响应于直播封面的浏览操作，播放该直播封面。

当直播封面为静态封面时，直播客户端211直接展示各直播封面，当直播封面为动态封面时，比如用户拉取直播封面列表，直播客户端211直接播放各直播封面，或者当用户鼠标指针挪到某个直播封面的界面上，直播客户端211才开始播放该直播封面。

例如，请参照图11，表示在直播客户端211中呈现的直播封面列表，当用户将鼠标指针挪到一直播封面1101时，直播客户端211开始播放该直播封面1101。

作为一种实施例，随着直播的不断进行，服务器220会针对各目标视频片段进行上述过程，以确定后续目标视频片段的直播封面，进而不断地更新直播视频的封面。

为了更清楚地说明本申请实施例涉及的直播封面确定方法，下面以对抗游戏为例，对直播封面确定方法进行示例说明。

请参照图12，表示服务器220直播封面确定的过程示意图，该直播封面确定的过程具体包括：

S1201，服务器220确定目标视频片段中各视频帧的战斗指数。

目标视频片段，以及确定视频帧的战斗指数的方式可以参照前文论述的内容，此处不再赘述。

S1202，根据各视频帧的战斗指数，确定出战斗片段。

确定战斗片段的方式可以参照前文论述的内容，此处不再赘述。

S1203，服务器220将战斗片段中颜色丰富度最高的视频帧确定为直播封面。

S1204，服务器220将战斗片段确定为直播封面。

其中，S1203和S1204属于两种情况，在实际确定直播封面的过程中，服务器220会执行其中的一种。

在前文论述的第二种应用场景下，终端设备210可以确定出直播封面，终端设备210确定直播封面的方式可以参照前文论述的内容，此处不再赘述。当终端设备210确定出直播封面之后，可以将直播封面发送给服务器220，再由服务器220下发给各个直播客户端211。

基于同一发明构思，本申请实施例提供一种直播封面确定装置，该装置相当于设置在前文论述的直播封面确定设备100中，请参照图13，该直播封面确定装置1300包括：

获得模块1301，用于获得直播视频中的目标视频片段；

识别模块1302，用于识别目标视频片段中包含目标事件的目标视频帧；

设置模块1303，用于根据识别出的目标视频帧，设置目标视频片段的直播封面。

在一种可能的实施例中，目标事件为至少两个目标对象之间进行互动时的动作特征满足设定条件的事件。

在一种可能的实施例中，至少两个目标对象之间进行互动时的动作特征满足设定条件具体包括，至少两个目标对象之间的位置关系满足设定条件；识别模块1302具体用于：

识别目标视频片段中包含目标事件的目标视频帧，具体包括：

针对各视频帧，分别根据设定的图像模板，识别视频帧中与图像模板匹配的图像块；其中，图像模板是根据各目标对象关联的特征图像块确定的，且每个目标对象与关联的特征图像块之间有确定的位置关系；

将各目标对象的位置关系满足设定条件的视频帧确定为目标视频帧。

在一种可能的实施例中，识别模块1302具体用于：

根据识别出的各个图像块，获得每个图像块的候选位置；

将合并后的剩余的各个候选位置作为各图像块的目标位置；

在一种可能的实施例中，直播视频为对抗游戏视频，至少两个目标对象包括两类目标对象，其中，两类目标对象之间是对抗关系；识别模块1302具体用于：

确定两类目标对象之间的相对距离；

根据相对距离，确定各视频帧的战斗指数；其中，两类目标对象之间的相对距离越大，确定出的战斗指数越大；

将战斗指数大于第二阈值的视频帧确定为目标视频帧。

在一种可能的实施例中，两类目标对象之中的至少一个类包括多个目标对象；识别模块1302具体用于：

确定两类目标对象之间的相对距离为各距离值的平均值。

在一种可能的实施例中，识别出的目标视频帧包括多个目标视频帧；设置模块1303具体用于：

在一种可能的实施例中，预设图像条件为图像颜色丰富度满足预设的阈值；其中，图像颜色丰富度根据各目标对象所在区域的饱和度和/或亮度确定。

在一种可能的实施例中，该直播封面确定装置1300包括发送模块1304，其中：

发送模块，用于将设置的直播封面发送给各用户关联的直播客户端。

在一种可能的实施例中，该直播封面确定装置1300包括播放模块1305，其中：

播放模块，用于响应于对直播封面的浏览操作，播放直播封面。

作为一种实施例，该直播封面确定装置1300中的发送模块1304和播放模块1305是可选的。

基于同一发明构思，本申请实施例还提供了一种计算机设备。该计算机设备相当于前文论述的直播封面确定设备。

请参照图14，计算机设备1400以通用计算机设备的形式表现。计算机设备140的组件可以包括但不限于：至少一个处理器1410、至少一个存储器1420、连接不同系统组件(包括处理器1410和存储器1420)的总线1430。

总线1430表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器1420可以包括易失性存储器形式的可读介质，例如随机存取存储器(RAM)1421和/或高速缓存存储器1422，还可以进一步包括只读存储器(ROM)1423。

存储器1420还可以包括具有一组(至少一个)程序模块1425的程序/实用工具1426，这样的程序模块1425包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1410用于执行存储器1420存储的程序指令等实现前文论述的直播封面确定方法。或实现前文论述的直播封面确定设备100的功能，或实现前文论述的直播封面确定装置1300的功能。

计算机设备1400也可以与一个或多个外部设备1440(例如键盘、指向设备等)通信，还可与一个或者多个使得终端设备210能与计算机设备1400交互的设备通信，和/或与使得计算机设备1400能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1450进行。并且，计算机设备1400还可以通过网络适配器1460与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1460通过总线1430与用于计算机设备1400的其它模块通信。应当理解，尽管图中未示出，可以结合计算机设备1400使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

基于同一发明构思，本申请实施例提供一种存储介质，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行前文论述的直播封面确定方法。本申请实施例中的存储介质泛指计算机可读存储介质。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种直播封面确定方法，其特征在于，包括：

获得直播视频中的目标视频片段；

识别所述目标视频片段中包含目标事件的目标视频帧；

2.如权利要求1所述的方法，其特征在于，所述目标事件为至少两个目标对象之间进行互动时的动作特征满足设定条件的事件。

3.如权利要求2所述的方法，其特征在于，所述至少两个目标对象之间进行互动时的动作特征满足设定条件具体包括，所述至少两个目标对象之间的位置关系满足设定条件；

4.如权利要求3所述的方法，其特征在于，所述根据识别出的各个图像块以及每个目标对象与关联的特征图像块之间的位置关系，确定各个图像块对应的目标对象的位置，具体包括：

根据识别出的各个图像块，获得每个图像块的候选位置；

将合并后的剩余的各个候选位置作为各图像块的目标位置；

5.如权利要求3所述的方法，其特征在于，所述直播视频为对抗游戏视频，所述至少两个目标对象包括两类目标对象，其中，所述两类目标对象之间是对抗关系；

所述将各目标对象的位置关系满足设定条件的视频帧确定为所述目标视频帧，具体包括：

确定两类目标对象之间的相对距离；

将战斗指数大于第二阈值的视频帧确定为目标视频帧。

6.如权利要求5所述的方法，其特征在于，所述两类目标对象之中的至少一个类包括多个目标对象；

所述确定所述两类目标对象之间的相对距离，具体包括：

确定两类目标对象之间的相对距离为各距离值的平均值。

7.如权利要求1～6任一项所述的方法，其特征在于，识别出的目标视频帧包括多个目标视频帧；

所述根据识别出的目标视频帧，设置所述目标视频片段的直播封面，具体包括：

8.如权利要求7所述的方法，其特征在于，所述预设图像条件为图像颜色丰富度满足预设的阈值；其中，所述图像颜色丰富度根据各目标对象所在区域的饱和度和/或亮度确定。

9.如权利要求1～6任一项所述的方法，其特征在于，在根据识别出的目标视频帧，设置所述目标视频片段的直播封面之后，包括：

将设置的直播封面发送给各用户关联的直播客户端；或，

响应于对直播封面的浏览操作，播放直播封面。

10.一种直播封面确定装置，其特征在于，包括：

获得模块，用于获得直播视频中的目标视频片段；

11.如权利要求10所述的装置，其特征在于，所述目标事件为至少两个目标对象之间进行互动时的动作特征满足设定条件的事件。

12.如权利要求11所述的装置，其特征在于，所述至少两个目标对象之间进行互动时的动作特征满足设定条件具体包括，所述至少两个目标对象之间的位置关系满足设定条件；所述识别模块具体用于：

13.一种计算机设备，其特征在于，包括：

至少一个处理器，以及

与所述至少一个处理器通信连接的存储器；

其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1～9中任一项所述的方法。

14.一种存储介质，其特征在于，所述存储介质存储有计算机指令，当所述计算机指令在计算机上运行时，使得计算机执行如权利要求1～9中任一项所述的方法。