CN118118748A

CN118118748A - 直播过程中回放视频的生成方法及相关装置

Info

Publication number: CN118118748A
Application number: CN202410026845.1A
Authority: CN
Inventors: 苟亚明
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-01-04
Filing date: 2024-01-04
Publication date: 2024-05-31

Abstract

本申请涉及视频处理技术领域，提供一种直播过程中回放视频的生成方法及相关装置，该方法包括：响应于直播过程中触发的回放生成操作，对获取的直播视频流进行关键帧提取处理，获得候选关键帧；基于候选关键帧的图像特征和候选关键帧包含的目标对象，构建融合特征，并利用类型预测模型，基于融合特征，获得候选关键帧属于目标帧类型的预测概率；基于候选关键帧的预测概率，确定属于目标帧类型的目标关键帧；基于目标关键帧，生成回放视频。本申请实施例中，通过对直播中的精彩片段进行剪辑，构建回放视频，从而提高直播回放效果，满足直播过程中的针对精彩画面的回放需求。

Description

直播过程中回放视频的生成方法及相关装置

技术领域

本申请涉及视频处理技术领域，提供一种直播过程中回放视频的生成方法及相关装置。

背景技术

随着计算机技术的不断发展，网络直播得到了广泛的普及。在直播场景中，主播可以通过直播客户端进行直播，观众可以通过直播客户端，进入感兴趣的直播间，观看主播直播的内容。

相关技术中，直播回放通常采用以下方式实现：服务器缓存实时视频流作为回放视频流，直播客户端响应于目标对象的回放指令，根据回放指令中携带的回放时刻，从服务器获取并播放回放时刻对应的回放视频流。

显然，上述直播回放的过程相当于录屏，然而，在某些直播场景中，录屏难以满足直播需求，进而影响直播效果。比如，在竞技类赛事直播中，可能因赛事暂停或技术故障等原因，需要对直播中的某些精彩片段进行剪辑后播放，而录屏难以满足赛事直播需求。

发明内容

本申请实施例提供一种直播过程中回放视频的生成方法及相关装置，用以在直播回放过程中，生成直播精彩片段视频进行播放，提高直播回放效果。

第一方面，本申请实施例提供一种直播过程中回放视频的生成方法，包括：

响应于直播过程中触发的回放生成操作，获取所述回放生成操作的触发节点之前的设定时长内的直播视频流，并对所述直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧；

利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征；

基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象；

基于所述图像特征和所述目标对象，构建所述候选关键帧的融合特征，并基于所述融合特征，采用类型预测模型，获得所述候选关键帧属于目标帧类型的预测概率；

基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧；

基于所述目标关键帧，生成所述回放视频。

第二方面，本申请实施例提供一种直播过程中回放视频的生成装置，包括：

数据获取单元，用于响应于直播过程中触发的回放生成操作，获取所述回放生成操作的触发节点之前的设定时长内的直播视频流，并对所述直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧；

特征提取单元，用于利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征；

目标检测单元，用于基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象；

特征融合单元，用于基于所述图像特征和所述目标对象，构建所述候选关键帧的融合特征，并基于所述融合特征，采用类型预测模型，获得所述候选关键帧属于目标帧类型的预测概率；

类型筛选单元，用于基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧；

视频生成单元，用于基于所述目标关键帧，生成所述回放视频。

作为一种可能的实现方式，所述类型预测模型是利用样本视频集通过迭代训练得到的，类型筛选单元用于在每次迭代训练过程中，执行以下操作：

基于获取的若干样本视频各自包含的各样本关键帧的图像特征、目标对象和位置编码，构建各样本关键帧各自对应的样本融合特征；

基于构建的各样本融合特征，采用所述类型预测模型，获得所述各样本关键帧各自对应的样本预测概率；

基于各样本关键帧各自对应的样本预测概率和实际帧类型，获得模型损失，并基于所述模型损失进行模型调参。

作为一种可能的实现方式，所述基于各样本关键帧各自对应的样本预测概率和实际帧类型，获得模型损失之前，类型筛选单元还用于：

基于所述各样本关键帧各自包含的目标对象，获得所述目标对象在所述样本视频中的移动轨迹；

基于获得的所述移动轨迹，确定所述目标对象的标注评估值；

基于所述标注评估值，获得所述各样本关键帧各自对应的实际帧类型。

作为一种可能的实现方式，所述基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧时，类型筛选单元具体用于：

基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出预测概率不低于设定的类型概率阈值的至少一个候选关键帧；

将筛选出的至少一个候选关键帧，作为属于目标帧类型的目标关键帧。

作为一种可能的实现方式，所述基于所述目标关键帧，生成所述回放视频时，视频生成单元具体用于：

基于各项排序指标及其各自对应的权重，获得所述目标关键帧的排序评估值；

基于获得的所述排序评估值，对所述目标关键帧进行排序；

基于排序结果，构建回放视频。

作为一种可能的实现方式，若目标关键帧为多个，所述基于排序结果，构建回放视频时，视频生成单元具体用于：

基于多个目标关键帧各自对应的融合特征，按照所述排序结果，获得相邻的每两个目标关键帧之间的帧相似度；

基于获得的各帧相似度，从所述多个目标关键帧中，删除符合设定去重条件的目标关键帧，并基于删除后的各目标关键帧，构建所述回放视频。

作为一种可能的实现方式，所述基于各项排序指标及其各自对应的权重，获得所述目标关键帧的排序评估值时，视频生成单元具体用于：

基于待推荐对象的对象特征，采用训练后的权重模型，获得所述各项排序指标各自对应的权重；

基于获得的各权重，结合所述各项排序指标各自对应的指标取值，获得所述目标关键帧的排序评估值。

作为一种可能的实现方式，所述基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象时，目标检测单元具体用于：

基于所述图像特征中的各像素的像素值，获得目标类型像素在设定的投影方向上的像素分布信息；

基于所述像素分布信息，获得所述图像特征包含的目标对象的边界位置；

基于获得的边界位置，获得所述候选关键帧中的目标对象。

作为一种可能的实现方式，所述基于所述像素分布信息，获得所述图像特征包含的目标对象的边界位置时，目标检测单元具体用于：

基于所述像素分布信息，获得在沿所述投影方向的各统计单位上，所述目标类型像素的连续像素数量；

基于所述各统计单位各自对应的连续像素数量，结合设定的像素数量范围，获得所述图像特征包含的目标对象的边界位置。

作为一种可能的实现方式，所述基于获得的边界位置，获得所述候选关键帧中的目标对象时，目标检测单元具体用于：

按照设定图像分割尺寸，对所述图像特征进行分割，获得各图像块；

基于所述目标对象的边界位置，确定所述各图像块各自对应的物体类型标签；

基于所述各图像块及其各自对应的物体类型标签，获得所述候选关键帧中的目标对象。

作为一种可能的实现方式，所述利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征时，特征提取单元具体用于：

将所述候选关键帧，输入至所述图像特征提取模型的卷积层中，获得相应的至少一个局部图像特征；其中，所述卷积层中包含至少一个卷积核，每个卷积核用于提取一类局部图像特征；

将所述至少一个局部图像特征，输入至所述图像特征提取模型的激活函数层和池化层，获得相应的图像特征。

第三方面，本申请实施例提供一种电子设备，包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行上述方法的步骤。

第四方面，本申请实施例提供一种计算机可读存储介质，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行上述任一方面方法的步骤。

第五方面，本申请实施例提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质中读取并执行所述计算机程序，使得电子设备执行上述任一方面方法的步骤。

本申请实施例中，响应于直播过程中触发的回放生成操作，获取回放生成操作的触发节点之前的设定时长内的直播视频流，并对直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧；利用图像特征提取模型，对候选关键帧进行图像特征提取，获得候选关键帧的图像特征；基于图像特征，对候选关键帧进行目标对象识别，获得候选关键帧中的目标对象；基于图像特征和目标对象，构建候选关键帧的融合特征，并基于融合特征，采用类型预测模型，获得候选关键帧属于目标帧类型的预测概率；基于候选关键帧的预测概率，从候选关键帧中，筛选出属于目标帧类型的目标关键帧；基于目标关键帧，生成回放视频。

这样，在直播过程中需要进行生成回放视频时，可以获取一定时长内的直播视频流，通过调整设定历史时长的取值，不仅可以减少计算量，还可以达到实时直播回放的效果；其次，从直播视频流中，提取出各候选关键帧，相对于针对全部视频帧进行处理而言，针对关键帧进行后续处理，在提高数据处理效率的同时，还可以保证回放视频的质量；再次，利用图像特征和识别出的目标对象构建融合，使得类型预测模型可以综合考虑图像特征和目标对象进行预测，从而提高直播场景中目标帧类型(如赛事中的精彩片段)的判断准确性，进而根据目标关键帧生成回放视频，实现了直播场景中针对精彩片段的剪辑回放，提升了直播回放的播放效果。

本申请的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本申请而了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请实施例中提供的一种应用场景的示意图；

图2为本申请实施例中提供的一种直播过程中回放视频的生成方法的流程示意图；

图3为本申请实施例中提供的一种关键帧提取处理及预处理过程的示意图；

图4为本申请实施例中提供的一种图像特征提取模型的应用过程的逻辑示意图；

图5为本申请实施例中提供的一种卷积操作的逻辑示意图；

图6为本申请实施例中提供的一种投影方向的示意图；

图7为本申请实施例中提供的一种去重过程的逻辑示意图；

图8为本申请实施例中提供的一种类型预测模型的训练方法的流程示意图；

图9为本申请实施例中提供的一种类型预测模型训练过程的示意图；

图10为本申请实施例中提供的一种直播回放过程的示意图；

图11为本申请实施例中提供的一种直播过程中回放视频的生成装置的结构示意图；

图12为本申请实施例中提供的一种电子设备的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请技术方案的一部分实施例，而不是全部的实施例。基于本申请文件中记载的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请技术方案保护的范围。

本申请实施例中，术语“模块”或“单元”是指有预定功能的计算机程序或计算机程序的一部分，并与其他相关部分一起工作以实现预定目标，并且可以通过使用软件、硬件(如处理电路或存储器)或其组合来全部或部分实现。同样的，一个处理器(或多个处理器或存储器)可以用来实现一个或多个模块或单元。此外，每个模块或单元都可以是包含该模块或单元功能的整体模块或单元的一部分。

可以理解的是，在本申请的具体实施方式中，涉及到对象特征、反馈数据等相关的数据，当本申请以上实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、预训练模型技术、操作/交互系统、机电一体化等。其中，预训练模型又称大模型、基础模型，经过微调后可以广泛应用于人工智能各大方向下游任务。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、监测和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。大模型技术为计算机视觉技术发展带来重要变革，Swin Transformer、视觉自注意力模型(Vision Transformer，ViT)、基于混合专家网络(Mixture of Experts，MoE)的视觉模型(Vision MoE，V-MoE)、掩码自编码器(Masked Autoencoders，MAE)等视觉领域的预训练模型经过微调(fine tune)可以快速、广泛适用于下游具体任务。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(OpticalCharacter Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。大模型技术为语音技术发展带来变革，WavLM、UniSpeech等沿用Transformer架构的预训练模型具有强大的泛化性、通用性，可以优秀完成各方向的语音处理任务。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理涉及自然语言，即人们日常使用的语言，与语言学研究密切；同时涉及计算机科学、数学等学科。人工智能领域模型训练的重要技术，预训练模型，即是从NLP领域的大语言模型(Large Language Model)发展而来。经过微调，大语言模型可以广泛应用于下游任务。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。预训练模型是深度学习的最新发展成果，融合了以上技术。

自动驾驶技术，指车辆在无驾驶员操作的情况下实现自行驾驶。通常包括高精地图、环境感知、计算机视觉、行为决策、路径规划、运动控制等技术。自动驾驶包括单车智能、车路协同、联网云控等多种发展路径。自动驾驶技术有着广泛的应用前景，目前的领域为物流、公共交通、出租车、智慧交通领域外，未来将得到进一步发展。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、数字孪生、虚拟人、机器人、人工智能生成内容(AIGC)、对话式交互、智能医疗、智能客服、游戏AI等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

预训练模型(Pre-training model)，也称基石模型、大模型，指具有大参量的深度神经网络(Deep neural network，DNN)，在海量未标记的数据上对其进行训练，利用大参量DNN的函数近似能力使PTM在数据上提取共性特征，经微调(fine tune)、参数高效微调(PEFT)、prompt-tuning等技术，适用于下游任务。因此，预训练模型可以在小样本(Few-shot)或零样本(Zero-shot)场景下达到理想效果。预训练模型按照处理的数据模态可以分为语言模型(ELMO，BERT，GPT)、视觉模型(swin-transformer，ViT，V-MOE)、语音模型(VALL-E)、多模态模型(ViBERT，CLIP，Flamingo，Gato)等，其中多模态模型指建立两种或以上数据模态特征表示的模型。预训练模型是输出人工智能生成内容(AIGC)重要工具，也可以作为连接多个具体任务模型的通用接口。

本申请实施例提供的方案涉及人工智能的机器学习技术，具体涉及：基于预训练的图像特征提取模型，获得候选关键帧的图像特征；基于根据图像特征构建的各融合特征，采用类型预测模型，获得候选关键帧的预测概率，从而通过候选关键帧的预测概率，确定属于目标帧类型(比如精彩画面)的目标关键帧，进而根据目标关键帧生成回放视频。具体内容参见下文，在此不再赘述。

参阅图1所示，其为本申请实施例中提供的一种应用场景的示意图。该应用场景中包括：第一终端设备110、第二终端设备120和服务器130。第一终端设备110、第二终端设备120和服务器130各自的数量可以是一个或多个。本申请对第一终端设备110、第二终端设备120和服务器130的数量不做具体限定。

本申请实施例中，无论是第一终端设备110，还是第二终端设备120，终端设备可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、物联网设备、智能家电、车载终端、飞行器等，但并不局限于此。

第一终端设备110和第二终端设备120中均安装有直播客户端，其中，第一终端设备110通过直播客户端录制直播视频流，第二终端设备120通过直播客户端观看直播视频流。

服务器130则是客户端相对应的后台服务器。服务器130可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

第一终端设备110、第二终端设备120和服务器130可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

作为一种可能的实现方式，服务器130接收第一终端设备110发送的直播视频流，并在接收到来自第二终端设备120的观看指示时，将直播视频流发送给第二终端设备120。

作为一种可能的实现方式，直播过程中，服务器130接收到第二终端设备120的回放生成指示时，获取所述回放生成操作的触发节点之前的设定时长内的直播视频流，并对直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧；利用图像特征提取模型，对候选关键帧进行图像特征提取，获得候选关键帧的图像特征；基于图像特征，对候选关键帧进行目标对象识别，获得候选关键帧中的目标对象；基于图像特征和目标对象，构建候选关键帧的融合特征，并基于融合特征，采用类型预测模型，获得候选关键帧属于目标帧类型的预测概率；基于候选关键帧的预测概率，从候选关键帧中，筛选出属于目标帧类型的目标关键帧；基于目标关键帧，生成回放视频，最后将回放视频返回给第二终端设备120。

参见图2，其为本申请实施例中提供的一种直播过程中回放视频的生成方法，该方法可以应用于具备计算能力的电子设备(比如服务器或客户端)，具体流程如下：

S201、响应于直播过程中触发的回放生成操作，获取回放生成操作的触发节点之前的设定时长内的直播视频流，并对直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧。

本申请实施例中，获取的直播视频流可以是赛事直播的直播视频流，比如，足球、篮球、羽毛球、游戏等竞技赛事的直播视频流，也可以是其他需要进行视频回放的非赛事直播的直播视频流。

作为一种可能的实现方式，直播过程中触发的回放生成操作可以是观看直播的对象，在观看直播的过程中，采用设定触发方式触发的，设定的触发方式包含但不限于是：点击直播界面中的回放生成按钮、绘制回放生成手势、输入回放生成语音指令等。

作为另一种可能的实现方式，当直播过程中，当因赛事中场休息、直播故障等原因导致直播暂停时，触发回放生成操作，这样，在直播暂停时，可以向观众提供由精彩画面构成的回放视频，从而避免因直播暂停导致直播观看对象的减少，提高赛事直播的趣味性和连贯性，从而提升用户使用感受。

本申请实施例中，获取的直播视频流中可以包含有若干视频帧，在对直播视频流进行关键帧提取处理后，可以从若干视频帧中，提取出一个或多个候选关键帧。需要说明的是，本文对候选关键帧的数量不作限定。

S202、利用图像特征提取模型，对候选关键帧进行图像特征提取，获得候选关键帧的图像特征。

S203、基于图像特征，对候选关键帧进行目标对象识别，获得候选关键帧中的目标对象。

其中，目标对象可以是人，也可以是物体，对此不作限制。目标对象识别可以利用OCR技术实现，但不局限于此。

S204、基于图像特征和目标对象，构建候选关键帧的融合特征，并基于融合特征，采用类型预测模型，获得候选关键帧属于目标帧类型的预测概率。

其中，预测概率用于表征候选关键帧属于目标帧类型的概率。

作为一种可能的方式，可以基于构建的各融合特征，采用训练后的类型预测模型，获得各候选关键帧各自对应的预测概率。类型预测模型可以采用但不限于Transformer模型。类型预测模型的训练过程参见下文。

作为一种可能的实现方式，还可以分别将各候选关键帧各自对应的位置编码，加入至相应的融合特征中，进而基于各加入位置编码的融合特征，采用类型预测模型，获得各候选关键帧各自对应的预测概率。

其中，一个候选关键帧的位置编码用于表征该候选关键帧包含的各图像块在该候选关键帧的位置，也就是说，按照设定图像分割尺寸，将该候选关键帧分割为各图像块，每个图像块也可以称为一个token，位置编码用于表征各token在该候选关键帧中的位置。位置编码可以是固定的(如正弦、余弦位置编码)，也可以是非固定的，对此不作限制。

示例性的，针对各候选关键帧中的每个候选关键帧，将一个候选关键帧对应的位置编码与融合特征相加，得到加入位置编码的融合特征。加入位置编码的融合特征将带有图像块的位置信息。

进一步的，在一些实施方式中，还可以对模型的输入数据(融合特征或者加入位置编码的融合特征)进行分组。比如，采用设定的数值处理方式，对各输入数据进行处理，然后，将处理后的取值位于一定范围内的输入数据作为一组融合特征。分组具体可以采用固定长度的滑动窗口实现，但不局限于此。

S205、基于候选关键帧的预测概率，从候选关键帧中，筛选出属于目标帧类型的目标关键帧。

S206、基于目标关键帧，生成回放视频。

本申请实施例中，相对于针对全部视频帧进行处理而言，针对关键帧进行后续处理，在提高数据处理效率的同时，还可以保证回放视频的质量；通过将图像中的目标对象的位置信息，融合至图像的图像特征中，使得可以根据目标对象进行赛事中的精彩片段的判断，从而提高直播场景中精彩片段的判断准确性，进而实现了直播场景中针对精彩片段的剪辑回放，提升了直播回放的播放效果。

在一些实施方式中，将用于直播即时剪辑的软件开发工具包(SoftwareDevelopment Kit，SDK)部署于各直播平台中，使得各直播平台可以基于SDK，快速生成直播过程中的精彩片段回放。

本申请实施例中，直播视频流的数据获取可以采用但不限于以下两种方式：

数据获取方式一、利用直播平台的应用程序编程接口(Application ProgrammingInterface，API)来获取直播视频流，即直播平台通过SDK主动将直播视频流推送到电子设备。

数据获取方式二、通过调用SDK的数据入口函数，获取直播视频流，即电子设备通过SDK主动从直播平台拉取直播视频流。

实际应用过程中，直播视频流的数据获取方式可以由直播平台根据需要进行选取，从而方便直播平台定制个性化的视频回放服务。

在一些实施方式中，为减少计算量，提高视频回放效率，采集距离当前时刻最近的设定历史时长内的直播视频流。直播视频流的采集可以采用但不限于滑动窗口等方式。

在一些实施方式中，关键帧提取处理方式可以采用但不限于以下方式中的至少一种：直接将直播视频流中的关键帧作为候选关键帧；将直播视频流中的设定数目的关键帧作为候选关键帧；将直播视频流中的设定位置的关键帧作为候选关键帧，但不局限于此。

在一些实施方式，提高数据处理效率，在提取出候选关键帧之后，还可以对候选关键帧进行预处理。其中，预处理包括但不限于：归一化、缩放、防抖处理等操作中的一项或多项。在利用AI模型进行视频回放的情况下，通过预处理，可以将候选关键帧转换为适合AI模型处理的格式，从而减少模型处理的计算量，特别是在模型训练过程中，计算量的减少还有助于提高模型收敛速度。

归一化是指将候选关键帧中的各像素值缩放到一个目标范围，目标范围通常是0至1之间，以减少模型训练时的计算量并提高收敛速度。以八位图像为例，八位图像中的每个像素的像素值均由8位的二进制数表示，每个像素的像素值有2⁸＝256种可能，采用image表示归一化前的像素值，采用normalized_image表示归一化后的像素值，normalized_image＝image/255.0。

缩放是指候选关键帧缩放到目标分辨率，将候选关键帧统一到同一尺寸，便于后续的数据处理，从而提高计算速度。

防抖处理用于降低候选关键帧中的画面抖动对剪辑结果的影响。防抖处理可以通过运动估计等技术实现，但不局限于此。

参阅图3所示，服务器通过SDK主动从直播平台拉取直播视频流，或者，通过SDK获取直播平台推送的直播视频流，假设，获取的直播视频流包含视频帧1、视频帧2、……、视频帧k1等各视频帧。

视频帧1、视频帧2、……、视频帧k1中，视频帧1、视频帧5、……、视频帧k2均属于关键视频帧，关键视频帧采用阴影表示，从直播视频流中，抽取出视频帧1、视频帧5、……、视频帧k2，作为候选关键帧，其中，k1、k2均为正整数，k2的取值不大于k1。接着，对视频帧1、视频帧5、……、视频帧k2进行预处理，预处理包括：归一化、缩放、防抖处理(通过运动估计实现)。以一个候选视频帧的处理过程为例，首先，对该候选关键帧进行归一化，以将候选关键帧中的各像素的像素值缩放到[0，1]，其次，对归一化处理后的候选关键帧进行缩放，将归一化处理后的候选关键帧缩放到3×3，最后，对缩放后的候选关键帧进行运动估计，并基于运动估计结果，对缩放后的候选关键帧进行去抖，获得去抖处理后的候选关键帧。

需要说明的是，本申请实施例中，对归一化、缩放、防抖处理等操作之间的执行顺序不作限定。

在一些实施方式中，候选关键帧的图像特征可以采用卷积神经网络(Convolutional Neural Networks，CNN)提取。具体的，图像特征可以采用但不限于以下方式提取：

将候选关键帧，输入至图像特征提取模型的卷积层中，获得相应的至少一个局部图像特征；其中，卷积层中包含至少一个卷积核，每个卷积核用于提取一类局部图像特征；

将至少一个局部图像特征，输入至图像特征提取模型的激活函数层和池化层，获得相应的图像特征。

其中，图像特征提取模型为CNN模型，CNN模型包括但不限于残差网络(ResidualNetwork，ResNet)、视觉几何组(Visual Geometry Group，VGG)等。CNN模型中通常包含卷积层、激活函数层、归一化层和全连接层，本申请实施例中，将最后一层全连接层去除，以获得图像的特征表示。

也就是说，本申请实施例中，图像特征提取模型包含卷积层、激活函数层和归一化层，其中，卷积层是CNN模型的核心组成部分，卷积层通过卷积操作提取图像的局部特征(即局部图像特征)。局部图像特征包括但不限于颜色特征、纹理特征、形状特征等。

需要说明的是，在CNN模型中，局部图像特征也可以称为卷积特征图，最终输出的图像特征也可以称为特征图。

激活函数层用于提取卷积特征图中的感兴趣区域，获得区域特征图。以篮球赛事为例，比赛中的球场和运动员为感兴趣区域。

池化层用于对区域特征图进行池化处理，获得相应的池化特征图，输出的池化特征图即为最终输出的特征图。由于获得的各个区域特征图的尺度和长度都可能不同，因而需要通过区域池化层对区域特征图进行池化处理，来获得统一的大小。池化处理可以采用均值池化或者最大池化等池化处理方式，但不局限于此。

例如，参阅图4所示，以一个候选关键帧为例，该候选关键帧为篮球赛事中的某一画面，将该候选关键帧，输入至图像特征提取模型中，获得相应的特征图，图4中所示的特征图是针对比赛中的球场和运动员使用G通道得到的。图像特征提取模型中包含卷积层、激活函数层和归一化层，通过卷积层对输入的候选关键帧进行卷积处理，获得卷积特征图，通过激活函数层提取卷积特征图中的感兴趣区域，获得区域特征图，通过池化层对区域特征图进行池化处理，获得相应的池化特征图，输出的池化特征图即为最终输出的特征图。

实际应用过程中，卷积层中通常包含多个卷积核，每个卷积核负责检测一类局部图像特征。卷积操作将每个卷积核在输入图像上滑动，计算该卷积核与滑动区域的内积，获得局部图像特征。

示例性的，参阅图5所示，以一个卷积核中的卷积操作为例，假设，候选关键帧的维度为3×3，卷积核的维度为2×2，首先，将卷积核的左上角与候选关键帧的第一个像素(像素“1”)对齐，将卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把所有乘积相加，得到卷积输出的第一个结果：0×1+1×2+2×3+3×4＝25；然后，卷积核在候选关键帧上向右滑动，将卷积核的左上角与第二个像素(像素“2”)对齐，将卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把所有乘积相加，得到卷积输出的第二个结果：0×2+1×3+2×5+3×6＝31；接着，卷积核继续在候选关键帧上向下滑动，将卷积核的左上角与第四个像素(像素“4”)对齐，将卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把所有乘积相加，得到卷积输出的第三个结果：0×4+1×5+2×7+3×8＝43；接着，卷积核在候选关键帧上向右滑动，将卷积核的左上角与第五个像素(像素“5”)对齐，将卷积核的每个元素跟其位置对应的输入数据中的元素相乘，再把所有乘积相加，得到卷积输出的第四个结果：0×5+1×6+2×8+3×9＝49，最后，获得由四个结果构成的2×2的卷积特征图，卷积特征图中的取值依次为25，31，43，49。

在一些实施方式中，执行S203时，可以采用OCR技术，对图像特征中的目标对象进行轮廓识别。示例性的，目标对象的轮廓识别可以采用投影分割的方式实现。具体的，基于图像特征，对候选关键帧进行目标对象识别，获得候选关键帧中的目标对象，包括：

首先，基于图像特征中的各像素的像素值，获得目标类型像素在设定的投影方向上的像素分布信息；

其次，基于像素分布信息，获得图像特征包含的目标对象的边界位置；

接着，基于获得的各边界位置，获得候选关键帧的目标对象。

其中，设定的投影方向可以是水平或者垂直，也可以是斜线，对此不作限制。像素分布信息用于表征每一行像素中目标类型像素的位置。需要说明的是，本申请实施例中，目标对象可以是人也可以是物，对此不作限制。

以水平投影为例，参阅图6所示，假设，目标类型像素可以是黑色像素，图像特征为3×3的特征图，黑色像素的像素值通常为0，基于图像特征中的各像素的像素值，获得黑色像素在水平方向上的像素分布信息，像素分布信息表征，第一行中的第一个像素为黑色像素，第二行中的第一个像素为黑色像素，第三行中不包含黑色像素。

上述实现方式中，由于投影分割是基于像素统计的分割方法，因此，可以便于分割无序排列的目标对象，便于检测直播视频流中目标对象(比如球员或者球)的位置。

作为一种可能的实现方式，基于像素分布信息，获得图像特征包含的各目标对象各自的边界位置时，可以采用但不限于以下方式：

基于像素分布信息，获得在沿投影方向的各统计单位上，目标类型像素的连续像素数量；

基于各统计单位各自对应的连续像素数量，结合设定的像素数量范围，获得图像特征包含的目标对象的边界位置。

其中，针对水平投影而言，沿投影方向的各统计单位是图像特征中的各行像素，针对垂直投影而言，沿投影方向的各统计单位是图像特征中的各列像素，类似的，针对斜线方向的投影而言，沿投影方向的各统计单位是图像特征中的各斜线像素。目标对象的数量可以是一个或多个，对此不作限制。

像素数量范围可以是上限范围，也可以是下限范围，还可以是上下限范围，对此不作限定。

仍以水平投影为例，由于像素分布信息中包含有每行中的黑色像素的位置，因此，基于像素分布信息，可以获得每行的黑色像素的连续像素数量，然后，基于每行的黑色像素的连续像素数量，在一行的黑色像素的连续像素数量低于像素数量范围中的下限范围时，认为该行是目标物体的边界位置。

作为一种可能的实现方式，基于获得的边界位置，获得所述候选关键帧中的目标对象时，可以采用但不限于以下方式：

按照设定图像分割尺寸，对一个图像特征进行分割，获得各图像块；

基于目标对象的边界位置，确定各图像块各自对应的物体类型标签；

基于各图像块及其各自对应的物体类型标签，获得候选关键帧中的目标对象。

其中，物体类型标签用于表征相应图像块中是否包含目标对象，以及表征包含的目标对象的物体类型(比如，球员或球星)。

也就是说，本申请实施例中，针对一个候选关键帧，按照设定图像分割尺寸，将该候选关键帧分割为各图像块，每个图像块也可以称为一个token，根据至少一个目标对象各自的边界位置，可以确定出每个token的物体类型标签，从而将各token及其各自对应的物体类型标签，作为候选关键帧的目标物位置信息。进一步的，还可以将各token映射到图像特征中，获得融合特征。

通过上述实现方式，可以标识出候选关键帧中的目标对象的位置信息，进而将目标对象的位置信息，融合至候选关键帧的图像特征中，有助于精彩片段的识别，从而提高精彩片段的识别准确性。

在一些实施方式中，执行S205时，具体采用以下实现方式：

基于获得的各预测概率，从各候选关键帧中，筛选出对应的预测概率不低于设定类型概率阈值的至少一个目标关键帧；将筛选出的至少一个候选关键帧，作为属于目标帧类型的目标关键帧。

例如，假设，设定类型概率阈值为0.8，假设，候选关键帧包括：视频帧1、视频帧5、……、视频帧k2，视频帧1、视频帧5、……、视频帧k2中，对应的预测概率不低于0.8的候选关键帧包括：视频帧1、视频帧5、视频帧10，因此，将视频帧1、视频帧5、视频帧10作为目标关键帧。

在一些实施方式中，为提升回放视频的播放效果，在获得目标关键帧之后，可以对目标关键帧进行排序，根据排序结果，获得回放视频。具体的，执行S206时，采用但不限于以下操作：

基于各项排序指标及其各自对应的权重，获得目标关键帧的排序评估值；

基于获得的排序评估值，对目标关键帧进行排序；

基于排序结果，构建回放视频。

其中，排序指标包括但不限于是预测概率、预测观看时长、……等中的一项或者多项。

示例性的，排序评估值可以采用但不限于以下公式获得：score＝w1*p1+w2*p2，其中，score表示排序评估值，p1表示预测概率，p2表示预测观看时长，w1表示预测概率对应的权重，w2表示预测观看时长对应的权重。

需要说明的是，本申请实施例中，一个排序指标可以对应一个权重，也可以对应多个权重，具体根据排序评估值对应的计算公式确定，本文中仅以一个排序指标对应一个权重为例进行说明。

本申请实施例中，各项排序指标各自对应的权重可以是预先设定的，作为各项排序指标各自对应的权重也可以是采用权重模型获得的。

作为一种可能的实现方式，目标关键帧的排序评估值可以采用但不限于以下方式获得：

基于待推荐对象的对象特征，采用训练后的权重模型，获得各项排序指标各自对应的权重；然后，基于获得的各权重，结合各项排序指标各自对应的指标取值，获得目标关键帧的排序评估值。

其中，待推荐对象是指进行视频回放的一个或者一类账户。本申请实施例中，对权重模型的结构不作限制，权重模型可以采用深度神经网络等网络结构实现，但不局限于此。权重模型可以采用但不限于强化学习算法训练。

作为一种可能的实现方式，可以预先存储每个目标关键帧各自对应的各项排序指标的指标取值，预先存储的相应的排序指标的指标取值，可以是根据待推荐对象的对象特征，采用指标预测模型获得的。作为另一种可能的实现方式，也可以在进行排序评估值时，基于根据待推荐对象的对象特征，分别采用各项排序指标各自对应的指标预测模型，获得相应的指标取值。需要说明的是，本申请实施例中，对各项评估指标各自对应的指标预测模型的模型结构不作限定，在此不再赘述。当然，在实际应用过程中，也可以采用可以直接输出各项评估指标各自的指标取值的指标预测模型，对此不再限定。

例如，服务器基于待推荐对象的对象特征，采用训练后的权重模型，获得各项排序指标各自对应的权重，假设，各项排序指标各自对应的权重分别为0.7和0.3，然后，基于获得的各权重，结合各项排序指标各自对应的指标取值，采用上述公式，获得目标关键帧1、目标关键帧2、……、目标关键帧i各自的排序评估值。

通过上述实现方式，根据对象特征，可以向某一个或某一类待推荐对象，播放个性化的回放视频，从而满足不同对象的播放需求。此外，利用权重模型，可以生成动态调整各项权重，从而对目标关键帧的组合方式进行实时调整和优化，进而提高回放视频的视频质量。

本申请实施例中，基于排序结果，构建回放视频的过程中，存在但不限于以下几种可能的实现方式：

方式一、直接基于排序结果，构建回放视频。例如，目标关键帧包括：目标关键帧1、目标关键帧2、……、目标关键帧i，排序结果表征各目标关键帧从大到小依次为：目标关键帧1、目标关键帧2、……、目标关键帧i，那么，按照排序结果，构建回放视频，回放视频中，按照视频播放顺序依次为：目标关键帧1、目标关键帧2、……、目标关键帧i。

方式二：在存在多个目标关键帧的情况下，为了避免过于相近的精彩片段被合并在排序后，进一步对多个目标关键帧进行去重，减少冗余视频帧。具体的，基于多个目标关键帧各自对应的融合特征，按照排序结果，获得相邻的每两个目标关键帧之间的帧相似度，然后，基于获得的各帧相似度，从多个目标关键帧中，删除符合设定去重条件的目标关键帧，并基于删除后的各目标关键帧，构建回放视频。

示例性的，设定去重条件可以是：若两个相邻目标关键帧之间的帧相似度大于设定帧相似度阈值，那么，删除两个相邻目标关键帧中的任意一个目标关键帧，或者删除两个相邻目标关键帧中的指定位置的一个目标关键帧(比如后一个目标关键帧)。其中，帧相似度的计算可以采用但不限于余弦相似度。

例如，参阅图7所示，目标关键帧包括：目标关键帧1、目标关键帧2、……、目标关键帧i，基于各目标关键帧各自对应的融合特征，按照排序结果，获得目标关键帧1与目标关键帧2之间的帧相似度1、目标关键帧2与目标关键帧3之间的帧相似度2、……、目标关键帧i-1与目标关键帧i之间的帧相似度i-1，假设，设定帧相似度阈值为80％，帧相似度1、帧相似度2、……、帧相似度i-1中，帧相似度1的取值大于80％，因此，从目标关键帧1、目标关键帧2、……、目标关键帧i中，删除目标关键帧1和目标关键帧2中的目标关键帧2，因此，去重后的目标关键帧包括：目标关键帧1、目标关键帧3、……、目标关键帧i。

在一些实施方式中，为了避免过于相近的精彩片段被合并，引入片段间隔阈值，具体的，当相邻两个目标关键帧在直播视频流中的帧间隔小于片段间隔阈值时，删除相邻两个目标关键帧中的一个目标关键帧，并基于删除后的各目标关键帧，构建回放视频。其中，删除的一个目标关键帧可以是相邻两个目标关键帧中的任意一个目标关键帧，也可以是相邻两个目标关键帧中位于指定位置(比如后一个)的一个目标关键帧。

在一些实施方式中，为了提升观看体验，还可以在精彩片段(即目标关键帧)中，插入简短的过渡动画或提示(如直播中断提示)等引导信息，以帮助观众理解精彩片段之间的关联和上下文。具体的，预先设置动画模版库，动画模板库中存储有简短的过渡动画或提示等插入片段，这样，当获得各目标关键帧之后，从动画模板库中，获取与至少一个目标关键帧关联的引导信息，然后，将引导信息插入各目标关键帧中，获得回放视频。

其中，与一个目标关键帧关联的引导信息可以但不限于是指：与目标关键帧之间的内容关联评估值高于设定阈值的引导信息，内容关联评估值是根据目标关键帧与引导信息的信息特征之间的内容相似度确定的。内容相似度可以采用但不限于余弦相似度计算。

引导信息包括但不限于是动画、文本、图像、音频等中的一项或多项的组合。引导信息的插入位置可以是目标关键帧之后，但不局限于此。

例如，目标关键帧包括：目标关键帧1、目标关键帧2、……、目标关键帧i，目标关键帧2为扣篮画面，假设，动画模版库中存储有扣篮画面相关的动画，从动画模板库中，获取该动画，将该动画插入目标关键帧2之后。

在一些实施方式中，将剪辑好的精彩片段(即目标关键帧)按照排列顺序输出，可以将它们合并为一个视频文件，或者生成一个播放列表以供观看。

在一些实施方式中，为了保证剪辑结果的实时性，可以不断地从直播源获取新的视频数据，并重复上述S201-S206。

在一些实施方式中，可以使用滑动窗口的方法，每次只处理最近一段时间的直播视频流，以减少计算量。

在一些实施方式中，可以利用增量学习的方法，根据新收集到的数据(包括但不限于目标对象针对已播放的回放视频的反馈信息)动态更新类型预测模型，以提高剪辑结果的准确性和质量。

在一些实施方式中，还可以根据待推荐对象的对象特征，为目标对象生成个性化的精彩片段播放列表。精彩片段播放列表的生成可以使用但不限于协同过滤、矩阵分解等算法，以实现精准的个性化推荐。

下面，分别对类型预测模型的训练过程进行说明。

在一种实施方式中，可以根据上述模型的结构，设置类型预测模型所需的参数和数据，其中包括需要训练的参数，并分别设置好批次(batch)、迭代次数(epoch)和学习率(learning rate)等超参数后，开始训练，最终得到类型预测模型。

例如，设置类型预测模型的batch为128，epoch为1000，learning rate为0.0001，即迭代训练1000次，每一次迭代将训练样本分为128批次进行学习；当然，这里的训练参数仅仅为一种可能的示例，在实际情况中还可以根据需求进行调整。

参见图8所示，为本申请实施例提供的类型预测模型训练方法的流程示意图。该流程可以应用于具备计算功能的电子设备(如服务器或终端设备)。在迭代训练过程中，将所有训练样本划分为指定的批次，并基于各个次批次的训练样本进行训练，由于每一次迭代过程中针对每一批次进行训练时所执行的步骤是类似的，因此这里以针对一个批次的训练为例进行说明。

S801、获取一个批次的若干样本视频。

本申请实施例中，采用有标签数据对类型预测模型进行训练，因此，每个样本视频中包含的各样本视频帧均携带对应的标签，每个标签用于表征对应的样本视频帧是否属于目标帧类型(即精彩片段)。示例性的，当标签的取值为1时，表示对应的样本视频帧属于精彩片段，当标签的取值为0时，表示对应的样本视频帧不属于精彩片段。

其中，各样本视频帧各自对应的标签，可以是人工标注的，但人工标注依赖于标注经验，因此存在标注准确性不稳定的问题。本申请实施例中，考虑到在赛事直播中，精彩片段通常与目标对象的移动相关，因此，本申请实施例中，可以根据样本视频中各目标对象的移动轨迹，标注样本视频中的精彩片段。

作为一种可能的标签标注方式，针对一个样本视频，首先，基于该样本视频中的各样本关键帧各自包含的目标对象，获得目标对象在样本视频中的移动轨迹，然后，基于获得的移动轨迹，获得各样本视频帧各自对应的标注评估值，并基于获得的各标注评估值，确定各样本视频帧各自对应的实际帧类型。

其中，标注评估值用于评估样本视频帧是否属于精彩画面。标注评估值可以采用但不限于目标对象的移动速度、移动位置、移动轨迹形状等信息中的一项或多项确定。目标对象的数量可以是一个或多个，对此不作限制。

例如，假设，目标对象为球，基于样本视频中的各样本关键帧各自包含的目标对象，获得球在样本视频中的移动轨迹，然后，基于获得的目标对象的移动轨迹，获得各样本视频帧各自对应的标注评估值，假设，标注评估值表征在某一样本视频帧中存在进球画面，那么，该样本视频帧对应的实际帧类型为精彩片段，样本视频中的其他样本关键帧对应的实际帧类型均为非精彩片段。

本申请实施例中，针对各样本视频，均可以采用标签标注方式进行标签标注。

S802、基于若干视频各自包含的各样本关键帧的图像特征、目标对象和位置编码，构建各样本关键帧各自对应的样本融合特征。

具体的，执行S802时，可以采用但不限于以下步骤：

步骤A、基于各样本关键帧，采用预训练的图像特征提取模型，获得各样本关键帧各自对应的图像特征。其中，预训练的图像特征提取模型是模型应用过程中的同类型数据训练得到的。同类型数据是指同一赛事类型的各样本视频。比如，图2所示的直播回放过程用于回放篮球赛事直播，那么，图像特征提取模型采用篮球赛事的各样本视频进行训练。

步骤B、基于各样本关键帧各自对应的图像特征，分别对各样本关键帧进行目标对象识别，获得相应的目标对象。

作为一种可能的实现方式，针对各样本关键帧中的每个样本关键帧，基于该样本关键帧对应的图像特征中的各像素的像素值，获得目标类型像素在设定的投影方向上的像素分布信息，然后，基于像素分布信息，获得该样本关键帧对应的图像特征包含的目标对象的边界位置，进而基于获得的边界位置，获得该样本关键帧中的目标对象。具体的目标对象识别方式，参见上文中候选关键帧的目标对象识别过程，在此不再赘述。

步骤C、基于各样本关键帧各自的图像特征和目标对象，构建各样本关键帧各自的融合特征。

作为一种可能的实现方式，针对各样本关键帧中的每个样本关键帧，将相应的目标对象，映射到相应的图像特征中，获得相应的融合特征。

作为一种可能的实现方式，在获得各样本关键帧的融合特征之后，还可以在各融合特征中加入相应的样本关键帧的位置编码，获得加入位置编码的融合特征，进而将加入位置编码的位置特征，作为类型预测模型的输入数据。

S803、基于构建的各样本融合特征，采用类型预测模型，获得各样本关键帧各自对应的样本预测概率。

S804、基于各样本关键帧各自对应的样本预测概率和实际帧类型，获得模型损失。

本申请实施例中，模型损失可以采用二分类的模型损失，例如，交叉熵(CrossEntry)损失函数、平方损失函数(quadratic loss function)以及绝对值损失函数(absolute loss function)等损失函数来计算，但不局限于此。

S805、判断类型预测模型是否满足收敛条件，若是，执行S806，否则，执行S807。

本申请实施例中，收敛条件可以包括如下条件的至少一个：

(1)模型损失不大于预设的损失值阈值。

(2)迭代次数达到预设的次数上限值。

S806、输出类型预测模型。

S807、基于模型损失进行模型调参。

若满足上述条件，则确定类型预测模型已满足收敛条件，则训练结束，否则确定类型预测模型还未满足收敛条件那么则需要对模型参数继续进行调整，并利用调整后的类型预测模型进入下一次训练过程，即跳转至步骤S801执行。

在一些实施方式中，还可以定期使用验证集，评估类型预测模型的性能，类型预测模型的性能可以采用准确率、F1分数等指标衡量。通过计算预测概率与真实标签之间的损失，并使用优化器(如自适应矩估计(Adaptive Moment Estimation，Adam)、随机梯度下降(Stochastic Gradient Descent，SGD)等)更新模型参数以最小化损失。根据验证结果调整模型结构和参数，以提高模型性能。

在一些实施方式中，为防止过拟合，可以使用早停策略在性能不再提升时终止训练。早停策略的原理是根据类型预测模型训练过程中的一些参数(比如准确率、F1分数等)，当参数符合要求后就停止训练，以减少模型训练时间。

示例性的，参阅图9所示，在各融合特征中加入相应的样本关键帧的位置编码，获得加入位置编码的融合特征后，将加入位置编码的位置特征，作为类型预测模型的输入数据，获得各样本关键帧各自对应的样本预测概率，其中，类型预测模型中包含自注意力层、前馈神经网络层和归一化层。基于各样本关键帧各自对应的样本预测概率和实际帧类型，使用优化器更新模型参数，然后，计算类型预测模型的准确率和F1分数，之后，根据准确率和F1分数调整模型结构和参数，接着，基于准确率和F1分数判断是否符合早停策略，若符合，则停止训练，输出类型预测模型。

下面，结合一个游戏赛事直播场景对本申请进行说明。

首先，参阅图10所示，利用游戏赛事的样本视频集A，对图像特征提取模型进行预训练，获得预训练的图像特征提取模型。图像特征提取模型采用CNN模型，CNN模型包含有卷积层、激活函数层、池化层和全连接层。

样本视频集中的每个样本视频中的各样本视频帧均标注有实际帧类型，在预训练过程中，针对每个样本视频的各候选关键帧，分别输入至卷积层中进行卷积处理，获得相应的至少一个局部特征图，并将至少一个局部图像特征，输入至激活函数层提取卷积特征图中的感兴趣区域，获得相应的区域特征图，以及将获得的区域特征图，输入至池化层中，获得相应的池化特征图，进而将池化特征图输入至全连接层，获得候选关键帧的预测概率。进一步的，基于各候选关键帧各自的预测概率和实际帧类型，获得模型损失，并基于模型损失进行参数调整。在图像特征提取模型训练结束(如满足收敛条件)后，输出预训练的图像特征提取模型。

接着，利用游戏赛事的样本视频集B(训练集)，对类型预测模型进行训练，样本视频集B可以与样本视频集A相同或不同，样本视频集B中的每一样本视频的每一样本视频帧均标注有实际帧类型。在类型预测模型的训练过程中，针对样本视频集B中的每个样本视频中的每一样本视频帧，预测每一样本视频帧的预测概率(样本视频帧是否属于精彩片段)，然后基于一批次中的各样本视频帧的预测概率和实际帧类型，计算出模型损失，之后，采用优化器更新模型参数以最小化模型损失，进而在迭代次数达到预设的次数上限值时，进行下一次批次的训练。此外，在类型预测模型的训练过程中，还可以根据验证集中的各样本视频帧的预测概率和实际帧类型，计算出准确率和F1分数，根据准确率和F1分数确定类型预测模型性能，以及在满足早停策略时，停止类型预测模型的训练。类型预测模型的训练具体参见上文，在此不再赘述。

接着，服务器实时获取主播的直播客户端的游戏赛事的直播视频流，并针对一定时长内的直播视频流，从直播视频流中，提取出各候选关键帧。

接着，服务器利用预训练的图像特征提取模型，获得各候选关键帧各自对应的特征图。具体而言，通过卷积层对输入的候选关键帧进行卷积处理，获得卷积特征图，通过激活函数层提取卷积特征图中的感兴趣区域，获得区域特征图，通过池化层对区域特征图进行池化处理，获得相应的池化特征图，输出的池化特征图即为最终输出的特征图。

接着，服务器利用OCR技术，基于各候选关键帧各自对应的图像特征，分别对各候选关键帧进行目标对象识别，获得相应的目标对象，并分别基于各候选关键帧各自的图像特征和目标对象，构建相应的融合特征。

接着，服务器针对各候选关键帧中的每个候选关键帧，将一个候选关键帧对应的位置编码与融合特征相加，得到加入位置编码的融合特征(简称为融合特征)。

接着，服务器采用固定长度的滑动窗口，对各融合特征进行分组，针对每组的各融合特征，分别采用训练后的类型预测模型进行帧类型预测，获得相应的预测概率。

接着，服务器基于各融合特征各自对应的预测概率，从各融合特征中，筛选出对应的预测概率大于设定预测概率阈值的多个候选关键帧，作为多个目标关键帧。

接着，服务器按照基于各项排序指标(比如预测概率，点赞、评论等历史反馈信息，偏好的游戏人物等中的一项或多项)及其各自对应的权重，获得多个目标关键帧各自对应的排序评估值，并基于多个目标关键帧各自对应的排序评估值，对多个目标关键帧进行排序。

接着，服务器对多个目标关键帧进行去重后，基于去重后的多个目标关键帧，构建回放视频，并将回放视频发送给观众的直播客户端。

本申请实施例中，通过使用AI大模型，实现了对以赛事类直播为主的直播画面的自动剪辑，大大节省了人工剪辑的时间和成本。进一步的，利用对视频帧预处理和OCR识别对输入模型更统一，节省模型运算时间。进一步的，引入个性化推荐和实时更新机制，使观众能够更高效地观看回放，提高了观众的观看体验。

基于相同的发明构思，本申请实施例提供一种直播过程中回放视频的生成装置。如图11所示，其为直播过程中回放视频的生成装置1100的结构示意图，可以包括：

数据获取单元1101，用于响应于直播过程中触发的回放生成操作，获取所述回放生成操作的触发节点之前的设定时长内的直播视频流，并对所述直播视频流进行关键帧提取处理，获得用于构建回放视频的候选关键帧；

特征提取单元1102，用于利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征；

目标检测单元1103，用于基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象；

特征融合单元1104，用于基于所述图像特征和所述目标对象，构建所述候选关键帧的融合特征，并基于所述融合特征，采用类型预测模型，获得所述候选关键帧属于目标帧类型的预测概率；

类型筛选单元1105，用于基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧；

视频生成单元1106，用于基于所述目标关键帧，生成所述回放视频。

作为一种可能的实现方式，所述类型预测模型是利用样本视频集通过迭代训练得到的，类型筛选单元1105用于在每次迭代训练过程中，执行以下操作：

作为一种可能的实现方式，所述基于各样本关键帧各自对应的样本预测概率和实际帧类型，获得模型损失之前，类型筛选单元1105还用于：

作为一种可能的实现方式，所述基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧时，类型筛选单元1105具体用于：

作为一种可能的实现方式，所述基于所述目标关键帧，生成所述回放视频时，视频生成单元1106具体用于：

基于获得的所述排序评估值，对所述目标关键帧进行排序；

基于排序结果，构建回放视频。

作为一种可能的实现方式，若目标关键帧为多个，所述基于排序结果，构建回放视频时，视频生成单元1106具体用于：

作为一种可能的实现方式，所述基于各项排序指标及其各自对应的权重，获得所述目标关键帧的排序评估值时，视频生成单元1106具体用于：

作为一种可能的实现方式，所述基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象时，目标检测单元1103具体用于：

基于获得的边界位置，获得所述候选关键帧中的目标对象。

作为一种可能的实现方式，所述基于所述像素分布信息，获得所述图像特征包含的目标对象的边界位置时，目标检测单元1103具体用于：

作为一种可能的实现方式，所述基于获得的边界位置，获得所述候选关键帧中的目标对象时，目标检测单元1103具体用于：

作为一种可能的实现方式，所述利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征时，特征提取单元1102具体用于：

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本申请时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

关于上述实施例中的装置，其中各个单元执行请求的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

所属技术领域的技术人员能够理解，本申请的各个方面可以实现为系统、方法或程序产品。因此，本申请的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

基于相同的发明构思，本申请实施例还提供一种电子设备。在一种实施例中，该电子设备可以是服务器，也可以是终端设备。参阅图12所示，其为本申请实施例中提供的一种可能的电子设备的结构示意图，图12中，电子设备1200包括：处理器1210和存储器1220。

其中，存储器1220存储有可被处理器1210执行的计算机程序，处理器1210通过执行存储器1220存储的指令，可以执行上述直播过程中回放视频的生成方法的步骤。

存储器1220可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器1220也可以是非易失性存储器(non-volatilememory)，例如只读存储器(Read-Only Memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；或者存储器1220是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1220也可以是上述存储器的组合。

处理器1210可以包括一个或多个中央处理单元(central processing unit，CPU)或者为数字处理单元等等。处理器1210，用于执行存储器1220中存储的计算机程序时实现上述直播过程中回放视频的生成方法，或者实现上述类型预测模型的训练方法。

在一些实施例中，处理器1210和存储器1220可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

本申请实施例中不限定上述处理器1210和存储器1220之间的具体连接介质。本申请实施例中以处理器1210和存储器1220之间通过总线连接为例，总线在图12中以粗线描述，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线可以分为地址总线、数据总线、控制总线等。为便于描述，图12中仅用一条粗线描述，但并不描述仅有一根总线或一种类型的总线。

基于同一发明构思，本申请实施例提供了一种计算机可读存储介质，其包括计算机程序，当计算机程序在电子设备上运行时，计算机程序用于使电子设备执行上述直播过程中回放视频的生成方法的步骤，或者执行上述类型预测模型的训练方法的步骤。

在一些可能的实施方式中，本申请提供的直播过程中回放视频的生成方法的各个方面还可以实现为一种程序产品的形式，其包括计算机程序，当程序产品在电子设备上运行时，计算机程序用于使电子设备执行上述直播过程中回放视频的生成方法中的步骤，或者执行上述类型预测模型的训练方法的步骤，例如，电子设备可以执行如图2中所示的步骤。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、RAM、ROM、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(Compact Disk Read Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本申请的实施方式的程序产品可以采用CD-ROM并包括计算机程序，并可以在电子设备上运行。然而，本申请的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储计算机程序的有形介质，该计算机程序可以被命令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由命令执行系统、装置或者器件使用或者与其结合使用的计算机程序。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种直播过程中回放视频的生成方法，其特征在于，包括：

基于所述目标关键帧，生成所述回放视频。

2.如权利要求1所述的方法，其特征在于，所述类型预测模型是利用样本视频集通过迭代训练得到的，其中，每次迭代训练过程中，包括：

3.如权利要求2所述的方法，其特征在于，所述基于各样本关键帧各自对应的样本预测概率和实际帧类型，获得模型损失之前，还包括：

4.如权利要求1、2或3所述的方法，其特征在于，所述基于所述候选关键帧的预测概率，从所述候选关键帧中，筛选出属于目标帧类型的目标关键帧，包括：

5.如权利要求1、2或3所述的方法，其特征在于，所述基于所述目标关键帧，生成所述回放视频，包括：

基于获得的所述排序评估值，对所述目标关键帧进行排序；

基于排序结果，构建回放视频。

6.如权利要求5所述的方法，其特征在于，若目标关键帧为多个，所述基于排序结果，构建回放视频，包括：

7.如权利要求6所述的方法，其特征在于，所述基于各项排序指标及其各自对应的权重，获得所述目标关键帧的排序评估值，包括：

8.如权利要求1、2或3所述的方法，其特征在于，所述基于所述图像特征，对所述候选关键帧进行目标对象识别，获得所述候选关键帧中的目标对象，包括：

基于获得的边界位置，获得所述候选关键帧中的目标对象。

9.如权利要求8所述的方法，其特征在于，所述基于所述像素分布信息，获得所述图像特征包含的目标对象的边界位置，包括：

10.如权利要求8所述的方法，其特征在于，所述基于获得的边界位置，获得所述候选关键帧中的目标对象，包括：

11.如权利要求1、2或3所述的方法，其特征在于，所述利用图像特征提取模型，对所述候选关键帧进行图像特征提取，获得所述候选关键帧的图像特征，包括：

12.一种直播过程中回放视频的生成装置，其特征在于，包括：

13.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有计算机程序，当所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1～11中任一所述方法的步骤。

14.一种计算机可读存储介质，其特征在于，其包括计算机程序，当所述计算机程序在电子设备上运行时，所述计算机程序用于使所述电子设备执行权利要求1～11中任一所述方法的步骤。

15.一种计算机程序产品，其特征在于，其包括计算机程序，所述计算机程序存储在计算机可读存储介质中，电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序，使得所述电子设备执行权利要求1～11中任一所述方法的步骤。