CN114697685B

CN114697685B - 解说视频生成方法、装置、服务器及存储介质

Info

Publication number: CN114697685B
Application number: CN202011560174.5A
Authority: CN
Inventors: 林少彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2023-05-23
Anticipated expiration: 2040-12-25
Also published as: JP2023550233A; CN114697685A; WO2022134943A1; US20230018621A1

Abstract

本申请实施例公开了一种解说视频生成方法、装置、服务器及存储介质，属于人工智能领域。该方法包括：获取对局指令帧，对局指令帧包含至少一条对局操作指令，对局操作指令用于控制虚拟对象在对局内执行局内行为；基于对局指令帧生成解说数据流，解说数据流中包含至少一段描述对局事件的解说音频，对局事件由虚拟对象执行局内行为时触发；基于对局指令帧进行对局画面渲染，生成对局视频流，对局视频流中包含至少一帧对局视频帧；对解说数据流和对局视频流进行合并，生成解说视频流，解说视频流中同一对局事件对应的对局视频帧和解说音频在时间上对齐。无需在对局后再生成解说视频，提高了解说视频的生成及时性和解说视频的生成效率。

Description

解说视频生成方法、装置、服务器及存储介质

技术领域

本申请实施例涉及人工智能领域，特别涉及一种解说视频生成方法、装置、服务器及存储介质。

背景技术

随着直播技术的飞速发展，视频直播已经成为一种日常化的生活娱乐和交流方式，目前游戏直播已经成为比较热门的视频直播之一。

目前游戏直播过程中，需要游戏主播根据游戏对局情况进行游戏解说，而对于游戏解说视频的生成过程，需要人工预先进行游戏片段选取、解说文本编写、视频编辑、语音生成、视频合成等流程，生成解说视频，用于进行解说播放。

然而，相关技术中的游戏解说过程，在制作解说视频的过程中需要人工参与，制作流程较长，且人工操作成本较高。

发明内容

本申请实施例提供了一种解说视频生成方法、装置、服务器及存储介质，可以降低生成解说视频的操作成本，该技术方案如下：

一方面，提供了一种解说视频生成方法，所述方法包括：

获取对局指令帧，所述对局指令帧包含至少一条对局操作指令，所述对局操作指令用于控制虚拟对象在对局内执行局内行为；

基于所述对局指令帧生成解说数据流，所述解说数据流中包含至少一段描述对局事件的解说音频，所述对局事件由所述虚拟对象执行局内行为时触发；

基于所述对局指令帧进行对局画面渲染，生成对局视频流，所述对局视频流中包含至少一帧对局视频帧；

对所述解说数据流和所述对局视频流进行合并，生成解说视频流，所述解说视频流中同一对局事件对应的所述对局视频帧和所述解说音频在时间上对齐。

另一方面，提供了一种解说视频生成装置，所述装置包括：

获取模块，用于获取对局指令帧，所述对局指令帧包含至少一条对局操作指令，所述对局操作指令用于控制虚拟对象在对局内执行局内行为；

第一生成模块，用于基于所述对局指令帧生成解说数据流，所述解说数据流中包含至少一段描述对局事件的解说音频，所述对局事件由所述虚拟对象执行局内行为时触发；

第二生成模块，用于基于所述对局指令帧进行对局画面渲染，生成对局视频流，所述对局视频流中包含至少一帧对局视频帧；

第三生成模块，用于对所述解说数据流和所述对局视频流进行合并，生成解说视频流，所述解说视频流中同一对局事件对应的所述对局视频帧和所述解说音频在时间上对齐。

在一种可能的实施方式中，所述第三生成模块，包括：

第一确定单元，用于确定目标对局视频帧对应的目标对局时间，所述目标对局时间是从对局开始到所述目标对局视频帧所经过的时间；

第二确定单元，用于确定在所述目标对局时间生成的目标对局指令帧的目标帧号；

时间对齐单元，用于响应于存在与所述目标帧号对应的目标对局事件，将目标解说音频与所述目标对局视频帧在时间上对齐，所述目标解说音频用于描述所述目标对局事件。

在一种可能的实施方式中，所述对局指令帧对应第一帧率；

所述第二确定单元，还用于：

基于所述目标对局时间和所述第一帧率，确定所述目标对局指令帧的所述目标帧号。

在一种可能的实施方式中，所述第一确定单元，还用于：

利用图像识别模型对所述目标对局视频帧中的对局时间进行图像识别；

基于图像识别结果确定所述目标对局视频帧对应的所述目标对局时间。

在一种可能的实施方式中，所述对局视频流的帧率为第二帧率；

所述第一确定单元，还用于：

基于所述图像识别结果确定所述目标对局视频帧对应的基础对局时间；

基于所述基础对局时间的历史识别次数以及所述第二帧率，确定对局时间偏移；

将所述基础对局时间和所述对局时间偏移之和确定为所述目标对局时间。

在一种可能的实施方式中，所述第一生成模块，包括：

第三确定单元，用于确定执行所述局内行为后对局内各个对象的属性信息；

第四确定单元，用于确定与所述属性信息匹配的至少一个候选对局事件；

筛选单元，用于从至少一个所述候选对局事件中筛选出目标对局事件；

第一生成单元，用于基于所述目标对局事件生成解说文本，并对所述解说文本进行TTS处理，生成所述解说音频。

在一种可能的实施方式中，所述第四确定单元，还用于：

响应于所述属性信息与预设对局事件对应的预设属性信息匹配，将所述预设对局事件确定为所述候选对局事件。

在一种可能的实施方式中，所述第四确定单元，还用于：

响应于所述属性信息与所述预设对局事件对应的所述预设属性信息匹配，且所述预设对局事件满足预设解说条件，将所述预设对局事件确定为所述候选对局事件，所述预设解说条件包括对局视角条件和事件重复条件中的至少一种，所述对局视角条件指所述预设对局事件位于对局观看视角内，所述事件重复条件指所述预设对局事件在预设时长内出现的次数小于次数阈值。

在一种可能的实施方式中，所述筛选单元，还用于：

获取各个所述候选对局事件对应的事件权重；

基于各个所述候选对局事件在对局内的重要程度，确定各个所述候选对局事件对应的事件分值，所述重要程度与所述对局事件的事件发生位置、触发所述对局事件的虚拟对象类型、触发所述对局事件的虚拟对象数量中的至少一种有关；

通过所述事件权重对所述事件分值进行加权，得到各个所述候选对局事件对应的事件加权分值；

将事件加权分值最高的所述候选对局事件确定为所述目标对局事件。

在一种可能的实施方式中，所述第二生成模块，包括：

第二生成单元，用于基于所述对局指令帧进行对局画面渲染，得到全局对局画面；

第三生成单元，用于基于目标对局观看视角从所述全局对局画面中提取目标对局画面，并根据所述目标对局画面生成所述目标对局观看视角对应的目标对局视频流，其中，不同对局观看视角对应不同对局视频流；

所述第三生成模块，包括：

第四生成单元，用于对各路对局视频流和所述解说数据流进行合并，生成不同对局观看视角对应的所述解说视频流。

另一方面，提供了一种服务器，所述服务器包含处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如上述方面所述的解说视频生成方法。

另一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如上述方面所述的解说视频生成方法。

另一方面，根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的解说视频生成方法。

本申请提供的技术方案可以包括以下有益效果：

采用本申请实施例提供的解说视频生成方法，通过在线分析对局指令帧，生成解说音频并渲染出对局视频，并对解说音频和对局视频进行时间对齐，生成解说视频。通过分析对局指令帧生成解说视频，一方面，可以在对局过程中即生成与对局相匹配的解说视频，无需在对局后再生成解说视频，提高了解说视频的生成及时性；另一方面，无需人工进行编写解说文本，生成解说音频，可以实现自动化的解说视频生成过程，进一步提高了解说视频的生成效率。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1示出了本申请一个示例性实施例示出的解说系统架构图；

图2示出了本申请一个示例性实施例示出的解说视频生成方法的流程图；

图3示出了本申请另一个示例性实施例示出的解说视频生成方法的流程图；

图4其是预设对局事件对应的预设属性信息的设置界面图；

图5示出了本申请一个示例性实施例示出的对局视频帧和对局指令帧的对齐过程示意图；

图6示出了本申请一个示例性实施例示出的目标对局事件的确定方法的流程图；

图7示出了本申请一个示例性实施例示出的对局视频帧的示意图；

图8示出了本申请另一个示例性实施例示出的解说视频生成方法的流程图；

图9示出了本申请一个示例性实施例示出的完整生成解说视频流的过程示意图；

图10示出了本申请一个示例性实施例示出的解说视频生成装置的结构方框图；

图11示出了本申请一个实施例提供的服务器的结构框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。其中，人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本申请实施例所示出的解说视频生成方法主要涉及到上述人工智能软件技术中的计算机视觉技术、语音处理技术、自然语言处理技术这几个方向。

其中，计算机视觉技术(Computer Vision，CV)是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(Optical Character Recognition，OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。本申请实施例中，可以使用图像识别技术对对局视频帧进行时间识别，得到对局视频帧中包含的对局时间。

语音技术(Speech Technology)的关键技术有自动语音识别技术(AutomaticSpeech Recognition，ASR)和语音合成技术(Text-to-Speech，TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。本申请实施例中，主要应用语音技术中的TTS将解说文本转换为解说音频。

自然语言处理(Nature Language Processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。本申请实施例中，在分析对局指令帧得到解说文本的过程中，需要将筛选出的目标对局事件生成符合自然语言逻辑的解说文本。

请参考图1，其示出了本申请一个示例性实施例示出的解说系统架构图，所述解说系统包括至少一个对局终端110、解说服务器120和直播终端130，本申请实施例中的解说系统应用于虚拟在线解说场景中。

对局终端110是安装有游戏类应用程序的设备。该游戏类应用程序可以是体育游戏、军事仿真程序、多人在线战术竞技(Multiplayer Online Battle Arena，MOBA)游戏、大逃杀射击游戏、模拟战略游戏(Simulation Game，SLG)等，本申请实施例对游戏类应用程序的类型不构成限定。该对局终端110可以是智能手机、平板电脑、个人计算机等。本申请实施例中，在虚拟在线解说游戏场景下，对局终端110正在运行游戏类应用程序时，用户可以通过对局终端110控制虚拟对象在对局内进行局内行为，对应的，对局终端110接收用户控制虚拟对象的对局操作指令，并将该对局操作指令发送给解说服务器120，使得解说服务器120可以根据接收到的对局操作指令，在解说服务器120处进行对局渲染。

对局终端110通过有线或无线通信方式与解说服务器120进行直接或间接地连接。

解说服务器120是游戏类应用程序的后台服务器或业务服务器，用于进行在线游戏解说，并为其他直播平台或直播终端推送解说视频流。其可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，解说服务器120可以用于接收多个对局终端110发送的对局操作指令(或对局指令帧)，比如，解说服务器120可以接收对局终端112和对局终端111发送的对局操作指令；一方面，基于对对局指令帧的分析，生成解说数据流；另一方面，基于对局指令帧进行在线对局渲染，实时生成对局视频流，并对解说数据流和对局视频流进行合并，生成解说数据流，用于推送至直播终端130。

可选的，基于服务器架构的设计，解说服务器120中可以包括对局视频流生成服务器(用于根据对局指令帧渲染对局画面，并录制生成对局视频流)、解说数据流生成服务器(用于根据对局指令帧生成解说数据流)以及解说视频流生成服务器(用于根据对局视频流和解说数据流生成解说视频流)。

直播终端130通过有线或无线通信方式与解说服务器120进行直接或间接地连接。

直播终端130可以是运行有直播客户端或视频客户端的设备，也可以是直播客户端或视频客户端对应的后台服务器。本申请实施例中，若直播终端130为运行有直播客户端或视频客户端的设备，其可以接收来自解说服务器120下发的解说视频流，并对解说视频流进行解码，并在直播客户端或视频客户端中播放该解说视频；可选的，若直播终端130为直播客户端或视频客户端对应的后台服务器，对应的，直播终端130可以接收解说服务器120下发的解说视频流，并将解说视频流推送给其对应的直播客户端或视频客户端。

请参考图2，其示出了本申请一个示例性实施例示出的解说视频生成方法的流程图，本申请实施例以该方法应用于图1所示的解说服务器为例进行说明，该方法包括：

步骤201，获取对局指令帧，对局指令帧包含至少一条对局操作指令，对局操作指令用于控制虚拟对象在对局内执行局内行为。

不同于相关技术中在对局结束后，根据对局视频准备解说文本，并将解说文本转化为语音播放出来，生成解说视频，本申请实施例的应用场景为在线对局解说场景，也就是说，对局过程中会自动生成相应的的解说视频流，并将解说视频流推送至直播端进行播放，以提高解说视频的生成及时性，而为了可以在对局过程中实时生成对应的解说视频，在一种可能的实施方式中，可以通过对对局指令帧的分析，实现在线对局视频渲染和在线分析解说事件的过程。

其中，对局指令帧包含至少一条对局操作指令，对局操作指令是用于控制虚拟对象在对局内执行局内行为，局内行为指用户控制虚拟对象进入对局后的行为，比如，控制虚拟对象在虚拟环境中移动、控制虚拟对象施放技能、控制虚拟对象进行预设游戏动作等。

可选的，将对局操作指令以帧的形式定义，每个对局指令帧可以包含多个针对玩家角色、非玩家角色(Non-Player Character，NPC)等游戏内元素的对局操作指令。

步骤202，基于对局指令帧生成解说数据流，解说数据流中包含至少一段描述对局事件的解说音频，对局事件由虚拟对象执行局内行为时触发。

为了实现在线对局解说，实时生成解说视频，本申请实施例提供了一种在线游戏理解技术，也就是说，可以基于对局指令帧分析和理解在线对局过程，得到对局过程中需要进行解说的对局事件。

由于对局指令帧为对局操作指令的集合，因此，在一种可能的实施方式中，可以通过分析对局指令帧中包含的各个对局操作指令，精确计算在接收每个对局指令帧后，虚拟环境中各个对象属性值的变化情况，从中挖掘出需要解说的对局事件，从而根据对局事件生成解说文本，并将解说文本转化为解说音频，从而实现通过分析对局指令帧生成解说数据流的过程。

可选的，解说数据流中除了包括解说音频外，还可以包括解说文本，以便在后续合成解说视频流时，可以将解说文本添加在解说视频流中对应的解说视频帧上。

在一个示例性的例子中，若对局指令帧中包含的对局操作指令为“沈xx丢了一个混合炸弹”，通过计算对局中个元素在该对局操作指令下对应的位置、血量等因素，若对局中存在虚拟对象触发该混合炸弹后血量下降较多，对应的，通过分析对局指令帧，可以确定出对局事件为“沈xx丢了一个混合炸弹，伤害很高”，从而进一步生成描述该对局事件的解说音频。

步骤203，基于对局指令帧进行对局画面渲染，生成对局视频流，对局视频流中包含至少一帧对局视频帧。

基于在线生成解说视频的原理，当用户在不同游戏客户端中操控虚拟对象进行对局过程中，若需要在线生成与对局过程相同的解说视频，对应的，也需要实时渲染出对局画面，从而无需在对局结束后获取对局视频，在对对局视频进行处理，生成解说视频，进一步提高解说视频生成的实时性和及时性。

当用户在终端(手机端)上安装的游戏客户端中进行对局时，实际上是游戏客户端将接收到的对局操作指令，以及服务器(游戏客户端对应的后台服务器或业务服务器)转发的来自其他用户的对局操作指令，实时渲染出游戏内各个对象或元素的属性变化情况的过程，基于上述游戏对局渲染过程，在一种可能的实施方式中，也可以在解说服务器中安装游戏客户端，用于接收其他用户操控的游戏客户端的对局操作指令，并根据这些对局操作指令，实时渲染出对局画面，由于最后需要生成解说视频，因此，还需要对渲染出的对局画面进行录制，以便生成包含对局视频帧的对局视频流。

需要说明的是，步骤202和步骤203可以同时执行，也可以先执行步骤202，再执行步骤203，或先执行步骤203，再执行步骤202，本申请实施例对步骤202和步骤203的执行顺序不构成限定。

步骤204，对解说数据流和对局视频流进行合并，生成解说视频流，解说视频流中同一对局事件对应的对局视频帧和解说音频在时间上对齐。

本实施例中提供的在线解说视频生成过程中，分别生成了两个数据流，一路为解说数据流，一路为对局视频流，由于两个数据处理流程的差异，比如，解说数据流生成过程中，由于需要进行对局指令帧的分析过程，生成速率较慢，此外，由于对局视频流是从玩家加载游戏时就开始启动、渲染和录制的，而解说数据流是从对局开始后进行处理的，因此，基于两路数据流处理速度的差异，在合成解说视频的过程中，需要适配两个数据流处理速度之间的差异，通过一个基准将两个数据流对齐同步到解说视频的时间轴上来，也就是说，在生成的解说视频的过程中，同一对局事件对应的对局视频帧和解说音频在时间上对齐，即在显示该对局事件对应的对局视频帧时，同时该对局事件对应的解说音频也需要同时开始播放。

综上所述，本申请实施例中，通过在线分析对局指令帧，生成解说音频并渲染出对局视频，并对解说音频和对局视频进行时间对齐，生成解说视频。通过分析对局指令帧生成解说视频，一方面，可以在对局过程中即生成与对局相匹配的解说视频，无需在对局后再生成解说视频，提高了解说视频的生成及时性；另一方面，无需人工进行编写解说文本，生成解说音频，可以实现自动化的解说视频生成过程，进一步提高了解说视频的生成效率。

由于对局视频流和解说数据流之间数据处理速度的差异，导致解说数据流和对局视频流之间存在时间差异，若在合成解说视频流的过程中，仅将对局视频流和解说数据流的开始时间对齐，显然无法保证正在显示的对局视频帧上显示有正在播放的解说音频所描述的对局事件，因此，在一种可能的实施方式中，在对对局视频流和解说数据流进行时间对齐时，需要分析得到对局视频帧与解说音频之间的对应关系，并将同一对局事件对应的对局视频帧与解说音频在时间上对齐。

请参考图3，其示出了本申请另一个示例性实施例示出的解说视频生成方法的流程图，本申请实施例以该方法应用于图1所示的解说服务器为例进行说明，该方法包括：

步骤301，获取对局指令帧，对局指令帧包含至少一条对局操作指令，对局操作指令用于控制虚拟对象在对局内执行局内行为。

其中，对局指令帧对应第一帧率，即对局指令帧按照第一帧率刷新或获取。在一个示例性的例子中，若第一帧率为30FPS，对应的，每隔33ms获取对局指令帧，或相邻对局指令帧之间的时间间隔为33ms；对应的，每个对局指令帧中包含33ms内生成的对局操作指令。

在一种可能的实施方式中，解说服务器按照第一帧率接收或获取对局指令帧，并根据对局指令帧进行对局分析，得到在执行对局操作指令对应局内行为后，对局内各个对象的属性信息。

步骤302，确定执行局内行为后对局内各个对象的属性信息。

其中，属性信息可以包括对局内各个对象的位置信息、血量信息、速度信息、等级信息、技能信息、战绩信息、装备信息、比分信息等，本申请实施例对属性信息具体包含的信息类型不构成限定。

在一种可能的实施方式中，当解说服务器接收到对局指令帧后，基于对局指令帧中包含的各个对局操作指令，精确计算在每个对局操作指令下，虚拟环境中各个对象的属性信息，以便根据该属性信息分析挖掘可用于解说的对局事件。

可选的，对局内各个对象可以包括由用户控制的虚拟对象(即玩家角色)、由后台控制的虚拟对象(非玩家角色NPC)或虚拟对象中的各种虚拟建筑物等，本申请实施例中对对局内包含的对象类型不构成限定。

在一个示例性的例子中，若局内行为是“主队英雄击杀客队红/蓝BUFF”，对应的，获取到的执行局内行为后对局内各个对象的属性信息包括“主动英雄血量、客队英雄血量、客队英雄位置、客队英雄装备等信息”。

可选的，解说服务器可以预设在线解说过程中需要分析的属性信息类型(属性信息类型即解说特征维度)，从而在在线解说过程中，可以根据预设的解说特征维度来获取所需要的属性信息。

在一个示例性的例子中，以多人在线战术竞技游戏为例，总结得到属性信息可以得到四个类别：玩家角色(由用户控制的虚拟对象)、NPC、团战、统计等。并针对每个类别细分有对应的属性信息，比如，针对团战类别，对应的属性信息可以包括：团战位置、团战包含的虚拟对象(虚拟对象类型或虚拟对象数量)、团战类型、团战目的、团战时间、团战结果等；针对单个虚拟对象，其对应的属性信息可以包括：血量、等级、位置、装备、技能、战绩等；针对NPC，其对应的属性信息可以包括：血量、位置、攻击技能等；针对统计类别，其对应的属性信息可以包括：比分、塔数、胜率等。

步骤303，确定与属性信息匹配的至少一个候选对局事件。

为了实现在线进行对局事件的挖掘和理解，在一种可能的实施方式中，解说服务器预先分析解说场景中需要关注的对局事件，并将这些对局事件预设在解说服务器中，并为每个预设对局事件设置其对应的预设属性信息(预设属性信息也是触发该预设对局事件的预设条件)，使得在线解说过程中，可以根据获取到的属性信息，确定出至少一个候选对局事件。

由于每个预设对局事件均对应预设属性信息，因此，在确定与属性信息匹配的至少一个候选对局事件时，需要确定属性信息是否满足任意预设对局事件对应的预设属性信息，也就是说，当确定出属性信息与任意预设对局事件对应的预设属性信息匹配时，将该预设对局事件确定为与该属性信息匹配的候选对局事件，若属性信息与任意预设对局事件对应的预设属性信息不匹配时，对应的，该属性信息也就并未对应有候选对局事件。

可选的，在线解说过程中为了避免重复解说相同对局事件，或解说并不在用户对局关注视角内的对局事件，通过在确定候选对局事件时，对根据属性信息匹配到的预设对局事件进行解说条件筛选，以便提高确定最终解说事件的准确性。

对应的，确定与属性信息匹配的至少一个候选对局事件可以包括：响应于属性信息与预设对局事件对应的预设属性信息匹配，且预设对局事件满足预设解说条件，将预设对局事件确定为候选对局事件。

其中，预设解说条件包括对局视角条件和事件重复条件中的至少一种，对局视角条件指预设对局事件位于对局观看视角内，也就是说，若属性信息与任意预设对局事件对应的预设属性信息匹配后，还需要判断该预设对局事件是否位于对局视角内，若确定该预设对局事件位于对局视角内，则将该预设对局事件确定为该对局指令帧对应的候选对局事件，否则，若确定该预设对局事件位于当前对局视角外，则将该预设对局事件从根据属性信息匹配到的多个候选对局事件中剔除。

其中，事件重复条件指预设对局事件在预设时长内出现的次数小于次数阈值。也就是说，若属性信息与某个预设对局事件对应的预设属性信息匹配后，还需要判断在预设时间内有没有重复解说该预设对局事件，若不存在重复解说的情况，将该预设对局事件确定为与该属性信息匹配的候选对局事件，否则将该预设对局事件从候选对局事件中剔除。

可选的，可以设置候选对局事件需要满足对局视角条件和事件重复条件中的任意一种，也可以设置候选对局事件需要同时满足对局视角条件和事件重复条件。

如图4所示，其是预设对局事件对应的预设属性信息的设置界面图，在设置界面401中，预设对局事件为“英雄反红蓝BUFF”，其对应的预设属性信息(触发条件)可以为“主队英雄击杀客队红/蓝BUFF、客队英雄在该BUFF周围、主队英雄血量状态很好”等。

步骤304，从至少一个候选对局事件中筛选出目标对局事件。

由于与属性信息所匹配的候选对局事件可能包含多个，但是每个解说时刻仅可以解说一个对局事件，因此，在一种可能的实施方式中，若属性信息匹配有多个候选对局事件，就需要从多个候选对局事件中选取最优的对局事件作为目标对局事件，生成后续解说文本以及解说音频。

其中，从多个候选对局事件中筛选出目标对局事件的过程可以包括以下步骤：

一、获取各个候选对局事件对应的事件权重。

其中，事件权重为各个候选对局事件对应的离线事件权重或基础事件权重。也就是说，该事件权重是与当前对局没有直接关系的。

在一种可能的实施方式中，解说服务器中设置有解说事件打分模型，该解说事件打分模型通过标注专业解说主持人选中的解说事件，离线迭代学习得到，即将每个对局指令帧生成的候选对局事件输入解说事件打分模型中，可以得到各个候选对局事件对应的事件权重，并将各个候选对局事件以及其对应的事件权重存储在解说服务器中，使得在线解说过程中，可以根据确定出的候选对局事件查找其对应的事件权重。

可选的，由于解说服务器中设置有解说事件打分模型，也可以无需存储候选对局事件和其对应的事件权重，在线解说过程中，可以将各个候选对局事件输入解说事件打分模型中，从而得到各个候选对局事件对应的事件权重。

在一个示例性的例子中，若根据对局指令帧生成3个候选对局事件，可以获取到3个候选对局事件对应的事件权重分别为：候选对局事件1对应的事件权重为0.6、候选对局事件2对应的事件权重为0.7、候选对局事件3对应的事件权重为0.8。

二、基于各个候选对局事件在对局内的重要程度，确定各个候选对局事件对应的事件分值。

由于步骤一中获取到的事件权重为离线事件权重，与当前对局没有直接关系，若仅根据离线事件权重来进行目标对局事件的选取，可能会导致选取到的目标对局事件并非是对局内最为精彩或用户更期望解说的对局事件，因此，在一种可能的实施方式中，在事件权重的基础上，还需要结合各个候选对局事件在对局内的重要程度，来确定各个候选对局事件对应的事件分值。

其中，该各个候选对局事件对应的重要程度与对局事件的事件发生位置、触发对局事件的虚拟对象类型、触发对局事件的虚拟对象数量中的至少一种有关。也就是说，若对局事件的发生位置若位于当前对局视角内，对应的，设置该对局事件的事件分值较高，否则设置较低的事件分值；若触发对局事件的虚拟对象数量较多，设置该对局事件的事件分值较高，否则设置对局事件的事件分值较低；若触发对局事件的虚拟对象为对局中的主要角色(或重要角色)，设置该对局事件的事件分值较高，否则设置该对局事件的事件分值较低，其中主要角色和重要角色由开发人员预先设置。

在一个示例性的例子中，以多人在线竞技类游戏为例，在确定事件分值时，可以通过团战打分、团战内事件打分两个事件打分过程，综合得到各个候选对局事件对应的事件分值，其中，团战打分与团战人数(设置团战人数越多分值越高)、团战位置(设置团战抢占的资源越重要分值越高)、团战结果(设置团战胜利分值越高)等因素有关；团战内事件打分与参与对局事件的英雄类型(设置英雄角色越重要事件分值越高)、参与对局事件的英雄分值(设置英雄获取到的分值越高，事件分值越高)等有关。

可选的，影响候选对局事件对应的事件分值的因素可以由开发人员预先设置。

三、通过事件权重对事件分值进行加权，得到各个候选对局事件对应的事件加权分值。

在一种可能的实施方式中，结合事件基础权重和在线打分的情况，综合得到各个候选对局事件对应的事件加权分值，以便基于该事件加权分值，从多个候选对局事件中筛选出目标对局事件。

在一个示例性的例子中，若对局指令帧对应三个候选对局事件，其中，候选对局事件1对应的事件权重为0.6，事件分值为50；候选对局事件2对应的事件权重为0.7，事件分值为50；候选对局事件3对应的事件权重为0.6，事件分值为80；各个候选对局事件对应的事件加权分值分别为：候选对局事件1对应的事件加权分值为30、候选对局事件2对应的事件加权分值为35、候选对局事件3对应的事件加权分值为42。

可选的，在设置事件分值时，可以根据十分制来打分，也可以根据百分制来打分，本申请实施例对此不构成限定。

四、将事件加权分值最高的候选对局事件确定为目标对局事件。

由于在某个解说时刻仅能解说单一对局事件，且事件加权分值越高，表示对局事件在离线解说场景下关注度较高，同时在当前对局场景下对应的重要程度也较高，因此，在从多个候选对局事件中确定目标对局事件时，将事件加权分值最高的候选对局事件确定为目标对局事件。

在一个示例性的例子中，若各个候选对局事件对应的事件加权分值分别为：候选对局事件1对应的事件加权分值为30、候选对局事件2对应的事件加权分值为35、候选对局事件3对应的事件加权分值为42，则对应的目标对局事件为候选对局事件3。

在另一种可能的应用场景下，以多人在线竞技类游戏为例(包括有团战情景)，在从多个候选对局事件中选取目标对局事件时，可以首先根据团战中包含的虚拟对象的数量来选取对局事件，比如，若对局内包含两组团战，团战A对应的虚拟对象数量为3个，团战B对应的虚拟对象数量为7个，在选取对局事件时，优先选取团战B对应的候选对局事件，再从团战B对应的多个候选对局事件中选取目标对局事件，选取因素可以包括虚拟对象类型和虚拟对象分值，比如，团战B对应有3个候选对局事件，这3个虚拟对局事件分别由虚拟对象A和虚拟对象B执行，其中，虚拟对象A为重要英雄角色，对应的，选取虚拟对象A对应的候选对局事件作为目标对局事件。

在一种可能的应用场景中，可以根据单帧对局指令帧确定目标对局事件；可选的，在确定对局事件时，若仅根据单帧对局指令帧，无法确定出一个目标对局事件时，可能需要根据至少两帧对局指令帧才可以确定出目标对局事件。

步骤305，基于目标对局事件生成解说文本，并对解说文本进行TTS处理，生成解说音频。

在一种可能的实施方式中，当根据对局指令帧分析得到对应的目标对局事件后，需要通过自然语言理解(Natural Language Understanding，NLU)技术自动生成解说文本，并通过TTS技术，将解说文本转化为解说音频，从而实现在线游戏理解的过程。

可选的，由于解说音频是描述目标对局事件的，而目标对局事件对应单个目标对局指令帧或多个目标对局指令帧，因此，在一种可能的实施方式中，将解说音频和其对应的目标对局事件关联，或与其对应的对局指令帧的帧号关联，以便后续在解说视频合成时，可以根据帧号查找到其对应的解说音频。

步骤306，基于对局指令帧进行对局画面渲染，生成对局视频流，对局视频流中包含至少一帧对局视频帧。

步骤306的实施方式可以参考上文实施例，本实施例在此不做赘述。

步骤307，确定目标对局视频帧对应的目标对局时间，目标对局时间是从对局开始到目标对局视频帧所经过的时间。

其中，解说数据流和对局视频流产生数据处理速度差异的原因可以包括：一方面，由于对局视频流是从用户加载游戏时就开始启动渲染并录制的，而解说数据流是从玩家进入对局后开始分析生成的，显然对局视频流的录制时间要大于对局时间，导致解说数据流和对局视频流存在时间差异；另一方面，由于对局指令帧的帧率与对局视频帧的录制帧率不同，也会导致对局视频流和解说数据流存在时间差异。因此，需要分析解说数据流和对局视频流之间的对应关系，从而可以将同一对局事件对应的对局视频帧和解说音频在时间上对齐，实现生成解说视频流。

无论对局视频流怎么拖长，解说还是以游戏时间(对局时间)为主要时间线进行的，因此，在一种可能的实施方式中，设定解说视频流中的时间轴以游戏对局中的游戏时间为准，也就是说通过获取对局视频帧中的目标对局时间，即从对局开始到目标对局视频帧所经过的时间，来确定该对局时间对应的解说音频。

步骤308，确定在目标对局时间生成的目标对局指令帧的目标帧号。

由于描述目标对局事件的目标解说音频与目标对局指令帧对应的帧号对应的，因此，在一种可能的实施方式中，可以根据对局时间生成目标对局指令帧的目标帧号，从而根据目标帧号来确定目标解说音频。

其中，根据目标对局时间生成目标帧号的过程可以为：基于目标对局时间和第一帧率，确定目标对局指令帧的目标帧号。

由于对局指令帧存在预设的获取或刷新帧率(即第一帧率)，对应的，在确定目标对局时间对应的是第几帧对局指令帧时，需要根据目标对局时间和第一帧率，来计算目标对局指令帧的目标帧号。

在一个示例性的例子中，若第一帧率为30FPS，即相邻两帧对局指令帧之间相隔30ms，目标对局时间为13分56秒34毫秒，对应的，目标帧号为目标对局时间除以相邻对局指令帧的时间间隔，也就是说，目标对局时间13分56秒34毫秒对应的目标帧号为25334帧。

如图5所示，其示出了本申请一个示例性实施例示出的对局视频帧和对局指令帧的对齐过程示意图。其中，对局视频帧中的对局时间识别过程在拉流客户端510中进行，即拉流客户客户端510从生成对局视频流的服务器中拉取对局视频流，并对对局视频流中包含的各个对局视频帧进行对局时间识别，该对局时间识别过程包括拉流监控511、视频解码512、时间裁剪513以及时间识别514，其中，拉流监控511即监控对局视频流的生成，并及时拉取对局视频流；视频解码512用于对拉取到的对局视频流进行解封装，得到连续的对局视频帧；时间裁剪513用于对对局视频帧中包含对局时间的局部图像进行裁剪，得到局部图像后，进行后续时间识别过程；在时间识别514中可以识别到对局视频帧中包含的时间序列为1356，也就是说，对局视频流中对局视频帧的视频时间36分21秒对应的对局时间为13分56秒；将经过拉流客户端510识别到的各个对局视频帧的时间序列形成时间队列511发送给解说服务520，在解说服务520中进行帧间对齐过程，对于时间识别有误的情况，即相邻时间序列差距较大，通过时间平滑516对获取到的时间序列进行处理；再进行后续游戏帧匹配517，其中，游戏帧匹配517用于根据时间序列(目标对局时间)生成目标游戏指令帧对应的目标帧号，若该目标帧号对应有目标对局事件，则进行帧间对齐518，即将对局视频流中对局视频帧的视频时间36分21秒与帧号为25334的解说音频在时间上对齐。

步骤309，响应于存在与目标帧号对应的目标对局事件，将目标解说音频与目标对局视频帧在时间上对齐，目标解说音频用于描述目标对局事件。

由于并非每个对局视频帧均对应有目标对局事件，因此，需要根据目标帧号去解说数据流中查找，若查找到目标帧号对应的目标对局事件，则将描述该目标对局事件的目标解说音频与目标对局视频帧在时间上对齐，即在显示目标对局视频帧的同时播放目标解说音频。

可选的，解说数据流中还可以包括解说文本，在合成解说视频流时，可以将目标对局视频帧对应的目标解说文本嵌入目标对局视频帧的预设位置中，并将该目标解说音频与目标对局视频帧调整为同一时间。

本实施例中，通过分析在对局操作指令指示的局内行为后对局内各个对象的属性信息，使得可以根据属性信息和预设对局事件的预设属性信息，为属性信息匹配对应的候选对局事件，从而实现无需人工干预，自动分析得到对局事件的目的，以便后续可以根据该对局事件生成解说文本和解说音频，从而提高生成解说视频的效率；此外，以对局时间为基准来调整解说数据流和对局视频流，实现解说视频的在线合并和生成过程，无需人工剪辑对局视频，降低了解说视频在线生成的操作成本。

由于对局视频帧中的对局时间精确度为秒，而画面刷新是以ms为间隔，因此，为了提高确定目标帧号的准确性，在一种可能的实施方式中，需要对从目标对局视频帧中识别到的对局时间进行修正。

在一个示例性的例子中，如图6所示，其示出了本申请一个示例性实施例示出的目标对局事件的确定方法的流程图。本申请实施例以该方法应用于图1所示的解说服务器为例进行说明，该方法包括：

步骤601，利用图像识别模型对目标对局视频帧中的对局时间进行图像识别。

由于对局视频帧中显示有对局时间，因此，在一种可能的实施方式中，可以通过对目标对局视频帧中的对局时间进行图像识别，从而得到目标对局视频帧对应的目标对局时间。

可选的，解说服务器中设置有图像识别模型，可以将目标对局视频帧输入该图像识别模型中进行图像识别，输出该目标对局视频帧中包含的对局时间。其中，图像识别模型可以是CV领域中处理手写体数字识别的(Deep Neural Networks，DNN)模型。

在一个示例性的例子中，如图7所示，其示出了本申请一个示例性实施例示出的对局视频帧的示意图。其中，对局视频帧对应的视频时间702为36分21秒，该对局视频帧对应的对局时间701为13分56秒。

其中，在对目标对局视频帧中的对局时间进行图像识别时，可以直接将目标对局视频帧输入图像识别模型，得到图像识别模型输出的对局时间；或对目标对局视频帧进行时间裁剪，即从目标对局视频帧中裁剪得到包含对局时间的局部图像，并将该局部图像输入图像识别模型中，得到图像识别模型输出的对局时间。

步骤602，基于图像识别结果确定目标对局视频帧对应的目标对局时间。

在一种可能的实施方式中，可以直接将图像识别结果得到的时间确定为目标对局视频帧对应的目标对局时间。

可选的，由于对局视频帧中包含的目标对局时间是以秒为单位的，而根据帧率计算帧号时，需要精确到毫秒级才可以实现帧间对齐，因此，在一种可能的实施方式中，引入频次统计，将图像识别结果得到的对局时间累积次数，从而得到以毫秒为单位的目标对局时间。

在一个示例性的例子中，步骤602可以包括以下步骤：

一、基于图像识别结果确定目标对局视频帧对应的基础对局时间。

在一种可能的实施方式中，仅将图像识别结果得到的时间数据确定为目标对局视频帧对应的基础对局时间，以便后续根据累计次数和第二帧率对该基础对局时间进行修正。

二、基于基础对局时间的历史识别次数以及第二帧率，确定对局时间偏移。

其中，第二帧率为对局视频流对应的帧率，若第二帧率为60FPS，对应相邻两帧对局视频帧之间的时间间隔为17ms。

由于第二帧率可以提供以毫秒为单位的时间，因此，在一种可能的实施方式中，可以基于该基础对局时间的历史识别次数和第二帧率，计算实际对局时间的偏移量。

在一个示例性的例子中，若第二帧率为60FPS，基础对局时间为13分56秒，若第一次识别到该基础对局时间，则对应的对局时间偏移量为17ms；若为第二次识别到该基础对局时间，则对应的对局时间偏移量为34ms。

三、将基础对局时间和对局时间偏移之和确定为目标对局时间。

由于对局时间偏移量以毫秒为单位，因此，可以将对局时间偏移量和基础对局时间之和确定为目标对局时间，从而得到单位为毫秒级的目标对局时间。

在一个示例性的例子中，若基础对局时间为13分56秒，对局时间偏移量为34ms，则对应的目标对局时间可以为13分56秒34毫秒。

在一个示例性的例子中，目标对局视频帧和目标对局指令帧之间的对应关系可以如表一和表二所示。

表一

视频时间	基础对局时间	画面频次	每帧时间	FPS	目标对局时间
						36分21秒	13分56秒	2	17ms	60	13分56秒34毫秒

表二

事件名称	事件帧	游戏帧数	每帧时间	FPS	目标对局时间
						程xx被击杀	25334	25334	33ms	30	13分56秒34毫秒

由表一和表二的对应关系可知，视频时间为36分21秒的目标对局视频帧对应的目标对局时间为13分56秒34毫秒，对应的目标对局指令帧的目标帧号为25334，对应的目标对局事件为“程xx被击杀”。

本实施例中，通过分析对局视频帧中对局时间的历史识别次数，并结合对局视频流的帧率，从而正确计算到以毫秒为单位的目标对局时间，以便实现目标对局视频帧和目标解说音频在时间上的对齐，在提高确定目标对局时间的准确性的基础上，进而提高帧间对齐的准确性。

在一种可能的应用场景中，对于多人在线竞技类等单局对战中包含多个虚拟对象的游戏来说，对局中包含多个虚拟对象，而在进行解说视频生成过程中，可能包含不同对局观看视角，其中，不同对局观看视角可以是重点关注某个虚拟对象的视角，因此，在渲染对局画面并生成对局视频流时，需要根据不同对局观看视角来生成不同对局观看视角的对局视频流。

在一个示例性的例子中，如图8所示，其示出了本申请另一个示例性实施例示出的解说视频生成方法的流程图，本申请实施例以该方法应用于图1所示的解说服务器为例进行说明，该方法包括：

步骤801，获取对局指令帧，对局指令帧包含至少一条对局操作指令，对局操作指令用于控制虚拟对象在对局内执行局内行为。

步骤802，基于对局指令帧生成解说数据流，解说数据流中包含至少一段描述对局事件的解说音频，对局事件由虚拟对象执行局内行为时触发。

步骤801和步骤802的实施方式可以参考上文实施，本实施例在此不做赘述。

步骤803，基于对局指令帧进行对局画面渲染，得到全局对局画面。

由于对局指令帧可以包含来自不同虚拟对象(由用户操作)对应的游戏客户端发送的对局操作指令，因此，在根据对局指令帧进行对局画面渲染时，是需要全局渲染，录制后即可以得到全局对局画面。

步骤804，基于目标对局观看视角从全局对局画面中提取目标对局画面，并根据目标对局画面生成目标对局观看视角对应的目标对局视频流，其中，不同对局观看视角对应不同对局视频流。

在解说过程中，由于对局事件的发生位置不同，为了使得用户可以以一个较清晰或正确的角度观看到正在发生的对局事件，因此，在一种可能的实施方式中，可以针对不同的对局观看视角进行对局视频流的获取。

其中，不同对局观看视角可以是以不同虚拟对象为中心的视角，该虚拟对象为用户操作的虚拟对象。

其中，获取不同对局观看视角对应的对局视频流的方式可以是：从全局对局画面中提取出所需要的对局观看视角的对局画面，并分别对不同对局画面进行录制，以生成不同对局观看视角对应的对局视频流；或将不同对局观看视角分布在不同的带声卡设备的服务器上并行渲染及录制，以生成不同对局观看视角对应的对局视频流。

步骤805，对各路对局视频流和解说数据流进行合并，生成不同对局观看视角对应的解说视频流。

对应生成不同对局观看视角的对局视频流的基础上，在进行解说视频流生成过程中，也需要将不同对局视频流和解说数据流进行合并，从而生成不同对局观看视角对应的解说视频流。

可选的，针对生成不同对局观看视角对应的解说视频流的场景下，可以直接将不同对局观看视角的解说视频流均推送给直播平台或客户端，使得直播平台或客户端可以根据需要进行对局观看视角的切换播放；或可以根据不同直播平台和客户端的需求，仅将其所需要的对局观看视角对应的目标解说数据流推送至直播平台或客户端。

本申请实施例中，可以基于不同对局观看视角生成不同的解说视频流，从而可以根据不同平台的需要，向其推送不同的解说视频流；或在播放解说视频流时，可以实现不同对局观看视角的切换。

如图9所示，其示出了本申请一个示例性实施例示出的完整的生成解说视频流的过程示意图。解说服务器接收游戏指令901(对局操作指令)，一路经过游戏信息获取和TTS语音合成，生成解说数据流；一路根据游戏指令生成对局视频流；其中，生成解说数据流的过程包括：转换游戏要点(GameCore)902(即分析对局指令帧)、解说特征903(即获取对局内各个对象的属性信息)、事件生成904(即根据属性信息确定匹配的至少一个候选对局事件)、事件选取905(即从多个候选对局事件中选取目标对局事件)、TTS语音合成906(即根据目标对局事件生成解说文本，并进行TTS处理得到解说音频)；生成对局视频流的过程包括：对局渲染907(即根据对局指令进行对局渲染生成对局画面)、渲染实况转播(OutsideBroadcast，OB)调度908(即渲染得到不同对局观看视角对应的对局画面)、视频录制909(对对局画面进行录制生成对局视频流)、视频推送910(将对局视频流推送至合成解说视频流的服务器)；当获取到对局视频流和解说数据流后，即可以将对局视频流和解说数据流进行多路对齐，从而生成解说视频911。

请参考图10，其示出了本申请一个示例性实施例示出的解说视频生成装置的结构方框图。该解说视频生成置可以实现成为服务器的部分或全部，该解说视频生成装置可以包括：

获取模块1001，用于获取对局指令帧，所述对局指令帧包含至少一条对局操作指令，所述对局操作指令用于控制虚拟对象在对局内执行局内行为；

第一生成模块1002，用于基于所述对局指令帧生成解说数据流，所述解说数据流中包含至少一段描述对局事件的解说音频，所述对局事件由所述虚拟对象执行局内行为时触发；

第二生成模块1003，用于基于所述对局指令帧进行对局画面渲染，生成对局视频流，所述对局视频流中包含至少一帧对局视频帧；

第三生成模块1004，用于对所述解说数据流和所述对局视频流进行合并，生成解说视频流，所述解说视频流中同一对局事件对应的所述对局视频帧和所述解说音频在时间上对齐。

可选的，所述第三生成模块1004，包括：

可选的，所述对局指令帧对应第一帧率；

所述第二确定单元，还用于：

可选的，所述第一确定单元，还用于：

可选的，所述对局视频流的帧率为第二帧率；

所述第一确定单元，还用于：

可选的，所述第一生成模块1002，包括：

可选的，所述第四确定单元，还用于：

可选的，所述筛选单元，还用于：

获取各个所述候选对局事件对应的事件权重；

可选的，所述第二生成模块1003，包括：

所述第三生成模块1004，包括：

需要说明的是：上述实施例提供的解说视频生成装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的解说视频生成装置与解说视频生成方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

请参考图11，其示出了本申请一个实施例提供的服务器的结构框图。该服务器可用于实施上述实施例中由解说服务器执行的解说视频生成方法。具体来讲：

所述服务器1100包括中央处理单元(Central Processing Unit，CPU)1101、包括随机存取存储器(Random Access Memory，RAM)1102和只读存储器(Read-Only Memory，ROM)1103的系统存储器1104，以及连接系统存储器1104和中央处理单元1101的系统总线1105。所述服务器1100还包括帮助服务器内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统，I/O系统)1106，和用于存储操作系统1113、应用程序1114和其他程序模块1115的大容量存储设备1107。

所述基本输入/输出系统1106包括有用于显示信息的显示器1108和用于用户输入信息的诸如鼠标、键盘之类的输入设备1109。其中所述显示器1108和输入设备1109都通过连接到系统总线1105的输入输出控制器1110连接到中央处理单元1101。所述基本输入/输出系统1106还可以包括输入输出控制器1110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1110还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1107通过连接到系统总线1105的大容量存储控制器(未示出)连接到中央处理单元1101。所述大容量存储设备1107及其相关联的计算机可读存储介质为服务器1100提供非易失性存储。也就是说，所述大容量存储设备1107可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory，CD-ROM)驱动器之类的计算机可读存储介质(未示出)。

不失一般性，所述计算机可读存储介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读存储指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读寄存器(Erasable Programmable Read OnlyMemory，EPROM)、电子抹除式可复写只读存储器(Electrically-Erasable ProgrammableRead-Only Memory，EEPROM)、闪存或其他固态存储其技术，CD-ROM、数字多功能光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1104和大容量存储设备1107可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1101执行，一个或多个程序包含用于实现上述方法实施例的指令，中央处理单元1101执行该一个或多个程序实现上述各个方法实施例提供的解说视频生成方法。

根据本申请的各种实施例，所述服务器1100还可以通过诸如因特网等网络连接到网络上的远程服务器运行。也即服务器1100可以通过连接在所述系统总线1105上的网络接口单元1111连接到网络1112，或者说，也可以使用网络接口单元1111来连接到其他类型的网络或远程服务器系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由解说服务器所执行的步骤。

本申请实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的解说视频生成方法。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面的各种可选实现方式中提供的解说视频生成方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种解说视频生成方法，其特征在于，所述方法包括：

利用图像识别模型对目标对局视频帧中的对局时间进行图像识别；

基于图像识别结果确定所述目标对局视频帧对应的基础对局时间；

基于所述基础对局时间的历史识别次数以及第二帧率，确定对局时间偏移，所述第二帧率为所述对局视频流的帧率；

将所述基础对局时间和所述对局时间偏移之和确定为目标对局时间，所述目标对局时间是从对局开始到所述目标对局视频帧所经过的时间；

确定在所述目标对局时间生成的目标对局指令帧的目标帧号；

在存在与所述目标帧号对应的目标对局事件的情况下，将目标解说音频与所述目标对局视频帧在时间上对齐，生成解说视频流，所述目标解说音频用于描述所述目标对局事件，所述解说视频流中同一对局事件对应的所述对局视频帧和所述解说音频在时间上对齐。

2.根据权利要求1所述的方法，其特征在于，所述对局指令帧对应第一帧率；

所述确定在所述目标对局时间生成的目标对局指令帧的目标帧号，包括：

3.根据权利要求1至2任一所述的方法，其特征在于，所述基于所述对局指令帧生成解说数据流，包括：

确定执行所述局内行为后对局内各个对象的属性信息；

确定与所述属性信息匹配的至少一个候选对局事件；

从至少一个所述候选对局事件中筛选出目标对局事件；

基于所述目标对局事件生成解说文本，并对所述解说文本进行文本转语音TTS处理，生成所述解说音频。

4.根据权利要求3所述的方法，其特征在于，所述确定与所述属性信息匹配的至少一个候选对局事件，包括：

5.根据权利要求4所述的方法，其特征在于，所述响应于所述属性信息与预设对局事件对应的预设属性信息匹配，将所述预设对局事件确定为所述候选对局事件，包括：

6.根据权利要求3所述的方法，其特征在于，所述从至少一个所述候选对局事件中筛选出目标对局事件，包括：

获取各个所述候选对局事件对应的事件权重；

7.根据权利要求1至2任一所述的方法，其特征在于，所述基于所述对局指令帧进行对局画面渲染，生成对局视频流，包括：

基于所述对局指令帧进行对局画面渲染，得到全局对局画面；

基于目标对局观看视角从所述全局对局画面中提取目标对局画面，并根据所述目标对局画面生成所述目标对局观看视角对应的目标对局视频流，其中，不同对局观看视角对应不同对局视频流；

所述方法还包括：

对各路对局视频流和所述解说数据流进行合并，生成不同对局观看视角对应的所述解说视频流。

8.一种解说视频生成装置，其特征在于，所述装置包括：

第三生成模块，用于利用图像识别模型对目标对局视频帧中的对局时间进行图像识别；基于图像识别结果确定所述目标对局视频帧对应的基础对局时间；基于所述基础对局时间的历史识别次数以及第二帧率，确定对局时间偏移，所述第二帧率为所述对局视频流的帧率；将所述基础对局时间和所述对局时间偏移之和确定为目标对局时间，所述目标对局时间是从对局开始到所述目标对局视频帧所经过的时间；确定在所述目标对局时间生成的目标对局指令帧的目标帧号；在存在与所述目标帧号对应的目标对局事件的情况下，将目标解说音频与所述目标对局视频帧在时间上对齐，生成解说视频流，所述目标解说音频用于描述所述目标对局事件，所述解说视频流中同一对局事件对应的所述对局视频帧和所述解说音频在时间上对齐。

9.一种服务器，其特征在于，所述服务器包含处理器和存储器，所述存储器中存储有至少一段程序，所述至少一段程序由所述处理器加载并执行以实现如权利要求1至7任一所述的解说视频生成方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一段程序，所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的解说视频生成方法。