CN110971964B

CN110971964B - 智能解说生成、播放方法、装置、设备及存储介质

Info

Publication number: CN110971964B
Application number: CN201911275221.9A
Authority: CN
Inventors: 段弘; 欧阳才晟; 陈祺; 郑杨
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2022-11-04
Anticipated expiration: 2039-12-12
Also published as: CN110971964A; US20230362457A1; WO2021114881A1; US11765439B2; US20220038790A1

Abstract

本申请提供了一种智能解说生成及播放方法、装置、设备及存储介质；所述方法包括：获取待解说的对局数据流；对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件；从所述候选解说事件中确定待解说事件，生成待解说事件序列；根据所述待解说事件序列生成所述对局数据流对应的解说脚本。通过本申请，能够根据对局数据流自动生成解说数据，从而能够提高解说效率。

Description

智能解说生成、播放方法、装置、设备及存储介质

技术领域

本申请涉及互联网技术领域，尤其涉及一种智能解说生成、播放方法、装置、设备及存储介质。

背景技术

随着互联网技术以及智能终端的发展，人们的娱乐方式已经有了翻天覆地的变化。人们可以随时随地地利用智能终端查看新闻、观看视频、听音乐、玩网络游戏，或者观看电竞玩家在电竞比赛中的游戏视频、体育比赛的直播视频、转播视频等，但是对于一些非专业用户在观看游戏视频、体育比赛视频时，需要借助一定的解说才能更好地了解比赛形势，增强用户对比赛的理解等。

竞技类解说需要对比赛过程中的各类数据有详细的了解(数据存储和记忆)，并且实时分析比赛进行过程发生的各类事件(实时数据分析)，再结合对比赛本身各种模式的理解(模式识别)，才能够对比赛进行精彩而准确的解说。

目前竞技类解说主要包括赛事官方解说和主播解说两类，官方解说通常只有指定的几位解说，而且解说的比赛数量也有限。

发明内容

本申请实施例提供一种智能解说生成、播放方法、装置及存储介质，能够根据对局数据流自动生成解说数据，从而能够提高解说效率。

本申请实施例的技术方案是这样实现的：

本申请实施例提供一种智能解说生成方法，包括：

获取待解说的对局数据流；

对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件；

从所述候选解说事件中确定待解说事件，生成待解说事件序列；

根据所述待解说事件序列生成所述对局数据流对应的解说脚本。

本申请实施例提供一种智能解说播放方法，所述方法包括：

响应于播放解说对局视频的操作指令，获取待解说的对局视频流；

获取与所述对局视频流匹配的对局数据流所对应的解说脚本；

根据所述对局视频流播放对局视频；

基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本。

本申请实施例提供一种智能解说生成装置，包括：

第一获取模块，用于获取待解说的对局数据流；

第一解析模块，用于对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件；

第一确定模块，用于从所述候选解说事件中确定待解说事件，生成待解说事件序列；

第一生成模块，用于根据所述待解说事件序列生成所述对局数据流对应的解说脚本。

本申请实施例提供一种智能解说播放装置，包括：

第二获取模块，用于响应于播放解说对局视频的操作指令，获取待解说的对局视频流；

第三获取模块，用于获取与所述对局视频流匹配的对局数据流所对应的解说脚本；

视频播放模块，用于根据所述对局视频流播放对局视频；

输出模块，用于基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本。

本申请实施例提供一种智能解说生成设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的智能解说生成方法。

本申请实施例提供一种智能解说播放设备，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现本申请实施例提供的智能解说播放方法。

本申请实施例提供一种存储介质，存储有可执行指令，用于引起处理器执行时，实现本申请实施例提供的方法。

本申请实施例具有以下有益效果：

在本申请实施例提供的智能解说生成方法中，在获取待解说的对局数据流之后，对所述对局数据流进行解析，完成对局数据流到待解说事件的识别过程，以得到所述对局数据流中的候选解说事件，进而从所述候选解说事件中确定待解说事件，生成待解说事件序列；根据所述待解说事件序列生成所述对局数据流对应的解说脚本，这样能够根据对局数据流自动、准确地生成解说数据，从而能够提高解说效率以及解说准确率。

附图说明

图1为本申请实施例智能解说生成及播放方法的网络架构示意图；

图2是本申请实施例提供的解说服务器200的组成结构示意图；

图3为本申请实施例提供的智能解说生成方法的一种实现流程示意图；

图4为本申请实施例提供的智能解说播放方法的一种实现流程示意图；

图5为本申请实施例提供的智能解说生成及播放一种实现流程示意图；

图6为本申请实施例提供的智能解说生成及播放的再一种实现流程示意图；

图7为本申请实施例驱动虚拟人进行解说的实现流程示意图；

图8为本申请实施例客户端界面示意图；

图9为本申请实施例视频帧队列与游戏数据帧队列对齐的实现流程示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述，所描述的实施例不应视为对本申请的限制，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。

在以下的描述中，所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

1)多人在线战术竞技游戏(MOBA，Multiplayer Online Battle Arena)，这类游戏的玩法是：在战斗中一般需要购买装备，玩家通常被分为两队，两队在分散的游戏地图中互相竞争，每个玩家都通过一个RTS风格的界面控制所选的角色；

2)语音合成技术(TTS，Text To Speech)，是语音合成应用的一种，将储存于电脑中的文件，如帮助文件或者网页，转换成自然语音输出；

3)对局数据流：是指在竞技对局中将多个对局数据帧进行编码形成的适用于在网络中传输的码流；

4)对局视频流：是指将多个对局视频帧进行编码形成的适用于在网络中传输的码流。

下面说明实现本申请实施例的装置的示例性应用，本申请实施例提供的装置可以实施为终端设备。下面，将说明装置实施为终端设备时涵盖终端设备的示例性应用。

参见图1，图1为本申请实施例智能解说生成方法的网络架构示意图，如图1所示，在该网络架构中至少包括解说客户端100、解说服务器200、网络300、渲染客户端400和业务服务器500。为实现支撑一个示例性应用，解说客户端100通过网络300连接解说服务器200，解说服务器200通过网络300分别连接渲染客户端400和业务服务器500，渲染客户端400通过网络300连接业务服务器500，网络300可以是广域网或者局域网，又或者是二者的组合，使用无线链路实现数据传输。

解说服务器200分别从业务服务器500获取对局数据流，从渲染客户端400获取对局视频流，进而解说服务器200基于对局数据流和对局视频流自动生成解说数据，并将解说数据发送至解说客户端100，解说客户端可以预先从渲染客户端400中获取到对局视频流并缓存，进而在接收到解说数据时，播放对局视频流，并在达到解说时间点时，同步输出解说数据。

需要说明的是，解说服务器200、业务服务器500不应简单理解为一个或一类服务器，而是根据上述的示例，在实际应用中为了支撑应用或网页而部署的各种可能形式的服务器。

本申请实施例提供的装置可以实施为硬件或者软硬件结合的方式，下面说明本申请实施例提供的装置的各种示例性实施。

根据图2示出的解说服务器200的示例性结构，可以预见解说服务器200的其他的示例性结构，因此这里所描述的结构不应视为限制，例如可以省略下文所描述的部分组件，或者，增设下文所未记载的组件以适应某些应用的特殊需求。

图2所示的解说服务器200包括：至少一个处理器210、存储器240、至少一个网络接口220和用户接口230。解说服务器200中的每个组件通过总线系统250耦合在一起。可理解，总线系统250用于实现这些组件之间的连接通信。总线系统250除包括数据总线之外，还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见，在图2中将各种总线都标为总线系统250。

用户接口230可以包括显示器、键盘、鼠标、触感板和触摸屏等。

存储器240可以是易失性存储器或非易失性存储器，也可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(ROM，Read Only Memory)。易失性存储器可以是随机存取存储器(RAM，Random Access Memory)。本申请实施例描述的存储器240旨在包括任意适合类型的存储器。

本申请实施例中的存储器240能够存储数据以支持解说服务器200的操作。这些数据的示例包括：用于在解说服务器200上操作的任何计算机程序，如操作系统和应用程序。其中，操作系统包含各种系统程序，例如框架层、核心库层、驱动层等，用于实现各种基础业务以及处理基于硬件的任务。应用程序可以包含各种应用程序。

作为本申请实施例提供的方法采用软件实施的示例，本申请实施例所提供的方法可以直接体现为由处理器210执行的软件模块组合，软件模块可以位于存储介质中，存储介质位于存储器240，处理器210读取存储器240中软件模块包括的可执行指令，结合必要的硬件(例如，包括处理器210以及连接到总线250的其他组件)完成本申请实施例提供的方法。

作为示例，处理器210可以是一种集成电路芯片，具有信号的处理能力，例如通用处理器、数字信号处理器(DSP，Digital Signal Processor)，或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其中，通用处理器可以是微处理器或者任何常规的处理器等。

将结合本申请实施例提供的终端的示例性应用和实施，说明本申请实施例提供的智能解说生成及播放方法。

为了更好地理解本申请实施例提供的方法，首先对人工智能、人工智能的各个分支，以及本申请实施例提供的方法所涉及的应用领域进行说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。以下对各个方向分别进行说明。

计算机视觉技术(CV，Computer Vision)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR，AutomaticSpeech Recognition)和TTS技术以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(NLP，Nature Language processing)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(ML，Machine Learning)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。

自动驾驶技术通常包括高精地图、环境感知、行为决策、路径规划、运动控制等技术，自定驾驶技术有着广泛的应用前景。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的方案涉及人工智能的自然语言处理等技术，具体通过如下实施例进行说明。

参见图3，图3为本申请实施例提供的智能解说生成方法的一种实现流程示意图，应用于图1所示的解说服务器，将结合图3示出的步骤进行说明。

步骤S101，获取待解说的对局数据流。

这里，对局数据流是指将对局数据进行编码形成的适用于在网络中传输的码流，在本申请实施例及其他实施例中，利用对局数据流能够渲染出对局视频流。并且对局数据流中包括多个对局数据帧，对局视频流中包括多个对局视频帧。

步骤S101在实现时，可以是解说服务器从业务服务器获取到对局数据流，其中该对局数据流可以是实时进行中的对局赛事的数据流，还可以是历史对局赛事的数据流。

步骤S102，对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件。

这里，步骤S102在实现时，可以是将获取到的一定时长的对局数据流进行解析，并利用事件匹配策略确定对局数据流中包括的各个候选解说事件。预设的事件匹配策略可以包括发生预设事件所必须会产生的数据或执行的动作等，当利用预设的事件匹配策略，对对局数据流进行解析，确定出该对局数据流中包括发生某一预设事件必须产生的数据，或者通过对对局数据流进行解析得到执行了某一预设事件对应的特定动作，那么认为识别出候选解说事件。

举例来说，当通过对对局数据流进行解析，确定出红方五名英雄都朝同一地点行进时，符合多人开团事件的事件匹配策略，那么认为识别出多人开团这一预设事件，而同时识别出某一英雄在行进过程中在打野，那么认为同时识别出打野这一预设事件。一般来说，对对局数据流进行解析时，会识别出多个预设事件。

在本申请实施例中，识别出的至少包括符合事件匹配策略的各个候选解说事件的标识，事件的标识可以是事件名称，举例来说，事件名称可以是“多人开团”、“反蓝”、“投篮”、“射门”等。在一些实施例中，为了能够准确地生成解说文本以及后续的解说数据，还需要获取各个候选事件的发生地点、对应的人物(角色)等属性信息，预设事件的属性信息可以是通过对对局数据流进行解析时得到。例如，识别出的候选解说事件可以是“多人开团”、“红方”、“塔三”。

通过步骤S102能够对获取到的对局数据流进行理解，将底层的对局数据流进行抽象概括得到各类可被观众所直观理解的事件，从而为后续生成解说内容的过程提供必要的数据基础。

步骤S103，从所述候选解说事件中确定待解说事件，生成待解说事件序列。

这里，在本申请实施例中，利用同一时间段的对局数据流会匹配出多个候选解说事件，而很显然，在一个时间段内只能对一个解说事件进行解说，因此需要从同一时间段中匹配出的多个候选解说事件中选择出待解说事件，以对待解说事件进行解说。因此一段较长的对局数据流中的不同时间段中确定出的各个待解说事件，形成了待解说事件序列。

步骤S104，根据所述待解说事件序列生成所述对局数据流对应的解说脚本。

这里，步骤是104在实现时，利用预设的解说内容生成策略依次将待解说事件序列中的各个待解说事件生成解说脚本，其中，解说脚本中至少包括解说文本和解说时间点，在一些实施例中，解说脚本中还可以包括解说音频数据，解说音频数据可以是利用TTS技术将解说文本转换为音频所得到的。解说时间点为输出解说音频数据的起始时间，例如解说时间点为05:06，说明在对局视频流播放至05:06时，开始输出解说音频数据。

在一些实施例中，解说数据中还可以包括播放解说音频数据所使用的表情信息、动作信息、口型信息等。

通过上述的步骤S101至步骤S104即可以通过对对局数据流进行分析和决策，自动生成解说数据，不仅能够提高解说的普及性还能够保证解说的准确性。

在一些实施例中，步骤S102至步骤S104在实现时，可以是将待处理的对局数据流输入至训练好的解说脚本生成模型中进行处理，从而得到解说脚本。其中，利用该训练好的解说脚本生成模型可以实现预设事件识别、待解说事件提取以及解说脚本生成，并且该解说脚本生成模型的训练数据可以包括历史赛事真实解说数据，还可以包括职业解说员的知识整理。

在一些实施例中，在步骤S104之后，所述方法还包括：将所述解说脚本发送至客户端，其中，这里的客户端是指解说客户端。解说客户端在接收到解说数据后，播放对局视频流，并在达到解说时间点时，输出解说文本和解说音频数据，进一步地，可以将解说文本作为解说字幕，并同步通过音频输出装置输出解说音频数据。

在本申请实施例提供的智能解说生成方法中，在获取到的待处理的对局数据流之后，通过对对局数据流进行解析，完成对局数据流到候选解说事件的识别过程，从多个候选解说事件中提取出得到待解说事件序列，进一步生成待解说事件序列对应的解说脚本。这样能够根据对局数据流自动、准确地生成解说数据，从而能够提高解说效率以及解说准确率。

在一些实施例中，上述的步骤S103“从所述候选解说事件中确定待解说事件，生成待解说事件序列”可以通过步骤S1031至步骤S1033实现，以下对各个步骤进行说明。

步骤S1031，获取各个候选解说事件的发生时间段和各个候选解说事件的重要程度参数。

在本申请实施例中，各个候选解说事件的重要程度参数是通过对历史真实解说数据及对应的对局数据流确定出来的，例如可以识别真实解说数据对应的对局数据流中的多个候选解说事件，并根据真实解说数据确定解说员进行解说的事件，那么可以得出解说员所解说的事件的重要程度参数是最高的，通过对大量的历史真实解说数据以及对应的对局数据流的分析，能够确定出各个候选解说事件的重要程度参数。

在一些实施例中，为了保证解说的上下文关联，各个候选解说事件的重要程度参数还可能与自身的前一个解说事件的关联度相关，也即各个候选解说事件的重要程度参数可以是由事件本身的重要程度参数和于前一个解说事件的关联度确定的。

步骤S1032，基于各个候选解说事件的发生时间段，确定各个时间段对应的候选解说事件集合。

这里，在识别出各个候选解说事件以及确定出各个候选解说事件的发生时间段后，能够根据各个候选解说事件的发生时间段，确定出处于同一时间段的候选解说事件集合，以便于后续从处于同一时间段的候选解说事件集合中确定出待解说事件。

步骤S1033，基于各个候选解说事件的重要程度参数，从各个时间段对应的候选解说事件集合中确定各个时间段对应的待解说事件，得到待解说事件序列。

这里，步骤S1033在实现时，可以时基于各个候选解说事件的重要程度参数，从各个时间段对应的候选解说事件集合中确定符合事件提取条件的各个待解说事件，从而得到待解说事件序列。在实现时，事件提取条件可以是重要程度参数最高，那么也即是将同一时间段内重要程度参数最高的候选解说事件确定为待解说事件。

通过上述的步骤S1031至步骤S1033，能够从识别出的多个候选解说事件中，确定各个时间段中的待解说事件，从而得到对局数据流对应的待解说事件序列，从而能够利用待解说事件序列生成解说脚本。

在一些实施例中，图3中所示的步骤S104可以通过下述的步骤S1041至步骤S1044实现，以下结合各个步骤进行相关说明。

步骤S1041，获取所述待解说事件序列中各个待解说事件的属性信息。

其中，这里，在描述一个事件时，仅得到事件的名称是不够的，还需要确定事件的地点、人物等。因此所述属性信息至少包括所述待解说事件发生地和待解说事件对应的角色信息。

步骤S1042，获取各个待解说事件对应的解说内容生成策略。

这里，解说内容生成策略可以是根据待解说事件的相关信息而生成解说文本的策略，可以包括待解说事件的相关信息的排列顺序，必要的语气助词等，不同的待解说事件可以对应有不同的解说内容生成策略，在一些实施例中，也可以是不同的待解说事件对应相同的解说内容生成策略。

在本申请实施例中，解说内容生成策略可以是根据历史真实解说数据而确定出的。通过对历史真实解说数据进行分析，可以确定出真实的解说员在解说某一事件时的解说内容，从而完成预设事件到解说文本的标注，也即得到了解说内容生成策略。并且解说生成策略会随着真实解说数据的丰富而不断更新和优化。

步骤S1043，根据所述各个解说内容生成策略和所述属性信息，生成各个解说文本。

这里，在得到解说内容生成策略以及待解说事件的属性信息后，即可完成待解说事件到解说内容(解说文本)的映射，从而得到待解说事件对应的解说文本。

步骤S1044，基于所述各个解说文本生成各个待解说事件对应的解说脚本。

这里，解说脚本可以包括解说音频数据，在一些实施例中还可以包括演绎解说文本的表情信息、动作信息。

在实际实现过程中，步骤S1044可以通过以下步骤实现：

步骤S10441，将所述各个解说文本转换为解说音频数据。

这里，步骤S10441在实现时，可以是利用TTS服务将解说文本转换为解说音频数据。

步骤S10442，将所述各个解说文本输入至训练好的自然语言处理模型中进行处理，得到所述各个解说文本对应的表情信息和动作信息。

这里，自然语言处理模型也即NLP模型，在本申请实施例中可以是训练好的用于进行自然语言处理的神经网络模型。在得到表情信息和动作信息之后，可以将表情信息和动作信息携带于解说数据中发送至客户端，这样当客户端中运行有虚拟人服务时，可以基于表情信息、动作信息驱动虚拟人进行解说数据的演绎。

通过上述的步骤S1041至步骤S1044，即可将多个待解说事件事件通过根据历史真实解说数据得到的解说内容生成策略，进行待解说事件到解说文本的映射，以得到待解说事件对应的解说文本，以便根据解说文本生成解说脚本。

在一些实施例中，在步骤S103之后或者在步骤S104之前，亦或者在步骤S104之后或者同时，还可以执行以下步骤：

步骤S031，获取对局数据流对应的对局视频流。

这里，所述对局视频流是利用对局数据流渲染出来的，在一些实施例中，对局视频流是通过专门的渲染客户端对对局数据流进行渲染得到的，也即步骤S031在实际实现时可以是，接收渲染客户端发送的对局视频流，其中，对局视频流中包括多个视频帧。

步骤S032，基于所述对局数据流确定所述待解说事件的发生时间点。

这里，由于对局数据流中的每个数据帧中携带有时间信息，那么可以根据待解说事件对应的数据帧所携带的时间信息，确定为该待解说事件的发生时间点。

步骤S033，将所述对局视频流中与所述发生时间点对应的时间点确定为解说时间点。

这里，由于对局视频流与对局数据流一般来自于不同的设备，或者即便来自于同一设备，在播放对局视频流时可以增加广告，或者视频介绍等内容，导致对局视频流与对局数据流的时间不是对齐的，因此在确定出待解说事件的发生时间点后，还需要确定对局视频流中与该发生时间点对应的时间点，从而作为解说时间点。

举例来说，当待解说事件的发生时间点为05:06，也即发生在比赛开始后的5分6秒，而在对局视频流由于插入了广告，确定出对局视频流中播放事件为05:06对应的视频时，是在06:16，也即解说时间点为06:16。

步骤S034，将所述各个待解说事件对应的解说脚本和解说时间点发送给客户端。

这里，将各个待解说事件对应的解说脚本和解说时间点发送给客户端，以使得客户端能够在到达解说时间点时，基于解说脚本播放相应的解说内容。

在本申请实施例中，对局视频流可以是来自于渲染客户端，而对局数据流可以是来自于业务服务器，也就是说对局视频流和对局数据流是相互独立的来源，视频帧与数据帧没有一一对应的关系，因此需要对视频帧和数据帧进行对齐，在一些实施例中，可以通过以下步骤将对局数据流和对局视频流进行对齐。

步骤S21，获取所述对局视频流中的各个视频帧和所述对局数据流中的各个数据帧。

这里，步骤21在实现时，可以是分别对对局视频流和对局数据流进行解码，从而得到对局视频流中的各个视频帧以及对局数据流中的各个数据帧。

步骤S22，对所述各个视频帧进行图像识别，得到各个视频帧对应的业务时间信息。

这里，由于业务时间信息都显示在在各个视频帧中的同一个对应区域(可以称为时间显示区域)，因此步骤S22在实现时，可以是基于各个视频帧中的时间显示区域中的各个像素点的图像信息进行图像识别，从而得到各个视频帧对应的业务时间信息。

步骤S23，获取所述各个视频帧对应的播放时间信息。

这里，每个视频帧对应有一个播放时间信息，并且一个视频帧的播放时间信息一般是比该视频帧对应的业务时间信息滞后，视频帧的播放时间信息可以是通过该视频帧的帧序号以及播放帧率确定的，在一些实施例中，在得到解码得到各个视频帧的时候，每个视频帧也可以直接携带有播放时间信息。

步骤S24，建立各个视频帧的业务时间信息与播放时间信息的对应关系，以将所述对局数据流和所述对局视频流进行时间对齐。

这里，由于视频帧的业务时间信息也即与该视频帧对应的数据帧所携带的时间信息，因此通过建立各个视频帧的业务时间信息与播放时间信息之间的对应关系，即可将对局数据流与对局视频流进行时间对齐。

由于在解说演绎时不应该出现长时间的空缺，那么在两段解说数据之间的空闲时间较长时，可以通过以下步骤插入一些预设的解说数据，例如可以是对角色人物的介绍、对竞技类战术的介绍等，还可以是幽默笑话等数据，从而保证解说的连贯性和上下文相关性。

步骤S321，获取各个待解说事件的解说时长。

这里，解说时长也即解说音频数据的播放时长，当确定出解说音频数据后，即可确定出该解说音频数据的播放时长。

步骤S322，基于两个相邻待解说事件对应的解说时间点和解说时长，确定解说时间差。

这里步骤S322在实现时，可以根据两个相邻待解说事件中前一个待解说事件的解说时间点以及解说时长确定出解说结束时间点，然后再根据后一个待解说事件的解说时间点和前一个待解说事件的解说结束时间点确定出解说时间差。

举例来说，前一个待解说事件的解说时间点为07:00，解说时长为10秒，那么也即前一个待解说事件的解说结束时间点为07:10，后一个待解说事件的解说时间点为07:35，那么这两个相邻待解说事件之间的解说时间差为25秒。

步骤S323，当所述解说时间差大于差值阈值时，基于所述两个相邻待解说事件和所述解说时间差确定补充解说脚本。

这里，当解说时间差大于差值阈值时说明两段解说之间的空闲时间过程，此时可以插入一些补充解说脚本，其中补充解说脚本可以是对角色人物的介绍、对竞技类战术的介绍等，还可以是幽默笑话等对应的音频数据以及播放该音频数据的时间信息，在本申请实施例中，播放该音频数据的时间信息可以是前一个待解说事件的解说结束时间点，也可以是前一个待解说事件的解说结束时间点之后一定时长的一个时间点，例如可以是前一个待解说事件的解说结束时间点之后1秒。

步骤S323在实现时，可以根据解说时间差以及这两个相邻待解说事件选择解说时长不超过解说时间差的补充解说音频脚本，进一步地，补充解说音频脚本可以是与这两个相邻待解说事件相关的。

步骤S324，将所述补充解说脚本发送至客户端。

这里，补充解说脚本中包括补充解说音频数据以及对应的解说时间点，因此客户端在接收到补充解说脚本之后且检测到达到解说时间点时，即会输出补充解说音频数据。

通过上述的步骤S321至步骤S324，能够在两段解说之间的空闲时间过长时，可以适应性地选择一些补充解说音频数据，不仅能够避免长时间没有解说的尴尬，并且还能提高解说的趣味性和知识性。

本申请实施例提供一种智能解说播放方法，应用于图1中的解说客户端，图4为本申请实施例提供的智能解说播放方法的一种实现流程示意图，如图4所示，所述流程包括：

步骤S401，响应于播放解说视频的操作指令，获取待播放的对局视频流。

这里，解说客户端可以是安装于用户终端中的专用解说客户端，用户可以通过打开并运行解说客户端，来选择并观看心仪的比赛视频。进一步地，用户针对想要观看的视频入口执行触发操作，此时解说客户端从业务服务器获取对局视频流流。在一些实施例中，用户针对想要观看的视频入口执行触发操作时，此时解说客户端还可以是从解说服务器获取对局视频流。

步骤S402，获取与所述对局视频流匹配的对局数据流所对应的解说脚本。

这里，步骤S402在实现时，可以是从服务器获取与对局视频流匹配的对局数据流所对应的解说脚本，其中这里的服务器为解说服务器。所述解说脚本中至少包括解说文本和解说时间点。

步骤S403，根据所述对局视频流播放对局视频。

在本申请实施例中，当解说客户端仅仅接收到对局视频流而没有接收到解说数据时，可以先将对局视频流进行缓存，在接收到解说数据之后，再对对局视频流进行解码并播放，如此，能够避免在播放视频时还未接收到解说数据，造成用户遗漏解说内容。

步骤S404，基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本。

这里，步骤S404在实现时，可以是基于当前播放的对局视频所对应的时间信确定达到解说时间点时，输出对应的解说脚本，也即在视频帧中的字幕显示区域输出解说文本，在一些实施例中还可以通过音频输出装置输出解说音频数据。

在本申请实施例提供的智能解说播放方法中，在用户想要通过解说客户端观看带解说的比赛视频时，解说客户端响应于播放解说视频的操作指令，获取待播放的对局视频流，并且在接收到服务器发送的解说数据时，再播放所述对局视频流，从而能够保证当达到所述解说时间点时，在播放对局视频的同时输出所述解说数据，从而提高观众用户对比赛视频的理解和兴趣。

在一些实施例中，所述解说脚本中至少包括解说文本，对应地，步骤S404在实现时，可以通过以下步骤实现：

步骤S4041a，基于当前播放的对局视频所对应的时间信息，确定所述时间信息对应的解说文本；

步骤S4042a，在播放当局视频时的各个视频帧的字幕输出区域输出所述解说文本。

这里，在各个视频帧中的字幕输出区域可以是预先设置好的，输出解说文本时采用的输出格式，例如字体、大小、间距等也可以是预先设置好的，步骤S4042在实现时可以根据设置好的输出格式在字幕输出区域输出解说文本。

通过上述的步骤S4041a至步骤S4042a，能够在播放对局视频流的时候，同步输出文字型的解说文本，能够使得用户在观看对局视频时通过解说字幕，以提高对对局进展的理解程度。

为了保证用户能够在不便于观看屏幕时不遗漏掉解说内容，还可以通过语音输出解说内容，此时解说脚本中可以包括解说音频数据、表情信息和动作信息；对应地，步骤S404可以通过下述步骤实现：

步骤S4041b，基于当前播放的对局视频所对应的时间信息，确定所述时间信息对应的解说音频数据、表情信息和动作信息；

步骤S4042b，播放所述解说音频数据，并基于表情信息和动作信息，同时驱动解说页面中显示的虚拟人。

这里，步骤S4042b在实现时，通过解说脚本中的表情信息和动作信息，控制虚拟人程序按照更加贴近真人解说的表情及动作，演绎解说音频数据，从而达到逼真的解说效果，提高用户的解说视频观看体验。

基于前述的实施例，本申请实施例再提供一种智能解说生成及播放方法，图5为本申请实施例提供的智能解说生成及播放方法的一种实现流程示意图，如图5所示，所述流程包括：

步骤S501，解说服务器从业务服务器获取待处理的对局数据流。

这里，业务服务器可以是游戏服务器，还可以是其他视频应用的服务器。

步骤S502，解说服务器对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件。

在本申请实施例中，该步骤在实现时可以是将待处理的对局数据流与预设好的事件匹配策略进行匹配，当对局数据流与某一事件匹配策略符合匹配条件时，将该事件匹配策略对应的事件确定为识别出的候选解说事件。

步骤S503，解说服务器从所述候选解说事件中确定待解说事件，生成待解说事件序列。

这里，步骤S503在实现时，可以是根据识别出的多个候选解说事件的重要程度参数确定待解说事件，进一步地，可以是将多个候选解说事件中符合事件提取条件的预设事件作为待解说事件。举例来说。事件提取条件可以是重要程度最高的事件。

步骤S504，解说服务器根据所述待解说事件序列生成所述对局数据流对应的解说文本。

这里，步骤S504在实现时，可以首先获取各个待解说事件的属性信息，然后再基于解说内容生成策略生成各个待解说事件对应的解说文本。

步骤S505，解说服务器获取对局数据流对应的对局视频流。

这里，所述对局视频流是利用对局数据流渲染出来的。

步骤S506，解说服务器基于所述对局数据流确定所述各个待解说事件的发生时间点。

由于对局数据流中的每个数据帧中携带有时间信息，那么可以根据待解说事件对应的数据帧所携带的时间信息，确定为该待解说事件的发生时间点。

步骤S507，解说服务器将所述对局视频流中与所述发生时间点对应的时间点确定为解说时间点。

步骤S508，解说服务器将所述解说文本转换为解说音频数据。

在实际应用过程中，可以是利用TTS服务将解说文本转换为解说音频数据。

步骤S509，解说服务器将所述解说文本输入至训练好的自然语言处理模型中进行处理，得到处理结果。

这里，所述处理结果至少包括与所述解说文本对应的表情信息和动作信息。

步骤S510，解说客户端响应于播放解说视频的操作指令，获取待播放的对局视频流。

这里，步骤S510可以是在步骤S501和步骤S509之间的任意一个步骤之前执行。

步骤S511，解说服务器将解说脚本发送至解说客户端。

这里，解说脚本可以包括前述步骤中得到的解说文本、解说音频数据、表情信息、动作信息以及解说时间点等。

步骤S512，解说客户端获取与所述对局视频流匹配的对局数据流所对应的解说脚本。

步骤S513，解说客户端根据所述对局视频流播放对局视频。

当解说客户端仅仅接收到对局视频流而没有接收到解说脚本时，可以先将对局视频流进行缓存，在接收到解说脚本之后，再对对局视频流进行解码并播放，如此，能够避免在播放对局视频时还未接收到解说脚本，造成用户遗漏解说内容。

步骤S514，当达到所述解说时间点时，解说客户端基于所述解说音频数据、表情信息和动作信息，驱动虚拟人程序输出所述解说音频数据。

步骤S515，解说客户端输出解说音频数据时，在所述各个视频帧的字幕输出区域输出所述解说音频数据对应的解说文本。

需要说明的是，本申请实施例与其他实施例中相同的步骤或概念可以参考其他实施例中的相关说明。

在本申请实施例提供的智能解说生成及播放方法中，在获取到的待处理的对局数据流之后，通过对对局数据流进行解析，完成对局数据流到预设事件的识别过程，从多个预设事件中提取出各个预设事件，并从识别出的各个预设事件中提取待解说事件，进一步生成待解说事件对应的解说文本，最后对所述解说文本进行处理，得到解说数据，并将所述解说数据发送至客户端。这样能够根据对局数据自动、准确地生成解说数据，从而能够提高解说效率以及解说准确率。在用户想要通过解说客户端观看带解说的比赛视频时，解说客户端响应于播放解说视频的操作指令，获取待播放的对局视频流，并且在接收到服务器发送的解说数据时，再播放所述对局视频流，从而能够保证当达到所述解说时间点时，在播放对局视频的同时输出所述解说数据，从而提高观众用户对比赛视频的理解和兴趣。

下面，将说明本申请实施例在一个实际的应用场景中的示例性应用，进一步地，以MOBA游戏解说为例进行说明。

为了更好地理解本申请实施例，首先对MOBA游戏及MOBA游戏解说进行说明。

MOBA游戏是游戏市场上经久不衰的一类游戏，从早期DOTA开始逐渐流行，到LOL(英雄联盟)和DOTA02风靡全球，再到登陆手机游戏平台的王者荣耀，使得MOBA类游戏的玩家用户群体出现爆炸式的扩张。

MOBA类游戏的竞技属性催生了多种多样的职业赛事，而竞技类游戏不可或缺的一环便是游戏解说，好的游戏解说可以增强玩家对游戏的理解，带动玩家进行游戏的积极性，从而促进MOBA游戏生态的良性循环。

竞技类解说需要对游戏的各类数据有详细的了解(数据存储和记忆)，并且实时分析游戏进行过程发生的各类事件(实时数据分析)，再结合对游戏本身各种模式的理解(模式识别)，才能够对游戏进行精彩而准确的解说。

目前真人游戏解说主要包括赛事官方解说和游戏主播解说两类，官方解说通常只有指定的几位解说，而且解说的比赛数量也有限；游戏主播的解说则主要是边打边解说的形式，会导致对游戏的观察不够全面。

基于此，在本申请实施例中，利用AI和NLP得到的解说内容来驱动虚拟人对MOBA类游戏进行实时、自动化的解说，从而实现对任意的游戏对局进行解说，给玩家提供更丰富、更有吸引力的解说内容。

利用AI和NLP技术，可以完整精确的存储和记忆各类游戏数据(包括所有历史对战数据、真人解说内容)，并且能够准确地获知游戏的实时数据并进行分析，以识别出游戏进行过程中出现的一些模式(事件)，进而通过NLP手段生成解说内容。为了提供更加拟人的解说效果，虚拟人技术也被应用到本申请实施例中，在解说文本生成之后，再利用NLP对文本进行分析，来生成与解说文本对应的表情和动作，使得解说效果更加真实。

图6为本申请实施例提供的智能解说生成及播放的再一种实现流程示意图，如图6所示，所述流程包括：

步骤S601，游戏服务器将游戏对局数据流发送至解说服务端；

步骤S602，游戏专用客户端将游戏对局数据流发送至解说客户端和解说服务端。

这里，在一局游戏开始后，解说系统会获取到该局游戏所对应的视频流以及数据流：视频流将同时推送到解说客户端和解说服务端，

步骤S603，解说客户端将视频流缓存并等待解说生成。

步骤S604，解说服务器基于接收到的游戏数据帧队列和视频帧队列进行游戏事件解析，得到各个游戏事件。

这里，游戏解说的关键在于对实时游戏数据的理解，将底层的游戏数据进行抽象概括得到各类可被观众所直观理解的游戏事件，进一步地，在实现时，可以是将游戏数据与预设好的事件匹配规则进行匹配，从而得到与事件匹配规则符合匹配条件的各个事件。在一些实施例中，解说服务端还可以对视频流进行解析得到游戏时间、游戏视角等信息。

步骤S605，解说服务端进行游戏事件提取。

这里，由于一般情况下，将底层的游戏数据进行抽象概括能够得到不止一个游戏事件，那么在解说时一次仅能对一个游戏事件进行解说，因此需要根据解析出的各个游戏事件的重要程度来确定需要提取出来的游戏事件。在本申请实施例中，将重要程度最高的游戏事件提取出来，最终提取得到的事件则作为后续流程生成解说内容的来源。

步骤S606，解说服务端基于提取出的游戏事件生成解说内容。

这里，在经过步骤S605之后，能够得到最优的待解说事件序列，并且根据待解说事件序列，提取出游戏事件，接下来需要根据提取出的游戏事件来生成解说内容。在实现时，可以是根据解说内容生成策略将提取出的游戏事件生成解说内容，其中，解说内容生成策略来源于真实解说的数据(也即真人历史解说数据)，并且解说数据可以从至少如下渠道获取：

a.历史赛事真实解说数据；

b.职业解说员的知识整理。

在本申请实施例中，解说生成策略会随着历史解说数据的丰富而不断更新和优化，以保证解说内容的丰富和新鲜度。解说内容在生成时需要考虑解说的连贯性和上下文相关性，即在解说演绎时不应该出现长时间的空缺，并且解说内容需要前后呼应，随着游戏进行而层层推进。在解说内容生成后，会根据自然语言理解(NLU，Natural LanguageUnderstanding)处理模块得到对应的表情和动作，从而驱动虚拟人进行解说。

步骤S607，解说服务端将解说内容发送至解说客户端。

步骤S608，解说客户端将缓存的视频和解说内容进行同步。

步骤S609，解说客户端在播放视频的过程中输出解说内容。

在本申请实施例中，解说客户端在获取到解说服务端返回的解说内容之后，将对解说内容进行缓存，然后驱动虚拟人对解说内容(包括文本、动作、表情等)进行演绎，虚拟人是通过3D建模来呈现的虚拟人物，虚拟人将尽可能真实地来模拟真人，通过拟人的发音、精准的口型、生动的表情和自然的动作来达到真实的解说效果。图7为本申请实施例驱动虚拟人进行解说的实现流程示意图，如图7所示，所述流程包括：

步骤S701，解说客户端获取解说内容并播放当前缓存的游戏视频。

步骤S702，解说客户端将解说内容和视频内容对齐。

步骤S703，在播放视频内容的同时，检测达到播放解说内容的时刻，驱动虚拟人对解说内容进行演绎。

这样，能够在精确的时刻来触发对应解说内容的演绎，从而完成对游戏的解说。

在上述实现过程中，游戏数据流在推送到解说服务端之后，解说服务端对游戏数据流进行分析和决策，生成解说内容并推送给解说客户端，解说客户端收到解说内容之后，再对缓存的视频流进行播放，并在对应的时刻对解说内容进行呈现。

图8为本申请实施例客户端界面示意图，在本申请实施例中，客户端显示界面包括两个部分，分别为解说策略界面801和解说展示界面802，其中解说策略界面801用于显示与当前解说策略相关的一些数据，而解说展示界面802则是进行最终解说的展示。

如图8中的解说策略界面801所示，游戏在进行过程中，解说服务端将对游戏实时数据进行解析，得到某个时间点(如图示例游戏时间：05:22)地图中某个范围(如图801中的8011区域范围)内所发生的事件，然后再按照一定的排序规则得到某个时间点最合适解说的事件(例如是“多人开团”)，结合当前确定下来的所有因素(例如包括事件对应的角色对象、事件对应的地点)，得到解说词(例如得到的解说词为：“我们看看下路红方二塔附近，要强行开团吗”)，然后会根据解说词内容确定合适的表情和动作(如801中黄色高亮的表情8012和动作图标8013)，同时通过TTS服务得到这句解说词对应的音频数据和口型数据。

在得到了解说文本内容、音频数据、口型数据以及表情信息和动作之后，可以在客户端的解说展示界面802中的虚拟人8021根据以上得到的解说数据进行解说并且会在解说展示界面中的8022中输出显示游戏视频。

由于视频流和数据流是相互独立的来源，视频帧与数据帧没有一一对应的关系，因此在生成解说内容之前，需要对视频帧和数据帧进行对齐，图9为本申请实施例视频帧队列与游戏数据帧队列对齐的实现流程示意图，如图9所示，所述流程包括：

步骤S901，通过图像识别来得到每一个视频帧所对应的游戏时间；

这里，在视频帧中的预设区域显示有游戏时间，因此可以利用图像识别来识别出每一个视频帧中预设区域的图像信息，从而得到每一个视频帧所对应的游戏时间。

步骤S902，基于识别出的游戏时间，将视频流和数据流进行对齐。

这里，由于数据流的每个数据帧中携带有时间信息，因此在识别出视频流中的游戏时间后，即可基于识别出的游戏时间和各个数据帧中携带的数据信息将视频流和数据流对齐。

在一些实施例中，还可以将虚拟人的渲染和驱动移动到服务端完成，从而使得虚拟解说完全服务端化，如此能够提高系统的灵活性和可扩展性，并降低对客户端的依赖。

通过本申请实施例，能够丰富游戏解说的表现形式，使得玩家有更多的选择，并且通过虚拟人新颖的呈现形式，可以吸引对其感兴趣的玩家；另外还可以使得游戏解说自动化，对于一些赛事中相互冲突的或者相对冷门的比赛，官方可能无法顾及，虚拟解说可以弥补这一空缺，让所有的比赛都可以得到解说，甚至可以解说任意玩家所进行的任意游戏对局，使得玩家能够观看任意游戏对局的解说。

由于在本申请实施例中，是将虚拟人和MOBA游戏相结合，让虚拟人能够接触到广大的MOBA玩家用户群，为虚拟人的发展注入活力，不仅能够丰富虚拟人的应用场景，并且相对于真人解说在某些方面存在优势，例如对比赛双方的完全中立、情绪更加可控、数据来源精确无误、更可靠的数据记忆等，可以带来更精准可信的解说。进一步地，虚拟解说可以给游戏生产更多有价值的内容，能够极大地丰富游戏周边内容的产出，从而促进游戏生态更良性的发展，并且能够增强游戏带给玩家的吸引力。

下面继续说明本申请实施例提供的智能解说生成装置80的实施为软件模块的示例性结构，在一些实施例中，如图2所示，存储在存储器240的智能解说生成装置80中的软件模块可以包括：

第一获取模块81，用于获取待解说的对局数据流；

第一解析模块82，用于对所述对局数据流进行解析，得到所述对局数据流中的候选解说事件；

第一确定模块83，用于从所述候选解说事件中确定待解说事件，生成待解说事件序列；

第一生成模块84，用于根据所述待解说事件序列生成所述对局数据流对应的解说脚本。

在一些实施例中，第一确定模块83，还用于：

获取各个候选解说事件的发生时间段和各个候选解说事件的重要程度参数；

基于各个候选解说事件的发生时间段，确定各个时间段对应的候选解说事件集合；

基于各个候选解说事件的重要程度参数，从各个时间段对应的候选解说事件集合中确定各个时间段对应的待解说事件，得到待解说事件序列。

在一些实施例中，所述第一生成模块84，还用于：

获取所述待解说事件序列中各个待解说事件的属性信息，其中，所述属性信息至少包括所述待解说事件发生地和待解说事件对应的角色信息；

获取各个待解说事件对应的解说内容生成策略；

根据所述各个解说内容生成策略和所述属性信息，生成各个解说文本；

基于所述各个解说文本生成各个待解说事件对应的解说脚本。

在一些实施例中，所述解说脚本包括解说音频数据、表情信息和动作信息，所述基于所述各个解说文本生成所述各个待解说事件对应的解说脚本，包括：

将所述各个解说文本转换为解说音频数据；

将所述各个解说文本输入至训练好的自然语言处理模型中进行处理，得到所述各个解说文本对应的表情信息和动作信息。

在一些实施例中，所述装置还包括：

第四获取模块，用于获取对局数据流对应的对局视频流，其中所述对局视频流是利用对局数据流渲染出来的；

第二确定模块，用于基于所述对局数据流确定各个待解说事件的发生时间点；

第三确定模块，用于将所述对局视频流中与各个发生时间点对应的时间点确定为各个待解说事件的解说时间点；

第一发送模块，用于将所述各个待解说事件对应的解说脚本和解说时间点发送给客户端。

在一些实施例中，所述装置还包括：

第五获取模块，用于获取所述对局视频流中的各个视频帧；

图像识别模块，用于对所述各个视频帧进行图像识别，得到各个视频帧对应的业务时间信息；

第六获取模块，用于获取所述各个视频帧对应的播放时间信息；

时间对齐模块，用于建立各个视频帧的业务时间信息与播放时间信息的对应关系，以将所述对局数据流和所述对局视频流进行时间对齐。

在一些实施例中，所述装置还包括：

第七获取模块，用于获取各个待解说事件的解说时长；

第四确定模块，用于基于两个相邻待解说事件对应的解说时间点和解说时长，确定解说时间差；

第五确定模块，用于当所述解说时间差大于差值阈值时，基于所述两个相邻待解说事件和所述解说时间差确定补充解说脚本；

第二发送模块，用于将所述补充解说脚本发送至客户端。

基于前述的实施例，本申请实施例再提供一种智能解说播放装置，所述装置包括：

视频播放模块，用于根据所述对局视频流播放对局视频；

在一些实施例中，所述解说脚本至少包括解说文本；所述输出模块还用于：

基于当前播放的对局视频所对应的时间信息，确定所述时间信息对应的解说文本；

在播放当局视频时的各个视频帧的字幕输出区域输出所述解说文本。

在一些实施例中，所述解说脚本中包括解说音频数据、表情信息和动作信息；对应地，所述输出模块，还用于：

基于当前播放的对局视频所对应的时间信息，确定所述时间信息对应的解说音频数据、表情信息和动作信息；

播放所述解说音频数据，并基于表情信息和动作信息，同时驱动解说页面中显示的虚拟人。

本申请实施例提供一种存储有可执行指令的存储介质，其中存储有可执行指令，当可执行指令被处理器执行时，将引起处理器执行本申请实施例提供的方法，例如，如图3、图4、图5和图6示出的方法。

在一些实施例中，存储介质可以是FRAM、ROM、PROM、EPROM、EE PROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器；也可以是包括上述存储器之一或任意组合的各种设备。

在一些实施例中，可执行指令可以采用程序、软件、软件模块、脚本或代码的形式，按任意形式的编程语言(包括编译或解释语言，或者声明性或过程性语言)来编写，并且其可按任意形式部署，包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。

作为示例，可执行指令可以但不一定对应于文件系统中的文件，可以可被存储在保存其它程序或数据的文件的一部分，例如，存储在超文本标记语言(HTML，Hyper TextMarkup Language)文档中的一个或多个脚本中，存储在专用于所讨论的程序的单个文件中，或者，存储在多个协同文件(例如，存储一个或多个模块、子程序或代码部分的文件)中。

作为示例，可执行指令可被部署为在一个计算设备上执行，或者在位于一个地点的多个计算设备上执行，又或者，在分布在多个地点且通过通信网络互连的多个计算设备上执行。

以上所述，仅为本申请的实施例而已，并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等，均包含在本申请的保护范围之内。

Claims

1.一种智能解说生成方法，其特征在于，应用于针对游戏的解说服务器，所述方法包括：

从业务服务器获取与对局视频流匹配的待解说的对局数据流，所述对局数据流是由多个对局数据帧进行编码形成的码流；

获取所述对局视频流中的各个视频帧；

对所述各个视频帧中预设区域的图像信息进行图像识别，得到各个视频帧所对应的游戏时间；

基于识别出的所述游戏时间以及所述对局数据流中的各个数据帧中携带的时间信息，将所述对局数据流和所述对局视频流进行对齐；

对所述对局数据流进行解析，并利用预设的事件匹配策略确定所述对局数据流中包括的各个候选解说事件；

根据所述待解说事件序列生成所述对局数据流对应的解说脚本；

所述方法还包括：

获取各个待解说事件的解说时长；

基于两个相邻待解说事件对应的解说时间点和解说时长，确定解说时间差；

当所述解说时间差大于差值阈值时，基于所述两个相邻待解说事件和所述解说时间差确定补充解说脚本；

将所述补充解说脚本发送至客户端。

2.根据权利要求1中所述的方法，其特征在于，所述从所述候选解说事件中确定待解说事件，生成待解说事件序列，包括：

3.根据权利要求1中所述的方法，其特征在于，所述根据所述待解说事件序列生成所述对局数据流对应的解说脚本，包括：

获取各个待解说事件对应的解说内容生成策略；

根据各个解说内容生成策略和所述属性信息，生成各个解说文本；

4.根据权利要求3中所述的方法，其特征在于，所述解说脚本包括解说音频数据、表情信息和动作信息，所述基于所述各个解说文本生成所述各个待解说事件对应的解说脚本，包括：

将所述各个解说文本转换为解说音频数据；

5.根据权利要求4中所述的方法，其特征在于，所述方法还包括：

获取对局数据流对应的对局视频流，其中所述对局视频流是利用对局数据流渲染出来的；

基于所述对局数据流确定各个待解说事件的发生时间点；

将所述对局视频流中与各个发生时间点对应的时间点确定为各个待解说事件的解说时间点；

将所述各个待解说事件对应的解说脚本和解说时间点发送给客户端。

6.一种智能解说播放方法，其特征在于，应用于针对游戏的解说客户端，所述方法包括：

响应于播放解说对局视频的操作指令，从渲染客户端获取待解说的对局视频流；

获取与所述对局视频流匹配的对局数据流所对应的解说脚本，所述解说脚本是由针对游戏的解说服务器根据对所述对局数据流进行解析，并利用预设的事件匹配策略确定所述对局数据流中包括的各个候选解说事件，从所述候选解说事件中确定待解说事件，生成待解说事件序列，根据所述待解说事件序列生成的，所述对局数据流是由多个对局数据帧进行编码形成的码流；所述对局数据流基于对所述对局视频流中的各个视频帧中预设区域的图像信息进行图像识别得到的各个视频帧所对应的游戏时间，与所述对局视频流对齐；

根据所述对局视频流播放对局视频；

基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本；

所述方法还包括：

接收所述解说服务器发送的补充解说脚本，并输出所述补充解说脚本；其中，所述补充解说脚本由所述解说服务器基于两个相邻待解说事件对应的解说时间点和解说时长，确定解说时间差；当所述解说时间差大于差值阈值时，基于所述两个相邻待解说事件和所述解说时间差确定的。

7.根据权利要求6中所述的方法，其特征在于，所述解说脚本至少包括解说文本；所述基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本，包括：

8.根据权利要求6或7中所述的方法，其特征在于，所述解说脚本中包括解说音频数据、表情信息和动作信息；所述基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本，包括：

9.一种智能解说生成装置，其特征在于，应用于针对游戏的解说服务器，所述装置包括：

第一获取模块，用于从业务服务器获取与对局视频流匹配的待解说的对局数据流，所述对局数据流是由多个对局数据帧进行编码形成的码流；

第五获取模块，用于获取所述对局视频流中的各个视频帧；

图像识别模块，用于对所述各个视频帧中预设区域的图像信息进行图像识别，得到各个视频帧所对应的游戏时间；

对齐模块，用于基于识别出的所述游戏时间以及所述对局数据流中的各个数据帧中携带的时间信息，将所述对局数据流和所述对局视频流进行对齐；

第一解析模块，用于对所述对局数据流进行解析，并利用预设的事件匹配策略确定所述对局数据流中包括的各个候选解说事件；

第一生成模块，用于根据所述待解说事件序列生成所述对局数据流对应的解说脚本；

所述装置还包括：

第七获取模块，用于获取各个待解说事件的解说时长；

第二发送模块，用于将所述补充解说脚本发送至客户端。

10.一种智能解说播放装置，其特征在于，应用于针对游戏的解说客户端，所述装置包括：

第二获取模块，用于响应于播放解说对局视频的操作指令，从渲染客户端获取待解说的对局视频流；

第三获取模块，用于获取与所述对局视频流匹配的对局数据流所对应的解说脚本，所述解说脚本是由针对游戏的解说服务器根据对所述对局数据流进行解析，并利用预设的事件匹配策略确定所述对局数据流中包括的各个候选解说事件，从所述候选解说事件中确定待解说事件，生成待解说事件序列，根据所述待解说事件序列生成的，所述对局数据流是由多个对局数据帧进行编码形成的码流；所述对局数据流基于对所述对局视频流中的各个视频帧中预设区域的图像信息进行图像识别得到的各个视频帧所对应的游戏时间，与所述对局视频流对齐；

视频播放模块，用于根据所述对局视频流播放对局视频；

输出模块，用于基于当前播放的对局视频所对应的时间信息，同步输出所述时间信息对应的解说脚本；

所述装置还包括：

接收模块，用于接收所述解说服务器发送的补充解说脚本；

所述输出模块，还用于输出所述补充解说脚本；其中，所述补充解说脚本由所述解说服务器基于两个相邻待解说事件对应的解说时间点和解说时长，确定解说时间差；当所述解说时间差大于差值阈值时，基于所述两个相邻待解说事件和所述解说时间差确定的。

11.一种智能解说生成设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求1至5中任一项所述的智能解说生成方法。

12.一种智能解说播放设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于执行所述存储器中存储的可执行指令时，实现权利要求6至8中任一项所述的智能解说播放方法。

13.一种存储介质，其特征在于，存储有可执行指令，用于引起处理器执行时，实现权利要求1至5或权利要求6至8中任一项所述的方法。