CN110990550B

CN110990550B - 一种话术生成的方法、基于人工智能的解说方法及装置

Info

Publication number: CN110990550B
Application number: CN201911218503.5A
Authority: CN
Inventors: 林少彬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-29
Filing date: 2019-11-29
Publication date: 2021-02-09
Anticipated expiration: 2039-11-29
Also published as: CN110990550A

Abstract

本申请公开了一种话术生成的方法、基于人工智能的解说方法及装置，用于实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景。本申请方法包括：获取待标注解说文本；根据待标注解说文本获取待解析事件集合，其中，待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征；根据待解析事件集合，获取待标注解说文本所对应的策略事件，其中，策略事件包括至少一个待解析事件；根据策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。

Description

一种话术生成的方法、基于人工智能的解说方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种话术生成的方法、基于人工智能的解说方法及装置。

背景技术

随着电竞行业的发展衍生出了很多新的职业，电竞行业发展越来越好，游戏解说员也随之越来越多。游戏解说员主要是在分析游戏局势、出装以及阵容等，从而能够让人们更快地了解当前游戏的情况。

如今，随着人工智能(Artificial Intelligence，AI)的发展，已经可以实现虚拟解说。对于虚拟解说而言，需要通过建立知识体系来对文本数据集进行分类、聚类以及建模，从知识体系的建立到文本数据集的建模过程，都属于自上而下的正向挖掘过程。

然而，自上而下的知识体系建立主要依赖于传统文本特征的累积，对于解说场景较为复杂的情况而言，容易产生口语化、专业化以及多样化的文本特征，而这类文本特征往往与传统文本特征不同，因此，难以依赖于传统文本特征建立起来的知识体系难以覆盖这类复杂的解说场景。

发明内容

本申请实施例提供了一种话术生成的方法、基于人工智能的解说方法及装置，能够实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景。

有鉴于此，本申请第一方面提供一种话术生成的方法，包括：

获取待标注解说文本；

根据待标注解说文本获取待解析事件集合，其中，待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征；

根据待解析事件集合，获取待标注解说文本所对应的策略事件，其中，策略事件包括至少一个待解析事件；

根据策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。

本申请第二方面提供一种基于人工智能的解说方法，包括：

获取待解说视频，其中，待解说视频包括至少一个视频帧；

根据待解说视频，获取第一视频帧所对应的目标策略事件；

根据目标策略事件，从解说话术对集合中确定目标解说文本，其中，解说话术对集合包括至少一个解说话术对，解说话术对包括策略事件与解说文本之间的映射关系；

根据目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果，其中，第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

根据目标解说结果生成第一视频帧所对应的解说语音。

本申请第三方面提供一种话术生成装置，包括：

获取模块，用于获取待标注解说文本；

获取模块，还用于根据获取模块获取的待标注解说文本获取待解析事件集合，其中，待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征；

获取模块，还用于根据获取模块获取的待解析事件集合，获取待标注解说文本所对应的策略事件，其中，策略事件包括至少一个待解析事件；

生成模块，用于根据获取模块获取的策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。

在一种可能的设计中，在本申请实施例的第三方面的第一种实现方式中，

获取模块，具体用于获取待处理视频，其中，待处理视频包括M个视频帧，M为大于或等于1的整数；

对待处理视频进行解码处理，得到待处理音频，其中，待处理音频包括M个语音帧，语音帧与视频帧具有对应关系；

对待处理音频进行语音识别处理，得到解说文本集合，其中，解说文本集合包括至少一个解说文本；

从解说文本集合中获取待标注解说文本。

在一种可能的设计中，在本申请实施例的第三方面的第二种实现方式中，

获取模块，具体用于根据解说文本集合获取目标视频帧所对应的解说文本子集合，其中，目标视频帧属于M个图像帧中的一个视频帧，解说文本子集合包括至少一个解说文本；

若解说文本子集合包括至少两个解说文本，则获取从解说文本子集合中获取待标注解说文本，其中，待标注解说文本为至少两个解说文本中的任意一个解说文本。

在一种可能的设计中，在本申请实施例的第三方面的第三种实现方式中，

获取模块，具体用于根据待标注解说文本确定目标视频帧，其中，目标视频帧属于M个图像帧中的一个视频帧；

根据待处理视频获取目标视频帧所对应的操作控制指令；

根据目标视频帧所对应的操作控制指令获取目标视频帧所对应的状态数据；

根据目标视频帧所对应的状态数据，生成N个待解析事件，其中，N为大于或等于0的整数，N个待解析事件属于待解析事件集合，待解析事件集合包括K个待解析事件；

若N等于K，则生成待解析事件集合；

若N小于K，则根据待标注解说文本获取(K-N)个待解析事件。

在一种可能的设计中，在本申请实施例的第三方面的第四种实现方式中，

获取模块，具体用于基于待标注解说文本，接收事件标注指令，其中，事件标注指令携带事件标注信息，事件标注信息包括事件特征；

响应于事件标注指令，根据事件标注信息获取(K-N)个待解析事件。

在一种可能的设计中，在本申请实施例的第三方面的第五种实现方式中，

获取模块，具体用于根据待解析事件集合，生成待标注解说文本所对应的策略事件；

或

获取模块，具体用于基于待解析事件集合，根据事件组合指令获取待标注解说文本所对应的策略事件，其中，事件组合指令携带待解析事件的标识。

在一种可能的设计中，在本申请实施例的第三方面的第六种实现方式中，话术生成装置还包括确定模块以及添加模块，

获取模块，还用于获取待添加事件；

确定模块，用于根据获取模块获取的待添加事件确定目标事件类型；

添加模块，用于根据确定模块确定的目标事件类型，将待添加事件添加至可选事件集合，其中，可选事件集合包括至少一个可选事件，且待解析事件属于至少一个可选事件；

获取模块，具体用于根据待标注解说文本，从可选事件集合中获取待解析事件集合。

在一种可能的设计中，在本申请实施例的第三方面的第七种实现方式中，

获取模块，还用于获取待添加事件特征；

添加模块，还用于将获取模块获取的待添加事件特征添加至可选事件特征集合，其中，可选事件特征集合包括至少一个可选事件特征，且事件特征属于至少一个可选事件特征；

获取模块，具体用于根据待标注解说文本，从可选事件特征集合中获取至少一个事件特征；

根据至少一个事件特征，从可选事件集合中获取待解析事件，其中，待解析事件属于待解析事件集合。

本申请第四方面提供一种解说装置，包括：

获取模块，用于获取待解说视频，其中，待解说视频包括至少一个视频帧；

获取模块，还用于根据获取模块获取的待解说视频，获取第一视频帧所对应的目标策略事件；

确定模块，用于根据获取模块获取的目标策略事件，从解说话术对集合中确定目标解说文本，其中，解说话术对集合包括至少一个解说话术对，解说话术对包括策略事件与解说文本之间的映射关系；

生成模块，用于根据确定模块确定的目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果，其中，第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

生成模块，还用于根据生成模块生成的目标解说结果生成第一视频帧所对应的解说语音。

在一种可能的设计中，在本申请实施例的第四方面的第一种实现方式中，

确定模块，具体用于根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术出现概率；

根据Q个解说话术对中每个解说话术对的话术出现概率，确定目标解说话术对；

根据目标解说话术对确定目标解说文本。

在一种可能的设计中，在本申请实施例的第四方面的第二种实现方式中，

确定模块，具体用于根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术持续时间；

根据待解说视频，获取第二视频帧所对应的状态数据，其中，第二视频帧为第一视频帧的后一个视频帧；

若状态数据满足策略事件触发条件，则根据Q个解说话术对中每个解说话术对的话术持续时间，确定目标解说话术对，其中，目标解说话术对的话术持续时间小于预设时间门限；

根据目标解说话术对确定目标解说文本。

在一种可能的设计中，在本申请实施例的第四方面的第三种实现方式中，

生成模块，具体用于对目标解说文本进行识别，得到词干信息；

根据目标解说文本所对应的词干信息生成词语空槽；

根据第一视频帧所对应的状态数据确定待填入词干，其中，待填入词干与词语空槽具有对应关系；

将待填入词干填入至词语空槽中，得到目标解说结果。

本申请的第五方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种话术生成的方法，首先获取待标注解说文本，然后根据待标注解说文本获取待解析事件集合，再根据待解析事件集合，获取待标注解说文本所对应的策略事件，最后根据策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。通过上述方式，能够对不同场景下的待标注解说文本进行标注，基于已设置好的事件特征集合生成至少一个待解析事件，再根据至少一个待解析事件生成对应的一个策略事件，即策略事件是由待解析事件组合而成，待解析事件是由事件特征组合而成，由此实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景。

附图说明

图1为本申请实施例中话术生成系统的一个架构示意图；

图2为本申请实施例中结合话术生成的基于人工智能的解说方法的流程图；

图3为本申请实施例中话术生成的方法一个实施例示意图；

图4A为本申请实施例中解说文本拆分的方法一个实施例示意图；

图4B为本申请实施例中解说文本拆分的方法另一实施例示意图；

图4C为本申请实施例中解说文本拆分的方法另一实施例示意图；

图5A为本申请实施例中人工标注软件的一个界面示意图；

图5B为本申请实施例中人工标注软件的另一个界面示意图；

图5C为本申请实施例中人工标注软件的另一个界面示意图；

图5D为本申请实施例中人工标注软件的另一个界面示意图；

图5E为本申请实施例中人工标注软件的另一个界面示意图；

图5F为本申请实施例中人工标注软件的另一个界面示意图；

图5G为本申请实施例中人工标注软件的另一个界面示意图；

图5H为本申请实施例中人工标注软件的另一个界面示意图；

图5I为本申请实施例中人工标注软件的另一个界面示意图；

图6为本申请实施例中特征体系的半自动标注反馈的方法的一个实施例示意图；

图7为本申请实施例中基于人工智能的解说方法一个实施例示意图；

图8为本申请实施例中虚拟解说界面示意图；

图9为本申请实施例中话术生成装置一个实施例示意图；

图10为本申请实施例中解说装置一个实施例示意图；

图11为本申请实施例中提供的一个服务器结构示意图；

图12是本申请实施例中提供的一个终端设备结构示意图。

具体实施方式

本申请实施例提供了一种话术生成的方法、基于人工智能的解说方法及装置，用于实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请实施例可以应用于AI对视频进行解说的场景中，人工智能对视频进行解说需要对视频内容的特征进行解析，然后挖掘出符合该视频特色的特征事件及策略事件，并基于特征事件及策略事件生成出拟人的AI解说话术，从而实现AI解说。而更具体地，前述视频可以包括但不限于游戏类视频、运动类视频或者新闻类视频。

具体地，例如在对运动类视频进行解说的场景中，以篮球解说场景为例，由于篮球为5人对抗性体育运动，并且5人所对应的位置(控球后卫、得分后卫、小前锋、大前锋和中锋)以及每个位置对应的作用均不相同，因此解说需要了解每个位置的特征以及在每个位置在球场上的作用。进一步地，篮球还有许多专业术语，例如扣篮、补篮、卡位、错位防守、斜插、时间差和补位，因此篮球的视频解说对于专业性要求高，篮球视频解说包括但不限于分析战术、解析每个球员不同特点、了解每次进攻的不同目的以及讲解篮球基本规则。基于运动类视频的特点，对于运动类视频解说进行位置、队员以及战术特征的获取，由此构建自下而上的解说话术对，可以提升运动类解说的专业性。

在另一示例中，例如在对新闻类视频进行解说的场景中，由于新闻的传播受众通常由不同阶层、不同社会地位、不同职业以及不同文化水平的社会成员构成，具有多样性和广泛性，其次，新闻的目的在于将最真实的信息准确的告知受众，而新闻事件还需要传播正确的思想观点，不能扭曲事实以及代入个人感情，因此新闻类视频的解说需要以传播受众易于理解的语言表达复杂的新闻事件，并且将时间、地点、人物、事件、过程以及结果的真实解说表达出来。基于新闻类视频的特点，对于新闻类视频解说进行新闻事件特征的获取，由此构建自下而上的解说话术对，可以提升新闻类解说的准确性。

在又一个示例中，例如在对游戏视频进行解说的场景中，以对多人在线战术竞技游戏(Multiplayer Online Battle Arena，MOBA)解说场景为例，MOBA通常为5V5的对抗形式展开，每个玩家可以操控属于自己的游戏角色与敌方对抗并且争夺地图资源，游戏的目的通常为摧毁地方的基地。具体地，MOBA以角色为核心，具备公平竞技以及实时对抗的特点，此外，以局为单位，快节奏的MOBA(每局游戏时间在20-40分钟)适应于受众碎片化的时间。由于每个MOBA的特征不相同，因此对于MOBA视频的解说首先需要对相应的游戏具有专业性了解，与运动类解说类似，MOBA视频需要分析游戏不同位置以及每个位置对应的作用，并且由于游戏角色众多，还需要分析每个角色在不同位置的不同作用，并且由于玩家的区别，更有对于不同游戏觉得操作以及对游戏理解的不同，因此MOBA游戏视频解说需要对不同的游戏进行多种的特征提取，以得到专业并且的准确的解说。进一步地，MOBA游戏视频还可以分为赛事类解说以及娱乐性解说，娱乐性解说在对游戏特征分析的基础上需要更倾向于口语化的解说描述，而赛事类解说则需要在对游戏特征分析的基础上更倾向于真实的解说描述。基于游戏类视频的特点，对于游戏类视频解说进行游戏事件特征的获取，由此构建自下而上的解说话术对，可以提升游戏类解说的专业性、准确性以及适应性。

为了在上述各种场景中，实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景，本申请实施例提供了一种话术生成的方法，该方法应用于图1所示的话术生成系统，请参阅图1，图1为本申请实施例中话术生成系统的一个架构示意图，如图所示，话术生成系统中包括服务器和配置有自编码器的终端设备，其中，自编码器为人工智能领域的一种神经网络。

具体地，服务器可以从视频中获取待标注解说文本，然后根据待标注解说文本获取待解析事件集合，其中待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征，进一步地可以根据待解析事件集合，获取待标注解说文本所对应的策略事件，其中策略事件包括至少一个待解析事件，最后即可以根据策略事件生成解说话术对，其中解说话术对包括策略事件与待标注解说文本之间的映射关系。

其中，图1中的服务器可以是一台服务器或多台服务器组成的服务器集群或云计算中心等，具体此处均不限定。终端设备可以为图1中示出的平板电脑、笔记本电脑、掌上电脑、手机、个人电脑(personal computer，PC)及语音交互设备，也可以为监控设备、人脸识别设备等，此处不做限定。其中，语音交互设备包含但不仅限于智能音响以及智能家电。

终端设备和服务器之间可以通过无线网络、有线网络或可移动存储介质进行通信。其中，上述的无线网络使用标准通信技术和/或协议。无线网络通常为因特网、但也可以是任何网络，包括但不限于蓝牙、局域网(Local Area Network，LAN)、城域网(Metropolitan Area Network，MAN)、广域网(Wide Area Network，WAN)、移动、专用网络或者虚拟专用网络的任何组合)。在一些实施例中，可以使用定制或专用数据通信技术取代或者补充上述数据通信技术。可移动存储介质可以为通用串行总线(Universal Serial Bus，USB)闪存盘、移动硬盘或其他可移动存储介质等。

虽然图1中仅示出了五个终端设备和一个服务器，但应当理解，图1中的示例仅用于理解本方案，具体终端设备和服务器的数量均应当结合实际情况灵活确定。

由于本申请实施例是应用于人工智能领域的，在对本申请实施例提供的话术生成的方法开始介绍之前，先对人工智能领域的一些基础概念进行介绍。人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多种方向展开研究，计算机视觉技术(Computer Vision,CV)就是人工智能技术的多种研究方向中研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

为了便于说明，请参阅图2，图2为本申请实施例中结合话术生成的基于人工智能的解说方法的流程图，如图所示，本申请提供的基于人工智能的解说方法的流程可以分为三个部分，分别为视频预处理、特征标注以及解说语音生成。下面将针对各个部分的功能和流程进行介绍，具体地：

步骤S11中，对输入的视频进行音频解码，可以理解的是，视频的格式不做限定；

步骤S12中，对步骤S11音频解码后的文件进行语音提取，从而得到语音内容；

步骤S13中，根据步骤S12得到的语音内容进行语音识别，即把语音内容转化为解说文本，可以理解的是，解说文本的格式不做限定；

步骤S21中，对步骤S13获取的解说文本进行基础特征标注；

步骤S22中，根据步骤S21标注的基础特征，获取预解析事件；

步骤S23中，根据步骤S22获取的预解析事件，获取策略事件；

步骤S31中，当完成了步骤S11至步骤S13，以及步骤S21至S23后，获取待解说视频；

步骤S32中，基于待解说视频通过步骤S21至步骤S23获取目标策略事件，并且通过步骤S11至步骤S13获取解说文本；

步骤S33中，根据步骤S32获取的目标策略事件以及解说文本生成解说语音。

基于上述流程，本申请实施例提供的方案涉及人工智能的视频处理技术，下面将对本申请中话术生成的方法进行介绍，请参阅图3，图3为本申请实施例中话术生成的方法一个实施例示意图，如图所示，本申请实施例中话术生成的方法一个实施例包括：

101、获取待标注解说文本；

本实施例中，首先话术生成装置需要获取待处理视频，待处理视频可以为话术生成装置通过有线网络接收到的视频，还可以为话术生成装置本身存储的视频。可以理解的是，待处理视频的视频格式包含但不仅限于运动图像专家组(motion picture expertsgroup，MPEG)格式、音频视频交错(audio video interleaved，AVI)、格式、高级流格式(advanced streaming format，ASF)、微软媒体视频(Windows media video，WMV)格式、第三代合作伙伴项目计划文件格式(3rd generation partnership project file format，3GP)、多媒体容器文件格式(multimedia container file format，MKV)、流媒体格式(flash video)以及视频容器可变比特率文件格式(RealMedia variable bitrate fileformat，RMVB)。

进一步地，在获取到待处理视频后，可以对待处理视频进行音频解码，音频解码可以但不限于对高级音频编码(advanced audio coding，AAC)、动态影像专家压缩标准音频层面3(moving picture experts group audio layer III，MP3)以及自适应多速率音频压缩音频编码格式(adaptive multi-rate，AMR)进行解码。可以理解的是，音视频解码工具具体可以是飞梭MPEG(fast forward MPEG，ffmpeg),ffmpeg是一套可以用来记录以及转换数字音频和视频，并能将其转化为流的开源计算机程序。音视频解码工具采用的采样帧率也称为采样率或者采样速度，采样频率定义了每秒从连续信号中提取并组成离散信号的采样个数，它用赫兹(hertz，Hz)来表示。采样频率的倒数叫作采样周期或采样时间，它是采样之间的时间间隔。

再进一步地，在音频解码后可以获取到待处理视频中的语音内容，然后即可对语音内容进行语音识别，语音识别即可以将语音中的词汇内容转换为可读的输入，例如按键、二进制编码、字符序列、文本信息或者命令，在本实施例中，语音识别可以将待处理视频中的语音内容转换为待标注解说文本。

102、根据待标注解说文本获取待解析事件集合，其中，待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征；

本实施例中，当话术生成装置通过步骤101获取到待标注解说文本后，由于不同视频解说的需求不同，因此需要对待标注解说文本进行进一步的筛选以及标注，首先对待标注解说文本中的事件特征进行标注，然后再根据至少一个事件特征组成待解析事件，进一步根据至少一个待解析事件获取到待解析事件集合。

具体地，例如在对游戏视频进行解说的场景中，以对MOBA解说场景为例，事件特征可以包括英雄特征、非玩家控制角色(non-player character，NPC)特征、战斗特征以及全局特征，而其中英雄特征可以包括但不限于游戏角色的血量、位置以及技能状态的游戏属性，NPC特征可以包括但不限于非玩家角色(例如小野怪、暴君和主宰)的血量、阵营、承受伤害、攻击目标以及刷新时间的属性，战斗特征则可以包括但不限于英雄展开团战时的参团英雄、团战地点、团战结果以及双方伤亡信息，全局特征可以包括但不限于双方阵营经济对比、人头对比、英雄存亡情况以及胜率。进一步地，至少一个英雄特征、NPC特征、战斗特征以及全局特征可以组成待解析事件，例如兵线类(例如兵线进塔，即有本方英雄而无对方英雄或者兵线快到水晶)、推塔类(例如高地塔被推或者下路一塔在3分钟内被推)、英雄行为(例如英雄在打暴君并且单个阵营中英雄清兵或者对方高地塔下,单个阵营中英雄推塔但是没带兵线)、英雄死亡(例如英雄被对方三个英雄杀了或者英雄被主宰拍死)以及团战抢怪(例如主宰团拿到主宰但主宰团输了，团战没死人但是丢塔了)，然后就可以根据至少一个待解析事件获取到待解析事件集合。

在另一示例中，例如在对运动类视频进行解说的场景中，以足球解说场景为例，事件特征可以包括选手特征以及全局特征，其中选手特征可以包括但不限于选手的年龄、选手的位置以及选手的近期比赛中的数据，而全局特征可以包括但不限于双方的阵型、进攻战术以及近期比赛的战绩。进一步地，至少一个选手特征以及全局特征可以组成待解析事件，例如选手行为(例如鱼跃扑球)、阵型变化、进攻战术(例如全功全守、外围传中以及交叉换位)以及比赛事件(比如点球以及射门)，然后就可以根据至少一个待解析事件获取到待解析事件集合。

103、根据待解析事件集合，获取待标注解说文本所对应的策略事件，其中，策略事件包括至少一个待解析事件；

本实施例中，当话术生成装置通过步骤102获取到待解析事件集合后，由于待解析事件集合包括有至少一个待解析事件，因此根据步骤101获取的待标注解说文本在待解析事件集合中获取包括至少一个待解析事件的策略事件。

具体地，以步骤102中对MOBA解说场景为例进行进一步说明，当通过102获取到由兵线类、推塔类、英雄行为、英雄死亡以及团战抢怪至少一个组成的待解析事件集合时，可以由两个待解析事件获取到待标注解说文本所对应的策略事件。例如，英雄行为指示红方英雄在打暴君，而英雄死亡指示红方的打野死亡，这时可以由待解析事件集合的这两个待解析事件获取到策略事件，即对应的策略事件可以为“第一条暴君刷新，红方正在打暴君，但红方打野死了”。或者英雄行为指示红方辅助正在探蓝方对方蓝区，而又一英雄行为指示蓝方正在打增益状态(buff)，即对应的策略事件可以为“开局红方辅助探对方蓝区，而蓝方在打Buff”。或者全局类指示红方人头(竞技游戏中杀死对方玩家，被称作拿人头)远大于蓝方人头，而又一全局行为指示红方前期强势而蓝方后期强势，因此对应的策略事件可以为“红蓝双方人头差大且，红放前期强势而蓝方后期才强势”。或者团战抢怪指示红方在团战中抢到暴君，并且英雄死亡指示在红方抢到暴君后红方团灭(竞技游戏中团灭常指团战时团队全部阵亡或多数阵亡，导致计划失败)，其次推塔类指示红方在退灭后中路高地塔被推，因此对应的策略事件可以为“红方在团战抢到暴君，但团灭并且因此丢了中路高地塔”。

104、根据策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。

本实施例中，在话术生成装置通过步骤103获取到策略事件之后，可以根据策略事件生成解说话术对，其中解说话术对可以为策略事件与待标注解说文本之间的映射关系，进一步地，文本词干到策略事件的映射关系为多对一的关系，也就是说一个文本词干对应一个策略，而一个策略可以对应多个文本词干，即由于前述可知每个解说的说话方式不同，但是都是在对同一个策略进行描述，而文本词干的选择可以根据权重(统计规则)去选择，或者文本词干太长选择丢弃。

示例性地，在对视频进行解说的时，先根据步骤101至步骤103获取的策略事件确定在该视频解说时应该用到具体的策略语句，以对MOBA解说场景为例进行进一步说明，由前述可知，对MOBA解说还可以分为赛事类解说以及娱乐性解说，而每个解说都有自己的解说习惯与口头禅，因此如何在确定语句后生成解说话术对需要运用到插槽(slot)。

具体地，前述slot可以包括父组件以及子组件，在父组件可以引用的子组件中写入想要显示的内容，该内容可以使用标签便于输入，应理解在实际应用中，也可以不使用标签，而在子组件中可以写入slot，slot所在的位置就是父组件要显示的内容。例如“【slot1】在中路塔下击杀了【slot 2】”，而另一种解说话术对可以为“【slot 2】在中路塔下被【slot 1】击杀了”，slot1可以为游戏英雄1而slot2可以为游戏英雄2。或者“【slot 3】开龙，【slot 3】在打暴君”，另一种解说话术对可以为“【slot 3】在开龙之后立即去打了暴君！slot3可以为游戏英雄3”。又或者“【slot 4】直接开龙，【slot 3】在打暴君”，另一种解说话术对可以为“【slot 3】在打暴君的时候，【slot 4】抓住机会直接开龙”，slot3可以为游戏英雄3，slot4可以为游戏英雄4。可以看出，slot仅是对特征内容的一个替换，文本词干可以进行变化，但是解说话术对所表达的策略事件一致。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，获取待标注解说文本，可以包括：

获取待处理视频，其中，待处理视频包括M个视频帧，M为大于或等于1的整数；

从解说文本集合中获取待标注解说文本。

本实施例中，获取待标注解说文本具体可以为先获取待处理视频，而待处理视频中至少包括有一个以上的视频帧，如步骤101所描述的内容，本申请不对待处理视频的获取来源进行限定。然后可以对待处理视频进行解码处理并且得到待处理音频，而待处理音频中也至少包括有一个以上的语音帧，语音帧与前述的视频帧具有一一对应的关系，假设当前的待处理视频中包括有6个视频帧，则解码处理后可以得到对应的每个视频帧所对应的语音帧，若6个视频帧都有语音，则得到6个语音帧。进一步地可以对得到待处理音频进行语音识别处理，如步骤101所述，语音识别即可以将语音中的词汇内容转换为可读的输入，例如按键、二进制编码、字符序列、文本信息或者命令。

具体地，语音识别有不同的语音识别方法，例如基于语言学和声学的方法、随机模型法、利用人工神经网络(artificial neural network，ANN)的方法以及概率语法分析。人工神经网络其实是一种模拟人类神经活动的方法，同时具有人的一些特性，例如自动适应和自主学习，ANN的方法有着较强的归类能力和映射能力，因此可以将ANN与传统的方法进行结合，使得提升语音识别的效率。其次，概率语法分析是一种能够识别大长度语段的技术，主要是为了完成“区别语言的特征”，对于不同层次的知识利用相应层次的知识来解决，但概率语法分析需要建立一个有效并且适宜的适用知识系统，在目前还存在着一定的实现困难。而在本申请示例的四种语音识别的方法中，常用的方法为随机模型法，随机模型法需要先对特征进行提取，然后根据提取的特征训练模型，进而对模型进行分类，最后再对已进行分类的模型进行判断，从而完成语音识别，在实际应用中，随机模型法包括但不限于动态时间规整(dynamic time warping，DTW)、隐马尔科夫模型(hidden markov model，HMM)理论以及矢量量化(vector quantization，VQ)技术。其中HMM算法相较于DTW方法以及VQ技术有着简便的特点，并且在语音识别性能方面更为优异。本申请语音识别方法可以使用随机模型法中的HMM算法。

进一步地，以前述6个语音帧为例，在通过语音识别后，可以将待处理音频中的6个语音帧转换为6句的解说文本，而至少一个的解说文本可以组成解说文本集合，而待标注解说文本即可从该解说文本集合，即待标注解说文本可以包括至少一句有语音帧转换而来的解说文本。

本申请实施例中，提供了一种待标注解说文本获取的方法，首先获取包括M个视频帧的待处理视频，然后对待处理视频中的M个视频帧进行解码处理，得到包括M个语音帧待处理音频，进一步地对待处理音频中M个语音帧进行语音识别处理，得到至少M个解说文本，并且获取到由至少一个解说文本组成的解说文本集合，最后从解说文本集合中获取待标注解说文本，其中M为大于或等于1的整数。通过上述方式，由待处理视频中的视频帧到待处理音频中语音帧的转换，最后由语音帧转换为待标注解说文本，完成解说视频中的文本提取，便于后续特征的标注以及策略的生成，提升了话术生成的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，从解说文本集合中获取待标注解说文本，可以包括：

根据解说文本集合获取目标视频帧所对应的解说文本子集合，其中，目标视频帧属于M个图像帧中的一个视频帧，解说文本子集合包括至少一个解说文本；

若解说文本子集合包括至少两个解说文本，则从解说文本子集合中获取待标注解说文本，其中，待标注解说文本为至少两个解说文本中的任意一个解说文本。

本实施例中，在通过对M个视频帧进行解码处理得到M个语音帧，并进一步地对M个语音帧进行语音识别处理得到解说文本，在获取到由至少一个解说文本组成的解说文本集合后，可以根据该解说文本集合获取目标视频帧所对应的解说文本子集合，目标视频帧为M个图像帧中的一个视频帧，而解说文本子集合可以包括至少一个解说文本，当解说文本子集合包括至少两个解说文本时，可以从解说文本子集合中获取待标注解说文本，其中的待标注解说文本为至少两个解说文本中的任意一个解说文本。具体地，解说文本构成可以为在一个目标视频帧下不同的解说员同时进行解说得到的，也可以是同一个解说员在目标视频帧下解说多个场景时得到的。

可以理解的是，M个图像帧中的图像帧格式包含但不仅限于位图(bitmap，BMP)格式、个人电脑交换(personal computer exchange，PCX)格式、标签图像文件格式(tagimage file format，TIFF)、图形交换格式(graphics interchange format，GIF)、联合照片专家组(joint photographic expert group，JPEG)、已标记的图形(tagged graphics，TGA)格式、可交换的图像文件格式(exchangeable image file Format，EXIF)、闪光照片(kodak flash PiX，FPX)格式、可缩放矢量图形(scalable vector graphics，SVG)、便携式网络图形(portable network graphics，PNG)、微软图元文件格式(Windows metafileformat，WMF)、封装式页描述语言(encapsulated post script，EPS)格式、高动态范围成像(high dynamic range imaging，HDRI)以及图纸交换格式(drawing exchange format，DXF)。

为了便于理解，以对MOBA解说视频进行解说为例，以请参阅图4A，图4A为本申请实施例中解说文本拆分的方法一个实施例示意图，为如图4A所示，图中待解析事件“双核心位到四”为口语化的描述，其中双核心位置可以为一个解说文本，具体地，“双核心位”可以为核心物理输出(attack damage carry，ADC)以及核心法术输出(attack power carry，APC)。“到四”则可以为另一个解说文本，具体指示处于双核心位置的英雄角色已经到了四级，当解说文本子集合包括了这两个解说文本时，则可以从解说文本子集合中获取到待标注解说文本，还可以根据图中双方名称确定执行动作的主体，可以看到图中为“侠盗勇士”，因此可以得到如图4A中待标注解说文本A1所示“由于侠盗勇士侠前期反到了一个增益的情况下双核心位已经提前到了四”，完成对该解说文本的拆分，细化动作参与两方交互以及事件细节。

可选地，以对运动类视频进行解说为例，请参阅图4B，图4B为本申请实施例中解说文本拆分的方法另一实施例示意图，图中待解析事件“小湖队的中锋压哨上篮”为对动作的简单描述，其中小湖队的中锋为一个解说文本，压哨上篮可以为另一个解说文本。当解说文本子集合包括了这两个解说文本时，则可以从解说文本子集合中获取到待标注解说文本，还可以根据图中的动作确定小湖队的中锋是绕过大牛队的大前锋完成压哨上篮，因此可以得到如图4B中待标注解说文本A2所示“小湖队的中锋通过一个漂亮的转身绕过大牛队的大前锋，命中压哨上篮，帮助小湖队扩大领先优势”，完成对该解说文本的拆分，细化动作参与两方交互以及事件细节，并且加入了口语化的衔接描述，使得后续生成的话术在专业的基础上更为人性化。

可选地，以对运动类视频进行解说为例，请参阅图4C，图4C为本申请实施例中解说文本拆分的方法另一实施例示意图，图4C中待解析事件“小湖队的中锋压哨上篮”与图4B相同，但由于不同的解说员对同一目标帧有着不同的解说方式，因此如图4C中待标注解说文本A3所示“大牛队的大前锋被小湖队的中锋转身绕过，小湖队的中锋命中压哨上篮！大牛队的劣势越来越大，可惜！”，也可以完成对该解说文本的拆分，细化动作参与两方交互以及事件细节，并且加入了口语化的衔接描述，使得对同一待解析事件有着不同的解说文本，使得话术的生成更为灵活。

本申请实施例中，提供了一种解说文本拆分的方法，可以根据解说文本集合获取目标视频帧所对应的解说文本子集合，然后进一步根据解说文本集合获取目标视频帧所对应的解说文本子集合。通过上述方式，完成解说文本的拆分，细化解说文本中的事件细节特征，使得后续话术生成在专业的基础上口语化，并且同一待解析事件有着不同的解说文本，使得话术的生成更为灵活，提升了话术生成的实用率以及本申请实施例的可行性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，根据待标注解说文本获取待解析事件集合，可以包括：

根据待标注解说文本确定目标视频帧，其中，目标视频帧属于M个图像帧中的一个视频帧；

根据待处理视频获取目标视频帧所对应的操作控制指令；

若N等于K，则生成待解析事件集合；

若N小于K，则根据待标注解说文本获取(K-N)个待解析事件。

本实施例中，当解说文本子集合包括至少两个解说文本时，可以从解说文本子集合中获取待标注解说文本，然后根据待标注解说文本确定属于M个图像帧中的一个视频帧的目标视频帧。根据待处理视频获取目标视频帧所对应的操作控制指令，进一步地根据该操作控制指令获取目标视频帧所对应的状态数据，再进一步地即可根据目标视频帧所对应的状态数据，生成N个待解析事件，N个待解析事件属于待解析事件集合，待解析事件集合包括K个待解析事件，应理解，当N等于K时，即已经获取到该目标视频帧中的所有待解析事件，因此可以直接生成待解析事件集合，而待解析事件集合中包括了N个待解析事件(也就是所有待解析的事件)，而当N小于K，则根据待标注解说文本获取(K-N)个待解析事件，其中N为大于或等于0的整数。

为了便于进一步理解本实施例，下面将以MOBA视频进行解说为例，并且以游戏核心(GameCore)为示例完成待解析事件的自动获取进行详细说明，在根据前述操作确定目标视频帧后，GameCore可以根据获取到的操作控制指令计算出目标视频帧所对应的状态数据，并且GameCore是在接受到操作控制指令的同时对该操作控制指令进行计算，然后将计算所得的状态数据保存在GameCore的本地目录中，然后基于GameCore就能直接地计算出操作控制指令下发时的预解析事件。具体地，由于为MOBA视频，因此前述操作控制指令可以包括但不限于游戏玩家下发的英雄左移、右移、释放1技能、释放2技能以及回城的命令，其次，前述状态数据可以包括但不限于英雄血量、移动朝向以及技能状态。因此GameCore的本地目录中保存有该操作控制指令下发时状态数据，即保存有英雄血量、移动朝向以及技能状态，即可以根据人工标注的特征及事件将数据组合生成预解析事件。

需要说明的是，在待解析事件获取的方法中，当N为0时，则此次待解析事件的获取结果为0，即没得到新的待解析事件，或者只得到已获取过的部分的待解析事件，这时就可以进行人工干预，对待解析事件进行添加，该方法将于本申请后续详细描述。也就是说，在最开始阶段由于无法自动获取到待解析事件，只能人工手动来标注，因为这是建立特征体系的必备流程，当已经初步建立特征体系之后，就可以通过生成预解析事件来执行特征获取的操作，人工只需要对标注的结果进行一次复核，以提升自动标注的准确度，而在特征获取模型完善之后，人工则只需要对标注结果中可信度低的少部分进行复核即可，提升整体话术生成的可信度。

本申请实施例中，提供了一种待解析事件获取的方法，可以根据待标注解说文本确定目标视频帧，并且由该目标视频帧获取所对应的操作控制指令，再进一步获取所对应的状态数据，根据状态数据生成待解析事件，并且与待解析事件集合中的待解析事件进行对比，最后得到待解析事件或者待解析事件集合。通过上述方式，可以根据操作控制指令获取状态数据，并由状态数据完成待解析事件的获取，提升待解析事件的获取效率，从而提升话术生成的实效以及本申请实施例的可行性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，根据待标注解说文本获取(K-N)个待解析事件，可以包括：

基于待标注解说文本，接收事件标注指令，其中，事件标注指令携带事件标注信息，事件标注信息包括事件特征；

本实施例中，当解说文本子集合包括至少两个解说文本时，可以从解说文本子集合中获取待标注解说文本，并且基于待标注解说文本，接收携带包括事件特征的事件标注信息的事件标注指令，然后响应于该事件标注指令，执行人工干预，对待解析事件进行添加，获取到(K-N)个待解析事件。即当前述通过自动未获取到新的待解析事件，或者只得到已获取过的部分的待解析事件时，通过人工手动获取到目标帧中的其他待解析事件。

具体地，本实施例中以MOBA视频进行解说为例，请参阅图5A，图5A为本申请实施例中人工标注软件的一个界面示意图，如图所示，该图中的B1为标注任务管理器，其作用为分发目标视频的管理。B2为更新事件数据，其作用为当人工已标注目标视频中的一批数据，可以由此标注成很多个事件，然后点击B2所对应的更新事件数据，则可以更新到特征体系中。B3为提交事件需求描述，其作用为在标注人员进行人工手动标注的时候，若发现事件拆分后在特征体系内没找到对应特征，则需要提交特征添加需求，此时暂时无法标注，然后临时跳过标注。在提交特征添加需求之后，等复核人员确认可以添加后再补充标注。B4为需求列表，其作用即为查看还有哪些解说视频没有进行标注，便于B1进行目标视频的分发管理。而该图中的B5则用于指示目标视频所对应的解说时间。B6则用于指示对应解说进度，显示出该目标视频中共有多少句待解析事件，并可以指示已完成标注的事件，其次，请参阅图5B，图5B为本申请实施例中人工标注软件的另一个界面示意图，通过双击B6后即可弹出如图5B所示的一个框，用于输入想要跳转的指定句句子序号，点击确认即可跳转。

下面将对图5A中的B7所对应的解说词内容标注进行详细描述，请参阅图5C，图5C为本申请实施例中人工标注软件的另一个界面示意图，如图所示，解说词内容标注可以包括如图所示的对战事件以及非对战事件，其中不同阵营的英雄在上路高低进行了对战，就是对战事件，即对战事件为游戏中的双方英雄角色进行了面对面的对战。而英雄打了兵升级或者推了对方的防御塔，均为非对战事件，即非对战事件为游戏中的英雄角色对NPC或者建筑进行的操作事件。可以理解的是，在实际应用中，多次的人工手动标注可以在解说词内容标注中添加更多详细的内容，例如预测、战斗分析、其他分析、介绍过渡、介绍场外或者万金油话。

下面将对图5A中的B8所对应的区域内容进行详细描述，首先请参阅图5D，图5D为本申请实施例中人工标注软件的另一个界面示意图，如图所示，当选择了而且、英雄、等级、英雄等级提升所对应的特征后，点击C1对应的添加，即可将该特征添加进解说词内容标注中，解说词内容标注就会显示英雄等级提升的标注。

请参阅图5E至图5H，图5E至图5H均为本申请实施例中人工标注软件的另一个界面示意图。如图5E所示，“而且”所对应的特征，还可以选择为“或者”。如图5F所示，“血量”所对应的特征，还可以选择为阵营、蓝量、等级、行为、位置、视野以及装备，应理解，在实际应用中，还可以选择但不限于关键英雄、职业、战绩、buff状态、复活、承受伤害、发育、移动方向以及强势期。如图5G所示，“英雄”所对应的特征，还可以选择为事件描述、阵营以及全局数据，应理解，在实际应用中，还可以选择但不限于非玩家角色、总结分析以及战斗。如图5H所示，“英雄血量多”所对应的特征，还可以选择为英雄残血、英雄半血、英雄半血、英雄血量为0。

然而，当预解析事件没有出现或者不齐时，可以点击图5D中的C2进行人工预解析事件的添加，为了便于理解请参阅图5I，图5I为本申请实施例中人工标注软件的另一个界面示意图，如图所示，可以在C3所指示的框中输入需要添加的人工预解析事件对应的关键词，例如输入攻击，则会C4对应的框中会出现与攻击相关的人工预解析事件，其中人工预解析事件可以包括但不限于如图所示的事件，然后选择所需要添加的，放入解说词内容标注中，即可完成添加。

本申请实施例中，提供了另一种待标注解说文本获取的方法，基于待标注解说文本，接收携带包括事件特征的事件标注信息的事件标注指令，然后响应于该事件标注指令，执行人工干预，对待解析事件进行添加，获取到(K-N)个待解析事件。通过上述方式，可以提升自动标注的准确度，以及提升整体话术生成的可信度。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，根据待解析事件集合，获取待标注解说文本所对应的策略事件，可以包括：

根据待解析事件集合，生成待标注解说文本所对应的策略事件；

或

基于待解析事件集合，根据事件组合指令获取待标注解说文本所对应的策略事件，其中，事件组合指令携带待解析事件的标识。

本实施例中，与前述获取待标注解说文本类似，可以分为自动获取以及人工手动获取策略事件。若人工手动获取，则可以根据根据待解析事件集合，生成待标注解说文本所对应的策略事件，若自动获取，则可以基于待解析事件集合，根据携带待解析事件的标识的事件组合指令获取待标注解说文本所对应的策略事件。由此即可以生成待标注解说文本与策略事件的映射关系，可以后续文本处理，建立文本词干到游戏特征的建模提供原始特征数据。

具体地，在人工手动获取策略事件时，由于英雄特征、NPC特征的特征多样性，基于英雄特征、NPC特征，人工手动可以组合出多种策略事件。应理解，在实际应用中，还可以但不限于基于英雄特征、NPC特征、战斗特征以及全局特征，而英雄特征可以包括但不限于游戏角色的血量、位置以及技能状态的游戏属性，NPC特征可以包括但不限于非玩家角色(例如小野怪、暴君和主宰)的血量、阵营、承受伤害、攻击目标以及刷新时间的属性，战斗特征则可以包括但不限于英雄展开团战时的参团英雄、团战地点、团战结果以及双方伤亡信息，全局特征可以包括但不限于双方阵营经济对比、人头对比、英雄存亡情况以及胜率。英雄特征、NPC特征、战斗特征以及全局特征的多样化可以组合出多种策略事件，例如战斗策略事件以及总结分析事件。

示例性地，以MOBA视频进行解说为例，例如一个待标注解说文本为蓝方辅助探红方的蓝区，而另一个待标注解说文本为红方正在打Buff，根据待标注解说文本即可生成所对应的策略事件“蓝方辅助探红方的蓝区，这时候红方正在打Buff并没有发现蓝方辅助”。其次，在另一示例中，一个待标注解说文本为第一个暴君刷新，而另一个待标注解说文本为红方打野已经死亡，根据待标注解说文本即可生成所对应的策略事件“第一个暴君刷新，此时红方打野已经死亡，蓝方打野马上开团抢暴君”。再次，在又一示例中，一个待标注解说文本为蓝方团战抢到暴君，而另一个待标注解说文本为蓝方团灭，还有一个待标注解说文本为蓝方丢了中路高地塔，根据待标注解说文本即可生成所对应的策略事件“蓝方团战抢到暴君！但抢到暴君后蓝方被红方团灭，很可惜啊这一把，蓝方还因此丢了中路高地塔”。

本申请实施例中，提供了策略事件获取的方法，可以根据待解析事件集合生成待标注解说文本所对应的策略事件，还可以基于待解析事件集合，根据携带待解析事件的标识的事件组合指令获取待标注解说文本所对应的策略事件。通过上述方式，可以通过不同的方式获取策略事件，提升策略事件获取的灵活性，提升后续话术生成的多元性，从而提升话术生成的效率。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，话术生成的方法还可以包括：

获取待添加事件；

根据待添加事件确定目标事件类型；

根据目标事件类型，将待添加事件添加至可选事件集合，其中，可选事件集合包括至少一个可选事件，且待解析事件属于至少一个可选事件；

根据待标注解说文本获取待解析事件集合，可以包括：

根据待标注解说文本，从可选事件集合中获取待解析事件集合。

本实施例中，还可以先获取待添加事件，然后根据待添加事件确定目标事件类型，进一步地根据目标事件类型将待添加事件添加至可选事件集合，最后即可根据待标注解说文本，从可选事件集合中获取待解析事件集合。具体地，目标事件类型可以包括但不限于时间描述、全局数据、阵营以及英雄。

为了便于理解，以MOBA视频进行解说为例，请参阅图6，图6为本申请实施例中特征体系的半自动标注反馈的方法的一个实施例示意图，如图所示，解说事件即可选事件集合，因此在解说事件中可以包括目标事件类型，即时间描述、全局数据、阵营以及英雄，此外，还可以包括前期、非玩家控制角色、战斗以及总结分析。而其中的每个可选事件都可以展开为更为细化的子可选事件。

具体地，请参阅图6，如图6所示的时间描述可以具体为比赛时间，而比赛时间可以进一步细分为比赛前期、比赛中期以及比赛后期。其次，阵营可以进一细化为阵营多人行为、阵营单人行为、增益状态、阵营兵线以及阵营塔，其中增益状态又可以包括有黑暗暴君增益、有主宰增益以及有黑暗暴君与有主宰双增益，而阵营兵线又可以兵线过河道、兵线上高地以及兵线到塔下，阵营塔也可以包括攻击兵线以及攻击英雄。

再进一步地，对于游戏类视频解说而言，对于全局的把握以及游戏最终的总结分析对于解说十分重要，因此本实施例中对解说事件中的总结分析进行详细说明。具体地，如图6所示的总结分析可以包括但不限于对线分析、阵容分析、阵营经济分析、阵营人头分析、当前阵营局势分析、当前非玩家控制角色分析以及战斗风格。其中对线分析可以包括但不限于下路对线优势、上路对线优势、中路对线优势、辅助位分析以及打野分析，即对5个玩家操控的5名英雄在游戏中的位置分布，双方上、中、下路的对线分析以及野辅的具体作用分析，其次，阵容分析可以包括前期优势、后期优势以及控制优势，再进一步地，阵营经济分析可以包括但不限于前、中、后期阵营经济优势大，前、中、后期阵营经济优势均衡，大后期阵营经济优势巨大以及大后期无视经济，当前阵营局势分析可以包括当前优势、当前劣势以及劣势变均势，当前非玩家控制角色分析可以为防御塔优势，而战斗风格则可以包括强势、弱势以及稳健。

如图6所示，对待添加事件进行选择添加后，可选事件集合的事件特征变得更为多元化，而这时可以根据前述实施例所获取的标注解说文本，从可选事件集合中找到所对应的事件特征，从而获取待解析事件集合。

本申请实施例中，提供了一种特征体系的半自动标注反馈的方法，根据获取到的待添加事件确定目标事件类型，然后根据确定的目标事件类型将待添加事件添加至可选事件集合，因此可以从可选事件集合中获取待解析事件集合。通过上述方式，由于可以通过可选事件集合中获取待解析事件集合，而可选事件集合包括至少一个可选事件，因此待解析事件集合可以为多个可选事件组成的集合，提升事件的完整性以及多样性，并且提升对应策略事件获取的灵活性，因此可以提升话术生成的多样性。

可选地，在上述图3对应的各个实施例的基础上，本申请实施例提供的话术生成的方法一个可选实施例中，话术生成的方法还包括：

获取待添加事件特征；

将待添加事件特征添加至可选事件特征集合，其中，可选事件特征集合包括至少一个可选事件特征，且事件特征属于至少一个可选事件特征；

根据待标注解说文本获取待解析事件集合，包括：

根据待标注解说文本，从可选事件特征集合中获取至少一个事件特征；

本实施例中，还是可以先获取待添加事件特征，然后根据所获取的待添加事件特征添加至可选事件特征集合，具体地，前述的特征体系的半自动标注反馈的方法主要为通过待添加事件确定目标事件类型，然后通过目标事件类型将待添加事件添加至可选事件集合，由于引入了可选事件集合，因此可以直接通过可选事件集合对待解析事件集合进行获取，为事件与事件之间的联系获取。本实施例的特征体系的半自动标注反馈的方法则将获取到的待添加事件直接添加至可选事件特征集合，由于以可选事件特征为集合，因此在获取待解析事件集合时，先需要获取可选事件特征集合的至少一个事件特征，然后根据该至少一个事件特征从可选事件集合中获取待解析事件。

本申请实施例中，提供了另一种特征体系的半自动标注反馈的方法，根据待标注解说文本，从由待添加事件特征添加的可选事件特征集合获取事件特征，并且根据事件特征从可选事件集合中获取带解析事件。通过上述方式，可以通过事件特征获取获取带解析事件，通过不同方式获取到带解析事件，提升本申请实施例的可行性。

应理解，本申请实施例在有专业主播解说团队介入时，还可以与传统文本特征体系一样，利用专业主播解说团队对各类视频策略事件的专业理解能力，可以由专业主播解说团队直接建立自上而下的视频解说特征体系。即本申请为先获取待标注文本，然后整理标注事件特征，基于事件特征生成策略事件，再由此形成解说话术对。若由专业主播解说团队直接建立自上而下的视频解说特征体系，则需要先标注解说文本涉及的策略事件，再分析策略事件涉及的事件特征，即可以把特征标注替换为无人工参与标注的策略事件提取特征，但这需要大量的专业游戏主播解说资源及大量的整理时间，因此目前无法得到完全的实施。

结合上述介绍，下面将对本申请中基于人工智能的解说方法进行介绍，请参阅图7，图7为本申请实施例中基于人工智能的解说方法一个实施例示意图，如图所示，本申请实施例中基于人工智能的解说方法一个实施例包括：

201、获取待解说视频，其中，待解说视频包括至少一个视频帧；

本实施例中，首先解说装置可以获取到包括至少一个视频帧待解说视频，待解说视频可以为解说装置通过有线网络接收到的视频，还可以为解说装置本身存储的视频。可以理解的是，待解说视频的视频格式包含但不仅限于MPEG格式、AVI格式、ASF、WMV格式、3GP、MKV、flash video以及RMVB。

应理解，当待解说视频仅包括一个视频帧时，其实可以将视频帧看做一个图像，即本实施例即可以对一张图像、一张截图或者一幅画进行解说，而图像的格式包含但不仅限于包含但不仅限于BMP格式、PCX格式、TIFF、GIF、JPEG、TGA格式、EXIF、FPX格式、SVG、PNG、WMF、EPS格式、HDRI以及DXF。

202、根据待解说视频，获取第一视频帧所对应的目标策略事件；

本实施例中，在通过步骤201获取到待解说视频后，可以对待解说视频中的第一视频帧进行音频解码，而在音频解码后可以获取到第一视频帧中的语音内容，然后即可对语音内容进行语音识别，语音识别即可以将语音中的词汇内容转换为可读的输入，例如按键、二进制编码、字符序列、文本信息或者命令，在本实施例中，语音识别可以将第一视频帧中的语音内容转换为待标注解说文本。应理解，由于不同视频解说的需求不同，因此需要对待标注解说文本进行进一步的筛选以及标注，首先对待标注解说文本中的事件特征进行标注，然后再根据至少一个事件特征组成待解析事件，进一步根据至少一个待解析事件获取到待解析事件集合，最后即可根据待标注解说文本在待解析事件集合中获取第一视频帧所对应的目标策略事件。

203、根据目标策略事件，从解说话术对集合中确定目标解说文本，其中，解说话术对集合包括至少一个解说话术对，解说话术对包括策略事件与解说文本之间的映射关系；

本实施例中，当解说装置通过步骤202获取到目标策略事件会后，可从包括至少一个解说话术对的解说话术对集合中确定目标解说文本，其中解说话术对可以为策略事件与解说文本之间的映射关系，进一步地，文本词干到策略事件的映射关系为多对一的关系，也就是说一个文本词干对应一个策略，而一个策略可以对应多个文本词干，即由于前述可知每个解说的说话方式不同，但是都是在对同一个策略进行描述，而文本词干的选择可以根据权重(统计规则)去选，或者文本词干太长选择丢弃。

204、根据目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果，其中，第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

本实施例中，解说装置可以根据第一视频帧所对应的操作控制指令获取目标视频帧所对应的状态数据，然后根据步骤203所确定的目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果。

205、根据目标解说结果生成第一视频帧所对应的解说语音。

本实施例中，解说装置可以通过步骤204所生成的目标解说结果通过文本转换为语音的方式生成第一视频帧所对应的解说语音。

具体地，本实施例中需要将文本转换为语音需要用到语音合成技术(text tospeech，TTS)，即将文字信息转变为语音数据，以语音的方式播放出来的技术。语音合成技术需要对文本进行分析，即需要将目标解说结果进行语言学分析，对目标解说结果逐句进行词汇、语法以及语义的分析，以确定目标解说结果中的句子的低层结构和每个字的音素的组成，包括但不限于目标解说结果中文本的断句、字词切分、多音字的处理、数字的处理、缩略语的处理。然后将处理好的目标解说结果文本所对应的单字或短语从语音合成库中提取，把语言学描述转化成言语波形，然后对目标解说结果所对应的言语波形进行韵律处理，即合成音质(qualityof synthetic speech)，然后即可生成第一视频帧所对应的解说语音。

本申请实施例中，提供了一种基于人工智能的解说方法，首先获取包括至少一个视频帧获取待解说视频，然后根据待解说视频，获取第一视频帧所对应的目标策略事件，其次根据目标策略事件，从解说话术对集合中确定目标解说文本，进而通过根据第一视频帧所对应的操作控制指令确定第一视频帧所对应的状态数据，并根据根据目标解说文本以及该状态数据生成目标解说结果，最后根据目标解说结果生成第一视频帧所对应的解说语音。通过上述方式，能够对不同场景下的待解说视频获获取对应的目标策略事件，而策略事件是由待解析事件组合而成，待解析事件是由事件特征组合而成，由此实现自下而上的解说话术对的构建，通过自下而上的解说话术对的构建生成所对应的解说语音，可以更好地适应于复杂的解说场景。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的基于人工智能的解说方法第一个可选实施例中，根据目标策略事件，从解说话术对集合中确定目标解说文本，包括：

根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术出现概率；

根据目标解说话术对确定目标解说文本。

本实施例中，可以根据目标策略事件，从解说话术对集合中确定Q个解说话术对，然后根据Q个解说话术对中每个解说话术对的话术出现概率，确定目标解说话术对，最后根据目标解说话术对确定目标解说文本，其中Q为大于或等于1的整数。

示例性地，根据目标策略事件，从解说话术对集合中确定了2个解说话术对，2个解说话术对分别为解说话术对A以及解说话术对B，其中解说话术对A出现概率是70％，B是30％，那么目标解说文本使用A的可能性就是70％，B是30％，具体地，本实施例中，解说话术对的随机选择可以由解说设备根据设置好的代码自动选择，例如采用随机函数或者简单的网络模型。

本申请实施例中，提供了一种确定目标解说文本的方法，通过不同解说话术对应的话术出现概率，并且根据出现概率随机确定目标解说话术对，然后根据目标解说话术对确定目标解说文本，通过上述方式，能够灵活选择解说话术对，提升解说的多样性。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的基于人工智能的解说方法第一个可选实施例中，根据目标策略事件，从解说话术对集合中确定目标解说文本，可以包括：

根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术持续时间；

根据目标解说话术对确定目标解说文本。

本实施例中，可以根据目标策略事件，从解说话术对集合中确定Q个解说话术对，然后可以根据所获取的待解说视频，确定前述第一视频帧的后一个视频帧为第二视频帧，然后根据前述类似步骤获取第二视频帧所对应的状态数据，当第二视频帧所对应的状态数据满足策略事件触发条件，则根据Q个解说话术对中每个解说话术对的话术持续时间，确定目标解说话术对，最后根据目标解说话术对确定目标解说文本，其中Q为大于或等于1的整数。

示例性地，以游戏解说为例，在第二视频帧中，某个英雄血量大幅减少，表示该英雄可能被攻击了，这个时候可以确定血量大幅减少的状态数据满足一个策略事件触发条件。又或者在第二视频帧中，某个主宰死亡，则表示有一个阵营拿下了该主宰，这时候可以确定主宰死亡的状态数据满足另一个策略事件触发条件。还可以为在第二视频帧中，某个英雄对敌方英雄造成巨大伤害，则表示该英雄为持续攻击地方英雄或者该英雄释放了大招，这时候可以对敌方英雄造成巨大伤害的状态数据满足再一个策略事件触发条件。

进一步地，例如一个状态数据可以有20个备选地目标解说话术，当发现下一帧会有其他事件发生，就从中选择时间较短的话术，选择方式可以是直接选最短时间的，也可以随机选择一个只要时间小于预设时间门限(比如1秒)的。具体请参阅图8，图8为本申请实施例中虚拟解说界面示意图，如图8中(A)所示，当沈梦溪正对敌方造成巨大伤害时，可以选择“这沈梦溪丢了一个混合炸弹伤害真心高”对该视频帧进行解说，但是如果该视频帧的下一帧到来时，敌方英雄已经因为沈梦溪的混合炸弹所带来的伤害死亡，图8中(A)中的解说话术以正常语速越需要3秒才能说完，然而在说的过程中，该话术对应的事件已经结束，因此这时则可以满足策略事件触发条件，选择较短的话术进行解说，如图8中(B)所示，当沈梦溪正对敌方造成巨大伤害时，可以选择“伤害厉害！”对该视频帧进行解说，由于该解说话术简短，因此不会出现话术还在解说时对应的事件已经结束的问题。

本申请实施例中，提供了一种确定目标解说文本的方法，通过确定状态数据是否满足策略事件触发条件，从而确定解说文本。通过上述方式，通过视频内容对应的状态数据确定事件发生情况，避免出现解说与时间不统一的情况，提升选择解说话术对的灵活性，从而提升解说的可行性。

可选地，在上述图7对应的实施例的基础上，本申请实施例提供的基于人工智能的解说方法第一个可选实施例中，根据目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果，包括：

对目标解说文本进行识别，得到词干信息；

根据目标解说文本所对应的词干信息生成词语空槽；

将待填入词干填入至词语空槽中，得到目标解说结果。

本实施例中，对目标解说文本进行识别，得到词干信息，进一步根据该词干信息生成词语空槽，然后根据第一视频帧所对应的状态数据确定待填入词干，最后将待填入词干填入至词语空槽中，得到目标解说结果。

具体地，填槽指的是为了让实时的状态数据转化为明确的指令而补全信息的过程。首先，自动目标解说结果的生成开放域多轮对话，识别意图，即需要多次对待解说视频帧进行筛选以及标注，然后需要准入条件，本实施例中，准入条件则为获取到的目标解说文本所对应的词干信息，然后根据该词干信生成词语空槽，进入封闭域，进入封闭域后即需要通过第一视频帧所对应的状态数据确定待填入词干，将待填入词干填入至词语空槽中即完成填槽。应理解，若确定的待填入词干无法完整填槽，则需要再次进行筛选以及标注获取更多的目标解说文本，最终即可得到目标解说结果。

本申请实施例中，提供了一种目标解说结果生成的方法，通过词干信息生成词语空槽，并且将通过状态数据确定待填入词干放入所生成的词语空槽中，得到目标解说结果。通过上述方式，由于能通过状态数据确定待填入词干，因此提升目标解说结果的实时准确性。

下面对本申请中的话术生成装置进行详细描述，请参阅图9，图9为本申请实施例中话术生成装置一个实施例示意图，话术生成装置300包括：

获取模块301，用于获取待标注解说文本；

获取模块301，还用于根据获取模块获取的待标注解说文本获取待解析事件集合，其中，待解析事件集合包括至少一个待解析事件，待解析事件包括至少一个事件特征；

获取模块301，还用于根据获取模块获取的待解析事件集合，获取待标注解说文本所对应的策略事件，其中，策略事件包括至少一个待解析事件；

生成模块302，用于根据获取模块获取的策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。

进一步地，本申请实施例中，提供了一种话术生成的方法，首先获取待标注解说文本，然后根据待标注解说文本获取待解析事件集合，再根据待解析事件集合，获取待标注解说文本所对应的策略事件，最后根据策略事件生成解说话术对，其中，解说话术对包括策略事件与待标注解说文本之间的映射关系。通过上述方式，能够对不同场景下的待标注解说文本进行标注，基于已设置好的事件特征集合生成至少一个待解析事件，再根据至少一个待解析事件生成对应的一个策略事件，即策略事件是由待解析事件组合而成，待解析事件是由事件特征组合而成，由此实现自下而上的解说话术对的构建，基于事件特征颗粒度较小的特点，可以更好地适应于复杂的解说场景。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的话术生成装置300的另一实施例中，

获取模块301，具体用于获取待处理视频，其中，待处理视频包括M个视频帧，M为大于或等于1的整数；

从解说文本集合中获取待标注解说文本。

其次，本申请实施例中，提供了一种待标注解说文本获取的方法，首先获取包括M个视频帧的待处理视频，然后对待处理视频中的M个视频帧进行解码处理，得到包括M个语音帧待处理音频，进一步地对待处理音频中M个语音帧进行语音识别处理，得到至少M个解说文本，并且获取得到由至少一个解说文本组成的解说文本集合，最后从解说文本集合中获取待标注解说文本，其中M为大于或等于1的整数。通过上述方式，由待处理视频中的视频帧到待处理音频中语音帧的转换，最后由语音帧转换为待标注解说文本，完成解说视频中的文本提取，便于后续特征的标注以及策略的生成，提升了话术生成的效率。

获取模块301，具体用于根据解说文本集合获取目标视频帧所对应的解说文本子集合，其中，目标视频帧属于M个图像帧中的一个视频帧，解说文本子集合包括至少一个解说文本；

再进一步地，本申请实施例中，提供了一种解说文本拆分的方法，可以根据解说文本集合获取目标视频帧所对应的解说文本子集合，然后进一步根据解说文本集合获取目标视频帧所对应的解说文本子集合。通过上述方式，完成解说文本的拆分，细化解说文本中的事件细节特征，使得后续话术生成在专业的基础上口语化，并且同一待解析事件有着不同的解说文本，使得话术的生成更为灵活，提升了话术生成的实用率以及本申请实施例的可行性。

获取模块301，具体用于根据待标注解说文本确定目标视频帧，其中，目标视频帧属于M个图像帧中的一个视频帧；

根据待处理视频获取目标视频帧所对应的操作控制指令；

若N等于K，则生成待解析事件集合；

若N小于K，则根据待标注解说文本获取(K-N)个待解析事件。

其次，本申请实施例中，提供了一种待解析事件获取的方法，可以根据待标注解说文本确定目标视频帧，并且由该目标视频帧获取所对应的操作控制指令，再进一步获取所对应的状态数据，根据状态数据生成待解析事件，并且与待解析事件集合中的待解析事件进行对比，最后得到待解析事件或者待解析事件集合。通过上述方式，可以根据操作控制指令获取状态数据，并由状态数据完成待解析事件的获取，提升待解析事件的获取效率，从而提升话术生成的实效以及本申请实施例的可行性。

获取模块301，具体用于基于待标注解说文本，接收事件标注指令，其中，事件标注指令携带事件标注信息，事件标注信息包括事件特征；

进一步地，本申请实施例中，提供了另一种待标注解说文本获取的方法，基于待标注解说文本，接收携带包括事件特征的事件标注信息的事件标注指令，然后响应于该事件标注指令，执行人工干预，对待解析事件进行添加，获取到(K-N)个待解析事件。通过上述方式，可以提升自动标注的准确度，以及提升整体话术生成的可信度。

获取模块301，具体用于根据待解析事件集合，生成待标注解说文本所对应的策略事件；

或

获取模块301，具体用于基于待解析事件集合，根据事件组合指令获取待标注解说文本所对应的策略事件，其中，事件组合指令携带待解析事件的标识。

可选地，在上述图9所对应的实施例的基础上，本申请实施例提供的话术生成装置300的另一实施例中，话术生成装置还包括确定模块以及添加模块，

获取模块301，还用于获取待添加事件；

确定模块303，用于根据获取模块获取的待添加事件确定目标事件类型；

添加模块304，用于根据确定模块确定的目标事件类型，将待添加事件添加至可选事件集合，其中，可选事件集合包括至少一个可选事件，且待解析事件属于至少一个可选事件；

获取模块301，具体用于根据待标注解说文本，从可选事件集合中获取待解析事件集合。

在进一步地，本申请实施例中，提供了一种特征体系的半自动标注反馈的方法，根据获取到的待添加事件确定目标事件类型，然后根据确定的目标事件类型将待添加事件添加至可选事件集合，因此可以从可选事件集合中获取待解析事件集合。通过上述方式，由于可以通过可选事件集合中获取待解析事件集合，而可选事件集合包括至少一个可选事件，因此待解析事件集合可以为多个可选事件组成的集合，提升事件的完整性以及多样性，并且提升对应策略事件获取的灵活性，因此可以提升话术生成的多样性。

获取模块301，还用于获取待添加事件特征；

添加模块304，还用于将获取模块获取的待添加事件特征添加至可选事件特征集合，其中，可选事件特征集合包括至少一个可选事件特征，且事件特征属于至少一个可选事件特征；

获取模块301，具体用于根据待标注解说文本，从可选事件特征集合中获取至少一个事件特征；

本申请实施例还提供一种解说装置，请参阅图10，图10为本申请实施例中解说装置一个实施例示意图，解说装置400包括：

获取模块401，用于获取待解说视频，其中，待解说视频包括至少一个视频帧；

获取模块401，还用于根据获取模块获取的待解说视频，获取第一视频帧所对应的目标策略事件；

确定模块402，用于根据获取模块获取的目标策略事件，从解说话术对集合中确定目标解说文本，其中，解说话术对集合包括至少一个解说话术对，解说话术对包括策略事件与解说文本之间的映射关系；

生成模块403，用于根据确定模块确定的目标解说文本以及第一视频帧所对应的状态数据生成目标解说结果，其中，第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

生成模块403，还用于根据生成模块生成的目标解说结果生成第一视频帧所对应的解说语音。

可选地，在上述图10所对应的实施例的基础上，本申请实施例提供的解说装置400的另一实施例中，

确定模块402，具体用于根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术出现概率；

根据目标解说话术对确定目标解说文本。

确定模块402，具体用于根据目标策略事件，从解说话术对集合中确定Q个解说话术对，其中，Q为大于或等于1的整数，解说话术对对应于话术持续时间；

根据目标解说话术对确定目标解说文本。

生成模块403，具体用于对目标解说文本进行识别，得到词干信息；

根据目标解说文本所对应的词干信息生成词语空槽；

将待填入词干填入至词语空槽中，得到目标解说结果。

应理解，以话术生成装置和/或解说装置为服务器为例，请参阅图11，图11为本申请实施例中提供的一个服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，CPU)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。

服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如WindowsServer^TM，MacOSX^TM，Unix^TM,Linux^TM，FreeBSD^TM等等。

上述实施例中由服务器所执行的步骤可以基于该图11所示的服务器结构。

在本申请实施例中，该服务器所包括的CPU522还具有以下功能：

获取待标注解说文本；

获取待解说视频，其中，待解说视频包括至少一个视频帧；

根据待解说视频，获取第一视频帧所对应的目标策略事件；

根据目标解说结果生成第一视频帧所对应的解说语音。

本申请实施例还提供了另一种图像显示控制装置，如图12所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端设备(point of sales，POS)、车载电脑等任意终端设备，以终端设备为手机为例：

图12示出的是与本申请实施例提供的终端设备相关的手机的部分结构的框图。参考图12，手机包括：射频(radio frequency，RF)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，WiFi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图12中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图12对手机的各个构成部件进行具体的介绍：

RF电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，RF电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noiseamplifier，LNA)、双工器等。此外，RF电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(globalsystem of mobile communication，GSM)、通用分组无线服务(general packet radioservice，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystaldisplay，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图12中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经RF电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图12示出了WiFi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。

手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端设备所包括的处理器680还具有以下功能：

获取待标注解说文本；

获取待解说视频，其中，待解说视频包括至少一个视频帧；

根据待解说视频，获取第一视频帧所对应的目标策略事件；

根据目标解说结果生成第一视频帧所对应的解说语音。

本申请实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述图3或图7所示实施例描述的方法。

本申请实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行如前述图3或图7所示实施例描述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种话术生成的方法，其特征在于，包括：

获取待标注解说文本；

根据所述待标注解说文本获取待解析事件集合，其中包括：根据所述待标注解说文本确定目标视频帧，根据所述目标视频帧所对应的操作控制指令获取所述目标视频帧所对应的状态数据，根据所述状态数据得到待解析事件集合，所述待解析事件集合包括至少一个待解析事件，所述待解析事件包括至少一个事件特征；

根据所述待解析事件集合，获取所述待标注解说文本所对应的策略事件，其中，所述策略事件包括至少一个待解析事件；

根据所述策略事件生成解说话术对，其中，所述解说话术对包括所述策略事件与所述待标注解说文本之间的映射关系。

2.根据权利要求1所述的方法，其特征在于，所述获取待标注解说文本，包括：

获取待处理视频，其中，所述待处理视频包括M个视频帧，所述M为大于或等于1的整数；

对所述待处理视频进行解码处理，得到待处理音频，其中，所述待处理音频包括M个语音帧，所述语音帧与所述视频帧具有对应关系；

对所述待处理音频进行语音识别处理，得到解说文本集合，其中，所述解说文本集合包括至少一个解说文本；

从所述解说文本集合中获取所述待标注解说文本。

3.根据权利要求2所述的方法，其特征在于，所述从所述解说文本集合中获取所述待标注解说文本，包括：

根据所述解说文本集合获取目标视频帧所对应的解说文本子集合，其中，所述目标视频帧属于所述M个视频帧中的一个视频帧，所述解说文本子集合包括至少一个解说文本；

若所述解说文本子集合包括至少两个解说文本，则从所述解说文本子集合中获取所述待标注解说文本，其中，所述待标注解说文本为所述至少两个解说文本中的任意一个解说文本。

4.根据权利要求2所述的方法，其特征在于，所述根据所述待标注解说文本获取待解析事件集合，包括：

根据所述待标注解说文本确定目标视频帧，其中，所述目标视频帧属于所述M个视频帧中的一个视频帧；

根据所述待处理视频获取所述目标视频帧所对应的操作控制指令；

根据所述目标视频帧所对应的所述操作控制指令获取目标视频帧所对应的状态数据；

根据所述目标视频帧所对应的所述状态数据，生成N个待解析事件，其中，所述N为大于或等于0的整数，所述N个待解析事件属于所述待解析事件集合，所述待解析事件集合包括K个待解析事件；

若所述N等于所述K，则生成所述待解析事件集合；

若所述N小于所述K，则根据所述待标注解说文本获取(K-N)个待解析事件。

5.根据权利要求4所述的方法，其特征在于，所述根据所述待标注解说文本获取(K-N)个待解析事件，包括：

基于所述待标注解说文本，接收事件标注指令，其中，所述事件标注指令携带事件标注信息，所述事件标注信息包括事件特征；

响应于所述事件标注指令，根据所述事件标注信息获取所述(K-N)个待解析事件。

6.根据权利要求1所述的方法，其特征在于，所述根据所述待解析事件集合，获取所述待标注解说文本所对应的策略事件，包括：

根据所述待解析事件集合，生成所述待标注解说文本所对应的所述策略事件；

或

基于所述待解析事件集合，根据事件组合指令获取所述待标注解说文本所对应的所述策略事件，其中，所述事件组合指令携带待解析事件的标识。

7.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

获取待添加事件；

根据所述待添加事件确定目标事件类型；

根据所述目标事件类型，将所述待添加事件添加至可选事件集合，其中，所述可选事件集合包括至少一个可选事件，且所述待解析事件属于所述至少一个可选事件；

根据所述待标注解说文本获取待解析事件集合，包括：

根据所述待标注解说文本，从所述可选事件集合中获取所述待解析事件集合。

8.根据权利要求1至6中任一项所述的方法，其特征在于，所述方法还包括：

获取待添加事件特征；

将所述待添加事件特征添加至可选事件特征集合，其中，所述可选事件特征集合包括至少一个可选事件特征，且所述事件特征属于所述至少一个可选事件特征；

根据所述待标注解说文本获取待解析事件集合，包括：

根据所述待标注解说文本，从所述可选事件特征集合中获取至少一个事件特征；

根据所述至少一个事件特征，从所述可选事件集合中获取所述待解析事件，其中，所述待解析事件属于所述待解析事件集合。

9.一种基于人工智能的解说方法，其特征在于，包括：

获取待解说视频，其中，所述待解说视频包括至少一个视频帧；

根据所述待解说视频，获取第一视频帧所对应的目标策略事件；

根据所述目标策略事件，从解说话术对集合中确定目标解说文本，其中包括：当第二视频帧所对应的状态数据满足策略事件触发条件时，根据解说话术对的话术持续时间确定目标解说文本，所述解说话术对集合包括至少一个解说话术对，所述解说话术对包括策略事件与解说文本之间的映射关系，所述第二视频帧为所述第一视频帧的后一个视频帧；

根据所述目标解说文本以及所述第一视频帧所对应的状态数据生成目标解说结果，其中，所述第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

根据所述目标解说结果生成所述第一视频帧所对应的解说语音。

10.根据权利要求9所述的方法，其特征在于，所述根据所述目标策略事件，从解说话术对集合中确定目标解说文本，包括：

根据所述目标策略事件，从所述解说话术对集合中确定Q个解说话术对，其中，所述Q为大于或等于1的整数，所述解说话术对对应于话术出现概率；

根据所述Q个解说话术对中每个解说话术对的话术出现概率，确定目标解说话术对；

根据所述目标解说话术对确定所述目标解说文本。

11.根据权利要求9所述的方法，其特征在于，所述根据所述目标策略事件，从解说话术对集合中确定目标解说文本，包括：

根据所述目标策略事件，从所述解说话术对集合中确定Q个解说话术对，其中，所述Q为大于或等于1的整数，所述解说话术对对应于话术持续时间；

根据所述待解说视频，获取第二视频帧所对应的状态数据；

若所述状态数据满足策略事件触发条件，则根据所述Q个解说话术对中每个解说话术对的话术持续时间，确定目标解说话术对，其中，所述目标解说话术对的话术持续时间小于预设时间门限；

根据所述目标解说话术对确定所述目标解说文本。

12.根据权利要求9至11中任一项所述的方法，其特征在于，所述根据所述目标解说文本以及所述第一视频帧所对应的状态数据生成目标解说结果，包括：

对所述目标解说文本进行识别，得到词干信息；

根据所述目标解说文本所对应的词干信息生成词语空槽；

根据所述第一视频帧所对应的状态数据确定待填入词干，其中，所述待填入词干与所述词语空槽具有对应关系；

将所述待填入词干填入至所述词语空槽中，得到所述目标解说结果。

13.一种话术生成装置，其特征在于，包括：

获取模块，用于获取待标注解说文本；

所述获取模块，还用于根据所述获取模块获取的所述待标注解说文本获取待解析事件集合，其中包括：根据所述待标注解说文本确定目标视频帧，根据所述目标视频帧所对应的操作控制指令获取所述目标视频帧所对应的状态数据，根据所述状态数据得到待解析事件集合，所述待解析事件集合包括至少一个待解析事件，所述待解析事件包括至少一个事件特征；

所述获取模块，还用于根据所述获取模块获取的所述待解析事件集合，获取所述待标注解说文本所对应的策略事件，其中，所述策略事件包括至少一个待解析事件；

生成模块，用于根据所述获取模块获取的所述策略事件生成解说话术对，其中，所述解说话术对包括所述策略事件与所述待标注解说文本之间的映射关系。

14.一种解说装置，其特征在于，包括：

获取模块，用于获取待解说视频，其中，所述待解说视频包括至少一个视频帧；

所述获取模块，还用于根据所述获取模块获取的所述待解说视频，获取第一视频帧所对应的目标策略事件；

确定模块，用于根据所述获取模块获取的所述目标策略事件，从解说话术对集合中确定目标解说文本，其中包括：当第二视频帧所对应的状态数据满足策略事件触发条件时，根据解说话术对的话术持续时间确定目标解说文本，所述解说话术对集合包括至少一个解说话术对，所述解说话术对包括策略事件与解说文本之间的映射关系，所述第二视频帧为所述第一视频帧的后一个视频帧；

生成模块，用于根据所述确定模块确定的所述目标解说文本以及所述第一视频帧所对应的状态数据生成目标解说结果，其中，所述第一视频帧所对应的状态数据为根据第一视频帧所对应的操作控制指令确定的；

所述生成模块，还用于根据所述生成模块生成的所述目标解说结果生成所述第一视频帧所对应的解说语音。

15.一种电子设备，其特征在于，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括执行如上述权利要求1至8中任一项所述的方法，或，执行如上述权利要求9至12中任一项所述的方法；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。