CN110891201A

CN110891201A - 文本生成方法、装置、服务器和存储介质

Info

Publication number: CN110891201A
Application number: CN201911080117.4A
Authority: CN
Inventors: 屠子睿; 俞一鹏; 孙子荀
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-03-17
Anticipated expiration: 2039-11-07
Also published as: CN110891201B

Abstract

本发明实施例公开了一种文本生成方法、装置、服务器和存储介质；本发明实施例可以获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本；基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本；生成目标视频的视频文本，该视频文本包括事件文本和概括文本。本发明生成的文本可描述、解读视频中发生的虚拟事件，以及概括一段时间内的视频。由此，本方案可以提升生成文本的多样性。

Description

文本生成方法、装置、服务器和存储介质

技术领域

本发明涉及计算机领域，具体涉及一种文本生成方法、装置、服务器和存储介质。

背景技术

随着移动终端的发展以及视频平台的普及，流媒体、短视频等形式视频拍摄、视频传输方案愈加便捷。视频创作者在传输该视频之前，往往要事先创作该视频的描述文本，来概括地描述视频中发生的事件，并将其添加到视频中，或添加到视频简介等其它文字媒体中。比如，在电子游戏赛事直播情景中，当某个虚拟事件(比如，虚拟角色死亡、连续击杀敌对虚拟角色，等等)发生时，直播方通常需要在直播视频中添加字幕来向观众描述该虚拟事件，以及对当前的比赛情况进行解读。

然而，针对视频中发生的虚拟事件进行文字创作难度较高，且工作量大，对于没有文字创作经验的视频创作者来说，创作的文本往往内容含糊、用词单一。因此，目前文本生成方法中所生成文本的内容单一。

发明内容

本发明实施例提供一种文本生成方法、装置、服务器和存储介质，可以提升文本生成方法中所生成文本的多样性。

本发明实施例提供一种文本生成方法，包括：

获取目标视频中所发生虚拟事件的事件信息，以及所述目标视频中所发生历史虚拟事件的历史记录信息；

基于所述事件信息生成所述虚拟事件的事件描述语句；

基于所述事件信息和所述历史记录信息对所述虚拟事件进行事件解读处理，得到所述虚拟事件的事件解读语句；

根据所述事件描述语句和所述事件解读语句生成所述目标视频中虚拟事件的事件文本；

基于所述历史记录信息对所述目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到所述目标视频中历史虚拟事件的概括文本。

本发明实施例还提供一种文本生成装置，包括：

获取单元，用于获取目标视频中所发生虚拟事件的事件信息，以及所述目标视频中所发生历史虚拟事件的历史记录信息；

事件描述单元，用于基于所述事件信息生成所述虚拟事件的事件描述语句；

事件解读单元，用于基于所述事件信息和所述历史记录信息对所述虚拟事件进行事件解读处理，得到所述虚拟事件的事件解读语句；

事件文本单元，用于根据所述事件描述语句和所述事件解读语句生成所述目标视频中虚拟事件的事件文本；

概括文本单元，用于基于所述历史记录信息对所述目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到所述目标视频中历史虚拟事件的概括文本。

本发明实施例还提供一种终端，包括存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行本发明实施例所提供的任一种文本生成方法中的步骤。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行本发明实施例所提供的任一种文本生成方法中的步骤。

本发明实施例可以获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；基于事件信息生成虚拟事件的事件描述语句；基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句；根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本；基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。本发明可以针对视频中发生的虚拟事件生成与该虚拟事件对应的语法，以及解读该虚拟事件得到该虚拟事件的解读文本，从而生成包含该语法和解读文本的事件文本，用以准确地描述该虚拟事件，并对该虚拟事件进行进一步地解读。由此，本方案可以提升文本生成方法所生成文本的多样性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1a是本发明实施例提供的文本生成方法的场景示意图；

图1b是本发明实施例提供的文本生成方法的第一种流程示意图；

图1c是本发明实施例提供的候选树示意图；

图1d是本发明实施例提供的第一文本模型示意图；

图1e是本发明实施例提供的第二文本模型示意图；

图2a是本发明实施例提供的文本生成方法的第二种流程示意图；

图2b是本发明实施例提供的电子游戏比赛场景中的示意图；

图2c是本发明实施例提供的语法树结构示意图；

图2d是本发明实施例提供的事件文本字幕；

图2e是本发明实施例提供的概括文本字幕；

图3是本发明实施例提供的文本生成装置的结构示意图；

图4是本发明实施例提供的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种文本生成方法、装置、服务器和存储介质。

其中，该文本生成装置具体可以集成服务器中，该服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

需要注意的是，该服务器也可以是终端，其中，终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、或者个人电脑(Personal Computer，PC)等设备。

在一些实施例中，该文本生成装置还可以集成在多个电子设备中，比如，文本生成装置可以集成在多个服务器中，由多个服务器来实现本发明的文本生成方法。

具体地，参考图1a，该服务器可以获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；基于事件信息生成虚拟事件的事件描述语句；基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句；根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本；基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。

以下分别进行详细说明。需说明的是，以下实施例的序号不作为对实施例优选顺序的限定。

在本实施例中，提供了一种文本生成方法，如图1b所示，该文本生成方法的具体流程可以如下：

101、获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息。

其中，目标视频中发生的事件信息是指具体用于描述目标视频的视频内容中所出现的某个或多个虚拟事件的信息，其中，虚拟事件可以指在虚拟场景中所发生的事件，比如，在电子游戏的虚拟游戏场景中，虚拟角色所发生的虚拟事件，例如虚拟角色死亡事件、虚拟角色升级事件、特殊虚拟场景触发事件，等等。

事件信息可以包括该虚拟事件的多种相关的信息，比如，该虚拟事件的发生时间信息、触发该虚拟事件的触发主体信息、受到该虚拟事件影响的客体信息，等等。

例如，在电子游戏的虚拟游戏场景中，当出现玩家操作的虚拟角色死亡事件时，该事件信息包括该玩家的账号名称、死亡时间、击杀方玩家的账号名称、死亡位置坐标，等等。

其中，目标视频中所发生历史虚拟事件的历史记录信息是指记录了目标视频中一段时间内所发生的所有历史虚拟事件的信息，其中，历史虚拟事件信息是指目标视频中在历史时刻发生的虚拟事件。

比如，在电子游戏场景中，历史记录信息可以为当前虚拟角色的杀敌数、死亡次数、助攻次数，等等。

在一些实施例中，历史事件信息是指目标视频中当前时间之前所发生的历史虚拟事件的信息，比如，历史事件信息中可以包括当前时间之前虚拟角色的杀敌数、死亡次数、助攻次数。

在一些实施例中，历史事件信息是指目标视频中上一次发生虚拟事件到当前时间之间所发生的历史虚拟事件的信息，比如，历史事件信息中可以包括上一次发生虚拟事件到当前时间之间虚拟角色的杀敌数、死亡次数、助攻次数。

获取事件信息和历史记录信息的方法具有多种，可以相同也可以不相同。比如，可以通过网络从数据库获取、从本地读取、通过图像处理分析从目标视频获取，等等。

例如，在一些实施例中，可以通过图像处理分析从目标视频获取事件信息，具体地，可以通过对目标视频的视频图像进行图像处理，提取该目标视频中的虚拟角色、虚拟场景、虚拟物品等特征，并根据这些特征生成事件信息。

例如，在一些实施例中，可以通过网络从数据库获取历史记录信息。

102、基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本。

其中，事件文本可以结合事件描述语句和事件解读语句，使得该事件文本既可以正式、准确地描述该虚拟事件，也可以解读、概括该虚拟事件，且语法结构合理、丰富。

例如，事件文本可以是“虚拟角色A击杀了虚拟角色B，翻盘有望！”，其中，“虚拟角色A击杀了虚拟角色B”可以正式、准确地描述该虚拟击杀事件，“翻盘有望！”可以解读、概括该虚拟击杀事件。

再例如，事件文本可以是“令人感动，虚拟角色A治疗了虚拟角色B”，其中，“虚拟角色A治疗了虚拟角色B”可以正式、准确地描述该虚拟击杀事件，“令人感动”可以解读、概括该虚拟击杀事件。

具体基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本的步骤包括：

(1)基于所述事件信息生成所述虚拟事件的事件描述语句；

(2)基于所述事件信息和所述历史记录信息对所述虚拟事件进行事件解读处理，得到所述虚拟事件的事件解读语句；

(3)根据所述事件描述语句和所述事件解读语句生成所述目标视频中虚拟事件的事件文本。

以下对这些步骤进行介绍：

(1)基于事件信息生成虚拟事件的事件描述语句。

其中，事件描述语句是用于描述虚拟事件的语句文字，具有正式、完整的语法结构，比如，一个事件描述语句中可以为主语-谓语-宾语结构，例如：“虚拟角色A击杀了虚拟角色B！”。

在一些实施例中，步骤102可以包括以下步骤：

基于事件信息在预设语法集合中确定目标语法；

根据目标语法构建搭载了事件描述语句的语法树。

其中，预设的语法集合中可以包括多个预设的语法，根据事件信息可以在多个预设的语法中确定目标语法。

其中，预设语法集合可以存储在本地内存中，也可以存储在其它存储设备如数据库中。

其中，语法可以是概率上下文无关语法(Probabilistic Context Free Grammar，PCFG)中一个重要参数，用于定义一个语法树。

PCFG可以表示为(S，sigma，R，N，P)，其中S表示开始符号(或树的根结点、树的名称、句子的名称)，sigma表示词汇(或树的叶子结点)，R表示语法，N表示词汇的词性(或标注类型)，P表示一棵语法树出现的概率，即树中所有语法出现概率之积。

例如，语法R可以表示为：

S->NPVP，1.00NP->astronomers，0.10

NP->NPPP，0.40NP->saw，0.04

VP->VPPP，0.30V->saw，1.00

PP->PNP，1.00NP->telescopes，0.1

VP->VNP，0.70P->with，1.00

NP->ears，0.18

NP->stars，0.18

其中，S表示语法树根结点，NP指名词，VP指动词，PP指介词短语(短语级别)，N指名词、P指动词、V指介词。

该语法可以生成两种候选树，参考图2c，其中，左候选树出现的匹配概率P(t1)为：

P(t1)＝S×NP×VP×V×NP×NP×PP×P×NP＝1.0×0.1×0.7×1.0×0.4×0.18×1.0×1.0×0.18＝0.0009072

右候选树出现的匹配概率P(t2)为：

P(t2)＝S×NP×VP×VP×V×NP×PP×P×NP＝1.0×0.1×0.3×0.7×1.0×0.18×1.0×1.0×0.18＝0.0006804

根据匹配概率大小可知，根据该语法，更有可能出构造的语法树为左候选树。

在一些实施例中，预设的语法可以和预设的虚拟事件之间具有映射关系，基于事件信息可以在预设的语法集合中确定对应的目标语法。

比如，假设预设的语法R1、R2、R3分别于虚拟事件A1、A2、A3对应，则当获取到事件信息中虚拟事件的类型为虚拟事件A1时，则将预设的语法R1确定为目标语法。

在一些实施例中，，为了提高事件文本语法的严谨性，进一步地提高生成的事件文本的准确性，可以预先构造预设的语法集合，预设的语法集合中包括至少一个预设语法，基于事件信息在预设的语法集合中确定目标语法之前，还可以包括如下步骤：

获取初始语法以及训练文本集合，训练文本集合中包括多个训练文本；

对训练文本进行分词处理，得到训练文本对应的多个关键语句；

对关键语句进行标注处理，得到标注后的关键语句；

基于标注后的关键语句训练初始语法，直至初始语法收敛，得到预设语法。

其中，初始语法以及训练文本集合都可以通过网络从数据库处获得，也可以由技术人员搜集获得，还可以从本地内存中读取获得，等等。

其中，训练文本集合可以是技术人员从网络上搜集获得，比如，针对电子游戏竞技赛事场景的训练文本集合可以由技术人员从多个电子游戏解说视频中提取得到。

其中，关键语句是用于描述虚拟事件的语句文字，具有正式、完整的语法结构，比如，一个事件描述语句中可以为主语-谓语-宾语结构，例如：“虚拟角色A击杀了虚拟角色B！”。

在一些实施例中，步骤“基于标注后的关键语句训练初始语法，直至初始语法收敛，得到预设语法”可以包括以下步骤：

根据初始语法和标注后的关键语句计算初始语法对应标注后的关键语句的期望值；

根据期望值对初始语法进行最大似然估计处理，得到更新后的语法，直到更新后的语法收敛，将收敛后的语法作为预设语法。

其中，根据期望值对初始语法进行最大似然估计处理后，可以得到该语法所生成语法树为标注中语法树的期望值，再根据该期望值进行极大化对数似然，来更新后的语法；然后，根据该更新后的语法和关键语句再次计算新的期望值，再根据新的期望值进行极大化对数似然，再次更新语法；重复迭代多次，直至语法中的参数基本不再变化，从而收敛。最终使得收敛后的语法在语法形式上更加接近真实场景中的语法。

在一些实施例中，为了进一步提高文本用词的丰富性，步骤“根据目标语法构建搭载了事件描述语句的语法树”可以包括如下步骤：获取预设匹配概率范围；

根据目标语法构建多个建搭载了事件描述语句的候选树；

对候选语法树进行匹配概率计算，得到每个候选树的匹配概率；

在属于预设匹配概率范围内的候选树中选定一个候选树作为语法树。

例如，语法R可以表示为：

S->NPVP，1.00NP->astronomers，0.10

NP->NPPP，0.40NP->saw，0.04

VP->VPPP，0.30V->saw，1.00

PP->PNP，1.00NP->telescopes，0.1

VP->VNP，0.70P->with，1.00

NP->ears，0.18

NP->stars，0.18

右候选树出现的匹配概率P(t2)为：

假设预设匹配概率范围为(0.0009，1)，则根据匹配概率大小可知，左候选树符合该预设匹配概率范围，即将左候选树确定为目标语法树。

(2)基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句。

其中，事件解读语句是用于解读、概括虚拟事件的语句文字，可以具有不完整的语法，也可以与该虚拟事件之间存在较弱的关联性；比如，事件解读语句中可以不包含主语、谓语、宾语，等等，该事件解读语句中还可以包括语气词、口语词等非正式的用词、用语，等等。

例如，事件解读语句可以为“太不可思议啦！”、“有机会翻盘”，等等。

其中，文本模型可以是由多张标注了文字类型的训练文本样本训练而成，用于根据事件信息生成文字。

为了提高文本生成的效率，步骤103可以包括以下步骤：

获取第一文本模型，第一文本模型由第一训练样本训练而成，包括第一编码端和第一解码端；

基于第一编码端对事件信息和历史记录信息进行编码处理，得到第一语义向量；

基于第一解码端对第一语义向量进行解码处理，得到虚拟事件的事件解读语句。

其中，该第一文本模型具体的模型结构可以根据实际应用的需求而定，比如采用各种循环神经网络(Recurrent Neural Network，RNN)模型，例如，双向循环神经网络(Bi-directional RNN，Bi-RNN)模型、长短期记忆网络(Long Short-Term Memory networks，LSTM)模型、双向长短期记忆网络(Bi-Long Short-Term Memory networks，Bi-LSTM)模型，等等。

具体获取第一文本模型的方式具有多种，比如，可以从本地内存、外部存储设备中获取，也可以提前训练该第一文本模型。

具体的，训练过程如下：

获取训练文本和第一初始文本模型；

对训练文本进行分词处理，得到第一训练文本；

采用该第一训练文本训练该第一初始文本模型，直至第一初始文本模型收敛，得到第一文本模型。

其中，第一训练文本是用于解读、概括虚拟事件的语句文字，可以具有不完整的语法，也可以与该虚拟事件之间存在较弱的关联性；比如，事件解读语句中可以不包含主语、谓语、宾语，等等，该事件解读语句中还可以包括语气词、口语词等非正式的用词、用语，等等。

具体地，在一些实施例中，参考图1d，第一文本模型可以包括第一编码端和第一解码端，为了使得生成的事件解读语句在时间上具有一定的概括性、逻辑性，第一编码端可以为双向时间循环神经网络，第一编码端可以为双向时间循环神经网络，包括第一特征提取子网络和第一向量融合子网络。

在一些实施例中，事件信息可以包括虚拟事件的多个第一事件特征信息，比如，事件信息中可以包括5个第一事件特征信息，分别是主体名称信息、客体名称信息、事件类型信息、击杀死亡助攻信息(KDA)、比分信息。

在一些实施例中，为了使得生成的事件解读语句具有一定的概括性、推理性，步骤“基于第一编码端对事件信息和历史记录信息事件信息进行编码处理，得到第一语义向量”可以包括如下步骤：

确定上一时刻每个第一事件特征信息对应的第一事件特征向量，以及下一时刻每个第一事件特征信息对应的第一事件特征向量；

采用第一特征提取子网络，根据上一时刻第一事件特征信息对应的第一事件特征向量、下一时刻第一事件特征信息对应的第一事件特征向量以及第一事件特征信息确定当前时刻每个第一事件特征信息对应的第一事件特征向量；

采用第一向量融合子网络对当前时刻每个第一事件特征信息对应的第一事件特征向量进行向量融合，得到第一语义向量。

在一些实施例中，为了提高生成文本的随机性，进一步提高文字的丰富度，步骤“基于第一解码端对第一语义向量进行解码处理，得到虚拟事件的解读文本”可以包括以下步骤：

获取第一阈值范围；

基于第一解码端计算第一语义向量对应的所有文本的概率；

将概率符合第一阈值范围的第一文本确定为候选第一文本，并随机选取一个候选第一文本作为虚拟事件的解读文本。

其中，第一阈值范围可以保存在本地内存中，并由本领域技术人员设置。

在一些实施例中，参考图1e，第二文本模型可以包括第二编码端和第二解码端，考虑到概括文本是在一段时间内对目标视频进行推测、总结的文本，故该第二人编码端可以采用双向时间循环神经网络，使得其生成的概括文本具有时间性、推理性、概括性等，从而进一步提高生成文本的丰富度。

(3)根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本。

具体地，在一些实施例中，步骤104可以包括以下具体步骤：

基于事件解读语句对搭载了事件描述语句的语法树进行树节点填充操作，得到填充后的语法树；

根据填充后的语法树生成目标视频中虚拟事件的事件文本。

其中，事件信息中可以包括主体信息和客体信息，语法树中可以包括多个叶子子结点，在一些实施例中，可以将主体信息、客体信息以及解读文本填入语法树中的叶子子结点，得到填充后的语法树。

例如，参考图1c所示的右树，假设主体信息为Astronomers，客体信息为stars、ears，解读文本为saw、with，则可以将这些主体信息、客体信息以及解读文本填入语法树中的叶子子结点，得到填充后的语法树。

根据语法树生成文本的方式众多，比如，在一些实施例中，可以通过轮询的方式填充后的语法树，生成虚拟事件的事件文本，等等。

在一些实施例中，为了进一步地提高生成文本的多样性，还可以在多种轮询方式中随机选取一种轮询方式进行语法树轮询，从而生成虚拟事件的事件文本。

比如，从左到右轮询语法树、从右往左轮询语法树，等等。

103、基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。

其中，概括文本可以概括、描述视频中一段长时间内出现所有历史虚拟事件，也可以用于承启历史虚拟事件与当前虚拟事件，比如，在电子游戏场景中，概括文本可以概括、总结目标视频中虚拟角色当前的游戏形势。

相比于事件文本针对某一个或多个虚拟事件进行描述、解读，概括文本可以更长时间跨度地对目标视频进行概括，以及对目标视频中虚拟事件的未来走向进行进一步的推理。

步骤“采用第二文本模型对历史记录信息进行全局解读处理，得到概括文本”可以包括如下步骤：

获取第二文本模型，第二文本模型由第二训练样本训练而成，包括第二编码端和第二解码端，第二编码端包括多个第二子编码端；

基于第二子编码端对历史记录信息进行编码处理，得到待融合的第二语义子向量；

对待融合的第二语义子向量、上一个第二子编码端输出的待融合第二语义子向量和下一个第二子编码端输出的待融合第二语义子向量进行向量融合，得到第二语义向量；

基于第二解码端对第二语义向量进行解码处理，得到目标视频中历史虚拟事件的概括文本。

在一些实施例中，为了提高生成的概括文本在一定时间跨度上对目标视频的概括度，以及进一步提高推理效果，第二编码端可以为双向时间循环神经网络，包括第二特征提取子网络和第二向量融合子网络；

步骤“基于第二编码端对历史记录信息进行编码处理，得到待融合的第二语义向量”可以包括以下具体步骤：

确定上一时刻每个第二事件特征信息对应的第二事件特征向量，以及第二时刻每个第二事件特征信息对应的第二事件特征向量；

采用第二特征提取子网络，根据上一时刻第二事件特征信息对应的第二事件特征向量、下一时刻第二事件特征信息对应的第二事件特征向量以及第二事件特征信息确定当前时刻每个第二事件特征信息对应的第二事件特征向量；

采用第二向量融合子网络对当前时刻每个第二事件特征信息对应的第二事件特征向量进行向量融合，得到第二语义向量。

在一些实施例中，为了进一步提高生成文本的丰富度，基于第二解码端对第二语义向量进行解码处理，得到目标视频中历史虚拟事件的概括文本，包括：

获取第二阈值范围；

基于第二解码端计算当前第二语义向量对应的所有文本的概率；

将概率符合第二阈值范围的文本确定为候选第二文本，并随机选取一个候选第二文本作为目标视频中历史虚拟事件的概括文本。

其中，第二阈值范围可以保存在本地内存中，并由本领域技术人员设置。

在一些实施例中，在步骤“根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本”之后，还可以包括以下步骤：

在目标视频中显示事件文本。

比如，在一些实施例中，可以在目标视频中虚拟事件发生时，在目标视频中间显示该事件文本5秒。

再比如，在一些实施例中，可以在目标视频的视频简介中显示该事件文本。

再比如，在一些实施例中，可以在目标视频对应的网页上显示该事件文本。

比如，在电子游戏竞技比赛直播的过程中，每当该直播视频中发生了虚拟事件时，则在步骤“根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本”之后在目标视频中显示该虚拟事件的事件文本5秒。

在一些实施例中，在步骤“基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本”之后，还可以包括以下步骤：

当目标视频在预设时间范围内未发生虚拟事件时，在目标视频中显示概括文本。

目标视频中每次发生虚拟事件时，服务器都可以记录发生时间，上一次发生虚拟事件的历史时间是指上一次发生虚拟事件对应的发生时间。

在一些实施例中，目标视频中已经有一段时间没有出现虚拟事件，为了提高观众的积极性、在虚拟事件之间承上启下、填充空白、推理总结目标视频中一段时间内的虚拟事件等，可以在视频中显示一些用于总结目标视频或推理该目标视频中的形势走向等的文字内容，这些文字内容被称为概括文本。

步骤“基于目标视频中上一次发生虚拟事件的历史时间获取历史事件信息”，可以包括如下步骤：

根据当前时间和目标视频中上一次发生虚拟事件的历史时间计算时间差；

当时间差属于预设时差范围时，获取历史事件信息。

其中，预设时间范围可以由技术人员输入设定，也可以通过网络从服务器获取、从本地内存中获取，等等。

比如，预设时间范围可以表现为(5，100)，此时，若时间差在5～100秒，则获取历史事件信息。

比如，在电子游戏竞技比赛直播的过程中，每当该直播视频中距离上一次发生虚拟事件已经超过15秒了，则在步骤“基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本”之后在目标视频中显示概括文本。

104、生成目标视频的视频文本，该视频文本包括事件文本和概括文本。

在一些实施例中，可以结合目标视频当前时刻发生的虚拟事件对应的事件文本以及当前时刻之前一段时间内历史虚拟事件对应的概括文本，得到对应该目标视频的视频内容的视频文本。

在一些实施例中，可以结合目标视频中特定虚拟事件对应的事件文本以及一段时间内其它虚拟事件对应的概括文本，得到对应该目标视频的视频内容的视频文本。

需要注意的是，该视频文本除了用于在视频中显示、在视频简介中显示，还可以用作视频配音材料、视频解说材料等等。

比如，在电子游戏赛事直播场景下，游戏解说员可以根据该视频文本进行解说、目标视频中可以添加该视频文本对应的配音，等等。

具体的配音方式可以是人工配音，也可以是计算机配音，比如人工智能配音，等等。

由上可知，本发明实施例可以获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本；基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本；生成目标视频的视频文本，该视频文本包括事件文本和概括文本。

本方案可以针对视频中发生的虚拟事件以及历史虚拟事件生成事件文本和概括文本，该事件文本可描述、解读视频中发生的虚拟事件，该概括文本可以概括一段时间内的视频。由此，本方案可以提升生成文本的多样性，用以准确地描述该虚拟事件，并对该虚拟事件进行进一步地解读，通过本方案生成的文本更加具体、准确、自然，且重复性低，用词丰富。由此，本方案可以提升文本生成方法所生成文本的多样性。

根据上述实施例所描述的方法，以下将作进一步详细说明。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器来模拟或实现人类的学习行为，从而达到感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

自然语言处理(Nature Language processing，NLP)是人工智能领域下研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

本发明实施例具体涉及人工智能领域中的自然语言处理技术，

在本发明实施例中，将以文本生成方法应用于王者荣耀游戏赛事直播的解说字幕为例，对本发明实施例的方法进行详细说明。

电子游戏赛事直播的解说字幕可分为两种类型的文字，分别是事件文本和概括文本。

事件文本对应的字幕可以由预定义的游戏事件触发，该事件文本可以集中描述该游戏赛事直播视频中的游戏事件，比如，描述游戏事件玩家A击杀玩家B”；概括文本可以用于概括该游戏赛事直播视频中较长时间段中的视频内容，可以用于填充无游戏事件发生的时间段内解说的空白，起到承上启下的作用。

其中，事件文本由可以分为事件描述语句文本和事件解读语句，事件描述语句用于具体描述该游戏事件，其文字内容和事件具有强相关，具有完备的语法结构；事件解读语句可以用于表达语气、概括内容，其文字与游戏事件的相关性相对较弱，通常具备口语化、多样化的特点。

在本实施例中，可以预先进行数据预处理以及模型训练，得到预设的语法集合、第一文本模型和第二文本模型。

在电子游戏赛事直播时，根据游戏赛事直播视频进行图像识别，来确定游戏赛事直播视频中当前发生的游戏事件。

每当识别出电子游戏赛事直播发生了虚拟事件时，采用预设的语法集合来基于事件信息生成虚拟事件的事件描述语句；采用第一文本模型来基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句；根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本，并在电子游戏赛事直播视频中显示该事件文本。

每当电子游戏赛事直播中距离上一次发生虚拟事件已经超过15秒时，采用第二文本模型来基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本，并在电子游戏赛事直播视频中显示该概括文本。

如图2a所示，一种文本生成方法具体流程如下：

201、获取文本材料数据，并对文本材料进行数据预处理，得到训练样本。

首先，在本方案实施例中，可以通过多种获取多种视频解说的文本材料，并将这些文本材料进行清理、分类。

比如，可以通过人工搜集记录网络上王者荣耀赛事解说视频中的游戏解说内容，也可以直接从视频数据库中获取王者荣耀赛事解说视频，并对视频内的音频进行文字转换从而得到游戏解说内容，等等。

然后，对这些文本材料进行清洗、纠错，比如，去除游戏解说内容中的错别字、乱码、符号、占位符等。

再对这些文本材料按照解说的类型、场景等条件进行分类。

比如，将这些文本数据分类为电子游戏赛事直播类解说文本、游戏主播类解说文本、游戏攻略类解说文本、游戏教程类解说文本、日常生活类解说文本，等等。

然后，为这些分类后的文本材料标注其解说类型。

再将分好类的文本材料按照段落内容进行第一次分词处理，拆分出两种文本段落，分别为事件文本和概括文本；然后，再按照语句内容对事件文本进行第二次分词处理，得到事件描述语句、事件解读语句。

其中，事件文本中事件描述语句为直接、具体描述游戏的文字内容，与事件强相关，具有完整、正式的语法结构。比如，当出现游戏事件“击杀”时，赛事直播解说的事件文本可以为“大意的敌方玩家被骁勇善战的射日神弓射杀了”。

其中，事件文本中事件解读语句为用于表达语气，概括游戏事件的文字内容，相对与事件描述语句，事件解读语句与事件弱相关，其通常具备口语化、多样化的特点，可以包括一定数量的语气词，不一定存在完整的语法结构，且语法结构多变。比如，当出现游戏事件“击杀”时，赛事直播解说的事件文本可以为“精准的十环，完成多杀！”。

具体地，事件描述语句和事件解读语句可以共同构成一个完整的事件文本，该事件文本为描述赛事直播视频中某一小段时间内发生的特定的游戏事件的文字内容。比如，当出现游戏事件“击杀”时，赛事直播解说的事件文本可以为“大意的敌方玩家被骁勇善战的射日神弓射杀了，精准的十环，完成多杀！”。

其中，其中，概括文本为概括赛事直播视频中较长一段时间内发生的游戏事件的文字内容，可以用于承启上下文、丰富解说内容，当赛事直播视频中出现了长时间无游戏事件发生时，概括文本也可以用于填充解说空白。比如，当出现游戏事件“击杀”时，赛事直播解说的概括文本可以为“大比分分差悬殊，敌方玩家只能寻找翻盘机会”。

分词方式具有多种，比如，可以通过人工进行两次分词处理，也可以按照语言学的文法规则结合自然语言处理技术(Natural Language Processing，NPL)进行两次分词，等等。

最后，按照分词类型对分词处理得到的训练样本进行进一步地标注。

202、根据得到训练样本训练第一文本模型、第二文本模型，以及生成预设的语法集合。

(1)训练预设的语法集合。

首先，可以将属于赛事直播解说类型、标注为事件文本的训练样本还原为训练语法树作为训练材料，采用该训练语法树来训练预设的语法集合。

其中，该训练语法树的结构可以参考图2b，包括客体形容词结点、客体名称结点、介词结点、主体形容词结点、主体名称结点、动词结点、动词形容结点以及解读文本节点，等等。

在本实施例中，可以采用PCFG语法生成预设的语法集合，首先获取预设的PCFG模型作为初始语法，根据该预设的PCFG模型构建预设的候选树，并对该预设候选树进行概率计算，得到每个预选候选树的匹配概率，最后根据该匹配概率与训练样本的标注进行对比，计算损失函数，重复该过程直到收敛。

即，基于标注后的关键语句训练初始语法，直至初始语法收敛，得到预设语法，该预设语法为赛事直播解说类型的预设语法。

除此之外，还可以将属于其它类型、标注为事件文本的训练样本还原为训练语法树作为训练材料，采用该训练语法树来训练训练初始语法，直至初始语法收敛，得到预设语法，该预设语法为其它类型的预设语法。

比如，将属于其它类型、标注为事件文本的训练样本还原为训练语法树作为训练材料，采用该训练语法树来训练训练初始语法，直至初始语法收敛，得到预设语法，该预设语法为其它类型的预设语法。

例如，将属于游戏主播类解说文本、游戏攻略类解说文本、游戏教程类解说文本、日常生活类解说文本且标注为事件文本的训练样本还原为训练语法树作为训练材料，采用该训练语法树来训练训练初始语法，直至初始语法收敛，得到预设语法，该预设语法为游戏主播类解说类型、游戏攻略类解说类型、游戏教程类解说类型、日常生活类解说类型的预设语法。

具体地，本方案可以采用内外算法(Inside-Outside algorithm)以及最大期望算法(Expectation-Maximization algorithm，EM)进行概率计算来训练预设的语法集合，其定义如下：

内外算法中Inside概率是指以A为根结点，文本为x{i：j}的所有可能的候选树的概率和，其中，Inside概率α(A，i，j)定义如下：

其中，A-BC指以A为根结点、B和C均为A的子结点的部分树结构，i为B出现的概率，j为C出现的概率。

outside是指某一结点下包括A子节点的概率β(A，i，j)，如下：

其中，候选树的匹配概率为Z_s＝α(S，1，N)，其中包含特定语法A-BC的候选树的概率和u(A-BC，i，k，j)为：

存在非叶子结点A，且生成文本为x{i：j}的候选树的概率和u(A，i，j)为：

μ(A,i,j)＝α(A,i,j)β(A,i,j)

对于最大期望算法，是指基于前文生成后续词所属的概率分布。EM算法可以是基于统计进行建模，也可以是通过神经网络学习特化的条件分布。

比如，在本实施例中，EM算法可以采用神经网络学习的方法，具体地，结合内外算法以及最大期望算法进行概率计算的方法如下：

候选树中出现结点A-BC且生成文本为x{i：j}的概率P(A-BC)定义如下：

在满足归一化条件下，本方案可以随机初始化该概率P。

对于所有的描述文本，结点A-BC的个数count(A-BC)定义如下：

满足EM迭代方式的期望最大化公式如下：

在本实施例中需要注意的是，，在通过对匹配概率进行EM求解来训练预定义的语法时，不需要对事件描述语句中的主体名称节点、客体名称节点以及事件解读语句节点进行训练。

语法训练完成后，将获得的预设语法加入预设的语法集合。

(2)训练第一文本模型和训练第二文本模型。

采用标注为事件解读语句的训练样本训练初始的第一文本模型，得到第一文本模型；采用标注为概括文本的训练样本训练初始的第二文本模型，得到第二文本模型。

参考图1d所示的第一文本模型和图1e所示的第二文本模型，其中，第一文本模型和第二文本模型均可以包括编码端和解码端，编码端均可以为双向时间循环神经网络，解码端均可以为多种语言网络模型。

比如，编码端可以为LSTM网络、Bi-LSTM网络，等等。

比如，解码端可以为GPT网络、GPT-2网络、ELMO网络(一种语言网络模型)、BERT网络(一种语言网络模型)，等等。

在本实施例中，可以采用任意的模型训练方式进行训练。

203、在电子游戏赛事直播时，根据游戏赛事直播视频进行图像识别，来确定游戏赛事直播视频中当前发生的游戏事件。

比如，在本实施例中，可以采用预设的图像识别模型来对游戏赛事直播视频进行图像识别。

在一些实施例中，还可以在游戏赛事直播的过程中，通过网络从游戏服务器中获取该游戏赛事直播中对应的该局游戏的游戏信息，从而确定游戏赛事直播中当前发生的游戏事件。

204、每当识别出电子游戏赛事直播发生了虚拟事件时，获取赛事直播视频中当前时刻所发生虚拟事件的事件信息，以及历史时刻所发生历史虚拟事件的历史记录信息，并采用预设的语法集合来基于事件信息生成虚拟事件的事件描述语句、采用第一文本模型来基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句，最后根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本，并在电子游戏赛事直播视频中显示该事件文本。

其中，事件信息可以为电子游戏赛事直播视频中当前游戏赛事的游戏事件的具体信息，比如，此次游戏事件的发生原因信息、事件类型信息、事件主体信息、事件客体信息，等等。例如，游戏事件“击杀”的事件信息可以包括击杀主体角色名称、被击杀客体角色名称、击杀技能名称、击杀时间、事件类别“草丛阴人”，等等。

其中，历史记录信息可以为电子游戏赛事直播视频中在当前时刻之前的历史时刻或者历史时段中所发生的游戏事件记录，比如，游戏比分信息、玩家属性信息、游戏时间信息，等等。例如，从游戏开始至当前时刻，游戏玩家的属性信息、击杀次数信息、助攻次数信息、死亡次数信息，等等。

在本实施例中，可以采用预设的语法集合来基于事件信息生成虚拟事件的事件描述语句、采用第一文本模型来基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句，最后根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本，并在电子游戏赛事直播视频中显示该事件文本。

比如，参考图2c，预设的语法集合中包括赛事解说类语法、主播解说类语法、虚拟角色解说类语法，事件信息中可以包括该游戏事件所属的类别信息，假设该游戏事件属于赛事类别，则可以采用虚拟角色解说语法来根据赛事解说语法构建语法树。

在一些实施例中，预设语法中包括多个预设子语法，即本实施例中可以在多个赛事解说类语法中随机选取一个赛事解说子语法，根据该选取的赛事解说语法构建语法树。

比如，预设的语法集合中包括3类语法，分别为赛事解说类语法、主播解说类语法、虚拟角色解说类语法。根据事件信息中该游戏事件所属的类别信息，将赛事解说类语法确定为待采用的语法，该赛事解说类语法中包括多个赛事解说子语法，在这些赛事解说子语法中随机选取一个子语法来构建语法树，该语法树中可以搭载该虚拟事件的事件描述语句。

例如，该事件描述语句可以为：“天真的敌方英雄被聪明的小妲己阴死了”。

然后，采用第一文本模型对事件信息进行事件解读处理，得到游戏事件的事件解读语句。

例如，该事件解读语句可以为：“完完全全的战术性胜利，翻盘有望！”。

然后，参考图2c，将该事件描述语句和事件解读语句填充语法树中对应的叶子结点，得到填充后的语法树，以及根据填充后的语法树生成游戏事件的事件文本。

例如，该事件文本可以为：“天真的敌方英雄被聪明的小妲己阴死了，完完全全的战术性胜利，翻盘有望！”。

具体该事件文本生成步骤细节可以参考步骤104和步骤105，在此不做赘述。

最后，在赛事直播的视频中添加该事件文本的字幕。

比如，参考图2d，可以在赛事直播的视频的底部添加该事件文本的字幕“天真的敌方英雄被聪明的小妲己阴死了，完完全全的战术性胜利，翻盘有望”。

205、每当电子游戏赛事直播中距离上一次发生虚拟事件已经超过15秒时，采用第二文本模型来基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本，并在电子游戏赛事直播视频中显示该概括文本。

比如，距离上一次游戏事件已过15秒还未发生游戏事件时，本实施例可以获取赛事直播的历史记录信息，比如，KDA(击杀、死亡、助攻数)信息、玩家等级信息、比赛比分信息、游戏时间信息、历史游戏事件信息，等等。

本实施例可以采用第二文本模型来基于历史记录信息中的KDA信息、玩家等级信息、比赛比分信息、游戏时间信息、历史游戏事件信息等对目标视频中当前时刻至上一次特定的游戏事件之间所发生的游戏事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。

也可以对目标视频中当前时刻前15秒内所发生的游戏事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。

比如，可以每过15秒从游戏服务器中拉取一次此次赛事直播对应游戏赛局的历史记录信息，并根据该历史记录信息生成概括文本：“大比分分差悬殊，全靠我方角色A扛大梁，下一个对手在哪里？”。

最后，参考图2e，可以将该概括文本“大比分分差悬殊，全靠我方角色A扛大梁，下一个对手在哪里？”以字幕的形式显示在赛事直播视频中。

具体步骤细节可以参考步骤105，在此不做赘述。

由上可知，本方案可以获取文本材料数据，并对文本材料进行数据预处理，得到训练样本；根据得到训练样本训练第一文本模型、第二文本模型，以及生成预设的语法集合；在电子游戏赛事直播时，根据游戏赛事直播视频进行图像识别，来确定游戏赛事直播视频中当前发生的游戏事件；每当识别出电子游戏赛事直播发生了虚拟事件时，获取赛事直播视频中当前时刻所发生虚拟事件的事件信息，以及历史时刻所发生历史虚拟事件的历史记录信息，并采用预设的语法集合来基于事件信息生成虚拟事件的事件描述语句、采用第一文本模型来基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句，最后根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本，并在电子游戏赛事直播视频中显示该事件文本；每当电子游戏赛事直播中距离上一次发生虚拟事件已经超过15秒时，采用第二文本模型来基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本，并在电子游戏赛事直播视频中显示该概括文本。

本方案可以为为视频提供文字解说，用于丰富视频内容、生成解说材料等等，节省了人力创作的人工成本，相比于传统方法生成文本的不准确、重复单一的问题，本方案提供了一种丰富准确、自动高效的文本生成方法，所生成的文本可以通顺准确地描述、概括特定的虚拟事件、虚拟角色，该文本的语法、格式、用词丰富多变，由此，本方案可以提升文本生成方法所生成文本的多样性。

为了更好地实施以上方法，本发明实施例还提供一种文本生成装置，其中，该文本生成装置具体可以集成服务器中，该服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

例如，如图3所示，该文本生成装置可以包括获取单元301、事件单元302、概括单元303以及视频文本单元304，如下：

(一)获取单元301。

获取单元301可以用于获取目标视频中所发生虚拟事件的事件信息，以及所述目标视频中所发生历史虚拟事件的历史记录信息。

(二)事件单元302。

事件单元302可以用于基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本。

在一些实施例中，事件单元302可以包括描述子单元、解读子单元以及事件子单元，如下：

(1)描述子单元。

描述子单元可以用于基于事件信息生成虚拟事件的事件描述语句。

其中，描述子单元可以包括语法子模块以及语法树子模块，如下：

1A、语法子模块。

语法子模块可以用于基于事件信息在预设语法集合中确定目标语法。

在一些实施例中，预设语法集合中可以包括多个预设语法，语法子模块在用于基于事件信息在预设语法集合中确定目标语法之前，具体还可以用于执行以下步骤：

对关键语句进行标注处理，得到标注后的关键语句；

1B、语法树子模块。

语法树子模块可以用于根据目标语法构建搭载了事件描述语句的语法树。

在一些实施例中，语法树子模块具体可以用于：

获取预设匹配概率范围；

根据目标语法构建多个建搭载了事件描述语句的候选树；

(2)解读子单元。

解读子单元可以用于基于事件信息和历史记录信息对虚拟事件进行事件解读处理，得到虚拟事件的事件解读语句。

在一些实施例中，解读子单元可以包括第一模型子模块、第一编码子模块以及第一解码子模块，如下：

2A、第一模型子模块。

第一模型子模块可以用于获取第一文本模型，其中，第一文本模型由第一训练样本训练而成，包括第一编码端和第一解码端。

2B、第一编码子模块。

第一编码子模块可以用于基于第一编码端对事件信息和历史记录信息进行编码处理，得到第一语义向量。

其中，事件信息可以包括虚拟事件的多个第一事件特征信息，第一编码端可以为双向时间循环神经网络，包括第一特征提取子网络和第一向量融合子网络。

在一些实施例中，第一编码子模块具体可以用于：

基于第一编码端对事件信息和历史记录信息事件信息进行编码处理，得到第一语义向量，包括：

2C、第一解码子模块。

可以用于基于第一解码端对第一语义向量进行解码处理，得到虚拟事件的事件解读语句。

在一些实施例中，第一解码子模块可以用于：

获取第一阈值范围；

基于第一解码端计算第一语义向量对应的所有文本的概率；

(3)事件子单元。

事件子单元可以用于根据事件描述语句和事件解读语句生成目标视频中虚拟事件的事件文本。

在一些实施例中，事件子单元可以包括填充子模块和事件子模块，如下：

3A、填充子模块。

填充子模块可以用于基于事件解读语句对搭载了事件描述语句的语法树进行树节点填充操作，得到填充后的语法树。

3B、事件子模块。

事件子模块可以用于根据填充后的语法树生成目标视频中虚拟事件的事件文本。

在一些实施例中，事件单元302在用于基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本之后，还可以用于：

在目标视频中显示事件文本。

(三)概括单元303。

概括单元303可以用于基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本。

在一些实施例中，概括单元303可以包括第二模型子模块、第二编码子模块、融合子模块以及第二解码子模块，如下：

(1)第二模型子模块。

可以用于获取第二文本模型，第二文本模型由第二训练样本训练而成，包括第二编码端和第二解码端，第二编码端包括多个第二子编码端。

(2)第二编码子模块。

可以用于基于第二子编码端对历史记录信息进行编码处理，得到待融合的第二语义子向量。

其中，事件信息可以包括虚拟事件的多个第二事件特征信息，第二编码端可以为双向时间循环神经网络，包括第二特征提取子网络和第二向量融合子网络。

在一些实施例中，第二编码子模块具体可以用于：

确定上一时刻每个第二事件特征信息对应的第二事件特征向量，以及下一时刻每个第二事件特征信息对应的第二事件特征向量；

(3)融合子模块。

可以用于对待融合的第二语义子向量、上一个第二子编码端输出的待融合第二语义子向量和下一个第二子编码端输出的待融合第二语义子向量进行向量融合，得到第二语义向量。

(4)第二解码子模块。

第二解码子模块第二解码子模块可以用于基于第二解码端对第二语义向量进行解码处理，得到目标视频中历史虚拟事件的概括文本。

在一些实施例中，第二解码子模块具体可以用于：

获取第二阈值范围；

在一些实施例中，概括单元303在用于基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本之后，还可以用于：

(四)视频文本单元304。

视频文本单元304可以用于生成目标视频的视频文本，该视频文本包括事件文本和概括文本。

具体实施时，以上各个单元可以作为独立的实体来实现，也可以进行任意组合，作为同一或若干个实体来实现，以上各个单元的具体实施可参见前面的方法实施例，在此不再赘述。

由上可知，本实施例的文本生成装置由获取单元获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；由事件单元基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本；由概括单元基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本；由视频文本单元生成目标视频的视频文本，该视频文本包括事件文本和概括文本。由此，本方案可以提升文本生成方法所生成文本的多样性。

本发明实施例还提供一种服务器，该服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群，等等。

在一些实施例中，该文本生成装置具体可以集成服务器中，该服务器可以是单一服务器，也可以是由多个服务器组成的服务器集群。

在本实施例中，将以本实施例的电子设备是服务器为例进行详细描述，比如，如图4所示，其示出了本发明实施例所涉及的服务器的结构示意图，具体来讲：

该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403、输入模块404以及通信模块405等部件。本领域技术人员可以理解，图4中示出的服务器结构并不构成对服务器的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

处理器401是该服务器的控制中心，利用各种接口和线路连接整个服务器的各个部分，通过运行或执行存储在存储器402内的软件程序和/或模块，以及调用存储在存储器402内的数据，执行服务器的各种功能和处理数据，从而对服务器进行整体监控。在一些实施例中，处理器401可包括一个或多个处理核心；在一些实施例中，处理器401可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器401中。

存储器402可用于存储软件程序以及模块，处理器401通过运行存储在存储器402的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据服务器的使用所创建的数据等。此外，存储器402可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器402还可以包括存储器控制器，以提供处理器401对存储器402的访问。

服务器还包括给各个部件供电的电源403，在一些实施例中，电源403可以通过电源管理系统与处理器401逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

该服务器还可包括输入模块404，该输入模块404可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。

该服务器还可包括通信模块405，在一些实施例中通信模块405可以包括无线模块，服务器可以通过该通信模块405的无线模块进行短距离无线传输，从而为用户提供了无线的宽带互联网访问。比如，该通信模块405可以用于帮助用户收发电子邮件、浏览网页和访问流式媒体等。

尽管未示出，服务器还可以包括显示单元等，在此不再赘述。具体在本实施例中，服务器中的处理器401会按照如下的指令，将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中，并由处理器401来运行存储在存储器402中的应用程序，从而实现各种功能，如下：

获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；

基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本；

基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本；

生成目标视频的视频文本，视频文本包括事件文本和概括文本。

以上各个操作的具体实施可参见前面的实施例，在此不再赘述。

由上可知，本方案可以提升文本生成方法所生成文本的多样性。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本发明实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本发明实施例所提供的任一种文本生成方法中的步骤。例如，该指令可以执行如下步骤：

其中，该存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该存储介质中所存储的指令，可以执行本发明实施例所提供的任一种文本生成方法中的步骤，因此，可以实现本发明实施例所提供的任一种文本生成方法所能实现的有益效果，详见前面的实施例，在此不再赘述。

以上对本发明实施例所提供的一种文本生成方法、装置、终端和计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种文本生成方法，其特征在于，包括：

基于所述事件信息和历史记录信息对所述虚拟事件进行事件描述处理，得到所述虚拟事件对应的事件文本；

基于所述历史记录信息对所述目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到所述目标视频中历史虚拟事件的概括文本；

生成所述目标视频的视频文本，所述视频文本包括事件文本和概括文本。

2.如权利要求1所述的文本生成方法，其特征在于，基于所述事件信息和历史记录信息对所述虚拟事件进行事件描述处理，得到所述虚拟事件对应的事件文本，包括：

基于所述事件信息生成所述虚拟事件的事件描述语句；

根据所述事件描述语句和所述事件解读语句生成所述目标视频中虚拟事件的事件文本。

3.如权利要求2所述的文本生成方法，其特征在于，基于所述事件信息生成所述虚拟事件的事件描述语句，包括：

基于所述事件信息在预设语法集合中确定目标语法；

根据目标语法构建搭载了事件描述语句的语法树；

所述根据所述事件描述语句和所述事件解读语句生成所述目标视频中虚拟事件的事件文本，包括：

基于所述事件解读语句对所述搭载了事件描述语句的语法树进行树节点填充操作，得到填充后的语法树；

根据所述填充后的语法树生成所述目标视频中虚拟事件的事件文本。

4.如权利要求3所述的文本生成方法，其特征在于，所述预设语法集合中包括多个预设语法，基于所述事件信息在预设语法集合中确定目标语法之前，还包括：

获取初始语法以及训练文本集合，所述训练文本集合中包括多个训练文本；

对所述训练文本进行分词处理，得到所述训练文本对应的多个关键语句；

对所述关键语句进行标注处理，得到标注后的关键语句；

基于所述标注后的关键语句训练所述初始语法，直至所述初始语法收敛，得到预设语法。

5.如权利要求3所述的文本生成方法，其特征在于，根据目标语法构建搭载了事件描述语句的语法树，包括：

获取预设匹配概率范围；

根据所述目标语法构建多个建搭载了事件描述语句的候选树；

对所述候选语法树进行匹配概率计算，得到每个候选树的匹配概率；

在属于所述预设匹配概率范围内的候选树中选定一个候选树作为语法树。

6.如权利要求2所述的文本生成方法，其特征在于，基于所述事件信息和所述历史记录信息对所述虚拟事件进行事件解读处理，得到所述虚拟事件的事件解读语句，包括：

获取第一文本模型，所述第一文本模型由第一训练样本训练而成，包括第一编码端和第一解码端；

基于所述第一编码端对所述事件信息和所述历史记录信息进行编码处理，得到第一语义向量；

基于所述第一解码端对所述第一语义向量进行解码处理，得到所述虚拟事件的事件解读语句。

7.如权利要求6所述的文本生成方法，其特征在于，所述事件信息包括所述虚拟事件的多个第一事件特征信息，所述第一编码端为双向时间循环神经网络，包括第一特征提取子网络和第一向量融合子网络；

基于所述第一编码端对所述事件信息和所述历史记录信息事件信息进行编码处理，得到第一语义向量，包括：

采用所述第一特征提取子网络，根据所述上一时刻第一事件特征信息对应的第一事件特征向量、下一时刻第一事件特征信息对应的第一事件特征向量以及第一事件特征信息确定当前时刻每个第一事件特征信息对应的第一事件特征向量；

采用第一向量融合子网络对所述当前时刻每个第一事件特征信息对应的第一事件特征向量进行向量融合，得到第一语义向量。

8.如权利要求6所述的文本生成方法，其特征在于，基于所述第一解码端对所述第一语义向量进行解码处理，得到所述虚拟事件的解读文本，包括：

获取第一阈值范围；

基于所述第一解码端计算所述第一语义向量对应的所有文本的概率；

将所述概率符合所述第一阈值范围的第一文本确定为候选第一文本，并随机选取一个候选第一文本作为所述虚拟事件的解读文本。

9.如权利要求1所述的文本生成方法，其特征在于，基于所述历史记录信息对所述目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到所述目标视频中历史虚拟事件的概括文本，包括：

获取第二文本模型，所述第二文本模型由第二训练样本训练而成，包括第二编码端和第二解码端，所述第二编码端包括多个第二子编码端；

基于所述第二子编码端对所述历史记录信息进行编码处理，得到待融合的第二语义子向量；

对所述待融合的第二语义子向量、上一个第二子编码端输出的待融合第二语义子向量和下一个第二子编码端输出的待融合第二语义子向量进行向量融合，得到第二语义向量；

基于所述第二解码端对所述第二语义向量进行解码处理，得到所述目标视频中历史虚拟事件的概括文本。

10.如权利要求9所述的文本生成方法，其特征在于，基于所述第二解码端对所述第二语义向量进行解码处理，得到所述目标视频中历史虚拟事件的概括文本，包括：

获取第二阈值范围；

基于所述第二解码端计算所述当前第二语义向量对应的所有文本的概率；

将所述概率符合所述第二阈值范围的文本确定为候选第二文本，并随机选取一个候选第二文本作为所述目标视频中历史虚拟事件的概括文本。

11.如权利要求1所述的文本生成方法，其特征在于，基于所述事件信息和历史记录信息对所述虚拟事件进行事件描述处理，得到所述虚拟事件对应的事件文本之后，还包括：

在所述目标视频中显示所述事件文本。

12.如权利要求1所述的文本生成方法，其特征在于，基于所述历史记录信息对所述目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到所述目标视频中历史虚拟事件的概括文本之后，还包括：

当所述目标视频在预设时间范围内未发生虚拟事件时，在所述目标视频中显示所述概括文本。

13.一种文本生成装置，其特征在于，包括：

获取单元，用于获取目标视频中所发生虚拟事件的事件信息，以及目标视频中所发生历史虚拟事件的历史记录信息；

事件单元，用于基于事件信息和历史记录信息对虚拟事件进行事件描述处理，得到虚拟事件对应的事件文本；

概括单元，用于基于历史记录信息对目标视频中一段时间内所发生的虚拟事件进行事件概括处理，得到目标视频中历史虚拟事件的概括文本；

视频文本单元，用于生成目标视频的视频文本，该视频文本包括事件文本和概括文本。

14.一种服务器，其特征在于，包括处理器和存储器，所述存储器存储有多条指令；所述处理器从所述存储器中加载指令，以执行如权利要求1～12任一项所述的文本生成方法中的步骤。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1～12任一项所述的文本生成方法中的步骤。