CN112015890A

CN112015890A - 电影剧本摘要的生成方法和装置

Info

Publication number: CN112015890A
Application number: CN202010928786.9A
Authority: CN
Inventors: 胡中强; 张伟文; 张鸿彬; 王德培; 程良伦
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-09-07
Filing date: 2020-09-07
Publication date: 2020-12-01
Anticipated expiration: 2040-09-07
Also published as: CN112015890B

Abstract

本发明提供了一种电影剧本摘要的生成方法和装置，方法包括：获取待分析的电影剧本和情节关键字；对待分析的电影剧本进行分析得到初始三元组；采用图卷积神经网络对初始三元组建立图结构；获取结点的特征向量根据特征向量计算各结点的重要性值；根据各重要性值从初始三元组筛选出第一重要三元组；将情节关键字与初始三元组进行文本匹配筛选出第二重要三元组；将第一重要三元组和第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；将最终重要三元组输入至预先训练的神经规划器，得到文本规划；根据文本规划生成引用表达式；将引用表达式输入至神经翻译系统，得到电影剧本摘要。该方法能提高摘要生成的可靠性并且生成速度快。

Description

电影剧本摘要的生成方法和装置

技术领域

本发明涉及数据处理技术领域，具体涉及一种电影剧本摘要的生成方法、装置、计算机设备和计算机可读存储介质。

背景技术

随着互联网技术和数字技术地快速发展，以及人们生活需求不断提高，我国电影行业的发展迅速观影需求持续扩大。但目前对于大部分用户而言，了解电影信息的途径还是通过搜索引擎和专业电影网站，然而互联网中具有海量的文本信息数据，用户需要花费较长的时间去阅读和筛选文本，难以快速准确地了解电影相关信息或剧情。文本摘要生成就显得尤为重要。目前文本摘要生成通常是自动文本摘要生成。自动文本摘要生成就是对一个输入文本进行语义理解分析处理后生成信息完整并具有高度概括性的摘要文本，一般按生成方式可分为抽取式摘要生成和生成式摘要生成。

然而电影剧本其文字描述是按照电影的表现手法进行的，包含场景、环境、人物形象、动作、说白以及大量的人物对话等，并且是以镜头为单位衔接成整体。这种独特文学艺术特性，使得传统端到端的文本摘要技术并不能准确概括所有信息，生成的文本也缺乏流畅性和整体性。

发明内容

有鉴于此，本发明提供了一种电影剧本摘要的生成方法、计算机设备和计算机可读存储介质，以克服现有的自动文本摘要生成方法不能准确概况所有信息且文本缺乏流畅性和整体性的问题。

为实现上述目的，本发明提供如下技术方案：

本发明实施例提供了一种电影剧本摘要的生成方法，包括以下步骤：

获取待分析的电影剧本以及从网站中获取所述待分析的电影剧本的情节关键字；

对所述待分析的电影剧本进行依存分析，得到初始三元组；

采用图卷积神经网络对所述初始三元组建立图结构；

对所述图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据所述特征向量计算各结点的重要性值；

根据各所述重要性值从所述初始三元组筛选出第一重要三元组；

将所述情节关键字与所述初始三元组进行文本匹配，筛选出第二重要三元组；

将所述第一重要三元组和所述第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；

将所述最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，所述预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；

根据所述文本规划生成引用表达式；

将所述引用表达式输入至神经翻译系统，得到电影剧本摘要。

可选地，

对所述图结构中的结点采用全局图编码方法和局部图编码方法来获取各结点的特征向量的步骤中，包括：

分别采用全局图编码方法和局部图编码方法来获取每个结点的全局特征向量和局部特征向量；

对每个结点的所述全局特征向量和所述局部特征向量进行合并，得到各结点的特征向量。

可选地，

在根据所述特征向量计算各结点的重要性值的步骤中，包括：

采用特征向量中心算法来计算各结点的重要性值。

可选地，

根据各所述重要性值从所述初始三元组筛选出第一重要三元组的步骤中，包括：

根据所述重要性值从大到小顺序对各结点进行排序；

根据排序结果筛选出预设比例的结点作为重要结点，其中所述重要结点对应的初始三元组为第一重要三元组。

可选地，

将所述情节关键字与所述初始三元组进行文本匹配，筛选出第二重要三元组的步骤中，包括：

采用Word2Vec方式将所述初始三元组中的实体转换成低纬词向量；

采用余弦度计算法对所述低纬词向量和所述情节关键字进行实体对齐；

根据余弦度计算结果筛选第二重要三元组。

可选地，

所述预先训练的神经规划器通过以下步骤得到：

对WebNLG数据集中的每个三元组和每个引用文本数据进行处理，标出每个文本规划；

将每个所述三元组、所述引用文本和所述文本规划输入所述神经规划器，并采用深度学习方法对所述神经规划器进行训练，得到预先训练的神经规划器。

可选地，

所述引用表达式包括最佳语言模型得分的引用表达式；根据所述文本规划生成引用表达式的步骤中，包括：

采用Bert对所述文本规划的每个实体进行上下文组合，得到最佳语言模型得分的引用表达式。

本发明实施例提供了一种电影剧本摘要的生成装置，包括：

信息获取模块，用于获取待分析的电影剧本以及从网站中获取所述待分析的电影剧本的情节关键字；

初始三元组获得模块，用于对所述待分析的电影剧本进行依存分析，得到初始三元组；

图结构建立模块，用于采用图卷积神经网络对所述初始三元组建立图结构；

重要性值计算模块，用于对所述图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据所述特征向量计算各结点的重要性值；

第一重要三元组筛选模块，用于根据各所述重要性值从所述初始三元组筛选出第一重要三元组；

第二重要三元组筛选模块，用于将所述情节关键字与所述初始三元组进行文本匹配，筛选出第二重要三元组；

重要三元组形成模块，用于将所述第一重要三元组和所述第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；

文本规划得到模块，用于将所述最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，所述预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；

引用表达式生成模块，用于根据所述文本规划生成引用表达式；

摘要生成模块，用于将所述引用表达式输入至神经翻译系统，得到电影剧本摘要。

本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现以下步骤:

对所述待分析的电影剧本进行依存分析，得到初始三元组；

采用图卷积神经网络对所述初始三元组建立图结构；

根据所述文本规划生成引用表达式；

本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现以下步骤:

对所述待分析的电影剧本进行依存分析，得到初始三元组；

采用图卷积神经网络对所述初始三元组建立图结构；

根据所述文本规划生成引用表达式；

本发明实施例中的电影剧本摘要的生成方法、装置、计算机设备和计算机可读存储介质，首先获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字，对待分析的电影剧本进行依存分析得到初始三元组，采用图卷积神经网络对初始三元组建立图结构，对图结构进行分析得到结点的重要性值，然后根据重要性值从初始三元组中筛选出第一重要三元组；根据情节关键字和初始三元组进行文本匹配，找出第二重要三元组；删除第一和第二重要三元组中重复的三元组形成最终重要三元组，将最终重要三元组输入到预先训练的神经规划器，得到文本规划，根据文本规划生成引用表达式，将引用表达式输入神经翻译系统就可得到电影剧本摘要。上述的电影剧本摘要的生成方法通过对电影剧本、情节关键字等进行分析，并采用神经规划器以及神经翻译系统等能提高摘要生成的可靠性并且生成速度快。另外，该方法另外能有效克服电影剧本这种文本格式难处理的问题。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例中电影剧本摘要的生成方法流程示意图；

图2为本发明实施例中筛选第二重要三元组流程示意图；

图3为本发明实施例中文本规划和引用表达式示意图；

图4为本发明实施例中电影剧本摘要的生成方法流程示意图；

图5为本发明实施例中情节关键字词实体对齐方法流程示意图；

图6为本发明实施例电影剧本摘要的生成装置结构示意图；

图7为本发明实施例中计算机设备的结构示意图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了更详细说明本发明，下面结合附图对本发明提供的一种电影剧本摘要的生成方法、计算机设备和计算机可读存储介质，进行具体地描述。

本方法运用于终端中，终端可以是个人计算机、笔记本电脑等。

在一个实施例中，如图1所示，提供了一种电影剧本摘要的生成方法，以该方法应用于图1中的终端为例进行说明，包括以下步骤：

步骤S102，获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字；

其中，所述待分析的电影剧本是指需要生成摘要的任意一个电影剧本。情节关键字(plot keywords)是指待分析的电影剧本中与电影情节密切相关的一些关键字，在获取情节关键字是可以采用分布式爬虫的方式从IMDB网站(Internet Movie Database，即互联网电影资料库)获取。IMDB网站是目前全球互联网中最大的一个电影资料库，里面包括了几乎所有的电影以及1982年以后的电视剧集。IMDB网站对每个影片都有情节关键字等信息相关描述，并且在情节关键字中出现的实体或事件等信息都是与电影相关的重要情节。

步骤S104，对待分析的电影剧本进行依存分析，得到初始三元组；

其中，对待分析的电影剧本进行依存分析，得到电影剧本的主语谓语宾语状语等，其中主谓宾提取出来，得到初始三元组(即候选知识三元组)。初始三元组包括实体、关系和实体，对应于句子的主谓宾。

步骤S106，采用图卷积神经网络对初始三元组建立图结构；

图卷积神经网络(Graph Convolutional Network，GCN)，是一种强大是神经网络，类似于卷积神经网络CNN，但与之不同的是GCN的运用对象是图数据，并研究从图数据中提取特征。GCN模型具备深度学习的三种性质：层级结构(特征一层一层抽取，一层比一层更抽象，更高级)、非线性变换(增加模型的表达能力)以及端对端训练(不需要再去定义任何规则，只需要给图的节点一个标记，让模型自己学习，融合特征信息和结构信息)。尤其在知识图谱中结点和结点间的关系连线的图结构十分适合GCN网络，并且可以获取更多的图结构特征信息以及隐藏关系信息。

图结构建立过程为：首先将使用图卷积网络对初始三元组进行图建模形成图结构，其通常表示为G＝(V，E，R)，其中(e₁，e₂)∈v表示初始三元组中的实体信息，(e₁，r，e₂)∈E表示图形的边信息，r∈R表示实体间的关系信息，每个结点v都有其对应的特征向量h_v，其特征向量则由该结点上一层的特征向量和一个聚集向量经过一个结合函数计算得到，结合函数可以认定为将两个向量进行拼接，某结点的邻接结点表示在图中与该结点相邻的结点，聚集向量的计算与当前结点的邻接结点有关，其表示的意义为当前结点的聚集结点的特征，聚集向量的计算公式为：

其中，AGGR⁽ⁱ⁾表示的是该层的聚集函数，里面的相关参数

表示上一层该结点的邻接结点的特征向量，r_vu表示结点与邻接结点之间的关系，

为节点v的所有邻接节点。将得到的聚集向量与上一层该结点的特征向量输入到一个结合函数COMB^(l)中，就能计算更新当前结点的特征向量

其计算公式为：

步骤S108，对图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据特征向量计算各结点的重要性值；

在一个具体的实施例中，对图结构中的结点采用全局图编码方法和局部图编码方法来获取各结点的特征向量的步骤中，包括：

分别采用全局图编码方法和局部图编码方法来获取每个结点的全局特征向量和局部特征向量；对每个结点的全局特征向量和局部特征向量进行合并，得到各结点的特征向量。

在一个具体的实施例中，在根据特征向量计算各结点的重要性值的步骤中，包括：采用特征向量中心算法来计算各结点的重要性值。

具体地，对图结构进行编码一般使用全局图编码方式和局部图编码方式，全局图编码即假设每个结点都与其他结点相连，局部图编码则表示只有一部分结点与其他结点相连。而无论单独使用哪一种，前者会忽略正常的图结构，后者则丢失了全局信息。因此提出全局与局部图编码相结合的方法，分别计算两种状态下的图编码特征向量再进行拼接，这两种编码方式在一定程度上可以实现信息的互补，可以编码更多的图信息。

全局图编码的计算是将其他所有结点视为邻接结点，聚集函数为其他所有结点的特征加权平均，然后再使用多头注意力机制，将各层多个聚集向量拼接起来，得到该结点的聚集向量

计算公式为：

其中，W_q，W_k为多头注意机制中对应的权重参数，W_q为模型参数矩阵，d_z为比例参数，h_u为节点v的邻接节点的特征向量，a_vu为对应的注意权重参数，为聚集向量的具体计算方法，e_vu表示度量节点u的特征对节点v的全局重要性目的在于计算注意力权重参数α_vu和e_vk，k为结点V集合中的点，

表示v结点的聚集向量，N(v)表示结点v的所有邻接结点，右上角的1-k表示GCN网络的层数，K个不同的GCN网络是由多头注意力产生的，

表示第K层GCN输出的结果，将每一层得出的向量进行拼接即得到最后的聚集向量

为每一层聚集向量的具体计算方法。

最后使用层标准化(LayerNorm)和全连接的前馈网络(FFN)作为结合函数对向量进行拼接，更新得到最后的全局图编码结点的特征向量

计算公式为：

其中，

是一个计算过程量，表示当前特征向量与计算所得聚集向量相加的结果，作为层标准化(LayerNorm)函数以及后续的输入是LayerNorm函数计算后输出的结果；h_v为结点v当前的特征向量。

对局部图编码特征向量

进行计算，聚集函数定义为所有其他邻接结点的加权平均，同样使用多头注意拼接多个聚集向量，最后结合函数选择一个递归神经网络RNN，使用一个门控回归单元(GRU)，GRU可以促进局部层之间的信息传播，其计算公式为：

e_vu＝f(a^T[W_rh_v||W_rh_u)

其中，W_r为编码关系的权重矩阵，h_v和h_u表示当前结点和其邻接结点的特征向量，即结点v和结点u的特征向量；a为模型参数，f为激活函数，||表示矩阵的连接，a_vu为注意权重参数。

最后将得到的结点全局和局部特征向量进行拼接得到最终的结点特征向量：

然后为了计算结点的重要性，使用特征向量中心性算法(centralityalgorithm)，该方法用于理解图中特定结点的角色及其对网络的影响EC(i)，并且可以识别重要结点。其基本想法是一个结点的重要性既取决于其邻接结点的数量，也取决于其邻接结点的重要性。用x_i表示该结点的重要性量值，则其计算公式为：

EC(i)＝x_i＝h_v·Ax_u

其中，A为邻接矩阵，x_u表示邻接结点的重要性量值，x_i值越大表示相应的结点在图结构网络中的重要性越大。

步骤S110，根据各重要性值从初始三元组筛选出第一重要三元组；

在一个实施例中，根据各重要性值从初始三元组筛选出第一重要三元组的步骤中，包括：

根据重要性值从大到小顺序对各结点进行排序；根据排序结果筛选出预设比例的结点作为重要结点，其中重要结点对应的初始三元组为第一重要三元组。

具体地，根据重要性值来筛选第一重要三元组；根据重要性值来对各结点进行排序，其中重要性值越大表示该结点越重要；然后根据排序结果筛选出一些重要重点，然后根据重要结点对应的初始三元组记为第一重要三元组。在选择重要结点时可以按照预设比例筛选，例如可以选择20％的结点作为重要结点。此外，预设比例是预先设置的一个比例，这个比例通常是根据实验经验得到的。

步骤S112，将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组；

具体地，根据文本匹配方法，将匹配到情节关键字的实体所在的初始三元组表示为第二重要三元组。

步骤S114，将第一重要三元组和第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；

在本实施例中，将GCN构建图结构对图结构进行分析得到的第一重要三元组和将情节关键字与初始三元组进行文本匹配得到的第二重要三元组进行组合，可以形成重要三元组集，但在形成重要单元集时需要删除重复的三元组。

步骤S116，将最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；

在本实施例中，对输入三元组进行规划，规划包括对事实、实体的排序以及对句子的划分，得到文本规划。其中，文本规划是将最终重要三元组输入至预先训练的神经规划器，则输出结果即可得到文本规划。其中，所述神经规划器为任意一个神经规划器。

WebNLG数据集是WebNLG挑战赛中发布的数据集，该挑战赛中有几种不同的自然语言生成任务其中包括RDF数据到文本生成，数据集中三元组集和其对应的文本为一组数据，涵盖10个DBpedia类别，包含16,095个数据输入和42,873个数据-文本对。数据集中的引用文本实体较易提取，同时我们认为引用文本中实体的顺序即为相应的规划，由此我们通过代码计算实体字符串之间的编辑距离(Levenshtein distance)，并且对实体进行扩充，将一个实体的缩写形式和可能的组合方式全部加以计算，由此匹配到引用文本中的实体，再对实体进行标记后得到其相应的规划。其中数据集中三元组集包括一系列三元组，三元组形式为(实体—关系—实体)，两端为名词，中间是这两个词之间的关系，类似(中国，首都，北京)等。

步骤S118，根据文本规划生成引用表达式；

步骤S120，将引用表达式输入至神经翻译系统，得到电影剧本摘要。

具体而言，根据文本规划生成引用表达式；然后将引用表达式输入至神经翻译系统即可得到电影剧本摘要。其中，神经翻译系统可以是OpenNMT神经翻译系统工具包。

本发明实施例中的电影剧本摘要的生成方法，首先获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字，对待分析的电影剧本进行依存分析得到初始三元组，采用图卷积神经网络对初始三元组建立图结构，对图结构进行分析得到结点的重要性值，然后根据重要性值从初始三元组中筛选出第一重要三元组；根据情节关键字和初始三元组进行文本匹配，找出第二重要三元组；删除第一和第二重要三元组中重复的三元组形成最终重要三元组，将最终重要三元组输入到预先训练的神经规划器，得到文本规划，根据文本规划生成引用表达式，将引用表达式输入神经翻译系统就可得到电影剧本摘要。上述的电影剧本摘要的生成方法通过对电影剧本、情节关键字等进行分析，并采用神经规划器以及神经翻译系统等能提高摘要生成的可靠性并且生成速度快。另外，该方法另外能有效克服电影剧本这种文本格式难处理的问题。

在一个实施例中，如图2所示，将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组的步骤中，包括：

步骤S1122，采用Word2Vec方式将初始三元组中的实体转换成低纬词向量；

步骤S1124，采用余弦度计算法对低纬词向量和情节关键字进行实体对齐；

步骤S1126，根据余弦度计算结果筛选第二重要三元组。

在本实施例中，将情节关键字与初始三元组进行文本匹配时采用实体对其的方法。在进行实体对齐时，采用实体嵌入(Entity embedding)计算嵌入向量之间的相似性的方法进行实体对齐。首先，采用Word2Vec工具将最终重要三元组中的实体转化成低维向量，该模型在海量数据集上进行了大规模的预训练，可以快速且有效地将一个词语表达成向量，并且预训练好的词向量具有词语的聚类功能，因此使用Word2Vec可以直接粗略的计算出实体的同义词，得到候选对齐实体，减少计算量。

由于词向量在低维空间的特征，两个向量间的距离越短，则这两个向量所对应的实体越相似，因此通过计算词向量间的距离，即可以对候选实体进行对齐。对两个嵌入向量进行余弦相似度(Cosine Similarity)计算，计算公式如下：

其中a_i和b_i表示两个实体的嵌入向量，n为向量的维度。在本实施例中，a_i和b_i分别用来表示第i个情节关键字和最终重要三元组的实体。将通过余弦相似度计算与情节关键字进行实体对齐后的候选三元组加入到重要三元组集中，并对重复的三元组进行剔除，进而得到我们所需要的所有重要三元组。

在一个实施例中，预先训练的神经规划器通过以下步骤得到：

将每个三元组、引用文本和文本规划输入神经规划器，并采用深度学习方法对神经规划器进行训练，得到预先训练的神经规划器。

具体而言，首先对WebNLG数据集进行处理，对每组三元组和引用文本数据标出文本规划；处理完成后的数据集包含(三元组、规划、引用文本)，然后将处理后的数据集来训练一个神经文本规划器Neural Planner，得到预先训练的神经规划器；其中该规划器主要模拟对图的遍历过程，在DFS遍历中加入一个随机截断机制，该机制随机对DFS遍历进行中断和节点回跳，神经规划器的目的是对每个截断动作的得分损失进行训练，以此来决定在遍历过程中是否进行截断或回上结点。由此将三元组集输入到训练好的规划器中，在最高得分动作进行截断，生成最佳的文本规划。在文本规划中，两个实体单词之间的连接由关系属性和一个方向箭头组成，用括号表示生成的先后顺序，一个文本规划的样例如图3所示，其中文本规划为图3中的plan。

在一个实施例中，引用表达式包括最佳语言模型得分的引用表达式；根据文本规划生成引用表达式的步骤中，包括：

采用Bert对文本规划的每个实体进行上下文组合，得到最佳语言模型得分的引用表达式。

具体地，使用Bert对文本规划中每个单独提到的实体获取上下文中获得最佳语言模型得分的引用表达式，其引用表达式为图3中的text。

为了便于理解本发明的电影剧本摘要的生成方法，给出一个详细的实施例。一种电影剧本摘要的生成方法包括以下步骤(如图4所示)：现将电影剧本文本输入StanfordNLP工具包抽取知识三元组(即初始三元组)，然后选出重要三元组，其中在选出重要三元组过程中主要采用两种方式，一种为：采用图卷积GCN建模，在采用全局图编码和局部图编码计算图节点特征向量，在读特征向量进行中心性计算得到重要三元组；另一种是访问IMDB网站爬取Plot keyword，采用实体对其方法筛选出重要三元组，其中实体对其方法的具体过程如图5所示；将两种方法中筛选出的重要三元组输入神经规划器得到文本规划plan生成，其中神经规划器是采用三元组集数据训练的；然后采用Bert对文本规划plan进行分析生成引用表达式，将引用表达式输入OpenNMT工具包翻译成流程文本，从而输出电影剧本摘要。

应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

上述本发明公开的实施例中详细描述了一种电影剧本摘要的生成方法，对于本发明公开的上述方法可采用多种形式的设备实现，因此本发明还公开了对应上述方法的电影剧本摘要的生成装置，下面给出具体的实施例进行详细说明。

请参阅附图6，为本发明实施例公开的一种电影剧本摘要的生成装置，主要包括：

信息获取模块602，用于获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字；

初始三元组获得模块604，用于对待分析的电影剧本进行依存分析，得到初始三元组；

图结构建立模块606，用于采用图卷积神经网络对初始三元组建立图结构；

重要性值计算模块608，用于对图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据特征向量计算各结点的重要性值；

第一重要三元组筛选模块610，用于根据各重要性值从初始三元组筛选出第一重要三元组；

第二重要三元组筛选模块612，用于将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组；

重要三元组形成模块614，用于将第一重要三元组和第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；

文本规划得到模块616，用于将最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；

引用表达式生成模块618，用于根据文本规划生成引用表达式；

摘要生成模块620，用于将引用表达式输入至神经翻译系统，得到电影剧本摘要。

在一个实施例中，重要性值计算模块，还用于采用特征向量中心算法来计算各结点的重要性值。

在一个实施例中，第一重要三元组筛选模块包括：

排序模块，用于根据重要性值从大到小顺序对各结点进行排序；

重要结点确定模块，用于根据排序结果筛选出预设比例的结点作为重要结点，其中重要结点对应的初始三元组为第一重要三元组。

在一个实施例中，第二重要三元组筛选模块包括：向量转换模块和实体对其模块；

向量转换模块，用于采用Word2Vec方式将初始三元组中的实体转换成低纬词向量；

实体对其模块，用于采用余弦度计算法对低纬词向量和情节关键字进行实体对齐；

第二重要三元组筛选模块，还用于根据余弦度计算结果筛选第二重要三元组。

在一个实施例中，还包括：

文本规划模块，用于对WebNLG数据集中的每个三元组和每个引用文本数据进行处理，标出每个文本规划；

神经规划器训练模块，用于将每个三元组、引用文本和文本规划输入神经规划器，并采用深度学习方法对神经规划器进行训练，得到预先训练的神经规划器。

在一个实施例中，引用表达式生成模块，还用于采用Bert对文本规划的每个实体进行上下文组合，得到最佳语言模型得分的引用表达式。

关于电影剧本摘要的生成装置的具体限定可以参见上文中对于电影剧本摘要的生成方法的限定，在此不再赘述。上述电影剧本摘要的生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

本发明实施例还提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储电阻等效模型、等效子模型的数据，以及存储执行计算时得到的等效电阻、工作电阻以及接触电阻。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种电影剧本摘要的生成方法。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字；对待分析的电影剧本进行依存分析，得到初始三元组；采用图卷积神经网络对初始三元组建立图结构；对图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据特征向量计算各结点的重要性值；根据各重要性值从初始三元组筛选出第一重要三元组；将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组；将第一重要三元组和第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；将最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；根据文本规划生成引用表达式；将引用表达式输入至神经翻译系统，得到电影剧本摘要。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对图结构中的结点采用全局图编码方法和局部图编码方法来获取各结点的特征向量的步骤中，包括：分别采用全局图编码方法和局部图编码方法来获取每个结点的全局特征向量和局部特征向量；对每个结点的全局特征向量和局部特征向量进行合并，得到各结点的特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：在根据特征向量计算各结点的重要性值的步骤中，包括：采用特征向量中心算法来计算各结点的重要性值。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据各重要性值从初始三元组筛选出第一重要三元组的步骤中，包括：根据重要性值从大到小顺序对各结点进行排序；根据排序结果筛选出预设比例的结点作为重要结点，其中重要结点对应的初始三元组为第一重要三元组。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组的步骤中，包括：采用Word2Vec方式将初始三元组中的实体转换成低纬词向量；采用余弦度计算法对低纬词向量和情节关键字进行实体对齐；根据余弦度计算结果筛选第二重要三元组。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：预先训练的神经规划器通过以下步骤得到：对WebNLG数据集中的每个三元组和每个引用文本数据进行处理，标出每个文本规划；将每个三元组、引用文本和文本规划输入神经规划器，并采用深度学习方法对神经规划器进行训练，得到预先训练的神经规划器。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：引用表达式包括最佳语言模型得分的引用表达式；根据文本规划生成引用表达式的步骤中，包括：采用Bert对文本规划的每个实体进行上下文组合，得到最佳语言模型得分的引用表达式。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：获取待分析的电影剧本以及从网站中获取待分析的电影剧本的情节关键字；对待分析的电影剧本进行依存分析，得到初始三元组；采用图卷积神经网络对初始三元组建立图结构；对图结构中的各结点采用全局图编码方法和局部图编码方法来获取结点的特征向量，并根据特征向量计算各结点的重要性值；根据各重要性值从初始三元组筛选出第一重要三元组；将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组；将第一重要三元组和第二重要三元组进行合并删除重复的三元组，形成最终重要三元组；将最终重要三元组输入至预先训练的神经规划器，得到文本规划；其中，预先训练的神经规划器是采用WebNLG数据集对神经规划器进行训练得到的；根据文本规划生成引用表达式；将引用表达式输入至神经翻译系统，得到电影剧本摘要。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对图结构中的结点采用全局图编码方法和局部图编码方法来获取各结点的特征向量的步骤中，包括：分别采用全局图编码方法和局部图编码方法来获取每个结点的全局特征向量和局部特征向量；对每个结点的全局特征向量和局部特征向量进行合并，得到各结点的特征向量。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：在根据特征向量计算各结点的重要性值的步骤中，包括：采用特征向量中心算法来计算各结点的重要性值。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据各重要性值从初始三元组筛选出第一重要三元组的步骤中，包括：根据重要性值从大到小顺序对各结点进行排序；根据排序结果筛选出预设比例的结点作为重要结点，其中重要结点对应的初始三元组为第一重要三元组。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：将情节关键字与初始三元组进行文本匹配，筛选出第二重要三元组的步骤中，包括：采用Word2Vec方式将初始三元组中的实体转换成低纬词向量；采用余弦度计算法对低纬词向量和情节关键字进行实体对齐；根据余弦度计算结果筛选第二重要三元组。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：预先训练的神经规划器通过以下步骤得到：对WebNLG数据集中的每个三元组和每个引用文本数据进行处理，标出每个文本规划；将每个三元组、引用文本和文本规划输入神经规划器，并采用深度学习方法对神经规划器进行训练，得到预先训练的神经规划器。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：引用表达式包括最佳语言模型得分的引用表达式；根据文本规划生成引用表达式的步骤中，包括：采用Bert对文本规划的每个实体进行上下文组合，得到最佳语言模型得分的引用表达式。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种电影剧本摘要的生成方法，其特征在于，包括以下步骤：

对所述待分析的电影剧本进行依存分析，得到初始三元组；

采用图卷积神经网络对所述初始三元组建立图结构；

根据所述文本规划生成引用表达式；

2.根据权利要求1所述的方法，其特征在于，对所述图结构中的结点采用全局图编码方法和局部图编码方法来获取各结点的特征向量的步骤中，包括：

3.根据权利要求2所述的方法，其特征在于，在根据所述特征向量计算各结点的重要性值的步骤中，包括：

采用特征向量中心算法来计算各结点的重要性值。

4.根据权利要求1所述所述的方法，其特征在于，根据各所述重要性值从所述初始三元组筛选出第一重要三元组的步骤中，包括：

根据所述重要性值从大到小顺序对各结点进行排序；

5.根据权利要求1所述的方法，其特征在于，将所述情节关键字与所述初始三元组进行文本匹配，筛选出第二重要三元组的步骤中，包括：

根据余弦度计算结果筛选第二重要三元组。

6.根据权利要求1-5任一项所述的方法，其特征在于，所述预先训练的神经规划器通过以下步骤得到：

7.根据权利要求6所述的方法，其特征在于，所述引用表达式包括最佳语言模型得分的引用表达式；根据所述文本规划生成引用表达式的步骤中，包括：

8.一种电影剧本摘要的生成装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1-7所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-7所述方法的步骤。