CN110287376A

CN110287376A - 一种基于剧本和字幕分析的抽取重要电影片段的方法

Info

Publication number: CN110287376A
Application number: CN201910500116.4A
Authority: CN
Inventors: 李林峰; 张怡; 席德伟; 艾泽发
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-06-11
Filing date: 2019-06-11
Publication date: 2019-09-27
Anticipated expiration: 2039-06-11
Also published as: CN110287376B

Abstract

本发明公开了一种基于剧本和字幕分析的抽取重要电影片段的方法，步骤1：从电影剧本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据；步骤2：从字幕中抽取出基本要素相关数据包括人物对话和人物对话的起始时间；步骤3：实现将剧本的信息丰富以及获得每个场景的起始时间；步骤4：依据人物相关、地点相关和配角相关将电影的相关场景合并，划分出电影片段；步骤5、6、7、8：分别计算关键词得分、主要人物得分、情感得分和动作得分，步骤9：计算每一个电影片段的重要程度值，取得分较高的作为重要的电影片段。本发明实现了在划分好电影片段的基础上对语义进行更深入的分析。

Description

一种基于剧本和字幕分析的抽取重要电影片段的方法

技术领域

本发明涉及数据处理技术领域，特别涉及一种重要电影片段的抽取方法。

背景技术

电影剧本都是由多个场景组成，每个场景表示一个故事情节，连续的几个场景才可以表示一个有意义的故事片段。通常一个场景的时间比较短，内容比较少，不适合做语义分析，需要将连续的可以构成一个故事片段的几个场景进行合并，这样就将剧本的原始场景划分成了电影片段，再对划分好的电影片段进行分析。重要的电影片段在语义上更能概括整部电影的内容，也是整个电影中比较精彩的部分，用户可以通过观看重要的电影片段大致了解电影的内容。因此基于剧本和字幕分析抽取重要电影片段具有重要意义。

发明内容

本发明旨在提出一种基于剧本和字幕分析的抽取重要电影片段的方法，借助每一个电影片段的重要程度值，根据需要抽取重要程度值最大的前几个作为该电影的重要片段，为用户快速了解电影内容以及索引视频提供便利。

本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法，该方法包括如下步骤：

步骤1：从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据；

步骤2：从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间；

步骤3：利用步骤1和步骤2得到的相关数据，计算剧本和字幕中人物对话的相似度，取最大值进行匹配，实现将剧本的信息丰富以及获得每个场景的起始时间；

步骤4：依据人物相关、地点相关和配角相关将电影的相关场景合并，划分出电影片段；

步骤5：根据TF-IDF算法提取整个剧本的关键词，统计词频，计算关键词得分，关键词得分给出定义如下：

其中，k_关键词表示关键词编号，n_关键词表示关键词的个数，表示第k个关键词在全文的词频，表示第k_关键词个关键词在一个片段i中的词频；

步骤6：分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量，计算主要人物得分，主要人物得分的定义如下：

其中，|MC(i)|表示第i个片段中主要人物的数量|MCC(k_人物)|表示第k_人物个人物在一个电影片段中的台词数量；

步骤7：提取每个片段的人物对话，计算情感得分，情感得分的定义如下：

其中，X表示每句台词的情感值，n_台词表示一个片段中的台词数量，k_人物表示一个片段中的人物对话编号，i表示片段编号；

步骤8：在提取出的关键词中查找动词，统计这些动词的词频以及关键词的词频，计算动作得分，动作得分的定义如下：

其中，V表示属于一个片段i的关键词中动词的词频，f表示一个片段j中关键词的词频；i_动作表示动作的个数；

步骤9：利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值，取得分较高的作为重要的电影片段，计算电影片段的重要程度值，电影片段的重要程度值的定义如下：

IMC(i)＝r₁·KS(i)+r₂·MS(i)+r₃·ES(i)+r₄·AS(i)

其中，IMC表示每个电影片段的重要程度值，KS表示关键词得分，MS表示主要人物得分，ES表示情感得分，AS表示动作得分，i表示片段编号，r₁,r₂,r₃,r₄表示权重函数。

与现有技术相比，本发明所能达成的积极技术效果如下：

1)有助于用户更好的了解电影的主要内容。

2)可以在划分好电影片段的基础上对语义进行更深入的分析。

附图说明

图1为本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法整体流程示意图。

具体实施方式

下面结合附图和实施例对本发明技术方案进行详细描述。

本发明的一种基于剧本和字幕分析的抽取重要电影片段的方法，先对英文电影的剧本和字幕进行基本要素的抽取，通过人物对话进行信息融合，根据人物相关、场景相关和配角相关将原始的电影场景合并，划分出电影片段，再从关键词、主要人物、情感、动作这四个角度进行考虑，先得到每一部分的得分，再将四项进行加权，得到每一个电影片段的重要程度值，根据需要，取重要程度值最大的前几个作为该电影的重要片段。

具体包括以下步骤：

步骤1：抽取电影剧本的基本要素，即根据原始的txt剧本文本抽取出场景名、场景描述、人物、人物对话和人物动作的相关数据；

步骤2：抽取字幕中的基本要素，根据原始的txt字幕文本抽取出人物对话和人物对话的起始时间的相关数据；

步骤3：利用步骤1和步骤2得到的数据，使用gensim工具包中的Similarity函数分别计算剧本和字幕中人物对话的相似度，取最大值进行匹配，从而将剧本的信息丰富，获得每个场景的起始时间；

步骤4：利用步骤3处理好的数据格式，依据人物相关、地点相关和配角相关将电影的相关场景合并，划分出电影片段。当相同的人物在相邻的场景出现时，在语义上这两个场景中讲述的是一件事情，属于一个故事片段，所以将这种情况下的相邻场景进行合并；场景分为内景(INT.)和外景(EXT.)，从内景到外景，在剧本中场景就切换了，但这些场景都与同一个地点有关，基本上是围绕这个地点在讲述事件，它们都属于同一个故事片段，所以本文将发生地点相同且相邻的场景合并；在电影中有些配角只在少数场景出现,但在语义上都属于一个故事片段，当这些场景相邻时，把它们进行合并划分为一个电影片段；

步骤5：利用步骤4处理好的数据格式，从关键词这个角度去考虑，计算关键词得分。根据TF-IDF算法提取整个剧本的关键词，统计词频进行计算，对于关键词得分给出定义如下：

步骤6：利用步骤4处理好的数据格式，从主要人物这个角度去考虑，计算主要人物得分。根据人物在剧本中的台词数量来确定主要人物，取台词数量最多的前8个人为主要人物，分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量。对主要人物得分的定义如下：

步骤7：利用步骤4处理好的数据格式，从情感这个角度去考虑，计算情感得分。提取每个片段的人物对话，对人物对话进行情感极性判断，得出积极和消极的情感值，情感值越接近1越表示积极，情感值越接近0越表示消极。对情感得分的定义如下：

步骤8：利用步骤4处理好的数据格式，从动作这个角度去考虑，计算动作得分：在提取出的关键词中查找动词，统计这些动词的词频以及关键词的词频。对动作得分的定义如下：

步骤9：利用步骤5、6、7、8计算结果加权得到每一个电影片段的重要程度值，取得分较高的n个作为重要的电影片段。对于电影片段的重要程度值给出定义如下：

IMC(i)＝r₁·KS(i)+r₂·MS(i)+r₃·ES(i)+r₄·AS(i)

其中，IMC表示每个电影片段的重要程度值，KS表示关键词得分，MS表示主要人物得分，ES表示情感得分，AS表示动作得分，i表示电影片段编号，r₁,r₂,r₃,r₄表示权重函数，r₁+r₂+r₃+r₄＝1。

Claims

1.一种基于剧本和字幕分析的抽取重要电影片段的方法，其特征在于，该方法包括如下步骤：

IMC(i)＝r₁·KS(i)+r₂·MS(i)+r₃·ES(i)+r₄·AS(i)