CN107977360B

CN107977360B - 一种影视剧本中人物阵营的识别和划分方法

Info

Publication number: CN107977360B
Application number: CN201711202846.3A
Authority: CN
Inventors: 孙利军
Original assignee: Xi'an Film & Television Data Evaluation Center Co ltd
Current assignee: Xi'an Film & Television Data Evaluation Center Co ltd
Priority date: 2017-11-27
Filing date: 2017-11-27
Publication date: 2021-04-13
Anticipated expiration: 2037-11-27
Also published as: CN107977360A

Abstract

本发明公开了一种影视剧本中人物阵营的识别和划分方法，涉及软件开发技术领域，该方法主要包括：步骤1，建立情感词词典；步骤2，对影视剧本的文字内容进行分词处理，得到列表L，对该列表L进行向量化处理，并使用所述情感词词典生成情感词矩阵；步骤3，针对剧本中的对白内容进行分词处理，记录到所述列表L中；步骤4，根据步骤3中的列表L对影视剧本中人物的“协作或对抗”关机进行量化处理，得到代表两两人物之间“协作或对抗”关系的量化表征；步骤5，使用步骤4中的量化表征构建人物社交网络并划分阵营。本发明的方法可大大提高影视剧本评估分析中的人物分析工作效率，节约人力和时间成本，具有识别速度快，准确度高的特点。

Description

一种影视剧本中人物阵营的识别和划分方法

技术领域

本发明涉及软件开发技术领域，特别是涉及一种影视剧本中人物阵营的识别和划分方法。

背景技术

在影视剧剧本的评估中，区分主要人物的正反派阵营是一项必要的工作，对于前期投资立项以及后期实地拍摄具有重要意义。目前对影视剧本中人物阵营的划分，主要还是以影视剧本专业评估人员人工判定为主。部分企业采用的计算机技术辅助阵营划分主要基于模式规则和机器学习方法，模式规则依赖于剧本评估专家、语言学专家等主观经验，虽借助计算机技术部分实现自动化，但整个规则制定和检验评估流程较长，准确度也存在明显问题。而机器学习方法需要大量人工标注数据来进行分类算法的训练过程，此类训练语料数据获取难度较大。

发明内容

本发明实施例提供了一种影视剧本中人物阵营的识别和划分方法，可以解决现有技术中存在的问题。

一种影视剧本中人物阵营的识别和划分方法，该方法包括以下步骤：

步骤1，建立情感词词典；

步骤2，对影视剧本的文字内容进行分词处理，得到列表L，对该列表L进行向量化处理，并使用所述情感词词典生成情感词矩阵；

步骤3，针对剧本中的对白内容进行分词处理，记录到所述列表L中；

步骤4，根据步骤3中的列表L对影视剧本中人物的“协作或对抗”关机进行量化处理，得到代表两两人物之间“协作或对抗”关系的量化表征；

步骤5，使用步骤4中的量化表征构建人物社交网络并划分阵营。

本发明实施例中的一种影视剧本中人物阵营的识别和划分方法，可用于影视剧本中人物阵营的识别和划分，通过使用这种方法，可以达到以下目的：

a.解决目前机器学习方法中需要大量人工标注和获取训练语料的问题。

b.快速准确的识别影视剧本中的人物阵营。

b.节约影视剧本评估中人物分析时间，提高评估效率。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供了一种影视剧本中人物阵营的识别和划分方法，该方法包括以下步骤：

步骤1，建立情感词词典；

步骤2，生成情感词矩阵，具体步骤如下：

(1)逐行读取影视剧本文字内容；

(2)使用自然语言处理技术中的分词技术对读取的文字内容进行分词处理，得到一个存放有多个分词的列表L；

(3)移除列表L中的停止词、符号等无意义词；

(4)对列表L使用Word2Vec算法，生成列表L去除重复词的词向量V；

(5)利用步骤1中的情感词词典与词向量V做交集，得到带有明确情感分类的词向量集合，该集合通过行合并或列合并的方式形成矩阵，称为情感词矩阵M。

步骤3，针对剧本中的对白内容进行分词处理，具体步骤如下：

(1)初始化一个循环变量N，设置N＝1；

(2)读取影视剧本的第N行字符串S1，判断字符串S1中是否存在中英文冒号，如果不存在中英文冒号，则设置N＝N+1，继续执行第(2)步；如果存在中英文冒号且不是字符串S1第一个字符或最后一个字符，则继续进行下一步；

(3)读取第N+1行字符串S2，如果字符串S2中不存在中英文冒号，则设置N＝N+2，返回第(2)步；如果字符串S2中存在中英文冒号，则继续进行下一步；

(4)读取字符串S2中冒号后的内容，去除停止词、符号等无意义词后，得到字符串S3；

(5)对字符串S3进行分词处理，记录到列表L中；

(6)设置N＝N+1，返回第(2)步。

步骤4，进行影视剧本中人物“协作或对抗”关系的量化处理，具体步骤如下：

(1)利用Tf-Idf算法对步骤3列表L中的分词标注关键词权重，依据一定分位数阈值，如0.8，提取关键词权重总和排名靠前的分词，记录到列表L中；

(2)依次遍历列表L中的词，从步骤2中第(4)步得到的词向量集合中找到该词对应的词向量，并按照各自对应的关键词权重求得加权平均向量，该向量维度与词向量的维度相同；

(3)利用向量的余弦距离计算方法，计算得到的加权平均向量与步骤2中第(5)步得到的情感词矩阵M各行的相似度，对于相似度大于一定阈值所代表的情感词，在其原始的情感词词典中找到其对应的情感分类和情感强度，以情感强度作为权重，对不同的情感分类做加权求和，得到不同情感分类的量化表征；

(4)针对第(3)步计算的各情感分类的量化表征，分别求得代表“协作”(如喜好类情感)和“对抗”(如厌恶类情感)的总和，通过比较得到该语料所代表的两两人物之间“协作或对抗”关系的量化表征。

步骤5，构建人物社交网络并划分阵营，具体步骤如下：

(1)基于步骤4中第(4)步得到的两两人物之间的关系量化值，以人物为节点，人物与人物之间的“协作或对抗”关系作为边，以关系的量化值作为边的权重，构建起人物社交关系网络，并以一定的节点中心度作为阈值，去掉社交关系网络中的部分节点(通常代表剧本中的次要人物)；

(2)利用Newman快速算法对上一步得到的社交关系网络进行社群发现，由于上一步中构建社交关系网络时采用了人物之间“协作或对抗”关系的量化值作为边的权重，在社群发现算法的作用下，连接较为紧密(低权重的边)的边被划分在了同一社群内部，而社群之间的连接相对较为稀疏(高权重的边)，从而实现了不同社群(阵营)的划分。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种影视剧本中人物阵营的识别和划分方法，其特征在于，该方法包括以下步骤：

步骤1，建立情感词词典；

步骤2，对影视剧本的文字内容进行分词处理，得到列表L1，对该列表L1进行向量化处理，并使用所述情感词词典生成情感词矩阵；

步骤3，针对剧本中的对白内容进行分词处理，记录到列表L2中；

步骤4，根据步骤3中的列表L2对影视剧本中人物的“协作或对抗”关系进行量化处理，得到代表两两人物之间“协作或对抗”关系的量化表征；

步骤5，使用步骤4中的量化表征构建人物社交网络并划分阵营；

其中，步骤2具体包括：

（1）逐行读取影视剧本文字内容；

（2）使用分词技术对读取的文字内容进行分词处理，得到所述列表L1；

（3）移除列表L1中的无意义词；

（4）对列表L1使用Word2Vec算法，生成列表L1去除重复词的词向量V；

（5）利用步骤1中的情感词词典与词向量V做交集，得到带有明确情感分类的词向量集合，该集合通过行合并或列合并的方式形成矩阵，称为所述情感词矩阵；

步骤3具体包括：

（1）初始化一个循环变量N，设置N=1；

（2）读取影视剧本的第N行字符串S1，判断字符串S1中是否存在中英文冒号，如果不存在中英文冒号，则设置N=N+1，继续执行第（2）步；如果存在中英文冒号且不是字符串S1第一个字符或最后一个字符，则继续进行下一步；

（3）读取第N+1行字符串S2，如果字符串S2中不存在中英文冒号，则设置N=N+2，返回第（2）步；如果字符串S2中存在中英文冒号，则继续进行下一步；

（4）读取字符串S2中冒号后的内容，去除无意义词后，得到字符串S3；

（5）对字符串S3进行分词处理，记录到列表L2中；

（6）设置N=N+1，返回第（2）步；

步骤4具体包括：

（1）利用Tf-Idf算法对步骤3列表L2中的剧本对白分词标注关键词权重，依据一定分位数阈值提取关键词权重总和排名靠前的剧本对白分词，记录到列表L2中；

（2）依次遍历列表L2中的剧本对白分词，从步骤2中第（4）步得到的词向量集合中找到该剧本对白分词对应的词向量，并按照各自对应的关键词权重求得加权平均向量；

（3）利用向量的余弦距离计算方法，计算得到的加权平均向量与步骤2中第（5）步得到的情感词矩阵各行的相似度，对于相似度大于一定阈值所代表的情感词，在其原始的情感词词典中找到其对应的情感分类和情感强度，以情感强度作为权重，对不同的情感分类做加权求和，得到不同情感分类的量化表征；

（4）针对第（3）步计算的各情感分类的量化表征，分别求得代表“协作”和“对抗”的总和，通过比较得到剧本对白所代表的两两人物之间“协作或对抗”关系的量化表征。

2.如权利要求1所述的一种影视剧本中人物阵营的识别和划分方法，其特征在于，步骤5具体包括：

（1）基于步骤4中第（4）步得到的两两人物之间的关系的量化表征，以人物为节点，人物与人物之间的“协作或对抗”关系作为边，以关系的量化表征作为边的权重，构建起人物社交关系网络，并以一定的节点中心度作为阈值，去掉社交关系网络中的部分节点；

（2）利用Newman快速算法对上一步得到的社交关系网络进行社群发现，由于上一步中构建社交关系网络时采用了人物之间“协作或对抗”关系的量化表征作为边的权重，在社群发现算法的作用下，低权重的边被划分在了同一社群内部，而社群之间的连接边具有高权重，从而实现了不同社群即阵营的划分。