CN110457691A

CN110457691A - 基于剧本角色的情感曲线分析方法和装置

Info

Publication number: CN110457691A
Application number: CN201910683972.8A
Authority: CN
Inventors: 姬晓晨
Original assignee: Beijing Yingpu Technology Co Ltd
Current assignee: Beijing Yingpu Technology Co Ltd
Priority date: 2019-07-26
Filing date: 2019-07-26
Publication date: 2019-11-15
Anticipated expiration: 2039-07-26
Also published as: CN110457691B

Abstract

本申请公开了一种基于剧本角色的情感曲线分析方法和装置，属于文本情感分析技术领域。该方法包括：构建包含多个情感词的情感词典；对待分析的剧本文本预处理后提取剧本角色并划分章节；对每位剧本角色计算所在每一章节的情感类别，对每一章节提取关键事件；将每位剧本角色的情感类别及章节的对应关系映射成一条折线，得到所有折线后显示在同一折线图中，将每位剧本角色每一章节的关键事件也显示在折线图中。该装置包括：构建模块、预处理模块、提取划分模块、计算模块、事件提取模块、映射显示模块。本申请实现了基于剧本角色的情感曲线分析，情感曲线包含更多剧本信息，能够直观了解剧本整体情感走向和剧本角色间的情感关联。

Description

基于剧本角色的情感曲线分析方法和装置

技术领域

本申请涉及文本情感分析技术领域，特别是涉及一种基于剧本角色的情感曲线分析方法和装置。

背景技术

文本情感分析是自然语言处理领域的热点问题，是一个对具有主观性情感色彩的文本信息进行处理、归纳、推理的过程。文本情感分析的应用场景非常广泛，例如在消费品行业，通过用户对产品评论的情感分析，可以挖掘用户对产品的满意程度，帮助企业及时调整产品策略。在社交媒体方面，对特定事件评论的情感分析，在舆情控制、突发事件检测等方面均有重大作用。常见的文本情感分析方法有三类：基于词典的文本情感分析方法、基于机器学习的方法和基于深度学习的分析方法。三种方法各有优缺点，在进行文本情感分析时可以根据文本特性和实验目的进行具体选择。

文本情感曲线是一种基于文本情感分析的具体情感模式，可以通过情感曲线展示文本的具体情感变化，一般用于长文本的情感分析，例如，一些学者研究小说文本的情感曲线，从而分析小说整体情感倾向。剧本是影视作品的核心，故事发展和人物关系都能在剧本中得到展现，通过对剧本的挖掘能够分析出其中蕴含的深层信息，尤其是对剧本的情感曲线分析，可以把握全局的核心价值，帮助用户从整体了解剧本的情感走向。但是，目前还没有基于剧本角色的情感曲线研究，对剧本文本的研究较少，因此，将剧本的情感分析应用在实际生活中，具有极高的应用价值。

发明内容

本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。

根据本申请的一个方面，提供了一种基于剧本角色的情感曲线分析方法，包括：

构建包含多个情感词的情感词典，且每一个情感词对应一组属性，所述属性至少包括情感类别和情感强度；

对待分析的剧本文本进行预处理；

从所述预处理后的剧本文本中提取出剧本角色，并将所述剧本文本按照章节进行划分；

对提取出的每一位剧本角色，根据所述情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别；

对划分后的每一章节，提取其关键事件；

对每一位剧本角色，将其情感类别及章节的对应关系映射成一条折线，得到所有剧本角色的折线后显示在同一个折线图中，按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。

可选地，对提取出的每一位剧本角色，根据所述情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别，包括：

对提取出的每一位剧本角色A_i，分析其所在的每一个章节，在当前章节内，利用滑动窗口获取当前剧本角色对应的文本集，以所述情感词典中是否包含为标准，找到所述文本集中的每一个情感词，并从所述情感词典中找到所述每一个情感词的情感类别和情感强度，对所述文本集得到的所有情感类别，如果有相同的情感类别，则按照如下公式将该情感类别对应的各个情感强度合并，得到该情感类别对应的情感强度

其中，所述i为剧本角色的当前序号，i＝{1,2,…,n}，所述n为剧本角色的总数，所述j为章节的当前序号，j＝{1,2,…,m}，所述m为所述剧本文本的章节总数，令表示第j个章节中第i个剧本角色对应的文本集，所述w为所述文本集中的情感词总数，所述k为所述文本集中情感词的当前序号，所述d_k为第k个情感词前的否定词个数，所述α_k为第k个情感词的情感强度，所述β_k为第k个情感词的情感极性且由所述情感词典获得；

经过所述合并后，得到所述文本集内每个情感类别及其对应的情感强度，选择情感强度最大的情感类别作为所述当前章节的情感类别。

可选地，对划分后的每一章节，提取其关键事件，包括：

对划分后的每一章节，将其中每一个词汇p都按照如下公式计算其TF-IDF值：

其中，所述m为所述剧本文本的章节数目，所述TF为词频，所述IDF为逆文本频率指数；

对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序，提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。

可选地，按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中，包括：

当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时，显示该章节的关键事件。

可选地，所述情感词典中的情感类别包括：喜、怒、哀、惧、恶和惊；所述情感强度包括：从高到低共多个档；所述属性还包括：词性和情感极性，所述词性包括：名词、动词、形容词、副词、网络词语、成语和介词短语；所述情感极性包括：褒义、中性和贬义。

根据本申请的另一个方面，提供了一种基于剧本角色的情感曲线分析装置，包括：

构建模块，其配置成构建包含多个情感词的情感词典，且每一个情感词对应一组属性，所述属性至少包括情感类别和情感强度；

预处理模块，其配置成对待分析的剧本文本进行预处理；

提取划分模块，其配置成从所述预处理后的剧本文本中提取出剧本角色，并将所述剧本文本按照章节进行划分；

计算模块，其配置成对提取出的每一位剧本角色，根据所述情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别；

事件提取模块，其配置成对划分后的每一章节，提取其关键事件；

映射显示模块，其配置成对每一位剧本角色，将其情感类别及章节的对应关系映射成一条折线，得到所有剧本角色的折线后显示在同一个折线图中，按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。

可选地，所述计算模块具体配置成：

可选地，所述事件提取模块具体配置成：

可选地，所述映射显示模块具体配置成：

根据本申请的又一个方面，提供了一种计算设备，包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序，其中，所述处理器执行所述计算机程序时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机可读存储介质，优选为非易失性可读存储介质，其内存储有计算机程序，所述计算机程序在由处理器执行时实现如上所述的方法。

根据本申请的又一个方面，提供了一种计算机程序产品，包括计算机可读代码，当所述计算机可读代码由计算机设备执行时，导致所述计算机设备执行上述的方法。

本申请提供的技术方案，通过构建情感词典，从剧本文本中提取剧本角色且划分章节，计算每一位剧本角色所在每一章节的情感类别，提取每一章节的关键事件，将每一位剧本角色的情感类别及章节的对应关系映射成一条折线，得到所有折线后显示在同一个折线图中，实现了基于剧本角色的情感曲线分析，以剧本角色为对象多角度分析剧本情感走向，将所有角色的情感曲线映射到一张图中，帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件，并将其展现在情感曲线图中，克服了情感曲线过于单一的缺点，使得情感曲线包含更多剧本信息，丰富了情感曲线图的信息。

进一步地，基于情感词的情感强度和情感极性，将相同情感类别的情感强度进行合并，能够最大程度地反映情感强度，将情感强度最大的情感类别作为章节的情感类别更具有代表性。

根据下文结合附图对本申请的具体实施例的详细描述，本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图；

图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图；

图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图；

图4是根据本申请另一个实施例的计算设备结构图；

图5是根据本申请另一个实施例的计算机可读存储介质结构图。

具体实施方式

本申请提出一种基于剧本角色的情感曲线分析方法及装置，分章节对每一位剧本角色描绘情感曲线图，通过将多角色的情感曲线映射到一张图中，分析角色本身及角色间的情感倾向和情感关联，并在情感曲线的每一个节点处加入了该部分的文本关键事件信息，更大程度上丰富了情感曲线所展示的内容。

图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图1，该方法包括：

101：构建包含多个情感词的情感词典，且每一个情感词对应一组属性，该属性至少包括情感类别和情感强度；

本发明实施例中，文本情感分析具有领域特征，不同领域的文本数据无法通过相同语料库训练情感分析模型，而剧本属于一种特殊的文本体裁，很难去界定它的领域范围，并很难找到语义内容相近的语料库，因此，优选地，采用基于词典的情感分析方法。具体的，可以选取情感词汇本体作为情感词典，情感词汇本体包含了词汇的多种信息，包括但不限于：词性、情感类别、情感强度、情感极性等等，本实施例对此不做具体限定。

102：对待分析的剧本文本进行预处理；

103：从预处理后的剧本文本中提取出剧本角色，并将剧本文本按照章节进行划分；

104：对提取出的每一位剧本角色，根据情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别；

105：对划分后的每一章节，提取其关键事件；

106：对每一位剧本角色，将其情感类别及章节的对应关系映射成一条折线，得到所有剧本角色的折线后显示在同一个折线图中，按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。

本实施例中，可选的，对提取出的每一位剧本角色，根据情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别，包括：

对提取出的每一位剧本角色A_i，分析其所在的每一个章节，在当前章节内，利用滑动窗口获取当前剧本角色对应的文本集，以情感词典中是否包含为标准，找到文本集中的每一个情感词，并从情感词典中找到每一个情感词的情感类别和情感强度，对文本集得到的所有情感类别，如果有相同的情感类别，则按照如下公式将该情感类别对应的各个情感强度合并，得到该情感类别对应的情感强度

其中，i为剧本角色的当前序号，i＝{1,2,…,n}，n为剧本角色的总数，j为章节的当前序号，j＝{1,2,…,m}，m为剧本文本的章节总数，令表示第j个章节中第i个剧本角色对应的文本集，w为文本集中的情感词总数，k为文本集中情感词的当前序号，d_k为第k个情感词前的否定词个数，α_k为第k个情感词的情感强度，β_k为第k个情感词的情感极性且由情感词典获得；

经过合并后，得到文本集内每个情感类别及其对应的情感强度，选择情感强度最大的情感类别作为当前章节的情感类别。

本实施例中，可选的，对划分后的每一章节，提取其关键事件，包括：

其中，m为剧本文本的章节数目，TF为词频，IDF为逆文本频率指数；

对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序，提取出指定个数的排序在前的词汇作为当前章节的关键事件。

本实施例中，可选的，按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中，包括：

当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时，显示该章节的关键事件。

本实施例中，可选的，情感词典中的情感类别包括：喜、怒、哀、惧、恶和惊；情感强度包括：从高到低共多个档；属性还包括：词性和情感极性，词性包括：名词、动词、形容词、副词、网络词语、成语和介词短语；情感极性包括：褒义、中性和贬义。

本实施例提供的上述方法，通过构建情感词典，从剧本文本中提取剧本角色且划分章节，计算每一位剧本角色所在每一章节的情感类别，提取每一章节的关键事件，将每一位剧本角色的情感类别及章节的对应关系映射成一条折线，得到所有折线后显示在同一个折线图中，实现了基于剧本角色的情感曲线分析，以剧本角色为对象多角度分析剧本情感走向，将所有角色的情感曲线映射到一张图中，帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件，并将其展现在情感曲线图中，克服了情感曲线过于单一的缺点，使得情感曲线包含更多剧本信息，丰富了情感曲线图的信息。

图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图2，该方法包括：

201：构建包含多个情感词的情感词典，且每一个情感词对应一组属性，该属性至少包括情感类别和情感强度；

本实施例中，可选的，上述情感词典中的情感类别可以包括：喜、怒、哀、惧、恶和惊；情感强度可以包括：从低到高共多个档，如1，3，5，7，9共五档，9表示情感强度最大，1表示情感强度最小。上述属性还可以包括：词性和情感极性，上述词性可以包括：名词(noun)、动词(verb)、形容词(adj)、副词(adv)、网络词语(nw)、成语(idiom)和介词短语(prep)；上述情感极性可以包括：褒义、中性和贬义，如可以设置为0代表中性，1代表褒义，-1代表贬义等等，具体不限定。

202：对待分析的剧本文本进行预处理；

本实施例中，上述预处理包括对剧本文本进行分词、去停用词等操作，去掉语气词、特殊符号和标点等。

203：从预处理后的剧本文本中提取出剧本角色，并将剧本文本按照章节进行划分；

204：对提取出的每一位剧本角色A_i，分析其所在的每一个章节，在当前章节内，利用滑动窗口获取当前剧本角色对应的文本集，以情感词典中是否包含为标准，找到文本集中的每一个情感词，并从情感词典中找到每一个情感词的情感类别和情感强度，对文本集得到的所有情感类别，如果有相同的情感类别，则按照如下公式(1)将该情感类别对应的各个情感强度合并，得到该情感类别对应的情感强度经过合并后，得到文本集内每个情感类别及其对应的情感强度，选择情感强度最大的情感类别作为当前章节的情感类别；

本实施例中，上述滑动窗口的长度可以根据需要设置，如15～40等等，具体不限定。设置长度L后的滑动窗口，从当前章节的头部开始滑动，当滑动窗口内包含当前剧本角色A_i的名称时，将此时滑动窗口内的文本均加入文本集中，直至该滑动窗口滑动至当前章节的末尾时停止。进一步地，当计算得到情感强度后，还可以将其进行归一化处理，使其数值范围在[0,1]之间，方便后续情感曲线的处理。

205：对划分后的每一章节，将其中每一个词汇p都按照如下公式(2)计算其TF-IDF值，对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序，提取出指定个数的排序在前的词汇作为当前章节的关键事件；

本实施例中，上述指定个数可以根据需要设置，具体数值不限定，如设置指定个数为5，则在该排序中提取出前五个最能代表该章节的词汇，作为当前章节的关键事件。

206：对每一位剧本角色，将其情感类别及章节的对应关系映射成一条折线，得到所有剧本角色的折线后显示在同一个折线图中；

其中，将所有剧本角色情感变化映射到一个折线图中，横坐标可以为章节，纵坐标可以为情感类别，每一个剧本角色对应一条折线，从而可以得到包含多条折线的折线图。

207：当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时，显示该章节的关键事件。

图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图。参见图3，该装置包括：

构建模块301，其配置成构建包含多个情感词的情感词典，且每一个情感词对应一组属性，属性至少包括情感类别和情感强度；

预处理模块302，其配置成对待分析的剧本文本进行预处理；

提取划分模块303，其配置成从预处理后的剧本文本中提取出剧本角色，并将剧本文本按照章节进行划分；

计算模块304，其配置成对提取出的每一位剧本角色，根据情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别；

事件提取模块305，其配置成对划分后的每一章节，提取其关键事件；

映射显示模块306，其配置成对每一位剧本角色，将其情感类别及章节的对应关系映射成一条折线，得到所有剧本角色的折线后显示在同一个折线图中，按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。

本实施例中，可选的，计算模块具体配置成：

本实施例中，可选的，事件提取模块具体配置成：

本实施例中，可选的，映射显示模块具体配置成：

本实施例提供的上述装置，可以执行上述任一方法实施例提供的方法，详细过程详见方法实施例中的描述，此处不赘述。

本实施例提供的上述装置，通过构建情感词典，从剧本文本中提取剧本角色且划分章节，计算每一位剧本角色所在每一章节的情感类别，提取每一章节的关键事件，将每一位剧本角色的情感类别及章节的对应关系映射成一条折线，得到所有折线后显示在同一个折线图中，实现了基于剧本角色的情感曲线分析，以剧本角色为对象多角度分析剧本情感走向，将所有角色的情感曲线映射到一张图中，帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件，并将其展现在情感曲线图中，克服了情感曲线过于单一的缺点，使得情感曲线包含更多剧本信息，丰富了情感曲线图的信息。

本申请实施例还提供了一种计算设备，参照图4，该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序，该计算机程序存储于存储器1120中的用于程序代码的空间1130，该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。

本申请实施例还提供了一种计算机可读存储介质。参照图5，该计算机可读存储介质包括用于程序代码的存储单元，该存储单元设置有用于执行根据本发明的方法步骤的程序1131′，该程序被处理器执行。

本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时，使得计算机执行根据本发明的方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

专业人员应该还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成，所述的程序可以存储于计算机可读存储介质中，所述存储介质是非短暂性(英文：non-transitory)介质，例如随机存取存储器，只读存储器，快闪存储器，硬盘，固态硬盘，磁带(英文：magnetic tape)，软盘(英文：floppy disk)，光盘(英文：optical disc)及其任意组合。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于剧本角色的情感曲线分析方法，包括：

对待分析的剧本文本进行预处理；

对划分后的每一章节，提取其关键事件；

2.根据权利要求1所述的方法，其特征在于，对提取出的每一位剧本角色，根据所述情感词典及章节中的情感词，计算当前剧本角色所在每一章节的情感类别，包括：

3.根据权利要求1所述的方法，其特征在于，对划分后的每一章节，提取其关键事件，包括：

4.根据权利要求1所述的方法，其特征在于，按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中，包括：

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述情感词典中的情感类别包括：喜、怒、哀、惧、恶和惊；所述情感强度包括：从高到低共多个档；所述属性还包括：词性和情感极性，所述词性包括：名词、动词、形容词、副词、网络词语、成语和介词短语；所述情感极性包括：褒义、中性和贬义。

6.一种基于剧本角色的情感曲线分析装置，包括：

预处理模块，其配置成对待分析的剧本文本进行预处理；

7.根据权利要求6所述的装置，其特征在于，所述计算模块具体配置成：

8.根据权利要求6所述的装置，其特征在于，所述事件提取模块具体配置成：

9.根据权利要求6所述的装置，其特征在于，所述映射显示模块具体配置成：

10.根据权利要求6-9中任一项所述的装置，其特征在于，所述情感词典中的情感类别包括：喜、怒、哀、惧、恶和惊；所述情感强度包括：从高到低共多个档；所述属性还包括：词性和情感极性，所述词性包括：名词、动词、形容词、副词、网络词语、成语和介词短语；所述情感极性包括：褒义、中性和贬义。