CN110457691B - 基于剧本角色的情感曲线分析方法和装置 - Google Patents

基于剧本角色的情感曲线分析方法和装置 Download PDF

Info

Publication number
CN110457691B
CN110457691B CN201910683972.8A CN201910683972A CN110457691B CN 110457691 B CN110457691 B CN 110457691B CN 201910683972 A CN201910683972 A CN 201910683972A CN 110457691 B CN110457691 B CN 110457691B
Authority
CN
China
Prior art keywords
emotion
script
chapter
text
emotional
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910683972.8A
Other languages
English (en)
Other versions
CN110457691A (zh
Inventor
姬晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Moviebook Science And Technology Co ltd
Original Assignee
Beijing Moviebook Science And Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Moviebook Science And Technology Co ltd filed Critical Beijing Moviebook Science And Technology Co ltd
Priority to CN201910683972.8A priority Critical patent/CN110457691B/zh
Publication of CN110457691A publication Critical patent/CN110457691A/zh
Application granted granted Critical
Publication of CN110457691B publication Critical patent/CN110457691B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种基于剧本角色的情感曲线分析方法和装置,属于文本情感分析技术领域。该方法包括:构建包含多个情感词的情感词典;对待分析的剧本文本预处理后提取剧本角色并划分章节;对每位剧本角色计算所在每一章节的情感类别,对每一章节提取关键事件;将每位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一折线图中,将每位剧本角色每一章节的关键事件也显示在折线图中。该装置包括:构建模块、预处理模块、提取划分模块、计算模块、事件提取模块、映射显示模块。本申请实现了基于剧本角色的情感曲线分析,情感曲线包含更多剧本信息,能够直观了解剧本整体情感走向和剧本角色间的情感关联。

Description

基于剧本角色的情感曲线分析方法和装置
技术领域
本申请涉及文本情感分析技术领域,特别是涉及一种基于剧本角色的情感曲线分析方法和装置。
背景技术
文本情感分析是自然语言处理领域的热点问题,是一个对具有主观性情感色彩的文本信息进行处理、归纳、推理的过程。文本情感分析的应用场景非常广泛,例如在消费品行业,通过用户对产品评论的情感分析,可以挖掘用户对产品的满意程度,帮助企业及时调整产品策略。在社交媒体方面,对特定事件评论的情感分析,在舆情控制、突发事件检测等方面均有重大作用。常见的文本情感分析方法有三类:基于词典的文本情感分析方法、基于机器学习的方法和基于深度学习的分析方法。三种方法各有优缺点,在进行文本情感分析时可以根据文本特性和实验目的进行具体选择。
文本情感曲线是一种基于文本情感分析的具体情感模式,可以通过情感曲线展示文本的具体情感变化,一般用于长文本的情感分析,例如,一些学者研究小说文本的情感曲线,从而分析小说整体情感倾向。剧本是影视作品的核心,故事发展和人物关系都能在剧本中得到展现,通过对剧本的挖掘能够分析出其中蕴含的深层信息,尤其是对剧本的情感曲线分析,可以把握全局的核心价值,帮助用户从整体了解剧本的情感走向。但是,目前还没有基于剧本角色的情感曲线研究,对剧本文本的研究较少,因此,将剧本的情感分析应用在实际生活中,具有极高的应用价值。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于剧本角色的情感曲线分析方法,包括:
构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
对待分析的剧本文本进行预处理;
从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
对划分后的每一章节,提取其关键事件;
对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
可选地,对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure BDA0002145611860000021
Figure BDA0002145611860000022
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令
Figure BDA0002145611860000031
表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集/>
Figure BDA0002145611860000032
中的情感词总数,所述k为所述文本集/>
Figure BDA0002145611860000033
中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
可选地,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure BDA0002145611860000034
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
可选地,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中,包括:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
可选地,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
根据本申请的另一个方面,提供了一种基于剧本角色的情感曲线分析装置,包括:
构建模块,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
预处理模块,其配置成对待分析的剧本文本进行预处理;
提取划分模块,其配置成从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
计算模块,其配置成对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
可选地,所述计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure BDA0002145611860000041
Figure BDA0002145611860000042
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令
Figure BDA0002145611860000043
表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集/>
Figure BDA0002145611860000044
中的情感词总数,所述k为所述文本集/>
Figure BDA0002145611860000045
中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
可选地,所述事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure BDA0002145611860000051
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
可选地,所述映射显示模块具体配置成:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
可选地,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。
本申请提供的技术方案,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图;
图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图;
图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图;
图4是根据本申请另一个实施例的计算设备结构图;
图5是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
本申请提出一种基于剧本角色的情感曲线分析方法及装置,分章节对每一位剧本角色描绘情感曲线图,通过将多角色的情感曲线映射到一张图中,分析角色本身及角色间的情感倾向和情感关联,并在情感曲线的每一个节点处加入了该部分的文本关键事件信息,更大程度上丰富了情感曲线所展示的内容。
图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图1,该方法包括:
101:构建包含多个情感词的情感词典,且每一个情感词对应一组属性,该属性至少包括情感类别和情感强度;
本发明实施例中,文本情感分析具有领域特征,不同领域的文本数据无法通过相同语料库训练情感分析模型,而剧本属于一种特殊的文本体裁,很难去界定它的领域范围,并很难找到语义内容相近的语料库,因此,优选地,采用基于词典的情感分析方法。具体的,可以选取情感词汇本体作为情感词典,情感词汇本体包含了词汇的多种信息,包括但不限于:词性、情感类别、情感强度、情感极性等等,本实施例对此不做具体限定。
102:对待分析的剧本文本进行预处理;
103:从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
104:对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
105:对划分后的每一章节,提取其关键事件;
106:对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。
本实施例中,可选的,对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure BDA0002145611860000081
Figure BDA0002145611860000082
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令
Figure BDA0002145611860000083
表示第j个章节中第i个剧本角色对应的文本集,w为文本集/>
Figure BDA0002145611860000084
中的情感词总数,k为文本集/>
Figure BDA0002145611860000085
中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别。
本实施例中,可选的,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure BDA0002145611860000086
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件。
本实施例中,可选的,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中,包括:
当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例中,可选的,情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;情感强度包括:从高到低共多个档;属性还包括:词性和情感极性,词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;情感极性包括:褒义、中性和贬义。
本实施例提供的上述方法,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图2,该方法包括:
201:构建包含多个情感词的情感词典,且每一个情感词对应一组属性,该属性至少包括情感类别和情感强度;
本实施例中,可选的,上述情感词典中的情感类别可以包括:喜、怒、哀、惧、恶和惊;情感强度可以包括:从低到高共多个档,如1,3,5,7,9共五档,9表示情感强度最大,1表示情感强度最小。上述属性还可以包括:词性和情感极性,上述词性可以包括:名词(noun)、动词(verb)、形容词(adj)、副词(adv)、网络词语(nw)、成语(idiom)和介词短语(prep);上述情感极性可以包括:褒义、中性和贬义,如可以设置为0代表中性,1代表褒义,-1代表贬义等等,具体不限定。
202:对待分析的剧本文本进行预处理;
本实施例中,上述预处理包括对剧本文本进行分词、去停用词等操作,去掉语气词、特殊符号和标点等。
203:从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
204:对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式(1)将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure BDA0002145611860000101
经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别;
Figure BDA0002145611860000102
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令
Figure BDA0002145611860000103
表示第j个章节中第i个剧本角色对应的文本集,w为文本集/>
Figure BDA0002145611860000104
中的情感词总数,k为文本集/>
Figure BDA0002145611860000105
中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
本实施例中,上述滑动窗口的长度可以根据需要设置,如15~40等等,具体不限定。设置长度L后的滑动窗口,从当前章节的头部开始滑动,当滑动窗口内包含当前剧本角色Ai的名称时,将此时滑动窗口内的文本均加入文本集中,直至该滑动窗口滑动至当前章节的末尾时停止。进一步地,当计算得到情感强度
Figure BDA0002145611860000111
后,还可以将其进行归一化处理,使其数值范围在[0,1]之间,方便后续情感曲线的处理。
205:对划分后的每一章节,将其中每一个词汇p都按照如下公式(2)计算其TF-IDF值,对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件;
Figure BDA0002145611860000112
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
本实施例中,上述指定个数可以根据需要设置,具体数值不限定,如设置指定个数为5,则在该排序中提取出前五个最能代表该章节的词汇,作为当前章节的关键事件。
206:对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中;
其中,将所有剧本角色情感变化映射到一个折线图中,横坐标可以为章节,纵坐标可以为情感类别,每一个剧本角色对应一条折线,从而可以得到包含多条折线的折线图。
207:当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例提供的上述方法,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图。参见图3,该装置包括:
构建模块301,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,属性至少包括情感类别和情感强度;
预处理模块302,其配置成对待分析的剧本文本进行预处理;
提取划分模块303,其配置成从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
计算模块304,其配置成对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块305,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块306,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。
本实施例中,可选的,计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure BDA0002145611860000131
Figure BDA0002145611860000132
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令
Figure BDA0002145611860000133
表示第j个章节中第i个剧本角色对应的文本集,w为文本集/>
Figure BDA0002145611860000134
中的情感词总数,k为文本集/>
Figure BDA0002145611860000135
中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别。
本实施例中,可选的,事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure BDA0002145611860000136
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件。
本实施例中,可选的,映射显示模块具体配置成:
当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例中,可选的,情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;情感强度包括:从高到低共多个档;属性还包括:词性和情感极性,词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;情感极性包括:褒义、中性和贬义。
本实施例提供的上述装置,可以执行上述任一方法实施例提供的方法,详细过程详见方法实施例中的描述,此处不赘述。
本实施例提供的上述装置,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种基于剧本角色的情感曲线分析方法,包括:
构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;所述情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;
对待分析的剧本文本进行预处理;
从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
对划分后的每一章节,提取其关键事件;
对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中;
其中,对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure FDA0003976332610000011
Figure FDA0003976332610000012
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令
Figure FDA0003976332610000021
表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集
Figure FDA0003976332610000022
中的情感词总数,所述k为所述文本集
Figure FDA0003976332610000023
中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
2.根据权利要求1所述的方法,其特征在于,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure FDA0003976332610000024
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
3.根据权利要求1所述的方法,其特征在于,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中,包括:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
5.一种基于剧本角色的情感曲线分析装置,包括:
构建模块,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;所述情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;
预处理模块,其配置成对待分析的剧本文本进行预处理;
提取划分模块,其配置成从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
计算模块,其配置成对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中;
其中,所述计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
Figure FDA0003976332610000031
Figure FDA0003976332610000032
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令
Figure FDA0003976332610000041
表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集
Figure FDA0003976332610000042
中的情感词总数,所述k为所述文本集
Figure FDA0003976332610000043
中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
6.根据权利要求5所述的装置,其特征在于,所述事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
Figure FDA0003976332610000044
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
7.根据权利要求5所述的装置,其特征在于,所述映射显示模块具体配置成:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
8.根据权利要求5-7中任一项所述的装置,其特征在于,所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
CN201910683972.8A 2019-07-26 2019-07-26 基于剧本角色的情感曲线分析方法和装置 Active CN110457691B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910683972.8A CN110457691B (zh) 2019-07-26 2019-07-26 基于剧本角色的情感曲线分析方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910683972.8A CN110457691B (zh) 2019-07-26 2019-07-26 基于剧本角色的情感曲线分析方法和装置

Publications (2)

Publication Number Publication Date
CN110457691A CN110457691A (zh) 2019-11-15
CN110457691B true CN110457691B (zh) 2023-03-24

Family

ID=68483580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910683972.8A Active CN110457691B (zh) 2019-07-26 2019-07-26 基于剧本角色的情感曲线分析方法和装置

Country Status (1)

Country Link
CN (1) CN110457691B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112307269B (zh) * 2020-08-24 2022-09-30 山东理工职业学院 一种小说中人物关系的智能分析系统和方法
CN113553423B (zh) * 2021-07-05 2023-10-10 北京奇艺世纪科技有限公司 一种剧本信息处理方法、装置、电子设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480136A (zh) * 2017-08-02 2017-12-15 陈雷 一种应用于电影剧本中情感曲线分析的方法
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120311032A1 (en) * 2011-06-02 2012-12-06 Microsoft Corporation Emotion-based user identification for online experiences

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107480136A (zh) * 2017-08-02 2017-12-15 陈雷 一种应用于电影剧本中情感曲线分析的方法
CN109214008A (zh) * 2018-09-28 2019-01-15 珠海中科先进技术研究院有限公司 一种基于关键词提取的情感分析方法及系统

Also Published As

Publication number Publication date
CN110457691A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN113807098B (zh) 模型训练方法和装置、电子设备以及存储介质
US20140351228A1 (en) Dialog system, redundant message removal method and redundant message removal program
US20090182554A1 (en) Text analysis method
CN113705187A (zh) 预训练语言模型的生成方法、装置、电子设备和存储介质
CN110276023B (zh) Poi变迁事件发现方法、装置、计算设备和介质
US9633008B1 (en) Cognitive presentation advisor
KR101971582B1 (ko) 사용자 대화 의도 추출 기능 구비 채트봇을 활용한 헬스케어 지침 제공 방법 및 이를 위한 장치
JP2021503682A (ja) 関連性の検出及びレビューのためのコンテンツの対話型表現
CN112836052A (zh) 一种汽车评论文本观点挖掘方法、设备及存储介质
CN113220836A (zh) 序列标注模型的训练方法、装置、电子设备和存储介质
CN110457691B (zh) 基于剧本角色的情感曲线分析方法和装置
CN113360001A (zh) 输入文本的处理方法、装置、电子设备和存储介质
CN111144112A (zh) 文本相似度分析方法、装置和存储介质
CN111539207B (zh) 文本识别方法、文本识别装置、存储介质和电子设备
JP6626917B2 (ja) 英語の音節計算法に基づいた可読性評価方法及びシステム
US10803247B2 (en) Intelligent content detection
CN113850080A (zh) 一种押韵词推荐方法、装置、设备及存储介质
CN117112754A (zh) 信息处理方法、装置、电子设备及存储介质
CN116685966A (zh) 调整查询生成模式
Neelima et al. Extractive text summarization using deep natural language fuzzy processing
CN112860995A (zh) 交互方法、装置、客户端、服务器以及存储介质
US8666987B2 (en) Apparatus and method for processing documents to extract expressions and descriptions
CN111680146A (zh) 确定新词的方法、装置、电子设备及可读存储介质
CN113553410B (zh) 长文档处理方法、处理装置、电子设备和存储介质
CN114117082B (zh) 用于对待校正数据校正的方法、设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Method and Device for Analyzing Emotional Curves Based on Script Characters

Effective date of registration: 20230713

Granted publication date: 20230324

Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch

Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd.

Registration number: Y2023110000278