CN110457691A - 基于剧本角色的情感曲线分析方法和装置 - Google Patents
基于剧本角色的情感曲线分析方法和装置 Download PDFInfo
- Publication number
- CN110457691A CN110457691A CN201910683972.8A CN201910683972A CN110457691A CN 110457691 A CN110457691 A CN 110457691A CN 201910683972 A CN201910683972 A CN 201910683972A CN 110457691 A CN110457691 A CN 110457691A
- Authority
- CN
- China
- Prior art keywords
- chapters
- sections
- drama
- role
- emotional
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013211 curve analysis Methods 0.000 title claims abstract description 14
- 230000002996 emotional effect Effects 0.000 claims abstract description 172
- 230000008451 emotion Effects 0.000 claims abstract description 123
- 239000000284 extract Substances 0.000 claims abstract description 12
- 238000004821 distillation Methods 0.000 claims abstract description 7
- 238000013507 mapping Methods 0.000 claims abstract description 4
- 238000007781 pre-processing Methods 0.000 claims abstract description 4
- 230000001154 acute effect Effects 0.000 claims description 8
- 230000036651 mood Effects 0.000 claims description 7
- 238000004458 analytical method Methods 0.000 abstract description 23
- 238000000605 extraction Methods 0.000 abstract description 4
- 238000004590 computer program Methods 0.000 description 12
- 206010016275 Fear Diseases 0.000 description 4
- 230000008901 benefit Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 239000007787 solid Substances 0.000 description 3
- 241000208340 Araliaceae Species 0.000 description 2
- 235000005035 Panax pseudoginseng ssp. pseudoginseng Nutrition 0.000 description 2
- 235000003140 Panax quinquefolius Nutrition 0.000 description 2
- 235000008434 ginseng Nutrition 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种基于剧本角色的情感曲线分析方法和装置,属于文本情感分析技术领域。该方法包括:构建包含多个情感词的情感词典;对待分析的剧本文本预处理后提取剧本角色并划分章节;对每位剧本角色计算所在每一章节的情感类别,对每一章节提取关键事件;将每位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一折线图中,将每位剧本角色每一章节的关键事件也显示在折线图中。该装置包括:构建模块、预处理模块、提取划分模块、计算模块、事件提取模块、映射显示模块。本申请实现了基于剧本角色的情感曲线分析,情感曲线包含更多剧本信息,能够直观了解剧本整体情感走向和剧本角色间的情感关联。
Description
技术领域
本申请涉及文本情感分析技术领域,特别是涉及一种基于剧本角色的情感曲线分析方法和装置。
背景技术
文本情感分析是自然语言处理领域的热点问题,是一个对具有主观性情感色彩的文本信息进行处理、归纳、推理的过程。文本情感分析的应用场景非常广泛,例如在消费品行业,通过用户对产品评论的情感分析,可以挖掘用户对产品的满意程度,帮助企业及时调整产品策略。在社交媒体方面,对特定事件评论的情感分析,在舆情控制、突发事件检测等方面均有重大作用。常见的文本情感分析方法有三类:基于词典的文本情感分析方法、基于机器学习的方法和基于深度学习的分析方法。三种方法各有优缺点,在进行文本情感分析时可以根据文本特性和实验目的进行具体选择。
文本情感曲线是一种基于文本情感分析的具体情感模式,可以通过情感曲线展示文本的具体情感变化,一般用于长文本的情感分析,例如,一些学者研究小说文本的情感曲线,从而分析小说整体情感倾向。剧本是影视作品的核心,故事发展和人物关系都能在剧本中得到展现,通过对剧本的挖掘能够分析出其中蕴含的深层信息,尤其是对剧本的情感曲线分析,可以把握全局的核心价值,帮助用户从整体了解剧本的情感走向。但是,目前还没有基于剧本角色的情感曲线研究,对剧本文本的研究较少,因此,将剧本的情感分析应用在实际生活中,具有极高的应用价值。
发明内容
本申请的目的在于克服上述问题或者至少部分地解决或缓减解决上述问题。
根据本申请的一个方面,提供了一种基于剧本角色的情感曲线分析方法,包括:
构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
对待分析的剧本文本进行预处理;
从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
对划分后的每一章节,提取其关键事件;
对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
可选地,对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集中的情感词总数,所述k为所述文本集中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
可选地,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
可选地,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中,包括:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
可选地,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
根据本申请的另一个方面,提供了一种基于剧本角色的情感曲线分析装置,包括:
构建模块,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
预处理模块,其配置成对待分析的剧本文本进行预处理;
提取划分模块,其配置成从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
计算模块,其配置成对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
可选地,所述计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集中的情感词总数,所述k为所述文本集中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
可选地,所述事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
可选地,所述映射显示模块具体配置成:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
可选地,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
根据本申请的又一个方面,提供了一种计算设备,包括存储器、处理器和存储在所述存储器内并能由所述处理器运行的计算机程序,其中,所述处理器执行所述计算机程序时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机可读存储介质,优选为非易失性可读存储介质,其内存储有计算机程序,所述计算机程序在由处理器执行时实现如上所述的方法。
根据本申请的又一个方面,提供了一种计算机程序产品,包括计算机可读代码,当所述计算机可读代码由计算机设备执行时,导致所述计算机设备执行上述的方法。
本申请提供的技术方案,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
附图说明
后文将参照附图以示例性而非限制性的方式详细描述本申请的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解,这些附图未必是按比例绘制的。附图中:
图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图;
图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图;
图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图;
图4是根据本申请另一个实施例的计算设备结构图;
图5是根据本申请另一个实施例的计算机可读存储介质结构图。
具体实施方式
本申请提出一种基于剧本角色的情感曲线分析方法及装置,分章节对每一位剧本角色描绘情感曲线图,通过将多角色的情感曲线映射到一张图中,分析角色本身及角色间的情感倾向和情感关联,并在情感曲线的每一个节点处加入了该部分的文本关键事件信息,更大程度上丰富了情感曲线所展示的内容。
图1是根据本申请一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图1,该方法包括:
101:构建包含多个情感词的情感词典,且每一个情感词对应一组属性,该属性至少包括情感类别和情感强度;
本发明实施例中,文本情感分析具有领域特征,不同领域的文本数据无法通过相同语料库训练情感分析模型,而剧本属于一种特殊的文本体裁,很难去界定它的领域范围,并很难找到语义内容相近的语料库,因此,优选地,采用基于词典的情感分析方法。具体的,可以选取情感词汇本体作为情感词典,情感词汇本体包含了词汇的多种信息,包括但不限于:词性、情感类别、情感强度、情感极性等等,本实施例对此不做具体限定。
102:对待分析的剧本文本进行预处理;
103:从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
104:对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
105:对划分后的每一章节,提取其关键事件;
106:对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。
本实施例中,可选的,对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,w为文本集中的情感词总数,k为文本集中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别。
本实施例中,可选的,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件。
本实施例中,可选的,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中,包括:
当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例中,可选的,情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;情感强度包括:从高到低共多个档;属性还包括:词性和情感极性,词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;情感极性包括:褒义、中性和贬义。
本实施例提供的上述方法,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
图2是根据本申请另一个实施例的基于剧本角色的情感曲线分析方法流程图。参见图2,该方法包括:
201:构建包含多个情感词的情感词典,且每一个情感词对应一组属性,该属性至少包括情感类别和情感强度;
本实施例中,可选的,上述情感词典中的情感类别可以包括:喜、怒、哀、惧、恶和惊;情感强度可以包括:从低到高共多个档,如1,3,5,7,9共五档,9表示情感强度最大,1表示情感强度最小。上述属性还可以包括:词性和情感极性,上述词性可以包括:名词(noun)、动词(verb)、形容词(adj)、副词(adv)、网络词语(nw)、成语(idiom)和介词短语(prep);上述情感极性可以包括:褒义、中性和贬义,如可以设置为0代表中性,1代表褒义,-1代表贬义等等,具体不限定。
202:对待分析的剧本文本进行预处理;
本实施例中,上述预处理包括对剧本文本进行分词、去停用词等操作,去掉语气词、特殊符号和标点等。
203:从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
204:对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式(1)将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别;
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,w为文本集中的情感词总数,k为文本集中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
本实施例中,上述滑动窗口的长度可以根据需要设置,如15~40等等,具体不限定。设置长度L后的滑动窗口,从当前章节的头部开始滑动,当滑动窗口内包含当前剧本角色Ai的名称时,将此时滑动窗口内的文本均加入文本集中,直至该滑动窗口滑动至当前章节的末尾时停止。进一步地,当计算得到情感强度后,还可以将其进行归一化处理,使其数值范围在[0,1]之间,方便后续情感曲线的处理。
205:对划分后的每一章节,将其中每一个词汇p都按照如下公式(2)计算其TF-IDF值,对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件;
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
本实施例中,上述指定个数可以根据需要设置,具体数值不限定,如设置指定个数为5,则在该排序中提取出前五个最能代表该章节的词汇,作为当前章节的关键事件。
206:对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中;
其中,将所有剧本角色情感变化映射到一个折线图中,横坐标可以为章节,纵坐标可以为情感类别,每一个剧本角色对应一条折线,从而可以得到包含多条折线的折线图。
207:当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例提供的上述方法,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
图3是根据本申请另一个实施例的基于剧本角色的情感曲线分析装置结构图。参见图3,该装置包括:
构建模块301,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,属性至少包括情感类别和情感强度;
预处理模块302,其配置成对待分析的剧本文本进行预处理;
提取划分模块303,其配置成从预处理后的剧本文本中提取出剧本角色,并将剧本文本按照章节进行划分;
计算模块304,其配置成对提取出的每一位剧本角色,根据情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块305,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块306,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在折线图中。
本实施例中,可选的,计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以情感词典中是否包含为标准,找到文本集中的每一个情感词,并从情感词典中找到每一个情感词的情感类别和情感强度,对文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,i为剧本角色的当前序号,i={1,2,…,n},n为剧本角色的总数,j为章节的当前序号,j={1,2,…,m},m为剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,w为文本集中的情感词总数,k为文本集中情感词的当前序号,dk为第k个情感词前的否定词个数,αk为第k个情感词的情感强度,βk为第k个情感词的情感极性且由情感词典获得;
经过合并后,得到文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为当前章节的情感类别。
本实施例中,可选的,事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,m为剧本文本的章节数目,TF为词频,IDF为逆文本频率指数;
对当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为当前章节的关键事件。
本实施例中,可选的,映射显示模块具体配置成:
当检测到鼠标悬停于折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
本实施例中,可选的,情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;情感强度包括:从高到低共多个档;属性还包括:词性和情感极性,词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;情感极性包括:褒义、中性和贬义。
本实施例提供的上述装置,可以执行上述任一方法实施例提供的方法,详细过程详见方法实施例中的描述,此处不赘述。
本实施例提供的上述装置,通过构建情感词典,从剧本文本中提取剧本角色且划分章节,计算每一位剧本角色所在每一章节的情感类别,提取每一章节的关键事件,将每一位剧本角色的情感类别及章节的对应关系映射成一条折线,得到所有折线后显示在同一个折线图中,实现了基于剧本角色的情感曲线分析,以剧本角色为对象多角度分析剧本情感走向,将所有角色的情感曲线映射到一张图中,帮助用户直观地了解剧本整体情感走向和剧本角色间的情感关联。通过TF-IDF算法提取每一位剧本角色每一章节的关键事件,并将其展现在情感曲线图中,克服了情感曲线过于单一的缺点,使得情感曲线包含更多剧本信息,丰富了情感曲线图的信息。
进一步地,基于情感词的情感强度和情感极性,将相同情感类别的情感强度进行合并,能够最大程度地反映情感强度,将情感强度最大的情感类别作为章节的情感类别更具有代表性。
根据下文结合附图对本申请的具体实施例的详细描述,本领域技术人员将会更加明了本申请的上述以及其他目的、优点和特征。
本申请实施例还提供了一种计算设备,参照图4,该计算设备包括存储器1120、处理器1110和存储在所述存储器1120内并能由所述处理器1110运行的计算机程序,该计算机程序存储于存储器1120中的用于程序代码的空间1130,该计算机程序在由处理器1110执行时实现用于执行任一项根据本发明的方法步骤1131。
本申请实施例还提供了一种计算机可读存储介质。参照图5,该计算机可读存储介质包括用于程序代码的存储单元,该存储单元设置有用于执行根据本发明的方法步骤的程序1131′,该程序被处理器执行。
本申请实施例还提供了一种包含指令的计算机程序产品。当该计算机程序产品在计算机上运行时,使得计算机执行根据本发明的方法步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、获取其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令处理器完成,所述的程序可以存储于计算机可读存储介质中,所述存储介质是非短暂性(英文:non-transitory)介质,例如随机存取存储器,只读存储器,快闪存储器,硬盘,固态硬盘,磁带(英文:magnetic tape),软盘(英文:floppy disk),光盘(英文:optical disc)及其任意组合。
以上所述,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于剧本角色的情感曲线分析方法,包括:
构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
对待分析的剧本文本进行预处理;
从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
对划分后的每一章节,提取其关键事件;
对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
2.根据权利要求1所述的方法,其特征在于,对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别,包括:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集中的情感词总数,所述k为所述文本集中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
3.根据权利要求1所述的方法,其特征在于,对划分后的每一章节,提取其关键事件,包括:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
4.根据权利要求1所述的方法,其特征在于,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中,包括:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
5.根据权利要求1-4中任一项所述的方法,其特征在于,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
6.一种基于剧本角色的情感曲线分析装置,包括:
构建模块,其配置成构建包含多个情感词的情感词典,且每一个情感词对应一组属性,所述属性至少包括情感类别和情感强度;
预处理模块,其配置成对待分析的剧本文本进行预处理;
提取划分模块,其配置成从所述预处理后的剧本文本中提取出剧本角色,并将所述剧本文本按照章节进行划分;
计算模块,其配置成对提取出的每一位剧本角色,根据所述情感词典及章节中的情感词,计算当前剧本角色所在每一章节的情感类别;
事件提取模块,其配置成对划分后的每一章节,提取其关键事件;
映射显示模块,其配置成对每一位剧本角色,将其情感类别及章节的对应关系映射成一条折线,得到所有剧本角色的折线后显示在同一个折线图中,按照指定方式将每一位剧本角色每一章节的关键事件也显示在所述折线图中。
7.根据权利要求6所述的装置,其特征在于,所述计算模块具体配置成:
对提取出的每一位剧本角色Ai,分析其所在的每一个章节,在当前章节内,利用滑动窗口获取当前剧本角色对应的文本集,以所述情感词典中是否包含为标准,找到所述文本集中的每一个情感词,并从所述情感词典中找到所述每一个情感词的情感类别和情感强度,对所述文本集得到的所有情感类别,如果有相同的情感类别,则按照如下公式将该情感类别对应的各个情感强度合并,得到该情感类别对应的情感强度
其中,所述i为剧本角色的当前序号,i={1,2,…,n},所述n为剧本角色的总数,所述j为章节的当前序号,j={1,2,…,m},所述m为所述剧本文本的章节总数,令表示第j个章节中第i个剧本角色对应的文本集,所述w为所述文本集中的情感词总数,所述k为所述文本集中情感词的当前序号,所述dk为第k个情感词前的否定词个数,所述αk为第k个情感词的情感强度,所述βk为第k个情感词的情感极性且由所述情感词典获得;
经过所述合并后,得到所述文本集内每个情感类别及其对应的情感强度,选择情感强度最大的情感类别作为所述当前章节的情感类别。
8.根据权利要求6所述的装置,其特征在于,所述事件提取模块具体配置成:
对划分后的每一章节,将其中每一个词汇p都按照如下公式计算其TF-IDF值:
其中,所述m为所述剧本文本的章节数目,所述TF为词频,所述IDF为逆文本频率指数;
对所述当前章节计算得到的所有词汇的TF-IDF值从高到低进行排序,提取出指定个数的排序在前的词汇作为所述当前章节的关键事件。
9.根据权利要求6所述的装置,其特征在于,所述映射显示模块具体配置成:
当检测到鼠标悬停于所述折线图中某一位剧本角色某一章节的情绪转变关键点时,显示该章节的关键事件。
10.根据权利要求6-9中任一项所述的装置,其特征在于,所述情感词典中的情感类别包括:喜、怒、哀、惧、恶和惊;所述情感强度包括:从高到低共多个档;所述属性还包括:词性和情感极性,所述词性包括:名词、动词、形容词、副词、网络词语、成语和介词短语;所述情感极性包括:褒义、中性和贬义。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683972.8A CN110457691B (zh) | 2019-07-26 | 2019-07-26 | 基于剧本角色的情感曲线分析方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910683972.8A CN110457691B (zh) | 2019-07-26 | 2019-07-26 | 基于剧本角色的情感曲线分析方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457691A true CN110457691A (zh) | 2019-11-15 |
CN110457691B CN110457691B (zh) | 2023-03-24 |
Family
ID=68483580
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910683972.8A Active CN110457691B (zh) | 2019-07-26 | 2019-07-26 | 基于剧本角色的情感曲线分析方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457691B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307269A (zh) * | 2020-08-24 | 2021-02-02 | 山东理工职业学院 | 一种小说中人物关系的智能分析系统和方法 |
CN113553423A (zh) * | 2021-07-05 | 2021-10-26 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120311032A1 (en) * | 2011-06-02 | 2012-12-06 | Microsoft Corporation | Emotion-based user identification for online experiences |
CN107480136A (zh) * | 2017-08-02 | 2017-12-15 | 陈雷 | 一种应用于电影剧本中情感曲线分析的方法 |
CN109214008A (zh) * | 2018-09-28 | 2019-01-15 | 珠海中科先进技术研究院有限公司 | 一种基于关键词提取的情感分析方法及系统 |
-
2019
- 2019-07-26 CN CN201910683972.8A patent/CN110457691B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120311032A1 (en) * | 2011-06-02 | 2012-12-06 | Microsoft Corporation | Emotion-based user identification for online experiences |
CN107480136A (zh) * | 2017-08-02 | 2017-12-15 | 陈雷 | 一种应用于电影剧本中情感曲线分析的方法 |
CN109214008A (zh) * | 2018-09-28 | 2019-01-15 | 珠海中科先进技术研究院有限公司 | 一种基于关键词提取的情感分析方法及系统 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112307269A (zh) * | 2020-08-24 | 2021-02-02 | 山东理工职业学院 | 一种小说中人物关系的智能分析系统和方法 |
CN112307269B (zh) * | 2020-08-24 | 2022-09-30 | 山东理工职业学院 | 一种小说中人物关系的智能分析系统和方法 |
CN113553423A (zh) * | 2021-07-05 | 2021-10-26 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
CN113553423B (zh) * | 2021-07-05 | 2023-10-10 | 北京奇艺世纪科技有限公司 | 一种剧本信息处理方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110457691B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11551567B2 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
US11151143B2 (en) | Recommendation engine using inferred deep similarities for works of literature | |
Gu et al. | " what parts of your apps are loved by users?"(T) | |
Ghosh et al. | Fracking sarcasm using neural network | |
JP6956337B2 (ja) | 関連性の検出及びレビューのためのコンテンツの対話型表現 | |
US20180366013A1 (en) | System and method for providing an interactive visual learning environment for creation, presentation, sharing, organizing and analysis of knowledge on subject matter | |
CN107818085B (zh) | 阅读机器人进行阅读理解的答案选择方法及系统 | |
US10496756B2 (en) | Sentence creation system | |
US9633008B1 (en) | Cognitive presentation advisor | |
Wu et al. | Community answer generation based on knowledge graph | |
US20220121712A1 (en) | Interactive representation of content for relevance detection and review | |
US20200151220A1 (en) | Interactive representation of content for relevance detection and review | |
Abdallah et al. | Multi-domain evaluation framework for named entity recognition tools | |
Chinsha et al. | Aspect based opinion mining from restaurant reviews | |
CN111199151A (zh) | 数据处理方法、及数据处理装置 | |
Osman et al. | From natural language text to visual models: A survey of issues and approaches | |
CN109992651B (zh) | 一种问题目标特征自动识别和抽取方法 | |
CN110457691A (zh) | 基于剧本角色的情感曲线分析方法和装置 | |
Orekhov et al. | Using Internet News Flows as Marketing Data Component. | |
Kishimoto et al. | Improving crowdsourcing-based annotation of japanese discourse relations | |
Rahul et al. | Social media sentiment analysis for Malayalam | |
Reiter-Haas et al. | FrameFinder: Explorative Multi-Perspective Framing Extraction from News Headlines | |
Ge et al. | Feature extraction and opinion summarization in chinese reviews | |
Sevilla et al. | Enriched semantic graphs for extractive text summarization | |
Gîfu et al. | Towards an Automated Semiotic Analysis of the Romanian Political Discourse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A Method and Device for Analyzing Emotional Curves Based on Script Characters Effective date of registration: 20230713 Granted publication date: 20230324 Pledgee: Bank of Jiangsu Limited by Share Ltd. Beijing branch Pledgor: BEIJING MOVIEBOOK SCIENCE AND TECHNOLOGY Co.,Ltd. Registration number: Y2023110000278 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right | ||
PP01 | Preservation of patent right |
Effective date of registration: 20241008 Granted publication date: 20230324 |