CN110750699A - 一种面向票房预测的影评情感可视化方法 - Google Patents

一种面向票房预测的影评情感可视化方法 Download PDF

Info

Publication number
CN110750699A
CN110750699A CN201910992407.XA CN201910992407A CN110750699A CN 110750699 A CN110750699 A CN 110750699A CN 201910992407 A CN201910992407 A CN 201910992407A CN 110750699 A CN110750699 A CN 110750699A
Authority
CN
China
Prior art keywords
emotion
film
types
evaluation
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910992407.XA
Other languages
English (en)
Other versions
CN110750699B (zh
Inventor
朱敏
谢治海
梁晶
夏婷
牛颢
周峥澔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN201910992407.XA priority Critical patent/CN110750699B/zh
Publication of CN110750699A publication Critical patent/CN110750699A/zh
Application granted granted Critical
Publication of CN110750699B publication Critical patent/CN110750699B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Quality & Reliability (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Marketing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向票房预测的影评情感可视化方法,采集电影信息及电影影评数据,对采集到的数据进行预处理;针对影评数据,使用分词向量法提取影评情感类型与强度特征;设计影评情感视觉编码表示情感类型与强度;设计影评情感时空分布;实现影评情感可视化布局和票房预测可视化布局。本发明弥补了现状中存在的缺乏对数据属性关联分析,缺乏对影评情感类型与强度综合分析的不足之处,使用直观的可视化元素与灵活的交互,对影评情感的类型与强度进行编码映射。

Description

一种面向票房预测的影评情感可视化方法
技术领域
本发明涉及信息可视化分析技术领域,特别是一种面向票房预测的影评情感可视化方法。
背景技术
近年来,电影逐步成为人们主要的日常娱乐活动之一,同时影评也成为了人们选择影片的重要参考,影评也逐渐成为影响电影票房的因素之一。然而,影评中表达出的情感很难被客观量化,现有的面向票房预测的影评情感研究难以让电影行业分析者直观地对影片情感进行多角度探索与分析,导致电影行业分析者分析影评情感对票房预测的影响具有一定挑战。
过去几年,研究人员使用不同研究方法对面向票房预测的影评数据进行了多角度的分析。大多数研究关注于票房预测模型、影评情感分析,采用的研究方法主要包括回归分析法、数据挖掘算法等。对影片票房的分析主要集中在影片类型、放映场次、上映日期、影片阵容等关系研究上,包含影评情感对人们选择影片的意愿程度、上映日期是否在节假日等。
同时,由于信息可视化与可视分析方法可以帮助电影行业分析人员利用可视化呈现的直观性与视图间的交互,探索隐藏在数据背后的规律与模式,可视化与可视分析也成为多角度分析影评数据的有力工具。目前已有的研究侧重于影评情感极性的分析、趋势分析等,采用具有时空特征的视图(如:地图、时间轴气泡图等)展示分析影评数据。
上述几种方法是目前对面向票房预测的影评情感研究的主要方法,但仍然存在不足之处。首先,统计分析方法存在分析结果单一、分析程度较浅等问题;数据挖掘算法存在分析结果可解释性较差等特点。同时,现有的研究面向票房预测的影评情感方法未能较好地结合该类数据时间、空间等多重结构特征,未对数据特征与特征间的关联关系中蕴含的规律进行挖掘。其次,采用可视化与可视分析方法的研究较为少,已有的研究存在分析问题简单、可视化视图单一、缺乏视图交互等缺点,很少关注影评数据属性的多样性以及属性间的关联性,无法从多角度分析影评数据对票房预测的影响。
发明内容
本发明所要解决的技术问题是提供一种面向票房预测的影评情感可视化方法,能够快速有效地帮助电影行业分析者通过不同视角从复杂的影评数据中挖掘有用的信息并做出有效决策。
为解决上述技术问题,本发明采用的技术方案是:
一种面向票房预测的影评情感可视化方法,包括以下步骤:
步骤1:进行页面获取与解析、数据结果设计以及数据存储,采集电影信息及电影影评数据;
步骤2:采用Jieba分词算法对影评文本进行分词;分词之后,遍历停用词表,过滤停用词;经过影评文本预处理后,每条影评文本会被处理成若干条有效的词条;
步骤3:分析影评情感类型与强度
1)基于情感本体分类方法,整合情感词典库,同时加入网络词汇,消除网络词汇与传统词汇之间存在的歧义性,由此作为情感词汇的来源;
2)结合否定词词典和程度副词词典构成评价词典;
3)影评情感本体模型由一个三元组来描述,即MEO=(W,E,I);其中,W表示经过分词处理的词条和在情感词典中的词性以及词条所在上下文中的评价词;E表示词条的情感类型与匹配度,在计算匹配度时需要将提取到的具有情感含义的词条与各种情感类型比较,将匹配度最大的作为该词条的情感类型,具体计算方式如下所示:
其中,W1和W2表示两个评价词,S1i和S2j分别是W1和W2的n个与m个义项(概念),则W1和W2的相似度就是各个概念的相似度的最大值;
I表示情感单词的强度;若情感强度级别设分为T={t1,t2,...tn},则情感词条的情感强度值I(wj)的计算公式如下所示:
Figure BDA0002238683270000032
其中,Pi(wj)为情感词条wj的评价词出现在情感强度级别ti中的概率,再通过加权平均计算方式得出一部电影影评数据集的情感类型分布;
步骤4:票房预测
引入情感因素,使用过去某段时间内计算得到的票房预测值预测当前票房预测值,得到情感感知自回归预测公式:
Figure BDA0002238683270000033
其中,Nt-i,j表示情感类型j在t-i时刻的平均数量,It-i,j表示情感类别j在t-i时刻的平均强度值,参数p表示前期票房考虑的天数,q表示提前几天考虑情感因素,k表示情感种类,фi和ρi,j是估计值,εt则假设平均数为0;
步骤5:设计可视化映射方案;针对预处理过的影评情感数据,提取出设定情感类型,定义各个情感类型的可视化映射方案;其中,包含设计影评情感地图视觉映射表示影评情感极性在地理区域特征上的分布;设计情感舵盘视图视觉映射表示影评情感类型与强度在时间特征上的分布;设计情感主题气泡视图视觉映射表示影评情感主题的变化趋势;设计票房预测视图视觉映射表示影评情感类型与票房预测之间的影响关系。
步骤6:布局影评情感可视化
影评情感地图:计算影评用户的位置坐标点的情感值,基于Kriging空间插值法,推算出地理区域的情感极性分布;
影评情感舵盘视图:根据影评产生的时间及其情感类型,计算电影在某段时间内的情感类型及其强度的分布;
情感主题气泡视图:计算影评中属于某种情感类型的高频主题词,并根据主题词的词频计算情感主题气泡的大小;
票房预测视图:计算影评中各类情感类型在票房预测中的影响占比,以堆叠方式分布在柱状图上。
进一步地,所述步骤6具体为:
1)影评情感地图布局:情感地图上,用黄色区域表示积极情感,用紫色区域表示消极情感,情感地图下方放置时间轴,通过拖动时间轴可以查看某个时间段内的情感极性趋势;
2)影评情感舵盘布局:内圆有个黑色背景的中心圆,放置某日日期,中心圆外用扇形分布各种情感类型,扇形的大小表示影评情感类型的百分占比,占比越大表示该天该情感在影评中占比越多;外圆内环上分布日期,外圆环外分布不同情感类型在各个时间段内的走势,且该情感类型的强度值被外圆环上的圆形网格划分;
3)影评情感主题气泡布局:在数据表mTable中存有每条影评的情感类型以及主题词,计算属于某一情感类型下的高频主题词,用情感色表编码气泡,其中气泡的颜色、文字和大小分别表征情感类型、情感主题词、和情感主题词的频次;
4)电影票房预测布局:计算某段时间内的票房预测值,预测下一阶段的票房预测值,用分组柱状图分别表示影评情感类型和票房;其中,每组柱状图中,左侧用堆叠柱状表示各种影评情感类型,用情感色表表征不同情感类型对票房预测的贡献度,右侧浅粉色的柱状表示票房预测值。
进一步地,还包括步骤7:修改情感类型强度值;假设用户对第i个情感类型的强度进行修改,修改后的强度为I'i,则其余情感词的权重将会按照比例被重新分配为:
Figure BDA0002238683270000051
进一步地,所述步骤7中还包括合并情感类型;若用户合并了第i和第j个情感类型,则新的情感类型r的情感强度将根据所属情感极性进行重新分配,如下所示:
Figure BDA0002238683270000052
其中,Ii、Ij、Ir分别表示第i、第j、第r个情感类型。
与现有技术相比,本发明的有益效果是:
1)弥补了现状中存在的缺乏对数据属性关联分析,缺乏对影评情感类型与强度综合分析的不足之处,使用直观的可视化元素与灵活的交互,对影评情感的类型与强度进行编码映射,帮助电影行业分析者发现影评情感对票房预测的影响,进而制定相应的策略。
2)弥补了现状中对情感类型与强度交互编辑方式的不足。提供多种交互方式,方便电影行业分析者根据结果进行再次编辑情感类型并再次计算,从交互过程中洞察新的分析点。
附图说明
图1是本发明整体流程示意图。
图2是本发明中影评情感极性的情感地图示意图。
图3是本发明中影评情感类型色表及情感类型强度色表示意图。
图4是本发明中影评情感类型与强度(情感舵盘)的视觉编码示意图。
图5是本发明中影评情感主题气泡示意图。
图6是本发明中票房预测示意图。
图7是本发明中影片选择列表。
图8是本发明中影评情感类型控制面板。
具体实施方式
下面结合附图和具体实施对本发明做进一步详细说明。
本发明通过有效的信息可视化方法,结合多视图融合策略以及灵活的交互手段,实现对影片影评情感类型与强度的可视分析,进而发现影评情感类型与强度对票房预测的影响,包括:数据采集与处理,影评情感类型与强度分析,构建票房预测方法,可视化映射与编码,可视化布局实现,情感修正。具体如下:
一、数据采集与预处理
1、数据采集:采集本发明中需要的电影数据,包括电影名称、导演、主演、电影简介、上映日期、影评用户位置,影评文本;将基本的电影信息渲染至影片选择列表。基于Python爬虫框架Scrapy设计爬虫程序,进行页面获取与解析、数据结果设计以及数据存储,完成电影信息及电影影评数据的采集,并对采集到的数据进行预处理。
2、预处理:采用Jieba分词算法对影评文本进行分词,使用精确模式将影评句子精确地划分开。分词之后,遍历停用词表,过滤停用词。经过影评文本预处理后,每条影评文本会被处理成若干条有效的词条。影评数据构建数据字典:数据项按照(id,userid,reviews,date,positon,emotion,intensity,polarity,keyword)存入数据库的某张电影表中(如:mTable),其中id是自增长主键、userid是影评用户id、reviews是预处理之后的影评用户的影评文本、date是影评用户发布影评的时间、position是影评用户所在的地理位置、emotion是影评的情感类型(默认为null)、intensity是影评情感类型的强度(默认为0)、polarity是影评情感的极性(默认为null)、keyword是影评主题词(默认为null)。
二、影评情感类型与强度分析
1、基于情感本体分类方法,整合多个公开的情感词典库(包括:具有丰富社交媒体文本数据的BosonNLP情感词典、知网情感词典、NTUSD情感词典),同时加入网络词汇,尽可能地消除网络词汇与传统词汇之间存在的歧义性,由此作为情感词汇的来源。
2、其次,结合否定词词典(如:“难道、别、勿、非、不、未、否”等词)和程度副词词典(如:“最、极、很、太、过于、有些、比较”等词)构成评价词典。最后,影评情感本体模型(MovieReview Emotion Ontology)将由一个三元组来描述,即MEO=(W,E,I)。其中,T(词条,词性,评价词)表示经过分词处理的词条和在情感词典中的词性以及词条所在上下文中的评价词;E(情感类型,匹配度,极性)表示词条的情感类型与匹配度;I表示情感单词的强度。比如:
MEO=((肩负,V,很可能),(期待,0.32,1),0.36))
其中,“肩负”是具有情感含义的词条,将其在情感词典中进行词性匹配,其属于V,对应的情感类型是“期待”。依据Plutchik提出的情绪色论理论将情绪分为8种类型(愉快、期待、钦佩、惊讶、恐怖、悲伤、生气、无聊),愉快、期待、钦佩属于积极情感,悲伤、生气、无聊属于消极情感,惊讶、恐怖属于中性情感,分别用1、-1、0表示。因此,在计算匹配度时需要将提取到的具有情感含义的词条与8种情感类型比较,将匹配度最大的作为该词条的情感类型,具体计算方式如(1)式所示:
Figure BDA0002238683270000081
即将匹配度的计算转换为情感词条与情感类型之间语义相似度的计算,将匹配度置为相似度的最大值,由此标注一条影评文本的情感类型。
情感词条的情感强度很大程度上受到程度副词和否定词的影响。假设将情感强度级别设分为T={t1,t2,...tn},那么情感词条的情感强度值I(wj)的计算公式如(2)式所示:
Figure BDA0002238683270000082
其中,Pi(wj)为情感词条wj的评价词出现在情感强度级别ti中的概率,再通过加权平均计算方式得出一部电影影评数据集的情感类型分布。
三、票房预测方法
基于自回归预测模型,构建基于影评情感类型与强度的票房预测模型。使用自回归预测模型(如(3)式所示)对过去某段时间内计算得到的票房预测值预测当前票房预测值。
其中,xi为电影票房在t(t=1,2...,n)时的预测收入,c是常数,εt假设为平均数等于0,标准差等于σ的随机误差值,
Figure BDA0002238683270000085
是模型参数。由于本发明考虑的是影评的情感类型与强度对票房的影响,因此,引入情感因素对预测模型(即:公式(3))进行改进,得到新的情感感知自回归预测公式:
Figure BDA0002238683270000084
其中,Nt-i,j表示情感类型j在t-i时刻的平均数量,It-i,j表示情感类别j在t-i时刻的平均强度值,参数p表示前期票房考虑的天数,q表示提前几天考虑情感因素,k表示情感种类,фi和ρi,j是估计值,εt则假设平均数等于0。
四、设计可视化映射方案
1、针对影评情感分词,通过分析需求或假设,定义各个影评情感类型对应的映射方案,从而进行关联分析。具体过程包括:
针对影评情感的类型与强度,以及票房预测,定义各个情感类型的色表,情感强度值。情感色表分为8种,分别表示不同的情感类型,同时对应由浅至深的颜色渐变方案,表示不同类型的情感强度;
情感色表中,分别用黄色表示情感类型“愉快”,橙色表示情感类型“期待”,青色表示情感类型“钦佩”,深蓝色表示情感类型“惊讶”,深绿色表示情感类型“恐怖”,红色表示情感类型“生气”,浅蓝色表示情感类型“悲伤”,紫色表示情感类型“无聊”。
2、设计影评情感类型与影评情感强度的视觉映射,用不同颜色映射不同情感类型。具体过程包括:
1)设计影评情感地图视觉映射:情感地图上,用黄色区域表示积极情感,用紫色区域表示消极情感,情感地图下方放置时间轴,通过拖动时间轴可以查看某个时间段内(以“日”为单位)的情感极性趋势;
2)设计影评情感舵盘视觉映射:内圆有个黑色背景的中心圆,放置某日日期,中心圆外用扇形分布8种情感类型,扇形的大小表示影评情感类型的百分占比,占比越大表示该天该情感在影评中占比越多。外圆内环上分布日期(以“日”为单位),外圆环外分布不同情感类型在各个时间段内的走势,且该情感类型的强度值被外圆环上的圆形网格划分(划分为1-10个强度值,值越高强度越强);
3)设计影评情感主题气泡视觉映射:在数据表mTable中存有每条影评的情感类型以及主题词,计算属于某一情感类型下的高频主题词,用情感色表编码气泡,其中气泡的颜色、文字和大小分别表征情感类型、情感主题词、和情感主题词的频次;
4)设计电影票房预测视觉映射:计算某段时间内的票房预测值,预测下一阶段的票房预测值(时间以“日”为单位),用分组柱状图分别表示影评情感类型和票房。其中,每组柱状图中,左侧用堆叠柱状表示8种影评情感类型,用情感色表表征不同情感类型对票房预测的贡献度,右侧浅粉色的柱状表示票房预测值。
五、可视化布局
1、影评情感地图布局
Kriging插值法基于最小二乘法,用方差作为权重函数,适合根据用点数据估计区域分布。预处理后的影评词条中包含词条的时间、地理位置、情感极性等特征,依据该特征,以地理位置为Kriging插值法的用点数据,推算出该点区域的情感极性分布。同时,对情感极性为“消极”的点映射为紫色,对情感极性为“积极”的点映射为黄色。情感地图下方,放置时间轴,拖动时间轴可以查看某时间段内情感极性的动态分布。
根据每条影评的情感极性和用户位置,应用Kriging插值法绘制出区域的情感极性趋势。具体公式如(5)式所示:
Figure BDA0002238683270000101
其中,pi为用户位置,z(pi)为在位置pi的情感极性,λi是权值,其和等于1。
2、影评情感舵盘布局
情感舵盘布局是基于时间与情感强度的布局方式,舵盘式的布局方式能够方便分析影评情感在时间上的分布。情感舵盘中心圆初始为电影上映时间,中心圆外圆部分按8等分等比例分布8种情感类型的情感强度。通过点击中心圆,可以选择时间,分析其他时间点的情感类型强度分布。情感舵盘外圆则分布了连续的6日的情感类型强度的趋势,用直线连接绘制。在情感舵盘外圆上,某情感类型上一日的情感强度值将连接到其在下一日的情感强度值;分布在外圆上的环状网格用以区分情感强度值。
计算每种情感类型在当日的影评情感类型的占比,获取百分比分布在内圆上绘制饼图;计算每种情感类型在某连续6日的情感强度值Ii,Ii+1与Ii用直线连接绘制,分布在外圆环圆形环状网格上。
3、影评情感主题气泡布局
本发明中影评与情感类型之间存在n:1的关系,情感主题气泡布局引入时间因素,能进一步帮助分析影评情感主题的变化。计算得到从属于某一情感类型在某时间内的高频主题词,根据高频主题词的词频计算主题气泡大小,并映射该情感类型的颜色以及将主题词填充至主题气泡中。同时,坐标轴x轴为时间轴,y轴为情感类型在某时间内的情感强度,主题气泡的布局依据情感强度值进行布局。绘制气泡时,若当前绘制的气泡与前一个已渲染的气泡发生重叠或碰撞,则沿x轴正方向绘制当前气泡。
计算每种情感类型在某段时间内(以“日”为单位)的情感强度值Ii和主题词频次Fi,根据Fi设置圆的半径绘制气泡。在气泡内填充主题词并用主题词所代表的情感类型的色表渲染气泡颜色。
4、电影票房预测布局。仅对影评情感类型、强度、主题进行可视化布局,还不足以分析影评情感类型对票房预测的影响。因此,电影票房预测布局能进一步帮助分析该问题。本发明基于分组柱状图,将每组以堆叠方式分别放置8类影评情感类型对票房预测的贡献百分比(用8类情感类型的色表映射)以及票房预测值(用淡粉色映射)。
计算某段时间内(以“日”为单位)不同影评情感类型在该时间单位内百分占比Pi,按百分占比大小从下至上升序排列绘制情感类型堆叠条形图;计算该时间单位内票房预测值(元),当票房预测值超过亿元,以“亿”为单位绘制y轴的刻度值;当票房预测值小于亿元,则以“万”为单位绘制y轴的刻度值。
六、情感修正
影评情感可视分析中,电影行业分析者可能会发现一些不合理的情感分布,例如某类情感的强度过大,或者分析者想探索不同情感类型合并后的结果。为了使情感自回归预测方法更加精确,电影行业分析者可以对8种情感类型进行控制。为此,本发明为用户提供了“修改情感类型强度值”和“合并情感类型”的操作。在影评情感类型控制面板上,通过修改某一情感类型的强度值,其他类型的情感强度值也会被重新分配;通过合并某两种情感类型,会形成新的情感类型,其他类型的情感强度值也会被重新分配。
1、修改情感类型强度值
电影行业分析者在影评情感类型控制面板上可以调整某一情感类型的强度(如:“愉快”的情感强度),调整后,其他情感类型的强度也会被重新分配。
以拖拽方式修改情感类型强度值,修改之后,其他情感类型的强度值将重新分配,最终各个情感类型强度值合计为1。点击”Update”按钮,将重新渲染可视化视图。假设用户对第i个情感类型的强度进行修改,修改后的强度为I'i,则其余情感词的权重将会按照比例被重新分配为:
Figure BDA0002238683270000121
2、合并情感类型
电影行业分析者可以在影评情感类型控制面板上合并某两种情感类型(如:合并“期待”和“无聊”),合并后,会生成新的情感类型,其他情感类型的强度也会被重新分配。
以复选框方式选择2种情感类型,点击“Merge”按钮,将形成新的情感类型,并重新分配各个情感类型的强度值。点击“Update”按钮,将重新渲染可视化视图。假设用户合并了第i和第j个情感类型,那么新的情感类型r的情感强度将根据所属情感极性进行重新计算。有下列4种情况,如下表所示。
Figure BDA0002238683270000131
其中,Ii、Ij、Ir分别表示第i、第j、第r个情感类型。

Claims (4)

1.一种面向票房预测的影评情感可视化方法,其特征在于,包括以下步骤:
步骤1:进行页面获取与解析、数据结果设计以及数据存储,采集电影信息及电影影评数据;
步骤2:采用Jieba分词算法对影评文本进行分词;分词之后,遍历停用词表,过滤停用词;经过影评文本预处理后,每条影评文本会被处理成若干条有效的词条;
步骤3:分析影评情感类型与强度
1)基于情感本体分类方法,整合情感词典库,同时加入网络词汇,消除网络词汇与传统词汇之间存在的歧义性,由此作为情感词汇的来源;
2)结合否定词词典和程度副词词典构成评价词典;
3)影评情感本体模型由一个三元组来描述,即MEO=(W,E,I);其中,W表示经过分词处理的词条和在情感词典中的词性以及词条所在上下文中的评价词;E表示词条的情感类型与匹配度,在计算匹配度时需要将提取到的具有情感含义的词条与各种情感类型比较,将匹配度最大的作为该词条的情感类型,具体计算方式如下所示:
Figure FDA0002238683260000011
其中,W1和W2表示两个评价词,S1i和S2j分别是W1和W2的n个与m个义项,即概念,则W1和W2的相似度就是各个概念的相似度的最大值;
I表示情感单词的强度;若情感强度级别设分为T={t1,t2,...tn},则情感词条的情感强度值I(wj)的计算公式如下所示:
Figure FDA0002238683260000012
其中,Pi(wj)为情感词条wj的评价词出现在情感强度级别ti中的概率,再通过加权平均计算方式得出一部电影影评数据集的情感类型分布;
步骤4:票房预测
引入情感因素,使用过去某段时间内计算得到的票房预测值预测当前票房预测值,得到情感感知自回归预测公式:
其中,Nt-i,j表示情感类型j在t-i时刻的平均数量,It-i,j表示情感类别j在t-i时刻的平均强度值,参数p表示前期票房考虑的天数,q表示提前几天考虑情感因素,k表示情感种类,фi和ρi,j是估计值,εt则假设平均数为0;
步骤5:设计可视化映射方案
针对预处理过的影评情感数据,提取出设定情感类型,定义各个情感类型的可视化映射方案;其中,包含设计影评情感地图视觉映射表示影评情感极性在地理区域特征上的分布;设计情感舵盘视图视觉映射表示影评情感类型与强度在时间特征上的分布;设计情感主题气泡视图视觉映射表示影评情感主题的变化趋势;设计票房预测视图视觉映射表示影评情感类型与票房预测之间的影响关系;
步骤6:布局影评情感可视化
影评情感地图:计算影评用户的位置坐标点的情感值,基于Kriging空间插值法,推算出地理区域的情感极性分布;
影评情感舵盘视图:根据影评产生的时间及其情感类型,计算电影在某段时间内的情感类型及其强度的分布;
情感主题气泡视图:计算影评中属于某种情感类型的高频主题词,并根据主题词的词频计算情感主题气泡的大小;
票房预测视图:计算影评中各类情感类型在票房预测中的影响占比,以堆叠方式分布在柱状图上。
2.根据权利要求1所述的一种面向票房预测的影评情感可视化方法,其特征在于,还包括步骤7:修改情感类型强度值;假设用户对第i个情感类型的强度进行修改,修改后的强度为I'i,则其余情感词的权重将会按照比例被重新分配为:
Figure FDA0002238683260000031
3.根据权利要求2所述的一种面向票房预测的影评情感可视化方法,其特征在于,所述步骤7中还包括合并情感类型;若用户合并了第i和第j个情感类型,则新的情感类型r的情感强度将根据所属情感极性进行重新分配,如下所示:
Figure FDA0002238683260000032
其中,Ii、Ij、Ir分别表示第i、第j、第r个情感类型。
4.根据权利要求1所述的一种面向票房预测的影评情感可视化方法,其特征在于,所述步骤6具体为:
1)影评情感地图布局:情感地图上,用黄色区域表示积极情感,用紫色区域表示消极情感,情感地图下方放置时间轴,通过拖动时间轴可以查看某个时间段内的情感极性趋势;
2)影评情感舵盘布局:内圆有个黑色背景的中心圆,放置某日日期,中心圆外用扇形分布各种情感类型,扇形的大小表示影评情感类型的百分占比,占比越大表示该天该情感在影评中占比越多;外圆内环上分布日期,外圆环外分布不同情感类型在各个时间段内的走势,且该情感类型的强度值被外圆环上的圆形网格划分;
3)影评情感主题气泡布局:在数据表mTable中存有每条影评的情感类型以及主题词,计算属于某一情感类型下的高频主题词,用情感色表编码气泡,其中气泡的颜色、文字和大小分别表征情感类型、情感主题词、和情感主题词的频次;
4)电影票房预测布局:计算某段时间内的票房预测值,预测下一阶段的票房预测值,用分组柱状图分别表示影评情感类型和票房;其中,每组柱状图中,左侧用堆叠柱状表示各种影评情感类型,用情感色表表征不同情感类型对票房预测的贡献度,右侧浅粉色的柱状表示票房预测值。
CN201910992407.XA 2019-10-18 2019-10-18 一种面向票房预测的影评情感可视化方法 Active CN110750699B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910992407.XA CN110750699B (zh) 2019-10-18 2019-10-18 一种面向票房预测的影评情感可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910992407.XA CN110750699B (zh) 2019-10-18 2019-10-18 一种面向票房预测的影评情感可视化方法

Publications (2)

Publication Number Publication Date
CN110750699A true CN110750699A (zh) 2020-02-04
CN110750699B CN110750699B (zh) 2021-12-17

Family

ID=69278809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910992407.XA Active CN110750699B (zh) 2019-10-18 2019-10-18 一种面向票房预测的影评情感可视化方法

Country Status (1)

Country Link
CN (1) CN110750699B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190648A (zh) * 2021-04-16 2021-07-30 湖州师范学院 基于上下文语义的微博短文本的情感分析方法
CN114969566A (zh) * 2022-06-27 2022-08-30 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241595A (zh) * 2007-02-06 2008-08-13 中国科学院计算技术研究所 一种视频情感信息提取方法
EP2929460A1 (en) * 2012-12-10 2015-10-14 Wibbitz Ltd. A method for automatically transforming text into video
CN106682142A (zh) * 2016-12-21 2017-05-17 兰州交通大学 特定事件情境下网络用户情感挖掘与传播特征分析方法
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101241595A (zh) * 2007-02-06 2008-08-13 中国科学院计算技术研究所 一种视频情感信息提取方法
EP2929460A1 (en) * 2012-12-10 2015-10-14 Wibbitz Ltd. A method for automatically transforming text into video
CN106682142A (zh) * 2016-12-21 2017-05-17 兰州交通大学 特定事件情境下网络用户情感挖掘与传播特征分析方法
CN108537139A (zh) * 2018-03-20 2018-09-14 校宝在线(杭州)科技股份有限公司 一种基于弹幕信息的在线视频精彩片段分析方法
CN109977413A (zh) * 2019-03-29 2019-07-05 南京邮电大学 一种基于改进cnn-lda的情感分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MINHOE HUR等: ""BOX-OFFICE"forecasting based on sentiment of movie reviews and Independent subspace method"", 《INFORMATION SCIENCE》 *
郑飏飏有情: ""情感分析及可视化方法在网络视频弹幕"", 《现代图书情报技术》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113190648A (zh) * 2021-04-16 2021-07-30 湖州师范学院 基于上下文语义的微博短文本的情感分析方法
CN114969566A (zh) * 2022-06-27 2022-08-30 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法
CN114969566B (zh) * 2022-06-27 2023-03-24 中国测绘科学研究院 一种距离度量的政务服务事项协同过滤推荐方法

Also Published As

Publication number Publication date
CN110750699B (zh) 2021-12-17

Similar Documents

Publication Publication Date Title
Hsiao et al. A consultation and simulation system for product color planning based on interactive genetic algorithms
Flueckiger A digital humanities approach to film colors
CN111222847B (zh) 基于深度学习与非监督聚类的开源社区开发者推荐方法
CN110750699B (zh) 一种面向票房预测的影评情感可视化方法
CN101458732A (zh) 面向饰品创新设计的知识应用方法
McCormack et al. Deep learning of individual aesthetics
Yang et al. Combining users’ cognition noise with interactive genetic algorithms and trapezoidal fuzzy numbers for product color design
Karjus et al. Compression ensembles quantify aesthetic complexity and the evolution of visual art
Idrees et al. Knowledge discovery based framework for enhancing the house of quality
CN115115745A (zh) 自主创作型的数字艺术的生成方法、系统、存储介质及电子设备
CN112101574A (zh) 一种机器学习有监督模型解释方法、系统及设备
Huang et al. Adjectives grouping in a dimensionality affective clustering model for fuzzy perceptual evaluation
CN110909124A (zh) 基于人在回路的混合增强智能需求精准感知方法及系统
CN117575526A (zh) 一种基于大数据的图像设计视觉传达系统
CN114595693A (zh) 一种基于深度学习的文本情感分析方法
KR102663632B1 (ko) 인공지능 기반의 미술품 거래의 트랜드 예측 장치 및 방법
CN111583363A (zh) 一种图文新闻的视觉自动生成方法及系统
Usman et al. Multi-Level Mining and Visualization of Informative Association Rules.
CN106845391B (zh) 一种家居环境下的氛围场识别方法及识别系统
CN109003142B (zh) 多目标驱动的产品形态基因网络模型构建方法
Li Artificial neural network model for indoor decoration intelligence calculation and automation design
Liu et al. Construction and application of data-driven knowledge adjacency network for product CMF design
CN112837151A (zh) 一种股票选股与交易策略的五因子评估及多策略组合优化方法
BE1028765B1 (fr) Procédé, système et produit de programme informatique pour fournir des indications sur l’intérêt d’un utilisateur
CN117764536B (zh) 一种基于人工智能的创新创业项目辅助管理系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant