CN113743271B

CN113743271B - 一种基于多模态情感的视频内容有效性可视分析方法与系统

Info

Publication number: CN113743271B
Application number: CN202110995105.5A
Authority: CN
Inventors: 马翠霞; 黄泽远; 马腾飞; 宋建成; 邓小明; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-08-27
Filing date: 2021-08-27
Publication date: 2023-08-01
Anticipated expiration: 2041-08-27
Also published as: CN113743271A

Abstract

本发明公开一种基于多模态情感的视频内容有效性可视分析方法与系统。该方法包括：收集特定类型的视频与其有效性客观指标的标签；抽取视频中各种模态的情感数据；在抽取的情感数据的基础上，结合领域实际需求确定有效性因素，并计算得出不同有效性因素的数值；对有效性因素和有效性客观指标之间的相关性进行分析，得出有效性因素的相关性结果；将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示，供用户进行以情感为主线的从整体到局部的多层次探索。本发明借助可视化方法对视频内容有效性进行分析，在量化视频内容有效性因素及实现客观分析方面具有优势，能够通过直观、有效的方式提供给用户具有视觉冲击力的分析结果。

Description

一种基于多模态情感的视频内容有效性可视分析方法与系统

技术领域

本发明属于信息技术、可视化技术领域，具体涉及一种基于多模态情感的视频内容有效性可视分析方法与系统。

背景技术

随着多媒体技术的迅速发展，视频资源海量增长。各式各样的视频中往往包含着图像、声音、文本等多种模态的信息，视频中多模态的情感内容对于信息的传递和思想的表达都发挥着重要的作用。针对演讲视频来说，情感内容的重要性主要体现在以下几个方面：首先，演讲中含有的情感起伏和波动影响着演讲内容的推进，同时也直接与观众的情感相关联，包含丰富、饱满情感的演讲往往能给观众留下更深刻的印象；其次，由于情感的变化往往对应着演讲故事情节的发展转折，同时也是演讲中的精彩片段，通常在演讲到高潮部分有强烈的情感表达，同时观众的情感共鸣也往往是激烈的。借助演讲中多模态数据反映出来的情感内容，可以建立评价演讲的客观指标，从而衡量演讲呈现的有效性；与此同时，当演讲领域的专家或学员想要观看演讲视频时，基于演讲内容的情感信息，实现对演讲视频的快速筛选定位、对特定演讲全局的直观把握和对演讲局部细节的细致分析，可根据用户的不同个性化需要对视频内容进行检索和浏览。

目前，市面上有很多演讲培训机构和公开演讲专家负责培训学员在各种不同环境中的公开演讲能力，但这些组织和个人对许多演讲的方法和原则并不能达成统一，哪怕是在特定的演讲比赛中，不同的评委也存在着对演讲技巧的不同观点。因此，演讲有效性的表示和定义是一个尚处在探讨中的课题，但其中蕴含着衡量演讲技巧、方法与演讲有效性的内在关系，利用数据来对演讲的表现进行量化表示与评价是必不可少的。

发明内容

本发明的目的在于提出一种基于多模态情感的视频内容有效性可视分析方法与系统。

本发明中视频内容有效性是指视频中的多模态情感内容与内容表达效果之间的关联，结合实际领域确定有效性评价方式，包括但不限于演讲视频中开展演讲的方法与演讲表现之间的关系、教学视频中讲授课程的方式与课程效果之间的关系、娱乐视频中娱乐内容展示方式与观众体验之间的关系等。以演讲视频为例，本发明将演讲情感内容引入演讲视频有效性分析，帮助演讲学员、专家、评委等对现有演讲视频进行从全局到局部的探索、查询和理解，不仅可以从演讲中简单快速地定位到感兴趣的演讲视频，还可以对特定演讲视频整体的层次递进、情感变化和视频局部片段情感内容的表达进行分析。

本发明采用的技术方案如下：

一种基于多模态情感的视频内容有效性可视分析方法，其步骤包括：

收集某种特定类型的视频与其有效性客观指标的标签；

抽取视频中各种模态的情感数据；

在抽取得到的情感数据的基础上，结合领域实际需求确定有效性因素，并计算得出不同有效性因素的数值；

对有效性因素和有效性客观指标之间的相关性进行分析，得出有效性因素的相关性结果；

将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示，供用户进行以情感为主线的从整体到局部的多层次探索。

进一步地，所述某种特定类型的视频包括演讲视频、教学视频、娱乐视频等类型的视频，所述有效性客观指标的标签包括播放量、排名、打分等。

进一步地，所述各种模态包括图像、文本、声音等，所述情感数据包括高兴、悲伤、生气等离散情绪类别数据和唤醒度、效价等连续情绪强度数据。

进一步地，所述结合领域实际需求确定有效性因素，包括：根据特定类型视频对应领域的理论和需求，建立影响特定领域有效性的因素，这些因素对应着该特定领域的技巧、方法等，对在该特定领域的表现有影响作用。

进一步地，所述有效性因素，包括情感比例(ratio)、情感平均水平(average)、情感变化程度(volatility)，情感多样性(diversity)、情感一致性(coherence)、结尾情感比例(finalratio)等。

进一步地，所述对有效性因素和有效性客观指标之间的相关性进行分析，包括：建立有效性因素与有效性客观指标之间的关联，分析两者间的正负相关性及相关性程度。

进一步地，所述以情感为主线的从整体到局部的多层次探索，支持以下从整体到局部的联合分析和表达的功能：有效性因素分析功能、视频集探索功能、特定视频分析功能、特定视频信息探索功能。

一种基于多模态情感的视频内容有效性可视分析系统，其包括：

有效性客观指标收集模块，负责收集某种特定类型的视频与其有效性客观指标的标签；

情感数据采集模块，负责采集视频中图像、文本、声音等多种模态的情感数据，包括离散情绪类别和连续情绪强度等两种类型的数据；

有效性分析模块，负责在抽取得到的情感数据的基础上，结合领域实际需求确定有效性因素，计算得出不同有效性因素的数值，并对有效性因素和有效性客观指标之间的相关性进行分析，得出有效性因素的相关性结果；

可视分析模块，负责将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示，供用户进行以情感为主线的从整体到局部的多层次探索。具体地，提供了有效性因素分析功能、视频集探索功能、特定视频分析功能、特定视频信息探索功能等四个功能，帮助用户针对视频集的整体到局部进行分析。

通过本发明提出的可视分析方法和系统，使用者可以针对视频集中视频的可视化结果，在视频集的层面上发现不同类型的视频内容(例如演讲等)与感兴趣的视频内容，也可以对不同视频内容进行横向比较，发现视频内容之间的区别和联系，也可以选择某个具体的视频进行探索，分析出情感的强度、分布以及变化，从而进一步理解视频中的有效性。

和现有技术相比，本发明具有的优点和积极效果如下：

1.本发明提出了一个视频中多模态情感数据的抽取处理和相关性分析流程，提供了一个视频内容有效性可视分析全流程解决方案。通过算法自动提取离散情绪类别以及连续情绪强度两种类型的情感数据，在情感数据的基础上结合特定领域的理论提取其中的有效性因素数值，通过相关性分析的方法分析验证理论的正确性和情感内容与特定领域有效性之间的关系。

2.本发明提出了一个用于视频中多模态情感内容的展示、查询、分析、探索的交互式可视分析系统，允许用户根据情感信息对含有视频的集进行快速地浏览，并支持用户对感兴趣的视频的情感变化和局部的情感内容进行细致分析，学习视频中的情感表达方式和技巧。

3.本发明基于影响视频内容有效性的因素，结合多种可视化形式，提出了一种基于多模态情感的视频内容有效性可视分析方法与系统，该系统可用于分析视频中内容表达的有效性。借助于可视化方法对视频内容有效性进行分析，通过可视化系统展示多个视频内容、特定视频内容全局和视频内容局部的信息，在量化视频内容有效性因素及实现客观分析方面具有优势，通过直观、有效的方式提供给用户具有视觉冲击力的分析结果。因此，基于多模态情感的情感的视频内容有效性可视分析在本发明中被作为视频分析的主要形式，而不局限于特定领域和特定可视化方法。

附图说明

图1.本发明方法的数据收集及分析流程图；

图2.本发明的基于多模态情感的视频内容有效性可视分析系统的布局图；

图3.由视频集到特定视频的示意图。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的基于多模态情感的视频内容有效性可视分析方法与系统，但不构成对本发明的限制。

本发明主要包括以下内容(其中针对演讲领域进行说明，本发明也可以适用于教学视频、娱乐视频其他视频类型)：

1.情感数据采集与处理流程

情感数据采集与处理流程主要包括面向特定领域：1)数据收集，2)数据预处理，3)情感有效性因素计算，4)相关性分析。情感数据包括图像、声音、文本等三个模态，离散和连续等两种类型。如图1所示，以下以演讲视频为例进行说明。

1)数据收集：通过网络爬虫爬取YouTube以及微信公众号上所发布的世界公开演讲锦标赛视频以及相关描述信息(即有效性客观指标的标签)，演讲分为决赛、半决赛、大区、中区、小区等不同级别，以此作为演讲有效性的衡量标准，即比赛的级别越高，演讲者的水准越高、演讲越有效。为了保证相关性分析的效果，各个级别的演讲视频数量应大致相等。除了级别的信息，还收集了演讲者姓名、地区，演讲主题、时长等信息，这类信息也会在可视化系统中展示。

2)数据预处理：为了获取到视频中的多模态的情感数据，需要先从视频中提取出图像帧、演讲音频以及演讲文本，其中音频和文本以句子进行切分以提取情感。以下从不同模态介绍本发明所使用到的情感识别算法及工具：

a.面部情感：从图像帧中进行人脸定位和人脸识别，并使用DBSCAN(参考文献：M.Ester,H.-P.Kriegel,J.Sander,and X.Xu.A density-based algorithm fordiscovering clusters in large spatial databases with noise.In Proceedings ofthe Second International Conference on Knowledge Discovery and Data Mining,KDD’96,p.226–231.AAAI Press,1996.)对人脸聚类，找到视频中出现的所有演讲者的人脸图片。之后使用AffectNet(参考文献：A.Mollahosseini,B.Hasani,andM.H.Mahoor.Affectnet:A database for facial expression,valence,and arousalcomputing in the wild.IEEE Trans.Affect.Comput.,10(1):18–31,Jan.2019.doi:10.1109/TAFFC.2017.2740923)来提取人脸中的连续唤醒度和效价数据，使用网络上的开源方法进行离散情绪类别的识别。

b.文本情感：首先使用Microsoft Azure(参考文献：https://azure.microsoft.com/en-us/services/cognitive-services/speech-to-text/)提供的音频转文本服务将视频中的音频部分转化为文本，再使用文本情感识别的方法提取其中的连续唤醒度和效价数据。(参考文献：Wang J,Yu L C,Lai K R,et al.Dimensionalsentiment analysis using aregional CNN-LSTM model[C]//Proceedings of the 54thannual meeting of the association for computational linguistics(volume 2:Short papers).2016:225-230.)。

c.音频情感：依据文本对音频进行句子层次的切分，再利用音频离散情绪类别(参考文献：de Pinto M G,Polignano M,Lops P,et al.Emotions understanding modelfrom spoken language using deep neural networks and mel-frequency cepstralcoefficients[C]//2020IEEE Conference on Evolving and Adaptive IntelligentSystems(EAIS).IEEE,2020:1-5.)和音频连续情绪强度识别(参考文献：Buitelaar P,WoodI D,Negi S,et al.Mixedemotions:An open-source toolbox for multimodal emotionanalysis[J].IEEE Transactions on Multimedia,2018,20(9):2454-2465.)的方法提取情感类别和连续情绪强度的数据。

3)有效性因素计算：上一步中所提取出的是随时间变化的多模态情感数据，并不能直观地揭示数据的变化趋势以及何种因素影响了演讲的有效性，本发明在此基础上，结合演讲领域的相关理论和演讲专家的观点，在原始多模态情感数据的基础上，提取了不同的有效性因素数据，如情感比例(ratio)、情感平均水平(average)、情感变化程度(volatility)，情感多样性(diversity)、情感一致性(coherence)、结尾情感比例(finalratio)等有效性因素。

情感有效性因素计算方式如下：

以代表连续情绪强度(效价或唤醒度)的时间序列集合，其中/>表示模态m中第t时刻的连续情绪强度，T表示时间序列长度。以/>代表离散情绪类别(高兴、悲伤等)的时间序列集合，其中/>表示模态m中第t时刻的离散情绪类别，由此我们进行下一步的计算：

情感比例：如果/>则i＝1，否则i＝0，其中emotion属于算法识别出的离散情绪类别集合，代表了特定演讲视频中每一种离散情绪类别所占的比例。

情感平均水平：代表了特定演讲视频中连续情绪强度的平均值；

情感变化程度：代表了特定演讲视频中连续情绪强度的起伏波动；

情感多样性：代表了特定演讲视频中所包含的情绪类别及相对比例情况，其中e代表情绪类别的个数，r代表某种情绪类别所占的比例；

情感一致性：代表了特定演讲视频中各模态连续情绪强度的分布情况，其中w,v,f分别代表文本、声音、图像等三个模态；std表示标准偏差，mean表示平均值；

结尾情感比例：如果/>则i＝1，否则i＝0，其中emotion属于算法识别出的离散情绪类别集合，代表了特定演讲视频最后20％的时间中每一种离散情绪类别所占的比例。

4)情感有效性因素和演讲有效性的相关性分析：以收集的视频所属的比赛级别(决赛、半决赛、大区、中区、小区)为标签，并把它们分别标记为5、4、3、2、1等数字，这类标签可以被看作是序数变量，即离散的标签之间具有一定的顺序关系。对于这类问题，本发明使用多类别序数回归(参考文献：P.A.Guti′errez,M.Perez-Ortiz,J.Sanchez-Monedero,F.Fernandez-Navarro,and C.Hervas-Martinez.Ordinal regression methods:surveyand experimental study.IEEE Transactions on Knowledge and Data Engineering,28(1):127–146,2015.)的方法进行分析处理，可以得到每个有效性因素与级别标签之间的p值，其中p表示假设检验中的假设几率，P<0.05为显著，P<0.01为非常显著，并以此作为该有效性因素的重要程度。

5)多模态情感内容可视化结果生成：结合以上流程产生的数据及分析结果，根据数据特点和实际需求，选择合适的形式生成可视化结果。

通过以上的流程，可以便捷地获取情感数据，挖掘多模态有效性因素与演讲有效性之间地关系，为可视分析方法及系统提供数据支撑。

2.基于多模态情感内容的多功能协同的演讲有效性可视分析系统

如图2所示，按照从左到右、从上到下的阅读习惯，将系统界面划分为四个功能：A.有效性因素分析(有效性因素视图)、B.视频集分析(全部演讲视图)、C.特定视频分析(选定演讲视图)、D.特定视频信息分析(选定演讲信息视图)。其中对于分析演讲有效性较为重要的功能B和C位于系统界面的中心部分并且分别包含了不同可视化形式的子功能，辅助分析的功能A和D分别位于系统的两侧，这四个功能可以共同协同来帮助用户探索视频集并分析何种因素对演讲有效性产生了影响。

A.有效性因素分析功能以表格的方式展示了1中提取出的有效性因素以及与演讲有效性之间的关系，它可以帮助用户理解演讲有效性与不同因素之间的关系，并能够根据影响的显著程度进行排序。

B.视频集探索功能提供了全局视角的探索能力，其中包括若干个不同可视化形式的子功能，在本发明中提供了E-factor、E-similarity、E-spiral、E-script和E-type等几种可视化形式，分别支持在情感有效性因素、有效性因素相似度、情感变化、文本情感以及情绪类别等几个方面对视频集进行探索，该功能可包括但不限于以上所提到的几种可视化子功能。在视频集探索功能中，可以选择某一个感兴趣的视频进行后续探索。

C.特定视频分析功能提供了B中所对应的针对特定视频的可视化展示，可以针对用户选择的视频进行详细的展示，帮助用户对该视频的有效性进行更精细的探索和分析。

D.特定视频信息分析功能提供了诸如演讲者姓名、地区，演讲主题、级别、排名，演讲视频播放量等信息，辅助用户了解演讲背景。

在这个部分中，本发明所介绍的重点在于功能的排列以及应当提供的能力，不对具体的可视化形式做限制，任何可辅助用户对演讲有效性进行分析的可视化形式都可以被包含在该系统中。

3.以情感为主线的从整体到局部的视频多层次探索方法

仅仅对数据进行展示是远远不够的，本发明在2中提出的系统上提供了一个以情感为主线的从整体到局部的视频多层次探索方法。

功能A提供了情感有效性因素层面上视频集全局概括性探索能力，只展示数据集上的相关统计结果。我们可以在功能A中直观了解到各个模态的不同情感有效性因素对于演讲有效性的影响，在A中可以单击不同的情感有效性因素，功能B会进行相应的变化。

功能B则将每个视频的可视化结果进行组合，形成一个聚合了所有视频可视化表示的面板，在B中用户可以了解到各个视频之间的关系，例如两个视频在E-similarity中的距离越近，代表两个演讲视频在情感有效性因素上越相似；两个视频的E-spiral越相似证明他们的情感起伏或者演讲中所设计的情感的递进和转折比较相似；两个视频的E-script越相似证明演讲者所设计的演讲稿所传达的情感的强度和变化越相似。如图3所示，借助于功能B，用户既可以根据喜好在情感的角度上选择感兴趣的演讲视频，也可以进一步地查看与之相似的演讲视频，以达到对视频在全局层面上的浏览。在选择某一视频后，下方的功能C会切换展示该视频的各种可视化形式以供详细探索，而右侧的功能D则会展示各种与演讲相关的信息。

功能C展示的是某个具体视频的各种可视化形式以供用户详细地探索该视频，其中Timeline模块展示的是该演讲视频效价和唤醒度的原始数据，而E-spiral、E-script以及E-type则是对于离散情绪类别和连续情绪强度的可视化展示，便于用户对原始数据的探索。通过E-spiral可以看到该演讲主导的情感、各种情感的分布、情感转折以及情感变化的趋势；通过E-script可以看到文本模态中所体现的情感，演讲者设计的演讲稿想要传达何种情感；通过E-type可以从情感类别的角度看到各情感所占的比例和变化的情况。功能C所起到的作用就是辅助用户在某个具体视频的层面上查看视频中蕴藏的多模态情感。

功能D与功能C互相补充，提供了特定视频层次上的相关信息，如演讲者姓名、地区，演讲主题、级别、排名，演讲视频播放量等。

基于同一发明构思，本发明的另一个实施例提供一种基于多模态情感的视频内容有效性可视分析系统，其特征在于，包括：

有效性分析模块，负责提取原始情感数据中所蕴含的有效性因素数值，并分析验证不同理论或标准中所提出的有效性因素与演讲有效性之间的关系；即在抽取得到的情感数据的基础上，结合领域实际需求确定有效性因素，计算得出不同有效性因素的数值，并对有效性因素和有效性客观指标之间的相关性进行分析，得出有效性因素的相关性结果；

可视分析模块，负责展示原始情感数据于相关性分析的结果，将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示，供用户进行以情感为主线的从整体到局部的多层次探索。具体地，提供了有效性因素分析功能、视频集探索功能、特定视频分析功能、特定视频信息探索功能四个功能，帮助用户从视频集的整体到局部进行分析。

其中各模块的具体实施过程参照前文对本发明方法的描述。

基于同一发明构思，本发明的另一个实施例提供一种电子装置(计算机、服务器、智能手机等)，其包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行本发明方法中各步骤的指令。

基于同一发明构思，本发明的另一个实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘)，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现本发明方法的各个步骤。

以上对本发明所述的基于多模态情感的视频内容有效性可视分析方法与系统进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于多模态情感的视频内容有效性可视分析方法，其步骤包括：

收集某种特定类型的视频与其有效性客观指标的标签；

抽取视频中各种模态的情感数据；

在抽取得到的情感数据的基础上，结合领域实际需求确定有效性因素，并计算得出不同有效性因素的数值；所述结合领域实际需求确定有效性因素，包括：根据特定类型视频对应领域的理论和需求，建立影响特定领域有效性的因素，这些因素对应着该特定领域的技巧和方法，对在该特定领域的表现有影响作用；

2.如权利要求1所述的方法，其特征在于，所述某种特定类型的视频是演讲视频、教学视频、娱乐视频中的一种，所述有效性客观指标的标签包括播放量、排名、打分。

3.如权利要求1所述的方法，其特征在于，所述各种模态包括图像、文本、声音，所述情感数据包括离散情绪类别数据和连续情绪强度数据。

4.如权利要求1所述的方法，其特征在于，所述有效性因素包括情感比例、情感平均水平、情感变化程度、情感多样性、情感一致性、结尾情感比例。

5.如权利要求1所述的方法，其特征在于，所述对有效性因素和有效性客观指标之间的相关性进行分析，包括：建立有效性因素与有效性客观指标之间的关联，分析两者间的正负相关性及相关性程度。

6.如权利要求1所述的方法，其特征在于，所述以情感为主线的从整体到局部的多层次探索，支持以下从整体到局部的联合分析和表达的功能：有效性因素分析功能、视频集探索功能、特定视频分析功能、特定视频信息探索功能。

7.一种基于多模态情感的视频内容有效性可视分析系统，其特征在于，包括：

情感数据采集模块，负责采集视频中图像、文本、声音多种模态的情感数据，包括离散情绪类别和连续情绪强度两种类型的数据；

有效性分析模块，负责在抽取得到的情感数据的基础上，结合领域实际需求确定有效性因素，计算得出不同有效性因素的数值，并对有效性因素和有效性客观指标之间的相关性进行分析，得出有效性因素的相关性结果；所述结合领域实际需求确定有效性因素，包括：根据特定类型视频对应领域的理论和需求，建立影响特定领域有效性的因素，这些因素对应着该特定领域的技巧和方法，对在该特定领域的表现有影响作用；

可视分析模块，负责将抽取得到的情感数据与有效性因素的相关性结果以不同的可视化形式进行展示，供用户进行以情感为主线的从整体到局部的多层次探索。

8.一种电子装置，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1～6中任一权利要求所述方法的指令。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储计算机程序，所述计算机程序被计算机执行时，实现权利要求1～6中任一权利要求所述的方法。