CN113743267B

CN113743267B - 一种基于螺旋和文本的多模态视频情感可视化方法及装置

Info

Publication number: CN113743267B
Application number: CN202110980775.XA
Authority: CN
Inventors: 马翠霞; 黄泽远; 马腾飞; 宋建成; 邓小明; 向帆; 王宏安
Original assignee: Institute of Software of CAS
Current assignee: Institute of Software of CAS
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-06-16
Anticipated expiration: 2041-08-25
Also published as: CN113743267A

Abstract

本发明公开了一种基于螺旋和文本的多模态视频情感可视化方法，包括：抽取目标视频在各模态下的情感数据；依据各模态下抽取情感数据的最小尺度，对齐各模态下的情感数据；基于对齐后的情感数据，进行螺旋可视化和/或文本可视化，生成情感可视化结果。本发明创新性地利用螺旋形式可视化方法与文本数据可视化方法，能够涵盖更多的多模态信息，更好地表达时序关系中的多模态信息，辅助用户更好地理解视频中的多模态情感数据，自动化实现数据可视化，具有良好的扩展性。

Description

一种基于螺旋和文本的多模态视频情感可视化方法及装置

技术领域

本发明属于可视化领域，具体涉及一种基于螺旋和文本的多模态视频情感可视化方法及装置。

背景技术

视频的不同模态中传达着许多信息，情感是其中一个重要的方面，从表情、声音、动作、文本内容等方面体现，影响着观众感受和理解视频。多模态情感信息的重要性主要体现在以下几个方面：首先，视频中包含的情感信息助推着视频内容的传达，从多种感官影响着观众的情绪体验和对视频的理解；其次，由于视频中的情感变化往往对应着视频内容的起伏和重要部分，以线索的形式贯穿视频内容；最后，多模态信息中常常包含重要的相互关系，模态间匹配与互补的关联能反应视频中的信息关系。借助于这一点，视频中的多模态情感信息可以辅助用户快速理解视频内容，找到视频中的关键部分，并且发现其中的关联信息。另一方面，用户可以对视频进行有选择地观看，可以根据多模态视频情感信息进行筛选选择观看。

现有方法已对视频情感可视化进行了多方面的研究。例如中国专利申请CN110020437A公开的一种视频和弹幕相结合的情感分析及可视化方法，但其仅采用关系趋势图来展现，其表达能力有限；中国专利申请CN105282621A的一种语音消息可视化服务的实现方法及装置，其难以揭示原有数据的变化及规律；中国专利申请CN108337531A公开的视频特征信息的可视化方法、装置、服务器及系统，其仅对语音信息生成关键词或提取语言信息中的情感值，对可视化的组织不够；中国专利申请CN110020437A公开的一种视频和弹幕相结合的情感分析及可视化方法，仅能展现特定数据随时间的变化，不能展现多个数据的变化情况；中国专利申请CN111191554A公开的一种基于隐喻地图的视频情感分析与可视化方法与系统，其中可视化形态并不直观清晰，认知负荷较大。

总而言之，现有视频情感可视化方法涵盖信息有限，不能更好地表达时间序列，无法呈现视频中隐含的多模态情感内容及其中变化与关系。

发明内容

本发明的目的在于提出一种基于螺旋和文本的多模态视频情感可视化方法及装置，在保持视频时序连续的基础上，在有限空间表达尽量多的多模态有效信息，在螺旋线和文本中构建视频多模态情感数据与螺旋和文本属性的映射关系，形成一个可支持用户探索的可视化结果，便于用户简单快速了解视频的整体情感分布，也可以了解视频的情感细节。

本发明采用的技术方案包括如下步骤：

一种基于螺旋和文本的多模态视频情感可视化方法，其步骤包括：

1)抽取目标视频在各模态下的情感数据；

2)依据各模态下抽取情感数据的最小尺度，对齐各模态下的情感数据；

3)基于对齐后的情感数据，进行螺旋可视化和/或文本可视化，生成情感可视化结果。

进一步地，所述模态包括：图像模态、音频模态及文本模态中的至少一种。

进一步地，情感数据的数据类型包括：离散情绪类别数据和连续情绪强度数据。

进一步地，图像模态下的情感数据包括：人脸表情的情感数据和/或姿态情感的情感数据。

进一步地，通过以下步骤抽取人脸表情的情感数据：

1)从目标视频的各视频图像帧中进行人脸识别和定位；

2)采用DBSCAN方法，找到目标视频中出现的所有人脸图像；

3)使用AffectNet方法，提取各人脸图像中的唤醒度及效价数据，得到人脸表情的连续情绪强度数据；

4)利用开源方法对所有人脸图像进行情绪类别的识别，得到人脸表情的离散情绪类别数据；

5)结合人脸表情的连续情绪强度数据与离散情绪类别数据，得到人脸表情的情感数据。

进一步地，通过以下步骤在文本模态下抽取情感数据：

1)将视频中的音频部分转化为文本或直接获取视频文本内容，得到视频文本数据；

2)基于文本情感识别方法，提取视频文本数据的唤醒度及效价数据，得到文本模态下的连续情绪强度数据；

3)通过IBM Watson^TM Tone Analyzer服务或开源模型，得到文本模态下的离散情绪类别数据；

4)结合文本模态下的连续情绪强度数据与离散情绪类别数据，得到文本模态下的情感数据

进一步地，通过以下步骤在音频模态下抽取情感数据：

1)将视频中的音频部分转化为文本或直接获取视频文本内容，得到视频文本数据，并以视频文本数据中的句子为单位，分别抽取相应语音中的连续情绪强度数据及离散情绪类别数据，从而得到音频模态下的第一情感数据；

2)分别利用音频情绪类别分类方法与音频连续情绪强度识别方法，直接抽取视频中语音的连续情绪强度数据及离散情绪类别数据，从而得到音频模态下的第二情感数据；

3)结合音频模态下的第一情感数据与第二情感数据，得到在音频模态下的情感数据。

进一步地，通过以下步骤进行螺旋可视化：

1)根据阿基米德螺旋线改进，在极坐标中生成公式为θ_n＝θ_n-1+2*π*Δ_r*p_i，其中θ_n是第n个圆的中心的极角，Δ_r＝r_n-r_n-1是第n个元素和第n-1个元素之间的极半径变化，p_i为情绪转折点判断参数；

2)螺旋线上的元素沿螺旋线轨迹展开，以生成螺旋可视化结果，其中元素中心点位于螺旋线上的位置与螺旋线对应的目标视频时间匹配，元素的属性值与对齐后的情感数据匹配。

进一步地，元素的属性值包括：大小、形状、颜色和透明度。

进一步地，进行文本可视化的方法包括：通过将文本的字体属性与对齐后的情感数据形成映射关系，且在文本的视频时间上与目标视频的时间匹配。

进一步地，字体属性包括：字间距、字体大小、字体颜色和字体形状。

一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行以上所述方法。

一种电子装置，包括存储器和处理器，其中存储器存储执行以上所述方法的程序。

和现有技术相比，本发明具有的优点和积极效果如下：

1.本发明创新性地利用螺旋形式表达视频中的情感信息以及情感的转折，相比传统的线性表达形式，能够涵盖更多多模态信息，在表达时序关系中的多模态信息时具有优势，同时还具有良好的空间优势，能直观展现变化转折关系。

2.本发明采用创新的情感数据文本可视化方法，通过具有良好视觉传达效果的可视化形态生成文本可视化结果，具有良好的易理解性，相比传统文字能涵盖更多多模态信息，能够辅助用户更好地理解视频中的多模态情感数据；

3.本发明提出了完整的数据提取和数据可视化流程，通过算法采集离散情感类别和连续情绪强度两类情感数据，并自动化实现数据可视化，能方便地整合进入其他数据分析流程中，具有良好的扩展性。

附图说明

图1本发明方法的流程图。

图2基于连续情绪强度的螺旋多模态视频情感数据可视化图示。

图3基于连续情绪强度与离散情绪类别的螺旋多模态视频情感数据可视化图示。

图4多个视频情感数据螺旋可视化图示。

图5基于文本的多模态视频情感数据可视化图示。

图6多个视频情感数据文本可视化图示。

具体实施方式

为了使本技术领域的人员更好的理解本发明，以下结合附图进一步详细描述本发明所提供的基于螺旋和文本的多模态视频情感可视化方法，但不构成对本发明的限制。

如图1所示，本发明方法的实施步骤大致为：

(1)对视频图像逐帧提取，提取图像中的情感数据，包括离散情绪类别和连续情绪强度两种类型数据；

(2)对视频声音进行语音转文本处理，或直接获取视频文本内容，提取文本中的情感数据，包括离散情绪类别和连续情绪强度两种类型数据；

(3)以(2)中的文本句子为单位抽取视频中的语音，提取语音中的情感数据，包括离散情绪类别和连续情绪强度两种类型数据；

(4)提取视频中的音频情感数据，包括情绪类别和情绪维度两种类型数据；

(5)将从图像、音频、文本模态得到的情感数据按抽取数据的最小尺度对齐；

(6)根据选定情感数据计算螺旋线，建立情感数据与螺旋线空间的映射关系，根据映射关系生成螺旋可视化；

(7)根据选定情感数据计算文本生成方法，建立情感数据与文本属性的映射关系，根据映射关系生成文本可视化。

进一步地，所述从视频中提取的情感数据根据视频类型不同而有不同选择，比如视频视觉包含说话人，则可以提取人脸表情、姿态情感等视觉情感数据，也可以提取语音情感和文本内容，若视频中没有说话，则可以跳过上述步骤(2)、(3)。

进一步地，情感数据是利用基于Ekman情感理论的情感识别工具提取视频模态中情离散情绪类别和连续情绪强度两种类型的数据，视频中的图像序列、音频、文本等模态按照各自模态抽取情感数据，存在以帧、片段、句等不同抽取尺度，均需要按最小尺度对齐。

进一步地，螺旋可视化的螺旋线生成方法根据阿基米德螺旋线改进，在极坐标中生成公式为θ_n＝θ_n-1+2*π*Δ_r*p_i，其中θ_n是第n个圆的中心的极角，Δ_r＝r_n-r_n-1是第n个元素和第n-1个元素之间的极半径变化，因为螺旋以恒定的极半径扩展，Δ_r是一个常数值。p_i用于判断情绪转折点，情绪转折点是根据时间间隔内积累的情绪的正负变化而产生的，当p＝1时，螺旋顺时针旋转，而当p＝-1时，螺旋逆时针旋转。E_i＝∑a_n为一定时间区间内的累积情绪，其中a_n为区间i的情感数据，p_i的计算方法为：

进一步地，所述螺旋线上的元素沿螺旋线轨迹展开，元素中心点位于螺旋线上的位置与螺旋线对应的视频时间匹配，元素的大小、形状、颜色、透明度等属性值与视频中特定模态情感数据匹配。

进一步地，文本可视化的生成方法将文本字体的字间距、字体大小、字体颜色、字体形状等属性与特定模态的情感数据形成映射关系，在文本的视频时间上对齐。

本例从演讲视频中抽取多模态情感数据，以下从不同模态介绍本例中所使用到的情感识别算法及工具，本发明的具体实现并不受限于所述的情感识别算法及相应的工具：

(1)面部情感：从视频图像帧中进行人脸识别和定位，采用DBSCAN算法(参考文献：M.Ester,H.-P.Kriegel,J.Sander,and X.Xu.A density-based algorithm fordiscovering clusters in large spatial databases with noise.In Proceedings ofthe Second International Conference on Knowledge Discovery and Data Mining,KDD’96,p.226–231.AAAI Press,1996.)对人脸进行聚类，找到视频中出现的演讲者的所有人脸图像，再使用AffectNet(参考文献：A.Mollahosseini,B.Hasani,andM.H.Mahoor.Affectnet:A database for facial expression,valence,and arousalcomputing in the wild.IEEE Trans.Affect.Comput.,10(1):18–31,Jan.2019.doi:10.1109/TAFFC.2017.2740923)来提取人脸中的唤醒度和效价数据，使用开源方法(参考文献：O.Arriaga,M.Valdenegro-Toro,and P.Ploger.Real-time convolutional¨neuralnetworks for emotion and gender classification.arXiv preprint arXiv:1710.07557,2017.)对人脸图像进行情绪类别的识别；

(2)文本情感：使用Microsoft Azure(参考文献：https://azure.microsoft.com/en-us/services/cognitive-services/speech-to-text/)提供的音频转文本服务将视频中的音频部分转化为文本，使用文本情感识别的方法提取其中的唤醒度和效价数据参考文献：Wang J,Yu L C,Lai K R,et al.Dimensional sentiment analysis using aregional CNN-LSTM model[C]//Proceedings of the 54th annual meeting of theassociation for computational linguistics(volume 2:Short papers).2016:225-230.)。通过IBM Watson^TM Tone Analyzer等服务或开源模型提取其中的离散情绪类别。

(3)音频情感：依据文本对音频进行句子层次的切分，利用音频情绪类别分类(参考文献：de Pinto M G,Polignano M,Lops P,et al.Emotions understanding modelfrom spoken language using deep neural networks and mel-frequency cepstralcoefficients[C]//2020IEEE Conference on Evolving and Adaptive IntelligentSystems(EAIS).IEEE,2020:1-5.)和音频连续情绪强度识别(参考文献：Buitelaar P,WoodI D,Negi S,et al.Mixedemotions:An open-source toolbox for multimodal emotionanalysis[J].IEEE Transactions on Multimedia,2018,20(9):2454-2465.)的方法提取离散情绪类别和连续情绪强度的数据(对应上述步骤3)。

如图2和图3所示，以演讲视频为视频数据资源，采用面部离散情绪类别和连续情绪强度作为数据生成螺旋，螺旋上以圆点作为单位元素，每5视频帧采样一次，每个圆点代表一个采样帧。每个圆点从螺旋的中心开始按时间顺序出现，以5秒的时间区间判断在时间区间内的情绪累计值是否发生方向变化，阈值threshold取值为10。圆点与情感数据形成映射关系，圆半径代表该采样帧中的情绪唤醒程度，图2中圆的颜色映射该采样帧中的情绪效价值，图3中圆的颜色对应该采样帧的离散情绪类型，透明度代表情绪识别的置信度。演讲者的效价变化反映在方向的变化上，图3中的(a)表示螺旋不产生变化旋转，图3中的(b)表示螺旋产生变化旋转，可以看到通过螺旋旋转变化可以清晰发现情感效价的正负性变化。图4为多个视频情感数据螺旋可视化图示，可以看到不同演讲视频的情感螺旋可视化结果有明显的不同。

如图5所示，以演讲视频作为视频数据资源，采用开源方法生成字体。(参考文献：https://github.com/cmiscm/leonsans)字体属性与情感数据形成映射关系，文本的形状大小突出演讲中面部表情高昂平静的时刻，即对应情感唤醒度，字体越夸张越大表示情绪唤醒度高，反之表示情绪唤醒度低。文本颜色映射到文本中对应演讲视频中的面部表情积极消极，蓝绿色表示效价更低，情绪偏向消极，红黄色表示效价更高，情绪偏向积极。同时字间距对应演讲语速。图6为多个视频情感数据文本可视化图示，可以看到不同演讲视频的文本内容及对应的情感可视化结果有明显不同。

以上对本发明所述的基于螺旋和文本的多模态视频情感可视化方法与电子装置进行了详细的说明，但显然本发明的具体实现形式并不局限于此。对于本技术领域的一般技术人员来说，在不背离本发明所述方法的精神和权利要求范围的情况下对它进行的各种显而易见的改变都在本发明的保护范围之内。

Claims

1.一种基于螺旋和文本的多模态视频情感可视化方法，其步骤包括：

1)抽取目标视频在各模态下的情感数据；

3)基于对齐后的情感数据，进行螺旋可视化和/或文本可视化，生成情感可视化结果；其中，所述基于对齐后的情感数据，进行螺旋可视化，包括：

根据阿基米德螺旋线改进，在极坐标中生成公式为θ_n＝θ_n-1+2*π*Δ_r*p_i，其中θ_n是第n个圆的中心的极角，Δ_r＝r_n-r_n-1是第n个元素和第n-1个元素之间的极半径变化，p_i为情绪转折点判断参数；

螺旋线上的元素沿螺旋线轨迹展开，以生成螺旋可视化结果，其中元素中心点位于螺旋线上的位置与螺旋线对应的目标视频时间匹配，元素的属性值与对齐后的情感数据匹配。

2.如权利要求1所述的方法，其特征在于，所述模态包括：图像模态、音频模态及文本模态中的至少一种；情感数据的数据类型包括：离散情绪类别数据和连续情绪强度数据。

3.如权利要求2所述的方法，其特征在于，图像模态下的情感数据包括：人脸表情的情感数据和/或姿态情感的情感数据；通过以下步骤抽取人脸表情的情感数据：

1)从目标视频的各视频图像帧中进行人脸识别和定位；

2)采用DBSCAN方法，找到目标视频中出现的所有人脸图像；

4.如权利要求2所述的方法，其特征在于，通过以下步骤在文本模态下抽取情感数据：

3)通过IBM Watson^TMTone Analyzer服务或开源模型，得到文本模态下的离散情绪类别数据；

5.如权利要求2所述的方法，其特征在于，通过以下步骤在音频模态下抽取情感数据：

6.如权利要求1所述的方法，其特征在于，元素的属性值包括：大小、形状、颜色和透明度。

7.如权利要求1所述的方法，其特征在于，进行文本可视化的方法包括：通过将文本的字体属性与对齐后的情感数据形成映射关系，且在文本的视频时间上与目标视频的时间匹配，其中字体属性包括：字间距、字体大小、字体颜色和字体形状。

8.一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行权利要求1-7中任一所述方法。

9.一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行如权利要求1-7中任一所述方法。