CN112418172A - 基于多模信息智能处理单元的多模信息融合情感分析方法 - Google Patents
基于多模信息智能处理单元的多模信息融合情感分析方法 Download PDFInfo
- Publication number
- CN112418172A CN112418172A CN202011440100.8A CN202011440100A CN112418172A CN 112418172 A CN112418172 A CN 112418172A CN 202011440100 A CN202011440100 A CN 202011440100A CN 112418172 A CN112418172 A CN 112418172A
- Authority
- CN
- China
- Prior art keywords
- emotion
- features
- multimode
- audio
- processing unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000008451 emotion Effects 0.000 title claims abstract description 146
- 238000004458 analytical method Methods 0.000 title claims abstract description 52
- 230000004927 fusion Effects 0.000 title claims abstract description 45
- 238000012545 processing Methods 0.000 title claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 43
- 230000002996 emotional effect Effects 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 16
- 230000000007 visual effect Effects 0.000 claims abstract description 14
- 230000014509 gene expression Effects 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 239000013598 vector Substances 0.000 claims description 43
- 230000007935 neutral effect Effects 0.000 claims description 19
- 230000003595 spectral effect Effects 0.000 claims description 15
- 230000005236 sound signal Effects 0.000 claims description 12
- 238000001228 spectrum Methods 0.000 claims description 11
- 230000003068 static effect Effects 0.000 claims description 11
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 230000007774 longterm Effects 0.000 claims description 8
- 230000008859 change Effects 0.000 claims description 5
- 230000008909 emotion recognition Effects 0.000 claims description 4
- 230000005284 excitation Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 2
- 230000008901 benefit Effects 0.000 abstract description 5
- 238000007499 fusion processing Methods 0.000 abstract description 4
- 238000002474 experimental method Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 9
- 230000001815 facial effect Effects 0.000 description 7
- 230000008921 facial expression Effects 0.000 description 7
- 238000012549 training Methods 0.000 description 5
- 230000002123 temporal effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000010195 expression analysis Methods 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000036651 mood Effects 0.000 description 2
- 238000013518 transcription Methods 0.000 description 2
- 230000035897 transcription Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了基于多模信息智能处理单元的多模信息融合情感分析方法,基于实现多模态融合的情感分析任务的目的,准备数据集;对数据集预处理,并设置一般性前提,分别基于视觉信息、音频信息文本信息提取情感特征;融合多模情感特征;构建实时情感分析框架,获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并作出最终的情感判定。本发明公开的多模信息智能处理单元通过将视频、音频和文本三个通道的特征整体提取,以增强情感特征提取的强度,并进一步通过多模信息融合处理进行最终的情感分析。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。
Description
技术领域
本发明属于情感分析领域,涉及一种基于多模信息智能处理单元的多模信息融合情感分析方法。
背景技术
情感在人们的日常生活中起着至关重要的作用,它有助于决策、学习、交流和以人为中心的环境中的情景意识。在过去二十多年的时间里,人工智能研究人员一直试图赋予机器识别、解释和表达情感的能力,实际上这就是业界常说的情感计算,是一个融合了计算机视觉、自然语言处理、音频处理、心理学和思维科学的跨学科研究领域。
情感计算和情感分析越来越成为社交媒体运营的一个重要技术趋势,这能帮助产品开发人员更好地理解用户的情感和实际需求,从而能够更好地优化产品。随着互联网技术的快速发展和包括微博在内的社交媒体的快速崛起,用户开始越来越频繁地在各个社交媒体发布包含视频、音频和文本等信息的动态。同样地,在各个电子商务平台,消费者也通过包含多模信息的评论来对商品有更深入的了解,比较商品之间的差异。除了上述两点,情感计算在智能设备和人才评估等领域有着广泛且重要的应用。
融合了视频、音频等信息的情感分析方法比仅依赖文本分析的情感分析方法能获得更多的情感特征和分析线索。文本分析仅能通过单词、短语和它们之间的依赖关系来分析和判定情感,这种方式有很大的局限性,因为人的情感是复杂的。而视频和音频提供了更多可用于情感计算的信息和特征,如表情、神态、声音的响度和频率等,这些都是情感分析的重要依据。因此,将视频、音频、文本等信息融合处理可以帮助构建一个更好的情感分析方法。
特征提取和特征融合都是多模态情感分析的关键,现有的多模情感分析方法可分为两大类:从单一模式中提取特征的方法,以及从不同模式中融合特征的方法。
在利用视觉信息方面,已有的方法表明,通用的面部表情为检测情绪提供了足够的线索,这类方法往往把愤怒、悲伤、惊讶、恐惧、厌恶和喜悦作为六个基本的情感类别。这种基本的情感类别足以较为全面地描述通过面部表情表现出的大部分情感。然而,这类方法忽略了尊重、敬畏等其他常见情感,所以又有研究者将蔑视作为第七种基本情感。情感面部动作编码系统EFACS是这类方法的常用基准框架,利用这类框架的方法有主动外观模型和基于光流的技术等,然而这类方法都使用不同的手工构建的语料库和数据集,无法找到有效的方法评估它们的性能。
在利用音频信息方面,已有的方法基于几个声学特征,如频率、振幅、周期等,都取得了一定的成果。然而,在许多处理大量用户数据的应用中,单纯依赖音频的几个特征是不可行的。随后有研究人员从语音中提取了五个韵律特征,并结合多层神经网络进行情感分析,结果表明该方法更容易识别出悲伤和愤怒,而对喜悦和恐惧的识别效果并不是很好。
在利用文本信息方面,这是自然语言处理领域的一个快速发展的方向,近年来越来越受到研究界和工业界的关注。情感分析工具将帮助公司更加了解用户对产品的感受,在其他领域也有广泛的应用。已有的许多方法旨在识别单词、短语、句子、文档中的积极、中立或消极情绪。到目前为止,基于文本的情感分析方法主要依赖基于规则的技术,使用大型情感词汇表进行词袋的建模,或构建包含大量标签的数据集,再通过有监督或无监督的分类器来进行识别。
实现多模态信息融合是进一步提升情感分析能力的重要前提,而多模态融合的主要挑战之一是开发和规范一种方法,该方法能在不同的时间尺度和测量值上整合来自不同来源的认知和情感信息。主要有两种融合策略:特征级融合和决策级融合。特征级融合往往需要在执行分类操作之前,将每个输入通道中提取的特征结合在一个联合向量中,而在决策级融合中每个模式都是独立建模和分类的,但是在许多情况下,已有的方法仍然不能达到最优的信息融合配置。
在情感计算领域已经有很多相关工作,然而大多数方法仅仅能处理单一模式的信息,即基于文本、基于音频或基于视频。这类方法往往满足在一定应用场景下的健壮性,但不具备普适性,无法适应更多普遍的应用场景。基于多传感器的数据融合方法的目的是提高估计的准确性和可靠性,这类先前工作已经证明了数据融合技术的潜力,也意味着开发一个多模融合框架的重要性和可行性。
发明内容
通过对上述相关技术背景和已有方法的研究和分析,为了进一步提升基于多模信息融合的情感分析效果,本发明提出了一种基于多模信息智能处理单元的情感分析方法,其中,多模信息智能处理单元通过将视频、音频和文本三个通道的信息融合处理,来实现整体特征的提取,以增强情感特征提取的强度。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。
本发明提供如下技术方案和步骤:
S1:数据集的准备,基于实现多模态融合的情感分析任务的目的,本方法可以采用自构建的数据集,但建议采用该领域比较成熟通用的数据集ISEAR、CK++、eNTERFACE等;
S2:数据集预处理和一般性前提设置,本发明在基于Ekman的六个情感类别中增加一个类别“neutral”,来进行进一步工作;
S3:基于视觉信息的情感特征提取,主要依据是静止图像,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类。再建立一个基于视频切帧的特征向量,将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感;
S4:基于音频信息的情感特征提取,首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取出音频特征,其中短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,紧接着,计算所有窗口(帧)的均方根值(RMS),然后将那些总和超过频谱率的FFT记为紧凑型。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成;
S5:基于文本信息的情感特征提取,本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,然后求和生成一个标量特征。针对否定可以直接改变陈述的意义这一特殊情况,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性;
S6:多模情感特征融合,本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度;
S7:构建实时情感分析框架,该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。
进一步,在步骤S1中,ISEAR数据集是在1990年代对37个国家进行调查研究之后构建的,大约有3000名答复者,选择这个数据集的动机是因为与其他语料库相比,这个数据集具备特别丰富的情感相关词汇,在本发明中被用作情感注释语料库,构建文本情感分析训练模型;CK++数据集是一个由210名成人面部行为图像组成的综合数据集,年龄在18-50岁之间,具体包括593个面部图像序列;eNTERFACE数据集通过来自14个民族的42名受试者在听了六个连续短篇小说之后回答有关情感方面的问题构建的。
进一步,在步骤S3中,本发明训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类,也相当于从视频中提取了一定的情感特征,接下来的工作分为两个步骤:首先,本发明使用训练好的分类器来确定静态图像的情绪的七分类(包括“neutral”类),其次利用分类器来确定图像的六分类(不包括“neutral”类)。这两个步骤均使用相同的特征集;此外,为了建立一个基于视频切帧的特征向量,本发明首先将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,然后将这些图像分类为包含“neutral”类的七个情感类别中,再利用单个帧的特征向量的坐标平均建立了视频剪辑特征向量。
进一步,在步骤S4中,提取出来的音频特征,有两种广泛的音频特性:基于短时间和长时间的特性。基于短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,在此期间,音频信号被假定为平稳的、是有关这些特征的更多细节。同时利用了短时傅里叶变换STFT计算了梅尔频谱系数MFCC,首先去震级谱的对数振幅,然后对快速傅里叶变换FFT桶进行分组和平滑,根据感知激励的Mel频率缩放,得到最佳的分类结果。光谱质心是STFT的震级谱的重心,质心用于测量光谱形状,质心的较高值表示频率较高的较亮纹理;然后将那些总和超过频谱率的FFT记为紧凑型,也是一种信号噪音的量度。此外还可以通过时域零交叉评估信号量的噪音。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。可使用导数、标准差、运行平均值、运行均值的导数和运行均值的标准差作为短时间聚合的评估方式。
进一步,在步骤S5中,识别文本中的情感是一项具有挑战性的任务,因为文本单词中语义的模糊性、复杂性以及反讽情况的出现,此外,每个人的写作风格也不尽相同,以及人与人之间的语言、文化的差异性都给这项工作带来了挑战。本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感。首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,从文本提取出的每个概念的极性分数是在框架中的ScenticNet中得到的,并求和生成一个标量特征。此外,否定可以直接改变陈述的意义,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性。在提取完所有特征后,本发明在ISEAR数据集上通过训练模型建立了文本分析,并在eNTERFACE数据集中的视频文件的转录过程中与该模型进行了融合。
进一步,在步骤S6中,多模态融合是任何多模态情感分析方法的核心,主要有两种融合技术:特征级融合和决策级融合。本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,本发明采取了一种轻量级的融合方式,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度。本发明还使用了eNTERFACE数据集从多模态内容中检测情感,充分考虑了数据集中可用的视觉和音频线索,并融合后获得与数据相关的情感特征,具体来说,首先从音频和视频数据中提取关键特征,然后分析音频和视觉特征之间的交叉模态关系,随后利用HMM分类器来进行情感识别,并测量记录连续时间段之间的统计依赖性。通过验证可以得到,本发明提出的方法具备良好的精度提升,平均能得到87.95%的精度。
进一步,在步骤S7中,本发明建立了一种实时多模态情感分析框架。该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。
本发明的有益效果:
本发明的基于多模数据融合的情感分析方法,基于计算机视觉、自然语言处理和音频处理等技术,采用多模信息智能处理单元,该单元能够在电子商务、人机交互、人才评估等实际应用场景中,处理、融合和分析多模数据所蕴含的情感等信息。本发明公开的多模信息智能融合处理单元通过将视频、音频和文本三个通道的信息融合处理,来实现整体特征的提取,以增强情感特征提取的强度。在使用ISEAR、CK++、eNTERFACE等数据集的实验中,本发明公开的方法参数量适中,准确率较高,拥有良好的性能。
附图说明
为了使本发明的目的、技术方案和有益效果更加清楚,本发明提供如下附图进行说明:
图1为本发明基于多模信息智能处理单元的多模信息融合情感分析方法实施流程图;
图2为本发明所述的多模信息智能处理单元的;
图3为本发明所述的实时多模态情感分析框架。
具体实施方式
下面将结合附图和实施例,对本发明作进一步说明,但本发明的实施方式不限于此。
参照图1,是本发明基于多模信息智能处理单元的多模信息融合情感分析方法的具体实施流程图,本发明所述的一种基于多模信息智能处理单元的多模信息融合情感分析方法,包括以下步骤:
101、数据集的准备,基于实现多模态融合的情感分析任务的目的,本方法可以采用自构建的数据集,但建议采用该领域比较成熟通用的数据集ISEAR、CK++、eNTERFACE等;
102、数据集预处理和一般性前提设置,本发明在基于Ekman的六个情感类别中增加一个类别“neutral”,来进行进一步工作;
103、基于视觉信息的情感特征提取,主要依据是静止图像,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类。再建立一个基于视频切帧的特征向量,将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感;
104、基于音频信息的情感特征提取,首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取出音频特征,其中短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,紧接着,计算所有窗口(帧)的均方根值(RMS),然后将那些总和超过频谱率的FFT记为紧凑型。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。;
105、基于文本信息的情感特征提取,本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,然后求和生成一个标量特征。针对否定可以直接改变陈述的意义这一特殊情况,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性;
106、多模情感特征融合,本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度;
107、构建实时情感分析框架,该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。
在步骤103、104、105中,是分别基于视觉、音频和文本信息的情感特征提取,其处理流程及原理如下:
参照图2,本发明提出了一种多模信息智能处理单元,其主要工作步骤是:通过将视频、音频和文本三个通道的特征整体提取,以增强情感特征提取的强度。并将多个模态的特征进行融合。
(A)基于视觉信息的情感特征提取:
众所周知,人类在很大程度上通过面部表达情感。面部表情在基于多模态数据的情感分析方法中也起到十分重要的作用。其中可以通过已有的面部表情分析系统自动识别与面部表情相关的情绪特征,并对面部表情进行分类。本发明基于Ekman的六个情感类别和一个额外的情感类别:neutral,来进行进一步工作。
在本发明中,基于视觉信息的情感特征提取主要依据是静止图像,首先围绕静态图像进行数据预处理,本发明使用CK++和eNTERFACE数据集来训练和评估面部表情分析系统的性能。CK++数据集包含从T0到Tn时刻的表达特定情感的n个面部图像序列,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束。该序列的前几幅图像对应情绪“neutral”,其余的图像序列对应一个特定的情感表达。本发明手动将每个序列中的图像分为两类:“neutral”情绪和特定情绪。
由于本发明中的分类器与单个图像协同工作,而不是与序列一起工作,所以本发明认序列式单个图像的集合,这些单独的图像以及它们指定的类别,构成了本部分的数据集,其中包括7中情绪类别的5877张面部图像。为了从面部图像中提取面部特征点FCPs,本发明可利用各类人脸识别软件。
利用上述步骤,训练出一个可以区分“neutral”类和其他特定类的情感分类器,专门用于静态图像的分类,也相当于从视频中提取了一定的情感特征,接下来的工作分为两个步骤:首先,本发明使用训练好的分类器来确定静态图像的情绪的七分类(包括“neutral”类),其次利用分类器来确定图像的六分类(不包括“neutral”类)。这两个步骤均使用相同的特征集,在利用ELM等主流分类器条件下均提升了单峰分类的准确性。
此外,为了建立一个基于视频切帧的特征向量,本发明首先将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,然后将这些图像分类为包含“neutral”类的七个情感类别中,再利用单个帧的特征向量的坐标平均建立了视频剪辑特征向量,表达式如下:
本其中xi是视频剪辑特征向量的第i个坐标,xij是其第j帧向量的第i个坐标,N是视频剪辑中的帧数;特别地,只考虑其中被归类为具有某种情感的帧。
与静态图像类似,本发明将eNTERFACE数据集的视频切分为图像帧,然后将上述训练好的两阶段分类器应用于序列的各个帧,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感。
(B)基于音频信息的情感特征提取:
对于音频的情感识别,本发明使用eNTERFACE作为训练和测试数据集。首先从数据集中的视频文件中提取音频信号,该信号的比特率一般为1536Kbps,频率为48Hz,然后从音频信号中提取相关特征。提取出来的音频特征,有两种广泛的音频特性:基于短时间和长时间的特性。
基于短时间的特征主要用于区分信号的时间特征,通常从每个短时间窗口(帧)中提取,在此期间,音频信号被假定为平稳的、是有关这些特征的更多细节。同时利用了短时傅里叶变换STFT计算了梅尔频谱系数MFCC,首先去震级谱的对数振幅,然后对快速傅里叶变换FFT桶进行分组和平滑,根据感知激励的Mel频率缩放,得到最佳的分类结果。频谱质心是STFT的震级谱的重心,质心用于测量频谱形状,质心的较高值表示频率较高的较亮纹理,频谱质心的计算公式为:
其中,Mi[n]表示的是序列i和频率n的傅里叶变换。光谱滚转是由频率Rt定义的特征,使得85%的特征低于其值;光谱通量定义为连续窗口的归一化幅度之间的平方差:
其中,Nt[n]以及Nt-1[n]分别为当前帧t以及前序帧t-1的处傅里叶变换的归一化幅度,光谱通量也表示光谱局部变化的幅度。
紧接着,计算所有窗口(帧)的均方根值(RMS),设xi是每个样本的信息量,N是样本的数量,则RMS定义为:
然后将那些总和超过频谱率的FFT记为紧凑型,也是一种信号噪音的量度。此外还可以通过时域零交叉评估信号量的噪音。针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。可使用导数、标准差、运行平均值、运行均值的导数和运行均值的标准差作为短时间聚合的评估方式。
此外,为了找到人类对可感知信号的可感知方式,本发明主要提取三个重要的语义特征:节拍直方图、最强的节拍和节拍和。其中,节拍直方图是一种直方图,显示信号中不同节奏周期的相对强度,是RMS的自相关;节拍和是节拍直方图中所有条目的总和,这是一个很好的衡量信号中规则节拍重要性的指标;最强节拍被定义为信号中最强的节拍,以每分钟的节拍为单位,也是基于节拍直方图的一种指标数据。
(C)基于文本信息的情感特征提取:
识别文本中的情感是一项具有挑战性的任务,因为文本单词中语义的模糊性、复杂性以及反讽情况的出现,此外,每个人的写作风格也不尽相同,以及人与人之间的语言、文化的差异性都给这项工作带来了挑战。本发明提出了一种情感范式,该范式认为文本既表达了语义也表达了情感,如下所述。
首先是构建一个概念词袋,对于文本中的每个概念、本发明从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,如下公式所示:
其中,xi是文档特征向量的第i个坐标,xij是其第j个概念向量的第i个坐标,N是文档中概念的数目。本发明在通过比较均值和求和值之后判定总和能够达到更突出的效果。
从文本提取出的每个概念的极性分数是在框架中的ScenticNet中得到的,并求和生成一个标量特征。此外,否定可以直接改变陈述的意义,本发明对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性。在提取完所有特征后,本发明在ISEAR数据集上通过训练模型建立了文本分析,并在eNTERFACE数据集中的视频文件的转录过程中与该模型进行了融合。
在步骤106中,对多模信息智能处理单元提取的三个模态的特征进行融合,其处理流程及原理如下:
通过上述多模信息智能处理单元提取了三个模态的情感特征之后,还需要对特征进行融合并进行最终的情感分析:
多模态融合是任何多模态情感分析方法的核心,主要有两种融合技术:特征级融合和决策级融合。本发明是一种特征级融合,旨在将多模信息智能处理单元提取的所有特征向量结合起来,本发明采取了一种轻量级的融合方式,具体来说就是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量,这种方式有意的最显著的优点就是尽可能地提升了精确度。
本发明还使用了eNTERFACE数据集从多模态内容中检测情感,充分考虑了数据集中可用的视觉和音频线索,并融合后获得与数据相关的情感特征,具体来说,首先从音频和视频数据中提取关键特征,然后分析音频和视觉特征之间的交叉模态关系,随后利用HMM分类器来进行情感识别,并测量记录连续时间段之间的统计依赖性。通过验证可以得到,本发明提出的方法具备良好的精度提升,平均能得到87.95%的精度。
参照图3,本发明基于上述流程,建立一种实时多模态情感分析框架。该框架的重要特点是获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并在基于上述流程运行之后作出最终的情感判定。
Claims (7)
1.基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:包括以下步骤:
S1:基于实现多模态融合的情感分析任务的目的,准备数据集;
S2:对数据集预处理,并设置一般性前提,在基于Ekman的六个情感类别中增加一个类别“neutral”;
S3:基于视觉信息提取情感特征:依据静止图像,在T0时刻,实体开始在镜头前表达情感,并在Tn时刻结束,训练出一个可以区分“neutral”类和基于Ekman的六个情感类别的情感分类器,专门用于静态图像的分类;再建立一个基于视频切帧的特征向量,将剪辑分成一组单独的帧,并在这些帧中提取特征,最后在所有视频帧的情感标签上使用多数投票来确定视频流的情感;
S4:基于音频信息提取情感特征:首先从数据集中的视频文件中提取音频信号,然后从音频信号中提取出长、短时间的音频特征,其中短时间的音频特征用于区分信号的时间特征,从每个短时间窗口中提取,紧接着,计算所有时间窗口的均方根值RMS,然后将总和超过频谱率的快速傅里叶变换FFT记为紧凑型;针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成;
S5:基于文本信息提取情感特征:提出一种情感范式,该情感范式认为文本既表达了语义也表达了情感,首先是构建一个概念词袋,对于文本中的每个概念,从语义空间中获得一个100维的特征向量,然后通过坐标求和将单个概念向量聚合成一个文档级向量,然后求和生成一个标量特征;
S6:融合多模情感特征,将多模信息智能处理单元提取的所有特征向量结合起来,具体是将所有的三种模式的特征向量连接起来,形成一个单一的长特征向量;
S7:构建实时情感分析框架,获得连续语音段的文本内容,并允许上传和接收情感视频,然后显示每个视频的情感表达,并作出最终的情感判定。
2.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S3中,所述情感分类器来确定静态图像的情绪的七个情感类别,其次利用分类器来确定图像的基于Ekman的六个情感类别;这两个区分情感类别的步骤均使用相同的特征集;此外,为了建立一个基于视频切帧的特征向量,本发明首先将剪辑分成一组单独的帧,并利用上述方法在这些帧中提取特征,然后将这些图像分类为包含“neutral”类的七个情感类别中,再利用单个帧的特征向量的坐标平均建立了视频剪辑特征向量。
3.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S4中,提取出来的音频特征中,基于短时间的特征从每个短时间窗口中提取期间,音频信号被假定为平稳的,同时利用短时傅里叶变换STFT计算了梅尔频谱系数MFCC,首先去震级谱的对数振幅,然后对快速傅里叶变换FFT桶进行分组和平滑,根据感知激励的Mel频率缩放,得到最佳的分类结果,光谱质心是STFT的震级谱的重心,质心用于测量光谱形状,质心的较高值表示频率较高的较亮纹理;然后将总和超过频谱率的FFT记为紧凑型;此外还通过时域零交叉评估信号量的噪音;针对长时间的特征,通过聚合从一个时间窗口内的几个连续帧中提取的短期特征来生成。
4.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S5中,从文本提取出的每个概念的极性分数是在框架中的ScenticNet中得到的,并求和生成一个标量特征;针对否定可以直接改变陈述的语义这一特殊情况,对否定也予以特别的识别,并根据语义逆转与否标记后面的概念对应的特征的极性。
5.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S6中,还使用了eNTERFACE数据集从多模态内容中检测情感,充分考虑了数据集中可用的视觉和音频线索,并融合后获得与数据相关的情感特征,具体包括:首先从音频和视频数据中提取关键特征,然后分析音频和视觉特征之间的交叉模态关系,随后利用HMM分类器来进行情感识别,并测量记录连续时间段之间的统计依赖性。
6.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S1中,采用自构建的数据集,或采用该领域比较成熟通用的数据集ISEAR、CK++、eNTERFACE中的一种。
7.根据权利要求1所述的基于多模信息智能处理单元的多模信息融合情感分析方法,其特征在于:在步骤S4中,从数据集中的视频文件中提取音频信号的比特率为1536Kbps,频率为48Hz。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011440100.8A CN112418172A (zh) | 2020-12-11 | 2020-12-11 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011440100.8A CN112418172A (zh) | 2020-12-11 | 2020-12-11 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112418172A true CN112418172A (zh) | 2021-02-26 |
Family
ID=74775619
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011440100.8A Pending CN112418172A (zh) | 2020-12-11 | 2020-12-11 | 基于多模信息智能处理单元的多模信息融合情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112418172A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113850247A (zh) * | 2021-12-01 | 2021-12-28 | 环球数科集团有限公司 | 一种融合文本信息的旅游视频情感分析系统 |
CN113849667A (zh) * | 2021-11-29 | 2021-12-28 | 北京明略昭辉科技有限公司 | 一种舆情监控方法、装置、电子设备及存储介质 |
CN114533063A (zh) * | 2022-02-23 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
WO2022228235A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为云计算技术有限公司 | 生成视频语料的方法、装置及相关设备 |
CN115730153A (zh) * | 2022-08-30 | 2023-03-03 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8223088B1 (en) * | 2011-06-09 | 2012-07-17 | Google Inc. | Multimode input field for a head-mounted display |
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
US20160283858A1 (en) * | 2015-03-24 | 2016-09-29 | International Business Machines Corporation | Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning |
KR20170094836A (ko) * | 2016-02-12 | 2017-08-22 | 한국전자통신연구원 | 운전자의 감정상태 인식 장치 및 방법 |
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN110033029A (zh) * | 2019-03-22 | 2019-07-19 | 五邑大学 | 一种基于多模态情感模型的情感识别方法和装置 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111274955A (zh) * | 2020-01-20 | 2020-06-12 | 中国地质大学(武汉) | 一种基于视听特征相关性融合的情感识别方法及系统 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111564164A (zh) * | 2020-04-01 | 2020-08-21 | 中国电力科学研究院有限公司 | 一种多模态情感识别方法及装置 |
-
2020
- 2020-12-11 CN CN202011440100.8A patent/CN112418172A/zh active Pending
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8223088B1 (en) * | 2011-06-09 | 2012-07-17 | Google Inc. | Multimode input field for a head-mounted display |
CN104200804A (zh) * | 2014-09-19 | 2014-12-10 | 合肥工业大学 | 一种面向人机交互的多类信息耦合的情感识别方法 |
US20160283858A1 (en) * | 2015-03-24 | 2016-09-29 | International Business Machines Corporation | Multimodal Data Fusion by Hierarchical Multi-View Dictionary Learning |
KR20170094836A (ko) * | 2016-02-12 | 2017-08-22 | 한국전자통신연구원 | 운전자의 감정상태 인식 장치 및 방법 |
CN107609572A (zh) * | 2017-08-15 | 2018-01-19 | 中国科学院自动化研究所 | 基于神经网络和迁移学习的多模态情感识别方法、系统 |
CN109460737A (zh) * | 2018-11-13 | 2019-03-12 | 四川大学 | 一种基于增强式残差神经网络的多模态语音情感识别方法 |
CN110033029A (zh) * | 2019-03-22 | 2019-07-19 | 五邑大学 | 一种基于多模态情感模型的情感识别方法和装置 |
CN110188343A (zh) * | 2019-04-22 | 2019-08-30 | 浙江工业大学 | 基于融合注意力网络的多模态情感识别方法 |
CN110083716A (zh) * | 2019-05-07 | 2019-08-02 | 青海大学 | 基于藏文的多模态情感计算方法及系统 |
CN110287389A (zh) * | 2019-05-31 | 2019-09-27 | 南京理工大学 | 基于文本、语音和视频融合的多模态情感分类方法 |
CN111275085A (zh) * | 2020-01-15 | 2020-06-12 | 重庆邮电大学 | 基于注意力融合的在线短视频多模态情感识别方法 |
CN111274955A (zh) * | 2020-01-20 | 2020-06-12 | 中国地质大学(武汉) | 一种基于视听特征相关性融合的情感识别方法及系统 |
CN111564164A (zh) * | 2020-04-01 | 2020-08-21 | 中国电力科学研究院有限公司 | 一种多模态情感识别方法及装置 |
Non-Patent Citations (5)
Title |
---|
DIDAN DENG等: "Multimodal Utterance-level Affect Analysis using Visual, Audio and Text Features", ARXIV.ORG, 2 May 2018 (2018-05-02), pages 1 - 5 * |
SOUJANYA PORIA等: "Towards an intelligent framework for multimodal affective data analysis", NEURAL NETWORKS, vol. 63, no. 2015, 6 November 2014 (2014-11-06), pages 105 - 116 * |
吴良庆;刘启元;张栋;王建成;李寿山;周国栋;: "基于情感信息辅助的多模态情绪识别", 北京大学学报(自然科学版), vol. 56, no. 01, 20 January 2020 (2020-01-20), pages 75 - 81 * |
周肖肖: "基于多模态融合的情感计算研究", 中国优秀硕士学位论文全文数据库(信息科技辑), no. 12, 15 December 2018 (2018-12-15), pages 138 - 1023 * |
陈军;王力;徐计;: "基于多模态组合模型的语音情感识别", 软件, vol. 40, no. 12, 31 December 2019 (2019-12-31), pages 56 - 60 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022228235A1 (zh) * | 2021-04-29 | 2022-11-03 | 华为云计算技术有限公司 | 生成视频语料的方法、装置及相关设备 |
CN113849667A (zh) * | 2021-11-29 | 2021-12-28 | 北京明略昭辉科技有限公司 | 一种舆情监控方法、装置、电子设备及存储介质 |
CN113850247A (zh) * | 2021-12-01 | 2021-12-28 | 环球数科集团有限公司 | 一种融合文本信息的旅游视频情感分析系统 |
CN114533063A (zh) * | 2022-02-23 | 2022-05-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
CN114533063B (zh) * | 2022-02-23 | 2023-10-27 | 金华高等研究院(金华理工学院筹建工作领导小组办公室) | 一种多源监测结合的情感计算系统及方法 |
CN115730153A (zh) * | 2022-08-30 | 2023-03-03 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
CN115730153B (zh) * | 2022-08-30 | 2023-05-26 | 郑州轻工业大学 | 一种基于情感关联和情感标签生成的多模态情感分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zadeh et al. | Multimodal language analysis in the wild: Cmu-mosei dataset and interpretable dynamic fusion graph | |
Poria et al. | A review of affective computing: From unimodal analysis to multimodal fusion | |
Dashtipour et al. | A novel context-aware multimodal framework for persian sentiment analysis | |
Poria et al. | Towards an intelligent framework for multimodal affective data analysis | |
KR102222451B1 (ko) | 텍스트 기반 사용자심리상태예측 및 콘텐츠추천 장치 및 그 방법 | |
CN112418172A (zh) | 基于多模信息智能处理单元的多模信息融合情感分析方法 | |
Kumaran et al. | Fusion of mel and gammatone frequency cepstral coefficients for speech emotion recognition using deep C-RNN | |
Mower et al. | Interpreting ambiguous emotional expressions | |
CN107862087B (zh) | 基于大数据和深度学习的情感分析方法、装置和存储介质 | |
Chang et al. | Research on detection methods based on Doc2vec abnormal comments | |
CN110825867B (zh) | 相似文本推荐方法、装置、电子设备和存储介质 | |
Beinborn et al. | Multimodal grounding for language processing | |
CN112015862A (zh) | 基于层级多通道注意力的用户异常评论检测方法及系统 | |
CN114549946A (zh) | 一种基于跨模态注意力机制的多模态个性识别方法及系统 | |
KR20220096383A (ko) | 영상 컨텐츠의 신뢰성 평가를 위한 언어와 비언어 통합 감성 분석 시스템 및 방법 | |
CN115545093A (zh) | 一种多模态数据的融合方法、系统及存储介质 | |
CN107437090A (zh) | 基于语音、表情与心电信号的三模态连续情感预测方法 | |
Kamboj et al. | Multimodal political deception detection | |
Liu et al. | Audio and video bimodal emotion recognition in social networks based on improved alexnet network and attention mechanism. | |
Yang | Design of service robot based on user emotion recognition and environmental monitoring | |
Siddiqi | An improved Gaussian mixture hidden conditional random fields model for audio-based emotions classification | |
CN115357711A (zh) | 一种方面级情感分析方法、装置、电子设备及存储介质 | |
Das et al. | Emotion detection using natural language processing and ConvNets | |
Kim et al. | Automatic temporal ranking of children’s engagement levels using multi-modal cues | |
Valenti et al. | In their own words: a companion robot for detecting the emotional state of persons with Parkinson’s disease |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |