CN111310672A - 基于时序多模型融合建模的视频情感识别方法、装置及介质 - Google Patents
基于时序多模型融合建模的视频情感识别方法、装置及介质 Download PDFInfo
- Publication number
- CN111310672A CN111310672A CN202010103312.0A CN202010103312A CN111310672A CN 111310672 A CN111310672 A CN 111310672A CN 202010103312 A CN202010103312 A CN 202010103312A CN 111310672 A CN111310672 A CN 111310672A
- Authority
- CN
- China
- Prior art keywords
- video
- data set
- model
- neural network
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 69
- 230000004927 fusion Effects 0.000 title claims abstract description 64
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 101
- 238000012549 training Methods 0.000 claims abstract description 90
- 230000015654 memory Effects 0.000 claims abstract description 41
- 230000008451 emotion Effects 0.000 claims abstract description 33
- 230000007246 mechanism Effects 0.000 claims abstract description 33
- 238000007781 pre-processing Methods 0.000 claims abstract description 30
- 238000005070 sampling Methods 0.000 claims abstract description 25
- 238000012545 processing Methods 0.000 claims description 38
- 238000001514 detection method Methods 0.000 claims description 23
- 238000004590 computer program Methods 0.000 claims description 12
- 230000007787 long-term memory Effects 0.000 claims description 12
- 238000007500 overflow downdraw method Methods 0.000 claims description 8
- 230000006403 short-term memory Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 description 19
- 238000004364 calculation method Methods 0.000 description 17
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 8
- 230000008901 benefit Effects 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000009466 transformation Effects 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000011160 research Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 230000003993 interaction Effects 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 210000002569 neuron Anatomy 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 208000019901 Anxiety disease Diseases 0.000 description 1
- 230000036506 anxiety Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000020411 cell activation Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000007429 general method Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000007935 neutral effect Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/174—Facial expression recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Mathematical Physics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于时序多模型融合建模的视频情感识别方法,包括选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。本发明实施例提供的基于时序多模型融合建模的视频情感识别方法通过融合时序特征建模等模型构建的视频情感识别模型,能够有效地提高视频情感识别的准确率。
Description
技术领域
本发明涉及数据挖掘技术领域,尤其是涉及一种基于时序多模型融合建模的视频情感识别方法、装置及存储介质。
背景技术
人工智能技术在计算机视觉、语音识别、自然语言处理等领域取得的突破性进展促进了人机情感交互领域的发展。对具有情感理解和表达能力的人机情感交互方式的探索逐渐成为了人机交互领域的研究热点。作为跨领域的研究课题,视频情感识别研究对于促进人机情感交互技术的发展以及海量视频数据的情感价值挖掘具有重要意义。
在对现有技术的研究和实践中,本发明的发明人发现,现有的视频情感识别方法,主要面临以下问题:
1)主要集中在视频空间特征建模和多模态特征融合建模上,对于视频时序特征建模研究仍存在较大的提升空间;
2)频片段通常具有较多的冗余视频帧,视频单帧图像具有较多的干扰信息,容易造成情感识别的准确率低下的问题。
发明内容
本发明提供一种基于时序多模型融合建模的视频情感识别方法,以解决现有的视频情感识别的准确率低的技术问题,本发明通过融合时序特征建模等模型构建的视频情感识别模型,能够有效地提高视频情感识别的准确率。
为了解决上述技术问题,本发明实施例提供了一种基于时序多模型融合建模的视频情感识别方法,至少包括以下步骤:
选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;
根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;
根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;
将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
作为优选方案,所述选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理,具体为:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
作为优选方案,所述根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型,具体为:
通过预设的人脸图像数据集,预训练卷积神经网络;
在预训练完成的卷积神经网络上,采用从预处理后的训练数据集获得从视频提取的人脸图像序列,重新训练卷积神经网络以调整网络的全连接层权重;
将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。
作为优选方案,所述根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型,具体为:
在采用所述卷积神经网络模型提取的视频的空间底层特征基础上,基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
作为优选方案,所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型,具体为:
以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合,得到融合模型,所述第一公式为:
of=soft max(Wlol+Wpop)
其中,of为融合方法的输出结果,ol为基于注意力机制的所述长短时记忆网络模型的输出结果,op为基于特征采样的所述卷积神经网络模型的输出结果,Wl和Wp为权重系数;
通过将所述人脸图像序列作为所述融合模型的输入,并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模;
采用融合建模方法构建所述视频情感识别模型。
作为优选方案,所述人脸检测、人脸对齐方法,具体为:
对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理;
并采用MTCNN检测器对所述训练数据集的视频重新检测。
本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别装置,包括:
第一处理模块,用于选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;
第二处理模块,用于根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;
第三处理模块,用于根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;
第四处理模块,用于将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
作为优选方案,所述第一处理模块,具体用于:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
作为优选方案,所述第二处理模块,具体用于:
通过预设的人脸图像数据集,预训练卷积神经网络;
在预训练完成的卷积神经网络上,采用从预处理后的训练数据集获得从视频提取的人脸图像序列,重新训练卷积神经网络以调整网络的全连接层权重;
将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。
作为优选方案,所述第三处理模块,具体用于:
在采用所述卷积神经网络模型提取的视频的空间底层特征基础上,基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
作为优选方案,所述第三处理模块,具体用于:
以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合,得到融合模型,所述第一公式为:
of=soft max(Wlol+Wpop)
其中,of为融合方法的输出结果,ol为基于注意力机制的所述长短时记忆网络模型的输出结果,op为基于特征采样的所述卷积神经网络模型的输出结果,Wl和Wp为权重系数;
通过将所述人脸图像序列作为所述融合模型的输入,并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模;
采用融合建模方法构建所述视频情感识别模型。
作为优选方案,所述第一处理模块,具体用于:
对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理;
并采用MTCNN检测器对所述训练数据集的视频重新检测。
本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于时序多模型融合建模的视频情感识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于时序多模型融合建模的视频情感识别方法。
相比于现有技术,本发明实施例的有益效果在于,在提取的视频空间特征序列基础上,分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模,这样通过两种模型从不同的角度对视频时序特征进行建模,能够避免冗余视频帧信息的干扰,从而提升了视频情感识别模型的识别能力。
附图说明
图1是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的流程示意图;
图2是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的框架结构图;
图3是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的视频单帧图像序列数据预处理示例图;
图4是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的MTCNN框架的流程图;
图5是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的RNN网络结构图;
图6是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的基于注意力机制的LSTM模型图;
图7是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的视频情感识别系统流程图;
图8是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的框架图;
图9是本发明实施例中的基于时序多模型融合建模的视频情感识别方法的最大特征采样结构与局部特征采样结构示例图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1和图2,本发明优选实施例提供了一种基于时序多模型融合建模的视频情感识别方法,至少包括以下步骤:
S101、选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理。其中,所述预处理为对输入的原始图像数进行数据预处理,包括去均值、归一化等处理。
作为进一步的,所述步骤S101、选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理,具体为:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
关于本发明实施例的数据集选择,采用了CHEAVD(Chinese natural emotionalaudio-visual database)数据集,其来源于中国科学院自动化研究所构建的视频情感数据库,该数据库数据来源主要是影视剧中所截取的视频片段,每一个视频片段分别标注为一种常见情感(高兴、悲伤、生气、惊讶、厌恶、担心、焦虑)或中性情感中的一种。
视频总长度为141分钟,包含了从电影、电视剧、脱口秀中的238个说话者提取的自然环境下的情感视频片段。每一个视频片段的长度大约为1到19秒。整个情感数据库包括2852个视频片段,其中,训练集1981个,验证集243个,测试集628个。
本发明实施例将验证集数据作为测试数据使用,并从训练集数据中提取部分视频作为验证集数据。训练集和测试集中每种情感类型的视频样本数量如表1所示。
表1数据集中不同情感类型的视频样本数量
Tab 1 The number of video samples in different emotional categories
在实验中对视频情感数据集进行如下处理,其中包括:
(1)从视频片段中提取视频单帧图像序列;
(2)利用人脸检测、人脸对齐和图像裁剪方法,从视频单帧图像序列从提取人脸图像序列,并将人脸图像大小处理为100*100。
视频情感识别任务属于多分类问题,如表1所示,数据集中不同情感类别的数据十分不平衡,因此主要采用MAP(Macro Average Precision)作为预测结果的衡量标准,其次采用正确率(Accuracy)作为预测结果的衡量标准,两种评估方式的计算方法为:
其中,s为情感类型标签,TPi表示样本数据集中属于类别i且被分类到类别i的数量,FNi表示样本数据集中属于类别i但被分类到其他类别的数量,Pi为类别i的正确率(Precision)。
在本实施例中,原始数据集使用Viola-Jones检测器和IntraFace开源工具对数据进行预处理。在数据预处理阶段,从视频中提取视频帧序列,由于视频是由若干视频单帧图像组成,视频单帧图像具有较多的干扰信息,如图3所示,本发明采用从原始视频单帧图像序列中提取的人脸图像序列作为模型输入。
从视频中提取视频帧序列,通过人脸检测和对齐算法提取人脸图像序列;其中IntraFace开源工具采用OpenCV的Viola-Jones检测器进行视频单帧图像的人脸检测,并作为IntraFace跟踪库的初始化。
根据IntraFace生成的人脸特征点对人脸图像进行仿射变换处理,实现人脸对齐,并调整人脸图像大小为100*100个像素。
作为优选方案,所述人脸检测、人脸对齐方法,具体为:
对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理;
并采用MTCNN检测器对所述训练数据集的视频重新检测。
在本实施例中,应当说明的是,由于部分视频中的人脸图像无法使用IntraFace开源工具提取,针对这些无法检测的视频,采用MTCNN模型重新进行人脸检测、人脸对齐等处理。
如图4所示,其具体检测流程包括:
(1)对图像进行缩放处理,形成图像金字塔;
(2)第一阶段采用P-Net网络产生候选区域的边框,然后通过非极大值抑制算法,筛选出满足设定阈值的候选区域的边框;
(3)第二阶段采用R-Net网络对第一阶段生成的结果做进一步检测以及采用非极大值抑制处理,产生更精确的候选区域的边框;
(4)第三阶段采用O-Net网络对第二阶段生成的候选区域做最后的检测并采用NMS做最后的筛选,最终输出检测图像中的人脸边框以及人脸特征点。
这样,通过人脸检测器得到的人脸图像,通常存在一定的偏转角度。不同角度的人脸图像构成的序列数据会对后续模型的判断产生不必要的干扰,因此,有必要对人脸图像进行人脸对齐操作。人脸对齐的一般做法是根据检测得到的人脸特征点,以定义的标准人脸图像特征点为基准进行二维仿射变换操作。其中,二维仿射变换包括旋转、平移和缩放三种变换方式。
通过IntraFace开源工具和MTCNN检测器,可以计算得到标准人脸的特征点坐标和待对齐人脸的特征点坐标,设为标准人脸的第i个特征点的坐标,(xi,yj)T为待对齐人脸的第i个特征点的坐标,二维仿射变换计算公式为:
假设已知人脸的个特征点坐标,可以通过线性变换的方式对仿射矩阵进行求解。如二维仿射变换计算公式2.1所示,根据求解得到的仿射矩阵,再进一步对人脸图像进行仿射变换处理,即可得到对齐后的人脸图像。
为了探索更有效地提取视频时序特征的方法,以及考虑了上述提出的冗余视频帧对视频情感识别的影响。本发明提出了两种模型,分别是基于特征采样结构的CNN模型和基于注意力机制的LSTM模型,具体如下步骤S102、步骤S103:
S102、根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型。
本实施例通过额外的人脸图像数据集,训练卷积神经网络;在预训练好的卷积神经网络上,采用从视频提取的人脸图像序列,重新训练调整网络的全连接层权重,将训练完成的卷积神经网络隐含层输出作为视频的空间底层特征。
则所述步骤S102、根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型,具体为:
通过预设的人脸图像数据集,预训练卷积神经网络;
在预训练完成的卷积神经网络上,采用从预处理后的训练数据集获得从视频提取的人脸图像序列,重新训练卷积神经网络以调整网络的全连接层权重;
将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。
S103、根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型。
本实施例在提取的视频空间特征序列基础上,分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
则作为优选方案,所述步骤S103、根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型,具体为:
在采用所述卷积神经网络模型提取的视频的空间底层特征基础上,基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
在采用ConvNet提取的视频空间特征基础上,本发明采用了普通RNN模型、LSTM模型以及基于注意力机制的LSTM模型对视频进行时序特征建模。如表2所示,LSTM模型的实验结果优于普通的RNN模型,同时在训练的过程RNN会出现梯度消失等问题,LSTM模型则几乎不会出现类似的问题。
基于注意力机制的LSTM模型相比基本的LSTM模型提升了2.1%,通过采用注意力机制让模型更加关注视频关键帧信息,有助于模型学习到视频的关键帧信息,避免冗余视频帧信息的干扰,从而提升了视频情感识别模型的识别能力。
表2在验证集上不同时间递归神经网络模型的实验结果
Tab 2 Experimental results of different RNN models in the validationdataset
通过以上两种模型从不同的角度对视频时序特征进行建模,其中基于特征采样结构的CNN模型对视频时序特征进行采样处理,本发明在卷积神经网络上加入了特征采样的方法,将时序特征采样作为神经网络层加入到卷积神经网络的训练中,用于视频时序特征的建模。
卷积神经网络(Convolutional Neural Network,CNN)结构是一种常见的深度神经网络模型,其采用了局部感知和共享权重的网络结构方式,能够有效地减少权重参数的数量以及降低了网络模型过拟合的风险。CNN最大的优势在于特征提取上,可以直接将图像作为网络的输入,并有效地提取与任务相关的图像特征,避免了传统算法中复杂的显示特征提取。
CNN是一种多层的有监督学习神经网络模型,其层级结构包括数据输入层,卷积计算层,激活函数层,池化层,全连接层和输出层。数据输入层,以图像作为输入,通常对输入的原始图像数进行数据预处理,包括去均值、归一化等处理。
卷积计算层,作为CNN网络结构的核心,其主要特点是局部连接和参数共享。卷积层的神经元只和上一网络层的一个局部区域相连接,通过卷积计算得到特征图输出。ReLU激活函数层,对卷积层的输出结果进行非线性映射。ReLu激活函数能够缓解过拟合问题的出现。池化层,通常包括平均池化和最大池化,用于对输入的特征图进行压缩,其作用是提取主要特征和简化模型计算复杂度。全连接层,与上一层所有神经元的权重相连接,其输出作为网络输出层的输入。输出层,根据任务可以选择不同函数层,通常分类任务采用Softmax函数层。
通过上述的网络层级结构,可以构造相应的CNN网络,接着对CNN网络进行训练求解。
CNN网络的训练过程主要包括四个步骤:
(1)对网络权重参数进行初始化;
(2)利用前向传播算法计算损失函数值;
(3)利用反向传播算法计算逐层反向计算权重参数的梯度;
(4)更新网络权重参数值。
CNN网络训练过程主要涉及网络的前向传播和反向传播计算,前向传播用于特征信息的前向传递,而反向传播则用于反向修正模型的权重参数值。
前向传播计算,假设l表示当前层,xl表示当前层的输出,Wl和bl分别表示当前层的权值和偏置,f表示激活函数,前向传播的计算公式为:
xl=f(Wlxl+bl) (2.2)
反向传播(Backpropagation,简称BP)计算。对网络进行反向传播计算之前,需要先选择一个损失函数,来衡量训练样本的预测结果和训练样本的真实结果之间的损失值。常用的损失函数有平方误差函数、交叉熵函数等。以平方差函数作为损失函数,其计算公式如下:
其中,aL为第L层的输出,y为训练样本的真实结果。
在确定损失函数后,采用梯度下降法逐层求解网络层的权重参数。对于第L层的输出,满足下列公式:
zL=WLaL-1+bL (2.4)
aL=σ(zL) (2.5)
其中,W,b为第L层的权重和偏置,σ为激活函数。
根据公式2.4,得到损失函数公式如下:
根据损失函数J分别对W,b求梯度,计算公式如下:
其中σL的计算公式如下:
假设已知第L+1层的σL+1计算结果,根据式2.7和式2.8,即可求解第L层中WL,bL的梯度值。最后,根据计算得到的梯度值更新对应网络层的权重参数值。
传统的神经网络模型一般无法处理有关序列数据的问题,例如,自然语言处理中预测句子下一个单词的问题。时间递归神经网络(Recurrent neural network,简称RNN)的设计初衷正是为了解决序列数据问题,其被广泛的应用于语音识别,文本翻译,视频描述等问题。
如图5所示,RNN网络结构中当前时刻的输出不仅和当前的输入有关,还与过去时刻的输入有关,可以将RNN网络看作是具有记忆能力的网络结构,它能够记忆已经学习过的信息。这是RNN网络能够处理序列数据问题的关键原因。
理论上,RNN可以处理任意长度的序列数据,但实际应用中RNN只能够记忆上几个时刻的信息。
相较于一般的神经网络结构,RNN网络模型的训练求解计算练较大。与基本的BP算法原理相同,RNN网络模型采用BPTT(Backpropagation Through Time)算法,其训练过程主要包括以下三个步骤:
(1)利用前向传播方法,计算网络结构中每个神经元的输出;
(2)利用反向传播方法,计算机每个神经元的误差项;
(3)计算网络结构中每个权重的梯度,根据梯度下降法更新网络权重值。
标准RNN训练过程中存在梯度消失或者梯度爆炸问题,同时,由于采用BPTT算法,反向传播过程中容易造成信息丢失,使得RNN无法实现较长距离时间的记忆。
因此,国内外的很多相关研究在原先的基础上提出了更好的RNN网络架构,例如双向RNN、GRU(Gated Recurrent Units)和LSTM(Long Short Term Memory)等。与标准RNN网络相比,LSTM网络采用了不同的记忆单元来存储和输出信息,有利于发现更长范围的时序信息。
LSTM网络模型是一种特殊的RNN网络结构,相比标准RNN网络,它可以更好地存储和学习序列信息。
为了探索更有效地提取视频时序特征的方法,以及考虑了上述提出的冗余视频帧对视频情感识别的影响。本发明提出了两种模型,分别是基于特征采样结构的CNN模型和基于注意力机制的LSTM模型。
LSTM模型能够从序列信息中学习视频的时序特征。本发明将卷积神经网络与递归神经网络相结合,将卷积神经网络输出的所有视频单帧人脸图像特征向量所组成的序列数据作为LSTM模型的输入,构建视频情感识别模型。
LSTM网络由包含门结构的记忆单元组成,其计算公式为:
其中,σ为激活函数,i,f,o和c分别为输入门、忘记门、输出门和单元激活向量,W为权重矩阵(例如,whi表示隐含层与输入门之间的权重矩阵),b表示偏置向量(例如,bi表示输入门的偏置向量)。
本发明借鉴了注意力机制的思想,在视频情感识别研究上采用了基于注意力机制的LSTM模型。
如图6所示,设H∈Rd×N为LSTM模型生成的隐含层输出向量[h1,…,hN]组成的矩阵,其中d为隐含层输出向量的维度,N为隐含层输出向量的个数。注意力机制将产生一个注意力权重向量α和带权重的隐含层特征表达r。
其中,M∈Rd×N,α∈RN,r∈Rd,Wh∈Rd×d,ω∈Rd为相应的。
最后输出的隐含层特征向量计算式为:
h*=tanh(Wpr+WxhN) (3.3)
其中,h*∈Rd,Wp∈Rd×d,Wx∈Rd×d为相应的权重矩阵。
h*可以看作是视频时序信息的特征表达,输出的视频时序特征向量作为Softmax函数层的输入,最终输出视频情感识别的预测结果的概率分布向量为:
y=softmax(Wsh*+bs) (3.4)
其中,Ws和bs分别为Softmax层的权重和偏置。
S104、将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
在本实施例中,不同时序特征模型具有不同的优势,通过融合机制,可以结合不同时序特征模型所具有的优势,构建更有效的视频情感识别模型。本文在CHEAVD数据集上进行了实验,通过实验得到了不同模型下的预测结果。
表3给出了不同模型在训练集上的实验结果,可以看出两种不同的时序特征建模方法相比Baseline方法有较大的提升,而融合模型取得了最好的预测结果。为了验证不同的时序建模方法所具有的不同优势,本文通过融合两种不同的时序建模方法得到最终实验结果。
结合图2、图7至9所示,融合模型的结果相比单一的时序建模方法得到模型更优。融合建模方法有利于发挥不同模型的优势,构建更有效的视频情感识别模型,从而实现更高的识别率。
表3在验证集上不同模型的实验结果比较
Tab3 The experimental results of different models in the validationdataset
综上,本实施例在提取的视频空间特征序列基础上,分别采用基于特征采样结构的卷积神经网络模型和基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模,这样通过两种模型从不同的角度对视频时序特征进行建模,能够避免冗余视频帧信息的干扰,从而提升了视频情感识别模型的识别能力。
本发明实施例通过两种不同的时序特征建模方法,构建视频时空特征空间与视频情感类型空间的关系模型。不同的时序特征建模方法具有不同的优势,通常,在很多判别任务中使用融合方法来提高最后的判别效果。基于上述的想法,本发明采用了融合的方法,构建了基于时序多模型融合建模的视频情感识别模型。不同的时序特征建模方法具有不同的特性,为了充分利用不同模型预测结果的优势,本发明采用决策融合的方法。
通过训练基于特征采样结构的CNN模型以及基于注意力机制的LSTM模型,保留训练中实验结果最优的模型参数。类似于多层感知器的想法,设计如下的结构,对两种模型结的输出进行决策融合。作为优选方案,所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型,具体为:
以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合,得到融合模型,所述第一公式为:
of=soft max(Wlol+Wpop)(3.5)
其中,of为融合方法的输出结果,ol为基于注意力机制的所述长短时记忆网络模型的输出结果,op为基于特征采样的所述卷积神经网络模型的输出结果,Wl和Wp为权重系数;
通过将所述人脸图像序列作为所述融合模型的输入,并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模;
采用融合建模方法构建所述视频情感识别模型。
对融合模型进行训练,固定除了和之外的权重参数,进行迭代,直到结果收敛。
通过提取视频的人脸图像序列数据作为模型的输入,接着分别采用CNN模型和LSTM进行空间建模和时序建模,最后采用融合建模方法构建最终的视频情感识别模型。
对应上述的方法,本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别装置,包括:
第一处理模块,用于选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;
第二处理模块,用于根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;
第三处理模块,用于根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;
第四处理模块,用于将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
作为优选方案,所述第一处理模块,具体用于:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
作为优选方案,所述第二处理模块,具体用于:
通过预设的人脸图像数据集,预训练卷积神经网络;
在预训练完成的卷积神经网络上,采用从预处理后的训练数据集获得从视频提取的人脸图像序列,重新训练卷积神经网络以调整网络的全连接层权重;
将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。
作为优选方案,所述第三处理模块,具体用于:
在采用所述卷积神经网络模型提取的视频的空间底层特征基础上,基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
作为优选方案,所述第三处理模块,具体用于:
以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合,得到融合模型,所述第一公式为:
of=soft max(Wlol+Wpop)
其中,of为融合方法的输出结果,ol为基于注意力机制的所述长短时记忆网络模型的输出结果,op为基于特征采样的所述卷积神经网络模型的输出结果,Wl和Wp为权重系数;
通过将所述人脸图像序列作为所述融合模型的输入,并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模;
采用融合建模方法构建所述视频情感识别模型。
作为优选方案,所述第一处理模块,具体用于:
对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理;
并采用MTCNN检测器对所述训练数据集的视频重新检测。
本发明实施例还提供了一种基于时序多模型融合建模的视频情感识别终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上述的基于时序多模型融合建模的视频情感识别方法。
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述的基于时序多模型融合建模的视频情感识别方法。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (10)
1.一种基于时序多模型融合建模的视频情感识别方法,其特征在于,至少包括以下步骤:
选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;
根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;
根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;
将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
2.如权利要求1所述的基于时序多模型融合建模的视频情感识别方法,其特征在于,所述选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理,具体为:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
3.如权利要求2所述的基于时序多模型融合建模的视频情感识别方法,其特征在于,所述根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型,具体为:
通过预设的人脸图像数据集,预训练卷积神经网络;
在预训练完成的卷积神经网络上,采用从预处理后的训练数据集获得从视频提取的人脸图像序列,重新训练卷积神经网络以调整网络的全连接层权重;
将最终训练完成的卷积神经网络隐含层输出并作为视频的空间底层特征。
4.如权利要求3所述的基于时序多模型融合建模的视频情感识别方法,其特征在于,所述根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型,具体为:
在采用所述卷积神经网络模型提取的视频的空间底层特征基础上,基于注意力机制的长短时记忆网络模型对视频的时序特征进行建模。
5.如权利要求4所述的基于时序多模型融合建模的视频情感识别方法,其特征在于,所述将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型,具体为:
以预设的第一公式对所述卷积神经网络模型和所述长短时记忆网络模型的输出进行决策融合,得到融合模型,所述第一公式为:
of=softmax(Wlol+Wpop)
其中,of为融合方法的输出结果,ol为基于注意力机制的所述长短时记忆网络模型的输出结果,op为基于特征采样的所述卷积神经网络模型的输出结果,Wl和Wp为权重系数;
通过将所述人脸图像序列作为所述融合模型的输入,并分别采用卷积神经网络模型和长短时记忆网络模型进行空间建模和时序建模;
采用融合建模方法构建所述视频情感识别模型。
6.如权利要求2所述的基于时序多模型融合建模的视频情感识别方法,其特征在于,所述人脸检测、人脸对齐方法,具体为:
对所述训练数据集使用Viola-Jones检测器和IntraFace开源工具对视频进行人脸检测和人脸对齐处理;
并采用MTCNN检测器对所述训练数据集的视频重新检测。
7.一种基于时序多模型融合建模的视频情感识别装置,其特征在于,包括:
第一处理模块,用于选择视频情感数据库中的数据集作为训练数据集,并对所述训练数据集进行预处理;
第二处理模块,用于根据预处理后的训练数据集构建基于特征采样结构的卷积神经网络模型;
第三处理模块,用于根据所述卷积神经网络模型提取的视频空间特征序列构建基于注意力机制的长短时记忆网络模型;
第四处理模块,用于将所述卷积神经网络模型和所述长短时记忆网络模型进行融合,得到视频情感识别模型。
8.如权利要求7所述的基于时序多模型融合建模的视频情感识别装置,其特征在于,所述第一处理模块,具体用于:
选择视频情感数据库中的CHEAVD数据集;
将所述CHEAVD数据集作为训练数据集,并对所述训练数据集进行预处理,所述预处理包括:
从所述训练数据集的视频片段中提取视频单帧图像序列;
利用人脸检测、人脸对齐和图像裁剪方法,从所述视频单帧图像序列中提取人脸图像序列,并将所述人脸图像序列的人脸图像大小处理为预设的图像尺寸。
9.一种基于时序多模型融合建模的视频情感识别终端设备,其特征在于,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于时序多模型融合建模的视频情感识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如权利要求1至5任一项所述的基于时序多模型融合建模的视频情感识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103312.0A CN111310672A (zh) | 2020-02-19 | 2020-02-19 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010103312.0A CN111310672A (zh) | 2020-02-19 | 2020-02-19 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111310672A true CN111310672A (zh) | 2020-06-19 |
Family
ID=71156538
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010103312.0A Pending CN111310672A (zh) | 2020-02-19 | 2020-02-19 | 基于时序多模型融合建模的视频情感识别方法、装置及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111310672A (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111967382A (zh) * | 2020-08-14 | 2020-11-20 | 北京金山云网络技术有限公司 | 年龄估计方法、年龄估计模型的训练方法及装置 |
CN112053690A (zh) * | 2020-09-22 | 2020-12-08 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN112069724A (zh) * | 2020-07-21 | 2020-12-11 | 上海宇航系统工程研究所 | 一种基于长短时记忆自编码器的火箭健康度评估方法 |
CN112215130A (zh) * | 2020-10-10 | 2021-01-12 | 吉林大学 | 一种基于2.5d/3d混合卷积模型的人体行为识别方法 |
CN112287175A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 一种视频高亮片段预测方法和系统 |
CN112733994A (zh) * | 2020-12-10 | 2021-04-30 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112995150A (zh) * | 2021-02-08 | 2021-06-18 | 南京邮电大学 | 一种基于cnn-lstm融合的僵尸网络检测方法 |
CN113057633A (zh) * | 2021-03-26 | 2021-07-02 | 华南理工大学 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
CN113221689A (zh) * | 2021-04-27 | 2021-08-06 | 苏州工业职业技术学院 | 视频多目标情感度预测方法及系统 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN113392781A (zh) * | 2021-06-18 | 2021-09-14 | 山东浪潮科学研究院有限公司 | 一种基于图神经网络的视频情感语义分析方法 |
CN113705384A (zh) * | 2021-08-12 | 2021-11-26 | 西安交通大学 | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 |
CN113723287A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于双向循环神经网络的微表情识别方法、装置及介质 |
CN115294636A (zh) * | 2022-10-09 | 2022-11-04 | 山东海博科技信息系统股份有限公司 | 一种基于自注意力机制的人脸聚类方法和装置 |
WO2023151289A1 (zh) * | 2022-02-09 | 2023-08-17 | 苏州浪潮智能科技有限公司 | 情感识别方法、训练方法、装置、设备、存储介质及产品 |
CN117153195A (zh) * | 2023-10-31 | 2023-12-01 | 中国传媒大学 | 基于自适应区域遮挡的说话人脸视频生成方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN109145712A (zh) * | 2018-06-28 | 2019-01-04 | 南京邮电大学 | 一种融合文本信息的gif短视频情感识别方法及系统 |
CN109934158A (zh) * | 2019-03-11 | 2019-06-25 | 合肥工业大学 | 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法 |
-
2020
- 2020-02-19 CN CN202010103312.0A patent/CN111310672A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106782602A (zh) * | 2016-12-01 | 2017-05-31 | 南京邮电大学 | 基于长短时间记忆网络和卷积神经网络的语音情感识别方法 |
CN109145712A (zh) * | 2018-06-28 | 2019-01-04 | 南京邮电大学 | 一种融合文本信息的gif短视频情感识别方法及系统 |
CN109934158A (zh) * | 2019-03-11 | 2019-06-25 | 合肥工业大学 | 基于局部强化运动历史图和递归卷积神经网络的视频情感识别方法 |
Non-Patent Citations (2)
Title |
---|
SHUN-YAO SHIH: "Temporal pattern attention for multivariate time series forecasting", ARXIV, pages 1 - 21 * |
龚琴: "基于注意力机制的卷积一双向长短期记忆模型跨领域情感分类方法", 计算机应用, vol. 39, no. 8, pages 2186 - 2191 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069724A (zh) * | 2020-07-21 | 2020-12-11 | 上海宇航系统工程研究所 | 一种基于长短时记忆自编码器的火箭健康度评估方法 |
CN112069724B (zh) * | 2020-07-21 | 2023-06-20 | 上海宇航系统工程研究所 | 一种基于长短时记忆自编码器的火箭健康度评估方法 |
CN111898670B (zh) * | 2020-07-24 | 2024-04-05 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111898670A (zh) * | 2020-07-24 | 2020-11-06 | 深圳市声希科技有限公司 | 多模态情感识别方法、装置、设备及存储介质 |
CN111967382A (zh) * | 2020-08-14 | 2020-11-20 | 北京金山云网络技术有限公司 | 年龄估计方法、年龄估计模型的训练方法及装置 |
CN112053690A (zh) * | 2020-09-22 | 2020-12-08 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN112053690B (zh) * | 2020-09-22 | 2023-12-29 | 湖南大学 | 一种跨模态多特征融合的音视频语音识别方法及系统 |
CN112215130A (zh) * | 2020-10-10 | 2021-01-12 | 吉林大学 | 一种基于2.5d/3d混合卷积模型的人体行为识别方法 |
CN112215130B (zh) * | 2020-10-10 | 2022-08-16 | 吉林大学 | 一种基于2.5d/3d混合卷积模型的人体行为识别方法 |
CN112287175A (zh) * | 2020-10-29 | 2021-01-29 | 中国科学技术大学 | 一种视频高亮片段预测方法和系统 |
CN112287175B (zh) * | 2020-10-29 | 2024-02-13 | 中国科学技术大学 | 一种视频高亮片段预测方法和系统 |
CN112733994A (zh) * | 2020-12-10 | 2021-04-30 | 中国科学院深圳先进技术研究院 | 机器人的自主情感生成方法、系统及应用 |
CN112995150A (zh) * | 2021-02-08 | 2021-06-18 | 南京邮电大学 | 一种基于cnn-lstm融合的僵尸网络检测方法 |
CN112861984A (zh) * | 2021-02-25 | 2021-05-28 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN112861984B (zh) * | 2021-02-25 | 2022-07-01 | 西华大学 | 一种基于特征融合与集成学习的语音情感分类方法 |
CN113057633B (zh) * | 2021-03-26 | 2022-11-01 | 华南理工大学 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
CN113057633A (zh) * | 2021-03-26 | 2021-07-02 | 华南理工大学 | 多模态情绪压力识别方法、装置、计算机设备及存储介质 |
CN113221689B (zh) * | 2021-04-27 | 2022-07-29 | 苏州工业职业技术学院 | 视频多目标情感度预测方法 |
CN113221689A (zh) * | 2021-04-27 | 2021-08-06 | 苏州工业职业技术学院 | 视频多目标情感度预测方法及系统 |
CN113269054B (zh) * | 2021-04-30 | 2022-06-10 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN113269054A (zh) * | 2021-04-30 | 2021-08-17 | 重庆邮电大学 | 一种基于时空2d卷积神经网络的航拍视频分析方法 |
CN113392781A (zh) * | 2021-06-18 | 2021-09-14 | 山东浪潮科学研究院有限公司 | 一种基于图神经网络的视频情感语义分析方法 |
CN113705384B (zh) * | 2021-08-12 | 2024-04-05 | 西安交通大学 | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 |
CN113705384A (zh) * | 2021-08-12 | 2021-11-26 | 西安交通大学 | 一种考虑局部时空特性和全局时序线索的面部表情识别方法 |
CN113723287A (zh) * | 2021-08-30 | 2021-11-30 | 平安科技(深圳)有限公司 | 基于双向循环神经网络的微表情识别方法、装置及介质 |
WO2023151289A1 (zh) * | 2022-02-09 | 2023-08-17 | 苏州浪潮智能科技有限公司 | 情感识别方法、训练方法、装置、设备、存储介质及产品 |
CN115294636A (zh) * | 2022-10-09 | 2022-11-04 | 山东海博科技信息系统股份有限公司 | 一种基于自注意力机制的人脸聚类方法和装置 |
CN117153195B (zh) * | 2023-10-31 | 2024-03-12 | 中国传媒大学 | 基于自适应区域遮挡的说话人脸视频生成方法及系统 |
CN117153195A (zh) * | 2023-10-31 | 2023-12-01 | 中国传媒大学 | 基于自适应区域遮挡的说话人脸视频生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111310672A (zh) | 基于时序多模型融合建模的视频情感识别方法、装置及介质 | |
CN109389091B (zh) | 基于神经网络和注意力机制结合的文字识别系统及方法 | |
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN109902293B (zh) | 一种基于局部与全局互注意力机制的文本分类方法 | |
CN108133188B (zh) | 一种基于运动历史图像与卷积神经网络的行为识别方法 | |
CN108717856B (zh) | 一种基于多尺度深度卷积循环神经网络的语音情感识别方法 | |
CN109190537B (zh) | 一种基于掩码感知深度强化学习的多人物姿态估计方法 | |
CN109934261B (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
CN113905391B (zh) | 集成学习网络流量预测方法、系统、设备、终端、介质 | |
CN110334589B (zh) | 一种基于空洞卷积的高时序3d神经网络的动作识别方法 | |
CN111476302A (zh) | 基于深度强化学习的Faster-RCNN目标物体检测方法 | |
CN109829495B (zh) | 基于lstm和dcgan的时序性图像预测方法 | |
CN111783540B (zh) | 一种视频中人体行为识别方法和系统 | |
CN111160163B (zh) | 一种基于区域关系建模和信息融合建模的表情识别方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN114140885A (zh) | 一种情感分析模型的生成方法、装置、电子设备以及存储介质 | |
CN114330541A (zh) | 道路交通事故风险预测深度学习算法 | |
CN113298186A (zh) | 融合流模型对抗生成网络和聚类算法的网络异常流量检测方法 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
Hu et al. | Semi-supervised learning based on GAN with mean and variance feature matching | |
CN114036298A (zh) | 一种基于图卷积神经网络与词向量的节点分类方法 | |
Zheng et al. | Action recognition based on the modified twostream CNN | |
Zhao et al. | Human action recognition based on improved fusion attention CNN and RNN | |
CN112766368A (zh) | 一种数据分类方法、设备和可读存储介质 | |
CN112560440A (zh) | 一种基于深度学习的面向方面级情感分析的句法依赖方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200619 |