CN113536999A - 人物情绪识别方法、系统、介质及电子设备 - Google Patents
人物情绪识别方法、系统、介质及电子设备 Download PDFInfo
- Publication number
- CN113536999A CN113536999A CN202110745923.XA CN202110745923A CN113536999A CN 113536999 A CN113536999 A CN 113536999A CN 202110745923 A CN202110745923 A CN 202110745923A CN 113536999 A CN113536999 A CN 113536999A
- Authority
- CN
- China
- Prior art keywords
- emotion
- data
- character
- image
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 19
- 230000008451 emotion Effects 0.000 claims abstract description 97
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000003062 neural network model Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims description 34
- 239000013598 vector Substances 0.000 claims description 14
- 239000011159 matrix material Substances 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 3
- 238000005406 washing Methods 0.000 claims 1
- 238000013508 migration Methods 0.000 abstract description 3
- 230000005012 migration Effects 0.000 abstract description 3
- 230000008921 facial expression Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Probability & Statistics with Applications (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种人物情绪识别方法、系统、介质及电子设备,所述方法包括将带有情绪标签的人物图像数据和人物声音数据进行融合;利用融合后的数据训练神经网络模型以得到情绪分类器模型;采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。本发明的人物情绪识别方法、系统、介质及电子设备,可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪,基于Transformer网络可以实现并行运算,前向推理速度更快,更适合算力资源不足的情况下模型部署,具有较高的迁移和适应能力。
Description
技术领域
本发明涉及人物情绪识别技术领域,特别是涉及一种人物情绪识别方法、系统、介质及电子设备。
背景技术
随着深度学习技术的发展和落地,基于图像CNN分类的人物表情识别已经日趋成熟,其中,卷积神经网络(Convolutional Neural Networks,CNN)现阶段广泛应用的基于图像的表情分类是从人脸图像提取面部特征进行学习,得到人脸表情分类器,然后应用到人脸数据分析中进行表情分类。
由于受限于前端相机可能存在的固有的畸变、光照等硬件因素的影响,采集的人脸图像质量可能存在一定程度的模糊或者曝光,这就造成从图像像素中进行CNN特征提取得到的面部信息有所影响,无法很好的表示人物真实的表情,而且人的情绪本身是有声音,表情以及心理等多维信息来衡量的一个属性特征,仅通过面部图像很多时候往往难以精确识别。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种人物情绪识别方法、系统、介质及电子设备,用于解决现有技术中人物情绪识别不精确的问题。
为实现上述目的及其他相关目的,本发明提供一种人物情绪识别方法,所述方法包括:将带有情绪标签的人物图像数据和人物声音数据进行融合;利用融合后的数据训练神经网络模型以得到情绪分类器模型;采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
于本发明的一实施例中,特征提取模型;所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络,或者融合CNN与Transformer的特征提取网络。
于本发明的一实施例中,所述特征提取模型采用Transformer特征提取网络;所述将带有情绪标签的人物图像数据和人物声音数据进行融合,具体包括:
将H×W×C的所述带有情绪标签的人物图像数据变换维度成一个N×(P2·C)的二维矩阵数据块V1;其中,H为图像高,W为图像宽,C为图像通道数,N为序列的长度,P为块的大小。
先通过语音识别将所述带有情绪标签的人物声音数据转化为一维向量,再将所述一维向量变换维度到(N,D2)的二维矩阵数据块V2;其中N为语音时序的长度,D2为每个语音时序向量的维度。
对所述二维矩阵数据块V1与所述二维矩阵数据块V2进行拼接,并在拼接好的数据块首部添加所述情绪标签Xclass,以形成格式符合所述Transformer特征提取网络的数据[Xclass,V1,V2]。
于本发明的一实施例中,所述利用融合后的数据训练神经网络模型以得到情绪分类器模型,具体包括:
令所述Transformer特征提取网络从所述融合后的数据中提取出带有所述情绪标签的人物图像特征和人物声音特征;
将所述人物图像特征和所述人物声音特征加以融合后放入ViT网络中进行有监督训练。
于本发明的一实施例中,所述方法还包括:在所述有监督训练中,采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数,直到损失不再下降则停止训练,以得到所述情绪分类器模型。
于本发明的一实施例中,所述情绪分类器模型输出所述待识别人物的情绪信息,具体包括:通过Softmax分类得到每个情绪分类的概率得分,将概率最大的一类作为最终的情绪信息识别结果。
于本发明的一实施例中,所述方法还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签,并重新标注。
为实现上述目的及其他相关目的,本发明提供一种上述的人物情绪识别系统,所述系统包括:
融合模块,用于将带有情绪标签的人物图像数据和人物声音数据进行融合;
获取模块,用于利用融合后的数据训练神经网络模型以得到情绪分类器模型;
输出模块,用于采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
为实现上述目的及其他相关目的,本发明提供一种上述的计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述人物情绪识别方法。
为实现上述目的及其他相关目的,本发明提供一种上述的电子设备,所述电子设备包括:所述存储器用于存储计算机程序,所述处理器用于加载执行所述计算机程序,以使所述电子设备执行所述的人物情绪识别方法。
如上所述,本发明的人物情绪识别方法、系统、介质及电子设备,可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪,基于Transformer网络可以实现并行运算,前向推理速度更快,更适合算力资源不足的情况下模型部署,具有较高的迁移和适应能力,并且可以广泛应用到电影人物分析、嫌疑人员测谎等应用场景。
附图说明
图1显示为本发明的人物情绪识别方法于一实施例中的方法步骤图;
图2显示为本发明的人物情绪识别方法于一实施例中的应用流程图;
图3显示为本发明的人物情绪识别方法于一实施例中的数据融合示意图;
图4显示为本发明的人物情绪识别系统于一实施例中的结构示意图;
图5显示为本发明一实施例中电子设备的结构示意图。
元件标号说明
S11~S13 步骤
40 人物情绪识别系统
41 融合模块
42 获取模块
43 输出模块
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,于发明一实施例中,本发明的人物情绪识别方法包括如下步骤:
步骤S11、将带有情绪标签的人物图像数据和人物声音数据进行融合;
步骤S12、利用融合后的数据训练神经网络模型以得到情绪分类器模型;
步骤S13、采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
具体地,如图2所示,本申请提出的方法具体包含两个部分,其一是训练部分,其二是应用部分,相应地,在所述训练部分将开源的视频数据集划分为训练集与测试集,其中,首先将带有情绪标签的所述人物图像数据和所述人物声音数据进行多维度数据融合,转化成训练Transformer特征提取网络对应的数据格式,通过对有监督的训练得到两种维度的特征,进行特征嵌入(embedding),最后得到融合图像和声音信息的所述情绪分类器模型,待获取到所述情绪分类器模型后,采集待识别人物的图像数据和声音数据,融合后输入至训练好的所述情绪分类器模型中,以使所述情绪分类器模型输出待识别人物的融合图像和声音的情绪特征,得到“512”维的矢量特征,而后通过Softmax分类得到每个情绪分类的概率得分,将概率最大的一类作为最终的情绪信息识别结果,例如高兴、悲伤或者平静的情绪。
进一步地,于发明一实施例中,所述神经网络模型包括:特征提取模型;所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络,或者融合CNN与Transformer的特征提取网络。
需要说明的是,Transformer的特征提取网络可以替换为T2T-Transformer,在满足精度的情况下,前向推理的速度更快,特征提取的基准网络可以替换成为融合CNN+Transformer的新的基准网络,兼容CNN对分类任务的优势和Transformer对时序训练的优势。
进一步地,于发明一实施例中,所述特征提取模型采用Transformer特征提取网络;所述将带有情绪标签的人物图像数据和人物声音数据进行融合,具体包括:
将H×W×C的所述带有情绪标签的人物图像数据变换维度成一个N×(P2·C)的二维矩阵数据块V1;其中,H为图像高,W为图像宽,C为图像通道数,N为序列的长度,P为块的大小。
先通过语音识别将所述带有情绪标签的人物声音数据转化为一维向量,再将所述一维向量变换维度到(N,D2)的二维矩阵数据块V2;其中N为语音时序的长度,D2为每个语音时序向量的维度。
对所述二维矩阵数据块V1与所述二维矩阵数据块V2进行拼接,并在拼接好的数据块首部添加所述情绪标签Xclass,以形成格式符合所述Transformer特征提取网络的数据[Xclass,V1,V2]。
需要说明的是,如图3所示,对于所述训练部分而言,首先对已标注好的带有情绪标签信息的人物图像和声音序列进行二维数据融合,并转化成训练Transformer特征提取网络对应的数据格式,具体地,对于图像数据:将H×W×C的图像变换维度成一个二维矩阵(N,D1),其中N为序列的长度,D1为每个序列向量的维度,其中,H为图像高,W为图像宽,C为图像通道数,N为序列的长度,P为块的大小,D1=(P2·C),即可以将一个H×W×C的图像变换维度成N×(P2·C)的二维数据块V1;对于声音数据,首先通过语音识别将音轨转化为一维(1,D′)的向量,再将词向量变换维度到(N,D2)的二维数据块V2,其中N为语音时序的长度,D2为每个语音时序向量的维度;最后将处理好的相对应的图像数据V1和声音数据V2进行concat拼接,并在拼接好的数据头部添加情绪分类标签信息Xclass,组成Transformer特征提取网络对应的数据格式[Xclass,V1,V2],提供给后续训练。
进一步地,于发明一实施例中,所述利用融合后的数据训练神经网络模型以得到情绪分类器模型,具体包括:
令所述Transformer特征提取网络从所述融合后的数据中提取出带有所述情绪标签的人物图像特征和人物声音特征;
将所述人物图像特征和所述人物声音特征加以融合后放入ViT网络中进行有监督训练。
需要说明的是,通过对有监督的训练得到两种维度的特征,进行特征嵌入(embedding),最后得到融合图像和声音信息的情绪分类器模型,对处理融合好的带有标签信息的训练数据,放入Vision Transformer(ViT)网络中进行有监督训练,采用交叉熵作为损失函数,最后通过softmax得到情绪分类器。
值得一提的是,有监督训练是深度学习中一个名词,意思是在训练时候会提前给数据既定的标签去训练,于本申请的作用就是提前对标好的数据,比如是代表高兴的数据,代表悲伤的数据,这种带有标签信息的数据送给ViT网络进行训练。
进一步地,于发明一实施例中,所述方法还包括:在所述有监督训练中,采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数,直到损失不再下降则停止训练,以得到所述情绪分类器模型。
需要说明的是,选取pytorch深度学习框架对Transformer特征提取模块的网路进行训练,选取ViT作为基准模型,对融合声音和图像信息的二维数据使用所述交叉熵作为所述损失函数进行迭代训练,可以使得同一类别内距离尽可能减小,不同类别之间的距离尽可能增大,从而达到较好的分类效果,其中,停止训练的标志是是经验值,一般训练停止的标志是损失(loss)不再下降,迭代的次数没有固定的数量限制,在实际训练过程中可以根据历史经验设置固定的迭代次数,例如迭代五十次或者迭代三十次作为所述数量限制。
进一步地,于发明一实施例中,所述方法还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签,并重新标注。
需要说明的是,有些数据的所述原始情绪标签并不准确,比如应该是表示高兴的数据标注的标签信息是悲伤,这时候就需要修改标签。
请参阅图4,在一实施例中,本实施例提供的一种人物情绪识别系统40,其中,所述系统包括:
融合模块41,用于将带有情绪标签的人物图像数据和人物声音数据进行融合;
获取模块42,用于利用融合后的数据训练神经网络模型以得到情绪分类器模型;
输出模块43,用于采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
由于本实施例的具体实现方式与前述方法实施例对应,因而于此不再对同样的细节做重复赘述,本领域技术人员也应当理解,图4实施例中的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个或多个物理实体上,且这些模块可以全部以软件通过处理元件调用的形式实现,也可以全部以硬件的形式实现,还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。
除此之外,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现任一项所述船舶管系原理图创建方法。
参阅图5,本实施例提供一种电子设备,详细的,电子设备至少包括通过总线连接的:存储器、处理器,其中,存储器用于存储计算机程序,处理器用于执行存储器存储的计算机程序,以执行前述方法实施例中的全部或部分步骤。
综上所述,本发明可以结合图像的多维度数据的特征以及整个视频序列的前后文信息来更为精确的判断人物的情绪,基于Transformer网络可以实现并行运算,前向推理速度更快,更适合算力资源不足的情况下模型部署,具有较高的迁移和适应能力,并且可以广泛应用到电影人物分析、嫌疑人员测谎等应用场景。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (10)
1.一种人物情绪识别方法,其特征在于,包括:
将带有情绪标签的人物图像数据和人物声音数据进行融合;
利用融合后的数据训练神经网络模型以得到情绪分类器模型;
采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
2.根据权利要求1所述的人物情绪识别方法,其特征在于,所述神经网络模型包括:特征提取模型;所述特征提取模型采用Transformer特征提取网络、T2T-Transformer特征提取网络,或者融合CNN与Transformer的特征提取网络。
3.根据权利要求2所述的人物情绪识别方法,其特征在于,所述特征提取模型采用Transformer特征提取网络;所述将带有情绪标签的人物图像数据和人物声音数据进行融合,具体包括:
将H×W×C的所述带有情绪标签的人物图像数据变换维度成一个N×(P2·C)的二维矩阵数据块V1;其中,H为图像高,W为图像宽,C为图像通道数,N为序列的长度,P为块的大小。
先通过语音识别将所述带有情绪标签的人物声音数据转化为一维向量,再将所述一维向量变换维度到(N,D2)的二维矩阵数据块V2;其中N为语音时序的长度,D2为每个语音时序向量的维度。
对所述二维矩阵数据块V1与所述二维矩阵数据块V2进行拼接,并在拼接好的数据块首部添加所述情绪标签Xclass,以形成格式符合所述Transformer特征提取网络的数据[Xclass,V1,V2]。
4.根据权利要求3所述的人物情绪识别方法,其特征在于,所述利用融合后的数据训练神经网络模型以得到情绪分类器模型,具体包括:
令所述Transformer特征提取网络从所述融合后的数据中提取出带有所述情绪标签的人物图像特征和人物声音特征;
将所述人物图像特征和所述人物声音特征加以融合后放入ViT网络中进行有监督训练。
5.根据权利要求4所述的人物情绪识别方法,其特征在于,还包括:在所述有监督训练中,采用交叉熵、JS散度交叉熵或标签平滑交叉熵作为损失函数,直到损失不再下降则停止训练,以得到所述情绪分类器模型。
6.根据权利要求1所述的人物情绪识别方法,其特征在于,所述情绪分类器模型输出所述待识别人物的情绪信息,具体包括:
通过Softmax分类得到每个情绪分类的概率得分,将概率最大的一类作为最终的情绪信息识别结果。
7.根据权利要求1所述的人物情绪识别方法,其特征在于,还包括清洗所述人物图像数据和所述人物声音数据中不准确的原始情绪标签,并重新标注。
8.一种人物情绪识别系统,其特征在于,包括:
融合模块,用于将带有情绪标签的人物图像数据和人物声音数据进行融合;
获取模块,用于利用融合后的数据训练神经网络模型以得到情绪分类器模型;
输出模块,用于采集待识别人物的图像数据和声音数据,融合后输入至所述情绪分类器模型,以使所述情绪分类器模型输出所述待识别人物的情绪信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1至7任一项所述人物情绪识别方法。
10.一种电子设备,其特征在于,所述电子设备包括:所述存储器用于存储计算机程序,所述处理器用于执行所述存储器存储的计算机程序,以使所述电子设备执行如权力要求1至7中任一项所述人物情绪识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745923.XA CN113536999B (zh) | 2021-07-01 | 2021-07-01 | 人物情绪识别方法、系统、介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110745923.XA CN113536999B (zh) | 2021-07-01 | 2021-07-01 | 人物情绪识别方法、系统、介质及电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113536999A true CN113536999A (zh) | 2021-10-22 |
CN113536999B CN113536999B (zh) | 2022-08-19 |
Family
ID=78097518
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110745923.XA Active CN113536999B (zh) | 2021-07-01 | 2021-07-01 | 人物情绪识别方法、系统、介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113536999B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962335A (zh) * | 2021-12-22 | 2022-01-21 | 北京恒信启华信息技术股份有限公司 | 一种可灵活配置的数据全过程处理方法 |
CN114863548A (zh) * | 2022-03-22 | 2022-08-05 | 天津大学 | 基于人体运动姿态非线性空间特征的情绪识别方法及装置 |
CN115457981A (zh) * | 2022-09-05 | 2022-12-09 | 安徽康佳电子有限公司 | 一种便于听障人士观看视频的方法和基于该方法的电视 |
CN115731189A (zh) * | 2022-11-22 | 2023-03-03 | 河北师范大学 | 肠镜图像病变识别方法、装置、电子设备及存储介质 |
WO2024000867A1 (zh) * | 2022-06-30 | 2024-01-04 | 浪潮电子信息产业股份有限公司 | 情绪识别方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414323A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 情绪检测方法、装置、电子设备及存储介质 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN112418034A (zh) * | 2020-11-12 | 2021-02-26 | 元梦人文智能国际有限公司 | 多模态情感识别方法、装置、电子设备和存储介质 |
CN112686048A (zh) * | 2020-12-23 | 2021-04-20 | 沈阳新松机器人自动化股份有限公司 | 基于语音、语义、面部表情融合的情绪识别方法及装置 |
CN112699774A (zh) * | 2020-12-28 | 2021-04-23 | 深延科技(北京)有限公司 | 视频中人物的情绪识别方法及装置、计算机设备及介质 |
CN112926525A (zh) * | 2021-03-30 | 2021-06-08 | 中国建设银行股份有限公司 | 情绪识别方法、装置、电子设备和存储介质 |
-
2021
- 2021-07-01 CN CN202110745923.XA patent/CN113536999B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414323A (zh) * | 2019-06-14 | 2019-11-05 | 平安科技(深圳)有限公司 | 情绪检测方法、装置、电子设备及存储介质 |
CN111339913A (zh) * | 2020-02-24 | 2020-06-26 | 湖南快乐阳光互动娱乐传媒有限公司 | 一种视频中的人物情绪识别方法及装置 |
CN112418034A (zh) * | 2020-11-12 | 2021-02-26 | 元梦人文智能国际有限公司 | 多模态情感识别方法、装置、电子设备和存储介质 |
CN112686048A (zh) * | 2020-12-23 | 2021-04-20 | 沈阳新松机器人自动化股份有限公司 | 基于语音、语义、面部表情融合的情绪识别方法及装置 |
CN112699774A (zh) * | 2020-12-28 | 2021-04-23 | 深延科技(北京)有限公司 | 视频中人物的情绪识别方法及装置、计算机设备及介质 |
CN112926525A (zh) * | 2021-03-30 | 2021-06-08 | 中国建设银行股份有限公司 | 情绪识别方法、装置、电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
ALEXEY DOSOVITSKIY 等: ""AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE"", 《ARXIV:2010.11929V2 [CS.CV]》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113962335A (zh) * | 2021-12-22 | 2022-01-21 | 北京恒信启华信息技术股份有限公司 | 一种可灵活配置的数据全过程处理方法 |
CN113962335B (zh) * | 2021-12-22 | 2022-04-12 | 北京恒信启华信息技术股份有限公司 | 一种可灵活配置的数据全过程处理方法 |
CN114863548A (zh) * | 2022-03-22 | 2022-08-05 | 天津大学 | 基于人体运动姿态非线性空间特征的情绪识别方法及装置 |
CN114863548B (zh) * | 2022-03-22 | 2024-05-31 | 天津大学 | 基于人体运动姿态非线性空间特征的情绪识别方法及装置 |
WO2024000867A1 (zh) * | 2022-06-30 | 2024-01-04 | 浪潮电子信息产业股份有限公司 | 情绪识别方法、装置、设备及存储介质 |
CN115457981A (zh) * | 2022-09-05 | 2022-12-09 | 安徽康佳电子有限公司 | 一种便于听障人士观看视频的方法和基于该方法的电视 |
CN115731189A (zh) * | 2022-11-22 | 2023-03-03 | 河北师范大学 | 肠镜图像病变识别方法、装置、电子设备及存储介质 |
CN115731189B (zh) * | 2022-11-22 | 2023-06-23 | 河北师范大学 | 肠镜图像病变识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113536999B (zh) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113536999B (zh) | 人物情绪识别方法、系统、介质及电子设备 | |
US11281945B1 (en) | Multimodal dimensional emotion recognition method | |
Rashid et al. | Human emotion recognition from videos using spatio-temporal and audio features | |
Kollias et al. | The 6th affective behavior analysis in-the-wild (abaw) competition | |
CN113780486B (zh) | 一种视觉问答的方法、装置及介质 | |
CN115526259A (zh) | 一种多模态预训练模型的训练方法和装置 | |
CN114298121A (zh) | 基于多模态的文本生成方法、模型训练方法和装置 | |
Dhivyasri et al. | An efficient approach for interpretation of Indian sign language using machine learning | |
CN110968725A (zh) | 图像内容描述信息生成方法、电子设备及存储介质 | |
CN110705490A (zh) | 视觉情感识别方法 | |
CN111222854B (zh) | 基于面试机器人的面试方法、装置、设备及存储介质 | |
Rahim et al. | Dynamic hand gesture based sign word recognition using convolutional neural network with feature fusion | |
CN112733764A (zh) | 一种基于多模态识别视频情感信息的方法 | |
CN111488813A (zh) | 视频的情感标注方法、装置、电子设备及存储介质 | |
Liu et al. | Intelligent design of multimedia content in Alibaba | |
CN113743389B (zh) | 一种面部表情识别的方法、装置和电子设备 | |
Tautkutė et al. | Classifying and visualizing emotions with emotional DAN | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN113076905B (zh) | 一种基于上下文交互关系的情绪识别方法 | |
Avula et al. | CNN based recognition of emotion and speech from gestures and facial expressions | |
Desai et al. | Adversarial Network for Photographic Image Synthesis from Fine-grained Captions | |
CN113010717B (zh) | 图像诗句描述生成方法、装置和设备 | |
Pham et al. | Vietnamese scene text detection and recognition using deep learning: An empirical study | |
Kanjanawattana et al. | Deep Learning-Based Emotion Recognition through Facial Expressions | |
Nekkanti et al. | Breaking Down Communication Barriers: Real-Time Sign Language Recognition Using CNN & Flask-Based API |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: 201203 No. 6, Lane 55, Chuanhe Road, China (Shanghai) pilot Free Trade Zone, Pudong New Area, Shanghai Applicant after: Winner Technology Co.,Ltd. Address before: 201505 Room 216, 333 Tingfeng Highway, Tinglin Town, Jinshan District, Shanghai Applicant before: Winner Technology Co.,Ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |