CN112837701B - 基于多分类器交互学习的语音情感识别方法 - Google Patents
基于多分类器交互学习的语音情感识别方法 Download PDFInfo
- Publication number
- CN112837701B CN112837701B CN202011623065.3A CN202011623065A CN112837701B CN 112837701 B CN112837701 B CN 112837701B CN 202011623065 A CN202011623065 A CN 202011623065A CN 112837701 B CN112837701 B CN 112837701B
- Authority
- CN
- China
- Prior art keywords
- model
- data
- models
- data set
- fuzzy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 33
- 238000000034 method Methods 0.000 title claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 title claims description 27
- 230000008451 emotion Effects 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000012545 processing Methods 0.000 claims abstract description 8
- 230000006870 function Effects 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 2
- 230000003247 decreasing effect Effects 0.000 claims 1
- 230000036541 health Effects 0.000 abstract description 3
- 238000013145 classification model Methods 0.000 abstract 1
- 238000004088 simulation Methods 0.000 description 7
- 241000282414 Homo sapiens Species 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000008921 facial expression Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000036544 posture Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 241000510672 Cuminum Species 0.000 description 1
- 235000007129 Cuminum cyminum Nutrition 0.000 description 1
- 102000007330 LDL Lipoproteins Human genes 0.000 description 1
- 108010007622 LDL Lipoproteins Proteins 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提出一种针对语音中的较为模糊情感的识别方法,主要解决现有技术中大多数语音数据为模糊数据,情感识别准确率低及人工注释标签成本较高的问题。其实现方案是:1)通过少量具有精确标签的数据对五个分类器进行初次训练得到五个模型,并用这五个模型为模糊数据构造一个模糊标签;2)用具有模糊标签的数据二次训练五个模型,得到的训练好的五个情感分类模型;3)将少量无标签数据放入训练好的五个模型进行语音情感识别,得到对愤怒、高兴、平静、恐慌和悲伤这五种情感分类判别的准确率;4)选择准确率最高的结果作为数据标签为情感分类结果。本发明提高了模糊数据处理能力,识别准确率高,成本低,可用于健康检索、信息安全及机器人。
Description
技术领域
本发明属于人工智能技术领域,具体是涉及一种语音情感识别方法,可用于健康检索、信息安全及机器人。
背景技术
情感识别ER是指计算机对从传感器采集来的信号进行分析和处理,从而得到人的情感状态。情感识别具有非常广阔的应用前景,随着情感识别的引入各行各业的服务质量都将有很大的提升。目前情感识别技术已被逐步应用于视频剧情广告推荐、视频自动编辑等,并且带来了巨大的经济价值。而语音情感识别SER是指从语音中信号中寻找情感内容。从生理心理学角度,相比面部表情和身体姿态等人类行为,语音更能表达人类内心潜在的情感,可以表达面部表情和身体姿态无法表达的潜在情感状态。
关于语音情感识别方面的研究,主要包括语音接口、语言处理、语音分析,其在健康、检索、机器人、安全以及其他相关领域有很大的应用。人类和机器之间的最有效的互动方式是语音,但目前最大的障碍是机器无法足够的获取和识别人类的语音信息。而语言情感识别是人类交流必不可少的一部分,因此语音情感识别SER目前也被看做能够丰富下一代人工智能“情商”的重要研究领域。
由于通过语音情感识别的重要性,以及语音情感识别方式可以更好的预测出人内心的潜在情感,因此语音情感识别长期以来受到了大量的关注。但是正是因为语音情感数据的模糊,因此识别的任务具有挑战性,语音情感识别和合成方面进展很慢。因而如何以更有效的方式利用语音数据进行情感识别,如何提高情感识别的准确率和一致性,仍然是当前情感识别中的难点问题。
近年来,通过深度学习技术从语谱图中提取特征已经成为语音情感识别相关任务的一个新趋势,在性能上表现出了很强的竞争力。自从第一次发表了成功地使用卷积神经网络CNN从语音信号中学习特征表征,一些研究人员就跟随这一趋势,使用深度神经网络自动学习特征表征。例如,2016年,Trigeorgis有学者使用端到端的学习算法,结合了CNN和循环神经网络RNN,并且融入了长短期记忆网络LSTM,实现了较高的识别效果。2019年,Dai等人提出了一种新的方法来解决模糊情绪分类问题,它结合了交叉熵损失和中心损失,并增强了辨别能力。2017年,Cumins等人提出了一种基于CNN的方法,它使用预训练的AlexNet提取深度谱特征,并使用线性支持向量机来解决分类任务。这些方法都是将语谱图直接反馈到神经网络中完成与语音情感识别的相关任务,这些方法的不足之处是他们都需要语音数据有精确标签,然而实际情况下大多数语音数据是没有精确标签的,这些方法就不能取得很好的效果。
标签分布学习ldl是近年来提出的一种机器学习方法,已在多个领域得到应用,它用标签分布代替数据的精确标签。例如,为了处理年龄相近时脸部表情的相似性,2013年,Geng等人最初提出了一种用年龄的标签分布来处理脸部年龄估计问题的低密度脂蛋白算法。2018年,Gao等人提出了一个端到端的学习结构,可以获得特征学习阶段和分类器阶段的年龄标签分布。标签分布学习的使用不仅限于年龄估计,而且在其他方面也得到了很好的应用。2015年,Zhang等人利用标签分布学习设计了一种用于群体计数的公共视频监控算法。2019年,刘等人提出了一种标签分布学习算法,将照片分为广角类型和窄角类型。这些方法虽说达到了最先进的性能。但是它们的不足之处是不能给出数据合理的模糊标签,因为它们的数据标签要么是手动注释的,要么是基于强大的假设。
发明内容
本发明的目的在于针对上述现有技术的不足,提出一种基于多分类器交互学习的语音情感识
别方法,以在语音数据没有精确标签的情况下,有效提高模糊数据处理准确率,同时避免标签分布学习的手动注释,提高语音模糊情感识别的准确率。
为实现上述目的,本发明的技术方案如下:
一种多分类器交互学习的语音情感识别方法,其特征在于,包括如下:
(1)从数据集MAS中按照模糊程度,划分为三个数据集D1,D2,D3,其中D1表示包含具有精确标签样本的数据集,共计6000个语音数据;D2表示包含具有大量无标签样本的数据集,共计13400个语音数据;D3表示包含具有模糊样本的数据集,共计1000个语音数据,用于评估交互学习的表现;
(2)使用精确标签的数据集D1分别对DenseNet、ResNet、VGG、AlexNet和SuqeezeNet这五个分类器进行初次训练,得到对应的五个模型:DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型;
(3)使用(2)中得到的五个模型分别对无标签样本数据集D2进行分类,并将分类结果以五个模型投票的方式进行统计;
(4)将(3)中五个模型的投票结果归一化为分布形式,得到模糊标签,作为无标签样本数据集D2的标签,将这些标签作为交互信息,得到具有交互信息的数据集D4;
(5)用(4)得到的具有交互信息的数据集D4对(2)得到五个模型进行二次训练,即用有交互信息的数据集D4与初次训练好的五个模型进行交互学习,得到二次训练后的DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型,并保存;
(6)进行语音情感识别:
(6a)将模糊样本数据集D3中的语音数据放入到二次训练后的五个模型中,每个模型作为一个分类器,都对数据从愤怒,高兴,平静,恐慌和悲伤这五个情感进行分类判别,并给出每个分类判别结果的准确率;
(6b)从(6a)得到分类判别结果及其准确率中,挑选五个模型中判别准确率最高的一个模型的结果,作为数据的标签,该标签就是数据对应的情感类别。
本发明与现有技术相比,具有如下优点:
第一,本发明提出的多分类器交互学习方法,通过少量精确数据样本初次训练得到多个模型,对大量无标签数据样本进行分类,用投票的方式统计分类结果,将投票结果归一化处理得到他们的模糊标签,避免了需要人工专家对分类结果进行投票,减少人工成本。
第二,本发明使用有交互信息的数据集与初次训练好的多个模型进行交互学习,提高了模型对模糊数据的处理能力和计算速度。
第三,本发明通过语音情感识别,证明了本发明提出的基于多分类器交互学习的语音情感识别的准确率高于其它先进方法。
附图说明
图1为本发明的实现总流程图。
图2为本发明中对无标签数据集构建模糊标签子流程图。
图3为本发明中进行交互学习的子流程图。
图4为本发明中语音情感识别的子流程图。
具体实施方式
下面结合附图对本发明的实施例和效果做进一步的描述。
参照图1,本发明的实现步骤如下:
步骤1,构建需求的数据集。
将现有已知MAS数据集,共计20400个语音数据,按照模糊程度,划分为三个数据集D1,D2,D3。其中D1表示包含具有精确标签的样本,共计6000个语音数据,其被用来训练5个分类器的精确标签学习阶段;D2包含大量的无标签样本,共计13400个语音数据其被用来构造模糊标签得到具有交互信息的数据集D4和交互学习的第二次训练模型;D3包含模糊样本,共计1000个语音数据其被用来评估交互学习中二次训练好的模型的表现。
步骤2,利用具有精确标签样本的数据集D1分别对DenseNet、ResNet、VGG、AlexNet和SuqeezeNet这五个分类器进行初次训练。
所述DenseNet分类器,含有120层卷积层及1层全连接层,训练时冻结前60层卷积层参数;
所述ResNet分类器,含有17层卷积层及1层全连接层,训练时冻结前4层参数;
所述VGG分类器,含有8层卷积层及3层全连接层,训练时冻结前1层参数;
所述AlexNet分类器,含有5层卷积层及3层全连接层;
所述SqueezeNet分类器,含有2层卷积层以及8个fire模块。
本步骤使用所述数据集D1在ImageNet上预训练的五个分类器在D1上进行初始训练的实现步骤如下:
2.1)分别初始化五个分类器参数,设置分类器参数:初始迭代次数K=50,学习率L=0.001,dropout=0.5;
2.2)使用交叉熵损失函数loss最优化多个分类器的识别结果,交叉熵损失函数loss如下所示:
2.3)计算数据集D1中每个数据在每个分类器中的损失函数loss,计算次数为初始迭代次数,判断损失函数在经过初始迭代的50次中是否一直减小:
若减小,则将迭代次数K加1,并返回2.2);
若损失函数loss不再减小,则停止训练,得到初次训练好的五个模型;
保存初次训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。
步骤3,建立模糊标签分布。
将训练好的五个模型对无标签数据D2进行投票打标签,然后,用五个模型对同一样本的分类结果进行加和,并进行归一化处理构造模糊标签分布。
参照图2,本步骤的具体实现如下:
3.1)将所述数据集D2中的数据放入初次训练好的五个模型进行分类,此时模型代替人工专家进行情感分类投票,将分类结果用投票的方式进行统计,得到每种情感的投票结果 其中a表示愤怒,h表示开心,n表示平静,p表示恐慌,s表示悲伤;
3.2)将投票结果进行归一化处理,得到每个样本x被分为各类情感的概率:
3.3)用3.2)得到的各类情感概率联合表示为数据的模糊标签Yx:
由于分类结果来源于不同的模型,因此需要将各个分类结果的概率进行联合表示;
3.4)将模糊标签Yx视为这些网络交流的结果,作为交互信息,得到具有交互信息的数据集D4。
步骤4,用步骤3得到的具有交互信息的数据集D4,对五个模型分别进行二次训练,即交互学习,得到最终的五个训练好的模型。
参照图3,本步骤的具体实现如下:
4.1)设置网络参数:迭代次数为K=50,学习率为L=0.001;
若是,则迭代次数K加1,并返回4.2);
若损失函数不再减小,则停止训练,得到二次训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。
步骤5,语音情感识别。
参照图4,本步骤具体实现如下:
5.1)将模糊样本数据集D3放入到二次训练好的五个模型中,进行愤怒、开心、平静、恐慌和悲伤这五种语音情感的识别;
5.2)训练好的五个模型分别给出数据集D4中的数据的情感分类判别结果及其准确率,输出为一个联合表示的标签分布;
5.3)选择五个模型中情感分类准确率最高的输出作为得到的数据标签,该标签就是数据对应的情感分类,完成语音情感识别。
下面结合仿真对本发明的效果做进一步的说明:
1.仿真实验条件:
本发明仿真实验中硬件平台:CPU型号为Intel(R)i9-7960X;GPU型号为GeForceRTX2080Ti*4,显存11G;内存16G*8。
本发明仿真实验中软件平台:ubuntu 18.0LTS系统,Python 3.6,pytorch1.2.0。
本发明仿真实验所使用的数据集来自著名的数据集MAS
2.仿真内容及其结果分析:
用本发明和现有精确标签识别方法Baseline使用上述数据集MAS,进行语音情感识别仿真,结果如下表1:
表1本发明与现有精确标签识别方法结果对比
从表1可以看出,本发明的方法结合了五种不同模型的知识,对愤怒,高兴,平静、恐慌和悲伤这五种情感单独分类判别结果准确率都高于现有精确标签方法Baseline的分类判别结果,且整体分析分类判别结果准确率也高于现有精确标签方法Baseline分类判别结果准确率,表明本发明对于模糊数据的处理效果更好,对模糊情感分类判别的准确率更高。
Claims (4)
1.一种基于多分类器交互学习的语音情感识别方法,其特征在于,包括如下:
(1)从数据集MAS中按照模糊程度,划分为三个数据集D1,D2,D3,其中D1表示包含具有精确标签样本的数据集,共计6000个语音数据;D2表示包含具有大量无标签样本的数据集,共计13400个语音数据;D3表示包含具有模糊样本的数据集,共计1000个语音数据,用于评估交互学习的表现;
(2)使用精确标签的数据集D1分别对DenseNet、ResNet、VGG、AlexNet和SuqeezeNet这五个分类器进行初次训练,得到对应的五个模型:DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型;
(3)使用(2)中得到的五个模型分别对无标签样本数据集D2进行分类,并将分类结果以五个模型投票的方式进行统计;
(4)将(3)中五个模型的投票结果归一化为分布形式,得到模糊标签,作为无标签样本数据集D2的标签,将这些标签作为交互信息,得到具有交互信息的数据集D4;
(5)用(4)得到的具有交互信息的数据集D4对(2)得到五个模型进行二次训练,即用有交互信息的数据集D4与初次训练好的五个模型进行交互学习,得到二次训练后的DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型,并保存;
(6)进行语音情感识别:
(6a)将模糊样本数据集D3中的语音数据放入到二次训练后的五个模型中,每个模型作为一个分类器,都对数据从愤怒,高兴,平静,恐慌和悲伤这五个情感进行分类判别,并给出每个分类判别结果的准确率;
(6b)从(6a)得到分类判别结果及其准确率中,挑选五个模型中判别准确率最高的一个模型的结果,作为数据的标签,该标签就是数据对应的情感类别。
2.根据权利 要求1所述的方法,其特征在于:(2)中使用有精确标签的数据集D1对所述的五个分类器进行初次训练,实现如下:
(2a)初始化五个分类器参数,初始迭代次数为K=50,设学习率为L=0.001;
(2b)使用交叉熵损失函数计算模型损失loss:
(2c)将精确标签样本数据集D1中的数据分别放入五个模型中,分别计算数据在五个模型中的损失函数loss50次;
(2d)判断每个模型的损失函数loss在50次的计算中是否一直减小:
若减小,则令当前模型的K加1,返回(2b);
若损失函数loss不再变化,则停止训练该分类器,得到初次训练好的五个模型;
保存训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。
4.根据权利要求1所述的方法,其特征在于:(5)中用有交互信息的数据集D4与初次训练好的五个模型进行交互学习,实现如下:
(5a)设置网络参数:初始迭代次数K=50,设学习率L=0.001;
(5c)将具有交互信息的数据集D4的数据分别放入初次训练好的五个模型中,计算数据在每个模型中的损失函数DKL共50次;
(5d)判断损失函数DKL在50次的计算中是否一直减小:
若是,则K加1,返回(5b);
若损失函数DKL不再变化,则停止训练,得到二次训练好的五个模型DenseNet模型、ResNet模型、VGG模型、AlexNet模型和SuqeezeNet模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623065.3A CN112837701B (zh) | 2020-12-31 | 2020-12-31 | 基于多分类器交互学习的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011623065.3A CN112837701B (zh) | 2020-12-31 | 2020-12-31 | 基于多分类器交互学习的语音情感识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112837701A CN112837701A (zh) | 2021-05-25 |
CN112837701B true CN112837701B (zh) | 2022-12-27 |
Family
ID=75924283
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011623065.3A Active CN112837701B (zh) | 2020-12-31 | 2020-12-31 | 基于多分类器交互学习的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112837701B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
-
2020
- 2020-12-31 CN CN202011623065.3A patent/CN112837701B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597539A (zh) * | 2018-02-09 | 2018-09-28 | 桂林电子科技大学 | 基于参数迁移和语谱图的语音情感识别方法 |
CN109697232A (zh) * | 2018-12-28 | 2019-04-30 | 四川新网银行股份有限公司 | 一种基于深度学习的中文文本情感分析方法 |
CN111177374A (zh) * | 2019-12-13 | 2020-05-19 | 航天信息股份有限公司 | 一种基于主动学习的问答语料情感分类方法及系统 |
CN112052754A (zh) * | 2020-08-24 | 2020-12-08 | 西安电子科技大学 | 基于自监督表征学习的极化sar影像地物分类方法 |
Non-Patent Citations (1)
Title |
---|
Tri-Training:Exploiting Unlabeled Data Using Three Classifiers;Zhi-Hua Zhou;《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》;20050919;第17卷(第11期);第1529-1541页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112837701A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Jaiswal et al. | Facial emotion detection using deep learning | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
CN111275085A (zh) | 基于注意力融合的在线短视频多模态情感识别方法 | |
CN108597541A (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
CN111414461A (zh) | 一种融合知识库与用户建模的智能问答方法及系统 | |
CN112784763A (zh) | 基于局部与整体特征自适应融合的表情识别方法及系统 | |
CN110575663A (zh) | 一种基于人工智能的体育辅助训练方法 | |
CN110705490B (zh) | 视觉情感识别方法 | |
CN112257449A (zh) | 命名实体识别方法、装置、计算机设备和存储介质 | |
Ocquaye et al. | Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
Pan et al. | Multimodal emotion recognition based on feature selection and extreme learning machine in video clips | |
Wu et al. | Generalized zero-shot emotion recognition from body gestures | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
Zhao et al. | Cbph-net: A small object detector for behavior recognition in classroom scenarios | |
Li et al. | A novel multi-feature joint learning ensemble framework for multi-label facial expression recognition | |
Yuan | Research on classroom emotion recognition algorithm based on visual emotion classification | |
Elleuch et al. | The Effectiveness of Transfer Learning for Arabic Handwriting Recognition using Deep CNN. | |
Gong et al. | Human interaction recognition based on deep learning and HMM | |
Yuan | [Retracted] A Classroom Emotion Recognition Model Based on a Convolutional Neural Network Speech Emotion Algorithm | |
CN112837701B (zh) | 基于多分类器交互学习的语音情感识别方法 | |
He et al. | Dual multi-task network with bridge-temporal-attention for student emotion recognition via classroom video | |
CN115526174A (zh) | 一种针对财经文本情感倾向分类的深度学习模型融合方法 | |
Jalili et al. | Emotion recognition from facial expressions using a genetic algorithm to feature extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |