CN114005468A - 一种基于全局工作空间的可解释情绪识别方法和系统 - Google Patents

一种基于全局工作空间的可解释情绪识别方法和系统 Download PDF

Info

Publication number
CN114005468A
CN114005468A CN202111045320.5A CN202111045320A CN114005468A CN 114005468 A CN114005468 A CN 114005468A CN 202111045320 A CN202111045320 A CN 202111045320A CN 114005468 A CN114005468 A CN 114005468A
Authority
CN
China
Prior art keywords
model
interpretable
emotion recognition
vector
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111045320.5A
Other languages
English (en)
Other versions
CN114005468B (zh
Inventor
沈旭立
沈伟林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huayuan Computing Technology Shanghai Co ltd
Fudan University
Original Assignee
Huayuan Computing Technology Shanghai Co ltd
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huayuan Computing Technology Shanghai Co ltd, Fudan University filed Critical Huayuan Computing Technology Shanghai Co ltd
Priority to CN202111045320.5A priority Critical patent/CN114005468B/zh
Publication of CN114005468A publication Critical patent/CN114005468A/zh
Application granted granted Critical
Publication of CN114005468B publication Critical patent/CN114005468B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于全局工作空间的可解释情绪识别方法和系统,所述方法包括:通过多个预训练模型对相应的输入数据进行分析,获得结果编码;基于最大经验风险算法,将结果编码进行竞争,获得全局工作空间的向量;基于可解释的人工智能算法,获得输入数据的后解释数据;将后解释数据输入到相应的模态模型中,获得第二结果编码;根据向量对第二结果编码进行融合,获得融合向量;将融合向量送入全连接层,经归一化后,获得情绪识别结果。基于最大经验风险算法,对预训练模型的输出进行竞争,获得全局工作空间,通过向量确定融合的机制,使情绪识别快而准确;通过可解释的人工智能算法,提高情绪识别过程的可解释性,便于使用者了解机器学习模型决策的依据。

Description

一种基于全局工作空间的可解释情绪识别方法和系统
技术领域
本发明涉及计算机技术领域,具体涉及一种基于全局工作空间的可解释情绪识别方法和系统。
背景技术
情绪识别场景发源于实际生活需求,例如社交网络的评论蕴含的情绪、保险理赔时受访人员的情绪等。对于基本的情绪识别场景,不同模态的信息,如图片、声音、文字等数据,可以相互补充,能够帮助机器更好地理解情感。然而对于多个模态的数据进行编码后的特征融合一直是技术难点。
在传统方法中,不同的模态进行编码后而做特征融合,最后映射到情绪分类的标签。其中,特征融合经过模态融合层处理,采用对多模态编码进行加权平均的方法。特征融合前通常不具有语义信息,因此很难解释融合的效果,影响模型的准确率。机器学习的本质是学习从数据到标签的映射。当这个映射的复杂度不能被人类所“理解”,就需要借助其他方法来呈现模型的决策依据,这是可解释的人工智能的研究目标。
全局工作空间理论(Global Workspace Theory)是美国心理学家伯纳德巴尔斯提出的意识模型。它假设了人类在主动处理多模态数据的决策过程,即:①各个功能,如听觉、视觉等,在任意时刻可以无意识地进行信息加工。②被加工过的多模态信息在全局工作空间中进行竞争,实现语境的统一。这里的语境统一可以理解各个模态的决策实现了语境统一,即都在处理一个语境下的信息。例如,人类在互相讨论问题时,各个功能通过全局工作空间后都在为讨论问题服务,而对所处环境的背景噪音,由于我们的意识集中于讨论问题上,没有参与信息的加工。③被语境统一过后的信息经过广播至其他功能模块,实现决策。
2017年1月,阿西洛马会议共同达成了23条人工智能原则,包括霍金、伊隆·马斯克等在内的近四千名各界专家签署支持这些原则,因而被称为人工智能发展的“23条军规”。其中第8条提到“但凡涉及自主研制系统,都应提供一个有说服力的解释”。然而目前的多模态情绪识别系统并没有关注语境统一,因而容易产生不可解释的、不具备鲁棒性的结果。同时,由于目前的系统不关注可解释性,因此对于模型使用者而言,难以了解模型的决策依据,因此系统可信度经常受到质疑。
发明内容
针对现有技术中存在的上述技术问题,本发明提供一种基于全局工作空间的可解释情绪识别方法和系统,基于竞争的关系和可解释的特征进行融合,更准地学习或识别情绪,同时提高情绪识别过程的可解释性,让使用者了解机器学习决策的依据。
本发明公开了一种基于全局工作空间的可解释情绪识别方法,所述方法包括:通过多个预训练模型对相应的输入数据进行分析,获得结果编码;基于最大经验风险算法,将所述结果编码进行竞争,获得全局工作空间的向量;基于可解释的人工智能算法,获得所述输入数据的后解释数据;将所述后解释数据输入到相应的模态模型中,获得第二结果编码;根据所述向量对所述第二结果编码进行融合,获得融合向量;将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
优选的,所述预训练模型为以下模型的组合:图像预训练模型、语音预训练模型和语言预训练模型。
优选的,所述模态模型为以下模型的组合:图像识别模型、语音识别模型和语言识别模型。
优选的,所述模态模型参数的学习是通过情绪分类的监督信息得到。
优选的,所述最大经验风险算法表示为:
Figure RE-GDA0003361992920000021
其中,θ表示为模型参数,
Figure RE-GDA0003361992920000022
为非线性期望的表示,x代表输入数据,y代表监督信息,gθ为参数化的模型,例如神经网络,p(x,y)代表数据分布,N代表多模态模型的总数,sj代表用于训练第j个模态模型的样本数量,xjk为第j个模态模型中的第k个数据样本,yjk为xjk的数据标签,
Figure RE-GDA0003361992920000024
为损失函数。
优选的,获得全局工作空间的向量的方法包括:
根据模型参数,对损失函数求梯度后,组合为矩阵G:
Figure RE-GDA0003361992920000023
其中,
Figure RE-GDA0003361992920000031
表示为基于第一预训练模型的模型参数θI对损失函数求梯度,θV表示为第二预训练模型的模型参数,θL表示为第三预训练模型的模型参数, T表示为转置符号;
向量δ表示为:
δ=-GTλ (3)
其中,λ表示为拉格朗日乘子。
优选的,通过以下公式求解拉格朗日乘子为:
Figure RE-GDA0003361992920000032
Figure RE-GDA0003361992920000033
优选的,所述后解释数据包括输入数据及其表征,输入数据包括图片数据、语音数据或自然语言数据,所述表征包括图片数据的解释图、语音数据的解释图或自然语言的表征。
优选的,所述融合向量表示为:
z融合=[z′I+δ,z′V+δ,z′L+δ] (4)
其中,z融合表示为融合向量,z′I表示为第一模态模型输出的第二结果编码,z′V表示为第二模态模型输出的第二结果编码,z′L表示为第三模态模型输出的第二结果编码,δ表示为向量。
本发明还提供一种用于实现上述可解释情绪识别方法的系统,包括预训练模块、竞争模块、可解释模块、分析模块、融合模块和识别模块,
所述预训练模块用于通过多个预训练模型对相应的输入数据进行分析,获得结果编码;所述竞争模块基于最大经验风险算法,将所述结果编码进行竞争,获得全局工作空间的向量;所述可解释模块基于可解释的人工智能算法,获得所述输入数据的后解释数据;所述分析模块用于将所述后解释数据输入到相应的模态模型中,获得第二结果编码;所述融合模块用于根据所述向量对所述第二结果编码进行融合,获得融合向量;所述识别模块用于将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
与现有技术相比,本发明的有益效果为:基于最大经验风险算法,对预训练模型的输出进行竞争,获得全局工作空间的向量,通过向量确定融合的机制,使情绪识别快而准确;通过可解释的人工智能算法,提高情绪识别过程的可解释性,便于使用者了解机器学习决策和过程的依据。
附图说明
图1是本发明的基于全局工作空间的可解释情绪识别方法的流程图;
图2是实施例的流程图;
图3是本发明的系统逻辑框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图对本发明做进一步的详细描述:
一种基于全局工作空间的可解释情绪识别方法,如图1所示,所述方法包括:
步骤101:通过多个预训练模型对相应的输入数据进行分析,获得结果编码。所述预训练模型为以下模型的组合:图像预训练模型、语音预训练模型和语言预训练模型。但不限于此。
步骤102:基于最大经验风险算法(Maximum Empirical Risk),将所述结果编码进行竞争,获得全局工作空间的向量。通过最大经验风险算法各预训练模型结果编码的竞争机制。
步骤103:基于可解释的人工智能算法(Grad-Cam),获得所述输入数据的后解释数据。所述后解释数据包括所述输入数据的表征,例如图片数据的解释图maskI、语音数据的解释图maskV、以及自然语言的表征maskL
步骤104:将所述后解释数据输入到相应的模态模型中,获得第二结果编码。其中模态模型与预训练模型不同,模态模型的参数是可变的,参数的学习是通过情绪分类的监督信息得到。所述模态模型为以下模型的组合:图像识别模型、语音识别模型和语言识别模型。
步骤105:根据所述向量对所述第二结果编码进行融合,获得融合向量。
步骤106:将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
基于最大经验风险算法,对预训练模型的输出进行竞争,获得全局工作空间的向量,通过向量确定融合的机制,使情绪识别快而准确;通过可解释的人工智能算法,提高情绪识别过程的可解释性,便于使用者了解机器学习决策和过程的依据。
其中,所述最大经验风险算法表示为:
Figure RE-GDA0003361992920000051
其中,θ表示为模型参数,
Figure RE-GDA0003361992920000052
为非线性期望的表示,x代表输入数据,y代表监督信息,gθ为参数化的模型,例如神经网络,p(x,y)代表数据分布,N代表多模态模型的总数,sj代表用于训练第j个模态模型的样本数量,xjk为第j个模态模型中的第k个数据样本,yjk为xjk的数据标签,
Figure RE-GDA0003361992920000054
为损失函数。
用语义信息进行监督后,得到全局工作空间的表示编码。本发明中,“竞争”可以描述为对一系列随机变量求次线性期望。全局工作空间的语义信息是监督产生的,保证了语义信息的唯一性。
本发明还提供一种用于实现上述可解释情绪识别方法的系统,如图3所示,包括预训练模块1、竞争模块2、可解释模块3、分析模块4、融合模块5 和识别模块6。
预训练模块1用于通过多个预训练模型对相应的输入数据进行分析,获得结果编码;竞争模块2用于基于最大经验风险算法,将所述结果编码进行竞争,获得全局工作空间的向量;可解释模块3用于基于可解释的人工智能算法,获得所述输入数据的后解释数据;分析模块4用于将所述后解释数据输入到相应的模态模型中,获得第二结果编码;融合模块5用于根据所述向量对所述第二结果编码进行融合,获得融合向量;识别模块6用于将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
实施例
采集上海市某单位的数据作为输入数据,包含视频数据、图片数据、语音数据和文字数据。其中,图片和语音可以从视频数据中采集,文字从语音中得到。处理流程如图2所示。从视频数据中提取图片、语音和文字为现有技术,本发明中不再赘述。
步骤S1:预训练阶段。分别将图片数据I,语音数据V与语言数据L输入对应的预训练模型
Figure RE-GDA0003361992920000053
预训练模型可以由场景识别的监督学习后获得。原始数据I,V,L经过
Figure RE-GDA0003361992920000061
处理后,分别得到结果编码(zI,zV,zL)。
步骤S2:竞争阶段。根据模型参数θ,对损失函数
Figure RE-GDA0003361992920000062
求梯度后,组合为矩阵G:
Figure RE-GDA0003361992920000063
其中,
Figure RE-GDA0003361992920000064
表示为基于第一预训练模型的模型参数θI对损失函数求梯度,θI表示为第一预训练模型的模型参数,θV表示为第二预训练模型的模型参数,θL表示为第三预训练模型的模型参数,T为转置符号。损失函数
Figure RE-GDA0003361992920000065
可以选择交叉熵损失函数。
向量δ表示为:
δ=-GTλ (3)
其中,λ表示为拉格朗日乘子。
通过以下公式求解拉格朗日乘子λ为:
Figure RE-GDA0003361992920000066
Figure RE-GDA0003361992920000067
其中,min表示为最小化,max表示为最大化,s.t.表示为约束条件。
步骤S3:广播阶段或可解释阶段。
广播阶段是统一场景信息后的模型编码阶段,利用可解释方法对场景的监督信息做解释。对于图像数据I与语音数据V,可以利用可解释的人工智能算法Grad-Cam,根据场景监督信息,生成图片解释图maskI与语音解释图 maskV;对于自然语言数据L,可以由Transformer模型得到自然语言可解释的表征maskL。将可解释的表征加上输入数据,以生成由全局工作空间统一了语境后的广播阶段的后解释数据,表示为数据
Figure RE-GDA0003361992920000068
Figure RE-GDA0003361992920000069
Figure RE-GDA00033619929200000610
Figure RE-GDA00033619929200000611
再分别送至三个模态模型进行处理,得到第二结果编码(z′I,z′V,z′L)。这里的模态模型与竞争阶段使用的预训练模型不同,它的参数是可变的,参数的学习是通过情绪分类的监督信息得到。其中,后解释数据包括表征和输入数据。
步骤S4,融合阶段。将第二结果编码(z′I,z′V,z′L)和步骤S2中得到的向量进行拼接或融合,得到融合向量:
z融合=[z′I+δ,z′V+δ,z′L+δ] (4)其中,z融合表示为融合向量,z′I表示为第一模态模型输出的第二结果编码,z′V表示为第二模态模型输出的第二结果编码,z′L表示为第三模态模型输出的第二结果编码,δ表示为向量。其中,第一模态模型具体为图像模态模型,第二模态模型具体为语音模态模型,第三模态模型具体为自然语言模态模型。但不限于此。
步骤S5:识别阶段。将融合向量送入全连接层,经归一化(softmax变换)后,得到分类结果,即识别情绪。将变量送入全连接层,以及经归一化为现有技术,本发明中不再赘述。
经过实施例的处理流程,所述单位的工作人员可通过情绪分类为愤怒的对象,快速定位风险客户,并能通过模型提供的可解释依据。此实施例与同类情绪分类场景有主要区别,它展现了23条人工智能原则中的第8条原则的实用性,用可解释依据作为风险点的举证,从而提高办事效率,有凭有据地为客户服务,信服力更高。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于全局工作空间的可解释情绪识别方法,其特征在于,所述方法包括:
通过多个预训练模型对相应的输入数据进行分析,获得结果编码;
基于最大经验风险算法,将所述结果编码进行竞争,获得全局工作空间的向量;
基于可解释的人工智能算法,获得所述输入数据的后解释数据;
将所述后解释数据输入到相应的模态模型中,获得第二结果编码;
根据所述向量对所述第二结果编码进行融合,获得融合向量;
将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
2.根据权利要求1所述的可解释情绪识别方法,其特征在于,所述预训练模型为以下模型的组合:
图像预训练模型、语音预训练模型和语言预训练模型。
3.根据权利要求1所述的可解释情绪识别方法,其特征在于,所述模态模型为以下模型的组合:
图像识别模型、语音识别模型和语言识别模型。
4.根据权利要求3所述的可解释情绪识别方法,其特征在于,所述模态模型参数的学习是通过情绪分类的监督信息得到。
5.根据权利要求1所述的可解释情绪识别方法,其特征在于,所述最大经验风险算法表示为:
Figure FDA0003250989070000011
其中,θ表示为模型参数,
Figure FDA0003250989070000012
为非线性期望的表示,x代表输入数据,y代表监督信息,gθ为参数化的模型,例如神经网络,p(x,y)代表数据分布,N代表多模态模型的总数,sj代表用于训练第j个模态模型的样本数量,xjk为第j个模态模型中的第k个数据样本,yjk为xjk的数据标签,
Figure FDA0003250989070000015
为损失函数。
6.根据权利要求5所述的可解释情绪识别方法,其特征在于,获得全局工作空间的向量的方法包括:
根据模型参数,对损失函数求梯度后,组合为矩阵G:
Figure FDA0003250989070000013
其中,
Figure FDA0003250989070000014
表示为基于第一预训练模型的模型参数θI对损失函数求梯度,θV表示为第二预训练模型的模型参数,θL表示为第三预训练模型的模型参数,T表示为转置符号;
向量δ表示为:
δ=-GTλ (3)
其中,λ表示为拉格朗日乘子。
7.根据权利要求6所述的可解释情绪识别方法,其特征在于,通过以下公式求解拉格朗日乘子为:
Figure FDA0003250989070000021
Figure FDA0003250989070000022
8.根据权利要求1所述的可解释情绪识别方法,其特征在于,所述后解释数据包括输入数据及其表征,所述表征包括图片数据的解释图、语音数据的解释图或自然语言的表征。
9.根据权利要求1所述的可解释情绪识别方法,其特征在于,所述融合向量表示为:
z融合=[z′I+δ,z′V+δ,z′L+δ] (4)
其中,z融合表示为融合向量,z′I表示为第一模态模型输出的第二结果编码,z′V表示为第二模态模型输出的第二结果编码,z′L表示为第三模态模型输出的第二结果编码,δ表示为向量。
10.一种用于实现如权利要求1-9任一项所述可解释情绪识别方法的系统,其特征在于,包括预训练模块、竞争模块、可解释模块、分析模块、融合模块和识别模块,
所述预训练模块用于通过多个预训练模型对相应的输入数据进行分析,获得结果编码;
所述竞争模块基于最大经验风险算法,将所述结果编码进行竞争,获得全局工作空间的向量;
所述可解释模块基于可解释的人工智能算法,获得所述输入数据的后解释数据;
所述分析模块用于将所述后解释数据输入到相应的模态模型中,获得第二结果编码;
所述融合模块用于根据所述向量对所述第二结果编码进行融合,获得融合向量;
所述识别模块用于将所述融合向量送入全连接层,经归一化后,获得情绪识别结果。
CN202111045320.5A 2021-09-07 2021-09-07 一种基于全局工作空间的可解释情绪识别方法和系统 Active CN114005468B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111045320.5A CN114005468B (zh) 2021-09-07 2021-09-07 一种基于全局工作空间的可解释情绪识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111045320.5A CN114005468B (zh) 2021-09-07 2021-09-07 一种基于全局工作空间的可解释情绪识别方法和系统

Publications (2)

Publication Number Publication Date
CN114005468A true CN114005468A (zh) 2022-02-01
CN114005468B CN114005468B (zh) 2023-04-07

Family

ID=79921231

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111045320.5A Active CN114005468B (zh) 2021-09-07 2021-09-07 一种基于全局工作空间的可解释情绪识别方法和系统

Country Status (1)

Country Link
CN (1) CN114005468B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694234A (zh) * 2022-06-02 2022-07-01 杭州智诺科技股份有限公司 情绪识别方法、系统、电子设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108985358A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 情绪识别方法、装置、设备及存储介质
US20190213400A1 (en) * 2018-01-05 2019-07-11 Samsung Electronics Co., Ltd. Method and apparatus with emotion recognition
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置
CN112765323A (zh) * 2021-01-24 2021-05-07 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190213400A1 (en) * 2018-01-05 2019-07-11 Samsung Electronics Co., Ltd. Method and apparatus with emotion recognition
CN108985358A (zh) * 2018-06-29 2018-12-11 北京百度网讯科技有限公司 情绪识别方法、装置、设备及存储介质
WO2020248376A1 (zh) * 2019-06-14 2020-12-17 平安科技(深圳)有限公司 情绪检测方法、装置、电子设备及存储介质
CN112489635A (zh) * 2020-12-03 2021-03-12 杭州电子科技大学 一种基于增强注意力机制的多模态情感识别方法
CN112686048A (zh) * 2020-12-23 2021-04-20 沈阳新松机器人自动化股份有限公司 基于语音、语义、面部表情融合的情绪识别方法及装置
CN112765323A (zh) * 2021-01-24 2021-05-07 中国电子科技集团公司第十五研究所 基于多模态特征提取与融合的语音情感识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴良庆 等: "基于多任务学习的多模态情绪识别方法", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114694234A (zh) * 2022-06-02 2022-07-01 杭州智诺科技股份有限公司 情绪识别方法、系统、电子设备和存储介质
CN114694234B (zh) * 2022-06-02 2023-02-03 杭州智诺科技股份有限公司 情绪识别方法、系统、电子设备和存储介质

Also Published As

Publication number Publication date
CN114005468B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
CN115205949B (zh) 图像生成方法以及相关设备
CN112699774B (zh) 视频中人物的情绪识别方法及装置、计算机设备及介质
CN110674748A (zh) 图像数据处理方法、装置、计算机设备以及可读存储介质
CN113312916A (zh) 基于触发词语态学习的金融文本事件抽取方法及装置
CN111133453A (zh) 人工神经网络
CN109711356B (zh) 一种表情识别方法和系统
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
CN113792177A (zh) 基于知识引导深度注意力网络的场景文字视觉问答方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
CN113704419A (zh) 对话处理方法及装置
CN117197878B (zh) 基于机器学习的人物面部表情捕捉方法及系统
CN115131849A (zh) 图像生成方法以及相关设备
CN116129013A (zh) 一种生成虚拟人动画视频的方法、装置及存储介质
CN114724224A (zh) 一种用于医疗护理机器人的多模态情感识别方法
CN117079299A (zh) 数据处理方法、装置、电子设备及存储介质
CN114005468B (zh) 一种基于全局工作空间的可解释情绪识别方法和系统
CN111797811A (zh) 一种基于图像理解的盲人导航系统
CN113128284A (zh) 一种多模态情感识别方法和装置
Gantayat et al. Study of algorithms and methods on emotion detection from facial expressions: a review from past research
CN116978061A (zh) 一种基于多特征融合的遮挡行人再识别方法
Mishra et al. Environment descriptor for the visually impaired
Rathee Investigating back propagation neural network for lip reading
CN117150320B (zh) 对话数字人情感风格相似度评价方法及系统
CN117576279B (zh) 基于多模态数据的数字人驱动方法及系统
Wang et al. Face recognition of remote teaching video image based on improved frame difference method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant