CN114005468A

CN114005468A - 一种基于全局工作空间的可解释情绪识别方法和系统

Info

Publication number: CN114005468A
Application number: CN202111045320.5A
Authority: CN
Inventors: 沈旭立; 沈伟林
Original assignee: Huayuan Computing Technology Shanghai Co ltd; Fudan University
Current assignee: Huayuan Computing Technology Shanghai Co ltd; Fudan University
Priority date: 2021-09-07
Filing date: 2021-09-07
Publication date: 2022-02-01
Anticipated expiration: 2041-09-07
Also published as: CN114005468B

Abstract

本发明公开了一种基于全局工作空间的可解释情绪识别方法和系统，所述方法包括：通过多个预训练模型对相应的输入数据进行分析，获得结果编码；基于最大经验风险算法，将结果编码进行竞争，获得全局工作空间的向量；基于可解释的人工智能算法，获得输入数据的后解释数据；将后解释数据输入到相应的模态模型中，获得第二结果编码；根据向量对第二结果编码进行融合，获得融合向量；将融合向量送入全连接层，经归一化后，获得情绪识别结果。基于最大经验风险算法，对预训练模型的输出进行竞争，获得全局工作空间，通过向量确定融合的机制，使情绪识别快而准确；通过可解释的人工智能算法，提高情绪识别过程的可解释性，便于使用者了解机器学习模型决策的依据。

Description

一种基于全局工作空间的可解释情绪识别方法和系统

技术领域

本发明涉及计算机技术领域，具体涉及一种基于全局工作空间的可解释情绪识别方法和系统。

背景技术

情绪识别场景发源于实际生活需求，例如社交网络的评论蕴含的情绪、保险理赔时受访人员的情绪等。对于基本的情绪识别场景，不同模态的信息，如图片、声音、文字等数据，可以相互补充，能够帮助机器更好地理解情感。然而对于多个模态的数据进行编码后的特征融合一直是技术难点。

在传统方法中，不同的模态进行编码后而做特征融合，最后映射到情绪分类的标签。其中，特征融合经过模态融合层处理，采用对多模态编码进行加权平均的方法。特征融合前通常不具有语义信息，因此很难解释融合的效果，影响模型的准确率。机器学习的本质是学习从数据到标签的映射。当这个映射的复杂度不能被人类所“理解”，就需要借助其他方法来呈现模型的决策依据，这是可解释的人工智能的研究目标。

全局工作空间理论(Global Workspace Theory)是美国心理学家伯纳德巴尔斯提出的意识模型。它假设了人类在主动处理多模态数据的决策过程，即：①各个功能，如听觉、视觉等，在任意时刻可以无意识地进行信息加工。②被加工过的多模态信息在全局工作空间中进行竞争，实现语境的统一。这里的语境统一可以理解各个模态的决策实现了语境统一，即都在处理一个语境下的信息。例如，人类在互相讨论问题时，各个功能通过全局工作空间后都在为讨论问题服务，而对所处环境的背景噪音，由于我们的意识集中于讨论问题上，没有参与信息的加工。③被语境统一过后的信息经过广播至其他功能模块，实现决策。

2017年1月，阿西洛马会议共同达成了23条人工智能原则，包括霍金、伊隆·马斯克等在内的近四千名各界专家签署支持这些原则，因而被称为人工智能发展的“23条军规”。其中第8条提到“但凡涉及自主研制系统，都应提供一个有说服力的解释”。然而目前的多模态情绪识别系统并没有关注语境统一，因而容易产生不可解释的、不具备鲁棒性的结果。同时，由于目前的系统不关注可解释性，因此对于模型使用者而言，难以了解模型的决策依据，因此系统可信度经常受到质疑。

发明内容

针对现有技术中存在的上述技术问题，本发明提供一种基于全局工作空间的可解释情绪识别方法和系统，基于竞争的关系和可解释的特征进行融合，更准地学习或识别情绪，同时提高情绪识别过程的可解释性，让使用者了解机器学习决策的依据。

本发明公开了一种基于全局工作空间的可解释情绪识别方法，所述方法包括：通过多个预训练模型对相应的输入数据进行分析，获得结果编码；基于最大经验风险算法，将所述结果编码进行竞争，获得全局工作空间的向量；基于可解释的人工智能算法，获得所述输入数据的后解释数据；将所述后解释数据输入到相应的模态模型中，获得第二结果编码；根据所述向量对所述第二结果编码进行融合，获得融合向量；将所述融合向量送入全连接层，经归一化后，获得情绪识别结果。

优选的，所述预训练模型为以下模型的组合：图像预训练模型、语音预训练模型和语言预训练模型。

优选的，所述模态模型为以下模型的组合：图像识别模型、语音识别模型和语言识别模型。

优选的，所述模态模型参数的学习是通过情绪分类的监督信息得到。

优选的，所述最大经验风险算法表示为：

其中，θ表示为模型参数，

为非线性期望的表示，x代表输入数据，y代表监督信息，g_θ为参数化的模型，例如神经网络，p(x,y)代表数据分布，N代表多模态模型的总数，s_j代表用于训练第j个模态模型的样本数量，x_jk为第j个模态模型中的第k个数据样本，y_jk为x_jk的数据标签，

为损失函数。

优选的，获得全局工作空间的向量的方法包括：

根据模型参数，对损失函数求梯度后，组合为矩阵G：

其中，

表示为基于第一预训练模型的模型参数θ_I对损失函数求梯度，θ_V表示为第二预训练模型的模型参数，θ_L表示为第三预训练模型的模型参数， T表示为转置符号；

向量δ表示为：

δ＝-G^Tλ (3)

其中，λ表示为拉格朗日乘子。

优选的，通过以下公式求解拉格朗日乘子为：

优选的，所述后解释数据包括输入数据及其表征，输入数据包括图片数据、语音数据或自然语言数据，所述表征包括图片数据的解释图、语音数据的解释图或自然语言的表征。

优选的，所述融合向量表示为：

z_融合＝[z′_I+δ,z′_V+δ,z′_L+δ] (4)

其中，z_融合表示为融合向量，z′_I表示为第一模态模型输出的第二结果编码，z′_V表示为第二模态模型输出的第二结果编码，z′_L表示为第三模态模型输出的第二结果编码，δ表示为向量。

本发明还提供一种用于实现上述可解释情绪识别方法的系统，包括预训练模块、竞争模块、可解释模块、分析模块、融合模块和识别模块，

所述预训练模块用于通过多个预训练模型对相应的输入数据进行分析，获得结果编码；所述竞争模块基于最大经验风险算法，将所述结果编码进行竞争，获得全局工作空间的向量；所述可解释模块基于可解释的人工智能算法，获得所述输入数据的后解释数据；所述分析模块用于将所述后解释数据输入到相应的模态模型中，获得第二结果编码；所述融合模块用于根据所述向量对所述第二结果编码进行融合，获得融合向量；所述识别模块用于将所述融合向量送入全连接层，经归一化后，获得情绪识别结果。

与现有技术相比，本发明的有益效果为：基于最大经验风险算法，对预训练模型的输出进行竞争，获得全局工作空间的向量，通过向量确定融合的机制，使情绪识别快而准确；通过可解释的人工智能算法，提高情绪识别过程的可解释性，便于使用者了解机器学习决策和过程的依据。

附图说明

图1是本发明的基于全局工作空间的可解释情绪识别方法的流程图；

图2是实施例的流程图；

图3是本发明的系统逻辑框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

一种基于全局工作空间的可解释情绪识别方法，如图1所示，所述方法包括：

步骤101：通过多个预训练模型对相应的输入数据进行分析，获得结果编码。所述预训练模型为以下模型的组合：图像预训练模型、语音预训练模型和语言预训练模型。但不限于此。

步骤102：基于最大经验风险算法(Maximum Empirical Risk)，将所述结果编码进行竞争，获得全局工作空间的向量。通过最大经验风险算法各预训练模型结果编码的竞争机制。

步骤103：基于可解释的人工智能算法(Grad-Cam)，获得所述输入数据的后解释数据。所述后解释数据包括所述输入数据的表征，例如图片数据的解释图mask_I、语音数据的解释图mask_V、以及自然语言的表征mask_L。

步骤104：将所述后解释数据输入到相应的模态模型中，获得第二结果编码。其中模态模型与预训练模型不同，模态模型的参数是可变的，参数的学习是通过情绪分类的监督信息得到。所述模态模型为以下模型的组合：图像识别模型、语音识别模型和语言识别模型。

步骤105：根据所述向量对所述第二结果编码进行融合，获得融合向量。

步骤106：将所述融合向量送入全连接层，经归一化后，获得情绪识别结果。

基于最大经验风险算法，对预训练模型的输出进行竞争，获得全局工作空间的向量，通过向量确定融合的机制，使情绪识别快而准确；通过可解释的人工智能算法，提高情绪识别过程的可解释性，便于使用者了解机器学习决策和过程的依据。

其中，所述最大经验风险算法表示为：

其中，θ表示为模型参数，

为损失函数。

用语义信息进行监督后，得到全局工作空间的表示编码。本发明中，“竞争”可以描述为对一系列随机变量求次线性期望。全局工作空间的语义信息是监督产生的，保证了语义信息的唯一性。

本发明还提供一种用于实现上述可解释情绪识别方法的系统，如图3所示，包括预训练模块1、竞争模块2、可解释模块3、分析模块4、融合模块5 和识别模块6。

预训练模块1用于通过多个预训练模型对相应的输入数据进行分析，获得结果编码；竞争模块2用于基于最大经验风险算法，将所述结果编码进行竞争，获得全局工作空间的向量；可解释模块3用于基于可解释的人工智能算法，获得所述输入数据的后解释数据；分析模块4用于将所述后解释数据输入到相应的模态模型中，获得第二结果编码；融合模块5用于根据所述向量对所述第二结果编码进行融合，获得融合向量；识别模块6用于将所述融合向量送入全连接层，经归一化后，获得情绪识别结果。

实施例

采集上海市某单位的数据作为输入数据，包含视频数据、图片数据、语音数据和文字数据。其中，图片和语音可以从视频数据中采集，文字从语音中得到。处理流程如图2所示。从视频数据中提取图片、语音和文字为现有技术，本发明中不再赘述。

步骤S1：预训练阶段。分别将图片数据I，语音数据V与语言数据L输入对应的预训练模型

预训练模型可以由场景识别的监督学习后获得。原始数据I,V,L经过

处理后，分别得到结果编码(z_I,z_V,z_L)。

步骤S2：竞争阶段。根据模型参数θ，对损失函数

求梯度后，组合为矩阵G：

其中，

表示为基于第一预训练模型的模型参数θ_I对损失函数求梯度，θ_I表示为第一预训练模型的模型参数，θ_V表示为第二预训练模型的模型参数，θ_L表示为第三预训练模型的模型参数，T为转置符号。损失函数

可以选择交叉熵损失函数。

向量δ表示为：

δ＝-G^Tλ (3)

其中，λ表示为拉格朗日乘子。

通过以下公式求解拉格朗日乘子λ为：

其中，min表示为最小化，max表示为最大化，s.t.表示为约束条件。

步骤S3：广播阶段或可解释阶段。

广播阶段是统一场景信息后的模型编码阶段，利用可解释方法对场景的监督信息做解释。对于图像数据I与语音数据V，可以利用可解释的人工智能算法Grad-Cam，根据场景监督信息，生成图片解释图mask_I与语音解释图 mask_V；对于自然语言数据L，可以由Transformer模型得到自然语言可解释的表征mask_L。将可解释的表征加上输入数据，以生成由全局工作空间统一了语境后的广播阶段的后解释数据，表示为数据

如

和

再分别送至三个模态模型进行处理，得到第二结果编码(z′_I,z′_V,z′_L)。这里的模态模型与竞争阶段使用的预训练模型不同，它的参数是可变的，参数的学习是通过情绪分类的监督信息得到。其中，后解释数据包括表征和输入数据。

步骤S4，融合阶段。将第二结果编码(z′_I,z′_V,z′_L)和步骤S2中得到的向量进行拼接或融合，得到融合向量：

z_融合＝[z′_I+δ,z′_V+δ,z′_L+δ] (4)其中，z_融合表示为融合向量，z′_I表示为第一模态模型输出的第二结果编码，z′_V表示为第二模态模型输出的第二结果编码，z′_L表示为第三模态模型输出的第二结果编码，δ表示为向量。其中，第一模态模型具体为图像模态模型，第二模态模型具体为语音模态模型，第三模态模型具体为自然语言模态模型。但不限于此。

步骤S5：识别阶段。将融合向量送入全连接层，经归一化(softmax变换)后，得到分类结果，即识别情绪。将变量送入全连接层，以及经归一化为现有技术，本发明中不再赘述。

经过实施例的处理流程，所述单位的工作人员可通过情绪分类为愤怒的对象，快速定位风险客户，并能通过模型提供的可解释依据。此实施例与同类情绪分类场景有主要区别，它展现了23条人工智能原则中的第8条原则的实用性，用可解释依据作为风险点的举证，从而提高办事效率，有凭有据地为客户服务，信服力更高。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。