CN117235604A

CN117235604A - 一种基于深度学习的人形机器人情感识别与面部表情生成方法

Info

Publication number: CN117235604A
Application number: CN202311483852.6A
Authority: CN
Inventors: 赵明月; 贺亮; 赵凯星; 王若晗; 王硕; 赖睿
Original assignee: Jiangsu Yunmu Zhizao Technology Co ltd
Current assignee: Jiangsu Yunmu Zhizao Technology Co ltd
Priority date: 2023-11-09
Filing date: 2023-11-09
Publication date: 2023-12-15

Abstract

本发明属于人工智能领域，具体公开了一种基于深度学习的人形机器人情感识别与面部表情生成方法。本发明旨在解决现有技术无法识别用户情感状态并根据情感状态生成相应面部表情的问题。通过使用基于深度学习的方法，本发明能够自动学习用户与人形机器人之间的对话，并从对话中提取情感信息，然后生成相应的面部表情。相较于现有技术，本发明能够更加灵活和自适应地识别用户的情感状态，并生成相应的面部表情，从而提高人形机器人与用户的情感交互效果。因此，本发明创造要解决的技术问题是提高人形机器人情感交互效果，实现更加自然、智能、人性化的人机交互。

Description

一种基于深度学习的人形机器人情感识别与面部表情生成方法

技术领域

本发明属于人工智能领域，具体公开了一种基于深度学习的人形机器人情感识别与面部表情生成方法。

背景技术

近几年人工智能飞速发展，人机交互不再是狭义的人与计算机的交互，而是人与机器间的交流，不限于语言、动作或接触，甚至是情绪的感知与表达。人与人之间情绪的感知和表达都是自然发生的，同样在人机之间交流时发生情绪的感知或情感的互动也是人们现在与未来的迫切需求。

现有的技术通常使用基于规则的方法来生成人形机器人的面部表情，这些方法需要开发者需要手动定义规则和条件，因此这种方法通常缺乏灵活性和适应性。当用户的情感状态发生变化时，需要重新定义规则和条件，这会增加开发成本并降低系统的可维护性。基于规则的方法通常只能识别一些简单的情感状态，例如高兴、悲伤、愤怒等。这种方法通常无法识别更加复杂的情感状态，例如焦虑、压力等，因此不能根据用户的情感状态生成相应的面部表情。此外，在使用基于规则的方法时，由于需要手动定义规则和条件，这种方法通常需要大量的人力投入。在大规模应用中，这会成为一个严重的问题。

发明内容

为了解决上述问题，本发明公开了一种基于深度学习的人形机器人情感识别与面部表情生成方法, 本发明使用深度学习方法来学习用户与人形机器人之间的对话，并从对话中提取情感信息，然后识别并分类用户的情绪。与基于规则的方法相比，这些方法更加灵活和适应性强，并且能够自动识别用户的情感状态。

本发明包括以下技术方案：

一种基于深度学习的人形机器人情感识别与面部表情生成方法，包括以下步骤：使用图卷积网络GCN模型识别用户情感，使用循环神经网络RNN生成机器人的情感标签，人形机器人根据生成的情感标签做出不同的面部表情。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，包括以下步骤：

1）数据预处理：准备对话数据集，所述对话数据集为带有情感标注的对话数据集；

2）文本特征提取：使用Python编程语言和TensorFlow深度学习框架，搭建卷积神经网络CNN模型，使用Glove300进行单词的嵌入表示，卷积核为[3,4,5]，将话语文本输入CNN模型，提取文本特征；

3）上下文编码：使用GRU作为顺序上下文编码器，将对话中的N个文本输入到Bi-LSTM中，获得上下文感知的表示；

4）Speaker-level编码：根据说话者身份的不同以及方向的不同有8种不同的边类型，采用大小为10的窗口，对窗口内部的节点添加边；对于每个节点，通过相似度计算权重；

5）图卷积网络GCN传播：用Python编程语言和PyTorch深度学习框架，建立图结构后，利用GCN来传播信息，第一层GNN采用加权消息传递方式；第二层GNN采用无权重的消息传递；

6）情感分类：将上下文编码的特征向量和speaker-level编码器的特征向量连接起来，并应用基于相似性的注意力机制来获得最终的话语表示；

7）情感标签生成：将使用Python编程语言和TensorFlow深度学习框架来实现情感标签生成，具体而言，使用GRU循环神经网络对情感类别进行处理，并将隐藏状态映射到表情标签空间，得到生成的机器人表情标签；

8）模型训练:使用步骤1）准备好的对话数据集，通过对 GCN模型和GRU循环神经网络进行预训练和微调的方式，在GPU上训练，让模型学会识别用户情绪并输出生成的机器人表情标签。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，还包括以下步骤：

9）构建场景和设备：构建一个具有对话功能的人形机器人，并在其上部署步骤8）的情感识别和机器人表情生成模型，并在其上安装相应的软件环境和传感器设备。

10）测试输出：在机器人与用户对话过程中，将与用户的多段对话输入训练好的GCN模型，根据对话内容的上下文，提取情感特征，并判断所表达的情感类别，输出用户当前的情感标签，然后根据用户情感类别生成相应的机器人表情标签，机器人根据输出结果生成面部表情。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤4）Speaker-level编码包括以下具体步骤：

将每个文本作为节点，Bi-GRU的输出表示特征，而边则根据说话者身份的不同以及方向的不同建立4×2=8种不同的类型；使用基于相似性的注意力模块来设置边缘权重；

注意力函数的计算方式是，对于每个顶点，传入的边集的总权重为1；考虑过去上下文窗口大小和未来上下文窗口大小/>，权重计算如下：

.

其中，为顺序编码的特征向量，/>为边的权重。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤5）图卷积网络GCN传播包括以下具体步骤：

建立了图结构后，利用GCN来传播信息，第一层GNN依照不同的权重参数进行不同邻居/>的消息传递，每一种边类型下的邻居都考虑标准化系数/>，然后整合自身的特征/>；

.

其中，是在步骤4）中通过相似度计算得到的权重，/>表示顶点/>在关系/>下的邻居，/>是标准化常数，/>是ReLU的激活函数，/>和/>是转换的可学习参数。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤5）图卷积网络GCN传播还包括以下具体步骤：

第二层GNN采用无权重的消息传递，和/>是这些变换的参数，/>是激活函数：

。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤5）图卷积网络GCN传播还包括损失函数，损失函数是使用分类交叉熵和L2正则化作为训练过程中损失L的度量：公式如下：

.

其中，是样本/对话的数量，/>是样本/>中的话语的数量，/>是对话/>的话语/>的情感标签的概率分布，/>是对话/>的话语/>的期望类标签，/>是L2正则化子权重，/>是所有可训练参数的集合。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤6）情感分类包括以下具体步骤：

将上下文编码的特征向量和/>连接起来，并应用基于相似性的注意力机制来获得最终的话语表示/>：

T为向量转置符号。

之后用线性变换并求得预测概率分布,用一个全连接网络对话语进行分类，最后得到分类结果，此为用户的情绪标签：

是第 i 个话语的隐藏层表示，由全连接层和 ReLU 激活函数得到;

和/>是全连接层的权重矩阵和偏置向量;

是第 i 个话语的情绪类别的概率分布，由 softmax 函数得到;

和/> 是 softmax 层的权重矩阵和偏置向量;

k是情绪类别的索引，从 1 到k，其中 K 是情绪类别的总数。

进一步的，上述一种基于深度学习的人形机器人情感识别与面部表情生成方法，所述步骤7）还包括以下步骤：

在得到用户情绪标签后，使用循环神经网络RNN进行情感标签生成，模型架构如下：

输入层：输入用户表达的情感类别；

嵌入层：将输入的情感类别进行嵌入，得到一个固定维度的向量表示；

循环层：使用LSTM或GRU循环神经网络对嵌入后的向量进行处理，得到一个隐藏状态；

输出层：将隐藏状态映射到表情标签空间，得到生成的机器人表情标签。

相比现有技术，本发明具有如下有益效果:

1.人形机器人通过分析学习用户的情绪，来进一步做出表情，使机器人更加人性化。

2.通过使用GCN模型，本发明能够更加准确地识别用户的情感状态，并生成相应的面部表情，从而提高人形机器人与用户的情感交互效果。

3.采用了基于相似性的注意力机制，能够更好地捕捉对话中的上下文信息，提高情感识别的准确度。

4.采用了CNN和GRU等深度学习模型，能够自动学习对话中的情感信息，从而提高人形机器人的智能化程度。

5.采用了L2正则化作为训练过程中损失的度量，能够有效避免过拟合问题，提高模型的泛化能力。

附图说明

图1为GCN网络结构图。

具体实施方式

下面对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例

一种基于深度学习的人形机器人情感识别与面部表情生成方法，包括以下步骤：

1.数据预处理:为了训练 GCN 模型，我们需要准备对话数据集。在这个过程中，我们可以选择带有情感标注的对话数据集，以提高训练模型的效果，所述GCN网络结构如图1所示;是 GCN 模型的总体架构图，它包括三个主要的组件：

顺序上下文编码器：这个组件使用一个双向的门控循环单元（GRU）网络来捕捉对话中的顺序上下文信息，即每个话语与其前后相邻的话语之间的关系。这个组件的输入是每个话语的特征向量ui，输出是每个话语的顺序上下文感知的表示向量gi。

说话者级别上下文编码器：这个组件使用一个图卷积网络（GCN）来捕捉对话中的说话者级别上下文信息，即每个话语与其所属的说话者以及其他说话者之间的关系。这个组件将对话构建为一个有向图，其中每个节点代表一个话语，每条边代表两个话语之间的依赖关系和相对位置。边的权重和类型是根据说话者信息和注意力机制计算得到的。通过图卷积操作，每个节点可以从其邻居节点获取信息，从而形成一个说话者级别上下文编码的表示向量hi。

情绪分类器：这个组件将顺序上下文编码器和说话者级别上下文编码器的输出向量（gi和hi）拼接起来，并使用一个相似度注意力机制来获得最终的话语表示向量。然后，这个向量被送入一个全连接层来预测每个话语的情绪类别。

2.文本特征提取：使用Python编程语言和TensorFlow深度学习框架，搭建卷积神经网络(CNN)模型，使用Glove300进行单词的嵌入表示，卷积核为[3,4,5]。将话语文本输入CNN模型，提取文本特征；

3.上下文编码器：使用Gated Recurrent Unit(GRU)作为顺序上下文编码器，将对话中的N个文本输入到Bi-LSTM中，获得上下文感知的表示。

4.Speaker-level编码器：根据说话者身份的不同以及方向的不同有8种不同的边类型，采用大小为10的窗口，只考虑窗口内部的节点添加边。对于每个节点，通过相似度计算权重；

将每个文本作为节点，Bi-GRU的输出表示特征，而边则根据说话者身份的不同以及方向的不同有4×2=8中不同的类型。为了降低构图的时间复杂度，使用基于相似性的注意力模块来设置边缘权重。注意力函数的计算方式是，对于每个顶点，传入的边集的总权重为1。考虑过去上下文窗口大小和未来上下文窗口大小/>，权重计算如下：

.

其中，为顺序编码的特征向量，/>为边的权重。

5.图卷积网络(GCN)传播：使用Python编程语言和PyTorch深度学习框架，建立图结构后，利用GCN来传播信息，第一层GNN采用加权消息传递方式。第二层GNN则采用了无权重的消息传递；

其中：

第一层GNN依照不同的权重参数进行不同邻居/>的消息传递，每一种边类型下的邻居都考虑标准化系数/>，然后整合自身的特征/>；

.

其中，是在步骤4中通过相似度计算得到的权重，/>表示顶点/>在关系/>下的邻居，/>是标准化常数，/>是ReLU的激活函数，/>和/>是转换的可学习参数。

。

损失函数是使用分类交叉熵和L2正则化作为训练过程中损失L的度量：公式如下：

.

6.情感分类：将上下文编码的特征向量和speaker-level编码器的特征向量连接起来，并应用基于相似性的注意力机制来获得最终的话语表示；

对于情感分类部分，将上下文编码的特征向量和/>连接起来，并应用基于相似性的注意力机制/>来获得最终的话语表示/>：

T为向量转置符号。

最后得到分类结果，此为用户的情绪标签：

和/>是全连接层的权重矩阵和偏置向量;

是第 i 个话语的情绪类别的概率分布，由 softmax 函数得到;

和/> 是 softmax 层的权重矩阵和偏置向量;

k是情绪类别的索引，从 1 到k，其中 K 是情绪类别的总数。

7.情感标签生成：我们将使用Python编程语言和TensorFlow深度学习框架来实现情感标签生成。具体而言，我们使用GRU循环神经网络对情感类别进行处理，并将隐藏状态映射到表情标签空间，得到生成的机器人表情标签。

8.模型训练:使用准备好的对话数据集，通过对 GCN模型和GRU循环神经网络进行预训练和微调的方式，在GPU上训练，让模型学会识别用户情绪并输出生成的机器人表情标签。

9.构建场景和设备：需要构建一个具有对话功能的人形机器人，并在其上部署本发明所述的情感识别和机器人表情生成模型，并在其上安装相应的软件环境和传感器设备。

10.最后，我们将整合以上所有步骤，并在自主研发的人形机器人上进行测试。在机器人与用户对话过程中，将与用户的多段对话输入训练好的GCN模型，根据对话内容的上下文，提取情感特征，并判断所表达的情感类别，输出用户当前的情感标签，然后根据用户情感类别生成相应的机器人表情标签，机器人根据输出结果生成面部表情。

本发明旨在解决现有技术无法识别用户情感状态并根据情感状态生成相应面部表情的问题。通过使用基于深度学习的方法，本发明能够自动学习用户与人形机器人之间的对话，并从对话中提取情感信息，然后生成相应的面部表情。相较于现有技术，本发明能够更加灵活和自适应地识别用户的情感状态，并生成相应的面部表情，从而提高人形机器人与用户的情感交互效果。因此，本发明创造要解决的技术问题是提高人形机器人情感交互效果，实现更加自然、智能、人性化的人机交互。

上述实施例为本发明的有限几种优选实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明发明范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，还包括以下步骤：

3.根据权利要求2所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，还包括以下步骤：

4.根据权利要求1所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤4）Speaker-level编码包括以下具体步骤：

.

其中，为顺序编码的特征向量，/>为边的权重。

5.根据权利要求4所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤5）图卷积网络GCN传播包括以下具体步骤：

.

其中，是在步骤4）中通过相似度计算得到的权重，/>表示顶点/>在关系/>下的邻居，是标准化常数，/>是ReLU的激活函数，/>和/>是转换的可学习参数。

6.根据权利要求5所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤5）图卷积网络GCN传播还包括以下具体步骤：

。

7.根据权利要求6所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤5）图卷积网络GCN传播还包括损失函数，损失函数是使用分类交叉熵和L2正则化作为训练过程中损失L的度量：公式如下：

.

8.根据权利要求7所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤6）情感分类包括以下具体步骤：

将上下文编码的特征向量和/>连接起来，并应用基于相似性的注意力机制/>来获得最终的话语表示/>：

和/>是全连接层的权重矩阵和偏置向量;

是第 i 个话语的情绪类别的概率分布，由 softmax 函数得到;

和 /> 是 softmax 层的权重矩阵和偏置向量;

k是情绪类别的索引，从 1 到k，其中 K 是情绪类别的总数。

9.根据权利要求8所述的一种基于深度学习的人形机器人情感识别与面部表情生成方法，其特征在于，所述步骤7）还包括以下步骤：

输入层：输入用户表达的情感类别；