CN117150320B

CN117150320B - 对话数字人情感风格相似度评价方法及系统

Info

Publication number: CN117150320B
Application number: CN202311422576.2A
Authority: CN
Inventors: 赵薇; 严饶馨; 孙宇; 柴剑平
Original assignee: Zhongyi Instec Technology Co ltd; Communication University of China
Current assignee: Zhongyi Instec Technology Co ltd; Communication University of China
Priority date: 2023-10-31
Filing date: 2023-10-31
Publication date: 2024-03-08
Anticipated expiration: 2043-10-31
Also published as: CN117150320A

Abstract

本发明提供了一种对话数字人情感风格相似度评价方法及系统，通过结合两级情感识别和对话情感识别，综合考虑了对话中上下文的情感以及每一句的情感，有助于得到准确的情感识别结果；同时，通过情感极性分析缩小情感类别的范围，也有助于提高情感识别的准确率。此外通过提出情感轮廓的概念，更直观的表达对话的情感。由情感分类概率和情感强度概率结合构成的情感轮廓，将情感类别和强度结合起来，更完整、全面的表示对话情感，所生成的情感轮廓为情感风格相似度评价提供了更精准和全面的结果。

Description

对话数字人情感风格相似度评价方法及系统

技术领域

本发明涉及对话情感分析技术领域，更为具体地，涉及一种基于情感轮廓的对话数字人情感风格相似度评价方法及系统。

背景技术

随着元宇宙和数字人概念的出现，人们对于能够模仿人类情感进行人机对话的数字人（如陪伴机器人等）的研究越来越重视。通过语音合成、面部驱动、对话生成等技术手段，交互型数字人已经能够实现带有情感的交流。在以真人为原型制作虚拟人（数字人）时，虚拟人交互时所展现的情感风格与真人的相似度，也是评价虚拟人真实度的重要指标。

评判数字人情感风格相似度，主要包括数字人在对话中所表达的情感风格是否与真人一致、整体情感风格是否与交互情景相匹配等评判内容。目前，对于情感表现的评判主要依赖于人的主观判断，但是，主观评价往往受限于评价人的专业素养、时间成本和人力成本等因素。并且，当需要评价的内容过多时，主观评价无法满足庞大的评判需求，必须采用客观评价的方法来进行评判。

目前对于对话情感的客观评价，主要是采用对话情感识别的方式。对话情感识别是指通过分析一段对话中的情感内容，利用机器学习和神经网络的方法，自动识别和分类出对话所表达的情感状态。这项技术在人机交互、情感智能系统和社交媒体分析等领域具有重要应用价值。目前的对话情感识别研究主要集中在两个方面，一是通过对上下文建模进行情感识别，二是进行语句的多模态情感识别。然而，这两种方法均无法直接实现对对话数字人情感风格相似度的评价。此外，在现有的情感识别方案中，通常仅关注对情感进行分类，没有对情感饱和度，即情感强度的划分。而情感强度是衡量数字人情感表达是否恰当的重要指标之一，缺乏情感强度的划分，使得对数字人情感表达相似度的准确评估变得困难。

综上所述，当所需评价的数据量较大时，往往需要客观评价的方法来弥补主观评价的不足。但是目前针对对话数字人的情感风格相似度还缺少准确的客观评价方法。

因此，亟需一种能够针对对话数字人的情感风格相似度进行客观、准确评价的方法。

发明内容

鉴于现有技术中存在的上述问题，本发明的目的是提供一种对话数字人情感风格相似度评价方法及系统，以实现针对对话数字人的情感风格相似度的客观、准确评价。

根据本发明的一个方面，提供了一种对话数字人情感风格相似度评价方法，包括：

从对话数字人的多模态对话中提取所述多模态对话的多模态特征；其中，所述多模态特征包括视频模态特征、音频模态特征和文本模态特征；

通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率I _i；以及，使用所述多模态特征进行多模态语句情感识别和对话情感识别，以分别得出分级情感分类概率p _g和对话情感分类概率p _c；

根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓；其中，所述情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述所述多模态对话中对话数字人情感随时间的分布状态；

根据所述情感轮廓进行对话数字人情感风格相似度评价。

其中，可选的方案为，从对话数字人的多模态对话中提取所述多模态对话的多模态特征，包括：使用基于RepVGG的单分支推理模块来提取所述多模态对话视频中关键帧的特征作为所述视频模态特征；使用分层注意力提取所述多模态对话中的频谱图的特征作为所述音频模态特征；使用Albert提取所述多模态对话中的文本特征作为所述文本模态特征。

其中，可选的方案为，通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，得到情感强度概率包括：

对所述文本模态特征中的单个文本进行标准化预处理，得到所述单个文本的特征数据；

将所述单个文本的特征数据输入预训练模型BERT，以获取所述单个文本的正负向情感极性和情感强度，并根据所述情感强度得到所述单个文本的情感强度概率I _i；

将所述文本模态特征中的所有单个文本的情感强度概率I _i拼接为所述文本模态特征中所有文本的情感强度概率I。

其中，可选的方案为，所述NLP模型采用SST-5数据集训练；在所述SST-5中具有5个情感强度标签：0 -非常负面、1 -负面、2 -中性、3-正面、4 -非常正面。

其中，可选的方案为，在进行所述多模态语句情感识别的过程中，将提取出的多模态特征分别输入到Transformer模型，并结合所述文本情感极性分析的结果来缩小情感类别标签范围，以确定所述多模态特征的多模态语句情感；然后采用前馈网络进行加权多模态融合所述多模态语句情感识别出的情感分类概率，以得到所述分级情感分类概率p _g；在进行对话情感识别的过程中，依次通过上下文关系建模和对话关系建模对所述多模态特征进行对话情感识别，以得到所述对话情感分类概率p _c。

其中，可选的方案为，所述上下文关系建模包括：

将所述各模态特征的特征经过级联后依照时间顺序输入到预设神经网络模型中获取所述多模态特征的上下文信息；

所述对话关系建模包括：

以每一句话提取的特征为一个节点，根据说话人之间的交互形成对话关系图；其中，所述对话关系图中每个节点的信息，通过捕获说话人内部和说话人之间的关系进行更新；

根据对话关系图获取每句经过上下文关系和对话关系更新的特征序列，并输入线性层得到对话情感分类概率p _c与识别结果。

其中，可选的方案为，

所述根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓，包括：

将所述分级情感分类概率p _g和所述对话情感分类概率p _c经过加权平均得到所述多模态对话中每句话的情感分类概率p _i：

；

其中，α为情感分类概率的权重因子；所述情感分类概率p _i与所述情感强度概率I _i构成所述情感轮廓。

其中，可选的方案为，根据所述情感轮廓进行对话数字人情感风格相似度评价，包括：

收集拟进行情感风格相似度对比的特定说话人的对话数据集；

根据所述特定说话人的对话数据集，使用掩蔽层与预设编解码结构模型对特定说话人的情感风格进行学习，以重构原始向量并还原到所述对话数字人的情感轮廓；

通过比较所述特定说话人的情感轮廓和所述对话数字人的情感轮廓，确定所述特定说话人和所述对话数字人的情感风格相似度；其中，情感风格相似度的值越高，所述对话数字人的情感风格与目标真人越相似。

根据本发明的另一方面，提供了一种对话数字人情感风格相似度评价系统，包括：

多模态特征提取单元，用于从对话数字人的多模态对话中提取所述多模态对话的多模态特征；其中，所述多模态特征包括视频模态特征、音频模态特征和文本模态特征；

两级情感识别单元，用于通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率I _i；以及，使用所述多模态特征进行多模态语句情感识别，以得出分级情感分类概率p _g；

对话情感识别单元，通过对话情感识别，以得出对话情感分类概率p _c；

情感轮廓构建单元，用于根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓；其中，所述情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述所述多模态对话中对话数字人情感随时间的分布状态；

评价单元，用于根据所述情感轮廓进行对话数字人情感风格相似度评价。

上述根据本发明的对话数字人情感风格相似度评价方法及系统，通过结合两级情感识别和对话情感识别，综合考虑了对话中上下文的情感以及每一句的情感，有助于得到准确的情感识别结果；同时，通过情感极性分析缩小情感类别的范围，也有助于提高情感识别的准确率。此外通过提出情感轮廓的概念，更直观的表达对话的情感。由情感分类概率和情感强度概率结合构成的情感轮廓，将情感类别和强度结合起来，相较于传统只是用情感类别或情感极性等单一标签做判断的情感分类任务，能够更完整、全面的表示对话情感，所生成的情感轮廓为情感风格相似度评价提供了更精准和全面的结果。

为了实现上述以及相关目的，本发明的一个或多个方面包括后面将详细说明并在权利要求中特别指出的特征。下面的说明以及附图详细说明了本发明的某些示例性方面。然而，这些方面指示的仅仅是可使用本发明的原理的各种方式中的一些方式。此外，本发明旨在包括所有这些方面以及它们的等同物。

附图说明

通过参考以下结合附图的说明及权利要求书的内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的对话数字人情感风格相似度评价方法的流程图；

图2为根据本发明实施例的对话数字人情感风格相似度评价方法的数据处理逻辑示意图；

图3为根据本发明实施例的对话中第i句的关系示意图；

图4为根据本发明实施例的情感轮廓示意图；

图5为根据本发明实施例的情感轮廓预测原理示意图；

图6为根据本发明实施例的对话数字人情感风格相似度评价系统的逻辑结构示意图。

在所有附图中相同的标号指示相似或相应的特征或功能。

具体实施方式

在下面的描述中，出于说明的目的，为了提供对一个或多个实施例的全面理解，阐述了许多具体细节。然而，很明显，也可以在没有这些具体细节的情况下实现这些实施例。在其它例子中，为了便于描述一个或多个实施例，公知的结构和设备以方框图的形式示出。

由于目前对于对话情感的客观评价存在的无法直接实现对对话数字人情感风格相似度的评价以及准确性差等诸多问题，为了有效提高针对对话数字人的情感风格相似度评价的客观性和准确性，本发明提供一种对话数字人情感风格相似度评价方法及系统。

为了更好地说明本发明的技术方案，下面先对本发明中所涉及的部分技术术语进行简单说明。

NLP模型：自然语言处理（Natural Language Process）模型，用于人的自然语言转换为计算机可以阅读的指令。

BERT模型：全称为Bidirectional Encoder Representation fromTransformers，是一个预训练的语言表征模型，它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的masked language model（MLM），以致能生成深度的双向语言表征，是目前在NLP领域最火热，也可能是最好用的模型。

FV2ES：全多模态视频到情感系统（a fully multimodal video-to-emotionsystem，称为 FV2ES）模型，可参考论文：FV2ES: A Fully End2End Multimodal Systemfor Fast Yet Effective Video Emotion Recognition Inference代码：https://github.com/MultimodalAffectiveComputing/FV2ES

Transformer模型，是一个利用注意力机制来提高模型训练速度的模型，其完全基于自注意力机制，适用于并行化计算，和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的RNN循环神经网络。

MAE：Masked Autoencoder，是用于CV的自监督学习方法，扩展性强、方法简单。在MAE方法中会随机mask输入图片的部分patches，然后重构这些缺失的像素。MAE基于两个核心设计：不对称的编码解码结构和较高的mask比例。

以下将结合附图对本发明的具体实施例进行详细描述。

图1示出了根据本发明的对话数字人情感风格相似度评价方法的流程，图2示出了根据本发明实施例的对话数字人情感风格相似度评价方法的数据处理逻辑。

如图1和图2共同所示，本发明提供的对话数字人情感风格相似度评价方法，主要包括如下步骤：

S110：从对话数字人的多模态对话中提取所述多模态对话的多模态特征；其中，所述多模态特征包括视频模态特征、音频模态特征和文本模态特征；

S120：通过预训练的NLP模型对文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率I _i；以及，使用所述多模态特征进行多模态语句情感识别和对话情感识别，以分别得出分级情感分类概率p _g和对话情感分类概率p _c；

S130：根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓；

S140：根据所述情感轮廓进行对话数字人情感风格相似度评价。

从上述步骤可以看出，本实施例的对话数字人情感风格相似度评价方法，主要包括对话情感轮廓生成和数字人情感风格相似度评价两个部分。从基于两级情感识别和对话情感识别的混合情感识别模块中识别出数字人说话的情感强度和情感分类概率，从而生成情感轮廓。将情感轮廓输入到情感风格相似度评价模块中，对数字人情感风格相似度进行客观评价。

在本发明中，情感轮廓是描述一段对话中说话人情感随时间的分布状态，包括情感类别的概率分布和情感强度的概率分布，以反映对话情感变化与情感强度起伏。

下面通过具体实施例对本发明提供的对话数字人情感风格相似度评价方法做更为详细的说明。

图2为根据本发明实施例的对话数字人情感风格相似度评价方法的数据处理逻辑示意图。如图2所示，本发明提供的对话数字人情感风格相似度评价方法，从实现逻辑上主要包括两级情感识别模块\对话情感识别模块、情感轮廓构建和情感风格相似度评价模块，下面将对这四个模块做详细的示例性说明。

一、两级情感识别模块

两级情感识别模块用于通过预训练的NLP模型对文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率 I _i；以及，使用所述多模态特征进行多模态语句情感识别，以得出分级情感分类概率p _g，主要包括文本情感强度分析单元和多模态语句情感识别单元两个部分。

在对文本模态特征进行文本情感强度分析和情感极性分析之前，其中，首先需要对文本模态特征中的单个文本进行标准化预处理，以得到单个文本的特征数据。具体的，作为示例，对文本模态特征中的单个文本进行标准化预处理包括去停用词等规范化、标准化预处理。

文本情感强度分析单元，用于将上述单个文本的特征数据输入预训练模型BERT，以获取上述单个文本的正负向情感极性和情感强度，并根据所获取的情感强度和情感极性得到上述单个文本的情感强度概率。在本实施例中的预训练模型BERT，在现有通用的预训练模型的基础上添加一个dropout层和softmax层，其中，dropout层用于正则化和防止过拟合，softmax层用于将输入的概率之和变为1。通过这种方式，可以获得每个语句的正负向情感极性，一方面可以减少后续情感识别所需的分类标签数量，另一方面可以得到[-2,-1,0,+1,+2]共五级的情感强度概率I _i（i表示多模态对话中的第i句话，下同），这些识别出的情感强度概率I _i构成了后续情感轮廓的一部分。

在本发明的一个具体实施方式中，文本情感强度分析单元的功能可通过NLP模型实现。（论文：Fine-grained Sentiment Classification using BERT代码：）

具体的，作为示例，可使用SST-5数据集训练上述NLP模型，Stanford Sentiment树库( SST )是一个被广泛使用的文本分类基准，SST-5中有5个情感强度标签：0 (非常负面)、1 (负面)、2 (中性)、3 (正面)、4 (非常正面)。

（下载链接:https://nlp.stanford.edu/sentiment/index.html）

多模态语句情感识别单元中所有文本的情感强度概率I；

多模态语句情感识别单元用于将提取出的多模态特征分别输入到Transformer模型，并结合所述文本情感极性分析的结果来缩小情感类别标签范围，以确定所述多模态特征的多模态语句情感；然后采用前馈网络进行加权多模态融合所述多模态语句情感识别出的情感分类概率，以得到所述分级情感分类概率p _g。

本发明中使用的多模态特征包括视频模态特征、音频模态特征和文本模态特征，其中视频模态特征为使用基于RepVGG的单分支推理模块来提取的多模态对话视频中关键帧的视频特征；音频模态特征为使用分层注意力提取的多模态对话中的频谱图的音频特征；文本模态为使用Albert提取的多模态对话中的文本特征。

提取出的多模态特征分别输入到Transformer模型，并结合“文本情感极性分析”结果来缩小情感类别标签范围。该文本情感极性分析为带有情感强度的情感极性分析，例如，要对一句话的情感进行包含“激动”、“高兴”、“中性”、“沮丧”、“伤心”、“生气”的六类情感识别，文本情感强度分析中得到结果“+2”，则可以判断出这句话属于非常正面的情感（文本情感极性为正向情感极性），从而将这句话的情感类别范围缩小在“激动”和“高兴”之间。最后用前馈网络进行加权多模态融合得出分级情感分类概率p _g。在本发明的一个具体实施例中，多模态语句情感识别单元的功能可通过FV2ES模型来实现。（论文：FV2ES: A FullyEnd2End Multimodal System for Fast Yet Effective Video Emotion RecognitionInference代码：https://github.com/MultimodalAffectiveComputing/FV2ES）

二、对话情感识别模块

对话情感识别模块用于通过对话情感识别得出对话情感分类概率p _c；在本发明的一个具体实施例中，对话情感识别模块依次通过上下文关系建模和对话关系建模对多模态特征进行对话情感识别。具体的，作为示例，对话情感识别模块可通过已有的情感识别模型实现（参考论文：COGMEN: COntextualized GNN based Multimodal Emotion recognitioN代码：）

其中，上下文关系建模负责将级联后的多模态特征依照时间顺序排列并输入到诸如Transformer等神经网络模型中获取多模态特征的上下文信息。

对话关系建模，则是以每一句话提取的特征为一个节点，根据说话人之间的交互形成一个图。如图3中所示的是对话中第i句话的关系图，其中s表示说话人，R _inter表示说话人之间的关系，R _intra表示说话人内部关系。随后使用RGCN来捕获说话人内部和说话人之间的关系，更新每个节点的信息。得到每句经过上下文关系和对话关系更新的特征序列，并输入线性层得到对话情感分类概率p _c与识别结果。

三、情感轮廓构建模块

情感轮廓构建模块主要用于根据前述分级情感分类概率p _g、对话情感分类概率p _c和情感强度概率I _i确定情感轮廓；其中的情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述多模态对话中对话数字人情感随时间的分布状态。

本发明中，使用分类模型对单个语句进行情感分类。其中，分类模型最后一步通常是在长度为N的一维向量中（此处N表示类别数量）选择其中最大值对应的类别作为本识别结果。

在上述两级情感识别模块和对话情感识别模块中所采用的情感识别模型中，进行情感识别的最后一步，取上述最大值之前的向量，定义为本句的情感分类概率p _i，它包含了情感识别模型判定每个情感类别的概率。其中每句话的情感分类概率p _i可以由对话情感识别模块识别出的对话情感分类概率p _c与两级情感识别分类模块识别出的分级情感分类概率p _g经过加权平均后得到：

其中，α为分类概率的权重因子。

将单个说话人的每句话的情感分类概率p _i拼接成二维向量P _s即为说话人情感分类概率，将单个说话人的每句话的情感强度概率I _i拼接成二维向量I _s做为说话人情感强度概率，将整个对话的每句话的情感分类概率p _i拼接成二维向量P _z即为对话整体情感分类概率，将整个对话的每句话的情感强度概率I _i拼接成二维向量I _z做为对话整体情感强度概率。可以根据所述说话人情感分类概率和所述对话整体情感分类概率进行画图，以图示方式表示说话人或者对话整体的情感风格，以便用于后续的对话数字人情感风格相似度评价。

具体的，作为示例，在上述拼接过程中，可以按照语句顺序拼接，且每句话对应的分类标签顺序是一致的。比如标签有a，b，c三种，数字1，2，3表示语句顺序，那么拼接的二维向量应该就是：

1a,2a,3a

1b,2b,3b

1c,2c,3c。

情感分类概率p _i与情感强度概率 I _i 构成了情感轮廓。图4为根据本发明实施例的情感轮廓示意图，如图4所示，某一位说话人话语的情感分类概率和情感强度概率可以构成说话人情感轮廓，对话中所有语句的情感分类概率和情感强度概率可以构成整体对话情感轮廓。由情感分类概率与情感强度概率可以得到有强度标签的情感分类结果，将每句话的情感概率取最大值排列在一起就可以得到对话整体的情感分类结果。

四、情感风格相似度评价模块

情感风格相似度评价模块主要用于根据前述情感轮廓构建模块构建的情感轮廓进行对话数字人情感风格相似度评价。

在本发明的一个具体实施例中，情感风格相似度评价模块根据情感轮廓进行对话数字人情感风格相似度评价的步骤如下：

S141：收集对话数据集

在本步骤中，需要收集拟进行情感风格相似度对比的特定说话人的对话数据集。具体的，作为示例，所收集的对话数据集的参考数据为：采样率为 44.1 kHz 的音频数据、文本副本和从视频中以 30 Hz 采样的图像帧。在收集目标人的多模态对话数据之后，以句子为单位进行标注，标注内容包括情感类别和情感强度，需要与前文中情感识别模块中的情感类别和情感强度级数一致。

S142：真人情感轮廓预测

在收集到了特定说话人的数据集之后，可以使用掩蔽层与预设编解码结构模型（如MAE模型，以及其他能够实现图像学习与重构的encoder-decoder结构的模型）对特定说话人的情感风格进行学习，以重构原始向量并还原到所述对话数字人的情感轮廓。具体的，作为示例，图5为根据本发明实施例的情感轮廓预测原理示意图。如图5所示，由标注信息可以生成真实的情感轮廓，以对话语句顺序为列，以情感类别/情感强度为行，概率为数值，将情感轮廓转化为向量并使用掩蔽层以语句为单位将部分信息遮盖，将编码器应用于未遮盖的部分进行编码，在编码器之后引入掩码令牌，将遮盖和未遮盖部分按原顺序排列，并一起作为解码器的输入部分，由解码器重构原始向量并还原到情感轮廓，使之与真实的情感轮廓尽可能一致。

本步骤进行真人情感轮廓预测的原理及模型可参考MAE模型。（论文：MaskedAutoencoders Are Scalable Vision Learners代码：https://github.com/facebookresearch/mae）

S143：情感风格相似度评价

本步骤中，通过比较所述特定说话人的情感轮廓和所述对话数字人的情感轮廓，确定所述特定说话人和所述对话数字人的情感风格相似度。

情感风格相似度评价包括说话人情感风格相似度评价和整体对话情感风格相似度评价。下面将详细介绍说话人情感风格相似度评价，而整体情感风格相似度评价与说话人情感风格相似度评价的原理相同，因此不再赘述。

在本发明的一个具体实施例中，实现说话人情感风格相似度评价的模块由说话人情感轮廓、掩蔽层、情感轮廓生成模型组成。

其中，说话人情感轮廓，用于利用情感识别模块的识别结果，生成该段对话的某个说话人的情感轮廓，描述了说话人在对话过程中的情感变化。

掩蔽层，用于对情感轮廓进行部分掩码。

情感轮廓生成模型，用于将经过掩蔽层处理后的情感轮廓输入到情感轮廓生成模型中，该模型情感轮廓生成基于步骤S142中从特定人的对话数据中学习到的情感风格的经验，模仿特定人的情感风格补全掩蔽处理后的情感轮廓，并将生成的情感轮廓与原始情感轮廓进行比较。

作为示例，确定情感风格相似度的方法如下：

具体来说，需要分别比较情感分类相似度S _p和情感强度相似度S _I。其中，情感分类相似度可以通过均方误差计算：

其中，N为对话语句数量，i表示多模态对话中的第i句话，p _i是生成模型预测的标准情感分类概率，是识别出对话数字人的情感分类概率。

情感强度相似度S _I可以使用以下公式进行比较：

其中M是对话语句数量，i表示多模态对话中的第i句话，I _i为生成模型预测的情感强度概率，I’ _i为识别出对话数字人的情感强度概率。

最终由：

得出情感风格相似度S，S值越高，对话数字人的情感风格与目标真人越相似。

如上描述了根据本发明实施例的对话数字人情感风格相似度评价方法。通过上述实施例可以看出，本发明提供的对话数字人情感风格相似度评价方法，综合了多种情感识别方法，利用了多种信息来源，从而更准确地捕捉对话中的情感特征，为情感识别提供了更精准和全面的结果。通过结合两级情感识别和对话情感识别，可以综合考虑对话中上下文的情感以及每一句的情感，得到准确的情感识别结果。同时，通过情感极性分析缩小情感类别的范围，也有助于提高情感识别的准确率。此外，仅使用文本模态进行情感分析可以在保持模型的相对小型化的同时，达到最佳的识别结果。通过这种设计，我们既能充分利用文本信息进行情感分析，又能在计算和模型复杂度上取得良好的平衡。

并且，本发明还提出了情感轮廓的概念，更直观的表达对话的情感。由情感分类概率和情感强度概率结合构成的情感轮廓，将情感类别和强度结合起来，相较于传统只是用情感类别或情感极性等单一标签做判断的情感分类任务，能够更完整、全面的表示对话情感，所生成的情感轮廓为情感风格相似度评价提供了更精准和全面的结果。

实现对话数字人情感风格相似度的客观评价，为数字人模拟情感表达的准确度量提供了切实可行的方法。对话数字人具有重要的应用价值，在各行各业都被广泛使用。基于情感识别结果，我们设计了一个对话数字人情感风格相似度的评价方法。据我们所知，这是首个针对交互数字人对话情感的客观评价标准。通过该评价标准，我们能够客观地评估数字人在对话中所表达的情感风格是否与特定人情感风格相似。这种评价标准的引入填补了当前缺乏客观评价交互数字人情感的空白，为数字人模拟情感表达的准确度量提供了切实可行的方法。

本发明的上述对话数字人情感风格相似度评价方法，可以采用软件实现，也可以采用硬件实现，或采用软件和硬件组合的方式实现。

与上述对话数字人情感风格相似度评价方法相对应，本发明还提供一种对话数字人情感风格相似度评价系统。图6示出了根据本发明实施例的对话数字人情感风格相似度评价系统600的方框示意图。如图6所示，对话数字人情感风格相似度评价系统600包括多模态特征提取单元610、两级情感识别单元620、对话情感识别单元630、情感轮廓构建单元640和评价单元650。

其中，多模态特征提取单元610，用于从对话数字人的多模态对话中提取所述多模态对话的多模态特征；其中，所述多模态特征包括视频模态特征、音频模态特征和文本模态特征；

两级情感识别单元620，用于通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率I _i；以及，使用所述多模态特征进行多模态语句情感识别，以得出分级情感分类概率p _g；

对话情感识别单元630，通过对话情感识别，以得出对话情感分类概率p _c；

情感轮廓构建单元640，用于根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓；其中，所述情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述所述多模态对话中对话数字人情感随时间的分布状态；

评价单元650，用于根据所述情感轮廓进行对话数字人情感风格相似度评价。

其中，两级情感识别单元620进一步包括：

文本预处理单元，用于对所述文本模态特征中的单个文本进行标准化预处理，得到所述单个文本的特征数据；

文本情感分析单元，用于将所述单个文本的特征数据输入预训练模型BERT，以获取所述单个文本的正负向情感极性和情感强度，并根据所述情感强度得到所述单个文本的情感强度概率I _i；

拼接单元，用于将所述文本模态特征中的所有单个文本的情感强度概率I _i拼接为所述文本模态特征中所有文本的情感强度概率I；

多模态语句情感识别单元，用于将提取出的多模态特征分别输入到Transformer模型，并结合所述文本情感极性分析的结果来缩小情感类别标签范围，以确定所述多模态特征的多模态语句情感；然后采用前馈网络进行加权多模态融合所述多模态语句情感识别出的情感分类概率，以得到所述分级情感分类概率p _g。

所述对话情感识别单元依次通过上下文关系建模和对话关系建模对所述多模态特征进行对话情感识别，以得到所述对话情感分类概率p _c。

情感轮廓构建单元640进一步包括：

情感分类概率获取单元，用于将所述分级情感分类概率p _g和所述对话情感分类概率p _c经过加权平均得到所述多模态对话中每句话的情感分类概率p _i：

；

其中，α为分类概率的权重因子；

所述情感分类概率p _i与所述情感强度概率I _i构成所述情感轮廓。

评价单元650进一步包括：

对话数据集收集单元，用于收集拟进行情感风格相似度对比的特定说话人的对话数据集；

真人情感轮廓预测单元，用于据所述特定说话人的对话数据集，使用掩蔽层与预设编解码结构模型对特定说话人的情感风格进行学习，以重构原始向量并还原到所述对话数字人的情感轮廓；

情感轮廓比较单元，用于通过比较所述特定说话人的情感轮廓和所述对话数字人的情感轮廓，确定所述特定说话人和所述对话数字人的情感风格相似度；其中，情感风格相似度的值越高，所述对话数字人的情感风格与目标真人越相似。

对于上述对话数字人情感风格相似度评价系统的更为具体的实施方式，均可参照上述基于生成模型的人体视频压缩方法的具体实施例，在此不再做具体描述。

本发明实施例中的对话数字人情感风格相似度评价系统，通过结合两级情感识别和对话情感识别，以及由情感分类概率和情感强度概率结合构成的情感轮廓，将情感类别和强度结合起来，相较于传统只是用情感类别或情感极性等单一标签做判断的情感分类任务，能够更完整、全面的表示对话情感，所生成的情感轮廓为情感风格相似度评价提供了更精准和全面的结果。有效实现了对话数字人情感风格相似度的客观评价。

如上参照附图以示例的方式描述根据本发明的对话数字人情感风格相似度评价方法及系统。但是，本领域技术人员应当理解，对于上述本发明所提出的对话数字人情感风格相似度评价方法及系统，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种对话数字人情感风格相似度评价方法，包括：

通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，得到情感强度概率I _i ，其中，i表示所述多模态对话中的第i句话；以及，使用所述多模态特征进行多模态语句情感识别和对话情感识别，以分别得出分级情感分类概率p _g和对话情感分类概率p _c；

根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率 I _i 确定情感轮廓；其中包括：将所述分级情感分类概率p _g和所述对话情感分类概率p _c经过加权平均得到所述多模态对话中每句话的情感分类概率p _i：；

其中，α为情感分类概率的权重因子；所述情感分类概率p _i与所述情感强度概率I _i构成所述情感轮廓；所述情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述所述多模态对话中对话数字人情感随时间的分布状态；

根据所述情感轮廓进行对话数字人情感风格相似度评价；其中包括：

2.如权利要求1所述的对话数字人情感风格相似度评价方法，其中，从对话数字人的多模态对话中提取所述多模态对话的多模态特征，包括：

使用基于RepVGG的单分支推理模块来提取所述多模态对话视频中关键帧的特征作为所述视频模态特征；

使用分层注意力提取所述多模态对话中的频谱图的特征作为所述音频模态特征；

使用Albert提取所述多模态对话中的文本特征作为所述文本模态特征。

3.如权利要求1所述的对话数字人情感风格相似度评价方法，其中，通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，得到情感强度概率I _i，包括：

4.如权利要求3所述的对话数字人情感风格相似度评价方法，其中，所述NLP模型采用SST-5数据集训练；在所述SST-5中具有5个情感强度标签：0 -非常负面、1 -负面、2 -中性、3-正面、4 -非常正面。

5.如权利要求4所述的对话数字人情感风格相似度评价方法，其中，

在进行所述多模态语句情感识别的过程中，将提取出的多模态特征分别输入到Transformer模型，并结合所述情感极性分析的结果来缩小情感类别标签范围，以确定所述多模态特征的多模态语句情感；然后采用前馈网络进行加权多模态融合所述多模态语句情感识别出的情感分类概率，以得到所述分级情感分类概率p _g；

在进行对话情感识别的过程中，依次通过上下文关系建模和对话关系建模对所述多模态特征进行对话情感识别，以得到所述对话情感分类概率p _c。

6.如权利要求5所述的对话数字人情感风格相似度评价方法，其中，

所述上下文关系建模包括：

将所述各模态特征的特征经过级联后依照时间顺序排列输入到预设神经网络模型中获取所述多模态特征的上下文信息；

所述对话关系建模包括：

7.如权利要求6所述的对话数字人情感风格相似度评价方法，其中，通过比较所述特定说话人的情感轮廓和所述对话数字人的情感轮廓，确定所述特定说话人和所述对话数字人的情感风格相似度，包括：

比较情感分类相似度S _p，所述情感分类相似度S _p通过均方误差计算：

其中，N为对话语句数量，i表示多模态对话中的第i句话， p _i为生成模型预测的标准情感分类概率，p’ _i为识别出对话数字人的情感分类概率；

比较情感强度相似度S _I，所述情感强度相似度S _I使用以下公式进行比较：

其中，M是对话语句数量，i表示多模态对话中的第i句话，I _i为生成模型预测的情感强度概率，I’ _i为识别出对话数字人的情感强度概率；

所述情感风格相似度S表示为：。

8.如权利要求6所述的对话数字人情感风格相似度评价方法，其中，在获得所述情感分类概率p _i与所述情感强度概率I _i之后，还包括，

将单个说话人的每句话的情感分类概率p _i拼接成二维向量P _s做为说话人情感分类概率，将单个说话人的每句话的情感强度概率I _i拼接成二维向量I _s做为说话人情感强度概率，将整个对话的每句话的情感分类概率p _i拼接成二维向量P _z做为对话整体情感分类概率，将整个对话的每句话的情感强度概率I _i拼接成二维向量I _z做为对话整体情感强度概率；

根据所述说话人情感分类概率和所述对话整体情感分类概率进行对话数字人情感风格相似度评价。

9.一种对话数字人情感风格相似度评价系统，包括：

两级情感识别单元，用于通过预训练的NLP模型对所述文本模态特征进行文本情感强度分析和情感极性分析，以得到情感强度概率 I _i；以及，使用所述多模态特征进行多模态语句情感识别，以得出分级情感分类概率p _g；

情感轮廓构建单元，用于根据所述分级情感分类概率p _g、所述对话情感分类概率p _c和所述情感强度概率I _i确定情感轮廓；其中包括情感分类概率获取单元，用于将所述分级情感分类概率p _g和所述对话情感分类概率p _c经过加权平均得到所述多模态对话中每句话的情感分类概率p _i：

；

其中，α为分类概率的权重因子；所述情感分类概率p _i与所述情感强度概率I _i构成所述情感轮廓，所述情感轮廓包括情感类别的概率分布和情感强度的概率分布，用于描述所述多模态对话中对话数字人情感随时间的分布状态；

评价单元，用于根据所述情感轮廓进行对话数字人情感风格相似度评价；其中包括：

10.如权利要求9所述的对话数字人情感风格相似度评价系统，其中，所述两级情感识别单元包括：

多模态语句情感识别单元，用于将提取出的多模态特征分别输入到Transformer模型，并结合所述情感极性分析的结果来缩小情感类别标签范围，以确定所述多模态特征的多模态语句情感；然后采用前馈网络进行加权多模态融合所述多模态语句情感识别出的情感分类概率，以得到所述分级情感分类概率p _g。

11.如权利要求10所述的对话数字人情感风格相似度评价系统，其中，所述对话情感识别单元依次通过上下文关系建模和对话关系建模对所述多模态特征进行对话情感识别，以得到所述对话情感分类概率p _c。