CN115640200A

CN115640200A - 对话系统的评估方法、装置、电子设备及存储介质

Info

Publication number: CN115640200A
Application number: CN202211139728.3A
Authority: CN
Inventors: 韩文娟; 郑子隆
Original assignee: Beijing General Artificial Intelligence Research Institute
Current assignee: Beijing General Artificial Intelligence Research Institute
Priority date: 2022-09-19
Filing date: 2022-09-19
Publication date: 2023-01-24

Abstract

本发明提供一种对话系统评估方法、装置、电子设备及存储介质，该方法涉及自然语言处理技术领域，包括：获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；基于所述评估值，评估所述对话系统。本发明提供的方法，实现了采用多模态信息对对话系统的性能从多个评估指标方面进行全面评估，提升了对话系统的性能评估的准确性。

Description

对话系统的评估方法、装置、电子设备及存储介质

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种对话系统的评估方法、装置、电子设备及存储介质。

背景技术

随着计算机技术的不断发展，开放域对话系统被广泛应用于多种领域，因此，对开放域对话系统的性能评估至关重要。而对开放域对话系统的性能评估比较困难，并不能像任务式对话系统可以通过任务完成率来进行评估。

相关技术中，采用神经网络的方法可以实现开放域对话系统的评估，神经网络的方法利用人工投票和反馈，需要大量人力资源对数据进行标注，以学习对话系统生成结果的排序，而且只是使用了对单模态的信息。因此，神经网络的方法比较耗费人力，而且单模态的信息是不足以确定所有模态信息源之间的一致性的，从而对开放域对话系统的性能评估不准确。

发明内容

本发明提供一种对话系统的评估方法、装置、电子设备及存储介质，用以解决现有技术中对开放域对话系统的性能评估不准确的缺陷，实现采用多模态信息对对话系统的性能进行全面评估。

本发明提供一种对话系统的评估方法，包括：

获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；

基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；

基于所述评估值，评估所述对话系统。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括流畅度，所述目标信息包括所述文本信息，且所述文本信息包括所述对话系统的至少一个回复语句；

所述基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值，包括：

基于各所述回复语句，分别确定各所述回复语句中各个字的概率；

基于所述各个字的概率，分别计算各所述回复语句对应的流畅度值；

基于各所述流畅度值，分别确定各所述回复语句对应的归一化流畅度值；

基于各所述归一化流畅度值，确定所述对话系统的流畅度对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括多样性，所述目标信息包括所述文本信息和目标图像，且所述文本信息包括所述对话系统的回复语句；

基于所述回复语句和所述目标图像，确定增强后的至少一个第一目标回复语句；所述第一目标回复语句是基于所述回复语句和所述目标图像进行关联之后得到的；

基于各所述第一目标回复语句，对各所述第一目标回复语句按照预设阈值进行分词，得到各所述第一目标回复语句对应的多个词组；

对各所述词组进行去重，得到多个目标词组；

基于各所述目标词组，计算所述对话系统的多样性对应的多样性值；

基于所述多样性值，确定所述对话系统的多样性对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括逻辑自洽性，所述目标信息包括文本信息，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

基于所述当前回复语句和各所述历史回复语句，分别确定所述当前回复语句和各所述历史回复语句之间的冲突概率；

基于各所述冲突概率，计算所述对话系统的逻辑自洽性的逻辑自洽性值；

基于所述逻辑自洽性值，确定所述对话系统的逻辑自洽性对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括语境连贯性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

基于所述当前回复语句和各所述历史回复语句对应的上下文信息，确定所述当前回复语句的归一化连贯性值；

基于所述当前回复语句和所述目标图像，确定所述当前回复语句对应的第一文本向量表示和所述目标图像对应的图像向量表示；

基于各所述历史回复语句，确定上下文表示集合；所述上下文表示集合中包括各所述历史回复语句分别对应的第二文本向量表示；

基于所述第一文本向量表示、所述图像向量表示和所述第二文本向量表示，确定多模态语境一致性值；

基于所述归一化连贯性值和所述多模态语境一致性值，确定所述对话系统的语境连贯性对应的语境连贯性值；

基于所述语境连贯性值，确定所述对话系统的语境连贯性对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述基于所述第一文本向量表示、所述图像向量表示和所述第二文本向量表示，确定多模态语境一致性值，包括：

基于所述第一文本向量表示和所述图像向量表示，计算第一相似度；

基于所述第一相似度，计算第二相似度；

基于所述第一文本向量表示和所述第二文本向量表示，确定目标上下文相似性；

基于所述第二相似度和所述目标上下文相似性，确定多模态语境一致性值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括视觉场景匹配性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史回复语句；

基于所述历史回复语句和所述目标图像，分别多次替换所述目标图像中的目标信息和所述历史回复语句中与所述目标信息对应的第二目标回复语句，得到多个替换后的目标图像和多个所述第二目标回复语句；所述替换后的目标图像与所述第二目标回复语句存在一一对应关系；

基于各所述替换后的目标图像和各所述第二目标回复语句，分别确定各所述替换后的目标图像和各所述第二目标回复语句之间的匹配度值；

基于各所述匹配度值，计算所述对话系统的视觉场景匹配性对应的平均匹配度值；

基于所述平均匹配度值，确定所述对话系统的视觉场景匹配性对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括主题共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的至少一个历史对话语句；

基于各所述历史对话语句，确定多个分割片段；

基于各所述分割片段和多个目标问题，分别判断各所述目标问题与各所述目标问题对应的第三目标回复语句是否属于相同分割片段；

在各所述目标问题与所述目标问题对应的所述第三目标回复语句属于相同分割片段的情况下，确定各所述目标问题对应的主题一致性值；

基于各所述主题一致性值，确定所述对话系统的主题共同点对应的平均主题一致性值；

基于所述平均主题一致性值，确定所述对话系统的主题共同点对应的评估值。

根据本发明提供的一种对话系统的评估方法，所述评估指标包括视觉共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史对话语句；

基于所述历史对话语句中的历史问题语句、历史回复语句和所述目标图像，确定在所述目标图像中分别与所述历史问题语句对应的第一目标子图像和与所述历史回复语句对应的第二目标子图像；

基于所述第一目标子图像和所述第二目标子图像，确定所述第一目标子图像和所述第二目标子图像的交并比；

基于所述交并比，确定所述对话系统的视觉共同点对应的评估值。

本发明还提供一种对话系统的评估装置，包括：

获取模块，用于获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；

确定模块，用于基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；

评估模块，用于基于所述评估值，评估所述对话系统。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述所述对话系统的评估方法方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述所述对话系统的评估方法方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述所述对话系统的评估方法方法。

本发明提供的对话系统的评估方法、装置、电子设备和存储介质，通过获取对话系统对应的目标信息；目标信息包括文本信息，或者文本信息和目标图像；在目标信息包括文本信息或者文本信息和目标图像的情况下，分别确定对话系统的多个评估指标各自对应的评估值；再根据评估值对对话系统进行评估，实现了采用多模态信息对对话系统的性能从多个评估指标方面进行全面评估，提升了对话系统的性能评估的准确性。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的对话系统的评估方法的流程示意图之一；

图2是本发明提供的对话系统的评估装置的结构示意图；

图3是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图，通过一些实施例及其应用场景对本发明提供的对话系统的评估方法进行详细地说明。

本发明提供一种对话系统的评估方法，该对话系统的评估方法适用于对话系统的评估场景中，例如，封闭域对话系统、开放域对话系统，通过获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；基于所述评估值，评估所述对话系统。本发明提供的方法，实现了采用多模态信息对对话系统的性能从多个评估指标方面进行全面评估，提升了对话系统的性能评估的准确性。

图1是本发明提供的对话系统的评估方法的流程示意图之一，如图1所示，该方法包括步骤101-步骤103，其中：

步骤101，获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像。

需要说明的是，本发明提供的对话系统的评估方法可适用于对话系统的评估场景中，例如，封闭域对话系统、开放域对话系统。该方法的执行主体可以为对话系统的评估装置，例如电子设备、或者该对话系统的评估装置中的用于执行对话系统的评估方法的控制模块。

具体地，通过对话系统可以获取对话系统对应的目标信息；其中，目标信息包括文本信息，或者文本信息和目标图像；其中，目标图像是指与当前对话场景相适应的场景图像。

步骤102，基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值。

具体地，根据文本信息可以分别确定对话系统的多个评估指标各自对应的评估值，也可以根据文本信息和目标图像，分别确定对话系统的多个评估指标各自对应的评估值。

步骤103，基于所述评估值，评估所述对话系统。

具体地，根据对话系统的多个评估指标各自对应的评估值，对对话系统进行评估。

本发明提供的对话系统的评估方法，通过获取对话系统对应的目标信息；目标信息包括文本信息，或者文本信息和目标图像；在目标信息包括文本信息或者文本信息和目标图像的情况下，分别确定对话系统的多个评估指标各自对应的评估值；再根据评估值对对话系统进行评估，实现了采用多模态信息对对话系统的性能从多个评估指标方面进行全面评估，提升了对话系统的性能评估的准确性。

接下来分别对对话系统评估的多个评估指标进行描述，具体如下：

1、流畅度

可选地，所述评估指标包括流畅度，所述目标信息包括所述文本信息，且所述文本信息包括所述对话系统的至少一个回复语句，上述步骤102的具体实现方式包括以下步骤：

步骤1)基于各所述回复语句，分别确定各所述回复语句中各个字的概率。

具体地，根据各回复语句，依次将各回复语句输入至第一语言模型，得到第一语言模型输出的各回复语句中在生成每个字的概率；其中，第一语言模型可以是采用任意文本预先训练好的语言模型，用于确定回复语句中每个字的概率。

步骤2)基于所述各个字的概率，分别计算各所述回复语句对应的流畅度值。

具体地，基于各回复语句中每个字的概率，采用公式(1)计算各回复语句对应的流畅度值；其中，

其中，s′(r)表示一个回复语句对应的流畅度值，T_r表示回复语句中字的总数，t表示当前字的位置，r表示回复语句，r_t表示回复语句中当前字，r＜_t表示回复语句中已生成字，P(r_t|r＜t)表示在获知已生成字的条件下生成当前字的概率。

步骤3)基于各所述流畅度值，分别确定各所述回复语句对应的归一化流畅度值。

具体地，根据各回复语句分别对应的流畅度值，采用公式(2)计算各回复语句对应的归一化流畅度值；其中，

其中，s_flu(r)表示归一化流畅度值，s_5th表示将多个回复语句分别对应的流畅度值进行排序之后，位于百分之五位置的流畅度值，将位于百分之五位置的流畅度值作为下界，即小于百分之五位置的流畅度值被过滤掉。

步骤4)基于各所述归一化流畅度值，确定所述对话系统的流畅度对应的评估值。

具体地，在确定各归一化流畅度值之后，将各归一化流畅度值分别作为对话系统的流畅度对应的评估值，分别将各归一化流畅度值与目标值1进行比较，归一化流畅度值越接近于1，表示对话系统流畅性越好。

需要说明的是，对话系统的流畅度的评估，适用于对话系统中的单句回复语句，用于评估单句回复语句流畅无错误。

本发明提供的对话系统的评估方法，通过确定多个回复语句中各个字的概率，分别计算各回复语句对应的流畅度值；再根据各流畅度值，分别确定各回复语句对应的归一化流畅度值，进而确定对话系统的流畅度对应的评估值，从而可以根据评估值对对话系统进行评估，实现了采用文本信息从流畅性方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

2、多样性

可选地，所述评估指标包括多样性，所述目标信息包括所述文本信息和目标图像，且所述文本信息包括所述对话系统的回复语句；上述步骤102的具体实现方式包括以下步骤：

步骤a)基于所述回复语句和所述目标图像，确定增强后的至少一个第一目标回复语句；所述第一目标回复语句是基于所述回复语句和所述目标图像进行关联之后得到的。

具体地，将对话系统的回复语句和目标图像输入至多模态关联模型中，得到多模态关联模型输出的目标回复语句；多模态关联模型是基于样本回复语句和样本目标图像进行训练得到的，用于将样本回复语句和样本图像信息进行关联后生成第一目标回复语句；因此，可以对多模态关联模型输入的回复语句进行稍微的改动，即采用表达方式不同但语义不变的改动方式，使得多模态关联模型可以得到多个第一目标回复语句。

步骤b)基于各所述第一目标回复语句，对各所述第一目标回复语句按照预设阈值进行分词，得到各所述第一目标回复语句对应的多个词组。

具体地，根据各第一目标回复语句，分别对每个第一目标回复语句按照预设阈值进行分词，得到每个第一目标回复语句对应的多个词组；例如，第一目标回复语句为“今天天气很好”，预设阈值为2，则可以对“今天天气很好”进行分词，得到多个词组(n-gram)分别为“今天”、“天气”、“很好”。

步骤c)对各所述词组进行去重，得到多个目标词组。

具体地，对多个词组中相同的词组进行去重，可以得到去重之后的多个目标词组。

步骤d)基于各所述目标词组，计算所述对话系统的多样性对应的多样性值。

具体地，根据多个目标词组，采用公式(3)计算对话系统的多样性对应的多样性值；其中，

其中，S_div表示多样性值，r表示回复语句，k表示目标词组中第一个字的起始位置，n表示阈值，C(r_k:k+n)表示目标词组的数量，C表示多个第一目标回复语句分别对应的多个词组的总数量。

步骤e)基于所述多样性值，确定所述对话系统的多样性对应的评估值。

具体地，根据多样性值，将多样性值作为对话系统的多样性对应的评估值，将多样性值与目标值1进行比较，多样性值越接近于1，表示对话系统多样性越好。

需要说明的是，对话系统的多样性的评估，适用于对话系统中的单句回复语句，用于评估根据语境中的微小变动，可以自适应地给出正确的答复。

本发明提供的对话系统的评估方法，通过根据回复语句和目标图像，确定增强后的多个第一目标回复语句；第一目标回复语句是基于回复语句和目标图像进行关联之后得到的；再对各第一目标回复语句按照预设阈值进行分词，得到各第一目标回复语句对应的多个词组，对各词组进行去重，得到多个目标词组；基于各目标词组，计算对话系统的多样性对应的多样性值；进而确定对话系统的多样性对应的评估值，从而可以根据多样性值对对话系统进行评估，实现了采用文本信息和目标图像等多模态信息从多样性方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

3、逻辑自洽性

可选地，所述评估指标包括逻辑自洽性，所述目标信息包括文本信息，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；上述步骤102的具体实现方式包括以下步骤：

步骤1)基于所述当前回复语句和各所述历史回复语句，分别确定所述当前回复语句和各所述历史回复语句之间的冲突概率。

具体地，分别将当前回复语句和各历史回复语句组合成的回复语句对输入至文本分类模型中，得到文本分类模型输出的冲突概率；文本分类模型可以是任意性能最优的蕴含任务分类模型，用于对当前回复语句和历史回复语句进行分类。

需要说明的是，文本分类模型是一个三分类模型，类别分别包括冲突、蕴含和中立等三个类别，文本分类模型可以是任意一个分类模型，只要能够预测出对话系统所说的历史语句，即对话系统的当前回复语句和历史回复语句之间是否冲突以及冲突概率即可。

步骤2)基于各所述冲突概率，计算所述对话系统的逻辑自洽性的逻辑自洽性值。

具体地，根据分别确定的当前回复语句和各历史回复语句之间的冲突概率，采用公式(4)计算对话系统的逻辑自洽性的逻辑自洽性值；其中，

其中，S_log表示逻辑自洽性值，P_conflict(i,j)表示冲突概率，i表示当前回复语句，j表示历史回复语句，m表示对话系统的历史回复语句的集合，|m|表示历史回复语句的集合中历史回复语句的总数。

步骤3)基于所述逻辑自洽性值，确定所述对话系统的逻辑自洽性对应的评估值。

具体地，根据逻辑自洽性值，将逻辑自洽性值作为确定对话系统的逻辑自洽性对应的评估值，将逻辑自洽性值与目标值1进行比较，逻辑自洽性值越接近于1，表示对话系统逻辑自洽性越好。

需要说明的是，对话系统的逻辑自洽性的评估，适用于对话系统理解自己的话语，用于根据自己的历史回复语句确定当前回复语句的逻辑自洽性，以维护自己的角色，不与自己历史回复语句的发生冲突。

本发明提供的对话系统的评估方法，通过基于当前回复语句和多个历史回复语句，分别确定当前回复语句和各历史回复语句之间的冲突概率；再根据各冲突概率，计算对话系统的逻辑自洽性的逻辑自洽性值；进而根据逻辑自洽性值，确定对话系统的逻辑自洽性对应的评估值，从而可以根据逻辑自洽性值对对话系统进行评估，实现了采用文本信息从逻辑自洽性方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

4、语境连贯性

可选地，所述评估指标包括语境连贯性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；上述步骤102的具体实现方式包括以下步骤：

步骤a)基于所述当前回复语句和各所述历史回复语句对应的上下文信息，确定所述当前回复语句的归一化连贯性值。

具体地，将当前回复语句输入至第二语言模型，得到第二语言模型输出的在获知上下文信息和已生成字的情况下当前回复语句中每个字的概率；其中，第二语言模型可以是采用任意文本预先训练好的语言模型，用于确定回复语句中每个字的概率。再根据当前回复语句中每个字的概率和各历史回复语句对应的上下文信息，采用公式(5)计算当前回复语句对应的连贯性值；其中，

其中，s″(r,c)表示当前回复语句对应的连贯性值，T_r表示当前回复语句中字的总数，t表示当前字的位置，r表示当前回复语句，r_t表示当前回复语句中的当前字，r_＜t表示当前回复语句中已生成的字，c表示上下文信息，P(r_t|r_＜t,c)表示在获知已生成字和上下文信息的条件下生成当前字的概率。

根据当前回复语句对应的连贯性值，采用公式(6)计算当前回复语句的归一化连贯性值；其中，

其中，s(r,c)表示归一化连贯性值，s′_5th表示将多个回复语句分别对应的连贯性值从小到大进行排序之后，位于百分之五位置的连贯性值，将位于百分之五位置的连贯性值作为下界，即小于百分之五位置的连贯性值被过滤掉。

步骤b)基于所述当前回复语句和所述目标图像，确定所述当前回复语句对应的第一文本向量表示和所述目标图像对应的图像向量表示。

具体地，根据当前回复语句和目标图像，将目标图像输入至图像模型，得到图像模型输出的目标图像对应的图像向量表示；其中，图像模型是基于样本目标图像进行训练得到。例如，图像模型可以是一个视觉转换(Visio Transformer)模型，在视觉转换模型的训练过程中，使用的正样本是成对匹配的图像和图像标题，负样本是采用InfoNCE得到的，是不匹配的图像和图像标题，训练过程是以最大化正样本相似度，最小化负样本相似度为目标。

将当前回复语句输入至文本模型，得到文本模型输出的当前回复语句对应的第一文本向量表示；其中，文本模型是基于样本回复语句进行训练得到的，文本模型采用具有12层的转换器(transformer)。

步骤c)基于各所述历史回复语句，确定上下文表示集合；所述上下文表示集合中包括各所述历史回复语句分别对应的第二文本向量表示。

具体地，将各历史回复语句依次输入至文本模型，得到文本模型输出的多个第二文本向量表示，从而确定上下文表示集合；其中，上下文表示集合中包括各历史回复语句分别对应的第二文本向量表示。

步骤d)基于所述第一文本向量表示、所述图像向量表示和所述第二文本向量表示，确定多模态语境一致性值。

具体地，根据第一文本向量表示、图像向量表示和第二文本向量表示，可以确定多模态语境一致性值。

步骤e)基于所述归一化连贯性值和所述多模态语境一致性值，确定所述对话系统的语境连贯性对应的语境连贯性值。

具体地，根据归一化连贯性值和多模态语境一致性值，采用公式(7)计算对话系统的语境连贯性对应的语境连贯性值；其中，

其中，S_con表示语境连贯性值，s(r,c)表示归一化连贯性值，P(r|c,v)表示多模态语境一致性值，v表示目标图像。

步骤f)基于所述语境连贯性值，确定所述对话系统的语境连贯性对应的评估值。

具体地，根据语境连贯性值，将语境连贯性值作为确定对话系统的语境连贯性对应的评估值，将语境连贯性值与目标值1进行比较，语境连贯性值越接近于1，表示对话系统语境连贯性越好。

需要说明的是，对话系统的语境连贯性的评估，适用于对话系统理解对方的话语，用于从语言连贯性和语境连贯性方面，使得与当前场景和历史语境保持一致。

本发明提供的对话系统的评估方法，通过基于当前回复语句和各历史回复语句对应的上下文信息，确定当前回复语句的归一化连贯性值；再根据当前回复语句和目标图像，确定当前回复语句对应的第一文本向量表示和目标图像对应的图像向量表示；基于各历史回复语句，确定上下文表示集合；上下文表示集合中包括各历史回复语句分别对应的第二文本向量表示；基于第一文本向量表示、图像向量表示和第二文本向量表示，确定多模态语境一致性值；基于归一化连贯性值和多模态语境一致性值，确定对话系统的语境连贯性对应的语境连贯性值；基于语境连贯性值，确定对话系统的语境连贯性对应的评估值，从而可以根据语境连贯性值对对话系统进行评估，实现了采用文本信息和目标图像从语境连贯性方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

可选地，基于所述第一文本向量表示、所述图像向量表示和所述第二文本向量表示，确定多模态语境一致性值，包括：

基于所述第一文本向量表示和所述图像向量表示，计算第一相似度；基于所述第一相似度，计算第二相似度；基于所述第一文本向量表示和所述第二文本向量表示，确定目标上下文相似性；基于所述第二相似度和所述目标上下文相似性，确定多模态语境一致性值。

具体地，根据第一文本向量表示和图像向量表示，计算第一相似度；再根据第一相似度，采用公式(8)计算第二相似度；其中，

CLIP-S(r′,v′)＝w*max(cos(r′,v′),0) (8)

其中，CLIP-S(r′,v′)表示第二相似度，w表示权重，取值为2.5；r′表示第一文本向量表示，是基于当前回复语句r进行转换得到的；v′表示图像向量表示，基于目标图像v进行转换得到的。

根据第一文本向量表示和第二文本向量表示，可以确定目标上下文相似性，再根据第二相似度和目标上下文相似性，采用公式(9)计算调和平均值作为多模态语境一致性值；其中，

P(r|c,v)＝H-Mean(CLIP-S(r′,v′),max(max_c′∈C(cos(r′,c′),0)) (9)

其中，P(r|c,v)表示多模态语境一致性值，r′表示第一文本向量表示，是基于当前回复语句r进行转换得到的；c′表示第二文本向量表示，是基于历史回复语句进行转换得到的；C表示上下文表示集合。

5、视觉场景匹配性

可选地，所述评估指标包括视觉场景匹配性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史回复语句；上述步骤102的具体实现方式包括以下步骤：

步骤(1)基于所述历史回复语句和所述目标图像，分别多次替换所述目标图像中的目标信息和所述历史回复语句中与所述目标信息对应的第二目标回复语句，得到多个替换后的目标图像和多个所述第二目标回复语句；所述替换后的目标图像与所述第二目标回复语句存在一一对应关系。

具体地，根据历史回复语句和所述目标图像，分别多次替换目标图像中的目标信息和历史回复语句中与目标信息对应的第二目标回复语句，即通过改变一些从历史回复语句和场景中抽取的概念、物体和属性设计等，可以得到多个替换后的目标图像和多个第二目标回复语句，将得到的多个替换后的目标图像和多个第二目标回复语句作为新问题的答案。例如，目标图像中某物体由黄色改变为绿色，则可以构造新的问题：此物体是什么颜色？则可以将历史回复语句“此物体是黄色的”改变为第二目标回复语句“此物体是绿色的”。

步骤(2)基于各所述替换后的目标图像和各所述第二目标回复语句，分别确定各所述替换后的目标图像和各所述第二目标回复语句之间的匹配度值。

具体地，根据各替换后的目标图像和各第二目标回复语句，可以分别计算各替换后的目标图像和各第二目标回复语句之间的匹配度值；例如，替换后的目标图像和第二目标回复语句之间是匹配的，则第二目标回复语句与预设回复语句是相同的含义，则替换后的目标图像和第二目标回复语句之间的匹配度值为1；若替换后的目标图像和第二目标回复语句之间是不匹配的，则第二目标回复语句与预设回复语句不是相同的含义，则替换后的目标图像和第二目标回复语句之间的匹配度值为0。

步骤(3)基于各所述匹配度值，计算所述对话系统的视觉场景匹配性对应的平均匹配度值。

具体地，根据各匹配度值，采用公式(10)计算对话系统的视觉场景匹配性对应的平均匹配度值；其中，

其中，S_vis表示平均匹配度值，h表示第二目标回复语句，g表示预设回复语句，{k}表示预设回复语句集合，|k|表示预设回复语句集合中所有回复语句的总数。

步骤(4)基于所述平均匹配度值，确定所述对话系统的视觉场景匹配性对应的评估值。

具体地，根据平均匹配度值，将平均匹配度值作为确定对话系统的视觉场景匹配性对应的评估值，将平均匹配度值与目标值1进行比较，平均匹配度值越接近于1，表示对话系统的视觉场景匹配性越好。

需要说明的是，对话系统的视觉场景匹配性的评估，适用于对话系统对对话场景的理解，用于根据当前对话的真实场景进行推理，而不是基于虚假的场景。

本发明提供的对话系统的评估方法，通过根据历史回复语句和目标图像，分别多次替换目标图像中的目标信息和历史回复语句中与目标信息对应的第二目标回复语句，得到多个替换后的目标图像和多个第二目标回复语句；替换后的目标图像与第二目标回复语句存在一一对应关系；再根据各替换后的目标图像和各第二目标回复语句，分别确定各替换后的目标图像和各第二目标回复语句之间的匹配度值；基于各匹配度值，计算对话系统的视觉场景匹配性对应的平均匹配度值；基于平均匹配度值，确定对话系统的视觉场景匹配性对应的评估值，从而可以根据平均匹配度值对对话系统进行评估，实现了采用文本信息和目标图像从视觉匹配性方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

6、主题共同点

可选地，所述评估指标包括主题共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的至少一个历史对话语句；上述步骤102的具体实现方式包括以下步骤：

步骤(a)基于各所述历史对话语句，确定多个分割片段。

具体地，历史对话语句包括历史问题语句和历史回复语句，分别将各历史对话语句中的历史问题语句和历史回复语句进行拼接，得到拼接集合，将该拼接集合作为对话主题部分(Dialogue Topic Segment，DTS)算法的输入，采用贪心的方法判断每个历史对话语句之间是否是片段分割点。根据拼接集合对应的候选分割点和多个分割点，对于每一个候选分割点，从此候选分割点到该候选分割点之前紧邻的分割点之间的片段作为该候选分割点对应的中心片段，从中心片段向左选取d个历史对话语句作为左片段l，从中心片段向右选取d个历史对话语句作为右片段r；根据中心片段、左片段和右片段，分别计算中心片段分别与左片段和右片段之间的相似度，确定最大相似度；重复执行上述确定最大相似度的步骤，直到中心片段包括的语句数量大于预设阈值，得到多个最大相似度；根据各最大相似度，从多个最大相似度中选择最小的相似度为目标相似度；根据目标相似度，确定目标相似度对应中心片段中的目标分割点和目标分割点的位置，将目标分割点放入分割点集合，确定分割点集合，重复执行上述确定分割点集合的步骤，直到将拼接集合遍历完成，得到目标分割点集合；根据目标分割点集合中的多个分割点，将拼接结合中的历史对话语句分割为多个分割片段。

需要说明的是，若目标相似度大于预设的阈值，则目标相似度对应的候选分割点被舍弃。

步骤(b)基于各所述分割片段和多个目标问题，分别判断各所述目标问题与各所述目标问题对应的第三目标回复语句是否属于相同分割片段。

具体地，多个分割片段和多个目标问题，分别判断每个目标问题与该目标问题对应的第三目标回复语句是否属于相同分割片段；其中，第三目标回复语句是指目标问题对应的回复语句。

步骤(c)在各所述目标问题与所述目标问题对应的所述第三目标回复语句属于相同分割片段的情况下，确定各所述目标问题对应的主题一致性值。

具体地，在各目标问题与目标问题对应的第三目标回复语句属于相同分割片段的情况下，说明目标问题与目标问题对应的第三目标回复语句的主题一致，则目标问题对应的主题一致性值为1；在各目标问题与目标问题对应的第三目标回复语句不属于相同分割片段的情况下，说明目标问题与目标问题对应的第三目标回复语句的主题一致，则目标问题对应的主题一致性值为0。

步骤(d)基于各所述主题一致性值，确定所述对话系统的主题共同点对应的平均主题一致性值。

具体地，根据各主题一致性值，采用公式(11)计算对话系统的主题共同点对应的平均主题一致性值；其中，

其中，S_tcg表示平均主题一致性值，i表示第三目标回复语句，a′表示目标问题，{g′}表示历史对话语句集合，|g′|表示历史对话语句集合中历史对话语句的总数。

步骤(e)基于所述平均主题一致性值，确定所述对话系统的主题共同点对应的评估值。

具体地，根据平均主题一致性值，将平均主题一致性值作为确定对话系统的主题共同点对应的评估值，将平均主题一致性值与目标值1进行比较，平均主题一致性值越接近于1，表示对话系统的目标问题和目标问题对应的第三目标回复语句属于相同片段。

需要说明的是，对话系统的主题共同点的评估，适用于对话系统对主题的理解，用于对对方语言的理解，并在交流过程中能够与对方保持针对相同主题的交流。

本发明提供的对话系统的评估方法，通过根据多个历史对话语句，确定多个分割片段；基于各分割片段和多个目标问题，分别判断各目标问题与各目标问题对应的第三目标回复语句是否属于相同分割片段；在各目标问题与目标问题对应的第三目标回复语句属于相同分割片段的情况下，确定各目标问题对应的主题一致性值；基于各主题一致性值，确定对话系统的主题共同点对应的平均主题一致性值；基于平均主题一致性值，确定对话系统的主题共同点对应的评估值，从而可以根据平均主题一致性值对对话系统进行评估，实现了采用文本信息从主题共同点方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

7、视觉共同点

可选地，所述评估指标包括视觉共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史对话语句；上述步骤102的具体实现方式包括以下步骤：

步骤(1)基于所述历史对话语句中的历史问题语句、历史回复语句和所述目标图像，确定在所述目标图像中分别与所述历史问题语句对应的第一目标子图像和与所述历史回复语句对应的第二目标子图像。

具体地，分别将历史对话语句中的历史问题语句和目标图像、历史回复语句和目标图像输入至视觉语言模型，得到视觉语言模型输出的与历史问题语句对应的第一目标子图像和与历史回复语句对应的第二目标子图像。

步骤(2)基于所述第一目标子图像和所述第二目标子图像，确定所述第一目标子图像和所述第二目标子图像的交并比。

具体地，根据第一目标子图像和第二目标子图像，采用公式(12)计算第一目标子图像和第二目标子图像的交并比(Intersection-over-Union，IoU)；其中，

S_vcg＝IoU(ROI(c_t,v),ROI(r_h,v)) (12)

其中，S_vcg表示交并比的值，ct表示历史回复语句，v表示目标图像，ROI(ct,v)表示历史回复语句对应的第二目标子图像，r_h表示历史问题语句，ROI(rh,v)表示历史问题语句对应的第一目标子图像。

步骤(3)基于所述交并比，确定所述对话系统的视觉共同点对应的评估值。

具体地，根据确定的交并比，将交并比作为确定对话系统的视觉共同点对应的评估值，将交并比与目标值1进行比较，平均主题一致性值越接近于1，表示对话系统的历史问题语句和历史回复语句针对的是相同的目标图像。

需要说明的是，对话系统的视觉共同点的评估，适用于对话系统对视觉场景的理解，用于对对方语言的理解，并在交流过程中能够与对方保持针对相同视觉场景的交流。

本发明提供的对话系统的评估方法，通过基于历史对话语句中的历史问题语句、历史回复语句和目标图像，确定在目标图像中分别与历史问题语句对应的第一目标子图像和与历史回复语句对应的第二目标子图像；基于第一目标子图像和第二目标子图像，确定第一目标子图像和第二目标子图像的交并比；基于交并比，确定对话系统的视觉共同点对应的评估值，从而可以根据交并比对对话系统进行评估，实现了采用文本信息和目标图像从视觉共同点方面对对话系统的性能进行评估，提升了对话系统的性能评估的准确性。

表1.各个评估指标的描述

本发明提供的对话系统的评估方法，采用流畅度、多样性、逻辑自洽性、语境连贯性、视觉场景匹配性、主题共同点和视觉共同点等多个评估指标对对话系统进行评估，表1为各个评估指标的描述，如表1所示。

下面对本发明提供的对话系统的评估装置进行描述，下文描述的对话系统的评估装置与上文描述的对话系统的评估方法可相互对应参照。

图2是本发明提供的对话系统的评估装置的结构示意图，如图2所示，该对话系统的评估装置200包括获取模块201、确定模块202和评估模块203；其中，

获取模块201，用于获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；

确定模块202，用于基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；

评估模块203，用于基于所述评估值，评估所述对话系统。

本发明提供的对话系统的评估装置，通过获取对话系统对应的目标信息；目标信息包括文本信息，或者文本信息和目标图像；在目标信息包括文本信息或者文本信息和目标图像的情况下，分别确定对话系统的多个评估指标各自对应的评估值；再根据评估值对对话系统进行评估，实现了采用多模态信息对对话系统的性能从多个评估指标进行全面评估，提升了对话系统的性能评估的准确性。

可选地，所述评估指标包括流畅度，所述目标信息包括所述文本信息，且所述文本信息包括所述对话系统的至少一个回复语句；

所述确定模块202，具体用于：

可选地，所述评估指标包括多样性，所述目标信息包括所述文本信息和目标图像，且所述文本信息包括所述对话系统的回复语句；

所述确定模块202，具体用于：

对各所述词组进行去重，得到多个目标词组；

可选地，所述评估指标包括逻辑自洽性，所述目标信息包括文本信息，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

所述确定模块202，具体用于：

可选地，所述评估指标包括语境连贯性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

所述确定模块202，具体用于：

可选地，所述确定模块202，具体用于：

基于所述第一相似度，计算第二相似度；

可选地，所述评估指标包括视觉场景匹配性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史回复语句；

所述确定模块202，具体用于：

可选地，所述评估指标包括主题共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的至少一个历史对话语句；

所述确定模块202，具体用于：

基于各所述历史对话语句，确定多个分割片段；

可选地，所述评估指标包括视觉共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史对话语句；

所述确定模块202，具体用于：

图3是本发明提供的一种电子设备的实体结构示意图，如图3所示，该电子设备300可以包括：处理器(processor)310、通信接口(Communications Interface)320、存储器(memory)330和通信总线340，其中，处理器310，通信接口320，存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令，以执行对话系统的评估方法，该方法包括：获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；基于所述评估值，评估所述对话系统。

此外，上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的对话系统的评估方法，该方法包括：获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；基于所述评估值，评估所述对话系统。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的对话系统的评估方法，该方法包括：获取对话系统对应的目标信息；所述目标信息包括文本信息，或者所述文本信息和目标图像；基于所述目标信息，分别确定所述对话系统的多个评估指标各自对应的评估值；基于所述评估值，评估所述对话系统。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种对话系统的评估方法，其特征在于，包括：

基于所述评估值，评估所述对话系统。

2.根据权利要求1所述的对话系统的评估方法，其特征在于，所述评估指标包括流畅度，所述目标信息包括所述文本信息，且所述文本信息包括所述对话系统的至少一个回复语句；

3.根据权利要求1或2所述的对话系统的评估方法，其特征在于，所述评估指标包括多样性，所述目标信息包括所述文本信息和目标图像，且所述文本信息包括所述对话系统的回复语句；

对各所述词组进行去重，得到多个目标词组；

4.根据权利要求1-3任一项所述的对话系统的评估方法，其特征在于，所述评估指标包括逻辑自洽性，所述目标信息包括文本信息，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

5.根据权利要求1-3任一项所述的对话系统的评估方法，其特征在于，所述评估指标包括语境连贯性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的当前回复语句和至少一个历史回复语句；

6.根据权利要求5所述的对话系统的评估方法，其特征在于，所述基于所述第一文本向量表示、所述图像向量表示和所述第二文本向量表示，确定多模态语境一致性值，包括：

基于所述第一相似度，计算第二相似度；

7.根据权利要求1-3任一项所述的对话系统的评估方法，其特征在于，所述评估指标包括视觉场景匹配性，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史回复语句；

8.根据权利要求1-3任一项所述的对话系统的评估方法，其特征在于，所述评估指标包括主题共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的至少一个历史对话语句；

基于各所述历史对话语句，确定多个分割片段；

9.根据权利要求1-3任一项所述的对话系统的评估方法，其特征在于，所述评估指标包括视觉共同点，所述目标信息包括文本信息和所述目标图像，且所述文本信息包括所述对话系统的历史对话语句；

10.一种对话系统的评估装置，其特征在于，包括：

评估模块，用于基于所述评估值，评估所述对话系统。

11.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至9任一项所述对话系统的评估方法。

12.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述对话系统的评估方法。

13.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9任一项所述对话系统的评估方法。