CN112417112A

CN112417112A - 一种基于图表征增强的开放域对话系统评估方法

Info

Publication number: CN112417112A
Application number: CN202011249658.8A
Authority: CN
Inventors: 黄丽珊; 林倞; 聂琳; 叶政; 秦景辉; 梁小丹
Original assignee: National Sun Yat Sen University
Current assignee: Sun Yat Sen University; National Sun Yat Sen University
Priority date: 2020-11-10
Filing date: 2020-11-10
Publication date: 2021-02-26

Abstract

本发明公开了一种基于图表征增强的开放域对话系统评估方法，包括步骤如下：获取对话的上下文c＝{c₁,…,c_m}和对话的回复r＝{r₁,…,r_n}；采用BERT编码上下文c和回复r，取BERT池化层的输出特征作为句子级别的上下文表征v_c；基于上下文c和回复r对当前对话构建主题级别的对话图G；根据从常识图ConceptNet获取的线索确认对话图G中的节点和边，并通过聚合、融合这两个步骤进行图推理，生成一个主题级别的对话图表征v_g；将上下文表征v_c和对话图表征v_g进行拼接，输入到多层感知器，将一个高维表征转化为一个分数值。本发明将对话图表征与上下文表征结合，能更好的理解上下文和回复之间的话题的一致性，能捕捉更准确的语义切换信息，因此在进行对话连贯性评估时，可以更像人一点。

Description

一种基于图表征增强的开放域对话系统评估方法

技术领域

本发明涉及自然语言处理技术领域，更具体的，涉及一种基于图表征增强的开放域对话系统评估方法。

背景技术

连贯性，指的是让对话句子更加的一致，而不是由一些随机的句子堆叠起来的，是开放域对话系统实现和人类无障碍交谈的关键属性。虽然开放域对话系统已经有了很大的进步，也越来越具备人类的说话技巧了。最近几年，先进开放域对话系统的自动化一致性评估一直是一个值得深入研究的问题，由于开放域对话话题的宽泛性、对话的复杂性使得它的评估过程极具挑战。

现有的技术采用基于统计的自动化评估方法，比如BLEU，其计算主要是依赖于对话的回复和其真实回复的词语重叠度。然而，由于忽略了对话回复的语义，这类指标往往存在偏差，其在对话一致性上的评估结果和人类评估结果的相关度是比较弱。如中国专利公开号：CN109522545A，公开日：2019.03.26，公开了一种对多轮对话连贯性质量的评估方法，具体公开了一种对多轮对话连贯性质量的评估方法，其特点是以多轮对话文本为输入，采用分层注意力机制，分别在单个话语层面和多轮对话的整体层面，融合对话的语义信息和意图信息，实现多轮对话连贯性质量的自动评估。

为了解决这些问题，一些基于学习的指标被提出来。这些指标往往只考虑句子级别的语义，通过训练一个一致性打分的网络，结合上下文和回复的语义关联性，给出当前对话的一致性分数。常见的这类指标有：ADEM、RUBER和BERT- RUBER。然而，真实世界一段连贯的对话不应该只是在句子内部语义上的连贯，同时需要确保主题切换的连贯性。如图1所示，一段连贯的对话中的主题在常识图中是非常接近的，很好的体现了主题切换的连贯性。虽然上面提到的指标在和人类判断的相关度上，都比基于统计的指标要好，但是他们仅仅在句子级别上确保了模型对话的连贯性，而没有考虑对话内部细粒度的主题转移的一致性。

发明内容

本发明为了解决现有评估对话连贯性的技术差，没有考虑主题转移一致性的问题，提供了一种基于图表征增强的开放域对话系统评估方法，其能捕捉更准确的语义切换信息，因此在进行对话连贯性评估时，可以更像人一点。

为实现上述本发明目的，采用的技术方案如下：一种基于图表征增强的开放域对话系统评估方法，所述的方法包括步骤如下：

S1：获取对话的上下文c＝{c₁，...，c_m}和对话的回复r＝{r₁，...，r_n}，其中， c_k1表示上下文中的一个词，其中k1＝1、2、…、m，r_k2表示回复中的一个词， k2＝1、2、…、n；

S2：采用BERT编码上下文c和回复r，取BERT池化层的输出特征作为句子级别的上下文表征v_c，其中v_c＝BERT(c，r)；

S3：基于上下文c和回复r对当前对话构建主题级别的对话图，表示为G＝ (V，E)，其中，V表示主题节点的集合，E表示主题之间的边的集合；

S4：根据从常识图ConceptNet获取的线索确认对话图G中的节点和边，并通过聚合、融合这两个步骤进行图推理，生成一个主题级别的对话图表征v_g；所述的线索包括k跳邻居节点表示、hop-attention权重矩阵；

S5：将上下文表征v_c和对话图表征v_g进行拼接，输入到多层感知器，将一个高维表征转化为一个分数值，实现基于v_c和v_g预测得到一个连贯性的分数。

优选地，步骤S3，基于上下文c和回复r对当前对话构建主题级别的对话图，具体的如下：

对于对话图G中的节点，利用TF-IDF和词性信息对c和r之中的关键字进行提取；上下文c中的关键字构成对话图G中的上下文主题节点，标记为V_c＝ {t₁，t₂，...，t_p}；回复r中的关键字构成G中的回复主题节点，标记为V_r＝ {t_p+1，t_p+2，...，t_p+q}，其中，p表示上下文c中关键字的数量，q表示回复r中关键字的数量；由此得到对话图G中的节点V＝V_c∪V_r。

进一步地，在确定对话图G中的节点后，利用从常识图ConceptNet中获取线索，去初始化对话图G中的节点的特征表示，具体如下：

每个主题节点t_i和常识图ConceptNet中的节点进行对齐，同时使用 ConceptNetNumberbatch预训练表征进行表征初始化，表达公式如下：

h_i＝CN(t_i)∈R^d

其中，i∈[1，p+q]，h_i是节点t_i的初始化表征，CN表示常识图ConceptNet 表征，d表示节点表征的维度。

再进一步地，为了捕捉现实生活中的话题关系，h_i采用在常识图ConceptNet 中k跳邻居节点的表征用如下方式进行更新：

其中，K表示最大数量的跳数；

表示t_i在常识图ConceptNet中k^th跳的邻居节点，W_k和b分别表示权重矩阵和偏置向量。

再进一步地，由于边只存在于每一个上下文主题节点

和每一个回复主题节点

之间，因此把对话图G当作一个加权无向图，对对话图G的每条边用常识图ConceptNet的跳数信息做为边的权重，所述的跳数信息指的是边的两个节点在常识图ConceptNet中的距离；具体地，

首先计算

和

之间的跳数，寻找上下文主题节点

与回复主题节点

在常识图ConceptNet的最短路径；把对话图G的权重邻接矩阵记为A，A中的每个元素的计算公式如下：

其中，A[i][j]表示节点t_i和节点t_j之间的边的hop-attention权重值；#hops()表示两个节点在conceptnet常识图里面的跳数。

再进一步地，在确定边后，还对权重邻接矩阵A进行正则化，正则化公式如下：

其中，

表示增强后的正则化邻接矩阵，D表示邻接表A的对应的度矩阵，I 表示的是单位矩阵。

再进一步地，构建主题级别的对话图G进行图推理，进而显示地建模主题的动态变换，通过聚合和融合两个步骤进行图推理；其中通过聚合进行图推理具体如下：

采用图注意力网络聚合每一个节点ti的邻居信息，节点ti在第l层的聚合表征

公式如下：

其中，N_i表示在对话G中节点t_i的邻居节点，W_l∈R^d×d和a_l∈R^2d是可学习的参数；α_ij是注意力系数，σ是sigmoid激活函数，ρ是LeakyReLU，同时·^T表示转置；e_ij表示通过将正则化邻接矩阵

与对话图G中的节点间得的注意力值相乘，得到注意力系数。

再进一步地，通过融合进行图推理，具体如下：

将聚合得到的表征z_i和i^th个节点的表征

进行更新，得到更新后的节点表征

其公式如下：

其中，V_l∈R^d×d是用于转换

的权值矩阵；ELU表示指数级线性单元；

最终，主题级的对话图表征通过如下公式转换得到：

其中，

表示最后一层神经网络的i^th个节点表征；mean表示均匀池化， FC₀表示带着一个ELU激活函数的全连接层。

再进一步地，步骤S5，将上下文表征v_c和对话图表征v_g进行拼接，输入到多层感知器，进而将一个高维表征转化为一个分数值，公式如下：

s＝FC₃(FC₂(FC₁([υ_c；v_g])))

其中，FC₁、FC₂、FC₃表示三个不同的全连接层，它们对应的激活函数分别是：ELU、ELU和sigmoid。

再进一步地，通过无监督的方式训练所述的方法，根据上下文c_i采用负采样策略选择得到的负样本

通过最小化下方的边界排序损失，使得对每个正样本r_i的分数高于对应负样本

的分数；

其中，N表示数据集的大小，m表示边界值，s_i表示i^th个正样本的连贯性分数，

表示i^th个负样本

的连贯性分数。

本发明的有益效果如下：

本发明所述的方法通过在对话图中进行推理得到对话图表征，显示的对主题动态切换进行建模，把对话图表征和句子级别上下文表征进行融合，进而为对话给出连贯性的分数。通过从常识图ConceptNet引入的k跳邻居节点表示、 hop-attention权重矩阵作为线索，进而确认对话图G中的节点和边，并通过聚合、融合这两个步骤进行图推理，生成一个主题级别的对话图表征v_g。将对话图表征与上下文表征结合，使得将所述的方法能更好的理解上下文和回复之间的话题的一致性。本发明可以捕捉更准确的语义切换信息，因此在进行对话连贯性评估时，可以更像人一点。

附图说明

图1是现有技术中引入对话图表征评估对话连贯性的一个实例。

图2是本实施例的方法的原理框架图。

图3是本实施例中人类在ConvAI2数据集上打分的分数分布可视化图。

图4是本实施例在众包平台上让工人对对话进行打分的问卷界面。

图5是本实施例所述方法和其他基准指标在和人工打分相关度上的直观展示。

图6是本实施例打分结果的案例分析。

具体实施方式

下面结合附图和具体实施方式对本发明做详细描述。

实施例1

本实施例的目标是学习出一个函数f：(c，r)→s，在给定上下文c和对话的回复r的情况下，能预测出一个连贯性的分数s。将基于图表征增强的开放域对话系统评估方法的英文表示为GRADE，因此本实施例提供了一种基于图表征增强的开放域对话系统评估方法，如图2所示，所述的方法包括步骤如下：

所述的方法包括步骤如下：

在一个具体的实施例中，步骤S3，基于上下文c和回复r对当前对话构建主题级别的对话图，具体的如下：

在一个具体的实施例中，步骤S4，在确定对话图G中的节点后，利用从 ConceptNet中获取的线索确认对话图G中的节点和边，具体，初始化对话图中的节点的特征表示，如下

每个主题节点t_i和ConceptNet中的节点进行对齐，同时使用ConceptNetNumberbatch预训练表征进行表征初始化，表达公式如下：

h_i＝CN(t_i)∈R^d

其中，i∈[1，p+q]，h_i是节点t_i的初始化表征，CN表示ConceptNet表征，d表示节点表征的维度。

在一个具体的实施例中，为了更好的捕捉现实生活中的话题关系，h_i采用它在常识图ConceptNet中k跳邻居节点的表征用如下方式进行更新：

其中，K表示最大数量的跳数，在实施例中，K设置为2；

表示t_i在ConceptNet常识图中k^th跳的邻居节点，W_k和b分别表示权重矩阵和偏置向量。

在一个具体的实施例中，本实施例的目标是基于上下文和回复预测连贯性分数。对于对话图G的边，本实施例只考虑了上下文节点V_c和回复节点V_r，换句话说就是，边只存在于每一个上下文主题节点

和每一个回复主题节点

之间，因此把对话图G当作一个加权无向图，对对话图G的每条边启发式地用常识图ConceptNet的跳数信息做为边的权重，所述的跳数信息指的是边的两个节点在常识图ConceptNet中的距离；具体地，

首先计算

和

之间的跳数，寻找上下文主题节点

与回复主题节点V_r ^j在ConceptNet的最短路径；把对话图G的权重邻接矩阵记为A，A中的每个元素的计算公式如下：

其中，A[i][j]表示节点t_i和节点t_j之间的边的hop-attention权重值，使得在ConceptNet中距离远的两个点，其边权重值低；距离近的两个点，其边的权重值高；#hops()表示两个节点在常识图ConceptNet里面的跳数。

在一个具体的实施例中，在确定边后，在后续采用无监督的方法训练 GRADE的步骤中，会随机丢弃对话图G的一些边，防止出现过平滑的情况。同时还对权重邻接矩阵A进行正则化，正则化公式如下：

其中，

在一个具体的实施例中，构建主题级别的对话图G进行图推理，进而显示地建模主题的动态变换，通过聚合和融合两个步骤进行图推理；其中通过聚合进行图推理具体如下：

采用图注意力网络聚合每一个节点t_i的邻居信息，节点t_i在第l层的聚合表征

公式如下：

其中，N_i表示在对话图G中节点t_i的邻居节点，W_l∈R^d×d和a_l∈R^2d是可学习的参数；α_ij是注意力系数，σ是sigmoid激活函数，ρ是LeakyReLU，同时·^T表示转置；e_ij表示通过将正则化邻接矩阵

与对话图G中的节点间算得的注意力值相乘，得到规模化后的注意力系数；

所以在聚合邻居节点的步骤中，对在常识图ConceptNet中距离t_i更近的邻居节点赋予更大的注意力权重值。

在一个具体的实施例中，通过融合进行图推理，具体如下：将聚合得到的表征z_i和i^th个节点的表征

一起得到更新后的节点表征

其公式如下：

其中，V_l∈R^d×d是用于转换

的权值矩阵；ELU表示指数级线性单元；

最终，主题级别的对话图表征可以通过如下转换得到：

其中，

表示最后一层神经网络的i^th个节点表征；mean表示均匀池化， FC₀代表带着一个ELU激活函数的全连接层。

在一个具体的实施例中，步骤S5，为了计算连贯性分数s，将上下文表征 v_c和对话图表征v_g进行拼接，输入到多层感知器，进而将一个高维表征转化为一个分数值，公式如下：

s＝FC₃(FC₂(FC₁([υ_c；v_g])))

其中，FC₁、FC₂、FC₃代表三个不同的全连接层，对应的激活函数分别是：ELU、ELU和sigmoid。

在一个具体的实施例中，对于训练策略，本实施例可以通过无监督的方式训练本实施例所提出的方法。给定一个数据集

c_i和r_i表示真实的上下文及回复对，同时

表示根据上下文c_i采用负采样策略选择得到的负样本。通过最小化下方的边界排序损失，使得对每个真实ri打的分要高于对应负样本

的分数：

其中，N表示数据集的大小，m表示边界值，且在本实施例中被设置成 0.1。s_i和

表示i^th个样本r_i和

的连贯性分数。

本实施例所述的负采样策略，基于语法和语义的两种负采样策略去为每个真实回复r选择相似的负样本

对于语法的负采样策略，采用Lucene检索和原始真实回复r词语重叠度高的样本做为负样本

具体做法是选取Lucene检索出来的中间的那一句回复作为负样本

而对于语义的负采样策略，先随机选出 1000个句子，然后BERT表征初始化句子，选出在语义上和真实回复r相似的句子做为负样本，具体做法是选出前5相似的句子后，从5个句子中随机选一个作为负样本。通过这样的策略，得到更具挑战性的负样本

具体实现本实施例所述的方法，可以使用BERT_BAsE编码句子级别的表征，为了获得对话图表征，引入用于生成图表征v_g的图推理模块GAT，所述的图推理模块GAT是一种图卷积神经网络，使用的GAT网络层的层数是3，头部数量是4，同时，输入和输出的维度都为300。为了训练好GRADE，本实施例使用Adam 优化器，其中，β₁＝0.9，β₂＝0.999，批大小是16，学习率是2e-5。

本实施例使用皮尔森和斯皮尔曼这两个相关度指标来衡量自动对话评估方法和人类打分的相关度，在置信度小于0.05的前提下，相关度越大越好。

本实施例使用了4个对话模型，分别基于给定的上下文生成待评估的回复。同时，为了更全面的评估、比较GRADE和其他基准指标的性能，我们考虑了检索式和生成式的对话模型，分别是Transformer-Ranker和Transformer-Generator。这两个对话模型都能生成一些连贯的对话和一些不连贯的对话。首先用它们生成的待评估对话内容，评估GRADE是否有能力对不同性能的对话模型进行区分和判断。这两个对话模型的具体实现来自于ParlAI平台。同时，为了评估更多样化的对话模型，我们在另外两个先进的对话模型上也进行了GRADE的评估，它们分别是BERT-Ranker和DialoGPT。

本发明用来比较的基准指标包括3个基于统计的指标：BLEU、ROUGE和 METEOR以及4个基于学习的指标：ADEM、BERT-RUBER、BERTScore和BLEURT。选择BLEU-4的结果代表BLEU指标的结果，ROUGE-L的结果代表 ROUGE指标的结果、BERTScore-F1的结果代表BERTScore的结果。

对于数据集，训练GRADE的时候使用DailyDdialog。该数据集包含高质量的关于日常生活的开放域对话，话题涵盖面大。另外，为了评估提出的方法的泛化能力，本实施例又引入了另外两个闲聊型的数据集：ConvAI2和 EmpatheticDialogues。

对于人类打分标注数据的收集，本实施例是在亚马逊的众包平台上收集人类打分的数据集。每一份问卷包含6个问题，其中一个是用于注意力检测的题目。没有通过注意力检测的提交都会被拒绝掉。对于每一个问题，工人可以看到一段对话，然后被要求对上下文和回复之间的连贯性进行打分，分值范围是1-5分(1 分表示完全不连贯，5分表示非常连贯)。每一段对话最终都会被8-10个不同的工人打分，我们会取这8-10个人打分的平均分做为当前对话的打分。统计结果显示，我们一共收集了11910条人类打分的数据，参与到本次标注任务的工人总数是217人。从图3可以看到，人类对不同对话模型生成的待评估内容打分的结果在1-5分的分布是比较均匀的。同时，图3也展示出了我们选择的几个对话模型性能的多样性，这对于全面评估我们的指标是有帮助的。图4展示了本发明在众包平台上让工人对对话进行打分的问卷界面。

本发明的待评估内容的数据集来自于1个训练数据集DailyDialog和两个训练时没用到的数据集ConvAI2和EmpatheticDialogues。用来生成回复内容的对话模型有四个，分别是Transformer-Ranker、Transformer-Generator、BERT- Ranker和DialoGPT。我们把每个数据集的评估上下文输入到对话模型中，生成回复，构建出对话做为待评估的内容。表1展示的是自动评估方法和人工在三个数据集和两个对话模型上打分相关度的比较：

表1

上述表格加*号的数值表示相关度的置信度不满足小于0.05。

从表1中可以看出，在DailyDialog数据集上，虽然GRADE在 Transformer-Ranker上的斯皮尔曼值低于BLEURT(一个在大规模数据集上训练得到的指标)，对于平均值，GRADE比BLEURT高了1％。同时在 Transformer-Generator上，GRADE的皮尔森和斯皮尔曼相关度比BLEURT分别提升了1.1％和6.9％。总的来说，GRADE在平均结果上，取得了最高的相关度。同时，所有GRADE的相关度值的置信度都是满足p＜0.05的，这是比基准更稳定的结果。

为了验证本实施例所述的方法的泛化能力，在两个训练过程中没出现过的闲聊数据集也进行了相关度的对比，分别是ConvAI2和EmpatheticDialogues。从表1的结果可以看出，GRADE可以很容易在不需要重新训练的情况下，泛化到别的没见过的数据集上去，且表现出比基准更好的性能。同时值得注意的是，所有GRADE的皮尔森和斯皮尔曼相关度都满足p＜0.05，且大部分都满足p＜0.01。尤为重要的是，对于Transformer-Generator在ConvAI2数据集上生成的待评估数据，GRADE实现了0.606的皮尔森值和0.617的斯皮尔曼值。相比BLEURT，分别提升了0.411(皮尔森)和0.417(斯皮尔曼)个点。

表2展示了在两个先进的对话模型上(BERT-Ranker和DialoGPT)， GRADE和其他基准的相关度结果，同样的，加*的表示相关度的置信度不满足小于0.05。本实施例中(GRADE)表现出明显优于其他基准指标的性能，能更好地评估高质量的回复。同时图5展示了不同指标在DialoGPT对话模型上的分数相关度。每一个点都代表着ConvAI2数据集中的一段对话的人工打分和对应指标打分情况。每个散点图展示的是一个自动评估方法和人工打分平均值的关系，曲线越陡峭，代表相关度越高。可以看到GRADE的散点图曲线是最陡峭的，也就是GRADE预测得到的分数是最接近人工打分的，直观地体现了 GRADE的优越性。

表2

表3

表格3展示的是在DailyDialog数据集上做的消融实验。表格展示的是在5 个不同随机种子训练得到的模型的平均测试结果，其中灰色的数值代表多次实验的标准差。N₁和N₂分别表示ConceptNet里面一跳和两跳的邻居节点。其中， *表示在5个模型效果中，超过3次相关度的结果是不可信的，也就是相关度不满足p＜0.05。通过表3的第一行和第二行可以知道，本实施例所述的方法用到的负样本采样策略是有效的。把GRADE在本实施例的负采样策略生成的数据训练的结果和在随机采样生成的数据训练的结果进行比较。如表3所示，采用负采样策略训练的结果在平均结果上，比随机采样策略高了6.60％。

同时为了证明本实施例所述的方法图分支的有效性，基于GRADE，添加了3个消融实验，分别是：1)移除GRADE的整个图分支；2)移除用于初始化对话图节点表征的k跳邻居节点表征；3)移除用于计算对话图中每条边的权值的hop-attention权重。总的来说，从表格3可以看出，移除图分支或者是移除图分支中的某个组件，都会导致GRADE性能的下降。

最后，我们想验证一下到底多少图信息是GRADE需要的。我们从两个方面探索用于初始化对话图节点的k跳邻居节点表征的数量，分别是：跳数的最大值(记为K)以及k^th跳的邻居节点数量(记为N_k)。通过比较表格三第一行和倒数三行的实验结果，我们可以发现同时引入1^st跳和2^nd跳的邻居节点信息可以带来最好的性能。同时，我们也发现了引入太多的图信息可能会导致相对较弱的性能，如表3最后一行所示。所以最终GRADE采用的版本是考虑了两跳内的邻居节点表征的，其中N₁＝10，N₂＝10。

总的来说，引入对话图表征信息，使我们的指标拥有了更好的性能。

同时，为了更直观的展示我们的GRADE的性能，图6展示了三个具有代表性的例子，把GRADE和另外两个基准指标：ROUGE和BERT-RUBER一起进行比较，上下文的关键字和模型回复R_model的关键字分别用下划线标记出来了。其中，R_ref是参考的回复。为了更好的进行比较，自动评估方法的分数被正则化到和人工打分一样的分数范围，也就是[1，5]的范围。从第一行的结果我们可以看到，我们的指标比其他两个基准指标更接近人工打分。然而，在第二行，我们的指标表现得比较差，有一个潜在原因就是在模型的回复中，缺少了主题，正如第二行第三列展示的对话图一样，可以看到对话图中只有上下文主题节点。这会导致本发明的对话图推理模块没办法引入恰当的对话图表征，进而影响了连贯性的分数。图6的第三行展示了GRADE和其他基准指标都无法处理的情况。在这个困难的案例里面，模型的回复的主题和和对话的上下文相关。因为回复和上下文很匹配，所以GRADE和BERT-RUBER都给出了较高的分数。然而事实上，这里模型的回复更像是前面句子U1的回复，而不是句子U2 的回复，这是指标很难去区分的。

从上面的实验分析可以看到，GRADE和人工打分有着更强的相关度，同时能够泛化到训练时没见过的数据集。

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于图表征增强的开放域对话系统评估方法，其特征在于：所述的方法包括步骤如下：

S1：获取对话的上下文c＝{c₁,…,c_m}和对话的回复r＝{r₁,…,r_n}，其中，c_k1表示上下文中的一个词，其中k1＝1、2、…、m，r_k2表示回复中的一个词，k2＝1、2、…、n；

S2：采用BERT编码上下文c和回复r，取BERT池化层的输出特征作为句子级别的上下文表征v_c，其中v_c＝BERT(c,r)；

S3：基于上下文c和回复r对当前对话构建主题级别的对话图，表示为G＝(V,E)，其中，V表示主题节点的集合，E表示主题之间的边的集合；

2.根据权利要求1所述的基于图表征增强的开放域对话系统评估方法，其特征在于：步骤S3，基于上下文c和回复r对当前对话构建主题级别的对话图，具体的如下：

对于对话图G中的节点，利用TF-IDF和词性信息对c和r之中的关键字进行提取；上下文c中的关键字构成对话图G中的上下文主题节点，标记为V_c＝{t₁,t₂,…,t_p}；回复r中的关键字构成G中的回复主题节点，标记为V_r＝{t_p+1,t_p+2,…,t_p+q}，其中，p表示上下文c中关键字的数量，q表示回复r中关键字的数量；由此得到对话图G中的节点V＝V_c∪V_r。

3.根据权利要求2所述的基于图表征增强的开放域对话系统评估方法，其特征在于：在确定对话图G中的节点后，利用从常识图ConceptNet获取线索，去初始化对话图G中的节点的特征表示，具体如下：

每个主题节点t_i和常识图ConceptNet中的节点进行对齐，同时使用ConceptNetNumberbatch预训练表征进行表征初始化，表达公式如下：

h_i＝CN(t_i)∈R^d

其中，i∈[1,p+q]，h_i是节点t_i的初始化表征，CN表示常识图ConceptNet表征，d表示节点表征的维度。

4.根据权利要求3所述的基于图表征增强的开放域对话系统评估方法，其特征在于：为了捕捉现实生活中的话题关系，h_i采用在常识图ConceptNet中k跳邻居节点的表征用如下方式进行更新：