CN112417112A - 一种基于图表征增强的开放域对话系统评估方法 - Google Patents

一种基于图表征增强的开放域对话系统评估方法 Download PDF

Info

Publication number
CN112417112A
CN112417112A CN202011249658.8A CN202011249658A CN112417112A CN 112417112 A CN112417112 A CN 112417112A CN 202011249658 A CN202011249658 A CN 202011249658A CN 112417112 A CN112417112 A CN 112417112A
Authority
CN
China
Prior art keywords
graph
dialog
context
node
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011249658.8A
Other languages
English (en)
Inventor
黄丽珊
林倞
聂琳
叶政
秦景辉
梁小丹
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
National Sun Yat Sen University
Original Assignee
National Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Sun Yat Sen University filed Critical National Sun Yat Sen University
Priority to CN202011249658.8A priority Critical patent/CN112417112A/zh
Publication of CN112417112A publication Critical patent/CN112417112A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于图表征增强的开放域对话系统评估方法,包括步骤如下:获取对话的上下文c={c1,…,cm}和对话的回复r={r1,…,rn};采用BERT编码上下文c和回复r,取BERT池化层的输出特征作为句子级别的上下文表征vc;基于上下文c和回复r对当前对话构建主题级别的对话图G;根据从常识图ConceptNet获取的线索确认对话图G中的节点和边,并通过聚合、融合这两个步骤进行图推理,生成一个主题级别的对话图表征vg;将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,将一个高维表征转化为一个分数值。本发明将对话图表征与上下文表征结合,能更好的理解上下文和回复之间的话题的一致性,能捕捉更准确的语义切换信息,因此在进行对话连贯性评估时,可以更像人一点。

Description

一种基于图表征增强的开放域对话系统评估方法
技术领域
本发明涉及自然语言处理技术领域,更具体的,涉及一种基于图表征增强的开放域对话系统评估方法。
背景技术
连贯性,指的是让对话句子更加的一致,而不是由一些随机的句子堆叠起来的,是开放域对话系统实现和人类无障碍交谈的关键属性。虽然开放域对话系统已经有了很大的进步,也越来越具备人类的说话技巧了。最近几年,先进开放域对话系统的自动化一致性评估一直是一个值得深入研究的问题,由于开放域对话话题的宽泛性、对话的复杂性使得它的评估过程极具挑战。
现有的技术采用基于统计的自动化评估方法,比如BLEU,其计算主要是依赖于对话的回复和其真实回复的词语重叠度。然而,由于忽略了对话回复的语义,这类指标往往存在偏差,其在对话一致性上的评估结果和人类评估结果的相关度是比较弱。如中国专利公开号:CN109522545A,公开日:2019.03.26,公开了一种对多轮对话连贯性质量的评估方法,具体公开了一种对多轮对话连贯性质量的评估方法,其特点是以多轮对话文本为输入,采用分层注意力机制,分别在单个话语层面和多轮对话的整体层面,融合对话的语义信息和意图信息,实现多轮对话连贯性质量的自动评估。
为了解决这些问题,一些基于学习的指标被提出来。这些指标往往只考虑句子级别的语义,通过训练一个一致性打分的网络,结合上下文和回复的语义关联性,给出当前对话的一致性分数。常见的这类指标有:ADEM、RUBER和BERT- RUBER。然而,真实世界一段连贯的对话不应该只是在句子内部语义上的连贯,同时需要确保主题切换的连贯性。如图1所示,一段连贯的对话中的主题在常识图中是非常接近的,很好的体现了主题切换的连贯性。虽然上面提到的指标在和人类判断的相关度上,都比基于统计的指标要好,但是他们仅仅在句子级别上确保了模型对话的连贯性,而没有考虑对话内部细粒度的主题转移的一致性。
发明内容
本发明为了解决现有评估对话连贯性的技术差,没有考虑主题转移一致性的问题,提供了一种基于图表征增强的开放域对话系统评估方法,其能捕捉更准确的语义切换信息,因此在进行对话连贯性评估时,可以更像人一点。
为实现上述本发明目的,采用的技术方案如下:一种基于图表征增强的开放域对话系统评估方法,所述的方法包括步骤如下:
S1:获取对话的上下文c={c1,...,cm}和对话的回复r={r1,...,rn},其中, ck1表示上下文中的一个词,其中k1=1、2、…、m,rk2表示回复中的一个词, k2=1、2、…、n;
S2:采用BERT编码上下文c和回复r,取BERT池化层的输出特征作为句子级别的上下文表征vc,其中vc=BERT(c,r);
S3:基于上下文c和回复r对当前对话构建主题级别的对话图,表示为G= (V,E),其中,V表示主题节点的集合,E表示主题之间的边的集合;
S4:根据从常识图ConceptNet获取的线索确认对话图G中的节点和边,并通过聚合、融合这两个步骤进行图推理,生成一个主题级别的对话图表征vg;所述的线索包括k跳邻居节点表示、hop-attention权重矩阵;
S5:将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,将一个高维表征转化为一个分数值,实现基于vc和vg预测得到一个连贯性的分数。
优选地,步骤S3,基于上下文c和回复r对当前对话构建主题级别的对话图,具体的如下:
对于对话图G中的节点,利用TF-IDF和词性信息对c和r之中的关键字进行提取;上下文c中的关键字构成对话图G中的上下文主题节点,标记为Vc= {t1,t2,...,tp};回复r中的关键字构成G中的回复主题节点,标记为Vr= {tp+1,tp+2,...,tp+q},其中,p表示上下文c中关键字的数量,q表示回复r中关键字的数量;由此得到对话图G中的节点V=Vc∪Vr
进一步地,在确定对话图G中的节点后,利用从常识图ConceptNet中获取线索,去初始化对话图G中的节点的特征表示,具体如下:
每个主题节点ti和常识图ConceptNet中的节点进行对齐,同时使用 ConceptNetNumberbatch预训练表征进行表征初始化,表达公式如下:
hi=CN(ti)∈Rd
其中,i∈[1,p+q],hi是节点ti的初始化表征,CN表示常识图ConceptNet 表征,d表示节点表征的维度。
再进一步地,为了捕捉现实生活中的话题关系,hi采用在常识图ConceptNet 中k跳邻居节点的表征用如下方式进行更新:
Figure RE-GDA0002899596280000031
Figure RE-GDA0002899596280000032
其中,K表示最大数量的跳数;
Figure RE-GDA0002899596280000033
表示ti在常识图ConceptNet中kth跳的邻居节点,Wk和b分别表示权重矩阵和偏置向量。
再进一步地,由于边只存在于每一个上下文主题节点
Figure RE-GDA0002899596280000034
和每一个回复主题节点
Figure RE-GDA0002899596280000035
之间,因此把对话图G当作一个加权无向图,对对话图G的每条边用常识图ConceptNet的跳数信息做为边的权重,所述的跳数信息指的是边的两个节点在常识图ConceptNet中的距离;具体地,
首先计算
Figure RE-GDA0002899596280000036
Figure RE-GDA0002899596280000037
之间的跳数,寻找上下文主题节点
Figure RE-GDA0002899596280000038
与回复主题节点
Figure RE-GDA0002899596280000039
在常识图ConceptNet的最短路径;把对话图G的权重邻接矩阵记为A,A中的每个元素的计算公式如下:
Figure RE-GDA00028995962800000310
其中,A[i][j]表示节点ti和节点tj之间的边的hop-attention权重值;#hops()表示两个节点在conceptnet常识图里面的跳数。
再进一步地,在确定边后,还对权重邻接矩阵A进行正则化,正则化公式如下:
Figure RE-GDA00028995962800000311
其中,
Figure RE-GDA00028995962800000312
表示增强后的正则化邻接矩阵,D表示邻接表A的对应的度矩阵,I 表示的是单位矩阵。
再进一步地,构建主题级别的对话图G进行图推理,进而显示地建模主题的动态变换,通过聚合和融合两个步骤进行图推理;其中通过聚合进行图推理具体如下:
采用图注意力网络聚合每一个节点ti的邻居信息,节点ti在第l层的聚合表征
Figure RE-GDA00028995962800000313
公式如下:
Figure RE-GDA0002899596280000041
Figure RE-GDA0002899596280000042
Figure RE-GDA0002899596280000043
其中,Ni表示在对话G中节点ti的邻居节点,Wl∈Rd×d和al∈R2d是可学习的参数;αij是注意力系数,σ是sigmoid激活函数,ρ是LeakyReLU,同时·T表示转置;eij表示通过将正则化邻接矩阵
Figure RE-GDA00028995962800000413
与对话图G中的节点间得的注意力值相乘,得到注意力系数。
再进一步地,通过融合进行图推理,具体如下:
将聚合得到的表征zi和ith个节点的表征
Figure RE-GDA0002899596280000044
进行更新,得到更新后的节点表征
Figure RE-GDA0002899596280000045
其公式如下:
Figure RE-GDA0002899596280000046
其中,Vl∈Rd×d是用于转换
Figure RE-GDA0002899596280000047
的权值矩阵;ELU表示指数级线性单元;
最终,主题级的对话图表征通过如下公式转换得到:
Figure RE-GDA0002899596280000048
其中,
Figure RE-GDA0002899596280000049
表示最后一层神经网络的ith个节点表征;mean表示均匀池化, FC0表示带着一个ELU激活函数的全连接层。
再进一步地,步骤S5,将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,进而将一个高维表征转化为一个分数值,公式如下:
s=FC3(FC2(FC1([υc;vg])))
其中,FC1、FC2、FC3表示三个不同的全连接层,它们对应的激活函数分别是:ELU、ELU和sigmoid。
再进一步地,通过无监督的方式训练所述的方法,根据上下文ci采用负采样策略选择得到的负样本
Figure RE-GDA00028995962800000410
通过最小化下方的边界排序损失,使得对每个正样本ri的分数高于对应负样本
Figure RE-GDA00028995962800000411
的分数;
Figure RE-GDA00028995962800000412
其中,N表示数据集的大小,m表示边界值,si表示ith个正样本的连贯性分数,
Figure RE-GDA0002899596280000051
表示ith个负样本
Figure RE-GDA0002899596280000052
的连贯性分数。
本发明的有益效果如下:
本发明所述的方法通过在对话图中进行推理得到对话图表征,显示的对主题动态切换进行建模,把对话图表征和句子级别上下文表征进行融合,进而为对话给出连贯性的分数。通过从常识图ConceptNet引入的k跳邻居节点表示、 hop-attention权重矩阵作为线索,进而确认对话图G中的节点和边,并通过聚合、融合这两个步骤进行图推理,生成一个主题级别的对话图表征vg。将对话图表征与上下文表征结合,使得将所述的方法能更好的理解上下文和回复之间的话题的一致性。本发明可以捕捉更准确的语义切换信息,因此在进行对话连贯性评估时,可以更像人一点。
附图说明
图1是现有技术中引入对话图表征评估对话连贯性的一个实例。
图2是本实施例的方法的原理框架图。
图3是本实施例中人类在ConvAI2数据集上打分的分数分布可视化图。
图4是本实施例在众包平台上让工人对对话进行打分的问卷界面。
图5是本实施例所述方法和其他基准指标在和人工打分相关度上的直观展示。
图6是本实施例打分结果的案例分析。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
本实施例的目标是学习出一个函数f:(c,r)→s,在给定上下文c和对话的回复r的情况下,能预测出一个连贯性的分数s。将基于图表征增强的开放域对话系统评估方法的英文表示为GRADE,因此本实施例提供了一种基于图表征增强的开放域对话系统评估方法,如图2所示,所述的方法包括步骤如下:
所述的方法包括步骤如下:
S1:获取对话的上下文c={c1,...,cm}和对话的回复r={r1,...,rn},其中, ck1表示上下文中的一个词,其中k1=1、2、…、m,rk2表示回复中的一个词, k2=1、2、…、n;
S2:采用BERT编码上下文c和回复r,取BERT池化层的输出特征作为句子级别的上下文表征vc,其中vc=BERT(c,r);
S3:基于上下文c和回复r对当前对话构建主题级别的对话图,表示为G= (V,E),其中,V表示主题节点的集合,E表示主题之间的边的集合;
S4:根据从常识图ConceptNet获取的线索确认对话图G中的节点和边,并通过聚合、融合这两个步骤进行图推理,生成一个主题级别的对话图表征vg;所述的线索包括k跳邻居节点表示、hop-attention权重矩阵;
S5:将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,将一个高维表征转化为一个分数值,实现基于vc和vg预测得到一个连贯性的分数。
在一个具体的实施例中,步骤S3,基于上下文c和回复r对当前对话构建主题级别的对话图,具体的如下:
对于对话图G中的节点,利用TF-IDF和词性信息对c和r之中的关键字进行提取;上下文c中的关键字构成对话图G中的上下文主题节点,标记为Vc= {t1,t2,...,tp};回复r中的关键字构成G中的回复主题节点,标记为Vr= {tp+1,tp+2,...,tp+q},其中,p表示上下文c中关键字的数量,q表示回复r中关键字的数量;由此得到对话图G中的节点V=Vc∪Vr
在一个具体的实施例中,步骤S4,在确定对话图G中的节点后,利用从 ConceptNet中获取的线索确认对话图G中的节点和边,具体,初始化对话图中的节点的特征表示,如下
每个主题节点ti和ConceptNet中的节点进行对齐,同时使用ConceptNetNumberbatch预训练表征进行表征初始化,表达公式如下:
hi=CN(ti)∈Rd
其中,i∈[1,p+q],hi是节点ti的初始化表征,CN表示ConceptNet表征,d表示节点表征的维度。
在一个具体的实施例中,为了更好的捕捉现实生活中的话题关系,hi采用它在常识图ConceptNet中k跳邻居节点的表征用如下方式进行更新:
Figure RE-GDA0002899596280000061
Figure RE-GDA0002899596280000062
其中,K表示最大数量的跳数,在实施例中,K设置为2;
Figure RE-GDA0002899596280000063
表示ti在ConceptNet常识图中kth跳的邻居节点,Wk和b分别表示权重矩阵和偏置向量。
在一个具体的实施例中,本实施例的目标是基于上下文和回复预测连贯性分数。对于对话图G的边,本实施例只考虑了上下文节点Vc和回复节点Vr,换句话说就是,边只存在于每一个上下文主题节点
Figure RE-GDA0002899596280000075
和每一个回复主题节点
Figure RE-GDA0002899596280000076
之间,因此把对话图G当作一个加权无向图,对对话图G的每条边启发式地用常识图ConceptNet的跳数信息做为边的权重,所述的跳数信息指的是边的两个节点在常识图ConceptNet中的距离;具体地,
首先计算
Figure RE-GDA0002899596280000077
Figure RE-GDA0002899596280000078
之间的跳数,寻找上下文主题节点
Figure RE-GDA0002899596280000079
与回复主题节点Vr j在ConceptNet的最短路径;把对话图G的权重邻接矩阵记为A,A中的每个元素的计算公式如下:
Figure RE-GDA0002899596280000071
其中,A[i][j]表示节点ti和节点tj之间的边的hop-attention权重值,使得在ConceptNet中距离远的两个点,其边权重值低;距离近的两个点,其边的权重值高;#hops()表示两个节点在常识图ConceptNet里面的跳数。
在一个具体的实施例中,在确定边后,在后续采用无监督的方法训练 GRADE的步骤中,会随机丢弃对话图G的一些边,防止出现过平滑的情况。同时还对权重邻接矩阵A进行正则化,正则化公式如下:
Figure RE-GDA0002899596280000072
其中,
Figure RE-GDA0002899596280000073
表示增强后的正则化邻接矩阵,D表示邻接表A的对应的度矩阵,I 表示的是单位矩阵。
在一个具体的实施例中,构建主题级别的对话图G进行图推理,进而显示地建模主题的动态变换,通过聚合和融合两个步骤进行图推理;其中通过聚合进行图推理具体如下:
采用图注意力网络聚合每一个节点ti的邻居信息,节点ti在第l层的聚合表征
Figure RE-GDA0002899596280000074
公式如下:
Figure RE-GDA0002899596280000081
Figure RE-GDA0002899596280000082
Figure RE-GDA0002899596280000083
其中,Ni表示在对话图G中节点ti的邻居节点,Wl∈Rd×d和al∈R2d是可学习的参数;αij是注意力系数,σ是sigmoid激活函数,ρ是LeakyReLU,同时·T表示转置;eij表示通过将正则化邻接矩阵
Figure RE-GDA0002899596280000086
与对话图G中的节点间算得的注意力值相乘,得到规模化后的注意力系数;
所以在聚合邻居节点的步骤中,对在常识图ConceptNet中距离ti更近的邻居节点赋予更大的注意力权重值。
在一个具体的实施例中,通过融合进行图推理,具体如下:将聚合得到的表征zi和ith个节点的表征
Figure RE-GDA0002899596280000087
一起得到更新后的节点表征
Figure RE-GDA0002899596280000088
其公式如下:
其中,Vl∈Rd×d是用于转换
Figure RE-GDA0002899596280000089
的权值矩阵;ELU表示指数级线性单元;
Figure RE-GDA0002899596280000084
最终,主题级别的对话图表征可以通过如下转换得到:
Figure RE-GDA0002899596280000085
其中,
Figure RE-GDA00028995962800000810
表示最后一层神经网络的ith个节点表征;mean表示均匀池化, FC0代表带着一个ELU激活函数的全连接层。
在一个具体的实施例中,步骤S5,为了计算连贯性分数s,将上下文表征 vc和对话图表征vg进行拼接,输入到多层感知器,进而将一个高维表征转化为一个分数值,公式如下:
s=FC3(FC2(FC1([υc;vg])))
其中,FC1、FC2、FC3代表三个不同的全连接层,对应的激活函数分别是:ELU、ELU和sigmoid。
在一个具体的实施例中,对于训练策略,本实施例可以通过无监督的方式训练本实施例所提出的方法。给定一个数据集
Figure RE-GDA00028995962800000812
ci和ri表示真实的上下文及回复对,同时
Figure RE-GDA00028995962800000811
表示根据上下文ci采用负采样策略选择得到的负样本。通过最小化下方的边界排序损失,使得对每个真实ri打的分要高于对应负样本
Figure RE-GDA0002899596280000092
的分数:
Figure RE-GDA0002899596280000091
其中,N表示数据集的大小,m表示边界值,且在本实施例中被设置成 0.1。si
Figure RE-GDA0002899596280000093
表示ith个样本ri
Figure RE-GDA0002899596280000094
的连贯性分数。
本实施例所述的负采样策略,基于语法和语义的两种负采样策略去为每个真实回复r选择相似的负样本
Figure RE-GDA0002899596280000098
对于语法的负采样策略,采用Lucene检索和原始真实回复r词语重叠度高的样本做为负样本
Figure RE-GDA0002899596280000095
具体做法是选取Lucene检索出来的中间的那一句回复作为负样本
Figure RE-GDA0002899596280000096
而对于语义的负采样策略,先随机选出 1000个句子,然后BERT表征初始化句子,选出在语义上和真实回复r相似的句子做为负样本,具体做法是选出前5相似的句子后,从5个句子中随机选一个作为负样本。通过这样的策略,得到更具挑战性的负样本
Figure RE-GDA0002899596280000097
具体实现本实施例所述的方法,可以使用BERTBAsE编码句子级别的表征,为了获得对话图表征,引入用于生成图表征vg的图推理模块GAT,所述的图推理模块GAT是一种图卷积神经网络,使用的GAT网络层的层数是3,头部数量是4,同时,输入和输出的维度都为300。为了训练好GRADE,本实施例使用Adam 优化器,其中,β1=0.9,β2=0.999,批大小是16,学习率是2e-5。
本实施例使用皮尔森和斯皮尔曼这两个相关度指标来衡量自动对话评估方法和人类打分的相关度,在置信度小于0.05的前提下,相关度越大越好。
本实施例使用了4个对话模型,分别基于给定的上下文生成待评估的回复。同时,为了更全面的评估、比较GRADE和其他基准指标的性能,我们考虑了检索式和生成式的对话模型,分别是Transformer-Ranker和Transformer-Generator。这两个对话模型都能生成一些连贯的对话和一些不连贯的对话。首先用它们生成的待评估对话内容,评估GRADE是否有能力对不同性能的对话模型进行区分和判断。这两个对话模型的具体实现来自于ParlAI平台。同时,为了评估更多样化的对话模型,我们在另外两个先进的对话模型上也进行了GRADE的评估,它们分别是BERT-Ranker和DialoGPT。
本发明用来比较的基准指标包括3个基于统计的指标:BLEU、ROUGE和 METEOR以及4个基于学习的指标:ADEM、BERT-RUBER、BERTScore和BLEURT。选择BLEU-4的结果代表BLEU指标的结果,ROUGE-L的结果代表 ROUGE指标的结果、BERTScore-F1的结果代表BERTScore的结果。
对于数据集,训练GRADE的时候使用DailyDdialog。该数据集包含高质量的关于日常生活的开放域对话,话题涵盖面大。另外,为了评估提出的方法的泛化能力,本实施例又引入了另外两个闲聊型的数据集:ConvAI2和 EmpatheticDialogues。
对于人类打分标注数据的收集,本实施例是在亚马逊的众包平台上收集人类打分的数据集。每一份问卷包含6个问题,其中一个是用于注意力检测的题目。没有通过注意力检测的提交都会被拒绝掉。对于每一个问题,工人可以看到一段对话,然后被要求对上下文和回复之间的连贯性进行打分,分值范围是1-5分(1 分表示完全不连贯,5分表示非常连贯)。每一段对话最终都会被8-10个不同的工人打分,我们会取这8-10个人打分的平均分做为当前对话的打分。统计结果显示,我们一共收集了11910条人类打分的数据,参与到本次标注任务的工人总数是217人。从图3可以看到,人类对不同对话模型生成的待评估内容打分的结果在1-5分的分布是比较均匀的。同时,图3也展示出了我们选择的几个对话模型性能的多样性,这对于全面评估我们的指标是有帮助的。图4展示了本发明在众包平台上让工人对对话进行打分的问卷界面。
本发明的待评估内容的数据集来自于1个训练数据集DailyDialog和两个训练时没用到的数据集ConvAI2和EmpatheticDialogues。用来生成回复内容的对话模型有四个,分别是Transformer-Ranker、Transformer-Generator、BERT- Ranker和DialoGPT。我们把每个数据集的评估上下文输入到对话模型中,生成回复,构建出对话做为待评估的内容。表1展示的是自动评估方法和人工在三个数据集和两个对话模型上打分相关度的比较:
表1
Figure RE-GDA0002899596280000111
上述表格加*号的数值表示相关度的置信度不满足小于0.05。
从表1中可以看出,在DailyDialog数据集上,虽然GRADE在 Transformer-Ranker上的斯皮尔曼值低于BLEURT(一个在大规模数据集上训练得到的指标),对于平均值,GRADE比BLEURT高了1%。同时在 Transformer-Generator上,GRADE的皮尔森和斯皮尔曼相关度比BLEURT分别提升了1.1%和6.9%。总的来说,GRADE在平均结果上,取得了最高的相关度。同时,所有GRADE的相关度值的置信度都是满足p<0.05的,这是比基准更稳定的结果。
为了验证本实施例所述的方法的泛化能力,在两个训练过程中没出现过的闲聊数据集也进行了相关度的对比,分别是ConvAI2和EmpatheticDialogues。从表1的结果可以看出,GRADE可以很容易在不需要重新训练的情况下,泛化到别的没见过的数据集上去,且表现出比基准更好的性能。同时值得注意的是,所有GRADE的皮尔森和斯皮尔曼相关度都满足p<0.05,且大部分都满足p<0.01。尤为重要的是,对于Transformer-Generator在ConvAI2数据集上生成的待评估数据,GRADE实现了0.606的皮尔森值和0.617的斯皮尔曼值。相比BLEURT,分别提升了0.411(皮尔森)和0.417(斯皮尔曼)个点。
表2展示了在两个先进的对话模型上(BERT-Ranker和DialoGPT), GRADE和其他基准的相关度结果,同样的,加*的表示相关度的置信度不满足小于0.05。本实施例中(GRADE)表现出明显优于其他基准指标的性能,能更好地评估高质量的回复。同时图5展示了不同指标在DialoGPT对话模型上的分数相关度。每一个点都代表着ConvAI2数据集中的一段对话的人工打分和对应指标打分情况。每个散点图展示的是一个自动评估方法和人工打分平均值的关系,曲线越陡峭,代表相关度越高。可以看到GRADE的散点图曲线是最陡峭的,也就是GRADE预测得到的分数是最接近人工打分的,直观地体现了 GRADE的优越性。
表2
Figure RE-GDA0002899596280000121
表3
Figure RE-GDA0002899596280000122
表格3展示的是在DailyDialog数据集上做的消融实验。表格展示的是在5 个不同随机种子训练得到的模型的平均测试结果,其中灰色的数值代表多次实验的标准差。N1和N2分别表示ConceptNet里面一跳和两跳的邻居节点。其中, *表示在5个模型效果中,超过3次相关度的结果是不可信的,也就是相关度不满足p<0.05。通过表3的第一行和第二行可以知道,本实施例所述的方法用到的负样本采样策略是有效的。把GRADE在本实施例的负采样策略生成的数据训练的结果和在随机采样生成的数据训练的结果进行比较。如表3所示,采用负采样策略训练的结果在平均结果上,比随机采样策略高了6.60%。
同时为了证明本实施例所述的方法图分支的有效性,基于GRADE,添加了3个消融实验,分别是:1)移除GRADE的整个图分支;2)移除用于初始化对话图节点表征的k跳邻居节点表征;3)移除用于计算对话图中每条边的权值的hop-attention权重。总的来说,从表格3可以看出,移除图分支或者是移除图分支中的某个组件,都会导致GRADE性能的下降。
最后,我们想验证一下到底多少图信息是GRADE需要的。我们从两个方面探索用于初始化对话图节点的k跳邻居节点表征的数量,分别是:跳数的最大值(记为K)以及kth跳的邻居节点数量(记为Nk)。通过比较表格三第一行和倒数三行的实验结果,我们可以发现同时引入1st跳和2nd跳的邻居节点信息可以带来最好的性能。同时,我们也发现了引入太多的图信息可能会导致相对较弱的性能,如表3最后一行所示。所以最终GRADE采用的版本是考虑了两跳内的邻居节点表征的,其中N1=10,N2=10。
总的来说,引入对话图表征信息,使我们的指标拥有了更好的性能。
同时,为了更直观的展示我们的GRADE的性能,图6展示了三个具有代表性的例子,把GRADE和另外两个基准指标:ROUGE和BERT-RUBER一起进行比较,上下文的关键字和模型回复Rmodel的关键字分别用下划线标记出来了。其中,Rref是参考的回复。为了更好的进行比较,自动评估方法的分数被正则化到和人工打分一样的分数范围,也就是[1,5]的范围。从第一行的结果我们可以看到,我们的指标比其他两个基准指标更接近人工打分。然而,在第二行,我们的指标表现得比较差,有一个潜在原因就是在模型的回复中,缺少了主题,正如第二行第三列展示的对话图一样,可以看到对话图中只有上下文主题节点。这会导致本发明的对话图推理模块没办法引入恰当的对话图表征,进而影响了连贯性的分数。图6的第三行展示了GRADE和其他基准指标都无法处理的情况。在这个困难的案例里面,模型的回复的主题和和对话的上下文相关。因为回复和上下文很匹配,所以GRADE和BERT-RUBER都给出了较高的分数。然而事实上,这里模型的回复更像是前面句子U1的回复,而不是句子U2 的回复,这是指标很难去区分的。
从上面的实验分析可以看到,GRADE和人工打分有着更强的相关度,同时能够泛化到训练时没见过的数据集。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (10)

1.一种基于图表征增强的开放域对话系统评估方法,其特征在于:所述的方法包括步骤如下:
S1:获取对话的上下文c={c1,…,cm}和对话的回复r={r1,…,rn},其中,ck1表示上下文中的一个词,其中k1=1、2、…、m,rk2表示回复中的一个词,k2=1、2、…、n;
S2:采用BERT编码上下文c和回复r,取BERT池化层的输出特征作为句子级别的上下文表征vc,其中vc=BERT(c,r);
S3:基于上下文c和回复r对当前对话构建主题级别的对话图,表示为G=(V,E),其中,V表示主题节点的集合,E表示主题之间的边的集合;
S4:根据从常识图ConceptNet获取的线索确认对话图G中的节点和边,并通过聚合、融合这两个步骤进行图推理,生成一个主题级别的对话图表征vg;所述的线索包括k跳邻居节点表示、hop-attention权重矩阵;
S5:将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,将一个高维表征转化为一个分数值,实现基于vc和vg预测得到一个连贯性的分数。
2.根据权利要求1所述的基于图表征增强的开放域对话系统评估方法,其特征在于:步骤S3,基于上下文c和回复r对当前对话构建主题级别的对话图,具体的如下:
对于对话图G中的节点,利用TF-IDF和词性信息对c和r之中的关键字进行提取;上下文c中的关键字构成对话图G中的上下文主题节点,标记为Vc={t1,t2,…,tp};回复r中的关键字构成G中的回复主题节点,标记为Vr={tp+1,tp+2,…,tp+q},其中,p表示上下文c中关键字的数量,q表示回复r中关键字的数量;由此得到对话图G中的节点V=Vc∪Vr
3.根据权利要求2所述的基于图表征增强的开放域对话系统评估方法,其特征在于:在确定对话图G中的节点后,利用从常识图ConceptNet获取线索,去初始化对话图G中的节点的特征表示,具体如下:
每个主题节点ti和常识图ConceptNet中的节点进行对齐,同时使用ConceptNetNumberbatch预训练表征进行表征初始化,表达公式如下:
hi=CN(ti)∈Rd
其中,i∈[1,p+q],hi是节点ti的初始化表征,CN表示常识图ConceptNet表征,d表示节点表征的维度。
4.根据权利要求3所述的基于图表征增强的开放域对话系统评估方法,其特征在于:为了捕捉现实生活中的话题关系,hi采用在常识图ConceptNet中k跳邻居节点的表征用如下方式进行更新:
Figure RE-FDA0002899596270000021
Figure RE-FDA0002899596270000022
其中,K表示最大数量的跳数;
Figure RE-FDA0002899596270000023
表示ti在常识图ConceptNet中kth跳的邻居节点,Wk和b分别表示权重矩阵和偏置向量。
5.根据权利要求4所述的基于图表征增强的开放域对话系统评估方法,其特征在于:由于边只存在于每一个上下文主题节点Vc i和每一个回复主题节点
Figure RE-FDA0002899596270000024
之间,因此把对话图G当作一个加权无向图,对对话图G的每条边用常识图ConceptNet的跳数信息做为边的权重,所述的跳数信息指的是边的两个节点在常识图ConceptNet中的距离;具体地,
首先计算Vc i
Figure RE-FDA0002899596270000025
之间的跳数,寻找上下文主题节点Vc i与回复主题节点
Figure RE-FDA0002899596270000026
在常识图ConceptNet的最短路径;把对话图G的权重邻接矩阵记为A,A中的每个元素的计算公式如下:
Figure RE-FDA0002899596270000027
其中,A[i][j]表示节点ti和节点tj之间的边的hop-attention权重值;#hops()表示两个节点在conceptnet常识图里面的跳数。
6.根据权利要求5所述的基于图表征增强的开放域对话系统评估方法,其特征在于:在确定边后,还对权重邻接矩阵A进行正则化,正则化公式如下:
Figure RE-FDA0002899596270000028
其中,
Figure RE-FDA0002899596270000029
表示增强后的正则化邻接矩阵,D表示邻接表A的对应的度矩阵,I表示的是单位矩阵。
7.根据权利要求6所述的基于图表征增强的开放域对话系统评估方法,其特征在于:构建主题级别的对话图G进行图推理,进而显示地建模主题的动态变换,通过聚合和融合两个步骤进行图推理;其中通过聚合进行图推理具体如下:
采用图注意力网络聚合每一个节点ti的邻居信息,节点ti在第l层的聚合表征
Figure RE-FDA0002899596270000031
公式如下:
Figure RE-FDA0002899596270000032
Figure RE-FDA0002899596270000033
Figure RE-FDA0002899596270000034
其中,Ni表示在对话图G中节点ti的邻居节点,Wl∈Rd×d和al∈R2d是可学习的参数;αij是注意力系数,σ是sigmoid激活函数,ρ是LeakyReLU,同时·T表示转置;eij表示通过将正则化邻接矩阵
Figure RE-FDA0002899596270000035
与对话图G中的节点间得的注意力值相乘,得到注意力系数。
8.根据权利要求7所述的基于图表征增强的开放域对话系统评估方法,其特征在于:通过融合进行图推理,具体如下:
将聚合得到的表征zi和ith个节点的表征
Figure RE-FDA0002899596270000036
进行更新,得到更新后的节点表征
Figure RE-FDA0002899596270000037
其公式如下:
Figure RE-FDA0002899596270000038
其中,Vl∈Rd×d是用于转换
Figure RE-FDA0002899596270000039
的权值矩阵;ELU表示指数级线性单元;
最终,主题级的对话图表征通过如下公式转换得到:
Figure RE-FDA00028995962700000310
其中,
Figure RE-FDA00028995962700000311
表示最后一层神经网络的ith个节点表征;mean表示均匀池化,FC0表示带着一个ELU激活函数的全连接层。
9.根据权利要求8所述的基于图表征增强的开放域对话系统评估方法,其特征在于:步骤S5,将上下文表征vc和对话图表征vg进行拼接,输入到多层感知器,进而将一个高维表征转化为一个分数值,公式如下:
s=FC3(FC2(FC1([vc;vg])))
其中,FC1、FC2、FC3表示三个不同的全连接层,对应的激活函数分别是:ELU、ELU和sigmoid。
10.根据权利要求1~9任一项所述的基于图表征增强的开放域对话系统评估方法,其特征在于:通过无监督的方式训练所述的方法,根据上下文ci采用负采样策略选择得到的负样本
Figure RE-FDA0002899596270000041
通过最小化下方的边界排序损失,使得对每个正样本ri的分数高于对应负样本
Figure RE-FDA0002899596270000042
的分数;
Figure RE-FDA0002899596270000043
其中,Ν表示数据集的大小,m表示边界值,si表示ith个正样本ri的连贯性分数,
Figure RE-FDA0002899596270000044
表示ith个负样本
Figure RE-FDA0002899596270000045
的连贯性分数。
CN202011249658.8A 2020-11-10 2020-11-10 一种基于图表征增强的开放域对话系统评估方法 Pending CN112417112A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011249658.8A CN112417112A (zh) 2020-11-10 2020-11-10 一种基于图表征增强的开放域对话系统评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011249658.8A CN112417112A (zh) 2020-11-10 2020-11-10 一种基于图表征增强的开放域对话系统评估方法

Publications (1)

Publication Number Publication Date
CN112417112A true CN112417112A (zh) 2021-02-26

Family

ID=74781366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011249658.8A Pending CN112417112A (zh) 2020-11-10 2020-11-10 一种基于图表征增强的开放域对话系统评估方法

Country Status (1)

Country Link
CN (1) CN112417112A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113204627A (zh) * 2021-05-13 2021-08-03 哈尔滨工业大学 利用DialoGPT作为特征标注器的对话摘要生成系统
CN113239147A (zh) * 2021-05-12 2021-08-10 平安科技(深圳)有限公司 基于图神经网络的智能会话方法、系统及介质
CN117422118A (zh) * 2023-11-17 2024-01-19 中南大学 一种面向任务型对话中一致性识别的模型化预训练方法、系统及介质
WO2024036840A1 (zh) * 2022-08-16 2024-02-22 之江实验室 基于主题增强的开放域对话回复方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522545A (zh) * 2018-10-11 2019-03-26 华东师范大学 一种对多轮对话连贯性质量的评估方法
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109522545A (zh) * 2018-10-11 2019-03-26 华东师范大学 一种对多轮对话连贯性质量的评估方法
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN110609891A (zh) * 2019-09-18 2019-12-24 合肥工业大学 一种基于上下文感知图神经网络的视觉对话生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LISHAN HUANG 等: "《Automatic Graph-Enhanced Coherence Metric for Evaluating Open-Domain Dialogue Systems》", "HTTPS://ARXIV.ORG/PDF/2010.03994.PDF", pages 1 - 11 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239147A (zh) * 2021-05-12 2021-08-10 平安科技(深圳)有限公司 基于图神经网络的智能会话方法、系统及介质
CN113204627A (zh) * 2021-05-13 2021-08-03 哈尔滨工业大学 利用DialoGPT作为特征标注器的对话摘要生成系统
WO2024036840A1 (zh) * 2022-08-16 2024-02-22 之江实验室 基于主题增强的开放域对话回复方法及系统
CN117422118A (zh) * 2023-11-17 2024-01-19 中南大学 一种面向任务型对话中一致性识别的模型化预训练方法、系统及介质

Similar Documents

Publication Publication Date Title
CN109844743B (zh) 在自动聊天中生成响应
CN112417112A (zh) 一种基于图表征增强的开放域对话系统评估方法
CN111444709A (zh) 文本分类方法、装置、存储介质及设备
Abro et al. Natural language understanding for argumentative dialogue systems in the opinion building domain
Al Khatib et al. Exploiting personal characteristics of debaters for predicting persuasiveness
CN112989033B (zh) 基于情绪类别描述的微博情绪分类方法
CN112231491B (zh) 基于知识结构的相似试题识别方法
Liu et al. Check me if you can: Detecting ChatGPT-generated academic writing using CheckGPT
del Gobbo et al. Automatic evaluation of open-ended questions for online learning. A systematic mapping
Ho et al. Wikiwhy: Answering and explaining cause-and-effect questions
Caliñgo et al. Prediction Model of the Stock Market Index Using Twitter Sentiment Analysis
Birla et al. Automated assessment of subjective assignments: A hybrid approach
CN115910345A (zh) 一种心理健康测评智能预警方法及存储介质
Maathuis et al. Social Media Manipulation Deep Learning based Disinformation Detection
CN114443846A (zh) 一种基于多层级文本异构图的分类方法、装置及电子设备
Sun Artificial intelligence powered personality assessment: A multidimensional psychometric natural language processing perspective
Zhang et al. External correlates of adult digital problem-solving behavior: Log data analysis of a large-scale assessment
Wu et al. InsertGNN: Can Graph Neural Networks Outperform Humans in TOEFL Sentence Insertion Problem?
Prasad et al. Polarity Sentiment-Based Intelligent Chat Bot For Judicious Customer Service Escalation
Bhaumik et al. Adapting Emotion Detection to Analyze Influence Campaigns on Social Media
Kabra et al. Attention-Emotion-Embedding BiLSTM-GRU network based sentiment analysis
Liu et al. Sarcasm driven by sentiment: A sentiment-aware hierarchical fusion network for multimodal sarcasm detection
Mednini et al. Natural language processing for detecting brand hate speech
Jain et al. SentiGames-A Game Theoretic Approach To Sentiment Analysis
Del-Pino et al. The importance of poverty in sustainability policies: an approach to understanding online opinion

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination