CN117828072A - 一种基于异构图神经网络的对话分类方法和系统 - Google Patents
一种基于异构图神经网络的对话分类方法和系统 Download PDFInfo
- Publication number
- CN117828072A CN117828072A CN202311463653.9A CN202311463653A CN117828072A CN 117828072 A CN117828072 A CN 117828072A CN 202311463653 A CN202311463653 A CN 202311463653A CN 117828072 A CN117828072 A CN 117828072A
- Authority
- CN
- China
- Prior art keywords
- dialogue
- nodes
- node
- neural network
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 27
- 239000013598 vector Substances 0.000 claims abstract description 25
- 238000003062 neural network model Methods 0.000 claims abstract description 23
- 238000002360 preparation method Methods 0.000 claims abstract description 11
- 230000002159 abnormal effect Effects 0.000 claims abstract description 5
- 238000013461 design Methods 0.000 claims description 21
- 238000003860 storage Methods 0.000 claims description 16
- 238000004590 computer program Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 12
- 238000010276 construction Methods 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 230000008034 disappearance Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 2
- 230000008901 benefit Effects 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 238000013145 classification model Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013434 data augmentation Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011423 initialization method Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000000275 quality assurance Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于异构图神经网络的对话分类方法和系统,包括:数据准备:收集对话数据集,并将对话划分为句子节点和词节点。根据对话数据集构建异构图;为每个节点初始化隐藏状态,使用基于BERT的嵌入来捕获丰富的语义信息,使用节点特征作为初始表示向量。构建异构图神经网络模型;更新节点;进行对话分类。本发明的优点是:具有捕捉细微差别的语言模式、上下文依赖关系和跨对话不断变化的用户意图的能力,提升了对话分类的准确性和效果。
Description
技术领域
本发明涉及机器学习技术领域,特别涉及一种基于异构图神经网络的对话分类方法和系统。
背景技术
近年来,对话系统被广泛应用于客户服务、在线健康咨询、聊天机器人等领域。对话分类的目的是为整个对话分配预定义的标签,是许多应用的基本任务,包括对话主题识别、客户满意度分析、服务质量等。
现有的对话系统分类研究大多侧重于用户在对话中每一轮的意图。这些方法将句子级用户对话作为输入,并输出预测的意图,但并不适合对文档级的整个对话进行分类,因为对话中的句子是要借助对话中所有信息的上下文来理解的。对扩展上下文的依赖性要求分类过程必须将大量对话语句视为输入,并将其作为一个整体进行分类。
解决上述问题的直接方法是将整个对话视为文档,并使用文档分类方法。这类方法要么将句子串联成一个长序列,要么将句子分层组合。主要的挑战在于,对话可能包含多个语义主题,其中一些与应用任务的业务无关。这些不相关的主题被视为噪音,可能对分类模型预测正确结果毫无意义或具有误导性。现有技术很难识别对话中的噪音。
现有技术一
提出了在建立对话分类模型时,将对话中不同发言者之间的轮数引入考虑。通过学习“conversation-invariant speaker turn embeddings”来表示对话中不同发言者的转换,然后将这些学习到的发言者轮次嵌入与话语嵌入合并,以进行后续的对话分类任务。
现有技术一的缺点
现有技术一主要关注对话中的发言者转换以及话语内容,但在对话行为分类任务中,对话的流程和上下文也是重要的信息来源。使用发言者转换嵌入来表示对话中不同发言者之间的转换,但这种表示可能无法完全捕捉到发言者之间的复杂关系。该方法没有明确考虑对话的全局结构和上下文依赖关系,可能限制了模型对对话整体语义的理解和建模能力。
现有技术二
现有技术二使用数据增强技术在已有的小数据集上进行改进,结合可视化探索数据的方法进行数据集的增强。主要使用的数据增强技术有释义重述和回译。
释义重述是指以不同但等效的方式重新表述句子或短语。这可以由人工标注者手动完成,也可以使用NLP工具自动完成。通过释义重述训练数据,可以增加其多样性,为模型提供同一概念的更多不同示例。这有助于模型更好地泛化和学习更稳健的表示。
回译是将句子从一种语言翻译为另一种语言,然后再翻译回原语言。这可以引入数据的变化,帮助模型学会处理表达相同意义的不同方式。例如,如果有一句英文句子,你可以将其翻译成法语,然后再翻译回英文。结果的句子可能与原始句子不完全相同,但传达了相同的意思。
现有技术二的缺点
使用的数据集较少:小规模的数据集可能会限制模型的泛化能力,尤其是在复杂的数据可视化探索任务中。较小的数据集可能无法涵盖到所有可能的对话情境和语言变化,可能导致模型在实际应用中的性能下降。
数据增强的依赖:为了弥补数据集的规模限制,使用了数据增强技术,然而,数据增强并不总是能够准确地模拟真实数据的各种变化和复杂性。过度依赖于数据增强可能导致模型在面对真实场景中的对话时表现不佳。
对话行为解释的主观性:考虑到思考过程对对话行为解释的影响,并试图捕捉这种信息。然而,对话行为的解释和理解往往具有一定的主观性,因为解释可能因人而异。这种主观性可能导致在对话行为分类任务中存在一定的不确定性和模糊性。
现有技术三
使用一种基于重新取样的长文本分割方法,用于从对话文本中删除冗余信息,同时解决在BERT模型中输入长度的限制问题。
现有技术三的缺点
切分对话可能会破坏原始对话的连贯性和语义一致性,特别是当对话之间存在复杂的依赖关系和上下文信息时,一些重要的语境信息会丢失,从而影响模型对对话意图和上下文的理解。因此,切分方法可能会导致模型对对话整体语义的损失。
发明内容
本发明针对现有技术的缺陷,提供了一种基于异构图神经网络的对话分类方法和系统。
为了实现以上发明目的,本发明采取的技术方案如下:
一种基于异构图神经网络的对话分类方法,包括以下步骤:
S1:数据准备:收集对话数据集,并将对话划分为句子节点和词节点。对每个节点,提取相应的特征,包括:词向量、句子向量、对话特征。
S2:构建异构图:根据对话数据集构建异构图,其中单词节点、句子节点和对话节点分别作为图的节点,节点之间的连接关系根据上下文语义确定。
S3:初始化节点表示:为每个节点初始化隐藏状态,使用基于BERT的嵌入来捕获丰富的语义信息,使用节点特征作为初始表示向量。
S4:异构图神经网络模型设计:
设计图注意力层:根据异构图的结构,设计多头图注意力层,利用可学习的线性变换将隐藏状态进行线性变换,计算节点之间的注意力权值,得到节点之间的注意力分数。
引入边权重:修改图注意力层,计算并引入边权重,并将其映射到多维嵌入中。
引入残差连接:在图注意力层的输出和输入之间添加残差连接。
引入前馈网络:在每个图注意力层之后引入前馈网络。
S5:节点更新:
对话节点和句子节点更新:根据连接的词节点,通过异构图神经网络模型中的图注意力层和前馈网络,更新对话节点和句子节点的表示。
词节点更新:通过新的对话节点和句子节点更新词节点的表示。
S6:对话分类:
使用分类器对对话节点进行分类,确定整个对话的标签。
使用交叉熵损失对异构图神经网络模型进行优化。
进一步地,S2构建异构图中包括:
定义节点集:节点集V由三个部分组成:单词节点集Vw,句子节点集Vs和对话节点集Vc。单词节点集Vw包含了对话中的所有唯一单词,句子节点集Vs对应对话中的每个句子,对话节点集Vc包含一个对话节点。
定义边集:定义一个实值边权矩阵边集E,其中每条边eij(i∈[1,m],j∈[0,n])表示第j个句子包含第i个单词。
对话节点连接:对话节点Vc连接到所有单词节点,表示对话节点与所有单词之间的关系。
进一步地,S3初始化节点表示具体如下:
输入特征矩阵:输入特征矩阵包括表示单词、句子和对话节点的Xw,Xs和Xc。这些矩阵的维度分别为m×dw、n×ds和n×dc,其中dw、ds和dc是指词嵌入、句子表示向量和对话表示向量的维度。
基于BERT的嵌入:使用基于BERT的嵌入来获取单词、句子和对话节点的初始表示。将文本序列转换为高维向量表示。通过将输入特征矩阵作为BERT的输入,获得单词、句子和对话节点的初始表示向量。
使用TF-IDF值来初始化边的权重。通过将TF-IDF值分配给边的权重,捕获图结构中节点之间连接的重要性。
进一步地,S4异构图神经网络模型设计中图注意力层的设计如下:
αij=softmax(LeakyReLU(Wa[Wqhi;Wkhj])) (1)
其中Wa、Wq、Wk、Wv为可学习的线性变换矩阵,αij为hi与hj之间的注意力权值。
多头注意力机制表示为:
进一步地,S4异构图神经网络模型设计中引入残差连接,将GAT层的输出与输入进行相加,以避免梯度消失,公式如下:
h′i=ui+hi (4)
进一步地,S4异构图神经网络模型设计中引入边权重,具体为:
修改了GAT层,注入标量边权eij,并将其映射到多维嵌入中。因此,将式1修改为:
Zij=LeakyReLU(Wa[Wqhi;Wkhj;eij]) (5)
进一步地,S4异构图神经网络模型设计中引入前馈网络具体为:
在每个GAT层之后引入一个前馈网络,该前馈网络包含两个线性层,具体如下:
FFN(x)=ReLU(xW1+b1)W2+b2 (6)
进一步地,S5中对话节点和句子节点更新,公式如下:
式中H0 w=Xw,H0 s=Xs,U1s←w∈Rm×dh。GAT()表示以H0 s作为注意力机制中的Q向量,H0 w作为K和V向量。
词节点更新,公式如下:
本发明还公开了一种对话分类系统,该系统能够用于实施上述的一种基于异构图神经网络的对话分类方法,具体的,包括:数据准备模块、异构图神经网络模型和结果输出模块;
数据准备模块:收集对话数据集,并将对话划分为句子节点和词节点。提取节点的特征。
异构图神经网络模型,包括以下子模块:
DialGraph Construction模块:将给定的对话转换为异构图。这个图可以捕获单词、句子和整个对话结构之间的复杂关系。
Node Representation模块:初始化DialGraph中的节点表示。使用基于BERT的嵌入来捕获丰富的语义信息,为图提供有意义和信息丰富的节点表示。
Heterogeneous Graph Network模块:对DialGraph进行编码。使用图注意力网络来捕获图中节点之间的相关依赖关系和交互。通过更新节点的表示,增强了图有效处理下游任务的能力。
对话节点输入分类器:将对话节点输入分类器中进行分类,确定整个对话的标签。使用交叉熵损失对模型进行优化。
结果输出模块:将对话的分类结果以可读性高的形式呈现给用户或其他系统使用。
本发明还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述一种基于异构图神经网络的对话分类方法。
本发明还公开了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述一种基于异构图神经网络的对话分类方法。
与现有技术相比,本发明的优点在于:
1.考虑了对话的复杂结构:对话通常包含句子、词语以及它们之间的关系,异构图神经网络能够捕捉到这些复杂的关系,从而更好地理解和分类对话。
2.融合了丰富的语义信息:通过使用基于BERT的嵌入,异构图神经网络可以为节点提供丰富的语义信息,从而提升对话分类的准确性和效果。
3.处理多层次特征关系:异构图神经网络可以同时考虑不同层次的特征关系,例如词语之间的关系、句子之间的关系以及整个对话的结构,从而全面地捕获对话的特征。
4.考虑了节点之间的交互关系:通过使用图注意力网络,异构图神经网络可以学习节点之间的相关依赖关系和交互,从而提升对话分类的准确性和泛化能力。
5.性能优越:具有捕捉细微差别的语言模式、上下文依赖关系和跨对话不断变化的用户意图的能力。具备了应对现实世界应用程序的挑战的潜力,例如增强对话理解、客户满意度分析、服务质量保证和对话主题分类等领域。
附图说明
图1是本发明实施例异构图神经网络框架图;
图2是本发明实施例DialGraph Construction模块结构图;
图3是本发明实施例Node Representation模块结构图;
图4是本发明实施例中国移动数据集(CM)和电子商务客户服务数据集(ECS)的统计情况图;
图5是本发明实施例使用不同序列编码器的基线模型进行了比较的实验结果图;
图6是本发明实施例使用和不使用本发明方法的不同序列编码器的比较结果图;
图7是本发明实施例中国移动数据集上使用预训练模型的各种图形设计的性能评估图;
图8是本发明实施例实验结果汇总图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下根据附图并列举实施例,对本发明做进一步详细说明。
如图1所示,本实施例提出了一个为对话分类问题量身定制的异构图神经网络框架(DialGNN),包含DialGraph Construction、Node Representation和HeterogeneousGraph Network三个基本模块。
首先,将完整对话输入模型,DialGraph Construction模块通过将给定的对话转换为异构图。这个图可以捕获单词、句子和整个对话结构之间的复杂关系。通过以这种方式表示对话,DialGNN获得了对其潜在动态的全面理解。
Node Representation模块承担初始化DialGraph中的节点表示的任务。这是通过使用基于BERT的嵌入来实现的,这些嵌入是预先训练的上下文表示,能够捕获丰富的语义信息。通过这个初始化过程,节点表示模块为图提供了有意义和信息丰富的节点表示。
Heterogeneous Graph Network模块是异构图网络,负责对DialGraphConstruction生成的异构图进行编码。它使用图注意力网络来捕获图中节点之间的相关依赖关系和交互。通过基于这些学习到的关系更新节点的表示,异构图网络模块增强了图有效处理下游任务的能力。将对话节点输入分类器中进行分类,确定整个对话的标签,并利用交叉熵损失对模型进行优化。
DialGraph Construction模块:
如图2所示,本实施例构建了一个包含词节点、句子节点和对话节点的异构图DialGraph。句子节点和词节点之间的边表示包含关系。然后从句与词之间的关系中可以推导出更多不同句子之间的隐含关系,如共现、语义距离、词频等。受BERT中[CLS]标签使用的启发,增加了第0个句子节点作为对话节点,而不是使用句子节点嵌入的池化层。形式上,异构图DialGraph定义如下。
给定一个对话C={s1,s2,…,sn},则表示DialGraph为G={V,E},其中V=Vw∪Vs∪Vc,E={e10,e11,…,emn}分别表示节点集和边集。这里,Vw={w1,w2,…,wm}表示m个唯一单词,Vs对应n个句子,Vc为对话节点。E是一个实值边权矩阵,eij(i∈[1,m],j∈[0,n])表示第j个句子包含第i个单词。需要注意的是,对话节点Vc连接到所有单词节点。
Node Representation模块:
将Xw∈R m×dw、Xs∈R n×ds和Xc∈R n×dc分别作为表示单词、句子和会话节点的输入特征矩阵。这里,dw、ds和dc分别是指词嵌入、句子表示向量和对话表示向量的维度。
在这里,本实施例使用基于BERT的嵌入来获得单词、句子和对话的初始化表示。注意,也可以使用其他嵌入模型和其他预训练的语言模型。
为了结合节点之间关系的不同重要性,本实施例使用TF-IDF(Term Frequency-inverse Document Frequency)值来初始化边的权重。TF-IDF是自然语言处理中常用的统计度量,用于评估文档中某个术语相对于文档集合的重要性。通过分配TF-IDF值作为边缘权重,本实施例可以捕获图结构中节点之间连接的重要性。
Heterogeneous Graph Network模块:
如图3所示,给定具有节点特征Xw∪Xs∪Xc的构造的DialGraph,本实施例利用图注意网络来更新节点的表示。
设hi∈Rdh,i∈[0,m+n]为输入节点的隐藏状态。图注意(GAT)层的设计如下:
αij=softmax(LeakyReLU(Wa[Wqhi;Wkhj])) (1)
其中Wa、Wq、Wk、Wv为可学习的线性变换矩阵,αij为hi与hj之间的注意力权值。
多头注意力机制可以表示为:
此外,本实施例还增加了残差连接以避免梯度消失。因此,最终输出可表示为:
h′i=ui+hi (4)
此外,本实施例修改了GAT层,引入标量边权eij,并将其映射到多维嵌入中。因此,将式1修改为:
Zij=LeakyReLU(Wa[Wqhi;Wkhj;eij]) (5)
在每个GAT层之后,本实施例引入一个前馈网络,该网络包含两个线性层,称为Transformer
FFN(x)=ReLU(xW1+b1)W2+b2 (6)
在训练阶段,对话节点、句子节点和词节点的表示交替更新。因为对话节点可以看作是与所有单词相连的第0个句子。对话节点的更新过程与句子节点的更新过程相同。因此,训练的一次迭代包括句子到单词的更新过程和单词到句子的更新过程。
在词到句的更新过程中,对话节点和句子节点在第t次迭代中通过GAT和FFN层根据它们连接的词节点进行更新,如下所示:
式中H0 w=Xw,H0 s=Xs,U1s←w∈Rm×dh。GAT()表示以H0 s作为注意力机制中的Q向量,H0 w作为K和V向量。
然后在句到词的更新过程中,通过新的对话节点和句子节点更新词节点。
最后,用分类器对对话节点进行分类,确定整个对话的标签,并利用交叉熵损失对模型进行优化。
实验
本实施例使用两个数据集进行实验:中国移动数据集(CM)和电子商务客户服务数据集(ECS)。CM是一个客户与服务人员之间电话对话的数据集,其目标是识别客户所要求的业务类型。ECS是客户与卖家、员工或人工智能系统之间在线聊天对话的数据集,其目标是对对话行为或情绪进行分类。
如图4所示,是两个数据集的统计情况:
为了评估本实施例提出的框架的性能,本实施例将其与几个使用不同序列编码器的基线模型进行了比较,实验结果如图5。其中,DialGNN(BERT)表示BERT模型与DialGNN结框架(随后称为DialGNN)的合并。
以上实验结果表明,DialGNN在CM数据集上表现出色,准确率达70.2%,F1得分为59.3%,表明其有效捕捉复杂对话语言的能力。在ECS数据集上表现也很出色,准确率达60.3%,F1得分54.9%,主要是因为DialGNN结构对上下文建模的关键作用。
这些结果凸显了传统模型如TextRNN、TextCNN和CNN LSTM的局限性,它们在CM和ECS数据集上表现较差。与BERT、Roberta和ERNIE相比,DialGNN的异构图架构在对话分类方面表现更出色,特别是在理解对话流程、追踪主题变化和捕捉用户意图方面。
然而,DAG模型在ECS数据集上表现不佳,因为其设计与对话分类任务不匹配。DAG模型主要针对单个句子进行分类,而这些数据集要求对话级别的分类。
为了进一步验证DialGNN的泛化性,本实施例比较了使用和不使用DialGNN的不同序列编码器的比较结果(图6)。可以发现,对于所有的基线模型,结合DialGNN都取得了显著的改善。即使在强基线模型BERT上,DialGNN在CM和ECS据上也都提高了很多分数。
图7显示了在中国移动数据集上使用预训练模型的各种图形设计的性能评估。比较模型组件内不同的设计,包括具有上下文关系建模、异步初始化和没有对话节点的设计。比较的结果表明,使用不合适的图设计无法有效地捕获和合并数据中存在的上下文关系,导致预训练模型表示的能力和理解中国移动数据集的能力下降。
研究结果表明,在中国移动数据集中,涉及上下文关系建模、异步初始化和包含对话节点的方法对于保持预训练模型的完整性和有效性至关重要。通过利用这些设计元素,模型可以充分利用预训练,并在捕捉数据集的复杂性方面取得更好的性能。
为了验证各组件的贡献,本实施例设计了一系列实验来观察性能,结果汇总在图8中,w/o表示该组件未包含在模型中。
图8中给出的结果表明,边缘权重的TF-IDF初始化方法显著提高了系统的整体性能。
此外,发现句子到单词和单词到句子的更新步骤都在DialGNN系统的功能中发挥着至关重要的作用。通过确保双向和迭代的更新过程,这些步骤使系统能够从句子级和单词级表示中捕获和纳入相关信息。
本实施例引入了创新的DialGNN框架,该框架利用异构图神经网络来更加深入地理解多轮对话。所提出框架提供了与各种编码器的通用兼容性,并展示了增强其性能的潜力。所进行的大量实验展示了DialGNN在对话理解方面的功效,DialGNN捕捉细微差别的语言模式、上下文依赖关系和跨对话不断变化的用户意图的能力,使其成为一个健壮且适应性强的框架,具有推进无数现实世界应用程序的潜力。该研究是对话系统持续发展的关键一步,为增强对话理解、客户满意度分析、服务质量保证和对话主题分类奠定了良好的基础。
本发明再一个实施例中,提供了一种对话分类系统,该系统能够用于实施上述的一种基于异构图神经网络的对话分类方法,具体的,包括:数据准备模块、异构图神经网络模型和结果输出模块;
数据准备模块:收集对话数据集,并将对话划分为句子节点和词节点。提取节点的特征。
异构图神经网络模型,包括以下子模块:
DialGraph Construction模块:将给定的对话转换为异构图。这个图可以捕获单词、句子和整个对话结构之间的复杂关系。
Node Representation模块:初始化DialGraph中的节点表示。使用基于BERT的嵌入来捕获丰富的语义信息,为图提供有意义和信息丰富的节点表示。
Heterogeneous Graph Network模块:对DialGraph进行编码。使用图注意力网络来捕获图中节点之间的相关依赖关系和交互。通过更新节点的表示,增强了图有效处理下游任务的能力。
对话节点输入分类器:将对话节点输入分类器中进行分类,确定整个对话的标签。使用交叉熵损失对模型进行优化。
结果输出模块:将对话的分类结果以可读性高的形式呈现给用户或其他系统使用。还可以包括其他功能,例如生成可视化的分类结果图表或报告,提供对分类结果的解释或建议,以及将分类结果与其他系统集成等。
本发明再一个实施例中,提供了一种终端设备,该终端设备包括处理器以及存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器用于执行所述计算机存储介质存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其是终端的计算核心以及控制核心,其适于实现一条或一条以上指令,具体适于加载并执行一条或一条以上指令从而实现相应方法流程或相应功能;本发明实施例所述的处理器可以用于一种基于异构图神经网络的对话分类方法的操作,包括以下步骤:
S1:数据准备:收集对话数据集,并将对话划分为句子节点和词节点。对每个节点,提取相应的特征。
S2:构建异构图:根据对话数据集构建异构图。
S3:初始化节点表示:为每个节点初始化隐藏状态,使用基于BERT的嵌入来捕获丰富的语义信息,使用节点特征作为初始表示向量。
S4:异构图神经网络模型设计;
S5:节点更新;
S6:对话分类。
本发明再一个实施例中,本发明还提供了一种存储介质,具体为计算机可读存储介质(Memory),所述计算机可读存储介质是终端设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机可读存储介质既可以包括终端设备中的内置存储介质,当然也可以包括终端设备所支持的扩展存储介质。计算机可读存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器加载并执行的一条或一条以上的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机可读存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。
可由处理器加载并执行计算机可读存储介质中存放的一条或一条以上指令,以实现上述实施例中有关一种基于异构图神经网络的对话分类方法的相应步骤;计算机可读存储介质中的一条或一条以上指令由处理器加载并执行如下步骤:
S1:数据准备:收集对话数据集,并将对话划分为句子节点和词节点。
S2:构建异构图:根据对话数据集构建异构图。
S3:初始化节点表示:为每个节点初始化隐藏状态,使用基于BERT的嵌入来捕获丰富的语义信息,使用节点特征作为初始表示向量。
S4:异构图神经网络模型设计;
S5:节点更新;
S6:对话分类。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的实施方法,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。
Claims (10)
1.一种基于异构图神经网络的对话分类方法,其特征在于,包括以下步骤:
S1:数据准备:收集对话数据集,并将对话划分为句子节点和词节点;对每个节点,提取相应的特征,包括:词向量、句子向量、对话特征;
S2:构建异构图:根据对话数据集构建异构图,其中单词节点、句子节点和对话节点分别作为图的节点,节点之间的连接关系根据上下文语义确定;
S3:初始化节点表示:为每个节点初始化隐藏状态,使用基于BERT的嵌入来捕获丰富的语义信息,使用节点特征作为初始表示向量;
S4:异构图神经网络模型设计:
设计图注意力层:根据异构图的结构,设计多头图注意力层,利用可学习的线性变换将隐藏状态进行线性变换,计算节点之间的注意权值,得到节点之间的注意力分数;
引入边权重:修改图注意力层,计算并引入边权重,并将其映射到多维嵌入中;
引入残差连接:在图注意力层的输出和输入之间添加残差连接;
引入前馈网络:在每个图注意力层之后引入前馈网络;
S5:节点更新:
对话节点和句子节点更新:根据连接的词节点,通过异构图神经网络模型中的图注意力层和前馈网络,更新对话节点和句子节点的表示;
词节点更新:通过新的对话节点和句子节点更新词节点的表示;
S6:对话分类:
使用分类器对对话节点进行分类,确定整个对话的标签;
使用交叉熵损失对异构图神经网络模型进行优化。
2.根据权利要求1所述的一种基于异构图神经网络的对话分类方法,其特征在于:S2构建异构图中包括:
定义节点集:节点集V由三个部分组成:Vw,句子节点集Vs和对话节点集Vc,单词节点集Vw包含了对话中的所有唯一单词,句子节点集Vs对应对话中的每个句子,对话节点集Vc包含一个对话节点;
定义边集:定义一个实值边权矩阵边集E,其中每条边eij(i∈[1,m],j∈[0,n])表示第j个句子包含第i个单词;
对话节点连接:对话节点Vc连接到所有单词节点,表示对话节点与所有单词之间的关系。
3.根据权利要求1所述的一种基于异构图神经网络的对话分类方法,其特征在于:S3初始化节点表示具体如下:
输入特征矩阵:输入特征矩阵包括表示单词、句子和对话节点的Xw,Xs和Xc,这些矩阵的维度分别为m×dw、n×ds和n×dc,其中dw、ds和dc是指词嵌入、句子表示向量和对话表示向量的维度;
基于BERT的嵌入:使用基于BERT的嵌入来获取单词、句子和对话节点的初始表示;将文本序列转换为高维向量表示;通过将输入特征矩阵作为BERT的输入,获得单词、句子和对话节点的初始表示向量;
使用TF-IDF值来初始化边的权重;通过将TF-IDF值分配给边的权重,捕获图结构中节点之间连接的重要性。
4.根据权利要求1所述的一种基于异构图神经网络的对话分类方法,其特征在于:S4异构图神经网络模型设计中图注意力层的设计如下:
αij=softmax(LeakyReLU(Wa[Wqhi;Wkhj])) (1)
其中Wa、Wq、Wk、Wv为可学习的线性变换矩阵,αij为hi与hj之间的注意权值;
多头注意力机制表示为:
5.根据权利要求4所述的一种基于异构图神经网络的对话分类方法,其特征在于:S4异构图神经网络模型设计中引入残差连接,将GAT层的输出与输入进行相加,以避免梯度消失,公式如下:
h′i=ui+hi (4)
6.根据权利要求5所述的一种基于异构图神经网络的对话分类方法,其特征在于:S4异构图神经网络模型设计中引入边权重,具体为:
修改了GAT层,注入标量边权eij,并将其映射到多维嵌入中;因此,将式1修改为:
Zij=LeakyReLU(Wa[Wqhi;Wkhj;eij]) (5)。
7.根据权利要求6所述的一种基于异构图神经网络的对话分类方法,其特征在于:S4异构图神经网络模型设计中引入前馈网络具体为:
在每个GAT层之后引入一个前馈网络,该前馈网络包含两个线性项目层,具体如下:
FFN(x)=ReLU(xW1+b1)W2+b2 (6)。
8.根据权利要求1所述的一种基于异构图神经网络的对话分类方法,其特征在于:S5中对话节点和句子节点更新,公式如下:
式中H0 w=Xw,H0 s=Xs,U1s←w∈Rm×dh,GAT()表示以H0 s作为注意力机制中的Q向量,H0 w作为K和V向量;
词节点更新,公式如下:
9.一种对话分类系统,其特征在于:该系统能够用于实施权利要求1至8其中一项所述的对话分类方法,具体的,包括:数据准备模块、异构图神经网络模型和结果输出模块;
数据准备模块:收集对话数据集,并将对话划分为句子节点和词节点;提取节点的特征;
异构图神经网络模型,包括以下子模块:
DialGraph Construction模块:将给定的对话转换为异构图;这个图可以捕获单词、句子和整个对话结构之间的复杂关系;
Node Representation模块:初始化DialGraph中的节点表示;使用基于BERT的嵌入来捕获丰富的语义信息,为图提供有意义和信息丰富的节点表示;
Heterogeneous Graph Network模块:对DialGraph进行编码;使用图注意力网络来捕获图中节点之间的相关依赖关系和交互;通过更新节点的表示,增强了图有效处理下游任务的能力;
对话节点输入分类器:将对话节点输入分类器中进行分类,确定整个对话的标签;使用交叉熵损失对模型进行优化;
结果输出模块:将对话的分类结果以可读性高的形式呈现给用户或其他系统使用。
10.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,该程序被处理器执行时实现权利要求1至8其中一项所述的对话分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311463653.9A CN117828072A (zh) | 2023-11-06 | 2023-11-06 | 一种基于异构图神经网络的对话分类方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311463653.9A CN117828072A (zh) | 2023-11-06 | 2023-11-06 | 一种基于异构图神经网络的对话分类方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117828072A true CN117828072A (zh) | 2024-04-05 |
Family
ID=90504696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311463653.9A Pending CN117828072A (zh) | 2023-11-06 | 2023-11-06 | 一种基于异构图神经网络的对话分类方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117828072A (zh) |
-
2023
- 2023-11-06 CN CN202311463653.9A patent/CN117828072A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368996B (zh) | 可传递自然语言表示的重新训练投影网络 | |
CN111444709B (zh) | 文本分类方法、装置、存储介质及设备 | |
CN111597830A (zh) | 基于多模态机器学习的翻译方法、装置、设备及存储介质 | |
CN111143576A (zh) | 一种面向事件的动态知识图谱构建方法和装置 | |
Wen et al. | Dynamic interactive multiview memory network for emotion recognition in conversation | |
CN112183747A (zh) | 神经网络训练的方法、神经网络的压缩方法以及相关设备 | |
Zhao et al. | ZYJ123@ DravidianLangTech-EACL2021: Offensive language identification based on XLM-RoBERTa with DPCNN | |
CN111985205A (zh) | 一种方面级情感分类模型 | |
CN113704460B (zh) | 一种文本分类方法、装置、电子设备和存储介质 | |
Tripathy et al. | Comprehensive analysis of embeddings and pre-training in NLP | |
CN115221846A (zh) | 一种数据处理方法及相关设备 | |
CN109614611B (zh) | 一种融合生成非对抗网络与卷积神经网络的情感分析方法 | |
CN111538841B (zh) | 基于知识互蒸馏的评论情感分析方法、装置及系统 | |
CN111985243A (zh) | 情感模型的训练方法、情感分析方法、装置及存储介质 | |
WO2022228127A1 (zh) | 要素文本处理方法、装置、电子设备和存储介质 | |
Dai et al. | Weakly-supervised multi-task learning for multimodal affect recognition | |
CN116341519A (zh) | 基于背景知识的事件因果关系抽取方法、装置及存储介质 | |
CN108875024B (zh) | 文本分类方法、系统、可读存储介质及电子设备 | |
CN111767720B (zh) | 一种标题生成方法、计算机及可读存储介质 | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
WO2022085533A1 (ja) | 回答特定用テキスト分類器及び背景知識表現ジェネレータ及びその訓練装置、並びにコンピュータプログラム | |
Fergus et al. | Natural language processing | |
Singh et al. | Visual content generation from textual description using improved adversarial network | |
CN113705197A (zh) | 一种基于位置增强的细粒度情感分析方法 | |
CN117828072A (zh) | 一种基于异构图神经网络的对话分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |