CN118069839A

CN118069839A - 一种基于图神经网络的汉越跨语言事件检测方法

Info

Publication number: CN118069839A
Application number: CN202410138059.0A
Authority: CN
Inventors: 黄于欣; 杨源林; 余正涛; 线岩团
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2024-02-01
Filing date: 2024-02-01
Publication date: 2024-05-24

Abstract

本发明公开一种基于图神经网络的汉越跨语言事件检测方法。本发明利用汉越文本及文本中的关键词和实体之间的共现关系构建异构图，使用汉越跨语言知识图谱将描述同一实体的汉语和越南语节点对齐并建立连接，构建相应的边。将异构图转化为以文本为节点的同构图，然后图神经网络利用汉越文本之间的关系、汉越跨语言文本表征及事件信息对汉越文本进行重构。本发明采用对比学习的策略，通过调整文本向量空间中的表征，使描述相同事件的汉越文本文本聚合在特定的区域内，同时使描述不同事件的文本表征之间尽可能地彼此远离，最后使用kmeans对汉越文本进行聚类实现汉越跨语言事件检测。本发明在汉越跨语言事件检测数据集上达到了理想的结果。

Description

一种基于图神经网络的汉越跨语言事件检测方法

技术领域

本发明公开一种基于图神经网络的汉越跨语言事件检测方法，涉及自然语言处理技术领域。

背景技术

在自然语言处理任务中，事件检测是一个重要任务，旨在将描述相同事件的文本聚为相同的簇。汉越跨语言事件检测是事件检测的一个子任务，指将相同事件的汉越文本聚为同一事件簇。

汉越跨语言事件检测场景下，多语言预训练语言模型对描述相同事件的汉越文本映射和对齐效果不佳，导致汉越事件检测的聚类效果较差。因此如何利用汉越文本中的事件知识、文本关联关系提升汉越文本事件对齐效果，提高聚类效果是本发明的核心任务。

发明内容

本发明要解决的问题是：本发明提供一种基于图神经网路的汉越跨语言事件检测方法，进而提升聚类效果。

本发明的技术方案是：一种基于图神经网络的汉越跨语言事件检测方法，包括如下步骤：

Step1、实验数据集构建：构建实验所需的汉越跨语言事件检测数据集；

Step2、利用多语言预训练语言模型对汉越文本进行表征，同时通过时间嵌入算法获取时间嵌入，并将其与所得到的汉越文本表征拼接，形成初始文本表征；

Step3、利用汉越文本及文本中的关键词和实体之间的共现关系构建异构图，使用汉越跨语言知识图谱将描述同一实体的汉语和越南语节点对齐并建立连接，构建相应的边。将异构图转化为以文本为节点的同构图；

Step4、利用图注意力网络通过文本节点之间事件知识的权重，聚合文本节点以捕获汉越文本之间事件知识的关联关系，对汉越文本的初始表征进行重构；

Step5、在一个训练批次中，根据事件类型标签，为每一个汉越文本样本分别确定正例和负例；通过对比学习对重构后的汉越文本表征进行训练，对图注意力网络进行优化，以使描述相同事件的汉越文本更加内聚；

Step6、使用kmeans聚类算法，根据文本表征之间的距离汉越文本进行聚类，实现事件检测。

作为本发明的优选方案，所述Step1包括：

Step1.1、利用维基时事网站上若干个事件作为参考事件，构建事件关键词；

Step1.2、根据Step1.1构建的事件关键词在推特平台上爬取汉越若干条社交媒体文本，并根据参考事件对这些文本进行标注；

Step1.3、使用Jieba和Spacy两个工具分别对汉越文本进行分词和对文本中的人名、地名、组织机构名等进行提取并与文本形成最终的汉越跨语言事件检测数据集。

作为本发明的优选方案，所述Step2包括：

Step2.1多语言预训练语言模型能将汉越文本表征到同一语义空间；定义数据集大小为D,将长度为m的文本通过多语言预训练语言模型DistiUSE编码后得到文本语义表征T_w＝[W₁,...,W_m]；使用时间嵌入算法计算得到时间表征T_t＝[T_s,T_d]其中T_s表示文本毫秒级别表征、T_d表示文本天数级别表征。将文本语义表征T_w和时间表征T_t拼接得到T_f为该文本初始表征。多语言预训练语言模型使得将汉越文本表征到同一语义空间。

Step2.2、其中static_time是固定时间，Step2.1中文本毫秒级别的表征T_s计算方式为：

Step2.3、其中t_d为文本的发布时间，Step2.1文本天数级别的表征T_d计算方式为：

作为本发明的优选方案，所述Step3的具体实现包括：

Step3.1、使用汉语文本中的实体作为检索条件，在汉越跨语言知识图谱库中去检索相关越南语实体得到越南语实体候选集公式如下所示：

Set_vi＝search(KG(E_zh))

其中E_zh为中文实体，KG为汉越跨语言知识图谱，是候选集中实体，m为集中实体总个数，i∈[1,m]。利用实体候选集中越南语实体与文本中提取的越南语实体匹配，如果对应则建立越南语实体和中文检索实体之间的边。利用构图中汉越文本之间共同的实体和单语文本之间的共享关键词来建立汉越文本之间的权重关系，保留异构图中的事件知识和关联关系。

Step3.2、异构图映射为同构图方便对文本节点聚类，利用异构图中汉越文本之间共同的实体和单语文本之间的共享关键词来建立汉越文本之间的权重关系，保留异构图中的事件知识和关联关系；并计算同构图上中第i和j个节点之间的权重A_i,j,o为不同类型的信息，e为实体，k为关键词。异构图上第i个节点的权重系数矩阵W_oi:

作为本发明的优选方案，所述Step4的具体步骤为：

Step4.1、使用图注意力神经网络对图节点进行更新增强文本表征，提取深层语义信息和捕捉汉越文本之间的事件知识，从而为图聚类提供更丰富的信息。为了使用文本节点周围邻居节点之间的信息，需要计算节点之间的注意力分数α_i,j，来聚合节点之间的事件知识，其中a为前馈神经网络，W为可学习的参数，n_i和n_j代表第i和第j个节点，v_i为邻居节点集，LeakyReLU为激活函数，计算注意力分数公式如下:

Step4.2、在Step4.1的基础上使模型对注意力机制合理分配及图神经网络学习更稳定对于每个节点，使用了多头注意力机制，利用各自的注意权重来聚合相关节点，并将由每个注意头生成的节点表征进行拼接获得最终的节点表征p_i，K为多头注意力的数目，||为拼接操作：

作为本发明的优选方案，所述Step5的具体步骤为：

Step5.1、使用三元对比损失使描述不同事件的汉越文本表征尽可能相似，使用三元对比学习损失时需要对正负样本进行选取。正负样本选择如下，在一个训练批次内，根据事件标注标签为每一个训练样本找到一个正样本和一个负样本。其中正样本来自于同一批次中同一事件中的样本，负样本则来自于其他事件类的样本。

Step5.2、基于Step5.1方式建立了训练批次中的正负样本对其中p_i表示第i个锚点样本表征，/>为该锚点样本对应的正样本表征，/>为负样本表征，i是训练批次中的一个样本。D代表余弦距离，M为超参数，控制正负样本之间的边际，最后计算其三元对比损失：

作为本发明的优选方案，所述Step6的具体步骤为：

根据以上的步骤得到了汉越文本表征，最后使用Kmeans算法对汉越文本进行聚类得到不同的事件簇实现事件检测。

本发明有益效果：

本发明通过多语言预训练语言模型将汉越文本表征到同一语义空间中，使用汉越跨语言知识图谱构建汉越事件知识对齐关系和实体之间共现关系构建异构图建立汉越文本之间的关联关系，将异构图转化为文本同构图，利用图注意力网络建模和捕获汉越文本节点之间事件知识的关联关系，使用对比学习根据事件一致性使相同事件表征更接近。最终利用kmeans算法对文本聚类。

本发明提出的基于图神经网络的汉越跨语言事件检测方法优于传统的基线模型，验证了本发明方法对汉越跨语言事件检测任务的有效性。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

图1为本发明实施例提供的一种基于图神经网络的汉越跨语言事件检测方法整体框架图；

具体实施方式

为了更清楚地说明本发明实施例的技术方案，下面将结合附图对实施例对本发明进行详细说明。

首先利用维基时事网站和网络爬虫技术爬取社交媒体平台上汉越文本进行汉越跨语言事件检测数据集构建，使用多语言预训练语言模型对汉越文本进行嵌入并与时间嵌入拼接得到最终的文本嵌入，利用汉越文本及文本中的关键词和实体之间的共现关系构建异构图，使用汉越跨语言知识图谱将描述同一实体的汉语和越南语节点对齐并建立连接，构建相应的边。其次将异构图转化为以文本为节点的同构图，然后图神经网络利用汉越文本之间的关系、汉越跨语言文本表征及事件信息对汉越文本表征进行重构。最后，本发明采用对比学习的策略，通过调整文本向量空间中的表征，使描述相同事件的汉越文本文本聚合在特定的区域内，同时使描述不同事件的文本表征之间尽可能地远离彼此，最后使用kmeans对汉越文本进行聚类实现汉越跨语言事件检测。

下面结合具体实施例对本发明进行说明：

实施例1

如图1所示

Step1、实验数据集构建：构建实验所需的汉越跨语言事件检测数据集。

作为本发明的优选方案，所述Step1包括：

Step1.1、利用维基时事网站上2023年4月发生的重大事件作为标注来源，构建事件关键词。

Step1.2、利用Step1.1构建的事件关键词在推特平台上爬取汉越2052条社交媒体文本，并根据参考事件对汉越文本进行标注。

Step1.3、然后使用Jieba和Spacy两个工具分别对汉越文本进行分词和对文本中的人名、地名、组织机构名等进行提取并与文本形成最终的汉越跨语言事件检测数据集。

作为本发明的优选方案，所述Step2的具体步骤为：

Step2.1我们定义数据集大小为D,将长度为m的文本通过多语言预训练语言模型DistiUSE编码后得到文本语义表征T_w＝[W₁,...,W_m]；使用时间嵌入算法计算得到时间表征T_t＝[T_s,T_d]其中T_s表示文本毫秒级别表征、T_d表示文本天数级别表征。将文本语义表征T_w和时间表征T_t拼接得到T_f为文本初始表征。多语言预训练语言模型使得将汉越文本表征到同一语义空间。

Step2.2其中static_time是固定时间，Step2.1中文本毫秒级别的表征T_s：

Step2.3其中为t_d文本的发布时间。Step2.1文本天数级别的表征T_d为：

作为本发明的优选方案，所述Step3具体包括：

Set_vi＝search(KG(E_zh))

其中E_zh为中文实体，KG为汉越跨语言知识图谱，其中是候选集中实体，m为集中实体总个数，i∈[1,m]。利用实体候选集中越南语实体与文本中提取的越南语实体匹配，如果对应则建立越南语实体和中文检索实体之间的边。利用构图中汉越文本之间共同的实体和单语文本之间的共享关键词来建立汉越文本之间的权重关系，保留异构图中的事件知识和关联关系。

Step3.2、将异构图映射为同构图方便对文本节点聚类，利用异构图中汉越文本之间共同的实体和单语文本之间的共享关键词来建立汉越文本之间的权重关系，保留异构图中的事件知识和关联关系；并计算同构图上中第i和j个节点之间的权重A_i,j,o为不同类型的信息，e为实体，k为关键词。异构图上第i个节点的权重系数矩阵W_oi:

作为本发明的优选方案，所述Step4的具体实现包括：

Step4.2、在Step4.1的基础上使模型对注意力机制合理分配及图神经网络学习更稳定对于每个节点，使用各自的注意权重来聚合相关节点，并将由每个注意头生成的节点表征进行拼接获得最终的节点表征p_i，K为多头注意力的数目，||为拼接操作：

作为本发明的优选方案，所述Step5的具体步骤为：

作为本发明的优选方案，所述Step6的具体步骤为：

本发明为了和已有的方法进行比较，使用本发明使用自行构建的汉越跨语言事件检测数据集。该数据集利用网络爬虫技术从推特平台上爬取社交媒体文本并人工进行标注，总共11个事件，包含2052条汉越文本，其中汉语文本1298条，越南语文本754条。训练过程中1652条文本作为训练集，200条文本作为测试集。所选取已有的对比方法包括MBERT、XLM-R、VecMap、M-SERT、DistiUSE和KPGNN。其中，MBERT、XLM-R、M-SBERT是多语言预训练语言模型，DistiUSE从多语言预训练语言模型中蒸馏出的多语言模型，它们具备将汉越文本表征到共享空间的能力。VecMap是一种双语词嵌入生成模型，在本文中用于生成汉越跨语言词嵌入，以便将汉越文本表征到同一共享空间。KPGNN是英语在线事件检测模型，本发明使用离线场景作为对比，并采用多语言预训练语言模型进行文本表征。评价指标与对比方法一致，采用NMI、AMI及ARI作为评价聚类效果的指标，比较方法及本发明方法在本发明数据集上结果如下表1所示：

表1实验结果

模型	NMI	AMI	ARI
				VecMap	22.94	21.33	9.78
XLM	40.21	39.41	23.02
				MBERT	60.08	59.55	44.35
M-SBERT	64.73	64.43	51.20
				DistilUSE	67.43	65.43	52.30
KPGNN(MBERT)	72.18	70.03	51.39
				KPGNN(DistilUSE)	72.56	69.87	62.34
Ours(XLM)	73.70	71.77	59.58
				Ours(MBERT)	76.99	75.25	63.09
Ours(M-SBERT)	80.16	78.74	70.91
				Ours(DistilUSE)	83.61	80.39	72.03

由表1可知，相比于原始的多语言预训练语言模型在NMI指标上提升了16.18-33.49个百分点，AMI指标提高15.43-33.49个百分点，ARI提高了19.73-36.49个百分点。本发明实验组评测指标相较于所有的基线模型均有有明显提高，本发明方法相较于原始的多语言预训练语言模型能够捕获更多的汉越文本之间对齐的事件知识和关系，使用本文提出的方法能较好的对事件知识进行表征。相较于KPGNN(DistilUSE)在NMI指标上提高了11.05个百分点、AMI指标上提高了10.52个百分点、在ARI指标上提高了9.69个百分点。其原因在于本发明构建汉越文本异构图，建立了汉越文本事件知识之间的关系，在多语言预训练语言模型基础上本发明能较好的对汉越相同事件文本进行映射和对齐，提升了表征效果，提高了汉越跨语言事件检测效果。

第一个实验对汉越文本及事件知识构建的异构图和图神经网络进行消融，第二个实验对汉越跨语言知识图谱进行消融。其结果如下表2所示，其中"noGraph"代表去除汉越文本及事件知识构建的异构图、图神经网络和跨语言知识图谱，而"noKG"代表仅去除汉越跨语言知识图谱。

表2消融实验结果

模型	NMI	AMI	ARI
				Ours(noGraph)	73.12	64.70	60.14
Ours(noKG)	75.26	68.50	63.60
				Ours	83.61	80.39	72.03

从表2数据可知，noGraph的方式与完整模型相比，NMI、AMI和ARI三个指标分别降低10.49、15.69、11.89个百分点，其可能原因在于汉越跨语言异构图和图神经网络模块，这些模块能捕获文本之间的事件知识和文本之间的关联关系。然而，相比于原始多语言预训练语言模型，模型仍然表现出一定程度的性能提升。消融之后模型仅包含对比学习和多语言预训练语言模型，这进一步表明，通过对比学习的方式，能够在一定程度上将描述相同事件的汉越文本在表征空间中的距离减小，从而提高模型的效果。对汉越跨语言知识图谱部分进行消融之后与完整模型相比，NMI、AMI、ARI指标降低了8.35、11.89、8.43个百分点。但相较于汉越文本及事件知识构建的异构图和图神经网络模块消融实验，NMI、AMI、ARI提升了2.14、4.80、3.46个百分点。相较于完整模型效果较低，较于noGraph的方式有所提升。消融汉越知识图谱的异构图网络能够建立文本之间的关联关系但没有汉越事件对齐知识，也没有在汉越文本之间建立事件知识的关联关系，这样的方式可能导致模型效果较差，捕获汉越文本之间的事件知识较少。

通过结合附图对本发明的具体实施方式进行详细说明，然而，本发明并不仅限于上述的具体实施方式。在本领域普通技术人员所具备的知识范围内，可以在不脱离本发明宗旨的前提下，对实施方式进行各种变化。

Claims

1.一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述方法的具体步骤如下：

Step3、利用汉越文本及文本中的关键词和实体之间的共现关系构建异构图，使用汉越跨语言知识图谱将描述同一实体的汉语和越南语节点对齐并建立连接，构建相应的边，将异构图转化为以文本为节点的同构图；

2.根据权利要求1所述的一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述Step1的具体实现包括：

Step1.3、使用Jieba和Spacy两个工具分别对汉越文本进行分词和对文本中的人名、地名、组织机构名进行提取并与文本形成最终的汉越跨语言事件检测数据集。

3.根据权利要求1所述的一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述Step2的具体实现包括：

Step2.1、多语言预训练语言模型能将汉越文本表征到同一语义空间；定义数据集大小为D，将长度为m的文本通过多语言预训练语言模型DistiUSE编码后得到文本语义表征T_w＝[W₁,...,W_m]；使用时间嵌入算法计算得到时间表征T_t＝[T_s,T_d]其中T_s表示文本毫秒级别表征、T_d表示文本天数级别表征；将文本语义表征T_w和时间表征T_t拼接得到T_f为该文本初始表征；

4.根据权利要求1所述的一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述Step3的具体实现包括：

Set_vi＝search(KG(E_zh))；

其中E_zh为中文实体，KG为汉越跨语言知识图谱，其中/>是候选集中实体，m为集中实体总个数，i∈[1,m]；利用实体候选集中越南语实体与文本中提取的越南语实体匹配，如果对应则建立越南语实体和中文检索实体之间的边；

Step3.2、将异构图映射为同构图方便对文本节点聚类，利用异构图中汉越文本之间共同的实体和单语文本之间的共享关键词来建立汉越文本之间的权重关系，保留异构图中的事件知识和关联关系；并计算同构图上中第i和j个节点之间的权重A_i,j,o为不同类型的信息，e为实体，k为关键词，异构图上第i个节点的权重系数矩阵W_oi:

5.如权利要求1所述的一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述Step4的具体实现包括：

Step4.1、使用图注意力神经网络对同构图节点进行更新增强文本表征，提取深层语义信息和捕捉汉越文本之间的事件知识，从而为图聚类提供更丰富的信息；为了使用文本节点周围邻居节点之间的信息，需要计算节点之间的注意力分数α_i,j，来聚合节点之间的事件知识，其中a为前馈神经网络，W为可学习的参数，n_i和n_j代表第i和第j个节点，v_i为邻居节点集，LeakyReLU为激活函数，计算注意力分数公式如下:

Step4.2、在Step4.1基础上使模型对注意力机制合理分配及图神经网络学习更稳定对于每个节点，使用各自的注意权重来聚合相关节点，并将由每个注意头生成的节点表征进行拼接获得最终的节点表征p_i，K为多头注意力的数目，||为拼接操作：

6.根据权利要求1所述的一种基于图神经网络的汉越跨语言事件检测方法，其特征在于，所述S5的具体实现包括：

Step5.1、使用三元对比损失使描述不同事件的汉越文本表征尽可能相似，使用三元对比学习损失时需要对正负样本进行选取，正负样本选择如下，在一个训练批次内，根据事件标注标签为每一个训练样本找到一个正样本和一个负样本；其中正样本来自于同一批次中同一事件中的样本，负样本则来自于其他事件类的样本；

Step5.2、基于Step5.1方式建立了训练批次中的正负样本对其中p_i表示第i个锚点样本表征，/>为该锚点样本对应的正样本表征，/>为负样本表征，i是训练批次中的一个样本；D代表余弦距离，M为超参数，控制正负样本之间的边际，最后计算其三元对比损失：