CN113688203A

CN113688203A - 一种基于可迁移异构图的多语言事件检测方法

Info

Publication number: CN113688203A
Application number: CN202110922208.9A
Authority: CN
Inventors: 彭浩; 李建欣; 白琳; 张靖仪; 高泽; 张瑞桐
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-23
Anticipated expiration: 2041-08-12
Also published as: CN113688203B

Abstract

本发明公开一种基于可迁移异构图的多语言事件检测方法，包括步骤：在多语言社交信息流中，读取社交信息的节点，构建多个单语言异构信息图；对所有单语言异构信息图进行节点级对齐和语义级对齐，获得多语言异构信息图；聚焦于学习消息之间的相关性，通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图；对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。本发明能够实现面向包括大量低资源语言在内的多语言的社交事件检测，提高检测精准度。

Description

一种基于可迁移异构图的多语言事件检测方法

技术领域

本发明属于语言事件检测技术领域，特别是涉及一种基于可迁移异构图的多语言事件检测方法。

背景技术

随着世界互联进程的推进，使用不同语言的人们逐渐在社交媒体上融为了一体，大家围绕同一个事件发表各自看法的现象已经尤为普遍。这就迫切需要建立一个服务于多语言场景的模型来克服已有的各种事件检测模型仅面向单一语言的禁锢。

大多数现有的学习CLWE(Cross-lingual word embeddings)的方法，包括带有上下文嵌入的方法，都是感觉不可知的。以往的工作大多都基于静态嵌入对齐，但那种粗粒度的对齐方式显然是亟待改进和提升的。

在多语言社交事件数据中提取的实体是基于各种不同语言的，这意味着同一个实体可能有不同语言的不同表示，这给用多语言捕捉消息之间的关系带来了很大的挑战性。而当前的技术方案中，更多的是基于两种语言之间或仅限于有限的几种高资源语言的跨语言事件检测方法。

传统机器学习的方法需要目标语言的语料支持，而低资源语言的带标注数据不足，不适用于跨语言事件检测。对于基于迁移学习思想的跨语言事件检测方法，一些低资源语言的领域间的概率分布差异较大，会导致严重的负迁移问题；微调的幅度不容易把握，可能出现过度调整或调整程度不足，使模型损失值较大。对于元学习方式，当任务变得更大时，逐对比较导致计算上成本昂贵；无法应用到监督学习之外的场景。目前低资源语言的社交事件检测任务存在着很大的空缺，多数低资源语言无法实现向高资源语言的高效转换。

发明内容

为了解决上述问题，本发明提出了一种基于可迁移异构图的多语言事件检测方法，能够实现面向包括大量低资源语言在内的多语言的社交事件检测，提高检测精准度。

为达到上述目的，本发明采用的技术方案是：一种基于可迁移异构图的多语言事件检测方法，包括步骤：

S10,在多语言社交信息流中，读取社交信息的节点，构建多个单语言异构信息图；

S20,对所有单语言异构信息图进行节点级对齐和语义级对齐，获得多语言异构信息图；

S30,聚焦于学习消息之间的相关性，通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图；

S40,对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。

进一步的是，在多语言社交信息流中，读取社交信息的关联用户、命名实体、标签、消息四种类型的节点，构建多个单语言异构信息图，并根据其所用语言将其分为英语异构信息图及非英语异构信息图。

进一步的是，根据英语异构信息图及非英语异构信息图，进行节点级对齐和语义级对齐，将同一实体的不同表示合并在一起，构成多语言异构信息图。

进一步的是，基于跨语言命名实体词典挖掘不同的跨语言实体对，将非英语实体转换为英语，从而将同一实体的不同表示合并在一起；对于不同的语言，消息的初始表示在不同的嵌入空间；利用跨语言模型来获得英语语义空间中的非英语消息表示；

采用一个两层多头GAT网络作为GNN编码器，并使用对比损失三元组进行反向传播，对得到的非英语异构信息图进行跨语言的转换，获得英语语义空间中的其他语言消息表示。

进一步的是，利用CLWE跨语言单词嵌入方法，通过非线性或线性映射的方式进行跨语言的转换，在知识蒸馏的指导下完成跨语言模型的训练学习过程。

进一步的是，对于线性映射，假设源和目标嵌入空间近似同构，采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵，目的是学习源空间和目标空间之间的矩阵W，使得W＝||WX-Y||，其中X和Y分别表示源词嵌入和目标词嵌入；具体包括步骤：

步骤一：对于已知的n个单词对{x_i，y_i}_i∈{1，n}组成的字典，利用单词嵌入空间之间的相似性来学习这种线性映射W；

步骤二：对于每一个没有翻译的单词s，通过找最近邻的方式找到对应的映射单词；利用MUSE词汇归纳方法在不使用任何并行语料库的情况下，通过无监督方式对齐单语单词嵌入空间，在两种语言之间构建双语词典；

步骤三：对于源语言单词嵌入{x₁，x₂，...，x_n}和目标语言嵌入{y₁，y₂，...，y_m}，引入生成对抗网络学习W，训练模型从WX＝{Wx₁，Wx₂，...，Wx_n}和Y中采样的元素；并通过最小化目标函数进行优化；

对于非线性映射，具体步骤如下：

步骤一：为每种语言分配一个自动编码器，每个自动编码器都包含一个编码器和解码器；自动编码器是非线性的，其中每个编码器和解码器都是具有两个非线性隐藏层的三层前馈神经网络；

步骤二：自动编码器以自我监督的方式独立训练，归纳相应语言的潜在空间；

步骤三：使用具有反向翻译和源嵌入重构约束的有监督非线性变换学习；使用种子字典来学习以前馈神经网络的方式实现的非线性映射。

进一步的是，所述知识蒸馏包括离线策略，非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构；在从属图神经网络训练阶段从具有真实标签的数据中学习知识，并从主图神经网络中获取探索知识；包括步骤：

步骤一：用英语社交事件数据训练主网络；

步骤二：对于处理后的非英语语言消息图G(X_s，A_s)，利用跨语言模块学习从非英语语言到英语语言的映射过程，获得英语语义空间X_s→t下的转换后的初始消息属性特征，来消除当非英语数据输入到为英语数据指定的预训练网络型时的语言障碍；

步骤三：将总损失设置为知识蒸馏损失与基于真实标签的损失这两部分加权之和，用于从属网络训练的反向传播。

进一步的是，所述知识蒸馏包括在线策略，采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络，两个网络互相利用知识，两个网络都通过其对等网络的辅助训练得到了增强，具体包括步骤：

步骤一：分别为第一对等体图神经网络和第二对等体图神经网络的训练指定已处理的单语社交事件检测数据G(X_p1，A_p1)和G(X_p2，A_p2)；

步骤二：通过跨语言模型得到对第二对等体图神经网络语言语义空间G(X_p1→p2，A_p1)中的对第一对等体图神经网络转换后数据以及对第一对等体图神经网络语言语义空间G(X_p2→p1，A_p1)中的对第二对等体图神经网络转换后数据，消除不同语种之间的语言障碍；

步骤三：对于对第一对等体图神经网络的训练，同时将G(X_p1，A_p1)和G(X_p1→p2，A_p1)分别输入第一对等体图神经网络和第二对等体图神经网络，相应的输出为h_p1和h_p1→p2；使用h_p1→p2作为第一对等体图神经网络的额外监控信号，通过来自同伴的隐性知识来进一步训练第一对等体图神经网络；将第一对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和用于第一对等体图神经网络训练网络的反向传播；

步骤四：对于对第二对等体图神经网络的训练，同时将G(X_p2，A_p2)和G(X_p2→p1，A_p1)分别输入第二对等体图神经网络和第一对等体图神经网络，相应的输出为h_p2和h_p2→p1；使用h_p2→p1作为第二对等体图神经网络的额外监控信号，通过来自同伴的隐性知识来进一步训练对第二对等体图神经网络；将对第二对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和，用于对第二对等体图神经网络训练网络的反向传播。

进一步的是，在多语言社交信息流中不断读取新的社交信息，重复S10到S30，使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。

进一步的是，采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。

采用本技术方案的有益效果：

本发明通过在多语言社交信息流中，读取社交信息的节点，构建多个单语言异构信息图；对所有单语言异构信息图进行节点级对齐和语义级对齐，获得多语言异构信息图；聚焦于学习消息之间的相关性，通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图；对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件；能够实现面向包括大量低资源语言在内的多语言的社交事件检测，提高检测精准度。

本发明应用节点级对齐和语义级对齐两种对齐技术，减弱多语言社交事件之间的语言障碍，更好地建立统一的多语言社交图。提出在线策略的相互学习过程，将两个学生网络中的知识结合在一起，克服了教师网络信息不足的困难；在教师网络信息充足时，也能够做出更全面和信息更丰富的决定。

本发明利用跨语言单词嵌入方法，通过非线性或线性映射的方式进行跨语言的转换，在知识蒸馏的指导下完成跨语言模型的训练学习过程，从而实现面向包括大量低资源语言在内的多语言的社交事件检测，特别解决低资源语言无法实现向高资源语言的高效转换的问题。

现实中的社交流具有以下特点：按顺序生成、数量巨大、包含各种类型元素(文本、时间、标签和隐含的社交网络结构)、元素语义变化快速。现有大部分的检测算法大多无法同时满足这些条件，具体来说，如果使用词频和共现等统计特征来识别事件，在某种程度上容易忽略社交流中包含的丰富语义和结构信息；而模型中参数较少则会导致不能记住之前学过的信息，随着时间流逝忘记部分消息。本发明生命周期方法既能从数据中获取知识，又能保存以前学习的知识，还能不断适应输入的数据，更加符合检测现实中的社交流中不断更新的社交事件的需求。

附图说明

图1为本发明的一种基于可迁移异构图的多语言事件检测方法的流程示意图；

图2为本发明实施例中异构图分析过程的原理示意图；

图3为本发明实施例中跨语言线性和非线性映射方式的原理示意图；

图4为本发明实施例中跨语言知识蒸馏框架中离线策略的原理示意图

图5为本发明实施例中跨语言知识蒸馏框架中在线策略的原理示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步阐述。

在本实施例中，参见图1和图2所示，本发明提出了一种基于可迁移异构图的多语言事件检测方法，包括步骤：

作为上述实施例的优化方案，在多语言社交信息流中，读取社交信息的关联用户、命名实体、标签、消息四种类型的节点，构建多个单语言异构信息图，并根据其所用语言将其分为英语异构信息图及非英语异构信息图。根据英语异构信息图及非英语异构信息图，进行节点级对齐和语义级对齐，将同一实体的不同表示合并在一起，构成多语言异构信息图。

作为上述实施例的优化方案，基于跨语言命名实体词典挖掘不同的跨语言实体对，将非英语实体转换为英语，从而将同一实体的不同表示合并在一起；对于不同的语言，消息的初始表示在不同的嵌入空间；利用跨语言模型来获得英语语义空间中的非英语消息表示；

利用CLWE跨语言单词嵌入方法，通过非线性或线性映射的方式进行跨语言的转换，在知识蒸馏的指导下完成跨语言模型的训练学习过程。

在节点层面，考虑到在多语言社交事件数据中提取的实体是基于各种不同语言的，这意味着同一个实体可能有不同语言的不同表示，这给用多语言捕捉消息之间的关系带来了很大的挑战性。本发明基于跨语言命名实体词典挖掘超过164个不同的跨语言实体对，跨越120个语言对，根据这些词汇将非英语实体转换为英语，从而将同一实体的不同表示合并在一起。在语义层面，对于不同的语言，消息的初始表示在不同的嵌入空间。为了打破这种语言障碍，比如对于法语和阿拉伯语消息的属性特征，利用跨语言模型来获得英语语义空间中的法语和阿拉伯语消息表示。采用一个两层多头GAT网络作为GNN编码器，并使用对比损失三元组进行反向传播，对第一步中得到的非英语的单语言异构信息图进行跨语言的转换，获得英语语义空间中的其他语言消息表示。针对某个社交事件，当教师语言信息很少甚至缺失时，便可以考虑使用在线策略的相互学习过程。例如，对于事件A，其节点几乎全部分布在法语语义空间与阿拉伯语语义空间中便可以对法语语义空间与阿拉伯语语义空间进行相互学习，从而能够做出更全面和信息更丰富的决定。

如图3所示，其中，对于线性映射，假设源和目标嵌入空间近似同构，采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵，目的是学习源空间和目标空间之间的矩阵W，使得W＝||WX-Y||，其中X和Y分别表示源词嵌入和目标词嵌入；具体包括步骤：

步骤一：对于已知的n个单词对{x_i，y_i}_i∈{1，n}组成的字典，利用单词嵌入空间之间的相似性来学习这种线性映射W：

其中d是嵌入维数，

是d×d维的实数矩阵空间；X和Y分别表示源词嵌入和目标词嵌入，是两个尺寸为d×n的对齐矩阵，包含单词在并行词汇表中的嵌入；F范数定义；

步骤二：对于每一个没有翻译的单词s，通过找最近邻的方式找到对应的映射单词：t＝argmin_tcos(Wx_s，y_t)；利用MUSE词汇归纳方法在不使用任何并行语料库的情况下，通过无监督方式对齐单语单词嵌入空间，在两种语言之间构建双语词典；

步骤三：对于源语言单词嵌入{x₁，x₂，...，x_n}和目标语言嵌入{y₁，y₂，...，y_m}，引入生成对抗网络学习W，训练模型从WX＝{Wx₁，Wx₂，...，Wx_n}和Y中采样的元素；

一方面，最小化目标函数：

最大化鉴别器识别出嵌入源的能力；

另一方面，最小化目标函数：

，使W近似WX和Y，鉴别器正确识别出嵌入源。

对于非线性映射，具体步骤如下：

作为上述实施例的优化方案，如图4所示，所述知识蒸馏包括离线策略，非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构；在从属图神经网络训练阶段从具有真实标签的数据中学习知识，并从主图神经网络中获取探索知识；包括步骤：

步骤一：用英语社交事件数据训练主网络；

步骤二：对于处理后的非英语语言消息图G(X_s,A_s)，利用跨语言模块学习从非英语语言到英语语言的映射过程，获得英语语义空间X_s→t下的转换后的初始消息属性特征，来消除当非英语数据输入到为英语数据指定的预训练网络型时的语言障碍；

步骤三：将总损失设置为知识蒸馏损失与基于真实标签的损失这两部分加权之和

用于从属网络训练的反向传播；

其中，

λ是一个超参数，L_t()表示由一组真实标签三元组形式由<锚，正，负>计算得来的损失，正与负分别表示锚和真实标签一致和不一致的情况。

作为上述实施例的优化方案，如图5所示，所述知识蒸馏包括在线策略，采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络，两个网络互相利用知识，两个网络都通过其对等网络的辅助训练得到了增强，具体包括步骤：

计算的相应知识提取损失的加权之和：

其中，

λ是一个超参数，L_t()表示由一组真实标签三元组形式<锚，正，负>计算得来的损失，正与负分别表示锚和真实标签一致和不一致的情况。

本发明在建立增强对低资源语言数据检测的跨语言知识蒸馏框架时，提出以在线方式训练整个框架，通过组合损失来更新第一对等体和第二对等体的权重。假设第一对等体具有更丰富的语言数据资源，目标是使非英语社交事件检测获得更好的第二对等体网络性能。从第一对等体的角度来看，知识蒸馏损失

提供从第二对等体那里学到的东西，这引导第一对等体隐式地向更可靠的方向学习推广，以帮助检测第二对等体的数据。换句话来说，利用第二对等体蒸馏的知识，第一对等体在检测第二对等体数据方面具有更强大的能力。从第二对等体的角度来看，知识蒸馏损失

为第一对等体带来额外知识，而第一对等体具有扩充功能，直接提高了第二对等体的泛化能力。此外，在最终的检测中，我们利用这种集成策略的思想来探索更多信息和更为全面的跨语言知识。在测试中，将G(X_p2，A_p2)和G(X_p2→p1，A_p2)分别馈入第二对等体和第一对等体，并采用总表示作为第二对等体数据的最终表示，更具体地来说，我们将第二对等体数据的两个网络表示连接起来，进行最终的消息聚类。可以把这个过程理解为两个一起学习的学生，一个说英语，一个说另一种语言，对于说非英语语言的学生来说，当他学习用自己的语言表达的信息时，他也利用了他的说英语的同学从这些信息中学习到的知识，从而获得了额外的指导辅助。将两个学生学到的知识结合在一起，能够做出更全面和信息更丰富的决定。

作为上述实施例的优化方案，在多语言社交信息流中不断读取新的社交信息，重复S10到S30，使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。

为了使框架适应不断增长的社交信息流，本发明遵循一个包含三个阶段的生命周期，即预培训、检测和维护阶段。在预训练阶段，从最初的几个消息块构建初始消息图，并训练初始模型。预处理阶段只运行一次。在检测阶段，对于每个新到来的消息块，我们用输入消息块重建一个新的图，并用已经训练好的模型直接检测事件。在维护阶段，我们继续用最新的消息块训练模型，这允许模型学习新知识。这检测阶段与维护阶段交替运行。以这种方式，模型不断地适应输入数据以检测新事件并更新模型的知识，并且在删除过去消息块中的过时节点时也保持轻训练方式。

作为上述实施例的优化方案，采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。

以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种基于可迁移异构图的多语言事件检测方法，其特征在于，包括步骤：

S10，在多语言社交信息流中，读取社交信息的节点，构建多个单语言异构信息图；

S20，对所有单语言异构信息图进行节点级对齐和语义级对齐，获得多语言异构信息图；

S30，聚焦于学习消息之间的相关性，通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图；

S40，对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。

2.根据权利要求1所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，在多语言社交信息流中，读取社交信息的关联用户、命名实体、标签、消息四种类型的节点，构建多个单语言异构信息图，并根据其所用语言将其分为英语异构信息图及非英语异构信息图。

3.根据权利要求2所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，根据英语异构信息图及非英语异构信息图，进行节点级对齐和语义级对齐，将同一实体的不同表示合并在一起，构成多语言异构信息图。

4.根据权利要求3所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，基于跨语言命名实体词典挖掘不同的跨语言实体对，将非英语实体转换为英语，从而将同一实体的不同表示合并在一起；对于不同的语言，消息的初始表示在不同的嵌入空间；利用跨语言模型来获得英语语义空间中的非英语消息表示；

5.根据权利要求4所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，利用CLWE跨语言单词嵌入方法，通过非线性或线性映射的方式进行跨语言的转换，在知识蒸馏的指导下完成跨语言模型的训练学习过程。

6.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，对于线性映射，假设源和目标嵌入空间近似同构，采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵，目的是学习源空间和目标空间之间的矩阵W，使得W＝||WX-Y||，其中X和Y分别表示源词嵌入和目标词嵌入；具体包括步骤：

对于非线性映射，具体步骤如下：

7.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，所述知识蒸馏包括离线策略，非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构；在从属图神经网络训练阶段从具有真实标签的数据中学习知识，并从主图神经网络中获取探索知识；包括步骤：

步骤一：用英语社交事件数据训练主网络；

8.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，所述知识蒸馏包括在线策略，采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络，两个网络互相利用知识，两个网络都通过其对等网络的辅助训练得到了增强，具体包括步骤：

9.权利要求1所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，在多语言社交信息流中不断读取新的社交信息，重复S10到S30，使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。

10.根据权利要求1所述的一种基于可迁移异构图的多语言事件检测方法，其特征在于，采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类，产生消息簇并将其输出，即为检测得到的社交事件。