CN113688203A - 一种基于可迁移异构图的多语言事件检测方法 - Google Patents

一种基于可迁移异构图的多语言事件检测方法 Download PDF

Info

Publication number
CN113688203A
CN113688203A CN202110922208.9A CN202110922208A CN113688203A CN 113688203 A CN113688203 A CN 113688203A CN 202110922208 A CN202110922208 A CN 202110922208A CN 113688203 A CN113688203 A CN 113688203A
Authority
CN
China
Prior art keywords
language
peer
graph
neural network
english
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110922208.9A
Other languages
English (en)
Other versions
CN113688203B (zh
Inventor
彭浩
李建欣
白琳
张靖仪
高泽
张瑞桐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202110922208.9A priority Critical patent/CN113688203B/zh
Publication of CN113688203A publication Critical patent/CN113688203A/zh
Application granted granted Critical
Publication of CN113688203B publication Critical patent/CN113688203B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开一种基于可迁移异构图的多语言事件检测方法,包括步骤:在多语言社交信息流中,读取社交信息的节点,构建多个单语言异构信息图;对所有单语言异构信息图进行节点级对齐和语义级对齐,获得多语言异构信息图;聚焦于学习消息之间的相关性,通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图;对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。本发明能够实现面向包括大量低资源语言在内的多语言的社交事件检测,提高检测精准度。

Description

一种基于可迁移异构图的多语言事件检测方法
技术领域
本发明属于语言事件检测技术领域,特别是涉及一种基于可迁移异构图的多语言事件检测方法。
背景技术
随着世界互联进程的推进,使用不同语言的人们逐渐在社交媒体上融为了一体,大家围绕同一个事件发表各自看法的现象已经尤为普遍。这就迫切需要建立一个服务于多语言场景的模型来克服已有的各种事件检测模型仅面向单一语言的禁锢。
大多数现有的学习CLWE(Cross-lingual word embeddings)的方法,包括带有上下文嵌入的方法,都是感觉不可知的。以往的工作大多都基于静态嵌入对齐,但那种粗粒度的对齐方式显然是亟待改进和提升的。
在多语言社交事件数据中提取的实体是基于各种不同语言的,这意味着同一个实体可能有不同语言的不同表示,这给用多语言捕捉消息之间的关系带来了很大的挑战性。而当前的技术方案中,更多的是基于两种语言之间或仅限于有限的几种高资源语言的跨语言事件检测方法。
传统机器学习的方法需要目标语言的语料支持,而低资源语言的带标注数据不足,不适用于跨语言事件检测。对于基于迁移学习思想的跨语言事件检测方法,一些低资源语言的领域间的概率分布差异较大,会导致严重的负迁移问题;微调的幅度不容易把握,可能出现过度调整或调整程度不足,使模型损失值较大。对于元学习方式,当任务变得更大时,逐对比较导致计算上成本昂贵;无法应用到监督学习之外的场景。目前低资源语言的社交事件检测任务存在着很大的空缺,多数低资源语言无法实现向高资源语言的高效转换。
发明内容
为了解决上述问题,本发明提出了一种基于可迁移异构图的多语言事件检测方法,能够实现面向包括大量低资源语言在内的多语言的社交事件检测,提高检测精准度。
为达到上述目的,本发明采用的技术方案是:一种基于可迁移异构图的多语言事件检测方法,包括步骤:
S10,在多语言社交信息流中,读取社交信息的节点,构建多个单语言异构信息图;
S20,对所有单语言异构信息图进行节点级对齐和语义级对齐,获得多语言异构信息图;
S30,聚焦于学习消息之间的相关性,通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图;
S40,对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
进一步的是,在多语言社交信息流中,读取社交信息的关联用户、命名实体、标签、消息四种类型的节点,构建多个单语言异构信息图,并根据其所用语言将其分为英语异构信息图及非英语异构信息图。
进一步的是,根据英语异构信息图及非英语异构信息图,进行节点级对齐和语义级对齐,将同一实体的不同表示合并在一起,构成多语言异构信息图。
进一步的是,基于跨语言命名实体词典挖掘不同的跨语言实体对,将非英语实体转换为英语,从而将同一实体的不同表示合并在一起;对于不同的语言,消息的初始表示在不同的嵌入空间;利用跨语言模型来获得英语语义空间中的非英语消息表示;
采用一个两层多头GAT网络作为GNN编码器,并使用对比损失三元组进行反向传播,对得到的非英语异构信息图进行跨语言的转换,获得英语语义空间中的其他语言消息表示。
进一步的是,利用CLWE跨语言单词嵌入方法,通过非线性或线性映射的方式进行跨语言的转换,在知识蒸馏的指导下完成跨语言模型的训练学习过程。
进一步的是,对于线性映射,假设源和目标嵌入空间近似同构,采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵,目的是学习源空间和目标空间之间的矩阵W,使得W=||WX-Y||,其中X和Y分别表示源词嵌入和目标词嵌入;具体包括步骤:
步骤一:对于已知的n个单词对{xi,yi}i∈{1,n}组成的字典,利用单词嵌入空间之间的相似性来学习这种线性映射W;
步骤二:对于每一个没有翻译的单词s,通过找最近邻的方式找到对应的映射单词;利用MUSE词汇归纳方法在不使用任何并行语料库的情况下,通过无监督方式对齐单语单词嵌入空间,在两种语言之间构建双语词典;
步骤三:对于源语言单词嵌入{x1,x2,...,xn}和目标语言嵌入{y1,y2,...,ym},引入生成对抗网络学习W,训练模型从WX={Wx1,Wx2,...,Wxn}和Y中采样的元素;并通过最小化目标函数进行优化;
对于非线性映射,具体步骤如下:
步骤一:为每种语言分配一个自动编码器,每个自动编码器都包含一个编码器和解码器;自动编码器是非线性的,其中每个编码器和解码器都是具有两个非线性隐藏层的三层前馈神经网络;
步骤二:自动编码器以自我监督的方式独立训练,归纳相应语言的潜在空间;
步骤三:使用具有反向翻译和源嵌入重构约束的有监督非线性变换学习;使用种子字典来学习以前馈神经网络的方式实现的非线性映射。
进一步的是,所述知识蒸馏包括离线策略,非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构;在从属图神经网络训练阶段从具有真实标签的数据中学习知识,并从主图神经网络中获取探索知识;包括步骤:
步骤一:用英语社交事件数据训练主网络;
步骤二:对于处理后的非英语语言消息图G(Xs,As),利用跨语言模块学习从非英语语言到英语语言的映射过程,获得英语语义空间Xs→t下的转换后的初始消息属性特征,来消除当非英语数据输入到为英语数据指定的预训练网络型时的语言障碍;
步骤三:将总损失设置为知识蒸馏损失与基于真实标签的损失这两部分加权之和,用于从属网络训练的反向传播。
进一步的是,所述知识蒸馏包括在线策略,采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络,两个网络互相利用知识,两个网络都通过其对等网络的辅助训练得到了增强,具体包括步骤:
步骤一:分别为第一对等体图神经网络和第二对等体图神经网络的训练指定已处理的单语社交事件检测数据G(Xp1,Ap1)和G(Xp2,Ap2);
步骤二:通过跨语言模型得到对第二对等体图神经网络语言语义空间G(Xp1→p2,Ap1)中的对第一对等体图神经网络转换后数据以及对第一对等体图神经网络语言语义空间G(Xp2→p1,Ap1)中的对第二对等体图神经网络转换后数据,消除不同语种之间的语言障碍;
步骤三:对于对第一对等体图神经网络的训练,同时将G(Xp1,Ap1)和G(Xp1→p2,Ap1)分别输入第一对等体图神经网络和第二对等体图神经网络,相应的输出为hp1和hp1→p2;使用hp1→p2作为第一对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练第一对等体图神经网络;将第一对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和用于第一对等体图神经网络训练网络的反向传播;
步骤四:对于对第二对等体图神经网络的训练,同时将G(Xp2,Ap2)和G(Xp2→p1,Ap1)分别输入第二对等体图神经网络和第一对等体图神经网络,相应的输出为hp2和hp2→p1;使用hp2→p1作为第二对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练对第二对等体图神经网络;将对第二对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和,用于对第二对等体图神经网络训练网络的反向传播。
进一步的是,在多语言社交信息流中不断读取新的社交信息,重复S10到S30,使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。
进一步的是,采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
采用本技术方案的有益效果:
本发明通过在多语言社交信息流中,读取社交信息的节点,构建多个单语言异构信息图;对所有单语言异构信息图进行节点级对齐和语义级对齐,获得多语言异构信息图;聚焦于学习消息之间的相关性,通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图;对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件;能够实现面向包括大量低资源语言在内的多语言的社交事件检测,提高检测精准度。
本发明应用节点级对齐和语义级对齐两种对齐技术,减弱多语言社交事件之间的语言障碍,更好地建立统一的多语言社交图。提出在线策略的相互学习过程,将两个学生网络中的知识结合在一起,克服了教师网络信息不足的困难;在教师网络信息充足时,也能够做出更全面和信息更丰富的决定。
本发明利用跨语言单词嵌入方法,通过非线性或线性映射的方式进行跨语言的转换,在知识蒸馏的指导下完成跨语言模型的训练学习过程,从而实现面向包括大量低资源语言在内的多语言的社交事件检测,特别解决低资源语言无法实现向高资源语言的高效转换的问题。
现实中的社交流具有以下特点:按顺序生成、数量巨大、包含各种类型元素(文本、时间、标签和隐含的社交网络结构)、元素语义变化快速。现有大部分的检测算法大多无法同时满足这些条件,具体来说,如果使用词频和共现等统计特征来识别事件,在某种程度上容易忽略社交流中包含的丰富语义和结构信息;而模型中参数较少则会导致不能记住之前学过的信息,随着时间流逝忘记部分消息。本发明生命周期方法既能从数据中获取知识,又能保存以前学习的知识,还能不断适应输入的数据,更加符合检测现实中的社交流中不断更新的社交事件的需求。
附图说明
图1为本发明的一种基于可迁移异构图的多语言事件检测方法的流程示意图;
图2为本发明实施例中异构图分析过程的原理示意图;
图3为本发明实施例中跨语言线性和非线性映射方式的原理示意图;
图4为本发明实施例中跨语言知识蒸馏框架中离线策略的原理示意图
图5为本发明实施例中跨语言知识蒸馏框架中在线策略的原理示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步阐述。
在本实施例中,参见图1和图2所示,本发明提出了一种基于可迁移异构图的多语言事件检测方法,包括步骤:
S10,在多语言社交信息流中,读取社交信息的节点,构建多个单语言异构信息图;
S20,对所有单语言异构信息图进行节点级对齐和语义级对齐,获得多语言异构信息图;
S30,聚焦于学习消息之间的相关性,通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图;
S40,对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
作为上述实施例的优化方案,在多语言社交信息流中,读取社交信息的关联用户、命名实体、标签、消息四种类型的节点,构建多个单语言异构信息图,并根据其所用语言将其分为英语异构信息图及非英语异构信息图。根据英语异构信息图及非英语异构信息图,进行节点级对齐和语义级对齐,将同一实体的不同表示合并在一起,构成多语言异构信息图。
作为上述实施例的优化方案,基于跨语言命名实体词典挖掘不同的跨语言实体对,将非英语实体转换为英语,从而将同一实体的不同表示合并在一起;对于不同的语言,消息的初始表示在不同的嵌入空间;利用跨语言模型来获得英语语义空间中的非英语消息表示;
采用一个两层多头GAT网络作为GNN编码器,并使用对比损失三元组进行反向传播,对得到的非英语异构信息图进行跨语言的转换,获得英语语义空间中的其他语言消息表示。
利用CLWE跨语言单词嵌入方法,通过非线性或线性映射的方式进行跨语言的转换,在知识蒸馏的指导下完成跨语言模型的训练学习过程。
在节点层面,考虑到在多语言社交事件数据中提取的实体是基于各种不同语言的,这意味着同一个实体可能有不同语言的不同表示,这给用多语言捕捉消息之间的关系带来了很大的挑战性。本发明基于跨语言命名实体词典挖掘超过164个不同的跨语言实体对,跨越120个语言对,根据这些词汇将非英语实体转换为英语,从而将同一实体的不同表示合并在一起。在语义层面,对于不同的语言,消息的初始表示在不同的嵌入空间。为了打破这种语言障碍,比如对于法语和阿拉伯语消息的属性特征,利用跨语言模型来获得英语语义空间中的法语和阿拉伯语消息表示。采用一个两层多头GAT网络作为GNN编码器,并使用对比损失三元组进行反向传播,对第一步中得到的非英语的单语言异构信息图进行跨语言的转换,获得英语语义空间中的其他语言消息表示。针对某个社交事件,当教师语言信息很少甚至缺失时,便可以考虑使用在线策略的相互学习过程。例如,对于事件A,其节点几乎全部分布在法语语义空间与阿拉伯语语义空间中便可以对法语语义空间与阿拉伯语语义空间进行相互学习,从而能够做出更全面和信息更丰富的决定。
如图3所示,其中,对于线性映射,假设源和目标嵌入空间近似同构,采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵,目的是学习源空间和目标空间之间的矩阵W,使得W=||WX-Y||,其中X和Y分别表示源词嵌入和目标词嵌入;具体包括步骤:
步骤一:对于已知的n个单词对{xi,yi}i∈{1,n}组成的字典,利用单词嵌入空间之间的相似性来学习这种线性映射W:
Figure BDA0003207854500000071
其中d是嵌入维数,
Figure BDA0003207854500000072
是d×d维的实数矩阵空间;X和Y分别表示源词嵌入和目标词嵌入,是两个尺寸为d×n的对齐矩阵,包含单词在并行词汇表中的嵌入;F范数定义;
步骤二:对于每一个没有翻译的单词s,通过找最近邻的方式找到对应的映射单词:t=argmintcos(Wxs,yt);利用MUSE词汇归纳方法在不使用任何并行语料库的情况下,通过无监督方式对齐单语单词嵌入空间,在两种语言之间构建双语词典;
步骤三:对于源语言单词嵌入{x1,x2,...,xn}和目标语言嵌入{y1,y2,...,ym},引入生成对抗网络学习W,训练模型从WX={Wx1,Wx2,...,Wxn}和Y中采样的元素;
一方面,最小化目标函数:
Figure BDA0003207854500000081
最大化鉴别器识别出嵌入源的能力;
另一方面,最小化目标函数:
Figure BDA0003207854500000082
,使W近似WX和Y,鉴别器正确识别出嵌入源。
对于非线性映射,具体步骤如下:
步骤一:为每种语言分配一个自动编码器,每个自动编码器都包含一个编码器和解码器;自动编码器是非线性的,其中每个编码器和解码器都是具有两个非线性隐藏层的三层前馈神经网络;
步骤二:自动编码器以自我监督的方式独立训练,归纳相应语言的潜在空间;
步骤三:使用具有反向翻译和源嵌入重构约束的有监督非线性变换学习;使用种子字典来学习以前馈神经网络的方式实现的非线性映射。
作为上述实施例的优化方案,如图4所示,所述知识蒸馏包括离线策略,非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构;在从属图神经网络训练阶段从具有真实标签的数据中学习知识,并从主图神经网络中获取探索知识;包括步骤:
步骤一:用英语社交事件数据训练主网络;
步骤二:对于处理后的非英语语言消息图G(Xs,As),利用跨语言模块学习从非英语语言到英语语言的映射过程,获得英语语义空间Xs→t下的转换后的初始消息属性特征,来消除当非英语数据输入到为英语数据指定的预训练网络型时的语言障碍;
步骤三:将总损失设置为知识蒸馏损失与基于真实标签的损失这两部分加权之和
Figure BDA0003207854500000083
用于从属网络训练的反向传播;
其中,
Figure BDA0003207854500000084
λ是一个超参数,Lt()表示由一组真实标签三元组形式由<锚,正,负>计算得来的损失,正与负分别表示锚和真实标签一致和不一致的情况。
作为上述实施例的优化方案,如图5所示,所述知识蒸馏包括在线策略,采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络,两个网络互相利用知识,两个网络都通过其对等网络的辅助训练得到了增强,具体包括步骤:
步骤一:分别为第一对等体图神经网络和第二对等体图神经网络的训练指定已处理的单语社交事件检测数据G(Xp1,Ap1)和G(Xp2,Ap2);
步骤二:通过跨语言模型得到对第二对等体图神经网络语言语义空间G(Xp1→p2,Ap1)中的对第一对等体图神经网络转换后数据以及对第一对等体图神经网络语言语义空间G(Xp2→p1,Ap1)中的对第二对等体图神经网络转换后数据,消除不同语种之间的语言障碍;
步骤三:对于对第一对等体图神经网络的训练,同时将G(Xp1,Ap1)和G(Xp1→p2,Ap1)分别输入第一对等体图神经网络和第二对等体图神经网络,相应的输出为hp1和hp1→p2;使用hp1→p2作为第一对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练第一对等体图神经网络;将第一对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和用于第一对等体图神经网络训练网络的反向传播;
步骤四:对于对第二对等体图神经网络的训练,同时将G(Xp2,Ap2)和G(Xp2→p1,Ap1)分别输入第二对等体图神经网络和第一对等体图神经网络,相应的输出为hp2和hp2→p1;使用hp2→p1作为第二对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练对第二对等体图神经网络;将对第二对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和,用于对第二对等体图神经网络训练网络的反向传播。
计算的相应知识提取损失的加权之和:
Figure BDA0003207854500000091
其中,
Figure BDA0003207854500000101
λ是一个超参数,Lt()表示由一组真实标签三元组形式<锚,正,负>计算得来的损失,正与负分别表示锚和真实标签一致和不一致的情况。
本发明在建立增强对低资源语言数据检测的跨语言知识蒸馏框架时,提出以在线方式训练整个框架,通过组合损失来更新第一对等体和第二对等体的权重。假设第一对等体具有更丰富的语言数据资源,目标是使非英语社交事件检测获得更好的第二对等体网络性能。从第一对等体的角度来看,知识蒸馏损失
Figure BDA0003207854500000102
提供从第二对等体那里学到的东西,这引导第一对等体隐式地向更可靠的方向学习推广,以帮助检测第二对等体的数据。换句话来说,利用第二对等体蒸馏的知识,第一对等体在检测第二对等体数据方面具有更强大的能力。从第二对等体的角度来看,知识蒸馏损失
Figure BDA0003207854500000103
为第一对等体带来额外知识,而第一对等体具有扩充功能,直接提高了第二对等体的泛化能力。此外,在最终的检测中,我们利用这种集成策略的思想来探索更多信息和更为全面的跨语言知识。在测试中,将G(Xp2,Ap2)和G(Xp2→p1,Ap2)分别馈入第二对等体和第一对等体,并采用总表示作为第二对等体数据的最终表示,更具体地来说,我们将第二对等体数据的两个网络表示连接起来,进行最终的消息聚类。可以把这个过程理解为两个一起学习的学生,一个说英语,一个说另一种语言,对于说非英语语言的学生来说,当他学习用自己的语言表达的信息时,他也利用了他的说英语的同学从这些信息中学习到的知识,从而获得了额外的指导辅助。将两个学生学到的知识结合在一起,能够做出更全面和信息更丰富的决定。
作为上述实施例的优化方案,在多语言社交信息流中不断读取新的社交信息,重复S10到S30,使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。
为了使框架适应不断增长的社交信息流,本发明遵循一个包含三个阶段的生命周期,即预培训、检测和维护阶段。在预训练阶段,从最初的几个消息块构建初始消息图,并训练初始模型。预处理阶段只运行一次。在检测阶段,对于每个新到来的消息块,我们用输入消息块重建一个新的图,并用已经训练好的模型直接检测事件。在维护阶段,我们继续用最新的消息块训练模型,这允许模型学习新知识。这检测阶段与维护阶段交替运行。以这种方式,模型不断地适应输入数据以检测新事件并更新模型的知识,并且在删除过去消息块中的过时节点时也保持轻训练方式。
作为上述实施例的优化方案,采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (10)

1.一种基于可迁移异构图的多语言事件检测方法,其特征在于,包括步骤:
S10,在多语言社交信息流中,读取社交信息的节点,构建多个单语言异构信息图;
S20,对所有单语言异构信息图进行节点级对齐和语义级对齐,获得多语言异构信息图;
S30,聚焦于学习消息之间的相关性,通过消息的公共邻居将多语言异构信息图转换为多语言同构信息图;
S40,对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
2.根据权利要求1所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,在多语言社交信息流中,读取社交信息的关联用户、命名实体、标签、消息四种类型的节点,构建多个单语言异构信息图,并根据其所用语言将其分为英语异构信息图及非英语异构信息图。
3.根据权利要求2所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,根据英语异构信息图及非英语异构信息图,进行节点级对齐和语义级对齐,将同一实体的不同表示合并在一起,构成多语言异构信息图。
4.根据权利要求3所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,基于跨语言命名实体词典挖掘不同的跨语言实体对,将非英语实体转换为英语,从而将同一实体的不同表示合并在一起;对于不同的语言,消息的初始表示在不同的嵌入空间;利用跨语言模型来获得英语语义空间中的非英语消息表示;
采用一个两层多头GAT网络作为GNN编码器,并使用对比损失三元组进行反向传播,对得到的非英语异构信息图进行跨语言的转换,获得英语语义空间中的其他语言消息表示。
5.根据权利要求4所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,利用CLWE跨语言单词嵌入方法,通过非线性或线性映射的方式进行跨语言的转换,在知识蒸馏的指导下完成跨语言模型的训练学习过程。
6.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,对于线性映射,假设源和目标嵌入空间近似同构,采用基于线性投影的CLWE方法学习源空间和目标空间之间的矩阵,目的是学习源空间和目标空间之间的矩阵W,使得W=||WX-Y||,其中X和Y分别表示源词嵌入和目标词嵌入;具体包括步骤:
步骤一:对于已知的n个单词对{xi,yi}i∈{1,n}组成的字典,利用单词嵌入空间之间的相似性来学习这种线性映射W;
步骤二:对于每一个没有翻译的单词s,通过找最近邻的方式找到对应的映射单词;利用MUSE词汇归纳方法在不使用任何并行语料库的情况下,通过无监督方式对齐单语单词嵌入空间,在两种语言之间构建双语词典;
步骤三:对于源语言单词嵌入{x1,x2,...,xn}和目标语言嵌入{y1,y2,...,ym},引入生成对抗网络学习W,训练模型从WX={Wx1,Wx2,...,Wxn}和Y中采样的元素;并通过最小化目标函数进行优化;
对于非线性映射,具体步骤如下:
步骤一:为每种语言分配一个自动编码器,每个自动编码器都包含一个编码器和解码器;自动编码器是非线性的,其中每个编码器和解码器都是具有两个非线性隐藏层的三层前馈神经网络;
步骤二:自动编码器以自我监督的方式独立训练,归纳相应语言的潜在空间;
步骤三:使用具有反向翻译和源嵌入重构约束的有监督非线性变换学习;使用种子字典来学习以前馈神经网络的方式实现的非线性映射。
7.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,所述知识蒸馏包括离线策略,非英语事件检测网络构成的从属图神经网络和大规模英语数据集上预先训练网络构成的主图神经网络共享同一个网络结构;在从属图神经网络训练阶段从具有真实标签的数据中学习知识,并从主图神经网络中获取探索知识;包括步骤:
步骤一:用英语社交事件数据训练主网络;
步骤二:对于处理后的非英语语言消息图G(Xs,As),利用跨语言模块学习从非英语语言到英语语言的映射过程,获得英语语义空间Xs→t下的转换后的初始消息属性特征,来消除当非英语数据输入到为英语数据指定的预训练网络型时的语言障碍;
步骤三:将总损失设置为知识蒸馏损失与基于真实标签的损失这两部分加权之和,用于从属网络训练的反向传播。
8.根据权利要求5所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,所述知识蒸馏包括在线策略,采用相互连通的第一对等体图神经网络训练和第二对等体图神经网络,两个网络互相利用知识,两个网络都通过其对等网络的辅助训练得到了增强,具体包括步骤:
步骤一:分别为第一对等体图神经网络和第二对等体图神经网络的训练指定已处理的单语社交事件检测数据G(Xp1,Ap1)和G(Xp2,Ap2);
步骤二:通过跨语言模型得到对第二对等体图神经网络语言语义空间G(Xp1→p2,Ap1)中的对第一对等体图神经网络转换后数据以及对第一对等体图神经网络语言语义空间G(Xp2→p1,Ap1)中的对第二对等体图神经网络转换后数据,消除不同语种之间的语言障碍;
步骤三:对于对第一对等体图神经网络的训练,同时将G(Xp1,Ap1)和G(Xp1→p2,Ap1)分别输入第一对等体图神经网络和第二对等体图神经网络,相应的输出为hp1和hp1→p2;使用hp1→p2作为第一对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练第一对等体图神经网络;将第一对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和用于第一对等体图神经网络训练网络的反向传播;
步骤四:对于对第二对等体图神经网络的训练,同时将G(Xp2,Ap2)和G(Xp2→p1,Ap1)分别输入第二对等体图神经网络和第一对等体图神经网络,相应的输出为hp2和hp2→p1;使用hp2→p1作为第二对等体图神经网络的额外监控信号,通过来自同伴的隐性知识来进一步训练对第二对等体图神经网络;将对第二对等体图神经网络的总损失设置为基于数据中的真实标签的相应三元组损失和通过两个学生网络输出的最终表征的差异计算的相应知识提取损失的加权之和,用于对第二对等体图神经网络训练网络的反向传播。
9.权利要求1所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,在多语言社交信息流中不断读取新的社交信息,重复S10到S30,使事件检测模型不断地适应输入数据以检测新事件并更新模型的知识。
10.根据权利要求1所述的一种基于可迁移异构图的多语言事件检测方法,其特征在于,采用K-means或者DBSCAN聚类算法对最终的多语言同构消息图进行聚类,产生消息簇并将其输出,即为检测得到的社交事件。
CN202110922208.9A 2021-08-12 2021-08-12 一种基于可迁移异构图的多语言事件检测方法 Active CN113688203B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110922208.9A CN113688203B (zh) 2021-08-12 2021-08-12 一种基于可迁移异构图的多语言事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110922208.9A CN113688203B (zh) 2021-08-12 2021-08-12 一种基于可迁移异构图的多语言事件检测方法

Publications (2)

Publication Number Publication Date
CN113688203A true CN113688203A (zh) 2021-11-23
CN113688203B CN113688203B (zh) 2023-07-28

Family

ID=78579502

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110922208.9A Active CN113688203B (zh) 2021-08-12 2021-08-12 一种基于可迁移异构图的多语言事件检测方法

Country Status (1)

Country Link
CN (1) CN113688203B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702898A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种基于知识表示学习的文言文知识迁移方法及系统
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070087756A1 (en) * 2005-10-04 2007-04-19 Hoffberg Steven M Multifactorial optimization system and method
CN102420697A (zh) * 2011-09-07 2012-04-18 北京邮电大学 一种可配置服务的综合资源监测管理系统及其方法
CN103596237A (zh) * 2013-11-29 2014-02-19 北京航空航天大学深圳研究院 一种异构通信半径下双向车道中的定向广播路由方法
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
US20180032862A1 (en) * 2016-07-29 2018-02-01 Splunk, Inc. Automated anomaly detection for event-based system
CN111107072A (zh) * 2019-12-11 2020-05-05 中国科学院信息工程研究所 一种基于认证图嵌入的异常登录行为检测方法及系统
CN111680660A (zh) * 2020-06-17 2020-09-18 郑州大学 基于多源异构数据流的人体行为检测方法
CN112287692A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN112949281A (zh) * 2021-01-28 2021-06-11 北京航空航天大学 一种图神经网络的增量社交事件检测方法
CN113050991A (zh) * 2019-12-27 2021-06-29 英特尔公司 用于自适应调度异构处理资源上的工作的设备和方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070087756A1 (en) * 2005-10-04 2007-04-19 Hoffberg Steven M Multifactorial optimization system and method
CN102420697A (zh) * 2011-09-07 2012-04-18 北京邮电大学 一种可配置服务的综合资源监测管理系统及其方法
CN103596237A (zh) * 2013-11-29 2014-02-19 北京航空航天大学深圳研究院 一种异构通信半径下双向车道中的定向广播路由方法
CN104598629A (zh) * 2015-02-05 2015-05-06 北京航空航天大学 基于流式图模型的社交网络突发事件检测方法
US20180032862A1 (en) * 2016-07-29 2018-02-01 Splunk, Inc. Automated anomaly detection for event-based system
CN106886567A (zh) * 2017-01-12 2017-06-23 北京航空航天大学 基于语义扩展的微博突发事件检测方法及装置
CN111107072A (zh) * 2019-12-11 2020-05-05 中国科学院信息工程研究所 一种基于认证图嵌入的异常登录行为检测方法及系统
CN113050991A (zh) * 2019-12-27 2021-06-29 英特尔公司 用于自适应调度异构处理资源上的工作的设备和方法
CN111680660A (zh) * 2020-06-17 2020-09-18 郑州大学 基于多源异构数据流的人体行为检测方法
CN112287692A (zh) * 2020-10-28 2021-01-29 香港中文大学(深圳) 一种跨语言词嵌入的方法、移动终端和计算机存储介质
CN112949281A (zh) * 2021-01-28 2021-06-11 北京航空航天大学 一种图神经网络的增量社交事件检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAOPENG LIU, HAO PENG: "Event detection and evolution in multi-lingual social streams", FRONT. COMPUT. SCI, pages 1 - 15 *
陈佳丽;洪宇;王捷;张婧丽;姚建民;: "利用门控机制融合依存与语义信息的事件检测方法", 中文信息学报, no. 08 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116702898A (zh) * 2023-08-04 2023-09-05 北京语言大学 一种基于知识表示学习的文言文知识迁移方法及系统
CN116702898B (zh) * 2023-08-04 2023-11-03 北京语言大学 一种基于知识表示学习的文言文知识迁移方法及系统
CN117670571A (zh) * 2024-01-30 2024-03-08 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法
CN117670571B (zh) * 2024-01-30 2024-04-19 昆明理工大学 基于异构消息图关系嵌入的增量式社交媒体事件检测方法

Also Published As

Publication number Publication date
CN113688203B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
Guo et al. Re-attention for visual question answering
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN111737552A (zh) 训练信息抽取模型和获取知识图谱的方法、装置和设备
CN113688203A (zh) 一种基于可迁移异构图的多语言事件检测方法
Sharma et al. A survey of methods, datasets and evaluation metrics for visual question answering
CN111753024A (zh) 一种面向公共安全领域的多源异构数据实体对齐方法
CN111753190A (zh) 一种基于元学习的无监督跨模态哈希检索方法
CN113076465A (zh) 一种基于深度哈希的通用跨模态检索模型
CN113705218A (zh) 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置
CN112417097A (zh) 一种用于舆情解析的多模态数据特征提取与关联方法
CN111581368A (zh) 一种基于卷积神经网络的面向智能专家推荐的用户画像方法
CN116975350A (zh) 图文检索方法、装置、设备及存储介质
Liang et al. Sequence to sequence learning for joint extraction of entities and relations
Kunlamai et al. Improving visual question answering for bridge inspection by pre‐training with external data of image–text pairs
Shirghasemi et al. The impact of active learning algorithm on a cross-lingual model in a Persian sentiment task
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
CN116561272A (zh) 开放域视觉语言问答方法、装置、电子设备及存储介质
Li et al. Essay-anchor attentive multi-modal bilinear pooling for textbook question answering
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
Ji et al. Joint representations of knowledge graphs and textual information via reference sentences
Chen Deep adversarial neural network model based on information fusion for music sentiment analysis
CN112861538A (zh) 一种基于上下文语义关系和文档一致性约束的实体链接方法
CN113488196A (zh) 一种药品说明书文本命名实体识别建模方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant