CN113901209A - 基于类型感知的汉越跨语言事件检测方法 - Google Patents

基于类型感知的汉越跨语言事件检测方法 Download PDF

Info

Publication number
CN113901209A
CN113901209A CN202111078802.0A CN202111078802A CN113901209A CN 113901209 A CN113901209 A CN 113901209A CN 202111078802 A CN202111078802 A CN 202111078802A CN 113901209 A CN113901209 A CN 113901209A
Authority
CN
China
Prior art keywords
chinese
language
vietnamese
event
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111078802.0A
Other languages
English (en)
Inventor
高盛祥
张磊
余正涛
朱恩昌
张勇丙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202111078802.0A priority Critical patent/CN113901209A/zh
Publication of CN113901209A publication Critical patent/CN113901209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及基于类型感知的汉越跨语言事件检测方法,属自然语言处理领域。包括:利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语‑越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。本发明缓解了越南语数据稀疏和标注困难的问题。并模糊触发词的形态和语义,缓解了传统方法中单语歧义性和触发词局限性等问题。

Description

基于类型感知的汉越跨语言事件检测方法
技术领域
本发明涉及基于类型感知的汉越跨语言事件检测方法,属于自然语言处理技术领域。
背景技术
事件检测是NLP的重要主题之一,目标是在纯文本中识别特定类型的事件类型。汉越跨语言事件检测就是在汉语和越南语上实现双语事件检测。
汉越两国事件关联性越来越强,这些事件主要体现为汉越跨语言文本,而有效进行汉越双语事件检测,对把握相关事件发展趋势,为政府及企业进行事件监测及决策提供重要的依据和支撑国家国际交流与合作有非常重要的作用。目前在汉越事件方面的跨语言研究工作还很有限,尤其涉及到跨语言语义表征问题。汉语语料丰富而越南语作为小语种语料稀缺、数据标注困难,而汉越同属孤立语系,既存在相似之处又存在明显的差异性,给汉越事件检测带来了挑战。
跨语言事件检测方法目前还没有系统的分类,针对跨语言问题的解决大致有以下三类:一是基于多语言方的法,二是基于跨语言词向量映射的方法,三是跨语言任务中还有使用翻译和对抗的方法。
上述都方法依赖大量人工标注训练数据和平行语料,对于越南语来说,只有少量汉-越平行语料,越南语的有标注数据稀缺,且人工标注代价昂贵。用于事件检测的许多最先进的模型严重依赖于监督学习方法的大量标注训练数据,并没有足够的越南语言数据作为统计学习模型的训练支撑,使得汉越跨语言模型性能表现不佳。且越南语事件触发词的标注和识别存在歧义,使得越南语事件检测局限于多音节词歧义。
发明内容
本发明提供了基于类型感知的汉越跨语言事件检测方法,缓解越南语数据稀疏和标注困难,以及传统方法中单语歧义性和触发词局限性等问题。
本发明的技术方案是:首先利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从大量汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。
作为本发明的优选方案,所述方法的具体步骤如下:
Step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
Step2、以Bi-LSTM编码后,使用基于事件类型的注意力机制对Bi-LSTM输出的隐藏状态向量序列重新提取特征,获得新的句子表示。网络在特征提取阶段就编码了事件类型等信息,使得注意力机制将更多的权重分配给与本事件类型相关的词上;
Step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以json格式储存到数据库中;
Step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原的数据处理,使用StanfordNLP标记出词位置、词性和命名实体信息;
Step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
作为本发明的进一步方案,所述步骤Step1.3中:
输入汉越文本被建模为单词序列X=w1....wn,其中每个wi由其词嵌入vi表示。由于汉越各自训练出的单语词嵌入向量矩阵C和V分布不同,需要找到最佳映射矩阵WC、WV,使CWC、VWV在同一语义空间下。使用无监督的方法,结合自学习算法来逐渐优化映射矩阵W,将W约束为正交矩阵即
WWT=WTW=I
使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、根据当前词嵌入向量vi,前一个正序隐藏层状态
Figure BDA0003263105290000031
和逆序隐藏层状态
Figure BDA0003263105290000032
得到前正序隐藏层状态和逆序隐藏层状态:
Figure BDA0003263105290000033
Figure BDA0003263105290000034
Step2.2、注意力机制基于目标事件类型计算句子的向量表示,所以模型是“事件类型感知”的。根据输入的事件类型T查表得到随机初始化的三个事件类型嵌入:正序
Figure BDA0003263105290000035
逆序
Figure BDA0003263105290000036
导注意力机制关注事件类型信息(事件相关词的局部语义信息),tG拟合句子的全局语义信息。事件检测的准确性同时依赖事件相关词的局部语义和句子全局语义信息,句子总的表示由局部和全局信息加权得到;
Step2.3、给定句子隐藏状态向量输出
Figure BDA0003263105290000037
的第k个隐藏状态
Figure BDA0003263105290000038
第k个词嵌入向量的注意力分数
Figure BDA0003263105290000039
由以下方程计算(逆序计算同理):
Figure BDA00032631052900000310
Figure BDA00032631052900000311
通过句子计算本身的注意力分数
Figure BDA00032631052900000312
并由注意力分数基于事件类型相关信息重新表示句子,突显事件特征。
作为本发明的进一步方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在本发明的模型中,目标事件类型的触发词预计获得比其他词更高的注意力权重。句子的表示Satt由以下公式计算:
Figure BDA00032631052900000313
其中
Figure BDA00032631052900000314
是句子正序和逆序计算出的注意力向量序列,
Figure BDA00032631052900000315
正序逆序的隐藏状态;
Step2.3.2、利用Bi-LSTM的最后输出
Figure BDA00032631052900000316
Figure BDA00032631052900000317
整合了句子的全局信息,两个拼接得到Hn,通过目标事件类型T查表得到全局tG,Sglobal期望捕获整个句子语义:
Figure BDA0003263105290000041
Step2.3.3、通过调整局部信息和全局信息的加权比,模型能够更好的分类句子所属的事件类型。μ∈[0,1]是Satt和Sgobal之间权衡的超参数,而输出定义为Satt和Sglobal的加权和:
μ·Satt+(1-μ)·Sglobal
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料:其中,涉及到的模型由三部分构成:基于事件类型感知并融入词位置、词性和命名实体等信息的汉越特征提取器F旨在学习有助于预测事件分类器P的特征,并抑制语言鉴别器Q、汉越特征提取器F、基于标准多层前馈网络的事件检测器P和语言鉴别器Q;
Step3.2、语言鉴别器Q为汉语句子表示输出更高的分数,为越南语输出更低的分数,因此Q是对抗性的。同时事件检测器P对汉语句子表示进行事件类型分类。而训练有素的Q无法分辨出F提取特征的语种,这个特征可以看作是两种语言共有的,即语言无关的且与事件类型有关的。在F和Q之间有一个梯度反转层,使得F的参数在Q和P中都参与梯度更新,但是一个最小化分类误差(事件检测器),另一个是最大化分类误差(语言鉴别器);
通过这种方式训练大量有标签的汉语语料和无标签的越南语料,利用丰富的汉语语言信息提高越南语事件检测的准确性,缓解越南语数据稀疏的问题,并通过基于事件类型感知的特征提取网络,模糊处理事件触发词,缓解传统方法中单语歧义性和触发词局限性等问题,得到汉越跨语言事件检测模型。
作为本发明的进一步方案,所述步骤Step3.1包括:
Step3.1.1、根据汉越特征提取器F提取的隐藏特征f(x),培训目标P末尾使用softmax层分类事件类型,Q是一个二进制分类器,末尾有一个sigmoid层为语言打分,范围始终在[0,1],表示输入文本x为汉语或越南语,训练过后,打分应趋向于0.5。考虑汉语和越南语的联合隐藏特征F的分布
Figure BDA0003263105290000042
Figure BDA0003263105290000043
Figure BDA0003263105290000044
Step3.1.2、模型在训练时,未标记的汉语(蓝线)和越南语(黄线)数据通过语言鉴别器,而有标签的汉语文本通过事件检测器。然后用越南语文本验证特征提取器和事件鉴别器。通过这种方式,训练大量有标签的汉语和无标签的越南语。Jp和Jq是培训目标P和Q。F、P的参数一起更新。-JQ和JQ的意思是期望最大化语言鉴别器Q的分类损失。
作为本发明的进一步方案,所述步骤Step3.2包括:
Step3.2.1、为了学习语言不变的特征,对抗训练将使这两个分布尽可能接近以获得更好的跨语言泛化。根据Kantorovich Rubinstein对偶性最小化
Figure BDA0003263105290000051
Figure BDA0003263105290000052
之间的wasserstein距离W,该距离有连续性,训练时提供更好的梯度:
Figure BDA0003263105290000053
Step3.2.2、公式中对于所有的x和y,函数g应当满足利普希茨(Lipschitz)连续条件。为了近似地计算
Figure BDA0003263105290000054
使用语言判别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让Q参数化为θq,然后Q的目标jq变为:
Figure BDA0003263105290000055
Step3.2.3、公式中对于所有的x和y,函数g应当满足利普希茨(Lipschitz)连续条件。为了近似地计算
Figure BDA0003263105290000056
使用语言判别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让Q参数化为θq,然后Q的目标jq变为:
Figure BDA0003263105290000057
Step3.2.4、事件检测器P由θp参数化,使用二分类交叉熵损失,表示为
Figure BDA0003263105290000058
其中
Figure BDA0003263105290000059
和y分别是预测的标签分布和真标签,lp是P预测正确标签的对数似然函数。我们给事件检测器增加了一个有偏的损失。给定所有的训练样本数量为M,x,y,θ是模型的参数,δ是L2normalization权重。1+y(i)·β是偏置对于负样本为1,对于正样本为1+β,β大于0,我们为Q寻求以下损失函数的最小值:
Figure BDA00032631052900000510
最后,由θf参数化的联合特征提取器F最小化事件检测器损失Jp和语言鉴别器损失Jq
Figure BDA0003263105290000061
Step4、选取五个基线系统设置对比实验,对比基线系统与基于类型感知的汉越跨语言事件检测方法在汉语-越南语跨语言事件检测任务上的准确率P、召回率R和F1值。
Step4.1、实验共有七个模型系统,分别是基于类型感知的汉越跨语言事件检测模型Ours和未扩展融合位置、词性和命名实体信息的模型Ours′,对比将事件类型感知的联合特征提取网络替换为平均网络、多层注意力机制的Bi-LSTM-Att、多个level提取词语和语句特征的CNN、双向RNN、融合不同层次的关键模式信息和全局结构信息的CNN-LSTM-Att模型;
Step4.2、实验配置为window10,实验所需环境为Python3.7、Pytorch0.4.0。本发明汉语和越南语都采用Glove词向量来初始化新闻文本,词向量维度L为100,窗口大小为5,并剔除词频小于5的词。为了缓解过拟合现象,将0.2的dropout应用于事件检测器的全连接层。lr1=lr2=0.0005。采用自适应矩估计Adam(AdaptiveMoment Estimation)训练模型进行优化,它是一个基于随机梯度的优化器,具有自适应估计。Q参数的剪辑范围为[-0.01,0.01],平衡P和Q对F影响地协调训练超参数λ为0.01,K为25。δ取0.0001,β为0.9,μ为0.35。所有参数经模型验证为最优。
本发明的有益效果是:
1.提出一种汉越语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,利用丰富的汉语语言信息,缓解了越南语数据稀疏和标注困难的问题。
2.提出基于事件类型的注意力机制凸显事件相关词的语义贡献,融合词位置、词性、命名实体信息,探索在没有清晰定义触发词的情况下检测事件。模糊触发词的形态和语义,缓解了传统方法中单语歧义性和触发词局限性等问题。
附图说明
图1为本发明中的总的流程图;
图2为本发明中的简略流程图;
图3为本发明中的基于事件类型感知的特征提取网络示意图;
图4为本发明中的基于类型感知的汉越跨语言事件检测方法流程图;
图5为本发明实验数据集。
具体实施方式
实施例1:如图1-图4所示,基于类型感知的汉越跨语言事件检测方法,所述方法的具体步骤如下:
Step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
Step2、以Bi-LSTM编码后,使用基于事件类型的注意力机制对Bi-LSTM输出的隐藏状态向量序列重新提取特征,获得新的句子表示。网络在特征提取阶段就编码了事件类型等信息,使得注意力机制将更多的权重分配给与本事件类型相关的词上;
Step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以ison格式储存到数据库中;
Step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原的数据处理,使用StanfordNLP标记出词位置、词性和命名实体信息;
Step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
作为本发明的进一步方案,所述步骤Step1.3中:
输入汉越文本被建模为单词序列X=w1....wn,其中每个wi由其词嵌入vi表示。由于汉越各自训练出的单语词嵌入向量矩阵C和V分布不同,需要找到最佳映射矩阵WC、WV,使CWC、VWV在同一语义空间下。使用无监督的方法,结合自学习算法来逐渐优化映射矩阵W,将W约束为正交矩阵即
WWT=WTW=I
使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、根据当前词嵌入向量vi,前一个正序隐藏层状态
Figure BDA0003263105290000081
和逆序隐藏层状态
Figure BDA0003263105290000082
得到前正序隐藏层状态和逆序隐藏层状态:
Figure BDA0003263105290000083
Figure BDA0003263105290000084
Step2.2、注意力机制基于目标事件类型计算句子的向量表示,所以模型是“事件类型感知”的。根据输入的事件类型T查表得到随机初始化的三个事件类型嵌入:正序
Figure BDA0003263105290000085
逆序
Figure BDA0003263105290000086
导注意力机制关注事件类型信息(事件相关词的局部语义信息),tG拟合句子的全局语义信息。事件检测的准确性同时依赖事件相关词的局部语义和句子全局语义信息,句子总的表示由局部和全局信息加权得到;
Step2.3、给定句子隐藏状态向量输出
Figure BDA0003263105290000087
的第k个隐藏状态
Figure BDA0003263105290000088
第k个词嵌入向量的注意力分数
Figure BDA0003263105290000089
由以下方程计算(逆序计算同理):
Figure BDA00032631052900000810
Figure BDA00032631052900000811
我们通句子计算本身的注意力分数
Figure BDA00032631052900000812
并由注意力分数基于事件类型相关信息重新表示句子,突显事件特征。
作为本发明的进一步方案,所述步骤Step2.3的具体步骤为:
Step2.3.1、在本发明的模型中,目标事件类型的触发词预计获得比其他词更高的注意力权重。句子的表示Satt由以下公式计算:
Figure BDA00032631052900000813
其中
Figure BDA00032631052900000814
是句子正序和逆序计算出的注意力向量序列,
Figure BDA00032631052900000815
正序逆序的隐藏状态;
Step2.3.2、利用Bi-LSTM的最后输出
Figure BDA00032631052900000816
Figure BDA00032631052900000817
整合了句子的全局信息,两个拼接得到Hn,通过目标事件类型T查表得到全局tG,Sglobal期望捕获整个句子语义:
Figure BDA00032631052900000818
Step2.3.3、通过调整局部信息和全局信息的加权比,模型能够更好的分类句子所属的事件类型。μ∈[0,1]是Satt和Sglobal之间权衡的超参数,而输出定义为Satt和Sglobal的加权和:
μ·Satt+(1-μ)·Sglobal
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料:其中,涉及到的模型由三部分构成:基于事件类型感知并融入词位置、词性和命名实体等信息的汉越特征提取器F旨在学习有助于预测事件分类器P的特征,并抑制语言鉴别器Q、汉越特征提取器F、基于标准多层前馈网络的事件检测器P和语言鉴别器Q;
Step3.2、语言鉴别器Q为汉语句子表示输出更高的分数,为越南语输出更低的分数,因此Q是对抗性的。同时事件检测器P对汉语句子表示进行事件类型分类。而训练有素的Q无法分辨出F提取特征的语种,这个特征可以看作是两种语言共有的,即语言无关的且与事件类型有关的。在F和Q之间有一个梯度反转层,使得F的参数在Q和P中都参与梯度更新,但是一个最小化分类误差(事件检测器),另一个是最大化分类误差(语言鉴别器);
通过这种方式训练大量有标签的汉语语料和无标签的越南语料,利用丰富的汉语语言信息提高越南语事件检测的准确性,缓解越南语数据稀疏的问题,并通过基于事件类型感知的特征提取网络,模糊处理事件触发词,缓解传统方法中单语歧义性和触发词局限性等问题,得到汉越跨语言事件检测模型。
作为本发明的进一步方案,所述步骤Step3.1包括:
Step3.1.1、根据汉越特征提取器F提取的隐藏特征f(x),培训目标P末尾使用softmax层分类事件类型,Q是一个二进制分类器,末尾有一个sigmoid层为语言打分,范围始终在[0,1],表示输入文本x为汉语或越南语,训练过后,打分应趋向于0.5。考虑汉语和越南语的联合隐藏特征F的分布
Figure BDA0003263105290000091
Figure BDA0003263105290000092
Figure BDA0003263105290000093
Step3.1.2、模型在训练时,未标记的汉语(蓝线)和越南语(黄线)数据通过语言鉴别器,而有标签的汉语文本通过事件检测器。然后用越南语文本验证特征提取器和事件鉴别器。通过这种方式,训练大量有标签的汉语和无标签的越南语。Jp和Jq是培训目标P和Q。F、P的参数一起更新。-JQ和JQ的意思是期望最大化语言鉴别器Q的分类损失。
作为本发明的进一步方案,所述步骤Step3.2包括:
Step3.2.1、为了学习语言不变的特征,对抗训练将使这两个分布尽可能接近以获得更好的跨语言泛化。根据Kantorovich Rubinstein对偶性最小化
Figure BDA0003263105290000101
Figure BDA0003263105290000102
之间的wasserstein距离W,该距离有连续性,训练时提供更好的梯度:
Figure BDA0003263105290000103
Step3.2.2、公式中对于所有的x和y,函数g应当满足利普希茨(Lipschitz)连续条件。为了近似地计算
Figure BDA0003263105290000104
使用语言判别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让Q参数化为θq,然后Q的目标jq变为:
Figure BDA0003263105290000105
Step3.2.3、公式中对于所有的x和y,函数g应当满足利普希茨(Lipschitz)连续条件。为了近似地计算
Figure BDA0003263105290000106
使用语言判别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c]。让Q参数化为θq,然后Q的目标jq变为:
Figure BDA0003263105290000107
Step3.2.4、事件检测器P由θp参数化,使用二分类交叉熵损失,表示为
Figure BDA0003263105290000108
其中
Figure BDA0003263105290000109
和y分别是预测的标签分布和真标签,lp是P预测正确标签的对数似然函数。我们给事件检测器增加了一个有偏的损失。给定所有的训练样本数量为M,x,y,θ是模型的参数,δ是L2normalization权重。1+y(i)·β是偏置对于负样本为1,对于正样本为1+β,β大于0,我们为Q寻求以下损失函数的最小值:
Figure BDA00032631052900001010
最后,由θf参数化的联合特征提取器F最小化事件检测器损失Jp和语言鉴别器损失Jq
Figure BDA00032631052900001011
Step4、选取五个基线系统设置对比实验,对比基线系统与基于类型感知的汉越跨语言事件检测方法在汉语-越南语跨语言事件检测任务上的准确率P、召回率R和F1值。
Step4.1、实验共有七个模型系统,分别是基于类型感知的汉越跨语言事件检测模型Ours和未扩展融合位置、词性和命名实体信息的模型Ours′,对比将事件类型感知的联合特征提取网络替换为平均网络、多层注意力机制的Bi-LSTM-Att、多个level提取词语和语句特征的CNN、双向RNN、融合不同层次的关键模式信息和全局结构信息的CNN-LSTM-Att模型;
Step4.2、实验配置为window10,实验所需环境为Python3.7、Pytorch0.4.0。本发明汉语和越南语都采用Glove词向量来初始化新闻文本,词向量维度L为100,窗口大小为5,并剔除词频小于5的词。为了缓解过拟合现象,将0.2的dropout应用于事件检测器的全连接层。lr1=lr2=0.0005。采用自适应矩估计Adam(AdaptiveMoment Estimation)训练模型进行优化,它是一个基于随机梯度的优化器,具有自适应估计。Q参数的剪辑范围为[-0.01,0.01],平衡P和Q对F影响地协调训练超参数λ为0.01,K为25。δ取0.0001,β为0.9,μ为0.35。所有参数经模型验证为最优。
此优选方案设计是为了利用丰富的汉语语言信息,模糊触发词的形态和语义,缓解越南语数据稀疏、标注困难和传统方法中单语歧义性和触发词局限性等问题。
本发明在低资源场景下进行汉语-越南语跨语言事件检测实验。实验训练语料规模为:汉语数据21万条,其中20万条为训练集,1万条为测试集。越南语数据143061条为训练集,8236条为测试集。具体的实验数据集如图5所示。在训练之前对实验数据进行了过滤乱码与分词处理,其中汉语分词采用结巴分词,越南语分词采用Underthesea-VietnameseNLP工具。
为了评估基于类型感知的汉越跨语言事件检测方法的有效性我们设置了五组对比实验。表1中给出的是基线系统与基于类型感知的汉越跨语言事件检测模型的事件检测准确率P、召回率R和F1值对比结果。
表1不同模型的事件检测对比结果
Figure BDA0003263105290000111
Figure BDA0003263105290000121
由表1可知,平均网络就是对输入文本的向量序列各取平均,这是最基本的特征提取方式,同时由于这种方法不区分各词向量之间的重要程度,事件检测的效果最差准确率只有32.27%。RNN取得除平均网络外最低的准确率和F1,而CNN能捕捉局部相关的关键信息,同时不存在RNN的梯度消失和梯度爆炸问题,相比于RNN取得了6.23%的提升。Bi-LSTM-Att解决了RNN存在的问题,使用了注意力机制为不同的信息分配不同权重,较CNN获得了1.59%的提升。CNN-LSTM-Att由于同时具有循环神经网络可以提取文本的全局结构信息,卷积神经网络局部特征提取和注意力机制的优点,准确率达到了47.66%。
本发明的模型准确率相较于CNN-LSTM-Att和Bi-LSTM-Att也得到了2.07%和4.5%的提升。分析原因,虽然CNN-LSTM-Att和Bi-LSTM-Att都使用了注意力机制,但都是无外部信息的自注意力,简而言之就是注意力机制没有结合本任务的事件相关信息,输入文本的词向量之间的权重分配依据就是文本本身。而本发明利用基于事件类型信息的注意力机制指导句子中得词获得占比权重,利用了本次任务即事件检测的重要外部信息,可以更好的结合任务特性学习句子向量特征。模型在扩展词位置、词性和命名实体信息后,准确率达到了51.98%,表明模型不仅可以获取句子内部特定方面和词语之间的依赖关系,也可以捕获更多有利于检测事件的相关的特征信息。
为进一步验证模型跨语言的有效性,验证模型通过训练大量有标签汉语提高无标签越南语事件检测的准确率,去掉语言鉴别器Q的实验即不再进行汉越语言的对抗训练,并添加汉语验证集,从第5轮到第30轮的迭代次数中对比汉语事件检测和越南语事件检测准确度提升情况。由表3可知,在没有语言对抗的模型中,应为本身训练集中就存在事件类型标注,汉语事件检测的准确率随着多轮迭代训练得到大幅提升,而越南语没有相关标注,事件检测准确率提升几乎没有。而在语言对抗的模型中,通过汉越语言的对抗训练,越南语准确率得到明显提升,在第30轮的训练中较无语言鉴别器的情况提升0.319,证明语言鉴别器的对抗训练的确将汉语中语言无关但事件类型歧视性信息的语义信息融入了越南语中。
表2语言对抗对越南语事件检测准确率的影响
Figure BDA0003263105290000131
实验结果表明,该方法能够提升低资源场景下汉越跨语言事件检测性能,模型较最好的基线系统有明显的提升,准确率达到了51.98%。在下一步的工作中会对事件类型等的语言无关的语义信息融入特征提取阶问题进行更深入的研究。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (9)

1.基于类型感知的汉越跨语言事件检测方法,其特征在于:所述方法首先利用汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;然后构造事件类型感知的注意力机制突显事件特征,最后通过梯度反转,实现有标注汉语和无标注越南语之间的对抗训练,将从汉语新闻文本中学到的语言无关的事件类型特征融入到联合特征提取器中,进行汉越跨语言的无触发词事件检测。
2.根据权利要求1所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述方法的具体步骤如下:
Step1、获取汉、越单语语料,再经过过滤、去噪音、去除停用词、分词,获取词位置、词性和命名实体信息后,构建汉越可比语料;通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征;
Step2、以Bi-LSTM编码后,使用基于事件类型的注意力机制对Bi-LSTM输出的隐藏状态向量序列重新提取特征,获得新的句子表示;网络在特征提取阶段就编码了事件类型信息,使得注意力机制将多的权重分配给与本事件类型相关的词上;
Step3、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料,在汉语和越南语分布之间存在转移的情况下训练语言鉴别器,迁移汉语中事件类型信息到共享的特征提取器中,将经汉语训练的事件检测器用于越南语,实现汉越跨语言事件检测。
3.根据权利要求2所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、首先使用xpath从互联网上爬取相关网页的汉英越单语语料,把已爬取出的单语语料,经过过滤、去噪音处理,构建出句子级可比语料,并以json格式储存到数据库中;
Step1.2、使用nlp工具对各单语语料进行去除停用词、分词、词干提取和词形还原的数据处理,使用StanfordNLP标记出词位置、词性和命名实体信息;
Step1.3、通过汉越可比语料训练汉越各自的单语词嵌入向量矩阵,并使用词位置、词性和命名实体信息扩充,将汉语-越南语跨语言双语词嵌入映射到公共的语义空间进行预训练,得到汉语和越南语的跨语言词向量表征。
4.根据权利要求3所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step1.3中:
输入汉越文本被建模为单词序列X=w1....wn,其中每个wi由其词嵌入vi表示;由于汉越各自训练出的单语词嵌入向量矩阵C和V分布不同,需要找到最佳映射矩阵WC、WV,使CWC、VWV在同一语义空间下;使用无监督的方法,结合自学习算法来逐渐优化映射矩阵W,将W约束为正交矩阵即
WWT=WTW=I
使得在单语语义不变性情况下,汉语和越南语中语义相同的词嵌入在公共语义空间中的距离更近,用于缓解汉语和越南语之间的差异,让跨语言模型更加健壮。
5.根据权利要求2所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、根据当前词嵌入向量vi,前一个正序隐藏层状态
Figure FDA0003263105280000021
和逆序隐藏层状态
Figure FDA0003263105280000022
得到前正序隐藏层状态和逆序隐藏层状态:
Figure FDA0003263105280000023
Figure FDA0003263105280000024
Step2.2、注意力机制基于目标事件类型计算句子的向量表示,根据输入的事件类型T查表得到随机初始化的三个事件类型嵌入:正序
Figure FDA0003263105280000025
逆序
Figure FDA0003263105280000026
导注意力机制关注事件类型信息,即事件相关词的局部语义信息,tG拟合句子的全局语义信息,事件检测的准确性同时依赖事件相关词的局部语义和句子全局语义信息,句子总的表示由局部和全局信息加权得到;
Step2.3、给定句子隐藏状态向量输出
Figure FDA0003263105280000027
的第k个隐藏状态
Figure FDA0003263105280000028
第k个词嵌入向量的注意力分数
Figure FDA0003263105280000029
由以下方程计算,逆序计算同理:
Figure FDA00032631052800000210
Figure FDA00032631052800000211
通过句子计算本身的注意力分数
Figure FDA00032631052800000212
并由注意力分数基于事件类型相关信息重新表示句子,突显事件特征。
6.根据权利要求5所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step2.3的具体步骤为:
Step2.3.1、目标事件类型的触发词预计获得比其他词更高的注意力权重,句子的表示Satt由以下公式计算:
Figure FDA0003263105280000031
其中
Figure FDA0003263105280000032
是句子正序和逆序计算出的注意力向量序列,
Figure FDA0003263105280000033
正序逆序的隐藏状态;
Step2.3.2、利用Bi-LSTM的最后输出
Figure FDA0003263105280000034
Figure FDA0003263105280000035
整合了句子的全局信息,两个拼接得到Hn,通过目标事件类型T查表得到全局tG,Sglobal期望捕获整个句子语义:
Figure FDA0003263105280000036
Step2.3.3、通过调整局部信息和全局信息的加权比,能够更好的分类句子所属的事件类型;μ∈[0,1]是Satt和Sglobal之间权衡的超参数,而输出定义为Satt和Sglobal的加权和:
μ·Satt+(1-μ)·Sglobal
7.根据权利要求2所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、采取语言对抗的方式训练大量有标注的汉语语料和无标注越南语语料:其中,涉及到的模型由三部分构成:基于事件类型感知并融入词位置、词性和命名实体等信息的汉越特征提取器F旨在学习有助于预测事件分类器P的特征,并抑制语言鉴别器Q、汉越特征提取器F、基于标准多层前馈网络的事件检测器P和语言鉴别器Q;
Step3.2、语言鉴别器Q为汉语句子表示输出更高的分数,为越南语输出更低的分数,因此Q是对抗性的,同时事件检测器P对汉语句子表示进行事件类型分类;而训练有素的Q无法分辨出F提取特征的语种,在F和Q之间有一个梯度反转层,使得F的参数在Q和P中都参与梯度更新。
8.根据权利要求7所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step3.1包括:
Step3.1.1、根据汉越特征提取器F提取的隐藏特征f(x),培训目标P末尾使用softmax层分类事件类型,Q是一个二进制分类器,末尾有一个sigmoid层为语言打分,范围始终在[0,1],表示输入文本x为汉语或越南语,训练过后,打分应趋向于0.5,考虑汉语和越南语的联合隐藏特征f(x)的分布
Figure FDA0003263105280000041
Figure FDA0003263105280000042
Figure FDA0003263105280000043
Step3.1.2、模型在训练时,未标记的汉语和越南语数据通过语言鉴别器,而有标签的汉语文本通过事件检测器,然后用越南语文本验证特征提取器和事件鉴别器,通过这种方式,训练大量有标签的汉语和无标签的越南语。
9.根据权利要求7所述的基于类型感知的汉越跨语言事件检测方法,其特征在于:所述步骤Step3.2包括:
Step3.2.1、为了学习语言不变的特征,对抗训练将使这两个分布尽可能接近以获得更好的跨语言泛化;根据Kantorovich Rubinstein对偶性最小化
Figure FDA0003263105280000044
Figure FDA0003263105280000045
之间的wasserstein距离W,该距离有连续性,训练时提供更好的梯度:
Figure FDA0003263105280000046
Step3.2.2、公式中对于所有的x和y,函数g应当满足利普希茨连续条件;为了近似地计算
Figure FDA0003263105280000047
使用语言鉴别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c];让Q参数化为θq,然后Q的目标jq变为:
Figure FDA0003263105280000048
Step3.2.3、公式中对于所有的x和y,函数g应当满足利普希茨连续条件;为了近似地计算
Figure FDA0003263105280000049
使用语言判别器Q作为公式中的函数g,这使得q的参数总是需要被剪辑到固定范围[-c,c];让Q参数化为θq,然后Q的目标jq变为:
Figure FDA00032631052800000410
Step3.2.4、事件检测器P由θp参数化,使用二分类交叉熵损失,表示为
Figure FDA00032631052800000411
其中
Figure FDA00032631052800000412
和y分别是预测的标签分布和真标签,lp是P预测正确标签的对数似然函数,给事件检测器增加了一个有偏的损失,给定所有的训练样本数量为M,x,y,θ是模型的参数,δ是L2normalization权重,1+y(i)·β是偏置对于负样本为1,对于正样本为1+β,β大于0,为Q寻求以下损失函数的最小值:
Figure FDA0003263105280000051
最后,由θf参数化的联合特征提取器F最小化事件检测器损失Jp和语言鉴别器损失Jq
Figure FDA0003263105280000052
CN202111078802.0A 2021-09-15 2021-09-15 基于类型感知的汉越跨语言事件检测方法 Pending CN113901209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111078802.0A CN113901209A (zh) 2021-09-15 2021-09-15 基于类型感知的汉越跨语言事件检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111078802.0A CN113901209A (zh) 2021-09-15 2021-09-15 基于类型感知的汉越跨语言事件检测方法

Publications (1)

Publication Number Publication Date
CN113901209A true CN113901209A (zh) 2022-01-07

Family

ID=79028506

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111078802.0A Pending CN113901209A (zh) 2021-09-15 2021-09-15 基于类型感知的汉越跨语言事件检测方法

Country Status (1)

Country Link
CN (1) CN113901209A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN116312484A (zh) * 2023-05-18 2023-06-23 南京邮电大学 跨语言域不变声学特征提取方法和系统
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张磊等: "类型感知的汉越跨语言事件检测方法", 《重庆邮电大学学报(自然科学版)》, vol. 34, no. 5, 24 August 2021 (2021-08-24), pages 2 - 6 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114896394A (zh) * 2022-04-18 2022-08-12 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN114896394B (zh) * 2022-04-18 2024-04-05 桂林电子科技大学 基于多语言预训练模型的事件触发词检测与分类方法
CN116312484A (zh) * 2023-05-18 2023-06-23 南京邮电大学 跨语言域不变声学特征提取方法和系统
CN116312484B (zh) * 2023-05-18 2023-09-08 南京邮电大学 跨语言域不变声学特征提取方法和系统
CN116701576A (zh) * 2023-08-04 2023-09-05 华东交通大学 无触发词的事件检测方法和系统
CN116701576B (zh) * 2023-08-04 2023-10-10 华东交通大学 无触发词的事件检测方法和系统

Similar Documents

Publication Publication Date Title
CN107992597B (zh) 一种面向电网故障案例的文本结构化方法
CN108595632B (zh) 一种融合摘要与主体特征的混合神经网络文本分类方法
CN113901209A (zh) 基于类型感知的汉越跨语言事件检测方法
CN106372061B (zh) 基于语义的短文本相似度计算方法
CN113268995B (zh) 中文学术关键词抽取方法、装置和存储介质
CN108363816A (zh) 基于句义结构模型的开放式实体关系抽取方法
CN109800437A (zh) 一种基于特征融合的命名实体识别方法
CN109885686A (zh) 一种融合主题信息和BiLSTM-CNN的多语种文本分类方法
CN112668319B (zh) 基于中文信息和越南语句法指导的越南语新闻事件检测方法
CN109101490B (zh) 一种基于融合特征表示的事实型隐式情感识别方法和系统
Sayed et al. A survey of Arabic text classification approaches
CN111078833A (zh) 一种基于神经网络的文本分类方法
CN112163089B (zh) 一种融合命名实体识别的高技术文本分类方法及系统
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Jiang et al. Study on text representation method based on deep learning and topic information
CN114417851A (zh) 一种基于关键词加权信息的情感分析方法
CN110569355B (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
CN104572632B (zh) 一种确定具有专名译文的词汇的翻译方向的方法
Jayanto et al. Aspect-based sentiment analysis for hotel reviews using an improved model of long short-term memory.
CN111259147A (zh) 基于自适应注意力机制的句子级情感预测方法及系统
Wan et al. BiLSTM-CRF Chinese named entity recognition model with attention mechanism
CN110489624B (zh) 基于句子特征向量的汉越伪平行句对抽取的方法
CN116578708A (zh) 一种基于图神经网络的论文数据姓名消歧算法
Ahmad et al. Machine and Deep Learning Methods with Manual and Automatic Labelling for News Classification in Bangla Language
Hassani et al. Disambiguating spatial prepositions using deep convolutional networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination