CN114611487B - 基于动态词嵌入对齐的无监督泰语依存句法分析方法 - Google Patents

基于动态词嵌入对齐的无监督泰语依存句法分析方法 Download PDF

Info

Publication number
CN114611487B
CN114611487B CN202210240990.0A CN202210240990A CN114611487B CN 114611487 B CN114611487 B CN 114611487B CN 202210240990 A CN202210240990 A CN 202210240990A CN 114611487 B CN114611487 B CN 114611487B
Authority
CN
China
Prior art keywords
thai
dependency
word
english
unsupervised
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210240990.0A
Other languages
English (en)
Other versions
CN114611487A (zh
Inventor
余正涛
张弘弢
王剑
文永华
相艳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210240990.0A priority Critical patent/CN114611487B/zh
Publication of CN114611487A publication Critical patent/CN114611487A/zh
Application granted granted Critical
Publication of CN114611487B publication Critical patent/CN114611487B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/169Annotation, e.g. comment data or footnotes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于动态词嵌入对齐的无监督泰语依存句法分析方法,属于自然语言处理领域。本发明包括步骤:首先分别获取泰语和英语的单语动态词嵌入;然后针对泰语作为低资源语言缺乏双语平行语料,采用对抗训练的方式将泰语和英语的词向量进行对齐,从而构建新的词向量对应关系;最后针对泰语缺乏标注语料,借助泰语和英语间的映射矩阵将在英语依存标注树库上训练的Biaffine解析模型迁移到泰语,以此实现无监督泰语依存句法分析任务。与以往基于迁移学习的泰语依存句法分析方法相比,本发明既不需要平行语料、又不需要泰语依存标注语料,可以在资源成本更低的情况下完成泰语依存句法分析。

Description

基于动态词嵌入对齐的无监督泰语依存句法分析方法
技术领域
本发明涉及基于动态词嵌入对齐的无监督泰语依存句法分析方法,属于自然语言处理技术领域。
背景技术
近年来,国内外众多研究人员针对资源稀缺语言的句法分析任务展开了许多研究。依存句法分析分为基于转移的方法和基于图的方法,近几年出现了针对这两种不同方法的神经网络模型。基于转移的方法通过shift-reduce两个基本的动作来将序列转换为树结构,Stack LSTM模型通过三个LSTM来分别建模栈状态、待输入序列和动作序列。虽然Stack LSTM取得了非常好的效果,但是最流行的方法是基于图的方法,即直接用神经网络来预测每两个词之间存在依存关系的概率。目前基于图的依存句法分析中经典的方法如Biaffine模型,它类似全连接自注意力模型,Biaffine模型简单,并且在很多数据集上都取得了当前最好的结果。然而,泰语公开的依存标注数据只有universal dependenies中1000句的标注测试集,泰语的依存句法分析任务现存的显著问题是缺乏依存标注树库,国内外对泰语的依存句法分析都涉及较少。Sornlertlamvanich等人采用基于规则的方法在两千多句语料中进行了分析,语料规模较小且未公开。陶广奉使用迁移学习的思想,利用大量未标注的汉泰双语平行句对语料从现有的大规模汉语依存句法分析知识库中迁移构建泰语的依存句法分析器,但该方法需要大量的双语平行句对,且需要依靠汉语和泰语之间的语言相似性。
针对泰语既缺乏高质量的依存标注树库,又缺少大规模的双语平行语料的问题,使用迁移学习思想,提出了通过无监督词嵌入对齐在既不依赖标注的泰语依存树库也不需要平行语料的情况下,利用英语的依存标注语料训练Biaffine解析器,从而实现泰语的依存句法分析的方法。
发明内容
本发明提供了基于动态词嵌入对齐的无监督泰语依存句法分析方法,相比于之前其他的基于迁移学习思想实现的泰语依存句法分析方法,既不需要泰语依存标注数据、又不需要平行语料,所需要的资源成本更低。
本发明的技术方案是:基于动态词嵌入对齐的无监督泰语依存句法分析方法,所述方法的具体步骤如下:
Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入;
Step2、然后采用MUSE无监督方法通过对抗训练将泰语和英语的词向量进行对齐,从而获得泰语和英语的词嵌入对齐矩阵;
Step3、接着利用英语依存标注数据训练一个基于动态词嵌入的Biaffine依存解析器;
Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器,依据此模型进行无监督泰语依存句法分析。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、爬取泰语单语语料和英语单语语料,该单语语料为一句一行,且将泰语单语句子进行分词预处理。
Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语动态词嵌入,得到英语和泰语的单语词向量,过程如图2左侧所示。
Step1.3、计算均值向量用于表示动态词向量,简化上下文相关嵌入的映射。如图2右侧所示,对于i在不同上下文环境c中对应的不同词向量计算平均表征作为它的均值向量,如公式(1),
Figure BDA0003541655320000021
表示i的上下文相关嵌入的均值向量,
Figure BDA0003541655320000022
表示在特定上下文c中的均值偏移向量,v′i,c作为i在特定上下文c中的向量表示。
Figure BDA0003541655320000023
Step1.4、计算余弦相似度实现同种语言中语义相近词的聚类,来改善向量空间的对齐。如图2右侧所示,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。如公式(2)所示,vi,c和vj,c表示特定上下文c中的不同标记i和j的向量,余弦相似度余弦值越接近1,就表明两者越相似。
Figure BDA0003541655320000024
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、如图3所示,通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵。将泰语和英语的的单语词嵌入
Figure BDA0003541655320000025
Figure BDA0003541655320000026
做对齐,映射矩阵如公式(3)所示,据此获得粗粒度的映射矩阵。对抗训练使用带线性生成器的原始GAN,判别器D的损失如公式(4)所示,旨在最大化区分W′Vth和Ven两个嵌入空间的能力;而W′通过训练试图阻止判别器D正确区分,目标函数如公式(5)所示。
Figure BDA0003541655320000031
Figure BDA0003541655320000032
Figure BDA0003541655320000033
Step2.2、根据粗粒度的映射矩阵,选取一些高频词构建平行词对。
Step2.3、用Procrustes算法对构建的平行词对进行微调,如公式(6)所示,最小化这些词对之间的差异,获得精调后的对齐矩阵。
W=argminW′∈Od(R)‖W′Vth-VenF (6)
作为本发明的优选方案,所述步骤Step3的具体步骤为:
Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入。
Step3.2、将提取到的英语动态词嵌入输入Biaffine模型,训练一个Biaffine依存解析器。先将提取到的动态词嵌入送入BiLSTM生成隐藏层表征ri。用两个独立的MLP对ri进行降维,如公式(7)和(8)所示,分别得到每个表征的dep和head向量,避免过拟合。
Figure BDA0003541655320000034
Figure BDA0003541655320000035
然后将其输入到仿射层,使用一个arc分类器预测存在依存关系的词对,如公式(9)所示,Biaffine注意力机制将每个单词在arc分类器输出分数最高的词作为其头结点。
Figure BDA0003541655320000036
再使用一个label分类器预测单词与其头结点间的依存标签,Biaffine注意力机制将每个有依存关系的词对在label分类器输出的分数最高的依存关系作为其依存标签。
作为本发明的优选方案,所述步骤Step4的具体步骤为:
Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入。
Step4.2、将Step2.3中获取的对齐矩阵和泰语词嵌入一起输入Step3.2中预训练的Biaffine依存解析器,完成无监督泰语依存句法标注。
对本发明做进一步阐述的,所述步骤Step1、Step2、Step3、Step4中:
1)提到的动态词嵌入:
本发明采用Matthew E.Peters等人在2018年提出的ELMo预训练语言模型实现单语词向量提取,ELMo采用多层双向LSTM,这是一种无监督的动态词向量模型,既避免了模型庞大等缺陷,又获取了双向上下文信息。首先从静态的词向量表里查找词向量用于输入;再将词向量分别输入第1层前向LSTM和后向LSTM得到第1层前向输出和第1层后向输出,将第1层前向输出传入到第2层前向LSTM得到第2层前向输出,将第1层后向输出传入到第2层后向LSTM得到第2层后向输出;最终可以得到的词向量包括原始的静态向量和每一层前向LSTM及后向LSTM分别的最后一个输出,即采用L层的双向LSTM则最终可以得到2L+1个词向量。其中不同层得到的词向量侧重点不同,映射层可以比较好的编码词性信息,第1个双向LSTM层可以比较好的编码句法信息,第2个双向LSTM可以比较好的编码单词语义信息。ELMo通过多层词向量的融合得到最终词向量,最终词向量可以兼顾多种不同层次的信息。由于第1个双向LSTM层的输出包含更多句法特征,所以本发明采用第1个双向LSTM层的输出进行后续操作。然后计算均值向量并进行余弦相似度聚类,最终得到的词向量表示作为获取对齐矩阵要使用的动态词嵌入。
2)提到的MUSE无监督方法:
本发明使用的MUSE中的无监督方法即使不使用双语词典也能实现对齐,因此采用MUSE中的无监督方法实现泰语和英语的词嵌入对齐。该方法是基于生成式对抗网络(GAN)的方法,目的是学习一个线性变换来最小化目标分布和源分布之间的散度。先通过对抗训练获得一个粗粒度的映射矩阵W′,然后对W′进行精调并最终获得W。
3)提到的基于动态词嵌入的Biaffine依存解析器:
本发明使用的依存解析器是将传统的Biaffine依存解析模型进行了修改。将提取到的动态词嵌入代替原本的Biaffine依存解析模型中的静态词嵌入,送入BiLSTM生成隐藏层表征ri,再用两个独立的MLP对ri进行降维,然后将其输入到仿射层,使用一个arc分类器预测存在依存关系的词对,将每个单词在arc分类器输出分数最高的词作为其头结点。对于arc分类器找到的存在依存关系的词对,再使用一个label分类器预测单词与其头结点间的依存标签,该分类器的类别数等于所有可能的依存标签数。Biaffine注意力机制将每个有依存关系的词对在label分类器输出的分数最高的依存关系作为其依存标签。
本发明的有益效果是:
1、本发明的基于动态词嵌入对齐的无监督泰语依存句法分析方法,针对泰语作为低资源语言缺乏高质量的依存标注数据的问题,使用迁移学习的思想通过泰英的词嵌入对齐矩阵将在英语标注语料上训练的依存解析器迁移到泰语上来完成泰语的依存句法标注。
2、本发明的基于动态词嵌入对齐的无监督泰语依存句法分析方法,由于泰语作为低资源语言缺乏大规模的双语平行语料,因此使用对抗训练的方式构建了泰英的动态词嵌入映射矩阵,该方法不需要使用任何平行语料,且可以在没有任何泰语标注数据的情况下实现泰语的依存句法分析。
附图说明
图1为本发明中的无监督泰语依存句法分析流程图;
图2为泰语动态词嵌入获取的示意图;
图3为无监督获取泰英词对齐过程的示意图;
图4为基于动态词嵌入对齐的泰语依存句法解析模型示意图。
具体实施方式
实施例1:如图1-图4所示,基于动态词嵌入对齐的无监督泰语依存句法分析方法,所述具体步骤如下:
Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入;
Step2、然后采用对抗训练的方式将泰语和英语的词向量进行对齐,从而获得泰语和英语的词嵌入对齐矩阵;
Step3、接着利用英语依存标注数据训练一个Biaffine依存解析器;
Step4、最后将得到的泰英对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器,依据此模型进行无监督泰语依存句法分析。
作为本发明的优选方案,所述Step1的具体步骤为:
Step1.1、爬取泰语单语语料和英语单语语料,该单语语料为一句一行,且将泰语单语句子进行分词预处理。
Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语动态词嵌入,得到英语和泰语的单语词向量,过程如图2左侧所示。
Step1.3、计算均值向量用于表示动态词向量,简化上下文相关嵌入的映射。如图2右侧所示,对于i在不同上下文环境c中对应的不同词向量计算平均表征作为它的均值向量,如公式(1),
Figure BDA0003541655320000061
表示i的上下文相关嵌入的均值向量,
Figure BDA0003541655320000062
表示在特定上下文c中的均值偏移向量,v′i,c作为i在特定上下文c中的向量表示。均值向量的计算简化了跨语言动态嵌入空间的构建,同时对于一词多义词的对齐有帮助。
Figure BDA0003541655320000063
Step1.4、计算余弦相似度实现同种语言中语义相近词的聚类,来改善向量空间的对齐。如图2右侧所示,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。对特定上下文c中的不同标记i和j的向量vi,c和vj,c计算余弦相似度如公式(2)所示,余弦值越接近1,就表明夹角越接近0度,即两者越相似。通过计算不同向量间的余弦相似度,为每个表征选取同种语言中与它相似程度最高的标记进行聚类,相似度大于设定阈值则聚类成功。
Figure BDA0003541655320000064
作为本发明的优选方案,所述Step2的具体步骤为:
Step2.1、如图3所示,通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵。将泰语和英语的的单语词嵌入
Figure BDA0003541655320000065
Figure BDA0003541655320000066
做对齐,映射矩阵如公式(3)所示。对抗训练使用带线性生成器的原始GAN,判别器D的损失如公式(4)所示,旨在最大化区分W′Vth和Ven两个嵌入空间的能力;而W′通过训练试图阻止判别器D正确区分,目标函数如公式(5)所示,当W′在大量样本上都能阻止判别器D作出准确的预测时,即两个嵌入空间相近,据此获得粗粒度的映射矩阵。
Figure BDA0003541655320000071
Figure BDA0003541655320000072
Figure BDA0003541655320000073
Step2.2、根据粗粒度的映射矩阵,选取一些高频词构建平行词对。
Step2.3、用Procrustes算法对构建的平行词对进行微调,如公式(6)所示,最小化这些词对之间的差异,获得精调后的对齐矩阵。
W=argminW′∈Od(R)‖W′Vth-VenF (6)
作为本发明的优选方案,所述Step3的具体步骤为:
Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入。
Step3.2、将提取到的英语动态词嵌入输入Biaffine模型,训练一个Biaffine依存解析器。先将提取到的动态词嵌入送入BiLSTM生成隐藏层表征ri。用两个独立的MLP对ri进行降维,如公式(7)和(8)所示,分别得到每个表征的dep和head向量,避免过拟合。
Figure BDA0003541655320000074
Figure BDA0003541655320000075
然后将其输入到仿射层,使用一个arc分类器预测存在依存关系的词对,如公式(9)所示,Biaffine注意力机制将每个单词在arc分类器输出分数最高的词作为其头结点。
Figure BDA0003541655320000076
再使用一个label分类器预测单词与其头结点间的依存标签,Biaffine注意力机制将每个有依存关系的词对在label分类器输出的分数最高的依存关系作为其依存标签。
作为本发明的优选方案,所述Step4的具体步骤为:
Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入。
Step4.2、将Step2.3中获取的对齐矩阵和泰语词嵌入一起输入Step3.2中预训练的Biaffine依存解析器,完成无监督泰语依存句法标注。
本发明使用无标记依存正确率(UAS)和带标记依存正确率(LAS)作为衡量泰语依存句法解析质量的指标。具体公式如下:
UAS=正确预测中心词的词的数量/总词数
LAS=正确预测中心词和标签的词的数量/总词数
其中,UAS是测试集中找到其正确支配词的词(包括没有标注支配词的根结点)所占总词数的百分比,LAS是测试集中找到其正确支配词并且依存关系类型也标注正确的词(包括没有标注支配词的根结点)占总词数的百分比。
实验:
为验证本发明提出的基于动态词嵌入对齐的泰语依存句法分析方法的可行性与有效性,在不使用任何泰语标注数据作为训练数据的情况下,如表1所示,采用UniversalDependency的其他语言的依存标注树库对Biaffine解析模型进行训练,同时采用Universal Dependency的Thai treebanks公开的1k句泰语依存标注测试集作为本实验的泰语测试集,在泰语依存句法分析任务上进行了实验。实验数据如表1所示。
表1实验数据
Figure BDA0003541655320000081
实验采用ELMo模型生成上下文嵌入,ELMo中使用的BiLSTM层数L=2;采用MUSE中的无监督方法对泰语和训练语言的词嵌入空间完成对齐时,鉴别器使用隐层大小为2048的多层感知器,激活函数采用Leaky-ReLU。依存句法解析过程使用在pytorch上封装的AllenNLP框架里的Biaffine解析器实现依存句法解析,编码器使用Bi-LSTM,隐层大小为200。批处理大小设置为32,训练的epochs为40,patience设置为10,Dropout设置为0.33。
实验尝试分别将英语、汉语或法语作为单种迁移语言来训练biaffine解析器,该实验未使用任何泰语依存标注数据作为训练集,如表2所示,前六列中每两列分数分别为使用不同的单种训练语言(分别使用英语、汉语、法语)训练Biaffine解析器时在泰语测试集上进行测试的UAS和LAS分数。实验结果显示,与将其他单种语言作为迁移语言相比较,将英语作为迁移语言时泰语依存句法分析任务效果最好。
表2无监督泰语依存句法分析的实验结果
Figure BDA0003541655320000091
原因分析:
首先,虽然英语和法语属于印欧语系,泰语和汉语同属于汉藏语系,但泰语本身在句法结构上与各种高资源语言都存在很大差别,英、泰、汉的语序结构基本上都使用“主谓宾”结构,但汉语口语表达语序会更加灵活,法语的语法更加复杂,英、泰的状语与定语修饰则时常后置而把有效成分放在前面,因此泰语与英语在句法结构上存在少许的共性。其次,本说明所采用的MUSE无监督方法是一种不是必须依赖语言相似性实现词对齐的方法,即使在相似性差距较大的语言之间,依然可以实现一定的对齐效果,而英语不仅原始数据和标注数据都十分丰富,且依存句法分析任务已经非常成熟。因此,相较于其他单种迁移语言,英语对泰语的无监督依存句法分析有更好的帮助。
该组实验还逐一删掉无监督对齐前将单语向量进行均值计算和余弦相似度聚类的过程,以及将ELMo动态嵌入替换成静态嵌入方式。表2结果表明,使用本发明的方法相较于其他方法更有效。虽然无监督的实验分数并不是非常可观,但是该方法没有使用任何平行语料,且各步均使用无监督的方法,获得这样的结果已经较好的完成了泰语的无监督依存句法分析任务。
针对泰语依存标注数据和平行语料都匮乏的问题,本发明提出了一种基于迁移学习的无监督泰语依存句法分析方法,同时无监督的构建了泰语和英语之间的对齐矩阵。该方法不需要使用任何平行语料,且可以在没有任何泰语标注数据的情况下实现泰语的依存句法分析。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.基于动态词嵌入对齐的无监督泰语依存句法分析方法,其特征在于:所述方法的具体步骤如下:
Step1、首先将泰语单语语料和英语单语语料分别采用预训练语言模型获取单语动态词嵌入;
Step2、然后采用对抗训练的方式将泰语和英语的词向量进行对齐,从而获得泰语和英语的词嵌入对齐矩阵;
Step3、接着利用英语依存标注数据训练一个Biaffine依存解析器;
Step4、最后将得到的泰英词嵌入对齐矩阵和泰语无标注语料一起输入到预训练的Biaffine依存解析器,依据此模型进行无监督泰语依存句法分析;
所述Step1的具体步骤为:
Step1.1、爬取泰语单语语料和英语单语语料,单语语料为一句一行,且将泰语单语句子进行分词预处理;
Step1.2、采用ELMo预训练语言模型分别获取英语和泰语的单语词向量;计算均值向量用于表示动态词向量,简化上下文相关词向量的映射,此外计算余弦相似度实现同种语言中语义相近词的聚类,来改善向量空间的对齐,将最终的表示作为动态词嵌入;
所述Step3的具体步骤为:
Step3.1、使用英语的ELMo预训练模型提取有依存标注的英语训练数据的动态词嵌入;
Step3.2、将提取到的英语动态词嵌入输入Biaffine模型,训练一个Biaffine依存解析器。
2.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法,其特征在于:所述Step2的具体步骤为:
Step2.1、使用带线性生成器的原始GAN通过对抗训练生成一个泰语和英语之间的粗粒度映射矩阵;
Step2.2、根据粗粒度的映射矩阵,选取高频词构建平行词对;
Step2.3、用Procrustes算法对构建的平行词对进行微调,最小化这些平行词对之间的差异,获得精调后的泰语和英语的词嵌入对齐矩阵。
3.根据权利要求1所述的基于动态词嵌入对齐的无监督泰语依存句法分析方法,其特征在于:所述Step4的具体步骤为:
Step4.1、使用泰语的ELMo预训练模型提取无依存标注的泰语数据的动态词嵌入;
Step4.2、将Step2中获取的词嵌入对齐矩阵和泰语词嵌入一起输入Step3中预训练的Biaffine依存解析器,完成无监督泰语依存句法标注。
CN202210240990.0A 2022-03-10 2022-03-10 基于动态词嵌入对齐的无监督泰语依存句法分析方法 Active CN114611487B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210240990.0A CN114611487B (zh) 2022-03-10 2022-03-10 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210240990.0A CN114611487B (zh) 2022-03-10 2022-03-10 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Publications (2)

Publication Number Publication Date
CN114611487A CN114611487A (zh) 2022-06-10
CN114611487B true CN114611487B (zh) 2022-12-13

Family

ID=81863153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210240990.0A Active CN114611487B (zh) 2022-03-10 2022-03-10 基于动态词嵌入对齐的无监督泰语依存句法分析方法

Country Status (1)

Country Link
CN (1) CN114611487B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062885A (ko) * 2018-11-27 2020-06-04 서강대학교산학협력단 의존 구문 분석 장치 및 방법
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质
CN112699665A (zh) * 2021-03-25 2021-04-23 北京智源人工智能研究院 一种安全报告文本的三元组抽取方法、装置及电子设备
CN113268588A (zh) * 2021-06-16 2021-08-17 深圳前海微众银行股份有限公司 文本摘要提取方法、装置、设备、存储介质及程序产品
CN113901791A (zh) * 2021-09-15 2022-01-07 昆明理工大学 低资源条件下融合多策略数据增强的依存句法分析方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200210491A1 (en) * 2018-12-31 2020-07-02 Charles University Faculty of Mathematics and Physics Computer-Implemented Method of Domain-Specific Full-Text Document Search
CN110377903B (zh) * 2019-06-24 2020-08-14 浙江大学 一种句子级实体和关系联合抽取方法
US11544456B2 (en) * 2020-03-05 2023-01-03 Adobe Inc. Interpretable label-attentive encoder-decoder parser
CN112084793B (zh) * 2020-09-14 2024-05-14 深圳前海微众银行股份有限公司 基于依存句法的语义识别方法、设备和可读存储介质
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200062885A (ko) * 2018-11-27 2020-06-04 서강대학교산학협력단 의존 구문 분석 장치 및 방법
CN112084769A (zh) * 2020-09-14 2020-12-15 深圳前海微众银行股份有限公司 依存句法模型优化方法、装置、设备及可读存储介质
CN112699665A (zh) * 2021-03-25 2021-04-23 北京智源人工智能研究院 一种安全报告文本的三元组抽取方法、装置及电子设备
CN113268588A (zh) * 2021-06-16 2021-08-17 深圳前海微众银行股份有限公司 文本摘要提取方法、装置、设备、存储介质及程序产品
CN113901791A (zh) * 2021-09-15 2022-01-07 昆明理工大学 低资源条件下融合多策略数据增强的依存句法分析方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Deep Contextualized Self-training for Low Resource Dependency Parsing;Guy Rotman;《Transactions of the Association for Computational Linguistics (2019)》;20191201;全文 *
Self-attentive Biaffine Dependency Parsing;Ying Li etc.;《Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence (IJCAI-19)》;20191231;全文 *
向印尼语的依存句法分析研究;符斯慧;《中国优秀硕士论文全文数据库》;20200315;全文 *
基于依存图网络的汉越神经机器翻译方法;余正涛,文永华等;《中文信息学报》;20211215;全文 *
融合多策略数据增强的低资源依存句法分析方法;线岩团,余正涛等;《计算机科学》;20220115;全文 *

Also Published As

Publication number Publication date
CN114611487A (zh) 2022-06-10

Similar Documents

Publication Publication Date Title
CN109213995B (zh) 一种基于双语词嵌入的跨语言文本相似度评估技术
CN108829722A (zh) 一种远程监督的Dual-Attention关系分类方法及系统
CN113343683B (zh) 一种融合自编码器和对抗训练的中文新词发现方法及装置
CN112541356B (zh) 一种生物医学命名实体识别的方法和系统
Yang et al. Towards bidirectional hierarchical representations for attention-based neural machine translation
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN114492441A (zh) 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法
CN113657123A (zh) 基于目标模板指导和关系头编码的蒙语方面级情感分析方法
Wu et al. Tdv2: A novel tree-structured decoder for offline mathematical expression recognition
Chen et al. Cross-lingual text image recognition via multi-task sequence to sequence learning
CN114861082A (zh) 一种基于多维度语义表示的攻击性评论检测方法
CN114048314A (zh) 一种自然语言隐写分析方法
Shirghasemi et al. The impact of active learning algorithm on a cross-lingual model in a Persian sentiment task
CN114611487B (zh) 基于动态词嵌入对齐的无监督泰语依存句法分析方法
CN116662924A (zh) 基于双通道与注意力机制的方面级多模态情感分析方法
CN115510230A (zh) 一种基于多维特征融合与比较增强学习机制的蒙古语情感分析方法
CN114548117A (zh) 一种基于bert语义增强的因果关系抽取方法
CN114595700A (zh) 融合零代词与篇章信息的汉越神经机器翻译方法
CN114490995A (zh) 多级自注意力的网络安全协同处置作战室语义摘要方法
Jin et al. Research on multi-granularity ensemble learning based on Korean
CN115146057B (zh) 基于交互注意力的供应链生态区图文融合情感识别方法
CN114676709B (zh) 基于零代词补齐的汉越数据增强方法
CN118036577B (zh) 一种自然语言处理中的序列标注方法
Aysa et al. Sub-word based unsupervised bilingual dictionary induction for Chinese-Uyghur
CN116681087B (zh) 一种基于多阶段时序和语义信息增强的自动问题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant