CN112926324A - 融合词典与对抗迁移的越南语事件实体识别方法 - Google Patents
融合词典与对抗迁移的越南语事件实体识别方法 Download PDFInfo
- Publication number
- CN112926324A CN112926324A CN202110164070.0A CN202110164070A CN112926324A CN 112926324 A CN112926324 A CN 112926324A CN 202110164070 A CN202110164070 A CN 202110164070A CN 112926324 A CN112926324 A CN 112926324A
- Authority
- CN
- China
- Prior art keywords
- word
- language
- sentence
- source language
- target language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 238000013508 migration Methods 0.000 title claims abstract description 43
- 230000005012 migration Effects 0.000 claims abstract description 27
- 239000013598 vector Substances 0.000 claims description 54
- 238000013507 mapping Methods 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 37
- 238000012549 training Methods 0.000 claims description 32
- 238000013519 translation Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 20
- 239000000284 extract Substances 0.000 claims description 9
- 235000019580 granularity Nutrition 0.000 claims description 8
- 230000007246 mechanism Effects 0.000 claims description 7
- 238000005728 strengthening Methods 0.000 claims description 6
- 230000003313 weakening effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 14
- 238000013526 transfer learning Methods 0.000 abstract description 4
- 238000002372 labelling Methods 0.000 description 16
- 239000000126 substance Substances 0.000 description 8
- 239000011159 matrix material Substances 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 238000002474 experimental method Methods 0.000 description 4
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/47—Machine-assisted translation, e.g. using translation memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及融合词典与对抗迁移的越南语事件实体识别方法。本发明将越南语作为目标语言,分别将英语和汉语作为源语言,利用源语言的实体标注信息和双语词典提升目标语言的实体识别效果。本发明首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,所提模型相较于单语实体识别模型与当前主流的迁移学习模型的实体识别效果均有提升,相较于单语实体识别模型的F1值分别增加了19.61和18.73。
Description
技术领域
本发明涉及融合词典与对抗迁移的越南语事件实体识别方法,属于自然语言处理技术领域。
背景技术
越南语事件实体识别的目标是在越南语新闻文本中识别并分配特定类型标签,例如,人名,地名,组织机构名和特定政治概念名等。目前大多数事件实体识别系统采用基于双向长短时记忆(BiLSTM)网络和条件随机场(CRF)的组合BiLSTM-CRF进行实体识别,但是此方法需要大量的训练标注语料才能使实体识别效果较好,在低资源语言实体识别的任务上性能非常低。在低资源语言事件实体识别任务上目前效果较好的方式是利用迁移学习的思想,即利用高资源语言的标注信息提升低资源语言的标注效果的策略。目前实现这种迁移学习思想的方式有多任务学习,词级对抗实现双语词嵌入表示,双语词典实现双语词嵌入表示和两层对抗迁移等。
多任务学习是所有任务共享一个编码层,可以通过共享编码层进行知识迁移,但是由于不同语言的序列结构不同,当同时编码两种不同资源的语言信息时,编码器不能保证提取到与语言无关的序列信息从而对高资源语言的标注信息进行较好的迁移;词级对抗实现双语词嵌入表示仅对两种语言的预训练词向量进行对抗训练以将两种语言映射到同一语义空间中,忽略了两种语言的序列特征信息,无法充分的利用源语言的序列特征辅助目标语言进行实体识别;双语词典实现双语词嵌入表示使用大规模双语词典对齐源语言与目标语言的词向量空间,从而将源语言标注信息迁移至目标语言空间上,但人工构造大规模双语词典相对困难且该方法未考虑双语翻译的一词多义问题;两层对抗迁移基于BiLSTM-CRF网络,使用词级对抗迁移将两种语言融入同一语义空间,使用句子级对抗迁移提取与语言无关的序列特征,但是目标语言词语义表征单一且提取与语言无关的序列特征效果较差。
发明内容
本发明提供了融合词典与对抗迁移的越南语事件实体识别方法,用于提升在低资源标注数据情况下的越南语事件实体识别的性能和效果。
本发明的技术方案是:融合词典与对抗迁移的越南语事件实体识别方法,首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
所述方法具体包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
本发明的有益效果:
1、本发明将越南语作为目标语言,分别将英语和汉语作为源语言,利用源语言的实体标注信息和双语词典提升目标语言的实体识别效果。
2、本发明首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
3、本发明在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,所提模型相较于单语实体识别模型与当前主流的迁移学习模型的实体识别效果均有提升,且能够有效的利用源语言的已标注信息提升目标语言(越南语)的实体识别效果。
附图说明
图1为本发明中的总的方法模型结构图;
具体实施方式
实施例1、如图1所示,融合词典与对抗迁移的越南语事件实体识别方法,所述方法包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
实施例2、如图1所示,融合词典与对抗迁移的越南语事件实体识别方法,所述融合词典与对抗迁移的越南语事件实体识别方法的具体步骤如下:
Step1、首先分别获取英语,汉语和越南语的单语语料,通过fasttext工具训练出它们各自的预训练单语词向量。分别将英语和汉语作为源语言,将越南语作为目标语言。得到预训练好的目标语言词向量与预训练好的源语言词向量
然后使用一个线性映射函数f将源语言映射到目标语言空间中:
为了可以自动的优化映射函数f,使用一个多层感知器D作为词级鉴别器。将映射后的源语言词向量与目标语言词向量输入到鉴别器中,每一个词向量对应的输出是一个单纯的数值。
通过最小化如下交叉熵损失函数来训练词级鉴别器:
yi=δi(1-2ε)+ε
映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化如下交叉熵损失函数来训练映射函数f,使得映射函数f的参数趋于最优:
yi=δi(1-2ε)+ε
使用随机梯度下降法在训练过程中对线性映射函数和词级鉴别器进行优化,不断减小损失函数与的值。在词级对抗训练过程之后,基于映射后的源语言空间和目标语言空间,找到k个出现频率最高的源语言词和分别与之距离相近(语义相近)的目标语言词来构建双语词典,利用双语词典进一步优化转换矩阵U。但是考虑到该方法找到的语义上能够完全相同的源语言与目标语言词对的数量较少,因此本发明在词级对抗之后,使用预先构建好的外部双语词典,词典内有语义相同的m个源语言与目标语言词对。同时在得到上述的k个源语言与目标语言词对的基础上,去除该k个词对中源语言词在词典中有对应的词对,将剩下的词对与词典中的m个词对相结合后重构一个新的双语词典。从而利用新的双语词典以有监督的方式进一步优化转换矩阵U。
Step2、在利用词级对抗迁移的方式对齐源语言与目标语言的词表示之后,输入源语言与目标语言的句子表示,将源语言的句子表示通过训练好的线性映射层映射到目标语言语义空间中。此时,可以认为映射后的源语言句子和目标语言句子来自于同一种语言,那么就可以利用源语言的标注信息来对目标语言的句子进行标注了。但是对事件实体进行标注不仅仅需要词级特征,也需要字符级特征和句子内上下文特征。因此分别针对源语言与目标语言的特点提取词级特征和字符级特征。因为不同语言对同一个词往往有不同的解释,所以考虑到为了让目标语言和映射后的源语言获得更丰富的语义表示,分别利用双语词典引入目标语言词翻译后的词嵌入和直接引入映射前的源语言词嵌入的方式使得目标语言得到更多源语言的语义信息。
对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组可以是由一个翻译词或多个翻译词构成。为了更好的结合源语言翻译词的语义信息,需要编码所有的翻译词。使用Vs把每一个源语言翻译词初始化为词向量,将一个源语言翻译词组中包含的所有词向量的集合{t1,...,ti,...,tl}看作其中,l表示源语言翻译词组中词的数目。考虑到源语言翻译词组中每个词的词义与原始对应的目标语言词的词义有不同的差异,为了尽可能的强化与目标语言词的词义相接近的源语言翻译词的权重,将一个目标语言词向量与它的翻译词组向量作为输入,通过如下公式进行计算:
将得到的g1,g2,...,gl输入进softmax函数以得出翻译词组中每个词的重要性分布α1,α2,...,αl:
其中,M表示线性映射矩阵,最小化下面的损失函数以优化M:
在得到优化过的M之后,对于每一个不在双语词典中的目标语言词oi,可以使用下面的公式计算出其对应的源语言翻译词:
同时为了能从不同的表示子空间里学习句子内部源语言翻译词之间的依赖关系,捕获句子的内部结构,因此模型使用多头注意力机制对得到的Pi={p1,p2,pi,...,pQ}进行建模。将得到的多头注意的结果作为此句话最终的源语言翻译词嵌入
对于源语言句子而言:使用Vs把句子中的每一个词表示初始化为词向量使用多头注意力机制对初始化后的词向量集合进行建模,与上述从不同的表示子空间里学习句子内部源语言翻译词之间的依赖关系所使用的多头注意力机制建模过程一致,将得到的多头注意的结果作为此句话的映射前源语言词嵌入
在得到目标语言字符嵌入,目标语言词嵌入和相应的源语言翻译词嵌入以及源语言字符嵌入,源语言词嵌入和相应的映射前源语言词嵌入之后,然后利用多粒度嵌入算法,分别针对源语言与目标语言的词和字符的嵌入进行联合学习。但仅是简单的连接会导致不准确的编码,本发明利用注意力的方式,自适应的根据权重弱化或强化每个粒度,能够更有效的学习输入的信息和丰富单词嵌入。
在得到一句目标语言的词嵌入之后,预测其中一个词是依据:①该词本身,表示为②通过CNN提取到该词所包含的字符特征,表示为③该词对应的源语言翻译词级特征,表示为引入注意力机制来提取对句子意义有重要作用的词,根据其加权重要性在多个粒度之间产生一个知识聚合的单一向量具体计算如下所示:
在得到一句源语言的词嵌入之后,预测其中一个词是依据:①该词本身,表示为②通过CNN提取到该词所包含的字符特征,表示为③该词对应的映射前源语言词级特征,表示为同样使用注意力机制产生一个知识聚合的单一向量具体计算如下:
Step3、在得到融合多粒度信息后的目标语言句子表示与通过线性映射后的源语言句子表示之后,本发明使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征。但是由于不同的语言有不同的词序和句子结构,共享编码器不能保证提取到的特征是与语言无关的序列特征,而且由于两种语言的标注资源不平衡,编码器更倾向于提取标注资源较多的语言(源语言)的特征,而该特征并不一定有助于目标语言的实体标注识别。因此本发明使用句子级对抗迁移的方式使得特征共享编码器可以提取到更多的与语言无关的序列特征。
基于得到的目标语言序列特征与源语言的序列特征本发明使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言。对于一个句子表示x*,首先使用特征共享编码器提取序列特征然后将特征输入进带有最大池化的CNN中得到x*的整体向量表示,最后将向量表示输入进多层感知器中以预测x*来自目标语言的可能性。通过最小化如下交叉熵损失函数来训练句子级鉴别器:
特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方,通过试图让分辨不出具体来自何种语言以使得特征共享编码器的参数得到优化。同时转换句子标签,最小化如下交叉熵损失函数以优化特征共享编码器中的参数:
Step4、在特征共享编码器提取到与语言无关的序列特征之后,就可以利用所有的目标语言与源语言的已标注的训练数据训练一个只针对目标语言的实体识别器。将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。具体过程为:
在得到共享编码器提取到的序列特征之后,将输入进多头注意力上下文编码器中进行注意力计算,计算过程与基于多头注意力特征共享编码器中的计算过程相同,结果得到上下文特征序列然后使用线性层将每一个转换成一个分数向量yi,yi中每一个维度代表一个标签的预测得分。最后将分数向量序列Y={y1,y2,...,yn}送入CRF层。标签序列Z={z1,z2,...,zn}的得分通过如下公式计算得出:
其中,R是转换矩阵,Rp,q表示从标签p到标签q的转换得分,Yi,z表示将第i个单词打上标签z的得分。
对于已标注的标签序列Z,通过如下式子计算出CRF的损失函数:
本发明在属于低资源语言范畴内的越南语上评估了该模型的性能。越南语数据集采用人工构造的越南语新闻数据集,数据集中包含预定义的实体类型有人名,地名,组织机构名和特定政治概念名。针对于作为目标语言的越南语,本发明分别选用了属于高资源语言范畴内的英语和汉语作为源语言。所用到的数据集如表1所示:
表1数据集篇章数与句子数的详细统计
本发明在实验中使用准确率(precision,P),召回率(recall,R)和F1值(F1)作为评价指标。对越南语,英语和汉语新闻语料均使用FastText分别训练出它们各自的单语词嵌入,实验中所使用重要的超参数如表2所示:
表2超参数设置
将本发明提出的方法与五种基线模型进行比较,验证本发明提出方法的有效性。
⑴单语实体识别:只对低资源语言标注语料进行训练,使用目前比较流行的BiLSTM-CRF神经网络进行越南语新闻实体识别。
⑵多任务学习:使用多任务学习的方式实现低资源语言的实体标注。该方法通过使用权重共享的上下文编码器将高资源语言的标注信息迁移到低资源语言上,从而提升低资源语言的实体标注准确率。
⑶词级对抗实现双语词嵌入表示:只使用词级对抗迁移的方式将源语言映射到目标语言空间上,然后利用所有的源语言和目标语言的标注信息对目标语言进行实体识别。在将源语言映射到目标语言空间上之后,可以直接使用两种语言的所有标注信息训练实体识别器对目标语言进行标注(词级对抗实现双语词嵌入表示1);也可以先使用目标语言的标注信息训练实体识别器,再使用源语言的标注信息进行调优(词级对抗实现双语词嵌入表示2)。
⑷双语词典实现双语词嵌入表示:使用预先构造好的双语词典对齐源语言与目标语言的词向量空间,通过最近邻搜索算法找到与源语言词距离最近的目标语言词作为该源语言词的翻译词。使用翻译词和其源语言词对应的标签训练基Self-attentive BiLSTM-CRF网络的目标语言实体识别器。
⑸两层对抗迁移:基于BiLSTM-CRF网络,使用词级对抗迁移的方式将源语言映射到目标语言空间上,然后使用句子级对抗迁移的方式使得共享编码器提取与语言无关的序列特征,最后融合上下文语义信息训练实体识别器对目标语言进行标注。
首先比较在无目标语言标注数据的情况下,本发明提出的方法与对比实验在性能上的差异。在进行句子级对抗迁移训练的时候,移除掉输入的目标语言(越南语)句子的标签信息,在只有源语言标注数据的情况下对句子鉴别器进行优化,训练出针对目标语言的实体识别器。分别以英语和汉语作为源语言对越南语进行实体识别,实验结果如表3所示:
表3无目标语言标注数据情况下实体识别性能
从表3的对比结果可以看出本发明提出的模型在源语言为英语或汉语的情况下均优于其他的网络模型。与只包含权重共享的上下文编码器的多任务学习模型相比,本发明方法不仅加入了语言共享的上下文编码器,而且使用多级对抗训练的方式促使两种语言的词进行语义对齐,基于双语词典融入多粒度特征信息,使用特征共享编码器提取与语言无关的序列特征。分别在源语言为英语和汉语的情况下,F1值增加了21.16和33.27,提升效果显著。与只使用词级对抗实现双语词嵌入表示的模型和两层对抗迁移模型相比,本发明方法不仅使用词级对抗和句子级对抗迁移,更重要的是加入了基于双语词典及注意力的多粒度特征嵌入。从结果可以看出,在准确率,召回率和F1值上均有一定程度的提升。与双语词典实现双语词嵌入表示的模型相比,本发明在其基础上加入了多级对抗迁移,提升了两种语言词的语义对齐效果,从而使得最后的实体识别性能有所提升。
在有目标语言标注数据的情况下,本发明也比较了所提出的方法与对比实验在性能上的差异。分别以英语和汉语作为源语言对越南语进行实体识别,实验结果如表4所示:
表4有目标语言标注数据情况下实体识别性能
从表4中词级对抗实现双语词嵌入表示模型结果和单语实体识别模型结果的对比情况可以看出在利用目标语言标注数据进行训练的基础上直接加入源语言标注数据可能会使得模型性能降低。这也说明了在用于训练的目标语言标注数据不足时,模型会对噪声更加敏感,虽然加入了源语言标注数据,但同时也引入了噪声影响模型的性能。当源语言与目标语言属于同一语系时,多任务学习模型结果优于单语实体识别模型结果;反之,结果则相反。
之所以加入源语言标注数据会引入噪声,原因在于源语言与目标语言的语言表达和序列结构不相同。可以通过双语词典实现双语词嵌入表示模型中的方法,利用预先构造好的双语词典对齐源语言与目标语言的词向量空间,找到源语言词的翻译词,从而实现源语言到目标语言的转换,减弱数据噪声。也可以通过两层对抗迁移模型的方法,使用共享编码器提取到与语言无关的序列特征,从而达到减弱源语言标注数据噪声的问题。从实验结果可以看出,这两种方法的F1值相较于单语实体识别模型均有大幅度提升。本发明方法不仅利用双语词典融入了多粒度特征信息,而且使用基于多头注意力的特征共享编码器提取与语言无关的序列特征,分别在源语言为英语和汉语的情况下,相较于单语实体识别模型的F1值增加了19.61和18.73,提升效果明显。以上实验结果证明了本发明模型在利用源语言标注数据提升目标语言事件实体识别的任务中更有效。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (6)
1.融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
2.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述方法包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
3.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
4.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
5.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
6.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110164070.0A CN112926324B (zh) | 2021-02-05 | 2021-02-05 | 融合词典与对抗迁移的越南语事件实体识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110164070.0A CN112926324B (zh) | 2021-02-05 | 2021-02-05 | 融合词典与对抗迁移的越南语事件实体识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112926324A true CN112926324A (zh) | 2021-06-08 |
CN112926324B CN112926324B (zh) | 2022-07-29 |
Family
ID=76170915
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110164070.0A Active CN112926324B (zh) | 2021-02-05 | 2021-02-05 | 融合词典与对抗迁移的越南语事件实体识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112926324B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326378A (zh) * | 2021-06-16 | 2021-08-31 | 山西财经大学 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113657128A (zh) * | 2021-08-25 | 2021-11-16 | 四川大学 | 基于重要性度量和低资源迁移学习翻译系统及存储介质 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114860920A (zh) * | 2022-04-20 | 2022-08-05 | 内蒙古工业大学 | 一种基于异构图的单语言主题摘要生成方法 |
CN116776887A (zh) * | 2023-08-18 | 2023-09-19 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111460824A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
CN111738006A (zh) * | 2020-06-22 | 2020-10-02 | 苏州大学 | 基于商品评论命名实体识别的问题生成方法 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
US20200342172A1 (en) * | 2019-04-26 | 2020-10-29 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for tagging text based on adversarial learning |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
-
2021
- 2021-02-05 CN CN202110164070.0A patent/CN112926324B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111563381A (zh) * | 2019-02-12 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 文本处理方法和装置 |
US20200342172A1 (en) * | 2019-04-26 | 2020-10-29 | Wangsu Science & Technology Co., Ltd. | Method and apparatus for tagging text based on adversarial learning |
WO2020215457A1 (zh) * | 2019-04-26 | 2020-10-29 | 网宿科技股份有限公司 | 一种基于对抗学习的文本标注方法和设备 |
CN111241837A (zh) * | 2020-01-04 | 2020-06-05 | 大连理工大学 | 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法 |
CN111222339A (zh) * | 2020-01-13 | 2020-06-02 | 华南理工大学 | 一种基于对抗多任务学习的医疗咨询命名实体识别方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111753557A (zh) * | 2020-02-17 | 2020-10-09 | 昆明理工大学 | 融合emd最小化双语词典的汉-越无监督神经机器翻译方法 |
CN111460824A (zh) * | 2020-03-30 | 2020-07-28 | 华南理工大学 | 一种基于对抗迁移学习的无标注命名实体识别方法 |
CN111651993A (zh) * | 2020-05-11 | 2020-09-11 | 北京理工大学 | 融合局部-全局字符级关联特征的中文命名实体识别方法 |
CN111738006A (zh) * | 2020-06-22 | 2020-10-02 | 苏州大学 | 基于商品评论命名实体识别的问题生成方法 |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
Non-Patent Citations (2)
Title |
---|
LIFU HUANG 等: "Cross-lingual Multi-Level Adversarial Transfer to Enhance Low-Resource Name Tagging", 《PROCEEDINGS OF NAACL-HLT 2019》, 7 June 2019 (2019-06-07), pages 3823 - 3833 * |
余传明 等: "基于标签迁移和深度学习的跨语言实体抽取研究", 《现代情报》, vol. 40, no. 12, 31 December 2020 (2020-12-31), pages 3 - 15 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326378A (zh) * | 2021-06-16 | 2021-08-31 | 山西财经大学 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
CN113326378B (zh) * | 2021-06-16 | 2022-09-06 | 山西财经大学 | 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113657128A (zh) * | 2021-08-25 | 2021-11-16 | 四川大学 | 基于重要性度量和低资源迁移学习翻译系统及存储介质 |
CN113657128B (zh) * | 2021-08-25 | 2023-04-07 | 四川大学 | 基于重要性度量和低资源迁移学习翻译系统及存储介质 |
CN113901229A (zh) * | 2021-09-15 | 2022-01-07 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN113901229B (zh) * | 2021-09-15 | 2022-09-27 | 昆明理工大学 | 基于句法图卷积的汉越双语新闻事件因果关系抽取方法 |
CN114580422A (zh) * | 2022-03-14 | 2022-06-03 | 昆明理工大学 | 一种结合近邻分析的两阶段分类的命名实体识别方法 |
CN114860920A (zh) * | 2022-04-20 | 2022-08-05 | 内蒙古工业大学 | 一种基于异构图的单语言主题摘要生成方法 |
CN116776887A (zh) * | 2023-08-18 | 2023-09-19 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
CN116776887B (zh) * | 2023-08-18 | 2023-10-31 | 昆明理工大学 | 一种基于样本相似性计算的负采样远程监督实体识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112926324B (zh) | 2022-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926324B (zh) | 融合词典与对抗迁移的越南语事件实体识别方法 | |
CN109635124B (zh) | 一种结合背景知识的远程监督关系抽取方法 | |
CN108959252B (zh) | 基于深度学习的半监督中文命名实体识别方法 | |
CN111310438B (zh) | 基于多粒度融合模型的中文句子语义智能匹配方法及装置 | |
CN110083682B (zh) | 一种基于多轮注意力机制的机器阅读理解答案获取方法 | |
CN110866399B (zh) | 一种基于增强字符向量的中文短文本实体识别与消歧方法 | |
CN110825848B (zh) | 一种基于短语向量的文本分类方法 | |
CN111985239A (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN110597961A (zh) | 一种文本类目标注方法、装置、电子设备及存储介质 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN113190656A (zh) | 一种基于多标注框架与融合特征的中文命名实体抽取方法 | |
CN114818717A (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN115759092A (zh) | 一种基于albert的网络威胁情报命名实体识别方法 | |
CN114757184B (zh) | 实现航空领域知识问答的方法和系统 | |
CN115587594A (zh) | 网络安全的非结构化文本数据抽取模型训练方法及系统 | |
CN117010387A (zh) | 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统 | |
CN110569355A (zh) | 一种基于词块的观点目标抽取和目标情感分类联合方法及系统 | |
Xue et al. | A method of chinese tourism named entity recognition based on bblc model | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
CN116562291A (zh) | 一种基于边界检测的中文嵌套命名实体识别方法 | |
Padia et al. | UMBC at SemEval-2018 Task 8: Understanding text about malware | |
CN115730232A (zh) | 基于主题相关的异构图神经网络跨语言文本分类方法 | |
US11822887B2 (en) | Robust name matching with regularized embeddings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |