CN112926324A - 融合词典与对抗迁移的越南语事件实体识别方法 - Google Patents

融合词典与对抗迁移的越南语事件实体识别方法 Download PDF

Info

Publication number
CN112926324A
CN112926324A CN202110164070.0A CN202110164070A CN112926324A CN 112926324 A CN112926324 A CN 112926324A CN 202110164070 A CN202110164070 A CN 202110164070A CN 112926324 A CN112926324 A CN 112926324A
Authority
CN
China
Prior art keywords
word
language
sentence
source language
target language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110164070.0A
Other languages
English (en)
Other versions
CN112926324B (zh
Inventor
余正涛
薛振宇
线岩团
相艳
王红斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202110164070.0A priority Critical patent/CN112926324B/zh
Publication of CN112926324A publication Critical patent/CN112926324A/zh
Application granted granted Critical
Publication of CN112926324B publication Critical patent/CN112926324B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及融合词典与对抗迁移的越南语事件实体识别方法。本发明将越南语作为目标语言,分别将英语和汉语作为源语言,利用源语言的实体标注信息和双语词典提升目标语言的实体识别效果。本发明首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,所提模型相较于单语实体识别模型与当前主流的迁移学习模型的实体识别效果均有提升,相较于单语实体识别模型的F1值分别增加了19.61和18.73。

Description

融合词典与对抗迁移的越南语事件实体识别方法
技术领域
本发明涉及融合词典与对抗迁移的越南语事件实体识别方法,属于自然语言处理技术领域。
背景技术
越南语事件实体识别的目标是在越南语新闻文本中识别并分配特定类型标签,例如,人名,地名,组织机构名和特定政治概念名等。目前大多数事件实体识别系统采用基于双向长短时记忆(BiLSTM)网络和条件随机场(CRF)的组合BiLSTM-CRF进行实体识别,但是此方法需要大量的训练标注语料才能使实体识别效果较好,在低资源语言实体识别的任务上性能非常低。在低资源语言事件实体识别任务上目前效果较好的方式是利用迁移学习的思想,即利用高资源语言的标注信息提升低资源语言的标注效果的策略。目前实现这种迁移学习思想的方式有多任务学习,词级对抗实现双语词嵌入表示,双语词典实现双语词嵌入表示和两层对抗迁移等。
多任务学习是所有任务共享一个编码层,可以通过共享编码层进行知识迁移,但是由于不同语言的序列结构不同,当同时编码两种不同资源的语言信息时,编码器不能保证提取到与语言无关的序列信息从而对高资源语言的标注信息进行较好的迁移;词级对抗实现双语词嵌入表示仅对两种语言的预训练词向量进行对抗训练以将两种语言映射到同一语义空间中,忽略了两种语言的序列特征信息,无法充分的利用源语言的序列特征辅助目标语言进行实体识别;双语词典实现双语词嵌入表示使用大规模双语词典对齐源语言与目标语言的词向量空间,从而将源语言标注信息迁移至目标语言空间上,但人工构造大规模双语词典相对困难且该方法未考虑双语翻译的一词多义问题;两层对抗迁移基于BiLSTM-CRF网络,使用词级对抗迁移将两种语言融入同一语义空间,使用句子级对抗迁移提取与语言无关的序列特征,但是目标语言词语义表征单一且提取与语言无关的序列特征效果较差。
发明内容
本发明提供了融合词典与对抗迁移的越南语事件实体识别方法,用于提升在低资源标注数据情况下的越南语事件实体识别的性能和效果。
本发明的技术方案是:融合词典与对抗迁移的越南语事件实体识别方法,首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
所述方法具体包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
本发明的有益效果:
1、本发明将越南语作为目标语言,分别将英语和汉语作为源语言,利用源语言的实体标注信息和双语词典提升目标语言的实体识别效果。
2、本发明首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
3、本发明在越南语新闻数据集上的实验结果表明,在源语言为英语和汉语的情况下,所提模型相较于单语实体识别模型与当前主流的迁移学习模型的实体识别效果均有提升,且能够有效的利用源语言的已标注信息提升目标语言(越南语)的实体识别效果。
附图说明
图1为本发明中的总的方法模型结构图;
具体实施方式
实施例1、如图1所示,融合词典与对抗迁移的越南语事件实体识别方法,所述方法包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
作为本发明的进一步方案,所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
作为本发明的进一步方案,所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
作为本发明的进一步方案,所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
作为本发明的进一步方案,所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
实施例2、如图1所示,融合词典与对抗迁移的越南语事件实体识别方法,所述融合词典与对抗迁移的越南语事件实体识别方法的具体步骤如下:
Step1、首先分别获取英语,汉语和越南语的单语语料,通过fasttext工具训练出它们各自的预训练单语词向量。分别将英语和汉语作为源语言,将越南语作为目标语言。得到预训练好的目标语言词向量
Figure BDA0002936882200000051
与预训练好的源语言词向量
Figure BDA0002936882200000052
其中,
Figure BDA0002936882200000053
Figure BDA0002936882200000054
分别是目标语言词
Figure BDA0002936882200000055
与源语言词
Figure BDA0002936882200000056
的向量表示,N和M为词向量所含词的数目,dt和ds分别表示目标语言词向量与源语言词向量的维度大小。
然后使用一个线性映射函数f将源语言映射到目标语言空间中:
Figure BDA0002936882200000057
其中,
Figure BDA0002936882200000058
是转换矩阵,
Figure BDA0002936882200000059
是映射后的源语言词向量。用奇异值分解的方法限定转换矩阵
Figure BDA00029368822000000510
是正交矩阵:
Figure BDA00029368822000000511
为了可以自动的优化映射函数f,使用一个多层感知器D作为词级鉴别器。将映射后的源语言词向量与目标语言词向量输入到鉴别器中,每一个词向量对应的输出是一个单纯的数值。
通过最小化如下交叉熵损失函数来训练词级鉴别器:
Figure BDA00029368822000000512
yi=δi(1-2ε)+ε
其中,
Figure BDA00029368822000000513
表示词
Figure BDA00029368822000000514
来自于目标语言的概率。当
Figure BDA00029368822000000515
来自于目标语言时,δi=1;否则,δi=0。It;s为使用到的目标语言词与源语言词的数目之和,ε是加在正负标签上的平滑值。
映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化如下交叉熵损失函数来训练映射函数f,使得映射函数f的参数趋于最优:
Figure BDA0002936882200000061
yi=δi(1-2ε)+ε
使用随机梯度下降法在训练过程中对线性映射函数和词级鉴别器进行优化,不断减小损失函数
Figure BDA0002936882200000062
Figure BDA0002936882200000063
的值。在词级对抗训练过程之后,基于映射后的源语言空间和目标语言空间,找到k个出现频率最高的源语言词和分别与之距离相近(语义相近)的目标语言词来构建双语词典,利用双语词典进一步优化转换矩阵U。但是考虑到该方法找到的语义上能够完全相同的源语言与目标语言词对的数量较少,因此本发明在词级对抗之后,使用预先构建好的外部双语词典,词典内有语义相同的m个源语言与目标语言词对。同时在得到上述的k个源语言与目标语言词对的基础上,去除该k个词对中源语言词在词典中有对应的词对,将剩下的词对与词典中的m个词对相结合后重构一个新的双语词典。从而利用新的双语词典以有监督的方式进一步优化转换矩阵U。
Step2、在利用词级对抗迁移的方式对齐源语言与目标语言的词表示之后,输入源语言与目标语言的句子表示,将源语言的句子表示通过训练好的线性映射层映射到目标语言语义空间中。此时,可以认为映射后的源语言句子和目标语言句子来自于同一种语言,那么就可以利用源语言的标注信息来对目标语言的句子进行标注了。但是对事件实体进行标注不仅仅需要词级特征,也需要字符级特征和句子内上下文特征。因此分别针对源语言与目标语言的特点提取词级特征和字符级特征。因为不同语言对同一个词往往有不同的解释,所以考虑到为了让目标语言和映射后的源语言获得更丰富的语义表示,分别利用双语词典引入目标语言词翻译后的词嵌入和直接引入映射前的源语言词嵌入的方式使得目标语言得到更多源语言的语义信息。
输入目标语言句子表示
Figure BDA0002936882200000064
与源语言句子表示
Figure BDA0002936882200000065
之后,首先使用Vt
Figure BDA0002936882200000066
把句子中的每一个词表示
Figure BDA0002936882200000067
Figure BDA0002936882200000068
初始化为词向量。把每一个目标语言词
Figure BDA0002936882200000069
与源语言词
Figure BDA00029368822000000610
分别随机初始化为字符向量
Figure BDA00029368822000000611
Figure BDA00029368822000000612
然后使用CNN来提取字符向量的特征。
对于目标语言句子而言:如果目标语言句子中的一个词
Figure BDA00029368822000000613
通过双语词典能找到对应的源语言翻译词组
Figure BDA0002936882200000071
可以是由一个翻译词或多个翻译词构成。为了更好的结合源语言翻译词的语义信息,需要编码所有的翻译词。使用Vs把每一个源语言翻译词初始化为词向量,将一个源语言翻译词组中包含的所有词向量的集合{t1,...,ti,...,tl}看作
Figure BDA0002936882200000072
其中,l表示源语言翻译词组中词的数目。考虑到源语言翻译词组中每个词的词义与原始对应的目标语言词的词义有不同的差异,为了尽可能的强化与目标语言词的词义相接近的源语言翻译词的权重,将一个目标语言词向量
Figure BDA0002936882200000073
与它的翻译词组向量
Figure BDA0002936882200000074
作为输入,通过如下公式进行计算:
Figure BDA0002936882200000075
其中,
Figure BDA0002936882200000076
l为翻译词组中词的数目,αj∈[0,1]表示tj的权重且∑jαj=1。
使用一个线性层计算每一个tj与它所对应的目标语言词向量
Figure BDA00029368822000000718
的语义相似程度,语义越相似,则如下得分函数的值越大:
Figure BDA0002936882200000077
其中,
Figure BDA0002936882200000078
Figure BDA0002936882200000079
将得到的g1,g2,...,gl输入进softmax函数以得出翻译词组中每个词的重要性分布α12,...,αl
Figure BDA00029368822000000710
如果目标语言句子中的一个词
Figure BDA00029368822000000711
通过双语词典未能找到对应的源语言翻译词组
Figure BDA00029368822000000712
则利用一个线性映射函数将目标语言句子中的词
Figure BDA00029368822000000713
转换到源语言语义空间上,将转换后得到的pi视作
Figure BDA00029368822000000714
对应的源语言翻译词。公式如下所示:
Figure BDA00029368822000000715
其中,M表示线性映射矩阵,最小化下面的损失函数以优化M:
Figure BDA00029368822000000716
在得到优化过的M之后,对于每一个不在双语词典中的目标语言词oi,可以使用下面的公式计算出其对应的源语言翻译词:
Figure BDA00029368822000000717
同时为了能从不同的表示子空间里学习句子内部源语言翻译词之间的依赖关系,捕获句子的内部结构,因此模型使用多头注意力机制对得到的Pi={p1,p2,pi,...,pQ}进行建模。将得到的多头注意的结果作为此句话最终的源语言翻译词嵌入
Figure BDA0002936882200000081
对于源语言句子而言:使用Vs把句子
Figure BDA0002936882200000082
中的每一个词表示
Figure BDA0002936882200000083
初始化为词向量
Figure BDA0002936882200000084
使用多头注意力机制对初始化后的词向量集合
Figure BDA0002936882200000085
进行建模,与上述从不同的表示子空间里学习句子内部源语言翻译词之间的依赖关系所使用的多头注意力机制建模过程一致,将得到的多头注意的结果作为此句话的映射前源语言词嵌入
Figure BDA0002936882200000086
在得到目标语言字符嵌入,目标语言词嵌入和相应的源语言翻译词嵌入以及源语言字符嵌入,源语言词嵌入和相应的映射前源语言词嵌入之后,然后利用多粒度嵌入算法,分别针对源语言与目标语言的词和字符的嵌入进行联合学习。但仅是简单的连接会导致不准确的编码,本发明利用注意力的方式,自适应的根据权重弱化或强化每个粒度,能够更有效的学习输入的信息和丰富单词嵌入。
在得到一句目标语言的词嵌入
Figure BDA0002936882200000087
之后,预测其中一个词
Figure BDA0002936882200000088
是依据:①该词本身,表示为
Figure BDA0002936882200000089
②通过CNN提取到该词所包含的字符特征,表示为
Figure BDA00029368822000000810
③该词对应的源语言翻译词级特征,表示为
Figure BDA00029368822000000811
引入注意力机制来提取对句子意义有重要作用的词,根据其加权重要性在多个粒度之间产生一个知识聚合的单一向量
Figure BDA00029368822000000812
具体计算如下所示:
Figure BDA00029368822000000813
Figure BDA00029368822000000814
Figure BDA00029368822000000815
其中,
Figure BDA00029368822000000816
是一个注意力向量,Wm为平均权重,
Figure BDA00029368822000000817
为注意力权重值,bm为偏置项,
Figure BDA00029368822000000818
为融合多粒度信息后的向量,其中
Figure BDA00029368822000000819
Figure BDA00029368822000000820
的维度相同。
在得到一句源语言的词嵌入
Figure BDA00029368822000000821
之后,预测其中一个词
Figure BDA00029368822000000822
是依据:①该词本身,表示为
Figure BDA00029368822000000823
②通过CNN提取到该词所包含的字符特征,表示为
Figure BDA00029368822000000824
③该词对应的映射前源语言词级特征,表示为
Figure BDA00029368822000000825
同样使用注意力机制产生一个知识聚合的单一向量
Figure BDA0002936882200000091
具体计算如下:
Figure BDA0002936882200000092
Figure BDA0002936882200000093
Figure BDA0002936882200000094
其中,
Figure BDA0002936882200000095
是一个注意力向量,Wn为平均权重,
Figure BDA0002936882200000096
为注意力权重值,bn为偏置项,
Figure BDA0002936882200000097
为融合多粒度信息后的向量,其中
Figure BDA0002936882200000098
Figure BDA0002936882200000099
的维度相同。
Step3、在得到融合多粒度信息后的目标语言句子表示
Figure BDA00029368822000000910
与通过线性映射后的源语言句子表示
Figure BDA00029368822000000911
之后,本发明使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征。但是由于不同的语言有不同的词序和句子结构,共享编码器不能保证提取到的特征是与语言无关的序列特征,而且由于两种语言的标注资源不平衡,编码器更倾向于提取标注资源较多的语言(源语言)的特征,而该特征并不一定有助于目标语言的实体标注识别。因此本发明使用句子级对抗迁移的方式使得特征共享编码器可以提取到更多的与语言无关的序列特征。
将目标语言句子表示
Figure BDA00029368822000000912
与源语言句子表示
Figure BDA00029368822000000913
分别送入多头注意力特征共享编码器中,得到目标语言句子表示的多头注意的结果
Figure BDA00029368822000000914
与源语言句子表示的多头注意的结果
Figure BDA00029368822000000915
基于得到的目标语言序列特征
Figure BDA00029368822000000916
与源语言的序列特征
Figure BDA00029368822000000917
本发明使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言。对于一个句子表示x*,首先使用特征共享编码器提取序列特征
Figure BDA00029368822000000918
然后将特征输入进带有最大池化的CNN中得到x*的整体向量表示,最后将向量表示输入进多层感知器
Figure BDA00029368822000000919
中以预测x*来自目标语言的可能性。通过最小化如下交叉熵损失函数来训练句子级鉴别器:
Figure BDA00029368822000000920
Figure BDA00029368822000000921
其中,当
Figure BDA00029368822000000922
来自目标语言时,
Figure BDA00029368822000000923
否则
Figure BDA00029368822000000924
Figure BDA00029368822000000925
表示目标语言句子与源语言句子数之和。η是加在句子标签上的平滑值。
特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方,通过试图让
Figure BDA00029368822000000926
分辨不出
Figure BDA0002936882200000101
具体来自何种语言以使得特征共享编码器的参数得到优化。同时转换句子标签,最小化如下交叉熵损失函数以优化特征共享编码器中的参数:
Figure BDA0002936882200000102
Figure BDA0002936882200000103
Step4、在特征共享编码器提取到与语言无关的序列特征之后,就可以利用所有的目标语言与源语言的已标注的训练数据训练一个只针对目标语言的实体识别器。将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。具体过程为:
在得到共享编码器提取到的序列特征
Figure BDA0002936882200000104
之后,将
Figure BDA0002936882200000105
输入进多头注意力上下文编码器中进行注意力计算,计算过程与基于多头注意力特征共享编码器中的计算过程相同,结果得到上下文特征序列
Figure BDA0002936882200000106
然后使用线性层
Figure BDA00029368822000001013
将每一个
Figure BDA0002936882200000107
转换成一个分数向量yi,yi中每一个维度代表一个标签的预测得分。最后将分数向量序列Y={y1,y2,...,yn}送入CRF层。标签序列Z={z1,z2,...,zn}的得分通过如下公式计算得出:
Figure BDA0002936882200000108
其中,R是转换矩阵,Rp,q表示从标签p到标签q的转换得分,Yi,z表示将第i个单词打上标签z的得分。
对于已标注的标签序列Z,通过如下式子计算出CRF的损失函数:
Figure BDA0002936882200000109
其中,
Figure BDA00029368822000001010
包含所有可能的标签路径。
本发明通过最小化损失函数
Figure BDA00029368822000001011
对特征共享编码器,上下文编码器和CRF进行联合优化,使用随机梯度下降法最小化
Figure BDA00029368822000001012
和L′。
本发明在属于低资源语言范畴内的越南语上评估了该模型的性能。越南语数据集采用人工构造的越南语新闻数据集,数据集中包含预定义的实体类型有人名,地名,组织机构名和特定政治概念名。针对于作为目标语言的越南语,本发明分别选用了属于高资源语言范畴内的英语和汉语作为源语言。所用到的数据集如表1所示:
表1数据集篇章数与句子数的详细统计
Figure BDA0002936882200000111
本发明在实验中使用准确率(precision,P),召回率(recall,R)和F1值(F1)作为评价指标。对越南语,英语和汉语新闻语料均使用FastText分别训练出它们各自的单语词嵌入,实验中所使用重要的超参数如表2所示:
表2超参数设置
Figure BDA0002936882200000112
将本发明提出的方法与五种基线模型进行比较,验证本发明提出方法的有效性。
⑴单语实体识别:只对低资源语言标注语料进行训练,使用目前比较流行的BiLSTM-CRF神经网络进行越南语新闻实体识别。
⑵多任务学习:使用多任务学习的方式实现低资源语言的实体标注。该方法通过使用权重共享的上下文编码器将高资源语言的标注信息迁移到低资源语言上,从而提升低资源语言的实体标注准确率。
⑶词级对抗实现双语词嵌入表示:只使用词级对抗迁移的方式将源语言映射到目标语言空间上,然后利用所有的源语言和目标语言的标注信息对目标语言进行实体识别。在将源语言映射到目标语言空间上之后,可以直接使用两种语言的所有标注信息训练实体识别器对目标语言进行标注(词级对抗实现双语词嵌入表示1);也可以先使用目标语言的标注信息训练实体识别器,再使用源语言的标注信息进行调优(词级对抗实现双语词嵌入表示2)。
⑷双语词典实现双语词嵌入表示:使用预先构造好的双语词典对齐源语言与目标语言的词向量空间,通过最近邻搜索算法找到与源语言词距离最近的目标语言词作为该源语言词的翻译词。使用翻译词和其源语言词对应的标签训练基Self-attentive BiLSTM-CRF网络的目标语言实体识别器。
⑸两层对抗迁移:基于BiLSTM-CRF网络,使用词级对抗迁移的方式将源语言映射到目标语言空间上,然后使用句子级对抗迁移的方式使得共享编码器提取与语言无关的序列特征,最后融合上下文语义信息训练实体识别器对目标语言进行标注。
首先比较在无目标语言标注数据的情况下,本发明提出的方法与对比实验在性能上的差异。在进行句子级对抗迁移训练的时候,移除掉输入的目标语言(越南语)句子的标签信息,在只有源语言标注数据的情况下对句子鉴别器进行优化,训练出针对目标语言的实体识别器。分别以英语和汉语作为源语言对越南语进行实体识别,实验结果如表3所示:
表3无目标语言标注数据情况下实体识别性能
Figure BDA0002936882200000121
从表3的对比结果可以看出本发明提出的模型在源语言为英语或汉语的情况下均优于其他的网络模型。与只包含权重共享的上下文编码器的多任务学习模型相比,本发明方法不仅加入了语言共享的上下文编码器,而且使用多级对抗训练的方式促使两种语言的词进行语义对齐,基于双语词典融入多粒度特征信息,使用特征共享编码器提取与语言无关的序列特征。分别在源语言为英语和汉语的情况下,F1值增加了21.16和33.27,提升效果显著。与只使用词级对抗实现双语词嵌入表示的模型和两层对抗迁移模型相比,本发明方法不仅使用词级对抗和句子级对抗迁移,更重要的是加入了基于双语词典及注意力的多粒度特征嵌入。从结果可以看出,在准确率,召回率和F1值上均有一定程度的提升。与双语词典实现双语词嵌入表示的模型相比,本发明在其基础上加入了多级对抗迁移,提升了两种语言词的语义对齐效果,从而使得最后的实体识别性能有所提升。
在有目标语言标注数据的情况下,本发明也比较了所提出的方法与对比实验在性能上的差异。分别以英语和汉语作为源语言对越南语进行实体识别,实验结果如表4所示:
表4有目标语言标注数据情况下实体识别性能
Figure BDA0002936882200000131
从表4中词级对抗实现双语词嵌入表示模型结果和单语实体识别模型结果的对比情况可以看出在利用目标语言标注数据进行训练的基础上直接加入源语言标注数据可能会使得模型性能降低。这也说明了在用于训练的目标语言标注数据不足时,模型会对噪声更加敏感,虽然加入了源语言标注数据,但同时也引入了噪声影响模型的性能。当源语言与目标语言属于同一语系时,多任务学习模型结果优于单语实体识别模型结果;反之,结果则相反。
之所以加入源语言标注数据会引入噪声,原因在于源语言与目标语言的语言表达和序列结构不相同。可以通过双语词典实现双语词嵌入表示模型中的方法,利用预先构造好的双语词典对齐源语言与目标语言的词向量空间,找到源语言词的翻译词,从而实现源语言到目标语言的转换,减弱数据噪声。也可以通过两层对抗迁移模型的方法,使用共享编码器提取到与语言无关的序列特征,从而达到减弱源语言标注数据噪声的问题。从实验结果可以看出,这两种方法的F1值相较于单语实体识别模型均有大幅度提升。本发明方法不仅利用双语词典融入了多粒度特征信息,而且使用基于多头注意力的特征共享编码器提取与语言无关的序列特征,分别在源语言为英语和汉语的情况下,相较于单语实体识别模型的F1值增加了19.61和18.73,提升效果明显。以上实验结果证明了本发明模型在利用源语言标注数据提升目标语言事件实体识别的任务中更有效。
上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (6)

1.融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:首先利用词级别对抗迁移实现源语言与目标语言的语义空间共享,再融合双语词典进行多粒度特征嵌入以丰富目标语言词的语义表征,之后使用句子级别对抗迁移提取到与语言无关的序列特征,最后通过CRF标注出实体识别结果。
2.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述方法包括:
Step1、在词级对抗迁移训练过程中令线性映射层与词级鉴别器相互对抗混淆以使得线性映射层不断优化;
Step2、提取并融合目标语言句子中的目标语言词级特征、目标语言字符级特征与通过双语词典找到的对应源语言词级特征;提取并融合源语言句子中的源语言词级特征、源语言字符级特征与该句子通过优化后的线性映射层后的源语言词级特征;
Step3、在句子级对抗迁移训练过程中令多头注意力特征共享编码器与句子级鉴别器相互对抗混淆以使得共享编码器不断优化,从而使得多头注意力特征共享编码器提取到与语言无关的序列特征信息;
Step4、将与语言无关的序列特征信息输入多头注意力上下文编码器中提取全局信息,衡量每个词在整个句子中的重要性程度,进而通过CRF对整个句子的输出进行联合建模。
3.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step1的具体步骤为:
Step1.1、在得到预训练好的目标语言词向量与预训练好的源语言词向量的情况下,使用一个线性映射函数f将源语言映射到目标语言空间中,使用一个多层感知器D作为词级鉴别器,线性映射函数f与词级鉴别器在训练过程中互相对抗混淆对方,通过最小化交叉熵损失函数来训练线性映射函数f,使得线性映射函数f的参数趋于最优。
4.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step2的具体步骤:
Step2.1、使用预训练好的目标语言词向量与预训练好的源语言词向量将目标语言句子表示与源语言句子表示中的每一个词初始化为词向量,得到目标语言句子中的目标语言词级特征与源语言句子中的源语言词级特征;将每一个目标语言词与源语言词分别随机初始化为字符向量后使用CNN来提取字符向量的特征;
Step2.2、对于目标语言句子而言:如果目标语言句子中的一个词通过双语词典能找到对应的源语言翻译词组,则利用注意力机制强化与目标语言词的词义相接近的源语言翻译词的权重,从而提取源语言词级特征;若通过双语词典未能找到对应的源语言翻译词组,则利用一个线性映射函数将目标语言句子中的词转换到源语言语义空间上,将转换后得到的词视作该目标语言词对应的源语言翻译词,进而提取源语言词级特征;对于源语言句子而言:将源语言句子通过优化后的线性映射函数f后,得到映射后的源语言词级特征;
Step2.3、在得到目标语言字符特征、目标语言词特征和相应的源语言翻译词特征以及源语言字符特征、源语言词特征和相应的映射后源语言词特征之后,利用注意力的方式,在源语言句子端和目标语言句子端自适应的根据权重弱化或强化每个粒度的特征,从而实现将各个粒度的特征融合在一起。
5.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step3的具体步骤为:
Step3.1、在得到融合多粒度特征后的目标语言句子表示与源语言句子表示之后,使用多头注意力作为特征共享编码器来对这两种句子分别提取句子级特征;使用句子级鉴别器预测输入模型的一个句子是否来自目标语言或源语言,特征共享编码器与句子级鉴别器在训练过程中互相对抗混淆对方以使得特征共享编码器不断优化,从而使得特征共享编码器提取到与语言无关的序列特征信息。
6.根据权利要求1所述的融合词典与对抗迁移的越南语事件实体识别方法,其特征在于:所述步骤Step4的具体步骤为:
Step4.1、在特征共享编码器提取到与语言无关的序列特征之后,将得到的特征送入基于多头注意力的上下文编码器中来重新捕获每个词的上下文语义依赖关系,然后使用CRF作为最后的输出层,给每个事件实体打上预测的标签。
CN202110164070.0A 2021-02-05 2021-02-05 融合词典与对抗迁移的越南语事件实体识别方法 Active CN112926324B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110164070.0A CN112926324B (zh) 2021-02-05 2021-02-05 融合词典与对抗迁移的越南语事件实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110164070.0A CN112926324B (zh) 2021-02-05 2021-02-05 融合词典与对抗迁移的越南语事件实体识别方法

Publications (2)

Publication Number Publication Date
CN112926324A true CN112926324A (zh) 2021-06-08
CN112926324B CN112926324B (zh) 2022-07-29

Family

ID=76170915

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110164070.0A Active CN112926324B (zh) 2021-02-05 2021-02-05 融合词典与对抗迁移的越南语事件实体识别方法

Country Status (1)

Country Link
CN (1) CN112926324B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326378A (zh) * 2021-06-16 2021-08-31 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113657128A (zh) * 2021-08-25 2021-11-16 四川大学 基于重要性度量和低资源迁移学习翻译系统及存储介质
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111241837A (zh) * 2020-01-04 2020-06-05 大连理工大学 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
US20200342172A1 (en) * 2019-04-26 2020-10-29 Wangsu Science & Technology Co., Ltd. Method and apparatus for tagging text based on adversarial learning
WO2020215457A1 (zh) * 2019-04-26 2020-10-29 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111563381A (zh) * 2019-02-12 2020-08-21 阿里巴巴集团控股有限公司 文本处理方法和装置
US20200342172A1 (en) * 2019-04-26 2020-10-29 Wangsu Science & Technology Co., Ltd. Method and apparatus for tagging text based on adversarial learning
WO2020215457A1 (zh) * 2019-04-26 2020-10-29 网宿科技股份有限公司 一种基于对抗学习的文本标注方法和设备
CN111241837A (zh) * 2020-01-04 2020-06-05 大连理工大学 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111222339A (zh) * 2020-01-13 2020-06-02 华南理工大学 一种基于对抗多任务学习的医疗咨询命名实体识别方法
CN111310480A (zh) * 2020-01-20 2020-06-19 昆明理工大学 一种基于英语枢轴的弱监督汉越双语词典构建方法
CN111753557A (zh) * 2020-02-17 2020-10-09 昆明理工大学 融合emd最小化双语词典的汉-越无监督神经机器翻译方法
CN111460824A (zh) * 2020-03-30 2020-07-28 华南理工大学 一种基于对抗迁移学习的无标注命名实体识别方法
CN111651993A (zh) * 2020-05-11 2020-09-11 北京理工大学 融合局部-全局字符级关联特征的中文命名实体识别方法
CN111738006A (zh) * 2020-06-22 2020-10-02 苏州大学 基于商品评论命名实体识别的问题生成方法
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
LIFU HUANG 等: "Cross-lingual Multi-Level Adversarial Transfer to Enhance Low-Resource Name Tagging", 《PROCEEDINGS OF NAACL-HLT 2019》, 7 June 2019 (2019-06-07), pages 3823 - 3833 *
余传明 等: "基于标签迁移和深度学习的跨语言实体抽取研究", 《现代情报》, vol. 40, no. 12, 31 December 2020 (2020-12-31), pages 3 - 15 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113326378A (zh) * 2021-06-16 2021-08-31 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113326378B (zh) * 2021-06-16 2022-09-06 山西财经大学 一种基于参数迁移和注意力共享机制的跨领域文本情感分类方法
CN113343719A (zh) * 2021-06-21 2021-09-03 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113343719B (zh) * 2021-06-21 2023-03-14 哈尔滨工业大学 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法
CN113657128A (zh) * 2021-08-25 2021-11-16 四川大学 基于重要性度量和低资源迁移学习翻译系统及存储介质
CN113657128B (zh) * 2021-08-25 2023-04-07 四川大学 基于重要性度量和低资源迁移学习翻译系统及存储介质
CN113901229A (zh) * 2021-09-15 2022-01-07 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN113901229B (zh) * 2021-09-15 2022-09-27 昆明理工大学 基于句法图卷积的汉越双语新闻事件因果关系抽取方法
CN114580422A (zh) * 2022-03-14 2022-06-03 昆明理工大学 一种结合近邻分析的两阶段分类的命名实体识别方法
CN114860920A (zh) * 2022-04-20 2022-08-05 内蒙古工业大学 一种基于异构图的单语言主题摘要生成方法
CN116776887A (zh) * 2023-08-18 2023-09-19 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法
CN116776887B (zh) * 2023-08-18 2023-10-31 昆明理工大学 一种基于样本相似性计算的负采样远程监督实体识别方法

Also Published As

Publication number Publication date
CN112926324B (zh) 2022-07-29

Similar Documents

Publication Publication Date Title
CN112926324B (zh) 融合词典与对抗迁移的越南语事件实体识别方法
CN109635124B (zh) 一种结合背景知识的远程监督关系抽取方法
CN108959252B (zh) 基于深度学习的半监督中文命名实体识别方法
CN111310438B (zh) 基于多粒度融合模型的中文句子语义智能匹配方法及装置
CN110083682B (zh) 一种基于多轮注意力机制的机器阅读理解答案获取方法
CN110866399B (zh) 一种基于增强字符向量的中文短文本实体识别与消歧方法
CN110825848B (zh) 一种基于短语向量的文本分类方法
CN111985239A (zh) 实体识别方法、装置、电子设备及存储介质
CN110597961A (zh) 一种文本类目标注方法、装置、电子设备及存储介质
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN113255320A (zh) 基于句法树和图注意力机制的实体关系抽取方法及装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN113190656A (zh) 一种基于多标注框架与融合特征的中文命名实体抽取方法
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN115759092A (zh) 一种基于albert的网络威胁情报命名实体识别方法
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115587594A (zh) 网络安全的非结构化文本数据抽取模型训练方法及系统
CN117010387A (zh) 融合注意力机制的RoBERTa-BiLSTM-CRF语音对话文本命名实体识别系统
CN110569355A (zh) 一种基于词块的观点目标抽取和目标情感分类联合方法及系统
Xue et al. A method of chinese tourism named entity recognition based on bblc model
CN112434512A (zh) 一种结合上下文语境的新词确定方法及装置
CN116562291A (zh) 一种基于边界检测的中文嵌套命名实体识别方法
Padia et al. UMBC at SemEval-2018 Task 8: Understanding text about malware
CN115730232A (zh) 基于主题相关的异构图神经网络跨语言文本分类方法
US11822887B2 (en) Robust name matching with regularized embeddings

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant