CN110110061A

CN110110061A - 基于双语词向量的低资源语种实体抽取方法

Info

Publication number: CN110110061A
Application number: CN201910342543.4A
Authority: CN
Inventors: 谭成翔; 校娅; 黄超; 赵雪延; 徐潜; 朱文烨
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-04-26
Filing date: 2019-04-26
Publication date: 2019-08-09
Anticipated expiration: 2039-04-26
Also published as: CN110110061B

Abstract

本发明提供一种基于双语词向量的低资源语种实体抽取方法，在低资源语种实体抽取任务中考虑语种的语义特征，并解决低资源语种实体抽取的无监督学习问题。包括以下三个阶段：步骤(1)基于可比语料库的双语词向量的构建；步骤(2)源语种实体抽取模型构建；步骤(3)目标语种实体抽取模型构建。与现有技术相比，本发明首次将强化学习和双语词向量引入低资源语种实体抽取任务中，解决低资源语种缺少实体抽取标注语料库的问题。通过双语词向量，有效表示跨语种文本的词语义特征，解决低资源语种语义信息匮乏及模型迁移过程中语义信息无法直接进行语种间转移的问题。同时，本发明采用强化学习的思想，实现了低资源语种实体抽取任务的无监督学习。

Description

基于双语词向量的低资源语种实体抽取方法

技术领域

本发明涉及人工智能与自然语言处理领域的信息抽取领域，具体涉及一种基于多种语言的实体抽取方法。

背景技术

实体抽取旨在从网络空间中非结构化的文本中挖掘用户关注的知识，如人名、地名、机构名等，或具有领域特征的实体。对于网络中存在较广泛以及研究者较多的语种如英文而言，已存在大量标注好的实体抽取训练语料库，可采用基于机器学习和深度学习的模型进行有监督的实体抽取。而网络空间中同样存在大量的低资源语种，如中文，日文等，具有较少的标注语料库，并且手动标注训练数据所消耗的人力和时间成本较高，因此传统的有监督的实体抽取方式并不适用于低资源语种。

为了解决低资源语种标注语料缺乏的问题，一种有效的方法是通过资源丰富的源语种来帮助低资源语种来丰富其相关知识。例如采用基于跨语种词典翻译的方式进行来进行实体翻译，从而实现低资源语种的实体抽取。然而仅基于跨语种词典翻译的方法因依赖于第三方翻译接口、一词多义、翻译不准确等缺点会导致基于翻译的信息抽取命中率较低并且会产生错误传递等问题。因此基于跨语种词向量的方式被提出。基于词向量的方法是将词表示为连续、稠密的低维度向量表示，作为理解语言的基本表征。词向量具有非常好的属性，易于操作，可有效表示词的特征，因此被广泛使用到自然语义处理的各项任务中。利用两种语言的单语语料训练的词向量空间存在近似同态性的特征，可以使用线性映射把两个语种的向量空间联系起来，从而实现跨语种的语义映射。模型迁移方法是低资源语种信息抽取的有效方法。模型迁移方法即在资源丰富的语种语料上学习一个模型，将其迁移到目标低资源语种上。对于词性、距离等特征，可以在不同语种间直接转换，而对于词义特征，则无法直接转换。

在现有技术中，采用模型迁移的方法对低资源语种的实体抽取没有考虑低资源语种的语义特征，同时，在跨语种词向量构建方面，也大都依赖于平行语料库，对于低资源语种缺少平行语料库的问题也无法有效解决。另外，如何实现低资源语种实体抽取的无监督自学习也是业界亟待解决的重要问题。

发明内容

本发明提供一种基于双语词向量的低资源语种实体抽取方法，在低资源语种实体抽取任务中考虑语种的语义特征，并解决低资源语种实体抽取的无监督学习问题。

技术解决方案

为实现上述目标，本发明的技术方案是：

一种基于双语词向量的低资源语种实体抽取方法，包括以下三个阶段：(如图1所示)

步骤(1)基于可比语料库的双语词向量的构建：

利用源语种与低资源目标语种所构成的双语可比语料库来构建双语词向量，以表示跨语种词的语义特征；

步骤(2)源语种实体抽取模型构建：

利用源语种的实体抽取标注训练集，融合基于位置线性衰减的深度学习方法，训练实体抽取模型；

步骤(3)目标语种实体抽取模型构建：

将源语种的实体抽取模型进行模型迁移，用到目标语种文本资源上，并引入双语词向量来丰富目标语种的语义特征，引入强化学习框架来实现目标语种的无监督自学习。

步骤(1)中，所述的双语词向量采用线性映射将两个语种的向量空间联系起来。向量构建过程采用词袋模型，每个语种的词都被用来预测另一个语种的上下文词，借助双语词典及期望最大化的方法来提高双语映射的准确度，选择与源词及文本向量最接近的词作为翻译结果以解决一词多义问题。

步骤(1)中，所述的双语词向量依据双语可比语料库构建，并引入了跨语种词袋模型，该跨语种词袋模型中的每个语种的词都被用来预测另一个语种的上下文词。借助双语词典及期望最大化的方法来提高双语映射的准确度，并采用基于翻译词的跨语种注意力机制应对一词多义问题。

步骤(2)中，所述的源语种实体抽取模型采用了基于位置线性衰减的双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的结构。对输入的源语种句子，首先将其中的词x_i表示成向量形式w_i。w_i由两部分构成，首先在步骤(1)中所构成的双语词向量中查询词x_i对应的向量表示v_i，再对该向量v_i进行基于位置线性衰减加权，表示为w_i＝λ_iv_i。

其中位置权重λ_i的计算方法引入了线性衰减的思想，充分描述了目标词距离实体词的位置与其重要程度的关系，表示为：其中E表示所在句子中所包含的实体集。目标词距离实体词的位置越近，则其重要性越大，权重也就越高，反之距离越远，权重越低。

步骤(3)中，所述的目标语种实体抽取模型，采用了模型迁移的方法，对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题，引入双语词向量。通过强化学习框架来实现低资源目标语种实体抽取的无监督学习。

强化学习模型主要包括四个要素：状态、动作、策略和奖励机制。其中，状态用来描述输入文本的特征，包括词性、位置以及词向量表示的语义特征。动作用来描述迁移学习要完成的任务。本发明的任务是实现目标语种的实体抽取即实体标签，因此强化学习的动作即对目标语种打实体标签。策略是将状态转化成动作的模型，此处采用步骤(2)所训练的模型，通过模型迁移方法，作为强化学习的策略函数输入。奖励机制用来指定给模型正反馈和负反馈的场景，从而改进模型的策略函数。损失函数被用来衡量模型的表现，因此作为强化学习的奖励机制。损失函数越小表示模型表现越好，则产生正反馈，反之损失函数越大则为负反馈。

技术效果

与现有技术相比，本发明首次将强化学习和双语词向量引入低资源语种实体抽取任务中，解决低资源语种缺少实体抽取标注语料库的问题。通过双语词向量，有效表示跨语种文本的词语义特征，解决低资源语种语义信息匮乏及模型迁移过程中语义信息无法直接进行语种间转移的问题。同时，本发明采用强化学习的思想，实现了低资源语种实体抽取任务的无监督学习。

附图说明

图1是本发明构建的基于双语词向量的低资源语种实体抽取方法流程图

图2是本发明双语词向量构建原理框图

图3是本发明源语种实体抽取方法计算框架图

图4是本发明设计基于强化学习和模型迁移的低资源目标语种实体抽取方法流程图

具体实施方式

下面结合附图和具体实施方式对本发明加以说明。应当理解，此处所描述的具体实例仅用以解释本发明，并不用于限定本发明。

本发明提出一种基于双语词向量的低资源语种实体抽取方法。将双语词向量、强化学习模型，并结合模型迁移方法，实现目标语种的无监督实体抽取，通过资源丰富的源语种文本信息来丰富目标语种文本信息。

图1展示了基于双语词向量的低资源语种实体抽取方法的流程，现具体描述该方法的各个步骤：

第一步骤：通过获取源语种和目标语种公开文本，构建双语可比语料库。

因低资源语种数据匮乏，一般很难获取词对齐或句对齐的平行语料库，因此本发明设计的方法对相对容易获取的可比语料库也适用。平行语料库是将相同的内容由两种语种进行描述，通常是句子级翻译的结果，而可比语料库是将同一主题内容用两种语种描述，不要求两个语种的文本句子对齐，只要描述相同的主题即可。构建双语可比语料库可借助第三方多语种资源，如维基百科。维基百科中不同语种对应的同一词条所描述的是同一个内容，因此可作为可比资源。通过爬取具有源语种和目标语种资源的维基百科词条文本内容，从而构建基于主题的可比语料库。

第二步骤：根据双语可比语料库构建双语词向量。

借助双语词典及期望最大化的方法来提高双语映射的准确度。

图2展示了双语词向量构建原理框图，构建过程采用词袋模型。对于源语种的目标词ω_t，其上下文词即该目标词的前后k个词，图2中示例k＝2的情况，则目标词的上下文词集合表示为{ω_t-2，ω_t-1，ω_t-2，ω_t+2}。查找源语种中的词ω_t在目标语种中所对应的翻译词，考虑到翻译中的一词多义问题，此处以两个翻译词为例，记作根据skip-gram模型的思想，每个语种的词都被用来预测另一个语种的上下文词，每个词又被表示为其上下文词的注意力加权和，如以下公式所示：

其中，w_j即表示上下文词的向量表示。att(w_j)通过所对应的源语种或目标语种的翻译词来计算，计算方法如下：

其中w^tr表示翻译词集合，V是词向量构建过程中的词汇表。对于文本中的每个单词，使用注意力机制构建词表示向量，用上下文对该词进行消歧，与上下文越相近的词义的权重越高。注意力机制通常采用softmax函数形式，以确保各项注意力权重的合为一。

第三步骤：基于源语种标注语料库，训练实体抽取模型。

由于源语种具有丰富的实体识别和实体抽取标注语料库，因此可以使用有监督方法训练实体抽取模型。输入句子表示为s＝{x₁，x₂，...，x_n}，实体由实体标签来标注，标签包括：BILOS(Begin，Inside，Last，Other，Single)，分别代表该词单元是实体的开始单词，位于实体词中间，位于实体词结束，非实体词，单个单词构成的实体。对于英文，则一个词表示一个词单元，对于中文，则一个字表示一个词单元。例如“纽约是美国的一座城市”对应的标签应该为“BLOBL0000”，“纽”和“约”分别是“纽约”这个实体的起始字符和结束字符。

源语种实体抽取模型，其结构如图3所示，采用了双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的结构。对输入的源语种句子，首先将其中的词x_i表示成向量形式w_i。w_i由两部分构成，首先在第二步骤所构成的双语词向量中查询词x_i对应的向量表示v_i，再对该向量v_i进行基于位置线性衰减加权，表示为w_i＝λ_iv_i。其中位置权重λ_i的计算方法引入了线性衰减的思想，表示为：其中E表示所在句子中所包含的实体集，e为该集合下的每个实体，d_ie表示每个词x_i与实体的距离，D表示词语实体的最大距离。λ_i考虑了目标词与句子中所有实体的距离，并量化了词的重要性与实体词的距离之间的关系。目标词距离实体词的位置越近，则其重要性越大，权重也就越高，反之距离越远，权重越低。将词的向量表示w_i输入到双向长短期记忆网络中，Bi-LSTM有效考虑了句子前后其他单词对目标单词产生的影响。正向LSTM基于从x₁到x_n的上下文文本信息来对每个单词进行编码，输出的隐藏层表示为反向LSTM则基于从x_n到x₁的上下文文本信息来对每个单词进行编码，输出的隐藏层表示为则Bi-LSTM编码层的隐藏层输出表示为再加LSTM的解码层，采用softmax函数对五个实体标签进行分类，将模型输出为所需要的实体标签形式。通过训练源语种实体抽取模型，可以得到一个可应用于其他数据的模型，从而用作低资源语种任务的模型迁移。

第四步骤：基于步骤二、步骤三所训练的双语词向量和实体抽取模型，构建基于强化学习模型的目标语种实体抽取。

对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题，引入双语词向量。通过强化学习框架来实现低资源目标语种实体抽取的无监督学习。

基于强化学习和模型迁移的低资源目标语种实体抽取方法流程图如图4所示。强化学习模型主要包括四个要素：状态、动作、策略和奖励机制。

其中，

状态用来描述输入文本的特征，包括词性、位置以及词向量表示的语义特征。词向量采用第二步骤所构成的双语词向量，因源语种实体抽取模型也采用的是构建好的双语词向量做为词的特征输入，而源语种和目标语种相似的词在向量空间中相距也较近，因此将目标语种词向量作为模型迁移过来的输入，可以解决跨语种语义信息无法直接迁移的问题，用词向量来表示句子的语义信息。

动作用来描述迁移学习要完成的任务。本发明的任务是实现目标语种的实体抽取即实体标签，因此强化学习的动作即对目标语种打实体标签。与源语种实体抽取过程中的标签类似，包括：BILOS(Begin，Inside，Last，Other，Single)五个标签，即五个动作。

策略是将状态转化成动作的模型，此处采用第三步骤所训练的源语种实体抽取模型，通过模型迁移方法，作为强化学习的策略函数。策略函数为softmax函数形式，表示为：y＝softmax(Wh+b)，其中W是softmax函数的权重参数矩阵，b是偏置向量，h为模型迁移后实体抽取模型的隐藏层变量。

奖励机制用来指定给模型正反馈或负反馈，从而改进模型的策略函数。损失函数被用来衡量模型的表现，因此作为强化学习的奖励机制。损失函数越小表示模型表现越好，则产生正反馈，反之损失函数越大则为负反馈。损失函数表示为：其中m为实体标签总数，t_i为第i位为1的一维向量表示，y_i则表示策略函数的对应标签输出，λ为正则化参数，θ为需要学习的变量。

在每个强化学习的循环中，输入一个目标语种的句子文本，对每个词提取特征构成句子的状态，作为策略函数的输入。特征包括词语义特征、词性特征、位置特征等，从构建好的双语词向量矩阵中查询每个词的词向量作为语义特征。词性特征可根据第三方工具或第三方资源库如词典等获取，位置特征表示词所在的位置或距离实体的位置，词性特征和位置特征均可作为词的补充特征，而词向量语义特征是主要特征。句子状态输入到源语种实体抽取模型中后，对每个词做出打实体标签的动作，即输出句子的标签集合。随后计算奖励函数即模型的损失函数，用损失函数的大小作为评价指标来更新实体抽取模型的参数，损失函数越小则证明模型的效果越好。一个循环结束后，输入新的目标语种句子开启新的强化学习循环。随着循环次数增多，模型不断向损失函数更低的方向更新，最终会达到一个收敛阶段，将这个阶段产生的标签输出作为目标语种实体抽取的结果。

经过强化学习的过程，可以实现目标低资源语种的实体抽取，损失函数也可作为抽取效果的指标。为了更好的衡量模型的效果，除了人工校验，本发明提出一个对低资源语种实体抽取结果的验证方法。验证方法借助于第三方知识库资源，如维基百科、BableNet等，均包含了多语种的实体数据，将识别出的实体与第三方知识库资源进行实体链接，从而确认实体是否正确。通过准确率、召回率等指标来衡量低资源语种实体抽取的效果。

Claims

1.一种基于双语词向量的低资源语种实体抽取方法，其特征在于,方法包括以下三个阶段：

(1)基于可比语料库的双语词向量的构建：

(2)源语种实体抽取模型构建：

(3)目标语种实体抽取模型构建：

2.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法，其特征在于，所述步骤(1)的双语词向量依据双语可比语料库构建，并引入了跨语种词袋模型，该跨语种词袋模型中的每个语种的词都被用来预测另一个语种的上下文词；借助双语词典及期望最大化的方法来提高双语映射的准确度，并采用基于翻译词的跨语种注意力机制应对一词多义问题。

3.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法，其特征在于，所述步骤(2)源语种实体抽取模型：采用基于位置线性衰减的双向长短期记忆网络(Bi-LSTM)编码及长短期记忆网络(LSTM)解码的网络结构。

4.根据权利要求3所述的基于双语词向量的低资源语种实体抽取方法，其特征在于，所述源语种实体抽取模型是基于位置线性衰减的权重加权方法：对输入的源语种句子，首先将其中的词表示成向量形式，该向量由两部分构成，首先在步骤(1)所构成的双语词向量中查询该目标词对应的向量表示，再对该向量进行基于位置线性衰减的加权；该权重计算方法充分描述了目标词距离实体词的位置与其重要程度的关系，表示为：其中E表示所在句子中所包含的实体集，e为该集合下的每个实体，d_ie表示每个词x_i与实体的距离，D表示词语实体的最大距离。

5.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法，其特征在于，所述步骤(3)目标语种实体抽取模型，采用了模型迁移的方法，对于模型迁移过程中遇到的跨语种语义信息无法直接迁移的问题，引入了步骤(1)中的双语词向量。

6.根据权利要求1所述的基于双语词向量的低资源语种实体抽取方法，其特征在于，所述步骤(3)目标语种实体抽取模型采用了基于双语词向量和模型迁移的强化学习机制，主要包括四个要素：状态、动作、策略和奖励机制；其中，

状态用来描述输入文本的特征，包括词性、位置以及词向量表示的语义特征；

动作用来描述迁移学习要完成的任务；本发明的任务是实现目标语种的实体抽取即实体标签，因此强化学习的动作即对目标语种打实体标签；

策略是将状态转化成动作的模型，此处采用步骤(2)所训练的模型，通过模型迁移方法，作为强化学习的策略函数输入；

奖励机制用来指定给模型正反馈和负反馈的场景，从而改进模型的策略函数；损失函数被用来衡量模型的表现，因此作为强化学习的奖励机制；损失函数越小表示模型表现越好，则产生正反馈，反之损失函数越大则为负反馈。