CN112287692B

CN112287692B - 一种跨语言词嵌入的方法、移动终端和计算机存储介质

Info

Publication number: CN112287692B
Application number: CN202011175684.0A
Authority: CN
Inventors: 唐丽萍; 罗智泉
Original assignee: Chinese University of Hong Kong Shenzhen
Current assignee: Chinese University of Hong Kong Shenzhen
Priority date: 2020-10-28
Filing date: 2020-10-28
Publication date: 2023-11-07
Anticipated expiration: 2040-10-28
Also published as: CN112287692A

Abstract

本申请提供一种跨语言词嵌入的方法、移动终端和计算机存储介质，该方法包括：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；基于中间域采用对抗训练学习目标语言和源语言之间的线性映射；根据自我学习的方法对线性映射进行微调。通过对不同的语言利用学习各自的词嵌入，在没有两个语言间的词级别翻译的情况下，利用对抗训练学习两个语言间的线性映射，使得在线性映射后不同语言间具有相同语义的词相互靠近，引入中间域使两种语言映射到中间语言，让中间语言逐步靠近目标语言，形成一个域流，从而将距离较远的源语言和目标语言平滑地连接起来，从而提高无监督模型在不相似语言间的鲁棒性。

Description

一种跨语言词嵌入的方法、移动终端和计算机存储介质

技术领域

本申请涉及深度学习技术领域，具体涉及一种跨语言词嵌入的方法、移动终端和计算机存储介质。

背景技术

近年来，由于网络上不同语言之间信息不平衡而产生的数字语言鸿沟已经越来越受到学术界的关注。跨语言的文本表征是减小这一鸿沟的重要方法。此外，跨语言的文本表征还是自然语言处理任务进行迁移学习的一个重要工具，而跨语言的词嵌入是跨语言文本表征的基础。

早年Mikolov等学者发现对不同的语言，利用相同的单语言词嵌入模型学到的词向量空间会有近似同构的特征，因此后来的学者都利用线性映射来表达不同语言词向量之间的关系。传统的跨语言词嵌入利用词级别的翻译作为监督，以此来学习不同语言词向量间的映射关系。而近年来学者们提出了一系列无监督的跨语言词嵌入模型，通过对抗训练来学习语言间的线性映射。在没有任何监督数据的情况下，无监督模型仍能取得较好的结果，有些情况下甚至已经超过有监督的模型。

本申请的发明人在长期研发中发现，无监督模型的最大缺点是鲁棒性不强，极易受初始点的影响，在一些不相似的语言间表现不佳。但是近年来的研究者们只专注于提升系统的准确率，尤其是在一些相似的语言间的表现，而因为相似的语言之间差异较小，这个任务往往是比较容易的。而在不相似的语言间，现有模型几乎鲁棒性都不强，非常容易失败，不能学出一个可靠的线性映射。

发明内容

本申请提供一种跨语言词嵌入的方法、移动终端和计算机存储介质，以解决现有技术中无监督模型在不相似语言间的鲁棒性不强的问题。

为解决上述技术问题，本申请采用的一个技术方案是：提供一种无监督鲁棒跨语言词嵌入的方法，所述方法包括：

将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；

基于中间域采用对抗训练学习所述目标语言和所述源语言之间的线性映射；

根据自我学习的方法对所述线性映射进行微调。

为解决上述技术问题，本申请采用的另一个技术方案是：提供一种移动终端，所述移动终端包括相互耦接的处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于加载所述计算机程序并执行。

为解决上述技术问题，本申请采用的又一个技术方案是：提供一种计算机存储介质，其上存有计算机程序，所述计算机程序用于实现上述实施方式中任一项方法的步骤。

本申请的有益效果是：区别于现有技术的情况，本申请提供一种跨语言词嵌入的方法、移动终端和计算机存储介质，该方法包括：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；基于中间域采用对抗训练学习目标语言和源语言之间的线性映射；根据自我学习的方法对线性映射进行微调。通过先对不同的语言利用学习各自的词嵌入，在没有两个语言间的词级别翻译(词典)的情况下，利用对抗训练学习两个语言间的线性映射，使得在线性映射后不同语言间具有相同语义的词相互靠近，引入中间域使两种语言映射到中间语言，这个虚拟的中间语言会比源语言离目标语言更近，也会比目标语言离源语言更近。然后让中间语言逐步靠近目标语言，形成一个域流(domain flow)，从而将距离较远的源语言和目标语言平滑地连接起来，从而提高无监督模型在不相似语言间的鲁棒性，解决了现有技术中无监督模型在不相似语言间的鲁棒性不强的问题。

附图说明

为了更清楚地说明申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的情况下，还可以根据这些附图获得其他的附图，其中：

图1是本申请一种跨语言词嵌入的方法一实施例的流程示意图；

图2是本申请一种跨语言词嵌入的方法另一实施例的流程示意图；

图3是本申请一种移动终端一实施例的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动情况下所获得的所有其他实施例，均属于本申请保护的范围。

需要说明，若本申请实施例中有涉及″第一″、″第二″等的描述，则该″第一″、″第二″等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有″第一″、″第二″的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

请参阅图1，图1是本申请一种跨语言词嵌入的方法一实施例的流程示意图。本实施例揭示的方法包括以下步骤：

S11：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征。

本实施例中的模型基于有监督模型的大框架，对目标语言和源语言两种不同的语言利用单语言词嵌入模型学习两种语言各自独立的各自的词嵌入。其中，单语言词嵌入模型可以为Monolingual Word Embeddings(单语词嵌入)模型，One-Hot Representation(一站式代表)模型，Latent Semantic Analysis(LSA，潜在语义分析)模型，Skip-Gram withNegative Sampling(SGNS，带负采样的跳过语法)模型，Continuous Bag-of-Words(CBOW，连续词袋)模型，Global Vectors(GloVe，全局向量)模型，FastText(快速文字)模型。

两个语言的词嵌入是分别利用各自的语言学习出来的单语言词嵌入(词向量)，不同语言的单语言词向量之间可能并没有什么联系，跨语言词嵌入是基于他们的单语言词嵌入，对原来的词向量进行线性变换，使不同语言中具有相同语义的词在线性变换后相互靠近。

S12：基于中间域采用对抗训练学习目标语言和源语言之间的线性映射。

针对对抗训练在不相似语言间的不稳定性，本实施例中的模型引入了中间域来进行对抗训练。将跨语言词嵌入看作一个领域自适应任务，引入了领域自适应里中间域和域流的概念。将源语言并不直接映射到距其较远的目标语言，而是映射到中间域中，使得中间域中的中间语言逐步靠近目标语言，形成一个域流，从而将距离较远的源语言和目标语言平滑地连接起来。在本实施例中，语言之间的映射为线性映射。

S13：根据自我学习的方法对线性映射进行微调。

在对抗训练学习后得到的线性映射进行词迭代收敛后，利用自我学习的方法对线性映射进行处理生成微调。微调具体来讲，是利用学习到的线性变换，得到两个语言间单词的映射关系，比如，可以最简单的认为变换之后，距离(A语言中的)单词a最靠近的(B语言的)那个向量(对应单词b)就是单词a的翻译，然后基于此，将线性变换作为被优化的变量，最小化变换之后的单词a与单词b的距离，得到一个新的线性变换；按这个思路不停迭代。微调的目的是进一步提升模型效果。

本申请提供一种跨语言词嵌入的方法，该方法包括：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；基于中间域采用对抗训练学习目标语言和源语言之间的线性映射；根据自我学习的方法对线性映射进行微调。通过先对不同的语言利用学习各自的词嵌入，在没有两个语言间的词级别翻译(词典)的情况下，利用对抗训练学习两个语言间的线性映射，使得在线性映射后不同语言间具有相同语义的词相互靠近，引入中间域使两种语言映射到中间语言，这个虚拟的中间语言会比源语言离目标语言更近，也会比目标语言离源语言更近。然后让中间语言逐步靠近目标语言，形成一个域流(domain flow)，从而将距离较远的源语言和目标语言平滑地连接起来，从而提高无监督模型在不相似语言间的鲁棒性。

在上述实施方式的基础上，请一并参阅图2，图2是本申请一种跨语言词嵌入的方法另一实施例的流程示意图。本实施例揭示的方法包括以下步骤：

S21：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征。

在本实施例中，单语言词嵌入模型采用FastText模型。

S22：基于中间域采用对抗训练学习目标语言和源语言之间的线性映射。

在一具体实施例中，步骤S22包括步骤S221～S223：

S221：基于循环生成对抗网络自动编码器的框架，将源语言空间和目标语言空间变换到源语言隐空间和目标语言隐空间。

在本模型中，中间域是通过简单的线性插值来引入的，通过一个域变量将中间域生成为source domain(源域)和target domain(目标域)的一个线性组合。

在本实施例中，利用Cycle GAN+Autoencoder(循环生成对抗网络自动编码器)的框架。自动编码器将源语言空间和目标语言空间变换到两个隐空间，两个隐空间之间的线性变换更易学习。

S222：循环生成对抗网络自动编码器中的生成器将源语言隐空间和目标语言隐空间的两个向量映射到中间语言空间，中间语言空间关联中间域。

在一具体实施例中，预设域变量的概率密度函数为采用贝塔分布(Beta Distribution)。其中，z为域变量，α为贝塔分布的第一参数，β为贝塔分布的第二参数。β选择了固定的1，α随着迭代次数增加而增大。t为当前迭代轮次，T为总的迭代次数。

设定生成器模型，通过控制域变量来控制生成中间域以及目标域。本实施例中采用的是线性插值法，通过z生成中间域为sourcedomain和target domain的一个线性组合，或看成一个没有非线性层的全连接层。其中，生成器表达式如公式(1)和公式(2)所示：

G_ST(z_x，z)＝z·W_STz_x+(1-z)·z_x

(1)

G_TS(z_y，z)＝z·W_TSz_y+(1-z)·z_y

(2)

其中，W_ST为从source(源)到target(目标)的线性变换，W_TS为从target到source的线性变换。z_x、z_y分别为source和target空间里，词向量经过编码器得到的隐空间的向量，。

CycleGAN本质上是两个镜像对称的生成对抗网络(GAN)，构成了一个环形网络。两个GAN共享两个生成器，并各自带一个判别器，即共有两个判别器和两个生成器。一个单向GAN具有两个损失(loss)，两个GAN即共四个loss。

循环生成对抗网络自动编码器包括第一生成器G_ST(z_x，z)和第二生成器G_TS(z_y，z)，第一生成器将源语言隐空间的第一向量x映射到中间语言空间。第二生成器将目标语言隐空间的第二向量y映射到中间语言空间。

在一具体实施例中，第一生成器和第二生成器均关联域变量z，设定生成器模型，根据线性插值法和域变量将中间域生成为源域及目标域的线性组合。

S223：循环生成对抗网络自动编码器中的判别器判别给定两个向量的来源，以实现对抗训练。

两个判别器判别给定向量的来源，以此达到对抗训练的效果。

S23：根据自我学习的方法对线性映射进行微调。

源空间是x，y的空间，加入自编码器之后，通过编码器变换之后的，是源语言隐空间。

在对抗训练的训练过程中，源空间隐空间的判别器D_S需要使源语言隐空间的向量(x)的输出尽量靠近1，其中，使从目标语言隐空间中映射过来的中间向量G_TS(y，z)的输出尽量靠近0。同时，使从源语言隐空间映射到中间空间的向量G_ST(x，z)的输出尽量靠近z，两个生成器和判别器的损失函数如公式(3)～(6)所示：

其中，L_adv(DS)为判别器D_S的对抗训练这部分的loss(损失)函数，L_adv指adversarial也就是对抗训练的loss函数，为指x服从源空间的分布P_S，/>指y服从目标空间的分布P_T，BCE为Binary Cross Entropy(二元交叉熵)。

其中，D_T为target的判别器，L_adv(D_T)为判别器D_T的对抗训练这部分的loss函数。

其中，L_adv(GST)为生成器G_ST(从source到target)对应的对抗训练的loss函数。

其中，L_adv(G_TS)为生成器G_TS(从target到source)对应的对抗训练的loss函数。

在一具体实施例中，步骤S23包括步骤S231～S234：

S231：使用概率密度函数对域变量进行采样，利用目标函数进行反向传播。

其中，目标函数为L＝L_adv+λ₁L_cyc+λ₂L_rec，其中，λ₁为周期一致性损失加权系数，λ₂表示重建损失加权系数，L_cyc(cycle consistency loss)为周期一致性损失，L_rec(reconstruction loss)为重建损失。

S232：更新循环生成对抗网络自动编码器中的两个判别器和两个生成器。

S233：对生成器进行近似正交化后处理，求解当前词典下的最优线性变换得到学习结果，实现词迭代收敛。

循环生成对抗网络自动编码器的总损失包括adversarial loss(对抗性损失)，cycle consistency loss(周期一致性损失)和reconstruction loss(重建损失)。其中，重建损失来源两个判别器和两个生成器，如公式(3)～(6)所示的损失函数。

S234：根据自我学习时间表对学习结果进行微调。

自我学习时间表是指，给定一个初始的两个语言间的词级别的翻译(词典)，通过求解正交限制条件下的最小二乘法(least square)问题求解当前词典下的最优线性变换；然后在当前求解的最优线性变换下，利用此线性变换将不同语言的单词映射到同一个向量空间，对每个词寻找最近的词作为其翻译来更新词典。

求解正交限制条件下的最小二乘法问题得到当前词典下的最优线性变换。

基于最优线性变换将源语言隐空间和目标语言隐空间的单词映射到中间语言空间。

寻找每个单词最近的词作为对应的翻译来更新词典。在本实施例中采用CSLS值最大的词作为对应的翻译来更新词典。

本申请提供一种跨语言词嵌入的方法，该方法包括：将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；基于循环生成对抗网络自动编码器的框架，将源语言空间和目标语言空间变换到源语言隐空间和目标语言隐空间；循环生成对抗网络自动编码器中的生成器将源语言隐空间和目标语言隐空间的两个向量映射到中间语言空间，中间语言空间关联中间域；循环生成对抗网络自动编码器中的判别器判别给定两个向量的来源，以实现对抗训练；根据自我学习的方法对线性映射进行微调。通过先对不同的语言利用学习各自的词嵌入，在没有两个语言间的词级别翻译(词典)的情况下，利用对抗训练学习两个语言间的线性映射，使得在线性映射后不同语言间具有相同语义的词相互靠近，引入中间域使两种语言映射到中间语言，这个虚拟的中间语言会比源语言离目标语言更近，也会比目标语言离源语言更近。然后让中间语言逐步靠近目标语言，形成一个域流(domain flow)，从而将距离较远的源语言和目标语言平滑地连接起来，从而提高无监督模型在不相似语言间的鲁棒性。

对应上述的方法，本申请提出一种移动终端，请参阅图3，图3是本申请一种移动终端一实施例的结构示意图。本申请揭示的移动终端100包括相互耦接的存储器12和处理器14，存储器12用于存储计算机程序，处理器14用于执行计算机程序实现上述实施方式中任一项方法的步骤。

具体来说，处理器14用于：

将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征。

基于中间域采用对抗训练学习目标语言和源语言之间的线性映射。

根据自我学习的方法对线性映射进行微调。

本实施例移动终端100能够提高无监督模型在不相似语言间的鲁棒性。

在本申请所提供的几个实施方式中，应该理解到本申请所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施方式中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上仅为本申请的实施方式，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种跨语言词嵌入的方法，其特征在于，所述方法包括：

基于有监督模型的大框架，将目标语言和源语言分别嵌入单语言词嵌入模型学习目标语言的第一词嵌入表征和源语言的第二词嵌入表征；

根据自我学习的方法对所述线性映射进行微调；

其中，基于中间域采用对抗训练学习所述目标语言和所述源语言之间的线性映射的步骤包括：

基于循环生成对抗网络自动编码器的框架，将源语言空间和目标语言空间变换到源语言隐空间和目标语言隐空间；

所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间，所述中间语言空间关联所述中间域；循环生成对抗网络自动编码器本质上是两个镜像对称的生成对抗网络，构成了一个环形网络；两个生成对抗网络共享两个生成器，并各自带一个判别器，即共有两个判别器和两个生成器；

所述循环生成对抗网络自动编码器中的判别器判别给定两个所述向量的来源，以实现对抗训练。

2.根据权利要求1所述的方法，其特征在于，所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间，所述中间语言空间关联所述中间域的步骤包括：

预设域变量的概率密度函数；

设定生成器模型，所述循环生成对抗网络自动编码器包括第一生成器和第二生成器，所述第一生成器将所述源语言隐空间的第一向量映射到所述中间语言空间；

所述第二生成器将所述目标语言隐空间的第二向量映射到所述中间语言空间。

3.根据权利要求2所述的方法，其特征在于，所述循环生成对抗网络自动编码器中的生成器将所述源语言隐空间和所述目标语言隐空间的两个向量映射到中间语言空间，所述中间语言空间关联所述中间域的步骤还包括：

所述第一生成器和所述第二生成器均关联所述域变量，设定生成器模型，根据线性插值法和所述域变量将所述中间域生成为源域及目标域的线性组合。

4.根据权利要求3所述的方法，其特征在于，根据自我学习的方法对所述线性映射进行微调的步骤包括：

使用所述概率密度函数对所述域变量进行采样，利用目标函数进行反向传播；

更新所述循环生成对抗网络自动编码器中的两个判别器和两个生成器；

对所述生成器进行近似正交化后处理，求解当前词典下的最优线性变换得到学习结果，实现词迭代收敛；

根据自我学习时间表对所述学习结果进行微调。

5.根据权利要求4所述的方法，其特征在于，根据自我学习时间表对所述学习结果进行微调的步骤包括：

求解正交限制条件下的最小二乘法问题得到所述当前词典下的所述最优线性变换；

基于所述最优线性变换将所述源语言隐空间和所述目标语言隐空间的单词映射到所述中间语言空间；

寻找每个所述单词最近的词作为对应的翻译来更新词典。

6.根据权利要求4所述的方法，其特征在于，所述方法进一步包括：

所述循环生成对抗网络自动编码器的总损失包括对抗性损失，周期一致性损失和重建损失。

7.根据权利要求6所述的方法，其特征在于，所述重建损失来源两个所述判别器和两个所述生成器。

8.一种移动终端，其特征在于，所述移动终端包括相互耦接的处理器和存储器，所述存储器用于存储计算机程序，所述处理器用于加载所述权利要求1～7中任一项方法的计算机程序并执行。

9.一种计算机存储介质，其上存有计算机程序，其特征在于，所述计算机程序用于实现所述权利要求1～7中任一项方法的步骤。