CN107315741A

CN107315741A - 双语词典构建方法和设备

Info

Publication number: CN107315741A
Application number: CN201710374136.2A
Authority: CN
Inventors: 孙茂松; 张檬; 刘洋; 栾焕博
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2017-05-24
Filing date: 2017-05-24
Publication date: 2017-11-03
Anticipated expiration: 2037-05-24
Also published as: CN107315741B

Abstract

本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法，包括步骤：S101、输入语言a的单语语料A，和输入语言b的单语语料B，分别将单语语料A和单语语料B中的词表示为词向量；S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系；S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发，构建生成器和鉴别器组成的神经网络模型，通过设计合适的损失函数和训练技术，直接得到两种语言词向量之间的映射关系，从而构建双语词典，从而不依赖于种子双语词典即可完成。

Description

双语词典构建方法和设备

技术领域

本发明涉及计算机语料处理技术，具体涉及双语词典构建方法和设备。

背景技术

伴随着全球化的进行，国际交流日渐频繁，人们开始需要越来越多种语言的翻译。然而，对于许多小语种而言，不仅翻译人才匮乏，自动的机器翻译性能也很差。此时，双语词典显得尤为重要，既能直接为人所用，又能帮助提升机器翻译的效果。

对于语言资源匮乏的小语种而言，最为丰富语言资源是单语语料。因此，使用这类语料自动构建双语词典将是最实用的。然而，已有的自动构建双语词典的技术普遍依赖一个种子双语词典，仍然对跨语言资源提出了需求。而构建种子双语词典，需要消耗大量的人力和时间。因此继急需提供一种不依赖于种子双语词典的自动构建双语词典的方法。

发明内容

鉴于上述问题，本发明提出了克服上述问题或者至少部分地解决上述问题的双语词典构建方法和设备。

为此目的，第一方面，本发明提出一种双语词典构建方法，包括步骤：

S101、输入语言a的单语语料A，和输入语言b的单语语料B，分别将单语语料A和单语语料B中的词表示为词向量；

S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系；

S103、根据映射关系，根据翻译文本和单语语料构建双语词典。

可选的，所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系，包括：

S1021、初始化单隐层的前馈神经网络作为鉴别器D，初始化线性映射G∈R^(d×d)作为生成器；

S1022、使用下列鉴别器的损失函数L_D和生成器的损失函数L_G训练生成器G和鉴别器D，直至损失函数L_G达到最小值时，获得线性映射G；

其中，代表语言a的词向量，代表语言b的词向量，E代表期望，E的下标代表对相应的变量服从的分布计算期望，d为预设值；

其中，λ为超参数，cos代表余弦相似度。

可选的，所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。

第二方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述任一所述方法的步骤。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，所述处理器执行所述程序时实现如上一所述方法的步骤。

由上述技术方案可知，本发明从单语语料上训练得到的单语词向量出发，构建生成器和鉴别器组成的神经网络模型，通过设计合适的损失函数和训练技术，直接得到两种语言词向量之间的映射关系，从而构建双语词典，从而不依赖于种子双语词典即可完成。

前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围，而是以一种简化形式给出本发明的所选原理，作为对下面给出的更具体的描述的简介。应当理解，单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征，本发明的其它实施例也是可能的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的一个实施例中执行方法流程示意图；。

具体实施方式

下面将结合示例性的通信系统描述本发明。

本发明公开一种双语词典构建方法，包括步骤：

S101、输入语言a(也称为源语言)的单语语料A，和输入语言b(也称为目标语言)的单语语料B，分别将单语语料A和单语语料B中的词表示为词向量；

S103、根据映射关系，构建双语词典。

其中S101中通过word2vec将语料中的词或短语转换为词向量，词向量的维度与训练映射关系所使用的生成器维度相同。鉴别器用于辅助生成器的训练。它是一个单隐层的前馈神经网络，实现了一个二分类器D(·)，接收一个词向量作为输入，输出为(0,1)的实数。

例如映射后语言a的词向量a1与语言b的词向量b1的距离最近，次向量a1代表的词为Pneumonoultramicroscopicsilicovolcanoconiosis，词向量b1代表的单词为肺尘病，则构建语言a到语言b的双语词典中，具有条目：Pneumonoultramicroscopicsilicovolcanoconiosis，含义：肺尘病，或构建语言b到语言a的双语词典中具有条目：肺尘病，Pneumonoultramicroscopicsilicovolcanoconiosis。

本发明从单语语料上训练得到的单语词向量出发，构建生成器和鉴别器组成的神经网络模型，通过设计合适的损失函数和训练技术，直接得到两种语言词向量之间的映射关系，从而构建双语词典，从而不依赖于种子双语词典即可完成。

在本发明的一个实施例中，所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系，包括：构建模型、训练模型和选择模型，即包括步骤：

S1021、构建模型：初始化单隐层的前馈神经网络作为鉴别器D，初始化线性映射G∈R^(d×d)作为生成器；

S1022、训练模型：使用下列鉴别器的损失函数L_D和生成器的损失函数L_G训练生成器G和鉴别器D；

其中，代表语言a的词向量，代表语言b的词向量，E代表期望，其下标代表对相应的变量服从的分布计算期望；

λ为超参数，cos代表余弦相似度。

本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用，并且包括任何类型的方法、处理、数学运算或技术。更具体地，这样的术语可以包括诸如BPEL的解释规则或规则语言，其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。

本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外，虽然用示例性实施方式来描述本发明，但应当理解本发明的各方面可以单独要求保护。

可选的，所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)，以增加训练的稳定性。

使用足够多的迭代轮数进行训练，训练过程中关注生成器的损失函数值L_G，保存该值取得最小时的模型作为选择的最终模型，即此时的生成器G所对应的映射关系即源语言与目标语言的映射关系。在一个实施例中，利用训练得到的线性映射G，将源语言词向量映射到目标语言词向量空间中，再在目标语言词向量空间中查找k近邻作为翻译结果。k的取值可根据需求指定。距离的度量可使用余弦相似度。

在本发明的一个实施例中，所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上输送任一所述方法的步骤。

本发明还公开一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，所述处理器执行所述程序时实现如上任一所述方法的步骤。

本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述，在使用时可以是联合的和分离的。例如，“A、B和C中的至少一个”，“A、B或C中的至少一个”，“A、B和C中的一个或多个”以及“A、B或C中的一个或多个”指仅有A、仅有B、仅有C、A和B一起、A和C一起、B和C一起或A、B和C一起。

术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。

本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在IP网络上的网络传输(如SOAP)中编码的串行指令集。这样的介质可以采取很多形式，包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如NVRAM或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如RAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、CD-ROM、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时，应该理解该数据库可以是任何类型的数据库，例如关系数据库、层级数据库、面向对象的数据库等等。相应地，认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质，在这些介质中存储本发明的软件实施。

在没有更多限制的情况下，由语句“包括……”或“包含……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外，在本文中，“大于”、“小于”、“超过”等理解为不包括本数；“以上”、“以下”、“以内”等理解为包括本数。

尽管已经对上述各实施例进行了描述，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改，所以以上所述仅为本发明的实施例，并非因此限制本发明的专利保护范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围之内。

Claims

1.双语词典构建方法，其特征在于，包括步骤：

S103、根据映射关系构建双语词典。

2.根据权利要求1所述的方法，其特征在于，所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系，包括：

其中，λ为超参数，cos代表余弦相似度。

3.根据权利要求2所述的方法，其特征在于，所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。

4.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至3任一所述方法的步骤。

5.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一所述方法的步骤。