CN107315741A - 双语词典构建方法和设备 - Google Patents
双语词典构建方法和设备 Download PDFInfo
- Publication number
- CN107315741A CN107315741A CN201710374136.2A CN201710374136A CN107315741A CN 107315741 A CN107315741 A CN 107315741A CN 201710374136 A CN201710374136 A CN 201710374136A CN 107315741 A CN107315741 A CN 107315741A
- Authority
- CN
- China
- Prior art keywords
- language
- term vector
- bilingual dictionary
- language material
- discriminator
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明提供双语词典构建方法和设备用于解决如何不依赖于种子双语词典的自动构建双语词典的问题。其中双语词典构建方法,包括步骤:S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;S103、根据映射关系构建双语词典。本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。
Description
技术领域
本发明涉及计算机语料处理技术,具体涉及双语词典构建方法和设备。
背景技术
伴随着全球化的进行,国际交流日渐频繁,人们开始需要越来越多种语言的翻译。然而,对于许多小语种而言,不仅翻译人才匮乏,自动的机器翻译性能也很差。此时,双语词典显得尤为重要,既能直接为人所用,又能帮助提升机器翻译的效果。
对于语言资源匮乏的小语种而言,最为丰富语言资源是单语语料。因此,使用这类语料自动构建双语词典将是最实用的。然而,已有的自动构建双语词典的技术普遍依赖一个种子双语词典,仍然对跨语言资源提出了需求。而构建种子双语词典,需要消耗大量的人力和时间。因此继急需提供一种不依赖于种子双语词典的自动构建双语词典的方法。
发明内容
鉴于上述问题,本发明提出了克服上述问题或者至少部分地解决上述问题的双语词典构建方法和设备。
为此目的,第一方面,本发明提出一种双语词典构建方法,包括步骤:
S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;
S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;
S103、根据映射关系,根据翻译文本和单语语料构建双语词典。
可选的,所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系,包括:
S1021、初始化单隐层的前馈神经网络作为鉴别器D,初始化线性映射G∈R^(d×d)作为生成器;
S1022、使用下列鉴别器的损失函数LD和生成器的损失函数LG训练生成器G和鉴别器D,直至损失函数LG达到最小值时,获得线性映射G;
其中,代表语言a的词向量,代表语言b的词向量,E代表期望,E的下标代表对相应的变量服从的分布计算期望,d为预设值;
其中,λ为超参数,cos代表余弦相似度。
可选的,所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。
第二方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述任一所述方法的步骤。
第三方面,本发明提供一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,所述处理器执行所述程序时实现如上一所述方法的步骤。
由上述技术方案可知,本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。
前面是提供对本发明一些方面的理解的简要发明内容。这个部分既不是本发明及其各种实施例的详尽表述也不是穷举的表述。它既不用于识别本发明的重要或关键特征也不限定本发明的范围,而是以一种简化形式给出本发明的所选原理,作为对下面给出的更具体的描述的简介。应当理解,单独地或者组合地利用上面阐述或下面具体描述的一个或多个特征,本发明的其它实施例也是可能的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的一个实施例中执行方法流程示意图;。
具体实施方式
下面将结合示例性的通信系统描述本发明。
本发明公开一种双语词典构建方法,包括步骤:
S101、输入语言a(也称为源语言)的单语语料A,和输入语言b(也称为目标语言)的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;
S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;
S103、根据映射关系,构建双语词典。
其中S101中通过word2vec将语料中的词或短语转换为词向量,词向量的维度与训练映射关系所使用的生成器维度相同。鉴别器用于辅助生成器的训练。它是一个单隐层的前馈神经网络,实现了一个二分类器D(·),接收一个词向量作为输入,输出为(0,1)的实数。
例如映射后语言a的词向量a1与语言b的词向量b1的距离最近,次向量a1代表的词为Pneumonoultramicroscopicsilicovolcanoconiosis,词向量b1代表的单词为肺尘病,则构建语言a到语言b的双语词典中,具有条目:Pneumonoultramicroscopicsilicovolcanoconiosis,含义:肺尘病,或构建语言b到语言a的双语词典中具有条目:肺尘病,Pneumonoultramicroscopicsilicovolcanoconiosis。
本发明从单语语料上训练得到的单语词向量出发,构建生成器和鉴别器组成的神经网络模型,通过设计合适的损失函数和训练技术,直接得到两种语言词向量之间的映射关系,从而构建双语词典,从而不依赖于种子双语词典即可完成。
在本发明的一个实施例中,所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系,包括:构建模型、训练模型和选择模型,即包括步骤:
S1021、构建模型:初始化单隐层的前馈神经网络作为鉴别器D,初始化线性映射G∈R^(d×d)作为生成器;
S1022、训练模型:使用下列鉴别器的损失函数LD和生成器的损失函数LG训练生成器G和鉴别器D;
其中,代表语言a的词向量,代表语言b的词向量,E代表期望,其下标代表对相应的变量服从的分布计算期望;
λ为超参数,cos代表余弦相似度。
本文中使用的术语“确定”、“运算”和“计算”及其变型可以互换使用,并且包括任何类型的方法、处理、数学运算或技术。更具体地,这样的术语可以包括诸如BPEL的解释规则或规则语言,其中逻辑不是硬编码的而是在可以被读、解释、编译和执行的规则文件中表示。
本文中使用的术语“模块”或“工具”是指任何已知的或以后发展的硬件、软件、固件、人工智能、模糊逻辑或能够执行与该元件相关的功能的硬件和软件的组合。另外,虽然用示例性实施方式来描述本发明,但应当理解本发明的各方面可以单独要求保护。
可选的,所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2),以增加训练的稳定性。
使用足够多的迭代轮数进行训练,训练过程中关注生成器的损失函数值LG,保存该值取得最小时的模型作为选择的最终模型,即此时的生成器G所对应的映射关系即源语言与目标语言的映射关系。在一个实施例中,利用训练得到的线性映射G,将源语言词向量映射到目标语言词向量空间中,再在目标语言词向量空间中查找k近邻作为翻译结果。k的取值可根据需求指定。距离的度量可使用余弦相似度。
在本发明的一个实施例中,所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。
本发明还公开一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上输送任一所述方法的步骤。
本发明还公开一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,所述处理器执行所述程序时实现如上任一所述方法的步骤。
本文中使用的“至少一个”、“一个或多个”以及“和/或”是开放式的表述,在使用时可以是联合的和分离的。例如,“A、B和C中的至少一个”,“A、B或C中的至少一个”,“A、B和C中的一个或多个”以及“A、B或C中的一个或多个”指仅有A、仅有B、仅有C、A和B一起、A和C一起、B和C一起或A、B和C一起。
术语“一个”实体是指一个或多个所述实体。由此术语“一个”、“一个或多个”和“至少一个”在本文中是可以互换使用的。还应注意到术语“包括”、“包含”和“具有”也是可以互换使用的。
本文中使用的术语“计算机可读介质”是指参与将指令提供给处理器执行的任何有形存储设备和/或传输介质。计算机可读介质可以是在IP网络上的网络传输(如SOAP)中编码的串行指令集。这样的介质可以采取很多形式,包括但不限于非易失性介质、易失性介质和传输介质。非易失性介质包括例如NVRAM或者磁或光盘。易失性介质包括诸如主存储器的动态存储器(如RAM)。计算机可读介质的常见形式包括例如软盘、柔性盘、硬盘、磁带或任何其它磁介质、磁光介质、CD-ROM、任何其它光介质、穿孔卡、纸带、任何其它具有孔形图案的物理介质、RAM、PROM、EPROM、FLASH-EPROM、诸如存储卡的固态介质、任何其它存储芯片或磁带盒、后面描述的载波、或计算机可以读取的任何其它介质。电子邮件的数字文件附件或其它自含信息档案或档案集被认为是相当于有形存储介质的分发介质。当计算机可读介质被配置为数据库时,应该理解该数据库可以是任何类型的数据库,例如关系数据库、层级数据库、面向对象的数据库等等。相应地,认为本发明包括有形存储介质或分发介质和现有技术公知的等同物以及未来开发的介质,在这些介质中存储本发明的软件实施。
在没有更多限制的情况下,由语句“包括……”或“包含……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的要素。此外,在本文中,“大于”、“小于”、“超过”等理解为不包括本数;“以上”、“以下”、“以内”等理解为包括本数。
尽管已经对上述各实施例进行了描述,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改,所以以上所述仅为本发明的实施例,并非因此限制本发明的专利保护范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围之内。
Claims (5)
1.双语词典构建方法,其特征在于,包括步骤:
S101、输入语言a的单语语料A,和输入语言b的单语语料B,分别将单语语料A和单语语料B中的词表示为词向量;
S102、训练获得单语语料A的词向量与单语语料B的词向量的映射关系;
S103、根据映射关系构建双语词典。
2.根据权利要求1所述的方法,其特征在于,所述S102训练获得单语语料A的词向量与单语语料B的词向量的映射关系,包括:
S1021、初始化单隐层的前馈神经网络作为鉴别器D,初始化线性映射G∈R^(d×d)作为生成器;
S1022、使用下列鉴别器的损失函数LD和生成器的损失函数LG训练生成器G和鉴别器D,直至损失函数LG达到最小值时,获得线性映射G;
其中,代表语言a的词向量,代表语言b的词向量,E代表期望,E的下标代表对相应的变量服从的分布计算期望,d为预设值;
其中,λ为超参数,cos代表余弦相似度。
3.根据权利要求2所述的方法,其特征在于,所述鉴别器D的输入和隐层的输出乘上高斯噪声N(1,σ^2)。
4.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至3任一所述方法的步骤。
5.一种计算机设备,包括存储器、处理器以及存储在所述存储器上并可在所述处理器上执行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至3任一所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374136.2A CN107315741B (zh) | 2017-05-24 | 2017-05-24 | 双语词典构建方法和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710374136.2A CN107315741B (zh) | 2017-05-24 | 2017-05-24 | 双语词典构建方法和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107315741A true CN107315741A (zh) | 2017-11-03 |
CN107315741B CN107315741B (zh) | 2019-11-22 |
Family
ID=60181975
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710374136.2A Active CN107315741B (zh) | 2017-05-24 | 2017-05-24 | 双语词典构建方法和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107315741B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101499A (zh) * | 2018-08-02 | 2018-12-28 | 王大江 | 基于神经网络的人工智能语音学习方法 |
CN109241539A (zh) * | 2018-08-02 | 2019-01-18 | 王大江 | 机器学习人工智能翻译数据库的更新方法 |
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN109582951A (zh) * | 2018-10-19 | 2019-04-05 | 昆明理工大学 | 一种基于多重cca算法的柬汉双语词向量模型构建方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111460804A (zh) * | 2019-01-02 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111738025A (zh) * | 2020-08-20 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的翻译方法、装置、电子设备和存储介质 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293908A1 (en) * | 2014-04-14 | 2015-10-15 | Xerox Corporation | Estimation of parameters for machine translation without in-domain parallel data |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
-
2017
- 2017-05-24 CN CN201710374136.2A patent/CN107315741B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150293908A1 (en) * | 2014-04-14 | 2015-10-15 | Xerox Corporation | Estimation of parameters for machine translation without in-domain parallel data |
CN105446958A (zh) * | 2014-07-18 | 2016-03-30 | 富士通株式会社 | 词对齐方法和词对齐设备 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
Non-Patent Citations (2)
Title |
---|
ZHEN YANG 等: "Improving Neural Machine Translation with Conditional Sequence Generative Adversarial Nets", 《HTTPS://ARXIV.ORG/ABS/1703.04887V1》 * |
张捷鑫: "基于单语语料库的词语新译挖掘方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109101499A (zh) * | 2018-08-02 | 2018-12-28 | 王大江 | 基于神经网络的人工智能语音学习方法 |
CN109241539A (zh) * | 2018-08-02 | 2019-01-18 | 王大江 | 机器学习人工智能翻译数据库的更新方法 |
CN109241539B (zh) * | 2018-08-02 | 2023-09-08 | 爱云保(上海)科技有限公司 | 机器学习人工智能翻译数据库的更新方法 |
CN109101499B (zh) * | 2018-08-02 | 2022-12-16 | 北京中科汇联科技股份有限公司 | 基于神经网络的人工智能语音学习方法 |
CN109271644A (zh) * | 2018-08-16 | 2019-01-25 | 北京紫冬认知科技有限公司 | 一种翻译模型训练方法及装置 |
CN109582951A (zh) * | 2018-10-19 | 2019-04-05 | 昆明理工大学 | 一种基于多重cca算法的柬汉双语词向量模型构建方法 |
CN111460804A (zh) * | 2019-01-02 | 2020-07-28 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111460804B (zh) * | 2019-01-02 | 2023-05-02 | 阿里巴巴集团控股有限公司 | 文本处理方法、装置和系统 |
CN111310480B (zh) * | 2020-01-20 | 2021-12-28 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111310480A (zh) * | 2020-01-20 | 2020-06-19 | 昆明理工大学 | 一种基于英语枢轴的弱监督汉越双语词典构建方法 |
CN111738025A (zh) * | 2020-08-20 | 2020-10-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的翻译方法、装置、电子设备和存储介质 |
CN112215017B (zh) * | 2020-10-22 | 2022-04-29 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN112215017A (zh) * | 2020-10-22 | 2021-01-12 | 内蒙古工业大学 | 一种基于伪平行语料库构造的蒙汉机器翻译方法 |
CN113343719A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
CN113343719B (zh) * | 2021-06-21 | 2023-03-14 | 哈尔滨工业大学 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107315741B (zh) | 2019-11-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107315741A (zh) | 双语词典构建方法和设备 | |
Jurgens et al. | Incorporating dialectal variability for socially equitable language identification | |
US20180357216A1 (en) | Domain concept discovery and clustering using word embedding in dialogue design | |
CN104731774B (zh) | 面向通用机译引擎的个性化翻译方法及装置 | |
CN107193807A (zh) | 基于人工智能的语言转换处理方法、装置及终端 | |
CN108537176A (zh) | 目标弹幕的识别方法、装置、终端及存储介质 | |
CN105446958A (zh) | 词对齐方法和词对齐设备 | |
CN111552766B (zh) | 使用机器学习来表征在引用图形上应用的参考关系 | |
CN109657056B (zh) | 目标样本获取方法、装置、存储介质及电子设备 | |
US20170091162A1 (en) | Annotating embedded tables | |
Liu et al. | Understanding llms: A comprehensive overview from training to inference | |
Firdaus et al. | Incorporating politeness across languages in customer care responses: Towards building a multi-lingual empathetic dialogue agent | |
Bondielli et al. | On the use of summarization and transformer architectures for profiling résumés | |
Üstün et al. | Unsupervised morphological segmentation using neural word embeddings | |
Truong et al. | Sensitive data detection with high-throughput neural network models for financial institutions | |
US10373525B2 (en) | Integrated curriculum based math problem generation | |
Lu et al. | Deep learning paradigm with transformed monolingual word embeddings for multilingual sentiment analysis | |
Turganbayeva et al. | The Solution of the Problem of Unknown Words Under Neural Machine Translation of the Kazakh Language | |
Khusainov et al. | The Influence of Different Methods on the Quality of the Russian-Tatar Neural Machine Translation | |
Xia et al. | Generating Questions Based on Semi-Automated and End-to-End Neural Network. | |
Li | Artificial intelligence machine translation based on fuzzy algorithm | |
Yang et al. | Analysis of AI MT based on fuzzy algorithm | |
Deep et al. | Development of Punjabi-English (PunEng) Parallel Corpus for Machine Translation System | |
Galinsky et al. | Morpheme level word embedding | |
Jafari et al. | Language-Agnostic method for sentiment analysis of twitter |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |