CN113343719A - 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 - Google Patents
利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 Download PDFInfo
- Publication number
- CN113343719A CN113343719A CN202110688705.7A CN202110688705A CN113343719A CN 113343719 A CN113343719 A CN 113343719A CN 202110688705 A CN202110688705 A CN 202110688705A CN 113343719 A CN113343719 A CN 113343719A
- Authority
- CN
- China
- Prior art keywords
- translation dictionary
- word
- bilingual
- bilingual translation
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/58—Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,包括:使用至少两种不同词嵌入模型在源语言和目标语言的单语语料上分别进行训练获得多组不同模型的词嵌入;按照词嵌入训练模型进行分组,并分别进行初始化得到对应初始词典;分别利用当前各模型相对应的词嵌入以及双语翻译词典进行自学习,以更新各个词嵌入分别利用更新后的词嵌入获取当前各自对应的双语翻译词典,并通过协同训练优化过滤提升各个双语翻译词典的置信度;重复第三、第四步直至训练结果收敛,并分别得到各个进程上的最终双语翻译词典。该方法解决了小语种语料资源匮乏的问题,提升了基于无监督学习的单语语料上获取双语翻译词典的无监督方法的效果。
Description
技术领域
本发明涉及双语翻译词典的获取方法、无监督跨语言学习技术领域,特别涉及一种利用不同词嵌入模型进行协同训练的基于无监督学习的双语翻译词典获取方式。
背景技术
无监督的双语词典获取任务是无监督跨语言学习相关研究的一个细分方向,而无监督的跨语言学习任务致力于不使用任何额外的跨语言平行信号进行跨语言表示的的学习,因此对于无监督跨语言学习的探索有助于从最基本的角度研究语言学习的特性以及内在原理,而且也更有利于研究单语语料库在跨语言学习中的作用,得到更具有普适性的跨语言学习模型。
语料库是由大量在真实情况下使用的语言信息集成的、可供计算机检索的、专门做研究使用的巨型资料库。一般来说,机器翻译相关研究使用的语料库是平行语料或可比语料,这是因为平行文本之间的一一对应关系以及可比语料库之间文本内容的相近都提供了充足的跨语言信息,这对于翻译相关研究来说有着极大的作用。
对于低资源场景来说,与平行语料库相比,单语语料是更为丰富且容易获取的资源。但是由于单语语料之间缺乏跨语言信息,使用单语语料来进行双语翻译词典的构造就变得极为困难。双语词典是构建机器翻译系统的基础性资源,所以为了机器翻译尤其是低资源语种上的相关研究的进一步发展,无监督的双语词典获取方法的研究和发展便有着极为重要的研究意义和实用价值。
目前的双语翻译词典的构建方法主要有以下几种:
(1)依赖语言学专家进行人工构筑的双语翻译词典,比如一些研究机构公布的常用语种上的双语翻译词典。这样的双语翻译词典来源于语言学家的人为劳动,因此词典的准确度是最好的,但这样的词典的构造需要大量的专业人员和时间,而且在信息数据爆炸的互联网时代,词典的更新速度很难跟得上信息的更新速度。而且对于一些较为生僻的语言对之间,也缺少相关的研究工作,所以很多低资源语种之间缺少双语翻译词典。
(2)平行语料库上双语词典获取的机器翻译方法。由于平行语料库的双语文本之间有着很强的对应关系,因此在平行语料库上进行文本对齐,并进一步获取双语翻译词典的目前来说已经有了非常成熟的机器翻译方法,比如说GIZA++等平行语料库的对齐方法,虽然比不上人工对齐的效果,但是平行语料库上的机器翻译文本对齐方法已经能得到准确率较高的双语翻译词典。但是另一方面,平行语料库也存在数量少的问题,尤其对于低资源语言对来说平行语料数据是十分匮乏的,因此利用平行语料库来获取双语翻译词典的方法也有着较大的局限性。
(3)单语语料库上双语词典的获取方法。单语语料库相对来说是较为广泛和充足的语料资源。但是不同语种的单语语料库之间几乎没有对应关系,因此单语语料库上的双语翻译词典构造任务缺乏足够的跨语言信息,从而使得单语语料库上的双语翻译词典获取的任务难度大大提升。目前单语语料库上的双语翻译词典获取方法包括使用种子词典作为跨语言信息补充的半监督方法以及基于对抗学习等模式的完全无监督方法。其中无监督方法在近年词嵌入技术进步的前提下处于发展和完善时期。
发明内容
本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
为此,本发明的目的在于提出一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,该方法提升了基于无监督学习的单语语料上获取双语翻译词典的无监督方法的效果。
为达到上述目的,本发明实施例提出了利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,包括以下步骤:步骤S101,获取两种不同的词嵌入训练模型,即模型A和模型B,在源语言以及目标语言的单语语料上进行训练,得到所述模型A训练出的源语言和目标语言的第一词嵌入以及所述模型B训练出的源语言和目标语言的第二词嵌入;步骤S102,建立两个无监督的双语翻译词典获取进程,即进程A和进程B,并对所述进程A和所述进程B进行初始化操作,获得所述进程A的第一初始翻译词典和所述进程B的第二初始翻译词典;步骤S103,使用所述第一词嵌入和所述第一初始翻译词典进行自学习,以更新所述第一词嵌入,同时使用所述第二词嵌入和所述第二初始翻译词典进行自学习,以更新所述第二词嵌入;步骤S104,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再通过协同训练对所述双语翻译词典A和所述双语翻译词典B进行优化过滤,得到新双语翻译词典A和新双语翻译词典B;步骤S105,迭代执行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,分别得到最优双语翻译词典A和最优双语翻译词典B。
本发明实施例的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,本发明实施例提出的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,围绕无监督的双语翻译词典获取展开,通过结合不同词嵌入训练模型所得到的词嵌入的独特语义信息,以协同训练的方法来进行双语翻译词典的获取工作,从而达到了充分利用单语语料库庞大且复杂的语义知识,并使得协同训练中每个进程的效果都有所提升,最终达到抽取获得准确度更高的双语翻译词典的效果。该方法在保证了无监督的大前提下,进一步提升了对现有的数据资源的利用程度,更进一步地开发了单语语料库的价值,即本发明实施例使用协同训练来结合不同词嵌入训练模型得到的词嵌入的语义价值,最终达到提升所获取的双语翻译词典质量的效果,进而对于机器翻译领域的双语翻译词典获取任务有着提升和促进作用,同时也对无监督跨语言学习相关研究方向的探索和发展起到了推进和补充作用。
另外,根据本发明上述实施例的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法还可以具有以下附加的技术特征:
进一步地,在本发明的一个实施例中,所述步骤S104具体包括:步骤S1041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再建立所述双语翻译词典A和所述双语翻译词典B的双语词汇数字索引表;步骤S1042,利用所述双语翻译词典A、所述双语翻译词典B以及所述双语词汇数字索引表进行词典比较,去除所述双语翻译词典A和所述双语翻译词典B非共有的翻译对,保留二者的相同部分建立所述新双语翻译词典A和所述新双语翻译词典B。
进一步地,在本发明的一个实施例中,所述步骤S105具体包括:步骤S1051,重复进行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,再次更新所述第一词嵌入,再次更新所述第二词嵌入;步骤S1052,计算所述步骤S1051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典A,同时计算所述步骤S1051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典B。
可选地,在本发明的一个实施例中,不仅限于两种不同的词嵌入训练模型,包括两种以上,即模型A、模型B和模型C或模型A、模型B、模型C和模型D。
进一步地,在本发明的一个实施例中,获取三种不同的词嵌入训练模型时,包括以下步骤:步骤S201,获取三种不同的词嵌入训练模型,即模型A、模型B和模型C,在源语言以及目标语言的单语语料上进行训练,得到所述模型A训练出的源语言和目标语言的第一词嵌入、所述模型B训练出的源语言和目标语言的第二词嵌入以及所述模型C训练出的源语言和目标语言的第三词嵌入;步骤S202,建立三个无监督的双语翻译词典获取进程,即进程A、进程B和进程C,并对所述进程A、所述进程B和所述进程C进行初始化操作,获得所述进程A的第一初始翻译词典、所述进程B的第二初始翻译词典和所述进程C的第三初始翻译词典;步骤S203,使用所述第一词嵌入和所述第一初始翻译词典进行自学习,以更新所述第一词嵌入,同时使用所述第二词嵌入和所述第二初始翻译词典进行自学习,以更新所述第二词嵌入,同时使用所述第三词嵌入和所述第三初始翻译词典进行自学习,以更新所述第三词嵌入;步骤S204,利用更新后的词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典C,再通过协同训练对所述双语翻译词典A、所述双语翻译词典B、所述双语翻译词典C进行优化过滤,得到新双语翻译词典A、新双语翻译词典B和新双语翻译词典C;步骤S205,迭代执行所述步骤S203和所述步骤S204,直至三个训练进程均观测指标收敛,分别得到最优双语翻译词典A、最优双语翻译词典B和最优双语翻译词典C。
进一步地,在本发明的一个实施例中,所述步骤S204具体包括:步骤S2041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典B,再建立所述双语翻译词典A、所述双语翻译词典B和所述双语翻译词典C的双语词汇数字索引表;步骤S2042,利用所述双语翻译词典A、所述双语翻译词典B、所述双语翻译词典C以及所述双语词汇数字索引表进行词典比较,去除所述双语翻译词典A、所述双语翻译词典B和所述双语翻译词典C非共有的翻译对,保留三者的相同部分建立所述新双语翻译词典A、所述新双语翻译词典B和所述新双语翻译词典C。
进一步地,在本发明的一个实施例中,所述步骤S205具体包括:步骤S2051,重复进行所述步骤S203和所述步骤S204,直至三个训练进程均观测指标收敛,再次更新所述第一词嵌入,再次更新所述第二词嵌入,再次更新所述第三词嵌入;步骤S2052,计算所述步骤S2051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典A,同时计算所述步骤S2051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典B,同时计算所述步骤S2051再更新后的第三词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典C。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法的流程图;
图2是本发明一个实施例的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法中双语翻译词典的协同训练过滤优化步骤示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
下面参照附图描述根据本发明实施例提出的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法。
图1是本发明一个实施例的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法的流程图。
如图1所示,该利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法包括以下步骤:
在步骤S101中,获取两种不同的词嵌入训练模型,即模型A和模型B,在源语言以及目标语言的单语语料上进行训练,得到模型A训练出的源语言和目标语言的第一词嵌入以及模型B训练出的源语言和目标语言的第二词嵌入。
需要说明的是,不仅限于两种不同的词嵌入训练模型,具体包括两种以上,即模型A、模型B和模型C或模型A、模型B、模型C和模型D等,本领域技术人员可实际情况进行选择,在此不做具体限定。
在步骤S102中,建立两个无监督的双语翻译词典获取进程,即进程A和进程B,并对进程A和进程B进行初始化操作,获得进程A的第一初始翻译词典和进程B的第二初始翻译词典。
也就是说,使用步骤S101得到的词嵌入,按照模型A和模型B分为两组,分别作为两个无监督的双语翻译词典获取进程的输入,并通过初始化操作获得进程A和进程B各自的初始翻译词典。
在步骤S103中,使用第一词嵌入和第一初始翻译词典进行自学习,以更新第一词嵌入,同时使用第二词嵌入和第二初始翻译词典进行自学习,以更新第二词嵌入。
也就是说,使用进程A对应的双语翻译词典A以及模型A训练得到的第一词嵌入进行自学习,更新模型A训练得到的第一词嵌入;使用进程B对应的双语翻译词典B以及模型B训练得到的第二词嵌入进行自学习,更新模型B训练得到的第二词嵌入。
在步骤S104中,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再通过协同训练对双语翻译词典A和双语翻译词典B进行优化过滤,得到新双语翻译词典A和新双语翻译词典B。
进一步地,如图2所示,在本发明的一个实施例中,步骤S104具体包括:
步骤S1041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再建立双语翻译词典A和双语翻译词典B的双语词汇数字索引表,以方便后续的筛选过去操作;
步骤S1042,利用双语翻译词典A、双语翻译词典B以及双语词汇数字索引表进行词典比较,去除双语翻译词典A和双语翻译词典B非共有的翻译对,保留二者的相同部分建立新双语翻译词典A和新双语翻译词典B。
在步骤S105中,迭代执行步骤S103和步骤S104,直至两个训练进程均观测指标收敛,分别得到最优双语翻译词典A和最优双语翻译词典B。
进一步地,在本发明的一个实施例中,步骤S105具体包括:
步骤S1051,重复进行步骤S103和步骤S104,直至两个训练进程均观测指标收敛,再次更新第一词嵌入,再次更新第二词嵌入;
步骤S1052,计算步骤S1051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到最终双语翻译词典A,同时计算步骤S1051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到最终双语翻译词典B。
进一步地,当获取三种不同的词嵌入训练模型时,即模型A、模型B和模型C,包括以下步骤:
步骤S201,获取三种不同的词嵌入训练模型,即模型A、模型B和模型C,在源语言以及目标语言的单语语料上进行训练,得到模型A训练出的第一词嵌入、模型B训练出的第二词嵌入以及模型C训练出的第三词嵌入。
步骤S202,建立三个无监督的双语翻译词典获取进程,即进程A、进程B和进程C,并对进程A、进程B和进程C进行初始化操作,获得进程A的第一初始翻译词典、进程B的第二初始翻译词典和进程C的第三初始翻译词典。
步骤S203,使用第一词嵌入和第一初始翻译词典进行自学习,以更新第一词嵌入,同时使用第二词嵌入和第二初始翻译词典进行自学习,以更新第二词嵌入,同时使用第三词嵌入和第三初始翻译词典进行自学习,以更新第三词嵌入。
步骤S204,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典C,再通过协同训练对双语翻译词典A、双语翻译词典B、双语翻译词典C进行优化过滤,得到新双语翻译词典A、新双语翻译词典B和新双语翻译词典C。
进一步地,步骤S204具体包括:
步骤S2041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典B,再建立双语翻译词典A、双语翻译词典B和双语翻译词典C的双语词汇数字索引表;
步骤S2042,利用双语翻译词典A、双语翻译词典B、双语翻译词典C以及双语词汇数字索引表进行词典比较,去除双语翻译词典A、双语翻译词典B和双语翻译词典C非共有的翻译对,保留三者的相同部分建立新双语翻译词典A、新双语翻译词典B和新双语翻译词典C。
步骤S205,迭代执行步骤S203和步骤S204,直至三个训练进程均观测指标收敛,分别得到最优双语翻译词典A、最优双语翻译词典B和最优双语翻译词典C。
进一步地,步骤S205具体包括:
步骤S2051,重复进行步骤S203和步骤S204,直至三个训练进程均观测指标收敛,再次更新第一词嵌入,再次更新第二词嵌入,再次更新第三词嵌入;
步骤S2052,计算步骤S2051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到最终双语翻译词典A,同时计算步骤S2051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到最终双语翻译词典B,同时计算步骤S2051再更新后的第三词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到最终双语翻译词典C。
综上,本发明实施例提出的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法具有以下有益效果:
(1)本发明实施例围绕无监督的双语翻译词典获取任务展开,通过结合不同词嵌入训练模型所得到的词嵌入的独特语义信息,以协同训练的方法来进行双语翻译词典的获取工作,从而达到了充分利用单语语料库庞大且复杂的语义知识,并使得协同训练中每个进程的效果都有所提升,最终达到抽取获得准确度更高的双语翻译词典的效果。该方法在保证了无监督的大前提下,进一步提升了对现有的数据资源的利用程度,更进一步地开发了单语语料库的价值,即本发明实施例使用协同训练来结合不同词嵌入训练模型得到的词嵌入的语义价值,最终达到提升所获取的双语翻译词典质量的效果,进而对于机器翻译领域的双语翻译词典获取任务有着提升和促进作用,同时也对无监督跨语言学习相关研究方向的探索和发展起到了推进和补充作用。
(2)本发明实施例首先考虑了现有的各种各样的词嵌入获取方法所得的词嵌入拥有着不同角度的语义表达能力的特点。现有的较为流行的词嵌入模型有的侧重于上下文信息,有的侧重于全局统计信息,有的考虑到了比词更细粒度的子词级别的语义信息。传统的无监督双语词典抽取方法都是去使用单一的模型获取词嵌入,而这会使得双语词典获取方法只能使用到单语语料库中片面的信息,从而大大地局限了获取方法对于现有语言数据的利用程度,这种对于词语语义信息表达的局限也必然会对最终得到的双语翻译词典的准确程度造成影响;
(3)本发明实施例在综合不同词嵌入模型所得的词嵌入的语义信息时,是通过协同训练的方法来实现不同种词嵌入的价值信息的融合的。相较于现有其他方法,本发明实施例能够在不影响同种模型所得的词嵌入上的双语翻译信息的前提下,合理地提高无监督双语翻译词典获取流程中所使用的信息的置信度,从而极大地改善无监督训练过程中缺乏跨语言信息对于双语翻译词典的获取任务所造成的困难,最终达到提升整个训练流程中每个单独训练进程所获得的双语翻译词典的准确度的效果。
(4)本发明实施例使得训练流程可以兼得单独训练和协同训练的优势,既保证了同种词嵌入训练模型得到的源语言词嵌入与目标语言词嵌入之间的双语翻译词典获取过程能够相对独立地进行,同时又能够与其他的训练流程的信息进行必要的交互,并以此来提升训练过程中所用信息的质量,最终使得各个训练流程的效果都能得到一定程度的提升,这种程度恰当的流程结合方式对提升任务结果起到了促进作用。
(5)本发明实施例的训练方法可以使得各个训练流程中所使用的信息的置信度获得提高,通过使用更加可靠的翻译词对来重复地进行自学习过程,使得自学习中每一个步骤都能够使用到更具价值的知识,达到互相协助的协同训练效果,最终在不同的语料库和语言对上都能获取到相较于基准方法准确率有明显提高的双语翻译词典,并且能使得每个子训练进程所得到的双语翻译词典的效果都优于单个训练进程的效果,较为充分地验证了本发明实施例的有效性以及可行性。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (7)
1.一种利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,包括以下步骤:
步骤S101,获取两种不同的词嵌入训练模型,即模型A和模型B,在源语言以及目标语言的单语语料上进行训练,得到所述模型A训练出的源语言和目标语言的第一词嵌入以及所述模型B训练出的源语言和目标语言的第二词嵌入;
步骤S102,建立两个无监督的双语翻译词典获取进程,即进程A和进程B,并对所述进程A和所述进程B进行初始化操作,获得所述进程A的第一初始翻译词典和所述进程B的第二初始翻译词典;
步骤S103,使用所述词嵌入和所述第一初始翻译词典进行自学习,以更新所述第一词嵌入,同时使用所述第二词嵌入和所述第二初始翻译词典进行自学习,以更新所述第二词嵌入;
步骤S104,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再通过协同训练对所述双语翻译词典A和所述双语翻译词典B进行优化过滤,得到新双语翻译词典A和新双语翻译词典B;
步骤S105,迭代执行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,分别得到最优双语翻译词典A和最优双语翻译词典B。
2.根据权利要求1所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,所述步骤S104具体包括:
步骤S1041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,再建立所述双语翻译词典A和所述双语翻译词典B的双语词汇数字索引表;
步骤S1042,利用所述双语翻译词典A、所述双语翻译词典B以及所述双语词汇数字索引表进行词典比较,去除所述双语翻译词典A和所述双语翻译词典B非共有的翻译对,保留二者的相同部分建立所述新双语翻译词典A和所述新双语翻译词典B。
3.根据权利要求1所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,所述步骤S105具体包括:
步骤S1051,重复进行所述步骤S103和所述步骤S104,直至两个训练进程均观测指标收敛,再次更新所述第一词嵌入,再次更新所述第二词嵌入;
步骤S1052,计算所述步骤S1051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典A,同时计算所述步骤S1051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典B。
4.根据权利要求1所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,不仅限于两种不同的词嵌入训练模型,包括两种以上,即模型A、模型B和模型C或模型A、模型B、模型C和模型D。
5.根据权利要求4所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,获取三种不同的词嵌入训练模型时,包括以下步骤:
步骤S201,获取三种不同的词嵌入训练模型,即模型A、模型B和模型C,在源语言以及目标语言的单语语料上进行训练,得到所述模型A训练出的源语言和目标语言的第一词嵌入、所述模型B训练出的源语言和目标语言的第二词嵌入以及所述模型C训练出的源语言和目标语言的第三词嵌入;
步骤S202,建立三个无监督的双语翻译词典获取进程,即进程A、进程B和进程C,并对所述进程A、所述进程B和所述进程C进行初始化操作,获得所述进程A的第一初始翻译词典、所述进程B的第二初始翻译词典和所述进程C的第三初始翻译词典;
步骤S203,使用所述第一词嵌入和所述第一初始翻译词典进行自学习,以更新所述第一词嵌入,同时使用所述第二词嵌入和所述第二初始翻译词典进行自学习,以更新所述第二词嵌入,同时使用所述第三词嵌入和所述第三初始翻译词典进行自学习,以更新所述第三词嵌入;
步骤S204,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典C,再通过协同训练对所述双语翻译词典A、所述双语翻译词典B、所述双语翻译词典C进行优化过滤,得到新双语翻译词典A、新双语翻译词典B和新双语翻译词典C;
步骤S205,迭代执行所述步骤S203和所述步骤S204,直至三个训练进程均观测指标收敛,分别得到最优双语翻译词典A、最优双语翻译词典B和最优双语翻译词典C。
6.根据权利要求5所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,所述步骤S204具体包括:
步骤S2041,利用更新后的第一词嵌入得到当前最优进程A的双语翻译词典A,利用更新后的第二词嵌入得到当前最优进程B的双语翻译词典B,利用更新后的第三词嵌入得到当前最优进程C的双语翻译词典B,再建立所述双语翻译词典A、所述双语翻译词典B和所述双语翻译词典C的双语词汇数字索引表;
步骤S2042,利用所述双语翻译词典A、所述双语翻译词典B、所述双语翻译词典C以及所述双语词汇数字索引表进行词典比较,去除所述双语翻译词典A、所述双语翻译词典B和所述双语翻译词典C非共有的翻译对,保留三者的相同部分建立所述新双语翻译词典A、所述新双语翻译词典B和所述新双语翻译词典C。
7.根据权利要求5所述的利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法,其特征在于,所述步骤S205具体包括:
步骤S2051,重复进行所述步骤S203和所述步骤S204,直至三个训练进程均观测指标收敛,再次更新所述第一词嵌入,再次更新所述第二词嵌入,再次更新所述第三词嵌入;
步骤S2052,计算所述步骤S2051再更新后的第一词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典A,同时计算所述步骤S2051再更新后的第二词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典B,同时计算所述步骤S2051再更新后的第三词嵌入的相似度,获取每个源语言单词相对应的最优的目标语言译文单词,得到所述最终双语翻译词典C。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688705.7A CN113343719B (zh) | 2021-06-21 | 2021-06-21 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110688705.7A CN113343719B (zh) | 2021-06-21 | 2021-06-21 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343719A true CN113343719A (zh) | 2021-09-03 |
CN113343719B CN113343719B (zh) | 2023-03-14 |
Family
ID=77478696
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110688705.7A Active CN113343719B (zh) | 2021-06-21 | 2021-06-21 | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343719B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
WO2015050321A1 (ko) * | 2013-10-02 | 2015-04-09 | 주식회사 시스트란인터내셔날 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
CN107315741A (zh) * | 2017-05-24 | 2017-11-03 | 清华大学 | 双语词典构建方法和设备 |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN108763210A (zh) * | 2018-05-22 | 2018-11-06 | 华中科技大学 | 一种基于自动化数据收集的情感分析与预测系统 |
CN108829685A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于单语语料库训练的蒙汉互译方法 |
CN112100332A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 词嵌入表示学习方法及装置、文本召回方法及装置 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112287694A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于共享编码器的汉越无监督神经机器翻译方法 |
CN112668307A (zh) * | 2020-12-30 | 2021-04-16 | 清华大学 | 一种双语句子自动对齐方法及装置 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
-
2021
- 2021-06-21 CN CN202110688705.7A patent/CN113343719B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101201820A (zh) * | 2007-11-28 | 2008-06-18 | 北京金山软件有限公司 | 一种双语语料库过滤方法及系统 |
WO2015050321A1 (ko) * | 2013-10-02 | 2015-04-09 | 주식회사 시스트란인터내셔날 | 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법 |
CN105843801A (zh) * | 2016-03-25 | 2016-08-10 | 北京语言大学 | 多译本平行语料库的构建系统 |
CN107315741A (zh) * | 2017-05-24 | 2017-11-03 | 清华大学 | 双语词典构建方法和设备 |
CN107368475A (zh) * | 2017-07-18 | 2017-11-21 | 中译语通科技(北京)有限公司 | 一种基于生成对抗神经网络的机器翻译方法和系统 |
CN108829685A (zh) * | 2018-05-07 | 2018-11-16 | 内蒙古工业大学 | 一种基于单语语料库训练的蒙汉互译方法 |
CN108763210A (zh) * | 2018-05-22 | 2018-11-06 | 华中科技大学 | 一种基于自动化数据收集的情感分析与预测系统 |
CN112100332A (zh) * | 2020-09-14 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 词嵌入表示学习方法及装置、文本召回方法及装置 |
CN112287694A (zh) * | 2020-09-18 | 2021-01-29 | 昆明理工大学 | 基于共享编码器的汉越无监督神经机器翻译方法 |
CN112287170A (zh) * | 2020-10-13 | 2021-01-29 | 泉州津大智能研究院有限公司 | 一种基于多模态联合学习的短视频分类方法及装置 |
CN112668307A (zh) * | 2020-12-30 | 2021-04-16 | 清华大学 | 一种双语句子自动对齐方法及装置 |
CN112926324A (zh) * | 2021-02-05 | 2021-06-08 | 昆明理工大学 | 融合词典与对抗迁移的越南语事件实体识别方法 |
Non-Patent Citations (5)
Title |
---|
AYANA ABRAHAM G. 等: "Unsupervised Cross-Lingual Mapping for Phrase Embedding Spaces", 《FUTURE OF INFORMATION AND COMMUNICATION CONFERENCE》 * |
XU RUOCHEN 等: "Cross-lingual text classification via model translation with limited dictionaries", 《PROCEEDINGS OF THE 25TH ACM INTERNATIONAL ON CONFERENCE ON INFORMATION AND KNOWLEDGE MANAGEMENT》 * |
孙旭明: "基于半监督学习的文本分类关键技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
张雄: "面向网络文本数据的实体关系抽取技术研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
苏子超: "基于协同训练的无监督跨语言词表示学习方法", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN113343719B (zh) | 2023-03-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840331B (zh) | 一种基于用户词典的神经机器翻译方法 | |
CN110502644B (zh) | 一种领域层级词典挖掘构建的主动学习方法 | |
CN108984683A (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN107562863A (zh) | 聊天机器人回复自动生成方法及系统 | |
CN110750959A (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
CN107004000A (zh) | 一种语料生成装置和方法 | |
CN108363704A (zh) | 一种基于统计短语表的神经网络机器翻译语料扩展方法 | |
CN108846000A (zh) | 一种基于超节点的常识语义图谱构建方法和装置以及基于连接预测的常识补全方法 | |
CN106844356B (zh) | 一种基于数据选择改善英中机器翻译质量的方法 | |
CN110162789A (zh) | 一种基于汉语拼音的词表征方法及装置 | |
CN104462063A (zh) | 基于语义位置模型的位置信息结构化提取方法及系统 | |
CN111553138B (zh) | 用于规范内容结构文档的辅助写作方法及装置 | |
CN115858750A (zh) | 基于自然语言处理的电网技术标准智能问答方法及系统 | |
CN116821377A (zh) | 基于知识图谱和大模型的小学语文自动评测系统 | |
CN107622047B (zh) | 一种设计决策知识的提取和表达方法 | |
CN113343719B (zh) | 利用不同词嵌入模型进行协同训练的无监督双语翻译词典获取方法 | |
CN111178018B (zh) | 一种基于深度学习的目标软文的生成方法及装置 | |
CN110909175B (zh) | 一种基于搜索引擎的在线课程概念知识图谱构建方法 | |
CN115878818B (zh) | 一种地理知识图谱构建方法、装置、终端及存储介质 | |
CN113408267B (zh) | 一种基于预训练模型的词对齐性能提升方法 | |
CN115879450A (zh) | 一种逐步文本生成方法、系统、计算机设备及存储介质 | |
CN113535899B (zh) | 一种针对互联网信息情感倾向性的自动研判方法 | |
CN114840680A (zh) | 一种实体关系联合抽取方法、装置、存储介质及终端 | |
CN116341655A (zh) | 一种基于多模态协同表示学习的实体对齐方法 | |
CN109871537A (zh) | 一种高精度的泰语分句方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |