CN107491444B - 基于双语词嵌入技术的并行化词对齐方法 - Google Patents

基于双语词嵌入技术的并行化词对齐方法 Download PDF

Info

Publication number
CN107491444B
CN107491444B CN201710714527.4A CN201710714527A CN107491444B CN 107491444 B CN107491444 B CN 107491444B CN 201710714527 A CN201710714527 A CN 201710714527A CN 107491444 B CN107491444 B CN 107491444B
Authority
CN
China
Prior art keywords
word
bilingual
target language
positive sample
positive
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710714527.4A
Other languages
English (en)
Other versions
CN107491444A (zh
Inventor
袁春风
黄宜华
黄堃
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University
Original Assignee
Nanjing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University filed Critical Nanjing University
Priority to CN201710714527.4A priority Critical patent/CN107491444B/zh
Publication of CN107491444A publication Critical patent/CN107491444A/zh
Application granted granted Critical
Publication of CN107491444B publication Critical patent/CN107491444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于双语词嵌入技术的并行化词对齐方法,在Spark平台上利用MPS‑Neg双语词嵌入技术获得双语词向量表,由双语词向量表获得词对齐模型,进而进行分布式词对齐任务,利用词对齐结果和MPS‑Neg更新双语词向量表,重复以上词对齐和双语词向量表更新操作直至指定迭代次数。本发明解决了现有词对齐方法不能很好适应大规模语料词对齐任务的问题。

Description

基于双语词嵌入技术的并行化词对齐方法
技术领域
本发明属于计算机自然语言处理和并行计算领域,具体是在Spark平台上实现的一种基于双语词嵌入技术的词对齐方法。
背景技术
词对齐作为机器翻译领域的关键技术之一,在许多自然语言处理任务中发挥着重要作用。1993年Brown等人提出将机器翻译基本方程式分为语言模型和翻译模型,并提出了IBM 1~5五种翻译模型。自此之后,IBM系列模型成为事实上的词对齐模型的标准,后续词对齐研究大多基于此系列模型展开,其中,基于HMM模型的词对齐方法对IBM模型2进行了改进,目前实际应用中常用HMM词对齐模型来替代IBM模型2。而主流词对齐工具GIZA++正是在IBM模型与HMM词对齐模型的基础上编写的。
基于IBM模型或HMM模型的词对齐均以基于词共现的方式来获取词翻译概率表,并以词翻译概率表作为模型参数来完成词对齐任务。随着语料库规模的日益增大,一方面使得词翻译概率的统计更为精准,然而另一方面也带给词对齐任务越来越大的数据处理压力,传统的单机词对齐算法在面对大数据集的词对齐任务时越来越难以适应,表现出其低效的一面。目前高速发展的大数据技术为提高词对齐算法效率提供了一条思路:以并行化的方式在集群上进行词对齐。然而,传统词对齐算法中需要生成规模庞大的词翻译概率表,该数据结构在并行化过程中将产生巨大的网络开销,拖慢整体词对齐效率。因此,寻求高质高效,易于并行化的词对齐方案成为当务之急。
发明内容
发明目的:为了解决体积庞大的词翻译概率表对于词对齐并行化效率的不利影响,本发明提出在Spark平台上使用双语词嵌入技术生成双语词向量表,并利用双语词向量表计算词翻译概率,进而进行词对齐任务。与大规模的词翻译概率表相比,双语词向量表占用内存少,传输开销小,又能精准地计算词翻译概率,极利于并行化处理,是大数据集环境下进行词对齐任务的良好选择。
为了实现上述发明目的,本发明的技术方案是:在Spark平台上实现的一种基于双语词嵌入技术的并行化词对齐方法,包含以下步骤:
(1)以Spark作为并行化计算平台,调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库,获得源语言的词表、词向量表和目标语言的词表、词向量表;
(2)利用小规模词对齐样本数据集和MPS-Neg(Multi-Positive-Sampls Negativesampling,多正样本负采样)双语词嵌入模型的的初始化模式(即I模式)对步骤(1)中得到的源语言和目标语言的词向量表进行训练,得到初始化的双语词向量表;
(3)利用双语词向量表完成基于双语词嵌入技术的并行化词对齐模型,进而对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果;
(4)利用步骤(3)中的词对齐结果和MPS-Neg双语词嵌入模型的更新模式(即U模式)对双语词向量表进行更新;
(5)重复步骤(3)和步骤(4)直至指定迭代次数。
进一步地,所述步骤(1)的过程具体如下:
1)对双语平行语料库的待对齐双语平行语料库进行预处理,并将预处理后的语料分布式地保存在各节点;
2)调用Spark MLlib中的Word2Vec工具分别对预处理后的待对齐双语平行文本的源语言和目标语言部分进行词嵌入训练,获得源语言的词表、词向量表和目标语言的词表、词向量表。
进一步地,所述步骤(2)的过程具体如下:
1)根据源语言和目标语言词表对小规模词对齐样本数据集进行编码,某个词在词表中的位置序号即为该词对应的词编码,对于未登录到源语言和目标语言词表中的词编码为-1;
2)获取小规模词对齐样本数据集的一个句对以及该句对的词对齐关系,双语句对为互译句对,为方便查找,词对齐关系以键值对(k,v)的形式保存,k为译文词在译文句中的位置,v为译文词对应源文词在源文句子中的位置;
3)获取步骤2)中每一个目标语言词汇的语境词向量,并对该目标语言词汇进行基于多正样本的负采样,获得指定个数的分级正样本以及对应的负样本集,根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集,正样本集中的每一个正样本均对应一个负样本集,具体如下:
首先获取目标语言词汇t,根据词对齐关系获得句对中该词对应的源语言词汇s,接着根据指定的窗口大小w,将s的前w/2和后w/2个词作为语境,并在词向量表中获取它们的词向量,将这些词向量相加作为语境词向量,然后根据指定窗口大小wpos,将t以及t的前wpos/2和后wpos/2个词作为正样本,与t距离为d的正样本称为Ld正样本,t本身为L0正样本,所有正样本一起组成t对应的正样本集,最后对于正样本集中的每一个正样本,利用随机负采样的方式生成该正样本对应的负样本集,随机负采样的规则为:对于目标语言词表中的每一个词,其被采样的概率与其词频正相关,若采样到的词不属于正样本集,则将其添加到负样本集,否则不作任何操作,重复采样直至负样本集的大小达到指定规模;
4)利用步骤3)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表,具体如下:
首先取一个正样本及其对应的负样本集,设置更新权重值weight=kd,其中k为常数且k∈(0,1),d为该正样本到目标语言词汇t的距离,然后根据权重值weight,利用梯度下降法最小化正样本与语境词向量的距离,同时最大化负样本与语境词向量的距离,重复以上操作,即可完成所有样本对应的词向量的更新;
5)对于小规模词对齐样本数据集的所有句对依次执行步骤2)、3)和4)操作。
进一步地,所述步骤(3)的过程具体如下:
1)将源语言和目标语言词表以及双语词向量表通过Spark的broadcast机制共享到各个节点,从各节点读取待对齐双语平行语料库,根据源语言和目标语言词表对待对齐双语平行语料库进行编码;
2)利用双语词向量表作为词对齐模型的参数,对每个节点上的待对齐平行语料库进行词对齐,所用的词对齐模型为基于双语词嵌入技术的词对齐模型,该模型描述如下:
设一组互译的源译文句对组成如下:长度为m的源语言词序列S=(s1,s2,...,sm),si为源语言词序列中的一个词,i∈[1,m]∩Z,Z为正整数集;长度为n的目标语言词序列T=(t1,t2,...,tn),tj为目标语言词序列中的一个词,j∈[1,n]∩Z。那么S和T的一个对齐可以表示为A={(1,a1),(2,a2),...,(m,am)},其中al表示源语言序列中第l个词对应的目标语言词的下标,al∈[0,n]∩Z,l∈[1,m]∩Z。对齐A实质上建立了一个从源语言序列词下标集合到目标语言序列词下标集合的单映射。Prob(A|S,T)表示给定源语言序列S和目标语言序列T的情况下对齐A的概率,那么有:
Figure BDA0001383489400000041
上式中,
Figure BDA0001383489400000044
表示源语言词si与目标语言词
Figure BDA0001383489400000045
的互译概率,下文中将源语言词汇s与目标语言词汇t的互译概率pr(s,t)称为本词对齐模型的词汇相似度要素;pr(ai,ai-1,m)表示当前对齐位置ai相对于前一对齐位置αi-1和源语言序列长度m的偏移概率,下文中将位置i相对于位置j和源语言序列长度m的偏移概率pr(i,j,m)称为本词对齐模型的相对位置要素。对于词汇相似度要素,有
pr(s,t)=α1rel(rs,rt)+β1
其中α1和β1为固定参数,rs和rt分别为s和t的词向量,rel(rs,rt)为相对相似度,有
Figure BDA0001383489400000042
上式中sim(r1,r2)为r1与r2间的词汇相似度,本发明中,以双语词向量间的cosine距离作为词汇相似度度量指标。
对于相对位置要素pr(i,j,m),有
Figure BDA0001383489400000043
其中,α2和β2为固定参数,σ(x)为sigmoid函数。
在上述词对齐模型的基础上,利用动态规划可获得S与T的最优词对齐结果。
3)收集各个节点的词对齐结果。
进一步地,所述步骤(4)的过程具体如下:
1)将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点,根据源语言和目标语言词表对双语平行语料库进行编码;
2)对于每一个双语句对,并行地完成步骤3)至步骤4);
3)获取步骤2)中每一个目标语言词汇的语境词向量,并对该目标语言词汇进行基于多正样本的负采样,获得指定个数的分级正样本以及对应的负样本集,根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集,正样本集中的每一个正样本均对应一个负样本集,具体如下:
首先获取目标语言词汇t,根据词对齐关系获得句对中该词对应的源语言词汇s,接着根据指定的窗口大小w,将s的前w/2和后w/2个词作为语境,并在词向量表中获取它们的词向量,将这些词向量相加作为语境词向量,然后根据指定窗口大小wpos,将t以及t的前wpos/2和后wpos/2个词作为正样本,与t距离为d的正样本称为Ld正样本,t本身为L0正样本,所有正样本一起组成t对应的正样本集,最后对于正样本集中的每一个正样本,利用随机负采样的方式生成该正样本对应的负样本集,随机负采样的规则为:对于目标语言词表中的每一个词,其被采样的概率与其词频正相关,若采样到的词不属于正样本集,则将其添加到负样本集,否则不作任何操作,重复采样直至负样本集的大小达到指定规模;
4)利用步骤3)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表,具体如下:
首先取一个正样本及其对应的负样本集,设置更新权重值weight=kd,其中k为常数且k∈(0,1),d为该正样本到目标语言词汇t的距离,然后根据权重值weight,利用梯度下降法最小化正样本与语境词向量的距离,同时最大化负样本与语境词向量的距离,重复以上操作,即可完成所有样本对应的词向量的更新;
本发明的有益效果是:(1)提出并实现了基于多正样本负采样技术的双语词嵌入模型MPS-Neg,该模型充分利用了源译文词汇的上下文语境信息,具有高精度的特点。(2)在Spark上实现了MPS-Neg的并行化,用于大规模训练语料情景下的并行化词向量更新。(3)提出基于双语词嵌入技术的词对齐模型,相比于传统的词对齐方法在词对齐正确率度上有较大提升,且易于实现高效的并行化方案,并在Spark上实现了该模型的并行化。
附图说明
图1是MPS-Neg所采用的三层神经网络示意图。
图2是MPS-Neg总体过程图。
图3是MPS-Neg样本组成示意图。
图4是MPS-Neg并行化示意图。
图5是词对齐算法总体框架示意图。
图6是词对齐算法并行化示意图。
图7是本发明的整体流程图。
具体实施方式:
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
深度学习是一种通过利用计算机模拟人脑的神经网络结构,来无监督地解析数据和抽取特征的机器学习方法。近年来,由于深度学习在自然语言处理领域的广泛应用,诞生了基于深度学习的词嵌入技术。词嵌入技术通过神经网络训练的方法将词语转换为低维的词向量,并利用词向量来表示该词的特征,能够很好地表示词汇间的相似度。将词嵌入技术扩充到两种语言,便有了双语词嵌入技术,利用双语词嵌入技术可以将双语词汇表示为双语词向量,而双语词向量的距离能够精确地反映词汇互译概率。
另一方面,自1993年Brown等人提出著名的IBM系列模型以来,在这20多年里国内外的词对齐算法研究大多以此为基础,然而在大数据集的情景下,基于词对齐互译概率的模型需要分布式地训练和维护庞大的词互译概率表而产生巨大的网络开销,这是目前IBM系列模型并行化的难点之一。对比之下用规模较小的双语词向量表代替大规模的词互译概率表来表示词汇互译概率能够更好地适应分布式环境中的词对齐任务。
基于以上考虑,本发明提出一种基于双语词嵌入技术的并行化词对齐方法,共包含两个模型:基于多正样本负采样技术的MPS-Neg双语词嵌入模型以及基于双语词嵌入技术的并行化词对齐模型,其中MPS-Neg包括I和U两种模式,分别用于小规模词对齐语料单机训练初始化双语词向量表以及大规模词对齐语料并行化训练更新双语词向量表。下文将依次对这两种模型加以阐述:
(1)MPS-Neg双语词嵌入模型。MPS-Neg使用了一个三层神经网络,该神经网络如图1所示。该神经网络的输入层是目标词t(j)对应的源文词s(i)的上下文词汇,在映射层对这些上下文词汇对应的词向量求和得到语境词向量v(s)作为输出层的输入,在输出层利用softmax函数进行多分类,来预测具有最大概率值的t(j)。
上述过程中t(j)的词向量作为参数出现,若已知t(j),便可估计对应的词向量。本发明采用基于多正样本负采样技术MPS-Neg来训练词向量,该过程包括采样和词向量更新两个步骤,如图2所示。对于目标词t(j),首先利用基于多正样本的负采样技术进行采样获得样本集S,再根据样本集中的所有样本和语境词向量v(s),利用随机梯度下降法对双语词向量表进行更新。MPS-Neg中样本集S的组成如图3所示,每个正样本都对应一个负样本,除了L0以外,每个等级的正样本和负样本集都有2个。
MPS-Neg中所用到的基于多正样本的负采样技术具体实施方法为:对于目标语言词汇t,根据指定窗口大小wpos,将t以及t的前wpos/2和后wpos/2个词作为正样本,与t距离为d的正样本称为Ld正样本,t本身为L0正样本,所有正样本一起组成t对应的正样本集,对于正样本集中的每一个正样本,利用随机负采样的方式生成该正样本对应的负样本集,随机负采样的规则为:对于目标语言词表中的每一个词,其被采样的概率与其词频正相关,若采样到的词不属于正样本集,则将其添加到负样本集,否则不作任何操作,重复采样直至负样本集的大小达到指定规模。
MPS-Neg包含两种模式:初始化模式(即I模式)及更新模式(即U模式)。I模式主要接收处理小规模词对齐样本数据集,用于将源语言和目标语言词向量表转化为双语词向量表,I模式首先对小规模词对齐样本数据集进行编码,某个词在词表中的位置序号即为该词对应的词编码,对于未登录到源语言和目标语言词表中的词编码为-1,接着对于小规模样本数据集中的所有句对中的每一个目标词分别完成上述的语境词向量获取、采样以及词向量更新操作。U模式主要用于处理大规模词对齐数据集,据此更新双语词向量表,U模式在Spark上并行化实现,首先将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点,并根据源语言和目标语言的词表对大规模词对齐数据集进行编码,然后在各个节点并行化地进行上述语境词向量获取、采样以及词向量更新操作,最终收集各节点词向量结果得到新的双语词向量表,上述并行化流程可参见图4。
(2)基于双语词嵌入技术的词对齐模型。设一组互译的源译文句对组成如下:长度为m的源语言词序列S=(s1,s2,...,sm),si为源语言词序列中的一个词,i∈[1,m]∩Z,Z为正整数集;长度为n的目标语言词序列T=(t1,t2,...,tn),tj为源语言词序列中的一个词,j∈[1,n]∩Z。那么S和T的一个对齐可以表示为A={(1,a1),(2,a2),...,(m,am)},其中al表示源语言序列中第l个词对应的目标语言词的下标,al∈[0,n]∩Z,l∈[1,m]∩Z。对齐A实质上建立了一个从源语言序列词下标集合到目标语言序列词下标集合的单映射。Prob(A|S,T)表示给定源语言序列S和目标语言序列T的情况下对齐A的概率,那么有:
Figure BDA0001383489400000081
上式中,
Figure BDA0001383489400000084
表示源语言词si与目标语言词
Figure BDA0001383489400000085
的互译概率,下文中将词s与词t的互译概率pr(s,t)称为本词对齐模型的词汇相似度要素;pr(ai,ai-1,m)表示当前对齐位置ai相对于前一对齐位置ai-1和源语言序列长度m的偏移概率,下文中将位置i相对于位置j和源语言序列长度m的偏移概率pr(i,j,m)称为本词对齐模型的相对位置要素。对于词汇相似度要素,有
pr(s,t)=α1rel(rs,rt)+β1
其中α1和β1为固定参数,rs和rt分别为s和t的词向量,rel(rs,rt)为相对相似度,有
Figure BDA0001383489400000082
上式中sim(r1,r2)为r1与r2间的词汇相似度,本发明中,以双语词向量间的cosine距离作为词汇相似度度量指标。
对于相对位置要素pr(i,j,m),有
Figure BDA0001383489400000083
其中,α2和β2为固定参数,σ(x)为sigmoid函数。
利用动态规划方法对上述模型求最优解,即可实现用于得到使Prob(A|S,T)最大化的词对齐A词对齐算法。本发明使用的词对齐算法的总体框架如图5所示。该词对齐算法包含3个模块,预处理、双语词嵌入以及词对齐模块。预处理模块用于数据预处理,双语词嵌入模块用于生成双语词向量表作为词对齐模型的参数,本发明中使用MPS-Neg模型来实现该模块,词对齐模块则用于词对齐训练,利用上述基于双语词嵌入技术的词对齐模型即可实现。利用Spark平台可实现该词对齐算法的并行化,并行化流程如图6所示,首先将源语言和目标语言词表以及双语词向量表通过Spark的broadcast机制共享到各个节点,从各节点读取待对齐双语平行语料库,然后利用双语词向量表作为词对齐模型的参数,对每个节点上的待对齐平行语料库进行词对齐,最后将各节点词对齐结果收集得到最终词对齐结果。
本发明的总体流程如图7所示,整个技术方案包括以下步骤:
(1)将待对齐双语平行语料库进行预处理后,以Spark作为并行化计算平台,调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库,获得源语言的词表、词向量表和目标语言的词表、词向量表;
(2)利用小规模词对齐样本数据集和MPS-Neg(Multi-Positive-Sampls Negativesampling,多正样本负采样)双语词嵌入模型的的I模式对步骤(1)中得到的源语言和目标语言的词向量表进行训练,得到初始化的双语词向量表;
(3)利用双语词向量表作为基于双语词嵌入技术的并行化词对齐模型的参数,对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果;
(4)利用步骤(3)中的词对齐结果和MPS-Neg双语词嵌入模型的U模式对双语词向量表进行更新;
(5)重复步骤(3)和步骤(4)直至指定迭代次数。
至此完成双语平行语料的词对齐工作,为了衡量本发明的效果,我们选择GIZA++作为基准进行对比,GIZA++是目前主流的词对齐工作,我们从联合国平行语料库中随机抽取1000个句对进行人工词对齐标注,并分别对本发明和GIZA++进行词对齐正确率测试,测试结果如下:
表1 GIZA++与本发明词对齐效果比较
Figure BDA0001383489400000091
为测量发明的性能,我们提取了本发明的词对齐模块,对比了单机与并行化词对齐算法的运行时间得到下表数据:
表2单机与并行化词对齐算法运行时间比较
Figure BDA0001383489400000101

Claims (7)

1.一种基于双语词嵌入技术的并行化词对齐方法,其特征是:包括以下步骤:
(1)以Spark作为并行化计算平台,调用Spark MLlib中已经实现的Word2Vec词嵌入工具训练待对齐双语平行语料库,获得源语言的词表、词向量表和目标语言的词表、词向量表;
(2)利用小规模词对齐样本数据集和MPS-Neg双语词嵌入模型的I模式对步骤(1)中得到的源语言和目标语言的词向量表进行训练,得到初始化的双语词向量表;
(3)利用双语词向量表完成基于双语词嵌入技术的并行化词对齐模型,进而对待对齐双语平行语料库进行分布式词对齐训练得到词对齐结果;
(4)利用步骤(3)中的词对齐结果和MPS-Neg双语词嵌入模型的U模式对双语词向量表进行更新;
(5)重复步骤(3)和步骤(4)直至指定迭代次数;
所述步骤(2)中包含以下步骤:
1)根据源语言和目标语言词表对小规模词对齐样本数据集进行编码,对于未登录到源语言和目标语言词表中的词编码为-1;
2)获取小规模词对齐样本数据集的一个句对以及该句对的词对齐关系;
3)获取步骤2)中每一个目标语言词汇的语境词向量,并对该目标语言词汇进行基于多正样本的负采样,获得指定个数的分级正样本以及对应的负样本集,根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集,正样本集中的每一个正样本均对应一个负样本集;
4)利用步骤3)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表;
5)对于小规模词对齐样本数据集的所有句对依次执行步骤2)、3)和4)操作;
所述步骤3)中包含以下步骤:
①获取目标语言词汇t,根据词对齐关系获得句对中该词对应的源语言词汇s;
②根据指定的窗口大小w,将s的前w/2和后w/2个词作为语境,并在词向量表中获取它们的词向量,将这些词向量相加作为语境词向量;
③根据指定窗口大小wpos,将t以及t的前wpos/2和后wpos/2个词作为正样本,与t距离为d的正样本称为Ld正样本,t本身为L0正样本,所有正样本一起组成t对应的正样本集;
④对于正样本集中的每一个正样本,利用随机负采样的方式生成该正样本对应的负样本集,随机负采样的规则为:对于目标语言词表中的每一个词,其被采样的概率与其词频正相关,若采样到的词不属于正样本集,则将其添加到负样本集,否则不作任何操作;重复采样直至负样本集的大小达到指定规模。
2.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤(1)中包含以下步骤:
1)对双语平行语料库的待对齐双语平行语料库进行预处理,并将预处理后的语料分布式地保存在各节点;
2)调用Spark MLlib中的Word2Vec工具分别对预处理后的待对齐双语平行文本的源语言和目标语言部分进行词嵌入训练,获得源语言的词表、词向量表和目标语言的词表、词向量表。
3.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤4)中包含以下步骤:
①取一个正样本及其对应的负样本集,设置更新权重值weight=kd,其中k为常数且k∈(0,1),d为该正样本到目标语言词汇t的距离;
②根据步骤①中的权重值weight,利用梯度下降法最小化正样本与语境词向量的距离,同时最大化负样本与语境词向量的距离;
③重复步骤①和②,完成所有样本对应的词向量的更新。
4.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤(3)中包含以下步骤:
1)将源语言和目标语言词表以及双语词向量表通过Spark的broadcast机制共享到各个节点,从各节点读取待对齐双语平行语料库,根据源语言和目标语言词表对待对齐双语平行语料库进行编码;
2)利用双语词向量表作为词对齐模型的参数,对每个节点上的待对齐平行语料库进行词对齐;
3)收集各个节点的词对齐结果。
5.根据权利要求1所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤(4)中包含以下步骤:
11)将源语言和目标语言词表和双语词向量表通过Spark的broadcast机制共享到各个节点,根据源语言和目标语言词表对双语平行语料库进行编码;
22)对于每一个双语句对,并行地完成步骤33)至步骤44);
33)获取步骤22)中每一个目标语言词汇的语境词向量,并对该目标语言词汇进行基于多正样本的负采样,获得指定个数的分级正样本以及对应的负样本集,根据一个目标语言词汇采样生成的所有正样本一起组成该目标语言词汇的正样本集,正样本集中的每一个正样本均对应一个负样本集;
44)利用步骤33)中获得的所有正样本集、负样本集以及语境词向量来更新双语词向量表。
6.根据权利要求5所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤33)包括如下步骤:
①获取目标语言词汇t,根据词对齐关系获得句对中该词对应的源语言词汇s;
②根据指定的窗口大小w,将s的前w/2和后w/2个词作为语境,并在词向量表中获取它们的词向量,将这些词向量相加作为语境词向量;
③根据指定窗口大小wpos,将t以及t的前wpos/2和后wpos/2个词作为正样本,与t距离为d的正样本称为Ld正样本,t本身为L0正样本,所有正样本一起组成t对应的正样本集;
④对于正样本集中的每一个正样本,利用随机负采样的方式生成该正样本对应的负样本集,随机负采样的规则为:对于目标语言词表中的每一个词,其被采样的概率与其词频正相关,若采样到的词不属于正样本集,则将其添加到负样本集,否则不作任何操作;重复采样直至负样本集的大小达到指定规模。
7.根据权利要求5所述的基于双语词嵌入技术的并行化词对齐方法,其特征是:所述步骤44)包括如下步骤:
①取一个正样本及其对应的负样本集,设置更新权重值weight=kd,其中k为常数且k∈(0,1),d为该正样本到目标语言词汇t的距离;
②根据①中的权重值weight,利用梯度下降法最小化正样本与语境词向量的距离,同时最大化负样本与语境词向量的距离;
③重复步骤①和②,完成所有样本对应的词向量的更新。
CN201710714527.4A 2017-08-18 2017-08-18 基于双语词嵌入技术的并行化词对齐方法 Active CN107491444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710714527.4A CN107491444B (zh) 2017-08-18 2017-08-18 基于双语词嵌入技术的并行化词对齐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710714527.4A CN107491444B (zh) 2017-08-18 2017-08-18 基于双语词嵌入技术的并行化词对齐方法

Publications (2)

Publication Number Publication Date
CN107491444A CN107491444A (zh) 2017-12-19
CN107491444B true CN107491444B (zh) 2020-10-27

Family

ID=60645351

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710714527.4A Active CN107491444B (zh) 2017-08-18 2017-08-18 基于双语词嵌入技术的并行化词对齐方法

Country Status (1)

Country Link
CN (1) CN107491444B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108345590B (zh) * 2017-12-28 2022-05-31 北京搜狗科技发展有限公司 一种翻译方法、装置、电子设备以及存储介质
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN109902708B (zh) * 2018-12-29 2022-05-10 华为技术有限公司 一种推荐模型训练方法及相关装置
CN110008723B (zh) * 2019-03-27 2022-11-15 东南大学 一种基于词嵌入技术的加解密方法
CN110297903B (zh) * 2019-06-11 2021-04-30 昆明理工大学 一种基于不对等语料的跨语言词嵌入方法
CN110414009B (zh) * 2019-07-09 2021-02-05 昆明理工大学 基于BiLSTM-CNN的英缅双语平行句对抽取方法及装置
CN110826322A (zh) * 2019-10-22 2020-02-21 中电科大数据研究院有限公司 一种新词发现和词性预测及标注的方法
CN110909551B (zh) * 2019-12-05 2023-10-27 北京知道创宇信息技术股份有限公司 语言预训练模型更新方法、装置、电子设备及存储介质
CN113705227B (zh) * 2020-05-21 2023-04-25 中国科学院上海高等研究院 中文无分词词嵌入模型的构建方法、系统、介质及设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102708098B (zh) * 2012-05-30 2015-02-04 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
CN102945232B (zh) * 2012-11-16 2015-01-21 沈阳雅译网络技术有限公司 面向统计机器翻译的训练语料质量评价及选取方法
CN106484682B (zh) * 2015-08-25 2019-06-25 阿里巴巴集团控股有限公司 基于统计的机器翻译方法、装置及电子设备
CN106055543B (zh) * 2016-05-23 2019-04-09 南京大学 基于Spark的大规模短语翻译模型的训练方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机系统有限公司 词向量的文本分类方法及终端设备
CN106776534B (zh) * 2016-11-11 2020-02-11 北京工商大学 词向量模型的增量式学习方法

Also Published As

Publication number Publication date
CN107491444A (zh) 2017-12-19

Similar Documents

Publication Publication Date Title
CN107491444B (zh) 基于双语词嵌入技术的并行化词对齐方法
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN108763504B (zh) 一种基于强化双通道序列学习的对话回复生成方法及系统
CN108829684A (zh) 一种基于迁移学习策略的蒙汉神经机器翻译方法
CN110597997B (zh) 一种军事想定文本事件抽取语料库迭代式构建方法及装置
CN110532554A (zh) 一种中文摘要生成方法、系统及存储介质
CN109101235A (zh) 一种软件程序的智能解析方法
CN110717341B (zh) 一种以泰语为枢轴的老-汉双语语料库构建方法及装置
CN110516095A (zh) 基于语义迁移的弱监督深度哈希社交图像检索方法和系统
CN115062109B (zh) 一种基于实体对注意力机制的实体关系联合抽取方法
CN108280180B (zh) 一种基于主题模型的半监督哈希算法的检索方法
CN112364623A (zh) 基于Bi-LSTM-CRF的三位一体字标注汉语词法分析方法
Zhao et al. Synchronously improving multi-user English translation ability by using AI
CN110619127A (zh) 一种基于神经网络图灵机的蒙汉机器翻译方法
CN112395891A (zh) 一种结合Bert语言模型和细粒度压缩的汉蒙翻译方法
CN115357719A (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
CN115758758A (zh) 基于相似性特征约束的逆合成预测方法、介质及设备
CN117010398A (zh) 一种基于多层知识感知的地址实体识别方法
CN115062123A (zh) 一种对话生成系统的知识库问答对生成方法
CN113191150B (zh) 一种多特征融合的中文医疗文本命名实体识别方法
Raju et al. Effective preprocessing based neural machine translation for english to telugu cross-language information retrieval
CN116595343B (zh) 基于流形排序学习的在线无监督跨模态检索方法及系统
CN115860015B (zh) 一种基于翻译记忆的转写文本翻译方法和计算机设备
CN111382333A (zh) 基于案件相关性联合学习与图卷积的新闻文本句中案件要素抽取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210093 Nanjing, Gulou District, Jiangsu, No. 22 Hankou Road

Applicant after: NANJING University

Address before: 210093 No. 22, Hankou Road, Suzhou, Jiangsu

Applicant before: NANJING University

GR01 Patent grant
GR01 Patent grant