CN105446958A - 词对齐方法和词对齐设备 - Google Patents
词对齐方法和词对齐设备 Download PDFInfo
- Publication number
- CN105446958A CN105446958A CN201410344476.7A CN201410344476A CN105446958A CN 105446958 A CN105446958 A CN 105446958A CN 201410344476 A CN201410344476 A CN 201410344476A CN 105446958 A CN105446958 A CN 105446958A
- Authority
- CN
- China
- Prior art keywords
- target language
- term vector
- language term
- model
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了词对齐方法和词对齐设备。根据本发明的词对齐方法用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,该词对齐方法包括:将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
Description
技术领域
本发明一般地涉及自然语言处理领域。具体而言,本发明涉及一种用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐的词对齐方法和词对齐设备。
背景技术
近年来,自然语言处理,尤其是机器翻译技术得到了迅猛的发展。机器翻译技术从最初的基于规则的翻译方法,逐步发展到基于大规模平行语料的统计机器翻译方法。
统计机器翻译方法的一个基本并且重要的步骤是词对齐。词对齐是指将双语句对中的源语言词语和目标语言词语对应。例如,双语句对为“我在教室玩游戏”、“Iplaygameintheclassroom”。词对齐技术能够将“我”、“在”、“教室”、“玩”、“游戏”分别与“I”、“in”、“classroom”、“play”、“game”对应起来。这样,可以基于词对齐获得的双语词对进行各种处理。例如,建立翻译规则表、建立翻译词汇表、抽取短语、层次短语、句法分析等。
可见,词对齐技术是机器翻译技术,尤其是统计机器翻译技术中的一个基础和重要的技术。词对齐的结果的正确性直接影响后续训练和翻译的正确性。
人们迫切需要能够进行较高质量的词对齐的词对齐技术。
另一方面,词对齐技术处理的对象是双语语料。双语语料的质量和数量都相对不足。双语语料的不足也影响词对齐技术的提高。同时,存在大量的高质量单语语料,难以在词对齐技术上利用。
综上所述,难以在高质量双语语料不足的情况下利用大量高质量单语语料有效地提高词对齐的质量。
因此,期望一种能够利用少量双语语料和大量单语语料有效地提高词对齐质量的词对齐方法和词对齐设备。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的目的是针对现有技术的上述问题,提出了一种能够充分利用大量的高质量单语语料、对高质量的双语语料的数量要求少、有效地提高词对齐质量的词对齐技术。
为了实现上述目的,根据本发明的一个方面,提供了一种词对齐方法,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
相应地,根据本发明的再一方面,提供了一种机器翻译方法,其中,利用如上所述的词对齐方法进行词对齐。
根据本发明的另一个方面,提供了一种词对齐设备,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:转换模型,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;映射模型,用于确定与所述源语言词向量对应的参考目标语言词向量;相似度计算装置,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及基于特征函数的词对齐模型,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
相应地,根据本发明的再一方面,提供了一种机器翻译设备,该机器翻译设备包括:如上所述的词对齐设备,用于进行词对齐。
另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本发明的上述方法。
此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本发明的上述方法。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:
图1示出了根据本发明的实施例的词对齐方法的流程图;
图2示出了根据本发明的实施例的映射模型训练方法的流程图;
图3示出了根据本发明实施例的词对齐设备的结构方框图;以及
图4示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。
下面将参照图1描述根据本发明的实施例的词对齐方法的流程。
图1示出了根据本发明的实施例的词对齐方法的流程图。如图1所示,根据本发明的词对齐方法用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,该词对齐方法包括如下步骤:将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量(步骤S1);利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量(步骤S2);计算所述参考目标语言词向量与所述目标语言词向量之间的相似度(步骤S3);以及将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语(步骤S4)。
在步骤S1中,将源语言词语和目标语言词语转换为源语言词向量和目标语言词向量。
词对齐的对象是双语语料。根据翻译的需求,将其中一种语言定义为源语言,将另一种语言定义为目标语言。
双语语料一般为句子、段落、文档等。以句子为例,一个源语言的句子由多个源语言的词语组成,可以通过分词等手段将一个源语言句子划分为多个源语言词语。类似地,可以将一个目标语言句子划分为多个目标语言词语。词对齐就是将源语言句子中的源语言词语与目标语言句子中的目标语言词语对应起来的过程。
根据本发明的思想,将源语言词语和目标语言词语向量化,即将词语抽象地、分布式地表示。然后基于词语的向量表示抽取可用于词对齐的特征,通过增加特征来提高词对齐的质量。
因此,在步骤S1中,首先进行的是词语的向量化,即将源语言句子中的源语言词语和目标语言句子中的目标语言词语转换为源语言词向量和目标语言词向量。
这一步骤可由转换模型实现。
应注意,转换模型的输入是经分词的源语言句子和目标语言句子。也就是说,转换模型并不负责分词处理。而且,转换模型进行转换时能够利用句子中的各个词语的相邻信息、句子的结构信息等能够从语料中获取并利用的信息。因此,同一个源语言词语(或目标语言词语)在不同的句子中被输入到转换模型时,转换模型输出的对应的源语言词向量(或目标语言词向量)可能是不同的。转换模型的输出是由对应的源语言词向量(或目标语言词向量)构成的集合。转换模型如黑匣子般工作,需要进行训练。
转换模型包括,但不限于:神经网络(NeuralNetworks,NNs)、潜在语义分析(LSA,LatentSemanticAnalysis)、潜在语义索引(LSI,LatentSemanticIndexing)、潜在狄利克雷分布(LDA,LatentDirichletallocation)。
训练好的转换模型可以将源语言词语和目标语言词语向量化。
可以分别获得源语言和目标语言的大规模单语语料。由于高质量的单语语料相对于双语语料容易获得,因此可以相对容易地获得大量的高质量单语语料。
然后,利用所获得的大规模单语语料,训练转换模型,使得转换模型能够将源语言词语和目标语言词语转换为实数值向量,作为源语言词向量和目标语言词向量。
这些通过大规模单语语料转换而来的向量构成向量空间,以备后续计算向量之间的相似度使用。
这样的向量空间中蕴含着训练用大规模单语语料中的信息,包括词语之间的相邻信息、句子的结构信息等能够从语料中获取并利用的信息。此处应能理解,训练用单语语料在被使用时已被分词。
应注意,在应用本发明时,只有训练时的大规模单语语料中包括的源语言词语或目标语言词语的词对齐才能利用本发明提供的特征。也就是说,步骤S1中的源语言词语和目标语言词语必须包含在训练时的大规模单语语料中。
这样,本发明利用到了容易获得的、高质量的、大量的单语语料的信息来帮助提高词对齐的准确度,而不像传统技术那样完全地依赖双语语料。
在步骤S2中,利用映射模型,确定与源语言词向量对应的参考目标语言词向量。
经过步骤S1,获得了与要对齐的源语言词语和目标语言词语对应的源语言词向量和目标语言词向量。然而,并不知晓源语言词向量和目标语言词向量之间的关联,进而无法获取用于词对齐的特征。
因此,需要利用训练好的映射模型来建立源语言词向量与目标语言词向量之间的关系。
映射模型包括,但不限于线性转换模型和神经网络。
仅需利用少量对齐的双语语料即可训练映射模型。
图2示出了根据本发明的实施例的映射模型训练方法的流程图。如图2所示,根据本发明的映射模型训练方法,包括如下步骤:获取已对齐的源语言和目标语言的双语句对(步骤S21);利用转换模型,将双语句对中的词语转换为对应的词向量(步骤S22);以及基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得映射模型能够将源语言词向量映射为目标语言词向量(步骤S23)。
具体地,在步骤S21中,首先获取双语语料,即已对齐的源语言和目标语言的双语句对。
如上所述,此步骤所需的高质量双语语料的数量与单语语料相比可以较少。另外,由于段落、文档等语料本质上是多个句子构成的,因此,可以认为作为语料的是双语句对。
在步骤S22中,利用已经训练好的转换模型,将双语句对中的词语转换为对应的词向量,即将双语语料从词语形式转换为词向量形式。
在步骤S23中,基于步骤S22所转换的词向量,利用上述大规模单语语料所转换的向量空间,训练映射模型。
训练好的映射模型能够将源语言词向量映射为目标语言词向量。
也就是说,利用双语语料的已有的对齐关系,以词向量的形式,在向量空间中,训练映射模型,使得映射模型能够建立源语言词向量和目标语言词向量之间的映射关系。
换句话说,映射模型可以进行源语言词向量和目标语言词向量之间的对齐。这样的对齐结果可以作为源语言词语和目标语言词语之间的词对齐的参考。参考的体现形式是词对齐利用到的特征。
因此,在步骤S2中,可以利用经训练的映射模型来确定与源语言词向量对应的参考目标语言词向量。
在步骤S3中,计算在步骤S1中转换得到的目标语言词向量与在步骤S2中映射得到的参考目标语言词向量之间的相似度。
这个相似度就可以作为在步骤S1中转换得到的源语言词向量与目标语言词向量之间的一个特征,用于词对齐。
相似度的计算方法并无特别的限制。计算向量相似度的方法均可应用于此。
例如,计算在向量空间中参考目标语言词向量与目标语言词向量之间的距离作为相似度。
也可以计算在向量空间中参考目标语言词向量与目标语言词向量之间的余弦夹角作为相似度。
有了步骤S3获得的特征,就可以在步骤S4中,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。其中,特征函数的特征之一是通过步骤S3获得的特征。
显然,本发明可以利用任何基于特征函数的词对齐模型。
这样的词对齐模型既可以是生成式词对齐模型,也可以是判别式词对齐模型,可以是有监督的词对齐模型,也可以是无监督的词对齐模型,只要词对齐模型基于特征函数即可。
特征函数的特征可以仅包括本发明提出的特征,也可以包括其他特征。
由于利用的是已有的词对齐模型,并且仅需增加一个特征,所以,本发明可以容易地应用到传统技术中,对现有的词对齐模型进行改进,提高词对齐的准确度。
以上参照图1,介绍了根据本发明的实施例的词对齐方法的流程。
相应地,提出了一种机器翻译方法,其中利用本发明的词对齐方法进行词对齐。
由于本发明对词对齐方法进行了改进,因此,只要是利用到词对齐方法的机器翻译方法,均可以利用根据本发明的词对齐方法。而且,利用根据本发明的词对齐方法的机器翻译方法均属于根据本发明的机器翻译方法。
下面,将参照图3描述根据本发明实施例的词对齐设备。
图3示出了根据本发明实施例的词对齐设备的结构方框图。如图3所示,根据本发明的词对齐设备300用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,词对齐设备300包括:转换模型31,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;映射模型32,用于确定与所述源语言词向量对应的参考目标语言词向量;相似度计算装置33,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及基于特征函数的词对齐模型34,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
在一个实施例中,转换模型31包括神经网络(NeuralNetworks,NNs)、潜在语义分析(LSA,LatentSemanticAnalysis)、潜在语义索引(LSI,LatentSemanticIndexing)、潜在狄利克雷分布(LDA,LatentDirichletallocation)。
在一个实施例中,转换模型31通过如下步骤训练得到:分别获得所述源语言和所述目标语言的大规模单语语料;利用所获得的大规模单语语料,训练所述转换模型31,使得所述转换模型31能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
在一个实施例中,映射模型32通过如下步骤训练得到:获取已对齐的所述源语言和所述目标语言的双语句对;利用所述转换模型31,将所述双语句对中的词语转换为对应的词向量;基于转换得到的词向量之间的对齐关系,训练所述映射模型32,使得所述映射模型32能够将所述源语言词向量映射为所述目标语言词向量。
在一个实施例中,映射模型32包括线性转换模型和神经网络。
在一个实施例中,相似度计算装置33被进一步配置为:计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的距离,作为相似度。
在一个实施例中,相似度计算装置33被进一步配置为:计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的余弦夹角,作为相似度。
在一个实施例中,基于特征函数的词对齐模型34包括:生成式词对齐模型、判别式词对齐模型。
在一个实施例中,基于特征函数的词对齐模型34包括:有监督的词对齐模型、无监督的词对齐模型。
相应地,提出了一种机器翻译设备,其包括如上所述的词对齐设备300,用于进行词对齐。
由于在根据本发明的词对齐设备300中所包括的各个装置和单元中的处理分别与上面描述的词对齐方法中所包括的各个步骤中的处理类似,因此为了简洁起见,在此省略这些装置和单元的详细描述。
此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图4所示的通用计算机400)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图4示出了可用于实施根据本发明实施例的方法和设备的计算机的示意性框图。
在图4中,中央处理单元(CPU)401根据只读存储器(ROM)402中存储的程序或从存储部分408加载到随机存取存储器(RAM)403的程序执行各种处理。在RAM403中,还根据需要存储当CPU401执行各种处理等等时所需的数据。CPU401、ROM402和RAM403经由总线404彼此连接。输入/输出接口405也连接到总线404。
下述部件连接到输入/输出接口405:输入部分406(包括键盘、鼠标等等)、输出部分407(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分408(包括硬盘等)、通信部分409(包括网络接口卡比如LAN卡、调制解调器等)。通信部分409经由网络比如因特网执行通信处理。根据需要,驱动器410也可连接到输入/输出接口405。可拆卸介质411比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装在驱动器410上,使得从中读出的计算机程序根据需要被安装到存储部分408中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质411安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图4所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质411。可拆卸介质411的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM402、存储部分408中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与其它实施方式中的特征相组合,或替代其它实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
附记
1.一种词对齐方法,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;
计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
2.如附记1所述的方法,其中利用转换模型进行所述转换,所述转换模型包括神经网络、潜在语义分析、潜在语义索引、潜在狄利克雷分布。
3.如附记2所述的方法,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
4.如附记3所述的方法,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
5.如附记1所述的方法,其中所述映射模型包括线性转换模型和神经网络。
6.如附记1所述的方法,其中所述计算参考目标语言词向量与目标语言词向量之间的相似度包括:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的距离,作为相似度。
7.如附记1所述的方法,其中所述计算参考目标语言词向量与目标语言词向量之间的相似度包括:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的余弦夹角,作为相似度。
8.如附记1所述的方法,其中所述基于特征函数的词对齐模型包括:生成式词对齐模型、判别式词对齐模型。
9.如附记1所述的方法,其中所述基于特征函数的词对齐模型包括:有监督的词对齐模型、无监督的词对齐模型。
10.一种机器翻译方法,其中,利用如附记1-9之一所述的词对齐方法进行词对齐。
11.一种词对齐设备,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
转换模型,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
映射模型,用于确定与所述源语言词向量对应的参考目标语言词向量;
相似度计算装置,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
基于特征函数的词对齐模型,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
12.如附记11所述的设备,其中所述转换模型包括神经网络、潜在语义分析、潜在语义索引、潜在狄利克雷分布。
13.如附记11所述的设备,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
14.如附记13所述的设备,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
15.如附记11所述的设备,其中所述映射模型包括线性转换模型和神经网络。
16.如附记11所述的设备,其中所述相似度计算装置被进一步配置为:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的距离,作为相似度。
17.如附记11所述的设备,其中所述相似度计算装置被进一步配置为:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的余弦夹角,作为相似度。
18.如附记11所述的设备,其中所述基于特征函数的词对齐模型包括:生成式词对齐模型、判别式词对齐模型。
19.如附记11所述的设备,其中所述基于特征函数的词对齐模型包括:有监督的词对齐模型、无监督的词对齐模型。
20.一种机器翻译设备,包括:如附记11-19之一所述的词对齐设备,用于进行词对齐。
Claims (10)
1.一种词对齐方法,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
利用映射模型,确定与所述源语言词向量对应的参考目标语言词向量;
计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
将所计算的相似度作为特征,利用基于特征函数的词对齐模型,对齐所述源语言词语和所述目标语言词语。
2.如权利要求1所述的方法,其中利用转换模型进行所述转换,所述转换模型包括神经网络、潜在语义分析、潜在语义索引、潜在狄利克雷分布。
3.如权利要求2所述的方法,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
4.如权利要求3所述的方法,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
5.如权利要求1所述的方法,其中所述映射模型包括线性转换模型和神经网络。
6.如权利要求1所述的方法,其中所述计算参考目标语言词向量与目标语言词向量之间的相似度包括:
计算在向量空间中所述参考目标语言词向量与所述目标语言词向量之间的距离或余弦夹角,作为相似度。
7.如权利要求1所述的方法,其中所述基于特征函数的词对齐模型包括:生成式词对齐模型、判别式词对齐模型、有监督的词对齐模型、无监督的词对齐模型。
8.一种词对齐设备,用于将源语言和目标语言的双语句对中的源语言词语和目标语言词语对齐,包括:
转换模型,用于将所述源语言词语和所述目标语言词语转换为源语言词向量和目标语言词向量;
映射模型,用于确定与所述源语言词向量对应的参考目标语言词向量;
相似度计算装置,被配置为计算所述参考目标语言词向量与所述目标语言词向量之间的相似度;以及
基于特征函数的词对齐模型,用于将所计算的相似度作为特征,对齐所述源语言词语和所述目标语言词语。
9.如权利要求8所述的设备,其中所述转换模型通过如下步骤训练得到:
分别获得所述源语言和所述目标语言的大规模单语语料;
利用所获得的大规模单语语料,训练所述转换模型,使得所述转换模型能够将所述源语言词语和所述目标语言词语转换为实数值向量,作为所述源语言词向量和所述目标语言词向量。
10.如权利要求9所述的设备,其中所述映射模型通过如下步骤训练得到:
获取已对齐的所述源语言和所述目标语言的双语句对;
利用所述转换模型,将所述双语句对中的词语转换为对应的词向量;
基于转换得到的词向量之间的对齐关系,训练所述映射模型,使得所述映射模型能够将源语言词向量映射为目标语言词向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410344476.7A CN105446958A (zh) | 2014-07-18 | 2014-07-18 | 词对齐方法和词对齐设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410344476.7A CN105446958A (zh) | 2014-07-18 | 2014-07-18 | 词对齐方法和词对齐设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105446958A true CN105446958A (zh) | 2016-03-30 |
Family
ID=55557173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410344476.7A Pending CN105446958A (zh) | 2014-07-18 | 2014-07-18 | 词对齐方法和词对齐设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105446958A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN107315741A (zh) * | 2017-05-24 | 2017-11-03 | 清华大学 | 双语词典构建方法和设备 |
CN107766339A (zh) * | 2017-10-20 | 2018-03-06 | 语联网(武汉)信息技术有限公司 | 原译文对齐的方法及装置 |
CN107894982A (zh) * | 2017-10-25 | 2018-04-10 | 昆明理工大学 | 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
CN108960317A (zh) * | 2018-06-27 | 2018-12-07 | 哈尔滨工业大学 | 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法 |
CN109145313A (zh) * | 2018-07-18 | 2019-01-04 | 广州杰赛科技股份有限公司 | 语句的翻译方法、装置和存储介质 |
CN109697287A (zh) * | 2018-12-20 | 2019-04-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子级双语对齐方法及系统 |
WO2019119852A1 (zh) * | 2017-12-23 | 2019-06-27 | 华为技术有限公司 | 语言处理方法及设备 |
CN110210041A (zh) * | 2019-05-23 | 2019-09-06 | 北京百度网讯科技有限公司 | 互译句对齐方法、装置及设备 |
CN111291563A (zh) * | 2020-01-20 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 词向量对齐方法和词向量对齐模型训练方法 |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
WO2021184769A1 (zh) * | 2020-03-17 | 2021-09-23 | 江苏省舜禹信息技术有限公司 | 神经网络文本翻译模型的运行方法、装置、设备、及介质 |
CN113591496A (zh) * | 2021-07-15 | 2021-11-02 | 清华大学 | 一种双语词语对齐方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001273293A (ja) * | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
JP2006344011A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 多言語文書検索装置 |
US20070203690A1 (en) * | 2006-02-28 | 2007-08-30 | Kabushiki Kaisha Toshiba | Method and apparatus for training bilingual word alignment model, method and apparatus for bilingual word alignment |
CN101030197A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 |
CN102193912A (zh) * | 2010-03-12 | 2011-09-21 | 富士通株式会社 | 短语划分模型建立方法、统计机器翻译方法以及解码器 |
CN102945232A (zh) * | 2012-11-16 | 2013-02-27 | 沈阳雅译网络技术有限公司 | 面向统计机器翻译的训练语料质量评价及选取方法 |
-
2014
- 2014-07-18 CN CN201410344476.7A patent/CN105446958A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001273293A (ja) * | 2000-03-23 | 2001-10-05 | Nippon Telegr & Teleph Corp <Ntt> | 単語推定方法及び装置及び単語推定プログラムを格納した記録媒体 |
JP2006344011A (ja) * | 2005-06-09 | 2006-12-21 | Fuji Xerox Co Ltd | 多言語文書検索装置 |
US20070203690A1 (en) * | 2006-02-28 | 2007-08-30 | Kabushiki Kaisha Toshiba | Method and apparatus for training bilingual word alignment model, method and apparatus for bilingual word alignment |
CN101030197A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 双语词对齐方法和装置、训练双语词对齐模型的方法和装置 |
CN101030196A (zh) * | 2006-02-28 | 2007-09-05 | 株式会社东芝 | 训练双语词对齐模型的方法和装置、双语词对齐方法和装置 |
CN102193912A (zh) * | 2010-03-12 | 2011-09-21 | 富士通株式会社 | 短语划分模型建立方法、统计机器翻译方法以及解码器 |
CN102945232A (zh) * | 2012-11-16 | 2013-02-27 | 沈阳雅译网络技术有限公司 | 面向统计机器翻译的训练语料质量评价及选取方法 |
Cited By (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021371A (zh) * | 2016-05-11 | 2016-10-12 | 苏州大学 | 一种事件识别方法及系统 |
CN108228554A (zh) * | 2016-12-09 | 2018-06-29 | 富士通株式会社 | 基于语义表示模型来生成词向量的方法、装置和电子设备 |
CN107315741B (zh) * | 2017-05-24 | 2019-11-22 | 清华大学 | 双语词典构建方法和设备 |
CN107315741A (zh) * | 2017-05-24 | 2017-11-03 | 清华大学 | 双语词典构建方法和设备 |
CN107766339A (zh) * | 2017-10-20 | 2018-03-06 | 语联网(武汉)信息技术有限公司 | 原译文对齐的方法及装置 |
CN107894982A (zh) * | 2017-10-25 | 2018-04-10 | 昆明理工大学 | 一种基于柬汉词对齐语料构建柬埔寨语依存树库的方法 |
CN108304390A (zh) * | 2017-12-15 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、装置及存储介质 |
US11270079B2 (en) | 2017-12-15 | 2022-03-08 | Tencent Technology (Shenzhen) Company Limited | Translation model based training method and translation method, computer device, and storage medium |
WO2019114695A1 (zh) * | 2017-12-15 | 2019-06-20 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、翻译方法、计算机设备及存储介质 |
CN108304390B (zh) * | 2017-12-15 | 2020-10-16 | 腾讯科技(深圳)有限公司 | 基于翻译模型的训练方法、训练装置、翻译方法及存储介质 |
US11704505B2 (en) | 2017-12-23 | 2023-07-18 | Huawei Technologies Co., Ltd. | Language processing method and device |
WO2019119852A1 (zh) * | 2017-12-23 | 2019-06-27 | 华为技术有限公司 | 语言处理方法及设备 |
CN108960317A (zh) * | 2018-06-27 | 2018-12-07 | 哈尔滨工业大学 | 基于跨语言词向量表示和分类器联合训练的跨语言文本分类方法 |
CN108960317B (zh) * | 2018-06-27 | 2021-09-28 | 哈尔滨工业大学 | 基于词向量表示和分类器联合训练的跨语言文本分类方法 |
CN109145313A (zh) * | 2018-07-18 | 2019-01-04 | 广州杰赛科技股份有限公司 | 语句的翻译方法、装置和存储介质 |
CN109697287B (zh) * | 2018-12-20 | 2020-01-21 | 龙马智芯(珠海横琴)科技有限公司 | 句子级双语对齐方法及系统 |
CN109697287A (zh) * | 2018-12-20 | 2019-04-30 | 龙马智芯(珠海横琴)科技有限公司 | 句子级双语对齐方法及系统 |
CN110210041A (zh) * | 2019-05-23 | 2019-09-06 | 北京百度网讯科技有限公司 | 互译句对齐方法、装置及设备 |
CN111291563A (zh) * | 2020-01-20 | 2020-06-16 | 腾讯科技(深圳)有限公司 | 词向量对齐方法和词向量对齐模型训练方法 |
CN111291563B (zh) * | 2020-01-20 | 2023-09-01 | 腾讯科技(深圳)有限公司 | 词向量对齐方法和词向量对齐模型训练方法 |
WO2021184769A1 (zh) * | 2020-03-17 | 2021-09-23 | 江苏省舜禹信息技术有限公司 | 神经网络文本翻译模型的运行方法、装置、设备、及介质 |
CN113343672A (zh) * | 2021-06-21 | 2021-09-03 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
CN113343672B (zh) * | 2021-06-21 | 2022-12-16 | 哈尔滨工业大学 | 一种基于语料合并的无监督双语词典构建方法 |
CN113591496A (zh) * | 2021-07-15 | 2021-11-02 | 清华大学 | 一种双语词语对齐方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105446958A (zh) | 词对齐方法和词对齐设备 | |
Zhang et al. | A commentary of GPT-3 in MIT Technology Review 2021 | |
CN111125331B (zh) | 语义识别方法、装置、电子设备及计算机可读存储介质 | |
CN103154936A (zh) | 用于自动化文本校正的方法和系统 | |
Wick et al. | Minimally-constrained multilingual embeddings via artificial code-switching | |
CN108108468A (zh) | 一种基于概念和文本情感的短文本情感分析方法和装置 | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN110598002A (zh) | 知识图库构建方法、装置、计算机存储介质和电子设备 | |
CN106844356B (zh) | 一种基于数据选择改善英中机器翻译质量的方法 | |
CN103885933A (zh) | 用于评价文本的情感度的方法和设备 | |
CN101833555A (zh) | 信息提取方法和装置 | |
CN111651994B (zh) | 一种信息抽取方法、装置、电子设备和存储介质 | |
CN108280063B (zh) | 基于半监督学习的语义分析方法及系统 | |
Chang et al. | Automated Chinese essay scoring based on multilevel linguistic features | |
CN110008807A (zh) | 一种合同内容识别模型的训练方法、装置及设备 | |
JP2017010274A (ja) | 対応付け装置及びプログラム | |
CN103678270A (zh) | 语义单元抽取方法和语义单元抽取设备 | |
Dong | RNN neural network model for Chinese-Korean translation learning | |
CN116595189A (zh) | 基于两阶段的零样本关系三元组抽取方法及系统 | |
CN113095063A (zh) | 一种基于遮蔽语言模型的两阶段情感迁移方法和系统 | |
Gedik et al. | Solving Turkish math word problems by sequence-to-sequence encoder-decoder models | |
Chen et al. | Reinforced zero-shot cross-lingual neural headline generation | |
Eo et al. | Word-level quality estimation for korean-english neural machine translation | |
CN109933788A (zh) | 类型确定方法、装置、设备和介质 | |
CN110717029A (zh) | 一种信息处理方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20181019 |