CN102945231A - 一种面向增量式翻译的结构化语言模型构建方法及系统 - Google Patents

一种面向增量式翻译的结构化语言模型构建方法及系统 Download PDF

Info

Publication number
CN102945231A
CN102945231A CN2012104012386A CN201210401238A CN102945231A CN 102945231 A CN102945231 A CN 102945231A CN 2012104012386 A CN2012104012386 A CN 2012104012386A CN 201210401238 A CN201210401238 A CN 201210401238A CN 102945231 A CN102945231 A CN 102945231A
Authority
CN
China
Prior art keywords
dependency tree
fragment
segments
structured language
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2012104012386A
Other languages
English (en)
Other versions
CN102945231B (zh
Inventor
于恒
米海涛
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201210401238.6A priority Critical patent/CN102945231B/zh
Publication of CN102945231A publication Critical patent/CN102945231A/zh
Application granted granted Critical
Publication of CN102945231B publication Critical patent/CN102945231B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种面向增量式翻译的结构化语言模型构建方法及系统,该方法包括:步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;步骤2,在依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。步骤3,根据特征分数对依存树片段集合进行剪枝,将特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;步骤4,将下一个翻译片段通过移进-规约操作拼接到优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。本发明能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。

Description

一种面向增量式翻译的结构化语言模型构建方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体地说,本发明涉及一种面向增量式翻译模型的结构化语言模型。
背景技术
统计语言模型作为一种计算自然语言生成概率的统计模型,在自然语言处理的很多问题中都起着至关重要的作用。在机器翻译问题中,对于新生成的翻译片段,我们使用语言模型计算其生成概率,并保留概率较高的翻译,从而达到提高翻译质量的效果。n-gram语言模型,也称n-1阶马尔科夫模型,是统计语言模型中应用最广泛的模型,它基于有限历史假设:第n个词出现的概率仅与前面n-1个词相关。这一假设大大降低了语言模型的复杂度,并使各种统计方法能够得到应用。这种方法能够良好地捕捉短距离语言特征,如常用搭配,词组,但这种基于词的模型缺乏捕捉句法信息和长距离语言信息的能力,因此导致生成不符合语法约束的翻译。现有的结构化语言模型(Ciprian Chelba,Frederick Jelinek Structured language modeling Computer Speech & Language,2000)基于句法树建立模型,将句法信息融入语言模型,从而能够弥补传统语言模型的不足,使结果更加符合句法性。但其采用较为复杂的概率模型,且需要在一棵完整的句法树进行计算。无法满足机器翻译问题中增量式生成翻译并同时进行语言模型计算的需求。
发明内容
本发明的目的是提出一种面向增量式翻译的结构化语言模型构建方法及系统,弥补了传统语言模型在捕捉句法信息方面的不足,能在语言模型中融入句法信息和长距离依赖信息,在解码过程中为动态计算结构化语言模型提出有效的优化算法,提高了翻译质量。
为实现上述目的,本发明提出了一种面向增量式翻译的结构化语言模型构建方法,包括:
步骤1,对增量式生成的翻译片段进行依存句法分析,得到依存树片段集合;
步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;
步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。
其中所述步骤1中所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
所述步骤1中依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
进一步的,所述步骤2中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics)的方法,获得判别式特征实例。
进一步的,所述步骤3中的构建剪枝过程如下:
a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
本发明还提供了一种面向增量式翻译的结构化语言模型构建系统,包括:
依存句法分析模块,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;
特征分数计算模块,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
依存树片段优化模块,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;
依存树构建模块,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。
其中,所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
而所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
进一步的,所述特征分数计算模块中是按照判别式依存特征抽取方法,参照基于动态规划算法的增量式句法分析,第二章(Liang Huang and KenjiSagae,2010,Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics,)的方法。获得判别式特征实例。
进一步的,所述依存树片段优化模块包括:
处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
本发明具有如下技术效果:
本发明将结构化语言模型用于增量式机器翻译模型,弥补了传统语言模型在捕捉句法信息方面的不足。在150万汉英平行句对上,英语为目标语言,本发明较传统语言模型在测试集困惑度上下降了2%,并在翻译质量上提高1.12个BLEU点。
以下结合附图和具体实施例对本发明进行详细描述,但不作为对本发明的限定。
附图说明
图1是本发明的结构化语言模型构建方法流程图;
图2是本发明的结构化语言模型构建系统示意图;
图3为本发明中分组剪枝策略和同等状态合并策略的实例;
图4为图2中同等状态A,B的特征窗口。
具体实施方式
如图1所示,图1是本发明的结构化语言模型构建方法流程图,该方法包括以下步骤:
步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合。
依存分析的主要任务是对输入的翻译片段进行依存分析得到相应的依存树片段集合。由于目前应用最广的机器翻译系统都是增量式生成翻译,所以必须使用解码顺序相同的依存分析算法,本实例中采用移进-规约算法,可参考增量式确定性依存句法分析,第三,四章(Joakim Nivre.2004.Incrementality indeterministic dependency parsing.In Proceedings of the ACL Workshop Incremental Parsing.Association for Computational Linguistics)其中包含以下两种操作:
1)移进:从当前输入串移入一个词,将其移至句法分析栈顶端,并将其作为一个节点拼接至已有依存树片段上。
2)规约:如果句法分析栈中有两个以上节点,则取栈顶的两个节点,判断它们之前的依存关系,在依存树片段中将其中一个节点作为Head头节点生成一条指向另一节点Modifier的有向边。操作完成后Head节点存于栈顶继续参与其他节点的操作,Modifier节点作为Head节点的孩子从栈顶移除。
对于一个N个词的翻译片段,共需进行N次移进操作,将所有词语移进句法分析栈,并进行若干次规约操作(最多N-1次),确定栈顶两个节点的依存关系,生成不同的依存树片段。
上述技术方案中,所述步骤1中,所述依存树片段是指未完成的依存树子结构,并可以通过后续操作生成完整的依存树。它可以是依存树中任意联通子图,且所述增量式是指从左到右的顺序。
步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
所述判别式特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。可参考基于感知机算法的增量式句法分析,第二章(Collins,M.and Roark,B.,2004,Incremental parsing with the perceptron algorithm,Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics)的方法。
在依存树片段中,依存关系以一条Head头结点指向Modifier修饰节点的有向边表示。其依存信息以判别式训练的依存特征实例的形式存储于结构化语言模型中。
现有的判别式依存特征抽取方法,可参考基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics,)的方法获得判别式特征实例。
利用当前依存树片段的Head和Modifier,依存分析栈栈顶的词,输出串的第一个词以及它们的词性标注作为基础特征模板,并生成组合特征。
其中对图3中的目标端依存树片段实例的特征实例表示为表1中形式。
表1是图3中实例的判别式特征实例表示形式
wordH=held wordLM+posH=Bush+VBD posH+posIN=VBD+IN
wordLM=Bush wordH+wordLM=held+Bush posH+posIN+wordH=VBD+IN+held
wordRM=meeting posH+posLM=VBD+NNP posH+posIN+wordIN=VBD+IN+with
wordIN=with wordH+posH+wordLM=held+VBD+Bush
posH=VBD wordH+wordLM+posLM=held+Bush+NNP posH+posLM+posRM=VBD+NNP+NN
posLM=NNP wordH+posH+posLM=held+VBD+NNP posH+posLM+posIN=VBD+NNP+IN
posRM=NN wordRM+posH=meeting+VBD posH+posRM+posIN=VBD+NN+IN
posIN=IN wordH+wordRM=held+meeting posH+posLM+posRM+posIN=VBD+NNP+NN+IN
posH+posRM=VBD+NN
wordH+posH+wordRM=held+VBD+meeting
wordH+wordRM+posRM=held+meeting+NN
wordH+posH+posRM=held+VBD+NN
上述技术方案中,所述步骤2)中,所述特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。其计算公式如下:
F ( x ) = arg max y ∈ GEN ( x ) Σ i ∈ K Φ i ( x , y ) * α i
其中x为输入串,y为依存树片段,GEN(x)为x可能的依存树片段集合,Φi(x,y)为判别式特征实αi例,为特征权重。F(x)为所述判别式特征分数。
步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合。
如图4所示,A与B是不同的依存结构,但当前的特征窗口相同,所以我们定义A,B为等价状态,并将其合并,保留特征分值较高的依存树片段。
具体步骤如下:a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
如图3所示,图中片段集合均为翻译片段”Bush held a meeting”的依存结构,由于在依存分析中可以进行若干次规约操作并生成不同的依存结构。为了保证剪枝的公平性,我们按照规约次数将其分组,并在每组中使用堆栈剪枝,保留特征分值较高的片段。最后从得到的依存树片段结合中选择特征分值最高的作为结构化语言模型的得分。
以上按照规约操作次数进行分组的理由在于:由于增量式依存句法分析中的操作不确定性,不同次数的规约操作生成的依存结构之间是不可比的,规约次数较少的依存结构当前特征分数较低,但在未来的依存分析中却可能生成更好的依存结构,所以需要在每步依存分析中尽量保留规约次数不同的依存结构,保证候选的多样性,提升依存分析的性能。
步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。
图2是本发明的结构化语言模型构建系统示意图。该系统包括:
依存句法分析模块100,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合。
依存分析的主要任务是对输入的翻译片段进行依存分析得到相应的依存树片段集合。由于目前应用最广的机器翻译系统都是增量式生成翻译,所以必须使用解码顺序相同的依存分析算法,本实例中采用移进-规约算法,可参考增量式确定性依存句法分析,第三,四章(Joakim Nivre.2004.Incrementality indeterministic dependency parsing.In Proceedings of the ACL Workshop Incremental Parsing.Association for Computational Linguistics)其中包含以下两种操作:
1)移进:从当前输入串移入一个词,将其移至句法分析栈顶端,并将其作为一个节点拼接至已有依存树片段上。
2)规约:如果句法分析栈中有两个以上节点,则取栈顶的两个节点,判断它们之前的依存关系,在依存树片段中将其中一个节点作为Head头节点生成一条指向另一节点Modifier的有向边。操作完成后Head节点存于栈顶继续参与其他节点的操作,Modifier节点作为Head节点的孩子从栈顶移除。
对于一个N个词的翻译片段,共需进行N次移进操作,将所有词语移进句法分析栈,并进行若干次规约操作(最多N-1次),确定栈顶两个节点的依存关系,生成不同的依存树片段。
上述技术方案中,所述依存句法分析模块中,所述依存树片段是指未完成的依存树子结构,并可以通过后续操作生成完整的依存树。它可以是依存树中任意联通子图,且所述增量式是指从左到右的顺序。
特征分数计算模块200,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
所述判别式特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。可参考基于感知机算法的增量式句法分析,第二章(Collins,M.and Roark,B.,2004,Incremental parsing with the perceptron algorithm,Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics)的方法。
在依存树片段中,依存关系以一条Head头结点指向Modifier修饰节点的有向边表示。其依存信息以判别式训练的依存特征实例的形式存储于结构化语言模型中。
现有的判别式依存特征抽取方法,可参考基于动态规划算法的增量式句法分析,第二章(Liang Huang and Kenji Sagae,2010,Dynamic Programming for Linear-Time Incremental Parsing,Proceedings of the 48st Meeting of the Association for Computational Linguistics.)的方法获得判别式特征实例。利用当前依存树片段的Head和Modifier,依存分析栈栈顶的词,输出串的第一个词以及它们的词性标注作为基础特征模板,并生成组合特征。
其中对图3中的目标端依存树片段实例的特征实例表示为表1中形式。
表1是图3中实例的判别式特征实例表示形式
wordH=held wordLM+posH=Bush+VBD posH+posIN=VBD+IN
wordLM=Bush wordH+wordLM=held+Bush posH+posIN+wordH=VBD+IN+held
wordRM=meeting posH+posLM=VBD+NNP posH+posIN+wordIN=VBD+IN+with
wordIN=with wordH+posH+wordLM=held+VBD+Bush
posH=VBD wordH+wordLM+posLM=held+Bush+NNP posH+posLM+posRM=VBD+NNP+NN
posLM=NNP wordH+posH+posLM=held+VBD+NNP posH+posLM+posIN=VBD+NNP+IN
posRM=NN wordRM+posH=meeting+VBD posH+posRM+posIN=VBD+NN+IN
posIN=IN wordH+wordRM=held+meeting posH+posLM+posRM+posIN=VBD+NNP+NN+IN
posH+posRM=VBD+NN
wordH+posH+wordRM=held+VBD+meeting
wordH+wordRM+posRM=held+meeting+NN
wordH+posH+posRM=held+VBD+NN
上述技术方案中,所述特征分数计算模块中,所述特征分数是指在句法分析器训练阶段通过感知机训练方法得到的特征值。其计算公式如下:
Figure BDA00002280039000081
其中x为输入串,y为依存树片段,GEN(x)为x可能的依存树片段集合,Φi(x,y)为判别式特征实例,αi为特征权重。F(x)为所述判别式特征分数。
依存树片段优化模块300,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合。
如图4所示,A与B是不同的依存结构,但当前的特征窗口相同,即当前A,B依存结构的差异将不会影响以后的依存分析结果,所以我们定义A,B为等价状态,并将其合并,保留特征分值较高的依存树片段。
具体而言,依存树片段优化模块300包括:
处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
如图3所示,图中片段集合均为翻译”Bush held a meeting”的依存结构,由于在依存分析中可以进行若干次规约操作并生成不同的依存结构。为了保证剪枝的公平性,我们按照规约次数将其分组,并在每组中使用堆栈剪枝,保留特征分值较高的片段。最后从得到的依存树片段集合中选择特征分值最高的作为结构化语言模型的得分。
以上按照规约操作次数进行分组的理由在于:由于增量式依存句法分析中的操作不确定性,不同次数的规约操作生成的依存结构之间是不可比的,规约次数较少的依存结构当前特征分数较低,但在未来的依存分析中却可能生成更好的依存结构,所以需要在每步依存分析中尽量保留规约次数不同的依存结构,保证候选的多样性,提升依存分析的性能。
依存树构建模块400,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。
当然,本发明还可有其它多种实施例,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明权利要求的保护范围。

Claims (10)

1.一种面向增量式翻译的结构化语言模型构建方法,其特征在于,包括:
步骤1,对于增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;
步骤2,在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
步骤3,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;
步骤4,将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复步骤1,2,3直到翻译结束,生成完整的依存树。
2.根据权利要求1所述的结构化语言模型构建方法,其特征在于,所述步骤1中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
3.根据权利要求1所述的结构化语言模型构建方法,其特征在于,所述步骤1中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
4.根据权利要求1所述的结构化语言模型构建方法,其特征在于,所述步骤2中是利用判别式依存特征抽取方法获得判别式特征实例。
5.根据权利要求1所述的结构化语言模型构建方法,其特征在于,所述步骤3中的构建剪枝过程如下:
a)对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
b)将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
6.一种面向增量式翻译的结构化语言模型构建系统,其特征在于,包括:
依存句法分析模块,用于对增量式生成的翻译片段依次进行依存句法分析,得到依存树片段集合;
特征分数计算模块,用于在所述依存树片段集合上抽取判别式特征实例,并利用判别式依存句法模型计算其特征分数。
依存树片段优化模块,根据所述特征分数对所述依存树片段集合进行剪枝,将所述特征分数最大值作为结构化语言模型的得分,保留结构化语言模型分数最高的片段,获得优化的依存树片段集合;
依存树构建模块,用于将下一个翻译片段通过移进-规约操作拼接到所述优化的依存树片段集合上,重复执行依存句法分析模块、特征分数计算模块、依存树片段优化模块,直到翻译结束生成完整的依存树。
7.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存句法分析模块中的所述翻译片段是按从左到右的顺序生成的,并通过移进-规约依存句法分析器进行依存句法分析,该分析器按照增量式进行解码。
8.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存句法分析模块中的所述依存树片段是指未完成的依存树子结构,是依存树中的任意联通子图。
9.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述特征分数计算模块中利用判别式依存特征抽取方法获得判别式特征实例。
10.根据权利要求6所述的结构化语言模型构建系统,其特征在于,所述依存树构建模块包括:
处理模块,对所述依存树片段集合中当前特征窗口相同的结构进行合并,保留其中所述特征分数较高的依存树片段;将所述依存树片段集合按照规约操作的次数进行分组,每组分别以其判别式特征分数为标准进行排序并使用堆栈剪枝策略,即保留分数最高的N个依存树片段,N为堆栈大小;
选择模块,用于将保留的依存树片段集合中最高的判别式特征分数作为当前翻译片段的结构化语言模型得分。
CN201210401238.6A 2012-10-19 2012-10-19 一种面向增量式翻译的结构化语言模型构建方法及系统 Expired - Fee Related CN102945231B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210401238.6A CN102945231B (zh) 2012-10-19 2012-10-19 一种面向增量式翻译的结构化语言模型构建方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210401238.6A CN102945231B (zh) 2012-10-19 2012-10-19 一种面向增量式翻译的结构化语言模型构建方法及系统

Publications (2)

Publication Number Publication Date
CN102945231A true CN102945231A (zh) 2013-02-27
CN102945231B CN102945231B (zh) 2015-03-11

Family

ID=47728178

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210401238.6A Expired - Fee Related CN102945231B (zh) 2012-10-19 2012-10-19 一种面向增量式翻译的结构化语言模型构建方法及系统

Country Status (1)

Country Link
CN (1) CN102945231B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105117389A (zh) * 2015-07-28 2015-12-02 百度在线网络技术(北京)有限公司 翻译方法和装置
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095248A1 (en) * 2004-11-04 2006-05-04 Microsoft Corporation Machine translation system incorporating syntactic dependency treelets into a statistical framework
JP2009070218A (ja) * 2007-09-14 2009-04-02 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095248A1 (en) * 2004-11-04 2006-05-04 Microsoft Corporation Machine translation system incorporating syntactic dependency treelets into a statistical framework
JP2009070218A (ja) * 2007-09-14 2009-04-02 Toshiba Corp 機械翻訳装置及び機械翻訳プログラム
CN102243626A (zh) * 2011-07-22 2011-11-16 中国科学院计算技术研究所 一种基于依存句法树的翻译规则抽取方法和翻译方法
CN102708098A (zh) * 2012-05-30 2012-10-03 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
JUN XIE 等: "A Novel Dependency-to-String Model for Statistical Machine Translation", 《PROCEEDINGS OF THE 2011 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》, 31 July 2011 (2011-07-31), pages 216 - 226 *
YANG LIU 等: "Joint Decoding with Multiple Translation Models", 《PROCEEDINGS OF THE 47TH ANNUAL MEETING OF THE ACL AND THE 4TH IJCNLP OF THE AFNLP》, 7 August 2009 (2009-08-07), pages 576 - 584 *
姚文琳: "汉语依存句法分析方法的研究与实现", 《万方学位论文数据库》, 30 June 2011 (2011-06-30), pages 1 - 104 *
涂兆鹏 等: "利用依存限制抽取长距离调序规则", 《中文信息学报》, vol. 25, no. 2, 4 August 2011 (2011-08-04), pages 55 - 60 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN105335348B (zh) * 2014-08-07 2018-10-02 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN105117389A (zh) * 2015-07-28 2015-12-02 百度在线网络技术(北京)有限公司 翻译方法和装置
CN105117389B (zh) * 2015-07-28 2018-01-19 百度在线网络技术(北京)有限公司 翻译方法和装置
CN110489624A (zh) * 2019-07-12 2019-11-22 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法
CN110489624B (zh) * 2019-07-12 2022-07-19 昆明理工大学 基于句子特征向量的汉越伪平行句对抽取的方法

Also Published As

Publication number Publication date
CN102945231B (zh) 2015-03-11

Similar Documents

Publication Publication Date Title
CN106257440B (zh) 语义信息生成方法和语义信息生成装置
US9342499B2 (en) Round-trip translation for automated grammatical error correction
CN103198149B (zh) 一种查询纠错方法和系统
CN105068997B (zh) 平行语料的构建方法及装置
CN105975625A (zh) 一种面向英文搜索引擎的中式英文查询纠错方法和系统
CN102117270B (zh) 一种基于模糊树到精确树的统计机器翻译方法
CN111597350A (zh) 基于深度学习的轨道交通事件知识图谱构建方法
CN108665141B (zh) 一种从突发事件预案中自动抽取应急响应流程模型的方法
EP2950306A1 (en) A method and system for building a language model
CN102646091A (zh) 依存关系标注方法、装置和系统
CN101685441A (zh) 一种基于非连续短语的泛化重排序统计翻译方法及装置
CN102945231B (zh) 一种面向增量式翻译的结构化语言模型构建方法及系统
CN103488629A (zh) 一种机器翻译中翻译单元表的抽取方法
CN114239589A (zh) 语义理解模型的鲁棒性评估方法、装置及计算机设备
Wang et al. Improving handwritten Chinese text recognition by unsupervised language model adaptation
Santamaría et al. Data selection with cluster-based language difference models and cynical selection
Shen et al. Dependency parse reranking with rich subtree features
Hasan et al. Comparison of unigram, bigram, hmm and brill's pos tagging approaches for some south asian languages
Nguyen et al. Structural reranking models for named entity recognition
Yeh et al. Speech recognition with word fragment detection using prosody features for spontaneous speech
Trieu et al. Improving moore’s sentence alignment method using bilingual word clustering
JP2021157602A (ja) 機械学習モデル訓練装置、機械学習モデル、及びコンピュータプログラム
JP2017041207A (ja) 構造解析装置、方法、及びプログラム
CN109543151B (zh) 一种提高老挝语词性标注准确率的方法
El-Kahlout et al. Initial explorations in two-phase Turkish dependency parsing by incorporating constituents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150311

Termination date: 20201019