CN102760121A - 依存映射方法及系统 - Google Patents

依存映射方法及系统 Download PDF

Info

Publication number
CN102760121A
CN102760121A CN201210222936XA CN201210222936A CN102760121A CN 102760121 A CN102760121 A CN 102760121A CN 201210222936X A CN201210222936X A CN 201210222936XA CN 201210222936 A CN201210222936 A CN 201210222936A CN 102760121 A CN102760121 A CN 102760121A
Authority
CN
China
Prior art keywords
interdependent
language
target language
mapping
parser
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210222936XA
Other languages
English (en)
Other versions
CN102760121B (zh
Inventor
刘凯
姜文斌
吕雅娟
刘群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN201210222936.XA priority Critical patent/CN102760121B/zh
Publication of CN102760121A publication Critical patent/CN102760121A/zh
Application granted granted Critical
Publication of CN102760121B publication Critical patent/CN102760121B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器。其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。这种依存映射方法可以最大限度地保留映射的依存信息,并且能够鲁棒的处理噪声信息。

Description

依存映射方法及系统
技术领域
本发明属于自然语言处理技术领域,尤其涉及依存映射方法。
背景技术
依存文法是自然语言处理领域中最为流行的文法之一。与短语结构文法相比,依存文法兼具语法和语义信息,具有以下特点:依存结构具有最好的短语结合性质(phrasal cohesion properties);依存关系边给出语义信息。因此,依存文法是自然语言处理领域中非常具有吸引力的资源。对于一些资源缺乏语言,通常缺乏相应的依存树库,甚至缺乏相应的依存树标准。资源的缺乏给相应的自然语言处理任务带来了一定的困难。此时利用依存映射方法,将资源丰富语言的知识映射到资源贫乏的语言上可以一定程度缓解类似困难。
在现有的依存映射方法(例如参考文献1,Wenbin Jiang and Qun Liu.Dependency parsing and projection based on word-pair classification.InProceedings of the 48th Annual Meeting of the Association for ComputationalLinguistics.2010.)中,首先将源语言端句子进行有监督的依存分析得到源语言句子依存树;再将源语言与目标语言的双语语料库进行词汇对齐;利用词汇对齐及源语言依存树通过一定规则将依存句法信息映射到目标语言端;利用映射后目标语言端的依存句法信息训练映射后的目标语言依存句法分析器。但这样得到的映射依存树不完整,且存在映射错误和映射信息相互冲突的现象。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种依存映射方法,缓解依存映射所面临的上述问题,并保证较优的性能。
本发明的目的是通过以下技术方案实现的:
一方面,本发明提供了一种依存映射方法,包括:
步骤1,在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;
步骤2,基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器;
其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
上述技术方案中,所述步骤1可包括:
步骤11)在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息;
步骤12)基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器;
上述技术方案中,所述步骤2可包括:
步骤21)使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树;
步骤22)通过特征模板从步骤21)得到的依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合;
步骤23)基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型;
步骤24)根据步骤24)得到的依存句法分析模型构造优化后目标语言依存句法分析器,然后基于该目标依存句法分析器重新执行步骤21)至步骤24),直到满足终止条件为止。
上述技术方案中,所述步骤23)中分类目标函数可以为:
l(w)=(1-α)θ(w)+αφ(w)
其中α为插值,θ(w)和φ(w)分别为:
θ ( w ) = Π d e ∈ D p C ( d e , + ) Π d e ∈ D n C ( d e , - )
≡ Σ d e ∈ D p log C ( d e , + )
+ Σ d e ∈ D n log C ( d e , - )
φ ( w ) = Σ d e ∈ D P log C ( d e , + )
+ | | D P | | | | D N | | Σ d e ∈ D N log C ( d e , - )
其中DP为无监督特征实例集合中的正例集合,DN为无监督特征实例集合中的反例集合;Dp为映射依存特征实例集合中的正例集合,Dn为映射依存特征实例集合中的反例集合;
Figure BDA00001821870000036
为Logistic函数:
C ( d e ij , + ) = exp ( w + · f ( d e ij ) ) Σ r exp ( ω r · f ( d e ij ) )
Figure BDA00001821870000038
为依存实例边,则
Figure BDA00001821870000039
为所述特征实例的特征向量,wr为相应特征的类别权重,r为+时表示正例权重,r为-时表示反例权重。
上述技术方案中,所述步骤24)中的终止条件可以为相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化,或步骤重复次数超过预定阈值。
又一方面,本发明提供了一种依存映射系统,包括:
依存映射装置,用于在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;
依存优化装置,用于基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器;
其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
上述系统中,所述依存映射装置可包括:
用于在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息的装置;
用于基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器的装置。
上述系统中,所述依存优化装置可包括:
用于使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树的装置;
用于通过特征模板从所述依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合的装置;
用于基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型的装置;
用于从优化后的依存句法分析模型构造优化后目标语言依存句法分析器的装置。
又一方面,本发明提供了一种机器翻译方法,包括:
1)基于第一语言的依存句法树以及第一语言和第二语言的双语语料库,通过如上面所述的依存映射方法得到第二语言的依存句法分析器;
2)接收第二语言的句子,通过所得到的第二语言的依存句法分析器得到该第二语言的句子的依存句法分析树;
3)基于该第二语言的句子的依存句法分析树,通过相应的机器翻译方法将该第二语言的句子翻译为第三语言的句子。
与现有技术相比,本发明的优点在于:
本发明的依存映射方法最大限度地保留了映射的依存信息,并且能够鲁棒的处理噪声信息。而且在优化时结合无监督特征实例集合和映射依存特征实例集合这两个集合,既考虑了依存映射过来的信息,又兼顾了目标语言的隐式结构信息。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1现有的依存映射示意图;
图2为根据本发明实施例的依存映射方法的流程示意图;
图3为一个依存边的示意图
图4为根据本发明实施例的对经依存映射得到的目标依存句法器的优化过程示意图。
具体实施方式
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图通过具体实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了更好地理解本发明,首先对依存映射进行简单介绍。图1给出现有依存映射示例示意图。其中源语言串为“布什与沙龙举行了会谈”,目标语言串为“Bush held a talk with Sharon”,双语词汇对齐关系为:“布什”和“Bush”、“与”和“with”、“沙龙”和“Sharon”、“举行”和“held”、“会谈”和“talk”。根据现有的依存映射方法首先将源语言串的依存树映射到目标语言串。例如,将源语言依存树中的依存边“举行->会谈”、“举行->布什”、“举行->与”和“与->沙龙”分别映射为目标语言依存树中的依存边“held->talk”、“held->Bush”、“held->with”和“with->Sharon”。之后利用分类方法(例如:最大熵分类方法,SVM分类方法)将映射过来的依存关系(如上面所述的目标树中的依存边)作为正例,其他没有被映射的依存关系作为反例(例如依存边“举行->了”,因为这条边没有被映射)进行分类,以得到映射后的目标语言依存分析模型。例如:图1中的目标语言端实线表示的依存边即为分类实例的正例,而所有没有标出的可能的依存边即为分类实例的反例。从图1中可以看到,利用这样的依存映射方法得到的目标语言依存信息(在图1的目标语言依存树中以实线表示)并不完整,需要添加上依存边“talk->a”(在图1中以虚线表示)才能将该目标依存树补充完整。而且还包含噪声“held->with”,这条依存边在目标语言中是不正确的,正确的依存边应为“talk->with”(在图1中以虚线表示)。
已有的依存映射方法中都是在经依存映射得到的目标语言依存句法信息的基础上,通过利用一些简单规则直接添加或者删除一些映射的依存边或者利用一些分类优化方法来补全映射信息和处理噪声的方法,这容易损失许多映射信息,并导入新的错误(噪声)信息,而且没有考虑目标语言的自身结构信息。
图2示出了根据本发明一个实施例的依存映射方法的流程示意图。该方法首先在源语言与目标语言的双语语料库的基础上,根据源语言串的依存句法分析树(也可简称为依存树)、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言来得到经依存映射后的目标语言的依存句法信息。然后,通过上述经依存映射得到的目标端依存句法信息(下文简称为映射依存句法信息)并结合目标串自身结构信息,对原始的映射依存句法信息进行无监督优化,最终得到更优的映射依存句法信息。更具体地,该方法主要包括以下步骤:
步骤1,在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息。
参考图2,首先获取源语言串的依存句法树(步骤101)。在一个实施例中,可以利用依存句法分析器分析源语言串得到依存句法树。可用的依存句法分析器包括MSTParser、MaltParser等。在又一个实施例中,可以利用成分树句法分析器分析源语言串得到成分句法树,然后通过适当的转换规则得到依存句法树。可用的成分句法分析器包括Charniak parser、Charniak-Johnson Parser、Berkeley Parser、Bikel Parser、Stanford parser、Collins Parser或MuskCpars句法分析器。
接着,根据三元组(源语言依存句法树、目标语言以及源语言与目标语言间的词语对齐关系),将源语言依存句法信息映射到目标语言中,以得到目标语言端的原始的映射依存句法信息(步骤102)。
其中,所述对齐关系为在互译的双语句对中,源语言词与目标语言词之间的对齐概率。在一个实施例中,源语言和目标语言间的对齐关系可以通过对齐工具GIZA++(参考文献2:Franz Josef Och,Hermann Ney."ASystematic Comparison of Various Statistical AlignmentModels",Computational Linguistics,volume 29,number 1,pp.19-51 March2003.)自动获得。本领域普通技术人员应理解在其他实施例中可以采用现有的其他对齐工具来获得源语言和目标语言间的词语对齐关系。源语言与目标语言间的词语对齐关系可以保存在双语对齐概率矩阵中。可以采用现有的依存树映射方法来将源语言依存树中每对词的依存关系根据双语对齐概率矩阵映射到目标语言端。
然后,基于所得到的目标语言端的原始的映射依存句法信息,建立目标语言的依存句法分析模型,并采用分类方法进行训练得到映射后的目标语言句法分析器(步骤103)。
经映射后得到的目标语言依存信息可以以判别式训练的依存正反实例特征及判别式依存句法分析模型形式存储的。以图1为例,图1中的目标语言端的依存树中实线表示的依存边即为分类实例的正例,而所有没有标出的可能的依存边即为分类实例的反例。而依存正反实例特征是可以通过特征模板从依存实例中抽取的。
图3给出了一个依存边的示意图。该依存边为“建设->浦东”,Head指示“建设”为该依存边的头结点,Modifier指示“浦东”为依存边的修饰结点。其中,符号”/”后面的表示前面词的词性,例如“浦东/NR”中“NR”表示浦东为名词。表1给出了根据特征模板从图3所示一条依存边所抽取的分类特征实例的集合。
表1
  wordH=建设   wordH+posH+wordM=建设+NN+浦东   posH-1+posH+posM+1=NN+NN+NN
  wordM=浦东   wordH+wordM+posM=建设+浦东+NR   posH+1+posH+posM-1=VV+NN+NR
  posH=NN   wordH+posH+posM=建设+NN+NR   posH+1+posH+posM+1=VV+NN+NN
  posM=NR   wordM+posH+posM=浦东+NN+NR   posH-1+posM+posM-1=NN+NR+NR
  wordH+posH=建设+NN   wordH+wordM+posH+posM=建设+浦东+NN+NR   posH-1+posM+posM+1=NN+NR+NN
  wordM+posM=浦东+NR   posH-1+posH+posM=NN+NN+NR   posH+1+posM+posM-1=VV+NR+NR
  wordH+posM=建设+NR   posH+1+posH+posM=VV+NN+NR   posH+1+posM+posM+1=VV+NR+NN
  wordM+posH=浦东+NN   posH+posM+posM-1=NN+NR+NR   posH-1+posH+posM+posM-1=NN+NN+NR+NR
  wordH+wordM=建设+浦东   posH+posM+posM+1=NN+NR+NN   posH-1+posH+posM+posM+1=NN+NN+NR+NN
  posH+posM=NN+NR   posH-1+posH+posM-1=NN+NN+NR   posH+1+posH+posM+posM-1=VV+NN+NR+NR
  posH+1+posH+posM+posM+1=VV+NN+NR+NN
其中“wordH”为头结点的词;“wordM”为修饰结点的词;“posh”为头结点的词性;“posM”为修饰结点的词性;“word”和“pos”后的“+1”“-1”分别代表当前词前面后面一个词和前面一个词相应的特征。表1中所有等号的前面部分为特征模板,例如“wordM+posM”、“posH+1+posH+posM+posM+1”等,而加上等号后面整体为特征实例,随不同的依存边不同而发生变化,例如在表1中仅示出了图3所示的依存边的分类特征实例的集合。
利用类似如表1所示的特征模板可以为目标语言依存树构造如下的依存分类特征实例的集合(如表2所示):
表2
  正例:wordH=建设;wordM=浦东;posH=NN;posM=NR;wordH+posH=建设+NN;…(所有分类特征实例)
  正例:…(其他正例依存边的分类特征实例)
  …
  反例:…(反例依存边的分类特征实例)
   …
最后,基于如表2所示的分类特征实例集合,可以直接利用各种分类器(分类器可以例如是最大熵、SVM等)对所建立的目标语言的依存句法分析模型进行分类训练。其中,依存句法分析模型以分类器的分类特征权重形式保存。利用训练好的依存句法分析模型构造初始的目标端的依存句法分析器。映射后的依存句法分析器为判别式的依存句法分析器,例如现有的MSTParser等。
如上文所述,通过上述依存映射最终得到的目标语言的初始的依存句法分析器中,依存信息不完整,存在映射错误,而且没有考虑目标语言的自身结构信息。因此,下面将进一步对其进行优化。
步骤2,通过上述经依存映射得到的目标端依存句法信息并结合目标串自身结构信息,对原始的映射依存句法信息进行无监督优化,最终得到更优的映射依存句法信息。更具体地,步骤2主要包括以下步骤:
步骤4-1)使用目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树(图2中步骤104)。
步骤4-2)通过特征模板从步骤4-1)得到的依存树抽取依存特征实例集合(在下文中称为无监督特征实例集合)。例如,利用如表1所示的特征模板从得到的依存句法树集合抽取无监督特征实例。并从经依存映射的得到的目标依存句法信息中抽取的如表2所示的映射依存特征实例集合。(如表2所示)
步骤4-3)基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到当前的最优的依存句法模型(图2中步骤105)。
图3给出了基于无监督特征实例集合和映射依存特征实例集合对目标语言的依存句法模型进行优化的过程示意图。其中所采用的分类目标优化函数为加权的多目标优化函数,其基本形式为:
l(w)=(1-α)θ(w)+αφ(w)    (式1)
其中α为插值,在本发明的实施例中,θ(w)为传统的优化映射目标函数(可以是其他任意的分类目标函数),φ(w)为无监督优化目标函数。例如,在一个示例中,θ(w)和φ(w)分别为:
θ ( w ) = Π d e ∈ D p C ( d e , + ) Π d e ∈ D n C ( d e , - )
≡ Σ d e ∈ D p log C ( d e , + )
+ Σ d e ∈ D n log C ( d e , - ) (式2)
φ ( w ) = Σ d e ∈ D P log C ( d e , + )
+ | | D P | | | | D N | | Σ d e ∈ D N log C ( d e , - ) (式3)
其中DP为训练过程中利用目标依存句法分析模型进行依存分析的结果中,被认为在依存树上的依存关系(正例)实例集合,DN为训练过程中利用目标依存句法分析模型进行依存分析的结果中,认为不在依存树上的依存关系(反例)实例集合;Dp为之前利用依映射方法映射过来的正例依存边分类特征实例(正例)集合,Dn为相应的反例依存边分类特征实例集合;de代表依存实例边;
Figure BDA00001821870000096
为一般形式的Logistic函数:
C ( d e ij , + ) = exp ( w + · f ( d e ij ) ) Σ r exp ( ω r · f ( d e ij ) )
Figure BDA00001821870000098
为依存实例边,则
Figure BDA00001821870000099
为通过表1中的特征模板获得的此实例的特征向量,wr为相应特征的类别权重,相反“r=+”的时候是正例权重,r=-的时候是反例权重。训练模型的过程就是调整这些wr权重的过程,最终使得函数l(w)最大化。
对上述分类目标函数的优化方法通常是先对该目标函数求导,然后利用最优化方法利用导数求目标函数极值,然后,根据目标函数极值所对应的权重值获得当前最优的依存句法模型。
步骤4-4)根据步骤4-3)得到的依存句法模型构造优化后的目标语言依存句法分析器,然后基于优化后的目标依存句法分析器重新执行步骤4-1)至步骤4-4),直到相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化,或重复次数超过预定阈值为止(图2中步骤106)。
通过上述实施例,可以看出本发明的依存映射方法,不需要人为在目标串上删除或添加依存边。最大限度的保留了映射的依存信息,并且能够鲁棒的处理噪声信息。而且在优化时基于无监督特征实例集合和映射依存特征实例集合这两个集合,既考虑了依存映射过来的信息,又兼顾了目标语言的隐式结构信息。
为了说明上述方法的效果,发明人还进行了下述实验。
在23万英汉平行句对上,英语为源语言,汉语为目标语言,分别采用现有的依存映射方法和本发明的依存映射方法获得了目标语言的依存句法分析器,然后在同一测试文本上进行了准确率测试。与现有的依存映射方法相比,根据本发明实施例的依存映射方法准确率提高3.2个百分点,达到61.7%。另外,在6万汉蒙平行句对上,以汉语为源语言,蒙语为目标语言,本发明在现有依存映射方法的基础上提高了5.7个百分点的准确率。
在本发明的又一个实施例中,还提供了一种机器翻译方法。依存句法树中包含的依存句法信息是机器翻译领域中非常具有吸引力的资源。例如,以源语言依存句法树中的任意连通子图作为翻译规则的基本结构,来对源语言进行翻译。例如,假设将B语言作为源语言进行翻译,例如可以将B语言翻译为C语言、D语言等等。但是目前还没有B语言的依存句法信息,仅获得A语言的依存句法树以及A语言和B语言的双语语料库。那么,该机器翻译方法可以通过下述步骤实现对B语言的机器翻译:
1)在A语言的依存句法树以及A语言和B语言的双语语料库的基础上,通过上述依存映射方法可得到B语言的依存句法分析器;
2)接收B语言句子,通过所得到的B语言的依存句法分析器得到该B语言句子的依存句法分析树;
3)基于该B语言句子的依存句法分析树,通过相应的机器翻译方法将该B语言句子翻译为相应的目标语言(例如C语言或D语言等等)的句子。
由于通过上述依存映射方法得到的依存句法分析器最大限度的保留了映射的依存信息,并且能够鲁棒的处理噪声信息,因此基于通过上述依存句法分析器所得到的依存句法分析树进行机器翻译,可以提高机器翻译的质量。
虽然本发明已经通过优选实施例进行了描述,然而本发明并非局限于这里所描述的实施例,在不脱离本发明范围的情况下还包括所作出的各种改变以及变化。

Claims (9)

1.一种依存映射方法,所述方法包括:
步骤1,在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;
步骤2,基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器;
其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
2.根据权利要求1所述的方法,所述步骤1包括:
步骤11)在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息;
步骤12)基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器。
3.根据权利要求2所述的方法,所述步骤2包括:
步骤21)使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树;
步骤22)通过特征模板从步骤21)得到的依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合;
步骤23)基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型;
步骤24)根据步骤24)得到的依存句法分析模型构造优化后目标语言依存句法分析器,然后基于该目标依存句法分析器重新执行步骤21)至步骤24),直到满足终止条件为止。
4.根据权利要求3所述的方法,所述步骤23)中分类目标函数为: 
l(w)=(1-α)θ(w)+αφ(w)
其中α为插值,θ(w)和φ(w)分别为:
Figure FDA00001821869900022
Figure FDA00001821869900023
Figure FDA00001821869900024
Figure FDA00001821869900025
其中DP为无监督特征实例集合中的正例集合,DN为无监督特征实例集合中的反例集合;Dp为映射依存特征实例集合中的正例集合,Dn为映射依存特征实例集合中的反例集合; 
Figure FDA00001821869900026
为Logistic函数:
Figure FDA00001821869900027
Figure FDA00001821869900028
为依存实例边,则 
Figure FDA00001821869900029
为所述特征实例的特征向量,wr为相应特征的类别权重,r为+时表示正例权重,r为-时表示反例权重。
5.根据权利要求3所述的方法,所述步骤24)中的终止条件为相邻两次所得到的目标语言依存树没有太大变化或相邻两次所得到的分类目标函数的极值没有太大变化,或步骤重复次数超过预定阈值。
6.一种依存映射系统,包括:
依存映射装置,用于在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;
依存优化装置,用于基于映射依存特征实例集合和无监督特征实例集合,对目标语言依存句法模型进行训练,以得到最优的依存句法分析模型并通过该最优的依存句法分析模型来构造最终的目标依存语法分析器; 
其中,映射依存特征实例集合是从经依存映射后的目标语言的依存句法信息中抽取的,无监督特征实例集合是从通过当前的目标语言依存句法分析器对目标语言库进行句法分析而得到依存树中抽取的。
7.根据权利要求6所述的系统,所述依存映射装置包括:
用于在源语言与目标语言的双语语料库的基础上,根据源语言串的依存树、目标语言串以及源语言与目标语言间的词语对齐关系,将源语言依存信息映射到目标语言,从而得到经依存映射后的目标语言的依存句法信息的装置;
用于基于经依存映射后的目标语言的依存句法信息,建立当前的目标语言依存句法分析模型及依存句法分析器的装置。
8.根据权利要求6所述的系统,所述依存优化装置包括:
用于使用当前的目标语言依存句法分析器对目标语言库中所有目标语言句子进行句法分析,得到在当前依存句法分析模型下的依存树的装置;
用于通过特征模板从所述依存树抽取无监督特征实例集合,并从经依存映射后的目标依存句法信息中抽取映射依存特征实例集合的装置;
用于基于无监督特征实例集合和映射依存特征实例集合,通过分类目标函数得到优化后的依存句法分析模型的装置;
用于从优化后的依存句法分析模型构造优化后目标语言依存句法分析器的装置。
9.一种机器翻译方法,所述方法包括:
1)基于第一语言的依存句法树以及第一语言和第二语言的双语语料库,通过如权利要求1-5之一所述的依存映射方法得到第二语言的依存句法分析器;
2)接收第二语言的句子,通过所得到的第二语言的依存句法分析器得到该第二语言的句子的依存句法分析树;
3)基于该第二语言的句子的依存句法分析树,通过相应的机器翻译方法将该第二语言的句子翻译为第三语言的句子。 
CN201210222936.XA 2012-06-28 2012-06-28 依存映射方法及系统 Expired - Fee Related CN102760121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210222936.XA CN102760121B (zh) 2012-06-28 2012-06-28 依存映射方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210222936.XA CN102760121B (zh) 2012-06-28 2012-06-28 依存映射方法及系统

Publications (2)

Publication Number Publication Date
CN102760121A true CN102760121A (zh) 2012-10-31
CN102760121B CN102760121B (zh) 2014-08-06

Family

ID=47054580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210222936.XA Expired - Fee Related CN102760121B (zh) 2012-06-28 2012-06-28 依存映射方法及系统

Country Status (1)

Country Link
CN (1) CN102760121B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
WO2017012327A1 (zh) * 2015-07-22 2017-01-26 华为技术有限公司 句法分析的方法和装置
CN104281564B (zh) * 2014-08-12 2017-08-08 中国科学院计算技术研究所 一种双语无监督句法分析方法及系统
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN110008467A (zh) * 2019-03-04 2019-07-12 昆明理工大学 一种基于迁移学习的缅甸语依存句法分析方法
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN112395871A (zh) * 2020-12-02 2021-02-23 华中科技大学 一种搭配构式的自动获取方法和系统、可视化方法
CN112836516A (zh) * 2019-11-25 2021-05-25 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统
US20080221870A1 (en) * 2007-03-08 2008-09-11 Yahoo! Inc. System and method for revising natural language parse trees

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080221870A1 (en) * 2007-03-08 2008-09-11 Yahoo! Inc. System and method for revising natural language parse trees
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JUN XIE ET AL: "A Novel Dependency-to-String Model for Statistical Machine Translation", 《PROCEEDINGS OF THE 2011 CONFERENCE ON EMPIRICAL METHODS IN NATURAL LANGUAGE PROCESSING》 *
WENBIN JIANG AND QUN LIU: "Dependency Parsing and Projection Based onWord-Pair Classification", 《PROCEEDINGS OF THE 48TH ANNUAL MEETING OF THE ASSOCIATION FOR COMPUTATIONAL LINGUISTICS》 *
刘凯 等: "基于双语约束的蒙古语无监督依存分析", 《中文信息学报》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104281564B (zh) * 2014-08-12 2017-08-08 中国科学院计算技术研究所 一种双语无监督句法分析方法及系统
CN104991890A (zh) * 2015-07-15 2015-10-21 昆明理工大学 一种基于汉越词对齐语料构建越南语依存树库的方法
WO2017012327A1 (zh) * 2015-07-22 2017-01-26 华为技术有限公司 句法分析的方法和装置
CN106372053A (zh) * 2015-07-22 2017-02-01 华为技术有限公司 句法分析的方法和装置
US10909315B2 (en) 2015-07-22 2021-02-02 Huawei Technologies Co., Ltd. Syntax analysis method and apparatus
CN108280064B (zh) * 2018-02-28 2020-09-11 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN108280064A (zh) * 2018-02-28 2018-07-13 北京理工大学 分词、词性标注、实体识别及句法分析的联合处理方法
CN110874535A (zh) * 2018-08-28 2020-03-10 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN110874535B (zh) * 2018-08-28 2023-07-25 阿里巴巴集团控股有限公司 依存关系对齐组件、依存关系对齐训练方法、设备及介质
CN110008467A (zh) * 2019-03-04 2019-07-12 昆明理工大学 一种基于迁移学习的缅甸语依存句法分析方法
CN112836516A (zh) * 2019-11-25 2021-05-25 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质
CN112836516B (zh) * 2019-11-25 2023-09-08 中移(苏州)软件技术有限公司 一种语义分析方法及装置、终端、存储介质
CN112395871A (zh) * 2020-12-02 2021-02-23 华中科技大学 一种搭配构式的自动获取方法和系统、可视化方法

Also Published As

Publication number Publication date
CN102760121B (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN102760121B (zh) 依存映射方法及系统
Ljubešic et al. Normalising Slovene data: historical texts vs. user-generated content
CN102662931B (zh) 一种基于协同神经网络的语义角色标注方法
CN106547739A (zh) 一种文本语义相似度分析方法
CN105955956A (zh) 一种汉语隐式篇章关系识别方法
CN103885938A (zh) 基于用户反馈的行业拼写错误检查方法
CN103678684A (zh) 一种基于导航信息检索的中文分词方法
CN103365838A (zh) 基于多元特征的英语作文语法错误自动纠正方法
Li Parsing the internal structure of words: a new paradigm for Chinese word segmentation
CN105005557A (zh) 一种基于依存分析的中文兼类词处理方法
US20150161096A1 (en) Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon
Zhang et al. HANSpeller++: A unified framework for Chinese spelling correction
TW201403354A (zh) 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法
CN103886053A (zh) 一种基于短文本评论的知识库构建方法
CN105786971B (zh) 一种面向国际汉语教学的语法点识别方法
CN105389303B (zh) 一种异源语料自动融合方法
CN106528863A (zh) 一种crf识别器的训练及技术及其属性名关系对抽取方法
CN104750676B (zh) 机器翻译处理方法及装置
KR20120048101A (ko) 병렬 말뭉치를 이용한 동사구 번역 패턴 구축 장치 및 그 방법
Schottmüller et al. Issues in translating verb-particle constructions from german to english
CN103646017A (zh) 用于命名的缩略词生成系统及其工作方法
CN106021225A (zh) 一种基于汉语简单名词短语的汉语最长名词短语识别方法
Chuang et al. Resume parser: Semi-structured chinese document analysis
CN105183807A (zh) 一种基于结构句法的情绪原因事件识别方法及系统
CN110807096A (zh) 一种小样本集上的信息对匹配方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140806

Termination date: 20200628

CF01 Termination of patent right due to non-payment of annual fee