CN106372053B - 句法分析的方法和装置 - Google Patents

句法分析的方法和装置 Download PDF

Info

Publication number
CN106372053B
CN106372053B CN201510435938.0A CN201510435938A CN106372053B CN 106372053 B CN106372053 B CN 106372053B CN 201510435938 A CN201510435938 A CN 201510435938A CN 106372053 B CN106372053 B CN 106372053B
Authority
CN
China
Prior art keywords
language sentence
target language
state transition
syntax tree
source language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510435938.0A
Other languages
English (en)
Other versions
CN106372053A (zh
Inventor
涂兆鹏
陈晓
姜文斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201510435938.0A priority Critical patent/CN106372053B/zh
Priority to PCT/CN2016/072422 priority patent/WO2017012327A1/zh
Publication of CN106372053A publication Critical patent/CN106372053A/zh
Priority to US15/872,993 priority patent/US10909315B2/en
Application granted granted Critical
Publication of CN106372053B publication Critical patent/CN106372053B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/47Machine-assisted translation, e.g. using translation memory

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种句法分析的方法和装置。该方法包括:获取与目标语言句子互为译文的源语言句子;根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。本发明实施例的句法分析的方法和装置,能够提高句法分析的效率。

Description

句法分析的方法和装置
技术领域
本发明涉及信息技术领域,并且更具体地,涉及句法分析的方法和装置。
背景技术
随着互联网的高速发展带来的网络文本数据爆炸式的增长和经济全球化的发展,不同国家之间的信息交流和交换变得越来越频繁。同时,蓬勃发展的互联网为获取诸如英语、汉语、法语、德语、日语等各种语言形式的信息提供了极大地便利。这些语言服务包括信息检索、文本摘要、机器翻译、自动问答等。在众多语言服务中,句法分析能够为其带来巨大的性能提升。句法分析能够对语言的结构进行分析,利用句法分析所得到的句子结构,可以更好地帮助下层应用更好的捕捉句子的结构信息,在此基础上进一步理解语义信息。在机器翻译中可以有多种运用,如更好的辅助统计机器翻译完成源语言到目标语言翻译过程中的长距离调序,也可以用于指导目标译文的生成过程,使得译文更符合语法结构,从而带来译文质量的提升。
然而,除了少数热门的语言,如英语、日语、法语、德语等,众多小语种,如东南亚语言包括泰语、缅甸语,越南语、柬埔寨语等的句法分析远未得到良好发展。其瓶颈在于,这些小语种的句法资源的严重稀缺。句法资源的建设需要投入巨大的人力,并且只有在构建到一定规模之后,才能使得自动句法分析的性能达到应用的程度。另一方面,在实际人工构建句法资源的过程中,还需要面临不同语言句法结构的标准确立的问题,要尽可能地统一标注标准。这些困难都导致了在短期内构建资源稀缺语言的自动句法分析器难以实现。
当前已有的句法分析方法可以大致分为两类:有监督的句法分析和无监督的句法分析。有监督的句法分析是在人工标注的句法树库中抽取特征,通过机器学习模型学习到特征和人工标注的句法结构的关系;对于待标注句子,根据学习到的模型搜索匹配上句子中特征的句法结构组合,以生成给定句子的句法树。有监督的句法分析需要机器学习模型学习特征和标注的句法结构的操作判定,判例的取得需要大量的人工标注的数据。在没有训练数据的情况下,完全不可能开展当前语言的句法分析。人工标注句法树库需要消耗大量的人力和时间成本,保证标注标准的一致性也存在一定的困难。即便存在训练数据,如果训练的数据规模太小,那么判例的学习也极容易过拟合,造成在实际的运用当中性能表现较差。
无监督的句法分析是对不带标注信息的句子自动生成带有标注信息的句法库。无监督的句法分析最大的缺陷在于单纯通过在生文本上进行无监督学习,以致于无法得到可以实用的句法分析器。
发明内容
本发明实施例提供了一种句法分析的方法和装置,能够自动生成符合句法知识的句法树,从而提高句法分析的效率。
第一方面,提供了一种句法分析的方法,包括:
获取与目标语言句子互为译文的源语言句子;
根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;
根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
结合第一方面,在第一种可能的实现方式中,根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例,包括:
根据该源语言句子,获取该源语言句子的句法树;
对于该目标语言句子中的任意相邻的片段xl和xr,根据该对应关系确定xl和xr对应的该源语言句子的片段yl和yr
若yl和yr是该源语言句子的句法树中的成分,则根据yl和yr在该源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例。
结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,根据yl和yr在该源语言句子的句法树中的成分关系,获取xl和xr对应的状态转移实例,包括:
若yl和yr构成该源语言句子的句法树中的一个成分,则获取归并操作实例;
若yl和yr无法构成该源语言句子的句法树中的一个成分,则获取分离操作实例。
结合第一方面的第一或二种可能的实现方式,在第三种可能的实现方式中,该方法还包括:
对xl和xr对应的状态转移实例进行评分;
该根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例,包括:
根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例。
结合第一方面的第三种可能的实现方式,在第四种可能的实现方式中,根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例,包括:
将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例,其中,N为该目标语言句子的长度。
结合第一方面的第三或四种可能的实现方式,在第五种可能的实现方式中,对xl和xr对应的状态转移实例进行评分,包括:
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure BDA0000765232200000031
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分。
结合第一方面或第一方面的上述任一种可能的实现方式,在第六种可能的实现方式中,获取与目标语言句子互为译文的源语言句子,包括:
根据目标语言和源语言的平行语料,获取与该目标语言句子互为译文的该源语言句子。
结合第一方面或第一方面的上述任一种可能的实现方式,在第七种可能的实现方式中,根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树,包括:
根据以下等式生成该目标语言句子X的句法树Y(X),
Figure BDA0000765232200000041
其中,T表示状态转移操作,D表示句法树的推导。
结合第一方面或第一方面的上述任一种可能的实现方式,在第八种可能的实现方式中,该方法还包括:
根据该目标语言句子的句法树,训练目标语言分析器。
第二方面,提供了一种句法分析的装置,包括:
获取模块,用于获取与目标语言句子互为译文的源语言句子;
确定模块,用于根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;
生成模块,用于根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
结合第二方面,在第一种可能的实现方式中,该确定模块具体用于:
根据该源语言句子,获取该源语言句子的句法树;
对于该目标语言句子中的任意相邻的片段xl和xr,根据该对应关系确定xl和xr对应的该源语言句子的片段yl和yr
若yl和yr是该源语言句子的句法树中的成分,则根据yl和yr在该源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例。
结合第二方面的第一种可能的实现方式,在第二种可能的实现方式中,该确定模块具体用于:
若yl和yr构成该源语言句子的句法树中的一个成分,则获取归并操作实例;
若yl和yr无法构成该源语言句子的句法树中的一个成分,则获取分离操作实例。
结合第二方面的第一或二种可能的实现方式,在第三种可能的实现方式中,该确定模块具体用于:
对xl和xr对应的状态转移实例进行评分;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例。
结合第二方面的第三种可能的实现方式,在第四种可能的实现方式中,该确定模块具体用于:
将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例,其中,N为该目标语言句子的长度。
结合第二方面的第三或四种可能的实现方式,在第五种可能的实现方式中,该确定模块具体用于:
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure BDA0000765232200000051
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分。
结合第二方面或第二方面的上述任一种可能的实现方式,在第六种可能的实现方式中,该获取模块具体用于:
根据目标语言和源语言的平行语料,获取与该目标语言句子互为译文的该源语言句子。
结合第二方面或第二方面的上述任一种可能的实现方式,在第七种可能的实现方式中,该生成模块具体用于:
根据以下等式生成该目标语言句子X的句法树Y(X),
Figure BDA0000765232200000052
其中,T表示状态转移操作,D表示句法树的推导。
结合第二方面或第二方面的上述任一种可能的实现方式,在第八种可能的实现方式中,该装置还包括:
训练模块,用于根据该目标语言句子的句法树,训练目标语言分析器。
基于上述技术方案,本发明实施例根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以无需人工标注得到目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的句法分析的方法的示意性流程图。
图2是本发明实施例的源语言句子的句法树的示意图。
图3是本发明实施例的片段对应的示意图。
图4是本发明实施例的抽取实例的示意图。
图5是本发明另一实施例的句法分析的方法的示意性流程图。
图6是本发明一个实施例的句法分析的装置的示意性框图。
图7是本发明另一实施例的句法分析的装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
在本发明实施例中,目标语言为待分析的语言。例如,目标语言可以是资源稀缺语言,由于句法资源的稀缺,对于该资源稀缺语言,没有句法分析器或没有较高效率的句法分析器。
在本发明实施例中,源语言为可以通过已有的句法分析器或句法分析方法进行句法分析的语言。例如,源语言可以是资源丰富语言,对于该资源丰富语言,已有句法分析器或者可以通过已有的句法树库训练得到句法分析器。
图1示出了根据本发明实施例的句法分析的方法100的示意性流程图。如图1所示,该方法100包括:
S110,获取与目标语言句子互为译文的源语言句子;
S120,根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;
S130,根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
在本发明实施例中,利用与目标语言句子互为译文的源语言句子生成目标语言句子的句法树。对于一个目标语言句子,先根据源语言句子以及目标语言句子的词语与源语言句子的词语的对应关系确定目标语言句子的状态转移(transition)实例(instance),再根据目标语言句子的状态转移实例生成目标语言句子的句法树。这样,可以由多个目标语言句子得到目标语言句法树库。因此,本发明实施例不需要人工标注就能得到目标语言句法树库,而且该目标语言句法树库相对于无监督学习中自动生成的句法树库更符合句法知识。
因此,本发明实施例的句法分析的方法,根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以无需人工标注得到目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
在本发明一个实施例中,可选地,获取与目标语言句子互为译文的源语言句子,包括:
根据目标语言和源语言的平行语料,获取与该目标语言句子互为译文的该源语言句子。
平行语料属于双语语料,是指源语言和目标语言在句子级别互为翻译的语料。也就是说,平行语料中的目标语言句子具有源语言句子的译文。例如,平行语料可以为双语平行语料库、双语词典或双语对应规则等。本发明实施例中从平行语料中选择目标语言句子,再根据目标语言句子的译文(源语言句子)生成目标语言句子的句法树。
可选地,平行语料中的对应句子可以经过相应语言的预处理,例如是汉语需要进行分词,英语则需要进行标记解析(tokenize)以减小数据稀疏性和增加数据一致性。
在本发明一个实施例中,可选地,根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例,包括:
根据该源语言句子,获取该源语言句子的句法树;
对于该目标语言句子中的任意相邻的片段xl和xr,根据该对应关系确定xl和xr对应的该源语言句子的片段yl和yr
若yl和yr是该源语言句子的句法树中的成分,则根据yl和yr在该源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例。
具体而言,在得到目标语言句子对应的源语言句子后,对源语言句子进行分析,获取该源语言句子的句法树。可通过已有的源语言的分析器得到源语言句子的句法树,例如,斯坦福分析器(Stanford parser);也可以使用在源语言已有的句法树库上训练得到的分析器。
枚举目标语言句子X中任意相邻的片段xl和xr,表示为<xl,xr>。
根据目标语言句子的词语与源语言句子的词语的对应关系得到<xl,xr>所对应的源语言的片段yl和yr,表示为<yl,yr>。yl和yr不一定相邻。该对应关系可以使用已有的对齐工具得到,如GIZA++,也可以使用其他的自动对齐工具,本发明对此并不限定。例如,词语对齐具体形式为:1:12:3…,表示源语言句子第1个词和目标语言句子第1个词对应,源语言句子第2个词和目标语言句子第3个词对应等。
如果所得源语言句子片段<yl,yr>不是源语言句子的句法树中的成分,则重新选择目标语言句子X中另外相邻的片段。如果所得源语言句子片段<yl,yr>是源语言句子的句法树中的成分,则根据yl和yr的关系,抽取状态转移实例。具体地,如果yl和yr构成了源语言句子的句法树中的一个成分,即更大的成分,则抽取归并操作实例,即推导的正例;如果yl和yr无法构成源语言句子的句法树中的一个成分,则抽取分离操作实例,即推导的反例。
重复上述步骤,直至枚举完成。再在所抽取的所有状态转移实例中选择状态转移实例。
在本发明一个实施例中,可选地,该方法100还包括:
对xl和xr对应的状态转移实例进行评分;
在这种情况下,根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例,包括:
根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例。
具体而言,由于词语对应(或称为对齐)有一定的误差,尤其是对异构的语言间。因此,源语言片段和目标语言片段的对齐强弱程度可能有高有低。可选地,在确定<xl,xr>对应的源语言的片段<yl,yr>时,可以根据最好的一个或多个对齐结果选择。在选择状态转移实例时,可根据状态转移实例的评分进行选择。可选地,可以将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例,其中,N为该目标语言句子的长度。
在本发明一个实施例中,可选地,可根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α) (1)
Figure BDA0000765232200000091
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分,i为片段x中的词,j为片段y中的词。
应理解,上述等式(1)和(2)只是对实例进行评分的一种方式,本发明还可以通过其他方式对实例进行评分,例如,采用其他对齐方式或其他对齐矩阵进行评分,本发明对此并不限定。
下面将结合具体的例子详细描述本发明实施例。应注意,这只是为了帮助本领域技术人员更好地理解本发明实施例,而非限制本发明实施例的范围。
给定目标语言句子为:“railway workers learn English grammar”,其译文为源语言句子“铁路工人学习英语语法”。
对于源语言句子,根据已有的句法分析器可到其句法树,如图2所示。
枚举目标语言句子两个相邻的片段,如这两个相邻的片段<xl,xr>为<learn,English grammar>。
根据对应关系得到上述两个相邻的片段在源语言句子中对应的片段<yl,yr>。如图3所示,对应片段为<学习,英语语法>。
判断<yl,yr>是否是源语言句子句法树中的成分。从图2中可以得到,<学习,英语语法>是源语言句子句法树中的成分,<V,NP>。
根据yl和yr的关系,抽取状态转移实例。如图4所示,<V,NP>构成更大的成分VP,即<V,NP>可以归并。因此,推导认为<learn,English grammar>也可以归并,从而抽取归并操作实例,并对该实例进行评分。
重复上述步骤直至枚举完所有相邻片断,最后选择分数最高的N-1个实例(N为目标语言句子的长度)。
在获取了目标语言句子的状态转移实例后,可根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
在本发明一个实施例中,可选地,可根据以下等式生成该目标语言句子X的句法树Y(X),
Figure BDA0000765232200000101
其中,T表示状态转移操作(transition operation),D表示句法树的推导(derivation)。
式(3)中,对于实例对应的状态转移操作T,可表示为T=(λ,α,β),其中,λ∈{reduce,separate},表示两个成分该归并还是分离,α∈NT,表示归并之后的目标非终结符(non-terminal),β∈{left,right},表示归并之后哪个是中心成分。
状态转移操作(λ,α,β)可以拆解为两部分:
(λ,α),成分句法分析操作;
(λ,β),依存句法分析操作。
状态转移操作T=(λ,α,β)的评分p(T)是两部分评分之积:
p(T|S,Cc,Cd)=p(λ,α,β|S,Cc,Cd)=p(λ,α|S,Cc)×p(λ,β|S,Cd) (4)
其中,S表示状态,Cc和Cd分别表示成分分类器和依存分类器。
对于p(λ,α|S,Cc)和p(λ,β|S,Cd),可以使用特征模板抽取每个实例的对应特征,并通过训练分类器得到相关概率(即评分)。
应理解,上述等式(3)只是生成句法树的一种方式,本发明还可以利用等式(3)的变形或者其他基于评分的方式生成句法树,本发明对此并不限定。
在本发明一个实施例中,如图5所示,可选地,该方法100还包括:
S140,根据该目标语言句子的句法树,训练目标语言分析器。
具体而言,前述生成的目标语言句子的句法树可以用来训练目标语言分析器。也就是说,多个目标语言句子的句法树可组成目标语言句法树库,用于训练目标语言分析器。由句法树库训练分析器可以使用已有的技术,在此不再赘述。
本发明实施例的句法分析的方法,根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以不需要人工标注得到较优的目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
应理解,在本发明的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
上文中详细描述了根据本发明实施例的句法分析的方法,下面将描述根据本发明实施例的句法分析的装置。
图6示出了根据本发明实施例的句法分析的装置600的示意性框图。如图6所示,该装置600包括:
获取模块610,用于获取与目标语言句子互为译文的源语言句子;
确定模块620,用于根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;
生成模块630,用于根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
在本发明实施例中,利用与目标语言句子互为译文的源语言句子生成目标语言句子的句法树。对于一个目标语言句子,先根据源语言句子以及目标语言句子的词语与源语言句子的词语的对应关系确定目标语言句子的状态转移实例,再根据目标语言句子的状态转移实例生成目标语言句子的句法树。这样,可以由多个目标语言句子得到目标语言句法树库。因此,本发明实施例不需要人工标注就能得到目标语言句法树库,而且该目标语言句法树库相对于无监督学习中自动生成的句法树库更符合句法知识。
因此,本发明实施例的句法分析的装置,根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以无需人工标注得到目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
在本发明一个实施例中,可选地,该确定模块620具体用于:
根据该源语言句子,获取该源语言句子的句法树;
对于该目标语言句子中的任意相邻的片段xl和xr,根据该对应关系确定xl和xr对应的该源语言句子的片段yl和yr
若yl和yr是该源语言句子的句法树中的成分,则根据yl和yr在该源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例。
在本发明一个实施例中,可选地,该确定模块620具体用于:
若yl和yr构成该源语言句子的句法树中的一个成分,则获取归并操作实例;
若yl和yr无法构成该源语言句子的句法树中的一个成分,则获取分离操作实例。
在本发明一个实施例中,可选地,该确定模块620具体用于:
对xl和xr对应的状态转移实例进行评分;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例。
在本发明一个实施例中,可选地,该确定模块620具体用于:
将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例,其中,N为该目标语言句子的长度。
在本发明一个实施例中,可选地,该确定模块620具体用于:
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure BDA0000765232200000121
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分。
在本发明一个实施例中,可选地,该获取模块610具体用于:
根据目标语言和源语言的平行语料,获取与该目标语言句子互为译文的该源语言句子。
在本发明一个实施例中,可选地,该生成模块630具体用于:
根据以下等式生成该目标语言句子X的句法树Y(X),
Figure BDA0000765232200000122
其中,T表示状态转移操作,D表示句法树的推导。
在本发明一个实施例中,可选地,该装置600还包括:
训练模块,用于根据该目标语言句子的句法树,训练目标语言分析器。
根据本发明实施例的句法分析的装置600可对应于根据本发明实施例的句法分析的方法的执行主体,并且装置600中的各个模块的上述和其它操作和/或功能分别为了实现前述方法的相应流程,为了简洁,在此不再赘述。
本发明实施例的句法分析的装置,根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以不需要人工标注得到较优的目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
图7示出了本发明的又一实施例提供的句法分析的装置的结构,包括至少一个处理器702(例如CPU),至少一个网络接口705或者其他通信接口,存储器706,和至少一个通信总线703,用于实现这些部件之间的连接通信。处理器702用于执行存储器706中存储的可执行模块,例如计算机程序。存储器706可能包含高速随机存取存储器(RAM:Random AccessMemory),也可能还包括非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个网络接口705(可以是有线或者无线)实现与至少一个其他网元之间的通信连接。
在一些实施方式中,存储器706存储了程序7061,处理器702执行程序7061,用于执行以下操作:
获取与目标语言句子互为译文的源语言句子;
根据该源语言句子,以及该目标语言句子的词语与该源语言句子的词语的对应关系,确定该目标语言句子的状态转移实例;
根据该目标语言句子的状态转移实例,生成该目标语言句子的句法树。
可选地,处理器702具体用于:
根据该源语言句子,获取该源语言句子的句法树;
对于该目标语言句子中的任意相邻的片段xl和xr,根据该对应关系确定xl和xr对应的该源语言句子的片段yl和yr
若yl和yr是该源语言句子的句法树中的成分,则根据yl和yr在该源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例,确定该目标语言句子的状态转移实例。
可选地,处理器702具体用于:
若yl和yr构成该源语言句子的句法树中的一个成分,则获取归并操作实例;
若yl和yr无法构成该源语言句子的句法树中的一个成分,则获取分离操作实例。
可选地,处理器702具体用于:
对xl和xr对应的状态转移实例进行评分;
根据该目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定该目标语言句子的状态转移实例。
可选地,处理器702具体用于:
将该目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为该目标语言句子的状态转移实例,其中,N为该目标语言句子的长度。
可选地,处理器702具体用于:
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure BDA0000765232200000141
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分。
可选地,处理器702具体用于:
根据目标语言和源语言的平行语料,获取与该目标语言句子互为译文的该源语言句子。
可选地,处理器702具体用于:
根据以下等式生成该目标语言句子X的句法树Y(X),
Figure BDA0000765232200000142
其中,T表示状态转移操作,D表示句法树的推导。
可选地,处理器702还用于根据该目标语言句子的句法树,训练目标语言分析器。
从本发明实施例提供的以上技术方案可以看出,本发明实施例根据与目标语言句子互为译文的源语言句子生成目标语言句子的句法树,可以无需人工标注得到目标语言句子的符合句法知识的句法树,从而能够提高句法分析的效率。
应理解,在本发明实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (8)

1.一种句法分析的方法,其特征在于,包括:
获取与目标语言句子互为译文的源语言句子;
根据所述源语言句子,以及所述目标语言句子的词语与所述源语言句子的词语的对应关系,确定所述目标语言句子的状态转移实例;
根据所述目标语言句子的状态转移实例,生成所述目标语言句子的句法树;
其中,所述根据所述源语言句子,以及所述目标语言句子的词语与所述源语言句子的词语的对应关系,确定所述目标语言句子的状态转移实例,包括:
根据所述源语言句子,获取所述源语言句子的句法树;
对于所述目标语言句子中的任意相邻的片段xl和xr,根据所述对应关系确定xl和xr对应的所述源语言句子的片段yl和yr
若yl和yr是所述源语言句子的句法树中的成分,则根据yl和yr在所述源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例,其中,若yl和yr构成所述源语言句子的句法树中的一个成分,则获取归并操作实例,若yl和yr无法构成所述源语言句子的句法树中的一个成分,则获取分离操作实例;
对xl和xr对应的状态转移实例进行评分;
根据所述目标语言句子中的所有相邻的片段对应的状态转移实例,确定所述目标语言句子的状态转移实例;
其中,所述根据所述目标语言句子中的所有相邻的片段对应的状态转移实例,确定所述目标语言句子的状态转移实例,包括:
根据所述目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定所述目标语言句子的状态转移实例;
所述对xl和xr对应的状态转移实例进行评分,包括:
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure FDA0002314345630000011
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分;
所述根据所述目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定所述目标语言句子的状态转移实例,包括:
将所述目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为所述目标语言句子的状态转移实例,其中,N为所述目标语言句子的长度。
2.根据权利要求1所述的方法,其特征在于,所述获取与目标语言句子互为译文的源语言句子,包括:
根据目标语言和源语言的平行语料,获取与所述目标语言句子互为译文的所述源语言句子。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述目标语言句子的状态转移实例,生成所述目标语言句子的句法树,包括:
根据以下等式生成所述目标语言句子X的句法树Y(X),
Figure FDA0002314345630000021
其中,T表示状态转移操作,D表示句法树的推导。
4.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
根据所述目标语言句子的句法树,训练目标语言分析器。
5.一种句法分析的装置,其特征在于,包括:
获取模块,用于获取与目标语言句子互为译文的源语言句子;
确定模块,用于根据所述源语言句子,以及所述目标语言句子的词语与所述源语言句子的词语的对应关系,确定所述目标语言句子的状态转移实例;
生成模块,用于根据所述目标语言句子的状态转移实例,生成所述目标语言句子的句法树;
其中,所述确定模块具体用于:
根据所述源语言句子,获取所述源语言句子的句法树;
对于所述目标语言句子中的任意相邻的片段xl和xr,根据所述对应关系确定xl和xr对应的所述源语言句子的片段yl和yr
若yl和yr是所述源语言句子的句法树中的成分,则根据yl和yr在所述源语言句子的句法树中的关系,获取xl和xr对应的状态转移实例,其中,若yl和yr构成所述源语言句子的句法树中的一个成分,则获取归并操作实例,若yl和yr无法构成所述源语言句子的句法树中的一个成分,则获取分离操作实例;
对xl和xr对应的状态转移实例进行评分;
根据所述目标语言句子中的所有相邻的片段对应的状态转移实例的评分,确定所述目标语言句子的状态转移实例;
根据以下等式对xl和xr对应的状态转移实例进行评分,
p(xl,xr,yl,yr|Α)=p(xl,yl|Α)×p(xr,yr|Α),
Figure FDA0002314345630000031
其中,Α为对齐矩阵,p(xl,xr,yl,yr|Α)表示根据xl和xr,以及yl和yr,获取的状态转移实例的评分;
将所述目标语言句子中的所有相邻的片段对应的状态转移实例中评分最高的N-1个状态转移实例确定为所述目标语言句子的状态转移实例,其中,N为所述目标语言句子的长度。
6.根据权利要求5所述的装置,其特征在于,所述获取模块具体用于:
根据目标语言和源语言的平行语料,获取与所述目标语言句子互为译文的所述源语言句子。
7.根据权利要求5或6所述的装置,其特征在于,所述生成模块具体用于:
根据以下等式生成所述目标语言句子X的句法树Y(X),
Figure FDA0002314345630000032
其中,T表示状态转移操作,D表示句法树的推导。
8.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:
训练模块,用于根据所述目标语言句子的句法树,训练目标语言分析器。
CN201510435938.0A 2015-07-22 2015-07-22 句法分析的方法和装置 Active CN106372053B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201510435938.0A CN106372053B (zh) 2015-07-22 2015-07-22 句法分析的方法和装置
PCT/CN2016/072422 WO2017012327A1 (zh) 2015-07-22 2016-01-28 句法分析的方法和装置
US15/872,993 US10909315B2 (en) 2015-07-22 2018-01-17 Syntax analysis method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510435938.0A CN106372053B (zh) 2015-07-22 2015-07-22 句法分析的方法和装置

Publications (2)

Publication Number Publication Date
CN106372053A CN106372053A (zh) 2017-02-01
CN106372053B true CN106372053B (zh) 2020-04-28

Family

ID=57834797

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510435938.0A Active CN106372053B (zh) 2015-07-22 2015-07-22 句法分析的方法和装置

Country Status (3)

Country Link
US (1) US10909315B2 (zh)
CN (1) CN106372053B (zh)
WO (1) WO2017012327A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107291684B (zh) * 2016-04-12 2021-02-09 华为技术有限公司 语言文本的分词方法和系统
CN109145315B (zh) 2018-09-05 2022-03-18 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110750989B (zh) * 2019-10-28 2023-09-19 北京金山数字娱乐科技有限公司 一种语句分析的方法及装置
CN112800754B (zh) * 2021-01-26 2024-07-02 浙江香侬慧语科技有限责任公司 基于预训练语言模型的无监督语法推导方法、装置和介质
CN113689749A (zh) * 2021-08-30 2021-11-23 临沂职业学院 一种测验定制化的英语翻译教学管理系统及方法
CN114595688B (zh) * 2022-01-06 2023-03-10 昆明理工大学 融合词簇约束的汉越跨语言词嵌入方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1067784C (zh) * 1997-07-02 2001-06-27 华建机器翻译有限公司 特殊语言现象处理方法
WO1999063456A1 (fr) * 1998-06-04 1999-12-09 Matsushita Electric Industrial Co., Ltd. Dispositif de preparation de regles de conversion du langage, dispositif de conversion du langage et support d'enregistrement de programme
US6947885B2 (en) * 2000-01-18 2005-09-20 At&T Corp. Probabilistic model for natural language generation
AU2002316581A1 (en) * 2001-07-03 2003-01-21 University Of Southern California A syntax-based statistical translation model
EP1351158A1 (en) * 2002-03-28 2003-10-08 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US7200550B2 (en) * 2004-11-04 2007-04-03 Microsoft Corporation Projecting dependencies to generate target language dependency structure
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
FR2906049A1 (fr) * 2006-09-19 2008-03-21 Alcatel Sa Procede, mis en oeuvre par ordinateur, de developpement d'une ontologie a partir d'un texte en langage naturel
US8452585B2 (en) * 2007-06-21 2013-05-28 Microsoft Corporation Discriminative syntactic word order model for machine translation
US8046211B2 (en) * 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US8060360B2 (en) * 2007-10-30 2011-11-15 Microsoft Corporation Word-dependent transition models in HMM based word alignment for statistical machine translation
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8150677B2 (en) * 2008-06-26 2012-04-03 Microsoft Corporation Machine translation using language order templates
CN102214166B (zh) * 2010-04-06 2013-02-20 三星电子(中国)研发中心 基于句法分析和层次模型的机器翻译系统和方法
CN102789451B (zh) * 2011-05-16 2015-06-03 北京百度网讯科技有限公司 一种个性化的机器翻译系统、方法及训练翻译模型的方法
CN102708098B (zh) * 2012-05-30 2015-02-04 中国科学院自动化研究所 一种基于依存连贯性约束的双语词语自动对齐方法
CN102760121B (zh) * 2012-06-28 2014-08-06 中国科学院计算技术研究所 依存映射方法及系统
CN103116578A (zh) * 2013-02-07 2013-05-22 北京赛迪翻译技术有限公司 一种融合句法树和统计机器翻译技术的翻译方法与装置
CN104239290B (zh) * 2014-08-08 2017-02-15 中国科学院计算技术研究所 基于依存树的统计机器翻译方法及系统
CN104281564B (zh) 2014-08-12 2017-08-08 中国科学院计算技术研究所 一种双语无监督句法分析方法及系统

Also Published As

Publication number Publication date
CN106372053A (zh) 2017-02-01
US10909315B2 (en) 2021-02-02
US20180157634A1 (en) 2018-06-07
WO2017012327A1 (zh) 2017-01-26

Similar Documents

Publication Publication Date Title
CN106372053B (zh) 句法分析的方法和装置
CN104503998B (zh) 针对用户查询句的类型识别方法及装置
CN111783394A (zh) 事件抽取模型的训练方法、事件抽取方法和系统及设备
CN111539229A (zh) 神经机器翻译模型训练方法、神经机器翻译方法及装置
CN110770735A (zh) 具有嵌入式数学表达式的文档的编码转换
CN111061882A (zh) 一种知识图谱构建方法
CN108363691B (zh) 一种用于电力95598工单的领域术语识别系统及方法
CN111274239A (zh) 试卷结构化处理方法、装置和设备
CN105593845A (zh) 基于自学排列的排列语料库的生成装置及其方法、使用排列语料库的破坏性表达语素分析装置及其语素分析方法
CN112257462A (zh) 一种基于神经机器翻译技术的超文本标记语言翻译方法
CN112380864A (zh) 一种基于回译的文本三元组标注样本增强方法
Wax Automated grammar engineering for verbal morphology
CN110633456B (zh) 语种识别方法、装置、服务器及存储介质
JP2016164707A (ja) 自動翻訳装置及び翻訳用モデル学習装置
CN107491441B (zh) 一种基于强制解码的动态抽取翻译模板的方法
CN107451215B (zh) 特征文本抽取方法及装置
CN111310457B (zh) 词语搭配不当识别方法、装置、电子设备和存储介质
CN113988047A (zh) 一种语料筛选方法和装置
CN112966510A (zh) 一种基于albert的武器装备实体抽取方法、系统及存储介质
CN113268714A (zh) 一种开源软件许可证条款自动提取方法
KR102118322B1 (ko) 원문과 번역문 파일을 개별적으로 생성하는 문서 번역 서버 및 번역 방법
Bosch et al. Computer-assisted transcription of a historical botanical specimen book: organization and process overview
Malkadi et al. Improving code extraction from coding screencasts using a code-aware encoder-decoder model
CN116522966B (zh) 基于多语言词条的文本翻译方法及系统
CN112016301B (zh) 一种融合短语先验知识的依存句法分析方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant