CN108628829B - 基于树形循环神经网络的自动树库转化方法及系统 - Google Patents

基于树形循环神经网络的自动树库转化方法及系统 Download PDF

Info

Publication number
CN108628829B
CN108628829B CN201810366795.6A CN201810366795A CN108628829B CN 108628829 B CN108628829 B CN 108628829B CN 201810366795 A CN201810366795 A CN 201810366795A CN 108628829 B CN108628829 B CN 108628829B
Authority
CN
China
Prior art keywords
word
tree
vector
neural network
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810366795.6A
Other languages
English (en)
Other versions
CN108628829A (zh
Inventor
李正华
江心舟
章波
张民
陈文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810366795.6A priority Critical patent/CN108628829B/zh
Publication of CN108628829A publication Critical patent/CN108628829A/zh
Application granted granted Critical
Publication of CN108628829B publication Critical patent/CN108628829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于树形循环神经网络的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于树形循环神经网络的自动树库转化方法,包括:基于双向树形循环神经网络TreeLSTM,得到词wi、词wi、词wa的隐藏层输出向量
Figure DDA0001637488170000011
将隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure DDA0001637488170000012
循环神经网络BiSeqLSTM顶层输出的输出向量
Figure DDA0001637488170000013
分别与表示向量
Figure DDA0001637488170000014
拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息;利用双仿射计算词wi和词wj的目标端依存弧分值。本发明充分利用源端句法树,刻画两种标注规范的对应规律为建立高质量树有监督转化模型提供了必要的数据支持。

Description

基于树形循环神经网络的自动树库转化方法及系统
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于树形循环神经网络的自动树库转化方法及系统。
背景技术
目前研究人员在树库研究方面开展了大量的研究和开发工作,也取得了可观的成果。这些树库采用的标注体系差别巨大,按照描述方法大体分为两种,一种是短语结构树,一种是依存树。
对于依存树而言,两个树库的依存标注是遵循不同的标注规范的,称这两个树库是异构的。很多世界主流语言都拥有多个大规模异构树库,由于树库的构建需要非常高昂的人工代价,因此如何利用不同的异构树库推进句法分析的性能是一个非常重要的研究方向。
树库转化工作的主要动机是通过标注小规模的双树对齐数据,有效的刻画不同标注规范之间的对应规律,构建有监督转化模型(树库转化模型),最终目的是将大规模源端规范树库转化为符合目标规范的树库,迅速扩大符合目标规范的训练数据规模。如图1所示,图的上半部分是按照苏州大学的规范所标注的结果,下半部分是按照哈工大汉语依存树库HIT-CDT规范所标注的结果。这样一个句子有两种标注规范的数据,称之为双树对齐数据。
为了提高句法分析的性能,本领域研究人员提出了多个经典的方法,例如:基于指导特征的间接方法、基于多任务学习的间接方法、基于转化的直接方法。间接方法的主要问题是对源端树库的利用不充分,无法有效刻画规范之间对应规律;而基于转化的直接方法,受限于双树对齐数据的缺失,也无法有效学习规范之间的对应规律,因此转化效果一般。
发明内容
为解决上述技术问题,本发明的目的是提供一种充分利用源端树库的结构信息,进而得到更优目标端依存弧得分值的基于树形循环神经网络的自动树库转化方法及系统。
为达到上述发明目的,本发明基于树形循环神经网络的自动树库转化方法,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
在源端树中提取词wi、词wj的最短路径树,基于双向树形循环神经网络TreeLSTM,得到该最短路径树中词wi、词wj、词wa各自对应的隐藏层输出向量
Figure GDA0003496446680000021
其中,在源端树dsrc中,词ωa为词ωi和词ωj的最近公共祖先节点;
将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000022
Figure GDA0003496446680000023
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量表示为
Figure GDA0003496446680000024
将词wi和词wj各自对应的顶层输出向量
Figure GDA0003496446680000025
分别与所述的表示向量
Figure GDA0003496446680000026
拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息,公式表示如下:
Figure GDA0003496446680000031
Figure GDA0003496446680000032
利用双仿射计算词wi和词ωj的目标端依存弧分值,计算公式为:
Figure GDA0003496446680000033
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量;
其中,双向树形循环神经网络TreeLSTM计算词wi、词wj、词wa各自对应的隐藏层输出向量的方法包括:对提取的最短路径树分别进行自下向上和自上向下的运算,其中
自下向上运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有儿子节点,则另一部分为所有儿子节点的隐藏层输出向量;若该LSTM节点没有儿子节点,则另一部分为零向量;自下向上运算过程中,词ωa的隐藏层输出向量ha的计算公式如下:
Figure GDA0003496446680000034
Figure GDA0003496446680000035
fa,k=σ(U(f)xa+V(f)hk+b(f))
Figure GDA0003496446680000036
Figure GDA0003496446680000037
Figure GDA0003496446680000038
ha=oae tanh(ca)
其中,hk是儿子节点wk节点的隐藏层输出向量;
xa是最近公共祖先节点wa的输入向量;
C(a)是最近公共祖先节点wa在最短路径树SP-tree中的儿子构成的集合;
fa,k是最近公共祖先节点wa的儿子节点wk对应的遗忘门向量;
ia是最近公共祖先节点wa输入门输出向量;
U(f)、V(f)、b(f)是遗忘门参数;
U(i)、V(i)、b(i)是输入门参数;
U(o)、V(o)、b(o)是输出门参数;
U(u)、V(u)、b(u)是生成细胞状态候选向量的参数;
oa是最近公共祖先节点wa节点的输出门输出向量;
ua是细胞状态的候选向量;
ca是新的细胞状态的向量;
ha是最近公共祖先节点wa节点的隐藏层输出向量;
自上向下运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有父亲节点,则另一部分为父亲节点的隐藏层输出向量;若该LSTM节点没有父亲节点,则另一部分为零向量。
进一步地,还包括:基于每一个句子的词wi和词ωj在目标端树的依存弧分值以及双树对齐数据库中的双树对齐数据作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
为达到上述发明目的,本发明基于树形循环神经网络的自动树库转化系统,包括:
双树对齐数据库、目标端树的依存弧分值预测单元,其中,
双树对齐数据库,存储采用两种标注规范进行标注的句子,每一个句子即为双树对齐数据;
目标端树的依存弧分值预测单元包括:
双向树形循环神经网络模块,运行双向树形循环神经网络TreeLSTM,计算得到词wi、词wj、词wa的隐藏层输出向量
Figure GDA0003496446680000051
在源端树dsrc中,词ωa为词ωi和词ωj的最近公共祖先节点;
隐藏层向量拼接模块,将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000052
Figure GDA0003496446680000053
循环神经网络BiSeqLSTM模块,以句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子中各个词分别对应的顶层输出向量,其中,所述拼接向量是一个词的嵌入向量和该词的词性的嵌入向量的拼接;
顶层输出向量和顶层向量拼接模块,将词wi和词wj各自对应的顶层输出向量
Figure GDA0003496446680000054
分别与词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000055
拼接起来,作为感知器MLP的输入;
感知器模块,萃取出句法相关信息:
Figure GDA0003496446680000056
Figure GDA0003496446680000057
双仿射运算模块,计算词wi和词ωj的目标端依存弧分值,预设词wi和词ωj在目标端树中分别为修饰词和核心词,计算公式为:
Figure GDA0003496446680000058
其中,Wb为双仿射运算参数。
进一步地,还包括有监督转换模型生成单元,基于每一个句子的词wi和词ωj在目标端树的依存弧分值以及双树对齐数据库中的句子作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
借由上述方案,本发明基于树形循环神经网络的自动树库转化方法及系统至少具有以下优点:
树形循环神经网络可以自然地表示树状信息,并且被成功应用于信息抽取、情感分类、机器翻译等任务,都取了了较好的效果。本发明基于TreeLSTM(TreeRNN的一种具体实现)的转化方法,通过双向TreeLSTM,对源端树中词wi和词ωj的最短路径树(shortest-pathtree,SP-tree)进行深层表示,因此这样,MLP输出的词表示向量也包含了源端树中的结构信息,进而利用双仿射计算获得词wi和词ωj的目标端依存弧分值也更优,进而能够建立更加精准的有监督转化模型,进而直接刻画不同规范之间的结构映射关系,最终完成高质量树库转化。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为一双树对齐数据的句法树示例,苏州大学的规范(上)与HIT-CDT规范(下);
图2为本发明基于树形循环神经网络的自动树库转化方法的转化模型中依存弧score(i←j)的分值计算过程图;
图3为本发明基于树形循环神经网络的自动树库转化方法的实施例1的3.0为句子的源端书,3.1至3.4为四个最短路径树。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明中,所述的双树对齐数据库为现有的,本技术领域人员已标注好的双树对齐数据。
参见表1,罗列了目前公开的较大规模的汉语句法树库。Sinica汉语树库1包含的文本为繁体(Chenetal.,2003);宾大树库CTB2最初由美国宾夕法尼亚大学发起,目前由布兰迪斯大学薛念文教授等维护和更新(Xueetal.,2005);北大汉语树库PCT3由北大中文系逐步建设(詹卫东,2012);清华汉语树库TCT4由清华大学周强教授等建设(周强,2004);哈工大汉语依存树库HIT-CDT5由哈工大社会计算与信息检索研究中心建设;北大汉语依存树库PKU-CDT6由北大计算语言学研究所构建(邱立坤等,2015)。
表1目前公开的较大规模的汉语句法树库
Figure GDA0003496446680000071
以下各实施例中,循环神经网络BiSeqLSTM的顶层输出向量的计算方法包括:将该句子各个词的嵌入向量和各个词的词性的嵌入向量分别各自进行拼接,得到各个词分别对应的拼接向量,该句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子中各个词分别对应的顶层输出向量。
实施例1
本实施例基于树形循环神经网络的自动树库转化方法,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
在源端树中提取词wi、词wj的最短路径树,基于双向树形循环神经网络TreeLSTM,得到该最短路径树中词wi、词wj、词wa各自对应的隐藏层输出向量
Figure GDA0003496446680000081
其中,在源端树dsrc中,词ωa为词ωi和词ωj的最近公共祖先节点;
将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000082
Figure GDA0003496446680000083
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量表示为
Figure GDA0003496446680000084
将词wi和词wj各自对应的顶层输出向量
Figure GDA0003496446680000085
分别与所述的表示向量
Figure GDA0003496446680000086
拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息,公式表示如下:
Figure GDA0003496446680000087
Figure GDA0003496446680000088
利用双仿射计算词wi和词ωj的目标端依存弧分值,计算公式为:
Figure GDA0003496446680000089
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量;
其中,双向树形循环神经网络TreeLSTM计算词wi、词wj、词wa各自对应的隐藏层输出向量的方法包括:对提取的最短路径树分别进行自下向上和自上向下的运算,其中
自下向上运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有儿子节点,则另一部分为所有儿子节点的隐藏层输出向量;若该LSTM节点没有儿子节点,则另一部分为零向量;自下向上运算过程中,词ωa的隐藏层输出向量ha的计算公式如下:
Figure GDA0003496446680000091
Figure GDA0003496446680000092
fa,k=σ(U(f)xa+V(f)hk+b(f))
Figure GDA0003496446680000093
Figure GDA0003496446680000094
Figure GDA0003496446680000095
ha=oae tanh(ca)
其中,hk是儿子节点wk节点的隐藏层输出向量;
xa是最近公共祖先节点wa的输入向量;
C(a)是最近公共祖先节点wa在最短路径树SP-tree中的儿子构成的集合;
fa,k是最近公共祖先节点wa的儿子节点wk对应的遗忘门向量;
ia是最近公共祖先节点wa输入门输出向量;
U(f)、V(f)、b(f)是遗忘门参数;
U(i)、V(i)、b(i)是输入门参数;
U(o)、V(o)、b(o)是输出门参数;
U(u)、V(u)、b(u)是生成细胞状态候选向量的参数;
oa是最近公共祖先节点wa节点的输出门输出向量;
ua是细胞状态的候选向量;
ca是新的细胞状态的向量;
ha是最近公共祖先节点wa节点的隐藏层输出向量;
自上向下运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有父亲节点,则另一部分为父亲节点的隐藏层输出向量;若该LSTM节点没有父亲节点,则另一部分为零向量。
本实施例,通过双向TreeLSTM,对源端树中wi和wj的最短路径树(shortest-pathtree,SP-tree)进行深层表示。为了利用源端树中的依存关系标签信息,将词wi、词wj、最近公共祖先节点wa的隐藏层输出向量拼接起来,作为词wi、词wj在源端树dsrc中的表示;将
Figure GDA0003496446680000101
和循环神经网络BiSeqLSTM的输出拼接起来,作为感知器MLP的输入,这样,MLP输出的词表示向量也包含了源端树中的结构信息。因此,经过双仿射运算后,得到的依存弧分值也更优。
对于以下各实施例中的词wa对应的输出向量也即为该词充当词ωi或词ωj时对应的输出向量,无需重新计算。例如参见图3中,图3.1所示的最短路径树中,词C该充当词ωa的角色,作为词A和词B的最近公共祖先节点。但是在图3.1所示的最短路径树中,词C充当词ωj的角色。
双向树形循环神经网络TreeLSTM的运算示例,一句话由A、B、C、D、E五个词组成,参见图3.0为该句话的源端树,基于该源端树提取了这五个词不同的两个词之间配对组成的几个最短路径树(当然不限于这几个最短路径树,在实际运算过程中是全部最短路径树),参见图3.1至3.4。
示例一:参见图3.1,词C、词A、词B的最短路径树,其中词A对应词wi,词B对应词wj,词C对应词wa
自下向上运算:
(1)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量;另一部分为零向量。
(2)计算词B的隐藏层输出向量:LSTM节点的输入信息一部分为:词B对应的顶层输出向量;另一部分为零向量。
(3)计算作为祖先节点的词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量;由于词C有两个儿子,则另一部分为子节点词A和词B的隐藏层输出向量。至此图3.1全部计算完毕。
自上向下运算:与图3.1的计算原理相同,
(1)计算词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量;另一部分为参照由下至上运算的原理,应该看看词C下面有没有树杈,也即有没有父节点,因此另一部分为零向量。
(2)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量;另一部分为参照由下至上运算的原理,应该看看词A下面有没有树杈,也即有没有父节点,显然词A是词C的儿子,因此另一部分为父亲节点词C的隐藏层向量。
(3)计算词B的隐藏层输出向量:与词A的原理相同,LSTM节点的输入信息一部分为:词B对应的顶层输出向量;另一部分为参照由下至上运算的原理,应该看看词B下面有没有树杈,也即有没有父节点,显然词B是词C的儿子,因此另一部分为父亲节点词C的隐藏层向量。
示例二:参见图3.2,词E、词C、词D的最短路径树,其中词D对应词wi,词C对应词wj,词E对应词wa。词E为词C和词D的最接近公共祖先节点,计算方法与示例一相同,在此不再赘述。
示例三:参见图3.3,词A、词C的最短路径树,其中词A对应词wi,词C对应词wj,同时词C对应词wa
自下向上运算:
(1)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量;另一部分为零向量(词A没有儿子节点)。
(2)计算词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量;另一部分词A的隐藏层输出向量(词A为词C的儿子节点),不同于示例一、二之处在于此时词A只有一个儿子节点。
自上向下运算:
(1)计算词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量;另一部分为零向量。应该看看词C下面有没有树杈,也即有没有父节点,因此另一部分为零向量。
(2)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量,显然词A是词C的儿子,词A下面有树杈,因此另一部分为父亲节点词C的隐藏层向量。
示例四:参见图3.4,词E、词A、词D的最短路径树,其中词D对应词wi,词A对应词wj,同时词E对应词wa。上述三个示例都是两个词之间直接相连,但是这个示例中词A和词E之间还有词C,词C为词A的父亲节点。
自下向上运算:
(1)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量;另一部分为零向量(词A没有儿子节点)。
(2)计算词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量;从图中可以看出,词C的儿子节点为词A,因此,另一部分为词A的隐藏层输出向量。
(3)计算词D的隐层输出向量:LSTM节点的输入信息一部分为:词D对应的顶层输出向量;从图中可以看出,词D没有儿子节点,因此,另一部分为零向量。
(4)计算词E的隐层输出向量:LSTM节点的输入信息一部分为:词E对应的顶层输出向量;从图中可以看出,词E的儿子节点为词C、词D,因此,另一部分为词C、词D的隐藏层。
自上向下运算:
(1)计算词E的隐藏层输出向量:LSTM节点的输入信息一部分为:词E对应的顶层输出向量;另一部分为零向量,下面有没有树杈,也即有没有父节点。
(2)计算词D的隐藏层输出向量:LSTM节点的输入信息一部分为:词D对应的顶层输出向量,显然词D是词E的儿子(词D下面有树杈),因此另一部分为父亲节点词E的隐藏层向量,也即父节点的隐藏层向量。
(3)计算词C的隐藏层输出向量:LSTM节点的输入信息一部分为:词C对应的顶层输出向量,显然词C是词E的儿子,因此另一部分为父亲节点词E的隐藏层向量,也即父节点的隐藏层向量。
(4)计算词A的隐藏层输出向量:LSTM节点的输入信息一部分为:词A对应的顶层输出向量,显然词A是词C的儿子节点,因此另一部分为词C的隐藏层向量,也即父节点的隐藏层向量。
实施例2
本实施例基于树形循环神经网络的自动树库转化方法,在实施例1的基础上,还包括:还包括:基于每一个句子的词wi和词ωj在目标端树的依存弧分值以及双树对齐数据库中的双树对齐数据作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
基于预测的每一个句子的词wi和词ωj在目标端树的依存弧分值,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数。
本实施例中,Biaffine Parser对每个词定义局部的softmax loss。考虑到本实施例标注的训练通常为局部标注数据,局部损失函数的缺点是没有标注词的词语完全无法参与训练。局部标注中,已有的依存弧会对其他依存弧的概率分布产生影响,形成一定的指导信息。因此,对Baiffine Parser进行扩展,使用全局的CRF loss,对每一个句子定义损失函数,从而更好的利用局部标注数据。
实施例3
本实施例基于树形循环神经网络的自动树库转化系统,为了运行上述实施例1方法,包括:
双树对齐数据库、目标端树的依存弧分值预测单元,其中,
双树对齐数据库,存储采用两种标注规范进行标注的句子,每一个句子即为双树对齐数据;
目标端树的依存弧分值预测单元包括:
双向树形循环神经网络模块,运行双向树形循环神经网络TreeLSTM,计算得到词wi、词wj、词wa的隐藏层输出向量
Figure GDA0003496446680000141
在源端树dsrc中,词ωa为词ωi和词ωj的最近公共祖先节点;
隐藏层向量拼接模块,将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000142
Figure GDA0003496446680000143
循环神经网络BiSeqLSTM模块,以句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子中各个词分别对应的顶层输出向量,其中,所述拼接向量是一个词的嵌入向量和该词的词性的嵌入向量的拼接;
顶层输出向量和顶层向量拼接模块,将词wi和词wj各自对应的顶层输出向量
Figure GDA0003496446680000144
分别与词wi和词wj在源端树中的表示向量
Figure GDA0003496446680000145
拼接起来,作为感知器MLP的输入;
感知器模块,萃取出句法相关信息:
Figure GDA0003496446680000146
Figure GDA0003496446680000147
双仿射运算模块,计算词wi和词ωj的目标端依存弧分值,预设词wi和词ωj在目标端树中分别为修饰词和核心词,计算公式为:
Figure GDA0003496446680000151
其中,Wb为双仿射运算参数。
实施例4
本实施例基于树形循环神经网络的自动树库转化系统,在实施例3的基础上,为了运行上述实施例2方法,还包括有监督转换模型生成单元,基于每一个句子的词wi和词ωj在目标端树的依存弧分值以及双树对齐数据库中的句子作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
基于预测的每一个句子的词wi和词ωj在目标端树的依存弧分值,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数。
实施例3、4中循环神经网络BiSeqLSTM模块,双向树形循环神经网络模块,的运行方法参见上述实施例1中所记载的内容,在此不再赘述。
如图1所示,本发明,树库转化模型的输入为句子x和源端规范句法树dsrc(HIT-CDT规范,)输出是符合目标规范的句法树dtgt。因此,和标准句法分析任务相比,树库转化任务的重要挑战在于如何充分利用源端句法树dsrc,刻画两种规范的对应规律,从而更好地构建目标端句法树。
特别说明:本发明中,MLPD、MLPH中的D和H没有特殊含义,仅仅用于区分两个公式。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (4)

1.一种基于树形循环神经网络的自动树库转化方法,其特征在于,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
在源端树中提取词wi、词wj的最短路径树,基于双向树形循环神经网络TreeLSTM,得到该最短路径树中词wi、词wj、词wa各自对应的隐藏层输出向量
Figure FDA0003351649300000011
其中,在源端树dsrc中,词wa为词wi和词wj的最近公共祖先节点;
将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure FDA0003351649300000012
Figure FDA0003351649300000013
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量表示为
Figure FDA0003351649300000014
将词wi和词wj各自对应的顶层输出向量
Figure FDA0003351649300000015
分别与所述的表示向量
Figure FDA0003351649300000016
拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息,公式表示如下:
Figure FDA0003351649300000017
Figure FDA0003351649300000018
利用双仿射计算词wi和词wj的目标端依存弧分值,计算公式为:
Figure FDA0003351649300000021
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量;
其中,双向树形循环神经网络TreeLSTM计算词wi、词wj、词wa各自对应的隐藏层输出向量的方法包括:对提取的最短路径树分别进行自下向上和自上向下的运算,其中
自下向上运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有儿子节点,则另一部分为所有儿子节点的隐藏层输出向量;若该LSTM节点没有儿子节点,则另一部分为零向量;自下向上运算过程中,词wa的隐藏层输出向量ha的计算公式如下:
Figure FDA0003351649300000022
Figure FDA0003351649300000023
fa,k=σ(U(f)xa+V(f)hk+b(f))
Figure FDA0003351649300000024
Figure FDA0003351649300000025
Figure FDA0003351649300000026
ha=Oa⊙tanh(ca)
其中,hk是儿子节点wk节点的隐藏层输出向量;
xa是最近公共祖先节点wa的输入向量;
C(a)是最近公共祖先节点wa在最短路径树SP-tree中的儿子构成的集合;
fa,k是最近公共祖先节点wa的儿子节点wk对应的遗忘门向量;
ia是最近公共祖先节点wa输入门输出向量;
U(f)、V(f)、b(f)是遗忘门参数;
U(i)、V(i)、b(i)是输入门参数;
U(o)、V(o)、b(o)是输出门参数;
U(u)、V(u)、b(u)是生成细胞状态候选向量的参数;
Oa是最近公共祖先节点wa节点的输出门输出向量;
ua是细胞状态的候选向量;
ca是新的细胞状态的向量;
ha是最近公共祖先节点wa节点的隐藏层输出向量;
自上向下运算,LSTM节点的输入信息包括两部分,一部分为:该LSTM节点对应的顶层输出向量;若该LSTM节点有父亲节点,则另一部分为父亲节点的隐藏层输出向量;若该LSTM节点没有父亲节点,则另一部分为零向量。
2.根据权利要求1所述基于树形循环神经网络的自动树库转化方法,其特征在于,还包括:基于每一个句子的词wi和词wj在目标端树的依存弧分值以及双树对齐数据库中的双树对齐数据作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
3.一种基于树形循环神经网络的自动树库转化系统,其特征在于,包括:双树对齐数据库、目标端树的依存弧分值预测单元,其中,
双树对齐数据库,存储采用两种标注规范进行标注的句子,每一个句子即为双树对齐数据;
目标端树的依存弧分值预测单元包括:
双向树形循环神经网络模块,运行双向树形循环神经网络TreeLSTM,计算得到词wi、词wj、词wa的隐藏层输出向量
Figure FDA0003351649300000041
在源端树dsrc中,词wa为词wi和词wj的最近公共祖先节点;
隐藏层向量拼接模块,将词wi、词wj、词wa的隐藏层输出向量拼接起来,作为词wi和词wj在源端树中的表示向量
Figure FDA0003351649300000042
Figure FDA0003351649300000043
循环神经网络BiSeqLSTM模块,以句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子中各个词分别对应的顶层输出向量,其中,所述拼接向量是一个词的嵌入向量和该词的词性的嵌入向量的拼接;
顶层输出向量和顶层向量拼接模块,将词wi和词wj各自对应的顶层输出向量
Figure FDA0003351649300000044
分别与词wi和词wj在源端树中的表示向量
Figure FDA0003351649300000045
拼接起来,作为感知器MLP的输入;
感知器模块,萃取出句法相关信息:
Figure FDA0003351649300000046
Figure FDA0003351649300000047
双仿射运算模块,计算词wi和词wj的目标端依存弧分值,预设词wi和词wj在目标端树中分别为修饰词和核心词,计算公式为:
Figure FDA0003351649300000051
其中,Wb为双仿射运算参数。
4.根据权利要求3所述基于树形循环神经网络的自动树库转化系统,其特征在于,还包括有监督转换模型生成单元,基于每一个句子的词wi和词wj在目标端树的依存弧分值以及双树对齐数据库中的句子作为训练数据,基于全局的CRF loss对每一个句子定义损失函数,机器学习得到有监督转换模型。
CN201810366795.6A 2018-04-23 2018-04-23 基于树形循环神经网络的自动树库转化方法及系统 Active CN108628829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810366795.6A CN108628829B (zh) 2018-04-23 2018-04-23 基于树形循环神经网络的自动树库转化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810366795.6A CN108628829B (zh) 2018-04-23 2018-04-23 基于树形循环神经网络的自动树库转化方法及系统

Publications (2)

Publication Number Publication Date
CN108628829A CN108628829A (zh) 2018-10-09
CN108628829B true CN108628829B (zh) 2022-03-15

Family

ID=63694326

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810366795.6A Active CN108628829B (zh) 2018-04-23 2018-04-23 基于树形循环神经网络的自动树库转化方法及系统

Country Status (1)

Country Link
CN (1) CN108628829B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553855A (zh) * 2020-04-26 2021-10-26 阿里巴巴集团控股有限公司 观点角色标注方法、装置、计算机设备和介质
CN112232090A (zh) * 2020-09-17 2021-01-15 昆明理工大学 融合句法结构及Tree-LSTM的汉越平行句对抽取方法
CN112131888B (zh) * 2020-09-23 2023-11-14 平安科技(深圳)有限公司 分析语义情感的方法、装置、设备及存储介质
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268671B2 (en) * 2015-12-31 2019-04-23 Google Llc Generating parse trees of text segments using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101201819A (zh) * 2007-11-28 2008-06-18 北京金山软件有限公司 一种树库转化方法及树库转化系统
CN106598951A (zh) * 2016-12-23 2017-04-26 北京金山办公软件股份有限公司 一种依存结构树库获取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Fine-tuning Tree-LSTM for phrase-level sentiment classification on a Polish dependency treebank;Tomasz Korbak;《Computation and Language》;20171103;第1-5页 *
短语结构树库向依存结构树库结构转化研究;李正华;《中文信息学报》;20081130;第22卷(第6期);第14-19页 *

Also Published As

Publication number Publication date
CN108628829A (zh) 2018-10-09

Similar Documents

Publication Publication Date Title
Li et al. Seq2seq dependency parsing
CN108628829B (zh) 基于树形循环神经网络的自动树库转化方法及系统
CN107797991B (zh) 一种基于依存句法树的知识图谱扩充方法及系统
JP4961755B2 (ja) 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
CN109543181B (zh) 一种基于主动学习和深度学习相结合的命名实体模型和系统
CN103823857B (zh) 基于自然语言处理的空间信息检索方法
CN104679850A (zh) 地址结构化方法及装置
CN109614620B (zh) 一种基于HowNet的图模型词义消歧方法和系统
Zhang et al. A multi-feature fusion model for Chinese relation extraction with entity sense
CN112765956A (zh) 基于多任务学习的依存句法分析方法及应用
Ren et al. Detecting the scope of negation and speculation in biomedical texts by using recursive neural network
Soumik et al. Employing machine learning techniques on sentiment analysis of google play store bangla reviews
CN113312922A (zh) 一种改进的篇章级三元组信息抽取方法
Dethlefs Domain transfer for deep natural language generation from abstract meaning representations
CN108647254B (zh) 基于模式嵌入的自动树库转化方法及系统
CN114330338A (zh) 融合关联信息的程式语识别系统及方法
CN114298010A (zh) 一种融合双语言模型和句子检测的文本生成方法
CN116522945A (zh) 一种食品安全领域中命名实体的识别模型和方法
Pradhan et al. Knowledge graph generation with deep active learning
Patil et al. Real time machine translation system between indian languages
Ovi et al. BaNeP: An End-to-End Neural Network Based Model for Bangla Parts-of-Speech Tagging
Han et al. Lexicalized neural unsupervised dependency parsing
CN112926318A (zh) 一种基于句法分析的网购评论新情感词提取方法
Ali et al. A subword guided neural word segmentation model for sindhi
Shelke et al. A survey on various methods used in named entity recognition for hindi language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant