CN108647254A - 基于模式嵌入的自动树库转化方法及系统 - Google Patents

基于模式嵌入的自动树库转化方法及系统 Download PDF

Info

Publication number
CN108647254A
CN108647254A CN201810366793.7A CN201810366793A CN108647254A CN 108647254 A CN108647254 A CN 108647254A CN 201810366793 A CN201810366793 A CN 201810366793A CN 108647254 A CN108647254 A CN 108647254A
Authority
CN
China
Prior art keywords
word
vector
tree
sentence
pattern
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810366793.7A
Other languages
English (en)
Other versions
CN108647254B (zh
Inventor
李正华
章波
江心舟
张民
陈文亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201810366793.7A priority Critical patent/CN108647254B/zh
Publication of CN108647254A publication Critical patent/CN108647254A/zh
Application granted granted Critical
Publication of CN108647254B publication Critical patent/CN108647254B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于模式嵌入的自动树库转化方法及系统,为了获得精准的有监督转化模型而设计。本发明基于模式嵌入的自动树库转化方法,确定词wi和词wj的模式;将词wi和词wj的模式变换为对应的模式嵌入向量;将源端树中词wi、词wj、最小公共祖先节点wa三者分别对应的依存关系标签分别变换为依存关系嵌入向量;将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树中词wi和词wj的结构信息的表示向量,循环神经网络的顶层输出分别与表示向量拼接起来,作为感知器MLP的输入;利用双仿射计算获得词wi和词wj的目标端依存弧分值;本发明充分利用源端句法树,刻画两种标注规范的对应规律,最终完成高质量树库转化。

Description

基于模式嵌入的自动树库转化方法及系统
技术领域
本发明属于自然语言处理技术领域,具体涉及一种基于模式嵌入的自动树库转化方法及系统。
背景技术
目前研究人员在树库研究方面开展了大量的研究和开发工作,也取得了可观的成果。这些树库采用的标注体系差别巨大,按照描述方法大体分为两种,一种是短语结构树,一种是依存树。
对于依存树而言,两个树库的依存标注是遵循不同的标注规范的,称这两个树库是异构的。很多世界主流语言都拥有多个大规模异构树库,由于树库的构建需要非常高昂的人工代价,因此如何利用不同的异构树库推进句法分析的性能是一个非常重要的研究方向。
树库转化工作的主要动机是通过标注小规模的双树对齐数据,有效的刻画不同标注规范之间的对应规律,构建有监督转化模型(树库转化模型),最终目的是将大规模源端规范树库转化为符合目标规范的树库,迅速扩大符合目标规范的训练数据规模。如图1所示,图的上半部分是按照苏州大学的规范所标注的结果,下半部分是按照哈工大汉语依存树库HIT-CDT规范所标注的结果。这样一个句子有两种标注规范的数据,称之为双树对齐数据。
为了提高句法分析的性能,本领域研究人员提出了多个经典的方法,例如:基于指导特征的间接方法、基于多任务学习的间接方法、基于转化的直接方法。间接方法的主要问题是对源端树库的利用不充分,无法有效刻画规范之间对应规律;而基于转化的直接方法,受限于双树对齐数据的缺失,也无法有效学习规范之间的对应规律,因此转化效果一般。
发明内容
为解决上述技术问题,本发明的目的是提供一种充分利用源端树库的结构信息,进而得到更优目标端依存弧得分值的基于模式嵌入的自动树库转化方法及系统。
为达到上述发明目的,本发明基于模式嵌入的自动树库转化方法,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
基于模式与嵌入向量对应表,将词wi和词wj的模式变换为对应的模式嵌入向量
将源端树中词wi对应的依存关系标签、词wj的依存关系标签、词wi和词 wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量
将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树 dsrc中词wi和词wj的结构信息的表示向量
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量
将词wi和词wj各自对应的顶层输出向量分别与所述的表示向量拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息:
利用双仿射计算词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
进一步地,还包括:基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的 CRFloss,对每一个句子定义损失函数。
特别地,源端树的词和词之间定义了9种模式,其中,其他情况根据词和词的路径距离细分为4类,词wk为所述句子中词wi、词wj以外的任一词,表格表示如下:
为达到上述发明目的,本发明基于模式嵌入的自动树库转化系统,包括:双树对齐数据库、目标端树的依存弧分值预测单元,其中,
双树对齐数据库,存储采用两种标注规范进行标注的句子;
目标端树的依存弧分值预测单元包括:
模式判定模块,预定义在目标端树中,词wi为修饰词、词wj为核心词,根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
模式嵌入向量生成模块,基于模式与嵌入向量对应表,将词wj和词wj的模式变换为对应的模式嵌入向量,记为
依存关系嵌入向量生成模块,将源端树中词wi对应的依存关系标签、词 wj的依存关系标签、词wi和词wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量,分别记为
结构信息的表示向量生成模块,将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树dsrc中词wi和词wj的结构信息的表示向量,记为
循环神经网络BiSeqLSTM模块,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
感知器MLP模块,词wi对应的循环神经网络BiSeqLSTM的顶层输出、词 wj对应的循环神经网络BiSeqLSTM的顶层输出分别与结构信息的表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息:
依存弧分值输出模块,利用双仿射计算获得词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数。
进一步地,还包括有监督转换模型生成单元,基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数,其中使用全局的 CRFloss,对每一个句子定义损失函数。
借由上述方案,本发明基于模式嵌入的自动树库转化方法及系统至少具有以下优点:
本发明通过人工标注获取一部分双数对齐数据,将词wi和词wj的模式变换为对应的模式嵌入向量、将源端树中词wi对应的依存关系标签、词wj的依存关系标签、词wi和词wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量,也即得到三个依存关系嵌入向量。将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树dsrc中词wi和词wj的结构信息的表示向量。循环神经网络BiSeqLSTM的输出的词wi和词wj的分别对应的顶输出向量分别与结构信息的表示向量拼接起来,作为感知器MLP的输入。因此这样,MLP输出的词表示向量也包含了源端树中的结构信息,进而利用双仿射计算获得词wi和词wj的目标端依存弧分值也更优,进而能够建立更加精准的有监督转化模型,进而直接刻画不同规范之间的结构映射关系,最终完成高质量树库转化。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。
附图说明
图1为一双树对齐数据的句法树示例,苏州大学的规范(上)与HIT-CDT规范(下);
图2为本发明基于模式嵌入的自动树库转化方法的转化模型中依存弧 score(i←j)的分值计算过程图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
本发明中,所述的双树对齐数据库为现有的,本技术领域人员已标注好的双树对齐数据。
参见表1,罗列了目前公开的较大规模的汉语句法树库。Sinica汉语树库1 由中国台湾中央研究院开发并标注,包含的文本为繁体(Chenetal.,2003);宾大树库CTB最初由美国宾夕法尼亚大学发起,目前由布兰迪斯大学薛念文教授等维护和更新(Xueetal.,2005);北大汉语树库PCT由北大中文系逐步建设(詹卫东,2012);清华汉语树库TCT由清华大学周强教授等建设(周强,2004);哈工大汉语依存树库HIT-CDT由哈工大社会计算与信息检索研究中心建设;北大汉语依存树库PKU-CDT由北大计算语言学研究所构建(邱立坤等,2015)。
表1目前公开的较大规模的汉语句法树库
实施例1
本实施例基于模式嵌入的自动树库转化方法,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
基于模式与嵌入向量对应表,将词wi和词wj的模式变换为对应的模式嵌入向量
将源端树中词wi对应的依存关系标签、词wj的依存关系标签、词wi和词 wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量
将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树 dsrc中词wi和词wj的结构信息的表示向量
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量
将词wi和词wj各自对应的顶层输出向量分别与所述的表示向量拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息:
利用双仿射计算词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
本实施例中,源端树的词和词之间定义了9种模式,例如wi和wj在源端树dsrc中修饰同一个词wk,即为兄弟节点,则pi←j=“sibling”。表2给出了所有9种模式。其中,“else”表示其他情况,根据词wi和词wj的路径距离(词wi和词wj之间隔着几个词)细分为4类。表2如下:
本实施例,为了利用源端树中的依存关系标签信息,将源端树中wi、 wj和最小公共祖先节点(lowest common ancestor,LCA)wa对应的依存关系标签,分别变换为嵌入向量。将四个嵌入向量拼接起来,作为dsrc中wi和 wj的结构信息的表示向量。最终,表示向量和顶层BiSeqLSTM的输出拼接起来,作为MLP层的输入。这样,MLP输出的词表示向量ri,i←j和rj,i←j也包含了源端树中的结构信息。因此,经过双仿射运算后,得到的依存弧分值也更优。
实施例2
本实施例基于模式嵌入的自动树库转化方法,在实施例1的基础上,还包括:基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数,其中使用全局的CRFloss,对每一个句子定义损失函数。
Biaffine Parser对每个词定义局部的softmax loss。考虑到本实施例标注的训练通常为局部标注数据,局部损失函数的缺点是没有标注词的词语完全无法参与训练。局部标注中,已有的依存弧会对其他依存弧的概率分布产生影响,形成一定的指导信息。因此,对Baiffine Parser进行扩展,使用全局的CRF loss,对每一个句子定义损失函数,从而更好的利用局部标注数据。
实施例3
本实施例基于模式嵌入的自动树库转化系统,为了运行上述实施例1所述的方法,包括:双树对齐数据库,存储采用两种标注规范进行标注的句子;
目标端树的依存弧分值预测单元包括:
双树对齐数据库,存储采用两种标注规范进行标注的句子;
目标端树的依存弧分值预测单元包括:
模式判定模块,预定义在目标端树中,词wi为修饰词、词wj为核心词,根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
模式嵌入向量生成模块,基于模式与嵌入向量对应表,将词wi和词wj的模式变换为对应的模式嵌入向量,记为
依存关系嵌入向量生成模块,将源端树中词wi对应的依存关系标签、词 wj的依存关系标签、词wi和词wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量,分别记为
结构信息的表示向量生成模块,将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树dsrc中词wi和词wj的结构信息的表示向量,记为
循环神经网络BiSeqLSTM模块,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
感知器MLP模块,词wi对应的循环神经网络BiSeqLSTM的顶层输出、词 wj对应的循环神经网络BiSeqLSTM的顶层输出分别与结构信息的表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息:
依存弧分值输出模块,利用双仿射计算获得词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数。
实施例4
本实施例基于模式嵌入的自动树库转化系统,在实施例3的基础上,为了运行上述实施例2所述的方法,还包括有监督转换模型生成单元,基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数,其中使用全局的CRFloss,对每一个句子定义损失函数。
如图1所示,本发明,树库转化模型的输入为句子x和源端规范句法树dsrc (HIT-CDT规范),输出是符合目标规范的句法树dtgt。因此,和标准句法分析任务相比,树库转化任务的重要挑战在于如何充分利用源端句法树dsrc,刻画两种规范的对应规律,从而更好地构建目标端句法树。
特别说明:本发明中,MLPD、MLPH中的D和H没有特殊含义,仅仅用于区分两个公式。
以上所述仅是本发明的优选实施方式,并不用于限制本发明,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

Claims (5)

1.一种基于模式嵌入的自动树库转化方法,其特征在于,包括:
获取双树对齐数据库,所述双树对齐数据库内存储有采用两种标注规范进行标注的句子;
分别计算各所述句子中每两个词在目标端树中的依存弧分值,其中,所述的两个词分别以词wi和词wj表示,预设词wi和词wj在目标端树中分别为修饰词和核心词,词wi和词wj在目标端树中的依存弧分值计算过程包括:
根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
基于模式与嵌入向量对应表,将词wi和词wj的模式变换为对应的模式嵌入向量
将源端树中词wi对应的依存关系标签、词wj的依存关系标签、词wi和词wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量
将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树dsrc中词wi和词wj的结构信息的表示向量
基于循环神经网络BiSeqLSTM,得到所述句子中各个词各自对应的顶层输出向量,词wi和词wj各自对应的顶层输出向量
将词wi和词wj各自对应的顶层输出向量分别与所述的表示向量拼接起来,作为感知器MLP的输入;
感知器萃取出句法相关信息:
利用双仿射计算词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数;
其中,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM,运算处理后,循环神经网络BiSeqLSTM的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
2.根据权利要求1所述的基于模式嵌入的自动树库转化方法,其特征在于,还包括:基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数。
3.根据权利要求1所述的基于模式嵌入的自动树库转化方法,其特征在于,源端树的词和词之间定义了9种模式,其中,其他情况根据词和词的路径距离细分为4类,词wk为所述句子中词wi、词wj以外的任一词,表格表示如下:
4.一种基于模式嵌入的自动树库转化系统,其特征在于,包括:双树对齐数据库、目标端树的依存弧分值预测单元,其中,
双树对齐数据库,存储采用两种标注规范进行标注的句子;
目标端树的依存弧分值预测单元包括:
模式判定模块,预定义在目标端树中,词wi为修饰词、词wj为核心词,根据词wi和词wj在源端树dsrc中的句法关系,确定词wi和词wj的模式;
模式嵌入向量生成模块,基于模式与嵌入向量对应表,将词wj和词wj的模式变换为对应的模式嵌入向量,记为
依存关系嵌入向量生成模块,将源端树中词wi对应的依存关系标签、词wj的依存关系标签、词wi和词wj的最小公共祖先节点wa的依存关系标签分别变换为依存关系嵌入向量,分别记为
结构信息的表示向量生成模块,将模式嵌入向量和三个依存关系嵌入向量拼接起来,作为源端树dsrc中词wi和词wj的结构信息的表示向量,记为
循环神经网络BiSeqLSTM模块,将所述句子中各个词的嵌入向量和该词的词性的嵌入向量进行拼接,得到该词对应的拼接向量,以所述句子对应的全部拼接向量作为一个序列输入至循环神经网络BiSeqLSTM模块,运算处理后,循环神经网络BiSeqLSTM模块的顶层输出该句子的各个词各自对应的顶层输出向量,其中,词wi和词wj各自对应的顶层输出向量表示为
感知器MLP模块,词wi对应的循环神经网络BiSeqLSTM的顶层输出、词wj对应的循环神经网络BiSeqLSTM的顶层输出分别与结构信息的表示向量拼接起来,作为感知器MLP的输入,感知器萃取出句法相关信息:
依存弧分值输出模块,利用双仿射计算获得词wi和词wj的目标端依存弧分值,具体计算公式为:
其中,Wb为双仿射运算参数。
5.根据权利要求4所述的基于模式嵌入的自动树库转化系统,其特征在于,还包括有监督转换模型生成单元,基于双树对齐数据库中各句子的词wi和词wj在目标端树的依存弧分值,进行数据训练,得到有监督转换模型,其中使用全局的CRFloss,对每一个句子定义损失函数,其中使用全局的CRFloss,对每一个句子定义损失函数。
CN201810366793.7A 2018-04-23 2018-04-23 基于模式嵌入的自动树库转化方法及系统 Active CN108647254B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810366793.7A CN108647254B (zh) 2018-04-23 2018-04-23 基于模式嵌入的自动树库转化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810366793.7A CN108647254B (zh) 2018-04-23 2018-04-23 基于模式嵌入的自动树库转化方法及系统

Publications (2)

Publication Number Publication Date
CN108647254A true CN108647254A (zh) 2018-10-12
CN108647254B CN108647254B (zh) 2021-06-22

Family

ID=63747266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810366793.7A Active CN108647254B (zh) 2018-04-23 2018-04-23 基于模式嵌入的自动树库转化方法及系统

Country Status (1)

Country Link
CN (1) CN108647254B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置
CN115391608A (zh) * 2022-08-23 2022-11-25 哈尔滨工业大学 一种图到图结构的自动标注转换方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446942A (zh) * 2008-12-10 2009-06-03 苏州大学 一种自然语言句子的语义角色标注方法
CN105335348A (zh) * 2014-08-07 2016-02-17 阿里巴巴集团控股有限公司 基于目标语句的依存句法分析方法、装置及服务器
CN106257455A (zh) * 2016-07-08 2016-12-28 闽江学院 一种基于依存关系模板抽取观点评价对象的Bootstrapping算法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
李正华: "汉语依存句法分析关键技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
李正华等: "数据驱动的依存句法分析方法研究", 《智能计算机与应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377903A (zh) * 2019-06-24 2019-10-25 浙江大学 一种句子级实体和关系联合抽取方法
CN110377903B (zh) * 2019-06-24 2020-08-14 浙江大学 一种句子级实体和关系联合抽取方法
CN112232024A (zh) * 2020-10-13 2021-01-15 苏州大学 一种基于多标注数据的依存句法分析模型训练方法及装置
CN115391608A (zh) * 2022-08-23 2022-11-25 哈尔滨工业大学 一种图到图结构的自动标注转换方法

Also Published As

Publication number Publication date
CN108647254B (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
CN110032648B (zh) 一种基于医学领域实体的病历结构化解析方法
Lun et al. Multiple data augmentation strategies for improving performance on automatic short answer scoring
CN108009285B (zh) 基于自然语言处理的林业生态环境人机交互方法
CN112860908A (zh) 基于多源异构电力设备数据的知识图谱自动化构建方法
Khan et al. Extracting Spatial Information From Place Descriptions
CN112613314A (zh) 基于bert模型的电力通信网络知识图谱构建方法
CN108647254A (zh) 基于模式嵌入的自动树库转化方法及系统
CN108628829A (zh) 基于树形循环神经网络的自动树库转化方法及系统
CN111143574A (zh) 一种基于少数民族文化知识图谱的查询及可视化系统构建方法
CN104391969B (zh) 确定用户查询语句句法结构的方法及装置
CN111950297A (zh) 一种面向异常事件的关系抽取方法
CN114925176A (zh) 一种智能体多模态认知图谱的构建方法、系统和介质
Zhang Application of intelligent grammar error correction system following deep learning algorithm in English teaching
CN111967265A (zh) 一种数据集自动生成的中文分词与实体识别联合学习方法
Gupta et al. A TENGRAM method based part-of-speech tagging of multi-category words in Hindi language
Kate et al. Semantic parsing. The task, the state of the art and the future
CN114880347A (zh) 一种基于深度学习的自然语言转化为sql语句的方法
Baranwal et al. Extracting primary objects and spatial relations from sentences
CN113590745A (zh) 一种可解释的文本推断方法
CN113887249A (zh) 一种基于依存句法信息和Transformer模型的蒙汉神经机器翻译方法
CN110955768A (zh) 一种基于句法分析的问答系统答案生成方法
CN112463988A (zh) 一种中国古典园林信息抽取方法
Yang et al. Analysis of AI MT based on fuzzy algorithm
Pan English Machine Translation Model Based on an Improved Self‐Attention Technology
Liao Research on Knowledge Graph Oriented Algorithm for Extracting Relationship of Tourism English Text Information

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant