CN105955956B - 一种汉语隐式篇章关系识别方法 - Google Patents

一种汉语隐式篇章关系识别方法 Download PDF

Info

Publication number
CN105955956B
CN105955956B CN201610294189.9A CN201610294189A CN105955956B CN 105955956 B CN105955956 B CN 105955956B CN 201610294189 A CN201610294189 A CN 201610294189A CN 105955956 B CN105955956 B CN 105955956B
Authority
CN
China
Prior art keywords
argument
chapter
chinese
implicit
relationship
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610294189.9A
Other languages
English (en)
Other versions
CN105955956A (zh
Inventor
张家俊
李浩然
宗成庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201610294189.9A priority Critical patent/CN105955956B/zh
Publication of CN105955956A publication Critical patent/CN105955956A/zh
Application granted granted Critical
Publication of CN105955956B publication Critical patent/CN105955956B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种汉语隐式篇章关系识别方法,所述方法包括以下步骤:步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;步骤2,在得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达;步骤3,基于得到的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;步骤4,利用得到的神经网络模型对汉语隐式篇章关系进行识别。本发明能够对汉语中的隐式篇章关系进行较准确地识别。经过在汉语篇章树库上的实验验证,相对于已有的英语隐式篇章关系识别方法,本发明方法在汉语隐式篇章关系识别上得到准确率更高的识别结果。

Description

一种汉语隐式篇章关系识别方法
技术领域
本发明涉及自然语言处理技术领域,尤其是一种汉语隐式篇章关系识别方法。
背景技术
随着字、词、短语、句子级别研究的逐渐深入和成熟,越来越多的研究者把研究重点转向篇章层级。篇章有时也称语篇或话语,通常指由一系列连续的子句、句子或句群构成的,有意义、传达一个完整信息、前后衔接、语义连贯的语言整体单位。篇章之所以受到关注的原因主要在于以下几点:(1)与句法分析以词为最基本的分析单位不同,篇章分析中以基本篇章单元为基本单元,基本篇章单元切分块通常与人类的语言理解一致;(2)基本篇章单元之间的关系包含了相应的基本篇章单元在整个篇章中的语义功能信息;(3)篇章的结构也表示了整个段落或者句子的组织方式,在一个篇章中,各子句之间并不是杂乱无章的堆放在一起,而是具有一定的层次结构和语义关系,只有分析出其中的层次结构及语义关系,才能对篇章进行深入的分析和理解。篇章分析是自然语言处理的一个核心问题,也是近几年的一个研究热点和难点。篇章分析在自动文摘、问答系统、指代消解和篇章连贯性评价等方面都有所应用,而篇章关系识别又是篇章分析的重要环节。
篇章关系是指同一篇章内部,相邻片段或跨度在一定范围内的两个片段之间的语义连接关系,如条件关系、转折关系、因果关系等。根据篇章片段内部是否有连接词(例如“如果”、“虽然”和“但是”),篇章关系可分为显式篇章关系和隐式篇章关系这两种类型。由于显式篇章关系的两个篇章片段间存在连接词,所以绝大多数情况下我们仅根据连接词本身就可以比较准确地识别出其篇章关系。但是在隐式篇章关系的篇章片段内部,由于没有连接词,所以没有明显的词汇信息帮助我们识别其篇章关系。因而,隐式篇章关系识别是自然语言处理中最具挑战性的任务之一。事实上,由于汉语自身的特点,隐式篇章关系所占比例远大于显式篇章关系。根据在中文篇章树库语料(Chinese Discourse TreeBank,CDTB)中的统计,超过70%的篇章关系被标记为隐式篇章关系。所以,准确的识别汉语隐式篇章关系对汉语篇章分析至关重要。
随着对语义级别信息的需求日益增大,一些研究者们在篇章研究中取得了一系列的成果,提出了若干著名的篇章理论,其中包括修辞结构理论(rhetorical structuretheory,RST)。修辞结构理论是由文献(Mann W C,Thompson S A.Rhetorical structuretheory:Description and construction of text structures[M].SpringerNetherlands,1987.)等提出的有关篇章分析和生成的理论,主要针对的是篇章连贯性问题。Marcu在RST理论的基础上,对篇章修饰关系的分析问题进行了比较系统的研究,提出了宾州篇章树库(Penn Discourse TreeBank,PDTB)理论。PDTB体系中的篇章单元(论元)可以小到子句,大到篇章,不再考虑短语级别的论元,大幅度提高了实用性。Xue等人受PDTB理论的启发,参考PDTB的标注风格,构建了CDTB语料库,为汉语的篇章分析提供了宝贵的资源和平台。本发明是在CDTB标注风格框架下进行的。
CDTB定义了8种篇章关系,包括:因果、条件、连接、对比、扩展、目的、时序、发展。下面是CDTB标注的这8种隐式篇章关系的例子(斜体和粗体分别表示两个论元):
因果关系:
条件关系:
连接关系:
对比关系:
扩展关系:
目的关系:
时序关系:
发展关系:
事实上,相对于英语隐式篇章关系研究的快速发展,汉语隐式篇章关系的研究还很少。由于英语和汉语之间的差异性,适用于英语隐式篇章关系识别的方法并不一定适用于汉语。针对汉语的特点设计一种隐式篇章关系识别的方法是非常有必要的。
发明内容
本发明的目的是提出一种汉语隐式篇章关系识别方法,使得在已有论元切分的基础上,隐式篇章关系识别更加准确,从而提高篇章分析任务以及其他应用了篇章关系知识的任务的性能。
为了实现所述目的,本发明提供一种汉语隐式篇章关系识别方法。所述方法包括以下步骤:
步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;
步骤2,在所述步骤1得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达;
步骤3,基于所述步骤2得到的汉语隐式篇章关系论元的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;
步骤4,利用所述步骤3得到的基于最大间隔的神经网络模型对于汉语隐式篇章关系进行识别。
可选地,所述步骤2中学习汉语隐式篇章关系论元的特征表达的步骤包括学习基于词汇的分布式特征的步骤、提取基于句法的离散式特征的步骤以及提取基于标点的离散式特征的步骤。
可选地,学习基于词汇的分布式特征时,利用句向量模型学习多层次的论元向量表达,作为基于词汇的分布式特征。
可选地,所述多层次的论元向量表达包括词层次、论元层次和论元对层次的论元向量表达。
可选地,在词层次上,将每个论元的前三个词和最后一个词的词向量相加作为词层次的特征;在论元层次上,将每个论元的句向量作为论元层次的特征;在论元对层次上,将两个论元组成的整个片段的句向量作为论元对层次的特征。
可选地,学习基于句法的分布式特征时,首先通过斯坦福句法分析器对论元进行句法分析,在得到的短语结构树上抽取所有的产生式,每一个产生式由短语结构树的一个父节点及依存于该父节点的子节点集合组成,遍历这些子节点集合的每一个节点,将这些子节点和父节点一起组成的二元组作为基于句法的分布式特征。
可选地,学习基于标点的分布式特征时,将两个论元之间的标点作为基于标点的分布式特征。
可选地,所述步骤3进一步包括以下步骤:
步骤31,对于词汇特征,从两个论元的特征表达之间的相互作用和向量空间转移属性两方面利用基于最大间隔的神经网络模型对隐式篇章关系进行建模;
步骤32,对于句法与标点特征,在利用前向神经网络对隐式篇章关系建模过程中,利用线性变换生成前向神经网络的隐层;
步骤33,将步骤31和32得到的两个模型融合为一个整体,从词汇、句法和标点三个方面对隐式篇章关系进行建模,通过三层神经网络模型对一个论元对的篇章关系置信度进行打分;
步骤34,利用最大间隔分类原理对该篇章关系进行分类。
可选地,所述步骤34中,将篇章关系正项得分与负项得分之差作为优化目标,使正项得分尽可能的高于负项得分,所述正项得分指的是利用论元间篇章关系所对应的打分函数得出的置信度分数,负项得分指的是利用非论元间篇章关系所对应的打分函数得出的置信度分数。
可选地,所述步骤4中,对于一个待识别篇章关系的论元对,遍历所有篇章关系对应的打分函数对论元篇章关系置信度打分,其中得分最高的打分函数对应的篇章关系即被认为是该论元对之间的篇章关系。
本发明的积极效果:
由于隐式篇章关系无法在词汇层面找到明显的线索,所以利用神经网络模型挖掘深层次语义、句法信息能帮助我们识别隐式篇章关系。本发明能够利用篇章单元的词汇、句法与标点等特征,并针对词汇特征:(1)设计了多层次的特征表达,从词、论元到论元对层面;(2)从两个不同的角度建模,包括两个论元间的相互作用以及两个论元在向量空间中的转移属性。利用本发明中的标注方法,我们在汉语篇章树库(CDTB)语料上进行了实验。对比传统的英语隐式篇章关系识别方法,本发明具有明显的优势,最终基本达到了能应用于其他自然语言处理任务,例如机器翻译,问答系统的水平,这充分证明了本发明的有效性和合理性。
附图说明
图1是根据本发明一实施例的汉语隐式篇章关系识别方法的流程图;
图2是利用句向量模型学习篇章论元对多层次词汇特征示意图;
图3是对篇章关系置信度打分的神经网络模型示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
本发明的基本思想是恰当地使用篇章单元的词汇、句法和标点信息,提出一种汉语隐式篇章关系识别方法。图1是根据本发明一实施例的汉语隐式篇章关系识别方法的流程图,如图1所示,所述汉语隐式篇章关系识别方法包括以下步骤:
步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;
该步骤对汉语隐式篇章关系论元对进行自动分词处理(Tokenize,Segmentation),得到其分词结果。其中,对汉语进行分词的方法有很多种,在本发明一实施例中,使用开源分词工具ICTCLAS对汉语进行分词。ICTCLAS中文分词工具是一个常用的开源中文分词工具,其可以在以下网址免费下载:http://ictclas.org/ictclas_download.asp。
步骤2,在所述步骤1得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达,包括学习基于词汇的分布式特征、提取基于句法的离散式特征以及提取基于标点的离散式特征;
学习基于词汇的分布式特征
对于词汇层面,本发明利用句向量模型学习多层次的论元向量表达,作为基于词汇的分布式特征,如图2所示。句向量模型是文献【Le Q,Mikolov T.DistributedRepresentations of Sentences and Documents[C]//Proceedings of the 31stInternational Conference on Machine Learning(ICML-14).2014:1188-1196.】提出的,该模型是著名的词向量模型Word2vec的加强版本。本发明使用的是基于Skip-gram的句向量模型。在Skip-gram词向量模型中,每个词通过预测其周围一定大小(比如10)窗口内的词来迭代更新自身词向量。在Skip-gram的句向量模型中,每个句子如同词一样被赋予一个向量,即所谓的句向量。句向量通过预测该句中的所有词来迭代更新自身向量。在本发明一实施例中,通过句向量模型可以学习多层次的特征表达,涵盖词、论元和论元对,其中,不同层次的特征传达不同的信息:
1)在词层次上,选择将每个论元的前三个词和最后一个词的词向量相加作为词层次的特征,原因是根据文献【Emily Pitler,Annie Louis,and AniNenkova.2009.Automatic sense prediction for implicit discourse relations intext.In Proceedings of ACL2009.Association for Computational Linguistics.】所述,在这些词的位置上很有可能出现类似于连接词的表达。这些词向量可以在基于最大间隔的神经网络模型训练过程中更新;
2)在论元层次上,考虑到本发明的主要任务就是识别两个论元之间的关系,而论元的句向量是最直接和最具有表现力的特征,因此在该实施例中,将每个论元的句向量作为特征。首先给每个论元赋予一个向量,通过句向量模型,可以得到每个论元的句向量;
3)在论元对层次上,将两个论元组成的整个片段的句向量作为特征,因为两个论元构成的论元对的整个语境的信息是非常重要的。首先给两个论元组成的整个片段同样赋予一个向量,通过句向量模型,可以得到论元对的句向量。
以上三个层次的向量可以通过句向量模型同时训练得到。最终,将这三个层次的向量连接起来作为论元最终的特征向量,即论元向量。
基于句法和标点的离散式特征
对于句法层面,首先通过斯坦福句法分析器对论元进行句法分析,在得到的短语结构树上抽取所有的产生式,每一个产生式由短语结构树的一个父节点及依存于该父节点的子节点集合组成,遍历这些子节点集合的每一个节点,和父节点一起组成简化版的产生式,即父节点与一个子节点组成的二元组,将其作为基于句法的离散式特征表达。
对于标点层面,提取两个论元之间的标点作为离散式特征表达,其中,两论元内部的标点不在本发明的考虑范围内。
步骤3,基于所述步骤2得到的汉语隐式篇章关系论元的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;
所述步骤3进一步包括以下步骤:
步骤31,对于词汇特征,从两个论元的特征表达之间的相互作用和向量空间转移属性两方面利用基于最大间隔的神经网络模型对隐式篇章关系进行建模;
其中,论元的特征表达之间的相互作用表示为:利用张量操作将两个论元的特征向量以相乘的形式联系起来,使得每个论元向量的每一维与另外一个论元向量的每一维相关联,以此来研究两论元向量之间的相互作用,表达式为:
其中,a1与a2表示两个论元向量,是一个由H1个矩阵构成的张量,也称为H1片张量,H1表示张量中的矩阵数目。
论元的特征表达之间的向量空间转移属性表示为:利用转换操作研究两论元在特征向量空间的相对位置关系,即转移属性。这种在向量空间的转移属性被认为和具体的篇章关系有关,即不同的篇章关系有不同的转移属性,表达式为:
We(a1+r-a2)
其中,r表示篇章关系向量,We表示一个矩阵。
步骤32,对于句法与标点特征,在利用前向神经网络对隐式篇章关系建模过程中,利用简单的线性变换生成前向神经网络的隐层,公式为:
Wsurv
其中,Wsur表示一个矩阵,v是离散特征向量。
步骤33,将得到的两个模型融合为一个整体,从词汇、句法和标点三个方面对隐式篇章关系进行建模,通过一个如图3所示的三层神经网络模型,也可以称为打分函数,对一个论元对的篇章关系置信度进行打分;
该步骤中,在词汇方面,利用张量操作和转换操作生成隐层;句法和标点方面,利用线性变换生成隐层,输出层利用一个非线性转换输出篇章关系置信度得分,公式为:
其中,f(a1,a2)表示论元对(a1,a2)的篇章关系置信度打分,U表示一个线性转换矩阵,g(·)是激活函数,在本发明一实施例中使用tanh函数,Ws表示一个线性转换矩阵,[a1;a2]表示论元向量a1、a2连接,b是一个偏置项。
步骤34,利用最大间隔分类原理对该篇章关系进行分类,得到不同类别篇章关系对应的打分函数。
在本发明一实施例中,利用最大间隔分类原理对篇章关系进行分类,指的是将篇章关系正项得分与负项得分之差作为优化目标,使正项得分尽可能的高于负项得分,所述正项得分指的是利用论元间篇章关系所对应的步骤33所述的打分函数f(a1,a2)得出的置信度分数,负项得分指的是利用非论元间篇章关系所对应的打分函数得出的置信度分数。在该步骤中,优化目标函数表示如下:
其中,θ表示篇章关系置信度打分函数的所有参数集合,即θ={U,Ws,Wt,We,Wsur,b},f+(·)表示篇章关系为reli的一个篇章论元对(a1,a2)用参数计算出的置信度分数,即正项得分;f-(·)表示用参数计算出的置信度分数,即负项得分,f-:f-≠f+表示遍历所有不是目标篇章关系的篇章关系的参数集合计算所得的负例得分,rel表示负例的篇章关系,λ表示正则项的惩罚系数。
步骤4,利用所述步骤3得到的基于最大间隔的神经网络模型对于汉语隐式篇章关系进行识别。
该步骤中,对于一个待识别篇章关系的论元对,遍历所有篇章关系对应的打分函数对论元篇章关系置信度打分,其中得分最高的打分函数对应的篇章关系即被认为是该论元对之间的篇章关系。
实验设置
实验数据集
在实验中利用CDTB 0.5验证本发明的可行性。CDTB 0.5所包含的篇章关系实例来自于中文树库(Chinese TreeBank,CTB)的98个文件。CDTB 0.5标记了8种隐式篇章关系,分别是因果关系、条件关系、连接关系、对比关系、扩展关系、目的关系、时序关系和发展关系。将CDTB 0.5的0001-0700部分设置为训练集,0701-0760部分为测试集,剩余的0761-0803部分为开发集。表1给出了隐式篇章关系实例分别在训练集、测试集与开发集的分布。
表1CDTB 0.5中的隐式篇章关系实例分布
本发明的基于最大间隔的神经网络优化过程使用L-BFGS-B算法,梯度模剪裁大小为1,并且利用开发集采取提前停止策略避免过拟合。经过在开发集上的调试,一些超参数设置如下:词、句向量维度为25,学习率为0.001,正则系数为0.0001,张量片数,即H1为3。
对比实验
为了进行对比试验,参考文献【Daniel Marcu and AbdessamadEchihabi.2002.An unsupervised approach to recognizing discourse relations.InProceedings of ACL2002,pages 368-375.Association for ComputationalLinguistics.】、【Attapol T Rutherford and Nianwen Xue.2014.Discovering implicitdiscourse relations through brown cluster pair representation and coreferencepatterns.EACL 2014,page 645.】、【Emily Pitler,Annie Louis,and AniNenkova.2009.Automatic sense prediction for implicit discourse relations intext.In Proceedings of ACL2009.Association for Computational Linguistics.】与【Junyi Jessy Li and Ani Nenkova.2014.Reducing sparsity improves therecognition of implicit discourse relations.In 15th Annual Meeting of theSpecial Interest Group on Discourse and Dialogue,page 199.】所述应用于英文篇章关系识别的方法,提取词汇、句法两方面特征,其中词汇方面的特征包括:
1)词对特征(词1,词2),其中词1和词2分别来自篇章关系实例中的两个论元;
2)和两个论元中的前三个词和最后一个词相关的特征,包括两个论元的第一个词和最后一个词、来自两个论元的第一个词的词对和最后一个词的词对以及每个论元的前三个词;
3)布朗聚类类别对特征(布朗类别1,布朗类别2),其中布朗类别1和布朗类别2分别对应于来自篇章关系实例中的两个论元的词1和词2,实验中使用的是3200类的布朗聚类,其可在如下网址免费获取:
http://www.cs.brandeis.edu/clp/conll16st/data/gigawordzh-c3200.txt
句法方面的特征包括:
1)产生式规则特征(父节点,子节点),其中父节点与子节点抽取自短语结构树。
2)依存式规则特征(被依存词,依存关系),其中被依存词与依存关系抽取自依存树。
除此之外,本发明提出将两论元间的标点作为特征。考虑下面这个实例:
中国吸引外资、引进技术。
这是一个连接关系的隐式篇章关系论元对,其两个论元分别用斜体和粗体标出。“、”说明这两个论元是并列的,暗示了其隐式篇章关系为连接关系,这是汉语独特的特征。“;”也有类似的作用。
对于以上所述的词汇、句法和标点等离散特征,采用默认参数、线性核的SVM作为分类器进行隐式篇章关系分类。
同时,在另外一组实验中,还测试了本发明在基于最大间隔的神经模型建模过程中,词向量的更新是否会提高隐式篇章关系识别准确率。
实验结果
表2给出了以SVM作为分类器,应用不同特征的隐式篇章关系识别准确率。从表中可以看到最频繁类别,即连接关系,在测试集所占比例为70.93%,可以将此作为基准识别结果。对于三种离散式词汇特征和依存式规则的句法特征的识别准确率均低于基准结果,标点特征识别准确率比基准结果高1.45%,产生式规则特征比基准结果高5.81%,是最有效的离散特征。本发明提出的多层次的论元向量特征的识别准确率比基准结果高6.1%,是最有效的单一特征。最终,将所有特征融合在一起,识别准确率达到最高的77.32%,超出基准结果6.39%。
表2基于SVM的隐式篇章关系识别结果
表3给出了本发明提出的基于最大间隔的神经网络的隐式篇章关系识别结果。表3中的“静态”和“动态”分别表示在基于最大间隔的神经网络隐式篇章关系识别模型训练过程中,更新与不更新通过句向量模型学习到的词向量。通过基于SVM的各种特征在隐式篇章关系识别上的实验,可以发现在所有离散特征中,识别准确率高于基准的是产生式规则和标点特征,所以将产生式规则和标点特征这两种离散特征与论元向量一起作为基于最大间隔的神经网络的输入。此外,受文献【Emily Pitler,Annie Louis,and AniNenkova.2009.Automatic sense prediction for implicit discourse relations intext.In Proceedings of ACL2009.Association for Computational Linguistics.】启发,运用信息增益对产生式规则进行特征选择,并通过开发集验证,最终选择了信息增益得分前100的产生式规则特征。表3中的“离散特征”即表示经过特征选择的产生式规则特征和标点特征。
通过表3可以得出以下结论:在隐式篇章关系识别模型训练过程中,不更新通过句向量模型学习到的词向量得到的识别准确率明显高于更新词向量,这可能与由于数据集规模较小,更新词向量带来的过拟合有关。在不更新词向量时,只使用论元向量作为神经网络的输入,得到的隐式篇章关系识别准确率为79.65%,将离散特征加入到神经网络中,识别准确率为82.56%,高出基准结果11.63%,这一结果是本发明在CDTB 0.5测试集上的隐式篇章关系识别的最高准确率。
表3基于最大间隔的神经网络的隐式篇章关系识别结果
根据以上的分析可以看出,本发明在汉语隐式篇章关系识别上有较高的准确率与较好的应用价值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (9)

1.一种汉语隐式篇章关系识别方法,其特征在于,所述方法包括以下步骤:
步骤1,对汉语隐式篇章关系论元对进行自动分词处理,得到自动分词结果;
步骤2,在所述步骤1得到的汉语隐式篇章关系论元自动分词结果的基础上,学习汉语隐式篇章关系论元的特征表达;
步骤3,基于所述步骤2得到的汉语隐式篇章关系论元的特征表达,通过基于最大间隔的神经网络模型对论元间的汉语隐式篇章关系进行建模;
步骤4,利用所述步骤3得到的基于最大间隔的神经网络模型对于汉语隐式篇章关系进行识别;
其中,所述步骤3进一步包括以下步骤:
步骤31,对于词汇特征,从两个论元的特征表达之间的相互作用和向量空间转移属性两方面利用基于最大间隔的神经网络模型对隐式篇章关系进行建模;
步骤32,对于句法与标点特征,在利用前向神经网络对隐式篇章关系建模过程中,利用线性变换生成前向神经网络的隐层;
步骤33,将步骤31和32得到的两个模型融合为一个整体,从词汇、句法和标点三个方面对隐式篇章关系进行建模,通过三层神经网络模型对一个论元对的篇章关系置信度进行打分;
步骤34,利用最大间隔分类原理对该篇章关系进行分类,得到不同类别篇章关系对应的打分函数。
2.根据权利要求1所述的方法,其特征在于,所述步骤2中学习汉语隐式篇章关系论元的特征表达的步骤包括学习基于词汇的分布式特征的步骤、提取基于句法的离散式特征的步骤以及提取基于标点的离散式特征的步骤。
3.根据权利要求2所述的方法,其特征在于,学习基于词汇的分布式特征时,利用句向量模型学习多层次的论元向量表达,作为基于词汇的分布式特征。
4.根据权利要求3所述的方法,其特征在于,所述多层次的论元向量表达包括词层次、论元层次和论元对层次的论元向量表达。
5.根据权利要求4所述的方法,其特征在于,在词层次上,将每个论元的前三个词和最后一个词的词向量相加作为词层次的特征;在论元层次上,将每个论元的句向量作为论元层次的特征;在论元对层次上,将两个论元组成的整个片段的句向量作为论元对层次的特征。
6.根据权利要求2所述的方法,其特征在于,提取基于句法的离散式特征时,首先通过斯坦福句法分析器对论元进行句法分析,在得到的短语结构树上抽取所有的产生式,每一个产生式由短语结构树的一个父节点及依存于该父节点的子节点集合组成,遍历这些子节点集合的每一个节点,将这些子节点和父节点一起组成的二元组作为基于句法的离散式特征。
7.根据权利要求2所述的方法,其特征在于,提取基于标点的离散式特征时,将两个论元之间的标点作为基于标点的离散式特征。
8.根据权利要求1所述的方法,其特征在于,所述步骤34中,将篇章关系正项得分与负项得分之差作为优化目标,使正项得分与负项得分之差最大,所述正项得分指的是利用论元间篇章关系所对应的打分函数得出的置信度分数,负项得分指的是利用非论元间篇章关系所对应的打分函数得出的置信度分数。
9.根据权利要求1所述的方法,其特征在于,所述步骤4中,对于一个待识别篇章关系的论元对,遍历所有篇章关系对应的打分函数对论元篇章关系置信度打分,其中得分最高的打分函数对应的篇章关系即被认为是该论元对之间的篇章关系。
CN201610294189.9A 2016-05-05 2016-05-05 一种汉语隐式篇章关系识别方法 Active CN105955956B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610294189.9A CN105955956B (zh) 2016-05-05 2016-05-05 一种汉语隐式篇章关系识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610294189.9A CN105955956B (zh) 2016-05-05 2016-05-05 一种汉语隐式篇章关系识别方法

Publications (2)

Publication Number Publication Date
CN105955956A CN105955956A (zh) 2016-09-21
CN105955956B true CN105955956B (zh) 2019-01-22

Family

ID=56913582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610294189.9A Active CN105955956B (zh) 2016-05-05 2016-05-05 一种汉语隐式篇章关系识别方法

Country Status (1)

Country Link
CN (1) CN105955956B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10817670B2 (en) 2017-05-10 2020-10-27 Oracle International Corporation Enabling chatbots by validating argumentation
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
US10839154B2 (en) 2017-05-10 2020-11-17 Oracle International Corporation Enabling chatbots by detecting and supporting affective argumentation
JP7086993B2 (ja) * 2017-05-10 2022-06-20 オラクル・インターナショナル・コーポレイション コミュニケーション用談話ツリーの使用による修辞学的分析の可能化
CN107168956B (zh) * 2017-05-26 2020-06-02 北京理工大学 一种基于管道的中文篇章结构分析方法及系统
CN107273358B (zh) * 2017-06-18 2020-06-05 北京理工大学 一种基于管道模式的端到端英文篇章结构自动分析方法
CN107330032B (zh) * 2017-06-26 2020-08-21 北京理工大学 一种基于递归神经网络的隐式篇章关系分析方法
CN108595407B (zh) * 2018-03-06 2022-03-18 首都师范大学 基于议论文篇章结构的评价方法及装置
CN108959351B (zh) * 2018-04-25 2022-11-08 中国科学院自动化研究所 中文篇章关系的分类方法及装置
CN108628834B (zh) * 2018-05-14 2022-04-15 国家计算机网络与信息安全管理中心 一种基于句法依存关系的词语表示学习方法
CN109299442A (zh) * 2018-10-08 2019-02-01 苏州大学 汉语篇章主次关系识别方法和系统
CN109446526B (zh) * 2018-10-26 2023-05-12 苏州大学 一种隐式篇章关系语料库的构建方法、装置和存储介质
CN110210033B (zh) * 2019-06-03 2023-08-15 苏州大学 基于主述位理论的汉语基本篇章单元识别方法
CN110633473B (zh) * 2019-09-25 2022-11-08 华东交通大学 基于条件随机场的隐式篇章关系识别方法与系统
CN111209366B (zh) * 2019-10-10 2023-04-21 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法
CN110888980B (zh) * 2019-10-10 2023-12-22 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111428525B (zh) * 2020-06-15 2020-09-15 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN111695341B (zh) * 2020-06-16 2023-04-14 北京理工大学 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统
CN113392629B (zh) * 2021-06-29 2022-10-28 哈尔滨工业大学 基于预训练模型的人称代词消解方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882158A (zh) * 2010-06-22 2010-11-10 河南约克信息技术有限公司 基于上下文的译文自动调序方法
CN103605781A (zh) * 2013-11-29 2014-02-26 苏州大学 一种隐式篇章关系类型推理方法及系统
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101882158A (zh) * 2010-06-22 2010-11-10 河南约克信息技术有限公司 基于上下文的译文自动调序方法
CN103605781A (zh) * 2013-11-29 2014-02-26 苏州大学 一种隐式篇章关系类型推理方法及系统
CN103646112A (zh) * 2013-12-26 2014-03-19 中国科学院自动化研究所 利用了网络搜索的依存句法的领域自适应方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Automatic sense prediction for implicit discourse relations in text;Emily Pitler等;《Proceedings of the 47th Annual Meeting of the ACL and the 4th IJCNLP of the AFNLP》;20090807;第2卷;全文 *
Max-Margin Tensor Neural Network for ChineseWord Segmentation;Wenzhe Pei等;《Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics》;20140625;全文 *
Shallow Convolutional Neural Network for Implicit Discourse Relation Recognition;Biao Zhang等;《Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing》;20150921;摘要、第2页至第3页左栏 *
基于外联关系的隐式篇章关系推理;洪宇等;《计算机研究与发展》;20151115;第2015年卷(第11期);全文 *

Also Published As

Publication number Publication date
CN105955956A (zh) 2016-09-21

Similar Documents

Publication Publication Date Title
CN105955956B (zh) 一种汉语隐式篇章关系识别方法
Fu et al. Learning semantic hierarchies via word embeddings
Liang Semi-supervised learning for natural language
CN106599032B (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
Shi et al. Learning visually-grounded semantics from contrastive adversarial samples
CN106294322A (zh) 一种基于lstm的汉语零指代消解方法
Ru et al. Using semantic similarity to reduce wrong labels in distant supervision for relation extraction
Hadni et al. Hybrid part-of-speech tagger for non-vocalized Arabic text
CN103154936A (zh) 用于自动化文本校正的方法和系统
CN106096664A (zh) 一种基于社交网络数据的情感分析方法
CN110532328A (zh) 一种文本概念图构造方法
CN101114281A (zh) 开放式文档同构引擎系统
US10339223B2 (en) Text processing system, text processing method and storage medium storing computer program
Dang Investigations into the role of lexical semantics in word sense disambiguation
Karsdorp et al. Animacy detection in stories
Shen et al. Dependency parse reranking with rich subtree features
CN107168950A (zh) 一种基于双语语义映射的事件短语学习方法及装置
Graça et al. Controlling complexity in part-of-speech induction
Shekhar et al. Computational linguistic retrieval framework using negative bootstrapping for retrieving transliteration variants
Han et al. Sentence segmentation for classical Chinese based on LSTM with radical embedding
Li et al. A unified model for solving the OOV problem of chinese word segmentation
KR101180589B1 (ko) 한국어 개방형 정보 추출 방법 및 이를 수행하는 프로그램을 기록한 기록매체
Cui et al. Aspect level sentiment classification based on double attention mechanism
Zhang et al. Research on chinese sentence compression for the title generation
Chen Natural language processing in web data mining

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant