CN106445911B - 一种基于微观话题结构的指代消解方法及系统 - Google Patents

一种基于微观话题结构的指代消解方法及系统 Download PDF

Info

Publication number
CN106445911B
CN106445911B CN201610156465.5A CN201610156465A CN106445911B CN 106445911 B CN106445911 B CN 106445911B CN 201610156465 A CN201610156465 A CN 201610156465A CN 106445911 B CN106445911 B CN 106445911B
Authority
CN
China
Prior art keywords
topic
commas
main
micro
discourse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610156465.5A
Other languages
English (en)
Other versions
CN106445911A (zh
Inventor
奚雪峰
周国栋
孔芳
吴宏杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN201610156465.5A priority Critical patent/CN106445911B/zh
Publication of CN106445911A publication Critical patent/CN106445911A/zh
Application granted granted Critical
Publication of CN106445911B publication Critical patent/CN106445911B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种基于微观话题结构的指代消解方法及系统,首先获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;然后从篇章微观话题结构中识别主述位;再以主述位为连接端口识别篇章基本话题单元之间的衔接关系;最后根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。该方法是基于主位和述位,以话题为中心,立足于小句层面的指代消解方法,利用主述位结构及主位推进模式,缩小了指代消解对的数量,降低计算的复杂度,从而提高指代消解性。

Description

一种基于微观话题结构的指代消解方法及系统
技术领域
本发明涉及一种指代消解方法及系统,尤其涉及一种基于微观话题结构的指代消解方法及系统。
背景技术
最大熵分类是给定一个概率分布,则熵的定义为:Hp=-p(x)logp(x),信息熵用来表示不确定度的度量,不确定度越大,熵值越大。极限情况,当一个随机变量均匀分布时,熵值最大;完全确定时,熵值为0。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。
决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别。
决策树中包括决策点、状态节点和结果节点:
决策点,是对几种可能方案的选择,即最后选择的最佳方案。如果决策属于多级决策,则决策树的中间可以有多个决策点,以决策树根部的决策点为最终决策方案。
状态节点,代表备选方案的经济效果(期望值),通过各状态节点的经济效果的对比,按照一定的决策标准就可以选出最佳方案。由状态节点引出的分支称为概率枝,概率枝的数目表示可能出现的自然状态数目每个分枝上要注明该状态出现的概率。
结果节点,将每个方案在各种自然状态下取得的损益值标注于结果节点的右端。
马尔科夫模型是利用概率建立一种随机型的时序模型,并用于进行市场趋势分析的方法,其基本模型为:X(k+1)=X(k)×P,公式中:X(k)表示趋势分析与预测对象在t=k时刻的状态向量,P表示一步转移概率矩阵,X(k+1)表示趋势分析与预测对象在t=k+1时刻的状态向量。
采用消解对模式(Mention-pair),引入照应语和候选先行语的特征集,构建二元分类器实现指代消解,最早由[Aone and Bennett,1995]and[McCarthy and Lehnert,1995]提出,是目前指代消解的主流方式之一。但这种方式存在两种固有缺陷,一是因为在构建指代消解对的过程中,理论上每个照应语与其前面的候选先行语都可能构成消解对,因此消解对的数量较大;二是训练实例中的样本正例很少,而由消解对的构建规则来看看,总体消解对数量又较多,因而训练样本集较为稀疏,数量上反例远远超过正例。
目前大多数基于消解对模式的指代消解研究[Soon et al.,2001;Ng andCardie,2002;Lassalle and Denis,2013]都侧重于分类学习算法及特征抽取方面,较少对上述消解对样本实例以及如何降低待消解对的数量从而降低消解对问题空间的大小问题开展研究。
发明内容
本发明所要解决的技术问题是,克服现有技术的缺点,提供一种基于微观话题结构的指代消解方法及系统,利用主述位结构及主位推进模式,缩小指代消解对的数量,降低消解对问题空间的大小,提高指代消解性能。
为了解决以上技术问题,本发明提供一种基于微观话题结构的指代消解方法及系统,方法包括:
获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
从篇章微观话题结构中识别主述位;
以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。
本发明进一步限定的技术方案是:篇章基本话题单元切割采用逗号切割法,逗号切割法将文本中所有逗号的功能划分为:
根据逗号是否可以标记篇章基本话题单元分为可以标记话题单元的逗号(RELATION)和不能标记话题单元的逗号(OTHER);
根据逗号分隔的语篇单元之间的关系进一步将逗号分为分隔并列关系语篇单元的逗号(COORD)和分隔从属关系语篇单元的逗号(SUBORD);
根据逗号所在句法树中的层次结构以及此单元担当的句法角色,
并列关系语篇单元的逗号(COORD)细分为:用于分隔句子边界的逗号(SB);用于分隔两个并列IP结构的逗号(COIP);用于分隔两个并列VP结构的逗号(COVP)和用于分隔宾语中两个并列IP结构的逗号(OBJ);
分隔从属关系语篇单元的逗号(SUBORD)细分为:用于分隔动词与长宾语的逗号(COMP)和用于分隔附属从句和主句的逗号(ADJ);
最后通过提取逗号所处上下文的特征进行基于机器学习方法的逗号消岐,并最终根据逗号消岐的结果进行篇章基本话题单元的分割并构成篇章微观话题结构。
进一步的,篇章微观话题结构为三元组,
MTS=(Sn,Sn+1n)
其中,Sn∈{T∪R},Sn+1∈{T∪R},T为一个篇章中的篇章基本话题的主位集合;R为同一个篇章中的篇章基本话题的述位集合,MTS为篇章微观话题结构集合;δn∈Γ,Γ为同一个篇章中的微观话题联接的集合。
更进一步的,机器学习方法为决策树。
进一步的,从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记,通过谓词所处上下文的特征,利用最大熵分类算法实现主述位识别。
进一步的,识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法,依据衔接关系采用的主位推进模式,将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类,并确定5个标注集合:t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系;确定标注集合后,根据衔接特性通过马尔科夫模型进行微观话题联接的识别,当主述位之间形成微观话题联接时,上下句之间的关联关系成立。
进一步的,微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示,体现篇章之间的衔接特性,包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。
进一步的,主位同一型为各个子句的主位相关联,而述位各不相同;
述位同一型为后一子句的述位和前一子句的述位相关联;
线性主位发展型为前一句的述位或述位的一部分与后一句的主位形成联系关系;
交叉型为后一句的述位与前一句的主位形成关联。
一种基于微观话题结构的指代消解系统,包括:
篇章基本话题识别模块,用于获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
主述位识别模块,用于从篇章微观话题结构中识别主述位;
衔接关系识别模块,用于以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
消解单元识别模块,用于根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。
本发明的有益效果是:该方法从样本实例开展研究,是基于主位和述位,以话题为中心,立足于小句层面的指代消解方法,利用主述位结构及主位推进模式,缩小了指代消解对的数量,降低计算的复杂度以及消解对问题空间的大小,从而提高指代消解性能。指代关系实质上搭建起篇章的话题结构,从内容层面实现篇章内句与句之间的衔接(cohesion)。指代消解准确性等性能的提高,能保证对篇章语义的整体理解,这对于信息抽取(information extraction)、自动文摘(automatic summarization)、自动问答(questionanswering)以及机器翻译(machine translation)等自然语言应用系统都有极为重要的基础支撑作用。
附图说明
图1为本发明的流程示意图。
图2为本发明的逗号分类图。
图3为本发明的逗号分类流程图。
图4为本发明的四类衔接关系的常用主位推进模式图。
图5为本发明实施例1的可视化微观阀话题构图。
具体实施方式
实施例1
本实施例提供的一种基于微观话题结构的指代消解方法及系统,如图1所示,方法包括:
获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
从篇章微观话题结构中识别主述位;
以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。
篇章基本话题单元切割在英语中,相关的研究工作较多,也取得了很好的性能。代表性的工作包括:Soricut&Marcu(2003)采用概率模型p(b|w,t)(w为文本中的每个单词,t为句法树,b为二元变量{边界,非边界}),结合最大似然估计,并采用相应的数据平滑算法进行文本切分,在自动句法分析树的结果上获得了F值为83.1%的EDU识别效果,而在标准句法树上F值可达84.7%。但是,Soricut&Marcu的方法并不包括线索词,因此无法准确地辨识复杂句子的边界。LeThanh et al.(2004a)提出了一种基于句法和线索词的EDU分割方法,识别结果的F值为86.9%。不过,由于测试集较小(只有8篇文章),因此,该结果没有可比性,也不具备代表性。Tofiloski et al.(2009)利用句法和词汇等特征对篇章进行分割,获得了较高的准确率,且其分割模型与训练语料没有依赖性,其中一个原因是作者使用了边界信息。
篇章基本话题单元切割在汉语中本方法采用逗号切割法,如图2和图3所示,逗号切割法将文本中所有逗号的功能划分为:
根据逗号是否可以标记篇章基本话题单元分为可以标记话题单元的逗号(RELATION)和不能标记话题单元的逗号(OTHER);
根据逗号分隔的语篇单元之间的关系进一步将逗号分为分隔并列关系语篇单元的逗号(COORD)和分隔从属关系语篇单元的逗号(SUBORD);
根据逗号所在句法树中的层次结构以及此单元担当的句法角色,
并列关系语篇单元的逗号(COORD)细分为:用于分隔句子边界的逗号(SB);用于分隔两个并列IP结构的逗号(COIP);用于分隔两个并列VP结构的逗号(COVP)和用于分隔宾语中两个并列IP结构的逗号(OBJ);
分隔从属关系语篇单元的逗号(SUBORD)细分为:用于分隔动词与长宾语的逗号(COMP)和用于分隔附属从句和主句的逗号(ADJ);
最后通过提取逗号所处上下文的特征进行基于决策树的逗号消岐,并最终根据逗号消岐的结果进行篇章基本话题单元的分割并构成篇章微观话题结构。
逗号消歧的特征如表1所示:
Figure BDA0000944247470000071
篇章微观话题结构为三元组,
MTS=(Sn,Sn+1n)
其中,Sn∈{T∪R},Sn+1∈{T∪R},T为一个篇章中的篇章基本话题的主位集合;R为同一个篇章中的篇章基本话题的述位集合,MTS为篇章微观话题结构集合;δn∈Γ,Γ为同一个篇章中的微观话题联接的集合。
从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记,通过谓词所处上下文的特征,利用最大熵分类算法实现主述位识别。
识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法,依据衔接关系采用的主位推进模式,将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类,四类链接关系的常用主位推进模式如图4所示,并确定5个标注集合:t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系;确定标注集合后,根据衔接特性通过马尔科夫模型进行微观话题联接的识别,当主述位之间形成微观话题联接时,上下句之间的关联关系成立。
主位同一型为各个子句的主位相关联,而述位各不相同;
述位同一型为后一子句的述位和前一子句的述位相关联;
线性主位发展型为前一句的述位或述位的一部分与后一句的主位形成联系关系;
交叉型为后一句的述位与前一句的主位形成关联。
微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示,体现篇章之间的衔接特性,包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。
其中,照应--指的是一个主述位作为另一个基本话题中主述位的参照点
省略--指的是把一个基本话题中的主述位省去不提,是一种避免重复,突出新信息,并使语篇上下紧凑的一种语法手段。
替代--指的是用替代词去取代基本话题中的主述位,替代词的语义来自于所替代的成分。
重复--指的是基本话题中的主述位多次出现。
同义/反义--指的是关联上下两个基本话题结构中的主述位是一对同义词/反义词。
上下义--指的是表示抽象和具体关系的两个基本话题中的主述位。
局部/整体--指的是一个基本话题中的主述位是另一基本话题主述位的局部表示。
搭配--指的是词汇同现,即一组语义上有联系的词汇关联上下基本话题结构中的主述位。
一种基于微观话题结构的指代消解系统,包括:
篇章基本话题识别模块,用于获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
主述位识别模块,用于从篇章微观话题结构中识别主述位;
衔接关系识别模块,用于以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
消解单元识别模块,用于根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别。
本实施例以“a张三(T1)才30出头,||b【】(T2)<而且>既没有什么学历,|||c【】(T3)又没有多少新的工作经验,|d但是【】(T4)不论干什么,|||e他(T5)都非常认真,||f所以,领导(T6)总是把一些重要的任务交给他。”为例,其微观话题结构如图5所示,篇章基本话题包括6个,分别以a~f标注,这里所提到的篇章基本话题结构,从形式上与修辞结构理论(RST)中篇章子句的定义是一致的。篇章微观话题结构共有5个,分别以微观话题联接相关联,可以表示为(T1,T21),(T2,T32),(T3,T43),(T4,T54),(T5,R65)。在该语句中存在5个篇章微观话题联接,其中4个联接采用了第(I)类主位同一型;1个联接采用了第(IV)类交叉型。
指代消解中的mention定义为名词、名词短语、人称代词,这是一种词汇级的定义范畴。而此方法基于主位和述位定义的微观话题结构,以话题为中心,是一种高于词汇级的小句层面,更多体现包含语义的话题结构。从语法角度看,因为小句是包含词汇的,因此小句层面的微观话题结构就包含了传统指代消解中的mention概念。
利用主述位结构及主位推进模式,缩小了指代消解对的数量,可以降低计算复杂度,从而提高指代消解性能。实验表明,此模型F值达到89.84,相比于传统指代消解方法提高了5个百分点。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。

Claims (6)

1.一种基于微观话题结构的指代消解方法,其特征在于,方法包括:
获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
从篇章微观话题结构中识别主述位;
以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别;
篇章基本话题单元切割包括逗号切割法,逗号切割法将文本中所有逗号的功能划分为:
根据逗号是否可以标记篇章基本话题单元分为可以标记话题单元的逗号(RELATION)和不能标记话题单元的逗号(OTHER);
根据逗号分隔的语篇单元之间的关系进一步将逗号分为分隔并列关系语篇单元的逗号(COORD)和分隔从属关系语篇单元的逗号(SUBORD);
根据逗号所在句法树中的层次结构以及此单元担当的句法角色,
并列关系语篇单元的逗号(COORD)细分为:用于分隔句子边界的逗号(SB);用于分隔两个并列IP结构的逗号(COIP);用于分隔两个并列VP结构的逗号(COVP)和用于分隔宾语中两个并列IP结构的逗号(OBJ);
分隔从属关系语篇单元的逗号(SUBORD)细分为:用于分隔动词与长宾语的逗号(COMP)和用于分隔附属从句和主句的逗号(ADJ);
最后通过提取逗号所处上下文的特征进行基于机器学习方法的逗号消歧,并最终根据逗号消歧的结果进行篇章基本话题单元的分割并构成篇章微观话题结构;
从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记,通过谓词所处上下文的特征,利用最大熵分类算法实现主述位识别;
识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法,依据衔接关系采用的主位推进模式,将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类,并确定5个标注集合:t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系;确定标注集合后,根据衔接特性通过马尔科夫模型进行微观话题联接的识别,当主述位之间形成微观话题联接时,上下句之间的关联关系成立。
2.根据权利要求1所述的一种基于微观话题结构的指代消解方法,其特征在于,篇章微观话题结构为三元组,
MTS=(Sn,Sn+1n)
其中,Sn∈{T∪R},Sn+1∈{T∪R},T为一个篇章中的篇章基本话题的主位集合;R为同一个篇章中的篇章基本话题的述位集合,MTS为篇章微观话题结构集合;δn∈Γ,Γ为同一个篇章中的微观话题联接的集合。
3.根据权利要求1所述的一种基于微观话题结构的指代消解方法,其特征在于,机器学习方法为决策树。
4.根据权利要求1所述的一种基于微观话题结构的指代消解方法,其特征在于,微观话题联接为上下文篇章基本话题内主述位之间语义关联的表示,体现篇章之间的衔接特性,包括照应、省略、替代、重复、同义/反义、上下义、局部/整体和搭配。
5.根据权利要求4所述的一种基于微观话题结构的指代消解方法,其特征在于,
主位同一型为各个子句的主位相关联,而述位各不相同;
述位同一型为后一子句的述位和前一子句的述位相关联;
线性主位发展型为前一句的述位或述位的一部分与后一句的主位形成联系关系;
交叉型为后一句的述位与前一句的主位形成关联。
6.一种基于微观话题结构的指代消解系统,其特征在于,包括:
篇章基本话题识别模块,用于获取文本并对文本进行篇章基本话题单元切割构成篇章微观话题结构;
主述位识别模块,用于从篇章微观话题结构中识别主述位;
衔接关系识别模块,用于以主述位为连接端口识别篇章基本话题单元之间的衔接关系;
消解单元识别模块,用于根据识别的衔接关系,将照应语中候选先行语的范围落在与其所在主述位结构相衔接的前一个篇章基本话题的主位或述位中,减少消解对的数量,再提取限定范围内的名词所拥有的词性、句法及语义特征,最后利用最大熵分类算法完成消解单元的识别;
篇章基本话题单元切割包括逗号切割法,逗号切割法将文本中所有逗号的功能划分为:
根据逗号是否可以标记篇章基本话题单元分为可以标记话题单元的逗号(RELATION)和不能标记话题单元的逗号(OTHER);
根据逗号分隔的语篇单元之间的关系进一步将逗号分为分隔并列关系语篇单元的逗号(COORD)和分隔从属关系语篇单元的逗号(SUBORD);
根据逗号所在句法树中的层次结构以及此单元担当的句法角色,
并列关系语篇单元的逗号(COORD)细分为:用于分隔句子边界的逗号(SB);用于分隔两个并列IP结构的逗号(COIP);用于分隔两个并列VP结构的逗号(COVP)和用于分隔宾语中两个并列IP结构的逗号(OBJ);
分隔从属关系语篇单元的逗号(SUBORD)细分为:用于分隔动词与长宾语的逗号(COMP)和用于分隔附属从句和主句的逗号(ADJ);
最后通过提取逗号所处上下文的特征进行基于机器学习方法的逗号消歧,并最终根据逗号消歧的结果进行篇章基本话题单元的分割并构成篇章微观话题结构;
从篇章微观话题结构中识别主述位的方法是将篇章基本话题单元中的第一个谓词作为主述位划分的标记,通过谓词所处上下文的特征,利用最大熵分类算法实现主述位识别;
识别篇章基本话题单元之间的衔接关系采用基于马尔科夫模型的微观话题联接识别方法,依据衔接关系采用的主位推进模式,将衔接关系分成主位同一型、述位同一型、线性主位发展型和交叉型四类,并确定5个标注集合:t表示主位同一型、r表示述位同一型、l表示线性主位发展型、x表示交叉型和o表示不属于联接关系;确定标注集合后,根据衔接特性通过马尔科夫模型进行微观话题联接的识别,当主述位之间形成微观话题联接时,上下句之间的关联关系成立。
CN201610156465.5A 2016-03-18 2016-03-18 一种基于微观话题结构的指代消解方法及系统 Active CN106445911B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610156465.5A CN106445911B (zh) 2016-03-18 2016-03-18 一种基于微观话题结构的指代消解方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610156465.5A CN106445911B (zh) 2016-03-18 2016-03-18 一种基于微观话题结构的指代消解方法及系统

Publications (2)

Publication Number Publication Date
CN106445911A CN106445911A (zh) 2017-02-22
CN106445911B true CN106445911B (zh) 2022-02-22

Family

ID=58183067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610156465.5A Active CN106445911B (zh) 2016-03-18 2016-03-18 一种基于微观话题结构的指代消解方法及系统

Country Status (1)

Country Link
CN (1) CN106445911B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110612525B (zh) * 2017-05-10 2024-03-19 甲骨文国际公司 通过使用交流话语树启用修辞分析
US12001804B2 (en) 2017-05-10 2024-06-04 Oracle International Corporation Using communicative discourse trees to detect distributed incompetence
US11960844B2 (en) 2017-05-10 2024-04-16 Oracle International Corporation Discourse parsing using semantic and syntactic relations
CN109960803B (zh) * 2019-03-20 2023-04-18 苏州大学 基于成分句法压缩树的指代消解方法
CN111241855B (zh) * 2019-03-25 2021-03-16 腾讯科技(深圳)有限公司 文本翻译方法、装置、存储介质和计算机设备
CN110210033B (zh) * 2019-06-03 2023-08-15 苏州大学 基于主述位理论的汉语基本篇章单元识别方法
CN111552781B (zh) * 2020-04-29 2021-03-02 焦点科技股份有限公司 一种联合机器检索阅读的方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9189473B2 (en) * 2012-05-18 2015-11-17 Xerox Corporation System and method for resolving entity coreference

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770453A (zh) * 2008-12-31 2010-07-07 华建机器翻译有限公司 基于领域本体结合机器学习模型的汉语文本共指消解方法
CN101901213A (zh) * 2010-07-29 2010-12-01 哈尔滨工业大学 一种基于实例动态泛化的共指消解方法
CN102306144A (zh) * 2011-07-18 2012-01-04 南京邮电大学 一种基于语义词典的词语消歧方法
CN103150405A (zh) * 2013-03-29 2013-06-12 苏州大学 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104462053A (zh) * 2013-09-22 2015-03-25 江苏金鸽网络科技有限公司 一种文本内的基于语义特征的人称代词指代消解方法
WO2015080561A1 (en) * 2013-11-27 2015-06-04 Mimos Berhad A method and system for automated relation discovery from texts
CN104182535A (zh) * 2014-08-29 2014-12-03 苏州大学 一种人物关系抽取方法和装置

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Chinese Comma Disambiguation for Discourse Analysis;Yaqin Yang 等;《Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics》;20120714;全文 *
主位推进模式与语篇分析;朱永生;《外语教学与研究》;19950710(第3期);全文 *
交互式问答系统中待消解项的识别方法研究;张超 等;《中文信息学报》;20140715;第28卷(第4期);全文 *
基于 Deep Learning 的代词指代消解;奚雪峰 等;《北京大学学报(自然科学版)》;20140115;第50卷(第1期);全文 *
基于主位-述位结构理论的英文作文连贯性建模研究;徐凡 等;《中文信息学报》;20160115;第30卷(第1期);全文 *
基于逗号的汉语子句识别研究;李艳翠 等;《北京大学学报(自然科学版)》;20130115;第49卷(第1期);论文第7-14页,图1,表2-3 *
汉语篇章连贯性自动分析方法研究;王小虎;《中国优秀硕士学位论文全文数据库 信息科技辑》;20151115(第11期);论文正文第10-28页 *
王小虎.汉语篇章连贯性自动分析方法研究.《中国优秀硕士学位论文全文数据库 信息科技辑》.2015,(第11期),I138-144. *

Also Published As

Publication number Publication date
CN106445911A (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
CN106445911B (zh) 一种基于微观话题结构的指代消解方法及系统
CN110502642B (zh) 一种基于依存句法分析与规则的实体关系抽取方法
CN109344236A (zh) 一种基于多种特征的问题相似度计算方法
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
Sekine A new direction for sublanguage NLP
Megala et al. Enriching text summarization using fuzzy logic
JP2011118689A (ja) 検索方法及びシステム
Nasiruddin A state of the art of word sense induction: A way towards word sense disambiguation for under-resourced languages
CN108304382A (zh) 基于制造过程文本数据挖掘的质量分析方法与系统
Pal et al. An approach to automatic text summarization using simplified lesk algorithm and wordnet
CN112084312A (zh) 一种基于知识图构建的智能客服系统
Wu et al. Maximum entropy-based sentiment analysis of online product reviews in Chinese
Lanlan et al. Simulation of English part-of-speech recognition based on machine learning prediction algorithm
Yun et al. A Chinese-English patent machine translation system based on the theory of hierarchical network of concepts
CN116702786B (zh) 融合规则和统计特征的中文专业术语抽取方法和系统
AL-Khassawneh et al. Improving triangle-graph based text summarization using hybrid similarity function
CN109783775A (zh) 一种标记用户语料的内容的方法及系统
CN114580556A (zh) 专利文献的预评估方法及装置
CN107562731B (zh) 一种基于疑问语义的自然语言语义计算的方法及装置
Meng et al. Design of Intelligent Recognition Model for English Translation Based on Deep Machine Learning
Wong et al. iSentenizer: An incremental sentence boundary classifier
Saktel et al. Context based domain identification for resolving ambiguity
Petrović et al. Textual features for corpus visualization using correspondence analysis

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant