CN106326212B - 一种基于层次深度语义的隐式篇章关系分析方法 - Google Patents
一种基于层次深度语义的隐式篇章关系分析方法 Download PDFInfo
- Publication number
- CN106326212B CN106326212B CN201610739516.7A CN201610739516A CN106326212B CN 106326212 B CN106326212 B CN 106326212B CN 201610739516 A CN201610739516 A CN 201610739516A CN 106326212 B CN106326212 B CN 106326212B
- Authority
- CN
- China
- Prior art keywords
- implicit
- chapter
- word
- relationship
- chapter relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/211—Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于层次深度语义的隐式篇章关系分析方法,属于自然语言处理应用技术领域。包括以下步骤:首先结合已标注和未标注语料,扩充训练语料规模,避免训练语料规模过小带来欠学习问题;然后基于一定规则初始化训练语料各层次的深度语义向量,通过信息增益值的大小筛选出有助于分类的词对,将其作为后续特征选取依据;最后设计一种打分函数,将待分类篇章关系论元对的多层次的深度语义信息相结合,利用神经网络训练模型参数并拟合隐式篇章关系类别标签,找到使性能达到最优的模型完成隐式篇章关系分析。弥补了基于离散特征的传统方法导致的错判;提升隐式篇章关系类别标签的分析精度;使用户能更快速而准确地获得隐式篇章关系的分析结果。
Description
技术领域
本发明涉及一种隐式篇章关系分析方法,特别涉及一种基于层次深度语义的隐式篇章关系分析方法,属于自然语言处理应用技术领域。
背景技术
作为自然语言处理应用技术领域中的一项重要任务,篇章关系分析一直为学者们所不懈研究着,并广泛于统计机器翻译、信息抽取、情感分析等领域发挥重要作用。篇章关系建立在词法和句法分析之上,旨在篇章级别对没有篇章连接词连接的句际关系进行识别与归类,其中又尤以缺乏篇章连接词连接的隐式篇章关系分析为其重点与难点。随着自然语言的语义分析逐渐成为学术和应用的主流,针对一篇文章,如何高效正确地理解其结构与内容,引起了越来越多研究人员的重视。这种趋势从隐式篇章关系分析两次被国际会议CoNLL(Conference on Computational Natural Language Learning)选作共享任务中便可看出。如今又恰逢大数据时代,海量且无结构的信息层出不穷,将这些数据应用在隐式篇章关系分析上,能对现有的结果有较大的提升。因此,我们需要一种基于层次深度语义的方法,帮助我们结合已标注语料和未标注语料,训练出一个高效的隐式篇章关系分析模型,这是一项既有学术意义又有实用价值的研究课题。
由于篇章连接词的缺失,整个隐式篇章关系的识别与分类过程,便从单个篇章连接词的语义分析转变为篇章论元结构的语义分析。目前,关于隐式篇章关系分析方面的研究并不充分,仍处于探索阶段,而没有篇章连接词这一特征的帮助,也使得隐式篇章关系分析的研究更加难以深入。主流的隐式篇章关系分析方法一方面着眼于使用离散的词对特征表示可能的关系类型,如Pitler等人在2009年ACL会议上发表的“Automatic senseprediction for implicit discourse relations in text”一文中所采用的综合多种离散的语言学特征训练隐式篇章关系分类器的方法,其算法简单易行,但常受累于数据稀疏;另一方面,使用诸如词向量等浅层语义表征隐式篇章关系论元对,从而使用连续且维度较少的特征代替原有的离散特征,如Ji和Eisenstein在2016年NAACL会议上发表的“A LatentVariable Recurrent Neural Networkfor Discourse Relation Language Models”一文中所提出的,利用RNN向量化表征隐式篇章关系句际信息及上下文信息,其所包含的特征信息更为丰富,却也因现有的隐式篇章关系标注语料缺乏而无法拟合正确结果。
上述已有的基于离散特征或深度学习的方法虽然一定程度上解决了隐式篇章关系分析这一问题,然而或因数据稀疏而表现欠佳,或受限于现有的标注数据规模,其性能的改进还存在很大空间。本发明的目的是致力于解决上述主流方法所存在的缺陷,结合两方面方法的优势,提出一种基于层次深度语义的隐式篇章关系分析方法。
发明内容
本发明的目的是针对现有的隐式篇章关系分析方法由于数据规模和模型本身为主的原因所产生的过拟合和数据稀疏技术问题,即解决现有方法不能有效利用隐式篇章关系论元对所包含的深度语义信息的问题,提出一种基于层次深度语义的隐式篇章关系分析方法。
为实现上述目的,本发明所采用的技术方案如下:
本发明技术方案的思想是,首先结合已标注语料和未标注语料,扩充训练语料的规模,以避免训练语料规模过小所带来的欠学习问题;然后基于一定规则初始化训练语料的词向量及句向量,并通过信息增益值的大小筛选出有助于分类的词对,将其作为后续步骤的特征选取依据;最后设计一种打分函数,将待分类篇章关系论元对的有用词对向量、句向量及隐式篇章关系分布向量等多层次的深度语义信息相结合,利用神经网络训练模型参数并拟合隐式篇章关系类别标签,找到使性能达到最优的模型完成隐式篇章关系的分析。
本发明的具体技术方案如下:
一种基于层次深度语义的隐式篇章关系分析方法,包括以下步骤:
步骤一、语料预处理,具体为:
步骤1.1将已有的隐式篇章关系标注语料,分割为训练语料和测试语料,
其中,分割的比例为:标注语料共有0-22Section,其中2-20Section作为训练语料,21-22Section作为测试语料;
步骤1.2利用篇章连接词匹配的方法,从大规模未标注语料中匹配显式篇章连接词;
步骤1.3基于步骤1.2的结果,以篇章连接词和标点为边界划分论元范围,提取出相应的显式篇章关系;
步骤1.4将步骤1.3输出的篇章连接词去除,作为伪隐式篇章关系扩充步骤1.1所得的训练语料;
步骤二、多层次语义向量初始化,具体为:
步骤2.1利用Paragraph Vector方法,采用词向量训练模型训练词向量,并将隐式篇章关系论元对所对应的句向量,添加到当前待训练词的上下文中,和词向量一同训练,
其中,所述的词向量训练模型,可以采用word2vec;
其中,所述的隐式篇章关系为步骤1.4所得训练语料中的隐式篇章关系;
步骤2.2将步骤2.1所得结果,以及隐式篇章关系各类别的先验概率,作为步骤三及步骤四所使用的各个层次的隐式篇章关系深度语义向量的初始值;
其中,各个层次即多层次;
步骤三、生成有用词对表并扩充有用词对表,具体为:
步骤3.1将步骤1.4所获取的训练语料作为提取对象,针对每一个隐式篇章关系,从上下两个论元中分别抽取一个词语构成词对,将词对作为研究对象,统计训练语料中所有词对在各篇章关系类别中的信息增益值大小,选取高于阈值的词对构建有用词对表;
步骤3.2在步骤3.1基础上,利用词向量的相似度计量,扩充步骤3.1所得的有用词对表,
其中,扩充有用词对表的规则为:每个有用词对表中的词对,选取至多六个COSINE相似度最高的词对;
步骤四、隐式篇章关系模型训练和类别打分,具体为:
步骤4.1针对步骤一所得的训练语料和测试语料中的隐式篇章关系,提取其中包含的有用词对,将词对转换为词向量的拼接形式,同隐式篇章关系论元对向量、隐式篇章关系分布向量相拼接,构成隐式篇章关系的层次深度语义的表征;
步骤4.2把步骤4.1中拼接得到的训练语料隐式篇章关系层次深度语义向量,加入到神经网络训练模型中,训练模型参数;
步骤4.3把步骤4.1中拼接得到的测试语料隐式篇章关系层次深度语义向量,加入到步骤4.2所得的神经网络训练模型中,拟合隐式篇章关系类别标签给出的相应分数,输出待分类隐式篇章关系的识别结果;
至此,从步骤一到步骤四,完成了一种基于层次深度语义的隐式篇章关系分析方法。
有益效果
一种基于层次深度语义的隐式篇章关系分析方法,对比现有技术,具有如下有益效果:
(a).通过采用离散特征选取与深度语义相结合的策略,一方面利用未标注语料扩充已有的训练语料,增加训练打分过程的准确率,另一方面将隐式篇章关系各个层次的语义信息相结合,在隐式篇章关系类别标签的指导下提升分析精度的同时,实现了各层次语义向量的互相优化;
(b).弥补了基于离散特征选取的机器学习方法导致的错判;
(c).能够有效地利用未标注语料及不同层次语义信息进行分析,使用户能够更快速而准确地获得隐式篇章关系的分析结果。
附图说明
图1为本发明一种基于层次深度语义的隐式篇章关系分析方法的流程图;
图2为本发明一种基于层次深度语义的隐式篇章关系分析方法的隐式篇章关系分类系统架构图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细说明。应该指出,所描述的实施例仅视为说明的目的,而不是对本发明的限制。
实施例1
本实施例具体叙述了本发明所提方法及本实施例中方法的流程图,如图1所示。
从图1可以看出,本发明所提方法包括四个模块:预处理部分,对应步骤一中的语料预处理;向量初始化部分,对应步骤二中的多层次语义向量初始化;特征抽取部分,对应步骤三中的生成有用词对表并扩充有用词对表,以及步骤4.1中的隐式篇章关系的层次深度语义表征;分类部分,对应步骤4.2到4.3中的神经网络模型参数训练,以及隐式篇章关系类别打分;
其中,宽箭头表示训练语料的数据流向,窄箭头表示测试语料的数据流向。从图中可以看出:在预处理部分,训练语料的一方面来源于标注语料的一部分,另一方面由未标注语料经模式识别的方法生成,而测试语料则全部来源于标注语料;在向量初始化部分,词向量训练模型,即word2vec,以预处理部分所获得的训练语料为输入,辅以Paragraph Vector方法,初始化各个层次的隐式篇章关系深度语义向量的初始值;在特征抽取部分,所抽取的特征一方面是基于训练语料生成的有用词对表,另一方面是训练语料和测试语料层次深度语义的表征;最终在分类部分,训练语料的相关特征汇聚到神经网络模型,训练得到隐式篇章关系分类器,而由此为测试语料中的隐式篇章关系打分并标注类别。
实施例2
本实施例具体叙述了本发明所提方法的分类系统架构。图2为本发明所提方法的隐式篇章关系分类系统架构图。
从图2可以看出,本发明所提方法的隐式篇章关系分类系统,对应步骤四中的隐式篇章关系的层次深度语义表征,神经网络模型参数训练,以及隐式篇章关系类别打分。输入从左到右分别为隐式篇章关系分布向量,即隐式篇章关系先验概率和转移矩阵的乘积,隐式篇章关系论元对向量,和隐式篇章关系有用词对向量;多层次的语义向量相拼接后,构成隐式篇章关系的层次深度语义表征,利用神经网络来训练模型参数,以及预测隐式篇章关系类别;输出即为对应的隐式篇章关系各类别的打分。
实施例3
本实施例具体叙述了基于本发明所提方法在一台PC机上运行基于层次深度语义的隐式篇章关系分析的流程,具体对应发明内容中的步骤一到步骤四;
本实施例依据英文标注语料库Penn Discourse Treebank(PDTB)及其标注类别,以及未标注语料库Central News Agency of Taiwan,English Service(CNA)和XinhuaNews Agency,English Service(XIN),遵循发明内容中的步骤顺序:逐一介绍语料预处理方法、多层次语义向量初始化方法、生成有用词对表并扩充有用词对表方法以及隐式篇章关系模型训练和类别打分方法。
A)语料预处理,实现步骤如下:
1.根据The Penn Discourse Treebank 2.0Annotation Manual一文中对篇章关系标注语料库PDTB所包含的篇章连接词的统计结果,选取出现频率最大的25个篇章连接词,作为判别句子是否包含显式篇章关系的特征依据,剩余的篇章连接词在PDTB中出现的频率均小于1%,故而舍弃;
2.遍历未标注语料CNA及XIN,以下为其中的一段文字:
所有文章段均以上述形式存储,使用TreeTagger标注工具对其进行词性标注(Part of Speech,POS标注),其形式如下所示:
继而采用显式篇章连接词匹配的方法,从中选取形如[Arg1,connective Arg2]或[connective Arg1,Arg2]的句子以篇章连接词和标点为边界划分论元范围,提取出相应的显式篇章关系论元对及其相应的显式篇章连接词,针对实施例第1,2句,有如下提取结果:
篇章连接词also出现在实施例第2句中,故将其提取出作为隐式篇章关系连接词,剩余部分分别作为隐式篇章关系的上下论元;
3.根据The Penn Discourse Treebank 2.0Annotation Manual一文中对于各显式篇章连接词对应的篇章关系类型,为(2)中所获得的显式篇章关系论元对进行自动标注,若某一篇章连接词可对应多种篇章关系类型,则选取出现频率较大者为标注结果,按照文中统计结果,篇章连接词also对应的篇章关系类型如下所示:
由此可知,also更为可能引导Conjunction类别的篇章关系,而Conjunction又是Expansion类别的子类别,故而将实施例标注为Expansion类别;
4.去除标注后的显式篇章关系所包含的篇章连接词,将其作为伪隐式篇章关系添加到PDTB语料中,同其中的真实隐式篇章关系一同作为后续步骤的训练语料T;
B)多层次语义向量初始化,实现步骤如下:
1)训练语料T为步骤一中所提取伪隐式篇章关系,及原有的真实隐式篇章关系集合,其中不包含实施例中所显示的隐式篇章关系连接词及标签;
2)首先使用word2vec工具训练词向量,将训练语料集合中所有词汇转换为维度为d的词向量形式,鉴于整体语料规模大约在3G左右,使用连续词袋模型(Continuous Bag ofWords,CBOW)训练可以直观地提升效率并保证词汇间的语义相似性,上下文窗口大小设置为3~5之间,迭代次数超过15次即可;
3)使用Paragraph Vector方法,在word2vec原有的上下文结构中添加各隐式篇章关系论元对向量,使其和词向量一同训练,迭代优化,对于实施例而言,令论元一向量为argument1,论元二向量为argument2,如下所示:
设上下文窗口大小为3,则论元一中的词decision/NN的上下文分别为to/TO、the/DT、House/NP、,/,、Wall-Street/NP、share/NN以及论元一向量argument1,将argument1同上述六个词所组成的上下文一同训练,argument2的训练过程同理;
4)多次迭代后可得相应的词向量集合以及句向量集合其中|V|和|S|均是集合的规模,而d表示向量的维度;
C)生成有用词对表并扩充有用词对表,实现步骤如下:
■设置训练语料集合T的隐式篇章关系数为N,某个类别的数量用ni表示,其中i∈{1,2,3,4},代表PDTB语料库标注规范中,隐式篇章关系的四种主要类别,分别为Comparison,Contingency,Expansion和Temporal;
■遍历训练语料集合T,对每一个隐式篇章关系,抽取其中所包含的词对,如实施例所示,论元一包含27个词语,论元二包含11个词语,则该篇章关系共包含27×11=297个词对,针对每一词对term,分别统计其总共出现的次数t,以及出现在对应类别class的隐式篇章关系的频数ti,i∈{1,2,3,4};
■计算所有词对的信息增益值,计算公式如下:
针对每一词对,均可计算出该词对对隐式篇章关系分类的贡献程度,将所有词对按照信息增益值大小排序,选取IG(t)值不小于1e-5的词对构成有用词对集合T';
■在T'基础上,针对其中所包含的所有词,计算每个词最相似的三个词用于扩展有用词对集合T',词和词之间的COSINE相似度计算公式如下所示,其中ai和bi分别表示词a和词b对应词向量的第i位:
利用步骤二中所获得的词向量及COSINE相似度公式,将有用词对的每个词对应的COSINE相似值最高的三个词两两交叉,构成新的词对并添加到有用词对集合中,视为T”,就实施例而言,词对(share/NN,market/NN)在有用词对集合T'中,share/NN最相似的三个词分别为contribution/NN,dividend/NN和division/NN,market/NN最相似的三个词分别为advertise/VV,display/VV和retail/NN,则将(contribution/NN,market/NN)、(dividend/NN,market/NN)、(division/NN,market/NN)、(share/NN,advertise/VV)、(share/NN,display/VV)和(share/NN,retail/NN)均加入有用词对集合中;
D)隐式篇章关系模型训练和类别打分,实现步骤如下:
(1)设置词向量集合句向量集合其中|V|和|S|均是集合的规模,而d表示向量的维度,再者,隐式篇章关系各类别的先验概率为使隐式篇章关系分布向量同V和A保持维度上的一致,故再设置转移矩阵故而隐式篇章关系分布向量三者作为隐式篇章关系所蕴含的层次深度语义,由表示,隐式篇章关系分析的打分函数如下所示:
其中f为sigmoid非线性函数,v1,v2∈V以及a1,a2∈A为待分类的隐式篇章关系所包含的有用词对向量及论元对向量,而矩阵则是需要训练的参数,矩阵P是最终得到的打分结果;
(2)对于每个类别的最大似然估计li的公式如下所示:
若打分结果之中i项的得分最高,则预测类别为i,若真实类别r同i相等,则label=1,反之,label=0,由此可知,对于r类别的最大似然估计值,采用的是梯度上升的方法进行优化,而对于非r类别的最大似然估计值,则是采用梯度下降的方法进行优化,这样可以令r类别的打分结果和非r类别间的margin尽可能增大;
就实施例而言,其属于Expansion类别,对应的类别项r=3,则当i=3时,label=1,对li进行梯度上升优化,当i!=3时,label=0,对li进行梯度下降优化;
(3)由(2)中所示的最大似然估计值,可得到相应的层次深度语义C以及对应参数W的梯度,公式如下所示:
其中可知,C和W在最大似然估计公式中相互对称,故二者的梯度计算公式亦相互对称,除此之外,需要优化的还有隐式篇章关系分布的转移矩阵T,公式如下所示:
(4)根据(2)中关于label的设置,对相应的隐式篇章关系的各层次深度语义向量及其参数矩阵进行梯度上升或下降优化,迭代多次后即可获得隐式篇章关系分类模型。
以上所述为本发明的较佳实施例而已,本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改,都落入本发明保护的范围。
Claims (2)
1.一种基于层次深度语义的隐式篇章关系分析方法,其特征在于:
包括以下步骤:
步骤一、语料预处理,具体为:
步骤1.1将已有的隐式篇章关系标注语料,分割为训练语料和测试语料;
步骤1.1中,分割的比例为:标注语料共有0-22Section,其中2-20Section作为训练语料,21-22Section作为测试语料;
步骤1.2利用篇章连接词匹配的方法,从大规模未标注语料中匹配显式篇章连接词;
步骤1.3基于步骤1.2的结果,以篇章连接词和标点为边界划分论元范围,提取出相应的显式篇章关系;
步骤1.4将步骤1.3输出的篇章连接词去除,作为伪隐式篇章关系扩充步骤1.1所得的训练语料;
步骤二、多层次语义向量初始化,具体为:
步骤2.1利用Paragraph Vector方法,采用词向量训练模型训练词向量,并将隐式篇章关系论元对所对应的句向量,添加到当前待训练词的上下文中,和词向量一同训练;
步骤2.1中,所述的词向量训练模型,可以采用word2vec;
其中,所述的隐式篇章关系为步骤1.4所得训练语料中的隐式篇章关系;
步骤2.2将步骤2.1所得结果,以及隐式篇章关系各类别的先验概率,作为步骤三及步骤四所使用的各个层次的隐式篇章关系深度语义向量的初始值;
其中,各个层次即多层次;
步骤三、生成有用词对表并扩充有用词对表,具体为:
步骤3.1将步骤1.4所获取的训练语料作为提取对象,针对每一个隐式篇章关系,从上下两个论元中分别抽取一个词语构成词对,将词对作为研究对象,统计训练语料中所有词对在各篇章关系类别中的信息增益值大小,选取高于阈值的词对构建有用词对表;
步骤3.2在步骤3.1基础上,利用词向量的相似度计量,扩充步骤3.1所得的有用词对表;
步骤四、隐式篇章关系模型训练和类别打分,具体为:
步骤4.1针对步骤一所得的训练语料和测试语料中的隐式篇章关系,提取其中包含的有用词对,将词对转换为词向量的拼接形式,同隐式篇章关系论元对向量、隐式篇章关系分布向量相拼接,构成隐式篇章关系的层次深度语义的表征;
步骤4.2把步骤4.1中拼接得到的训练语料隐式篇章关系层次深度语义向量,加入到神经网络训练模型中,训练模型参数;
步骤4.3把步骤4.1中拼接得到的测试语料隐式篇章关系层次深度语义向量,加入到步骤4.2所得的神经网络训练模型中,拟合隐式篇章关系类别标签给出的相应分数,输出待分类隐式篇章关系的识别结果。
2.如权利要求1所述的一种基于层次深度语义的隐式篇章关系分析方法,其特征还在于:
步骤3.2中,扩充有用词对表的规则为:每个有用词对表中的词对,选取至多六个COSINE相似度最高的词对。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610739516.7A CN106326212B (zh) | 2016-08-26 | 2016-08-26 | 一种基于层次深度语义的隐式篇章关系分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610739516.7A CN106326212B (zh) | 2016-08-26 | 2016-08-26 | 一种基于层次深度语义的隐式篇章关系分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106326212A CN106326212A (zh) | 2017-01-11 |
CN106326212B true CN106326212B (zh) | 2019-04-16 |
Family
ID=57792009
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610739516.7A Active CN106326212B (zh) | 2016-08-26 | 2016-08-26 | 一种基于层次深度语义的隐式篇章关系分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106326212B (zh) |
Families Citing this family (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107168956B (zh) * | 2017-05-26 | 2020-06-02 | 北京理工大学 | 一种基于管道的中文篇章结构分析方法及系统 |
CN107273358B (zh) * | 2017-06-18 | 2020-06-05 | 北京理工大学 | 一种基于管道模式的端到端英文篇章结构自动分析方法 |
CN107330032B (zh) * | 2017-06-26 | 2020-08-21 | 北京理工大学 | 一种基于递归神经网络的隐式篇章关系分析方法 |
CN107368592B (zh) * | 2017-07-26 | 2020-09-25 | 成都科来网络技术有限公司 | 一种用于网络安全报告的文本特征模型建模方法及装置 |
CN107870964B (zh) * | 2017-07-28 | 2021-04-09 | 北京中科汇联科技股份有限公司 | 一种应用于答案融合系统的语句排序方法及系统 |
CN107679144B (zh) * | 2017-09-25 | 2021-07-16 | 平安科技(深圳)有限公司 | 基于语义相似度的新闻语句聚类方法、装置及存储介质 |
CN108509411B (zh) * | 2017-10-10 | 2021-05-11 | 腾讯科技(深圳)有限公司 | 语义分析方法和装置 |
CN107590134A (zh) * | 2017-10-26 | 2018-01-16 | 福建亿榕信息技术有限公司 | 文本情感分类方法、存储介质及计算机 |
CN109710915B (zh) | 2017-10-26 | 2021-02-23 | 华为技术有限公司 | 复述语句生成方法及装置 |
CN108304439B (zh) * | 2017-10-30 | 2021-07-27 | 腾讯科技(深圳)有限公司 | 一种语义模型优化方法、装置及智能设备、存储介质 |
CN107967258B (zh) * | 2017-11-23 | 2021-09-17 | 广州艾媒数聚信息咨询股份有限公司 | 文本信息的情感分析方法和系统 |
CN109446526B (zh) * | 2018-10-26 | 2023-05-12 | 苏州大学 | 一种隐式篇章关系语料库的构建方法、装置和存储介质 |
CN109977407A (zh) * | 2019-03-27 | 2019-07-05 | 北京信息科技大学 | 一种基于词嵌入的书面语篇多层次差异分析方法 |
CN110263159B (zh) * | 2019-05-28 | 2022-07-26 | 电子科技大学 | 一种基于单分类器多任务网络的隐式句间关系分析方法 |
CN111209366B (zh) * | 2019-10-10 | 2023-04-21 | 天津大学 | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 |
CN111695341B (zh) * | 2020-06-16 | 2023-04-14 | 北京理工大学 | 一种基于篇章结构图卷积的隐式篇章关系分析方法和系统 |
CN112287119B (zh) * | 2020-06-23 | 2022-10-18 | 北京理工大学 | 一种在线资源相关信息抽取的知识图谱生成方法 |
CN113779963B (zh) * | 2021-07-30 | 2024-08-06 | 北京理工大学 | 一种用于隐式篇章关系分析的显式数据筛选方法及系统 |
CN114942991B (zh) * | 2022-03-10 | 2023-04-21 | 华院计算技术(上海)股份有限公司 | 一种基于隐喻识别的情感分类模型构建方法 |
CN118095250B (zh) * | 2024-04-23 | 2024-06-28 | 华东交通大学 | 一种细分领域增强的隐式篇章关系识别方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605781A (zh) * | 2013-11-29 | 2014-02-26 | 苏州大学 | 一种隐式篇章关系类型推理方法及系统 |
CN104090868B (zh) * | 2014-08-04 | 2017-06-16 | 苏州大学 | 一种隐式篇章关系的分析方法及系统 |
-
2016
- 2016-08-26 CN CN201610739516.7A patent/CN106326212B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN106326212A (zh) | 2017-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106326212B (zh) | 一种基于层次深度语义的隐式篇章关系分析方法 | |
CN107491531B (zh) | 基于集成学习框架的中文网络评论情感分类方法 | |
Xie et al. | An improved algorithm for sentiment analysis based on maximum entropy | |
CN108121829B (zh) | 面向软件缺陷的领域知识图谱自动化构建方法 | |
Gupta et al. | Analyzing the dynamics of research by extracting key aspects of scientific papers | |
Li et al. | Structure-aware review mining and summarization | |
CN106372061B (zh) | 基于语义的短文本相似度计算方法 | |
CN106599032B (zh) | 一种结合稀疏编码和结构感知机的文本事件抽取方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN110188344A (zh) | 一种多特征融合的关键词提取方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN107688870B (zh) | 一种基于文本流输入的深度神经网络的分层因素可视化分析方法及装置 | |
CN109960756A (zh) | 新闻事件信息归纳方法 | |
CN110362678A (zh) | 一种自动提取中文文本关键词的方法与装置 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN108959305A (zh) | 一种基于互联网大数据的事件抽取方法及系统 | |
CN110750646B (zh) | 一种旅店评论文本的属性描述提取方法 | |
CN107451116B (zh) | 一种移动应用内生大数据统计分析方法 | |
CN115659947A (zh) | 基于机器阅读理解及文本摘要的多项选择答题方法及系统 | |
CN116775812A (zh) | 一种基于自然语音处理的中医药专利分析与挖掘工具 | |
Cong et al. | A small sample data-driven method: User needs elicitation from online reviews in new product iteration | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN116341521B (zh) | 一种基于文本特征的aigc文章辨识系统 | |
Rachman et al. | Word Embedding for Rhetorical Sentence Categorization on Scientific Articles. | |
CN115033689B (zh) | 一种基于小样本文本分类原型网络欧氏距离计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |