CN116432752A - 一种隐式篇章关系识别模型的构建方法及其应用 - Google Patents

一种隐式篇章关系识别模型的构建方法及其应用 Download PDF

Info

Publication number
CN116432752A
CN116432752A CN202310468690.2A CN202310468690A CN116432752A CN 116432752 A CN116432752 A CN 116432752A CN 202310468690 A CN202310468690 A CN 202310468690A CN 116432752 A CN116432752 A CN 116432752A
Authority
CN
China
Prior art keywords
task
drr
implicit
ssc
argument
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310468690.2A
Other languages
English (en)
Other versions
CN116432752B (zh
Inventor
张青
项威
王邦
梁超
徐明华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN202310468690.2A priority Critical patent/CN116432752B/zh
Publication of CN116432752A publication Critical patent/CN116432752A/zh
Application granted granted Critical
Publication of CN116432752B publication Critical patent/CN116432752B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种隐式篇章关系识别模型的构建方法及其应用,建立了基于任务增强提示学习的隐式篇章关系识别模型,包括编码模块、门控融合模块和语义标签分类模块。该构建方法首先对论元进行模板化,利用输入的论元、连接词等信息构成合适的提示模板并使用编码模块进行编码,得到[MASK]、[CLS]的隐层向量;通过门控融合模块将[CLS]的隐层向量融入主任务[MASK]的隐层向量中得到新的[MASK]隐层向量;最后通过语义标签分类模块预测两个论元之间的隐式篇章关系识别结果。本发明采用任务增强提示学习的方式对隐式篇章关系识别任务的论元、连接词等信息进行了更加全面的建模,有效的提高了隐式篇章关系识别的准确度。

Description

一种隐式篇章关系识别模型的构建方法及其应用
技术领域
本发明属于篇章关系识别领域,更具体地,涉及一种隐式篇章关系识别模型的构建方法及其应用。
背景技术
隐式篇章关系识别(Implict Discourse Relation Recognition,IDRR)是检测和分类没有显示连接的一对论元(句子或子句)之间的潜在语义关系。IDRR任务对自然语言处理(NLP)领域的许多下游任务至关重要,例如问答系统,信息摘要等等。针对隐式篇章关系识别,现在已经开发出了多种技术,最新的方法大致上可以分为基于“Pre-trained andfine-tuning”的学习范式和“Pre-trained,prompt and predict”的提示学习范式。
传统的“Pre-trained and fine-tuning”范式通常是把隐式篇章关系识别任务看做分类问题进行解决,关键在于设计一个复杂的下游神经网络(卷积神经网络、循环神经网络和图神经网络等等)与用作编码器的预训练语言模型相结合,在预训练模型已经通过预训练获得一定的语义知识前提下,在特定任务数据集后微调后用于解决特定任务。目前在许多NLP任务中取得了很好的效果并且已经成功的运用在IDRR任务中,其基本思想通常是使用PLM(如BERT等)对论元进行建模,将得到的表示送入复杂的下游网络建模文本概率,进而进行分类达到隐式篇章关系识别的目的。
传统的“Pre-trained,prompt and predict”的提示学习范式的基本思想是利用预训练语言模型(Pre-trained Language Model,PLM)本身所蕴含的语义知识完成下游任务。通常是把下游任务通过设计合适的提示模板转化为预训练语言模型的预训练任务(MLM任务)的形式。具体来讲就是结合下游任务的输入设计合适的提示模板,以完形填空的形式向PLM提问,然后将PLM的回答映射到对应的标签,从而完成下游任务。对于隐式篇章关系识别(Implicit Discourse Relation Recognition,IDRR)任务,在一些研究中设计了类似“论元1,[MASK],论元2”的模板,根据PLM在[MASK]处填入的连接词确定两个论元之间的语义关系。目前这一方法已经在NLP许多任务包括IDRR任务中取得了良好的性能,但是,现有的基于提示学习的隐式篇章关系识别方法忽略了论元本身语义和真实连接词,导致识别结果的精度降低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种隐式篇章关系识别模型的构建方法及其应用,由此解决现有的基于提示学习的隐式篇章关系识别方法忽略了论元本身语义和真实连接词,导致识别结果的精度降低的技术问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,包括:
S1,搭建隐式篇章关系识别模型;所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(x)、Tssc(x)、TACP(xk)进行联合编码,得到隐层向量
Figure BDA0004203192890000021
其中,TDRR(x)、Tssc(x)、TACP(xk)分别为用于描述自然语言顺序的主任务提示模板、用于描述论元对之间的抽象语义关系的第一辅助任务提示模板、用于描述论元对之间的真实连接词的第二辅助任务提示模板,均为根据数据集中各条数据的论元对构建得到;
所述门控融合模块用于将
Figure BDA0004203192890000022
与/>
Figure BDA0004203192890000023
进行融合得到/>
Figure BDA0004203192890000024
所述语义标签分类模块用于根据
Figure BDA0004203192890000031
预测所述论元对之间的关系词在全词表上的概率分布并将其映射至TDRR(x)的答案空间,并将其中概率最大的关系词对应的语义标签作为识别结果;
S2,以最小化分别根据
Figure BDA0004203192890000032
预测出的所述论元对之间的关系词、语义词、隐式连接词对应的语义标签与所述论元对之间的真实连接词对应的语义标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、论元对之间的真实连接词及其对应的语义标签。
按照本发明的第二方面,提供了一种基于任务增强提示学习的隐式篇章关系识别方法,包括:
根据待识别数据的论元对构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用如第一方面所述的方法构建的隐式篇章关系识别模型,得到识别结果。
按照本发明的第三方面,提供了一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
按照本发明的第四方面,提供了一种基于任务增强提示学习的隐式篇章关系识系统,包括:
根据待识别数据的论元对和连接词构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用如第二方面所述的方法构建的隐式篇章关系识别模型,得到识别结果。
按照本发明的第五方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或如第二方面所述的基于任务增强提示学习的隐式篇章关系识别方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供的基于任务增强提示学习的隐式篇章关系识别模型的构建方法,同时将三个提示模板以串联的方式构成一个联合提示模板对论元、连接词和语义等进行更完整的建模,设计了DRR、SSC和ACP三个不同的提示模板分别重点关注论元和连接词的浅层联系、论元间的抽象语义关系、隐式连接词,并以串联的方式组合,其中还使用了人工插入的特殊标记[Arg1]和[Arg2]概括描述两个论元的抽象含义,能够提高隐式篇章关系识别的准确率;在计算主任务的[MASK]隐层向量时融入了辅助任务提示模板的语义信息特征,进一步促进了隐式篇章关系识别效果的提升。
附图说明
图1是本发明实施例提供的隐式篇章关系识别模型的结构示意图;
图2是本发明实施例提供的基于任务增强提示学习的隐式篇章关系识别模型的构建方法流程示意图;
图3是本发明实施例提供的模型在使用BERT作编码器时使用不同任务的表现。
图4是本发明实施例提供的模型在使用RoBERTa作编码器时使用不同任务的表现。
图5是本发明实施例提供的模型和Prompt-DRR模型对一条数据的篇章关系识别情况。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先需要说明的是,本发明使用基于Transformer的预训练语言模型对论元等信息进行编码。预训练语言模型就是指应用于具体任务之前先在大规模语料库上使用合适的预训练任务进行预训练的模型,通过预训练,使得这些模型学习到了具备一定通用性、有丰富语义特征的表示。现在被广泛使用的是基于Transformer的预训练语言模型,使用注意力机制结合上下文对单词进行建模表示,如RoBERTa,BERT等,为了使得这些模型中的编码器学习到合理的表示,还设计了一系列的预训练任务,如上下句预测任务(Next SentencePredict,NSP)和掩码词预测任务(Masked Language Modeling,MLM)等。
本发明基于”pre-train,prompt,and predict”的提示学习范式,整体思路在于,通过构建适当的提示模板将特定任务转化成与预训练任务(MLM)相近的形式。具体来说,该方法首先需要构建提示模板,提示模板与自然语言相近,且其中包含了解决特定任务所需的输入,让预训练语言模型以完形填空的形式回答问题,并将模型的答案映射到特定任务的某一标签。基于此,本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,包括:
S1,搭建隐式篇章关系识别模型;如图1-2所示,所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(x)、Tssc(x)、TACP(xk)进行联合编码,得到隐层向量
Figure BDA0004203192890000051
其中,TDRR(x)、Tssc(x)、TACP(xk)分别为用于描述自然语言顺序的主任务提示模板、用于描述论元对之间的抽象语义关系的第一辅助任务提示模板、用于描述论元对之间的真实连接词的第二辅助任务提示模板,均为根据数据集中每条数据的论元对和连接词构建得到;
所述门控融合模块用于将
Figure BDA0004203192890000061
与/>
Figure BDA0004203192890000062
进行融合得到/>
Figure BDA0004203192890000063
所述语义标签分类模块用于根据
Figure BDA0004203192890000064
预测所述论元对之间的关系词在全词表上的概率分布并将其映射至DRR的答案空间VDRR,并将其中概率最大的关系词对应的语义标签作为识别结果;
S2,以最小化分别根据
Figure BDA0004203192890000065
预测出的所述论元对之间的关系词、语义词、隐式连接词对应的语义标签与所述论元对之间的真实连接词对应的语义标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、所述论元对之间的真实连接词及其对应的语义标签。
进一步地,TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC
TACP(xk)=the connective word is[MASK]DRR
其中,Arg1i和Arg2j为论元对,[Arg1]和[Arg2]为人工插入的用于概括Arg1i和Arg2j含义的人工标记,[MASK]DRR用于在TDRR(x)的答案空间中预测论元对之间的关系词;[MASK]SSC用于在Tssc(x)的答案空间中预测论元对之间的语义词,[MASK]DRR用于在TACP(xk)的答案空间中预测论元对之间的隐式连接词。
进一步地,
Figure BDA0004203192890000066
其中,
Figure BDA0004203192890000067
Figure BDA0004203192890000068
Figure BDA0004203192890000069
dh为隐层向量维度。
进一步地,分别将
Figure BDA0004203192890000071
输入分类器进行预测,得到在主任务、第一辅助任务和第二辅助任务下,关系词、语义词、隐式连接词在TDRR(x)、Tssc(x)、TACP(xk)的答案空间的概率分布。
进一步地,主任务、第一辅助任务和第二辅助任务具有各自的离散答案空间。
进一步地,所述编码模块为RoBERTa模型。
具体地,本发明提供的基于任务增强提示学习的隐式篇章关系识别模型的建立方法,包括:文本预处理步骤、输入模板化步骤、答案词预测步骤、答案空间映射步骤、训练和测试网络步骤;
(1)文本预处理步骤:对数据集中的原始输入数据进行预处理,从中提取论元、连接词及其语义标签。
(2)输入模板化步骤:
基于自定义的三个串联模板,将每条数据的论元、连接词等信息组合成对应的模板格式。包括以下子步骤:
(2-1)首先将每对论元xk=(Arg1i;Arg2j)和代表连接词的[MASK]标记构造为能够描述自然语言顺序的主任务提示模板TDRR(x):
TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j.
其中,Arg1i和Arg2j是两个论元,[Arg1]和[Arg2]是人工插入的两个特殊标记,分别起到概括Arg1i和Arg2j含义的作用,在两个论元之间插入PLM的特定标记[MASK],后续在人工构建的包括16个连接词的主任务(DRR)的答案空间VDRR中进行两个论元之间的关系词的预测。
另外,使用PLM特定标记[CLS]和[SEP]表示输入句子T的开头和结尾。
(2-2)使用人工插入的[Arg1]和[Arg2]标记构造为能直接描述论元之间抽象语义关系的辅助任务提示模板TSSC(x):
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC.
其中[Arg1]和[Arg2]是前述步骤中人工插入的两个特殊标记,分别概括了Arg1i和Arg2j的含义,[MASK]SSC则用于在ACP的答案空间VACP中直接预测表征两个论元之间的语义关系的语义词。同样地,也使用了[CLS]和[SEP]表示输入句子T的开头和结尾。
(2-3)构造能直接描述两个论元之间真实连接词(数据集标注者插入的连接词,即S1中的连接词)的辅助任务提示模板TACP(x):
TACP(xk)=the connective word is[MASK]DRR.
其中[MASK]DRR用于在SSC的答案空间VSSC中直接预测两个论元之间的隐式连接词,同样地,也使用了[CLS]和[SEP]表示输入句子T的开头和结尾。
其中,主任务的目的是分类,而两个辅助任务的目的则是帮助模型更好的理解任务并引入更多的信息来提升分类的准确度。相应地,VDRR中的单词的数量小于VACP中的单词数量,VSSC中的单词的数量与语义标签的数量相同,且三个答案空间VDRR、VACP、VSSC中的单词对应的语义标签的种类与数量均相同;例如,VDRR由16个单词构成,对应4个语义标签,这16个单词是从所有连接词中挑选出来的、被认为具有一定代表性的关系词;VACP则由约170个连接词构成,这些连接词是由数据集标注者标注的数据集中每条数据的两个论元之间最合适的连接词;VSSC则由4个标签词构成,分别对应四个不同的语义标签。
(2-4)将步骤(2-1)至(2-3)所述三个子提示模板直接串联构成一个有包含三个[MASK]、对应三个不同答案空间的提示模板:
T(xk)=[TDRR(xk),TSSC(xk),TACP(xk)]
(3)答案词预测步骤:
将步骤(2-4)中构造的T(xk)模板输入隐式篇章关系识别模型的预训练语言模型(即编码模块)进行编码,得到对应特殊标记的隐层向量,经门控融合模块进行特征融合处理后使用MLM自带的分类器进行答案词的预测。包括以下子步骤:
(3-1)由隐式篇章关系识别模型的编码模块进行编码:将T(xk)模板输入预训练语言模型进行编码,从输出中取三个[MASK]、后两个[CLS]对应的隐层向量:
Figure BDA0004203192890000091
其中
Figure BDA0004203192890000092
是三个[MASK]的隐层向量,/>
Figure BDA0004203192890000093
是后两个提示模板的[CLS]的隐藏向量,d是隐层向量的维度。
优选地,步骤(3-1)中,使用RoBERTa的掩码语言模型,利用提示学习中掩码语言模型特定标记[MASK]预测提示模板中缺失的连接词或语义关系。
(3-2)由隐式篇章关系识别模型的门控融合模块进行特征融合:使用门控机制将两个辅助任务(SSC、ACP)的提示模板的句子表示([CLS]隐层向量
Figure BDA0004203192890000094
)与主任务提示模板的[MASK]隐层向量/>
Figure BDA0004203192890000095
进行融合:
Figure BDA0004203192890000096
Figure BDA0004203192890000097
Figure BDA0004203192890000098
Figure BDA0004203192890000099
其中
Figure BDA00042031928900000910
dh是隐层向量维度。
(3-3)首先由隐式篇章关系识别模型的语义标签模块进行预测:在前述步骤中我们已经得到了
Figure BDA00042031928900000911
三个隐层向量,分别代表融入了两个辅助任务的[CLS]的隐层向量的主任务提示模板的[MASK]隐层向量和两个辅助任务提示模板的[MASK]隐层向量,直接将三个隐层向量送入语义标签模块中,MLM自带的分类器MLM head进行预测,得到[MASK]在全词表上的概率分布:
PDRR([MASK]DRR=vDRR∈V|T(xk))
PSSC([MASK]SSC=vSSC∈V|T(xk))
PACP([MASK]ACP=vACP∈V|T(xk))
另外,分别为DRR、SSC、ACP三个任务分别设计了不同的离散答案空间,如SSC答案空间VSSC,其中包括四个单词分别对应四个不同的语义标签:
VSSC={comparison,contingency,expansion,temporal}
再如DRR的答案空间VDRR,其中包括16个单词,分别对应四个不同的语义标签,如表1所示:
表1
语义标签 答案空间
Comparison similarly,but,however,although
Contingency for,if,because,so
Expansion instead,by,thereby,specifically,and
Temporal simultaneously,previously,then
因此最终的概率分布会通过下式映射到设计的答案空间:
Figure BDA0004203192890000101
Figure BDA0004203192890000103
同样地,ACP在全词表对应的概率分布也会分别映射到大小为174的VACP。最后取DRR任务在VDRR中概率最大的词对应的语义标签作为最终结果。
(4)训练和测试网络步骤:基于预测的[MASK]在答案空间的概率分布
Figure BDA0004203192890000102
和真实标签y构建损失函数,损失函数采用交叉熵损失函数,用公式表示如下:
Figure BDA0004203192890000111
其中,y(k)
Figure BDA0004203192890000112
分别是文档中第k个论元对的真实标签和预测标签。λ和θ是正则化超参数。
三个任务分别使用相同方式计算损失LDRR,LSSC,LACP,然后相加得到总损失,也即,主任务DRR与两个辅助任务SSC、ACP采用联合训练的方法进行训练:
L=LDRR+β*LSSC+γ*LACP
其中β,γ分别是两个辅助任务的损失系数,然后训练网络以最小化损失函数。
数据集包括训练集、验证集和测试集。采用训练集对模型训练完成后,输入验证集和测试集,选取验证集上F1值最高的模型,从而得到所对应的测试样本的篇章关系预测结果。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别方法,包括:
根据待识别数据的论元对构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用上述任一实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法构建的隐式篇章关系识别模型,得到识别结果。
下面以广泛应用于IDRR任务的the Penn Discourse TreeBank 3.0courpus(PDTB3.0)数据集为例,展示本发明中提出的基于任务增强提示学习的隐式篇章关系识别方法的性能效果。PDTB收集自华尔街日报,数据量超过一百万词。其一级标签有四个:Expansion、Comparison、Contingency、Temporal,训练集共包含17945条数据,其中四类数据各有8645、1937、5916、1447条,验证集和测试集大小分别为1653和1474,其中各类型数据分布与训练集相似。在本实验中我们采用准确率(P),召回率(R)以及F1值作为性能指标。
使用HuggingFace transformers提供的768维预训练RoBERTa模型和BERT模型进行实验,并在NVIDIA GTX 3090Ti GPUs上运行带有CUDA的PyTorch框架。RoBERTa和BERT都是由Facebook提出的一种通过对大量未标记文本进行完形填空任务以无监督的方式进行预训练的语言模型。实验的{学习率,α,β}设置为{1e-5,0.3,0.4}(RoBERTa)和{5e-6,0.3,0.3}(BERT),其中α、β分别代表SSC任务、ACP任务的损失系数,所有可训练参数均从正态分布随机初始化。我们使用L2正则化的Adam优化器并结合dropout进行模型训练。
为进一步探讨不同任务(DRR、SSC、ACP)相互作用的影响,图3和图4以柱状折线图的形式示出本发明提出的隐式篇章关系识别模型(以下称为TEPrompt模型)在使用不同任务时的表现,其中图3中的模型使用BERT作为编码器,图4中的模型使用RoBERTa作为编码器,模型均使用DRR作为主任务,横坐标代表模型使用了哪些辅助任务,柱形高度代表了模型预测的准确率,折线图代表了模型预测的F1得分。
对比图中结果可以发现:SSC任务和ACP任务对于IDRR任务性能的提升均有帮助,随着辅助任务的加入,模型的F1得分和准确率均成上升趋势;另外对比发现,相较于SSC任务,ACP任务带来了更大的性能增益,我们分析这是由于人工插入的连接词对于IDRR任务是一个相当重要的信息,而在主任务DRR中损失了一部分连接词信息,通过ACP任务的加入进行了一定程度上的补全,因此取得了更好的效果。同样也再次说明了基于任务增强提示学习的隐式篇章关系识别方法有利于隐式篇章关系识别效果的提升。
图5示出TEPrompt模型和Prompt-DRR模型对PDTB 3.0数据集中某一条数据的篇章关系识别情况。从图中可以看出,针对这一条数据,Prompt-DRR和TEPrompt的[MASK]隐层向量明显不同,证明两个将两个辅助任务的[CLS]隐层向量(一般认为该向量代表了其后句子句意)与主任务的[MASK]向量融合确实为该向量带来了变化。通过结果也可以看出正是这种变化使得TEPrompt预测结果正确。通过这一示例的分析,我们也可以认识到特征融合这一步骤的有效性。
表2
Figure BDA0004203192890000131
表2示出本发明提出的TEPrompt模型与现有竞争模型在准确率和F1得分2个方面的性能比较。从表中可以看出,本发明提出的模型性能明显优于现有竞争模型,且无论是使用BERT作为编码器还是使用RoBERTa作为编码器都取得了比使用同样编码器的模型更好的性能,这说明基于任务增强提示学习的隐式篇章关系识别模型所额外关注的语义信息和真实连接词有助于隐式篇章关系的识别。
为了对比本发明所提出的主任务和辅助任务的重要性以及特征融合机制是否对隐式篇章关系识别起到正面影响,本发明进行了消融实验,测试了6种方案的隐式篇章关系识别效果:
(1)Prompt-SSC:本模型仅使用SSC任务完成IDRR任务;
(2)TEPrompt-SSC:相比于TEPrompt,本模型使用SSC作为主任务;
(3)Prompt-ACP:本模型仅使用ACP任务完成IDRR任务;
(4)TEPrompt-ACP:相比于TEPrompt,本模型使用ACP作为主任务;
(5)Prompt-DRR:本模型仅使用DRR任务完成IDRR任务;
(6)TEPrompt w/o Gate:相比于TRPrompt,本模型无特征融合模块;
Figure BDA0004203192890000141
表3
对比表3结果可以发现:与ConnPrompt-1,2,3类似的Prompt-DRR性能相近,说明我们所插入的两个特殊符号并没有给性能带来负面影响;Prompt-DRR、Promtp-SSC与Prompt-ACP的性能均较低,而将三者融合后的TEPrompt模型性能取得了极大提升,证明我们使用串联的Prompt结合门控机制融合方案的有效性,说明论元语义、连接词等信息对于隐式篇章关系识别任务均十分重要;另外对比TEPrompt、TEPrompt-SSC和TEPrompt-ACP发现使用DRR作为主任务才能取得最好的效果,我们分析这是因为SSC任务和ACP任务的任务目标与IDRR任务不完全相符,SSC任务直接利用抽象语义获得论元间的关系,而ACP则是旨在预测两个论元之间的真实连接词。
综上,本发明提供的方法,由于采用了提示学习范式,且使用三个不同的提示模板串联构成最终的提示模板,三个提示模板分别重点关注论元和连接词的浅层联系、论元间的抽象语义关系、真实连接词,能够更好的对论元、连接词等进行了全面建模;由于采用了特征融合机制,将辅助任务提示模板所蕴含的句意([CLS]的表示向量)与主任务的[MASK]标记的表示向量相融合,促进了隐式篇章关系识别效果的提升。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述实施例所述的基于任务增强提示学习的隐式篇章关系识别方法。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识系统,包括:
根据待识别数据的论元对和连接词构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用上述实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法构建的隐式篇章关系识别模型,得到识别结果。
本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如上述任一实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或上述实施例所述的基于任务增强提示学习的隐式篇章关系识别方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,其特征在于,包括:
S1,搭建隐式篇章关系识别模型;所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(x)、Tssc(x)、TACP(xk)进行联合编码,得到隐层向量
Figure FDA0004203192880000011
其中,TDRR(x)、Tssc(x)、TACP(xk)分别为用于描述自然语言顺序的主任务提示模板、用于描述论元对之间的抽象语义关系的第一辅助任务提示模板、用于描述论元对之间的真实连接词的第二辅助任务提示模板,均为根据数据集中各条数据的论元对构建得到;
所述门控融合模块用于将
Figure FDA0004203192880000012
与/>
Figure FDA0004203192880000013
进行融合得到/>
Figure FDA0004203192880000014
所述语义标签分类模块用于根据
Figure FDA0004203192880000015
预测所述论元对之间的关系词在全词表上的概率分布并将其映射至TDRR(x)的答案空间,并将其中概率最大的关系词对应的语义标签作为识别结果;
S2,以最小化分别根据
Figure FDA0004203192880000016
预测出的所述论元对之间的关系词、语义词、隐式连接词与真实标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、论元对之间的真实连接词及其对应的语义标签。
2.如权利要求1所述的方法,其特征在于,
TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC
TACP(xk)=the connective word is[MASK]DRR
其中,Arg1i和Arg2j为论元对,[Arg1]和[Arg2]为人工插入的用于概括Arg1i和Arg2j含义的人工标记,[MASK]DRR用于在TDRR(x)的答案空间中预测论元对之间的关系词;[MASK]SSC用于在Tssc(x)的答案空间中预测论元对之间的语义词,[MASK]DRR用于在TACP(xk)的答案空间中预测论元对之间的隐式连接词。
3.如权利要求1或2所述的方法,其特征在于,
Figure FDA0004203192880000021
其中,
Figure FDA0004203192880000022
Figure FDA0004203192880000023
Figure FDA0004203192880000024
dh为隐层向量维度。
4.如权利要求1所述的方法,其特征在于,分别将
Figure FDA0004203192880000025
输入分类器进行预测,得到在主任务、第一辅助任务和第二辅助任务下,关系词、语义词、隐式连接词在TDRR(x)、Tssc(x)、TACP(xk)的答案空间的概率分布。
5.如权利要求1所述的方法,其特征在于,主任务、第一辅助任务和第二辅助任务具有各自的离散答案空间。
6.如权利要求1所述的方法,其特征在于,所述编码模块为RoBERTa模型。
7.一种基于任务增强提示学习的隐式篇章关系识别方法,其特征在于,包括:
根据待识别数据的论元对构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用如权利要求1-6任一项所述的方法构建的隐式篇章关系识别模型,得到识别结果。
8.一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-6任一项所述的方法。
9.一种基于任务增强提示学习的隐式篇章关系识系统,其特征在于,包括:
根据待识别数据的论元对和连接词构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用权利要求7所述的方法构建的隐式篇章关系识别模型,得到识别结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如权利要求1-6任一项所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或如权利要求7所述的基于任务增强提示学习的隐式篇章关系识别方法。
CN202310468690.2A 2023-04-27 2023-04-27 一种隐式篇章关系识别模型的构建方法及其应用 Active CN116432752B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310468690.2A CN116432752B (zh) 2023-04-27 2023-04-27 一种隐式篇章关系识别模型的构建方法及其应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310468690.2A CN116432752B (zh) 2023-04-27 2023-04-27 一种隐式篇章关系识别模型的构建方法及其应用

Publications (2)

Publication Number Publication Date
CN116432752A true CN116432752A (zh) 2023-07-14
CN116432752B CN116432752B (zh) 2024-02-02

Family

ID=87088918

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310468690.2A Active CN116432752B (zh) 2023-04-27 2023-04-27 一种隐式篇章关系识别模型的构建方法及其应用

Country Status (1)

Country Link
CN (1) CN116432752B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882398A (zh) * 2023-09-06 2023-10-13 华东交通大学 基于短语交互的隐式篇章关系识别方法和系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329880A1 (en) * 2017-05-10 2018-11-15 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111209366A (zh) * 2019-10-10 2020-05-29 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
US20200364409A1 (en) * 2019-05-17 2020-11-19 Naver Corporation Implicit discourse relation classification with contextualized word representation
CN112395876A (zh) * 2021-01-21 2021-02-23 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
CN112528642A (zh) * 2020-12-15 2021-03-19 华中师范大学 一种隐式篇章关系自动识别方法及系统
CN112541337A (zh) * 2020-12-16 2021-03-23 格美安(北京)信息技术有限公司 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN113139380A (zh) * 2020-01-20 2021-07-20 华为技术有限公司 语料筛选方法和装置
US20210342548A1 (en) * 2017-05-10 2021-11-04 Oracle International Corporation Discourse parsing
WO2021243706A1 (zh) * 2020-06-05 2021-12-09 中山大学 一种跨语言生成提问的方法和装置
US20220237378A1 (en) * 2021-01-25 2022-07-28 Royal Bank Of America System and method for natural language processing with pretrained language models
US20220382527A1 (en) * 2021-05-18 2022-12-01 Salesforce.Com, Inc. Systems and methods for code understanding and generation

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180329880A1 (en) * 2017-05-10 2018-11-15 Oracle International Corporation Enabling rhetorical analysis via the use of communicative discourse trees
US20210342548A1 (en) * 2017-05-10 2021-11-04 Oracle International Corporation Discourse parsing
US20200364409A1 (en) * 2019-05-17 2020-11-19 Naver Corporation Implicit discourse relation classification with contextualized word representation
CN110781290A (zh) * 2019-10-10 2020-02-11 南京摄星智能科技有限公司 一种长篇章结构化文本摘要提取方法
CN110888980A (zh) * 2019-10-10 2020-03-17 天津大学 基于知识增强的注意力神经网络的隐式篇章关系识别方法
CN111209366A (zh) * 2019-10-10 2020-05-29 天津大学 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法
CN113139380A (zh) * 2020-01-20 2021-07-20 华为技术有限公司 语料筛选方法和装置
WO2021243706A1 (zh) * 2020-06-05 2021-12-09 中山大学 一种跨语言生成提问的方法和装置
CN111428525A (zh) * 2020-06-15 2020-07-17 华东交通大学 隐式篇章关系识别方法、系统及可读存储介质
CN112528642A (zh) * 2020-12-15 2021-03-19 华中师范大学 一种隐式篇章关系自动识别方法及系统
CN112541337A (zh) * 2020-12-16 2021-03-23 格美安(北京)信息技术有限公司 一种基于递归神经网络语言模型的文档模板自动生成方法及系统
CN112395876A (zh) * 2021-01-21 2021-02-23 华东交通大学 基于知识蒸馏和多任务学习的篇章关系识别方法与装置
US20220237378A1 (en) * 2021-01-25 2022-07-28 Royal Bank Of America System and method for natural language processing with pretrained language models
US20220382527A1 (en) * 2021-05-18 2022-12-01 Salesforce.Com, Inc. Systems and methods for code understanding and generation

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YAOJIE LU等: "Cross-lingual implicit discourse relation recognition with co-training", 《FRONTIERS OF INFORMATION TECHNOLOGY & ELECTRONIC ENGINEERING》, vol. 19, no. 5, pages 651 - 661, XP036548512, DOI: 10.1631/FITEE.1601865 *
俞亮: "基于知识迁移的隐式篇章关系识别研究", 《中国优秀硕士学位论文全文数据库信息科技辑》, no. 02, pages 138 - 1373 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116882398A (zh) * 2023-09-06 2023-10-13 华东交通大学 基于短语交互的隐式篇章关系识别方法和系统
CN116882398B (zh) * 2023-09-06 2023-12-08 华东交通大学 基于短语交互的隐式篇章关系识别方法和系统

Also Published As

Publication number Publication date
CN116432752B (zh) 2024-02-02

Similar Documents

Publication Publication Date Title
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
CN112733533B (zh) 一种基于bert模型及文本-图像关系传播的多模态命名实体识别方法
CN112183094B (zh) 一种基于多元文本特征的中文语法查错方法及系统
CN116432752B (zh) 一种隐式篇章关系识别模型的构建方法及其应用
CN113449514B (zh) 一种适用于垂直领域的文本纠错方法及其纠错装置
CN112818698B (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN112926345A (zh) 基于数据增强训练的多特征融合神经机器翻译检错方法
He English grammar error detection using recurrent neural networks
CN114818717A (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113919366A (zh) 一种面向电力变压器知识问答的语义匹配方法和装置
CN113869055A (zh) 基于深度学习的电网项目特征属性识别方法
CN116029305A (zh) 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质
CN115455189A (zh) 基于提示学习的政策文本分类方法
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN113869054A (zh) 一种基于深度学习的电力领域项目特征识别方法
Wu et al. Joint intent detection model for task-oriented human-computer dialogue system using asynchronous training
Wu et al. One improved model of named entity recognition by combining BERT and BiLSTM-CNN for domain of Chinese railway construction
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
CN114757183B (zh) 一种基于对比对齐网络的跨领域情感分类方法
Gill et al. Dense image captioning in Hindi
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115033659A (zh) 基于深度学习的子句级自动摘要模型系统及摘要生成方法
CN114881038A (zh) 基于跨度和注意力机制的中文实体与关系抽取方法及装置
CN114841148A (zh) 文本识别模型训练方法、模型训练装置、电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant