CN116432752B - 一种隐式篇章关系识别模型的构建方法及其应用 - Google Patents
一种隐式篇章关系识别模型的构建方法及其应用 Download PDFInfo
- Publication number
- CN116432752B CN116432752B CN202310468690.2A CN202310468690A CN116432752B CN 116432752 B CN116432752 B CN 116432752B CN 202310468690 A CN202310468690 A CN 202310468690A CN 116432752 B CN116432752 B CN 116432752B
- Authority
- CN
- China
- Prior art keywords
- task
- drr
- mask
- ssc
- acp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title abstract description 9
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims description 43
- 238000012549 training Methods 0.000 claims description 34
- 238000009826 distribution Methods 0.000 claims description 13
- 101150026173 ARG2 gene Proteins 0.000 claims description 12
- 101100260702 Mus musculus Tinagl1 gene Proteins 0.000 claims description 12
- 101150088826 arg1 gene Proteins 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000003780 insertion Methods 0.000 claims description 4
- 230000037431 insertion Effects 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000694 effects Effects 0.000 description 9
- 238000012360 testing method Methods 0.000 description 7
- 230000006872 improvement Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 230000002123 temporal effect Effects 0.000 description 3
- 238000012795 verification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000013604 expression vector Substances 0.000 description 2
- HPTJABJPZMULFH-UHFFFAOYSA-N 12-[(Cyclohexylcarbamoyl)amino]dodecanoic acid Chemical compound OC(=O)CCCCCCCCCCCNC(=O)NC1CCCCC1 HPTJABJPZMULFH-UHFFFAOYSA-N 0.000 description 1
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000007499 fusion processing Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
- G06N5/025—Extracting rules from data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种隐式篇章关系识别模型的构建方法及其应用,建立了基于任务增强提示学习的隐式篇章关系识别模型,包括编码模块、门控融合模块和语义标签分类模块。该构建方法首先对论元进行模板化,利用输入的论元、连接词等信息构成合适的提示模板并使用编码模块进行编码,得到[MASK]、[CLS]的隐层向量;通过门控融合模块将[CLS]的隐层向量融入主任务[MASK]的隐层向量中得到新的[MASK]隐层向量;最后通过语义标签分类模块预测两个论元之间的隐式篇章关系识别结果。本发明采用任务增强提示学习的方式对隐式篇章关系识别任务的论元、连接词等信息进行了更加全面的建模,有效的提高了隐式篇章关系识别的准确度。
Description
技术领域
本发明属于篇章关系识别领域,更具体地,涉及一种隐式篇章关系识别模型的构建方法及其应用。
背景技术
隐式篇章关系识别(Implict Discourse Relation Recognition,IDRR)是检测和分类没有显示连接的一对论元(句子或子句)之间的潜在语义关系。IDRR任务对自然语言处理(NLP)领域的许多下游任务至关重要,例如问答系统,信息摘要等等。针对隐式篇章关系识别,现在已经开发出了多种技术,最新的方法大致上可以分为基于“Pre-trained andfine-tuning”的学习范式和“Pre-trained,prompt and predict”的提示学习范式。
传统的“Pre-trained and fine-tuning”范式通常是把隐式篇章关系识别任务看做分类问题进行解决,关键在于设计一个复杂的下游神经网络(卷积神经网络、循环神经网络和图神经网络等等)与用作编码器的预训练语言模型相结合,在预训练模型已经通过预训练获得一定的语义知识前提下,在特定任务数据集后微调后用于解决特定任务。目前在许多NLP任务中取得了很好的效果并且已经成功的运用在IDRR任务中,其基本思想通常是使用PLM(如BERT等)对论元进行建模,将得到的表示送入复杂的下游网络建模文本概率,进而进行分类达到隐式篇章关系识别的目的。
传统的“Pre-trained,prompt and predict”的提示学习范式的基本思想是利用预训练语言模型(Pre-trained Language Model,PLM)本身所蕴含的语义知识完成下游任务。通常是把下游任务通过设计合适的提示模板转化为预训练语言模型的预训练任务(MLM任务)的形式。具体来讲就是结合下游任务的输入设计合适的提示模板,以完形填空的形式向PLM提问,然后将PLM的回答映射到对应的标签,从而完成下游任务。对于隐式篇章关系识别(Implicit Discourse Relation Recognition,IDRR)任务,在一些研究中设计了类似“论元1,[MASK],论元2”的模板,根据PLM在[MASK]处填入的连接词确定两个论元之间的语义关系。目前这一方法已经在NLP许多任务包括IDRR任务中取得了良好的性能,但是,现有的基于提示学习的隐式篇章关系识别方法忽略了论元本身语义和真实连接词,导致识别结果的精度降低。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种隐式篇章关系识别模型的构建方法及其应用,由此解决现有的基于提示学习的隐式篇章关系识别方法忽略了论元本身语义和真实连接词,导致识别结果的精度降低的技术问题。
为实现上述目的,按照本发明的第一方面,提供了一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,包括:
S1,搭建隐式篇章关系识别模型;所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(x)、Tssc(x)、TACP(xk)进行联合编码,得到隐层向量
其中,TDRR(x)、Tssc(x)、TACP(xk)分别为用于描述自然语言顺序的主任务提示模板、用于描述论元对之间的抽象语义关系的第一辅助任务提示模板、用于描述论元对之间的真实连接词的第二辅助任务提示模板,均为根据数据集中各条数据的论元对构建得到;
所述门控融合模块用于将与/>进行融合得到/>
所述语义标签分类模块用于根据预测所述论元对之间的关系词在全词表上的概率分布并将其映射至TDRR(x)的答案空间,并将其中概率最大的关系词对应的语义标签作为识别结果;
S2,以最小化分别根据预测出的所述论元对之间的关系词、语义词、隐式连接词对应的语义标签与所述论元对之间的真实连接词对应的语义标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、论元对之间的真实连接词及其对应的语义标签。
按照本发明的第二方面,提供了一种基于任务增强提示学习的隐式篇章关系识别方法,包括:
根据待识别数据的论元对构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用如第一方面所述的方法构建的隐式篇章关系识别模型,得到识别结果。
按照本发明的第三方面,提供了一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如第一方面所述的方法。
按照本发明的第四方面,提供了一种基于任务增强提示学习的隐式篇章关系识系统,包括:
根据待识别数据的论元对和连接词构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用如第二方面所述的方法构建的隐式篇章关系识别模型,得到识别结果。
按照本发明的第五方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如第一方面所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或如第二方面所述的基于任务增强提示学习的隐式篇章关系识别方法。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
本发明提供的基于任务增强提示学习的隐式篇章关系识别模型的构建方法,同时将三个提示模板以串联的方式构成一个联合提示模板对论元、连接词和语义等进行更完整的建模,设计了DRR、SSC和ACP三个不同的提示模板分别重点关注论元和连接词的浅层联系、论元间的抽象语义关系、隐式连接词,并以串联的方式组合,其中还使用了人工插入的特殊标记[Arg1]和[Arg2]概括描述两个论元的抽象含义,能够提高隐式篇章关系识别的准确率;在计算主任务的[MASK]隐层向量时融入了辅助任务提示模板的语义信息特征,进一步促进了隐式篇章关系识别效果的提升。
附图说明
图1是本发明实施例提供的隐式篇章关系识别模型的结构示意图;
图2是本发明实施例提供的基于任务增强提示学习的隐式篇章关系识别模型的构建方法流程示意图;
图3是本发明实施例提供的模型在使用BERT作编码器时使用不同任务的表现。
图4是本发明实施例提供的模型在使用RoBERTa作编码器时使用不同任务的表现。
图5是本发明实施例提供的模型和Prompt-DRR模型对一条数据的篇章关系识别情况。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
首先需要说明的是,本发明使用基于Transformer的预训练语言模型对论元等信息进行编码。预训练语言模型就是指应用于具体任务之前先在大规模语料库上使用合适的预训练任务进行预训练的模型,通过预训练,使得这些模型学习到了具备一定通用性、有丰富语义特征的表示。现在被广泛使用的是基于Transformer的预训练语言模型,使用注意力机制结合上下文对单词进行建模表示,如RoBERTa,BERT等,为了使得这些模型中的编码器学习到合理的表示,还设计了一系列的预训练任务,如上下句预测任务(Next SentencePredict,NSP)和掩码词预测任务(Masked Language Modeling,MLM)等。
本发明基于”pre-train,prompt,and predict”的提示学习范式,整体思路在于,通过构建适当的提示模板将特定任务转化成与预训练任务(MLM)相近的形式。具体来说,该方法首先需要构建提示模板,提示模板与自然语言相近,且其中包含了解决特定任务所需的输入,让预训练语言模型以完形填空的形式回答问题,并将模型的答案映射到特定任务的某一标签。基于此,本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,包括:
S1,搭建隐式篇章关系识别模型;如图1-2所示,所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(x)、Tssc(x)、TACP(xk)进行联合编码,得到隐层向量
其中,TDRR(x)、Tssc(x)、TACP(xk)分别为用于描述自然语言顺序的主任务提示模板、用于描述论元对之间的抽象语义关系的第一辅助任务提示模板、用于描述论元对之间的真实连接词的第二辅助任务提示模板,均为根据数据集中每条数据的论元对和连接词构建得到;
所述门控融合模块用于将与/>进行融合得到/>
所述语义标签分类模块用于根据预测所述论元对之间的关系词在全词表上的概率分布并将其映射至DRR的答案空间VDRR,并将其中概率最大的关系词对应的语义标签作为识别结果;
S2,以最小化分别根据预测出的所述论元对之间的关系词、语义词、隐式连接词对应的语义标签与所述论元对之间的真实连接词对应的语义标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、所述论元对之间的真实连接词及其对应的语义标签。
进一步地,TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j;
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC;
TACP(xk)=the connective word is[MASK]DRR;
其中,Arg1i和Arg2j为论元对,[Arg1]和[Arg2]为人工插入的用于概括Arg1i和Arg2j含义的人工标记,[MASK]DRR用于在TDRR(x)的答案空间中预测论元对之间的关系词;[MASK]SSC用于在Tssc(x)的答案空间中预测论元对之间的语义词,[MASK]DRR用于在TACP(xk)的答案空间中预测论元对之间的隐式连接词。
进一步地,
其中,
dh为隐层向量维度。
进一步地,分别将输入分类器进行预测,得到在主任务、第一辅助任务和第二辅助任务下,关系词、语义词、隐式连接词在TDRR(x)、Tssc(x)、TACP(xk)的答案空间的概率分布。
进一步地,主任务、第一辅助任务和第二辅助任务具有各自的离散答案空间。
进一步地,所述编码模块为RoBERTa模型。
具体地,本发明提供的基于任务增强提示学习的隐式篇章关系识别模型的建立方法,包括:文本预处理步骤、输入模板化步骤、答案词预测步骤、答案空间映射步骤、训练和测试网络步骤;
(1)文本预处理步骤:对数据集中的原始输入数据进行预处理,从中提取论元、连接词及其语义标签。
(2)输入模板化步骤:
基于自定义的三个串联模板,将每条数据的论元、连接词等信息组合成对应的模板格式。包括以下子步骤:
(2-1)首先将每对论元xk=(Arg1i;Arg2j)和代表连接词的[MASK]标记构造为能够描述自然语言顺序的主任务提示模板TDRR(x):
TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j.
其中,Arg1i和Arg2j是两个论元,[Arg1]和[Arg2]是人工插入的两个特殊标记,分别起到概括Arg1i和Arg2j含义的作用,在两个论元之间插入PLM的特定标记[MASK],后续在人工构建的包括16个连接词的主任务(DRR)的答案空间VDRR中进行两个论元之间的关系词的预测。
另外,使用PLM特定标记[CLS]和[SEP]表示输入句子T的开头和结尾。
(2-2)使用人工插入的[Arg1]和[Arg2]标记构造为能直接描述论元之间抽象语义关系的辅助任务提示模板TSSC(x):
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC.
其中[Arg1]和[Arg2]是前述步骤中人工插入的两个特殊标记,分别概括了Arg1i和Arg2j的含义,[MASK]SSC则用于在ACP的答案空间VACP中直接预测表征两个论元之间的语义关系的语义词。同样地,也使用了[CLS]和[SEP]表示输入句子T的开头和结尾。
(2-3)构造能直接描述两个论元之间真实连接词(数据集标注者插入的连接词,即S1中的连接词)的辅助任务提示模板TACP(x):
TACP(xk)=the connective word is[MASK]DRR.
其中[MASK]DRR用于在SSC的答案空间VSSC中直接预测两个论元之间的隐式连接词,同样地,也使用了[CLS]和[SEP]表示输入句子T的开头和结尾。
其中,主任务的目的是分类,而两个辅助任务的目的则是帮助模型更好的理解任务并引入更多的信息来提升分类的准确度。相应地,VDRR中的单词的数量小于VACP中的单词数量,VSSC中的单词的数量与语义标签的数量相同,且三个答案空间VDRR、VACP、VSSC中的单词对应的语义标签的种类与数量均相同;例如,VDRR由16个单词构成,对应4个语义标签,这16个单词是从所有连接词中挑选出来的、被认为具有一定代表性的关系词;VACP则由约170个连接词构成,这些连接词是由数据集标注者标注的数据集中每条数据的两个论元之间最合适的连接词;VSSC则由4个标签词构成,分别对应四个不同的语义标签。
(2-4)将步骤(2-1)至(2-3)所述三个子提示模板直接串联构成一个有包含三个[MASK]、对应三个不同答案空间的提示模板:
T(xk)=[TDRR(xk),TSSC(xk),TACP(xk)]
(3)答案词预测步骤:
将步骤(2-4)中构造的T(xk)模板输入隐式篇章关系识别模型的预训练语言模型(即编码模块)进行编码,得到对应特殊标记的隐层向量,经门控融合模块进行特征融合处理后使用MLM自带的分类器进行答案词的预测。包括以下子步骤:
(3-1)由隐式篇章关系识别模型的编码模块进行编码:将T(xk)模板输入预训练语言模型进行编码,从输出中取三个[MASK]、后两个[CLS]对应的隐层向量:
其中是三个[MASK]的隐层向量,/>是后两个提示模板的[CLS]的隐藏向量,d是隐层向量的维度。
优选地,步骤(3-1)中,使用RoBERTa的掩码语言模型,利用提示学习中掩码语言模型特定标记[MASK]预测提示模板中缺失的连接词或语义关系。
(3-2)由隐式篇章关系识别模型的门控融合模块进行特征融合:使用门控机制将两个辅助任务(SSC、ACP)的提示模板的句子表示([CLS]隐层向量)与主任务提示模板的[MASK]隐层向量/>进行融合:
其中dh是隐层向量维度。
(3-3)首先由隐式篇章关系识别模型的语义标签模块进行预测:在前述步骤中我们已经得到了三个隐层向量,分别代表融入了两个辅助任务的[CLS]的隐层向量的主任务提示模板的[MASK]隐层向量和两个辅助任务提示模板的[MASK]隐层向量,直接将三个隐层向量送入语义标签模块中,MLM自带的分类器MLM head进行预测,得到[MASK]在全词表上的概率分布:
PDRR([MASK]DRR=vDRR∈V|T(xk))
PSSC([MASK]SSC=vSSC∈V|T(xk))
PACP([MASK]ACP=vACP∈V|T(xk))
另外,分别为DRR、SSC、ACP三个任务分别设计了不同的离散答案空间,如SSC答案空间VSSC,其中包括四个单词分别对应四个不同的语义标签:
VSSC={comparison,contingency,expansion,temporal}
再如DRR的答案空间VDRR,其中包括16个单词,分别对应四个不同的语义标签,如表1所示:
表1
语义标签 | 答案空间 |
Comparison | similarly,but,however,although |
Contingency | for,if,because,so |
Expansion | instead,by,thereby,specifically,and |
Temporal | simultaneously,previously,then |
因此最终的概率分布会通过下式映射到设计的答案空间:
同样地,ACP在全词表对应的概率分布也会分别映射到大小为174的VACP。最后取DRR任务在VDRR中概率最大的词对应的语义标签作为最终结果。
(4)训练和测试网络步骤:基于预测的[MASK]在答案空间的概率分布和真实标签y构建损失函数,损失函数采用交叉熵损失函数,用公式表示如下:
其中,y(k)和分别是文档中第k个论元对的真实标签和预测标签。λ和θ是正则化超参数。
三个任务分别使用相同方式计算损失LDRR,LSSC,LACP,然后相加得到总损失,也即,主任务DRR与两个辅助任务SSC、ACP采用联合训练的方法进行训练:
L=LDRR+β*LSSC+γ*LACP
其中β,γ分别是两个辅助任务的损失系数,然后训练网络以最小化损失函数。
数据集包括训练集、验证集和测试集。采用训练集对模型训练完成后,输入验证集和测试集,选取验证集上F1值最高的模型,从而得到所对应的测试样本的篇章关系预测结果。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别方法,包括:
根据待识别数据的论元对构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用上述任一实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法构建的隐式篇章关系识别模型,得到识别结果。
下面以广泛应用于IDRR任务的the Penn Discourse TreeBank 3.0courpus(PDTB3.0)数据集为例,展示本发明中提出的基于任务增强提示学习的隐式篇章关系识别方法的性能效果。PDTB收集自华尔街日报,数据量超过一百万词。其一级标签有四个:Expansion、Comparison、Contingency、Temporal,训练集共包含17945条数据,其中四类数据各有8645、1937、5916、1447条,验证集和测试集大小分别为1653和1474,其中各类型数据分布与训练集相似。在本实验中我们采用准确率(P),召回率(R)以及F1值作为性能指标。
使用HuggingFace transformers提供的768维预训练RoBERTa模型和BERT模型进行实验,并在NVIDIA GTX 3090Ti GPUs上运行带有CUDA的PyTorch框架。RoBERTa和BERT都是由Facebook提出的一种通过对大量未标记文本进行完形填空任务以无监督的方式进行预训练的语言模型。实验的{学习率,α,β}设置为{1e-5,0.3,0.4}(RoBERTa)和{5e-6,0.3,0.3}(BERT),其中α、β分别代表SSC任务、ACP任务的损失系数,所有可训练参数均从正态分布随机初始化。我们使用L2正则化的Adam优化器并结合dropout进行模型训练。
为进一步探讨不同任务(DRR、SSC、ACP)相互作用的影响,图3和图4以柱状折线图的形式示出本发明提出的隐式篇章关系识别模型(以下称为TEPrompt模型)在使用不同任务时的表现,其中图3中的模型使用BERT作为编码器,图4中的模型使用RoBERTa作为编码器,模型均使用DRR作为主任务,横坐标代表模型使用了哪些辅助任务,柱形高度代表了模型预测的准确率,折线图代表了模型预测的F1得分。
对比图中结果可以发现:SSC任务和ACP任务对于IDRR任务性能的提升均有帮助,随着辅助任务的加入,模型的F1得分和准确率均成上升趋势;另外对比发现,相较于SSC任务,ACP任务带来了更大的性能增益,我们分析这是由于人工插入的连接词对于IDRR任务是一个相当重要的信息,而在主任务DRR中损失了一部分连接词信息,通过ACP任务的加入进行了一定程度上的补全,因此取得了更好的效果。同样也再次说明了基于任务增强提示学习的隐式篇章关系识别方法有利于隐式篇章关系识别效果的提升。
图5示出TEPrompt模型和Prompt-DRR模型对PDTB 3.0数据集中某一条数据的篇章关系识别情况。从图中可以看出,针对这一条数据,Prompt-DRR和TEPrompt的[MASK]隐层向量明显不同,证明两个将两个辅助任务的[CLS]隐层向量(一般认为该向量代表了其后句子句意)与主任务的[MASK]向量融合确实为该向量带来了变化。通过结果也可以看出正是这种变化使得TEPrompt预测结果正确。通过这一示例的分析,我们也可以认识到特征融合这一步骤的有效性。
表2
表2示出本发明提出的TEPrompt模型与现有竞争模型在准确率和F1得分2个方面的性能比较。从表中可以看出,本发明提出的模型性能明显优于现有竞争模型,且无论是使用BERT作为编码器还是使用RoBERTa作为编码器都取得了比使用同样编码器的模型更好的性能,这说明基于任务增强提示学习的隐式篇章关系识别模型所额外关注的语义信息和真实连接词有助于隐式篇章关系的识别。
为了对比本发明所提出的主任务和辅助任务的重要性以及特征融合机制是否对隐式篇章关系识别起到正面影响,本发明进行了消融实验,测试了6种方案的隐式篇章关系识别效果:
(1)Prompt-SSC:本模型仅使用SSC任务完成IDRR任务;
(2)TEPrompt-SSC:相比于TEPrompt,本模型使用SSC作为主任务;
(3)Prompt-ACP:本模型仅使用ACP任务完成IDRR任务;
(4)TEPrompt-ACP:相比于TEPrompt,本模型使用ACP作为主任务;
(5)Prompt-DRR:本模型仅使用DRR任务完成IDRR任务;
(6)TEPrompt w/o Gate:相比于TRPrompt,本模型无特征融合模块;
表3
对比表3结果可以发现:与ConnPrompt-1,2,3类似的Prompt-DRR性能相近,说明我们所插入的两个特殊符号并没有给性能带来负面影响;Prompt-DRR、Promtp-SSC与Prompt-ACP的性能均较低,而将三者融合后的TEPrompt模型性能取得了极大提升,证明我们使用串联的Prompt结合门控机制融合方案的有效性,说明论元语义、连接词等信息对于隐式篇章关系识别任务均十分重要;另外对比TEPrompt、TEPrompt-SSC和TEPrompt-ACP发现使用DRR作为主任务才能取得最好的效果,我们分析这是因为SSC任务和ACP任务的任务目标与IDRR任务不完全相符,SSC任务直接利用抽象语义获得论元间的关系,而ACP则是旨在预测两个论元之间的真实连接词。
综上,本发明提供的方法,由于采用了提示学习范式,且使用三个不同的提示模板串联构成最终的提示模板,三个提示模板分别重点关注论元和连接词的浅层联系、论元间的抽象语义关系、真实连接词,能够更好的对论元、连接词等进行了全面建模;由于采用了特征融合机制,将辅助任务提示模板所蕴含的句意([CLS]的表示向量)与主任务的[MASK]标记的表示向量相融合,促进了隐式篇章关系识别效果的提升。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如上述实施例所述的基于任务增强提示学习的隐式篇章关系识别方法。
本发明实施例提供一种基于任务增强提示学习的隐式篇章关系识系统,包括:
根据待识别数据的论元对和连接词构建TDRR(x)、Tssc(x)、TACP(xk),将其输入至采用上述实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法构建的隐式篇章关系识别模型,得到识别结果。
本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如上述任一实施例所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或上述实施例所述的基于任务增强提示学习的隐式篇章关系识别方法。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于任务增强提示学习的隐式篇章关系识别模型的构建方法,其特征在于,包括:
S1,搭建隐式篇章关系识别模型;所述隐式篇章关系识别模型包括编码模块、门控融合模块和语义标签分类模块;
所述编码模块用于对TDRR(xk)、Tssc(xk)、TACP(xk)进行联合编码,得到隐层向量
其中,TDRR(xk)为由每对论元xk=(Arg1i;Arg2j)和代表连接词的[MASK]标记构造的用于描述自然语言顺序的主任务提示模板:
TDRR(xk)=[Arg1]+Arg1i+[MASK]DRR+[Arg2]+Arg2j
TSSC(xk)为使用人工插入的[Arg1]和[Arg2]标记构造的用于直接描述论元之间抽象语义关系的辅助任务提示模板:
TSSC(xk)=the sense between[Arg1]and[Arg2]is[MASK]SSC
TACP(xk)为用于直接描述两个论元之间真实连接词的辅助任务提示模板:
TACP(xk)=the connective word is[MASK]DRR
其中,Arg1i和Arg2j为论元对,[Arg1]和[Arg2]为人工插入的用于概括Arg1i和Arg2j含义的人工标记,[MASK]DRR用于在TDRR(xk)的答案空间中预测论元对之间的关系词;[MASK]SSC用于在Tssc(xk)的答案空间中预测论元对之间的语义词,[MASK]DRR用于在TACP(xk)的答案空间中预测论元对之间的隐式连接词;
所述编码模块将[TDRR(xk),TSSC(xk),TACP(xk)]输入预训练语言模型进行编码,从输出中取三个[MASK]、后两个[CLS]对应的隐层向量:
其中是三个[MASK]的隐层向量,/>是后两个提示模板的[CLS]的隐藏向量,d是隐层向量的维度;
所述门控融合模块用于使用门控机制将主任务提示模板的[MASK]隐层向量与两个辅助任务的提示模板的句子表示隐层向量/>进行融合得到/>
其中, dh是隐层向量维度;
所述语义标签分类模块用于根据预测所述论元对之间的关系词在全词表上的概率分布并将其映射至TDRR(x)的答案空间,并将其中概率最大的关系词对应的语义标签作为识别结果;
其中,所述语义标签分类模块采用分类器MLM head对对输入的进行预测,得到[MASK]在全词表上的概率分布:
PDRR([MASK]DRR=vDRR∈V|T(xk))
PSSC([MASK]SSC=vSSC∈V|T(xk))
PACP([MASK]ACP=vACP∈V|T(xk))
式中,T(xk)=[TDRR(xk),TSSC(xk),TACP(xk)],vDRR、vSSC、vACP分别为主任务及两个辅助任务的答案空间;
最后取[MASK]DRR在TDRR(xk)的答案空间中概率最大的词对应的语义标签作为最终结果;
S2,以最小化分别根据预测出的所述论元对之间的关系词、语义词、隐式连接词与真实标签的差异为目标,采用训练集训练所述隐式篇章关系识别模型;其中所述训练集中的训练样本包括论元对、论元对之间的真实连接词及其对应的语义标签。
2.如权利要求1所述的方法,其特征在于,分别将 输入分类器进行预测,得到在主任务、第一辅助任务和第二辅助任务下,关系词、语义词、隐式连接词在TDRR(xk)、Tssc(xk)、TACP(xk)的答案空间的概率分布。
3.如权利要求1所述的方法,其特征在于,主任务、第一辅助任务和第二辅助任务具有各自的离散答案空间。
4.如权利要求1所述的方法,其特征在于,所述编码模块为RoBERTa模型。
5.一种基于任务增强提示学习的隐式篇章关系识别方法,其特征在于,包括:
根据待识别数据的论元对构建TDRR(xk)、Tssc(xk)、TACP(xk),将其输入至采用如权利要求1-4任一项所述的方法构建的隐式篇章关系识别模型,得到识别结果。
6.一种基于任务增强提示学习的隐式篇章关系识别模型的构建系统,其特征在于,包括:计算机可读存储介质和处理器;
所述计算机可读存储介质用于存储可执行指令;
所述处理器用于读取所述计算机可读存储介质中存储的可执行指令,执行如权利要求1-4任一项所述的方法。
7.一种基于任务增强提示学习的隐式篇章关系识系统,其特征在于,包括:
根据待识别数据的论元对和连接词构建TDRR(xk)、Tssc(xk)、TACP(xk),将其输入至采用权利要求5所述的方法构建的隐式篇章关系识别模型,得到识别结果。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行如权利要求1-4任一项所述的基于任务增强提示学习的隐式篇章关系识别模型的构建方法或如权利要求5所述的基于任务增强提示学习的隐式篇章关系识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468690.2A CN116432752B (zh) | 2023-04-27 | 2023-04-27 | 一种隐式篇章关系识别模型的构建方法及其应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310468690.2A CN116432752B (zh) | 2023-04-27 | 2023-04-27 | 一种隐式篇章关系识别模型的构建方法及其应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116432752A CN116432752A (zh) | 2023-07-14 |
CN116432752B true CN116432752B (zh) | 2024-02-02 |
Family
ID=87088918
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310468690.2A Active CN116432752B (zh) | 2023-04-27 | 2023-04-27 | 一种隐式篇章关系识别模型的构建方法及其应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116432752B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116882398B (zh) * | 2023-09-06 | 2023-12-08 | 华东交通大学 | 基于短语交互的隐式篇章关系识别方法和系统 |
CN118133844B (zh) * | 2024-05-07 | 2024-07-16 | 浙江大学 | 一种大语言模型隐含语义识别能力的评估方法和装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781290A (zh) * | 2019-10-10 | 2020-02-11 | 南京摄星智能科技有限公司 | 一种长篇章结构化文本摘要提取方法 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN111209366A (zh) * | 2019-10-10 | 2020-05-29 | 天津大学 | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN112395876A (zh) * | 2021-01-21 | 2021-02-23 | 华东交通大学 | 基于知识蒸馏和多任务学习的篇章关系识别方法与装置 |
CN112528642A (zh) * | 2020-12-15 | 2021-03-19 | 华中师范大学 | 一种隐式篇章关系自动识别方法及系统 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 |
CN113139380A (zh) * | 2020-01-20 | 2021-07-20 | 华为技术有限公司 | 语料筛选方法和装置 |
WO2021243706A1 (zh) * | 2020-06-05 | 2021-12-09 | 中山大学 | 一种跨语言生成提问的方法和装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7086993B2 (ja) * | 2017-05-10 | 2022-06-20 | オラクル・インターナショナル・コーポレイション | コミュニケーション用談話ツリーの使用による修辞学的分析の可能化 |
US11960844B2 (en) * | 2017-05-10 | 2024-04-16 | Oracle International Corporation | Discourse parsing using semantic and syntactic relations |
US11526676B2 (en) * | 2019-05-17 | 2022-12-13 | Naver Corporation | Implicit discourse relation classification with contextualized word representation |
CA3146673A1 (en) * | 2021-01-25 | 2022-07-25 | Royal Bank Of Canada | System and method for natural languages processing with pretained languauage models |
US11782686B2 (en) * | 2021-05-18 | 2023-10-10 | Salesforce.Com, Inc. | Systems and methods for code understanding and generation |
-
2023
- 2023-04-27 CN CN202310468690.2A patent/CN116432752B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110781290A (zh) * | 2019-10-10 | 2020-02-11 | 南京摄星智能科技有限公司 | 一种长篇章结构化文本摘要提取方法 |
CN110888980A (zh) * | 2019-10-10 | 2020-03-17 | 天津大学 | 基于知识增强的注意力神经网络的隐式篇章关系识别方法 |
CN111209366A (zh) * | 2019-10-10 | 2020-05-29 | 天津大学 | 基于TransS驱动的互激励神经网络的隐式篇章关系识别方法 |
CN113139380A (zh) * | 2020-01-20 | 2021-07-20 | 华为技术有限公司 | 语料筛选方法和装置 |
WO2021243706A1 (zh) * | 2020-06-05 | 2021-12-09 | 中山大学 | 一种跨语言生成提问的方法和装置 |
CN111428525A (zh) * | 2020-06-15 | 2020-07-17 | 华东交通大学 | 隐式篇章关系识别方法、系统及可读存储介质 |
CN112528642A (zh) * | 2020-12-15 | 2021-03-19 | 华中师范大学 | 一种隐式篇章关系自动识别方法及系统 |
CN112541337A (zh) * | 2020-12-16 | 2021-03-23 | 格美安(北京)信息技术有限公司 | 一种基于递归神经网络语言模型的文档模板自动生成方法及系统 |
CN112395876A (zh) * | 2021-01-21 | 2021-02-23 | 华东交通大学 | 基于知识蒸馏和多任务学习的篇章关系识别方法与装置 |
Non-Patent Citations (2)
Title |
---|
Cross-lingual implicit discourse relation recognition with co-training;Yaojie Lu等;《Frontiers of Information Technology & Electronic Engineering》;第19卷(第5期);第651-661页 * |
基于知识迁移的隐式篇章关系识别研究;俞亮;《中国优秀硕士学位论文全文数据库信息科技辑》(第02期);第I138-1373页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116432752A (zh) | 2023-07-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN116432752B (zh) | 一种隐式篇章关系识别模型的构建方法及其应用 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
He | English grammar error detection using recurrent neural networks | |
CN114818717B (zh) | 融合词汇和句法信息的中文命名实体识别方法及系统 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN112926345A (zh) | 基于数据增强训练的多特征融合神经机器翻译检错方法 | |
CN114417851B (zh) | 一种基于关键词加权信息的情感分析方法 | |
CN115017358A (zh) | 一种多模态交互的跨模态检索方法及系统 | |
CN113919366A (zh) | 一种面向电力变压器知识问答的语义匹配方法和装置 | |
CN113869055A (zh) | 基于深度学习的电网项目特征属性识别方法 | |
CN115033659A (zh) | 基于深度学习的子句级自动摘要模型系统及摘要生成方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116029305A (zh) | 一种基于多任务学习的中文属性级情感分析方法、系统、设备及介质 | |
CN115934883A (zh) | 一种基于语义增强的多特征融合的实体关系联合抽取方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
Wu et al. | Joint intent detection model for task-oriented human-computer dialogue system using asynchronous training | |
CN112989830B (zh) | 一种基于多元特征和机器学习的命名实体识别方法 | |
CN113869054A (zh) | 一种基于深度学习的电力领域项目特征识别方法 | |
CN115809666B (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
Gill et al. | Dense image captioning in Hindi | |
CN114970537B (zh) | 基于多层标注策略的跨境民族文化实体关系抽取方法及装置 | |
CN115759103A (zh) | 一种小样本命名实体识别模型训练方法及识别方法 | |
CN115831115A (zh) | 一种课堂纪要生成方法及系统 | |
CN114881038A (zh) | 基于跨度和注意力机制的中文实体与关系抽取方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |