CN116842953A - 一种基于提示多模型协同的零样本关系抽取方法 - Google Patents
一种基于提示多模型协同的零样本关系抽取方法 Download PDFInfo
- Publication number
- CN116842953A CN116842953A CN202310806853.3A CN202310806853A CN116842953A CN 116842953 A CN116842953 A CN 116842953A CN 202310806853 A CN202310806853 A CN 202310806853A CN 116842953 A CN116842953 A CN 116842953A
- Authority
- CN
- China
- Prior art keywords
- relation
- prompt
- data
- model
- entity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 66
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 10
- 238000007635 classification algorithm Methods 0.000 claims abstract description 7
- 238000012549 training Methods 0.000 claims description 14
- 230000014509 gene expression Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000013145 classification model Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000013508 migration Methods 0.000 description 2
- 230000005012 migration Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000009411 base construction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于提示多模型协同的零样本关系抽取方法,包括如下步骤:S1、构造数据生成提示;S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据;S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;S4、利用关系抽取模块进行关系抽取和关系三元组抽取。该方法利用生成提示引导GPT大模型进行合成数据生成,进行数据扩充,之后再通过构造实体提示和Schema提示,融入输入的待抽取句子中,利用UTC中的统一语义匹配USM实现零样本关系的抽取,依靠UIE实现零样本关系三元组的抽取。
Description
技术领域
本发明涉及信息抽取领域,具体来讲是一种基于提示多模型协同的零样本关系抽取方法。
背景技术
信息抽取,即从自然语言文本中,抽取出特定的事实或事实信息,帮助我们将海量内容中自动分类、提取和重构。这些信息通常包括实体、关系、事件等。比如从新闻信息中抽取时间、地点、人物等信息,从病例数据中抽取患者症状、用药情况、疾病等信息。与其他自然语言任务相比,信息抽取任务更具有目的性,并能将抽取到的信息以指定的结构展现出现,从而达到从自然语言中提取用户感兴趣的事实信息的目的,在知识图谱领域中有着广泛的应用。
关系分类是信息抽取中的一项重要任务,旨在根据给定的两个实体的相关上下文,抽取它们之间的关系。关系分类因其在知识库构建、问答等下游任务中的广泛应用而备受关注,然而,现有的方法往往需要大规模的标注样本数据集,这些数据集标注成本高且具有固定的关系集合。
在关系分类任务中,如何在语义信息的基础上扩充其他文本信息是一大难点。通常情况下,由于文本句与实体对已知,传统方法依靠神经网络对文本句编码,从而捕获词汇的上下文信息,并利用编码获得的实体嵌入进行关系分类。上述方法基于的假设为:文本句中每个词汇均有助于关系分类,此类方法利用词汇的语义信息提高关系分类的效果。
但是传统的有监督RC方法无法满足关系分类的实际需求。在现实世界中,存在着海量的细粒度关系。并且,标注的关系类型是有限的,每种类型通常有一定数量的标注样本。不过当预测没有训练样本的类型时,模型的预测能力将会受限,无法泛化到新的标签。例如,在图1中,歌手是一种训练集中未见过的关系类型,在训练阶段没有对该关系标注。为了解决这种问题,需要模型拥有在零样本场景下进行关系抽取的能力。
目前,针对零样本集的研究较少,而模型需要泛化到没有可用标注样本的关系集。零样本关系分类(Zero-Shot Relation Classification1,ZeroRC)是最先引入零样本关系分类的方法,用于对给定的头尾实体对之间的关系进行分类,用于识别未见到的标签,主要思想是通过阅读理解,文本蕴含等方法来利用迁移学习过程。然而,这些方法需要依赖人工的描述信息来提高关系类型的可理解性,这种方法仅仅依靠给定实体去进行关系分类,在关系标签空间中也忽略了丰富的语义知识。Zero-Shot Relation Slot-Filling方法旨在根据提供的头部实体和关系预测尾部实体,同时也依赖其他方法进行实体检测,因此,在实践中也面临着误差传播的挑战,零样本关系抽取样例及任务说明如图一所示。
发明内容
在综合考量上述问题后,本发明针对现有技术存在的问题,提出一种基于提示多模型协同的零样本关系抽取方法,该方法利用生成提示引导GPT大模型进行合成数据生成,进行数据扩充,之后再通过构造实体提示和Schema提示,融入输入的待抽取句子中,利用UTC中的统一语义匹配USM实现零样本关系的抽取,依靠UIE实现零样本关系三元组的抽取。
为了解决上述技术问题,本发明的技术方案为:
一种基于提示多模型协同的零样本关系抽取方法,包括如下步骤:
S1、构造数据生成提示
S1-1、给定可见关系数据集Dseen,从可见关系数据集中挑选不同的示例数据,所述示例数据包括5组单关系三元组样例和多关系三元组样例,表达式如下:
Dselect=∑r∈relations select(Dseen,k-shot,Drelation=r)
Dsample=select(Dselect,relationsame)+select(Dselect,relationmulti)
S1-2、设定生成任务描述和情景表述PromptICL、未见关系Promptinput、引导输出提示Promptindicator;
S1-3、将示例数据Dsample、生成任务描述和情景表述PromptICL、未见关系Promptinput、引导输出提示Promptindicator进行拼接得到数据生成提示Promptgenerate;
S2、构建GPT模型,将数据生成提示Promptgenerate作为GPT模型的输入,使其输出未见关系的数据,公式如下:
Dsynthetic=Generate(Mg,Prompt)
S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法
Dtrain=Dsynthetic+Dsample;
S4、利用关系抽取模块进行关系抽取和关系三元组抽取,关系分类推理预测公式如下:
Relation=Predict(MCfinetune,Su,Ehead,Etail)
关系三元组抽取推理预测公式如下:
Triple=Predict(Mefinetune,Su)。
作为优选,所述单关系三元组样例是指所选示例数据均为同一关系;所述多关系三元组样例是指所选示例数据均为不同关系。
具体的,根据数据任务,挑选不同的示例数据,分为单关系三元组样例和多关系三元组样例,用于生成不同类型的数据,其中单一关系三元组样例是指所选样例均为同一关系,生成的未见关系数据也是单一关系;而多关系三元组样例是指所选样例均为不同关系,生成的语句样例中,三元组也需要包含不同类型的关系。
作为优选,所述未见关系Promptinput指的是未在可见关系数据集Dseen中出现过的任意关系。
作为优选,所述未见关系数据包括经命名的未见关系的句子、未见关系句子中的三元组。
作为优选,所述步骤S2中,将数据生成提示Promptgenerate作为GPT模型根据生成任务描述和情景表述PromptICL读取示例数据Dsample的背景,并根据引导输出提示Promptindicator依次未见关系的描述、未见关系的句子、未见关系句子中的三元组,最后根据未见关系Promptinput对输出的未见关系进行命名。
具体的,使用思维链模式进行示例数据的构建,首先输入关系名,并对关系进行描述,之后给出句子以及句子中包含的三元组,所选择的样例数据为Dsample,为了使模型输出相应格式的内容,通过Promptindicator对模型的输出格式进行引导,最后输入需要模型生成的未见关系Promptinput,具体的提示模板如图3所示,最终产生的数据生成提示公式如下:
Promptgenerate=Dsample+PromptICL+Promptindicator+Promptinput
作为优选,所述关系分类算法具体如下:
首先列举出待抽取语句所有可能存在的未见关系,所有可能存在的未见关系之间用[L]标签连接,将其记为潜在关系类别语句Promptrelation。之后构造待抽取语句的实体提示Promptentity,实体提示是指待抽取语句中三元组的头实体和尾实体之间的关系提示,模板为“头实体和尾实体之间的关系是”。之后将请按在关系类别语句、待抽取语句、实体提示进行拼接,得到UTC模型modelUTC的整个输入,在UTC模型中关系类别语句中的未见关系和待抽取句子会进行统一语义匹配,而实体提示会让模型融合待抽取句子的实体信息,得到该语句最接近的关系类别输出,该过程训练的公式如下:
MCfinetune=Train(modelUTC,Dsample+Dsynthetic,Promptentity,Promptrelation);
作为优选,所述关系三元组抽取算法具体如下:
首先构建命名实体识别NER提示模板PromptNER,将待抽取语句和NER提示模板做为GPT模型输入,得到待抽取语句的命名实体抽取结果,并将其以拼接的形式融入待抽取语句中,将所有可见关系数据集和未见关系数据集都以上述步骤进行处理,作为UIE模型微调的输入,公式如下:
MEfinetune=Train(modelUIE,Dsample+Dsynthetic,PromptNER);
其中UIE的预测流程需要SSL格式的输入数据,该格式采用了schema-base的提示机制,因此需要列举出待抽取所有可能存在的未见关系Promptrelation以及该关系所有可能存在的头实体类别Prompthead,将Promptrelation和Prompthead拼接构造成schema-base所需的格式,最后将schema-base和待抽取语句作为UIE的输入,预测出三元组序列相应的SEL语言格式,最后在进行解码,得到抽取的三元组序列,公式如下:
Input=SSL(Dtrain,promptNER)
SEL=UIE(Input)
Outputtriple=Decode(SEL)
为了防止过拟合,微调过程中也加入了负样本,微调的loss采用了交叉熵损失,计算方式如下:
其中θe和θd是编码器和解码器的参数,x是输入的token序列,s是SSI格式的语句输入,y表示输出的SEL格式的三元组序列。
本发明具有以下的特点和有益效果:
采用上述技术方案,通过筛选样例作为三元组提示,依靠情景学习和思维链构造提示,引导大模型GPT进行未见样例的生成,不但提高了生成样例的质量,也大大减少了需要的训练数据,在生成合成数据之后,模型通过构造实体,将语句输入UTC模型,进行统一语义匹配,得到抽取的结果,该模型具备低资源迁移能力,因此所需训练数据较少,迁移到未见关系标签的效果较好,对于关系三元组抽取,通过NER提示,依靠GPT生成相应的实体NER标签,之后再依靠GPT生成潜在未见关系的潜在头尾实体类型作为Schema,输入UIE模型,进行未见关系的微调,该模型可以支持不限定行业领域和抽取目标的关键信息抽取,实现零样本快速冷启动,并具备优秀的小样本微调能力,快速适配特定的抽取目标。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1本发明的零样本关系抽取样例及任务说明图。
图2本发明的基于提示多模型协同的零样本关系抽取模型图。
图3整体实施方案流程图。
图4本发明的基于提示多模型协同的零样本关系分类模型图。
图5本发明的基于提示多模型协同的零样本关系三元组抽取模型图。
图6本发明的模型提示模板图。
具体实施方式
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本发明中的具体含义。
参照图3是本发明的整体实施方案流程图,一种基于提示多模型协同的零样本关系抽取方法,下面结合附图对本发明作进一步描述,包括以下步骤:
步骤(1)构造生成数据提示,首先在可见关系数据集Dseen中,每个关系挑选五条代表性的句子和三元组作为样例
Dselect=∑r∈relationss elect(Dseen,k-shot,Drelation=r)
在构造生成数据提示的过程中,首先需要输入生成任务的描述和情景表述PromptICL,之后根据需要生成的数据任务,挑选不同的示例数据,分为单关系三元组样例和多关系三元组样例,用于生成未见关系数据,其中单一关系三元组样例是指所选样例均为同一关系,需要模型生成的未见关系数据也是单一关系;而多关系三元组样例是指所选样例均为不同关系,本模型中采用5组单关系三元组样例和5组多关系样例的方式进行生成
Dsample=select(Dselect,relationsame)+select(Dselect,relationmulti)
步骤(2):需要模型生成的语句样例中,三元组也需要包含不同类型的关系,其中示例数据的构建中,使用了思维链模式进行推理生成,首先提出关系名,在对关系进行描述,之后给出句子以及句子中包含的三元组,推理公式如下:
其中R表示添加的关系描述推理模块,在添加该模块后,GPT数据生成时,会生成对未见关系的描述,作为中间步骤推理,从而生成未见关系的合成数据。
步骤(3):所选择的样例数据为Dsample,为了使模型输出相应格式的内容,通过Promptindicator对模型的输出格式进行引导,最后输入需要模型生成的未见关系Promptinput。将示例数据Dsample、生成任务描述和情景表述PromptICL、未见关系Promptinput、引导输出提示Promptindicator进行拼接得到数据生成提示Promptgenerate,具体的提示模板见图6所示,步骤一产生的提示公式如下:
Promptgenerate=Dsample+PromptICL+Promptindicator+Promptinput
步骤(4):将数据生成提示Promptgenerate作为GPT模型的输入,使其输出未见关系的数据,公式如下:
Dsynthetic=Generate(Mg,Prompt)
步骤(5):将合成后的数据以及样例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法
Dtrain=Dsynthetic+Dsample
步骤(6):关系分类算法,整体架构如图4所示,首先列举出待抽取语句所有可能存在的未见关系,所有可能存在的未见关系之间用[L]标签连接,将其记为潜在关系类别语句Promptrelation。之后构造待抽取语句的实体提示Promptentity,实体提示是指待抽取语句中三元组的头实体和尾实体之间的关系提示,模板为“头实体和尾实体之间的关系是”。之后将请按在关系类别语句、待抽取语句、实体提示进行拼接,得到UTC模型modelUTC的整个输入,在UTC模型中关系类别语句中的未见关系和待抽取句子会进行统一语义匹配,而实体提示会让模型融合待抽取句子的实体信息,得到该语句最接近的关系类别输出,该过程训练的公式如下:
MCfinetune=Train(modelUTC,Dsample+Dsynthetic,Promptentity,Promptrelation)
首先该模型对输入的语句通过ERNIE进行编码,公式如下:
H=ERNIE(l1,l2,...,ll|,t1,t2,...,t|t)
其中l表示输入的潜在的关系标签,t表示输入的语句以及输入的实体提示,其中每个token嵌入的公式如下:
USM通过token和token之间的连接,计算每个token的链接分数,得到潜在关系token的分数,公式如下:
最后将关系所在的token分数进行加和,取最大值的潜在关系作为预测的关系:
为了克服链接实例的极端稀疏性,模型对每个实例的关系不平衡损失进行了优化,微调Loss如下所示:
其中M表示USM的所有链接,m+表示链接对语义相关,m-表示链接对语义不相关,sm(i,j)表示链接对的语义链接分数。
步骤(7):关系三元组抽取算法,整体架构如图5所示,首先构建命名实体识别NER提示模板PromptNER,将待抽取语句和NER提示模板做为GPT模型输入,得到待抽取语句的命名实体抽取结果,并将其以拼接的形式融入待抽取语句中,将所有可见关系数据集和未见关系数据集都以上述步骤进行处理,作为UIE模型微调的输入,公式如下:
MEfinetune=Train(modelUIE,Dsample+Dsynthetic,PromptNER)其中UIE的预测流程需要SSL格式的输入数据,该格式采用了schema-base的提示机制,因此需要列举出待抽取所有可能存在的未见关系Promptrelation以及该关系所有可能存在的头实体类别Prompthead,将Promptrelation和Prompthead拼接构造成schema-base所需的格式,最后将schema-base和待抽取语句作为UIE的输入,预测出三元组序列相应的SEL语言格式,最后在进行解码,得到抽取的三元组序列,公式如下:
Input=SSL(Dtrain,promptNER)
SEL=UIE(Input)
Outputtriple=Decode(SEL)
为了防止过拟合,微调过程中也加入了负样本,微调的loss采用了交叉熵损失,计算方式如下:
其中θe和θd是编码器和解码器的参数,x是输入的token序列,s是SSI格式的语句输入,y表示输出的SEL格式的三元组序列。
步骤(8):利用步骤6和步骤7微调后的模型进行关系抽取和关系三元组抽取,关系分类公式如下:
Relation=Predict(MCfinetune,Su,Ehead,Etail)
关系三元组抽取公式如下:
Triple=Predict(MEfinetune,Su)。
本实施例中,结合上述技术方案给出以下实施案例,进行进一步的说明:
本实施例中,已见关系为歌手和作家,未见关系为演员和国籍,首先在筛选样例阶段,读取包含关系歌手和作家的语句及三元组。
根据单关系三元组样例和多关系三元组样例筛选出10组已见关系样例数据,之后进入构造提示阶段,将10组样例数据、生成任务描述和情景表述、未见关系、引导输出提示进行拼接得到数据生成提示。
其中生成任务描述和情景表述包括对GPT角色的描述语句和三元组数据生成任务的描述,如“你是一个高度智能和准确的关系三元组句子生成系统”,三元组是由三个实体组成的集合,以(主体-关系-客体)表达式形式的语句,你需要将未见关系标签和实例数据作为输入,并输出合成样本数据”。未见关系表示所给三元组数据集中未存在的关系,如所给三元组数据集中包含关系为歌手和作家,演员和国籍未在所给三元组数据集中出现,将其作为未见关系。引导输出提示是指引导GPT以思维链的模式逐步将数据输出的语句,如“你需要将句子和三元组对应并递增输出,输出格式如下:1.未见关系名:2.未见关系名的详细描述:3.合成句子:4.三元组:”。
将数据生成提示作为GPT模型的输入,依靠GPT的情景学习,输出包含未见关系演员和国籍的语句和三元组,之后整合未见关系数据和已见关系数据作为模型的训练数据,根据关系分类和关系三元组抽取两个算法进行区分。
在关系分类算法中,基于训练数据,构造实体提示信息,实体提示信息即包含关系三元组中的头实体名和尾实体名的提示信息,如“小明是中国人”语句,其三元组为(小明,国籍,中国),小明和中国即对应的实体,将其融入训练数据,作为关系分类模型UTC的输入,进行关系分类模型训练。
在关系三元组算法中,则需要构造实体NER信息,即关系对应的头实体和尾实体的实体类别,如个人(小明),国家(中国),将命名实体信息融入到训练数据中,将其作为关系三元组抽取模型UIE的输入,进行关系三元组模型训练。
在预测过程中输入国籍相关的抽取语句“小张是美国人”,在UTC关系分类模型会将其分类为国籍,在UIE关系三元组抽取模型则会抽取出(小张、国籍、美国)三元组。
以上结合附图对本发明的实施方式作了详细说明,但本发明不限于所描述的实施方式。对于本领域的技术人员而言,在不脱离本发明原理和精神的情况下,对这些实施方式包括部件进行多种变化、修改、替换和变型,仍落入本发明的保护范围内。
Claims (8)
1.一种基于提示多模型协同的零样本关系抽取方法,其特征在于,包括如下步骤:
S1、构造数据生成提示
S1-1、给定可见关系数据集,从可见关系数据集中挑选不同的示例数据,所述示例数据包括5组单关系三元组样例和多关系三元组样例;
S1-2、设定生成任务描述和情景表述PromptICL、未见关系、引导输出提示;
S1-3、将示例数据、生成任务描述和情景表述PromptICL、未见关系、引导输出提示进行拼接得到数据生成提示;
S2、构建GPT模型,将数据生成提示作为GPT模型的输入,使其输出未见关系的数据,公式如下:
Dsynthetic=Generate(Mg,Prompt)
S3、将未见关系的数据以及示例数据进行拼接,传入关系抽取模块,关系抽取模块分为关系分类算法和关系三元组抽取算法;
S4、利用关系抽取模块进行关系分类抽取和关系三元组抽取,关系分类抽取推理预测公式如下:
Relation=Predict(MCfinetune,Su,Ehead,Etail)
关系三元组抽取推理预测公式如下:
Triple=Predict(MEfinetune,Su)。
2.根据权利要求1所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述单关系三元组样例是指所选示例数据均为同一关系;所述多关系三元组样例是指所选示例数据均为不同关系。
3.根据权利要求2所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系指的是未在可见关系数据集Dseen中出现过的任意关系。
4.根据权利要求3所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述未见关系数据包括经命名的未见关系的句子、未见关系句子中的三元组。
5.根据权利要求4所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述步骤S2中,将数据生成提示作为GPT模型根据生成任务描述和情景表述PromptICL读取示例数据的背景,并根据引导输出提示依次未见关系的描述、未见关系的句子、未见关系句子中的三元组,最后根据未见关系对输出的未见关系进行命名。
6.根据权利要求5所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述关系分类算法具体如下:
首先列举出待抽取语句所有可能存在的未见关系,所有可能存在的未见关系之间用[L]标签连接,将其记为潜在关系类别语句Promptrelation;
构造待抽取语句的实体提示Promptentity,实体提示是指待抽取语句中三元组的头实体和尾实体之间的关系提示,模板为“头实体和尾实体之间的关系是”,之后将请按在关系类别语句、待抽取语句、实体提示进行拼接,得到UTC模型modelUTC的整个输入;
在UTC模型中关系类别语句中的未见关系和待抽取句子会进行统一语义匹配,而实体提示会让模型融合待抽取句子的实体信息,得到该语句最接近的关系类别输出,该过程训练的公式如下:
MCfinetune=Train(modelUTC,Dsample+Dsynthetic,Promptentity,Promptrelation)
。
7.根据权利要求6所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述关系三元组抽取算法具体如下:
首先构建命名实体识别NER提示模板PromptNER,将待抽取语句和NER提示模板作为GPT模型输入,得到待抽取语句的命名实体抽取结果,并将其以拼接的形式融入待抽取语句中,将所有可见关系数据集和未见关系数据集都以上述步骤进行处理,作为UIE模型微调的输入,公式如下:
MEfinetune=Train(modelUIE,Dsample+Dsynthetic,PromptNER),
所述UIE模型的预测流程需要SSL格式的输入数据,该格式采用了schema-base的提示机制,因此需要列举出待抽取所有可能存在的未见关系Promptrelation以及该关系所有可能存在的头实体类别Prompthead,将Promptrelation和Prompthead拼接构造成schema-base所需的格式,最后将schema-base和待抽取语句作为UIE的输入,预测出三元组序列相应的SEL语言格式,最后在进行解码,得到抽取的三元组序列,公式如下:
Input=SSL(Dtest,Promptrelation,Prompthead)
SEL=UIE(Input)
Outputtriple=Decode(SEL)。
8.根据权利要求7所述的一种基于提示多模型协同的零样本关系抽取方法,其特征在于,所述UIE模型微调的过程中加入了负样本,微调的loss采用了交叉熵损失,计算方式如下:
其中θe和θd是编码器和解码器的参数,x是输入的token序列,s是SSI格式的语句输入,y表示输出的SEL格式的三元组序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806853.3A CN116842953A (zh) | 2023-07-04 | 2023-07-04 | 一种基于提示多模型协同的零样本关系抽取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310806853.3A CN116842953A (zh) | 2023-07-04 | 2023-07-04 | 一种基于提示多模型协同的零样本关系抽取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116842953A true CN116842953A (zh) | 2023-10-03 |
Family
ID=88170209
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310806853.3A Pending CN116842953A (zh) | 2023-07-04 | 2023-07-04 | 一种基于提示多模型协同的零样本关系抽取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116842953A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435928A (zh) * | 2023-12-20 | 2024-01-23 | 粤港澳大湾区数字经济研究院(福田) | 实体关系抽取模型的训练方法、实体关系抽取方法及设备 |
-
2023
- 2023-07-04 CN CN202310806853.3A patent/CN116842953A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117435928A (zh) * | 2023-12-20 | 2024-01-23 | 粤港澳大湾区数字经济研究院(福田) | 实体关系抽取模型的训练方法、实体关系抽取方法及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220067438A1 (en) | Image captioning with weakly-supervised attention penalty | |
US11748232B2 (en) | System for discovering semantic relationships in computer programs | |
Han et al. | A survey of transformer-based multimodal pre-trained modals | |
CN111832293B (zh) | 基于头实体预测的实体和关系联合抽取方法 | |
CN110770735A (zh) | 具有嵌入式数学表达式的文档的编码转换 | |
Tyagi et al. | Demystifying the role of natural language processing (NLP) in smart city applications: background, motivation, recent advances, and future research directions | |
CN107943940A (zh) | 数据处理方法、介质、系统和电子设备 | |
Shoaib et al. | Integrating multiwordnet with Italian sign language lexical resources | |
Wigington et al. | Multi-label connectionist temporal classification | |
CN116842953A (zh) | 一种基于提示多模型协同的零样本关系抽取方法 | |
Hassani et al. | LVTIA: A new method for keyphrase extraction from scientific video lectures | |
Chen et al. | Cross-lingual text image recognition via multi-task sequence to sequence learning | |
CN114611520A (zh) | 一种文本摘要生成方法 | |
Wadud et al. | Non-autoregressive end-to-end neural modeling for automatic pronunciation error detection | |
Tarride et al. | Large-scale genealogical information extraction from handwritten Quebec parish records | |
CN112749277B (zh) | 医学数据的处理方法、装置及存储介质 | |
CN117574904A (zh) | 基于对比学习和多模态语义交互的命名实体识别方法 | |
CN117131198A (zh) | 用于医学教学库的知识增强实体关系联合抽取方法及设备 | |
Guo et al. | Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval | |
CN110580294A (zh) | 实体融合方法、装置、设备及存储介质 | |
CN116956869A (zh) | 文本标准化方法、装置、电子设备及存储介质 | |
Gomes Jr et al. | Framework for knowledge discovery in educational video repositories | |
Xie et al. | Enhancing multimodal deep representation learning by fixed model reuse | |
Pikoulis et al. | Context-aware automatic sign language video transcription in psychiatric interviews | |
CN117235605B (zh) | 一种基于多模态注意力融合的敏感信息分类方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |