CN115859164A - 一种基于prompt的建筑实体识别并分类方法及系统 - Google Patents

一种基于prompt的建筑实体识别并分类方法及系统 Download PDF

Info

Publication number
CN115859164A
CN115859164A CN202211104104.8A CN202211104104A CN115859164A CN 115859164 A CN115859164 A CN 115859164A CN 202211104104 A CN202211104104 A CN 202211104104A CN 115859164 A CN115859164 A CN 115859164A
Authority
CN
China
Prior art keywords
prompt
word
words
template
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211104104.8A
Other languages
English (en)
Inventor
丁松阳
陈珂锐
刘怡晴
梁雪
田功克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Dimension Henan Software Technology Co ltd
Original Assignee
Third Dimension Henan Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Dimension Henan Software Technology Co ltd filed Critical Third Dimension Henan Software Technology Co ltd
Priority to CN202211104104.8A priority Critical patent/CN115859164A/zh
Publication of CN115859164A publication Critical patent/CN115859164A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

本发明提出了一种基于prompt的建筑实体识别并分类方法及系统,方法为:收集建筑领域规范、通则以及公开数据集并进行预处理得到样本数据集,选择一部分数据样本对实体标注得到标注样本集;选择未标注的数据样本对BERT预训练模型进行预训练得到已完成预训练的BERT模型;根据BERT模型设计初始提示模板;根据识别实体以及实体类别的任务设置目标预测空间以及答案空间;根据给定的跨度从标注样本集中抽取词语;将抽取词语放入初始提示模板形成完整提示模板,将完整提示模板向量化后放入BERT模型,识别输入数据中实体并将实体分成建筑领域五大类别。本发明通过增加prompt模板提示词信息,减少下游建筑领域实体识别任务对样本的依赖,提高任务的精度。

Description

一种基于prompt的建筑实体识别并分类方法及系统
技术领域
本发明涉及建筑实体识别的技术领域,尤其涉及一种基于prompt的建筑实体识别并分类方法及系统。
背景技术
建筑实体识别并分类方法旨在识别建筑领域文本中的建筑实体信息,将建筑领域中的实体识别并分成建筑、结构、给排水、暖通、电气五大类可以建立起实体库,提供一定的语义信息,这对于关系抽取并建立起关系间的节点图有十分重要且基础性的意义。同时,在搜集语料库的过程中,可以通过整合建立起建筑信息语料库,为后续任务提供基本数据库;其次可以在使用生成式网络自动生成建筑结构的设计中增加语义信息,可以使得生成式网络在学习的过程中可以加快学习图纸的速度,可以为生成式网络构建合理、高效、准确可批量化的结构、设备点位图提供有效地帮助,提高模型成图的精度。在建筑信息化方向上,可以通过丰富语料库和信息库增加模型的精度,并且可以在做碰撞检查、时间维度上有效控制工期等工作上提高工作效率。
当前实体识别广为使用的任务方式是序列标注任务,即使用BERT(BidirectionalEncoder Representation from Transformer)预训练模型使得数据可以更好地向量化表示,随后再加上双向长短期记忆网络(Long Short-Term Memory)来学习语句中词语的相关时序信息,最后用传统的条件随机场(Conditional Random Field)来根据语句前后信息确定当前词的标注。这种方式得到的精度很高,但是在建筑领域数据不足即小样本数据的情况下,训练阶段调整模型参数容易出现欠拟合,导致模型的精度在小样本数据集中偏低。基于以上原因,在识别建筑行业实体信息时,不再使用传统的序列标注任务,考虑在训练阶段增加提示信息,使其变为基于prompt的掩码语言任务。
基于prompt的掩码语言任务也就是在模型中增加模板提示词以此来增加语义信息。传统的实体识别任务使用的是自然语言处理的第三范式即“预训练-微调”范式,预训练阶段使用大量无标注数据对预训练模型进行训练,使预训练模型可以学习到一些语义特征,执行下游任务时,在预训练模型的基础之上进行微调,使模型更适合下游任务。但是由于该任务的数据较少,因此考虑在模型中添加语义提示信息,使下游任务改变为预训练模型在预训练阶段的任务,这也就是第四范式---提示学习。
但是BERT预训练模型由于只使用通用语言进行训练,BERT预训练模型不熟悉建筑领域词语的语义特征,因此需要在此之上搜集合适的数据集先对BERT模型进行合适的预训练,使得模型对建筑行业的专有名词有一定的认识。在此之上就可以在训练阶段减小模型的训练量。
发明内容
针对现有实体识别方法应用到建筑领域的小样本数据集中精度较低的技术问题,本发明提出一种基于prompt的建筑实体识别并分类方法及系统,解决小样本数据集中国精度较低的问题,通过增加prompt模板提示词信息,减少下游建筑领域实体识别任务对样本的依赖,用来更好的识别建筑实体,提高实体识别任务的精度。
为了达到上述目的,本发明的技术方案是这样实现的:一种基于prompt的建筑实体识别并分类方法,其步骤如下:
S1、收集建筑五大领域规范、通则以及公开数据集作为统一数据集并进行数据的预处理得到样本数据集,选择样本数据集中的一部分数据样本对其中的实体进行标注得到标注样本集;
S2、选择BERT预训练模型,并从样本数据集中选择未标注的数据样本对BERT预训练模型进行预训练得到已完成预训练的BERT模型;
S3、根据BERT模型设计初始提示模板,确定初始提示模板的形状并设置初始提示模板中的提示词以及预测词的信息;
S4、根据识别实体以及实体类别的任务设置预测词位置的目标预测空间,并根据目标预测空间设置答案空间;
S5、根据给定的跨度1-5从标注样本集中的样本数据中抽取词语;
S6、将抽取词语放入初始提示模板形成完整提示模板,并将完整提示模板向量化后放入BERT模型,通过BERT模型的掩码任务识别输入数据中的建筑领域实体并将实体分成建筑领域五大类别。
所述步骤S3中初始提示模板的形状为Cloze Prompt,即预测词出现在初始提示模板的提示词的中间,且预测词的个数是固定的;
所述初始提示模板为自动搜索模板,在初始状态下自动搜索模板的提示词为随机生成的,根据BERT模型在训练过程中的误差反馈,不断更新提示模板,最终得到一个高精度的提示模板。
所述自动搜索模板包括提示词[unused]和预测词[MASK]以及从输入数据x中提取的词语x′;所述自动搜索模板的格式和初始状态的设计方法为:确定模板中提示词[unused]的个数和位置,确定模板中预测词[MASK]的个数以及位置,同时确定从输入数据x中提取的词语x′的位置,词语x′的位置记为[X]的位置,则自动搜索模板的初始格式为:
xprompt=<unused>loc[X]<unused>loc[MASK]loc<unused>loc
其中,<unused>loc表示提示词[unused]的位置,[MASK]loc代表预测词[MASK]的位置。
所述步骤S4中目标预测空间的设置方法为:
根据识别数据文本中的实体并分成建筑、结构、给排水、暖通、电气五大类的任务,得到目标映射到预测词[MASK]的目标预测空间为:
Ttype={“不是专业”,“建筑专业”,“结构专业”,“给水排水”,“暖通专业”,“电气专业”};
所述步骤S4中根据目标预测空间设置答案空间的方法为:确定目标预测空间Ttype为每一类初始答案空间,根据转述的方式人工扩大每一类的初始答案空间,设定答案空间中的词长度不超过4,形成合理的答案空间I(X)。
所述步骤S5中抽取词语的方法为:
根据已经给定的跨度1-5抽取样本数据的句子中的词语,抽取第i个句子中的词语如下所示:
Figure BDA0003840666860000031
其中,Si(x)={1,2,3,...,m},m为第i个句子的长度,N(x)为给定的抽取词语的跨度,且N(x)={1,2,3,4,5};l的范围是从1到m,即从句子中第l个字开始抽取词语;n的范围从1到5,表示从第l个字开始抽取n个字;xi表示原始输入中第i个句子,xi′表示从第i个句子中抽取的词语,span表示抽取词语的过程函数。
所述步骤S6的实现方法为:
S6.1将抽取出的词语xi′放入自动搜索模板中[X]位置,形成完整提示模板;
S6.2将完整提示模板以及目标预测空间的词语向量化;
S6.3将转化成向量的提示词通过一个双向长短期记忆网络,得到向量前后提示词的信息;再通过ReLU激活函数,得到一个新的提示词的词向量hq′;
S6.4将得到的词向量hq′和[X]部分的抽取词语、预测词[MASK]部分以及句子起始符[CLS]和句子结束符[SEP]的向量拼接起来,得到xprompt′输入BERT模型的向量形式,记为xprompt″;
S6.5将答案空间中的词,通过BERT模型中的词库中的词向量和词矩阵转化成向量矩阵形式;
S6.6通过BERT模型的掩码任务预测输入数据的建筑领域实体并将实体分成建筑领域五大类别,计算预测词与步骤S6.5中答案空间的向量的相似度得分;
S6.7使用softmax函数把相似度得分激活为概率分布,得到的概率值最高的词为提取出来的词语x′的答案的信息,根据答案的信息确定目标预测空间中的词汇,即为预测词[MASK]的输出。
所述S6.2的实现方法为:
在完整提示模板xprompt前添加句子起始符[CLS],并在句子的最后添加句子结束符[SEP],得到句子xprompt′;
将句子xprompt′以字为单位将其向量化,每一个字转化成向量,向量化时将句子xprompt′分成两部分,其中提示词[unused]与自动搜索模板中其余的位置的信息进行不同的向量化;
根据提示词位置和非提示词位置向量化的不同,将编码形式分为两种:编码I和编码II,编码I表示提示词[unused]位置的信息进行的向量化,使用没有进行预训练的初始化矩阵;编码II表示对非提示词位置的信息进行向量化,采用BERT模型预训练过的矩阵;
每一个字的向量分为三部分:字向量、段向量和位置向量,其中字向量是融合了上下文语意信息的向量形式,字向量的表示如下:
Figure BDA0003840666860000041
其中,j表示初始提示模板中的位置;
其中,
Figure BDA0003840666860000042
表示采用编码I进行字向量的编码,
Figure BDA0003840666860000043
表示采用编码II进行字向量的编码;
段向量的表示如下:
Figure BDA0003840666860000044
其中,j表示初始提示模板中的位置;
其中,
Figure BDA0003840666860000045
表示采用编码I进行段向量的编码,
Figure BDA0003840666860000046
表示采用编码II进行段向量的编码;
位置向量的表示如下公式所示:
Figure BDA0003840666860000047
其中,j表示模板中的位置;
其中,
Figure BDA0003840666860000048
表示采用编码I进行位置向量的编码,
Figure BDA0003840666860000049
表示采用编码II进行位置向量的编码;
每个字的三部分向量对应位置相加,得到句子xprompt′的向量化形式:
Figure BDA00038406668600000410
所述步骤S6.3中的词向量
Figure BDA00038406668600000411
Figure BDA0003840666860000054
其中,q表示第q个提示词,u表示提示词的总个数;LSTM表示双向长短期记忆网络函数,通过LSTM得到的提示词词向量hq′的编码中包含有前后提示词的语义信息;
所述步骤S6.6中将预测词[MASK]位置矩阵A和答案空间I(X)中的词语的矩阵B∈I(X)做相似度计算,得到相似度得分为:
Figure BDA0003840666860000051
其中,w表示矩阵A的行向量、矩阵BT的列向量;
所述步骤S6.7中softmax函数为
Figure BDA0003840666860000052
在训练过程中,将预测词[MASK]的预测向量和标签词的独热编码向量通过交叉熵损失函数
Figure BDA0003840666860000053
计算损失,反向传播更新初始提示模板提示词的参数;其中,y表示标签词;
Figure BDA0003840666860000055
表示预测值。
一种基于prompt的建筑实体识别并分类系统,包括:
收集数据模块,用于收集建筑领域的数据并进行预处理和标注;
预训练模块,用于在专业性数据上对BERT预训练模型进行训练得到BERT模型;
构建prompt模块,用于设计初始提示模板的相关信息;
设置答案模块,用于设置预测词的答案;
抽取词语模块,用于抽取输入数据中的词语;
预测模块,用于从输入数据中提取词语并放至初始提示模板,利用BERT模型预测词语是否为实体,并且同时预测词语为哪一类实体。
收集数据模块与预训练模块相连接,预训练模块分别与构建prompt模块、设置答案模块和抽取词语模块相连接,构建prompt模块、设置答案模块和抽取词语模块均与预测模块相连接。
一种计算机的存储介质,其可存储计算机程序,所述的计算机程序在执行时可以实现所述的一种基于prompt的建筑实体识别并分类方法的任意步骤。
与现有技术相比,本发明的有益效果:本发明先搜集建筑行业相关的数据并对数据进行预处理,先对BERT模型做预训练,随后设置提示模板的格式和初始状态,并提取输入数据的词语放入提示模板中,预测词语是否为实体,并将实体分成建筑领域五大专业。本发明将传统提取建筑实体的序列标注任务转化为BERT预训练阶段的掩码语言任务,减小了下游建筑行业实体识别任务和预训练模型之间的差距,使得两者在训练形式上保持一致,同时设计提示模板也可以给BERT模型提供一些语言信息,基于此可以使建筑领域实体识别在小样本集上依然保证较高的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明的流程示意图。
图2为本发明识别建筑实体并分类的框架图。
图3为本发明系统的原理框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,一种基于prompt的建筑实体识别并分类方法,其步骤包括:
S1、收集建筑五大领域规范、通则以及公开数据集作为统一数据集并进行数据的预处理得到样本数据集,选择样本数据集中的一部分数据样本对其中的实体进行标注得到标注样本集。
进一步地,步骤S1中数据的预处理主要包括删除所选的规范、通则的图片、表格以及多余的空行。
选择样本数据集中的一部分数据样本对其中的实体进行标注,主要包括先把样本数据集中的数据分成两部分,一部分用来对BERT预训练模型进行预训练,一部分进行数据标注,标注正确的实体类别。
对实体进行标注的方法为:将其中的建筑五大领域的实体设置成字典的形式,其中字典中的键为实体,值为实体的类别。如下所示的案例为:{“石砌体的抗压强度在设计规范中可直接查到。”,“石砌体”:“结构专业”},第一个引号中为数据中的某一句话,“石砌体”表示抽取到的词语,即为字典中的键,“结构专业”为“石砌体”的标签,即实体正确的分类,在字典中表示值。
S2、选择BERT预训练模型,并从样本数据集中选择未标注的数据样本对BERT预训练模型进行预训练得到已完成预训练的BERT模型。
任何行业的语言都有其各自的语义特征,传统BERT模型是在通用语言数据集上进行预训练,因此模型BERT没有掌握建筑类词语的语义特征和语法表示,为了提高任务的精度,需要在实体识别任务之前在传统BERT模型基础之上使用建筑行业数据集对BERT预训练模型进行预训练。
S3、根据BERT模型设计初始提示模板,确定初始提示模板的形状并设置初始提示模板中的提示词以及预测词的信息。
传统的实体识别任务是序列标注任务,和BERT模型预训练阶段的任务之间存在天然的差距。同时,为了降低小样本对实体识别任务精度的影响,可以给下游实体识别任务增加提示词,使其变为BERT预训练模型在预训练阶段的任务,一方面减小预训练阶段和下游任务阶段之间存在的差距,另一方面提示词也为BERT模型增加了语义信息,也可以提高BERT模型的精度。
进一步地,步骤S3中根据BERT模型设计初始提示模板,确定初始提示模板形状并设置初始提示模板中提示词以及预测词信息的实现方法主要是指:
为了使得下游实体识别并分类任务可以更接近BERT模型,需要添加模板提示词,使实体识别的序列标注任务变为BERT掩码任务。
由于BERT模型即BERT掩码语言模型的完形填空任务的预测词[MASK]位置在句子中间,确定初始提示模板的形状为Cloze Prompt。即预测词出现在初始提示模板的提示词的中间,且预测词的个数是固定的。
设计的初始提示模板从人工设计模板和自动搜索模板中进行选择,由于人工设计模板需要很多实验、经验以及语言专业知识,根据实验结果发现选用人工设计模板,不同的prompt只有细微单个字词的区别,最后的结果相差巨大,因此,为了跳出人工设计模板的语言信息影响模型精度的问题,确定模板类型为自动搜索模板。
自动搜索模板在初始状态下模板的提示词为随机生成的,不再根据人类的理解确定具体的提示词,根据模型在训练过程中的误差反馈,在每一次的训练过程中,不断更新提示模板,最终可以得到一个高精度的提示模板。自动搜索模板中包括提示词[unused]和预测词[MASK]以及从原输入数据x中提取的词语x′。
设计自动搜索模板的格式和初始状态,包括确定模板中提示词[unused]的个数和提示词[unused]所放的位置,确定模板中预测词[MASK]的个数以及预测词[MASK]的位置,同时可以确定从原始输入数据x中提取的词语x′的位置,词语x′的位置记为[X]的位置。
可以得到自动搜索模板的初始格式如下所示:
xprompt=<unused>loc[X]<unused>loc[MASK]loc<unused>loc
其中,<unused>loc表示自动搜索模板的提示词[unused]的位置,[MASK]loc代表预测词[MASK]的位置。
如图2所示,由于<unused>loc和[MASK]loc只表示位置信息,并不是个数,个数是由自己确定的,因此在本申请中后续使用的[unused]和[MASK]的个数如下所述,首先确定自动搜索模板中提示词[unused]的个数为6以及提示词[unused]所放的位置。其次确定模板中预测词[MASK]的个数为4以及预测词[MASK]的位置。同时能够确定从原始数据中提取的词语x′的位置,其位置记为[X]的位置;
得到的自动搜索模板的初始形式:
xprompt=[u1][u2][u3][X][u4][MASK][MASK][MASK][MASK][u5][u6];
其中,[u1]~[u6]代表6个提示词[unused1]~[unused6]。
S4、根据识别实体以及实体类别的任务设置预测词位置的目标预测空间,并根据目标预测空间设置答案空间。
为了正确的识别实体并分类,BERT模型在训练阶段首先从输入数据中抽取词语,随后根据提示词预测该词语是否为实体并对实体分类,随后根据预测值和真实的标签值之间的差值更新提示模板的提示词,进而使得提示模板的提示词可以在预测实体以及实体类别方面精度更高。
进一步地,在步骤S4中设置最终的目标预测空间主要包括:
根据识别数据文本中的实体并分成建筑、结构、给排水、暖通、电气五大类的任务,得到识别实体并分类的任务是通过将自动搜索模板的初始形式xprompt放入BERT模型中预测预测词[MASK]位置应是什么词语,并确定最终识别的结果,因此最终得到的目标映射到预测词[MASK]的目标预测空间为:
Ttype={“不是专业”,“建筑专业”,“结构专业”,“给水排水”,“暖通专业”,“电气专业”}。
由于不同的分类可由不同的词语表示,并且词语表达稍有不同有可能最后的精度就有所不同,因此应该尽可能多的扩大答案空间。
确定目标预测空间Ttype为每一类初始答案空间,随后根据转述即先转为别的语言再转回中文的方式人工扩大每一类的初始答案空间,同时根据预测词[MASK]的数量以及保证后续计算的可行性,设定答案空间中的词不超过4,例如建筑类别中的部分答案为“{“建筑类型”,“建筑类”}”等,最终形成合理的答案空间I(X)。保证目标预测空间内的词语是4个汉字。
S5、根据给定的跨度1-5从标注样本集中的样本数据中抽取词语。
进一步地,步骤S5中,抽取数据中的词语,根据常规建筑类型词语的长度并且尽可能降低词语计算量,将数据输入之后,根据已经给定的跨度1-5抽取句子中的词语。
抽取第i个句子中的词语的公式如下所示:
Figure BDA0003840666860000091
其中,Si(x)={1,2,3,...,m},m为第i个句子的长度,N(x)为给定的抽取词语的跨度,即N(x)={1,2,3,4,5};l的范围是从1到m,即从句子中第l个字开始抽取词语,n的范围从1到5,表示从第l个字开始抽取n个字。xi表示原始输入中第i个句子,xi′表示从第i个句子中抽取的词语,span表示抽取词语的过程,可以通过代码来实现这一过程。
如图2所示先进行编码最后得到预测类别的框架图,例如在案例中“保温层厚度应根据所在地区现行建筑节能设计标准经计算确定”,从句子首字开始抽取,跨度span从1至5时,抽取词语分别为“保”、“保温”、“保温层”、“保温层厚”、“保温层厚度”,随后从首字逐次向后移动一位,分别从当前位置开始重复上述抽取词语的过程,根据句子长度得到相应数量的抽取词语。
S6、将抽取词语放入初始提示模板形成完整提示模板,并将完整提示模板向量化后放入BERT模型,通过BERT模型的掩码任务识别输入数据中的建筑领域实体并将实体分成建筑领域五大类别。
进一步地,步骤S6中,主要包括:
S6.1首先应该将抽取出的词语xi′放入自动搜索模板中[X]位置,形成完整提示模板。
例如将“保温层”放入到自动搜索模板中[X]位置可以得到完整提示模板为:
xprompt=[u1][u2][u3]保温层[u4][MASK][MASK][u5][u6]。
S6.2将完整提示模板以及目标预测空间中的词语向量化。
根据BERT模型的格式,首先在完整模板xprompt前添加句子起始符[CLS],并在句子的最后添加句子结束符[SEP],可得句子xprompt′如下所示:
xprompt′=[CLS][u1][u2][u3]保温层[u4][u5][MASK][MASK][MASK][MASK][u6][SEP];
其次,将句子xprompt′以字为单位将其向量化,每一个字转化成向量,向量化时将句子xprompt′分成两部分,其中提示词[unused]与自动搜索模板中其余的位置的信息进行不同的向量化,因此根据提示词位置和非提示词位置向量化的不同,将编码形式分为两种:编码I和编码II,编码I表示提示词[unused]位置的信息进行的向量化,使用没有进行预训练的初始化矩阵,随后根据训练进行优化;编码II表示对非提示词位置的信息进行向量化,采用经过BERT模型预训练过的矩阵,并在下游任务时不再进行优化。而且每一个字的向量主要是分为三部分:字向量(token embeddings)、段向量(segment embeddings)和位置向量(positional embeddings),其中字向量是融合了上下文语意信息的向量形式,字向量的表示如下公式所示:
Figure BDA0003840666860000101
其中j表示初始提示模板中的位置;
其中,
Figure BDA0003840666860000102
表示采用编码I进行字向量的编码,
Figure BDA0003840666860000103
表示采用编码II进行字向量的编码。
由于BERT模型中预训练任务中有预测下一句的任务,所以某些情况下两句话会拼起来,中间有[SEP]分隔符,段向量是为了区分前后两句话,段向量的表示如下公式所示:
Figure BDA0003840666860000104
其中j表示初始提示模板中的位置;
其中,
Figure BDA0003840666860000105
表示采用编码I进行段向量的编码,
Figure BDA0003840666860000106
表示采用编码II进行段向量的编码;
为了让模型可以区分同一个词在不同位置表示不同含义,人为加入表示位置的向量即位置向量,位置向量的表示如下公式所示:
Figure BDA0003840666860000107
其中j表示模板中的位置;
其中,
Figure BDA0003840666860000108
表示采用编码I进行位置向量的编码,
Figure BDA0003840666860000109
表示采用编码II进行位置向量的编码。
最终每个字的三部分向量对应位置相加,得到句子xprompt′的向量化形式即:
Figure BDA00038406668600001010
也就是说,提示词[unused]部分使用编码I,非[unused]部分使用编码II,对于提示词[unused1]~[unused6]部分,向量化后得到h1~h6,后期可以根据损失函数对使用编码I进行编码的部分采用的随机初始化矩阵进行优化。初始化矩阵是随机初始化。
S6.3为了增加提示词之间的相关性,将转化成向量的提示词h1~h6通过一个双向长短期记忆网络(Long-Short Term Memory)即LSTM,使得向量可以得到前后提示词的信息,再通过ReLU激活函数,减少参数值出现梯度消失的情况,进而得到一个新的提示词的词向量hq′。
即词向量
Figure BDA00038406668600001011
Figure BDA00038406668600001012
其中,q表示第q个提示词,u表示提示词的总个数6。LSTM表示双向长短期记忆网络函数。双向长短期记忆网络是分别从前后两个方向认识到词语的编码信息,可以使得通过LSTM得到的提示词词向量hq′的编码中包含有前后提示词的语义信息。
S6.4由于提示词部分和非提示词部分采用不同的编码,因此需要将得到的词向量hq′和[X]部分的抽取词语、预测词[MASK]部分以及句子起始符[CLS]和句子结束符[SEP]的向量拼接起来,得到xprompt′最终输入进BERT模型的向量形式,记为xprompt″。
S6.5进一步地,将答案空间中的词,通过BERT模型中的词库中的词向量和词矩阵转化成向量矩阵形式,若答案空间I(X)中的词长度不足4通过PAD向量补齐到4。
答案空间的向量化只有字向量,因为矩阵的列数不统一用PAD向量补齐。
S6.6进一步的,通过BERT模型的掩码任务识别文本中的建筑领域实体并将实体分成建筑领域五大类别。
首先,将输入向量放入BERT模型,输出新的向量,同时也可以得到预测词[MASK]位置包含上下文语意信息的向量。
根据BERT模型中预测出来的预测词[MASK]位置的词语的向量组合起来形成矩阵A和答案空间I(X)中的词语的向量B∈I(X)组合成的矩阵做相似度计算,计算两者的相似度得分为:
Figure BDA0003840666860000111
其中,w表示矩阵A的行向量、矩阵BT的列向量。
S6.7随后,使用softmax函数把相似度得分score激活为概率分布,其中softmax函数为
Figure BDA0003840666860000112
最终得到的概率值最高的词即为提取出来的词语x′的答案的信息,由于答案空间中的词均为目标预测空间中词语的二级词语,因此根据答案的信息确定目标预测空间中的词汇,即为预测词[MASK]最后的输出。
如果同一个字开始但是跨度span不同的词同时被预测为实体,考虑为嵌入式词语,因此只保留跨度span较大的词为实体,一般情况下,嵌入式词语跨度较大的是完整的实体,这样做可以确保训练的精确度。
S6.8在训练阶段,将预测词[MASK]的预测向量和标注的标签词的独热编码(one-hot)通过交叉熵损失函数
Figure BDA0003840666860000113
计算损失,进而对提示词编码的初始化矩阵中的参数求导,反向传播更新提示模板的提示词的编码的初始化矩阵中的参数,在随后的正向传播过程中可以用更合适的向量表示提示词。
其中,y表示真实的标注的标签值,即抽取词语是否是实体,并且是哪一类实体;
Figure BDA0003840666860000121
表示预测值,即预测出来抽取出来的词语是哪一类实体。
由于模板的向量是随机初始化的参数矩阵得到的,因此一开始提示信息并不能充分发挥作用,所以需要用少量数据在训练阶段更新模板参数,最后可以得到较高的建筑类实体识别并分类的结果,训练阶段结束后,停止更新参数。
在测试阶段,将输入数据按照上述词向量化后直接放入BERT模型识别实体并预测实体类别。
作为一种优先的实施方式,本发明还提供了一种基于prompt的建筑领域实体识别并分类系统,包括:
收集数据模块,用于收集建筑领域的数据并进行预处理和标注;
预训练模块,用于在专业性数据上对BERT预训练模型进行训练得到BERT模型;
构建prompt模块,用于设计初始提示模板的相关信息;
设置答案模块,用于设置预测词的答案;
抽取词语模块,用于抽取输入数据中的词语;
预测模块,用于从输入数据中提取词语并放至初始提示模板,利用BERT模型预测词语是否为实体,并且同时可以预测词语为哪一类实体。
收集数据模块与预训练模块相连接,预训练模块与构建prompt模块、设置答案模块、抽取词语模块相连接,上述三模块均与预测模块相连接。
作为一种优先的实施方式,本发明还提供一种计算机的存储介质,其可存储计算机程序,所述的计算机程序在执行时可以实现所述的一种基于prompt的建筑实体识别并分类方法的任意步骤。
可以说明的是,本发明中所举的样例只是为了说明某一步的实施方法,并不是对本专利的限制;技术人员可以对以前实施的方案进行修改,而这些修改不应使技术方案脱离本发明的范围。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于prompt的建筑实体识别并分类方法,其特征在于,其步骤如下:
S1、收集建筑五大领域规范、通则以及公开数据集作为统一数据集并进行数据的预处理得到样本数据集,选择样本数据集中的一部分数据样本对其中的实体进行标注得到标注样本集;
S2、选择BERT预训练模型,并从样本数据集中选择未标注的数据样本对BERT预训练模型进行预训练得到已完成预训练的BERT模型;
S3、根据BERT模型设计初始提示模板,确定初始提示模板的形状并设置初始提示模板中的提示词以及预测词的信息;
S4、根据识别实体以及实体类别的任务设置预测词位置的目标预测空间,并根据目标预测空间设置答案空间;
S5、根据给定的跨度1-5从标注样本集中的样本数据中抽取词语;
S6、将抽取词语放入初始提示模板形成完整提示模板,并将完整提示模板向量化后放入BERT模型,通过BERT模型的掩码任务识别输入数据中的建筑领域实体并将实体分成建筑领域五大类别。
2.根据权利要求1所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述步骤S3中初始提示模板的形状为Cloze Prompt,即预测词出现在初始提示模板的提示词的中间,且预测词的个数是固定的;
所述初始提示模板为自动搜索模板,在初始状态下自动搜索模板的提示词为随机生成的,根据BERT模型在训练过程中的误差反馈,不断更新提示模板,最终得到一个高精度的提示模板。
3.根据权利要求2所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述自动搜索模板包括提示词[unused]和预测词[MASK]以及从输入数据x中提取的词语x′;所述自动搜索模板的格式和初始状态的设计方法为:确定模板中提示词[unused]的个数和位置,确定模板中预测词[MASK]的个数以及位置,同时确定从输入数据x中提取的词语x′的位置,词语x′的位置记为[X]的位置,则自动搜索模板的初始格式为:
xprompt=<unused>loc[X]<unused>loc[MASK]loc<unused>loc
其中,<unused>loc表示提示词[unused]的位置,[MASK]loc代表预测词[MASK]的位置。
4.根据权利要求3所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述步骤S4中目标预测空间的设置方法为:
根据识别数据文本中的实体并分成建筑、结构、给排水、暖通、电气五大类的任务,得到目标映射到预测词[MASK]的目标预测空间为:
Ttype={“不是专业”,“建筑专业”,“结构专业”,“给水排水”,“暖通专业”,“电气专业”};
所述步骤S4中根据目标预测空间设置答案空间的方法为:确定目标预测空间Ttype为每一类初始答案空间,根据转述的方式人工扩大每一类的初始答案空间,设定答案空间中的词长度不超过4,形成合理的答案空间I(X)。
5.根据权利要求1-4中任意一项所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述步骤S5中抽取词语的方法为:
根据已经给定的跨度1-5抽取样本数据的句子中的词语,抽取第i个句子中的词语如下所示:
Figure FDA0003840666850000021
其中,Si(x)={1,2,3,...,m},m为第i个句子的长度,N(x)为给定的抽取词语的跨度,且N(x)={1,2,3,4,5};l的范围是从1到m,即从句子中第l个字开始抽取词语;n的范围从1到5,表示从第l个字开始抽取n个字;xi表示原始输入中第i个句子,xi′表示从第i个句子中抽取的词语,span表示抽取词语的过程函数。
6.根据权利要求3、4或5所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述步骤S6的实现方法为:
S6.1将抽取出的词语xi′放入自动搜索模板中[X]位置,形成完整提示模板;
S6.2将完整提示模板以及目标预测空间的词语向量化;
S6.3将转化成向量的提示词通过一个双向长短期记忆网络,得到向量前后提示词的信息;再通过ReLU激活函数,得到一个新的提示词的词向量hq′;
S6.4将得到的词向量hq′和(X]部分的抽取词语、预测词[MASK]部分以及句子起始符[CLS]和句子结束符[SEP]的向量拼接起来,得到xprompt′输入BERT模型的向量形式,记为xprompt″;
S6.5将答案空间中的词,通过BERT模型中的词库中的词向量和词矩阵转化成向量矩阵形式;
S6.6通过BERT模型的掩码任务预测输入数据的建筑领域实体并将实体分成建筑领域五大类别,计算预测词与步骤S6.5中答案空间的向量的相似度得分;
S6.7使用softmax函数把相似度得分激活为概率分布,得到的概率值最高的词为提取出来的词语x′的答案的信息,根据答案的信息确定目标预测空间中的词汇,即为预测词[MASK]的输出。
7.根据权利要求6所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述S6.2的实现方法为:
在完整提示模板xprompt前添加句子起始符[CLS],并在句子的最后添加句子结束符[SEP],得到句子xprompt′;
将句子xprompt′以字为单位将其向量化,每一个字转化成向量,向量化时将句子xprompt′分成两部分,其中提示词[unused]与自动搜索模板中其余的位置的信息进行不同的向量化;
根据提示词位置和非提示词位置向量化的不同,将编码形式分为两种:编码I和编码II,编码I表示提示词[unused]位置的信息进行的向量化,使用没有进行预训练的初始化矩阵;编码II表示对非提示词位置的信息进行向量化,采用BERT模型预训练过的矩阵;
每一个字的向量分为三部分:字向量、段向量和位置向量,其中字向量是融合了上下文语意信息的向量形式,字向量的表示如下:
Figure FDA0003840666850000031
其中,j表示初始提示模板中的位置;
其中,
Figure FDA0003840666850000032
表示采用编码I进行字向量的编码,
Figure FDA0003840666850000033
表示采用编码II进行字向量的编码;
段向量的表示如下:
Figure FDA0003840666850000034
其中,j表示初始提示模板中的位置;
其中,
Figure FDA0003840666850000035
表示采用编码I进行段向量的编码,
Figure FDA0003840666850000036
表示采用编码II进行段向量的编码;
位置向量的表示如下公式所示:
Figure FDA0003840666850000037
其中,j表示模板中的位置;
其中,
Figure FDA0003840666850000038
表示采用编码I进行位置向量的编码,
Figure FDA0003840666850000039
表示采用编码II进行位置向量的编码;
每个字的三部分向量对应位置相加,得到句子xprompt′的向量化形式:
Figure FDA00038406668500000310
8.根据权利要求7所述的基于prompt的建筑实体识别并分类方法,其特征在于,所述步骤S6.3中的词向量
Figure FDA00038406668500000311
Figure FDA00038406668500000312
其中,q表示第q个提示词,u表示提示词的总个数;LSTM表示双向长短期记忆网络函数,通过LSTM得到的提示词词向量hq′的编码中包含有前后提示词的语义信息;
所述步骤S6.6中将预测词[MASK]位置矩阵A和答案空间I(X)中的词语的矩阵B∈I(X)做相似度计算,得到相似度得分为:
Figure FDA0003840666850000041
其中,w表示矩阵A的行向量、矩阵BT的列向量;
所述步骤S6.7中softmax函数为
Figure FDA0003840666850000042
在训练过程中,将预测词[MASK]的预测向量和标签词的独热编码向量通过交叉熵损失函数
Figure FDA0003840666850000043
计算损失,反向传播更新初始提示模板提示词的参数;其中,y表示标签词;
Figure FDA0003840666850000044
表示预测值。
9.一种基于prompt的建筑实体识别并分类系统,其特征在于,包括:
收集数据模块,用于收集建筑领域的数据并进行预处理和标注;
预训练模块,用于在专业性数据上对BERT预训练模型进行训练得到BERT模型;
构建prompt模块,用于设计初始提示模板的相关信息;
设置答案模块,用于设置预测词的答案;
抽取词语模块,用于抽取输入数据中的词语;
预测模块,用于从输入数据中提取词语并放至初始提示模板,利用BERT模型预测词语是否为实体,并且同时预测词语为哪一类实体。
收集数据模块与预训练模块相连接,预训练模块分别与构建prompt模块、设置答案模块和抽取词语模块相连接,构建prompt模块、设置答案模块和抽取词语模块均与预测模块相连接。
10.一种计算机的存储介质,其可存储计算机程序,其特征在于,所述的计算机程序在执行时可以实现权利要求1-8任意一项所述的一种基于prompt的建筑实体识别并分类方法的任意步骤。
CN202211104104.8A 2022-09-09 2022-09-09 一种基于prompt的建筑实体识别并分类方法及系统 Pending CN115859164A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211104104.8A CN115859164A (zh) 2022-09-09 2022-09-09 一种基于prompt的建筑实体识别并分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211104104.8A CN115859164A (zh) 2022-09-09 2022-09-09 一种基于prompt的建筑实体识别并分类方法及系统

Publications (1)

Publication Number Publication Date
CN115859164A true CN115859164A (zh) 2023-03-28

Family

ID=85660896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211104104.8A Pending CN115859164A (zh) 2022-09-09 2022-09-09 一种基于prompt的建筑实体识别并分类方法及系统

Country Status (1)

Country Link
CN (1) CN115859164A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN117236335A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于提示学习的两阶段命名实体识别方法
CN118734956A (zh) * 2024-09-03 2024-10-01 北方健康医疗大数据科技有限公司 应用小样本学习的信息抽取方法、装置、设备和存储介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116401369A (zh) * 2023-06-07 2023-07-07 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN116401369B (zh) * 2023-06-07 2023-08-11 佰墨思(成都)数字技术有限公司 用于生物制品生产术语的实体识别及分类方法
CN117236335A (zh) * 2023-11-13 2023-12-15 江西师范大学 基于提示学习的两阶段命名实体识别方法
CN117236335B (zh) * 2023-11-13 2024-01-30 江西师范大学 基于提示学习的两阶段命名实体识别方法
CN118734956A (zh) * 2024-09-03 2024-10-01 北方健康医疗大数据科技有限公司 应用小样本学习的信息抽取方法、装置、设备和存储介质

Similar Documents

Publication Publication Date Title
CN108460013B (zh) 一种基于细粒度词表示模型的序列标注模型及方法
CN108984526B (zh) 一种基于深度学习的文档主题向量抽取方法
CN111310471B (zh) 一种基于bblc模型的旅游命名实体识别方法
CN112101041B (zh) 基于语义相似度的实体关系抽取方法、装置、设备及介质
CN110008469B (zh) 一种多层次命名实体识别方法
CN115859164A (zh) 一种基于prompt的建筑实体识别并分类方法及系统
CN110390049B (zh) 一种面向软件开发问题的答案自动生成方法
CN114818717B (zh) 融合词汇和句法信息的中文命名实体识别方法及系统
CN113377897A (zh) 基于深度对抗学习的多语言医疗术语规范标准化系统及方法
CN113268576B (zh) 一种基于深度学习的部门语义信息抽取的方法及装置
CN116151256A (zh) 一种基于多任务和提示学习的小样本命名实体识别方法
CN112528649A (zh) 针对多语言混合文本的英文拼音识别方法和系统
CN115600597A (zh) 基于注意力机制和词内语义融合的命名实体识别方法、装置、系统及存储介质
CN114757184B (zh) 实现航空领域知识问答的方法和系统
CN115688784A (zh) 一种融合字与词语特征的中文命名实体识别方法
CN115238693A (zh) 一种基于多分词和多层双向长短期记忆的中文命名实体识别方法
CN114781380A (zh) 一种融合多粒度信息的中文命名实体识别方法、设备和介质
CN116595023A (zh) 地址信息的更新方法和装置、电子设备及存储介质
CN115203388A (zh) 机器阅读理解方法、装置、计算机设备和存储介质
CN118312600A (zh) 一种基于知识图谱与大语言模型的智能客服问答方法
CN115809666B (zh) 一种融合词典信息和注意力机制的命名实体识别方法
CN116362242A (zh) 一种小样本槽值提取方法、装置、设备及存储介质
CN115952284A (zh) 一种融合密度聚类与ernie的医疗文本关系抽取方法
CN115759102A (zh) 一种中国诗酒文化命名实体识别方法
CN115964486A (zh) 一种基于数据增强的小样本意图识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination