CN116011456A - 基于提示学习的中文建筑规范文本实体识别方法及系统 - Google Patents
基于提示学习的中文建筑规范文本实体识别方法及系统 Download PDFInfo
- Publication number
- CN116011456A CN116011456A CN202310258606.4A CN202310258606A CN116011456A CN 116011456 A CN116011456 A CN 116011456A CN 202310258606 A CN202310258606 A CN 202310258606A CN 116011456 A CN116011456 A CN 116011456A
- Authority
- CN
- China
- Prior art keywords
- text
- word vector
- entity
- chinese building
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及数据处理技术领域,尤其涉及一种基于提示学习的中文建筑规范文本实体识别方法及系统。该方法包括:基于中文建筑文本构造第一词向量和第二词向量;将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型;将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,对所述概率得分进行解码,得到实体识别结果。本申请通过丰富词向量的语义信息和增添模板信息提高词向量的多元特征,提高文本实体识别效果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于提示学习的中文建筑规范文本实体识别方法及系统。
背景技术
目前,我国建筑行业正处于稳步发展阶段,建筑的规模和复杂性都与日俱增,与此同时,建筑也在朝着信息化、智能化的方向发展,建筑相关的数据量也随着其信息化水平的提高而迅速增长。在庞大的数据量下,对信息的质量提出了更高的要求,命名实体识别作为自然语言处理中的重要任务,可以保证高效且准确地提取出建筑规范文本中的关键信息,对于建筑设计等下游任务起着不可或缺的辅助作用。因此,如何利用命名实体识别技术对建筑规范文本进行实体识别成为知识工程领域的研究热点。
目前命名实体识别的方法主要是基于深度学习的方法,利用计算机自动提取特征,其常见的做法是对输入文本序列输入到编码层进行编码,利用深度学习模型捕获文本的语义特征,将其输入到解码层对文本序列中的实体进行识别和分类。但是实际使用中目前的方法往往是只关注文本内容的上下文语义信息,或是只关注实体的边界信息,没有很好的将文本的上下文语义信息与实体的边界信息有机的结合起来,从而导致后续实体识别的效果不佳;同时,建筑设计规范所涵盖行业规范、行业专用词汇、以及其用词表达相对专业性较强,不易理解,各实体与条文之间往往存在逻辑关系且并不容易捕捉,目前的方法在庞大的实体数量及繁杂的关联关系中对中文建筑规范文本实体识别具有较低的识别效果。
因此,亟需一种具有较高识别精度的基于提示学习的中文建筑规范文本实体识别方法及系统。
发明内容
为此,本发明提供基于提示学习的中文建筑规范文本实体识别方法及系统,可以解决中文建筑规范文本实体识别效果低的问题。
为实现上述目的,本发明一方面提供基于提示学习的中文建筑规范文本实体识别方法,该方法包括:
基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;
将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;
构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型;
将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,对所述概率得分进行解码,得到实体识别结果。
优选的,所述构造所述第一词向量,具体包括:
基于提示学习构造模板,将模板发送至分词器中,获取含有模板信息的词向量,得到所述第一词向量。
优选的,所述模板为:
TE=X.In this sentence,[Ent] is a [MASK]
其中,TE为所基于提示学习所构造的模板,X为所述中文建筑文本,[Ent]为X中的实体片段,MASK为待识别的词语。
优选的,构造第二词向量.具体包括:
对所述中文建筑规范文本进行知识增强,获得增强向量;通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量。
优选的,所述获得增强向量,具体包括:
构建ERNIE模型,所述ERNIE模型包含一个双层双向Transformer编码器,所述双层双向Transformer编码器对所述中文建筑规范文本进行知识增强并输出增强向量;
其中,所述双层双向Transformer编码器基于字符、短语和实体词语的掩蔽策略,将短语和实体层次的知识整合到语言表示中。
优选的,所述通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量,具体包括:
将所述增强向量输入遗忘门中,决定保留的信息;
更新输入门的信息和记忆单元状态;
捕获输出门的信息;
根据所述保留的信息、更新后的输入门的信息、状态单元状态和输出门的信息获取最终隐状态向量,以获得第二词向量。
优选的,所述构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型,包括:
获取建筑规范文本,构建文本语料库;
对文本语料库进行文本清洗;
采用标准规范标注清洗后的文本;
利用标注后的文本训练初始预训练模型,得到改进的预训练模型。
优选的,所述将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,具体包括:
假设输入文本映射的类别标签记为yi(i=1,2,3,...,N),N为类别标签总数,那么当且仅当是yi是输入文本的正确类别标签时,记vy为模板TE中[MASK]的合适替代,则输入文本Ei所对应的类别标签yi的概率即为,
,
其中,K表示所预测的MASK数量,k∈(1,N),k所表示预测MASK的数量,vi为所预测的MASK的全部结果,表示改进的预训练模型对模板TE(E)中[MASK]位置分配的分数,预测MASK内容与真实值之间的第一损失函数Losspc:
,
其中,m为实体类型的集合,将模板中包含的多个实体片段的类别标签概率求和。
优选的,所述对所述概率得分进行解码,得到实体识别结果,利用CRF解码层对所述概率得分进行解码;所述CRF解码层具体包括:
计算实体标签序列的概率,对所述实体标签序列的概率进行归一化;采用对数最大似然估计得到模型的标注序列似然函数,利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列。
本发明另一方面提供基于提示学习的中文建筑规范文本实体识别系统,包括:
输入模块,用以输入中文建筑文本;
构造模块,基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;所述构造模块还用于构造中文建筑规范文本的实体识别数据集;
融合模块,将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;
训练模块,与所述融合模块连接,基于所述实体识别数据集进行预训练,得到改进的预训练模型;
解码模块,与所述训练模块连接,用以基于所述改进的预训练模型对所述第三词向量进行提示学习,得到概率得分;所述解码模块还被配置为对所述概率得分进行解码,并得到实体识别结果。
与现有技术相比,本发明的有益效果在于,本发明通过对输入的中文建筑文本进行构造含有基于提示学习思想构造模板的模板信息的第一词向量和含有字符、词组、实体和上下文信息的第二词向量,并将第一词向量和第二词向量进行融合,对融合后的词向量进行实体识别,含有字符、词组、实体和上下文信息的第二词向量实现了对实体在所述中文建筑文本中的语义联系,还包含实体在所述中文建筑文本中的隐藏逻辑,与包含基于提示学习思想构造的模板的第一词向量进行融合后得到特征更加多元的融合向量,提高文本识别的针对性和建筑文本实体识别效果。
附图说明
图1为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法的流程示意图;
图2为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法所用的ERNIE模型掩码策略示意图;
图3为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法中词向量构造方式示意图;
图4为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统的结构示意图;
图5为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统的构造模块的结构示意图;
图6为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统构造模块的第二词向量构造单元的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
实施例
请参阅图1,本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法,该方法包括:基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型;将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,对所述概率得分进行解码,得到实体识别结果。
基于中文建筑文本构造第一词向量和第二词向量,具体为:将中文建筑文本输入向量构造模块,所述向量构造模块基于所述中文文本构造第一词向量和第二词向量,所述第一词向量包括基于提示学习的模板信息,所述第二词向量包括字符、词、实体与上下文信息。本发明提供的实体识别方法,将第一、第二词向量融合进行实体识别,通过包含提示学习信息的模板,将下游任务转换为输出空间有限的无监督任务,既可以避免参数过多造成的微调问题,又可以缩小预训练任务与微调之间的差距,提高模型的适应性,提高识别准确率。
作为一个可选的实施例,构造所述第一词向量具体包括:
基于提示学习构造模板,将模板发送至分词器中,获取含有模板信息的词向量,得到所述第一词向量。通过模板的构造使得改进的预训练模型在训练的过程中通过对模板的利用冻结语言模型的参数,只对构建的模板进行训练,降低训练成本,节约了训练时间,同时提高了模式识别的针对性,从而提高了实体识别的准确度。
基于提示学习构造模板,所述模板为:
TE=X.In this sentence,[Ent] is a [MASK]
其中,TE为所基于提示学习所构造的模板,X为所述中文建筑文本,[Ent]为X中的实体片段,MASK为待识别的词语。
构造模板后,将TE发送至分词器中,捕获含有模板信息的词向量,得到所述第一词向量。
本发明提供的上述模板构建公式将中文文本中的句子变为填空式结构,实现中文文本中各句子的分类,以构成标准的模板,对实体的识别起到提示作用。
作为一个可选的实施例,构造第二词向量具体包括:
对所述中文建筑文本进行知识增强,获得增强向量;通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量。
具体来说,构建ERNIE模型,所述ERNIE模型包含一个双层双向Transformer编码器,所述双层双向Transformer编码器对所述中文建筑文本进行知识增强并输出增强向量,其中,所述双层双向Transformer编码器基于字符、短语和实体词语的掩蔽策略,将短语和实体层次的知识整合到语言表示中。本发明在构建第二词向量时,通过内含双层双向Transformer编码器的ERNIE模型对所述中文文本进行知识增强,使获得的增强向量与上下文信息紧密相关,提高所述增强向量的语义信息的丰富性以区分歧义。例如,当所述中文建筑文本为“南京是江苏省会,古称金陵”时,请参阅图2,所述ERNIE模型将“江苏”或“金陵”当作一个单元统一进行标注,图2中“Mask”表示标注,然后取最后一层Transformer的状态,生成增强向量。
所述通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量,如图3所示。图3中X0、X1、X2和X3表示输入文本,C0、C1、C2和C3表示增强向量,LSTM表示长短期记忆网络,在所述ERNIE模型输出所述增强向量后,将所述增强向量发送至双向长短期记忆网络进行训练,具体包括:
将所述增强向量输入遗忘门中,决定保留的信息,所述保留的信息为:
,
ft为t时刻的遗忘门的值,σ为Sigmoid激活函数,Wf为遗忘门的权重矩阵,ht-1为t-1时刻的输出,Tt表示t时刻的输入,bf为遗忘门的偏置向量;
更新输入门的信息和记忆单元状态,其中,更新后的输入门的信息为:
,
it为t时刻的输入门更新后的值,σ为Sigmoid激活函数,Wi为输入门的权重矩阵,ht-1为t-1时刻的输出,Tt表示t时刻的输入,binp为输入门的偏置向量;更新后记忆单元的状态为:
,
Ct为t时刻的记忆单元状态,Wc为记忆单元的权重矩阵,ht-1为t-1时刻的输出,Tt表示t时刻的输入,bc为记忆单元的偏置向量,tanh为双曲正切函数;
捕获输出门的信息,输出门的输出值为:
,
Ot为t时刻的输出门的值,σ为Sigmoid激活函数,Wo为输出门的权重矩阵,ht-1为t-1时刻的输出,Tt表示t时刻的输入,boup为输出门的偏置向量;根据所述保留的信息、更新后的输入门的信息、状态单元状态和输出门的信息获取最终隐状态向量:
,
ht为t时刻长短期记忆网络的隐含向量状态,Ot为t时刻的输出门的值,ft为t时刻的遗忘门的值,Ct-1为t-1时刻记忆单元状态,it为t时刻的输入门更新后的值,Wc为记忆单元的权重矩阵,ht-1为t-1时刻的输出,Tt表示t时刻的输入,bc为记忆单元的偏置向量;
获取第二词向量,公式为:hr+l=[hr,hl],
hr+l表示第二词向量,hr表示经过前向长短期记忆网络模型得到输入的前向量,hl表示经过后向长短期记忆网络模型得到输入的后向量。通过对增强向量进行双向长短期记忆网络训练,进一步地提取增强向量的语义信息,由于综合了前、后向长短期记忆网络模型的输出,包含更丰富的信息,避免识别过程中产生的歧义,提高文本实体识别的准确性。
例如当所述中文建筑文本为“演示实验室纵向走道宽度不应小于0.07mm”时,其中实体为“演示实验室纵向走道”,而并非“演示实验室”与“纵向走道”。
请参阅图1,本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法,所述第三词向量为:
,
Fw为所述第三词向量,通过将含有字符、词组、实体和上下文信息的第二词向量与包含基于提示学习的模板信息的第一词向量进行融合后得到特征更加多元的融合向量,提高文本实体识别效果。
请参阅图1,本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法,所述构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型,包括:获取建筑规范文本,构建文本语料库;对文本语料库进行文本清洗;采用标准规范标注清洗后的文本;利用标注后的文本训练初始预训练模型,得到改进的预训练模型。
作为一种可选的实施例,所述中文建筑规范为文本至少包括22种原始建筑规范文本,所述22种原始建筑规范文本包括餐饮建筑规范文本、车库建筑规范文本、医院建筑规范文本、加油站建筑规范文本和中小学校建筑规范文本等。
所述对文本语料库进行文本清洗,具体包括将所述文本语料库中的示意图和表格内容转换为文本;对转换后的文本去除特殊符号和乱码内容。本发明通过对文本语料库进行文本清洗,使得文本语料库中的示意图和表格内容转换为文本,提高文本语料库的可操作性和文本语料库信息完整性,提高最终的文本实体识别效果。
所述采用标准规范标注清洗后的文本,基于预定义的建筑实体标签对清洗后的文本进行标注,优选的,可以采用BIOES标注规范进行标注,其中B表示开始,I表示内部,O表示非实体,E实体尾部,S表示被标记的词为一个实体。例如将“绿化用地、体育用地”标注为“场地功能”,对应标签为“SIF”;将“教学用房、游泳馆”标注为“建筑类别”,对应标签为“BLDG”;将“用餐区域、学校可比容积率”标注为“专业术语”,对应标签为“TER”;将“采暖、空调”标注为“暖通设施”,对应标签为“HVAC”;将“电源插座、供电管井”标注为“电气设施”,对应标签为“ELEC”;将“防火门、防火卷帘”标注为“防火设施”,对应标签为“FCI”。又例如建筑中文文本“绿化用地应不得小于总体面积的30%”,其对应BIOES标注是“B-SIF I-SIF I-SIF I-SIFO O O O O O O O O E”。本发明提供的标注方法,相较于现有技术中提供的针对任命的PEO和针对地理位置的LOC实体标签,提供了适用于建筑领域的标签体系,从而对建筑领域的实体进行准确标记,提高实体识别的准确度。
进一步的,所述改进的预训练模型可以为领域深度预训练模型,领域深度预训练模型是在初始的预训练模型的基础上,使用大量建筑领域内未标注文本继续训练通用预训练模型获得的。初始的预训练模型可直接采用开源的通用预训练模型,例如BERT预训练模型,在此基础上使用构造的中文建筑规范文本的实体识别数据集对其进行训练,采用建筑领域规范的数据集进行训练,得到更适合建筑规范命名实体识别任务的改进的预训练模型。
训练初始预训练模型,具体包括:采用whole mask策略实现MLM任务,whole mask策略具体包括调整文本数据格式,使其与预训练模型的预训练数据的数据格式相同;对调整格式后的文本进行分词,将分词后的数据存储在第一词典中,可以使用现有技术中存在的分词工具对文本进行分词;将调整格式后的文本转换为第一词典中的id,并添加标记信息,标记信息可以为[CLS],[SEP],[UNK],[PAD]等;遍历标记后的文本,若一个词语中一个字被MASK了,将整个词语MASK。SOP(SENTENCE ORDER PREDICTION)任务判断词语关系,为了获得更好地效果,抛弃预训练模型中的NSP(Next Sentence Prediction)任务,改为SOP任务,使用段落连续性任务。所述SOP任务的正例是判断两句话是否有顺序关系,反例是判断两句话是否为反序关系。设定相关超参数,对搭建神经网络进行训练,得到改进的预训练模型。
请参阅图1,本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法,所述将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,具体包括:
假设输入文本映射的类别标签记为yi(i=1,2,3,...,N),N为类别标签总数,那么当且仅当是yi是输入文本的正确类别标签时,记vy为模板TE中[MASK]的合适替代,则输入文本Ei所对应的类别标签yi的概率即为,
,
其中,K表示所预测的MASK数量,k∈(1,N),k所表示预测MASK的数量,vi为所预测的MASK的全部结果,表示改进的预训练模型对模板TE(E)中[MASK]位置分配的分数,预测MASK内容与真实值之间的第一损失函数Losspc:,
其中,m为实体类型的集合,将模板中包含的多个实体片段的类别标签概率求和。
请参阅图1,本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法,所述对所述概率得分进行解码,得到实体识别结果,作为一种可选的实施例,利用CRF(Conditional Random Fields)解码层对所述概率得分进行解码。所述CRF解码层具体包括:
计算实体标签序列的概率,对所述实体标签序列的概率进行归一化;采用对数最大似然估计得到模型的标注序列似然函数,利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列。
其中,计算实体标签序列的概率具体为:定义一个a×b的矩阵,a为字序号,即第a个字,b为标签序号,即第b个标签,Pab表示句子中第a个字第b个标签的概率,使用所述CRF解码层计算实体标签序列ya(a=1,2,3,...,N)的概率,为:,
其中,表示从实体标签ya-1成功转移到实体标签ya的分数;
所述对所述实体标签序列的概率进行归一化,具体为:对S(X,y)进行归一化处理,得到在所述中文建筑文本X的条件下产生标记序列y的概率为:,
式中为可能的实体标签序列,y为真实标记序列,为归一化因子;
所述采用对数最大似然估计得到模型的标注序列似然函数,表示为:
,
式中yx为所有可能的实体标签序列,S(S|X)为在X的条件下的最大似然估计;
所述利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列,具体为:
,
第二损失函数Losscr为:
,
最后的损失函数Loss为:
,
其中,k表示实体类型集合的序列名;z表示输出序列中的序列名。
具体而言,本发明实施例通过将中文建筑文本输入向量构造模块,所述向量构造模块对所述中文文本构造第一词向量和第二词向量并将所述第一词向量和第二词向量进行融合,得到第三词向量,将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分;对所述概率得分进行解码,得到实体识别结果,实现在多种词向量获取方式下基于提示学习中文文本进行训练,多种词向量获的方式提高词向量语义信息的丰富性和多源性,实现对实体与条文之间存在的隐式逻辑关系的获取,提高文本实体识别效率;而提示学习思想的引入只对构建的模板进行训练,在降低训练成本的同时将模型的下游任务转换为输出空间有限的任务,避免参数过多造成的微调问题,缩小预训练任务与微调之间的差距,提高文本实体识别效率。
实施例
请参阅图4,本发明实施例还提供基于提示学习的中文建筑规范文本实体识别系统,该系统包括:
输入模块100,用以输入中文建筑文本;
构造模块200,基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;所述构造模块还用于构造中文建筑规范文本的实体识别数据集;
融合模块300,将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;
训练模块400,与所述融合模块连接,基于所述实体识别数据集进行预训练,得到改进的预训练模型;
解码模块500,与所述训练模块连接,用以基于所述改进的预训练模型对所述第三词向量进行提示学习,得到概率得分;所述解码模块还被配置为对所述概率得分进行解码,并得到实体识别结果。
具体而言,所述构造模块200包括第一词向量构造单元210和第二词向量构造单元220,
所述第一词向量构造单元210用以构造所述第一词向量,所述第二词向量构造单元220用以构造所述第二词向量;
所述第一词向量构造单元210根据提示学习构建模板:
TE=X.In this sentence,[Ent] is a [MASK]
其中,TE为所基于提示学习所构造的模板,X为所述中文建筑文本,[Ent]为X中的实体片段,MASK为待识别的词语。
所述第一词向量构造单元210设置有分词器,将所述模板发送至所述分词器中,获取含有模板信息的词向量,得到所述第一词向量。
具体而言,所述第二词向量构造单元220包括增强子单元221和训练子单元222,
所述增强子单元221设置有多层双向的Transformer编码器,用以对所述中文建筑文本的短语和实体层次的知识进行整合,生成增强向量;
所述训练子单元222用以对所述增强向量进行双向长短期记忆网络训练,对所述增强向量的语义信息进行提取,得到所述第二词向量hr+l。
具体而言,所述融合模块400用以将所述第一词向量和所述第二词向量进行融合,得到第三词向量:
,
Fw为所述第三词向量。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于提示学习的中文建筑规范文本实体识别方法,其特征在于,包括:
基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;
将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;
构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型;
将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,对所述概率得分进行解码,得到实体识别结果。
2.根据权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述构造所述第一词向量,具体包括:
基于提示学习构造模板,将模板发送至分词器中,获取含有模板信息的词向量,得到所述第一词向量。
3.根据权利要求2所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述模板为:
TE=X.In this sentence,[Ent] is a [MASK]
其中,TE为所基于提示学习所构造的模板,X为所述中文建筑文本,[Ent]为X中的实体片段,MASK为待识别的词语。
4.根据权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,构造第二词向量.具体包括:
对所述中文建筑规范文本进行知识增强,获得增强向量;通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量。
5.基于权利要求4所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述获得增强向量,具体包括:
构建ERNIE模型,所述ERNIE模型包含一个双层双向Transformer编码器,所述双层双向Transformer编码器对所述中文建筑规范文本进行知识增强并输出增强向量;
其中,所述双层双向Transformer编码器基于字符、短语和实体词语的掩蔽策略,将短语和实体层次的知识整合到语言表示中。
6.基于权利要求4所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述通过双向长短期记忆网络对所述增强向量进行训练,得到所述第二词向量,具体包括:
将所述增强向量输入遗忘门中,决定保留的信息;
更新输入门的信息和记忆单元状态;
捕获输出门的信息;
根据所述保留的信息、更新后的输入门的信息、状态单元状态和输出门的信息获取最终隐状态向量,以获得第二词向量。
7.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述构造中文建筑规范文本的实体识别数据集,基于所述实体识别数据集进行预训练,得到改进的预训练模型,包括:
获取建筑规范文本,构建文本语料库;
对文本语料库进行文本清洗;
采用标准规范标注清洗后的文本;
利用标注后的文本训练初始预训练模型,得到改进的预训练模型。
8.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述将所述第三词向量发送至所述改进的预训练模型进行提示学习,得到概率得分,具体包括:
假设输入文本映射的类别标签记为yi(i=1,2,3,...,N),N为类别标签总数,那么当且仅当是yi是输入文本的正确类别标签时,记vy为模板TE中[MASK]的合适替代,则输入文本Ei所对应的类别标签yi的概率即为,
,
其中,K表示所预测的MASK数量,k∈(1,N),k所表示预测MASK的数量,vi为所预测的MASK的全部结果,表示改进的预训练模型对模板TE(E)中[MASK]位置分配的分数,预测MASK内容与真实值之间的第一损失函数Losspc:
,其中,m为实体类型的集合,将模板中包含的多个实体片段的类别标签概率求和。
9.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法,其特征在于,所述对所述概率得分进行解码,得到实体识别结果,利用CRF解码层对所述概率得分进行解码;
所述CRF解码层具体包括:
计算实体标签序列的概率,对所述实体标签序列的概率进行归一化;采用对数最大似然估计得到模型的标注序列似然函数,利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列。
10.基于提示学习的中文建筑规范文本实体识别系统,其特征在于,包括:
输入模块,用以输入中文建筑文本;
构造模块,基于中文建筑文本构造第一词向量和第二词向量,所述第一词向量包括模板信息,所述第二词向量包括字符、词、实体与上下文信息;所述构造模块还用于构造中文建筑规范文本的实体识别数据集;
融合模块,将所述第一词向量和所述第二词向量进行拼接融合,得到第三词向量;
训练模块,与所述融合模块连接,基于所述实体识别数据集进行预训练,得到改进的预训练模型;
解码模块,与所述训练模块连接,用以基于所述改进的预训练模型对所述第三词向量进行提示学习,得到概率得分;所述解码模块还被配置为对所述概率得分进行解码,并得到实体识别结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258606.4A CN116011456B (zh) | 2023-03-17 | 2023-03-17 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310258606.4A CN116011456B (zh) | 2023-03-17 | 2023-03-17 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116011456A true CN116011456A (zh) | 2023-04-25 |
CN116011456B CN116011456B (zh) | 2023-06-06 |
Family
ID=86032038
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310258606.4A Active CN116011456B (zh) | 2023-03-17 | 2023-03-17 | 基于提示学习的中文建筑规范文本实体识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116011456B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304066A (zh) * | 2023-05-23 | 2023-06-23 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN117632098A (zh) * | 2024-01-25 | 2024-03-01 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012083855A (ja) * | 2010-10-07 | 2012-04-26 | Toyota Motor Corp | 物体認識装置及び物体認識方法 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
WO2021093968A1 (en) * | 2019-11-15 | 2021-05-20 | Signum International Ag | Computerized system and method of using word embedding for generating a list of words personalized to the learning needs of a user |
US20220068153A1 (en) * | 2020-09-02 | 2022-03-03 | Cerego Japan Kabushiki Kaisha | Personalized learning system |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
CN115062104A (zh) * | 2022-05-17 | 2022-09-16 | 北京理工大学 | 融合知识提示的法律文本小样本命名实体识别方法 |
CN115455189A (zh) * | 2022-10-08 | 2022-12-09 | 浙江浙里信征信有限公司 | 基于提示学习的政策文本分类方法 |
US20220414466A1 (en) * | 2021-06-09 | 2022-12-29 | Regents Of The University Of Minnesota | Confidence-based assisted learning |
CN115599901A (zh) * | 2022-12-14 | 2023-01-13 | 中国人民解放军国防科技大学(Cn) | 基于语义提示的机器问答方法、装置、设备及存储介质 |
CN115700515A (zh) * | 2022-10-27 | 2023-02-07 | 中国工商银行股份有限公司 | 文本多标签分类方法及装置 |
-
2023
- 2023-03-17 CN CN202310258606.4A patent/CN116011456B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012083855A (ja) * | 2010-10-07 | 2012-04-26 | Toyota Motor Corp | 物体認識装置及び物体認識方法 |
EP3767516A1 (en) * | 2019-07-18 | 2021-01-20 | Ricoh Company, Ltd. | Named entity recognition method, apparatus, and computer-readable recording medium |
WO2021093968A1 (en) * | 2019-11-15 | 2021-05-20 | Signum International Ag | Computerized system and method of using word embedding for generating a list of words personalized to the learning needs of a user |
US20220068153A1 (en) * | 2020-09-02 | 2022-03-03 | Cerego Japan Kabushiki Kaisha | Personalized learning system |
WO2022078346A1 (zh) * | 2020-10-13 | 2022-04-21 | 深圳壹账通智能科技有限公司 | 文本意图识别方法、装置、电子设备及存储介质 |
CN112632997A (zh) * | 2020-12-14 | 2021-04-09 | 河北工程大学 | 基于BERT和Word2Vec向量融合的中文实体识别方法 |
US20220414466A1 (en) * | 2021-06-09 | 2022-12-29 | Regents Of The University Of Minnesota | Confidence-based assisted learning |
CN114372470A (zh) * | 2022-03-22 | 2022-04-19 | 中南大学 | 基于边界检测和提示学习的中文法律文本实体识别方法 |
CN115062104A (zh) * | 2022-05-17 | 2022-09-16 | 北京理工大学 | 融合知识提示的法律文本小样本命名实体识别方法 |
CN115455189A (zh) * | 2022-10-08 | 2022-12-09 | 浙江浙里信征信有限公司 | 基于提示学习的政策文本分类方法 |
CN115700515A (zh) * | 2022-10-27 | 2023-02-07 | 中国工商银行股份有限公司 | 文本多标签分类方法及装置 |
CN115599901A (zh) * | 2022-12-14 | 2023-01-13 | 中国人民解放军国防科技大学(Cn) | 基于语义提示的机器问答方法、装置、设备及存储介质 |
Non-Patent Citations (7)
Title |
---|
LEYANG CUI等: "Template-Based Named Entity Recognition Using BART", ARXIV * |
RUOTIAN MA等: "Template-free Prompt Tuning for Few-shot NER", ARXIV * |
XIANG CHEN等: "LightNER: A Lightweight Tuning Paradigm for Low-resource NER via Pluggable Prompting", ARXIV * |
周小平: "基于BIM的建筑设备运维管理平台研究", 暖通空调 * |
李鹏宇: "提示学习(Prompt Learning)-低资源场景的福音", Retrieved from the Internet <URL:http://zhuanlan/zhihu.com/p/406291495> * |
王昊;史玉雪;刘高军;段建勇;: "联合词性特征的微博文本命名实体识别", 北方工业大学学报, no. 05 * |
王洪亮;: "基于词向量聚类的中文微博产品命名实体识别", 兰州理工大学学报, no. 01 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116304066A (zh) * | 2023-05-23 | 2023-06-23 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN116304066B (zh) * | 2023-05-23 | 2023-08-22 | 中国人民解放军国防科技大学 | 一种基于提示学习的异质信息网络节点分类方法 |
CN117632098A (zh) * | 2024-01-25 | 2024-03-01 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
CN117632098B (zh) * | 2024-01-25 | 2024-04-23 | 中国建筑设计研究院有限公司 | 一种基于aigc的建筑智能设计系统 |
Also Published As
Publication number | Publication date |
---|---|
CN116011456B (zh) | 2023-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112487143B (zh) | 一种基于舆情大数据分析的多标签文本分类方法 | |
CN110019839B (zh) | 基于神经网络和远程监督的医学知识图谱构建方法和系统 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN116011456B (zh) | 基于提示学习的中文建筑规范文本实体识别方法及系统 | |
CN109359294B (zh) | 一种基于神经机器翻译的古汉语翻译方法 | |
CN111209401A (zh) | 网络舆情文本信息情感极性分类处理系统及方法 | |
CN111738004A (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN108062388A (zh) | 人机对话的回复生成方法和装置 | |
CN107967262A (zh) | 一种神经网络蒙汉机器翻译方法 | |
CN112712804A (zh) | 语音识别方法、系统、介质、计算机设备、终端及应用 | |
CN112183094B (zh) | 一种基于多元文本特征的中文语法查错方法及系统 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN112818698B (zh) | 一种基于双通道模型的细粒度的用户评论情感分析方法 | |
CN115357719B (zh) | 基于改进bert模型的电力审计文本分类方法及装置 | |
CN114926150A (zh) | 一种变压器技术符合性评估数字化智能审核方法与装置 | |
He | English grammar error detection using recurrent neural networks | |
CN111340006B (zh) | 一种手语识别方法及系统 | |
CN115203406A (zh) | 一种基于RoBERTa模型的长文本信息立场检测方法 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN114548053A (zh) | 一种基于编辑方法的文本对比学习纠错系统、方法及装置 | |
CN113191150B (zh) | 一种多特征融合的中文医疗文本命名实体识别方法 | |
CN115809666B (zh) | 一种融合词典信息和注意力机制的命名实体识别方法 | |
CN117113937A (zh) | 一种基于大规模语言模型的电力领域阅读理解方法和系统 | |
CN116522165A (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |