CN116011456A

CN116011456A - 基于提示学习的中文建筑规范文本实体识别方法及系统

Info

Publication number: CN116011456A
Application number: CN202310258606.4A
Authority: CN
Inventors: 魏楚元; 王昕�; 周小平
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-03-17
Filing date: 2023-03-17
Publication date: 2023-04-25
Anticipated expiration: 2043-03-17
Also published as: CN116011456B

Abstract

本发明涉及数据处理技术领域，尤其涉及一种基于提示学习的中文建筑规范文本实体识别方法及系统。该方法包括：基于中文建筑文本构造第一词向量和第二词向量；将所述第一词向量和所述第二词向量进行拼接融合，得到第三词向量；构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型；将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，对所述概率得分进行解码，得到实体识别结果。本申请通过丰富词向量的语义信息和增添模板信息提高词向量的多元特征，提高文本实体识别效果。

Description

基于提示学习的中文建筑规范文本实体识别方法及系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于提示学习的中文建筑规范文本实体识别方法及系统。

背景技术

目前，我国建筑行业正处于稳步发展阶段，建筑的规模和复杂性都与日俱增，与此同时，建筑也在朝着信息化、智能化的方向发展，建筑相关的数据量也随着其信息化水平的提高而迅速增长。在庞大的数据量下，对信息的质量提出了更高的要求，命名实体识别作为自然语言处理中的重要任务，可以保证高效且准确地提取出建筑规范文本中的关键信息，对于建筑设计等下游任务起着不可或缺的辅助作用。因此，如何利用命名实体识别技术对建筑规范文本进行实体识别成为知识工程领域的研究热点。

目前命名实体识别的方法主要是基于深度学习的方法，利用计算机自动提取特征，其常见的做法是对输入文本序列输入到编码层进行编码，利用深度学习模型捕获文本的语义特征，将其输入到解码层对文本序列中的实体进行识别和分类。但是实际使用中目前的方法往往是只关注文本内容的上下文语义信息，或是只关注实体的边界信息，没有很好的将文本的上下文语义信息与实体的边界信息有机的结合起来，从而导致后续实体识别的效果不佳；同时，建筑设计规范所涵盖行业规范、行业专用词汇、以及其用词表达相对专业性较强，不易理解，各实体与条文之间往往存在逻辑关系且并不容易捕捉，目前的方法在庞大的实体数量及繁杂的关联关系中对中文建筑规范文本实体识别具有较低的识别效果。

因此，亟需一种具有较高识别精度的基于提示学习的中文建筑规范文本实体识别方法及系统。

发明内容

为此，本发明提供基于提示学习的中文建筑规范文本实体识别方法及系统，可以解决中文建筑规范文本实体识别效果低的问题。

为实现上述目的，本发明一方面提供基于提示学习的中文建筑规范文本实体识别方法，该方法包括：

基于中文建筑文本构造第一词向量和第二词向量，所述第一词向量包括模板信息，所述第二词向量包括字符、词、实体与上下文信息；

将所述第一词向量和所述第二词向量进行拼接融合，得到第三词向量；

构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型；

将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，对所述概率得分进行解码，得到实体识别结果。

优选的，所述构造所述第一词向量，具体包括：

基于提示学习构造模板，将模板发送至分词器中，获取含有模板信息的词向量，得到所述第一词向量。

优选的，所述模板为：

T_E=X.In this sentence,[Ent] is a [MASK]

其中，T_E为所基于提示学习所构造的模板，X为所述中文建筑文本，[Ent]为X中的实体片段，MASK为待识别的词语。

优选的，构造第二词向量.具体包括：

对所述中文建筑规范文本进行知识增强，获得增强向量；通过双向长短期记忆网络对所述增强向量进行训练，得到所述第二词向量。

优选的，所述获得增强向量，具体包括：

构建ERNIE模型，所述ERNIE模型包含一个双层双向Transformer编码器，所述双层双向Transformer编码器对所述中文建筑规范文本进行知识增强并输出增强向量；

其中，所述双层双向Transformer编码器基于字符、短语和实体词语的掩蔽策略，将短语和实体层次的知识整合到语言表示中。

优选的，所述通过双向长短期记忆网络对所述增强向量进行训练，得到所述第二词向量，具体包括：

将所述增强向量输入遗忘门中，决定保留的信息；

更新输入门的信息和记忆单元状态；

捕获输出门的信息；

根据所述保留的信息、更新后的输入门的信息、状态单元状态和输出门的信息获取最终隐状态向量，以获得第二词向量。

优选的，所述构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型，包括：

获取建筑规范文本，构建文本语料库；

对文本语料库进行文本清洗；

采用标准规范标注清洗后的文本；

利用标注后的文本训练初始预训练模型，得到改进的预训练模型。

优选的，所述将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，具体包括：

假设输入文本映射的类别标签记为y_i(i=1,2,3,...,N)，N为类别标签总数，那么当且仅当是y_i是输入文本的正确类别标签时，记v_y为模板T_E中[MASK]的合适替代，则输入文本E_i所对应的类别标签y_i的概率即为，

，

其中，K表示所预测的MASK数量，k∈（1，N），k所表示预测MASK的数量，v_i为所预测的MASK的全部结果，表示改进的预训练模型对模板T_E(E)中[MASK]位置分配的分数，预测MASK内容与真实值之间的第一损失函数Loss_pc：

，

其中，m为实体类型的集合，将模板中包含的多个实体片段的类别标签概率求和。

优选的，所述对所述概率得分进行解码，得到实体识别结果，利用CRF解码层对所述概率得分进行解码；所述CRF解码层具体包括：

计算实体标签序列的概率，对所述实体标签序列的概率进行归一化；采用对数最大似然估计得到模型的标注序列似然函数，利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列。

本发明另一方面提供基于提示学习的中文建筑规范文本实体识别系统，包括：

输入模块，用以输入中文建筑文本；

构造模块，基于中文建筑文本构造第一词向量和第二词向量，所述第一词向量包括模板信息，所述第二词向量包括字符、词、实体与上下文信息；所述构造模块还用于构造中文建筑规范文本的实体识别数据集；

融合模块，将所述第一词向量和所述第二词向量进行拼接融合，得到第三词向量；

训练模块，与所述融合模块连接，基于所述实体识别数据集进行预训练，得到改进的预训练模型；

解码模块，与所述训练模块连接，用以基于所述改进的预训练模型对所述第三词向量进行提示学习，得到概率得分；所述解码模块还被配置为对所述概率得分进行解码，并得到实体识别结果。

与现有技术相比，本发明的有益效果在于，本发明通过对输入的中文建筑文本进行构造含有基于提示学习思想构造模板的模板信息的第一词向量和含有字符、词组、实体和上下文信息的第二词向量，并将第一词向量和第二词向量进行融合，对融合后的词向量进行实体识别，含有字符、词组、实体和上下文信息的第二词向量实现了对实体在所述中文建筑文本中的语义联系，还包含实体在所述中文建筑文本中的隐藏逻辑，与包含基于提示学习思想构造的模板的第一词向量进行融合后得到特征更加多元的融合向量，提高文本识别的针对性和建筑文本实体识别效果。

附图说明

图1为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法的流程示意图；

图2为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法所用的ERNIE模型掩码策略示意图；

图3为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法中词向量构造方式示意图；

图4为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统的结构示意图；

图5为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统的构造模块的结构示意图；

图6为本发明实施例提供的基于提示学习的中文建筑规范文本实体识别系统构造模块的第二词向量构造单元的结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

实施例

请参阅图1，本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法，该方法包括：基于中文建筑文本构造第一词向量和第二词向量，所述第一词向量包括模板信息，所述第二词向量包括字符、词、实体与上下文信息；将所述第一词向量和所述第二词向量进行拼接融合，得到第三词向量；构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型；将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，对所述概率得分进行解码，得到实体识别结果。

基于中文建筑文本构造第一词向量和第二词向量，具体为：将中文建筑文本输入向量构造模块，所述向量构造模块基于所述中文文本构造第一词向量和第二词向量，所述第一词向量包括基于提示学习的模板信息，所述第二词向量包括字符、词、实体与上下文信息。本发明提供的实体识别方法，将第一、第二词向量融合进行实体识别，通过包含提示学习信息的模板，将下游任务转换为输出空间有限的无监督任务，既可以避免参数过多造成的微调问题，又可以缩小预训练任务与微调之间的差距，提高模型的适应性，提高识别准确率。

作为一个可选的实施例，构造所述第一词向量具体包括：

基于提示学习构造模板，将模板发送至分词器中，获取含有模板信息的词向量，得到所述第一词向量。通过模板的构造使得改进的预训练模型在训练的过程中通过对模板的利用冻结语言模型的参数，只对构建的模板进行训练，降低训练成本，节约了训练时间，同时提高了模式识别的针对性，从而提高了实体识别的准确度。

基于提示学习构造模板，所述模板为：

T_E=X.In this sentence,[Ent] is a [MASK]

构造模板后，将T_E发送至分词器中，捕获含有模板信息的词向量，得到所述第一词向量。

本发明提供的上述模板构建公式将中文文本中的句子变为填空式结构，实现中文文本中各句子的分类，以构成标准的模板，对实体的识别起到提示作用。

作为一个可选的实施例，构造第二词向量具体包括：

对所述中文建筑文本进行知识增强，获得增强向量；通过双向长短期记忆网络对所述增强向量进行训练，得到所述第二词向量。

具体来说，构建ERNIE模型，所述ERNIE模型包含一个双层双向Transformer编码器，所述双层双向Transformer编码器对所述中文建筑文本进行知识增强并输出增强向量，其中，所述双层双向Transformer编码器基于字符、短语和实体词语的掩蔽策略，将短语和实体层次的知识整合到语言表示中。本发明在构建第二词向量时，通过内含双层双向Transformer编码器的ERNIE模型对所述中文文本进行知识增强，使获得的增强向量与上下文信息紧密相关，提高所述增强向量的语义信息的丰富性以区分歧义。例如，当所述中文建筑文本为“南京是江苏省会，古称金陵”时，请参阅图2，所述ERNIE模型将“江苏”或“金陵”当作一个单元统一进行标注，图2中“Mask”表示标注，然后取最后一层Transformer的状态，生成增强向量。

所述通过双向长短期记忆网络对所述增强向量进行训练，得到所述第二词向量，如图3所示。图3中X₀、X₁、X₂和X₃表示输入文本，C₀、C₁、C₂和C₃表示增强向量，LSTM表示长短期记忆网络，在所述ERNIE模型输出所述增强向量后，将所述增强向量发送至双向长短期记忆网络进行训练，具体包括：

将所述增强向量输入遗忘门中，决定保留的信息，所述保留的信息为：

，

f_t为t时刻的遗忘门的值，σ为Sigmoid激活函数，W_f为遗忘门的权重矩阵，h_t-1为t-1时刻的输出，T_t表示t时刻的输入，b_f为遗忘门的偏置向量；

更新输入门的信息和记忆单元状态，其中，更新后的输入门的信息为：

，

i_t为t时刻的输入门更新后的值，σ为Sigmoid激活函数，W_i为输入门的权重矩阵，h_t-1为t-1时刻的输出，T_t表示t时刻的输入，b_inp为输入门的偏置向量；更新后记忆单元的状态为：

，

C_t为t时刻的记忆单元状态，W_c为记忆单元的权重矩阵，h_t-1为t-1时刻的输出，T_t表示t时刻的输入，b_c为记忆单元的偏置向量，tanh为双曲正切函数；

捕获输出门的信息，输出门的输出值为：

，

O_t为t时刻的输出门的值，σ为Sigmoid激活函数，W_o为输出门的权重矩阵，h_t-1为t-1时刻的输出，T_t表示t时刻的输入，b_oup为输出门的偏置向量；根据所述保留的信息、更新后的输入门的信息、状态单元状态和输出门的信息获取最终隐状态向量：

，

h_t为t时刻长短期记忆网络的隐含向量状态，O_t为t时刻的输出门的值，f_t为t时刻的遗忘门的值，C_t-1为t-1时刻记忆单元状态，i_t为t时刻的输入门更新后的值，W_c为记忆单元的权重矩阵，h_t-1为t-1时刻的输出，T_t表示t时刻的输入，b_c为记忆单元的偏置向量；

获取第二词向量，公式为：h_r+l=[h_r,h_l]，

h_r+l表示第二词向量，h_r表示经过前向长短期记忆网络模型得到输入的前向量，h_l表示经过后向长短期记忆网络模型得到输入的后向量。通过对增强向量进行双向长短期记忆网络训练，进一步地提取增强向量的语义信息，由于综合了前、后向长短期记忆网络模型的输出，包含更丰富的信息，避免识别过程中产生的歧义，提高文本实体识别的准确性。

例如当所述中文建筑文本为“演示实验室纵向走道宽度不应小于0.07mm”时，其中实体为“演示实验室纵向走道”，而并非“演示实验室”与“纵向走道”。

请参阅图1，本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法，所述第三词向量为：

，

F_w为所述第三词向量，通过将含有字符、词组、实体和上下文信息的第二词向量与包含基于提示学习的模板信息的第一词向量进行融合后得到特征更加多元的融合向量，提高文本实体识别效果。

请参阅图1，本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法，所述构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型，包括：获取建筑规范文本，构建文本语料库；对文本语料库进行文本清洗；采用标准规范标注清洗后的文本；利用标注后的文本训练初始预训练模型，得到改进的预训练模型。

作为一种可选的实施例，所述中文建筑规范为文本至少包括22种原始建筑规范文本，所述22种原始建筑规范文本包括餐饮建筑规范文本、车库建筑规范文本、医院建筑规范文本、加油站建筑规范文本和中小学校建筑规范文本等。

所述对文本语料库进行文本清洗，具体包括将所述文本语料库中的示意图和表格内容转换为文本；对转换后的文本去除特殊符号和乱码内容。本发明通过对文本语料库进行文本清洗，使得文本语料库中的示意图和表格内容转换为文本，提高文本语料库的可操作性和文本语料库信息完整性，提高最终的文本实体识别效果。

所述采用标准规范标注清洗后的文本，基于预定义的建筑实体标签对清洗后的文本进行标注，优选的，可以采用BIOES标注规范进行标注，其中B表示开始，I表示内部，O表示非实体，E实体尾部，S表示被标记的词为一个实体。例如将“绿化用地、体育用地”标注为“场地功能”，对应标签为“SIF”；将“教学用房、游泳馆”标注为“建筑类别”，对应标签为“BLDG”；将“用餐区域、学校可比容积率”标注为“专业术语”，对应标签为“TER”；将“采暖、空调”标注为“暖通设施”，对应标签为“HVAC”；将“电源插座、供电管井”标注为“电气设施”，对应标签为“ELEC”；将“防火门、防火卷帘”标注为“防火设施”，对应标签为“FCI”。又例如建筑中文文本“绿化用地应不得小于总体面积的30%”，其对应BIOES标注是“B-SIF I-SIF I-SIF I-SIFO O O O O O O O O E”。本发明提供的标注方法，相较于现有技术中提供的针对任命的PEO和针对地理位置的LOC实体标签，提供了适用于建筑领域的标签体系，从而对建筑领域的实体进行准确标记，提高实体识别的准确度。

进一步的，所述改进的预训练模型可以为领域深度预训练模型，领域深度预训练模型是在初始的预训练模型的基础上，使用大量建筑领域内未标注文本继续训练通用预训练模型获得的。初始的预训练模型可直接采用开源的通用预训练模型，例如BERT预训练模型，在此基础上使用构造的中文建筑规范文本的实体识别数据集对其进行训练，采用建筑领域规范的数据集进行训练，得到更适合建筑规范命名实体识别任务的改进的预训练模型。

训练初始预训练模型，具体包括：采用whole mask策略实现MLM任务，whole mask策略具体包括调整文本数据格式，使其与预训练模型的预训练数据的数据格式相同；对调整格式后的文本进行分词，将分词后的数据存储在第一词典中，可以使用现有技术中存在的分词工具对文本进行分词；将调整格式后的文本转换为第一词典中的id，并添加标记信息，标记信息可以为[CLS]，[SEP]，[UNK]，[PAD]等；遍历标记后的文本，若一个词语中一个字被MASK了，将整个词语MASK。SOP（SENTENCE ORDER PREDICTION）任务判断词语关系，为了获得更好地效果，抛弃预训练模型中的NSP（Next Sentence Prediction）任务，改为SOP任务，使用段落连续性任务。所述SOP任务的正例是判断两句话是否有顺序关系，反例是判断两句话是否为反序关系。设定相关超参数，对搭建神经网络进行训练，得到改进的预训练模型。

请参阅图1，本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法，所述将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，具体包括：

，

其中，K表示所预测的MASK数量，k∈（1，N），k所表示预测MASK的数量，v_i为所预测的MASK的全部结果，表示改进的预训练模型对模板T_E(E)中[MASK]位置分配的分数，预测MASK内容与真实值之间的第一损失函数Loss_pc：，

请参阅图1，本发明实施例提供的基于提示学习的中文建筑规范文本实体识别方法，所述对所述概率得分进行解码，得到实体识别结果，作为一种可选的实施例，利用CRF（Conditional Random Fields）解码层对所述概率得分进行解码。所述CRF解码层具体包括：

其中，计算实体标签序列的概率具体为：定义一个a×b的矩阵，a为字序号，即第a个字，b为标签序号，即第b个标签，P_ab表示句子中第a个字第b个标签的概率，使用所述CRF解码层计算实体标签序列y_a（a=1,2,3,...,N)的概率，为：，

其中，表示从实体标签y_a-1成功转移到实体标签y_a的分数；

所述对所述实体标签序列的概率进行归一化，具体为：对S(X,y)进行归一化处理，得到在所述中文建筑文本X的条件下产生标记序列y的概率为：，

式中为可能的实体标签序列，y为真实标记序列，为归一化因子；

所述采用对数最大似然估计得到模型的标注序列似然函数，表示为：

，

式中y_x为所有可能的实体标签序列，S(S|X)为在X的条件下的最大似然估计；

所述利用基于动态规划算法的维特比算法预测输出概率最大的一组标签序列，具体为：

，

第二损失函数Loss_cr为：

，

最后的损失函数Loss为：

，

其中，k表示实体类型集合的序列名；z表示输出序列中的序列名。

具体而言，本发明实施例通过将中文建筑文本输入向量构造模块，所述向量构造模块对所述中文文本构造第一词向量和第二词向量并将所述第一词向量和第二词向量进行融合，得到第三词向量，将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分；对所述概率得分进行解码，得到实体识别结果，实现在多种词向量获取方式下基于提示学习中文文本进行训练，多种词向量获的方式提高词向量语义信息的丰富性和多源性，实现对实体与条文之间存在的隐式逻辑关系的获取，提高文本实体识别效率；而提示学习思想的引入只对构建的模板进行训练，在降低训练成本的同时将模型的下游任务转换为输出空间有限的任务，避免参数过多造成的微调问题，缩小预训练任务与微调之间的差距，提高文本实体识别效率。

实施例

请参阅图4，本发明实施例还提供基于提示学习的中文建筑规范文本实体识别系统，该系统包括：

输入模块100，用以输入中文建筑文本；

构造模块200，基于中文建筑文本构造第一词向量和第二词向量，所述第一词向量包括模板信息，所述第二词向量包括字符、词、实体与上下文信息；所述构造模块还用于构造中文建筑规范文本的实体识别数据集；

融合模块300，将所述第一词向量和所述第二词向量进行拼接融合，得到第三词向量；

训练模块400，与所述融合模块连接，基于所述实体识别数据集进行预训练，得到改进的预训练模型；

解码模块500，与所述训练模块连接，用以基于所述改进的预训练模型对所述第三词向量进行提示学习，得到概率得分；所述解码模块还被配置为对所述概率得分进行解码，并得到实体识别结果。

具体而言，所述构造模块200包括第一词向量构造单元210和第二词向量构造单元220，

所述第一词向量构造单元210用以构造所述第一词向量，所述第二词向量构造单元220用以构造所述第二词向量；

所述第一词向量构造单元210根据提示学习构建模板：

T_E=X.In this sentence,[Ent] is a [MASK]

所述第一词向量构造单元210设置有分词器，将所述模板发送至所述分词器中，获取含有模板信息的词向量，得到所述第一词向量。

具体而言，所述第二词向量构造单元220包括增强子单元221和训练子单元222，

所述增强子单元221设置有多层双向的Transformer编码器，用以对所述中文建筑文本的短语和实体层次的知识进行整合，生成增强向量；

所述训练子单元222用以对所述增强向量进行双向长短期记忆网络训练，对所述增强向量的语义信息进行提取，得到所述第二词向量h_r+l。

具体而言，所述融合模块400用以将所述第一词向量和所述第二词向量进行融合，得到第三词向量：

，

F_w为所述第三词向量。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于提示学习的中文建筑规范文本实体识别方法，其特征在于，包括：

2.根据权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述构造所述第一词向量，具体包括：

3.根据权利要求2所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述模板为：

T_E=X.In this sentence,[Ent] is a [MASK]

4.根据权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，构造第二词向量.具体包括：

5.基于权利要求4所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述获得增强向量，具体包括：

6.基于权利要求4所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述通过双向长短期记忆网络对所述增强向量进行训练，得到所述第二词向量，具体包括：

将所述增强向量输入遗忘门中，决定保留的信息；

更新输入门的信息和记忆单元状态；

捕获输出门的信息；

7.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述构造中文建筑规范文本的实体识别数据集，基于所述实体识别数据集进行预训练，得到改进的预训练模型，包括：

获取建筑规范文本，构建文本语料库；

对文本语料库进行文本清洗；

采用标准规范标注清洗后的文本；

8.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述将所述第三词向量发送至所述改进的预训练模型进行提示学习，得到概率得分，具体包括：

，

，其中，m为实体类型的集合，将模板中包含的多个实体片段的类别标签概率求和。

9.基于权利要求1所述的基于提示学习的中文建筑规范文本实体识别方法，其特征在于，所述对所述概率得分进行解码，得到实体识别结果，利用CRF解码层对所述概率得分进行解码；

所述CRF解码层具体包括：

10.基于提示学习的中文建筑规范文本实体识别系统，其特征在于，包括：

输入模块，用以输入中文建筑文本；