CN117473102A

CN117473102A - 一种基于标签混淆学习的bim知识图谱构建方法和系统

Info

Publication number: CN117473102A
Application number: CN202311541545.9A
Authority: CN
Inventors: 张蕾; 周翔; 唐明亮; 彭李嘉; 孔敏; 夏鹏飞; 顾跃; 武腾越; 崔渝齐
Original assignee: Beijing University of Civil Engineering and Architecture
Current assignee: Beijing University of Civil Engineering and Architecture
Priority date: 2023-11-17
Filing date: 2023-11-17
Publication date: 2024-01-30

Abstract

本申请公开了一种基于标签混淆学习的BIM知识图谱构建方法和系统，通过获取原始BIM数据集，并对所述原始BIM数据集进行预处理，将目标BIM数据输入到BiLSTM‑CRF模型中进行实体识别，得到目标BIM数据中的实体信息，将实体信息和目标BIM数据输入MutiLCM‑RE，识别出实体之间的关系，并抽取出关系三元组信息，根据关系三元组信息，建立目标BIM知识图谱，本方案通过高质量的实体识别和关系抽取、标签混淆学习策略的优化、多源语义融合方法的应用和增量元自训练的半监督学习等手段，能够构建准确、全面且具有表达能力的BIM知识图谱。

Description

一种基于标签混淆学习的BIM知识图谱构建方法和系统

技术领域

本申请涉及基于标签混淆学习的BIM知识图谱构建技术领域，特别是涉及一种基于标签混淆学习的BIM知识图谱构建方法和系统。

背景技术

随着现代数字化建设的不断发展，建筑和工程领域正在进行数字化革命，其主要目标是将传统建筑项目管理和信息处理过程纳入数字时代。随着BIM技术的广泛采用，建筑和基础设施项目的信息变得更加丰富和复杂，不再仅仅是静态的图纸和文档。BIM模型涵盖了建筑结构、构件、系统、材料等各个方面的信息，使得项目团队需要更高效的方式来管理、共享和利用这些数据。在这个背景下，知识图谱技术可以将各种建筑信息组织成具有关系和语义意义的图形化表示形式。通过BIM知识图谱，可以实现不同建筑信息的集成和链接，包括构件之间的关系、属性的详细信息以及各个阶段之间的交互。这不仅有助于建筑项目的生命周期管理，还支持智能化和自动化的应用，例如自动化设计、性能优化和故障检测。此外，标准化和互操作性问题也成为BIM知识图谱构建的重要考虑因素，以确保各种BIM系统和工具之间的数据交换和共享是无缝的，促进了行业的进一步发展和合作。因此，BIM知识图谱构建背景代表了数字化建筑信息建模领域的前沿，它旨在推动建筑和工程领域朝着更高效、智能和可持续的方向发展。

现有技术的问题和缺点：

数据质量问题：BIM知识图谱的构建依赖于准确的建筑信息和数据源。然而，BIM数据的质量和一致性在实践中可能会受到挑战，如拼写错误、不准确的数据和缺失值。这导致知识图谱中的数据不一致和不准确。

关系抽取的复杂性：BIM知识图谱中的关系抽取涉及到复杂的依赖关系和链接关系，例如构件之间的链接、设备与房间的关系等。难以准确地抽取这些关系。

知识图谱的维护和更新：建筑项目中的数据是动态的，随着项目的进展和变化而更新。这意味着知识图谱需要不断更新以反映实际情况。如何自动或半自动地捕获和更新这些变化，以保持知识图谱的准确性，这仍具有挑战性。

发明内容

本申请提供一种基于标签混淆学习的BIM知识图谱构建方法和系统，旨在解决现有技术在BIM知识图谱构建方面存在数据质量低、复杂关系抽取难度大和知识图谱的维护和更新挑战较大的问题。

第一方面，一种基于标签混淆学习的BIM知识图谱构建方法，所述方法包括：

获取原始BIM数据集，并对所述原始BIM数据集进行预处理，得到目标BIM数据；

将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息；

将所述实体信息和目标BIM数据输入MutiLCM-RE，识别出实体之间的关系，并抽取出关系三元组信息，具体的，利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，根据所述损失值进行模型训练学习，实现关系三元组信息的抽取；

根据所述关系三元组信息，建立目标BIM知识图谱，具体的，采用图数据库或图表示学习技术，将实体和关系以节点和边的形式存储，并建立它们之间的链接关系，用于建筑项目的生命周期管理和智能决策。

上述方案中，可选的，对所述目标BIM数据集进行预处理，得到目标BIM数据，包括：

收集BIM数据集，BIM数据集包括建筑物或基础设施项目的相关文档、图纸和模型；

对所述BIM数据集进行数据清洗和预处理，具体的，对所述BIM数据集去除冗余数据、规范化数据格式操作。

上述方案中，可选的，将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息，包括：

将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别；

所述BiLSTM-CRF模型中BiLSTM模型输出文本序列的上下文信息，CRF模型则对识别的实体进行标记，记录实体的位置信息；

在训练所述BiLSTM-CRF模型时，使用已标注的训练数据进行监督学习。

上述方案中，可选的，所述利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，包括：

用<e1><e1>和<e2><e2>来标记两个实体的位置，对于包含实体e1和e2的句子S，所述BERT模型的最终隐藏状态输出为H；

所述BERT模型对实体e1和e2的最终隐藏状态向量分别为从H_i到H_j和从H_k到H_m；

通过激活操作分别对实体e1和e2这两个向量进行处理，并通过一个全连接层，得到e1和e2的输出表示，分别表示为H₁和H₂；

将实体信息和目标BIM数据合并输入到BERT中进行编码，其中，在计算标签嵌入时，有C个类别，每个类别都对应一个标签文本L_j，其中j为类别的索引，标签文本L_j可能由多个子词组成，平均L_j中所有子词的标记嵌入来计算L_j的嵌入EL_j，标签句的长度等于类别总数C，标签嵌入的计算公式如下：

其中，EL_j表示类别j对应的标签文本嵌入，|L_j|表示标签文本L_j包含的子词数量，Embed(L_j[i])表示子词L_j[i]的嵌入；

将得到编码后的实体信息和目标BIM数据H₀以及实体位置信息H₁和H₂融合，获得最终的上下文嵌入表示H，公式如下：

H＝W₃[concat(H₀,H₁,H₂)]+b₃；

将得到的H输入到线性层中进行关系分类，得到预测结果p，公式如下：

p＝softmax(H)。

上述方案中，可选的，所述标签混淆学习策略包括预测模块和标签混淆模块；

所述预测模块由编码器BERT和分类器组成，其中，分类器包含两个线性层；

所述预测模块将文本输入到BERT中得到文本表示，将所述文本表示输入到分类器中进行预测，得到标签预测矩阵，公式如下：

y^(p)＝softmax(M⁽ⁱ⁾)；

其中，f^I为输入编码函数，将输入的文本序列[x₁,x₂,…,x_n]编码为y^(p)为预测结果；

所述标签混淆模块包括标签编码器和模拟标签分布计算块；

所述标签编码器采用所述BERT模型生成标签表示矩阵，将标签映射到表示空间中；

其中，f^L是标签编码器函数，将标签序列L＝[l₁,l₂,…,l_C]编码为矩阵

所述模拟标签分布计算块由相似度层和模拟标签分布计算层组成，所述相似度层接受标签表示和当前实例表示作为输入，通过点积计算它们之间的相似度值，应用带有softmax激活的神经网络，得到标签混淆分布；标签混淆分布通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系，公式如下：

M＝M⁽ⁱ⁾·M^(l)；

y^(c)＝softmax(w×M+b)；

其中，y^(c)表示标签混淆分布。

上述方案中，可选的，所述通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，包括：

将原始的one-hot标签向量与所述标签混淆分布以预设的控制参数α相加，并通过softmax函数进行归一化，生成预测标签分布；

y^(s)＝softmax(αy^t+y^c)；

其中，y^t表示真实的标签分布；

将预测标签分布作为新的训练目标，替代原始的one-hot向量，并用于监督模型的训练过程；使用Kullback-Leibler散度来度量预测标签分布和模拟的标签分布之间的差异，得到所述损失值：

其中表示模拟的标签分布中第c个标签的概率，/>表示预测的标签分布中第c个标签的概率，c表示标签的索引。

上述方案中，可选的，根据所述关系三元组信息，建立目标BIM知识图谱中，基于增量元自训练的半监督学习实现在线知识图谱的构建，包括以下步骤：

步骤1：利用获取的标记数据来训练初始模型，所述模型根据已标记的数据进行训练，得到初始的预测模型C_τ；

I_n＝C_τ(X_n,e1,e2)；

其中，I_n表示最终预测的关系概率分布，X_n为输入的文本信息，e1和e2表示两个实体的位置信息；

步骤2：使用生成网络C_σ为未标记的数据生成伪标签M；将伪标签与未标记数据添加到训练集中；

使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型；其中，再生成的所有伪标签中选择置信度前Z％的伪标签进行标记；

W_m＝max_m(C_σ(X_m,e1,e2))；

其中，m来自于M中最终被利用的标签，Z的取值为90，在C_τ优化过程中，W_m不断更新；

步骤3：重复所述步骤2，根据迭代生成新的伪标签扩展训练集，用标记数据和高置信度伪标签更新分类网络C_τ。

第二方面，一种基于标签混淆学习的BIM知识图谱构建系统，所述系统包括：

预处理模块：用于获取原始BIM数据集，并对所述原始BIM数据集进行预处理，得到目标BIM数据；

实体识别模块：用于将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息；

关系抽取模块：用于将所述实体信息和目标BIM数据输入MutiLCM-RE，识别出实体之间的关系，并抽取出关系三元组信息，具体的，利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，根据所述损失值进行模型训练学习，实现关系三元组信息的抽取；

构建模块：用于根据所述关系三元组信息，建立目标BIM知识图谱，具体的，采用图数据库或图表示学习技术，将实体和关系以节点和边的形式存储，并建立链接关系，用于建筑项目的生命周期管理和智能决策。

相比现有技术，本申请至少具有以下有益效果：

本申请基于对现有技术问题的进一步分析和研究，认识到现有技术在BIM知识图谱构建方面存在数据质量低、复杂关系抽取难度大和知识图谱的维护和更新挑战较大等问题。本方案通过获取原始BIM数据集，并对所述原始BIM数据集进行预处理，得到目标BIM数据；将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，将所述实体信息和目标BIM数据输入MutiLCM-RE，识别出实体之间的关系，并抽取出关系三元组信息，根据所述关系三元组信息，建立目标BIM知识图谱，具体的，采用图数据库或图表示学习技术，将实体和关系以节点和边的形式存储，并建立它们之间的链接关系，用于建筑项目的生命周期管理和智能决策。通过高质量的实体识别和关系抽取、标签混淆学习策略的优化、多源语义融合方法的应用和增量元自训练的半监督学习等手段，能够构建准确、全面且具有表达能力的BIM知识图谱。提供了可靠的实体和关系信息，并以优化模型泛化能力、融合多源语义、利用未标记数据进行训练等方式提高构建结果的准确性和质量。

附图说明

图1为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的流程示意图；

图2为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的整体流程示意图；

图3为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的BiLSTM-CRF实体识别模块工作流程示意图；

图4为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的MutiLCM-RE关系抽取模块工作流程示意图；

图5为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法知识图谱示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1-图4所示，提供了一种基于标签混淆学习的BIM知识图谱构建方法，包括以下步骤：

将所述目标BIM数据输入到BiLSTM-CRF(双向长短时记忆网络-条件随机场，Bidirectional Long Short-Term Memory-Conditional Random Fields)模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息；

将所述实体信息和目标BIM数据输入MutiLCM-RE(多源语义聚合标签混淆模型-关系抽取，Multi-source semantic aggregation Label Confusion Model-RelationExtraction)，识别出实体之间的关系，并抽取出关系三元组信息，具体的，利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，根据所述损失值进行模型训练学习，实现关系三元组信息的抽取；

根据所述关系三元组信息，建立目标BIM知识图谱，具体的，采用图数据库或图表示学习技术，将实体和关系以节点和边的形式存储，并建立链接关系，用于建筑项目的生命周期管理和智能决策。

在本实施例中，所述对所述目标BIM数据集进行预处理，得到目标BIM数据，包括：

在本实施例中，将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息，包括：

将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别；

在本实施例中，所述利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，包括：

将得到编码后的实体信息和目标BIM数据H₀以及实体位置信息H₁和H₁融合，获得最终的上下文嵌入表示H，公式如下：

H＝W₃[concat(H₀,H₁,H₂)]+b₃；

p＝softmax(H)。

在本实施例中，所述标签混淆学习策略包括预测模块和标签混淆模块；

y^(p)＝softmax(M⁽ⁱ⁾)；

所述标签混淆模块包括标签编码器和模拟标签分布计算块；

M＝M⁽ⁱ⁾·M^(l)；

y^(c)＝sfotmax(w×M+b)；

其中，y^(c)表示标签混淆分布。

在本实施例中，所述通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，包括：

其中，y^t表示真实的标签分布；

在本实施例中，所述根据所述关系三元组信息，建立目标BIM知识图谱中，基于增量元自训练的半监督学习实现在线知识图谱的构建，包括以下步骤：

I_n＝C_τ(X_n,e1,e2)；

使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型；其中，在生成的所有伪标签中选择置信度前Z％的伪标签进行标记；

W_m＝max_m(C_σ(X_m,E1,E2))；

在本实施例中，BIM知识图谱构建的各个步骤是相互依存的，它们之间存在以下关系：

实体识别模块和关系抽取模块的输入都是经过预处理的BIM文档。

关系抽取模块的输出是关系三元组，这些三元组可以用于构建BIM知识图谱。

构建BIM知识图谱需要实体和关系的信息，这些信息可以通过实体识别模块和关系抽取模块得到。

BIM知识图谱作为最终的输出，可以用于建筑项目的生命周期管理和智能决策等。

构建BIM的训练集并进行预处理：将原始的BIM数据转化为可供机器学习的格式。

实体识别模块(BiLSTM-CRF)：自动识别出BIM文档中的实体，例如建筑元素、构件、属性等。

关系抽取模块(MutiLCM-RE)：自动识别出实体之间的关系，并抽取出关系三元组。

构建BIM知识图谱：将实体和关系以节点和边的形式存储起来，并建立它们之间的链接关系，用于建筑项目的生命周期管理和智能决策等。

在一个实施例中，提供一种基于标签混淆学习的BIM知识图谱的构建方法。包括以下步骤：

构建BIM的训练集，对训练集进行预处理操作，将处理好的数据输入到模型中，通过实体识别模块(BiLSTM-CRF)进行实体识别，将识别好的实体进行标记，并记录实体的位置信息，便于后续关系抽取的进行；

在关系抽取模块(MutiLCM-RE)中，将标签信息、实体的位置信息和原始文档共同作为输入，输入到BERT中进行编码；将得到的上下文表示信息经过一个线性层，得到的隐藏状态作为softmax的输入，通过softmax函数得到每个类别的预测概率；

模型采用标签混淆学习的方式进行训练学习，具体而言，在训练过程中通过计算实例和标签之间的相似度来捕获标签之间的语义重叠，生成新的标签分布，然后将新的标签分布视为真实的标签分布，并将其与预测分布进行比较，通过kl散度计算损失。根据计算得到的损失值进行训练学习，从而进行关系分类，抽取出关系三元组。进而构建BIM的知识图谱。

在一个实施例中，提供一种多源语义融合方法：

首先在识别实体之后，分别用<e1><e1>和<e2><e2>来标记两个实体的位置，对于包含实体e1和e2的句子S，其中BERT模块的最终隐藏状态输出为H。BERT对实体e1和e2的最终隐藏状态向量分别为从H_i到H_j和从H_k到H_m。为获取这两个目标实体的向量表示，我们采用平均操作。接下来，通过应用一次激活操作，我们分别对这两个向量进行处理，并通过一个全连接层，得到e1和e2的输出表示，分别表示为H₁和H₂。

然后将标签信息合并原文档输入到BERT中进行编码，其中在计算标签嵌入时，有C个类别，每个类别都对应一个标签文本L_j，其中j为类别的索引，由于L_j可能由几个子词组成，通过平均L_j中所有子词的标记嵌入来计算L_j的嵌入EL_j，这样，标签句的长度等于类别总数C,EL_j可以与ED_i一起编码。标签嵌入的计算公式如下：

其中，EL_j表示类别j对应的标签文本嵌入，|L_j|表示标签文本L_j包含的子词数量，Embed(L_j[i])表示子词L_j[i]的嵌入。

最后，得到编码后的标签信息和文档信息H₀以及实体位置信息H₁和H₂后，将其融合，获得最终的上下文嵌入表示H：公式如下：

H＝W₃[concat(H₀,H₁,H₂)]+b₃；

将得到的H输入到线性层中进行关系分类，得到最终的预测结果p，能够提高关系分类的准确性。公式如下：

p＝softmax(H)；

在一个实施例中，提供一种标签混淆学习策略：

本发明的标签混淆学习策略包括一个预测模块和标签混淆模块。其中，预测模块由编码器BERT和一个简单的分类器组成，其中分类器包含两个线性层。预测模块将文本输入到BERT中得到文本表示，然后将其输入到分类器中进行预测，得到标签预测矩阵(LPM)。公式如下：

y^(p)＝softmax(M⁽ⁱ⁾)；

其中，f^I为输入编码函数，将输入的文本序列[x₁,x₂,…,x_n]编码为y^(p)为最后的预测结果。

标签混淆模块包括标签编码器和模拟标签分布计算块(DLAD)两个关键组成部分。标签编码器采用BERT来生成标签表示矩阵，将标签映射到表示空间中。

其中f^L是标签编码器函数，将标签序列L＝[l₁,l₂,…,l_C]编码为矩阵

模拟标签分布计算块(DLAD)由相似度层和模拟标签分布计算层组成。相似度层接受标签表示和当前实例表示作为输入，通过点积计算它们之间的相似度值，然后应用带有softmax激活的神经网络，得到标签混淆分布(LCD)。LCD通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系。公式如下：

M＝M⁽ⁱ⁾·M^(l)；

y^(c)＝softmax(w×M+b)；

其中，y^(c)表示标签混淆分布LCD。

将原始的one-hot标签向量与LCD以一定的控制参数α相加，并通过softmax函数进行归一化，生成模拟的标签分布DLAD。控制参数α决定了LCD对one-hot向量的调整程度。

y^(s)＝softmax(αy^t+y^c)；

其中，y^t表示标签的真实分布。

然后，将模拟的标签分布DLAD作为新的训练目标，以替代原始的one-hot向量，并用于监督模型的训练过程。由于DLAD的y^(s)和预测的标签分布y^(p)都是概率分布，因此我们使用Kullback-Leibler散度(KL-divergence)来度量它们之间的差异：

在一个实施例中，提供一种基于增量元自训练的半监督学习方法：

第一步是利用有限的标记数据来训练一个初始模型。这是一个监督学习过程，模型根据已标记的数据进行训练，最终得到一个初始的预测模型C_τ。

I_n＝C_τ(X_n,e1,e2)；

其中I_n表示最终预测的关系概率分布，X_n为输入的文本信息，e1和e2表示两个实体的位置信息。

第二步是使用生成网络C_σ为这批未标记的数据生成伪标签M。将伪标签与未标记数据一起添加到训练集中。这样，未标记数据就变成了具有伪标签的“伪标记”数据。使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型。其中，我们在生成的所有伪标签中选择置信度前Z％的伪标签进行标记，在这个过程中，模型会尝试适应伪标签，以更好地拟合未标记数据。

W_m＝max_m(C_σ(X_m,e1,e2))；

其中，m来自于M中最终被利用的标签，经过大量实验证明，Z的取值为90，在C_τ优化过程中，W_m不断更新。

第三步，多次重复步骤二，每次迭代都会生成新的伪标签，并使用它们扩展训练集，然后用标记数据和高置信度伪标签更新分类网络C_τ。

本实施例从不同的信息源获得丰富的数据，通过综合利用文本信息、实体位置信息和标签信息，这一方法能够实现对BIM数据的多维度建模，提供更为丰富和全面的知识表示。传统的BIM知识图谱构建方法往往只关注文本信息或实体位置信息，无法充分挖掘不同信息源之间的潜在联系。而多源语义融合方法能够将这些信息源有机地结合起来，实现了更高层次的语义理解，使知识图谱更具信息密度和语义丰富度。其次，多源语义融合方法有助于解决实体标注和关系抽取的问题。在BIM知识图谱中，需要准确标注实体(如建筑构件、设备、材料等)以及它们之间的关系(如连接、依赖、包含等)。传统方法往往需要大量手动标注或依赖特定规则，而多源语义融合方法可以从文本、位置和标签多个维度获取实体信息，从而更准确地标注和抽取实体关系。这不仅提高了知识图谱的准确性，还减轻了标注的负担。

本实施例引入标签混淆模型(LCM)和模拟标签分配(DLAD)策略，实现了对标签的动态学习和分配。与传统的静态标签分配方法不同，标签混淆学习充分考虑了每个样本与标签之间的语义关联，根据实例内容调整标签分布。借助KL-散度损失函数来度量模型生成的标签分布与真实标签分布之间的差异，从而引导模型逐渐逼近真实分布。这种动态分配使得知识图谱的标签更加精确和贴近实际，能够更好地捕捉实体和关系的语义信息。其次，标签混淆学习方法能够应对BIM数据中的标签噪声和不一致性。在BIM领域，数据可能会受到多个来源和标准的影响，导致标签存在错误或不一致。标签混淆学习通过计算标签之间的相似性分布，有助于纠正或平衡标签的误差，提高了BIM知识图谱的数据一致性和准确性。

在一个实施例中，本实施例的应用场景如下：

我们有一个包含建筑元素信息的BIM数据集，其中包括"桥结构"、"开裂"等描述建筑物各部分以及其状态的实体。

首先，使用BiLSTM-CRF模型进行实体识别。这个模型能够辨别出文本中的特定实体，例如"桥结构"和"开裂"。通过这个步骤，我们得到了不同实体的具体信息。

再将这些实体信息和原始BIM数据输入到MultiLCM-RE模型中。在这个模型中，我们引入了标签混淆学习策略，通过计算标签和文本的相似度处理实体间复杂的关系。如，在我们的例子中，"桥结构"实体可能与"开裂"实体之间存在链接关系“risk to”，即开裂是桥结构的风险之一。

通过MultiLCM-RE模型，我们能够识别出这些具体实体之间的关系。最终，根据这些关系信息，我们建立了一个准确、全面且具有表达能力的BIM知识图谱。可以用于建筑项目的生命周期管理和智能决策。

当一旦系统检测到当前项目中出现“开裂”的情况，通过已经构建的BIM知识图谱，它可以提前检测到风险并预警项目团队，帮助他们采取措施避免质量问题的发生，确保项目质量。

传统方法通常采用离线的方式进行知识图谱的构建，需要大规模的标注数据和大量的计算资源，构建周期较长，且难以应对数据的动态变化。相比之下，增量元自训练方法能够实现在线知识图谱的构建，允许系统不断地积累新的知识，实现持续更新，大大缩短了构建周期。通过增量元自训练，从少量标注数据开始，然后逐步利用模型的自我学习和标注数据的递增性增加，实现知识图谱的渐进构建，降低了数据标注成本。其次，增量元自训练可以应对BIM数据的动态性和多样性。在建筑工程领域，项目数据往往会随着时间的推移而发生变化，而不同项目之间的数据特征也可能存在差异。采用增量元自训练的半监督学习方法能够动态地适应这种数据的变化，保持知识图谱的及时更新和灵活性，确保其与实际工程项目的吻合度。此外，增量元自训练还有助于提高知识图谱的准确性和鲁棒性。通过自我学习和不断积累新数据，模型能够不断改进自身的性能，减少误差，并更好地处理复杂的实体关系和多义性问题。这对于BIM知识图谱的实际应用非常关键，因为在建筑和工程领域，准确性和鲁棒性是决策和规划的关键因素。

在一个实施例中，提供了一种基于标签混淆学习的BIM知识图谱构建系统，包括以下程序模块：

其中各模块具体实现内容可以参见上文中对于基于标签混淆学习的BIM知识图谱构建方法的限定，在此不再赘述。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

Claims

1.一种基于标签混淆学习的BIM知识图谱构建方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对所述目标BIM数据集进行预处理，得到目标BIM数据，包括：

3.根据权利要求1所述的方法，其特征在于，将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别，得到所述目标BIM数据中的实体信息，所述实体信息包括建筑元素、构件和实体位置信息，包括：

将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别；

4.根据权利要求3所述的方法，其特征在于，所述利用BERT模型对所述实体信息和目标BIM数据进行编码，得到上下文表示信息，经过一个线性层，将隐藏状态映射为softmax函数的输入，得到每个类别的预测概率，包括：

H＝W₃[concat(H₀,H₁,H₂)]+b₃；

p＝softmax(H)。

5.根据权利要求1所述的方法，其特征在于，所述标签混淆学习策略包括预测模块和标签混淆模块；

y^(p)＝softmax(M⁽ⁱ⁾)；

所述标签混淆模块包括标签编码器和模拟标签分布计算块；

M＝M⁽ⁱ⁾·M^(l)；

y^(c)＝softmax(w×M+b)；

其中，y^(c)表示标签混淆分布。

6.根据权利要求5所述的方法，其特征在于，所述通过标签混淆学习策略，将训练过程中生成新的标签分布视为真实的标签分布，并与预测标签分布进行比较，计算损失值，包括：

y^(s)＝softmax(αy^t+y^c)；

其中，y^t表示真实的标签分布；

7.根据权利要求1所述的方法，其特征在于，根据所述关系三元组信息，建立目标BIM知识图谱中，基于增量元自训练的半监督学习实现在线知识图谱的构建，包括以下步骤：

I_n＝C_τ(X_n,e1,e2)；

W_m＝max_m(C_σ(X_m,e1,e2))；

8.一种基于标签混淆学习的BIM知识图谱构建系统，其特征在于，包括：