CN117473102A - 一种基于标签混淆学习的bim知识图谱构建方法和系统 - Google Patents

一种基于标签混淆学习的bim知识图谱构建方法和系统 Download PDF

Info

Publication number
CN117473102A
CN117473102A CN202311541545.9A CN202311541545A CN117473102A CN 117473102 A CN117473102 A CN 117473102A CN 202311541545 A CN202311541545 A CN 202311541545A CN 117473102 A CN117473102 A CN 117473102A
Authority
CN
China
Prior art keywords
tag
information
distribution
entity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311541545.9A
Other languages
English (en)
Inventor
张蕾
周翔
唐明亮
彭李嘉
孔敏
夏鹏飞
顾跃
武腾越
崔渝齐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Civil Engineering and Architecture
Original Assignee
Beijing University of Civil Engineering and Architecture
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Civil Engineering and Architecture filed Critical Beijing University of Civil Engineering and Architecture
Priority to CN202311541545.9A priority Critical patent/CN117473102A/zh
Publication of CN117473102A publication Critical patent/CN117473102A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Quality & Reliability (AREA)
  • Human Computer Interaction (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本申请公开了一种基于标签混淆学习的BIM知识图谱构建方法和系统,通过获取原始BIM数据集,并对所述原始BIM数据集进行预处理,将目标BIM数据输入到BiLSTM‑CRF模型中进行实体识别,得到目标BIM数据中的实体信息,将实体信息和目标BIM数据输入MutiLCM‑RE,识别出实体之间的关系,并抽取出关系三元组信息,根据关系三元组信息,建立目标BIM知识图谱,本方案通过高质量的实体识别和关系抽取、标签混淆学习策略的优化、多源语义融合方法的应用和增量元自训练的半监督学习等手段,能够构建准确、全面且具有表达能力的BIM知识图谱。

Description

一种基于标签混淆学习的BIM知识图谱构建方法和系统
技术领域
本申请涉及基于标签混淆学习的BIM知识图谱构建技术领域,特别是涉及一种基于标签混淆学习的BIM知识图谱构建方法和系统。
背景技术
随着现代数字化建设的不断发展,建筑和工程领域正在进行数字化革命,其主要目标是将传统建筑项目管理和信息处理过程纳入数字时代。随着BIM技术的广泛采用,建筑和基础设施项目的信息变得更加丰富和复杂,不再仅仅是静态的图纸和文档。BIM模型涵盖了建筑结构、构件、系统、材料等各个方面的信息,使得项目团队需要更高效的方式来管理、共享和利用这些数据。在这个背景下,知识图谱技术可以将各种建筑信息组织成具有关系和语义意义的图形化表示形式。通过BIM知识图谱,可以实现不同建筑信息的集成和链接,包括构件之间的关系、属性的详细信息以及各个阶段之间的交互。这不仅有助于建筑项目的生命周期管理,还支持智能化和自动化的应用,例如自动化设计、性能优化和故障检测。此外,标准化和互操作性问题也成为BIM知识图谱构建的重要考虑因素,以确保各种BIM系统和工具之间的数据交换和共享是无缝的,促进了行业的进一步发展和合作。因此,BIM知识图谱构建背景代表了数字化建筑信息建模领域的前沿,它旨在推动建筑和工程领域朝着更高效、智能和可持续的方向发展。
现有技术的问题和缺点:
数据质量问题:BIM知识图谱的构建依赖于准确的建筑信息和数据源。然而,BIM数据的质量和一致性在实践中可能会受到挑战,如拼写错误、不准确的数据和缺失值。这导致知识图谱中的数据不一致和不准确。
关系抽取的复杂性:BIM知识图谱中的关系抽取涉及到复杂的依赖关系和链接关系,例如构件之间的链接、设备与房间的关系等。难以准确地抽取这些关系。
知识图谱的维护和更新:建筑项目中的数据是动态的,随着项目的进展和变化而更新。这意味着知识图谱需要不断更新以反映实际情况。如何自动或半自动地捕获和更新这些变化,以保持知识图谱的准确性,这仍具有挑战性。
发明内容
本申请提供一种基于标签混淆学习的BIM知识图谱构建方法和系统,旨在解决现有技术在BIM知识图谱构建方面存在数据质量低、复杂关系抽取难度大和知识图谱的维护和更新挑战较大的问题。
第一方面,一种基于标签混淆学习的BIM知识图谱构建方法,所述方法包括:
获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立它们之间的链接关系,用于建筑项目的生命周期管理和智能决策。
上述方案中,可选的,对所述目标BIM数据集进行预处理,得到目标BIM数据,包括:
收集BIM数据集,BIM数据集包括建筑物或基础设施项目的相关文档、图纸和模型;
对所述BIM数据集进行数据清洗和预处理,具体的,对所述BIM数据集去除冗余数据、规范化数据格式操作。
上述方案中,可选的,将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息,包括:
将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别;
所述BiLSTM-CRF模型中BiLSTM模型输出文本序列的上下文信息,CRF模型则对识别的实体进行标记,记录实体的位置信息;
在训练所述BiLSTM-CRF模型时,使用已标注的训练数据进行监督学习。
上述方案中,可选的,所述利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,包括:
用<e1><e1>和<e2><e2>来标记两个实体的位置,对于包含实体e1和e2的句子S,所述BERT模型的最终隐藏状态输出为H;
所述BERT模型对实体e1和e2的最终隐藏状态向量分别为从Hi到Hj和从Hk到Hm
通过激活操作分别对实体e1和e2这两个向量进行处理,并通过一个全连接层,得到e1和e2的输出表示,分别表示为H1和H2
将实体信息和目标BIM数据合并输入到BERT中进行编码,其中,在计算标签嵌入时,有C个类别,每个类别都对应一个标签文本Lj,其中j为类别的索引,标签文本Lj可能由多个子词组成,平均Lj中所有子词的标记嵌入来计算Lj的嵌入ELj,标签句的长度等于类别总数C,标签嵌入的计算公式如下:
其中,ELj表示类别j对应的标签文本嵌入,|Lj|表示标签文本Lj包含的子词数量,Embed(Lj[i])表示子词Lj[i]的嵌入;
将得到编码后的实体信息和目标BIM数据H0以及实体位置信息H1和H2融合,获得最终的上下文嵌入表示H,公式如下:
H=W3[concat(H0,H1,H2)]+b3
将得到的H输入到线性层中进行关系分类,得到预测结果p,公式如下:
p=softmax(H)。
上述方案中,可选的,所述标签混淆学习策略包括预测模块和标签混淆模块;
所述预测模块由编码器BERT和分类器组成,其中,分类器包含两个线性层;
所述预测模块将文本输入到BERT中得到文本表示,将所述文本表示输入到分类器中进行预测,得到标签预测矩阵,公式如下:
y(p)=softmax(M(i));
其中,fI为输入编码函数,将输入的文本序列[x1,x2,…,xn]编码为y(p)为预测结果;
所述标签混淆模块包括标签编码器和模拟标签分布计算块;
所述标签编码器采用所述BERT模型生成标签表示矩阵,将标签映射到表示空间中;
其中,fL是标签编码器函数,将标签序列L=[l1,l2,…,lC]编码为矩阵
所述模拟标签分布计算块由相似度层和模拟标签分布计算层组成,所述相似度层接受标签表示和当前实例表示作为输入,通过点积计算它们之间的相似度值,应用带有softmax激活的神经网络,得到标签混淆分布;标签混淆分布通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系,公式如下:
M=M(i)·M(l)
y(c)=softmax(w×M+b);
其中,y(c)表示标签混淆分布。
上述方案中,可选的,所述通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,包括:
将原始的one-hot标签向量与所述标签混淆分布以预设的控制参数α相加,并通过softmax函数进行归一化,生成预测标签分布;
y(s)=softmax(αyt+yc);
其中,yt表示真实的标签分布;
将预测标签分布作为新的训练目标,替代原始的one-hot向量,并用于监督模型的训练过程;使用Kullback-Leibler散度来度量预测标签分布和模拟的标签分布之间的差异,得到所述损失值:
其中表示模拟的标签分布中第c个标签的概率,/>表示预测的标签分布中第c个标签的概率,c表示标签的索引。
上述方案中,可选的,根据所述关系三元组信息,建立目标BIM知识图谱中,基于增量元自训练的半监督学习实现在线知识图谱的构建,包括以下步骤:
步骤1:利用获取的标记数据来训练初始模型,所述模型根据已标记的数据进行训练,得到初始的预测模型Cτ
In=Cτ(Xn,e1,e2);
其中,In表示最终预测的关系概率分布,Xn为输入的文本信息,e1和e2表示两个实体的位置信息;
步骤2:使用生成网络Cσ为未标记的数据生成伪标签M;将伪标签与未标记数据添加到训练集中;
使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型;其中,再生成的所有伪标签中选择置信度前Z%的伪标签进行标记;
Wm=maxm(Cσ(Xm,e1,e2));
其中,m来自于M中最终被利用的标签,Z的取值为90,在Cτ优化过程中,Wm不断更新;
步骤3:重复所述步骤2,根据迭代生成新的伪标签扩展训练集,用标记数据和高置信度伪标签更新分类网络Cτ
第二方面,一种基于标签混淆学习的BIM知识图谱构建系统,所述系统包括:
预处理模块:用于获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
实体识别模块:用于将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
关系抽取模块:用于将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
构建模块:用于根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立链接关系,用于建筑项目的生命周期管理和智能决策。
相比现有技术,本申请至少具有以下有益效果:
本申请基于对现有技术问题的进一步分析和研究,认识到现有技术在BIM知识图谱构建方面存在数据质量低、复杂关系抽取难度大和知识图谱的维护和更新挑战较大等问题。本方案通过获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立它们之间的链接关系,用于建筑项目的生命周期管理和智能决策。通过高质量的实体识别和关系抽取、标签混淆学习策略的优化、多源语义融合方法的应用和增量元自训练的半监督学习等手段,能够构建准确、全面且具有表达能力的BIM知识图谱。提供了可靠的实体和关系信息,并以优化模型泛化能力、融合多源语义、利用未标记数据进行训练等方式提高构建结果的准确性和质量。
附图说明
图1为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的流程示意图;
图2为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的整体流程示意图;
图3为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的BiLSTM-CRF实体识别模块工作流程示意图;
图4为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法的MutiLCM-RE关系抽取模块工作流程示意图;
图5为本申请一个实施例提供的基于标签混淆学习的BIM知识图谱构建方法知识图谱示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1-图4所示,提供了一种基于标签混淆学习的BIM知识图谱构建方法,包括以下步骤:
获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
将所述目标BIM数据输入到BiLSTM-CRF(双向长短时记忆网络-条件随机场,Bidirectional Long Short-Term Memory-Conditional Random Fields)模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
将所述实体信息和目标BIM数据输入MutiLCM-RE(多源语义聚合标签混淆模型-关系抽取,Multi-source semantic aggregation Label Confusion Model-RelationExtraction),识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立链接关系,用于建筑项目的生命周期管理和智能决策。
在本实施例中,所述对所述目标BIM数据集进行预处理,得到目标BIM数据,包括:
收集BIM数据集,BIM数据集包括建筑物或基础设施项目的相关文档、图纸和模型;
对所述BIM数据集进行数据清洗和预处理,具体的,对所述BIM数据集去除冗余数据、规范化数据格式操作。
在本实施例中,将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息,包括:
将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别;
所述BiLSTM-CRF模型中BiLSTM模型输出文本序列的上下文信息,CRF模型则对识别的实体进行标记,记录实体的位置信息;
在训练所述BiLSTM-CRF模型时,使用已标注的训练数据进行监督学习。
在本实施例中,所述利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,包括:
用<e1><e1>和<e2><e2>来标记两个实体的位置,对于包含实体e1和e2的句子S,所述BERT模型的最终隐藏状态输出为H;
所述BERT模型对实体e1和e2的最终隐藏状态向量分别为从Hi到Hj和从Hk到Hm
通过激活操作分别对实体e1和e2这两个向量进行处理,并通过一个全连接层,得到e1和e2的输出表示,分别表示为H1和H2
将实体信息和目标BIM数据合并输入到BERT中进行编码,其中,在计算标签嵌入时,有C个类别,每个类别都对应一个标签文本Lj,其中j为类别的索引,标签文本Lj可能由多个子词组成,平均Lj中所有子词的标记嵌入来计算Lj的嵌入ELj,标签句的长度等于类别总数C,标签嵌入的计算公式如下:
其中,ELj表示类别j对应的标签文本嵌入,|Lj|表示标签文本Lj包含的子词数量,Embed(Lj[i])表示子词Lj[i]的嵌入;
将得到编码后的实体信息和目标BIM数据H0以及实体位置信息H1和H1融合,获得最终的上下文嵌入表示H,公式如下:
H=W3[concat(H0,H1,H2)]+b3
将得到的H输入到线性层中进行关系分类,得到预测结果p,公式如下:
p=softmax(H)。
在本实施例中,所述标签混淆学习策略包括预测模块和标签混淆模块;
所述预测模块由编码器BERT和分类器组成,其中,分类器包含两个线性层;
所述预测模块将文本输入到BERT中得到文本表示,将所述文本表示输入到分类器中进行预测,得到标签预测矩阵,公式如下:
y(p)=softmax(M(i));
其中,fI为输入编码函数,将输入的文本序列[x1,x2,…,xn]编码为y(p)为预测结果;
所述标签混淆模块包括标签编码器和模拟标签分布计算块;
所述标签编码器采用所述BERT模型生成标签表示矩阵,将标签映射到表示空间中;
其中,fL是标签编码器函数,将标签序列L=[l1,l2,…,lC]编码为矩阵
所述模拟标签分布计算块由相似度层和模拟标签分布计算层组成,所述相似度层接受标签表示和当前实例表示作为输入,通过点积计算它们之间的相似度值,应用带有softmax激活的神经网络,得到标签混淆分布;标签混淆分布通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系,公式如下:
M=M(i)·M(l)
y(c)=sfotmax(w×M+b);
其中,y(c)表示标签混淆分布。
在本实施例中,所述通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,包括:
将原始的one-hot标签向量与所述标签混淆分布以预设的控制参数α相加,并通过softmax函数进行归一化,生成预测标签分布;
其中,yt表示真实的标签分布;
将预测标签分布作为新的训练目标,替代原始的one-hot向量,并用于监督模型的训练过程;使用Kullback-Leibler散度来度量预测标签分布和模拟的标签分布之间的差异,得到所述损失值:
其中表示模拟的标签分布中第c个标签的概率,/>表示预测的标签分布中第c个标签的概率,c表示标签的索引。
在本实施例中,所述根据所述关系三元组信息,建立目标BIM知识图谱中,基于增量元自训练的半监督学习实现在线知识图谱的构建,包括以下步骤:
步骤1:利用获取的标记数据来训练初始模型,所述模型根据已标记的数据进行训练,得到初始的预测模型Cτ
In=Cτ(Xn,e1,e2);
其中,In表示最终预测的关系概率分布,Xn为输入的文本信息,e1和e2表示两个实体的位置信息;
步骤2:使用生成网络Cσ为未标记的数据生成伪标签M;将伪标签与未标记数据添加到训练集中;
使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型;其中,在生成的所有伪标签中选择置信度前Z%的伪标签进行标记;
Wm=maxm(Cσ(Xm,E1,E2));
其中,m来自于M中最终被利用的标签,Z的取值为90,在Cτ优化过程中,Wm不断更新;
步骤3:重复所述步骤2,根据迭代生成新的伪标签扩展训练集,用标记数据和高置信度伪标签更新分类网络Cτ
在本实施例中,BIM知识图谱构建的各个步骤是相互依存的,它们之间存在以下关系:
实体识别模块和关系抽取模块的输入都是经过预处理的BIM文档。
关系抽取模块的输出是关系三元组,这些三元组可以用于构建BIM知识图谱。
构建BIM知识图谱需要实体和关系的信息,这些信息可以通过实体识别模块和关系抽取模块得到。
BIM知识图谱作为最终的输出,可以用于建筑项目的生命周期管理和智能决策等。
构建BIM的训练集并进行预处理:将原始的BIM数据转化为可供机器学习的格式。
实体识别模块(BiLSTM-CRF):自动识别出BIM文档中的实体,例如建筑元素、构件、属性等。
关系抽取模块(MutiLCM-RE):自动识别出实体之间的关系,并抽取出关系三元组。
构建BIM知识图谱:将实体和关系以节点和边的形式存储起来,并建立它们之间的链接关系,用于建筑项目的生命周期管理和智能决策等。
在一个实施例中,提供一种基于标签混淆学习的BIM知识图谱的构建方法。包括以下步骤:
构建BIM的训练集,对训练集进行预处理操作,将处理好的数据输入到模型中,通过实体识别模块(BiLSTM-CRF)进行实体识别,将识别好的实体进行标记,并记录实体的位置信息,便于后续关系抽取的进行;
在关系抽取模块(MutiLCM-RE)中,将标签信息、实体的位置信息和原始文档共同作为输入,输入到BERT中进行编码;将得到的上下文表示信息经过一个线性层,得到的隐藏状态作为softmax的输入,通过softmax函数得到每个类别的预测概率;
模型采用标签混淆学习的方式进行训练学习,具体而言,在训练过程中通过计算实例和标签之间的相似度来捕获标签之间的语义重叠,生成新的标签分布,然后将新的标签分布视为真实的标签分布,并将其与预测分布进行比较,通过kl散度计算损失。根据计算得到的损失值进行训练学习,从而进行关系分类,抽取出关系三元组。进而构建BIM的知识图谱。
在一个实施例中,提供一种多源语义融合方法:
首先在识别实体之后,分别用<e1><e1>和<e2><e2>来标记两个实体的位置,对于包含实体e1和e2的句子S,其中BERT模块的最终隐藏状态输出为H。BERT对实体e1和e2的最终隐藏状态向量分别为从Hi到Hj和从Hk到Hm。为获取这两个目标实体的向量表示,我们采用平均操作。接下来,通过应用一次激活操作,我们分别对这两个向量进行处理,并通过一个全连接层,得到e1和e2的输出表示,分别表示为H1和H2
然后将标签信息合并原文档输入到BERT中进行编码,其中在计算标签嵌入时,有C个类别,每个类别都对应一个标签文本Lj,其中j为类别的索引,由于Lj可能由几个子词组成,通过平均Lj中所有子词的标记嵌入来计算Lj的嵌入ELj,这样,标签句的长度等于类别总数C,ELj可以与EDi一起编码。标签嵌入的计算公式如下:
其中,ELj表示类别j对应的标签文本嵌入,|Lj|表示标签文本Lj包含的子词数量,Embed(Lj[i])表示子词Lj[i]的嵌入。
最后,得到编码后的标签信息和文档信息H0以及实体位置信息H1和H2后,将其融合,获得最终的上下文嵌入表示H:公式如下:
H=W3[concat(H0,H1,H2)]+b3
将得到的H输入到线性层中进行关系分类,得到最终的预测结果p,能够提高关系分类的准确性。公式如下:
p=softmax(H);
在一个实施例中,提供一种标签混淆学习策略:
本发明的标签混淆学习策略包括一个预测模块和标签混淆模块。其中,预测模块由编码器BERT和一个简单的分类器组成,其中分类器包含两个线性层。预测模块将文本输入到BERT中得到文本表示,然后将其输入到分类器中进行预测,得到标签预测矩阵(LPM)。公式如下:
y(p)=softmax(M(i));
其中,fI为输入编码函数,将输入的文本序列[x1,x2,…,xn]编码为y(p)为最后的预测结果。
标签混淆模块包括标签编码器和模拟标签分布计算块(DLAD)两个关键组成部分。标签编码器采用BERT来生成标签表示矩阵,将标签映射到表示空间中。
其中fL是标签编码器函数,将标签序列L=[l1,l2,…,lC]编码为矩阵
模拟标签分布计算块(DLAD)由相似度层和模拟标签分布计算层组成。相似度层接受标签表示和当前实例表示作为输入,通过点积计算它们之间的相似度值,然后应用带有softmax激活的神经网络,得到标签混淆分布(LCD)。LCD通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系。公式如下:
M=M(i)·M(l)
y(c)=softmax(w×M+b);
其中,y(c)表示标签混淆分布LCD。
将原始的one-hot标签向量与LCD以一定的控制参数α相加,并通过softmax函数进行归一化,生成模拟的标签分布DLAD。控制参数α决定了LCD对one-hot向量的调整程度。
y(s)=softmax(αyt+yc);
其中,yt表示标签的真实分布。
然后,将模拟的标签分布DLAD作为新的训练目标,以替代原始的one-hot向量,并用于监督模型的训练过程。由于DLAD的y(s)和预测的标签分布y(p)都是概率分布,因此我们使用Kullback-Leibler散度(KL-divergence)来度量它们之间的差异:
其中表示模拟的标签分布中第c个标签的概率,/>表示预测的标签分布中第c个标签的概率,c表示标签的索引。
在一个实施例中,提供一种基于增量元自训练的半监督学习方法:
第一步是利用有限的标记数据来训练一个初始模型。这是一个监督学习过程,模型根据已标记的数据进行训练,最终得到一个初始的预测模型Cτ
In=Cτ(Xn,e1,e2);
其中In表示最终预测的关系概率分布,Xn为输入的文本信息,e1和e2表示两个实体的位置信息。
第二步是使用生成网络Cσ为这批未标记的数据生成伪标签M。将伪标签与未标记数据一起添加到训练集中。这样,未标记数据就变成了具有伪标签的“伪标记”数据。使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型。其中,我们在生成的所有伪标签中选择置信度前Z%的伪标签进行标记,在这个过程中,模型会尝试适应伪标签,以更好地拟合未标记数据。
Wm=maxm(Cσ(Xm,e1,e2));
其中,m来自于M中最终被利用的标签,经过大量实验证明,Z的取值为90,在Cτ优化过程中,Wm不断更新。
第三步,多次重复步骤二,每次迭代都会生成新的伪标签,并使用它们扩展训练集,然后用标记数据和高置信度伪标签更新分类网络Cτ
本实施例从不同的信息源获得丰富的数据,通过综合利用文本信息、实体位置信息和标签信息,这一方法能够实现对BIM数据的多维度建模,提供更为丰富和全面的知识表示。传统的BIM知识图谱构建方法往往只关注文本信息或实体位置信息,无法充分挖掘不同信息源之间的潜在联系。而多源语义融合方法能够将这些信息源有机地结合起来,实现了更高层次的语义理解,使知识图谱更具信息密度和语义丰富度。其次,多源语义融合方法有助于解决实体标注和关系抽取的问题。在BIM知识图谱中,需要准确标注实体(如建筑构件、设备、材料等)以及它们之间的关系(如连接、依赖、包含等)。传统方法往往需要大量手动标注或依赖特定规则,而多源语义融合方法可以从文本、位置和标签多个维度获取实体信息,从而更准确地标注和抽取实体关系。这不仅提高了知识图谱的准确性,还减轻了标注的负担。
本实施例引入标签混淆模型(LCM)和模拟标签分配(DLAD)策略,实现了对标签的动态学习和分配。与传统的静态标签分配方法不同,标签混淆学习充分考虑了每个样本与标签之间的语义关联,根据实例内容调整标签分布。借助KL-散度损失函数来度量模型生成的标签分布与真实标签分布之间的差异,从而引导模型逐渐逼近真实分布。这种动态分配使得知识图谱的标签更加精确和贴近实际,能够更好地捕捉实体和关系的语义信息。其次,标签混淆学习方法能够应对BIM数据中的标签噪声和不一致性。在BIM领域,数据可能会受到多个来源和标准的影响,导致标签存在错误或不一致。标签混淆学习通过计算标签之间的相似性分布,有助于纠正或平衡标签的误差,提高了BIM知识图谱的数据一致性和准确性。
在一个实施例中,本实施例的应用场景如下:
我们有一个包含建筑元素信息的BIM数据集,其中包括"桥结构"、"开裂"等描述建筑物各部分以及其状态的实体。
首先,使用BiLSTM-CRF模型进行实体识别。这个模型能够辨别出文本中的特定实体,例如"桥结构"和"开裂"。通过这个步骤,我们得到了不同实体的具体信息。
再将这些实体信息和原始BIM数据输入到MultiLCM-RE模型中。在这个模型中,我们引入了标签混淆学习策略,通过计算标签和文本的相似度处理实体间复杂的关系。如,在我们的例子中,"桥结构"实体可能与"开裂"实体之间存在链接关系“risk to”,即开裂是桥结构的风险之一。
通过MultiLCM-RE模型,我们能够识别出这些具体实体之间的关系。最终,根据这些关系信息,我们建立了一个准确、全面且具有表达能力的BIM知识图谱。可以用于建筑项目的生命周期管理和智能决策。
当一旦系统检测到当前项目中出现“开裂”的情况,通过已经构建的BIM知识图谱,它可以提前检测到风险并预警项目团队,帮助他们采取措施避免质量问题的发生,确保项目质量。
传统方法通常采用离线的方式进行知识图谱的构建,需要大规模的标注数据和大量的计算资源,构建周期较长,且难以应对数据的动态变化。相比之下,增量元自训练方法能够实现在线知识图谱的构建,允许系统不断地积累新的知识,实现持续更新,大大缩短了构建周期。通过增量元自训练,从少量标注数据开始,然后逐步利用模型的自我学习和标注数据的递增性增加,实现知识图谱的渐进构建,降低了数据标注成本。其次,增量元自训练可以应对BIM数据的动态性和多样性。在建筑工程领域,项目数据往往会随着时间的推移而发生变化,而不同项目之间的数据特征也可能存在差异。采用增量元自训练的半监督学习方法能够动态地适应这种数据的变化,保持知识图谱的及时更新和灵活性,确保其与实际工程项目的吻合度。此外,增量元自训练还有助于提高知识图谱的准确性和鲁棒性。通过自我学习和不断积累新数据,模型能够不断改进自身的性能,减少误差,并更好地处理复杂的实体关系和多义性问题。这对于BIM知识图谱的实际应用非常关键,因为在建筑和工程领域,准确性和鲁棒性是决策和规划的关键因素。
在一个实施例中,提供了一种基于标签混淆学习的BIM知识图谱构建系统,包括以下程序模块:
预处理模块:用于获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
实体识别模块:用于将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
关系抽取模块:用于将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
构建模块:用于根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立链接关系,用于建筑项目的生命周期管理和智能决策。
其中各模块具体实现内容可以参见上文中对于基于标签混淆学习的BIM知识图谱构建方法的限定,在此不再赘述。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

Claims (8)

1.一种基于标签混淆学习的BIM知识图谱构建方法,其特征在于,所述方法包括:
获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立链接关系,用于建筑项目的生命周期管理和智能决策。
2.根据权利要求1所述的方法,其特征在于,对所述目标BIM数据集进行预处理,得到目标BIM数据,包括:
收集BIM数据集,BIM数据集包括建筑物或基础设施项目的相关文档、图纸和模型;
对所述BIM数据集进行数据清洗和预处理,具体的,对所述BIM数据集去除冗余数据、规范化数据格式操作。
3.根据权利要求1所述的方法,其特征在于,将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息,包括:
将经过预处理的BIM数据输入到BiLSTM-CRF模型中进行实体识别;
所述BiLSTM-CRF模型中BiLSTM模型输出文本序列的上下文信息,CRF模型则对识别的实体进行标记,记录实体的位置信息;
在训练所述BiLSTM-CRF模型时,使用已标注的训练数据进行监督学习。
4.根据权利要求3所述的方法,其特征在于,所述利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,包括:
用<e1><e1>和<e2><e2>来标记两个实体的位置,对于包含实体e1和e2的句子S,所述BERT模型的最终隐藏状态输出为H;
所述BERT模型对实体e1和e2的最终隐藏状态向量分别为从Hi到Hj和从Hk到Hm
通过激活操作分别对实体e1和e2这两个向量进行处理,并通过一个全连接层,得到e1和e2的输出表示,分别表示为H1和H2
将实体信息和目标BIM数据合并输入到BERT中进行编码,其中,在计算标签嵌入时,有C个类别,每个类别都对应一个标签文本Lj,其中j为类别的索引,标签文本Lj可能由多个子词组成,平均Lj中所有子词的标记嵌入来计算Lj的嵌入ELj,标签句的长度等于类别总数C,标签嵌入的计算公式如下:
其中,ELj表示类别j对应的标签文本嵌入,|Lj|表示标签文本Lj包含的子词数量,Embed(Lj[i])表示子词Lj[i]的嵌入;
将得到编码后的实体信息和目标BIM数据H0以及实体位置信息H1和H2融合,获得最终的上下文嵌入表示H,公式如下:
H=W3[concat(H0,H1,H2)]+b3
将得到的H输入到线性层中进行关系分类,得到预测结果p,公式如下:
p=softmax(H)。
5.根据权利要求1所述的方法,其特征在于,所述标签混淆学习策略包括预测模块和标签混淆模块;
所述预测模块由编码器BERT和分类器组成,其中,分类器包含两个线性层;
所述预测模块将文本输入到BERT中得到文本表示,将所述文本表示输入到分类器中进行预测,得到标签预测矩阵,公式如下:
y(p)=softmax(M(i));
其中,fI为输入编码函数,将输入的文本序列[x1,x2,…,xn]编码为y(p)为预测结果;
所述标签混淆模块包括标签编码器和模拟标签分布计算块;
所述标签编码器采用所述BERT模型生成标签表示矩阵,将标签映射到表示空间中;
其中,fL是标签编码器函数,将标签序列L=[l1,l2,…,lC]编码为矩阵
所述模拟标签分布计算块由相似度层和模拟标签分布计算层组成,所述相似度层接受标签表示和当前实例表示作为输入,通过点积计算它们之间的相似度值,应用带有softmax激活的神经网络,得到标签混淆分布;标签混淆分布通过计算实例与标签之间的语义相似性来捕获标签之间的依赖关系,公式如下:
M=M(i)·M(l)
y(c)=softmax(w×M+b);
其中,y(c)表示标签混淆分布。
6.根据权利要求5所述的方法,其特征在于,所述通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,包括:
将原始的one-hot标签向量与所述标签混淆分布以预设的控制参数α相加,并通过softmax函数进行归一化,生成预测标签分布;
y(s)=softmax(αyt+yc);
其中,yt表示真实的标签分布;
将预测标签分布作为新的训练目标,替代原始的one-hot向量,并用于监督模型的训练过程;使用Kullback-Leibler散度来度量预测标签分布和模拟的标签分布之间的差异,得到所述损失值:
其中表示模拟的标签分布中第c个标签的概率,/>表示预测的标签分布中第c个标签的概率,c表示标签的索引。
7.根据权利要求1所述的方法,其特征在于,根据所述关系三元组信息,建立目标BIM知识图谱中,基于增量元自训练的半监督学习实现在线知识图谱的构建,包括以下步骤:
步骤1:利用获取的标记数据来训练初始模型,所述模型根据已标记的数据进行训练,得到初始的预测模型Cτ
In=Cτ(Xn,e1,e2);
其中,In表示最终预测的关系概率分布,Xn为输入的文本信息,e1和e2表示两个实体的位置信息;
步骤2:使用生成网络Cσ为未标记的数据生成伪标签M;将伪标签与未标记数据添加到训练集中;
使用包括已标记数据和伪标记数据的扩展训练集来重新训练模型;其中,在生成的所有伪标签中选择置信度前Z%的伪标签进行标记;
Wm=maxm(Cσ(Xm,e1,e2));
其中,m来自于M中最终被利用的标签,Z的取值为90,在Cτ优化过程中,Wm不断更新;
步骤3:重复所述步骤2,根据迭代生成新的伪标签扩展训练集,用标记数据和高置信度伪标签更新分类网络Cτ
8.一种基于标签混淆学习的BIM知识图谱构建系统,其特征在于,包括:
预处理模块:用于获取原始BIM数据集,并对所述原始BIM数据集进行预处理,得到目标BIM数据;
实体识别模块:用于将所述目标BIM数据输入到BiLSTM-CRF模型中进行实体识别,得到所述目标BIM数据中的实体信息,所述实体信息包括建筑元素、构件和实体位置信息;
关系抽取模块:用于将所述实体信息和目标BIM数据输入MutiLCM-RE,识别出实体之间的关系,并抽取出关系三元组信息,具体的,利用BERT模型对所述实体信息和目标BIM数据进行编码,得到上下文表示信息,经过一个线性层,将隐藏状态映射为softmax函数的输入,得到每个类别的预测概率,通过标签混淆学习策略,将训练过程中生成新的标签分布视为真实的标签分布,并与预测标签分布进行比较,计算损失值,根据所述损失值进行模型训练学习,实现关系三元组信息的抽取;
构建模块:用于根据所述关系三元组信息,建立目标BIM知识图谱,具体的,采用图数据库或图表示学习技术,将实体和关系以节点和边的形式存储,并建立链接关系,用于建筑项目的生命周期管理和智能决策。
CN202311541545.9A 2023-11-17 2023-11-17 一种基于标签混淆学习的bim知识图谱构建方法和系统 Pending CN117473102A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311541545.9A CN117473102A (zh) 2023-11-17 2023-11-17 一种基于标签混淆学习的bim知识图谱构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311541545.9A CN117473102A (zh) 2023-11-17 2023-11-17 一种基于标签混淆学习的bim知识图谱构建方法和系统

Publications (1)

Publication Number Publication Date
CN117473102A true CN117473102A (zh) 2024-01-30

Family

ID=89625482

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311541545.9A Pending CN117473102A (zh) 2023-11-17 2023-11-17 一种基于标签混淆学习的bim知识图谱构建方法和系统

Country Status (1)

Country Link
CN (1) CN117473102A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014072A (zh) * 2024-04-10 2024-05-10 中国电建集团昆明勘测设计研究院有限公司 水利水电工程用知识图谱的构建方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法
WO2022057669A1 (zh) * 2020-09-16 2022-03-24 浙江大学 基于结构化上下文信息的知识图谱预训练方法
CN116049419A (zh) * 2022-11-12 2023-05-02 中国人民解放军战略支援部队信息工程大学 融合多模型的威胁情报信息抽取方法及系统
CN116484024A (zh) * 2023-05-12 2023-07-25 中国人民解放军空军工程大学 一种基于知识图谱的多层次知识库构建方法
US20230237277A1 (en) * 2022-01-25 2023-07-27 Oracle International Corporation Aspect prompting framework for language modeling
CN116501884A (zh) * 2023-03-31 2023-07-28 重庆大学 一种基于BERT-BiLSTM-CRF的医药实体识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022057669A1 (zh) * 2020-09-16 2022-03-24 浙江大学 基于结构化上下文信息的知识图谱预训练方法
CN112883197A (zh) * 2021-02-08 2021-06-01 广东电网有限责任公司广州供电局 一种用于封闭开关设备的知识图谱构建方法与系统
CN113609859A (zh) * 2021-08-04 2021-11-05 浙江工业大学 一种基于预训练模型的特种设备中文命名实体识别方法
US20230237277A1 (en) * 2022-01-25 2023-07-27 Oracle International Corporation Aspect prompting framework for language modeling
CN116049419A (zh) * 2022-11-12 2023-05-02 中国人民解放军战略支援部队信息工程大学 融合多模型的威胁情报信息抽取方法及系统
CN116501884A (zh) * 2023-03-31 2023-07-28 重庆大学 一种基于BERT-BiLSTM-CRF的医药实体识别方法
CN116484024A (zh) * 2023-05-12 2023-07-25 中国人民解放军空军工程大学 一种基于知识图谱的多层次知识库构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ZHANG L等: "Coattention based BiLSTM for Answer Selection", WEB OF SCIENCE, 31 December 2017 (2017-12-31) *
赵路伟: "基于BERT和复合网络的短文本情感分析研究", 中国优秀博硕士学位论文全文数据库, 15 October 2023 (2023-10-15) *
黄培馨;赵翔;方阳;朱慧明;肖卫东;: "融合对抗训练的端到端知识三元组联合抽取", 计算机研究与发展, no. 12, 15 December 2019 (2019-12-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118014072A (zh) * 2024-04-10 2024-05-10 中国电建集团昆明勘测设计研究院有限公司 水利水电工程用知识图谱的构建方法及系统

Similar Documents

Publication Publication Date Title
CN110889556B (zh) 一种企业经营风险特征数据信息提取方法和提取系统
Sun et al. Deep learning for industrial KPI prediction: When ensemble learning meets semi-supervised data
CN109271539B (zh) 一种基于深度学习的图像自动标注方法及装置
CN113723632A (zh) 一种基于知识图谱的工业设备故障诊断方法
CN111597347B (zh) 知识嵌入的缺陷报告重构方法及装置
CN112100403A (zh) 一种基于神经网络的知识图谱不一致性推理方法
CN117473102A (zh) 一种基于标签混淆学习的bim知识图谱构建方法和系统
CN115511118A (zh) 一种基于人工智能的供热系统故障辅助决策方法及系统
CN114090783A (zh) 一种异构知识图谱融合方法及系统
CN112541600A (zh) 一种基于知识图谱的辅助维修决策方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN109872775A (zh) 一种文献标注方法、装置、设备及计算机可读介质
Yan et al. A comprehensive survey of deep transfer learning for anomaly detection in industrial time series: Methods, applications, and directions
CN116861924A (zh) 基于人工智能的项目风险预警方法及系统
CN114155477B (zh) 一种基于平均教师模型的半监督视频段落定位方法
CN116628212A (zh) 面向国民经济和社会发展调查领域的不确定性知识图谱建模方法
CN117540035B (zh) 一种基于实体类型信息融合的rpa知识图谱构建方法
CN117196032A (zh) 一种用于智能决策的知识图谱构建方法、装置、电子设备及存储介质
CN114969363A (zh) 一种基于知识图谱风险等级的数控机床安全部件分析方法
Mete et al. Predicting semantic building information (BIM) with Recurrent Neural Networks
CN117407532A (zh) 一种利用大模型与协同训练进行数据增强的方法
CN116701665A (zh) 基于深度学习的中医古籍知识图谱构建方法
CN117077071A (zh) 一种基于数据分级的数据分析方法及系统
CN116362247A (zh) 一种基于mrc框架的实体抽取方法
CN115936003A (zh) 基于神经网络的软件功能点查重方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination