CN116450852A - 基于深度学习的桥梁管养知识图谱自动构建方法 - Google Patents
基于深度学习的桥梁管养知识图谱自动构建方法 Download PDFInfo
- Publication number
- CN116450852A CN116450852A CN202310461241.5A CN202310461241A CN116450852A CN 116450852 A CN116450852 A CN 116450852A CN 202310461241 A CN202310461241 A CN 202310461241A CN 116450852 A CN116450852 A CN 116450852A
- Authority
- CN
- China
- Prior art keywords
- entity
- bridge
- maintenance
- management
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012423 maintenance Methods 0.000 title claims abstract description 132
- 238000010276 construction Methods 0.000 title claims abstract description 33
- 238000013135 deep learning Methods 0.000 title claims abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 26
- 238000000605 extraction Methods 0.000 claims abstract description 10
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 201000010099 disease Diseases 0.000 claims description 35
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 35
- 239000013598 vector Substances 0.000 claims description 33
- 230000006870 function Effects 0.000 claims description 18
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000004913 activation Effects 0.000 claims description 9
- 238000004140 cleaning Methods 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 7
- 238000002679 ablation Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 6
- 238000012546 transfer Methods 0.000 claims description 6
- 238000013526 transfer learning Methods 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000007547 defect Effects 0.000 claims description 4
- 238000011176 pooling Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000011218 segmentation Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000000844 transformation Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 9
- 230000008520 organization Effects 0.000 abstract description 2
- 238000012800 visualization Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 239000013078 crystal Substances 0.000 description 2
- 241000590419 Polygonia interrogationis Species 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了基于深度学习的桥梁管养知识图谱自动构建方法,包括:S1、对桥梁管养领域文本进行预处理,并建立桥梁管养领域文本标注数据库;S2、采用BERT+BiLSTM+CRF模型构建桥梁领域实体自动提取模型;S3、建立桥梁管养领域关系自动识别模型:建立桥梁领域实体关系目录,利用两阶段关系识别算法对步骤S2得到的桥梁管养领域实体中抽取实体对,并识别该实体对中实体之间的匹配关系;S4、桥梁管养知识图谱构建和可视化。本发明实现了桥梁管养知识图谱的自动构建,解决了传统桥梁领域知识图谱构建方法组织难度大、构建成本高、自动化程度低的问题,提高了桥梁检测信息的利用效率,为桥梁智能管养提供了技术支撑。
Description
技术领域
本法发明属于桥梁管理和养护技术领域,具体涉及基于深度学习的桥梁管养知识图谱自动构建方法。
背景技术
桥梁的大量常规和结构检测报告内蕴含了与结构管养相关的重要信息,但传统的桥梁检测信息录入耗时耗力,存储冗余,检索繁复,可视化程度和利用效率低。知识图谱是一种结构化的语义知识库,用于描述真实世界中的概念及其相互关系,其可以包含专业领域的海量知识,可以同时实现存储、查询、处理、可视化等多重数据任务。这使得依据检测报告和行业规范等文本信息构建桥梁管养知识图谱,成为解决传统检测桥梁运维管理工作效率低和信息利用率差等问题的有效手段。同时,桥梁管养知识图谱也可以实现充分利用和挖掘检测报告中蕴含的丰富信息,提供更为全面可靠的结构状态信息。目前桥梁管养知识图谱的构建方法单一,且限制于桥梁专业性,知识图谱的建立过程需行业资深专家参与。此外,桥梁文本信息繁复需手工进行实体和关系的提取、消融、对齐,这些问题都导致创建桥梁管养知识图谱的组织难度大、构建成本高、自动化程度低。如何利用深度学习技术,自动、快速、准确、可靠地建立桥梁管养知识图谱是亟待解决的一种技术问题。
发明内容
本发明的目的在于:解决桥梁管理知识图谱自动构建的相关问题,包括桥梁管养领域标注数据库的建立,桥梁管养领域实体自动提取模型的建立,桥梁管养领域关系自动识别模型的建立,桥梁管养知识图谱可视化等技术问题。实现依据桥梁管养文本数据,全自动构建桥梁管养知识图谱。
为实现上述目的,本发明提供如下技术方案:基于深度学习的桥梁管养知识图谱自动构建方法,包括如下步骤:
S1、对桥梁管养领域文本进行预处理,并建立桥梁管养领域文本标注数据库;
S2、采用BERT+BiLSTM+CRF模型构建桥梁领域实体自动提取模型:以清洗和规范化处后理的文本序列为输入,利用中文迁移学习预训练模型BERT,获得含有语义特征的序列向量;
利用BiLSTM模型捕捉桥梁管养领域文本上下文信息的双向语义依赖;利用条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,识别桥梁管养领域实体;
S3、建立桥梁管养领域关系自动识别模型:建立桥梁领域实体关系目录,抽取步骤S2得到的桥梁管养领域实体的实体对,利用两阶段关系识别算法识别该实体对中实体之间的匹配关系;
S4、根据步骤S3获得的实体对中实体之间的匹配关系建立实体-关系-实体三元组,然后对全部的实体-关系-实体三元组中的多个实体进行对齐消融,得到桥梁管养知识图谱。
进一步地前述的步骤S1包括以下子步骤:
S101、对桥梁管养领域文本进行清洗和规范化处理;
S102、根据桥梁管养领域实体目录,按照三位序列标注法,对桥梁管养领域文本中的实体开始部分,中间部分和非实体部分进行标注。
进一步地前述的步骤S101包括以下子步骤:
S101-1、采用Jieba工具库和自定义字典对桥梁管养领域文本进行分词;
S101-2、对文本信息中的英文表述转化为中文表述,同时清除标点符号;
进一步地前述的步骤S102包括以下子步骤:
S102-1、建立桥梁管养领域实体目录:定义桥梁管养领域知识图谱实体,依据定义的实体,对文本信息中的实体进行提取,创建桥梁管养领域实体目录E:
其中,Ei为定义实体,i={1,2,…,n},n为实体个数;
S102-2、根据桥梁管养领域实体目录E,采用相同字段自动标注和专家校正相结合的实体标注方法,对桥梁管养相关文本实体开始、结尾和非实体部分进行标注,获得桥梁管养领域标注数据库。
进一步地前述的步骤S2包括以下子步骤:
S201、利用中文迁移学习预训练模型BERT,对经过S101-1分词和S101-2清洗的文本序列的部分词进行Mask,再为序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔;将序列向量输入到双向Transformer编码器进行特征提取;得到含有语义特征的序列向量,所述Transformer编码器结构,如下式:
其中,Q,K,V是字向量矩阵,dk是嵌入维度;
S202、利用多头注意力机制,通过多个不同的线性变换对Q,K,V进行投影,最后将不同的Attention结果拼接起来,如下公式(3)、(4):
MultiHead(Q,K,V)=Concat(head1,…,headn)WO (3)
headi=Attention(QWi Q,KWi K,VWi V) (4)
其中,W是权重矩阵,模型可以得到不同空间下的位置信息;
S203、Transformer编码器在数据预处理前加入位置编码,并与输入向量数据进行求和,得到句子中每个字的相对位置,Transformer编码器的全链接前馈网络包括两层全连接网络:第一层的激活函数是ReLU,第二层是一个线性激活函数;全连接前馈网络FFN表示为下式:
FFN(Z)=max(0,ZW1+b1)W2+b2 (5)其中,多头注意力机制的输出Z,W1和b1分别是第一层全连接网络的权重和偏置向量,W2和b2分别是第二层全连接网络的权重和偏置向量;
S204、BiLSTM用于捕捉对桥梁管养领域文本上下文信息的双向语义依赖;LSTM包含遗忘门、输入门、输出门以及记忆Cell结构;输入门与遗忘门两者对于实体识别的无用信息进行筛除,将有用信息传入到下一时刻;整个结构的输出,由记忆Cell的输出和输出门的输出相乘得到的;序列输入LSTM模型,输出为:
其中,σ是激活函数,W是权重矩阵,b是偏置向量,zt是待增加的内容,ct是t时刻的更新状态,it,ft,ot分别是输入门、遗忘门及输出门的输出结果,ht是整个LSTM单元t时刻的输出;BiLSTM对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并;对于每一个时刻,对应着前向与后向的信息,实际输出如下式:
其中,为LSTM前向输出,/>为LSTM反向输出;
S205、按如下公式计算BiLSTM的输出得分:
P=∑pt
其中,P是BiLSTM的输出得分矩阵,P的大小为n×k,其中k为词的个数,n为实体个数,Pij表示第i个词的第j个实体的分数;
S206、条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,用于弥补BiLSTM仅善于处理长距离的文本信息,但无法处理相邻实体标签之间的依赖关系的缺点;对于桥梁管养文本X=(x1,x2,…,xn)和预测的桥梁管养文本Y=(y1,y2,…,yn)而言,其得分数函数如下式:
其中,A表示转移分数矩阵,Aij代表实体i转移为实体j的分数;
按如下公式获得预测桥梁管养文本Y产生的概率:
对公式取对数得到预测文本序列的似然函数:
式中,Y表示预测的标注文本序列,Yx表示所有可能的标注文本序列。解码后得到最大分数的输出序列:
其中,Y*是经过模型识别后桥梁管养领域实体。
进一步地前述的步骤S3包括如下子步骤:
S301、根据桥梁管养领域实体关系,建立桥梁管养领域实体关系目录R:
其中,ri为管养领域实体关系,i={1,2,…,m},管养领域实体关系ri作为定义关系组,集成于知识图谱自动构建模型中。
S302、利用两阶段关系识别算法,从步骤S2得到的桥梁管养领域实体中抽取实体对(ei,ej),并识别实体ei和ej间的关系。
进一步地前述的步骤S302包括以下子步骤:
S302-1、第一阶段:针对中间不存在文本信息的桥梁管养领域实体ei和ej间的关系进行识别,依据已提取实体和预设关系目录R,将全部的定义实体E和预设关系R进行匹配,建立实体-关系-实体元组T:
Ti=(Ei→ri→Ei+1) (13)
其中,Ti为Ei-ri-Ei+1元组,Ei为第i个实体,ri为第i个关系,Ei+1为第i+1个实体;将经过S2步骤后的实体集合中的实体ei和ej与全部元组T进行匹配,元组内的实体间为有向关系,采用双向匹配算法获得实体间关系ri,如下式:
ri=match[Ti,(ei,ej)] (14)
S302-2、第二阶段:针对一组相邻且中间存在文本信息的桥梁管养领域实体和间的关系进行识别,首先对实体/>和/>间的非实体文本进行最大池化操作,获得文本特征向量/>如果两个识别的实体间不存在文本,将/>设置为0,获得关系的向量表示,每一个实体对得到两个关系表示,如下式:
其中,和/>为已识别的实体特征向量;
将和/>这两个关系输入进一个全连接网络,再使用sigmoid函数进行激活,该过程表示如下式:
其中,对应桥梁管养领域关系目录R中不同关系的概率,概率值最大的位置代表的实体关系即为该组实体/>匹配的关系ri。
进一步地前述的步骤S4包括以下子步骤:
S401、建立实体-关系-实体三元组:将自动识别的实体(ei,ej)与自动匹配的关系ri建立有向关系,形成桥梁管养知识图谱的基础单元——实体-关系-实体三元组(ei,ri,ej);S402、补全桥梁管养知识图谱:采用余弦相似度,将全部的实体进行对齐消融,如下式:
其中,ei和ek分别是(ei,ri,ei+1)和(ek,rk,ek+1)的两个不同三元组中的实体;
S403、根据实体ei和ek间的余弦值cos(θ),并结合预设值,对ei,ek实体进行消融对齐成为一个实体ei,使两个三元组(ei,ri,ei+1)和(ek,rk,ek+1)融合形成新的图谱结构(ei+1,ri,ei,rk,ek+1),进行迭代循环,将全部三元组进行对齐融合,构建统一完整的桥梁管养图谱;
S404、桥梁管养知识图谱可视化:使用全部实体-关系-实体三元组,利用Neo4j图数据库进行桥梁管养知识图谱可视化。
进一步地前述的步骤S301中,所述ri为管养领域实体关系,i={1,2,…,m},m=6;具体实体关系定义为:r1-构件所在位置、r2-构件产生的病害、r3-病害所在位置、r4-病害性状类别、r5-病害性状数值、r6-病害建议措施。
进一步地前述的步骤S102中:所述Ei为定义实体,i={1,2,…,n},n=8,具体实体目录定义为:E1-桥梁构件、E2-桥梁构件部位、E3-病害类别、E4-病害位置、E5-病害数量、E6-病害性状类别、E7-病害性状数值、E8-维护措施。
相较于现有技术,本发明的有益效果如下:本发明利用深度学习技术,为桥梁管理养护人员提供了自动、快速、准确、可靠的桥梁管养知识图谱的自动构建技术,有效提升了桥梁管养知识图谱构建效率,解决了桥梁管养知识图谱组织难度大、构建成本高、自动化程度低的问题。
附图说明
图1是本发明基于深度学习的桥梁管养知识图谱自动构建方法流程图。
图2是桥梁管养领域实体自动提取模型图。
图3是桥梁管养领域关系自动识别模型图。
图4是桥梁管养知识图谱自动构建模型图。
图5是桥梁管养知识图谱可视化示例图。
具体实施方式
为了更了解本发明的技术内容,特举具体实施例并配合所附图式说明如下。
在本发明中参照附图来描述本发明的各方面,附图中示出了许多说明性实施例。本发明的实施例不局限于附图所述。应当理解,本发明通过上面介绍的多种构思和实施例,以及下面详细描述的构思和实施方式中的任意一种来实现,这是因为本发明所公开的构思和实施例并不限于任何实施方式。另外,本发明公开的一些方面可以单独使用,或者与本发明公开的其他方面的任何适当组合来使用。
如图1所示,本发明的基于深度学习的桥梁管养知识图谱自动构建方法,包括如下步骤:
S1、对桥梁管养领域文本进行预处理,并建立桥梁管养领域文本标注数据库;
S2、采用BERT+BiLSTM+CRF模型构建桥梁领域实体自动提取模型:以清洗和规范化处后理的文本序列为输入,利用中文迁移学习预训练模型BERT,获得含有语义特征的序列向量;利用BiLSTM模型捕捉桥梁管养领域文本上下文信息的双向语义依赖;利用条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,识别桥梁管养领域实体;
S3、建立桥梁管养领域关系自动识别模型:建立桥梁领域实体关系目录,抽取步骤S2得到的桥梁管养领域实体的实体对,利用两阶段关系识别算法识别该实体对中实体之间的匹配关系;
S4、根据步骤S3获得的实体对中实体之间的匹配关系建立实体-关系-实体三元组,然后对全部的实体-关系-实体三元组中的多个实体进行对齐消融,得到桥梁管养知识图谱。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S1包括如下子步骤:
S101、对包括检测报告、行业规范、专家报告等大量桥梁管养领域文本进行清洗和规范化处理;
S102、根据桥梁管养领域实体目录,按照三位序列标注法,对桥梁管养领域文本中的实体开始部分,中间部分和非实体部分进行标注,形成桥梁管养领域标注数据库。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S101包括如下子步骤:
S101-1、采用Jieba工具库和自定义字典对桥梁管养领域文本进行分词,例如,将“1-20#箱梁左侧20处析白结晶”分词为“1-20#箱梁左侧20处析白结晶”;
S101-2、对文本信息规范化处理,将文本中的“mm、m、mm2、m2”等单位转化为中文表述的“毫米、米、平方毫米、平方米”,将文本中的“L、W、S”等度量词转化为中文表述的“长度、宽度、面积”,同时,清除文本中的句号、问号、感叹号等特殊字符。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S102包括如下子步骤:
S102-1、建立桥梁管养领域实体目录:定义桥梁管养领域知识图谱实体,依据领域的实体,对文本信息中的实体进行提取,创建桥梁管养领域实体目录E:
其中,Ei为定义实体,i={1,2,…,n},n=8,具体实体目录定义为:E1-桥梁构件、E2-桥梁构件部位、E3-病害类别、E4-病害位置、E5-病害数量、E6-病害性状类别、E7-病害性状数值、E8-维护措施;
S102-2、根据桥梁管养领域实体目录E,采用相同字段自动标注和专家校正相结合的实体标注方法,对桥梁管养相关文本实体开始、结尾和非实体部分进行标注,形成桥梁管养领域标注数据库。例如,将“桥墩存在病害”标注为“桥(B)墩(I)存(O)在(O)病(B)害(I)”。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,如图2所示,步骤S2包括如下子步骤:
S201、利用中文迁移学习预训练模型BERT,对已经过S101-1分词和S101-2清洗的文本序列的部分词进行Mask,再为序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔;将序列向量输入到双向Transformer编码器进行特征提取;得到含有语义特征的序列向量,所述Transformer编码器结构,如下式:
其中,Q,K,V是字向量矩阵,dk是嵌入维度;
S202、利用多头注意力机制,通过多个不同的线性变换对Q,K,V进行投影,最后将不同的Attention结果拼接起来,如下公式(3)、(4):
MultiHead(Q,K,V)=Concat(head1,…,headn)WO (3)
headi=Attention(QWi Q,KWi K,VWi V) (4)
其中,W是权重矩阵,模型可以得到不同空间下的位置信息;
S203、Transformer编码器在数据预处理前加入位置编码,并与输入向量数据进行求和,得到句子中每个字的相对位置,Transformer编码器的全连接前馈网络包括两层全连接网络:第一层的激活函数是ReLU,第二层是一个线性激活函数;全链接前馈网络FFN表示为下式:
FFN(Z)=max(0,ZW1+b1)W2+b2 (5)
其中,多头注意力机制的输出Z,W1和b1分别是第一层全连接网络的权重和偏置向量,
W2和b2分别是第二层全连接网络的权重和偏置向量;
S204、BiLSTM用于捕捉对桥梁管养领域文本上下文信息的双向语义依赖;LSTM包含遗忘门、输入门、输出门以及记忆Cell结构;输入门与遗忘门两者对于实体识别的无用信息进行筛除,将有用信息传入到下一时刻;整个结构的输出,由记忆Cell的输出和输出门的输出相乘得到的;序列输入LSTM模型,输出为:
其中,σ是激活函数,W是权重矩阵,b是偏置向量,zt是待增加的内容,ct是t时刻的更新状态,it,ft,ot分别是输入门、遗忘门及输出门的输出结果,ht是整个LSTM单元t时刻的输出;BiLSTM对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并;对于每一个时刻,对应着前向与后向的信息,实际输出如下式:
其中,为LSTM前向输出,/>为LSTM反向输出;
S205、按如下公式计算BiLSTM的输出得分:
P=∑pt
其中,P是BiLSTM的输出得分矩阵,P的大小为n×k,其中k为词的个数,n为实体个数,Pij表示第i个词的第j个实体的分数;
S206、条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,用于弥补BiLSTM仅善于处理长距离的文本信息,但无法处理相邻实体标签之间的依赖关系的缺点;对于桥梁管养文本X=(x1,x2,…,xn)和预测的桥梁管养文本Y=(y1,y2,…,yn)而言,其得分数函数如下式:
其中,A表示转移分数矩阵,Aij代表实体i转移为实体j的分数;
按如下公式获得预测桥梁管养文本Y产生的概率:
对公式取对数得到预测文本序列的似然函数:
式中,Y表示预测的标注文本序列,Yx表示所有可能的标注文本序列。解码后得到最大分数的输出序列:
其中,Y*是经过模型识别后的桥梁管养领域实体。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S3包括如下子步骤:
S301、建立桥梁管养领域实体关系目录:根据桥梁领域专业知识,确定桥梁管养领域实体关系,创建领域关系目录R:
其中,ri为管养领域实体关系,i={1,2,…,m},m=6。具体实体关系定义为:r1-构件所在位置、r2-构件产生的病害、r3-病害所在位置、r4-病害性状类别、r5-病害性状数值、r6-病害建议措施。将管养领域实体关系ri作为定义关系组,集成于知识图谱自动构建模型中;
S302、如图3所示,建立桥梁管养领域关系自动识别模型。通过预定义的管养领域关系目录R,利用两阶段关系识别算法,从步骤S2得到的桥梁管养领域实体中抽取的实体对(ei,ej),并识别实体ei和ej间的关系。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S302包括如下子步骤:
S302-1、第一阶段:针对中间不存在文本信息的桥梁管养领域实体ei和ej间的关系进行识别,依据已提取实体和预设关系目录R,将全部的定义实体E和预设关系R进行匹配,建立实体-关系-实体元组T:
Ti=(Ei→ri→Ei+1) (13)
其中,Ti为Ei-ri-Ei+1元组,Ei为第i个本体,ri为第i个关系,Ei+1为第i+1个本体;将经过S2步骤后的实体集合中的实体ei和ej与全部元组T进行匹配,元组内的实体间为有向关系,采用双向匹配算法获得实体间关系ri,如下式:
ri=match[Ti,(ei,ej)] (14)
例如:文本信息“2#主梁多处纵向裂缝”经过S2步骤为:
选取实体对(e2,e4),将实体对与T进行双向匹配:
获得该对实体(e2主梁,e4纵向裂缝)的关系为r2(构件产生的病害);
S302-2、第二阶段:针对一组相邻且中间存在文本信息的桥梁管养领域实体和间的关系进行识别,首先对实体/>和/>间的非实体文本进行最大池化操作,获得文本特征向量/>如果两个识别的实体间不存在文本,将/>设置为0,获得关系的向量表示,由于关系非对称,每一个实体对得到两个关系表示,如下式:
其中,和/>为已识别的实体特征向量;
将和/>这两个关系输入进一个全连接网络,再使用sigmoid函数进行激活,该过程表示如下式:
其中,对应桥梁管养领域关系目录R中不同关系的概率,概率值最大的位置代表的实体关系即为该组实体/>匹配的关系ri。
例如,文本信息“10#主梁主要的病害是纵向裂缝”经过S2步骤为:
将实体(e2,e3)中间的文本信息c“主要的病害是”进行最大池化并通过上述算法进行自动识别,获得该对实体(e2主梁,e4纵向裂缝)的关系为r2(构件产生的病害)。
进一步的,作为本发明基于深度学习的桥梁管养知识图谱自动构建方法的一个优选实施例,步骤S4包括如下子步骤:
S401、如图4所示,构建实体-关系-实体三元组。将自动识别的实体(ei,ej)与自动匹配的关系ri建立有向关系,形成桥梁管养知识图谱的基础单元——“实体-关系-实体”三元组(ei,ri,ej);
S402、桥梁管养图谱补全:采用余弦相似度,将全部的实体进行对齐消融:
其中,ei和ek分别是(ei,ri,ei+1)和(ek,rk,ek+1)的两个不同三元组中的实体。如果实体ei和ek间的余弦值cos(θ)越接近于1,说明两个实体类似,对ei,ek实体进行消融对齐成为一个实体ei,使两个三元组(ei,ri,ei+1)和(ek,rk,ek+1)融合形成新的图谱结构(ei+1,ri,ei,rk,ek+1)。进行迭代循环,将全部三元组进行对齐融合,构建统一完整的桥梁管养图谱;S403、如图5所示,桥梁管养知识图谱可视化,使用全部“实体-关系-实体”三元组,利用Neo4j图数据库进行桥梁管养知识图谱可视化。
虽然本发明已以较佳实施例阐述如上,然其并非用以限定本发明。本发明所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作各种的更动与润饰。因此,本发明的保护范围当视权利要求书所界定者为准。
Claims (10)
1.基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,包括如下步骤:
S1、对桥梁管养领域文本进行预处理,并建立桥梁管养领域文本标注数据库;
S2、采用BERT+BiLSTM+CRF模型构建桥梁领域实体自动提取模型:以清洗和规范化处后理的文本序列为输入,利用中文迁移学习预训练模型BERT,获得含有语义特征的序列向量;利用BiLSTM模型捕捉桥梁管养领域文本上下文信息的双向语义依赖;利用条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,识别桥梁管养领域实体;
S3、建立桥梁管养领域关系自动识别模型:建立桥梁领域实体关系目录,抽取步骤S2得到的桥梁管养领域实体的实体对,利用两阶段关系识别算法识别该实体对中实体之间的匹配关系;
S4、根据步骤S3获得的实体对中实体之间的匹配关系建立实体-关系-实体三元组,然后对全部的实体-关系-实体三元组中的多个实体进行对齐消融,得到桥梁管养知识图谱。
2.根据权利要求1所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S1包括以下子步骤:
S101、对桥梁管养领域文本进行清洗和规范化处理;
S102、根据桥梁管养领域实体目录,按照三位序列标注法,对桥梁管养领域文本中的实体开始部分,中间部分和非实体部分进行标注。
3.根据权利要求2所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S101包括以下子步骤:
S101-1、采用Jieba工具库和自定义字典对桥梁管养领域文本进行分词;
S101-2、对文本信息中的英文表述转化为中文表述,同时清除标点符号。
4.根据权利要求2所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S102包括以下子步骤:
S102-1、建立桥梁管养领域实体目录:定义桥梁管养领域知识图谱实体,依据定义的实体,对文本信息中的实体进行提取,创建桥梁管养领域实体目录E:
其中,Ei为定义实体,i={1,2,…,n},n为实体个数;
S102-2、根据桥梁管养领域实体目录E,采用相同字段自动标注和专家校正相结合的实体标注方法,对桥梁管养相关文本实体开始、结尾和非实体部分进行标注,获得桥梁管养领域标注数据库。
5.根据权利要求1所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S2包括以下子步骤:
S201、利用中文迁移学习预训练模型BERT,对经过S101-1分词和S101-2清洗的文本序列的部分词进行Mask,再为序列的开头添加一个特殊标记[CLS],句子间用标记[SEP]分隔;将序列向量输入到双向Transformer编码器进行特征提取;得到含有语义特征的序列向量,所述Transformer编码器结构,如下式:
其中,Q,K,V是字向量矩阵,dk是嵌入维度;
S202、利用多头注意力机制,通过多个不同的线性变换对Q,K,V进行投影,最后将不同的Attention结果拼接起来,如下公式(3)、(4):
MultiHead(Q,K,V)=Concat(head1,,headn)WO (3)
headi=Attention(QWi Q,KWi K,VWi V) (4)
其中,W是权重矩阵,模型可以得到不同空间下的位置信息;
S203、Transformer编码器在数据预处理前加入位置编码,并与输入向量数据进行求和,得到句子中每个字的相对位置,Transformer编码器的全链接前馈网络包括两层全连接网络:第一层的激活函数是ReLU,第二层是一个线性激活函数;全连接前馈网络FFN表示为下式:
FFN(Z)=max(0,ZW1+b1)W2+b2 (5)
其中,多头注意力机制的输出Z,W1和b1分别是第一层全连接网络的权重和偏置向量,W2和b2分别是第二层全连接网络的权重和偏置向量;
S204、BiLSTM用于捕捉对桥梁管养领域文本上下文信息的双向语义依赖;LSTM包含遗忘门、输入门、输出门以及记忆Cell结构;输入门与遗忘门两者对于实体识别的无用信息进行筛除,将有用信息传入到下一时刻;整个结构的输出,由记忆Cell的输出和输出门的输出相乘得到的;序列输入LSTM模型,输出为:
其中,σ是激活函数,W是权重矩阵,b是偏置向量,zt是待增加的内容,ct是t时刻的更新状态,it,ft,ot分别是输入门、遗忘门及输出门的输出结果,ht是整个LSTM单元t时刻的输出;BiLSTM对每个词序列分别采取前向和后向LSTM,然后将同一个时刻的输出进行合并;对于每一个时刻,对应着前向与后向的信息,实际输出如下式:
其中,为LSTM前向输出,/>为LSTM反向输出;
S205、按如下公式计算BiLSTM的输出得分:
P=∑pt
其中,P是BiLSTM的输出得分矩阵,P的大小为n×k,其中k为词的个数,n为实体个数,Pij表示第i个词的第j个实体的分数;
S206、条件随机场CRF通过邻近实体标签的关系获得一个最优的预测序列,用于弥补BiLSTM仅善于处理长距离的文本信息,但无法处理相邻实体标签之间的依赖关系的缺点;对于桥梁管养文本X=(x1,x2,…,xn)和预测的桥梁管养文本Y=(y1,y2,…,yn)而言,其得分数函数如下式:
其中,A表示转移分数矩阵,Aij代表实体i转移为实体j的分数;
按如下公式获得预测桥梁管养文本Y产生的概率:
对公式取对数得到预测文本序列的似然函数:
式中,Y表示预测的标注文本序列,Yx表示所有可能的标注文本序列;解码后得到最大分数的输出序列:
其中,Y*是经过模型识别后桥梁管养领域实体。
6.根据权利要求5所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S3包括如下子步骤:
S301、根据桥梁管养领域实体关系,建立桥梁管养领域实体关系目录R:
其中,ri为管养领域实体关系,i={1,2,…,m},管养领域实体关系ri作为定义关系组,集成于知识图谱自动构建模型中。
S302、利用两阶段关系识别算法,从步骤S2得到的桥梁管养领域实体中抽取实体对(ei,ej),并识别实体ei和ej间的关系。
7.根据权利要求6所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S302包括以下子步骤:
S302-1、第一阶段:针对中间不存在文本信息的桥梁管养领域实体ei和ej间的关系进行识别,依据已提取实体和预设关系目录R,将全部的定义实体E和预设关系R进行匹配,建立实体-关系-实体元组T:
Ti=(Ei→ri→Ei+1) (13)
其中,Ti为Ei-ri-Ei+1元组,Ei为第i个实体,ri为第i个关系,Ei+1为第i+1个实体;将经过S2步骤后的实体集合中的实体ei和ej与全部元组T进行匹配,元组内的实体间为有向关系,采用双向匹配算法获得实体间关系ri,如下式:
ri=match[Ti,(ei,ej)] (14)
S302-2、第二阶段:针对一组相邻且中间存在文本信息的桥梁管养领域实体和/>间的关系进行识别,首先对实体/>和/>间的非实体文本进行最大池化操作,获得文本特征向量/>如果两个识别的实体间不存在文本,将/>设置为0,获得关系的向量表示,每一个实体对得到两个关系表示,如下式:
其中,和/>为已识别的实体特征向量;
将和/>这两个关系输入进一个全连接网络,再使用sigmoid函数进行激活,该过程表示如下式:
其中,对应桥梁管养领域关系目录R中不同关系的概率,概率值最大的位置代表的实体关系即为该组实体/>匹配的关系ri。
8.根据权利要求7所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S4包括以下子步骤:
S401、建立实体-关系-实体三元组:将自动识别的实体(ei,ej)与自动匹配的关系ri建立有向关系,形成桥梁管养知识图谱的基础单元——实体-关系-实体三元组(ei,ri,ej);
S402、补全桥梁管养知识图谱:采用余弦相似度,将全部的实体进行对齐消融,如下式:
其中,ei和ek分别是(ei,ri,ei+1)和(ek,rk,ek+1)的两个不同三元组中的实体;
S403、根据实体ei和ek间的余弦值cos(θ),并结合预设值,对ei,ek实体进行消融对齐成为一个实体ei,使两个三元组(ei,ri,ei+1)和(ek,rk,ek+1)融合形成新的图谱结构(ei+1,ri,ei,rk,ek+1),进行迭代循环,将全部三元组进行对齐融合,构建统一完整的桥梁管养图谱;
S404、桥梁管养知识图谱可视化:使用全部实体-关系-实体三元组,利用Neo4j图数据库进行桥梁管养知识图谱可视化。
9.根据权利要求6所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S301中,所述ri为管养领域实体关系,i={1,2,…,m},m=6;具体实体关系定义为:r1-构件所在位置、r2-构件产生的病害、r3-病害所在位置、r4-病害性状类别、r5-病害性状数值、r6-病害建议措施。
10.根据权利要求4所述的基于深度学习的桥梁管养知识图谱自动构建方法,其特征在于,步骤S102中:所述Ei为定义实体,i={1,2,…,n},n=8,具体实体目录定义为:E1-桥梁构件、E2-桥梁构件部位、E3-病害类别、E4-病害位置、E5-病害数量、E6-病害性状类别、E7-病害性状数值、E8-维护措施。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461241.5A CN116450852A (zh) | 2023-04-26 | 2023-04-26 | 基于深度学习的桥梁管养知识图谱自动构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310461241.5A CN116450852A (zh) | 2023-04-26 | 2023-04-26 | 基于深度学习的桥梁管养知识图谱自动构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116450852A true CN116450852A (zh) | 2023-07-18 |
Family
ID=87130070
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310461241.5A Pending CN116450852A (zh) | 2023-04-26 | 2023-04-26 | 基于深度学习的桥梁管养知识图谱自动构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116450852A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116956929A (zh) * | 2023-09-20 | 2023-10-27 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
CN118094698A (zh) * | 2024-01-22 | 2024-05-28 | 天津大学 | 一种基于知识图谱的桥梁低碳施工方案推荐方法 |
-
2023
- 2023-04-26 CN CN202310461241.5A patent/CN116450852A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116956929A (zh) * | 2023-09-20 | 2023-10-27 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
CN116956929B (zh) * | 2023-09-20 | 2023-12-15 | 交通运输部公路科学研究所 | 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置 |
CN118094698A (zh) * | 2024-01-22 | 2024-05-28 | 天津大学 | 一种基于知识图谱的桥梁低碳施工方案推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021212749A1 (zh) | 命名实体标注方法、装置、计算机设备和存储介质 | |
CN116450852A (zh) | 基于深度学习的桥梁管养知识图谱自动构建方法 | |
CN111339281A (zh) | 一种多视角融合的阅读理解选择题的答案选择方法 | |
CN112329767A (zh) | 基于联合预训练的合同文本图像关键信息提取系统和方法 | |
CN114943230A (zh) | 一种融合常识知识的中文特定领域实体链接方法 | |
CN116245107B (zh) | 电力审计文本实体识别方法、装置、设备及存储介质 | |
CN115688752A (zh) | 一种基于多语义特征的知识抽取方法 | |
CN113051922A (zh) | 一种基于深度学习的三元组抽取方法及系统 | |
CN115879473A (zh) | 基于改进图注意力网络的中文医疗命名实体识别方法 | |
CN114443813A (zh) | 一种智能化的在线教学资源知识点概念实体链接方法 | |
CN114757183B (zh) | 一种基于对比对齐网络的跨领域情感分类方法 | |
CN116843175A (zh) | 一种合同条款风险检查方法、系统、设备和存储介质 | |
CN116821351A (zh) | 一种基于跨度信息的端到端电力知识图谱关系抽取方法 | |
CN117370578A (zh) | 一种基于多模态信息进行食品安全知识图谱补全的方法 | |
CN115936001A (zh) | 基于BERT-BiLSTM-CRF模型和注意力的电网IT运维实体识别方法及系统 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN113064967A (zh) | 基于深度迁移网络的投诉举报可信度分析方法 | |
CN116701665A (zh) | 基于深度学习的中医古籍知识图谱构建方法 | |
CN115860002B (zh) | 一种基于事件抽取的作战任务生成方法及系统 | |
CN116362247A (zh) | 一种基于mrc框架的实体抽取方法 | |
CN116822513A (zh) | 一种融合实体类型与关键词特征的命名实体识别方法 | |
CN116090460A (zh) | 基于多头三仿射注意力机制的嵌套命名实体识别方法 | |
CN113191155A (zh) | 基于门控深度记忆网络的电厂运行日志情感分析处理方法 | |
CN115905458A (zh) | 一种基于机器阅读理解模型的事件抽取方法 | |
CN117332785B (zh) | 一种从网络安全威胁情报联合抽取实体与关系的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |