CN113392986B - 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 - Google Patents

一种基于大数据的公路桥梁信息抽取方法及管理养护系统 Download PDF

Info

Publication number
CN113392986B
CN113392986B CN202110139183.5A CN202110139183A CN113392986B CN 113392986 B CN113392986 B CN 113392986B CN 202110139183 A CN202110139183 A CN 202110139183A CN 113392986 B CN113392986 B CN 113392986B
Authority
CN
China
Prior art keywords
bridge
layer
embedding
word
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110139183.5A
Other languages
English (en)
Other versions
CN113392986A (zh
Inventor
杨建喜
杨小霞
向芳悦
李韧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing Jiaotong University
Original Assignee
Chongqing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing Jiaotong University filed Critical Chongqing Jiaotong University
Priority to CN202110139183.5A priority Critical patent/CN113392986B/zh
Publication of CN113392986A publication Critical patent/CN113392986A/zh
Application granted granted Critical
Publication of CN113392986B publication Critical patent/CN113392986B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/08Construction
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于大数据的公路桥梁信息抽取方法,采用字、词嵌入方式作为桥梁文本信息的向量输入,并且,考虑桥梁文本存在时序关联性采用双向长短期记忆网络提取桥梁文本的时序特征;考虑到字、词所处文本位置的不同与词性也有一定的关系,本发明额外对位置嵌入进行了特征提取,并选择了提取空间特性效果更好的卷积神经网络提取空间特征;还采用Attention层对时序特征及空间特征进行权重分配及特征融合得到融合特征;从而达到更好的特征提取效果。本发明还公开了一种基于大数据的公路桥梁信息管理养护系统,提出了以领域知识图谱为核心的大数据知识工程层次化模型,为计算机科学、桥梁工程等学科交叉研究提供了新的场景。

Description

一种基于大数据的公路桥梁信息抽取方法及管理养护系统
技术领域
本发明涉及公路桥梁管理养护技术领域,具体涉及一种基于大数据的公路桥梁信息抽取方法及管理养护系统。
背景技术
充分结合大数据和人工智能等新兴智能技术,实现公路桥梁管理养护业务体系中多源、自治的海量异构数据融合,全面提升管理养护智慧化水平,已成为桥梁工程领域的迫切需求和发展趋势,其中,信息抽取是公路桥梁养护方法中的重要部分。
早期的信息抽取方法一般是基于字典和规则的方法。但该方法需要搜集大量特定专业名词,术语,并对文本结构特性、语义特性进行分析,并在领域专家的帮助下人工制定规则模板,构建专业词典,其信息抽取性能取决于词典的完备性、规则定义的准确性。但命名实体种类繁多,固定规则无法适应动态变化的语境,现有通用领域词典和规则中未包含桥梁相关内容,桥梁领域仍旧缺乏专业的领域词典,桥梁文本中的潜在语义规则也并未得到充分挖掘和利用。
随着人工智能的发展与进步,出现了一系列基于统计机器学习的方法,该类方法的本质是将信息抽取看作一个序列标注问题。通常也会借助词典和规则去构建大规模标注语料库,计算机根据语料库中词汇的对应标签,训练和学习数据特征,对数据进行分析和处理。但目前桥梁领域没有可用于训练的大规模标注语料库,而通用分词工具由于其词嵌入或字嵌入向量中,缺少桥梁领域词汇,因此并不能区分“空心板梁”、“伸缩缝”、“渗水泛碱”等具有明显桥梁领域特性的专业词汇,同样,通用词性标注工具不能给出“桥梁”、“桥梁结构”、“结构元素”、“检测病害”、“技术状况”等专有词性。
随着深度神经网络的不断发展,信息抽取技术开始与深度学习相结合,国内外研究人员相继提出了Character-LSTM、CNN-BiLSTM、Lattice-BiLSTM、CNN-BiGRU、BERT-BLSTM等混合模型,然而,深度神经网络模型需要海量数据作为训练样本支撑,对特定领域的语料搜集是极大挑战,对桥梁管养领域而言,在深度学习模型基础上,需要针对特定任务进行模型调优。上述混合神经网络模型大多针对英文信息抽取任务,但由于中文的词汇边界模糊,加大了分词的难度,中文还存在一词多义、词语嵌套等情况,因此,文本信息抽取任务在具有领域特性的中文语境下更加复杂。
发明内容
针对上述现有技术的不足,本发明实际需要解决的问题是:如何有效地对桥梁文本进行信息抽取。
为了解决上述技术问题,本发明采用了如下的技术方案:
一种基于大数据的公路桥梁信息抽取方法,包括:
S1、获取目标桥梁文本,将所述目标桥梁文本输入信息抽取模型,所述信息抽取模型包括Lattice BiLSTM层、Position CNN层、Attention层,还包括字符序列标注层或关系预测层;
S2、Lattice BiLSTM层基于所述目标桥梁文本生成对应的字嵌入及词嵌入,再基于字嵌入及词嵌入提取所述目标桥梁文本的时序特征;
S3、Position CNN层基于所述目标桥梁文本生成对应的字位置嵌入、词位置嵌入及词性嵌入,再基于字位置嵌入、词位置嵌入及词性嵌入提取所述目标桥梁文本的空间特征;
S4、Attention层对时序特征及空间特征进行权重分配及特征融合得到融合特征;
S5、字符序列标注层或关系预测层对融合特征进行字符序列标注或关系预测。
优选地,Lattice BiLSTM层及Position CNN层采用双向并联的方式相连。
优选地,字符序列标注层采用条件随机场进行字符序列标注。
优选地,关系预测层采用Softmax函数作为分类器。
一种基于大数据的公路桥梁信息管理养护系统,包括数据源层、存储计算层、知识表示层、知识计算层及知识服务层,其中,存储计算层包括信息抽取单元,所述信息抽取单元用于实现如上述的基于大数据的公路桥梁信息抽取方法。
综上所述,本发明与现有技术相比,具有以下技术效果:
(1)本发明采用字、词嵌入方式作为桥梁文本信息的向量输入,并且,考虑桥梁文本存在时序关联性,前面的字或词可能会对后面词语的特征提取产生影响,采用了双向长短期记忆网络提取桥梁文本的时序特征,从而达到更好的特征提取效果。
(2)考虑到字、词所处文本位置的不同与词性也有一定的关系,本发明额外对位置嵌入进行了特征提取,以字位置嵌入、词位置嵌入和词性嵌入作为输入,并选择了提取空间特性效果更好的卷积神经网络提取空间特征,从而达到更好的特征提取效果。
(3)在特征嵌入与神经网络模型的组合形式上,并没有采用简单拼接和串联模式,采用了双向并联的方式将Lattice BiLSTM层及Position CNN层进行组合。这样的组合方式使得桥梁文本的时序特性和空间特征都分别以相对高效的神经网络进行特征提取,并且能合理地为其分配GPU,节省功耗和训练时间。
(4)本发明中还采用Attention层对时序特征及空间特征进行权重分配及特征融合得到融合特征,由于每类特征对于信息抽取结果的影响程度不总是一成不变的,而是随着抽取信息的不同而动态变化。因此,一般的权重分配方法,如平均分配,加权分配等不适应于信息抽取的特征融合。Attention机制通过分析和学习每类特征对于信息抽取的“贡献”,给出一个概率分布值,并进行动态调节,确保更精确地为每类特征分配权重,更高效地进行特征融合,从而提高信息抽取的准确率。
(5)本发明还公开了一种基于大数据的公路桥梁信息管理养护系统,提出了以领域知识图谱为核心的大数据知识工程层次化模型,为计算机科学、桥梁工程等学科交叉研究提供了新的场景。
附图说明
为了使发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1本发明公开的一种基于大数据的公路桥梁信息抽取方法的一种实施方式中的信息抽取模型原理示意图;
图2本发明公开的一种基于大数据的公路桥梁信息抽取方法的另一种实施方式中的信息抽取模型原理示意图;
图3为本发明公开的一种基于大数据的公路桥梁信息管理养护系统的结构示意图;
图4为桥梁管养领域本体语义模型示意图;
图5为桥梁结构信息本体示意图;
图6为桥梁检测病害本体示意图
图7为技术状况本体示意图。
具体实施方式
下面结合附图对本发明作进一步的详细说明。
如图1及图2所示,本发明公开了一种基于大数据的公路桥梁信息抽取方法,包括:
S1、获取目标桥梁文本,将所述目标桥梁文本输入信息抽取模型,所述信息抽取模型包括Lattice BiLSTM层、Position CNN层、Attention层,还包括字符序列标注层或关系预测层;
S2、Lattice BiLSTM层基于所述目标桥梁文本生成对应的字嵌入及词嵌入,再基于字嵌入及词嵌入提取所述目标桥梁文本的时序特征;
桥梁管养领域文本中的专业词汇,例如:“空心板梁”、“小箱梁”、“盖梁”等,同一个“梁”字会在不同实体中出现,即每一个桥梁实体在字粒度和词粒度都存在相应的特征,因此采用了基于Lattice(网格化)的文本字、词嵌入方式作为桥梁文本信息的向量输入,并加入了桥梁管养领域的专业词典,可采用了半自动的数据提取方式进行构建,先从1500份桥检报告中人工筛选出包含专业术语的段落,然后利用正则表达式对桥梁专业术语字符串进行自动化提取,构建好的领域词典中包含了425个专业词汇,涉及桥梁词汇、桥梁结构词汇、检测病害词汇,技术状况词汇等,从而帮助更好的进行分词和词嵌入。即给定一个长度为n的桥梁文本X={x1,x2,...,xn},对应的字嵌入为C={c1,c2,...,cn},词嵌入以位置信息作为开始和结束的标志,即每个词表示形式为桥梁文本存在时序关联性,前面的字或词可能会对后面词语的特征提取产生影响,例如,一段桥梁检测文本描述“A桥1#支座存在剪切变形,该桥空心板梁存在纵向裂缝”,此处“该桥”指代前面的“A桥”,不同字、词间存在前后关联,因此本发明采用了双向长短期记忆网络(Bidirectional Long Short-Term Memory,BiLSTM)提取桥梁文本的时序特征。以文本的嵌入式表示作为 BiLSTM的输入,网络在t时刻的状态与t-1时刻和t+1时刻都相关,即
S3、Position CNN层基于所述目标桥梁文本生成对应的字位置嵌入、词位置嵌入及词性嵌入,再基于字位置嵌入、词位置嵌入及词性嵌入提取所述目标桥梁文本的空间特征;
仅仅是基于字、词嵌入和添加外部词典,还是不能很好地对桥梁文本进行特征提取,因为忽略了文本的位置特征,词性特征。例如,桥梁管养领域专业词汇“主桥”、“引桥”、“桥台”、“桥面系”中,“桥”字存在于不同的桥梁实体中,并且在不同词汇中的位置也不相同,可能位于词首,也可能位于词尾。当“桥”字位于词尾时,多数情况下是代表“桥梁实体”,当“桥”字位于词首时,一般代表“桥梁结构实体”,因此字、词所处文本位置的不同与词性也有一定的关系。在Lattice嵌入的基础之上,我们额外对位置嵌入进行了特征提取,以字位置嵌入、词位置嵌入和词性嵌入作为输入,即其中,表示字位置嵌入,表示词位置嵌入,表示词性嵌入。对于位置这类空间特征的提取,并没有直接采用BiLSTM长短期记忆网络,而是选择了提取空间特性效果更好的卷积神经网络(Convolutional Neural Network,CNN),输出为:
S4、Attention层对时序特征及空间特征进行权重分配及特征融合得到融合特征;
本发明采用注意力机制(Attention Mechanism)对并联的双向神经网络提取到的特征分配权重,进行特征融合。在BiLSTM模块加入了时序注意力机制,即:在CNN 模块中根据位置和词性嵌入生成注意力权重,即:最后将BiLSTM和CNN各自Attention处理后的结果再进行加权作为最终输出,即:
S5、字符序列标注层或关系预测层对融合特征进行字符序列标注或关系预测。
具体实施时,Lattice BiLSTM层及Position CNN层采用双向并联的方式相连。
在特征嵌入与神经网络模型的组合形式上,并没有采用简单拼接和串联模式,而是受到孪生神经网络(Siamese Network)的启发,采用了双向并联的方式将BiLSTM和CNN进行组合。这样的组合方式使得桥梁文本的时序特性和空间特征都分别以相对高效的神经网络进行特征提取,并且能合理地为其分配GPU,节省功耗和训练时间。
具体实施时,字符序列标注层采用条件随机场进行字符序列标注。
字符序列标注层(命名实体识别的输出层)优选采用条件随机场(ConditionalRandom Field,CRF)进行序列标注,CRF模型简单易性,可以获得较好的效果,是命名实体识别任务中最常用的序列标注模型,也可采用隐马尔可夫(Hidden Markov Model,HMM)模型,但HMM模型只依赖于每一个状态和它对应的观察对象,序列标注问题不仅和单个词相关,而且和观察序列的长度,单词的上下文等相关,HMM学到的是状态和观察序列的联合分布 P(Y,X),而预测问题中,我们需要的是条件概率P(Y|X),CRF相比较HMM可以更好更多的利用待识别文本中所提供的上下文信息以得到更好的实验结果。
具体实施时,关系预测层采用Softmax函数作为分类器。
关系预测层采用了Softmax对关系进行分类,Softmax多与神经网络结合,特征提取后经 softmax进一步对语义特征分配权重,最终输出预测的关系。也可采用支持向量机(Support Vector Machine,SVM)作为分类器,Softmax使用的是交叉熵损失,而SVM得到的是得分值,并不是确定的概率值。
本发明还公开了一种基于大数据的公路桥梁信息管理养护系统,包括数据源层、存储计算层、知识表示层、知识计算层及知识服务层,其中,存储计算层包括信息抽取单元,所述信息抽取单元用于实现如上述的基于大数据的公路桥梁信息抽取方法。
随着物联网、移动互联网和云计算等技术的快速发展,以及人工智能理论方法研究和行业应用的不断深入,人类社会正全面进入大数据智能化时代。如何以海量多源异构数据为基础,结合众多行业领域发展迫切需求,构建适应于“数据、信息、知识、智慧”层次体系的个性化、科学化、智能化服务,已成为当前国内外学术界和产业界研究的热点。在大数据时代背景和智能化发展趋势下,结合了传统知识工程思想方法,并以碎片化知识建模、融合和服务等为核心的大数据知识工程新范式应运而生,并得到了国内外学术界和产业界的广泛关注。
公路桥梁作为交通大动脉的重要组成部分,在国家经济建设与社会发展中具有重要地位。然而,由于在长期运营过程中受到交通荷载、环境激励、突发事件及自身材料性能退化等各种内外因素共同影响,其结构部件难免发生各种疲劳损伤。因此,在合理的人力与经费投入条件下,对桥梁运营期的结构健康状况进行全面监控,及时发现重要结构病害,实施有效的管理养护,确保其结构可靠性和服役安全性,一直是桥梁工程领域关注的重点。
目前,公路桥梁管理养护领域已形成了由经常性检查、定期或特殊检测、荷载试验、维修加固及结构健康监测等组成的业务体系,积累了海量的管理养护数据,并呈现出显著的多源异构、高速增长、价值密度低、数据自治等“大数据”特性。然而,由于各种因素限制,当前绝大多数的桥梁管理养护、健康监测等信息化系统均独立部署运行,各类型数据“孤岛化”现象严重。在开展桥梁结构状态评定或管养决策时仍主要依赖人工查阅相关检测报告,海量的细粒度结构病害信息仍散落在非结构化电子文本中有待识别、抽取和分析利用。传统基于有限元模型或监测数据驱动的结构损伤识别与状态分析方法,由于仅面向单座桥梁,并且存在真实桥梁物理模型离散化模拟限制、传感器耐久性不足、感知数据稀疏且正负样本严重不均衡等问题,在实际工程应用过程中与桥梁业主预期的智能化结构状态分析仍然存在较大差距,也很难实现相似结构类型和相似运营环境下多座桥梁结构状态演化趋势相关性分析、综合评价及损伤安全预后。大量的桥梁管理养护领域知识建模与共享不充分,智能化管养辅助决策支持问题仍亟待解决。另一方面,建筑信息模型(BIM)作为一种全寿命期工程项目或其组成部分物理特征、功能特性及管理要素的共享数字化表达,在桥梁工程领域得到了广泛关注及一定研究应用。然而,由于其缺乏领域语义支持,现阶段桥梁BIM模型更侧重于结构的三维可视化建模,在全寿命信息共享、跨模态知识表征、知识推理等方面亟待扩展和进一步研究。
具体到桥梁工程领域,基于物联网、云计算、大数据和人工智能等关键技术,实现公路桥梁管理养护业务体系中监测感知、检测病害等全要素信息融合,促进管养智慧化转型升级,实现“感知”到“认知”再到“智能”的递进式跨越发展与变革,已成为桥梁工程领域当前的迫切需求和发展趋势。目前,大数据智能化赋能桥梁管理养护得到了桥梁工程学术界和产业界的广泛关注,组织了多次学术会议或专题讨论。例如,在2019年世界交通运输大会组织了“大数据+智能养护条件下道路桥梁监测与检测”主题论坛,但在面向该问题域的理论方法体系、研究框架模型等方面仍值得进一步深入探讨。
因此,如图3所示,本发明公开了上述的基于大数据的公路桥梁信息管理养护系统。提出了大数据知识工程驱动的公路桥梁智能化管理养护研究总体构想、目标和主要任务,为计算机科学、桥梁工程等学科交叉研究提供了新的场景;面向公路桥梁智能化管理养护特定场景,提出了以领域知识图谱为核心的大数据知识工程层次化模型,结合知识图谱构建与服务理论方法研究现状,分析了各个层级涉及的主要研究内容和思路;结合已开展的部分基础性工作,探讨了该问题域未来研究的主要挑战,并以此为后续研究起到一定的推动和参考作用。
下面分别对数据源层、存储计算层、知识表示层、知识计算层及知识服务层进行介绍:
数据源层
数据源层主要用于明确整个模型的输入数据。鉴于公路桥梁结构状态与其所在路网或服役城市的整体交通出行、气候环境特征等密切相关。但随着以智能检测设备、智能移动终端、 5G通信网络、移动互联网等各类信息化基础设施不断建设,在大数据智能化时代背景下,各类型新兴感知数据势必会对长期以来较为封闭的桥梁管理养护带来新的变革。例如,随着“智慧交通”和“智慧城市”的不断发展,各种类型的交通出行数据、气候环境感知信息等不断涌现,也为公路桥梁智能管养领域知识图谱提供了以更为开放共享的系统观,可在更高维度辨识桥梁结构状态演化机理。因此,在如图3所示的体系结构数据源层中,除了现有的经常性检查、定期检测、健康监测和管理养护系统涉及的数据以外,未来将囊括更丰富的互联网媒介、智能感知等新兴数据载体.
存储计算层
该模型体系的存储计算层主要面向多源异构数据在线交互与学习、信息抽取与融合、数据安全与隐私保护等具体任务,并提供高性能、可伸缩的计算存储平台支撑。公路桥梁管理养护领域具有开放性、大规模性、动静态信息不均衡性和演化性等特点。例如,类似于服务路线、跨径组合、材料类型等桥梁工程概况,以及结构构件及其空间关系等属于静态信息。而通过检测、监测等技术手段观测到的结构病害或结构响应则是在不同时间维度下的动态信息,但检测病害等更新信息频率相对较低。对上层的分析和服务应用而言,对不同类型信息的访问频率、知识表示方法和应用需求也有较大差异。目前,大规模领域知识图谱的数据存储管理主要借助标签图或属性图为数据结构,并以Neo4J、OrientDB以及AzureCosmos DB 等分布式图数据库系统作为持久化存储环境,但基于单一图数据结构的分布式存储方案在该领域不再适用,融合键值存储、图数据存储等的多数据模型混合组织方式应当是可行的解决方案。
另一方面,以经常性检查记录、定期和特殊检测报告等为代表的非结构化或半结构化数据是该领域业务体系中的重要数据源,其中包含了大量的碎片化知识。以自动化或半自动化方式从文本中有效识别和抽取出结构病害、养护处置建议等实体、属性及关系信息是又一关键任务。与通用领域文本中针对人名、地名和机构名等命名实体识别或电子病历实体及关系抽取不同,本文定义实体抽取任务为从以定期或特殊检测报告为主的电子文本中识别桥梁名称、结构构件、检测病害、检测内容与工具等不同粒度领域信息的实体边界与类型。其中,定检文本的“检测结果”部分是信息抽取的重点内容。例如,在外观检查结果部分,通常首先针对不同结构部件进行各类型主要病害检查结果描述。比如某检测文本描述:“使用裂缝测宽仪对主梁左腹板进行检测,发现部分横向裂缝存在宽度超限现象”,其中“裂缝测宽仪”为检测工具实体,“主梁左腹板”为构件元素实体,“横向裂缝”为病害名实体,“宽度超限”为病害表征实体。与此同时,检测文本中包含了大量半结构化表格,记录了检测病害的观测位置、病害类型和病害描述短文本,可对其进行关系或属性抽取。比如,某混凝土梁式桥检测文本表格中针对于某一跨的裂缝检测有描述:“底板及腹板共发现7条纵向裂缝,其中2条裂缝伴有渗水泛碱,裂缝多分布在距梁端5m-25m范围内,基本沿预应力钢束布束方向对应发生,裂缝总长度为61.7m,裂缝宽介于0.08mm-0.16mm之间,未超规范限值0.20mm”。因此,在进行信息抽取时,某跨与裂缝的空间位置关系、裂缝总长度及缝宽等属性均为待识别目标。除此以外,针对于识别出的实体、关系及其属性指称项,在实体消歧、共指消解等基础上,需要将其链接到领域知识图谱中对应实体对象,实现该领域知识图谱实例数据填充和融合。
目前,基于机器学习或深度学习等算法的文本信息抽取是业界研究的主要方向,因此,本发明采用上述的基于大数据的公路桥梁信息抽取方法进行信息抽取。
除了文本信息以外,在检测报告、智能巡检终端、桥梁视频监控等数据源中还存在大量的结构病害图像或运营状况视频信息。充分利用以卷积神经网络和循环神经网络等为代表的深度神经网络在特征提取与特征融合方面的优势,并融入领域语义知识,对桥梁表观病害及其属性、交通通行与荷载等进行准确高效识别,并作为信息源融入后续知识图谱中,也是该模型中的重要研究内容之一。
数据安全与隐私保护主要涉及桥梁管理养护数据及知识共享服务的访问控制,相关桥梁、个人、机构等隐私信息的匿名处理,数据集成和融合过程中的可靠性和可信度评估等。实时健康监测数据的在线学习以区域化、路网化的多源自治监测数据作为数据源,通过在线的数据抽取与模式转换等进行监测感知数据的预处理,而基于单桥多模态监测数据融合的无监督在线结构异常检测、基于多桥监测数据融合在线迁移学习的结构状态相似性分析与预测等均是具有挑战性的研究内容,其分析预测结果也将作为提取的隐含知识融入后续知识表示模型,并为后续知识计算层的决策支持提供依据。
知识表示层
知识表示层是整个模型体系的知识载体,代表了桥梁智能管理养护领域知识图谱的统一语义表示,包含了本体语义模式和实例数据两个逻辑层级。其中,本体作为一种共享概念模型的形式化规范说明,已在相关的交通领域、地理信息领域等得到了一定的应用,但在公路桥梁管理养护领域的研究应用较少。因此,在领域专家参与或者众包模式下,对该领域蕴含的大量领域概念、关系及其约束条件进行形式化建模是一项基础性研究工作。由于整个领域业务体系可视为是围绕桥梁结构及其构件开展的不同维度观测和管理养护任务,因此,可包含管养业务本体、桥梁结构本体、检测病害本体、结构监测本体、BIM语义本体,以及外部知识概念及关系的增量式扩展,如图4所示。其中,基于中文的桥梁结构本体、检测病害本体、技术状况本体分别如图5、图6、图7所示。该领域本体的构建基于BIM语义扩展,以梁式桥、斜拉桥、悬索桥等不同桥梁结构形式、材料属性、构件物理组成或位置关联等语义概念和关系为核心,以结构监测、检测病害、管养任务等不同主题为扩充的多层次、多维度领域知识表示过程。具体而言,以混凝土连续刚构桥为例,由于其主要承重构件多采用固结施工浇筑,结构单元边界模糊,其构件划分辨识机理具有多层级性和粒度不确定性.与此同时,健康监测传感器部署与感知数据获取、检测病害观测结果描述具有显著时空关联性。因此,对其进行形式化建模应是充分融合时空信息、模糊语义,并建立在开放世界假说基础上的增量过程。同时,本体中定义的约束关系也是进行数据验证的语义基础。例如,可在结构监测本体中限定某类型监测传感器采样频率及感知数据的取值范围,进而采用逻辑推理方式对实际感知数据的可满足性和一致性进行验证,实现监测数据异常的自动判定。另外,可通过在管养业务本体中对技术状况评定标准进行模糊语义建模,在设定模糊隶属度的基础上实现结构构件标度评分自动化计算。实例数据层由海量的三元组陈述构成,是存储计算层中信息抽取与融合、关系数据语义映射的产物,是以桥梁几何材料属性和结构构件关系为核心,以监测感知、结构病害、管养业务等实体关系信息为多维度衍生的大规模、动态演化知识网络。
另一方面,该领域本体的构建过程中还应充分考虑如何有效利用和融合已有通用本体。例如,世界万维网联盟(W3C)提出了语义传感器网络本体(SSN),构建了传感设备、系统部署平台、数据采样过程与属性、触发事件与响应等多维度关联的轻量级语义模式,并发布为国际推荐标准。SSN本体可为桥梁健康监测系统及其感知数据语义建模提供较好支撑。针对知识表达不确定性问题,通过引入模糊集、粗糙集或模糊动态逻辑等理论,对OWL等确定性本体标准进行了模糊语义扩展,可为具有不确定、模糊性的桥梁管理养护领域知识语义建模提供支持。语义模式和实例数据可以通过表示学习方式得到领域知识嵌入,辅助检测文本信息抽取与病害图像识别等。
知识计算层
知识计算层以桥梁管理养护全要素信息融合的领域知识图谱为基础,涉及桥梁管理养护多种应用场景的知识更新、知识推理、知识表示学习、知识检索与问答、服务发现与组合等主要研究内容。
面向知识图谱的知识表示学习近年来得到了广泛关注。利用知识表示学习理论方法,将管养全要素信息中不同桥梁的结构状态相关三元组集合学习映射为同一特征空间内的稠密向量,通过计算不同时间或空间维度的桥梁结构状态向量语义相似度,将有助于分析相似运营环境或者相同结构类型的多座桥梁结构状态相关性和演化趋势。
基于本体或知识图谱的知识推理多年来一直是人工智能等领域的重要研究方向之一,涌现了大量的研究成果,按推理方法划分包括了基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理。在推理任务方面,除了与通用领域类似的基于本体约束语义的知识图谱补全和去噪等任务以外,对桥梁管理养护领域用户而言,更关注于从融合的全要素信息和已有领域知识中发现桥梁在长期服役条件下的结构状态演化趋势,以及突发事件下的桥梁结构可靠性,并通过对经费预算、人力投入、管养措施等多种业务因素进行联合知识推理,提升预养护决策、事后处置决策等的科学性和可解释性.因此,在高效的大规模知识图谱动态更新策略基础上,结合该领域特性的知识推理方法研究是该模型知识计算层的重要工作。
知识检索与问答是知识图谱应用的又一重要方向。在桥梁管理养护领域中,不同角色类型用户具有不同抽象粒度信息获取的实际需求。例如,对于桥梁养护工程师而言,其主要关注的是所管辖桥梁在不同时间维度的结构状态信息和管理养护任务;对桥梁健康监测数据分析师而言,其重点关心的是不同时间和空间维度的监测感知原生数据、传感器异常等信息;对桥梁管理者而言,其管辖区域内桥梁技术状况等级的变化趋势、经费投入和实际使用情况等监管信息是主要关注内容。因此,在现有知识问答研究方法基础上,面向领域内不同用户实际需求特性,开展有针对性的领域知识检索与问答研究是值得重点关注的又一研究内容。以知识表示层语义模式为基础的服务发现与组合研究是领域业务协同和知识共享目标的重要内容。
知识服务层
知识服务层是模型体系中面向领域用户或外部系统的功能逻辑封装,可以以软件及服务 (SaaS)和Web服务等方式对外提供领域数据、信息和知识共享服务。面向领域用户的实际需求并依据底层主要研究内容,本发明还提出以管养智能决策支持为核心的服务内容。随着整个方向研究的不断深入,该层级还将是以增量的方式不断扩展。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。

Claims (4)

1.一种基于大数据的公路桥梁信息抽取方法,其特征在于,包括:
S1、获取目标桥梁文本,将所述目标桥梁文本输入信息抽取模型,所述信息抽取模型包括Lattice BiLSTM层、Position CNN层、Attention层,还包括字符序列标注层或关系预测层;Lattice BiLSTM层及Position CNN层采用双向并联的方式相连;
S2、Lattice BiLSTM层基于所述目标桥梁文本生成对应的字嵌入及词嵌入,再基于字嵌入及词嵌入提取所述目标桥梁文本的时序特征;其中,给定一个长度为n的桥梁文本X={x1,x2,...,xn},对应的字嵌入为C={c1,c2,...,cn},词嵌入以位置信息作为开始和结束的标志,即每个词表示形式为
Figure FDA0003785015290000011
以文本的嵌入式表示
Figure FDA0003785015290000012
作为BiLSTM的输入,网络在t时刻的状态与t-1时刻和t+1时刻都相关;
S3、Position CNN层基于所述目标桥梁文本生成对应的字位置嵌入、词位置嵌入及词性嵌入,再基于字位置嵌入、词位置嵌入及词性嵌入提取所述目标桥梁文本的空间特征;以字位置嵌入、词位置嵌入和词性嵌入作为输入,即
Figure FDA0003785015290000013
其中,
Figure FDA0003785015290000014
表示字位置嵌入,
Figure FDA0003785015290000015
表示词位置嵌入,
Figure FDA0003785015290000016
表示词性嵌入,输出为:
Figure FDA0003785015290000017
S4、Attention层对时序特征及空间特征进行权重分配及特征融合得到融合特征;其中,将BiLSTM和CNN各自Attention处理后的结果再进行加权作为最终输出,即:
Figure FDA0003785015290000018
S5、字符序列标注层或关系预测层对融合特征进行字符序列标注或关系预测。
2.如权利要求1所述的基于大数据的公路桥梁信息抽取方法,其特征在于,字符序列标注层采用条件随机场进行字符序列标注。
3.如权利要求1所述的基于大数据的公路桥梁信息抽取方法,其特征在于,关系预测层采用Softmax函数作为分类器。
4.一种基于大数据的公路桥梁信息管理养护系统,其特征在于,包括数据源层、存储计算层、知识表示层、知识计算层及知识服务层,其中,存储计算层包括信息抽取单元,所述信息抽取单元用于实现如权利要求1至3任一项所述的基于大数据的公路桥梁信息抽取方法。
CN202110139183.5A 2021-02-01 2021-02-01 一种基于大数据的公路桥梁信息抽取方法及管理养护系统 Active CN113392986B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110139183.5A CN113392986B (zh) 2021-02-01 2021-02-01 一种基于大数据的公路桥梁信息抽取方法及管理养护系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110139183.5A CN113392986B (zh) 2021-02-01 2021-02-01 一种基于大数据的公路桥梁信息抽取方法及管理养护系统

Publications (2)

Publication Number Publication Date
CN113392986A CN113392986A (zh) 2021-09-14
CN113392986B true CN113392986B (zh) 2023-04-07

Family

ID=77616871

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110139183.5A Active CN113392986B (zh) 2021-02-01 2021-02-01 一种基于大数据的公路桥梁信息抽取方法及管理养护系统

Country Status (1)

Country Link
CN (1) CN113392986B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114036258B (zh) * 2021-10-19 2022-06-24 东南大学 一种基于自然语言处理的桥梁技术状况等级快速识别方法
CN114580239B (zh) * 2022-03-07 2022-09-27 合肥工业大学 一种考虑不确定性的桥梁损伤识别方法
CN115081437B (zh) * 2022-07-20 2022-12-09 中国电子科技集团公司第三十研究所 基于语言学特征对比学习的机器生成文本检测方法及系统
CN115168978B (zh) * 2022-09-05 2022-12-23 中铁第五勘察设计院集团有限公司 一种桥梁建筑信息模型数据搭建方法
CN115544264B (zh) * 2022-09-09 2023-07-25 西南交通大学 知识驱动的桥梁建造数字孪生场景智能构建方法及系统
US11709979B1 (en) 2022-10-28 2023-07-25 Hefei University Of Technology Bridge damage identification method considering uncertainty
CN116644157B (zh) * 2023-07-27 2023-10-10 交通运输部公路科学研究所 基于桥梁养护非结构化数据构建Embedding数据的方法
CN117009589B (zh) * 2023-08-03 2024-05-03 上海南洋宏优智能科技有限公司 一种基于多模态智能服务的安全检查管理方法及系统
CN117952018A (zh) * 2024-03-21 2024-04-30 贵州交通建设集团有限公司 一种基于bim的桥梁长期性能数据处理方法及数据处理平台

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10819724B2 (en) * 2017-04-03 2020-10-27 Royal Bank Of Canada Systems and methods for cyberbot network detection
CN108334499B (zh) * 2018-02-08 2022-03-18 海南云江科技有限公司 一种文本标签标注设备、方法和计算设备
CN110633855B (zh) * 2019-09-17 2022-12-13 江南大学 一种桥梁健康状态检测与管养决策系统及方法
CN111310458B (zh) * 2020-03-20 2023-04-07 广东工业大学 一种基于多特征融合的主观题自动评分方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019229769A1 (en) * 2018-05-28 2019-12-05 Thottapilly Sanjeev An auto-disambiguation bot engine for dynamic corpus selection per query
CN108829678A (zh) * 2018-06-20 2018-11-16 广东外语外贸大学 一种汉语国际教育领域命名实体识别方法
CN111241295A (zh) * 2020-01-03 2020-06-05 浙江大学 基于语义句法交互网络的知识图谱关系数据抽取方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jingren Zhang 等.Feature Fusion Text Classification Model Combining CNN and BiGRU with Multi-Attention Mechanism.《Future Internet》.2019,第11卷(第11期),第1-24页. *
Shardrom Johnson 等.CWPC_BiAtt:Character–Word–Position Combined BiLSTM-Attention for Chinese Named Entity Recognition.《Information》.2020,第11卷(第1期),第1-19页. *

Also Published As

Publication number Publication date
CN113392986A (zh) 2021-09-14

Similar Documents

Publication Publication Date Title
CN113392986B (zh) 一种基于大数据的公路桥梁信息抽取方法及管理养护系统
Zhong et al. Deep learning-based extraction of construction procedural constraints from construction regulations
CN110555568B (zh) 一种基于社交网络信息的道路交通运行状态实时感知方法
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN113806563B (zh) 面向多源异构建筑人文史料的建筑师知识图谱构建方法
CN114647741A (zh) 工艺自动决策和推理方法、装置、计算机设备及存储介质
Wu et al. Developing a hybrid approach to extract constraints related information for constraint management
CN115017425B (zh) 地点检索方法、装置、电子设备以及存储介质
CN113157931A (zh) 一种融合图谱构建方法及装置
Peng et al. A forecast model of tourism demand driven by social network data
CN114519356A (zh) 目标词语的检测方法、装置、电子设备及存储介质
Liu et al. Application of entity relation extraction method under CRF and syntax analysis tree in the construction of military equipment knowledge graph
CN115114455A (zh) 一种基于本体的多粒度城市暴雨内涝知识图谱构建方法
CN114331122A (zh) 重点人员风险等级评估方法及相关设备
Bangare et al. The architecture, classification, and unsolved research issues of big data extraction as well as decomposing the internet of vehicles (IoV)
Ridenhour et al. Detecting online hate speech: Approaches using weak supervision and network embedding models
Yang et al. BERT and hierarchical cross attention-based question answering over bridge inspection knowledge graph
Bian et al. Research on an Artificial Intelligence‐Based Professional Ability Evaluation System from the Perspective of Industry‐Education Integration
Luo et al. Convolutional Neural Network Algorithm–Based Novel Automatic Text Classification Framework for Construction Accident Reports
Xie et al. The twenty-first century of structural engineering research: A topic modeling approach
Guan et al. Relationship extraction and processing for knowledge graph of welding manufacturing
Li et al. Automated construction of bridge condition inventory using natural language processing and historical inspection reports
Liu et al. Knowledge Graph Construction and Application of Spatial Arrangement of Underground Powerhouse
CN114896353A (zh) 一种地理编码方法、存储介质及系统
CN114694098A (zh) 基于图像识别与知识图谱的电网基建施工风险管控方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant