CN116975256B - 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 - Google Patents

抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 Download PDF

Info

Publication number
CN116975256B
CN116975256B CN202310948791.XA CN202310948791A CN116975256B CN 116975256 B CN116975256 B CN 116975256B CN 202310948791 A CN202310948791 A CN 202310948791A CN 116975256 B CN116975256 B CN 116975256B
Authority
CN
China
Prior art keywords
knowledge
data
graph
entity
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310948791.XA
Other languages
English (en)
Other versions
CN116975256A (zh
Inventor
严立阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Three Gorges University CTGU
Original Assignee
China Three Gorges University CTGU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Three Gorges University CTGU filed Critical China Three Gorges University CTGU
Priority to CN202310948791.XA priority Critical patent/CN116975256B/zh
Publication of CN116975256A publication Critical patent/CN116975256A/zh
Application granted granted Critical
Publication of CN116975256B publication Critical patent/CN116975256B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/251Fusion techniques of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/803Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of input or preprocessed data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/43Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Human Resources & Organizations (AREA)
  • Water Supply & Treatment (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Public Health (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统,涉及数据处理技术领域,包括:采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据并预处理;对原始数据进行知识抽取,得到第一知识图谱,对第一知识图谱进行知识挖掘,得到第二知识图谱;构建图神经网络框架,对第二知识图谱进行图谱融合,得到第三知识图谱;利用集成学习对第三知识图谱进行分析,得到数据分析结果;将原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果存储于数据库,并进行可视化展示。本发明能够对抽水蓄能电站地下厂房施工过程的多源信息快速有效的处理和分析,对地下厂房的数据管理起到了重要的作用。

Description

抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
技术领域
本发明涉及信息处理技术领域,尤其涉及一种抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统。
背景技术
抽水蓄能是目前技术最为成熟的大规模储能方式之一,是新型电力系统的重要组成部分,对实现“双碳”目标具有重要支撑作用。地下厂房是抽蓄电站能量转换的核心构筑物,是抽水蓄能电站工程的心脏和枢纽,也是整个抽蓄工程建设的关键。
国内常规水电工程已经在开展利用信息化系统进行施工过程中的质量、安全、进度、计量、结算等方面的精细化与动态管理的工作,并在实际工程中取得了较好的应用效果。但是在抽水蓄能电站工程中,很多土石坝施工已经建立了基于北斗高精度定位系统及BIM技术的施工过程多源信息综合展示、分析及动态优化调度与管理系统,而地下厂房施工过程中在这方面的利用还较少。
中国申请号为202010919979.8的发明专利公开了一种抽水蓄能电站综合管理方法、平台、系统、设备和介质,其利用BIMGIS模型,对抽水蓄能电站各电厂在施工前后各个阶段的数据进行渲染和三维显示,并对各个建构筑物、机组、设备等电厂对象进行全方位的了解与跟踪查询,同时通过BIMGIS模型来将各电厂对象与教培仿真课件、文档等相关联,打通各个子系统之间的信息孤岛,以三维可视化的方式实现数字化文档管理、教育培训、工程数字化交付、远程运维等工作。但该现有技术没有考虑到地下厂房的数据及特殊性,对于信息孤岛问题,也仅是以三维模拟的方式将各个类型的数据进行关联,并没有做到信息融合,达到真正的打通信息孤岛。
发明内容
有鉴于此,本发明提出了一种抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统,利用知识图谱的优越性能,通过提出的有效图谱挖掘、图谱融合的方式来对多源信息进行处理和融合,并进行图谱可视化和快速查询,一定程度上解决了数据孤岛的问题,对于抽水蓄能电站地下厂房施工过程的多源信息能够快速有效的处理和分析,对地下厂房的数据管理起到了重要的作用。
本发明的技术方案是这样实现的,一方面,本发明提供了一种抽水蓄能电站地下厂房施工过程多源信息的处理方法,包括:
S1采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
S2对结构数据、非结构数据和半结构数据分别进行知识抽取,得到结构数据、非结构数据和半结构数据对应的三元组,其中,知识抽取包括实体抽取、关系抽取和属性抽取,三元组格式为实体-关系-实体或实体-属性-属性值;
S3将结构数据、非结构数据和半结构数据对应的三元组分别链接成图结构,得到三个第一知识图谱,分别为结构数据的知识图谱、非结构数据的知识图谱和半结构数据的知识图谱,对三个第一知识图谱进行知识挖掘,得到对应的三个第二知识图谱;
S4构建图神经网络框架,包括图神经网络模型和图卷积网络模型,利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱;
S5利用集成学习对第三知识图谱进行分析,得到数据分析结果;
S6将原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果分层存储于数据库,并利用可视化工具对第三知识图谱和数据分析结果进行可视化展示。
在以上技术方案的基础上,优选的,步骤S2包括:
S21采用D2R工具将结构数据按照映射规则进行映射,得到结构数据的三元组;
S22将非结构数据按照类型分为文档类和图像类,利用语义识别对文档类的非结构数据进行知识抽取,利用半监督学习算法对图像类的非结构数据进行知识抽取,得到非结构数据的三元组;
S23采用主动学习算法对半结构数据进行知识抽取,得到半结构数据的三元组;
其中,映射规则为:
表的行作为实例或资源;
当单元格所在的列为主键或外键,则其值被标注为实体;
当单元格所在的列是外键,则该列的列名被标注为同一行中主键与外键的关系;
当单元格所在的列不是外键,则该列的列名被标注为同一行中主键的属性,列值被标注为属性值。
在以上技术方案的基础上,优选的,步骤S22包括:
S221对文档类的非结构数据进行分词处理,得到每个词的词向量;
S222构建一个语义模型,语义模型包括双向神经网络、双向编码网络、多层双向编码网络、注意力网络、输出网络;
S223将词向量输入语义模型,利用双向神经网络提取词性特征,利用双向编码网络提取字符特征并对词向量进行编码,将字符特征与编码后的词向量进行拼接,得到初始词向量集合;
S224将初始词向量集合输入多层双向编码网络,提取隐藏特征,隐藏特征包含字符特征和语义特征,将隐藏特征和词性特征送入注意力网络,学习词性特征对隐藏特征的重要度,对词性特征进行加权后与初始词向量集合进行拼接,得到输出向量;
S225将输出向量送入输出网络,经过全连接层映射至预设维度,获取词向量对应标签的分布概率,将分布概率输入CRF层,对标签进行约束,得到标签分类结果,根据标签分类结果得到文档类的非结构数据的三元组;
S226针对图像类的非结构数据,采用预训练的半监督模型进行标注,标注的内容为实体、关系、属性或属性值,根据标注的结果得到图像类的非结构数据的三元组;
S227文档类的非结构数据的三元组和图像类的非结构数据的三元组组成非结构数据的三元组。
在以上技术方案的基础上,优选的,步骤S23包括:
S231对于半结构数据,专家对一部分的半结构数据进行人工标注,标注后作为已标记数据,半结构数据中除去已标记数据的剩余数据作为未标记数据;
S232将已标记数据输入分类模型中进行训练,调整分类模型的参数,根据F1分数评估模型精度,达到预期精度后得到预训练的分类模型;
S233利用预训练的分类模型对已标记数据和未标记数据进行多次分类预测,在预测过程中对分类模型进行微调,直至相邻两次的预测误差达到最小值,将最后一次分类的预测结果作为未标记数据的分类结果;
S234根据未标记数据的标注结果和已标记数据的分类结果得到半结构数据的三元组。
在以上技术方案的基础上,优选的,步骤S3包括:
S31构建深度嵌入网络模型并预训练;
S32将第一知识图谱输入深度嵌入网络模型进行实体预测和关系预测:
S321利用知识表示方法将第一知识图谱中的实体和关系进行向量化表示,得到实体向量和关系向量;
S322根据第一组合运算将实体向量通过第一投影函数投影到候选实体向量中,根据第二组合运算将关系向量通过第二投影函数投影到候选关系向量中;
S323分别对候选实体向量和候选关系向量进行排序训练,根据第一损失函数和第二损失函数确定训练结束条件,训练结束即得到实体排序表和关系排序表;
S324将实体排序表的前M个实体作为实体预测结果,将关系排序表的前N个关系作为关系预测结果;
S33根据实体预测结果和关系预测结果对第一知识图谱进行补全,得到第二知识图谱;
其中,第一投影函数为:
式中,h(e,r)是第一投影向量,f1和g1均为激活函数,W1 c∈RS×a是候选实体向量,s为候选实体的数量,a代表维度,b1是投影偏置,表示第一组合运算;
第一组合运算为:
式中,Ce和Cr为a*a的对角矩阵,b2∈Ra表示运算偏置;
第一损失函数为:
式中,L1(e,r,y)表示第一损失函数,e为实体,r为关系,y表示一个二进制标签向量,yi=1表示候选实体,i代表一个正标签,m是从负候选实体分布中抽取的负样本数量,j表示一个负标签;
第二投影函数为:
式中,q(e,r*)是第二投影向量,f2和g2均为激活函数,W2 c∈Rz×a是候选实体向量,z为候选关系的数量,a代表维度,b3是投影偏置,表示第二组合运算;
第二组合运算为:
式中,Ch为a*a的对角矩阵,b4∈Ra表示运算偏置;
第二损失函数为:
式中,L2(e,r*,h)表示第二损失函数,e为头实体,h为尾实体,r*表示一个二进制标签向量,r*=1表示候选关系,x代表一个正标签,t是从负候选关系分布中抽取的负样本数量,v表示一个负标签。
在以上技术方案的基础上,优选的,步骤S4中,所述利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,包括:
步骤一、选取单个第二知识图谱输入图神经网络模型中,该第二知识图谱中包括节点和边;
步骤二、选取该第二知识图谱的单个节点作为起始节点,从起始节点出发按照随机游走策略采样预设数量的邻居节点,得到该第二知识图谱的节点集;
步骤三、对该第二知识图谱的节点集按照类型进行分类,得到该第二知识图谱的子节点集;
步骤四、对子节点集中的每个子节点通过聚合方法进行子节点集内部聚合,得到该第二知识图谱的节点聚合子集,将该第二知识图谱的节点聚合子集进行注意力加权后进行融合,得到融合后的节点集,根据融合后的节点集,得到图谱内初步融合的该第二知识图谱;
步骤五、重复步骤一到步骤四,对三个第一知识图谱均完成图谱内的初步融合。
在以上技术方案的基础上,优选的,步骤S4中,所述采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱,包括:
随机选择两个初步融合后的第二知识图谱进行融合,得到融合图谱,将融合图谱与第三个第二知识图谱进行融合,得到第三知识图谱;
其中,得到融合图谱的过程为:
将两个初步融合后的第二知识图谱输入图卷积网络模型,利用图卷积网络模型的图结构数据识别两个初步融合后的第二知识图谱之间的同构节点,将同构节点进行合并,得到合并节点集;
采用条件随机场对合并节点集进行局部和全局信息的多方位链接,对两个初步融合后的第二知识图谱进行合并,得到合并图谱;
利用图卷积网络模型对合并图谱进行自动推理,得到融合图谱。
在以上技术方案的基础上,优选的,图神经网络模型包括第一目标函数,其表达式如下:
式中,O1表示第一目标函数,u为当前节点,uc代表正样本,uc′代表负样本,Λ表示随机游走得到的三元组集合,ε表示网络输出的嵌入向量,σ表示图神经网络的参数;
图卷积网络模型包括第二目标函数,其表达式如下:
式中,O2表示第二目标函数,Φ为有标签的节点的索引集合,是索引为/>的节点对应于第κ类的输出,/>是索引为/>的节点对应第κ类的标签。
在以上技术方案的基础上,优选的,步骤S5包括:
将第三知识图谱进行低维嵌入处理,得到实体嵌入向量和关系嵌入向量;
采用D个学习器对实体嵌入向量和关系嵌入向量进行学习训练,对实体嵌入向量和关系嵌入向量均赋予值为[0,1]的标签值;
将D个实体嵌入向量的标签值和D个关系嵌入向量的标签值进行加权平均后采用直方图统计分析,得到数据分析结果。
另一方面,本发明还提供一种抽水蓄能电站地下厂房施工过程多源信息的处理系统,包括:
数据获取模块,其配置为采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,并对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
知识图谱模块,其配置为根据原始数据构建得到三个第一知识图谱,并对三个第一知识图谱分别进行知识挖掘后得到三个第二知识图谱,对三个第二知识图谱两两进行图谱融合,得到一个第三知识图谱;
图谱分析模块,其配置为将知识图谱模块中第三知识图谱采用集成学习进行数据分析,得到数据分析结果;
数据存储模块,其配置为与数据获取模块、知识图谱模块、图谱分析模块和数据展示模块后端连接,其包括一个数据库,用以分层存储原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果,并将数据库中的数据传输至数据展示模块;
数据展示模块,其配置为从数据库中调用数据,将第三知识图谱和数据分析结果进行相互链接后在系统界面可视化展示,并提供快速检索服务。
本发明的方法相对于现有技术具有以下有益效果:
(1)通过利用知识图谱的优越性能,对地下厂房施工过程的多源异构数据进行融合处理,大大提高了数据的利用效率;
(2)分别针对不同结构的数据提出了对应的知识抽取方法,对不同结构的数据实现深层次、语义程度的信息提取,为知识图谱的构建提供了质量高且数量足够的数据源;
(3)提出了对知识图谱进行挖掘的方法,根据候选的实体集、关系集对知识图谱进行补全,能够极大丰富知识图谱的数据内容,提升后续知识图谱的表达数据的能力;
(4)提出了对同构知识图谱、异构知识图谱进行融合的方法,通过对知识图谱之间的实体对齐、消除歧义,去除了知识图谱中冗余的内容,对知识图谱进行了精化,提高了知识图谱的性能。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的方法流程图;
图2为本发明实施例的系统结构图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,一方面,本发明提供一种抽水蓄能电站地下厂房施工过程多源信息的处理方法,该方法包括:
S1采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
S2对结构数据、非结构数据和半结构数据分别进行知识抽取,得到结构数据、非结构数据和半结构数据对应的三元组,其中,知识抽取包括实体抽取、关系抽取和属性抽取,三元组格式为实体-关系-实体或实体-属性-属性值;
S3将结构数据、非结构数据和半结构数据对应的三元组分别链接成图结构,得到三个第一知识图谱,分别为结构数据的知识图谱、非结构数据的知识图谱和半结构数据的知识图谱,对三个第一知识图谱进行知识挖掘,得到对应的三个第二知识图谱;
S4构建图神经网络框架,包括图神经网络模型和图卷积网络模型,利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱;
S5利用集成学习对第三知识图谱进行分析,得到数据分析结果;
S6将原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果分层存储于数据库,并利用可视化工具对第三知识图谱和数据分析结果进行可视化展示。
在抽水蓄能电站地下厂房施工过程中,涉及到的数据来源非常广泛,包括但不限于地质勘探数据、测量数据、施工监测数据等。这些数据的格式、结构和精度各不相同,因此,本实施例将不同来源的数据按照其结构划分为结构数据、非结构数据和半结构数据。
具体地,步骤S1中,预处理包括:数据清洗、去噪和校正。
数据清洗为根据不同结构的数据确定相应的格式,将数据的格式进行统一。数据清洗包括字符格式统一、时间格式统一、数值格式统一。
字符格式统一的编程如下:
data[′列名′]=data[′列名′].str.lower()#将列名转换为小写;
时间格式统一的编程如下:
data[′时间列′]=pd.to_datetime(data[′时间列′],format=′%Y-%m-%d′)#将时间列转换为指定格式;
数值格式统一的编程如下:
data[′数值列′]=data[′数值列′].round(2)#保留两位小数;
去噪指的是去除冗余的数据,其编程为:data=data.drop_duplicates();
校正指的是处理数据误差,包括缺失值处理和异常值处理;
缺失值处理的编程如下:
data=data.dropna()#删除包含缺失值的行;
data=data.fillna(0)#使用0填充缺失值;
异常值处理的编程如下:
data=data[(data[′列名′]>下限)&(data[′列名′]<上限)]#根据上下限删除异常值。
需要说明的是,在对数据进行预处理操作时,是根据原始数据的结构分别进行预处理,以便进行后续的处理。
具体地,本发明一个实施例中,步骤S2包括:
S21采用D2R工具将结构数据按照映射规则进行映射,得到结构数据的三元组。
结构数据是指由明确定义的数据类型组成,通常的表现形式为表格,其存在明确的关系名称和对应关系,因此本实施例中采用D2R工具将结构数据映射为RDF三元组。
D2R(Relation Databases to RDF)是一个能将关系型数据转换成RDF三元组的工具,包括D2R Server、D2RQ Engine和D2RQ Mapping语言,其中:
D2R Server是HTTP Server,能将结构数据发送到语义网,提供对RDF数据的查询接口,使得RDF浏览器以及传统的HTML浏览器调用,并使用SPARQL查询语句来查询数据。
D2RQ Engine使用D2RQ Mapping文件将查询到的数据映射成RDF图,该文件可在访问数据时将RDF查询语言SPARQL转化为RDB查询语言SQL,并将SQL查询结果转换成RDF三元组。
D2RQ Mapping语言是用于描述关系型数据模式和RDF词汇表关系的语言,定义了虚拟的RDF图和将结构数据转化成RDF的Mapping规则。
其中,主要的映射规则为:
表的行作为实例或资源;
当单元格所在的列为主键或外键,则其值被标注为实体;
当单元格所在的列是外键,则该列的列名被标注为同一行中主键与外键的关系;
当单元格所在的列不是外键,则该列的列名被标注为同一行中主键的属性,列值被标注为属性值。
S22将非结构数据按照类型分为文档类和图像类,利用语义识别对文档类的非结构数据进行知识抽取,利用半监督学习算法对图像类的非结构数据进行知识抽取,得到非结构数据的三元组。
具体地,步骤S22包括:
S221对文档类的非结构数据进行分词处理,得到每个词的词向量;
S222构建一个语义模型,语义模型包括双向神经网络、双向编码网络、多层双向编码网络、注意力网络、输出网络;
S223将词向量输入语义模型,利用双向神经网络提取词性特征,利用双向编码网络提取字符特征并对词向量进行编码,将字符特征与编码后的词向量进行拼接,得到初始词向量集合;
S224将初始词向量集合输入多层双向编码网络,提取隐藏特征,隐藏特征包含字符特征和语义特征,将隐藏特征和词性特征送入注意力网络,学习词性特征对隐藏特征的重要度,对词性特征进行加权后与初始词向量集合进行拼接,得到输出向量;
S225将输出向量送入输出网络,经过全连接层映射至预设维度,获取词向量对应标签的分布概率,将分布概率输入CRF层,对标签进行约束,得到标签分类结果,根据标签分类结果得到文档类的非结构数据的三元组;
S226针对图像类的非结构数据,采用预训练的半监督模型进行标注,标注的内容为实体、关系、属性或属性值,根据标注的结果得到图像类的非结构数据的三元组;
S227文档类的非结构数据的三元组和图像类的非结构数据的三元组组成非结构数据的三元组。
以一个具体的例子对步骤S22进行说明:
首先,对非结构数据进行预处理,将非结构数据进行分句分词处理,再进一步获取每个句子中的单词、词性和字符组成。对于获取的单词,利用预训练的一个简单编码模型对单词进行编码,并采用随机编码的方式将词性和字符组成转成向量表达,得到每个词的词向量。
构建一个语义模型,语义模型包括双向RNN网络、注意力机制、双向编码网络、多层双向编码网络、全连接层和CRF层。
将词向量输入双向RNN网络进行学习,通过词向量中的词性向量表达,学习不同词在句子特定语境下表达的隐藏意思,将隐藏意思的向量集合作为句子的词性特征X(X={x1,x2,...,xn}),其中xi指的是这个句子中第i个词的词性特征,n是这个句子中词的数量,即序列长度,n为变量。
将词向量输入双向编码网络,通过词向量中的字符组成的向量表达,学习句子中每个词的分布、句子的结构等,以获取词的字符特征,并通过编码的方式将词向量进行编码,将字符特征和编码后的词向量进行拼接,得到初始词向量集合Y(Y={y1,y2,...,yn})。
将初始词向量集合按照位置次序依次送入多层双向编码网络,获取初始词向量集合对应的隐藏特征Z(Z={z1,z2,...,zn})。其中,zi包含了形态特征以及词在句子中语境下的上下文语义特征。
将隐藏特征和词性特征一起送入注意力网络,根据注意力机制来学习不同的词性特征xi对隐藏特征zi的重要度大小,基于重要度对词性特征X进行不同程度的注意力加权,加权后与初始词向量集合进行拼接,由于多层双向编码网络包括多个双向编码网络,因此在一个双向编码网络学习完后,继续在其他的双向编码网络中学习。均学习完毕后,最后拼接得到的特征向量定义为输出向量。
将输出向量输入输出网络,经过两个全连接层映射至预设的标签维度c上,最终获得各个词对应标签的分布概率。将分布概率送入CRF层中,CRF层对标签近距离转移方式加以约束,得到最终的标签分类结果,根据标签分类结果得到文档类的非结构数据的三元组。
S23采用主动学习算法对半结构数据进行知识抽取,得到半结构数据的三元组。
具体地,步骤S23包括:
S231对于半结构数据,专家对一部分的半结构数据进行人工标注,标注后作为已标记数据,半结构数据中除去已标记数据的剩余数据作为未标记数据;
S232将已标记数据输入分类模型中进行训练,调整分类模型的参数,根据F1分数评估模型精度,达到预期精度后得到预训练的分类模型;
S233利用预训练的分类模型对已标记数据和未标记数据进行多次分类预测,在预测过程中对分类模型进行微调,直至相邻两次的预测误差达到最小值,将最后一次分类的预测结果作为未标记数据的分类结果;
S234根据未标记数据的标注结果和已标记数据的分类结果得到半结构数据的三元组。
半结构数据具有格式性和自由性相结合的特点,本实施例希望训练适合半结构数据分类的模型,作为半结构数据知识抽取的模板,以对半结构数据进行快速标记。
首先,收集不同种类的半结构数据,包括格式型、自由型。对半结构数据进行k均值聚类,相似的数据作为同一个聚类簇,具体地,k可以取3。专家从每个聚类簇中选取一部分具有代表性的半结构数据进行人工标注。标注的内容至少包括该数据的内容描述、该数据包含的实体、实体之间的关系、实体本身具有的属性等。
本实施例为利用每个聚类簇均训练一个分类模型,所有的分类模型组成一个分类框架,在该分类框架的输入处加一个相似性比较层。当分类框架训练好之后,再来了新的半结构数据,先利用相似性比较层进行比较分析,再选择对应的分类模型进行标记。
以其中一个分类模型的训练过程为例进行说明:
将聚类簇中专家标记过的数据作为已标记数据,其余数据为未标记数据。将已标记数据先输入分类模型中进行迭代训练,分类模型为一个CNN模型,在训练时采用前向传播,并利用随机梯度下降法进行迭代训练,优化器采用Adam优化器,初始学习率设为0.00001。在训练过程中,根据最小化损失函数的原则调整模型的参数,直至模型收敛。损失函数为交叉熵损失函数,用来计算模型的预测标签与已标记数据的真实标签之间的差距。当模型收敛或达到最大训练次数后,利用F1分数来评估模型精度。若模型精度未达到预期,例如,F1分数小于0.6,则调整初始学习率重新训练。直至模型精度达到要求,得到预训练的分类模型。
之后将已标记数据和未标记数据联合对预训练的分类模型进行迭代训练,利用已标记数据进行指导,根据每次训练的结果微调模型参数,对于难分的难例,例如,一个数据为结构复杂的数据,其包含的信息杂而乱,则将该数据挑出来,作为难例样本给专家进行人工标记,标记后再送入分类模型进行训练,以提升模型的分类泛化能力。
在多次训练过程中,计算每两次相邻训练的分类预测之间的差值,当这个差值不再变化时,则认为预测误差达到了最小值,将最后一次分类的预测结果作为未标记数据的分类结果。此时,分类模型训练完毕。
对每个聚类簇对应的分类模型均按照上述方法进行训练,之后利用分类框架对所有的半结构数据进行标记,从标记的结果中可得到实体、关系、属性、属性值等。根据这些结果即可得到半结构数据的三元组。
具体地,步骤S3包括:
S31构建深度嵌入网络模型并预训练;
S32将第一知识图谱输入深度嵌入网络模型进行实体预测和关系预测
S321利用知识表示方法将第一知识图谱中的实体和关系进行向量化表示,得到实体向量和关系向量;
S322根据第一组合运算将实体向量通过第一投影函数投影到候选实体向量中,根据第二组合运算将关系向量通过第二投影函数投影到候选关系向量中;
S323分别对候选实体向量和候选关系向量进行排序训练,根据第一损失函数和第二损失函数确定训练结束条件,训练结束即得到实体排序表和关系排序表;
S324将实体排序表的前M个实体作为实体预测结果,将关系排序表的前N个关系作为关系预测结果;
S33根据实体预测结果和关系预测结果对第一知识图谱进行补全,得到第二知识图谱;
本实施例中,深度嵌入网络模型用来完成两个任务,一个是实体预测,一个是链接预测,利用深度嵌入网络模型对三个第一知识图谱进行补全的方式相同,以其中一个第一知识图谱为例:
首先,利用深度嵌入网络模型进行实体预测任务,深度嵌入网络模型具体包括组合层和投影层,其组合层和投影线均采用神经网络。其中组合层定义实体预测的第一组合运算为:
式中,Ce和Cr为a*a的对角矩阵,b2∈Ra表示运算偏置;
使用该第一组合运算,即可定义第一投影函数为:
式中,h(e,r)是第一投影向量,f1和g1均为激活函数,W1 c∈Rs×a是候选实体向量,s为候选实体的数量,a代表维度,b1是投影偏置,表示第一组合运算。
以一示例说明:给定一个尾实体e和关系r,实体预测任务为计算每个候选头实体的分数,将候选头实体按分数从大到小进行排序,选择分数较大的一部分作为正确的预测实体。
该选择的过程为迭代过程,直至第一损失函数收敛,确定最终的实体排序表,则得到实体预测结果。
第一损失函数为:
式中,L1(e,r,y)表示第一损失函数,e为实体,r为关系,y表示一个二进制标签向量,yi=1表示候选实体,i代表一个正标签,m是从负候选实体分布中抽取的负样本数量,j表示一个负标签。
由于实体集合中的相对顺序不会影响模型的预测能力,因此在确定第一损失函数时,创建一个二元标签向量y,y的值为0或1,若其为正标签,则为1,若其为负标签,则为0。在选择实体的过程中,最大化第一投影向量h(e,r)和二元标签向量之间的相似性,因此将该实体预测任务视为一个多分类的任务,以确定第一损失函数。
在得到实体排序表后,可以取M为前30%,作为实体预测结果。
在利用深度嵌入网络模型进行关系预测时,其模型结构与实体预测时相同,实现步骤也与实体预测类似,具体设定的公式如下所示:
首先,组合层定义的第二组合运算为:
式中,Ch为a*a的对角矩阵,b4∈Ra表示运算偏置。
使用该第二组合运算,即可定义第二投影函数为:
第二投影函数为:
式中,q(e,r*)是第二投影向量,f2和g2均为激活函数,W2 c∈Rz×a是候选实体向量,z为候选关系的数量,a代表维度,b3是投影偏置,表示第二组合运算。
本示例中,是给定头实体、尾实体,以预测关系,在进行计算时,选择头实体或尾实体来计算关系的分数,并对该分数进行排序。
第二损失函数为:
式中,L2(e,r*,h)表示第二损失函数,e为头实体,h为尾实体,r*表示一个二进制标签向量,r*=1表示候选关系,x代表一个正标签,t是从负候选关系分布中抽取的负样本数量,v表示一个负标签。
在得到关系排序表后,可以取D为前30%,与M相同,也可以取D为前40%,作为关系预测结果。
在对三个第一知识图谱均进行了实体预测和关系预测后,得到三个第二知识图谱。
需要说明的是,在对第一知识图谱进行补全时,所采用的候选实体集和候选关系集,可以是原第一知识图谱中已有的实体和关系,也可以是通过收集与对应原始数据相关的资料,如气候资料、历史施工资料、历史地质资料等,进行整理和知识抽取、实体识别以及关系识别后,得到新的实体集和新的关系集作为候选实体集和候选关系集。同时也可以是两种方法兼顾,及原第一知识图谱中选取一部分加入到候选实体集和候选关系集,另外也获取新的实体集、关系集加入到候选实体集和候选关系集中。
具体地,步骤S4中,所述利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,包括:
步骤一、选取单个第二知识图谱输入图神经网络模型中,该第二知识图谱中包括节点和边;
步骤二、选取该第二知识图谱的单个节点作为起始节点,从起始节点出发按照随机游走策略采样预设数量的邻居节点,得到该第二知识图谱的节点集;
步骤三、对该第二知识图谱的节点集按照类型进行分类,得到该第二知识图谱的子节点集;
步骤四、对子节点集中的每个子节点通过聚合方法进行子节点集内部聚合,得到该第二知识图谱的节点聚合子集,将该第二知识图谱的节点聚合子集进行注意力加权后进行融合,得到融合后的节点集,根据融合后的节点集,得到图谱内初步融合的该第二知识图谱;
步骤五、重复步骤一到步骤四,对三个第一知识图谱均完成图谱内的初步融合。
本实施例中,在对知识图谱进行融合时,先单独的对每个第二知识图谱进行图谱内的融合。具体实现过程为:
将第二知识图谱输入图神经网络模型,图神经网络模型具有图结构数据,将单个节点作为起始节点,按照随机游走策略采样一定数量的邻居节点,在采样时有一定的概率回到起始节点重新采样。这样能够保证不同类型的节点数量相差不会很大。将邻居节点作为一个节点集。
之后将节点集中的节点按照类型进行分类,每个类别作为一个子节点集。分类时,按照节点出现的次数来选择其邻居节点。
针对同一个子节点集中的子节点,每个子节点具有不同的属性,对每个属性分别进行编码,得到子节点的属性向量集合。之后将属性向量集合按照一定的顺序输入到深度编码网络中进行深层次的编码,得到子节点的向量表达。对所有的向量表达进行相似性分析和重复性判定,例如,属性向量之间的相差太大,即代表该属性对于表征该子节点没有意义。或者同一个属性向量代表两个子节点,则可以将这两个子节点进行合并。对所有的子节点集按照属性进行聚合,得到对应的节点聚合子集。
针对不同类型的节点聚合子集,利用一个注意力网络对节点聚合子集和对应的起始节点进行学习,根据注意力机制学习不同的节点聚合子集中的节点对相应起始节点的影响,以对节点聚合子集进行注意力加权,加权后进行节点之间不同重要程度的融合,得到融合后的节点集,根据融合后的节点集,得到图谱内初步融合的该第二知识图谱。
具体地,图神经网络模型包括第一目标函数,其表达式如下:
式中,O1表示第一目标函数,u为当前节点,uc代表正样本,uc′代表负样本,Λ表示随机游走得到的三元组集合,ε表示网络输出的嵌入向量,σ表示图神经网络的参数。
具体地,步骤S4中,所述采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱,包括:
随机选择两个初步融合后的第二知识图谱进行融合,得到融合图谱,将融合图谱与第三个第二知识图谱进行融合,得到第三知识图谱;
其中,得到融合图谱的过程为:
将两个初步融合后的第二知识图谱输入图卷积网络模型,利用图卷积网络模型的图结构数据识别两个初步融合后的第二知识图谱之间的同构节点,将同构节点进行合并,得到合并节点集;
采用条件随机场对合并节点集进行局部和全局信息的多方位链接,对两个初步融合后的第二知识图谱进行合并,得到合并图谱;
利用图卷积网络模型对合并图谱进行自动推理,得到融合图谱。
图卷积网络模型包括第二目标函数,其表达式如下:
式中,O2表示第二目标函数,Φ为有标签的节点的索引集合,是索引为/>的节点对应于第κ类的输出,/>是索引为/>的节点对应第κ类的标签。
本实施例中,图卷积网络模型可以是R-GCN模型,将两个初步融合后的第二知识图谱输入R-GCN模型,由于图结构数据能识别同构子图,而实体对周围存在相似的邻居,即实体3与实体对(实体1,实体2)具有一定的同构特征,则利用R-GCN模型对两个初步融合后的第二知识图谱进行识别得到同构特征,将从两个初步融合后的第二知识图谱中学习到的描述同一目标的实体进行合并,得到合并实体集,之后采用条件随机场对合并实体集的局部和全局信息进行多方位链接,对两个初步融合后的第二知识图谱完成合并,得到合并图谱。
对合并图谱进行知识推理,推导得到实体与实体的新关系,并利用R-GCN引入邻实体和对应关系的信息,对实体之间的链接关系进行预测,具体过程如下:
(1)学习低维度的向量表示
将合并图谱中的实体和关系映射到低维连续的向量空间,为实体和关系学习出一个低维度的向量表示,该低维度的向量表示包含语义信息。并同时应用R-GCN模型将图谱中的拓扑结构信息和属性特征信息进行整合,使每个实体在进行低维度的向量表示学习时,能将与其相关的其他实体中的信息进行利用,从而学习得到更完整更丰富的实体、关系的低维度向量表示。
(2)基于学习得到的低维度的向量表示进行推理
在学习低维度的向量表示时,将自动捕捉、推理所需的特征,通过训练学习,使合并图谱在低维连续的向量空间中自动实现推理。
(3)基于学习得到的低维度的向量表示进行链接预测
在对实体和关系进行低维度的向量表示学习时,利用R-GCN模型为实体引入邻实体和对应关系的信息,具体为引入一个自动编码器,包括实体编码器和解码器,实体编码器将每个实体映射到一个真值向量,解码器为一个评分函数,解码器根据节点表示重建图的边,即根据实体的向量表示重建实体之间的关系。上述步骤可学得更全面的实体表示,从而预测实体之间的链接关系,对合并图谱进行完善,得到第三知识图谱。
具体地,步骤S5包括:
将第三知识图谱进行低维嵌入处理,得到实体嵌入向量和关系嵌入向量;
采用D个学习器对实体嵌入向量和关系嵌入向量进行学习训练,对实体嵌入向量和关系嵌入向量均赋予值为[0,1]的标签值;
将D个实体嵌入向量的标签值和D个关系嵌入向量的标签值进行加权平均后采用直方图统计分析,得到数据分析结果。
具体地,数据库采用数据仓库,数据仓库包括多个数据层,每个数据层中存储不同类型的数据。本实施例中,数据仓库包括四个数据层,最底层为原始库,用于存储原始数据,第二层为标准库,用于存储预处理后的原始数据,第三层为知识库,用于存储不同处理节点的各个知识图谱,第五层为分析库,用于存储对知识图谱进行分析后的数据分析结果。
具体地,可视化工具可以是Gephi、Neo4j、Tableau等,用于将数据和知识图谱进行可视化展示。
请参阅图2,另一方面,本发明还提供一种抽水蓄能电站地下厂房施工过程多源信息的处理系统,包括:
数据获取模块,其配置为采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,并对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
知识图谱模块,其配置为根据原始数据构建得到三个第一知识图谱,并对三个第一知识图谱分别进行知识挖掘后得到三个第二知识图谱,对三个第二知识图谱两两进行图谱融合,得到一个第三知识图谱;
图谱分析模块,其配置为将知识图谱模块中第三知识图谱采用集成学习进行数据分析,得到数据分析结果;
数据存储模块,其配置为与数据获取模块、知识图谱模块、图谱分析模块和数据展示模块后端连接,其包括一个数据库,用以分层存储原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果,并将数据库中的数据传输至数据展示模块;
数据展示模块,其配置为从数据库中调用数据,将第三知识图谱和数据分析结果进行相互链接后在系统界面可视化展示,并提供快速检索服务。
其中,处理系统中通过知识图谱的数据、原始数据、分析结果之间创建多维混合索引,将系统中所有的数据转成索引编码,并提供语义查询,根据索引机制可快速检索到所需要了解的数据详情。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种抽水蓄能电站地下厂房施工过程多源信息的处理方法,其特征在于,包括:
S1采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
S2对结构数据、非结构数据和半结构数据分别进行知识抽取,得到结构数据、非结构数据和半结构数据对应的三元组,其中,知识抽取包括实体抽取、关系抽取和属性抽取,三元组格式为实体-关系-实体或实体-属性-属性值;
S3将结构数据、非结构数据和半结构数据对应的三元组分别链接成图结构,得到三个第一知识图谱,分别为结构数据的知识图谱、非结构数据的知识图谱和半结构数据的知识图谱,对三个第一知识图谱进行知识挖掘,得到对应的三个第二知识图谱;
步骤S3包括:
S31构建深度嵌入网络模型并预训练;
S32将第一知识图谱输入深度嵌入网络模型进行实体预测和关系预测:
S321利用知识表示方法将第一知识图谱中的实体和关系进行向量化表示,得到实体向量和关系向量;
S322根据第一组合运算将实体向量通过第一投影函数投影到候选实体向量中,根据第二组合运算将关系向量通过第二投影函数投影到候选关系向量中;
S323分别对候选实体向量和候选关系向量进行排序训练,根据第一损失函数和第二损失函数确定训练结束条件,训练结束即得到实体排序表和关系排序表;
S324将实体排序表的前M个实体作为实体预测结果,将关系排序表的前N个关系作为关系预测结果;
S33根据实体预测结果和关系预测结果对第一知识图谱进行补全,得到第二知识图谱;
其中,第一投影函数为:
式中,h(e,r)是第一投影向量,f1和g1均为激活函数,W1 c∈Rs×a是候选实体向量,s为候选实体的数量,a代表维度,b1是投影偏置,表示第一组合运算;
第一组合运算为:
式中,Ce和Cr为a*a的对角矩阵,b2∈Ra表示运算偏置;
第一损失函数为:
式中,L1(e,r,y)表示第一损失函数,e为实体,r为关系,y表示一个二进制标签向量,yi=1表示候选实体,i代表一个正标签,m是从负候选实体分布中抽取的负样本数量,j表示一个负标签;
第二投影函数为:
式中,q(e,r*)是第二投影向量,f2和g2均为激活函数,W2 c∈Rz×a是候选实体向量,z为候选关系的数量,a代表维度,b3是投影偏置,表示第二组合运算;
第二组合运算为:
式中,Ch为a*a的对角矩阵,b4∈Ra表示运算偏置;
第二损失函数为:
式中,L2(e,r*,h)表示第二损失函数,e为头实体,h为尾实体,r*表示一个二进制标签向量,r*=1表示候选关系,x代表一个正标签,t是从负候选关系分布中抽取的负样本数量,v表示一个负标签;
S4构建图神经网络框架,包括图神经网络模型和图卷积网络模型,利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱;
所述利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,包括:
步骤一、选取单个第二知识图谱输入图神经网络模型中,该第二知识图谱中包括节点和边;
步骤二、选取该第二知识图谱的单个节点作为起始节点,从起始节点出发按照随机游走策略采样预设数量的邻居节点,得到该第二知识图谱的节点集;
步骤三、对该第二知识图谱的节点集按照类型进行分类,得到该第二知识图谱的子节点集;
步骤四、对子节点集中的每个子节点通过聚合方法进行子节点集内部聚合,得到该第二知识图谱的节点聚合子集,将该第二知识图谱的节点聚合子集进行注意力加权后进行融合,得到融合后的节点集,根据融合后的节点集,得到图谱内初步融合的该第二知识图谱;
步骤五、重复步骤一到步骤四,对三个第一知识图谱均完成图谱内的初步融合;
所述采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱,包括:
随机选择两个初步融合后的第二知识图谱进行融合,得到融合图谱,将融合图谱与第三个第二知识图谱进行融合,得到第三知识图谱;
其中,得到融合图谱的过程为:
将两个初步融合后的第二知识图谱输入图卷积网络模型,利用图卷积网络模型的图结构数据识别两个初步融合后的第二知识图谱之间的同构节点,将同构节点进行合并,得到合并节点集;
采用条件随机场对合并节点集进行局部和全局信息的多方位链接,对两个初步融合后的第二知识图谱进行合并,得到合并图谱;
利用图卷积网络模型对合并图谱进行自动推理,得到融合图谱;
S5利用集成学习对第三知识图谱进行分析,得到数据分析结果;
S6将原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果分层存储于数据库,并利用可视化工具对第三知识图谱和数据分析结果进行可视化展示。
2.如权利要求1所述的方法,其特征在于,步骤S2包括:
S21采用D2R工具将结构数据按照映射规则进行映射,得到结构数据的三元组;
S22将非结构数据按照类型分为文档类和图像类,利用语义识别对文档类的非结构数据进行知识抽取,利用半监督学习算法对图像类的非结构数据进行知识抽取,得到非结构数据的三元组;
S23采用主动学习算法对半结构数据进行知识抽取,得到半结构数据的三元组;
其中,映射规则为:
表的行作为实例或资源;
当单元格所在的列为主键或外键,则其值被标注为实体;
当单元格所在的列是外键,则该列的列名被标注为同一行中主键与外键的关系;
当单元格所在的列不是外键,则该列的列名被标注为同一行中主键的属性,列值被标注为属性值。
3.如权利要求2所述的方法,其特征在于,步骤S22包括:
S221对文档类的非结构数据进行分词处理,得到每个词的词向量;
S222构建一个语义模型,语义模型包括双向神经网络、双向编码网络、多层双向编码网络、注意力网络、输出网络;
S223将词向量输入语义模型,利用双向神经网络提取词性特征,利用双向编码网络提取字符特征并对词向量进行编码,将字符特征与编码后的词向量进行拼接,得到初始词向量集合;
S224将初始词向量集合输入多层双向编码网络,提取隐藏特征,隐藏特征包含字符特征和语义特征,将隐藏特征和词性特征送入注意力网络,学习词性特征对隐藏特征的重要度,对词性特征进行加权后与初始词向量集合进行拼接,得到输出向量;
S225将输出向量送入输出网络,经过全连接层映射至预设维度,获取词向量对应标签的分布概率,将分布概率输入CRF层,对标签进行约束,得到标签分类结果,根据标签分类结果得到文档类的非结构数据的三元组;
S226针对图像类的非结构数据,采用预训练的半监督模型进行标注,标注的内容为实体、关系、属性或属性值,根据标注的结果得到图像类的非结构数据的三元组;
S227文档类的非结构数据的三元组和图像类的非结构数据的三元组组成非结构数据的三元组。
4.如权利要求2所述的方法,其特征在于,步骤S23包括:
S231对于半结构数据,专家对一部分的半结构数据进行人工标注,标注后作为已标记数据,半结构数据中除去已标记数据的剩余数据作为未标记数据;
S232将已标记数据输入分类模型中进行训练,调整分类模型的参数,根据F1分数评估模型精度,达到预期精度后得到预训练的分类模型;
S233利用预训练的分类模型对已标记数据和未标记数据进行多次分类预测,在预测过程中对分类模型进行微调,直至相邻两次的预测误差达到最小值,将最后一次分类的预测结果作为未标记数据的分类结果;
S234根据未标记数据的标注结果和已标记数据的分类结果得到半结构数据的三元组。
5.如权利要求1所述的方法,其特征在于,图神经网络模型包括第一目标函数,其表达式如下:
式中,O1表示第一目标函数,u为当前节点,uc代表正样本,uc′代表负样本,Λ表示随机游走得到的三元组集合,ε表示网络输出的嵌入向量,σ表示图神经网络的参数;
图卷积网络模型包括第二目标函数,其表达式如下:
式中,O2表示第二目标函数,Φ为有标签的节点的索引集合,是索引为/>的节点对应于第κ类的输出,/>是索引为/>的节点对应第κ类的标签。
6.如权利要求1所述的方法,其特征在于,步骤S5包括:
将第三知识图谱进行低维嵌入处理,得到实体嵌入向量和关系嵌入向量;
采用D个学习器对实体嵌入向量和关系嵌入向量进行学习训练,对实体嵌入向量和关系嵌入向量均赋予值为[0,1]的标签值;
将D个实体嵌入向量的标签值和D个关系嵌入向量的标签值进行加权平均后采用直方图统计分析,得到数据分析结果。
7.一种抽水蓄能电站地下厂房施工过程多源信息的处理系统,其特征在于,包括:
数据获取模块,其配置为采集抽水蓄能电站地下厂房施工过程中不同来源的原始数据,并对原始数据进行预处理,将原始数据按照结构类型划分为结构数据、非结构数据和半结构数据;
知识图谱模块,其配置为根据原始数据构建得到三个第一知识图谱,并对三个第一知识图谱分别进行知识挖掘后得到三个第二知识图谱,对三个第二知识图谱两两进行图谱融合,得到一个第三知识图谱;
其中,根据原始数据构建得到三个第一知识图谱,并对三个第一知识图谱分别进行知识挖掘后得到三个第二知识图谱的过程为:
构建深度嵌入网络模型并预训练;
将第一知识图谱输入深度嵌入网络模型进行实体预测和关系预测:
利用知识表示方法将第一知识图谱中的实体和关系进行向量化表示,得到实体向量和关系向量;
根据第一组合运算将实体向量通过第一投影函数投影到候选实体向量中,根据第二组合运算将关系向量通过第二投影函数投影到候选关系向量中;
分别对候选实体向量和候选关系向量进行排序训练,根据第一损失函数和第二损失函数确定训练结束条件,训练结束即得到实体排序表和关系排序表;
将实体排序表的前M个实体作为实体预测结果,将关系排序表的前N个关系作为关系预测结果;
根据实体预测结果和关系预测结果对第一知识图谱进行补全,得到第二知识图谱;
其中,第一投影函数为:
式中,h(e,r)是第一投影向量,f1和g1均为激活函数,W1 c∈Rs×a是候选实体向量,s为候选实体的数量,a代表维度,b1是投影偏置,表示第一组合运算;
第一组合运算为:
式中,Ce和Cr为a*a的对角矩阵,b2∈Ra表示运算偏置;
第一损失函数为:
式中,L1(e,r,y)表示第一损失函数,e为实体,r为关系,y表示一个二进制标签向量,yi=1表示候选实体,i代表一个正标签,m是从负候选实体分布中抽取的负样本数量,j表示一个负标签;
第二投影函数为:
式中,q(e,r*)是第二投影向量,f2和g2均为激活函数,W2 c∈Rz×a是候选实体向量,z为候选关系的数量,a代表维度,b3是投影偏置,表示第二组合运算;
第二组合运算为:
式中,Ch为a*a的对角矩阵,b4∈Ra表示运算偏置;
第二损失函数为:
式中,L2(e,r*,h)表示第二损失函数,e为头实体,h为尾实体,r*表示一个二进制标签向量,r*=1表示候选关系,x代表一个正标签,t是从负候选关系分布中抽取的负样本数量,v表示一个负标签;
所述对三个第二知识图谱两两进行图谱融合,得到一个第三知识图谱包括:
构建图神经网络框架,包括图神经网络模型和图卷积网络模型,利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱;
所述利用图神经网络模型对三个第二知识图谱分别进行图谱内的初步融合,包括:
步骤一、选取单个第二知识图谱输入图神经网络模型中,该第二知识图谱中包括节点和边;
步骤二、选取该第二知识图谱的单个节点作为起始节点,从起始节点出发按照随机游走策略采样预设数量的邻居节点,得到该第二知识图谱的节点集;
步骤三、对该第二知识图谱的节点集按照类型进行分类,得到该第二知识图谱的子节点集;
步骤四、对子节点集中的每个子节点通过聚合方法进行子节点集内部聚合,得到该第二知识图谱的节点聚合子集,将该第二知识图谱的节点聚合子集进行注意力加权后进行融合,得到融合后的节点集,根据融合后的节点集,得到图谱内初步融合的该第二知识图谱;
步骤五、重复步骤一到步骤四,对三个第一知识图谱均完成图谱内的初步融合;
所述采用图卷积网络模型对初步融合后的三个第二知识图谱进行图谱之间的两两融合,得到一个第三知识图谱,包括:
随机选择两个初步融合后的第二知识图谱进行融合,得到融合图谱,将融合图谱与第三个第二知识图谱进行融合,得到第三知识图谱;
其中,得到融合图谱的过程为:
将两个初步融合后的第二知识图谱输入图卷积网络模型,利用图卷积网络模型的图结构数据识别两个初步融合后的第二知识图谱之间的同构节点,将同构节点进行合并,得到合并节点集;
采用条件随机场对合并节点集进行局部和全局信息的多方位链接,对两个初步融合后的第二知识图谱进行合并,得到合并图谱;
利用图卷积网络模型对合并图谱进行自动推理,得到融合图谱;
图谱分析模块,其配置为将知识图谱模块中第三知识图谱采用集成学习进行数据分析,得到数据分析结果;
数据存储模块,其配置为与数据获取模块、知识图谱模块、图谱分析模块和数据展示模块后端连接,其包括一个数据库,用以分层存储原始数据、预处理后的原始数据、第一知识图谱、第二知识图谱、第三知识图谱和数据分析结果,并将数据库中的数据传输至数据展示模块;
数据展示模块,其配置为从数据库中调用数据,将第三知识图谱和数据分析结果进行相互链接后在系统界面可视化展示,并提供快速检索服务。
CN202310948791.XA 2023-07-28 2023-07-28 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统 Active CN116975256B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310948791.XA CN116975256B (zh) 2023-07-28 2023-07-28 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310948791.XA CN116975256B (zh) 2023-07-28 2023-07-28 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统

Publications (2)

Publication Number Publication Date
CN116975256A CN116975256A (zh) 2023-10-31
CN116975256B true CN116975256B (zh) 2024-01-16

Family

ID=88481012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310948791.XA Active CN116975256B (zh) 2023-07-28 2023-07-28 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统

Country Status (1)

Country Link
CN (1) CN116975256B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053130A (zh) * 2020-09-04 2020-12-08 清远蓄能发电有限公司 抽水蓄能电站综合管理方法、平台、系统、设备和介质
CN114911945A (zh) * 2022-04-13 2022-08-16 浙江大学 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN115269857A (zh) * 2022-04-28 2022-11-01 东北林业大学 一种基于文档关系抽取的知识图谱构建方法和装置
WO2023273182A1 (zh) * 2021-06-29 2023-01-05 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN116450834A (zh) * 2022-12-31 2023-07-18 云南电网有限责任公司信息中心 一种基于多模态语义特征的档案知识图谱构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112053130A (zh) * 2020-09-04 2020-12-08 清远蓄能发电有限公司 抽水蓄能电站综合管理方法、平台、系统、设备和介质
WO2023273182A1 (zh) * 2021-06-29 2023-01-05 北京邮电大学 面向多源知识图谱融合的实体对齐方法、装置与系统
CN114911945A (zh) * 2022-04-13 2022-08-16 浙江大学 基于知识图谱的多价值链数据管理辅助决策模型构建方法
CN115269857A (zh) * 2022-04-28 2022-11-01 东北林业大学 一种基于文档关系抽取的知识图谱构建方法和装置
CN116450834A (zh) * 2022-12-31 2023-07-18 云南电网有限责任公司信息中心 一种基于多模态语义特征的档案知识图谱构建方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"基于双向对齐与属性信息的跨语言实体对齐";车超等;《计算机工程》(第3期);第74-80页 *

Also Published As

Publication number Publication date
CN116975256A (zh) 2023-10-31

Similar Documents

Publication Publication Date Title
CN110597735B (zh) 一种面向开源软件缺陷特征深度学习的软件缺陷预测方法
CN112199511B (zh) 跨语言多来源垂直领域知识图谱构建方法
WO2023065545A1 (zh) 风险预测方法、装置、设备及存储介质
CN110990590A (zh) 一种基于强化学习和迁移学习的动态金融知识图谱构建方法
CN112015902B (zh) 基于度量的元学习框架下的少次文本分类方法
CN113535917A (zh) 基于旅游知识图谱的智能问答方法及系统
CN112463981A (zh) 一种基于深度学习的企业内部经营管理风险识别提取方法及系统
CN115269865A (zh) 一种面向辅助诊断的知识图谱构建方法
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN116661805B (zh) 代码表示的生成方法和装置、存储介质及电子设备
CN116991869A (zh) 一种基于nlp语言模型自动生成数据库查询语句的方法
CN116484024A (zh) 一种基于知识图谱的多层次知识库构建方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
CN116226404A (zh) 一种针对肠-脑轴的知识图谱构建方法及知识图谱系统
CN116975256B (zh) 抽水蓄能电站地下厂房施工过程多源信息的处理方法及系统
CN115878757A (zh) 一种基于概念分解的混合超图正则化半监督跨模态哈希方法
CN115033706A (zh) 一种知识图谱自动补全和更新的方法
CN114996407B (zh) 基于包重构的远程监督关系抽取方法及系统
CN117077005B (zh) 一种城市微更新潜力的优化方法和系统
CN115408506B (zh) 联合语义解析和语义成分匹配的nl2sql的方法
CN114238653B (zh) 一种编程教育知识图谱构建、补全与智能问答的方法
CN116595992B (zh) 一种术语及类型的二元组单步抽取方法及其模型
CN117056510A (zh) 一种多元社会矛盾纠纷信息自动归集方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant