CN116186350A - 基于知识图谱和主题文本的输电线路工程搜索方法和装置 - Google Patents

基于知识图谱和主题文本的输电线路工程搜索方法和装置 Download PDF

Info

Publication number
CN116186350A
CN116186350A CN202310436739.6A CN202310436739A CN116186350A CN 116186350 A CN116186350 A CN 116186350A CN 202310436739 A CN202310436739 A CN 202310436739A CN 116186350 A CN116186350 A CN 116186350A
Authority
CN
China
Prior art keywords
transmission line
power transmission
module
engineering
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310436739.6A
Other languages
English (en)
Other versions
CN116186350B (zh
Inventor
李楠
汪鹏
鞠立伟
杨莘博
李知艺
汪震
辛焕海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202310436739.6A priority Critical patent/CN116186350B/zh
Publication of CN116186350A publication Critical patent/CN116186350A/zh
Application granted granted Critical
Publication of CN116186350B publication Critical patent/CN116186350B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明涉及一种基于知识图谱和主题文本的输电线路工程搜索方法和装置,属于电力技术及人工智能技术领域,解决现有输电线路工程大数据产生信息过载、难以获取知识图谱的隐含关系和主题文本信息语境关联信息问题。装置包括特征获取模块,从输电线路工程数据中提取知识图谱特征和主题文本特征;特征表示模块将知识图谱特征和主题文本特征向量化为知识图谱向量和主题文本向量;Transformer编码器对知识图谱向量和主题文本向量捕捉全局语义信息;相似度计算模块基于全局语义信息顺序计算待搜索工程与每个候选工程之间的相似度;结果提供模块将待搜索工程与每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。基于关键特征的相似度判定来实现智能高效搜索。

Description

基于知识图谱和主题文本的输电线路工程搜索方法和装置
技术领域
本发明涉及电力技术及人工智能技术领域,尤其涉及一种基于知识图谱和主题文本的输电线路工程搜索方法和装置。
背景技术
随着经济社会的快速发展,电力负荷需求同步增长,新能源电源高比例接入电力系统,电网建设规模也持续增加,输电线路工程数量快速增长,数据规模性呈指数级增长,输电线路工程在不同气象、地质、海拔条件下的设计方案及运行工况差异更为明显,导致已有输电线路工程数量众多且设计和运行的技术特征迥异,输电线路工程表现出大数据的典型特征:丰富的数据来源、较大的数据体量、多类型的数据结构。输电线路工程的大数据会产生严重的信息过载问题,给输电线路工程信息搜索带来难题。面对越来越庞大的输电线路工程数据资源和日趋复杂的工程特征,如果仅依靠现有技术通过关键词进行搜索,难以实现用户对复杂特征的输电线路工程精准搜索需求,造成已有输电线路工程信息资源的浪费。
现有用于输电线路工程搜索的技术手段主要通过输电线路工程技术特征的关键词查找,例如设计气象条件(风速、覆冰条件)、回路数(单、双回路等)、电压等级、海拔高度、地形条件等,将待检索的工程特征和历史数据集中的输电线路工程特征进行匹配,这种方式仅通过利用有限的关键特征信息进行特征与特征间的相似度计算,这种搜索方法面对日趋复杂且数据格式多样(结构化、非结构化)的输电线路工程特征,搜索效果不佳,有时可能获得与待搜索方案技术条件和运行工况差异较大的工程。此外,输电线路工程数据集中的标题、内容简介等多种辅助数据包含描述输电电路工程特征的辅助信息,目前尚未被搜索方法获得足够的关注。
现有的技术多采用关键词作为短文本来表征输电线路工程特征,一方面难以获取关键词实体间的隐含关系,另一方面由于丢失了输电线路工程的标题、输电线路简介这两个方面的语境信息,使具有类似关键词的输电线路工程特征界线模糊,造成传统关键词搜索方法难以适应大体量的输电线路工程信息搜索需求。知识图谱所构建的隐含关系以及主题文本信息语境关联对输电线路工程的特征提取不容忽视。因此如何找到学习这些数据中蕴含的输电线路工程的隐式信息来提升输电线路工程的智能搜索的精准性是亟待解决的问题。
发明内容
鉴于上述的分析,本发明实施例旨在提供一种基于知识图谱和主题文本的输电线路工程搜索方法和装置,用以解决输电线路工程的大数据会产生严重的信息过载、难以获取知识图谱所构建的隐含关系以及主题文本信息语境关联信息等的问题。
一方面,本发明实施例提供了一种基于知识图谱和主题文本的输电线路工程搜索装置,包括:特征获取模块,从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括所述输电线路工程数据;特征表示模块,将输电线路工程的所述知识图谱特征和所述主题文本特征分别向量化为知识图谱向量和主题文本向量;智能搜索模块,所述智能搜索模块包括多层叠加的Transformer编码器模块和相似度计算模块,其中,Transformer编码器模块,对所述知识图谱向量和所述主题文本向量捕捉输电线路工程关键特征的全局语义信息;相似度计算模块,基于所述输电线路工程关键特征的全局语义信息顺序计算所述待搜索工程与每个候选工程之间的相似度;以及结果提供模块,将所述待搜索工程与所述每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
上述技术方案的有益效果如下:利用知识图谱向量和主题的文本向量来表征输电线路工程的技术和运行特征,采用Transformer模型,实现输电线路工程的全局语义特征挖掘,并基于关键特征的相似度判定,来实现输电线路工程的智能高效搜索,更好地指导电网设计、建设和运行,并提升电网工程的韧性。
基于上述装置的进一步改进,所述特征表示模块包括第一TransD模块、第一Doc2VeC模块、第二TransD模块和第二Doc2VeC模块,其中,所述第一TransD模块和所述第二TransD模块,分别用于将来自于所述待搜索工程和所述任一候选工程的输电线路工程的知识图谱特征向量化为第一知识图谱向量和第二知识图谱向量;所述第一Doc2VeC模块和所述第二Doc2VeC模块,分别用于将来自于所述待搜索工程和所述任一候选工程的输电线路工程的主题文本特征向量化为第一主题文本向量和第二主题文本向量。
基于上述装置的进一步改进,所述输电线路工程的知识图谱特征包含实体h、实体的属性t、和实体h与实体的属性t之间的关系r,三元组(h,r,t)表示为实体的关系、属性描述;所述第一TransD模块和所述第二TransD模块,用于对所述输电线路工程知识图谱进行向量化表示,并且对所述输电线路工程知识图谱的实体和关系进行向量化映射处理,其中,将所述三元组(h,r,t)向量化表示为(h,hp,r,rp,t,tp),其中,hp、rp、tp分别为实体向量h、关系向量r、属性向量t的投影向量表示,TransD利用两个以下投影矩阵Mrh、Mrt将实体从实体空间投影到关系空间:
Figure SMS_1
Figure SMS_2
其中,Im×n表示单位矩阵,h,hp,t,tp∈RN,r,rp∈RM
定义两个投影向量如下:
h=Mrhh, t=Mrtt;
使用以下评分函数衡量嵌入的三元组向量:
Figure SMS_3
给定约束为
Figure SMS_4
,嵌入训练的损失函数为:
Figure SMS_5
;/>
其中,[x]+表示max(0,x),
Figure SMS_6
表示边缘距离的超参数,/>
Figure SMS_7
,/>
Figure SMS_8
,/>
Figure SMS_9
表示输电线路工程的知识图谱中存在的三元组(h,r,t),/>
Figure SMS_10
表示训练中随机抽取产生的负样例三元组(h',r',t')。
基于上述装置的进一步改进,所述第一Doc2VeC模块和所述第二Doc2VeC模块,用于通过以下公式将输电线路工程标题和工程简介进行特征融合处理:
T=concat(ttitle,tabstract)
其中,ttitle、tabstract分别为输电线路工程的关键词和简介的向量表示,T为融合后的输电线路工程主题特征向量;将输电线路工程的所述主题文本特征向量化为主题文本向量包括:采用word2Vec的skip-gram模型进行主题文本的向量化处理,所述skip-gram模型是包括输入层、隐藏层和输出层的三层神经网络模型,其中,生成中心词wi和上下文词的One-hot编码,并初始化权重矩阵L、U,其中,所述上下文词又称作背景词,对应的窗口称作背景窗口;输入层向量与权重矩阵L相乘,得到所述隐藏层的输出h=e(wi)L;所述隐藏层的输出矩阵h与所述权重矩阵U相乘以获得得分向量矩阵,并利用softmax回归计算每个词的概率:
e'(wc)=hU
Figure SMS_11
其中,i所述中心词的索引,V表示文本序列中的所含的词序列形成的词汇表,k为词汇表中词序列的索引,c为背景窗口大小,指中心词相关的上下文词的数量;所述skip-gram模型的目标函数是最大化下文词汇的对数似然:
L*=argmaxΣΣlogP(wc|wi);
其中,词向量L*矩阵包含词表V中所有词语的分布式向量表示。
基于上述装置的进一步改进,每个Transformer编码器模块包括:多头注意力模块,有助于Transformer捕捉到丰富的输电线路工程输入数据特征;残差连接模块,用于将上一层的原始输入加到下一层中,以在网络深度加深的情况下避免由于梯度下降法引起的梯度消失;第一相加并归一化模块,将所述残差连接模块与所述多头注意力模块的输出相加,其中,针对每个样本计算均值和方差并采用归一化操作,将输入转化成均值为0方差为1的数据,以保证输入数据不落在激活函数的饱和区;前馈神经网络,将多头注意力结果映射到一个更大维度的特征空间,然后使用ReLU函数引入非线性进行筛选,最后恢复回原始维度;以及第二相加并归一化模块,将所述残差连接模块与所述前馈神经网络的输出相加以生成所述多层叠加的Transformer编码器模块的输出结果。
基于上述装置的进一步改进,所述智能搜索模块包括:交互注意力模块、特征拼接模块和全连接模块,所述交互注意力模块,用于从所述多层叠加的Transformer编码器模块的输出结果中顺序提取每个候选工程中的局部相似特征;所述特征拼接模块,用于将所述多层叠加的Transformer编码器模块的输出结果和所述交互注意力模块的输出的局部相似特征通过向量拼接的方式进行融合;所述全连接模块,用于采用全连接网络对特征进行权重调整及softmax函数进行预测分类。
基于上述装置的进一步改进,所述多头注意力模块的计算公式如下:
Figure SMS_12
Figure SMS_13
MultiHead(Q,K,V)=Concat(headi,head2,…,headh)W0
其中,
Figure SMS_14
,dmodel为词向量维度,dk为K向量的维度,/>
Figure SMS_15
,i=1,2,…,h,Q=K=V为输电线路工程知识图谱向量矩阵和主题文本特征的向量融合后的向量,/>
Figure SMS_16
分别表示对Q、K、V进行线性变换的矩阵,h表示注意力的个数,每个注意力捕获文本中一个子空间的信息,将h个注意力头进行拼接通过矩阵得到多头注意力值;所述第一相加并归一化模块和所述第二相加并归一化模块的层归一化的计算公式如下:
Figure SMS_17
Figure SMS_18
Figure SMS_19
其中,xi表示输入矩阵x的第i维,m和
Figure SMS_20
分别表示的x均值和方差,α、β是引入的待学习的参数,用于弥补归一化过程中损失掉的信息,H为所述输入矩阵的维数,/>
Figure SMS_21
是防止除数等于0设置的无穷小的数。
基于上述装置的进一步改进,所述相似度计算模块的计算公式如下:
Figure SMS_22
Figure SMS_23
Figure SMS_24
Figure SMS_25
其中,E为所述工程候选集中的任一候选工程和所述待搜索工程的相似度矩阵,
Figure SMS_26
为所述待搜索工程经过Transformer编码后的全局语义特征的转置,T2为所述工程候选集中的任一候选工程经过Transformer编码的全局语义特征,/>
Figure SMS_27
为输电线路工程1第i个特征向量的转置,T 2j 为输电线路工程2第j个特征向量,eij是矩阵E中第i行第j列的元素,表示所述待搜索工程中第i个词和所述工程候选集中的任一候选工程中第j个词的相似度,S1i是利用注意力机制提取所述工程候选集中的任一候选工程中与所述待搜索工程的相似信息,S2j是利用注意力机制提取所述待搜索工程与所述工程候选集中的任一候选工程的相似信息。
基于上述装置的进一步改进,所述输电线路工程数据包括静态基础数据和动态在线监测数据,其中,所述静态基础数据是指输电线路工程的关键参数信息,包括气象条件、回路数、电压等级、海拔高度、地形条件;以及所述动态在线监测数据是指对所述输电线路工程运行工况进行连续地或周期性地在线实时监测,包括输电线路的绝缘值、接地电阻、杆塔荷载强度。
另一方面,本发明实施例提供了一种基于知识图谱和主题文本的输电线路工程搜索方法,包括:从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括所述输电线路工程数据;将输电线路工程的所述知识图谱特征和所述主题文本特征分别向量化为知识图谱向量和主题文本向量;对所述知识图谱向量和所述主题文本向量捕捉输电线路工程关键特征的全局语义信息;基于所述输电线路工程关键特征的全局语义信息顺序计算所述待搜索工程与每个候选工程之间的相似度;以及将所述待搜索工程与所述每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
与现有技术相比,本发明至少可实现如下有益效果之一:
1、根据输电线路工程的静态基础数据和动态在线监测数据,利用知识图谱向量和主题的文本向量来表征输电线路工程的技术和运行特征,采用Transformer模型的自注意力机制和交叉注意力机制,实现输电线路工程的全局和局部语义特征挖掘,并基于关键特征的相似度判定,来实现输电线路工程的智能高效搜索,更好地指导电网设计、建设和运行,并提升电网工程的韧性;
2、Transformer的优势在于不但能够并行计算,其中包含的自注意力模块使模型不止关注当前位置的向量,还能通过位置编码算法,确定其在上下文中的位置,从而获取上下文的语义信息。因此,搜索模型引入Transformer模型可以捕捉输电线路工程关键特征以及全局语义信息;
3、TransD模块在进行图谱结构分析时,不需要考虑矩阵向量的乘法计算,可以大幅度降低算法运算的复杂性和工作量,且TransD可以使用较少的参数实现对图谱结构实体和关系的向量化映射处理;
4、采用word2Vec的skip-gram模型进行主题文本的向量化处理,基于三层神经网络的结构,经过神经网络一系列线性和非线性操作,可以实现对复杂上下文信息的有效学习,从而使得输电线路工程的特征词语的分布式表示能够捕捉到更多的语义和语法信息。
本发明中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本发明的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过说明书以及附图中所特别指出的内容中来实现和获得。
附图说明
附图仅用于示出具体实施例的目的,而并不认为是对本发明的限制,在整个附图中,相同的参考符号表示相同的部件;
图1为根据本发明实施例的基于知识图谱和主题文本的输电线路工程搜索装置的框图;
图2为根据本发明实施例的基于工程知识图谱和主题文本的输电线路工程智能搜索方法框架;
图3为根据本发明实施例的skip-gram模型示意图;
图4为根据本发明实施例的编码器构成及Transformer模块的结构示图;
图5为根据本发明实施例的基于知识图谱和主题文本的输电线路工程搜索方法的流程图。
具体实施方式
下面结合附图来具体描述本发明的优选实施例,其中,附图构成本申请一部分,并与本发明的实施例一起用于阐释本发明的原理,并非用于限定本发明的范围。
参考图1,本发明的一个具体实施例,公开了一种基于知识图谱和主题文本的输电线路工程搜索装置,包括:特征获取模块110,从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括输电线路工程数据;特征表示模块120,将输电线路工程的知识图谱特征和主题文本特征分别向量化为知识图谱向量和主题文本向量;智能搜索模块130,智能搜索模块包括多层叠加的Transformer编码器模块132和相似度计算模块134,其中,每层Transformer编码器模块,对知识图谱向量和主题文本向量捕捉输电线路工程关键特征的全局语义信息;相似度计算模块134,基于输电线路工程关键特征的全局语义信息顺序计算待搜索工程与每个候选工程之间的相似度;以及结果提供模块140,将待搜索工程与每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
与现有技术相比,本实施例提供的利用知识图谱向量和主题的文本向量来表征输电线路工程的技术和运行特征,采用Transformer模型,实现输电线路工程的全局语义特征挖掘,并基于关键特征的相似度判定,来实现输电线路工程的智能高效搜索,为输电线路工程信息搜索者提供精准的数据信息,更好地指导电网设计、建设和运行,并提升电网工程的韧性。
下文中,将参考图1至图4对根据本发明实施例的基于知识图谱和主题文本的输电线路工程搜索装置进行详细说明。基于知识图谱和主题文本的输电线路工程搜索装置包括:特征获取模块110、特征表示模块120、智能搜索模块130和结果提供模块140。
特征获取模块110从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括输电线路工程数据。输电线路工程数据体量庞大、种类繁多,根据输电线路工程的建设和运行情况,可以将输电线路工程数据分为静态的基础数据和动态的在线监测数据。具体地,输电线路工程数据包括静态基础数据和动态在线监测数据,其中,静态基础数据是指输电线路工程的关键参数信息,包括气象条件(例如,风速、覆冰条件)、回路数(例如,单、双回路等)、电压等级、海拔高度、地形条件;以及动态在线监测数据是指对输电线路工程运行工况进行连续地或周期性地在线实时监测,包括输电线路的绝缘值、接地电阻、杆塔荷载强度。
参考图1和图2,特征表示模块120将输电线路工程的知识图谱特征和主题文本特征分别向量化为知识图谱向量和主题文本向量。特征表示模块包括第一TransD模块、第一Doc2VeC模块、第二TransD模块和第二Doc2VeC模块。第一TransD模块和第二TransD模块分别用于将来自于待搜索工程和任一候选工程的输电线路工程的知识图谱特征向量化为第一知识图谱向量和第二知识图谱向量。例如,输电线路工程文本类型序列数据不能直接作为模型的输入,需要将字符串组成的文本表示为向量或其他形式,才能被机器学习算法进行处理。根据知识图谱和主体文本数据的模态差异,采用两种不同的特征表示方法:基于TransD的知识图谱向量化表示方法和基于Word2vec的文本主题特征的向量化表示。将基于这两种方法将输电线路工程的特征表示进行融合,使其嵌入到同一空间维度,作为Transformer特征提取的输入。具体地,输电线路工程的知识图谱特征包含实体h、实体的属性t、和实体h与实体的属性t之间的关系r,三元组(h,r,t)表示为实体的关系、属性描述。第一TransD模块和第二TransD模块用于对输电线路工程知识图谱进行向量化表示,并且对输电线路工程知识图谱的实体和关系进行向量化映射处理,其中,将三元组(h,r,t)向量化表示为(h,h p ,r,r p ,t,t p ),其中,h p r p t p 分别为实体向量h、关系向量r、属性向量t的投影向量表示,TransD利用两个以下投影矩阵M rh 、M rt 将实体从实体空间投影到关系空间:
Figure SMS_28
Figure SMS_29
其中,Im×n表示单位矩阵,h,h p ,t,t p ∈RNr,r p ∈RM;定义两个投影向量如下:
h=M rh h, t=M rt t;
使用以下评分函数衡量嵌入的三元组向量:
Figure SMS_30
给定约束为
Figure SMS_31
,嵌入训练的损失函数为:
Figure SMS_32
其中,[x]+表示max(0,x),
Figure SMS_33
表示边缘距离的超参数/>
Figure SMS_34
,/>
Figure SMS_35
,
Figure SMS_36
表示输电线路工程的知识图谱中存在的三元组(h,r,t),/>
Figure SMS_37
表示训练中随机抽取产生的负样例三元组(h',r',t')。
第一Doc2VeC模块和第二Doc2VeC模块,分别用于将来自于待搜索工程和任一候选工程的输电线路工程的主题文本特征向量化为第一主题文本向量和第二主题文本向量。具体地,第一Doc2VeC模块和第二Doc2VeC模块,用于通过以下公式将输电线路工程标题和工程简介进行特征融合处理:
T=concat(t title ,t abstract );
其中,t title t abstract 分别为输电线路工程的关键词和简介的向量表示,T为融合后的输电线路工程主题特征向量。将输电线路工程的主题文本特征向量化为主题文本向量包括:采用word2Vec的skip-gram模型进行主题文本的向量化处理,参考图3,skip-gram模型是包括输入层、隐藏层和输出层的三层神经网络模型。生成中心词w i 和上下文词的One-hot编码,并初始化权重矩阵L、U,其中,所述上下文词又称作背景词,对应的窗口称作背景窗口;输入层向量与权重矩阵L相乘,得到隐藏层的输出h=e(w i )L;隐藏层的输出矩阵h与权重矩阵U相乘以获得得分向量矩阵,并利用softmax回归计算每个词的概率:
e'(w c )=hU;
Figure SMS_38
skip-gram模型的目标函数是最大化下文词汇的对数似然:
L*=argmaxΣΣlogP(w c |w i );
其中,词向量L*矩阵包含词表V中所有词语的分布式向量表示。
参考图4,智能搜索模块130,智能搜索模块包括多层叠加的Transformer编码器模块、交互注意力模块、特征拼接模块、全连接模块和相似度计算模块。每层Transformer编码器模块132对知识图谱向量和主题文本向量捕捉输电线路工程关键特征的全局语义信息。每个Transformer编码器模块包括:多头注意力模块,有助于Transformer捕捉到丰富的输电线路工程输入数据特征;残差连接模块,用于将上一层的原始输入加到下一层中,以在网络深度加深的情况下避免由于梯度下降法引起的梯度消失;第一相加并归一化模块,将残差连接模块与多头注意力模块的输出相加,其中,针对每个样本计算均值和方差并采用归一化操作,将输入转化成均值为0方差为1的数据,以保证输入数据不落在激活函数的饱和区;前馈神经网络,将多头注意力结果映射到一个更大维度的特征空间,然后使用ReLU函数引入非线性进行筛选,最后恢复回原始维度;以及第二相加并归一化模块,将残差连接模块与前馈神经网络的输出相加以生成多层叠加的Transformer编码器模块的输出结果。
多头注意力模块的计算公式如下:
Figure SMS_39
Figure SMS_40
MultiHead(Q,K,V)=Concat(head i ,head 2,…,head h )W 0
其中,
Figure SMS_41
为词向量维度,dk为K向量的维度,/>
Figure SMS_42
,i=1,2,…,h,Q=K=V为输电线路工程知识图谱向量矩阵和主题文本特征的向量融合后的向量,/>
Figure SMS_43
分别表示对Q、K、V进行线性变换的矩阵,h表示注意力的个数,每个注意力捕获文本中一个子空间的信息,将h个注意力头进行拼接通过矩阵得到多头注意力值;第一相加并归一化模块和第二相加并归一化模块的层归一化的计算公式如下:
Figure SMS_44
Figure SMS_45
Figure SMS_46
其中,x i 表示输入矩阵x的第i维,m
Figure SMS_47
分别表示的x均值和方差,αβ是引入的待学习的参数,用于弥补归一化过程中损失掉的信息,H为所述输入矩阵的维数,/>
Figure SMS_48
是防止除数等于0设置的无穷小的数。
交互注意力模块用于从多层叠加的Transformer编码器模块的输出结果中顺序提取每个候选工程中的局部相似特征。特征拼接模块用于将多层叠加的Transformer编码器模块的输出结果和交互注意力模块的输出的局部相似特征通过向量拼接的方式进行融合。全连接模块用于采用全连接网络对特征进行权重调整及softmax函数进行预测分类。
相似度计算模块134,基于输电线路工程关键特征的全局语义信息顺序计算待搜索工程与每个候选工程之间的相似度。具体地,相似度计算模块的计算公式如下:
Figure SMS_49
Figure SMS_50
Figure SMS_51
Figure SMS_52
其中,E为工程候选集中的任一候选工程和待搜索工程的相似度矩阵,
Figure SMS_53
为待搜索工程经过Transformer编码后的全局语义特征的转置,T 2为工程候选集中的任一候选工程经过Transformer编码的全局语义特征,/>
Figure SMS_54
为输电线路工程1第i个特征向量的转置,T 2j 为输电线路工程2第j个特征向量,e ij 是矩阵E中第i行第j列的元素,表示待搜索工程中第i个词和工程候选集中的任一候选工程中第j个词的相似度,S 1i 是利用注意力机制提取工程候选集中的任一候选工程中与待搜索工程的相似信息,S 2j 是利用注意力机制提取待搜索工程与工程候选集中的任一候选工程的相似信息。结果提供模块140将待搜索工程与每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
参考图5,本发明的一个具体实施例,公开了一种基于知识图谱和主题文本的输电线路工程搜索方法,包括:在步骤S502中,从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括输电线路工程数据;在步骤S504中,将输电线路工程的知识图谱特征和主题文本特征分别向量化为知识图谱向量和主题文本向量;在步骤S506中,对知识图谱向量和主题文本向量捕捉输电线路工程关键特征的全局语义信息;在步骤S508中,基于输电线路工程关键特征的全局语义信息顺序计算待搜索工程与每个候选工程之间的相似度;以及在步骤S510中,将待搜索工程与每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
下文中,将参考图2至图4,以具体实例的方式对根据本发明实施例的基于知识图谱和主题文本的输电线路工程搜索装置进行详细说明。
本申请设计了一个“设计+运行+主题文本”的输电线路工程智能搜索场景,搜索者希望获得与待搜索工程在设计、运行特征相似且与某一主题相关的输电线路工程信息。
输电线路工程智能检索的目的是为了减少信息使用者查找工程信息的时间,从而减轻输电线路工程信息严重超载问题,并提高输电线路工程信息使用者的工作效率。输电线路工程包含丰富的技术和运行数据,现有的研究已经表明,利用知识图谱结构构建研究对象所包含的实体关系,可以深度挖掘出实体间的隐含关系,能够提高输电线路工程检索系统的搜索推荐能力。此外,输电线路工程包含丰富的主题文本数据,智能搜索可以通过模型的有效学习,强化对这些主题数据特征依赖。
参考图1,装置分为特征表示模块和智能搜索模块两部分,特征表示模块主要作用是实现输电线路工程设计技术和运行数据中关键特征的向量表达,智能搜索模块主要作用是提取特征表示模块中获取到的关键特征的全局语义信息,并进行特征相似度计算已实现智能搜索功能。
在特征表示模块中,首先将输电线路工程知识图谱结构数据和主题的文本结构数据使用向量化表达。其次,将特征模块中提取到的输电线路工程特征向量嵌入到基于Transformer编码器架构中,并通过特征融合拼接,并构建全连接网络,计算将待搜索工程和输电线路工程候选集中的相似度。
(1)特征表示模块
1)输电线路工程数据分类。输电线路工程数据体量庞大、种类繁多,根据输电线路工程的建设和运行情况,可以将数据分为静态的基础数据和动态的在线监测数据。
①基础数据。基础数据是指输电线路工程的台账、设计参数等数据。主要是指输电线路工程的关键参数信息,气象条件(风速、覆冰条件)、回路数(单、双回路等)、电压等级、海拔高度、地形条件。
②在线监测数据。在线监测数据是对输电线路工程运行工况进行连续或周期性的在线实时监视监测,能够反映相关输电线路工程的电气、机械性能,例如输电线路的绝缘值、接地电阻、杆塔荷载强度。
③输电线路工程信息抽取。输电线路工程的基础数据和在线监测数据存储于电网工程基建管控系统和电网工程运行监测系统中,数据格式有整型、实型、布尔型等结构化数据,还包含大量的文档形式的非结构化数据。针对结构化的输电线路工程数据可以采用结构化查询语言(Structured Query Language,SQL),进行字段查找,从而获取字段值。针对非结构化的数据,可以采用分词模型进行信息识别。例如:某220kV输电线路导线、地线和杆塔的描述为“导线采用2×JL/G1A-400/35钢芯铝绞线,地线采用2根24芯OPGW-240复合光缆,铁塔使用Q235热镀锌角钢等”,通过如式数据格式匹配的方式:
Data unstructed =<id,key,value>
其中,id表示工程信息的唯一标识符,key表示工程特征属性,value表示属性值。可以将示例中的文本处理为键值对格式,方便算法对非结构化的数据进行信息抽取。
2)输电线路工程知识图谱和主题文本的向量化表示。输电线路工程文本类型序列数据不能直接作为模型的输入,需要将字符串组成的文本表示为向量或其他形式,才能被机器学习算法进行处理。根据知识图谱和主体文本数据的模态差异,采用两种不同的特征表示方法:基于TransD的知识图谱向量化表示方法和基于Word2vec的文本主题特征的向量化表示。将基于这两种方法将输电线路工程的特征表示进行融合,使其嵌入到同一空间维度,作为Transformer特征提取的输入。
①输电线路工程知识图谱的向量化表示。首先,从输电线路工程数据集中抽取数据构建输电线路工程知识图谱,主要是抽取出输电线路工程的非(半)结构化数据包含的实体、属性和关系,作为构成知识图谱的基本元素。其次,利用向量化表示方法对形成的输电线路工程知识图谱数据进行表示。鉴于,TransD方法在进行图谱结构分析时,不需要考虑矩阵向量的乘法计算,可以大幅度降低算法运算的复杂性和工作量,且TransD可以使用较少的参数实现对图谱结构实体和关系的向量化映射处理。本文选使用TransD方法表征输电线路工程的知识图谱。
h表示实体,t表示实体的属性,ht之间的关系用r表示,那么三元组(h,r,t)表示为实体h的关系、属性描述。TransD每个命名符号对象(实体和关系)都由两个向量表示。第一个向量负责捕获实体(关系)的意义,另一个用于构建映射矩阵。例如,对于给定的三元组(h,r,t),它的向量表示为(h,h p ,r,r p ,t,t p ),下标p为投影向量的标识符,h p 、r p 、t p 为实体向量h、关系向量r、属性向量t的投影向量表示,h,h p ,t,t p ∈R N ,r,r p ∈R M 。对于每一个三元组,TransD利用两个投影矩阵M rh ,M rt ∈R m×n 来将实体从实体空间投影到关系空间,这两个投影矩阵定义如下:
Figure SMS_55
Figure SMS_56
其中I m×n 表示单位矩阵。投影矩阵由实体和关系共同决定,这样更能反映实体间的隐含关系。
然后,模型进行投影操作:
h=M rh h
t=M rt t
评分函数用于捕捉知识图谱中的各种关系,是衡量知识图谱三元组性能的重要指标。本方法使用以下评分函数来衡量嵌入的三元组向量的。
Figure SMS_57
,/>
给定约束为
Figure SMS_58
嵌入训练的损失函数为如下:
Figure SMS_59
其中,Σ为对三元组的集合进行累加,[x]+表示max(0,x),
Figure SMS_60
表示边缘距离的超参数,/>
Figure SMS_61
,/>
Figure SMS_62
。/>
Figure SMS_63
表示输电线路工程信息图谱中存在的三元组(h,r,t),/>
Figure SMS_64
训练中随机抽取产生的负样例三元组(h',r',t')。
②输电线路工程主题文本特征的向量化表示。文本数据是输电线路工程主要组成部分:包括输电线路工程名称、工程简介等。输电线路工程的筛选需要明确的主题特征作为依据。现有的筛选方式主要通过工程技术特征进行筛选,这些数据都可以从工程描述的基本字段获取。然而由于压缩了输电线路工程特征的语境描述,不同特征工程可能存在相同的工程特征,造成所提取的特征难以边界模糊,难以形成差异化的特征描述。为了能够使文本主题特征能够深度表达输电线路工程的核心特征,同时能够不破坏关键特征的内在逻辑特性。本申请将输电线路工程标题和工程简介进行特征融合处理,如以下公式所示。
T=concat(t title ,t abstract ),
其中,t title t abstract 分别为输电线路工程的关键词和简介的向量表示,T为融合后的输电线路工程主题特征特征向量。
对文本主题语言的学习本质是自然语言处理问题,需要将人可以理解的自然语言转化为机器可以理解的实数值向量。传统的词向量表示方法采用One-hot方法进行表征,原理是给每个词分配一个数字标识,这种方法容易造成词汇鸿沟现象,即文本中的词汇相对独立,每个单词在空间中都是正交的向量,无法反映出词与词之间的语义关系。为了尽可能保留输电线路工程文本主题的语义信息,本技术采用word2Vec的skip-gram模型进行主题文本的向量化处理,该模型本质上是具有“输入层-隐藏层-输出层”的三层神经网络模型。基于三层神经网络的结构,经过神经网络一系列线性和非线性的话操作,可以实现对复杂上下文信息的有效学习,从而使得输电线路工程的特征词语的分布式表示能够捕捉到更多的语义和语法信息。具体来说,输入层为One-hot编码,隐藏层为线性单元,输出层使用的是softmax回归。skip-gram模型的训练数据以句子集合的形式进行表示:
Figure SMS_65
其中,m i 表示第i个句子包含的词语数目,
Figure SMS_66
表示该句子的词序列w i1w i2、…、w mi 。统计训练数据集D中出现的词语,可以得到一个词汇表V,假设每个词语映射到一个d维的分布式向量,也就是词向量,那么词汇表V对应一个词向量矩阵L∈R|Vd 。skip-gram目标在于如何优化词向量矩阵L,为每个词语学习准确的分布式向量表示。在给定输电线路工程的语料中的任意一个n元组,(w i ,c)=w m-c ,…,w i-1,w i ,w i+1,…,w m+l c为移动窗口的大小以获取全局语义,移动窗口不同,覆盖范围也不同。skip-gram模型将中心目标词语w i 表示为e(w i )∈R|V|,模型的输出层是e(w m-c ),…,e(w i-1),e(w i+1) ,…,e(w m+l ),模型的结构如图3所示。/>
设定输入层至隐藏层的权重矩阵L∈R|Vd ,隐藏层至输出层的权重矩阵U∈R d×|V|。具体训练过程如下:
a、生成中心词w i 和上下文词的One-hot编码,并初始化矩阵L,U,其中,所述上下文词又称作背景词,对应的窗口称作背景窗口;
b、输入层向量与权重矩阵L相乘,得到应隐藏层的输出h=e(w i )L;
c、矩阵h和权重矩阵U相乘得到得分向量矩阵,并利用softmax回归计算每个词的概率:
e'(w c )=hU
Figure SMS_67
d、模型的目标函数是最大化下文词汇的对数似然:
L*=argmaxΣΣlogP(w c |w i )
词向量L*矩阵包含了词表V中所有词语的分布式向量表示。
(2)智能搜索模块
在智能搜索模块,通过对特征表示模块的特征向量所蕴含的信息进行有效的学习,来提高搜索者对输电线路工程搜索的准确性。输电线路工程的智能搜索模型结构如图2智能搜索模块所示。首先,输入输电线路工程的特征向量,其中每项输电线路工程的特征向量是由输电线路工程的知识图谱向量和主题的文本向量构成。在特征的学习阶段,传统的循环神经网络如长短期记忆网络、门控循环单元在编码句子时无法进行并行计算,尤其在层数深时模型计算速度严重下降,Transformer的优势在于不但能够并行计算,其中包含的自注意力机制使模型不止关注当前位置的向量,还能通过位置编码算法,确定其在上下文中的位置,从而获取上下文的语义信息。因此,搜索模型引入Transformer模型可以捕捉输电线路工程关键特征以及全局语义信息。本申请使用的是其中的编码器部分,编码器包含6层叠加的Transformer模块,经过6层叠加的Transformer模块初始输入向量被处理为机器学习容易学习的特征向量。编码器和每个Transformer模块的结构如图4所示,主要包含输入、多头注意力机制、残差连接、相加并归一化、前馈神经网络四个部分。其中,输入为待搜索工程、工程候选集中的工程。多头注意力机制有助于Transformer捕捉到更丰富的特征输电线路工程输入数据特征,类似于卷积神经网的多通道特征提取机制。残差连接的作用是网络深度加深的情况下解决因为梯度下降法引起的梯度消失问题,权重非常小,随着深度增加梯度会消失,将上一层的原始输入加到下一层中以避免梯度消失。相加并归一化首先将残差连接与多头注意力机制(前馈神经网络)的输出相加,其次,随着网络深度的增加,数据的分布会不断发生变化,为了保证数据特征分布随网络层数增加稳定性,针对每个样本计算均值和方差并采用归一化操作,把输入转化成均值为0方差为1的数据,保证输入数据不落在激活函数的饱和区,防止网络退化。前馈神经网络将多头注意力结果映射到一个更大维度的特征空间,然后使用ReLU函数引入非线性进行筛选,最后恢复回原始维度。
输入为句子词汇的词向量编码和位置编码之和,位置编码的目的是区分句子中词的位置关系,计算公式如下:
Figure SMS_68
Figure SMS_69
其中,pos表示词语在句子中的位置,i表示词向量的位置,d model 表示词向量的维度。多头注意力的计算公式如下:
Figure SMS_70
Figure SMS_71
MultiHead(Q,K,V)=Concat(head i ,head 2,…,head h )W 0
其中,
Figure SMS_72
为词向量维度,dk为K向量的维度,/>
Figure SMS_73
,i=1,2,…,h,Q=K=V为输电线路工程知识图谱向量矩阵和主题文本特征的向量融合后的向量,/>
Figure SMS_74
分别表示对Q、K、V进行线性变换的矩阵,h表示注意力的个数,每个注意力捕获文本中一个子空间的信息,将h个注意力头进行拼接通过矩阵得到多头注意力值。层归一化的计算公式如下:
Figure SMS_75
Figure SMS_76
Figure SMS_77
其中,x i 表示输入矩阵x的第i维,m
Figure SMS_78
分别表示的x均值和方差,αβ是引入的待学习的参数,弥补归一化的过程中损失掉的信息,H为所述输入矩阵的维数,/>
Figure SMS_79
是防止除数等于0设置的无穷小的数。层归一化的作用在于加快模型的收敛速度,提高训练效率。全连接层计算公式如下:
FFN(x)=max(0,xW1+b 1)W2+b 2
其中,W1,W2为全连接层的权重矩阵,b 1,b 2为全连接层的偏置。
为使搜索模型获得输电线路工程的局部特征,本申请设计一种交互注意力机制。具体的设计思路:首先计算相似度矩阵得到两个输电线路工程中特征向量的相似度,然后利用注意力机制分别对每个输电线路工程的特征向量进行重新编码,具体计算公式如下:
Figure SMS_80
Figure SMS_81
,/>
Figure SMS_82
Figure SMS_83
其中,设定待搜索工程数据集的代表为输电线路工程1,工程候选集的代表为输电线路工程2。E为所述工程候选集中的任一候选工程和所述待搜索工程的相似度矩阵,
Figure SMS_84
为所述待搜索工程经过Transformer编码后的全局语义特征的转置,T 2为所述工程候选集中的任一候选工程经过Transformer编码的全局语义特征,/>
Figure SMS_85
为输电线路工程1第i个特征向量的转置,T 2j 为输电线路工程2第j个特征向量,e ij 是矩阵E中第i行第j列的元素,表示所述待搜索工程中第i个词和所述工程候选集中的任一候选工程中第j个词的相似度,S 1i 是利用注意力机制提取所述工程候选集中的任一候选工程中与所述待搜索工程的相似信息,S 2j 是利用注意力机制提取所述待搜索工程与所述工程候选集中的任一候选工程的相似信息。S 1i S 2j 是搜索模型用于相似度判定的重要特征。
Transformer层编码了输入句子全局的语义特征t 1,t 2,其中t 1表示输电线路工程1的语义特征,t 2表示输电线路工程2的语义特征,交互注意力层提取了每个输电线路工程2中的局部相似特征s 1,s 2,特征融合层将两部分特征进行融合:
m=[t 1;t 2;t 1-t 2;s 1;s 2;s 1-s 2]
其中,t 1-t 2s 1-s 2是向量的相减操作,目的是为了获取差异特征,最后通过向量拼接的方式,得到最终的特征融合向量。输出层采用全连接网络对特征进行权重调整及softmax函数进行预测分类结果:
Figure SMS_86
式中,S1、S2分别为待搜索工程和工程候选集中的工程经过特征表示模块获得的向量表示,S1是一个大的矩阵,s1是矩阵里的一个元素,S2是一个大的矩阵,s2是矩阵里的一个元素。
Figure SMS_87
模型的损失函数采用交叉熵损失函数如下:
Figure SMS_88
其中,
Figure SMS_89
表示权重,r i R m 是以one-hot编码的标签真实值,y i R m 是由softmax函数预测的每个类别的概率,g是类别的个数。/>
Figure SMS_90
表示L2正则化项,可以防止训练模型过拟合,提高模型的泛化能力;λ是L2正则的超参数,本申请同时使用L2正则和dropout来防止模型过拟合。dropout指的是在神经网络层中,随即删掉一定比例的神经元,让它们不发挥传递作用,使网络模型变得稀疏的一种方法。
本领域技术人员可以理解,实现上述实施例方法的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读存储介质中。其中,所述计算机可读存储介质为磁盘、光盘、只读存储记忆体或随机存储记忆体等。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。

Claims (10)

1.一种基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,包括:
特征获取模块,从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括所述输电线路工程数据;
特征表示模块,将输电线路工程的所述知识图谱特征和所述主题文本特征分别向量化为知识图谱向量和主题文本向量;
智能搜索模块,所述智能搜索模块包括多层叠加的Transformer编码器模块和相似度计算模块,其中
Transformer编码器模块,对所述知识图谱向量和所述主题文本向量捕捉输电线路工程关键特征的全局语义信息;
相似度计算模块,基于所述输电线路工程关键特征的全局语义信息顺序计算所述待搜索工程与每个候选工程之间的相似度;以及
结果提供模块,将所述待搜索工程与所述每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
2.根据权利要求1所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述特征表示模块包括第一TransD模块、第一Doc2VeC模块、第二TransD模块和第二Doc2VeC模块,其中,
所述第一TransD模块和所述第二TransD模块,分别用于将来自于所述待搜索工程和所述任一候选工程的输电线路工程的知识图谱特征向量化为第一知识图谱向量和第二知识图谱向量;
所述第一Doc2VeC模块和所述第二Doc2VeC模块,分别用于将来自于所述待搜索工程和所述任一候选工程的输电线路工程的主题文本特征向量化为第一主题文本向量和第二主题文本向量。
3.根据权利要求2所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述输电线路工程的知识图谱特征包含实体h、实体的属性t、和实体h与实体的属性t之间的关系r,三元组(h,r,t)表示为实体的关系、属性描述;
所述第一TransD模块和所述第二TransD模块,用于对所述输电线路工程知识图谱进行向量化表示,并且对所述输电线路工程知识图谱的实体和关系进行向量化映射处理,其中,将所述三元组(h,r,t)向量化表示为(h,h p ,r,r p ,t,t p ),其中,h p r p t p 分别为实体向量h、关系向量r、属性向量t的投影向量表示,TransD利用两个以下投影矩阵M rh 、M rt 将实体从实体空间投影到关系空间:
Figure QLYQS_1
Figure QLYQS_2
其中,Im×n表示单位矩阵,h,h p ,t,t p ∈RNr,r p ∈RM
定义两个投影向量如下:
h=M rh h,t=M rt t;
使用以下评分函数衡量嵌入的三元组向量:
Figure QLYQS_3
给定约束为
Figure QLYQS_4
,嵌入训练的损失函数为:
Figure QLYQS_5
其中,[x]+表示max(0,x),
Figure QLYQS_6
表示边缘距离的超参数,/>
Figure QLYQS_7
,/>
Figure QLYQS_8
,/>
Figure QLYQS_9
表示输电线路工程信息图谱中存在的三元组(h,r,t),/>
Figure QLYQS_10
为训练中随机抽取产生的负样例三元组(h',r',t')。
4.根据权利要求2所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述第一Doc2VeC模块和所述第二Doc2VeC模块,用于通过以下公式将输电线路工程标题和工程简介进行特征融合处理:
T=concat(ttitle,tabstract)
其中,ttitle、tabstract分别为输电线路工程的关键词和简介的向量表示,T为融合后的输电线路工程主题特征向量;
将输电线路工程的所述主题文本特征向量化为主题文本向量包括:采用word2Vec的skip-gram模型进行主题文本的向量化处理,所述skip-gram模型是包括输入层、隐藏层和输出层的三层神经网络模型,其中,
生成中心词wi和上下文词的One-hot编码,并初始化权重矩阵L、U,其中,所述上下文词又称作背景词,对应的窗口称作背景窗口;
输入层向量与权重矩阵L相乘,得到所述隐藏层的输出h=e(wi)L;
所述隐藏层的输出矩阵h与所述权重矩阵U相乘以获得得分向量矩阵,并利用softmax回归计算每个词的概率:
e'(wc)=hU
Figure QLYQS_11
其中,i所述中心词的索引,V表示文本序列中的所含的词序列形成的词汇表,k为词汇表中词序列的索引,c为背景窗口大小,指中心词相关的上下文词的数量;
所述skip-gram模型的目标函数是最大化下文词汇的对数似然:
L*=argmaxΣΣlogP(wc|wi);
其中,词向量L*矩阵包含词表V中所有词语的分布式向量表示。
5.根据权利要求2所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,每个Transformer编码器模块包括:
多头注意力模块,有助于Transformer捕捉到丰富的输电线路工程输入数据特征;
残差连接模块,用于将上一层的原始输入加到下一层中,以在网络深度加深的情况下避免由于梯度下降法引起的梯度消失;
第一相加并归一化模块,将所述残差连接模块与所述多头注意力模块的输出相加,其中,针对每个样本计算均值和方差并采用归一化操作,将输入转化成均值为0方差为1的数据,以保证输入数据不落在激活函数的饱和区;
前馈神经网络,将多头注意力结果映射到一个更大维度的特征空间,然后使用ReLU函数引入非线性进行筛选,最后恢复回原始维度;以及
第二相加并归一化模块,将所述残差连接模块与所述前馈神经网络的输出相加以生成所述多层叠加的Transformer编码器模块的输出结果。
6.根据权利要求5所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述智能搜索模块包括:交互注意力模块、特征拼接模块和全连接模块,
所述交互注意力模块,用于从所述多层叠加的Transformer编码器模块的输出结果中顺序提取每个候选工程中的局部相似特征;
所述特征拼接模块,用于将所述多层叠加的Transformer编码器模块的输出结果和所述交互注意力模块的输出的局部相似特征通过向量拼接的方式进行融合;
所述全连接模块,用于采用全连接网络对特征进行权重调整及softmax函数进行预测分类。
7.根据权利要求5所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述多头注意力模块的计算公式如下:
Figure QLYQS_12
Figure QLYQS_13
MultiHead(Q,K,V)=Concat(headi,head2,…,headh)W0
其中,
Figure QLYQS_14
为词向量维度,dk为K向量的维度,
Figure QLYQS_15
,i=1,2,…,h,Q=K=V为输电线路工程知识图谱向量矩阵和主题文本特征的向量融合后的向量,/>
Figure QLYQS_16
分别表示对Q、K、V进行线性变换的矩阵,h表示注意力的个数,每个注意力捕获文本中一个子空间的信息,将h个注意力头进行拼接通过矩阵得到多头注意力值;
所述第一相加并归一化模块和所述第二相加并归一化模块的层归一化的计算公式如下:
Figure QLYQS_17
Figure QLYQS_18
,/>
Figure QLYQS_19
其中,xi表示输入矩阵x的第i维,m和
Figure QLYQS_20
分别表示的x均值和方差,α、β是引入的待学习的参数,用于弥补归一化过程中损失掉的信息,H为所述输入矩阵的维数,/>
Figure QLYQS_21
是防止除数等于0设置的无穷小的数。
8.根据权利要求7所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述相似度计算模块的计算公式如下:
Figure QLYQS_22
Figure QLYQS_23
Figure QLYQS_24
Figure QLYQS_25
其中,E为所述工程候选集中的任一候选工程和所述待搜索工程的相似度矩阵,
Figure QLYQS_26
为所述待搜索工程经过Transformer编码后的全局语义特征的转置,T2为所述工程候选集中的任一候选工程经过Transformer编码的全局语义特征,/>
Figure QLYQS_27
为输电线路工程1第i个特征向量的转置,T 2j 为输电线路工程2第j个特征向量,eij是矩阵E中第i行第j列的元素,表示所述待搜索工程中第i个词和所述工程候选集中的任一候选工程中第j个词的相似度,s1i是利用注意力机制提取所述工程候选集中的任一候选工程中与所述待搜索工程的相似信息,s2j是利用注意力机制提取所述待搜索工程与所述工程候选集中的任一候选工程的相似信息。
9.根据权利要求1至8中的任一项所述的基于知识图谱和主题文本的输电线路工程搜索装置,其特征在于,所述输电线路工程数据包括静态基础数据和动态在线监测数据,其中,
所述静态基础数据是指输电线路工程的关键参数信息,包括气象条件、回路数、电压等级、海拔高度、地形条件;以及
所述动态在线监测数据是指对所述输电线路工程运行工况进行连续地或周期性地在线实时监测,包括输电线路的绝缘值、接地电阻、杆塔荷载强度。
10.一种基于知识图谱和主题文本的输电线路工程搜索方法,其特征在于,包括:
从输电线路工程数据中提取输电线路工程的知识图谱特征和主题文本特征,其中,工程候选集中的任一候选工程和待搜索工程均包括所述输电线路工程数据;
将输电线路工程的所述知识图谱特征和所述主题文本特征分别向量化为知识图谱向量和主题文本向量;
对所述知识图谱向量和所述主题文本向量捕捉输电线路工程关键特征的全局语义信息;
基于所述输电线路工程关键特征的全局语义信息顺序计算所述待搜索工程与每个候选工程之间的相似度;以及
将所述待搜索工程与所述每个候选工程之间的相似度进行比较并且将相似度最高的候选工程作为搜索结果。
CN202310436739.6A 2023-04-23 2023-04-23 基于知识图谱和主题文本的输电线路工程搜索方法和装置 Active CN116186350B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310436739.6A CN116186350B (zh) 2023-04-23 2023-04-23 基于知识图谱和主题文本的输电线路工程搜索方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310436739.6A CN116186350B (zh) 2023-04-23 2023-04-23 基于知识图谱和主题文本的输电线路工程搜索方法和装置

Publications (2)

Publication Number Publication Date
CN116186350A true CN116186350A (zh) 2023-05-30
CN116186350B CN116186350B (zh) 2023-07-25

Family

ID=86450868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310436739.6A Active CN116186350B (zh) 2023-04-23 2023-04-23 基于知识图谱和主题文本的输电线路工程搜索方法和装置

Country Status (1)

Country Link
CN (1) CN116186350B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114657A (zh) * 2023-10-23 2023-11-24 国网江西省电力有限公司超高压分公司 基于电力设备巡检知识图谱的故障信息预警系统及方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691740B1 (en) * 2017-11-02 2020-06-23 Google Llc Interface elements for directed display of content data items
CN114519351A (zh) * 2022-02-21 2022-05-20 国家计算机网络与信息安全管理中心上海分中心 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
CN114637855A (zh) * 2022-03-09 2022-06-17 腾讯科技(深圳)有限公司 基于知识图谱的搜索方法、装置、计算机设备及存储介质
CN114780766A (zh) * 2022-04-12 2022-07-22 浙大宁波理工学院 基于Transformer模型的细粒度图文检索方法及系统
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备
CN115408536A (zh) * 2022-08-26 2022-11-29 大连理工大学 一种基于上下文信息融合的知识图谱补全方法
CN115687687A (zh) * 2023-01-05 2023-02-03 山东建筑大学 一种面向开放域查询的视频片段搜索方法及系统
CN115761753A (zh) * 2022-09-29 2023-03-07 浙江大学 一种融合知识图谱的检索式知识前缀引导视觉问答方法
CN115983250A (zh) * 2023-01-09 2023-04-18 国网湖南省电力有限公司 基于知识图谱的电力异常数据根源定位方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10691740B1 (en) * 2017-11-02 2020-06-23 Google Llc Interface elements for directed display of content data items
CN114519351A (zh) * 2022-02-21 2022-05-20 国家计算机网络与信息安全管理中心上海分中心 一种基于用户意图嵌入图谱学习的主题文本快速检测方法
CN114637855A (zh) * 2022-03-09 2022-06-17 腾讯科技(深圳)有限公司 基于知识图谱的搜索方法、装置、计算机设备及存储介质
CN114780766A (zh) * 2022-04-12 2022-07-22 浙大宁波理工学院 基于Transformer模型的细粒度图文检索方法及系统
CN115080694A (zh) * 2022-06-27 2022-09-20 国网甘肃省电力公司电力科学研究院 一种基于知识图谱的电力行业信息分析方法及设备
CN115408536A (zh) * 2022-08-26 2022-11-29 大连理工大学 一种基于上下文信息融合的知识图谱补全方法
CN115761753A (zh) * 2022-09-29 2023-03-07 浙江大学 一种融合知识图谱的检索式知识前缀引导视觉问答方法
CN115687687A (zh) * 2023-01-05 2023-02-03 山东建筑大学 一种面向开放域查询的视频片段搜索方法及系统
CN115983250A (zh) * 2023-01-09 2023-04-18 国网湖南省电力有限公司 基于知识图谱的电力异常数据根源定位方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ABHIJEET KUMAR; VINAYAK KULKRANI; ABHISHEK PANDEY; ANKIT GUPTA; MRIDUL MISHRA: "Surfacing Thematic Universe using Knowledge Mining and Unsupervised Concept Graph", 《 2021 IEEE 6TH INTERNATIONAL CONFERENCE ON COMPUTING, COMMUNICATION AND AUTOMATION (ICCCA)》 *
庞娜;钱力;段美珍;: "大数据环境下科技信息精准搜索服务探析", 《情报科学》, no. 07 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117114657A (zh) * 2023-10-23 2023-11-24 国网江西省电力有限公司超高压分公司 基于电力设备巡检知识图谱的故障信息预警系统及方法

Also Published As

Publication number Publication date
CN116186350B (zh) 2023-07-25

Similar Documents

Publication Publication Date Title
CN110888980B (zh) 基于知识增强的注意力神经网络的隐式篇章关系识别方法
WO2023065617A1 (zh) 基于预训练模型和召回排序的跨模态检索系统及方法
CN111462750A (zh) 语义与知识增强的端到端任务型对话系统及方法
CN113255366B (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN113743119B (zh) 中文命名实体识别模块、方法、装置及电子设备
CN113626589A (zh) 一种基于混合注意力机制的多标签文本分类方法
CN116186350B (zh) 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
CN112434159A (zh) 一种利用深度神经网络进行论文多标签分类的方法
CN116682144B (zh) 一种基于多层次跨模态差异调和的多模态行人重识别方法
Zhuang et al. Improving remote sensing image captioning by combining grid features and transformer
CN116821291A (zh) 基于知识图谱嵌入与语言模型交替学习的问答方法及系统
CN116662565A (zh) 基于对比学习预训练的异质信息网络关键词生成方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN112559741B (zh) 核电设备缺陷记录文本分类方法、系统、介质及电子设备
Shang A computational intelligence model for legal prediction and decision support
CN117349311A (zh) 一种基于改进RetNet的数据库自然语言查询方法
CN116775929A (zh) 一种基于多层次细粒度语义对齐的跨模态检索方法
CN116843175A (zh) 一种合同条款风险检查方法、系统、设备和存储介质
Cai et al. Multi‐level deep correlative networks for multi‐modal sentiment analysis
CN114707829A (zh) 基于结构化数据线性展开的目标人员再犯风险预测方法
CN115292490A (zh) 一种用于政策解读语义的分析算法
CN114692604A (zh) 一种基于深度学习的方面级情感分类方法
CN113987536A (zh) 数据表中字段安全等级确定方法、装置、电子设备及介质
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant