CN111680163A - 一种面向电力科技成果的知识图谱可视化方法 - Google Patents

一种面向电力科技成果的知识图谱可视化方法 Download PDF

Info

Publication number
CN111680163A
CN111680163A CN202010314943.7A CN202010314943A CN111680163A CN 111680163 A CN111680163 A CN 111680163A CN 202010314943 A CN202010314943 A CN 202010314943A CN 111680163 A CN111680163 A CN 111680163A
Authority
CN
China
Prior art keywords
vector
representation
entity
setting
activation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010314943.7A
Other languages
English (en)
Inventor
刘海波
姜国义
毛雪岷
孙敏敏
苏林华
高春辉
史昌明
李文波
孙睿
曹阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Hefei Technology Innovation Engineering Institute of CAS
East Inner Mongolia Electric Power Co Ltd
Electric Power Research Institute of State Grid Eastern Inner Mongolia Power Co Ltd
Original Assignee
Hefei University of Technology
Hefei Technology Innovation Engineering Institute of CAS
East Inner Mongolia Electric Power Co Ltd
Electric Power Research Institute of State Grid Eastern Inner Mongolia Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology, Hefei Technology Innovation Engineering Institute of CAS, East Inner Mongolia Electric Power Co Ltd, Electric Power Research Institute of State Grid Eastern Inner Mongolia Power Co Ltd filed Critical Hefei University of Technology
Priority to CN202010314943.7A priority Critical patent/CN111680163A/zh
Publication of CN111680163A publication Critical patent/CN111680163A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Animal Behavior & Ethology (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种面向电力科技成果的知识图谱可视化方法,与现有技术相比解决了电力科技成果数据量庞杂难以进行语义分析的缺陷。本发明包括以下步骤:获取电力科技成果数据;设定基于激活向量的结构表示模型;设定基于CNN的文本表示模型;基于联合训练的知识表示;知识图谱可视化结果的获得。本发明融合基于激活向量的结构知识表示方法和基于CNN的文本信息知识表示方法,可以有效地减少计算参数、模型运行高效,有效地获取文本结构、文本信息中的特征,使得表达结果更加准确。

Description

一种面向电力科技成果的知识图谱可视化方法
技术领域
本发明涉及语义分析技术领域,具体来说是一种面向电力科技成果的知识图谱可视化方法。
背景技术
随着电力信息化的不断深入和电力科技的不断发展,电力科技成果正以前所未有的速度增长,迫切需要电力科技成果的有效管理。然而由于各级电力企业在电力科技成果管理过程中缺乏标准化的数据输出格式的规定,使得数据来源种类不一、数据表示格式多样,科技成果之间的关系也错综复杂。如何高效、灵活地表示电力科技成果内在的关系和潜在的知识,是实现电力科技成果高效管理、转化价值最大化的基础。
结构化的知识图谱包含了大量的语义信息,是有效解决电力科技成果海量知识挖掘分析的重要技术手段之一。知识图谱的知识表示方法是整个知识图谱构建的基础性的重要技术,是贯穿知识图谱构建于应用的关键点。知识表示方法能够在低维语义空间中高效计算实体和关系的语义联系,可充分利用大规模知识图谱,提升相关领域的服务水平。
随着知识图谱表示方法的广泛应用,各种各样的知识表示方法也被提出,特别是多种模型方法,例如:距离模型可以利用学习到的知识表示,实现两实体之间关系的捕捉,但协同性差;张量神经模型可以大大增强不同实体之间的语义联系,但是需要大量的三元组样例学习,模型计算要求高,难以在大规模稀疏的知识图谱上实现;TransE模型计算复杂度低,但在解决复杂关系问题上存在局限性;TransH、TransR模型通过调整模型,关注训练实体间的结构信息,可处理知识表示中的复杂关系。但是,对日益庞大、形式多样、跨多专业的电力科技成果知识图谱,仅仅关注实体间的关系而忽略具有丰富语义的实体描述文本,难以实现精准高效的知识表示。
同时,电力科技成果领域的数据具有复杂关系、庞大的数据等特点,传统的知识表示方法针对大规模电力科技成果数据,其方法实现需要计算大量数据、计算复杂度高,往往会忽略数据中的丰富信息。
因此,如何开发出一种对电力科技成果数据进行有效语义分析已经成为急需解决的技术问题。
发明内容
本发明的目的是为了解决现有技术中电力科技成果数据量庞杂难以进行语义分析的缺陷,提供一种面向电力科技成果的知识图谱可视化方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种面向电力科技成果的知识图谱可视化方法,包括以下步骤:
获取电力科技成果数据:获取电力科技成果数据三元组(H,R,T);
设定基于激活向量的结构表示模型:利用基于激活向量的结构表示模型实现基于三元组结构信息的向量表示,并对其进行向量化处理,所述的向量化处理为对给定电力科技成果数据三元组(H,R,T)进行训练,向量化结果为(h,r,t),其中:
Figure BDA0002459172770000021
分别为头实体h和尾实体t的向量表示,
Figure BDA0002459172770000022
为关系r的向量表示,n为超参,代表向量空间的维度;
设定基于CNN的文本表示模型:预处理原始文本后,并将某个实体的全文信息作词向量化处理后作为输入,生成该实体基于文本的向量表示;
基于联合训练的知识表示:设定融合上述两种实体表示学习方法的损失函数,并融合两种实体表示方法至相同的连续向量空间中,并与激活向量在基于激活向量的结构表示模型进行联合训练,实现知识表示并得到正确的三元组;
知识图谱可视化结果的获得:使用图数据库Neo4j保存融合实体表示和基于激活向量后正确的三元组,将需要可视化展示的数据取出,转成json格式,利用d3.js在网页端进行可视化展示,实现电力科技成果知识图谱的可视化。
所述设定基于激活向量的结构表示模型包括以下步骤:
设定激活向量
Figure BDA0002459172770000023
e是一个二值向量,其中1表示激活、0表示抑制,用于判别实体是否与关系存在联系,即在不同的关系r下,实体若与关系r相关则被激活,无关则被抑制,使得同一实体在不同关系下具有不同表达;每一个关系都对应一个激活向量,表示与该关系对应的实体向量的状态是被激活或者是被抑制;
设定关系r下被激活向量激活的头实体、尾实体分别表示为:
Figure BDA0002459172770000031
Figure BDA0002459172770000032
Figure BDA0002459172770000033
其中:
Figure BDA0002459172770000034
表示哈达玛积;h,t,r为三元组(H,R,T)的向量化表示;hr,tr,rr分别表示为在关系r下被激活后的头实体、尾实体、关系的向量表示;er为关系r下的激活向量;
设定基于激活向量的损失函数,其表达式如下:
Figure BDA0002459172770000035
对该结构模型进行训练时,设定约束条件如下:即对任意的向量h,r,t,其约束条件为:
‖h‖2≤1,‖t‖2≤1,‖r‖2≤1
‖hr2≤1,‖tr2≤1,‖rr2≤1。
所述设定基于CNN的文本表示模型包括以下步骤:
设定CNN的输入层与卷积层:
首先预处理原始文本后,将某个实体的全文信息作词向量化处理得到X(l),并作为CNN架构的卷积层输入,Z(l)为输出结果;
设定X(1)为第l层卷积层的输入向量,表示单词的词向量,设定滑动窗口为k,经过滑动窗口的结果为
Figure BDA0002459172770000036
其计算式为
Figure BDA0002459172770000037
Z(l)为第l层卷积层的输出,第i个输出向量
Figure BDA0002459172770000038
是计算式为
Figure BDA0002459172770000039
其中
Figure BDA00024591727700000310
是第l层卷积层的总卷积核,b(l)是第l层卷积层中的偏置,σ为激活函数;
设定最大池化层:使用最大池化策略保留文本中的强特征,选择每个窗口中特征值中的最大特征,构建一个新的特征向量
Figure BDA0002459172770000041
Figure BDA0002459172770000042
其中,
Figure BDA0002459172770000043
为最大池化层得到的新特征向量,
Figure BDA0002459172770000044
为第1层卷积层的输出结果;
设定平均池化层:使用平均池化策略关注句子的局部特征,使用大小为m,互不重叠的窗口将卷积层的输出向量
Figure BDA0002459172770000045
进行分割,然后选择每个窗口中特征值的平均值,构建一个新的特征向量
Figure BDA0002459172770000046
其表达式如下:
Figure BDA0002459172770000047
其中
Figure BDA0002459172770000048
为第2层卷积层的输出向量,m为滑动窗口大小,
Figure BDA0002459172770000049
为经过平均池化层得到的新特征向量;
设定模型优化方法及目标函数:使用反向传播的随机梯度下降法,即从输出层到第二层平均池化层,再到第二层卷积层,再到第一层最大池化层,再到第一层卷积层,最后到词向量,参数从后向前依次调整;
设定训练的目标函数为:
Figure BDA00024591727700000410
其中[x]+=max(0,x)表示返回0和x之间较大的那个值;γ>0为间隔超参数,表示正确三元组损失函数值与错误三元组损失函数值之间的间隔距离,f(h,t,r)表示为正确三元组的损失函数,f(h′,t′,r′)为错误三元组的损失函数,S为正确三元组的集合,S-为错误三元组的集合,错误三元组是通过将正确三元组中的头实体、尾实体或者关系交替来构成。
所述基于联合训练的知识表示包括以下步骤:
设定融合文本信息和结构信息的评分函数:
将上述的实体表示与二值激活向量在基于激活向量的结构表示模型下进行联合训练,并将基于激活向量的结构表示模型的评分函数定义如下:
E=ES+ET
其中ES是基于结构表示的评分函数fr(h,t),ET是基于文本表示的评分函数。
ET公式如下
ET=ETT+ETS+EST
其中:
Figure BDA0002459172770000051
Figure BDA0002459172770000052
Figure BDA0002459172770000053
Figure BDA0002459172770000054
Figure BDA0002459172770000055
Figure BDA0002459172770000056
Figure BDA0002459172770000057
评分函数ET将两种实体表示学习方法融合在一起,将实体表示投影到相同的向量空间,使得两种表示学习相互影响,共同作用,最终得到融合文本信息和结构信息的知识表示;
在评分函数的规定阈值内,整理得出正确的三元组。
有益效果
本发明的一种面向电力科技成果的知识图谱可视化方法,与现有技术相比提出融合基于激活向量的结构知识表示方法和基于CNN的文本信息知识表示方法,可以有效地减少计算参数、模型运行高效,有效地获取文本结构、文本信息中的特征,使得表达结果更加准确。
本发明突破现有方法仅仅关注结构信息,忽略文本中的语义信息等缺陷,处理大规模知识图谱中的复杂关系,通过可视化准确、高效地表示了电力科技成果知识图谱的知识,对构建高质量高水平的电力科技成果知识图谱具有重要意义。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种面向电力科技成果的知识图谱可视化方法,包括以下步骤:
第一步,获取电力科技成果数据:获取电力科技成果数据三元组(H,R,T)。
第二步,设定基于激活向量的结构表示模型。利用基于激活向量的结构表示模型实现基于三元组结构信息的向量表示,并对其进行向量化处理,所述的向量化处理为对给定电力科技成果数据三元组(H,R,T)进行训练,向量化结果为(h,r,t),其中:
Figure BDA0002459172770000061
分别为头实体h和尾实体t的向量表示,
Figure BDA0002459172770000062
为关系r的向量表示,n为超参,代表向量空间的维度。
传统的基于结构的表示模型,对同一实体在不同关系下的各个维度均为同等对待,具体表现为在处理数据中一对多、多对一等复杂关系时性能不佳。本发明设定二值激活向量,使得该表示模型对同一实体在不同关系下得到不同的关注度,即只有部分维度会被具体的关系所影响,其他无关或关联程度较小的维度可被认定为噪声。激活向量的设定,保证同一实体在不同关系下具有不同的表达,提高模型的表达性能。
设定基于激活向量的结构表示模型的具体步骤如下:
(1)设定激活向量
Figure BDA0002459172770000063
e是一个二值向量,其中1表示激活、0表示抑制,用于判别实体是否与关系存在联系,即在不同的关系r下,实体若与关系r相关则被激活,无关则被抑制,使得同一实体在不同关系下具有不同表达;每一个关系都对应一个激活向量,表示与该关系对应的实体向量的状态是被激活或者是被抑制。
(2)设定关系r下被激活向量激活的头实体、尾实体分别表示为:
Figure BDA0002459172770000071
Figure BDA0002459172770000072
Figure BDA0002459172770000073
其中:
Figure BDA0002459172770000074
表示哈达玛积;h,t,r为三元组(H,R,T)的向量化表示;hr,tr,rr分别表示为在关系r下被激活后的头实体、尾实体、关系的向量表示;er为关系r下的激活向量。
(3)设定基于激活向量的损失函数,其表达式如下:
Figure BDA0002459172770000075
对该结构模型进行训练时,设定约束条件如下:即对任意的向量h,r,t,其约束条件为:
‖h‖2≤1,‖t‖2≤1,‖r‖2≤1
‖hr2≤1,‖tr2≤1,‖rr2≤1。
其中,hr,tr,rr分别表示为在关系r下被激活后的头实体、尾实体、关系的向量表示;L1、L2为L1范数、L2范数。
第三步,设定基于CNN的文本表示模型:预处理原始文本后,并将某个实体的全文信息作词向量化处理后作为输入,生成该实体基于文本的向量表示。
传统表示模型大多依据实体与关系之间的结构信息来学习实体和关系的表示,而往往忽略了实体的文本信息。本发明针对电力科技成果数据的多样性及丰富性,提出基于文本信息的表示模型,有助于更准确地学习知识表示。
设定基于CNN的文本表示模型具体步骤如下:
(1)设定CNN的输入层与卷积层:
首先预处理原始文本后,将某个实体的全文信息作词向量化处理得到X(l),并作为CNN架构的卷积层输入,Z(l)为输出结果;
设定X(1)为第l层卷积层的输入向量,表示单词的词向量,设定滑动窗口为k,经过滑动窗口的结果为
Figure BDA0002459172770000081
其计算式为
Figure BDA0002459172770000082
Z(l)为第l层卷积层的输出,第i个输出向量
Figure BDA0002459172770000083
是计算式为
Figure BDA0002459172770000084
其中
Figure BDA0002459172770000085
是第l层卷积层的总卷积核,b(l)是第l层卷积层中的偏置,σ为激活函数。
(2)设定最大池化层:使用最大池化策略保留文本中的强特征,选择每个窗口中特征值中的最大特征,构建一个新的特征向量
Figure BDA0002459172770000086
Figure BDA0002459172770000087
其中,
Figure BDA0002459172770000088
为最大池化层得到的新特征向量,
Figure BDA0002459172770000089
为第1层卷积层的输出结果。
(3)设定平均池化层:使用平均池化策略关注句子的局部特征,使用大小为m,互不重叠的窗口将卷积层的输出向量
Figure BDA00024591727700000810
进行分割,然后选择每个窗口中特征值的平均值,构建一个新的特征向量
Figure BDA00024591727700000811
其表达式如下:
Figure BDA00024591727700000812
其中
Figure BDA00024591727700000813
为第2层卷积层的输出向量,m为滑动窗口大小,
Figure BDA00024591727700000814
为经过平均池化层得到的新特征向量。
(4)设定模型优化方法及目标函数:使用反向传播的随机梯度下降法,即从输出层到第二层平均池化层,再到第二层卷积层,再到第一层最大池化层,再到第一层卷积层,最后到词向量,参数从后向前依次调整;
设定训练的目标函数为:
Figure BDA0002459172770000091
其中[x]+=max(0,x)表示返回0和x之间较大的那个值;γ>0为间隔超参数,表示正确三元组损失函数值与错误三元组损失函数值之间的间隔距离,f(h,t,r)表示为正确三元组的损失函数,f(h′,t′,r′)为错误三元组的损失函数,S为正确三元组的集合,S-为错误三元组的集合,错误三元组是通过将正确三元组中的头实体、尾实体或者关系交替来构成。
第四步,基于联合训练的知识表示:设定融合上述两种实体表示学习方法的损失函数,并融合两种实体表示方法至相同的连续向量空间中,并与激活向量在基于激活向量的结构表示模型进行联合训练,实现知识表示并得到正确的三元组。其具体步骤如下:
(1)设定融合文本信息和结构信息的评分函数:
将上述的实体表示与二值激活向量在基于激活向量的结构表示模型下进行联合训练,并将基于激活向量的结构表示模型的评分函数定义如下:
E=ES+ET
其中ES是基于结构表示的评分函数fr(h,t),ET是基于文本表示的评分函数。
ET公式如下
ET=ETT+ETS+EST
其中:
Figure BDA0002459172770000092
Figure BDA0002459172770000093
Figure BDA0002459172770000094
Figure BDA0002459172770000095
Figure BDA0002459172770000096
Figure BDA0002459172770000097
Figure BDA0002459172770000098
评分函数ET将两种实体表示学习方法融合在一起,将实体表示投影到相同的向量空间,使得两种表示学习相互影响,共同作用,最终得到融合文本信息和结构信息的知识表示;
(2)在评分函数的规定阈值内,整理得出正确的三元组。
第五步,知识图谱可视化结果的获得:使用图数据库Neo4j保存融合实体表示和基于激活向量后正确的三元组,将需要可视化展示的数据取出,转成json格式,利用d3.js在网页端进行可视化展示,实现电力科技成果知识图谱的可视化。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (4)

1.一种面向电力科技成果的知识图谱可视化方法,其特征在于,包括以下步骤:
11)获取电力科技成果数据:获取电力科技成果数据三元组(H,R,T);
12)设定基于激活向量的结构表示模型:利用基于激活向量的结构表示模型实现基于三元组结构信息的向量表示,并对其进行向量化处理,所述的向量化处理为对给定电力科技成果数据三元组(H,R,T)进行训练,向量化结果为(h,r,t),其中:
Figure FDA0002459172760000011
分别为头实体h和尾实体t的向量表示,
Figure FDA0002459172760000012
为关系r的向量表示,n为超参,代表向量空间的维度;
13)设定基于CNN的文本表示模型:预处理原始文本后,并将某个实体的全文信息作词向量化处理后作为输入,生成该实体基于文本的向量表示;
14)基于联合训练的知识表示:设定融合上述两种实体表示学习方法的损失函数,并融合两种实体表示方法至相同的连续向量空间中,并与激活向量在基于激活向量的结构表示模型进行联合训练,实现知识表示并得到正确的三元组;
15)知识图谱可视化结果的获得:使用图数据库Neo4j保存融合实体表示和基于激活向量后正确的三元组,将需要可视化展示的数据取出,转成json格式,利用d3.js在网页端进行可视化展示,实现电力科技成果知识图谱的可视化。
2.根据权利要求1所述的一种面向电力科技成果的知识图谱可视化方法,其特征在于,所述设定基于激活向量的结构表示模型包括以下步骤:
21)设定激活向量
Figure FDA0002459172760000013
e是一个二值向量,其中1表示激活、0表示抑制,用于判别实体是否与关系存在联系,即在不同的关系r下,实体若与关系r相关则被激活,无关则被抑制,使得同一实体在不同关系下具有不同表达;每一个关系都对应一个激活向量,表示与该关系对应的实体向量的状态是被激活或者是被抑制;
22)设定关系r下被激活向量激活的头实体、尾实体分别表示为:
Figure FDA0002459172760000014
Figure FDA0002459172760000021
Figure FDA0002459172760000022
其中:
Figure FDA0002459172760000023
表示哈达玛积;h,t,r为三元组(H,R,T)的向量化表示;hr,tr,rr分别表示为在关系r下被激活后的头实体、尾实体、关系的向量表示;er为关系r下的激活向量;
23)设定基于激活向量的损失函数,其表达式如下:
Figure FDA0002459172760000024
对该结构模型进行训练时,设定约束条件如下:即对任意的向量h、r、t,其约束条件为:
‖h‖2≤1,‖t‖2≤1,‖r‖2≤1
‖hr2≤1,‖tr2≤1,‖rr2≤1。
3.根据权利要求1所述的一种面向电力科技成果的知识图谱可视化方法,其特征在于,所述设定基于CNN的文本表示模型包括以下步骤:
31)设定CNN的输入层与卷积层:
首先预处理原始文本后,将某个实体的全文信息作词向量化处理得到X(l),并作为CNN架构的卷积层输入,Z(l)为输出结果;
设定X(l)为第l层卷积层的输入向量,表示单词的词向量,设定滑动窗口为k,经过滑动窗口的结果为
Figure FDA0002459172760000025
其计算表达式为
Figure FDA0002459172760000026
Z(l)为第l层卷积层的输出,第i个输出向量
Figure FDA0002459172760000027
是计算表达式为
Figure FDA0002459172760000028
其中
Figure FDA0002459172760000029
是第l层卷积层的总卷积核,b(l)是第l层卷积层中的偏置,σ为激活函数;
32)设定最大池化层:使用最大池化策略保留文本中的强特征,选择每个窗口中特征值中的最大特征,构建一个新的特征向量
Figure FDA00024591727600000210
Figure FDA0002459172760000031
其中,
Figure FDA0002459172760000032
为最大池化层得到的新特征向量,
Figure FDA0002459172760000033
为第1层卷积层的输出结果;
33)设定平均池化层:使用平均池化策略关注句子的局部特征,使用大小为m,互不重叠的窗口将卷积层的输出向量
Figure FDA0002459172760000034
进行分割,然后选择每个窗口中特征值的平均值,构建一个新的特征向量
Figure FDA0002459172760000035
其表达式如下:
Figure FDA0002459172760000036
其中
Figure FDA0002459172760000037
为第2层卷积层的输出向量,m为滑动窗口大小,
Figure FDA0002459172760000038
为经过平均池化层得到的新特征向量;
34)设定模型优化方法及目标函数:使用反向传播的随机梯度下降法,即从输出层到第二层平均池化层,再到第二层卷积层,再到第一层最大池化层,再到第一层卷积层,最后到词向量,参数从后向前依次调整;
设定训练的目标函数为:
Figure FDA0002459172760000039
其中[x]+=max(0,x)表示返回0和x之间较大的那个值;γ>0为间隔超参数,表示正确三元组损失函数值与错误三元组损失函数值之间的间隔距离,f(h,t,r)表示为正确三元组的损失函数,f(h′,t′,r′)为错误三元组的损失函数,S为正确三元组的集合,S-为错误三元组的集合,错误三元组是通过将正确三元组中的头实体、尾实体或者关系交替来构成。
4.根据权利要求1所述的一种面向电力科技成果的知识图谱表示方法,其特征在于,所述基于联合训练的知识表示包括以下步骤:
41)设定融合文本信息和结构信息的评分函数:
将上述的实体表示与二值激活向量在基于激活向量的结构表示模型下进行联合训练,并将基于激活向量的结构表示模型的评分函数定义如下:
E=ES+ET
其中ES是基于结构表示的评分函数fr(h,t),ET是基于文本表示的评分函数,ET公式如下
ET=ETT+ETS+EST
其中:
Figure FDA0002459172760000041
Figure FDA0002459172760000042
Figure FDA0002459172760000043
Figure FDA0002459172760000044
Figure FDA0002459172760000045
Figure FDA0002459172760000046
Figure FDA0002459172760000047
评分函数ET将两种实体表示学习方法融合在一起,将实体表示投影到相同的向量空间,使得两种表示学习相互影响、共同作用,最终得到融合文本信息和结构信息的知识表示;
42)在评分函数的规定阈值内,整理得出正确的三元组。
CN202010314943.7A 2020-04-21 2020-04-21 一种面向电力科技成果的知识图谱可视化方法 Pending CN111680163A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010314943.7A CN111680163A (zh) 2020-04-21 2020-04-21 一种面向电力科技成果的知识图谱可视化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010314943.7A CN111680163A (zh) 2020-04-21 2020-04-21 一种面向电力科技成果的知识图谱可视化方法

Publications (1)

Publication Number Publication Date
CN111680163A true CN111680163A (zh) 2020-09-18

Family

ID=72451769

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010314943.7A Pending CN111680163A (zh) 2020-04-21 2020-04-21 一种面向电力科技成果的知识图谱可视化方法

Country Status (1)

Country Link
CN (1) CN111680163A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858784A (zh) * 2020-07-21 2020-10-30 广东科杰通信息科技有限公司 一种基于transH的人员亲属关系预测方法

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法
CN108038847A (zh) * 2017-12-05 2018-05-15 国网内蒙古东部电力有限公司 基于深度学习的变压器巡检图像智能识别和故障检测系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109299284A (zh) * 2018-08-31 2019-02-01 中国地质大学(武汉) 一种基于结构信息与文本描述的知识图谱表示学习方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110377913A (zh) * 2019-07-24 2019-10-25 腾讯科技(深圳)有限公司 一种情感分析方法及其装置、电子设备和存储介质
CN110457442A (zh) * 2019-08-09 2019-11-15 国家电网有限公司 面向智能电网客服问答的知识图谱构建方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106933804A (zh) * 2017-03-10 2017-07-07 上海数眼科技发展有限公司 一种基于深度学习的结构化信息抽取方法
CN107633075A (zh) * 2017-09-22 2018-01-26 吉林大学 一种多源异构数据融合平台及融合方法
CN108038847A (zh) * 2017-12-05 2018-05-15 国网内蒙古东部电力有限公司 基于深度学习的变压器巡检图像智能识别和故障检测系统
CN108197290A (zh) * 2018-01-19 2018-06-22 桂林电子科技大学 一种融合实体和关系描述的知识图谱表示学习方法
CN108717425A (zh) * 2018-04-26 2018-10-30 国家电网公司 一种基于多数据源的知识图谱人物实体对齐方法
CN109299284A (zh) * 2018-08-31 2019-02-01 中国地质大学(武汉) 一种基于结构信息与文本描述的知识图谱表示学习方法
CN110083826A (zh) * 2019-03-21 2019-08-02 昆明理工大学 一种基于Transformer模型的老汉双语对齐方法
CN110232186A (zh) * 2019-05-20 2019-09-13 浙江大学 融合实体描述、层次化类型和文本关系信息的知识图谱表示学习方法
CN110334219A (zh) * 2019-07-12 2019-10-15 电子科技大学 基于注意力机制融入文本语义特征的知识图谱表示学习方法
CN110377913A (zh) * 2019-07-24 2019-10-25 腾讯科技(深圳)有限公司 一种情感分析方法及其装置、电子设备和存储介质
CN110457442A (zh) * 2019-08-09 2019-11-15 国家电网有限公司 面向智能电网客服问答的知识图谱构建方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HAICHAO HUANG: "Constructing Knowledge Graph from Big Data of Smart Grids" *
谢秋学: "加快平台建设 打造电力知识服务新生态" *
龙婧;徐文峰;罗启星;: "面向智能写作的混合推荐模型研究" *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111858784A (zh) * 2020-07-21 2020-10-30 广东科杰通信息科技有限公司 一种基于transH的人员亲属关系预测方法

Similar Documents

Publication Publication Date Title
Gan et al. Sparse attention based separable dilated convolutional neural network for targeted sentiment analysis
CN110598005B (zh) 一种面向公共安全事件的多源异构数据知识图谱构建方法
US20190188564A1 (en) Methods and apparatus for asynchronous and interactive machine learning using attention selection techniques
CN104318340B (zh) 基于文本履历信息的信息可视化方法及智能可视分析系统
CN114064918B (zh) 一种多模态事件知识图谱构建方法
CN107832400A (zh) 一种基于位置的lstm和cnn联合模型进行关系分类的方法
CN112256866B (zh) 一种基于深度学习的文本细粒度情感分析算法
CN106997379B (zh) 一种基于图片文本点击量的相近文本的合并方法
CN113449204B (zh) 基于局部聚合图注意力网络的社会事件分类方法、装置
CN113255822A (zh) 一种用于图像检索的双重知识蒸馏方法
CN115115862A (zh) 基于异构图神经网络的高阶关系知识蒸馏方法及系统
CN105159917A (zh) 一种电子病历的非结构化信息转化为结构化的泛化方法
CN113140023A (zh) 一种基于空间注意力的文本到图像生成方法及系统
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN114547303A (zh) 基于Bert-LSTM的文本多特征分类方法及装置
CN111339258B (zh) 基于知识图谱的大学计算机基础习题推荐方法
CN111680163A (zh) 一种面向电力科技成果的知识图谱可视化方法
CN113743079A (zh) 一种基于共现实体交互图的文本相似度计算方法及装置
CN116821696A (zh) 表格问答模型的训练方法、装置、设备及存储介质
CN110377753B (zh) 基于关系触发词与gru模型的关系抽取方法及装置
CN115033689B (zh) 一种基于小样本文本分类原型网络欧氏距离计算方法
CN111859955A (zh) 一种基于深度学习的舆情数据分析模型
CN111708896B (zh) 一种应用于生物医学文献的实体关系抽取方法
CN111460160B (zh) 一种基于强化学习的流式文本数据的事件聚类方法
Yi et al. Graphical Visual Analysis of Consumer Electronics Public Comment Information Mining under Knowledge Graph

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
AD01 Patent right deemed abandoned
AD01 Patent right deemed abandoned

Effective date of abandoning: 20231229