CN113190651B - 基于定额知识图谱技术的电力数据全局知识图谱补全方法 - Google Patents

基于定额知识图谱技术的电力数据全局知识图谱补全方法 Download PDF

Info

Publication number
CN113190651B
CN113190651B CN202110440776.5A CN202110440776A CN113190651B CN 113190651 B CN113190651 B CN 113190651B CN 202110440776 A CN202110440776 A CN 202110440776A CN 113190651 B CN113190651 B CN 113190651B
Authority
CN
China
Prior art keywords
knowledge graph
quota
knowledge
mapping
global
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110440776.5A
Other languages
English (en)
Other versions
CN113190651A (zh
Inventor
李文波
钱红娟
桂元苗
邱骐
徐晨晖
王矿
薛睿
姚波
胡弘
李传芳
常星星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Zhongke Jiadian Intelligent Technology Co ltd
Ningbo Qianrui Navigation Technology Co ltd
Original Assignee
Hefei Zhongke Jiadian Intelligent Technology Co ltd
Ningbo Qianrui Navigation Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Zhongke Jiadian Intelligent Technology Co ltd, Ningbo Qianrui Navigation Technology Co ltd filed Critical Hefei Zhongke Jiadian Intelligent Technology Co ltd
Priority to CN202110440776.5A priority Critical patent/CN113190651B/zh
Publication of CN113190651A publication Critical patent/CN113190651A/zh
Application granted granted Critical
Publication of CN113190651B publication Critical patent/CN113190651B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Strategic Management (AREA)
  • Biophysics (AREA)
  • Human Resources & Organizations (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Animal Behavior & Ethology (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,与现有技术相比解决了难以对电力数据全局知识图谱进行补全的缺陷。本发明包括以下步骤:建立目标项目知识图谱;定额知识图谱与目标项目知识图谱融合;利用定额知识图谱训练Transformer模型;全局知识图谱对应知识图谱的补全。本发明利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,可以自动挖掘电力数据全局知识图谱中的隐藏知识,填补了基于知识图谱的电力数据全局知识图谱补全方法的空白,提高了利用计算机的电力数据全局知识图谱补全的效率和质量。

Description

基于定额知识图谱技术的电力数据全局知识图谱补全方法
技术领域
本发明涉及语义分析技术领域,具体来说是一种基于定额知识图谱技术的电力数据全局知识图谱补全方法。
背景技术
定额是规定消耗在单位工程基本结构要素上的人工、机械和材料数量上的标准,是计算工程、产品价格的基础。现阶段的定额预算工作,主要依靠造价人员进行手动的定额书查询、匹配、计算等工作,工作任务多、耗时久。
知识图谱是Google在2012年提出的一个新概念,它将知识以三元组的形式表示,是一种以图的形式展现的知识库。知识图谱的出现,让机器处理词汇、短语和句子时,不再只是单纯的处理字符串,而能够更好地理解各个代词的真实含义。知识图谱技术目前已经在人工智能领域的多个方向得到了广泛的应用,包括信息提取、关系查询系统、搜索引擎、智能问答系统等。知识图谱是当前各行业处理各类数据的一种新兴的、重要的智能方法。
知识图谱分为通用知识图谱和领域知识图谱,其中领域知识图谱汇集了一个领域内的专业知识,通过领域知识图谱,可以构建出一个领域内处理特定问题的智能系统。定额知识图谱是一种由各部门所颁布的标准定额数据中采集的知识所构成的一个领域知识图谱。不同于其他领域知识图谱,定额知识图谱更为复杂,具体来说有以下特点:涉及行业众多,结构复杂,不同行业的定额知识间存在潜在的关联;各地方使用不同标准定额,使得定额知识图谱易出现歧义;随着社会发展,各部门会随时发布新的标准定额,定额知识图谱需要及时维护与更新。
随着电力业务的不断发展,电力数据得到了极大的扩充。现有电力数据已被用来构建了大量的电力数据知识图谱,但这些电力数据知识图谱面临多项问题,具体来说有以下几点:电力数据知识图谱不完备,缺少造价信息、图谱节点间关系不完备;电力数据知识图谱在工程造价方面缺少有效应用。依据电力数据知识图谱建立的电力数据全局知识图谱在补全和应用方面缺少相应的方法。
定额知识图谱提供了一个庞大的知识库,而定额知识的一个重要用途为核算工程价格。因此,如何利用定额知识图谱实现电力数据全局知识图谱补全方法成为了一个亟待解决的问题。
发明内容
本发明的目的是为了解决现有技术中难以对电力数据全局知识图谱进行补全的缺陷,提供一种基于定额知识图谱技术的电力数据全局知识图谱补全方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,包括以下步骤:
11)建立目标项目知识图谱:获取电力目标项目的清单数据并作预处理,利用抽取技术从电力目标项目中抽取初始资源描述框架三元组(RDF三元组,h,r,t),得到目标项目知识图谱;
12)定额知识图谱与目标项目知识图谱融合:依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射;
13)利用定额知识图谱训练Transformer模型:将定额知识图谱嵌入至语义空间,训练Transformer模型;
14)全局知识图谱对应知识图谱的补全:利用训练后的Transformer模型对未补全的全局知识图谱进行知识图谱补全。
所述建立目标项目知识图谱包括以下步骤:
21)将电力半结构化的目标项目清单数据保存至关系数据库中,并将其转换为结构化数据;
22)将结构化数据通过结构化查询语言SQL生成与目标项目的清单数据的谓语相关的逻辑表;
23)将逻辑表生成三元组映射,三元组映射包括一个主语映射和若干个谓语-宾语映射;
主语映射使用基于关系数据库的表中主键的国际化资源标识符IRI,从逻辑表中生成所有资源描述框架三元组(h,r,t)中的主语,将主键的国际化资源标识符映射到一个资源描述框架三元组(h,r,t)的头实体h中;
谓语-宾语映射包括谓语映射和宾语映射,谓语映射通过读取关系数据库中的列名称column_name获得,将关系数据库中的列名称映射到一个关系r中,宾语映射通过读取关系数据库中谓语映射到的列名称中的数据获得,将关系数据库中对应列名称的一个数据映射到一个资源描述框架三元组(h,r,t)的尾实体t中;
通过结构化查询语言规则,组合主语映射和对应的谓语-宾语映射,形成三元组映射,三元组映射将关系数据库中的一组数据映射到一个资源描述框架三元组(h,r,t)中;
24)集合所有三元组映射,生成一个关系数据库到资源描述框架映射的R2RML映射文档;根据R2RML映射文档,将关系数据库映射到一个三元组数据库中,从而得到一个目标项目知识图谱。
所述定额知识图谱与目标项目知识图谱融合包括以下步骤:
31)从定额知识图谱数据库中,获取定额知识图谱;
32)将定额知识图谱和目标项目知识图谱中的字符串规范化处理;
33)计算定额知识图谱与目标项目知识图谱中的实体字符串的汉明距离,定义汉明距离相似度δ(s,t),其计算公式如下:
Figure GDA0003121454140000031
其中,s、t表示两个实体字符串,i表示实体字符串中的字符下标;
34)根据汉明距离相似度,筛选出定额知识图谱与目标项目知识图谱匹配的实体对,构建实体间的等价映射;
35)依据筛选出的实体对,基于定额知识图谱和目标项目知识图谱进行广度优先搜索,获得与筛选出的实体对相关的实体;
36)依据获得的实体,分别从定额知识图谱和目标项目知识图谱中提取资源描述框架三元组(h,r,t),构建未补全的全局知识图谱。
所述利用定额知识图谱训练Transformer模型包括以下步骤:
41)将定额知识图谱中的资源描述框架三元组(h,r,t)进行嵌入表示,资源描述框架三元组(h,r,t)对应的词序列为:
X=(Xh,Xr,Xt),
其中,Xh,Xr,Xt分别表示头实体、关系、尾实体的词序列;
Figure GDA0003121454140000041
其中,
Figure GDA0003121454140000042
表示m实体或关系词序列Xm中的第i个词;
定义词嵌入映射ei
Figure GDA0003121454140000043
其中,
Figure GDA0003121454140000044
表示xi的第j个子词,计算的和为向量和;
从而将资源描述框架三元组(h,r,t)的词序列X,嵌入到一个词向量矩阵空间中,表示为:I=(Eh,Er,Et),
其中,I表示词向量矩阵,Eh,Er,Et表示由所述词嵌入映射ei映射得到的Xh,Xr,Xt的分量;
42)定义第一层Transformer块中t时刻的输入
Figure GDA0003121454140000045
421)定义位置编码pt为t时刻Transformer模型的一个词向量的位置编码;
422)定义词向量et为经过t-1时刻Transformer模型得到的词向量序列中的一个词向量;
计算得第一层Transformer块中t时刻的输入:
Figure GDA0003121454140000046
43)设定Transformer模型层数;
44)设定Transformer模型的每一层包括多个Transformer块,在每个Transformer块中进行计算,其计算如下:
Figure GDA0003121454140000047
Figure GDA0003121454140000048
Figure GDA0003121454140000049
Figure GDA0003121454140000051
其中,MultiAtten表示多头注意力函数,LayerNorm表示层归一化函数,FFN表示前馈神经网络,
Figure GDA0003121454140000052
是多头注意力函数的输出,hl-1是上一层Transformer块的输出,gl是层归一化函数的输出,
Figure GDA0003121454140000053
是前馈神经网络的输出,hl是本层Transformer块的输出;
441)设定MultiAtten(hl-1)表示多头注意力函数,定义如下:
对于由资源描述框架三元组(h,r,t)的词序列X嵌入得到的词向量矩阵I,定义查询矩阵Q、键矩阵K以及值矩阵V如下:
Q=WQI,
K=WKI,
V=WVI,
其中,WQ、WK、WV分别表示随机初始化的查询权重矩阵、键权重矩阵、值权重矩阵;
442)设定多头注意力机制,定义多个子查询矩阵Qi,子键矩阵Ki,子值矩阵Vi,i∈{1,2,...,|heads|},其中,|heads|表示多头注意力头的个数;
每个头的注意力计算函数如下:
Figure GDA0003121454140000054
其中,softmax是一个归一化指数函数,
Figure GDA0003121454140000055
表示一个输入对于其他位置输入的得分矩阵,决定了编码一个输入时对于其他位置输入的关注程度,其计算公式如下:
Figure GDA0003121454140000056
其中,dk表示输入向量的维数,Ki T表示矩阵Ki的转置;
对于多头注意力机制中所得的每一个头,初始化权重矩阵WO
Hi=Attention(Qi,Ki,Vi),
其中,Hi表示第i个注意力头的输出;
设定计算多头注意力机制的输出:
MultiH(Q,K,V)=[H1;...;H|heads|]WO
将上一层Transformer块中的输出,作为下一层Transformer块中的输入,进行层迭代:
对位于第t时刻,第l层的Transformer块,多头注意力计算如下:
Figure GDA0003121454140000061
其中,
Figure GDA0003121454140000062
表示前t-1个输入的第l-1层的输出组成的向量;
45)将最后一层Transformer块的输出映射至词典Vocab层,将嵌入到空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t);
46)通过定额知识图谱的数据,训练由输入(h,r)得到t的多头注意力机制,利用反向传播算法,调整查询矩阵Qi、子键矩阵Ki、子值矩阵Vi
训练的损失函数定义如下:
Figure GDA0003121454140000063
其中,P表示xt的分布函数,xt表示t时刻输入的词,x<t表示t时刻前输入的词。
所述利用全局知识图谱对应知识图谱的补全包括以下步骤:
51)依照与定额知识图谱的词嵌入映射相同的词嵌入映射规则ei,将全局知识图谱中的资源描述框架三元组(h,r,t)进行词映射;
52)将全局知识图谱中的实体作为头实体,对于全局知识图谱中已出现的所有关系,生成尾实体;
53)将映射至词向量空间的资源描述框架三元组(h,r,t)投放至已训练的Transformer模型中,将最后一层Transformer层的输出映射至词典Vocab层,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t),从而得到新的资源描述框架三元组(h,r,t);
54)将新生成的资源描述框架三元组(h,r,t)重新整理并结合,并入未补全的全局知识图谱,得到补全后的电力数据全局知识图谱。
一种基于定额知识图谱技术的电力数据全局知识图谱补全方法的项目预算自动生成方法,还包括以下步骤:
61)由目标项目知识图谱出发查询价格信息:基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在补全后的电力数据的全局知识图谱中进行查询,得到查询结果;
62)依据所述查询结果核算项目价格:将查询结果填入预算表,并依据单价和数量核算价格。
所述由目标项目知识图谱出发查询价格信息包括以下步骤:
71)由全局知识图谱与目标项目知识图谱之间的映射,连接两个知识图谱;
72)由目标项目出发,依据目标项目的子项目和子项目的构成部分,进行广度优先搜索,列出目标项目的所有构成部分;
所述依据所述查询结果核算项目价格包括以下步骤:
81)将所有查询到的目标项目的组成部分节点列入计价表格;
82)根据所述计价表格中的内容,查询每一组成部分的单价知识;
83)根据计价表格中的内容,查询每一组成部分的消耗量知识;
84)依据消耗量和单价,计算项目总价。
一种基于定额知识图谱的项目预算自动生成系统,包括:
目标项目知识图谱建立模块,用于获取目标项目的清单并作预处理,利用抽取技术从目标项目中抽取初始资源描述框架RDF三元组,得到目标项目知识图谱;
融合模块,用于依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射;
训练模块,用于将定额知识图谱嵌入至语义空间,以训练Transformer模型;
知识图谱补全模块,用于利用Transformer模型对所述全局知识图谱进行知识图谱补全;
价格信息查询模块,用于基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在全局知识图谱中进行查询,以得到查询结果;
项目价格核算模块,用于将所述查询结果填入预算表,并依据单价和数量核算价格。
有益效果
本发明的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,利用了全局知识图谱,使得在训练、测试和查询中的知识库规模大幅缩小,可以自动挖掘电力数据全局知识图谱中的隐藏知识,填补了基于知识图谱的电力数据全局知识图谱补全方法的空白,提高了利用计算机的电力数据全局知识图谱补全的效率和质量。
本发明设计的Transformer模型,与现有方法中常用的卷积神经网络、循环神经网络等相比,利用了注意力机制,关注到了模型中距离较远的词的含义,使得生成的三元组具有更高的质量,同时避免了循环计算,使得模型的效率得到了大幅的提升。
附图说明
图1为本发明的方法顺序图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
如图1所示,本发明所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,包括以下步骤:
第一步,建立目标项目知识图谱:获取电力目标项目的清单数据并作预处理,利用抽取技术从电力目标项目中抽取初始资源描述框架三元组(RDF三元组,h,r,t),得到目标项目知识图谱。其具体步骤如下:
(1)将电力半结构化的目标项目清单数据保存至关系数据库中,并将其转换为结构化数据。
(2)将结构化数据通过结构化查询语言SQL生成与目标项目的清单数据的谓语相关的逻辑表。
(3)将逻辑表生成三元组映射,三元组映射包括一个主语映射和若干个谓语-宾语映射;
主语映射使用基于关系数据库的表中主键的国际化资源标识符IRI,从逻辑表中生成所有资源描述框架三元组(h,r,t)中的主语,将主键的国际化资源标识符映射到一个资源描述框架三元组(h,r,t)的头实体h中;
谓语-宾语映射包括谓语映射和宾语映射,谓语映射通过读取关系数据库中的列名称column_name获得,将关系数据库中的列名称映射到一个关系r中,宾语映射通过读取关系数据库中谓语映射到的列名称中的数据获得,将关系数据库中对应列名称的一个数据映射到一个资源描述框架三元组(h,r,t)的尾实体t中;
通过结构化查询语言规则,组合主语映射和对应的谓语-宾语映射,形成三元组映射,三元组映射将关系数据库中的一组数据映射到一个资源描述框架三元组(h,r,t)中。
(4)集合所有三元组映射,生成一个关系数据库到资源描述框架映射的R2RML映射文档;根据R2RML映射文档,将关系数据库映射到一个三元组数据库中,从而得到一个目标项目知识图谱。
在实际应用中,通过结构化查询语言规则,组合主语映射和对应的谓语-宾语映射,形成三元组映射,所述三元组映射将关系数据库中的一组数据映射到一个资源描述框架三元组(h,r,t),例如:(汽车运输线材装卸,单位,10t)、(汽车运输线材装卸,数量,5)等。
第二步,定额知识图谱与目标项目知识图谱融合:依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射。
通过这一步骤,可以实现全局知识图谱的建立。全局知识图谱的建立,将大幅减少后续训练时冗余的数据,减小训练规模,提升训练效率。全局知识图谱的建立,还可以筛选出后期投放入已训练模型的数据,使得生成的知识更具有对于定额价格知识的针对性。全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,可以完成从定额知识图谱到目标项目知识图谱的多重映射,使得多个知识图谱既统一,又相互独立。
利用汉明距离计算,而不是简单比较字符串的值,是为了消除对同一对象的指代中,字符串极其微小的变化,类似“光缆、导线架设”以及“光缆,导线架设”这种指代同一对象,仅在标点符号等无关紧要的细节上不同的字符串,可以被认为是指代同一实体。
其具体步骤如下:
(1)从定额知识图谱数据库中,获取定额知识图谱。
(2)将定额知识图谱和目标项目知识图谱中的字符串规范化处理。
(3)计算定额知识图谱与目标项目知识图谱中的实体字符串的汉明距离,定义汉明距离相似度δ(s,t),其计算公式如下:
Figure GDA0003121454140000101
其中,s、t表示两个实体字符串,i表示实体字符串中的字符下标。
(4)根据汉明距离相似度,筛选出定额知识图谱与目标项目知识图谱匹配的实体对,构建实体间的等价映射。
(5)依据筛选出的实体对,基于定额知识图谱和目标项目知识图谱进行广度优先搜索,获得与筛选出的实体对相关的实体。
(6)依据获得的实体,分别从定额知识图谱和目标项目知识图谱中提取资源描述框架三元组(h,r,t),构建未补全的全局知识图谱。
综上例子,根据汉明距离相似度,筛选出所述定额知识图谱与目标项目知识图谱匹配的实体对,构建实体间的等价映射,例如,同时在定额知识图谱与目标项目知识图谱中发现了“光缆、导线架设”这一实体,则他们的汉明距离相似度为1,认为是同一对象。
依据筛选出的实体对,基于定额知识图谱和目标项目知识图谱进行广度优先搜索,获得与筛选出的实体对相关的实体,例如,由“光缆、导线架设”这一实体,从定额知识图谱中搜索到了(光缆、导线架设,子项目,汽车运输线材装卸)这一三元组,继而获得“汽车运输线材装卸”这一实体。依据获得的实体,分别从定额知识图谱和目标项目知识图谱中提取资源描述框架三元组(h,r,t),构建全局知识图谱(GlobalKnowledgeGraph),例如,“汽车运输线材装卸”这一实体,从两个知识图谱中分别搜索到了(汽车运输线材装卸,单位,10t)(汽车运输线材装卸,单价,398.72)(汽车运输线材装卸,数量,5)等三元组。
第三步,利用定额知识图谱训练Transformer模型:将定额知识图谱嵌入至语义空间,训练Transformer模型。
Transformer模型,融合了注意力机制,相比于传统的基于神经网络的模型,融合注意力机制的Transformer模型,在面对语义信息时具有更好的处理效果。在这一步骤中,我们所训练的Transformer模型是对历史时刻的所有输入进行了注意力机制的计算,相比最传统的自注意力模型,这一模型能够更好的针对所有输入进行整体的计算,避免了陷入局部最优。
其具体步骤如下:
(1)将定额知识图谱中的资源描述框架三元组(h,r,t)进行嵌入表示,资源描述框架三元组(h,r,t)对应的词序列为:
X=(Xh,Xr,Xt),
其中,Xh,Xr,Xt分别表示头实体、关系、尾实体的词序列;
Figure GDA0003121454140000111
其中,
Figure GDA0003121454140000112
表示m实体或关系词序列Xm中的第i个词;
定义词嵌入映射ei
Figure GDA0003121454140000113
其中,
Figure GDA0003121454140000121
表示xi的第j个子词,计算的和为向量和;
从而将资源描述框架三元组(h,r,t)的词序列X,嵌入到一个词向量矩阵空间中,表示为:I=(Eh,Er,Et),
其中,I表示词向量矩阵,Eh,Er,Et表示由所述词嵌入映射ei映射得到的Xh,Xr,Xt的分量。
(2)定义第一层Transformer块中t时刻的输入
Figure GDA0003121454140000122
A1)定义位置编码pt为t时刻Transformer模型的一个词向量的位置编码;
A2)定义词向量et为经过t-1时刻Transformer模型得到的词向量序列中的一个词向量;
计算得第一层Transformer块中t时刻的输入:
Figure GDA0003121454140000123
(3)设定Transformer模型层数,通常将Transformer模型层数设为6至60层,在此可以设为12层。
(4)设定Transformer模型的每一层包括多个Transformer块,在每个Transformer块中进行计算,其计算如下:
Figure GDA0003121454140000124
Figure GDA0003121454140000125
Figure GDA0003121454140000126
Figure GDA0003121454140000127
其中,MultiAtten表示多头注意力函数,LayerNorm表示层归一化函数,FFN表示前馈神经网络,
Figure GDA0003121454140000128
是多头注意力函数的输出,hl-1是上一层Transformer块的输出,gl是层归一化函数的输出,
Figure GDA0003121454140000129
是前馈神经网络的输出,hl是本层Transformer块的输出;
B1)设定MultiAtten(hl-1)表示多头注意力函数,定义如下:
对于由资源描述框架三元组(h,r,t)的词序列X嵌入得到的词向量矩阵I,定义查询矩阵Q、键矩阵K以及值矩阵V如下:
Q=WQI,
K=WKI,
V=WVI,
其中,WQ、WK、WV分别表示随机初始化的查询权重矩阵、键权重矩阵、值权重矩阵;
B2)设定多头注意力机制,定义多个子查询矩阵Qi,子键矩阵Ki,子值矩阵Vi,i∈{1,2,...,|heads|},其中,|heads|表示多头注意力头的个数;
每个头的注意力计算函数如下:
Figure GDA0003121454140000131
其中,softmax是一个归一化指数函数,
Figure GDA0003121454140000132
表示一个输入对于其他位置输入的得分矩阵,决定了编码一个输入时对于其他位置输入的关注程度,其计算公式如下:
Figure GDA0003121454140000133
其中,dk表示输入向量的维数,Ki T表示矩阵Ki的转置;
对于多头注意力机制中所得的每一个头,初始化权重矩阵WO
Hi=Attention(Qi,Ki,Vi),
其中,Hi表示第i个注意力头的输出;
设定计算多头注意力机制的输出:
MultiH(Q,K,V)=[H1;...;H|heads|]WO
将上一层Transformer块中的输出,作为下一层Transformer块中的输入,进行层迭代:
对位于第t时刻,第l层的Transformer块,多头注意力计算如下:
Figure GDA0003121454140000134
其中,
Figure GDA0003121454140000141
表示前t-1个输入的第l-1层的输出组成的向量。
(5)将最后一层Transformer块的输出映射至词典Vocab层,将嵌入到空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t)。
(6)通过定额知识图谱的数据,训练由输入(h,r)得到t的多头注意力机制,利用反向传播算法,调整查询矩阵Qi、子键矩阵Ki、子值矩阵Vi
训练的损失函数定义如下:
Figure GDA0003121454140000142
其中,P表示xt的分布函数,xt表示t时刻输入的词,x<t表示t时刻前输入的词。
综上例如:三元组(汽车运输线材装卸,数量,5)在t时刻输入后,在第一层中,会生成与汽车、运输、线材、装卸、数量等词的嵌入有关的一个查询阵Q,而t-1时刻之前的输入共同生成了键矩阵K,K中保存了关键词的索引信息,并通过多头机制最终指向值矩阵V,通过查询V即可学习到相关的信息,并传向下一层。将最后一层Transformer层的输出映射至词典层(Vocab层),将嵌入到空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t),即将词向量空间中的嵌入重新映射回词序列,例如:将一个特定的词向量空间嵌入映射到(汽车运输线材装卸,数量,5)。
第四步,全局知识图谱对应知识图谱的补全:利用训练后的Transformer模型对未补全的全局知识图谱进行知识图谱补全。其具体步骤如下:
(1)依照与定额知识图谱的词嵌入映射相同的词嵌入映射规则ei,将全局知识图谱中的资源描述框架三元组(h,r,t)进行词映射。
(2)将全局知识图谱中的实体作为头实体,对于全局知识图谱中已出现的所有关系,生成尾实体。
(3)将映射至词向量空间的资源描述框架三元组(h,r,t)投放至已训练的Transformer模型中,将最后一层Transformer层的输出映射至词典Vocab层,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t),从而得到新的资源描述框架三元组(h,r,t)。
(4)将新生成的资源描述框架三元组(h,r,t)重新整理并结合,并入未补全的全局知识图谱,得到补全后的电力数据全局知识图谱。
在这一步的重点在于对各(头实体,单价)这类头实体-关系组合进行尾实体的生成。例如输入(汽车运输线材装卸,单价),希望生成尾实体(378.92),将资源描述框架三元组(h,r,t)投放至已训练的Transformer模型中,将最后一层Transformer层的输出映射至词典层,将嵌入到空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t),从而得到新的资源描述框架三元组(h,r,t),例如(汽车运输线材装卸,单价,378.92)。将新生成的资源描述框架三元组(h,r,t)重新整理并结合,并入原有全局知识图谱,以补全全局知识图谱。
在实际应用中,本发明亦可应用于预算生成方式的自动化预算生成方法,实现工程造价的自动化,提供更具有价值的技术支持。在此,还提供一种基于定额知识图谱技术的电力数据全局知识图谱补全方法的项目预算自动生成方法,其在全局知识图谱对应知识图谱的补全步骤基础上,另加两个步骤实现。
第五步,由目标项目知识图谱出发查询价格信息:基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在补全后的电力数据的全局知识图谱中进行查询,得到查询结果。
(1)由全局知识图谱与目标项目知识图谱之间的映射,连接两个知识图谱;
(2)由目标项目出发,依据目标项目的子项目和子项目的构成部分,进行广度优先搜索,列出目标项目的所有构成部分。
第六步,依据所述查询结果核算项目价格:将查询结果填入预算表,并依据单价和数量核算价格。
(1)将所有查询到的目标项目的组成部分节点列入计价表格;
(2)根据所述计价表格中的内容,查询每一组成部分的单价知识;
(3)根据计价表格中的内容,查询每一组成部分的消耗量知识;
(84)依据消耗量和单价,计算项目总价。
在此,还提供一种基于定额知识图谱的项目预算自动生成系统,包括:
目标项目知识图谱建立模块,用于获取目标项目的清单并作预处理,利用抽取技术从目标项目中抽取初始资源描述框架RDF三元组,得到目标项目知识图谱;
融合模块,用于依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射;
训练模块,用于将定额知识图谱嵌入至语义空间,以训练Transformer模型;
知识图谱补全模块,用于利用Transformer模型对所述全局知识图谱进行知识图谱补全;
价格信息查询模块,用于基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在全局知识图谱中进行查询,以得到查询结果;
项目价格核算模块,用于将所述查询结果填入预算表,并依据单价和数量核算价格。
本发明还提出一种电子设备,所述电子设备包括处理器和存储器,所述存储器存储有程序指令,所述处理器运行程序指令实现上述的基于定额知识图谱技术的电力数据全局知识图谱补全方法。所述处理器可以是通用处理器,包括中央处理器(CentralProcessing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(ApplicationSpecific Integrated Circuit,简称ASIC)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件;所述存储器可能包含随机存取存储器(Random Access Memory,简称RAM),也可能还包括非易失性存储器(Non-Volatile Memory),例如至少一个磁盘存储器。所述存储器也可以为随机存取存储器(Random Access Memory,RAM)类型的内部存储器,所述处理器、存储器可以集成为一个或多个独立的电路或硬件,如:专用集成电路(Application SpecificIntegrated Circuit,ASIC)。需要说明的是,上述的存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,电子设备,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
本发明还提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行上述的基于定额知识图谱技术的电力数据全局知识图谱补全方法。计算机可读存储介质可以是,电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。计算机可读存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(RAM)、只读存储器(ROM)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(CD-ROM)、光盘-读/写(CD-RW)和DVD。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (10)

1.一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,其特征在于,包括以下步骤:
11)建立目标项目知识图谱:获取电力目标项目的清单数据并作预处理,利用抽取技术从电力目标项目中抽取初始资源描述框架三元组(h,r,t),即RDF三元组,得到目标项目知识图谱,其中,h为头实体,r为关系,t为尾实体;
12)定额知识图谱与目标项目知识图谱融合:依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射;
13)利用定额知识图谱训练Transformer模型:将定额知识图谱嵌入至语义空间,训练Transformer模型;
14)全局知识图谱对应知识图谱的补全:利用训练后的Transformer模型对未补全的全局知识图谱进行知识图谱补全。
2.根据权利要求1所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,其特征在于,所述建立目标项目知识图谱包括以下步骤:
21)将电力半结构化的目标项目清单数据保存至关系数据库中,并将其转换为结构化数据;
22)将结构化数据通过结构化查询语言SQL生成与目标项目的清单数据的谓语相关的逻辑表;
23)将逻辑表生成三元组映射,三元组映射包括一个主语映射和若干个谓语-宾语映射;
主语映射使用基于关系数据库的表中主键的国际化资源标识符IRI,从逻辑表中生成所有资源描述框架三元组(h,r,t)中的主语,将主键的国际化资源标识符映射到一个资源描述框架三元组(h,r,t)的头实体h中;
谓语-宾语映射包括谓语映射和宾语映射,谓语映射通过读取关系数据库中的列名称column_name获得,将关系数据库中的列名称映射到一个关系r中,宾语映射通过读取关系数据库中谓语映射到的列名称中的数据获得,将关系数据库中对应列名称的一个数据映射到一个资源描述框架三元组(h,r,t)的尾实体t中;
通过结构化查询语言规则,组合主语映射和对应的谓语-宾语映射,形成三元组映射,三元组映射将关系数据库中的一组数据映射到一个资源描述框架三元组(h,r,t)中;
24)集合所有三元组映射,生成一个关系数据库到资源描述框架映射的R2RML映射文档;根据R2RML映射文档,将关系数据库映射到一个三元组数据库中,从而得到一个目标项目知识图谱。
3.根据权利要求1所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,其特征在于,所述定额知识图谱与目标项目知识图谱融合包括以下步骤:
31)从定额知识图谱数据库中,获取定额知识图谱;
32)将定额知识图谱和目标项目知识图谱中的字符串规范化处理;
33)计算定额知识图谱与目标项目知识图谱中的实体字符串的汉明距离,定义汉明距离相似度δ(s,t),其计算公式如下:
Figure FDA0003776877750000021
其中,s、t表示两个实体字符串,i表示实体字符串中的字符下标;
34)根据汉明距离相似度,筛选出定额知识图谱与目标项目知识图谱匹配的实体对,构建实体间的等价映射;
35)依据筛选出的实体对,基于定额知识图谱和目标项目知识图谱进行广度优先搜索,获得与筛选出的实体对相关的实体;
36)依据获得的实体,分别从定额知识图谱和目标项目知识图谱中提取资源描述框架三元组(h,r,t),构建未补全的全局知识图谱。
4.根据权利要求1所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,其特征在于,所述利用定额知识图谱训练Transformer模型包括以下步骤:
41)将定额知识图谱中的资源描述框架三元组(h,r,t)进行嵌入表示,资源描述框架三元组(h,r,t)对应的词序列为:
X=(Xh,Xr,Xt),
其中,Xh,Xr,Xt分别表示头实体、关系、尾实体的词序列;
Figure FDA0003776877750000031
其中,
Figure FDA0003776877750000032
表示m实体或关系词序列Xm中的第i个词;
定义词嵌入映射ei
Figure FDA0003776877750000033
其中,
Figure FDA0003776877750000034
表示xi的第j个子词,计算的和为向量和;
从而将资源描述框架三元组(h,r,t)的词序列X,嵌入到一个词向量矩阵空间中,表示为:I=(Eh,Er,Et),
其中,I表示词向量矩阵,Eh,Er,Et表示由所述词嵌入映射ei映射得到的Xh,Xr,Xt的分量;
42)定义第一层Transformer块中t时刻的输入
Figure FDA0003776877750000035
421)定义位置编码pt为t时刻Transformer模型的一个词向量的位置编码;
422)定义词向量et为经过t-1时刻Transformer模型得到的词向量序列中的一个词向量;
计算得第一层Transformer块中t时刻的输入:
Figure FDA0003776877750000036
43)设定Transformer模型层数;
44)设定Transformer模型的每一层包括多个Transformer块,在每个Transformer块中进行计算,其计算如下:
Figure FDA0003776877750000037
Figure FDA0003776877750000041
Figure FDA0003776877750000042
Figure FDA0003776877750000043
其中,MultiAtten表示多头注意力函数,LayerNorm表示层归一化函数,FFN表示前馈神经网络,
Figure FDA0003776877750000044
是多头注意力函数的输出,hl-1是上一层Transformer块的输出,gl是层归一化函数的输出,
Figure FDA0003776877750000045
是前馈神经网络的输出,hl是本层Transformer块的输出;
441)设定MultiAtten(hl-1)表示多头注意力函数,定义如下:
对于由资源描述框架三元组(h,r,t)的词序列X嵌入得到的词向量矩阵I,定义查询矩阵Q、键矩阵K以及值矩阵V如下:
Q=WQI,
K=WKI,
V=WVI,
其中,WQ、WK、WV分别表示随机初始化的查询权重矩阵、键权重矩阵、值权重矩阵;
442)设定多头注意力机制,定义多个子查询矩阵Qi,子键矩阵Ki,子值矩阵Vi,i∈{1,2,…,|heads|},其中,|heads|表示多头注意力头的个数;
每个头的注意力计算函数如下:
Figure FDA0003776877750000046
其中,softmax是一个归一化指数函数,
Figure FDA0003776877750000047
表示一个输入对于其他位置输入的得分矩阵,决定了编码一个输入时对于其他位置输入的关注程度,其计算公式如下:
Figure FDA0003776877750000051
其中,dk表示输入向量的维数,Ki T表示矩阵Ki的转置;
对于多头注意力机制中所得的每一个头,初始化权重矩阵WO
Hi=Attention(Qi,Ki,Vi),
其中,Hi表示第i个注意力头的输出;
设定计算多头注意力机制的输出:
MultiH(Q,K,V)=[H1;...H|heads|]WO
将上一层Transformer块中的输出,作为下一层Transformer块中的输入,进行层迭代:
对位于第t时刻,第1层的Transformer块,多头注意力计算如下:
Figure FDA0003776877750000052
其中,
Figure FDA0003776877750000053
表示前t-1个输入的第l-1层的输出组成的向量;
45)将最后一层Transformer块的输出映射至词典Vocab层,将嵌入到空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t);
46)通过定额知识图谱的数据,训练由输入(h,r)得到t的多头注意力机制,利用反向传播算法,调整查询矩阵Qi、子键矩阵Ki、子值矩阵Vi
训练的损失函数定义如下:
Figure FDA0003776877750000054
其中,P表示xt的分布函数,xt表示t时刻输入的词,x<t表示t时刻前输入的词。
5.根据权利要求1所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法,其特征在于,所述全局知识图谱对应知识图谱的补全包括以下步骤:
51)依照与定额知识图谱的词嵌入映射相同的词嵌入映射规则ei,将全局知识图谱中的资源描述框架三元组(h,r,t)进行词映射;
52)将全局知识图谱中的实体作为头实体,对于全局知识图谱中已出现的所有关系,生成尾实体;
53)将映射至词向量空间的资源描述框架三元组(h,r,t)投放至已训练的Transformer模型中,将最后一层Transformer层的输出映射至词典Vocab层,将嵌入到词向量矩阵空间中的知识重新映射到文字表示的资源描述框架三元组(h,r,t),从而得到新的资源描述框架三元组(h,r,t);
54)将新生成的资源描述框架三元组(h,r,t)重新整理并结合,并入未补全的全局知识图谱,得到补全后的电力数据全局知识图谱。
6.根据权利要求1所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法的项目预算自动生成方法,其特征在于,还包括以下步骤:
61)由目标项目知识图谱出发查询价格信息:基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在补全后的电力数据的全局知识图谱中进行查询,得到查询结果;
62)依据所述查询结果核算项目价格:将查询结果填入预算表,并依据单价和数量核算价格。
7.根据权利要求6所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法的项目预算自动生成方法,其特征在于,所述由目标项目知识图谱出发查询价格信息包括以下步骤:
71)由全局知识图谱与目标项目知识图谱之间的映射,连接两个知识图谱;
72)由目标项目出发,依据目标项目的子项目和子项目的构成部分,进行广度优先搜索,列出目标项目的所有构成部分;
8.根据权利要求6所述的一种基于定额知识图谱技术的电力数据全局知识图谱补全方法的项目预算自动生成方法,其特征在于,所述依据所述查询结果核算项目价格包括以下步骤:
81)将所有查询到的目标项目的组成部分节点列入计价表格;
82)根据所述计价表格中的内容,查询每一组成部分的单价知识;
83)根据计价表格中的内容,查询每一组成部分的消耗量知识;
84)依据消耗量和单价,计算项目总价。
9.一种基于定额知识图谱的项目预算自动生成系统,其特征在于,包括:
目标项目知识图谱建立模块,用于获取目标项目的清单并作预处理,利用抽取技术从目标项目中抽取初始资源描述框架RDF三元组,得到目标项目知识图谱;
融合模块,用于依据定额知识图谱与目标项目知识图谱之间的相同实体部分建立全局知识图谱,并分别建立全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射;
训练模块,用于将定额知识图谱嵌入至语义空间,以训练Transformer模型;
知识图谱补全模块,用于利用Transformer模型对所述全局知识图谱进行知识图谱补全;
价格信息查询模块,用于基于全局知识图谱与定额知识图谱、目标项目知识图谱之间的映射,从目标项目出发,在全局知识图谱中进行查询,以得到查询结果;
项目价格核算模块,用于将所述查询结果填入预算表,并依据单价和数量核算价格。
10.一种电子设备,包括处理器和存储器,所述存储器存储有程序指令,其特征在于:所述处理器运行程序指令实现如权利要求1至权利要求5任一项所述的基于定额知识图谱技术的电力数据全局知识图谱补全方法。
CN202110440776.5A 2021-04-23 2021-04-23 基于定额知识图谱技术的电力数据全局知识图谱补全方法 Active CN113190651B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110440776.5A CN113190651B (zh) 2021-04-23 2021-04-23 基于定额知识图谱技术的电力数据全局知识图谱补全方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110440776.5A CN113190651B (zh) 2021-04-23 2021-04-23 基于定额知识图谱技术的电力数据全局知识图谱补全方法

Publications (2)

Publication Number Publication Date
CN113190651A CN113190651A (zh) 2021-07-30
CN113190651B true CN113190651B (zh) 2022-09-09

Family

ID=76978215

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110440776.5A Active CN113190651B (zh) 2021-04-23 2021-04-23 基于定额知识图谱技术的电力数据全局知识图谱补全方法

Country Status (1)

Country Link
CN (1) CN113190651B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114239834B (zh) * 2021-11-17 2022-07-19 中国人民解放军军事科学院国防科技创新研究院 基于多轮对抗属性共享的对手关系推理方法和装置
CN116049148B (zh) * 2023-04-03 2023-07-18 中国科学院成都文献情报中心 一种元出版环境下领域元知识引擎的构建方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427352A (zh) * 2019-06-05 2019-11-08 福建奇点时空数字科技有限公司 一种基于r2rml标准的数据自定义映射方法
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111552817A (zh) * 2020-04-14 2020-08-18 国网内蒙古东部电力有限公司 一种电力科技成果知识图谱补全方法
CN112269901A (zh) * 2020-09-14 2021-01-26 合肥中科类脑智能技术有限公司 一种基于知识图谱的故障判别推理方法
CN112417163A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678835B2 (en) * 2018-03-28 2020-06-09 International Business Machines Corporation Generation of knowledge graph responsive to query

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110427352A (zh) * 2019-06-05 2019-11-08 福建奇点时空数字科技有限公司 一种基于r2rml标准的数据自定义映射方法
CN110851613A (zh) * 2019-09-09 2020-02-28 中国电子科技集团公司电子科学研究院 基于实体概念的知识图谱补全、推演、存储方法及装置
CN111291139A (zh) * 2020-03-17 2020-06-16 中国科学院自动化研究所 基于注意力机制的知识图谱长尾关系补全方法
CN111552817A (zh) * 2020-04-14 2020-08-18 国网内蒙古东部电力有限公司 一种电力科技成果知识图谱补全方法
CN112269901A (zh) * 2020-09-14 2021-01-26 合肥中科类脑智能技术有限公司 一种基于知识图谱的故障判别推理方法
CN112417163A (zh) * 2020-11-13 2021-02-26 中译语通科技股份有限公司 基于实体线索片段的候选实体对齐方法及装置

Also Published As

Publication number Publication date
CN113190651A (zh) 2021-07-30

Similar Documents

Publication Publication Date Title
US10565498B1 (en) Deep neural network-based relationship analysis with multi-feature token model
CN110910243B (zh) 一种基于可重构大数据知识图谱技术的产权交易方法
CN108197132B (zh) 一种基于图数据库的电力资产画像构建方法及装置
US8190556B2 (en) Intellegent data search engine
CN111291161A (zh) 法律案件知识图谱查询方法、装置、设备及存储介质
CN111428054A (zh) 一种网络空间安全领域知识图谱的构建与存储方法
CN112000725B (zh) 一种面向多源异构资源的本体融合前处理方法
CN113190651B (zh) 基于定额知识图谱技术的电力数据全局知识图谱补全方法
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
US9031886B2 (en) Pluggable modules in a cascading learning system
CN114254201A (zh) 一种科技项目评审专家的推荐方法
CN112163160A (zh) 基于知识图谱的敏感识别方法
CN114661914A (zh) 一种基于深度学习和知识图谱的合同审查方法、装置、设备和存储介质
CN111666425A (zh) 基于语义知识的汽配件搜索方法
CN114253939A (zh) 一种数据模型的构建方法、装置、电子设备及存储介质
CN112784049B (zh) 一种面向文本数据的在线社交平台多元知识获取方法
CN114491079A (zh) 知识图谱构建和查询方法、装置、设备和介质
CN113626571A (zh) 答句生成方法、装置、计算机设备和存储介质
CN117112794A (zh) 一种基于知识增强的多粒度政务服务事项推荐方法
CN116452353A (zh) 一种财务数据管理方法及系统
US11880377B1 (en) Systems and methods for entity resolution
Natani et al. Knowledge graph-based data transformation recommendation engine
CA3231516A1 (en) Fragmented record detection based on records matching techniques
AU2021467883A1 (en) Records matching techniques for facilitating database search and fragmented record detection
AU2021468289A1 (en) Records matching techniques for facilitating database search and fragmented record detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant