CN110096598A - 配电网知识图谱建立方法、装置、计算机设备及存储介质 - Google Patents

配电网知识图谱建立方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN110096598A
CN110096598A CN201910337139.8A CN201910337139A CN110096598A CN 110096598 A CN110096598 A CN 110096598A CN 201910337139 A CN201910337139 A CN 201910337139A CN 110096598 A CN110096598 A CN 110096598A
Authority
CN
China
Prior art keywords
training data
data set
objective function
obtains
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910337139.8A
Other languages
English (en)
Inventor
罗思敏
王红斌
栾乐
肖天为
许中
崔屹平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Power Supply Bureau of Guangdong Power Grid Co Ltd
Original Assignee
Guangzhou Power Supply Bureau Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Power Supply Bureau Co Ltd filed Critical Guangzhou Power Supply Bureau Co Ltd
Priority to CN201910337139.8A priority Critical patent/CN110096598A/zh
Publication of CN110096598A publication Critical patent/CN110096598A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/06Electricity, gas or water supply

Abstract

本发明提供一种配电网知识图谱建立方法、装置、计算机设备及存储介质,所述方法包括:获取特征字段;基于特征库,对特征字段进行训练,得到训练数据;将训练数据映射为对应的向量;对对应的向量进行特征关联,得到训练数据集合;训练数据集合基于空间向量距离最小的原理,得到目标函数;根据训练数据集合,对目标函数进行迭代处理,得到目标函数的迭代结果;获取目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;将对应的训练数据集合映射为对应的特征信息,得到知识图谱,能够保留特征字段中所有特征信息,即能够提取特征字段的关键信息,并能够将特征信息关联起来,从而建立知识图谱,便于用户分析特征字段。

Description

配电网知识图谱建立方法、装置、计算机设备及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种配电网知识图谱建立方法、装置、计算机设备及存储介质。
背景技术
随着配电网自动化水平地不断提高,配电网的安全性能得到显著地提高,但跳闸事故时有发生,其已经成为影响配电网安全运行的重要因素之一。每当跳闸事故发生时,需要投入大量的人力物力排查隐患,浪费了大量的资源,而且用户的用电投诉大多来源于跳闸事故发生,对于提高用户满意度造成了很大的影响。因此,对于跳闸事故的深入研究成为提高用电可靠性,提升用户满意度的重要举措。
跳闸数据是直观反映跳闸事故的第一手资料,详细完整的记录了跳闸事故,所以,对于跳闸数据的分析成为解决跳闸事故的一个重要研究方向,传统上对于跳闸数据的研究,大多数仅限于统计方法的应用,对于跳闸数据背后隐藏的逻辑没有深入的挖掘,而机器学习方法对于跳闸数据的研究大部分情况下是将非结构化的跳闸数据先结构化,在结构化数据的过程中,会将原始的数据破坏,造成许多有用信息的丢失。
发明内容
基于此,有必要提供一种配电网知识图谱建立方法、装置、计算机设备及存储介质。
一种配电网知识图谱建立方法,包括:获取特征字段;基于特征库,对所述特征字段进行训练,得到训练数据;将所述训练数据映射为对应的向量;对所述对应的向量进行特征关联,得到训练数据集合;所述训练数据集合基于空间向量距离最小的原理,得到目标函数;根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果;获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果的步骤包括:对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合;根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果。
在其中一个实施例中,所述取所述目标函数的迭代结果中最小值,输出对应的训练数据集合之前还包括:根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合;所述获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合的步骤包括:获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的更新后的训练数据集合;所述将所述对应的训练数据集合转化成映射为对应的特征信息,得到知识图谱的步骤,包括:将所述对应的更新后的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述对所述对应的向量进行特征关联,得到训练数据集合的步骤,包括:获取基于实体-关系-实体的三元组;将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。
在其中一个实施例中,所述训练数据集合基于空间向量距离最小的原理,得到目标函数的步骤包括:将所述训练数据集合中的实体h向量与所述训练数据集合中的实体t向量之和趋近于所述训练数据集合中的关系r向量,得到所述目标函数。
在其中一个实施例中,所述基于特征库,对所述特征字段进行训练,得到训练数据的步骤包括:基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段;将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。
一种配电网知识图谱建立装置,包括:
特征字段获取模块,用于获取特征字段。
训练模块,用于基于特征库,对所述特征字段进行训练,得到训练数据。
第一映射模块,用于将所述训练数据映射为对应的向量。
特征关联模块,用于对所述对应的向量进行特征关联,得到训练数据集合。
目标函数获取模块,用于所述训练数据集合基于空间向量距离最小的原理,得到目标函数。
迭代模块,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
输出模块,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
第二映射模块,用于将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述迭代模块包括:
初始化子模块,用于对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合。以及
迭代子模块,用于根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述任一实施例中所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例中所述的方法的步骤。
上述配电网知识图谱建立方法,通过将特征字段进行训练并映射为对应的向量,得到训练数据集合,将训练数据集合迭代至目标函数,并输出目标函数的最小值对应的训练数据集合,能够保留特征字段中所有特征信息,即能够提取特征字段的关键信息,并能够将特征信息关联起来,从而建立知识图谱,便于用户分析特征字段,例如,通过获取配电网的故障信息的特征字段构建知识图谱,提取配电网的故障信息的关键词,即用户输入故障信息,可以直接提取关键信息,并显示相关信息,从而便于用户查阅故障关联信息,并依据故障关联信息分析具体故障原因。
附图说明
图1为知识图谱建立的方法的流程示意图;
图2为一个实施例中知识图谱建立的装置的结构示意图;
图3为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在详细说明根据本发明的实施例前,应该注意到的是,所述的实施例主要在于与配电网知识图谱建立方法、装置、计算机设备及存储介质相关的步骤和装置组件的组合。因此,所述装置组件和方法步骤已经在附图中通过常规符号在适当的位置表示出来了,并且只示出了与理解本发明的实施例有关的细节,以免因对于得益于本发明的本领域普通技术人员而言显而易见的那些细节模糊了本发明的公开内容。
在本文中,诸如左和右,上和下,前和后,第一和第二之类的关系术语仅仅用来区分一个实体或动作与另一个实体或动作,而不一定要求或暗示这种实体或动作之间的任何实际的这种关系或顺序。术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
例如,提供一种配电网知识图谱建立方法,包括:获取特征字段;基于特征库,对所述特征字段进行训练,得到训练数据;将所述训练数据映射为对应的向量;对所述对应的向量进行特征关联,得到训练数据集合;所述训练数据集合基于空间向量距离最小的原理,得到目标函数;根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果;获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
上述配电网知识图谱建立方法,通过将特征字段进行训练并映射为对应的向量,得到训练数据集合,将训练数据集合迭代至目标函数,并输出目标函数的最小值对应的训练数据集合,能够保留特征字段中所有特征信息,即能够提取特征字段的关键信息,并能够将特征信息关联起来,从而建立知识图谱,便于用户分析特征字段,例如,通过获取配电网的故障信息的特征字段构建知识图谱,提取配电网的故障信息的关键词,即用户输入故障信息,可以直接提取关键信息,并显示相关信息,从而便于用户查阅故障关联信息,并依据故障关联信息分析具体故障原因。
在其中一个实施例中,请参阅图1,一种配电网知识图谱建立方法,包括:
步骤110,获取特征字段。
特征字段即词汇,其可以是一句话,也可以是几个词,值得一提的,特征字段相当于计算机中的数据,是可以被计算机识别处理的,例如特征字段为配电网中的故障记录。具体的,用户通过外接设备录入特征字段,也可以通过网络下载所述特征字段,也可以通过计算机本身获得所述特征字段。
步骤120,基于特征库,对所述特征字段进行训练,得到训练数据。
具体的,所述特征库即语料库,语料库是以电子计算机为载体承载语言知识的基础资源,语料库中存放的是在语言的实际使用中真实出现过的语言材料,真实语料需要经过加工,即将语料进行分析和处理,得到有用的资源,基于特征库,对所述特征字段进行训练,即对所述特征字段进行分析和处理,得到训练数据,例如对所述特征字段进行分词处理,将特征字段分割成多个具有实际意义的特征字符串,得到训练数据。例如,特征字段为配电网中的故障记录,又例如,特征字段为区庄的动作开关跳闸后重合闸不成功,根据特征库将特征字段训练成区庄、动作开关、跳闸重合及不成功等训练数据。
步骤130,将所述训练数据映射为对应的向量。
具体的,将所述训练数据映射为对应的向量是指将词映射到一个语义空间,得到的向量,例如,将训练数据集输入到连续词袋CBOW(ContinuousBag-Of-Words Model,连续袋文字模型)模型中,得到训练数据集的向量表示,其中CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量,即特征字符串与向量是一一对应关系的。
步骤140,对所述对应的向量进行特征关联,得到训练数据集合。
具体的,由于训练数据映射为向量是独立的个体,向量之间没有相互关联性,因此需建立训练数据之间的关联性,构成特征上的关联,即语义关联,形成知识图谱的雏形,例如,将的对应的向量代入具有关联的框架中,或者将训练数据代入集合中,使得所述对应的向量之间关联起来,从而得到训练数据集合。
步骤150,所述训练数据集合基于空间向量距离最小的原理,得到目标函数。
具体的,所述空间向量距离最小的原理是指根据词向量平移不变的原理,将两个向量之和与另一个向量的距离做比较,使得向量之间的距离越小,越符合期望目标,基于此原理,根据所述训练数据集合,得到目标函数,即建立目标函数。
步骤160,根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
具体的,迭代是重复反馈过程的活动,其目的通常是为了逼近所需目标或结果。每一次对过程的重复称为一次“迭代”,而每一次迭代得到的结果会作为下一次迭代的初始值。值得一提的,所述根据所述训练数据集合,对所述目标函数进行迭代处理的步骤,即将训练数据集合的每一子集合代入目标函数中,目标函数每一次迭代都会输出一个结果,从而得到目标函数的迭代结果,即目标函数的值。
步骤170,获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
具体的,由于训练数据集合的每一子集合代入目标函数,目标函数均会输出一个迭代结果即一个数值,则当所有训练数据集合迭代至目标函数中时,会输出多个目标函数的迭代结果,取目标函数的迭代结果中的最小值,并输出当目标函数的最小值代入的对应的训练数据集合,即相当于将目标函数最小化,由于目标函数取值越小,越符合期望值,对应的训练数据集合的关联度越大,从而可以保留原有特征字段的所有特征信息对应的向量,对应的,得到的特征信息也越简洁明了,更好的反应特征字段的内容。
步骤180,将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
具体的,获取的特征字段越多,知识图谱的内容越丰富,根据知识图谱提取的特性信息越精确,即通过知识图谱解析的故障原因及关联信息更准确,从而便于用户分析故障原因。
上述配电网知识图谱建立方法,通过将特征字段进行训练并映射为对应的向量,得到训练数据集合,将训练数据集合迭代至目标函数,并输出目标函数的最小值对应的训练数据集合,能够保留特征字段中所有特征信息,即能够提取特征字段的关键信息,并能够将特征信息关联起来,从而建立知识图谱,便于用户分析特征字段,例如,通过获取配电网的故障信息的特征字段构建知识图谱,提取配电网的故障信息的关键词,即用户输入故障信息,可以直接提取关键信息,并显示相关信息,从而便于用户查阅故障关联信息,并依据故障关联信息分析具体故障原因。
为了提升训练数据集合的关联性,在其中一个实施例中,所述根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果的步骤包括:对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合;根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果。具体的,对所述训练数据集合进行初始化处理即将所述训练数据集合通过uniform函数进行运算处理,具体的,uniform函数即uniform(a,b)表示[a,b)之间的一个随机数对训练数据集合单位话。将由于将训练数据的对应向量进行语义关联处理后,只是将训练数据集合的每一子集合的组内进行关联,而子集合与子集合的任处于离散状态,通过对所述训练数据集合初始化处理,根据训练数据集合的子集合的共有属性,将训练数据集合的子集合进行关联起来,以提升训练数据集合的关联性,例如,所述训练数据集合包括实体集合和关系集合,将所述实体集合及关系集合分别进行初始化处理,得到初始化后的训练数据集合。
为了能够使输出的特征信息更符合期望值,在其中一个实施例中,所述取所述目标函数的迭代结果中最小值,输出对应的训练数据集合之前还包括:根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合;所述获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合的步骤包括:获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的更新后的训练数据集合;所述将所述对应的训练数据集合转化成映射为对应的特征信息,得到知识图谱的步骤,包括:将所述对应的更新后的训练数据集合映射为对应的特征信息,得到知识图谱。具体的,在目标函数迭代的过程中,目标函数的值越小,其对应的特征信息越符合期望值,则通过根据目标函数的迭代结果,更新目标函数的迭代结果的对应的训练数据集合,使得训练数据集合更符合期望目标,从而能够使输出的特征信息更符合期望值。
为了更好的将所述对应的向量进行特征关联,在其中一个实施例中,所述对所述对应的向量进行特征关联,得到训练数据集合的步骤,包括:获取基于实体-关系-实体的三元组;将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。具体的,三元组是指形如((x,y),z)的集合,常简记为(x,y,z),本实施例中的三元组是指实体h向量-关系r向量-实体T向量的三元组,则训练数据集合中的每一三元组表达式为S(h,r,t)。通过将对应的向量代入三元组中,从而实现原本毫无关联的对应的向量根据三元组规定的特征架构,进行特征关联,即使对应的向量进行语义的关联。
为了更好的获得目标函数,在其中一个实施例中,所述训练数据集合基于空间向量距离最小的原理,得到目标函数的步骤包括:将所述训练数据集合中的实体h向量与所述训练数据集合中的实体t向量之和趋近于所述训练数据集合中的关系r向量,得到所述目标函数。具体的,所述训练数据集合的每一子集合包括:实体h向量、关系r向量及实体t向量;根据向量的平移不变的原理,将训练数据集合的每一子集合的关系r向量看做从实体h向量到实体t向量的翻译,通过不断调整实体h向量的、关系r向量和实体t向量的关系,使得实体h向量与实体t向量之趋近于关系r向量,即是实体h向量与实体t向量之和约等于关系r向量,其对应实体h向量和实体t向量之和与关系r向量的距离越近,越符合期望值,从而的到目标函数。
为了得到具有实际意义的训练数据,在其中一个实施例中,所述基于特征库,对所述特征字段进行训练,得到训练数据的步骤包括:基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段;将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。在其中一个实施例中,所述将所述分词后的特征字段中的预设字段滤除,得到所述训练数据的步骤,包括:将所述分词后的特征字段中的无效词、语气助词及标点符号滤除,得到所述训练数据。具体的,所述预设字段即停用词,停用词包括:无效词、语气助词及标点符号。由于获取的特征字段可以是特征语句,也可以是是特征词,通过将特征字段进行分词处理,将特征字段分割成独立的具有实际意义的词语,并将分词后的特征字段中的无效词、语气助词及标点符号等滤除,从而得到具有实际意义的训练数据,从而将特征字段更好的训练成训练数据。
下面是一个具体的实施例,一种配电网知识图谱建立方法,包括:获取特征字段;基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段;将所述分词后的特征字段中的预设字段滤除,得到所述训练数据;将所述训练数据映射为对应的向量;获取基于实体-关系-实体的三元组;将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合;将所述训练数据集合中的所述实体h向量与所述训练数据集合中的实体t之和趋近于所述训练数据集合中的关系r向量,得到所述目标函数;对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合;根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果;根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合;获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的更新后的训练数据集合;将所述对应的更新后的训练数据集合映射为对应的特征信息,得到知识图谱。
具体的,将所述训练数据映射为对应的向量,即将训练数据输入到连续磁带模型CBOW中,得到训练数据的向量,也就是将训练数据中的中文词汇映射为向量,并利用余弦距离公式cos(θ)计算词间距,余弦距离公式cos(θ)的表达式为:
其中参数Xi及参数Yi为训练数据的对应的向量,根据词间距大小,设定阈值,过滤提取语义特征,得到训练数据的对应的向量。
所述将所述训练数据集合的实体h向量与所述训练数据集合的关系r向量之和趋近于所述训练数据集合的实体r向量,得到所述目标函数的步骤,具体的,每一三元组的表达式为S(h,r,t),根据向量的平移不变的原理,将训练数据集合的每一子集合的关系r向量看做从实体h向量到实体t向量的翻译,通过不断调整实体h向量的、关系r向量和实体t向量的关系,使得实体h向量与实体t向量之和趋近于或者等于关系r向量,实体h向量用表示,关系r向量用表示,实体t向量用表示,则实体h向量与关系r向量之趋近于或者等于实体t向量的表达式为:
对应的,实体h向量和实体t向量之和与关系r向量的距离为d,则d的表达式为:
当一个三元组的距离d越小时,对应的训练数据集合越符合期望,从而得到目标函数L的表达式为:
其中,参数S为训练数据集合的三元组;参数S′表示负采样的三元组,负采样的三元组即通过替换三元组S向量和向量所得。参数γ表示间隔距离参数,γ>0;[x]+表示正值函数,即x>0时,[x]+=x;当x≤0时,[x]+=0。对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合,具体的,训练数据集合包括实体集合E和关系集合L,实体集合E的表达式为E=其中为向量和向量的集合;关系集合L的表达式为其中为向量对应的三元组S的表达式为其中 为实体集合E和关系集合L中元素的集合。对所述训练数据集合进行初始化处理,即对所述实体集合及所述关系集合分别进行初始化处理,对关系集合初始化处理具体步骤为:将关系集合中的每一子集合进行均匀分布,具体的,关系集合中的第i个子集合的表达式为其中Li中的每一个元素通过uniform函数计算获得,具体的,元素X的计算表达式:
其中,参数k为模糊嵌入因子。uniform(a,b)表示[a,b)之间的一个随机数对L单位化。
对实体集合初始化处理的具体步骤为:将实体集合中的每一子集合进行均匀分布,具体的,实体集合中的第i个子集合的表达式为其中Ei中的每一个元素通过uniform函数计算获得,具体的,元素X的计算表达式:
其中,参数k为模糊嵌入因子。
所述根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合的步骤,具体的,根据目标函数的迭代结果,将训练数据集合按如下公式进行更新:
其中,向量向量及向量分别为更新之前的实体t向量、实体h向量和关系r向量;向量及向量分别为实体t向量、实体h向量的替换词的向量表示。参数X+表示三元组S,X-分别表示负采样的三元组S′的迭代结果。
所述获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的更新后的训练数据集合的步骤,即将目标函数最小化,输出对应的更新后的训练数据集合,更新后的训练数据集合包括更新后的实体集合E及更新后的关系集合L,其中输出的更新后的实体集合E的表达式为:
输出的更新后的关系集合L的表达式为:
应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在其中一个实施例中,请参阅图2,提供一种配电网知识图谱建立装置20,包括:
特征字段获取模块210,用于获取特征字段。
训练模块220,用于基于特征库,对所述特征字段进行训练,得到训练数据。
第一映射模块230,用于将所述训练数据映射为对应的向量。
特征关联模块240,用于对所述对应的向量进行特征关联,得到训练数据集合。
目标函数获取模块250,用于所述训练数据集合基于空间向量距离最小的原理,得到目标函数。
迭代模块260,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
输出模块270,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
第二映射模块280,用于将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述迭代模块包括:
初始化子模块,用于对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合。以及
迭代子模块,用于根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
在其中一个实施例中,所述的配电网知识图谱建立装置还包括更新模块,所述更新模块用于根据所述目标函数的迭代结果,对所述训练数据集合进行更新处理,得到更新后的训练数据集合。
在其中一个实施例中,特征关联模块包括:
三元组获取子模块,用于获取基于实体-关系-实体的三元组。以及
代入子模块,用于将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。
在其中一个实施例中,所述目标函数获取模块用于将所述训练数据集合中的实体h向量与所述训练数据集合中的实体t向量之和趋近于所述训练数据集合中的关系r向量,得到所述目标函数。在其中一个实施例中,所述训练模块包括:
分词子模块,用于基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段。以及
滤除子模块,用于将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。
在其中一个实施例中,所述滤波子模块用于将所述分词后的特征字段中的无效词、语气助词及标点符号滤除,得到所述训练数据。
在其中一个实施例中,提供了一种计算机设备,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种知识图谱建立的方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在其中一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤。
获取特征字段。
基于特征库,对所述特征字段进行训练,得到训练数据。
将所述训练数据映射为对应的向量。
对所述对应的向量进行特征关联,得到训练数据集合。
所述训练数据集合基于空间向量距离最小的原理,得到目标函数。
根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述处理器执行所述计算机程序时实现以下步骤:
对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合。
根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果。
在其中一个实施例中,所述处理器执行所述计算机程序时实现以下步骤:
根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合。
在其中一个实施例中,所述处理器执行所述计算机程序时实现以下步骤:
获取基于实体-关系-实体的三元组。
将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。
在其中一个实施例中,所述处理器执行所述计算机程序时实现以下步骤:
将所述训练数据集合的实体h向量与所述训练数据集合的实体t向量之和趋近于所述训练数据集合的关系r向量,得到所述目标函数。
在其中一个实施例中,所述处理器执行所述计算机程序时实现以下步骤:
基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段。
将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。
在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取特征字段。
基于特征库,对所述特征字段进行训练,得到训练数据。
将所述训练数据映射为对应的向量。
对所述对应的向量进行特征关联,得到训练数据集合。
所述训练数据集合基于空间向量距离最小的原理,得到目标函数。
根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合。
将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
在其中一个实施例中,所述计算机程序被处理器执行时实现以下步骤:
对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合。
根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果。
在其中一个实施例中,所述计算机程序被处理器执行时实现以下步骤:
根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合。
在其中一个实施例中,所述计算机程序被处理器执行时实现以下步骤:
获取基于实体-关系-实体的三元组。
将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。
在其中一个实施例中,所述计算机程序被处理器执行时实现以下步骤:
将所述训练数据集合的实体h向量与所述训练数据集合的实体t向量之和趋近于所述训练数据集合的关系r向量,得到所述目标函数。
在其中一个实施例中,所述计算机程序被处理器执行时实现以下步骤:
基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段。
将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种配电网知识图谱建立方法,其特征在于,包括:
获取特征字段;
基于特征库,对所述特征字段进行训练,得到训练数据;
将所述训练数据映射为对应的向量;
对所述对应的向量进行特征关联,得到训练数据集合;
所述训练数据集合基于空间向量距离最小的原理,得到目标函数;
根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果;
获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;
将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
2.根据权利要求1所述的配电网知识图谱建立方法,其特征在于,所述根据所述训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果的步骤包括:
对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合;
根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到所述目标函数的迭代结果。
3.根据权利要求1所述的配电网知识图谱建立方法,其特征在于,所述取所述目标函数的迭代结果中最小值,输出对应的训练数据集合之前还包括:
根据所述目标函数的迭代结果,对所述训练数据集合进行更新,得到更新后的训练数据集合;
所述获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合的步骤包括:
获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的更新后的训练数据集合;
所述将所述对应的训练数据集合转化成映射为对应的特征信息,得到知识图谱的步骤,包括:
将所述对应的更新后的训练数据集合映射为对应的特征信息,得到知识图谱。
4.根据权利要求1所述的配电网知识图谱建立方法,其特征在于,所述对所述对应的向量进行特征关联,得到训练数据集合的步骤,包括:
获取基于实体-关系-实体的三元组;
将所述对应的向量代入所述三元组中进行特征关联,得到训练数据集合。
5.根据权利要求1所述的配电网知识图谱建立方法,其特征在于,所述训练数据集合基于空间向量距离最小的原理,得到目标函数的步骤包括:
将所述训练数据集合中的实体h向量与所述训练数据集合中的实体t向量之和趋近于所述训练数据集合中的关系r向量,得到所述目标函数。
6.根据权利要求1所述的配电网知识图谱建立方法,其特征在于,所述基于特征库,对所述特征字段进行训练,得到训练数据的步骤包括:
基于特征库,对所述特征字段进行分词处理,得到分词后的特征字段;
将所述分词后的特征字段中的预设字段滤除,得到所述训练数据。
7.一种配电网知识图谱建立装置,其特征在于,包括:
特征字段获取模块,用于获取特征字段;
训练模块,用于基于特征库,对所述特征字段进行训练,得到训练数据;
第一映射模块,用于将所述训练数据映射为对应的向量;
特征关联模块,用于对所述对应的向量进行特征关联,得到训练数据集合;
目标函数获取模块,用于所述训练数据集合基于空间向量距离最小的原理,得到目标函数;
迭代模块,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;
输出模块,用于获取所述目标函数的迭代结果的最小值,输出迭代结果的最小值对应的训练数据集合;
第二映射模块,用于将所述对应的训练数据集合映射为对应的特征信息,得到知识图谱。
8.根据权利要求7所述的配电网知识图谱建立装置,其特征在于,所述迭代模块包括:
初始化子模块,用于对所述训练数据集合进行初始化处理,得到初始化后的训练数据集合;以及
迭代子模块,用于根据所述初始化后的训练数据集合,对所述目标函数进行迭代处理,得到目标函数的迭代结果。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
CN201910337139.8A 2019-04-25 2019-04-25 配电网知识图谱建立方法、装置、计算机设备及存储介质 Pending CN110096598A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910337139.8A CN110096598A (zh) 2019-04-25 2019-04-25 配电网知识图谱建立方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910337139.8A CN110096598A (zh) 2019-04-25 2019-04-25 配电网知识图谱建立方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN110096598A true CN110096598A (zh) 2019-08-06

Family

ID=67445714

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910337139.8A Pending CN110096598A (zh) 2019-04-25 2019-04-25 配电网知识图谱建立方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN110096598A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750600A (zh) * 2019-10-15 2020-02-04 北京明略软件系统有限公司 一种信息处理方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064826A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 지식 그래프 기반에서의 의미적 검색 서비스 제공장치 및 그 방법
CN107633093A (zh) * 2017-10-10 2018-01-26 南通大学 一种供电决策知识图谱的构建及其查询方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160064826A (ko) * 2014-11-28 2016-06-08 한국전자통신연구원 지식 그래프 기반에서의 의미적 검색 서비스 제공장치 및 그 방법
CN108664615A (zh) * 2017-05-12 2018-10-16 华中师范大学 一种面向学科教育资源的知识图谱构建方法
CN107633093A (zh) * 2017-10-10 2018-01-26 南通大学 一种供电决策知识图谱的构建及其查询方法
CN108460136A (zh) * 2018-03-08 2018-08-28 国网福建省电力有限公司 电力运维信息知识图谱构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
蔡圆媛: "《大数据环境下基于知识整合的语义计算技术与应用》", 31 August 2018 *
贺超波: "《在线社交网络挖掘典型问题研究》", 31 August 2017 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750600A (zh) * 2019-10-15 2020-02-04 北京明略软件系统有限公司 一种信息处理方法及装置

Similar Documents

Publication Publication Date Title
CN112347310B (zh) 事件处理信息的查询方法、装置、计算机设备和存储介质
KR102464248B1 (ko) Spo의 추출 방법, 장치, 전자기기 및 저장 매체
CN111581229B (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN109859029A (zh) 异常申请检测方法、装置、计算机设备以及存储介质
CN109471793A (zh) 一种基于深度学习的网页自动化测试缺陷定位方法
CN108268645A (zh) 大数据处理方法与系统
US20210374195A1 (en) Information processing method, electronic device and storage medium
CN111931935B (zh) 基于One-shot 学习的网络安全知识抽取方法和装置
CN110162681A (zh) 文本识别、文本处理方法、装置、计算机设备和存储介质
CN103106211B (zh) 客户咨询文本的情感识别方法及装置
US10042827B2 (en) System and method for recognizing non-body text in webpage
CN104102704B (zh) 系统控件展示方法和装置
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN110096598A (zh) 配电网知识图谱建立方法、装置、计算机设备及存储介质
CN109491884A (zh) 代码性能检测方法、装置、计算机设备和介质
Tian et al. Enhancing vulnerability detection via AST decomposition and neural sub-tree encoding
CN103235757A (zh) 基于自动化造数对输入域测试对象进行测试的装置和方法
CN112667208A (zh) 翻译错误识别方法、装置、计算机设备及可读存储介质
CN110781310A (zh) 目标概念图谱的构建方法、装置、计算机设备和存储介质
CN114547257B (zh) 类案匹配方法、装置、计算机设备及存储介质
CN110263123A (zh) 机构名简称的预测方法、装置和计算机设备
CN115906817A (zh) 一种跨语言环境的关键字匹配方法、装置及电子设备
CN109871414A (zh) 基于上下文向量图核的生物医学实体关系分类方法
CN104778163A (zh) 一种事件触发词识别方法及系统
CN113591480A (zh) 电力计量的命名实体识别方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200923

Address after: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant after: Guangzhou Power Supply Bureau of Guangdong Power Grid Co.,Ltd.

Address before: 510620 Tianhe District, Guangzhou, Tianhe South Road, No. two, No. 2, No.

Applicant before: GUANGZHOU POWER SUPPLY Co.,Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20190806

RJ01 Rejection of invention patent application after publication