CN115048528A - 新能源电场运行数据的知识图谱构建方法及装置 - Google Patents

新能源电场运行数据的知识图谱构建方法及装置 Download PDF

Info

Publication number
CN115048528A
CN115048528A CN202210540830.8A CN202210540830A CN115048528A CN 115048528 A CN115048528 A CN 115048528A CN 202210540830 A CN202210540830 A CN 202210540830A CN 115048528 A CN115048528 A CN 115048528A
Authority
CN
China
Prior art keywords
entities
data
semantic
similarity
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210540830.8A
Other languages
English (en)
Inventor
付雪姣
巩宇
张扬帆
王玙
杨伟新
王正宇
王枭枭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Electric Power Research Institute of State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210540830.8A priority Critical patent/CN115048528A/zh
Publication of CN115048528A publication Critical patent/CN115048528A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Supply And Distribution Of Alternating Current (AREA)

Abstract

本发明提供了一种新能源电场运行数据的知识图谱构建方法及装置,新能源电场运行数据的知识图谱构建方法包括:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。本发明基于新能源场站运行数据建立与其对应的知识图谱,并通过知识抽取与融合技术,最终实现非结构化文本数据有效采集利用,以及全口径数据的深度融合。

Description

新能源电场运行数据的知识图谱构建方法及装置
技术领域
本发明涉及新能源技术领域,特别是涉及新能源大数据的应用技术领域,具体涉及一种基于新能源电场运行数据的知识图谱构建方法及装置。
背景技术
相比传统的火电电场,新能源电场发电设备类型多,地域分布广,生产管控难度大,另外,新能源电场普遍采用设备监控、整场站监控等多级监控系统实现智能电网输电的友好互动和智能调度。在新能源电站运行过程中产生并积累了大量数据,但利用这些大量数据的工作并没有充分展开。
再者,由于新能源发电设备种类和数量繁多,相应配套输变电设备和控制设备也繁多,随着新能源电站信息化、智能化、自动化的发展,积累了大量多源异构数据,给后续数据处理和转换工作带来了很大的困难。现有技术多用神经网络、机器学习等人算法结合大数据技术对新能源机组和场站运行情况进行统计与展示,但多用于结构化数据的采集、处理和分析,针对新能源电站运行过程中存在的非结构化文本数据难以利用、全口径数据难以深度融合、设备知识应用深度较浅等问题,需要进一步探索与发展。
发明内容
本发明所提供的新能源电场运行数据的知识图谱构建方法及装置,将新能源场站运行数据与知识图谱技术相结合,实现场站智能运行知识图谱的构建,并通过知识抽取与融合技术,最终实现非结构化文本数据有效采集利用,以及全口径数据的深度融合。
为了实现上述目的,第一方面,本方提供了一种新能源电场运行数据的知识图谱构建方法,包括:
抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
一实施例中,所述根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选,包括:
根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度;
根据所述语义相似度对所述实体进行筛选。
一实施例中,所述根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度,包括:
根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
根据所述文本相似度确定所述多个实体之间的语义相似度。
一实施例中,新能源电场运行数据的知识图谱构建方法还包括:
根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
一实施例中,新能源电场运行数据的知识图谱构建方法还包括:
将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
一实施例中,新能源电场运行数据的知识图谱构建方法还包括:
根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
分别提取所述非结构化数据以及所述半结构化数据中的元数据;
根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
一实施例中,新能源电场运行数据的知识图谱构建方法还包括:
对所述结构化数据对应的实体的属性值进行归一化处理。
一实施例中,所述抽取新能源电场运行数据的实体、实体属性及多个实体之间关系包括:
根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
第二方面,本发明提供一种新能源电场运行数据的知识图谱构建装置,该装置包括:
数据抽取模块,用于抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
实体筛选模块,用于根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
知识图谱构建模块,用于根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
一实施例中,所述实体筛选模块包括:
特征量确定单元,用于根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
语义相似度确定单元,用于根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度;
实体筛选单元,用于根据所述语义相似度对所述实体进行筛选。
一实施例中,所述语义相似度确定单元包括:
文本相似度确定单元,用于根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
语义相似度确定子单元,用于根据所述文本相似度确定所述多个实体之间的语义相似度。
一实施例中,新能源电场运行数据的知识图谱构建装置还包括:
义原相似度确定模块,用于根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
一实施例中,新能源电场运行数据的知识图谱构建装置还包括:
义项划分模块,用于将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
义项相似度确定模块,用于根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
一实施例中,新能源电场运行数据的知识图谱构建装置还包括:
非结构化确定模块,用于根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
元数据提取模块,用于分别提取所述非结构化数据以及所述半结构化数据中的元数据;
非结构化转化模块,用于根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
一实施例中,新能源电场运行数据的知识图谱构建装置还包括:
实体归一化模块,用于对所述结构化数据对应的实体的属性值进行归一化处理。
一实施例中,所述数据抽取模块包括:
数据抽取单元,用于根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现新能源电场运行数据的知识图谱构建方法的步骤。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现新能源电场运行数据的知识图谱构建方法的步骤。
从上述描述可知,本发明实施例提供的新能源电场运行数据的知识图谱构建方法及装置,包括:首先抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;接着,根据多个实体之间的语义相似度、实体、实体属性及多个实体之间关系,对实体进行筛选;最后根据筛选后的实体、实体属性以及多个实体之间关系构建运行数据的知识图谱。本发明基于新能源场站运行数据建立与其对应的知识图谱,并通过知识抽取与融合技术,最终实现非结构化文本数据有效采集利用,以及全口径数据的深度融合。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中提供的新能源电场运行数据的知识图谱构建方法的流程示意图一;
图2为本发明的实施例中新能源电场运行数据的知识图谱构建方法步骤200的流程示意图;
图3为本发明的实施例中新能源电场运行数据的知识图谱构建方法步骤202的流程示意图;
图4为本发明实施例中提供的新能源电场运行数据的知识图谱构建方法的流程示意图二;
图5为本发明实施例中提供的新能源电场运行数据的知识图谱构建方法的流程示意图三;
图6为本发明实施例中提供的新能源电场运行数据的知识图谱构建方法的流程示意图四;
图7为本发明实施例中提供的新能源电场运行数据的知识图谱构建方法的流程示意图五;
图8为本发明具体应用实例中新能源电场运行数据的知识图谱构建方法的流程示意图;
图9为本发明具体应用实例中新能源电场运行数据的知识图谱构建方法的思维导图;
图10为本发明实施例中新能源电场运行数据的知识图谱构建装置的结构示意图一;
图11为本发明实施例中实体筛选模块20的结构示意图;
图12为本发明实施例中语义相似度确定单元20b的结构示意图;
图13为本发明实施例中新能源电场运行数据的知识图谱构建装置的结构示意图二;
图14为本发明实施例中新能源电场运行数据的知识图谱构建装置的结构示意图三;
图15为本发明实施例中新能源电场运行数据的知识图谱构建装置的结构示意图四;
图16为本发明实施例中新能源电场运行数据的知识图谱构建装置的结构示意图五;
图17为本发明的实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
本发明的实施例提供一种新能源电场运行数据的知识图谱构建方法的具体实施方式,参见图1,该方法具体包括如下内容:
步骤100:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系。
举例:
实体1:升压站 属性:名称、容量、电压等级、地理位置…
实体2:风电场A 属性:名称、电压等级、装机容量、并网时间…
实体3:主变#1 属性:型号、容量、电压等级、设备类型…
实体1和实体2关系:连接;
实体2和实体3关系:包含。
优选地,步骤100中的新能源电场运行数据包括监控系统数据和生产报表数据两大类。其中各层级监控系统存储了海量内容各异的运行数据,主要包括机组/逆变器SCADA数据、气象站数据、风电场/光伏电站SCADA数据等,生产报表数据主要包括风机定期检修信息、电网限功率信息、场内电气设备陪停信息、场外电气设备陪停信息等。
具体地,通过命名实体识别方法新能源电场运行数据的长文本格式数据中抽取实体、实体属性及多个实体之间关系,进一步地,首先根据长文本格式数据进行实体边界识别,接着确定实体类别,实体边界识别相对容易,任务的重点是确定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,而且相对于实体类别标注子任务,实体边界的识别更加困难。
步骤200:根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选。
需要指出的是,同一实体在不同文档中可能有不同命名方式,不同实体也可能采用相同的名称,前者会对实体属性关系的合并带来障碍,后者会导致实体属性和关系的混乱。故需要对实体进行筛选,以使数据更为纯净、准确。
步骤300:根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
可以理解的是,知识图谱是由一些相互连接的实体和它们的属性构成的,可用于新能源运行领域实现电力行业专有语言的理解、结构化和非结构化数据的融合处理等,从而让大数据平台利用知识去丰富智能化运维手段。
具体地,基于资源描述框架(RDF)模型的三元组数据库和基于属性图模型的图数据库,并利用步骤200中所得到的实体、实体属性以及多个实体之间关系构建知识图谱,接着利用知识图谱对风电场、光伏电站、升压站、换流站以及风电机组、变流器、光伏组件、汇流箱、逆变器、箱变、主变等关键设备进行智能化运行状态监测,建立非结构化文本的智能识别、提取与设备语义相似度计算模型,实现设备状态自动化识别、场站信息灵活查询和基于故障记录的辅助诊断。
从上述描述可知,本发明实施例提供的新能源电场运行数据的知识图谱构建方法及装置,包括:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;根据多个实体之间的语义相似度、实体、实体属性及多个实体之间关系,对实体进行筛选;根据筛选后的实体、实体属性以及多个实体之间关系构建运行数据的知识图谱。本发明基于新能源场站运行数据建立与其对应的知识图谱,并通过知识抽取与融合技术,最终实现非结构化文本数据有效采集利用,以及全口径数据的深度融合。
一实施例中,参见图2,步骤200包括:
步骤201:根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
具体地,以场站或设备实体名称、数值属性、关系属性作为特征量。
步骤202:根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度。
步骤203:根据所述语义相似度对所述实体进行筛选。
具体地,根据计算得到的语义相似度以及预设阈值筛选出合格的实体。
一实施例中,参见图3,步骤202包括:
步骤2021:根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
具体地,文本相似度(文本型属性相似度)的计算,首先采用基于空间向量模型的TF-IDF方法评估文档中的关键字,得到文本数据的TF-IDF向量后,再采用余弦相似度来衡量它们之间的相似性。
步骤2022:根据所述文本相似度确定所述多个实体之间的语义相似度。
具体地,语义相似度(实体名称相似度)计算方法为:
Figure BDA0003647960800000081
其中,A和B分别表示两个实体名称的基础义原,distance(A,B)表示两个义原在知网义原结构上的最短路径长度,depth1和depth2分别是两个义原在义原结构中各自所在的层次,即义原深度,α是一个调节参数,代表Sim值为0.5时两个义原的最短路径长度。这个公式利用义原之间的上下位关系,以两个义原在义原网络上的路径长度作为义原间相似度的计算基础。
一实施例中,参见图4,新能源电场运行数据的知识图谱构建方法还包括:
步骤400:根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
具体地,利用义原之间的上下位关系,以两个义原在义原网络上的路径长度计算义原相似度。
一实施例中,参见图5,新能源电场运行数据的知识图谱构建方法还包括:
步骤500:将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
可以理解的是,义项是相同词条名下每一个不同概念意义事物的描述内容,用于描述一个实体义项的特征结构,另外,可以分为三个部分:独立义原描述式、关系义原描述式以及符号义原描述式;其中独立义原描述式又可以分为第一独立义原描述式、其他独立义原描述式,具体地:一个实词概念有多个义原,这些义原又分为4部分:
1)第一独立义原描述式;
2)其他独立义原描述式:语义表达式中除第一独立义原以外的所有其他独立义原(或具体词);
3)关系义原描述式:语义表达式中所有的用关系义原描述式;
4)符号义原描述式:语义表达式中所有的用符号义原描述式;
步骤600:根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
具体地,两个义项间相似度计算方法为:
Figure BDA0003647960800000091
其中,β1234=1,βi(1≤i≤4)是用于调节四个部分(第一独立义原描述式、其他独立义原描述式、关系义原描述式和符号义原描述式)权重的参数。
一实施例中,参见图6,新能源电场运行数据的知识图谱构建方法还包括:
步骤700:根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
可以理解的是,新能源场站运行数据中包含大量的设备故障报告、试验检测报告、标准导则等。这些文本数据为非结构化数据,它们和结构化数据的关系采用现有技术中的方法很难打通,难以形成以设备或场站为中心的知识体系。
所谓结构化数据是高度组织和整齐格式化的数据。是可以放入表格和电子表格中的数据类型。它可能不是人们最容易找到的数据类型,但与非结构化数据相比,无疑是两者中人们更容易使用的数据类型。另一方面,计算机可以轻松地搜索它。结构化数据也被成为定量数据,是能够用数据或统一的结构加以表示的信息,如数字、符号。在项目中,保存和管理这些的数据一般为关系数据库,当使用结构化查询语言或SQL时,计算机程序很容易搜索这些术语。结构化数据具有的明确的关系使得这些数据运用起来十分方便。
非结构化数据本质上是结构化数据之外的一切数据。它不符合任何预定义的模型,因此它存储在非关系数据库中,并使用NoSQL进行查询。它可能是文本的或非文本的,也可能是人为的或机器生成的。简单的说,非结构化数据就是在数据结构上字段可变的的数据。
非结构化数据不是那么容易组织或格式化的。收集,处理和分析非结构化数据也是一项重大挑战。典型的人为生成的非结构化数据包括:
文本文件:文字处理、电子表格、演示文稿、电子邮件、日志。
电子邮件:电子邮件由于其元数据而具有一些内部结构,有时将其称为半结构化。但是,消息字段是非结构化的,传统的分析工具无法解析它;社交媒体:来自互联网平台的数据;网站;通讯:聊天、即时消息、电话录音、协作软件等;媒体:MP3、数码照片、音频文件、视频文件;业务应用程序:MS Office文档、生产力应用程序。
半结构数据是结构化数据的一种特殊形式,其不符合关系型数据库或者其他数据表的形式关联起来的数据模型结构,仅包含相关标记,用来分割语义元素以及对记录和字段进行分层,在半结构数据中,数据同一类实体可以有不同的属性。
步骤800:分别提取所述非结构化数据以及所述半结构化数据中的元数据;
具体地,首先在数据库表中建立对应的字段和字段类型;接着根据文件数据的组织形式定制相应的模板,以及根据模板生成的数据文档,最后根据数据文档所对应的模板提取其元数据。
步骤900:根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
首先通过实体名称、数值属性以及关系属性的相似度对齐非结构化数据以及半结构化数据的元数据,以实现对齐非结构化数据以及半结构化数据(不同表达方式归一化,将同一实体的属性、关系合并),接着,根据预先建立的约束条件,将对齐后的半结构化数据以及非结构化数据进行实体消岐(根据属性、关系的不同,区分名称相同的不同实体)。
一实施例中,参见图7,新能源电场运行数据的知识图谱构建方法还包括:
步骤1000:对所述结构化数据对应的实体的属性值进行归一化处理。
具体地,在开展实体相似度计算前,需对实体的属性值进行数据预处理,对相关实体的枚举型属性值进行归一化处理。例如,风电机组装机容量值常见表述包括“2MW”“2500kW”“3兆瓦”等,需要对单位归一化;“防反放电保护”、“直流防反放电动作”、“逆流故障”、“组串反灌”等故障状态需要统一调整为“直流反向放电”。
一实施例中,在步骤1000的基础上,步骤100具体为:
步骤101:根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
具体地,基于规则模板的识别,适用于从具有较为固定的格式或结构的文本。例如《xx风电场#x风电机组停机原因分析报告》、《xx光伏电站#x变压器跳闸原因分析报告》等,电站名称、机组名称、变压器名称呈现出较为明显的模板特征,针对此类文本语句,基于正则表达式的脚本进行知识抽取,高效准确且成本较低。
为进一步地说明本方案,本发明提供新能源电场运行数据的知识图谱构建方法的具体应用实例,具体包括如下内容,参见图8以及图9。
S1:知识抽取。
从电力设备庞杂的文本数据中挖掘并提取出电力领域知识,如设备故障报告、试验检测报告、标准导则等。这些文本数据即非结构化数据,它们和结构化数据的关系尚未打通,难以形成以设备或场站为中心的知识体系。本发明采用基于规则模板的抽取,通过命名实体识别从长文本中抽取实体和关系。
S2:知识融合。
对来自SCADA电力监控系统或调度管理系统的结构化数据和非结构化文本数据完成知识抽取后,将知识进行存储时,以解决两类知识的冲突融合问题。
具体地,以场站或设备实体名称、数值属性、关系属性作为特征量,计算不同实体的语义相似度。实体名称相似度计算方法为:
Figure BDA0003647960800000121
其中,A和B分别表示两个实体名称的基础义原,distance(A,B)表示两个义原在知网义原结构上的最短路径长度,depth1和depth2分别是两个义原在义原结构中各自所在的层次,即义原深度,α是一个调节参数,代表Sim值为0.5时两个义原的最短路径长度。这个公式利用义原之间的上下位关系,以两个义原在义原网络上的路径长度作为义原间相似度的计算基础。
另外,实体属性又分为数值型属性和文本型属性,其中,数值型属性相似度的计算方法为:
Figure BDA0003647960800000122
其中,dA和dB分别为实体A和B的属性值,D为该属性的值域范围。
文本型属性相似度的计算,首先采用基于空间向量模型的TF-IDF方法评估文档中的关键字,得到文本数据的TF-IDF向量后,采用余弦相似度来衡量它们之间的相似性:
Figure BDA0003647960800000123
其中,A和B为两个n维TF-IDF向量,可以看出余弦相似度的值域为[0,1],值越大相似性越高。
实体相似度计算通过对实体特征量的相似度计算加权得出:
Figure BDA0003647960800000124
其中,α、β、γ分别为实体名称相似度、数值型属性相似度和文本属性相似度,α+β1+…+βm1+…+γn=1。
S3:知识存储。
知识图谱存储技术主要包括基于资源描述框架(RDF)模型的三元组数据库和基于属性图模型的图数据库。在基于知识的新能源电站智能运行应用场景中,综合考虑语义分析需求、支撑组件丰富度和扩展性需求等要素,采用语义网RDF模型作为新能源电站知识图谱的知识表示模型,综合使用支持RDF存储的三元组数据库及开源MarkLogic数据库组件实现对变压器知识图谱数据的存储。
S4:知识应用(应用案例展示):
新能源机组故障诊断:收集设备故障报告、状态评价报告、设备运行状态历史数据等,对语义数据进行预处理,保留文本数据,去除图片、表格、目录等元素,并对文本进行分段、分句处理,形成可独立标注的典型语句。然后对语料库进行切分,每种设备选择故障案例报告n份(n≥200),将报告按照一定比例划分与训练集与测试集,依照不同的故障概念,对语料库处理后的数据已句为单位进行标注,最后对故障现象、所属场站等属性进行知识融合,最终形成电站设备家族性缺陷诊断。
新能源电站可靠性评估:根据风速、光照强度的历史统计数据获得风力发电、光伏发电的时序功率输出曲线为:
1)风电机组的功率输出模型为:
Figure BDA0003647960800000131
式中,Pwtg(t)为风机t时刻出力,vt为t时刻风速,vin、vn、vout分别为风机的切入风速、额定风速和切出风速,Pn为风机的额定功率;a1、a2、a3为风机出力曲线非线性部分的多项式拟合系数。
2)光伏逆变器的输出功率取决于光照强度,光照强度服从β分布,光伏功率输出模型为:
Figure BDA0003647960800000132
式中,Psor(t)为光伏实时出力,Psn为光伏阵列额定功率,It、Isn分别为t时刻光照强度、额定光照强度a1、a2、a3、b为光伏出力曲线非线性部分的多项式拟合系数。
根据气象站数据、历史气象数据以及NWP数据,得到风速归一化序列{v1,v2,……,vn}和光照强度的归一化序列{s1,s2,……,sn};根据调度运行数据和历史数据,生成负荷归一化序列{l1,l2,……,ln};根据,结合历史故障记录数据,可以得到设备的运行-故障时间序列,基于此,可对系统平均停电频率、系统平均停电时间、用户平均停电持续指标、平均供电可用率指标以及系统总电量不足指标进行分析与预测。
从上述描述可知,本发明实施例提供的新能源电场运行数据的知识图谱构建方法及装置,包括:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;根据多个实体之间的语义相似度、实体、实体属性及多个实体之间关系,对实体进行筛选;根据筛选后的实体、实体属性以及多个实体之间关系构建运行数据的知识图谱。另一方面,本发明利用知识图谱对风电场、光伏电站、升压站、换流站以及风电机组、变流器、光伏组件、汇流箱、逆变器、箱变、主变等关键设备进行智能化运行状态监测,建立非结构化文本的智能识别、提取与设备语义相似度计算模型,实现设备状态自动化识别、场站信息灵活查询和基于故障记录的辅助诊断。
基于同一发明构思,本申请实施例还提供了新能源电场运行数据的知识图谱构建装置,可以用于实现上述实施例所描述的方法,如下面的实施例。由于新能源电场运行数据的知识图谱构建装置解决问题的原理与新能源电场运行数据的知识图谱构建方法相似,因此新能源电场运行数据的知识图谱构建装置的实施可以参见新能源电场运行数据的知识图谱构建方法实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本发明的实施例提供一种能够实现新能源电场运行数据的知识图谱构建方法的新能源电场运行数据的知识图谱构建装置的具体实施方式,参见图10,新能源电场运行数据的知识图谱构建装置具体包括如下内容:
数据抽取模块10,用于抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
实体筛选模块20,用于根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
知识图谱构建模块30,用于根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
一实施例中,参见图11,所述实体筛选模块20包括:
特征量确定单元20a,用于根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
语义相似度确定单元20b,用于根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度;
实体筛选单元20c,用于根据所述语义相似度对所述实体进行筛选。
一实施例中,参见图12,所述语义相似度确定单元20b包括:
文本相似度确定单元20b1,用于根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
语义相似度确定子单元20b2,用于根据所述文本相似度确定所述多个实体之间的语义相似度。
一实施例中,参见图13,新能源电场运行数据的知识图谱构建装置还包括:
义原相似度确定模块40,用于根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
一实施例中,参见图14,新能源电场运行数据的知识图谱构建装置还包括:
义项划分模块50,用于将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
义项相似度确定模块60,用于根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
一实施例中,参见图15,新能源电场运行数据的知识图谱构建装置还包括:
非结构化确定模块70,用于根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
元数据提取模块80,用于分别提取所述非结构化数据以及所述半结构化数据中的元数据;
非结构化转化模块90,用于根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
一实施例中,参见图16,新能源电场运行数据的知识图谱构建装置还包括:
实体归一化模块1000a,用于对所述结构化数据对应的实体的属性值进行归一化处理。
一实施例中,所述数据抽取模块10包括:
数据抽取单元10a,用于根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
从上述描述可知,本发明实施例提供的新能源电场运行数据的知识图谱构建装置,首先根据并联电池组的等效模型生成并联电池组的状态方程;接着,求解状态方程,以生成并联电池组的支路电流解;最后根据支路电流解建立并联电池组模型。本发明能够根据锂电池的性能参数及状态方程实现并联支路电流的计算,进而估计并联电池组的状态,省去了对并联支路电流的检测环节,简化了流程;针对大规模并联电池组,由于采用计算机求解方程,极大的加快了求解速度与准确性;同时,本发明建立的并联电池组能用于并联支路不均衡电流的分析,为模组的安全运行提供参考依据。
本申请的实施例还提供能够实现上述实施例中的新能源电场运行数据的知识图谱构建方法中全部步骤的一种电子设备的具体实施方式,参见图17,电子设备具体包括如下内容:
处理器(processor)1201、存储器(memory)1202、通信接口(CommunicationsInterface)1203和总线1204;
其中,处理器1201、存储器1202、通信接口1203通过总线1204完成相互间的通信;通信接口1203用于实现服务器端设备、功率测量设备以及用户端设备等相关设备之间的信息传输。
处理器1201用于调用存储器1202中的计算机程序,处理器执行计算机程序时实现上述实施例中的新能源电场运行数据的知识图谱构建方法中的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
步骤200:根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
步骤300:根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
本申请的实施例还提供能够实现上述实施例中的新能源电场运行数据的知识图谱构建方法中全部步骤的一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的新能源电场运行数据的知识图谱构建方法的全部步骤,例如,处理器执行计算机程序时实现下述步骤:
步骤100:抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
步骤200:根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
步骤300:根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
综上,本发明实施例提供的计算机可读存储介质能够支持服务提供方根据其自身的软、硬件资源的可用率,由服务提供方进行服务的自适应下线和上线,实现服务提供方的自隔离能力,保障服务提供方对服务请求的响应成功率。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于硬件+程序类实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种新能源电场运行数据的知识图谱构建方法,其特征在于,包括:
抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
2.根据权利要求1所述知识图谱构建方法,其特征在于,所述根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选,包括:
根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度;
根据所述语义相似度对所述实体进行筛选。
3.根据权利要求2所述知识图谱构建方法,其特征在于,所述根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度,包括:
根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
根据所述文本相似度确定所述多个实体之间的语义相似度。
4.根据权利要求3所述知识图谱构建方法,其特征在于,还包括:
根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
5.根据权利要求4所述知识图谱构建方法,其特征在于,还包括:
将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
6.根据权利要求1所述知识图谱构建方法,其特征在于,还包括:
根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
分别提取所述非结构化数据以及所述半结构化数据中的元数据;
根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
7.根据权利要求6所述知识图谱构建方法,其特征在于,还包括:
对所述结构化数据对应的实体的属性值进行归一化处理。
8.根据权利要求7所述知识图谱构建方法,其特征在于,所述抽取新能源电场运行数据的实体、实体属性及多个实体之间关系包括:
根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
9.一种新能源电场运行数据的知识图谱构建装置,其特征在于,包括:
数据抽取模块,用于抽取新能源电场运行数据的实体、实体属性及多个实体之间关系;
实体筛选模块,用于根据多个实体之间的语义相似度、所述实体、所述实体属性及所述多个实体之间关系,对所述实体进行筛选;
知识图谱构建模块,用于根据筛选后的实体、所述实体属性以及所述多个实体之间关系构建所述运行数据的知识图谱。
10.根据权利要求9所述知识图谱构建装置,其特征在于,所述实体筛选模块包括:
特征量确定单元,用于根据所述实体、所述实体属性及所述多个实体之间关系确定所述实体的特征量;
语义相似度确定单元,用于根据所述特征量的义原相似度以及义项相似度确定所述多个实体之间的语义相似度;
实体筛选单元,用于根据所述语义相似度对所述实体进行筛选。
11.根据权利要求10所述知识图谱构建装置,其特征在于,所述语义相似度确定单元包括:
文本相似度确定单元,用于根据所述特征量的义原相似度以及义项相似度确定所述特征量的文本相似度;
语义相似度确定子单元,用于根据所述文本相似度确定所述多个实体之间的语义相似度。
12.根据权利要求11所述知识图谱构建装置,其特征在于,还包括:
义原相似度确定模块,用于根据所述多个义原之间的义原深度以及多个义原在义原结构上的最短路径长度确定所述义原相似度。
13.根据权利要求12所述知识图谱构建装置,其特征在于,还包括:
义项划分模块,用于将所述义项的特征结构数据划分为独立义原描述式、关系义原描述式以及符号义原描述式;
义项相似度确定模块,用于根据所述独立义原描述式、所述关系义原描述式以及所述符号义原描述式确定所述义项相似度。
14.根据权利要求9所述知识图谱构建装置,其特征在于,还包括:
非结构化确定模块,用于根据所述运行数据的数据结构确定所述运行数据的非结构化数据以及半结构化数据;
元数据提取模块,用于分别提取所述非结构化数据以及所述半结构化数据中的元数据;
非结构化转化模块,用于根据所述元数据以及预先的约束条件将所述非结构化数据以及半结构化数据转化为结构化数据。
15.根据权利要求14所述知识图谱构建装置,其特征在于,还包括:
实体归一化模块,用于对所述结构化数据对应的实体的属性值进行归一化处理。
16.根据权利要求15所述知识图谱构建装置,其特征在于,所述数据抽取模块包括:
数据抽取单元,用于根据归一化之后的结构化数据的规则模板抽取所述实体、所述实体属性以及所述实体之间的关系。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述新能源电场运行数据的知识图谱构建方法的步骤。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述新能源电场运行数据的知识图谱构建方法的步骤。
CN202210540830.8A 2022-05-17 2022-05-17 新能源电场运行数据的知识图谱构建方法及装置 Pending CN115048528A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210540830.8A CN115048528A (zh) 2022-05-17 2022-05-17 新能源电场运行数据的知识图谱构建方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210540830.8A CN115048528A (zh) 2022-05-17 2022-05-17 新能源电场运行数据的知识图谱构建方法及装置

Publications (1)

Publication Number Publication Date
CN115048528A true CN115048528A (zh) 2022-09-13

Family

ID=83158839

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210540830.8A Pending CN115048528A (zh) 2022-05-17 2022-05-17 新能源电场运行数据的知识图谱构建方法及装置

Country Status (1)

Country Link
CN (1) CN115048528A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113036A (zh) * 2023-10-20 2023-11-24 中国铁塔股份有限公司吉林省分公司 基于能源管理系统的光伏设备分析方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117113036A (zh) * 2023-10-20 2023-11-24 中国铁塔股份有限公司吉林省分公司 基于能源管理系统的光伏设备分析方法及系统
CN117113036B (zh) * 2023-10-20 2024-01-26 中国铁塔股份有限公司吉林省分公司 基于能源管理系统的光伏设备分析方法及系统

Similar Documents

Publication Publication Date Title
Zhu et al. Time series shapelet classification based online short-term voltage stability assessment
Grolinger et al. Knowledge as a service framework for disaster data management
CN114330097A (zh) 一种异构数据与深度学习的风电集群功率预测方法及设备
CN113342842A (zh) 基于计量知识的语义查询方法、装置和计算机设备
CN112100506B (zh) 信息推送方法、系统、设备及存储介质
CN109766416A (zh) 一种新能源政策信息抽取方法及系统
CN115048528A (zh) 新能源电场运行数据的知识图谱构建方法及装置
Du et al. Text similarity detection method of power customer service work order based on tfidf algorithm
CN112200465A (zh) 基于多媒体信息智能分析的电力ai方法及系统
CN115640916B (zh) 分布式电源出力和多能负荷态势感知方法及系统
Song et al. Improved Cluster Intelligent and Complex Optimization Algorithm for Power Equipment CAD‐Assisted Intelligent Operation and Maintenance
CN115905574A (zh) 一种面向船舶电力系统设计任务的知识图谱构建方法及装置
CN115757735A (zh) 一种面向电网数字化建设成果资源的智能检索方法及系统
CN115937881A (zh) 一种知识图谱构建标准表格内容自动识别方法
Shan et al. Research on deep learning based dispatching fault disposal robot technology
CN110059912A (zh) 基于智慧图谱的廉洁风险隐患全景管控方法及装置
Zhang et al. Design and implementation of power question answering and visualization system based on knowledge graph
Pan et al. Research on intelligent search framework technology oriented to monitoring of power grid dispatching equipment
Furth et al. Towards the Semantification of Technical Documents.
Gu et al. Research on the Knowledge Graph Construction Technology and its Power Grid Applications
Lv et al. Job Analysis System Based on Spark Platform
Wang et al. Research on Construction Technology of Multi Heterogeneous Data Resource Graph of Power Grid Corporation
Bi Application of Natural Language Processing Technology in News Event Retrieval and Classification
Li et al. Research on construction method of knowledge graph-based on mobile phone quality detection
Liu et al. Application of Knowledge Graph Technology in the Field of Power Grid Infrastructure

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination