CN109754159A - 一种电网运行日志的信息提取方法及系统 - Google Patents
一种电网运行日志的信息提取方法及系统 Download PDFInfo
- Publication number
- CN109754159A CN109754159A CN201811500344.3A CN201811500344A CN109754159A CN 109754159 A CN109754159 A CN 109754159A CN 201811500344 A CN201811500344 A CN 201811500344A CN 109754159 A CN109754159 A CN 109754159A
- Authority
- CN
- China
- Prior art keywords
- term vector
- power networks
- training
- sample
- extracted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Supply And Distribution Of Alternating Current (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明提供了一种电网运行日志的信息提取方法及系统,该方法包括:(1)获取待提取的特定标签,并将待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;(2)将待提取的特定标签词向量以及从多个电网运行日志提取的多个词向量输入至语义提取模型,得到与待提取的特定标签重叠率超过预设阈值的至少一个词向量;(3)将至少一个词向量输入至分类模型中,得到至少一个词向量分别对应的电网运行日志的标签类型;(4)基于至少一个词向量分别对应的电网运行日志的标签类型,确定与待提取的特定标签对应的电网运行日志。本发明方法提高了工作人员从电网运行日志中提取信息的效率。
Description
技术领域
本发明涉及电网自动化调度技术领域,具体而言,涉及一种电网运行日志的信息提取方法及系统。
背景技术
现有技术中,电网运行日志是电网调度信息化的重要组成部分,其主要记录了电网运行情况信息,可以利用该信息来分析电网系统的调度过程,还可以根据该信息清楚地监控电网的运行情况。
目前,在日志记录过程中,不同调度员的理解和撰写方式存在较大差异,对同一事件的记录方式和描述侧重点有所不同,并且电网运行日志系统记录下的日志多以非结构化的方式记录,并以文本的形式存储在数据库中。当工作人员需要查找某一类特定信息(例如故障、检修、缺陷、气象等)时,需要查阅所有的电网运行日志来获取想要的信息。由于电网运行日志系统每天都会产生大量调度运行日志和监控运行日志,因此,工作人员在查找所需信息时,工作量会很大,并且工作效率很低。
发明内容
本发明目的在于提供一种电网运行日志的信息提取方法及系统,以提高从电网运行日志中提取信息的效率。
为实现上述发明目的,本发明提供了一种电网运行日志的信息提取方法,该方法包括以下步骤:
(1)获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;
(2)将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;
(3)将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;
(4)基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志。
在上述一种电网运行日志的信息提取方法中,所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签重叠率超过预设阈值的至少一个词向量之后,还包括:建立二维语义空间坐标系;将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。
在上述一种电网运行日志的信息提取方法中,所述语义提取模型通过以下训练方式得到:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。
在上述一种电网运行日志的信息提取方法中,通过以下训练方式得到所述分类模型:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。
在上述一种电网运行日志的信息提取方法中,将第二训练样本集中的i个词向量样本输入至待训练分类模型中,包括:从所述第二训练样本集获取任一带有标签的选定词向量样本;将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。
为实现上述的发明目的,本发明还提供了一种电网运行日志的信息提取系统,所述系统包括:获取模块,用于获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;提取模块,用于将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;分类模块,用于将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;确定模块,用于基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志;以及,计算存储设备,该设备包括处理器、存储器和总线,该设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行存储器中存储的执行指令,使获取模块、提取模块、分类模块、确定模块实现各自的功能。
上述一种电网运行日志的信息提取系统中,还包括:创建模块,用于建立二维语义空间坐标系;展示模块,用于将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。
上述一种电网运行日志的信息提取系统中,还包括语义提取模型训练模块,该模块用于:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。
上述一种电网运行日志的信息提取系统中,还包括分类模型训练模块,该模块用于:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。
上述一种电网运行日志的信息提取系统中,所述分类模型训练模块,具体用于:从所述第二训练样本集获取任一带有标签的选定词向量样本;将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。
本发明的优点是,通过语义提取模型以及分类模型,可以从大量的电网运行日志中自动提取出特定标签对应的电网运行日志,与现有技术中需要通过工作人员将所有的电网运行日志进行查阅,来得到特定待提取的电网运行日志相比,本发明提高了从电网运行日志中提取信息的效率。
附图说明
图1是本发明实施例电网运行日志的信息提取方法流程图。
图2是本发明实施例电网运行日志的信息提取方法中对语义提取模型进行训练的流程图。
图3是本发明实施例电网运行日志的信息提取方法中对分类模型进行训练的流程图。
图4是本发明实施例电网运行日志的信息提取方法中对分类模型进行训练的流程图。
图5是本发明实施例电网运行日志的信息提取方法所获得词向量的整体分布示意图。
图6是本发明实施例电网运行日志的信息提取方法所获得词向量的局部分布示意图。
图7是本发明实施例所提供的一种电网运行日志的信息提取系统的基本构成示意图。
图8是本发明实施例一种电网运行日志的信息提取系统完整构成示意图。
具体实施方式
实施例:
本发明实施例电网运行日志信息提取系统的基本构成如附图7所示。
其中,获取模块11,用于获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;提取模块12,用于将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;分类模块13,用于将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;确定模块14,用于基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志;计算存储设备10,该设备包括处理器、存储器和总线,该设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行存储器中存储的执行指令,使获取模块、提取模块、分类模块、确定模块实现各自的功能。
本发明实施例电网运行日志信息提取系统的完整构成如附图8所示。
本发明实施例系统完整构成除包括上述基本构成,还包括有:创建模块15,该创建模块中嵌入了用于建立二维语义空间坐标系151;展示模块16,用于将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。
本发明实施例电网运行日志信息提取系统的完整构成还在提取模块中嵌入有语义提取模型训练模块121,该模块用于:获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。
本发明实施例电网运行日志信息提取系统的完整构成还在分类模块中嵌入有分类模型训练模块131,该模块用于:获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。所述分类模型训练模块,具体用于:从所述第二训练样本集获取任一带有标签的选定词向量样本;将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。
本发明实施例计算存储设备如图8所示,包括处理器81、存储器82和总线83,存储器82存储执行指令,当所述设备运行时,所述处理器81与所述存储器82之间通过总线83通信,所述处理器81执行存储器中存储的执行指令,使得本系统中的获取模块11、提取模块12、分类模块13、确定模块14、创建模块15、展示模块16、语义提取模型训练模块121、分类模型训练模块131、二维语义空间坐标系151实现各自的功能。
本发明实施例所给出的电网运行日志信息提取系统在windows 7操作系统下运行,使用matlab软件即可,实际应用中使用语言为Java。
下面详细说明本发明实施例所给出的电网运行日志信息提取方法。
目前,由于电网运行日志系统每天都会产生大量调度运行日志和监控运行日志,工作人员在查找所需信息时,需要查阅所有的电网运行日志来获取某一类需要的信息,工作量会很大,并且工作效率很低。
本发明实施例给出了一种电网运行日志的信息提取方法的基本流程,如附图1所示,具体步骤方法为:
S101、获取待提取的特定标签,并将待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量。
这里,待提取的特定标签可以包括故障信息、检修信息、缺陷信息、气象信息等。并且电网运行日志为记录上述故障信息等其他信息的日志,,通过从电网运行日志中获取的信息,实现对电网系统的监控。
进一步的,经过预处理(例如:电网运行日志向量化、将向量化的数据清洗处理、将向量化的数据增强处理等),将待提取的特定标签转换为待提取的特定标签词向量,并且从多个电网运行日志中提取多个词向量。其中,预处理的方法可以为现有技术中的任意一种,本发明实施例对此不做限定,也不做赘述。
S102、将待提取的特定标签词向量以及从多个电网运行日志提取的多个词向量输入至语义提取模型,得到与待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量。
具体的,语义提取模型可以根据输入的待提取的特定标签,从输入的多个词向量中提取出与目标词语义或语境相近的上下文的词。将待提取的特定标签词向量以及从多个电网运行日志提取的多个词向量输入至语义提取模型,便可以得到与待提取的特定标签词语义或语境重叠率超过预设阈值的词对应的词向量。
其中,在语义提取模型提取对应的词向量的过程中,具体是将待提取的特定标签词向量与多个电网运行日志提取的多个词向量进行比对,判断待提取的特定标签词向量与多个电网运行日志提取的多个词向量中的每一个词向量的重叠率是否超过预设阈值,若超过则认为该词向量是与待提取的特定标签词向量重叠率超过预设阈值的的词向量。
S103、将至少一个词向量输入至分类模型中,得到至少一个词向量分别对应的电网运行日志的标签类型。
具体的,将从语义提取模型中得到的至少一个词向量输入至分类模型中,便可以得到每个词向量对应的电网运行日志对应的标签类型。
S104、基于至少一个词向量分别对应的电网运行日志的标签类型,确定与待提取的特定标签对应的电网运行日志。
这里,在已经得到的所有标签类型中查找属于待提取的特定标签的类型,该类型对应的电网运行日志即为待提取的特定标签对应的电网运行日志。
通过本发明实施例提供的语义提取模型和分类模型,对从多个电网运行日志中提取待提取的特定标签对应的电网运行日志,极大的减少了工作人员的工作量,提高了工作效率。
通过语义提取模型得到与待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量之后,如下步骤:
S105、建立二维语义空间坐标系。
进一步的,还可以将语义提取模型提取的与待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量进行可视化展示。
具体的,建立一个二维语义空间坐标系,将至少一个词向量展示在该二维语义空间坐标系中,可以使工作人员直观的感受至少一个词向量的分布程度,如图5为至少一个词向量的整体分布图,密集区为与待提取的特定标签词向量重叠率较高的词向量。由于密集区在整体分布图中,很难进一步区分每一个词向量具体的位置信息,因此可以参考图6为整体分布图的局部分布图,以此对整体分布图中的密集区进行放大展示,便于工作人员分析数据。
S106、将至少一个词向量分别输入至关系模型中,将至少一个词向量中的每一个词向量在二维语义空间坐标系中进行展示。
这里,关系模型是用二维表的形式表示实体与实体之间的联系,在本发明实施例中,是用来表示待提取的特定标签词向量与至少一个词向量之间的联系。具体的将至少一个词向量分别输入至关系模型中,将一维的词向量增维处理,转换为二维词向量,在二维语义空间坐标系中进行展示。其中,每个维度所表征的数据分别对应二维语义空间坐标系中的横纵坐标。
可见,本发明实施例不仅可以将待提取的特定标签对应的电网运行日志提取出来,还可以通过将与待提取的特定标签重叠率超过预设阈值的词向量直观的展示在二维语义空间坐标系中,使得工作人员更加直观、清晰的了解电网运行状态。
在本发明实施例上述基本流程的提取模块中所嵌入的语义提取模型训练模块121的流程,如图2所示,该训练流程具体步骤如下:
S201、获取第一训练样本集,第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签。
这里,第一训练样本集的样本包括预设的有效时间之内的多个电网运行日志,并且将每个电网运行日志样本标记对应的标签,该标签包括故障、检修、缺陷、气象等。
S202、从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签。
其中,在每轮训练中从第一训练样本集中可以获取不同的电网运行日志样本,并且在选取电网运行日志样本时,可以选取记录连续时间段内分别对应的电网运行样本,或者,也可以随机选取电网运行日志样本,本发明实施例对此不做限定。
S203、从N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将特定标签进行词向量转换,得到特定标签的词向量样本。
这里,由于待训练语义提取模型需要输入的为结构式的向量,因此,需要对N个电网运行日志样本和特定标签进行预处理,其中,预处理可以宝库从N个电网运行日志样本提取多个词向量样本,并将对应的标签进行词向量转换,得到特定标签的词向量样本。
S204、将多个词向量样本和特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果。
这里,将多个词向量样本和特定标签的词向量样本输入到待训练语义提取模型中,可以得到与特定标签语义或语境重叠率超过预设阈值的词向量,也即本轮训练过程得到的第一检测结果。
S205、基于本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值。
这里,由于电网运行日志均带有标签,因此工作人员可以预先配置,具体可以将与特定标签语义或语境重叠率超过预设阈值的词找到,也即预设的第一理论结果。然后将第一检测结果与预设的第一理论结果进行对比,得到第一检测结果与预设的第一理论结果之间的差值。例如:特定标签为 “故障”,通过待训练语义提取模型得到的检测结果为80个词向量,而工作人员预先得到的理论结果为100个词向量,则该轮训练的误差值为20%。
S206、当计算出的误差值大于设定值,对待训练语义提取模型的模型参数进行调整,并利用调整后的待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于设定值时,确定训练完成。
这里,预先设置有一个设定值,当训练得到的误差值大于设定值时,(例如,设定值为5%,训练的误差值为20%)则表示待训练语义提取模型不符合要求,则需要对待训练语义提取模型的模型参数进行调整,并利用调整后的待训练语义提取模型重复上述训练过程,直至计算出的误差值不大于设定值时,确定训练完成,也即待训练语义提取模型确定符合要求,可以开始在实际应用中进行使用。
通过训练得到的语义提取模型,可以迅速又高效的提取与特定标签语义或语境重叠率超过预设阈值的词向量,相对于工作人员通过查阅所有的电网运行日志进行查找特定标签对应的电网运行日志,很大程度上提高了工作效率。
在本发明实施例上述基本流程的分类模块中所嵌入的分类模型训练模块131的流程,如附图3所示,该训练流程具体步骤如下:
S301、获取第二训练样本集,第二训练样本集包括带有不同标签的多个词向量样本。
这里,第二训练样本集中的词向量均带有不同标签,每个标签用于标识对应的词向量样本所属的类型。
S302、将第二训练样本集中多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果。
这里,基于i个词向量样本得到本轮训练的第二检测结果的过程如图4所示,具体步骤如下:
S401、从第二训练样本集获取任一带有标签的选定词向量样本。
S402、将选定词向量样本以及选定词向量样本之前的i-1个词向量样本输入至待训练分类模型中,得到第一选定词向量;以及,将选定词向量以及选定词向量样本之后的i-1个词向量样本输入至待训练分类模型中,得到第二选定词向量。
S403、将第一选定词向量与第二选定词向量进行拼接得到第三选定词向量,将第三选定词向量输入到待训练分类模型中。
具体的,首先,从第二训练样本集中选取一个带有标签的选定词向量样本,并选取该选定词向量样本之前的i-1个词向量样本输入至待训练分类模型中,对选定词向量样本进行前向学习,可以更加全面的获取该选定词向量样本之前的信息,并且前向学习的程度根据i的值来确定。待训练分类模型经过前向学习的训练后,可以使得待训练分类模型得到带有包含i在内的i个词向量样本信息的第一选定词向量。
类似的,从第二训练样本集中选取一个带有标签的选定词向量样本,并选取该选定词向量样本之后的i-1个词向量样本输入至待训练分类模型中,待训练分类模型对选定词向量样本进行后向学习,使得待训练分类模型得到带有包含i在内的i个词向量样本信息的第二选定词向量。
将第一选定词向量和第二选定词向量进行拼接,得到第三选定词向量,将第三选定词向量输入到待训练分类模型中,并得到选定词向量样本对应的类型。
S303、基于本轮训练过程得到的第二检测结果,当第二检测结果小于待训练分类模型预设的准确率时,对待训练分类模型的模型参数进行调整,并利用调整后的待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于待训练分类模型预设的准确率时,确定训练完成。
这里,第二检测结果为对本轮所有带有标签的选定词向量样本进行分类的结果,并且选定词向量样本的分类至少为一种。进一步的,根据本轮所有带有标签的选定词向量样本,可以预先将选定词向量样本进行分类,并将该分类作为参照,与第二检测结果进行对比,根据对比结果可以确定本轮训练结果的准确率。
其中,预先设定有一个待训练分类模型预设的准确率,作为模型训练时的基准,例如,预设的准确率可以设置为98%,将第二检测结果对应的准确率进行对比,确定该模型是否符合要求。
具体的,当第二检测结果对应的准确率小于预设的准确率时,对待训练分类模型的模型参数进行调整,并利用调整后的待训练分类模型重复上述训练过程,以进行下一轮训练过程,直至计算出的第二检测结果不小于待训练分类模型预设的准确率时,确定训练完成,即待训练分类模型符合要求,可以在实际应用中进行使用。
可见,利用本发明实施例提供的分类模型可以迅速的将电网运行日志进行分类,以便于工作人员便捷的获取任意类型对应的电网运行日志,极大地提高了工作效率。
本发明实施例所提供的信息提取系统中的计算存储设备包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述信息提取方法,从而解决工作人员需要查阅所有的电网运行日志来获取某一类需要的信息,导致工作人员在查找所需信息时,工作量会很大,并且工作效率很低的问题,进而提高工作人员从电网运行日志中提取信息的效率。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的一个具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种电网运行日志的信息提取方法,其特征在于,所述方法包括以下步骤:
(1)获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;
(2)将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;
(3)将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;
(4)基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志。
2.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签重叠率超过预设阈值的至少一个词向量之后,还包括:
建立二维语义空间坐标系;
将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。
3.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,所述语义提取模型通过以下训练方式得到:
获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;
从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;
从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;
将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;
基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;
当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。
4.根据权利要求1所述的一种电网运行日志的信息提取方法,其特征在于,通过以下训练方式得到所述分类模型:
获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;
将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;
基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。
5.根据权利要求4所述的一种电网运行日志的信息提取方法,其特征在于,将第二训练样本集中的i个词向量样本输入至待训练分类模型中,包括:
从所述第二训练样本集获取任一带有标签的选定词向量样本;
将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;
将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。
6.一种电网运行日志的信息提取系统,其特征在于,所述系统包括:
获取模块,用于获取待提取的特定标签,并将所述待提取的特定标签转换为待提取的特定标签词向量;以及,获取多个电网运行日志,并从每个电网运行日志中提取多个词向量;
提取模块,用于将所述待提取的特定标签词向量以及从所述多个电网运行日志提取的多个词向量输入至语义提取模型,得到与所述待提取的特定标签词向量重叠率超过预设阈值的至少一个词向量;
分类模块,用于将所述至少一个词向量输入至所述分类模型中,得到所述至少一个词向量分别对应的电网运行日志所述标签类型;
确定模块,用于基于所述至少一个词向量分别对应的电网运行日志所述标签类型,确定与所述待提取的特定标签对应的电网运行日志;
计算存储设备,该设备包括处理器、存储器和总线,该设备运行时,所述处理器与所述存储器之间通过总线通信,所述处理器执行存储器中存储的执行指令,使获取模块、提取模块、分类模块、确定模块实现各自的功能。
7.根据权利要求6所述的一种电网运行日志的信息提取系统,其特征在于,所述系统还包括:
创建模块,用于建立二维语义空间坐标系;
展示模块,用于将所述至少一个词向量分别输入至关系模型中,将所述至少一个词向量中的每一个词向量在所述二维语义空间坐标系中进行展示。
8.根据权利要求6所述的一种电网运行日志的信息提取系统,其特征在于,所述系统还包括语义提取模型训练模块,该模块用于:
获取第一训练样本集,所述第一训练样本集包括多个电网运行日志样本,每个电网运行日志样本带有对应的标签;
从第一训练样本集中获取N个带有对应的标签的电网运行日志样本,并获取特定标签;
从所述N个带有对应的标签的电网运行日志样本中提取多个词向量样本,并且将所述特定标签进行词向量转换,得到所述特定标签的词向量样本;
将所述多个词向量样本和所述特定标签的词向量样本输入到待训练语义提取模型中,得到本轮训练过程得到的第一检测结果;
基于所述本轮训练过程得到的第一检测结果以及预设的第一理论结果,计算本轮训练的误差值;
当计算出的误差值大于设定值,对所述待训练语义提取模型的模型参数进行调整,并利用调整后的所述待训练语义提取模型进行下一轮训练过程,直至计算出的误差值不大于所述设定值时,确定训练完成。
9.根据权利要求6所述的一种电网运行日志的信息提取系统,其特征在于,所述系统还包括分类模型训练模块,该模块用于:
获取第二训练样本集,所述第二训练样本集包括带有不同标签的多个词向量样本;
将所述第二训练样本集中所述多个词向量样本中的i个词向量样本输入至待训练分类模型中,得到本轮训练过程得到的第二检测结果;
基于所述本轮训练过程得到的第二检测结果,当所述第二检测结果小于所述待训练分类模型预设的准确率时,对所述待训练分类模型的模型参数进行调整,并利用调整后的所述待训练分类模型进行下一轮训练过程,直至计算出的第二检测结果不小于所述待训练分类模型预设的准确率时,确定训练完成。
10.根据权利要求9所述的一种电网运行日志的信息提取系统,其特征在于,所述分类模型训练模块,具体用于:
从所述第二训练样本集获取任一带有标签的选定词向量样本;
将所述选定词向量样本以及所述选定词向量样本之前的i-1个词向量样本输入至所述待训练分类模型中,得到第一选定词向量;以及,将所述选定词向量样本以及所述选定词向量样本之后的i-1个词向量样本输入至所述待训练分类模型中,得到第二选定词向量;
将所述第一选定词向量与所述第二选定词向量进行拼接得到第三选定词向量,将所述第三选定词向量输入到所述待训练分类模型中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811500344.3A CN109754159B (zh) | 2018-12-07 | 2018-12-07 | 一种电网运行日志的信息提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811500344.3A CN109754159B (zh) | 2018-12-07 | 2018-12-07 | 一种电网运行日志的信息提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109754159A true CN109754159A (zh) | 2019-05-14 |
CN109754159B CN109754159B (zh) | 2022-08-23 |
Family
ID=66402720
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811500344.3A Active CN109754159B (zh) | 2018-12-07 | 2018-12-07 | 一种电网运行日志的信息提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109754159B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420777A (zh) * | 2021-05-14 | 2021-09-21 | 中国民航大学 | 异常日志检测方法、装置存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN107798435A (zh) * | 2017-11-09 | 2018-03-13 | 贵州电网有限责任公司 | 一种基于文本信息抽取的电力物资需求预测方法 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
-
2018
- 2018-12-07 CN CN201811500344.3A patent/CN109754159B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150227505A1 (en) * | 2012-08-27 | 2015-08-13 | Hitachi, Ltd. | Word meaning relationship extraction device |
CN107729403A (zh) * | 2017-09-25 | 2018-02-23 | 中国工商银行股份有限公司 | 互联网信息风险提示方法及系统 |
CN107798435A (zh) * | 2017-11-09 | 2018-03-13 | 贵州电网有限责任公司 | 一种基于文本信息抽取的电力物资需求预测方法 |
CN108664538A (zh) * | 2017-11-30 | 2018-10-16 | 全球能源互联网研究院有限公司 | 一种输变电设备疑似家族性缺陷的自动辨识方法及系统 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420777A (zh) * | 2021-05-14 | 2021-09-21 | 中国民航大学 | 异常日志检测方法、装置存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN109754159B (zh) | 2022-08-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8490056B2 (en) | Automatic identification of subroutines from test scripts | |
CN113553420A (zh) | 基于知识图谱的电网故障处理规程推荐方法和系统 | |
CN104699735A (zh) | 企业级数据中心的数据处理方法及装置 | |
CN109992484B (zh) | 一种网络告警相关性分析方法、装置和介质 | |
CN104636401B (zh) | 一种scada系统数据回滚的方法及装置 | |
CN113609008B (zh) | 测试结果分析方法、装置和电子设备 | |
CN112417852B (zh) | 一种代码片段重要性的判断方法和装置 | |
CN106202288A (zh) | 一种人机交互系统知识库的优化方法及系统 | |
CN112069498A (zh) | 一种sql注入检测模型构建方法及检测方法 | |
CN117993868B (zh) | 基于双模态注意力的电网工程项目审计预警方法及系统 | |
CN117764774A (zh) | 基于知识图谱的电网调度风险分析方法、系统及存储介质 | |
CN110321144A (zh) | 下线源代码的识别方法、装置、设备及存储介质 | |
CN112507117B (zh) | 一种基于深度学习的检修意见自动分类方法及系统 | |
CN109754159A (zh) | 一种电网运行日志的信息提取方法及系统 | |
CN103838632B (zh) | 数据查询方法及装置 | |
CN113706207B (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
CN102193859A (zh) | 一种代码分析方法及系统 | |
CN115169578A (zh) | 一种基于元宇宙数据标记的ai模型生产方法及系统 | |
CN113537942A (zh) | 一种提高样本标记数量的方法及系统 | |
CN103425476B (zh) | 用于为性能监控的用户界面提供数据的方法和系统 | |
CN105260174A (zh) | 实时Java虚拟机中基于等价类的对象内存状态的记录跟踪方法 | |
CN113591477B (zh) | 基于关联数据的故障定位方法、装置、设备及存储介质 | |
CN114490620B (zh) | 测试方法、装置、电子设备及存储介质 | |
CN109284097A (zh) | 实现复杂数据分析的方法、设备、系统及存储介质 | |
CN117521662B (zh) | 一种基于深度学习的电力调度语义分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |