CN108319695A - 水电站故障数据处理方法、装置、计算机设备和存储介质 - Google Patents

水电站故障数据处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN108319695A
CN108319695A CN201810106010.1A CN201810106010A CN108319695A CN 108319695 A CN108319695 A CN 108319695A CN 201810106010 A CN201810106010 A CN 201810106010A CN 108319695 A CN108319695 A CN 108319695A
Authority
CN
China
Prior art keywords
fault
fault message
failure
data
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810106010.1A
Other languages
English (en)
Inventor
胡晓
苗洪雷
朱玺
倪红波
陈晓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HNAC Technology Co Ltd
Original Assignee
HNAC Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HNAC Technology Co Ltd filed Critical HNAC Technology Co Ltd
Priority to CN201810106010.1A priority Critical patent/CN108319695A/zh
Publication of CN108319695A publication Critical patent/CN108319695A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures

Abstract

本申请涉及一种水电站故障数据处理方法、装置、计算机设备和存储介质。方法包括:获取水电站数据源中的结构化数据和非结构化数据,提取结构化数据的第一故障信息,将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,根据第一故障信息和第二故障信息得到故障信息表。采用本方法能够实现从不同形式的数据中快速获得有价值的故障信息,并根据第一故障信息和第二故障信息构建可用于对水电站故障进行分析的故障信息表,为水电站故障分析研究提供了可靠的科学依据。

Description

水电站故障数据处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及故障信息处理技术领域,特别是涉及一种水电站故障数据处理方法、装置、计算机设备和存储介质。
背景技术
我国能源工业发展迅速,能源需求仍呈现增长态势,水力发电作为主要的能源供应方式,在能源结构中占有重要地位。随着水力发电系统的数字化、信息化不断发展,水电站的相关数据呈现海量增长模式,该数据为水力发电系统的后续生产运行提供了分析依据。
然而,目前的水电站数据具有多源异构的特点,其记录和存储形式多种多样,如何从海量且形式多样的数据中快速获得有价值的故障信息,对水电站生产运行中的故障分析具有重要意义。
发明内容
基于此,有必要针对上述技术问题,提供一种能够从海量且形式多样的数据中快速获得有价值的故障信息的水电站故障数据处理方法、装置、计算机设备和存储介质。
一种水电站故障数据处理方法,所述方法包括:
获取水电站数据源中的结构化数据和非结构化数据;
提取所述结构化数据的第一故障信息;
将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
根据所述第一故障信息和所述第二故障信息得到故障信息表。
在其中一个实施例中,还包括:
获取所述故障信息表中各故障之间的第一相似度;
根据所述第一相似度得到满足第一预设条件的相似故障;
将相似故障对应的故障信息合并,更新所述故障信息表。
在其中一个实施例中,所述获取所述故障信息表中各故障之间的第一相似度,包括:
获取所述故障信息表中各故障信息的第一词向量;
根据所述第一词向量得到各故障之间的第一相似度。
在其中一个实施例中,还包括:
获取所述故障信息表中的各故障的故障原因;
根据所述故障原因得到各故障原因之间的第二相似度;
根据所述第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系;
按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
在其中一个实施例中,所述根据所述故障原因得到各故障原因之间的第二相似度,包括:
获取各故障原因对应的第二词向量;
根据所述第二词向量得到各故障原因之间的第二相似度。
在其中一个实施例中,所述方法还包括:
基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
在其中一个实施例中,还包括:
接收携带有故障查询信息的查询指令;
获取所述故障查询信息与所述故障信息表中各故障信息的第三相似度;
根据所述第三相似度得到故障查询结果并输出。
一种水电站故障数据处理装置,所述装置包括:
数据源模块,用于获取水电站数据源中的结构化数据和非结构化数据;
第一故障信息模块,用于提取所述结构化数据的第一故障信息;
第二故障信息模块,用于将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
故障信息表模块,用于根据所述第一故障信息和所述第二故障信息得到故障信息表。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取水电站数据源中的结构化数据和非结构化数据;
提取所述结构化数据的第一故障信息;
将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
根据所述第一故障信息和所述第二故障信息得到故障信息表。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取水电站数据源中的结构化数据和非结构化数据;
提取所述结构化数据的第一故障信息;
将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
根据所述第一故障信息和所述第二故障信息得到故障信息表。
上述水电站故障数据处理方法、装置、计算机设备和存储介质,将水电站数据源中数据分为结构化数据和非结构化数据,通过提取结构化数据的第一故障信息,并将非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息,实现从不同形式的的数据中快速获得有价值的故障信息,并根据所述第一故障信息和所述第二故障信息构建可用于对水电站故障进行分析的故障信息表,为水电站故障分析研究提供了可靠的科学依据。
附图说明
图1为一个实施例中水电站故障数据处理方法的应用环境图;
图2为一个实施例中水电站故障数据处理方法的流程示意图;
图3为一个实施例中合并相似故障步骤的流程示意图;
图4为一个实施例中生成故障分类表步骤的流程示意图;
图5为一个实施例中查询故障信息步骤的流程示意图;
图6为一个实施例中水电站故障数据处理装置的结构框图;
图7为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的一种水电站故障数据处理方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。服务器104用于获取水电站数据源中的结构化数据和非结构化数据,并提取结构化数据的第一故障信息,进一步将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,对第一故障信息和第二故障信息进行整理得到故障信息表。终端102用于接收用户输入的故障查询信息,并将该故障查询信息转化为服务器104可识别的查询指令发送至服务器104,服务器104在接收到查询指令时,根据查询指令返回所需的故障查询结果至终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种水电站故障数据处理方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤S202,获取水电站数据源中的结构化数据和非结构化数据。
其中,水电站数据源为包含任何水电站故障数据的文档、图片和视频等,具体地,如因特网和内部服务器存档的售后服务报告。结构化数据是指由二维表结构来逻辑表达和实现的数据,简单来说就是数据库,其严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,具体地,如将与故障相关的故障时间、故障地点、相关人员、故障现象、故障原因和解决方法等信息按列或者按行进行排列所组成的结构化数据。非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据,具体地,如文档、文本、图片、XML、HTML、图像和音频/视频信息等。
具体地,将水电站数据源按照数据结构进行分类,将所有数据源分别结构化数据和非结构化数据,并获取分类后的结构化数据和非结构化数据。
步骤S204,提取结构化数据的第一故障信息。
结构化数据按照固定格式记录了各故障的相关信息,因此,可按照固定格式提取结构化数据的第一故障信息。其中,第一故障信息是指与故障相关的时间、地点、相关人员、故障现象、原因、解决方法等中的一种或者多种信息,且每一故障具有与之对应的第一故障信息。
具体地,当结构化数据按照每一列顺序记录故障时间、地点、相关人员、故障现象、原因、解决方法的格式记录各故障的第一故障信息时,通过按列提取的方式即可得到结构化数据中各故障对应的第一故障信息。进一步地,还可将第一故障信息按照故障信息表格式形成初始故障信息表。
步骤S206,将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息。
在本实施例中,已经基于结构化数据构建了故障信息提取模型,该故障信息提取模型用于从输入的数据中提取出所包含的故障信息。具体地,将非结构化数据输入故障信息提取模型后,得到一个对应的输出信息,基于输出信息形成第二故障信息。例如,将一个非结构化的售后服务报告文本输入故障信息提取模型,故障信息提取模型输出故障时间、故障地点、相关人员、故障现象、故障原因和解决方法等相关数据,也即第二故障信息。
步骤S208,根据第一故障信息和第二故障信息得到故障信息表。
其中,故障信息表是指具有特定格式、用于存储有第一故障信息和第二故障信息的表格数据。在本实施例中,依次将获得的所有第一故障信息和第二故障信息按照特定格式写入表格中,从而得到故障信息表。
具体地,获取第一故障信息和第二故障信息中的信息类别,按照信息类别构建故障信息表的列数据,按照故障类别构建故障信息表的行数据,或者,按照信息类别构建故障信息表的行数据,按照故障类别构建故障信息表的列数据。其中,信息类别用于表示不同性质的数据类型,包括故障时间、故障地点、相关人员、故障现象、故障原因、解决方法等,故障类别用于表示不同的故障。进一步地,故障信息表还包括表头数据,用于表示信息类别和故障类别。进一步地,还可利用第一故障信息形成的初始故障信息表和第二故障信息得到完整的故障信息表。
上述水电站故障数据处理方法,将水电站数据源中数据分为结构化数据和非结构化数据,通过提取结构化数据的第一故障信息,进而将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,实现从不同形式的的数据中快速获得有价值的故障信息,并根据第一故障信息和第二故障信息构建可用于对水电站故障进行分析的故障信息表,为水电站故障分析研究提供了可靠的科学依据。
在另一个实施例中,如图3所示,该方法还包括以下步骤:
步骤S302,获取故障信息表中各故障之间的第一相似度。
对故障信息表中各故障之间进行相似度运算,得到第一相似度,每两个不同故障之间具有一个第一相似度。其中,第一相似度为一集合,该集合包括两个不同故障的各信息类别之间的相似度。以信息类别包括故障现象、原因、解决方法为例,则故障A和故障B之间的第一相似度包括对应的故障现象相似度、原因相似度和解决方法相似度。
步骤S304,根据第一相似度得到满足第一预设条件的相似故障。
具体地,判断各第一相似度是否满足第一预设条件,若满足,则认为该第一相似度对应的两个故障为相似故障。其中,第一预设条件为两个不同故障的预设信息类别之间的相似度均满足相似性判断标准,进一步地,相似性判断标准为一预设标准值,当某一预设信息类别的相似度大于该预设标准值,则认为该信息类别的相似度满足相似性判断标准。
以预设信息类别包括故障现象、原因、解决方法为例,则当故障A和故障B之间的故障现象相似度、原因相似度和解决方法相似度均大于预设标准值时,确定故障A和故障B为相似故障。
其中,相似故障包括两个或两个以上的故障,例如,当故障A和故障B为相似故障、故障A和故障C为相似故障,则故障A、故障B和故障C三者也为相似故障。
步骤S306,将相似故障对应的故障信息合并,更新故障信息表。
获取相似故障中各故障的故障信息,并将相似故障的所有故障信息进行整合,形成同一故障的故障信息,更新故障信息表。
假设各故障的故障信息的信息类别包括故障时间、故障地点、相关人员、故障现象、故障原因和解决方法,且预设信息类别为故障现象、故障原因和解决方法,以故障A、故障B和故障C三者为相似故障为例:在一具体实施例中,获取故障A、故障B和故障C的所有故障信息,删除该所有故障信息中的重复故障信息,比如删除重复的故障现象、故障原因和解决方法,分别仅保留其中的一条故障现象、故障原因和解决方法,且其他非重复的故障时间、故障地点、相关人员全部保留,而后将去重复后的故障信息形成新的故障信息写入故障信息表,并删除故障信息表中故障A、故障B和故障C对应数据位置的数据,得到处理后的故障信息表,其中,重复故障信息是指相似度满足相似性判断标准的故障信息;在另一具体实施例中,选择相似故障中的一个故障作为故障标准,以选择故障A作为故障标准为例,将故障B中与故障A的非重复故障信息增加到故障A对应的数据位置,同样地,将故障C中与故障A的非重复故障信息增加到故障A对应的数据位置,而后删除故障信息表中故障B和故障C对应数据位置的数据,得到处理后的故障信息表,其中,非重复故障信息是指相似度不满足相似性判断标准的故障信息。
通过获取各故障之间的相似度,进而根据相似度判断各故障是否为相似故障,并将相似故障对应的故障信息进行合并,使得相似故障对应的各故障整合为一个故障,降低了故障信息表的冗余度,进一步可提高故障信息表的使用效率。
在一实施例中,获取故障信息表中各故障之间的第一相似度的步骤包括:获取故障信息表中各故障信息的第一词向量;根据第一词向量得到各故障之间的第一相似度。
其中,词向量是指用于表征自然语言中的词特征的向量。例如,用向量(0.2,0.2,0.3,0.4)表示自然语言中的“今天”。通过对自然语言中的词进行数学化,将自然语言理解的问题转化为机器学习的问题,便于后续对数据的分析和处理。
在本实施例中,对故障信息表中各故障信息进行处理,将其转化为对应的第一词向量,基于第一词向量对两个不同故障的相同预设信息类别的故障信息进行相似度运算,得到两个不同故障的预设信息类别之间的相似度,进而得到各故障之间的第一相似度。具体地,可利用word2vec算法对各故障信息进行训练,得到各故障信息对应的第一词向量。通过将各故障信息转化为词向量,并利用词向量方式计算各故障信息间的相似度,提高了各故障之间相似度的计算效率。
在一个实施例中,如图4所示,水电站故障数据处理方法还包括以下步骤:
步骤S402,获取故障信息表中的各故障的故障原因。
在本实施例中,各故障的故障信息包括故障原因,根据故障信息表中故障原因对应的数据位置提取各故障的故障原因。
步骤S404,根据故障原因得到各故障原因之间的第二相似度。
对故障信息表中各故障原因之间进行相似度运算,得到第二相似度,每两个不同故障之间具有一个第二相似度。进一步地,第二相似度包含于第一相似度中。
步骤S406,根据第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系。
具体地,判断各第二相似度是否满足第二预设条件,若满足,则认为该第二相似度对应的两个故障原因为相似原因。其中,第二预设条件为两个不同故障的故障原因之间的相似度满足相似性判断标准,进一步地,相似性判断标准为一预设标准值,当两个故障原因之间的相似度大于该预设标准值,则认为该两个故障原因之间的相似度满足相似性判断标准。在确定为相似原因之后,再获取各相似原因与各故障之间的对应关系。
例如,当故障原因I和故障原因II之间的相似度大于预设标准值,故障原因I和故障原因II之间的相似度满足相似性判断标准,确定故障原因I和故障原因II为相似原因,并进一步确定故障原因I对应的故障为故障A、故障原因II对应的故障为故障B。
其中,相似原因包括两个或两个以上的故障原因,例如,当故障原因I和故障原因II为相似原因、故障原因I和故障原因III为相似原因,则故障原因I、故障原因II和故障原因III三者也为相似原因。
步骤S408,按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
按照各相似原因以及各相似原因与各故障的对应关系,对故障进行分类,将具有相似原因的故障分为一类,得到故障分类表。例如,其中一个相似原因对应的故障包括故障A、故障B和故障C,则将故障A、故障B和故障C划分为一类,以此类推,得到故障分类表。
可以理解,一个故障原因可能造成多种故障现象,并且存在多种解决方法。因此,通过将各故障按照故障原因的相似度进行分类归纳,便于直观获取同一原因下可能造成的所有故障,以及故障对应的故障信息。
在另一实施例中,根据故障原因得到各故障原因之间的第二相似度的步骤,包括:获取各故障原因对应的第二词向量;根据第二词向量得到各故障原因之间的第二相似度。
对故障信息表中各故障原因进行处理,将其转化为对应的第二词向量,基于第二词向量对各故障原因之间的相似度进行运算,得到各故障原因之间的第二相似度。具体地,可利用word2vec算法对各故障原因进行训练,得到各故障原因对应的第二词向量。通过将各故障原因转化为词向量,并利用词向量方式计算各故障原因间的相似度,提高了各故障原因之间相似度的计算效率,进而提高了故障分类表建立的效率。
在一实施例中,该方法还包括以下步骤:基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
其中,标记是指故障数据的信息类别,例如故障时间、故障地点、相关人员、故障现象、故障原因、解决方法等。在本实施例中,首先从水电站数据源中获取大量带标记的结构化数据,将大量带标记的结构化数据作为训练集,并利用该训练集对卷积神经网络进行训练学习,最终生成可靠的故障信息提取模型,用于对非结构化数据中的故障信息进行提取。具体地,将训练集中的样本送入神经网络,根据网络的实际输出与期望输出间的差别来调整神经网络的连接权,通过多次迭代运算,不断提高该神经网络的正确率,将最终得到的可靠的神经网路作为故障信息提取模型。其中,卷积神经网络是一种深度前馈人工神经网络,通过训练卷积神经网络得到故障信息提取模型,能够实现对图像、文本等多种格式文件进行高效识别,且识别正确率高,可有效保障故障信息的识别正确率。
通过利用容易提取故障信息的结构化数据训练卷积神经网络,得到故障信息提取模型,进而利用故障信息提取模型提取非结构化数据中的第二故障信息,实现了对非结构化数据中故障信息的准确提取,提高故障数据的准确性和完整性。
当产生了与水电站故障相关的新增数据时,均可通过本申请的水电站故障数据处理方法从新增数据中提取新增故障信息,并将新增故障信息增加至故障信息表,进一步对故障信息表合并相似故障,以及通过合并相似原因更新故障分类表,从而得到更为全面的故障信息表和故障分类表。
在另一实施例中,如图5所示,水电站故障数据处理方法还包括以下步骤:
步骤S502,接收携带有故障查询信息的查询指令。
当用户通过终端102输入的故障查询信息时,终端102将该故障查询信息转化为服务器104可识别的查询指令,并将查询指令发送至服务器104。其中,故障查询信息为用户输入的一个或多个与水电站故障相关的关键字和/或语句,查询指令可以为文字信号也可以为语音信号。
步骤S504,获取故障查询信息与故障信息表中各故障信息的第三相似度。
对查询指令进行解析得到故障查询信息,并对故障查询信息和故障信息表中各故障信息进行相似度运算,得到第三相似度。其中,当查询指令为语音信号时,解析过程为对语音信号进行语音识别,根据语音识别结果得到故障查询信息。进一步地,第三相似度可以通过将故障查询信息转化为对应的词向量,并与各故障信息对应的词向量进行相似度运算得到。
步骤S506,根据第三相似度得到故障查询结果并输出。
在本实施例中,根据第三相似度得到故障查询结果,该故障查询结果包含故障信息表中与故障查询信息相关的数据,将故障查询结果输出至终端进行显示和/或语音播报。
具体地,故障查询结果可以为包含有故障查询信息的所有故障及其对应的故障信息,也可以为相似度最高的预设数量的故障及其对应的故障信息,其具体规则可根据实际应用情况确定。例如,故障查询结果为相似度最高的10条故障及其对应的故障信息,或者相似度最高的1条故障及其对应的故障信息等。
在另一实施例中,根据第一故障信息和第二故障信息得到故障信息表的步骤之后还包括:根据故障信息表生成故障统计报表。进一步地,故障查询信息还可以为故障统计报表标识,故障查询结果为故障统计报表标识对应的故障统计报表。例如,按照故障出现的次数、故障时间、故障地点、相关人员等分别进行统计,并分别形成对应的故障统计报表,当用户进行报表查询时,返回对应的故障统计报表,通过形成故障统计报表便于直观地了解水电站出现的故障情况。
上述水电站故障数据处理方法,将水电站数据源中数据分为结构化数据和非结构化数据,通过提取结构化数据的第一故障信息,并将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,实现从不同形式的的数据中快速获得有价值的故障信息,提高了故障信息的完整性,并且根据第一故障信息和第二故障信息构建可用于对水电站故障进行分析的故障信息表以及故障分类表,通过故障信息表实现故障查询等功能,为水电站故障分析研究提供了可靠的科学依据。
应该理解的是,虽然图2-5的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-5中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种水电站故障数据处理装置,包括:
数据源模块602,用于获取水电站数据源中的结构化数据和非结构化数据。
其中,水电站数据源为包含任何水电站故障数据的文档、图片和视频等,具体地,如因特网和内部服务器存档的售后服务报告。结构化数据是指由二维表结构来逻辑表达和实现的数据,简单来说就是数据库,其严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,具体地,如将与故障相关的故障时间、故障地点、相关人员、故障现象、故障原因和解决方法等信息按列或者按行进行排列所组成的结构化数据。非结构化数据是指数据结构不规则或不完整、没有预定义的数据模型、不方便用数据库二维逻辑表来表现的数据,具体地,如文档、文本、图片、XML、HTML、图像和音频/视频信息等。
具体地,将水电站数据源按照数据结构进行分类,将所有数据源分别结构化数据和非结构化数据,并获取分类后的结构化数据和非结构化数据。
第一故障信息模块604,用于提取结构化数据的第一故障信息。
结构化数据按照固定格式记录了各故障的相关信息,因此,可按照固定格式提取结构化数据的第一故障信息。其中,第一故障信息是指与故障相关的时间、地点、相关人员、故障现象、原因、解决方法等中的一种或者多种信息,且每一故障具有与之对应的第一故障信息。
具体地,当结构化数据按照每一列顺序记录故障时间、地点、相关人员、故障现象、原因、解决方法的格式记录各故障的第一故障信息时,通过按列提取的方式即可得到结构化数据中各故障对应的第一故障信息。进一步地,第一故障信息模块604还用于将第一故障信息按照故障信息表格式形成初始故障信息表。
第二故障信息模块606,用于将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息。
在本实施例中,已经基于结构化数据构建了故障信息提取模型,该故障信息提取模型用于从输入的数据中提取出所包含的故障信息。具体地,将非结构化数据输入故障信息提取模型后,得到一个对应的输出信息,基于输出信息形成第二故障信息。例如,将一个非结构化的售后服务报告文本输入故障信息提取模型,故障信息提取模型输出故障时间、故障地点、相关人员、故障现象、故障原因和解决方法等相关数据,也即第二故障信息。
故障信息表模块608,用于根据第一故障信息和第二故障信息得到故障信息表。
其中,故障信息表是指具有特定格式、用于存储有第一故障信息和第二故障信息的表格数据。在本实施例中,依次将获得的所有第一故障信息和第二故障信息按照特定格式写入表格中,从而得到故障信息表。
具体地,获取第一故障信息和第二故障信息中的信息类别,按照信息类别构建故障信息表的列数据,按照故障类别构建故障信息表的行数据,或者,按照信息类别构建故障信息表的行数据,按照故障类别构建故障信息表的列数据。其中,信息类别用于表示不同性质的数据类型,包括故障时间、故障地点、相关人员、故障现象、故障原因、解决方法等,故障类别用于表示不同的故障。进一步地,故障信息表还包括表头数据,用于表示信息类别和故障类别。进一步地,故障信息表模块608还用于利用第一故障信息形成的初始故障信息表和第二故障信息得到完整的故障信息表。
上述水电站故障数据处理装置,将水电站数据源中数据分为结构化数据和非结构化数据,通过提取结构化数据的第一故障信息,进而将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,实现从不同形式的的数据中快速获得有价值的故障信息,并根据第一故障信息和第二故障信息构建可用于对水电站故障进行分析的故障信息表,为水电站故障分析研究提供了可靠的科学依据。
在一实施例中,水电站故障数据处理装置还包括:
相似度获取模块,用于获取故障信息表中各故障之间的第一相似度。
相似故障模块,用于根据第一相似度得到满足第一预设条件的相似故障。
故障信息表模块608,还用于将相似故障对应的故障信息合并,更新故障信息表。
在另一实施例中,相似度获取模块还用于获取故障信息表中各故障信息的第一词向量,根据第一词向量得到各故障之间的第一相似度。
在另一实施例中,水电站故障数据处理装置还包括:故障原因获取模块、相似原因模块和故障分别表模块,其中:
故障原因获取模块,用于获取故障信息表中的各故障的故障原因。
进一步地,相似度获取模块还用于根据故障原因得到各故障原因之间的第二相似度。
相似原因模块,用于根据第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系。
故障分别表模块,用于按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
在一实施例中,相似度获取模块还用于获取各故障原因对应的第二词向量,根据第二词向量得到各故障原因之间的第二相似度。
在另一实施例中,该装置还包括提取模型模块,用于基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
在另一实施例中,水电站故障数据处理装置还包括接收模块和输出模块,其中:
接收模块,用于接收携带有故障查询信息的查询指令。
进一步地,相似度获取模块还用于获取故障查询信息与故障信息表中各故障信息的第三相似度。
输出模块,用于根据第三相似度得到故障查询结果并输出。
上述水电站故障数据处理装置,将水电站数据源中数据分为结构化数据和非结构化数据,通过提取结构化数据的第一故障信息,进而将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息,实现从不同形式的的数据中快速获得有价值的故障信息,提高了故障信息的完整性,并且根据第一故障信息和第二故障信息构建可用于对水电站故障进行分析的故障信息表以及故障分类表,通过故障信息表实现故障查询等功能,为水电站故障分析研究提供了可靠的科学依据。
关于水电站故障数据处理装置的具体限定可以参见上文中对于水电站故障数据处理方法的限定,在此不再赘述。上述水电站故障数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储水电站故障数据处理的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种水电站故障数据处理方法。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取水电站数据源中的结构化数据和非结构化数据;
提取结构化数据的第一故障信息;
将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息;
根据第一故障信息和第二故障信息得到故障信息表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取故障信息表中各故障之间的第一相似度;
根据第一相似度得到满足第一预设条件的相似故障;
将相似故障对应的故障信息合并,更新故障信息表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取故障信息表中各故障信息的第一词向量;
根据第一词向量得到各故障之间的第一相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取故障信息表中的各故障的故障原因;
根据故障原因得到各故障原因之间的第二相似度;
根据第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系;
按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
获取各故障原因对应的第二词向量;
根据第二词向量得到各故障原因之间的第二相似度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:
接收携带有故障查询信息的查询指令;
获取故障查询信息与故障信息表中各故障信息的第三相似度;
根据第三相似度得到故障查询结果并输出。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取水电站数据源中的结构化数据和非结构化数据;
提取结构化数据的第一故障信息;
将非结构化数据输入预先训练得到的故障信息提取模型,提取非结构化数据的第二故障信息;
根据第一故障信息和第二故障信息得到故障信息表。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取故障信息表中各故障之间的第一相似度;
根据第一相似度得到满足第一预设条件的相似故障;
将相似故障对应的故障信息合并,更新故障信息表。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取故障信息表中各故障信息的第一词向量;
根据第一词向量得到各故障之间的第一相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取故障信息表中的各故障的故障原因;
根据故障原因得到各故障原因之间的第二相似度;
根据第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系;
按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
获取各故障原因对应的第二词向量;
根据第二词向量得到各故障原因之间的第二相似度。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:
接收携带有故障查询信息的查询指令;
获取故障查询信息与故障信息表中各故障信息的第三相似度;
根据第三相似度得到故障查询结果并输出。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种水电站故障数据处理方法,其特征在于,所述方法包括:
获取水电站数据源中的结构化数据和非结构化数据;
提取所述结构化数据的第一故障信息;
将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
根据所述第一故障信息和所述第二故障信息得到故障信息表。
2.根据权利要求1所述的方法,其特征在于,还包括:
获取所述故障信息表中各故障之间的第一相似度;
根据所述第一相似度得到满足第一预设条件的相似故障;
将相似故障对应的故障信息合并,更新所述故障信息表。
3.根据权利要求2所述的方法,其特征在于,所述获取所述故障信息表中各故障之间的第一相似度,包括:
获取所述故障信息表中各故障信息的第一词向量;
根据所述第一词向量得到各故障之间的第一相似度。
4.根据权利要求1所述的方法,其特征在于,还包括:
获取所述故障信息表中的各故障的故障原因;
根据所述故障原因得到各故障原因之间的第二相似度;
根据所述第二相似度得到满足第二预设条件的相似原因以及各相似原因与各故障之间的对应关系;
按照各相似原因以及各相似原因与各故障的对应关系生成故障分类表。
5.根据权利要求3所述的方法,其特征在于,所述根据所述故障原因得到各故障原因之间的第二相似度,包括:
获取各故障原因对应的第二词向量;
根据所述第二词向量得到各故障原因之间的第二相似度。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于带标记的结构化数据,训练卷积神经网络,得到故障信息提取模型。
7.根据权利要求1至6任意一项所述的方法,其特征在于,还包括:
接收携带有故障查询信息的查询指令;
获取所述故障查询信息与所述故障信息表中各故障信息的第三相似度;
根据所述第三相似度得到故障查询结果并输出。
8.一种水电站故障数据处理装置,其特征在于,所述装置包括:
数据源模块,用于获取水电站数据源中的结构化数据和非结构化数据;
第一故障信息模块,用于提取所述结构化数据的第一故障信息;
第二故障信息模块,用于将所述非结构化数据输入预先训练得到的故障信息提取模型,提取所述非结构化数据的第二故障信息;
故障信息表模块,用于根据所述第一故障信息和所述第二故障信息得到故障信息表。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810106010.1A 2018-02-02 2018-02-02 水电站故障数据处理方法、装置、计算机设备和存储介质 Pending CN108319695A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810106010.1A CN108319695A (zh) 2018-02-02 2018-02-02 水电站故障数据处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810106010.1A CN108319695A (zh) 2018-02-02 2018-02-02 水电站故障数据处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN108319695A true CN108319695A (zh) 2018-07-24

Family

ID=62890593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810106010.1A Pending CN108319695A (zh) 2018-02-02 2018-02-02 水电站故障数据处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN108319695A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110689317A (zh) * 2019-09-20 2020-01-14 浙江盾安轨道交通设备有限公司 智能检修方法、装置、计算机设备和存储介质
CN111049664A (zh) * 2018-10-11 2020-04-21 中兴通讯股份有限公司 一种网络告警处理方法、装置及存储介质
CN115146084A (zh) * 2022-07-14 2022-10-04 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801745A (zh) * 2006-01-13 2006-07-12 武汉大学 一种建立网络故障诊断规则库的方法
US20110282508A1 (en) * 2010-05-12 2011-11-17 Alstom Grid Generalized grid security framework
CN104363106A (zh) * 2014-10-09 2015-02-18 国网辽宁省电力有限公司信息通信分公司 一种基于大数据技术的电力信息通信故障预警分析方法
CN104462846A (zh) * 2014-12-22 2015-03-25 山东鲁能软件技术有限公司 一种基于支持向量机的设备故障智能诊断方法
CN106570513A (zh) * 2015-10-13 2017-04-19 华为技术有限公司 大数据网络系统的故障诊断方法和装置
CN106777141A (zh) * 2016-12-19 2017-05-31 国网山东省电力公司电力科学研究院 一种融合多源异构电网数据的获取和分布式存储方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1801745A (zh) * 2006-01-13 2006-07-12 武汉大学 一种建立网络故障诊断规则库的方法
US20110282508A1 (en) * 2010-05-12 2011-11-17 Alstom Grid Generalized grid security framework
CN104363106A (zh) * 2014-10-09 2015-02-18 国网辽宁省电力有限公司信息通信分公司 一种基于大数据技术的电力信息通信故障预警分析方法
CN104462846A (zh) * 2014-12-22 2015-03-25 山东鲁能软件技术有限公司 一种基于支持向量机的设备故障智能诊断方法
CN106570513A (zh) * 2015-10-13 2017-04-19 华为技术有限公司 大数据网络系统的故障诊断方法和装置
CN106777141A (zh) * 2016-12-19 2017-05-31 国网山东省电力公司电力科学研究院 一种融合多源异构电网数据的获取和分布式存储方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111049664A (zh) * 2018-10-11 2020-04-21 中兴通讯股份有限公司 一种网络告警处理方法、装置及存储介质
CN110689317A (zh) * 2019-09-20 2020-01-14 浙江盾安轨道交通设备有限公司 智能检修方法、装置、计算机设备和存储介质
CN115146084A (zh) * 2022-07-14 2022-10-04 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置
CN115146084B (zh) * 2022-07-14 2023-11-24 贵州电网有限责任公司 从非结构化数据获取设备故障及维修数据的方法及装置

Similar Documents

Publication Publication Date Title
US20190294676A1 (en) Written-modality prosody subsystem in a natural language understanding (nlu) framework
EP3855324A1 (en) Associative recommendation method and apparatus, computer device, and storage medium
US20220277576A1 (en) Automated classification and interpretation of life science documents
CN111666401B (zh) 基于图结构的公文推荐方法、装置、计算机设备及介质
US20230162051A1 (en) Method, device and apparatus for execution of automated machine learning process
CN109685056A (zh) 获取文档信息的方法及装置
CN108319695A (zh) 水电站故障数据处理方法、装置、计算机设备和存储介质
CN102542067A (zh) 基于尺度学习和关联标号传播的自动图像语义标注方法
CN113220782A (zh) 多元测试数据源生成方法、装置、设备及介质
US20230177267A1 (en) Automated classification and interpretation of life science documents
CN113094512A (zh) 一种工业生产制造中故障分析系统及方法
CN109447412A (zh) 构建企业关系图谱的方法、装置、计算机设备和存储介质
CN116644729A (zh) 表格文件处理方法、装置、计算机设备和存储介质
CN112765976A (zh) 文本相似度计算方法、装置、设备及存储介质
CN116452707A (zh) 基于表格的文本生成方法、装置及其应用
CN116486812A (zh) 基于语料关系的多领域唇语识别样本自动生成方法及系统
CN116052054A (zh) 序列视频中无对齐文本的弱监督视频表示学习方法
CN114817559A (zh) 问答方法、装置、计算机设备和存储介质
CN114490510A (zh) 文本流归档方法、装置、计算机设备及存储介质
KR20220079029A (ko) 문서 기반 멀티 미디어 콘텐츠 자동 제작 서비스 제공 방법
CN110110303A (zh) 新闻文本生成方法、装置、电子设备和计算机可读介质
CN113204652B (zh) 知识表示学习方法和装置
EP4009194A1 (en) Automated classification and interpretation of life science documents
CN117972117A (zh) 搜索方法、装置、电子设备及存储介质
CN108241749B (zh) 由传感器数据生成资讯信息的方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180724