CN117076657A - 一种基于深度学习的电力中文文本挖掘方法及装置 - Google Patents
一种基于深度学习的电力中文文本挖掘方法及装置 Download PDFInfo
- Publication number
- CN117076657A CN117076657A CN202311046225.6A CN202311046225A CN117076657A CN 117076657 A CN117076657 A CN 117076657A CN 202311046225 A CN202311046225 A CN 202311046225A CN 117076657 A CN117076657 A CN 117076657A
- Authority
- CN
- China
- Prior art keywords
- defect
- text
- power
- model
- power equipment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 238000005065 mining Methods 0.000 title claims abstract description 47
- 238000013135 deep learning Methods 0.000 title claims abstract description 28
- 230000007547 defect Effects 0.000 claims abstract description 158
- 238000004458 analytical method Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000003321 amplification Effects 0.000 claims abstract description 21
- 238000003199 nucleic acid amplification method Methods 0.000 claims abstract description 21
- 238000003062 neural network model Methods 0.000 claims abstract description 16
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 238000007637 random forest analysis Methods 0.000 claims abstract description 12
- 230000001932 seasonal effect Effects 0.000 claims abstract description 10
- 230000011218 segmentation Effects 0.000 claims description 18
- 230000000694 effects Effects 0.000 claims description 13
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000002790 cross-validation Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 230000003416 augmentation Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 4
- 230000002950 deficient Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000007418 data mining Methods 0.000 description 3
- 230000001965 increasing effect Effects 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- VYPSYNLAJGMNEJ-UHFFFAOYSA-N silicon dioxide Inorganic materials O=[Si]=O VYPSYNLAJGMNEJ-UHFFFAOYSA-N 0.000 description 3
- 230000005856 abnormality Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 230000007797 corrosion Effects 0.000 description 2
- 238000005260 corrosion Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000002845 discoloration Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000003780 insertion Methods 0.000 description 2
- 230000037431 insertion Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010079 rubber tapping Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000000741 silica gel Substances 0.000 description 1
- 229910002027 silica gel Inorganic materials 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种基于深度学习的电力中文文本挖掘方法及装置,包括:对电力故障缺陷文本进行预处理,建立电网本体词典;利用中文文本扩增进行类别平衡化,得到数字化的故障文本,结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对电力设备缺陷深度分析模型训练,对电力设备缺陷深度分析模型的参数优化选择,对电力设备家族性缺陷和季节性故障进行挖掘分析。本发明能够满足快速、高效的结构化管理电力设备的文本数据和挖掘文本数据之间潜在关联关系的实际需求,提高了文本信息数据的价值。
Description
技术领域
本发明涉及一种基于深度学习的电力中文文本挖掘方法及装置,属于电气工程故障诊断技术领域。
背景技术
电力文本挖掘应用需求场景很多,具有很高的研究价值,由于我国相关研究起步较晚,知识和技术相对匮乏,所以目前文本挖掘技术在我国电力行业应用较少,大部分研究内容还属于试验阶段,相较于自然语言处理在互联网、医学等领域成熟的应用相比,电力中文文本处理应用效益未曾显现。
在现有技术中,电力海量信息的结构类型繁杂,其中中文文本信息常常因重要的事情才被记录下来,即被记录的信息可认为具有高价值,因此电力信息文本挖掘是从高价值信息蓝海中搜寻重要征兆,是电力设备健康状态预警与管控重点关注的技术,然而,对于文本信息的记录,大多没有固定的逻辑与格式,往往伴有个体主观性、书写随意、逻辑不清、口语化表达、错别字等,使得在处理文本信息数据时,不能很好地结构化管理,降低了文本信息数据的价值。
因此,亟需提出一种文本挖掘技术帮助巡检人员结构化处理缺陷文本数据、自动化判断设备故障严重等级,其对及时发现设备缺陷及检修计划的安排具有重要意义。
发明内容
本发明的目的在于克服现有技术中的不足,提供一种基于深度学习的电力中文文本挖掘方法及装置,能够满足快速、高效的结构化管理电力设备的文本数据和挖掘文本数据之间潜在关联关系的实际需求,提高了文本信息数据的价值。
为达到上述目的,本发明是采用下述技术方案实现的:
第一方面,本发明提供了一种基于深度学习的电力中文文本挖掘方法,包括以下步骤:
S1,获取电力故障缺陷文本,并对所述电力故障缺陷文本进行预处理,建立电网本体词典;
S2,根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化;
S3,基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
S4,结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
S5,基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行预训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
S6,根据所述电力设备缺陷深度分析模型,输入大批量电力设备缺陷文本,得到其中的电力实体词以及这段文本反映的电力设备可能存在的故障类型及其部位以及故障发生的季节信息,对电力设备家族性缺陷和季节性故障进行挖掘分析。
进一步的,所述步骤S1中,对电力故障缺陷文本进行预处理包括:去除无关用词、停用词。
进一步的,所述步骤S1中,对电力故障缺陷文本进行预处理,建立电网本体词典,包括以下步骤:
S101,采用基于通用字典的结巴分词模型对电力故障缺陷文本进行初始分词,对分词结果按照词频进行排序,专家对高频词语进行复查,形成初始词典;
S102,将所述初始字典作为外部词典导入;
S103,将人工甄选的词语加入到词典之中,重复步骤S102,直至分词效果达到满意为止。
进一步的,所述步骤S2中,利用中文文本扩增的方法包括:
利用EDA、Enhance_word2vec、RoFormer-Sim对所述电力故障缺陷文本中的中文文本进行扩增。
EDA在小文本数据集的应用表现较为良好,能很好提升文本分类的性能。主要包含以下4种方式(1)同义词替换:以一定概率P随机抽取1个词(不包括停用词),然后从词典找出抽取词的近义词表达,并将其替换。这个方法一般不会改变原句的语义以及结构。(2)随机概率插入:以一定概率P随机抽取1个词(不包括停用词),然后选择一个该词的同义词,插入原句子中的随机位置。(3)随机概率交换:以一定概率P随机交换两个词的位置。(4)随机概率删除:对于每一个单词,都有一定P的概率会被随机删除。
进一步的,所述步骤S3,基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本,包括:
根据所述电网本体词典,通过手工构建以及结合正则表达式匹配的方式,对文本中的地名、变电站名进行去除,利用Word2vec模型的文本向量化表示,将所述电力故障缺陷文本中的中文文本的数据转化为计算机能处理的数字化数据。
进一步的,所述步骤S5中,对所述电力设备缺陷深度分析模型进行训练,具体有以下步骤:
S501,基于所述电网本体词典,建立训练集,将所述训练集以概率P通过EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型进行数据扩增,在所述类别平衡化后的电力故障缺陷文本的数据集层面增强模型的泛化能力,生成第一新数据集;
S502,将所述第一新数据集依次进行五折交叉验证划分,对所述神经网络模型进行训练,将预测数据集进行组成,构成第二新数据集;
S503,将所述第二新数据集在所述随机森林模型进行训练,最终得到预测结果。
进一步的,所述步骤5中,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,包括:
统计电网中电力设备的故障类别、故障严重程度、故障时间以及故障次数。
进一步的,所述电网中电力设备为变压器。
第二方面,本发明提供一种基于深度学习的电力中文文本挖掘装置,所述装置包括:
词典模块:用于对电力故障缺陷文本进行预处理,建立电网本体词典;
扩增模块:用于根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化;
数字化模块:用于基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
模型模块:用于结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
训练模块:用于基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
分析模块:用于根据所述电力设备缺陷深度分析模型,对电力设备家族性缺陷和季节性故障进行挖掘分析。
第三方面,本发明提供一种基于深度学习的电力中文文本挖掘装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。
与现有技术相比,本发明所达到的有益效果:
(1)本发明使用半监督学习方法建立了电网本体词典,本体字典蕴含了电力领域最基本的知识单元,其质量与数量不仅决定着文本预处理中分词、词性标注等的准确性,也影响着消除歧义、构建知识图谱等工作,是电力文本挖掘中最根本的知识库;
(2)本发明对实际缺陷文本进行研究,分析指出了电力缺陷文本的格式、内容、特点以及常见文本质量问题,为缺陷文本的处理提供了新的思路;
(3)本发明以神经网络模型作为元学习器,以随机森林模型作为次级学习器构建了集成模型,在保证模型精度的同时,为了提升其泛化能力,引入了EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型等中文文本增强技术对数据集进行扩充;神经网络模型中Dropout机制抑制过拟合,实例分析证明,模型的准确率可达到91%,能解决实际工程应用中非结构化数据难处理的问题;
(4)本发明将非结构化缺陷描述转化为缺陷部件、缺陷属性等结构化信息后,结合缺陷文本中附带的结构化信息,建立电力设备缺陷深度分析模型,实例分析表明,所提出的方法能帮助及时发现电力设备家族性缺陷和季节性故障,辅助设备选型和运维决策都具有指导意义;
(5)本发明提出一种基于深度学习的电力中文文本挖掘方法及装置,能够满足快速、高效的结构化管理电力设备的文本数据和挖掘文本数据之间潜在关联关系的实际需求,提高了文本信息数据的价值。
附图说明
图1是本发明所述的方法流程示意图;
图2为本发明所提出的一种半监督学习建立电网本体词典的方法流程示意图;
图3为本发明利用t-SNE降维技术,将300维的词向量进行二维空间表示示意图;
图4为本发明提出融合深度学习和Stacking集成模型的文本分析挖掘分析模型流程示意图;
图5为本发明将基于Stacking集成模型文本挖掘模型与传统机器学习以及深度学习算法对比示意图;
图6为本发明统计10年间某电网变压器五大部件的缺陷数量情况效果图;
图7为本发明统计10年间某电网变压器分接开关的缺陷种类与数量效果图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
实施例一:
本实施例提供了一种基于深度学习的电力中文文本挖掘方法及装置,包括以下步骤:
S1,获取并对含有“电力变压器运维”的公开文本等非结构化文本,以及变压器现场故障分析报告、异常检测报告等半结构化电力故障缺陷文本进行预处理,建立电网本体词典;
具体实施例中,所述步骤S1中,对电力故障缺陷文本进行预处理包括:去除无关用词、停用词,精炼语句之后实现对语句的切分;电力故障缺陷文本主要来源于网页、电网故障等,具体为含有“电力变压器运维”的公开文本等非结构化文本,以及变压器现场故障分析报告、异常检测报告等半结构化文本,共计约50万字。
具体实施例中,所述步骤S1中,对电力故障缺陷文本进行预处理,建立电网本体词典,具体包括以下步骤:
S101,采用基于通用字典的结巴分词模型(流程如图2所示)对电力故障缺陷文本进行初始分词,对分词结果按照词频进行排序,专家对高频词语进行复查,形成初始词典;
S102,将所述初始词典作为外部词典导入,一般情况下,分词效果会被大大提升;
S103,将经过专家人工挑选的准确、高频的词语加入到词典之中,重复步骤S102,直至分词效果达到满意为止。
S2,由于数据类别不平衡问题,根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化,有助于模型泛化能力的提高。
S3,基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
S4,结合Stacking集成模型,以TextCNN神经网络模型为元学习器,以Randomforest随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
S5,基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
S6,根据所述电力设备缺陷深度分析模型,对电力设备家族性缺陷和季节性故障进行挖掘分析。
模型输入的是大批量电力设备缺陷文本,输出的是输入文本中电力设备发生的故障类型及数量以及故障发生的季节等统计信息。
输入文本中电力设备发生的故障类型及数量以及故障发生的季节等统计信息,通过这些信息辅助设备选型和运维决策都具有指导意义,如统计信息中表明某种故障或某个部件发生概率高,此时专业人员应当对此种情况加强关注。
具体实施例中,所述步骤S2中,利用中文文本扩增的方法包括:
为了提升模型的泛化能力,利用EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型对所述电力故障缺陷文本中的中文文本进行扩增,增强模型的适配性。
EDA在小文本数据集的应用表现较为良好,能很好提升文本分类的性能。主要包含以下4种方式(1)同义词替换:以一定概率P随机抽取1个词(不包括停用词),然后从词典找出抽取词的近义词表达,并将其替换。这个方法一般不会改变原句的语义以及结构。(2)随机概率插入:以一定概率P随机抽取1个词(不包括停用词),然后选择一个该词的同义词,插入原句子中的随机位置。(3)随机概率交换:以一定概率P随机交换两个词的位置。(4)随机概率删除:对于每一个单词,都有一定P的概率会被随机删除。
具体实施例中,所述步骤S3,基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本,具体包括:
根据所述电网本体词典,通过手工构建以及结合正则表达式匹配的方式,对文本中的地名、变电站名进行去除,利用Word2vec模型的文本向量化表示,将所述电力故障缺陷文本中的中文文本的数据转化为计算机能处理的数字化数据。
具体实施例中,本发明区别于常用的将机器学习算法作为基学习器的方法,将多种深度学习模型作为基学习器进行Stacking集成模型融合,能大大提高模型的准确率。本发明提出融合深度学习和Stacking集成模型的文本分析挖掘分析模型,所述步骤S5中,对所述电力设备缺陷深度分析模型进行训练,具体有以下步骤:
S501,基于所述电网本体词典,建立训练集,将所述训练集以概率P通过EDA方法进行数据扩增,在所述类别平衡化后的电力故障缺陷文本的数据集层面增强模型的泛化能力,生成第一新数据集,提高模型的准确率;P是EDA方法的一个参数,控制训练集中数据扩增数量的比例以及扩增方式(扩增方式有四种)的选择。
S502,将所述第一新数据集依次进行五折交叉验证划分,对TextCNN神经网络模型进行训练,将五折训练得到类别标签进行叠加,构成第二新数据集;第二训练集由TextCNN神经网络模型训练得到的结果向量组成;
S503,将所述第二新数据集在Randomforest随机森林模型进行训练,最终得到预测结果,将测试集(数据扩增之前先划分训练集与测试集,对训练集的数据进行扩增,增强模型的泛化能力。)在训练好的模型上应用,完成文本分类任务。
具体实施例中,所述步骤5中,将非结构化缺陷描述转化为分接开关、本体、套管等5种主要缺陷部件以及本体严重锈蚀、本体呼吸器变色等101项缺陷属性的结构化信息,包括:
如图7所示,故障部件主要包括分接开关、本体、套管等6项;缺陷属性包括本体严重锈蚀、本体呼吸器变色等101项如表6故障类型清单所示;
统计电网中电力设备的故障类别、故障严重程度、故障时间以及故障次数。
具体实施例中,所述电网中电力设备为变压器。
在将非结构化缺陷描述转化为缺陷部件、缺陷属性等结构化信息后,结合缺陷文本中附带的结构化信息,建立电力设备缺陷深度分析模型。即统计电网中变压器五大部件(本体、套管、分接开关、冷却器、后台及监测保护系统)的故障类别、故障严重程度、故障时间以及次数。
本发明的具体过程如下所示:
1、文本预处理及分层
收集整理了某电网公司2009-2021十三年间保存的20000余条变压器缺陷文本记录。利用图2对上述缺陷文本的预处理,建立了变压器本体词典,词典本体词总数达到了3105个。利用电网本体词典的分词效果如表1所示。
表1分词效果
2、本发明主要采用Word2vec词嵌入模型。从图3中可以看出文本词向量的训练结果。相近词的词向量计算后的结果在二维效果图中距离越小,表示同时出现的概率更大。硅胶相近词向量计算结果见表2;
表2相近词距离
相近词 | 变色 | 受潮 | 潮解 | 呼吸器 |
距离 | 0.9899 | 0.9885 | 0.9778 | 0.9634 |
3、为了提升模型的泛化能力,本发明利用EDA方法、Enhance_Word2vec方法、RoFormer-Sim对电力中文文本进行数据扩增,增强模型的适配性。三种方法的文本增强效果如表3、表4、表5所示。
表3EDA文本增强效果
表4Enhance_Word2vec文本增强效果
表5RoFormer-Sim文本增强效果
4、本发明基于电力行业标准《DL/T1685-2017油浸式变压器(电抗器)状态评价导则》整理出了变压器故障类型清单,类型清单共102项,部分清单见表6。
表6变压器故障类型清单
5、本发明建立了基于Stacking的文本挖掘模型,如图4所示,在实验过程中,使用测试集样本按批量样本的输入方式进行模型的训练,用该数据集的验证样本确定模型的最优参数。在网络构建过程中,在网络的密集连接分类器前加入了Dropout层,并在训练中使用了中文数据增强技术以抑制过拟合,提升模型的泛化能力。所有样本的训练和测试过程都是基于Python语言在Pycharm软件上实现的,其中,本发明选取的深度学习前端框架是基于Pytorch。具体参数设置见表7。
表7参数设置
实验结果如图5所示。本发明将基于Stacking文本挖掘模型与传统机器学习以及深度学习算法进行比较,证实了本发明提出的算法模型可以有效提高文本分类的准确率。由实验数据可以看出,本发明提出的基于Stacking文本挖掘模型在数据扩增方法加持下,准确率可达到91%,相较于常规的TextCNN神经网络模型,准确率大大提高。并且可以看到,利用数据扩增方法后,同一模型的准确率都有5%-10%的提高,证明了数据扩增对模型训练的有效性;同时由表8可以看到模型在使用数据扩增方法后,损失值都有所增大,猜想模型的泛化能力提高了,虽然损失值有所增大,但模型在测试集的表现反而更好了。
表8各类方法损失值的比较
按上述过程利用1000条变压器缺陷记录作为训练集进行了模型训练,200条缺陷记录作为测试集,准确率达到90%以上。并且利用所训练模型对自2012年至2021年10年间的缺陷记录进行了文本挖掘。对挖掘错误的文本进行研究分析,发现主要是一些长文本,这些长文本的语法规则较不规范,且包含较多口语化表达,导致正确率下降。对于短小精悍并且表达方式标准的缺陷文本,准确率可达到95%以上。此外,核查发现文本的数量和质量较大地影响着挖掘的准确率,缺陷文本在数量上还需积累。上述准确率已能说明本发明提出的文本挖掘方法是行之有效的,相信随着电网企业信息管理系统建设愈加完善,缺陷样本增加、文本质量提高以及电力本体字典的完善,准确率会进一步提高。
6、统计10年间该电网变压器五大部件的缺陷数量情况,结果如图6所示。可以看出该电网的变压器本体发生缺陷最多,并且每年发生缺陷的部件部位占发生故障次数的比例近似相等。同时注意到2013年发生故障的次数相较近年明显过多,通过分析发现是由于同个故障多次记录所致。统计该电网10年间变压器分接开关的缺陷种类与数量,结果如图7所示。从图中我们可以看出“油性能”缺陷数达到1645次,说明分接开关的“油性能”容易出现缺陷,外观及直流电阻发生故障的概率较低。
本发明使用半监督学习方法建立了电网本体词典,词典蕴含了电力领域最基本的知识单元,其质量与数量不仅决定着文本预处理中分词、词性标注等的准确性,也影响着消除歧义、构建知识图谱等工作,是电力文本挖掘中最根本的知识库;
本发明对实际缺陷文本进行研究,分析指出了电力缺陷文本的格式、内容、特点以及常见文本质量问题,为缺陷文本的处理提供了新的思路;
本发明以神经网络模型作为元学习器,以随机森林模型作为次级学习器构建了集成模型,在保证模型精度的同时,为了提升其泛化能力,引入了EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型等中文文本增强技术对数据集进行扩充;神经网络模型中Dropout机制抑制过拟合,实例分析证明,模型的准确率可达到91%,能解决实际工程应用中非结构化数据难处理的问题;
本发明将非结构化缺陷描述转化为缺陷部件、缺陷属性等结构化信息后,结合缺陷文本中附带的结构化信息,建立电力设备缺陷深度分析模型,实例分析表明,所提出的方法能帮助及时发现电力设备家族性缺陷和季节性故障,辅助设备选型和运维决策都具有指导意义;
本发明提出一种基于深度学习的电力中文文本挖掘方法,能够满足快速、高效的结构化管理电力设备的文本数据和挖掘文本数据之间潜在关联关系的实际需求,提高了文本信息数据的价值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例二:
本实施例提供一种基于深度学习的电力中文文本挖掘装置,所述装置包括:
词典模块:用于对电力故障缺陷文本进行预处理,建立电网本体词典;
扩增模块:用于根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化;
数字化模块:用于基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
模型模块:用于结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
训练模块:用于基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
分析模块:用于根据所述电力设备缺陷深度分析模型,对电力设备家族性缺陷和季节性故障进行挖掘分析。
实施例三:
本实施例提供一种基于深度学习的电力中文文本挖掘装置,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据实施例一所述方法的步骤。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种基于深度学习的电力中文文本挖掘方法,其特征在于,包括以下步骤:
获取电力故障缺陷文本,并对所述电力故障缺陷文本进行预处理,建立电网本体词典;
根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化;
基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行预训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
根据参数优选后的电力设备缺陷深度分析模型,输入多组电力设备缺陷文本,得到其中的电力实体词以及这段文本反映的电力设备可能存在的故障类型及其部位以及故障发生的季节信息,对电力设备家族性缺陷和季节性故障进行挖掘分析。
2.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,对电力故障缺陷文本进行预处理包括:去除无关用词、停用词。
3.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,对电力故障缺陷文本进行预处理,建立电网本体词典,包括以下步骤:
SA,采用基于通用字典的结巴分词模型对电力故障缺陷文本进行初始分词,对分词结果按照词频进行排序,专家对高频词语进行复查,形成初始词典;
SB,将所述初始字典作为外部词典导入;
SC,将人工甄选的词语加入到词典之中,重复步骤SB,直至分词效果达到满意为止。
4.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,利用中文文本扩增的方法包括:
利用EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型对所述电力故障缺陷文本中的中文文本进行扩增。
5.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本,具体包括:
根据所述电网本体词典,通过手工构建以及结合正则表达式匹配的方式,对文本中的地名、变电站名进行去除,利用Word2vec模型的文本向量化表示,将所述电力故障缺陷文本中的中文文本的数据转化为计算机能处理的数字化数据。
6.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,对所述电力设备缺陷深度分析模型进行训练,具体有以下步骤:
基于所述电网本体词典,建立训练集,将所述训练集以概率P通过EDA方法、Enhance_Word2vec方法、RoFormer-Sim模型进行数据扩增,在所述类别平衡化后的电力故障缺陷文本的数据集层面增强模型的泛化能力,生成第一新数据集;
将所述第一新数据集依次进行五折交叉验证划分,对所述神经网络模型进行训练,将预测数据集进行组成,构成第二新数据集;
将所述第二新数据集在所述随机森林模型进行训练,最终得到预测结果。
7.根据权利要求1所述的基于深度学习的电力中文文本挖掘方法,其特征在于,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,包括:
统计电网中电力设备的故障类别、故障严重程度、故障时间以及故障次数。
8.根据权利要求7所述的基于深度学习的电力中文文本挖掘方法,其特征在于,所述电网中电力设备为变压器。
9.一种基于深度学习的电力中文文本挖掘装置,其特征在于,所述装置包括:
词典模块:用于对电力故障缺陷文本进行预处理,建立电网本体词典;
扩增模块:用于根据所述电网本体词典,利用中文文本扩增的方法对所述电力故障缺陷文本的数据集进行类别平衡化;
数字化模块:用于基于类别平衡化后的电力故障缺陷文本的数据集,得到数字化的故障文本;
模型模块:用于结合集成模型,以神经网络模型为元学习器,以随机森林模型为次级学习器,建立电力设备缺陷深度分析模型;
训练模块:用于基于数字化的故障文本,将非结构化缺陷描述转化为缺陷部件、缺陷属性的结构化信息,融合缺陷文本中附属结构化信息,对所述电力设备缺陷深度分析模型进行训练,训练期间对所述电力设备缺陷深度分析模型的参数进行优化选择;
分析模块:用于根据所述电力设备缺陷深度分析模型,输入大批量电力设备缺陷文本,得到其中的电力实体词以及这段文本反映的电力设备可能存在的故障类型及其部位以及故障发生的季节信息,对电力设备家族性缺陷和季节性故障进行挖掘分析。
10.一种基于深度学习的电力中文文本挖掘装置,其特征在于,包括处理器及存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行根据权利要求1~8任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311046225.6A CN117076657A (zh) | 2023-08-18 | 2023-08-18 | 一种基于深度学习的电力中文文本挖掘方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311046225.6A CN117076657A (zh) | 2023-08-18 | 2023-08-18 | 一种基于深度学习的电力中文文本挖掘方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076657A true CN117076657A (zh) | 2023-11-17 |
Family
ID=88701774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311046225.6A Pending CN117076657A (zh) | 2023-08-18 | 2023-08-18 | 一种基于深度学习的电力中文文本挖掘方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076657A (zh) |
-
2023
- 2023-08-18 CN CN202311046225.6A patent/CN117076657A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111831824B (zh) | 一种舆情正负面分类方法 | |
CN110188047A (zh) | 一种基于双通道卷积神经网络的重复缺陷报告检测方法 | |
CN111400499A (zh) | 文档分类模型的训练方法、文档分类方法、装置及设备 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN111209472A (zh) | 一种铁路事故故障关联和事故故障原因分析方法及系统 | |
WO2023035330A1 (zh) | 一种长文本事件抽取方法、装置、计算机设备及存储介质 | |
CN110888798A (zh) | 一种基于图卷积神经网络对软件缺陷预测方法 | |
CN107766560A (zh) | 客服服务流程的评价方法和系统 | |
CN116992009A (zh) | 一种基于本体和知识图谱的继电保护缺陷文本质量评价方法 | |
CN117076657A (zh) | 一种基于深度学习的电力中文文本挖掘方法及装置 | |
Apon et al. | Banglasarc: A dataset for sarcasm detection | |
CN114239553A (zh) | 基于人工智能的日志审核方法、装置、设备及介质 | |
CN114781369A (zh) | 网络有害信息关键词提取方法和有害关键词库构建方法 | |
CN113688250A (zh) | 一种基于词性和语序分析的法律知识图谱自动构建方法 | |
CN113221556A (zh) | 安全生产隐患的识别方法、装置及设备 | |
CN113642321B (zh) | 面向金融领域的因果关系提取方法和系统 | |
Naseri et al. | Accelerating Legislation Processes through Semantic Similarity Analysis with BERT-based Deep Learning | |
CN110928985A (zh) | 一种基于深度学习算法自动提取近义词的科技项目查重方法 | |
CN114676298B (zh) | 一种基于质量过滤器的缺陷报告标题自动生成方法 | |
CN115994217B (zh) | 一种财务报告舞弊检测方法及系统 | |
CN108897888A (zh) | 语音客服培训场景下的人机对练方法 | |
CN108959588A (zh) | 基于大数据的文本客服机器人智能学习方法 | |
Hollingshead et al. | Using Natural Language Processing for Aftermarket Text to Increase Accuracy and Efficiency | |
Meng et al. | From SATD Recognition to an Interpretation Method Based on the Dataset | |
Yang et al. | Exploring multi-layer convolutional neural networks for railway safety text classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |