CN111767397A - 一种电力系统二次设备故障短文本数据分类方法 - Google Patents
一种电力系统二次设备故障短文本数据分类方法 Download PDFInfo
- Publication number
- CN111767397A CN111767397A CN202010608271.0A CN202010608271A CN111767397A CN 111767397 A CN111767397 A CN 111767397A CN 202010608271 A CN202010608271 A CN 202010608271A CN 111767397 A CN111767397 A CN 111767397A
- Authority
- CN
- China
- Prior art keywords
- secondary equipment
- short text
- word
- text data
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 68
- 239000011159 matrix material Substances 0.000 claims abstract description 29
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 25
- 238000009826 distribution Methods 0.000 claims description 31
- 230000007547 defect Effects 0.000 claims description 17
- 238000011176 pooling Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000012549 training Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000013145 classification model Methods 0.000 claims description 11
- 238000007781 pre-processing Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 6
- 238000012360 testing method Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 5
- 238000001914 filtration Methods 0.000 claims description 4
- 230000003213 activating effect Effects 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 4
- 239000000284 extract Substances 0.000 abstract description 4
- 238000000605 extraction Methods 0.000 abstract description 2
- 238000010801 machine learning Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 208000037408 Device failure Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011089 mechanical engineering Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/06—Energy or water supply
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Economics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Public Health (AREA)
- Water Supply & Treatment (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种电力系统二次设备故障短文本数据分类方法,所述方法基于主题词模型与卷积神经网络,通过使用主题词模型构建出主题词向量提取出全局性特征与使用词向量技术提取出的局部性特征,将两种特征相结合,作为卷积神经网络的输入层矩阵,提取出二次设备短文本数据信息的特征,对故障级别进行分类。本发明解决传统分类主要依靠人工经验对于故障数据分类的主观性,并且考虑到二次设备故障短文本信息的不同层次的特征,分别使用不同的模型,对文本信息的全局性特征与局部性特征二者进行结合,并使用卷积神经网络做特征提取并分类,提高了分类的准确率。
Description
技术领域
本发明属于中文自然语言处理技术,具体涉及一种电力二次设备故障短文本数据分类方法。
背景技术
在智能电网的建设运行过程中,电力大数据爆发式的出现,这些数据根据2013年中国电机工程学会信息化专委会编著的中国电力大数据发展白皮书大体可以分为俩类,一类是以输出功率、设备及其环境温湿度、光模块光强等为代表时序化的结构化数据,另一类是以文本、图像、音频等为代表的难以使用关系型数据库表达的半结构化与非结构化数据。结构化数据挖掘工作已较为成熟,然而由于电网运行过程中往往出现的都是正常数据,只有极少量的故障数据,所带来的数据价值密度较低问题制约着非结构化数据的挖掘。其中,对于二次设备运行过程中出现的短文本故障信息也是泛在物联网建设过程中重点关注的信息。
二次设备在运行过程中,积累了很多故障缺陷短文本数据,这些数据往往由运检人员手工纪录,完成对缺陷的等级分类工作,而由于运检人员的主观性与经验性的不同,难以做到准确分类,并且由于故障数据较多,需要大量人力参与,效率难以保证。随着中文文本分类技术的发展,利用机器学习的手段对电网生产管理系统中大量的故障短文本信息的自动分类成为可能。
目前,针对短文本分类,国外已经有通过自然语言处理对酒店评价做情感分类的研究,但是由于中英文结构不同,比如英文中对专有名词大写,词与词之间空格连接等特性在中文文本分类中行不通,英语的自然语言处理难以在中文中使用,并且由于行业的不同,在二次设备文本分类领域有很多专有名词,缺乏对分类模型的改进研究,大多基于传统的机器学习领域。并且由于纪录人员手工纪录的原因,口语化纪录较多,文本信息较短,目前尚不存在对二次设备短文本信息分类的方法公开。
发明内容
发明目的:针对智能电网运行过程中二次设备所纪录的故障短文本信息长度短、语义稀疏,并且记录和分类难等问题,本发明提供一种电力二次设备故障短文本数据分类方法。
技术方案:一种电力系统二次设备故障短文本数据分类方法,该方法包括对二次设备短文本数据建立LDA主题模型和基于卷积神经网络构建二次设备故障短文本信息分类模型,步骤如下:
(1)建立样本数据集,采集电力系统中二次设备在运行过程中产生的故障短文本数据,所述故障短文本数据按成不同的缺陷等级进行标记,并将故障短文文本数据划分为训练集、验证集和测试集;
(2)文本预处理,构建停用词词典和二次设备专业词典,所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声,所述的噪声为二次设备故障短文本信息中无实际物理意义的词汇和标点符号;所述的二次设备专业词典用于识别二次设备的属性数据,所述的属性数据包括二次设备的名称、型号、厂站名称和路线名称;
(3)对二次设备短文本数据建立LDA主题模型,包括对二次设备短文本数据进行LDA主题模型特征表示,对主体模型参数进行Gibbs采样估计,输出语料库中任意文本的主题-词语矩阵;
(4)对二次设备短文本数据进行词向量特征表示,使用Skip-gram模型作为词向量的训练器,将二次设备故障短文本信息经过预处理后作为输入,输出词向量,构建词向量矩阵;
(5)词向量拼接,根据步骤(3)得到的LDA主题-词语矩阵和步骤(4)得到的词向量矩阵,进行向量拼接,归一化处理得到同时包含潜在词义特征与主题特征的词向量,作为卷积神经网络的输入;
(6)构建卷积神经网络二次设备故障短文本信息分类模型,将步骤(5)以主题特征与潜在语义特征相结合得到的新的词向量作为模型的输入,采用Softmax分类器对二次设备故障短文本数据的特征向量进行分类,并输出最终的分类结果。
进一步的,步骤(1)中二次设备故障短文本数据的缺陷等级包括“严重缺陷”、“危急缺陷”、“一般缺陷”,按照7:2:1的比例对二次设备故障短文本数据划分为训练集、验证集和测试集。
进一步的,步骤(2)通过构建停用词词典过滤对故障描述无实际意义的噪声,故障短文本的噪声中无实际意义的词汇包括介词、连词、副词和形容词;通过构建二次设备专有词典,对故障信息中出现的二次设备的名称、型号、厂站和路线名称的低频词语与专有名词进行语义识别、划分。
进一步的,步骤(3)具体如下:
(31)初始化主题模型的参数先验参数文档-主题分布参数α与主题-词分布参数β以及主题数量K;
(32)遍历任一条二次设备故障短文本数据,按照词语分类,对于其中每一个词语wi按照其相邻词列表Li,构建θi=Dirichlet(α),其中θi表示文档-主题分布;
(33)对于每一个潜在的词语集合Z,假设满足Dirichlet先验分布,计算公式为φZ=Dirichlet(β),其中φZ表示词语属于主题的概率分布,得到主题-词分布;
(34)对于Li中的每个词语wi选择潜在词语Zj是服从θi的多项分布,选择wi是服从φZj的多项分布;得到文档形式表示的短文本,将二次设备短文本数据进行主题推断,推断的计算表达式如下:
其中,fd(wi)为文档中词的词频,len(d)为短文本d的长度;
(35)将文档生成词语的主题分布的期望作为文档生成主题的分布,计算表达式如下所示:
其中P(z|d)表示文本生成词语的概率,Wd表示短文本集,P(z|wi)表示词语生成主题的概率;
(36)完成LDA主题生成模型,对主体模型参数进行Gibbs采样估计,设置迭代次数,模型训练结束后,输出语料库中任意文本的主题-词语矩阵。
进一步的,步骤(6)所述的卷积神经网络二次设备故障短文本信息分类模型包括输入层、卷积层、池化层和输出层,具体如下:
第一层为输入层:选取待分类文本数据、依照步骤(5)完成对文本数据的向量化,输出矩阵I∈Rm×n,m为文本的词数即输入层的行数,n为文本向量的维数即输入层的列数,按照步骤(5)的划分,将每个词数据划分为维数相等词向量,从而使输入层的列数相等,从而形成矩阵I∈Rm×n,在训练过程中,依靠随机梯度下降法对词向量进行调整;
第二层为卷积层:选择不同尺寸的卷积核,其中每个尺寸的卷积核有多个,分别对输入层输入的矩阵I∈Rm×n进行卷积运算从而提取出输入层的矩阵特征,得到卷积结果向量ri,(i=1,2,3,4,5,6,L),公式如下所示:
ri=W·Ii:i+h-1
其中矩阵W表示权重系数,“·”表示点乘运算;
再将卷积结果通过激活函数ReLU激活,进行非线性处理,得到结果ci,公式如下所示:
ci=ReLU(ri+b)
将ci,依照从左到右,从上到下的顺序,得到卷积层向量c∈Rs-h+1,公式如下:
c=[c1,c2,K,cs-h+1]
第三层为池化层:采用最大池化法进行池化,依据卷积层所提取的结果向量c∈Rs -h+1中最大的元素提取出作为特征值pj,(j=1,2,3,4,5,6,L,n)并将所有特征值pj依次拼接为向量p∈Rn×1输入到第四层输出层,向量p代表文本数据的全局特征的向量;
第四层为输出层:将池化层与输出层进行全连接,以池化层的向量p作为输入,采用Softmax分类器对向量p进行分类,并输出最终的分类结果;Softmax分类计算概率如下:
其中函数L(pj)表示属于二次设备类别的概率,选择概率最大的结果,输出二次设备故障的缺陷等级。
有益效果:与现有技术相比,本发明所述方法是基于主题词模型与卷积神经网络实现的一种电力系统二次设备故障短文本数据分类方法,解决传统分类主要依靠人工经验对于故障数据分类的主观性。另一方面,本发明考虑到二次设备故障短文本信息的不同层次的特征,分别使用不同的模型,对文本信息的全局性特征与局部性特征二者进行结合,并使用卷积神经网络做特征提取并分类,提高了分类的准确率。
附图说明
图1为本发明所述方法的实施步骤流程图。
具体实施方式
为了详细的说明本发明所公开的技术方案,下面结合说明书附图和具体实施例做进一步的阐述。
本发明所提供的是一种电力系统二次设备故障短文本数据分类方法,所述方法首先采集二次设备在运行过程中产生的故障短文本历史数据建立训练样本、验证样本和测试样本;接着构建停用词词典和二次设备专有词典,使用LDA主题模型对短文本信息进行主题特征提取,使用词向量模型对短文本信息进行词特征提取;然后将主题特征与词向量特征相结合作为卷积神经网络二次设备故障短文本信息分类模型的输入,输出二次设备故障短文本信息分类结果。
具体的,本发明所述方法的实施步骤如下:
步骤1:确定数据集;
收集二次设备在运行过程中产生的故障短文本数据,将其按照相关导则的要求,将故障类别划分为“严重缺陷”、“危急缺陷”、“一般缺陷”,将文本数据集划分为:训练集、验证集、测试集。
步骤2:文本预处理;
构建停用词词典,过滤去除二次设备故障短文本信息中的噪声,保留名词、动词、量词等具有具体实际意义的词语;构建二次设备专业词典,对设备名、设备型号等低频词以及设备所在厂站、线路等专有名词进行识别。
步骤3:对二次设备短文本数据建立LDA主题模型;
(31)初始化主题模型的参数先验参数文档-主题分布参数α与主题-词分布参数β以及主题数量K;
(32)遍历一条短文本数据,按照词语分类,对于其中每一个词语wi按照其相邻词列表Li,构建θi=Dirichlet(α),其中θi表示文档-主题分布;
(33)对于每一个潜在的词语集合Z,假设满足Dirichlet先验分布,计算公式为φZ=Dirichlet(β),其中φZ表示词语属于主题的概率分布,即主题-词分布;
其中,fd(wi)为文档中词的词频,len(d)为短文本d的长度
将文档生成词语的主题分布的期望作为文档生成主题的分布:
其中P(z|d)表示文本生成词语的概率,Wd表示短文本集,P(z|wi)表示词语生成主题的概率。
完成LDA主题生成模型,对主体模型参数进行Gibbs采样估计,设置迭代次数,模型训练结束后,输出语料库中任意文本的主题分布矩阵。
步骤4:对二次设备短文本数据进行词向量特征表示;
使用Skip-gram模型作为词向量的训练器,将二次设备故障短文本信息经过预处理后作为输入,输出词向量,构建词向量矩阵。
步骤5:词向量拼接;
由步骤3得到的LDA主题模型特征表示与步骤4得到的词向量矩阵,依照向量拼接方式,即同时包含潜在词义特征与主题特征,表征成为新的词向量作为卷积神经网络的输入。
步骤6:构建卷积神经网络二次设备故障短文本信息分类模型;
设置四层卷积神经网络,具体的各层计算处理过程如下:
(a)第一层为输入层;
取出一条文本数据、依照步骤5完成对文本数据的向量化,作为矩阵I∈Rm×n并将其作为输入m为文本的词数即输入层的行数,n为文本向量的维数即输入层的列数,按照步骤5的化分,将每个词数据划分为维数相等词向量,从而使输入层的列数相等,从而形成矩阵I∈Rm×n,在训练过程中,依靠随机梯度下降法对词向量进行调整。
(b)第二层为卷积层;
选择不同尺寸的卷积核,其中每个尺寸的卷积核有多个,分别对输入层输入的矩阵I∈Rm×n进行卷积运算从而提取出输入层的矩阵特征,得到卷积结果向量ri,(i=1,2,3,4,5,6,L),公式如下所示:
ri=W·Ii:i+h-1
其中矩阵W表示权重系数,“·”表示点乘运算。
再将卷积结果通过激活函数ReLU激活,进行非线性处理,得到结果ci,公式如下所示:
ci=ReLU(ri+b)
将ci,依照从左到右,从上到下的顺序,得到卷积层向量c∈Rs-h+1,公式如下:
c=[c1,c2,K,cs-h+1]
(c)第三层为池化层;
本发明采用最大池化法进行池化,依据卷积层所提取的结果向量c∈Rs-h+1中最大的元素提取出作为特征值pj,(j=1,2,3,4,5,6,L,n)并将所有特征值pj依次拼接为向量p∈Rn×1输入到第四层输出层,向量p即为代表文本数据的全局特征的向量,降低了特征的维度,提高分类的效率。
(d)第四层为输出层;
将池化层与输出层进行全连接,以池化层的向量p作为输入,采用Softmax分类器对向量p进行分类,并输出最终的分类结果。Softmax分类计算概率如下:
其中函数L(pj)表示属于二次设备类别的概率。
步骤(6)构建卷积神经网络二次设备故障短文本信息分类模型选择概率最大的结果,输出二次设备的故障等级。
本发明所述方法绕二次设备运行生产管理系统中所产生的大量的故障短文本数据,开展基于卷积神经网络对文本自动分类的相关研究,并且通过使用主题词模型构建出主题词向量提取出全局性特征与使用词向量技术提取出的局部性特征,将两种特征相结合,作为卷积神经网络的输入层矩阵,提取出二次设备短文本数据信息的特征,对故障级别进行分类。
为了验证本发明方法的有效性,下面以二次设备故障短文本信息分类为例做详细介绍。
采用西北某省电网公司2015年到2019年继电保护动作统计表共2000条数据进行分析,去除重复、噪音太大等无效数据共1471条数据。按照7:2:1划分数据集,对每一条数据进行预处理,如短文本数据“220kv河园线b套保护光纤通道故障”分词为“220kv/河园线/b/套/保护/光纤通道/故障”。再对预处理后的文本数据进行主题模型建模与卷积神经网络模型训练。
评价分类性能一般使用三个指标:正确率、召回率、F1值:
表1分类结果混合矩阵
分类类别 | 人工标注为属于 | 人工标注为不属于 |
分类器标注为属于 | TP | TN |
分类器标注为不属于 | FP | FN |
精确率(Precision)是指在分类结果中,分类器所有预测为正确的结果与实际应该被分为正确结果的比例,一般衡量分类器的查准率。其计算方式如下式所示:
召回率(Recall)是指在分类结果中,分类器分类预测正确占人工分类到属于该类别的比率,一般用来衡量模型的查全率。其计算方式如下式所示:
一般来说,不同的分类模型对于分类器精确率与召回率有着不同的要求,在垃圾短信的检测中,一般都需要预测的短信具有较高的准确率,但是在癌症病例分类中,对分类器一般要求要尽可能全面的发现所有癌症,因此对召回率具有较高要求,本发明基于二次设备文本信息的分类,应该综合考虑两者的优缺点,提出使用F1值组成一个较为全面的评价指标,计算方式如下式所示:
本发明分类结果如表2所示:
表2文本卷积神经模型分类结果评价指标
分类方法 | F1值(%) |
LR | 51.20 |
SVM | 54.53 |
KNN | 51.20 |
WORD2VEC+CNN | 63.63 |
LDA+CNN | 63.04 |
WORD2VEC+TEXTCNN | 78.54 |
WORD2VEC+LDA+TEXTCNN | 81.69 |
与传统机器学习方法LR,SVM,KNN相比,由于本实施例中的语料库短文本占比较大,结果的F1值基本上都在50%附近,最高的SVM模型分类结果的准确率只有54.53%,传统机器学习的分类的效果并不理想。传统的LDA主题模型提取特征,缺乏上下文语义信息,在面对二次设备故障文本信息这类短文本数据时,难以取得理想结果,最后实验的F1值结果只有63.00%。相比较于传统的卷积神经网络网络,WORD2VEC+TEXTCNN的结构比WORD2VEC+CNN的F1值性能提高14.91%。文本在传统的LDA主题模型上做出改进,引入潜在语义特征向量,分类的F1值最高,高达81.69%,无论是与传统的机器学习算法还是传统的卷积神经网络模型相比,F1值结果都有显著提高。因此,本发明所构建的模型的泛化能力与实用性已经满足实际运用的可能。
Claims (5)
1.一种电力系统二次设备故障短文本数据分类方法,其特征在于:包括对二次设备短文本数据建立LDA主题模型和基于卷积神经网络构建二次设备故障短文本信息分类模型,步骤如下:
(1)建立样本数据集,采集电力系统中二次设备在运行过程中产生的故障短文本数据,所述故障短文本数据按成不同的缺陷等级进行标记,并将故障短文文本数据划分为训练集、验证集和测试集;
(2)文本预处理,构建停用词词典和二次设备专业词典,所述的停用词词典用于过滤去除二次设备故障短文本信息中的噪声,所述的噪声为二次设备故障短文本信息中无实际物理意义的词汇和标点符号;所述的二次设备专业词典用于识别二次设备的属性数据,所述的属性数据包括二次设备的名称、型号、厂站名称和路线名称;
(3)对二次设备短文本数据建立LDA主题模型,包括对二次设备短文本数据进行LDA主题模型特征表示,对主体模型参数进行Gibbs采样估计,输出语料库中任意文本的主题-词语矩阵;
(4)对二次设备短文本数据进行词向量特征表示,使用Skip-gram模型作为词向量的训练器,将二次设备故障短文本信息经过预处理后作为输入,输出词向量,构建词向量矩阵;
(5)词向量拼接,根据步骤(3)得到的LDA主题-词语矩阵和步骤(4)得到的词向量矩阵,进行向量拼接,归一化处理得到同时包含潜在词义特征与主题特征的词向量,作为卷积神经网络的输入;
(6)构建卷积神经网络二次设备故障短文本信息分类模型,将步骤(5)以主题特征与潜在语义特征相结合得到的新的词向量作为模型的输入,采用Softmax分类器对二次设备故障短文本数据的特征向量进行分类,并输出最终的分类结果。
2.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法,其特征在于:步骤(1)中二次设备故障短文本数据的缺陷等级包括“严重缺陷”、“危急缺陷”、“一般缺陷”,按照7:2:1的比例对二次设备故障短文本数据划分为训练集、验证集和测试集。
3.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法,其特征在于:步骤(2)通过构建停用词词典过滤对故障描述无实际意义的噪声,故障短文本的噪声中无实际意义的词汇包括介词、连词、副词和形容词;通过构建二次设备专有词典,对故障信息中出现的二次设备的名称、型号、厂站和路线名称的低频词语与专有名词进行语义识别、划分。
4.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法,其特征在于:步骤(3)具体如下:
(31)初始化主题模型的参数先验参数文档-主题分布参数α与主题-词分布参数β以及主题数量K;
(32)遍历任一条二次设备故障短文本数据,按照词语分类,对于其中每一个词语wi按照其相邻词列表Li,构建θi=Dirichlet(α),其中θi表示文档-主题分布;
(33)对于每一个潜在的词语集合Z,假设满足Dirichlet先验分布,计算公式为φZ=Dirichlet(β),其中φZ表示词语属于主题的概率分布,得到主题-词分布;
其中,fd(wi)为文档中词的词频,len(d)为短文本d的长度;
(35)将文档生成词语的主题分布的期望作为文档生成主题的分布,计算表达式如下所示:
其中P(z|d)表示文本生成词语的概率,Wd表示短文本集,P(z|wi)表示词语生成主题的概率;
(36)完成LDA主题生成模型,对主体模型参数进行Gibbs采样估计,设置迭代次数,模型训练结束后,输出语料库中任意文本的主题-词语矩阵。
5.根据权利要求1所述的电力系统二次设备故障短文本数据分类方法,其特征在于:步骤(6)所述的卷积神经网络二次设备故障短文本信息分类模型包括输入层、卷积层、池化层和输出层,具体如下:
第一层为输入层:选取待分类文本数据、依照步骤(5)完成对文本数据的向量化,输出矩阵I∈Rm×n,m为文本的词数即输入层的行数,n为文本向量的维数即输入层的列数,按照步骤(5)的划分,将每个词数据划分为维数相等词向量,从而使输入层的列数相等,从而形成矩阵I∈Rm×n,在训练过程中,依靠随机梯度下降法对词向量进行调整;
第二层为卷积层:选择不同尺寸的卷积核,其中每个尺寸的卷积核有多个,分别对输入层输入的矩阵I∈Rm×n进行卷积运算从而提取出输入层的矩阵特征,得到卷积结果向量ri,(i=1,2,3,4,5,6,L),公式如下所示:
ri=W·Ii:i+h-1
其中矩阵W表示权重系数,“·”表示点乘运算;
再将卷积结果通过激活函数ReLU激活,进行非线性处理,得到结果ci,公式如下所示:
ci=ReLU(ri+b)
将ci,依照从左到右,从上到下的顺序,得到卷积层向量c∈Rs-h+1,公式如下:
c=[c1,c2,K,cs-h+1]
第三层为池化层:采用最大池化法进行池化,依据卷积层所提取的结果向量c∈Rs-h+1中最大的元素提取出作为特征值pj,(j=1,2,3,4,5,6,L,n)并将所有特征值pj依次拼接为向量p∈Rn×1输入到第四层输出层,向量p代表文本数据的全局特征的向量;
第四层为输出层:将池化层与输出层进行全连接,以池化层的向量p作为输入,采用Softmax分类器对向量p进行分类,并输出最终的分类结果;Softmax分类计算概率如下:
其中函数L(pj)表示属于二次设备类别的概率,选择概率最大的结果,输出二次设备故障的缺陷等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608271.0A CN111767397A (zh) | 2020-06-30 | 2020-06-30 | 一种电力系统二次设备故障短文本数据分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010608271.0A CN111767397A (zh) | 2020-06-30 | 2020-06-30 | 一种电力系统二次设备故障短文本数据分类方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111767397A true CN111767397A (zh) | 2020-10-13 |
Family
ID=72724067
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010608271.0A Pending CN111767397A (zh) | 2020-06-30 | 2020-06-30 | 一种电力系统二次设备故障短文本数据分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111767397A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417153A (zh) * | 2020-11-20 | 2021-02-26 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112819205A (zh) * | 2021-01-18 | 2021-05-18 | 北京理工大学 | 工时预测方法、装置及系统 |
CN112834865A (zh) * | 2020-12-30 | 2021-05-25 | 淮北工科检测检验有限公司 | 一种电力系统二次回路故障快速查找器 |
CN112860893A (zh) * | 2021-02-08 | 2021-05-28 | 国网河北省电力有限公司营销服务中心 | 短文本分类方法及终端设备 |
CN113010680A (zh) * | 2021-03-19 | 2021-06-22 | 国网河北省电力有限公司营销服务中心 | 电力工单文本分类方法、装置及终端设备 |
CN113111183A (zh) * | 2021-04-20 | 2021-07-13 | 通号(长沙)轨道交通控制技术有限公司 | 一种牵引供电设备缺陷等级分类方法 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113961708A (zh) * | 2021-11-10 | 2022-01-21 | 北京邮电大学 | 一种基于多层次图卷积网络的电力设备故障溯源方法 |
CN117332777A (zh) * | 2023-09-21 | 2024-01-02 | 广东省交通开发有限公司 | 一种充电桩故障的统计分析方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160048587A1 (en) * | 2013-03-13 | 2016-02-18 | Msc Intellectual Properties B.V. | System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data |
CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
CN108596470A (zh) * | 2018-04-19 | 2018-09-28 | 浙江大学 | 一种基于TensorFlow框架的电力设备缺陷文本处理方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110895565A (zh) * | 2019-11-29 | 2020-03-20 | 国网湖南省电力有限公司 | 一种电力设备故障缺陷文本分类方法与系统 |
-
2020
- 2020-06-30 CN CN202010608271.0A patent/CN111767397A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160048587A1 (en) * | 2013-03-13 | 2016-02-18 | Msc Intellectual Properties B.V. | System and method for real-time dynamic measurement of best-estimate quality levels while reviewing classified or enriched data |
CN108388601A (zh) * | 2018-02-02 | 2018-08-10 | 腾讯科技(深圳)有限公司 | 故障的分类方法、存储介质及计算机设备 |
CN108596470A (zh) * | 2018-04-19 | 2018-09-28 | 浙江大学 | 一种基于TensorFlow框架的电力设备缺陷文本处理方法 |
CN109241530A (zh) * | 2018-08-29 | 2019-01-18 | 昆明理工大学 | 一种基于N-gram向量和卷积神经网络的中文文本多分类方法 |
CN110134786A (zh) * | 2019-05-14 | 2019-08-16 | 南京大学 | 一种基于主题词向量与卷积神经网络的短文本分类方法 |
CN110895565A (zh) * | 2019-11-29 | 2020-03-20 | 国网湖南省电力有限公司 | 一种电力设备故障缺陷文本分类方法与系统 |
Non-Patent Citations (1)
Title |
---|
张小川等: "融合CNN和LDA的短文本分类研究", 《软件工程》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417153A (zh) * | 2020-11-20 | 2021-02-26 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112417153B (zh) * | 2020-11-20 | 2023-07-04 | 虎博网络技术(上海)有限公司 | 文本分类方法、装置、终端设备和可读存储介质 |
CN112834865A (zh) * | 2020-12-30 | 2021-05-25 | 淮北工科检测检验有限公司 | 一种电力系统二次回路故障快速查找器 |
CN112834865B (zh) * | 2020-12-30 | 2023-11-07 | 淮北工科检测检验有限公司 | 一种电力系统二次回路故障快速查找器 |
CN112819205A (zh) * | 2021-01-18 | 2021-05-18 | 北京理工大学 | 工时预测方法、装置及系统 |
CN112860893B (zh) * | 2021-02-08 | 2023-02-28 | 国网河北省电力有限公司营销服务中心 | 短文本分类方法及终端设备 |
CN112860893A (zh) * | 2021-02-08 | 2021-05-28 | 国网河北省电力有限公司营销服务中心 | 短文本分类方法及终端设备 |
CN113010680A (zh) * | 2021-03-19 | 2021-06-22 | 国网河北省电力有限公司营销服务中心 | 电力工单文本分类方法、装置及终端设备 |
CN113111183A (zh) * | 2021-04-20 | 2021-07-13 | 通号(长沙)轨道交通控制技术有限公司 | 一种牵引供电设备缺陷等级分类方法 |
CN113378567A (zh) * | 2021-07-05 | 2021-09-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113378567B (zh) * | 2021-07-05 | 2022-05-10 | 广东工业大学 | 一种针对低频词进行改善的中文短文本分类方法 |
CN113961708A (zh) * | 2021-11-10 | 2022-01-21 | 北京邮电大学 | 一种基于多层次图卷积网络的电力设备故障溯源方法 |
CN113961708B (zh) * | 2021-11-10 | 2024-04-23 | 北京邮电大学 | 一种基于多层次图卷积网络的电力设备故障溯源方法 |
CN117332777A (zh) * | 2023-09-21 | 2024-01-02 | 广东省交通开发有限公司 | 一种充电桩故障的统计分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767397A (zh) | 一种电力系统二次设备故障短文本数据分类方法 | |
CN107992597B (zh) | 一种面向电网故障案例的文本结构化方法 | |
CN109446331B (zh) | 一种文本情绪分类模型建立方法及文本情绪分类方法 | |
Song et al. | Research on text classification based on convolutional neural network | |
CN109189926B (zh) | 一种科技论文语料库的构建方法 | |
CN111767398A (zh) | 基于卷积神经网络的二次设备故障短文本数据分类方法 | |
CN111985247B (zh) | 一种基于多粒度文本特征表示的微博用户兴趣识别方法和系统 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN107797987B (zh) | 一种基于Bi-LSTM-CNN的混合语料命名实体识别方法 | |
CN111191442B (zh) | 相似问题生成方法、装置、设备及介质 | |
CN109446423B (zh) | 一种新闻以及文本的情感判断系统及方法 | |
CN106682089A (zh) | 一种基于RNNs的短信自动安全审核的方法 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN114265935A (zh) | 一种基于文本挖掘的科技项目立项管理辅助决策方法及系统 | |
CN112100212A (zh) | 一种基于机器学习和规则匹配的案件情节抽取方法 | |
CN113065341A (zh) | 一种环境类投诉举报文本自动标注和分类方法 | |
CN114722835A (zh) | 基于lda和bert融合改进模型的文本情感识别方法 | |
CN112632982A (zh) | 一种能用于供应商评价的对话文本情感分析方法 | |
CN116304020A (zh) | 一种基于义原分析和跨度特征的工业文本实体抽取方法 | |
CN114896392A (zh) | 工单数据的聚类方法、装置、电子设备及存储介质 | |
CN114416969A (zh) | 一种基于背景增强的lstm-cnn在线评论情感分类方法及系统 | |
CN113378563A (zh) | 一种基于遗传变异、半监督和强化学习的案件特征提取方法及装置 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN117009521A (zh) | 一种基于知识图谱的发动机智能工艺检索及匹配方法 | |
CN115827871A (zh) | 互联网企业分类的方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201013 |
|
RJ01 | Rejection of invention patent application after publication |