CN109740164B - 基于深度语义匹配的电力缺陷等级识别方法 - Google Patents
基于深度语义匹配的电力缺陷等级识别方法 Download PDFInfo
- Publication number
- CN109740164B CN109740164B CN201910020562.5A CN201910020562A CN109740164B CN 109740164 B CN109740164 B CN 109740164B CN 201910020562 A CN201910020562 A CN 201910020562A CN 109740164 B CN109740164 B CN 109740164B
- Authority
- CN
- China
- Prior art keywords
- text
- defect
- layer
- semantic
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y04—INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
- Y04S—SYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
- Y04S10/00—Systems supporting electrical power generation, transmission or distribution
- Y04S10/50—Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于深度语义匹配的电力缺陷等级识别方法,涉及电力缺陷等级识别技术领域。传统的文本分类模型有基于布尔值的向量空间模型,无法考虑深层次的上下文语义,向量稀疏,不具有可解释性等缺点,针对电力设备缺陷文本,分类精度不高。本方法采用深度神经网络将句子分为输入层、表示层、匹配层、排序层与输出层等五层结构,实现深度结构语义模型;然后在输入层基于word hashing和分词模型对文本进行预处理;再基于深度神经网络,依次训练了输入层、表示层、匹配层,得到缺陷文本的低维表示向量;最后基于cosin距离的语义相似度和TopK排序模型得到待分类文本的平均缺陷等级。有效提升缺陷文本的等级识别率,实现高精度的电力缺陷等级识别。
Description
技术领域
本发明涉及电力缺陷等级识别技术领域,尤其涉及基于深度语义匹配的电力缺陷等级识别方法。
背景技术
在电力设备的日常运行与维护过程中,通常需要对电力设备的缺陷进行记录,记录内容通常包括缺陷设备类型、名称、缺陷发现日期、缺陷说明、缺陷分类等,从而形成大量的电力缺陷文本。与缺陷记录的其他内容不同,缺陷说明以短文本的形式进行记录,没有固定的格式与结构,但其包含了较为重要的缺陷信息,如设备发生缺陷的具体部件、缺陷的具体现象等,是对缺陷其他记录内容的重要补充,尤其是对于一些模糊性较强的缺陷,巡检人员都会将具体的缺陷信息以文本的形式详细记录在缺陷说明中,因此缺陷说明包含的信息对于缺陷的评估往往具有重要的价值。
按照电力设备缺陷分类标准,缺陷分类可按缺陷严重程度分为“一般”、“重要”和“紧急”三类,分类的任务一般由人工完成。通过机器学习的方法,利用现有的缺陷文本进行训练,挖掘缺陷说明中包含的具体缺陷信息,可以实现缺陷的自动分类。
与一般的中文文本相比,电力设备缺陷说明文本有以下的特点:
1)缺陷说明文本涉及电力设备专业领域内容,含有大量电气专业词汇,且由于巡检人员经验与习惯不同,对同一部件可能有不同的描述方式,如“储油柜”和“油枕”、“气体继电器”和“瓦斯继电器”等等。
2)由于各种缺陷的复杂性不同以及巡检人员记录详细程度的差异,各条缺陷说明的文本长度差别很大,最短的可少至4个词,最长的可达40多个词。
3)有相当一部分的缺陷说明文本中混杂着文字和数字,如“压力释放阀漏油,1分钟15到20滴”,这些包含量化信息的字段对缺陷等级的分类有着重要甚至决定性的作用。
4)缺陷说明文本的数据量大,有利于机器学习挖掘文本中隐含的规律,但同时也对分类模型的分类效率和存储开销提出了一定的要求。
传统的文本分类模型有基于布尔值的向量空间模型,其基本思想是用矩阵实现对句子集合的表示,矩阵的每一行代表一个句子的句向量,矩阵的列则表示句子的特征,每个句子的特征数一致;还有基于TF-IDF(词频-逆文档频率)的词频特征模型,即将分词形成的字典中的每个词作为一个特征,每个特征的权重由TF-IDF指标计算得到,权重的大小与对应的词在该句子中出现的频率以及在其他句子中出现的频率有关。除此之外,基于LDA(隐狄利克雷分布)的主题向量模型,即首先根据所有文本的内容生成若干个主题,每个主题作为一个特征,再根据句子与每个主题的相关度对每个特征赋予权重,从而得到句子的句向量。但是,以上传统方法无法考虑深层次的上下文语义,向量稀疏,不具有可解释性等缺点,进而导致分类精度不高,或者泛化能力较差。
发明内容
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供基于深度语义匹配的电力缺陷等级识别方法,以实现高精度的电力缺陷等级识别为目的。为此,本发明采取以下技术方案。
基于深度语义匹配的电力缺陷等级识别方法,包括以下步骤:
1)构建深度结构语义模型,采用深度神经网络将句子从下往上可以分为五层结构,包括输入层、表示层、匹配层、排序层与输出层;
2)基于word hashing和分词模型对文本进行预处理,构建输入层;
3)基于深度神经网络,依次训练了输入层、表示层、匹配层,得到了缺陷文本的低维表示向量;
4)基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级。
能够有效地提升缺陷文本的等级识别率,实现高精度的电力缺陷等级识别。
作为优选技术手段:
所述的输入层为待分类的缺陷文本,以及N条训练集文本,把句子映射到一个向量空间里并输入到DNN中。
作为优选技术手段:
步骤2)中,针对英文与数字预处理时,采用基于字的n-gams来切分单词。例:10kV这个英文-数字词组会被切为#-1-0,1-0-k,0-k-V,k-V-#。数字与字母的组合相对中文更有限,这样可以起到压缩空间的作用,而前缀后缀具有通用的语义,可以增强泛化能力。
作为优选技术手段:
步骤2)中,针对中文文本分词预处理时,由于中文文本的词与词之间没有空格的自然分界,因此,在文本表示之前需要对中文文本进行分词,采用隐马尔科夫模型,并借助自行编纂的电力设备缺陷词典,对缺陷说明文本进行分词。
作为优选技术手段:
步骤3)中,通过输入层,将英文、数字和中文转化为词袋型BOW表示,再输入紧接着是一个含有多个隐层的DNN,其中,第一层向量为500000维,后续隐层向量为300维,输出向量为128维,且采用tanh作为隐层和输出层的激活函数,最终输出一个128维的低维语义向量V。
作为优选技术手段:
步骤3)中,将第i条待分类的文本的语义向量Vi与训练库中各文本的综合向量Vj进行相似度计算,如下公式所示:
接着,通过Softmax函数可以把两条文本的语义相似性转化为一个后验概率:
其中γ为Softmax的平滑因子;
然后,在训练阶段,以极大似然估计函数最小作为训练目标,借助随机梯度下降算法SGD更新表示层中的网络参数,直至收敛,由此训练得到DSSM最后的网络结构。
作为优选技术手段:
步骤4)中,在线分类时,将待计算文本输入训练好的DSSM网络结构中,得到排序前k名的缺陷文本及其对应的缺陷等级。
有益效果:能够有效地提升缺陷文本的等级识别率,提升泛华能力,实现高精度的电力缺陷等级识别。
附图说明
图1是本发明深度结构语义模型的流程图。
图2是本发明表示层的隐层结构示意图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,基于深度语义匹配的电力缺陷等级识别方法,包括以下步骤:
1)构建深度结构语义模型,采用深度神经网络将句子从下往上可以分为五层结构,包括输入层、表示层、匹配层、排序层与输出层;
2)基于word hashing和分词模型对文本进行预处理,构建输入层,输入层为待分类的缺陷文本,以及N条训练集文本,N的数值越大越好,把句子映射到一个向量空间里并输入到DNN中;由于电力缺陷文本是中文、英文字母、数字夹杂的情况,而这三种字符的处理有较大不同:
针对英文与数字预处理时,采用基于字的n-gams来切分单词,则10kV这个英文-数字词组会被切为#-1-0,1-0-k,0-k-V,k-V-#。数字与字母的组合相对中文更有限,这样可以起到压缩空间的作用,而前缀后缀具有通用的语义,如KV和MW等前后缀词,可以增强泛化能力,本实例中,n取值3。
针对中文文本分词预处理时,由于中文文本的词与词之间没有空格的自然分界,因此,在文本表示之前需要对中文文本进行分词,采用隐马尔科夫模型,并借助自行编纂的电力设备缺陷词典,对缺陷说明文本进行分词,部分缺陷字典见下表:
注:上表中“/”后为词性的标注,其中v为动词,ad为副形词,n为名词,m为数词,等等。
部分缺陷说明分词结果表如下表:
对于一些无法表征电力设备缺陷严重程度的词,如变电站的名称、相关的地名等,需要作为停用词在分词后从缺陷说明文本中剔除,以减少文本的噪声。本文建立了停用词表,在分词后对照停用词表,将缺陷说明中的停用词剔除。部分停用词如下表:
表2-3部分停用词
3)如图1-2所示,基于深度神经网络,依次训练了输入层、表示层、匹配层,得到了缺陷文本的低维表示向量;通过输入层,将英文、数字和中文转化为词袋型BOW表示,再输入紧接着是一个含有多个隐层的DNN,其中,第一层向量为500000维,后续隐层向量为300维,输出向量为128维,且采用tanh作为隐层和输出层的激活函数,最终输出一个128维的低维语义向量V;
将第i条待分类的文本的语义向量Vi与训练库中各文本的综合向量Vj进行相似度计算,如下公式所示:
接着,通过Softmax函数可以把两条文本的语义相似性转化为一个后验概率:
其中γ为Softmax的平滑因子;
然后,在训练阶段,以极大似然估计函数最小作为训练目标,借助随机梯度下降算法SGD更新表示层中的网络参数,直至收敛,由此训练得到DSSM最后的网络结构。
4)基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级,在线分类时,将待计算文本输入训练好的DSSM网络结构中,得到排序前k名的缺陷文本及其对应的缺陷等级Level=1、2、3,本实例中,当k=3时,三个缺陷等级的平均值并取整则为最后的缺陷等级。
本方法首先基于深度结构语义模型(DSSM),对文本的深层次语义特征进行了提取,得到了语义特征向量;然后,借助cosin距离计算公式,计算待分类的缺陷文本与训练文本之间的语义相似度;最后,基于KNN思想,选取语义相似度最高的k个训练句子,将k个缺陷等级的平均值作为待评价缺陷的等级,通过参照文本的展示,具有可追溯与可解释性,能够有效地提升缺陷文本的等级识别率,提升泛华能力,实现高精度的电力缺陷等级识别。
以上图1-2所示的基于深度语义匹配的电力缺陷等级识别方法是本发明的具体实施例,已经体现出本发明突出的实质性特点和显著进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
Claims (6)
1.基于深度语义匹配的电力缺陷等级识别方法,其特征在于包括以下步骤:
1)构建深度结构语义模型,采用深度神经网络将句子从下往上可以分为五层结构,包括输入层、表示层、匹配层、排序层与输出层;
2)基于word hashing和分词模型对文本进行预处理,构建输入层;
3)基于深度神经网络,依次训练了输入层、表示层、匹配层,得到了缺陷文本的低维表示向量;
4)基于cosin距离的语义相似度和TopK排序模型得到了待分类文本的平均缺陷等级;
步骤3)中, 将第i条待分类的文本的语义向量与训练库中各文本的综合向量/>进行相似度计算,如下公式所示:
接着,通过Softmax 函数可以把两条文本的语义相似性转化为一个后验概率:
其中 为 Softmax 的平滑因子;
然后,在训练阶段,以极大似然估计函数最小作为训练目标,借助随机梯度下降算法SGD更新表示层中的网络参数,直至收敛,由此训练得到DSSM最后的网络结构;
首先基于深度结构语义模型(DSSM),对文本的深层次语义特征进行了提取,得到了语义特征向量;然后,借助cosin距离计算公式,计算待分类的缺陷文本与训练文本之间的语义相似度;最后,选取语义相似度最高的k个训练句子,将k个缺陷等级的平均值作为待评价缺陷的等级。
2.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法,其特征在于:所述的输入层为待分类的缺陷文本,以及N条训练集文本,把句子映射到一个向量空间里并输入到 DNN 中。
3.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法,其特征在于:步骤2)中,针对英文与数字预处理时,采用基于字的n-gams 来切分单词。
4.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法,其特征在于:步骤2)中,针对中文文本分词预处理时,由于中文文本的词与词之间没有空格的自然分界,因此,在文本表示之前需要对中文文本进行分词,采用隐马尔科夫模型,并借助自行编纂的电力设备缺陷词典,对缺陷说明文本进行分词。
5.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法,其特征在于:步骤3)中,通过输入层,将英文、数字和中文转化为词袋型BOW表示,再输入紧接着是一个含有多个隐层的DNN,其中,第一层向量为500000 维,后续隐层向量为300 维,输出向量为128维,且采用 tanh 作为隐层和输出层的激活函数,最终输出一个128维的低维语义向量。
6.根据权利要求1所述的基于深度语义匹配的电力缺陷等级识别方法,其特征在于:步骤4)中,在线分类时,将待计算文本输入训练好的DSSM网络结构中,得到排序前k名的缺陷文本及其对应的缺陷等级。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910020562.5A CN109740164B (zh) | 2019-01-09 | 2019-01-09 | 基于深度语义匹配的电力缺陷等级识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910020562.5A CN109740164B (zh) | 2019-01-09 | 2019-01-09 | 基于深度语义匹配的电力缺陷等级识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109740164A CN109740164A (zh) | 2019-05-10 |
CN109740164B true CN109740164B (zh) | 2023-08-15 |
Family
ID=66364202
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910020562.5A Active CN109740164B (zh) | 2019-01-09 | 2019-01-09 | 基于深度语义匹配的电力缺陷等级识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109740164B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112052622A (zh) * | 2020-08-11 | 2020-12-08 | 国网河北省电力有限公司 | 一种云平台下深度多视图语义文档表示的缺陷处置方法 |
CN112182205A (zh) * | 2020-08-24 | 2021-01-05 | 华北电力大学(保定) | 一种利用文字识别识别电气设备中监测数据的处理方法 |
CN113010695A (zh) * | 2021-04-19 | 2021-06-22 | 华北电力大学 | 一种适用于继电保护装置缺陷分析的专业词典构建方法 |
CN113095087B (zh) * | 2021-04-30 | 2022-11-25 | 哈尔滨理工大学 | 一种基于图卷积神经网络的中文词义消歧方法 |
CN114461735A (zh) * | 2022-04-13 | 2022-05-10 | 天津中新智冠信息技术有限公司 | 工矿数据分级分类方法、装置和计算机设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011129006A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016134183A1 (en) * | 2015-02-19 | 2016-08-25 | Digital Reasoning Systems, Inc. | Systems and methods for neural language modeling |
-
2019
- 2019-01-09 CN CN201910020562.5A patent/CN109740164B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011129006A (ja) * | 2009-12-21 | 2011-06-30 | Nippon Telegr & Teleph Corp <Ntt> | 意味分類付与装置、意味分類付与方法、意味分類付与プログラム |
CN106897371A (zh) * | 2017-01-18 | 2017-06-27 | 南京云思创智信息科技有限公司 | 中文文本分类系统及方法 |
CN107832306A (zh) * | 2017-11-28 | 2018-03-23 | 武汉大学 | 一种基于Doc2vec的相似实体挖掘方法 |
CN108399230A (zh) * | 2018-02-13 | 2018-08-14 | 上海大学 | 一种基于卷积神经网络的中文财经新闻文本分类方法 |
CN109101494A (zh) * | 2018-08-10 | 2018-12-28 | 哈尔滨工业大学(威海) | 一种用于中文句子语义相似度计算的方法,设备以及计算机可读存储介质 |
CN109145190A (zh) * | 2018-08-27 | 2019-01-04 | 安徽大学 | 一种基于神经机器翻译技术的局部引文推荐方法及系统 |
Non-Patent Citations (1)
Title |
---|
杨河彬等.一种融入用户点击模型Word2Vec查询词聚类.《小型微型计算机系统》.2016,(第04期), * |
Also Published As
Publication number | Publication date |
---|---|
CN109740164A (zh) | 2019-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109740164B (zh) | 基于深度语义匹配的电力缺陷等级识别方法 | |
CN110717047B (zh) | 一种基于图卷积神经网络的Web服务分类方法 | |
CN108614875B (zh) | 基于全局平均池化卷积神经网络的中文情感倾向性分类方法 | |
CN111324744B (zh) | 一种基于目标情感分析数据集的数据增强方法 | |
CN107766324B (zh) | 一种基于深度神经网络的文本一致性分析方法 | |
CN109753660B (zh) | 一种基于lstm的中标网页命名实体抽取方法 | |
CN111259151B (zh) | 一种混合文本敏感词变体识别方法和装置 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN107122349A (zh) | 一种基于word2vec‑LDA模型的文本主题词提取方法 | |
CN110717341B (zh) | 一种以泰语为枢轴的老-汉双语语料库构建方法及装置 | |
CN111897917B (zh) | 基于多模态自然语言特征的轨道交通行业术语提取方法 | |
CN113282701B (zh) | 作文素材生成方法、装置、电子设备及可读存储介质 | |
CN115186665A (zh) | 一种基于语义的无监督学术关键词提取方法及设备 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN113449514A (zh) | 一种适用于特定垂直领域的文本纠错方法及其纠错装置 | |
CN108846033A (zh) | 特定领域词汇的发现及分类器训练方法和装置 | |
CN107844475A (zh) | 一种基于lstm的分词方法 | |
CN111078874B (zh) | 基于随机子空间的决策树分类的对外汉语难度评估方法 | |
Khuman et al. | Grey relational analysis and natural language processing to: grey language processing | |
CN115204143B (zh) | 一种基于prompt的文本相似度计算方法及系统 | |
CN111985223A (zh) | 一种基于长短记忆网络和情感词典结合的情感计算方法 | |
CN115309899B (zh) | 一种文本中特定内容识别存储方法及系统 | |
CN107102986A (zh) | 文档中多主题的关键词提取技术 | |
CN111125304A (zh) | 一种基于word2vec的专利文本自动分类方法 | |
CN110287396A (zh) | 文本匹配方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |