CN113326380A - 基于深度神经网络的设备量测数据处理方法、系统及终端 - Google Patents

基于深度神经网络的设备量测数据处理方法、系统及终端 Download PDF

Info

Publication number
CN113326380A
CN113326380A CN202110885209.0A CN202110885209A CN113326380A CN 113326380 A CN113326380 A CN 113326380A CN 202110885209 A CN202110885209 A CN 202110885209A CN 113326380 A CN113326380 A CN 113326380A
Authority
CN
China
Prior art keywords
measurement data
short text
neural network
layer
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110885209.0A
Other languages
English (en)
Other versions
CN113326380B (zh
Inventor
罗玮
刘金全
杨庚鑫
许剑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guoneng Daduhe Big Data Service Co ltd
Original Assignee
Guoneng Daduhe Big Data Service Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guoneng Daduhe Big Data Service Co ltd filed Critical Guoneng Daduhe Big Data Service Co ltd
Priority to CN202110885209.0A priority Critical patent/CN113326380B/zh
Publication of CN113326380A publication Critical patent/CN113326380A/zh
Application granted granted Critical
Publication of CN113326380B publication Critical patent/CN113326380B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明公开了基于深度神经网络的设备量测数据处理方法、系统及终端,涉及电站设备数据处理技术领域,其技术方案要点是:通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。本发明能够对不同设备进行统一、标准化自动编码处理。

Description

基于深度神经网络的设备量测数据处理方法、系统及终端
技术领域
本发明涉及电站设备数据处理技术领域,更具体地说,它涉及基于深度神经网络的设备量测数据处理方法、系统及终端。
背景技术
电站安全监测过程中涉及到多种不同类型的传感器设备、运行设备,且各个电站之间管理也存在一定的差异,从而使得数据共享时存在一定的困难。目前,各站的核心基础平台如监控系统、状态监测系统中设备量测数据的定义仅考虑各自系统实现,彼时尚无统一的设备量测数据定义标准。各站工作人员对设备量测数据主观性强,导致文本语言表述简单,包含词汇少,且描述多种多样,相较于PPIS数据规则用词相对不规范,从而导致执行标准和力度不一,各站设备量测数据难以融通。因此,如何研究设计一种基于深度神经网络的设备量测数据处理方法、系统及终端是我们目前急需解决的问题。
发明内容
为解决现有技术中的不足,本发明的目的是提供基于深度神经网络的设备量测数据处理方法、系统及终端。
本发明的上述技术目的是通过以下技术方案得以实现的:
第一方面,提供了基于深度神经网络的设备量测数据处理方法,包括以下步骤:
通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;
将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;
通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
进一步的,所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层;
输入层,用于采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列;
双向长短期记忆网络层,用于将字符嵌入序列作为双向长短期记忆网络各个时间步的输入,并将正向长短期记忆网络输出的状态序列和反向长短期记忆网络在各个位置输出的状态序列进行拼接,得到由字符向量组成的字符向量序列;
向量表示层,用于通过预构建的词典对目标设备量测数据进行分词,并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练,得到由笔画信息的词嵌入向量组成的词向量序列;
注意力层,用于将词嵌入向量与相应的字符向量进行关注计算,并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵,以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列;
条件随机场层,用于采用条件随机场对量测数据序列进行标注,并以过去的标签和将来的标签来预测当前的标签,得到标签标注后的短文本序列。
进一步的,所述聚类设备量测数据的获得过程具体为:
利用行业标准术语库扩充短文本序列中的短文本数据;
采用word2vec模型对扩充后的文本数据进行训练,得到以字符向量进行文本表示的扩充后的短文本序列;
将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征,得到短文本深层语义;
采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。
进一步的,所述新量测数据预测编码标签的获得过程具体为:
获取历史设备量测数据与标准编码,并对历史设备量测数据进行数据清洗以过滤冗余数据;
提取清洗后的历史设备量测数据中的词嵌入特征,并以词嵌入特征和标准编码组成训练集后输入到训练模型,训练得到历史设备量测数据与标准编码之间的映射关系;
提取目标设备量测数据中的词嵌入特征,并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。
进一步的,所述训练模型为卷积神经网络模型,包括:
卷积层,用于将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征;词向量矩阵的维度为
Figure DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE004
表示每个设备量测数据描述含有词的个数;
Figure DEST_PATH_IMAGE006
表示每个词的词向量维数;
池化层,用于对窗口生成特征降维处理后得到保留最重要特征的简化特征;
全连接层,用于依据简化特征输出新量测数据预测编码标签。
进一步的,所述卷积层采用尺寸为3的卷积核,表示以3个词为一个窗口进行计算,卷积核的数量为64,卷积之后得到64个向量;
池化层采用max-pooling对每个向量降维,只保留每个特征中最大的特征项,并将最大的特征项拼接成整个设备数据描述的表示;
全连接层包括两层:第一层先采用Relu激活函数,将向量中小于0的值赋值为0,大于0的值不变;第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率,且映射关系的概率排列输出新量测数据预测编码标签。
进一步的,所述窗口生成特征的计算公式具体为:
Figure DEST_PATH_IMAGE008
其中,
Figure DEST_PATH_IMAGE010
表示窗口生成特征;
Figure 100002_DEST_PATH_IMAGE012
表示第i个词
Figure 100002_DEST_PATH_IMAGE014
到第i+h-1个词
Figure 100002_DEST_PATH_IMAGE016
Figure 100002_DEST_PATH_IMAGE018
表示偏置顶;
Figure 100002_DEST_PATH_IMAGE020
表示非线性函数;
Figure 100002_DEST_PATH_IMAGE022
表示卷积核;h表示卷积核的高度,也表示词数量。
进一步的,该方法还包括对新量测数据预测编码标签进行合理性判断;若不合理,则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。
第二方面,提供了基于深度神经网络的设备量测数据处理系统,包括:
实体识别模块,用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;
数据处理模块,用于将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;
自动编码模块,用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
第三方面,提供了一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面中任意一项所述的基于深度神经网络的设备量测数据处理方法。
与现有技术相比,本发明具有以下有益效果:
1、本发明对设备量测数据进行预处理,确定实验的训练集和测试集,并对数据进行标注;由于中文无明显的边界,本发明采用字符嵌入而不是词嵌入,从而避免分词结果影响识别结果,通过基本字符向量的双向长短期记忆神经网络(Bi-LSTM)得到字符向量表示;然而单个中文字符和由该字符组成的词语代表不同的含义,如果将字符视为原子单位,会忽略不同字符之间的形态相似性,因此采用中文汉字的笔画信息训练词向量(cw2vec),然后通过注意力机制融合向量表示;最后通过条件随机场(CRF)约束预测标签,确保预测的标签是合理的。
2、本发明通过扩充文本数据并结合深度学习和机器学习方法实现短文本聚类,不仅从数据本身改变文本长度避免数据稀疏造成的结果不理想,而且通过结合深度学习和聚类模型来提高聚类准确率;
3、本发明利用深度学习的方法来实现设备量测数据描述的自动编码,首先对设备量测数据添加标准的编码标签,然后对数据中各站给出的设备量测数据名称进行词频统计,选取高频词来训练词向量,最后将整个设备量测数据描述向量和采集的设备量测数据向量输入到卷积神经网中,从数据中学习输入与输出之间的映射关系,辅助高效解决测点标准化工作。
附图说明
此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
图1是本发明实施例中的流程图;
图2是本发明实施例中的系统框图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
专业术语解释
word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。
n-gram模型是一种语言模型,一个基于概率的判别模型,它的输入是一句话(单词的顺序序列),输出是这句话的概率。N指当前指由N个单词组成。
max-pooling,最大池化,取局部接受域中值最大的点。
Relu,线性整流函数(Rectified Linear Unit, ReLU),又称修正线性单元,是一种人工神经网络中常用的激活函数(activation function),通常指代以斜坡函数及其变种为代表的非线性函数
Softmax,softmax将模型输出映射到0 ~ 1之间,共有n个类,对于每个样本,可以理解为它属于其中某一类别的概率。
k-means,k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。
cw2vec,cw2vec采用笔画信息作为特征,由于每个字符包含很多的笔画,类似于一个英文单词包含很多的拉丁字母,在这个基础之上,提出了笔画的n-gram特征。
实施例1:基于深度神经网络的设备量测数据处理方法,如图1所示,包括以下步骤:
步骤一,通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列。
识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层。
输入层:采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列
Figure DEST_PATH_IMAGE024
双向长短期记忆网络层:将字符嵌入序列作为双向长短期记忆网络各个时间步的输入,并将正向长短期记忆网络输出的状态序列
Figure DEST_PATH_IMAGE026
和反向长短期记忆网络在各个位置输出的状态序列
Figure DEST_PATH_IMAGE028
进行拼接,得到由字符向量组成的字符向量序列
Figure DEST_PATH_IMAGE030
向量表示层:通过预构建的词典对目标设备量测数据进行分词,并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练,得到由笔画信息的词嵌入向量组成的词向量序列
Figure DEST_PATH_IMAGE032
注意力层:将词嵌入向量与相应的字符向量进行关注计算,并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵,以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列;
条件随机场层:采用条件随机场对量测数据序列进行标注,并以过去的标签和将来的标签来预测当前的标签,得到标签标注后的短文本序列。
本发明对设备量测数据进行预处理,确定实验的训练集和测试集,并对数据进行标注;由于中文无明显的边界,本发明采用字符嵌入而不是词嵌入,从而避免分词结果影响识别结果,通过基本字符向量的双向长短期记忆神经网络(Bi-LSTM)得到字符向量表示;然而单个中文字符和由该字符组成的词语代表不同的含义,如果将字符视为原子单位,会忽略不同字符之间的形态相似性,因此采用中文汉字的笔画信息训练词向量(cw2vec),然后通过注意力机制融合向量表示;最后通过条件随机场(CRF)约束预测标签,确保预测的标签是合理的。
步骤二,将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据。
聚类设备量测数据的获得过程具体为:利用行业标准术语库扩充短文本序列中的短文本数据;采用word2vec模型对扩充后的文本数据进行训练,得到以字符向量进行文本表示的扩充后的短文本序列;将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征,得到短文本深层语义;采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。
本发明通过扩充文本数据并结合深度学习和机器学习方法实现短文本聚类,不仅从数据本身改变文本长度避免数据稀疏造成的结果不理想,而且通过结合深度学习和聚类模型来提高聚类准确率。
步骤三,通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
新量测数据预测编码标签的获得过程具体为:获取历史设备量测数据与标准编码,并对历史设备量测数据进行数据清洗以过滤冗余数据;提取清洗后的历史设备量测数据中的词嵌入特征,并以词嵌入特征和标准编码组成训练集后输入到训练模型,训练得到历史设备量测数据与标准编码之间的映射关系;提取目标设备量测数据中的词嵌入特征,并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。
训练模型为卷积神经网络模型。卷积神经网络模型包括卷积层、池化层和全连接层。
卷积层:将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征;词向量矩阵的维度为
Figure 582037DEST_PATH_IMAGE002
Figure 36021DEST_PATH_IMAGE004
表示每个设备量测数据描述含有词的个数;
Figure 172604DEST_PATH_IMAGE006
表示每个词的词向量维数。
池化层:窗口生成特征降维处理后得到保留最重要特征的简化特征。
全连接层:依据简化特征输出新量测数据预测编码标签。
在本实施例中,卷积层采用尺寸为3的卷积核,表示以3个词为一个窗口进行计算,卷积核的数量为64,卷积之后得到64个向量。
在本实施例中,池化层采用max-pooling对每个向量降维,只保留每个特征中最大的特征项,并将最大的特征项拼接成整个设备数据描述的表示;
在本实施例中,全连接层包括两层:第一层先采用Relu激活函数,将向量中小于0的值赋值为0,大于0的值不变;第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率,且映射关系的概率排列输出新量测数据预测编码标签。
如单词
Figure DEST_PATH_IMAGE034
的窗口生成特征的计算公式具体为:
Figure 222907DEST_PATH_IMAGE008
其中,
Figure 153954DEST_PATH_IMAGE010
表示窗口生成特征;
Figure 564075DEST_PATH_IMAGE012
表示第i个词
Figure 488038DEST_PATH_IMAGE014
到第i+h-1个词
Figure 683527DEST_PATH_IMAGE016
Figure 34743DEST_PATH_IMAGE018
表示偏置顶;
Figure 479631DEST_PATH_IMAGE020
表示非线性函数;
Figure 944634DEST_PATH_IMAGE022
表示卷积核;h表示卷积核的高度,也表示词数量;
Figure 525788DEST_PATH_IMAGE006
也表示卷积核的宽度。
此外,本发明还包括对新量测数据预测编码标签进行合理性判断;若不合理,则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。
本发明利用深度学习的方法来实现设备量测数据描述的自动编码,首先对设备量测数据添加标准的编码标签,然后对数据中各站给出的设备量测数据名称进行词频统计,选取高频词来训练词向量,最后将整个设备量测数据描述向量和采集的设备量测数据向量输入到卷积神经网中,从数据中学习输入与输出之间的映射关系,辅助高效解决测点标准化工作。
实施例2:基于深度神经网络的设备量测数据处理系统,如图2所示,包括实体识别模块、数据处理模块、自动编码模块。
实体识别模块,用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列。数据处理模块,用于将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据。自动编码模块,用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于深度神经网络的设备量测数据处理方法,其特征是,包括以下步骤:
通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;
将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;
通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
2.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述识别模型包括输入层、双向长短期记忆网络层、向量表示层、注意力层、条件随机场层;
输入层,用于采用word2vec模型对输入的字符进行预训练后得到字符嵌入序列;
双向长短期记忆网络层,用于将字符嵌入序列作为双向长短期记忆网络各个时间步的输入,并将正向长短期记忆网络输出的状态序列和反向长短期记忆网络在各个位置输出的状态序列进行拼接,得到由字符向量组成的字符向量序列;
向量表示层,用于通过预构建的词典对目标设备量测数据进行分词,并采用cw2vec模型以提取中文笔画n-gram特征的方式对分词得到的词进行预训练,得到由笔画信息的词嵌入向量组成的词向量序列;
注意力层,用于将词嵌入向量与相应的字符向量进行关注计算,并通过注意力机制模型动态决定笔画信息的使用信息量以获得词对预测目标的贡献矩阵,以及将词向量序列、字符向量序列融合得到的输出矩阵与贡献矩阵拼接后得到量测数据序列;
条件随机场层,用于采用条件随机场对量测数据序列进行标注,并以过去的标签和将来的标签来预测当前的标签,得到标签标注后的短文本序列。
3.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述聚类设备量测数据的获得过程具体为:
利用行业标准术语库扩充短文本序列中的短文本数据;
采用word2vec模型对扩充后的文本数据进行训练,得到以字符向量进行文本表示的扩充后的短文本序列;
将扩充后的短文本序列输入卷积神经网络学习短文本中的深度特征,得到短文本深层语义;
采用k-means算法依据短文本深层语义进行聚类处理后得到聚类设备量测数据。
4.根据权利要求1所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述新量测数据预测编码标签的获得过程具体为:
获取历史设备量测数据与标准编码,并对历史设备量测数据进行数据清洗以过滤冗余数据;
提取清洗后的历史设备量测数据中的词嵌入特征,并以词嵌入特征和标准编码组成训练集后输入到训练模型,训练得到历史设备量测数据与标准编码之间的映射关系;
提取目标设备量测数据中的词嵌入特征,并将词嵌入特征输入到训练模型后结合映射关系训练得到新量测数据预测编码标签。
5.根据权利要求4所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述训练模型为卷积神经网络模型,包括:
卷积层,用于将以词嵌入特征构成表示诊断描述的词向量矩阵进行卷积产生窗口生成特征;词向量矩阵的维度为
Figure 640682DEST_PATH_IMAGE002
Figure 744774DEST_PATH_IMAGE004
表示每个设备量测数据描述含有词的个数;
Figure 462194DEST_PATH_IMAGE006
表示每个词的词向量维数;
池化层,用于对窗口生成特征降维处理后得到保留最重要特征的简化特征;
全连接层,用于依据简化特征输出新量测数据预测编码标签。
6.根据权利要求5所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述卷积层采用尺寸为3的卷积核,表示以3个词为一个窗口进行计算,卷积核的数量为64,卷积之后得到64个向量;
池化层采用max-pooling对每个向量降维,只保留每个特征中最大的特征项,并将最大的特征项拼接成整个设备数据描述的表示;
全连接层包括两层:第一层先采用Relu激活函数,将向量中小于0的值赋值为0,大于0的值不变;第二层采用Softmax函数得到设备数据描述于最终编码之间的映射关系的概率,且映射关系的概率排列输出新量测数据预测编码标签。
7.根据权利要求5所述的基于深度神经网络的设备量测数据处理方法,其特征是,所述窗口生成特征的计算公式具体为:
Figure 44354DEST_PATH_IMAGE008
其中,
Figure 796409DEST_PATH_IMAGE010
表示窗口生成特征;
Figure DEST_PATH_IMAGE012
表示第i个词
Figure DEST_PATH_IMAGE014
到第i+h-1个词
Figure DEST_PATH_IMAGE016
Figure DEST_PATH_IMAGE018
表示偏置顶;
Figure DEST_PATH_IMAGE020
表示非线性函数;
Figure DEST_PATH_IMAGE022
表示卷积核;h表示卷积核的高度,也表示词数量。
8.根据权利要求4所述的基于深度神经网络的设备量测数据处理方法,其特征是,该方法还包括对新量测数据预测编码标签进行合理性判断;若不合理,则将新量测数据预测编码标签修改后将相应的目标设备量测数据、预测编码重新加入训练集。
9.基于深度神经网络的设备量测数据处理系统,其特征是,包括:
实体识别模块,用于通过基于双向长短期记忆神经网络和条件随机场建立的识别模型对目标设备量测数据进行实体识别,得到以标签标注后用字符向量和词向量共同表示的短文本序列;
数据处理模块,用于将短文本序列扩充后输入卷积神经网络,通过学习短文本中的深度特征得到短文本深层语义,并依据短文本深层语义进行聚类处理后得到聚类设备量测数据;
自动编码模块,用于通过预构建的训练模型训练得到历史设备量测数据与标准编码之间的映射关系,并将聚类设备量测数据输入训练模型后结合映射关系得到新量测数据预测编码标签。
10.一种计算机终端,包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序,其特征是,所述处理器执行所述程序时实现如权利要求1-8中任意一项所述的基于深度神经网络的设备量测数据处理方法。
CN202110885209.0A 2021-08-03 2021-08-03 基于深度神经网络的设备量测数据处理方法、系统及终端 Active CN113326380B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110885209.0A CN113326380B (zh) 2021-08-03 2021-08-03 基于深度神经网络的设备量测数据处理方法、系统及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110885209.0A CN113326380B (zh) 2021-08-03 2021-08-03 基于深度神经网络的设备量测数据处理方法、系统及终端

Publications (2)

Publication Number Publication Date
CN113326380A true CN113326380A (zh) 2021-08-31
CN113326380B CN113326380B (zh) 2021-11-02

Family

ID=77426931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110885209.0A Active CN113326380B (zh) 2021-08-03 2021-08-03 基于深度神经网络的设备量测数据处理方法、系统及终端

Country Status (1)

Country Link
CN (1) CN113326380B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154493A (zh) * 2022-01-28 2022-03-08 北京芯盾时代科技有限公司 一种短信类别的识别方法及装置
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN115225731A (zh) * 2022-07-29 2022-10-21 中国人民解放军陆军工程大学 一种基于混合神经网络的在线协议识别方法
CN115952770A (zh) * 2023-03-15 2023-04-11 广州汇通国信科技有限公司 一种数据标准化的处理方法、装置、电子设备及存储介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
CN107886248A (zh) * 2017-11-16 2018-04-06 中国南方电网有限责任公司 一种基于Golstein‑BP算法的设备状态大数据计算方法及设备
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置
CN111507109A (zh) * 2019-01-14 2020-08-07 阿里巴巴集团控股有限公司 电子病历的命名实体识别方法及装置
CN111597820A (zh) * 2020-05-11 2020-08-28 北京理工大学 Ict供应链招投标项目与企业产品实体匹配方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
US10796217B2 (en) * 2016-11-30 2020-10-06 Microsoft Technology Licensing, Llc Systems and methods for performing automated interviews
CN112365009A (zh) * 2020-10-28 2021-02-12 国网山东省电力公司电力科学研究院 一种基于深度学习网络的二次设备异常诊断方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106569998A (zh) * 2016-10-27 2017-04-19 浙江大学 一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法
US10796217B2 (en) * 2016-11-30 2020-10-06 Microsoft Technology Licensing, Llc Systems and methods for performing automated interviews
US20190122145A1 (en) * 2017-10-23 2019-04-25 Baidu Online Network Technology (Beijing) Co., Ltd. Method, apparatus and device for extracting information
CN107886248A (zh) * 2017-11-16 2018-04-06 中国南方电网有限责任公司 一种基于Golstein‑BP算法的设备状态大数据计算方法及设备
CN111507109A (zh) * 2019-01-14 2020-08-07 阿里巴巴集团控股有限公司 电子病历的命名实体识别方法及装置
CN110020438A (zh) * 2019-04-15 2019-07-16 上海冰鉴信息科技有限公司 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110134786A (zh) * 2019-05-14 2019-08-16 南京大学 一种基于主题词向量与卷积神经网络的短文本分类方法
CN110298042A (zh) * 2019-06-26 2019-10-01 四川长虹电器股份有限公司 基于Bilstm-crf与知识图谱影视实体识别方法
CN111597820A (zh) * 2020-05-11 2020-08-28 北京理工大学 Ict供应链招投标项目与企业产品实体匹配方法
CN111611775A (zh) * 2020-05-14 2020-09-01 沈阳东软熙康医疗系统有限公司 一种实体识别模型生成方法、实体识别方法及装置、设备
CN111343203A (zh) * 2020-05-18 2020-06-26 国网电子商务有限公司 一种样本识别模型训练方法、恶意样本提取方法及装置
CN112365009A (zh) * 2020-10-28 2021-02-12 国网山东省电力公司电力科学研究院 一种基于深度学习网络的二次设备异常诊断方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHOTARO MISAWA等: "Character-based Bidirectioonal LSTM-CRF with words and characters for Japanese Named Entity Recognition", 《PROCEEDINGS OF THE FIRST WORKSHOP ON SUBWORD AND CHARACTER LEVEL MODELS IN NLP》 *
ZHONGHUI FENG等: "A New efficient Text Clustering Ensemble Algorithm Based On Semantic Sequences", 《INTERNATIONAL CONFERENCE IN SWARM INTELLIGENCE》 *
陈德鑫: "基于深度学习的在线医疗信息抽取研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114154493A (zh) * 2022-01-28 2022-03-08 北京芯盾时代科技有限公司 一种短信类别的识别方法及装置
CN114510946A (zh) * 2022-04-21 2022-05-17 山东师范大学 基于深度神经网络的中文命名实体识别方法及系统
CN115225731A (zh) * 2022-07-29 2022-10-21 中国人民解放军陆军工程大学 一种基于混合神经网络的在线协议识别方法
CN115225731B (zh) * 2022-07-29 2024-03-05 中国人民解放军陆军工程大学 一种基于混合神经网络的在线协议识别方法
CN115952770A (zh) * 2023-03-15 2023-04-11 广州汇通国信科技有限公司 一种数据标准化的处理方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN113326380B (zh) 2021-11-02

Similar Documents

Publication Publication Date Title
CN113326380B (zh) 基于深度神经网络的设备量测数据处理方法、系统及终端
CN110188202B (zh) 语义关系识别模型的训练方法、装置及终端
CN110427461B (zh) 智能问答信息处理方法、电子设备及计算机可读存储介质
CN112183101A (zh) 文本意图识别方法、装置、电子设备及存储介质
CN112052684A (zh) 电力计量的命名实体识别方法、装置、设备和存储介质
CN111091004B (zh) 一种语句实体标注模型的训练方法、训练装置及电子设备
CN111966812A (zh) 一种基于动态词向量的自动问答方法和存储介质
CN111858843A (zh) 一种文本分类方法及装置
CN114936290A (zh) 数据处理方法及装置、存储介质及电子设备
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN112507124A (zh) 一种基于图模型的篇章级别事件因果关系抽取方法
CN110020638B (zh) 人脸表情识别方法、装置、设备和介质
CN113486174B (zh) 模型训练、阅读理解方法、装置、电子设备及存储介质
CN108875024B (zh) 文本分类方法、系统、可读存储介质及电子设备
CN113360654A (zh) 文本分类方法、装置、电子设备及可读存储介质
CN116824583A (zh) 弱监督视频场景图生成方法、装置及电子设备
CN111611796A (zh) 下位词的上位词确定方法、装置、电子设备及存储介质
WO2023158881A1 (en) Computationally efficient distillation using generative neural networks
CN114970497B (zh) 基于预训练特征嵌入的文本分类方法及词义消歧方法
CN116644148A (zh) 关键词识别方法、装置、电子设备及存储介质
CN110377753A (zh) 基于关系触发词与gru模型的关系抽取方法及装置
JP2023017759A (ja) セマンティック増強に基づく画像識別モデルのトレーニング方法およびトレーニング装置
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
Tannert et al. FlowchartQA: the first large-scale benchmark for reasoning over flowcharts
CN114491076A (zh) 基于领域知识图谱的数据增强方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant