CN113343642B - 基于有监督序列生成网络的集团级kks编码自动映射方法 - Google Patents

基于有监督序列生成网络的集团级kks编码自动映射方法 Download PDF

Info

Publication number
CN113343642B
CN113343642B CN202110905902.XA CN202110905902A CN113343642B CN 113343642 B CN113343642 B CN 113343642B CN 202110905902 A CN202110905902 A CN 202110905902A CN 113343642 B CN113343642 B CN 113343642B
Authority
CN
China
Prior art keywords
kks
codes
code
network model
new
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110905902.XA
Other languages
English (en)
Other versions
CN113343642A (zh
Inventor
傅骏伟
郭鼎
王豆
张震伟
孟瑜炜
俞荣栋
吴林峰
雪小峰
罗一凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zheneng Digital Technology Co., Ltd.
Zhejiang Energy Group Research Institute Co Ltd
Original Assignee
Zhejiang Energy Group Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Energy Group Research Institute Co Ltd filed Critical Zhejiang Energy Group Research Institute Co Ltd
Priority to CN202110905902.XA priority Critical patent/CN113343642B/zh
Publication of CN113343642A publication Critical patent/CN113343642A/zh
Application granted granted Critical
Publication of CN113343642B publication Critical patent/CN113343642B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于有监督序列生成网络的集团级KKS编码自动映射方法,包括步骤:通过采集设备收集旧KKS编码列表和新KKS编码列表;由通用分词规则对KKS编码数据集进行分词。本发明的有益效果是:将标准编码与厂侧编码通过模型完成自动映射,保证字典能在动态更新的情况下实现快速匹配;将厂侧编码作为输入用于模型训练,得到序列生成网络模型;序列生成网络模型中引入长短期记忆网络用于构建编码网络与解码网络,编码网络与解码网络中心对称,便于对KKS编码特征进行提取和重构;解决了不同编码规则下的映射问题,避免了因改变原有KKS编码导致的其他生产系统测点无法读取问题,降低了工作强度,实现底层数据的通用化。

Description

基于有监督序列生成网络的集团级KKS编码自动映射方法
技术领域
本发明属于电厂信息技术领域,尤其涉及一种基于有监督序列生成网络的集团级KKS编码自动映射方法。
背景技术
KKS是电厂标识系统的缩写,源于德语Kraftwerk-Kennzeichen System,用于标识电厂中各类系统、设备、元件、测点以便于对复杂的电力生产进行标准化管理。国内大多数电厂在建厂之初便采用KKS编码对设备、测点进行管理,且效果显著,但随着电厂设备的改造,该编码规则无法快速适应最新的生产流程,导致大量人工编写的KKS编码存在于编码体系中。同时也极大的限制了电厂本身管理体系的革新、阻碍了设备技术水平的提高。
发明专利CN201810934976.4提出一种基于KKS编码规则和大数据架构的实时数据平台,该平台采用KKS编码对所有电厂的监测指标进行统一管理;该专利表明,统一的编码规则可以提升数据治理的水平,提升大数据分析的效果,在集团级电厂设备管理中具有重要的作用。但设备元件的KKS编码目前仍然以规则的形式进行自动构建,尤其是发明专利CN201310289939.X。发明专利CN201310289939.X提出一种变电站三维设计KKS智能批量编码方法,该方法采用母线命名的方式对二维符号进行顺序编码。另外,发明专利CN201410175730.5提出一种电厂设备元件KKS编码自动生成方法,该方法通过建立动态目录树读取设备元件的位置、编码及数量并进行自动编码。采用母线命名的方式对二维符号进行顺序编码的方法和通过建立动态目录树读取设备元件的位置、编码及数量并进行自动编码的方法均只能满足设备的编码需求而无法解决不同编码规则下的映射问题。尤其在一些建成时间较早的电厂进行信息化改造项目中,不同编码规则的映射问题特别突出。
随着电力生产信息化水平的提高,建设项目涉及新增大量的传感器测点及技术改造,使得原有的KKS编码规则出现了标注不够明确、弱规则特征的情况,缺乏具体的指引功能。同时,原有的KKS编码已使用多年,并覆盖电厂几乎所有生产系统。若需要按照新KKS编码规则代替原有规则,存在工作量大、系统改造困难等问题。
为避免因改变原有KKS编码导致的其他生产系统测点无法读取问题,一般需要对原KKS编码与新KKS编码进行相关匹配。这项任务不仅需要使用者掌握新旧两种KKS编码规则,还需要了解发电生产全流程、发电设备及元件、测点等信息。因此,目前基于集团级KKS标准化编码映射任务,仍然是一项极具挑战的数据治理工作。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于有监督序列生成网络的集团级KKS编码自动映射方法。
这种基于有监督序列生成网络的集团级KKS编码自动映射方法,包括以下步骤:
步骤1、通过采集设备收集旧KKS编码列表
Figure 231696DEST_PATH_IMAGE001
和新KKS编码列表
Figure 903373DEST_PATH_IMAGE002
,其中
Figure 254720DEST_PATH_IMAGE003
为旧KKS编码,
Figure 872783DEST_PATH_IMAGE004
为新KKS编码,
Figure 18594DEST_PATH_IMAGE005
为旧KKS编码或新KKS编码的总个数;分析编码特征,构建通用分词规则;技术人员将部分旧KKS编码列表
Figure 925370DEST_PATH_IMAGE006
和部分新KKS编码列表
Figure 64096DEST_PATH_IMAGE007
进行匹配,得到映射表
Figure 802245DEST_PATH_IMAGE008
;根据旧KKS编码列表
Figure 118957DEST_PATH_IMAGE009
、新KKS编码列表
Figure 778608DEST_PATH_IMAGE010
和映射表
Figure 206179DEST_PATH_IMAGE011
构建KKS编码数据集
Figure 533255DEST_PATH_IMAGE012
;将标准编码(新KKS编码)与厂侧编码(旧KKS编码)通过模型完成自动映射,厂侧编码作为输入用于模型训练;
步骤2、由步骤1获得的通用分词规则对KKS编码数据集
Figure 535715DEST_PATH_IMAGE013
中的KKS编码进行分词,提取KKS编码中的专业编码和特殊符号,KKS编码的序号和专业编码组成键值,其中专业编码为英文,一般以专业名字的英文缩写为主;将键值用于构建专业字典
Figure 151504DEST_PATH_IMAGE014
,将专业字典
Figure 648344DEST_PATH_IMAGE014
保存于存储装置的存储单元内;
步骤3、对步骤1获得的KKS编码数据集
Figure 95506DEST_PATH_IMAGE015
进行向量化处理得到向量化数据集
Figure 488441DEST_PATH_IMAGE016
步骤4、通过随机采样方法将步骤3得到的向量化数据集
Figure 106373DEST_PATH_IMAGE017
划分为训练集
Figure 938063DEST_PATH_IMAGE018
、验证集
Figure 442994DEST_PATH_IMAGE019
和测试集
Figure 272410DEST_PATH_IMAGE020
,并按照设定比例将向量化数据集
Figure 925108DEST_PATH_IMAGE017
划分为对应的数据集数量,并将按比例划分的数据集数量依次放入训练集
Figure 498172DEST_PATH_IMAGE021
、验证集
Figure 121525DEST_PATH_IMAGE022
和测试集
Figure 184159DEST_PATH_IMAGE023
;将旧KKS编码作为训练数据
Figure 261836DEST_PATH_IMAGE024
,新KKS编码作为数据标签
Figure 638591DEST_PATH_IMAGE025
步骤5、通过由步骤4获得的训练集
Figure 118114DEST_PATH_IMAGE026
,训练序列生成网络模型,序列生成网络模型由编码网络与解码网络组成,编码网络与解码网络中心对称,编码网络用于提取特征矩阵,解码网络用于对输入数据进行重构;
步骤6、将步骤1中旧KKS编码列表
Figure 804179DEST_PATH_IMAGE027
内未与新KKS编码列表
Figure 369152DEST_PATH_IMAGE010
进行匹配的旧KKS编码输入训练得到的序列生成网络模型,生成KKS编码;并将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算,取相似度最高的编码作为候选映射编码,将序列生成网络模型下装到计算模块内的微服务接口,并输出候选映射编码,将候选编码存储于存储装置内的存储单元,供系统调用。
作为优选,步骤1中的编码特征指编码由英文、数字、特殊符号组成。
作为优选,步骤2中采用通用分词规则进行分词时,当相邻两个字符为非同类字符时,通用分词规则对KKS编码数据集
Figure 346336DEST_PATH_IMAGE028
中的KKS编码进行划分,通用分词规则将数字字符逐个划分;构建通用分词规则后按编码的实际含义进行分词;将专业字典
Figure 680365DEST_PATH_IMAGE014
保存于存储装置的存储单元内时采用Json数据格式进行保存。
作为优选,步骤3具体包括如下步骤:
步骤3.1、根据步骤1得到的通用分词规则将KKS编码进行分词,获得对应的分词结果并进行对齐处理;
步骤3.2、将步骤3.1得到的分词结果分别与步骤2获得的专业字典
Figure 288064DEST_PATH_IMAGE014
中的专业名词进行匹配,获得专业名词对应的数字编码,并按顺序将数字编码进行组合得到向量化数据集
Figure 324022DEST_PATH_IMAGE029
作为优选,步骤3.1中对分词结果进行对齐处理时,按照编码最长分词结果进行补全,将长度小于最长编码的分词使用占位符填充;步骤3.2对分词结果进行匹配时采用哈希表进行匹配,保证字典能在动态更新的情况下实现快速匹配。
作为优选,步骤4中设定比例为4:1:4。
作为优选,步骤5具体包括如下步骤:
步骤5.1、将训练集
Figure 42579DEST_PATH_IMAGE021
随机采样并分组拆分,构成批次数据,将批次数据作为序列生成网络模型的输入(训练数据)
Figure 293432DEST_PATH_IMAGE030
步骤5.2、构建基于长短期记忆网络(LSTM)的编码网络,编码网络由嵌入层与LSTM编码层组成:
Figure 72032DEST_PATH_IMAGE031
上式中,
Figure 611598DEST_PATH_IMAGE032
表示嵌入层将序列生成网络模型的输入值
Figure 383114DEST_PATH_IMAGE024
转换为固定尺寸的稠密向量
Figure 426156DEST_PATH_IMAGE033
Figure 172395DEST_PATH_IMAGE034
表示LSTM编码层将稠密向量
Figure 933678DEST_PATH_IMAGE035
通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,获得序列特征
Figure 994038DEST_PATH_IMAGE036
步骤5.3、构建基于长短期记忆网络(LSTM)的解码网络, 解码网络由嵌入层、LSTM解码层和全连接层组成;
Figure 953903DEST_PATH_IMAGE037
上式中,
Figure 529766DEST_PATH_IMAGE038
表示嵌入层将训练集中的数据标签
Figure 840661DEST_PATH_IMAGE025
转换为固定尺寸的标签向量
Figure 439133DEST_PATH_IMAGE039
Figure 456767DEST_PATH_IMAGE040
表示LSTM解码层将标签向量
Figure 810388DEST_PATH_IMAGE041
以及步骤5.2得到的序列特征
Figure 529952DEST_PATH_IMAGE042
作为输入,通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,得到重构特征
Figure 197693DEST_PATH_IMAGE043
Figure 69834DEST_PATH_IMAGE044
表示全连接层Dense将重构特征
Figure 594357DEST_PATH_IMAGE045
进行矩阵计算,得到标签维度下的概率权重矩阵
Figure 817528DEST_PATH_IMAGE046
步骤5.4、将由步骤5.3得到的概率权重矩阵
Figure 7069DEST_PATH_IMAGE047
与训练集中对应的数据标签
Figure 999296DEST_PATH_IMAGE048
进行计算,得到序列生成网络模型的偏差
Figure 694720DEST_PATH_IMAGE049
,并将
Figure 874028DEST_PATH_IMAGE049
作为训练迭代依据,更新序列生成网络模型中的权重参数;
步骤5.5、重复执行步骤5.1至步骤5.4,直至迭代次数达到预设值,或序列生成网络模型的偏差
Figure 883573DEST_PATH_IMAGE050
趋于收敛时,最终得到基于旧KKS编码规则和新KKS编码规则下的序列生成网络模型。
作为优选,步骤5.1中将训练集
Figure 792623DEST_PATH_IMAGE051
随机采样时,从训练集中分别抽取256组数据作为一个批次数据,将最后一批不满256组的数据通过补零的方式扩展至相同尺寸;步骤5.4中计算序列生成网络模型的偏差
Figure 845898DEST_PATH_IMAGE050
时,通过交叉熵函数进行计算。
作为优选,步骤5.5中迭代次数预设值为10000步;重复执行步骤5.1至步骤5.4时,引入早停策略并设置早停触发区间为5步,即迭代过程中出现验证集上的误差比上一次训练结果差的时候依然按序迭代5次,对比5次验证集误差结果,假设5次验证集误差均出现劣化,则停止重复执行步骤5.1至步骤5.4的操作,并保存早停触发前训练的序列生成网络模型作为最终模型。
作为优选,步骤6将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算的公式为:
Figure 100002_DEST_PATH_IMAGE052
上式中,
Figure 43661DEST_PATH_IMAGE053
指编码分词后的分词数量;
Figure 325738DEST_PATH_IMAGE054
为序列生成网络模型生成的KKS编码;通过argmax函数得到序列生成网络模型生成的KKS编码对应的概率最大的分词类别
Figure 292557DEST_PATH_IMAGE055
Figure 519664DEST_PATH_IMAGE056
为标签维度下的概率权重矩阵;
Figure 1461DEST_PATH_IMAGE057
为余弦相似度,取相似度最高的P个编码作为候选映射编码;余弦相似度值越接近1,表示序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码越相似,余弦相似度值越接近0,表示序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码越不相似。
本发明的有益效果是:本发明将标准编码(新KKS编码)与厂侧编码(旧KKS编码)通过模型完成自动映射,对KKS编码数据集中的KKS编码进行分词,对分词结果进行匹配时采用哈希表进行匹配,保证字典能在动态更新的情况下实现快速匹配;本发明将厂侧编码作为输入用于模型训练,得到序列生成网络模型;序列生成网络模型中引入长短期记忆网络用于构建编码网络与解码网络,编码网络与解码网络中心对称,便于对KKS编码特征进行提取和重构;本发明解决了不同编码规则下的映射问题,避免了因改变原有KKS编码导致的其他生产系统测点无法读取问题,降低了工作强度,实现底层数据的通用化。
附图说明
图1为基于有监督序列生成网络的集团级KKS编码自动映射方法概述流程图;
图2为基于有监督序列生成网络的集团级KKS编码自动映射方法的算法流程图;
图3为编码向量化流程图;
图4为序列生成网络模型的逻辑流程图;
图5为序列生成网络模型的损失函数趋势图;
图6为采集设备示意图;
图7为计算模块示意图;
图8为存储装置示意图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
实施例一
本申请实施例一提供了一种如图1和图2所示基于有监督序列生成网络的集团级KKS编码自动映射方法:
步骤1、通过如图6所示采集设备收集旧KKS编码列表
Figure 352808DEST_PATH_IMAGE058
和新KKS编码列表
Figure 908554DEST_PATH_IMAGE059
,其中
Figure 116681DEST_PATH_IMAGE060
为旧KKS编码,
Figure 23457DEST_PATH_IMAGE061
为新KKS编码,
Figure 896604DEST_PATH_IMAGE062
为旧KKS编码或新KKS编码的总个数;分析编码特征,构建通用分词规则;技术人员将部分旧KKS编码列表
Figure 838015DEST_PATH_IMAGE063
和部分新KKS编码列表
Figure 951465DEST_PATH_IMAGE064
进行匹配,得到映射表
Figure 345537DEST_PATH_IMAGE065
;根据旧KKS编码列表
Figure 773108DEST_PATH_IMAGE063
、新KKS编码列表
Figure 365763DEST_PATH_IMAGE066
和映射表
Figure 368223DEST_PATH_IMAGE067
构建KKS编码数据集
Figure 249591DEST_PATH_IMAGE068
;将标准编码(新KKS编码)与厂侧编码(旧KKS编码)通过模型完成自动映射,厂侧编码作为输入用于模型训练;
步骤2、由步骤1获得的通用分词规则对KKS编码数据集
Figure 215273DEST_PATH_IMAGE069
中的KKS编码进行分词,提取KKS编码中的专业编码和特殊符号,KKS编码的序号和专业编码组成键值;将键值用于构建专业字典
Figure 865697DEST_PATH_IMAGE070
,将专业字典
Figure 586529DEST_PATH_IMAGE070
保存于如图8所示存储装置的存储单元内;
步骤3、对步骤1获得的KKS编码数据集
Figure 938881DEST_PATH_IMAGE071
进行如图3所示向量化处理得到向量化数据集
Figure 973834DEST_PATH_IMAGE072
步骤4、通过随机采样方法将步骤3得到的向量化数据集
Figure 275502DEST_PATH_IMAGE073
划分为训练集
Figure 370497DEST_PATH_IMAGE074
、验证集
Figure 226457DEST_PATH_IMAGE075
和测试集
Figure 51718DEST_PATH_IMAGE076
,并按照设定比例将向量化数据集
Figure 411156DEST_PATH_IMAGE073
划分为对应的数据集数量,并将按比例划分的数据集数量依次放入训练集
Figure 677052DEST_PATH_IMAGE077
、验证集
Figure 551467DEST_PATH_IMAGE078
和测试集
Figure 193801DEST_PATH_IMAGE076
;将旧KKS编码作为训练数据
Figure 657012DEST_PATH_IMAGE079
,新KKS编码作为数据标签
Figure 93810DEST_PATH_IMAGE080
步骤5、如图4,通过由步骤4获得的训练集
Figure 658783DEST_PATH_IMAGE081
,训练序列生成网络模型,序列生成网络模型由编码网络与解码网络组成,编码网络与解码网络中心对称,编码网络用于提取特征矩阵,解码网络用于对输入数据进行重构;
步骤6、将步骤1中旧KKS编码列表
Figure 573650DEST_PATH_IMAGE082
内未与新KKS编码列表
Figure 969996DEST_PATH_IMAGE083
进行匹配的旧KKS编码输入训练得到的序列生成网络模型,生成KKS编码;并将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算,取相似度最高的编码作为候选映射编码,将序列生成网络模型下装到如图7所示计算模块内的微服务接口,并输出候选映射编码,将候选编码存储于存储装置内的存储单元,供系统调用。
实施例二
在实施例一的基础上,本申请实施例二提供了实施例一中步骤5的具体实现方式:
步骤5.1、将训练集
Figure 826962DEST_PATH_IMAGE051
随机采样并分组拆分,构成批次数据,将批次数据作为序列生成网络模型的输入(训练数据)
Figure 613653DEST_PATH_IMAGE079
步骤5.2、构建基于长短期记忆网络(LSTM)的编码网络,编码网络由嵌入层与LSTM编码层组成:
Figure 128948DEST_PATH_IMAGE084
上式中,
Figure 786325DEST_PATH_IMAGE085
表示嵌入层将序列生成网络模型的输入值
Figure 361663DEST_PATH_IMAGE086
转换为固定尺寸的稠密向量
Figure 150496DEST_PATH_IMAGE033
Figure 407165DEST_PATH_IMAGE087
表示LSTM编码层将稠密向量
Figure 715787DEST_PATH_IMAGE088
通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,获得序列特征
Figure 462026DEST_PATH_IMAGE089
步骤5.3、构建基于长短期记忆网络(LSTM)的解码网络, 解码网络由嵌入层、LSTM解码层和全连接层组成;
Figure 223309DEST_PATH_IMAGE090
上式中,
Figure 789726DEST_PATH_IMAGE091
表示嵌入层将训练集中的数据标签
Figure 952854DEST_PATH_IMAGE092
转换为固定尺寸的标签向量
Figure 807678DEST_PATH_IMAGE093
Figure 118573DEST_PATH_IMAGE094
表示LSTM解码层将标签向量
Figure 982624DEST_PATH_IMAGE095
以及步骤5.2得到的序列特征
Figure 983947DEST_PATH_IMAGE096
作为输入,通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,得到重构特征
Figure 540830DEST_PATH_IMAGE097
Figure 73443DEST_PATH_IMAGE098
表示全连接层Dense将重构特征
Figure 475605DEST_PATH_IMAGE099
进行矩阵计算,得到标签维度下的概率权重矩阵
Figure 347747DEST_PATH_IMAGE100
步骤5.4、将由步骤5.3得到的概率权重矩阵
Figure 872269DEST_PATH_IMAGE100
与训练集中对应的数据标签
Figure 79128DEST_PATH_IMAGE101
进行计算,得到序列生成网络模型的偏差
Figure 284981DEST_PATH_IMAGE102
,并将
Figure 73946DEST_PATH_IMAGE103
作为训练迭代依据,更新序列生成网络模型中的权重参数;
步骤5.5、重复执行步骤5.1至步骤5.4,直至迭代次数达到预设值,或序列生成网络模型的偏差
Figure 707053DEST_PATH_IMAGE104
趋于收敛时,最终得到基于旧KKS编码规则和新KKS编码规则下的序列生成网络模型。
实施例三
在实施例一和实施例二的基础上,本申请实施例二提供了如图1所示基于有监督序列生成网络的集团级KKS编码自动映射方法在某集团数据标准化项目中的应用:
步骤1、通过采集单元,其结构如图6所示,采集编码列表获得
Figure 151940DEST_PATH_IMAGE105
Figure 410752DEST_PATH_IMAGE106
,分析电厂原有KKS编码,该编码规则包含字母、数字及特殊字符,新KKS编码规则包含字母与数字,通用分词规则按照不同类型字符对新旧两种编码进行分词,同时由技术人员进行新旧编码的匹配得到映射表
Figure 54223DEST_PATH_IMAGE107
,构建KKS编码数据集
Figure 123810DEST_PATH_IMAGE108
,数据集包含22000组匹配完成的编码;
步骤2、由步骤1获得的具有通用分词规则对KKS编码数据集进行分词,提取编码中的专业编码和特殊字符,该信息以序号、专业编码组成的键值对用于构建专业字典
Figure 790415DEST_PATH_IMAGE109
,字典保存于存储单元,其结构如图8所示;
步骤3、由步骤1获得的KKS编码数据集转换为向量表示形式,如图3所示,具体步骤如下:
步骤3.1、根据步骤1得到的通用分词规则将KKS编码数据进行分词,获得对应的分词结果,其中最大长度为20,并同时采用<Pad>占位符对分词结果进行对齐;
步骤3.2、将步骤3.1得到的分词结果分别与步骤2获得的专业字典中的专业名词采用哈希表进行匹配,获得专业名词的对应编码向量;
步骤4、由步骤3得到向量化数据集
Figure 400388DEST_PATH_IMAGE110
,通过随机采样方法进行训练集与测试集划分,其中包括训练集
Figure 367207DEST_PATH_IMAGE111
10000组数据、验证集
Figure 328734DEST_PATH_IMAGE112
2000组、测试集
Figure 810531DEST_PATH_IMAGE113
10000组数据,原KKS编码作为训练数据
Figure 161878DEST_PATH_IMAGE114
,新KKS编码作为数据标签
Figure 717624DEST_PATH_IMAGE115
,数据集保存于存储单元;
步骤5、通过由步骤4获得的训练集
Figure 863435DEST_PATH_IMAGE111
进行序列生成网络模型的训练,该模型由编码网络与解码网络两部分组成,如图4所示,其具体步骤图2:
步骤5.1、将训练集随机采样并拆分成组构成批次数据,以此作为序列生成模型的输入,输入数据矩阵尺寸为256*20;
步骤5.2、构建编码网络用于提取特征矩阵,该网络由嵌入层与LSTM层组成:
Figure 566949DEST_PATH_IMAGE116
其中,嵌入层的输入为训练数据
Figure 705675DEST_PATH_IMAGE117
,通过嵌入层运算转换为稠密矩阵
Figure 381507DEST_PATH_IMAGE118
,该矩阵尺寸为256*20*20;LSTM层将稠密矩阵
Figure 760536DEST_PATH_IMAGE119
通过其内部的遗忘门、保留门和输出门进行矩阵计算,获得序列特征
Figure 154608DEST_PATH_IMAGE120
,其尺寸为256*20*32;
步骤5.3、构建解码网络用于重构特征,该网络由嵌入层、LSTM层和全连接层组成:
Figure 582178DEST_PATH_IMAGE090
其中,嵌入层将训练集中的标签值
Figure 174833DEST_PATH_IMAGE115
转换为标签矩阵
Figure 911714DEST_PATH_IMAGE121
,其尺寸为256*17*20;LSTM层将
Figure 527503DEST_PATH_IMAGE122
以及步骤5.2得到的序列特征
Figure 24344DEST_PATH_IMAGE123
作为输入,通过内部的遗忘门、保留门和输出门进行矩阵计算得到重构特征
Figure 471506DEST_PATH_IMAGE124
,全连接层将重构特征进行矩阵计算,获得标签维度下的概率权重矩阵
Figure 395599DEST_PATH_IMAGE125
,该矩阵尺寸为256*17*1365;
步骤5.4、由步骤5.3得到的概率权重矩阵与标签值通过交叉熵函数计算模型偏差,并以此作为训练迭代依据,经过5000次迭代,采用Adam优化器对模型权重参数进行更新,Adam优化器的初始学习率为0.01,第一阶段衰减系数为0.9,第二阶段衰减系数为0.999。
步骤5.5、重复进行步骤5.1至步骤5.4,模型迭代次数达到预设值10000次时损失函数趋势基本趋于收敛,如图5所示,交叉熵损失函数值为0.265,最终得到基于新旧两种KKS编码规则下的序列生成模型,模型存储于计算单元,其具体结构如图7所示,其中训练完成模型采用tensorflow框架实现模型调用,模型的输入与输出均通过Flask框架实现的api接口实现数据交互。
步骤6、将未进行关联的原KKS编码输入到步骤5训练得到的序列生成模型,通过
Figure 747952DEST_PATH_IMAGE126
生成的新KKS编码,并将其与新KKS编码列表进行余弦相似度计算:
Figure 579642DEST_PATH_IMAGE127
其中,
Figure 84572DEST_PATH_IMAGE128
为模型生成的KKS编码,
Figure 913988DEST_PATH_IMAGE129
为相似度,将其与新KKS编码列表进行相似度匹配,取相似度最高的10个作为候选KKS编码,最终结果保存到存储单元, 最终结果如下表1所示。本实施例在新旧两种KKS编码自动映射准确率达到了91.32%,目前已应用于某集团生产数据标准管理系统。
表1 某集团数据标准化项目中序列生成网络模型的输出结果表
Figure 301107DEST_PATH_IMAGE130

Claims (9)

1.一种基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于,包括以下步骤:
步骤1、通过采集设备收集旧KKS编码列表
Figure DEST_PATH_IMAGE001
和新KKS编码列表
Figure DEST_PATH_IMAGE002
,其中
Figure DEST_PATH_IMAGE003
为旧KKS编码,
Figure DEST_PATH_IMAGE004
为新KKS编码,
Figure DEST_PATH_IMAGE005
为旧KKS编码或新KKS编码的总个数;分析编码特征,构建通用分词规则;技术人员将部分旧KKS编码列表
Figure DEST_PATH_IMAGE006
和部分新KKS编码列表
Figure DEST_PATH_IMAGE007
进行匹配,得到映射表
Figure DEST_PATH_IMAGE008
;根据旧KKS编码列表
Figure DEST_PATH_IMAGE009
、新KKS编码列表
Figure 400799DEST_PATH_IMAGE007
和映射表
Figure DEST_PATH_IMAGE010
构建KKS编码数据集
Figure DEST_PATH_IMAGE011
步骤2、由步骤1获得的通用分词规则对KKS编码数据集
Figure DEST_PATH_IMAGE012
中的KKS编码进行分词,提取KKS编码中的专业编码和特殊符号,KKS编码的序号和专业编码组成键值,其中专业编码为英文;将键值用于构建专业字典
Figure DEST_PATH_IMAGE013
,将专业字典
Figure 911415DEST_PATH_IMAGE013
保存于存储装置的存储单元内;
步骤3、对步骤1获得的KKS编码数据集
Figure 956731DEST_PATH_IMAGE012
进行向量化处理得到向量化数据集
Figure DEST_PATH_IMAGE014
步骤4、通过随机采样方法将步骤3得到的向量化数据集
Figure DEST_PATH_IMAGE015
划分为训练集
Figure DEST_PATH_IMAGE016
、验证集
Figure DEST_PATH_IMAGE017
和测试集
Figure DEST_PATH_IMAGE018
,并按照设定比例将向量化数据集
Figure 400875DEST_PATH_IMAGE015
划分为对应的数据集数量,并将按比例划分的数据集数量依次放入训练集
Figure DEST_PATH_IMAGE019
、验证集
Figure DEST_PATH_IMAGE020
和测试集
Figure DEST_PATH_IMAGE021
;将旧KKS编码作为训练数据
Figure DEST_PATH_IMAGE022
,新KKS编码作为数据标签
Figure DEST_PATH_IMAGE023
步骤5、通过由步骤4获得的训练集
Figure DEST_PATH_IMAGE024
,训练序列生成网络模型,序列生成网络模型由编码网络与解码网络组成;
步骤5.1、将训练集
Figure DEST_PATH_IMAGE025
随机采样并分组拆分,构成批次数据,将批次数据作为序列生成网络模型的输入
Figure DEST_PATH_IMAGE026
步骤5.2、构建基于长短期记忆网络的编码网络,编码网络由嵌入层与LSTM编码层组成:
Figure DEST_PATH_IMAGE027
上式中,
Figure DEST_PATH_IMAGE028
表示嵌入层将序列生成网络模型的输入值
Figure DEST_PATH_IMAGE029
转换为固定尺寸的稠密向量
Figure DEST_PATH_IMAGE030
Figure DEST_PATH_IMAGE031
表示LSTM编码层将稠密向量
Figure DEST_PATH_IMAGE032
通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,获得序列特征
Figure DEST_PATH_IMAGE033
步骤5.3、构建基于长短期记忆网络的解码网络, 解码网络由嵌入层、LSTM解码层和全连接层组成;
Figure DEST_PATH_IMAGE034
上式中,
Figure DEST_PATH_IMAGE035
表示嵌入层将训练集中的数据标签
Figure DEST_PATH_IMAGE036
转换为固定尺寸的标签向量
Figure DEST_PATH_IMAGE037
Figure DEST_PATH_IMAGE038
表示LSTM解码层将标签向量
Figure DEST_PATH_IMAGE039
以及步骤5.2得到的序列特征
Figure DEST_PATH_IMAGE040
作为输入,通过长短期记忆网络内部的遗忘门、保留门和输出门进行矩阵计算,得到重构特征
Figure DEST_PATH_IMAGE041
Figure DEST_PATH_IMAGE042
表示全连接层Dense将重构特征
Figure DEST_PATH_IMAGE043
进行矩阵计算,得到标签维度下的概率权重矩阵
Figure DEST_PATH_IMAGE044
步骤5.4、将由步骤5.3得到的概率权重矩阵
Figure 446540DEST_PATH_IMAGE044
与训练集中对应的数据标签
Figure DEST_PATH_IMAGE045
进行计算,得到序列生成网络模型的偏差
Figure DEST_PATH_IMAGE046
,并将
Figure DEST_PATH_IMAGE047
作为训练迭代依据,更新序列生成网络模型中的权重参数;
步骤5.5、重复执行步骤5.1至步骤5.4,直至迭代次数达到预设值,或序列生成网络模型的偏差
Figure 190374DEST_PATH_IMAGE046
趋于收敛时,得到基于旧KKS编码规则和新KKS编码规则下的序列生成网络模型;
步骤6、将步骤1中旧KKS编码列表
Figure DEST_PATH_IMAGE048
内未与新KKS编码列表
Figure 129511DEST_PATH_IMAGE007
进行匹配的旧KKS编码输入训练得到的序列生成网络模型,生成KKS编码;并将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算,取相似度最高的编码作为候选映射编码,将序列生成网络模型下装到计算模块内的微服务接口,并输出候选映射编码,将候选编码存储于存储装置内的存储单元。
2.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤1中的编码特征指编码由英文、数字、特殊符号组成。
3.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤2中采用通用分词规则进行分词时,当相邻两个字符为非同类字符时,通用分词规则对KKS编码数据集
Figure DEST_PATH_IMAGE049
中的KKS编码进行划分,通用分词规则将数字字符逐个划分;将专业字典
Figure DEST_PATH_IMAGE050
保存于存储装置的存储单元内时采用Json数据格式进行保存。
4.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于,步骤3具体包括如下步骤:
步骤3.1、根据步骤1得到的通用分词规则将KKS编码进行分词,获得对应的分词结果并进行对齐处理;
步骤3.2、将步骤3.1得到的分词结果分别与步骤2获得的专业字典
Figure DEST_PATH_IMAGE051
中的专业名词进行匹配,获得专业名词对应的数字编码,并按顺序将数字编码进行组合得到向量化数据集
Figure DEST_PATH_IMAGE052
5.根据权利要求4所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤3.1中对分词结果进行对齐处理时,按照编码最长分词结果进行补全,将长度小于最长编码的分词使用占位符填充;步骤3.2对分词结果进行匹配时采用哈希表进行匹配。
6.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤4中设定比例为4:1:4。
7.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤5.1中将训练集
Figure DEST_PATH_IMAGE053
随机采样时,从训练集中分别抽取256组数据作为一个批次数据,将最后一批不满256组的数据通过补零的方式扩展至相同尺寸;步骤5.4中计算序列生成网络模型的偏差
Figure 721554DEST_PATH_IMAGE046
时,通过交叉熵函数进行计算。
8.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于:步骤5.5中迭代次数预设值为10000步;重复执行步骤5.1至步骤5.4时,引入早停策略并设置早停触发区间为5步对比5次验证集误差结果,假设5次验证集误差均出现劣化,则停止重复执行步骤5.1至步骤5.4的操作,并保存早停触发前训练的序列生成网络模型作为最终模型。
9.根据权利要求1所述基于有监督序列生成网络的集团级KKS编码自动映射方法,其特征在于,步骤6将序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码进行余弦相似度计算的公式为:
Figure DEST_PATH_IMAGE055
上式中,
Figure DEST_PATH_IMAGE056
指编码分词后的分词数量;
Figure DEST_PATH_IMAGE057
为序列生成网络模型生成的KKS编码;通过argmax函数得到序列生成网络模型生成的KKS编码对应的概率最大的分词类别
Figure DEST_PATH_IMAGE058
Figure DEST_PATH_IMAGE059
为标签维度下的概率权重矩阵;
Figure DEST_PATH_IMAGE060
为余弦相似度,取相似度最高的P个编码作为候选映射编码;余弦相似度值越接近1,表示序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码越相似,余弦相似度值越接近0,表示序列生成网络模型生成的KKS编码与新KKS编码列表内的新KKS编码越不相似。
CN202110905902.XA 2021-08-09 2021-08-09 基于有监督序列生成网络的集团级kks编码自动映射方法 Active CN113343642B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110905902.XA CN113343642B (zh) 2021-08-09 2021-08-09 基于有监督序列生成网络的集团级kks编码自动映射方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110905902.XA CN113343642B (zh) 2021-08-09 2021-08-09 基于有监督序列生成网络的集团级kks编码自动映射方法

Publications (2)

Publication Number Publication Date
CN113343642A CN113343642A (zh) 2021-09-03
CN113343642B true CN113343642B (zh) 2021-11-02

Family

ID=77481093

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110905902.XA Active CN113343642B (zh) 2021-08-09 2021-08-09 基于有监督序列生成网络的集团级kks编码自动映射方法

Country Status (1)

Country Link
CN (1) CN113343642B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115689399B (zh) * 2022-10-10 2024-05-10 中国长江电力股份有限公司 基于工业互联网平台的水电设备信息模型快速构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336873A (zh) * 2013-07-10 2013-10-02 江苏省电力设计院 一种变电站三维设计kks智能批量编码方法
CN103955869A (zh) * 2014-04-29 2014-07-30 河北省电力勘测设计研究院 电厂设备元件KKs编码自动生成方法
CN109308494A (zh) * 2018-09-27 2019-02-05 厦门服云信息科技有限公司 Lstm循环神经网络模型及基于该模型的网络攻击识别方法
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190095788A1 (en) * 2017-09-27 2019-03-28 Microsoft Technology Licensing, Llc Supervised explicit semantic analysis
CN108133316B (zh) * 2017-12-19 2021-08-06 国网冀北电力有限公司张家口供电公司 一种供电厂电力设备家族性缺陷的检测方法
US10482600B2 (en) * 2018-01-16 2019-11-19 Siemens Healthcare Gmbh Cross-domain image analysis and cross-domain image synthesis using deep image-to-image networks and adversarial networks
CN109145008B (zh) * 2018-08-16 2020-11-06 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的实时数据平台
CN109255523B (zh) * 2018-08-16 2021-07-20 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的分析指标计算平台
CN111291462B (zh) * 2018-12-06 2023-08-08 西门子能源国际公司 生成电厂的管道和仪表图p&id的装置和方法
CN111783462B (zh) * 2020-06-30 2023-07-04 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112200317B (zh) * 2020-09-28 2024-05-07 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103336873A (zh) * 2013-07-10 2013-10-02 江苏省电力设计院 一种变电站三维设计kks智能批量编码方法
CN103955869A (zh) * 2014-04-29 2014-07-30 河北省电力勘测设计研究院 电厂设备元件KKs编码自动生成方法
CN109308494A (zh) * 2018-09-27 2019-02-05 厦门服云信息科技有限公司 Lstm循环神经网络模型及基于该模型的网络攻击识别方法
CN113111329A (zh) * 2021-06-11 2021-07-13 四川大学 基于多序列长短期记忆网络的口令字典生成方法及系统

Also Published As

Publication number Publication date
CN113343642A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN112131673B (zh) 基于融合神经网络模型的发动机喘振故障预测系统及方法
CN113126019B (zh) 一种智能电表误差远程估计方法、系统、终端和存储介质
CN108197087A (zh) 字符编码识别方法及装置
CN113469189B (zh) 一种用电采集数据缺失值填充方法、系统及装置
CN113343642B (zh) 基于有监督序列生成网络的集团级kks编码自动映射方法
CN116681036A (zh) 基于数字孪生的工业数据存储方法
CN109597757B (zh) 一种基于多维时间序列熵的软件网络间相似度的度量方法
CN112214496A (zh) 基于大数据分析的化妆品生产线安全监测方法及云服务器
CN112181706A (zh) 一种基于对数区间隔离的电力调度数据异常检测方法
CN113343643B (zh) 一种基于有监督的多模型编码映射推荐方法
CN112750051A (zh) 基于随机森林算法的台区相序识别方法、装置及终端设备
CN116821646A (zh) 数据处理链构建方法、数据缩减方法、装置、设备及介质
CN116842337A (zh) 基于LightGBM优选特征与COA-CNN模型的变压器故障诊断方法
CN113128612B (zh) 电力数据中异常值的处理方法及终端设备
CN111327706B (zh) 远程抄表数据处理方法、装置、燃气表系统及燃气云平台
CN111193254B (zh) 一种住宅日用电负荷预测方法和设备
CN112595918A (zh) 一种低压集抄故障的检测方法及装置
CN115545035B (zh) 一种文本实体识别模型及其构建方法、装置及应用
CN117194219A (zh) 模糊测试用例生成与选择方法、装置、设备及介质
CN116340951A (zh) 一种基于自监督学习的智能合约漏洞检测方法
CN115952928A (zh) 一种短期电力负荷预测方法、装置、设备及存储介质
CN111950615B (zh) 一种基于树种优化算法的网络故障特征选择方法
CN114510469A (zh) 电力系统不良数据辨识方法、装置、设备及介质
CN114545066A (zh) 一种非侵入式负荷监测模型聚合方法和系统
CN114168583A (zh) 一种基于正则自动编码器的电量数据清洗方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220816

Address after: Room 307, No. 32, Gaoji Street, Xihu District, Hangzhou City, Zhejiang Province, 310002

Patentee after: Zhejiang Zheneng Digital Technology Co., Ltd.

Patentee after: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.

Address before: 5 / F, building 1, No. 2159-1, yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.