CN113343643B

CN113343643B - 一种基于有监督的多模型编码映射推荐方法

Info

Publication number: CN113343643B
Application number: CN202110906330.7A
Authority: CN
Inventors: 傅骏伟; 孟瑜炜; 郭鼎; 王豆; 汪洋叶; 姜志锋; 张震伟; 杨扬
Original assignee: Zhejiang Energy Group Research Institute Co Ltd
Current assignee: Zhejiang Zheneng Digital Technology Co., Ltd.; Zhejiang Energy Group Research Institute Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-02
Anticipated expiration: 2041-08-09
Also published as: CN113343643A

Abstract

本发明涉及一种基于有监督的多模型编码映射推荐方法，包括步骤：使用采集设备收集原KKS编码列表和新KKS编码列表；将原KKS编码列表、新KKS编码列表进行人工匹配；将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词。本发明的有益效果是：本发明将原KKS编码列表与新KKS编码列表进行匹配，解决了在已运行多年的老厂系统采用的编码规则不一致的问题；构建分词字典并得到数字化编码，实现底层数据的通用化；本发明还构建了基于有监督的多模型匹配网络，采用不同融合策略进行特征融合，得到编码结果；不仅能够消除不同编码的歧义，增强信息互联互通，还可以更准确地标识出所有设备对象，保持数据的一致性、避免数据冗余完整性。

Description

一种基于有监督的多模型编码映射推荐方法

技术领域

本发明属于电厂信息技术领域，尤其涉及一种基于有监督的多模型编码映射推荐方法。

背景技术

随着电厂信息化水平的逐渐提高，电厂数据标准化成为其中最重要的一环。建立统一、规范的智能火电厂数据标准体系，不仅可以消除不同编码的歧义，增强信息互联互通，还可以更准确地标识出所有设备对象，做到数据的一致性、避免数据冗余完整性。标准体系可满足运行人员能够快速、有效地检索、定位的不同需求。而在电厂智慧化建设阶段，数据标准化是建设的基础，完善的标准化可加快信息系统建设的进度，有利于各方使用统一的数据模型。但是针对已建成电厂进行的智能化改造时，标准体系与原先的体系存在一定的差异性，且不同电厂之间的差异不同。

随着发电生产信息化的推进，信息化资产、虚拟化活动日益增多，KKS编码弱标准规则的特征也愈发明显，目前根据智能化生产需要的对原有的标识编码系统进行改进，提出了许多企业内部的编码标准。改进的标准编码在新建设的发电企业容易实施，而在已运行多年的老厂，一是由于已运行的系统采用的编码规则不一致，二是由于人力物力的匮乏，所以很难组织起相应的力量解决全厂的编码问题。

为提升电厂智能化建设的效率，实现快速部署，规模应用的目标，需要对原有的数据体系进行适配——完成标准体系到原有体系的映射。但是由于实施过程缺少自动化的工具和专业人员的支持，新标准体系很难在规模化推广。发明专利CN201310289939.X提出一种变电站三维设计KKS智能批量编码方法，该方法采用母线命名的方式对二维符号进行顺序编码实现编码的批量编制，但无法推广到已建设的其他变电站。发明专利CN200810222171.3物品编码解析装置、系统和方法采用解析装置实现编码解析与理解实现稳定可靠的编码识别功能，但是同样无法处理不同标准体系之间的映射问题。因此，需要研发一种多标准体系下的映射方法以实现电厂智能化应用快速部署的目标和规模应用的任务。

发明内容

本发明的目的是克服现有技术中的不足，提供一种基于有监督的多模型编码映射推荐方法。

这种基于有监督的多模型编码映射推荐方法，包括以下步骤：

步骤1、使用采集设备收集原KKS编码列表

，其中

为原编码；使用采集设备收集新KKS编码列表

，其中

为新编码；

步骤2、将步骤1获得的原KKS编码列表

、新KKS编码列表

进行人工匹配，将匹配结果进行划分，得到

，

组成监督匹配模型训练数据集D；

步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词，得到分词结果；通过分词结果和唯一编码构建分词字典，唯一编码指分词字典中分配的id编号，再通过分词字典进行编码，得到数字化编码

；

步骤4、将数字化编码

输入到基于有监督的多模型匹配网络的嵌入层，得到向量化特征；然后将向量化特征输入多模型编码映射模型，多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层，得到映射向量；

步骤5、由步骤4得到的映射向量，计算得到各映射向量之间的相关性系数，并根据各映射向量之间的相关性系数设置阈值θ：

上式中，

、

、

分别为解码特征

、

、

通过基于有监督的多模型匹配网络的全连接层，分别得到的映射向量；

为计算协方差的公式，

为求解方差的函数；

步骤6、由步骤5设置的阈值θ选择融合策略，得到融合特征；

步骤7，根据步骤6得到的融合特征计算最终的编码结果，并将编码结果输出至存储设备。

作为优选，步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时：通过运行在采集设备上的预制数据抽取脚本进行数据抽取，并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库（MySQL数据库）中。

作为优选，步骤2在采集设备提供的操作页面上进行原KKS编码列表

、新KKS编码列表

的人工匹配。

作为优选，步骤3中通过分词字典进行编码时：将分词结果按照分词字典进行数字化转换，并根据数字化字符串长度进行缺失填补。

作为优选，根据数字化字符串长度进行缺失填补时：采用0对缺失值进行填补，将数字化字符串长度扩充至18（原先字符串长度无法以固定长度来衡量，但可以确定是小于18的）。

作为优选，步骤4具体包括如下步骤：

步骤4.1、将数字化编码

输入到基于有监督的多模型匹配网络的嵌入层，得到向量化特征

，将向量化特征

输入到多层神经网络：

其中，多层神经网络由编码多层神经网络

与解码多层神经网络

组成；向量化特征

输入编码多层神经网络

得到隐层变量

；将隐层变量

再输入解码多层神经网络

，得到解码特征

；

步骤4.2、将步骤4.1中的向量化特征

输入到长短期记忆网络:

长短期记忆网络由编码长短期记忆网络

与解码长短期记忆网络

组成；向量化特征

输入编码长短期记忆网络

得到隐层变量

，将隐层变量

再输入解码长短期记忆网络，得到解码特征

；

步骤4.3、将步骤4.1中的向量化特征

输入到注意力网络:

注意力网络由编码注意力网络

与解码注意力网络

组成；将向量化特征

输入到编码注意力网络

得到隐层变量

，将隐层变量

再输入解码注意力网络

得到解码特征

；

步骤4.4、将步骤4.1至步骤4.3得到的解码特征

、

、

通过基于有监督的多模型匹配网络的全连接层，分别得到各位置在字典中出现的映射向量

、

、

:

上式中，

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量。

作为优选，步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式，其中64为批次数据量，18为编码数字化特征。

作为优选：

步骤4.1中多层神经网络第一层和第二层为编码多层神经网络

，多层神经网络第三层和第四层为解码多层神经网络

，多层神经网络中上一层的输出作为后一层的输入；多层神经网络第一层的输出为64*18，多层神经网络第二层的输出为64*10，多层神经网络第三层的输出为64*10，多层神经网络第四层的输出为64*18；

步骤4.2中长短期记忆网络第一层和第二层为编码长短期记忆网络

，长短期记忆网络第三层和第四层为解码长短期记忆网络

；长短期记忆网络中上一层的输出作为后一层的输入；长短期记忆网络第一层的输出为64*18，长短期记忆网络第二层的输出为64*10，长短期记忆网络第三层的输出为64*10，长短期记忆网络第四层的输出为64*18；

步骤4.3中注意力网络第一层和第二层为编码注意力网络

，注意力网络第三层和第四层为解码注意力网络

；注意力网络中上一层的输出作为后一层的输入；注意力网络第一层的输出为64*18，注意力网络第二层的输出为64*10，注意力网络第三层的输出为64*10，注意力网络第四层的输出为64*18。

作为优选，步骤6具体包括如下步骤：

步骤6.1、若所有映射向量之间的相关性系数均大于阈值θ，则对所有映射向量采用最大值融合策略：

步骤6.2、若所有映射向量之间的相关性系数均小于阈值θ，则对所有映射向量采用均值融合策略：

。

作为优选，步骤7根据融合特征计算最终的编码结果后，以Json形式构建编码结果的消息内容，并通过数据接口向外发布编码结果。

本发明的有益效果是：本发明将原KKS编码列表与新KKS编码列表进行匹配，解决了在已运行多年的老厂系统采用的编码规则不一致的问题；构建分词字典并得到数字化编码，实现底层数据的通用化；本发明还构建了基于有监督的多模型匹配网络，采用不同融合策略进行特征融合，得到编码结果；不仅能够消除不同编码的歧义，增强信息互联互通，还可以更准确地标识出所有设备对象，保持数据的一致性、避免数据冗余完整性。

附图说明

图1为本发明基于有监督的多模型编码映射推荐方法流程图；

图2为采集设备结构示意图；

图3为计算设备结构示意图；

图4为基于有监督的多模型编码映射流程图；

图5为本发明基于有监督的多模型匹配网络处理流程图。

具体实施方式

下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出，对于本技术领域的普通人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

实施例一

本申请实施例一提供了一种如图1和图4所示基于有监督的多模型编码映射推荐方法：

步骤1、使用如图2所示采集设备收集原KKS编码列表

，其中

为原编码；使用采集设备收集新KKS编码列表

，其中

为新编码；

步骤2、将步骤1获得的原KKS编码列表

、新KKS编码列表

进行人工匹配，得到

，

组成监督匹配模型训练数据集D；

步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词，得到分词结果；通过分词结果和唯一编码构建分词字典，再通过分词字典进行编码，得到数字化编码

；

步骤4、将数字化编码

输入到如图5所示基于有监督的多模型匹配网络的嵌入层，得到向量化特征；然后将向量化特征输入多模型编码映射模型，多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层，得到映射向量；

步骤4.1、将数字化编码

，将向量化特征

输入到多层神经网络：

其中，多层神经网络由编码多层神经网络

与解码多层神经网络

组成；向量化特征

输入编码多层神经网络

得到隐层变量

；将隐层变量

再输入解码多层神经网络

，得到解码特征

；

步骤4.2、将步骤4.1中的向量化特征

输入到长短期记忆网络:

长短期记忆网络由编码长短期记忆网络

与解码长短期记忆网络

组成；向量化特征

输入编码长短期记忆网络

得到隐层变量

，将隐层变量

再输入解码长短期记忆网络，得到解码特征

；

步骤4.3、将步骤4.1中的向量化特征

输入到注意力网络:

注意力网络由编码注意力网络

与解码注意力网络

组成；将向量化特征

输入到编码注意力网络

得到隐层变量

，将隐层变量

再输入解码注意力网络

得到解码特征

；

步骤4.4、将步骤4.1至步骤4.3得到的解码特征

、

、

、

、

:

上式中，

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量；

步骤5、由步骤4得到的映射向量，根据图3所示计算设备计算得到各映射向量之间的相关性系数，并根据各映射向量之间的相关性系数设置阈值θ：

上式中，

、

、

分别为解码特征

、

、

为计算协方差的公式，

为求解方差的函数；

步骤6、由步骤5设置的阈值θ选择融合策略，得到融合特征；

实施例二

在实施例一的基础上，本申请实施例二提供了实施例一中基于有监督的多模型编码映射推荐方法在某沿海电厂和内陆电厂数据标准化项目的应用：

步骤1、运行在采集设备上的预制数据抽取脚本进行数据抽取原KKS编码列表

其中，k ¹为老编码，新KKS编码列表

其中，k ²为新编码，并存储于对应的关系型数据库中，作为优选所述的关系型数据库为MySQL数据库；

步骤2、由步骤1获得的KKS编码列表在采集设备提供的操作页面上进行人工匹配

，得到监督匹配模型训练数据集D。

步骤3、将训练数据集D中的数据采用Jieba进行分词得到分词结果，再通过字典匹配进行编码得到数字化编码

，字符串扩充长度至18，缺失值由0补充；

步骤4、将数字化编码

输入到嵌入层得到向量化特征，然后将特征输入多模型编码映射模型，输入形式为64*18矩阵

；

步骤4.1、由步骤4得到的向量化特征输入到多层神经网络，该网络由编码多层神经网络与解码多层神经网络组成，编码多层神经网络输出隐层变量，隐层变量再输入解码多层神经网络得到解码特征，输出形式为64*18矩阵

；

步骤4.2、由步骤4得到的向量化特征输入到长短记忆网络，该网络由编码长短记忆网络与解码长短记忆网络组成，编码长短记忆网络输出隐层变量，隐层变量再输入解码长短记忆网络得到解码特征，，输出形式为64*18矩阵

；

步骤4.3、由步骤4得到的向量化特征输入到注意力网络，该网络由编码注意力网络与解码注意力网络组成，编码注意力网络输出隐层变量，隐层变量再输入解码注意力网络得到解码特征，输出形式为64*18矩阵

，其中2483指的是字典中的分词数量；

步骤4.4、由步骤4.1、4.2、4.3得到的解码特征通过全连接层得到映射向量该映射向量形式为64*18*2483，分别得到

。

步骤5、由步骤4.4得到的映射向量计算协方差矩阵

，按照相关性系数

作为阈值θ选择融合策略，其中阈值为87.5，当相关性系数

大于阈值θ选择最大值融合策略：

当相关性系数

小于阈值θ选择均值融合策略：

步骤6、由步骤5得到的融合策略，将模型得到的映射向量进行融合得到融合特征；

步骤7、根据步骤6得到的融合特征计算最终结果并以Json形式构建消息内容通过数据接口向外发布模型结果，其中某沿海电厂输出结果的准确率在83.12%，某内陆电厂输出结果的准确率在81.63%。

Claims

1.一种基于有监督的多模型编码映射推荐方法，其特征在于，包括以下步骤：

步骤1、使用采集设备收集原KKS编码列表

，其中

为原编码；使用采集设备收集新KKS编码列表

，其中

为新编码；

步骤2、将步骤1获得的原KKS编码列表

、新KKS编码列表

进行人工匹配，得到

，

组成监督匹配模型训练数据集D；

；

步骤4、将数字化编码

上式中，

、

、

分别为解码特征

、

、

为计算协方差的公式，

为求解方差的函数；

步骤6、由步骤5设置的阈值θ选择融合策略，得到融合特征；

2.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于，步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时：通过运行在采集设备上的预制数据抽取脚本进行数据抽取，并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库中。

3.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于：步骤2在采集设备提供的操作页面上进行原KKS编码列表

、新KKS编码列表

的人工匹配。

4.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于，步骤3中通过分词字典进行编码时：将分词结果按照分词字典进行数字化转换，并根据数字化字符串长度进行缺失填补。

5.根据权利要求4所述基于有监督的多模型编码映射推荐方法，其特征在于，根据数字化字符串长度进行缺失填补时：采用0对缺失值进行填补，将数字化字符串长度扩充至18。

6.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于，步骤4具体包括如下步骤：

步骤4.1、将数字化编码

，将向量化特征

输入到多层神经网络：

其中，多层神经网络由编码多层神经网络

与解码多层神经网络

组成；向量化特征

输入编码多层神经网络

得到隐层变量

；将隐层变量

再输入解码多层神经网络

，得到解码特征

；

步骤4.2、将步骤4.1中的向量化特征

输入到长短期记忆网络:

长短期记忆网络由编码长短期记忆网络

与解码长短期记忆网络

组成；向量化特征

输入编码长短期记忆网络

得到隐层变量

，将隐层变量

再输入解码长短期记忆网络，得到解码特征

；

步骤4.3、将步骤4.1中的向量化特征

输入到注意力网络:

注意力网络由编码注意力网络

与解码注意力网络

组成；将向量化特征

输入到编码注意力网络

得到隐层变量

，将隐层变量

再输入解码注意力网络

得到解码特征

；

步骤4.4、将步骤4.1至步骤4.3得到的解码特征

、

、

通过基于有监督的多模型匹配网络的全连接层，分别得到映射向量

、

、

:

上式中，

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量；

为解码特征

的权重值，

为解码特征

的偏置量。

7.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于：步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式，其中64为批次数据量，18为编码数字化特征。

8.根据权利要求6所述基于有监督的多模型编码映射推荐方法，其特征在于：

步骤4.1中多层神经网络第一层和第二层为编码多层神经网络

，多层神经网络第三层和第四层为解码多层神经网络

，长短期记忆网络第三层和第四层为解码长短期记忆网络

步骤4.3中注意力网络第一层和第二层为编码注意力网络

，注意力网络第三层和第四层为解码注意力网络

9.根据权利要求1或6所述基于有监督的多模型编码映射推荐方法，其特征在于，步骤6具体包括如下步骤：

。

10.根据权利要求1所述基于有监督的多模型编码映射推荐方法，其特征在于：步骤7根据融合特征计算最终的编码结果后，以Json形式构建编码结果的消息内容，并通过数据接口向外发布编码结果。