CN113343643B - 一种基于有监督的多模型编码映射推荐方法 - Google Patents

一种基于有监督的多模型编码映射推荐方法 Download PDF

Info

Publication number
CN113343643B
CN113343643B CN202110906330.7A CN202110906330A CN113343643B CN 113343643 B CN113343643 B CN 113343643B CN 202110906330 A CN202110906330 A CN 202110906330A CN 113343643 B CN113343643 B CN 113343643B
Authority
CN
China
Prior art keywords
layer
coding
network
model
decoding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110906330.7A
Other languages
English (en)
Other versions
CN113343643A (zh
Inventor
傅骏伟
孟瑜炜
郭鼎
王豆
汪洋叶
姜志锋
张震伟
杨扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Zheneng Digital Technology Co., Ltd.
Zhejiang Energy Group Research Institute Co Ltd
Original Assignee
Zhejiang Energy Group Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Energy Group Research Institute Co Ltd filed Critical Zhejiang Energy Group Research Institute Co Ltd
Priority to CN202110906330.7A priority Critical patent/CN113343643B/zh
Publication of CN113343643A publication Critical patent/CN113343643A/zh
Application granted granted Critical
Publication of CN113343643B publication Critical patent/CN113343643B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明涉及一种基于有监督的多模型编码映射推荐方法,包括步骤:使用采集设备收集原KKS编码列表和新KKS编码列表;将原KKS编码列表、新KKS编码列表进行人工匹配;将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词。本发明的有益效果是:本发明将原KKS编码列表与新KKS编码列表进行匹配,解决了在已运行多年的老厂系统采用的编码规则不一致的问题;构建分词字典并得到数字化编码,实现底层数据的通用化;本发明还构建了基于有监督的多模型匹配网络,采用不同融合策略进行特征融合,得到编码结果;不仅能够消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,保持数据的一致性、避免数据冗余完整性。

Description

一种基于有监督的多模型编码映射推荐方法
技术领域
本发明属于电厂信息技术领域,尤其涉及一种基于有监督的多模型编码映射推荐方法。
背景技术
随着电厂信息化水平的逐渐提高,电厂数据标准化成为其中最重要的一环。建立统一、规范的智能火电厂数据标准体系,不仅可以消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,做到数据的一致性、避免数据冗余完整性。标准体系可满足运行人员能够快速、有效地检索、定位的不同需求。而在电厂智慧化建设阶段,数据标准化是建设的基础,完善的标准化可加快信息系统建设的进度,有利于各方使用统一的数据模型。但是针对已建成电厂进行的智能化改造时,标准体系与原先的体系存在一定的差异性,且不同电厂之间的差异不同。
随着发电生产信息化的推进,信息化资产、虚拟化活动日益增多,KKS编码弱标准规则的特征也愈发明显,目前根据智能化生产需要的对原有的标识编码系统进行改进,提出了许多企业内部的编码标准。改进的标准编码在新建设的发电企业容易实施,而在已运行多年的老厂,一是由于已运行的系统采用的编码规则不一致,二是由于人力物力的匮乏,所以很难组织起相应的力量解决全厂的编码问题。
为提升电厂智能化建设的效率,实现快速部署,规模应用的目标,需要对原有的数据体系进行适配——完成标准体系到原有体系的映射。但是由于实施过程缺少自动化的工具和专业人员的支持,新标准体系很难在规模化推广。发明专利CN201310289939.X提出一种变电站三维设计KKS智能批量编码方法,该方法采用母线命名的方式对二维符号进行顺序编码实现编码的批量编制,但无法推广到已建设的其他变电站。发明专利CN200810222171.3物品编码解析装置、系统和方法采用解析装置实现编码解析与理解实现稳定可靠的编码识别功能,但是同样无法处理不同标准体系之间的映射问题。因此,需要研发一种多标准体系下的映射方法以实现电厂智能化应用快速部署的目标和规模应用的任务。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于有监督的多模型编码映射推荐方法。
这种基于有监督的多模型编码映射推荐方法,包括以下步骤:
步骤1、使用采集设备收集原KKS编码列表
Figure 468888DEST_PATH_IMAGE001
,其中
Figure 547571DEST_PATH_IMAGE002
为原编码;使用采集设备收集新KKS编码列表
Figure 669111DEST_PATH_IMAGE003
,其中
Figure 507754DEST_PATH_IMAGE004
为新编码;
步骤2、将步骤1获得的原KKS编码列表
Figure 132770DEST_PATH_IMAGE005
、新KKS编码列表
Figure 398667DEST_PATH_IMAGE006
进行人工匹配,将匹配结果进行划分,得到
Figure 460033DEST_PATH_IMAGE007
Figure 367946DEST_PATH_IMAGE007
组成监督匹配模型训练数据集D
步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词,得到分词结果;通过分词结果和唯一编码构建分词字典,唯一编码指分词字典中分配的id编号,再通过分词字典进行编码,得到数字化编码
Figure 847469DEST_PATH_IMAGE008
步骤4、将数字化编码
Figure 549845DEST_PATH_IMAGE009
输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤5、由步骤4得到的映射向量,计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ
Figure 114819DEST_PATH_IMAGE010
上式中,
Figure 544532DEST_PATH_IMAGE011
Figure 878561DEST_PATH_IMAGE012
Figure 486260DEST_PATH_IMAGE013
分别为解码特征
Figure 538530DEST_PATH_IMAGE014
Figure 771934DEST_PATH_IMAGE015
Figure 226049DEST_PATH_IMAGE016
通过基于有监督的多模型匹配网络的全连接层,分别得到的映射向量;
Figure 270229DEST_PATH_IMAGE017
为计算协方差的公式,
Figure 809794DEST_PATH_IMAGE018
为求解方差的函数;
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
作为优选,步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时:通过运行在采集设备上的预制数据抽取脚本进行数据抽取,并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库(MySQL数据库)中。
作为优选,步骤2在采集设备提供的操作页面上进行原KKS编码列表
Figure 332042DEST_PATH_IMAGE019
、新KKS编码列表
Figure 155511DEST_PATH_IMAGE020
的人工匹配。
作为优选,步骤3中通过分词字典进行编码时:将分词结果按照分词字典进行数字化转换,并根据数字化字符串长度进行缺失填补。
作为优选,根据数字化字符串长度进行缺失填补时:采用0对缺失值进行填补,将数字化字符串长度扩充至18(原先字符串长度无法以固定长度来衡量,但可以确定是小于18的)。
作为优选,步骤4具体包括如下步骤:
步骤4.1、将数字化编码
Figure 105012DEST_PATH_IMAGE021
输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征
Figure 866295DEST_PATH_IMAGE022
,将向量化特征
Figure 457813DEST_PATH_IMAGE023
输入到多层神经网络:
Figure 620941DEST_PATH_IMAGE024
其中,多层神经网络由编码多层神经网络
Figure 990612DEST_PATH_IMAGE025
与解码多层神经网络
Figure 770349DEST_PATH_IMAGE026
组成;向量化特征
Figure 634400DEST_PATH_IMAGE027
输入编码多层神经网络
Figure 917613DEST_PATH_IMAGE028
得到隐层变量
Figure 458185DEST_PATH_IMAGE029
;将隐层变量
Figure 194060DEST_PATH_IMAGE030
再输入解码多层神经网络
Figure 861802DEST_PATH_IMAGE031
,得到解码特征
Figure 999522DEST_PATH_IMAGE032
步骤4.2、将步骤4.1中的向量化特征
Figure 727306DEST_PATH_IMAGE033
输入到长短期记忆网络:
Figure 465324DEST_PATH_IMAGE034
长短期记忆网络由编码长短期记忆网络
Figure 671178DEST_PATH_IMAGE035
与解码长短期记忆网络
Figure 928984DEST_PATH_IMAGE036
组成;向量化特征
Figure 827670DEST_PATH_IMAGE023
输入编码长短期记忆网络
Figure 272557DEST_PATH_IMAGE037
得到隐层变量
Figure 796948DEST_PATH_IMAGE038
,将隐层变量
Figure 909261DEST_PATH_IMAGE039
再输入解码长短期记忆网络,得到解码特征
Figure 713269DEST_PATH_IMAGE015
步骤4.3、将步骤4.1中的向量化特征
Figure 176611DEST_PATH_IMAGE033
输入到注意力网络:
Figure 989846DEST_PATH_IMAGE040
注意力网络由编码注意力网络
Figure 205933DEST_PATH_IMAGE041
与解码注意力网络
Figure 180842DEST_PATH_IMAGE042
组成;将向量化特征
Figure 131481DEST_PATH_IMAGE043
输入到编码注意力网络
Figure 482828DEST_PATH_IMAGE044
得到隐层变量
Figure 569732DEST_PATH_IMAGE045
,将隐层变量
Figure 230390DEST_PATH_IMAGE046
再输入解码注意力网络
Figure 137166DEST_PATH_IMAGE047
得到解码特征
Figure 26624DEST_PATH_IMAGE048
步骤4.4、将步骤4.1至步骤4.3得到的解码特征
Figure 233615DEST_PATH_IMAGE014
Figure 550327DEST_PATH_IMAGE049
Figure 459246DEST_PATH_IMAGE050
通过基于有监督的多模型匹配网络的全连接层,分别得到各位置在字典中出现的映射向量
Figure 152395DEST_PATH_IMAGE051
Figure 213892DEST_PATH_IMAGE052
Figure 967085DEST_PATH_IMAGE053
:
Figure 848453DEST_PATH_IMAGE054
上式中,
Figure 594561DEST_PATH_IMAGE055
为解码特征
Figure 244985DEST_PATH_IMAGE056
的权重值,
Figure 434658DEST_PATH_IMAGE057
为解码特征
Figure 803322DEST_PATH_IMAGE058
的偏置量;
Figure 838274DEST_PATH_IMAGE059
为解码特征
Figure 592473DEST_PATH_IMAGE060
的权重值,
Figure 687468DEST_PATH_IMAGE061
为解码特征
Figure 809007DEST_PATH_IMAGE060
的偏置量;
Figure 382071DEST_PATH_IMAGE062
为解码特征
Figure 272667DEST_PATH_IMAGE063
的权重值,
Figure 787831DEST_PATH_IMAGE064
为解码特征
Figure 131087DEST_PATH_IMAGE065
的偏置量。
作为优选,步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式,其中64为批次数据量,18为编码数字化特征。
作为优选:
步骤4.1中多层神经网络第一层和第二层为编码多层神经网络
Figure 507842DEST_PATH_IMAGE066
,多层神经网络第三层和第四层为解码多层神经网络
Figure 252944DEST_PATH_IMAGE067
,多层神经网络中上一层的输出作为后一层的输入;多层神经网络第一层的输出为64*18,多层神经网络第二层的输出为64*10,多层神经网络第三层的输出为64*10,多层神经网络第四层的输出为64*18;
步骤4.2中长短期记忆网络第一层和第二层为编码长短期记忆网络
Figure 939009DEST_PATH_IMAGE068
,长短期记忆网络第三层和第四层为解码长短期记忆网络
Figure 503983DEST_PATH_IMAGE069
;长短期记忆网络中上一层的输出作为后一层的输入;长短期记忆网络第一层的输出为64*18,长短期记忆网络第二层的输出为64*10,长短期记忆网络第三层的输出为64*10,长短期记忆网络第四层的输出为64*18;
步骤4.3中注意力网络第一层和第二层为编码注意力网络
Figure 418849DEST_PATH_IMAGE070
,注意力网络第三层和第四层为解码注意力网络
Figure 18458DEST_PATH_IMAGE071
;注意力网络中上一层的输出作为后一层的输入;注意力网络第一层的输出为64*18,注意力网络第二层的输出为64*10,注意力网络第三层的输出为64*10,注意力网络第四层的输出为64*18。
作为优选,步骤6具体包括如下步骤:
步骤6.1、若所有映射向量之间的相关性系数均大于阈值θ,则对所有映射向量采用最大值融合策略:
Figure DEST_PATH_IMAGE072
步骤6.2、若所有映射向量之间的相关性系数均小于阈值θ,则对所有映射向量采用均值融合策略:
Figure 609845DEST_PATH_IMAGE073
作为优选,步骤7根据融合特征计算最终的编码结果后,以Json形式构建编码结果的消息内容,并通过数据接口向外发布编码结果。
本发明的有益效果是:本发明将原KKS编码列表与新KKS编码列表进行匹配,解决了在已运行多年的老厂系统采用的编码规则不一致的问题;构建分词字典并得到数字化编码,实现底层数据的通用化;本发明还构建了基于有监督的多模型匹配网络,采用不同融合策略进行特征融合,得到编码结果;不仅能够消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,保持数据的一致性、避免数据冗余完整性。
附图说明
图1为本发明基于有监督的多模型编码映射推荐方法流程图;
图2为采集设备结构示意图;
图3为计算设备结构示意图;
图4为基于有监督的多模型编码映射流程图;
图5为本发明基于有监督的多模型匹配网络处理流程图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
实施例一
本申请实施例一提供了一种如图1和图4所示基于有监督的多模型编码映射推荐方法:
步骤1、使用如图2所示采集设备收集原KKS编码列表
Figure DEST_PATH_IMAGE074
,其中
Figure 130956DEST_PATH_IMAGE075
为原编码;使用采集设备收集新KKS编码列表
Figure 849514DEST_PATH_IMAGE076
,其中
Figure 552896DEST_PATH_IMAGE077
为新编码;
步骤2、将步骤1获得的原KKS编码列表
Figure 331496DEST_PATH_IMAGE078
、新KKS编码列表
Figure 136641DEST_PATH_IMAGE079
进行人工匹配,得到
Figure 658890DEST_PATH_IMAGE080
Figure 233090DEST_PATH_IMAGE080
组成监督匹配模型训练数据集D
步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词,得到分词结果;通过分词结果和唯一编码构建分词字典,再通过分词字典进行编码,得到数字化编码
Figure 431859DEST_PATH_IMAGE081
步骤4、将数字化编码
Figure 458721DEST_PATH_IMAGE081
输入到如图5所示基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤4.1、将数字化编码
Figure 784660DEST_PATH_IMAGE081
输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征
Figure 947788DEST_PATH_IMAGE082
,将向量化特征
Figure 333770DEST_PATH_IMAGE083
输入到多层神经网络:
Figure 97196DEST_PATH_IMAGE084
其中,多层神经网络由编码多层神经网络
Figure 226826DEST_PATH_IMAGE085
与解码多层神经网络
Figure 244461DEST_PATH_IMAGE086
组成;向量化特征
Figure 801344DEST_PATH_IMAGE087
输入编码多层神经网络
Figure 802798DEST_PATH_IMAGE088
得到隐层变量
Figure 454228DEST_PATH_IMAGE089
;将隐层变量
Figure 857527DEST_PATH_IMAGE090
再输入解码多层神经网络
Figure 585312DEST_PATH_IMAGE091
,得到解码特征
Figure 808483DEST_PATH_IMAGE092
步骤4.2、将步骤4.1中的向量化特征
Figure 279916DEST_PATH_IMAGE093
输入到长短期记忆网络:
Figure 521410DEST_PATH_IMAGE094
长短期记忆网络由编码长短期记忆网络
Figure 420096DEST_PATH_IMAGE068
与解码长短期记忆网络
Figure 130563DEST_PATH_IMAGE095
组成;向量化特征
Figure 405686DEST_PATH_IMAGE083
输入编码长短期记忆网络
Figure 252420DEST_PATH_IMAGE096
得到隐层变量
Figure 836854DEST_PATH_IMAGE097
,将隐层变量
Figure 503458DEST_PATH_IMAGE098
再输入解码长短期记忆网络,得到解码特征
Figure 582273DEST_PATH_IMAGE049
步骤4.3、将步骤4.1中的向量化特征
Figure 549092DEST_PATH_IMAGE093
输入到注意力网络:
Figure 789580DEST_PATH_IMAGE099
注意力网络由编码注意力网络
Figure 723907DEST_PATH_IMAGE100
与解码注意力网络
Figure 340833DEST_PATH_IMAGE101
组成;将向量化特征
Figure 896579DEST_PATH_IMAGE102
输入到编码注意力网络
Figure 42390DEST_PATH_IMAGE103
得到隐层变量
Figure 464013DEST_PATH_IMAGE104
,将隐层变量
Figure 619051DEST_PATH_IMAGE104
再输入解码注意力网络
Figure 560462DEST_PATH_IMAGE105
得到解码特征
Figure 142753DEST_PATH_IMAGE106
步骤4.4、将步骤4.1至步骤4.3得到的解码特征
Figure 802404DEST_PATH_IMAGE058
Figure 744822DEST_PATH_IMAGE107
Figure 540739DEST_PATH_IMAGE108
通过基于有监督的多模型匹配网络的全连接层,分别得到各位置在字典中出现的映射向量
Figure 559511DEST_PATH_IMAGE109
Figure 175300DEST_PATH_IMAGE110
Figure 937720DEST_PATH_IMAGE111
:
Figure 837411DEST_PATH_IMAGE112
上式中,
Figure 761505DEST_PATH_IMAGE113
为解码特征
Figure 395749DEST_PATH_IMAGE114
的权重值,
Figure 430701DEST_PATH_IMAGE115
为解码特征
Figure 201211DEST_PATH_IMAGE114
的偏置量;
Figure 545473DEST_PATH_IMAGE116
为解码特征
Figure 401434DEST_PATH_IMAGE117
的权重值,
Figure 240077DEST_PATH_IMAGE118
为解码特征
Figure 865093DEST_PATH_IMAGE119
的偏置量;
Figure 130989DEST_PATH_IMAGE120
为解码特征
Figure 457934DEST_PATH_IMAGE121
的权重值,
Figure 834689DEST_PATH_IMAGE122
为解码特征
Figure 314212DEST_PATH_IMAGE123
的偏置量;
步骤5、由步骤4得到的映射向量,根据图3所示计算设备计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ
Figure 751010DEST_PATH_IMAGE124
上式中,
Figure 588688DEST_PATH_IMAGE125
Figure 769134DEST_PATH_IMAGE126
Figure 634322DEST_PATH_IMAGE127
分别为解码特征
Figure 242020DEST_PATH_IMAGE128
Figure 277978DEST_PATH_IMAGE117
Figure 527694DEST_PATH_IMAGE123
通过基于有监督的多模型匹配网络的全连接层,分别得到的映射向量;
Figure 981809DEST_PATH_IMAGE129
为计算协方差的公式,
Figure 760409DEST_PATH_IMAGE130
为求解方差的函数;
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
实施例二
在实施例一的基础上,本申请实施例二提供了实施例一中基于有监督的多模型编码映射推荐方法在某沿海电厂和内陆电厂数据标准化项目的应用:
步骤1、运行在采集设备上的预制数据抽取脚本进行数据抽取原KKS编码列表
Figure 34396DEST_PATH_IMAGE131
其中,k 1 为老编码,新KKS编码列表
Figure 805912DEST_PATH_IMAGE132
其中,k 2 为新编码,并存储于对应的关系型数据库中,作为优选所述的关系型数据库为MySQL数据库;
步骤2、由步骤1获得的KKS编码列表在采集设备提供的操作页面上进行人工匹配
Figure 114533DEST_PATH_IMAGE133
,得到监督匹配模型训练数据集D
步骤3、将训练数据集D中的数据采用Jieba进行分词得到分词结果,再通过字典匹配进行编码得到数字化编码
Figure 64035DEST_PATH_IMAGE134
,字符串扩充长度至18,缺失值由0补充;
步骤4、将数字化编码
Figure 90897DEST_PATH_IMAGE135
输入到嵌入层得到向量化特征,然后将特征输入多模型编码映射模型,输入形式为64*18矩阵
Figure 400524DEST_PATH_IMAGE136
步骤4.1、由步骤4得到的向量化特征输入到多层神经网络,该网络由编码多层神经网络与解码多层神经网络组成,编码多层神经网络输出隐层变量,隐层变量再输入解码多层神经网络得到解码特征,输出形式为64*18矩阵
Figure 94811DEST_PATH_IMAGE137
步骤4.2、由步骤4得到的向量化特征输入到长短记忆网络,该网络由编码长短记忆网络与解码长短记忆网络组成,编码长短记忆网络输出隐层变量,隐层变量再输入解码长短记忆网络得到解码特征,,输出形式为64*18矩阵
Figure 215213DEST_PATH_IMAGE138
步骤4.3、由步骤4得到的向量化特征输入到注意力网络,该网络由编码注意力网络与解码注意力网络组成,编码注意力网络输出隐层变量,隐层变量再输入解码注意力网络得到解码特征,输出形式为64*18矩阵
Figure 729371DEST_PATH_IMAGE139
,其中2483指的是字典中的分词数量;
步骤4.4、由步骤4.1、4.2、4.3得到的解码特征通过全连接层得到映射向量该映射向量形式为64*18*2483,分别得到
Figure 593422DEST_PATH_IMAGE140
步骤5、由步骤4.4得到的映射向量计算协方差矩阵
Figure 860324DEST_PATH_IMAGE141
,按照相关性系数
Figure 417208DEST_PATH_IMAGE142
作为阈值θ选择融合策略,其中阈值为87.5,当相关性系数
Figure 153082DEST_PATH_IMAGE142
大于阈值θ选择最大值融合策略:
Figure 86403DEST_PATH_IMAGE143
当相关性系数
Figure 473391DEST_PATH_IMAGE142
小于阈值θ选择均值融合策略:
Figure 201176DEST_PATH_IMAGE144
步骤6、由步骤5得到的融合策略,将模型得到的映射向量进行融合得到融合特征;
步骤7、根据步骤6得到的融合特征计算最终结果并以Json形式构建消息内容通过数据接口向外发布模型结果,其中某沿海电厂输出结果的准确率在83.12%,某内陆电厂输出结果的准确率在81.63%。

Claims (10)

1.一种基于有监督的多模型编码映射推荐方法,其特征在于,包括以下步骤:
步骤1、使用采集设备收集原KKS编码列表
Figure 482861DEST_PATH_IMAGE001
,其中
Figure 637899DEST_PATH_IMAGE002
为原编码;使用采集设备收集新KKS编码列表
Figure 562999DEST_PATH_IMAGE003
,其中
Figure 145290DEST_PATH_IMAGE004
为新编码;
步骤2、将步骤1获得的原KKS编码列表
Figure 539362DEST_PATH_IMAGE005
、新KKS编码列表
Figure 498091DEST_PATH_IMAGE006
进行人工匹配,得到
Figure 294008DEST_PATH_IMAGE007
Figure 30889DEST_PATH_IMAGE007
组成监督匹配模型训练数据集D
步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词,得到分词结果;通过分词结果和唯一编码构建分词字典,唯一编码指分词字典中分配的id编号,再通过分词字典进行编码,得到数字化编码
Figure 177837DEST_PATH_IMAGE008
步骤4、将数字化编码
Figure 674677DEST_PATH_IMAGE008
输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤5、由步骤4得到的映射向量,计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ
Figure 325101DEST_PATH_IMAGE009
上式中,
Figure 498463DEST_PATH_IMAGE010
Figure 601548DEST_PATH_IMAGE011
Figure 902079DEST_PATH_IMAGE012
分别为解码特征
Figure 672589DEST_PATH_IMAGE013
Figure 767584DEST_PATH_IMAGE014
Figure 607233DEST_PATH_IMAGE015
通过基于有监督的多模型匹配网络的全连接层,分别得到的映射向量;
Figure 711455DEST_PATH_IMAGE016
为计算协方差的公式,
Figure 336471DEST_PATH_IMAGE017
为求解方差的函数;
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
2.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时:通过运行在采集设备上的预制数据抽取脚本进行数据抽取,并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库中。
3.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于:步骤2在采集设备提供的操作页面上进行原KKS编码列表
Figure 867947DEST_PATH_IMAGE018
、新KKS编码列表
Figure 945624DEST_PATH_IMAGE019
的人工匹配。
4.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤3中通过分词字典进行编码时:将分词结果按照分词字典进行数字化转换,并根据数字化字符串长度进行缺失填补。
5.根据权利要求4所述基于有监督的多模型编码映射推荐方法,其特征在于,根据数字化字符串长度进行缺失填补时:采用0对缺失值进行填补,将数字化字符串长度扩充至18。
6.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤4具体包括如下步骤:
步骤4.1、将数字化编码
Figure 571647DEST_PATH_IMAGE020
输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征
Figure 51170DEST_PATH_IMAGE021
,将向量化特征
Figure 487967DEST_PATH_IMAGE022
输入到多层神经网络:
Figure 318520DEST_PATH_IMAGE023
其中,多层神经网络由编码多层神经网络
Figure 748233DEST_PATH_IMAGE024
与解码多层神经网络
Figure 816683DEST_PATH_IMAGE025
组成;向量化特征
Figure 424382DEST_PATH_IMAGE026
输入编码多层神经网络
Figure 476652DEST_PATH_IMAGE027
得到隐层变量
Figure 710056DEST_PATH_IMAGE028
;将隐层变量
Figure 633012DEST_PATH_IMAGE029
再输入解码多层神经网络
Figure 411613DEST_PATH_IMAGE030
,得到解码特征
Figure 216758DEST_PATH_IMAGE031
步骤4.2、将步骤4.1中的向量化特征
Figure 988273DEST_PATH_IMAGE032
输入到长短期记忆网络:
Figure 296895DEST_PATH_IMAGE033
长短期记忆网络由编码长短期记忆网络
Figure 246396DEST_PATH_IMAGE034
与解码长短期记忆网络
Figure 273258DEST_PATH_IMAGE035
组成;向量化特征
Figure 582886DEST_PATH_IMAGE032
输入编码长短期记忆网络
Figure 746014DEST_PATH_IMAGE036
得到隐层变量
Figure 131996DEST_PATH_IMAGE037
,将隐层变量
Figure 646154DEST_PATH_IMAGE038
再输入解码长短期记忆网络,得到解码特征
Figure 759472DEST_PATH_IMAGE039
步骤4.3、将步骤4.1中的向量化特征
Figure 42686DEST_PATH_IMAGE032
输入到注意力网络:
Figure 599569DEST_PATH_IMAGE040
注意力网络由编码注意力网络
Figure 335444DEST_PATH_IMAGE041
与解码注意力网络
Figure 3186DEST_PATH_IMAGE042
组成;将向量化特征
Figure 655753DEST_PATH_IMAGE026
输入到编码注意力网络
Figure 117958DEST_PATH_IMAGE043
得到隐层变量
Figure 606708DEST_PATH_IMAGE044
,将隐层变量
Figure 812562DEST_PATH_IMAGE045
再输入解码注意力网络
Figure 804789DEST_PATH_IMAGE046
得到解码特征
Figure 952742DEST_PATH_IMAGE047
步骤4.4、将步骤4.1至步骤4.3得到的解码特征
Figure 928788DEST_PATH_IMAGE048
Figure 672753DEST_PATH_IMAGE049
Figure 785066DEST_PATH_IMAGE050
通过基于有监督的多模型匹配网络的全连接层,分别得到映射向量
Figure 838341DEST_PATH_IMAGE051
Figure 301684DEST_PATH_IMAGE052
Figure 849340DEST_PATH_IMAGE053
:
Figure 816159DEST_PATH_IMAGE054
上式中,
Figure 322226DEST_PATH_IMAGE055
为解码特征
Figure 990974DEST_PATH_IMAGE056
的权重值,
Figure 342321DEST_PATH_IMAGE057
为解码特征
Figure 429226DEST_PATH_IMAGE056
的偏置量;
Figure 106195DEST_PATH_IMAGE058
为解码特征
Figure 12971DEST_PATH_IMAGE039
的权重值,
Figure 151697DEST_PATH_IMAGE059
为解码特征
Figure 93108DEST_PATH_IMAGE049
的偏置量;
Figure 940978DEST_PATH_IMAGE060
为解码特征
Figure 335051DEST_PATH_IMAGE061
的权重值,
Figure 28200DEST_PATH_IMAGE062
为解码特征
Figure 807806DEST_PATH_IMAGE063
的偏置量。
7.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于:步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式,其中64为批次数据量,18为编码数字化特征。
8.根据权利要求6所述基于有监督的多模型编码映射推荐方法,其特征在于:
步骤4.1中多层神经网络第一层和第二层为编码多层神经网络
Figure 560999DEST_PATH_IMAGE064
,多层神经网络第三层和第四层为解码多层神经网络
Figure 707946DEST_PATH_IMAGE065
,多层神经网络中上一层的输出作为后一层的输入;多层神经网络第一层的输出为64*18,多层神经网络第二层的输出为64*10,多层神经网络第三层的输出为64*10,多层神经网络第四层的输出为64*18;
步骤4.2中长短期记忆网络第一层和第二层为编码长短期记忆网络
Figure 939207DEST_PATH_IMAGE066
,长短期记忆网络第三层和第四层为解码长短期记忆网络
Figure 838899DEST_PATH_IMAGE067
;长短期记忆网络中上一层的输出作为后一层的输入;长短期记忆网络第一层的输出为64*18,长短期记忆网络第二层的输出为64*10,长短期记忆网络第三层的输出为64*10,长短期记忆网络第四层的输出为64*18;
步骤4.3中注意力网络第一层和第二层为编码注意力网络
Figure 762993DEST_PATH_IMAGE068
,注意力网络第三层和第四层为解码注意力网络
Figure 131657DEST_PATH_IMAGE069
;注意力网络中上一层的输出作为后一层的输入;注意力网络第一层的输出为64*18,注意力网络第二层的输出为64*10,注意力网络第三层的输出为64*10,注意力网络第四层的输出为64*18。
9.根据权利要求1或6所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤6具体包括如下步骤:
步骤6.1、若所有映射向量之间的相关性系数均大于阈值θ,则对所有映射向量采用最大值融合策略:
Figure DEST_PATH_IMAGE070
步骤6.2、若所有映射向量之间的相关性系数均小于阈值θ,则对所有映射向量采用均值融合策略:
Figure 884718DEST_PATH_IMAGE071
10.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于:步骤7根据融合特征计算最终的编码结果后,以Json形式构建编码结果的消息内容,并通过数据接口向外发布编码结果。
CN202110906330.7A 2021-08-09 2021-08-09 一种基于有监督的多模型编码映射推荐方法 Active CN113343643B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110906330.7A CN113343643B (zh) 2021-08-09 2021-08-09 一种基于有监督的多模型编码映射推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110906330.7A CN113343643B (zh) 2021-08-09 2021-08-09 一种基于有监督的多模型编码映射推荐方法

Publications (2)

Publication Number Publication Date
CN113343643A CN113343643A (zh) 2021-09-03
CN113343643B true CN113343643B (zh) 2021-11-02

Family

ID=77481057

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110906330.7A Active CN113343643B (zh) 2021-08-09 2021-08-09 一种基于有监督的多模型编码映射推荐方法

Country Status (1)

Country Link
CN (1) CN113343643B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372101B (zh) * 2021-12-17 2023-07-07 华能国际电力股份有限公司上海石洞口第一电厂 一种设备编码管理方法、装置、设备及介质
CN115689399B (zh) * 2022-10-10 2024-05-10 中国长江电力股份有限公司 基于工业互联网平台的水电设备信息模型快速构建方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133316A (zh) * 2017-12-19 2018-06-08 国网冀北电力有限公司张家口供电公司 一种供电厂电力设备家族性缺陷的检测方法
CN109145008A (zh) * 2018-08-16 2019-01-04 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的实时数据平台
CN109255523A (zh) * 2018-08-16 2019-01-22 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的分析指标计算平台
CN110047056A (zh) * 2018-01-16 2019-07-23 西门子保健有限责任公司 用深度图像到图像网络和对抗网络的跨域图像分析和合成
WO2020114978A1 (en) * 2018-12-06 2020-06-11 Siemens Aktiengesellschaft Device and method for creating piping and instrument diagram (p&id) for power plant
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354699B (zh) * 2008-09-10 2013-03-27 中国物品编码中心 物品编码解析装置、系统和方法
CN103336873B (zh) * 2013-07-10 2016-01-20 中国能源建设集团江苏省电力设计院有限公司 一种变电站三维设计kks智能批量编码方法
US20190095788A1 (en) * 2017-09-27 2019-03-28 Microsoft Technology Licensing, Llc Supervised explicit semantic analysis

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108133316A (zh) * 2017-12-19 2018-06-08 国网冀北电力有限公司张家口供电公司 一种供电厂电力设备家族性缺陷的检测方法
CN110047056A (zh) * 2018-01-16 2019-07-23 西门子保健有限责任公司 用深度图像到图像网络和对抗网络的跨域图像分析和合成
CN109145008A (zh) * 2018-08-16 2019-01-04 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的实时数据平台
CN109255523A (zh) * 2018-08-16 2019-01-22 北京奥技异科技发展有限公司 基于kks编码规则和大数据架构的分析指标计算平台
WO2020114978A1 (en) * 2018-12-06 2020-06-11 Siemens Aktiengesellschaft Device and method for creating piping and instrument diagram (p&id) for power plant
CN111783462A (zh) * 2020-06-30 2020-10-16 大连民族大学 基于双神经网络融合的中文命名实体识别模型及方法
CN112200317A (zh) * 2020-09-28 2021-01-08 西南电子技术研究所(中国电子科技集团公司第十研究所) 多模态知识图谱构建方法
CN113032545A (zh) * 2021-05-29 2021-06-25 成都晓多科技有限公司 基于无监督对话预训练的对话理解与答案配置方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
The Holographic Management System Based on KKS Code and 3D Digital Model for Equipment in Smart Hydropower Stations;Yuechao Wu et al.;《IEEE Xplore》;20210113;全文 *
基于故障树和KKS编码在风电运检管理中的应用;何章周;《能源科技》;20201130;第18卷(第11期);全文 *
基于生成对抗网络的图像恢复与SLAM容错研究;王凯 等;《浙江大学学报(工学版)》;20190131;第53卷(第1期);全文 *

Also Published As

Publication number Publication date
CN113343643A (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111444305B (zh) 一种基于知识图谱嵌入的多三元组联合抽取方法
CN111325323B (zh) 一种融合全局信息和局部信息的输变电场景描述自动生成方法
CN109214592B (zh) 一种多模型融合的深度学习的空气质量预测方法
CN113343643B (zh) 一种基于有监督的多模型编码映射推荐方法
CN108520275A (zh) 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法
CN109960737B (zh) 半监督深度对抗自编码哈希学习的遥感影像内容检索方法
CN111160035A (zh) 文本语料的处理方法和装置
CN111753207B (zh) 一种基于评论的神经图协同过滤方法
CN111429977B (zh) 一种新的基于图结构注意力的分子相似性搜索算法
CN111242351A (zh) 基于自编码器和gru神经网络的热带气旋轨迹预测方法
CN108920446A (zh) 一种工程文本的处理方法
CN112926627A (zh) 一种基于电容型设备缺陷数据的设备缺陷时间预测方法
CN115098672A (zh) 基于多视图深度聚类的用户需求发现方法和系统
CN113673152B (zh) 一种基于数字孪生体的集团级kks编码智能映射推荐方法
CN112712855B (zh) 一种基于联合训练的含缺失值基因微阵列的聚类方法
CN114519293A (zh) 基于小样本机器学习模型的电缆本体故障识别方法
CN114004220A (zh) 一种基于cpc-ann的文本情绪原因识别方法
CN116743182B (zh) 一种数据无损压缩方法
CN116186350B (zh) 基于知识图谱和主题文本的输电线路工程搜索方法和装置
CN108647295A (zh) 一种基于深度协同哈希的图片标注方法
CN112836736A (zh) 一种基于深度自编码器构图的高光谱图像半监督分类方法
CN111259106A (zh) 一种结合神经网络和特征演算的关系抽取方法
CN113343642B (zh) 基于有监督序列生成网络的集团级kks编码自动映射方法
CN114707829A (zh) 基于结构化数据线性展开的目标人员再犯风险预测方法
CN115688982A (zh) 基于wgan和鲸鱼优化算法的楼宇光伏数据补全方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20220815

Address after: Room 307, No. 32, Gaoji Street, Xihu District, Hangzhou City, Zhejiang Province, 310002

Patentee after: Zhejiang Zheneng Digital Technology Co., Ltd.

Patentee after: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.

Address before: 5 / F, building 1, No. 2159-1, yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee before: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd.