CN113343643B - 一种基于有监督的多模型编码映射推荐方法 - Google Patents
一种基于有监督的多模型编码映射推荐方法 Download PDFInfo
- Publication number
- CN113343643B CN113343643B CN202110906330.7A CN202110906330A CN113343643B CN 113343643 B CN113343643 B CN 113343643B CN 202110906330 A CN202110906330 A CN 202110906330A CN 113343643 B CN113343643 B CN 113343643B
- Authority
- CN
- China
- Prior art keywords
- layer
- coding
- network
- model
- decoding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
本发明涉及一种基于有监督的多模型编码映射推荐方法,包括步骤:使用采集设备收集原KKS编码列表和新KKS编码列表;将原KKS编码列表、新KKS编码列表进行人工匹配;将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词。本发明的有益效果是:本发明将原KKS编码列表与新KKS编码列表进行匹配,解决了在已运行多年的老厂系统采用的编码规则不一致的问题;构建分词字典并得到数字化编码,实现底层数据的通用化;本发明还构建了基于有监督的多模型匹配网络,采用不同融合策略进行特征融合,得到编码结果;不仅能够消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,保持数据的一致性、避免数据冗余完整性。
Description
技术领域
本发明属于电厂信息技术领域,尤其涉及一种基于有监督的多模型编码映射推荐方法。
背景技术
随着电厂信息化水平的逐渐提高,电厂数据标准化成为其中最重要的一环。建立统一、规范的智能火电厂数据标准体系,不仅可以消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,做到数据的一致性、避免数据冗余完整性。标准体系可满足运行人员能够快速、有效地检索、定位的不同需求。而在电厂智慧化建设阶段,数据标准化是建设的基础,完善的标准化可加快信息系统建设的进度,有利于各方使用统一的数据模型。但是针对已建成电厂进行的智能化改造时,标准体系与原先的体系存在一定的差异性,且不同电厂之间的差异不同。
随着发电生产信息化的推进,信息化资产、虚拟化活动日益增多,KKS编码弱标准规则的特征也愈发明显,目前根据智能化生产需要的对原有的标识编码系统进行改进,提出了许多企业内部的编码标准。改进的标准编码在新建设的发电企业容易实施,而在已运行多年的老厂,一是由于已运行的系统采用的编码规则不一致,二是由于人力物力的匮乏,所以很难组织起相应的力量解决全厂的编码问题。
为提升电厂智能化建设的效率,实现快速部署,规模应用的目标,需要对原有的数据体系进行适配——完成标准体系到原有体系的映射。但是由于实施过程缺少自动化的工具和专业人员的支持,新标准体系很难在规模化推广。发明专利CN201310289939.X提出一种变电站三维设计KKS智能批量编码方法,该方法采用母线命名的方式对二维符号进行顺序编码实现编码的批量编制,但无法推广到已建设的其他变电站。发明专利CN200810222171.3物品编码解析装置、系统和方法采用解析装置实现编码解析与理解实现稳定可靠的编码识别功能,但是同样无法处理不同标准体系之间的映射问题。因此,需要研发一种多标准体系下的映射方法以实现电厂智能化应用快速部署的目标和规模应用的任务。
发明内容
本发明的目的是克服现有技术中的不足,提供一种基于有监督的多模型编码映射推荐方法。
这种基于有监督的多模型编码映射推荐方法,包括以下步骤:
步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词,得到分词结果;通过分词结果和唯一编码构建分词字典,唯一编码指分词字典中分配的id编号,再通过分词字典进行编码,得到数字化编码;
步骤4、将数字化编码输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤5、由步骤4得到的映射向量,计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ:
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
作为优选,步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时:通过运行在采集设备上的预制数据抽取脚本进行数据抽取,并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库(MySQL数据库)中。
作为优选,步骤3中通过分词字典进行编码时:将分词结果按照分词字典进行数字化转换,并根据数字化字符串长度进行缺失填补。
作为优选,根据数字化字符串长度进行缺失填补时:采用0对缺失值进行填补,将数字化字符串长度扩充至18(原先字符串长度无法以固定长度来衡量,但可以确定是小于18的)。
作为优选,步骤4具体包括如下步骤:
作为优选,步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式,其中64为批次数据量,18为编码数字化特征。
作为优选:
步骤4.1中多层神经网络第一层和第二层为编码多层神经网络,多层神经网络第三层和第四层为解码多层神经网络,多层神经网络中上一层的输出作为后一层的输入;多层神经网络第一层的输出为64*18,多层神经网络第二层的输出为64*10,多层神经网络第三层的输出为64*10,多层神经网络第四层的输出为64*18;
步骤4.2中长短期记忆网络第一层和第二层为编码长短期记忆网络,长短期记忆网络第三层和第四层为解码长短期记忆网络;长短期记忆网络中上一层的输出作为后一层的输入;长短期记忆网络第一层的输出为64*18,长短期记忆网络第二层的输出为64*10,长短期记忆网络第三层的输出为64*10,长短期记忆网络第四层的输出为64*18;
步骤4.3中注意力网络第一层和第二层为编码注意力网络,注意力网络第三层和第四层为解码注意力网络;注意力网络中上一层的输出作为后一层的输入;注意力网络第一层的输出为64*18,注意力网络第二层的输出为64*10,注意力网络第三层的输出为64*10,注意力网络第四层的输出为64*18。
作为优选,步骤6具体包括如下步骤:
步骤6.1、若所有映射向量之间的相关性系数均大于阈值θ,则对所有映射向量采用最大值融合策略:
步骤6.2、若所有映射向量之间的相关性系数均小于阈值θ,则对所有映射向量采用均值融合策略:
作为优选,步骤7根据融合特征计算最终的编码结果后,以Json形式构建编码结果的消息内容,并通过数据接口向外发布编码结果。
本发明的有益效果是:本发明将原KKS编码列表与新KKS编码列表进行匹配,解决了在已运行多年的老厂系统采用的编码规则不一致的问题;构建分词字典并得到数字化编码,实现底层数据的通用化;本发明还构建了基于有监督的多模型匹配网络,采用不同融合策略进行特征融合,得到编码结果;不仅能够消除不同编码的歧义,增强信息互联互通,还可以更准确地标识出所有设备对象,保持数据的一致性、避免数据冗余完整性。
附图说明
图1为本发明基于有监督的多模型编码映射推荐方法流程图;
图2为采集设备结构示意图;
图3为计算设备结构示意图;
图4为基于有监督的多模型编码映射流程图;
图5为本发明基于有监督的多模型匹配网络处理流程图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
实施例一
本申请实施例一提供了一种如图1和图4所示基于有监督的多模型编码映射推荐方法:
步骤4、将数字化编码输入到如图5所示基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤5、由步骤4得到的映射向量,根据图3所示计算设备计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ:
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
实施例二
在实施例一的基础上,本申请实施例二提供了实施例一中基于有监督的多模型编码映射推荐方法在某沿海电厂和内陆电厂数据标准化项目的应用:
步骤1、运行在采集设备上的预制数据抽取脚本进行数据抽取原KKS编码列表其中,k 1 为老编码,新KKS编码列表其中,k 2 为新编码,并存储于对应的关系型数据库中,作为优选所述的关系型数据库为MySQL数据库;
步骤4.1、由步骤4得到的向量化特征输入到多层神经网络,该网络由编码多层神经网络与解码多层神经网络组成,编码多层神经网络输出隐层变量,隐层变量再输入解码多层神经网络得到解码特征,输出形式为64*18矩阵;
步骤4.2、由步骤4得到的向量化特征输入到长短记忆网络,该网络由编码长短记忆网络与解码长短记忆网络组成,编码长短记忆网络输出隐层变量,隐层变量再输入解码长短记忆网络得到解码特征,,输出形式为64*18矩阵;
步骤4.3、由步骤4得到的向量化特征输入到注意力网络,该网络由编码注意力网络与解码注意力网络组成,编码注意力网络输出隐层变量,隐层变量再输入解码注意力网络得到解码特征,输出形式为64*18矩阵,其中2483指的是字典中的分词数量;
步骤6、由步骤5得到的融合策略,将模型得到的映射向量进行融合得到融合特征;
步骤7、根据步骤6得到的融合特征计算最终结果并以Json形式构建消息内容通过数据接口向外发布模型结果,其中某沿海电厂输出结果的准确率在83.12%,某内陆电厂输出结果的准确率在81.63%。
Claims (10)
1.一种基于有监督的多模型编码映射推荐方法,其特征在于,包括以下步骤:
步骤3、将监督匹配模型训练数据集D中的数据采用Jieba分词工具进行分词,得到分词结果;通过分词结果和唯一编码构建分词字典,唯一编码指分词字典中分配的id编号,再通过分词字典进行编码,得到数字化编码;
步骤4、将数字化编码输入到基于有监督的多模型匹配网络的嵌入层,得到向量化特征;然后将向量化特征输入多模型编码映射模型,多模型编码映射模型的输出结果经过基于有监督的多模型匹配网络的全连接层,得到映射向量;
步骤5、由步骤4得到的映射向量,计算得到各映射向量之间的相关性系数,并根据各映射向量之间的相关性系数设置阈值θ:
步骤6、由步骤5设置的阈值θ选择融合策略,得到融合特征;
步骤7,根据步骤6得到的融合特征计算最终的编码结果,并将编码结果输出至存储设备。
2.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤1使用采集设备收集原KKS编码列表和新KKS编码列表时:通过运行在采集设备上的预制数据抽取脚本进行数据抽取,并将抽取得到的原KKS编码列表和新KKS编码列表存储于对应的关系型数据库中。
4.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤3中通过分词字典进行编码时:将分词结果按照分词字典进行数字化转换,并根据数字化字符串长度进行缺失填补。
5.根据权利要求4所述基于有监督的多模型编码映射推荐方法,其特征在于,根据数字化字符串长度进行缺失填补时:采用0对缺失值进行填补,将数字化字符串长度扩充至18。
6.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于,步骤4具体包括如下步骤:
7.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于:步骤4中基于有监督的多模型匹配网络、多模型编码映射模型的输入数据均为64*18的格式,其中64为批次数据量,18为编码数字化特征。
8.根据权利要求6所述基于有监督的多模型编码映射推荐方法,其特征在于:
步骤4.1中多层神经网络第一层和第二层为编码多层神经网络,多层神经网络第三层和第四层为解码多层神经网络,多层神经网络中上一层的输出作为后一层的输入;多层神经网络第一层的输出为64*18,多层神经网络第二层的输出为64*10,多层神经网络第三层的输出为64*10,多层神经网络第四层的输出为64*18;
步骤4.2中长短期记忆网络第一层和第二层为编码长短期记忆网络,长短期记忆网络第三层和第四层为解码长短期记忆网络;长短期记忆网络中上一层的输出作为后一层的输入;长短期记忆网络第一层的输出为64*18,长短期记忆网络第二层的输出为64*10,长短期记忆网络第三层的输出为64*10,长短期记忆网络第四层的输出为64*18;
10.根据权利要求1所述基于有监督的多模型编码映射推荐方法,其特征在于:步骤7根据融合特征计算最终的编码结果后,以Json形式构建编码结果的消息内容,并通过数据接口向外发布编码结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906330.7A CN113343643B (zh) | 2021-08-09 | 2021-08-09 | 一种基于有监督的多模型编码映射推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110906330.7A CN113343643B (zh) | 2021-08-09 | 2021-08-09 | 一种基于有监督的多模型编码映射推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113343643A CN113343643A (zh) | 2021-09-03 |
CN113343643B true CN113343643B (zh) | 2021-11-02 |
Family
ID=77481057
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110906330.7A Active CN113343643B (zh) | 2021-08-09 | 2021-08-09 | 一种基于有监督的多模型编码映射推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113343643B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372101B (zh) * | 2021-12-17 | 2023-07-07 | 华能国际电力股份有限公司上海石洞口第一电厂 | 一种设备编码管理方法、装置、设备及介质 |
CN115689399B (zh) * | 2022-10-10 | 2024-05-10 | 中国长江电力股份有限公司 | 基于工业互联网平台的水电设备信息模型快速构建方法 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133316A (zh) * | 2017-12-19 | 2018-06-08 | 国网冀北电力有限公司张家口供电公司 | 一种供电厂电力设备家族性缺陷的检测方法 |
CN109145008A (zh) * | 2018-08-16 | 2019-01-04 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的实时数据平台 |
CN109255523A (zh) * | 2018-08-16 | 2019-01-22 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的分析指标计算平台 |
CN110047056A (zh) * | 2018-01-16 | 2019-07-23 | 西门子保健有限责任公司 | 用深度图像到图像网络和对抗网络的跨域图像分析和合成 |
WO2020114978A1 (en) * | 2018-12-06 | 2020-06-11 | Siemens Aktiengesellschaft | Device and method for creating piping and instrument diagram (p&id) for power plant |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN113032545A (zh) * | 2021-05-29 | 2021-06-25 | 成都晓多科技有限公司 | 基于无监督对话预训练的对话理解与答案配置方法及系统 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101354699B (zh) * | 2008-09-10 | 2013-03-27 | 中国物品编码中心 | 物品编码解析装置、系统和方法 |
CN103336873B (zh) * | 2013-07-10 | 2016-01-20 | 中国能源建设集团江苏省电力设计院有限公司 | 一种变电站三维设计kks智能批量编码方法 |
US20190095788A1 (en) * | 2017-09-27 | 2019-03-28 | Microsoft Technology Licensing, Llc | Supervised explicit semantic analysis |
-
2021
- 2021-08-09 CN CN202110906330.7A patent/CN113343643B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108133316A (zh) * | 2017-12-19 | 2018-06-08 | 国网冀北电力有限公司张家口供电公司 | 一种供电厂电力设备家族性缺陷的检测方法 |
CN110047056A (zh) * | 2018-01-16 | 2019-07-23 | 西门子保健有限责任公司 | 用深度图像到图像网络和对抗网络的跨域图像分析和合成 |
CN109145008A (zh) * | 2018-08-16 | 2019-01-04 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的实时数据平台 |
CN109255523A (zh) * | 2018-08-16 | 2019-01-22 | 北京奥技异科技发展有限公司 | 基于kks编码规则和大数据架构的分析指标计算平台 |
WO2020114978A1 (en) * | 2018-12-06 | 2020-06-11 | Siemens Aktiengesellschaft | Device and method for creating piping and instrument diagram (p&id) for power plant |
CN111783462A (zh) * | 2020-06-30 | 2020-10-16 | 大连民族大学 | 基于双神经网络融合的中文命名实体识别模型及方法 |
CN112200317A (zh) * | 2020-09-28 | 2021-01-08 | 西南电子技术研究所(中国电子科技集团公司第十研究所) | 多模态知识图谱构建方法 |
CN113032545A (zh) * | 2021-05-29 | 2021-06-25 | 成都晓多科技有限公司 | 基于无监督对话预训练的对话理解与答案配置方法及系统 |
Non-Patent Citations (3)
Title |
---|
The Holographic Management System Based on KKS Code and 3D Digital Model for Equipment in Smart Hydropower Stations;Yuechao Wu et al.;《IEEE Xplore》;20210113;全文 * |
基于故障树和KKS编码在风电运检管理中的应用;何章周;《能源科技》;20201130;第18卷(第11期);全文 * |
基于生成对抗网络的图像恢复与SLAM容错研究;王凯 等;《浙江大学学报(工学版)》;20190131;第53卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN113343643A (zh) | 2021-09-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444305B (zh) | 一种基于知识图谱嵌入的多三元组联合抽取方法 | |
CN111325323B (zh) | 一种融合全局信息和局部信息的输变电场景描述自动生成方法 | |
CN109214592B (zh) | 一种多模型融合的深度学习的空气质量预测方法 | |
CN113343643B (zh) | 一种基于有监督的多模型编码映射推荐方法 | |
CN108520275A (zh) | 一种基于邻接矩阵的连接信息规整系统、图特征提取系统、图分类系统和方法 | |
CN109960737B (zh) | 半监督深度对抗自编码哈希学习的遥感影像内容检索方法 | |
CN111160035A (zh) | 文本语料的处理方法和装置 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN111429977B (zh) | 一种新的基于图结构注意力的分子相似性搜索算法 | |
CN111242351A (zh) | 基于自编码器和gru神经网络的热带气旋轨迹预测方法 | |
CN108920446A (zh) | 一种工程文本的处理方法 | |
CN112926627A (zh) | 一种基于电容型设备缺陷数据的设备缺陷时间预测方法 | |
CN115098672A (zh) | 基于多视图深度聚类的用户需求发现方法和系统 | |
CN113673152B (zh) | 一种基于数字孪生体的集团级kks编码智能映射推荐方法 | |
CN112712855B (zh) | 一种基于联合训练的含缺失值基因微阵列的聚类方法 | |
CN114519293A (zh) | 基于小样本机器学习模型的电缆本体故障识别方法 | |
CN114004220A (zh) | 一种基于cpc-ann的文本情绪原因识别方法 | |
CN116743182B (zh) | 一种数据无损压缩方法 | |
CN116186350B (zh) | 基于知识图谱和主题文本的输电线路工程搜索方法和装置 | |
CN108647295A (zh) | 一种基于深度协同哈希的图片标注方法 | |
CN112836736A (zh) | 一种基于深度自编码器构图的高光谱图像半监督分类方法 | |
CN111259106A (zh) | 一种结合神经网络和特征演算的关系抽取方法 | |
CN113343642B (zh) | 基于有监督序列生成网络的集团级kks编码自动映射方法 | |
CN114707829A (zh) | 基于结构化数据线性展开的目标人员再犯风险预测方法 | |
CN115688982A (zh) | 基于wgan和鲸鱼优化算法的楼宇光伏数据补全方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20220815 Address after: Room 307, No. 32, Gaoji Street, Xihu District, Hangzhou City, Zhejiang Province, 310002 Patentee after: Zhejiang Zheneng Digital Technology Co., Ltd. Patentee after: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd. Address before: 5 / F, building 1, No. 2159-1, yuhangtang Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province Patentee before: ZHEJIANG ENERGY R & D INSTITUTE Co.,Ltd. |