CN117312350B

CN117312350B - 钢铁行业碳排放数据管理方法及装置

Info

Publication number: CN117312350B
Application number: CN202311597202.4A
Authority: CN
Inventors: 田磊; 高秀敏; 张可; 张世躔
Original assignee: Benxi Steel Group Information Automation Co ltd
Current assignee: Benxi Steel Group Information Automation Co ltd
Priority date: 2023-11-28
Filing date: 2023-11-28
Publication date: 2024-02-27
Anticipated expiration: 2043-11-28
Also published as: CN117312350A

Abstract

本发明提供一种钢铁行业碳排放数据管理方法及装置，通过确定钢铁行业碳核算所需采集数据项的数据描述信息以构建元数据仓库，将元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到元数据仓库中的命中数据项以及命中数据源中与命中数据项匹配的数据地址，随后基于命中数据项的数据描述信息，确定各个命中数据项在钢铁生产示意图中对应的边，并将命中数据项作为边属性名写入至相应边的属性信息中，基于命中数据源中与命中数据项匹配的数据地址，从命中数据源中抽取命中数据项的数据值，并将命中数据项的数据值作为边属性值更新至相应边的属性信息中，提升了碳数据管理的准确性和规范性。

Description

钢铁行业碳排放数据管理方法及装置

技术领域

本发明涉及数据管理技术领域，尤其涉及一种钢铁行业碳排放数据管理方法及装置。

背景技术

钢铁行业是国民经济的重要支柱行业之一，但同时钢铁行业是全球以及国内碳排放总量最大的行业之一因此钢铁企业应全面掌握自身的碳排放数据，且碳排放数据的核算应该符合国家相关行业指南和标准，并应做到动态管控和风险提前规避。然而，钢铁生产的生命周期包括球团/烧结工序、炼铁工序、炼钢工序、轧钢工序以及各种辅助工序等各类生产工序，且各个生产工序产生的碳排放数据范围广、数据项内容繁多，涉及的数据项内容需要手工进行整理，效率低且出错率高，异常数据也很难发现；同时这些数据分散在不同的系统中，且相互关联、粒度不一，需要根据钢铁生产工艺按物料串联构建明细物料业务模型，从而筛选出用于进行碳核算的数据，一旦国家碳排放的核算方法发生调整，整体数据采集和计算都需要重新调整，存在钢铁生产全生命周期中各工序碳排放的数据采集和数据监控难、数据管理效率低的问题。

发明内容

本发明提供一种钢铁行业碳排放数据管理方法及装置，用以解决现有技术中存在钢铁生产全生命周期中各工序碳排放的数据采集和数据监控难、数据管理效率低的缺陷。

本发明提供一种钢铁行业碳排放数据管理方法，包括：

确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；

获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；

基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；

当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中，具体包括：

若任一命中数据项对应多个命中数据源，则基于所述多个命中数据源中与所述任一命中数据项匹配的数据地址，获取所述任一命中数据项匹配的多个候选数据值；

基于不同生产环节之间的关联性，确定所述任一命中数据项对应的关联命中数据项，并获取所述关联命中数据项的数据值；

基于关联的生产环节之间的碳排放规律以及所述关联命中数据项的数据值，从所述任一命中数据项匹配的多个候选数据值中筛选出符合相应碳排放规律的匹配数据值，并将所述匹配数据值以及所述匹配数据值对应的数据源信息发送至用户进行确认；

若接收到用户的确认指令，则确定所述匹配数据值为所述任一命中数据项的数据值，并删除所述匹配数据值对应的命中数据源以外的其他命中数据源与所述任一命中数据项之间的对应关系。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中，之后还包括：

对所述钢铁生产示意图中的节点进行数据增强，得到数据增强图，并确定所述钢铁生产示意图的邻接矩阵和每个节点的特征矩阵，以及确定所述数据增强图的邻接矩阵和每个节点的特征矩阵；其中，每个节点的特征矩阵是基于各个节点的出边的边属性值构建的；所述钢铁生产示意图或所述数据增强图的邻接矩阵中任一位置的值是基于所述任一位置对应的两个节点之间的连接关系确定的；

基于异常分析模型的图神经网络，对所述钢铁生产示意图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到所述钢铁生产示意图中每个节点的编码向量，并对所述数据增强图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到所述数据增强图中每个节点的编码向量；

基于所述异常分析模型的采样层分别对所述钢铁生产示意图中每个节点的编码向量以及所述数据增强图中每个节点的编码向量进行采样，得到所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中每个节点的采样向量；

基于所述异常分析模型的多层感知机对所述钢铁生产示意图中每个节点的采样向量进行解码，得到所述钢铁生产示意图中每个节点的解码向量；

基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量与所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述基于所述异常分析模型的采样层分别对所述钢铁生产示意图中每个节点的编码向量以及所述数据增强图中每个节点的编码向量进行采样，得到所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中每个节点的采样向量，具体包括：

针对任一节点的编码向量，生成长度与所述任一节点的编码向量的长度一致的随机样本向量；其中，所述任一节点为所述钢铁生产示意图的节点或所述数据增强图的节点；所述随机样本向量服从标准均匀分布；

基于公式ln(–ln(p))计算得到所述任一节点的采样变化向量；其中，p为所述随机样本向量；

将所述任一节点的编码向量和采样变化向量相加后除以温度系数，得到所述任一节点的初始采样向量；

基于softmax函数对所述任一节点的初始采样向量进行处理，得到所述任一节点的采样向量。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述对所述钢铁生产示意图中的节点进行数据增强，得到数据增强图，具体包括：

随机选择所述钢铁生产示意图中的部分节点为增强节点，并分别确定各个增强节点与其邻居节点之间的最短距离以及所述最短距离对应的最接近邻居节点；

基于各个增强节点对应的最接近邻居节点的特征向量，对相应增强节点的特征向量进行变换，得到数据增强图；其中，任一节点的特征向量是基于所述钢铁生产示意图中每个节点的特征矩阵确定的。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量与所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果，具体包括：

计算所述钢铁生产示意图中任一节点的特征向量与所述任一节点的解码向量之间的第一差异；

计算所述钢铁生产示意图中任一增强节点的采样向量以及所述数据增强图中相应节点的采样向量之间的第二差异；

针对所述钢铁生产示意图中的任一增强节点，对所述任一增强节点对应的所述第一差异和所述第二差异进行加权求和，得到所述任一增强节点的异常得分；针对所述钢铁生产示意图中的其他节点，基于相应节点对应的所述第一差异确定相应节点的异常得分；

若所述钢铁生产示意图中的任一节点的异常得分大于预设阈值，则确定所述钢铁生产示意图中的所述任一节点的异常分析结果为异常。

根据本发明提供的一种钢铁行业碳排放数据管理方法，所述异常分析模型是基于如下步骤训练得到的：

基于所述异常分析模型对历史钢铁生产示意图和所述历史钢铁生产示意图的历史增强图进行处理，得到所述历史钢铁生产示意图中每个样本节点的编码向量、采样向量和解码向量，以及所述历史增强图中每个样本节点的编码向量和采样向量；

计算所述历史钢铁生产示意图中任一样本节点的特征向量与所述任一样本节点的解码向量之间的第一差异；

计算所述历史钢铁生产示意图中任一样本增强节点的采样向量以及所述历史增强图中相应样本节点的采样向量之间的第二差异；

针对所述历史钢铁生产示意图中的任一样本增强节点，对所述任一样本增强节点对应的所述第一差异和所述第二差异进行加权求和，得到所述任一样本增强节点的异常得分；针对所述历史钢铁生产示意图中的其他样本节点，基于相应样本节点对应的所述第一差异确定相应样本节点的异常得分；

基于所述历史钢铁生产示意图中各个样本节点的异常得分，确定模型总损失，并基于所述模型总损失对所述异常分析模型进行反向参数更新。

本发明还提供一种钢铁行业碳排放数据管理装置，包括：

元数据获取单元，用于确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；

数据源匹配单元，用于获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；

边属性名设置单元，用于基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；

边属性值更新单元，用于当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述钢铁行业碳排放数据管理方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述钢铁行业碳排放数据管理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述钢铁行业碳排放数据管理方法。

本发明提供的钢铁行业碳排放数据管理方法及装置，通过确定钢铁行业碳核算所需采集数据项的数据描述信息以构建元数据仓库，将元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到元数据仓库中的命中数据项以及命中数据源中与命中数据项匹配的数据地址，随后基于钢铁生产工序生成钢铁生产示意图，基于命中数据项的数据描述信息，确定各个命中数据项在钢铁生产示意图中对应的边，并将命中数据项作为边属性名写入至相应边的属性信息中，以更直观展示钢铁行业各工序之间碳数据的来龙去脉，可以更精准地获取碳核算所需的数据，提高数据的真实性、可信度和可维护性，同时降低数据异常的检测难度，当到达数据更新时间点时，基于命中数据源中与命中数据项匹配的数据地址，从命中数据源中抽取命中数据项的数据值，并将命中数据项的数据值作为边属性值更新至相应边的属性信息中，当钢铁行业碳核算的核算方式发生变化，导致所需采集数据项存在变动时，可以通过更新元数据仓库、重新匹配元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件以及更新钢铁生产示意图，即可以在下次到达数据更新时间点时实现碳数据的更新，使其与新的碳核算方式自适应。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的钢铁行业碳排放数据管理方法的流程示意图；

图2是本发明提供的边属性值更新方法的流程示意图；

图3是本发明提供的异常分析方法的流程示意图；

图4是本发明提供的钢铁行业碳排放数据管理装置的结构示意图；

图5是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明提供的钢铁行业碳排放数据管理方法的流程示意图，如图1所示，该方法包括：

步骤110，确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；

步骤120，获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；

步骤130，基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；

步骤140，当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

具体地，可以根据当前最新的《钢铁生产企业温室气体排放核算方法与报告指南》对钢铁行业碳核算所需采集数据项进行描述和定义，以获取上述各个数据项的数据描述信息，包括数据项的名称、单位、值域、精度、特征模型（包括数据类型、数据来源信息、所属工序信息等）等信息，并基于各个数据项的数据描述信息构建碳数据的元数据仓库。随后，可以获取企业内涉及碳排放的系统和记录该系统生成的数据的数据源，并建立各个涉及碳排放的系统对应的数据源的连接信息以用于连接相应数据源，包括数据源的连接地址、数据库类型、系统所在生产工序周期等，以建立包含各个系统所对应数据源的数据源仓库。与此同时，可以设置多数据源选择匹配的向导模式以及基于SQL进行多数据源查询的SQL模式，同时进行数据库的权限管控。在一些实施例中，向导模式支持引导式操作，支持适配多种不同关系型数据库数据源，数据库权限的控制模块的工作流程为：建立连接——创建数据库用户——选择schema——选择tables——仅赋予连接和查询权限。

根据数据源仓库中各个数据源的连接信息循环连接到不同的数据源，并将元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，确定各个系统对应的数据源中是否存储有碳核算所需采集的各个数据项，从而得到元数据仓库中的命中数据项以及命中数据源中与相应命中数据项匹配的数据地址。其中，数据源中的数据描述文件记载了该数据源中存储的各个数据项的数据描述信息，因此将元数据仓库中各数据项的数据描述信息与各个数据源的数据描述文件中记载的各个数据项的数据描述信息进行匹配，能够确定各个数据源中是否存储有碳核算所需采集的数据项。如果基于上述匹配操作确定任一数据源的数据描述文件中记载的任一数据项与元数据仓库中的任一数据项相匹配，则可以确定元数据仓库中的该数据项为命中数据项，该数据源为该命中数据项对应的命中数据源，并从该命中数据源中获取与该命中数据项相匹配的相应数据项的数据地址。

考虑到钢铁生产包括球团/烧结工序、炼铁工序、炼钢工序、轧钢工序以及各种辅助工序等各类生产工序，且各个生产工序产生的碳排放数据范围广、数据项内容繁多，同时这些数据分散在不同的系统中，且相互关联、粒度不一，因此为了更精准地获取碳核算所需的数据，提高数据的真实性、可信度和可维护性，同时降低数据异常的检测难度，可以通过绘制碳数据的血缘关系图，以更直观展示钢铁行业各工序之间碳数据的来龙去脉，实现准确、规范化的碳排放数据管理。具体而言，可以基于钢铁生产工序生成钢铁生产示意图。其中，钢铁生产示意图中的节点为各个生产工序，其中生产工序的划分粒度可以根据实际数据管理的需求以及数据源中采集的数据所对应的生产工序设定，而钢铁生产示意图中节点之间的边表示了生产工序的流程信息，边属性则包含了各个生产工序所产生的各类碳数据。此处，可以引用Python中Networkx包的DiGraph()方法创建有向图对象，把需要监控的钢铁生产工序作为有向图中的预设节点，通过工序先后关系绘制节点之间的有向边，从而形成钢铁生产示意图。

随后，基于各个命中数据项的数据描述信息，确定相应命中数据项在钢铁生产示意图中对应的边，并将该命中数据项作为边属性名写入至相应边的属性信息中。其中，可以根据命中数据项对应的生产工序确定其在钢铁生产示意图中对应的边，即任一命中数据项在钢铁生产示意图中对应的边为其对应的生产工序所在节点的出边。当到达数据更新时间点时，基于命中数据源中与相应命中数据项匹配的数据项的数据地址，并从该命中数据源的该数据地址中抽取得到相应命中数据项的数据值，从而将相应命中数据项的数据值作为边属性值更新至钢铁生产示意图的相应边的属性信息中。当钢铁行业碳核算的核算方式发生变化，导致所需采集数据项存在变动时，可以通过更新元数据仓库、重新匹配元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件以及更新钢铁生产示意图，即可以在下次到达数据更新时间点时碳数据的更新，使其与新的碳核算方式相适应。另外，对元数据仓库进行修改时，可以利用Zustand状态管理技术更改store状态值，记录元数据的变动，形成版本节点，以支持不同版本的比对，根据版本生成的SQL脚本，可以进行元数据的版本回退。

在一些实施例中，考虑到同一数据项的数据可能分散在不同的系统中，且相互关联、粒度不一，导致任一命中数据项对应多个命中数据源。对此，如图2所示，可以采用如下方式从命中数据源中抽取该命中数据项的数据值，并将该命中数据项的数据值作为边属性值写入至相应边的属性信息中：

步骤210，若任一命中数据项对应多个命中数据源，则基于所述多个命中数据源中与所述任一命中数据项匹配的数据地址，获取所述任一命中数据项匹配的多个候选数据值；

步骤220，基于不同生产环节之间的关联性，确定所述任一命中数据项对应的关联命中数据项，并获取所述关联命中数据项的数据值；

步骤230，基于关联的生产环节之间的碳排放规律以及所述关联命中数据项的数据值，从所述任一命中数据项匹配的多个候选数据值中筛选出出符合相应碳排放规律的匹配数据值，并将所述匹配数据值以及所述匹配数据值对应的数据源信息发送至用户进行确认；

步骤240，若接收到用户的确认指令，则确定所述匹配数据值为所述任一命中数据项的数据值，并删除所述匹配数据值对应的命中数据源以外的其他命中数据源与所述任一命中数据项之间的对应关系。

具体而言，若任一命中数据项对应多个命中数据源，则可以基于其所对应的多个命中数据源中与该命中数据项匹配的数据项的数据地址，获取该命中数据项匹配的多个候选数据值。随后，基于不同生产环节之间的关联性这一先验知识，确定该命中数据项对应的关联命中数据项，并获取上述关联命中数据项的数据值，该关联命中数据项的数据值是可以唯一确定的。基于关联的生产环节之间的碳排放规律（可以由相关专家预先分析得到）以及上述关联命中数据项的数据值，从该命中数据项匹配的多个候选数据值中筛选出符合相应碳排放规律的匹配数据值，并将该匹配数据值以及该匹配数据值对应的数据源信息发送至用户进行确认。若接收到用户的确认指令，则确定该匹配数据值为该命中数据项的数据值，并删除上述匹配数据值对应的命中数据源以外的其他命中数据源与该命中数据项之间的对应关系。

在另一些实施例中，钢铁生产示意图直观地展示了钢铁行业各工序之间碳数据的来龙去脉，因此可以更准确地检测其中异常的碳数据。如图3所示，在基于命中数据源中与命中数据项匹配的数据地址，从命中数据源中抽取命中数据项的数据值，并将命中数据项的数据值作为边属性值更新至相应边的属性信息中之后，可以采用如下方式进行异常检测：

步骤310，对所述钢铁生产示意图中的节点进行数据增强，得到数据增强图，并确定所述钢铁生产示意图的邻接矩阵和每个节点的特征矩阵，以及确定所述数据增强图的邻接矩阵和每个节点的特征矩阵；其中，每个节点的特征矩阵是基于各个节点的出边的边属性值构建的；所述钢铁生产示意图或所述数据增强图的邻接矩阵中任一位置的值是基于所述任一位置对应的两个节点之间的连接关系确定的；

步骤320，基于异常分析模型的图神经网络，对所述钢铁生产示意图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到所述钢铁生产示意图中每个节点的编码向量，并对所述数据增强图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到所述数据增强图中每个节点的编码向量；

步骤330，基于所述异常分析模型的采样层分别对所述钢铁生产示意图中每个节点的编码向量以及所述数据增强图中每个节点的编码向量进行采样，得到所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中每个节点的采样向量；

步骤340，基于所述异常分析模型的多层感知机对所述钢铁生产示意图中每个节点的采样向量进行解码，得到所述钢铁生产示意图中每个节点的解码向量；

步骤350，基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果。

具体而言，可以采用数据增强方式对钢铁生产示意图中的节点进行数据增强，得到数据增强图，其中数据增强的对象是钢铁生产示意图中每个节点的特征矩阵。其中，每个节点的特征矩阵是基于各个节点的出边的边属性值构建的，即特征矩阵的一行或者一列代表某一个节点的出边的边属性值。通过数据增强方式可以对当前钢铁生产示意图添加一些差异但不改变整个图中各个正常的边属性值的内部规律，同时对于异常的边属性值较为敏感，因此有助于提升异常检测的准确度。在一些实施例中，可以随机选择钢铁生产示意图中的部分节点为增强节点，并分别确定各个增强节点与其邻居节点之间的最短距离以及该最短距离对应的最接近邻居节点。基于各个增强节点对应的最接近邻居节点的特征向量，对相应增强节点的特征向量进行变换，得到数据增强图。其中，任一节点的特征向量是基于钢铁生产示意图中每个节点的特征矩阵确定的，是该特征矩阵中对应该节点的一行或一列。对相应增强节点的特征向量进行变换时，可以将该增强节点的特征向量与其对应的最接近邻居节点的特征向量相加和/或相减，从而形成数据增强图。

得到数据增强图之后，确定钢铁生产示意图的邻接矩阵和每个节点的特征矩阵，以及确定数据增强图的邻接矩阵和每个节点的特征矩阵。其中，数据增强图的邻接矩阵与钢铁生产示意图的邻接矩阵相同，而数据增强图的特征矩阵中增强节点的特征向量为相应节点经过上述变换后的特征向量，其余节点的特征向量则与钢铁生产示意图中相应节点的特征向量相同。随后，基于异常分析模型的图神经网络，对钢铁生产示意图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到钢铁生产示意图中每个节点的编码向量，并对数据增强图的邻接矩阵和每个节点的特征矩阵进行特征编码，得到数据增强图中每个节点的编码向量。即，在对钢铁生产示意图的邻接矩阵和每个节点的特征矩阵进行特征编码时，图神经网络的输入是钢铁生产示意图的邻接矩阵和每个节点的特征矩阵，输出是该图中每个节点的编码向量；在对数据增强图的邻接矩阵和每个节点的特征矩阵进行特征编码时，图神经网络的输入是数据增强图的邻接矩阵和每个节点的特征矩阵，输出是该图中每个节点的编码向量。

经过图神经网络的特征编码，可以从钢铁生产示意图以及数据增强图的邻接矩阵和特征矩阵中提取出各个节点自身的属性信息以及节点与节点之间的关联信息，根据各个节点自身的属性信息以及节点与节点之间的关联信息能够为异常节点的检测提供良好的数据基础。然而，图神经网络输出的各节点的编码向量中可能包含有对于异常检测任务无关的冗余信息，而该冗余信息会对后续的异常检测结果产生负面影响，因此为了提升异常检测准确度，可以在异常分析模型中添加采样层，以进一步加强节点特征提取的能力。基于此，可以基于异常分析模型的采样层分别对钢铁生产示意图中每个节点的编码向量以及数据增强图中每个节点的编码向量进行采样，得到钢铁生产示意图中每个节点的采样向量以及数据增强图中每个节点的采样向量。

此处，为了能够更清晰地区分开正常节点的采样向量和异常节点的采样向量，可以通过采样策略将异常节点的采样向量转换至数据分布的尾部，而正常节点的采样向量转换至数据分布的中心，即可以理解为正常节点可以以接近于1的概率值被检测到，而异常节点可以以接近于0的概率值被检测到。具体而言，针对任一节点的编码向量，可以生成长度与该节点的编码向量的长度一致的随机样本向量；其中，该节点为钢铁生产示意图的节点或数据增强图的节点，随机样本向量服从标准均匀分布U(0,1)。然后基于公式ln(–ln(p))计算得到该节点的采样变化向量，其中，p为上述随机样本向量。将该节点的编码向量和采样变化向量相加后除以预设的温度系数，得到该节点的初始采样向量，再基于softmax函数对该节点的初始采样向量进行处理，得到该节点的采样向量。其中，温度系数用于调整各个节点的初始采样向量对应的数据分布的形状，温度系数越高，分布越平滑。

基于异常分析模型的多层感知机对钢铁生产示意图中每个节点的采样向量进行解码，得到钢铁生产示意图中每个节点的解码向量。随后，基于钢铁生产示意图中每个节点的特征矩阵与钢铁生产示意图中每个节点的解码向量之间的差异，以及钢铁生产示意图中每个节点的采样向量与数据增强图中相应节点的采样向量之间的差异，确定钢铁生产示意图中每个节点的异常分析结果。其中，任一节点的特征向量与解码向量之间的差异越大，或者，任一节点的采样向量与数据增强图中相应节点的采样向量之间的差异越大，该节点为异常节点（该节点的出边的边属性值异常）的可能性越高。

在一些实施例中，可以计算钢铁生产示意图中任一节点的特征向量与该节点的解码向量之间的第一差异，并计算钢铁生产示意图中任一增强节点的采样向量以及数据增强图中相应节点的采样向量之间的第二差异。即，对于增强节点，其对应有第一差异和第二差异，而其他节点对应有第一差异。针对钢铁生产示意图中的任一增强节点，对该增强节点对应的第一差异和第二差异进行加权求和，得到该增强节点的异常得分，其中第一差异和第二差异对应的权重可以预先设定；针对钢铁生产示意图中的其他节点（即增强节点以外的节点），基于相应节点对应的第一差异确定相应节点的异常得分。若钢铁生产示意图中的任一节点的异常得分大于预设阈值，则确定钢铁生产示意图中的该节点的异常分析结果为异常。

在另一些实施例中，异常分析模型是基于如下步骤训练得到的：基于异常分析模型对历史钢铁生产示意图和历史钢铁生产示意图的历史增强图进行处理，得到历史钢铁生产示意图中每个样本节点的编码向量、采样向量和解码向量，以及历史增强图中每个样本节点的编码向量和采样向量。需要说明的是，历史钢铁生产示意图是首次进行异常分析的钢铁生产示意图之前的历史版本。随后，计算历史钢铁生产示意图中任一样本节点的特征向量与该样本节点的解码向量之间的第一差异，并计算历史钢铁生产示意图中任一样本增强节点的采样向量以及历史增强图中相应样本节点的采样向量之间的第二差异。针对历史钢铁生产示意图中的任一样本增强节点，对该样本增强节点对应的第一差异和第二差异进行加权求和，得到该样本增强节点的异常得分；针对历史钢铁生产示意图中的其他样本节点，基于相应样本节点对应的第一差异确定相应样本节点的异常得分。基于历史钢铁生产示意图中各个样本节点的异常得分之和，确定模型总损失，并基于该模型总损失对异常分析模型进行反向参数更新。

由上述模型损失的计算方式可知，训练过程中的异常分析模型会尽可能缩小样本增强节点对应的第一差异和第二差异以及其他节点对应的第一差异。之所以能够利用钢铁生产示意图中每个节点的特征矩阵与钢铁生产示意图中每个节点的解码向量之间的差异，以及钢铁生产示意图中每个节点的采样向量与数据增强图中相应节点的采样向量之间的差异，识别出钢铁生产示意图中的异常节点，则是因为异常分析模型在训练过程中所采用的训练样本中，正常节点占很大比重，而异常节点是稀疏的，因此训练后的异常分析模型对于正常节点的特征向量可以准确地进行特征编码和解码，但其对异常节点的处理能力会较差。因此，对于正常节点而言，其特征向量与异常分析模型的多层感知机输出的解码向量之间是相似的，而对于异常节点而言，由于异常分析模型的编解码能力欠佳，因此其特征向量与异常分析模型的多层感知机输出的解码向量之间是差异较大的。

此外，对于进行了数据增强的增强节点，数据增强方式可以为增强节点的特征向量添加差异，对于训练样本中占大比重的正常节点而言，经过训练的异常分析模型的采样层能够在采样过程中将该差异筛除，因此对于某个正常节点而言，其采样向量与数据增强图中相应节点的采样向量是相似的，而对于异常节点而言，数据增强方式所引入的差异可能会对异常节点的特征向量产生异常分析模型未知的影响，导致采样层很难在采样过程中将该差异筛除，因此对于某个异常节点而言，其采样向量与数据增强图中相应节点的采样向量是差异较大的。因此，训练好的异常分析模型对异常节点是敏感的，根据上述特性可以准确地将钢铁生产示意图中的节点识别出来。

综上所述，本发明实施例提供的方法，通过确定钢铁行业碳核算所需采集数据项的数据描述信息以构建元数据仓库，将元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到元数据仓库中的命中数据项以及命中数据源中与命中数据项匹配的数据地址，随后基于钢铁生产工序生成钢铁生产示意图，基于命中数据项的数据描述信息，确定各个命中数据项在钢铁生产示意图中对应的边，并将命中数据项作为边属性名写入至相应边的属性信息中，以更直观展示钢铁行业各工序之间碳数据的来龙去脉，可以更精准地获取碳核算所需的数据，提高数据的真实性、可信度和可维护性，同时降低数据异常的检测难度，当到达数据更新时间点时，基于命中数据源中与命中数据项匹配的数据地址，从命中数据源中抽取命中数据项的数据值，并将命中数据项的数据值作为边属性值更新至相应边的属性信息中，当钢铁行业碳核算的核算方式发生变化，导致所需采集数据项存在变动时，可以通过更新元数据仓库、重新匹配元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件以及更新钢铁生产示意图，即可以在下次到达数据更新时间点时实现碳数据的更新，使其与新的碳核算方式自适应。

下面对本发明提供的钢铁行业碳排放数据管理装置进行描述，下文描述的钢铁行业碳排放数据管理装置与上文描述的钢铁行业碳排放数据管理方法可相互对应参照。

基于上述任一实施例，图4是本发明提供的钢铁行业碳排放数据管理装置的结构示意图，如图4所示，该装置包括：

元数据获取单元410，用于确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；

数据源匹配单元420，用于获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；

边属性名设置单元430，用于基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；

边属性值更新单元440，用于当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

本发明实施例提供的装置，通过确定钢铁行业碳核算所需采集数据项的数据描述信息以构建元数据仓库，将元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到元数据仓库中的命中数据项以及命中数据源中与命中数据项匹配的数据地址，随后基于钢铁生产工序生成钢铁生产示意图，基于命中数据项的数据描述信息，确定各个命中数据项在钢铁生产示意图中对应的边，并将命中数据项作为边属性名写入至相应边的属性信息中，以更直观展示钢铁行业各工序之间碳数据的来龙去脉，可以更精准地获取碳核算所需的数据，提高数据的真实性、可信度和可维护性，同时降低数据异常的检测难度，当到达数据更新时间点时，基于命中数据源中与命中数据项匹配的数据地址，从命中数据源中抽取命中数据项的数据值，并将命中数据项的数据值作为边属性值更新至相应边的属性信息中，当钢铁行业碳核算的核算方式发生变化，导致所需采集数据项存在变动时，可以通过更新元数据仓库、重新匹配元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件以及更新钢铁生产示意图，即可以在下次到达数据更新时间点时实现碳数据的更新，使其与新的碳核算方式自适应。

基于上述任一实施例，所述从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中，具体包括：

基于上述任一实施例，该装置还包括异常分析单元，所述基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中之后，异常分析单元用于：

基于上述任一实施例，所述基于所述异常分析模型的采样层分别对所述钢铁生产示意图中每个节点的编码向量以及所述数据增强图中每个节点的编码向量进行采样，得到所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中每个节点的采样向量，具体包括：

基于上述任一实施例，所述对所述钢铁生产示意图中的节点进行数据增强，得到数据增强图，具体包括：

基于上述任一实施例，所述基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量与所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果，具体包括：

基于上述任一实施例，所述异常分析模型是基于如下步骤训练得到的：

图5是本发明提供的电子设备的结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、存储器(memory)520、通信接口(Communications Interface)530和通信总线540，其中，处理器510，存储器520，通信接口530通过通信总线540完成相互间的通信。处理器510可以调用存储器520中的逻辑指令，以执行钢铁行业碳排放数据管理方法，该方法包括：确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

此外，上述的存储器520中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的钢铁行业碳排放数据管理方法，该方法包括：确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的钢铁行业碳排放数据管理方法，该方法包括：确定钢铁行业碳核算所需采集数据项的数据描述信息，并基于各个数据项的数据描述信息构建元数据仓库；获取企业内涉及碳排放的系统以及所述系统对应的数据源，并将所述元数据仓库中各数据项的数据描述信息与各个系统对应的数据源中的数据描述文件进行匹配，得到所述元数据仓库中的命中数据项以及命中数据源中与所述命中数据项匹配的数据地址；基于钢铁生产工序生成钢铁生产示意图，基于所述命中数据项的数据描述信息，确定各个命中数据项在所述钢铁生产示意图中对应的边，并将所述命中数据项作为边属性名写入至相应边的属性信息中；当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种钢铁行业碳排放数据管理方法，其特征在于，包括：

当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中；

所述基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中，之后还包括：

基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量与所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果；

所述基于所述异常分析模型的采样层分别对所述钢铁生产示意图中每个节点的编码向量以及所述数据增强图中每个节点的编码向量进行采样，得到所述钢铁生产示意图中每个节点的采样向量以及所述数据增强图中每个节点的采样向量，具体包括：

基于softmax函数对所述任一节点的初始采样向量进行处理，得到所述任一节点的采样向量；

所述对所述钢铁生产示意图中的节点进行数据增强，得到数据增强图，具体包括：

基于各个增强节点对应的最接近邻居节点的特征向量，对相应增强节点的特征向量进行变换，得到数据增强图；其中，任一节点的特征向量是基于所述钢铁生产示意图中每个节点的特征矩阵确定的；

所述基于所述钢铁生产示意图中每个节点的特征矩阵与所述钢铁生产示意图中每个节点的解码向量之间的差异，以及所述钢铁生产示意图中每个节点的采样向量与所述数据增强图中相应节点的采样向量之间的差异，确定所述钢铁生产示意图中每个节点的异常分析结果，具体包括：

2.根据权利要求1所述的钢铁行业碳排放数据管理方法，其特征在于，所述从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中，具体包括：

3.根据权利要求1或2所述的钢铁行业碳排放数据管理方法，其特征在于，所述异常分析模型是基于如下步骤训练得到的：

4.一种钢铁行业碳排放数据管理装置，其特征在于，包括：

边属性值更新单元，用于当到达数据更新时间点时，基于命中数据源中与所述命中数据项匹配的数据地址，从所述命中数据源中抽取所述命中数据项的数据值，并将所述命中数据项的数据值作为边属性值更新至相应边的属性信息中；

5.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至3任一项所述钢铁行业碳排放数据管理方法。

6.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至3任一项所述钢铁行业碳排放数据管理方法。