CN116383414A

CN116383414A - 一种基于碳核查知识图谱的智能文件评审系统及方法

Info

Publication number: CN116383414A
Application number: CN202310036553.1A
Authority: CN
Inventors: 董真; 陈甜甜; 程凡; 刘婧; 杜凤青; 赵林萱; 李莉华; 毕忠勤; 张伟娜
Original assignee: Shanghai University of Electric Power; State Grid Shanghai Electric Power Co Ltd
Current assignee: Shanghai University of Electric Power; State Grid Shanghai Electric Power Co Ltd
Priority date: 2023-01-10
Filing date: 2023-01-10
Publication date: 2023-07-04

Abstract

本发明涉及一种基于碳核查知识图谱的智能文件评审系统及方法，系统包括：文本数据获取模块，获取碳核查阶段的双碳文本数据；知识图谱构建模块，基于双碳文本数据建立碳核查知识图谱；评审模块，获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。与现有技术相比，本发明通过收集碳核查工作流程中相关的法规、政策、标准以及企业的碳盘查报告等文本数据，提取碳核查过程中相关的实体、关系，并通过知识推理的方式构建面向碳核查的双碳知识图谱；基于知识图谱提取依次提取各类文本中的相关实体及其数据，根据碳排放范围的界定、排放源类型、排放因子的选择以及碳排放计算公式核查企业碳排放报告中数据的完整性、一致性和准确性。

Description

一种基于碳核查知识图谱的智能文件评审系统及方法

技术领域

本发明涉及碳核查技术领域，尤其是涉及一种基于碳核查知识图谱的智能文件评审系统及方法。

背景技术

目前，由于各企业数据基础以及业务类型的不同，导致碳核查范围、数据格式和依据标准都存在差异，给以纸本作业为主的碳核查工作带来巨大挑战。基于人工智能技术的碳排放监测平台可以辅助从原料端到成品的能源消耗监测，明确碳盘查工作的数据范围，实时动态获取碳排放浓度，统一碳排放数据格式，实现碳排放气体的精准计算和核查。

中国专利申请CN109670785A公开了一种碳盘查/碳核查管理系统及方法，通过在线检测模块对对碳排放量进行采集，通过数据处理模块对采集的碳排放量进行存储、计算和分析，通过报告生成模块将分析后的数据导出并生成碳排放信息报告，通过验证模块对生成的报告进行核证和改善，实现了企业碳盘查的数字化管理和智能化分析和报告。

但是，在碳核查阶段，一般由第三方机构参考、依据国际、国内的相关法规、政策和标准，从中查阅与企业业务类型一致的核查范围及标准，对参与碳排放权交易的企业提交的碳盘查报告文件进行评审。在此过程中以文本理解、检索和生成为主，以数据管理和计算模块为主的碳排放监测平台无法建立核查范围内各类对象之间的关系，难以实现对核查政策和标准等文本的参考和查阅。而以人工纸本作业为主的碳核查过程繁琐耗时，且查证困难。

因此，为了全面落实碳核查管理体系，实现数字化和智能化的碳核查，亟需建立碳核查工作中相关主体以及对象之间的知识图谱，并基于知识图谱完成碳核查阶段的文本智能评审。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于碳核查知识图谱的智能文件评审系统及方法。

本发明的目的可以通过以下技术方案来实现：

一种基于碳核查知识图谱的智能文件评审系统，包括：

文本数据获取模块，用于获取碳核查阶段的双碳文本数据；

知识图谱构建模块，用于基于所述双碳文本数据建立碳核查知识图谱；

评审模块，用于获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。

进一步地，所述双碳文本数据包括国内外碳减排法规，国内外碳税、碳补贴政策，国内外碳排放标准，企业碳盘查报告。

进一步地，所述建立碳核查知识图谱包括以下步骤：

S01、双碳文本数据的预处理；

S02、识别并标注双碳文本数据中的实体；

S03、确定实体之间的关系；

S04、补齐实体修饰词；

S05、设定双碳文本三元组，进行三元组表示和归并；

S06、进行知识推理，丰富实体之间的关系。

进一步地，步骤S01具体为：

去除双碳文本数据的噪声信息，通过文本解析，从文本全文数据中提取出文件信息。

进一步地，步骤S02具体为：

构建BiLSTM网络作为实体识别模型，使用CRF对实体识别模型输出的标签加入约束和限制，构建训练集，使用训练集训练所述实体识别模型，得到训练好的实体识别模型；将双碳文本数据转化为句向量，使用所述实体识别模型识别并标注双碳文本数据中的实体。

进一步地，步骤S04中，对实体识别模型得到的实体的定语进行补充。

进一步地，步骤S05具体为：从语义层面为实体和关系设定模板，模板以外的三元组不加入到碳核查知识图谱中，使用Trans P为原始三元组嵌入向量，基于所得嵌入向量，使用平衡迭代削减层次聚类模型BIRCH进行三元组归并。

进一步地，步骤S06中，使用图结构构建路径，将路径进行向量化表示，将知识推理任务转换为决策问题，把实体和关系分别构建为状态空间和行动空间，通过实体游走进行状态的转换，补充实体之间的关系。

进一步地，基于所述碳核查知识图谱进行文件评审包括以下步骤：

T01、设定边界；

T02、从碳盘查报告中的排放设施和排放源清单文本中识别排放源；

T03、选择量化方法；

T04、从碳盘查报告中收集并核查活动数据；

T05、确定并核查活动数据；

T06、计算、汇总、核查排放量。

一种基于碳核查知识图谱的智能文件评审方法，包括：

获取碳核查阶段的双碳文本数据；

基于所述双碳文本数据建立碳核查知识图谱；

获取待评审的碳盘查报告并基于所述碳核查知识图谱进行文件评审。

与现有技术相比，本发明具有以下有益效果：

(1)本发明通过收集碳核查工作流程中相关的法规、政策、标准以及企业的碳盘查报告等文本数据，提取碳核查过程中相关的实体、关系，并通过知识推理的方式构建面向碳核查的双碳知识图谱；依据碳核查的文件评审工作流程，基于知识图谱提取依次提取各类文本中的相关实体及其数据，根据碳排放范围的界定、排放源类型、排放因子的选择以及碳排放计算公式核查企业碳排放报告中数据的完整性、一致性和准确性。

(2)本发明实现了碳核查工作中文件评审步骤的智能化操作，提高人工评审、计算和核对的效率，通过数字化的方式提升碳核查质量。

附图说明

图1示出了基于碳核查知识图谱的智能文本评审系统的执行流程；

图2示出了碳核查知识图谱构建流程；

图3示出了碳排放标准知识图谱示例；

图4示出了基于ISO14064-1的碳核查智能文件评审流程。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本申请从碳核查相关的国际、国内的相关法规、政策、标准和参与碳排放权交易企业提交的碳盘查报告等文本文件进行实体和关系提取，构建面向碳核查的双碳领域知识图谱；基于该知识图谱，对碳核查相关文本文件进行智能化分析，支撑碳核查工作中对法规和政策依据的查询、碳排放标准的检索、碳盘查报告的审核、碳核查报告的生成。

一种基于碳核查知识图谱的智能文件评审系统，包括文本数据获取模块、知识图谱构建模块和评审模块，其执行流程如图1所示，具体的，各个模块如下：

(A)文本数据获取模块，用于获取碳核查阶段的双碳文本数据；双碳文本数据包括国内外碳减排法规，国内外碳税、碳补贴政策，国内外碳排放标准，企业碳盘查报告。

本实施例中，双碳文本数据的收集步骤具体为：

a01)国际温室气体排放相关法规；包括：《联合国气候变化框架公约》、《京都议定书》、《欧盟排放交易令》；

a02)国内温室气体排放相关法规；

a03)国际碳税政策措施；包括：以芬兰、挪威为代表的北欧国家碳税体系、以英国、德国等为代表的经济发达国家的碳税体系、以日本和其他国家为代表的碳税体系；

a04)国内碳税政策措施；

a05)国际温室气体排放标准：ISO14064系列标准、ISO14065、ISO14066、ISO14067、、ISO/TR 14069:2013、ISO 14080:2018、ISO 14090:2019、ISO 14091:2021、ISO/TS 14092:2020、ISO/TR 27912-21922等关于二氧化碳捕集、运输和封存等相关标准；

a06)中国政府相继发布的24个行业温室气体排放核算方法与报告指南；

a07)参与碳排放权交易企业提交的碳盘查报告；

当然，可以理解的是，收集上述双碳文本数据时，还应该对法规、政策、标准的时效性进行判别，选择当前适用的版本。

(B)知识图谱构建模块，用于基于双碳文本数据建立碳核查知识图谱；如图2所示，建立碳核查知识图谱包括以下步骤：

S01、双碳文本数据的预处理；

首先通过文本预处理去除一些特殊符号等噪声信息。通过文本解析，使用TextRank(文本排序算法)、LDA(主题模型算法)等从文本全文数据中提取出摘要、主题、关键词、类型(政策、法规、标准、报告)、时间等文件信息。以标准ISO/TR 27921:为例，该文本类型为标准，主题为“碳捕集与碳封存”，关键词包含“碳捕集”、“碳运输与地质封存”、“共性问题”、“二氧化碳碳流成分”，时间为“2020年”。

S02、识别并标注双碳文本数据中的实体；

构建基于句法分析的实体抽取模型；抽取模板可视作词语、词性标签、依存路径的组合，且可大致被分为三类：修饰、动词以及并列关系模板。修饰类模板主要关注语境中对实体对的修饰元素，并将句法依存关系中的支配词(head word)作为实体，从修饰词(attributive word)中抽取关系。动词类模板重点关注实体对之间的谓词短语，并从中抽取关系。并列类模板的目的是找到在句法树中地位平等的实体活动词短语，称之为并列关系，而其中一个所拥有的关系三元组，理应同样适用于另一个，即二者可互换。

本实施例中，构建BiLSTM网络作为实体识别模型，使用CRF(Conditional RandomFields)对实体识别模型输出的标签加入约束和限制，构建训练集，使用训练集训练实体识别模型，得到训练好的实体识别模型；将双碳文本数据转化为句向量，使用实体识别模型识别并标注双碳文本数据中的实体。

BiLSTM的细胞单元中引入了“门”机制，通过“门”可以使神经网络记忆主要信息，忘记次要信息，以此提升神经网络对较长文本的整体语义把握。CRF则对模型输出的标签加入约束和限制，避免出现不合理的实体标签。

针对基于深度学习的实体识别模型需要大量人工标注的问题，本申请提出自监督的深度学习模型训练方法。首先将少量的人工标注数据构建训练集，将训练集通过Bert输出包含语义的句向量表示，使用句向量训练Bi LSTM+CRF实体识别模型。具体为：

将少量的人工标注数据构建训练集，将训练集通过Bert输出包含语义的句向量表示，使用句向量训练Bi LSTM+CRF实体识别模型，实体识别模型拟合后，将未标注的全文数据使用Bert转化为句向量后使用已有模型预测其标签。将预测数据进行置信度判断，并设置置信度阈值。将置信度高于阈值的样本添加到已有训练集，得到新的训练集，使用新的训练集继续训练实体识别模型。如此循环迭代，直至模型性能不再提升，完成实体识别模型训练，再将全文数据输入到训练完成的实体识别模型中输出实体标记。

S03、确定实体之间的关系；

关系抽取模型。根据已经识别出的实体和全文数据提取实体之间的关系。将全部实体加入Pkuseg(北大分词工具)的用户字典以保证实体分词的准确性。将全文数据使用Pkuseg分词后输入COBW(连续词袋模型)中转化为词向量。之后使用BiLSTM获得整个全文数据的语义编码。由于在全文数据中包含着除实体和实体之间关系的大量噪声信息，在关系抽取模型中引入注意力机制，注意力机制可以根据样本数据自动调整权重大小，使模型更加关注实体和实体之间的关系，更少关注噪声信息。

其中，权重调整如下：BiLSTM层时刻的状态对后面连接的输出层时刻的影响程度由和输出层时刻的状态计算得出。通过softmax归一化获得注意力权重。代表在时刻输出层的语义向量由多个时刻的隐藏状态与其对应的注意力权重相乘求和获得。使用注意力机制不仅能提升关系抽取的准确性，还能降低模型的计算复杂度，提高模型的运行效率。最后，使用实体识别的结果对实体关系抽取的预测结果进行校正。

S04、补齐实体修饰词；

补齐实体修饰词；在实际应用中，基于句法分析的抽取模型能够较为准确地抽取到文本中的关系三元组。然而，国际、国内法规、政策和标准的语料中通常包含大量专有名词，包括机构名称、政策标题等。此类专有名词一般由多个修饰词和一个支配词组成，因此很难在预处理中的分词过程中完整保留下来。加之，专有名词的种类繁多且不确定，因而无法通过给分词模型添加用户词典的方式避免其被分割。这就会导致抽取到的政策实体丢失重要的定语，即实体的修饰词，从而造成理解上的偏差和歧义。本申请基于句法分析的结果对句法分析抽取模型抽取到的实体的定语进行补充，同时返回句子中所有以ATT标签依赖于实体的词语，词语的顺序与原文中保持一致。

碳核查实体对齐。将数据预处理层产生的全文数据、摘要以及主题、关键字、时间、来源、类型等属性数据进行充分利用。将全文数据整体和摘要数据整体分别使用Bert转化为向量表示。在样本数据之间分别计算实体全文余弦相似度和实体摘要余弦相似度，两种相似度结合用以判断档案样本数据之间的语义相似度。属性数据包含了多种数据，因此相似度的计算也不相同。主题、关键字属于文本信息，使用CBOW生成对应的向量表示。来源、类型转化为One-Hot编码(独热编码)。时间则使用时间戳转为数值型数据。将各属性数据转化为的向量进行拼接，计算属性数据的余弦相似度。

S05、设定双碳文本三元组，进行三元组表示和归并；

1)双碳文本三元组的模式化设定；在对原始文本三元组进行表示和归并前，本申请针对碳核查文本的特点，为碳核查实体和关系从语义层面设定模板。对于模板以外的三元组，认为其与碳核查的联系不紧，不予加入到产业政策知识图谱中。

2)基于Trans P的三元组表示；考虑到从碳核查文本中抽取到的实体和关系通常包含丰富的实际语义，且需要根据语义对三元组进行归并，本申请使用能够编码语义信息的表示模型Trans P为原始三元组生成嵌入向量。

3)基于BIRCH的三元组归并；由于句法分析的抽取模型为开放域三元组抽取模型，抽取到的碳核查实体、关系所属类别数量较多，且难以事先确定，本申请基于所得嵌入向量v，利用层次聚类模型对原始三元组进行归并分组。在层次聚类模型中，平衡迭代削减层次聚类模型(Balanced Iterative Reducing and Clustering Using Hierarchies,BIRCH)有着较优的时间复杂度，O(N)，其中N为样本数量。考虑到从碳核查文本中抽取到的原始三元组数量庞大，选择BIRCH作为层次聚类模型。

具体的，本申请使用预训练的中文词向量作为实体和关系的初始向量。为了降低定语和副词对表示向量的影响，对于实体，本申请仅选择其中的名词性成分的词向量作为其初始向量；对于关系，本申请仅选择其中的动词性成分的词向量。BIRCH通过构建聚类特征树(Clustering Feature Tree,CF Tree)实现只需要单次扫描数据集即可完成聚类，每棵CF Tree则由若干聚类特征(Clustering Feature,CF)组成。

S06、进行知识推理，丰富实体之间的关系。

经过以上几步的处理已经构建出了知识图谱的雏形，生成了“头实体—关系—尾实体”三元组。但此时存在实体之间关系稀疏的问题，进行知识推理，可以丰富实体之间的关系，达到补足知识图谱的目的。

首先，使用图结构构建路径；其次，使用嵌入表示将路径进行向量化的表示；再次，将知识推理任务转换为决策问题，把实体和关系分别构建为状态空间与行动空间，通过实体游走进行状态的转换，发现正确的实体与关系即给予模型奖励，以此进行模型的训练与优化。将向量输入到训练完成的深度强化学习模型中进行知识推理，补全知识图谱中的关系。最终，输出构建完成的知识图谱。以碳排放标准为例的知识图谱示意如图3所示。

本申请将图结构、嵌入表示、深度强化学习结合，提出一种混合知识推理的方法。一方面，使用图结构方法使模型具有较强的可解释性，另一方面，使用嵌入表示和深度强化学习使模型具有较高的计算效率和推理性能。

(C)评审模块，用于获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。

根据2021年3月环境部《企业温室气体排放报告核查指南(试行)》，核查程序包括：核查安排、建立核查技术工作组、文件评审、建立现场核查组、实施现场核查、出具《核查结论》、告知核查结果、保存核查记录等八个步骤，其中文件评审对应如图4所示的量化温室气体排放，包括：识别排放源、选择量化方法、提取活动数据、确定排放因子、计算并汇总排放量，然后输出量化方法、排放因子以及排放量的核查结果。具体的，本实施例中，基于碳核查知识图谱进行文件评审包括以下步骤：

T01、碳核查边界及基准年的设定；

在采用股权比例法确定组织边界时，组织应根据其在具体业务中所占的股权比例确定其在业务中所占的排放量。在使用控制权法确定组织边界时，组织只核算其拥有控制权业务所产生的温室气体排放，对于那些拥有所有权但不控制的业务，不应出现在组织确定的组织边界中。将不同的排放源分为直接温室气体排放、能源间接温室气体排放和其他间接温室气体排放。

从碳盘查报告中的排放设施和排放源清单文本中提取排放源，并标注排放源类别：固定燃烧排放、移动燃烧排放、制程排放、逸散排放；

T03、选择量化方法；

T04、从碳盘查报告中收集并核查活动数据；

从碳盘查报告中提取活动数据：直接温室气体排放、间接温室气体排放；其中，固定燃烧排放的消耗量＝购买量+(期初存储量-期末存储量)-其他用量；移动燃烧排放通过燃料消耗和车辆行驶里程数获得；两类逸散量＝年初时库存的总质量+本年度购买的总质量-年底库存总质量-其他用途的使用量。

从国内外温室气体排放最新标准中提取排放源的国际、国家、区域、设备制造商提供、相同工艺或设备的经验以及测量或质量平衡等各类排放因子等数据；

T05、确定并核查活动数据；

T06、计算、汇总、核查排放量。

通过活动数据以及排放因子计算排放量并汇总排放数据，温室气体排放量＝活动数据×排放因子数据×全球增温潜势；

核查活动数据是否完整、排放因子的单位转换是否正确；核算排放源排放量的计算是否正确；核查温室气体排放量汇总结果是否一致。

本申请还提供一种基于碳核查知识图谱的智能文件评审方法，包括：

获取碳核查阶段的双碳文本数据；

基于双碳文本数据建立碳核查知识图谱；

获取待评审的碳盘查报告并基于碳核查知识图谱进行文件评审。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于碳核查知识图谱的智能文件评审系统，其特征在于，包括：

文本数据获取模块，用于获取碳核查阶段的双碳文本数据；

2.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，所述双碳文本数据包括国内外碳减排法规，国内外碳税、碳补贴政策，国内外碳排放标准，企业碳盘查报告。

3.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，所述建立碳核查知识图谱包括以下步骤：

S01、双碳文本数据的预处理；

S02、识别并标注双碳文本数据中的实体；

S03、确定实体之间的关系；

S04、补齐实体修饰词；

S05、设定双碳文本三元组，进行三元组表示和归并；

S06、进行知识推理，丰富实体之间的关系。

4.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，步骤S01具体为：

5.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，步骤S02具体为：

6.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，步骤S04中，对实体识别模型得到的实体的定语进行补充。

7.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，步骤S05具体为：从语义层面为实体和关系设定模板，模板以外的三元组不加入到碳核查知识图谱中，使用Trans P为原始三元组嵌入向量，基于所得嵌入向量，使用平衡迭代削减层次聚类模型BIRCH进行三元组归并。

8.根据权利要求3所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，步骤S06中，使用图结构构建路径，将路径进行向量化表示，将知识推理任务转换为决策问题，把实体和关系分别构建为状态空间和行动空间，通过实体游走进行状态的转换，补充实体之间的关系。

9.根据权利要求1所述的一种基于碳核查知识图谱的智能文件评审系统，其特征在于，基于所述碳核查知识图谱进行文件评审包括以下步骤：

T01、设定边界；

T03、选择量化方法；

T04、从碳盘查报告中收集并核查活动数据；

T05、确定并核查活动数据；

T06、计算、汇总、核查排放量。

10.一种基于碳核查知识图谱的智能文件评审方法，其特征在于，基于如权利要求1-9中任一所述的智能文件评审系统，包括：

获取碳核查阶段的双碳文本数据；

基于所述双碳文本数据建立碳核查知识图谱；