CN114282007A

CN114282007A - 一种能源消费与碳排放的知识图谱实体提取方法

Info

Publication number: CN114282007A
Application number: CN202111492360.4A
Authority: CN
Inventors: 何清素; 靳丹; 张兆师; 韩庆之; 何少军; 张天泰; 梁嘉文; 闵剑虹; 闵永智; 孙晓丽
Original assignee: Gannan Power Supply Co Of State Grid Gansu Electric Power Co; Gansu Tongxing Intelligent Technology Development Co Ltd
Current assignee: Gannan Power Supply Co Of State Grid Gansu Electric Power Co; Gansu Tongxing Intelligent Technology Development Co Ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-04-05

Abstract

本发明涉及能源消费领域，具体涉及一种能源消费与碳排放的知识图谱实体提取方法。其通过对能源消费实体进行形式化描述；采用实体抽取模型对能源消费实体进行实体抽取以及对未标注样本进行预测标注。解决了能源消费领域带标签的实体数据较少、获取标注数据成本昂贵的问题，同时也对对能源行业的碳排放预测提供了重要的数据依托。

Description

一种能源消费与碳排放的知识图谱实体提取方法

技术领域

本发明涉及能源消费领域，具体涉及一种能源消费与碳排放的知识图谱实体提取方法。

背景技术

随着全球温度的不断上升，气候变暖问题逐渐成为当前人类面临的重大环境问题之一。针对碳排放问题，如果不能通过有效的监控与预测措施来降低碳排放量，人类环境问题将更加严峻。电网企业主要掌握企业用电数据，这些用电数据为能源消费知识图谱构建提供了规模巨大且类型多样的数据资源，是一个海量的语料库，也是能源大数据分析的基础。现阶段以自然语言文本描述的非结构化数据是能源消费数据利用方面的一大障碍，但是由于自然语言没有相对统一的结构，其所有的监督学习模型依赖大量标注数据，而能源消费领域标注数据缺乏，对能源消费中的非结构化数据提取非常困难，进一步导致无法对能源企业做进一步的碳排放预测。

发明内容

本发明的目的在于提出了一种能源消费与碳排放的知识图谱实体提取方法，以解决能源消费领域带标签的实体数据较少、获取标注数据成本昂贵的问题，从而对能源行业的碳排放预测提供重要的数据依托。

为实现上述目的，本发明提供如下技术方案：

一种能源消费与碳排放的知识图谱实体提取方法,包括以下步骤：

S1.对能源消费实体进行形式化描述；

S2.采用实体抽取模型对步骤S1所述的能源消费实体进行实体抽取；

S3.对步骤S2中未标注样本进行预测标注。

进一步地，步骤S1中，所述形式化描述的方法为，(a)收集不同类型能源消费相关文本信息；(b)计算相应碳排放值；(c)定义能源消费领域的实体类型，随后对能源消费进行标注形成数据集，最后将所得到的数据集添加到训练集。

进一步地，所述步骤S2中，实体抽取模型采用基于transform的特征提取。

进一步地，所述基于transform的特征的提取方法包括以下步骤：

S2.1、Transformer模型首先对输入序列每个字之间的特征关系进行提取与捕捉；

S2.2、随后Transformer模型通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠；

S2.3、然后Transformer模型发现单字在不同语境下的不同语义，从而实现一词多义的区分，就可获得双向的上下文相关的词向量；

S2.4、最后采用条件随机场算法(CRF)进行实体预测了，CRF是一种判别概率模型，它关注句子的整体位置，依据目标观测序列对其最有可能的输出标注序列进行预测。

进一步地，所述步骤S3中，对未标注样本进行预测标注的步骤包括：

S3.1、利用transform层对无标注数据进行训练得到每个无标注的样本对应的置信度得分，并按照得分由高到低进行排序，将得分大于一定阈值的样本视为准标注样本；

S3.2、然后将得到准标注样本输入到CRF模型中进行预测，同样得到每个无标注样本的预测标签和相应的概率，并设置一个与transform层不同的阈值，概率大于该阈值的样本被视为标注样本，并更新标签，将其添加到训练集中。

综上所述，由于采用了上述技术方案，本发明的有益技术效果是：

一种能源消费与碳排放的知识图谱实体提取方法采用基于transform的特征提取方法能够有效解决能源消费领域带标签的实体数据较少、获取标注数据成本昂贵问题，为进一步对能源行业的碳排放预测提供重要数据基础。Transformer模型可以对输入序列每个字之间的特征关系进行提取与捕捉。通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠，Transformer模型可以发现单字在不同语境下的不同语义，从而实现一词多义的区分，获得双向的上下文相关的词向量，比BiLSTM具备更强的特征提取性能。

附图说明

图1一种能源消费与碳排放的知识图谱实体提取方法的逻辑框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

S1.对能源消费实体进行形式化描述；

S3.对步骤S2中未标注样本进行预测标注。

步骤S1中，所述形式化描述的方法为，(a)收集不同类型能源消费相关文本信息；(b)计算相应碳排放值；(c)定义能源消费领域的实体类型，随后对能源消费进行标注形成数据集，最后将所得到的数据集添加到训练集。

所述步骤S2中，实体抽取模型采用基于transform的特征提取；基于transform的特征的提取方法包括以下步骤：

所述步骤S3中，对未标注样本进行预测标注的步骤包括：S3.1、利用transform层对无标注数据进行训练得到每个无标注的样本对应的置信度得分，并按照得分由高到低进行排序，将得分大于一定阈值的样本视为准标注样本；S3.2、然后将得到准标注样本输入到CRF模型中进行预测，同样得到每个无标注样本的预测标签和相应的概率，并设置一个与transform层不同的阈值，概率大于该阈值的样本被视为标注样本，并更新标签，将其添加到训练集中。

以上所述为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种能源消费与碳排放的知识图谱实体提取方法,其特征在于：包括以下步骤：

S1.对能源消费实体进行形式化描述；

S3.对步骤S2中未标注样本进行预测标注。

2.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于：步骤S1中，所述形式化描述的方法为，(a)收集不同类型能源消费相关文本信息；(b)计算相应碳排放值；(c)定义能源消费领域的实体类型，随后对能源消费进行标注形成数据集，最后将所得到的数据集添加到训练集。

3.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于：所述步骤S2中，实体抽取模型采用基于transform的特征提取。

4.根据权利要求3所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于：所述基于transform的特征的提取方法包括以下步骤：

S2.2、随后Transformer模型通过自注意力机制和对多个基本的编码器与解码器单元进行连续堆叠；

S2.4、最后采用条件随机场算法进行实体预测了，CRF是一种判别概率模型，它关注句子的整体位置，依据目标观测序列对其最有可能的输出标注序列进行预测。

5.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于：所述步骤S3中，对未标注样本进行预测标注的步骤包括：

S3.1、利用transform层对无标注数据进行训练，得到每个无标注的样本对应的置信度得分，并按照得分由高到低进行排序，将得分大于一定阈值的样本视为准标注样本；