CN114282007A - 一种能源消费与碳排放的知识图谱实体提取方法 - Google Patents
一种能源消费与碳排放的知识图谱实体提取方法 Download PDFInfo
- Publication number
- CN114282007A CN114282007A CN202111492360.4A CN202111492360A CN114282007A CN 114282007 A CN114282007 A CN 114282007A CN 202111492360 A CN202111492360 A CN 202111492360A CN 114282007 A CN114282007 A CN 114282007A
- Authority
- CN
- China
- Prior art keywords
- energy consumption
- entity
- label
- model
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及能源消费领域,具体涉及一种能源消费与碳排放的知识图谱实体提取方法。其通过对能源消费实体进行形式化描述;采用实体抽取模型对能源消费实体进行实体抽取以及对未标注样本进行预测标注。解决了能源消费领域带标签的实体数据较少、获取标注数据成本昂贵的问题,同时也对对能源行业的碳排放预测提供了重要的数据依托。
Description
技术领域
本发明涉及能源消费领域,具体涉及一种能源消费与碳排放的知识图谱实体提取方法。
背景技术
随着全球温度的不断上升,气候变暖问题逐渐成为当前人类面临的重大环境问题之一。针对碳排放问题,如果不能通过有效的监控与预测措施来降低碳排放量,人类环境问题将更加严峻。电网企业主要掌握企业用电数据,这些用电数据为能源消费知识图谱构建提供了规模巨大且类型多样的数据资源,是一个海量的语料库,也是能源大数据分析的基础。现阶段以自然语言文本描述的非结构化数据是能源消费数据利用方面的一大障碍,但是由于自然语言没有相对统一的结构,其所有的监督学习模型依赖大量标注数据,而能源消费领域标注数据缺乏,对能源消费中的非结构化数据提取非常困难,进一步导致无法对能源企业做进一步的碳排放预测。
发明内容
本发明的目的在于提出了一种能源消费与碳排放的知识图谱实体提取方法,以解决能源消费领域带标签的实体数据较少、获取标注数据成本昂贵的问题,从而对能源行业的碳排放预测提供重要的数据依托。
为实现上述目的,本发明提供如下技术方案:
一种能源消费与碳排放的知识图谱实体提取方法,包括以下步骤:
S1.对能源消费实体进行形式化描述;
S2.采用实体抽取模型对步骤S1所述的能源消费实体进行实体抽取;
S3.对步骤S2中未标注样本进行预测标注。
进一步地,步骤S1中,所述形式化描述的方法为,(a)收集不同类型能源消费相关文本信息;(b)计算相应碳排放值;(c)定义能源消费领域的实体类型,随后对能源消费进行标注形成数据集,最后将所得到的数据集添加到训练集。
进一步地,所述步骤S2中,实体抽取模型采用基于transform的特征提取。
进一步地,所述基于transform的特征的提取方法包括以下步骤:
S2.1、Transformer模型首先对输入序列每个字之间的特征关系进行提取与捕捉;
S2.2、随后Transformer模型通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠;
S2.3、然后Transformer模型发现单字在不同语境下的不同语义,从而实现一词多义的区分,就可获得双向的上下文相关的词向量;
S2.4、最后采用条件随机场算法(CRF)进行实体预测了,CRF是一种判别概率模型,它关注句子的整体位置,依据目标观测序列对其最有可能的输出标注序列进行预测。
进一步地,所述步骤S3中,对未标注样本进行预测标注的步骤包括:
S3.1、利用transform层对无标注数据进行训练得到每个无标注的样本对应的置信度得分,并按照得分由高到低进行排序,将得分大于一定阈值的样本视为准标注样本;
S3.2、然后将得到准标注样本输入到CRF模型中进行预测,同样得到每个无标注样本的预测标签和相应的概率,并设置一个与transform层不同的阈值,概率大于该阈值的样本被视为标注样本,并更新标签,将其添加到训练集中。
综上所述,由于采用了上述技术方案,本发明的有益技术效果是:
一种能源消费与碳排放的知识图谱实体提取方法采用基于transform的特征提取方法能够有效解决能源消费领域带标签的实体数据较少、获取标注数据成本昂贵问题,为进一步对能源行业的碳排放预测提供重要数据基础。Transformer模型可以对输入序列每个字之间的特征关系进行提取与捕捉。通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠,Transformer模型可以发现单字在不同语境下的不同语义,从而实现一词多义的区分,获得双向的上下文相关的词向量,比BiLSTM具备更强的特征提取性能。
附图说明
图1一种能源消费与碳排放的知识图谱实体提取方法的逻辑框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
一种能源消费与碳排放的知识图谱实体提取方法,包括以下步骤:
S1.对能源消费实体进行形式化描述;
S2.采用实体抽取模型对步骤S1所述的能源消费实体进行实体抽取;
S3.对步骤S2中未标注样本进行预测标注。
步骤S1中,所述形式化描述的方法为,(a)收集不同类型能源消费相关文本信息;(b)计算相应碳排放值;(c)定义能源消费领域的实体类型,随后对能源消费进行标注形成数据集,最后将所得到的数据集添加到训练集。
所述步骤S2中,实体抽取模型采用基于transform的特征提取;基于transform的特征的提取方法包括以下步骤:
S2.1、Transformer模型首先对输入序列每个字之间的特征关系进行提取与捕捉;
S2.2、随后Transformer模型通过自注意力机制和对多个基本的编码器(Encoder)与解码器(Decoder)单元进行连续堆叠;
S2.3、然后Transformer模型发现单字在不同语境下的不同语义,从而实现一词多义的区分,就可获得双向的上下文相关的词向量;
S2.4、最后采用条件随机场算法(CRF)进行实体预测了,CRF是一种判别概率模型,它关注句子的整体位置,依据目标观测序列对其最有可能的输出标注序列进行预测。
所述步骤S3中,对未标注样本进行预测标注的步骤包括:S3.1、利用transform层对无标注数据进行训练得到每个无标注的样本对应的置信度得分,并按照得分由高到低进行排序,将得分大于一定阈值的样本视为准标注样本;S3.2、然后将得到准标注样本输入到CRF模型中进行预测,同样得到每个无标注样本的预测标签和相应的概率,并设置一个与transform层不同的阈值,概率大于该阈值的样本被视为标注样本,并更新标签,将其添加到训练集中。
以上所述为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (5)
1.一种能源消费与碳排放的知识图谱实体提取方法,其特征在于:包括以下步骤:
S1.对能源消费实体进行形式化描述;
S2.采用实体抽取模型对步骤S1所述的能源消费实体进行实体抽取;
S3.对步骤S2中未标注样本进行预测标注。
2.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于:步骤S1中,所述形式化描述的方法为,(a)收集不同类型能源消费相关文本信息;(b)计算相应碳排放值;(c)定义能源消费领域的实体类型,随后对能源消费进行标注形成数据集,最后将所得到的数据集添加到训练集。
3.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于:所述步骤S2中,实体抽取模型采用基于transform的特征提取。
4.根据权利要求3所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于:所述基于transform的特征的提取方法包括以下步骤:
S2.1、Transformer模型首先对输入序列每个字之间的特征关系进行提取与捕捉;
S2.2、随后Transformer模型通过自注意力机制和对多个基本的编码器与解码器单元进行连续堆叠;
S2.3、然后Transformer模型发现单字在不同语境下的不同语义,从而实现一词多义的区分,就可获得双向的上下文相关的词向量;
S2.4、最后采用条件随机场算法进行实体预测了,CRF是一种判别概率模型,它关注句子的整体位置,依据目标观测序列对其最有可能的输出标注序列进行预测。
5.根据权利要求1所述的一种能源消费与碳排放的知识图谱实体提取方法,其特征在于:所述步骤S3中,对未标注样本进行预测标注的步骤包括:
S3.1、利用transform层对无标注数据进行训练,得到每个无标注的样本对应的置信度得分,并按照得分由高到低进行排序,将得分大于一定阈值的样本视为准标注样本;
S3.2、然后将得到准标注样本输入到CRF模型中进行预测,同样得到每个无标注样本的预测标签和相应的概率,并设置一个与transform层不同的阈值,概率大于该阈值的样本被视为标注样本,并更新标签,将其添加到训练集中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111492360.4A CN114282007A (zh) | 2021-12-08 | 2021-12-08 | 一种能源消费与碳排放的知识图谱实体提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111492360.4A CN114282007A (zh) | 2021-12-08 | 2021-12-08 | 一种能源消费与碳排放的知识图谱实体提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114282007A true CN114282007A (zh) | 2022-04-05 |
Family
ID=80871356
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111492360.4A Pending CN114282007A (zh) | 2021-12-08 | 2021-12-08 | 一种能源消费与碳排放的知识图谱实体提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114282007A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462891A (zh) * | 2022-04-07 | 2022-05-10 | 国家电投集团科学技术研究院有限公司 | 一种碳排放检测方法及其装置 |
CN117934209A (zh) * | 2024-03-22 | 2024-04-26 | 广东电网有限责任公司 | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 |
-
2021
- 2021-12-08 CN CN202111492360.4A patent/CN114282007A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114462891A (zh) * | 2022-04-07 | 2022-05-10 | 国家电投集团科学技术研究院有限公司 | 一种碳排放检测方法及其装置 |
CN117934209A (zh) * | 2024-03-22 | 2024-04-26 | 广东电网有限责任公司 | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 |
CN117934209B (zh) * | 2024-03-22 | 2024-05-17 | 广东电网有限责任公司 | 一种基于知识图谱的区域电力系统碳排放大数据分析方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Qiu et al. | Chinese clinical named entity recognition using residual dilated convolutional neural network with conditional random field | |
Seymore et al. | Learning hidden Markov model structure for information extraction | |
CN110083682A (zh) | 一种基于多轮注意力机制的机器阅读理解答案获取方法 | |
CN105404632B (zh) | 基于深度神经网络对生物医学文本序列化标注的系统和方法 | |
CN111666427B (zh) | 一种实体关系联合抽取方法、装置、设备及介质 | |
CN114282007A (zh) | 一种能源消费与碳排放的知识图谱实体提取方法 | |
CN111274790B (zh) | 基于句法依存图的篇章级事件嵌入方法及装置 | |
CN107871158A (zh) | 一种结合序列文本信息的知识图谱表示学习方法及装置 | |
CN113705218B (zh) | 基于字符嵌入的事件元素网格化抽取方法、存储介质及电子装置 | |
CN112749549B (zh) | 一种基于增量学习和多模型融合的中文实体关系抽取方法 | |
CN113743119B (zh) | 中文命名实体识别模块、方法、装置及电子设备 | |
CN110866129A (zh) | 一种基于跨媒体统一表征模型的跨媒体检索方法 | |
Yang et al. | Bidirectional LSTM-CRF for biomedical named entity recognition | |
CN111026880A (zh) | 基于联合学习的司法知识图谱构建方法 | |
Munkhdalai et al. | Bio named entity recognition based on co-training algorithm | |
Rasool et al. | WRS: a novel word-embedding method for real-time sentiment with integrated LSTM-CNN model | |
Wang et al. | Cross-modal image–text search via efficient discrete class alignment hashing | |
Ma et al. | Biomedical event extraction using a new error detection learning approach based on neural network | |
Huang et al. | Disease named entity recognition by machine learning using semantic type of metathesaurus | |
Chen et al. | Question answering over knowledgebase with attention-based LSTM networks and knowledge embeddings | |
Yang et al. | Named entity recognition of power substation knowledge based on transformer-BiLSTM-CRF network | |
Jiang et al. | Automatic question answering system based on convolutional neural network and its application to waste collection system | |
He et al. | A Chinese named entity recognition model of maintenance records for power primary equipment based on progressive multitype feature fusion | |
Li et al. | Named entity recognition in chinese electronic medical records based on the model of bidirectional long short-term memory with a conditional random field layer | |
CN115730599A (zh) | 基于StructBERT的中文专利关键信息识别方法、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |