CN116307298B

CN116307298B - 一种基于多源异构张量数据的组合碳排放预测方法

Info

Publication number: CN116307298B
Application number: CN202310580222.4A
Authority: CN
Inventors: 徐小峰; 曹晓溪; 林若唯; 刘文志; 邓忆瑞; 尹萌娟; 陈优
Original assignee: China University of Petroleum East China
Current assignee: China University of Petroleum East China
Priority date: 2023-05-23
Filing date: 2023-05-23
Publication date: 2023-08-18
Anticipated expiration: 2043-05-23
Also published as: CN116307298A

Abstract

本发明涉及污染物排放预测技术领域，具体的涉及一种基于多源异构张量数据的组合碳排放预测模型，包括以下步骤：数据收集，获取历年的碳排放数据；文本情感分析，为构建数值数据的张量信息空间做准备；张量表示，对数据进行预处理，构建起碳排放预测的信息空间，将预测信息表示为三阶张量流；张量分解与重构，使用高阶奇异值分解的方式将矩阵分解为奇异向量和奇异值，捕捉不同信息模式之间的潜在关系，完成张量重构；碳排放组合预测，将预测结果进行加和得到未来碳排放量。将媒体信息与历史碳排放数据相结合，进行情感分析，结合搜索频次和历史碳排放量构建一个三维张量，以补充时间序列历史数据，避免有价值信息的遗失，提高预测性能。

Description

一种基于多源异构张量数据的组合碳排放预测方法

技术领域

本发明涉及污染物排放预测技术领域，具体的涉及一种基于多源异构张量数据的组合碳排放预测模型。

背景技术

温室气体排放是世界各国一直在努力解决的问题。其目的旨在减少污染物排放并改善全球气候变暖情况。值得注意的是，碳排放是温室气体排放中的主要贡献者。因此，减少CO2排放是世界各国在治理温室气体时的首要关注点。对碳排放量进行预测可以帮助预测未来的全球变暖，估计减少二氧化碳的成本以及防止温度上升等相关好处。因此，探讨如何精准预测二氧化碳的排放量，在改善全球变暖和制定环境政策方面具有深远意义。

人们对碳排放量进行了多种预测，主要集中在应用时间序列模型进行。常见的时间序列统计模型，如ARIMA已被广泛用于碳排放预测。尽管人们对时间序列预测模型非常感兴趣，但它们只是基于历史值来预测碳排放。然而，碳排放是一个复杂的系统，它不仅受到过去信息的影响，还受到其他因素的影响，这些因素的影响很可能在未来的碳排放中显现出来。因此，如果忽略了它们的作用，可能会影响最终投影结果的可靠性和准确性。

近年来，研究人员广泛地将互联网数据作为解释变量纳入预测研究。多项研究表明，从用户生成内容中提取的信息可以有效地提高数值预测的准确性。由于它涵盖了即将发生的事件的信息，并可以提供时间序列历史数据的补充，因此可以有效地抵消由于缺乏对未来信息的了解而导致的预测性能的恶化。目前，这项技术已经被应用于评估标准监测，分析问题情况，天气和污染评估等领域。互联网数据和预测模型的结合可能会促进预测性能的提高，其中最主要的原因是文本挖掘对于识别想法和提取信息非常有用。

因此，现有的碳排放预测模型中往往忽略了互联网数据对碳排放的影响，本领域技术人员亟需一种能够解决当前问题的，并从用户生成内容中提取的信息从而有效地提高碳排放数值预测的准确性的碳排放预测模型。

发明内容

针对现有技术中存在的问题，本发明的目的在于：提供一种将互联网数据作为解释变量纳入碳排放预测研究，从用户生成内容中提取碳排放相关信息，有效地提高碳排放数值预测的准确性的基于多源异构张量数据的组合的碳排放预测模型。

为实现上述目的，本发明采用的技术方案是：

一种基于多源异构张量数据的组合碳排放预测模型，包括以下步骤：

步骤一：数据收集，通过关键词衡量网民对碳排放的关注程度，以及媒体对碳排放的关注指数，并获取历年的碳排放数据；

步骤二：文本情感分析，对带有情感色彩的主观性文本进行分析、处理、归纳和推理，对感情色彩强弱程度赋值，将文本数据转换为数值数据，为构建数值数据的张量信息空间做准备；

步骤三：张量表示，对数据进行预处理，结合上述获取的搜索频次、情感指数、历史碳排放量三类数据，将三类数据放置在三阶张量的三个不同面上，构建起碳排放预测的信息空间，保持数据的多面性和相互关联，将预测信息表示为三阶张量流，张量的每一阶表示信息模态的一个子空间；

步骤四：张量分解与重构，使用高阶奇异值分解的方式将矩阵分解为奇异向量和奇异值，捕捉不同信息模式之间的潜在关系，将一个张量分解成一个核心张量，再乘以每个模式的矩阵，完成张量重构；

步骤五：碳排放组合预测，采用“剩余补偿”思想构建RNN-ARIMA组合预测模型，利用RNN对数据序列进行整体分析，用ARIMA解释RNN预测残差之间的线性关系，将两者预测结果进行加和得到未来碳排放量。

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤一包括：

步骤1-1：从互联网上收集不同关键词的每日指数，将其作为搜索量指数用于衡量网民对碳排放的关注程度；

步骤1-2：从搜索数据库中检索与碳排放相关的新闻广播，并用关键词的出现频率作为媒体关注指数；

步骤1-3：从碳核算数据库获取历年的碳排放数据。

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤二包括：

步骤2-1：根据互联网指数选取与“碳排放”相关性最强的关键词；

步骤2-2：以关键词为索引，从互联网博文和新闻网站标题中爬取相关文本内容；

步骤2-3：使用Python对所需文本内容进行爬取，通过使用基本情感词典对爬取的内容进行单词匹配，对情感进行分类，设置情感取值范围，确定情感的积极性；

步骤2-4：将文本内容分类，计算每日的情绪平均值，并获得每月情绪平均值。

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤三包括：

所述张量表示为：表示t时刻历史碳排放量与社交媒体信息之间的关系，I₁，I₂，I₃分别代表搜索频次、情感指数、历史碳排放量的特征集合。

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤四包括：

步骤4-1：将t时刻的三阶张量分解为C、U₁、U₂、U₃，其中C为核心张量，因子矩阵U₁，U₂，U₃分别描述了经过高阶奇异值分解之后的搜索频次、情感指数、历史碳排放量三种预测信息的特征；

步骤4-2：利用公式将核心张量和三个因子矩阵相乘，导出重构张量/>其中×_m，m∈1，2，3为运算符，分别代表搜索频次、情感指数、历史碳排放量的矩阵乘积，以避免信息重叠以及信息抵消导致的有价值信息的遗失。

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤五包括：

步骤5-1：将重构张量数据流作为输入，利用公式/>获得RNN在t时刻的隐藏状态h_t，其中f是RNN的激活函数，U代表输入值/>的权重值，W代表隐藏值h_t-1的权重值，b是隐藏值h_t-1的偏置值；

步骤5-2：计算出当前时刻的隐藏状态h_t后，在当前时刻的预测输出值的计算公式如下：/>V是隐藏层到输出层的权重值，c是隐藏值h_t的偏置值，计算出残差序列/>其中Y_t为预测时间序列所对应的碳排放量真实值；

步骤5-3：将残差序列e_t作为ARIMA模型的输入，利用自回归模型e′_t＝C₀+r₁e_t-1+…+r_pe_t-p+w_t进行自回归分析，运用残差e_t-p至e_t-1的状态变化来预测t时刻的残差e′_t，其中C₀是常数，r₁，...，rp是自回归参数，p是自回归顺序，w_t表示误差；

步骤5-4：利用移动平均模型a_t＝λ+w_t+m₁w_t-1+…+m_qw_t-f对自回归模型的误差部分进行累加，消除预测中相关因素因随机波动而形成的具有相互抵偿性的误差，其中，a_t表示误差加和，λ表示与a_t相关的期望，w_t，...，w_t-f表示误差项，m₁，...，m_q是移动平均参数，q是移动平均顺序；

步骤5-5：自回归、移动平均两个子模型的集成定义了ARIMA模型的最终输出结果公式为/>

步骤5-6：利用残差预测对RNN预测结果/>进行校正，得到组合预测结果的未来碳排量/>

上述的基于多源异构张量数据的组合碳排放预测模型，所述步骤四与步骤五之间还包括：使用LSTM模型进行前期试验，了解社交媒体信息对碳排放预测的具体影响。

上述的基于多源异构张量数据的组合碳排放预测模型，所述前期试验包括：

步骤a：基于将不同类型的数据作为输入的LSTM预测结果，分析搜索频率、文本情绪和媒体关注度变量对碳排放预测的影响；

步骤b：将不同文本特征数据组合与历史碳排放数据相结合作为输入，与单独使用历史碳排放数据作为输入的预测结果进行对比，测试文本特征集的预测性能；

步骤c：通过使用一段时间的数据作为输入，探讨其对预测影响的持久性，分析每月频率数据对情绪和注意力变量的影响。

本发明一种基于多源异构张量数据的组合碳排放预测模型的有益效果是：将社交媒体信息与历史碳排放数据相结合，先对文本信息进行情感分析，再结合搜索频次和历史碳排放量构建成一个三维张量，以补充时间序列历史数据，避免信息重叠以及信息抵消导致的有价值信息的遗失，从而提高预测性能。在此基础上，构建了张量-RNN-ARIMA联合预测模型，通过对张量进行分解重构，提取并分析组合数据之间的动态关系，改善原始串联输入忽略不同数据组合之间关系的问题。同时，将非线性RNN模型与线性ARIMA模型相结合，基于“剩余补偿”思想，使用RNN对数据序列进行线性分析，然后通过ARIMA来解释从RNN预测中获得的残差中的线性关系，从而构建了具有较高预测精度的组合预测模型。

附图说明

图1为本发明基于多源异构张量数据的组合碳排放预测模型的系统框架图；

图2为本发明三阶张量的分解流程图；

图3为本发明ARIMA-RNN组合模型的预测流程图。

具体实施方式

为使本领域技术人员更好的理解本技术方案的内容，下面结合具体实施方式和附图对本申请的技术方案进行说明。

如图1-图3所示，一种基于多源异构张量数据的组合碳排放预测模型，模型框架如图1所示，具体步骤如下：

步骤1、数据收集。

1.1从相关互联网网络搜索引擎收集不同关键词在一定时间段内，如2021年1月至2022年8月期间的每日网络搜索引擎的搜索指数，将其作为搜索量指数用于衡量网民对碳排放的关注程度，搜索量越高表示网民关注度越高；反之，则表示越低。

1.2从Wisers搜索数据库的数据库中检索出一段时间内，如2021年1月至2022年8月与该主题相关的每月新闻广播，并用关键词“碳排放”的出现频率作为媒体关注指数，出现频率越高表示媒体关注度越高；反之，则表示越低。

1.3从碳核算数据库获取历年的碳排放数据。

步骤2、文本情感分析。

文本情感分析对带有情感色彩的主观性文本进行分析、处理、归纳和推理，通过给感情色彩强弱程度赋值，将文本数据转换为数值数据，为构建社交媒体情感与历史碳排放量等其它数值数据的张量信息空间做准备，本发明利用基本情感词典对互联网记载的原创内容和新闻标题进行情感赋值。

2.1根据相关互联网网络搜索引擎搜索指数选取与“碳排放”相关性最强的关键词，关键词共有28个，分别为：碳排放、碳足迹、气候变化、能源污染、二氧化碳排放、碳关税、雾霾、碳普惠、气候变暖、碳计算器、温室气体、碳、排放交易、碳交易、碳税、能量守恒、碳补偿、碳排放物、碳汇、全球变暖、低碳、碳中和、碳交易、碳排放减少、双碳、碳达峰、空气质量、节能措施、排放。

2.2以这28个关键词为索引，从互联网上，如互联网记载的原创内容或新闻网站标题中爬取相关文本内容，具体爬取方式可采用现有爬取技术，在此不进行赘述。

2.3首先，使用Python对所需文本内容进行爬取，通过使用基本情感词典对爬取的内容进行单词匹配，从而对情感进行分类，情感取值范围在0到1之间，数值接近0表示句子中表达的情绪越消极，反之则越积极。

2.4将文本内容按天分类，计算出每条文本的情绪值，从而求出每日的情绪平均值，在求得日平均值后，计算三十天的情绪平均值从而得到月情绪值。

步骤3、张量表示。

结合上述的三类数据：搜索频次、情感指数、历史碳排放量，将三类数据放置在三阶张量的三个不同面上，构建起碳排放预测的信息空间，以保持数据的多面性和相互关联，图2给出了一个三阶张量的例子，其中表示t时刻历史碳排放量与社交媒体信息之间的关系，I₁，I₂，I₃分别代表搜索频次、情感指数、历史碳排放量的特征集合，各特征合集中的元素值/>定义如下：/>表示t时刻搜索频次的特征，由一个个点的t时刻搜索频次的特征的集合组成面的搜索频次特征集合I₁，/>表示t时刻情感指数的特征，由一个个点的t时刻情感指数的特征的集合组成面的情感指数特征集合I₂，/>表示t时刻历史碳排放量的特征，由一个个点的t时刻历史碳排放量的特征的集合组成面的历史碳排放量特征集合I₃；由此，将各特征合集中的单一元素值形成的集合，用面的形式构成特征集合，预测信息被表示为三阶张量流，张量的每一阶表示一类预测信息的特征合集。

步骤4、张量分解与重构。

使用高阶奇异值分解将矩阵分解为奇异向量和奇异值，从而来捕捉不同信息模式之间的潜在关系，将一个张量分解成一个核心张量，再乘以每个模式的矩阵。

4.1将t时刻的三阶张量分解为C、U₁、U₂、U₃，其中C为核心张量，因子矩阵U₁，U₂，U₃分别描述了经过高阶奇异值分解之后的搜索频次、情感指数、历史碳排放量三种预测信息的特征。

4.2利用公式将核心张量和三个因子矩阵相乘，导出重构张量/>其中×_m，m∈1，2，3为运算符，分别代表搜索频次、情感指数、历史碳排放量的矩阵乘积，以避免信息重叠以及信息抵消导致的有价值信息的遗失。

步骤5、前期试验。

选取少量数据进行初步预测，以了解社交媒体信息对碳排放预测的具体影响，由于LSTM模型可以对长时间序列数据进行学习预测，因此本发明在正式预测前使用LSTM模型进行前期实验。

5.1基于将不同类型的数据作为输入的LSTM预测结果，分析日常搜索频率、文本情绪和媒体关注度变量对碳排放预测的影响。

5.2将不同文本特征数据组合与历史碳排放数据相结合作为输入，与单独使用历史碳排放数据作为输入的预测结果进行对比，测试文本特征集的预测性能。

5.3通过使用前一个月、前两个月和前三个月的数据作为输入，探讨其对预测影响的持久性，分析每月频率数据对情绪和注意力变量的影响。

步骤6、碳排放组合预测。

如图3所示，采用“剩余补偿”思想构建RNN-ARIMA组合预测模型，首先利用RNN对数据序列进行整体分析，然后用ARIMA解释了RNN预测残差之间的线性关系，最后将两者预测结果进行加和得到未来碳排放量。

6.1将重构张量数据流作为输入，利用公式/>获得RNN在t时刻的隐藏状态h_t，其中f是RNN的激活函数，U代表输入值/>的权重值，W代表隐藏值h_t-1的权重值，初始化合理的权重值，能够使每个神经元尽可能躲开梯度消失的区域，b是隐藏值h_t-1的偏置值，在本方案中b＝1。

6.2计算出当前时刻的隐藏状态ht后，在当前时刻的预测输出值的计算公式如下：/>V是隐藏层到输出层的权重值，c是隐藏值h_t的偏置值，计算出残差序列/>其中Y_t为预测时间序列所对应的碳排放量真实值。

6.3将残差序列e_t作为ARIMA模型的输入，利用自回归模型e′_t＝C₀+r₁e_t-1+…+r_pe_t-p+w_t进行自回归分析，运用残差e_t-p至e_t-1的状态变化来预测t时刻的残差e′_t，其中C₀是常数，r₁，...，r_p是自回归参数，p是自回归顺序，由偏自相关系数图的最大滞后点确定，w_t表示误差，即自噪声，自回归模型表明残差序列e_t可以由其自身的过去或滞后值以及随机扰动项来解释。

6.4利用移动平均模型a_t=λ+w_t+m₁w_t-1+…+m_qw_t-f对自回归模型的误差部分进行累加，消除预测中相关因素因随机波动而形成的具有相互抵偿性的误差，其中，a_t表示误差加和，入表示与a_t相关的期望，w_t，...，w_t-f表示误差项，即自噪声项，m₁，...，m_q是移动平均参数，q是移动平均顺序由自相关系数图的最大滞后点确定。

6.5上述两个子模型的集成定义了ARIMA模型的最终输出结果公式为

6.6利用残差预测对RNN预测结果/>进行校正，得到组合预测结果的未来碳排量

上述实施例只是为了说明本发明的发明构思和特点，其目的在于让本领域内的普通技术人员能够了解本发明的内容并据以实施，并不能以此限定本发明的保护范围。凡是根据本发明内容的实质所做出的等效变化或修饰，都应该涵盖在本发明的保护范围之内。

Claims

1.一种基于多源异构张量数据的组合碳排放预测方法，其特征在于，包括以下步骤：

步骤三：张量表示，对数据进行预处理，结合上述获取的搜索频次、情感指数、历史碳排放量三类数据，将三类数据放置在三阶张量的三个不同面上，构建起碳排放预测的信息空间，保持数据的多面性和相互关联，将预测信息表示为三阶张量流，张量的每一阶表示信息模态的一个子空间，所述张量表示为：表示t时刻历史碳排放量与社交媒体信息之间的关系，I₁，I₂，I₃分别代表搜索频次、情感指数、历史碳排放量的特征集合；

步骤四：张量分解与重构，使用高阶奇异值分解的方式将矩阵分解为奇异向量和奇异值，捕捉不同信息模式之间的潜在关系，将一个张量分解成一个核心张量，再乘以每个模式的矩阵，完成张量重构，包括：

步骤4-1：将三阶张量分解为C、U₁、U₂、U₃，其中因子矩阵U₁，U₂，U₃分别描述了经过高阶奇异值分解之后的搜索频次、情感指数、历史碳排放量三种预测信息的特征；

步骤4-2：利用公式将核心张量和三个因子矩阵相乘，导出重构张量/>其中×_m，m∈1，2，3是一个运算符，分别代表搜索频次、情感指数、历史碳排放量的矩阵乘积，以避免信息重叠以及信息抵消导致的有价值信息的遗失；

步骤五：碳排放组合预测，采用“剩余补偿”思想构建RNN-ARIMA组合预测模型，利用RNN对数据序列进行整体分析，用ARIMA解释RNN预测残差之间的线性关系，将两者预测结果进行加和得到未来碳排放量，包括：

步骤5-2：计算出当前时刻的隐藏状态h_t后，在当前时刻的预测输出值的计算公式如下：/>V是隐藏层到输出层的权重值，c是隐藏值h_t的偏置值，计算出残差序列/>其中Yt为预测时间序列所对应的碳排放量真实值；

步骤5-3：将残差序列e_t作为ARIMA模型的输入，利用自回归模型e′_t＝C₀+r₁e_t-1+…+r_pe_t-p+w_t进行自回归分析，运用残差e_t-p至e_t-1的状态变化来预测t时刻的残差e′_t，其中C₀是常数，r₁，...，r_p是自回归参数，p是自回归顺序，w_t表示误差；

步骤5-4：利用移动平均模型a_t＝λ+w_t+m₁w_t-1+…+m_qw_t-f对自回归模型的误差部分进行累加，消除预测中相关因素因随机波动而形成的具有相互抵偿性的误差，其中入表示与a_t相关的期望，w_t，...，w_t-f表示误差项，m₁，...，m_q是移动平均参数，q是移动平均顺序；

步骤5-5：自回归、移动平均子模型的集成定义了ARIMA模型的最终输出结果公式为

2.根据权利要求1所述的基于多源异构张量数据的组合碳排放预测方法，其特征是：所述步骤一包括：

步骤1-3：从碳核算数据库获取历年的碳排放数据。

3.根据权利要求2所述的基于多源异构张量数据的组合碳排放预测方法，其特征是：所述步骤二包括：

4.根据权利要求1所述的基于多源异构张量数据的组合碳排放预测方法，其特征是：所述步骤四与步骤五之间还包括：使用LSTM模型进行前期试验，了解社交媒体信息对碳排放预测的具体影响。

5.根据权利要求4所述的基于多源异构张量数据的组合碳排放预测方法，其特征是：所述前期试验包括：