CN117076868A - 一种持久化数据模型建模方法 - Google Patents

一种持久化数据模型建模方法 Download PDF

Info

Publication number
CN117076868A
CN117076868A CN202311315495.2A CN202311315495A CN117076868A CN 117076868 A CN117076868 A CN 117076868A CN 202311315495 A CN202311315495 A CN 202311315495A CN 117076868 A CN117076868 A CN 117076868A
Authority
CN
China
Prior art keywords
data
weather
singular
component
imf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311315495.2A
Other languages
English (en)
Other versions
CN117076868B (zh
Inventor
贾庆佳
李瑞敏
江玉倩
李琛琛
武娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wanlian Index Qingdao Information Technology Co ltd
Original Assignee
Wanlian Index Qingdao Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wanlian Index Qingdao Information Technology Co ltd filed Critical Wanlian Index Qingdao Information Technology Co ltd
Priority to CN202311315495.2A priority Critical patent/CN117076868B/zh
Publication of CN117076868A publication Critical patent/CN117076868A/zh
Application granted granted Critical
Publication of CN117076868B publication Critical patent/CN117076868B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/10Pre-processing; Data cleansing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01WMETEOROLOGY
    • G01W1/00Meteorology
    • G01W1/10Devices for predicting weather conditions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2131Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on a transform domain processing, e.g. wavelet transform
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Environmental & Geological Engineering (AREA)
  • Atmospheric Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Ecology (AREA)
  • Environmental Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本发明涉及数据质量增强技术领域,具体涉及一种持久化数据模型建模方法,该方法首先获取每种天气预测数据的天气预测时序数据序列,借助EMD分解得到的各个天气数据IMF分量的周期特征进行分析,并将得到的矩阵进行SVD分解,得到用于投影降维的保留奇异向量和参考奇异值;进一步地对矩阵进行数据降维,并对得到的天气数据投影IMF分量与天气数据IMF分量之间的周期一致性进行分析,得到衡量天气数据IMF分量受到噪声影响程度的噪声参考权重值,最后结合噪声参考权重值进行数据重构,得到受到噪声影响程度较小的天气预测时序数据去噪序列,进一步地使得所构建的用于天气预测的模型的精度和准确性更高。

Description

一种持久化数据模型建模方法
技术领域
本发明涉及数据质量增强技术领域,具体涉及一种持久化数据模型建模方法。
背景技术
为了确保天气预测的准确性,通常需要使用多种天气预测数据,如温度、湿度、气压等。这些数据量往往非常大,因此它们被存储在数据库中以形成持久化数据,进一步地以这些天气预测数据为基础进行建模,进一步地根据构建的模型进行天气预测。但是由于外界干扰和采集环境的影响,这些数据中可能存在许多异常值或噪声,这些异常数据可能对后续的建模和预测过程造成干扰。
因此需要将噪声数据去除或减少噪声的影响,现有技术通常采用异常值检测方法对每种天气预测数据进行预处理,去除那些明显的异常值,同时保留那些有规律的、对建模有用的数据。但是有些数据对应的异常可能并不明显,或者异常程度较小,难以准确识别。这些难以识别的小幅异常数据可能会在后续的建模过程中产生较大的误差,从而影响天气预测的准确性;也即现有技术通过异常值检测的方法对天气预测数据的去噪效果较差,使得所构建的用于天气预测的模型的精度和准确性较低。
发明内容
为了解决现有技术通过异常值检测的方法对天气预测数据的去噪效果较差,使得所构建的用于天气预测的模型的精度和准确性较低的技术问题,本发明的目的在于提供一种持久化数据模型建模方法,所采用的技术方案具体如下:
本发明提出了一种持久化数据模型建模方法,所述方法包括:
获取每种天气预测数据的天气预测时序数据序列;
在每种天气预测数据中,对所述天气预测时序数据序列进行EMD分解,得到至少两个天气数据IMF分量;根据每个天气数据IMF分量的频域信息分布情况,得到每个天气数据IMF分量对应的周期分量数据矩阵;对所述周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值;
根据所有参考奇异向量对应的参考奇异值的数值分布情况,筛选出保留奇异向量;根据每个保留奇异向量对所述周期分量数据矩阵进行数据降维,得到每个保留奇异向量对应的天气数据投影IMF分量;根据所述天气数据投影IMF分量与对应的天气数据IMF分量之间的频域信息分布差异情况,得到每个天气数据IMF分量的噪声参考权重值;
根据所有的天气数据IMF分量结合对应的噪声参考权重值进行数据重构,得到每种天气预测数据对应的天气预测时序数据去噪序列;根据所述天气预测时序数据去噪序列构建用于天气预测的深度学习模型。
进一步地,所述周期分量数据矩阵的获取方法包括:
将每个天气数据IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个天气数据IMF分量对应的参考周期;
以时间顺序,将每个天气数据IMF分量划分为至少两个周期分量数据段,所述周期分量数据段的长度与参考周期相同;以天气数据IMF分量中的顺序将各个周期分量数据段作为矩阵的每行,构建周期分量数据矩阵。
进一步地,所述对所述周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值的方法包括:
将所述周期分量数据矩阵通过SVD分解得到的右奇异矩阵的每列,作为参考奇异向量;将所述参考奇异向量对应的奇异值,作为参考奇异值。
进一步地,所述保留奇异向量的获取方法包括:
将所有参考奇异值的累加和,作为参考累加和;将每个参考奇异向量的参考奇异值与所述参考累加和的比值,作为每个参考奇异向量的保留判定值;将大于预设判定阈值的保留判定值对应的参考奇异向量,作为保留奇异向量。
进一步地,所述天气数据投影IMF分量的获取方法包括:
依次将每个保留奇异向量作为目标保留奇异向量;
将所述周期分量数据矩阵中每个元素与所述保留奇异向量的点积,作为每个元素的投影元素;将所述周期分量数据矩阵中每个元素采用对应的投影元素进行替代,得到目标保留奇异向量对应的投影分量矩阵;以从上到下的顺序,将所述投影分量矩阵按照每行的最后一个元素与下一行的第一个元素相连的方式转化为序列,得到目标保留奇异向量对应的天气数据投影IMF分量。
进一步地,所述噪声参考权重值的获取方法包括:
对于任意一个天气数据IMF分量:
将每个保留奇异向量对应的天气数据投影IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个保留奇异向量对应的投影周期;
将天气数据IMF分量对应的参考周期与所述投影周期之间的差异分布状况,构建噪声参考权重值计算模型;通过所述噪声参考权重值计算模型,得到天气数据IMF分量对应的噪声参考权重值。
进一步地,所述噪声参考权重值计算模型包括:其中,/>为第/>个天气数据IMF分量的噪声参考权重值,/>为第/>个天气数据IMF分量对应的保留奇异向量数量;/>为第/>个天气数据IMF分量对应的参考周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的投影周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的参考奇异值;/>为绝对值符号,/>为以自然常数为底的指数函数,/>为归一化函数。
进一步地,所述天气预测时序数据去噪序列的获取方法包括:
将每个天气数据IMF分量以对应的噪声参考权重值作为权重进行加权求和重构,得到天气预测时序数据去噪序列。
进一步地,所述根据所述天气预测时序数据去噪序列构建用于天气预测的深度学习模型的方法包括:
根据每种天气预测数据的天气预测时序数据去噪序列训练深度学习模型,所述深度学习模型采用VGG-NET网络,损失函数采用交叉熵损失函数。
进一步地,所述预设判定阈值设置为0.1。
本发明具有如下有益效果:
由于EMD分解能够将原始数据分解为多个观测尺度下的数据,从而对每个观测尺度进行噪声分析,进一步地提高对异常噪声数据检测的准确性,因此本发明首先对天气预测时序数据序列进行EMD分解,得到不同观测尺度对应的天气数据IMF分量。对于每个观测尺度的数据即天气数据IMF分量而言,正常的数据通常都符合一定的规律,而其中的异常数据的异常程度在当前观测维度下对应的异常程度可能并不明显。若将天气数据IMF分量投影到其他维度下,正常的数据由于对应的规律性使得在投影对应的维度下也能属于一个数据类别。并且当投影的维度中正常数据占主导地位时,借助SVD降维后,降维前后的数据周期性会被极大程度的保留,但是异常数据之间的无规律性会破坏对应的数据周期性,因此可借助降维投影前后天气数据IMF分量对应数据的周期一致性,作为噪声干扰程度的参考,从而进一步地使得对提高后续构建的天气预测的模型的精度和准确性。因此本发明对每个天气数据IMF分量的数据借助SVD分解进行分析,进一步地借助数据周期性保留程度较高的保留奇异向量进行数据降维,得到天气数据投影IMF分量。进一步地在周期一致性的角度上,分析天气数据投影IMF分量与对应的天气数据IMF分量之间的频域信息分布差异情况,从而获取每个观测尺度上对应的用于衡量噪声情况的噪声参考权重值。进一步地根据天气数据IMF分量结合对应的噪声参考权重值进行数据重构,最大程度上减少了噪声的影响,使得后续构建的用于天气预测的模型的精度和准确性更高。综上所述,本发明通过计算每个观测尺度对应的噪声参考权重值,并结合对应的天气数据IMF分量进行数据重构,最大程度上减少了天气预测时序数据去噪序列受到噪声的干扰程度,进一步地使得所构建的用于天气预测的模型的精度和准确性更高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例所提供的一种持久化数据模型建模方法流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种持久化数据模型建模方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种持久化数据模型建模方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种持久化数据模型建模方法流程图,该方法包括:
步骤S1:获取每种天气预测数据的天气预测时序数据序列。
本发明实施例旨在提供一种持久化数据模型建模方法,用于对每种天气预测数据的天气预测时序数据序列进行数据质量增强,获取噪声影响较小的天气预测时序数据去噪序列,使得所构建的用于天气预测的模型的精度和准确性更高。因此首先需要获取每种天气预测数据的天气预测时序数据序列。
天气预测数据种类包括温度、湿度、气压等。本发明实施例在当前时刻之前的预设时间段内,通过预设采样频率采集每种天气预测数据,并将所采集到的每种天气预测数据以时间顺序进行排列,得到每种天气预测数据对应的天气预测时序数据序列。在本发明实施例中,预设时间段设置为三天,预设采样频率设置为每十分钟采样一次,实施者可根据具体实施环境自行调整。
步骤S2:在每种天气预测数据中,对天气预测时序数据序列进行EMD分解,得到至少两个天气数据IMF分量;根据每个天气数据IMF分量的频域信息分布情况,得到每个天气数据IMF分量对应的周期分量数据矩阵;对周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值。
考虑到经验模态分解(Empirical Mode Decomposition,EMD)分解能够将原始数据分解为多个观测尺度下的数据,也即对应的多个本征模函数(Intrinsic ModeFunction,IMF)分量,从而对每个观测尺度进行噪声分析,使得对异常噪声数据检测的准确性更高,因此首先借助EMD分解将每种天气预测数据分解为多个观测尺度。本发明实施例在每种天气预测数据中,对天气预测时序数据序列进行EMD分解,得到至少两个天气数据IMF分量,业界每个天气数据IMF分量对应一个观测尺度。需要说明的是,EMD分解以及根据EMD分解得到IMF分量,为本领域技术人员所熟知的技术手段,在此不做进一步限定和赘述。
对于每个观测尺度的数据即天气数据IMF分量而言,正常的数据通常都符合一定的规律,而其中的异常数据的异常程度在当前观测维度下对应的异常程度可能并不明显。若将天气数据IMF分量投影到其他维度下,正常的数据由于对应的规律性使得在投影对应的维度下也能属于一个数据类别。并且当投影的维度中正常数据占主导地位时,借助SVD降维后,降维前后的数据周期性会被极大程度的保留,但是异常数据之间的无规律性会破坏对应的数据周期性,因此可借助降维投影前后天气数据IMF分量对应数据的周期一致性,作为噪声干扰程度的参考,从而进一步地使得对提高后续构建的天气预测的模型的精度和准确性。
而SVD降维需要借助包含周期信息的矩阵进行分析,而每个天气数据IMF分量周期信息能够通过频域得到,因此本发明实施例根据每个天气数据IMF分量的频域信息分布情况,得到每个天气数据IMF分量对应的周期分量数据矩阵。
优选地,周期分量数据矩阵的获取方法包括:
将每个天气数据IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个天气数据IMF分量对应的参考周期。也即通过傅里叶变换将天气数据IMF分量转换到频域空间进行分析,考虑到对于常规的信号而言,信号中的主要周期分量通常会在频谱中产生较大的振幅,而次要或噪声成分会在频谱中表现为较小的振幅,因此本发明实施例将频域空间中最大幅值对应的频率对应的倒数,作为参考周期。
为了构建用于奇异值分解(Singular Value Decomposition,SVD)分解对应的周期矩阵,进一步地借助参考周期进行矩阵的构建,本发明实施例以时间顺序,将每个天气数据IMF分量划分为至少两个周期分量数据段,周期分量数据段的长度与参考周期相同;以天气数据IMF分量中的顺序将各个周期分量数据段作为矩阵的每行,构建周期分量数据矩阵。需要说明的是,为了保证实施例的完整性,当最后一个周期分量数据段的长度小于参考周期时,通过最邻近插值使得最后一个周期分量数据段长度等于参考周期。
在获取对应的周期分解数据矩阵后,进一步地通过SVD分解进行降维,而采用SVD分解进行降维需要借助SVD分解得到的奇异向量和奇异值。因此本发明实施例对周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值。
优选地,对周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值的方法包括:
将周期分量数据矩阵通过SVD分解得到的右奇异矩阵的每列,作为参考奇异向量;将参考奇异向量对应的奇异值,作为参考奇异值。对周期分量数据矩阵通过SVD分解能够得到左奇异矩阵和右奇异矩阵,左奇异矩阵的每一列对应的左奇异向量能够从数据整体结构的角度上,对不同周期分量数据段之间的关系进行分析。而右奇异矩阵的每一列对应的右奇异向量能够表征周期数据中最显著的特征或模式,而去噪的目标是保留重要的数据,因此本发明实施例将右奇异矩阵的每列作为参考奇异向量。并且右奇异向量对应的奇异值越大,对重要数据特征的保留程度越大,越适合作为投影的维度,因此本发明实施例通过获取每个参考奇异向量的奇异值进行进一步地分析。需要说明的是,奇异矩阵、奇异向量和奇异值均为SVD分解中的内容,且SVD分解为本领域技术人员所熟知的技术手段,在此不做进一步赘述。
步骤S3:根据所有参考奇异向量对应的参考奇异值的数值分布情况,筛选出保留奇异向量;根据每个保留奇异向量对周期分量数据矩阵进行数据降维,得到每个保留奇异向量对应的天气数据投影IMF分量;根据天气数据投影IMF分量与对应的天气数据IMF分量之间的频域信息分布差异情况,得到每个天气数据IMF分量的噪声参考权重值。
考虑到不同的参考奇异向量对应的参考奇异值不同,对应的参考奇异值越大时,对应的参考奇异向量包含的关键信息越多,则对应的周期分量数据矩阵投影到参考奇异向量上后对应的数据降维效果越好,也即对噪声影响程度的表征越准确。本发明实施例根据所有参考奇异向量对应的参考奇异值的数值分布情况,筛选出保留奇异向量。
优选地,保留奇异向量的获取方法包括:
将所有参考奇异值的累加和,作为参考累加和;将每个参考奇异向量的参考奇异值与参考累加和的比值,作为每个参考奇异向量的保留判定值;将大于预设判定阈值的保留判定值对应的参考奇异向量,作为保留奇异向量。优选地,预设判定阈值设置为0.1,实施者可根据具体实施环境自行调整预设判定阈值的大小,在此不做进一步赘述。也即对应的参考奇异值越大时,对应的保留判定值越大,也即对应的参考奇异向量越可能属于保留奇异向量。需要说明的是,实施者也可通过其他方法根据参考奇异值筛选出保留奇异向量,例如将各个参考奇异值归一化后设置阈值进行筛选,经验值可取0.7,实施者可根据具体实施环境自行调整。
此外需要说明的是,当所有参考奇异向量的保留判定值小于或等于预设判定阈值时,将最大的参考奇异值对应的参考奇异向量,作为保留奇异向量。
在得到对原始数据的主要信息和结构保留程度较好的保留奇异向量后,为了进一步地分析每个天气数据IMF分量受到噪声影响的程度,本发明实施例根据每个保留奇异向量对周期分量数据矩阵进行数据降维,得到每个保留奇异向量对应的天气数据投影IMF分量,进一步地根据每个天气数据投影IMF分量与对应的天气数据IMF分量之间的周期一致性进行分析,即可表征天气数据IMF分量受到噪声影响的程度。
优选地,天气数据投影IMF分量的获取方法包括:
依次将每个保留奇异向量作为目标保留奇异向量;将周期分量数据矩阵中每个元素与保留奇异向量的点积,作为每个元素的投影元素;将周期分量数据矩阵中每个元素采用对应的投影元素进行替代,得到目标保留奇异向量对应的投影分量矩阵。投影分量矩阵经周期分量矩阵映射到目标保留奇异向量后对应的矩阵。并且计算每个元素的投影元素的方式,能够确保对应的投影分量矩阵中的数据量与周期分量数据矩阵相同,方便后续分析。
以从上到下的顺序,将投影分量矩阵按照每行的最后一个元素与下一行的第一个元素相连的方式转化为序列,得到目标保留奇异向量对应的天气数据投影IMF分量。由于周期分量数据矩阵是通过天气数据IMF分量得到的,而获取周期分量数据矩阵的方式为:以天气数据IMF分量中的顺序将各个周期分量数据段作为矩阵的每行。因此为了对投影前后的数据进行对比,以同样的方式反向将投影分量矩阵转化为序列,得到与天气数据IMF分量形式相同的天气数据投影IMF分量。
考虑到天气数据投影IMF分量是通过数据降维得到的,由于噪声会影响天气数据投影IMF分量对应序列的周期特征,因此当没有受到噪声影响时,天气数据投影IMF分量与天气数据IMF分量之间的周期特征应当相同;并且受到噪声的影响越大,对应的周期特征差异越明显,也即周期一致性越低。因此本发明实施例根据天气数据投影IMF分量与对应的天气数据IMF分量之间的频域信息分布差异情况,得到每个天气数据IMF分量的噪声参考权重值。由于天气预测时序数据序列对应多个天气数据IMF分量,不同天气数据IMF分量受到噪声的影响不同,因此若将受到噪声影响较大的天气数据IMF分量赋予较小的权重,则根据赋予权重后的天气数据IMF分量所重构的天气预测时序数据序列,能够在最大程度上减少噪声影响的程度。因此天气数据IMF分量受到噪声的影响越大,对应的噪声参考权重越小。
优选地,噪声参考权重值的获取方法包括:
对于任意一个天气数据IMF分量:
由于已经计算出了天气数据IMF分量对应的参考周期,因此若以同样的方法计算出天气数据投影IMF分量对应的投影周期,并将投影周期与参考周期进行对比,能够在不同的投影维度上表征天气数据IMF分量受到噪声影响的程度,从而进一步地进行噪声参考权重值的计算。本发明实施例将每个保留奇异向量对应的天气数据投影IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个保留奇异向量对应的投影周期;将天气数据IMF分量对应的参考周期与投影周期之间的差异分布状况,构建噪声参考权重值计算模型;通过噪声参考权重值计算模型,得到天气数据IMF分量对应的噪声参考权重值。
优选地,依次将每个天气数据IMF分量作为第个天气数据IMF分量,则第/>个天气数据IMF分量的噪声参考权重值计算模型包括:/>其中,/>为第/>个天气数据IMF分量的噪声参考权重值,/>为第/>个天气数据IMF分量对应的保留奇异向量数量;/>为第/>个天气数据IMF分量对应的参考周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的投影周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的参考奇异值;/>为绝对值符号,/>为以自然常数为底的指数函数,/>为归一化函数。在本发明实施例中,归一化方法均采用线性归一化,实施者可根据具体实施环境自行调整。
在噪声参考权重值计算模型中,为参考周期与投影周期之间的周期差异,对应的周期差异越大,说明噪声对天气数据IMF分量的周期性干扰程度越大,也即受到噪声的影响越大。而/>为对应的参考奇异值,参考奇异值表征了对应保留奇异向量对数据主要特征的保留程度,对应的参考奇异值越大,说明投影得到的天气数据投影IMF分量对数据主要特征的保留程度越高,真实周期信息保留越完整。因此对应的参考奇异值越大时,对应的真实周期信息保留越完整,在真实周期信息保留完整的情况下,对应的周期差异越小,说明对应的天气数据IMF分量受到噪声的影响越小。因此当参考奇异值越大,周期差异越大时,对应的天气数据IMF分量受到噪声的影响越小,进一步地结合天气数据IMF分量对应的所有保留奇异向量的投影周期和参考奇异值,通过计算所有保留奇异向量对应的/>的均值,得到天气数据IMF分量最终受到噪声的影响程度。但是考虑到天气数据IMF分量受到噪声的影响越大,对应的噪声参考权重越小,因此将/>通过指数函数进行负相关映射并归一化,得到天气数据IMF分量的噪声参考权重。
步骤S4:根据所有的天气数据IMF分量结合对应的噪声参考权重值进行数据重构,得到每种天气预测数据对应的天气预测时序数据去噪序列;根据天气预测时序数据去噪序列构建用于天气预测的深度学习模型。
在得到天气预测时序数据序列对应的每个天气数据IMF分量对应的噪声参考权重后,进一步地对每个天气数据IMF分量赋予对应的噪声参考权重后进行数据重构,能够最大程度地减少重构后的天气预测时序数据序列受到噪声的影响程度。本发明实施例根据所有的天气数据IMF分量结合对应的噪声参考权重值进行数据重构,得到天气预测时序数据去噪序列。
优选地,天气预测时序数据去噪序列的获取方法包括:
将每个天气数据IMF分量以对应的噪声参考权重值作为权重进行加权求和重构,得到每种天气预测数据对应的天气预测时序数据去噪序列。需要说明的是,由于IMF分量是通过EMD分解天气预测时序数据序列得到的,因此根据各个IMF分量进行重构得到天气预测时序数据去噪序列的技术手段,与EMD分解相同,为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
最后根据天气预测时序数据去噪序列构建用于天气预测的深度学习模型。
优选地,根据天气预测时序数据去噪序列构建用于天气预测的深度学习模型的方法包括:
根据每种天气预测数据的天气预测时序数据训练深度学习模型,深度学习模型采用VGG-NET网络,损失函数采用交叉熵损失函数。在本发明实施例中,获取每种天气预测数据的天气预测时序数据去噪序列对应的训练数据集,将训练数据集中对应天气预测结果为雨天的用0标注,对应结果不为雨天的用1标注,根据训练数据集训练VGG-NET网络。在进行天气预测时,将每种天气预测数据的天气预测时序数据输入到训练好的VGG-NET网络中,输出天气预测结果。需要说明的是,VGG-NET网络及其对应的训练过程为本领域技术人员所熟知的现有技术,在此不做进一步限定和赘述。
综上所述,本发明首先获取每种天气预测数据的天气预测时序数据序列,借助EMD分解得到的各个天气数据IMF分量的周期特征进行分析,并将得到的矩阵进行SVD分解,得到用于投影降维的保留奇异向量和参考奇异值;进一步地对矩阵进行数据降维,并对得到的天气数据投影IMF分量与天气数据IMF分量之间的周期一致性进行分析,得到衡量天气数据IMF分量受到噪声影响程度的噪声参考权重值,最后结合噪声参考权重值进行数据重构,得到受到噪声影响程度较小的天气预测时序数据去噪序列,进一步地使得所构建的用于天气预测的模型的精度和准确性更高。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。

Claims (10)

1.一种持久化数据模型建模方法,其特征在于,所述方法包括:
获取每种天气预测数据的天气预测时序数据序列;
在每种天气预测数据中,对所述天气预测时序数据序列进行EMD分解,得到至少两个天气数据IMF分量;根据每个天气数据IMF分量的频域信息分布情况,得到每个天气数据IMF分量对应的周期分量数据矩阵;对所述周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值;
根据所有参考奇异向量对应的参考奇异值的数值分布情况,筛选出保留奇异向量;根据每个保留奇异向量对所述周期分量数据矩阵进行数据降维,得到每个保留奇异向量对应的天气数据投影IMF分量;根据所述天气数据投影IMF分量与对应的天气数据IMF分量之间的频域信息分布差异情况,得到每个天气数据IMF分量的噪声参考权重值;
根据所有的天气数据IMF分量结合对应的噪声参考权重值进行数据重构,得到每种天气预测数据对应的天气预测时序数据去噪序列;根据所述天气预测时序数据去噪序列构建用于天气预测的深度学习模型。
2.根据权利要求1所述的一种持久化数据模型建模方法,其特征在于,所述周期分量数据矩阵的获取方法包括:
将每个天气数据IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个天气数据IMF分量对应的参考周期;
以时间顺序,将每个天气数据IMF分量划分为至少两个周期分量数据段,所述周期分量数据段的长度与参考周期相同;以天气数据IMF分量中的顺序将各个周期分量数据段作为矩阵的每行,构建周期分量数据矩阵。
3.根据权利要求2所述的一种持久化数据模型建模方法,其特征在于,所述对所述周期分量数据矩阵进行SVD分解,得到至少两个参考奇异向量及其对应的参考奇异值的方法包括:
将所述周期分量数据矩阵通过SVD分解得到的右奇异矩阵的每列,作为参考奇异向量;将所述参考奇异向量对应的奇异值,作为参考奇异值。
4.根据权利要求1所述的一种持久化数据模型建模方法,其特征在于,所述保留奇异向量的获取方法包括:
将所有参考奇异值的累加和,作为参考累加和;将每个参考奇异向量的参考奇异值与所述参考累加和的比值,作为每个参考奇异向量的保留判定值;将大于预设判定阈值的保留判定值对应的参考奇异向量,作为保留奇异向量。
5.根据权利要求1所述的一种持久化数据模型建模方法,其特征在于,所述天气数据投影IMF分量的获取方法包括:
依次将每个保留奇异向量作为目标保留奇异向量;
将所述周期分量数据矩阵中每个元素与所述保留奇异向量的点积,作为每个元素的投影元素;将所述周期分量数据矩阵中每个元素采用对应的投影元素进行替代,得到目标保留奇异向量对应的投影分量矩阵;以从上到下的顺序,将所述投影分量矩阵按照每行的最后一个元素与下一行的第一个元素相连的方式转化为序列,得到目标保留奇异向量对应的天气数据投影IMF分量。
6.根据权利要求2所述的一种持久化数据模型建模方法,其特征在于,所述噪声参考权重值的获取方法包括:
对于任意一个天气数据IMF分量:
将每个保留奇异向量对应的天气数据投影IMF分量进行傅里叶变换后的最大幅值对应的频率的倒数,作为每个保留奇异向量对应的投影周期;
将天气数据IMF分量对应的参考周期与所述投影周期之间的差异分布状况,构建噪声参考权重值计算模型;通过所述噪声参考权重值计算模型,得到天气数据IMF分量对应的噪声参考权重值。
7.根据权利要求6所述的一种持久化数据模型建模方法,其特征在于,所述噪声参考权重值计算模型包括:其中,/>为第/>个天气数据IMF分量的噪声参考权重值,/>为第/>个天气数据IMF分量对应的保留奇异向量数量;/>为第/>个天气数据IMF分量对应的参考周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的投影周期;/>为第/>个天气数据IMF分量对应的第/>个保留奇异向量的参考奇异值;/>为绝对值符号,/>为以自然常数为底的指数函数,/>为归一化函数。
8.根据权利要求1所述的一种持久化数据模型建模方法,其特征在于,所述天气预测时序数据去噪序列的获取方法包括:
将每个天气数据IMF分量以对应的噪声参考权重值作为权重进行加权求和重构,得到天气预测时序数据去噪序列。
9.根据权利要求1所述的一种持久化数据模型建模方法,其特征在于,所述根据所述天气预测时序数据去噪序列构建用于天气预测的深度学习模型的方法包括:
根据每种天气预测数据的天气预测时序数据去噪序列训练深度学习模型,所述深度学习模型采用VGG-NET网络,损失函数采用交叉熵损失函数。
10.根据权利要求4所述的一种持久化数据模型建模方法,其特征在于,所述预设判定阈值设置为0.1。
CN202311315495.2A 2023-10-12 2023-10-12 一种持久化数据模型建模方法 Active CN117076868B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311315495.2A CN117076868B (zh) 2023-10-12 2023-10-12 一种持久化数据模型建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311315495.2A CN117076868B (zh) 2023-10-12 2023-10-12 一种持久化数据模型建模方法

Publications (2)

Publication Number Publication Date
CN117076868A true CN117076868A (zh) 2023-11-17
CN117076868B CN117076868B (zh) 2024-01-26

Family

ID=88717247

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311315495.2A Active CN117076868B (zh) 2023-10-12 2023-10-12 一种持久化数据模型建模方法

Country Status (1)

Country Link
CN (1) CN117076868B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073913A1 (en) * 2018-08-29 2020-03-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing data sequence
US20210278476A1 (en) * 2020-03-09 2021-09-09 Mitsubishi Electric Research Laboratories, Inc. System and Method of Fault Detection Based on Robust Damped Signal Demixing
CN113887362A (zh) * 2021-09-24 2022-01-04 上海电力大学 一种局部放电信号的特征提取方法
CN115791169A (zh) * 2022-11-22 2023-03-14 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种滚动轴承故障的诊断方法、装置及电子设备
CN116450711A (zh) * 2023-06-20 2023-07-18 山东科技大学 Gnss坐标时间序列数据流匹配方法
CN116667920A (zh) * 2023-04-12 2023-08-29 中国电子科技集团公司第五十四研究所 结合主成分分析与希尔伯特-黄变换的瞬态信号检测方法
CN116720059A (zh) * 2023-05-11 2023-09-08 西安理工大学 CEEMDAN-Grey-SSA弱信号提取方法
CN116821666A (zh) * 2023-08-31 2023-09-29 陕西威思曼高压电源股份有限公司 一种高能离子束流高压放大器功率数据实时监测方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200073913A1 (en) * 2018-08-29 2020-03-05 Baidu Online Network Technology (Beijing) Co., Ltd. Method and apparatus for processing data sequence
US20210278476A1 (en) * 2020-03-09 2021-09-09 Mitsubishi Electric Research Laboratories, Inc. System and Method of Fault Detection Based on Robust Damped Signal Demixing
CN113887362A (zh) * 2021-09-24 2022-01-04 上海电力大学 一种局部放电信号的特征提取方法
CN115791169A (zh) * 2022-11-22 2023-03-14 内蒙古电力(集团)有限责任公司内蒙古电力科学研究院分公司 一种滚动轴承故障的诊断方法、装置及电子设备
CN116667920A (zh) * 2023-04-12 2023-08-29 中国电子科技集团公司第五十四研究所 结合主成分分析与希尔伯特-黄变换的瞬态信号检测方法
CN116720059A (zh) * 2023-05-11 2023-09-08 西安理工大学 CEEMDAN-Grey-SSA弱信号提取方法
CN116450711A (zh) * 2023-06-20 2023-07-18 山东科技大学 Gnss坐标时间序列数据流匹配方法
CN116821666A (zh) * 2023-08-31 2023-09-29 陕西威思曼高压电源股份有限公司 一种高能离子束流高压放大器功率数据实时监测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CHENGUANG HUANG等: "A Novel Wheelset Bearing Fault Diagnosis Method Integrated CEEMDAN, Periodic Segment Matrix, and SVD", SHOCK AND VIBRATION, pages 1 - 19 *
宋守许等: "EMD 与改进SVD联合的脉冲涡流 检测信号降噪方法", 中国测试, vol. 48, no. 9, pages 97 - 104 *
谷然;陈捷;洪荣晶;潘裕斌;李媛媛;: "基于改进自适应变分模态分解的滚动轴承微弱故障诊断", 振动与冲击, vol. 39, no. 8, pages 1 - 8 *

Also Published As

Publication number Publication date
CN117076868B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Holsclaw et al. Bayesian nonhomogeneous Markov models via Pólya-Gamma data augmentation with applications to rainfall modeling
CN112364975A (zh) 基于图神经网络的终端运行状态预测方法及系统
Bougeard et al. From multiblock partial least squares to multiblock redundancy analysis. A continuum approach
Bartkowiak et al. Dimensionality reduction via variables selection–Linear and nonlinear approaches with application to vibration-based condition monitoring of planetary gearbox
CN109598175B (zh) 一种基于多小波基函数和超正交前向回归的时频分析方法
CN116418882B (zh) 基于hplc双模载波通信的存储器数据压缩方法
CN113468796A (zh) 一种基于改进随机森林算法的电压缺失数据辨识方法
CN115758876A (zh) 一种风速和风向预报准确率方法、系统及计算机设备
CN113780160B (zh) 一种电能质量扰动信号分类方法和系统
CN105303051A (zh) 一种空气污染物浓度预测方法
Kovantsev et al. Analysis of multivariate time series predictability based on their features
CN109239006B (zh) 一种基于湿度补偿模型的物质识别方法、装置及存储介质
CN117076868B (zh) 一种持久化数据模型建模方法
CN116312860B (zh) 基于监督迁移学习的农产品可溶性固形物预测方法
Olthof et al. Psychological dynamics are complex: a comparison of scaling, variance, and dynamic complexity in simulated and observed data
CN116525103A (zh) 一种基于XGBoost机器学习的血糖采集预测方法
CN116127833A (zh) 基于vmd和lstm融合模型的风电功率预测方法、系统、装置及介质
CN116933119A (zh) 一种基于卷积神经网络的信号数据去除趋势方法
Figueiredo et al. Phylogenetic diversity as a key to understand mechanisms of New World marsupials diversification (Didelphimorphia: Didelphidae)
Dong et al. Multiscale fractional cumulative residual entropy of higher-order moments for estimating uncertainty
CN113066544A (zh) 基于CAA-Net与LightGBM的FVEP特征点检测方法
CN113435321A (zh) 一种主轴轴承状态评估方法、系统、设备及可读存储介质
CN112862159A (zh) 电离层的总电子含量预测方法、装置、设备及存储介质
CN113011086A (zh) 一种基于ga-svr算法森林生物量的估测方法
Movahedifar et al. Combining Multiple Testing with Multivariate Singular Spectrum Analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant