CN114153829A - 用于能源大数据的跨时空双向数据缺失值填充方法和装置 - Google Patents

用于能源大数据的跨时空双向数据缺失值填充方法和装置 Download PDF

Info

Publication number
CN114153829A
CN114153829A CN202111441596.5A CN202111441596A CN114153829A CN 114153829 A CN114153829 A CN 114153829A CN 202111441596 A CN202111441596 A CN 202111441596A CN 114153829 A CN114153829 A CN 114153829A
Authority
CN
China
Prior art keywords
data
data set
data table
cross
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111441596.5A
Other languages
English (en)
Other versions
CN114153829B (zh
Inventor
朱祺
杨鹏
林伟滨
刘高维
王盛
郑理
顾悦
黄媛玉
季珉杰
郑益
尹璇
黄世龙
项心言
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Power Engineering Consulting Group East China Electric Power Design Institute Co Ltd
Original Assignee
China Power Engineering Consulting Group East China Electric Power Design Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Power Engineering Consulting Group East China Electric Power Design Institute Co Ltd filed Critical China Power Engineering Consulting Group East China Electric Power Design Institute Co Ltd
Priority to CN202111441596.5A priority Critical patent/CN114153829B/zh
Publication of CN114153829A publication Critical patent/CN114153829A/zh
Application granted granted Critical
Publication of CN114153829B publication Critical patent/CN114153829B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种用于能源大数据的跨时空双向数据缺失值填充方法和装置,该方法包括:在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;根据第二数据表计算各特征的平均值和中值;采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,将填充后的第三数据表、第四数据表和第五数据表插入第二数据表,形成第六数据表、第七数据表和第八数据表;将第六数据表、第七数据表和第八数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集、第二训练数据集和第二交叉验证数据集以及第三训练数据集和第三交叉验证数据集,并对目标神经网络进行训练,以获取预测模型。

Description

用于能源大数据的跨时空双向数据缺失值填充方法和装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种用于能源大数据的跨时空双向数据缺失值填充方法和一种用于能源大数据的跨时空双向数据缺失值填充装置。
背景技术
相关技术中,在对数据集进行分析和挖掘时,由于数据存在缺失的情况,因此在数据集输入机器学习模型和深度学习模型进行训练时会造成模型无法正常工作,从而导致数据分析和挖掘工作无法正常运行。
发明内容
本发明为解决上述技术问题,提供了一种用于能源大数据的跨时空双向数据缺失值填充方法,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
本发明采用的技术方案如下:
一种用于能源大数据的跨时空双向数据缺失值填充方法,包括以下步骤:在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;根据所述第二数据表计算各特征的平均值和中值;分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
所述根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,包括:根据所述第一训练数据集对所述目标神经网络进行训练,以获取第一目标模型,并分别采用所述第二交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第一目标模型的第一MAE指标和第二MAE指标;根据所述第二训练数据集对所述目标神经网络进行训练,以获取第二目标模型,并采用所述第一交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第二目标模型的第三MAE指标和第四MAE指标;根据所述第三训练数据集对所述目标神经网络进行训练,以获取第三目标模型,并采用所述第一交叉验证数据集和所述第二交叉验证数据集进行验证,以获取所述第三目标模型的第五MAE指标和第六MAE指标;分别计算所述第一MAE指标和所述第二MAE指标的第一平均值、所述第三MAE指标和所述第四MAE指标的第二平均值以及所述第五MAE指标和所述第六MAE指标的第三平均值;比较所述第一平均值、所述第二平均值和所述第三平均值的大小,并将最大的平均值对应的目标模型作为所述预测模型。
所述采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集,包括:将所述待填充数据集按照时间戳倒序排列,以生成倒序数据集;判断待填充数据在所述待填充数据集的位置;如果所述待填充数据在所述待填充数据集中的行数小于或等于第一预设值,则根据所述倒序数据集采用所述预测模型对所述待填充数据进行预测;如果所述待填充数据在所述待填充数据集中的行数大于或等于第二预设值,则根据所述待填充数据集采用所述预测模型对所述待填充数据进行预测
一种用于能源大数据的跨时空双向数据缺失值填充装置,包括:数据筛选模块,所述数据筛选模块用于在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;计算模块,所述计算模块用于根据所述第二数据表计算各特征的平均值和中值;数据填充模块,所述数据填充模块用于分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;插入模块,所述插入模块用于分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;数据拆分模块,所述数据拆分模块用于将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;训练模块,所述训练模块用于根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;预测模块,所述预测模块用于采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述的用于能源大数据的跨时空双向数据缺失值填充方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的用于能源大数据的跨时空双向数据缺失值填充方法。
本发明的有益效果:
本发明能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
附图说明
图1为本发明实施例的用于能源大数据的跨时空双向数据缺失值填充方法的流程图;
图2为本发明实施例的用于能源大数据的跨时空双向数据缺失值填充装置的方框示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1是根据本发明实施例的车灯调节方法的流程图。
要在具有含缺失值的数据集上进行进一步的分析和挖掘前,必须先对数据集中的缺失值进行填充,否则将存在缺失值的数据输入机器学习模型和深度学习模型进行训练会造成模型无法正常工作,从而使进一步的分析和挖掘工作无法进行。为此,本发明提出了一种能源大数据的跨时空双向数据缺失值填充方法,既能够从时间和空间两个维度方向对于缺失值进行预测和填充,又能够尽量确保预测的缺失值符合真实情况,使后续数据分析和挖掘过程中机器学习和深度学习模型能够正常工作,并且不因为缺失值的存在而大幅影响机器学习和深度学习模型的预测准确性。
具体而言,如图1所示,本发明实施例的用于能源大数据的跨时空双向数据缺失值填充方法可包括以下步骤:
S1,在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表。
可将待训练目标数据表格中包含缺失值的行与数据整齐的行筛选为两个表单,即第一数据表和第二数据表。
S2,根据第二数据表计算各特征的平均值和中值。
对于数据整齐的第二数据表计算各特征的平均值和中值,例如,待训练目标数据表格可为某风力发电机组的数据表,第二数据表中的特征可包括风速和温度,对应的,可计算第二数据表中风速和温度的平均值和中值。
S3,分别采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表。
具体而言,在本发明的一个实施例中,对于缺失值部分数据表(即第一数据表)中的缺失值,分别采用0值、相应列的平均值和相应列的中值进行预填充,以从空间上将第一数据表从1份扩充为三份,即第三数据表、第四数据表和第五数据表。
在本发明的另一个实施例中,除了采用0值、平均值、中值对于缺失数据采用预填充,也可以采用众数、平滑指数和弹性系数法对于缺失值进行预填充,具体的填充方式与上述方式类似,在此不再详述。
S4,分别将第三数据表、第四数据表和第五数据表插入第二数据表中,以形成第六数据表、第七数据表和第八数据表。
具体而言,将分别用相应列的0值、相应列的平均值进行预填充完成的缺失值部分数据表,即第三数据表、第四数据表和第五数据表插入正常数据表格,从空间上将完整的数据集从一份扩充为三份,即形成第六数据表、第七数据表和第八数据表。
S5,将第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集。
S6,根据第一训练数据集、第一交叉验证数据集、第二训练数据集、第二交叉验证数据集、第三训练数据集和第三交叉验证数据集对目标神经网络进行训练,以获取预测模型。
根据本发明的一个实施例,根据第一训练数据集、第一交叉验证数据集、第二训练数据集、第二交叉验证数据集、第三训练数据集和第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,包括:根据第一训练数据集对目标神经网络进行训练,以获取第一目标模型,并分别采用第二交叉验证数据集和第三交叉验证数据集进行验证,以获取第一目标模型的第一MAE指标和第二MAE指标;根据第二训练数据集对目标神经网络进行训练,以获取第二目标模型,并采用第一交叉验证数据集和第三交叉验证数据集进行验证,以获取第二目标模型的第三MAE指标和第四MAE指标;根据第三训练数据集对目标神经网络进行训练,以获取第三目标模型,并采用第一交叉验证数据集和第二交叉验证数据集进行验证,以获取第三目标模型的第五MAE指标和第六MAE指标;分别计算第一MAE指标和第二MAE指标的第一平均值、第三MAE指标和第四MAE指标的第二平均值以及第五MAE指标和第六MAE指标的第三平均值;比较第一平均值、第二平均值和第三平均值的大小,并将最大的平均值对应的目标模型作为预测模型。
具体而言,可采用适用于时间序列数据挖掘及预测的LSTM神经网络对训练数据集以风速和温度分别作为目标,其余列作为标签特征训练模型,并采用其他两种预填充方式的交叉验证数据集进行验证,确保数据和预填充方式在空间上保持独立。当然,在其他实施例中,也可采用其他神经网络。
具体地,可先根据第一训练数据集对目标神经网络进行训练,以获取第一目标模型,并分别采用第二交叉验证数据集和第三交叉验证数据集进行验证,以获取第一目标模型的第一MAE指标和第二MAE指标,以及根据第二训练数据集对目标神经网络进行训练,以获取第二目标模型,并采用第一交叉验证数据集和第三交叉验证数据集进行验证,以获取第二目标模型的第三MAE指标和第四MAE指标,以及根据第三训练数据集对目标神经网络进行训练,以获取第三目标模型,并采用第一交叉验证数据集和第二交叉验证数据集进行验证,以获取第三目标模型的第五MAE指标和第六MAE指标,然后,分别计算第一MAE指标和第二MAE指标的第一平均值、第三MAE指标和第四MAE指标的第二平均值以及第五MAE指标和第六MAE指标的第三平均值,并比较第一平均值、第二平均值和第三平均值的大小,将最大的平均值对应的目标模型作为预测模型。其中,如果第一平均值最大,则将第一目标模型作为预测模型,也就是说,对于数据集采用第一目标模型能够较好的对于数据进行预测,同时,可以确定对于该数据集,缺失值采用0值进行预填充相比平均值和中值能否更符合实际情况;如果第二平均值最大,则将第二目标模型作为预测模型,也就是说,对于数据集采用第二目标模型能够较好的对于数据进行预测,同时,可以确定对于该数据集,缺失值采用平均值进行预填充相比0值和中值能否更符合实际情况;如果第三平均值最大,则将第三目标模型作为预测模型,也就是说,对于数据集采用第二目标模型能够较好的对于数据进行预测,同时,可以确定对于该数据集,缺失值采用中值进行预填充相比0值和平均值能否更符合实际情况。
需要说明的是,除了采用MAE指标选定最佳的模型及预填充方法外,也可以采用如MSE、RMSE等其他验证指标,具体的实施方式与上述实施例类似,在此不再详述。
S7,采用预测模型对待填充数据集进行预测,以获取目标检测数据集。
根据本发明的一个实施例,采用预测模型对待填充数据集进行预测,以获取目标检测数据集,包括:将待填充数据集按照时间戳倒序排列,以生成倒序数据集;判断待填充数据在待填充数据集的位置;如果待填充数据在待填充数据集中的行数小于或等于第一预设值,则根据倒序数据集采用预测模型对待填充数据进行预测;如果待填充数据在待填充数据集中的行数大于或等于第二预设值,则根据待填充数据集采用预测模型对待填充数据进行预测。
具体而言,可将待填充数据集按照时间戳倒序排列,以生成倒序数据集,使得数据集从时间维度上扩充为正向和反向两份。对于待填充数据集中的待填充数据进行重新预测时,可先判断待填充数据在待填充数据集中的位置。如果该待填充数据在所述待填充数据集中的行数小于或等于第一预设值,即待填充数据位于表单靠前的行,则根据倒序数据集采用所述预测模型对所述待填充数据进行预测;如果该待填充数据在所述待填充数据集中的行数大于或等于第二预设值,即待填充数据位于表单靠后的行,则根据待填充数据集采用所述预测模型对所述待填充数据进行预测。
需要说明的是,除了需要预测的缺失值外,其他缺失值仍采用已经确定的预填充方法。举例而言,在将第一目标模型作为预测模型时,其他缺失值采用0值填充的预填充方法进行填充;在将第二目标模型作为预测模型时,其他缺失值采用平均值填充的预填充方法进行填充;在将第三目标模型作为预测模型时,其他缺失值采用中值填充的预填充方法进行填充。
由此,本发明在数据有限的情况下,根据缺失值的预填充方法扩充数据集,并且采用预填充方法确保能够进行预测模型的比较和验证,不因缺失值的存在影响算法模型的运行,将数据集根据不同的缺失值预填充方法拆分成训练数据集和交叉验证数据集,在模型训练完成后相互计算模型的预测准确度。确保训练数据集的缺失值预填充方法与交叉验证数据集的缺失值预填充方法不同,根据不同预填充方法训练完成的模型,通过交叉验证选定误差最小的模型为合适的模型,同时选定误差最小的预填充方法,将全部数据根据时间进行反向排列,将数据集从时间维度上按顺序和倒序扩充成2份,采用选定的模型对于缺失值进行逐个填充,表单靠前位置的缺失值采用时间倒序的数据集作为训练数据集,表单靠后位置的缺失值采用时间正序的数据集作为训练数据集,同时,除需要被预测的缺失值外,其余缺失值数据仍然采用之前通过选定的预填充方法进行填充。
综上所述,根据本发明实施例的用于能源大数据的跨时空双向数据缺失值填充方法,在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表,以及根据第二数据表计算各特征的平均值和中值,并分别采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表,以及分别将第三数据表、第四数据表和第五数据表插入第二数据表中,以形成第六数据表、第七数据表和第八数据表,并将第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,以及将第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集,并根据第一训练数据集、第一交叉验证数据集、第二训练数据集、第二交叉验证数据集、第三训练数据集和第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,以及采用预测模型对待填充数据集进行预测,以获取目标检测数据集。由此,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
对应上述实施例,本发明还提出一种用于能源大数据的跨时空双向数据缺失值填充装置。
如图2所示,本发明实施例的用于能源大数据的跨时空双向数据缺失值填充装置可包括:数据筛选模块100、计算模块200、数据填充模块300、插入模块400、数据拆分模块500、训练模块600和预测模块700。
其中,数据筛选模块100用于在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;计算模块200用于根据第二数据表计算各特征的平均值和中值;数据填充模块300用于分别采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;插入模块400用于分别将第三数据表、第四数据表和第五数据表插入第二数据表中,以形成第六数据表、第七数据表和第八数据表;数据拆分模块500用于将第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;训练模块600用于根据第一训练数据集、第一交叉验证数据集、第二训练数据集、第二交叉验证数据集、第三训练数据集和第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;预测模块700用于采用预测模型对待填充数据集进行预测,以获取目标检测数据集。
需要说明的是,本发明实施例的用于能源大数据的跨时空双向数据缺失值填充装置可参照上述车灯调节方法的实施例,在此不再赘述。
根据本发明实施例的用于能源大数据的跨时空双向数据缺失值填充装置,通过数据筛选模块在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表,以及通过计算模块用于根据第二数据表计算各特征的平均值和中值,并通过数据填充模块用于分别采用0值、平均值和中值对第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表,以及通过插入模块分别将第三数据表、第四数据表和第五数据表插入第二数据表中,以形成第六数据表、第七数据表和第八数据表,并通过数据拆分模块第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集,并通过训练模块根据第一训练数据集、第一交叉验证数据集、第二训练数据集、第二交叉验证数据集、第三训练数据集和第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,以及通过预测模块采用预测模型对待填充数据集进行预测,以获取目标检测数据集。由此,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时,实现上述实施例的用于能源大数据的跨时空双向数据缺失值填充方法。
根据本发明实施例的计算机设备,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现上述的用于能源大数据的跨时空双向数据缺失值填充方法。
根据本发明实施例的非临时性计算机可读存储介质,能够对数据集的缺失值进行准确地填充,确保了数据分析和挖掘工作的正常进行。
在本发明的描述中,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (6)

1.一种用于能源大数据的跨时空双向数据缺失值填充方法,其特征在于,包括以下步骤:
在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;
根据所述第二数据表计算各特征的平均值和中值;
分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;
分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;
将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;
根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;
采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
2.根据权利要求1所述的用于能源大数据的跨时空双向数据缺失值填充方法,其特征在于,所述根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型,包括:
根据所述第一训练数据集对所述目标神经网络进行训练,以获取第一目标模型,并分别采用所述第二交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第一目标模型的第一MAE指标和第二MAE指标;
根据所述第二训练数据集对所述目标神经网络进行训练,以获取第二目标模型,并采用所述第一交叉验证数据集和所述第三交叉验证数据集进行验证,以获取所述第二目标模型的第三MAE指标和第四MAE指标;
根据所述第三训练数据集对所述目标神经网络进行训练,以获取第三目标模型,并采用所述第一交叉验证数据集和所述第二交叉验证数据集进行验证,以获取所述第三目标模型的第五MAE指标和第六MAE指标;
分别计算所述第一MAE指标和所述第二MAE指标的第一平均值、所述第三MAE指标和所述第四MAE指标的第二平均值以及所述第五MAE指标和所述第六MAE指标的第三平均值;
比较所述第一平均值、所述第二平均值和所述第三平均值的大小,并将最大的平均值对应的目标模型作为所述预测模型。
3.根据权利要求2所述的用于能源大数据的跨时空双向数据缺失值填充方法,其特征在于,所述采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集,包括:
将所述待填充数据集按照时间戳倒序排列,以生成倒序数据集;
判断待填充数据在所述待填充数据集的位置;
如果所述待填充数据在所述待填充数据集中的行数小于或等于第一预设值,则根据所述倒序数据集采用所述预测模型对所述待填充数据进行预测;
如果所述待填充数据在所述待填充数据集中的行数大于或等于第二预设值,则根据所述待填充数据集采用所述预测模型对所述待填充数据进行预测。
4.一种用于能源大数据的跨时空双向数据缺失值填充装置,其特征在于,包括:
数据筛选模块,所述数据筛选模块用于在待训练目标数据表格中筛选出含缺失值的行作为第一数据表,并筛选出数据齐整的行作为第二数据表;
计算模块,所述计算模块用于根据所述第二数据表计算各特征的平均值和中值;
数据填充模块,所述数据填充模块用于分别采用0值、所述平均值和所述中值对所述第一数据表中各特征对应列的缺失值进行填充,以形成第三数据表、第四数据表和第五数据表;
插入模块,所述插入模块用于分别将所述第三数据表、所述第四数据表和所述第五数据表插入所述第二数据表中,以形成第六数据表、第七数据表和第八数据表;
数据拆分模块,所述数据拆分模块用于将所述第六数据表按照50%比例以时间为作为键值拆分为第一训练数据集和第一交叉验证数据集,并将所述第七数据表按照50%比例以时间为作为键值拆分为第二训练数据集和第二交叉验证数据集,以及将所述第八数据表按照50%比例以时间为作为键值拆分为第三训练数据集和第三交叉验证数据集;
训练模块,所述训练模块用于根据所述第一训练数据集、所述第一交叉验证数据集、所述第二训练数据集、所述第二交叉验证数据集、所述第三训练数据集和所述第三交叉验证数据集对目标神经网络进行训练,以获取预测模型;
预测模块,所述预测模块用于采用所述预测模型对待填充数据集进行预测,以获取目标检测数据集。
5.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-3中任一项所述的用于能源大数据的跨时空双向数据缺失值填充方法。
6.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现根据权利要求1-3中任一项所述的用于能源大数据的跨时空双向数据缺失值填充方法。
CN202111441596.5A 2021-11-30 2021-11-30 用于能源大数据的跨时空双向数据缺失值填充方法和装置 Active CN114153829B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111441596.5A CN114153829B (zh) 2021-11-30 2021-11-30 用于能源大数据的跨时空双向数据缺失值填充方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111441596.5A CN114153829B (zh) 2021-11-30 2021-11-30 用于能源大数据的跨时空双向数据缺失值填充方法和装置

Publications (2)

Publication Number Publication Date
CN114153829A true CN114153829A (zh) 2022-03-08
CN114153829B CN114153829B (zh) 2023-01-20

Family

ID=80455154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111441596.5A Active CN114153829B (zh) 2021-11-30 2021-11-30 用于能源大数据的跨时空双向数据缺失值填充方法和装置

Country Status (1)

Country Link
CN (1) CN114153829B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983152B1 (en) * 2022-07-25 2024-05-14 Blackrock, Inc. Systems and methods for processing environmental, social and governance data

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597799A (zh) * 2019-09-17 2019-12-20 上海仪电(集团)有限公司中央研究院 一种时序数据缺失值自动填补方法、系统和设备
CN111753987A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 机器学习模型的生成方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110597799A (zh) * 2019-09-17 2019-12-20 上海仪电(集团)有限公司中央研究院 一种时序数据缺失值自动填补方法、系统和设备
CN111753987A (zh) * 2020-07-08 2020-10-09 深延科技(北京)有限公司 机器学习模型的生成方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王泽等: "基于动态窗口的灰色加权填充算法及应用", 《指挥控制与仿真》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11983152B1 (en) * 2022-07-25 2024-05-14 Blackrock, Inc. Systems and methods for processing environmental, social and governance data

Also Published As

Publication number Publication date
CN114153829B (zh) 2023-01-20

Similar Documents

Publication Publication Date Title
CN108021505B (zh) 数据上线方法、装置和计算机设备
US11036572B2 (en) Method, device, and computer program product for facilitating prediction of disk failure
Xia et al. Automatic generation method of test scenario for ADAS based on complexity
TWI444844B (zh) 模擬參數校正技術
CA2785372C (en) Electrical power profile simulator
CN109416408A (zh) 震中距估计装置、震中距估计方法以及计算机可读记录介质
CN104750731A (zh) 一种获取完整用户画像的方法及装置
CN114153829B (zh) 用于能源大数据的跨时空双向数据缺失值填充方法和装置
CN105745868A (zh) 网络中异常检测的方法和装置
CN109697049A (zh) 数据处理方法、装置、电子设备及计算机可读存储介质
CN113327136A (zh) 归因分析方法、装置、电子设备及存储介质
CN111143146A (zh) 一种存储装置的健康状态预测方法及系统
US10002458B2 (en) Data plot processing
CN103782290A (zh) 建议值的生成
CN104573113B (zh) 一种信息处理方法及服务器
JP7212292B2 (ja) 学習装置、学習方法および学習プログラム
CN113947938B (zh) 基于人工智能的探测方法及相关产品
CN114004674A (zh) 模型训练方法、商品推送方法、装置和电子设备
CN112116076A (zh) 激活函数的优化方法和优化装置
CN112733433A (zh) 装备测试性策略优化方法和装置
CN111290932A (zh) 一种存储设备的性能估算方法和装置
CN110236558A (zh) 婴儿发育情况预测方法、装置、存储介质及电子设备
CN117436290B (zh) 一种数字孪生模型响应优化方法及系统
EP4227866A1 (en) Data processing system, model generation device, data processing method, model generation method, and program
WO2023085195A1 (ja) モデル生成装置、モデル生成方法及びデータ推定装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant