CN109670144A - 一种基于拉格朗日插值法的缺失值处理方法 - Google Patents

一种基于拉格朗日插值法的缺失值处理方法 Download PDF

Info

Publication number
CN109670144A
CN109670144A CN201811366755.8A CN201811366755A CN109670144A CN 109670144 A CN109670144 A CN 109670144A CN 201811366755 A CN201811366755 A CN 201811366755A CN 109670144 A CN109670144 A CN 109670144A
Authority
CN
China
Prior art keywords
missing values
value
interpolation
data
slope
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811366755.8A
Other languages
English (en)
Inventor
沈波
申越
张振江
张宇
曹行
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN201811366755.8A priority Critical patent/CN109670144A/zh
Publication of CN109670144A publication Critical patent/CN109670144A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Complex Calculations (AREA)

Abstract

本发明提供了一种基于拉格朗日插值法的缺失值处理方法,用于解决现有技术中使用拉格朗日插值法对缺失值处理时存在的问题。所述方法通过对需要进行插值计算的数据集,逐个判断数据集中的数据是否为缺失值,对所判断的缺失值,分别计算对应不同窗口大小时的预测值,再计算所有预测值与当前缺失值前向/后向数据的连线斜率,通过对所有斜率的比较,得出最优的插补值。本发明引入斜率作为评判预测值的标准,使得拉格朗日插补法确定最优阶数以实现对缺失值的最优插补,提高了插补精度,同时改善了拉格朗日插补方法中的“龙格”现象。

Description

一种基于拉格朗日插值法的缺失值处理方法
技术领域
本发明属于数据挖掘领域,具体涉及一种基于拉格朗日插值法的缺失值处理方法。
背景技术
进入二十一世纪后,随着信息时代的不断发展,云计算、物联网、人工智正在走进我们的生活,生活的每一个细节都化为其中节点上的一个数据,与之相适应的数据量也正在以爆炸方式迅速增长,数据表示形式千变万化,我们正在走进大数据时代。大数据成为信息资源的矿藏,隐藏着各种信息;数据挖掘,便是数据库知识发现中的一个步骤,从大数据中通过算法搜索隐藏于其中信息的过程。例如,通过对大数据的分析,了解到每一个人的生活习惯、消费行为偏好等,从而为企业制定销售策略提供可参考的意见。
但是,若想要充分发挥大数据所赋予的机遇和优势,前提是必须拥有可靠、准确、及时的高质量数据,只有高质量的大规模数据中提取隐含的、有用的信息,企业才能做出更加精准、更加符合市场和客户需求的决策。否则大数据的优势将化为泡影。而实际中采集到的数据,其数据来源和数据结构繁多复杂,因此,海量的数据中难免存在着大量不完整、有缺失值的数据,这严重影响到数据挖掘建模的效率,甚至可能导致挖掘结果的偏差。因此,要对数据文件中的可识别错误进行纠正,其中,数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。其中,对缺失值的处理方法研究意义重大,也面临着很多亟待解决的问题。
缺失数据处理方法的选择影响处理的精确性和建立在该数据集上的研究结果的有效性。常用缺失值的处理方法主要包括两种:删除法和插补法。
删除法是指删除掉包含缺失值的记录。如果通过简单的删除小部分的记录达到既定的目的,那么删除含有缺失值的记录的方法是最有效的。然而,这种方法有很大的局限性。它是以减少历史数据来换取数据的完备,会造成资源的大量浪费,因为它丢弃了大量隐藏在这些记录中的信息,尤其在数据集本来就包含很少记录的情况下,删除少量的记录可能会严重影响到分析结果的客观性和准确性。
插补法是指通过某种方法对缺失数据进行补充,不同的插补方法,其插补的数值与原数据的精度也是不一样的。插补法主要分为替代值插补(均值插补、众数插补、中值插补等)、回归插补(线性插补、拉格朗日插补等)、极大似然估计和其他插补方法(关联规则插补法等)。替代值插补的方法将缺失值一视同仁,使用同一数据进行插补,这显然是不合理的。而极大似然估计和关联规则插补方法需要数据本身具有某种特征或与其它属性之间具有某种联系,因此受用面较窄。目前,使用最为广泛的插补方法为线性插补和拉格朗日插补。
现有技术中,当使用拉格朗日插补时,通常提前确定好插补多项式的阶数,对不同缺失位置的数据均采用同一阶数。但实际上这一设定并不合理,因为鉴于不同插补位置附近数据的变化轨迹不同,影响缺失值的数据个数并不相同,即用来进行拉格朗日插值计算的阶数也不应该相同。另外,传统拉格朗日插补会使得待插补数据区间两端出现“龙格”现象,即出现数据的振荡,因此,插补的平均误差很大。
发明内容
为了提高数据质量,克服现有技术中使用拉格朗日插值法时对缺失值处理中存在的问题,本发明提供一种基于拉格朗日插值法的缺失值处理方法,引入斜率作为评判预测值的标准,以此帮助拉格朗日插补法确定最优阶数以实现对缺失值的最优插补,在提高插补精度的同时改善拉格朗日插补方法中的“龙格”现象。
为了实现上述目的,本发明采取了如下技术方案。
本发明实施例提供了一种基于拉格朗日插值法的缺失值处理方法,所述方法包括如下步骤:
步骤S1,确定需要进行插值计算的数据集;
步骤S2,逐个判断数据集中的数据是否为缺失值;当数据为缺失值时,进入步骤S3;当数据不为缺失值时,重复步骤S2,判断下一个数据;
步骤S3,采用拉格朗日法对缺失值分别计算对应不同窗口大小时的预测值;
步骤S4,计算所有预测值与当前缺失值前一项数据的连线斜率;
步骤S5,对所有斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,则转入步骤S7;
步骤S6,若所有斜率同为正,则取最小斜率所对应的预测值作为插补值;若所有斜率同为负,则取最大斜率所对应的预测值作为插补值,结束计算;
步骤S7,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置后的第二项数据的连线斜率,进入步骤S8;
步骤S8,对计算出来的多个斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,则转入步骤S9;
步骤S9,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置前第二项数据的连线斜率,进入步骤S8。
进一步地,所述步骤S7和步骤S9中,保留部分窗口所对应的预测值,具体为:取出正斜率最小值、负斜率最大值和0斜率所对应的预测值,作为保留预测值。
进一步地,所述步骤S3中采用拉格朗日法对缺失值分别计算对应不同窗口大小时的预测值,进一步地,通过式(1)计算不同窗口大小时的预测值,所述式(1)为:
式(1)中,n为窗口大小win_size。
进一步地,所述步骤S4进一步为:
通过式(2)计算所有预测值与当前缺失值前一项数据的连线斜率;式(2)为:
式(2)中,xi为缺失值的位置,pre_valuei(win_size)为当窗口大小为win_size时缺失值xi的预测值,(xi-1,xj-1)为缺失值前一项值。
进一步地,所述步骤S5中对所有斜率的比较,进一步为,通过公式(3)来对斜率进行比较,公式(3)为:
进一步地,所述步骤S7中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置后第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。
进一步地,所述步骤S9中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置前第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。由上述本发明的实施例提供的技术方案可以看出,本发明实施例具有如下有益效果:
本发明实施例的基于拉格朗日插值法的缺失值处理方法,引入斜率作为评判预测值的标准,使得拉格朗日插补法确定最优阶数以实现对缺失值的最优插补,提高了插补精度,同时改善了拉格朗日插补方法中的“龙格”现象。
本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例基于拉格朗日插值法的缺失值处理方法流程示意图。
具体实施方式
下面详细描述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
为便于对本发明实施例的理解,下面将结合附图以几个具体实施例为例做进一步的解释说明,且各个实施例并不构成对本发明实施例的限定。
数据质量问题历来备受人们关注,因为干净的数据是进行各种数据挖掘建模的基础。而实际采集到的数据,可能会因设备损坏、网络异常、人为因素等各种原因带来的影响,出现丢失的问题。残缺的数据显然不能够很好的发挥它的作用。现有技术中,对缺失数据的处理方法中,常用的为插补法,其中,拉格朗日插补法是一种经典的回归插补方法,可以在一定程度上补全原来的数据,但是,现有技术中采用的拉格朗日插补法中插补阶数为固定值,即对于数据集中任何位置的缺失均使用其前后固定数目的数据进行预测插补。而这一思想并不合理,因为数据集不同位置的缺失值,其周围数据的分布是不同的,也就是说影响缺失位置数据值的邻近数据个数是不一样的,用来帮助预测缺失值的数据个数也是不一样的,因此计算的结果误差较大。
针对上述拉格朗日插补法中所存在的问题,本发明提出了一种基于拉格朗日插值法的缺失值处理方法,该方法引入斜率作为评判预测值的标准,利用预测值与缺失值附近数据的连线斜率来决定参与不同位置缺失数据预测的数据个数,即该算法中提到的窗口大小,以此帮助拉格朗日插补法确定最优阶数以实现对缺失值的最优插补,提高了插补的准确度及精度的同时改善了拉格朗日插补方法中的“龙格”现象。
下面通过具体的实施例,结合附图,对本发明作进一步详细的说明。
实施例
本实施例提供了一种基于拉格朗日插值法的缺失值处理方法,用于缺失数据的插补。图1所示为本实施例所述缺失值处理方法的流程示意图。如图1所示,所述确定缺失值处理方法包括如下步骤:
步骤S1,确定需要进行插值计算的数据集。
步骤S2,逐个判断数据集中的数据是否为缺失值;当数据为缺失值时,进入步骤S3;当数据不为缺失值时,重复步骤S2,判断下一个数据。
步骤S3,采用拉格朗日法对缺失值分别计算对应不同窗口大小时的预测值。
本步骤中,对缺失值分别计算当win_size∈[1,6]时的使用拉格朗日插补方法的预测值。由于随着窗口大小的增大,龙格现象越来越明显,受到龙格现象影响的预测值不再具有考虑的价值,同时,为了节省计算量,本发明将窗口大小上限定为6。实验也证明,在此区间内变化的窗口大小已足以提升插补精度。这里的win_size为窗口大小,在一个定区内变化,本实施例中所选的定区间为[1,6];每一个窗口大小对应一个相应的预测值,记为预测值(win_size)。
步骤S4,计算所有预测值与当前缺失值前一项数据的连线斜率。步骤S5,对所有斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,则转入步骤S7。
步骤S6,若所有斜率同为正,则取最小斜率所对应的预测值作为插补值;若所有斜率同为负,则取最大斜率所对应的预测值作为插补值,结束计算。
步骤S7,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置后的第二项数据的连线斜率,进入步骤S8。
步骤S8,对计算出来的多个斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,则转入步骤S9。
步骤S9,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置前第二项数据的连线斜率,进入步骤S8。
进一步地,所述步骤S7和步骤S9中,保留部分窗口所对应的预测值,具体为:取出正斜率最小值、负斜率最大值和0斜率所对应的预测值,作为保留预测值。
通常情况下,进行到步骤S7时,基本就可以得到相同符号的斜率,结束计算了。本实施例中参考值,即用来和预测值计算连线斜率的前向/后向值,在缺失值的邻近值内自由选取,但考虑到缺失值两侧的数据变化轨迹可能不同,采用前向\后向交替选取的方法,以更快确定窗口大小。本实施例中,一般只需要选取三次以内的参考值即可确定出窗口大小。
其中,所述步骤S3中,对缺失值计算的预测值由拉格朗日插值公式式(1)得出:
式(1)中,n为窗口大小win_size,在步骤S3中计算win_size∈[1,6]时对应的不同预测值。
所述步骤S4中,计算步骤S3中的预测值与缺失值前一项值的连线斜率采用如下公式:
式(2)中,xi为缺失值的位置,pre_valuei(win_size)为当窗口大小为win_size时缺失值(xi,yi)的预测值,(xi-1,xj-1)为缺失值前一项值。pre_valuei(win_size)由步骤S3计算得到,通过公式(1)当n=win_size时计算出来的结果,这里的i指的是位置,即缺失位置为xi的数据对应的备选预测值L(xi)。
所述步骤S5使用公式(3)来确定拉格朗日插补的最优窗口:
所述步骤S7中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置后第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。
所述步骤S9中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置前第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。
当窗口大小为win_size时,此时win_size的取值为取出的正向最小斜率、负向最大斜率以及值为0的斜率所对应的win_size。
(xi+2,yi+2)为缺失值位置后第二项的值,(xi-2,yi-2)为缺失值位置前第二项的值。pre-valuei(win_size)由步骤S3计算得到。从以上技术方案可以看出,本发明实施例针对常用定阶数拉格朗日插补方法精度不够高的问题,提供了一种基于斜率的最优拉格朗日插值确定方法,所述插值确定方法以缺失值的邻近值与预测值之间的斜率为辅助,帮助不同位置的缺失值数据确定其最优阶数的拉格朗日插补方法。通过使用此方法能够在提升插补精度的同时改善“龙格”现象带来的数据动荡问题。
下面通过一个具体的数值操作场景,对本发明作进一步详细的说明。
本场景下,采用的数据集是实际采集到的单个车辆2018年8月9日18时36分至21时36分的经纬度定位数据,从数据集中随机选取三个部分数据作为样本数据集,三个实验用到的数据个数分别为100,30000,1000,采用本发明实施例的插值确定方法,进行三次拉格朗日插值确定,并对所确定的插值进行验证。
对每个部分的样本数据集,进行如下操作:
步骤S102,逐个判断数据集中的数据是否为缺失值;当数据为缺失值时,进入步骤S103;当数据不为缺失值时,重复步骤S102,判断下一个数据;
步骤S103,对缺失值分别计算当win_size∈[1,6]时的使用拉格朗日插补方法的预测值;
步骤S104,分别计算步骤S103中的预测值与当前缺失值前一项数据的连线斜率;
步骤S105,对计算出来的斜率进行比较;若所有斜率为同号,则转入步骤S106;若所有斜率不同号,则转入步骤S107。
步骤S106,若所有斜率同为正,则取最小斜率所对应的预测值作为插补值;若所有斜率同为负,则取最大斜率所对应的预测值作为插补值,结束计算。
步骤S107,取出正斜率最小值、负斜率最大值和0斜率所对应的预测值作为保留预测值,计算保留预测值与当前缺失值位置后的第二项数据的连线斜率,进入步骤S108。
步骤S108,对计算出来的多个斜率进行比较:若所有斜率为同号,则转入步骤S106;若所有斜率不同号,则转入步骤S109。
步骤S109,取出正斜率最小值、负斜率最大值和0斜率所对应的预测值,作为保留预测值,计算保留预测值与当前缺失值位置前第二项数据的连线斜率,进入步骤S108。
下面通过三个方面对分别对三个样本数据集所获得的插值进行验证。
对于第一个样本集,研究不同阶数的拉格朗日插补方法插补效果的差别,对样本数据集不同位置的缺失值数据使用不同阶数的拉格朗日插补方法进行插补,对插补效果进对比分析。
对于第二个样本集,比较本发明所提算法与常用插补算法的插补精度,分别在样本数据集上使用不同插补算法,统计各个方法的插补精度,进行比较分析。将样本集中的数据插补精度列入表1。
表1算法插补性能对比
如表1,其中加粗的即为插补精度最高的。相比于常用的插补方法,本发明所提出的算法在性能上明显优于其他算法,尤其和固定窗口的拉格朗日插补方法比较,其精度提升了若干个数量级,这是因为所提算法改善了“龙格”现象造成的数据振荡。
对于第三个样本集,研究本发明所提算法对“龙格”现象的改善情况,对比分析分别使用定阶数拉格朗日插补和本发明所提出的基于斜率的最优拉格朗日插值确定算法在插补后的数据集的区间两端的数据振荡情况。
选取绝对误差(MAE)来进行算法性能的判断。绝对误差(MAE)计算公式为:
对于这个指标来说,其值越小表明插补方法的插补性能越好。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域普通技术人员可以理解:实施例中的装置中的部件可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的部件可以合并为一个部件,也可以进一步拆分成多个子部件。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (7)

1.一种基于拉格朗日插值法的缺失值处理方法,其特征在于,所述方法包括如下步骤:
步骤S1,确定需要进行插值计算的数据集;
步骤S2,逐个判断数据集中的数据是否为缺失值;当数据为缺失值时,进入步骤S3;当数据不为缺失值时,重复步骤S2,判断下一个数据;
步骤S3,采用拉格朗日法对缺失值分别计算对应不同窗口大小时的预测值;
步骤S4,计算所有预测值与当前缺失值前一项数据的连线斜率;
步骤S5,对所有斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,则转入步骤S7;
步骤S6,若所有斜率同为正,则取最小斜率所对应的预测值作为插补值;若所有斜率同为负,则取最大斜率所对应的预测值作为插补值,结束计算;
步骤S7,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置后的第二项数据的连线斜率,进入步骤S8;
步骤S8,对计算出来的多个斜率进行比较:若所有斜率为同号,则转入步骤S6;若所有斜率不同号,进入步骤S9;
步骤S9,保留部分窗口所对应的预测值,计算保留预测值与当前缺失值位置前第二项数据的连线斜率,则转入步骤S8。
2.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S7和步骤S9中,保留部分窗口所对应的预测值,具体为:取出正斜率最小值、负斜率最大值和0斜率所对应的预测值,作为保留预测值。
3.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S3中采用拉格朗日法对缺失值分别计算对应不同窗口大小时的预测值,进一步地,通过式(1)计算不同窗口大小时的预测值,所述式(1)为:
式(1)中,n为窗口大小win_size。
4.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S4进一步为:
通过式(2)计算所有预测值与当前缺失值前一项数据的连线斜率;式(2)为:
式(2)中,xi为缺失值的位置,pre_valuei(win_size)为当窗口大小为win_size时缺失值xi的预测值,(xi-1,xj-1)为缺失值前一项值。
5.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S5中对所有斜率的比较,进一步为,通过公式(3)来对斜率进行比较,公式(3)为:
6.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S7中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置后第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。
7.根据权利要求1所述的缺失值处理方法,其特征在于,所述步骤S9中,斜率不同号时,通过公式(4)计算保留预测值与缺失值位置前第二项连线斜率:
式(4)中,xi为缺失值的位置,pre_valuei(win_size)为缺失值xi的预测值。
CN201811366755.8A 2018-11-16 2018-11-16 一种基于拉格朗日插值法的缺失值处理方法 Pending CN109670144A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811366755.8A CN109670144A (zh) 2018-11-16 2018-11-16 一种基于拉格朗日插值法的缺失值处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811366755.8A CN109670144A (zh) 2018-11-16 2018-11-16 一种基于拉格朗日插值法的缺失值处理方法

Publications (1)

Publication Number Publication Date
CN109670144A true CN109670144A (zh) 2019-04-23

Family

ID=66142292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811366755.8A Pending CN109670144A (zh) 2018-11-16 2018-11-16 一种基于拉格朗日插值法的缺失值处理方法

Country Status (1)

Country Link
CN (1) CN109670144A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565125A (zh) * 2022-01-13 2022-05-31 西安理工大学 基于Lagrange的城市用水量插值方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381554B1 (en) * 1997-09-02 2002-04-30 Nks Co., Ltd. Method of prediction time-series continuous data and a control method using the prediction method
CN102103255A (zh) * 2011-01-28 2011-06-22 中国科学院高能物理研究所 同步辐射垂直聚焦镜重力协弯设计方法
CN102289597A (zh) * 2011-08-25 2011-12-21 重庆理工大学 预应力二次张拉拐点辨识方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6381554B1 (en) * 1997-09-02 2002-04-30 Nks Co., Ltd. Method of prediction time-series continuous data and a control method using the prediction method
CN102103255A (zh) * 2011-01-28 2011-06-22 中国科学院高能物理研究所 同步辐射垂直聚焦镜重力协弯设计方法
CN102289597A (zh) * 2011-08-25 2011-12-21 重庆理工大学 预应力二次张拉拐点辨识方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
俞海军、陈瑾怡;: "三种插值方法的研究与比较", 《河南科技》 *
吴鹏等: "基于定点/插值算法的卫星PVT实时计算的优化设计", 《舰船电子工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114565125A (zh) * 2022-01-13 2022-05-31 西安理工大学 基于Lagrange的城市用水量插值方法

Similar Documents

Publication Publication Date Title
CN109727446A (zh) 一种用电数据异常值的识别与处理方法
CN107679566A (zh) 一种融合专家先验知识的贝叶斯网络参数学习方法
CN108399453A (zh) 一种电力客户信用等级评价方法和装置
CN105512727A (zh) 一种基于Markov的个人路径预测方法
CN117078048B (zh) 基于数字孪生的智慧城市资源管理方法及系统
CN108154311A (zh) 基于随机森林和决策树的优质客户识别方法及装置
CN103236013B (zh) 一种基于关键股票集识别的股票市场大盘数据分析方法
Rujivan Analytically pricing variance swaps in commodity derivative markets under stochastic convenience yields
CN109670144A (zh) 一种基于拉格朗日插值法的缺失值处理方法
CN108363709A (zh) 一种基于用户使用主成分的图表推荐系统及方法
Jiang et al. Intertemporal pricing via nonparametric estimation: Integrating reference effects and consumer heterogeneity
CN103678709B (zh) 一种基于时序数据的推荐系统攻击检测方法
CN105426647A (zh) 基于可靠度先验信息融合的冷备系统可靠度估计方法
CN105260944A (zh) 一种基于lssvm算法与关联规则挖掘的统计线损计算方法
Fushing et al. Discovering stock dynamics through multidimensional volatility phases
Ng et al. Bootstrap inference for multiple change-points in time series
Yoshida Interpreting attention of stock price prediction
Bertrand et al. Overfitting of Hurst estimators for multifractional Brownian motion: A fitting test advocating simple models
CN111859263B (zh) 一种用于自来水处理的精准投药方法
CN112581188A (zh) 工程项目投标报价预测模型构建方法、预测方法及模型
CN110390434A (zh) 短期电价预测的方法及装置
Li et al. Real-Time Robust State Estimation for Large-Scale Low-Observability Power-Transportation System Based on Meta Physics-Informed Graph TimesNet
CN106845693A (zh) 一种预测随机过程变化趋势转变点的方法及系统
CN114971434B (zh) 一种基于分布式计算的绩效对比分析系统
CN115830068B (zh) 基于污染路径识别的污染溯源大数据模型

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190423