CN106156260A - 一种数据缺失修补的方法和装置 - Google Patents

一种数据缺失修补的方法和装置 Download PDF

Info

Publication number
CN106156260A
CN106156260A CN201510208925.XA CN201510208925A CN106156260A CN 106156260 A CN106156260 A CN 106156260A CN 201510208925 A CN201510208925 A CN 201510208925A CN 106156260 A CN106156260 A CN 106156260A
Authority
CN
China
Prior art keywords
sequence
data
repaired
sigma
shortage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510208925.XA
Other languages
English (en)
Other versions
CN106156260B (zh
Inventor
王瑜
赵诚成
董婷
闵万里
卢辉
李龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Tmall Technology Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201510208925.XA priority Critical patent/CN106156260B/zh
Publication of CN106156260A publication Critical patent/CN106156260A/zh
Application granted granted Critical
Publication of CN106156260B publication Critical patent/CN106156260B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明提供了一种数据缺失修补的方法和装置,其中方法包括:从数据库中确定与待修补序列类别对应的序列作为候选序列;从所述候选序列中,选择与所述待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列;将所述待修补序列中数据完整区间的数据值作为目标,各邻接序列中所述数据完整区间对应的数据值作为预测因子,建立回归模型;将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用所述回归模型回归出所述待修补序列的数据缺失区间的数据值。本发明能够提高数据修补的准确性。

Description

一种数据缺失修补的方法和装置
【技术领域】
本发明涉及计算机应用技术领域,特别涉及一种数据缺失修补的方法和装置。
【背景技术】
随着计算机技术的迅速发展,尤其是大数据时代的到来,数据分析已经广泛地应用于质量管理、产品设计、个性化服务等各方面和各领域。特别是电子商务这一容易产生大数据且逐渐与人类生活密切相关的领域,对数据分析的需求更加强烈。然而,数据分析能够实施且具有一定准确性的前提是数据完整性,当面临数据缺失问题时,需要对缺失数据进行修补。例如,如图1中所示为电子商务平台上某商家的销量-时间序列图,图中横轴表示时间,纵轴表示销量。在T1和T2的时间区间内,存在数据缺失,为了数据分析的需要,需要对该部分数据进行修补。现有的数据缺失修补的方式主要存在以下几种:
一种是平均值修补方式,运用待修补序列中已存在值的平均值,作为缺失区间中各时间点对应的值。另一种方式是缺失区间两端连线的方式,即将确实区间两端值进行直线连接,缺失区间中各时间点对应的直线上的点作为各时间点的值。
无论是上述哪种方式,对缺失数据进行修补的方式都过于粗放,准确性较差。仍以商家的销量-时间序列为例,商品销量可能受季节性影响较大,对于上述两种方式,商家销量的季节性表现都被平滑而无法体现。
【发明内容】
有鉴于此,本发明提供了一种数据缺失修补的方法和装置,以便于提高数据修补的准确性。
具体技术方案如下:
本发明提供了一种数据缺失修补的方法,该方法包括:
从数据库中确定与待修补序列类别对应的序列作为候选序列;
从所述候选序列中,选择与所述待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列;
将所述待修补序列中数据完整区间的数据值作为目标,各邻接序列中所述数据完整区间对应的数据值作为预测因子,建立回归模型;
将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用所述回归模型回归出所述待修补序列的数据缺失区间的数据值。
根据本发明一可选实施方式,该方法还包括:
从所述数据库中识别出存在数据缺失的序列,将存在数据缺失的序列作为所述待修补序列。
根据本发明一可选实施方式,所述从数据库中确定与待修补序列类别对应的序列作为候选序列包括:
确定所述数据库中与所述待修补序列类别一致的序列,和/或,是所述待修补序列类别的上层类别的序列,将确定的序列作为候选序列。
根据本发明一可选实施方式,该方法还包括:对所述数据库中的序列基于类别进行归并处理,得到各层级类别的序列。
根据本发明一可选实施方式,候选序列Y(t)与所述待修补序列X(t)之间互相关程度SCC(X(t),Y(t))的计算时,采用以下公式:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中,k为预设的时间窗口,
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2 ,
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2 ,
X ‾ = 1 k Σ t = 1 k X ( t ) ,
Y ‾ = 1 k Σ t = 1 k Y ( t ) .
根据本发明一可选实施方式,所述预设要求包括:互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。
根据本发明一可选实施方式,所述回归模型包括:梯度提升决策树GBDT、神经网络模型或者线性回归模型。
根据本发明一可选实施方式,所述数据库为电子商务平台销售数据库;
所述待修补序列为商家的销售数据序列。
本发明还提供了一种数据缺失修补的装置,该装置包括:
候选序列识别单元,用于从数据库中确定与待修补序列类别对应的序列作为候选序列;
邻接序列选择单元,用于从所述候选序列中,选择与所述待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列;
回归模型建立单元,用于将所述待修补序列中数据完整区间的数据值作为目标,各邻接序列中所述数据完整区间对应的数据值作为预测因子,建立回归模型;
缺失数据重构单元,用于将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用所述回归模型回归出所述待修补序列的数据缺失区间的数据值。
根据本发明一可选实施方式,该装置还包括:
数据缺失识别单元,用于从所述数据库中识别出存在数据缺失的序列,将存在数据缺失的序列作为所述待修补序列提供给所述候选序列识别单元。
根据本发明一可选实施方式,所述候选序列识别单元,具体用于确定所述数据库中与所述待修补序列类别一致的序列,和/或,是所述待修补序列类别的上层类别的序列,将确定的序列作为候选序列。
根据本发明一可选实施方式,该装置还包括:序列归并处理单元,用于对所述数据库中的序列基于类别进行归并处理,得到各层级类别的序列。
根据本发明一可选实施方式,所述邻接序列选择单元在计算候选序列Y(t)与所述待修补序列X(t)之间互相关程度SCC(X(t),Y(t))时,采用以下公式:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中,k为预设的时间窗口,
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2 ,
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2 ,
X ‾ = 1 k Σ t = 1 k X ( t ) ,
Y ‾ = 1 k Σ t = 1 k Y ( t ) .
根据本发明一可选实施方式,所述预设要求包括:互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。
根据本发明一可选实施方式,所述回归模型包括:梯度提升决策树GBDT、神经网络模型或者线性回归模型。
根据本发明一可选实施方式,所述数据库为电子商务平台销售数据库;
所述待修补序列为商家的销售数据序列。
由以上技术方案可以看出,本发明从与待修补序列类别对应的序列中,选择与待修补序列互相关程度较高的序列作为邻接序列,将该邻接序列作为参考创建回归模型,基于该回归模型回归出的待修补序列中数据缺失区间的数据的变化趋势,就能够尽量跟随邻接序列中相同区间的数据变化趋势。相比较现有技术中粗放地数据修补方式,本发明能够提高数据修补的准确性。
【附图说明】
图1为电子商务平台上商家销售数据缺失的示意图;
图2为本发明实施例提供的主要方法流程图;
图3为本发明实施例提供的
图4为本发明实施例提供的装置结构图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
图2为本发明实施例提供的主要方法流程图,如图2中所示,该方法主要包括以下步骤:
在201中,从数据库中确定与待修补序列类别对应的序列作为候选序列。
在执行本步骤之前,可以首先对数据库中的待修补序列进行识别,即从数据库中识别出存在数据缺失的序列。通常对于数据库的操作由R语言实现(R语言是用于统计分析、绘图的语言和操作环境),在R语言中,通常采用NA标识数据缺失或不存在,因此可以通过NA标识来识别数据序列中是否存在数据缺失。在本发明实施例中,可以设置一定的过滤规则,例如将数据缺失区间小于预设区间长度的序列过滤掉,仅保留数据缺失区间大于或等于预设区间长度的序列作为待修补序列。
由于通常数据序列中的数据是具有一定类别的,该类别可以体现于该数据所对应的对象、对象的属性等。例如,对于工厂工人A生产零件a的数量序列,该序列的类别可以是零件a的类别;对于电子商务平台商家B的商品b销售数量序列,该序列的类别可以是商品b的类别。
通常在类别上对应的序列之间数据变化趋势比较类似,因此,在本发明中将在类别上对应的序列确定出来,作为待修补序列的候补序列,以用于后续进一步确定待修补序列的邻接序列,并将邻接序列作为对待修补序列的数据修补参考。
在本发明实施例中,所谓在类别上对应可以是与待修补序列类别一致,也可以是待修补序列类别的上层类别。例如,对于工厂工人A生产零件a的数量序列,可以将该工厂其他工人生产零件a的数量序列、以及该工厂生产a1种类的零件的数量序列作为候选序列,其中a1为a的上层类别,例如a为轴承,a1为紧固件。再例如,对于电子商务平台商家B的商品b的销售数量序列,可以将该电子商务平台其他商家的商品b的销售数量序列、以及该电子商务平台商品b1的销售数量序列作为候选序列,其中b1为b的上层类别,例如b为裙装,b1为女装、服装等。
在确定候选序列时,为了方便确定待修补序列类别的上层类别的序列,可以首先将数据库中的序列基于类别进行归并处理,得到各层级类别的序列。例如将该工厂工人生产轴承的数量序列、生产螺钉的数量序列、生产螺母的数量序列等进行归并处理,得到该工厂生产紧固件的数量序列,将该工厂工人生产销的数量序列、生产键的数量序列等进行归并处理,得到该工厂生产定位件的数量序列,等等。再例如将电子商务平台各商家裙装的销售数量序列、女士大衣的销售数量序列、女士衬衫的销售数量序列等进行归并处理,得到该电子商务平台女装的销售数量序列。将电子商务平台男装的销售数量序列、女装的销售数量序列、童装的销售数量序列等进行归并处理,得到该电子商务平台服装的销售数量序列。
在202中,从候选序列中,选择与待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列。
在本步骤中,可以将候选序列作为预测因子,采用样本互相关函数(SCCF)计算各候选序列与待修补序列的互相关程度。计算出的互相关程度可能是正数,也可能是负数,即两者正相关或负相关。在本发明实施例中上述的预设要求可以是互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。其中前若干个的选择可以采用预设的数量,即排在前n个的序列,也可以选择排在前m%的序列。
下面对计算各候选序列与待修补序列的互相关程度的方式进行简单描述,假设:
待修补序列为:X(0),X(1),X(2),……表示为X(t);
候选序列为:Y(0),Y(1),Y(2),……表示为Y(t)。
由于时间序列可能是无穷,因此在计算时可以设置一个时间窗口k,计算在这个时间窗口之内的SCC:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中, Corr ( X ( t ) , Y ( t ) , k ) = 1 k Σ t = 1 k ( X ( t ) - X ‾ Y ( t ) - Y ‾ )
X ‾ = 1 k Σ t = 1 k X ( t )
Y ‾ = 1 k Σ t = 1 k Y ( t )
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2
在203中,将待修补序列中数据完整区间的数据值作为目标,各邻接序列中数据完整区间对应的数据值作为预测因子,建立回归模型。
本步骤中,实际上是回归出待修补序列与各邻接序列中数据的关系,在本发明实施例中,回归模型可以采用GBDT(梯度提升决策树)、神经网络模型或者线性回归模型等中任一种。由于回归模型的建立过程可以采用现有技术中较成熟的方法,在此不再详述。
在204中,将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用步骤203建立的回归模型回归出待修补序列的数据缺失区间的数据值。
由于在上述步骤203建立的回归模型中已经回归出了待修补序列与邻接序列中数据的关系,因此依据各邻接序列中与待修补序列的数据缺失区间对应的数据值,就可以回归出待修补序列的数据缺失区间的数据值。然后就可以利用回归出的数据值对待修补序列的数据缺失区间进行修补。
下面结合一个具体的实例,假设对电子商务平台的销售数据库进行数据缺失的识别后,确定出其中一个缺失数据的序列为:电子商务平台商家A对女士大衣的销售数量序列。假设电子商务平台商家A对女士大衣的销售数量序列如图1中所示,在时间T1至T2区间存在缺失,那么将该序列作为待修补序列,该待修补序列的数据缺失区间为T1至T2。
对电子商务平台的销售数据库进行类别归并处理后,可以得到如图3中所示的类别层级结构。销售记录可以包括各商家的销售数量序列。
将该数据库中其他商家女士大衣的销售数量序列中数据完整的序列作为该待修补序列的候选序列,将该数据库中女装的销售数量序列作为该待修补序列的候选序列,将该数据库中服装的销售数量序列作为该待修补序列的候选数列,等等。需要说明的是,在选择上层类别的序列作为候选序列时,可以仅包括其中数据完整的序列,也可以包含所有序列(既包含数据完整的序列,也包含数据不完整的序列)。
分别计算各候选序列与待修补序列之间的互相关程度,该互相关程度可能是正数,反映正相关,例如商家B与商家A在相同时间段销售得都多,在相同时间段销售得都少,从相同的时间段销售的数量都开始上升,在相同时间段销售的数量都开始下降,等等。该互相关程度也可能是负数,反映负相关,例如商家C在某时间段销售得多,商家A在相同时间段销售得少,商家C在某时间段销售的数量开始上升,商家A在相同时间段销售的数量开始下降,等等。
例如:
商家A女士大衣的销售序列与商家B女士大衣的销售序列的互相关程度为0.8;
商家A女士大衣的销售序列与商家C女士大衣的销售序列的互相关程度为-0.7;
商家A女士大衣的销售序列与女装的销售序列的互相关程度为0.6;
商家A女士大衣的销售序列与服装的销售序列的互相关程度为-0.7;
等等。
在本发明实施例中,选择互相关程度的绝对值排在前5%的序列作为邻接序列。
将待修补序列中除了T1至T2之间的区间之外的数据值作为目标,各邻接序列中同样除了T1至T2之间的区间之外的数据值作为预测因子,建立回归模型。然后将各邻接序列中T1至T2之间的区间对应的数据值作为预测因子,利用回归模型回归出待修补序列中T1至T2之间的区间的数据值,利用回归出的数据值对待修补序列进行修补。这样修补出来的数据就能够反映该商品所在类别的整体销售趋势。
以上是对本发明所提供的方法进行的详细描述,下面对本发明提供的装置进行详细描述。图4为本发明实施例提供的装置结构图,如图4中所示,该装置可以包括:候选序列识别单元01、邻接序列选择单元02、回归模型建立单元03和缺失数据重构单元04,还可以包括数据缺失识别单元00和序列归并处理单元05。各组成单元的主要功能如下:
数据缺失识别单元00负责从数据库中识别出存在数据缺失的序列,将存在数据缺失的序列作为待修补序列提供给候选序列识别单元01。通常对于数据库的操作由R语言实现(R语言是用于统计分析、绘图的语言和操作环境),在R语言中,通常采用NA标识数据缺失或不存在,因此可以通过NA标识来识别数据序列中是否存在数据缺失。在本发明实施例中,可以设置一定的过滤规则,例如将数据缺失区间小于预设区间长度的序列过滤掉,仅保留数据缺失区间大于或等于预设区间长度的序列作为待修补序列。
候选序列识别单元01负责从数据库中确定与待修补序列类别对应的序列作为候选序列。具体地,候选序列识别单元01可以确定数据库中与待修补序列类别一致的序列,和/或,是待修补序列类别的上层类别的序列,将确定的序列作为候选序列。
另外,为了方便确定待修补序列类别的上层类别的序列,序列归并处理单元05可以首先对数据库中的序列基于类别进行归并处理,得到各层级类别的序列。
邻接序列选择单元02负责从候选序列中,选择与待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列。可以将候选序列作为预测因子,采用样本互相关函数(SCCF)计算各候选序列与待修补序列的互相关程度。计算出的互相关程度可能是正数,也可能是负数,即两者正相关或负相关。在本发明实施例中上述的预设要求可以是互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。其中前若干个的选择可以采用预设的数量,即排在前n个的序列,也可以选择排在前m%的序列。
邻接序列选择单元02在计算候选序列Y(t)与待修补序列X(t)之间互相关程度SCC(X(t),Y(t))时,可以采用以下公式:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中,k为预设的时间窗口,
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2 ,
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2 ,
X ‾ = 1 k Σ t = 1 k X ( t ) ,
Y ‾ = 1 k Σ t = 1 k Y ( t ) .
回归模型建立单元03负责将待修补序列中数据完整区间的数据值作为目标,各邻接序列中数据完整区间对应的数据值作为预测因子,建立回归模型。在本发明实施例中,回归模型可以采用GBDT(梯度提升决策树)、神经网络模型或者线性回归模型等中任一种。
缺失数据重构单元04负责将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用回归模型回归出待修补序列的数据缺失区间的数据值,就可以利用回归出的数据值对待修补序列进行数据修补。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (16)

1.一种数据缺失修补的方法,其特征在于,该方法包括:
从数据库中确定与待修补序列类别对应的序列作为候选序列;
从所述候选序列中,选择与所述待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列;
将所述待修补序列中数据完整区间的数据值作为目标,各邻接序列中所述数据完整区间对应的数据值作为预测因子,建立回归模型;
将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用所述回归模型回归出所述待修补序列的数据缺失区间的数据值。
2.根据权利要求1所述的方法,其特征在于,该方法还包括:
从所述数据库中识别出存在数据缺失的序列,将存在数据缺失的序列作为所述待修补序列。
3.根据权利要求1所述的方法,其特征在于,所述从数据库中确定与待修补序列类别对应的序列作为候选序列包括:
确定所述数据库中与所述待修补序列类别一致的序列,和/或,是所述待修补序列类别的上层类别的序列,将确定的序列作为候选序列。
4.根据权利要求3所述的方法,其特征在于,该方法还包括:对所述数据库中的序列基于类别进行归并处理,得到各层级类别的序列。
5.根据权利要求1所述的方法,其特征在于,候选序列Y(t)与所述待修补序列X(t)之间互相关程度SCC(X(t),Y(t))的计算时,采用以下公式:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中,k为预设的时间窗口,
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2 ,
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2 ,
X ‾ = 1 k Σ t = 1 k X ( t ) ,
Y ‾ = 1 k Σ t = 1 k Y ( t ) .
6.根据权利要求1所述的方法,其特征在于,所述预设要求包括:互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。
7.根据权利要求1所述的方法,其特征在于,所述回归模型包括:梯度提升决策树GBDT、神经网络模型或者线性回归模型。
8.根据权利要求1至7任一权项所述的方法,其特征在于,所述数据库为电子商务平台销售数据库;
所述待修补序列为商家的销售数据序列。
9.一种数据缺失修补的装置,其特征在于,该装置包括:
候选序列识别单元,用于从数据库中确定与待修补序列类别对应的序列作为候选序列;
邻接序列选择单元,用于从所述候选序列中,选择与所述待修补序列之间互相关程度满足预设要求的序列,作为待修补序列的邻接序列;
回归模型建立单元,用于将所述待修补序列中数据完整区间的数据值作为目标,各邻接序列中所述数据完整区间对应的数据值作为预测因子,建立回归模型;
缺失数据重构单元,用于将各邻接序列中与待修补序列的数据缺失区间对应的数据值作为预测因子,利用所述回归模型回归出所述待修补序列的数据缺失区间的数据值。
10.根据权利要求9所述的装置,其特征在于,该装置还包括:
数据缺失识别单元,用于从所述数据库中识别出存在数据缺失的序列,将存在数据缺失的序列作为所述待修补序列提供给所述候选序列识别单元。
11.根据权利要求9所述的装置,其特征在于,所述候选序列识别单元,具体用于确定所述数据库中与所述待修补序列类别一致的序列,和/或,是所述待修补序列类别的上层类别的序列,将确定的序列作为候选序列。
12.根据权利要求11所述的装置,其特征在于,该装置还包括:序列归并处理单元,用于对所述数据库中的序列基于类别进行归并处理,得到各层级类别的序列。
13.根据权利要求9所述的装置,其特征在于,所述邻接序列选择单元在计算候选序列Y(t)与所述待修补序列X(t)之间互相关程度SCC(X(t),Y(t))时,采用以下公式:
SCC ( X ( t ) , Y ( t ) ) = Corr ( X ( t ) , Y ( t ) , k ) σ X ( t ) σ Y ( t ) ,
其中,k为预设的时间窗口,
σ X ( t ) = 1 k - 1 Σ t = 1 k ( X ( t ) - X ‾ ) 2 ,
σ Y ( t ) = 1 k - 1 Σ t = 1 k ( Y ( t ) - Y ‾ ) 2 ,
X ‾ = 1 k Σ t = 1 k X ( t ) ,
Y ‾ = 1 k Σ t = 1 k Y ( t ) .
14.根据权利要求9所述的装置,其特征在于,所述预设要求包括:互相关程度的绝对值排在前若干个,或者互相关程度的绝对值大于或等于预设阈值。
15.根据权利要求9所述的装置,其特征在于,所述回归模型包括:梯度提升决策树GBDT、神经网络模型或者线性回归模型。
16.根据权利要求9至15任一权项所述的装置,其特征在于,所述数据库为电子商务平台销售数据库;
所述待修补序列为商家的销售数据序列。
CN201510208925.XA 2015-04-28 2015-04-28 一种数据缺失修补的方法和装置 Active CN106156260B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510208925.XA CN106156260B (zh) 2015-04-28 2015-04-28 一种数据缺失修补的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510208925.XA CN106156260B (zh) 2015-04-28 2015-04-28 一种数据缺失修补的方法和装置

Publications (2)

Publication Number Publication Date
CN106156260A true CN106156260A (zh) 2016-11-23
CN106156260B CN106156260B (zh) 2020-01-21

Family

ID=57346721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510208925.XA Active CN106156260B (zh) 2015-04-28 2015-04-28 一种数据缺失修补的方法和装置

Country Status (1)

Country Link
CN (1) CN106156260B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN109344363A (zh) * 2018-08-28 2019-02-15 北京双登慧峰聚能科技有限公司 用于储能scada系统的数据断连修补方法及系统
CN112598015A (zh) * 2019-10-01 2021-04-02 财团法人资讯工业策进会 缺值补偿方法、缺值补偿系统及非暂态计算机可读取媒体
CN113139712A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种基于机器学习的流程日志活动属性残缺规则提取方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN103793613A (zh) * 2013-12-13 2014-05-14 北京航空航天大学 基于回归分析和rbf神经网络的退化数据缺失插补方法
CN103942457A (zh) * 2014-05-09 2014-07-23 浙江师范大学 基于关联向量机回归的水质参数时间序列预测方法
CN104035779A (zh) * 2014-06-25 2014-09-10 中国科学院软件研究所 一种数据流决策树分类中的缺失值处理方法
CN104200113A (zh) * 2014-09-10 2014-12-10 山东农业大学 基于高斯过程的物联网数据不确定性度量、预测与野值剔除方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102025531A (zh) * 2010-08-16 2011-04-20 北京亿阳信通软件研究院有限公司 一种性能数据的填补方法及其装置
CN103793613A (zh) * 2013-12-13 2014-05-14 北京航空航天大学 基于回归分析和rbf神经网络的退化数据缺失插补方法
CN103942457A (zh) * 2014-05-09 2014-07-23 浙江师范大学 基于关联向量机回归的水质参数时间序列预测方法
CN104035779A (zh) * 2014-06-25 2014-09-10 中国科学院软件研究所 一种数据流决策树分类中的缺失值处理方法
CN104200113A (zh) * 2014-09-10 2014-12-10 山东农业大学 基于高斯过程的物联网数据不确定性度量、预测与野值剔除方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729943A (zh) * 2017-10-23 2018-02-23 辽宁大学 信息反馈极限学习机优化估值的缺失数据模糊聚类算法及其应用
CN109344363A (zh) * 2018-08-28 2019-02-15 北京双登慧峰聚能科技有限公司 用于储能scada系统的数据断连修补方法及系统
CN112598015A (zh) * 2019-10-01 2021-04-02 财团法人资讯工业策进会 缺值补偿方法、缺值补偿系统及非暂态计算机可读取媒体
CN113139712A (zh) * 2021-03-09 2021-07-20 杭州电子科技大学 一种基于机器学习的流程日志活动属性残缺规则提取方法
CN113139712B (zh) * 2021-03-09 2024-02-09 杭州电子科技大学 一种基于机器学习的流程日志活动属性残缺规则提取方法

Also Published As

Publication number Publication date
CN106156260B (zh) 2020-01-21

Similar Documents

Publication Publication Date Title
CN109583468A (zh) 训练样本获取方法,样本预测方法及对应装置
CN109214948A (zh) 一种电力系统热负荷预测的方法和装置
CN106529968A (zh) 一种基于交易数据的客户分类方法及其系统
CN106156260A (zh) 一种数据缺失修补的方法和装置
CN107169768A (zh) 异常交易数据的获取方法和装置
CN106033424B (zh) 数据挖掘方法和装置
CN108960719A (zh) 选品方法和装置以及计算机可读存储介质
CN107203912A (zh) 动态定价方法和装置
CN104517224A (zh) 一种网络热销商品的预测方法及系统
CN103984998A (zh) 基于云服务平台大数据挖掘的销售预测方法
CN105389505A (zh) 基于栈式稀疏自编码器的托攻击检测方法
CN106529110A (zh) 一种用户数据分类的方法和设备
Pramono et al. Estimating customer segmentation based on customer lifetime value using two-stage clustering method
CN107292666A (zh) 销售潜力判断方法及装置
CN104484232B (zh) 一种提高图像重建速度的方法及装置
CN109583782B (zh) 支持多数据源的汽车金融风控方法
Nenova et al. Determining an optimal hierarchical forecasting model based on the characteristics of the data set
CN105096159A (zh) 一种区域售电量预测方法及装置
CN105447519A (zh) 基于特征选择的模型检测方法
CN106886934A (zh) 用于确定商家品类的方法、系统和装置
IL261819A (en) System, method, and computer software product for data processing
CN110533495A (zh) 专业度评分、物品推荐的方法、系统、设备和存储介质
CN106874286B (zh) 一种筛选用户特征的方法及装置
CN116308486A (zh) 一种目标卷烟销量预测方法、装置、电子设备及存储介质
CN106815290B (zh) 一种基于图挖掘的银行卡归属的确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1230298

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20211118

Address after: Room 507, floor 5, building 3, No. 969, Wenyi West Road, Wuchang Street, Yuhang District, Hangzhou City, Zhejiang Province

Patentee after: ZHEJIANG TMALL TECHNOLOGY Co.,Ltd.

Address before: Box 847, four, Grand Cayman capital, Cayman Islands, UK

Patentee before: ALIBABA GROUP HOLDING Ltd.