CN103678322B - 一种样本数据的整合系统及方法 - Google Patents

一种样本数据的整合系统及方法 Download PDF

Info

Publication number
CN103678322B
CN103678322B CN201210322181.0A CN201210322181A CN103678322B CN 103678322 B CN103678322 B CN 103678322B CN 201210322181 A CN201210322181 A CN 201210322181A CN 103678322 B CN103678322 B CN 103678322B
Authority
CN
China
Prior art keywords
sample
time point
internal memory
observation
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210322181.0A
Other languages
English (en)
Other versions
CN103678322A (zh
Inventor
盛子夏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201210322181.0A priority Critical patent/CN103678322B/zh
Publication of CN103678322A publication Critical patent/CN103678322A/zh
Application granted granted Critical
Publication of CN103678322B publication Critical patent/CN103678322B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0202Market predictions or forecasting for commercial activities

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种样本数据的整合系统及方法,该方法包括:处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在所述内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理。本申请能够提高了预测模型的样本建立过程的准确性和及时性。

Description

一种样本数据的整合系统及方法
技术领域
本申请属于数据预测模型领域,具体地说,涉及一种样本数据的整合系统及方法。
背景技术
现有技术中的数据预测一般均采用数据预测模型方式。通过从简化的数学公式上:Y=BX+e;其中Y就是要预测的事件(自变量),通常为一个固定的时间窗口。这里X是影响Y的因子,而B就是要估计的参数;e为误差。而现有的数据预测模型对于其中的Y(自变量)通常都有一个固定的N天或者月的预测窗口X。
比如:预测风险时,银行要预测一个客户从现在这个时点算起,在未来12个月的出险概率。在市场营销上,企业会预测,在实施一个促销活动后的3个月内,顾客会来光顾或使用产品的概率。
上述所有的这些数据预测模型在预测的时间窗口(Y)上都是必须固定的。这是因为只有固定的时间窗口,在不同的实施时间点(比如实施在1月,或者2月)实行的促销活动才是可比的。理论上,事件发生的概率是服从一定时间分布的(有一个CDF(累计分布函数,cumulative distribution function))累计的概念),观测时间窗口越长,发生概率也越大。所以,只有固定预测时间窗口,才可以把不同时间点实行的样本联合起来建模,从而得出稳定和准确的预测。
然而,(如图1所示)固定的时间窗口的数据预测模型有一个巨大的缺陷,就是所有可以拿来建模的样本必须保留固定的时间窗口的表现期,而比较新的样本,由于其表现期较短,无法满足预定的时间窗口的话,这些样本通常都被浪费而舍弃了。如图1所示为例:站在现在2012年6月的这个点上,如果想建立一个10个月的固定的时间窗口的数据预测模型,所用的数据则可以是2011年1月到2011年10月,2011年2月到2011年11月,以此类推,则最近的可用数据是2011年9月。所有能够拿来用来建模的数据样本就只有黑色线条围成的平行四边形黑色部分。显然,2011年10月以后的数据即下面的白色三角部分(观测窗口不足10个月)就只能被舍弃;同样上面的黑色线条围成的三角形白色部分(观测窗口大于12个月)通常也是被忽略的。
对于上述这2块三角形区域,目前业界普遍的做法是忽略。但实际上很多人都想利用这块数据,但没有合适的方法。因为如果直接将不足观测窗口的数据应用进来的话,会产生很大的一个偏差。其原因在于,预测的事件概率会随着时间窗口的变化呈非线性的上升趋势(这个趋势通常是某种统计分布的累计分布函数(CDF,cumulative distributionfunction)。
如图2所示,如果原先设定的预测的固定的时间窗口是10个月的话,事件在10个月内的发生概率在65%左右,但在6个月时,其实际发生概率可能只有15%左右。如果直接把15%发生概率的数据混合在平均65%的发生率样本中,产生的数据偏差将会是非常大的。
可以看出,如果不加调整,直接使用不足观测的时间窗口的新数据会造成预测的偏差(进行低估的价值),但现有技术方案中还没有一种方式可以调整这些新数据,从而使这部分新数据可以被利用。
发明内容
有鉴于此,本申请所要解决的技术问题是提供了一种样本数据的整合系统及方法,通过对无观测值的时间点和/或新加入的时间点的分布权重进行有效的调整,来解决固定时间窗口的预测模型中无法使用和必须舍弃无观测值的时间点和/或新加入的时间点的缺点问题。
为了解决上述技术问题,本申请公开了一种样本数据的整合方法,包括:处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在所述内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理。
进一步包括:所述处理器调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
进一步地,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
进一步还包括:所述处理器将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在所述内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
进一步地,所述合并构建一个整体的样本的概率信息的方法,包括以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
为了解决上述技术问题,本申请还公开了一种样本数据的整合系统,包括:构造模块、调整模块以及合并模块,其中,所述构造模块,用于将数据库中保存的固定时间窗口预测模型的样本加载到内存,在内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;所述调整模块,用于当检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整;
所述合并模块,用于将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理。
进一步包括:所述调整模块调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
进一步地,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
进一步地,所述构造模块,还用于将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在所述内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
进一步地,所述构造模块,合并构建一个整体的样本的概率信息时,采用以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
为了解决上述技术问题,本申请还公开了一种样本数据的整合方法,包括:处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理;所述处理器未检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,则直接对构造完成的样本的概率信息进行建模处理。
进一步包括:所述处理器调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
进一步地,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
进一步还包括:所述处理器将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
进一步地,所述合并构建一个整体的样本的概率信息的方法,包括以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
与现有的方案相比,本申请所获得的技术效果:
第一,能够对在固定时间窗口内进行预测模型的样本的建立过程中对其中的所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,使其既能反映出最新的信息,又不会在数值上对原始数据造成偏差,从而能够进行更加合理的使用;
第二,能大大的提高了预测模型的样本建立过程的准确性,及时性。
当然,实施本申请的任一产品必不一定需要同时达到以上所述的所有技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是现有技术中的一个10个月的固定的时间窗口的数据预测模型的示意图;
图2是图1所示内容中样本的发生概率变化的对应曲线图;
图3是本申请实施例所述的一种样本数据的整合方法流程框图;
图4是为本申请实施例所述的一种样本数据的整合系统方框示意图;
图5是采用步骤301的本申请另一个实施例以10个月为固定时间窗口预测模型的样本进行样本的发生概率曲线的构造,然后在合并构建一条整体的样本的发生概率曲线图;
图6是采用步骤302的本申请另一个实施例以10个月为固定时间窗口的预测模型的样本情况下,所有样本的列表的分布权重调整图。
图7是本申请另一个实施例所述的一种样本数据的整合方法流程框图。
具体实施方式
以下将配合图式及实施例来详细说明本申请的实施方式,藉此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。
本申请的应用场景
上述本申请实施例所述的方法,主要是应用于具有处理器、数据库、内存和缓存的系统对产品概率统计领域,这里具体应用可以包括:
1)票据、期货、证券分析员对大盘进行市值汇总分析及对个股进行业绩等绩优股评定时,需要有一整套的产品概率的统计才能进行分析。股市信息往往是使用数据表的形式存储整理,这里通过概率信息(所属概率信息包括但不限于发生概率曲线)进行统计分析。
2)银行的数据分析人员向个人用户或单位用户提供年终账单时进行帐目分析时,需要有一整套的数据信息的统计才能进行分析。所以这里也适用本申请的技术方案。
3)信贷机构对申请贷款的客户进行客户审批信息的分析时,客户审批信息往往包括用户的信用记录和交易记录,此时也是需要有一整套的数据信息的统计才能进行分析。所以这里也适用本申请的技术方案。
总之,本申请并不限于以上应用场景,还存在其他适用于涉及数据信息的统计并进行分析以及具体地概率信息的统计分析的场景。
实施例描述
如图3所示,本申请实施例所述的一种样本数据的整合方法,主要是应用于具有处理器、数据库(一般位于云端或者本地的数据硬盘)、内存和缓存的系统,具体步骤包括:
步骤301,处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在所述内存中构造所述样本的概率信息(所述概率信息包括但不限于发生概率曲线)并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行。
在本实施例中所述时间是以月为单位进行的操作,当然这里所述的时间还可以是月、日、年为单位的时间,也可以是它们中多种的组合,对所述时间这个单位的概念这里不做具体限定。
其中,步骤301具体地为:处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,实际上是处理器向数据库(一般位于云端或者本地的数据硬盘)、内存发送控制信息,通知将数据库中保存的固定时间窗口预测模型的样本加载到内存,之后数据库按控制信息把该样本发给内存,然后处理器再发送控制信息给内存和缓存,指示在内存中构造所述样本的概率信息并将所述概率信息保存到缓存中。
步骤302,处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整。
其中,对于步骤302中进一步包括:所述处理器调高在内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
其中,步骤302具体地为:当处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,发送控制信息对加载到内存的所述样本中所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,即调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
步骤303,处理器将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理。
其中,步骤303具体地为:处理器发送控制信息将调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率从内存调到缓存中,并指示缓存中已有的所述概率信息与调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率进行合并,然后在缓存中进行建模处理;当然,也可以由处理器发送控制信息,将缓存中已有的所述概率信息加载回内存,与内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率进行合并,然后在内存中进行建模处理。
步骤303中所述的建模处理,实际上是现有技术中常用的所谓的建模处理,由于该建模处理属于本领域技术人员都知悉的现有技术的手段,因此这里不再赘述。
如以图6所示为具体一实施例,具体说明下在以10个月为固定时间窗口的预测模型的样本(包括但不限于财务数据)情况下,当样本中出现无观测值的时间点时,处理器则需要在内存中对无观测值的时间点的分布权重进行调整,调整方法为:所述处理器调高在内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
这里处理器之所以采用调高权重值的做法,是因为权重在评价过程中,是被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进行区别对待。这里仅以如下实施例进行说明具体调高权重值的过程,但对于本领域技术人员来说,并不局限于以下的方式,还可以采取其他方式以达到调高权重值的目的。
以2011年11月至2012年6月为止的数据为例,月度数据只有8个月的观测期(不足10个月的固定时间窗口);其中,好样本1、2在8个月内都为‘好’,则第9个月和第10个月这两个月的无观测值的时间点上的分布权重无调整,为1。对于坏样本1、2则看其出现在哪个月,如果出现在第7个月(坏样本1),则根据整体概率分布线,按照第7个月和第10个月的的概率值,将其第9个月和第10个月这两个月的无观测值的时间点上的分布权重调高为72.6%/27.4%=2.65。
这里处理器之所以采用第7个月,而不按照第8个月的概率值进行计算(即72.6%/42.1%=1.72),是因为1.72这个值比2.65这个值要小,所以调整幅度相对来说就小,因此这里采用2.65进行分布调整;
同时需要说明的是这里采用10个月的概率进行计算,是因为在本实施例这种情况下所有其他样本都是以固定的10个月为观测窗口的。所以以10个月为固定时间窗口的预测模型的样本情况下,当样本中出现无观测值的时间点时,也必须按照10个月的概率值进行返还,这样才能保证当样本中出现无观测值的时间点时,总体的实际事件发生率仍然保持在72.6%。
显然,坏得早的样本,在具体现实中,其坏的程度要超过坏的晚的样本,这也就是为什么给予其的权重要相对较高的原因,调整完后,该样本在总体样本中,将可以体现原样本72.6%的实际发生率。同样,以此类推,坏样本2出现在第5个月,则将第9个月和第10个月这两个月的无观测值的时间点上的分布权重调高为72.6%/8.1%=8.96。
另外,还需要进一步说明下,该实施例采取了选择最后一个第10个月即该时间点没有对应样本的情况,用这个第10个月的概率值除以第7个月的概率作为调整后的权重值,但这并不是限定必须要用第10个月来进行操作,之所以选择第10个月就是为了与之前第一次出现坏样本的时间点拉大距离,以增大权重值的调整幅度。即处理器是运用所述无观测值的时间点和/或新加入的时间点与坏样本出现的时间点之间跨度最大的两者的概率值计算得到调整后的权重值。
上述实施例是以10个月为例。如果实际情况是要24个月(或者其他任何X个月的窗口)的话,那权重调整也必须以24个月(或X个月)的实际事件发生率,来除以不足观测期样本在概率曲线上对应的实际发生值,从而得出调整权重。
对于本领域技术人员来说,采用何种具体手段调整权重值在本申请中并不做具体限定,是因为本领域技术人员只要得知是通过调整权重值这个技术启示,就可以得出多种方式来实现调整权重值,因此这对本领域来说是显而易见的。
此外,对于该实施例中坏样本以及好样本的判断并不是本申请所要解决的问题,对于好坏或者优劣的观测值来说,是事先已经通过判断确定的内容。本申请是通过对现有已经明确的观测值进行处理,以达到解决固定时间窗口的预测模型中无法使用和必须舍弃无观测值的时间点和/或新加入的时间点的缺点问题。
对应于上述实施例来说,也就是将调整后的权重值2.65乘以坏样本出现的时间点即第7、8两个月份的概率,从而得到调整分布权重后的第7、8两个月份的对应的概率(比如第7个月调整为:2.65*27.4%=72.6%;第8个月调整为:2.65*42.1%=111.57%),在将其合并到之前产生的所述样本的发生概率曲线中,并进行建模处理。当然,利用调整后的权重值对数据样本进行修正,本申请不限于上述方式,本领域技术人员在获得调整后的权重值及数据样本的情况下,有能力利用任何熟知的方式进行修正。
如图4所示,本申请实施例所述的一种样本数据的整合系统,该系统作为处理器41的一部分,主要是应用于具有数据库42(一般位于云端或者本地的数据硬盘)内存43和缓存44的系统,该系统包括:构造模块401、调整模块402以及合并模块403,其中,细连接线表示控制信息(包括各硬件设备间交互的控制指令)连接,箭头线表示业务数据(包括但不限于概率信息、样本等)连接;
构造模块401,与所述调整模块402相耦接,用于将数据库42中保存的固定时间窗口预测模型的样本加载到内存43中,在内存43中构造所述样本的概率信息(所述概率信息包括但不限于发生概率曲线)并在缓存44中缓存所述概率信息,通知所述调整模块402样本已加载到内存43、所述概率信息已缓存,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;在实际操作中,构造模块401分别向数据库42、内存43发送控制信息,通知数据库42将保存的固定时间窗口预测模型的样本加载到内存43,之后数据库42按控制信息把该样本发给内存43;然后构造模块401再发送控制信息给内存43和缓存44,在内存43中构造所述样本的概率信息,将所述概率信息由内存43传输到缓存44中保存;
调整模块402,分别与所述构造模块401和合并模块403相耦接,用于接收所述构造模块401的通知,当检测出加载到内存43的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存43中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,通知所述合并模块403权重值已调整完毕;
合并模块403,与所述调整模块402相耦接,用于接收所述调整模块402的通知,将内存43中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到缓存44中所保存的所述概率信息中,并进行建模处理;在实际操作中,合并模块403分别向内存43、缓存44发送控制信息,内存43将调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率传输到缓存44中,并与缓存44中已有的所述概率信息进行合并,然后在缓存44中进行建模处理;当然,合并模块403也可以分别向内存43、缓存44发送控制信息,将缓存44中已有的所述概率信息加载回内存43,与内存43中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率进行合并,然后在内存43中进行建模处理。
其中合并模块403中所述的建模处理,实际上是现有技术中常用的所谓的建模处理,由于该建模处理属于本领域技术人员都知悉的现有技术的手段,因此这里不再赘述。
如图4所示的方法与上述图3所示的实施例的方法的具体操作内容一致,本领域技术人员根据上述内容便可以得到图4所示实施方式的具体操作过程,这里不再赘述。
下面为对上述方法中步骤301,另一个实施例方式的进一步详细描述,(如图5所示)具体内容为:
针对步骤301,所述处理器将数据库中当出现多个固定时间窗口预测模型的样本时候,在所述内存中分别对每个需要制作成固定时间窗口预测模型的样本(所述样本也可以是数据)进行所述样本的概率信息(所述概率信息包括但不限于发生概率曲线)的构造,其中,构造每个所述样本的概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行,然后再将样本的概率信息合并构建一个整体的样本的概率信息。
这里将图1里面的每个月的月度数据2011年1月,2011年2月……,2012年4月的数据按照固定时间窗口的长短排列在一起进行观测。这样2011年10月以前的数据会有10月的充分观测期(在图5中表示为细的实线部分501);而2011年10月以后的数据,则不足10月(从2011年11月至2012年4月),而只有部分观测到的部分(在图5中表示为粗的虚线502)。
根据这些不同长短的线,构建一个整体的样本的概率信息(本实施例中所述概率信息使用发生概率曲线进行描述,在图5中表示为黑色粗实线503)作为整体的样本在不同固定时间窗口观测期下的样本的发生概率曲线。而这条整体的样本的发生概率曲线是做为后续步骤302中所述处理器检测出加载到内存的所述无观测值的时间点和/或新加入的时间点的分布权重进行调整的基础。
这里处理器或者服务器针对合并构建一个整体的样本的概率信息所采用的方法不做限定,其既可以采用比较简单近似的直接用平均方法进行操作,还可以采用比较复杂精确一点的可以用每条时间(月度线)样本数作为权重的加权平均值方法,也可以更加精准的通过季节性分解或外生变量分解来提取总趋势线的方法进行制作,这里提到的采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法都属于现有技术中的方式方法,因此这里不在详细赘述。
如图7所示,为本申请另一个实施例所述的一种样本数据的整合方法流程图,主要是应用于具有处理器、数据库(一般位于云端或者本地的数据硬盘)、内存和缓存的系统,具体步骤包括:
步骤701,处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在所述内存中构造所述样本的概率信息(所述概率信息包括但不限于发生概率曲线)并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行。
步骤702,所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整。
步骤703,处理器将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到步骤701中所缓存的所述概率信息中,并进行建模处理。
步骤704,处理器检测加载到内存的所述样本中不存在无观测值的时间点和/或新加入的时间点时,则直接在内存中对构造完成的样本的概率信息进行建模处理。
如图7所示的方法与上述图3所示的方法的具体操作内容一致,本领域技术人员根据上述内容便可以得到图7所示实施方式的具体操作过程,这里不再赘述。
另外,在另一实施例中,还包括一种与本方法对应的样本数据的整合系统,与附图4所示的系统结构相同,不同之处在于,调整模块402检测到加载到内存43的所述样本中不存在无观测值的时间点和/或新加入的时间点时,通知合并模块403直接在内存43中对构造完成的样本的概率信息进行建模处理。
与现有的方案相比,本申请所获得的技术效果:
第一,能够对在固定时间窗口内进行预测模型的样本的建立过程中对其中的所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,使其既能反映出最新的信息,又不会在数值上对原始数据造成偏差,从而能够进行更加合理的使用;
第二,能大大的提高了预测模型的样本建立过程的准确性,及时性。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
上述说明示出并描述了本申请的若干优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。

Claims (15)

1.一种样本数据的整合方法,其特征在于,包括:
处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在所述内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;
所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理;
其中,所述对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,包括:所述处理器根据所述无观测值的时间点和/或新加入的时间点与坏样本出现的时间点之间跨度最大的两者的概率值计算得到调整后的权重值。
2.如权利要求1所述的样本数据的整合方法,其特征在于,进一步包括:所述处理器调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
3.如权利要求1所述的样本数据的整合方法,其特征在于,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
4.如权利要求1所述的样本数据的整合方法,其特征在于,进一步还包括:
所述处理器将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在所述内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
5.如权利要求4所述的样本数据的整合方法,其特征在于,所述合并构建一个整体的样本的概率信息的方法,包括以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
6.一种样本数据的整合系统,其特征在于,包括:构造模块、调整模块以及合并模块,其中,
所述构造模块,用于将数据库中保存的固定时间窗口预测模型的样本加载到内存,在内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;
所述调整模块,用于当检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整;
所述合并模块,用于将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理;
所述调整模块,进一步用于运用所述无观测值的时间点和/或新加入的时间点与坏样本出现的时间点之间跨度最大的两者的概率值计算得到调整后的权重值。
7.如权利要求6所述的样本数据的整合系统,其特征在于,进一步包括:所述调整模块调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
8.如权利要求6所述的样本数据的整合系统,其特征在于,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
9.如权利要求6所述的样本数据的整合系统,其特征在于,
所述构造模块,进一步还用于将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在所述内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
10.如权利要求9所述的样本数据的整合系统,其特征在于,所述构造模块,合并构建一个整体的样本的概率信息时,采用以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
11.一种样本数据的整合方法,其特征在于,包括:
处理器将数据库中保存的固定时间窗口预测模型的样本加载到内存,在内存中构造所述样本的概率信息并缓存所述概率信息,其中,构造所述概率信息按照时间顺序根据所述样本中包含的时间点对应的概率进行;
所述处理器检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,在内存中对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,将内存中调整分布权重后的无观测值的时间点和/或新加入的时间点对应的概率合并到所缓存的所述概率信息中,并进行建模处理;
所述所述处理器对所述无观测值的时间点和/或新加入的时间点的分布权重进行调整,包括:所述处理器根据所述无观测值的时间点和/或新加入的时间点与坏样本出现的时间点之间跨度最大的两者的概率值计算得到调整后的权重值;
所述处理器未检测出加载到内存的所述样本中出现无观测值的时间点和/或新加入的时间点时,则直接对构造完成的样本的概率信息进行建模处理。
12.如权利要求11所述的样本数据的整合方法,其特征在于,进一步包括:所述处理器调高加载到内存的所述样本中出现的无观测值的时间点和/或新加入的时间点的权重值。
13.如权利要求11所述的样本数据的整合方法,其特征在于,所述时间,包括以月、日或年为单位的时间中的一种或多种的组合。
14.如权利要求11所述的样本数据的整合方法,其特征在于,进一步还包括:
所述处理器将数据库中出现具有多个固定时间窗口预测模型的样本加载到内存,在内存中分别对每个需要制作成固定时间窗口预测模型的样本进行所述样本的概率信息的构造,然后再合并构建一个整体的样本的概率信息。
15.如权利要求14所述的样本数据的整合方法,其特征在于,所述合并构建一个整体的样本的概率信息的方法,包括以下一种或多种的组合:采用平均方法、加权平均值方法、季节性分解方法或外生变量分解方法。
CN201210322181.0A 2012-09-03 2012-09-03 一种样本数据的整合系统及方法 Active CN103678322B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210322181.0A CN103678322B (zh) 2012-09-03 2012-09-03 一种样本数据的整合系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210322181.0A CN103678322B (zh) 2012-09-03 2012-09-03 一种样本数据的整合系统及方法

Publications (2)

Publication Number Publication Date
CN103678322A CN103678322A (zh) 2014-03-26
CN103678322B true CN103678322B (zh) 2016-12-28

Family

ID=50315924

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210322181.0A Active CN103678322B (zh) 2012-09-03 2012-09-03 一种样本数据的整合系统及方法

Country Status (1)

Country Link
CN (1) CN103678322B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107544426B (zh) * 2016-06-27 2021-09-07 苏州宝时得电动工具有限公司 一种电动工具的控制方法、装置及电动工具
CN109816166B (zh) * 2019-01-17 2022-11-29 山东大学 一种地源热泵系统性能预测方法
CN111597245B (zh) * 2020-05-20 2023-09-29 政采云有限公司 一种数据抽取方法、装置及相关设备
CN112308299B (zh) * 2020-10-19 2024-04-19 新奥数能科技有限公司 用于电力系统负荷预测模型的样本数据提取方法和装置
CN112766558A (zh) * 2021-01-13 2021-05-07 深圳前海微众银行股份有限公司 建模样本生成方法、装置、设备及计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165442A (zh) * 2008-08-27 2011-08-24 尼尔森(美国)有限公司 对用于市场份额预测的选择预测系统进行定标
CN102629299A (zh) * 2011-12-02 2012-08-08 吉林大学 一种基于计算智能的时间序列多步预报方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007083371A1 (ja) * 2006-01-18 2007-07-26 Fujitsu Limited データ統合装置、方法、プログラムを記録した記録媒体

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102165442A (zh) * 2008-08-27 2011-08-24 尼尔森(美国)有限公司 对用于市场份额预测的选择预测系统进行定标
CN102629299A (zh) * 2011-12-02 2012-08-08 吉林大学 一种基于计算智能的时间序列多步预报方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
企业财务困境预测动态建模研究;韩建光;《中国博士学位论文全文数据库 经济与管理科学辑》;20120415(第4期);第85页第3段 *
数据流聚类分析与异常检测算法;张晨;《中国博士学位论文全文数据库 信息科技辑》;20091115(第11期);正文第57页第3-5段、第59页倒数第一段至第60页第3段 *

Also Published As

Publication number Publication date
CN103678322A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
Xiong et al. Heterogeneous expectations and bond markets
US8768809B1 (en) Methods and systems for managing financial data
Ames et al. Bank capital for operational risk: A tale of fragility and instability
US20120278227A1 (en) Systems and methods for using data metrics for credit score analysis
US20120246048A1 (en) Cross-Sectional Economic Modeling and Forward Looking Odds
US20180173790A1 (en) Modifying data structures to indicate derived relationships among entity data objects
Fink et al. The credit quality channel: Modeling contagion in the interbank market
CN103678322B (zh) 一种样本数据的整合系统及方法
CN104361463A (zh) 一种中小企业网络融资系统和方法
CN111383091A (zh) 一种资产证券化定价方法和装置
Osuagwu et al. Measuring technical efficiency and productivity change in the Nigerian banking sector: A comparison of non‐parametric and parametric techniques
Carvalho et al. Exit and failure of credit unions in Brazil: A risk analysis
Sun et al. Optimal equity ratio of BOT highway project under government guarantee and revenue sharing
Motegi et al. Sluggish private investment in Japan’s Lost Decade: Mixed frequency vector autoregression approach
AU2014388113A1 (en) Adaptive coupling-system based on a flexible risk transfer structure and corresponding method thereof
Park et al. Impacts of construction events on the project equity value of the Channel Tunnel project
Ju et al. Stress test for a technology credit guarantee fund based on survival analysis
Banholzer et al. Exploiting investor sentiment for portfolio optimization
Lee et al. Residential housing market and bank stability: focusing on OECD and emerging Asian countries
JP6771513B2 (ja) 債務不履行確率を算出する装置、方法及びそのためのプログラム
Mazzocchetti et al. Systemic financial risk indicators and securitised assets: an agent-based framework
WO2023114637A1 (en) Computer-implemented system and method of facilitating artificial intelligence based lending strategies and business revenue management
Sun et al. State of demand and excessive indebtedness: Evidence from Chinese listed manufacturing firms
CN109191170A (zh) 一种房产估值的数据处理系统及其数据处理方法
Chen From concept to capital: Investigating the influence of green innovation on equity financing in BRICS economies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20191203

Address after: P.O. Box 31119, grand exhibition hall, hibiscus street, 802 West Bay Road, Grand Cayman, Cayman Islands

Patentee after: Innovative advanced technology Co., Ltd

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Patentee before: Alibaba Group Holding Co., Ltd.

TR01 Transfer of patent right