CN102455993A

CN102455993A - 一种统计资料的分析方法

Info

Publication number: CN102455993A
Application number: CN2010105171408A
Authority: CN
Inventors: 张聪信
Original assignee: HONGGUANG INFORMATION CO LTD
Current assignee: HONGGUANG INFORMATION CO LTD
Priority date: 2010-10-19
Filing date: 2010-10-19
Publication date: 2012-05-16

Abstract

本发明涉及一种统计资料的分析方法，其步骤包括：以常态分布从一母群体中抽取一第一资料，并求出所述第一资料的众数；以均匀分布再从所述母群体中抽取一第二资料，其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值；将所述第一资料与所述第二资料结合，以形成一第三资料；将所述第三资料与一第四资料结合，并进行资料的清洗、串连及资料挖掘以获得一第五资料；以及验证所述第五资料的准确率。如此，可以提高统计资料预测的准确率。

Description

一种统计资料的分析方法

技术领域

本发明涉及一种资料分析方法，特别指一种统计资料的分析方法，该方法可以提高统计资料预测的准确率，从而使统计资料的利用更加可靠。

背景技术

调查是针对某一群体的特定现象进行研究，以期发掘出有用的资料供学术、商业利用或决策参考的行为，分为普查及抽查；普查必须动用较多的人力及物力和较长的时间，因此不适合经常性进行；抽查可针对研究对象抽取少部分的样本，因而在人、物力及时间上比普查精简，所以能经常性进行，但是抽取的样本是否足以代表及反应母群体的真实情形，是抽查必须严肃对待的课题。

在资料预测过程，可以根据母群体(Population)的可能特性以不同的统计分布进行，较常用的是均匀分布(Uniform Distribution)或常态分布(Normal Distribution)；然而经过上述分布所完成的抽样结果，哪一种的次料预测准确率较高或者哪一种的预测信赖水平(Confidence level)较好，并未有确切的答案，因此造成预测资料使用的不安定性。

发明内容

有鉴于现有技术的存在的上述问题，本发明的主要日的在于提供一种统计资料的分析方法，以期提高资料预测的准确率。

为了实现上述目的，本发明提供一种统计资料的分析方法，其步骤包括：以常态分布从一母群体中抽取一第一资料，并求出所述第一资料的众数(mode)；以均匀分布再从所述母群体中抽取一第二资料，其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值；将所述第一资料与所述第二资料结合，以形成一第三资料；将所述第三资料与一第四资料结合，并进行资料的清洗、串连及资料挖掘(Data Mining)以获得一第五资料；以及验证所述第五资料的准确率。

作为优选，当所述第一资料的众数的峰值的一半大于三十时，将所述第二资料的每一变量的抽样数定为所述峰值的一半；反之，当所述第一资料的众数的峰值的一半小于三十时，则将所述第二资料的每一变量的抽样数定为三十。

作为优选，所述第四资料的样本数大于所述第一资料和所述第二资料的合计样本数，例如所述第一资料和所述第二资料可以是一种根据所要获取的信息而设计有多种讯息项目的资料，例如问卷资料或市调资料；而所述第四资料可以是根据每一次行为而被动获得的资料，例如一销售端(Point OfSales，POS)的资料，如发票。

作为优选，选定一已知的呈常态分布的母群体为资料抽取对象。

通过本发明如上所述的统计资料的分析方法，可以提高现有技术的资料预测方法的预测准确率，使预测资料的可信赖水平提高。

附图说明

图1为本发明的统计资料的分析方法的步骤示意图。

图2为本发明的统计资料的分析方法的第一资料的分布机率密度函数图。

图3为本发明的统计资料的分析方法的第二资料的分布机率密度函数图。

图4为本发明的统计资料的分析方法的第三资料的分布机率密度函数图。

具体实施方式

下面结合附图对本发明的实施例做进一步地详细说明。

如图1所示，本发明的统计资料的分析方法包括下列步骤：以常态分布从一母群体中抽取一第一资料，并求出第一资料的众数；以均匀分布再从母群体中抽取一第二资料，其中第二资料的每一变量的抽样数低于第一资料的众数的峰值；将第一资料与第二资料结合，以形成一第三资料；将第三资料与一第四资料结合，并进行资料的清洗、串连及资料挖掘以获得一第五资料；以及验证第五资料的准确率。

如上所述的统计资料的分析方法，其中以常态分布从母群体中抽取第一资料，是假设母群体的分布未知，因此以常态分布方式先进行母群体的抽样，以制作一呈常态分布的第一资料，例如可利用市场调查方式获得某一商品的消费年龄层分布。然而，如果已知母群体为呈常态分布，则直接以随机抽样的方式形成第一资料，并求出第一资料的众数。

上述第二资料在本实施例中是根据研究者的需求而设计出具有多面向的资料，例如具有消费者的年龄、职业、收入、教育程度及消费习惯等资料的市调资料，以便能提供兼具深度及广度的具有参考性的资料。

上述将第一资料与第二资料结合以形成第三资料，其目的在于弥补个别资料的不足，以增加资料的可参考性。如以常态分布制作的第一资料，会有分布中央过度集中强化及分布两侧过于萎缩弱化的现象，如图2所示，造成资料可参考性不足。有鉴于此，根据第一资料众数峰值并以均匀分布制作的第二资料，如图3所示，可以将第一资料变量中不足的样本数补足，以提高各变量的资料可参考性。最后，将第一资料与第二资料结合形成第三资料，并由第四图的第三资料的分布可看出，发生于第一资料的中央过度集中强化及两侧过于萎缩弱化的分布现象已解决，使得各变量的样本数足够反应母群体的现象，以增加预测资料的准确率。

另一方面，本实施例的第四资料设定为一随机获取的资料，例如是一记载有消费金额、品项及日期的零售端资料，如发票存单。因此，在本实施例中，第四资料的样本数大于第一、二资料的合计样本数，因此可利用本发明人申请专利的资料整合方法(TWO97118500、CN200810125709.9、US12139759)，将少量样本数但资料参考性高的资料，结合一大显样本数的随机资料，使预估资料得以扩充，以增加其参考价值，及资料使用的极限。

将上述的第三资料和第四资料合并，送入一统计工具进行资料的清洗、串连及资料挖掘以获得第五资料。其中资料挖掘通过建立预测模型来实现，其可使用支撑向量机(Support Vector Machine，SVM)、直线回归、曲线回归、逻辑回归、Time Series等预测模型；并且，进行资料挖掘前，若资料数太大，还可先将资料分成数群再分别进行模型预测，最后再进行个别预测资料的合并，以便提高预测结果的准确率。

以下试举一具体实施例说明上述各步骤的实际操作，其中具体实施例以一面馆为调查对象，其中母群体为面馆的所有消费者即顾客，而本具体实施例是为了了解不同年龄层的消费行为而进行调查。

首先，假设面馆的顾客中的年龄层分布末知，因此从面馆的顾客(母群体)中以符合中央极限定理(Central Limit Theorem；C.L.T)的样本数，并以至少其中一变量为年龄段设计一问卷资料。由中央极限定理可知该问卷最后所得的资料分布为呈常态分布，即本发明上述较佳实施步骤所称以常态分布从一母群体中抽取一第一资料，其结果如表1所示。由表1所呈现的面馆最多消费群集中于25-29岁可得知，第一资料的众数为25-29岁，而众数的峰值为40。

表1

年龄段(岁)	样本数
		14以下	5
15-19	18
		20-24	33
25-29	40
		30-39	33
40-49	18
		50-59	5
60以上	2
		合计	150

由表1的结果虽然知道中心消费群集中于25-29岁，但是该年龄段的消费行为并不能代表所有顾客(母群体)的消费行为，且表1的其它年龄段，如50-59岁、15-19岁、60岁以上及14岁以下的样本数过低，该样本数的问卷内容也不足以代表该年龄段的消费行为。有鉴于此，本实施例以年龄层为变数，再从面馆的顾客(母群体)中抽取另一样本，此次抽取的样本数是根据表1所获得的众数峰值为参数，对每一个年龄段抽取固定的样本，即以均匀分布(Uniform Distribution)进行各年龄段的样本抽取。而均匀分布的个别变量的抽取量要定为多少，影响该抽样结果的可信赖度；假设第一资料的众数的40个样本数(峰值)足可反应顾客的消费行为，而众数以外的变量要再抽取多少样本才能达到相同效果？若每一变量抽取和众数峰值相同的样本数，则恐费时并增加抽样成本，但太少又无法反应母群体的真正情形。因此，本实施例先以第一资料的众数峰值的一半为每一个年龄段抽取固定的样本数，即四十的一半二十，但二十与中央极限定理的样本数三十仍有段差距，其结果并非是一可信赖的资料，因此，将每一个年龄段抽取的固定样本数提高至三十，并进行如表2所示的抽样数分布。

表2

年龄段(岁)	样本数
		14以下	30
15-19	30
		20-24	30
25-29	30
		30-39	30
40-49	30
		50-59	30
60以上	30
		合计	240

表2的抽样，是把第一资料不足的样本数补足，即各年龄段抽取足够的样本数，以便观察并能充分反应各年龄段的真正消费行为，因此，表2的样本必须是表1以外的样本，例如以顾客消费的发票号码为抽样对象，则表1抽过的发票号，不能于表2中再被抽样。

将上述的第一资料与第二资料结合形成一第三资料，根据第三资料的结果虽然可以直接预测母群体的某种状态分布，但本实施例为增加该预测资料的可信度，于是将第三资料结合该面店某月份的消费记录(本实施例设为发票存单，即第四资料)大约7300笔。将上述的第三资料以及7300份消费纪录资料利用统计软件(本实施例利用Clementine软件的Data Mining工具)进行清洗，串连、模型预测及准确率验证，其中本实施例的模型预测利用Data Mining中的SVM模型。此外，由于第四资料的样本数较大，因此可以将第四资料先分群进行模型预测，最后再进行资料的合并；而此步骤中，本实施例使用Data Mining的K-Means分群方法。

经由上述方式所获得的资料，经过准确率的分析后得知，其预测准确率可达到90％，此结果对照于单独使用均匀分布的60％预测准确率、常态分布的72％预测准确率可知，通过本发明的统计资料的分析方法确实可以提高资料预测的准确率。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种统计资料的分析方法，其特征在于，包括以下步骤：

以常态分布从一母群体中抽取一第一资料，并求出所述第一资料的众数；

以均匀分布再从所述母群体中抽取一第二资料，其中所述第二资料的每一变量的抽样数低于所述第一资料的众数的峰值；

将所述第一资料与所述第二资料结合，以形成一第三资料；

将所述第三资料与一第四资料结合，并进行资料的清洗、串连及资料挖掘以获得一第五资料；以及

验证所述第五资料的准确率。

2.如权利要求1所述的统计资料的分析方法，其特征在于，当所述第一资料的众数的峰值的一半大于三十，则所述第二资料的每一变量的抽样数定为所述峰值的一半。

3.如权利要求1所述的统计资料的分析方法，其特征在于，当所述第一资料的众数的峰值的一半小于三十，则所述第二资料的每一变量的抽样数定为三十。

4.如权利要求1所述的统计资料的分析方法，其特征在于，所述第四资料的样本数大于所述第一资料和所述第二资料的合计样本数。

5.一种统计资料的分析方法，其特征在于，包括以下步骤：

从一呈常态分布的母群体中抽取一第一资料，并求出所述第一资料的众数；

将所述第一资料与所述第二资料结合，以形成一第三资料；

验证所述第五资料的准确率。