CN101719147A

CN101719147A - 一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统

Info

Publication number: CN101719147A
Application number: CN200910238215A
Authority: CN
Inventors: 尹留志
Original assignee: HEFEI JOYIN INFORMATION TECHNOLOGY Co Ltd
Current assignee: HEFEI JOYIN INFORMATION TECHNOLOGY Co Ltd
Priority date: 2009-11-23
Filing date: 2009-11-23
Publication date: 2010-06-02

Abstract

本发明涉及一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，它包括：一数据处理模块根据输入的原始样本集中各类样本变量的缺失值比率，以及各类样本变量之间的相关性和样本属性，将原始样本集分为饱和层和缺失层；一样本抽样模块根据目标变量，从饱和层和缺失层中随机抽取训练样本变量和测试样本变量，分别形成具有饱和层和缺失层的训练样本集和测试样本集；一模型建立模块对饱和层中的训练样本采用罗切斯特回归模型建模，对缺失层中的训练样本采用朴素贝叶斯模型建模，得到一具有罗切斯特回归模型和朴素贝叶斯模型的混合动态模型；一数据测试模块将饱和层的测试样本输入混合动态模型中的罗切斯特回归模型中，将缺失层的测试样本输入混合动态模型中的朴素贝叶斯模型中，之后进行测试，得到并输出评分结果。本发明兼具罗切斯特回归模型和朴素贝叶斯模型的优点，形成优势互补，可以广泛应用在金融业、零售业和电信业中。

Description

一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统

技术领域

本发明涉及一种数据分类系统，特别是关于一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统。

背景技术

数据挖掘在金融业、零售业和电信业的应用越来越广泛，在金融领域，管理者可以通过数据挖掘对客户偿还能力以及信用的分析，进行分类，评出等级，从而可减少发放贷款的盲目性，改善银行资产以及负债在各种投资产品类型中的配比结构，提高资金的使用效率，优化资产结构。同时还可发现在各种资金运作业务中起决定性作用的主导因素和关键环节，从而制定相应的金融政策。在零售业，数据挖掘可有助于识别顾客购买行为，发现顾客购买模式和趋势，改进服务质量，取得更好的顾客保持力和满意程度，提高货品销量比率，设计更好的货品运输与分销策略，减少商业成本。

分类系统是数据挖掘的主要系统之一，用于提取描述重要数据类别归属的模型或预测未来的数据趋势。一般来说，分类是把数据项映射到其中一个事先定义的类中的学习函数的过程，用基于归纳学习算法得出分类。学习的目标是构建一个分类模型，通常也叫分类器，它可以根据有效的变量输入值预测一些所给样本的类。导出的模型是基于对训练数据集的分析，并用IF-THEN规则、决策树、数学公式或神经网络等形式表示。目前数据分类的技术系统主要有决策树、贝叶斯系统、神经网络、K-最近邻系统、Logistic(罗切斯特)回归、多元线性回归、支持向量机、聚类分析系统等。

通常情况下，评价模型的好坏主要看其系统的无偏性和稳健性。具体的说，无偏性主要表现在预测或者分类结果的均值和样本均值保持一致，而稳健性则主要考察模型的训练样本评分向量和测试样本的评分向量是否是高度相关的，相关度高就表示好，相关度低则表示差。罗切斯特回归模型作为大样本数据情况下最稳定的二元分类系统已被广泛用于评分建模中。对罗切斯特回归模型而言，其优点主要是稳健性较好、模型的可解释性较强、可以产生一个线性评分卡，缺点则是预测精度与其他某些系统相比较差，如神经网络、Naive Bayes(朴素贝叶斯)模型等。朴素贝叶斯模型是一种简单而高效的分类器，但是其变量独立性假设限制了对实际数据的应用，通过建模测试发现，单独使用朴素贝叶斯模型建立的模型精确度很高，但模型稳健性较差，仅对其中部分数据的分类精确。

发明内容

针对上述问题，本发明的目的是提供一种稳健性好，可解释性强，而且简单、高效、精确度高的基于罗切斯特模型-朴素贝叶斯模型的数据分类系统。

为实现上述目的，本发明采取以下技术方案：一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：它包括数据处理模块、样本抽样模块、模型建立模块、数据测试模块；所述数据处理模块中，根据输入的原始样本集中各类样本变量的缺失值比率，以及各类样本变量之间的相关性和样本属性，将所述原始样本集分为饱和层和缺失层；所述样本抽样模块中，根据目标变量，从所述饱和层和缺失层中随机抽取训练样本变量和测试样本变量，分别形成具有饱和层和缺失层的训练样本集和测试样本集，将所述训练样本集输入所述模型建立模块，将所述测试样本集输入所述数据测试模块；所述模型建立模块中，对所述饱和层中的训练样本采用罗切斯特回归模型建模，对所述缺失层中的训练样本采用朴素贝叶斯模型建模，并将得到一混合动态模型输入到所述数据测试模块中，所述混合动态模型包括有罗切斯特回归模型和朴素贝叶斯模型；所述数据测试模块中，将所述饱和层的测试样本输入所述混合动态模型中的罗切斯特回归模型中，将所述缺失层的测试样本输入所述混合动态模型中的朴素贝叶斯模型中，之后进行测试，得到并输出评分结果。

所述饱和层包括可利用信息较多的样本，所述缺失层包括可利用信息较少的样本。

从所述饱和层随机抽取的训练样本所占比例与所述缺失层中随机抽取的训练样本所占比例相同。

从所述饱和层随机抽取的训练样本中目标变量的分布与原饱和层总样本目标变量的分布一致；从所述缺失层随机抽取的训练样本中目标变量的分布与原缺失层总样本目标变量的分布一致。

所述模型建立模块中，所述罗切斯特回归模型的关键变量使用向前向后的逐步回归法进行选取。

所述模型建立模块中，所述朴素贝叶斯模型通过判断训练样本的最大后验概率，对所述训练样本进行分类。

本发明由于采取以上技术方案，其具有以下优点：1、本发明由于采用了数据处理模块将原始样本集中各类样本变量分为饱和层和缺失层，通过样本抽样模块根据目标变量按照分层抽样原则，从饱和层和缺失层中随机抽取输入模型建立模块的训练样本变量和输入数据测试模块的测试样本变量，模型建立模块根据输入的训练样本建立了一罗切斯特-朴素贝叶斯混合动态模型，且混合动态模型包括罗切斯特模型和朴素贝叶斯模型，利用罗切斯特-朴素贝叶斯混合动态模型可以将饱和层和缺失层的测试样本变量分别输入混合动态模型中的罗切斯特模型、朴素贝叶斯模型中，得到并输出一评分结果，因此罗切斯特-朴素贝叶斯混合动态模型兼具罗切斯特模型和朴素贝叶斯模型的优点，形成优势互补，将得到的数据分类系统稳健性好，可解释性强，易于产生一个评分卡，而且简单、高效、精确度高。2、由于本发明首次采用通过样本分割的方式独立建模，针对不同样本的数据质量有效地利用了两类模型处理样本的相对优势，避免了由于数据预处理时原始样本集的噪声，及数据规模使模型变量约简效果不理想，导致影响分类效果的问题。本发明的系统可广泛应用于金融业、零售业和电信业中，可满足评价客户偿还能力和信用度，并且优化金融机构本身的资金运作能力，发现顾客购买模式和趋势，理解商业行为和捕捉盗用行为，设计更好的货品运输与分销策略等实际需求。

附图说明

图1是本发明的结构示意图

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本发明的数据分类系统包括数据处理模块1、样本抽样模块2、模型建立模块3、数据测试模块4。

其中，数据处理模块1的主要功能是根据输入的原始样本集中各类样本变量的缺失程度，来确定混合动态模型适用的样本分层规则。即在数据处理模块1中统计出原始样本集中各类样本变量的缺失值比率，以及各类样本变量之间的相关性和各样本变量的类型、分布等属性；当某一类样本变量的缺失值比率超过固定的阈值，且超过阈值的变量之间相关性超过规定值，并且这些样本变量的个数超过样本变量总和的1/3时，则将这些样本变量标记出来形成标记变量集；根据标记出来的变量集是否全部缺失的分层规则将原始样本集分成互不交叉的两层，即饱和层11和缺失层12，饱和层1是指可利用信息较多的样本变量，缺失层12是指可利用信息较少的样本变量。

在样本抽样模块2中，根据目标变量的取值，从数据处理模块1分出的饱和层11随机抽取训练样本变量，形成饱和层11的训练样本集；从数据处理模块1分出的缺失层12中随机抽取训练样本变量，形成缺失层12的训练样本集。饱和层11和缺失层12中抽取的训练样本变量所占比例相同，饱和层11剩下的样本变量作为测试样本变量形成测试样本集，相应地，缺失层12剩下的样本变量作为测试样本变量形成测试样本集，因此测试样本变量所占比例也相同。且从饱和层11随机抽取的训练样本中目标变量的分布与原饱和层11总样本中目标变量的分布一致；从缺失层12随机抽取的训练样本中目标变量的分布与原缺失层11总样本中目标变量的分布一致。

将饱和层11和缺失层12中抽取的训练样本集输入模型建立模块3，将饱和层11和缺失层12中剩下的测试样本集输入数据测试模块4中。例如，在汽车金融中，对输入的原始样本集根据目标变量的买车或不买车取值分层，饱和层11对应客户信息较多的客户信息，缺失层12对应客户信息较少的客户，随机抽取饱和层11中2/3的客户样本作为训练样本，随机抽取缺失层12中2/3的客户样本作为训练样本，但无论是饱和层11还是缺失层12，抽取的训练样本中买车客户所占的比例均分别与原样本层中买车客户比例相同，将两层中抽取出来的训练样本均输送给模型建立模块3。剩下饱和层11与缺失层12中的1/3样本作为测试样本输送给数据测试模块4中。训练样本集、测试样本集的结构如表1所示：

表1训练样本集、测试样本集的结构

在模型建立模块3中，对分别属于饱和层11的训练样本和缺失层12的训练样本分别考虑不同的混合动态模型。由于属于缺失层12的训练样本集的变量缺失值较多，可利用的信息较少，本发明采用朴素贝叶斯模型对这部分训练样本进行建模；而饱和层11的训练样本集的输入变量可利用的信息较多，如果同样使用朴素贝叶斯模型则会导致模型预测效果非常不稳定，对抽样的训练样本依赖性较大导致模型泛化性降低，因此采用传统、稳定的罗切斯特回归模型对这部分样本进行建模。

1、对于饱和层11的训练样本集，运用罗切斯特回归模型进行建模，需要选取关键变量并确定回归系数。在实际的问题分析中能够获取的变量非常多，为了在拟合优度和变量个数之间达到最优平衡，本发明使用向前向后的逐步回归法来确定关键变量的选取。在模型选择方面，采用的判断标准包括F-test(方差齐性检验)、t-test(显著性检验)、adjusted R-square(风险系数调整)、最小MSE(均方误差)准则、AIC(Akaike Information Criterion，赤池信息准则)准则和BIC(Bayes Information Criterion，贝叶斯信息准则)准则等统计量。

设从训练样本集中提取的关键变量Z₁、Z₂、…、Z_m为自变量，其中m为关键变量的个数；Q为二值目标变量，Q＝{0，1}；P(Q＝1)表示Q＝1时的概率，P(Q＝0)表示Q＝0的概率，并且P(Q＝1)+P(Q＝0)＝1。则模型方程如下：

\log \frac{P (Q = 1)}{P (Q = 0)} = α_{0} + α_{1} Z_{1} + α_{2} Z_{2} + . . . + α_{m} Z_{m} - - - (1)

其中，α₀、α₁、α₂、…、α_m为回归模型的系数，可通过现有的标准软件计算，如数据挖掘与统计分析软件SAS和仿真软件MATLAB。

2、对于缺失层12的训练样本集，朴素贝叶斯模型的分类步骤如下：

1)将训练样本集中的每个训练样本X用一个n维特征向量(x₁、x₂、…、x_n)表示，分别描述对n个变量A₁、A₂、…、A_n的度量值。

2)假定训练样本有t类目标变量，分别为类c₁、c₂、…、c_t，给定一个未知类标号的训练样本X，分类模型将预测训练样本X属于具有最大后验概率的类，即后验概率P(c_i|X)＞P(c_j|X)，i、j＝1，…，t，且i≠j。所以，对训练样本X的分类问题就转化为求取最大的后验概率P(c_i|X)的问题，由贝叶斯定理得后验概率P(c_i|X)：

P (c_{i} | X) = \frac{P (X | c_{i}) P (c_{i})}{P (X)} - - - (2)

其中，P(X|c_i)为类c_i的样本中属于训练样本X的概率，P(c_i)为类c_i的先验概率，P(X)为训练样本X的先验概率。如果类c_i的先验概率P(c_i)未知，则通常假定所有的类都是等概率的，即P(c₁)＝P(c₂)＝…＝P(c_i)，并据此只对训练样本X为类c_i的概率P(X|c_i)进行最大化，否则，就对P(X|c_i)P(c_i)进行最大化。但由于训练样本X具有许多变量，因此计算P(X|c_i)的开销可能非常大。为降低计算开销，可以做类条件独立的朴素假定，给定样本的类c_i，假定变量A₁、A₂、…、A_n相互条件独立，即在变量间不存在依赖关系，由此：

P (X | c_{i}) = Σ_{k = 1}^{n} P (x_{k} | c_{i}) - - - (3)

其中，P(c_i)、P(x_k|c_i)，k＝1，2，…，n，都可以采用极大似然估计来计算，则有

P (c_{i}) = \frac{| T (c_{i}) |}{| T |},

P (x_{k} | c_{i}) = \frac{| T (x_{k}, c_{j}) |}{| T (c_{i}) |} - - - (4)

其中，|T|表示训练样本的总数，|T(c_i)|表示类c_i中的训练样本数，而|T(x_k，c_j)|表示在变量A_k，k＝1，…，n上具有特征值x_k的类c_i的训练样本数。

3)对未知训练样本X分类，对每个类c_i，计算P(c_i|X)，当且仅当P(X|c_i)P(c_i)＞P(X|c_j)P(c_j)，i、j＝1，…，t，且i≠j时，训练样本X被划分到类c_i中。

从理论上讲，与其它所有的分类算法相比，朴素贝叶斯模型具有最小的错误概率，在实践中，朴素贝叶斯模型可以与判定树和神经网络分类算法相媲美。甚至在类条件独立假定不满足的情形下，朴素贝叶斯分类依然有良好的表现，而且它的学习效率很高，给定具有n个变量的|T|个训练样本，学习时间复杂度为O(n|T|)。

3、选取模型评价指标

本发明结合罗切斯特回归模型和朴素贝叶斯模型的测试结果，将样本按从罗切斯特回归模型和朴素贝叶斯模型输出的估计概率的从高到低进行排序，为了方便比较结果，计算估计概率在10％、20％、30％、…、90％、100％分位数处的SuccessRate(区间转化率)、Cumulative Rate(累积转化率)、Cumulative％ of TotalSuccess(转化样本占总转化样本的累积比率)以及Life Index(上升指数)的值，如表2所示。本发明中，定义Success Rate＝P(c_i|X)，即训练样本X被划为类c_i的概率。

表2模型评价指标

Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	Lift Index
Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	Lift Index	30.0％	7.00％	10.32％	50.19％	0.0445

本发明的实施例中，模型训练结果Cumulative％of Total(总转化样本的累积比率)排名前30％的训练样本的Cumulative Rate为10.32％。其中该样本中的转化样本占总样本中转化样本的50.19％，即挑选出来的30％样本中包含了50.19％的转化样本，其中排名20％～30％的样本中区间转化率为7.00％。

对于商家来说，最为关注的是从海量的人中挑出潜在的客户群，这里本发明的动态分类模型提出两个概念：Threshold(门槛)和MP(转化率)值；Threshold表示希望挑出来的潜在客户样本占总客户样本的比例，threshold取值需要根据总客户样本数量和商家希望锁定的目标客户群样本数量而定。而MP值则表示Threshold为固定值下的所选样本转化率。本发明的实施例中选定Threshold＝25％时的MP值作为模型稳定性的评价指标之一，即在挑选模型时，MP值是作为训练模型选择指标之一。

罗切斯特-朴素贝叶斯混合动态模型参数确定后，将测试数据输入至数据测试模块4中，数据测试模块4将根据数据处理模块1中确定的饱和层11和缺失层12分层规则，判断每条测试样本适用罗切斯特回归模型或朴素贝叶斯模型中的哪一类，并根据模型的种类将各参数代入相应模型中，计算出所有测试样本的区间转化率，除了自动排序后的模型评分结果，数据测试模块4也同样可以计算出给定Threshold值的MP值，或者计算出给定MP值的Threshold值。

下面通过一个具体的实施例，对本发明系统的应用进行进一步说明。

对于某大型汽车金融公司提供的汽车消费者海量信息数据库，数据库包括九十多万条样本量，每条信息包括用户信息量的多少、请求购买车型、计划付款方式、打算购买时间以及其他人口统计信息等多维变量A₁、A₂、…、A_n。用户的购买状态作为分类的目标变量，共有两类用户购买目标函数为c₁＝1，用户放弃目标函数为c₂＝0。本实施例建模的目的是采用数据挖掘方法，获得潜在汽车消费者分类模型，精确定位高购买倾向的潜在汽车购买客户群，进而根据每个客户的广告策略响应模型打分，确定针对每个客户最有效的宣传方式，选择最优广告策略，为决策的制定提供指导性的数据准备。

在罗切斯特-朴素贝叶斯混合动态模型的建模分析过程中，首先在数据处理模块1中，通过相关性分析和变量属性分析，将原始样本集分为饱和层11和缺失层12。在样本抽样模块2中，将原始样本集按2∶1的比例分为训练样本集和测试样本集，用2/3的样本来训练模型，用剩余1/3的样本对模型进行测试。

在模型建立模块3的模型选择方面，本实施例中为了比较、分析罗切斯特-朴素贝叶斯混合动态模型的优越性，除了使用罗切斯特-朴素贝叶斯混合动态模型并得出其实施效果，还分别使用了罗切斯特回归模型、朴素贝叶斯模型、神经网络和支持向量机四种常用的分类方法，用做本发明罗切斯特-朴素贝叶斯混合动态模型的对比试验。

I)罗切斯特回归模型

使用罗切斯特回归模型对本发明的实施例的汽车消费者海量信息数据库进行建模，模型参数如表3所示，相对于表2所示的模型评价指标，罗切斯特回归模型对训练样本集的评价指标如表4所示，测试样本集的评价指标如表5所示：

表3：罗切斯特回归模型建立的模型参数

变量名	系数估计值	估计方差	Z值	P值
变量名	系数估计值	估计方差	Z值	P值	截距	-7.922e-01	4.643e-02	-17.061	＜2e-16
个人信息	-1.299e-01	3.955e-03	-32.852	2e-16	截距	-7.922e-01	4.643e-02	-17.061	＜2e-16
个人信息	-1.299e-01	3.955e-03	-32.852	2e-16	汽车信息	9.045e-03	6.785e-03	1.333	0.183
期间(24小时)	-8.783e-01	1.662e-02	-52.856	＜2e-16	汽车信息	9.045e-03	6.785e-03	1.333	0.183
期间(24小时)	-8.783e-01	1.662e-02	-52.856	＜2e-16	期间(4周)	-9.615e-01	1.385e-02	-69.445	＜2e-16
期间(其他)	-1.257e+00	1.490e-02	-84.372	＜2e-16	期间(4周)	-9.615e-01	1.385e-02	-69.445	＜2e-16
期间(其他)	-1.257e+00	1.490e-02	-84.372	＜2e-16	h044009	-6.749e-06	1.527e-06	-4.420	9.89e-06
h056001	4.676e-04	1.822e-05	25.665	＜2e-16	h044009	-6.749e-06	1.527e-06	-4.420	9.89e-06

表4：训练样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	61192	10.0％	14.68％	14.68％	23.81％	0.0119
2	61192	20.0％	9.26％	11.97％	38.83％	0.0313	1	61192	10.0％	14.68％	14.68％	23.81％	0.0119
2	61192	20.0％	9.26％	11.97％	38.83％	0.0313	3	61192	30.0％	7.00％	10.32％	50.19％	0.0445
4	61192	40.0％	5.92％	9.22％	59.79％	0.0550	3	61192	30.0％	7.00％	10.32％	50.19％	0.0445
4	61192	40.0％	5.92％	9.22％	59.79％	0.0550	5	61192	50.0％	5.36％	8.44％	68.48％	0.0641
6	61192	60.0％	4.74％	7.83％	76.16％	0.0723	5	61192	50.0％	5.36％	8.44％	68.48％	0.0641
6	61192	60.0％	4.74％	7.83％	76.16％	0.0723	7	61192	70.0％	4.46％	7.35％	83.41％	0.0798
8	61192	80.0％	4.21％	6.95％	90.24％	0.0868	7	61192	70.0％	4.46％	7.35％	83.41％	0.0798
8	61192	80.0％	4.21％	6.95％	90.24％	0.0868	9	61192	90.0％	3.65％	6.59％	96.15％	0.0932
10	61197	100.0％	2.37％	6.17％	100.00％	0.0981	9	61192	90.0％	3.65％	6.59％	96.15％	0.0932
10	61197	100.0％	2.37％	6.17％	100.00％	0.0981	总计	611925	100.0％	6.17％	6.17％	100.00％	0.6371

表5：测试样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	30596	10.0％	14.48％	14.48％	23.85％	0.0119
2	30596	20.0％	9.09％	11.79％	38.82％	0.0313	1	30596	10.0％	14.48％	14.48％	23.85％	0.0119
2	30596	20.0％	9.09％	11.79％	38.82％	0.0313	3	30596	30.0％	6.83％	10.13％	50.06％	0.0444
4	30596	40.0％	5.85％	9.06％	59.69％	0.0549	3	30596	30.0％	6.83％	10.13％	50.06％	0.0444
4	30596	40.0％	5.85％	9.06％	59.69％	0.0549	5	30596	50.0％	5.60％	8.37％	68.91％	0.0643
6	30596	60.0％	4.66％	7.75％	76.59％	0.0727	5	30596	50.0％	5.60％	8.37％	68.91％	0.0643
6	30596	60.0％	4.66％	7.75％	76.59％	0.0727	7	30596	70.0％	4.31％	7.26％	83.69％	0.0801

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	8	30596	80.0％	4.16％	6.87％	90.53％	0.0871
9	30596	90.0％	3.60％	6.51％	96.46％	0.0935	8	30596	80.0％	4.16％	6.87％	90.53％	0.0871
9	30596	90.0％	3.60％	6.51％	96.46％	0.0935	10	30598	100.0％	2.15％	6.07％	100.00％	0.0982
总计	305962	100.0％	6.07％	6.07％	100.00％	0.6386	10	30598	100.0％	2.15％	6.07％	100.00％	0.0982

从结果可以看出，对于罗切斯特回归模型来说，开发样本的Lift Index为0.6371，测试样本的Lift Index为0.6386，两者非常接近，均高于0.62，说明Logistic回归模型的预测精度不错。经过计算的开发样本和测试样本的相关系数为0.9993，可见两者关联度非常高，即认为模型的稳健性非常好。

II)朴素贝叶斯模型

使用朴素贝叶斯模型对本发明的实施例的汽车消费者海量信息数据库进行建模，相对于表2所示的模型评价指标，朴素贝叶斯模型对训练样本集的评价指标如表6所示，测试样本集的评价指标如表7所示：

表6：训练样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	61192	10.0％	16.30％	16.30％	26.44％	0.0132
2	61192	20.0％	9.35％	12.83％	41.61％	0.0340	1	61192	10.0％	16.30％	16.30％	26.44％	0.0132
2	61192	20.0％	9.35％	12.83％	41.61％	0.0340	3	61192	30.0％	6.99％	10.88％	52.94％	0.0473
4	61192	40.0％	5.70％	9.59％	62.19％	0.0576	3	61192	30.0％	6.99％	10.88％	52.94％	0.0473
4	61192	40.0％	5.70％	9.59％	62.19％	0.0576	5	61192	50.0％	4.97％	8.66％	70.25％	0.0662
6	61192	60.0％	4.40％	7.95％	77.39％	0.0738	5	61192	50.0％	4.97％	8.66％	70.25％	0.0662
6	61192	60.0％	4.40％	7.95％	77.39％	0.0738	7	61192	70.0％	4.32％	7.43％	84.40％	0.0809
8	61192	80.0％	3.86％	6.99％	90.66％	0.0875	7	61192	70.0％	4.32％	7.43％	84.40％	0.0809
8	61192	80.0％	3.86％	6.99％	90.66％	0.0875	9	61192	90.0％	3.77％	6.63％	96.78％	0.0937

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	10	61197	100.0％	1.99％	6.17％	100.00％	0.0984
Total	611925	100.0％	6.17％	6.17％	100.00％	0.6527	10	61197	100.0％	1.99％	6.17％	100.00％	0.0984

表7：测试样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	30596	10.0％	12.62％	12.62％	20.79％	0.0104
2	30596	20.0％	7.94％	10.28％	33.86％	0.0273	1	30596	10.0％	12.62％	12.62％	20.79％	0.0104
2	30596	20.0％	7.94％	10.28％	33.86％	0.0273	3	30596	30.0％	7.13％	9.23％	45.60％	0.0397
4	30596	40.0％	6.19％	8.47％	55.79％	0.0507	3	30596	30.0％	7.13％	9.23％	45.60％	0.0397
4	30596	40.0％	6.19％	8.47％	55.79％	0.0507	5	30596	50.0％	5.91％	7.96％	65.52％	0.0607
6	30596	60.0％	4.99％	7.46％	73.74％	0.0696	5	30596	50.0％	5.91％	7.96％	65.52％	0.0607
6	30596	60.0％	4.99％	7.46％	73.74％	0.0696	7	30596	70.0％	4.59％	7.05％	81.30％	0.0775
8	30596	80.0％	4.54％	6.74％	88.78％	0.0850	7	30596	70.0％	4.59％	7.05％	81.30％	0.0775
8	30596	80.0％	4.54％	6.74％	88.78％	0.0850	9	30596	90.0％	3.73％	6.41％	94.93％	0.0919
10	30598	100.0％	3.08％	6.07％	100.00％	0.0975	9	30596	90.0％	3.73％	6.41％	94.93％	0.0919
10	30598	100.0％	3.08％	6.07％	100.00％	0.0975	Total	305962	100.0％	6.07％	6.07％	100.00％	0.6103

观察结果可知，朴素贝叶斯模型的训练样本集的Lift Index为0.6527，要高于罗切斯特回归模型的0.6371；同时其分类后的前10％样本购买率达到16.3％，这也高于罗切斯特回归模型的14.68％。这说明在拟合准确度方面，朴素贝叶斯模型要高于罗切斯特回归模型。但继续观察测试样本集，发现其Lift Index只有0.6103，再计算开发样本和测试样本的相关系数，也远不如罗切斯特回归模型，因此说明朴素贝叶斯模型尽管拟合准确度更高，但在预测稳健性方面较差。

III)神经网络

采用神经网络模型中最常见的三层BP网络结构，包括一个输入层、一个隐含层和一个输出层，对本发明的实施例的汽车消费者海量信息数据库进行建模，为提高分类效率，隐含层节点设为3个。相对于表2所示的模型评价指标，神经网络模型对训练样本集的评价指标如表8所示，测试样本集的评价指标如表9所示：

表8：训练样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	61192	10.0％	14.86％	14.86％	24.23％	0.0121
2	61192	20.0％	9.74％	12.30％	40.10％	0.0322	1	61192	10.0％	14.86％	14.86％	24.23％	0.0121
2	61192	20.0％	9.74％	12.30％	40.10％	0.0322	3	61192	30.0％	6.26％	10.29％	50.31％	0.0452
4	61192	40.0％	6.01％	9.22％	60.11％	0.0552	3	61192	30.0％	6.26％	10.29％	50.31％	0.0452
4	61192	40.0％	6.01％	9.22％	60.11％	0.0552	5	61192	50.0％	5.30％	8.43％	68.75％	0.0644
6	61192	60.0％	4.59％	7.79％	76.24％	0.0725	5	61192	50.0％	5.30％	8.43％	68.75％	0.0644
6	61192	60.0％	4.59％	7.79％	76.24％	0.0725	7	61192	70.0％	4.40％	7.31％	83.40％	0.0798
8	61192	80.0％	4.20％	6.92％	90.26％	0.0868	7	61192	70.0％	4.40％	7.31％	83.40％	0.0798
8	61192	80.0％	4.20％	6.92％	90.26％	0.0868	9	61192	90.0％	3.57％	6.55％	96.07％	0.0932
10	61197	100.0％	2.41％	6.17％	100.00％	0.0980	9	61192	90.0％	3.57％	6.55％	96.07％	0.0932
10	61197	100.0％	2.41％	6.17％	100.00％	0.0980	总计	611925	100.0％	6.17％	6.17％	100.00％	0.6325

表9：测试样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	30596	10.0％	14.85％	14.85％	24.21％	0.0121
2	30596	20.0％	9.96％	12.41％	40.44％	0.0323	1	30596	10.0％	14.85％	14.85％	24.21％	0.0121

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	3	30596	30.0％	6.30％	10.37％	50.71％	0.0456
4	30596	40.0％	6.04％	9.29％	60.56％	0.0556	3	30596	30.0％	6.30％	10.37％	50.71％	0.0456
4	30596	40.0％	6.04％	9.29％	60.56％	0.0556	5	30596	50.0％	5.18％	8.47％	69.01％	0.0648
6	30596	60.0％	4.76％	7.85％	76.76％	0.0729	5	30596	50.0％	5.18％	8.47％	69.01％	0.0648
6	30596	60.0％	4.76％	7.85％	76.76％	0.0729	7	30596	70.0％	4.43％	7.36％	83.99％	0.0804
8	30596	80.0％	3.95％	6.93％	90.43％	0.0872	7	30596	70.0％	4.43％	7.36％	83.99％	0.0804
8	30596	80.0％	3.95％	6.93％	90.43％	0.0872	9	30596	90.0％	3.42％	6.54％	96.00％	0.0932
10	30598	100.0％	2.45％	6.07％	100.00％	0.0980	9	30596	90.0％	3.42％	6.54％	96.00％	0.0932
10	30598	100.0％	2.45％	6.07％	100.00％	0.0980	总计	305962	100.0％	6.07％	6.07％	100.00％	0.6351

从结果可以看出，神经网络建模的评价指标结果无论是准确性还是稳健性都很不错。

IV)支持向量机

使用支持向量机模型对本发明的实施例的汽车消费者海量信息数据库进行建模，模型参数如表3所示，相对于表2所示的模型评价指标，支持向量机模型对训练样本集的评价指标如表10所示，测试样本集的评价指标如表11所示：

表10：训练样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal	LiftIndex	1	61192	10.0％	10.42％	10.42％	16.90％	0.0085
2	61192	20.0％	8.13％	9.28％	30.10％	0.0235	1	61192	10.0％	10.42％	10.42％	16.90％	0.0085
2	61192	20.0％	8.13％	9.28％	30.10％	0.0235	3	61192	30.0％	7.55％	8.70％	42.35％	0.0362
4	61192	40.0％	6.93％	8.26％	53.58％	0.0480	3	61192	30.0％	7.55％	8.70％	42.35％	0.0362
4	61192	40.0％	6.93％	8.26％	53.58％	0.0480	5	61192	50.0％	6.46％	7.90％	64.07％	0.0588
6	61192	60.0％	5.63％	7.52％	73.20％	0.0686	5	61192	50.0％	6.46％	7.90％	64.07％	0.0588

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal	LiftIndex	7	61192	70.0％	5.30％	7.20％	81.80％	0.0775
8	61192	80.0％	5.03％	6.93％	89.96％	0.0859	7	61192	70.0％	5.30％	7.20％	81.80％	0.0775
8	61192	80.0％	5.03％	6.93％	89.96％	0.0859	9	61192	90.0％	4.39％	6.65％	97.07％	0.0935
10	61197	100.0％	1.81％	6.17％	100.00％	0.0985	9	61192	90.0％	4.39％	6.65％	97.07％	0.0935
10	61197	100.0％	1.81％	6.17％	100.00％	0.0985	Total	611925	100.0％	6.17％	6.17％	100.00％	0.5990

表11：测试样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ofTotal Success	LiftIndex	1	30596	10.0％	9.93％	9.93％	16.36％	0.0082
2	30596	20.0％	7.80％	8.87％	29.20％	0.0228	1	30596	10.0％	9.93％	9.93％	16.36％	0.0082
2	30596	20.0％	7.80％	8.87％	29.20％	0.0228	3	30596	30.0％	7.55％	8.43％	41.64％	0.0354
4	30596	40.0％	6.58％	7.97％	52.47％	0.0471	3	30596	30.0％	7.55％	8.43％	41.64％	0.0354
4	30596	40.0％	6.58％	7.97％	52.47％	0.0471	5	30596	50.0％	6.46％	7.67％	63.11％	0.0578
6	30596	60.0％	5.63％	7.33％	72.38％	0.0677	5	30596	50.0％	6.46％	7.67％	63.11％	0.0578
6	30596	60.0％	5.63％	7.33％	72.38％	0.0677	7	30596	70.0％	5.46％	7.06％	81.38％	0.0769
8	30596	80.0％	5.00％	6.80％	89.61％	0.0855	7	30596	70.0％	5.46％	7.06％	81.38％	0.0769
8	30596	80.0％	5.00％	6.80％	89.61％	0.0855	9	30596	90.0％	4.46％	6.54％	96.95％	0.0933
10	30598	100.0％	1.85％	6.07％	100.00％	0.0985	9	30596	90.0％	4.46％	6.54％	96.95％	0.0933
10	30598	100.0％	1.85％	6.07％	100.00％	0.0985	总计	305962	100.0％	6.07％	6.07％	100.00％	0.5931

从结果可以看出，支持向量机方法得出的分类模型的开发样本和测试样本的Lift Index都在0.59左右，低于之前的几种分类方法。这可能是由于支持向量机方法在处理大样本数据方面的不足造成的。

V)罗切斯特-朴素贝叶斯混合动态模型

在对前面罗切斯特回归模型、朴素贝叶斯模型、神经网络和支持向量机四种常用的分类方法建模后，可以发现几种方法中，朴素贝叶斯模型的分类精度最高，但稳健性较差；罗切斯特回归模型尽管分类精度稍差，但稳健性很好。经过具体的实验，本发明的罗切斯特-朴素贝叶斯混合动态模型的基本思路是：首先针对开发样本，按照变量之间的相关性和变量属性将原始样本集分成两部分；可以发现其中一部分购买率达到7.5％，按另一部分购买率仅为4％，因此考虑对这两部分分别采用朴素贝叶斯模型和罗切斯特回归模型来建模，对模型的预测值混合排序、分组、评分，得到开发样本的评分模型，再将这一模型应用到测试样本中。相对于表2所示的模型评价指标，罗切斯特-朴素贝叶斯混合动态模型对训练样本集的评价指标如表12所示，测试样本集的评价指标如表13所示。

表12：训练样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ ofTotal Success	LiftIndex	1	61192	10.0％	16.46％	16.46％	26.70％	0.0133
2	61192	20.0％	10.22％	13.34％	43.26％	0.0350	1	61192	10.0％	16.46％	16.46％	26.70％	0.0133
2	61192	20.0％	10.22％	13.34％	43.26％	0.0350	3	61192	30.0％	7.18％	11.29％	54.91％	0.0491
4	61192	40.0％	6.19％	10.01％	64.95％	0.0599	3	61192	30.0％	7.18％	11.29％	54.91％	0.0491
4	61192	40.0％	6.19％	10.01％	64.95％	0.0599	5	61192	50.0％	5.23％	9.06％	73.43％	0.0692
6	61192	60.0％	4.69％	8.33％	81.03％	0.0772	5	61192	50.0％	5.23％	9.06％	73.43％	0.0692
6	61192	60.0％	4.69％	8.33％	81.03％	0.0772	7	61192	70.0％	3.96％	7.70％	87.46％	0.0842
8	61192	80.0％	3.39％	7.16％	92.95％	0.0902	7	61192	70.0％	3.96％	7.70％	87.46％	0.0842
8	61192	80.0％	3.39％	7.16％	92.95％	0.0902	9	61192	90.0％	2.80％	6.68％	97.50％	0.0952
10	61197	100.0％	1.54％	6.17％	100.00％	0.0988	9	61192	90.0％	2.80％	6.68％	97.50％	0.0952
10	61197	100.0％	1.54％	6.17％	100.00％	0.0988	总计	611925	100.0％	6.17％	6.17％	100.00％	0.6722

表13：测试样本集的评价指标

样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ ofTotal Success	LiftIndex
样本集序号	样本数	Cumulative％of Total	SuccessRate	CumulativeRate	Cumulative％ ofTotal Success	LiftIndex	1	30596	10.0％	16.75％	16.75％	27.58％	0.0138
2	30596	20.0％	9.40％	13.08％	43.07％	0.0353	1	30596	10.0％	16.75％	16.75％	27.58％	0.0138
2	30596	20.0％	9.40％	13.08％	43.07％	0.0353	3	30596	30.0％	7.19％	11.11％	54.92％	0.0490
4	30596	40.0％	5.93％	9.82％	64.68％	0.0598	3	30596	30.0％	7.19％	11.11％	54.92％	0.0490
4	30596	40.0％	5.93％	9.82％	64.68％	0.0598	5	30596	50.0％	4.99％	8.85％	72.90％	0.0688
6	30596	60.0％	4.60％	8.14％	80.47％	0.0767	5	30596	50.0％	4.99％	8.85％	72.90％	0.0688
6	30596	60.0％	4.60％	8.14％	80.47％	0.0767	7	30596	70.0％	4.16％	7.57％	87.33％	0.0839
8	30596	80.0％	3.50％	7.06％	93.08％	0.0902	7	30596	70.0％	4.16％	7.57％	87.33％	0.0839
8	30596	80.0％	3.50％	7.06％	93.08％	0.0902	9	30596	90.0％	2.74％	6.58％	97.59％	0.0953
10	30598	100.0％	1.46％	6.07％	100.00％	0.0988	9	30596	90.0％	2.74％	6.58％	97.59％	0.0953
10	30598	100.0％	1.46％	6.07％	100.00％	0.0988	总计	305962	100.0％	6.07％	6.07％	100.00％	0.6716

从结果可以看出，罗切斯特-朴素贝叶斯混合动态模型的训练样本集的LiftIndex为0.6722，测试样本集的Lift Index为0.6716，两者的前10％评分都高于16％，说明罗切斯特-朴素贝叶斯混合动态模型分类精度很好。计算开发样本和测试样本的Lift Index相关系数，为0.9998，因此稳健性也非常好。

综上所述，本发明的罗切斯特-朴素贝叶斯混合动态模型不仅可以提高预测的精度，又能保持很好的稳定性。

Claims

1.一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：它包括数据处理模块、样本抽样模块、模型建立模块、数据测试模块；

所述数据处理模块中，根据输入的原始样本集中各类样本变量的缺失值比率，以及各类样本变量之间的相关性和样本属性，将所述原始样本集分为饱和层和缺失层；

所述样本抽样模块中，根据目标变量，从所述饱和层和缺失层中随机抽取训练样本变量和测试样本变量，分别形成具有饱和层和缺失层的训练样本集和测试样本集，将所述训练样本集输入所述模型建立模块，将所述测试样本集输入所述数据测试模块；

所述模型建立模块中，对所述饱和层中的训练样本采用罗切斯特回归模型建模，对所述缺失层中的训练样本采用朴素贝叶斯模型建模，并将得到一混合动态模型输入到所述数据测试模块中，所述混合动态模型包括有罗切斯特回归模型和朴素贝叶斯模型；

所述数据测试模块中，将所述饱和层的测试样本输入所述混合动态模型中的罗切斯特回归模型中，将所述缺失层的测试样本输入所述混合动态模型中的朴素贝叶斯模型中，之后进行测试，得到并输出评分结果。

2.如权利要求1所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述饱和层包括可利用信息较多的样本，所述缺失层包括可利用信息较少的样本。

3.如权利要求1所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：从所述饱和层随机抽取的训练样本所占比例与所述缺失层中随机抽取的训练样本所占比例相同。

4.如权利要求2所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：从所述饱和层随机抽取的训练样本所占比例与所述缺失层中随机抽取的训练样本所占比例相同。

5.如权利要求1或2或3或4所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：从所述饱和层随机抽取的训练样本中目标变量的分布与原饱和层总样本目标变量的分布一致；从所述缺失层随机抽取的训练样本中目标变量的分布与原缺失层总样本目标变量的分布一致。

6.如权利要求1或2或3或4所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述模型建立模块中，所述罗切斯特回归模型的关键变量使用向前向后的逐步回归法进行选取。

7.如权利要求5所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述模型建立模块中，所述罗切斯特回归模型的关键变量使用向前向后的逐步回归法进行选取。

8.如权利要求1或2或3或4或7所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述模型建立模块中，所述朴素贝叶斯模型通过判断训练样本的最大后验概率，对所述训练样本进行分类。

9.如权利要求5所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述模型建立模块中，所述朴素贝叶斯模型通过判断训练样本的最大后验概率，对所述训练样本进行分类。

10.如权利要求6所述的一种基于罗切斯特模型-朴素贝叶斯模型的数据分类系统，其特征在于：所述模型建立模块中，所述朴素贝叶斯模型通过判断训练杆本的最大后验概率，对所述训练样本进行分类。