CN103294828A

CN103294828A - 数据挖掘模型维度的验证方法和验证装置

Info

Publication number: CN103294828A
Application number: CN2013102564076A
Authority: CN
Inventors: 伏峰; 章正道; 林胜通
Original assignee: Xiamen Meiya Pico Information Co Ltd
Current assignee: Xiamen Meiya Pico Information Co Ltd
Priority date: 2013-06-25
Filing date: 2013-06-25
Publication date: 2013-09-11
Anticipated expiration: 2033-06-25
Also published as: CN103294828B

Abstract

本发明公开了一种数据挖掘模型维度的验证方法和验证装置。该方法包括：在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集；根据数据挖掘模型的分析目的将维度数据集中的样本进行分类；计算待验证维度发生时各类样本出现的概率；以及根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。通过本发明，能够快速验证维度的准确性，缩短了数据挖掘模型维度的验证周期。

Description

数据挖掘模型维度的验证方法和验证装置

技术领域

本发明涉及数据处理领域，具体而言，特别涉及一种数据挖掘模型维度的验证方法和验证装置。

背景技术

数据挖掘是一个多学科的交叉领域，它包含统计学、机器学习、神经网络、模式识别等各个学科。并且随着计算机技术的发展，新的数据挖掘方法不断出现，需要应用数据挖掘模型的领域也不断增多。从商业角度上看，其过程是对商业数据库中的大量业务数据进行预处理、分析挖掘、模式评估以及知识表示，从而最终为用户提供决策依据。

由于信息社会的发展，所分析的数据集往往是海量，这会影响数据挖掘模型的效率以及准确度，因而需要根据数据挖掘模型的维度从海量的数据中选择那些主要的、有代表性的数据作为数据挖掘的依据，其中，维度的选取属于数据预处理环节，目前，维度选取的过程往往依靠人为经验，并且需要通过数据挖掘模型本身来验证维度选取是否正确，验证的周期较长，难度较高。

具体地，现有技术中进行维度验证的过程大致如下：

1)确定数据挖掘模型的维度后，从海量数据中选择与确定的维度相对应的数据作为维度数据集；

2)将维度数据集作为输入参数在数据挖掘模型中进行实验;

3)从实验结果中进行抽样检查，当抽样检查结果准确率大于设定阈值时，则认为模型维度选择准确，否则不准确，重复1),2)两步，直至维度选取准确。

从上述过程可以看出，现有的数据挖掘模型维度的验证过程伴随了整个数据挖掘流程，需要通过数据挖掘模型进行验证，并且只能通过对最后产出结果进行抽样检查来判断维度选择的准确性，周期长，成本大。

针对现有技术中数据挖掘模型维度的准确性验证周期长的问题，目前尚未提出有效的解决方法。

发明内容

本发明的主要目的在于提供一种数据挖掘模型维度的验证方法和验证装置，以解决现有技术中数据挖掘模型维度的准确性验证周期长的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种数据挖掘模型维度的验证方法。

本发明的数据挖掘模型维度的验证方法包括：在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集；根据数据挖掘模型的分析目的将维度数据集中的样本进行分类；计算待验证维度发生时，各类样本出现的概率；以及根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。

进一步地，验证待验证维度是否准确包括：确定待验证维度发生时各类样本出现的概率中的最大概率；以及判断最大概率对应的样本类型与数据挖掘模型预期要确定的样本类型中最能体现待验证维度的样本类型是否相同，若判断结果为相同，则待验证维度是准确的。

进一步地，计算待验证维度发生时，各类样本出现的概率包括：在维度数据集中，计算每类样本的先验概率；在每类样本中，计算待验证维度的每个维度出现的后验概率，以得到每类样本对应的后验概率；以及将一类样本的先验概率和该类样本对应的后验概率相乘，其中，相乘后得到的乘积为待验证维度发生时该类样本出现的概率。

进一步地，采用以下公式计算每类样本的先验概率：P (X_i) = Sum_i/ Sum _all.，其中，Sum_i为第i类样本的样本个数，Sum _all为维度数据集中的样本总数，P (X_i)为第i类样本的先验概率。

进一步地，采用以下公式计算每类样本对应的后验概率：P(Y_j|X_i) = dimSum_ji/Sum _i，其中，Sum_i为第i类样本的样本个数，dimSum_ji为第i类样本中第j维度的样本个数，P(Y_j|X_i)为第i类样本中第j维度的后验概率。

进一步地，在将维度数据集中的样本进行分类之前，该方法还包括：对训练集和/或维度数据集进行去噪处理。

进一步地，对维度数据集进行去噪处理包括：判断维度数据集是否包括问题数据；若维度数据集包括问题数据，则采用以下任意一种方式进行去噪处理：删除问题数据对应的样本的所有数据，将问题数据对应的样本的所有数据替换为预设数据，或者将问题数据替换为对应维度下所有数据的平均值。

进一步地，该问题数据包括空数据和/或数据格式与预设数据格式不一致的数据。

进一步地，在计算待验证维度发生时各类样本出现的概率之前，该方法还包括：将维度数据集中的数据进行特征化处理。

为了实现上述目的，根据本发明的另一个方面，提供了一种数据挖掘模型维度的验证装置。

根据本发明的数据挖掘模型维度的验证装置包括：获取模块，用于在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集；分类模块，用于根据数据挖掘模型的分析目的将维度数据集中的样本进行分类；计算模块，用于计算待验证维度发生时各类样本出现的概率；以及验证模块，用于根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。

进一步地，验证模块包括：确定子模块，用于确定待验证维度发生时各类样本出现的概率中的最大概率；判断子模块，用于判断最大概率对应的样本类型与数据挖掘模型预期要确定的样本类型中最能体现待验证维度的样本类型是否相同，若判断结果为相同，则待验证维度是准确的。

进一步地，计算模块包括：第一计算子模块，用于在维度数据集中，计算每类样本的先验概率；第二计算子模块，用于在每类样本中，计算待验证维度的每个维度出现的后验概率，以得到每类样本对应的后验概率；以及第三计算子模块，用于将一类样本的先验概率和该类样本对应的后验概率相乘，其中，相乘后得到的乘积为待验证维度发生时该类样本出现的概率。

进一步地，第一计算子模块采用以下公式计算每类样本的先验概率：P (X_i) = Sum_i/ Sum _all.，其中，Sum_i为第i类样本的样本个数，Sum _all为维度数据集中的样本总数，P (X_i)为第i类样本的先验概率。

进一步地，第二计算子模块采用以下公式计算每类样本对应的后验概率：P(Y_j|X_i) = dimSum_ji/Sum _i，其中，Sum_i为第i类样本的样本个数，dimSum_ji为第i类样本中第j维度的样本个数，P(Y_j|X_i)为第i类样本中第j维度的后验概率。

进一步地，该装置还包括：去噪模块，用于在将维度数据集中的样本进行分类之前，对训练集和/或维度数据集进行去噪处理。

进一步地，去噪模块包括：判断子模块，用于判断维度数据集是否包括问题数据；去噪子模块，用于当维度数据集包括问题数据时，采用以下任意一种方式进行去噪处理：删除问题数据对应的样本的所有数据，将问题数据对应的样本的所有数据替换为预设数据，或者将问题数据替换为对应维度下所有数据的平均值，其中，问题数据包括空数据和/或数据格式与预设数据格式不一致的数据。

进一步地，该装置还包括：特征化模块，用于在计算待验证维度发生时各类样本出现的概率之前，将维度数据集中数据进行特征化处理。

通过本发明，在验证数据挖掘模型维度时，首先根据待验证维度在训练集确定维度数据集，然后根据数据挖掘模型的分析目的将维度数据集中的样本进行分类，分类后计算待验证维度发生时各类样本出现的概率，其中，计算得到的概率值越大，表示待验证维度偏向支持该概率对应的样本类型的程度越高，因而，根据计算得到的概率的大小、概率对应的样本类型与数据挖掘模型预期要确定的样本类型能够验证维度的准确性，从而无需在整个数据挖掘流程中通过数据挖掘模型进行验证，在进入数据挖掘流程之前便可确定维度的准确性，对数据挖掘模型的维度进行预判，解决了数据挖掘模型维度的准确性验证周期长问题，达到了能够快速验证维度准确性的效果。

同时，当数据挖掘模型的维度不准确时，在进入数据挖掘流程之前及时调整维度，能够节约成本。

附图说明

图1是根据本发明第一实施例的数据挖掘模型维度的验证方法的流程图；

图2是根据本发明第二实施例的数据挖掘模型维度的验证方法的流程图；

图3是根据本发明第三实施例的数据挖掘模型维度的验证装置的框图；

图4是根据本发明第四实施例的数据挖掘模型维度的验证装置的框图；

图5（a）是根据本发明第五实施例的数据挖掘模型维度的验证装置的工作示意图；

图5（b）是根据本发明第五实施例的验证装置中数据清理模块的工作示意图；

图5（c）是根据本发明第五实施例的验证装置中样本先验概率提取模块的工作示意图；以及

图5（d）是根据本发明第五实施例的验证装置中维度选取评估模块的工作示意图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。需要指出的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明中的数据挖掘模型的训练集是指包括多个样本的数据集合，每个样本的数据包括多类数据，每类数据对应一个维度。例如一个训练集包括100个商品的特征数据，每个商品的特征数据构成一个样本，每个样本由客户评分、专家评分、厂家测试结果以及销售量四类数据组成，其中，若选择{客户评分优秀，专家评分优秀，通过厂家测试结果，销售量达标}作为四个维度，则客户评分、专家评分、厂家测试结果以及销售量分别依次对应该四个维度。

本发明中的维度数据集是指由待验证维度中的各个维度对应的各类数据组成的数据集合。以上述例子为例，若选择两个维度{客户评分优秀，销售量达标}为待验证维度，则维度数据集由客户评分和销售量两类数据组成。

本发明主要解决的技术问题是维度验证周期长的问题。产生该问题的原因在于现有技术中将维度验证放在数据挖掘的流程中，需要通过流程结束后的结果进行验证。本发明解决该技术问题的主要思路是在数据挖掘之前对维度准确性进行预判，以快速验证维度准确性，从而缩短维度验证的周期。

具体地，该思路采用的技术方案所依据的自然规律主要是概率统计学原理：在概率统计算中，当条件X发生时，事件Y出现的概率越大，表明条件X偏向支持事件Y的程度越高。依据该原理，本发明的技术方案计算待验证维度发生时各类样本出现的概率，概率越大，表明待验证维度偏向支持该概率对应的样本类型的程度越高，因而，当概率大小所反映的样本类型受维度支持情况与数据挖掘模型预期要确定的样本类型实际受维度支持情况越一致，则待验证维度越准确，因而，根据计算得到的概率的大小、概率对应的样本类型与数据挖掘模型预期要确定的样本类型能够验证维度的准确性。

下面对本发明所提供的验证方法的实施例进行详细描述。

图1是根据本发明第一实施例的数据挖掘模型维度的验证方法的流程图，如图1所示，该方法包括如下的步骤S102至步骤S108。

步骤S102：在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集。

在用户确定数据挖掘模型的待验证维度后，通过该步骤从训练集中提取维度数据集。

步骤S104：根据数据挖掘模型的分析目的将维度数据集中的样本进行分类。

仍以上述商品的特征数据为例，如果数据挖掘模型的分析目的是确定优等品，则可将维度数据集中的样本分为两类，一类为优等品，另一类为非优等品；如果数据挖掘模型的分析目的是将所有商品分为优等品、普通品和劣等品三类，则该步骤可将维度数据集中的样本分为三类。

步骤S106：计算待验证维度发生时各类样本出现的概率。

利用概率统计学方法，针对各类样本，利用维度数据集计算待验证维度发生时各类样本出现的概率，从而得到多个概率值，每个概率值对应一类样本。

步骤S108：根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。

由概率统计学原理可知，步骤S106中某类样本对应的概率值越大，说明待验证维度偏向支持该类样本的程度越高，也即待验证维度越偏向支持该类样本；某类样本对应的概率值越小，说明待验证维度偏向支持该类样本的程度越低，也即待验证维度越偏离支持该类样本。因此，当根据概率反映出的样本类型受维度支持情况与数据挖掘模型预期要确定的样本类型实际受维度支持情况越一致，说明待验证维度越准确。

因而，可根据实际使用数据挖掘模型进行数据挖掘时的精度要求来得出待验证维度准确与否的结论，当精度要求较高时，仅当概率反映出的样本类型受维度支持情况与预期要确定的样本类型实际受维度支持情况完全一致，才可得出待验证维度准确的结论；当精度要求较低时，可判断最大概率对应的样本类型与预期要确定的样本类型中最能体现待验证维度的样本类型是否相同，若判断结果为相同，便可确定待验证维度是准确的。

采用该实施例提供的数据挖掘模型维度的验证方法，通过对数据挖掘模型的维度进行预判，在进入数据挖掘流程之前便可确定维度的准确性，从而无需在整个数据挖掘流程中通过数据挖掘模型进行验证，能够快速获得验证维度的准确性，验证周期短。同时，当数据挖掘模型的维度不准确时，在进入数据挖掘流程之前及时调整维度，能够节约成本。

同时，本发明提供的验证方法适用于多种数据挖掘模型维度选取的验证，例如聚类、分类、关联推荐等数据挖掘模型，并且当待验证维度对应的数据类型本身是布尔类型时，无需进行多元线性回归，因而其验证效率会更高。

图2是根据本发明第二实施例的数据挖掘模型维度的验证方法的流程图，如图2所示，该方法包括如下的步骤S202至步骤S212。

步骤S202：在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集。

步骤S204：对维度数据集进行去噪处理。

一般情况下，数据集中存在噪音数据，因而，在进行数据处理前进行去噪处理，能够提高数据处理的精度。在该实施例提供的验证方法中，可对训练集进行去噪处理，也可对维度数据集进行去噪处理。

优选地，在执行步骤S202之后，通过该步骤对维度数据集进行去噪处理，将不合理数据进行数据清理，不仅能够提高验证方法的准确性，而且减小了去噪处理的工作量。

进一步优选地，在进行去噪处理时，首先判断维度数据集是否包括问题数据，其中，问题数据的类型可由用户根据实际数据类型进行定义，例如实际数据均为数字类型时，可将问题数据定义为字母；或者也可将问题数据预定义为固定类型的数据，例如，将问题数据定义为空数据和/或格式不一致的数据，格式不一致可指数据格式与预设数据格式不一致，也可指问题数据的数据格式与其他非问题数据的数据格式不一致。

其次，若维度数据集包括问题数据，则采用以下任一种方式进行去噪处理：

忽略元组处理法，删除问题数据对应的样本的所有数据，也即若某样本的某个维度对应的数据为问题数据，则将该样本从维度数据集中删除，整个样本忽略不考虑，该去噪处理方法简单快速；

默认缺失值处理法，将问题数据对应的样本的所有数据替换为预设数据，也即若某样本的某个维度对应的数据为问题数据，则将该样本从维度数据集中删除，并增加一个包括预设数据的样本，该去噪处理方法简单快速，并且不影响样本个数；

均值处理法，将问题数据替换为对应维度下所有数据的平均值，也即若某样本的某个维度对应的数据为问题数据，则计算维度数据集中该维度对应的所有数据的平均值，然后将该问题数据替换为计算得到的平均值，该去噪处理方法不仅不影响样本个数，而且通过数据均值进行替代更符合数据本身的特征。

步骤S206：将维度数据集中数据进行特征化处理。

数据特征化处理是将目标数据的一般特性进行汇总，特征化后得到的结果为概率计算做数据准备。其思路如下：

假设数据挖掘模型的待验证维度为n个维度，用集合为A={A₁,A₂…..A_n}表示，其中A_i表示用户选取的数据挖掘模型的待验证维度中的第i个维度。集合A_i= {a_i1,a_i2…a_im}表示第i个维度在由m个样本构成的维度数据集中所对应的数据。集合Rj = {r_1j,r_2j…..r_nj}表示维度验证集中第j个样本的维度数据的映射结果，r_ij表示第个j样本在第i个维度上“是”或“否”的二元性选择，取值只有0或1。

A_i和Rj之间的映射关系用r_ij = f(a_ij)表示，如果维度对应的数据本身就是一个布尔类型，即直接利用；如果维度对应的数据是离散类型或者连续数值类型，则使用多元线性回归将数据分为两类，每一类对应一个布尔值。

例如：假设存在一个假货模型用来判断其所售商品的是否假货，用户拟用该待验证维度集合A={曾售假，曾违规，曾受处罚}进行判断，获取到的维度数据集中的样本数据假设有10个，各样本数据如下表1所示。

表1 维度数据集（假货模型）

样本ID	是否售假	是否违规	处罚次数	样本类型描述
					1	是	是	5	假货
2	是	是	0	假货
					3	否	否	0	真货
4	是	否	4	假货
					5	否	否	3	真货
6	是	是	2	假货
					7	否	是	8	假货
8	是	否	0	真货
					9	是	是	0	假货
10	否	是	0	真货

由于维度曾售假和曾违规对应的数据本身就是一个布尔类型，可直接利用，假设r_售假表示卖家是否曾售假，若售假，r_售假 = 1，若未售假，r_售假= 0；假设r_违规表示卖家是否曾违规，若违规，r_违规 = 1，若未违规r_违规 = 0；而处罚次数是一个连续数据类型，通过多元线性回归可以将数据分为两类f(r_处罚) = r_处罚>0？1:0，其中，r_处罚表示卖家是否曾被处罚，处罚次数大于0，那么r_处罚=1，处罚次数不大于0，那么r_处罚=0。

因此，表1中各样本特征化后最终表示为表2。通过二元特征化处理，有利于计算机程序处理，在确定某一样本是否发生待验证维度中的某一维度时，只需判断该样本中与该维度对应数据是否为1。

表2 特征化后的维度数据集（假货模型）

样本ID	是否售假	是否违规	处罚次数	样本类型描述
					1	1	1	1	假货
2	1	1	0	假货
					3	0	0	0	真货
4	1	0	1	假货
					5	0	0	1	真货
6	1	1	1	假货
					7	0	1	1	假货
8	1	0	0	真货
					9	1	1	0	假货
10	0	1	0	真货

步骤S208：根据数据挖掘模型的分析目的将维度数据集中的样本进行分类。

例如，上述假货模型的分析目的是要判断商家所售商品的是否假货，则可将维度数据集中的样本分为假货和非假货，同时，根据分类后对样本类型进行特征化处理，处理后的维度数据集如下表3所示。

表3分类后的维度数据集（假货模型）

样本ID	是否售假	是否违规	处罚次数	样本类型描述
					1	1	1	1	1
2	1	1	0	1
					3	0	0	0	0
4	1	0	1	1
					5	0	0	1	0
6	1	1	1	1
					7	0	1	1	1
8	1	0	0	0
					9	1	1	0	1
10	0	1	0	0

步骤S210：计算待验证维度发生时各类样本出现的概率。

优选地，通过贝叶斯定理计算待验证维度发生时各类样本出现的概率，若将待验证维度Y发生时Xi类样本出现的概率记为P(X_i|Y) *P(Y)，其中，待验证维度Y由Y_1、Y_2……Y_n维度组成，则根据贝叶斯定理：

因此，采用该优选的计算方法，步骤S210包括步骤S2102至步骤S210。

步骤S2102:在维度数据集中，计算每类样本的先验概率，可得到Xi类样本的先验概率P(X_i)。

步骤S2104：在每类样本中，计算待验证维度的每个维度出现的后验概率，以得到每类样本对应的后验概率，当待验证维度Y由Y_1、Y_2……Y_n维度组成，每类样本对应的n个后验概率，其中， Xi类样本的第j个维度出现的后验概率为P(Y_j|X_i)。

进一步优选地，在计算X_i类样本也即第i类样本的先验概率时，可采用如下的公式：

P (X_i) = Sum_i/ Sum _all.

其中，Sum_i为第i类样本的样本个数，Sum _all为维度数据集中的样本总数，P (X_i)为第i类样本的先验概率。

在计算第i类样本中第j维度的后验概率时，可采用以下公式：

P(Y_j|X_i) = dimSum_ji/Sum _i

其中，Sum_i为第i类样本的样本个数，dimSum_ji为第i类样本中第j维度的样本个数，P(Y_j|X_i)为第i类样本中第j维度的后验概率。

具体地，以上述的假货模型为例，计算过程如下：

P（假货）=6/10，在10个样本中统计样本类型为1的个数是6个；

P（非假货）=4/10，在10个样本中统计样本类型为1的个数是4个；

P（曾售假|假货）=5/6, 在6个假货样本中统计“是否售假”为1的个数是5个；

P（曾违规|假货）=5/6, 在6个假货样本中统计“是否违规”为1的个数是5个；

P（曾处罚|假货）=4/6, 在6个假货样本中统计“处罚次数”为1的个数是4个；

P（曾售假|非假货）=1/4, 在4个非假货样本中统计是否售假为1的个数是1个；

P（曾违规|非假货）=1/4, 在4个非假货样本中统计“是否违规”为1的个数是1个；

P（曾处罚|非假货）=1/4, 在4个非假货样本中统计“处罚次数”为1的个数是1个；

P（待验证维度|假货）*P（假货）= P（曾售假|假货）*P（曾违规|假货）*P（曾处罚|假货）*P（假货）= [(5/6)*(5/6)*(4/6)]* (6/10)=0.27778；

P（待验证维度|非假货）*P（非假货）= P（曾售假|非假货）*P（曾违规|非假货）*P（曾处罚|非假货）*P（非假货）== [(1/4)*(1/4)*(1/4)]* (4/10)= 0.00625。

步骤S212：根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。

仍以上述的假货模型为例，利用步骤S210计算得到概率为0.27778大于0.00625，其中，0.27778对应的样本类型为假货，0.00625对应的样本类型为非假货，因而，概率反映出待验证维度更支持假货，而实际中，假货受{曾售假，曾违规，曾受处罚}支持的程度高于非假货受{曾售假，曾违规，曾受处罚}支持的程度，也即数据挖掘模型预期要确定的样本类型中假货实际受待验证维度支持的程度更高，因而概率反映出的样本类型受维度支持情况与数据挖掘模型预期要确定的样本类型实际受维度支持情况一致，说明待验证维度准确，也即，该假货模型以{曾售假、曾违规、曾处罚}作为模型维度评价一个样本是假货是相对准确的。反之，则不准确，重新选择模型维度。

又例如，假设存在一个分类模型用来将商品分为优等品、普通品和劣等品三类，用户拟用待验证维度集合A={客户评分优秀，专家评分优秀，销售量达标}进行分类，若去噪后的维度数据集中的样本数据如下表4所示，按照该实施例提供的步骤S206至步骤S212进行维度评价如下。

表4维度数据集（商品分类模型）

样本ID	用户评分	专家评分	销售量	样本类型描述
					1	95	90	90	优等品
2	85	90	75	普通品
					3	93	86	88	优等品
4	80	87	80	普通品
					5	70	65	70	劣等品
6	80	80	85	普通品
					7	80	75	85	普通品
8	88	90	90	优等品
					9	80	90	75	普通品
10	60	65	50	劣等品
					11	80	75	85	劣等品
12	80	85	80	普通品
					13	88	75	85	优等品
14	82	79	75	普通品
					15	86	81	68	普通品

其中，用户评分、专家评分与销售量均为连续数据类型，分别通过多元线性回归可以将数据分为两类。其中，将用户评分大于85的认为用户评分优秀，将专家评分大于80的认为专家评分优秀，将销售量大于70的认为销售量达标，二元特征化后的维度数据集如下表5。

表5特征化后的维度数据集（商品分类模型）

样本ID	用户评分	专家评分	销售量	样本类型描述
					1	1	1	1	优等品
2	0	1	1	普通品
					3	1	1	1	优等品
4	0	1	1	普通品
					5	0	0	0	劣等品
6	0	0	1	普通品
					7	0	0	1	普通品
8	1	1	1	优等品
					9	0	1	1	普通品
10	0	0	0	劣等品
					11	0	0	1	劣等品
12	0	1	1	普通品
					13	1	0	1	优等品
14	0	0	1	普通品
					15	1	1	0	普通品

在通过步骤S208进行分类时，可以直接将样本分为优等品、普通品和劣等品三类，然后通过步骤S210分别计算待验证维度发生时三类样本出现的概率，最后通过步骤S212进行判断时，当商品分类模型精度要求较高时，仅当计算得到的最大概率、中间概率和最小概率分别依次对应的优等品、普通品和劣等品三个类型，才可确定待验证维度是准确的；或者，当商品分类模型精度要求较低时，只要计算得到的最大概率对应的商品类型与最能体现待验证维度的样本类型相同，也即计算得到的最大概率对应优等品，便可确定待验证维度是准确的，具体计算过程如下。

P（待验证维度|优等品）*P（优等品）

= P（用户评分优秀|优等品）* P（专家评分优秀|优等品）* P（销售量达标|优等品）*P（优等品）

=[（4/4）*（3/4）*（4/4）] *(4/15)=0.2

P（待验证维度|普通品）*P（普通品）

= P（用户评分优秀|普通品）* P（专家评分优秀|普通品）* P（销售量达标|普通品）*P（普通品）

=[（1/8）*（5/8）*（7/8）] *(8/15)=0.0364

P（待验证维度|劣等品）*P（劣等品）

= P（用户评分优秀|劣等品）* P（专家评分优秀|劣等品）* P（销售量达标|劣等品）*P（劣等品）

=[0*0*1]*(3/15）=0

从上述计算过程中可得，数据挖掘模型采用待验证维度集合A={客户评分优秀，专家评分优秀，销售量达标}进行分类时，维度选取是准确的。

此外，在通过步骤S208进行分类时，可以先将样本分为优等品和非优等品等品两类，然后通过步骤S210计算待验证维度发生时该两类样本出现的概率，最后通过步骤S212进行判断是否准确；再将样本分为普通品和非普通品两类，然后通过步骤S210计算待验证维度发生时该两类样本出现的概率，最后通过步骤S212进行判断是否准确，在两次判断得到的结果均为准确时，确定数据挖掘模型采用待验证维度集合A={客户评分优秀，专家评分优秀，销售量达标}进行分类时，维度选取是准确的，具体计算过程此处不再赘述。

采用该第二实施例提供的数据挖掘模型维度的验证方法，在进行数据分类之前，对训练集或者维度数据集中的数据进行去噪处理，能够提高验证的准确性；在计算概率之前进行特征化处理，使得计算机能够快速处理，提高验证效率；在计算概率时，通过贝叶斯定理进行计算，计算方法简单，降低验证装置的复杂度。

以上是对本发明所提供的验证方法进行的描述。下面将对本发明提供的数据挖掘模型维度的验证装置进行描述，需要说明的是，该装置可用于执行上述任意一种数据挖掘模型维度的验证方法。

图3是根据本发明第三实施例的数据挖掘模型维度的验证装置的框图，如图3所示，该验证装置包括获取模块20、分类模块40、计算模块60和验证模块80，分别依次与上述第一实施例中的步骤S102至步骤S108对应。

获取模块20用于在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集，在用户确定数据挖掘模型的待验证维度后，通过该模块从训练集中提取维度数据集。

分类模块40用于根据数据挖掘模型的分析目的将维度数据集中的样本进行分类。

计算模块60用于计算待验证维度发生时各类样本出现的概率。该模块可利用概率统计学方法，针对各类样本，利用维度数据集计算待验证维度发生时各类样本出现的概率，从而得到多个概率值，每个概率值对应一类样本。

验证模块80用于根据计算得到的概率的大小、计算得到的概率对应的样本类型与数据挖掘模型预期要确定的样本类型验证待验证维度是否准确。其中，根据概率反映出的样本类型受维度支持情况与数据挖掘模型预期要确定的样本类型实际受维度支持情况越一致，说明待验证维度越准确。

举例说明如下：

设数据挖掘模型的分析目的是进行“分类”，分为X₁，X₂，…,X_i，…X_n共n类，根据该分析目的，分类模块40可将维度数据集中的样本分为上述n类，则数据挖掘模型预期要确定的样本类型包括X₁，X₂，…,X_i，…X_n共n类样本，并且各类型样本实际受维度支持的程度逐渐升高，也即，样本X_n最能体现待验证维度。例如，待验证维度是{平时成绩优秀，考试成绩优秀}，数据挖掘模型预期要确定的样本类型包括优等生、普通生和差等生，则优等生、普通生和差等生实际受{平时成绩优秀，考试成绩优秀}支持的程度逐渐降低，其中优等生最能体现{平时成绩优秀，考试成绩优秀}。

计算模块60计算待验证维度Y发生时各类样本出现的概率，分别依次为概率1>概率2>…>概率i>…>概率n,验证模块80在验证待验证维度Y的准确性时，根据计算得到的概率的大小，表明样本X₁，X₂，…,X_i，…X_n受维度支持程度逐渐降低，而样本X₁，X₂，…,X_i，…X_n实际上受维度支持的程度是逐渐升高的，所以待验证维度是不准确的。

或者，验证模块80包括确定子模块和判断子模块。其中，确定子模块用于确定待验证维度发生时各类样本出现的概率中的最大概率，也即概率1，判断子模块判断概率1对应的样本类型X₁与数据挖掘模型预期要确定的样本类型中最能体现待验证维度的样本类型X_n并不相同，则待验证维度是不准确的。

又或者，根据该分析目的，分类模块40先将维度数据集中的样本分为两类，X₁和非X₁，则数据挖掘模型预期要确定的样本类型包括X₁和非X₁共2类样本，非X₁实际受维度支持的程度高于X₁实际受维度支持的程度，计算模块60计算得到概率X₁>概率非X₁；分类模块40再将维度数据集中的样本分为两类，X₂和非X₂，则数据挖掘模型预期要确定的样本类型包括X₂和非X₂共2类样本，非X₂实际受维度支持的程度高于X₂实际受维度支持的程度，计算模块60计算得到概率X₂>概率非X₂，根据实际精度需要，分类模块40还可继续将样本分为X₃和非X₃直到X_n和非X_n，计算模块60分别进行计算，得到概率X_i和概率非X_i之间的大小关系。验证模块80在验证待验证维度Y的准确性时，若精度要求高，仅当每一组概率X_i和概率非X_i表明样本受维度支持程度均符合样本实际上受维度支持的程度，才可确定待验证维度是准确的；若精度要求较低，当m组概率X_i和概率非X_i表明样本受维度支持程度符合样本实际上受维度支持的程度，便确定待验证维度是准确的，m<n。

设数据挖掘模型的分析目的是“确定是非”，例如上述第二实施例中假货模型，根据该分析目的，分类模块40只需将维度数据集中的样本分为是类和非类两类，则数据挖掘模型预期要确定的样本类型是类和非类两类样本，假设是类受维度支持的程度高于非类实际受维度支持的程度，计算模块60分别计算待验证维度发生时两类样本出现的概率，得到两个概率，若大概率对应是类，小概率对应非类，则验证模块80验证待验证维度是准确的，否则是不准确的。

从上可以看出，可将分析目的为“分类”的情况转换为分析目的为“确定是非”的情况进行验证。

采用该实施例提供的数据挖掘模型维度的验证装置，通过对数据挖掘模型的维度进行预判，在进入数据挖掘流程之前便可确定维度的准确性，从而无需在整个数据挖掘流程中通过数据挖掘模型进行验证，能够快速获得验证维度的准确性，验证周期短。同时，当数据挖掘模型的维度不准确时，在进入数据挖掘流程之前及时调整维度，能够节约成本。

图4是根据本发明第四实施例的数据挖掘模型维度的验证装置的框图，如图4所示，该验证装置包括获取模块20、分类模块40、计算模块60、验证模块80、去噪模块30和特征化模块50。其中，去噪模块30包括判断子模块32和去噪子模块34；计算模块60包括第一计算子模块62、第二计算子模块64和第三计算子模块66。

该实施例中的获取模块20、分类模块40、验证模块80分别与第三实施例中的获取模块20、分类模块40、验证模块80相同，此处不再赘述。

在获取模块20获取到维度数据集之后，分类模块40将维度数据集中的样本进行分类之前，去噪模块30对维度数据集进行去噪处理。在进行数据处理前进行去噪处理，能够提高数据处理的精度。可选地，去噪模块30也可在获取模块20获取维度数据集之前，对训练集进行去噪处理。

在进行去噪处理时，判断子模块32首先判断维度数据集是否包括问题数据，其中，问题数据的类型可由用户根据实际数据类型进行定义，或者也可将问题数据预定义为固定类型的数据。当维度数据集包括问题数据时，去噪子模块34可采用以下任意一种方式进行去噪处理：删除问题数据对应的样本的所有数据，将问题数据对应的样本的所有数据替换为预设数据，或者将问题数据替换为对应维度下所有数据的平均值。

在去噪处理之后，分类模块40进行分类之前或之后，特征化模块50将维度数据集中数据进行特征化处理。经过分类模块40和特征化模块50之后的数据为具有分类后的样本类型属性的二值化数据。计算模块60根据这些二值化数据通过贝叶斯定理计算待验证维度发生时各类样本出现的概率。

具体地，第一计算子模块62在维度数据集中计算每类样本的先验概率；第二计算子模块64在每类样本中计算待验证维度的每个维度出现的后验概率，以得到每类样本对应的后验概率；第三计算子模块66将一类样本的先验概率和该类样本对应的后验概率相乘，其中，相乘后得到的乘积为待验证维度发生时，该类样本出现的概率。各计算子模块分别依次与上述第二实施例中的步骤S2102、S2104和S2106对应，此处不再赘述。

采用该实施例提供的数据挖掘模型维度的验证装置，在进行数据分类之前，对训练集或者维度数据集中的数据进行去噪处理，能够提高验证的准确性；在计算概率之前进行特征化处理，使得计算机能够快速处理，提高验证效率；在计算概率时，通过贝叶斯定理进行计算，计算方法简单，降低验证装置的复杂度。

本发明提供的第五实施例的数据挖掘模型维度的验证装置包括数据清理模块、数据二元特征化模块、样本先验概率提取模块和维度选取评估模块四个主要模块。该验证装置通过对数据挖掘模型的待验证维度进行预判，在进入数据挖掘流程之前便可确定维度的准确性，从而无需在整个数据挖掘流程中通过数据挖掘模型进行验证，能够快速获得验证维度的准确性，验证周期短。同时，当数据挖掘模型的维度不准确时，在进入数据挖掘流程之前及时调整维度，能够节约成本。

图5（a）是根据本发明第五实施例的数据挖掘模型维度的验证装置的工作示意图，如图5（a）所示，该验证装置首先将用户选取的数据挖掘模型维度作为输入参数，然后通过一系列特征化表达以及相关数据处理，从而评估用户选取的维度是否正确。

具体地，当用户确定待验证维度后，将其提交给数据清理模块，该模块将根据维度的数据类型从训练集中获得对应的数据内容，以得到维度数据集。由于现实情况下数据是存在噪音的，因此该模块的主要功能便是针对不合理数据进行数据清理，该模块包括上述第四实施例中的获取模块与去噪模块。

数据特征化是将目标数据的一般特性进行汇总，是本装置整个工作流程中数据预处理的一部分，数据二元特征化模块通过对维度数据集进行二元特征化处理，为后续的维度选取评估计算做数据准备，该模块包括上述第四实施例中的特征化模块。

样本先验概率提取模块的主要功能是根据数据挖掘模型分析目的将训练集中的样本进行离散化分类，并根据分类结果提取样本的先验概率，从而为后续的维度选取评估计算做数据准备，该模块包括上述第四实施例中的分类模块和第一计算子模块。

维度选取评估模块的主要功能即在上述各模块数据结果的基础上，分析维度数据集中的数据，最后得到评估结果，从而验证用户选取的维度是否正确，该模块包括上述第四实施例中的第二计算子模块、第三计算子模块和验证模块。

图5（b）是根据本发明第五实施例的验证装置中数据清理模块的工作示意图，如图5（b）所示，根据用户选取的维度从训练集中提取与维度数据类型一致的样本数据，从提取的样本数据中筛选出问题数据，用户可以自定义问题数据类型，也可默认针对缺失值和格式不一致两种噪声数据进行处理，缺失值是指该维度数据为空的情况，格式不一致是指维度的数据格式和标准数据格式不一致情况。根据用户配置文件，选择问题数据处理方式，该实施例提供三种处理方法：忽略元组处理法，如果某样本包括问题数据，则将整个样本忽略不考虑；默认缺失值处理法，如果某样本包括问题数据，则将该数据用一个规定的常量代替；均值处理法，如果某样本包括问题数据，则将计算该问题数据对应的维度类型下所有数据的平均值，并用该值来取替代此问题数据。

图5（c）是根据本发明第五实施例的验证装置中样本先验概率提取模块的工作示意图，先验概率P(X)是指事件X独立发生时的概率。如图5（c）所示，该模块首先进行样本类型特征化，即将样本进行分类，每一个类型对应一个离散化常量，如果样本类型为连续数据类型，则通过多元线性回归可以将其分为多类并离散化；统计特征化后的各类型样本数，记为Sum_i；统计维度数据集中样本总数，记为Sum_all=

；最后，计算各类型样本描述的先验概率P_i(X) = Sum_i/ Sum _all.。

图5（d）是根据本发明第五实施例的验证装置中维度选取评估模块的工作示意图，该模块分析维度数据集中与维度相对应的样本数据，再利用贝叶斯定理来量化评估结果，从而验证用户选取的维度是否正确。

首先，将样本按照二维特征化维度和特征化样本类型进行分组，并统计分组内的样本总数dimSum_j;

然后，计算各分组的后验概率P(Y_j|X_i) = dimSum_j/Sum _i，表示的含义是在X_i发生的情况下Y_j发生的概率是多少；

最后，进行贝叶斯计算

P(X_i |Y)*P(Y)=P(Y|X_i) *P(X_i)

=[P(Y₁|X_i)*P(Y₂|X_i)….. *P(Y_n|X_i)] *P(X_i)

最后进行维度准确率判断，当P(Y|Xi)P(Xi) > P(Y|Xj)P(Xj) (i!=j)时，则认为预选的维度偏向支持事件Xi，当事件Xi与模型预期要诊断的目的一致时，则认为维度选择偏准确。

从以上的描述中，可以看出，本发明实施例实现了如下技术效果：无需在整个数据挖掘流程中通过数据挖掘模型进行验证，在数据挖掘之前便可确定维度的准确性，能够快速验证维度准确性。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉该技术的人在本发明所揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种数据挖掘模型维度的验证方法，其特征在于，包括：

在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集；

根据所述数据挖掘模型的分析目的将所述维度数据集中的样本进行分类；

计算所述待验证维度发生时各类样本出现的概率；以及

根据计算得到的概率的大小、所述计算得到的概率对应的样本类型与所述数据挖掘模型预期要确定的样本类型验证所述待验证维度是否准确。

2.根据权利要求1所述的验证方法，其特征在于，验证所述待验证维度是否准确包括：

确定所述待验证维度发生时各类样本出现的概率中的最大概率；以及

判断所述最大概率对应的样本类型与所述数据挖掘模型预期要确定的样本类型中最能体现所述待验证维度的样本类型是否相同，若判断结果为相同，则所述待验证维度是准确的。

3.根据权利要求1所述的验证方法，其特征在于，计算所述待验证维度发生时各类样本出现的概率包括：

在所述维度数据集中，计算每类样本的先验概率；

在所述每类样本中，计算所述待验证维度的每个维度出现的后验概率，以得到所述每类样本对应的后验概率；以及

将一类样本的先验概率和该类样本对应的后验概率相乘，其中，相乘后得到的乘积为所述待验证维度发生时该类样本出现的概率。

4.根据权利要求3所述的验证方法，其特征在于，采用以下公式计算所述每类样本的先验概率：

P (X_i) = Sum_i/ Sum _all.

其中，Sum_i为第i类样本的样本个数，Sum _all为所述维度数据集中的样本总数，P (X_i)为第i类样本的先验概率。

5.根据权利要求3所述的验证方法，其特征在于，采用以下公式计算所述每类样本对应的后验概率：

P(Y_j|X_i) = dimSum_ji/Sum _i

其中，Sum_i为第i类样本的样本个数，dimSum_ji为所述第i类样本中第j维度的样本个数，P(Y_j|X_i)为所述第i类样本中所述第j维度的后验概率。

6.根据权利要求1至5中任一项所述的验证方法，其特征在于，在将所述维度数据集中的样本进行分类之前，所述方法还包括：

对所述训练集和/或所述维度数据集进行去噪处理。

7.根据权利要求6所述的验证方法，其特征在于，对所述维度数据集进行去噪处理包括：

判断所述维度数据集是否包括问题数据；

若所述维度数据集包括所述问题数据，则采用以下任意一种方式进行去噪处理：删除所述问题数据对应的样本的所有数据，将所述问题数据对应的样本的所有数据替换为预设数据，或者将所述问题数据替换为对应维度下所有数据的平均值。

8.根据权利要求7所述的验证方法，其特征在于，所述问题数据包括空数据和/或数据格式与预设数据格式不一致的数据。

9.根据权利要求1至5中任一项所述的验证方法，其特征在于，在计算所述待验证维度发生时各类样本出现的概率之前，所述方法还包括：

将所述维度数据集中的数据进行特征化处理。

10.一种数据挖掘模型维度的验证装置，其特征在于，包括：

获取模块，用于在数据挖掘模型的训练集中，获取待验证维度对应的维度数据集；

分类模块，用于根据所述数据挖掘模型的分析目的将所述维度数据集中的样本进行分类；

计算模块，用于计算所述待验证维度发生时，各类样本出现的概率；以及

验证模块，用于根据计算得到的概率的大小、所述计算得到的概率对应的样本类型与所述数据挖掘模型预期要确定的样本类型验证所述待验证维度是否准确。

11.根据权利要求10所述的验证装置，其特征在于，所述验证模块包括：

确定子模块，用于确定所述待验证维度发生时各类样本出现的概率中的最大概率；

判断子模块，用于判断所述最大概率对应的样本类型与所述数据挖掘模型预期要确定的样本类型中最能体现所述待验证维度的样本类型是否相同，若判断结果为相同，则所述待验证维度是准确的。

12.根据权利要求10所述的验证装置，其特征在于，所述计算模块包括：

第一计算子模块，用于在所述维度数据集中，计算每类样本的先验概率；

第二计算子模块，用于在所述每类样本中，计算所述待验证维度的每个维度出现的后验概率，以得到所述每类样本对应的后验概率；以及

第三计算子模块，用于将一类样本的先验概率和该类样本对应的后验概率相乘，其中，相乘后得到的乘积为所述待验证维度发生时该类样本出现的概率。

13.根据权利要求12所述的验证装置，其特征在于，所述第一计算子模块采用以下公式计算所述每类样本的先验概率：

P (X_i) = Sum_i/ Sum _all.

14.根据权利要求12所述的验证装置，其特征在于，所述第二计算子模块采用以下公式计算所述每类样本对应的后验概率：

P(Y_j|X_i) = dimSum_ji/Sum _i

15.根据权利要求10至14中任一项所述的验证装置，其特征在于，所述装置还包括：

去噪模块，用于在将所述维度数据集中的样本进行分类之前，对所述训练集和/或所述维度数据集进行去噪处理。