CN107273918A

CN107273918A - 一种样本数据类别确定方法和设备

Info

Publication number: CN107273918A
Application number: CN201710385273.6A
Authority: CN
Inventors: 康明; 王江; 张斌德
Original assignee: Guoxin Youe Data Co Ltd
Current assignee: Guoxin Youe Data Co Ltd
Priority date: 2017-05-26
Filing date: 2017-05-26
Publication date: 2017-10-20

Abstract

本发明公开了一种样本数据类别确定方法，包括：基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及该投影特征值对样本数据进行分类，构造投影目标函数，使得投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；基于投影目标函数建立分类模型；将样本数据输入分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使投影目标函数的函数值达到最优；将基于得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。本发明的另一方面还提供一种样本数据类别确定设备。本发明能够使得对高维数据分类客观且准确度。

Description

一种样本数据类别确定方法和设备

技术领域

本发明涉及计算机技术领域，特别地，涉及一种样本数据类别确定方法和设备。

背景技术

考虑到一种实际情况，现有一份企业评价标准表，共5个等级(优秀、良好、一般、较差、很差)，其中影响企业评价的指标数目有多个，比如财务收益情况、资产营运状态、偿债能力状况、发展能力状况等。此标准下，对于一家各项指标有高有低的企业，如何评价其等级？

抽象来看，这其实就是一个高维数据的分类问题，一个可行的办法是，先直接对高维数据进行降维，在低维空间再进行分类。现有的降维分类方法中，以投影寻踪(PP)为代表的模型，其中涉及到的唯一参数——密度窗宽取值，目前还必须依靠经验或试算来确定，导致得到的分类结果不够客观准确。

发明内容

针对上述技术问题，本发明提供一种样本数据类别确定方法和设备，旨在解决现有技术中对高维数据分类不够客观以及准确度低的问题。

本发明采用的技术方案为：

本发明的一方面提供一种样本数据类别确定方法，包括：基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得所述投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；基于所述投影目标函数建立分类模型；将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优；

将基于所述得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

可选地，所述投影为线性投影；构成所述投影方向向量的元素表征分类所依据的对应指标的权重；在对投影方向向量进行迭代之前，还包括：根据预设的对不同指标的偏好需求，确定不同指标对应权重之间的数值关系；将所述数值关系作为所述分类模型的约束条件输入所述分类模型。

可选地，基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，具体包括：使用投影方向向量对样本数据进行投影得到投影特征值；基于得到的投影特征值，采用预设分类算法对样本数据进行分类，得到各类别分别对应的聚类中心以及每个投影特征值所属类别；针对每个类别，确定所属该类别的各投影特征值分别与该类别对应聚类中心之间的距离的第一和值；将为各类别分别确定的第一和值相加得到总和值；确定投影运算值分别与各聚类中心之间的距离的第二和值；其中，所述投影运算值为对各投影特征值之和进行预设运算处理得到的数值；基于所述总和值、所述第二和值、以及预设运算关系构造所述投影目标函数，使得所述总和值越小且所述第二和值和值越大时，所述投影目标函数的值越优。

可选地，基于所述总和值、所述第二和值、以及预设运算关系构造所述投影目标函数，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越优，具体包括：所述投影目标函数表征为所述总和值与所述第二和值的商，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越小，当所述投影函数的值最小时达到最优；或者所述投影目标函数表征为所述第二和值与所述总和值的商，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越大，当所述投影函数的值最大时达到最优。

可选地，基于得到的投影特征值，采用K-means算法对样本数据进行分类：随机选取K个投影特征值分别作为K个类别的聚类中心初始值；执行如下聚类步骤：针对各投影特征值中除本次K个聚类中心之外的其余各投影特征值中的每个投影特征值，确定该投影特征值分别与本次K个聚类中心之间的距离；以及将本次K个聚类中心中与该投影特征值距离最近的聚类中心所属类别确定为该投影特征值所属类别；针对得到的每个类别，确定所属该类别的各投影特征值的平均值，并将该平均值对应的投影特征值确定为下次聚类过程使用的聚类中心；以及判断该下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心是否满足预设条件，若不满足，则将下次聚类过程使用的聚类中心作为新的本次K个聚类中心，再次执行所述聚类步骤；若满足，则将本次聚类过程得到的分类结果确定为最终分类结果。

可选地，在对样本数据进行投影之前，还包括对样本数据进行归一化处理的步骤。

可选地，还包括：针对新的待分类样本数据，使用所述得到的投影方向向量对所述待分类样本数据进行投影处理，得到所述待分类样本的投影特征值；确定所述待分类样本的投影特征值分别与所述最终分类结果中每个类别的聚类中心之间的距离；将距离最近的聚类中心对应的类别确定为所述待分类样本数据所属类别。

本发明的另一方面提供一种样本数据类别确定设备，包括：目标函数构建单元，用于基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得所述投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；分类模型建立单元，用于基于所述投影目标函数建立分类模型；目标函数优化单元，用于将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优；类别确定单元，用于将基于所述得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

本发明的再一方面提供一种样本数据类别确定设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本发明的再一方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法的步骤。

本发明实施例提供的样本数据类别确定方法和设备，该方法包括：基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数；并基于该投影目标函数建立分类模型；将样本数据输入该分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使该投影目标函数的函数值达到最优；此时，对样本数据的分类结果中每个分类内部特征值聚集度达到最高，且各分类之间聚集度达到最低，将基于该得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。可见，采用本发明实施例提供的样本数据类别确定方法对样本数据进行分类，与现有技术相比整个分类过程不需要依靠经验，并且构造的投影目标函数值达到最优时使分类结果达到最优，解决了现有技术中对高维数据分类不够客观以及准确度低的问题。

附图说明

图1为本发明一实施例提供的样本数据类别确定方法的流程示意图；

图2为本发明另一实施例提供的样本数据类别确定方法的流程示意图；

图3为本发明实施例提供的样本数据类别确定设备之一的结构示意图；

图4为本发明实施例提供的样本数据类别确定设备之二的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

图1为本发明一实施例提供的样本数据类别确定方法的流程示意图。如图1所示，本发明实施例提供的样本数据类别确定方法包括：

S101、基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得所述投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低。

S102、基于所述投影目标函数建立分类模型。

S103、将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优。

S104、将基于所述得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

本发明实施例提供的样本数据类别确定方法利用投影降维技术将高维数据投影到低维空间，然后利用分类方法对投影到低维空间的投影特征值进行类别分析来构造投影指标函数，可以避免在投影目标函数的构建过程中需要人为给定参数的缺点，使得构建的投影目标函数更加客观和准确度高。

本发明的另一个实施例提供了一种样本数据类别确定方法，如图2所示，包括以下步骤：

S201、对样本数据进行归一化处理。

在该步骤中，针对样本数据中的不同类型的指标，可选用不同的归一化处理方法来进行处理。具体地，设第i个样本的第j个指标值为X_ij(i＝1,2,3，…，n；j＝1,2,3，…，m)，其中n为被评价的样本数，m为指标个数，则对该样本数据进行归一化处理可包括：对于越小越优型的负性指标可按照下述公式(1)处理，对越大越优型的正性指标可按照下述公式(2)处理：

上述公式(1)和(2)中，X_jmax、X_jmin分别为第j个指标数据的样本最大值与最小值，x_ij为归一化后的样本指标值。

此外，样本数据可为需要分类以确定各指标等级的数据，评价标准表可根据不同行业或者企业等根据不同的目标制定的符合自身发展策略的评价标准表来生成，该评价标准表会显示有不同的评价指标，以及不同级别的评价指标值。根据制定的评价标准表可随机生成预设数量的样本数据，预设数量的样本数据可根据实际情况来确定，本发明不做特别限定。

S202、使用投影方向向量对样本数据进行投影得到投影特征值。

在该步骤中，所述投影为线性投影，将样本数据的多项指标值投影到一维空间以得到反映样本优劣程度的量化之的投影特征值；构成所述投影方向向量的元素表征分类所依据的对应指标的权重，即归一化后的样本指标值的权重，用投影特征值z_i表示第i个样本的第j个样本指标x_ij的一维投影特征值，设为m维单位投影方向向量，记为则样本指标x_ij的一维投影特征值z_i可以表示为：其中，此外，得到的投影特征值的集合可表示为Ω＝{z₁,z₂,…,z_i…,z_n}。

S203、基于得到的投影特征值，采用预设分类算法对样本数据进行分类，得到各类别分别对应的聚类中心以及每个投影特征值所属类别。

在该步骤中，可采用K-means算法对样本数据进行分类，但并不局限于此，也可采用其他用于分类的分类算法，例如，贝叶斯算法、决策树分类算法等。本实施例采用K-means算法对样本数据进行分类的具体步骤包括：

步骤一、随机选取K个投影特征值分别作为K个类别的聚类中心初始值。

具体地，从上述步骤S202中得到的投影特征值的集合Ω＝{z₁,z₂,…,z_i…,z_n}中随机选取K个投影特征值分别作为K个类别的聚类中心初始值，将K个类别的集合表示成C＝(c_k,k＝1,2,…,K)，每个类别c_k对应的聚类中心用μ_k表示。

执行如下步骤二～步骤五的聚类步骤：

步骤二、针对各投影特征值中除本次K个聚类中心之外的其余各投影特征值中的每个投影特征值，确定该投影特征值分别与本次K个聚类中心之间的距离。

步骤三、将本次K个聚类中心中与该投影特征值距离最近的聚类中心所属类别确定为该投影特征值所属类别。

步骤四、针对得到的每个类别，确定所属该类别的各投影特征值的平均值，并将该平均值对应的投影特征值确定为下次聚类过程使用的聚类中心。

在该步骤中，所属该类别的各投影特征值的平均值对应的投影特征值可为将该类别中与该平均值最接近的投影特征值用该平均值进行替换后作为下次聚类过程使用的聚类中心，或者使用与该平均值最接近的投影特征值作为下次聚类过程使用的聚类中心，例如，某类别中的投影特征值为0.3209、0.6043、0.8723、1.4231、1.9814，该类别的各投影特征值的平均值为1.0404，与该平均值最接近的投影特征值为0.8723，则该平均值对应的投影特征值可为1.0404或者0.8723，即将1.0404或者0.8723确定为下次聚类过程使用的聚类中心。

步骤五、判断该下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心是否满足预设条件，若不满足，则将下次聚类过程使用的聚类中心作为新的本次K个聚类中心，再次执行上述聚类步骤，即进入步骤二；若满足，则将本次聚类过程得到的分类结果确定为最终分类结果，本流程结束。

在该步骤中，预设条件是指下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心相同或者两者之间的差值小于指定的阈值，如果满足预设条件，则整个聚类过程结束，相应的分类结果为最终分类结果，如果不满足，则进入步骤二继续执行聚类步骤，直到满足预设条件为止。

S204、针对每个类别，确定所属该类别的各投影特征值分别与该类别对应聚类中心之间的距离的第一和值。

在该步骤中，各类别的各投影特征值分别与该类别对应聚类中心之间的距离较佳地可为欧式距离，第一和值表征该类别中各投影特征值与该类别对应聚类中心的距离平方和，可通过下述公式(3)来确定：

其中，J(c_k)为类别c_k内投影特征值分别与该类别对应聚类中心的第一和值。

S205、将步骤S204中为各类别分别确定的第一和值相加得到总和值。

具体地，可通过下述公式(4)来得到总和值J₁：

其中，显然，根据最小二乘法和拉格朗日原理，聚类中心μ_k应该取为类别c_k类各数据点的平均值。

可见，由步骤S204～步骤S205得到的总和值J₁能够表征各类的类内特征值聚集度，且J₁越大表征各类的类内特征值聚集度越低，反之，表征类内特征值聚集度越高。

S206、确定投影运算值分别与各聚类中心之间的距离的第二和值；其中，该投影运算值为对各投影特征值之和进行预设运算处理得到的数值。

在该步骤中，投影运算值较佳地可以为投影特征值的平均值即投影中心，第二和值表征投影特征值的平均值与各聚类中心μ_k之间的距离平方和距离即类间距离，用J₂表示，可通过下述公式(5)得到J₂：

可见，由步骤S206得到的第二和值J₂能够表征各类的类间聚集度，且J₂越大表征各类的类间聚集度越低，反之，表征类间聚集度越高。

进一步地，步骤S204～步骤S205与步骤S206的执行没有严格的先后顺序。

S207、基于步骤S205中确定的总和值、步骤S206中确定的第二和值、以及预设运算关系构造投影目标函数，使得该总和值越小且该第二和值越大时，该投影目标函数的值越优。

在本发明的一个实施例中，基于步骤S205中的总和值、步骤S206中的第二和值、以及预设运算关系构造的投影目标函数J较佳地可以为该总和值与该第二和值的商即在这种情况下，使得该总和值越小且该第二和值越大时，投影目标函数的值越小，且当投影函数的值最小时分类达到最优。

在本发明的另一个实施例中，基于步骤S205中的总和值、步骤S206中的第二和值、以及预设运算关系构造的投影目标函数J可以为该第二和值与该总和值的商即在这种情况下，使得该总和值越小且该第二和值越大时，投影目标函数的值越大，当投影函数的值最大时分类达到最优。

在本发明的另一个实施例中，基于总和值、第二和值、以及预设运算关系构造的投影目标函数J还可以为总和值与第二和值的差即J＝J₁-J₂。在这种情况下，使得总和值越小且第二和值越大时，投影目标函数的值越小，当投影函数的值最小时分类达到最优。

在本发明的另一个实施例中，基于总和值、第二和值、以及预设运算关系构造的投影目标函数J还可以为第二和值与总和值的差即J＝J₂-J₁。在这种情况下，使得总和值越小且第二和值越大时，投影目标函数的值越大，当投影函数的值最大时分类达到最优。

需要说明的是，本发明并不局限于上述构造的投影目标函数形式，本领域的技术人员可根据实际需要构造其他形式的投影目标函数，只要满足分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低时使得投影目标函数的函数值最优即可。

S208、基于步骤S207中构造的投影目标函数建立分类模型。

在本发明的一个实施例中，在构建的投影目函数为总和值与第二和值的商时，则基于该投影目标函数建立的分类模型可如下式(6)所示：

在本发明的另一个实施例中，在构建的投影目函数为第二和值与总和值的商时，则基于该投影目标函数建立的分类模型可如下式(7)所示：

在本发明的另一个实施例中，在构建的投影目函数为总和值与第二和值的差时，则基于该投影目标函数建立的分类模型可如下式(8)所示：

在本发明的另一个实施例中，在构建的投影目函数为第二和值与总和值的差时，则基于该投影目标函数建立的分类模型可如下式(9)所示：

S209、将样本数据输入步骤S208中建立的分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使分类模型中的投影目标函数的函数值达到最优。

在该步骤中，对于输入的样本数据，可采用加速遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使投影目标函数的函数值达到最优。以下以上述公式(6)所表示的分类模型为例，利用加速遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优进行说明，具体包括以下步骤：

第1步：按分别计算得到n组投影特征值向量z。

第2步：依照z分别计算J₁和J₂，根据公式计算得到n个目标函数值J(a)；

第3步：以J(a)进行适应度评价，J(a)值越小，则个体的适应度越高，并通过遗传算法中的选择交叉和变异操作分别生成第1子代、第2子代和第3子代群体，分别得到相应的新的投影方向向量；

第4步：分别计算第1子代、第2子代和第3子代投影方向向量所对应的J(a)，并按从大到小的顺序进行排序，根据J(a)值越小越优的原则，选择前n组作为新的投影方向向量(若不足n组则通过随机生成的方法补足n组)，回到第一步；

第5步：当目标函数值J(a)不再减小时停止计算，所对应的投影方向向量即为最优投影方向向量。

对于上述公式(7)-(9)所表示的分类模型的优化计算可参照上述步骤第一步至第五步进行，在此避免赘述，省略对它们的详细描述。

S210、将基于步骤S209中使分类模型中的投影目标函数的函数值达到最优的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

具体地，基于使得构造的投影目标函数的函数值达到最优的投影方向向量将样本数据进行投影降维，将得到的投影特征值利用K-means算法进行分类，将分类的分类结果作为样本数据的最终分类结果。

本发明的又一实施例提供一种样本数据类别确定方法，本实施例与前述实施例相同，不同之处在于，在对投影方向向量进行迭代之前，还包括：根据预设的对不同指标的偏好需求，确定不同指标对应权重之间的数值关系。

例如，在制定指标权重时，若决策者对某个指标存在偏好的要求，则会提升该指标的优先级，例如，在所有4个指标中，决策者最关心的是第2项，根据投影原理，即认为在a₂方向上的投影值最大，因此可设置如下约束条件：a₂＞a_j(j＝1,3,4,…m；j≠2)，该约束条件表示基于偏好需求的不同指标对应权重之间的数值关系。

在本实施例中，在构建分类模型时，可将基于偏好需求的不同指标对应权重之间的数值关系作为所述分类模型的约束条件输入构建的分类模型。以构建的投影目函数为总和值与第二和值的商为例，则基于该投影目标函数建立的添加了约束条件的分类模型可如下式(10)所示：

在本实施例中，可利用加速遗传算法对上述公式(10)表示的分类模型进行优化计算，可包括以下步骤：

第1步：按分别计算得到n组投影特征值向量z；

第5步：在排除掉a_i≤a_j的目标函数值个体前提下，当目标函数值J(a)不再减小时停止计算，所对应的投影方向向量即为最优投影方向向量。

对于在上述公式(7)-(9)所表示的分类模型中加入约束条件以及对加入了约束条件的分类模型的优化计算，可参照上述内容进行，在此避免赘述，省略对它们的详细描述。

本发明的又另一实施例还提供了一种样本数据类别确定方法，本实施例与前述实施例相同，不同之处在于，还包括：针对新的待分类样本数据，使用得到的投影方向向量对该待分类样本数据进行投影处理，得到该待分类样本的投影特征值；确定该待分类样本的投影特征值分别与最终分类结果中每个类别的聚类中心之间的距离；将距离最近的聚类中心对应的类别确定为该待分类样本数据所属类别。

本实施例用于利用通过样本数据确定的最优投影方向向量来确定新的待分类样本数据的类别。本实施例中的待分类样本的投影特征值分别与最终分类结果中每个类别的聚类中心之间的距离可参照前述实施例描述的第一和值的确定方式来进行确定。

以下，以某水库某月份的水质监测测结果表为例，利用本发明提供的样本数据类别确定方法对其进行水质样本数据的类别进行分类。

该水库某月份的水质监测测结果表如下表1所示：

表1某水库某月份水质监测结果表

首先根据《地表水环境质量标准》(参照下表2)，生成样本数据，然后通过本发明实施例提供的方法，构建分类模型，再根据分类模型得到的投影向量，求出该水库样本数据的特征值，对比得到该水库的水质级别。

表2某水库水质评价标准表

具体地，在每个水质标准级别范围内随机生成50个样本，而水库水质评价标准分为5级，于是总共得到了250个水质样本。依据生成的样本数据，建立起该水库基于投影寻踪K-means动态聚类方法的水质综合评价模型，其中n＝250，m＝5，N＝5，N表示分类类别。

在本实施例中，分别从不考虑决策者的偏好和考虑决策者的偏好的角度出发来对构建的水质分类模型进行求解。在本实施例中，以构建的投影目标函数为总和值与第二和值的商为例进行说明。

(1)不考虑决策者的偏好

只有约束条件计算得到最小投影指标函数J的值为15.29，相应的最优投影方向向量即通过求解得到代入得到投影指标的最小值。取每个分类的中心值u_k，得到相应的水库水质的投影特征值，如下表3所示：

表3水质投影特征值

投影特征值越大，表示水库水质越差。根据最优投影方向向量计算实例中水库的投影特征值z＝0.8164，参照上表，可以得出该水库的水质在该月份为Ⅲ级水。这一结论与该水库的官方水质报告结果一致。相比之下，水质报告只是基于单项水质指标的评价，较为主观又不够直观，而且同一等级内的水质无法给出量化的比较。

(2)考虑决策者的偏好

不同地区的水库由于自然环境及功能不同对水质的要求不尽相同，从该水库近两年的水质连续监测数据分析知道，总氮及总磷指标超标的频率较高，这两项指标对控制水体富营养化有重要的作用，因此可以假设决策者会提高这两项指标对其决策的影响力，即需要提高这两项指标的优先级。在模型中通过增加约束的方法来考虑决策者的这种偏好：通过优化求解，可以得到最优投影向量：模型计算结果如下表4所示。

表4考虑决策者偏好的水质综合评价分级标准值

根据最优投影方向向量计算该水库样本的投影特征值z＝0.8215，参照表4的标准值，该水库的水质等级为Ⅲ级。可以看出，这一结果与不考虑决策者偏好的结果相同。主要原因是：根据投影寻踪方法的原理，最优投影方向向量实际上反映了各个因素的不同重要程度，而且它为单位投影方向向量，满足平方和为1，因而可以将w_i＝(a₁ ²,a₂ ²,…,a_m ²)作为各指标的权重。在不考虑决策者此偏好时，总磷及总氮的所占权重已经很大，故两次评价结果保持一致。

本领域普通技术人员可以理解，实现上述实施例的全部和部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算设备可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤，而前述的存储介质可以包括ROM、RAM、磁碟和光盘等各种可以存储程序代码的介质。

基于同一发明构思，本发明实施例还提供了一种样本数据类别确定设备，由于该设备所解决问题的原理与前述样本数据类别确定方法相似，因此该设备的实施可以参见前述方法的实施，重复之处不再赘述。

本实施例提供的一种样本数据类别确定设备之一，如图3所示，包括：

目标函数构建单元301，用于基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得该投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；

分类模型建立单元302，用于基于投影目标函数建立分类模型；

目标函数优化单元303，用于将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使投影目标函数的函数值达到最优；

类别确定单元304，用于将基于得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

在本发明的一个示意性实施例中，所述目标函数优化单元303，还用于在对投影方向向量进行迭代之前，根据预设的对不同指标的偏好需求，确定不同指标对应权重之间的数值关系；将所述数值关系作为所述分类模型的约束条件输入所述分类模型；其中，所述投影为线性投影；构成投影方向向量的元素表征分类所依据的对应指标的权重。

在本发明的一个示意性实施例中，目标函数构建单元301，具体用于使用投影方向向量对样本数据进行投影得到投影特征值；基于得到的投影特征值，采用预设分类算法对样本数据进行分类，得到各类别分别对应的聚类中心以及每个投影特征值所属类别；针对每个类别，确定所属该类别的各投影特征值分别与该类别对应聚类中心之间的距离的第一和值；将为各类别分别确定的第一和值相加得到总和值；确定投影运算值分别与各聚类中心之间的距离的第二和值；其中，该投影运算值为对各投影特征值之和进行预设运算处理得到的数值；基于该总和值、该第二和值、以及预设运算关系构造该投影目标函数，使得该总和值越小且该第二和值和值越大时，该投影目标函数的值越优。

在本发明的一个示意性实施例中，目标函数构建单元301，具体用于所述投影目标函数表征为所述总和值与所述第二和值的商，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越小，当所述投影函数的值最小时达到最优；或者

所述投影目标函数表征为所述第二和值与所述总和值的商，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越大，当所述投影函数的值最大时达到最优。

在本发明的一个示意性实施例中，目标函数构建单元301，具体用于基于得到的投影特征值，采用k-means算法对样本数据进行分类：随机选取K个投影特征值分别作为K个类别的聚类中心初始值；执行如下聚类步骤：针对各投影特征值中除本次k个聚类中心之外的其余各投影特征值中的每个投影特征值，确定该投影特征值分别与本次K个聚类中心之间的距离；以及将本次K个聚类中心中与该投影特征值距离最近的聚类中心所属类别确定为该投影特征值所属类别；针对得到的每个类别，确定所属该类别的各投影特征值的平均值，并将该平均值对应的投影特征值确定为下次聚类过程使用的聚类中心；以及判断该下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心是否满足预设条件，若不满足，则将下次聚类过程使用的聚类中心作为新的本次K个聚类中心，再次执行所述聚类步骤；若满足，则将本次聚类过程得到的分类结果确定为最终分类结果。

在本发明的一个示意性实施例中，目标函数构建单元301，还用于在对样本数据进行投影之前，对样本数据进行归一化处理。

在本发明的一个示意性实施例中，类别确定单元304，还用于针对新的待分类样本数据，使用目标函数优化单元303得到的投影方向向量对该待分类样本数据进行投影处理，得到该待分类样本的投影特征值；确定该待分类样本的投影特征值分别与该最终分类结果中每个类别的聚类中心之间的距离；将距离最近的聚类中心对应的类别确定为该待分类样本数据所属类别。

本发明实施例还提供了一种样本数据类别确定设备之二，如图4所示，该设备包括存储器1000、处理器2000及存储在该存储器1000上并可在该处理器2000上运行的计算机程序，其中，上述处理器2000执行上述计算机程序时实现上述样本数据类别确定方法的步骤。

具体地，上述存储器1000和处理器2000能够为通用的存储器和处理器，这里不做具体限定，当处理器2000运行存储器1000存储的计算机程序时，能够执行上述样本数据类别确定方法，从而解决相关技术中对高维数据分类不够客观以及准确度低的问题。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行上述样本数据类别确定方法的步骤。

具体地，该存储介质能够为通用的存储介质，如移动磁盘、硬盘等，该存储介质上的计算机程序被运行时，能够执行上述样本数据类别确定方法，从而解决相关技术中对高维数据分类不够客观以及准确度低的问题。

上述各单元的功能可对应于图1至2所示流程中的相应处理步骤，在此不再赘述。

本发明实施例所提供的样本数据类别确定设备可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的样本数据类别确定设备，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，设备实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、设备和模块的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的实施例中，应该理解到，所揭露设备和方法，可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，设备或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释，此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种样本数据类别确定方法，其特征在于，包括：

基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得所述投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；

基于所述投影目标函数建立分类模型；

将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优；

2.根据权利要求1所述的方法，其特征在于，所述投影为线性投影；构成所述投影方向向量的元素表征分类所依据的对应指标的权重；

在对投影方向向量进行迭代之前，还包括：

根据预设的对不同指标的偏好需求，确定不同指标对应权重之间的数值关系；

将所述数值关系作为所述分类模型的约束条件输入所述分类模型。

3.根据权利要求1所述的方法，其特征在于，基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，具体包括：

使用投影方向向量对样本数据进行投影得到投影特征值；

基于得到的投影特征值，采用预设分类算法对样本数据进行分类，得到各类别分别对应的聚类中心以及每个投影特征值所属类别；

针对每个类别，确定所属该类别的各投影特征值分别与该类别对应聚类中心之间的距离的第一和值；

将为各类别分别确定的第一和值相加得到总和值；

确定投影运算值分别与各聚类中心之间的距离的第二和值；其中，所述投影运算值为对各投影特征值之和进行预设运算处理得到的数值；

基于所述总和值、所述第二和值、以及预设运算关系构造所述投影目标函数，使得所述总和值越小且所述第二和值和值越大时，所述投影目标函数的值越优。

4.根据权利要求3所述的方法，其特征在于，基于所述总和值、所述第二和值、以及预设运算关系构造所述投影目标函数，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越优，具体包括：

所述投影目标函数表征为所述总和值与所述第二和值的商，使得所述总和值越小且所述第二和值越大时，所述投影目标函数的值越小，当所述投影函数的值最小时达到最优；或者

5.根据权利要求3或4所述的方法，其特征在于，基于得到的投影特征值，采用K-means算法对样本数据进行分类：

随机选取K个投影特征值分别作为K个类别的聚类中心初始值；

执行如下聚类步骤：

针对各投影特征值中除本次K个聚类中心之外的其余各投影特征值中的每个投影特征值，确定该投影特征值分别与本次K个聚类中心之间的距离；以及

将本次K个聚类中心中与该投影特征值距离最近的聚类中心所属类别确定为该投影特征值所属类别；

针对得到的每个类别，确定所属该类别的各投影特征值的平均值，并将该平均值对应的投影特征值确定为下次聚类过程使用的聚类中心；以及

判断该下次聚类过程使用的聚类中心与本次聚类过程使用的聚类中心是否满足预设条件，若不满足，则将下次聚类过程使用的聚类中心作为新的本次K个聚类中心，再次执行所述聚类步骤；若满足，则将本次聚类过程得到的分类结果确定为最终分类结果。

6.根据权利要求1-4任一项所述的方法，其特征在于，在对样本数据进行投影之前，还包括对样本数据进行归一化处理的步骤。

7.根据权利要求1-4任一项所述的方法，其特征在于，还包括：

针对新的待分类样本数据，使用所述得到的投影方向向量对所述待分类样本数据进行投影处理，得到所述待分类样本的投影特征值；

确定所述待分类样本的投影特征值分别与所述最终分类结果中每个类别的聚类中心之间的距离；

将距离最近的聚类中心对应的类别确定为所述待分类样本数据所属类别。

8.一种样本数据类别确定设备，其特征在于，包括：

目标函数构建单元，用于基于使用投影方向向量对样本数据进行投影得到的投影特征值，以及根据得到的投影特征值对样本数据进行分类得到的分类结果，构造投影目标函数，使得所述投影目标函数的函数值越优，表征分类结果中每个分类内部特征值聚集度越高，且各分类之间聚集度越低；

分类模型建立单元，用于基于所述投影目标函数建立分类模型；

目标函数优化单元，用于将样本数据输入所述分类模型，采用预设遗传算法对投影方向向量进行迭代，直到得到的投影方向向量使所述投影目标函数的函数值达到最优；

类别确定单元，用于将基于所述得到的投影方向向量对样本数据进行分类的分类结果确定为最终分类结果。

9.一种样本数据类别确定设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述权利要求1至7任一项所述的方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至7任一项所述的方法的步骤。