CN107992495A

CN107992495A - 数据分析方法及装置

Info

Publication number: CN107992495A
Application number: CN201610951462.0A
Authority: CN
Inventors: 周力
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2016-10-26
Filing date: 2016-10-26
Publication date: 2018-05-04
Anticipated expiration: 2036-10-26
Also published as: CN107992495B

Abstract

本发明公开了一种数据分析方法及装置，属于数据分析领域。该数据分析方法包括：获取n维数据集，n维数据集中包括训练集和测试集，训练集中训练数据点的总量大于测试集中测试数据点的总量，n≥2，n为整数；根据各个测试数据点生成各自对应的帕森窗；根据帕森窗计算各个测试数据点对应的概率密度，概率密度用于指示帕森窗内训练数据点的密集程度；根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。本发明实施例在不对n维数据集进行降维处理的前提下确定出数据集的数据分布，保证了数据分析过程的数据精度，避免了对数据集进行降维处理导致数据精度降低，影响数据分析准确性的问题。

Description

数据分析方法及装置

技术领域

本发明实施例涉及数据分析领域，特别涉及一种数据分析方法及装置。

背景技术

数据分析是一种从数据集中挖掘数据规律以及数据间关联关系的技术，而确定数据集的数据分布则是数据分析过程中所要解决的重要问题之一。

数据集通常具有多个维度，且不同的维度用于指示不同的属性或特征。比如，网站中注册用户的用户信息所构成的数据集包括性别、年龄、地域等不同维度。对于低维度的数据集，根据数据集中的数据绘制数据点集即可直观了解到数据的分布情况；但是对于高维度的数据集，则难以通过绘制数据点集的方式来确定数据的分布情况。现有技术中，为了实现数据分布可视化，当数据集的维度较高时，需要对数据集进行降维处理。其中，常见的降维处理方式包括低方差滤波、高方差滤波和反向特征消除等等。

在实现本发明实施例的过程中，发明人发现上述技术至少存在以下问题：

在对高维数据集进行降维的过程中，部分维度或部分维度下的数据会被精简，导致数据分析过程中所分析数据的精度降低，影响数据分析结果的准确性。

发明内容

为了解决现有技术中在对高维数据集进行降维的过程中，部分维度或部分维度下的数据会被精简，导致数据分析过程中所分析数据的精度降低，影响数据分析结果准确性的问题，本发明实施例提供了一种数据分析方法及装置。所述技术方案如下：

根据本发明实施例的第一方面，提供一种数据分析方法，该方法包括：

获取n维数据集，n维数据集中包括训练集和测试集，训练集中训练数据点的总量大于测试集中测试数据点的总量，n≥2，n为整数；

根据各个测试数据点生成各自对应的帕森窗；

根据帕森窗计算各个测试数据点对应的概率密度，概率密度用于指示帕森窗内训练数据点的密集程度；

根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。

根据本发明实施例的第二方面，提供一种数据分析装置，该装置包括：

获取模块，用于获取n维数据集，n维数据集中包括训练集和测试集，训练集中训练数据点的总量大于测试集中测试数据点的总量，n≥2，n为整数；

生成模块，用于根据各个测试数据点生成各自对应的帕森窗；

计算模块，用于根据帕森窗计算各个测试数据点对应的概率密度，概率密度用于指示帕森窗内训练数据点的密集程度；

第一确定模块，用于根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。

本发明实施例提供的技术方案带来的有益效果是：

通过将n维数据集中的数据点划分为训练集和测试集，并在确定n维数据集中数据点分布情况时，利用测试集中各个测试数据点生成的帕森窗计算得到各个测试数据点的概率密度，从而根据概率密度反映出的数据点密集程度确定出n维数据集中数据点的分布情况，在不对n维数据集进行降维处理的前提下确定出数据集的数据分布，保证了数据分析过程的数据精度，避免了对数据集进行降维处理导致数据精度降低，影响数据分析准确性的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明一个实施例提供的数据分析方法的流程图；

图2A示出了本发明另一个实施例提供的数据分析方法的流程图；

图2B是n维方形窗的示意图；

图2C是n维数据的概率密度分布曲线的示意图；

图2D示出了本发明再一个实施例提供的数据分析方法的流程图；

图2E是高斯窗的示意图；

图3A示出了本发明又一个实施例提供的数据分析方法的流程图；

图3B是图3A所示数据分析方法所涉及的线性可分分析过程的流程图；

图4示出了本发明一个实施例提供的数据分析装置的结构方框图；

图5示出了本发明一个实施例提供的服务器的结构方框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

现有技术中，在确定高维数据集中数据点的分布情况时，通常需要对数据集进行降维处理。现有的降维处理都是基于映射思想，即将高维空间中的数据点映射到低维空间中，然而，数据点在映射过程中将以牺牲部分数据精度作为代价，影响后续数据分析的准确性。因此，如何在确保数据精度的前提下，实现数据分布可视化分析成为了亟需解决的问题。

本发明实施例中，利用帕森窗计算高维数据集中测试数据点的概率密度，从而根据概率密度反映的测试数据点周围训练数据点的密集程度确定出整个高维数据集中数据点的分布情况，实现了高维数据集的数据可视化分析。在确定数据分布情况的过程中，高维数据集中所有数据点均囊括在内，确保数据精度不受损失；同时，利用测试数据点的概率密度描述数据集的数据分布，更加直观形象，有利于根据数据分布进行后续的数据分析。下面采用示意性的实施例对本发明的实施细节进行说明。

本发明各个实施例提供的数据分析方法由具有数据分析功能的设备执行，该设备可以为计算机、服务器或服务器集群等等。为了方便描述，本发明各个实施例以该数据分析方法用于数据分析设备为例进行说明。

请参考图1，其示出了本发明一个实施例提供的数据分析方法的流程图，本实施例以该数据分析方法用于数据分析设备为例进行说明，该方法包括：

步骤101，获取n维数据集，该n维数据集中包括训练集和测试集，训练集中训练数据点的总量大于测试集中测试数据点的总量，n≥2，n为整数。

可选的，数据分析设备获取到n维数据集后，将该n维数据集中的数据点划分为训练集和测试集，且为了确保后续数据分析的准确性，划分出的训练集中数据点的数量大于测试集中测试点的数量。

比如，数据分析设备获取得到n维数据集中包括100000个数据点，并将其中随机的80000个数据点划分为训练集，将剩余的20000个数据点划分为测试集。

需要说明的是，为了确保数据分析的全面性和准确性，该训练集和测试集中的数据点均离散分布。

步骤102，根据各个测试数据点生成各自对应的帕森窗。

根据测试数据点生成的帕森窗用于获取预定窗口范围内的数据点。可选的，该帕森窗为n维方形窗(Square window)、高斯窗(Gaussian window)、树形窗、圆形窗、球形窗或n维多边形窗等等。

步骤103，根据帕森窗计算各个测试数据点对应的概率密度，概率密度用于指示帕森窗内训练数据点的密集程度。

测试数据点的概率密度用于指示根据该测试数据点生成的帕森窗内训练数据点的密集程度。测试数据点的概率密度越高，该帕森窗内训练数据点的密集程度越高(即测试数据点周侧训练数据点的数量越多)；测试数据点的概率密度越低，该帕森窗内训练数据点的密集程度越低。

步骤104，根据各个测试数据点对应的概率密度确定n维数据集中数据点的分布情况。

通过上述步骤103计算得到测试集中各个测试数据点的概率密度后，数据分析设备即根据整个测试集的概率密度情况确定出n维数据集中数据点的分布情况。

可选的，数据分析设备根据各个测试数据点对应的概率密度绘制测试集对应的概率密度分布曲线，从而通过该概率密度分布曲线直观展现n维数据集中数据点的分布情况。

可选的，数据分析设备根据数据分布分析结果确定该数据集是否线性可分，并进一步根据线性可分分析结果确定采用何种机器学习算法对该数据集进行分析学习。

综上所述，本实施例中，通过将n维数据集中的数据点划分为训练集和测试集，并在确定n维数据集中数据点分布情况时，利用测试集中各个测试数据点生成的帕森窗计算得到各个测试数据点的概率密度，从而根据概率密度反映出的数据点密集程度确定出n维数据集中数据点的分布情况，在不对n维数据集进行降维处理的前提下确定出数据集的数据分布，保证了数据分析过程的数据精度，避免了对数据集进行降维处理导致数据精度降低，影响数据分析准确性的问题。

本发明实施提供的数据分析方法中，数据分析设备采用较为常见的n维方形窗和高斯窗进行数据分布分析。n维方形窗为n维四边形框，使用n维方形窗进行数据分析的速度较快；高斯窗的形状符合高斯概率分布曲线，相较于n维方形窗，使用高斯窗进行数据分析的速度较慢，但是由于高斯窗能够囊括更多的数据点，因此在准确性上优于n维方形窗。

下面采用示意性的实施例分别对利用n维方形窗和高斯窗进行数据分布分析的过程进行示意性说明。

请参考图2A，其示出了本发明另一个实施例提供的数据分析方法的流程图，本实施例以该数据分析设备根据n维方形窗进行数据分布分析为例进行说明，该方法包括：

步骤201，获取n维数据集，n维数据集中包括训练集和测试集，训练集中训练数据点的总量大于测试集中测试数据点的总量，n≥2，n为整数。

可选的，当数据分析设备具备数据搜集功能时，数据分析设备通过网络爬虫等数据抓取方式抓取数据，并形成n维数据集；当数据分析设备不具备数据搜集功能时，数据分析设备直接从数据库中获取存储的n维数据集。

该n维数据集中包含n个不同的维度，且每个维度用于指示不同的属性或特征。以该n维数据集中包括用户注册信息为例，该n维数据集的维度包括性别、年龄、星座、地域等等。

需要说明的是，本发明各个实施例中，n维数据集中的数据点均为经过向量化表示后能够在(n维)坐标轴中表示的数据点。

步骤202，根据测试数据点生成n维方形窗，测试数据点位于n维方形窗的中心点。

获取到n维数据集后，数据分析设备根据测试集中的测试数据点生成相应的n维方形窗，其中，测试数据点位于n维方形窗的中心点，且不同的测试数据点对应不同的n维方形窗。

在一种可能的实施方式中，如图2B(a)所示，当获取到数据集为二维数据集时，数据分析设备即根据测试集中的测试数据点21生成正方形窗22(即二维方形窗)，其中，测试数据点21位于该正方形窗口22的平面中心点。

在另一种可能的实施方式中，如图2B(b)所示，当获取到数据集为三维数据集时，数据分析设备即根据测试集中的测试数据点23生成立方体窗24(即三维方形窗)，其中，测试数据点23位于该立方体窗24的立方体中心点。

需要说明的是，当n维数据库为高维数据库时，数据分析设备即根据测试数据点生成相应维度的高维方形窗，本实施例仅以上述两种可能的实施方式为例进行示意性说明，并不对本发明构成限定。

步骤203，将位于n维方形窗内部的训练数据点确定为目标数据点。

生成测试数据点对应的n维方形窗之后，数据分析设备进一步获取位于n维方形窗内部的训练数据点，并将该训练数据点确定为目标数据点。

在一种可能的实施方式中，根据测试数据点生成的n维方形窗的窗口长度为h，数据分析设备即获取训练集中各个训练数据点在n维坐标轴中的点坐标，以及测试数据点在n为坐标轴中的点坐标，并计算训练数据点的点坐标与测试数据点的点坐标的差值，当差值小于h/2时，数据分析设备即确定该训练数据点位于n维方形窗的内部，当差值大于h/2时，数据分析设备即确定该训练数据点位于n维方形窗的外部。

比如，如图2B(a)所示，当训练数据点的X坐标与测试数据点21的X坐标的差值小于h/2，且训练数据点的Y坐标与测试数据点21的Y坐标的差值小于h/2时，数据分析设备即确定训练数据点位于正方形窗22内部；

又比如，如图2B(b)所示，当训练数据点的X坐标与测试数据点23的X坐标的差值小于h/2，且训练数据点的Y坐标与测试数据点23的Y坐标的差值小于h/2，且训练数据点的Z坐标与测试数据点23的Z坐标的差值小于h/2时，数据分析设备即确定训练数据点位于立方体窗24内部。

进一步的，数据分析设备对n维方形窗内部训练数据点的数量进行统计。

需要说明的是，数据分析设备还可以通过其他可能的方式确定n维方形窗内部的训练数据点，本实施例仅以上述可能的实施方式为例进行说明，并不对本发明构成限定。

步骤204，根据目标数据点的数量、训练集中训练数据点的总量以及n维方形窗的数据点容量，计算测试数据点的概率密度。

进一步的，数据分析设备根据n维方形窗内部训练数据点的数量、训练集中训练数据点的总量以及生成的n维方形窗的数据点容量，计算当前测试数据点的概率密度。

可选的，当前测试数据点的概率密度其中，k为目标数据点的数量，m为训练集中训练数据点的总量，V为预设的n维方形窗的数据点容量，用于指示该n维方形窗可容纳数据点的数量。

需要说明的是，在计算概率密度前，数据分析设备可以通过预设经验值对n维方形窗的数据点容量进行调整(即调整n维方形窗的窗口大小)，使得n维方形窗的数据点容量与n维数据集中数据点的总量相匹配，从而达到较好的数据分析效果。

通过上述概率密度计算公式可知，当计算得到的测试数据点的概率密度越大时，指示该测试数据点周围训练数据点的数量越多，分布越密集；当计算得到的测试数据点的概率密度越小时，指示该测试数据点周围训练数据点的数量越少，分布越稀疏，即通过该概率密度即可反映出数据集中某一数据点周侧的数据分布情况。

步骤205，根据各个测试数据点对应的概率密度，生成测试集对应的概率密度分布曲线，概率密度分布曲线用于指示n维数据集中数据点的分布情况。

数据分析设备重复执行上述步骤202至204，直至计算得到测试集中各个测试数据点各自对应的概率密度。

为了直观展现n维数据集中数据点的分布情况，在一种可能的实施方式中，数据分析设备根据计算得到的各个概率密度绘制出测试集对应的概率密度分布曲线，从而通过该概率密度分布曲线直观展现n维数据集中数据点的分布情况。

示意性的，数据分析设备根据各个测试数据点的概率密度，绘制出图2C所示的概率密度分布曲线，其中，X轴为测试数据点，Y轴为测试数据点对应的概率密度，且概率密度分布曲线中波峰的峰高越高，指示数据点分布越密集，波谷的谷深越低，指示数据点分布越稀疏。

在另一种可能的实施方式中，当数据分析设备根据高斯窗进行数据分布分析为例时，如图2D所示，上述步骤202至204可以被替换为如下步骤。

步骤206，根据测试数据点生成高斯窗，不同的测试数据点对应不同的高斯窗，高斯窗的形状与高斯概率分布曲线的形状相同，且测试数据点与高斯概率分布曲线的均值点μ对应。

与生成n维方形窗所采用的方式不同，数据分析设备根据高斯概率分布曲线的形状生成相应的高斯窗，其中，高斯概率分布曲线如图2E所示，且当前测试数据点的位置即与均值点μ(或称为数学期望值)的位置相对应。

可选的，该高斯窗的形状符合标准正态分布。

由于生成的高斯窗是无限延伸的，因此相较于n维方形窗，高斯窗能够囊括n维方形窗无法囊括的点，在后续进行数据分类时能够提高分类的准确性。

步骤207，根据高斯窗对应的高斯分布概率密度函数，计算训练集中各个训练数据点各自对应的概率密度函数值。

与利用n维方形窗计算训练数据点的概率密度不同，对于高斯窗，数据分析设备利用高斯窗对应的高斯分布概率密度函数计算训练集中各个训练数据点各自对应的概率密度函数值，从而根据各个训练数据点的概率密度函数值计算当前高斯窗对应测试数据点的概率密度。

其中，该高斯概率分布函数为：x为训练数据点的坐标，σ为数据集中的所有训练数据点以及测试数据点的标准差，μ为数据集中所有数据点的数学期望(即均值点)，且不同高斯窗对应的高斯分布概率密度函数不同。

步骤208，对各个训练数据点对应的概率密度函数值进行累加，得到测试数据点对应的概率密度。

进一步的，数据分析设备对计算得到的各个训练数据点对应的概率密度函数值进行累加，并将累加结果作为该高斯窗对应的测试数据点的概率密度。

数据分析设备重复执行上述步骤206至208，直至计算得到测试集中各个测试数据点各自对应的概率密度。

在实际的数据分析过程中，确定n维数据集的数据分布后，数据分析设备需要进一步确定使用何种机器学习算法对数据集进行分类、预测。现有技术中，数据分析设备需要将所有可能的算法均运行一遍，然后通过对比不同算法的对比error rate(错误率)来最终确定使用何种机器学习算法，整个过程需要耗费大量时间以及处理资源。而本发明实施例中，数据分析设备对n维数据集中数据分布进行分析后，能够基于该数据分布分析结果进一步确定数据是否线性可分，并进一步对不符合线性可分分析结果的机器学习算法进行过滤，从而节省选择机器学习算法所耗费的时间，节约处理资源。

在一种可能的实施方式中，在图2A的基础上，如图3A所示，上述步骤205之后，还包括如下步骤。

步骤209，确定概率密度分布曲线中的波峰和波谷。

在一种可能的实施方式中，数据分析设备确定概率密度分布曲线上某一数据点是否为波峰时，获取该点的前向相邻数据点和后向相邻数据点，当该数据点高于前向相邻数据点且高于后向相邻数据点时，确定该数据点为波峰；

相似的，数据分析设备确定概率密度分布曲线上某一数据点是否为波谷时，获取该点的前向相邻数据点和后向相邻数据点，当该数据点低于前向相邻数据点且低于后向相邻数据点时，确定该数据点为波谷。

步骤210，根据概率密度分布曲线上波峰和波谷的分布情况，确定数据是否线性可分。

通过分析概率密度分布曲线上波峰和波谷的分布情况，数据分析设备数据集中的数据是否线性可分，当确定数据线性可分时，数据分析设备即对非线性机器学习算法进行过滤，并采用线性机器学习算法对数据集进行数据分类和预测；当确定数据非线性可分时，数据分析设备即对线性机器学习算法进行过滤，并采用非线性机器学习算法对数据集进行数据分类和预测，从而避免将所有机器学习算法均运行一遍。

在一种可能的实施方式中，如图3B所示，本步骤包括如下步骤。

步骤210A，确定波峰中包含的有效波峰以及波谷中包含的有效波谷。

确定出概率密度分布曲线中的波峰和波谷后，数据分析设备需要进一步从波峰和波谷中筛选出有效波峰和有效波谷，其中，有效波峰所对应的概率密度大于预设阈值，有效波谷所对应的概率密度小于预设阈值。

可选的，在确定波峰中的有效波峰时，数据分析设备计算波峰的波峰点到X轴的垂直距离差H(x,x-axis)₁，并在H(x,x-axis)₁＞H(Max,Min)/i₁时，确定该波峰为有效波峰；

相似的，在确定波谷中的有效波谷时，数据分析设备计算波谷的波谷点到X轴的垂直距离差H(x,x-axis)₂，并在H(x,x-axis)₂＜H(Max,Min)/i₂时，确定该波谷为有效波谷；其中，H(Max,Min)为最大波峰点到最小波谷点的垂直距离差，且4≤i₁≤8，，4≤i₂≤8(本实施例中取i₁＝i₂＝4)。

比如，如图2C所示，波峰点25到X轴的垂直距离差大于H(Max,Min)/4，因此，该波峰点25所在波峰为有效波峰；波谷点26到X轴的垂直距离差大于H(Max,Min)/4，因此，该波谷点26所在波谷不是有效波谷。

需要说明的是，在确定有效波峰和有效波谷时，i₁和i₂的取值可以相同或不同。比如，在确定有效波峰时，取i₁＝4，而在确定有效波谷时，取i₂＝8，本实施例仅以确定有效波峰和有效波谷时取i₁＝i₂＝4为例进行示意性说明，并不对本发明构成限定。

步骤210B，检测相邻的有效波峰之间是否存在有效波谷。

当相邻的两个有效波峰之间存在有效波谷时，指示两个相邻的密集数据点集之间存在较少的数据点交集，即这两个密集数据点集线性可分。因此，根据上述性质，数据分析设备可以通过检测相邻的有效波峰之间是否存在有效波谷来确定数据是否线性可分。

由于实际使用场景下完全线性可分的数据极为稀少(即数据之间完全不存在交集)，因此相较于现有技术中使用凸点交叉的方法确定数据是否(完全)线性可分，本实施例提供的线性可分分析方法实用性更强，且鲁棒性更好。

步骤210C，当相邻的有效波峰之间存在有效波谷时，确定数据线性可分。

当确定数据线性可分时，数据分析设备即通过线性可分机器学习算法对数据集进行数据分类和预测。

步骤210D，当相邻的有效波峰之间不存在有效波谷时，确定数据非线性可分。

当确定数据非线性可分时，数据分析设备即通过非线性可分机器学习算法对数据集进行数据分类和预测。

下述为本发明装置实施例，对于装置实施例中未详尽描述的细节，可以参考上述一一对应的方法实施例。

请参考图4，其示出了本发明一个实施例提供的数据分析装置的结构方框图。该数据分析装置通过硬件或者软硬件的结合实现成为数据分析设备的全部或者一部分。该数据分析装置包括：获取模块410、计算模块420和第一确定模块430。

获取模块410，用于实现上述步骤101或201的功能；

生成模块420，用于实现上述步骤102的功能；

计算模块430，用于实现上述步骤103的功能；

第一确定模块440，用于实现上述步骤104或205的功能。

可选的，所述帕森窗为高斯窗；

所述生成模块420，包括：

第一生成单元，用于实现上述步骤206的功能；

所述计算模块430，包括：

第一计算单元，用于实现上述步骤207的功能；

累加单元，用于实现上述步骤208的功能。

可选的，所述帕森窗为n维方形窗；

所述生成模块420，包括：

第二生成单元，用于实现上述步骤202的功能；

所述计算模块430，包括：

第一确定单元，用于实现上述步骤203的功能；

第二计算单元，用于实现上述步骤204的功能。

可选的，所述装置，还包括：

第二确定模块，用于实现上述步骤209的功能；

第三确定模块，用于实现上述步骤210的功能。

可选的，所述第三确定模块，包括：

第二确定单元，用于实现上述步骤210A的功能；

检测单元，用于实现上述步骤210B的功能；

第三确定单元，用于实现上述步骤210C的功能；

第四确定单元，用于实现上述步骤210D的功能。

可选的，第二确定单元，用于当H(x,x-axis)₁＞H(Max,Min)/i₁时，确定波峰为有效波峰；

当H(x,x-axis)₂＜H(Max,Min)/i₂时，确定波谷为有效波谷；

其中，H(x,x-axis)₁用于指示波峰的波峰点到X轴的垂直距离差，H(x,x-axis)₂用于指示波谷的波谷点到X轴的垂直距离差，H(Max,Min)用于指示最大波峰点到最小波谷点的垂直距离差，4≤i₁≤8，4≤i₂≤8。

请参考图5，其示出了本发明一个实施例提供的服务器的结构方框图。该服务器500实现为上述实施例的数据分析设备。具体来讲：

服务器500包括中央处理单元(CPU)501、包括随机存取存储器(RAM)502和只读存储器(ROM)503的系统存储器504，以及连接系统存储器504和中央处理单元501的系统总线505。所述服务器500还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统)506，和用于存储操作系统513、应用程序514和其他程序模块515的大容量存储设备507。

所述基本输入/输出系统506包括有用于显示信息的显示器508和用于用户输入信息的诸如鼠标、键盘之类的输入设备509。其中所述显示器508和输入设备509都通过连接到系统总线505的输入输出控制器510连接到中央处理单元501。所述基本输入/输出系统506还可以包括输入输出控制器510以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器510还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备507通过连接到系统总线505的大容量存储控制器(未示出)连接到中央处理单元501。所述大容量存储设备507及其相关联的计算机可读介质为服务器500提供非易失性存储。也就是说，所述大容量存储设备507可以包括诸如硬盘或者CD-ROM驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、EPROM、EEPROM、闪存或其他固态存储其技术，CD-ROM、DVD或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器504和大容量存储设备507可以统称为存储器。

根据本发明的各种实施例，所述服务器500还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器500可以通过连接在所述系统总线505上的网络接口单元511连接到网络512，或者说，也可以使用网络接口单元511来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本发明实施例提供的文件转换方法的指令。

本领域普通技术人员可以理解上述实施例的数据分析方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，RandomAccess Memory)、磁盘或光盘等。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据分析方法，其特征在于，所述方法包括：

获取n维数据集，所述n维数据集中包括训练集和测试集，所述训练集中训练数据点的总量大于所述测试集中测试数据点的总量，n≥2，n为整数；

根据各个所述测试数据点生成各自对应的帕森窗；

根据所述帕森窗计算各个所述测试数据点对应的概率密度，所述概率密度用于指示所述帕森窗内所述训练数据点的密集程度；

根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况。

2.根据权利要求1所述的方法，其特征在于，所述帕森窗为高斯窗；

所述根据各个所述测试数据点生成各自对应的帕森窗，包括：

根据所述测试数据点生成所述高斯窗，不同的所述测试数据点对应不同的所述高斯窗，所述高斯窗的形状与高斯概率分布曲线的形状相同，且所述测试数据点与所述高斯概率分布曲线的均值点μ对应；

所述根据所述帕森窗计算各个所述测试数据点对应的概率密度，包括：

根据所述高斯窗对应的高斯分布概率密度函数，计算所述训练集中各个所述训练数据点各自对应的概率密度函数值；

对各个所述训练数据点对应的所述概率密度函数值进行累加，得到所述测试数据点对应的所述概率密度。

3.根据权利要求1所述的方法，其特征在于，所述帕森窗为n维方形窗；

所述根据各个所述测试数据点生成各自对应的帕森窗包括：

根据所述测试数据点生成所述n维方形窗，所述测试数据点位于所述n维方形窗的中心点；

将位于所述n维方形窗内部的所述训练数据点确定为目标数据点；

根据所述目标数据点的数量、所述训练集中所述训练数据点的总量以及所述n维方形窗的数据点容量，计算所述测试数据点的所述概率密度。

4.根据权利要求1至3任一所述的方法，其特征在于，所述根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况，包括：

根据各个所述测试数据点对应的所述概率密度，生成所述测试集对应的概率密度分布曲线，所述概率密度分布曲线用于指示所述n维数据集中数据点的分布情况。

5.根据权利要求4所述的方法，其特征在于，所述根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况之后，还包括：

确定所述概率密度分布曲线中的波峰和波谷；

根据所述概率密度分布曲线上波峰和波谷的分布情况，确定数据是否线性可分。

6.根据权利要求5所述的方法，其特征在于，所述根据所述概率密度分布曲线上波峰和波谷的分布情况，确定数据是否线性可分，包括：

确定波峰中包含的有效波峰以及波谷中包含的有效波谷；

检测相邻的所述有效波峰之间是否存在所述有效波谷；

当相邻的所述有效波峰之间存在所述有效波谷时，确定数据线性可分；

当相邻的所述有效波峰之间不存在所述有效波谷时，确定数据非线性可分。

7.根据权利要求6所述的方法，其特征在于，所述确定波峰中包含的有效波峰以及波谷中包含的有效波谷，包括：

当H(x,x-axis)₁＞H(Max,Min)/i₁时，确定波峰为所述有效波峰；

当H(x,x-axis)₂＜H(Max,Min)/i₂时，确定波谷为所述有效波谷；

8.一种数据分析装置，其特征在于，所述装置包括：

获取模块，用于获取n维数据集，所述n维数据集中包括训练集和测试集，所述训练集中训练数据点的总量大于所述测试集中测试数据点的总量，n≥2，n为整数；

生成模块，用于根据各个所述测试数据点生成各自对应的帕森窗；

计算模块，用于根据所述帕森窗计算各个所述测试数据点对应的概率密度，所述概率密度用于指示所述帕森窗内所述训练数据点的密集程度；

第一确定模块，用于根据各个所述测试数据点对应的所述概率密度确定所述n维数据集中数据点的分布情况。

9.根据权利要求8所述的装置，其特征在于，所述帕森窗为高斯窗；

所述生成模块，包括：

第一生成单元，用于根据所述测试数据点生成所述高斯窗，不同的所述测试数据点对应不同的所述高斯窗，所述高斯窗的形状与高斯概率分布曲线的形状相同，且所述测试数据点与所述高斯概率分布曲线的均值点μ对应；

所述计算模块，包括：

第一计算单元，用于根据所述高斯窗对应的高斯分布概率密度函数，计算所述训练集中各个所述训练数据点各自对应的概率密度函数值；

累加单元，用于对各个所述训练数据点对应的所述概率密度函数值进行累加，得到所述测试数据点对应的所述概率密度。

10.根据权利要求8所述的装置，其特征在于，所述帕森窗为n维方形窗；

所述生成模块，包括：

第二生成单元，用于根据所述测试数据点生成所述n维方形窗，所述测试数据点位于所述n维方形窗的中心点；

所述计算模块，包括：

第一确定单元，用于将位于所述n维方形窗内部的所述训练数据点确定为目标数据点；

第二计算单元，用于根据所述目标数据点的数量、所述训练集中所述训练数据点的总量以及所述n维方形窗的数据点容量，计算所述测试数据点的所述概率密度。

11.根据权利要求8至10任一所述的装置，其特征在于，所述第一确定模块，还用于：

12.根据权利要求11所述的装置，其特征在于，所述装置，还包括：

第二确定模块，用于确定所述概率密度分布曲线中的波峰和波谷；

第三确定模块，用于根据所述概率密度分布曲线上波峰和波谷的分布情况，确定数据是否线性可分。

13.根据权利要求12所述的装置，其特征在于，所述第三确定模块，包括：

第二确定单元，用于获取波峰中包含的有效波峰以及波谷中包含的有效波谷；

检测单元，检测相邻的所述有效波峰之间是否存在所述有效波谷；

第三确定单元，用于当相邻的所述有效波峰之间存在所述有效波谷时，确定数据线性可分；

第四确定单元，用于当相邻的所述有效波峰之间不存在所述有效波谷时，确定数据非线性可分。

14.根据权利要求13所述的装置，其特征在于，所述第二确定单元，用于：

当H(x,x-axis)₁＞H(Max,Min)/i₁时，确定波峰为所述有效波峰；

当H(x,x-axis)₂＜H(Max,Min)/i₂时，确定波谷为所述有效波谷；