CN106447385A

CN106447385A - 数据处理方法和装置

Info

Publication number: CN106447385A
Application number: CN201610788322.6A
Authority: CN
Inventors: 郭钟
Original assignee: WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd
Current assignee: WUXI YAZUO ONLINE TECHNOLOGY DEVELOPMENT Co Ltd
Priority date: 2016-08-31
Filing date: 2016-08-31
Publication date: 2017-02-22

Abstract

本发明公开了一种数据处理方法和装置。其中，该方法包括：接收目标数据；根据预设的数据分类模型确定目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型；基于目标数据属于各个预定类的概率，得到目标数据的分类结果；输出分类结果。本发明解决相关技术中数据处理方法准确度低的问题。

Description

数据处理方法和装置

技术领域

本发明涉及数据处理领域，具体而言，涉及一种数据处理方法和装置。

背景技术

在多个行业中都会存在一些数据，例如，餐饮业、旅游业的会员消费等数据，会员消费数据逐渐发展成为了跨行业、跨国家、线上线下联合的数据，这些数据往往来自多个样本，由于单纯以消费折扣为手段的积分计划等已经不能吸引到真正有价值的顾客，因此对这些大数据的分析具有重要的参考价值，能够快速定位有价值的客户，合理利用这些大数据能够为企业带来更大的利益。

现有技术中对上述数据的分析采用的是高斯混合判别分析，引用全体数据作为计算量，但是直接使用全体数据容易受到噪音的影响导致准确度低。

针对相关技术中数据处理方法准确度低的问题，目前尚未提出有效的解决方案。

发明内容

本发明的主要目的在于提供一种数据处理方法和装置，以解决相关技术中数据处理方法准确度低的问题。

为了实现上述目的，根据本发明的一个方面，提供了一种数据处理方法，该方法包括：接收目标数据；根据预设的数据分类模型确定目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型；基于目标数据属于各个预定类的概率，得到目标数据的分类结果；输出分类结果。

进一步地，根据预设的数据分类模型确定目标数据属于各个预定类的概率包括：根据数据分类模型中记录的正态分布密度函数，计算目标数据属于每个预定类中每个属性的属性概率，其中，每个预定类包括多个属性；计算每个预定类中多个属性的属性概率的加权值，得到目标数据属于每个预定类的概率。

进一步地，基于目标数据属于各个预定类的概率，得到目标数据的分类结果包括：将最大概率值对应的预定类，确定为目标数据所属的预定类。

进一步地，在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前，方法还包括：采集多个样本数据，其中，样本数据中的每个样本包括多个类，每个类包括多个属性；对多个样本数据进行无效数据过滤，得到过滤后的数据，其中，无效数据为样本数据中属性值缺失率超过预设阈值的数据；对每个类的每个属性分别计算样本数据的属性分布；根据属性分布建立数据分类模型。

进一步地，在对多个样本数据进行无效数据过滤，得到过滤后的数据之后，方法还包括：计算每个类的每个属性的数据的均值和标准差；过滤掉与均值的差值超过两倍标准差的数据。

进一步地，在对多个样本数据进行无效数据过滤，得到过滤后的数据之后，方法还包括：对样本数据进行向量化表示，得到向量化数据。

为了实现上述目的，根据本发明的另一方面，还提供了一种数据处理装置，该装置包括：接收单元，用于接收目标数据；确定单元，用于根据预设的数据分类模型确定目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型；处理单元，用于基于目标数据属于各个预定类的概率，得到目标数据的分类结果；输出单元，用于输出分类结果。

进一步地，确定单元包括：根据数据分类模型中记录的正态分布密度函数，计算目标数据属于每个预定类中每个属性的属性概率，其中，每个预定类包括多个属性；计算单元，用于计算每个预定类中多个属性的属性概率的加权值，得到目标数据属于每个预定类的概率。

进一步地，处理单元具体用于：将最大概率值对应的预定类，确定为目标数据所属的预定类。

进一步地，装置还包括：采集单元，用于在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前，采集多个样本数据，其中，样本数据中的每个样本包括多个类，每个类包括多个属性；过滤单元，用于对多个样本数据进行无效数据过滤，得到过滤后的数据，其中，无效数据为样本数据中属性值缺失率超过预设阈值的数据；属性分布计算单元，用于对每个类的每个属性分别计算样本数据的属性分布；建立单元，用于根据属性分布建立数据分类模型。

通过本发明的上述实施例，可以基于过滤后的多个样本数据预先建立数据分类模型，在接收到新的目标数据之后，利用该预先建立的数据分类模型确定目标数据属于各个预定类的概率，并基于目标数据属于各个预定类的概率，确定目标数据的分类结果。在上述实施例中，由于建立数据分类模型时，是基于过滤后的样本数据建立的，过滤数据可以减少样本数据中的无效数据或者噪音数据，基于该模型确定的目标数据的分类结果准确率高，解决了现有技术中是数据处理方法准确度低的问题。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的数据处理方法的流程图；以及

图2是根据本发明实施例的数据处理装置的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例提供了一种数据处理方法。

图1是根据本发明实施例的数据处理方法的流程图，如图1所示，该方法包括以下步骤：

步骤S102：接收目标数据。

步骤S104：根据预设的数据分类模型确定目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型。

步骤S106：基于目标数据属于各个预定类的概率，得到目标数据的分类结果。

步骤S108：输出分类结果。

可选地，创建数据输入界面，该数据输入界面上设置有输入框，该输入框可以用于输入目标数据，处理器可以从该输入框接收目标数据。

另一种可选地，创建数据导入接口，该数据导入接口与目标数据的生成系统建立连接，处理器通过该数据导入接口采集目标数据。

上述实施例中的目标数据和样本数据可以为消费数据，该消费数据中包括性别、年龄、职业、居住地、频次以及消费金额等多个维度的信息。当然，本申请的目标数据和样本数据还可以为其他领域的数据，本申请对此不做限定。

在上述步骤S104确定的技术方案中，可以获取预先创建的数据分类模型，具体地，可以获取多个样本数据，对该多个样本数据进行过滤，以将该多个样本数据中的无效数据剔除，基于过滤后的多个样本数据的类别分布信息建立数据分类模型。

可选地，在根据预设的数据分类模型确定目标数据属于各个预定类的概率之后，基于目标数据属于各个预定类的概率，得到目标数据的分类结果，也即，基于目标数据属于不同类的概率，确定目标数据属于哪个类，并输出该分类结果，该分类结果可以图表、或文字的形式展示在界面上，也可以将分类结果记录在文档中，输出该文档，本申请对该输出方式和格式不做限定。

具体地，根据预设的数据分类模型确定目标数据属于各个预定类的概率包括：根据数据分类模型中记录的正态分布密度函数，计算目标数据属于每个预定类中每个属性的属性概率，其中，每个预定类包括多个属性；计算每个预定类中多个属性的属性概率的加权值，得到目标数据属于每个预定类的概率。

根据本申请的上述实施例，对于接收到的目标数据，可根据分类的平均值，标准差计算该目标数据属于不同预定类中各个属性的分布概率：

在一个可选的实施例中，目标数据属于第k个分类的第i个属性的概率可用正态分布密度函数计算，设定数据分类模型中记录有m个分类，第k个分类具有i个有效属性，则第k个分类的第i个属性的概率可用正态分布密度函数计算，该其中，xⁱ表示该目标数据的第i个属性的属性值，表示第k个分类的第i个属性的计算平均值，表示该第k个分类的第i个属性的标准差。

在计算得到目标数据属于每个预定类中每个属性的属性概率之后，计算每个预定类中多个属性的属性概率的加权值，得到目标数据属于每个预定类的概率。

具体地，第k个分类的概率为各个属性概率与权重wⁱ的乘积：

该实施例中每个属性的权重均可以动态调整。

具体地，若有m个预定类，则选择m个p_k中的最大的值，将最大的值对应的预定类确定为目标数据所属的分类。

本申请上述的m、k、i均为自然数，k为小于等于m的自然数。

在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前，方法还包括：采集多个样本数据，其中，样本数据中的每个样本包括多个类，每个类包括多个属性；对多个样本数据进行无效数据过滤，得到过滤后的数据，其中，无效数据为样本数据中属性值缺失率超过预设阈值的数据；对每个类的每个属性分别计算样本数据的属性分布；根据属性分布建立数据分类模型。

具体地，在对多个样本数据进行无效数据过滤，得到过滤后的数据之后，方法还包括：计算每个类的每个属性的数据的均值和标准差；过滤掉与均值的差值超过两倍标准差的数据。

在已经获取到多个样本数据的情况下，可以对每个样本数据按照不同的预定类的不同属性设置标签，在将样本数据设置标签并分为K组之后，样本数据中包括对象的性别、年龄、职业、时间(如，年内累计消费分钟)、频次(年内消费次数)、金额(年内累计消费额)，在准备好数据之后，多个样本数据的各个属性的分布符合正态分布。

对多个样本数据进行无效数据的过滤，具体地，该过滤操作可以包括下述至少之一的操作：

(1)去除缺失率过高的属性，将缺失率超过预定阈值的属性去掉。例如，设置缺失率的预定阈值为70％，若100个样本数据中有80个样本数据中均未记录性别属性信息，只有20个记录了性别属性信息，该性别属性信息的缺失率为80％，超过了70％，则将该属性去掉。

上述的去掉可以是将所有数据中的该属性的属性值不再作为模型的输入参数。

(2)对丢失属性填充，例如，用对应有效属性的平均值替换。例如，100个样本数据中有40个样本数据中记录的消费金额属性信息为100元，有40个记录的消费金额属性信息为500元，还有20个没有记录消费金额属性信息，则可以确定属性平均值为300元，可以将该20个没有记录消费金额的样本数据中消费金额属性信息的值填充为300元。

(3)去除差异过小的属性，例如，当样本数据中目标属性的属性值的相同率超过预设阈值，不考虑此属性。例如，设置预设阈值为95％，100个样本数据中有99个样本数据中记录的性别属性信息为女性，该属性值的相同率超过了95％，则在创建数据分类模型时不考虑该数据。

在对多个样本数据进行过滤之后，对过滤后的多个样本中的数据进行向量化处理，具体地，将不同的属性值对应设置为不同的向量，如，性别、职业分类属性，如[性别]＝男替换为[性别男]＝1和[性别女]＝0两个属性来替换，未知则均为0；[职业]＝职业K可替换为[职业1]＝0，[职业2]＝0，……，[职业k]＝1，……，[职业n]＝0。

对向量化的数据，进行每一类的每个属性计算分布，具体地，计算多个向量化的样本数据对应每一类的每个属性的均值和标准差。

例如，选取第k类数据，选取分类数据A_k＝δ_分类＝k(A)；则对于第k类数据，第i个属性的分布如下：

平均值：

标准差“

每一类的每一属性过滤掉-2σ到2σ以外的的噪音数据(设检测值属性为x，即目标数据的对应该属性的属性值)，则：

选取分类数据

更新计算平均值

更新标准差

在本发明的上述实施例中，通过去除边缘数据(出现概率<5％)，增加了主要数据所占的比重，使提取分类时所用的数据更具有代表性。

上述实施例中权重使不同属性的代表的重要性体现出来，而不是各个方面均匀的占比。例如，可将客户按金额分类的更为准确些，通过对金额相关的属性设置较大的权重来完成。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种数据处理装置，该装置包括图2所示的：接收单元21，用于接收目标数据；确定单元23，用于根据预设的数据分类模型确定目标数据属于各个预定类的概率，其中，数据分类模型是根据多个样本数据的属性分布信息建立的模型；处理单元25，用于基于目标数据属于各个预定类的概率，得到目标数据的分类结果；输出单元27，用于输出分类结果。

在上述技术方案中，可以获取预先创建的数据分类模型，具体地，可以获取多个样本数据，对该多个样本数据进行过滤，以将该多个样本数据中的无效数据剔除，基于过滤后的多个样本数据的类别分布信息建立数据分类模型。

进一步地，该装置还包括：采集单元，用于在根据预设的数据分类模型确定目标数据属于各个预定类别的概率之前，采集多个样本数据，其中，样本数据中的每个样本包括多个类，每个类包括多个属性；过滤单元，用于对多个样本数据进行无效数据过滤，得到过滤后的数据，其中，无效数据为样本数据中属性值缺失率超过预设阈值的数据；属性分布计算单元，用于对每个类的每个属性分别计算样本数据的属性分布；建立单元，用于根据属性分布建立数据分类模型。

上述的过滤单元具体用于对多个样本数据进行无效数据的过滤，具体地，该过滤操作可以包括下述至少之一的操作：

上述的去掉可以是将所有数据中的该属性的属性值删除。

(2)对丢失属性填充，例如，用对应有效属性的平均值替换。例如，100个样本数据中有80个样本数据中记录的性别属性信息为女性，只有10个记录的性别属性信息为男性，还有10个没有记录性别属性信息，则可以确定属性平均值为女性，则可以将该10个没有记录性别的样本数据中性别属性信息的值填充为女性。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

接收目标数据；

根据预设的数据分类模型确定所述目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型；

基于所述目标数据属于各个预定类的概率，得到所述目标数据的分类结果；

输出所述分类结果。

2.根据权利要求1所述的方法，其特征在于，根据预设的数据分类模型确定所述目标数据属于各个预定类的概率包括：

根据所述数据分类模型中记录的正态分布密度函数，计算所述目标数据属于每个预定类中每个属性的属性概率，其中，每个预定类包括多个属性；

计算每个预定类中多个属性的属性概率的加权值，得到所述目标数据属于每个预定类的概率。

3.根据权利要求1或2所述的方法，其特征在于，基于所述目标数据属于各个预定类的概率，得到所述目标数据的分类结果包括：

将最大概率值对应的预定类，确定为所述目标数据所属的预定类。

4.根据权利要求1所述的方法，其特征在于，在根据预设的数据分类模型确定所述目标数据属于各个预定类别的概率之前，所述方法还包括：

采集所述多个样本数据，其中，所述样本数据中的每个样本包括多个类，每个类包括多个属性；

对所述多个样本数据进行无效数据过滤，得到过滤后的数据，其中，所述无效数据为所述样本数据中属性值缺失率超过预设阈值的数据；

对所述每个类的每个属性分别计算所述样本数据的属性分布；

根据所述属性分布建立数据分类模型。

5.根据权利要求4所述的方法，其特征在于，在对所述多个样本数据进行无效数据过滤，得到过滤后的数据之后，所述方法还包括：

计算所述每个类的每个属性的数据的均值和标准差；

过滤掉与所述均值的差值超过两倍标准差的数据。

6.根据权利要求4所述的方法，其特征在于，在对所述多个样本数据进行无效数据过滤，得到过滤后的数据之后，所述方法还包括：

对所述样本数据进行向量化表示，得到向量化数据。

7.一种数据处理装置，其特征在于，包括：

接收单元，用于接收目标数据；

确定单元，用于根据预设的数据分类模型确定所述目标数据属于各个预定类的概率，其中，所述数据分类模型是根据过滤后的多个样本数据建立的模型；

处理单元，用于基于所述目标数据属于各个预定类的概率，得到所述目标数据的分类结果；

输出单元，用于输出所述分类结果。

8.根据权利要求7所述的装置，其特征在于，所述确定单元包括：

计算单元，用于计算每个预定类中多个属性的属性概率的加权值，得到所述目标数据属于每个预定类的概率。

9.根据权利要求7或8所述的装置，其特征在于，所述处理单元具体用于：

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

采集单元，用于在根据预设的数据分类模型确定所述目标数据属于各个预定类别的概率之前，采集所述多个样本数据，其中，所述样本数据中的每个样本包括多个类，每个类包括多个属性；

过滤单元，用于对所述多个样本数据进行无效数据过滤，得到过滤后的数据，其中，所述无效数据为所述样本数据中属性值缺失率超过预设阈值的数据；

属性分布计算单元，用于对所述每个类的每个属性分别计算所述样本数据的属性分布；

建立单元，用于根据所述属性分布建立数据分类模型。