CN106815458A

CN106815458A - 数据处理方法及装置

Info

Publication number: CN106815458A
Application number: CN201510874110.5A
Authority: CN
Inventors: 杜玮; 张柯; 褚崴; 杨旭; 李屾; 王思宇; 谢树坤; 杨军; 谢峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-12-02
Filing date: 2015-12-02
Publication date: 2017-06-09

Abstract

本申请实施例公开了一种数据处理方法及装置。所述数据处理方法包括：根据待检测的特征从数据库中获取相应的数据；将获取到的所述数据按值排序后，将所述数据划分为预设数量个区间；统计每个区间内所述数据中正样本的比例；判断所述区间的序数与所述正样本的比例是否满足线性关系；若满足线性关系，则确定所述待检测的特征为建模特征。利用本申请实施例，可以实现自动化地筛选建模特征。

Description

数据处理方法及装置

技术领域

本申请涉及大数据技术领域，特别涉及一种数据处理方法及装置。

背景技术

随着互联网技术的不断发展，每时每刻都会产生海量的数据，大数据技术的产生就是为了挖掘和运用这些海量的数据。

机器学习算法是大数据技术中的关键组成部分，而所述机器学习算法首先需要根据业务场景选取建模特征，根据建模特征建立模型，再进行模型训练从而得出结果。由于建模特征会直接影响到模型训练的效果，所以选取最优的建模特征非常重要。

现有技术中，选取建模特征通常都是需要人工完成。由于与业务场景相关的特征非常的多，往往会有上千甚至上万个。从如此多的特征中筛选出最优的特征作为建模特征需要的人工成本就会变得好大，而且时间也会很久。

综上所述，现有技术中存在需要人工筛选建模特征的问题。

发明内容

本申请实施例的目的是提供一种数据处理方法及装置，用以解决现有技术中需要人工筛选建模特征的问题。

为解决上述技术问题，本申请实施例提供的数据处理方法及装置是这样实现的：

一种数据处理方法，包括：

根据待检测的特征从数据库中获取相应的数据；

将获取到的所述数据按值排序后，将所述数据划分为预设数量个区间；

统计每个区间内所述数据中正样本的比例；

判断所述区间的序数与所述正样本的比例是否满足线性关系；

若满足线性关系，则确定所述待检测的特征为建模特征。

一种数据处理装置，包括：

获取单元，用于根据待检测的特征从数据库中获取相应的数据；

划分单元，用于将获取到的所述数据按值排序后，将所述数据划分为预设数量个区间；

统计单元，用于统计每个区间内所述数据中正样本的比例；

判断单元，用于判断所述区间的序数与所述正样本的比例是否满足线性关系；

确定单元，用于在所述区间的序数与所述正样本的比例满足线性关系时，确定所述待检测的特征为建模特征。

由以上本申请实施例提供的技术方案可见，通过判断所述待检测的特征是否满足线性关系，从而可以排除不满足线线关系的特征，将满足线性关系的特征确定为建模特征，实现自动化地筛选能用于建立模型的建模特征。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请一实施例中提供的数据处理方法的流程图；

图2为本申请一实施例中提供的数据处理方法的流程图；

图3为本申请一实施例中提供的数据处理方法的流程图；

图4a为满足线性关系的曲线图；

图4b为不满足线性关系的曲线图；

图5为本申请一实施例中提供的数据处理方法的流程图；

图6为本申请一实施例中提供的数据处理方法的流程图；

图7为本申请一实施例中提供的数据处理装置的模块示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

图1为本申请一实施例中提供的数据处理方法的流程图。本实施例中，所述数据处理方法包括如下步骤：

S110：根据待检测的特征从数据库中获取相应的数据。

所述数据库中存储有所述特征相应的数据。例如，特征为用户收入，则服务器可以根据该特征从数据库中获取相应的用户收入的数据。

S120：将获取到的所述数据按值排序后，将所述数据划分为预设数量个区间。

所述预设数量可以是人为根据业务场景中数据量预先设定的。

以下如例子1所示，假如班上有10名学生，他们考试的成绩(特征)分别为：45，80，88，77，68，99，60，92，82，75。

将所述数据按值排序后为：45，60，68，75，77，80，82，88，92，99。

假设本例子1中，可以将这10个数据划分为5(预设数量)个区间，如下所示：

第1区间：45，60；

第2区间：68，75；

第3区间：77，80；

第4区间：82，88；

第5区间：92，99。

S130：统计每个区间内所述数据中正样本的比例。

所述正样本可以是人为根据业务场景预先设定的。通常用户会把样本数据中感兴趣的那个取值对应的样本称作正样本，而另一个值对应的样本则称作负样本。例如，对于“是否下雨”的样本数据来说，会有“是”＝1和“否”＝0这两个值，如果用户感兴趣的是下雨，则可以将值为1(下雨)的样本作为正样本；相应地，可以将值为0(不下雨)的样本作为负样本。

沿用上一例子1中所示的内容，假设所述正样本是性别为男的样本，而各区间内学生的性别与成绩如下如例子2所示：

第1区间：45(男)，60(男)；

第2区间：68(女)，75(男)；

第3区间：77(男)，80(女)；

第4区间：82(女)，88(女)；

第5区间：92(女)，99(男)。

如图2所示，本实施例中所述S130步骤，具体可以包括如下步骤：

S131：统计每个区间内所述数据中正样本的数量。

如例子2所示的内容，统计每个区间内所述数据中正样本的数量，如下所示：

第1区间：2个；

第2区间：1个；

第3区间：1个；

第4区间：0个；

第5区间：1个。

S132：计算每个区间内正样本的数量占该区间内所述数据的数量的比例，从而得到每个区间内所述数据中正样本的比例。

沿用S131步骤的例子所示的内容，统计每个区间内所述数据中正样本的比例，如下所示：

第1区间内所述数据中正样本的比例：2(正样本的数量)/2(数据的数量)＝1；

第2区间：1(正样本的数量)/2(数据的数量)＝0.5；

第3区间：1(正样本的数量)/2(数据的数量)＝0.5；

第4区间：0(正样本的数量)/2(数据的数量)＝0；

第5区间：1(正样本的数量)/2(数据的数量)＝0.5。

S140：判断所述区间的序数与所述正样本的比例是否满足线性关系。

对于用于建立模型的建模特征，一般是需要满足线性关系的特征。本实施例中，通过判断所述待检测的特征是否满足线性关系，从而可以排除不满足线线关系的特征，实现自动化地筛选能用于建立模型的建模特征。

所述区间的序数可以根据划分区间时区间的顺序得到的。如例子1中所示的内容，第1区间的序数为“1”；第2区间的序数为“2”；第3区间的序数为“3”；第4区间的序数为“4”；第5区间的序数为“5”。

如图3所示，本实施例中所述S140步骤，具体可以包括如下步骤：

S141：计算所述区间的序数与所述正样本的比例的相关系数。

相关系数可以表示两个变量之间线性相关的程度，是两个变量之间线性关系的指标。一般的，相关系数用r表示，相关系数的取值范围为[-1，1]。|r|值越大，两个变量之间的线性相关程度越高，即线性关系越强；|r|值越接近0，两个变量之间的线性相关程度越低，即线性关系越弱。如果两个变量之间呈正相关，则r值呈正值；如果两个变量之间呈负相关，则r值呈负值。当r为1时，称为完全正相关；当r为-1时，称为完全负相关。

具体地，计算相关系数如下公式1所示：

公式1

其中，x表示区间的序数；y表示正样本的比例，表示区间的序数的平均值，表示区间的序数的平均值。

S142：判断所述相关系数的绝对值是否大于预设阈值；若大于预设阈值，则执行S150步骤。

所述预设阈值可以是人为预先设置的一个经验值。

本实施例中，如果服务器计算得出的相关系数r值大于预设阈值，则说明所述待检测的特征满足线性关系，执行S150步骤。如果服务器计算得出的相关系数r值不大于预设阈值，则说明所述待检测的特征不满足线性关系，将所述待检测的特效排除。

S150：确定所述待检测的特征为建模特征。

对于用于建立模型的建模特征，一般是需要满足线性关系的特征。本实施例中，通过判断所述待检测的特征是否满足线性关系，从而可以排除不满足线线关系的特征，将满足线性关系的特征确定为建模特征，实现自动化地筛选能用于建立模型的建模特征。

本申请的一个具体的实施例中，在S130步骤之后还可以包括：

展示根据所述区间的序数与所述正样本的比例画出的曲线图。

所述曲线图，x轴用于表示所述区间的序数，y轴用于表示所述正样本的比例。

通过本实施例，可以将待检测的特征的曲线图展示供用户查。如此，便于用户直观的通过所述曲线图分析该待检测的特征是否具有线性关系。如图4a所示为满足线性关系的曲线图示例；如图4b所示为不满足线性关系的曲线图示例。

本申请的一个具体的实施例中，在图1所示的基础上，如图5所示在S140步骤之后还可以包括S143、S146至S148步骤：

S143：若满足线性关系，则计算相邻区间之间正样本的比例的变化率。

变化率可以反映出相邻区间之间正样本的比例的变化程度。一般的，变化率用α表示，变化率的值越大，代表相邻区间正样本的比例的变化越明显。反之，变化率的值越小，代表相邻区间正样本的比例的变化越不明显。

假设将所述数据划分为n(预设数量)个区间，并且每个区间内正样本的比例为[P₁,P₂,P_i,L,P_n-1,P_n]。那么，由此可以计算得出相邻区间之间正样本的比例的变化率α，具体如下公式2所示：

公式2

其中，P_i表示第i个区间内正样本的比例，α_i→i+1表示第i个区间内正样本的比例到下一个区间内正样本的比例的变化率。

以例子3加以说明：假设每个区间内正样本的比例为[0.0026、0.0028、0.0040、0.0036、0.0060、0.0065、0.0086、0.0103、0.0186、0.0364]，则根据公式2可以计算得到相邻区间之间正样本的比例的变化率α值为[0.006、0.037、0.013、0.072、0.014、0.061、0.049、0.246、0.527]。

S146：将所述正样本的比例按照正变化与负变化分为两个集合。

其中，A集合中为正变化的正样本的比例；B集合中为负变化的正样本的比例；P_i表示第i个区间的正样本的比例。

如上例子所示的内容，可以得到A集合中的正样本的比例包括[0.0040]；B集合中的变化率包括[0.0026、0.0028、0.0036、0.0060、0.0065、0.0086、0.0103、0.0186、0.0364]。

S147：根据所述集合中正样本的比例对应的变化率对所述待检测的特征进行打分，得到分值。

所述打分的公式如下公式3所示：

公式3

其中，(N_A)_i表示A集合中第i个元素的正样本的比例，α(N_A)_i表示A集合中第i个元素的正样本的比例的变化率；(N_B)_i表示B集合中第i个元素的正样本的比例，α(N_B)_i表示B集合中第i个元素的正样本的比例的变化率，P表示正样本的比例，N_A与N_B分别表示集合A与集合B中元素的数量。如果P_n-P₁≥0，则按照计算分值；如果P_n-P₁<0，则按照计算分值。

S148：判断所述分值是否达到预设分值；若所述分值达到预设分值，则执行S150步骤。

所述预设分值可以是人为预先设置的一个经验值。

如果计算得出的分值大于预设分值，执行S150步骤。如果计算得出的分值不大于预设分值，则将所述待检测的建模特效排除。

通过本实施例，对所述待检测的特征进行打分，排除分值达不到预设分值的特征，如此可以筛选出更优的建模特征。

在本申请的一个具体的实施例中，在图1所示的基础上，在S140步骤之后还可以包括如下步骤：

若满足线性关系，则计算相邻区间之间正样本的比例的变化率；

本步骤与上一实施例中S143步骤相同。

将所述变化率按照正变化与负变化分为两个集合；

本步骤与上一实施例中S146步骤相同。

根据所述集合中正样本的比例对应的变化率对所述待检测的特征进行打分，得到分值；

本步骤与上一实施例中S147步骤相同。

本实施例中，若存在至少一个满足线性关系的待检测的特征，则对所述至少一个的待检测的特征的分值按值排序。

例如，存在5个满足线性关系的待检测的特征，对应进行打分得到的分值为[5、9、7、3、6]；按照分值按值排序后为[3、5、6、7、9]。

相应地，S150步骤，可以包括：

选取第二预设数量个最大分值对应的待检测的特征为建模特征。

所述第二预设数量可以是人为预先设定的。

如上一步骤中的例子，假设第二预设数量为3，则选取3个最大分值对应的待检测的特征为建模特征，即分值为“9”、“7”、“6”对应的待检测的特征为建模特征

通过本实施例，对于多个满足线性关系的待检测的特征，按照分值的高低，从中选取分值高的特征，如此可以筛选出更优的建模特征。

本申请的一个具体的实施例中，在图5所示的基础上，如图6所示在S143步骤之后还可以包括S144、S145步骤：

S144：判断所述变化率是否小于预设变化率。

S145：若小于预设变化率，则将所述变化率对应的两个区间合并，并重新计算相邻区间之间正样本的比例的变化率；返回执行S144，直到所有变化率都不小于预设变化率。

本实施例中，所述预设变化率可以是人为预先设置的一个经验值。

服务器逐一判断所述变化率α是否小于预设变化率，如果该变化率α小于预设变化率，则将该变化率对应的两个区间合并，重新计算相邻区间之间正样本的比例的变化率α；反之，如果该变化率α不小于预设变化率，则判断下一个变化率是否小于预设变化率，直到所有变化率都不小于预设变化率。

如例子3所示的内容，假设预设变化率为0.02。服务器逐一判断所述变化率是否小于预设变化率：

由于0.006小于0.02，执行S145步骤。将变化率为0.006对应的两个区间合并，合并后每个区间内正样本的比例为[0.0054、0.0040、0.0036、0.0060、0.0065、0.0086、0.0103、0.0186、0.0364]，重新计算相邻区间之间正样本的比例的变化率为[0.045、0.013、0.077、0.016、0.068、0.055、0.235、0.574]；

由于0.045大于0.02，则判断下一个变化率(0.013)是否小于预设变化率；由于0.013小于0.02，执行S145步骤。将变化率为0.013对应的两个区间合并，合并后每个区间内正样本的比例为[0.0054、0.0076、0.0060、0.0065、0.0086、0.0103、0.0186、0.0364]，重新计算相邻区间之间正样本的比例的变化率为[0.071、0.052、0.016、0.068、0.055、0.235、0.574]；

由于0.071大于0.02，则判断下一个变化率(0.052)是否小于预设变化率；由于0.052大于0.02，则判断下一个变化率(0.016)是否小于预设变化率；由于0.016小于0.02，执行S145步骤。将变化率为0.013对应的两个区间合并，合并后每个区间内正样本的比例为[0.0054、0.0076、0.0125、0.0086、0.0103、0.0186、0.0364]，重新计算相邻区间之间正样本的比例的变化率为[0.071、0.158、0.126、0.055、0.235、0.574]；

由于0.071大于0.02，则判断下一个变化率(0.158)是否小于预设变化率；由于0.158大于0.02，则判断下一个变化率(0.126)是否小于预设变化率；由于0.126大于0.02，则判断下一个变化率(0.055)是否小于预设变化率；由于0.055大于0.02，则判断下一个变化率(0.235)是否小于预设变化率；由于0.235大于0.02，则判断下一个变化率(0.574)是否小于预设变化率；由于0.574大于0.02，则所有变化率都不小于预设变化率。得到的最终的相邻区间之间正样本的比例的变化率为[0.071、0.158、0.126、0.055、0.235、0.574]。

本实施例中，如果每一相邻区间之间正样本的比例变化原本就很明显，则其需要合并的区间会较少，最后合并后的区间的数量会较多；如果每一相邻区间之间正样本的变化原本不是很明显，则其需要合并的区间会较多，最后合并后的区间的数量会较少。由于在S147步骤打分时，区间的数量越少的最后得到的分值越低。如此，可以将原本变化就不明显的特征排除，从而把变化明显的特征作为建模特征。

本申请实施例提供还提供一种装置，可以实现上述的方法步骤，且该装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为逻辑意义上的装置，是通过服务器的CPU(Central Process Unit，中央处理器)将对应的计算机程序指令读取到内存中运行形成的。

图7为本申请一实施例中提供的数据处理装置的模块示意图。本实施例中，所述数据处理装置包括：

获取单元210，用于根据待检测的特征从数据库中获取相应的数据；

划分单元220，用于将获取到的所述数据按值排序后，将所述数据划分为预设数量个区间；

统计单元230，用于统计每个区间内所述数据中正样本的比例；

判断单元240，用于判断所述区间的序数与所述正样本的比例是否满足线性关系；

确定单元250，用于在所述区间的序数与所述正样本的比例满足线性关系时，确定所述待检测的特征为建模特征。

优选地，所述统计单元230，具体可以包括：

第一统计子单元，用于统计每个区间内所述数据中正样本的数量；

第二统计子单元，用于计算每个区间内正样本的数量占该区间内所述数据的数量的比例，从而得到每个区间内所述数据中正样本的比例。

优选地，所述判断单元240，具体可以包括：

第一判断子单元，用于计算所述区间的序数与所述正样本的比例的相关系数；

第二判断子单元，用于判断所述相关系数的绝对值是否大于预设阈值；

相应地，所述确定单元250，还可以用于在所述相关系数的绝对值大于预设阈值时，确定所述待检测的特征为建模特征。

优选地，在所述统计单元230之后，还可以包括：

展示子单元，用于展示根据所述区间的序数与所述正样本的比例画出的曲线图。

优选地，在所述判断单元240之后，还可以包括：

计算子单元，用于在所述区间的序数与所述正样本的比例满足线性关系时，计算相邻区间之间正样本的比例的变化率；

处理子单元，用于将所述正样本的比例按照正变化与负变化分为两个集合；

打分子单元，用于根据所述集合中正样本的比例对应的变化率对所述待检测的特征进行打分，得到分值；

第三判断子单元，用于判断所述分值是否大于预设分值；

相应地，所述确定单元250，还可以用于在所述分值大于预设分值时，确定所述待检测的特征为建模特征。

优选地，在所述判断单元240之后，还可以包括：

排序子单元，用于对至少一个的待检测的特征的分值按值排序；

相应地，所述确定单元，还用于选取第二预设数量个最大分值对应的待检测的特征为建模特征。

优选地，在所述计算子单元之后，还可以包括：

第四判断子单元，用于逐一判断所述变化率是否小于预设变化率；

合并子单元，用于在所述变化率小于预设变化率时，将所述变化率对应的两个区间合并，并重新计算相邻区间之间正样本的比例的变化率；返回执行第四判断子单元，直到所有变化率都小于预设变化率。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据处理方法，其特征在于，包括：

根据待检测的特征从数据库中获取相应的数据；

统计每个区间内所述数据中正样本的比例；

若满足线性关系，则确定所述待检测的特征为建模特征。

2.如权利要求1所述的方法，其特征在于，判断所述区间的序数与所述正样本的比例是否满足线性关系，具体包括：

计算所述区间的序数与所述正样本的比例的相关系数；

判断所述相关系数的绝对值是否大于预设阈值；

相应地，若满足线性关系，则确定所述待检测的特征为建模特征，包括：

若大于预设阈值，则确定所述待检测的特征为建模特征。

3.如权利要求1所述的方法，其特征在于，在所述统计每个区间内所述数据中正样本的比例之后，还包括：

4.如权利要求1所述的方法，其特征在于，在判断所述区间的序数与所述正样本的比例是否满足线性关系之后，还包括：

将所述正样本的比例按照正变化与负变化分为两个集合；

判断所述分值是否大于预设分值；

若大于预设分值，则确定所述待检测的特征为建模特征。

5.如权利要求1所述的方法，其特征在于，在判断所述区间的序数与所述正样本的比例是否满足线性关系之后，还包括：

将所述变化率按照正变化与负变化分为两个集合；

对至少一个的待检测的特征的分值按值排序；

6.如权利要求4或5所述的方法，其特征在于，在所述计算每个区间之间的变化率之后，还包括：

S144：逐一判断所述变化率是否小于预设变化率；

S145：若小于预设变化率，则将所述变化率对应的两个区间合并，并重新计算相邻区间之间正样本的比例的变化率；返回执行S144，直到所有变化率都小于预设变化率。

7.一种数据处理装置，其特征在于，包括：

统计单元，用于统计每个区间内所述数据中正样本的比例；

8.如权利要求7所述的装置，其特征在于，所述判断单元，具体包括：

相应地，所述确定单元，还用于在所述相关系数的绝对值大于预设阈值时，确定所述待检测的特征为建模特征。

9.如权利要求7所述的装置，其特征在于，在所述统计单元之后，还包括：

10.如权利要求7所述的装置，其特征在于，在所述判断单元之后，还包括：

第三判断子单元，用于判断所述分值是否大于预设分值；

相应地，所述确定单元，还用于在所述分值大于预设分值时，确定所述待检测的特征为建模特征。

11.如权利要求7所述的装置，其特征在于，在所述判断单元之后，还包括：

12.如权利要求10或11所述的装置，其特征在于，在所述计算子单元之后，还包括：