CN106227724A

CN106227724A - 一种同构数据集特征质量可视化方法

Info

Publication number: CN106227724A
Application number: CN201610130665.3A
Authority: CN
Inventors: 汤奇峰; 薛守辉
Original assignee: Shanghai Zamplus Technology Development Co Ltd
Current assignee: Shanghai Zamplus Technology Development Co Ltd
Priority date: 2016-03-08
Filing date: 2016-03-08
Publication date: 2016-12-14

Abstract

一种同构数据集特征质量可视化方法，通过对同构的数据集特征及标签的样本分布进行统计，对特征集合内的任意特征，计算该特征的每个类别值其正样本发生率、规范化发生率、漂移度、综合发生率，最后以漂移度为半径、综合发生率为偏角，将该特征的类别值集合映射称极坐标系中的点集，进而特征质量图。这种特征质量可视化方法能有效应用于有监督学习中典型的四个特征工程问题：特征评估、特征归因、特征选择和特征改进。本发明使得有监督机器学习模型面对同构数据集但数据分布有趋势性漂移时，能够克服训练集和测试集分布差异问题，进而可以进行有效的特征评估、特征归因和特征选择，甚至通过改善特征以提升模型效果。

Description

一种同构数据集特征质量可视化方法

技术领域

本发明涉及机器学习领域，尤其涉及一种同构数据集特征质量可视化方法。

背景技术

近年来，随着大数据行业的发展，很多行业都产生了海量数据，数据种类、数据规模和数据维度都在不断膨胀。为了从大量数据中发现知识和价值，机器学习算法在工业界的应用越来越广泛。除了数据样本不断膨胀，数据特征种类和维度也在迅猛增长，特征维度可以达到千万甚至更大。高维度的特征数据既带来存储和计算的问题，也会造成无法准确理解数据中的因果关系。海量的特征会给后续机器学习算法在可扩展性和效果方面带来一些问题，影响效果的主要原因有两个方面：1)大量特征与预测目标无关或相关程度较低，即特征相关度(FRS，Feature Relevance Score)较差；2)部分特征与预测目标相关程度较高，但其在训练集和测试集(或训练阶段和应用阶段)的分布差异显著，即特征稳定程度(FSL，Feature Stability Level)较差。因此对特征进行评估、选择和改进是很有必要的。

在监督学习领域，特征工程是非常重要的环节，而特征工程要解决的问题可以分为：特征评估、特征归因、特征选择和特征改进。传统的特征选择方法，对特征质量的评估往往只考虑了到特征相关度，例如特征与标签的互信息，而没有将特征稳定性和特征相关性作为一个二元指标进行量化研究或可视化分析。因此本发明既考虑特征相关度、同时兼顾特征稳定度，通过极坐标系将两者构成的指标二元组进行可视化。本发明的特征质量(FQ，Feature Quality)，具体指特征相关度和特征稳定度构成的二元组或者其所表达的特征对于特定预测模型的重要程度。

在同构数据集(即训练集和测试集是由同构的系统或机理生成的，大部分机器学习方法在解决实际应用问题时都默认这种假设)中，数据分布同样会发生漂移，即训练集和测试集不同分布，通常包括数据分布随时间或地点漂移了，或者取自高维度数据全集构成的张量空间中的不同区域。这类数据集的机器学习问题，同样需要对特征进行可视化研究。如果能利用同构数据集的同构性，则可以采用更精确的方式表达特征质量，进而更好的解决同构数据集机器学习的四个经典特征工程问题：特征评估、特征归因、特征选择、特征优化。

发明内容

本发明的目的是为了解决现有技术的不足，提供一种同构数据集的极坐标可视化的特征评估与特征选择方法，不仅可以增加对预测问题的直观理解、产生解释性强的特征评估报告，还可以根据特征评估报告进行特征选择和特征改进，以使后续的监督式机器学习模型面对同构数据集时仍可以克服特征不稳定性带来的不利影响，进行更有效的学习。本发明适用于下列情况：1)同构数据集假设下，数据本身随时间产生周期性或非周期性漂移的情况；2)同构数据集假设下，数据本身具有内生性波动，即本质随机性，表现在部分特征分布的方差较大的情况；3)同构数据集假设下，数据分布不变化，即训练集和测试集同分布的情况。

本发明的目的是通过以下技术方案实现的：

一种同构数据集特征质量可视化方法(Homogeneous Dataset Feature QualityVisualization，以下简称HoDFQV)，至少包括以下步骤：

步骤1，给定二分类有标签同构数据集，给定某特征f，构建特征的类别值集合V＝{v1，v2，...，vN}，将同构数据集按时间分成K个子集，记为D＝{d1，d2，。。。dK}；

步骤2，对同构数据集D中的每个数据子集d，计算其整体正样本发生率r(d)，计算公式为r(d)＝pos(d)/ins(d)，其中pos(d)、ins(d)分别表示数据子集d中正样本数和样本总数；

步骤3，对同构数据集D中的每个数据子集d，对类别值集合V中的每个类别值v，计算其正样本发生率r(v，d)，计算公式为r(v，d)＝pos(v，d)/ins(v，d)，其中pos(v，d)、ins(v，d)分别为数据子集d中包含类别值v的正样本数和样本总数；

步骤4，对同构数据集D中的每个数据子集d，对类别值集合V中每个类别值v，计算其的规范化发生率sr(v，d)，计算公式为：sr(v，d)＝r(v，d)/r(d)；其中r(v，d)为数据子集d上类别值v的正样本发生率，r(d)为数据子集d上的整体正样本发生率；

步骤5，对类别值集合V中每个类别值v，计算其综合发生率t(v)、漂移率s(v)，计算公式为：t(v)＝mean_over_d(sr(v，d))，其中mean_over_k表示在多个数据集上的规范化发生率求均值，即t(v)为对K个规范化发生率求均值；s(v)＝std_over_d(sr(v，d))+1，std_over_k表示在多个数据集上的规范化发生率求标准差，即s(v)为对K个规范化发生率求标准差并加1。

步骤6，对类别值集合V中每个类别值v，以综合发生率t(v)为偏角、以漂移度t(v)为半径，将特征类别值绘制于极坐标系中，即极坐标p(v)＝(t(v)，s(v))；

步骤7，在极坐标系中构造辅助圆，方法为构造单位标准圆，即辅助圆半径为1，圆心为原点，构成特征f在同构数据集D上的特征质量图，完成对特征f的可视化。

上述的一种同构数据集特征质量可视化方法，其中，所述步骤1中，“构建特征的类别值集合”的方法为：

步骤1.1，判断特征f是否为数值特征，若是，则将特征f采用公式int(log2(c))离散化成类别值，其中c为特征f的特征值，int表示取整，log2表示以2为底取对数，进而在给定数据集上可以得到类别值集合为V0；若不是，则执行步骤1.2；

步骤1.2，设置一阀值，将样本数量少于此阀值的类别值归为一个类别值中，将类别值集合为V0转化为特征类别值集合V。

上述的一种同构数据集特征质量可视化方法，其中，所述步骤1中，“将D按时间分成K个子集”的方法为：根据样本发生时间按时间周期分成K个子集，时间周期可以但不限于：每天、每周、每月。

上述的一种同构数据集特征质量可视化方法，其中，其特征评估流程(异构数据集特征可视化评估流程，Homogeneous Dataset Feature Evaluation Pipeline，以下简称HoDFEP)至少包括以下步骤：

步骤1，对同构数据集D，给定特征集合F，需要选择的特征数量N。

步骤2，计算特征集合F中每个特征在可视化过程中的各项指标数据，包括发生率、规范化发生率、漂移度、综合发生率，构成指标集M；并绘制特征集合F中的每个特征的特征质量图，构成图形集G。

步骤3，根据指标集M和图形集G，对特征集合F中的特征的稳定性和相关度进行评估，得到特征评估结论。

步骤4，根据指标集M和图形集G，判断预测模型的效果瓶颈是特征稳定度还是特征相关度，得到特征归因结论。

步骤5，根据指标集M和图形集G，从特征集合F中选择出来前N个质量好的特征，构成特征选择结果集。

步骤6，根据指标集M和图形集G，对特征集合中部分相关度好、类别值多但稳定性差的特征进行特征改进，采用将具有相近综合发生率的类别值进行聚类，使整体类别数量减少的同时，提高特征整体稳定性，形成特征改建议。

步骤7，综合特征评估结论、特征归因结论、特征选择结果集、特征改建议构成特征评估报告。

本发明可以根据特征质量图判断特征的整体漂移度和整体相关度，具体方法为：根据特征的类别值点集在图中的分布形状，判断该特征的整体质量，当点集分布角坐标方向越散时，特征相关度越好，当点集在轴坐标方向分布越接近标准圆时，特征稳定性越好。

特征类别值点集在特征质量中的分布形状模式一般有四种，可根据这四种模式判断该特征整体质量，请参见图3：

(1)近圆长弧模式，即点集基本上分布在圆周上或圆周附近，且在圆周角度方向分布较散，形状类似靠近圆周的一段长弧线，这种特征具有“强相关强稳定”的特征，特征质量最好，参见图3(左上图)；

(2)远圆长弧模式，即点集分布在轴向距离圆周较远，且在圆周角度方向分布较散，形状类似远离圆周的一段长弧线，这种特征具有“强相关弱稳定”的特征，特征质量一般，参见图3(右上图)；

(3)近圆短弧模式，即点集分布在轴向距离圆周较较近的区域内，且在圆周角度方向分布较集中，形状类似靠近圆周的一段短弧线，这种特征具有“弱相关强稳定”的特征，特征质量一般，参见图3(左下图)；

(4)远圆短弧模式，即点集分布在轴向距离圆周较远，且在圆周角度方向分布较集中，形状类似圆周外的一段短弧线，这种特征具有“弱相关弱稳定”的特征，特征质量最差，参见图3(右下图)。

本发明还可以通过每个特征类别值的极坐标半径和偏角来衡量每个类别值的漂移度和综合发生率，方法为：根据特征类别值点的位置判断，当点在圆周上时，表示特征发生率无漂移；当点在圆周外时，表示该特征类别值的发生率存在漂移，其距离圆周的轴向距离表示发生率方差大小，数据点不会出现在圆内；当点的偏角越大，其综合发生率越大。

综上所述，与现有技术相比，本发明有以下优点和有益效果：

1、本发明提出的特征极坐标可视化方法，首次将特征类别值进行可视化，以二维图形的方式可视化包含相关度和综合发生率两个维度的特征类别指标，将特征的类别值(数值特征需要离散化成类别值)映射成极坐标系中的点，进而根据点的轴向坐标分布判断特征类别值稳定度或漂移程度，通过点的角度坐标判断特征类别值的发生率相对于均值的高低水平。

2、本发明提出的特征极坐标可视化方法，首次将特征质量进行可视化，以二维图形的方式可视化包含相关度和稳定度两个维度的特征质量，将特征类别集合(或数值特征离散化形成的类别集合)映射成极坐标系中的点集，并提出“特征质量图四种模式判断准则”，进而根据点集的整体形状判断特征相关度、特征稳定度和特征质量。

3、本发明提出的特征极坐标可视化方法，首次将采用可视化方法对特征进行研究，包括基于特征质量图特征评估方法、基于特征质量图的特征归因方法、基于特征质量图特征选择方法、基于特征质量图特征改进方法。

4、本发明提出的特征极坐标可视化方法和极坐标可视化特征评估流程，一方面可以增加对预测问题的直观理解、产生解释性强的特征评估报告，加深对建模问题的理解深度，帮助人工特征选择和特征改进工作，另一方面根据特征评估报告进行特征选择和特征改进，以使后续的监督式机器学习模型面对同构数据集时(特指训练集和测试集分布有差异的数据集)仍可以克服特征不稳定性带来的不利影响，进行更有效的学习。

附图说明

图1是本发明一种同构数据集特征质量可视化方法的流程图。

图2是本发明实施例1的特征质量图。

图3是本发明的特征质量图分布的四种模式图。

具体实施方式

实施例1

表1

本实施例为某广告主转化率模型，同构数据集D为该客户的样本数据，标签为是否转化。本实例中，一种同构数据集特征质量可视化方法HoDFQV的步骤如下：

步骤1，给定同构数据集D，D为转化率样本集，给定特征f，f为dayofweek，即周几，构建特征的类别值集合V＝{1，2，3，4，5，6，7}，分别表示周一到周日，按周将同构数据集D分成K＝3个数据子集，即D＝{1，2，3}。

步骤2，对同构数据集D中的每个数据子集d，计算其整体正样本发生率r(d)，计算公式为r(d)＝pos(d)/ins(d)，其中pos(d)、ins(d)表示d中正样本数量、样本总数；d＝1时，r(1)＝767/8445＝0.0908；d＝2时，r(2)＝605/6479＝0.0934；d＝3时，r(3)＝656/7025＝0.0934；

步骤3，对同构数据集D中的每个数据子集d，对类别值集合V中每个类别值v，计算其正样本发生率r(v，d)，计算公式为r(v，d)＝pos(v，d)/ins(v，d)，其中pos(v，d)、ins(v，d)分别为d中包含fv的正样本数量和样本总数；

例如，d＝2，v＝1，求周一这个特征类别值在第二周的数据集上，其发生率为r(1，2)＝75/548＝0.1369，其他数据请参见表1的r(v，d)列。

步骤4，对同构数据集D中的每个数据子集d，对类别值集合V中每个类别值v，计算其的规范化发生率sr(v，d)，计算公式为：sr(v，d)＝r(v，d)/r(d)；

例如，d＝2，v＝1，则规范化发生率sr(1，2)＝r(1，2)/r(2)＝0.1369/0.0934＝1.4657，其他数据请参见表1的sr(v，d)列。

步骤5，对类别值集合V中每个类别值v，计算其综合发生率t(v)、漂移率s(v)，t(v)＝mean_over_d(sr(v，d))，即对K个规范化发生率求均值；s(v)＝std_over_d(sr(v，d))+1，即对K个规范化发生率求标准差并加1；

例如，v＝1，计算周一对应的综合发生率和漂移率，方法为：假设v在3个数据子集上的规范化发生率分别为：sr(1，d)＝{0.8019，1.4657，0.4507}，则t(1)＝mean(sr(1，d))＝(0.8019+1.4657+0.4507)/3＝0.9061，s(1)＝std(sr(1，d))+1＝0.4209+1＝1.4209，其他数据请参见表1的t(v)、s(v)列。

步骤6，对类别值集合V中每个类别值v，以综合发生率t(v)为偏角、以漂移度t(v)为半径，将特征类别值绘制于极坐标系中，即其的极坐标p(v)＝(t(v)，s(v))，v＝1时，请参见图2，其中，图2的P点是角度坐标t(v)最小的点，此时v＝7。

步骤7，构造辅助圆，方法为构造单位标准圆，进而构成特征f在数据集D上的特征质量图(Feature Quality Graph，下文简称FQG)，完成对特征f的可视化，请参见图2。

实施例2

本实施例为广告转化率模型，设数据集为某电商行业客户的样本数据，标签为是否转化。本实例中，同构数据集特征可视化评估流程HoDFEP的步骤如下：：

步骤1，给定同构数据集D，给定特征集合F，需要选择的特征数量N。特征集合F包括两个特征{hourofday，dayofweek}分别表示几点和星期几，需要选择特征数量为N＝1。

步骤2，分别计算特征hourofday和dayofweek的各项指标数据，包括类别值数量、发生率、规范化发生率、漂移度、综合发生率等，构成指标集M；绘制特征hourofday和dayofweek的特征质量图，构成图形集G。

步骤3，根据指标集M和图形集G对特征集F中的特征进行评估得到的特征评估结论为：特征hourofday稳定性较差、相关度较好；特征dayofweek稳定性较好、相关度较好。

步骤4，根据指标集M和图形集G，通过判断hourofday和dayofweek两个特征的特征质量图，发现应用这两个特证的预测模型的效果瓶颈主要是hourofday这个特征的稳定性不好，构成特征归因结论。

步骤5，根据指标集M和图形集G，选择出整体表现较好的前N＝1个特征为dayofweek，因为其稳定度和相关度都较好，构成特征选择结果集。

步骤6，根据指标集M和图形集G，针对表现不好的特征hourofday，通过对其进行聚类，例如按时段聚成以下几类：深夜时段MN{0-6}，早晨时段M{7-10}，中午时段N{11-14}，下午时段AN{15-18}，晚间时段E{19-23}；则新的特征类别值集合为{MN，M，N，AN，E}共5个值，构成特征改进建议。

1、本发明提出的特征极坐标可视化方法，首次将特征类别值进行可视化，以二维图形的方式可视化包含相关度和综合发生率两个维度的特征类别指标，将特征的类别值(数值特征需要离散化成类别值)映射成极坐标系中的点，进而根据点的轴向坐标分布判断特征类别值稳定度或漂移比，通过点的角度坐标判断特征发生率相对于均值的高低水平。

2、本发明提出的特征极坐标可视化方法，首次将特征质量进行可视化，以二维图形的方式可视化包含相关度和稳定度两个维度的特征质量，将特征类别集合(或数值特征离散化形成的类别集合)的每个类别影射成极坐标系中的点集，并提出特征质量图四种特征模式判断方法，进而根据点集的整体形状判断特征相关度、特征稳定度和特征质量。

4、本发明提出的特征极坐标可视化方法和极坐标可视化特征评估流程，一方面可以增加对预测问题的直观理解、产生解释性强的特征评估报告，加深对建模问题的理解深度，帮助人工特征选择和特征改进工作，另一方面根据特征评估报告进行特征选择和特征改进，以使后续的监督式机器学习模型面对同构数据集时，仍可以克服特征不稳定性带来的不利影响，进行更有效的学习。

以上所述的实施例仅用于说明本发明的技术思想及特点，其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施，不能仅以本实施例来限定本发明的专利范围，即凡依本发明所揭示的精神所作的同等变化或修饰，仍落在本发明的专利范围内。

Claims

1.一种同构数据集特征质量可视化方法，其特征在于，至少包括以下步骤：

步骤1，给定二分类有标签同构数据集，给定某特征f，构建特征的类别值集合V＝{v1，v2，…，vN}，将同构数据集按时间分成K个子集，记为D＝{d1，d2，。。。dK}；

步骤5，对类别值集合V中每个类别值v，计算其综合发生率t(v)、漂移率s(v)，计算公式为：t(v)＝mean_over_d(sr(v，d))，即对K个规范化发生率求均值；s(v)＝std_over_d(sr(v，d))+1，即对K个规范化发生率求标准差并加1；

步骤7，在极坐标系中构造辅助圆，辅助圆半径为1，圆心为原点，构成特征f在同构数据集D上的特征质量图。

2.根据权利要求1所述的一种同构数据集特征质量可视化方法，其特征在于，所述步骤1中，“构建特征的类别值集合V”的方法为：

3.根据权利要求1所述的一种同构数据集特征质量可视化方法，其特征在于，所述步骤1中，“将D按时间分成K个子集”的方法为：根据样本发生时间按时间周期分成K个子集，时间周期可以但不限于：每天、每周、每月。

4.根据权利要求1所述的一种同构数据集特征质量可视化方法，其特征在于，其特征评估方法至少包括以下步骤：