CN111090685B

CN111090685B - 一种数据异常特征的检测方法及装置

Info

Publication number: CN111090685B
Application number: CN201911318936.8A
Authority: CN
Inventors: 郑佳尔; 秦一焜
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2023-08-22
Anticipated expiration: 2039-12-19
Also published as: CN111090685A

Abstract

本发明公开了一种数据异常特征的检测方法及装置，涉及数据挖掘技术领域，主要目的在于提高数据异常特征检测的自动化程度。本发明主要的技术方案为：获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值；提取所述至少两个数据集中共有的特征变量；逐一分析所述特征变量在每个数据集中对应的变量值的分布状态；对比所述特征变量在不同数据集中分布状态的差异度；当所述差异度大于所述异常阈值时，将所述特征变量确定为异常特征；显示输出所确定的异常特征。

Description

一种数据异常特征的检测方法及装置

技术领域

本发明涉及数据挖掘技术领域，尤其涉及一种数据异常特征的检测方法及装置。

背景技术

数据探索分析在建模过程中有着非常重要的作用，特别是对数据中异常特征的识别，对于模型的效果有着重要影响。数据中的异常特征是指在数据中一些特征变量的取值分布在不同的数据集合中具有明显差异。而对于数据异常特征的分析，传统的分析方法是采用绝对值划分标准，即人工设定数据特征值的分布区间范围，通过区间值来识别数据特征是否异常，然而，这种方式仅限于对数据特征较少的数据集，在实际应用中，大量的数据往往具有几千维甚至上万维特征，难以通过人工对每个数据特征进行指标设置，并且，人工设定还存在因受到人为经验的影响而导致识别准确率低的问题。因此，对于含有海量数据特征的数据集，进行异常数据特征的自动化检测成为亟待解决的问题。

发明内容

鉴于上述问题，本发明提出了一种数据异常特征的检测方法及装置，主要目的在于提高数据异常特征检测的自动化程度。

为达到上述目的，本发明主要提供如下技术方案：

一方面，本发明提供一种数据异常特征的检测方法，具体包括：

获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值；

提取所述至少两个数据集中共有的特征变量；

逐一分析所述特征变量在每个数据集中对应的变量值的分布状态；

对比所述特征变量在不同数据集中分布状态的差异度；

当所述差异度大于所述异常阈值时，将所述特征变量确定为异常特征；

显示输出所确定的异常特征。

可选地，对比所述特征变量在不同数据集中分布状态的差异度，包括：

在多个数据集中，对比所述特征变量在两两数据集中分布状态的差异度，选择最大的差异度为所述特征变量对应的差异度。

可选地，所述配置信息还包括对数据集中特征变量的属性值，所述属性值用于定义所述特征变量对应的变量值的分布规律，包括连续分布和离散分布；

所述对比所述特征变量在两两数据集中分布状态的差异度，包括：

利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。

可选地，所述属性值为离散分布时，确定所述特征变量为离散值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，包括：

确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量；

根据所述数量确定每种取值在对应数据集中数量占比，得到第一数据集对应的第一占比以及第二数据集对应的第二占比；

计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值，将所述比值确定为差异度。

可选地，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，包括：

根据所述连续值变量在第一数据集中的第一取值以及第一数量，计算所述连续值变量取值的第一平均值以及第一标准差；

利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值，得到转换值，所述转换值为第二取值与第一平均值之差除以第一标准差得到的比值；

根据所述连续值变量在第二数据集中的所述转换值以及第二数量，计算所述连续值变量取值的第二平均值以及第二标准差，将所述第二平均值以及第二标准差分别确定为差异度。

可选地，所述异常阈值包括平均值阈值与标准差阈值；

所述将所述特征变量确定为异常特征，包括：

判断所述第二平均值是否大于所述平均值阈值；

若大于平均值阈值，则确定所述特征变量为异常特征，若小于，则判断所述第二标准差是否大于所述标准差阈值；

若大于标准差阈值，则确定所述特征变量为异常特征，若小于，则确定所述特征变量正常。

可选地，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，还包括：

根据所述连续值变量在第一数据集中的第一取值以及预设分位数，确定分为数对应的取值，得到多个取值区间；

计算在所述第二数据集中取值落入各个取值区间的数量占总数量的占比值；

利用各个取值区间的占比值确定所述连续值变量的差异度。

可选地，利用各个取值区间的占比值确定所述连续值变量的差异度，包括：

根据所述取值区间的个数对所述各个取值区间的占比值进行归一化处理，得到各个取值区间对应的对比值；

将所述各个取值区间对应的对比值的平均值确定为所述差异度。

根据第一数据集中连续值变量取值的最大值与最小值，确定取值区间；

根据预设区间数将所述取值区间进行等分，并对每个取值区间标记区间号；

将第一数据集与第二数据集中连续值变量的取值按照所对应的取值区间转化为区间号；

根据所述区间号的数量确定每一个取值区间的数量占比，分别得到第一数据集对应的第一占比以及第二数据集对应的第二占比；

可选地，所述配置信息中还包括所述至少两个数据集的存储路径信息；

该方法在所述提取所述至少两个数据集中共有的特征变量的步骤之前，还包括根据所述至少两个数据集的存储路径信息获取所述至少两个数据集的步骤。

可选地，所述方法还包括：

创建异常特征集合；

若从所述数据集中检测出异常特征，则将所述异常特征加入所述特征集合；

所述显示输出所确定的异常特征包括：在完成对所述数据集中含有的特征变量检测后，根据所述异常特征集合中含有的异常特征以及对应的差异度生成异常特征报告，显示输出所述异常特征报告。

可选地，获取用户通过配置界面输入的配置信息包括：由服务器从终端设备接收用户通过终端设备侧的配置界面输入的配置信息；

由服务器执行所述提取所述至少两个数据集中共有的特征变量，逐一分析所述特征变量在每个数据集中对应的变量值的分布状态，对比所述特征变量在不同数据集中分布状态的差异度，以及当所述差异度大于所述异常阈值时，将所述特征变量确定为异常特征的步骤。

所述显示输出所确定的异常特征包括：由服务器向终端设备发送所确定的异常特征，并由终端设备显示输出所确定的异常特征。

另一方面，本发明提供一种数据异常特征的检测装置，具体包括：

获取单元，用于获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值；

提取单元，用于提取所述至少两个数据集中共有的特征变量；

分析单元，用于逐一分析所述特征变量在每个数据集中对应的变量值的分布状态；

对比单元，用于对比所述特征变量在不同数据集中分布状态的差异度；

确定单元，用于当所述对比单元得到的差异度大于所述异常阈值时，将所述特征变量确定为异常特征；

显示单元，用于显示输出所确定的异常特征。

可选地，所述对比单元还用于，在多个数据集中，对比所述特征变量在两两数据集中分布状态的差异度，选择最大的差异度为所述特征变量对应的差异度。

所述对比单元还用于，利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。

可选地，所述属性值为离散分布时，确定所述特征变量为离散值变量，所述对比单元包括：

第一确定模块，用于确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量；

第一计算模块，用于根据所述数量确定每种取值在对应数据集中数量占比，得到第一数据集对应的第一占比以及第二数据集对应的第二占比；计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值，将所述比值确定为差异度。

可选地，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元包括：

第二确定模块，用于根据所述连续值变量在第一数据集中的第一取值以及第一数量，计算所述连续值变量取值的第一平均值以及第一标准差；利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值，得到转换值，所述转换值为第二取值与第一平均值之差除以第一标准差得到的比值；

第二计算模块，用于根据所述连续值变量在第二数据集中的所述转换值以及第二数量，计算所述连续值变量取值的第二平均值以及第二标准差，将所述第二平均值以及第二标准差分别确定为差异度。

可选地，所述异常阈值包括平均值阈值与标准差阈值；

所述确定单元还用于：

判断所述第二平均值是否大于所述平均值阈值；

可选地，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元还包括：

第三确定模块，用于根据所述连续值变量在第一数据集中的第一取值以及预设分位数，确定分为数对应的取值，得到多个取值区间；

第三计算模块，用于计算在所述第二数据集中取值落入各个取值区间的数量占总数量的占比值；利用各个取值区间的占比值确定所述连续值变量的差异度。

可选地，所述第三计算模块还用于：根据所述取值区间的个数对所述各个取值区间的占比值进行归一化处理，得到各个取值区间对应的对比值；将所述各个取值区间对应的对比值的平均值确定为所述差异度。

第四确定模块，用于根据第一数据集中连续值变量取值的最大值与最小值，确定取值区间；

第四计算模块，用于根据预设区间数将所述取值区间进行等分，并对每个取值区间标记区间号；将第一数据集与第二数据集中连续值变量的取值按照所对应的取值区间转化为区间号；根据所述区间号的数量确定每一个取值区间的数量占比，分别得到第一数据集对应的第一占比以及第二数据集对应的第二占比；计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值，将所述比值确定为差异度。

可选地，所述配置信息中还包括所述至少两个数据集的存储路径信息；在所述提取单元提取所述至少两个数据集中共有的特征变量的步骤之前，所述获取单元还用于，根据所述至少两个数据集的存储路径信息获取所述至少两个数据集。

可选地，所述装置还包括：

创建单元，用于创建异常特征集合；

添加单元，用于若确定单元从所述数据集中检测出异常特征，则将所述异常特征加入所述特征集合；

所述显示单元还用于：在完成对所述数据集中含有的特征变量检测后，根据所述异常特征集合中含有的异常特征以及对应的差异度生成异常特征报告，显示输出所述异常特征报告。

可选地，所述装置设置在服务器中；

由服务器从终端设备接收用户通过终端设备侧的配置界面输入的配置信息；

由服务器向终端设备发送所确定的异常特征，并由终端设备显示输出所确定的异常特征。

另一方面，本发明提供一种存储介质，所述存储介质用于存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的数据异常特征的检测方法。

另一方面，本发明提供一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的数据异常特征的检测方法。

借由上述技术方案，本发明提供的一种数据异常特征的检测方法及装置，在对数据集中的数据特征进行数据异常检测时，用户通过配置界面输入指定的异常阈值，通过对多个数据集中的共有的特征变量的识别与提取，分析每个特征变量所对应的取值在每个数据集中分布状态，利用异常阈值对比特征变量在不同数据集中分布状态的差异度，以此来衡量特征变量是否为异常特征，并将异常特征输出显示给用户。相对于现有的人工设定指标的检测方式，本发明中用户所配置的异常阈值并不是针对特征变量的取值，而是该特征变量在多个数据集中取值的分布状态差异度，如此，用户可以不用了解每个特征变量的具体取值范围，就可以确定一个异常阈值，并且可以根据应用场景的需求自由调节特征变量的异常阈值，还可以让用户可以针对批量的特征变量设置统一的异常阈值，提高了数据异常特征检测的自动化程度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提出的一种数据异常特征的检测方法的流程图；

图2示出了本发明实施例提出的另一种数据异常特征的检测方法的流程图；

图3示出了本发明实施例提出的一种配置界面的示意图；

图4示出了本发明实施例提出的一种报告界面的示意图；

图5示出了本发明实施例提出的一种数据异常特征的检测装置的组成框图；

图6示出了本发明实施例提出的另一种数据异常特征的检测装置的组成框图；

图7示出了本发明实施例提出的服务器与终端设备的检测交互流程示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种数据异常特征的检测方法，该方法应用于对具有海量数据特征的数据进行异常检测。本方法具体步骤如图1所示，包括：

101、获取用户通过配置界面输入的配置信息。

其中，该配置信息中包括关于至少两个数据集的异常阈值。数据集是用于记录多个特征变量与其对应取值的集合。数据表是数据集常见的一种表现形式，或则是数据集中的一个组成单元。配置信息是用户根据检测需要对一些特征变量进行检测所需要指定的参数或数据信息，例如，指定待检测的特征变量，判定特征变量异常的异常阈值等。

需要说明的是，本步骤的异常阈值为特征变量存在异常的比率阈值，即用户在配置该异常阈值时，不需要知道该特征变量的具体取值范围，而是根据应用场景的需求设定特征变量所对应的取值中存在异常情况的占比即可。也就是说，用户所配置的异常阈值为概率值，而非实际取值，如此，就可以降低用户配置的难度，并且，在异常阈值以占比形式表示时，用户还可以对批量的特征变量进行配置，从而简化了用户的配置操作。当然，在用户不设置指定的特征变量时，本发明则是对数据集中所有的特征变量进行检测，而配置中的异常阈值也就适用于数据集中所有的特征变量。

此外，由于本步骤中所获取的异常阈值为比率，其需要通过对比多个数据集中的相同特征变量的变量值，因此，该配置信息还需要指定所针对的数据集，并且，数据集的数量至少为两个或两个以上。

102、提取至少两个数据集中共有的特征变量。

根据上一步骤的说明，本发明所检测的特征变量需要在多个数据集中存在，因此，若特征变量仅出现在一个数据集中，则该特征变量不在本发明的检测范围内。

需要说明的是，本步骤中的特征变量是指具有相同变量标识的特征变量，即在不同数据集中特征变量的名称可能不同，但其变量标识相同则确定该特征变量为同一特征变量，其在不同数据集中对应的变量值就可以用于后续的检测步骤。

103、逐一分析特征变量在每个数据集中对应的变量值的分布状态。

其中，变量值的分布状态是指该变量值在数据集中的出现概率。常见的分布状态如正态分布、平均分布、二项分布、指数分布等。本步骤就是利用数据集中各变量值的出现次数分析拟合特征变量所对应的分布状态。

104、对比特征变量在不同数据集中分布状态的差异度。

其中，差异度是用于衡量特征变量中的某一个变量值在不同数据集中分布状态的差异占比，即衡量特征变量在不同数据集中对应变量值离散程度的差异。差异度越大，说明该特征变量在不同数据集的变量值的变化越明显，存在异常的可能性越高。因此，就可以利用该差异度与异常阈值进行比较来确定该特征变量是否为异常特征，即步骤105的操作。

105、当差异度大于异常阈值时，将特征变量确定为异常特征。

在实际应用中，异常阈值可以是用户设置的一个比值，如20％、30％等，也可以是一个区间范围，如[0.2-0.3]，对此，大于异常阈值可以定义为大于该区间范围的上限值，也可以定义为大于该区间范围的下限值，对此本步骤不做具体限定。

106、显示输出所确定的异常特征。

在确定异常特征后，将所有的异常特征输出显示，具体显示不限定通过表格、图形等形式。

结合上述图1所示实施例的步骤可知，本发明所提出的数据异常特征的检测方法，是针对多个数据集中共有的特征变量进行自动化检测，用户进需要通过配置界面输入指定的配置信息即可，而在检测过程中，通过利用同一个特征变量在不同数据集中变量值的分布状态，来分析特征变量在多个数据集中的分布差异，以此来分析特征变量取值的稳定性，即判定该特征变量的异常状态。可见，本发明中在确定数据异常特征时，并不非仅根据特征变量的实际取值，而是根据特征变量在多个数据集中变量值的分布状态来确定，将判定指标以差异度的形式体现，如此，用户在设置配置信息时，就可以根据场景需要直接配置异常占比阈值，而不用知道特征变量的具体取值区间，降低了对用户操作的难度，也提升了检测的自动化程度。

进一步的，根据图1所示的实施例，本发明的一个具体应用场景是将上述的数据异常特征的检测方法应用于系统服务器中，以便对系统中的海量数据以及数据集进行检测。其具体执行的步骤如图2所示，包括：

201、从终端设备接收用户通过终端设备侧的配置界面输入的配置信息。

其中，用户通过终端设备侧的配置界面输入的配置信息中，还包括至少两个数据集的存储路径信息。如此，服务器根据该存储路径信息就可以确定数据集，并获取数据集中的特征变量以及对应的变量值。

202、提取至少两个数据集中共有的特征变量。

203、逐一分析特征变量在每个数据集中对应的变量值的分布状态。

204、对比特征变量在不同数据集中分布状态的差异度。

具体的，当数据集大于2个，并且同一个特征变量出现在2个以上的数据集中时，本步骤将对比该特征变量在两两数据集中分布状态的差异度，选择最大的差异度为该特征变量对应的差异度。

205、当差异度大于异常阈值时，将特征变量确定为异常特征。

以上步骤202-205的内容与图1所示实施例中的步骤102-105的内容相同，此处不再赘述。

206、创建异常特征集合，将异常特征加入特征集合。

207、向终端设备发送所确定的异常特征，并由终端设备显示输出所确定的异常特征。

其中，向终端设备发送的异常特征为特征集合，该特征集合可以具体表现为图形、列表等，或者是多种元素构成的异常特征报告。

异常特征报告是在完成对数据集中含有的特征变量检测后，根据异常特征集合中含有的异常特征以及对应的差异度生成异常特征报告，通过显示输出该异常特征报告，可以让终端设备的用户更加直观地读取相关的异常数据信息。

进一步的，针对上述图2所示的实施例，本发明的优选实施方式中，用户还可以在配置界面输入的配置信息中指定数据集内特征变量的属性值，该属性值用于定义特征变量对应的变量值的分布规律，具体可包括连续分布和离散分布。

而针对不同的分布规律，本发明针对上述步骤204，在对比特征变量在两两数据集中分布状态的差异度时，其优选的方式为：利用与特征变量的属性值所对应的预设对比算法计算特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。其中，预设对比算法是针对于连续分布与离散分布而设置的不同的计算差异度的方式。也就是说，根据用户在配置信息中针对特征变量所指定的分布规律，服务器将调用不同的对比算法计算差异度。

以下将分别针对不同分布规律并结合实例，分别说明差异度的几种计算方式：

第一种，当属性值为离散分布时，确定特征变量为离散值变量，差异度的计算方法为：

首先，确定离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量。

其次，根据数量确定每种取值在对应数据集中数量占比，得到第一数据集对应的第一占比以及第二数据集对应的第二占比。

最后，计算第一占比与第二占比之差的绝对值与第一占比与第二占比之和的比值，将该比值确定为差异度。

例如，在模型训练的应用场景中，第一数据集为训练集，第二数据集为验证集，离散值变量为集合中样本的属性，如学生数据中，每个学生的数据为一个样本，而每个学生的数据中具有性别属于离散值变量，其对应的取值种类为男或女，假设训练集中的性别占比(第一占比，tra_col_k_cate_m)可分为：男生(tra_col_k_cate_男)为0.8，女生(tra_col_k_cate_女)为0.2，代表男性占比80％，女性占比20％，对应地验证集中的性别占比(第二占比，vld_col_k_cate_m)则为tra_col_k_cate_男＝0.1，tra_col_k_cate_女＝0.9，在计算差异度时，利用以下公式计算：

差异度(diff_col_k_cate_m)的具体值又可分为：

diff_col_k_cate_男＝|0.8-0.1|/(0.8+0.1)＝0.78，diff_col_k_cate_女＝0.63。

若此时的差异阈值为0.2，可知，性别占比的值远大于差异阈值，其中的男性性别占比与女性性别占比都是异常特征，即性别为异常特征。用户可根据所输出的结果对该性别特征进行人工核查。

第二种，当属性值为连续分布时，确定特征变量为连续值变量，差异度的计算方法可以为：

首先，根据连续值变量在第一数据集中的第一取值以及第一数量，计算该连续值变量取值的第一平均值以及第一标准差。

其次，利用第一平均值以及第一标准差转换该连续值变量在第二数据集中的第二取值，得到转换值。该转换值为第二取值与第一平均值之差除以第一标准差得到的比值。

最后，根据连续值变量在第二数据集中的转换值以及第二数量，计算该连续值变量取值的第二平均值以及第二标准差，将第二平均值以及第二标准差分别确定为差异度。

例如，在金融领域应用的模型训练场景中，第一数据集为训练集，第二数据集为验证集，假设连续值变量为交易时间距离开卡时间天数，在训练集中计算第一平均值(tra_avg_col_k)＝200以及第一标准差(tra_std_col_k)＝100，之后，在验证集中对连续值变量进行转换，生成转换值(vld_col_k_new)，该转换值为第二取值(vld_col_k)与第一平均值之差除以第一标准差得到的比值，即vld_col_k_new＝(vld_col_k–200)/100。最后，根据新计算得到的vld_col_k_new计算验证集中的第二平均值(vg_col_k_new)以及第二标准差(std_col_k_new)。

在采用上述方式时，由于差异度是由两个数值表示的，即第二平均值以及第二标准差，因此，需要用户在设置配置信息时，将异常阈值设置为平均值阈值与标准差阈值。进一步的，在将特征变量确定为异常特征时，需要可以先判断第二平均值是否大于平均值阈值，若大于，则确定该特征变量为异常特征，若小于，则继续判断该第二标准差是否大于标准差阈值，若大于标准差阈值，则确定该特征变量为异常特征，若小于，则确定该特征变量正常。也就是说，当第二平均值以及第二标准差中任意一个大于对应设置的平均值阈值与标准差阈值时，就确定该特征变量为异常特征，将其加入所创建的异常特征集合。需要说明的是，本实施例中对于判断方式不做具体限定，比如，根据需求，其也可以是在第二平均值以及第二标准差全部大于对应设置的平均值阈值与标准差阈值时，才确定该特征变量为异常特征。

该方式也可称为二次标准化，即根据第一数据集的第一标准化值对第二数据集中的数据进行转换，根据转换后的值确定第二数据集中的第二标准化值，以此作为异常差异度，该方式适用于发现偏差较大的分布异常，如默认值从0改为10000等。

第三种，当属性值为连续分布时，确定特征变量为连续值变量，差异度的计算方法还可以为：

首先，根据连续值变量在第一数据集中的第一取值以及预设分位数，确定分为数对应的取值，得到多个取值区间。

其次，计算在第二数据集中取值落入各个取值区间的数量占总数量的占比值。

最后，利用各个取值区间的占比值确定该连续值变量的差异度。具体的，可以根据取值区间的个数对各个取值区间的占比值进行归一化处理，得到各个取值区间对应的对比值，再将各个取值区间对应的对比值的平均值确定为差异度。

例如，在模型训练的应用场景中，第一数据集为训练集，第二数据集为验证集，连续值变量为集合中样本的属性，如用户年龄。假设tra_col_k为用户年龄，计算年龄的四分位数，根据年龄统计结果，在训练集中：最小值为13，25％分位数为24，中位数为43，75％分位数为63，最大值为99，对应的年龄区间为13～24、24～43、43～63、63～99，之后，在验证集中统计落在这四个区间的用户数占比为0.16、0.26、0.34和0.24，最后，利用归一化处理的公式计算差异度，公式如下：

其中，diff_col_k_bin_rate为差异度，vld_col_k_bin_i为验证集中落入第i个分位数所在区间的用户数占比，m为分位数。

根据上述公式以及统计结果计算：

diff_col_k_bin_rate＝(|0.16-0.25|/(0.16+0.25)+|0.26-0.25|/(0.26+0.25)+|0.34-0.25|/(0.34+0.25)+|0.24-0.25|/(0.24+0.25))/4＝0.412/4＝0.137

若异常阈值为0.2，可知，用户年龄的差异度小于异常阈值，其为正常特征。

第四种，当属性值为连续分布时，确定特征变量为连续值变量，差异度的计算方法还可以为：

首先，根据第一数据集中连续值变量取值的最大值与最小值，确定取值区间。

其次，根据预设区间数将取值区间进行等分，并对每个取值区间标记区间号。

第三，将第一数据集与第二数据集中连续值变量的取值按照所对应的取值区间转化为区间号。

第四，根据区间号的数量确定每一个取值区间的数量占比，分别得到第一数据集对应的第一占比以及第二数据集对应的第二占比；

例如，在模型训练的应用场景中，第一数据集为训练集，第二数据集为验证集，连续值变量为集合中样本的属性，如用户年龄。统计出训练集中年龄的最大值和最小值，确定一个区间，将该区间等分为多个区间，如最大值为100，最小值为0，将[0,100]化分成10份，则每个区间长度为10，将每个区间标记区间号，假设区间号为1-10，对应10等分的区间，若用户年龄为：22、33、44、25、8、55，对应转换后的值(区间号)为：3、4、5、3、1、6，之后的计算过程与上述第一种离散值变量的方式相同，此处不再赘述。

可见本方式是将连续值转换为离散值，再利用第一种方式对其进行计算，从而得到差异度。因此，也可以将该方式称为连续转离散计算，该方式能够发现明显有较大界限的数据分布差异情况，如默认值填充从0改成-1。

通过上述四种计算差异度的方式可见，对于连续值变量的处理由多种方式，而在具体应用过程中，可以将这多种处理连续值变量的方式都应用于某一特征变量上，计算出的差异度若存在大于异常阈值的，就确定该特征变量为异常特征。

进一步的，根据上述说明，本发明实施例还提供一种配置界面，用于用户输入配置信息，具体如图3所示，在该界面中，用户可以具体输入阈值参数，即异常阈值，分为连续值与离散值，其具体对应于上述实例中所提出的对应于各种计算方式中差异度的异常阈值。此外，在界面中，用户还可以输入数据集的路径，并指定特征变量所对应的属性值，即连续值或离散值。

需要说明的是，该配置界面可以应用于终端设备，供用户输入，也可以设置在服务器，供管理员输入。

进一步的，如图4所示，本发明实施例还提供一种报告界面，该界面用于显示所确定的异常特征，在该报告中包括特征变量，以及对应的差异度、异常阈值等信息。

进一步的，作为对上述数据异常特征的检测方法的实现，本发明实施例提供了一种数据异常特征的检测装置，该装置主要用于提高数据异常特征检测的自动化程度。为便于阅读，本装置实施例不再对前述方法实施例中的细节内容进行逐一赘述，但应当明确，本实施例中的装置能够对应实现前述方法实施例中的全部内容。该装置如图5所示，具体包括：

获取单元31，用于获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值；

提取单元32，用于提取所述至少两个数据集中共有的特征变量；其中，至少两个数据集是基于所述获取单元31获取的配置信息所指定的数据集。

分析单元33，用于逐一分析所述提取单元32提取的特征变量在每个数据集中对应的变量值的分布状态；

对比单元34，用于对比分析单元33得到的所述特征变量在不同数据集中分布状态的差异度；

确定单元35，用于当所述对比单元34得到的差异度大于所述异常阈值时，将所述特征变量确定为异常特征；

显示单元36，用于显示输出所述确定单元35确定的异常特征。

进一步的，所述对比单元34还用于，在多个数据集中，对比所述特征变量在两两数据集中分布状态的差异度，选择最大的差异度为所述特征变量对应的差异度。

进一步的，所述配置信息还包括对数据集中特征变量的属性值，所述属性值用于定义所述特征变量对应的变量值的分布规律，包括连续分布和离散分布；

所述对比单元34还用于，利用与所述特征变量的属性值对应的预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度。

进一步的，如图6所示，所述属性值为离散分布时，确定所述特征变量为离散值变量，所述对比单元34包括：

第一确定模块341，用于确定所述离散值变量对应的取值种类以及每种取值在对应数据集中具有的数量；

第一计算模块342，用于根据所述数量确定每种取值在对应数据集中数量占比，得到第一数据集对应的第一占比以及第二数据集对应的第二占比；计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值，将所述比值确定为差异度。

进一步的，如图6所示，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元34包括：

第二确定模块343，用于根据所述连续值变量在第一数据集中的第一取值以及第一数量，计算所述连续值变量取值的第一平均值以及第一标准差；利用所述第一平均值以及第一标准差转换所述连续值变量在第二数据集中的第二取值，得到转换值，所述转换值为第二取值与第一平均值之差除以第一标准差得到的比值；

第二计算模块344，用于根据所述连续值变量在第二数据集中的所述转换值以及第二数量，计算所述连续值变量取值的第二平均值以及第二标准差，将所述第二平均值以及第二标准差分别确定为差异度。

进一步的，所述异常阈值包括平均值阈值与标准差阈值；

所述确定单元35还用于：

判断所述第二平均值是否大于所述平均值阈值；

进一步的，如图6所示，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元34还包括：

第三确定模块345，用于根据所述连续值变量在第一数据集中的第一取值以及预设分位数，确定分为数对应的取值，得到多个取值区间；

第三计算模块346，用于计算在所述第二数据集中取值落入各个取值区间的数量占总数量的占比值；利用各个取值区间的占比值确定所述连续值变量的差异度。

进一步的，所述第三计算模块346还用于：根据所述取值区间的个数对所述各个取值区间的占比值进行归一化处理，得到各个取值区间对应的对比值；将所述各个取值区间对应的对比值的平均值确定为所述差异度。

第四确定模块347，用于根据第一数据集中连续值变量取值的最大值与最小值，确定取值区间；

第四计算模块348，用于根据预设区间数将所述取值区间进行等分，并对每个取值区间标记区间号；将第一数据集与第二数据集中连续值变量的取值按照所对应的取值区间转化为区间号；根据所述区间号的数量确定每一个取值区间的数量占比，分别得到第一数据集对应的第一占比以及第二数据集对应的第二占比；计算所述第一占比与第二占比之差的绝对值与所述第一占比与第二占比之和的比值，将所述比值确定为差异度。

进一步的，所述配置信息中还包括所述至少两个数据集的存储路径信息；在所述提取单元32提取所述至少两个数据集中共有的特征变量的步骤之前，所述获取单元31还用于，根据所述至少两个数据集的存储路径信息获取所述至少两个数据集。

进一步的，如图6所示，所述装置还包括：

创建单元37，用于创建异常特征集合；

添加单元38，用于若确定单元35从所述数据集中检测出异常特征，则将所述异常特征加入所述特征集合；

所述显示单元36还用于：在完成对所述数据集中含有的特征变量检测后，根据所述异常特征集合中含有的异常特征以及对应的差异度生成异常特征报告，显示输出所述异常特征报告。

进一步的，在本发明的优选实施例中，所述装置设置在服务器中，本发送提供的一种数据异常特征的检测方法应用于包括服务器与终端设备的系统中，在该系统中，服务器与终端设备的交互过程如图7所示，其具体流程如下：

进一步的，本发明实施例还提供了一种存储介质，该存储介质用于存储的计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行上述的数据异常特征的检测方法。

另外，本发明实施例还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述的数据异常特征的检测方法。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

可以理解的是，上述方法及装置中的相关特征可以相互参考。另外，上述实施例中的“第一”、“第二”等是用于区分各实施例，而并不代表各实施例的优劣。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

此外，存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种数据异常特征的检测方法，其中，所述方法应用于系统服务器，所述方法包括：

获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值，所述配置信息是用户根据检测需要对特征变量进行检测所需要指定的参数或数据信息；

提取所述至少两个数据集中共有的特征变量；

对比所述特征变量在不同数据集中分布状态的差异度；

显示输出所确定的异常特征。

2.根据权利要求1所述的方法，其中，对比所述特征变量在不同数据集中分布状态的差异度，包括：

3.根据权利要求2所述的方法，其中，所述配置信息还包括对数据集中特征变量的属性值，所述属性值用于定义所述特征变量对应的变量值的分布规律，包括连续分布和离散分布；

4.根据权利要求3所述的方法，其中，所述属性值为离散分布时，确定所述特征变量为离散值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，包括：

5.根据权利要求3所述的方法，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，包括：

6.根据权利要求5所述的方法，其中，所述异常阈值包括平均值阈值与标准差阈值；

所述将所述特征变量确定为异常特征，包括：

判断所述第二平均值是否大于所述平均值阈值；

7.根据权利要求3所述的方法，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，还包括：

利用各个取值区间的占比值确定所述连续值变量的差异度。

8.根据权利要求7所述的方法，其中，利用各个取值区间的占比值确定所述连续值变量的差异度，包括：

9.根据权利要求3所述的方法，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述利用预设的对比算法计算所述特征变量在第一数据集中的第一分布状态与在第二数据集中的第二分布状态的差异度，还包括：

10.根据权利要求1所述的方法，其中，所述配置信息中还包括所述至少两个数据集的存储路径信息；

11.根据权利要求1所述的方法，其中，所述方法还包括：

创建异常特征集合；

12.根据权利要求1-11中任一项所述的方法，其中，

获取用户通过配置界面输入的配置信息包括：由服务器从终端设备接收用户通过终端设备侧的配置界面输入的配置信息；

由服务器执行所述提取所述至少两个数据集中共有的特征变量，逐一分析所述特征变量在每个数据集中对应的变量值的分布状态，对比所述特征变量在不同数据集中分布状态的差异度，以及当所述差异度大于所述异常阈值时，将所述特征变量确定为异常特征的步骤；

13.一种数据异常特征的检测装置，其中，所述装置应用于系统服务器，所述装置包括：

获取单元，用于获取用户通过配置界面输入的配置信息，所述配置信息中包括关于至少两个数据集的异常阈值，所述配置信息是用户根据检测需要对特征变量进行检测所需要指定的参数或数据信息；

显示单元，用于显示输出所确定的异常特征。

14.根据权利要求13所述的装置，其中，所述对比单元还用于，在多个数据集中，对比所述特征变量在两两数据集中分布状态的差异度，选择最大的差异度为所述特征变量对应的差异度。

15.根据权利要求14所述的装置，其中，所述配置信息还包括对数据集中特征变量的属性值，所述属性值用于定义所述特征变量对应的变量值的分布规律，包括连续分布和离散分布；

16.根据权利要求15所述的装置，其中，所述属性值为离散分布时，确定所述特征变量为离散值变量，所述对比单元包括：

17.根据权利要求15所述的装置，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元包括：

18.根据权利要求17所述的装置，其中，所述异常阈值包括平均值阈值与标准差阈值；

所述确定单元还用于：

判断所述第二平均值是否大于所述平均值阈值；

19.根据权利要求15所述的装置，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元还包括：

20.根据权利要求19所述的装置，其中，所述第三计算模块还用于：根据所述取值区间的个数对所述各个取值区间的占比值进行归一化处理，得到各个取值区间对应的对比值；将所述各个取值区间对应的对比值的平均值确定为所述差异度。

21.根据权利要求15所述的装置，其中，所述属性值为连续分布时，确定所述特征变量为连续值变量，所述对比单元还包括：

22.根据权利要求13所述的装置，其中，所述配置信息中还包括所述至少两个数据集的存储路径信息；在所述提取单元提取所述至少两个数据集中共有的特征变量的步骤之前，所述获取单元还用于，根据所述至少两个数据集的存储路径信息获取所述至少两个数据集。

23.根据权利要求13所述的装置，其中，所述装置还包括：

创建单元，用于创建异常特征集合；

24.根据权利要求13-23中任一项所述的装置，其中，所述装置设置在服务器中；

25.一种存储介质，其中，所述存储介质用于存储计算机程序，其中，所述计算机程序运行时控制所述存储介质所在设备执行权利要求1-12中任意一项所述的数据异常特征的检测方法。

26.一种处理器，其中，所述处理器用于运行计算机程序，其中，所述计算机程序运行时执行权利要求1-12中任意一项所述的数据异常特征的检测方法。