CN104091073A

CN104091073A - 虚拟资产不平衡交易数据的采样方法

Info

Publication number: CN104091073A
Application number: CN201410329242.5A
Authority: CN
Inventors: 李虎; 贾焰; 韩伟红; 周斌; 杨树强; 李爱平; 黄九鸣; 李树栋; 刘�东; 全拥; 邓璐; 姬炳帅
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2014-07-11
Filing date: 2014-07-11
Publication date: 2014-10-08

Abstract

本发明公开一种虚拟资产不平衡交易数据的采样方法，包括以下步骤：将虚拟资产交易中的异常交易数据定义为少数类，对少数类样本采用改进的SMOTE方法进行过采样，从而增加其样本数量；将虚拟资产交易中的正常交易数据定义为多数类，对多数类样本采用基于距离的DUS方法进行欠采样，以减少其样本数量；通过设置比例因子来调节过采样和欠采样采样数目的比例；将本发明的不平衡交易数据的采样方法应用到虚拟资产异常交易检测当中，可大大降低异常交易检测的计算量，同时能达到很高的准确率。

Description

虚拟资产不平衡交易数据的采样方法

技术领域

本技术属于网络与信息安全领域，涉及一种虚拟资产不平衡交易数据的采样方法。

背景技术

互联网的迅猛发展催生了电子商务的繁荣，其中虚拟资产交易的增长尤为迅速。

目前，我国已经开展了基于eID的网域空间虚拟资产管理与保全技术研究，实现对虚拟资产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产的各种操作，但如何从这些记录数据中间挖掘出异常的交易行为仍然面临诸多挑战。针对网络虚拟资产交易信息规模巨大，增长速度非常快的特点，自动地从海量的虚拟资产交易信息中发现以及预测异常行为，从而对已经发生以及可能发生的犯罪行为进行有效的检测显得极为迫切。

由于异常检测的目的是要根据已知的异常数据训练并建立一个异常检测模型，利用这个模型检测已知类型或未知类型的异常，所以从本质上将，异常检测是一种典型的数据分类问题。异常检测模型狭义上讲就是其数据分类模型，实际上当前异常检测的研究焦点也就是在于如何构建准确高效的分类模型。因此，可以将针对虚拟资产异常交易行为的检测归纳为不平衡数据环境下的异常行为挖掘问题。即认为在虚拟资产交易过程中，大部分交易都是正常进行的，异常交易只占到很小一部分。在正常交易和异常交易数目不平衡的环境下，如何实现异常行为的挖掘是发明所要着重解决的问题。

柴洪峰等人[1]提出了一种基于数据挖掘的异常交易检测方法，当一个用户提交一笔新的消费交易时,采用贝叶斯信念网络算法判断当前交易属于正常交易的后验概率,作为在业务层面的可信因子；然后提取该用户在当前交易之前的若干个操作,与当前交易一起构成一个固定长度的操作序列,并通过BLAST-SSAHA算法将其与该用户正常操作序列和已知异常操作序列进行比对,得出在操作层面的可信因子。综合考虑业务层面的可信因子和操作层面的可信因子,最终决定当前交易是否为异常交易。

刘卓军等人[2]提出一种新的基于非线性马尔科夫随机过程、相空间重构和隐马尔科夫链的非线性随机方法,用于对金融交易时序进行建模拟合,然后应用鲁棒控制图对估计误差进行检验以发现异常。

前述第一种异常交易检测方法在每次检测的时候都需要计算当前交易属于正常交易的后验概率，计算量较大。第二种方法需要对交易时序数据进行拟合，同样计算量很大。

[1]柴洪峰,李锐,王兴建,等.基于数据挖掘的异常交易检测方法[J].计算机应用与软件,2013,30(1):165-170.

[2]刘卓军,李晓明.基于时间序列建模和控制图的异常交易检测方法[J].数学的实践与认识,2013,43(10):89-96.

发明内容

针对现有技术的缺陷，本发明将不平衡数据分类技术应用到了虚拟资产异常交易检测当中，大大降低了异常交易检测的计算量，同时能达到很高的准确率。

本发明的技术方案主要包括：虚拟资产存储架构的描述、不平衡交易数据的采样和分类器的构建。

其中不平衡交易数据的采样方法如下：

一般情况下，大部分虚拟资产的交易数据都是正常的，异常交易数据只占很少一部分。因此，可将正常交易数据看作是多数类，即包含更多实例数据的类。将异常交易数据看作是少数类，即含有较少实例数据的类。本发明对少数类样本采用改进的SMOTE方法(ISMOTE)进行过采样，从而增加其样本数量，同时对多数类样本采用DUS(Distance-based Under Sampling)方法对多数类样本进行欠采样，以减少其样本数量。过采用和欠采用并非独立，因此，通过设置比例因子来调节两者采样数目的比例，从而保持数据集规模不变，不会增加计算量。

1、改进的SMOTE方法(ISMOTE)

SMOTE[1]首先为每个少数类样本随机选出几个邻近样本，并且在该样本与这些邻近样本的连线上随机生成无重复的新样本。本方法增加了权重向量的概念，对邻近样本中的少数类样本赋予较高的权重，对多数类样本赋予较低权重。具体算法如下：

Step1：选取少数类中的一个样本x_i(i＝1,…,N)，计算x_i到样本集中其它样本的距离，得到k个最近邻样本点；

Step2：根据采样倍数R/N，随机从k个最近邻样本点中选取R/N个样本,记为y_j,j＝1,…,R/N；

Step3：在x_i与y_j之间构造新的少数类样本x_i'：x_i'＝x_i+random(0,1)×(y_j-x_i)×Weight[isMinority(y_j)]；其中，random(0,1)表示产生一个0-1的随机数。Weight[]为二维权重向量，对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断y_j是否是少数类。

Step4：对少数类中的剩余样本重复以上步骤，直至所有少数类样本均处理完为止。

Step5：将新产生的数据与原有数据进行合并，生成新的数据集。

2、基于距离的欠采样方法(DUS)

在基于决策面的分类过程中，如SVM方法，真正能够区分类别的是那些在决策面附近的样本，而远离决策面的样本起的作用很小，甚至会使决策面偏离实际的位置，降低分类精度。因此，适当删除远离决策面的样本可以在提高精度的情况下，降低数据的不平衡程度。本文以欧氏距离为标准，对多数类样本进行欠采样处理，具体算法如下：

Step1：选取多数类中的一个样本z_i(i＝1,…,M，M为多数类的样本个数)，计算z_i到所有少数类样本的距离di_j，j＝1,…,N；N为少数类样本的个数；

Step2：计算距离的平均值

Step3：如果A_i大于设定的与阈值，则删除，否则保留；

Step4：对多数类中的剩余样本重复以上步骤，直至所有多数类样本均处理完为止。

Step5：最后剩余的样本组成新的数据集。

3、过采样和欠采用之间比例因子的设置

上述两种方法分别单独对少数类数据和多数类数据进行了采样。接下来，我们将两种方法结合起来考虑，对同一数据集同时采用ISOMTE和DUS方法进行采样。为减小数据集规模变化对训练与分类时间的影响，本文对ISMOTE和DUS方法的采样倍数设置了比例因子，使得过采样的增加的样本数和欠采样减少的样本数相同，从而保持数据集规模不变。ISMOTE方法可以通过设置采样倍数R来指定新生成样本的数量，而DUS方法阈值的调节很难精确控制采样数目，因此，我们设计了如下步骤:

Step1：对多数类中的所有样本z_i(i＝1,…,N，N为多数类样本的个数)，计算z_i到所有少数类样本的距离d_ij，j＝1,…,M；M为少数类样本的个数。

Step2：计算距离的平均值对计算得到的平均值进行排序得到A'_i；

Step3：根据采样倍数R，将A'_i中的前R个元素对应的样本删除，其余保留；

Step4：最后剩余的样本组成新的数据集。

本发明将不平衡数据分类技术应用到了虚拟资产异常交易检测当中，大大降低了异常交易检测的计算量，同时能达到很高的准确率。

附图说明

图1为本发明的海量多结构虚拟资产数据管理系统架构图

图2为本发明的数据采样和分类器训练流程图

具体实施方式

下面通过具体实施方式来进一步说明本发明的技术方案：

1.虚拟资产存储架构描述

虚拟资产存储采用分布式框架，其体系架构如图1所示，包括海量多结构数据的组织与管理、海量多结构数据的查询处理、服务发布与编程接口等部分。

系统底层架构部署在传统的分布式计算环境或云计算平台上，通过分布式文件系统实现对分布式计算环境中各节点上文件数据的透明访问。分布式计算节点包括170台高性能服务器(两颗Intel Xeon E5640，2.66GHz；16G DDR3内存；两块千兆网卡；冗余电源及风扇)，每一个服务器内置1个1TB磁盘，为了提高网络的稳定性以及带宽，配置两套网络，网络系统采用10台48口的千兆交换机连接而成。此外，为加强容灾备份能力，系统还包括8个盘阵，800块1TB硬盘，48个盘柜，32块RAID卡，8台SAN交换机。在分布式文件系统的基础上，海量多结构数据的组织与管理子系统负责对分布的文件系统或数据进行统一管理，其中，对文件或数据的统一管理是通过数据组织和数据管理模块完成的。此外，还包括不同数据/文件在底层分布式计算环境中的部署与配置管理。

海量多结构数据的查询处理子系统面向海量个人身份/属性信息检索类应用，支持多结构数据的高效查询处理，包括复合数据模型、混合数据操作模式等模块。本发明主要针对其中的日志分析与挖掘模块，旨在利用数据挖掘技术快速高效检测出虚拟资产交易过程中存在的异常行为。

服务发布、定制与编程接口子系统是系统的对外接口，以面向服务的方式对数据进行程序设计接口定义，支持对结构化数据的SQL查询、对非结构化数据的API及类SQL查询；支持用户以服务接口定制的方式，对个人信息查询服务接口进行自定义。本发明也可以利用系统提供的数据访问接口实现对虚拟资产交易数据的查询与分析。在实际应用本发明的时候，既可进行日志的挖掘与分析，也可以通过数据接口进行数据查询与分析，也可以将两种方式结合。根据实际问题的不同，可采用最适合的方式。

2.不平衡交易数据的采样

一般情况下，大部分虚拟资产的交易数据都是正常的，异常交易数据只占很少一部分。因此，可将正常交易数据看作是多数类，即包含更多实例数据的类。将异常交易数据看作是少数类，即含有较少实例数据的类。本发明对少数类样本采用改进的SMOTE方法(ISMOTE)进行过采样，从而增加其样本数量，同时对多数类样本采用DUS(Distance-based Under Sampling)方法对多数类样本进行欠采样，以减少其样本数量。过采用和欠采用并非独立，因此，通过设置比例因子来调节两者采样数目的比例，从而保持数据集规模不变，不会增加计算量。采样及分类器的训练过程如图2所示。

2.1改进的SMOTE方法(ISMOTE)

2.2基于距离的欠采样方法(DUS)

Step2：计算距离的平均值

Step3：如果A_i大于设定的与阈值，则删除，否则保留；

Step5：最后剩余的样本组成新的数据集。

2.3过采样和欠采用之间比例因子的设置

Step4：最后剩余的样本组成新的数据集。

3.分类器的构建

通过2中所描述算法得到采样后新的数据集。在该数据集上训练得到SVM分类器。

对于新的虚拟资产交易数据，将其输入到SVM训练器中进行分类。根据分类结果即可判断该交易是否异常。

与已有技术相比，本专利申请将不平衡数据分类技术应用到了虚拟资产异常交易检测当中，大大降低了异常交易检测的计算量，同时能达到很高的准确率。

以上是对本发明进行了示例性的描述，显然本发明的实现并不受上述方式的限制，只要采用了本发明技术方案进行的各种改进，或未经改进将本发明的构思和技术方案直接应用于其它场合的，均在本发明的保护范围内。

Claims

1.一种虚拟资产不平衡交易数据的采样方法，其特征在于，包括以下步骤：

将虚拟资产交易中的异常交易数据定义为少数类，对少数类样本采用改进的SMOTE方法进行过采样，从而增加其样本数量；

将虚拟资产交易中的正常交易数据定义为多数类，对多数类样本采用基于距离的DUS方法进行欠采样，以减少其样本数量；

通过设置比例因子来调节过采样和欠采样采样数目的比例；

其中改进的SMOTE方法为：

Step3：在x_i与y_j之间构造新的少数类样本x_i'：x_i'＝x_i+random(0,1)×(y_j-x_i)×Weight[isMinority(y_j)]；其中，random(0,1)表示产生一个0-1的随机数。Weight[]为二维权重向量，对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断y_j是否是少数类；

Step4：对少数类中的剩余样本重复以上步骤，直至所有少数类样本均处理完为止；

Step5：将新产生的数据与原有数据进行合并，生成新的数据集；

其中基于距离的DUS方法为：

Step2：计算距离的平均值

Step3：如果A_i大于设定的与阈值，则删除，否则保留；

Step4：对多数类中的剩余样本重复以上步骤，直至所有多数类样本均处理完为止；

Step5：最后剩余的样本组成新的数据集；

其中过采样和欠采用之间比例因子的设置方法为：

Step1：对多数类中的所有样本z_i(i＝1,…,N，N为多数类样本的个数)，计算z_i到所有少数类样本的距离di_j，j＝1,…,M；M为少数类样本的个数；

Step4：最后剩余的样本组成新的数据集。