CN104091073A - 虚拟资产不平衡交易数据的采样方法 - Google Patents

虚拟资产不平衡交易数据的采样方法 Download PDF

Info

Publication number
CN104091073A
CN104091073A CN201410329242.5A CN201410329242A CN104091073A CN 104091073 A CN104091073 A CN 104091073A CN 201410329242 A CN201410329242 A CN 201410329242A CN 104091073 A CN104091073 A CN 104091073A
Authority
CN
China
Prior art keywords
sample
class
samples
minority class
sampling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410329242.5A
Other languages
English (en)
Inventor
李虎
贾焰
韩伟红
周斌
杨树强
李爱平
黄九鸣
李树栋
刘�东
全拥
邓璐
姬炳帅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN201410329242.5A priority Critical patent/CN104091073A/zh
Publication of CN104091073A publication Critical patent/CN104091073A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种虚拟资产不平衡交易数据的采样方法,包括以下步骤:将虚拟资产交易中的异常交易数据定义为少数类,对少数类样本采用改进的SMOTE方法进行过采样,从而增加其样本数量;将虚拟资产交易中的正常交易数据定义为多数类,对多数类样本采用基于距离的DUS方法进行欠采样,以减少其样本数量;通过设置比例因子来调节过采样和欠采样采样数目的比例;将本发明的不平衡交易数据的采样方法应用到虚拟资产异常交易检测当中,可大大降低异常交易检测的计算量,同时能达到很高的准确率。

Description

虚拟资产不平衡交易数据的采样方法
技术领域
本技术属于网络与信息安全领域,涉及一种虚拟资产不平衡交易数据的采样方法。
背景技术
互联网的迅猛发展催生了电子商务的繁荣,其中虚拟资产交易的增长尤为迅速。
目前,我国已经开展了基于eID的网域空间虚拟资产管理与保全技术研究,实现对虚拟资产的规范统一管理。虚拟资产保全系统全面准确的记录了对虚拟资产的各种操作,但如何从这些记录数据中间挖掘出异常的交易行为仍然面临诸多挑战。针对网络虚拟资产交易信息规模巨大,增长速度非常快的特点,自动地从海量的虚拟资产交易信息中发现以及预测异常行为,从而对已经发生以及可能发生的犯罪行为进行有效的检测显得极为迫切。
由于异常检测的目的是要根据已知的异常数据训练并建立一个异常检测模型,利用这个模型检测已知类型或未知类型的异常,所以从本质上将,异常检测是一种典型的数据分类问题。异常检测模型狭义上讲就是其数据分类模型,实际上当前异常检测的研究焦点也就是在于如何构建准确高效的分类模型。因此,可以将针对虚拟资产异常交易行为的检测归纳为不平衡数据环境下的异常行为挖掘问题。即认为在虚拟资产交易过程中,大部分交易都是正常进行的,异常交易只占到很小一部分。在正常交易和异常交易数目不平衡的环境下,如何实现异常行为的挖掘是发明所要着重解决的问题。
柴洪峰等人[1]提出了一种基于数据挖掘的异常交易检测方法,当一个用户提交一笔新的消费交易时,采用贝叶斯信念网络算法判断当前交易属于正常交易的后验概率,作为在业务层面的可信因子;然后提取该用户在当前交易之前的若干个操作,与当前交易一起构成一个固定长度的操作序列,并通过BLAST-SSAHA算法将其与该用户正常操作序列和已知异常操作序列进行比对,得出在操作层面的可信因子。综合考虑业务层面的可信因子和操作层面的可信因子,最终决定当前交易是否为异常交易。
刘卓军等人[2]提出一种新的基于非线性马尔科夫随机过程、相空间重构和隐马尔科夫链的非线性随机方法,用于对金融交易时序进行建模拟合,然后应用鲁棒控制图对估计误差进行检验以发现异常。
前述第一种异常交易检测方法在每次检测的时候都需要计算当前交易属于正常交易的后验概率,计算量较大。第二种方法需要对交易时序数据进行拟合,同样计算量很大。
[1]柴洪峰,李锐,王兴建,等.基于数据挖掘的异常交易检测方法[J].计算机应用与软件,2013,30(1):165-170.
[2]刘卓军,李晓明.基于时间序列建模和控制图的异常交易检测方法[J].数学的实践与认识,2013,43(10):89-96.
发明内容
针对现有技术的缺陷,本发明将不平衡数据分类技术应用到了虚拟资产异常交易检测当中,大大降低了异常交易检测的计算量,同时能达到很高的准确率。
本发明的技术方案主要包括:虚拟资产存储架构的描述、不平衡交易数据的采样和分类器的构建。
其中不平衡交易数据的采样方法如下:
一般情况下,大部分虚拟资产的交易数据都是正常的,异常交易数据只占很少一部分。因此,可将正常交易数据看作是多数类,即包含更多实例数据的类。将异常交易数据看作是少数类,即含有较少实例数据的类。本发明对少数类样本采用改进的SMOTE方法(ISMOTE)进行过采样,从而增加其样本数量,同时对多数类样本采用DUS(Distance-based Under Sampling)方法对多数类样本进行欠采样,以减少其样本数量。过采用和欠采用并非独立,因此,通过设置比例因子来调节两者采样数目的比例,从而保持数据集规模不变,不会增加计算量。
1、改进的SMOTE方法(ISMOTE)
SMOTE[1]首先为每个少数类样本随机选出几个邻近样本,并且在该样本与这些邻近样本的连线上随机生成无重复的新样本。本方法增加了权重向量的概念,对邻近样本中的少数类样本赋予较高的权重,对多数类样本赋予较低权重。具体算法如下:
Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的距离,得到k个最近邻样本点;
Step2:根据采样倍数R/N,随机从k个最近邻样本点中选取R/N个样本,记为yj,j=1,…,R/N;
Step3:在xi与yj之间构造新的少数类样本xi':xi'=xi+random(0,1)×(yj-xi)×Weight[isMinority(yj)];其中,random(0,1)表示产生一个0-1的随机数。Weight[]为二维权重向量,对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断yj是否是少数类。
Step4:对少数类中的剩余样本重复以上步骤,直至所有少数类样本均处理完为止。
Step5:将新产生的数据与原有数据进行合并,生成新的数据集。
2、基于距离的欠采样方法(DUS)
在基于决策面的分类过程中,如SVM方法,真正能够区分类别的是那些在决策面附近的样本,而远离决策面的样本起的作用很小,甚至会使决策面偏离实际的位置,降低分类精度。因此,适当删除远离决策面的样本可以在提高精度的情况下,降低数据的不平衡程度。本文以欧氏距离为标准,对多数类样本进行欠采样处理,具体算法如下:
Step1:选取多数类中的一个样本zi(i=1,…,M,M为多数类的样本个数),计算zi到所有少数类样本的距离dij,j=1,…,N;N为少数类样本的个数;
Step2:计算距离的平均值
Step3:如果Ai大于设定的与阈值,则删除,否则保留;
Step4:对多数类中的剩余样本重复以上步骤,直至所有多数类样本均处理完为止。
Step5:最后剩余的样本组成新的数据集。
3、过采样和欠采用之间比例因子的设置
上述两种方法分别单独对少数类数据和多数类数据进行了采样。接下来,我们将两种方法结合起来考虑,对同一数据集同时采用ISOMTE和DUS方法进行采样。为减小数据集规模变化对训练与分类时间的影响,本文对ISMOTE和DUS方法的采样倍数设置了比例因子,使得过采样的增加的样本数和欠采样减少的样本数相同,从而保持数据集规模不变。ISMOTE方法可以通过设置采样倍数R来指定新生成样本的数量,而DUS方法阈值的调节很难精确控制采样数目,因此,我们设计了如下步骤:
Step1:对多数类中的所有样本zi(i=1,…,N,N为多数类样本的个数),计算zi到所有少数类样本的距离dij,j=1,…,M;M为少数类样本的个数。
Step2:计算距离的平均值对计算得到的平均值进行排序得到A'i
Step3:根据采样倍数R,将A'i中的前R个元素对应的样本删除,其余保留;
Step4:最后剩余的样本组成新的数据集。
本发明将不平衡数据分类技术应用到了虚拟资产异常交易检测当中,大大降低了异常交易检测的计算量,同时能达到很高的准确率。
附图说明
图1为本发明的海量多结构虚拟资产数据管理系统架构图
图2为本发明的数据采样和分类器训练流程图
具体实施方式
下面通过具体实施方式来进一步说明本发明的技术方案:
本发明的技术方案主要包括:虚拟资产存储架构的描述、不平衡交易数据的采样和分类器的构建。
1.虚拟资产存储架构描述
虚拟资产存储采用分布式框架,其体系架构如图1所示,包括海量多结构数据的组织与管理、海量多结构数据的查询处理、服务发布与编程接口等部分。
系统底层架构部署在传统的分布式计算环境或云计算平台上,通过分布式文件系统实现对分布式计算环境中各节点上文件数据的透明访问。分布式计算节点包括170台高性能服务器(两颗Intel Xeon E5640,2.66GHz;16G DDR3内存;两块千兆网卡;冗余电源及风扇),每一个服务器内置1个1TB磁盘,为了提高网络的稳定性以及带宽,配置两套网络,网络系统采用10台48口的千兆交换机连接而成。此外,为加强容灾备份能力,系统还包括8个盘阵,800块1TB硬盘,48个盘柜,32块RAID卡,8台SAN交换机。在分布式文件系统的基础上,海量多结构数据的组织与管理子系统负责对分布的文件系统或数据进行统一管理,其中,对文件或数据的统一管理是通过数据组织和数据管理模块完成的。此外,还包括不同数据/文件在底层分布式计算环境中的部署与配置管理。
海量多结构数据的查询处理子系统面向海量个人身份/属性信息检索类应用,支持多结构数据的高效查询处理,包括复合数据模型、混合数据操作模式等模块。本发明主要针对其中的日志分析与挖掘模块,旨在利用数据挖掘技术快速高效检测出虚拟资产交易过程中存在的异常行为。
服务发布、定制与编程接口子系统是系统的对外接口,以面向服务的方式对数据进行程序设计接口定义,支持对结构化数据的SQL查询、对非结构化数据的API及类SQL查询;支持用户以服务接口定制的方式,对个人信息查询服务接口进行自定义。本发明也可以利用系统提供的数据访问接口实现对虚拟资产交易数据的查询与分析。在实际应用本发明的时候,既可进行日志的挖掘与分析,也可以通过数据接口进行数据查询与分析,也可以将两种方式结合。根据实际问题的不同,可采用最适合的方式。
2.不平衡交易数据的采样
一般情况下,大部分虚拟资产的交易数据都是正常的,异常交易数据只占很少一部分。因此,可将正常交易数据看作是多数类,即包含更多实例数据的类。将异常交易数据看作是少数类,即含有较少实例数据的类。本发明对少数类样本采用改进的SMOTE方法(ISMOTE)进行过采样,从而增加其样本数量,同时对多数类样本采用DUS(Distance-based Under Sampling)方法对多数类样本进行欠采样,以减少其样本数量。过采用和欠采用并非独立,因此,通过设置比例因子来调节两者采样数目的比例,从而保持数据集规模不变,不会增加计算量。采样及分类器的训练过程如图2所示。
2.1改进的SMOTE方法(ISMOTE)
SMOTE[1]首先为每个少数类样本随机选出几个邻近样本,并且在该样本与这些邻近样本的连线上随机生成无重复的新样本。本方法增加了权重向量的概念,对邻近样本中的少数类样本赋予较高的权重,对多数类样本赋予较低权重。具体算法如下:
Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的距离,得到k个最近邻样本点;
Step2:根据采样倍数R/N,随机从k个最近邻样本点中选取R/N个样本,记为yj,j=1,…,R/N;
Step3:在xi与yj之间构造新的少数类样本xi':xi'=xi+random(0,1)×(yj-xi)×Weight[isMinority(yj)];其中,random(0,1)表示产生一个0-1的随机数。Weight[]为二维权重向量,对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断yj是否是少数类。
Step4:对少数类中的剩余样本重复以上步骤,直至所有少数类样本均处理完为止。
Step5:将新产生的数据与原有数据进行合并,生成新的数据集。
2.2基于距离的欠采样方法(DUS)
在基于决策面的分类过程中,如SVM方法,真正能够区分类别的是那些在决策面附近的样本,而远离决策面的样本起的作用很小,甚至会使决策面偏离实际的位置,降低分类精度。因此,适当删除远离决策面的样本可以在提高精度的情况下,降低数据的不平衡程度。本文以欧氏距离为标准,对多数类样本进行欠采样处理,具体算法如下:
Step1:选取多数类中的一个样本zi(i=1,…,M,M为多数类的样本个数),计算zi到所有少数类样本的距离dij,j=1,…,N;N为少数类样本的个数;
Step2:计算距离的平均值
Step3:如果Ai大于设定的与阈值,则删除,否则保留;
Step4:对多数类中的剩余样本重复以上步骤,直至所有多数类样本均处理完为止。
Step5:最后剩余的样本组成新的数据集。
2.3过采样和欠采用之间比例因子的设置
上述两种方法分别单独对少数类数据和多数类数据进行了采样。接下来,我们将两种方法结合起来考虑,对同一数据集同时采用ISOMTE和DUS方法进行采样。为减小数据集规模变化对训练与分类时间的影响,本文对ISMOTE和DUS方法的采样倍数设置了比例因子,使得过采样的增加的样本数和欠采样减少的样本数相同,从而保持数据集规模不变。ISMOTE方法可以通过设置采样倍数R来指定新生成样本的数量,而DUS方法阈值的调节很难精确控制采样数目,因此,我们设计了如下步骤:
Step1:对多数类中的所有样本zi(i=1,…,N,N为多数类样本的个数),计算zi到所有少数类样本的距离dij,j=1,…,M;M为少数类样本的个数。
Step2:计算距离的平均值对计算得到的平均值进行排序得到A'i
Step3:根据采样倍数R,将A'i中的前R个元素对应的样本删除,其余保留;
Step4:最后剩余的样本组成新的数据集。
3.分类器的构建
通过2中所描述算法得到采样后新的数据集。在该数据集上训练得到SVM分类器。
对于新的虚拟资产交易数据,将其输入到SVM训练器中进行分类。根据分类结果即可判断该交易是否异常。
与已有技术相比,本专利申请将不平衡数据分类技术应用到了虚拟资产异常交易检测当中,大大降低了异常交易检测的计算量,同时能达到很高的准确率。
以上是对本发明进行了示例性的描述,显然本发明的实现并不受上述方式的限制,只要采用了本发明技术方案进行的各种改进,或未经改进将本发明的构思和技术方案直接应用于其它场合的,均在本发明的保护范围内。

Claims (1)

1.一种虚拟资产不平衡交易数据的采样方法,其特征在于,包括以下步骤:
将虚拟资产交易中的异常交易数据定义为少数类,对少数类样本采用改进的SMOTE方法进行过采样,从而增加其样本数量;
将虚拟资产交易中的正常交易数据定义为多数类,对多数类样本采用基于距离的DUS方法进行欠采样,以减少其样本数量;
通过设置比例因子来调节过采样和欠采样采样数目的比例;
其中改进的SMOTE方法为:
Step1:选取少数类中的一个样本xi(i=1,…,N),计算xi到样本集中其它样本的距离,得到k个最近邻样本点;
Step2:根据采样倍数R/N,随机从k个最近邻样本点中选取R/N个样本,记为yj,j=1,…,R/N;
Step3:在xi与yj之间构造新的少数类样本xi':xi'=xi+random(0,1)×(yj-xi)×Weight[isMinority(yj)];其中,random(0,1)表示产生一个0-1的随机数。Weight[]为二维权重向量,对近邻中的少数类和多数类样本赋予不同的权重。isMinority()用于判断yj是否是少数类;
Step4:对少数类中的剩余样本重复以上步骤,直至所有少数类样本均处理完为止;
Step5:将新产生的数据与原有数据进行合并,生成新的数据集;
其中基于距离的DUS方法为:
Step1:选取多数类中的一个样本zi(i=1,…,M,M为多数类的样本个数),计算zi到所有少数类样本的距离dij,j=1,…,N;N为少数类样本的个数;
Step2:计算距离的平均值
Step3:如果Ai大于设定的与阈值,则删除,否则保留;
Step4:对多数类中的剩余样本重复以上步骤,直至所有多数类样本均处理完为止;
Step5:最后剩余的样本组成新的数据集;
其中过采样和欠采用之间比例因子的设置方法为:
Step1:对多数类中的所有样本zi(i=1,…,N,N为多数类样本的个数),计算zi到所有少数类样本的距离dij,j=1,…,M;M为少数类样本的个数;
Step2:计算距离的平均值对计算得到的平均值进行排序得到A'i
Step3:根据采样倍数R,将A'i中的前R个元素对应的样本删除,其余保留;
Step4:最后剩余的样本组成新的数据集。
CN201410329242.5A 2014-07-11 2014-07-11 虚拟资产不平衡交易数据的采样方法 Pending CN104091073A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410329242.5A CN104091073A (zh) 2014-07-11 2014-07-11 虚拟资产不平衡交易数据的采样方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410329242.5A CN104091073A (zh) 2014-07-11 2014-07-11 虚拟资产不平衡交易数据的采样方法

Publications (1)

Publication Number Publication Date
CN104091073A true CN104091073A (zh) 2014-10-08

Family

ID=51638789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410329242.5A Pending CN104091073A (zh) 2014-07-11 2014-07-11 虚拟资产不平衡交易数据的采样方法

Country Status (1)

Country Link
CN (1) CN104091073A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105912726A (zh) * 2016-05-13 2016-08-31 北京邮电大学 基于密度中心性的虚拟资产异常交易数据的采样-检测方法
CN106033432A (zh) * 2015-03-12 2016-10-19 中国人民解放军国防科学技术大学 基于分解策略的多类别不平衡虚拟资产数据分类方法
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN106156171A (zh) * 2015-04-16 2016-11-23 中国人民解放军国防科学技术大学 一种面向虚拟资产数据的查询优化方法
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
WO2018161900A1 (zh) * 2017-03-09 2018-09-13 阿里巴巴集团控股有限公司 一种风控事件自动处理方法及装置
CN109035013A (zh) * 2017-06-12 2018-12-18 高丽大学校产学协力团 检测异常金融交易的设备和方法及计算机可读存储介质
CN109558543A (zh) * 2018-12-11 2019-04-02 拉扎斯网络科技(上海)有限公司 一种样本采样方法、样本采样装置、服务器和存储介质
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111369339A (zh) * 2020-03-02 2020-07-03 深圳索信达数据技术有限公司 一种基于过采样改进svdd的银行客户交易行为异常识别方法
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050047679A1 (en) * 2003-08-28 2005-03-03 Cyril Riddell Method and apparatus for reconstruction of a multi-dimensional image
CN101405718A (zh) * 2006-03-30 2009-04-08 卡尔斯特里姆保健公司 具有局部线性嵌入的smote算法
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050047679A1 (en) * 2003-08-28 2005-03-03 Cyril Riddell Method and apparatus for reconstruction of a multi-dimensional image
CN101405718A (zh) * 2006-03-30 2009-04-08 卡尔斯特里姆保健公司 具有局部线性嵌入的smote算法
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
US20130097103A1 (en) * 2011-10-14 2013-04-18 International Business Machines Corporation Techniques for Generating Balanced and Class-Independent Training Data From Unlabeled Data Set

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HU LI ET AL;: "《A new Combination Sampling Method For Imbalanced Data》", 《PROCEEDINGS OF 2013 CHINESE INTELLIGENT AUTOMATION CONFERENCE.LECTURE NOTES IN ELETRICAL ENGINEERING》 *
刘珍: "《因特网流量类不平衡特性与分类方法的研究》", 《中国博士学位论文全文数据库信息科技辑》 *
孙涛 等: "《SMOTE算法在不平衡数据中的应用》", 《首都医科大学公共卫生与家庭医学学院首届研究生学术论坛》 *
苏加强 等;: "《D1-基于R的过采样方法在非平衡数据中的应用》", 《常州工业院学报》 *

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106033432A (zh) * 2015-03-12 2016-10-19 中国人民解放军国防科学技术大学 基于分解策略的多类别不平衡虚拟资产数据分类方法
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN106156171B (zh) * 2015-04-16 2019-06-14 中国人民解放军国防科学技术大学 一种面向虚拟资产数据的查询优化方法
CN106156171A (zh) * 2015-04-16 2016-11-23 中国人民解放军国防科学技术大学 一种面向虚拟资产数据的查询优化方法
CN105912726A (zh) * 2016-05-13 2016-08-31 北京邮电大学 基于密度中心性的虚拟资产异常交易数据的采样-检测方法
CN106529598A (zh) * 2016-11-11 2017-03-22 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN106529598B (zh) * 2016-11-11 2020-05-08 北京工业大学 一种基于不均衡医疗图像数据集的分类方法与系统
CN108596410B (zh) * 2017-03-09 2021-01-22 创新先进技术有限公司 一种风控事件自动处理方法及装置
WO2018161900A1 (zh) * 2017-03-09 2018-09-13 阿里巴巴集团控股有限公司 一种风控事件自动处理方法及装置
CN108596410A (zh) * 2017-03-09 2018-09-28 阿里巴巴集团控股有限公司 一种风控事件自动处理方法及装置
CN109035013A (zh) * 2017-06-12 2018-12-18 高丽大学校产学协力团 检测异常金融交易的设备和方法及计算机可读存储介质
CN107729838A (zh) * 2017-10-12 2018-02-23 中科视拓(北京)科技有限公司 一种基于深度学习的头部姿态估算方法
CN109582706A (zh) * 2018-11-14 2019-04-05 重庆邮电大学 基于Spark大数据平台的邻域密度不平衡数据混合采样方法
CN109558543A (zh) * 2018-12-11 2019-04-02 拉扎斯网络科技(上海)有限公司 一种样本采样方法、样本采样装置、服务器和存储介质
CN110782349A (zh) * 2019-10-25 2020-02-11 支付宝(杭州)信息技术有限公司 一种模型训练方法和系统
CN111369339A (zh) * 2020-03-02 2020-07-03 深圳索信达数据技术有限公司 一种基于过采样改进svdd的银行客户交易行为异常识别方法
CN111986027A (zh) * 2020-08-21 2020-11-24 腾讯科技(上海)有限公司 基于人工智能的异常交易处理方法、装置

Similar Documents

Publication Publication Date Title
CN104091073A (zh) 虚拟资产不平衡交易数据的采样方法
Padurariu et al. Dealing with data imbalance in text classification
CN110413227B (zh) 一种硬盘设备的剩余使用寿命在线预测方法和系统
KR101879416B1 (ko) 이상 금융거래 탐지 방법 및 그 전자 장치
CN107392320A (zh) 一种使用机器学习预测硬盘故障的方法
Elahi et al. Peaks above the Maxwellian Sea: a new approach to finding substructures in N-body haloes
CN105912726A (zh) 基于密度中心性的虚拟资产异常交易数据的采样-检测方法
WO2021088499A1 (zh) 一种基于动态网络表征的发票虚开识别方法及系统
CN106156029A (zh) 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN103377285A (zh) 用于增强对存储云去重技术的可靠性的方法与系统
CN105069534A (zh) 客户流失预测方法以及装置
CN104796270A (zh) 在云应用的问题诊断中推荐可疑组件的方法及装置
CN103324939A (zh) 基于最小二乘支持向量机技术的偏向性分类及参数寻优方法
CN106649527A (zh) 基于Spark Streaming的广告点击异常检测系统及检测方法
CN109772753B (zh) 动力电池分选系统和方法
CN104103011A (zh) 一种基于纳税人利益关联网络的可疑纳税人识别方法
CN108009290A (zh) 一种轨道交通指挥中心线网大数据的数据建模和存储方法
Lin et al. Electricity theft detection in power consumption data based on adaptive tuning recurrent neural network
US20220318715A1 (en) Machine learning models based methods and systems for determining prospective acquisitions between business entities
CN110493176B (zh) 一种基于非监督机器学习的用户可疑行为分析方法及系统
Zhang Financial data anomaly detection method based on decision tree and random forest algorithm
Cui Financial Credit Risk Warning Based on Big Data Analysis.
CN113743004B (zh) 一种基于量子傅里叶变换的全要素生产率计算方法
CN103136597A (zh) 基于统计指标对公司经营的决策支持系统及其使用方法
Liang et al. Disk Failure Prediction Based on SW-Disk Feature Engineering

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20141008