CN116821820A - 一种虚假交易识别方法、装置、电子设备及存储介质 - Google Patents
一种虚假交易识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN116821820A CN116821820A CN202310812280.5A CN202310812280A CN116821820A CN 116821820 A CN116821820 A CN 116821820A CN 202310812280 A CN202310812280 A CN 202310812280A CN 116821820 A CN116821820 A CN 116821820A
- Authority
- CN
- China
- Prior art keywords
- data
- variable
- variables
- feature
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 89
- 230000002159 abnormal effect Effects 0.000 claims abstract description 62
- 238000012216 screening Methods 0.000 claims abstract description 61
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 48
- 230000015654 memory Effects 0.000 claims description 23
- 230000011218 segmentation Effects 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000007637 random forest analysis Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000012937 correction Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 15
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000002955 isolation Methods 0.000 description 30
- 238000010801 machine learning Methods 0.000 description 9
- 238000003066 decision tree Methods 0.000 description 6
- 230000007547 defect Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000001788 irregular Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013450 outlier detection Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/382—Payment protocols; Details thereof insuring higher security of transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Computer Security & Cryptography (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种适用于金融科技或其他相关技术领域的虚假交易识别方法、装置、电子设备及存储介质,方法包括:获取客户数据;对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;基于各个入模变量的异常分,确定客户数据中的异常数据。本发明解决了现有技术中虚假交易识别方法中对离群点的依赖性较强、无法处理高维数据、对于数据质量和特征选择的较敏感的技术问题。
Description
技术领域
本发明涉及大数据技术领域,具体涉及一种虚假交易识别方法、装置、电子设备及存储介质。
背景技术
虚假销售交易越发频繁,主要包括无存货实物流转情况下虚构存货进出库,造成因虚构收入而带来的虚增资产或虚减负债问题的假象,会严重增加银行的坏账风险。目前关于虚假交易识别主要有以下几种方法:
一是基于规则的方法:该方法利用先验知识和经验,将交易数据与异常情况进行匹配,通过制定一定的规则和策略来判断和识别虚假交易,例如根据金额大小、时间、交易对象等进行判断。该方法的缺点是对于新型的欺诈交易手段无法识别。二是基于机器学习方法:该方法主要通过将交易数据转化为特征向量,然后利用分类器实现对交易的分类和识别。常用的机器学习算法包括支持向量机(SVM)、人工神经网络(ANN)、决策树(DT)和随机森林(RF)等。但该方法对于数据的质量和特征选择比较敏感,方法的效果可能会受到数据质量和特征选择的影响。三是基于统计学习方法:该方法主要通过分析交易数据的分布和趋势,检测出异常交易。常用的统计学方法包括均值方差分析和异常值检测等。但该方法也存在一定的局限性,例如对于复杂的多维数据,难以进行准确的分析和预测。
综上所述,现有方法主要存在以下缺点和问题:对离群点的依赖性较强;无法处理高维数据;对于数据质量和特征选择的较敏感。
发明内容
本发明的目的在于克服上述技术不足,提供一种适用于金融科技或其他相关技术领域的虚假交易识别方法、装置、电子设备及存储介质,解决现有技术中虚假交易识别方法中对离群点的依赖性较强、无法处理高维数据、对于数据质量和特征选择的较敏感的技术问题。
为达到上述技术目的,本发明采取了以下技术方案:
第一方面,本发明提供一种虚假交易识别方法,包括如下步骤:
获取客户数据;
对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;
将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;
基于各个入模变量的异常分,确定客户数据中的异常数据。
在一些实施例中,所述客户数据至少包括客户基本信息、客户交易信息、客户余额信息以及客户工商信息。
在一些实施例中,所述对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量,包括:
对所述客户数据进行无关变量筛选;
对无关变量筛选后的客户数据进行随机森林重要性筛选,以剔除重要性为零的特征变量;
计算随机森林重要性筛选后的变量相关性,并根据变量相关性进行相关性筛选,以剔除相关性大于预设第一预设值、且重要性小于第二预设值的特征变量;
计算相关性筛选后的特征变量之间的共线性,根据所述共线性进行共线性筛选,以剔除共线性大于第三预设值的特征变量;
计算共线性筛选后的特征你变量的特征重要性,根据所述特征重要性进行二次重要性筛选,以剔除特征重要性小于第四预设值的特征变量;
计算二次重要性筛选后的特征变量的信息价值,并剔除信息价值小于第五预设值的特征变量后,将剩余的特征变量作为入模变量。
在一些实施例中,所述识别模型计算出每个入模变量的异常分的方法具体为:
从所述入模变量中又放回的抽取部分样本,随机选取部分特征,并基于预设的二叉树停止条件,完成多颗二叉树的构建;
对每颗二叉树进行测试,计算出各个入模变量的切分次数;
基于各个入模变量的切分次数,计算出各个所述入模变量的异常分。
在一些实施例中,所述切分次数的计算公式为:
h(x)=e+c(n);
其中,h(x)表示样本x在二叉树上的切分的次数,e表示切分次数,n表示和样本x同在一个叶子结点的样本个数,c(n)为修正值,表示n个样本构建一个BST二叉树的平均路径长度。
在一些实施例中,所述异常分的计算公式为:
其中,h(x)表示样本x在二叉树上的切分的次数,E(h(x))表示样本在t棵二叉树的切分的次数的均值,c(n)表示n个样本构建一个BST二叉树的平均路径长度。
在一些实施例中,所述基于各个入模变量的异常分,确定客户数据中的异常数据,包括:
当所述入模变量的异常分不小于第六预设值时,确定所述入模变量为异常数据;当所述入模变量的异常分小于第七预设值时,确定所述入模变量为正常数据。
第二方面,本发明还提供一种虚假交易识别装置,包括:
数据获取模块,用于获取客户数据;
筛选模块,用于对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;
异常分计算模块,用于将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;
异常确定模块,用于基于各个入模变量的异常分,确定客户数据中的异常数据。
第三方面,本发明还提供一种电子设备,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机程序;
所述处理器执行所述计算机程序时实现如上所述的虚假交易识别方法中的步骤。
第四方面,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的虚假交易识别方法中的步骤。
与现有技术相比,本发明提供的虚假交易识别方法、装置、电子设备及存储介质,首先获取客户数据;之后对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;然后将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;最后基于各个入模变量的异常分,确定客户数据中的异常数据。本发明的异常交易识别方法可以在非常短的时间内处理大量数据,尤其适用于大规模数据集。与其他算法(如svm,k-means和LOF)相比,Isolation Forest算法的时间复杂度更低,因此对计算资源的需求更少,具有较高的高效性,此外,与其他机器学习技术和异常检测算法不同,Isolation Forest算法的性能不受维度大小的影响。这意味着它可以应用于高维数据集,而无需进行数据降维,可扩展性强,与LOF(局部离群因子)相比,Isolation Forest更适合于处理具有全局异常点的数据集。由于Isolation Forest使用随机树来检测异常值,因此可以避免LOF这样的算法受到局部数据簇的影响的缺点,准确性高,Isolation Forest对于噪声数据的影响较小,并且可以在不需要太多的人工干预的情况下自动适应数据分布。它还可以处理数据分布不规则或数据集中存在异常点的情况,鲁棒性强。
附图说明
图1是本发明实施例提供的虚假交易识别方法的流程图;
图2是本发明实施例提供的虚假交易识别方法中,步骤S200的流程图;
图3是本发明实施例提供的虚假交易识别方法中,异常分的计算方法流程图;
图4是本发明实施例提供的虚假交易识别装置的功能模块示意图;
图5是本发明实施例提供的电子设备的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
虚假销售交易越发频繁,主要包括无存货实物流转情况下虚构存货进出库,造成因虚构收入而带来的虚增资产或虚减负债问题的假象,会严重增加银行的坏账风险。目前关于虚假交易识别主要有以下几种方法:
一是基于规则的方法:该方法利用先验知识和经验,将交易数据与异常情况进行匹配,通过制定一定的规则和策略来判断和识别虚假交易,例如根据金额大小、时间、交易对象等进行判断。该方法的缺点是对于新型的欺诈交易手段无法识别。二是基于机器学习方法:该方法主要通过将交易数据转化为特征向量,然后利用分类器实现对交易的分类和识别。常用的机器学习算法包括支持向量机(SVM)、人工神经网络(ANN)、决策树(DT)和随机森林(RF)等。但该方法对于数据的质量和特征选择比较敏感,方法的效果可能会受到数据质量和特征选择的影响。三是基于统计学习方法:该方法主要通过分析交易数据的分布和趋势,检测出异常交易。常用的统计学方法包括均值方差分析和异常值检测等。但该方法也存在一定的局限性,例如对于复杂的多维数据,难以进行准确的分析和预测。因此,现有方法主要存在以下缺点和问题:对离群点的依赖性较强;无法处理高维数据;对于数据质量和特征选择的较敏感。
请参阅图1,图1本发明实施例提供的一种虚假交易识别方法的流程示意图,本发明所涉及的虚假交易识别方法可用于金融领域的虚假交易识别应用中,以更好的进行虚假交易的识别。本发明所涉及的虚假交易识别方法可由电子设备执行,该电子设备能够进行接收或发送数据等操作,可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、便携式计算机和台式服务器等等。如图1所示,该方法具体包括以下步骤S100至步骤S400。
S100、获取客户数据。
本实施例中,首先确定样本客户范围,例如,可以选取近三年的有交易二级商户数据,提出销户久悬不动户。客户数据至少包括客户基本信息、客户交易信息、客户余额信息以及客户工商信息,通过对客户数据进行分析,可以判断出客户是否出现虚假交易。
S200、对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量。
本实施例中,通过对客户数据进行特征筛选,可以筛除不适用于后续进行虚假交易判断的特征变量,进而得到符合要求的入模变量。
S300、将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立。
本实施例中,孤立森林算法(IsolationForest算法)为无监督模型,建模无需标签仅通过客户行为数据将异常信息切分开。基于模型特性,该算法有两个前提假设:一异常样本不能占比太高;二异常样本和正常样本差异较大。
本实施例采用孤立森林算法(IsolationForest算法)来进行入模变量的异常分计算,以供后续异常数据的确定,IsolationForest算法不借助类似距离、密度等指标去描述样本与其他样本的差异,而是直接去刻画所谓的疏离程度(isolation),算法采用二叉树对数据进行分裂,样本选取、特征选取、分裂点选取都采用随机化的方式。如果某个样本是异常值,可能需要很少次数就可以切分出来,例如:
给小红一根棍子,把眼睛蒙上前提下要把下面的白棋分离出来,计数需多少次能分出来。A这一堆,需要的次数非常多;而B这一堆,可能一次就切分出来了,需要的次数非常少。IsolationForest算法思想就是通过计算切分的次数来衡量一个点的异常程度了,切分次数越少,越不合群,也就越异常。切分可能存在随机性,那找100个人来切分,然后将每个人切分的次数取平均,这就是孤立森林核心思想。
再用一个例子来说明孤立森林的思想:假设现在有一组一维数据(如下图),要对这组数据进行切分,目的是把点A和B单独切分出来,先在最大值和最小值之间随机选择一个值X,然后按照<X和>=X可以把数据分成左右两组,在这两组数据中分别重复这个步骤,直到数据不可再分。点B跟其他数据比较疏离,可能用很少的次数就可以把它切分出来,点A跟其他数据点聚在一起,可能需要更多的次数才能把它切分出来。那么从统计意义上来说,相对聚集的点需要分割的次数较多,比较孤立的点需要的分割次数少,孤立森林就是利用分割的次数来度量一个点是聚集的(正常)还是孤立的(异常)。直观上来看,可以发现那些密度很高的簇要被切很多次才会停止切割,即每个点都单独存在于一个子空间内,但那些分布稀疏的点,大都很早就停到一个子空间内了。
因此,孤立森林算法是基于给定数据集的决策树集成而建立,异常样本更容易快速落入叶子节点,即异常样本在决策树上,距离根节点更近。异常识别为树上平均路径较短的观测结果。随机选择m个特征,通过在所选特征的最大值和最小值之间随机选择一个值来分割数据点。观察值的划分递归地重复,直到所有的观察值被孤立。
S400、基于各个入模变量的异常分,确定客户数据中的异常数据。
本实施例中,针对虚假交易识别,限制树的深度,只关心路径长度较短的点即异常点,而并不关心那些路径很长的正常点。异常分越接近1,其是异常点的可能性越高;如果分数都比0.5要小,那么基本可以确定为正常数据;如果所有分数都在0.5附近,那么数据不包含明显的异常样本。
本发明实施例,首先获取客户数据;之后对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;然后将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;最后基于各个入模变量的异常分,确定客户数据中的异常数据。本发明的异常交易识别方法可以在非常短的时间内处理大量数据,尤其适用于大规模数据集。与其他算法(如svm,k-means和LOF)相比,Isolation Forest算法的时间复杂度更低,因此对计算资源的需求更少,具有较高的高效性,此外,与其他机器学习技术和异常检测算法不同,IsolationForest算法的性能不受维度大小的影响。这意味着它可以应用于高维数据集,而无需进行数据降维,可扩展性强,与LOF(局部离群因子)相比,Isolation Forest更适合于处理具有全局异常点的数据集。由于Isolation Forest使用随机树来检测异常值,因此可以避免LOF这样的算法受到局部数据簇的影响的缺点,准确性高,Isolation Forest对于噪声数据的影响较小,并且可以在不需要太多的人工干预的情况下自动适应数据分布。它还可以处理数据分布不规则或数据集中存在异常点的情况,鲁棒性强。
在一些实施例中,请参阅图2,所述步骤S200具体包括:
S210、对所述客户数据进行无关变量筛选;
S220、对无关变量筛选后的客户数据进行随机森林重要性筛选,以剔除重要性为零的特征变量;
S230、计算随机森林重要性筛选后的变量相关性,并根据变量相关性进行相关性筛选,以剔除相关性大于预设第一预设值、且重要性小于第二预设值的特征变量;
S240、计算相关性筛选后的特征变量之间的共线性,根据所述共线性进行共线性筛选,以剔除共线性大于第三预设值的特征变量;
S250、计算共线性筛选后的特征你变量的特征重要性,根据所述特征重要性进行二次重要性筛选,以剔除特征重要性小于第四预设值的特征变量;
S260、计算二次重要性筛选后的特征变量的信息价值,并剔除信息价值小于第五预设值的特征变量后,将剩余的特征变量作为入模变量。
本实施例中,在挖掘出商户的基本信息数据、交易数据、工商信息等多个变量后,首先进行无关变量筛选,然后进行随机森林重要性筛选,剔除重要性=0的特征变量,之后计算变量相关性,提出相关性大于0.85、且重要性相对较低的特征变量,之后计算VIF值(特征变量间的共线性),提出VIF>10的特征变量,然后对剩余变量,重新计算特征重要性,剔除较小的特征变量,最后计算IV值,提出IV值较小的特征变量,经过以上特征筛选后,确定d个入模变量。
在一些实施例中,请参阅图3,所述识别模型计算出每个入模变量的异常分的方法具体为:
S310、从所述入模变量中又放回的抽取部分样本,随机选取部分特征,并基于预设的二叉树停止条件,完成多颗二叉树的构建;
S320、对每颗二叉树进行测试,计算出各个入模变量的切分次数;
S330、基于各个入模变量的切分次数,计算出各个所述入模变量的异常分。
本实施例中,首先对模型进行训练,给定训练数据X={x1,x2,x3…,xn},数据个数为n,数据维度为d,Isolation Forest构建多个Isolation Tree(二叉树),树的数量为t,其中训练集为随机抽取样本数据的70%,测试集为剩余样本数据。
在训练完毕后,入模变量X中,有放回的抽取部分样本(样本量为:Ψ),随机选取部分特征,构建一颗二叉树(iTree),并设定iTree的停止条件,可选的,iTree的停止条件为:设置最大树深当树深超过max_depth或数据不可再分。之后利用利用集成学习的思想,多次抽取样本特征,完成多颗iTree的构建,其中,在每次对数据集进行切分的时候,都随机从特征选择后的属性集合中选择一个属性,然后选择一个切分点,按照切分点将数据切分为两个集合。当所有的数据点都得到了完整切分或者树达到了最大高度限制时停止,此时即可得到t颗二叉树。之后再计算样本x的PathLength(切分的次数(即样本落入叶子结点经过的边)作为衡量指标,对于t棵树,取平均即可),其中,所述切分次数的计算方法为:
h(x)=e+c(n);
其中,h(x)表示样本x在二叉树上的切分的次数,e表示切分次数,n表示和样本x同在一个叶子结点的样本个数,c(n)为修正值,表示n个样本构建一个BST二叉树的平均路径长度,使得异常和正常样的PathLength差异更大,0.5772156649为欧拉常数。
样本落入叶子节点经过的边数(切分次数),除了和样本本身有关,也和limitlength和抽样的样本子集有关系。因此,本发明实施例采用归一化的方式,把值域映射到0-1之间。所述异常分的计算公式为:
其中,h(x)表示样本x在二叉树上的切分的次数,E(h(x))表示样本在t棵二叉树的切分的次数的均值,c(n)表示n个样本构建一个BST二叉树的平均路径长度。
上述公式中,指数部分值域为(-∞,0),因此s值域为(0,1)。当PathLength越小,s越接近1,此时样本为异常值的概率越大。
在一些实施例中,所述步骤S400具体包括:
当所述入模变量的异常分不小于第六预设值时,确定所述入模变量为异常数据;当所述入模变量的异常分小于第七预设值时,确定所述入模变量为正常数据。
本实施例中,E(h(x))是根节点到外部节点x的路径长度h(x)的平均值,而c(n)是给定n的h(x)的平均值,用于规范化h(x)。有三种可能的情况:
当E(h(x))=c(n),s(x,n)=1/2;
当E(h(x))->0,s(x,n)=1;
当E(h(x))->n-1,s(x,n)=0;
当观测的得分接近1时,路径长度非常小,那么数据点很容易被孤立,有一个异常。当观测值小于0.5时,路径长度就会变大,然后就得到了一个正常的数据点。如果所有的观察结果都有0.5左右的异常值,那么整个样本就没有任何异常。因此,可以通过计算每棵树的异常得分,并在孤立树之间进行平均,从而在比正常观测更少的步骤中隔离异常,得分较高的异常值路径长度较低。
本发明提供的技术方案,首先获取客户数据;之后对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;然后将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;最后基于各个入模变量的异常分,确定客户数据中的异常数据。本发明的异常交易识别方法可以在非常短的时间内处理大量数据,尤其适用于大规模数据集。与其他算法(如svm,k-means和LOF)相比,Isolation Forest算法的时间复杂度更低,因此对计算资源的需求更少,具有较高的高效性,此外,与其他机器学习技术和异常检测算法不同,Isolation Forest算法的性能不受维度大小的影响。这意味着它可以应用于高维数据集,而无需进行数据降维,可扩展性强,与LOF(局部离群因子)相比,Isolation Forest更适合于处理具有全局异常点的数据集。由于Isolation Forest使用随机树来检测异常值,因此可以避免LOF这样的算法受到局部数据簇的影响的缺点,准确性高,Isolation Forest对于噪声数据的影响较小,并且可以在不需要太多的人工干预的情况下自动适应数据分布。它还可以处理数据分布不规则或数据集中存在异常点的情况,鲁棒性强。
本发明另一实施例提供一种虚假交易识别装置,请参阅图4,该虚假交易识别装置包括数据获取模块11、筛选模块12、异常分计算模块13以及异常确定模块14。
数据获取模块11用于获取客户数据。
筛选模块12用于对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量。
异常分计算模块13用于将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立。
异常确定模块14用于基于各个入模变量的异常分,确定客户数据中的异常数据。
本实施例中,首先获取客户数据;之后对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;然后将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;最后基于各个入模变量的异常分,确定客户数据中的异常数据。本发明的异常交易识别方法可以在非常短的时间内处理大量数据,尤其适用于大规模数据集。与其他算法(如svm,k-means和LOF)相比,Isolation Forest算法的时间复杂度更低,因此对计算资源的需求更少,具有较高的高效性,此外,与其他机器学习技术和异常检测算法不同,IsolationForest算法的性能不受维度大小的影响。这意味着它可以应用于高维数据集,而无需进行数据降维,可扩展性强,与LOF(局部离群因子)相比,Isolation Forest更适合于处理具有全局异常点的数据集。由于Isolation Forest使用随机树来检测异常值,因此可以避免LOF这样的算法受到局部数据簇的影响的缺点,准确性高,Isolation Forest对于噪声数据的影响较小,并且可以在不需要太多的人工干预的情况下自动适应数据分布。它还可以处理数据分布不规则或数据集中存在异常点的情况,鲁棒性强。
需要说明的是,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述虚假交易识别的执行过程,各模块的具体实施方式请参考上述对应的方法实施例,此处不再赘述。
在一些实施例中,所述客户数据至少包括客户基本信息、客户交易信息、客户余额信息以及客户工商信息。
在一些实施例中,所述筛选模块12具体用于:
对所述客户数据进行无关变量筛选;
对无关变量筛选后的客户数据进行随机森林重要性筛选,以剔除重要性为零的特征变量;
计算随机森林重要性筛选后的变量相关性,并根据变量相关性进行相关性筛选,以剔除相关性大于预设第一预设值、且重要性小于第二预设值的特征变量;
计算相关性筛选后的特征变量之间的共线性,根据所述共线性进行共线性筛选,以剔除共线性大于第三预设值的特征变量;
计算共线性筛选后的特征你变量的特征重要性,根据所述特征重要性进行二次重要性筛选,以剔除特征重要性小于第四预设值的特征变量;
计算二次重要性筛选后的特征变量的信息价值,并剔除信息价值小于第五预设值的特征变量后,将剩余的特征变量作为入模变量。
在一些实施例中,所述识别模型计算出每个入模变量的异常分的方法具体为:
从所述入模变量中又放回的抽取部分样本,随机选取部分特征,并基于预设的二叉树停止条件,完成多颗二叉树的构建;
对每颗二叉树进行测试,计算出各个入模变量的切分次数;
基于各个入模变量的切分次数,计算出各个所述入模变量的异常分。
在一些实施例中,所述切分次数的计算公式为:
h(x)=e+c(n);
其中,h(x)表示样本x在二叉树上的切分的次数,e表示切分次数,n表示和样本x同在一个叶子结点的样本个数,c(n)为修正值,表示n个样本构建一个BST二叉树的平均路径长度。
在一些实施例中,所述异常分的计算公式为:
其中,h(x)表示样本x在二叉树上的切分的次数,E(h(x))表示样本在t棵二叉树的切分的次数的均值,c(n)表示n个样本构建一个BST二叉树的平均路径长度。
在一些实施例中,所述异常确定模块14具体用于:
当所述入模变量的异常分不小于第六预设值时,确定所述入模变量为异常数据;当所述入模变量的异常分小于第七预设值时,确定所述入模变量为正常数据。
本发明另一实施例提供一种电子设备,如图5所示,电子设备10包括:
一个或多个处理器110以及存储器120,图5中以一个处理器110为例进行介绍,处理器110和存储器120可以通过总线或者其他方式连接,图5中以通过总线连接为例。
处理器110用于完成电子设备10的各种控制逻辑,其可以为通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、单片机、ARM(Acorn RISCMachine)或其它可编程逻辑器件、分立门或晶体管逻辑、分立的硬件组件或者这些部件的任何组合。还有,处理器110还可以是任何传统处理器、微处理器或状态机。处理器110也可以被实现为计算设备的组合,例如,DSP和微处理器的组合、多个微处理器、一个或多个微处理器结合DSP和/或任何其它这种配置。
存储器120作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的虚假交易识别方法对应的程序指令。处理器110通过运行存储在存储器120中的非易失性软件程序、指令以及单元,从而执行电子设备10的各种功能应用以及数据处理,即实现上述方法实施例中的虚假交易识别方法。
存储器120可以包括存储程序区和存储数据区,其中,存储程序区可存储操作平台、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备10使用所创建的数据等。此外,存储器120可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,存储器120可选包括相对于处理器110远程设置的存储器,这些远程存储器可以通过网络连接至电子设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个单元存储在存储器120中,当被一个或者多个处理器110执行时,执行上述任意方法实施例中的虚假交易识别方法,例如,执行以上描述的图1中的方法步骤S100至步骤S400。
本发明另一实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行,例如,执行以上描述的图1中的方法步骤S100至步骤S400。
作为示例,计算机可读存储介质能够包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦ROM(EEPROM)或闪速存储器。易失性存储器能够包括作为外部高速缓存存储器的随机存取存储器(RAM)。通过说明而非限制,RAM可以以诸如同步RAM(SRAM)、动态RAM、(DRAM)、同步DRAM(SDRAM)、双数据速率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、Synchlink DRAM(SLDRAM)以及直接Rambus(兰巴斯)RAM(DRRAM)之类的许多形式得到。本文中所描述的操作环境的所公开的存储器组件或存储器旨在包括这些和/或任何其他适合类型的存储器中的一个或多个。
综上所述,本发明提供的虚假交易识别方法、装置、电子设备及存储介质,首先获取客户数据;之后对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;然后将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;最后基于各个入模变量的异常分,确定客户数据中的异常数据。本发明的异常交易识别方法可以在非常短的时间内处理大量数据,尤其适用于大规模数据集。与其他算法(如svm,k-means和LOF)相比,IsolationForest算法的时间复杂度更低,因此对计算资源的需求更少,具有较高的高效性,此外,与其他机器学习技术和异常检测算法不同,Isolation Forest算法的性能不受维度大小的影响。这意味着它可以应用于高维数据集,而无需进行数据降维,可扩展性强,与LOF(局部离群因子)相比,Isolation Forest更适合于处理具有全局异常点的数据集。由于IsolationForest使用随机树来检测异常值,因此可以避免LOF这样的算法受到局部数据簇的影响的缺点,准确性高,Isolation Forest对于噪声数据的影响较小,并且可以在不需要太多的人工干预的情况下自动适应数据分布。它还可以处理数据分布不规则或数据集中存在异常点的情况,鲁棒性强。
以上所述本发明的具体实施方式,并不构成对本发明保护范围的限定。任何根据本发明的技术构思所做出的各种其他相应的改变与变形,均应包含在本发明权利要求的保护范围内。
Claims (10)
1.一种虚假交易识别方法,其特征在于,包括如下步骤:
获取客户数据;
对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;
将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;
基于各个入模变量的异常分,确定客户数据中的异常数据。
2.根据权利要求1所述的虚假交易识别方法,其特征在于,所述客户数据至少包括客户基本信息、客户交易信息、客户余额信息以及客户工商信息。
3.根据权利要求1所述的虚假交易识别方法,其特征在于,所述对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量,包括:
对所述客户数据进行无关变量筛选;
对无关变量筛选后的客户数据进行随机森林重要性筛选,以剔除重要性为零的特征变量;
计算随机森林重要性筛选后的变量相关性,并根据变量相关性进行相关性筛选,以剔除相关性大于预设第一预设值、且重要性小于第二预设值的特征变量;
计算相关性筛选后的特征变量之间的共线性,根据所述共线性进行共线性筛选,以剔除共线性大于第三预设值的特征变量;
计算共线性筛选后的特征你变量的特征重要性,根据所述特征重要性进行二次重要性筛选,以剔除特征重要性小于第四预设值的特征变量;
计算二次重要性筛选后的特征变量的信息价值,并剔除信息价值小于第五预设值的特征变量后,将剩余的特征变量作为入模变量。
4.根据权利要求1所述的虚假交易识别方法,其特征在于,所述识别模型计算出每个入模变量的异常分的方法具体为:
从所述入模变量中又放回的抽取部分样本,随机选取部分特征,并基于预设的二叉树停止条件,完成多颗二叉树的构建;
对每颗二叉树进行测试,计算出各个入模变量的切分次数;
基于各个入模变量的切分次数,计算出各个所述入模变量的异常分。
5.根据权利要求4所述的虚假交易识别方法,其特征在于,所述切分次数的计算公式为:
h(x)=e+c(n);
其中,h(x)表示样本x在二叉树上的切分的次数,e表示切分次数,n表示和样本x同在一个叶子结点的样本个数,c(n)为修正值,表示n个样本构建一个BST二叉树的平均路径长度。
6.根据权利要求5所述的虚假交易识别方法,其特征在于,所述异常分的计算公式为:
其中,h(x)表示样本x在二叉树上的切分的次数,E(h(x))表示样本在t棵二叉树的切分的次数的均值,c(n)表示n个样本构建一个BST二叉树的平均路径长度。
7.根据权利要求1所述的虚假交易识别方法,其特征在于,所述基于各个入模变量的异常分,确定客户数据中的异常数据,包括:
当所述入模变量的异常分不小于第六预设值时,确定所述入模变量为异常数据;当所述入模变量的异常分小于第七预设值时,确定所述入模变量为正常数据。
8.一种虚假交易识别装置,其特征在于,包括:
数据获取模块,用于获取客户数据;
筛选模块,用于对所述客户数据进行特征筛选,以筛除所述客户数据中的无关变量后,得到入模变量;
异常分计算模块,用于将所述入模变量输入至预先训练完成的识别模型中,以计算出每个入模变量的异常分,其中,所述识别模型基于孤立森林算法建立;
异常确定模块,用于基于各个入模变量的异常分,确定客户数据中的异常数据。
9.一种电子设备,其特征在于,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机程序;
所述处理器执行所述计算机程序时实现如权利要求1-7任意一项所述的虚假交易识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,包括:处理器和存储器;
所述存储器上存储有可被所述处理器执行的计算机程序;
所述处理器执行所述计算机程序时实现如权利要求1-7任意一项所述的虚假交易识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310812280.5A CN116821820A (zh) | 2023-07-04 | 2023-07-04 | 一种虚假交易识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310812280.5A CN116821820A (zh) | 2023-07-04 | 2023-07-04 | 一种虚假交易识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116821820A true CN116821820A (zh) | 2023-09-29 |
Family
ID=88114355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310812280.5A Pending CN116821820A (zh) | 2023-07-04 | 2023-07-04 | 一种虚假交易识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116821820A (zh) |
-
2023
- 2023-07-04 CN CN202310812280.5A patent/CN116821820A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101834260B1 (ko) | 이상 거래 탐지 방법 및 장치 | |
CN111612041B (zh) | 异常用户识别方法及装置、存储介质、电子设备 | |
CN111898366B (zh) | 文献主题词聚合方法、装置、计算机设备及可读存储介质 | |
US10789225B2 (en) | Column weight calculation for data deduplication | |
CN109817339B (zh) | 基于大数据的患者分组方法和装置 | |
CN111612038B (zh) | 异常用户检测方法及装置、存储介质、电子设备 | |
CN108090216B (zh) | 一种标签预测方法、装置及存储介质 | |
US11971892B2 (en) | Methods for stratified sampling-based query execution | |
CN110929525B (zh) | 一种网贷风险行为分析检测方法、装置、设备和存储介质 | |
CN114298176A (zh) | 一种欺诈用户检测方法、装置、介质及电子设备 | |
CN112437053B (zh) | 入侵检测方法及装置 | |
CN110825894A (zh) | 数据索引建立、数据检索方法、装置、设备和存储介质 | |
WO2019223104A1 (zh) | 确定事件影响因素的方法、装置、终端设备及可读存储介质 | |
CN113807073B (zh) | 文本内容异常检测方法、装置以及存储介质 | |
CN111178533B (zh) | 实现自动半监督机器学习的方法及装置 | |
CN115600194A (zh) | 一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备 | |
CN113158777A (zh) | 质量评分方法、质量评分模型的训练方法及相关装置 | |
Rahman et al. | An efficient approach for selecting initial centroid and outlier detection of data clustering | |
CN113988878B (zh) | 一种基于图数据库技术的反欺诈方法及系统 | |
CN112233742A (zh) | 一种基于聚类的病历文档分类系统、设备、存储介质 | |
US20170293863A1 (en) | Data analysis system, and control method, program, and recording medium therefor | |
US10467258B2 (en) | Data categorizing system, method, program software and recording medium therein | |
CN116821820A (zh) | 一种虚假交易识别方法、装置、电子设备及存储介质 | |
CN114722941A (zh) | 信贷违约识别方法、装置、设备和介质 | |
CN115310606A (zh) | 基于数据集敏感属性重构的深度学习模型去偏方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |