CN117593121A - 异常交易的识别方法及其识别装置 - Google Patents
异常交易的识别方法及其识别装置 Download PDFInfo
- Publication number
- CN117593121A CN117593121A CN202311361821.3A CN202311361821A CN117593121A CN 117593121 A CN117593121 A CN 117593121A CN 202311361821 A CN202311361821 A CN 202311361821A CN 117593121 A CN117593121 A CN 117593121A
- Authority
- CN
- China
- Prior art keywords
- abnormal
- feature
- preset
- value
- entity object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 622
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000001514 detection method Methods 0.000 claims abstract description 64
- 238000007689 inspection Methods 0.000 claims abstract description 12
- 230000005856 abnormality Effects 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 16
- 238000000528 statistical test Methods 0.000 claims description 15
- 230000009466 transformation Effects 0.000 claims description 14
- 238000012216 screening Methods 0.000 claims description 12
- 238000007781 pre-processing Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 abstract description 7
- 238000012360 testing method Methods 0.000 description 22
- 238000010586 diagram Methods 0.000 description 8
- 238000012549 training Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 7
- 238000007619 statistical method Methods 0.000 description 6
- 238000004590 computer program Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000013459 approach Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 238000000638 solvent extraction Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000011550 data transformation method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Theoretical Computer Science (AREA)
- Educational Administration (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Technology Law (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种异常交易的识别方法及其识别装置,其中,该识别方法包括:获取业务数据,并基于业务数据,构建业务特征表,对每个特征进行预设统计检验,得到N个预设异常关系,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。本发明解决了相关技术中对异常交易进行识别的准确性较低的技术问题。
Description
技术领域
本发明涉及电子信息技术领域,具体而言,涉及一种异常交易的识别方法及其识别装置。
背景技术
在风控领域,尤其是支付业务中,会藏匿小部分的异常交易,这些异常交易可能是由于恶意攻击、欺诈行为、系统故障等原因造成的,对于支付平台和用户都会带来严重的损失和风险。因此,及时地识别和处理异常交易是风控系统的重要功能之一。
然而,由于异常交易的数量相对于正常交易来说非常少,导致数据严重不平衡,以及由于异常交易的类型和特征可能是多样的、未知的、动态变化的,导致难以用统一的标准或规则来定义和判断,因此,相关技术中的基于规则或有监督学习的方法往往难以适应异常交易检测的需求,难以有效检测出异常交易。
此外,无监督方法虽然能够在不依赖标签或分布的情况下检测异常交易,但是也存在一些局限性。一方面,无监督方法可能会将一些数值上异常但业务上正常的交易误判为异常交易,而这些交易可能具有重要的业务价值或解释意义,需要被排除在异常交易检测的范围之外;另一方面,无监督方法可能会漏掉一些专家规则无法覆盖的新型异常交易,这些交易可能具有新颖的攻击手段或欺诈模式,需要被纳入到异常交易检测的范围之内。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种异常交易的识别方法及其识别装置,以至少解决相关技术中对异常交易进行识别的准确性较低的技术问题。
根据本发明实施例的一个方面,提供了一种异常交易的识别方法,包括:获取业务数据,并基于所述业务数据,构建业务特征表,其中,所述业务特征表包括:M个实体对象,每个所述实体对象对应有N个特征,每个所述实体对象对应的所述特征具有特征值,M和N都是正整数;对每个所述特征进行预设统计检验,得到N个预设异常关系,其中,所述预设异常关系是所述特征、所述特征对应的特征阈值以及所述特征对应的第一异常实体对象集合构成的关系;基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合,并将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合;基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量;将大于预设检出阈值的所述检出数量对应的所述异常业务逻辑指示的业务交易识别为异常交易。
可选地,基于所述业务数据,构建业务特征表的步骤,包括:对所述业务数据进行数据清洗以及数据预处理,得到预设数据表,其中,所述预设数据表包括:M条业务记录,每条所述业务记录对应一个所述实体对象;对于每条所述业务记录,基于预设特征集合以及所述业务记录,确定所述实体对象在每个所述特征下的所述特征值,其中,所述预设特征集合包括:N个所述特征;基于每个所述实体对象在所有所述特征下的所述特征值,构建所述业务特征表。
可选地,对每个所述特征进行预设统计检验,得到N个预设异常关系的步骤,包括:对于每个所述特征,基于所述特征在每个所述实体对象下的所述特征值,生成所述特征的特征值数组;基于所述特征值数组,对所述特征进行正态检验,得到所述特征的正态检验值;将大于等于预设正态阈值的所述正态检验值指示的所述特征划分至正态特征集合,并将小于所述预设正态阈值的所述正态检验值指示的所述特征划至为非正态特征集合;基于所述正态特征集合中的每个正态特征对应的所述特征值数组,生成第一异常关系集合;基于所述非正态特征集合中的每个非正态特征对应的所述特征值数组,生成第二异常关系集合;基于所述第一异常关系集合以及所述第二异常关系集合,构建所述N个预设异常关系。
可选地,基于所述正态特征集合中的每个正态特征对应的所述特征值数组,生成第一异常关系集合的步骤,包括:对于所述正态特征集合中的每个正态特征,基于所述正态特征的所述特征值数组,确定所述正态特征的偏度值和峰度值;将所述偏度值属于预设偏度闭区间以及所述峰度值属于预设峰度闭区间的所述正态特征划分至偏度峰度特征集合,并将所述偏度值不属于所述预设偏度闭区间和/或所述峰度值不属于所述预设峰度闭区间的所述正态特征划分至非偏度峰度特征集合;对所述非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,得到所述非偏度峰度特征对应的新特征值数组,其中,所述新特征值数组中的每个特征值都是变换后的新特征值;基于所述偏度峰度特征集合中的每个偏度峰度特征对应的所述特征值数组以及每个所述非偏度峰度特征对应的所述新特征值数组,确定每个所述正态特征的均值和方差;对于每个所述正态特征,将所有大于所述特征阈值的所述特征值指示的所述实体对象确定为所述正态特征的所述第一异常实体对象集合,其中,每个所述正态特征对应一个所述特征阈值,所述特征阈值是基于所述均值和所述方差确定的;基于所有所述正态特征、每个所述正态特征对应的所述特征阈值以及每个所述正态特征对应的所述第一异常实体对象集合,构建所述第一异常关系集合。
可选地,基于所述非正态特征集合中的每个非正态特征对应的所述特征值数组,生成第二异常关系集合的步骤,包括:对于每个所述非正态特征,基于所述非正态特征对应的所述特征值数组,确定所述非正态特征的异常百分位数值;将所有大于所述异常百分位数值的所述特征值指示的所述实体对象确定为所述非正态特征的所述第一异常实体对象集合,其中,将每个所述非正态特征的所述异常百分位数值表征为所述非正态特征对应的所述特征阈值;基于所有所述非正态特征、每个所述非正态特征对应的所述特征阈值以及每个所述非正态特征对应的所述第一异常实体对象集合,构建所述第二异常关系集合。
可选地,基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合的步骤,包括:基于所有所述预设异常关系,确定所有第一异常实体对象;基于所述业务特征表,筛选出与每个所述第一异常实体对象关联的特征数据,其中,所述特征数据是由所述第一异常实体对象对应的所有所述特征的所述特征值构成;基于所有所述特征数据,构建所述预设数据集合。
可选地,在将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合之前,还包括:对于每个所述特征,基于所述特征在所述预设数据集合中的每个第一异常实体对象下的所述特征值,生成所述特征的预设特征值数组;对于所述预设数据集合中的每个第一异常实体对象,确定所述第一异常实体对象在每个所述特征下的第一预设值,其中,所述第一预设值基于所述特征的所述预设特征值数组的数组长度以及所述第一异常实体对象的所述特征值在所述预设特征值数组中出现的次数确定的;对于每个所述第一异常实体对象,基于所述第一异常实体对象在每个所述特征下的所述第一预设值,确定所述第一异常实体对象的第二预设值;基于所述第一异常实体对象在每个所述特征下的所述第一预设值以及所述第二预设值,确定所述第一异常实体对象的箱数;基于所述箱数以及所述第一异常实体对象在每箱下的概率密度值,确定所述第一异常实体对象的预设分数,其中,箱下的所述概率密度值是所述第一异常实体对象的每个所述特征值划分到该箱下的概率之积。
可选地,将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合的步骤,包括:将所述预设数据集合输入至每个所述预设异常识别模型,得到所述预设异常识别模型输出的每个所述第一异常实体对象的异常分数;基于所有所述异常分数,确定预设标签集合,其中,所述预设标签集合包括:预设平均值、预设最大值、所有平均值中的最大值、所有最大值的平均值;对于每个所述第一异常实体对象,基于所述第一异常实体对象的所述预设分数以及所述预设标签集合,确定所述第一异常实体对象的异常分数阈值;将所述异常分数大于所述异常分数阈值的所述第一异常实体对象划分至所述第二异常实体对象集合。
可选地,基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量的步骤,包括:对于预设业务逻辑库中的每个预设业务逻辑,基于所述预设异常关系中每个第一异常实体对象对应的所述特征值,确定满足所述预设业务逻辑的异常实体对象数量,其中,所述预设业务逻辑是由至少一个特征条件构成,所述特征条件是所述特征属于异常特征的特征值范围;基于所述第二异常实体对象集合中的每个第二异常实体对象对应的所述特征值,确定目标业务逻辑集合,并对于所述目标业务逻辑集合中的每个目标业务逻辑,基于每个所述第二异常实体对象对应的所述特征值,确定满足所述目标业务逻辑的所述异常实体对象数量;合并所有所述预设业务逻辑以及所述目标业务逻辑集合,得到所述异常业务逻辑集合,并将每个所述异常业务逻辑对应的所述异常实体对象数量表征为所述检出数量。
根据本发明实施例的另一方面,还提供了一种异常交易的识别装置,包括:构建单元,用于获取业务数据,并基于所述业务数据,构建业务特征表,其中,所述业务特征表包括:M个实体对象,每个所述实体对象对应有N个特征,每个所述实体对象对应的所述特征具有特征值,M和N都是正整数;检验单元,用于对每个所述特征进行预设统计检验,得到N个预设异常关系,其中,所述预设异常关系是所述特征、所述特征对应的特征阈值以及所述特征对应的第一异常实体对象集合构成的关系;输入单元,用于基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合,并将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合;确定单元,用于基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量;识别单元,用于将大于预设检出阈值的所述检出数量对应的所述异常业务逻辑指示的业务交易识别为异常交易。
可选地,所述构建单元包括:第一处理模块,用于对所述业务数据进行数据清洗以及数据预处理,得到预设数据表,其中,所述预设数据表包括:M条业务记录,每条所述业务记录对应一个所述实体对象;第一确定模块,用于对于每条所述业务记录,基于预设特征集合以及所述业务记录,确定所述实体对象在每个所述特征下的所述特征值,其中,所述预设特征集合包括:N个所述特征;第一构建模块,用于基于每个所述实体对象在所有所述特征下的所述特征值,构建所述业务特征表。
可选地,所述检验单元包括:第一生成模块,用于对于每个所述特征,基于所述特征在每个所述实体对象下的所述特征值,生成所述特征的特征值数组;第一检验模块,用于基于所述特征值数组,对所述特征进行正态检验,得到所述特征的正态检验值;第一划分模块,用于将大于等于预设正态阈值的所述正态检验值指示的所述特征划分至正态特征集合,并将小于所述预设正态阈值的所述正态检验值指示的所述特征划至为非正态特征集合;第二生成模块,用于基于所述正态特征集合中的每个正态特征对应的所述特征值数组,生成第一异常关系集合;第三生成模块,用于基于所述非正态特征集合中的每个非正态特征对应的所述特征值数组,生成第二异常关系集合;第二构建模块,用于基于所述第一异常关系集合以及所述第二异常关系集合,构建所述N个预设异常关系。
可选地,所述第二生成模块包括:第一确定子模块,用于对于所述正态特征集合中的每个正态特征,基于所述正态特征的所述特征值数组,确定所述正态特征的偏度值和峰度值;第一划分子模块,用于将所述偏度值属于预设偏度闭区间以及所述峰度值属于预设峰度闭区间的所述正态特征划分至偏度峰度特征集合,并将所述偏度值不属于所述预设偏度闭区间和/或所述峰度值不属于所述预设峰度闭区间的所述正态特征划分至非偏度峰度特征集合;第一变换子模块,用于对所述非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,得到所述非偏度峰度特征对应的新特征值数组,其中,所述新特征值数组中的每个特征值都是变换后的新特征值;第二确定子模块,用于基于所述偏度峰度特征集合中的每个偏度峰度特征对应的所述特征值数组以及每个所述非偏度峰度特征对应的所述新特征值数组,确定每个所述正态特征的均值和方差;第三确定子模块,用于对于每个所述正态特征,将所有大于所述特征阈值的所述特征值指示的所述实体对象确定为所述正态特征的所述第一异常实体对象集合,其中,每个所述正态特征对应一个所述特征阈值,所述特征阈值是基于所述均值和所述方差确定的;第一构建子模块,用于基于所有所述正态特征、每个所述正态特征对应的所述特征阈值以及每个所述正态特征对应的所述第一异常实体对象集合,构建所述第一异常关系集合。
可选地,所述第三生成模块包括:第四确定子模块,用于对于每个所述非正态特征,基于所述非正态特征对应的所述特征值数组,确定所述非正态特征的异常百分位数值;第五确定子模块,用于将所有大于所述异常百分位数值的所述特征值指示的所述实体对象确定为所述非正态特征的所述第一异常实体对象集合,其中,将每个所述非正态特征的所述异常百分位数值表征为所述非正态特征对应的所述特征阈值;第二构建子模块,用于基于所有所述非正态特征、每个所述非正态特征对应的所述特征阈值以及每个所述非正态特征对应的所述第一异常实体对象集合,构建所述第二异常关系集合。
可选地,所述输入单元包括:第二确定模块,用于基于所有所述预设异常关系,确定所有第一异常实体对象;第一筛选模块,用于基于所述业务特征表,筛选出与每个所述第一异常实体对象关联的特征数据,其中,所述特征数据是由所述第一异常实体对象对应的所有所述特征的所述特征值构成;第三构建模块,用于基于所有所述特征数据,构建所述预设数据集合。
可选地,所述识别装置还包括:第四生成模块,用于在将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合之前,对于每个所述特征,基于所述特征在所述预设数据集合中的每个第一异常实体对象下的所述特征值,生成所述特征的预设特征值数组;第三确定模块,用于对于所述预设数据集合中的每个第一异常实体对象,确定所述第一异常实体对象在每个所述特征下的第一预设值,其中,所述第一预设值基于所述特征的所述预设特征值数组的数组长度以及所述第一异常实体对象的所述特征值在所述预设特征值数组中出现的次数确定的;第四确定模块,用于对于每个所述第一异常实体对象,基于所述第一异常实体对象在每个所述特征下的所述第一预设值,确定所述第一异常实体对象的第二预设值;第五确定模块,用于基于所述第一异常实体对象在每个所述特征下的所述第一预设值以及所述第二预设值,确定所述第一异常实体对象的箱数;第六确定模块,用于基于所述箱数以及所述第一异常实体对象在每箱下的概率密度值,确定所述第一异常实体对象的预设分数,其中,箱下的所述概率密度值是所述第一异常实体对象的每个所述特征值划分到该箱下的概率之积。
可选地,所述输入单元还包括:第一输入模块,用于将所述预设数据集合输入至每个所述预设异常识别模型,得到所述预设异常识别模型输出的每个所述第一异常实体对象的异常分数;第七确定模块,用于基于所有所述异常分数,确定预设标签集合,其中,所述预设标签集合包括:预设平均值、预设最大值、所有平均值中的最大值、所有最大值的平均值;第八确定模块,用于对于每个所述第一异常实体对象,基于所述第一异常实体对象的所述预设分数以及所述预设标签集合,确定所述第一异常实体对象的异常分数阈值;第二划分模块,用于将所述异常分数大于所述异常分数阈值的所述第一异常实体对象划分至所述第二异常实体对象集合。
可选地,所述确定单元包括:第九确定模块,用于对于预设业务逻辑库中的每个预设业务逻辑,基于所述预设异常关系中每个第一异常实体对象对应的所述特征值,确定满足所述预设业务逻辑的异常实体对象数量,其中,所述预设业务逻辑是由至少一个特征条件构成,所述特征条件是所述特征属于异常特征的特征值范围;第十确定模块,用于基于所述第二异常实体对象集合中的每个第二异常实体对象对应的所述特征值,确定目标业务逻辑集合,并对于所述目标业务逻辑集合中的每个目标业务逻辑,基于每个所述第二异常实体对象对应的所述特征值,确定满足所述目标业务逻辑的所述异常实体对象数量;第一合并模块,用于合并所有所述预设业务逻辑以及所述目标业务逻辑集合,得到所述异常业务逻辑集合,并将每个所述异常业务逻辑对应的所述异常实体对象数量表征为所述检出数量。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述任意一项异常交易的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现上述任意一项异常交易的识别方法。
在本公开中,获取业务数据,并基于业务数据,构建业务特征表,对每个特征进行预设统计检验,得到N个预设异常关系,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
在本公开中,可以先根据获取业务数据,构建业务特征表,然后对业务特征表中的每个特征进行预设统计检验,以得到多个预设异常关系,之后根据业务特征表以及所有预设异常关系得到预设数据集合,并将该预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,以得到第二异常实体对象集合,再根据预设异常关系以及第二异常实体对象集合,得到异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,如果存在大于预设检出阈值的检出数量,则将对应的异常业务逻辑指示的业务交易识别为异常交易,提高了对异常交易进行识别的准确性,并提高了识别出的异常交易的可解释性,进而解决了相关技术中对异常交易进行识别的准确性较低的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的异常交易的识别方法的流程图;
图2是根据本发明实施例的一种可选的业务逻辑筛选流程的示意图;
图3是根据本发明实施例的一种可选的基于统计方法与无监督集成异常检测模型的异常交易识别流程的示意图;
图4是根据本发明实施例的一种可选的异常交易的识别装置的示意图;
图5是根据本发明实施例的一种用于异常交易的识别方法的电子设备(或移动设备)的硬件结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,并且相关数据的收集、使用和处理需要遵守相关地区的相关法律法规和标准,并提供有相应的操作入口,供用户选择授权或者拒绝。
本发明提出了一种基于统计方法与无监督集成异常检测模型的异常交易识别方法,对相关技术中的无监督异常检测模型、专家规则、特征工程等方面进行了扩展,有效提高了无监督模型结果的可解释性。
本发明通过在无监督集成异常检测模型的基础上,增加了一个统计方法的前处理模块,用于对数据进行快速的异常值筛选和去除,能够解决相关技术中无监督异常检测的数据不均衡以及业务可解释性较低的问题。
下面结合各个实施例来详细说明本发明。
实施例一
根据本发明实施例,提供了一种异常交易的识别方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的一种可选的异常交易的识别方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,获取业务数据,并基于业务数据,构建业务特征表,其中,业务特征表包括:M个实体对象,每个实体对象对应有N个特征,每个实体对象对应的特征具有特征值,M和N都是正整数。
步骤S102,对每个特征进行预设统计检验,得到N个预设异常关系,其中,预设异常关系是特征、特征对应的特征阈值以及特征对应的第一异常实体对象集合构成的关系。
步骤S103,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合。
步骤S104,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量。
步骤S105,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
通过上述步骤,可以获取业务数据,并基于业务数据,构建业务特征表,对每个特征进行预设统计检验,得到N个预设异常关系,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。在本发明实施例中,可以先根据获取业务数据,构建业务特征表,然后对业务特征表中的每个特征进行预设统计检验,以得到多个预设异常关系,之后根据业务特征表以及所有预设异常关系得到预设数据集合,并将该预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,以得到第二异常实体对象集合,再根据预设异常关系以及第二异常实体对象集合,得到异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,如果存在大于预设检出阈值的检出数量,则将对应的异常业务逻辑指示的业务交易识别为异常交易,提高了对异常交易进行识别的准确性,并提高了识别出的异常交易的可解释性,进而解决了相关技术中对异常交易进行识别的准确性较低的技术问题。
下面结合上述各步骤对本发明实施例进行详细说明。
步骤S101,获取业务数据,并基于业务数据,构建业务特征表,其中,业务特征表包括:M个实体对象,每个实体对象对应有N个特征,每个实体对象对应的特征具有特征值,M和N都是正整数。
在本发明实施例中,可以先获取业务数据(例如,多张支付业务数据表中的数据),然后对业务数据进行预处理,之后根据处理后的业务数据构建表格数据(即业务特征表)(即获取业务数据,并基于业务数据,构建业务特征表),该表格数据中row(行)为主体对象,co1umn(列)为特征变量(即该业务特征表包括:M(正整数)个实体对象,每个实体对象对应有N(正整数)个特征,每个实体对象对应的特征具有特征值)。
可选地,基于业务数据,构建业务特征表的步骤,包括:对业务数据进行数据清洗以及数据预处理,得到预设数据表,其中,预设数据表包括:M条业务记录,每条业务记录对应一个实体对象;对于每条业务记录,基于预设特征集合以及业务记录,确定实体对象在每个特征下的特征值,其中,预设特征集合包括:N个特征;基于每个实体对象在所有特征下的特征值,构建业务特征表。
在本发明实施例中,可以先对获取的业务数据进行数据清洗(例如,清洗掉失效的数据以及空白的数据等)以及数据预处理(例如,统一多张支付业务数据表的格式,将多张数据表合并成一张数据表等),以将原始的业务数据重构成可以进行特征开发的数据宽表(即预设数据表,该预设数据表包括:M条业务记录,每条业务记录对应一个实体对象)。
在本发明实施例中,可以针对不同的业务场景,进行不同的场景化特征开发(即可以根据不同的业务场景的需求,确定不同的特征集合)。具体的,可以对每一个实体开发不同逻辑的特征。可以根据特征类型,选择使用最大值,最小值和平均值等来表征某一实体在该特征下的特征值。例如,有实体A,特征a,计算实体A在特征a下表征的最大值记作特征a的最终数值。
表1是一种可选的场景分类的示例描述。
表1
在本发明实施例中,对于构建的预设数据表中的每条业务记录,根据可以预先确定的预设特征集合(该预设特征集合包括:N个特征,例如,充值笔数、充值金额等特征)以及业务记录,确定实体对象在每个特征下的特征值,之后根据每个实体对象在所有特征下的特征值,构建业务特征表(即可以得到特征集合{a,b,c,d,...,n};实体集合{实体1,实体2,实体3,...,实体m},最终构建成特征表格数据(即业务特征表))。
步骤S102,对每个特征进行预设统计检验,得到N个预设异常关系,其中,预设异常关系是特征、特征对应的特征阈值以及特征对应的第一异常实体对象集合构成的关系。
可选地,对每个特征进行预设统计检验,得到N个预设异常关系的步骤,包括:对于每个特征,基于特征在每个实体对象下的特征值,生成特征的特征值数组;基于特征值数组,对特征进行正态检验,得到特征的正态检验值;将大于等于预设正态阈值的正态检验值指示的特征划分至正态特征集合,并将小于预设正态阈值的正态检验值指示的特征划至为非正态特征集合;基于正态特征集合中的每个正态特征对应的特征值数组,生成第一异常关系集合;基于非正态特征集合中的每个非正态特征对应的特征值数组,生成第二异常关系集合;基于第一异常关系集合以及第二异常关系集合,构建N个预设异常关系。
在本发明实施例中,可以对业务特征表中的每个特征进行预设统计检验(例如,正态性检验、Jarque-Bera检验(即一种检测样本数据是否具有符合正态分布的偏度和峰度的拟合优度的检验)),以得到N个预设异常关系,该预设异常关系是特征-阈值-实体集合的关系(即预设异常关系是特征、特征对应的特征阈值以及特征对应的第一异常实体对象集合构成的关系),具体为:对于每个特征,可以根据特征在每个实体对象下的特征值,生成该特征对应的特征值数组,然后根据相应的特征值数组,对每个特征进行正态检验(即正态性检验),以得到每个特征的正态检验值,之后将大于等于预设正态阈值(即分流阈值,可以根据实际情况进行设置)的正态检验值指示的特征划分至正态特征集合,并将小于预设正态阈值的正态检验值指示的特征划至为非正态特征集合(即由于每个实体在每个特征下的表征具有具体业务含义(即在数据上认为是>=0的),因此,可以对特征集合中的每一个特征进行正态性检验,随后,定义分流阈值x,得到正态性检验结果>=x的特征有u个,认为这u个特征是符合正态分布的;正态性检验结果<x的特征有v个,认为这v个特征是不符合正态性检验的,其中,u+v=n)。然后,根据正态特征集合中的每个正态特征对应的特征值数组,生成第一异常关系集合,并根据非正态特征集合中的每个非正态特征对应的特征值数组,生成第二异常关系集合,之后根据第一异常关系集合以及第二异常关系集合,构建N个预设异常关系。
可选地,基于正态特征集合中的每个正态特征对应的特征值数组,生成第一异常关系集合的步骤,包括:对于正态特征集合中的每个正态特征,基于正态特征的特征值数组,确定正态特征的偏度值和峰度值;将偏度值属于预设偏度闭区间以及峰度值属于预设峰度闭区间的正态特征划分至偏度峰度特征集合,并将偏度值不属于预设偏度闭区间和/或峰度值不属于预设峰度闭区间的正态特征划分至非偏度峰度特征集合;对非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,得到非偏度峰度特征对应的新特征值数组,其中,新特征值数组中的每个特征值都是变换后的新特征值;基于偏度峰度特征集合中的每个偏度峰度特征对应的特征值数组以及每个非偏度峰度特征对应的新特征值数组,确定每个正态特征的均值和方差;对于每个正态特征,将所有大于特征阈值的特征值指示的实体对象确定为正态特征的第一异常实体对象集合,其中,每个正态特征对应一个特征阈值,特征阈值是基于均值和方差确定的;基于所有正态特征、每个正态特征对应的特征阈值以及每个正态特征对应的第一异常实体对象集合,构建第一异常关系集合。
在本发明实施例中,实体集合在具体业务上具有大样本量的特性。所以对满足正态分布的u个特征分别进行Jarque-Bera检验,以得到每一个特征的偏度和峰度(即对于正态特征集合中的每个正态特征,基于正态特征的特征值数组,确定正态特征的偏度值和峰度值)。之后确定偏度闭区间[S1,S2]以及峰度闭区间[K1,K2],将偏度值属于预设偏度闭区间以及峰度值属于预设峰度闭区间的正态特征划分至偏度峰度特征集合,并将偏度值不属于预设偏度闭区间和/或峰度值不属于预设峰度闭区间的正态特征划分至非偏度峰度特征集合(可以假设有u1个特征的偏度在[S1,S2]内,且这些特征的峰度在[K1,K2]内,其余不满足上条件的特征有u2个,其中,u1+u2=u)。然后,可以对u2个特征进行BOX-COX变换(即一种常用统计建模中的数据变换方法),如可以定义一个变换参数θ使得u2个特征变换后的偏度和峰度满足上述定义的闭区间(即对非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,以得到非偏度峰度特征对应的新特征值数组,该新特征值数组中的每个特征值都是变换后的新特征值),记经过变换的u2个特征为u′2,有:然后,可以对u′中的每个特征计算其均值μ和方差σ,即根据偏度峰度特征集合中的每个偏度峰度特征对应的特征值数组以及每个非偏度峰度特征对应的新特征值数组,确定每个正态特征的均值和方差。
在本实施例中,可以使用统计3s igma原理(即拉依达准则,若数据服从正态分布,则异常值被定义为一组结果值中与平均值的偏差超过三倍标准差的值),对u′中的每个特征计算根据均值μ和方差σ定义的特征阈值μ+3σ,以得到特征阈值集合{μ1+3σ1,μ2+3σ2,...,μn+3σn}(即每个正态特征对应一个特征阈值,特征阈值是基于均值和方差确定的),对于每个特征,选择表征数值gapn>=μn+3σn的实体(即对于每个正态特征,将所有大于特征阈值的特征值指示的实体对象确定为正态特征的第一异常实体对象集合)。之后,根据得到的每个特征的表征数值和满足阈值的实体,构建为:特征-阈值-实体集合的关系(即基于所有正态特征、每个正态特征对应的特征阈值以及每个正态特征对应的第一异常实体对象集合,构建第一异常关系集合)。
可选地,基于非正态特征集合中的每个非正态特征对应的特征值数组,生成第二异常关系集合的步骤,包括:对于每个非正态特征,基于非正态特征对应的特征值数组,确定非正态特征的异常百分位数值;将所有大于异常百分位数值的特征值指示的实体对象确定为非正态特征的第一异常实体对象集合,其中,将每个非正态特征的异常百分位数值表征为非正态特征对应的特征阈值;基于所有非正态特征、每个非正态特征对应的特征阈值以及每个非正态特征对应的第一异常实体对象集合,构建第二异常关系集合。
在本发明实施例中,对于不满足正态分布的v个特征,可以使用Winsorizationmethod Percentile Capping方法(即截尾处理方法)选择相应的异常实体对象集合,即可以定义每个特征的异常百分位数x(即对于每个非正态特征,基于非正态特征对应的特征值数组,确定非正态特征的异常百分位数值),对每个特征下每个实体的表征数据(即特征值)进行百分位数归置,选择特征数值所在分位数>=x的实体(即将所有大于异常百分位数值的特征值指示的实体对象确定为非正态特征的第一异常实体对象集合)。在本实施例中,可以将每个非正态特征的异常百分位数值表征为非正态特征对应的特征阈值,之后,根据得到的每个特征的表征数值和满足阈值的实体,构建为:特征-阈值-实体集合的关系(即基于所有非正态特征、每个非正态特征对应的特征阈值以及每个非正态特征对应的第一异常实体对象集合,构建第二异常关系集合)。
步骤S103,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合。
可选地,基于业务特征表以及所有预设异常关系,构建预设数据集合的步骤,包括:基于所有预设异常关系,确定所有第一异常实体对象;基于业务特征表,筛选出与每个第一异常实体对象关联的特征数据,其中,特征数据是由第一异常实体对象对应的所有特征的特征值构成;基于所有特征数据,构建预设数据集合。
在本发明实施例中,可以根据所有预设异常关系,确定所有第一异常实体对象(即确定与每个特征关联的异常实体对象),然后根据业务特征表,筛选出与每个第一异常实体对象关联的特征数据(该特征数据是由第一异常实体对象对应的所有特征的特征值构成),之后基于所有特征数据,构建预设数据集合(即该预设数据集合是由筛选出来的异常实体对象的特征数据构成的)。
在本发明实施例中,可以将得到的预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,以得到第二异常实体对象集合。
在本发明实施例中,还可以将预设数据集合按照1:1进行随机划分,以得到训练集和测试集,然后基于预设异常识别模型,分别采用训练集以及测试集进行异常实体筛选,以形成对照组实验,从而提高预设异常识别模型的识别准确性。
可选地,在将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合之前,还包括:对于每个特征,基于特征在预设数据集合中的每个第一异常实体对象下的特征值,生成特征的预设特征值数组;对于预设数据集合中的每个第一异常实体对象,确定第一异常实体对象在每个特征下的第一预设值,其中,第一预设值基于特征的预设特征值数组的数组长度以及第一异常实体对象的特征值在预设特征值数组中出现的次数确定的;对于每个第一异常实体对象,基于第一异常实体对象在每个特征下的第一预设值,确定第一异常实体对象的第二预设值;基于第一异常实体对象在每个特征下的第一预设值以及第二预设值,确定第一异常实体对象的箱数;基于箱数以及第一异常实体对象在每箱下的概率密度值,确定第一异常实体对象的预设分数,其中,箱下的概率密度值是第一异常实体对象的每个特征值划分到该箱下的概率之积。
在本发明实施例中,因为预设数据集合中的每个特征具有实际的表征数值,因此可以不对数据进行标准化处理。
在本发明实施例中,可以先对每个特征进行分布密度检测,具体为:对于每个特征,可以根据特征在预设数据集合中的每个第一异常实体对象下的特征值,生成该特征的预设特征值数组。然后对于预设数据集合中的每个第一异常实体对象,确定该第一异常实体对象在每个特征下的第一预设值(即N值),该第一预设值基于特征的预设特征值数组的数组长度以及第一异常实体对象的特征值在预设特征值数组中出现的次数确定的(即定义N值为一个实体在一个特征下的记作N,其中,nuniquen表示该实体的特征值在相应的预设特征值数组中出现的次数,countn表示该特征的预设特征值数组的数组长度)。再对于每个第一异常实体对象,根据第一异常实体对象在每个特征下的第一预设值,确定第一异常实体对象的第二预设值(即k值,k值的计算公式为:/>其中,/>为参数,n为特征的数量,N1至Nn表示实体在每个特征下的N值)。之后可以根据第一异常实体对象在每个特征下的第一预设值以及第二预设值,确定第一异常实体对象的箱数,其中,计算箱数bins的公式为:/> 其中,kT1表示k值,NT1表示关于实体在每个特征下的N值之和。
在本发明实施例中,可以定义实体的密度检测函数:(即基于箱数以及第一异常实体对象在每箱下的概率密度值,确定第一异常实体对象的预设分数(即HBOS分数,HBOS(Histogram-based Outlier Score)是一种异常检测算法)),其中,P为实体,HBOS(P)表示实体P的预设分数,histi(P)表示实体P在第i箱下的概率密度值(箱下的概率密度值是第一异常实体对象的每个特征值划分到该箱下的概率之积)。
可选地,将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合的步骤,包括:将预设数据集合输入至每个预设异常识别模型,得到预设异常识别模型输出的每个第一异常实体对象的异常分数;基于所有异常分数,确定预设标签集合,其中,预设标签集合包括:预设平均值、预设最大值、所有平均值中的最大值、所有最大值的平均值;对于每个第一异常实体对象,基于第一异常实体对象的预设分数以及预设标签集合,确定第一异常实体对象的异常分数阈值;将异常分数大于异常分数阈值的第一异常实体对象划分至第二异常实体对象集合。
在本发明实施例中,可以根据HBOS分数选取适用的基础模型(即预设异常识别模型),假设有基础模型集合(即预设数据集合){D1,D2,...,Dn},通过将预设数据集合输入至每个预设异常识别模型,可以得到预设异常识别模型输出的每个第一异常实体对象的异常分数:其中,T1train表示输入的预设数据集合。
在本发明实施例中,可以根据所有异常分数,确定预设标签集合,该预设标签集合为{average,max,AOM,MOA}(即该预设标签集合包括:预设平均值average、预设最大值max、所有平均值中的最大值AOM、所有最大值的平均值MOA)。之后,对于每个第一异常实体对象,可以根据第一异常实体对象的预设分数以及预设标签集合,确定第一异常实体对象的异常分数阈值,即在计算出每一个实体P的HBOS(P)分数后,可以根据如下判断公式确定每个对象的异常分数阈值O(ωp),其中,判断公式为:
然后,根据O(ωp)选出的异常实体,即确定异常分数大于异常分数阈值的实体,得到第二异常实体对象集合(即将异常分数大于异常分数阈值的第一异常实体对象划分至第二异常实体对象集合)。
步骤S104,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量。
可选地,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量的步骤,包括:对于预设业务逻辑库中的每个预设业务逻辑,基于预设异常关系中每个第一异常实体对象对应的特征值,确定满足预设业务逻辑的异常实体对象数量,其中,预设业务逻辑是由至少一个特征条件构成,特征条件是特征属于异常特征的特征值范围;基于第二异常实体对象集合中的每个第二异常实体对象对应的特征值,确定目标业务逻辑集合,并对于目标业务逻辑集合中的每个目标业务逻辑,基于每个第二异常实体对象对应的特征值,确定满足目标业务逻辑的异常实体对象数量;合并所有预设业务逻辑以及目标业务逻辑集合,得到异常业务逻辑集合,并将每个异常业务逻辑对应的异常实体对象数量表征为检出数量。
在本发明实施例中,可以对n个{特征-阈值-实体集合}关系(即预设异常关系)进行抽取操作,抽取方式按照业务逻辑进行,以得到满足该业务逻辑的异常实体对象数量(即对于预设业务逻辑库中的每个预设业务逻辑,可以根据预设异常关系中每个第一异常实体对象对应的特征值,确定满足预设业务逻辑的异常实体对象数量,其中,预设业务逻辑是由至少一个特征条件构成,特征条件是特征属于异常特征的特征值范围)。例如,对于业务逻辑集合{BL1,BL2,...,BLn}(即预设业务逻辑库)中的每个业务逻辑,需要分别将所对应的异常实体提取出来。如业务逻辑:特征条件1&特征条件2&特征条件3,如果有k个实体均满足上述业务逻辑,则抽取这k个{特征-阈值-实体集合}的关系,定义为异常实体。
在本发明实施例中,对于根据O(ωp)选出异常的实体,可以进行逻辑回溯,根据这些实体的在每个特征下的数值表现,进行逻辑提取(即基于第二异常实体对象集合中的每个第二异常实体对象对应的特征值,确定目标业务逻辑集合)。例如,k个实体在特征条件1&特征条件2&特征条件7下表现出数值异常,则可以得到相应的业务逻辑:特征条件1&特征条件2&特征条件,最终得到业务逻辑组合{ML1,ML2,...,MLn}(即目标业务逻辑集合)。之后,对于目标业务逻辑集合中的每个目标业务逻辑,根据每个第二异常实体对象对应的特征值,确定满足目标业务逻辑的异常实体对象数量。
在本发明实施例中,合并所有预设业务逻辑以及目标业务逻辑集合,以得到异常业务逻辑集合,并将每个异常业务逻辑对应的异常实体对象数量表征为检出数量。例如,将业务逻辑集合{BL1,BL2,...,BLn}与业务逻辑组合{ML1,ML2,...,MLn}进行合并,得到业务逻辑并集{ML1,BL1,BL2,ML2,...,MLn,BLn},其中,每个业务逻辑对应有检出数量。
步骤S105,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
在本发明实施例中,可以对异常业务逻辑集合中的每个异常业务逻辑进行排序,例如,按照业务逻辑重要程度一检出量进行排名,如:
逻辑1-检出数量x;
逻辑2-检出数量y;
逻辑3-检出数量z;
逻辑n-检出数量n。
在本发明实施例中,可以根据实际情况确定预设检出阈值,然后将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易,并及时对异常交易进行预警,以降低风险。
图2是根据本发明实施例的一种可选的业务逻辑筛选流程的示意图,如图2所示,在确定{异常特征-阈值-实体集合}后,可以根据{异常特征-阈值-实体集合}的关系,确定每个业务逻辑的检出量,然后进行业务逻辑判别,根据每个业务逻辑对应的检出量,进行异常交易认定。
下面结合另一种可选的具体实施方式进行详细说明。
图3是根据本发明实施例的一种可选的基于统计方法与无监督集成异常检测模型的异常交易识别流程的示意图,如图3所示,包括如下流程:
(1)获取原始数据,并对原始数据进行数据预处理,以得到特征宽表。
(2)对构建的特征宽表进行统计检验,以进行第一次特征区分,然后根据特征区分结果,使用统计方法进行异常检测,具体为:可以进行特征分布检验,得到不满足正态分布的特征集合以及满足正态分布的特征集合。对于满足正态分布的特征集合,可以先对其中不满足偏度闭区间和峰度闭区间的特征进行BOX-COX变换,然后对其中的所有特征进行3sigma异常检测,以得到{异常特征-阈值-实体集合};对于满足正态分布的特征集合,可以对其中的特征进行Winsorization异常检测(即截尾处理异常检测),以得到{异常特征-阈值-实体集合}。
(3)对特征宽表进行数据集数据划分,以得到训练集和测试集。
(4)对训练集和测试集分别进行HBOS计算,以根据计算结果训练基学习器,进行集成学习,然后根据学习的结果,进行Pseudo Groud Truth Generation判断,以得到{异常特征-阈值-实体集合}。
下面以支付风控场景为例,进行异常交易识别的过程阐述。
(1)根据内部数据源获取到支付风控场景中的交易明细表,如选取2023年1月1日-2023年1月8目的产生交易数据,将用户作为实际样本,数量级为百万级别,并选取97个特征变量,以构成百万级*97的特征表。
(2)首先进行97次正态分布检验,发现满足正态分布的特征变量有34个,不满足的有63个。对满足正态分布的34个特征变量进行Jarque-Bera检验,得到每个特征变量的峰度值和偏度值,然后确定偏度区间为[-0.848,0.309],峰度区间为[0.608,1.383],其中,偏度区间和峰度区间是业务人员长期的数据积累得到的,具有实际业务含义,经过计算有11个特征变量的峰度和偏度不在区间内,对不满足的11个特征变量进行BOX-COX压缩,使其也满足当前区间。
(3)然后对处理后的特征变量使用3sigma原理,阈值为μn+3σn。最后按照特征变量名-阈值-实体集合的形式提取检测结果。对不满足正态分布的v个特征变量使用Winsorization method Percentile Capping方法,节选分位数在1%以上的数据定义为异常,最后按照特征变量名-阈值-实体集合的形式提取检测结果。
(4)将百万级别的实体按照1:1划分为训练集和测试集。对训练集进行密度检测,计算每个实体的HBOS分数,然后再训练模型,这里使用了47个基础模型,得到伪标签分数集合,分别对每个实体的HBOS分数与伪标签分数进行比对,得到最终每个实体的分类。固定训练集所使用的47个基础模型的参数,对测试集使用同样的比对方法,最终将结果合并起来,按照特征变量名-阈值-实体集合的形式提取检测结果。
(5)将(3)和(4)中的特征变量名-阈值-实体集合合并,按照特征组合从大到小的排序罗列组合,剔除不符合一般逻辑的特征组合。此次业务逻辑集合里一共有12个特征组合,分别是:
业务逻辑1:充值笔数&充值金额方差&IP归属最大群组规模,同时满足上述特征变量和阈值的实体有6XXX个;
业务逻辑2:……;
.......
业务逻辑12:……。
(6)由业务人员挑选业务逻辑组合作为预警目标,这里也可以选用决策树对单一组合进行最佳筛选。
本发明实施例中,通过对统计异常检测方法和无监督异常检测算法进行有效结合,能够准确识别出异常交易。首先,通过使用统计原理来观测全局变量,能简单高效的得到异常值;其次,通过引入HBOS方法,能够对基学习器的输出结果进行衡量,避免了模型陷入局部最优解问题,能够有效平衡全局最优解与局部最优解。此外,本实施例还可以定制化进行特征开发与业务逻辑集合配置,符合业务人员的实际需求,异常检出的可解释性较高,避免了网络学习的低解释性。并且,本实施例中的阈值设置具有实际业务含义,可复制性高,对后续基于统计方法的特征工程具有实践意义和推广应用价值。
下面结合另一实施例进行详细说明。
实施例二
本实施例中提供的一种异常交易的识别装置包含了多个实施单元,每个实施单元对应于上述实施例一中的各个实施步骤。
图4是根据本发明实施例的一种可选的异常交易的识别装置的示意图,如图4所示,该识别装置可以包括:构建单元40,检验单元41,输入单元42,确定单元43,识别单元44,其中,
构建单元40,用于获取业务数据,并基于业务数据,构建业务特征表,其中,业务特征表包括:M个实体对象,每个实体对象对应有N个特征,每个实体对象对应的特征具有特征值,M和N都是正整数;
检验单元41,用于对每个特征进行预设统计检验,得到N个预设异常关系,其中,预设异常关系是特征、特征对应的特征阈值以及特征对应的第一异常实体对象集合构成的关系;
输入单元42,用于基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合;
确定单元43,用于基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量;
识别单元44,用于将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
上述识别装置,可以通过构建单元40获取业务数据,并基于业务数据,构建业务特征表,通过检验单元41对每个特征进行预设统计检验,得到N个预设异常关系,通过输入单元42基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合,通过确定单元43基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,通过识别单元44将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。在本发明实施例中,可以先根据获取业务数据,构建业务特征表,然后对业务特征表中的每个特征进行预设统计检验,以得到多个预设异常关系,之后根据业务特征表以及所有预设异常关系得到预设数据集合,并将该预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,以得到第二异常实体对象集合,再根据预设异常关系以及第二异常实体对象集合,得到异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,如果存在大于预设检出阈值的检出数量,则将对应的异常业务逻辑指示的业务交易识别为异常交易,提高了对异常交易进行识别的准确性,并提高了识别出的异常交易的可解释性,进而解决了相关技术中对异常交易进行识别的准确性较低的技术问题。
可选地,构建单元包括:第一处理模块,用于对业务数据进行数据清洗以及数据预处理,得到预设数据表,其中,预设数据表包括:M条业务记录,每条业务记录对应一个实体对象;第一确定模块,用于对于每条业务记录,基于预设特征集合以及业务记录,确定实体对象在每个特征下的特征值,其中,预设特征集合包括:N个特征;第一构建模块,用于基于每个实体对象在所有特征下的特征值,构建业务特征表。
可选地,检验单元包括:第一生成模块,用于对于每个特征,基于特征在每个实体对象下的特征值,生成特征的特征值数组;第一检验模块,用于基于特征值数组,对特征进行正态检验,得到特征的正态检验值;第一划分模块,用于将大于等于预设正态阈值的正态检验值指示的特征划分至正态特征集合,并将小于预设正态阈值的正态检验值指示的特征划至为非正态特征集合;第二生成模块,用于基于正态特征集合中的每个正态特征对应的特征值数组,生成第一异常关系集合;第三生成模块,用于基于非正态特征集合中的每个非正态特征对应的特征值数组,生成第二异常关系集合;第二构建模块,用于基于第一异常关系集合以及第二异常关系集合,构建N个预设异常关系。
可选地,第二生成模块包括:第一确定子模块,用于对于正态特征集合中的每个正态特征,基于正态特征的特征值数组,确定正态特征的偏度值和峰度值;第一划分子模块,用于将偏度值属于预设偏度闭区间以及峰度值属于预设峰度闭区间的正态特征划分至偏度峰度特征集合,并将偏度值不属于预设偏度闭区间和/或峰度值不属于预设峰度闭区间的正态特征划分至非偏度峰度特征集合;第一变换子模块,用于对非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,得到非偏度峰度特征对应的新特征值数组,其中,新特征值数组中的每个特征值都是变换后的新特征值;第二确定子模块,用于基于偏度峰度特征集合中的每个偏度峰度特征对应的特征值数组以及每个非偏度峰度特征对应的新特征值数组,确定每个正态特征的均值和方差;第三确定子模块,用于对于每个正态特征,将所有大于特征阈值的特征值指示的实体对象确定为正态特征的第一异常实体对象集合,其中,每个正态特征对应一个特征阈值,特征阈值是基于均值和方差确定的;第一构建子模块,用于基于所有正态特征、每个正态特征对应的特征阈值以及每个正态特征对应的第一异常实体对象集合,构建第一异常关系集合。
可选地,第三生成模块包括:第四确定子模块,用于对于每个非正态特征,基于非正态特征对应的特征值数组,确定非正态特征的异常百分位数值;第五确定子模块,用于将所有大于异常百分位数值的特征值指示的实体对象确定为非正态特征的第一异常实体对象集合,其中,将每个非正态特征的异常百分位数值表征为非正态特征对应的特征阈值;第二构建子模块,用于基于所有非正态特征、每个非正态特征对应的特征阈值以及每个非正态特征对应的第一异常实体对象集合,构建第二异常关系集合。
可选地,输入单元包括:第二确定模块,用于基于所有预设异常关系,确定所有第一异常实体对象;第一筛选模块,用于基于业务特征表,筛选出与每个第一异常实体对象关联的特征数据,其中,特征数据是由第一异常实体对象对应的所有特征的特征值构成;第三构建模块,用于基于所有特征数据,构建预设数据集合。
可选地,识别装置还包括:第四生成模块,用于在将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合之前,对于每个特征,基于特征在预设数据集合中的每个第一异常实体对象下的特征值,生成特征的预设特征值数组;第三确定模块,用于对于预设数据集合中的每个第一异常实体对象,确定第一异常实体对象在每个特征下的第一预设值,其中,第一预设值基于特征的预设特征值数组的数组长度以及第一异常实体对象的特征值在预设特征值数组中出现的次数确定的;第四确定模块,用于对于每个第一异常实体对象,基于第一异常实体对象在每个特征下的第一预设值,确定第一异常实体对象的第二预设值;第五确定模块,用于基于第一异常实体对象在每个特征下的第一预设值以及第二预设值,确定第一异常实体对象的箱数;第六确定模块,用于基于箱数以及第一异常实体对象在每箱下的概率密度值,确定第一异常实体对象的预设分数,其中,箱下的概率密度值是第一异常实体对象的每个特征值划分到该箱下的概率之积。
可选地,输入单元还包括:第一输入模块,用于将预设数据集合输入至每个预设异常识别模型,得到预设异常识别模型输出的每个第一异常实体对象的异常分数;第七确定模块,用于基于所有异常分数,确定预设标签集合,其中,预设标签集合包括:预设平均值、预设最大值、所有平均值中的最大值、所有最大值的平均值;第八确定模块,用于对于每个第一异常实体对象,基于第一异常实体对象的预设分数以及预设标签集合,确定第一异常实体对象的异常分数阈值;第二划分模块,用于将异常分数大于异常分数阈值的第一异常实体对象划分至第二异常实体对象集合。
可选地,确定单元包括:第九确定模块,用于对于预设业务逻辑库中的每个预设业务逻辑,基于预设异常关系中每个第一异常实体对象对应的特征值,确定满足预设业务逻辑的异常实体对象数量,其中,预设业务逻辑是由至少一个特征条件构成,特征条件是特征属于异常特征的特征值范围;第十确定模块,用于基于第二异常实体对象集合中的每个第二异常实体对象对应的特征值,确定目标业务逻辑集合,并对于目标业务逻辑集合中的每个目标业务逻辑,基于每个第二异常实体对象对应的特征值,确定满足目标业务逻辑的异常实体对象数量;第一合并模块,用于合并所有预设业务逻辑以及目标业务逻辑集合,得到异常业务逻辑集合,并将每个异常业务逻辑对应的异常实体对象数量表征为检出数量。
上述的识别装置还可以包括处理器和存储器,上述构建单元40,检验单元41,输入单元42,确定单元43,识别单元44等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
上述处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
上述存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(fla sh RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取业务数据,并基于业务数据,构建业务特征表,对每个特征进行预设统计检验,得到N个预设异常关系,基于业务特征表以及所有预设异常关系,构建预设数据集合,并将预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合,基于预设异常关系以及第二异常实体对象集合,确定异常业务逻辑集合以及与异常业务逻辑集合中每个异常业务逻辑对应的检出数量,将大于预设检出阈值的检出数量对应的异常业务逻辑指示的业务交易识别为异常交易。
根据本发明实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的计算机程序,其中,在计算机程序运行时控制计算机可读存储介质所在设备执行上述的异常交易的识别方法。
根据本发明实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,存储器用于存储一个或多个程序,其中,当一个或多个程序被一个或多个处理器执行时,使得一个或多个处理器实现上述的异常交易的识别方法。
图5是根据本发明实施例的一种用于异常交易的识别方法的电子设备(或移动设备)的硬件结构框图。如图5所示,电子设备可以包括一个或多个(图5中采用502a、502b,……,502n来示出)处理器502(处理器502可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器504。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/0接口的端口中的一个端口被包括)、网络接口、键盘、电源和/或相机。本领域普通技术人员可以理解,图5所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备还可包括比图5中所示更多或者更少的组件,或者具有与图5所示不同的配置。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-0nly Memory)、随机存取存储器(RAM,Random Acces s Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种异常交易的识别方法,其特征在于,包括:
获取业务数据,并基于所述业务数据,构建业务特征表,其中,所述业务特征表包括:M个实体对象,每个所述实体对象对应有N个特征,每个所述实体对象对应的所述特征具有特征值,M和N都是正整数;
对每个所述特征进行预设统计检验,得到N个预设异常关系,其中,所述预设异常关系是所述特征、所述特征对应的特征阈值以及所述特征对应的第一异常实体对象集合构成的关系;
基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合,并将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合;
基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量;
将大于预设检出阈值的所述检出数量对应的所述异常业务逻辑指示的业务交易识别为异常交易。
2.根据权利要求1所述的识别方法,其特征在于,基于所述业务数据,构建业务特征表的步骤,包括:
对所述业务数据进行数据清洗以及数据预处理,得到预设数据表,其中,所述预设数据表包括:M条业务记录,每条所述业务记录对应一个所述实体对象;
对于每条所述业务记录,基于预设特征集合以及所述业务记录,确定所述实体对象在每个所述特征下的所述特征值,其中,所述预设特征集合包括:N个所述特征;
基于每个所述实体对象在所有所述特征下的所述特征值,构建所述业务特征表。
3.根据权利要求1所述的识别方法,其特征在于,对每个所述特征进行预设统计检验,得到N个预设异常关系的步骤,包括:
对于每个所述特征,基于所述特征在每个所述实体对象下的所述特征值,生成所述特征的特征值数组;
基于所述特征值数组,对所述特征进行正态检验,得到所述特征的正态检验值;
将大于等于预设正态阈值的所述正态检验值指示的所述特征划分至正态特征集合,并将小于所述预设正态阈值的所述正态检验值指示的所述特征划至为非正态特征集合;
基于所述正态特征集合中的每个正态特征对应的所述特征值数组,生成第一异常关系集合;
基于所述非正态特征集合中的每个非正态特征对应的所述特征值数组,生成第二异常关系集合;
基于所述第一异常关系集合以及所述第二异常关系集合,构建所述N个预设异常关系。
4.根据权利要求3所述的识别方法,其特征在于,基于所述正态特征集合中的每个正态特征对应的所述特征值数组,生成第一异常关系集合的步骤,包括:
对于所述正态特征集合中的每个正态特征,基于所述正态特征的所述特征值数组,确定所述正态特征的偏度值和峰度值;
将所述偏度值属于预设偏度闭区间以及所述峰度值属于预设峰度闭区间的所述正态特征划分至偏度峰度特征集合,并将所述偏度值不属于所述预设偏度闭区间和/或所述峰度值不属于所述预设峰度闭区间的所述正态特征划分至非偏度峰度特征集合;
对所述非偏度峰度特征集合中的每个非偏度峰度特征进行特征变换,得到所述非偏度峰度特征对应的新特征值数组,其中,所述新特征值数组中的每个特征值都是变换后的新特征值;
基于所述偏度峰度特征集合中的每个偏度峰度特征对应的所述特征值数组以及每个所述非偏度峰度特征对应的所述新特征值数组,确定每个所述正态特征的均值和方差;
对于每个所述正态特征,将所有大于所述特征阈值的所述特征值指示的所述实体对象确定为所述正态特征的所述第一异常实体对象集合,其中,每个所述正态特征对应一个所述特征阈值,所述特征阈值是基于所述均值和所述方差确定的;
基于所有所述正态特征、每个所述正态特征对应的所述特征阈值以及每个所述正态特征对应的所述第一异常实体对象集合,构建所述第一异常关系集合。
5.根据权利要求3所述的识别方法,其特征在于,基于所述非正态特征集合中的每个非正态特征对应的所述特征值数组,生成第二异常关系集合的步骤,包括:
对于每个所述非正态特征,基于所述非正态特征对应的所述特征值数组,确定所述非正态特征的异常百分位数值;
将所有大于所述异常百分位数值的所述特征值指示的所述实体对象确定为所述非正态特征的所述第一异常实体对象集合,其中,将每个所述非正态特征的所述异常百分位数值表征为所述非正态特征对应的所述特征阈值;
基于所有所述非正态特征、每个所述非正态特征对应的所述特征阈值以及每个所述非正态特征对应的所述第一异常实体对象集合,构建所述第二异常关系集合。
6.根据权利要求1所述的识别方法,其特征在于,基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合的步骤,包括:
基于所有所述预设异常关系,确定所有第一异常实体对象;
基于所述业务特征表,筛选出与每个所述第一异常实体对象关联的特征数据,其中,所述特征数据是由所述第一异常实体对象对应的所有所述特征的所述特征值构成;
基于所有所述特征数据,构建所述预设数据集合。
7.根据权利要求1所述的识别方法,其特征在于,在将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合之前,还包括:
对于每个所述特征,基于所述特征在所述预设数据集合中的每个第一异常实体对象下的所述特征值,生成所述特征的预设特征值数组;
对于所述预设数据集合中的每个第一异常实体对象,确定所述第一异常实体对象在每个所述特征下的第一预设值,其中,所述第一预设值基于所述特征的所述预设特征值数组的数组长度以及所述第一异常实体对象的所述特征值在所述预设特征值数组中出现的次数确定的;
对于每个所述第一异常实体对象,基于所述第一异常实体对象在每个所述特征下的所述第一预设值,确定所述第一异常实体对象的第二预设值;
基于所述第一异常实体对象在每个所述特征下的所述第一预设值以及所述第二预设值,确定所述第一异常实体对象的箱数;
基于所述箱数以及所述第一异常实体对象在每箱下的概率密度值,确定所述第一异常实体对象的预设分数,其中,箱下的所述概率密度值是所述第一异常实体对象的每个所述特征值划分到该箱下的概率之积。
8.根据权利要求7所述的识别方法,其特征在于,将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合的步骤,包括:
将所述预设数据集合输入至每个所述预设异常识别模型,得到所述预设异常识别模型输出的每个所述第一异常实体对象的异常分数;
基于所有所述异常分数,确定预设标签集合,其中,所述预设标签集合包括:预设平均值、预设最大值、所有平均值中的最大值、所有最大值的平均值;
对于每个所述第一异常实体对象,基于所述第一异常实体对象的所述预设分数以及所述预设标签集合,确定所述第一异常实体对象的异常分数阈值;
将所述异常分数大于所述异常分数阈值的所述第一异常实体对象划分至所述第二异常实体对象集合。
9.根据权利要求1所述的识别方法,其特征在于,基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量的步骤,包括:
对于预设业务逻辑库中的每个预设业务逻辑,基于所述预设异常关系中每个第一异常实体对象对应的所述特征值,确定满足所述预设业务逻辑的异常实体对象数量,其中,所述预设业务逻辑是由至少一个特征条件构成,所述特征条件是所述特征属于异常特征的特征值范围;
基于所述第二异常实体对象集合中的每个第二异常实体对象对应的所述特征值,确定目标业务逻辑集合,并对于所述目标业务逻辑集合中的每个目标业务逻辑,基于每个所述第二异常实体对象对应的所述特征值,确定满足所述目标业务逻辑的所述异常实体对象数量;
合并所有所述预设业务逻辑以及所述目标业务逻辑集合,得到所述异常业务逻辑集合,并将每个所述异常业务逻辑对应的所述异常实体对象数量表征为所述检出数量。
10.一种异常交易的识别装置,其特征在于,包括:
构建单元,用于获取业务数据,并基于所述业务数据,构建业务特征表,其中,所述业务特征表包括:M个实体对象,每个所述实体对象对应有N个特征,每个所述实体对象对应的所述特征具有特征值,M和N都是正整数;
检验单元,用于对每个所述特征进行预设统计检验,得到N个预设异常关系,其中,所述预设异常关系是所述特征、所述特征对应的特征阈值以及所述特征对应的第一异常实体对象集合构成的关系;
输入单元,用于基于所述业务特征表以及所有所述预设异常关系,构建预设数据集合,并将所述预设数据集合输入至预设异常识别模型集合中的每个预设异常识别模型,得到第二异常实体对象集合;
确定单元,用于基于所述预设异常关系以及所述第二异常实体对象集合,确定异常业务逻辑集合以及与所述异常业务逻辑集合中每个异常业务逻辑对应的检出数量;
识别单元,用于将大于预设检出阈值的所述检出数量对应的所述异常业务逻辑指示的业务交易识别为异常交易。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311361821.3A CN117593121A (zh) | 2023-10-19 | 2023-10-19 | 异常交易的识别方法及其识别装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311361821.3A CN117593121A (zh) | 2023-10-19 | 2023-10-19 | 异常交易的识别方法及其识别装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117593121A true CN117593121A (zh) | 2024-02-23 |
Family
ID=89910479
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311361821.3A Pending CN117593121A (zh) | 2023-10-19 | 2023-10-19 | 异常交易的识别方法及其识别装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117593121A (zh) |
-
2023
- 2023-10-19 CN CN202311361821.3A patent/CN117593121A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2019218699A1 (zh) | 欺诈交易判断方法、装置、计算机设备和存储介质 | |
CN110390229B (zh) | 一种人脸图片筛选方法、装置、电子设备及存储介质 | |
CN113011973B (zh) | 基于智能合约数据湖的金融交易监管模型的方法及设备 | |
CN113095927B (zh) | 一种反洗钱可疑交易识别方法及设备 | |
CN111242793A (zh) | 医保数据异常的检测方法和装置 | |
CN115660262B (zh) | 一种基于数据库应用的工程智慧质检方法、系统及介质 | |
CN111767192B (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
CN116595463A (zh) | 窃电识别模型的构建方法、窃电行为识别方法及装置 | |
CN109242658B (zh) | 可疑交易报告生成方法、系统、计算机设备和存储介质 | |
CN113052577A (zh) | 一种区块链数字货币虚拟地址的类别推测方法及系统 | |
CN114266740A (zh) | 一种中药饮片质检方法、装置、设备及存储介质 | |
CN113642672A (zh) | 医保数据的特征加工方法、装置、计算机设备及存储介质 | |
CN117593121A (zh) | 异常交易的识别方法及其识别装置 | |
CN110543910A (zh) | 信用状态监测系统和监测方法 | |
CN115758336A (zh) | 一种资产识别方法及装置 | |
Iakovidou et al. | Knowledge-based fusion for image tampering localization | |
CN112818150B (zh) | 一种图片内容审核方法、装置、设备和介质 | |
CN114972273A (zh) | 流水化产品数据集增强方法、系统、设备及存储介质 | |
CN114722954A (zh) | 一种针对评价信息的内容异常处理方法和装置 | |
CN112256988A (zh) | 监测跨境购房网站的方法及装置、电子设备及存储介质 | |
CN110570301A (zh) | 风险识别方法、装置、设备及介质 | |
CN110728310A (zh) | 一种基于超参数优化的目标检测模型融合方法及融合系统 | |
CN112685324B (zh) | 一种生成测试方案的方法及系统 | |
CN117527451B (zh) | 一种网络入侵检测方法、装置、电子设备及存储介质 | |
CN116955648B (zh) | 一种基于非隐私数据关联的知识图谱分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |