CN109948728A - 异常交易检测模型的训练以及异常交易检测的方法和装置 - Google Patents

异常交易检测模型的训练以及异常交易检测的方法和装置 Download PDF

Info

Publication number
CN109948728A
CN109948728A CN201910243559.XA CN201910243559A CN109948728A CN 109948728 A CN109948728 A CN 109948728A CN 201910243559 A CN201910243559 A CN 201910243559A CN 109948728 A CN109948728 A CN 109948728A
Authority
CN
China
Prior art keywords
transaction
abnormal
transaction sample
feature
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910243559.XA
Other languages
English (en)
Inventor
王昱森
周振华
李云鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
4Paradigm Beijing Technology Co Ltd
Original Assignee
4Paradigm Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 4Paradigm Beijing Technology Co Ltd filed Critical 4Paradigm Beijing Technology Co Ltd
Priority to CN201910243559.XA priority Critical patent/CN109948728A/zh
Priority to CN202111506039.7A priority patent/CN114154588A/zh
Publication of CN109948728A publication Critical patent/CN109948728A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2155Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the incorporation of unlabelled data, e.g. multiple instance learning [MIL], semi-supervised techniques using expectation-maximisation [EM] or naïve labelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供一种异常交易检测模型的训练以及异常交易检测的方法和装置。其中,一种异常交易检测模型的训练方法包括:接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半径。

Description

异常交易检测模型的训练以及异常交易检测的方法和装置
技术领域
本发明涉及机器学习和金融交易的交叉领域,尤其涉及异常交易检测模型 的训练方法、装置,异常交易检测方法、装置,以及计算设备和存储有计算机 程序的计算机可读存储介质。
背景技术
随着科学技术和社会经济的繁荣发展,金融交易(例如,基于互联网的金 融交易等)也越来越频繁,并且愈发重要。例如,银行等金融机构会依据企业 的金融交易情况来进行融资授信额度的评定和贷款发放。
然而,由于在金融交易中往往造假成本低、收益空间大,因此会存在企业 通过构造虚假的金融交易来骗取利益,例如,从银行骗取贷款等。在面对异常 交易(例如,造假的交易)时,传统的通过发票等手段进行验伪的方式不具备 实时性,无法满足银行和企业在互联网时代的高效诉求,而如果通过有监督机 器学习方法进行实时监测时,则又需要大量的有标签样本进行训练,而样本的 收集和标注工作也会耗费大量的时间和人力成本,而且存在误判的情况。
发明内容
本发明的目的在于提供一种异常交易检测模型的训练方法和异常交易检 测方法。
本发明的一方面提供一种异常交易检测模型的训练方法,包括:接收所获 取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数 据是正常交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一 交易样本特征集;基于所述第一交易样本特征集,采用无监督机器学习算法训 练得到异常交易检测模型,其中,通过异常交易检测模型,记录基于无监督机 器学习算法获得的每个簇的核心位置和半径。
可选地,所述训练方法还包括:输出所述异常交易检测模型和所记录的每 个簇的核心位置和半径。
可选地,第一交易样本特征集中的各第一交易样本的特征包括从第一交易 样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、 金额分布属性特征、同品类属性特征、同地区属性特征。
可选地,基于所述第一交易样本特征集采用无监督机器学习算法训练得到 异常交易检测模型的步骤包括:将所述第一交易样本特征集中的各第一交易样 本的特征进行按列归一化;基于按列归一化后的各第一交易样本的特征,采用 无监督机器学习算法训练得到异常交易检测模型。
可选地,所述无监督机器学习算法包括k-means算法、DBSCAN算法或 孤立森林算法。
可选地,所述无监督机器学习算法是k-means算法,采用k-means算法训 练得到异常交易检测模型的步骤包括:在所述第一交易样本特征集中,确定k 个初始簇的核心位置,其中,k的值基于所述第一交易样本特征集来确定;基 于预定k个初始簇的核心位置,使用k-means算法对所述第一交易样本特征集 进行聚类,直到标准测度函数开始收敛为止。
可选地,第一交易样本数据是企业加入供应链金融之前的交易样本。
本发明的一方面提供一种异常交易检测方法,包括:接收待检测的第二交 易样本数据;对所述第二交易样本数据进行特征提取处理,得到第二交易样本 的特征;将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易 检测模型,得到预测结果;根据所述预测结果和所述异常交易检测模型的每个 簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述 异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检 测结果。
可选地,所述异常交易检测模型按照如上所述的任一项训练方法得到的, 其中,所述对所述第二交易样本数据进行特征提取处理,与如上所述的任一项 训练方法中的对第一交易样本数据集进行特征提取处理的过程相同。
可选地,当第二交易样本的特征与每个簇的核心位置之间的距离大于预定 赋能系数与相应簇的半径的乘积时,判断出所述第二交易样本的特征不属于所 述异常交易检测模型的任一个簇。
可选地,当第二交易样本的特征与至少一个簇的核心位置之间的距离等于 或小于预定赋能系数与所述至少一个簇的半径的乘积时,输出所述第二交易样 本数据为正常交易的检测结果。
可选地,响应于所述第二交易样本数据为正常交易的检测结果,选择性地 基于所述第二交易样本数据更新所述异常交易检测模型。
可选地,基于所述第二交易样本数据更新所述异常交易检测模型的步骤包 括:将所述第二交易样本数据和所述异常交易检测模型中的训练交易样本数据 作为新的训练交易样本数据作为所述异常交易检测模型的训练输入,以更新所 述异常交易检测模型。
可选地,所述第二交易样本数据是企业加入供应链金融之后的交易样本。
本发明的一方面提供一种存储有计算机程序的计算机可读存储介质,当所 述计算机程序在被处理器执行时实现如上所述任意一项的方法。
本发明的一方面提供种计算装置,包括:一个或多个处理器;一个或多个 存储器,存储有计算机程序,当所述计算机程序被所述一个或多个处理器执行 时,实现如上任意一项所述的方法。
本发明的一方面提供一种异常交易检测模型的训练装置,包括:接收单元, 被配置为接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的 各第一交易样本数据是正常交易样本数据;特征处理单元,被配置为对第一交 易样本数据集进行特征提取处理,得到第一交易样本特征集;训练与记录单元, 被配置为基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异 常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半 径。
可选地,所述训练装置还包括:输出单元,输出所述异常交易检测模型和 所记录的每个簇的核心位置和半径。
可选地,第一交易样本特征集中的各第一交易样本的特征包括从第一交易 样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、 金额分布属性特征、同品类属性特征、同地区属性特征。
可选地,训练与记录单元被配置为:将所述第一交易样本特征集中的各第 一交易样本的特征进行按列归一化;基于按列归一化后的各第一交易样本的特 征,采用无监督机器学习算法训练得到异常交易检测模型。
可选地,所述无监督机器学习算法包括k-means算法、DBSCAN算法或 孤立森林算法。
可选地,所述无监督机器学习算法是k-means算法,训练与记录单元被配 置为:在所述第一交易样本特征集中,确定k个初始簇的核心位置,其中,k 的值基于所述第一交易样本特征集来确定;基于预定k个初始簇的核心位置, 使用k-means算法对所述第一交易样本特征集进行聚类,直到标准测度函数开 始收敛为止。
可选地,第一交易样本数据是企业加入供应链金融之前的交易样本。
本发明的一方面提供一种异常交易检测装置,包括:接收单元,被配置为 接收待检测的第二交易样本数据;特征处理单元,被配置为对所述第二交易样 本数据进行特征提取处理,得到第二交易样本的特征;输入单元,被配置为将 所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型, 得到预测结果;检测单元,被配置为根据所述预测结果和所述异常交易检测模 型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不 属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常 交易的检测结果。
可选地,所述异常交易检测模型按照如上所述的任一项训练方法得到的, 其中,特征处理单元对所述第二交易样本数据进行的特征提取处理,与如上任 一项所述的训练方法中的对第一交易样本数据集进行特征提取处理的过程相 同。
可选地,检测单元被配置为:当第二交易样本的特征与每个簇的核心位置 之间的距离大于预定赋能系数与相应簇的半径的乘积时,判断出所述第二交易 样本的特征不属于所述异常交易检测模型的任一个簇。
可选地,检测单元被配置为:当第二交易样本的特征与至少一个簇的核心 位置之间的距离等于或小于预定赋能系数与所述至少一个簇的半径的乘积时 输出所述第二交易样本数据为正常交易的检测结果。
可选地,所述异常交易检测装置还包括:更新单元,被配置为响应于所述 第二交易样本数据为正常交易的检测结果,选择性地基于所述第二交易样本数 据更新所述异常交易检测模型。
可选地,更新单元被配置为:将所述第二交易样本数据和所述异常交易检 测模型中的训练交易样本数据作为新的训练交易样本数据作为所述异常交易 检测模型的训练输入,以更新所述异常交易检测模型。
可选地,所述第二交易样本数据是企业加入供应链金融之后的交易样本。
本发明这种利用基于无监督机器学习算法进行异常交易检测的技术方案 由于考虑到了金融交易场景的特性而采用了无监督机器学习算法,从而实现可 解释、易于可视化的简单模型,即能够符合监管的要求,又能够将算法逻辑可 视化给业务人员,帮助他们更好的理解预警逻辑,对交易后续的运营也能够提 供建议,并且能够提供较高的检测准确率。
将在接下来的描述中部分阐述本发明总体构思另外的方面和/或优点,还 有一部分通过描述将是清楚的,或者可以经过本发明总体构思的实施而得知。
附图说明
通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他 目的和特点将会变得更加清楚,其中:
图1示出根据本发明的实施例的异常交易检测模型的训练方法的流程图;
图2示出根据本发明的实施例的异常交易检测方法的流程图;
图3示出根据本发明的实施例的异常交易检测模型的训练装置;
图4示出根据本发明的实施例的异常交易检测装置;
图5示出根据本发明的实施例的异常交易检测模型的训练装置;
图6示出根据本发明的实施例的异常交易检测装置。
具体实施方式
提供以下参照附图进行的描述,以帮助全面理解由权利要求及其等同物限 定的本发明的示例性实施例。所述描述包括各种特定细节以帮助理解,但这些 细节被认为仅是示例性的。因此,本领域的普通技术人员将认识到:在不脱离 本发明的范围和精神的情况下,可对这里描述的实施例进行各种改变和修改。 此外,为了清楚和简明,可省略已知功能和构造的描述。
在本发明中,交易可指示金融交易。在一个示例,交易可以是供应链金融 交易。供应链金融(Supply Chain Finance,SCF)是商业银行信贷业务的一个专业 领域(银行层面),也是企业尤其是中小企业的一种融资渠道(企业层面)。它指 银行向客户(核心企业)提供融资和其他结算、理财服务,同时向这些客户的供 应商提供贷款及时收达的便利,或者向其分销商提供预付款代付及存货融资服 务。简单地说,就是银行将核心企业和上下游企业联系在一起提供灵活运用的 金融产品和服务的一种融资模式。以上定义与传统的保理业务及货押业务(动 产及货权抵/质押授信)非常接近。但有明显区别,即保理和货押只是简单的贸 易融资产品,而供应链金融是核心企业与银行间达成的,一种面向供应链所有成员企业的系统性融资安排。
然而,本发明不限于供应链金融交易,本发明还可适用于其他以交易为 主体的场景中(例如,具有高频的交易并且具备时间序列特性的场景)。例如, 本发明可应用于如下的一个示例场景:交易所想检测内幕交易,确定了2018 年之前没有发现内部交易,但是想确定2018年这段时间是否有内部交易(即, 异常交易)。
图1示出根据本发明的实施例的异常交易检测模型的训练方法的流程图。
参照图1,根据本发明的实施例的异常交易检测模型的训练方法包括步骤 S110、步骤S120和步骤S130。
在步骤S110中,接收所获取的第一交易样本数据集,其中,第一交易样 本数据集中的各第一交易样本数据是正常交易样本。
这里,正常交易样本可指示合法、合规的交易样本。此外,在本发明中, 第一交易样本数据集可包括大于或等于预定数量的数量的交易样本。例如,预 定数量可以是20,然而,本发明不对预定数量进行限制,根据本发明的预定数 量也可以是任意其他数量。
在一个实施例中,第一交易样本数据是企业加入供应链金融之前的交易样 本。具体地来说,企业在加入供应链金融之前的商业行为通常都视为正常的商 业行为,这是因为在加入供应链金融之前没有银行借款的诱惑,企业没有动机 去构造虚假交易数据(例如,订单)。也就是说,企业加入供应链金融之前的 交易样本可被视为正常交易样本。然而,如上所述,第一交易样本数据并不局 限于企业加入供应链金融之前的交易样本,第一交易样本数据也可以是其他以 交易为主体的场景中的可被视为正常交易样本和/或被确定为是正常交易样本 的交易样本。
为了便于说明和理解,下面的描述可主要基于供应链金融交易场景来描述, 然而,本发明不限于供应链金融交易这一示例应用场景。
在步骤S120中,对第一交易样本数据集进行特征提取处理,得到第一交 易样本特征集。
这里,对第一交易样本数据集进行特征提取处理可表示针对第一交易样本 数据集中的各个第一交易样本数据进行特征提取处理,第一交易样本特征集包 分别括对各个第一交易样本数据进行特征提取处理后得到的各个第一交易样 本数据特征。例如,第一交易样本数据特征可以是特征向量。
在一个实施例中,第一交易样本特征集中的各第一交易样本的特征包括从 第一交易样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属 性特征、金额分布属性特征、同品类属性特征、同地区属性特征。由于上述特 征考虑了交易场景下的交易特性,并针对交易维度和/或时间维度进行特征的衍 生和抽取,而且通过将样本数据映射到高维离散的特征空间,因而更能够精准 地对样本数据进行异常检测。请注意,当第一交易样本的特征包括上述特征中 的两个或更多个特征时,第一交易样本的特征的特征向量可由两个或更多个特 征的特征向量组成。例如,第一交易样本的特征包括第一特征和第二特征,第 一特征的特征向量为[a,b],第二特征的特征向量为[c,d]时,第一交易样本的特征的特征向量为[a,b,c,d],其中,a、b、c和d指示相应的特征值。
下面对第一交易样本数据的时间属性特征、金额属性特征、金额分布属性 特征、同品类属性特征、同地区属性特征进行更详细的描述。
在本发明中,第一交易样本数据的时间属性特征可指示交易的下单时间和 入库时间所属于的月份、日期、是否为周末、是否为假期等。例如,作为说明 性的示例,当第一交易样本数据的时间属性特征包括交易的下单时间所属于的 月份、日期、是否为周末时,针对下单时间为1月20日、为周末的第一交易 样本,该第一交易样本的时间特征可被表示为特征向量[1,20,1],其中,特征 向量的第一个值指示交易的下单时间所属于的月份,特征向量的第二个值指示 交易的下单时间所属于的日期(例如,20日时对应于20,30日时对应于30), 特征向量的第三个值指示交易的下单时间是否为周末(例如,为周末时对应于 1,不为周末时对应于0)。然而,上述说明性的示例仅用于说明,本发明可包 括从第一交易样本数据提取的任意时间特征或多个时间特征的组合。
在本发明中,第一交易样本数据的金额属性特征可指示交易的金额在历史 时间窗里的各项统计值。在一个示例中,历史时间窗可以是指示该笔交易前7、 14、21、30、60、90天等内的时间窗口,或者历史时间窗可指示该次交易前的 1、3、5、10笔交易等内的时间窗口。此外,在一个示例中,各项统计值可指 示交易金额的均值、和、中位数、标准差、最大值、最小值等。请注意,上述 距离说明的历史时间窗和统计值仅是示例,本发明不对此进行限制。例如,作 为说明性的示例,当第一交易样本数据的金额属性特征包括该笔交易前7天内的金额的平均值、前14天内的金额的最大值时,针对交易前7天内的金额的 平均为100000、前14天内的金额的最大值为200000的第一交易样本数据,第 一交易样本的金额属性特征的特征向量可被表示为[100000,200000]。然而,上 述说明性的示例仅用于说明,本发明可包括从第一交易样本数据提取的任意金 额属性特征或多个金额属性特征的组合。
前面已经参照第一交易样本数据的时间属性特征和金额属性特征描述了 针对具体的第一交易样本数据如何计算第一交易样本数据的时间属性特征和 金额属性特征,后面描述的第一交易样本数据的金额分布属性特征、同品类属 性特征、同地区属性特征的计算方法与第一交易样本数据的时间属性特征和金 额属性特征的计算方法类似。因此,为了简明,后面将省略对第一交易样本数 据的金额分布属性特征、同品类属性特征、同地区属性特征的计算方法的描述。
在本发明中,第一交易样本数据的金额分布属性特征可指示该笔交易金额 是否为整十、百、千、万等、是否超过历史交易金额的1、2、3倍之外、历史 时间窗里超过的次数等。例如,作为说明性的示例,当第一交易样本过去10 天的交易金额为200,10,230,17,而在供应链金融之前,平均交易金额为 150,则可以构造如下一个特征:“过去10天中的所有交易金额,在数值上比 供应链金融之前的平均交易金额高的交易次数”,即特征count(200>150,10>150,230>150,17>150)=2。然而,上述说明性的示例仅用于说明, 本发明可包括从第一交易样本数据提取的任意金额分布属性特征或多个金额 分布属性特征的组合。
在本发明中,第一交易样本数据的同品类属性特征可指示第一交易样本数 据的交易金额和同品类的公司和/或企业在历史时间窗里的交易金额之间的关 系等。例如,第一交易样本数据的交易金额和同品类的公司和/或企业在历史时 间窗里的交易金额之间的关系可指示第一交易样本数据的交易金额与同品类 的公司和/或企业在历史时间窗里的平均交易金额之间的倍数关系。
在本发明中,第一交易样本数据的同地区属性特征可指示该笔交易金额和 同地区的公司和/或企业在历史时间窗里的交易金额之间的关系等。例如,第一 交易样本数据的交易金额和同地区的公司和/或企业在历史时间窗里的交易金 额之间的关系可指示第一交易样本数据的交易金额与同地区的公司和/或企业 在历史时间窗里的平均交易金额之间的倍数关系。
在步骤S130中,基于第一交易样本特征集,采用无监督机器学习算法训 练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心 位置和半径。这里,簇的核心位置可指示簇的质心位置,簇的半径可指示簇中 最远的点(即,样本)到核心的距离。
在本发明中,通过针对交易特有的高频特性和时间序列特性而采用无监督 机器学习算法,能够简化交易检测的复杂度同时满足交易检测的准确性要求。
这里,无监督机器学习算法可包括k-means算法、DBSCAN算法或孤立 森林算法等。为了简明和便于理解,下面主要以k-means算法为例对异常交易 检测模型进行说明,然而,应注意,如上所述的其他无监督机器学习算法也可 与k-means算法类似地应用于本发明的异常交易检测模型。
具体来说,在一个实施例中,当无监督机器学习算法是k-means算法时, 采用k-means算法训练得到异常交易检测模型的步骤可包括:在第一交易样本 特征集中,确定k个初始簇的核心位置,其中,k的值基于第一交易样本特征 集来确定;基于预定k个初始簇的核心位置,使用k-means算法对第一交易样 本特征集进行聚类,直到标准测度函数开始收敛为止。这里,标准测度函数一 般采用均方差函数。
在这个实施例中,基于第一交易样本特征集来确定k的值。换言之,基于 第一交易样本特征集中的各个第一样本特征来确定k的值。可通过如下的多种 方法经试验和/或计算来确定合适的k的值。然而,确定合适的k的值的方法不 限于下述示例方法和/或下述示例方法的任意组合,其他任何已知的适于确定k 的值的方法也是可行的。
在一个示例中,可通过轮廓系数(Silhouette Coefficient)来确定合适的k 的值。轮廓系数结合了聚类的凝聚度(Cohesion)和分离度(Separation),用 于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。具体计 算方法如下:对于每个样本点i,计算点i与其同一个簇内的所有其他元素距离 的平均值,记作a(i),用于量化簇内的凝聚度;选取i外的一个簇b,计算i与 b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作b(i), 即为i的邻居类,用于量化簇之间分离度;对于样本点i,轮廓系数s(i)=(b(i) –a(i))/max{a(i),b(i)};计算所有i的轮廓系数,求出平均值即为当前聚类的整 体轮廓系数,度量数据聚类的紧密程度。若s(i)小于0,说明i与其簇内元素的 平均距离小于最近的其他簇,表示聚类效果不好。如果a(i)趋于0,或者b(i) 足够大,即a(i)<<b(i),那么s(i)趋近与1,说明聚类效果比较好。在本发明中, 当s(i)大于或等于预定值时,可认为此时的k值是合适的k值。此外,在上述 处理中,k一般不会设置很大。可以通过枚举,令k从2到一个固定值(例如,10),在每个k值上重复运行数次kmeans(避免局部最优解),并计算当前k的 平均轮廓系数,最后选取轮廓系数最大的值对应的k作为最终的集群数目。
在另一个示例中,可通过手肘法来确定合适的k的值。这里,手肘法的核 心指标是SSE(sum of the squared errors,误差平方和),其中,Ci是第i个簇,p 是Ci中的样本点,mi是Ci的质心(Ci中所有样本的均值),SSE是所有样本 的聚类误差,代表了聚类效果的好坏。手肘法的核心思想是:随着聚类数k的 增大,样本划分会更加精细,每个簇的聚合程度会逐渐提高,那么误差平方和 SSE自然会逐渐变小。并且,当k小于真实聚类数时,由于k的增大会大幅增 加每个簇的聚合程度,故SSE的下降幅度会很大,而当k到达真实聚类数时,再增加k所得到的聚合程度回报会迅速变小,所以SSE的下降幅度会骤减,然 后随着k值的继续增大而趋于平缓,也就是说SSE和k的关系图是一个手肘的 形状,而这个肘部对应的k值就是数据的真实聚类数。
在确定出合适的k值后,需要确定k个初始簇的核心位置。在一个示例中, 可随机选择一个点(即,一个第一样本数据特征)作为第一个初始类簇中心点 (即,核心位置),然后选择距离该点最远的那个点作为第二个初始类簇中心 点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心 点,以此类推,直至选出k个初始类簇中心点。在另一示例中,选用层次聚类 算法或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为k-means 算法初始类簇中心点。然而,上述确定k个初始簇的核心位置的示例是说明性 的,本发明不限于上述确定k个初始簇的核心位置的示例。
当标准测度函数开始收敛时,停止继续使用k-means算法对第一交易样本 特征集进行聚类。此时,异常交易检测模型可视为完成。在这种情况下,记录 基于无监督机器学习算法(例如,k-means算法)获得的每个簇的核心位置和 半径。
此外,可选地,在训练异常交易检测模型之前,可将所述第一交易样本特 征集中的各第一交易样本的特征进行按列(column-wise)归一化。这里,通过 按列归一化,各第一交易样本的特征对应的特征向量中的各特征值可被归一化, 从而便于后续的计算处理。由于按列归一化技术是相关领域的已有技术,因此, 将不对其进行具体阐述。
在按列归一化之后,基于按列归一化后的各第一交易样本的特征,采用无 监督机器学习算法训练得到异常交易检测模型。具体的训练过程可与如上所述 参照k-means算法进行的训练过程相同或相似。
此外,可选地,训练方法还包括:输出所述异常交易检测模型和所记录的 每个簇的核心位置和半径。
图2示出根据本发明的实施例的异常交易检测方法的流程图。
参照图2,根据本发明的实施例的异常交易检测方法包括步骤S210、步骤 S220、步骤S230和步骤S240。
在步骤S210,接收待检测的第二交易样本数据。
在一个实施例中,第二交易样本数据是企业加入供应链金融之后的交易样 本。具体地来说,企业在加入供应链金融之后的商业行为存在伪造交易和/或异 常交易的可能性,这是因为在加入供应链金融之后有银行借款的诱惑,企业有 动机去构造虚假交易数据(例如,订单)。因此,有必要确认企业加入供应链 金融之后的交易样本是否为异常交易样本。然而,如上所述,第二交易样本数 据并不局限于企业加入供应链金融之后的交易样本,第二交易样本数据也可以 是其他以交易为主体的场景中的待确认是否为异常交易样本的交易样本。
在步骤S220,对第二交易样本数据进行特征提取处理,得到第二交易样 本的特征。
在一个实施例中,对第二交易样本数据进行的特征提取处理可与如上所述 的对第一交易样本数据集进行特征提取处理的过程相同。
在步骤S230,将第二交易样本的特征输入基于无监督机器学习算法的异 常交易检测模型,得到预测结果。
这里,基于无监督机器学习算法的异常交易检测模型可通过参照图1所述 的任意训练方法而得到。为了简明,这里不再对训练方法进行具体的阐述。此 外,预测结果可指示第二交易样本的特征已经被映射到了由用于训练异常交易 检测模型的各个第一交易样本的特征所构成的空间。
在步骤S240,根据预测结果和异常交易检测模型的每个簇的核心位置和 半径进行判断,当判断出第二交易样本的特征不属于所述异常交易检测模型的 任一个簇时,输出第二交易样本数据为异常交易的检测结果。
具体来说,当第二交易样本特征与每个簇的核心位置之间的距离大于预定 赋能系数与相应簇的半径的乘积时,判断出所述第二交易样本的特征不属于所 述异常交易检测模型的任一个簇。这里,第二交易样本的特征可被理解为一个 特征向量,而每个簇的核心位置也对应于相应的特征向量。
通常,通过聚类算法得到的结果,往往很难定义怎么样才算异常,一般传 统方法会将无法分类的样本作为异常,或者是将某一类看作异常,但是都不符 合金融的业务场景。因为金融(例如,一条供应链)之中,可能会有很多种类 的企业参与,无法分类的样本,和某一类的样本,有可能确实是特殊的企业交 易特性,而非异常,因此传统方法的效果不好。通过如上所述地不对类别属性 做是否异常的判断,而是比较待检测的交易样本和正常交易样本在高维特征空 间的距离,如果距离差超过预警阈值,就认为该条样本为异常交易,能够有效 的检测待检测的交易样本是否异常。
在本发明中,赋能系数也被风险容忍系数。本发明提出赋能系数这一概念 是为了能够更切合交易场景,并提升识别异常交易的准确性。例如,在一个示 例供应链金融场景中,企业A以前资金比较紧张,只能向企业B一个月下一 次订单,订单金额最大不超过100元,下次再下订单就只能等待自己卖出货挣 了钱再下,但是有了金融服务之后,企业A是可以赊账的,它就可以每月下一 次130元的订单,银行垫付给企业B,然后企业A就可以多卖货多挣钱,这样 良性发展之后,企业A的规模会越来越大,订单金额越来越高,显然拿最开始的100元作为正常交易的最大交易限额就很不科学,比如可以是130元,我们 就认为供应链金融服务最多能够帮助企业A提升30%的规模,这时,赋能系数 就是1.3。当然赋能系数太大会引发问题,比如提升到200元,赋能系数是2, 表示业务发展提升100%,这样就给了企业A构造虚假交易(例如,订单)进 行骗贷的动机,因为跟正常商业行为相比,骗贷的收益显然更大。也就是说, 赋能系数是用于反映企业的发展状况和银行能够对潜在的骗贷风险容忍度的 系数。
当企业的发展状况变好(例如,加入供应链金融),并且/或者银行能够对 潜在的骗贷风险容忍度增加(例如,银行鼓励贷款)时,赋能系数可被设定为 大于1的值。当企业的发展状况恶化(例如,信用降低等),并且/或者银行能 够对潜在的骗贷风险容忍度减少(例如,银行缩紧贷款)时,赋能系数可被设 定为小于1的值。换言之,本发明的赋能系数可依据企业的发展状况和银行能 够对潜在的骗贷风险容忍度而发生改变,使得异常交易检测的准确性提高。
此外,当第二交易样本特征与至少一个簇的核心位置之间的距离等于或小 于预定赋能系数与至少一个簇的半径的乘积时,输出所述第二交易样本数据为 正常交易的检测结果。
另外,可选地,根据本发明的实施例的异常交易检测方法还可包括:响应 于第二交易样本数据为正常交易的检测结果,选择性地基于第二交易样本数据 更新异常交易检测模型。由于可以基于被检测为正常交易的第二交易样本来选 择性地更新异常交易检测模型,使得异常交易检测模型能够始终保持在一个相 对精确的状态。这里,本发明采用的选择性更新能够有效避免在第二交易样本 被误检测为正常交易时第二交易样本对异常交易检测模型的准确性造成不良 影响。例如,当第二交易样本数据被检测为正常交易时,可将第二交易样本数 据和异常交易检测模型中的训练交易样本数据作为新的训练交易样本数据作 为异常交易检测模型的训练输入,以更新异常交易检测模型。在这种情况下, 更新过程中的训练步骤可与参照图1描述的训练处理相同或相似。
在一个实施例中,可以以预定周期来更新异常交易检测模型。例如,预定 周期可以说一个月或者一个季度。这样通过预定周期来更新异常交易检测模型 既可以保证异常交易检测模型维护的简便性,也可以使异常交易检测模型的检 测准确性维持在较高的水准。
在另一个实施例中,当第二交易样本数据被检测为正常交易,而且第二交 易样本数据通过银行和/或企业的反馈(例如,通过银行内部的交易真伪的标注 平台)也被确认为正常交易时,可基于该第二交易样本数据更新异常交易检测 模型。在这个实施例中,基于二次被确认为正常交易的第二交易样本数据更新 异常交易检测模型能很好地提高异常交易检测模型的检测准确性。
在本发明的一个实施例中,还提供一种计算装置,该计算装置包括一个或 多个处理器和一个或多个存储器,其中,一个或多个存储器存储有计算机程序, 当所述计算机程序被所述一个或多个处理器执行时,实现本申请所公开的任意 一项方法。
该计算装置具体可以是图3或图4所示的装置。
图3示出根据本发明的实施例的异常交易检测模型的训练装置。
参照图3,异常交易检测模型的训练装置300可包括一个或多个处理器310 和存储器320。存储器320存储有计算机程序,其中,当计算机程序被一个或 多个处理器310执行时,实现参照图1描述的任意一项训练方法。一个或多个 处理器310可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、 专用处理器、微控制器或微处理器。作为示例而非限制,所述处理器还可包括 模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器 等。一个或多个处理器310与存储器320之间的数据和/或指令可经由网络接口 装置(未示出)而通过网络被发送和接收,其中,所述网络接口装置可采用任 何已知的传输协议。
例如,当计算机程序被一个或多个处理器310执行时,可使得一个或多个 处理器310执行和/或实现以下操作:接收所获取的第一交易样本数据集,其中, 第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;对第一交 易样本数据集进行特征提取处理,得到第一交易样本特征集;基于第一交易样 本特征集,采用无监督机器学习算法训练得到异常交易检测模型,其中,通过 异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和 半径。
图4示出根据本发明的实施例的异常交易检测装置。
参照图4,异常交易检测装置400可包括一个或多个处理器410和存储器 420。存储器420存储有计算机程序,其中,当计算机程序被一个或多个处理 器410执行时,实现参照图2描述的任意一项异常交易检测方法。一个或多个 处理器410可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、 专用处理器、微控制器或微处理器。作为示例而非限制,所述处理器还可包括 模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器 等。一个或多个处理器410与存储器420之间的数据和/或指令可经由网络接口装置(未示出)而通过网络被发送和接收,其中,所述网络接口装置可采用任 何已知的传输协议。
例如,当计算机程序被一个或多个处理器410执行时,可使得一个或多个 处理器410执行和/或实现以下操作:接收待检测的第二交易样本数据;对第二 交易样本数据进行特征提取处理,得到第二交易样本的特征;将第二交易样本 的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;根 据预测结果和异常交易检测模型的每个簇的核心位置和半径进行判断,当判断 出第二交易样本的特征不属于异常交易检测模型的任一个簇时,输出第二交易 样本数据为异常交易的检测结果。
图5示出根据本发明的实施例的异常交易检测模型的训练装置。
参照图5,根据本发明的实施例的异常交易检测模型的训练装置500可包 括接收单元510、特征提取单元520和训练与记录单元530。这里,异常交易 检测模型的训练装置500可执行参照图1描述的任意训练方法。下面对接收单 元510、特征提取单元520和训练与记录单元530进行更详细地描述。请注意, 为了简明,下面省略与参照图1描述的任意训练方法相关的具体描述,然而, 参照图1描述的任意训练方法相关的具体描述可应用于执行该训练方法中的一 个或多个步骤的对应的单元(例如,接收单元510、特征提取单元520或训练 与记录单元530)。
在本发明,接收单元510可被配置为接收所获取的第一交易样本数据集, 其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据。在 一个实施例中,第一交易样本数据是企业加入供应链金融之前的交易样本。
在本发明中,特征处理单元520可被配置为对第一交易样本数据集进行特 征提取处理,得到第一交易样本特征集。在一个实施例中,第一交易样本特征 集中的各第一交易样本的特征包括从第一交易样本数据中提取的以下特征中 的一个或多个:时间属性特征、金额属性特征、金额分布属性特征、同品类属 性特征、同地区属性特征。
在本发明中,训练与记录单元530可被配置为基于第一交易样本特征集, 采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学 习算法获得的每个簇的核心位置和半径。这里,无监督机器学习算法可包括 k-means算法、DBSCAN算法或孤立森林算法等。
在一个实施例中,训练与记录单元530可被配置为:将所述第一交易样本 特征集中的各第一交易样本的特征进行按列归一化;基于按列归一化后的各第 一交易样本的特征,采用无监督机器学习算法训练得到异常交易检测模型。
当无监督机器学习算法是k-means算法时,训练与记录单元530可被配置 为:在所述第一交易样本特征集中,确定k个初始簇的核心位置,其中,k的 值基于所述第一交易样本特征集来确定;基于预定k个初始簇的核心位置,使 用k-means算法对所述第一交易样本特征集进行聚类,直到标准测度函数开始 收敛为止。
在一个可选地实施例中,异常交易检测模型的训练装置500还包括输出单 元(未示出),其中,输出单元被配置为输出所述异常交易检测模型和所记录 的每个簇的核心位置和半径。
图6示出根据本发明的实施例的异常交易检测装置。
参照图6,根据本发明的实施例的异常交易检测模型的训装置600可包括 接收单元610、特征处理单元620、输入单元630和检测单元640。
这里,异常交易检测模型的训练装置500可执行参照图2描述的任意异常 交易检测方法。下面对接收单元610、特征处理单元620、输入单元630和检 测单元640进行更详细地描述。请注意,为了简明,下面省略与参照图2描述 的任意异常交易检测方法相关的具体描述,然而,参照图2描述的任意异常交 易检测方法相关的具体描述可应用于执行该异常交易检测方法的一个或多个 步骤的对应的单元(例如,接收单元610、特征处理单元620、输入单元630 或检测单元640)。
在本发明中,接收单元610可被配置为接收待检测的第二交易样本数据。 在一个实施例中,第二交易样本数据是企业加入供应链金融之后的交易样本。
在本发明中,特征处理单元620可被配置为对第二交易样本数据进行特征 提取处理,得到第二交易样本的特征。在一个实施例中,特征处理单元620执 行的特征处理可与图5中的特征处理单元520相同或相似。
在本发明中,输入单元630可被配置为将第二交易样本的特征输入基于无 监督机器学习算法的异常交易检测模型,得到预测结果。这里,预测结果可指 示第二交易样本的特征已经被映射到了由用于训练异常交易检测模型的各个 第一交易样本的特征所构成的空间。
在本发明中,检测单元640可被配置为根据预测结果和异常交易检测模型 的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属 于所述异常交易检测模型的任一个簇时,输出第二交易样本数据为异常交易的 检测结果。
在一个实施例中,检测单元640可被配置为:当第二交易样本的特征与每 个簇的核心位置之间的距离大于预定赋能系数与相应簇的半径的乘积时,判断 出第二交易样本的特征不属于所述异常交易检测模型的任一个簇。这里,赋能 系数可以是参照图2的实施例描述的赋能系数。此外,可选地,检测单元被配 置为:当第二交易样本的特征与至少一个簇的核心位置之间的距离等于或小于 预定赋能系数与所述至少一个簇的半径的乘积时,输出所述第二交易样本数据 为正常交易的检测结果。
此外,可选地,异常交易检测装置600还可包括更新单元(未示出),其 中,更新单元可被配置为响应于所述第二交易样本数据为正常交易的检测结果, 选择性地基于所述第二交易样本数据更新所述异常交易检测模型。在一个实施 例中,更新单元可被配置为:将第二交易样本数据和异常交易检测模型中的训 练交易样本数据作为新的训练交易样本数据作为异常交易检测模型的训练输 入,以更新异常交易检测模型。
以上已参照图1至图6描述了根据本发明的示例性实施例的异常交易检测 模型的训练方法和训练装置以及异常交易检测方法和异常交易检测装置。然而, 应理解的是:图1至图6中所使用的装置、系统、单元等可被分别配置为执行 特定功能的软件、硬件、固件或上述项的任意组合。例如,这些系统、装置或 单元等可对应于专用的集成电路,也可对应于纯粹的软件程序,还可对应于软 件与硬件相结合的单元。此外,这些系统、装置或单元等所实现的一个或多个 功能也可由物理实体设备(例如,处理器、客户端或服务器等)中的组件来统 一执行。
此外,上述训练方法可通过记录在计算可读存储介质上的计算机程序来实 现。例如,根据本发明的示例性实施例,可提供一种存储有计算机程序的计算 机可读存储介质,当计算机程序在被处理器执行时实现本申请中所公开的任一 训练方法。
例如,当计算机程序在被处理器执行时实现如下步骤:接收所获取的第一 交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常 交易样本数据;对第一交易样本数据集进行特征提取处理,得到第一交易样本 特征集;基于第一交易样本特征集,采用无监督机器学习算法训练得到异常交 易检测模型,其中,通过异常交易检测模型,记录基于无监督机器学习算法获 得的每个簇的核心位置和半径。
此外,上述异常交易检测方法可通过记录在计算可读存储介质上的计算机 程序来实现。例如,根据本发明的示例性实施例,可提供一种存储有计算机程 序的计算机可读存储介质,当计算机程序在被处理器执行时实现本申请中所公 开的任一异常交易检测方法。
例如,当计算机程序在被处理器执行时实现如下步骤:接收待检测的第二 交易样本数据;对第二交易样本数据进行特征提取处理,得到第二交易样本的 特征;将第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模 型,得到预测结果;根据预测结果和异常交易检测模型的每个簇的核心位置和 半径进行判断,当判断出第二交易样本的特征不属于异常交易检测模型的任一 个簇时,输出第二交易样本数据为异常交易的检测结果。
上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装 置、服务器等计算机设备中部署的环境中运行,应注意,所述计算机程序在被 运行时还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执 行更为具体的处理,这些附加步骤和进一步处理的内容已经在参照图1到图4 进行相关方法和装置的描述过程中提及,因此这里为了避免重复将不再进行赘 述。
本发明这种利用基于无监督机器学习算法进行异常交易检测的技术方案 由于考虑到了金融交易场景的特性而采用了无监督机器学习算法,从而实现可 解释、易于可视化的简单模型,即能够符合监管的要求,又能够将算法逻辑可 视化给业务人员,帮助他们更好的理解预警逻辑,对交易后续的运营也能够提 供建议,并且能够提供较高的检测准确率。
以上描述了本申请的各示例性实施例,应理解,上述描述仅是示例性的, 并非穷尽性的,本申请不限于所披露的各示例性实施例。在不偏离本申请的范 围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是 显而易见的。因此,本申请的保护范围应该以权利要求的范围为准。

Claims (10)

1.一种异常交易检测模型的训练方法,包括:
接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;
对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;
基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半径。
2.如权利要求1所述的训练方法,其中,所述训练方法还包括:
输出所述异常交易检测模型和所记录的每个簇的核心位置和半径。
3.如权利要求1所述的训练方法,其中,第一交易样本特征集中的各第一交易样本的特征包括从第一交易样本数据中提取的以下特征中的一个或多个:时间属性特征、金额属性特征、金额分布属性特征、同品类属性特征、同地区属性特征。
4.如权利要求1所述的训练方法,其中,基于所述第一交易样本特征集采用无监督机器学习算法训练得到异常交易检测模型的步骤包括:
将所述第一交易样本特征集中的各第一交易样本的特征进行按列归一化;
基于按列归一化后的各第一交易样本的特征,采用无监督机器学习算法训练得到异常交易检测模型。
5.如权利要求1所述的训练方法,其中,所述无监督机器学习算法包括k-means算法、DBSCAN算法或孤立森林算法。
6.一种异常交易检测方法,包括:
接收待检测的第二交易样本数据;
对所述第二交易样本数据进行特征提取处理,得到第二交易样本的特征;
将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;
根据所述预测结果和所述异常交易检测模型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检测结果。
7.一种存储有计算机程序的计算机可读存储介质,当所述计算机程序在被处理器执行时实现权利要求1至6中的任意一项所述的方法。
8.一种计算装置,包括:
一个或多个处理器;
一个或多个存储器,存储有计算机程序,当所述计算机程序被所述一个或多个处理器执行时,实现权利要求1至6中的任意一项所述的方法。
9.一种异常交易检测模型的训练装置,包括:
接收单元,被配置为接收所获取的第一交易样本数据集,其中,第一交易样本数据集中的各第一交易样本数据是正常交易样本数据;
特征处理单元,被配置为对第一交易样本数据集进行特征提取处理,得到第一交易样本特征集;
训练与记录单元,被配置为基于所述第一交易样本特征集,采用无监督机器学习算法训练得到异常交易检测模型,记录基于无监督机器学习算法获得的每个簇的核心位置和半径。
10.一种异常交易检测装置,包括:
接收单元,被配置为接收待检测的第二交易样本数据;
特征处理单元,被配置为对所述第二交易样本数据进行特征提取处理,得到第二交易样本的特征;
输入单元,被配置为将所述第二交易样本的特征输入基于无监督机器学习算法的异常交易检测模型,得到预测结果;
检测单元,被配置为根据所述预测结果和所述异常交易检测模型的每个簇的核心位置和半径进行判断,当判断出所述第二交易样本的特征不属于所述异常交易检测模型的任一个簇时,输出所述第二交易样本数据为异常交易的检测结果。
CN201910243559.XA 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置 Pending CN109948728A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201910243559.XA CN109948728A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置
CN202111506039.7A CN114154588A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910243559.XA CN109948728A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111506039.7A Division CN114154588A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置

Publications (1)

Publication Number Publication Date
CN109948728A true CN109948728A (zh) 2019-06-28

Family

ID=67011030

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111506039.7A Pending CN114154588A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置
CN201910243559.XA Pending CN109948728A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111506039.7A Pending CN114154588A (zh) 2019-03-28 2019-03-28 异常交易检测模型的训练以及异常交易检测的方法和装置

Country Status (1)

Country Link
CN (2) CN114154588A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378607A (zh) * 2019-07-24 2019-10-25 青岛鲁诺金融电子技术有限公司 一种基于算法的汽车金融服务系统
CN110751196A (zh) * 2019-10-12 2020-02-04 东北石油大学 一种油水两相流透明管壁内类油滴附着物识别方法
CN111026653A (zh) * 2019-09-16 2020-04-17 腾讯科技(深圳)有限公司 异常程序行为检测方法、装置、电子设备和存储介质
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111353890A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 基于应用日志的应用异常检测方法及装置
CN111383030A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备
CN111428757A (zh) * 2020-03-05 2020-07-17 支付宝(杭州)信息技术有限公司 模型训练方法、异常数据检测方法、装置和电子设备
CN111445254A (zh) * 2020-03-10 2020-07-24 中国建设银行股份有限公司 一种交易行为检测方法、装置和系统
CN111461223A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 异常交易识别模型的训练方法及异常交易识别方法
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111833171A (zh) * 2020-03-06 2020-10-27 北京芯盾时代科技有限公司 异常操作检测和模型训练方法、装置以及可读存储介质
CN111882415A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种质量检测模型的训练方法和相关装置
CN112101952A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 银行可疑交易评估、数据处理方法及装置
CN113159790A (zh) * 2021-05-19 2021-07-23 中国银行股份有限公司 一种异常交易识别方法和装置
CN113298184A (zh) * 2021-06-21 2021-08-24 哈尔滨工程大学 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN114495137A (zh) * 2022-04-15 2022-05-13 深圳高灯计算机科技有限公司 票据异常检测模型生成方法与票据异常检测方法
CN114471408A (zh) * 2022-01-27 2022-05-13 广东天航动力科技有限公司 一种粉体材料生产用自动监控系统
CN117171603A (zh) * 2023-11-01 2023-12-05 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法

Cited By (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110378607A (zh) * 2019-07-24 2019-10-25 青岛鲁诺金融电子技术有限公司 一种基于算法的汽车金融服务系统
CN111798312B (zh) * 2019-08-02 2024-03-01 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111798312A (zh) * 2019-08-02 2020-10-20 深圳索信达数据技术有限公司 一种基于孤立森林算法的金融交易系统异常识别方法
CN111026653A (zh) * 2019-09-16 2020-04-17 腾讯科技(深圳)有限公司 异常程序行为检测方法、装置、电子设备和存储介质
CN111026653B (zh) * 2019-09-16 2022-04-08 腾讯科技(深圳)有限公司 异常程序行为检测方法、装置、电子设备和存储介质
CN110751196A (zh) * 2019-10-12 2020-02-04 东北石油大学 一种油水两相流透明管壁内类油滴附着物识别方法
CN110751196B (zh) * 2019-10-12 2020-09-18 东北石油大学 一种油水两相流透明管壁内类油滴附着物识别方法
CN111191720A (zh) * 2019-12-30 2020-05-22 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111191720B (zh) * 2019-12-30 2023-08-15 中国建设银行股份有限公司 一种业务场景的识别方法、装置及电子设备
CN111428757A (zh) * 2020-03-05 2020-07-17 支付宝(杭州)信息技术有限公司 模型训练方法、异常数据检测方法、装置和电子设备
CN111833171A (zh) * 2020-03-06 2020-10-27 北京芯盾时代科技有限公司 异常操作检测和模型训练方法、装置以及可读存储介质
CN111445254A (zh) * 2020-03-10 2020-07-24 中国建设银行股份有限公司 一种交易行为检测方法、装置和系统
CN111353890A (zh) * 2020-03-30 2020-06-30 中国工商银行股份有限公司 基于应用日志的应用异常检测方法及装置
CN111461223A (zh) * 2020-04-01 2020-07-28 支付宝(杭州)信息技术有限公司 异常交易识别模型的训练方法及异常交易识别方法
CN111612037A (zh) * 2020-04-24 2020-09-01 平安直通咨询有限公司上海分公司 异常用户检测方法、装置、介质及电子设备
CN111383030A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 一种交易风险的检测方法、装置及设备
CN111882415A (zh) * 2020-07-24 2020-11-03 未鲲(上海)科技服务有限公司 一种质量检测模型的训练方法和相关装置
CN112101952A (zh) * 2020-09-27 2020-12-18 中国建设银行股份有限公司 银行可疑交易评估、数据处理方法及装置
CN112101952B (zh) * 2020-09-27 2024-05-10 中国建设银行股份有限公司 银行可疑交易评估、数据处理方法及装置
CN113159790A (zh) * 2021-05-19 2021-07-23 中国银行股份有限公司 一种异常交易识别方法和装置
CN113298184B (zh) * 2021-06-21 2022-09-02 哈尔滨工程大学 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN113298184A (zh) * 2021-06-21 2021-08-24 哈尔滨工程大学 用于小样本图像识别的样本抽取、扩充方法及存储介质
CN114471408A (zh) * 2022-01-27 2022-05-13 广东天航动力科技有限公司 一种粉体材料生产用自动监控系统
CN114471408B (zh) * 2022-01-27 2023-08-08 广东天航动力科技有限公司 一种粉体材料生产用自动监控系统
CN114495137A (zh) * 2022-04-15 2022-05-13 深圳高灯计算机科技有限公司 票据异常检测模型生成方法与票据异常检测方法
CN114495137B (zh) * 2022-04-15 2022-08-02 深圳高灯计算机科技有限公司 票据异常检测模型生成方法与票据异常检测方法
CN117171603A (zh) * 2023-11-01 2023-12-05 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法
CN117171603B (zh) * 2023-11-01 2024-02-06 海底鹰深海科技股份有限公司 一种基于机器学习的多普勒测速数据处理方法

Also Published As

Publication number Publication date
CN114154588A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN109948728A (zh) 异常交易检测模型的训练以及异常交易检测的方法和装置
Gómez et al. End-to-end neural network architecture for fraud scoring in card payments
US20090276368A1 (en) Systems and methods for providing personalized recommendations of products and services based on explicit and implicit user data and feedback
TW530234B (en) Methods and systems for efficiently sampling portfolios for optimal underwriting
US10614073B2 (en) System and method for using data incident based modeling and prediction
Chen et al. Predicting default risk on peer-to-peer lending imbalanced datasets
CN111861698B (zh) 一种基于贷款多头数据的贷前审批预警方法及系统
MXPA01008620A (es) Modelos de prediccion de valoracion en situaciones con entradas perdidas.
JP2003526146A (ja) 評価値を求めてリスクを低減する方法とシステム
KR20010108282A (ko) 입찰가 판정 방법, 시스템 및 컴퓨터
US20210097543A1 (en) Determining fraud risk indicators using different fraud risk models for different data phases
Anowar et al. Detection of auction fraud in commercial sites
Arora et al. Prediction of credit card defaults through data analysis and machine learning techniques
CN111144899B (zh) 识别虚假交易的方法及装置和电子设备
TWM594216U (zh) 聯合貸款風險評估裝置
Hasheminejad et al. FDiBC: a novel fraud detection method in bank club based on sliding time and scores window
CN111126788A (zh) 风险识别方法及装置和电子设备
Gyamerah et al. Long‐Term Exchange Rate Probability Density Forecasting Using Gaussian Kernel and Quantile Random Forest
dos Reis Evaluating classical and artificial intelligence methods for credit risk analysis
CN115049501A (zh) 一种期货价格预警方法及装置
CN113409129A (zh) 融资准入风险评估方法、装置及计算机存储介质
CN114418776A (zh) 一种数据处理方法、装置、终端设备及介质
Ghasemkhani et al. Actions Speak Louder Than Words: Imputing Users' Reputation from Transaction History
WO2024000152A1 (en) A system and a method for analysing a market of exchangeable assets
US20240029153A1 (en) Trade and Mobility Data-driven Credit Performance Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190628