账户交易的聚类方法及其系统
技术领域
本发明涉及账户安全技术,特别涉及账户交易的聚类方法及其系统。
背景技术
在互联网第三方支付中,存在多种风险问题,特别是盗卡和盗账户案件,这两类盗用对客户的安全体验和支付机构的风险运营带来了极大的挑战。
现有技术方法和解决方案大多针对各种盗卡和盗账户进行有效识别和分析,大多没有考虑在实际被盗交易中,存在被盗者借盗用案件来进行骗赔的风险。也就是说部分诚信度不足的被盗者在要求追回被盗损失的同时,大多在实际被盗交易中,掺入些许被盗者自身的正常交易,这往往被互联网支付机构所忽视。例如,在某一盗卡案件关联的多比可疑交易中,可能存在某笔或某几笔是被盗者正常交易的案例。如何有效地甄别这些盗用案件中的骗赔交易成为一个亟需解决的技术难点。
如果采用人工的方式进行审理,这需要经验丰富的审理人员对每个案件涉及的交易进行逐笔分析判断,通过剔除被盗者正常交易来保障整个案件判定的准确性和有效性,但是这种人工方式缺乏智能性和稳定性。
发明内容
本发明的目的在于提供一种账户交易的聚类方法及其系统,克服特征因子变量量纲不同的同时,能够避免夸大微小特征因子的作用。
为解决上述技术问题,本发明的实施方式公开了一种账户交易的聚类方法,包括以下步骤:
提取待聚类交易中代表账户交易特征的各账户的特征因子,特征因子包括表示各账户独立信息的第一类特征因子和表示账户间关联信息的第二类特征因子;
分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理;
在归一化处理后的第一类特征因子与第二类特征因子之间,通过欧氏距离计算与各交易类型的聚类中心的相似度;
根据相似度对账户交易进行聚类。
本发明的实施方式还公开了一种账户交易的聚类系统,包括以下模块:
特征因子提取模块,用于提取待聚类交易中代表账户交易特征的各账户的特征因子,特征因子包括表示各账户独立信息的第一类特征因子和表示账户间关联信息的第二类特征因子;
归一化模块,用于分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理;
相似度计算模块,用于在归一化处理后的第一类特征因子与第二类特征因子之间,通过欧氏距离计算与各交易类型的聚类中心的相似度;
聚类模块,用于根据相似度对账户交易进行聚类。
本发明实施方式与现有技术相比,主要区别及其效果在于:
对账户交易聚类时结合第一类特征因子和第二类特征因子计算相似度,充分考虑到了不同账户的操作差异性,适用于复杂的交易聚类场景;分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理后再计算相似度以聚类,克服特征因子变量量纲不同的同时,能够避免夸大微小特征因子的作用。
进一步地,通过并行化分析各账户操作的行为轨迹并提取第二类特征因子,更精确地表述了账户的行为差异性。
进一步地,仅使用第二类特征因子计算相似度,避免了待聚类交易的总体样本数小于总的特征因子数时,总体样本协方差矩阵的逆矩阵不存在的问题。
进一步地,通过核函数将特征因子映射到高维特征空间,可实现账户交易样本在特征空间上的线性可分。
进一步地,相较于现有方法中基于试凑或者基于专家经验对核函数的参数进行设置,本发明利用相似历史交易记录为核函数的参数进行整定,可有效提高准确性和有效性。
进一步地,通过交易的聚类方法甄别夹杂在盗用案件中的不可赔付交易,避免部分诚信度不足的被盗者在要求追回被盗损失时,掺入一些被盗者自身的正常交易。
附图说明
图1是本发明第一实施方式中一种账户交易的聚类方法的流程示意图;
图2是本发明第三实施方式中一种账户交易的聚类方法的离线建模流程图;
图3是本发明第三实施方式中一种账户交易的聚类方法的在线应用的流程图;
图4是本发明第四实施方式中一种账户交易的聚类系统的结构示意图。
具体实施方式
在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请各权利要求所要求保护的技术方案。
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施方式作进一步地详细描述。
本发明第一实施方式涉及一种账户交易的聚类方法,图1是该账户交易的聚类方法的流程示意图。
具体地说,如图1所示,该账户交易的聚类方法包括以下步骤:
步骤101,提取待聚类交易中代表账户交易特征的各账户的特征因子,特征因子包括表示各账户独立信息的第一类特征因子和表示账户间关联信息的第二类特征因子。
步骤102,分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理。
优选地,在该步骤中,通过马氏聚类实现归一化处理。此外,可以理解,在本发明的其它实施方式中,也可以针对每个变量进行独立归一化,而不局限于采用马氏聚类进行归一化处理。
步骤103,在归一化处理后的第一类特征因子与第二类特征因子之间,通过欧氏距离计算与各交易类型的聚类中心的相似度。
步骤104,根据相似度对账户交易进行聚类。
此外,可以理解,第一类特征因子表示各账户独立信息,不需要通过与其它账户的关联就可以获取。
第二类特征因子则需要通过与其它账户的关联才可以获取,例如两个账户之间是否为特定关系圈。
优选地,各账户的第一类特征因子包括:
第一类特征因子包括账户交易时的操作环境的数据,交易频次和交易金额的数据,以及交易类型和资金渠道的数据。
优选地,各账户的第二类特征因子包括:
账户间是否存在关联关系或者账户间的关联等级。
账户间交易行为差异性分析的数据。
账户操作时间序列的数据。
随着账户交易场景的复杂化,往往难以仅通过常规简单的特征因子对账户交易进行分析。因此,需要通过并行化分析各账户操作的行为轨迹并提取第二类特征因子,更精确地表述了账户的行为差异性。
此外,可以理解,在本发明的其它实施方式中,也可以提取其它代表账户交易特征的特征因子,而不局限于此。
但是,如果对第一类特征因子和第二类特征因子采用相同的独立于各个特征因子的测量尺度进行统一的归一化处理并计算与聚类中心的相似度,则认为第一类特征因子和第二类特征因子是同等重要的,存在夸大微小的特征因子(即第一类特征因子)作用的问题。
因此,需要分别针对第一类特征因子和第二类特征因子,分别采用独立于各个特征因子的测量尺度进行归一化处理后再通过欧氏距离计算与各聚类中心的相似度。
此外,考虑到在计算马氏聚类过程中,要求总体样本数(即案件中交易的数量)大于每个案件样本的变量维数(即特征因子的数量),否则总体样本协方差矩阵的逆矩阵不存在。因此,优选地,在步骤101之后,还包括步骤:
判断待聚类交易的交易样本数是否大于第一类特征因子和第二类特征因子的总的特征因子数。
如果判断结果为否,则仅针对第二类特征因子,采用独立于各个特征因子的测量尺度计算与各交易类型的聚类中心的相似度。
仅使用第二类特征因子计算相似度,避免了待聚类交易的总体样本数小于总的特征因子数时,总体样本协方差矩阵的逆矩阵不存在的问题。
综上所述,本实施方式对账户交易聚类时结合第一类特征因子和第二类特征因子计算相似度,充分考虑到了不同账户的操作差异性,适用于复杂的交易聚类场景。分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理后再计算相似度以聚类,克服特征因子变量量纲不同的同时,能够避免夸大微小特征因子的作用。
本发明第二实施方式涉及一种账户交易的聚类方法,第二实施方式在第一实施方式的基础上进行了改进,主要改进之处在于:通过核函数将特征因子映射到高维特征空间,可实现账户交易样本在特征空间上的线性可分;相较于现有方法中基于试凑或者基于专家经验对核函数的参数进行设置,本发明利用相似历史交易记录为核函数的参数进行整定,可有效提高准确性和有效性。具体地说:
在步骤101提取待聚类交易中代表账户交易特征的各账户的特征因子之后,还包括步骤:
通过核函数将第一类特征因子和第二类特征因子映射到高维特征空间。
在步骤102中,对映射到高维特征空间后的第一类特征因子和第二类特征因子进行归一化处理。
优选地,核函数的参数是根据对应账户的历史交易记录进行整定的。
本实施方式通过核函数将特征因子映射到高维特征空间主要是考虑到原始空间线性不可分,即直接使用特性因子无法对交易样本进行区分。但是通过核函数的映射,将原始空间投影到特征空间,实现了账户交易样本在特征空间上的线性可分。
本发明第三实施方式涉及一种账户交易的聚类方法,第三实施方式是第一实施方式和第二实施方式的具体应用,通过交易的聚类方法甄别夹杂在盗用案件中的不可赔付交易,避免部分诚信度不足的被盗者在要求追回被盗损失时,掺入一些被盗者自身的正常交易。
现有技术手段往往针对各种盗卡和盗账户的有效识别和分析,但是大多没有考虑在实际被盗交易中,存在被盗者自身的正常交易掺入这一风险问题。如果采用人工的方式进行审理,这需要经验丰富的审理人员对每个案件涉及的交易进行逐笔分析判断。通过剔除被盗者正常交易来保障整个案件判定的准确性和有效性。但是这种人工方式缺乏智能性和稳定性。而且,由于案件爆发的随机性,往往人员配置存在短缺,缺少临时应对机制。因此,本发明通过智能模型和优化判别策略,来自动地甄别这些夹杂在盗用案件中的不可赔付交易。
因此,本实施方式将交易的聚类方法应用在上述场景中,账户交易类型包括盗用交易和骗赔交易,账户交易的聚类方法用于识别出一个盗用案件中的骗赔交易。
优选地,各账户的第二类特征因子包括:
账户间是否为特定关系圈或者关联等级;
账户是否通过虚拟物品和快速转帐进行销赃;
账户销赃操作时间序列是否为离群点和野值点。
更具体地说,骗赔者通过资金流转往往获益的对象是身边的关系圈,也即账户间为特定关系圈;盗用者一般通过虚拟物品和快速转帐进行销赃,而骗赔者则不一定;此外,盗用者的一系列销赃操作时间序列分析和骗赔者进行对比,可以发现骗赔者的操作时间往往是离群点和野值点,盗用者很可能是惯犯,或者团队,可以从其他案件中获得相似的操作行为,而骗赔者往往是单一的,仅有的几次。
优选地,还包括步骤:
对识别出一个盗用案件中的骗赔交易的账户进行信用记录。
此外,可以理解,对涉及疑似骗赔交易的被盗者进行身份核实后,记录信用来实现个人信用的归档,可服务于金融征信业务。
作为本实施方式的优选例,对盗用案件中盗用者和骗赔者(很多情况下是被盗者本人)的交易行为分析和提取新的特征因子,并将基于kernel的马氏距离聚类方法用于盗用案件骗赔交易识别。
现有的盗用案件模型分析流程为:提取盗用案件的特征(包括环境是否可靠,交易行为是否异常等行为属性),然后基于这些行为属性建立盗用案件的回归模型。回归模型的颗粒度精确到交易,在线应用时,回归模型对每一笔交易进行打分。
但是,本优选例针对的问题是在案件分析中,需要考虑两类自然人:盗用者和骗赔者,并行化深入分析这两类人在盗用案件中扮演的角色和操作行为轨迹,通过甄别其中的差异来提取新的特征因子。新的特征因子包括基础特征因子和进阶特征因子。
基本特征因子包括:
1.盗用者和骗赔者的操作环境;
2.盗用者和骗赔者的交易频次和金额;
3.盗用者和骗赔者的交易类型和资金渠道。一般盗用者的操作环境为黑环境或不可信环境,而骗赔者往往是正常的操作环境,而且盗用者的交易特性(频次、金额和类目)往往和骗赔者不同。
但是,随着案件场景越来越恶化,往往难以通过常规简单的这些基本特征因子进行分类。因此,进阶的特征因子包括:
1.受益方与被盗者是否为特定关系圈;
2.盗用者和骗赔者交易行为矛盾分析;
3.盗用者和骗赔者的交易操作短周期性分析。
具体地说,骗赔者通过资金流转往往获益的对象是身边的关系圈,而且,盗用者一般通过虚拟物品和快速转帐进行销赃,而骗赔者则不一定。此外,盗用者的一系列销赃操作时间序列分析和骗赔者进行对比,可以发现骗赔者的操作时间往往是离群点和野值点。
相比于3sigma检测和基于偏差的异常检测,聚类方法既可以进行单维检测,又可用于高维数据检测。因此,本发明采用聚类方法进行盗用案件骗赔交易识别。
聚类分析是一组将研究对象分为相对同质的群组(clusters),通过聚类分析可将同一案件下的不同交易进行聚类分组。根据聚类结果可分析出盗用交易和骗赔交易这两类不同的群组。根据数据点与聚类中心的相似度(一般为欧氏距离),分别将这些数据点归属到与其最相似的(聚类中心所代表的)聚类,接着再计算每个新聚类的聚类中心(一般为该聚类中所有对象的均值),不断迭代至收敛为止。
由于提取的这些特征因子存在变量量纲不同的问题,而且变量的相关性较强,因此,本发明实施方式采用马氏聚类进行聚类中心的相似度计算。即独立于各个特征因子的测量尺度。构建一个均值为μ,协方差矩阵为Σ的多变量向量矩阵:
(x‐μ)'Σ^(‐1)(x‐μ) (1)
本发明实施方式中对马氏聚类的改进点主要体现在:
1)在计算马氏距离过程中,要求总体盗用案件的样本数大于每个案件样本的变量维数,否则总体样本协方差矩阵的逆矩阵不存在。因此,在本发明中,设计了并保证了案件样本的维度小于总体采样数。如果样本数小于总体的变量维数集,则直接使用进阶因子。
2)马氏距离优点是不受量纲的影响,马氏距离还可以排除变量之间的相关性的干扰。但是它的缺点是夸大了变化微小的变量的作用。在本发明中,创新地提出基础因子和进阶因子,为避免夸大了变化微小的变量的作用,基础因子内部考虑量纲一致,即马氏距离,进阶因子内部,也考虑量纲一致。即马氏距离。而基础因子和进阶因子之间的融合,则采用欧氏距离。
与此同时,针对盗用案件数据分析中普遍存在的非线性问题,采用kernel技术,即通过核函数来计算马氏聚类距离。通过使用Kernel来实现高维的Kernel特征空间中有效聚类距离计算。特征因子X通过Φ映射到Hilbert空间H:
因此,核函数可表示为:
Κ(x,z)=(Φ(x)·Φ(z)) (3)
其中(·)表示Hilbert空间H中的内积。
Kernel核方法的意义:
原始空间线性不可分,即直接使用这些特性因子,无法对盗用案件和骗赔案件进行区分。但是,通过kernel核方法,将原始空间投影到特征空间,实现这些特征因子在特征空间上的线性可分。
本发明实施方式中的核方法的改进点:现有方法中,对核方法中参数设置,往往是基于试凑或者基于专家经验的。而本发明实施方式中,由于盗用者存在团伙或者惯犯,所以这些相似的案件,可作为核函数参数的有效整定,这样可有效提高方法的准确性和有效性。
最后,对涉及上述疑似骗赔交易的被盗者进行身份核实,并记录信用,实现个人信用的归档。在信用贷款和虚拟信用卡的核身时,对信用不良的人员进行限额限权,甚至取消资格。
本实施例详细的离线建模流程图如图2所示,首先选择全新的盗用交易的特征因子,利用选取的特征因子构建kernel马氏距离聚类模型,以交易为颗粒度的模型打分,确定疑似骗赔策略。
本实施例详细的在线应用的流程图如图3所示,首先提取待定案件信息,采用回归模型打分,根据所述得分进行疑似骗赔的判断,如果判断为否,则进行待定案件的下一笔交易的分析,并在全部交易分析结束后进行案件定性和赔付流程;如果判断结果为是,则进行信用记录备案。
此外,相比于现有的,对实时交易进行监控方法,本发明提出的方法对覆盖率、准确率和实时性这些指标的考虑中,侧重的是保证准确率,而不是覆盖率和实时性要求。
本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable ArrayLogic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存储器(Programmable Read Only Memory,简称“PROM”)、只读存储器(Read-Only Memory,简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简称“EEPROM”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。
本发明第四实施方式涉及一种账户交易的聚类系统,图4是该账户交易的聚类系统的结构示意图。
具体地说,如图4所示,该账户交易的聚类系统包括以下模块:
特征因子提取模块,用于提取待聚类交易中代表账户交易特征的各账户的特征因子,特征因子包括表示各账户独立信息的第一类特征因子和表示账户间关联信息的第二类特征因子;
归一化模块,用于分别针对第一类特征因子和第二类特征因子,采用独立于各个特征因子的测量尺度进行归一化处理;优选地,在归一化模块中,通过马氏聚类实现归一化处理,此外,可以理解,在本发明的其它实施方式中,也可以针对每个变量进行独立归一化,而不局限于采用马氏聚类进行归一化处理;
相似度计算模块,用于在归一化处理后的第一类特征因子与第二类特征因子之间,通过欧氏距离计算与各交易类型的聚类中心的相似度;
聚类模块,用于根据相似度对账户交易进行聚类。
优选地,各账户的第一类特征因子包括:
第一类特征因子包括账户交易时的操作环境的数据,交易频次和交易金额的数据,以及交易类型和资金渠道的数据。
优选地,各账户的第二类特征因子包括:
账户间是否存在关联关系或者账户间的关联等级。
账户间交易行为差异性分析的数据。
账户操作时间序列的数据。
通过并行化分析各账户操作的行为轨迹并提取第二类特征因子,能够更精确地表述账户的行为差异性。
优选地,还包括判断模块,用于判断待聚类交易的交易样本数是否大于第一类特征因子和第二类特征因子的总的特征因子数。
如果判断结果为否,则在相似度计算模块中,仅针对第二类特征因子,采用独立于各个特征因子的测量尺度计算与各交易类型的聚类中心的相似度,避免了待聚类交易的总体样本数小于总的特征因子数时,总体样本协方差矩阵的逆矩阵不存在的问题。
第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第一实施方式中。
本发明第五实施方式涉及一种账户交易的聚类系统,第五实施方式在第四实施方式的基础上进行了改进,主要改进之处在于:通过核函数将特征因子映射到高维特征空间,可实现账户交易样本在特征空间上的线性可分;相较于现有方法中基于试凑或者基于专家经验对核函数的参数进行设置,本发明利用相似历史交易记录为核函数的参数进行整定,可有效提高准确性和有效性。具体地说:
还包括核函数映射模块,用于通过核函数将第一类特征因子和第二类特征因子映射到高维特征空间。
相应地,在归一化模块中,对映射到高维特征空间后的第一类特征因子和第二类特征因子进行归一化处理。
优选地,核函数的参数是根据对应账户的历史交易记录进行整定的。
此外,可以理解,原始空间线性不可分,即直接使用特性因子无法对交易样本进行区分。但是通过核函数的映射,将原始空间投影到特征空间,实现了账户交易样本在特征空间上的线性可分。
第二实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第二实施方式中。
本发明第六实施方式涉及一种账户交易的聚类系统,第六实施方式是第四实施方式和第五实施方式的具体应用,通过交易的聚类方法甄别夹杂在盗用案件中的不可赔付交易,避免部分诚信度不足的被盗者在要求追回被盗损失时,掺入一些被盗者自身的正常交易。具体地说:
账户交易类型包括盗用交易和骗赔交易,账户交易的聚类系统用于识别出一个盗用案件中的骗赔交易。
优选地,各账户的第二类特征因子包括:
账户间是否为特定关系圈或者关联等级;
账户是否通过虚拟物品和快速转帐进行销赃;
账户销赃操作时间序列是否为离群点和野值点。
此外,可以理解,骗赔者通过资金流转往往获益的对象是身边的关系圈,也即账户间为特定关系圈。盗用者一般通过虚拟物品和快速转帐进行销赃,而骗赔者则不一定。此外,盗用者的一系列销赃操作时间序列分析和骗赔者进行对比,可以发现骗赔者的操作时间往往是离群点和野值点,盗用者很可能是惯犯,或者团队,可以从其他案件中获得相似的操作行为,而骗赔者往往是单一的,仅有的几次。
优选地,还包括信用记录模块,用于对识别出一个盗用案件中的骗赔交易的账户进行信用记录。
此外,可以理解,对涉及疑似骗赔交易的被盗者进行身份核实后,记录信用来实现个人信用的归档,可服务于金融征信业务。
第三实施方式是与本实施方式相对应的方法实施方式,本实施方式可与第三实施方式互相配合实施。第三实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在第三实施方式中。
本发明的创新点包括两方面:盗用案件中盗用者和骗赔者(很多情况下是被盗者本人)的交易行为因子分析和提取,设计的新进阶特征因子包括受益方与被盗者是否为特定关系圈;盗用者和骗赔者交易行为矛盾分析和盗用者和骗赔者的交易操作短周期性分析。基于上述进阶特征因子和基础特征因子,充分考虑这些特征因子的量纲差异、线性相关和非线性等问题,建立基于kernel的马氏距离聚类骗赔交易识别新方法。其中,通过马氏距离来处理量纲差异和线性相关问题,通过kernel技术来处理非线性问题。最后,在对涉及上述疑似骗赔交易的被盗者进行身份核实后,记录信用来实现个人信用的归档,服务于今后的金融征信业务。
需要说明的是,本发明各设备实施方式中提到的各模块都是逻辑模块,在物理上,一个逻辑模块可以是一个物理模块,也可以是一个物理模块的一部分,还可以以多个物理模块的组合实现,这些逻辑模块本身的物理实现方式并不是最重要的,这些逻辑模块所实现的功能的组合才是解决本发明所提出的技术问题的关键。此外,为了突出本发明的创新部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的模块引入,这并不表明上述设备实施方式并不存在其它的模块。
需要说明的是,在本专利的权利要求和说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发明的精神和范围。