CN111353891A - 资金交易数据中可疑团伙的识别辅助方法及装置 - Google Patents

资金交易数据中可疑团伙的识别辅助方法及装置 Download PDF

Info

Publication number
CN111353891A
CN111353891A CN202010236825.9A CN202010236825A CN111353891A CN 111353891 A CN111353891 A CN 111353891A CN 202010236825 A CN202010236825 A CN 202010236825A CN 111353891 A CN111353891 A CN 111353891A
Authority
CN
China
Prior art keywords
information
transaction
data
transaction data
fund
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010236825.9A
Other languages
English (en)
Inventor
刘焱
王俊良
谷俊
潘晟祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202010236825.9A priority Critical patent/CN111353891A/zh
Publication of CN111353891A publication Critical patent/CN111353891A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Technology Law (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供的资金交易数据中可疑团伙的识别辅助方法及装置,通过根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值,然后将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度,进而根据异常度来辅助识别可以团伙,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。

Description

资金交易数据中可疑团伙的识别辅助方法及装置
技术领域
本发明涉及机器学习技术领域,具体涉及资金交易数据中可疑团伙的识别辅助方法及装置。
背景技术
目前金融领域常用的风险控制方法主要针对某一特定场景展开,如反洗钱、违规借贷等,具有较强的风险类型局限性,要使用多种不同方法才能实现对所有风险类型的覆盖,耗时耗力。另外目前常用的机器学习方法,对使用的构建特征依赖性较强,效果往往依赖于某些强相关性的特征,但在实际金融场景中,风险形势变化快,交易往往纷繁复杂且变化性很大,构建的机器学习模型不能适应于变化的交易数据,模型效果在上线部署后随时间迭代而急剧下降。
发明内容
针对现有技术中的问题,本发明提供一种资金交易数据中可疑团伙的识别辅助方法及装置,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
为解决上述技术问题,本发明提供以下技术方案:
第一方面,本发明实施例提供一种资金交易数据中可疑团伙的识别辅助方法,包括:
获取待识别的资金交易数据;所述资金交易数据包括时序数据;
根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
从每个数据单元中抽取多维信息属性以及其中的客户编号;
根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
在某些实施例中,还包括:建立所述聚类模型。
在某些实施例中,所述根据每个所述数据单元的异常度辅助识别出可疑团伙的账户,包括:
对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列;
选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图;
根据所述资金交易流向图辅助识别可疑团伙。
在某些实施例中,还包括:
对所述资金交易数据进行合法性校验。
在某些实施例中,所述对所述资金交易数据进行合法性校验,包括:
确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
在某些实施例中,所述信息属性包括如下至少两种:
交易双方的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息。
在某些实施例中,还包括:
对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
在某些实施例中,所述聚类模型为如下之一:
Figure BDA0002431281930000031
其中,cnt为对应信息属性的信息属性值;cntk为第k维度信息属性的信息属性值,b为组合取值。
第二方面,本发明实施例提供一种资金交易数据中可疑团伙的识别辅助装置,包括:
资金交易数据获取模块,获取待识别的资金交易数据;所述资金交易数据包括时序数据;
单元数据生成模块,根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
信息属性抽取模块,从每个数据单元中抽取多维信息属性以及其中的客户编号;
信息属性值生成模块,根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
异常度生成模块,将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
辅助识别模块,根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
在某些实施例中,还包括:模型建立模块,建立所述聚类模型。
在某些实施例中,所述辅助识别模块,包括:
排序单元,对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列;
可视化单元,选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图;
辅助单元,根据所述资金交易流向图辅助识别可疑团伙。
在某些实施例中,还包括:
合法性校验模块,对所述资金交易数据进行合法性校验。
在某些实施例中,所述合法性校验模块确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
在某些实施例中,所述信息属性包括如下至少两种:
交易双方的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息。
在某些实施例中,还包括:
预处理模块,对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
在某些实施例中,所述聚类模型为如下之一:
Figure BDA0002431281930000041
其中,cnt为对应信息属性的信息属性值;cntk为第k维度信息属性的信息属性值,b为组合取值。
第三方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的可疑团伙的识别辅助方法。
第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的可疑团伙的识别辅助方法。
由上述技术方案可知,本发明提供的资金交易数据中可疑团伙的识别辅助方法及装置,通过根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值,然后将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度,进而根据异常度来辅助识别可以团伙,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中资金交易数据中可疑团伙的识别辅助方法的流程示意图。
图2为本发明实施例中可视化的资金交易流向图。
图3为图1中步骤S6的具体流程示意图。
图4为本发明实施例中资金交易数据中可疑团伙的识别辅助装置的结构示意图。
图5为本发明实施例中的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到目前一方面融领域常用的风险控制方法主要针对某一特定场景展开,具有较强的风险类型局限性,要使用多种不同方法才能实现对所有风险类型的覆盖,耗时耗力;另一方面目前常用的机器学习方法,对使用的构建特征依赖性较强,效果往往依赖于某些强相关性的特征,但在实际金融场景中,风险形势变化快,交易往往纷繁复杂且变化性很大,构建的机器学习模型不能适应于变化的交易数据,模型效果在上线部署后随时间迭代而急剧下降。
本发明基于此提供一种基于机器学习的识别资金交易行为中可疑团伙方法,其核心构思是通过打破原本主要针对单一明确风险场景建模的思路,以支持应对融合化、演进化的风险迭代趋势,以穿透式、自学习式地模型策略来解决跨业务领域和不断产生的违规风险,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
图1示出了本发明实施例中一种资金交易数据中可疑团伙的识别辅助方法,包括:
S1:获取待识别的资金交易数据;所述资金交易数据包括时序数据。
在一些实施例中,资金交易数据包括了基本信息、交易信息以及时序数据,例如交易双方(本方和对方)的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息等。
S2:根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号。
在具体的交易数据中,根据时序将同一账户的连续两笔交易组成一个数据单元后,可以方便后续的操作,在一个数据单元中,对应的客户编号可以是两个或者三个,即两笔交易是a与b相互交易,也可以是a与b交易后,a再与c交易。
S3:从每个数据单元中抽取多维信息属性以及其中的客户编号。
根据步骤S1可以知晓,资金交易数据中包括多种信息,每种信息是一维信息属性,例如交易代码信息是一维信息属性,其具体的代码值是该信息属性的数据。也即从每个数据单元中提取出信息类。
S4:根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值。
一般而言,每次选取时可以选取两维信息属性,对于一个数据单元而言,设定上一笔数据是转入交易,下一笔数据是转出交易,则对于一个数据单元而言,其recipact(当前转出交易的交易对手)、last_recipact(上一笔转入交易的交易对手),以此来聚类,统计资金交易数据中每个数据单元的recipact和last_recipact,举例而言,以2个数据单元为例,第一个数据单元中本身为a,recipact为c,last_recipact为b,第二个数据单元中,本身为c,recipact为d,last_recipact为b。则这两个数据单元中,recipact为c的数量是1个(即客户编号的数量是1),last_recipact为b的数量是两个(即客户编号的数量是2),则确定recipact的信息属性值为1,last_recipact的信息属性值为2,当然,此处仅仅是最为简单的举例,在实际中,资金交易数据包括数万、数亿笔交易,也正是由于资金交易数据过多,常规处理方式无法处理。
步骤S4中,信息属性值可以是一个或多个,例如上述两个数据单元中,recipact为c的数量是1,recipact为d的数量是1,c和d是两个完全不同的账号,对应的客户编号数量都是1,则此时可以认为recipact的信息属性值有两个,其中recipact为c时的信息属性值为1,recipact为d时的信息属性值为1。
S5:将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度。
具体而言,步骤S5中的聚类模型的建模思路是1)刻画交易行为的特殊性:某一类行为不是普遍行为。不能有太多的人存在这种行为,如果太多的人存在这样的行为,那么这样的行为异常的可能性则较低。2)刻画客户行为的聚集性:不是普遍行为,同时存在明显聚集性。同行为用户数量不大,但同一用户对这个行为进行了多次的操作,那么可以认为这样的行为存在较强的聚集性,是异常行为和团伙作案的概率较高。3)通过寻找不同个体之间相似行为链上的共同属性,通过共同的属性以及交易链路形成网络,同一网络内的即为同一团伙。
根据上述思路,设计如下模型来刻画某一交易行为的异常度:
Figure BDA0002431281930000081
其中:
1)cnt(信息属性值):按n个维度group by后,某一组取值的不同客编数量。
例如:按recipact(当前转出交易的交易对手)、last_recipact(上一笔转入交易的交易对手)group by,那么cnt就是每对recipact、last_recipact的取值的不同客编的数量。
注意:实际模型中,n一般等于2,即按2个维度,上一笔的一个维度和当前笔的一个维度。
2)b:在某一个组合维度下,实际交易数据在该组合维度下所有取值组合种类的数量。
例如:假设A、B作为一个组合维度,若有4条数据对应A、B维度下的值分别是(a1,b1),(a2,b2),(a1,b1),(a1,b2),那么有3种组合(a1,b1)、(a2,b2)、(a1,b2),则此时计算出A、B组合维度下b=3。
3)Cntk:在n个用于group by的key中,第k个维度在一组取值中的那个取值,在整个交易表中有多少不同的客编。
例如:按last_recipact、recipact两个维度group by,一种组为last_recipact='62155454545454',recipact='52225545433334',对应这组取值不同客编的数量为10,就是cnt;对应last_recipact='52225545433334'这个行为的客编有20个,那么cnt1=20。
4)Score1和Score2效果是一样的,其单调性保持一致,区别就是是否加log。
在一些具体实施例中,本发明可以包括建立聚类模型的步骤,本发明对此不作限制,聚类模型也可以是离线建立得到,即本发明仅仅对已建立完成的聚类模型进行使用。
S6:根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
如图3所示,在步骤S6中,具体包括:
S61:对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列。
S62:选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图。
S63:根据所述资金交易流向图辅助识别可疑团伙。
该实施例中,通过可视化的资金交易流向图可以辅助识别可以团伙,可视化资金交易流向图可以以桑基图表示,图2是一个风险团伙展示示例,一个人(甲1)用同一交易代码、现金注释转账相同金额给21人(乙1...乙21),这21人再用同一交易代码、现金注释转账给一个人(丙1),结合交易方信息(甲1为房地产公司员工),可分析出这是一个典型的房地产公司使用多人身份信息违规借贷团伙,房地产公司收集多人信息向银行借贷,在每月还款时,由其一名员工统一转账到多人银行卡,多人再统一还贷。
在某些优选的实施例中,为了减少错误数据的影响,可以对所述资金交易数据进行合法性校验。
具体而言,合法性校验包括确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
进一步的,由于各交易系统的设置不同,非自身交易系统无法保证数据类型、信息属性的一致性,为了筛选自身业务系统内的用户,可以对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
从上述分析可知,本发明提供的资金交易数据中可疑团伙的识别辅助方法,通过根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值,然后将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度,进而根据异常度来辅助识别可以团伙,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
基于相同的发明构思,本发明另一方面实施例进一步提供一种资金交易数据中可疑团伙的识别辅助装置,如图4所示,包括:
资金交易数据获取模块1,获取待识别的资金交易数据;所述资金交易数据包括时序数据;
单元数据生成模块2,根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
信息属性抽取模块3,从每个数据单元中抽取多维信息属性以及其中的客户编号;
信息属性值生成模块4,根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
异常度生成模块5,将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
辅助识别模块6,根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
基于相同的发明构思,在某些实施例中,还包括:模型建立模块,建立所述聚类模型。
基于相同的发明构思,在某些实施例中,所述辅助识别模块,包括:
排序单元,对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列;
可视化单元,选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图;
辅助单元,根据所述资金交易流向图辅助识别可疑团伙。
基于相同的发明构思,在某些实施例中,还包括:
合法性校验模块,对所述资金交易数据进行合法性校验。
基于相同的发明构思,在某些实施例中,所述合法性校验模块确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
基于相同的发明构思,在某些实施例中,所述信息属性包括如下至少两种:
交易双方的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息。
基于相同的发明构思,在某些实施例中,还包括:
预处理模块,对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
基于相同的发明构思,在某些实施例中,所述聚类模型为如下之一:
Figure BDA0002431281930000111
其中,cnt为对应信息属性的信息属性值;cntk为第k维度信息属性的信息属性值,b为组合取值。
可以理解,本发明提供的资金交易数据中可疑团伙的识别辅助装置,通过根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值,然后将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度,进而根据异常度来辅助识别可以团伙,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
从硬件层面来说,本发明提供一种用于实现所述可疑团伙的识别辅助方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现服务器、装置、分布式消息中间件集群装置、各类数据库以及用户终端等相关设备之间的信息传输;该电子设备可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该电子设备可以参照实施例中的可疑团伙的识别辅助方法的实施例,其内容被合并于此,重复之处不再赘述。
图5为本发明实施例的电子设备9600的系统构成的示意框图。如图5所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图5是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,识别辅助功能可以被集成到中央处理器9100中。例如,中央处理器9100可以被配置为进行如下控制:
S1:获取待识别的资金交易数据;所述资金交易数据包括时序数据;
S2:根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
S3:从每个数据单元中抽取多维信息属性以及其中的客户编号;
S4:根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
S5:将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
S6:根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
从上述描述可知,本发明的实施例提供的电子设备,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
在另一个实施方式中,识别辅助装置可以与中央处理器9100分开配置,例如可以将识别辅助装置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现识别辅助功能。
如图5所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图5中所示的所有部件;此外,电子设备9600还可以包括图5中没有示出的部件,可以参考现有技术。
如图5所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本发明的实施例还提供能够实现上述实施例中的执行主体可以为服务器的可疑团伙的识别辅助方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的可疑团伙的识别辅助方法的全部步骤。
从上述描述可知,本发明的实施例提供的计算机可读存储介质,通过分析客户的基本交易信息,在没有标签数据的情况下,使用本发明的无监督机器学习模型,寻找出用户之间交易行为的相似性以及异常性,在巨量繁杂无序的交易流水信息中,识别出人力难以甄别的可疑团伙以及新的风险类型,提高金融风险防控能力。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (18)

1.一种资金交易数据中可疑团伙的识别辅助方法,其特征在于,包括:
获取待识别的资金交易数据;所述资金交易数据包括时序数据;
根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
从每个数据单元中抽取多维信息属性以及其中的客户编号;
根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
2.根据权利要求1所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,还包括:建立所述聚类模型。
3.根据权利要求1所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,所述根据每个所述数据单元的异常度辅助识别出可疑团伙的账户,包括:
对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列;
选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图;
根据所述资金交易流向图辅助识别可疑团伙。
4.根据权利要求1所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,还包括:
对所述资金交易数据进行合法性校验。
5.根据权利要求4所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,所述对所述资金交易数据进行合法性校验,包括:
确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
6.根据权利要求1所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,所述信息属性包括如下至少两种:
交易双方的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息。
7.根据权利要求1所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,还包括:
对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
8.根据权利要求6所述的资金交易数据中可疑团伙的识别辅助方法,其特征在于,
所述聚类模型为如下之一:
Figure FDA0002431281920000021
其中,cnt为对应信息属性的信息属性值;cntk为第k维度信息属性的信息属性值,b为组合取值。
9.一种资金交易数据中可疑团伙的识别辅助装置,其特征在于,包括:
资金交易数据获取模块,获取待识别的资金交易数据;所述资金交易数据包括时序数据;
单元数据生成模块,根据每笔交易数据中的时序,依次将所述资金交易数据中同一账户的连续两笔交易数据合并在一起组成一个数据单元,每个账户对应一个客户编号;
信息属性抽取模块,从每个数据单元中抽取多维信息属性以及其中的客户编号;
信息属性值生成模块,根据所述资金交易数据中每一维信息属性下不同客户编号的数量,生成对应每一维信息属性的至少一个信息属性值;
异常度生成模块,将所有维度信息属性的组合取值,以及每一维信息属性的信息属性值输入到预设的聚类模型,得到每个所述数据单元的异常度;
辅助识别模块,根据每个所述数据单元的异常度辅助识别出可疑团伙的账户。
10.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,还包括:模型建立模块,建立所述聚类模型。
11.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,所述辅助识别模块,包括:
排序单元,对每个所述数据单元按照所述异常度按照从大到小进行排序,生成异常度序列;
可视化单元,选取所述异常度序列中位于设定位置之前的数据单元,展示选取的数据单元之间的资金交易流向,得到可视化的资金交易流向图;
辅助单元,根据所述资金交易流向图辅助识别可疑团伙。
12.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,还包括:
合法性校验模块,对所述资金交易数据进行合法性校验。
13.根据权利要求12所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,所述合法性校验模块确定所述资金交易数据的字段类型、范围、字符长度是否符合设定规则。
14.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,所述信息属性包括如下至少两种:
交易双方的账号信息、卡号信息、工作单位信息、交易地区信息、电话信息、借贷标志信息、交易网点信息、柜员号信息、交易终端号信息、交易日期信息、交易金额信息、现金注释信息、交易代码信息、交易IP地址信息、交易mac地址信息、姓名信息、住址信息。
15.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,还包括:
预处理模块,对所述资金交易数据进行预处理,去除客户编号为空的数据以及通过第三方交易支付数据。
16.根据权利要求9所述的资金交易数据中可疑团伙的识别辅助装置,其特征在于,
所述聚类模型为如下之一:
Figure FDA0002431281920000041
其中,cnt为对应信息属性的信息属性值;cntk为第k维度信息属性的信息属性值,b为组合取值。
17.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8任一项所述的资金交易数据中可疑团伙的识别辅助方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至8任一项所述的资金交易数据中可疑团伙的识别辅助方法。
CN202010236825.9A 2020-03-30 2020-03-30 资金交易数据中可疑团伙的识别辅助方法及装置 Pending CN111353891A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010236825.9A CN111353891A (zh) 2020-03-30 2020-03-30 资金交易数据中可疑团伙的识别辅助方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010236825.9A CN111353891A (zh) 2020-03-30 2020-03-30 资金交易数据中可疑团伙的识别辅助方法及装置

Publications (1)

Publication Number Publication Date
CN111353891A true CN111353891A (zh) 2020-06-30

Family

ID=71197509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010236825.9A Pending CN111353891A (zh) 2020-03-30 2020-03-30 资金交易数据中可疑团伙的识别辅助方法及装置

Country Status (1)

Country Link
CN (1) CN111353891A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859956A (zh) * 2020-07-09 2020-10-30 睿智合创(北京)科技有限公司 一种用于金融行业的地址分词方法
CN112184410A (zh) * 2020-09-15 2021-01-05 中信银行股份有限公司 一种高风险客户识别的方法、系统及存储介质
CN112435126A (zh) * 2021-01-26 2021-03-02 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
CN116109394A (zh) * 2023-03-23 2023-05-12 北京芯盾时代科技有限公司 团伙挖掘方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018796A1 (en) * 2011-07-15 2013-01-17 Kolhatkar Jayashree S Multi-Channel Data Driven, Real-Time Anti-Money Laundering System For Electronic Payment Cards
US20170103203A1 (en) * 2015-10-13 2017-04-13 Paypal, Inc. Applying Multi-Level Clustering at Scale to Unlabeled Data For Anomaly Detection and Security
US20180365696A1 (en) * 2017-06-19 2018-12-20 Nec Laboratories America, Inc. Financial fraud detection using user group behavior analysis
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018796A1 (en) * 2011-07-15 2013-01-17 Kolhatkar Jayashree S Multi-Channel Data Driven, Real-Time Anti-Money Laundering System For Electronic Payment Cards
US20170103203A1 (en) * 2015-10-13 2017-04-13 Paypal, Inc. Applying Multi-Level Clustering at Scale to Unlabeled Data For Anomaly Detection and Security
US20180365696A1 (en) * 2017-06-19 2018-12-20 Nec Laboratories America, Inc. Financial fraud detection using user group behavior analysis
CN109948704A (zh) * 2019-03-20 2019-06-28 中国银联股份有限公司 一种交易监测方法与装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111859956A (zh) * 2020-07-09 2020-10-30 睿智合创(北京)科技有限公司 一种用于金融行业的地址分词方法
CN112184410A (zh) * 2020-09-15 2021-01-05 中信银行股份有限公司 一种高风险客户识别的方法、系统及存储介质
CN112435126A (zh) * 2021-01-26 2021-03-02 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
CN112435126B (zh) * 2021-01-26 2021-06-18 深圳华锐金融技术股份有限公司 账户识别方法、装置、计算机设备和存储介质
CN116109394A (zh) * 2023-03-23 2023-05-12 北京芯盾时代科技有限公司 团伙挖掘方法、装置、电子设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111353891A (zh) 资金交易数据中可疑团伙的识别辅助方法及装置
CN107784051B (zh) 在线客服应答系统及方法
CN110166438B (zh) 账户信息的登录方法、装置、计算机设备及计算机存储介质
US20190205993A1 (en) Transaction data categorizer system and method
CN110135850A (zh) 一种信息处理方法和相关装置
CN110163661A (zh) 营销信息推广方法、装置、电子设备及计算机可读介质
CN108924381B (zh) 图像处理方法、图像处理装置及计算机可读介质
CN112434501A (zh) 工单智能生成的方法、装置、电子设备及介质
CN110046648A (zh) 基于至少一个业务分类模型进行业务分类的方法及装置
CN114626731A (zh) 风险识别方法、装置、电子设备及计算机可读存储介质
CN113139816A (zh) 信息处理方法、装置、电子设备和存储介质
CN112116454A (zh) 信用评估方法及装置
US10510079B2 (en) Small sample based training and large population application for compliance determination and enforcement platform
CN114817346A (zh) 一种业务处理方法、装置、电子设备及计算机可读介质
CN112508621A (zh) 一种交易分析方法及装置
CN111753203A (zh) 一种卡号推荐方法、装置、设备和介质
CN107767192A (zh) 一种电子票据的验证方法、装置及系统
CN116186543A (zh) 一种基于图像识别的财务数据处理系统及方法
CN113190460B (zh) 一种测试案例自动生成方法及装置
US10755347B2 (en) Corrective action realignment and feedback system for a compliance determination and enforcement platform
CN114781368A (zh) 业务需求安全处理方法及装置
CN114118993A (zh) 支付方法及电子设备
CN108205757A (zh) 电子支付业务合法性的校验方法和装置
CN111429144A (zh) 非正常汇款交易识别方法及装置
US20230237493A1 (en) Graph-based analysis framework

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200630