CN110852881B - 风险账户识别方法、装置、电子设备及介质 - Google Patents

风险账户识别方法、装置、电子设备及介质 Download PDF

Info

Publication number
CN110852881B
CN110852881B CN201910974027.3A CN201910974027A CN110852881B CN 110852881 B CN110852881 B CN 110852881B CN 201910974027 A CN201910974027 A CN 201910974027A CN 110852881 B CN110852881 B CN 110852881B
Authority
CN
China
Prior art keywords
target
account
target account
accounts
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910974027.3A
Other languages
English (en)
Other versions
CN110852881A (zh
Inventor
潘健民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
AlipayCom Co ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910974027.3A priority Critical patent/CN110852881B/zh
Publication of CN110852881A publication Critical patent/CN110852881A/zh
Application granted granted Critical
Publication of CN110852881B publication Critical patent/CN110852881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/04Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities

Abstract

本说明书实施例提供了一种风险账户识别方法、装置、电子设备及介质,通过待识别的多个目标账户的交易数据以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量,从而,基于每个目标账户对应的特征向量,从多个目标账户中确定风险账户集合,能够有效地提高识别风险账户集合的准确性。

Description

风险账户识别方法、装置、电子设备及介质
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种风险账户识别方法、装置、电子设备及介质。
背景技术
随着互联网金融的发展,不仅拓宽了金融服务的通道,降低了交易成本,简化了交易程序,也为各种风险行为如套现、虚假交易以及网络洗钱等非法交易的实施提供了有利条件。以网络洗钱为例,洗钱者可以通过注册或者盗用大量的账户,将想要洗钱的大笔资金进行拆分,分别转移给另一批洗钱账户,达到洗钱的目的,同时每笔资金量又比较小,容易绕过可疑交易监控。
发明内容
本说明书实施例提供了一种风险账户识别方法、装置、电子设备及介质。
第一方面,本说明书实施例提供了一种风险账户识别方法,所述方法包括:获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据;基于所述多个目标账户的交易数据以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量;基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合。
第二方面,本说明书实施例提供了一种风险账户识别装置,所述装置包括:获取模块,用于获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据;向量学习模块,用于基于所述多个目标账户的交易数据以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量;风险识别模块,用于基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合。
第三方面,本说明书实施例提供了一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第一方面提供的风险账户识别方法的步骤。
第四方面,本说明书实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面提供的风险账户识别方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例提供的风险账户识别方法,通过获取待识别的多个目标账户的交易数据以及每个目标账户的属性数据,然后,基于上述交易数据以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量,进而,基于每个目标账户对应的特征向量,从多个目标账户中确定风险账户集合。这样将账户属性数据与交易数据进行融合,来学习每个目标账户的特征向量,能够使得学习得到的特征向量能够更准确地表征目标账户,有效地提高了识别风险账户集合的准确性,降低了漏识别或误识别带来的风险隐患,有利于及时对系统中的风险账户集合进行告警。
进一步地,将本说明书实施例提供的风险账户识别方法应用于对网络洗钱团伙进行识别的应用场景中,此时识别出的风险账户集合即为洗钱团伙,能够有效地提高识别洗钱团伙的准确性,有利于控制系统内的洗钱风险。
附图说明
图1为本说明书实施例第一方面提供的一种风险账户识别方法的流程图;
图2为本说明书实施例第一方面提供的一种示例性神经网络结构示意图;
图3为本说明书实施例第二方面提供的一种风险账户识别装置的模块框图;
图4为本说明书实施例第三方面提供的一种电子设备的结构示意图。
具体实施方式
为了更好的理解本说明书实施例提供的风险账户识别方法,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。本说明书实施例中,术语“一个以上”包括一个或大于一个的情况;术语“多个”表示“两个以上”,即包括两个或大于两个的情况。术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。
需要说明的是,本说明书实施例可以运行在任何具有计算和存储能力的设备上,如手机、平板电脑、PC(Personal Computer,个人电脑)、笔记本以及服务器等设备。为了方便描述,本说明书实施例主要以对洗钱团伙进行识别的应用场景为例,对风险账户识别过程进行说明。当然,除了对洗钱团伙进行识别的应用场景以外,本发明实施例提供的风险账户识别方法还可以应用于其他对涉及交易且具有团伙性质的风险账户进行识别的场景中。
第一方面,本说明书实施例提供了一种风险账户识别方法。如图1所示,所述方法至少可以包括以下步骤S100-步骤S104。
步骤S100,获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据。
在本说明书实施例中,目标账户的属性数据为反应目标账户自身属性的数据,例如,用户的性别、职业或账户资金流入或流出情况等。在一种实施方式中,目标账户的属性数据可以包括但不限于用户性别、账户最近N天的流入金额以及用户职业等属性信息中的一种或多种组合。其中,N可以根据实际应用场景设置,如可以设置为90天。例如,某目标账户的属性数据可以为以下键值对:用户性别:男,账户最近90天流入金额:500万,用户职业:学生。需要说明的是,目标账户的属性数据还可以包括其他属性信息,如用户所在城市、账户最近N天的交易笔数等,具体根据实际需要设置,此处不作限制。
本说明书实施例中,上述多个目标账户的交易数据包括多笔交易,每笔交易均包括付款方账户和收款方账户。除此之外,根据实际场景需要,交易数据还可以包括其他维度的特征,例如,还可以包括交易时间以及交易金额等,本说明书实施例不作具体限制。
可以理解的是,在执行上述步骤S100之前,需要先确定待识别的多个目标账户。待识别的多个目标账户可以是交易数据包括的每笔交易中的收款方账户,或者也可以是交易数据包括的每笔交易中的付款方账户,具体可以根据实际应用场景确定。例如,在对洗钱团伙进行识别的应用场景中,由于洗钱拆分交易的特点,往往付款方众多,收款方较少,对收款方聚类效果会相对比较好,此时,目标账户可以设置为交易中的收款方账户。
在一种实施方式中,可以先获取需要检测的交易数据,然后从交易数据包含的每笔交易中得到一个目标账户,从而得到待识别的多个目标账户。其中,需要检测的交易数据可以从系统中存储的交易表中得到,或者是从用于存储交易数据的数据库中得到,又或者是采用其他实施方式得到,此处不作限制。例如,目标账户为收款方账户,某笔交易包括:付款方账户:B,收款方账户:A,则从该笔交易中提取的目标账户为:收款方账户A。由于从不同交易中提取的目标账户可能存在相同,因此,每个目标账户对应有一笔以上交易。
在另一种实施方式中,也可以根据需要先确定需要识别的多个目标账户,然后再基于这些目标账户,获取这些目标账户的交易数据。以目标账户为收款方账户为例,假设目标账户包括A、B和C,则目标账户A、B和C的交易数据包括:预设时间段内,以A作为收款方账户的交易、以B作为收款方账户的交易以及以C作为收款方账户的交易。其中,预设时间段可以根据实际应用场景设置,例如可以设置为最近一个月或最近三个月等。
步骤S102,基于多个目标账户的交易数据以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量。
本说明书实施例通过待识别的多个目标账户的交易数据,以及每个目标账户的属性数据,来学习每个目标账户对应的特征向量。这样学习得到的特征向量能够同时反映目标账户的自身属性以及交易行为。在一种实施方式中,可以根据上述多个目标账户的交易数据,针对每个目标账户,生成该目标账户对应的第一数据对,以及第二数据对,然后基于第一数据对和第二数据对,学习该目标账户对应的特征向量。对于每个目标账户对应的第一数据对与第二数据对,该第一数据对与第二数据对均包括两个目标账户,其中一个为该目标账户,另一个为与该目标账户不同的另一目标账户,从除该目标账户以外的剩余目标账户中确定。并且第一数据对中,两个目标账户之间具有某种相似性,满足预设相似条件,第二数据对中,两个目标账户之间具有某种不相似性,不满足上述预设相似条件。
具体来讲,基于上述多个目标账户的交易数据以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量的实施过程可以包括:基于上述多个目标账户的交易数据,针对每个目标账户,生成满足预设相似条件的第一数据对和不满足预设相似条件的第二数据对,并对生成的第一数据对和第二数据对打标即分别确定第一数据对的标签信息以及第二数据对的标签信息,其中,所生成的第一数据对和第二数据对均包括该目标账户,以及与该目标账户不同的另一目标账户,且另一目标账户从上述多个目标账户中除该目标账户以外的剩余目标账户中确定;进而,通过已打标的第一数据对、已打标的第二数据对以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量。
举例来讲,上述步骤S100中待识别的多个目标账户分别为:A1、A2、A3、…、AM,共M个目标账户,需要分别针对每个目标账户,均生成相应的第一数据对和第二数据对。以目标账户A1为例,生成一个以上第一数据对(A1,Ax)以及生成一个以上第二数据对(A1,Ay),其中,Ax,Ay均从其他M-1个目标账户即A2、A3、…、AM中确定,且Ax与Ay为不同的目标账户。
具体来讲,基于上述多个目标账户的交易数据,针对每个目标账户,生成满足预设相似条件的第一数据对和不满足预设相似条件的第二数据对的实施过程可以包括:依次将上述多个目标账户中每个目标账户作为第一目标账户,针对每个第一目标账户,执行以下数据对生成步骤:
基于上述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定满足预设相似条件的第二目标账户以及不满足预设相似条件的第三目标账户,将该第一目标账户与该第二目标账户组成第一数据对,将该第一目标账户与该第三目标账户组成第二数据对。
需要说明的是,本实施例采用了skip gram的思想,针对每个目标账户生成第一数据对,具体格式可以表示为(第一目标账户,第二目标账户)。第一数据对中的第一目标账户即为“target账户”,第二目标账户即为“context账户”。另外,还采用了negativesampleing的思想,针对每个目标账户生成第二数据对,具体格式可以表示为(第一目标账户,第三目标账户)。同理,第二数据对中的第一目标账户即为“target账户”,第三目标账户即为“context账户”。
在上述数据对生成过程中,确定第一数据对和第二数据对,需要判断两个目标账户之间是否满足预设相似条件。需要说明的是,预设相似条件可以根据实际应用场景设置。
在一种实施方式中,预设相似条件可以包括资金关联条件和交易时间关联条件。其中,资金关联条件用于评估两个目标账户之间的资金流入是否存在关联性,交易时间关联条件用于评估两个目标账户之间在交易时间上是否存在关联性。同时满足资金关联条件和交易时间关联条件,则判定两个目标账户之间满足预设关联条件,反之,只要其中任意一个条件不满足,则判定两个目标账户之间不满足预设关联条件。
因此,针对每个目标账户生成数据对时,在选定第一目标账户后,需要从除该第一目标账户以外的剩余目标账户中,确定与该第一目标账户之间满足上述预设相似条件的第二目标账户,并确定与该第一目标账户之间不满足预设相似条件的第三目标账户。也就是说,选定的第二目标账户与该第一目标账户之间,资金流入存在关联性,且交易时间存在关联性,而选定的第三目标账户与该第一目标账户之间,资金流入不存在关联性,和/或,交易时间不存在关联性。
假设上述多个目标账户均为交易中的收款方账户。判断两个目标账户之间是否满足资金关联条件的过程可以包括:判断以这两个目标账户作为收款方账户的多笔交易中,这两个目标账户的付款方账户之间是否存在重叠,即是否存在相同的付款方账户,当存在时,满足资金关联条件,反之则不满足资金关联条件。例如,假设这两个目标账户分别为B和C,存在一笔交易的付款方账户为A,收款方账户为B,且存在另一笔交易的付款方账户也为A,收款方账户为C,则表示存在重叠的付款方账户,目标账户B和目标账户C之间满足账户关联条件。
判断两个目标账户之间是否满足交易时间关联条件的过程可以包括:将交易数据中以这两个目标账户作为收款方账户的多笔交易进行对比,筛选出付款方账户相同的第一类交易和第二类交易,其中,第一类交易包括以这两个目标账户中其中一个目标账户为收款方的交易,第二类交易包括以另一个目标账户为收款方的交易;进而,判断筛选出的第一类交易与第二类交易之间在交易时间上是否存在邻接关系,若是,则判定这两个目标账户满足交易时间关联条件,反之则不满足交易时间关联条件。
具体来讲,若筛选出的第一类交易中存在一笔交易与第二类交易中的一笔交易,同属于该付款方账户接连完成的Q笔交易中的两笔,则表示第一类交易与第二类交易之间在交易时间上存在邻接关系,从而判断这两个目标账户之间满足交易时间关联条件,反之,则判断这两个目标账户之间不满足交易时间关联条件。其中,Q为大于或等于2的整数,具体可以根据实际应用场景上述邻接关系的需求设置,例如,可以设置为2、3或4等。
举例来讲,当Q为2时,若筛选出的第一类交易中存在一笔交易,与第二类交易中的一笔交易,属于同一付款方账户完成的相邻两笔交易,则判定这两笔交易之间在交易时间上存在邻接关系,即第一类交易与第二类交易之间在交易时间上存在邻接关系。例如,假设这两个目标账户分别为B和C,目标账户B的第一类交易中存在一笔交易J1的付款方为账户A,收款方为账户B,目标账户C的第二类交易中存在一笔交易J2的付款方也为账户A,收款方为账户C,且这两笔交易J1、J2的交易时间相邻,则表示目标账户B的第一类交易与目标账户C的第二类交易之间在交易时间上存在邻接关系。其中,交易时间相邻是指若将以账户A作为付款方的所有交易按照交易时间由早到晚的顺序进行排序,组成交易序列,则交易J1和交易J2为该交易序列中的相邻两笔交易。
需要说明的是,在本说明书的其他实施例中,上述多个目标账户也可以均为交易中的收款方账户,此时,资金关联条件和交易时间关联条件的判断过程也是类似的,只是将判断过程中的付款方替换为收款方,收款方替换为付款方,此处不再赘述。
此时,从除该第一目标账户以外的剩余目标账户中,确定满足预设相似条件的第二目标账户,以及不满足预设相似条件的第三目标账户的实施过程可以包括:针对上述待识别的多个目标账户中,除该第一目标账户以外的每个目标账户,判断该目标账户与该第一目标账户之间是否满足上述资金关联条件以及交易时间关联条件,若是,则将该目标账户作为第二目标账户,若不满足上述资金关联条件和/或不满足上述交易时间关联条件,则将该目标账户作为待选第三目标账户,以此类推,直至判断完所有的剩余目标账户。本实施例中,可以从确定的待选第三目标账户中,选择t个待选第三目标账户作为第三目标账户,其中,t为正整数,且t大于或等于1且小于或等于所确定的待选第三目标账户的个数。
在本说明书一可选的实施例中,交易数据中的每笔交易可以包括付款方账户、收款方账户以及交易时间,上述多个目标账户均为交易中的收款方账户。此时,上述依次将多个目标账户中每个目标账户作为第一目标账户,针对每个第一目标账户,基于上述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定第二目标账户以及第三目标账户的实施过程可以包括以下步骤:
基于上述多个目标账户的交易数据,按照同一付款方账户将所述多个目标账户划分为一个以上账户序列,其中,每个账户序列中的目标账户按照交易时间由早到晚的顺序排列;
针对每个账户序列,依次将该账户序列中每个目标账户作为第一目标账户,并针对每个第一目标账户,将该账户序列的预设窗口内除该第一目标账户以外的每个目标账户分别作为第二目标账户,并从该第一目标账户对应的参考账户集合中,随机抽取一个以上目标账户分别作为第三目标账户,其中,所述参考账户集合为所有账户序列中,除该第一目标账户以及第二目标账户以外的目标账户组成的集合。
其中,每个账户序列对应于同一付款方账户,上述待识别的多个目标账户均位于上述一个以上账户序列中。另外,为了进一步确保每个目标账户均能生成第一数据对和第二数据对,在一种可选的实施例中,上述每个账户序列均包括两个以上目标账户。
本实施例中,可以从第一目标账户对应的参考账户集合中,随机抽取t个目标账户,分别将抽取的每个目标账户作为第三目标账户。其中,t为大于或等于1且小于或等于该参考账户集合中账户数量的整数,该第一目标账户对应的参考账户集合为所有账户序列中,除该第一目标账户以及相应第二目标账户以外的目标账户组成的集合。例如,若当前第一目标账户为目标账户A,且目标账户对应的第二目标账户包括:目标账户B和目标账户C,则相应生成的第一数据对为:(A,B)和(A,C),则第一目标账户A对应的参考账户集合为上述划分的所有账户序列中,除目标账户A、目标账户B以及目标账户C以外的目标账户组成的集合。
具体来讲,可以上述待识别的多个目标账户的交易数据中包含的每笔交易,按照付款方账户进行聚合,并按照交易时间从早到晚进行排序,得到一个以上账户序列。
举例来讲,交易数据中包含的每笔交易的格式为(付款方账户,收款方账户,交易时间,交易金额)。假设有4笔交易分别为:(A,B,20190101,100),(A,B,20190102,200),(A,C,20190103,200)以及(A,D,20190104,100),则那么按付款方账户A进行聚合,再按交易时间从早到晚排序后,得到的付款方账户A对应的账户序列为(B,B,C,D)。
本说明书实施例中,预设窗口为上述账户序列中的一个包含当前第一目标账户的账户区间。预设窗口的长度即为这个账户区间中首、尾两个目标账户与当前第一目标账户之间的距离之和。在一种实施方式中,账户序列中的预设窗口可以是以当前第一目标账户为中心的预设长度的窗口。需要说明的是,账户序列中相邻两个目标账户之间的距离为1。本实施例中,上述预设窗口的长度可以为大于或等于2的偶数,例如,可以设置为2。当然,在本说明书其他实施例中,上述预设窗口的长度也可以设置为其他大于或等于2的整数。
举例来讲,对于账户序列:(A,B,C,D,E),按顺序遍历该账户序列里的每个目标账户依次作为第一目标账户,然后选取以第一目标账户为中心,长度为l的预设窗口内的其他目标账户分别作为第二目标账户。假设预设窗口的长度l设置为2,当遍历到A作为第一目标账户时,由于A左边不存在目标账户,则生成的第一数据对:(A,B),当遍历到C作为第一目标账户时,则生成第一数据对:(C,B)和(C,D),以此类推,当遍历到E作为第一目标账户时,由于E右边不存在目标账户,则生成的第一数据对:(E,D)。又例如,对于账户序列:(B,B,C,D),当遍历到B作为第一目标账户时,则生成的第一数据对:(B,C),当遍历到C作为第一目标账户时,则生成第一数据对:(C,B)和(C,D),当遍历到D作为第一目标账户时,则生成的第一数据对:(D,C)。
可以理解的是,由于生成的第一数据对中,第一目标账户与第二目标账户位于同一账户序列中,则表示第一目标账户与第二目标账户均存在来自同一付款方的资金流入,满足上述资金关联条件。另外,第一数据对中,第二目标账户位于账户序列中的预设窗口内,即在交易时间上存在邻接关系,满足上述交易时间关联条件。因此,第一数据对中第一目标账户与第二目标账户之间满足预设相似条件,为在交易行为上具有相似性的数据对。
而与第一目标账户组成第二数据对的第三目标账户是从该第一目标账户对应的参考账户集合中抽取,因此,第三目标账户与第一目标账户之间不满足上述资金关联条件和/或交易时间关联条件,也就不满足预设相似条件,为在交易行为上不具有相似性的数据对。
在针对每个目标账户生成第一数据对以及第二数据对以后,需要对生成的第一数据对和第二数据对打标,即分别对第一数据对和第二数据对打上用于区分类别的标签,以便于后续对第一数据对和第二数据对进行学习。具体来讲,可以采用预设的第一标签信息对第一数据对进行标记,采用预设的第二标签信息对第二数据对进行标记。本实施例中,预设的第一标签信息和第二标签信息可以根据实际需要设置,例如,可以将第一标签信息设置为“1”,将第二标签信息设置为“0”。
需要说明的是,在本说明书其他实施例中,除了以上实施方式以外,还可以采用其他实施方式针对每个目标账户,生成满足预设相似条件的第一数据对和不满足预设相似条件的第二数据对,本说明书不作限制。
在生成数据对并打标以后,则可以通过打标后的数据对以及每个目标账户的属性数据,学习每个目标账户对应的特征向量。
具体来讲,在学习目标账户的特征向量之前,需要先对每个目标账户的属性数据进行预处理,将每个目标账户的属性数据转化为one hot编码。
可以理解的是,每个目标账户的属性数据包括一种以上属性信息,需要对账户的每种属性信息,进行one hot处理。举例来讲,对于枚举型的属性信息,例如性别或职业等,可以直接one hot处理,例如男性就是(0,1),女性就是(1,0)。对于连续型的属性信息,例如账户最近90天流入金额,可以先进行分箱处理。例如,可以把金额分为5个箱,分箱的原则可以是按所有账户的金额从高到低排,每隔20%分一个箱,如果某账户的金额排在第35%这一档,那么就属于第2个箱,那么这个账户的金额就表示为(0,1,0,0,0)。
举例来讲,假设每个目标账户的属性数据均包括用户性别、账户最近90天的流入金额以及用户职业这三种属性信息,则每个目标账户的属性数据均能转化得到用户性别对应的one hot编码、账户最近90天的流入金额对应的one hot编码、以及用户职业对应的onehot编码。
完成对每个目标账户的属性数据的预处理后,可以将第一数据对和第二数据对分别作为正、负样本,学习得到每个目标账户对应的特征向量。
在一种可选的实施例中,上述通过已打标的第一数据对、已打标的第二数据对以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量的实施过程可以包括以下步骤:
基于预设的嵌入矩阵序列,将每个目标账户的属性数据转化为一个稠密向量序列,并基于每个目标账户的稠密向量序列以及预设的权重矩阵,得到该目标账户对应的特征向量;
基于已打标的第一数据对、已打标的第二数据对以及每个目标账户对应的特征向量,对上述预设的嵌入矩阵序列以及权重矩阵进行调整,得到目标嵌入矩阵序列以及目标权重矩阵;
针对每个目标账户,基于目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,基于该稠密向量序列以及目标权重矩阵,得到该目标账户对应的特征向量。
其中,预设的嵌入矩阵序列包括多个嵌入矩阵,每个嵌入矩阵对应目标账户的属性数据中一种类型的属性信息,例如,目标账户的属性数据包括n+1种属性信息,则嵌入矩阵序列包括n+1个嵌入矩阵,n为大于或等于0的整数。每个嵌入矩阵用于将由相应属性信息转化的one hot编码转化为一个稠密向量,进而得到目标账户对应的稠密向量序列。需要说明的是,嵌入矩阵的行数根据对应的属性信息决定,例如,若对应于性别特征,相应one hot编码的个数为2,那么行数就是2维的,而若对应于账户最近90天流入金额,且相应one hot编码的个数为5,那么行数就是5维的。嵌入矩阵的列数均相同,可以根据实际需要预先配置。例如,在一种可选的实施例中,列数可以取[32,128]之间的整数。
预设的权重矩阵包括多个权重行,上述待识别的多个目标账户中每个目标账户分别对应一个权重行,且不同的目标账户对应于不同权重行,每个权重行包括相应目标账户的每种属性信息的权重值。例如,假设目标账户的属性数据包括n+1种不同类型的属性信息,且上述待识别的多个目标账户一共有m个,则权重矩阵为一个m×(n+1)的矩阵。
考虑到对于不同的数据对,表征两个目标账户之间相似或者不相似,可能是由目标账户的不同种类的属性信息决定的,本实施例中引入了注意力机制,即预设的权重矩阵中,不同目标账户的同一种属性信息的权重值设置为不同。例如,对于第一数据对(A,B),可能由于目标账户A、B的用户年龄相似而使得该第一数据对具有相似性,那么对于该第一数据对中的目标账户A、B,年龄这个属性信息对应的权重值就会相对高一点,对于第一数据对(C,D),可能由于目标账户C、D的流入金额相似而使得该第一数据对具有相似性,那么对于该第一数据对中的目标账户C、D,账户流入金额这个属性信息对应的权重值就会相对高一点。因此,本说明书实施例在学习每个目标账户对应的特征向量的过程中,引入注意力机制,设置不同账户的每种属性信息对应的权重值,且将不同账户同一属性信息的权重设置为不完全相同,有利于使得学习得到的特征向量能够更准确地表征相应目标账户。
当然,在本说明书其他实施例中,不同目标账户的同一属性信息对应的权重值可以设置为相同,此时,可以设置权重序列,权重序列中包括每种属性信息对应的权重值,从而在上述特征向量学习过程中,基于稠密向量序列以及预设的权重序列,得到该目标账户对应的特征向量,然后,基于每个目标账户对应的特征向量、已打标的第一数据对以及已打标的第二数据对,对上述嵌入矩阵序列以及权重序列进行调整,得到目标嵌入矩阵序列以及目标权重序列;进而,针对每个目标账户,基于目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,基于该稠密向量序列以及目标权重序列,得到该目标账户对应的特征向量。
具体来讲,上述稠密向量序列中每个稠密向量对应一种类型的属性信息,上述基于该稠密向量序列以及目标权重矩阵,得到该目标账户对应的特征向量的实施过程可以包括:确定该目标账户在目标权重矩阵中对应的目标权重行,目标权重矩阵包括多个权重行,不同权重行对应于不同的目标账户,每个权重行包括对应目标账户的每种属性信息的权重值;基于上述目标权重行中的每个权重值,对该稠密向量序列中每个稠密向量进行加权平均处理,得到该目标账户对应的特征向量。
例如,某目标账户对应的稠密向量序列为(V0,V1,…,Vn),其中,V0,V1,…,Vn分别表示一个稠密向量,该目标账户对应的权重行包括的权重值分别为:ξ0,ξ1,…,ξn,且V0和ξ0均对应于第1种属性信息,V1和ξ1均对应于第2种属性信息,…,Vn和ξn均对应于第n+1种属性信息,此时,该目标账户对应的特征向量为:(ξ0V0+ξ1V1+…+ξn Vn)/(ξ01+…+ξn)。
具体来讲,在本实施例的一种实施方式中,可以设置两个嵌入矩阵序列,分别为第一嵌入矩阵序列和第二嵌入矩阵序列,以及两个权重矩阵,分别为第一权重矩阵和第二权重矩阵。第一嵌入矩阵序列以及第一权重矩阵为针对第一数据对和第二数据对中,作为“target账户”的第一目标账户设置,第二嵌入矩阵序列以及第二权重矩阵为针对作为“context账户”的第二目标账户和第三目标账户设置。
此时,可以将所有第一目标账户作为target账户,将所有第一数据对中的第二目标账户以及所有第二数据对中的第三目标账户作为context账户,对于每个target账户,基于预设的第一嵌入矩阵序列,将每个target账户的属性数据转化为一个第一稠密向量序列,并基于该第一稠密向量序列以及预设的第一权重矩阵,得到该target账户对应的特征向量;对于每个context账户,基于预设的第二嵌入矩阵序列,将每个context账户的属性数据转化为一个第二稠密向量序列,并基于该第二稠密向量序列以及预设的第二权重矩阵,得到该context账户对应的特征向量;接着,基于第一数据对和第二数据对中,每个账户对应的特征向量,第一数据对的标签信息以及第二数据对的标签信息,对上述第一嵌入矩阵序列、第二嵌入矩阵序列、第一权重矩阵以及第二权重矩阵进行调整,得到训练好的第一嵌入矩阵序列、第二嵌入矩阵序列、第一权重矩阵以及第二权重矩阵。进而再将训练好的第一嵌入矩阵序列作为目标嵌入矩阵序列,以及将训练好的第一权重矩阵作为目标权重矩阵。
为了便于说明,假设u表示target账户,v表示context账户,目标账户的属性数据包括n+1种属性信息,先介绍u的特征向量计算过程:
假设u的属性数据中第1种属性信息u0是u本身的id信息,其他n个都是u本身的属性信息如用户性别、职业等,分别用one hot编码表征,那么就有n+1个one hot编码。通过预设的第一嵌入矩阵序列(W0,W1,…,Wn),分别将每个one hot编码映射到一个长度为k的稠密向量,得到n+1个稠密向量,组成第一稠密向量序列。假设第1个第一嵌入矩阵W0为m×k大小,m表示矩阵W0的行数,具体为target账户的个数,也就是上述待识别的目标账户的个数,k表示矩阵W0的列数。将所有target账户进行随机排序,若某target账户为其中的第i个target账户,则取W0的第i行,作为该target账户的u0对应的稠密向量。同理,可以通过W1,得到u的第2种属性信息u1对应的稠密向量,通过W2,得到该target账户的第3种属性信息u2对应的稠密向量,……,通过Wn,得到该target账户的第n+1种属性信息un对应的稠密向量,即可得到该target账户对应的第一稠密向量序列。
进一步地,就可以基于该target账户对应的第一稠密向量序列以及第一权重矩阵K,得到该target账户对应的特征向量。需要说明的是,第一权重矩阵K中第i行表示的是第i个target账户每个属性信息的权重值,权重越高,表示越重要。具体来讲,可以基于以下公式(1)对第一稠密向量序列中每个稠密向量进行加权平均处理,得到target账户对应的特征向量。
Figure BDA0002233028600000141
式(1)中,
Figure BDA0002233028600000142
表示的是第一权重矩阵K里面第u行,第j列。
Figure BDA0002233028600000143
表示的是基于第一嵌入矩阵序列中的第j个第一嵌入矩阵,将target账户u相应属性信息的one hot取值转化得到的一个k维稠密向量,即target账户u对应的第一稠密向量序列中的第j个稠密向量,Hu表示target账户u对应的特征向量,特征向量也是一个k维向量。需要说明的是,为了确保加权求和有意义,在上述计算中,对
Figure BDA0002233028600000144
进行指数计算
Figure BDA0002233028600000145
确保
Figure BDA0002233028600000146
大于0。
与得到target账户对应的第一稠密向量序列的过程类似,通过第二嵌入矩阵序列(R0,R1,…,Rn),也可以分别将每个context账户v对应的每个one hot编码映射到一个长度为k的稠密向量,得到n+1个稠密向量,即得到每个context账户v对应的第二稠密向量序列。
同理,就可以基于该context账户对应的第二稠密向量序列以及第二权重矩阵T,得到该context账户对应的特征向量。需要说明的是,第二权重矩阵T中第i行表示的是第i个context账户每个属性信息的权重值,权重越高,表示越重要。具体来讲,可以基于以下公式对第二稠密向量序列中每个稠密向量进行加权平均处理,得到context账户对应的特征向量。
Figure BDA0002233028600000147
式(2)中,
Figure BDA0002233028600000148
表示的是第二权重矩阵T里面第v行,第j列。
Figure BDA0002233028600000149
表示的是基于第二嵌入矩阵序列中的第j个第二嵌入矩阵,将context账户v相应属性信息的one hot取值转化得到的一个k维稠密向量,即context账户v对应的第二稠密向量序列中的第j个稠密向量,Zv表示context账户v对应的特征向量,该特征向量也是一个k维向量。
本实施例中,可以构建用于学习特征向量的神经网络。可以理解的是,上述嵌入矩阵序列以及权重矩阵均为所构建的神经网络中的配置参数,神经网络的具体结构可以根据实际需要设置。举例来讲,如图2所示,所构建的神经网络可以包括输入层、嵌入层(denseembedding)、隐藏层(hidden representation)以及输出层。分别将第一数据对作为正样本,将第二数据对作为负样本。
假设目标账户的属性数据包括n+1种不同类型的属性信息,可以针对每个第一数据对,在输入层输入该第一数据对中第一目标账户的稀疏特征(sparse feature),分别表示为:
Figure BDA0002233028600000151
以及第二目标账户的稀疏特征,分别表示为:
Figure BDA0002233028600000152
其中,稀疏特征即每种特征信息转化成的one hot编码,图2中用空心圆表示;然后,在嵌入层通过预设的第一嵌入矩阵序列(W0,W1,…,Wn),将第一目标账户的每个稀疏特征转化为相应的稠密向量,通过预设的第二嵌入矩阵序列(R0,R1,…,Rn),将第二目标账户的每个稀疏特征转化为相应的稠密向量,图2中用实心圆表示;进而,在隐藏层分别基于预设的第一权重矩阵K,对第一目标账户的每个稀疏特征对应的稠密向量进行加权平均处理,权重值分别表示为a0、a1、…、an,得到第一目标账户的特征向量,基于预设的第二权重矩阵T,对第二目标账户的每个稀疏特征对应的稠密向量进行加权平均处理,权重值分别表示为b0、b1、…、bn,得到第二目标账户的特征向量,图2中用带斜杠填充的圆表示;最后,在输出层基于第一目标账户的特征向量和第二目标账户的特征向量计算该第一数据对中,第一目标账户和第二目标账户的相似度,并通过一预设的激活函数得到分类结果,图2中用方框表示。
同理,针对每个第二数据对,执行与上述第一数据对相同的过程,得到每个第二数据对的分类结果。
进而,就可以根据预先设置的损失函数、每个第一数据对的分类结果以及第一标签信息、每个第二数据对的分类结果以及第二标签信息,对第一嵌入矩阵序列、第二嵌入矩阵序列、第一权重矩阵以及第二权重矩阵进行调整,不断迭代直至得到的损失函数值满足预设条件,即损失函数值达到最小或者是损失函数值小于一预设阈值,则停止训练,得到训练好的第一嵌入矩阵序列、第二嵌入矩阵序列、第一权重矩阵以及第二权重矩阵。
需要说明的是,在上述训练过程中,第一嵌入矩阵序列中每个第一嵌入矩阵、第二嵌入矩阵序列中每个第二嵌入矩阵、第一权重矩阵以及第二权重矩阵的初始值可以根据经验设置。另外,可以理解的是,在机器学习中,参数优化算法有多种,例如,可以采用梯度下降法求出上述的所有参数。
在上述训练过程中,激活函数以及损失函数均可以按照实际场景需要设置。在本实施例的一种实施方式中,计算每个数据对(包括第一数据对和第二数据对)中,u和v的相似度,可以采用sigmod函数来表示:
Figure BDA0002233028600000161
需要说明的是,无论在第一数据对还是第二数据对中,u表示第一目标账户,而在第一数据对中,v表示第二目标账户,在第二数据对中,v表示第三目标账户。式(3)中,Suv表示数据对中两个账户的相似度分类结果。而且假设数据对的标签信息用y表示(1为正样本,0为负样本),那么就可以建立如下损失函数:
L(y,u,v)=-[ylogSuv+(1-y)log(1-Suv)] (4)
进而,就可以基于损失函数(4)以及正、负样本,通过梯度下降法求出所有参数:第一嵌入矩阵序列中每个第一嵌入矩阵、第二嵌入矩阵序列中每个第二嵌入矩阵、第一权重矩阵以及第二权重矩阵。
需要说明的是,除了上述激活函数和损失函数以外,在本说明书的其他实施例中,也可以采用其他适用的激活函数以及损失函数,本说明书不做限制。
完成参数训练后,则需要确定目标嵌入矩阵序列以及目标权重矩阵,进而,针对每个目标账户,基于目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,基于该稠密向量序列以及目标权重矩阵,得到该目标账户对应的特征向量,即可得到每个目标账户对应的特征向量。在本说明书一可选的实施例中,可以将训练好的第一嵌入矩阵序列作为目标嵌入矩阵,将训练好的第一权重矩阵作为目标权重矩阵。
具体来讲,可以针对每个目标账户,将该目标账户的属性数据进行预处理,转化为one hot编码,然后基于目标嵌入矩阵得到该目标账户的稠密向量序列,并基于目标权重矩阵确定该目标账户对应的目标权重行,将该目标账户的稠密向量序列以及目标权重行带入上述公式(1)中,即可得到该目标账户对应的特征向量。
在另一种可选的实施例中,上述通过已打标的第一数据对、已打标的第二数据对以及每个目标账户的属性数据,学习得到每个目标账户对应的特征向量的实施过程可以包括:基于预设的嵌入矩阵序列,将每个目标账户的属性数据转化为一个稠密向量序列,并基于每个目标账户的稠密向量序列得到该目标账户对应的特征向量;基于已打标的第一数据对、已打标的第二数据对以及每个目标账户对应的特征向量,对上述嵌入矩阵序列进行调整,得到目标嵌入矩阵序列;针对每个目标账户,基于上述目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,并基于该稠密向量序列得到该目标账户对应的特征向量。
需要说明的是,本实施例的具体实施过程与上述实施例的学习过程类似,可以参照上述学习过程,不同之处在于上述学习过程中设置了权重矩阵,对稠密向量序列进行了加权平均处理,本实施过程可以不采用权重矩阵,而是将稠密向量序列中所有稠密向量进行平均,得到该目标账户对应的特征向量。
步骤S104,基于每个目标账户对应的特征向量,从多个目标账户中确定风险账户集合。
在一种实施方式中,基于每个目标账户对应的特征向量,从多个目标账户中确定风险账户集合的实施过程可以包括:基于每个目标账户对应的特征向量,对多个目标账户进行聚合,得到一个以上目标账户集合;针对每个目标账户集合,通过判断该目标账户集合中是否存在预先确认的黑名单账户,确定该目标账户集合是否为风险账户集合,其中,所述黑名单账户为预先确定的存在风险行为的账户。也就是说,将包含预先确认的黑名单账户的目标账户集合确定为风险账户集合,反之,不包含预先确认的黑名单账户的目标账户集合则不是风险账户集合。
具体来讲,可以基于每个目标账户对应的特征向量之间的相似度,对上述步骤S100中待识别的多个目标账户进行聚类,得到多个簇,一个簇即对应一个目标账户集合。每个簇内部成员相似,簇与簇之间差异较大。此时,当某一个簇中存在黑名单账户时,则将该簇对应的目标账户集合判定为风险账户集合。
需要说明的是,在确定出风险账户集合后,可以进一步对风险账户集合进行告警处理,例如,可以上报给相关人员,对风险账户集合中的目标账户进行进一步调查和监控,在核实风险账户集合中的目标账户存在风险行为时,对风险账户集合中的目标账户进行处理,如可以限制风险账户集合中每个目标账户的交易笔数或交易金额等,或者是撤销目标账户并将注册该目标账户的身份信息列入黑名单,更甚者,还可以上报给相关执法部门处理。
举例来讲,在对洗钱团伙进行识别的应用场景中,黑名单账户为已经确认的洗钱成员账户,聚类好簇后,确定每个簇对应的目标账户集合中是否存在黑名单账户,若存在,则判定该簇对应的目标账户集合为风险账户集合,即为洗钱团伙。当然,为了进一步提高识别结果的准确性,可以再通过人工确认所判定的风险账户集合中的目标账户是否存在洗钱行为,若存在,则说明该风险账户集合中的目标账户属于一个洗钱团伙。
本说明书实施例提供的风险账户识别方法,通过将交易数据和账户属性数据相结合,学习得到每个目标账户的特征向量,使得学习得到的特征向量能够更准确地表征相应目标账户,反应相应目标账户的自身属性以及交易行为。基于该特征向量对目标账户进行聚合,能够从目标账户的自身属性以及交易行为上反应目标账户之间的相似性,从而有效地提高识别风险账户集合的准确性,降低了漏识别或误识别带来的风险隐患,有利于及时对系统中的风险账户集合进行告警,同时也减少了系统重新识别的次数,进而节约了系统资源。
并且,采用了无监督自动学习方法,可以很大程度上降低了人工设计阈值方式的多次调试过程,减少识别消耗的时间,提高了准确率和召回率,减少对系统资源的占用。另外,在对洗钱团伙进行识别的应用场景中,将账户属性数据与交易数据融合在一起得到目标账户对应的特征向量,能更加有效的将相似成员聚合在一起,从而有利于识别出洗钱团伙,控制系统内的洗钱风险。
第二方面,基于与前述第一方面实施例提供的风险账户识别方法同样的发明构思,本说明书实施例还提供了一种风险账户识别装置。如图3所示,该风险账户识别装置30包括:
获取模块31,用于获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据;
向量学习模块32,用于基于所述多个目标账户的交易数据以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量;
风险识别模块33,用于基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合。
在一种可选的实施例中,所述向量学习模块32包括:
数据对生成单元320,用于基于所述多个目标账户的交易数据,针对每个所述目标账户,生成满足预设相似条件的第一数据对和不满足所述预设相似条件的第二数据对,并对生成的第一数据对和第二数据对打标,其中,所述第一数据对和所述第二数据对均包括该目标账户,以及与该目标账户不同的另一目标账户;
学习单元321,用于通过已打标的第一数据对、已打标的第二数据对以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量。
在一种可选的实施例中,所述数据对生成单元320用于:
依次将每个所述目标账户作为第一目标账户,针对每个所述第一目标账户:
基于所述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定满足所述预设相似条件的第二目标账户以及不满足所述预设相似条件的第三目标账户;
将该第一目标账户与所述第二目标账户组成所述第一数据对,将该第一目标账户与所述第三目标账户组成所述第二数据对。
在一种可选的实施例中,所述交易数据中的每笔交易均包括付款方账户、收款方账户以及交易时间,所述目标账户为所述收款方账户。此时,所述数据对生成单元320用于:
基于所述多个目标账户的交易数据,按照同一付款方账户将所述多个目标账户划分为一个以上账户序列,其中,每个所述账户序列中的目标账户按照交易时间由早到晚的顺序排列;
针对每个所述账户序列,依次将该账户序列中每个目标账户作为第一目标账户,并针对每个第一目标账户,将该账户序列的预设窗口内除该第一目标账户以外的每个目标账户分别作为所述第二目标账户,并从该第一目标账户对应的参考账户集合中,随机抽取一个以上目标账户分别作为所述第三目标账户,其中,所述参考账户集合为所有所述账户序列中,除该第一目标账户以及所述第二目标账户以外的目标账户组成的集合。
在一种可选的实施例中,所述学习单元321包括:
转化子单元322,用于基于预设的嵌入矩阵序列,将每个所述目标账户的属性数据转化为一个稠密向量序列,并基于每个所述目标账户的稠密向量序列得到该目标账户对应的特征向量;
调整子单元323,用于基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列进行调整,得到目标嵌入矩阵序列;
生成子单元324,用于针对每个所述目标账户,基于所述目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,并基于该稠密向量序列得到该目标账户对应的特征向量。
在一种可选的实施例中,所述转化子单元322用于:基于每个所述目标账户的稠密向量序列以及预设的权重矩阵,得到该目标账户对应的特征向量。所述调整子单元323用于:基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列以及所述权重矩阵进行调整,得到目标嵌入矩阵序列以及目标权重矩阵。所述生成子单元324用于:基于该稠密向量序列以及所述目标权重矩阵,得到该目标账户对应的特征向量。
在一种可选的实施例中,所述属性数据包括一种以上类型的属性信息,所述稠密向量序列中每个稠密向量对应一种类型的属性信息。所述生成子单元324用于:
确定该目标账户在所述目标权重矩阵中对应的目标权重行,其中,所述目标权重矩阵包括多个权重行,不同权重行对应于不同的目标账户,每个权重行包括对应目标账户的每种属性信息的权重值;
基于所述目标权重行中的每个权重值,对该稠密向量序列中每个稠密向量进行加权平均处理,得到该目标账户对应的特征向量。
在一种可选的实施例中,所述风险识别模块33包括:
聚合单元331,用于基于每个所述目标账户对应的特征向量,对所述多个目标账户进行聚合,得到一个以上目标账户集合;
识别单元332,用于针对每个所述目标账户集合,通过判断该目标账户集合中是否存在预先确认的黑名单账户,确定该目标账户集合是否为风险账户集合,其中,所述黑名单账户为预先确定的存在风险行为的账户。
需要说明的是,本说明书实施例所提供的风险账户识别装置30,其中各个模块执行操作的具体方式已经在上述第一方面提供的方法实施例中进行了详细描述,具体可以参照上述第一方面提供的方法实施例,此处将不做详细阐述说明。
第三方面,基于与前述实施例提供的风险账户识别方法同样的发明构思,本说明书实施例还提供了一种电子设备,如图4所示,包括存储器404、一个或多个处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,所述处理器402执行所述程序时实现前文第一方面提供的风险账户识别方法的任一实施方式的步骤。
其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口405在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
可以理解的是,图4所示的结构仅为示意,本说明书实施例提供的电子设备还可包括比图4中所示更多或者更少的组件,或者具有与图4所示不同的配置。图4中所示的各组件可以采用硬件、软件或其组合实现。
第四方面,基于与前述实施例中提供的风险账户识别方法同样的发明构思,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文第一方面提供的风险账户识别方法的任一实施方式的步骤。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (16)

1.一种风险账户识别方法,所述方法包括:
获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据;
基于所述多个目标账户的交易数据以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量,包括:基于所述多个目标账户的交易数据,针对每个所述目标账户,生成满足预设相似条件的第一数据对和不满足所述预设相似条件的第二数据对,并对生成的第一数据对和第二数据对打标,其中,所述第一数据对和所述第二数据对均包括该目标账户,以及与该目标账户不同的另一目标账户;通过已打标的第一数据对、已打标的第二数据对以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量;
基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合。
2.根据权利要求1所述的方法,所述基于所述多个目标账户的交易数据,针对每个所述目标账户,生成满足预设相似条件的第一数据对和不满足所述预设相似条件的第二数据对,包括:
依次将每个所述目标账户作为第一目标账户,针对每个所述第一目标账户:
基于所述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定满足所述预设相似条件的第二目标账户以及不满足所述预设相似条件的第三目标账户;
将该第一目标账户与所述第二目标账户组成所述第一数据对,将该第一目标账户与所述第三目标账户组成所述第二数据对。
3.根据权利要求2所述的方法,所述交易数据中的每笔交易均包括付款方账户、收款方账户以及交易时间,所述目标账户为所述收款方账户,所述依次将每个所述目标账户作为第一目标账户,针对每个所述第一目标账户:基于所述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定满足所述预设相似条件的第二目标账户以及不满足所述预设相似条件的第三目标账户,包括:
基于所述多个目标账户的交易数据,按照同一付款方账户将所述多个目标账户划分为一个以上账户序列,其中,每个所述账户序列中的目标账户按照交易时间由早到晚的顺序排列;
针对每个所述账户序列,依次将该账户序列中每个目标账户作为第一目标账户,并针对每个第一目标账户,将该账户序列的预设窗口内除该第一目标账户以外的每个目标账户分别作为所述第二目标账户,并从该第一目标账户对应的参考账户集合中,随机抽取一个以上目标账户分别作为所述第三目标账户,其中,所述参考账户集合为所有所述账户序列中,除该第一目标账户以及所述第二目标账户以外的目标账户组成的集合。
4.根据权利要求1所述的方法,所述通过已打标的第一数据对、已打标的第二数据对以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量,包括:
基于预设的嵌入矩阵序列,将每个所述目标账户的属性数据转化为一个稠密向量序列,并基于每个所述目标账户的稠密向量序列得到该目标账户对应的特征向量;
基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列进行调整,得到目标嵌入矩阵序列;
针对每个所述目标账户,基于所述目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,并基于该稠密向量序列得到该目标账户对应的特征向量。
5.根据权利要求4所述的方法,所述基于每个所述目标账户的稠密向量序列得到该目标账户对应的特征向量,包括:
基于每个所述目标账户的稠密向量序列以及预设的权重矩阵,得到该目标账户对应的特征向量;
所述基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列进行调整,得到目标嵌入矩阵序列,包括:
基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列以及所述权重矩阵进行调整,得到目标嵌入矩阵序列以及目标权重矩阵;
所述基于该稠密向量序列得到该目标账户对应的特征向量,包括:
基于该稠密向量序列以及所述目标权重矩阵,得到该目标账户对应的特征向量。
6.根据权利要求5所述的方法,所述属性数据包括一种以上类型的属性信息,所述稠密向量序列中每个稠密向量对应一种类型的属性信息,所述基于该稠密向量序列以及所述目标权重矩阵,得到该目标账户对应的特征向量,包括:
确定该目标账户在所述目标权重矩阵中对应的目标权重行,其中,所述目标权重矩阵包括多个权重行,不同权重行对应于不同的目标账户,每个权重行包括对应目标账户的每种属性信息的权重值;
基于所述目标权重行中的每个权重值,对该稠密向量序列中每个稠密向量进行加权平均处理,得到该目标账户对应的特征向量。
7.根据权利要求1所述的方法,所述基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合,包括:
基于每个所述目标账户对应的特征向量,对所述多个目标账户进行聚合,得到一个以上目标账户集合;
针对每个所述目标账户集合,通过判断该目标账户集合中是否存在预先确认的黑名单账户,确定该目标账户集合是否为风险账户集合,其中,所述黑名单账户为预先确定的存在风险行为的账户。
8.一种风险账户识别装置,所述装置包括:
获取模块,用于获取待识别的多个目标账户的交易数据以及每个所述目标账户的属性数据;
向量学习模块,用于基于所述多个目标账户的交易数据以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量,包括:数据对生成单元,用于基于所述多个目标账户的交易数据,针对每个所述目标账户,生成满足预设相似条件的第一数据对和不满足所述预设相似条件的第二数据对,并对生成的第一数据对和第二数据对打标,其中,所述第一数据对和所述第二数据对均包括该目标账户,以及与该目标账户不同的另一目标账户;学习单元,用于通过已打标的第一数据对、已打标的第二数据对以及每个所述目标账户的属性数据,学习得到每个所述目标账户对应的特征向量;
风险识别模块,用于基于每个所述目标账户对应的特征向量,从所述多个目标账户中确定风险账户集合。
9.根据权利要求8所述的装置,所述数据对生成单元用于:
依次将每个所述目标账户作为第一目标账户,针对每个所述第一目标账户:
基于所述多个目标账户的交易数据,从除该第一目标账户以外的剩余目标账户中,确定满足所述预设相似条件的第二目标账户以及不满足所述预设相似条件的第三目标账户;
将该第一目标账户与所述第二目标账户组成所述第一数据对,将该第一目标账户与所述第三目标账户组成所述第二数据对。
10.根据权利要求9所述的装置,所述交易数据中的每笔交易均包括付款方账户、收款方账户以及交易时间,所述目标账户为所述收款方账户,所述数据对生成单元用于:
基于所述多个目标账户的交易数据,按照同一付款方账户将所述多个目标账户划分为一个以上账户序列,其中,每个所述账户序列中的目标账户按照交易时间由早到晚的顺序排列;
针对每个所述账户序列,依次将该账户序列中每个目标账户作为第一目标账户,并针对每个第一目标账户,将该账户序列的预设窗口内除该第一目标账户以外的每个目标账户分别作为所述第二目标账户,并从该第一目标账户对应的参考账户集合中,随机抽取一个以上目标账户分别作为所述第三目标账户,其中,所述参考账户集合为所有所述账户序列中,除该第一目标账户以及所述第二目标账户以外的目标账户组成的集合。
11.根据权利要求8所述的装置,所述学习单元包括:
转化子单元,用于基于预设的嵌入矩阵序列,将每个所述目标账户的属性数据转化为一个稠密向量序列,并基于每个所述目标账户的稠密向量序列得到该目标账户对应的特征向量;
调整子单元,用于基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列进行调整,得到目标嵌入矩阵序列;
生成子单元,用于针对每个所述目标账户,基于所述目标嵌入矩阵序列,将该目标账户的属性数据转化为一个稠密向量序列,并基于该稠密向量序列得到该目标账户对应的特征向量。
12.根据权利要求11所述的装置,
所述转化子单元用于:基于每个所述目标账户的稠密向量序列以及预设的权重矩阵,得到该目标账户对应的特征向量;
所述调整子单元用于:基于所述已打标的第一数据对、所述已打标的第二数据对以及每个所述目标账户对应的特征向量,对所述嵌入矩阵序列以及所述权重矩阵进行调整,得到目标嵌入矩阵序列以及目标权重矩阵;
所述生成子单元用于:基于该稠密向量序列以及所述目标权重矩阵,得到该目标账户对应的特征向量。
13.根据权利要求12所述的装置,所述属性数据包括一种以上类型的属性信息,所述稠密向量序列中每个稠密向量对应一种类型的属性信息,所述生成子单元用于:
确定该目标账户在所述目标权重矩阵中对应的目标权重行,其中,所述目标权重矩阵包括多个权重行,不同权重行对应于不同的目标账户,每个权重行包括对应目标账户的每种属性信息的权重值;
基于所述目标权重行中的每个权重值,对该稠密向量序列中每个稠密向量进行加权平均处理,得到该目标账户对应的特征向量。
14.根据权利要求8所述的装置,所述风险识别模块包括:
聚合单元,用于基于每个所述目标账户对应的特征向量,对所述多个目标账户进行聚合,得到一个以上目标账户集合;
识别单元,用于针对每个所述目标账户集合,通过判断该目标账户集合中是否存在预先确认的黑名单账户,确定该目标账户集合是否为风险账户集合,其中,所述黑名单账户为预先确定的存在风险行为的账户。
15.一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-7中任一项所述方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。
CN201910974027.3A 2019-10-14 2019-10-14 风险账户识别方法、装置、电子设备及介质 Active CN110852881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910974027.3A CN110852881B (zh) 2019-10-14 2019-10-14 风险账户识别方法、装置、电子设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910974027.3A CN110852881B (zh) 2019-10-14 2019-10-14 风险账户识别方法、装置、电子设备及介质

Publications (2)

Publication Number Publication Date
CN110852881A CN110852881A (zh) 2020-02-28
CN110852881B true CN110852881B (zh) 2021-04-27

Family

ID=69596583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910974027.3A Active CN110852881B (zh) 2019-10-14 2019-10-14 风险账户识别方法、装置、电子设备及介质

Country Status (1)

Country Link
CN (1) CN110852881B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111447082B (zh) * 2020-03-05 2022-09-02 支付宝(杭州)信息技术有限公司 关联账号的确定方法、装置和关联数据对象的确定方法
CN111461225B (zh) * 2020-04-01 2022-04-01 支付宝(杭州)信息技术有限公司 客户聚类系统及其方法
CN111932273B (zh) * 2020-09-28 2021-02-19 支付宝(杭州)信息技术有限公司 一种交易风险识别方法、装置、设备及介质
CN113011884B (zh) * 2021-01-29 2023-08-04 腾讯科技(深圳)有限公司 账户特征的提取方法、装置、设备及可读存储介质
CN115511501A (zh) * 2021-06-03 2022-12-23 腾讯云计算(北京)有限责任公司 一种数据处理方法、计算机设备以及可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105791255B (zh) * 2014-12-23 2020-03-13 阿里巴巴集团控股有限公司 基于账户聚类的计算机风险识别方法及其系统
CN106372938A (zh) * 2015-07-21 2017-02-01 华为技术有限公司 异常账号识别方法及系统
CN106326913A (zh) * 2016-08-09 2017-01-11 中国银联股份有限公司 一种洗钱账户的确定方法及装置
CN107609461A (zh) * 2017-07-19 2018-01-19 阿里巴巴集团控股有限公司 模型的训练方法、数据相似度的确定方法、装置及设备
CN109741173B (zh) * 2018-12-27 2022-11-29 深圳前海微众银行股份有限公司 可疑洗钱团伙的识别方法、装置、设备及计算机存储介质

Also Published As

Publication number Publication date
CN110852881A (zh) 2020-02-28

Similar Documents

Publication Publication Date Title
CN110852881B (zh) 风险账户识别方法、装置、电子设备及介质
CN113822494B (zh) 风险预测方法、装置、设备及存储介质
EP3985578A1 (en) Method and system for automatically training machine learning model
US20190354583A1 (en) Techniques for determining categorized text
Liu et al. Computational and statistical methods for analysing big data with applications
US9720940B2 (en) Data analysis computer system and method for parallelized and modularized analysis of big data
CN107633030B (zh) 基于数据模型的信用评估方法及装置
CN110751557A (zh) 一种基于序列模型的异常资金交易行为分析方法及系统
CN112800053A (zh) 数据模型的生成方法、调用方法、装置、设备及存储介质
CN106537423A (zh) 作为服务的自适应特征化
CN113449012A (zh) 基于大数据预测的互联网服务挖掘方法及大数据预测系统
CN111160959A (zh) 一种用户点击转化预估方法及装置
CN110213239B (zh) 可疑交易报文生成方法、装置及服务器
WO2022143431A1 (zh) 一种反洗钱模型的训练方法及装置
Barbero-Gómez et al. Error-correcting output codes in the framework of deep ordinal classification
CN116029760A (zh) 消息推送方法、装置、计算机设备和存储介质
US20220027400A1 (en) Techniques for information ranking and retrieval
US20210326645A1 (en) Robust correlation of vehicle extents and locations when given noisy detections and limited field-of-view image frames
CN111523649B (zh) 针对业务模型进行数据预处理的方法及装置
Yang et al. An Evidential Reasoning Rule-Based Ensemble Learning Approach for Evaluating Credit Risks with Customer Heterogeneity
Lee et al. Application of machine learning in credit risk scorecard
Sangeetha et al. Crime Rate Prediction and Prevention: Unleashing the Power of Deep Learning
Religia et al. Analysis of the Use of Particle Swarm Optimization on Naïve Bayes for Classification of Credit Bank Applications
US20240070466A1 (en) Unsupervised Labeling for Enhancing Neural Network Operations
US20220318327A1 (en) Ranking similar users based on values and personal journeys

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230106

Address after: 200120 Floor 15, No. 447, Nanquan North Road, China (Shanghai) Pilot Free Trade Zone, Pudong New Area, Shanghai

Patentee after: Alipay.com Co.,Ltd.

Address before: 310000 801-11 section B, 8th floor, 556 Xixi Road, Xihu District, Hangzhou City, Zhejiang Province

Patentee before: Alipay (Hangzhou) Information Technology Co.,Ltd.

TR01 Transfer of patent right