CN112396513B - 一种数据处理的方法及装置 - Google Patents

一种数据处理的方法及装置 Download PDF

Info

Publication number
CN112396513B
CN112396513B CN202011364373.9A CN202011364373A CN112396513B CN 112396513 B CN112396513 B CN 112396513B CN 202011364373 A CN202011364373 A CN 202011364373A CN 112396513 B CN112396513 B CN 112396513B
Authority
CN
China
Prior art keywords
samples
abnormal data
positive
card
merchant
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011364373.9A
Other languages
English (en)
Other versions
CN112396513A (zh
Inventor
潘骏
王颖卓
褚振华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN202011364373.9A priority Critical patent/CN112396513B/zh
Publication of CN112396513A publication Critical patent/CN112396513A/zh
Application granted granted Critical
Publication of CN112396513B publication Critical patent/CN112396513B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection

Abstract

本发明公开了一种数据处理的方法及装置,该方法包括获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本,对正负样本的数据进行处理,确定出正负样本的商户特征和卡特征,根据正负样本、正负样本的基础特征以及未识别的样本,确定出未识别的样本的预测标签,对带有标签的正负样本和未识别的样本的预测标签进行统计,确定出各样本的图特征,确定出未识别的样本中的异常数据。通过对未识别的样本标记预测标签,对图网络进行遍历统计确定出各样本的图特征,最后基于正负样本的基础特征和图特征进行模型训练后可以有效的识别出上述未识别的样本中的异常数据,相比现有技术能够提高异常数据识别的覆盖率以及准确率。

Description

一种数据处理的方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种数据处理的方法及装置。
背景技术
信用卡异常使用能使持卡人在短期内获取高额资金,在高收益的诱惑下,异常使用行为屡禁不止,增大了发卡银行的风险,也增加了我国金融秩序的不稳定因素。如何能够从持卡人的交易数据入手,精准识别异常数据,深入挖掘客户的消费还款能力、信用程度,更好地提供发卡服务,获得更多的盈利点;以及打击大规模异常使用的虚假商户、机构,净化支付环境,成为了各大银行和银联的一大新关注点。但是商业银行之间数据壁垒高筑,各为消息孤岛,仅能根据本行交易数据特征识别异常使用行为,存在无法追踪跨行交易的资金去向,无法覆盖一人多卡、多人多卡的异常使用场景的问题。
目前的技术方案是通过图计算异常数据社区模型对同一个持卡人社区内的各种卡消费在金额和时间上进行匹配,来识别出异常数据,但是这种方案对于异常数据卡识别量不够,有部分卡不存在任何绑定信息,通过该图计算异常数据社区模型无法识别是否为异常数据。
发明内容
本发明实施例提供一种数据处理的方法及装置,用以解决现有技术中存在的部分通过图计算异常数据社区模型无法识别的情况,提高异常数据识别的覆盖率以及准确率。
第一方面,本发明实施例提供一种数据处理的方法,包括:
获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本;
对所述正负样本的数据进行处理,确定出所述正负样本的商户特征和卡特征;
根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征;
基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
上述技术方案中,通过先对未识别的样本标记预测标签,然后对图网络进行遍历统计确定出各样本的图特征,最后基于正负样本的基础特征和图特征进行模型训练后可以有效的识别出上述未识别的样本中的异常数据,相比现有技术能够提高异常数据识别的覆盖率以及准确率。
可选的,所述基础特征包括商户基础特征和卡基础特征;
所述根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签,包括:
基于所述正负样本以及所述正负样本的商户基础特征,训练生成商户基础分类器;基于所述正负样本以及所述正负样本的卡基础特征,训练生成卡基础分类器;
使用所述商户基础分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签;
使用所述卡基础分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签;
对所述图网络中未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签。
可选的,所述对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征,包括:
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出所述图网络中卡样本的图特征。
可选的,所述基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据,包括:
基于所述正负样本以及所述正负样本的基础特征和图特征,训练生成初始异常数据分类器;
使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器;
使用所述异常数据分类器对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
可选的,所述初始异常数据分类器包括商户初始异常数据分类器和卡初始异常数据分类器;所述异常数据分类器包括商户异常数据分类器和卡异常数据分类器;
所述使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器,包括:
使用所述商户初始异常数据分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签;
使用所述卡初始异常数据分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签;
对所述图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新所述图网络中卡样本的图特征;
根据所述正负样本以及所述正负样本的基础特征和更新后的图特征,继续对所述初始异常数据分类器进行下一轮训练学习,直到所述初始异常数据分类器收敛或迭代次数超过阈值,确定出所述异常数据分类器。
第二方面,本发明实施例提供一种数据处理的装置,包括:
获取单元,用于获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本;
处理单元,用于对所述正负样本的数据进行处理,确定出所述正负样本的商户特征和卡特征;根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征;基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
可选的,所述基础特征包括商户基础特征和卡基础特征;
所述处理单元具体用于:
基于所述正负样本以及所述正负样本的商户基础特征,训练生成商户基础分类器;基于所述正负样本以及所述正负样本的卡基础特征,训练生成卡基础分类器;
使用所述商户基础分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签;
使用所述卡基础分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签;
对所述图网络中未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签。
可选的,所述处理单元具体用于:
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出所述图网络中卡样本的图特征。
可选的,所述处理单元具体用于:
基于所述正负样本以及所述正负样本的基础特征和图特征,训练生成初始异常数据分类器;
使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器;
使用所述异常数据分类器对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
可选的,所述初始异常数据分类器包括商户初始异常数据分类器和卡初始异常数据分类器;所述异常数据分类器包括商户异常数据分类器和卡异常数据分类器;
所述处理单元具体用于:
使用所述商户初始异常数据分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签;
使用所述卡初始异常数据分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签;
对所述图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新所述图网络中卡样本的图特征;
根据所述正负样本以及所述正负样本的基础特征和更新后的图特征,继续对所述初始异常数据分类器进行下一轮训练学习,直到所述初始异常数据分类器收敛或迭代次数超过阈值,确定出所述异常数据分类器。
第三方面,本发明实施例还提供一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述数据处理的方法。
第四方面,本发明实施例还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述数据处理的方法。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种数据处理的方法的流程示意图;
图3为本发明实施例提供的一种特征数据的示意图;
图4为本发明实施例提供的一种特征数据的示意图;
图5为本发明实施例提供的一种特征数据的示意图;
图6为本发明实施例提供的一种特征数据的示意图;
图7为本发明实施例提供的一种特征数据的示意图;
图8为本发明实施例提供的一种特征数据的示意图;
图9为本发明实施例提供的一种特征数据的示意图;
图10为本发明实施例提供的一种特征数据的示意图;
图11为本发明实施例提供的一种数据处理的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以为服务器100,该服务器100可以包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2详细的示出了本发明实施例提供的一种数据处理的方法的流程,该流程可以由数据处理的装置执行。
如图2所示,该流程具体包括:
步骤201,获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本。
在本发明实施例中,通过图计算异常数据社区模型对预设时段内的交易数据进行识别,能够得到图网络以及图网络中带有标签的正负样本和未识别的样本。该图网络为持卡人关系网络社区,每个持卡人关系网络社区中包括社区属性值。该带有标签的正负样本中的标签为是否为卡异常数据或是否为商户异常数据。
该未识别的样本为孤立样本,没有社区属性的样本。上述带有标签的正负样本可以作为候选模型训练的训练集。
步骤202,对所述正负样本的数据进行处理,确定出所述正负样本的基础特征。
当得到正负样本后,就可以对该正负样本进行特征计算,确定出正负样本的基础特征,该基础特征包括商户特征和卡特征。
例如,商户特征计算如下:
根据cups交易流水、商户标签表、商户参数表,通过hive sql计算出商户相关的多个交易特征和属性特征(如笔数、金额、交易时间分布、金额分布、收单机构、非标、MCC、贷记占比等)。
卡特征计算如下:
根据cups交易流水、卡标签表、泛用户表通过hive sql计算出银行卡相关的多个交易特征和属性特征(如笔数、金额、交易时间分布、交易行业分布、交易代码分布、卡品牌、性别、年龄、地域、消费周期等。
步骤203,根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征。
在确定未识别的样本的预测标签时,可以基于正负样本以及正负样本的商户基础特征,训练生成商户基础分类器。基于正负样本以及正负样本的卡基础特征,训练生成卡基础分类器。然后使用商户基础分类器对图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签,并使用卡基础分类器对图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签。最后对图网络中未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签。
基于该预测标签,对图网络中带有标签的正负样本和未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出图网络中商户样本的图特征。对图网络中带有标签的正负样本和未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出图网络中卡样本的图特征。
在实际应用过程中,可以将图计算异常数据社区模型的识别结果作为训练集,分别根据商户基础特征和卡基础特征训练两个基础分类器h1,h2。
然后进行标签预测:
在保证图计算异常数据社区模型侦测结果不变(即训练集)的情况下对剩余商户(未识别样本中的商户)使用基础分类器h1打上异常数据与否的标记,对剩余卡使用基础分类器h2打上异常数据与否的标记,对于卡异常数据在商户异常数据的交易标记为异常交易。
再进行商户图特征计算:
使用tigergraph图数据库计算商户二阶邻居卡中的相关异常数据特征(如卡异常数据的数量、卡异常数据占比、不同异常数据占比等级下的卡占比等),存储于商户节点的属性特征中。
最后进行卡图特征计算:
使用tigergraph图数据库计算卡二阶邻居商户中的相关异常数据特征(如商户异常数据的个数、商户异常数据的交易占比、不同异常数据占比等级下的商户占比等),存储于卡节点的属性特征中。
步骤204,基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
当得到各样本的图特征之后,就可以基于正负样本以及正负样本的基础特征和图特征,训练生成初始异常数据分类器,然后使用正负样本以及正负样本的基础特征和图网络中未识别的样本对初始异常数据分类器进行多轮训练学习,确定出异常数据分类器。最后使用异常数据分类器对未识别的样本进行识别,确定出未识别的样本中的异常数据。
其中,在进行异常数据分类器的多轮训练时,可以使用商户初始异常数据分类器对图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签,使用卡初始异常数据分类器对图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签。对图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;对图网络中带有标签的正负样本和未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新图网络中商户样本的图特征;对图网络中带有标签的正负样本和未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新图网络中卡样本的图特征;根据正负样本以及正负样本的基础特征和更新后的图特征,继续对初始异常数据分类器进行下一轮训练学习,直到初始异常数据分类器收敛或迭代次数超过阈值,确定出异常数据分类器。该阈值可以依据经验设置。
举例来说,可以通过下述步骤来进行异常数据分类器的训练。
i.初始异常数据分类器训练:
将图计算异常数据社区模型的侦测结果作为初始标签,根据商户基础特征、商户图特征训练商户初始异常数据分类器L1,根据卡基础特征、卡图特征训练卡初始异常数据分类器L2。
ii.标签预测:
在保证图计算异常数据社区模型侦测结果不变的情况下对剩余商户使用分类器h1打上异常数据与否的标记,对剩卡使用分类器h2打上异常数据与否的标记,对于卡异常数据在商户异常数据的交易标记为异常交易。
iii.特征更新:
根据ii.中标记更新按上述方式重新计算图特征,基础特征不变。
iv.返回i.直到收敛或者迭代次数超过阈值。
为了更好的解释本发明实施例,下面将在具体的实施场景下来描述上述数据处理的过程。
本发明实施例中将结合一个例子演示模型的计算过程。
训练集:209780张卡异常数据、210220张非卡异常数据;17584个商户异常数据、17416个非商户异常数据;
测试集:180000张信用卡、15000个商户。
具体进行下述步骤:
1)卡基础特征计算,结果如图3所示。
2)商户基础特征计算,结果如图4所示。
3)卡基础分类器训练,以基础特征训练lighgbm模型,其中验证集AUC:0.867236609472829。
4)商户基础分类器训练,以基础特征训练lighgbm模型,其中验证集AUC:0.813235781375812。
5)卡基础分类器给测试集打上卡异常数据与否的预测标签。
6)商户基础分类器给测试集打上商户异常数据与否的预测标签。
7)对于即是卡异常数据又是商户异常数据的交易节点打上异常交易的预测标签。
8)滚动学习第一轮:
a、卡的图特征计算,以商户基础分类器输出的商户异常数据与否标签以及异常交易与否标签作为输入计算卡图特征:rate0、rate1、rate2,并将卡图特征以及卡基础特征共同作为卡初始异常数据分类器的建模特征。
其中,rate0:卡在异常交易占比0.25分位数以上的商户上的交易金额占比;
rate1:卡在异常交易占比0.5分位数以上的商户上的交易金额占比;
rate2:卡在异常交易占比0.75分位数以上的商户上的交易金额占比。
卡图特征计算的结果如图5所示。
b、商户的图特征计算,以卡基础分类器输出的卡异常数据与否标签以及异常交易与否标签作为输入计算商户图特征:rate0、rate1、rate2,并将商户图特征以及商户基础特征共同作为商户初始异常数据分类器的建模特征。
rate0:商户受理异常交易占比0.25分位数以上的卡的交易金额占比;
rate1:商户受理在异常交易占比0.5分位数以上的卡的交易金额占比;
rate2:商户受理在异常交易占比0.75分位数以上的卡的交易金额占比。
商户图特征计算的结果如图6所示。
c、卡异常数据分类器训练:
以卡图特征及卡基础特征共同作为建模特征训练lightgbm模型,其中,验证集AUC:0.9328376489687818。
卡异常数据分类器在测试集预测结果与基础分类器在测试集预测结果的均方误差:0.3563。
d、商户异常数据分类器训练:
以商户图特征及商户基础特征共同作为建模特征训练lightgbm模型,验证集AUC:0.8249393203883495。
商户异常数据分类器在测试集预测结果与基础分类器在测试集预测结果的均方误差:0.2871。
e、卡异常数据分类器给预测集打标签、商户异常数据分类器给预测集打标签,对于即是卡异常数据又是商户异常数据的交易打上异常交易的标签。
9)滚动学习第二轮:
f、卡的图特征计算,以商户异常数据分类器输出的商户异常数据与否标签以及异常交易与否标签作为输入计算卡图特征:rate0、rate1、rate2,并将卡图特征以及卡基础特征共同作为卡异常数据分类器的建模特征。
其中,rate0:卡在异常交易占比0.25分位数以上的商户上的交易金额占比;
rate1:卡在异常交易占比0.5分位数以上的商户上的交易金额占比;
rate2:卡在异常交易占比0.75分位数以上的商户上的交易金额占比。
卡的图特征计算的结果如图7所示。
g、商户的图特征计算,以卡异常数据分类器输出的卡异常数据与否标签以及异常交易与否标签作为输入计算商户图特征:rate0、rate1、rate2,并将商户图特征以及商户基础特征共同作为商户异常数据分类器的建模特征。
rate0:商户受理异常交易占比0.25分位数以上的卡的交易金额占比;
rate1:商户受理在异常交易占比0.5分位数以上的卡的交易金额占比;
rate2:商户受理在异常交易占比0.75分位数以上的卡的交易金额占比。
商户图特征计算的结果如图8所示。
h、卡异常数据分类器训练:
以卡图特征及卡基础特征共同作为建模特征训练lightgbm模型,其中,验证集AUC:0.9438376479687617。
卡异常数据分类器在测试集预测结果相比第一轮卡异常数据分类器在测试集预测结果的均方误差:0.0563。
i、商户异常数据分类器训练:
以商户图特征及商户基础特征共同作为建模特征训练lightgbm模型,验证集AUC:0.8448393209565979。
商户异常数据分类器在测试集预测结果相比第一轮商户异常数据分类器在测试集预测结果的均方误差:0.0831。
j、卡异常数据分类器给预测集打标签、商户异常数据分类器给预测集打标签,对于即是卡异常数据又是商户异常数据的交易打上异常交易的标签。
10)滚动学习第三轮:
k、卡的图特征计算,以商户异常数据分类器输出的商户异常数据与否标签以及异常交易与否标签作为输入计算卡图特征:rate0、rate1、rate2,并将卡图特征以及卡基础特征共同作为卡异常数据分类器的建模特征。
其中,rate0:卡在异常交易占比0.25分位数以上的商户上的交易金额占比;
rate1:卡在异常交易占比0.5分位数以上的商户上的交易金额占比;
rate2:卡在异常交易占比0.75分位数以上的商户上的交易金额占比。
卡的图特征计算的结果如图9所示。
l、商户的图特征计算,以卡异常数据分类器输出的卡异常数据与否标签以及异常交易与否标签作为输入计算商户图特征:rate0、rate1、rate2,并将商户图特征以及商户基础特征共同作为商户异常数据分类器的建模特征。
rate0:商户受理异常交易占比0.25分位数以上的卡的交易金额占比;
rate1:商户受理在异常交易占比0.5分位数以上的卡的交易金额占比;
rate2:商户受理在异常交易占比0.75分位数以上的卡的交易金额占比。
商户图特征计算的结果如图10所示。
m、卡异常数据分类器训练:
以卡图特征及卡基础特征共同作为建模特征训练lightgbm模型,其中,验证集AUC:0.9698767056229234。
卡异常数据分类器在测试集预测结果相比第二轮卡异常数据分类器在测试集预测结果的均方误差:0.0016。
n、商户异常数据分类器训练:
以商户图特征及商户基础特征共同作为建模特征训练lightgbm模型,验证集AUC:0.9124390057533701。
商户异常数据分类器在测试集预测结果相比第二轮商户异常数据分类器在测试集预测结果的均方误差:0.00051。
o、卡异常数据分类器给预测集打标签、商户异常数据分类器给预测集打标签,对于即是卡异常数据又是商户异常数据的交易打上异常交易的标签。
模型迭代三轮后从当前轮预测结果同前一轮预测结果的均方误差可以看出达到收敛,且AUC随着图特征的更新有显著提升。
在本发明实施例中,获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本,对正负样本的数据进行处理,确定出正负样本的商户特征和卡特征,根据正负样本、正负样本的基础特征以及未识别的样本,确定出未识别的样本的预测标签,对图网络中带有标签的正负样本和未识别的样本的预测标签进行统计,确定出图网络中各样本的图特征,基于正负样本以及正负样本的基础特征和图特征,对未识别的样本进行识别,确定出未识别的样本中的异常数据。通过先对未识别的样本标记预测标签,然后对图网络进行遍历统计确定出各样本的图特征,最后基于正负样本的基础特征和图特征进行模型训练后可以有效的识别出上述未识别的样本中的异常数据,相比现有技术能够提高异常数据识别的覆盖率以及准确率。
基于相同的技术构思,图11示例性的示出了本发明实施例提供的一种数据处理的装置的结构,该装置可以执行数据处理的流程。
如图11所示,该装置具体包括:
获取单元1101,用于获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本;
处理单元1102,用于对所述正负样本的数据进行处理,确定出所述正负样本的商户特征和卡特征;根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征;基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
可选的,所述基础特征包括商户基础特征和卡基础特征;
所述处理单元1102具体用于:
基于所述正负样本以及所述正负样本的商户基础特征,训练生成商户基础分类器;基于所述正负样本以及所述正负样本的卡基础特征,训练生成卡基础分类器;
使用所述商户基础分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签;
使用所述卡基础分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签;
对所述图网络中未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签。
可选的,所述处理单元1102具体用于:
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出所述图网络中卡样本的图特征。
可选的,所述处理单元1102具体用于:
基于所述正负样本以及所述正负样本的基础特征和图特征,训练生成初始异常数据分类器;
使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器;
使用所述异常数据分类器对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
可选的,所述初始异常数据分类器包括商户初始异常数据分类器和卡初始异常数据分类器;所述异常数据分类器包括商户异常数据分类器和卡异常数据分类器;
所述处理单元1102具体用于:
使用所述商户初始异常数据分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签;
使用所述卡初始异常数据分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签;
对所述图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新所述图网络中卡样本的图特征;
根据所述正负样本以及所述正负样本的基础特征和更新后的图特征,继续对所述初始异常数据分类器进行下一轮训练学习,直到所述初始异常数据分类器收敛或迭代次数超过阈值,确定出所述异常数据分类器。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用存储器中存储的程序指令,按照获得的程序执行上述数据处理的方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行计算机可读指令时,使得计算机执行上述数据处理的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程设备的处理器以产生一个机器,使得通过计算机或其他可编程设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种数据处理的方法,其特征在于,包括:
获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本;所述图计算异常数据社区模型用于对预设时段内的交易数据进行识别;所述图网络为持卡人关系网络社区;
对所述正负样本的数据进行处理,确定出所述正负样本的基础特征;所述基础特征包括商户基础特征和卡基础特征;
根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征;所述图特征包括商户样本的图特征以及卡样本的图特征;
基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据;
其中,所述根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签,包括:
基于所述正负样本以及所述正负样本的商户基础特征,训练生成商户基础分类器;基于所述正负样本以及所述正负样本的卡基础特征,训练生成卡基础分类器;
使用所述商户基础分类器对所述未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签;
使用所述卡基础分类器对所述未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签;
对所述未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签;
其中,所述对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征,包括:
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出所述图网络中卡样本的图特征。
2.如权利要求1所述的方法,其特征在于,所述基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据,包括:
基于所述正负样本以及所述正负样本的基础特征和图特征,训练生成初始异常数据分类器;
使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器;
使用所述异常数据分类器对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
3.如权利要求2所述的方法,其特征在于,所述初始异常数据分类器包括商户初始异常数据分类器和卡初始异常数据分类器;所述异常数据分类器包括商户异常数据分类器和卡异常数据分类器;
所述使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器,包括:
使用所述商户初始异常数据分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签;
使用所述卡初始异常数据分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签;
对所述图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新所述图网络中卡样本的图特征;
根据所述正负样本以及所述正负样本的基础特征和更新后的图特征,继续对所述初始异常数据分类器进行下一轮训练学习,直到所述初始异常数据分类器收敛或迭代次数超过阈值,确定出所述异常数据分类器。
4.一种数据处理的装置,其特征在于,包括:
获取单元,用于获取图计算异常数据社区模型输出图网络以及图网络中带有标签的正负样本和未识别的样本;
处理单元,用于对所述正负样本的数据进行处理,确定出所述正负样本的基础特征;根据所述正负样本、所述正负样本的基础特征以及所述未识别的样本,确定出所述未识别的样本的预测标签;对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签进行统计,确定出所述图网络中各样本的图特征;基于所述正负样本以及所述正负样本的基础特征和图特征,对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据;
其中,所述基础特征包括商户基础特征和卡基础特征;
所述处理单元具体用于:基于所述正负样本以及所述正负样本的商户基础特征,训练生成商户基础分类器;基于所述正负样本以及所述正负样本的卡基础特征,训练生成卡基础分类器;
使用所述商户基础分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的预测标签;
使用所述卡基础分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的预测标签;
对所述图网络中未识别的样本中预测标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的预测标签;
其中,所述处理单元具体用于:
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中商户样本的二阶邻居卡中的异常数据占比进行统计,确定出所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的预测标签中卡样本的二阶邻居商户中的异常数据占比进行统计,确定出所述图网络中卡样本的图特征。
5.如权利要求4所述的装置,其特征在于,所述处理单元具体用于:
基于所述正负样本以及所述正负样本的基础特征和图特征,训练生成初始异常数据分类器;
使用所述正负样本以及所述正负样本的基础特征和所述图网络中未识别的样本对所述初始异常数据分类器进行多轮训练学习,确定出异常数据分类器;
使用所述异常数据分类器对所述未识别的样本进行识别,确定出所述未识别的样本中的异常数据。
6.如权利要求4至5任一项所述的装置,其特征在于,初始异常数据分类器包括商户初始异常数据分类器和卡初始异常数据分类器;异常数据分类器包括商户异常数据分类器和卡异常数据分类器;
所述处理单元具体用于:
使用所述商户初始异常数据分类器对所述图网络中未识别的样本中的商户样本进行识别,标记出是否为商户异常数据的更新标签;
使用所述卡初始异常数据分类器对所述图网络中未识别的样本中的卡样本进行识别,标记出是否为卡异常数据的更新标签;
对所述图网络中未识别的样本中更新标签包括商户异常数据和卡异常数据的交易节点标记出异常交易的更新标签;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中商户样本的二阶邻居卡中的异常数据占比进行统计,更新所述图网络中商户样本的图特征;
对所述图网络中带有标签的正负样本和所述未识别的样本的更新标签中卡样本的二阶邻居商户中的异常数据占比进行统计,更新所述图网络中卡样本的图特征;
根据所述正负样本以及所述正负样本的基础特征和更新后的图特征,继续对所述初始异常数据分类器进行下一轮训练学习,直到所述初始异常数据分类器收敛或迭代次数超过阈值,确定出所述异常数据分类器。
7.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至3任一项所述的方法。
8.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至3任一项所述的方法。
CN202011364373.9A 2020-11-27 2020-11-27 一种数据处理的方法及装置 Active CN112396513B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011364373.9A CN112396513B (zh) 2020-11-27 2020-11-27 一种数据处理的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011364373.9A CN112396513B (zh) 2020-11-27 2020-11-27 一种数据处理的方法及装置

Publications (2)

Publication Number Publication Date
CN112396513A CN112396513A (zh) 2021-02-23
CN112396513B true CN112396513B (zh) 2024-02-20

Family

ID=74605423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011364373.9A Active CN112396513B (zh) 2020-11-27 2020-11-27 一种数据处理的方法及装置

Country Status (1)

Country Link
CN (1) CN112396513B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169864A (zh) * 2017-05-31 2017-09-15 天云融创数据科技(北京)有限公司 一种基于复杂网络的信用卡客户欺诈风险特征提取方法
CN109522304A (zh) * 2018-11-23 2019-03-26 中国联合网络通信集团有限公司 异常对象识别方法及装置、存储介质
CN110175850A (zh) * 2019-05-13 2019-08-27 中国银联股份有限公司 一种交易信息的处理方法及装置
JP2019149681A (ja) * 2018-02-27 2019-09-05 日本電信電話株式会社 トラフィック異常検知装置、トラフィック異常検知方法、及びトラフィック異常検知プログラム
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN110532542A (zh) * 2019-07-15 2019-12-03 西安交通大学 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111046655A (zh) * 2019-11-14 2020-04-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111291900A (zh) * 2020-03-05 2020-06-16 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111882446A (zh) * 2020-07-28 2020-11-03 哈尔滨工业大学(威海) 一种基于图卷积网络的异常账户检测方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107346448B (zh) * 2016-05-06 2021-12-21 富士通株式会社 基于深度神经网络的识别装置、训练装置及方法
CN108021931A (zh) * 2017-11-20 2018-05-11 阿里巴巴集团控股有限公司 一种数据样本标签处理方法及装置
CN109936561B (zh) * 2019-01-08 2022-05-13 平安科技(深圳)有限公司 用户请求的检测方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169864A (zh) * 2017-05-31 2017-09-15 天云融创数据科技(北京)有限公司 一种基于复杂网络的信用卡客户欺诈风险特征提取方法
JP2019149681A (ja) * 2018-02-27 2019-09-05 日本電信電話株式会社 トラフィック異常検知装置、トラフィック異常検知方法、及びトラフィック異常検知プログラム
CN109522304A (zh) * 2018-11-23 2019-03-26 中国联合网络通信集团有限公司 异常对象识别方法及装置、存储介质
CN110175850A (zh) * 2019-05-13 2019-08-27 中国银联股份有限公司 一种交易信息的处理方法及装置
CN110363231A (zh) * 2019-06-27 2019-10-22 平安科技(深圳)有限公司 基于半监督深度学习的异常识别方法、装置及存储介质
CN110532542A (zh) * 2019-07-15 2019-12-03 西安交通大学 一种基于正例与未标注学习的发票虚开识别方法及系统
CN111046655A (zh) * 2019-11-14 2020-04-21 腾讯科技(深圳)有限公司 一种数据处理方法、装置及计算机可读存储介质
CN111291900A (zh) * 2020-03-05 2020-06-16 支付宝(杭州)信息技术有限公司 训练风险识别模型的方法及装置
CN111882446A (zh) * 2020-07-28 2020-11-03 哈尔滨工业大学(威海) 一种基于图卷积网络的异常账户检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Graph based Anomaly Detection and Description: A Survey;Leman Akoglu et al.;Data Mining and Knowledge Discovery;626-688 *
基于级联平衡算法的银行卡异常交易检测;刘云翔;唐泽莘;徐齐;;计算机仿真(12);376-379+452 *
金融交易数据驱动的图谱网络智能化欺诈侦测;孙权;汤韬;郑建宾;潘婧;赵金涛;;应用科学学报(05);59-69 *

Also Published As

Publication number Publication date
CN112396513A (zh) 2021-02-23

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
US10698795B2 (en) Virtual payments environment
CN110704730A (zh) 基于大数据的产品数据推送方法、系统及计算机设备
CN110503564B (zh) 基于大数据的保全案件处理方法、系统、设备及存储介质
CN111160745A (zh) 用户账户数据的处理方法及装置
CN110163683B (zh) 价值用户关键指标确定方法、广告投放方法及装置
CN111666346A (zh) 信息归并方法、交易查询方法、装置、计算机及存储介质
CN112801773A (zh) 企业风险预警方法、装置、设备及存储介质
CN112015909A (zh) 知识图谱的构建方法及装置、电子设备、存储介质
CN109242165A (zh) 一种模型训练及基于模型训练的预测方法及装置
CN112950347B (zh) 资源数据处理的优化方法及装置、存储介质、终端
CN117094764A (zh) 银行积分处理方法及装置
CN112396513B (zh) 一种数据处理的方法及装置
CN111242779A (zh) 金融数据特征选择和预测方法、装置、设备及存储介质
CN110570301B (zh) 风险识别方法、装置、设备及介质
CN115167965A (zh) 交易进度条的处理方法及装置
CN113987351A (zh) 基于人工智能的智能推荐方法、装置、电子设备及介质
CN116308370A (zh) 异常交易识别模型的训练方法、异常交易识别方法及装置
CN113420789A (zh) 一种预测风险账号的方法、装置、存储介质和计算机设备
CN113139842A (zh) 一种表单处理方法、装置和系统
CN111160929A (zh) 一种客户类型的确定方法及装置
CN116453141B (zh) 票据潜客的识别方法、装置和电子设备
CN117291740B (zh) 一种基于大数据的应收账款资料真实性智能识别审核系统
KR102234130B1 (ko) 매출 채권과 입출금 정보간 자동화된 매칭 서비스를 제공하는 거래 정보 관리 방법 및 그 장치
CN117010569A (zh) 客户流失预测方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant