CN114329228A

CN114329228A - 一种数据处理方法、装置、电子设备及存储介质

Info

Publication number: CN114329228A
Application number: CN202111486244.1A
Authority: CN
Inventors: 郭国峰; 郭开文; 钟艺馨; 高越
Original assignee: Shenzhen Huayun Information System Co ltd
Current assignee: Shenzhen Huayun Information System Co ltd
Priority date: 2021-12-07
Filing date: 2021-12-07
Publication date: 2022-04-12

Abstract

本发明涉及一种数据处理方法、装置、电子设备及存储介质，该数据处理方法包括：获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息；基于多个账号信息、交互信息及权重信息确定当前社区网络；计算当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度；若相似度小于预设阈值，确定一个或多个对象的账号信息异常；若相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。本发明实施例能够识别异常的一个或多个对象的账号信息，以便于在实际应用中对具有异常交易的资金归集群体进行捕捉。

Description

一种数据处理方法、装置、电子设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、电子设备及存储介质。

背景技术

随着零售信贷业务的发展进步，线上自动化业务逐渐成为一种新的金融产品模式。这种由线下转为线上、由纸质人工变为数字自动、由服务渠道单一化转为多样化、由大众标准服务转为个性体验服务的模式转变，带来的不仅是客户体验的提升与效率的增加，随之而来的还有异常丰富的数据，逐步形成了多渠道多维度的海量数据。

因此，以新技术与海量数据为驱动的风险管理的模式已经得到快速的发展，互联网开放、分享、去中心化的特点可以提供更好的客户体验，但在实际的风险管理中，互联网客户的欺诈行为也较为严重，其中比较突出的现象之一，就是以贷款归集现象为表现的异常交易行为，为商业银行的风险管理带来了新的挑战。

如何从海量的数据中筛选出异常交易的数据，并对信息进行管理是一个难题。异常交易的突出特征是资金的异常归集行为，虚假的交易流水与违规的贷款用途将增加风险管理的难度。

发明内容

为了解决上述技术问题或者至少部分地解决上述技术问题，本申请提供了一种数据处理方法、装置、电子设备及存储介质。

第一方面，本申请提供了一种数据处理方法，包括：

获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息；

基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络；

计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度；

若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；

若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

可选地，基于多个对象的所述账号信息、所述交互信息及所述权重信息确定社区网络，包括：

基于多个对象的所述账号信息、所述交互信息及所述权重信息构建有向加权网络；

将所述有向加权网络输入静态分组算法，得到社区网络，所述社区网络包括群组结构及群组数量。

可选地，获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息，包括：

获取多个对象的账号信息及交互记录信息；

对所述账号信息及所述交互记录信息进行分析，得到任意两个账号信息之间的交互候选信息及每个交互信息对应的权重候选信息；

对多个对象的账号信息、任意两个账号信息之间的交互候选信息及每个交互候选信息对应的权重候选信息进行数据清洗，得到可使用的多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息。

可选地，所述方法还包括：

根据所述交互信息及权重信息，对每个对象的账号信息进行聚类，得到多个聚类簇；

将存在一个或多个对象的账号信息异常的聚类簇确定为异常聚类簇；

将所述异常聚类簇标记为预设颜色。

第二方面，本申请提供了一种数据处理装置，所述装置包括：

获取模块，用于获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息；

第一确定模块，用于基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络；

计算模块，用于计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度；

第二确定模块，用于若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；

执行模块，用于若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

可选地，所述第一确定模块包括：

构建单元，用于基于多个对象的所述账号信息、所述交互信息及所述权重信息构建有向加权网络；

输入单元，用于将所述有向加权网络输入静态分组算法，得到社区网络，所述社区网络包括群组结构及群组数量。

可选地，所述获取模块包括：

获取单元，用于获取多个对象的账号信息及交互记录信息；

分析单元，用于对所述账号信息及所述交互记录信息进行分析，得到任意两个账号信息之间的交互候选信息及每个交互信息对应的权重候选信息；

清洗单元，用于对多个对象的账号信息、任意两个账号信息之间的交互候选信息及每个交互候选信息对应的权重候选信息进行数据清洗，得到可使用的多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息。

可选地，所述装置还包括：

聚类模块，用于根据所述交互信息及权重信息，对每个对象的账号信息进行聚类，得到多个聚类簇；

第三确定模块，用于将存在一个或多个对象的账号信息异常的聚类簇确定为异常聚类簇；

标记单元，用于将所述异常聚类簇标记为预设颜色。

第三方面，本申请提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现第一方面任一所述的数据处理方法。

第四方面，本申请提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理方法的程序，所述数据处理方法的程序被处理器执行时实现第一方面任一所述的数据处理方法的步骤。

本申请实施例提供的上述技术方案与现有技术相比具有如下优点：

本发明实施例能够首先获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息，然后基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络，再计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度，若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

本发明实施例通过对多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息进行分析，识别异常的一个或多个对象的账号信息，以便于在实际应用中对具有异常交易的资金归集群体进行捕捉，通过构建异常交易网络模型的方式对异常贷款行为进行分析，为信用风险管理的工作提供辅助，通过构建策略模型工具的方式，建立识别金融交易属性中资金归集特性的欺诈行为，力求模型兼具实用性与创新型。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种数据处理方法的流程图；

图2为本申请实施例提供的某行四个地区交易流水数据量及其占比示意图；

图3为本申请实施例提供的流水清洗数据量变化表；

图4为本申请实施例提供的一种模型构建过程的示意图；

图5为本申请实施例提供的一种Fruchter Atlas算法布局结果的示意图；

图6为本申请实施例提供的一种数据处理装置的结构图；

图7为本申请实施例提供的一种电子设备的结构图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

由于相关技术中，如何从海量的数据中筛选出异常交易的数据，并对信息进行管理是一个难题。异常交易的突出特征是资金的异常归集行为，虚假的交易流水与违规的贷款用途将增加风险管理的难度。为此，本申请实施例提供的一种数据处理方法、装置、电子设备及存储介质，该数据处理方法可以应用于计算机中。

如图1所示，该数据处理方法可以包括以下步骤：

步骤S101，获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息；

由于实际应用中，(1)同一人名下有可能会对应多个卡号；(2)所有人的卡号视为一个集合，并包含在研究的数据集中；(3)多对一的归集和一对多的归集行为，对于可疑交易，转出方与转入方是相反的。因此，在本发明实施例中，定义社交网络的Node(V)：节点、Edge(E(t))：边和Weight of Edge：边的权值，其中，Node(V)：节点，即将每一个同一卡号的持卡人定义为一个节点。Edge(E(t))：边。若两个节点之间有转账记录，则说明两者之间有关系，将两者之间的阶段用带时间的t的有向边进行标记，方向由转出方指向转入方。Weight of Edge：边的权值。根据不同的情况，定义不同形式的边。如果两个节点之间具有关系，可以通过定义边的权重的方式进行转账关系频率的表示。即两节点转账频繁，则边的权值大。若要获取转账金额与还款金额之间的关系，可以将两者的比率定义为边的权重，可以更加直观的展示出其贷款的还款金额与他人为其转账的金额之间的关系。

本发明实施例中，账号信息可以指社交网络的Node(V)：节点，包括：持卡人的卡号等，交互信息可以指Edge(E(t))：边，包括：转账信息等，权重信息可以指Weight of Edge：边的权值。

获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息，包括：获取多个对象的账号信息及交互记录信息；对所述账号信息及所述交互记录信息进行分析，得到任意两个账号信息之间的交互候选信息及每个交互信息对应的权重候选信息；对多个对象的账号信息、任意两个账号信息之间的交互候选信息及每个交互候选信息对应的权重候选信息进行数据清洗，得到可使用的多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息。

通过对某行四个地区的某年度共计7495.78万的数据进行分析挖掘，各地区交易流水数据量及占比如图2所示，可以看出交易流水数据量已达到千万级别，因此传统的数据分析及挖掘方法已难以解决，需要利用计算机大数据分析方法，基于海量数据的挖掘算法对数据进行进一步清洗、建模与挖掘分析。

通过业务上对异常交易的特征定义，对交易流水数据分析，捕捉其中交易的关联性，从而作为构建复杂网络的基础。第二步为对海量数据的清洗，清洗原则包括将资金流入、资金流出、交易时间、交易对手、交易金额、交易频率、交易分类等十几个维度纳入考量，整理出三十五项清洗规则，从海量的资金交易流水中筛选出异常的交易，通过多维度的考量数据相关性、交易对手特征、交易时间范围、交易金额特征等，捕捉其中高风险的交易。最后，从高风险的异常交易流水中清洗出可疑的交易流水。

数据量变化范围如图3所示，可以通过趋势线看出，经过复杂数据关联后，数据量由原始流水最初的7495.78万迅速增长了5倍，达到了3.75亿的数据量，通过清洗模型的清洗，异常交易的数据被筛选出来，最终获得的可疑流水约0.53万。流水的清洗工作是通过SAS工具完成的，得到了字段含义清晰、完整且规则的数据，为下一步构建可疑交易网络模型做准备。

步骤S102，基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络；

基于多个对象的所述账号信息、所述交互信息及所述权重信息确定社区网络，包括：基于多个对象的所述账号信息、所述交互信息及所述权重信息构建有向加权网络；将所述有向加权网络输入静态分组算法，得到社区网络，所述社区网络包括群组结构及群组数量。

步骤S103，计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度；

由于群组变化点检测(Stream—Group)算法在有向图挖掘上具有良好的效率。所以，在本发明实施例中，可以首先，采用静态群组S-Group算法发现最新网络的社区结构；其次，计算最新网络Ix与以当前网络图分割Sx的划分Ix的相似度(也即当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度)；最后，根据计算得到的相似度和预设阈值C0判断是否出现变化点，如果时间片t不是变化的点，那么采用Inc-Group算法更新网络图分割Sx的划分Ix，否则开启一个新的网络图分割Sx+1。对于图分割矩阵Sx,假设有那个节点，那么图分割矩阵Sx表示如下：

其中，v_ij为社交网络中节点的坐标。

步骤S104，若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；

步骤S105，若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

在本发明的又一实施例中，所述方法还包括：

步骤201，根据所述交互信息及权重信息，对每个对象的账号信息进行聚类，得到多个聚类簇；

步骤202，将存在一个或多个对象的账号信息异常的聚类簇确定为异常聚类簇；

步骤203，将所述异常聚类簇标记为预设颜色。

本发明实施例中的可视化构建工具采用的是Geghi 0.8.2beta版，利用该可视化构建工具对数据进行展示，根据每一个账户之间的转账关系进行聚类，为了更加直观的对数据进行展示，再根据已经处理好的数据中的每一个节点的入度和出度，以及边的权值，对节点与边进行处理。

如图4所示，为模型构建的流程，数据由最初的散点分布最终聚类成为各个聚簇，并根据各群体特征使用不同的颜色进行标记。图中左上图为初始阶段为进行聚类的数据点分布；右上图为根据节点的度与边的权值进行数据预处理，标记为不同的颜色；右下图为使用胡一凡算法进行聚类与数据布局；最终得到左下图所示的聚类簇，即通过算法与可视化工具获得了每一个进行资金归集的可疑群体，为了更加清晰的对捕捉的可疑群体进行展示，通过Fruchter Atlas算法对可疑数据进行重新布局，获得图5。

如图5所示，采用Fruchter Atlas算法进行布局，获得了可直观展示资金流向的布局图。由上图，以展示的一对多的资金流水归集方式为例，每一种颜色的节点代表每一可疑的交易群体，在每个群体中，可疑交易的资金归集人为中心节点，其节点相对较大，边界点为可疑的交易客户。由于数据保密性要求，将客户信息进行隐匿，仅作结果展示。

另外，通过可疑交易数据可以获得可疑客户的地址范围信息，根据可疑交易客户的地址信息，可以以热图的方式可视化的展示出可以用户的主要地理位置，以热图的方式进行可视化展示是根据地址获得经纬度，并通过可视化工具完成的，实现了以大数据的方式多维度的刻画客户风险。

在本发明的又一实施例中，还提供一种数据处理装置，如图6所示，所述装置包括：

获取模块11，用于获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息；

第一确定模块12，用于基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络；

计算模块13，用于计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度；

第二确定模块14，用于若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；

执行模块15，用于若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

在本发明的又一实施例中，所述第一确定模块包括：

在本发明的又一实施例中，所述获取模块包括：

获取单元，用于获取多个对象的账号信息及交互记录信息；

在本发明的又一实施例中，所述装置还包括：

标记单元，用于将所述异常聚类簇标记为预设颜色。

在本发明的又一实施例中，还提供一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现前述任一方法实施例所述的数据处理方法。

本发明实施例提供的电子设备，处理器通过执行存储器上所存放的程序实现了首先获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息，然后基于多个所述账号信息、所述交互信息及所述权重信息确定当前社区网络，再计算所述当前社区网络的第一群组结构与上一时间段的历史社区网络的第二群组结构之间的相似度，若所述相似度小于预设阈值，确定一个或多个对象的账号信息异常；若所述相似度大于预设阈值，确定未出现变化点，执行获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息的步骤。

上述电子设备提到的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect，简称PCI)总线或扩展工业标准结构(ExtendedIndustryStandardArchitecture，简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口1120用于上述电子设备与其他设备之间的通信。

存储器1130可以包括随机存取存储器(RandomAccessMemory，简称RAM)，也可以包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器1110可以是通用处理器，包括中央处理器(CentralProcessingUnit，简称CPU)、网络处理器(NetworkProcessor，简称NP)等；还可以是数字信号处理器(DigitalSignalProcessing，简称DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit，简称ASIC)、现场可编程门阵列(Field-ProgrammableGateArray，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明的又一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有数据处理方法的程序，所述数据处理方法的程序被处理器执行时实现前述任一方法实施例所述的数据处理方法的步骤。

需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅是本发明的具体实施方式，使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的数据处理方法，其特征在于，基于多个对象的所述账号信息、所述交互信息及所述权重信息确定社区网络，包括：

3.根据权利要求1所述的数据处理方法，其特征在于，获取多个对象的账号信息、任意两个账号信息之间的交互信息及每个交互信息对应的权重信息，包括：

获取多个对象的账号信息及交互记录信息；

4.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

将所述异常聚类簇标记为预设颜色。

5.一种数据处理装置，其特征在于，所述装置包括：

6.根据权利要求5所述的数据处理装置，其特征在于，所述第一确定模块包括：

7.根据权利要求5所述的数据处理装置，其特征在于，所述获取模块包括：

获取单元，用于获取多个对象的账号信息及交互记录信息；

8.根据权利要求5所述的数据处理装置，其特征在于，所述装置还包括：

标记单元，用于将所述异常聚类簇标记为预设颜色。

9.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的程序时，实现权利要求1～4任一所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有数据处理方法的程序，所述数据处理方法的程序被处理器执行时实现权利要求1-4任一所述的数据处理方法的步骤。