CN117010914A

CN117010914A - 风险团伙的识别方法、装置、计算机设备及存储介质

Info

Publication number: CN117010914A
Application number: CN202310992944.0A
Authority: CN
Inventors: 文广明; 苏志锋; 田鸥; 王丽虹
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-11-07

Abstract

本申请涉及金融科技领域，公开了一种风险团伙的识别方法、装置、计算机设备及存储介质，包括：将企业基础数据输入至第一风险评估模型，得到每个平台商户的第一评估结果；将平台商户的关键特征数据输入至第二风险评估模型，得到每个平台商户的第二评估结果；根据第一评估结果和第二评估结果，确定平台风险商户；根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息；根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。本申请将风险客户防范由个体上升到团伙，打破传统单个主体风险防范的局限性，全面提升风险客户识别的准确率，降低漏查率。

Description

风险团伙的识别方法、装置、计算机设备及存储介质

技术领域

本申请涉及人工智能及金融科技技术领域，尤其涉及一种风险团伙的识别方法、装置、计算机设备及存储介质。

背景技术

网络平台作为一种常见的商业模式和业态备受市场关注，网络从业者不断涌入市场，从事各种经营活动。但是随着科技的迅猛发展，部分不法企业借助网络平台开展违法资金清分。

国内众多网络平台风控能力参差不齐，在同用工企业或线上入驻企业合作时缺乏一定的风险防控能力，银行在对平台资金进行清分时，主要的风险防控手段主要以黑名单、专家经验模型等识别方式为主，但随着客群下沉、业务经营模式以及不法黑灰产业链的不断扩大，现有的风险排查手段的过于滞后以及人力已无法满足当前的风险防控需求，导致漏查、风险排查准确性低。

发明内容

本申请的主要目的在于提供一种风险团伙的识别方法、装置、计算机设备及存储介质，可以解决现有技术中的风险排查手段落后无法准确进行风险排查的技术问题。

为实现上述目的，本申请第一方面提供一种风险团伙的识别方法，该方法包括：

将平台商户的企业基础数据作为第一风险评估模型的输入，通过第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；

获取平台商户在平台上第一预设时间段内的第一交易数据，根据第一交易数据得到关键特征数据；

将关键特征数据作为第二风险评估模型的输入，通过第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；

根据第一评估结果和第二评估结果，确定平台风险商户；

根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息；

根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

为实现上述目的，本申请第二方面提供一种风险团伙的识别装置，该装置包括：

第一评估模块，用于将平台商户的企业基础数据作为第一风险评估模型的输入，通过第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；

第一数据获取模块，用于获取平台商户在平台上第一预设时间段内的第一交易数据，根据第一交易数据得到关键特征数据；

第二评估模块，用于将关键特征数据作为第二风险评估模型的输入，通过第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；

风险判定模块，用于根据第一评估结果和第二评估结果，确定平台风险商户；

关系网构建模块，用于根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息；

风险团伙确定模块，用于根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

为实现上述目的，本申请第三方面提供一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

根据第一评估结果和第二评估结果，确定平台风险商户；

为实现上述目的，本申请第四方面提供一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

根据第一评估结果和第二评估结果，确定平台风险商户；

采用本申请实施例，具有如下有益效果：

本申请综合应用多种AI算法模型和关系网构建，丰富网络风险团伙识别手段，整合平台合作企业的出入金交易、工商信息等多种数据源并借助关系图谱进行客户多重关联关系穿透，丰富现有风险监测维度和技术，解决当前无法全面穿透式“了解客户”的痛点；对风险客户的资金交易来源、流向以及实控主体进行溯源穿透，实现可疑客户识别、风险客户关联分析以及溯源穿透，使得风险客户防范由个体上升到团伙，打破传统单个主体风险防范的局限性，弥补现有方法的不足，全面提升风险客户识别的准确率，降低漏查率。为网络金融诈骗风险客户预警、识别、拦截提供了新思路。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为本申请实施例中风险团伙的识别方法的应用环境图；

图2为本申请实施例中风险团伙的识别方法的流程图；

图3为本申请实施例中交易关系网的示意图；

图4为本申请实施例中风险团伙的识别装置的结构框图；

图5为本申请实施例中计算机设备的结构框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为一个实施例中风险团伙的识别方法的应用环境图。参照图1，该风险团伙的识别方法应用于风险团伙的识别系统。该风险团伙的识别系统包括终端110和服务器120。终端110和服务器120通过网络连接，终端110具体可以是台式终端或移动终端，移动终端具体可以是手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。终端110用于向服务器120提供各种数据以及下发指令，服务器120用于将平台商户的企业基础数据作为第一风险评估模型的输入，通过第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；获取平台商户在平台上第一预设时间段内的第一交易数据，根据第一交易数据得到关键特征数据；将关键特征数据作为第二风险评估模型的输入，通过第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；根据第一评估结果和第二评估结果，确定平台风险商户；根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息；根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

如图2所示，在一个实施例中，提供了一种风险团伙的识别方法。该风险团伙的识别方法具体包括如下步骤：

S100：将平台商户的企业基础数据作为第一风险评估模型的输入，通过第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果。

具体地，获取平台商户的企业基础数据，其中，企业基础数据可以包括但不限于企业类型、企业成立年限、企业经营范围、企业变更及诉讼信息、是否为黑名单企业等。

其中，黑名单企业可以是由权威机构审核确认的。

平台商户的企业变更事件越多或越频繁、诉讼事件越多或越频繁，越可能为风险商户。如果平台商户为黑名单企业，也极大可能是风险商户。

第一风险评估模型基于平台商户的基本企业信息对企业进行风险评估，为已训练的风险评估模型。第一风险评估模型可以基于逻辑回归算法模型构建。第一风险评估模型可以为二分类模型，输出结果包括平台商户为风险商户的预测概率和为非风险商户的预测概率。如果为风险商户的预测概率大于为非风险商户的预测概率，则该平台商户为风险商户；如果为风险商户的预测概率不大于为非风险商户的预测概率，则该平台商户为非风险商户。

当然，第一风险评估模型也可以为多分类模型，输出结果包括平台商户为每种分类的预测概率。例如，分类包括风险商户、重度可疑商户、中度可疑商户、轻度可疑商户和非风险商户等不局限于此。哪一个分类的预测概率最高，则该平台商户属于预测概率最高的分类。

平台商户的企业基础数据可能会发生更新，因此，可以间隔一段时间利用第一风险评估模型对平台商户进行再次风险评估。

S200：获取平台商户在平台上第一预设时间段内的第一交易数据，根据第一交易数据得到关键特征数据。

具体地，第一预设时间段是从当前时刻起的一个历史时间段内。例如，从当前时刻起往回推1个月内、3个月内、6个月内、9个月内、12个月内等不局限于此。

第一交易数据可以包括但不限于每次交易的交易双方信息、交易资金规模、交易时间、交易频次、交易类型等。

关键特征数据是从第一交易数据中提取出的和/或对第一交易数据进行数据加工生成的。关键特征数据具体根据第二风险评估模型的输入要求决定。

S300：将关键特征数据作为第二风险评估模型的输入，通过第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果。

具体地，在平台上，平台商户的交易数据会不断产生，对平台商户的评估也不能局限于一次两次的评估，而是要随着交易数据的不断更新，同步更新对平台商户的评估，实现对平台商户的监管。因此，可以每间隔一段时间对平台商品评估一次；或者，在需要的情况下由用户下发指令督促平台对平台商户进行评估。

第二风险评估模型的输入是平台商户的交易数据，因此，第二风险评估模型用于从交易行为层面对平台商户进行风险评估。第二风险评估模型为已训练的风险评估模型。

第二风险评估模型可以为二分类模型，输出结果包括平台商户为风险商户的预测概率和为非风险商户的预测概率。如果为风险商户的预测概率大于为非风险商户的预测概率，则该平台商户为风险商户；如果为风险商户的预测概率不大于为非风险商户的预测概率，则该平台商户为非风险商户。

当然，第二风险评估模型也可以为多分类模型，输出结果包括平台商户为每种分类的预测概率。例如，分类包括风险商户、重度可疑商户、中度可疑商户、轻度可疑商户和非风险商户等不局限于此。哪一个分类的预测概率最高，则该平台商户属于预测概率最高的分类。

S400：根据第一评估结果和第二评估结果，确定平台风险商户。

具体地，综合第一评估结果和第二评估结果确定平台商户中的平台风险商户。

S500：根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息。

具体地，历史交易数据所包含的交易数据多于第一交易数据。例如，第一交易数据为前3个月的数据，历史交易数据可以为前12个月或前2年的数据等。

图3为本申请实施例中交易关系网的示意图；参考图3，在子账户层均为平台商户，在交易对手层为与平台商户产生交易的交易对手。交易对手可能为个人，也可能为企业或团体或组织等。交易对手a、b、c、d、e、f、g、h、k与不同的平台商户发生过交易，通过交易对手可以关联平台商户。

当然，图3仅仅是一种示例性举例说明，具体的交易关系网不局限于图3所示。

S600：根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

具体地，如果同一个交易对手在两个平台商户都有过交易，且，其中一个平台商户为风险商户，则通过交易关系网中的传导关系来判断另一个平台商户是否为疑似风险商户。或者，根据通过交易关系网中的传导关系以及交易金额和/或交易频次来判断另一个平台商户是否为疑似风险商户。具体地，交易越频繁、交易金额越大，则越可能是疑似风险商户。疑似风险商户的判断规则本申请不作限制。

确定疑似风险商户后，可以以一个平台风险商户为中心，将平台风险商户以及与该平台风险商户关联的疑似风险商户确定为一个疑似风险团伙。

例如，平台风险商户11与交易对手21产生过风险交易，则将交易对手21作为线索，查找与交易对手21交易过的其他平台商户，例如查找到的其他平台商户包括平台商户12、13、15。则将平台商户12、13、15作为与平台风险商户11关联的疑似风险商户。当然，还可以进一步根据平台商户12、13、15与交易对手21的交易金额或交易频次来判断平台商户12、13、15是否为疑似风险商户。

或者，通过风险传导，将平台风险商户以及其关联的疑似风险商户以及与疑似风险商户关联的其他平台风险商户确定为一个疑似风险团伙。

例如，与平台风险商户11关联的疑似风险商户包括平台商户12、13、15，与平台风险商户14关联的疑似风险商户包括平台商户12、16、17。则，确定平台风险商户11、14、疑似风险商户12、13、15、16、17组成为一个疑似风险团伙。

确定疑似风险团体后可以由权威机构介入对该团体中的商户成员进行尽调考察、审核，以进一步确定商户成员的身份。

另外，在确定疑似风险团体后平台后还可以对平台风险商户进行资金往来冻结等处理，和/或，对疑似风险商户进行延迟交易等处理。在解除平台风险商户的风险商户身份或在解除疑似风险商户的疑似风险商户身份后，可以解除相应的处理。以维护网络交易合规合法。

现有技术往往依赖外部数据服务商提供的黑名单进行疑似风险客户的排查，效率低，无法满足平台业务合规发展需要。且现有的专家经验模型是针对历史违规违法客户进行总结和提炼，主要依赖既往经验，对于新型网络赌博风险交易监测，缺乏自我学习能力，且滞后性明显，准确率较低。本实施例根据入驻平台的商户的企业基础数据和商户在平台上的交易数据分别进行风险用户排查，且，随着交易数据的更新会定时定期对平台商户进行风险评估，加强了排查力度和维度，防止漏查，提高了风险用户的识别准确性。现有技术中网络平台用户行为数据单一，无法充分利用客户资金链链路，无法形成闭环，无法满足业务规模不断发展壮大的需要。本实施例通过建立关系网，找出风险传导强关联客户群体，实现了风险客户关联分析以及溯源穿透。

本实施例综合应用多种AI算法模型和关系网构建，丰富网络风险团伙识别手段，整合平台合作企业的出入金交易、工商信息等多种数据源并借助关系图谱进行客户多重关联关系穿透，丰富现有风险监测维度和技术，解决当前无法全面穿透式“了解客户”的痛点；对风险客户的资金交易来源、流向以及实控主体进行溯源穿透，实现可疑客户识别、风险客户关联分析以及溯源穿透，使得风险客户防范由个体上升到团伙，打破传统单个主体风险防范的局限性，弥补现有方法的不足，全面提升风险客户识别的准确率，降低漏查率，防止非法分子逃窜。为网络金融诈骗风险客户预警、识别、拦截提供了新思路。

在一个实施例中，步骤S500中根据平台商户的历史交易数据构建交易关系网，包括：

从历史交易数据中提取出交易用户实体、交易时间、交易金额、交易类型，其中，交易用户实体包括平台商户和与平台商户进行交易往来的交易对手；

通过知识图谱技术构建图谱形式的交易关系网，其中，交易关系网包括平台商户与交易对手之间的第一实体关系以及平台商户与交易行为数据之间的第二实体关系。

具体地，交易对手可能为个人也可能是企业。根据从历史交易数据中提取出每笔交易对应的交易用户实体、交易时间、交易金额、交易类型生成交易行为数据，每笔交易对应一个交易行为数据。

每笔交易是一个平台商户与一个交易对手之间的交易往来，将交易对手作为桥梁，可以关联与同一个交易对手交易的多个平台商户，由此可以建立平台商户-交易对手-平台商户之间的第一实体关系。

平台商户的交易行为中大额交易、频繁交易是较可疑的行为，因此，交易频次和交易资金是比较可靠的评判指标。建立平台商户与交易行为数据之间的第二实体关系，可以深挖同一个平台商户资金的来龙去脉以及识别资金循环互转，溯源穿透。

另外，本申请的平台商户可以是来自多个不同平台的商户，这样可以打通平台隔阂，跨平台、全网范围内实现全面的风险评估，有力整顿非法交易行为。

通过交易关系网可以梳理资金交易来源和流向、实控主体以及交易用户实体之间的传导关系。

在一个实施例中，在S300中通过第二风险评估模型对每个平台商户进行风险交易行为识别之前，该方法还包括：

抽取平台商户在平台上第二预设时间段内的第二交易数据；

结合RFM模型，根据第二预设时间段内的第二交易数据进行特征数据衍生，得到衍生特征数据；

基于特征工程，根据衍生特征数据进行特征筛选，得到目标特征，基于目标特征构建数据集；

利用数据集训练出第二风险评估模型。

具体地，第二预设时间段内为历史交易时间段内，例如，为2021年1月1日至2022年1月1日之间，或者，为平台商户入驻平台以来的所有时间段内等。

第二交易数据包括了平台商户在第二预设时间段内的每笔交易对应的交易数据以及平台商户信息。每笔交易的交易数据以及平台商户信息包括交易双方信息(例如，平台商户的基本信息、交易对手的基本信息)、交易资金规模、交易时间、交易类型等。

特征工程是AI算法模型的核心，特征工程的质量直接决定了算法模型的性能及效果。为找出更多潜在的风险交易规律，精准感知风险，设计以RFM模型为基础的特征数据衍生方案。

RFM模型即(Recency，Frequency，Monetary)模型。Recency指最近一次消费，Frequency指消费频率，消费频率是顾客在限定的期间内所购买的次数。Monetary指消费金额。

例如，对于同一个平台商户，可以结合RFM模型和特征工程衍生出该平台商户在过去1分钟交易金额和笔数、过去1小时交易金额和笔数，过去24小时交易金额和笔数，过去7天交易金额和笔数，过去1个月、过去2个月、过去3个月、过去6个月等时间段内的交易金额和笔数，过去1个月、过去2个月、过去3个月、过去6个月等时间段内的公转私金额和笔数，同名互转金额和笔数、过去24小时同名互转金额比例、交易金额与注册资本比例、交易对手金额与成立年限比例、过去24小时出入金比例、是否小额测试等，过去7天同名互转金额比例、交易金额与注册资本比例、交易对手金额与成立年限比例、过去24小时出入金比例、是否小额测试等，过去1个月同名互转金额比例、交易金额与注册资本比例、交易对手金额与成立年限比例、过去24小时出入金比例、是否小额测试等等多种维度的衍生特征数据。

平台商户较多，根据所有平台商户的衍生特征数据可以得到充足的衍生特征样本空间。基于特征工程，利用衍生特征样本空间挑选有益特征摒弃无关或冗余特征，即可筛选出与风险商户评估相关的目标特征。

确定目标特征后，根据目标特征获取多个数据样本，每个数据样本包括一个平台商户的目标特征数据。目标特征数据包括目标特征及其取值。所有数据样本组成数据集。

利用数据集对待训练风险评估模型进行训练，得到第二风险评估模型。

本实施例结合RFM模型，从客户交易行为统计变量出发，使用灵活多变的统计窗口和种类丰富的聚合函数，将相互独立的交易流水分别从时间维度、价值维度、空间维度进行衍生，构造出富含时空信息的特征，满足对交易行为多角度、细粒度、深景深画像的要求，为模型提供了充足的特征样本。然后从衍生的样本空间中挑选有益特征、摒弃无关或冗余特征的过程，核心目的是提升模型预测效率及模型在未知数据上的泛化能力。

在一个实施例中，基于特征工程，根据衍生特征数据进行特征筛选，得到目标特征，包括：

基于AUC对衍生特征数据进行单特征粗粒度的第一筛选，得到第一候选特征；

基于XGB特征重要性对第一候选特征进行第二筛选，得到第二候选特征；

基于递归特征消除对第二候选特征进行用于迭代特征筛选的第三筛选，将得到第四候选特征作为目标特征。

具体地，在模型训练中模型训练的效率是非常重要的，如果将全部特征塞入模型中，则模型训练复杂度(存储，时间)提高，因此，有必要精简特征，筛选出重要的目标特征。

特征的好坏衡量有很多的方法，例如：单特征AUC、信息增益，信息增益率、giniindex、相关系数(label连续值)等。

本实施例选择单特征AUC对衍生特征数据进行单特征粗粒度的第一筛选。AUC(Area under curve，曲线下的面积)是一个模型评价指标，用于二分类模型的评价。AUC(曲线下的面积)对所有可能的分类阈值的效果进行综合衡量。

单特征AUC具体操作为：利用每个单特征训练模型(模型可以任意选择，只要符合单特征AUC的要求即可)，计算每个单特征的AUC并对所有特征的AUC进行排名，精度越高表示该特征重要程度越高。在实际应用中，可通过如下方式计算特征AUC及重要度：

特征值置为0：在预测时可以依次将某个特征取值置为0(即不考虑该特征对模型的影响)计算模型AUC，精度降低越多，表示这个特征对于模型预测越重要。

特征取随机值：将某个特征取随机值，可以使用均匀或者高斯分布随机抽取值，然后计算模型的准确率。对于某个特征，如果用一个随机值替代后表现比之前差很多，说明该特征很重要。

在另一个实施例中，还可以通过单特征KS对衍生特征数据进行单特征粗粒度的第一筛选。KS(Kolmogorov-Smirnov)是一种常用的分类模型性能评价指标，KS衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的区分能力越强。

基于XGB特征重要性对第一候选特征进行第二筛选具体如下：

在机器学习中，特征选择是一个非常重要的问题，因为正确选择特征可以提高模型的准确性。特征重要性是衡量特征在模型中的贡献的一种指标。而XGBoost自带的feature_importance_属性提供了一种特征衡量选择。它是衡量特征在模型中的贡献的一种指标，它可以帮助理解模型中每个特征的重要性，找出对预测结果最重要的特征，从而提高模型的准确性和解释性。XGBoost还提供了plot_importance函数来可视化特征重要性参数，即可视化特征重要性。使用plot_importance函数可以绘制一个柱状图，其中每个柱子表示一个特征的重要性。使用XGBoost的交叉验证功能还可以计算每个特征的平均重要性。XGBoost有5种内置的特征重要性计算方式，分别是'weight','gain','cover','total_gain','total_cover'。

通过XGB特征重要性可以将特征重要性低于特征重要性阈值的第一候选特征剔除，保留特征重要性不低于特征重要性阈值的第一候选特征作为第二候选特征。

或者，对特征重要性进行降序排序，筛选出特征重要性排名位于前m％的第一候选特征作为第二候选特征。m为小于100的数，具体根据实际情况配置，本申请对此不作限制。

基于递归特征消除对第二候选特征进行用于迭代特征筛选的第三筛选，具体如下：

迭代特征选择也是使用模型来筛选特征，其中一种特殊的方法是递归特征消除(Feature Recursive Elimination，简称RFE)，特征递归消除法是一种特征选择的算法，它通过反复训练模型，并剔除其中的弱特征，直到达到所需的特征数量。

本实施例从第二候选特征开始构建模型，并根据模型舍弃最不重要的特征，然后使用剩下的特征来训练模型，如此继续，直到剩下预设数量的特征。

该算法的步骤如下：

首先，将所有的第二候选特征都输入模型，得到模型的性能评价指标(比如准确率、F1得分等)。然后，选择性能评价指标排名最低的特征，将其从特征集合中剔除。再次训练模型，计算模型的性能评价指标。重复前面步骤，直到特征数量达到预设值或者无法继续剔除特征为止。特征递归消除法的优点在于，它可以避免过拟合问题，并提高模型的泛化能力。同时，由于它能够从所有的特征中选择出最重要的特征，因此可以提高模型的效率和精度。

本实施例结合多种特征筛选方法的优势，依次通过多种特征筛选方法可以准确地从衍生特征中筛选出业务解释能力好、好坏区分程度高、模型泛化能力强的目标特征，剔除冗余特征，进而有利于构建并训练出性能优异的分类模型。

在一个具体实施例中，还可以向用户展示全部第四候选特征，由用户基于深度的业务理解对第四候选特征进行人工复核和人工特征筛选，人工干预后得到目标特征。

在一个实施例中，利用数据集训练出第二风险评估模型，包括：

将数据集划分为训练集和验证集；

利用训练集对每个候选风险评估模型进行训练；

利用验证集对训练后的每个候选风险评估模型进行模型性能评估；

根据得到的模型性能评估结果从候选风险评估模型中选出性能最优的第二风险评估模型。

具体地，候选风险评估模型是基于不同神经网络结构构建的待选第二风险评估模型，用于基于平台商户的交易行为对平台商户的风险交易行为进行识别。

可以将数据集按照预设比例划分为训练集和验证集，预设比例例如为10:2、8:2等。训练集用于模型的训练，验证集用于模型效果评级及优化。

在一个具体实施例中，以第二交易数据为最近12个月内的交易数据为例，为了更好的区分评估模型的泛化能力，以自然月进行切分。根据第二交易数据中的前10个月的交易数据得到第一衍生特征数据，将第一衍生特征数据作为训练集用于模型训练。根据第二交易数据中的后2个月的交易数据得到第二衍生特征数据，将第二衍生特征数据作为验证集用于模型评估，能够很好的避免数据穿越导致对模型泛化能力产生影响，也能够更加客观准确的评估模型的效果。

不同的候选风险评估模型经过相同的训练集训练和相同的验证集进行评估，性能更优的候选风险评估模型为第二风险评估模型。

本实施例通过对不同的候选风险评估模型进行训练和性能评估，选出最优的候选风险评估模型，可以得到模型泛化能力优异以及性能稳定的第二风险评估模型。

在一个实施例中，候选风险评估模型包括基于XGBoost模型构建的候选风险评估模型、基于随机森林模型构建的候选风险评估模型和基于逻辑回归模型构建的候选风险评估模型；

模型性能评估结果包括模型的KS值、模型的AUC值以及模型性能稳定性。

具体地，XGBoost的基本组成元素是：决策树；这些决策树共同组成了XGBoost。组成XGBoost的决策树之间是有先后顺序的；后一棵决策树的生成会考虑前一棵决策树的预测结果，即将前一棵决策树的偏差考虑在内。

新样本依次进入XGBoost的每棵决策树。经过第一棵决策树得到一个预测值；经过第二棵决策树得到另一个预测值，依次类推，直到进入完所有决策树。最后，将所有决策树中的预测值相加，即为最后预测结果。

随机森林模型是多棵决策树集成的，是利用多棵决策树对样本进行训练并实现预测功能的一种分类器。随机森林的输出的类别是由个别决策树输出的类别的众数而定。

基于逻辑回归模型即Logistic Regression模型，虽然被称为回归，但其实际上是分类模型，并常用于二分类。Logistic回归的本质是：假设数据服从这个分布，然后使用极大似然估计做参数的估计。

表1为在一个具体实施例中对上述三类候选风险评估模型进行训练和评估的对比效果：

表1

三个模型经多次迭代调优以后，XGBoost算法模型KS值、AUC以及稳定性均能够达到比较好的水平，其中训练集训练模型时XGBoost模型的AUC为0.9129，KS值为0.4334。应用验证集进行模型泛化能力评估时，XGBoost模型AUC达到0.9107，KS值为0.4327；模型验证集上AUC与训练集的AUC相比仅仅是小幅度的下降，表明模型泛化能力以及稳定性都比较强，在新数据上仍具有较好的性能。

通过对比逻辑回归、随机森林以及XGBoost模型准确率及KS值，XGBoost算法模型均优于其他模型，并且能够解决运行效率低和扩展性差的问题，进行多线程优化，降低模型误差并提高模型精度；因此，选用XGBoost模型构建的候选风险评估模型作为第二风险评估模型。

其中，AUC为判断分类器(预测模型)优劣的标准。AUC值越大的分类器，正确率越高。

KS(Kolmogorov-Smirnov)：KS用于模型风险区分能力进行评估，指标衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大，KS指标越大，那么模型的风险区分能力越强。

使用同一个指标在训练集和验证集上的变动百分比来指示模型性能稳定性。例如，表1中的-0.16％＝(0.4327-0.4334)/0.4327；-0.24％＝(0.9107-0.9129)/0.9107。表1中其他百分比依次类推计算得到。

本实施例通过比较三种不同的候选风险评估模型的KS值、模型的AUC值以及模型性能稳定性，综合选出各项指标均优异的候选风险评估模型。

在一个具体实施例中，第二风险评估模型是基于XGBoost算法模型构建的。XGBoost算法模型是在GBDT模型的基础上优化改良而来，主要对缺失值和目标函数的处理方式进行调优。从目标函数的表达式来看，XGBoost对目标函数的损失函数进行二阶Taylor展开时，保留了更多目标函数相关的信息。与此同时，目标函数也新增了分支节点权重的正则化，使模型具有更小的方差，进而对模型的性能和效果均有大幅提升。

使用XGBoost算法模型可以解决运行效率低和扩展性差的问题：通过大量的论证与调研以及同逻辑回归、随机森林等算法模型对比，从分类效果、模型稳定性、准确率、业务解释等几个维度来看，面对电商平台规模庞大、正样本稀疏等业务场景，尤其是当客户的欺诈手法和模式发生变化时，XGBoost算法模型泛化能力和相应速度效果相比其他常规机器学习算法模型会更加出众，所以选择XGBoost算法模型进行区分客户交易行为是否合规，具有重要实际应用价值。

在一个实施例中，步骤S400具体包括：若同一个待评估的平台商户对应的第一评估结果和第二评估结果均指示待评估的平台商户为可疑商户，则将待评估的平台商户判定为平台风险商户；

或；

第一评估结果包括对应的平台商户为风险商户的第一概率，第二评估结果包括对应的平台商户为风险商户的第二概率；

步骤S400具体包括：对同一个待评估的平台商户对应的第一概率和第二概率进行加权求和，根据加权求和结果，判定待评估的平台商户是否为平台风险商户。

具体地，对于同一个待评估的平台商户而言，如果其对应的第一评估结果和第二评估结果均指示该待评估的平台商户为可疑商户，则可以判定该待评估的平台商户为平台风险商户。

对于同一个待评估的平台商户而言，如果其对应的第一评估结果和第二评估结果中的任意一个指示该待评估的平台商户为可疑商户，则可以判定该待评估的平台商户为可疑商户。当然，根据分类的种类，可以对该待评估的平台商户做更细粒度的分类。

在另一个具体实施例中，第一风险评估模型和第二风险评估模型的分类种类相同，则第一风险评估模型会输出每个分类的第一概率，第二风险评估模型会输出每个分类的第二概率。

对第一风险评估模型和第二风险评估模型中相同分类的第一概率和第二概率加权求和，可以得到在该分类的加权概率，加权概率即为加权求和结果。根据加权概率可以确定对应平台商户的分类。其中，不同分类均使用同一组权重，对于两个模型，权重的设置可以根据实际应用场景配置，本申请对此不做限制。

在一个具体实施例中，如果为风险商户的加权求和结果超过概率阈值，则判定待评估的平台商户判定为平台风险商户。

在另一个具体实施例中，分类包括风险商户和其他分类。例如分类包括风险商户、重度可疑商户、中度可疑商户、轻度可疑商户和非风险商户等不局限于此。

计算出每个分类的加权概率，将最高加权概率所对应的分类作为对应平台商户的分类。例如，如果最高加权概率对应的分类为风险商户，则对应平台商户为风险商户。

本实施例实现了通过不同的判定规则结合第一评估结果和第二评估结果对平台商户的分类进行精准评估。

本申请的风险团伙的识别方案可以应用于各种金融场景，例如用于对银行转账、保险投保、灵活用工平台的工资发放、信用卡交易、线上商品买卖、网上投资等各种经济行为的监督和管控，可以有效识别并打击专职不法资金过渡。

参考图4，本申请还提供了一种风险团伙的识别装置，该装置包括：

第一评估模块100，用于将平台商户的企业基础数据作为第一风险评估模型的输入，通过第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；

第一数据获取模块200，用于获取平台商户在平台上第一预设时间段内的第一交易数据，根据第一交易数据得到关键特征数据；

第二评估模块300，用于将关键特征数据作为第二风险评估模型的输入，通过第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；

风险判定模块400，用于根据第一评估结果和第二评估结果，确定平台风险商户；

关系网构建模块500，用于根据平台商户的历史交易数据构建交易关系网，交易关系网包括交易双方信息；

风险团伙确定模块600，用于根据交易关系网，确定与平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

在一个实施例中，该装置还包括：

第二数据获取模块，用于抽取平台商户在平台上第二预设时间段内的第二交易数据；

特征衍生模块，用于结合RFM模型，根据第二预设时间段内的第二交易数据进行特征数据衍生，得到衍生特征数据；

特征筛选模块，用于基于特征工程，根据衍生特征数据进行特征筛选，得到目标特征，基于目标特征构建数据集；

模型训练模块，用于利用数据集训练出第二风险评估模型。

在一个实施例中，特征筛选模块具体包括：

第一特征筛选模块，用于基于AUC对衍生特征数据进行单特征粗粒度的第一筛选，得到第一候选特征；

第二特征筛选模块，用于基于XGB特征重要性对第一候选特征进行第二筛选，得到第二候选特征；

第三特征筛选模块，用于基于递归特征消除对第二候选特征进行用于迭代特征筛选的第三筛选，将得到第四候选特征作为目标特征。

在一个实施例中，模型训练模块具体包括：

数据划分模块，用于将数据集划分为训练集和验证集；

训练模块，用于利用训练集对每个候选风险评估模型进行训练；

验证模块，用于利用验证集对训练后的每个候选风险评估模型进行模型性能评估；

优选模块，用于根据得到的模型性能评估结果从候选风险评估模型中选出性能最优的第二风险评估模型。

在一个实施例中，风险判定模块400，具体用于若同一个待评估的平台商户对应的第一评估结果和第二评估结果均指示待评估的平台商户为可疑商户，则将待评估的平台商户判定为平台风险商户；

或；

风险判定模块400，具体用于对同一个待评估的平台商户对应的第一概率和第二概率进行加权求和，根据加权求和结果，判定待评估的平台商户是否为平台风险商户。

在一个实施例中，关系网构建模块500具体包括：

提取模块，用于从历史交易数据中提取出交易用户实体、交易时间、交易金额、交易类型，其中，交易用户实体包括平台商户和与平台商户进行交易往来的交易对手；

构建模块，用于通过知识图谱技术构建图谱形式的交易关系网，其中，交易关系网包括平台商户与交易对手之间的第一实体关系以及平台商户与交易行为数据之间的第二实体关系。

图5示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端，也可以是服务器。如图5所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述方法实施例中的各个步骤。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行上述方法实施例中的各个步骤。本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提出了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

根据第一评估结果和第二评估结果，确定平台风险商户；

在一个实施例中，提出了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行以下步骤：

根据第一评估结果和第二评估结果，确定平台风险商户；

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种风险团伙的识别方法，其特征在于，所述方法包括：

将平台商户的企业基础数据作为第一风险评估模型的输入，通过所述第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；

获取平台商户在平台上第一预设时间段内的第一交易数据，根据所述第一交易数据得到关键特征数据；

将所述关键特征数据作为第二风险评估模型的输入，通过所述第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；

根据所述第一评估结果和第二评估结果，确定平台风险商户；

根据平台商户的历史交易数据构建交易关系网，所述交易关系网包括交易双方信息；

根据所述交易关系网，确定与所述平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

2.根据权利要求1所述的方法，其特征在于，在通过所述第二风险评估模型对每个平台商户进行风险交易行为识别之前，所述方法还包括：

抽取平台商户在平台上第二预设时间段内的第二交易数据；

基于特征工程，根据所述衍生特征数据进行特征筛选，得到目标特征，基于所述目标特征构建数据集；

利用所述数据集训练出所述第二风险评估模型。

3.根据权利要求2所述的方法，其特征在于，所述基于特征工程，根据所述衍生特征数据进行特征筛选，得到目标特征，包括：

基于AUC对所述衍生特征数据进行单特征粗粒度的第一筛选，得到第一候选特征；

基于XGB特征重要性对所述第一候选特征进行第二筛选，得到第二候选特征；

基于递归特征消除对所述第二候选特征进行用于迭代特征筛选的第三筛选，将得到第四候选特征作为目标特征。

4.根据权利要求2所述的方法，其特征在于，所述利用所述数据集训练出所述第二风险评估模型，包括：

将所述数据集划分为训练集和验证集；

利用所述训练集对每个候选风险评估模型进行训练；

利用所述验证集对训练后的每个候选风险评估模型进行模型性能评估；

根据得到的模型性能评估结果从所述候选风险评估模型中选出性能最优的第二风险评估模型。

5.根据权利要求4所述的方法，其特征在于，所述候选风险评估模型包括基于XGBoost模型构建的候选风险评估模型、基于随机森林模型构建的候选风险评估模型和基于逻辑回归模型构建的候选风险评估模型；

所述模型性能评估结果包括模型的KS值、模型的AUC值以及模型性能稳定性。

6.根据权利要求1所述的方法，其特征在于，所述根据所述第一评估结果和第二评估结果，确定平台风险商户，包括：若同一个待评估的平台商户对应的第一评估结果和第二评估结果均指示所述待评估的平台商户为可疑商户，则将所述待评估的平台商户判定为平台风险商户；

或；

所述第一评估结果包括对应的平台商户为风险商户的第一概率，所述第二评估结果包括对应的平台商户为风险商户的第二概率；

所述根据所述第一评估结果和第二评估结果，确定平台风险商户，包括：对同一个待评估的平台商户对应的第一概率和第二概率进行加权求和，根据加权求和结果，判定所述待评估的平台商户是否为平台风险商户。

7.根据权利要求1所述的方法，其特征在于，所述根据平台商户的历史交易数据构建交易关系网，包括：

从历史交易数据中提取出交易用户实体、交易时间、交易金额、交易类型，其中，所述交易用户实体包括平台商户和与所述平台商户进行交易往来的交易对手；

通过知识图谱技术构建图谱形式的交易关系网，其中，所述交易关系网包括平台商户与交易对手之间的第一实体关系以及平台商户与交易行为数据之间的第二实体关系。

8.一种风险团伙的识别装置，其特征在于，所述装置包括：

第一评估模块，用于将平台商户的企业基础数据作为第一风险评估模型的输入，通过所述第一风险评估模型对每个平台商户进行企业资质评级，得到每个平台商户的第一评估结果；

第一数据获取模块，用于获取平台商户在平台上第一预设时间段内的第一交易数据，根据所述第一交易数据得到关键特征数据；

第二评估模块，用于将所述关键特征数据作为第二风险评估模型的输入，通过所述第二风险评估模型对每个平台商户进行风险交易行为识别，得到每个平台商户的第二评估结果；

风险判定模块，用于根据所述第一评估结果和第二评估结果，确定平台风险商户；

关系网构建模块，用于根据平台商户的历史交易数据构建交易关系网，所述交易关系网包括交易双方信息；

风险团伙确定模块，用于根据所述交易关系网，确定与所述平台风险商户关联的疑似风险商户，并将关联的平台风险商户和疑似风险商户确定为疑似风险团伙。

9.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，其特征在于，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。