CN114331463A

CN114331463A - 基于线性回归模型的风险识别方法及其相关设备

Info

Publication number: CN114331463A
Application number: CN202111261413.1A
Authority: CN
Inventors: 王丽虹; 刘玲; 田鸥; 文广明; 李菲; 张玉霞
Original assignee: Ping An Bank Co Ltd
Current assignee: Ping An Bank Co Ltd
Priority date: 2021-10-28
Filing date: 2021-10-28
Publication date: 2022-04-12

Abstract

本申请实施例属于大数据技术领域和人工智能领域，应用于智慧金融领域中，涉及一种基于线性回归模型的风险识别方法，包括根据预设的线性回归模型获取目标商户的商户属性信息，通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系，根据商户分类结果和目标商户间的交易关系，确定风险商户。本申请还提供一种基于线性回归模型的风险识别装置、计算机设备及存储介质。此外，本申请还涉及区块链技术，目标商户的商户属性信息可存储于区块链中。本申请结合线性归回模型和社区算法模型的方式将繁杂的商户属性信息的双重统计分析来识别风险商户，减少误判误杀，提高识别准确率。

Description

基于线性回归模型的风险识别方法及其相关设备

技术领域

本申请涉及大数据技术领域和人工智能技术领域，尤其涉及基于线性回归模型的风险识别方法及其相关设备。

背景技术

在全球经济形势复杂化的背景下，欺诈者组织虚假的外汇交易平台，利用外汇交易高杠杆、可卖空套利的噱头，并借助银行收单机构进行资金结算，吸引不明真相的投资者向平台充值交易本金，最后通过控制交易价格造成客户投资损失，或者限制客户提现，甚至直接卷款跑路的方式，在给投资人造成本金损失的同时，也给银行收单业务带来重大负面影响。例如，常见的外汇资金盘，外汇资金盘是指利用虚假外汇资金交易平台诈骗客户资金，是一种常见的庞氏骗局式的诈骗手法。

目前行业对收单商户的风险侦测主要以黑名单和专家经验模型为主。行内自有积累的黑名单有限，同时外部合作单位提供黑名单的准确性无法保证，会导致误杀误判，严重影响优质客户体验。业务专家经验是针对历史诈骗客户进行总结和提炼，主要依赖专家经验，经验不足容易导致“管窥蠡测”的局限性并存在一定滞后性，难以满足新形势下的合规管理要求。

可见，当前外汇资金盘的风险识别准确性和适应能力存在局限性，且识别效率低。

发明内容

本申请实施例的目的在于提出一种基于线性回归模型的风险识别方法及其相关设备，以解决当前外汇资金盘的风险识别准确性和适应能力存在局限性，且识别效率低。

为了解决上述技术问题，本申请实施例提供一种基于线性回归模型的风险识别方法，采用了如下所述的技术方案：

一种基于线性回归模型的风险识别方法，其特征在于，包括下述步骤：

根据预设的线性回归模型获取目标商户的商户属性信息，其中，预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户；

通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系；

根据商户分类结果和目标商户间的交易关系，确定风险商户。

为了解决上述技术问题，本申请实施例还提供一种基于线性回归模型的风险识别装置，包括：

获取模块，用于根据预设的线性回归模型获取目标商户的商户属性信息，其中，预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户；

分类模块，用于通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系；

风险模块，用于根据商户分类结果和目标商户间的交易关系，确定风险商户。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，存储器中存储有计算机可读指令，处理器执行计算机可读指令时实现上述基于线性回归模型的风险识别方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机可读指令，计算机可读指令被处理器执行时实现上述基于线性回归模型的风险识别方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：

通过从复杂多样的商户交易信息中筛选出符合线性关系的关系商户，并采用线性回归模型来获取商户信息，有利于对繁杂无规律的商户属性信息进行有效统计，使得提取的商户属性信息具有可靠性；采用社区算法模型对所提取的商户信息进行分类，并确定目标商户间的交易关系，即使是面对随机无规则的商户信息，社区算法模型也可以快速有效的建立不同目标商户间的交易关系，使得对风险商户的识别更加精准和高效，本申请通过线性归回模型和社区算法模型相结合的方式将繁杂的商户属性信息通过双重统计分析来识别风险商户，减少误判误杀，提高识别准确率，且适应于各种交易情景下，同时，避免了以往依靠业务专家经验存在的局限性和滞后性问题，提高了风险识别的效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2根据本申请的基于线性回归模型的风险识别方法的一个实施例的流程图；

图3是某收单机构金额与外汇币种的汇率关系的一实施例示意图；

图4是本申请实施例中社区节点分类结果的一实施例示意图；

图5是本申请实施例中交易社区风险客户示的示意图；

图6是本申请的基于线性回归模型的风险识别装置的一个实施例的结构示意图；

图7是申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture E基于线性回归模型的风险识别perts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture E基于线性回归模型的风险识别perts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

需要说明的是，本申请实施例所提供的基于线性回归模型的风险识别方法一般由服务器/终端设备执行，相应地，基于线性回归模型的风险识别装置一般设置于服务器/终端设备中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于线性回归模型的风险识别的方法的一个实施例的流程图。所述的基于线性回归模型的风险识别方法，包括以下步骤：

S201：根据预设的线性回归模型获取目标商户的商户属性信息，其中，预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户。

在本实施例中，基于线性回归模型的风险识别方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收获取商户属性信息的请求。需要指出的是，上述无线连接方式可以包括但不限于3G/4G/5G连接、WiFi连接、蓝牙连接、WiMA基于线性回归模型的风险识别连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，从外汇交易平台接收商户交易信息和商户所属行业的行业交易信息，此处的商户可以指收单机构；从商户交易信息中筛选出符合任一筛选条件的商户作为关系商户，其中，筛选条件可以包括但不限于商户的收单金额与外汇币种的汇率关系、商户的交易时间与交易频次关系、商户的交易规模与交易频次关系等；结合商户的收单金额、交易时间、交易频次、交易规模、行业汇率等特征，采用线性预测函数建立线性回归模型，以计算得到关系商户的线性分数值，将线性分数值大于预设线性分数阈值的关系商户作为目标商户，并获取该目标商户的商户属性信息，商户属性信息包括商户基本信息、商户交易信息、商户评分值，商户基本信息包括商户成立年限、行业类型、同法人名下企业数量、注吊数量及比例等，商户交易信息包括目标商户的收单金额、收单时间、交易时间、交易频次、交易规模等，商户评分值指每个商户交易信息类型分别对应的分值。

进一步地，根据预设的线性回归模型获取目标商户的商户属性信息的步骤具体包括：

获取关系商户的交易分类结果和行业交易分类结果；

将关系商户的交易分类结果和行业交易分类结果输入到预设的线性回归模型中进行线性回归计算，以得到关系商户的评分值；

从关系商户的评分值和关系商户的商户属性信息确定目标商户的商户属性信息。

在本申请实施例中，根据预设的收单时间区间对关系商户的收单金额和收单笔数进行切分，以得到该关系商户每个时间区间对应的交易分类结果，其中，关系商户的交易分类结果包括时间区间内关系商户的收单金额或者收单笔数等；根据时间周期对行业收单金额和行业收单笔数进行切分，以得到行业交易分类结果，其中，行业分类结果为时间周期内的行业收单金额和行业收单笔数。

进一步地，获取关系商户的交易分类结果和行业交易分类结果的步骤具体包括：

获取交易信息，其中，交易信息包括商户交易信息和行业交易信息；

根据预设的线性关系，从商户交易信息中筛选出关系商户；

基于时间间区，对关系商户的交易信息和行业交易信息进行切分，以确定关系商户的交易分类结果和行业交易分类结果。

具体地，从外汇交易平台接收包括但不限于商户工商、每个商户所进行交易的收单金额、收单时间、交易时间、交易频次、交易规模等商户交易信息，以及商户所属行业的行业汇率、行业收单金额、行业收单笔数等行业交易数据。

在本申请实施例中，可以将商户的商户交易信息中的收单金额与外汇币种的汇率之间的线性关系作为筛选条件，即将成线性关系的商户作为关系商户，如图3所示的某收单机构金额与外汇币种的汇率关系的一实施例示意图，其中，横轴表示外汇币种的汇率，纵轴表示收单金额。

根据预设的收单时间区间对关系商户的交易信息切分，例如对关系商户的交易信息为收单金额和收单笔数进行切分，时间区间可以为0点—6点、6点—7点，7点—8点等；同时，对行业交易信息中的收单金额、收单笔数按照当地同行业收单的时间周期切分，时间周期为日、月或年。

通过获取商户交易信息和行业交易信息，根据预设的线性关系，从商户交易信息中筛选出关系商户，对关系商户的交易信息和行业交易信息进行切分，以确定关系商户分类结果和行业交易分类结果，实现数据清洗的效果，排除无关数据的干扰，为后续商户风险的识别提供高质量的数据基础，进而提高风险识别的准确率。

需要说明的是，在进行线性回归模型计算之前，预先计算关系商户的交易分类结果和行业交易分类结果的偏差程度，关系商户的交易分类结果和行业交易分类结果的偏差程度越大，说明该关系商户的交易关系异常，偏差程度可以是通过上述两者间的绝对偏差、标准偏差或相对偏差的任意一种来表示，例如，用绝对偏差来表示偏差程度，可以将时间区间内关系商户的收单金额与同一时间区间内的的行业平均收单金额的偏差，或者将时间区间内关系商户的收单笔数与同一时间区间内的的行业平均收单笔数的偏差。

其中，预设的线性回归模型包括预先设定的各种属性评分值，属性评分值包括但不限于各个时间区间内关系商户的收单金额分别对应的评分值、关系商户收单金额与某币种成比例的总金额占比所对应的评分值、以及偏差程度对应的评分值等。

通过预先设定的各种属性评分值来匹配每个关系商户各自包括的各个属性评分值，并将匹配到的属性评分值代入到线性回归模型的线性公式中进行线性回归计算，以计算得到每个关系商户的评分值，其中，线性公式如公式(1)所示：

y_i＝ax₁+bx₂+cx₃+ε_i公式(1)

其中，y_i表示第i个关系商户的评分值；

x₁表示关系商户收单金额与某币种成比例的总金额占比对应评分值；

x₂表示关系商户每天各个时间段收单金额对应的评分值；

x₃表示关系商户每天偏离同行业程度的评分值；

ε_i表示残差项；

a、b、c是通过对商户实际情况分析及线性回归模型训练后得到的固定参数值。

在线性回归模型中第i个关系商户的评分值y_i随着x₁、x₂以及x₃每变化一单位而变化，即当控制其中的指标变量不变时，例如控制x₁和x₂不变，可以观察到x₃每增加1单位，y_i的增加值为c，即可以以此衡量y与x之间的变化关系，进而建立线性回归模型。

其中，当从交易信息中筛选出关系商户时，从外汇交易平台中获取该关系商户的商户属性信息，关系商户的商户属性信息包括商户成立年限、行类型、同法人名下企业数、注吊数量及比例等。

具体地，当关系商户的评分值满足预设区间范围，并且关系商户的商户属性信息满足预设的商户属性条件时，将该关系商户确定为目标商户，目标商户为风险评估的数据对象。预设的商户属性条件可以是商户成立年限是否小于预设年限、同法人名下企业数量是否短时间内增长、注销/吊销的数量及比例是否异常等。预设区间范围用于过滤低评分值的关系商户。其中，目标商户的商户属性信息包括商户成立年限、行类型、同法人名下企业数、注吊数量及比例以及目标商户的评分值等。进一步地，若关系商户中存在预设黑名单中的商户，则可直接确定该关系商户为目标商户。

进一步地，从关系商户的评分值和关系商户的商户属性信息确定目标商户的商户属性信息的步骤具体包括：

当关系商户的评分值满足预设区间范围时，确定该关系商户为有效的关系商户；

根据有效的关系商户携带的商户属性信息，确定有效的关系商户的清洗方式；

若该有效的关系商户经过清洗方式筛选后确定为目标商户，则将该有效的关系商户对应的评分值作为目标商户的评分值。

需要说明的是，由于关系商户的商户属性信息为各个维度的数据，且分布在不同的系统和表，其数据类型复杂多样，导致关系商户中存在无效的关系商户，而无效的关系商户会影响风险评估的计算量和准确率。因此，在确定风险商户之前采用预设的清洗方式来实现对关系商户所有维度的数据进行清洗，清洗是指将一些脏数据/异常数据进行处理，不同的异常维度数据处理方式不同。

因此，将关系商户的评分值满足预设区间范围的关系商户作为有效的关系商户，其中，预设区间范围可以根据实际情况进行设置；根据筛选出来的有效的关系商户携带的商户属性信息，确定有效的关系商户的清洗方式；通过清洗方式从关系商户中确定出无效用户，进而筛选出剩余的有效的关系商户，并将该有效的关系商户作为目标商户，将此时有效的关系商户对应的评分值作为目标商户的评分值，即目标商户的商户属性信息还包括目标商户的评分值，进而构建了商户行为评分体系，该商户评分体系包括目标商户、目标商户的商户属性信息以及目标商户之间的关联关系等。

具体地，当关系商户的商户属性信息为商户成立年限(法人年龄)时，清洗方式为将法人年龄超过100岁的或者成立年限缺失的关系商户视为无效的关系商户；当关系商户的商户属性信息为交易金额时，清洗方式为将交易金额负的关系商户视为无效的关系商户；当关系商户的商户属性信息为风险得分偏离同行业(年限)均值或者75％时，视该商户为无效的关系商户，并对无效的关系商户进行删除或者均值填补等。

在本申请实施例中将线性回归模型得到的关系商户的评分值经过清洗以及结合商户属性信息(工商信息)的综合应用，进而搭建了商户行为评分体系，即通过数据的清洗降噪和筛选，进一步确定了目标商户的评分值，为后续目标商户的风险分析提供更可靠的数据基础。

S202：通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系。

其中，商户分类结果为目标商户的风险类型，交易关系为不同目标商户之间的关联关系。社区算法模型可定义为一种社区检测(Community Detection)算法，用来发现网络中的社区结构，也可以视为一种广义的聚类算法。一个网络中包括多个社区，社区可以定义为节点的子集，即社区是一个子图，该子图包括顶点和边，同一社区的节点之间紧密相连，不同社区间的节点松散相连。如果商户间有频繁的交易活动，那么两者之间的交易关系越密切，而密切的交易关系往往蕴含着潜在的异常交易风险因素，因此，本申请通过社区算法模型来分析目标商户见的交易关系和目标商户的风险类型。

预设的社区算法模型可以包括但不限于LPA(Label Propagation Algorithm，标签传播算法)、GN(算法Girvan-Newman，一种分裂算法)和Louvain算法模型(也叫Fast-Unfolding，一种迭代算法)，Louvain算法是基于模块度(Modularity)的社区发现算法，该算法在效率和效果上都表现比较好，并且能够发现层次性的社区结构，其优化的目标是最大化整个图属性结构(社区网络)的模块度。模块度(Modularity)是一种评估社区网络划分好坏的度量指标，它的物理含义是社区内节点的连边数与随机情况下的边数之差，它的取值范围是[-0.5，1)。本申请采用Louvain算法模型将上述筛选得到的目标商户的商户属性信息及交易关系在图谱中划分为若干个社区，即若干个客群，每个社区代表的客群包括多个目标商户，目标商户间的交易关系构成了每个社区的各条边，并通过计算模块度来不断迭代和优化社区，其模块度的计算公式如公式(2)和(3)所示：

其中，c_i表示节点i所属的社区，c_j表示节点j所属的社区，A_ij表示节点i和节点j之间边的权重，k_i＝∑_jA_ij表示所有与节点i相连的边的权重之和，k_j＝∑_iA_ij表示所有与节点j相连的边的权重之和，m＝0.5×∑_ijA_ij表示所有边的权重之和。上面模块度的计算公式还可以简化为公式(4)：

其中，∑in表示社区c内的边权重之和，∑tot表示与社区c内的节点相连的边的权重之和。e_c表示实际情况下，c社区内产生边的概率；

表示在一种理想情况下，给定任意节点i的度k_i，对节点i和节点j进行随机连边，边属于社区c的概率期望。总的来说，公式(4)式表示社区内连边数与随机期望的一个差值。连边数比随机期望值越高，表明社区划分的越好。

每次改变目标商户在社区中的节点连接位置时，计算当前的模块度，并比较模块度前后变化大小，直到该社区的模块度大小不再变化时，停止分配目标商户在社区中的位置，并将此时的社区作为最终优化后的社区，根据社区上的节点连接边的权重来决定目标用户的风险类型。基于Louvain算法模型实现可疑交易的实时、准实时监测防控。

进一步地，通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系的步骤具体包括：

根据目标商户构建社区，每一目标商户对应一个节点；

按照商户属性信息和预设的社区算法模型计算每个节点的社区模块度，其中，社区模块度为评估每个节点所在的社区网络划分好坏的度量指标；

依据每个节点的社区模块度的变化值来调整社区的节点关系；

当所有节点的社区模块度不再变化时，确定此时所有节点所属的社区作为社区分类结果，其中，社区分类结果包括目标商户对应的商户分类结果以及商户间的交易关系。

初始建立图时，将图中的每个节点看成一个独立的社区，社区的数目与节点个数相同，即将每个目标商户初始化为每个节点，并将此时的每个节点作为每个社区。其中，目标商户的商户属性信息中的商户评分值作为社区节点对应的权重。

对每个节点i，依次尝试把节点i分配到其每个邻居节点j所在的社区，例如整个图中有a，b，c三个节点，当以a节点作为第一个节点，b节点和c节点分别为a节点的邻居节点，此时将a节点与b节点连边，以及将a节点与c节点连边，即此时a节点完成了对邻居节点的分配；根据上述公式(2)和公式(3)或者直接采用公式(4)分别计算每个邻居节点分配前的模块度Q_i与分配后的模块度Q_j。

计算分配前后模块度变化ΔQ＝Q_i-Q_j，并记录ΔQ最大的邻居节点，如果最大模块变化度大于0，即maxΔQ>0，则把节点i分配到ΔQ最大的那个邻居节点所在的社区，否则保持不变；不断重复上述分配邻居节点和计算邻居节点的模块度变化的方式，直到整个图中的所有节点的所属社区的模块度不再变化，则停止分配邻居节点。因此，每一轮迭代都会产出一个当前局部最优的社区结构，所以理论上，假如算法迭代了3次，我们可以得到3个不同粒度层次的社区结构，如图4所示，图4为社区节点分类结果的一实施例示意图，其中，虚线圈里的节点为同一个社区的节点。

通过社区学习算法模型计算得到多个社区分类结果，目标商户所属的社区呈现了不同节点中的权重以及商户间紧密的交易关系。

进一步地，在当所有节点的社区模块度不再变化时，确定此时所有节点所属的社区作为社区分类结果之后，所述方法还包括：

采用知识图谱工具对社区分类结果构建商户间的交易关系；

对商户间的交易关系中的每个节点进行标记，以得到商户分类结果。

当计算的社区模块度不再变化时，此时输出的各个社区分类结果仅仅体现的是各个客群中的目标商户之间的交易关系的紧密性(紧密性体现在图中节点之间的边的权重值)，并不能直接观察出各个目标商户所代表的商户类型和是否异常的交易关系，即无法得出商户的分类结果和商户间的交易关系，商户的分类结果可以包括但不限于正常商户节点、可疑欺诈商户节点和黑名单节点等。

进一步地，知识图谱可视化展示可以促使用户推断出新的连接关系，发现潜在的模式或问题，了解图谱结构，理解并纠正或修改连接方式、补全知识等。因此，通过借助知识图谱挖掘工具进一步挖掘社区分类结果，例如知识图谱工具可以采用FinGraph知识图谱系统(一种金融知识图谱平台系统)，FinGraph包含了10种实体、数亿节点。FinGraph知识图谱系统底层的数据整合层面进行信用数据、金融消费数据、行为数据、社交数据、网络安全、第三方数据等一些数据的整合，然后进行特征工程、模型开发、异常监控，应用场景有反欺诈、智能搜索、贷后管理、营销分析以及运营支撑等等，且常常服务于反欺诈。

通过计算得到的社区结果，将社区结果中的节点包括的商户属性信息作为风险评估规则的变量特征，根据这些变量特征来探索整体的客群特点，并通过自带的PageRank(网页排名)算法探索目标商户之间的关联关系，当PageRank值越高，目标用户资质就越差，可用于区分社区的节点类型，即可得到商户分类结果和商户间的交易关系。

具体地，通过FinGraph知识图谱系统对社区分类结果穿透视溯源，即包括可疑欺诈商户的交易对手、法人、注册地址、联系方式等相关信息，以此构建目标商户风险全维面貌，目标商户的风险全维面貌展示了已梳理好的目标商户的交易对手、法人姓名、注册地址、联系方式等变量特征，并通过FinGraph知识图谱系统计算目标商户的变量特征来得到每个目标商户的PageRank值，并通过知识图谱的方式将上述目标商户所在的节点类型和商户间的交易关系展示出来。如图5所示，图5为本申请实施例中交易社区风险客户示的示意图。

通过上述知识图谱工具对商户间的交易关系的梳理，以及目标商户的风险全维面貌的展示，可进一步确定判断商户分类结果。即可根据知识图谱工具展示后的节点内容对目标商户进行标记，以便于开展关联分析及进一步挖掘潜在风险团伙，从而实时评估每个目标商户的组团欺诈风险。

S203：根据商户分类结果和目标商户间的交易关系，确定风险商户。

由于社区的商户分类结果包括了正常商户节点、可疑欺诈商户节点和黑名单节点，即商户分类结果存在非风险商户的情况，因此需要进一步计算社区的风险概率，从而确定风险用户，以提高风险商户的识别准确率。

在本实施例的一些可选的实现方式中，上述S203中根据商户分类结果和目标商户间的交易关系，确定风险商户的步骤之前，还包括：

统计同一社区内可疑欺诈商户节点和黑名单节点的节点数总和作为异常节点总数m，以及统计同一社区的所有节点数n；

计算异常节点总数与所有节点数的占比值m/n；

若m/n大于预设的风险社区阈值，则确定该社区为风险社区。

其中，风险社区可以为可疑的外汇资金盘社区，预设的风险社区阈值的范围可以为(0.5，1)，实际需要结合业务对风险的容忍度来确定风险社区阈值，例如0.7或0.9等。通过对异常节点的占比值来确定风险社区，有利于精准定位可疑的外汇资金盘社区，进而缩小了排查风险商户的数量，提高了风险商户筛选的效率。

在本实施例的一些可选的实现方式中，上述S203中根据商户分类结果和目标商户间的交易关系，确定风险商户的步骤具体包括：

当根据商户分类结果确定社区为风险社区时；

根据风险社区中的目标商户间的交易关系，计算目标商户的风险概率；

当目标商户的风险概率大于预设的风险阈值时，确定该目标商户为风险商户。

取风险社区的一个可疑欺诈商户节点作为临近节点，基于该临近节点与同一社区的其他节点关系(目标商户间的交易关系)的紧密程度，判断风险社区临近节点的风险概率，其中，紧密程度可体现在知识图谱中展示的社区各个节点间的边的权重值，如果两节点间是直接相连，其关系紧密程度会比二度相连要高，例如图5中账号k与账号F的紧密程度要高于账号k与帐号M的紧密程度。

判断风险社区临近节点的风险概率主要是结合具体的交易关系(即社区关系)来确定风险概率的大小，可以是根据交易关系所对应的商户属性信息来计算风险概率，例如，节点A和节点B是属于同法人、同股东等强社区关系，其对应的风险概率会设置为0.9，即节点A和节点B的风险概率均为0.9；也可以是根据交易关系的交易类型来计算风险概率，当交易关系是互为交易对手类型的，还需要结合交易的频次、额度来确定风险概率值的大小，比如：节点C企业的总转出金额100万，转给节点A企业90万(风险概率0.9)，转给节点B企业10万(风险概率0.1)，则A的风险概率最高，以此类推。

风险概率区间一般情况下介于(0,1)，一开始通常为保证模型预警准确性，会偏向于保守一些，将风险概率阈值设置为大于0.9的数值，随着业务的发展和模型的迭代优化，风险阈值会放宽到0.8、甚至0.6。风险阈值的设置具体还需要结合业务对风险的容忍度及管控的力度来确定。

进一步地，在锁定风险用户以后，会先采取中止客户非柜面交易支付的措施，然后由客户经理对客户做现场或者电话远程尽调，如果客户无法提供足够的证明材料，证明交易没有问题的请情况下，会继续冻结客户交易，如果客户没有问题，接除管控措施，持续关注。

采用线性回归模型获取商户信息有利于对繁杂无规律的商户属性信息进行有效统计，使得提取的商户属性信息具有可靠性；采用社区算法模型对所提取的商户信息进行分类，并确定目标商户间的交易关系，即使是面对随机无规则的商户信息，社区算法模型也可以快速有效的建立不同目标商户间的交易关系，使得对风险商户的识别更加精准和高效，本申请通过线性归回模型和社区算法模型相结合的方式将繁杂的商户属性信息通过双重统计分析来识别风险商户，减少误判误杀，提高识别准确率，且适应于各种交易情景下，同时，避免了以往依靠业务专家经验存在的局限性和滞后性问题，提高了风险识别的效率。本申请属于智慧金融领域，通过本方案能够推动智慧城市的建设。

在一些可选的实现方式中，在S201为根据预设的线性回归模型获取目标商户的商户属性信息的步骤之后，上述电子设备可以执行以下步骤：

将目标商户的商户属性信息存储至区块链中。

需要强调的是，为进一步保证上述目标商户的商户属性信息的私密和安全性，上述目标商户的商户属性信息还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机可读指令来指令相关的硬件来完成，该计算机可读指令可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图6，作为对上述图2所示方法的实现，本申请提供了一种基于线性回归模型的风险识别装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例所述的基于线性回归模型的风险识别装置包括：获取模块601、分类模块602和风险模块603，其中，各模块具体包括：

获取模块601，用于根据预设的线性回归模型获取目标商户的商户属性信息，其中，预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户；

分类模块602，用于通过预设的社区算法模型，对商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系；

风险模块603，用于根据商户分类结果和目标商户间的交易关系，确定风险商户。

在本实施例的一些可选的实现方式中，获取模块601包括：

获取单元，用于获取关系商户的交易分类结果和行业交易分类结果；

评分单元，用于将关系商户的交易分类结果和行业交易分类结果输入到预设的线性回归模型中进行线性回归计算，以得到关系商户的评分值；

属性单元，用于从关系商户的评分值和关系商户的商户属性信息确定目标商户的商户属性信息。

在本实施例的一些可选的实现方式中，获取单元包括：

获取子单元，用于获取交易信息，其中，交易信息包括商户交易信息和行业交易信息；

筛选子单元，用于根据预设的线性关系，从商户交易信息中筛选出关系商户；

切分子单元，用于基于时间间区，对关系商户的交易信息和行业交易信息进行切分，以确定关系商户的交易分类结果和行业交易分类结果。

在本实施例的一些可选的实现方式中，分类模块602包括：

节点单元，用于根据目标商户构建社区，每一目标商户对应一个节点；

计算单元，用于按照商户属性信息和预设的社区算法模型计算每个节点的社区模块度，其中，社区模块度为评估每个节点所在的社区网络划分好坏的度量指标；

调整单元，用于依据每个节点的社区模块度的变化值来调整社区的节点关系；

社区分类单元，用于当所有节点的社区模块度不再变化时，确定此时所有节点所属的社区作为社区分类结果，其中，社区分类结果包括目标商户对应的商户分类结果以及商户间的交易关系。

在本实施例的一些可选的实现方式中，基于线性回归模型的风险识别装置还包括：

知识图谱模块，用于采用知识图谱工具对社区分类结果构建商户间的交易关系；

标记模块，用于对商户间的交易关系中的每个节点进行标记，以得到商户分类结果。

在本实施例的一些可选的实现方式中，基于线性回归模型的风险识别装置还包括风险社区模块，风险社区模块用于：

计算异常节点总数与所有节点数的占比值m/n；

若m/n大于预设的风险社区阈值，则确定该社区为风险社区。

在本实施例的一些可选的实现方式中，风险模块603包括：

风险计算单元，用于当根据商户分类结果确定社区为风险社区时，根据风险社区中的目标商户间的交易关系，计算目标商户的风险概率；

风险商户单元，用于当目标商户的风险概率大于预设的风险阈值时，确定该目标商户为风险商户。

在本实施例的一些可选的实现方式中，属性单元还用于：

存储模块，用于将目标商户的商户属性信息存储至区块链中。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图7，图7为本实施例计算机设备基本结构框图。

所述计算机设备7包括通过系统总线相互通信连接存储器71、处理器72、网络接口73。需要指出的是，图中仅示出了具有组件71-73的计算机设备7，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器71至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或D存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器71可以是所述计算机设备7的内部存储单元，例如该计算机设备7的硬盘或内存。在另一些实施例中，所述存储器71也可以是所述计算机设备7的外部存储设备，例如该计算机设备7上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器71还可以既包括所述计算机设备7的内部存储单元也包括其外部存储设备。本实施例中，所述存储器71通常用于存储安装于所述计算机设备7的操作系统和各类应用软件，例如基于线性回归模型的风险识别方法的计算机可读指令等。此外，所述存储器71还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器72在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器72通常用于控制所述计算机设备7的总体操作。本实施例中，所述处理器72用于运行所述存储器71中存储的计算机可读指令或者处理数据，例如运行所述基于线性回归模型的风险识别方法的计算机可读指令。

所述网络接口73可包括无线网络接口或有线网络接口，该网络接口73通常用于在所述计算机设备7与其他电子设备之间建立通信连接。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于线性回归模型的风险识别方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于线性回归模型的风险识别方法，其特征在于，包括下述步骤：

根据预设的线性回归模型获取目标商户的商户属性信息，其中，所述预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户；

通过预设的社区算法模型，对所述商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系；

根据所述商户分类结果和所述目标商户间的交易关系，确定风险商户。

2.根据权利要求1所述的基于线性回归模型的风险识别方法，其特征在于，所述根据预设的线性回归模型获取目标商户的商户属性信息的步骤具体包括：

获取关系商户的交易分类结果和行业交易分类结果；

3.根据权利要求2所述的基于线性回归模型的风险识别方法，其特征在于，所述获取关系商户的交易分类结果和行业交易分类结果的步骤具体包括：

获取交易信息，其中，所述交易信息包括商户交易信息和行业交易信息；

根据预设的线性关系，从所述商户交易信息中筛选出关系商户；

基于时间区间对关系商户的交易信息和行业交易信息进行切分，以确定关系商户的交易分类结果和行业交易分类结果。

4.根据权利要求2或3所述的基于线性回归模型的风险识别方法，其特征在于，所述目标商户的商户属性信息包括目标商户的评分值，所述从关系商户的评分值和关系商户的商户属性信息确定目标商户的商户属性信息的步骤具体包括：

5.根据权利要求1或2所述的基于线性回归模型的风险识别方法，其特征在于，所述通过预设的社区算法模型，对所述商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系的步骤具体包括：

根据目标商户构建社区，每一目标商户对应一个节点；

按照商户属性信息和预设的社区算法模型计算每个节点的社区模块度，其中，所述社区模块度为评估每个节点所在的社区网络划分好坏的度量指标；

6.根据权利要求1所述的基于线性回归模型的风险识别方法，其特征在于，所述商户分类结果包括了正常商户节点、可疑欺诈商户节点和黑名单节点，在所述根据所述商户分类结果和所述目标商户间的交易关系，确定风险商户之前，所述方法还包括：

计算异常节点总数与所有节点数的占比值m/n；

若m/n大于预设的风险社区阈值，则确定该社区为风险社区。

7.根据权利要求6所述的基于线性回归模型的风险识别方法，其特征在于，所述根据所述商户分类结果和所述目标商户间的交易关系，确定风险商户的步骤包括：

当根据商户分类结果确定社区为风险社区时，根据所述风险社区中的目标商户间的交易关系，计算目标商户的风险概率；

当所述目标商户的风险概率大于预设的风险阈值时，确定该目标商户为风险商户。

8.一种基于线性回归模型的风险识别装置，其特征在于，包括：

获取模块，用于根据预设的线性回归模型获取目标商户的商户属性信息，其中，所述预设的线性回归模型用于将符合线性关系的关系商户经过线性回归计算筛选出目标商户；

分类模块，用于通过预设的社区算法模型，对所述商户属性信息进行分类，以确定每个目标商户对应的商户分类结果以及目标商户间的交易关系；

风险模块，用于根据所述商户分类结果和所述目标商户间的交易关系，确定风险商户。

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于线性回归模型的风险识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于线性回归模型的风险识别方法的步骤。