CN113435900A

CN113435900A - 交易风险确定方法、装置和服务器

Info

Publication number: CN113435900A
Application number: CN202110783680.9A
Authority: CN
Inventors: 陈李龙; 王娜; 倪俊; 冯歆然
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2021-07-12
Filing date: 2021-07-12
Publication date: 2021-09-24

Abstract

本说明书提供了交易风险确定方法、装置和服务器。基于该方法，具体实施前，可以充分、有效地利用聚类中心点与样本数据之间的流形信息，根据预设的聚类和流形规则，通过半监督学习，训练得到预设的风险确定模型；具体实施时，可以先获取目标交易数据，以及与目标交易数据相关的目标关联数据；再根据上述目标交易数据和目标关联数据，提取出所需要的目标特征；进而可以调用上述预设的风险确定模型处理上述目标特征，以输出对应的目标处理结果；根据目标处理结果确定目标交易数据是否存在预设的交易风险。从而可以快速地训练得到精度较高的预设的风险确定模型，并基于该模型准确地预测出目标交易数据是否存在预设的交易风险。

Description

交易风险确定方法、装置和服务器

技术领域

本说明书属于人工智能技术领域，尤其涉及交易风险确定方法、装置和服务器。

背景技术

在交易数据处理场景中，常常需要先耗费大量的计算资源和时间训练得到用于预测交易风险的模型，再利用该模型来处理交易数据以检测交易数据是否存在相应的交易风险。

但是，基于现有方法，在训练模型时往往存在训练效率较低、训练精度较差等问题，进而导致基于上述模型进行交易风险预测时容易出现误差，影响交易风险确定的准确度。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本说明书提供了一种交易风险确定方法、装置和服务器，以快速地训练得到精度较高的预设的风险确定模型，并基于该模型准确地预测出目标交易数据是否存在预设的交易风险。

本说明书提供了一种交易风险确定方法，包括：

获取目标交易数据，以及与目标交易数据相关的目标关联数据；

根据所述目标交易数据、目标关联数据，提取得到目标特征；

调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；

根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

在一些实施例中，所述目标关联数据包括以下至少之一：目标交易数据所涉及的交易对象的用户信息、目标交易数据的交易媒介、目标交易数据的交易附言。

在一些实施例中，所述方法还包括：

获取样本数据集；其中，所述样本数据集包括有标签的样本数据集和无标签的样本数据集；

对所述样本数据集进行聚类处理，得到聚类中心集；

根据所述聚类中心集，构建基于聚类和流形的目标函数；

利用所述目标函数和所述样本数据集，进行模型训练，以得到预设的风险确定模型。

在一些实施例中，对所述样本数据集进行聚类处理，得到聚类中心集，包括：

调用KNN聚类模型处理所述样本数据集，以得到对应的聚类中心集；其中，所述聚类中心集包含有预设个数个聚类中心点。

在一些实施例中，根据所述聚类中心集，构建基于聚类和流形的目标函数，包括：

根据聚类中心集和样本数据集，计算局部权重矩阵和样本距离矩阵；

根据所述局部权重矩阵，构建聚类流形第一正则化项；根据所述局部权重矩阵和样本距离矩阵，构建聚类流形第二正则化项；

根据所述聚类流形第一正则化项和所述聚类流形第二正则化项，构建得到目标函数。

在一些实施例中，根据聚类中心集和样本数据集，计算局部权重矩阵，包括：

按照以下算式，计算权重系数，作为局部权重矩阵中的矩阵元素：

其中，z_i,j为x_i与u_j之间的权重系数，x_i为编号为i的样本数据，u_j为编号为j的聚类中心点，d(x_i,u_j)为x_i与u_j之间的距离，k为聚类中心集中所包含的聚类中心点的总数。

在一些实施例中，根据所述局部权重矩阵，构建聚类流形第一正则化项，包括：

按照以下算式，构建聚类流形第一正则化项：

其中，R₁为第一正则化项参数，x_i为编号为i的样本数据，u_j为编号为j的聚类中心点，z_i,j为x_i与u_j之间的权重系数，D_l为有标签的样本数据集，D为样本数据集，y_i为x_i的标签，f(x_i)为x_i的模型输出值，f(u_j)为u_j的模型输出值，U为聚类中心集。

在一些实施例中，根据所述局部权重矩阵和样本距离矩阵，构建聚类流形第二正则化项，包括：

按照以下算式，构建聚类流形第二正则化项：

其中，R₂为第二正则化项参数，x_i为编号为i的样本数据，x_m为编号为m的样本数据，w_i,m为基于样本距离矩阵得到的x_i与x_m之间的距离，z_i,j为x_i与u_j之间的权重系数，z_m,j为x_m与u_j之间的权重系数。

在一些实施例中，根据所述聚类流形第一正则化项和所述聚类流形第二正则化项，构建得到目标函数，包括：

按照以下算式构建所述目标函数：

L＝R_emp+α·R₁+β·R₂

其中，L为目标函数值，R_emp为基于有标签的样本数据集所得到经验损失参数，α为第一参数，β为第二参数。

本说明书实施例还提供了一种交易风险确定装置，包括：

获取模块，用于获取目标交易数据，以及与目标交易数据相关的目标关联数据；

提取模块，用于根据所述目标交易数据、目标关联数据，提取得到目标特征；

调用模块，用于调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；

确定模块，用于根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

本说明书实施例还提供了一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现以下步骤：获取目标交易数据，以及与目标交易数据相关的目标关联数据；根据所述目标交易数据、目标关联数据，提取得到目标特征；调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

本说明书实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被计算机设备执行时实现：获取目标交易数据，以及与目标交易数据相关的目标关联数据；根据所述目标交易数据、目标关联数据，提取得到目标特征；调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

本说明书提供的一种交易风险确定方法、装置和服务器，基于该方法，具体实施前，可以充分、有效地利用聚类中心点与样本数据之间的流形信息，根据预设的聚类和流形规则，通过半监督学习，训练得到预设的风险确定模型；具体实施时，可以先获取目标交易数据，以及与目标交易数据相关的目标关联数据；再根据上述目标交易数据和目标关联数据，提取出所需要的目标特征；进而可以调用上述预设的风险确定模型通过处理上述目标特征，输出对应的目标处理结果；再根据目标处理结果确定目标交易数据是否存在预设的交易风险。从而可以快速地训练得到精度较高的预设的风险确定模型，并基于该模型准确地预测出目标交易数据是否存在预设的交易风险，减少预测误差。

附图说明

为了更清楚地说明本说明书实施例，下面将对实施例中所需要使用的附图作简单地介绍，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本说明书的一个实施例提供的交易风险确定方法的流程示意图；

图2是本说明书的一个实施例提供的服务器的结构组成示意图；

图3是本说明书的一个实施例提供的交易风险确定装置的结构组成示意图；

图4是在一个场景示例中，应用本说明书实施例提供的交易风险确定方法的一种实施例的示意图；

图5是在一个场景示例中，应用本说明书实施例提供的交易风险确定方法的一种实施例的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

参阅图1所示，本说明书实施例提供了一种交易风险确定方法。其中，该方法具体应用于服务器一侧。具体实施时，该方法可以包括以下内容：

S101：获取目标交易数据，以及与目标交易数据相关的目标关联数据；

S102：根据所述目标交易数据、目标关联数据，提取得到目标特征；

S103：调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；

S104：根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

通过上述实施例，可以预先根据预设的聚类和流形规则，通过半监督学习高效地训练得到精度较高、效果较好的预设的风险确定模型；在对目标交易数据进行风险预测时，可以同时获取目标交易数据，以及与该目标交易数据相关的目标关联数据；再根据上述数据，提取出相应的目标特征，并调用预设的风险确定模型处理上述目标特征，得到对应的目标处理结果；进而可以根据该目标处理，准确地确定出该目标交易数据是否存在预设的交易风险。

在一些实施例中，上述交易风险确定方法具体可以应用于银行、购物网站等负责处理交易数据的数据中心的服务器一侧。其中，所述服务器具体可以包括一种应用于数据处理系统一侧，能够实现数据传输、数据处理等功能的后台服务器。具体的，所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者，所述服务器也可以为运行于该电子设备中，为数据处理、存储和网络交互提供支持的软件程序。在本实施例中，并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器，也可以为几个服务器，或者，由若干服务器形成的服务器集群。

在一些实施例中，上述目标交易数据具体可以理解为银行或购物网站的数据中心所接入的，待判断是否存在预设的交易风险的交易数据。例如，账户A向账户B发起的一笔转账；或者，用户C向商户D支付的一笔货款；还或者，商户E向用户D发起的一笔退款等等。

其中，针对不同的交易数据处理场景，上述预设的交易风险可以包括多种不同类型的交易风险。具体的，例如，上述预设的交易风险可以是欺诈风险，也可以是洗钱风险，还可以是赌博风险等等。

在一些实施例中，为了对目标交易数据进行预设的交易风险预测，除了获取目标交易数据，还会同时获取与目标交易数据相关的目标关联数据。这样后续可以综合目标交易数据和目标关联数据，提取得到更加丰富、全面的特征，以便能更加精准地来确定目标交易数据是否存在相应的预设的交易风险。

在一些实施例中，所述目标关联数据具体可以包括以下至少之一：目标交易数据所涉及的交易对象的用户信息(例如，转账发起账户的账户信息、转账接收账户的账户信息、交易商户的商户信息的等等)、目标交易数据的交易媒介(例如，通过手机银行发起交易数据、通过PC端发起交易数据、通过银行的自助服务器机发起交易数据等等)、目标交易数据的交易附言等等。当然，需要说明的是，上述所列举的目标关联数据只是一种示意性说明。具体实施时，根据具体的交易数据处理场景和处理需求，上述目标关联数据还可以包括其他类型、内容，与目标交易数据相关的数据。对此，本说明书不作限定。

通过上述实施例，可以获取得到多种类型、多种维度的目标关联数据，以便后续可以基于上述目标交易数据以及与目标交易数据相关的目标关联数据，更加准确地确定出目标交易数据是否存在预设的交易风险。

在一些实施例中，具体实施时，可以根据预设的特征提取规则，对目标交易数据和目标关联数据进行相应的特征工程和特征处理，以提取得到所需要的数据特征作为与该目标交易数据和目标关联数据对应的目标特征。

其中，上述目标特征具体可以包括以下所列举的特征中的一种或多种：交易时间、交易金额、交易地点、交易对象的用标签、交易媒介的接口地址、交易附言中的关键词等等。

在一些实施例中，上述预设的风险确定模型具体可以理解为预先基于聚类信息和流形信息，通过半监督学习训练得到能够基于输入模型的目标特征，来计算出存在预设的交易风险的概率值作为输出的分类模型。

其中，上述聚类信息具体可以是指通过聚类处理聚集到同一个类群中的，基于该类群的聚类中心点，不同数据所表现出该类群中数据的共性信息。

上述流形信息具体可以是指相同的数据在不同维度的特征空间中所表现出的共性信息。例如，相同的数据在高维特征空间中的分布信息等数据特征在较低维的特征空间中的是相同或相近。

在一些实施例中，预先可以通过根据预设的聚类和流形规则，来同时利用上述聚类信息和流形信息，进行半监督学习，以便能高效地训练得到精度较高、效果较好的预设的风险确定模型。关于具体如何训练预设的风险确定模型后续将另做说明。

在一些实施例中，具体实施时，可以将所提取到的目标特征作为模型输入，输入至预设的风险确定模型中，并运行该模型。预设的风险确定模型具体运行时，可以通过处理目标特征，以计算并确定用于表征目标交易数据是否存在预设的交易风险的概率值，输出模型，作为对应的目标处理结果。

在一些实施例中，上述根据所述目标处理结果，确定目标交易数据存在预设的交易风险具体实施时，可以包括：比较目标处理结果和预设的风险概率阈值，在确定目标处理结果大于等于预设的风险概率阈值的情况下，确定目标交易数据存在预设的交易风险。相反，则确定目标交易数据不存在预设的交易风险。

在一些实施例中，在根据所述目标处理结果，确定目标交易数据存在预设的交易风险之后，所述方法具体实施时，还可以包括以下内容：在确定目标交易数据存在预设的交易风险的情况，在所述目标交易数据上设置风险标签；对设置有风险标签的交易数据，以及该交易数据所涉及的交易对象进行风险追踪。

在一些实施例中，具体实施前，所述方法还可以包括以下内容：

S1：获取样本数据集；其中，所述样本数据集包括有标签的样本数据集和无标签的样本数据集；

S2：对所述样本数据集进行聚类处理，得到聚类中心集；

S3：根据所述聚类中心集，构建基于聚类和流形的目标函数；

S4：利用所述目标函数和所述样本数据集，进行模型训练，以得到预设的风险确定模型。

通过上述实施例，具体实施前，可以预先根据预设的聚类和流形规则，通过引入并利用聚类信息和流形信息，高效地训练得到符合要求的预设的风险确定模型。

在一些实施例中，上述样本数据集具体可以包含有标签的样本数据集和无标签的样本数据集。其中，上述有标签的样本数据集包含有标签的样本数据。例如，在有标签的样本数据集中，确定存在预设的交易风险的样本数据携带有数值为“1”的标签；确定不存在预设的交易风险的样本数据携带有数值为“0”的标签。上述无标签的样本数据集包含有无标签的样本数据。即，在无标签的样本数据集中所包含的样本数据不携带有标签。

在一些实施例中，上述对所述样本数据集进行聚类处理，得到聚类中心集，具体实施时，可以包括以下内容：调用KNN聚类模型处理所述样本数据集，以得到对应的聚类中心集；其中，所述聚类中心集包含有预设个数个聚类中心点。

其中，每一个聚类中心点对应一个类群，预设个数等于聚类得到的类群总数。

在本实施例中，在调用KNN聚类模型具体聚类时，会根据样本数据的数据特征，将数据特征存在共性的一个或多个样本数据聚类到一个类群中，得到多个类群。同时，每一个类群中会存在一个聚类中心点。

其中，每一个聚类中心点在所在的类群中具有较好的代表性，能够反映出所在类群中的样本数据的共性特征。此外，每一个类群中的样本数据与所在类群的聚类中心点的特征距离，相对于与其他类群的聚类中心点的特征距离是最短的。

通过上述实施例，利用KNN聚类模型，可以高效地对样本数据集所包含的样本数据进行聚类，得到包含有多个类群中的聚类中心点的聚类中心集，以便后续使用。

在一些实施例中，在获取样本数据集之后，所述方法具体实施时，还可以包括以下内容：对样本数据集中所包含的样本数据进行缺失值检测；对于缺失值大于缺失值阈值的样本数据进行删除处理；对于缺失值小于等于缺失值阈值的样本数据进行数据补全处理。

在一些实施例中，上述进行数据补全处理，具体可以包括：确定样本数据的数据类型；在确定样本数据的数据类型为文本型数据的情况下，使用预设的补全字段，例如，“unknown”进行数据补全处理；在确定样本数据的数据类型为数值型数据的情况下，使用预设的数字，例如，“0”进行数据补全处理。

通过上述实施例，可以得到相对较为完整、有效的样本数据。

在一些实施例中，在获取样本数据集之后，所述方法具体实施时，还可以包括以下内容：对样本数据集所包含的样本数据进行多变量特征演化，以挖掘更多、更全面的用于后续聚类和分类的数据特征。

在一些实施例中，上述根据所述聚类中心集，构建基于聚类和流形的目标函数，具体的，可以利用聚类中心集中的聚类中心点所携带的聚类信息，结合样本数据所存在的流形信息，来构建得到同时利用了聚类信息和流形信息，基于聚类和流形的目标函数。

在一些实施例中，上述根据所述聚类中心集，构建基于聚类和流形的目标函数，具体实施时，可以包括以下内容：

S1：根据聚类中心集和样本数据集，计算局部权重矩阵和样本距离矩阵；

S2：根据所述局部权重矩阵，构建聚类流形第一正则化项；根据所述局部权重矩阵和样本距离矩阵，构建聚类流形第二正则化项；

S3：根据所述聚类流形第一正则化项和所述聚类流形第二正则化项，构建得到目标函数。

通过上述实施例，可以充分地引入并利用聚类信息和流形信息，构建得到效果较好的目标函数，进而后续可以基于该目标函数高效地训练得到精度较高的预设的风险确定模型。

在一些实施例中，上述局部权重矩阵具体可以表示为：[z_i,j]_n×k。其中，在局部权重矩阵中，每一行对应一个样本数据，每一列对应一个聚类中心点，i行j列的矩阵元素z_i,j用于表征编号为i的样本数据和编号为j的聚类中心点之间的距离，与该样本数据和所有聚类重点之间的距离和的比值。

在一些实施例中，上述根据聚类中心集和样本数据集，计算局部权重矩阵，具体实施时，可以包括：

通过上述实施例，可以快速地计算得到符合要求的局部权重矩阵。

在一些实施例中，样本距离矩阵具体可以表示为：[w_i,m]_n×n。其中，在样本距离矩阵中，每一行、每一列分别对应一个样本数据，i行j列的矩阵元素w_i,m用于表征编号为i的样本数据和编号为j的样本数据之间的距离。其中，上述距离具体可以是欧式距离等。

在一些实施例中，上述根据所述局部权重矩阵，构建聚类流形第一正则化项，具体实施时，可以包括以下内容：

按照以下算式，构建聚类流形第一正则化项：

通过上述实施例，可以有效地利用局部权重矩阵，高效地构建得到基于聚类信息和流形信息的符合要求的聚类流形第一正则化项。

在一些实施例中，上述根据所述局部权重矩阵和样本距离矩阵，构建聚类流形第二正则化项，具体实施时，可以包括以下内容：

按照以下算式，构建聚类流形第二正则化项：

通过上述实施例，可以有效地利用局部权重矩阵和样本距离矩阵，高效地构建得到基于聚类信息和流形信息的符合要求的聚类流形第二正则化项。

在一些实施例中，通过在目标函数中，引入并构建上述聚类流形第一正则化项，可以使得后续在利用目标函数进行模型训练时，使得有针对性地学习聚类中心点与样本数据x_i之间的流形关系，即近邻的数据点应具有相似的标签，而遥远的数据点则不太可能拥有相似的标签。

在一些实施例中，通过在目标函数中，引入并构建上述聚类流形第二正则化项，可以使得后续在利用目标函数进行模型训练时，有针对性地利用样本数据与聚类中心点的局部权重系数作为聚类中心点的输出权重，并利用聚类中心点的输出近似样本数据x_i与x_m的输出，再根据样本x_i与样本x_m之间的距离信息，来约束该输出结果在输出空间上的相似性，以降低模型误差，提高模型精度。

在一些实施例中，上述根据所述聚类流形第一正则化项和所述聚类流形第二正则化项，构建得到目标函数，具体实施时，可以包括以下内容：

按照以下算式构建所述目标函数：

L＝R_emp+α·R₁+β·R₂

通过上述实施例，可以充分地利用聚类信息和流形信息，通过引入并构建聚类流形第一正则化项和聚类流形第二正则化项，得到针对性更强、训练效果更好的目标函数。

在一些实施例中，上述第一参数和第二参数具体可以是一种超参数，用于调节对应的项在目标函数中的权重。

在一些实施例中，上述经验损失参数具体可以根据样本数据集，以及历史上的模型训练记录等数据来确定。

在一些实施例中，上述经验损失参数具体可以按照以下算式计算得到：

在一些实施例中，具体训练预设的风险确定模型时，可以基于上述目标函数，将模型训练的问题转换为求解上述目标函数的最优值的优化问题。具体的，可以基于上述目标函数，进行多次的迭代运算，以找到能使得两相邻次的迭代运算之间的目标函数的目标函数值(或者称损失函数的损失值)的差异值小于预设的差异阈值的模型函数，作为预设的风险确定模型。

在一些实施例中，上述利用所述目标函数和所述样本数据集，进行模型训练，以得到预设的风险确定模型，具体实施时，可以包括以下内容：根据所述目标函数和所述样本数据集，基于梯度下降法，对模型进行针对性的调整，以得到符合要求的模型函数(例如，f(x))作为最终的预设的风险确定模型。

由上可见，基于本说明书实施例提供的交易风险确定方法，具体实施前，可以充分且有效地利用聚类中心点与样本数据之间的流形信息，根据预设的聚类和流形规则，通过半监督学习，训练得到预设的风险确定模型；具体实施时，可以先获取目标交易数据，以及与目标交易数据相关的目标关联数据；再根据上述目标交易数据和目标关联数据，提取出所需要的目标特征；进而可以调用上述预设的风险确定模型处理上述目标特征，以输出对应的目标处理结果；根据目标处理结果确定目标交易数据是否存在预设的交易风险。从而可以快速地训练得到精度较高的预设的风险确定模型，并基于该模型准确地预测出目标交易数据是否存在预设的交易风险。

本说明书实施例还提供一种服务器，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器具体实施时可以根据指令执行以下步骤：获取目标交易数据，以及与目标交易数据相关的目标关联数据；根据所述目标交易数据、目标关联数据，提取得到目标特征；调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

为了能够更加准确地完成上述指令，参阅图2所示，本说明书实施例还提供了另一种具体的服务器，其中，所述服务器包括网络通信端口201、处理器202以及存储器203，上述结构通过内部线缆相连，以便各个结构可以进行具体的数据交互。

其中，所述网络通信端口201，具体可以用于获取目标交易数据，以及与目标交易数据相关的目标关联数据。

所述处理器202，具体可以用于根据所述目标交易数据、目标关联数据，提取得到目标特征；调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

所述存储器203，具体可以用于存储相应的指令程序。

在本实施例中，所述网络通信端口201可以是与不同的通信协议进行绑定，从而可以发送或接收不同数据的虚拟端口。例如，所述网络通信端口可以是负责进行web数据通信的端口，也可以是负责进行FTP数据通信的端口，还可以是负责进行邮件数据通信的端口。此外，所述网络通信端口还可以是实体的通信接口或者通信芯片。例如，其可以为无线移动网络通信芯片，如GSM、CDMA等；其还可以为Wifi芯片；其还可以为蓝牙芯片。

在本实施例中，所述处理器202可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。

在本实施例中，所述存储器203可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

本说明书实施例还提供了一种基于上述交易风险确定方法的计算机可读存储介质，所述计算机可读存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现以下步骤：获取目标交易数据，以及与目标交易数据相关的目标关联数据；根据所述目标交易数据、目标关联数据，提取得到目标特征；调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

在本实施例中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施例中，该计算机可读存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

参阅图3所示，在软件层面上，本说明书实施例还提供了一种交易风险确定装置，该装置具体可以包括以下的结构模块：

获取模块301，具体可以用于获取目标交易数据，以及与目标交易数据相关的目标关联数据；

提取模块302，具体可以用于根据所述目标交易数据、目标关联数据，提取得到目标特征；

调用模块303，具体可以用于调用预设的风险确定模型处理所述目标特征，得到对应的目标处理结果；其中，所述预设的风险确定模型为预先根据预设的聚类和流形规则，通过半监督学习训练得到的分类模型；

确定模块304，具体可以用于根据所述目标处理结果，确定目标交易数据是否存在预设的交易风险。

需要说明的是，上述实施例阐明的单元、装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

由上可见，基于本说明书实施例提供的交易风险确定装置，可以快速地训练得到精度较高的预设的风险确定模型，并基于该模型准确地预测出目标交易数据是否存在预设的交易风险。

在一个具体的场景示例中，可以应用本说明书实施例提供的交易风险确定方法来实现对交易数据进行基于聚类流形正则化的欺诈交易分类。

在本场景示例中，可以先训练一种基于聚类流形正则化的欺诈交易分类模型(例如，预设的交易风险确定模型)。其训练样本(例如，样本数据集)具体可以包括少量有标签样本(例如，有标签的样本数据集)和大量无标签样本(例如，无标签样本数据集)。训练时，首先可以使用KNN聚类模型得到训练样本的k个聚类中心作为聚类中心点，使用聚类中心点计算样本局部权重矩阵来构造模型而非全部样本，以降低模型训练的时间复杂度，提高模型训练效率。其次，根据“流形假设”(即：近邻的数据点应具有相似的标签，而遥远的数据点则不太可能拥有相似的标签)，可以根据聚类中心点设计聚类流形第一正则化项和聚类流形第二正则化项，来有针对性地学习聚类中心点与其他样本之间的空间分布关系，提高模型的泛化性能。

在本场景示例中，具体使用模型时，可以参阅图4所示，来预测是否属于欺诈交易(或者，称是否存在预设的交易风险)，具体包括以下步骤：首先从数据仓库获取欺诈交易预测相关的特征信息，并对样本进行数据预处理和特征工程处理；利用待预测数据的特征构造测试样本；将测试样本输入一种基于聚类流形正则化的欺诈交易分类模型，得到预测结果。

在本场景示例中，具体训练模型时，可以参阅图5所示。经过数据预处理和特征工程处理得到训练样本，训练样本包括少量有标签样本和大量无标签样本。首先，使用KNN聚类模型得到训练样本的k个聚类中心作为聚类中心点，使用聚类中心点计算样本局部权重矩阵构造图模型而非全部样本以降低模型训练的时间复杂度，提高模型训练效率。其次，构造聚类流形第一正则化项。利用样本与聚类中心的局部权重系数作为聚类中心点的输出权重，利用聚类中心点的输出近似样本x_i的输出，并约束该近似输出与样本x_i的输出尽可能相近，如果x_i为有标签样本，利用聚类中心点的输出近似样本x_i的真实标签，并约束该近似输出与样本x_i的真实标签尽可能相近。最后，构造聚类流形第二正则化项，利用样本与聚类中心的局部权重系数作为聚类中心点的输出权重，利用聚类中心点的输出近似样本x_i与x_m的输出，再根据样本x_i与样本x_m之间的距离信息，约束该输出结果在输出空间的相似性。通过最小化经验损失、聚类流形第一正则化项和聚类流形第二正则化项迭代优化分类器(例如，训练模型)。具体的，在构建基于聚类流形正则化的欺诈交易分类模型时，可以分为三个部分：数据预处理、特征工程、模型构建与训练。以下对各部分进行说明。

一、数据预处理，具体可以包括以下内容。

1.1、数据选择。本次建模利用的数据包括交易的数据信息、交易双方的基本信息等数据(例如，样本交易数据、样本交易数据的关联数据)。将涉及欺诈交易预测相关特征分为两类：第一类是交易双方的基本信息，如年龄、性别、所在地区等，第二类是交易的数据信息，如交易时间、交易地点、交易金额等信等。按类别可确定数据范围，从而确定涉及的数据表。

1.2、构造标签信息。对于已经发生的部分交易，使用专家信息手工将欺诈交易的标签为设置1，代表第一类样本ω₁，将非欺诈交易的标签设置为0，代表第二类样本ω₂。对于没有使用专家信息进行标签标记的交易，定义为无标签样本，无需构造标签。

二、特征工程，具体可以包括以下内容。

2.1、缺失值处理。观察数据表中的数据列，对于有缺失值列，按一定方式补全，如数值特征的缺失值，用列‘0’值补全，非数值特征的缺失值，用“unknown”补全，对于缺失值特别严重的列，直接将该字段进行删除处理。

2.2、多变量的衍生变量探索。对特征进行演化，如按照类别特征进行分组统计数值特征的统计信息(最大值、最小值、均值、方差等)、数值特征的偏离值特征(原始特征与该列最小值、最大值、均值的差值等)、数值特征之间的交叉特征(数值特征之间相关加减乘除操作得到新的列)等。

三、模型构建与训练，具体可以包括以下内容。

3.1、计算样本的聚类中心点。训练样本集为D_l＝{(x₁,y₁),…,(x_l,y_l)，x_l+1,…,x_n}，其中D_l＝{(x₁,y₁),…,(x_l,y_l)}为有标签数据，D_u＝{x_l+1,…,x_n}为无标签数据。对训练样本集进行k均值聚类，得到k个聚类中心，记为：U＝{u₁,…,u_k}(例如，聚类中心集)。

3.2、计算局部权重矩阵。分别计算所有样本到到k个聚类中心点的局部权重矩阵[z]_n×k，计算方式如下：

其中，z_i,j为样本x_i与聚类中心u_j之间的权重系数，d(x_i,u_j)为样本x_i与聚类中心u_j之间的距离，例如可以采用欧式距离进行距离度量。

3.3、构造聚类流形第一正则化项。利用样本与聚类中心的局部权重系数作为聚类中心点的输出权重，利用聚类中心点的输出近似样本x_i的输出，并约束该近似输出与样本x_i的输出尽可能相近，如果x_i为有标签样本，利用聚类中心点的输出近似样本x_i的真实标签，并约束该近似输出与样本x_i的真实标签尽可能相近。目的学习聚类中心点与样本x_i之间的流形关系，即近邻的数据点应具有相似的标签，而遥远的数据点则不太可能拥有相似的标签。计算方式如下：

其中，D为全部训练样本集，包括有标签样本与无标签样本，D_l为有标签样本集，U为聚类中心集，f(·)为模型输出函数。

3.4、构造聚类流形第二正则化项。首先按照以下方式，计算样本之间的距离，以构造样本距离矩阵[w]_n×n：

w_i,m＝d(x_i,x_m)

其中，d(x_i,x_m)为样本x_i与样本x_m之间的距离，例如可以采用欧式距离进行距离度量。

构造聚类流形第二正则化项，利用样本与聚类中心的局部权重系数作为聚类中心点的输出权重，利用聚类中心点的输出近似样本x_i与x_m的输出，再根据样本x_i与样本x_m之间的距离信息，约束该输出结果在输出空间的相似性。计算方式如下：

3.5、目标函数设计。通过最小化经验损失、聚类流形第一正则化项和聚类流形第二正则化项束迭代优化分类器。目标函数如下：

L＝R_emp+α·R₁+β·R₂

其中，R_emp为有标签样本的经验损失，α，β为超参数，用于调节上述各项权重，R_emp计算方式如下：

3.6、模型优化。利用梯度下降法求解此优化问题，通过最小化模型的目标函数直至达到预设迭代次数或两次损失函数的损失值之差小于预设阈值。得到最终的分类模型。具体判别函数如下所示：

3.7、模型测试。对于测试样本x，输入分类器的判别函数，得到模型的判别结果。

通过上述场景示例，验证了基于本说明书实施例所提供的交易风险确定方法建立的模型在欺诈交易预测分类的精确率、召回率和综合测评价值上都比传统的基于半监督学习算法效果更好，能相对较精准地预测出欺诈交易。进一步，可以将该模型应用于银行等金融机构，使用交易发生时伴随的相关环境信息以及交易双方的基础信息，建立准确的欺诈交易分类模型，该分类模型对于预测用户的交易是否有欺诈风险具有较高的应用价值。

虽然本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机可读存储介质中。

通过以上的实施例的描述可知，本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书的技术方案本质上可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本说明书，本领域普通技术人员知道，本说明书有许多变形和变化而不脱离本说明书的精神，希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

Claims

1.一种交易风险确定方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述目标关联数据包括以下至少之一：目标交易数据所涉及的交易对象的用户信息、目标交易数据的交易媒介、目标交易数据的交易附言。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

对所述样本数据集进行聚类处理，得到聚类中心集；

根据所述聚类中心集，构建基于聚类和流形的目标函数；

4.根据权利要求3所述的方法，其特征在于，对所述样本数据集进行聚类处理，得到聚类中心集，包括：

5.根据权利要求3所述的方法，其特征在于，根据所述聚类中心集，构建基于聚类和流形的目标函数，包括：

6.根据权利要求5所述的方法，其特征在于，根据聚类中心集和样本数据集，计算局部权重矩阵，包括：

7.根据权利要求6所述的方法，其特征在于，根据所述局部权重矩阵，构建聚类流形第一正则化项，包括：

按照以下算式，构建聚类流形第一正则化项：

8.根据权利要求7所述的方法，其特征在于，根据所述局部权重矩阵和样本距离矩阵，构建聚类流形第二正则化项，包括：

按照以下算式，构建聚类流形第二正则化项：

9.根据权利要求8所述的方法，其特征在于，根据所述聚类流形第一正则化项和所述聚类流形第二正则化项，构建得到目标函数，包括：

按照以下算式构建所述目标函数：

L＝R_emp+α·R₁+β·R₂

10.一种交易风险确定装置，其特征在于，包括：

11.一种服务器，其特征在于，包括处理器以及用于存储处理器可执行指令的存储器，所述处理器执行所述指令时实现权利要求1至9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被计算机设备执行时实现权利要求1至9中任一项所述方法的步骤。