CN113806338A

CN113806338A - 一种基于数据样本图像化的数据甄别的方法与系统

Info

Publication number: CN113806338A
Application number: CN202111370028.0A
Authority: CN
Inventors: 邵俊; 张磊
Original assignee: Shenzhen Suoxinda Data Technology Co ltd
Current assignee: Shenzhen Suoxinda Data Technology Co ltd
Priority date: 2021-11-18
Filing date: 2021-11-18
Publication date: 2021-12-17
Anticipated expiration: 2041-11-18
Also published as: CN113806338B

Abstract

本发明公开了一种基于数据样本图像化的数据甄别的方法与系统，其中方法包括：从服务器获取用户信息；对用户信息进行标准化处理，得到第一数据集；对第一数据集进行结构引力成像处理，将结构化数据转换为二维彩色等高线轮廓图；选取全部正样本对应的轮廓图，并使用GAN方法生成更多的正样本，以使得样本的正负比例趋于均衡；从二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建新的XGBoost第二XGBoost模型；基于新的XGBoost第二XGBoost模型进行数据甄别。本发明可以生成图像的方式产生更多的正样本，达到正负样本的均衡，避免了常规的SMOTE等基于线性插值的过采样方法引入的额外的偏差，使得甄别结果更加精确，性能更优。

Description

一种基于数据样本图像化的数据甄别的方法与系统

技术领域

本发明属于涉及计算机技术领域，尤其涉及一种基于数据样本图像化的数据甄别的方法与系统。

背景技术

随着互联网金融的快速发展，互联网金融交易的数量在快速增长。在大量的互联网金融交易中，可能存在一些不法人员进行洗钱等非法交易。因此，需要工作人员从大量交易记录中查找到可疑交易，并生成对应的可疑交易描述报文，反馈到有关管理部门，这些可疑交易也可以称为风险事件。

而如何识别风险事件是一个二分类问题，需要在海量的样本特征数据中甄别出那些有嫌疑的用户。这些用户往往呈现出一种与正常用户不一致的表现。虽然对于这种建模场景，是有正负样本的标签的，然而由于正样本极少，所以金融机构往往没有采用有监督的学习方法，而使用一些无监督的训练方法来建模，例如专利号为ZL201811227489.0的发明专利，其公开一种可疑交易案例的辅助甄别方法及系统，该方法包括如下步骤：对待处理交易案例进行线索数据提取，对待处理交易案例进行总体情况分析、资金流向分析、用户风险分析及交易风险分析，得到疑点数据；确定出待处理交易案例的风险性质分值；计算出待处理交易案例的累计发生额；基于风险矩阵法，根据上述的指标评估可疑交易案例的风险等级；该系统包括线索数据提取模块、交易案例分析模块、风险性质确定模块、累计发生额计算模块及可疑程度确定模块；该现有专利实现了对可疑交易案例的智能化、自动化甄别，不受工作人员主观因素影响，极大降低了人力和物力投入，具有准确度高、客观性强、高效、智能、全面、留痕等突出优点。但是其仍存在正样本较少的问题，导致在进行建模过程中正样本起到的效果有限，使得该场景中这些宝贵的样本标签并没有用武之地，因此甄别系统的性能始终成为一个瓶颈。

发明内容

针对上述现有技术中存在的缺陷，本发明提供一种基于数据样本图像化的数据甄别的方法，包括以下步骤：

从服务器获取用户信息；

对所述用户信息进行标准化处理，得到第一数据集；

对所述第一数据集进行结构引力成像处理，将结构化数据转换为二维彩色等高线轮廓图；

选取全部正样本对应的轮廓图，并使用GAN方法生成更多的正样本，以使得样本的正负比例趋于均衡；

从所述二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建第二XGBoost模型；

基于所述第二XGBoost模型进行数据甄别。

进一步的，所述将结构化数据转换为二维彩色等高线轮廓图包括：

结合斥力算法、等高线投影和染色算法将结构化数据转换为二维彩色等高线轮廓图。

进一步的，所述使用GAN方法生成更多的正样本，具体包括：

假定存在生成图片的生成器G和判别器D，所述生成器G用于接收随机的噪声z，其通过所述噪声生成图片，记做G(z)；所述判别器D用于判别一张图片是否真实，其输入参数x是一张图片，输出D（x），所述D（x）表示x为真实图片的概率，取值为0到1之间。

进一步的，所述生成器G和判别器D的训练过程包括以下步骤：

初始化判别器D的参数θ _d和生成器G的参数θ _g；

选取全部的正样本转化成二维彩色等高线轮廓图，所述二维彩色等高线轮廓图包括m个特征图片数据记为

；

使用正态分布算子随机生成m个噪声种子

作为生成器G的输入获得m个对应的伪数据

；

通过以下公式更新参数θ _d：

；

其中，D

和D

分别表示判别器D判别

和

为真实数据的概率；

使用正态分布算子随机生成另一批m个噪声种子

；

通过以下公式更新参数θ _g：

；

其中，G

表示生成器G通过z_i生成的数据；

通过以上步骤不断循环更新θ _d和θ _g10次以上，得到最终的参数θ _g以及其对应的生成器G。

进一步的，所述从二维彩色等高线轮廓图中提取低维特征向量包括：

使用自编码网络进行低维特征提取。

进一步的，从所述自编码网络提取过程具体为：

将输入变量的集合记作X，设定编码函数f(X)，以及解码函数g(X)，其中f和g为神经网络且f输出的维数远远小于X的维数，使得损失函数

最小；

记H=f(X)，则H即为对X提取出的特征。

进一步的，从所述二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建第二XGBoost模型，具体包括：

通过自编码器降维得到n个新特征，将n个新特征加入第一XGBoost模型构建为第二XGBoost模型，所述第一XGBoost模型已经采用第一数据集训练。

进一步的，所述第二XGBoost模型的训练包括以下步骤：

步骤A：获取训练用户的用户信息，将所述训练用户的用户信息输入所述第二XGBoost，获得所述训练用户的第一预测用户类别；

步骤B：基于所述第一预测用户类别和所述训练用户的类别标签，利用所述第二XGBoost的损失函数训练调整所述第二XGBoost的参数获得最终的所述第二XGBoost模型。

进一步的，所述基于所述第二XGBoost模型进行数据甄别，具体包括：

将新样本进行图像化，提取图像特征，并结合其原始特征，带入所述第二XGBoost模型中，输出概率值p，基于所述概率值甄别所述数据。

本发明还提供一种基于数据样本图像化的数据甄别的系统，包括：

信息获取模块，其用于从服务器获取用户信息；

信息处理模块，其用于对用户信息进行标准化处理，得到第一数据集；

数据转换模块，其用于对第一数据集进行结构引力成像处理，将结构化数据转换为二维彩色等高线轮廓图；

样本生成模块，其用于选取全部正样本对应的轮廓图，并使用GAN方法生成更多的正样本，以使得样本的正负比例趋于均衡；

模型构建模块，其用于从二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建第二XGBoost模型；

数据甄别模块，其用于基于第二XGBoost模型进行数据甄别。

与现有技术相比，本发明使用了深度学习进行自动特征编码，提取了非结构化特征，随即通过生成图像的方式产生更多的正样本，达到正负样本的均衡，避免了常规的SMOTE等基于线性插值的过采样方法引入的额外的偏差，使得甄别结果更加精确，性能更优。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，并且相同或对应的标号表示相同或对应的部分，其中：

图1是示出根据本发明实施例的一种基于数据样本图像化的数据甄别的方法流程图；

图2是示出根据本发明实施例的自编码器的示意图；

图3是示出根据本发明实施例的一种基于数据样本图像化的数据甄别的系统的示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义，“多种”一般包含至少两种。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的商品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种商品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的商品或者装置中还存在另外的相同要素。

下面结合附图详细说明本发明的可选实施例。

实施例一、

如图1所示，本发明公开了一种基于数据样本图像化的数据甄别的方法，包括以下步骤：

从服务器获取用户信息；

对用户信息进行标准化处理，得到第一数据集；

对第一数据集进行结构引力成像处理，将结构化数据转换为二维彩色等高线轮廓图；

从二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建第二XGBoost模型；

基于第二XGBoost模型进行数据甄别。

实施例二、

本发明实施例公开了一种基于数据样本图像化的数据甄别的方法，包括以下步骤：

从服务器获取用户信息；

对用户信息进行标准化处理，得到第一数据集；

基于第二XGBoost模型进行数据甄别。

本发明实施例提取了非结构化特征，将结构化数据转换为二维彩色等高线轮廓图，随即通过生成图像的方式产生更多的正样本，达到正负样本的均衡，避免了常规的SMOTE等基于线性插值的过采样方法引入的额外的偏差，使得甄别结果更加精确，性能更优。

为了便于理解本发明实施例的技术方案，本实施例对其进行进一步说明。其中，将结构化数据转换为二维彩色等高线轮廓图可以包括：

本发明实施例的斥力算法是基于引力与斥力模型的网络布局算法，可以包括以下内容：

步骤C1、随机生成N个节点的二维坐标；

步骤C2、对每一个节点，其受到其他节点的静电斥力，记为c_1/d(i,j)**2，c_1表示节点的值，d(i,j)为该节点与其他节点的距离；同时受到与之相连节点的弹簧引力，记为c_2(i,k)*s(i,k)，c_2表示相关性，s(i,k)是该节点和与之相连节点的距离；它的总受力是一个向量，表示为F_i=SUM{c_1/d(i,j)**2}-SUM{c_2(i,k)*s(i,k)};

步骤C3、每一次迭代，计算每一个节点的受力F_i，令该节点在平面上移动c_3*F_i，c_3表示迭代过程中产生的学习率参数，并计算所有节点移动距离之和S；

步骤C4、到达停止条件（1-迭代次数达到设定阈值；或者2-所有节点移动距离之和S小于设定阈值）时，停止迭代，输出每个节点在二维平面上的坐标。

本发明实施例的等高线投影是用于等高线图的获取，其可以包括以下步骤：

步骤D1、将z_1,...z_N按降序排序，得到sz_N>...>sz_1，其中，sz_N表示z_N由大到小排序之后的值;

步骤D2、从k=N开始，在平面上搜索z=sz_k-delta_k*i的点，其中delta_k=(sz_{k}-sz_{k-1})/M，i=1,...,M，M是划分的个数；

步骤D3、将z=sz_k-delta_k*i的点连成线，得到一条等高线；

步骤D4、遍历k=N,...,2，得到所有的等高线。

实施例三、

在上述实施例的基础上，本实施例还可以包括以下内容：

本发明实施例使用GAN方法生成更多的正样本，其具体可以包括以下内容：

假定存在生成图片的生成器G和判别器D，生成器G用于接收随机的噪声z，其通过噪声生成图片，记做G(z)；判别器D用于判别一张图片是否真实，其输入参数x是一张图片，输出D（x），D（x）表示x为真实图片的概率，取值为0到1之间。

本实施在使用GAN方法生成更多的正样本时，其采用的生成器G和判别器D需要预先进行训练。该生成器G和判别器D的训练过程可以包括以下步骤：

初始化判别器D的参数θ _d和生成器G的参数θ _g；

选取全部的正样本转化成二维彩色等高线轮廓图，二维彩色等高线轮廓图包括m 个特征图片数据记为

；

使用正态分布算子随机生成m个噪声种子

作为生成器G的输入获得m个对应的伪数据

；

通过以下公式更新参数θ _d：

；

其中，D

和D

分别表示判别器D判别

和

为真实数据的概率；

使用正态分布算子随机生成另一批m个噪声种子

；

通过以下公式更新参数θ _g：

；

其中，G

表示生成器G通过z_i生成的数据；

实施例四、

在上述实施例的基础上，本实施例还可以包括以下内容：

本实施例从二维彩色等高线轮廓图中提取低维特征向量，可以包括：

使用自编码网络进行低维特征提取。

其中，使用自编码网络进行低维特征提取时，该自编码网络提取的过程具体可以为：

最小；

记H=f(X)，则H即为对X提取出的特征。如图2所示，h1, h2, h3即为通过编码器算法捕捉到的降维的特征表示，实现了对变量x1,x2,...,x7的关键信息提取。

另外，一个自编码器实际上是由一个编码器和一个解码器两部分组成。编码器和解码器的结构都各自是一个神经网络。

从训练好的自编码器中抽取出编码器部分，就可以实现降维的效果。

通过自编码器的降维优于PCA在于其使用的是神经网络的结构。如果让神经网络中的激活函数蜕化为恒等函数，则该自编码器则就是一个PCA过程。由于激活函数的存在，自编码器能够实现非线性的降维。

神经网络是这样的一个映射f，它接受一组输入向量X，通过

输出另一组向量。其中X为N维的向量，W为一个M*N维的矩阵，b为M维的向量，f（X）的输出为一个M维的向量。

假设X为我们的观测变量，编码器网络接受X的输入，通过上述神经网络变成一个低维特征Z，记Z的维度为M，则N>>M。

Z也可以称做隐变量，因为Z并不是直接通过观测得到的变量。

解码器网络则接受低维特征Z的输入，通过另一个神经网络变成高维特征X1，X1的维度和X相同。

自编码器将原始观测变量X经过编码器后转变为低维向量Z，Z再经过解码器生成高维向量

(和X相同维度)，自编码器的训练目标是使得

和原始的高维特征X尽可能相同，也即其损失函数就是这两个高维特征的差。观测变量依次经过一个解码器和一个编码器能实现最大程度的复原，说明X经过编码器生成的中间层Z携带了X中绝大多数信息。换句话说，如果降维后的Z丢失了X中的信息较多，则从Z通过解码器还原出X所有信息的概率可以忽略不计。所以Z可以近似作为X的替代。由于Z的维度远小于X，所以实现了降维。

实施例五、

在上述实施例的基础上，本实施例还可以包括以下内容：

本实施例从二维彩色等高线轮廓图中提取低维特征向量，基于用户信息构建第二XGBoost模型，其具体可以包括：

本实施例构建第二XGBoost模型需对原来的第二XGBoost模型进行训练，第二XGBoost模型的训练可以包括以下步骤：

步骤A：获取训练用户的用户信息，将训练用户的用户信息输入第二XGBoost，获得训练用户的第一预测用户类别；

步骤B：基于第一预测用户类别和训练用户的类别标签，利用第二XGBoost的损失函数训练调整第二XGBoost的参数获得最终的第二XGBoost模型。

其中，XGBoost模型的训练过程实际上是指在获取训练用户的用户信息以及对应的用户类别标签的基础上，利用XGBoost模型提取训练用户的用户信息中的第一特征，基于第一特征预测获得训练用户的用户类别记为第一预测用户类别；通过第一预测用户类别和用户类别标签，利用XGBoost模型的损失函数反向梯度训练XGBoost模型，不断调整XGBoost模型的参数直至XGBoost模型达到最优性能，训练好的XGBoost模型即为第二XGBoost模型。

本实施例在得到第二XGBoost模型后，基于第二XGBoost模型进行数据甄别，该数据甄别具体可以包括：

将新样本进行图像化，提取图像特征，并结合其原始特征，带入第二XGBoost模型中，输出概率值p，基于概率值甄别数据。如果p>0.5，则认为该样本为正样本。

实施例六、

如图3所示，本发明还提出了一种基于数据样本图像化的数据甄别的系统，其包括：

信息获取模块，其用于从服务器获取用户信息；

数据甄别模块，其用于基于第二XGBoost模型进行数据甄别。

实施例七、

本公开实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行如上实施例所述的方法步骤。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(AN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

以上介绍了本发明的较佳实施方式，旨在使得本发明的精神更加清楚和便于理解，并不是为了限制本发明，凡在本发明的精神和原则之内，所做的修改、替换、改进，均应包含在本发明所附的权利要求概括的保护范围之内。