CN117874491A

CN117874491A - 一种特征提取方法及装置

Info

Publication number: CN117874491A
Application number: CN202311865341.0A
Authority: CN
Inventors: 李绪嘉; 莫雪盈; 邱毅; 肖和兵; 李元; 陈雷
Original assignee: WeBank Co Ltd; Hong Kong University of Science and Technology
Current assignee: WeBank Co Ltd; Hong Kong University of Science and Technology
Priority date: 2023-12-29
Filing date: 2023-12-29
Publication date: 2024-04-12
Anticipated expiration: 2043-12-29
Also published as: CN117874491B

Abstract

本发明实施例提供了一种特征提取方法及装置，该方法包括基于获取的网络数据，生成M个原始子图；原始子图的子图信息包括顶点、边以及图特征，图特征包括每个顶点的K个顶点特征以及每个边的F个边特征。向每个原始子图的图特征插入噪声，再还原图特征生成重构子图；根据原始子图的图特征与对应的重构子图的图特征之间的特征差异，生成特征热力图；根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取H个关键特征。从而实现对图类型数据的特征工程，提高特征工程的可解释性。

Description

一种特征提取方法及装置

技术领域

本发明实施例涉及金融科技(Finteh)领域，尤其涉及一种特征提取方法及装置。

背景技术

随着计算机技术的发展，越来越多的技术应用在金融领域，传统金融业正在逐步向金融科技(Fintech)转变，然而，由于金融行业具有安全性和实时性的要求，从而也对技术提出了更高的要求。在很多场景中需要利用机器学习算法对大规模的网络数据进行分类或者计算，但是在将大规模的网络数据输入到机器学习算法之前，先对大规模的网络数据利用特征工程进行处理，再将处理后的数据输入到机器学习算法中。

现有技术中提供了多种特征工程方案。在一种基于专家经验的特征工程的方案中，算法根据人为经验规定的特征和业务逻辑，对每个账户进行特征的加权评分，当账户被某些规则命中、并识别为异常账户时则进行系统告警。该方案高度依赖人为参与和业务专家支持，是一种由点到面的逆向抽取的思路，无法识别业务上未知的特征，且规则的制定和匹配也导致该类型方法的识别效率较低。为提高识别效率，可以采用另一种特征工程方案，即基于神经网络的特征降维算法对数据进行处理，利用神经网络将高维度的账户特征嵌入到较低维度的向量空间中，但是特征降维算法本身不具备可解释性，难以确定哪些特征导致目标样本的产生。而且，上述两种特征工程方案只能针对数值类型数据，并未充分考虑交易网络里的图类型数据，图的拓扑结构、每个节点的出度、入度，和交易边的特性等，缺乏对图特征的捕捉，无法针对网络数据这种图类型数据进行特征工程。

发明内容

本发明实施例提供了一种特征提取方法及装置，用以实现对图类型数据的特征工程，提高特征工程的可解释性。

第一方面，本发明实施例提供了一种特征提取方法，该方法可以由特征提取装置执行，该方法包括：基于网络数据，生成M个原始子图，每个原始子图的子图信息包括顶点、边以及图特征，图特征包括每个顶点的K个顶点特征以及每个边的F个边特征，K以及F均为正整数；针对M个原始子图中的每个原始子图，执行：向该原始子图的图特征插入第一噪声生成噪声子图；然后，对噪声子图进行图特征还原，生成该原始子图对应的重构子图，重构子图的图特征包括重构子图中每个顶点的K个顶点特征以及每个边对应的F个边特征；根据该原始子图的图特征与该原始子图对应的重构子图的图特征之间的特征差异，生成该原始子图对应的特征热力图；根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取出H个关键特征，H为正整数、且H小于K与F之和。

上述技术方案中，基于网络数据，可以从网络数据中抽取分别以M个目标账户为中心顶点的M个原始子图，每个目标账户对应的原始子图是一个围绕目标账户的交易网络，原始子图中包括丰富顶点特征以及边特征，不仅可以提升特征工程的质量，还可以提高特征工程的可解释性。针对其中的每个原始子图进行插入噪声以及噪声还原以生成重构子图，通过对比原始子图的图特征与重构子图的图特征之间的差异，可得到反映特征前后差异的特征热力图，然后根据M个原始子图分别对应的特征热力图，从大量的顶点特征以及边特征中提取出少量的关键特征，这些关键特征更有可能作为区分样本的最重要的特征，可以使得后续使用该关键特征的模型获得更好的模型表现。而且，上述方案可以对图类型数据的特征工程，提高特征工程的可解释性。

可选地，原始子图为N阶子图；基于网络数据，生成M个原始子图，包括：针对网络数据中包括的M个目标账户中的每个目标账户，执行：基于网络数据，以该目标账户为中心顶点，通过N次扩散迭代，确定出与该目标账户相关联的账户信息，作为该目标账户对应的N阶子图的邻居顶点，并将N阶子图的中各个顶点之间的交易信息作为该目标账户对应的N阶子图的边；其中，第n次扩散迭代用于确定该原始子图的第n阶顶点。

上述技术方案中，N阶子图可以反映以目标账户为中心顶点的交易网络，可以更好的捕捉全局特征。

可选地，对噪声子图进行图特征还原，生成原始子图对应的重构子图，包括：将噪声子图输入至第一图神经网络模型，输出噪声子图中的被插入的第一噪声对应的第一预测值；第一图神经网络模型为根据至少一个第一预设样本进行训练得到，第一预设样本为带有预设噪声值标签的预设噪声子图；将噪声子图的图特征去除第一预测值，得到原始子图对应的重构子图。

上述方案中，通过给原始子图插入噪声，再对图特征进行还原得到重构子图，利用“正常的行为特征容易被复原，而行为表现异常的特征很难被复原”这个原理，从而可以找到难以被还原的图特征，便于后续筛选关键特征。

可选地，将噪声子图的图特征去除所述第一预测值，得到原始子图对应的重构子图，包括：将噪声子图的图特征去除第一预测值，得到原始子图对应的第一重构子图；将第一重构子图输入第二图神经网络模型，预测第一重构子图对应的异常概率；第二图神经网络模型为根据至少一个第二预设样本进行训练得到，第二预设样本为带有正样本标签或负样本标签的第一预设样本对应的重构子图；根据第一重构子图对应的异常概率，确定原始子图对应的重构子图。

通过上述技术方案，可以确定出更准确重构子图在噪声子图还原后，预测第一重构子图的异常概率，并根据异常概率确定最终的重构子图，以使得噪声子图在重构过程中正常的特征被保留，而异常的特征不容易被还原。

可选地，根据第一重构子图对应的异常概率，确定原始子图对应的重构子图，包括：若第一重构子图对应的异常概率小于概率阈值，则将第一重构子图确定为原始子图对应的重构子图；或者，若第一重构子图对应的异常概率大于或等于概率阈值，则根据第一重构子图对应的异常概率，反向修正第一预测值得到第二预测值；将噪声子图的图特征去除第二预测值，得到原始子图对应的重构子图。

通过上述技术方案，可以使得正常的特征被保留，而异常的特征不容易被还原，从而使重构子图和原始子图在异常的特征上产生差异，即引导噪声子图向健康的方向进行重构。

可选地，根据原始子图的图特征与重构子图的图特征之间的特征差异，生成原始子图对应的特征热力图，包括：确定原始子图的图特征对应的第一特征矩阵，确定重构子图的图特征对应的第二特征矩阵；将第一特征矩阵与第二特征矩阵进行矩阵相减运算，生成原始子图对应的特征热力图。

通过上述技术方案得到的特征热力图，反映了各个图特征的差异程度，可以为筛选关键特征提供直观的数据依据，能够帮助大家理解哪些特征为无效特征，哪些特征为与异常行为高度相关的特征。

可选地，根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取出H个关键特征，包括：针对K个顶点特征与F个边特征中的每个特征，执行：从M个原始子图分别对应的特征热力图中确定出每个特征对应的M个差异值；根据每个特征对应的M个差异值，从K个顶点特征与F个边特征中确定出H个关键特征。

通过上述技术方案，可以大量的图特征中筛选出最关键的H个关键特征，可以为后续使用关键特征的模型提供更好的模型表现，提升模型的计算速度以及预测准确度。

可选的，在基于网络数据，生成M个原始子图之前，该方法还包括：对网络数据进行预处理操作；其中，预处理操作包括以下至少一种处理操作：图特征编码；缺失特征值填补；对数值类型数据进行正则化或归一化。

通过上述方案，可以使得网络数据具有统一的数据结构。

第二方面，本发明实施例还提供了一种特征提取装置，包括：

构建单元，用于基于网络数据，生成M个原始子图，每个原始子图的子图信息包括顶点、边以及图特征，图特征包括原始子图中每个顶点的K个顶点特征以及每个边的F个边特征，K以及F均为正整数；

处理单元，用于针对M个原始子图中的每个原始子图，执行：向该原始子图的图特征插入第一噪声生成噪声子图；然后，对噪声子图进行图特征还原，生成该原始子图对应的重构子图，重构子图的图特征包括重构子图中每个顶点的K个顶点特征以及每个边对应的F个边特征；根据该原始子图的图特征与该原始子图对应的重构子图的图特征之间的特征差异，生成该原始子图对应的特征热力图；根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取出H个关键特征，H为正整数、且H小于K与F之和。

可选地，原始子图为N阶子图；所述构建单元具体用于：针对M个目标账户中的每个目标账户，执行：基于网络数据，以该目标账户为中心顶点，通过N次扩散迭代，确定出与该目标账户相关联的账户信息，作为该目标账户对应的N阶子图的邻居顶点，并将N阶子图的中各个顶点之间的交易信息作为该目标账户对应的N阶子图的边；其中，第n次扩散迭代用于确定该原始子图的第n阶顶点。

可选地，所述处理单元具体用于：将噪声子图输入至第一图神经网络模型，输出噪声子图中的被插入的第一噪声对应的第一预测值；第一图神经网络模型为根据至少一个第一预设样本进行训练得到，第一预设样本为带有预设噪声值标签的预设噪声子图；将噪声子图的图特征去除第一预测值，得到原始子图对应的重构子图。

可选地，所述处理单元具体用于：将噪声子图的图特征去除第一预测值，得到原始子图对应的第一重构子图；将第一重构子图输入第二图神经网络模型，预测第一重构子图对应的异常概率；第二图神经网络模型为根据至少一个第二预设样本进行训练得到，第二预设样本为带有正样本标签或负样本标签的第一预设样本对应的重构子图；根据第一重构子图对应的异常概率，确定原始子图对应的重构子图。

可选地，所述处理单元具体用于：若第一重构子图对应的异常概率小于概率阈值，则将第一重构子图确定为原始子图对应的重构子图；或者，若第一重构子图对应的异常概率大于或等于概率阈值，则根据第一重构子图对应的异常概率，反向修正第一预测值得到第二预测值；将噪声子图的图特征去除第二预测值，得到原始子图对应的重构子图。

可选地，所述处理单元具体用于：确定原始子图的图特征对应的第一特征矩阵，确定重构子图的图特征对应的第二特征矩阵；将第一特征矩阵与第二特征矩阵进行矩阵相减运算，生成原始子图对应的特征热力图。

可选地，所述处理单元具体用于：针对K个顶点特征与F个边特征中的每个特征，执行：从M个原始子图分别对应的特征热力图中确定出每个特征对应的M个差异值；根据每个特征对应的M个差异值，从K个顶点特征与F个边特征中确定出H个关键特征。

可选地，所述处理单元还用于：对网络数据进行预处理操作；其中，预处理操作包括以下至少一种处理操作：图特征编码；缺失特征值填补；对数值类型数据进行正则化或归一化。

第三方面，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行特征提取方法。

第四方面，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行特征提取方法。

第二方面至第四方面的有益效果可参见上述第一方面以及第一方面的任一可选的方案的有益效果，此处不作赘述。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图；

图2为本发明实施例提供的一种特征提取方法的流程示意图；

图3为本发明实施例提供的一种网络数据示意图；

图4为本发明实施例提供的一种三阶子图的示意图；

图5为本发明实施例提供的一种基于图噪声扩散与重构的特征工程方法示意图；

图6为本发明实施例提供的一种特征提取装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示，该系统架构可以为服务器100，包括处理器110、通信接口120和存储器130。

其中，通信接口120用于与终端设备进行通信，收发该终端设备传输的信息，实现通信。

处理器110是服务器100的控制中心，利用各种接口和线路连接整个服务器100的各个部分，通过运行或执行存储在存储器130内的软件程序/或模块，以及调用存储在存储器130内的数据，执行服务器100的各种功能和处理数据。可选地，处理器110可以包括一个或多个处理单元。

存储器130可用于存储软件程序以及模块，处理器110通过运行存储在存储器130的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储交易数据等。此外，存储器130可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

需要说明的是，上述图1所示的结构仅是一种示例，本发明实施例对此不做限定。

基于上述描述，图2示例性的示出了本发明实施例提供的一种特征提取方法的流程，该流程可以由一种特征提取装置执行，该装置可以位于如图1所示服务器100内，也可以是该服务器100。

如图2所示，该流程具体包括：

步骤201，获取网络数据，网络数据包括L个账户的交易信息以及账户之间的交易信息，其中L为正整数。

以银行为例，交易数据可以存储于数据仓库中，例如hive数据仓库，例如在银行注册的账户相关信息以银行账户信息表的形式存储，已注册的任一账户与其他账户发生的交易行为的相关信息以交易表形式存储，在步骤201中。可以从银行账户信息表以及交易表中，获取已注册的所有账户的交易信息作为网络数据，也可以获取已注册的部分账户的交易信息，例如所有账户中发生交易的账户的交易信息，作为网络数据。本申请实施例以获取L个账户的交易信息作为网络数据为例进行介绍。

图3示例性示出了一种网络数据的示意图，如图3所示，该网络数据包括L个顶点，分别为账户1～账户L。该网络数据还包括L个顶点中发生交易行为的顶点之间的连接边，例如账户1分别与账户2、账户3、账户7以及账户8发生交易行为，该网络数据包括账户1与账户2之间的连接边、账户1与账户3之间的连接边(或者称为边)、账户1与账户7之间的连接边以及账户1与账户8之间的连接边。又例如，账户2除了与账户1之间存在交易行为之外，还与账户3以及账户4发生交易行为，该网络数据还包括账户2与账户3之间的连接边、账户2与账户4之间的连接边。此处不再一一列举网络数据包括的所有连接边。该网络数据还包括每个顶点的顶点特征以及每个连接边的边特征。

在基于获取到的网络数据构建图结构数据之前，需要对网络数据进一步进行预处理，因为每个账户顶点的特征数量庞大，在拟合图结构数据时，不仅仅需要考虑账户本身的特征，同时要聚合其交易对象的特征。如果直接使用原始的网络数据中的特征数据进行图神经网络训练，大量冗余信息将会超出图神经网络的表达能力，从而限制图神经网络模型的预测效果。为提升图结构数据的质量，以提升后续图神经网络在拟合数据并进行账户可以风险预测时的模型准确性，可以通过图特征重要性排序算法，过滤图特征中的冗杂特征，例如，开户人的性别、开户行等特征，最终保留最有价值的核心顶点特征和边特征，使得后续使用该经过特征过滤之后的数据的图神经网络模型，获得更好的模型表现。

为了提升后续图神经网络的识别准确性以及一定的可解释性。本申请实施例中，在基于网络数据，构建图结构数据之前，可以对网络数据进行预处理操作，预处理操作包括但不限于以下至少一种处理操作：图特征编码；缺失特征值填补；对数值类型数据进行正则化或归一化。例如对开户地信息进行独热编码、对某些缺失的特征值进行默认值填补，或对数值类型数据进行正则化、归一化处理，从而保证数据结构整齐统一。

示例性的，以目前银行内针对于反洗钱业务为例，主要包含三大类型的指标：顶点聚合类指标、交易边聚合类指标和基于专家知识的预警指标。主要针对以下高风险行为进行监控：跨境转账、大额转账、高危地区、各类型转账笔数比重、高危时段等。监控周期为三个月，与风险用户上报周期保持一致。为了将上述指标编码为初始特征向量后续提供给图神经网络进行表示学习，可以对网络数据上的顶点特征和边特征进行针对性的特征编码。

针对不同的数据类型，主要采用以下手段进行图特征编码：

多类别特征(币种，地区)采用独热编码0100 0001；

二分类特征(是否销户)采用0-1编码；

比例特征(大额比重)采用Min-Max处理到0-1之间；

数值特征(总金额/总笔数)采用Min-Max处理到0-1之间。

以上特征编码的方式可以通过自定义HQL的方式进行修改和调优。

本申请实施例中，在对网络数据进行预处理时，支持自定义的顶点(账户)特征和边特征(交易信息)的抽取，可以兼容现有的指标库，自定义选取账户的开户地区、客户职业、年龄等作为顶点特征。也支持自定义选取两两账户间的交易聚合信息，例如一定周期内转账次数，一定周期内转账金额总数等作为边特征。从而可以充分利用人为经验以及知识，进行图特征的选取，从而加强算法的面向业务侧的解释性，同时灵活的特征选取也能提升算法识别的准确度。

在对网络数据进行预处理操作之后，再基于经过预处理操作后的网络数据，执行步骤202。

步骤202，基于网络数据，构建图结构数据。

其中，图结构数据包括分别作为中心顶点的M个目标账户所对应的M个原始子图，L个账户包括M个目标账户，M为小于或等于L的正整数。本申请实施例中，M的取值可以根据实际需要进行设置，此处不进行限制。

在一个示例中，例如网络数据中包括1000个账户，构建的图结构数据中包括1000个原始子图，也就是说，分别以1000个账户中的每个账户为中心顶点，对应生成1000个原始子图。

在另一个示例中，例如网络数据中包括1000个账户，构建的图结构数据中包括800个原始子图，也就是说，从网络数据中选择800个账户分别作为中心顶点，对应生成800个原始子图。

本申请实施例中，上述原始子图可以为N阶子图，N为正整数。

在一种可能的实施方式中，上述步骤202可通过如下方式实现：针对M个目标账户中的每个目标账户，执行：基于网络数据，以该目标账户为中心顶点，通过N次扩散迭代，确定出与该目标账户相关联的账户信息，作为该目标账户对应的N阶子图的邻居顶点，并将N阶子图的中各个顶点之间的交易信息作为该目标账户对应的N阶子图的边；其中，第n次扩散迭代用于确定该原始子图的第n阶顶点。该N阶子图可以反映以目标账户为中心顶点的交易网络，可以更好的捕捉全局特征，从而精准提取到关键特征。

下文中以N为3为例进行说明，即N阶子图为三阶子图，应理解，N的取值可以根据实际需要进行设置，此处不进行限制。

结合图3所示的网络数据，对从网络数据中抽取三阶子图进行介绍。

示例性的，以图3所示的网络数据中的账户1为中心顶点，从网络数据中抽取账户1对应的三阶子图；以账户2为中心顶点，从网络数据中抽取账户2对应的三阶子图；以账户3为中心顶点，从网络数据中抽取账户2对应的三阶子图；……，依此类推，以账户L为中心顶点，从网络数据中抽取账户L对应的三阶子图。

在一种可能的实施方式中，从网络数据中抽取每个账户对应的三阶子图的过程可以通过将网络数据输入至Pregel图计算框架实现，该Pregel图计算框架实现支持在Spark集群上实现大规模图数据的相关处理和计算。抽取过程如下：首先，利用HQL抽取中心顶点；其次，在给中心顶点打上标签，该标签可以通过Pregel图计算框架，进行标签Message的扩散迭代。每一次迭代，当前顶点的一阶邻居顶点将被更新，并打上相应的标签，在三轮迭代后，即可得到三阶子图。

下面基于图3所示的网络数据，以抽取账户1对应的三阶子图为例进行说明。

从图3所示的网络数据中抽取以账户1为中心顶点、与中心顶点存在直接或间接交易行为的其它顶点以及各顶点间的交易行为为连接边的三阶子图。从而得到如图4所示的账户1对应的三阶子图，其中包括一个中心顶点，即账户1；该三阶子图还包括多个与中心顶点存在直接或间接交易行为的其它顶点，例如账户2与账户3为第1次扩散迭代得到的一阶邻居顶点，账户4与账户5为第2次扩散迭代得到的二阶邻居顶点，账户6为第3次扩散迭代得到的三阶邻居顶点。

本申请实施例中，每个目标账户对应的原始子图的子图信息包括顶点、边以及图特征，其中，顶点包括与目标账户相关联的账户，边包括账户之间的交易信息，图特征包括原始子图中每个顶点的K个顶点特征以及每个边对应的F个边特征，K以及F均为正整数。顶点特征例如账户类型、开户地、开户时间等，边特征例如交易金额、交易次数等。账户特征和交易特征还可以包含其他内容，本申请对此不作限定。

图结构数据可以表格的形式存储于数据库中，例如子图顶点表用于储存以中心顶点为主键的每个原始子图的顶点信息和顶点特征，具体格式如下表1所示。

表1子图顶点表

又例如，子图边表用于储存原始子图中各个顶点之间的所有边及边特征(例如边的属性)，例如表1中涉及到的顶点之间的所有边及其属性如下表2所示。

表2子图边表

付款方编号	收款方编号	边的属性
			顶点1	顶点2	(特征1，特征2，特征3，特征4...)
顶点1	顶点3	(特征1，特征2，特征3，特征4...)
			顶点2	顶点3	(特征1，特征2，特征3，特征4...)
顶点2	顶点4	(特征1，特征2，特征3，特征4...)

本申请实施例中，在获取某个账户为中心顶点的原始子图之后，可以利用图神经网络模型对该账户为中心顶点的原始子图的整体进行监控和评估，相比于对单一账户信息进行评估，能更好的捕捉全局特征。

上述步骤202中构建的图结构数据中依然包括大量的图特征，为进一步提升图结构数据的质量，可以对M个原始子图进一步处理，以实现筛选出其中的关键特征，使得后续使用该图结构数据的模型，获得更好的模型表现。

因此，本申请提出基于图结构数据的噪声扩散与重构的特征工程，对图结构数据中的图特征进行筛选，通过不断给原始子图插入随机噪声，将其转化为“混沌的状态”。然后利用“正常的行为特征容易被复原，而行为表现异常的特征很难被复原”这个原理。在还原过程中，利用图神经网络去预测此前被插入的噪声。然后把这个混沌的噪声子图还原为正常的重构子图。然后对比原始图的图特征与重构子图的图特征，找到难以被还原的图特征，认为这些图特征更可能作为正负样本区分的关键特征，即在与异常行为高度相关的特征，从而达到特征筛选的目的。删除对于模型预测不重要的特征，即删去多余信息，提升模型的计算速度和预测结果的准确度。该特征工程可以多角度地评价各个特征的重要性，确保筛选后的数据集包含所有关键信息，而又没有多余数据。同时，能够提供相关解释，帮助业务人员理解为何某些特征被判定为无效特征，而其余特征被认定为与异常行为高度相关的特征。

下面结合步骤203～步骤205对基于图数据的噪声扩散与重构的特征工程的过程进行说明。

步骤203，针对M个原始子图中的每个原始子图，向该原始子图的图特征插入第一噪声生成噪声子图。

其中，第一噪声可以为随机噪声。

示例性的，可以向原始子图插入一系列固定范围的服从正态分布的随机噪声。例如，对于夜间交易频率这个特征(5次)，可以从均值为0，方差为1的正态分布中随机抽取一个噪声值(-0.67)，并把该噪声与原始交易频率值相加。通过多次的上述噪声插入，得到噪声子图。噪声子图内的各个顶点和边的特征将会服从正态分布。插入的噪声符合正态分布，是为了原始图在整个噪声扩散的过程中的不损失其真实性，从而在还原过程中，能被去噪声网络顺利还原。

步骤204，对噪声子图进行图特征还原，生成该原始子图对应的重构子图。

该重构子图的图特征包括重构子图中每个顶点的K个顶点特征以及每个边对应的F个边特征。

在一种可实现上述步骤204中的实施方式中，将噪声子图输入至第一神经网络模型，输出噪声子图中的被插入的第一噪声对应的第一预测值；将噪声子图的图特征去除第一预测值，得到原始子图对应的重构子图。其中，第一神经网络模型为根据至少一个第一预设样本进行训练得到，第一预设样本为带有预设噪声值标签的预设噪声子图。

具体来说，从噪声子图的图特征去除噪声预测值，得到原始子图对应的重构子图，可以通过以下过程实现：

S1，将噪声子图的图特征去除第一预测值，得到原始子图对应的第一重构子图。

S2，将第一重构子图输入第二图神经网络模型，预测第一重构子图对应的异常概率。其中，第二图神经网络模型为根据至少一个第二预设样本进行训练得到，第二预设样本为带有正样本标签或负样本标签的第一预设样本对应的重构子图。

S3，根据第一重构子图对应的异常概率，确定原始子图对应的重构子图。

若第一重构子图对应的异常概率小于概率阈值，则将第一重构子图确定为原始子图对应的重构子图。

若第一重构子图对应的异常概率大于或等于概率阈值，则根据第一重构子图对应的异常概率，反向修正第一预测值得到第二预测值；将噪声子图的图特征去除第二预测值，得到原始子图对应的重构子图。

示例性的，如图5所示，从图结构数据中选择任一个原始子图，向该原始子图的图特征插入随机噪声，得到噪声子图。然后将叠加了随机噪声的原始子图还原为特征无异常的重构子图，这个过程涉及到两层神经网络，即第一图神经网络模型(例如去噪声网络)和第二图神经网络模型(例如引导分类器)。具体来说，将噪声子图输入去噪声网络，去噪声网络为一个自监督神经网络，通过训练预测之前插入的第一噪声对应的预测值，然后基于该预测值，将噪声子图对应的特征的噪声去除，得到中间重构子图。之后，将中间重构子图与可疑标签输入引导分类器，引导分类器为一个有监督神经网络，用于预测子图的异常概率，并根据概率修正特征，得到最终的重构子图，即原始子图对应的重构子图。

本申请实施例中，将叠加了随机噪声的原始子图还原为特征无异常的重构子图，可以包含对两种样本的处理。其一，对于正样本的噪声子图，因其本身无异常特征，所以只需预测噪声，将其向原始子图方向还原；其二，对于负样本的噪声子图，除了还原噪声以外，还需要根据从正样本中学习到的特征模式，将异常特征还原到非异常范围，得到特征无异常的重构子图。

去噪声网络负责预测在图噪声扩散过程中被插入的噪声，保证该子图中的特征在还原过程中不会失真。预测噪声的过程就是图神经网络学习并拟合正常子图的交易模式的过程。去噪声网络采用自监督的训练方式，即通过神经网络训练方式，输入是图的特征矩阵，输出是一个噪声的预测值。预测目标是此前被插入的噪声幅度，即上文例子中的-0.67。通过训练，去噪声网络能过这种方法，学习子图中的交易模式，从而在后续过程中能够还原不同的原始子图。同时通过先行训练去噪声网络，并保留训练结果，将训练后的模型参数迁移至引导分类器神经网络，能够有效地减少训练迭代次数，节省训练资源，提高预测结果的准确性。

引导分类器是一个图神经网络，负责修正子图的异常特征，其输入为通过去噪声网络的子图及其可疑标签。在噪声子图的还原过程中，若该原始子图的可疑标签是异常的，则通过引导分类器的输出概率，去修正去噪声网络的预测值，从而引导噪声子图向去异常的重构子图的方向进行修正。本申请中没有直接修正特征，原因是特征之间不具有均一性，不同特征之间无法直接进行比较，所以选择在特征之上叠加噪声值(具有均一性)，通过修正噪声值，比较修正前后的差值来判断关键特征。例如，若引导分类器预测当前子图的是无洗钱行为的正样本，那么引导分类器的输出为0，即不对去噪声网络的预测噪声值进行修正。若当前子图的被引导分类器判断为异常的洗钱网络，则输出为该子图是异常子图的概率0.89，则发起修正。假设去噪声网络的预测值为0.67，那么最终经过修正的还原噪声值为(1-0.89)*0.67。通过该方式，可以使得正常的特征被保留，而异常的特征不容易被还原，从而使重构子图和原始子图在异常的特征上产生差异，即引导噪声子图向“健康”的方向进行重构。

步骤205，根据该原始子图的图特征与重构子图的图特征之间的特征差异，生成该原始子图对应的特征热力图。

在一种可实现上述步骤205中的实施方式中，确定原始子图的图特征对应的第一特征矩阵，确定重构子图的图特征对应的第二特征矩阵，将第一特征矩阵与第二特征矩阵进行矩阵相减运算，生成原始子图对应的特征热力图。该特征热力图可以表征原始子图中的图特征与该原始子图对应的重构子图中对应图特征之间的差异。原始子图中的图特征与该原始子图对应的重构子图中对应图特征之间的差异越大，热力值越高。通过特征热力图可以确定该原始子图中的关键特征。

步骤206，根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取出H个关键特征，其中，H为正整数、且H小于K与F之和。

在一种可实现上述步骤206中的实施方式中，针对K个顶点特征与F个边特征中的每个特征，这里的每个特征可以是顶点特征，也可以是边特征，执行：从M个原始子图分别对应的特征热力图中确定出该特征对应的差异值，得到该特征对应的M个差异值；根据每个特征对应的M个差异值，从K个顶点特征与F个边特征中确定H个关键特征。

例如，针对每个特征对应的M个差异值，可以采用简单累加或加权累加的方式确定每个特征对应的最终差异值。一般来说，最终差异值越小，重要性(或关键)程度越低，最终差异值最大的特征，为最重要的关键特征。通过该特征热力图也可以为专家提供相应的解释。

在一种示例中，可以将K个顶点特征与F个边特征按照最终差异值的大小进行排序，将最终差异值较大的H个特征确定为关键特征。

在另一种示例中，也可以是设置差异阈值，最终差异值大于该差异阈值的特征确定为关键特征。

示例性的，可以将该关键特征应用于识别团伙洗钱的场景中，H个关键特征为对识别洗钱行为最关键的H个特征，可以将提取出的H个关键特征输入至用于识别团伙洗钱的识别模型中，以便通过识别模型预测团伙洗钱的风险指数。当预测团伙洗钱的风险指数风险超过一定阈值，则进行风险报警。此后，由相关业务专家参与，对该子图涉及的账户进行人为排查。从而支持海量交易数据下的实时团伙洗钱风险预测。

本申请实施例中，从完整的交易网络中，围绕一个账户作为中心顶点，先抽取出一个原始交易子图。每个原始子图为本模型的一个输入样本。这些交易子图既可以是正样本，也可以是负样本，即已知的可疑团伙。最后，累加所有输入样本所得出的关键特征，再对所有特征的差异程度进行排序，最终筛选并保留最能表现样本行为异常的特征。

本申请提供的方法主要包括以下优势：第一是可解释性，可以通过对比，得到反映特征前后差异的特征热力图，然后就可以确定哪些特征异常，导致这个原始子图被认定为洗钱团伙。第二，相较于传统的图神经网络要在完整的2亿用户顶点的图上进行学习，导致训练效率很低，无法适应大规模的交易网络而言，本申请实施例中可以逐个原始子图进行学习，计算效率高。

应理解，本申请适用于对图类型数据进行特征工程，应用场景不作限制，例如应用于对反洗钱场景中的交易数据进行特征工程。

基于相同的技术构思，图6示例性的示出了本发明实施例提供的一种特征提取装置，该装置可以执行特征提取方法的流程。

如图6所示，该装置包括：

获取单元601，用于获取网络数据，网络数据包括L个账户的交易信息以及账户之间的交易信息，L为正整数；

构建单元602，用于基于网络数据，构建图结构数据；图结构数据包括分别作为中心顶点的M个目标账户所对应的M个原始子图，L个账户包括M个目标账户，每个目标账户对应的原始子图的子图信息包括顶点、边以及图特征，顶点包括与目标账户相关联的账户，边包括账户之间的交易信息，图特征包括原始子图中每个顶点的K个顶点特征以及每个边对应的F个边特征，M为小于或等于L的正整数，K以及F均为正整数。

处理单元603，用于针对M个原始子图中的每个原始子图，执行：向该原始子图的图特征插入第一噪声生成噪声子图；然后，对噪声子图进行图特征还原，生成该原始子图对应的重构子图，重构子图的图特征包括重构子图中每个顶点的K个顶点特征以及每个边对应的F个边特征；根据该原始子图的图特征与该原始子图对应的重构子图的图特征之间的特征差异，生成该原始子图对应的特征热力图；根据M个原始子图分别对应的特征热力图，从K个顶点特征与F个边特征中提取出H个关键特征，H为正整数、且H小于K与F之和。

可选地，构建单元602，具体用于原始子图为N阶子图；所述构建单元具体用于：针对M个目标账户中的每个目标账户，执行：基于网络数据，以该目标账户为中心顶点，通过N次扩散迭代，确定出与该目标账户相关联的账户信息，作为该目标账户对应的N阶子图的邻居顶点，并将N阶子图的中各个顶点之间的交易信息作为该目标账户对应的N阶子图的边；其中，第n次扩散迭代用于确定该原始子图的第n阶顶点。

可选地，所述处理单元603具体用于：将噪声子图输入至第一图神经网络模型，输出噪声子图中的被插入的第一噪声对应的第一预测值；第一图神经网络模型为根据至少一个第一预设样本进行训练得到，第一预设样本为带有预设噪声值标签的预设噪声子图；将噪声子图的图特征去除第一预测值，得到原始子图对应的重构子图。

可选地，所述处理单元603还用于：将噪声子图的图特征去除第一预测值，得到原始子图对应的第一重构子图；将第一重构子图输入第二图神经网络模型，预测第一重构子图对应的异常概率；第二图神经网络模型为根据至少一个第二预设样本进行训练得到，第二预设样本为带有正样本标签或负样本标签的第一预设样本对应的重构子图；根据第一重构子图对应的异常概率，确定原始子图对应的重构子图。

可选地，所述处理单元603具体用于：若第一重构子图对应的异常概率小于概率阈值，则将第一重构子图确定为原始子图对应的重构子图；或者，若第一重构子图对应的异常概率大于或等于概率阈值，则根据第一重构子图对应的异常概率，反向修正第一预测值得到第二预测值；将噪声子图的图特征去除第二预测值，得到原始子图对应的重构子图。

可选地，所述处理单元603具体用于：确定原始子图的图特征对应的第一特征矩阵，确定重构子图的图特征对应的第二特征矩阵；将第一特征矩阵与第二特征矩阵进行矩阵相减运算，生成原始子图对应的特征热力图。

可选地，所述处理单元603具体用于：针对K个顶点特征与F个边特征中的每个特征，执行：从M个原始子图分别对应的特征热力图中确定出每个特征对应的M个差异值；根据每个特征对应的M个差异值，从K个顶点特征与F个边特征中确定出H个关键特征。

可选地，所述处理单元603还用于：对网络数据进行预处理操作；其中，预处理操作包括以下至少一种处理操作：图特征编码；缺失特征值填补；对数值类型数据进行正则化或归一化。

基于相同的技术构思，本发明实施例提供一种计算设备，包括：

存储器，用于存储程序指令；

基于相同的技术构思，本发明实施例提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行特征提取方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种特征提取方法，其特征在于，包括：

基于网络数据，生成M个原始子图，每个原始子图的子图信息包括顶点、边以及图特征，所述图特征包括每个顶点的K个顶点特征以及每个边的F个边特征，所述K以及所述F均为正整数；

针对所述M个原始子图中的每个原始子图，执行：

向所述原始子图的图特征中插入第一噪声，生成噪声子图；

对所述噪声子图进行图特征还原，生成所述原始子图对应的重构子图，所述重构子图的图特征包括每个顶点的K个顶点特征以及每个边对应的F个边特征；

根据所述原始子图的图特征与所述重构子图的图特征之间的特征差异，生成所述原始子图对应的特征热力图；

根据所述M个原始子图分别对应的特征热力图，从所述K个顶点特征与F个边特征中提取出H个关键特征，所述H为正整数、且所述H小于所述K与所述F之和。

2.如权利要求1所述的方法，其特征在于，所述原始子图为N阶子图；所述基于所述网络数据，生成M个原始子图，包括：

针对所述网络数据中包括的M个目标账户中的每个目标账户，执行：

基于所述网络数据，以所述目标账户为中心顶点，通过N次扩散迭代，确定出与所述目标账户相关联的账户信息，作为所述目标账户对应的N阶子图的邻居顶点，并将所述N阶子图的中各个顶点之间的交易信息作为所述目标账户对应的N阶子图的边；其中，第n次扩散迭代用于确定所述原始子图的第n阶顶点。

3.如权利要求1或2所述的方法，其特征在于，所述对所述噪声子图进行图特征还原，生成所述原始子图对应的重构子图，包括：

将所述噪声子图输入至第一图神经网络模型，输出所述噪声子图中的被插入的所述第一噪声对应的第一预测值；所述第一图神经网络模型为根据至少一个第一预设样本进行训练得到，所述第一预设样本为带有预设噪声值标签的预设噪声子图；

将所述噪声子图的图特征去除所述第一预测值，得到所述原始子图对应的重构子图。

4.如权利要求3所述的方法，其特征在于，所述将所述噪声子图的图特征去除所述第一预测值，得到所述原始子图对应的重构子图，包括：

将所述噪声子图的图特征去除所述第一预测值，得到所述原始子图对应的第一重构子图；

将所述第一重构子图输入第二图神经网络模型，预测所述第一重构子图对应的异常概率；所述第二图神经网络模型为根据至少一个第二预设样本进行训练得到，所述第二预设样本为带有正样本标签或负样本标签的所述第一预设样本对应的重构子图；

根据所述第一重构子图对应的异常概率，确定所述原始子图对应的重构子图。

5.如权利要求4所述的方法，其特征在于，所述根据所述第一重构子图对应的异常概率，确定所述原始子图对应的重构子图，包括：

若所述第一重构子图对应的异常概率小于概率阈值，则将所述第一重构子图确定为所述原始子图对应的重构子图；或者，

若所述第一重构子图对应的异常概率大于或等于所述概率阈值，则根据所述第一重构子图对应的异常概率，反向修正所述第一预测值得到第二预测值；将所述噪声子图的图特征去除所述第二预测值，得到所述原始子图对应的重构子图。

6.如权利要求1或2所述的方法，其特征在于，所述根据所述原始子图的图特征与所述重构子图的图特征之间的特征差异，生成所述原始子图对应的特征热力图，包括：

确定所述原始子图的图特征对应的第一特征矩阵；

确定所述重构子图的图特征对应的第二特征矩阵；

将所述第一特征矩阵与所述第二特征矩阵进行矩阵相减运算，生成所述原始子图对应的特征热力图。

7.如权利要求1或2所述的方法，其特征在于，所述根据所述M个原始子图分别对应的特征热力图，从所述K个顶点特征与F个边特征中提取出H个关键特征，包括：

针对所述K个顶点特征与所述F个边特征中的每个特征，执行：

从所述M个原始子图分别对应的特征热力图中确定出每个所述特征对应的M个差异值；

根据每个所述特征对应的M个差异值，从所述K个顶点特征与所述F个边特征中确定出所述H个关键特征。

8.如权利要求1或2所述的方法，其特征在于，在基于所述网络数据，生成M个原始子图之前，所述方法还包括：

对所述网络数据进行预处理操作；

其中，所述预处理操作包括以下至少一种处理操作：图特征编码；缺失特征值填补；对数值类型数据进行正则化或归一化。

9.一种计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行权利要求1至8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行权利要求1至8任一项所述的方法。