CN116308370A

CN116308370A - 异常交易识别模型的训练方法、异常交易识别方法及装置

Info

Publication number: CN116308370A
Application number: CN202111542787.0A
Authority: CN
Inventors: 李旭
Original assignee: 4Paradigm Beijing Technology Co Ltd
Current assignee: 4Paradigm Beijing Technology Co Ltd
Priority date: 2021-12-16
Filing date: 2021-12-16
Publication date: 2023-06-23

Abstract

本公开提供一种异常交易识别模型的训练方法、异常交易识别方法及装置，所述异常交易识别模型的训练方法包括：获取基础样本集，其中，基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本；对基础样本集中的交易样本的样本标签进行修正，得到训练样本集；对训练样本集进行特征提取，得到训练特征集；基于训练特征集，训练异常交易识别模型。根据本公开的异常交易识别模型的训练方法、异常交易识别方法及装置能够基于训练的异常交易识别模型识别异常交易，解决了传统的基于专家规则的识别方法中无法对复杂、庞大的交易数据进行处理的问题，能够提高异常交易识别效率和准确性。

Description

异常交易识别模型的训练方法、异常交易识别方法及装置

技术领域

以下描述涉及人工智能技术领域，具体地涉及一种异常交易识别模型的训练方法、异常交易识别方法及装置。

背景技术

在金融交易过程中，为了确保交易行为的安全性，通常需要识别交易行为是否存在异常交易风险，以防范可能对交易账户造成的资金损失。

传统的识别模型一般是基于专家规则建立的，专家规则是根据业务专家的经验，结合实际发生的异常交易事件，制定的异常交易识别规则。然而，专家规则的制定仅能建立在小样本的表现上，其识别维度单一，对于日趋庞大的金融交易量、复杂的交易行为特征、种类各色的用户画像，基于专家规则的识别模型则无法再适用。

发明内容

本公开的示例性实施例可至少解决上述问题，也可不解决上述问题。

根据本公开的第一方面，提供了一种异常交易识别模型的训练方法，所述异常交易识别模型的训练方法包括：获取基础样本集，其中，所述基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本；对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集；对所述训练样本集进行特征提取，得到训练特征集；基于所述训练特征集，训练异常交易识别模型。

可选地，对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集的步骤包括：通过比对所述基础样本集中的黑样本和白样本，对所述基础样本集中的交易样本的样本标签进行修正，得到所述训练样本集。

可选地，通过比对所述基础样本集中的黑样本和白样本，对所述基础样本集中的交易样本的样本标签进行修正，得到所述训练样本集的步骤包括：对所述基础样本集中的满足第一预设条件的黑样本的样本标签进行修正；和/或，对所述基础样本集中的满足第二预设条件的白样本的样本标签进行修正；其中，第一预设条件为：在黑样本的交易发生后的预定时间后，在所述黑样本的交易主体和交易对手之间还存在白样本，其中，第二预设条件为：在黑样本的交易发生时间的同日内，所述黑样本的交易主体和交易对手之间还存在交易额与所述黑样本的交易额之间的差值小于预定阈值的白样本。

可选地，所述异常交易识别模型的训练方法还包括：将所述训练样本集划分为训练集和测试集，其中，所述训练集用于机器学习模型的学习，所述测试集用于评估机器学习模型的性能；从所述训练集中剔除单次交易主体的交易样本，其中，所述单次交易主体是在所述训练集中仅存在一次交易的交易主体。

可选地，所述异常交易识别模型的训练方法还包括：从所述基础样本集中剔除单次交易主体的交易样本，其中，所述单次交易主体是在所述基础样本集中仅存在一次交易的交易主体。

可选地，对所述训练样本集进行特征提取，得到训练特征集的步骤包括：按照与每个时间维度对应的时间窗口，对所述训练样本集中的交易场景维度上的字段进行聚合处理得到聚合特征，并基于所述聚合特征得到训练特征集。

可选地，所述训练特征集包括：多个训练特征子集，所述多个训练特征子集与不同的特征维度对应，所述异常交易识别模型包括：主模型和多个子模型，其中，基于所述训练特征集，训练异常交易识别模型的步骤包括：利用所述多个训练特征子集一一对应地对所述多个子模型进行训练，以得到多个训练好的子模型；将所述多个训练特征子集一一对应地输入到所述多个训练好的子模型，以从每个训练好的子模型输出第一特征得分集，所述第一特征得分集包括训练特征子集中的每个训练样本为黑样本的概率得分；利用从多个所述训练好的子模型所输出的第一特征得分集，对所述主模型进行训练，其中，所述主模型的输出作为所述异常交易识别模型的输出。

可选地，所述多个训练特征子集包括多个时间训练特征子集和/或多个交易场景训练特征子集，其中，所述多个时间训练特征子集与多个不同的时间维度一一对应，每个时间训练特征子集包括：与时间训练特征子集所对应的时间维度相关的聚合特征；所述多个交易场景训练特征子集与多个不同的交易场景维度一一对应，每个交易场景训练特征子集包括：与交易场景训练特征子集所对应的交易场景维度相关的聚合特征。

可选地，所述训练特征集包括强关联训练特征子集和至少一个弱关联训练特征子集，所述训练异常交易识别模型包括：最终模型和至少一个弱关联模型，其中，基于所述训练特征集，训练异常交易识别模型的步骤包括：利用所述至少一个弱关联训练特征子集一一对应地对所述至少一个弱关联模型进行训练，以得到至少一个训练好的弱关联模型；将所述至少一个弱关联训练特征子集一一对应地输入到所述至少一个训练好的弱关联模型，以从每个训练好的弱关联模型输出第二特征得分集，所述第二特征得分集包括弱关联训练特征子集中的每个训练样本为黑样本的概率得分；利用所述强关联特征子集和从所述至少一个弱关联模型输出的第二特征得分集，对所述最终模型进行训练，其中，所述最终模型的输出作为所述异常交易识别模型的输出，其中，每个弱关联训练特征子集包括：与异常交易无直接关联的聚合特征，不同弱关联训练特征子集包括的聚合特征的特征维度不完全相同；其中，每个强关联训练特征子集包括：与异常交易有直接关联的聚合特征；其中，与异常交易有无直接关联指的是是否可以通过聚合特征直接确定交易是否为异常交易。

可选地，所述时间维度划分为短期维度、中期维度和长期维度，其中，所述短期维度、所述中期维度和所述长期维度各自对应一个或多个时间窗口，所述短期维度所对应的时间窗口中的每个时间窗口的长度小于所述中期维度的所对应的时间窗口中的任意一个时间窗口的长度，所述中期维度所对应的时间窗口中的每个时间窗口的长度小于所述长期维度所对应的时间窗口中的任意一个时间窗口的长度。

可选地，所述交易场景维度包括以下项之中的至少一者：交易主体维度、交易对手维度、交易地点维度、交易媒介维度、交易渠道维度和开卡地点维度。

根据本公开的第二方面，提供了一种异常交易识别方法，所述异常交易识别方法包括：获取关于待识别交易的预测数据集，其中，所述预测数据集包括待识别交易的交易信息；对所述预测数据集进行特征提取，得到预测特征集；基于所述预测特征集，使用异常交易识别模型识别所述待识别交易是否为异常交易，其中，所述异常交易识别模型是根据本公开所述的异常交易识别模型的训练方法训练得到的。

根据本公开的第三方面，提供了一种异常交易识别模型的训练装置，所述异常交易识别模型的训练装置包括：获取单元，被配置为获取基础样本集，其中，所述基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本；修正单元，被配置为对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集；提取单元，被配置为对所述训练样本集进行特征提取，得到训练特征集；训练单元，被配置为基于所述训练特征集，训练异常交易识别模型。

可选地，所述修正单元还被配置为：通过比对所述基础样本集中的黑样本和白样本，对所述基础样本集中的交易样本的样本标签进行修正，得到所述训练样本集。

可选地，所述修正单元还被配置为：对所述基础样本集中的满足第一预设条件的黑样本的样本标签进行修正；和/或，对所述基础样本集中的满足第二预设条件的白样本的样本标签进行修正；其中，第一预设条件为：在黑样本的交易发生后的预定时间后，在所述黑样本的交易主体和交易对手之间还存在白样本，其中，第二预设条件为：在黑样本的交易发生时间的同日内，所述黑样本的交易主体和交易对手之间还存在交易额与所述黑样本的交易额之间的差值小于预定阈值的白样本。

可选地，所述训练装置还包括剔除单元，所述剔除单元还被配置为：将所述训练样本集划分为训练集和测试集，其中，所述训练集用于机器学习模型的学习，所述测试集用于评估机器学习模型的性能；从所述训练集中剔除单次交易主体的交易样本，其中，所述单次交易主体是在所述训练集中仅存在一次交易的交易主体。

可选地，所述训练装置还包括剔除单元，所述剔除单元还被配置为：从所述基础样本集中剔除单次交易主体的交易样本，其中，所述单次交易主体是在所述基础样本集中仅存在一次交易的交易主体。

可选地，所述提取单元还被配置为：按照与每个时间维度对应的时间窗口，对所述训练样本集中的交易场景维度上的字段进行聚合处理得到聚合特征，并基于所述聚合特征得到训练特征集。

可选地，所述训练特征集包括：多个训练特征子集，所述多个训练特征子集与不同的特征维度对应，所述异常交易识别模型包括：主模型和多个子模型，其中，所述训练单元还被配置为：利用所述多个训练特征子集一一对应地对所述多个子模型进行训练，以得到多个训练好的子模型；将所述多个训练特征子集一一对应地输入到所述多个训练好的子模型，以从每个训练好的子模型输出第一特征得分集，所述第一特征得分集包括训练特征子集中的每个训练样本为黑样本的概率得分；利用从多个所述训练好的子模型所输出的第一特征得分集，对所述主模型进行训练，其中，所述主模型的输出作为所述异常交易识别模型的输出。

可选地，所述训练特征集包括强关联训练特征子集和至少一个弱关联训练特征子集，所述训练异常交易识别模型包括：最终模型和至少一个弱关联模型，其中，所述训练单元还被配置为：利用所述至少一个弱关联训练特征子集一一对应地对所述至少一个弱关联模型进行训练，以得到至少一个训练好的弱关联模型；将所述至少一个弱关联训练特征子集一一对应地输入到所述至少一个训练好的弱关联模型，以从每个训练好的弱关联模型输出第二特征得分集，所述第二特征得分集包括弱关联训练特征子集中的每个训练样本为黑样本的概率得分；利用所述强关联特征子集和从所述至少一个弱关联模型输出的第二特征得分集，对所述最终模型进行训练，其中，所述最终模型的输出作为所述异常交易识别模型的输出，其中，每个弱关联训练特征子集包括：与异常交易无直接关联的聚合特征，不同弱关联训练特征子集包括的聚合特征的特征维度不完全相同；其中，每个强关联训练特征子集包括：与异常交易有直接关联的聚合特征；其中，与异常交易有无直接关联指的是是否可以通过聚合特征直接确定交易是否为异常交易。

根据本公开的第四方面，提供一种异常交易识别装置，所述异常交易识别装置包括：数据获取单元，被配置为获取关于待识别交易的预测数据集，其中，所述预测数据集包括待识别交易的交易信息；特征提取单元，被配置为对所述预测数据集进行特征提取，得到预测特征集；识别单元，被配置为基于所述预测特征集，使用异常交易识别模型识别所述待识别交易是否为异常交易，其中，所述异常交易识别模型是根据本公开所述的异常交易识别模型的训练方法训练得到的。

根据本公开的第五方面，提供一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器可执行指令在被所述处理器运行时，促使所述处理器执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

根据本公开的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

根据本公开的第七方面，提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

根据本公开的异常交易识别模型的训练方法、异常交易识别方法及装置能够基于训练的异常交易识别模型识别异常交易，解决了传统的基于专家规则的识别方法中无法对复杂、庞大的交易数据进行处理的问题，能够提高异常交易识别效率和准确性。

附图说明

图1是示出根据本公开的示例性实施例的异常交易识别模型的训练方法的流程图。

图2是示出根据本公开的示例性实施例的异常交易识别模型的构建时间训练特征子集和交易场景训练特征子集的特征体系的示意图。

图3是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中单模型训练的示意图。

图4是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中利用多个训练特征子集训练模型步骤的一示例的流程图。

图5是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中利用多个训练特征子集训练模型步骤的另一示例的流程图。

图6是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中利用时间特征集进行多模型训练的示意图。

图7是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中利用交易场景特征集进行多模型训练的示意图。

图8是示出根据本公开的示例性实施例的异常交易识别模型的训练方法中利用强特征集和弱特征集进行多模型训练的示意图。

图9是示出根据本公开的示例性实施例的训练异常交易识别模型的示例的流程图。

图10是示出根据本公开的示例性实施例的训练异常交易识别模型的示例特征体系的示意图。

图11是示出根据本公开的示例性实施例的异常交易识别模型的训练装置的框图。

图12是示出根据本公开的示例性实施例的异常交易识别装置的框图。

具体实施方式

提供参照附图的以下描述以帮助对由权利要求及其等同物限定的本公开的实施例的全面理解。包括各种特定细节以帮助理解，但这些细节仅被视为是示例性的。因此，本领域的普通技术人员将认识到在不脱离本公开的范围和精神的情况下，可对描述于此的实施例进行各种改变和修改。此外，为了清楚和简洁，省略对公知的功能和结构的描述。

在此需要说明的是，在本公开中出现的“若干项之中的至少一项”均表示包含“该若干项中的任意一项”、“该若干项中的任意多项的组合”、“该若干项的全体”这三类并列的情况。例如“包括A和B之中的至少一个”即包括如下三种并列的情况：(1)包括A；(2)包括B；(3)包括A和B。又例如“执行步骤一和步骤二之中的至少一个”，即表示如下三种并列的情况：(1)执行步骤一；(2)执行步骤二；(3)执行步骤一和步骤二。

下面参考附图描述根据本公开的示例性实施例的异常交易识别模型的训练方法、异常交易识别方法、异常交易识别模型的训练装置、异常交易识别装置、电子设备、计算机可读存储介质以及包括至少一个计算装置和至少一个存储指令的存储装置的系统。

如图1所示，异常交易识别模型的训练方法可以包括以下步骤：

在步骤S10，可以获取基础样本集。

在该步骤中，基础样本集中的每条交易样本可以包括交易信息和样本标签。

交易信息可以包括与交易相关的任意信息，例如，交易信息可以包括诸如交易流水号、交易时间、交易类型、交易金额、交易币种、人民币金额、POS终端号、交易国家、交易地点、交易账户的开卡地点、交易主体的商户号等。

样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本。在本文中，异常交易可为欺诈交易等非正常交易。

具体来说，样本标签可以为二分类标签，例如，指示黑样本的标签可以为1，指示白样本的标签可以为0。

根据本公开的示例性实施例，获取基础样本集的步骤可以包括：获取业务方的交易信息和候选黑样本；通过与候选黑样本进行比对，确定交易信息中的黑样本和白样本，并进行标记；将标记后的交易信息确定为基础样本集。

这里，业务方的交易信息可以包括在预定时间段内的该业务方的所有交易的信息，候选黑样本可以是由业务方提供的在该预定时间段内的异常交易。

以银行的应用场景为例，如下表1所示，可以选取2019年12月1日至2021年3月31日的所有信用卡的交易信息。候选黑样本可以是银行的客户主动上报给银行的异常交易，或者是被银行现有的规则引擎拦截的并且经过人工核验确认为异常交易的交易，其可以如表2所示的格式。

表1

表2

在获取到交易信息和候选黑样本后，可以将候选黑样本与交易信息按照交易流水号拼接，将交易信息中与候选黑样本能够对应拼接上的交易确认为黑样本，其样本标签例如为1，将交易信息中与候选黑样本不存在对应性的交易确认为白样本，其样本标签例如为0。如此，可将标记后的带有样本标签的交易信息确定为基础样本集。

在步骤S20，可以对基础样本集中的交易样本的样本标签进行修正，得到训练样本集。

为了使后续训练的模型的准确性更高，可以在提取用于模型训练的训练特征前，对基础样本集中的交易样本的样本标签进行修正。

作为示例，样本标签的修正可以包括纯黑样本佐证的步骤和/或黑样本扩展的步骤，下面将分别对这两个步骤进行详细描述。

在样本标签修正的一示例中，对基础样本集中的交易样本的样本标签进行修正的步骤可以包括执行纯黑样本佐证，这里，纯黑样本佐证指的是对基础样本集中已确认的黑样本进行二次确认，以确认其是否满足预设条件，在黑样本满足预设条件的情况下，可以将其确认为纯黑样本，并保留其当前的样本标签；在黑样本不满足预设条件的情况下，可以确认该黑样本实际上为白样本，并将其样本标签修正为指示白样本的样本标签。

这里，用于纯黑样本佐证的预设条件可以是用于验证黑样本的正确性的任意条件。在一情况下，预设条件可以根据黑样本自身的交易特征来确定，例如预设条件可以是交易金额大于预设阈值、交易主体的在基础样本集中的黑样本数量大于预设阈值等。

在另一情况下，预设条件可以根据基础样本集中的黑样本和白样本之间的关系来确定，具体来说，可以通过比对基础样本集中的黑样本和白样本来进行纯黑样本佐证，以对基础样本集中的交易样本的黑样本标签进行修正。在该情况下，预设条件可以仅与基础样本集中的交易样本有关，而无需外部规则输入(例如在上一情况中所述的“交易金额大于预设阈值、交易主体的在基础样本集中的黑样本数量大于预设阈值等”规则)，如此，即使在无外部规则的情况下也可以进行样本修正，这识别异常交易的初始阶段中、在对异常交易没有统计规则的情况下是有益处的。

在该情况下，作为示例，可以对基础样本集中的满足第一预设条件的黑样本的样本标签进行修正，其中，第一预设条件可以为：在黑样本的交易发生时间后的预定时间后，在黑样本的交易主体和交易对手之间还存在白样本。

具体来说，诸如银行的业务方在初次确认黑样本后，会在预定时间内对黑样本进行审核(例如，在2日内)，并且将以诸如人工或自动消息下发的方式，告知黑样本的交易主体的所有人该交易为异常交易，并且告知其交易对手。

这里，交易主体可以是指在交易中资金流出的账户，交易对手可以是指与交易主体发生交易的资金流入的账户。

在交易主体的所有人获知该黑样本交易为异常交易的情况下，交易主体与同一交易对手之间应不会再出现交易，或者，交易主体的所有人会主动上报在被告知的黑样本交易之后与该交易对手之间发生了哪些交易，这些交易也将被认定为异常交易。在这两种情况中，黑样本的交易主体与同一交易对手之间都不会再出现被确认为正常的交易，即，二者间不会再出现白样本。

如此，可以监控在黑样本交易发生后过了上述预定时间后，在基础样本集中是否出现黑样本的交易主体与同一交易对手之间的白样本。若出现黑样本的交易主体与同一交易对手之间的白样本，则将该黑样本的样本标签修改为指示白样本的样本标签，例如，将标签1修改为标签0。

根据本公开的示例性实施例，通过执行纯黑样本佐证，对黑样本进行二次确认，一方面，可以避免黑样本漏判或者误判的情况，另一方面，可以避免人为灌注的黑样本的干扰。

具体来说，在金融行业中，企图进行异常交易的人员可能已知金融机构的风险管理流程，为了应对该风险管理流程，其可能会作为账户的所有人向业务方提供假的黑样本，以干扰业务方的反异常交易机制。对此，根据本公开的示例性实施例，可以通过执行纯黑样本佐证的步骤来基于交易数据判定初次确认的黑样本是否为真正的黑样本，而不是被企图进行异常交易的人员恶意灌注的“黑样本”，从而修正基础样本集中的干扰项。

上面以示例的方式描述了纯黑样本佐证的步骤，在样本标签修正的另一示例中，对基础样本集中的交易样本的样本标签进行修正的步骤也可以包括执行黑样本扩展。

这里，黑样本扩展指的是对基础样本集中已确认的白样本进行二次确认，以判断其是否满足预设条件，在白样本满足预设条件的情况下，可以确认该白样本实际上为黑样本，并将其样本标签修正为指示黑样本的样本标签；在白样本不满足预设条件的情况下，可以确认该白样本实际上即为白样本，并保留其当前的样本标签。

这里，用于黑样本扩展的预设条件可以是用于验证白样本的正确性的任意条件。在一情况下，该预设条件可以根据白样本自身的交易特征来确定，例如预设条件可以是交易金额小于预设阈值、交易主体的在基础样本集中的白样本数量大于预设阈值等。

在另一情况下，该预设条件可以根据基础样本集中的黑样本和白样本之间的关系来确定，具体来说，可以通过比对基础样本集中的黑样本和白样本来进行纯黑样本佐证，以对基础样本集中的交易样本的白样本标签进行修正。

在该情况下，作为示例，可以对基础样本集中的满足第二预设条件的白样本的样本标签进行修正，其中，第二预设条件可以为：在黑样本交易发生的同日内，黑样本的交易主体和交易对手之间还存在交易额与该黑样本的交易额之间的差值小于预定阈值的白样本。

具体来说，同一天内与异常交易的主体(即，黑样本的交易对手)发生的所有交易都存在嫌疑，并且异常交易存在金额相似的特点，因此，若在同一日内，同一交易主体与同一个交易对手之间既存在黑样本，又存在白样本，则二者之间的白样本实际上可能为黑样本，因此，可将与黑样本的交易额差值小于预定阈值的白样本修正为黑样本，这里，预定阈值可以根据实际应用场景进行设定，以业务方是银行为例，其可以是人民币1元。

在该示例中，同一交易主体与同一个交易对手之间可能存在多个黑样本和/或多个白样本，在执行黑样本扩展时，可以将每个白样本与多个黑样本中的每个进行比较，以判断交易额的差值是否小于预定阈值，当一个白样本与多个黑样本中的至少一个黑样本之间的交易额差值小于预定阈值时，则判定该白样本满足上述第二预设条件，从而可对其样本标签进行修正。

根据本公开的示例性实施例，通过执行黑样本扩展，以对白样本进行二次确认，可以避免白样本误判的情况，还可以增加基础样本集中的黑样本的数量。一般来说，在反异常交易的场景下，异常交易通常占总交易的少数，而正常交易占总交易的多数，这就会带来黑白样本比悬差巨大，不利于模型学习到黑白样本之间的区别，因此，增加对黑样本进行扩展的过程，也有利于优化模型的训练。

此外，需要说明的是，根据本公开的示例性实施例，在样本标签的修正中，可以仅执行纯黑样本佐证或仅执行黑样本扩展，或者可以执行二者。

还需要说明的是，根据本公开的示例性实施例，样本标签的修正不限于上面描述的纯黑样本佐证和黑样本扩展，其也可以通过其他方式来执行修正，例如对白样本的样本标签进行修正等。

返回图1，在执行步骤S20后，根据本公开的示例性实施例，可选地，在步骤S30，可以将训练样本集划分为训练集和测试集，其中，训练集用于机器学习模型的学习，测试集用于评估机器学习模型的性能，在此情况下，可以从训练集中剔除单次交易主体的交易样本。这里，单次交易主体是指在训练集中仅存在一次交易的交易主体。

具体来说，在机器学习建模过程中，训练样本的特征通常为统计量，对此，基于仅存在单次交易的交易主体计算出的统计量可能不具有统计学意义，其计算值可能为非数(NaN)。因此，根据本公开的示例性实施例，通过执行步骤S30，可以剔除只有一次交易的交易主体的交易数据，从而优化后续训练的模型性能。此外，考虑到仅有一次交易的交易主体的交易数据也可用于评估模型性能，因此，可将上述交易数据保留在测试集中，如此，在优化训练集的同时，可确保测试集的完整性，从而在优化模型学习过程的同时，不影响模型性能的评估过程。

然而，根据本公开的剔除单次交易主体的交易样本的操作不限于上述示例性实施例，在其他示例性实施例中，也可以从基础样本集中剔除单次交易主体的交易样本，在此情况下，单次交易主体是在基础样本集中仅存在一次交易的交易主体。

在步骤S40，可以对训练样本集进行特征提取，得到训练特征集。

作为示例，可以按照与每个时间维度对应的时间窗口，对训练样本集中的交易场景维度上的字段进行聚合处理得到聚合特征，并基于聚合特征得到训练特征集。这里，时间窗口可以指的是相对于聚合处理所针对的训练样本的交易时间点而言在该交易时间点之前的预定时间段。

这里，交易场景维度可以包括以下项之中的至少一者：交易主体维度、交易对手维度、交易地点维度、交易媒介维度、交易渠道维度和开卡地点维度。

交易主体和交易对手如上文所述。交易地点可以是指交易发生的地点，例如省份、城市、城区、街道等。交易媒介可以是指交易的货币种类，例如人民币、美元等。交易渠道可以是指实施交易的方式，例如网络银行交易、手机银行交易、自助终端交易等。开卡地点可以是指交易主体的开户地点，例如开户行等。

作为示例，训练特征集包括多个训练特征子集，多个训练特征子集可以与不同的特征维度对应。

在一种情况下，训练特征集可以包括多个时间训练特征子集和/或多个交易场景训练特征子集，其中，多个时间训练特征子集与多个不同的时间维度一一对应，每个时间训练特征子集包括与时间训练特征子集所对应的时间维度相关的聚合特征；多个交易场景训练特征子集与多个不同的交易场景维度一一对应，每个交易场景训练特征子集包括与交易场景训练特征子集所对应的交易场景维度相关的聚合特征。如此，可以利用筛选出的不同维度的训练特征集对模型进行不同维度上的训练，以能够使模型从时间维度和/或从交易场景维度更加全面地学习到异常交易的特征。

在另一种情况下，训练特征集可以包括强关联训练特征子集和至少一个弱关联训练特征子集，其中，每个弱关联训练特征子集包括与异常交易无直接关联的聚合特征，不同弱关联训练特征子集包括的聚合特征的特征维度可以不完全相同；每个强关联训练特征子集包括与异常交易有直接关联的聚合特征，这里，与异常交易有无直接关联指的是是否可以通过聚合特征直接确定交易是否为异常交易。

在上面的描述中，不同弱关联训练特征子集包括的聚合特征的特征维度不完全相同可以包括两种情况：在一种情况下，不同弱关联训练特征子集包括的聚合特征的特征维度可以部分相同；在另一种情况下，不同弱关联训练特征子集包括的聚合特征的特征维度可以完全不同。这里，特征维度可以是时间维度或交易场景维度。

具体来说，根据本公开的实施例，由于与异常交易无直接关联的弱关联聚合特征所蕴含的信息可能更分散，因此可以根据聚合特征的特征维度划分出多个弱关联训练特征子集，以将针对不同的特征维度的弱关联训练特征子集输入到不同的弱关联模型中，如此，由于不同弱关联模型对不同特征维度的聚合特征进行训练，同一弱关联模型对相同特征维度的聚合特征进行训练，因此，输入到每个弱关联模型中聚合特征之间的关联性更强，可以实现更好的训练效果。

需要说明的是，强关联训练特征子集和弱关联训练特征子集是根据聚合特征与异常交易的相关性来划分的，其可以是在经过前一情况中根据时间和交易场景维度划分之后的时间训练特征子集和/或交易场景训练特征子集，换言之，时间训练特征子集可以作为强关联训练特征子集或弱关联训练特征子集，交易场景训练特征子集可以作为强关联训练特征子集或弱关联训练特征子集。

图2示出根据本公开的示例性实施例的构建时间训练特征子集和交易场景训练特征子集的特征体系的示意图。

下面首先结合图2对时间训练特征子集进行详细描述。

具体来说，时间维度可以划分为多个，例如其可以划分为短期维度、中期维度和长期维度，其中，短期维度、中期维度和长期维度各自对应一个或多个时间窗口，短期维度所对应的时间窗口中的每个时间窗口的长度小于中期维度所对应的时间窗口中的任意一个时间窗口的长度，中期维度所对应的时间窗口中的每个时间窗口的长度小于长期维度所对应的时间窗口中的任意一个时间窗口的长度。如图2所示，可以在每个时间维度上筛选多个交易场景维度的聚合特征，例如，可以在短期维度、中期维度和长期维度中的每个维度上筛选交易主体维度、交易对手维度、交易地点维度、交易媒介维度和交易渠道维度中的一个或多个维度所对应的聚合特征，从而利用筛选出的聚合特征组成时间训练特征子集。

作为示例，短期维度可以对应一个或多个时间窗口，例如，短期维度的时间窗口可以包括最近第一预设时长的时间窗口和当前交易的时间窗口，中期维度可以对应一个或多个时间窗口，例如，中期维度的时间窗口可以包括最近第二预设时长的时间窗口和最近第三预设时长的时间窗口，长期维度可以对应一个或多个时间窗口，例如，长期维度的时间窗口可以包括最近第四预设时长的时间窗口，其中，第二预设时长大于第一预设时长，第三预设时长大于第二预设时长，第四预设时长大于第三预设时长。这里，时间窗口可以对用于执行聚合的数据进行时间限制。

当前交易可以是指每个训练样本本身，当前交易的时间窗口可以是指仅考虑当前的训练样本生成聚合特征，其窗口长度为0，最近第一预设时长可以是指在当前交易前的第一预设时长，最近第二预设时长可以是指在当前交易前的第二预设时长，最近第三预设时长可以是指在当前交易前的第三预设时长，最近第四预设时长可以是指在当前交易前的第四预设时长。

第一预设时长、第二预设时长、第三预设时长和第四预设时长可以根据实际需求进行设定，作为示例，第一预设时长可以是1天、2天、3天或5天，第二预设时长可以是15天、第三预设时长可以是30天，第四预设时长可以是90天。

相应地，时间训练特征子集可以包括与短期维度对应的短期训练特征集、与中期维度对应的中期训练特征集以及与长期维度对应的长期训练特征集。短期训练特征集、中期训练特征集和长期训练特征集中的任意两者之间或这三者之间可以具有在相同或不同的交易场景维度上的聚合特征。作为示例，短期训练特征集、中期训练特征集和长期训练特征集中的两个或三个具有不同交易场景维度对应的聚合特征。具体来说，由于不同交易场景维度的聚合特征自身特点与时间的相关性是不同的，例如，相比于短期时间维度而言，交易地点维度的聚合特征在考虑长期时间维度时是更有效的，对模型学习更具有指导性，因此，在根据本公开的方法中，不同训练特征集具有不同交易场景维度对应的聚合特征，这可以考虑到聚合特征自身特点与时间的相关性来合理、有效地利用训练特征，优化后续模型的训练。

具体来说，短期训练特征集可以包括与最近第一预设时长的时间窗口对应的聚合特征以及与当前交易的时间窗口对应的聚合特征。

作为示例，与最近第一预设时长的时间窗口对应的聚合特征可以包括以下项中的至少一者：交易主体的高频交易量、交易主体的分散转入转出交易量、交易主体的小额交易量、交易主体的整数/倍数交易占比、交易主体的大额交易量、交易主体的过度资金交易量、交易主体的交易对手数量、交易主体的交易金额波动值。

这里，高频交易量可以是指对交易主体的高频交易的数量，例如在交易频率大于每笔/2秒的频率时，可认为是高频交易。分散转入转出交易量可以是指交易资金频率分散转入转出的数量。小额交易量可以是指交易额小于预设阈值的交易的数量。整数/倍数交易占比统计量可以是指交易额为预设的整数或预设的整数的倍数的交易的数量，这里，倍数可以是预设的整数的n倍，其中，n为大于1的整数。大额交易量可以是指交易额大于预设阈值的交易的数量。过度资金交易量可以是指日终余额小且当日往来交易次数大于预设次数的交易的数量，例如，日终余额小于200元且当日往来交易次数超过30笔。交易金额波动值可以是指交易额的波动幅度。

作为示例，与当前交易的时间窗口对应的聚合特征可以包括以下项中的至少一者：当前交易的标准差统计量、当前交易的交易额是否大于总体均值交易额、当前交易的交易额占比历史交易额的比例、当前交易的交易额是否为大额交易、当前交易是否为夜间交易、当前交易是否整数/倍数交易。

这里，标准差统计量可以是指计算交易的某个字段值的标准差，例如可以利用3sigma函数来求得当前交易的某个字段值的标准差。交易额是否大于总体均值交易额可以是指判断当前交易的交易额是否大于所有交易样本的交易额的均值。交易额占比历史交易额的比例可以是指判断当前交易的交易额在当前交易之前的所有交易样本的交易额的占比。交易额是否为大额交易可以是指当前交易的交易额是否大于预定的大额交易的交易额阈值。当前交易是否为夜间交易可以是指当前交易发生的时间是否在夜间，这里，夜间可以指的是当日22点至次日6点之间。当前交易是否整数/倍数交易可以是指当前交易的交易额是否为整数或整数的倍数。

中期训练特征集可以包括与最近第二预设时长的时间窗口对应的聚合特征以及与最近第三预设时长的时间窗口对应的聚合特征。

作为示例，与最近第二预设时长的时间窗口对应的聚合特征以及与最近第三预设时长的时间窗口对应的聚合特征可以分别包括以下项中的至少一者：金额基础统计量、交易量基础统计量、交易额增长率、交易对手数量基础统计量。

长期训练特征集可以包括与最近第四预设时长的时间窗口对应的聚合特征。

作为示例，与最近第四预设时长的时间窗口对应的聚合特征可以包括以下项中的至少一者：金额基础统计量、交易量基础统计量、交易额增长率、交易对手数量基础统计量。

在上述示例中，基础统计量可以是执行以下处理中的至少一者而得到的：求和值、求平均值、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值。

如上所述，根据本公开的示例性实施例，可以从所有聚合特征中筛选出与每个时间维度(其中，每个时间维度可以包括一个或多个时间窗口)对应的聚合特征，以获得时间训练特征子集，这是考虑到各个聚合特征之间在时间维度上的关联性，如此按照时间维度划分特征，可有利于优化后续模型的训练。

具体来说，人的交易行为一般会随着时间平缓变化，例如，对交易主体的短期维度行为刻画能反映近交易行为的波动，即，交易波动性；对交易主体的中期维度行为刻画能反映交易行为的转变，即，交易过渡性；对交易主体的长期维度行为刻画能反映稳定的交易习惯，即，交易稳定性。通过短期维度的波动、中期维度的转变和长期维度的稳定三方面的刻画能在时间维度上对交易行为进行序列式的展现，这在后续模型训练中对于模型容错短期波动带来的噪声是非常有利的，具体来说，当个体样本的表现偏离所有样本的总体表现时，则可认为该个体样本为异常，如此可有利于准确识别出黑样本。

除了考虑到特征在时间维度上的相关性之外，根据本公开的示例性实施例，还可以从交易场景维度来划分聚合特征，以获得交易场景训练特征子集。

下面将结合图2对交易场景训练特征子集进行详细描述。

交易场景维度可以包括多个交易场景维度，每个交易场景训练特征子集包括与其所对应的交易场景维度相关的聚合特征。

作为示例，交易场景维度可以包括交易主体维度、交易对手维度、交易地点维度、交易媒介维度和交易渠道维度。如图2所示，可以在每个交易场景维度上筛选多个时间维度的特征，例如，可以在交易主体维度、交易对手维度、交易地点维度、交易媒介维度和交易渠道维度中的每个维度上筛选短期维度、中期维度和长期维度中的一个或多个维度所对应的聚合特征，从而利用筛选出的聚合特征组成交易场景训练特征子集。

例如，交易场景训练特征子集可以包括与交易主体维度对应的主体训练特征集、与交易地点维度对应的交易地点训练特征集、与交易媒介维度对应的媒介训练特征集、与开卡地点维度对应的开卡地点训练特征集。

作为示例，主体训练特征集的聚合特征可以包括以下项中的至少一者：在短期维度、中期维度和长期维度上的交易额基础统计量和交易量基础统计量。

交易地点训练特征集的聚合特征可以包括以下项中的至少一者：在短期维度、中期维度和长期维度上的交易额基础统计量。

开卡地点训练特征集的聚合特征可以包括以下项中的至少一者：在短期维度、中期维度和长期维度上的交易额基础统计量。

媒介训练特征集的聚合特征可以包括以下项中的至少一者：在短期维度、中期维度和长期维度上的交易额、交易量基础统计量。

类似地，在上述示例中，基础统计量可以是执行以下处理中的至少一者而得到的：求和值、求平均值、取最大值、取最小值、计算不同字段值的个数、计算字段值的个数、求方差、求均方差、求出现频率最高的预设数量的字段值、取上一个字段值、取上一个非空字段值。

根据本公开的示例性实施例，可以在交易环境的各交易场景维度上对交易进行刻画，按照交易场景维度在不同的时间维度下分别计算特征，在此特征体系的方案下产出的特征具有全面性、可解释性、稳定性、差异性，能够反映各个交易场景维度上的总体表现。

例如，可以从交易主体维度(例如，卡维度)、交易对手维度(例如，商户维度)、交易地点维度、开卡地点维度、交易媒介维度6个交易场景维度来反映各个交易场景维度下不同时间维度的总体交易状况，这里，时间维度可以包括短期维度(例如，时间窗口可以包括最近3天、最近5天、最近7天)、中期维度(例如，时间窗口可以包括最近15天、最近30天)和长期维度(例如，时间窗口可以包括最近90天)。在基于交易场景训练特征子集进行模型训练时，可以比对个体样本的表现与所有样本的总体表现的差异，如果偏离程度过高则认为该个体样本为异常。

尽管上面参照图2描述了时间维度包括短期维度、中期维度和长期维度、交易场景维度包括交易主体维度、交易对手维度等，并且给出了它们所对应的时间训练特征子集和交易场景训练特征子集的示例，但是本公开不限于此，时间维度也可按照其他方式划分，或者添加其他时间维度，交易场景维度也可包括其他交易维度，相应地，时间训练特征子集和交易场景训练特征子集可以根据时间维度和交易场景维度而对应地改变。

返回图1，在步骤S50，可以基于训练特征集，训练异常交易识别模型。

在该步骤中，可以利用训练特征集训练机器学习模型来训练异常交易识别模型。

在模型训练的第一示例中，如图3所示，可以利用训练特征集训练单个机器学习模型来训练异常交易识别模型。

具体来说，可以将训练特征集划分为模型训练集和模型测试集，通过将模型训练集输入预先选择的机器学习模型来训练模型，并利用模型测试集来观测模型的训练效果，可将训练效果满足预期效果的模型作为最终的异常交易识别模型。

根据本公开的示例性实施例，预先选择的机器学习模型可以是GBDT模型、LR模型等，但本公开不限于此，也可选择其他类型的机器学习模型。

在模型训练的第二示例中，训练特征集可以为多个，可以利用多个训练特征集分别训练多个子模型，然后利用训练好的多个子模型的输出集来训练主模型，以将训练好的主模型的输出作为异常交易识别模型的输出。

具体来说，如图4所示，利用多个训练特征集训练异常交易识别模型的步骤可以包括：

S41、利用多个训练特征子集一一对应地对多个子模型进行训练，以得到多个训练好的子模型；S42、将多个训练特征子集一一对应地输入到多个训练好的子模型，以从每个训练好的子模型输出第一特征得分集，第一特征得分集包括训练样本为黑样本的概率得分；S43、利用从多个训练好的子模型所输出的第一特征得分集，对主模型进行训练，将主模型的输出作为异常交易识别模型的输出。

这里，训练特征集的数量可以与子模型的数量相同，以将训练特征集分别输入到子模型中对子模型进行训练。

在步骤S41，在每个子模型的训练过程中，可以将相应的训练特征集划分为子模型的模型训练集和模型测试集，通过将模型训练集输入预先选择的作为子模型的机器学习模型来训练模型，并利用模型测试集来观测模型的训练效果，可将训练效果满足预期效果的模型作为训练好的子模型。

在步骤S42，可以将相应的模型训练集输入到训练好的子模型中，子模型可以输出训练样本的每个训练特征的特征得分，特征得分表示训练样本为黑样本的概率得分，其取值在0至1之间，越接近1则表示对应的训练样本越可能是黑样本，反之则可能是白样本，所有训练样本的特征得分组成第一特征得分集。

在步骤S43，可以将所有子模型输出的第一特征得分集划分为主模型的模型训练集和模型测试集，通过将所有模型训练集输入到作为主模型的机器学习模型来训练模型，并利用模型测试集来观测模型的训练效果，可将训练效果满足预期效果的主模型作为训练好的主模型，并且可将训练好的主模型的输出确定为异常交易识别模型的输出。

训练好的异常交易识别模型可以用于处理诸如实时数据、流式数据和批量数据的任何形式的数据，具体来说，可以将接收到的单条数据或包括多条数据的数据集，按照训练好的异常交易识别模型中的子模型的特征维度进行聚合，并将聚合后的各个特征维度的数据特征输入到与特征维度对应的相应的子模型中，最后，可将所有子模型的输出输入到训练好的异常交易识别模型中的主模型中，并将主模型输出作为整个异常交易识别模型的输出。

这里，当接收到的数据按照训练好的异常交易识别模型中的子模型的特征维度进行聚合时，出现数据缺失的情况，例如在缺少用于某个特征维度上的聚合的数据时，可以通过用预设的默认值填充缺失的数据，以使得模型能够正常计算。

此外，预先选择的作为子模型的机器学习模型和作为主模型的机器学习模型可以是GBDT模型、LR模型等，但本公开不限于此，也可选择其他类型的机器学习模型。此外，多个子模型相互之间可以相同或不同，并且多个子模型中的一个或多个可以与主模型相同或不同。

如上面所述，在训练特征集包括时间训练特征子集和/或交易场景训练特征子集的情况下，可以利用时间训练特征子集和/或交易场景训练特征子集训练子模型，然后利用训练好的子模型的输入集训练主模型。

具体来说，在一种情况下，训练特征集可以包括多个时间训练特征子集。如图6所示，时间训练特征子集可以包括如上所述的短期训练特征集、中期训练特征集和长期训练特征集。

可以将短期训练特征集、中期训练特征集和长期训练特征集分别输入到子模型1、子模型2和子模型3中对三个子模型分别进行训练，然后可将短期训练特征集、中期训练特征集和长期训练特征集输入到训练好的子模型1、子模型2和子模型3中，分别获得三个模型的输出1、输出2和输出3。这里，在短期维度、中期维度和/或长期维度如上面提到地各自对应于多个时间窗口时，可以将相应维度的所有时间窗口上的聚合特征均输入到子模型中，例如，如上所述，短期维度可以包括最近第一预设时长的时间窗口和当前交易的时间窗口，可以将与最近第一预设时长的时间窗口和当前交易的时间窗口二者对应的聚合特征同时输入到子模型1中进行训练。如此，利用输出1、输出2和输出3输入到主模型中进行训练，并可将训练好的主模型的输出作为异常交易识别模型的输出。

在另一种情况下，训练特征集可以包括多个交易场景训练特征子集。如图7所示，交易场景训练特征子集可以包括如上所述的主体训练特征集、对手训练特征集、地点训练特征集、媒介训练特征集等n个交易场景训练特征子集，这里，n为大于1的整数。

可以将n个交易场景训练特征子集分别输入到子模型1、子模型2、子模型3、子模型4至子模型n中对n个子模型分别进行训练，然后可将n个交易场景训练特征子集输入到训练好的n个子模型中，分别获得n个子模型的输出1、输出2、输出3、输出4至输出n。

如此，利用输出1至输出n输入到主模型中进行训练，并可将训练好的主模型的输出作为异常交易识别模型的输出。

在其他情况下，训练特征集可以包括时间训练特征子集和交易场景训练特征子集，具体地，可以将m个时间训练特征子集和s个交易场景训练特征子集分别输入到子模型1、子模型2至子模型m+s中，对m+s个子模型分别进行训练，然后可将m个时间训练特征子集和s个交易场景训练特征子集分别输入到训练好的m+s个子模型中，分别获得m+s个子模型的输出1、输出2至输出m+s。

如此，利用输出1至输出m+s输入到主模型中进行训练，并可将训练好的主模型的输出作为异常交易识别模型的输出。

在模型训练的第三示例中，如图5所示，训练异常交易识别模型的步骤可以包括：S51、利用至少一个弱关联训练特征子集一一对应地对至少一个弱关联模型进行训练，以得到至少一个训练好的弱关联模型；S52、将至少一个弱关联训练特征子集一一对应地输入到至少一个训练好的弱关联模型，以从每个训练好的弱关联模型输出第二特征得分集，第二特征得分集包括训练样本为黑样本的概率得分；S53、利用强关联特征子集和从至少一个弱关联模型输出的第二特征得分集，对最终模型进行训练，其中，最终模型的输出作为异常交易识别模型的输出。

作为示例，如图8所示，弱关联特征子集的数量可以与弱关联模型的数量相同，以将多个弱关联特征子集(如图8中的弱关联特征子集1、2……n)分别输入到弱关联模型中对模型进行训练。

在步骤S51，在每个弱关联模型的训练过程中，可以将相应的弱关联特征子集划分为弱关联模型的模型训练集和模型测试集，通过将模型训练集输入预先选择的作为弱关联模型的机器学习模型来训练模型，并利用模型测试集来观测模型的训练效果，可将训练效果满足预期效果的模型作为训练好的弱关联模型。

在步骤S52，可以将相应的模型训练集输入到训练好的弱关联模型中，弱关联模型可以输出训练样本的每个训练特征的特征得分，特征得分表示训练样本为黑样本的概率得分，其取值在0至1之间，越接近1则表示对应的训练样本越可能是黑样本，反之则可能是白样本，所有训练样本的特征得分组成第二特征得分集。

在步骤S53，可以将所有弱关联模型输出的第二特征得分集以及强关联特征子集分别划分为最终模型的模型训练集和模型测试集，通过将所有模型训练集输入到作为最终模型的机器学习模型来训练模型，并利用模型测试集来观测模型的训练效果，可将训练效果满足预期效果的最终模型作为训练好的最终模型，并且可将训练好的最终模型的输出确定为异常交易识别模型的输出。

这里，预先选择的作为弱关联模型的机器学习模型和作为最终模型的机器学习模型可以是GBDT模型、LR模型等，但本公开不限于此，也可选择其他类型的机器学习模型。此外，多个弱关联模型相互之间可以相同或不同，并且多个弱关联模型中的一个或多个可以与最终模型相同或不同。

下面以银行的信用卡交易数据为例，参照图9和图10描述训练异常交易识别模型的整体过程。

如图9所示，首先在步骤S1至步骤S6中执行样本选择的过程。

在步骤S1，可以获取2019年12月1日到2021年3月31日的信用卡交易数据集和黑样本信息。

在步骤S2，可基于黑样本信息对信用卡交易数据集进行标签标记，(例如，黑样本和白样本分别标记为1和0)，获得基础样本集。

在步骤S3，可对基础样本集执行纯黑样本判定，具体来说，对于标签为1的样本，如果在其交易时间的2日后，同一张信用卡(即，交易主体)与同一个交易对手发生交易并且其标记为0，则原标记为1的样本的标签可被修改为0。

在步骤S4，可对黑样本进行扩展，具体来说，如果在黑样本的交易时间的同一日，同一张信用卡与同一交易对手既有标签为1的交易，又有标签为0的交易，则将与标签为1的交易的交易额差值小于1元的交易的标签修改为1。

在步骤S5，可以对在步骤S4中得到的扩展后的样本进行筛选，剔除掉仅存在一次交易的信用卡的所有交易记录。

接着，在步骤S6，建立用于训练模型的特征体系，例如，可以建立用于上面参照图6所描述的模型训练示例的特征体系。

具体来说，在本实例中，可从聚合特征中筛选与交易场景维度对应的聚合特征，以构建交易场景训练特征子集。这里，交易场景维度可以包括卡维度(作为交易主体维度)、商户维度(作为交易对手)、交易地点维度、开卡地点维度、pose输入方式维度(作为交易媒介维度)六个维度，可以在该六个维度上分别在短期维度(例如，时间窗口长度可以包括最近3天、5天、7天)、中期维度(例如，时间窗口长度可以包括最近15天、30天)和长期维度(例如，时间窗口长度可以包括最近90天)中的一个或多个维度上筛选聚合特征，以构建如图10所示的特征体系。

如此，交易场景训练特征子集可以包括主体训练特征集、交易对手训练特征集、交易地点训练特征集、媒介训练特征集、开卡地点训练特征集。

主体训练特征集的聚合特征可以包括在短期维度、中期维度和长期维度上的聚合特征。

交易对手训练特征集的聚合特征可以包括在短期维度和中期维度上的聚合特征。

交易地点训练特征集的聚合特征可以包括在短期维度和中期维度上的聚合特征。

媒介训练特征集的聚合特征可以包括在短期维度和中期维度上的聚合特征。

开卡地点训练特征集的聚合特征可以包括在短期维度和中期维度上的聚合特征。

上面所述的各训练特征集具体包括的聚合特征如图10中所示，其中，各聚合特征的含义已在上文中详细描述，在此不再赘述。

接着，在步骤S7和步骤S8，可以训练异常交易识别模型。例如，可以采用上面参照图7和图8所描述的模型训练过程训练模型。

具体来说，可以将开卡地点训练特征集作为弱关联特征子集，并将其他维度的训练特征集作为强关联特征子集。如此，在步骤S7，可以利用开卡地点训练特征集先对弱关联模型进行训练，并将弱关联特征子集输入到训练好的弱关联模型中，得到弱关联输出集。这里，如图8所示，弱关联模型可以为GBDT模型。

在步骤S8，可以利用强关联特征子集和从弱关联模型输出的弱关联输出集，对最终模型进行训练，将训练后的最终模型的输出作为异常交易识别模型的输出。这里，如图8所示，最终模型也可以为GBDT模型。

此外，在上述步骤S8中，可以按照时间将训练特征集划分为用于训练异常交易识别模型的训练集以及用于测试训练的模型的计算性能的测试集，例如，可以将训练特征集中的2019年12月1日到2020年12月31日的特征作为训练集，将2021年1月1日到2021年3月31日的特征作为测试集。这里，可以进一步地将训练集划分为弱关联模型训练集和弱关联模型验证集，弱关联模型训练集用于训练弱关联模型，弱关联模型验证集用于验证弱关联模型的计算性能。例如，可以将训练集中的2019年12月1日到2020年11月30日的特征作为弱关联模型训练集，将2020年12月1日到2020年12月31日的特征作为弱关联模型验证集。

利用测试集对所训练的异常交易识别模型的计算性能的测试效果如下表3所示：

表3

月份	召回率	准确率
			2021年1月	10％	26.2％
2021年2月	10％	34.5％
			2021年3月	10％	30.6％

在上表中，在处理相应月份的数据时，可根据模型的计算需求获取在相应月份的数据之外的数据用于聚合，例如，对于2021年1月1日的测试样本而言，若需要计算该测试样本最近3天、最近5天和最近7天的交易统计量，则可以获取2020年12月的交易数据以进行上述交易统计量的计算。

从上表3可见，根据本公开的示例性实施例的训练方法训练的异常交易识别模型的召回率和准确率二者基本达到稳定的平衡，具有良好的计算性能。

根据本公开的第二方面，提供一种异常交易识别方法，该异常交易识别方法包括：获取关于待识别交易的预测数据集，其中，预测数据集包括待识别交易的交易信息；对预测数据集进行特征提取，得到预测特征集；基于预测特征集，使用异常交易识别模型识别待识别交易是否为异常交易。这里，异常交易识别模型是根据上面描述的本公开的异常交易识别模型的训练方法训练得到的，其训练过程在此不再赘述。

如图11所示，根据本公开的第三方面，提供一种异常交易识别模型的训练装置，该训练装置包括获取单元100、修正单元200、提取单元300和训练单元400。

获取单元100可以被配置为获取基础样本集，其中，基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本。

修正单元200可以被配置为对基础样本集中的交易样本的样本标签进行修正，得到训练样本集。

提取单元300可以被配置为对训练样本集进行特征提取，得到训练特征集。

训练单元400可以被配置为基于训练特征集，训练异常交易识别模型。

作为示例，修正单元200还可以被配置为：通过比对基础样本集中的黑样本和白样本，对基础样本集中的交易样本的样本标签进行修正，得到训练样本集。

作为示例，修正单元200还可以被配置为：对基础样本集中的满足第一预设条件的黑样本的样本标签进行修正；和/或，对基础样本集中的满足第二预设条件的白样本的样本标签进行修正。这里，第一预设条件为：在黑样本的交易发生后的预定时间后，在黑样本的交易主体和交易对手之间还存在白样本。这里，第二预设条件为：在黑样本的交易发生时间的同日内，黑样本的交易主体和交易对手之间还存在交易额与黑样本的交易额之间的差值小于预定阈值的白样本。

作为示例，训练装置还可以包括剔除单元，剔除单元还可以被配置为：将训练样本集划分为训练集和测试集，其中，训练集用于机器学习模型的学习，测试集用于评估机器学习模型的性能；从训练集中剔除单次交易主体的交易样本，其中，单次交易主体是在训练集中仅存在一次交易的交易主体。

可选地，剔除单元还可以被配置为：从基础样本集中剔除单次交易主体的交易样本，其中，单次交易主体是在基础样本集中仅存在一次交易的交易主体。

作为示例，提取单元300还可以被配置为：按照与每个时间维度对应的时间窗口，对训练样本集中的交易场景维度上的字段进行聚合处理得到聚合特征，并基于聚合特征得到训练特征集。

作为示例，训练特征集包括：多个训练特征子集，多个训练特征子集与不同的特征维度对应，异常交易识别模型包括：主模型和多个子模型，其中，训练单元400还可以被配置为：利用多个训练特征子集一一对应地对多个子模型进行训练，以得到多个训练好的子模型；将多个训练特征子集一一对应地输入到多个训练好的子模型，以从每个训练好的子模型输出第一特征得分集，第一特征得分集包括训练特征子集中的每个训练样本为黑样本的概率得分；利用从多个训练好的子模型所输出的第一特征得分集，对主模型进行训练，其中，主模型的输出作为异常交易识别模型的输出。

作为示例，多个训练特征子集包括多个时间训练特征子集和/或多个交易场景训练特征子集，其中，多个时间训练特征子集与多个不同的时间维度一一对应，每个时间训练特征子集包括：与时间训练特征子集所对应的时间维度相关的聚合特征；多个交易场景训练特征子集与多个不同的交易场景维度一一对应，每个交易场景训练特征子集包括：与交易场景训练特征子集所对应的交易场景维度相关的聚合特征。

作为示例，训练特征集包括强关联训练特征子集和至少一个弱关联训练特征子集，训练异常交易识别模型包括：最终模型和至少一个弱关联模型，其中，训练单元400还可以被配置为：利用至少一个弱关联训练特征子集一一对应地对至少一个弱关联模型进行训练，以得到至少一个训练好的弱关联模型；将至少一个弱关联训练特征子集一一对应地输入到至少一个训练好的弱关联模型，以从每个训练好的弱关联模型输出第二特征得分集，第二特征得分集包括弱关联训练特征子集中的每个训练样本为黑样本的概率得分；利用强关联特征子集和从至少一个弱关联模型输出的第二特征得分集，对最终模型进行训练，其中，最终模型的输出作为异常交易识别模型的输出，其中，每个弱关联训练特征子集包括：与异常交易无直接关联的聚合特征，不同弱关联训练特征子集包括的聚合特征的特征维度不完全相同；其中，每个强关联训练特征子集包括：与异常交易有直接关联的聚合特征；其中，与异常交易有无直接关联指的是是否可以通过聚合特征直接确定交易是否为异常交易。

作为示例，时间维度划分为短期维度、中期维度和长期维度，其中，短期维度、中期维度和长期维度各自对应一个或多个时间窗口，短期维度所对应的时间窗口中的每个时间窗口的长度小于中期维度的所对应的时间窗口中的任意一个时间窗口的长度，中期维度所对应的时间窗口中的每个时间窗口的长度小于长期维度所对应的时间窗口中的任意一个时间窗口的长度。

作为示例，交易场景维度包括以下项之中的至少一者：交易主体维度、交易对手维度、交易地点维度、交易媒介维度、交易渠道维度和开卡地点维度。

如图12所示，根据本公开的第四方面，提供一种异常交易识别装置，异常交易识别装置包括：数据获取单元10，被配置为获取关于待识别交易的预测数据集，其中，预测数据集包括待识别交易的交易信息；特征提取单元20，被配置为对预测数据集进行特征提取，得到预测特征集；识别单元30，被配置为基于预测特征集，使用异常交易识别模型识别待识别交易是否为异常交易。这里，异常交易识别模型是根据本公开所述的异常交易识别模型的训练方法训练得到的，其训练过程在此不再赘述。

根据本公开的第五方面，提供一种电子设备，所述电子设备包括：处理器；用于存储处理器可执行指令的存储器，其中，处理器可执行指令在被处理器运行时，促使处理器执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

根据本公开的第六方面，提供一种存储指令的计算机可读存储介质，当所述指令被至少一个计算装置运行时，促使至少一个计算装置执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

根据本公开的第七方面，提供一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，指令在被至少一个计算装置运行时，促使至少一个计算装置执行根据本公开所述的异常交易识别模型的训练方法或根据本公开所述的异常交易识别方法。

图11和图12所示出的异常交易识别模型的训练装置和异常交易识别装置中的各个单元可被配置为执行特定功能的软件、硬件、固件或上述项的任意组合。例如，各个单元可对应于专用的集成电路，也可对应于纯粹的软件代码，还可对应于软件与硬件相结合的模块。此外，各个单元所实现的一个或多个功能也可由物理实体设备(例如，处理器、客户端或服务器等)中的组件来统一执行。

此外，参照图1至图10所描述的异常交易识别模型的训练方法或异常交易识别方法可通过记录在计算机可读存储介质上的程序(或指令)来实现。例如，根据本公开的示例性实施例，可提供存储指令的计算机可读存储介质，其中，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据本公开的异常交易识别模型的训练方法或异常交易识别方法。

上述计算机可读存储介质中的计算机程序可在诸如客户端、主机、代理装置、服务器等计算机设备中部署的环境中运行，应注意，计算机程序还可用于执行除了上述步骤以外的附加步骤或者在执行上述步骤时执行更为具体的处理，这些附加步骤和进一步处理的内容已经在参照图1至图10进行相关方法的描述过程中提及，因此这里为了避免重复将不再进行赘述。

应注意，根据本公开示例性实施例的异常交易识别模型的训练装置和异常交易识别模型中的各个单元可完全依赖计算机程序的运行来实现相应的功能，即，各个单元在计算机程序的功能架构中与各步骤相应，使得整个系统通过专门的软件包(例如，lib库)而被调用，以实现相应的功能。

另一方面，图11和图12所示的各个单元也可以通过硬件、软件、固件、中间件、微代码或其任意组合来实现。当以软件、固件、中间件或微代码实现时，用于执行相应操作的程序代码或者代码段可以存储在诸如存储介质的计算机可读介质中，使得处理器可通过读取并运行相应的程序代码或者代码段来执行相应的操作。

例如，本公开的示例性实施例还可以实现为计算装置，该计算装置包括存储部件和处理器，存储部件中存储有计算机可执行指令集合，当计算机可执行指令集合被处理器执行时，执行根据本公开的示例性实施例的异常交易识别模型的训练方法或异常交易识别方法。

具体说来，计算装置可以部署在服务器或客户端中，也可以部署在分布式网络环境中的节点装置上。此外，计算装置可以是PC计算机、平板装置、个人数字助理、智能手机、web应用或其他能够执行上述指令集合的装置。

这里，计算装置并非必须是单个的计算装置，还可以是任何能够单独或联合执行上述指令(或指令集)的装置或电路的集合体。计算装置还可以是集成控制系统或系统管理器的一部分，或者可被配置为与本地或远程(例如，经由无线传输)以接口互联的便携式电子装置。

在计算装置中，处理器可包括中央处理器(CPU)、图形处理器(GPU)、可编程逻辑装置、专用处理器系统、微控制器或微处理器。作为示例而非限制，处理器还可包括模拟处理器、数字处理器、微处理器、多核处理器、处理器阵列、网络处理器等。

根据本公开示例性实施例的异常交易识别模型的训练方法和异常交易识别方法中所描述的某些操作可通过软件方式来实现，某些操作可通过硬件方式来实现，此外，还可通过软硬件结合的方式来实现这些操作。

处理器可运行存储在存储部件之一中的指令或代码，其中，存储部件还可以存储数据。指令和数据还可经由网络接口装置而通过网络被发送和接收，其中，网络接口装置可采用任何已知的传输协议。

存储部件可与处理器集成为一体，例如，将RAM或闪存布置在集成电路微处理器等之内。此外，存储部件可包括独立的装置，诸如，外部盘驱动、存储阵列或任何数据库系统可使用的其他存储装置。存储部件和处理器可在操作上进行耦合，或者可例如通过I/O端口、网络连接等互相通信，使得处理器能够读取存储在存储部件中的文件。

此外，计算装置还可包括视频显示器(诸如，液晶显示器)和用户交互接口(诸如，键盘、鼠标、触摸输入装置等)。计算装置的所有组件可经由总线和/或网络而彼此连接。

根据本公开示例性实施例的异常交易识别模型的训练方法和异常交易识别方法可被描述为各种互联或耦合的功能块或功能示图。然而，这些功能块或功能示图可被均等地集成为单个的逻辑装置或按照非确切的边界进行操作。

因此，参照图1至图10所描述的异常交易识别模型的训练方法或异常交易识别方法可通过包括至少一个计算装置和至少一个存储指令的存储装置的系统来实现。

根据本公开的示例性实施例，至少一个计算装置是根据本公开示例性实施例的用于执行异常交易识别模型的训练方法或异常交易识别方法的计算装置，存储装置中存储有计算机可执行指令集合，当计算机可执行指令集合被至少一个计算装置执行时，执行参照图1至图10所描述的异常交易识别模型的训练方法或异常交易识别方法。

以上描述了本公开的各示例性实施例，应理解，上述描述仅是示例性的，并非穷尽性的，本公开不限于所披露的各示例性实施例。在不偏离本公开的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。因此，本公开的保护范围应该以权利要求的范围为准。

Claims

1.一种异常交易识别模型的训练方法，其特征在于，包括：

获取基础样本集，其中，所述基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本；

对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集；

对所述训练样本集进行特征提取，得到训练特征集；

基于所述训练特征集，训练异常交易识别模型。

2.根据权利要求1所述的训练方法，其特征在于，对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集的步骤包括：

通过比对所述基础样本集中的黑样本和白样本，对所述基础样本集中的交易样本的样本标签进行修正，得到所述训练样本集。

3.根据权利要求2所述的训练方法，其特征在于，通过比对所述基础样本集中的黑样本和白样本，对所述基础样本集中的交易样本的样本标签进行修正，得到所述训练样本集的步骤包括：

对所述基础样本集中的满足第一预设条件的黑样本的样本标签进行修正；

和/或，

对所述基础样本集中的满足第二预设条件的白样本的样本标签进行修正；

其中，第一预设条件为：在黑样本的交易发生后的预定时间后，在所述黑样本的交易主体和交易对手之间还存在白样本，

其中，第二预设条件为：在黑样本的交易发生时间的同日内，所述黑样本的交易主体和交易对手之间还存在交易额与所述黑样本的交易额之间的差值小于预定阈值的白样本。

4.根据权利要求1所述的训练方法，其特征在于，还包括：

将所述训练样本集划分为训练集和测试集，其中，所述训练集用于机器学习模型的学习，所述测试集用于评估机器学习模型的性能；

从所述训练集中剔除单次交易主体的交易样本，

其中，所述单次交易主体是在所述训练集中仅存在一次交易的交易主体。

5.一种异常交易识别方法，其特征在于，包括：

获取关于待识别交易的预测数据集，其中，所述预测数据集包括待识别交易的交易信息；

对所述预测数据集进行特征提取，得到预测特征集；

基于所述预测特征集，使用异常交易识别模型识别所述待识别交易是否为异常交易，其中，所述异常交易识别模型是根据权利要求1至4中的任一权利要求所述的异常交易识别模型的训练方法训练得到的。

6.一种异常交易识别模型的训练装置，其特征在于，包括：

获取单元，被配置为获取基础样本集，其中，所述基础样本集中的每条交易样本包括交易信息和样本标签，样本标签指示交易样本为异常交易的黑样本或为正常交易的白样本；

修正单元，被配置为对所述基础样本集中的交易样本的样本标签进行修正，得到训练样本集；

提取单元，被配置为对所述训练样本集进行特征提取，得到训练特征集；

训练单元，被配置为基于所述训练特征集，训练异常交易识别模型。

7.一种异常交易识别装置，其特征在于，包括：

数据获取单元，被配置为获取关于待识别交易的预测数据集，其中，所述预测数据集包括待识别交易的交易信息；

特征提取单元，被配置为对所述预测数据集进行特征提取，得到预测特征集；

识别单元，被配置为基于所述预测特征集，使用异常交易识别模型识别所述待识别交易是否为异常交易，其中，所述异常交易识别模型是根据权利要求1至4中的任一权利要求所述的异常交易识别模型的训练方法训练得到的。

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器，

其中，所述处理器可执行指令在被所述处理器运行时，促使所述处理器执行根据权利要求1至4中的任一权利要求所述的异常交易识别模型的训练方法或根据权利要求5所述的异常交易识别方法。

9.一种存储指令的计算机可读存储介质，其特征在于，当所述指令被至少一个计算装置运行时，促使所述至少一个计算装置执行根据权利要求1至4中的任一权利要求所述的异常交易识别模型的训练方法或根据权利要求5所述的异常交易识别方法。

10.一种包括至少一个计算装置和至少一个存储指令的存储装置的系统，其特征在于，所述指令在被所述至少一个计算装置运行时，促使所述至少一个计算装置执行根据权利要求1至4中的任一权利要求所述的异常交易识别模型的训练方法或根据权利要求5所述的异常交易识别方法。