CN117455518B

CN117455518B - 一种欺诈交易检测方法和装置

Info

Publication number: CN117455518B
Application number: CN202311793652.0A
Authority: CN
Inventors: 王愚; 侯兴翠; 王化楠
Original assignee: Lianlian Hangzhou Information Technology Co ltd; Lianlian Yintong Electronic Payment Co ltd
Current assignee: Lianlian Hangzhou Information Technology Co ltd; Lianlian Yintong Electronic Payment Co ltd
Priority date: 2023-12-25
Filing date: 2023-12-25
Publication date: 2024-04-19
Anticipated expiration: 2043-12-25
Also published as: CN117455518A

Abstract

本发明公开了一种欺诈交易检测方法和装置，该方法包括：获取目标交易的交易信息，提取多个主体和主体属性词；利用多个主体和主体属性词构建key‑value字典，并将key‑value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；将词元的词表示向量、类型向量、随机位置向量合并，得到词元的合并向量；利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。本方案有效理解用户的风险行为偏好及泛化到各种欺诈场景，大大适应各种欺诈风险环境，实现高准确性和高效的交易欺诈风险预测。

Description

一种欺诈交易检测方法和装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种欺诈交易检测方法和装置。

背景技术

跨境支付中如何有效、及时地识别频繁发生且复杂多样的交易欺诈风险行为，是支付机构一个迫切需要解决的问题。通常，传统的方法是基于结构化数据，通过业务规则或者基于结构化统计特征的机器学习模型识别风险，但此类方法无法利用多模态数据和结构化数据结合进行有效的端到端学习，且不适用于最先进的半监督学习方法。同时针对越来越复杂的欺诈风险环境适应性较低，难以达到高准确性和高效性的要求。

发明内容

本发明旨在至少解决现有技术中存在的技术问题，为此，本发明第一方面提出一种欺诈交易检测方法，所述方法包括：

获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；所述主体至少包括所述交易信息中的买家、商品和交易过程；

利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；

利用预先训练好的嵌入模型，获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；

根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量；

利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

可选地，所述欺诈交易预测模型的编码器层包括多头注意力模块，所述多头注意力模块至少包括第一注意力子层、第二注意力子层，所述对所述词元的合并向量进行注意力计算，包括：

在所述第一注意力子层、所述第二注意力子层中，分别对所述词元的合并向量进行第一混合注意力计算和第二混合注意力计算，得到第一混合注意力矩阵和第二混合注意力矩阵；

所述第一混合注意力矩阵和所述第二混合注意力矩阵分别为不同注意力机制的融合。

可选地，所述第一混合注意力计算的步骤包括：

从所述目标文档中，分别提取位于所述词元前后的k/2个词元，得到k个第一词元，所述k个第一词元为两两相邻；k为整数；

从所述目标文档中，分别提取位于所述词元前后的d/2个词元，得到d个第二词元；其中，每两个第二词元之间、以及位于所述词元前后的第二词元与所述词元之间，均相隔m个空隙，m为整数；d、m分别为整数；

将所述词元的合并向量，分别与所述k个第一词元的合并向量，作自注意力计算，得到所述词元的多个第一注意力值；将所述词元的合并向量，分别与所述d个第二词元的合并向量，作自注意力计算，得到所述词元的多个第二注意力值；

根据所述第一注意力值构建所述词元的第一注意力矩阵，所述第一注意力矩阵为n行n列矩阵，n为所述目标文档的词元总数，所述第一注意力矩阵中的所述k个第一词元所在位置的值为所述第一词元与所述词元的第一自注意力值，所述第一注意力矩阵其他位置的值为0；n为整数，n＞k，n＞d，n＞m；

根据所述第二注意力值构建第二注意力矩阵，所述第二注意力矩阵为n行n列矩阵，所述第二注意力矩阵中的所述d个第二词元所在位置的值为所述第二词元与所述词元的第二自注意力值，所述第二注意力矩阵其他位置的值为0；

将所述第一注意力矩阵和所述第二注意力矩阵求和，得到第一混合注意力矩阵。

可选地，所述第二混合注意力计算的步骤包括：

对于所述目标文档中的每个词元，计算所述词元与其他各个词元的相似度值；

获取所述相似度值排名在前p个的词元，得到与所述词元具有强相关性的p个第三词元；

根据所述p个第三词元的相似度值构建第三注意力矩阵，所述第三注意力矩阵为n行n列矩阵，所述第三注意力矩阵中的所述p个第三词元所在位置的值为对应的所述相似度值，所述第三注意力矩阵其他位置的值为0；p为整数，p＜n；

对于所述目标文档中的每个词元，计算所述词元与第四词元的相似度值；所述第四词元为与所述词元的相对距离为q的倍数的词元；q为整数，q＜n；

根据q个第四词元的相似度值构建第四注意力矩阵，所述第四注意力矩阵为n行n列矩阵，所述第四注意力矩阵中的所述q个第四词元所在位置的值为对应的所述相似度值，所述第四注意力矩阵其他位置的值为0；

将所述第三注意力矩阵与所述第四注意力矩阵求和，得到第二混合注意力矩阵。

可选地，所述欺诈交易预测模型通过以下方法训练得到：

获取通用样本文档，所述通用样本文档为自然语言描述模式的通用领域文档；

利用所述嵌入模型生成所述通用样本文档中的各个样本词元对应的词表示向量，对所述样本词元进行所述类型向量表示、所述随机位置向量表示，并将所述样本词元的词表示向量、类型向量、随机位置向量合并，得到所述样本词元的样本合并向量；

搭建Encoder网络模型，构建初始嵌入层和初始编码器层，所述初始编码器层包括多头注意力模块和前馈神经网络模块；

将所述样本合并向量输入所述Encoder网络模型，基于所述样本词元的合并向量和所述样本词元之间的位置关系，确定所述多个词元之间的相关性，并根据所述相关性进行注意力计算，得到第一混合样本注意力矩阵、第二混合样本注意力矩阵；

将所述第一混合样本注意力矩阵、所述第二混合样本注意力矩阵分别作为权重矩阵训练所述多头注意力模块，并训练所述前馈神经网络模块，得到具有通用的数据表示能力的预训练网络模型；

在所述预训练网络模型的多个层后添加适配层，并在所述预训练网络模型的最后一层之后添加二分类层；

获取网络交易领域的交易样本文档，并基于所述交易样本文档对所述预训练网络模型的参数进行微调，并对所述适配层和二分类层的参数进行联合微调，持续迭代训练直至满足第一预设终止条件，将此时的预训练网络模型、适配层和二分类层的整体作为欺诈交易预测模型。

可选地，在构建初始嵌入层和初始编码器层之后，还包括：

随机掩盖所述通用样本文档中的多个位置的样本词元；

将所述第一混合样本注意力矩阵、所述第二混合样本注意力矩阵，输入所述初始编码器层，利用所述多头注意力模块、所述前馈神经网络模块预测所述位置对应的填充词元；

根据所述填充词元的合并向量与对应的真实词元的合并向量，对所述填充词元和所述真实词元进行相似性比对，得到比对结果；

根据所述比对结果修改所述多头注意力模块、所述前馈神经网络模块的参数，持续迭代训练直至满足第二预设终止条件则训练结束，得到具有通用的数据表示能力的预训练网络模型。

可选地，在获取所述目标文档中包含的多个词元的词表示向量之后，包括：

确定各个所述词表示向量的L2-范数，并将所述L2-范数按照由大到小的顺序进行排序；

提取排序在前N名的词元作为目标词元；

根据所述目标词元所属的key类型或value类型，对所述目标词元进行类型向量表示，并对所述目标词元进行随机位置向量表示，将所述目标词元的词表示向量、类型向量、随机位置向量合并，得到所述目标词元的合并向量；

利用所述欺诈交易预测模型的编码器层对所述目标词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

本发明第二方面提出一种欺诈交易检测装置，所述装置包括：

提取模块，用于获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；所述主体至少包括所述交易信息中的买家、商品和交易过程；

转换模块，用于利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；

词表示向量获取模块，用于利用预先训练好的嵌入模型，获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；

合并模块，用于根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量；

预测模块，用于利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

本发明第三方面提出一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的欺诈交易检测方法。

本发明第四方面提出一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的欺诈交易检测方法。

本发明实施例具有以下有益效果：

本发明实施例提供的欺诈交易检测方法，获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；利用预先训练好的嵌入模型获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量；利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。本方案设计合理的语言模型输入数据模板key-value字典，构建具有固定语义模式的自然语言文档，利用自然语言的表达力更好地描述结构化数据中的信息,使信息更完整和便于理解；并且，将词元的词表示向量、类型向量、随机位置向量合并，来进一步增加词元的信息表示全面度，有效理解用户的风险行为偏好及泛化到各种已见或者未见的欺诈场景并对其进行预测推理，从而大大适应越来越复杂的欺诈风险环境，实现高准确性和高效的交易欺诈风险预测工作。

附图说明

图1为本发明实施例提供的一种欺诈交易检测方法的步骤流程图；

图2是本发明实施例提供的一种欺诈交易预测模型的训练方法的步骤流程图；

图3为本发明实施例提供的一种欺诈交易检测模块的结构框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本公开实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。另外，“基于”或“根据”的使用意味着开放和包容性，因为“基于”或“根据”一个或多个所述条件或值的过程、步骤、计算或其他动作在实践中可以基于额外条件或超出所述的值。

图1为本发明实施例提供的一种欺诈交易检测方法的步骤流程图。

如图1所示，该方法包括以下步骤：

步骤101、获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；所述主体至少包括所述交易信息中的买家信息、商品信息、交易过程信息和卖家信息。

自然语言具有表达概念和关系的强大能力几乎可以描述任何事物。自然语言提供一个通用的空间，使得机器可以更好地理解和学习不同任务之间的内在联系和共性模式。在支付业务中识别交易欺诈风险时，将结构化数据转换为自然语言文本，可以让语言成为表示各类任务的强大媒介，使得机器通过语言理解的预训练获得跨任务的迁移学习能力及好的泛化和推理能力。这为利用预训练语言模型解决诸如交易欺诈等实际问题提供了一个有效途径，为构建成熟的智能化支付风险识别体系、及时准确高效的识别欺诈交易，从而提升买家体验及减少平台资损至关重要。

具体地，目标交易为待检测是否为欺诈交易的交易，由于欺诈交易检测对实时性要求较高，可以在每一笔交易达成后，将该交易作为目标交易，立即检测该交易是否为欺诈交易。

目标交易的交易信息可以从交易记录、操作日志等结构化数据中获得，获得交易信息的来源越多越好。

提取交易信息中包含的多个主体和主体属性词。其中，主体中的买家信息，主体可以为：user id（买家ID）、User gender（买家性别）、User address（买家地址）、User email（买家邮箱）等买家已授权获取的个人信息。主体中的商品信息，具体包括Product ID（商品ID）、Product name（商品名称）、Product price（商品价格）等。主体中的交易过程信息，具体包括time（交易时间）、number（交易数量）、card（银行卡）等。主体中的卖家信息，主体可以为：Seller id（卖家ID）、Seller Qualification（卖家资质）等。

主体属性词是指描述主体属性的词语。例如，001为user id的主体属性词，women为User gender的属性词，***@***为User email的属性词。

步骤102、利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档。

其中，key-value字典中的key表示主体，value表示主体属性词，一个交易有多个key-value对，多个key-value对组成该交易的key-value字典。

例如，交易A的key-value字典中的内容包括：user id-001、User gender-women、User email-***@***等。

将key-value字典展平为一个具有固定语义模式的自然语言文档，并融入一些背景描述，使得转换的语音更流畅合理。

例如，转换得到的目标文档为：“The user(name) of transaction event id1001 status success email test@example.com device ios mobile The purchaseproducts category 3C digital products risk level low purchase quantity_0shipping_address 9999 Camden Road,payment VISA card billing_address PudongNew Area, Shanghai, The history behavior associated transactions_1 average_transaction amount_2”。

上文只列举部分属性维度，实际目标文档的文本长度很长。应用时围绕买家的基本信息、买家本次购买的商品信息、买家历史行为信息、买家反馈文本信息，商家资质信息等方面选择重要性高的属性维度。

步骤103、利用预先训练好的嵌入模型获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位。

将上一步骤中构建的目标文档输入嵌入模型，嵌入模型识别目标文档中包括的多个词元（token），并生成每个词元的词表示向量，作为初始化embedding。

其中，词元是文本中的最小单位。在英文中，一个 token 可以是一个单词，也可以是一个标点符号。在中文中，通常以字或词作为 token。对于模型而言，token 是一种数字化的表示形式。每个 token 都与一个唯一的数字 ID 相关联，模型通过这些 ID 来区分不同的 token。在训练过程中，模型学习了将文本映射到这些数字 ID 的方法，以便能够对新的文本进行编码和解码。

此外，嵌入模型为基于RoBERTa或Bert等自然语言处理模型构建的。

步骤104、根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量。

对词元进行类型向量表示，得到类型向量，即类型embedding。类型就是指key的类型，还是value的类型，用0和1表示。若该词元属于key，则类型向量是0，若该词元属于value，则类型向量是1。

随机位置向量生成的方法是：随机生成0-1之间的n个数，随机为每个词元赋予一个位置，得到每个词元对应的随机位置向量，即随机位置embedding。

将词元的词表示向量、类型向量、随机位置向量求和，得到该词元的合并向量。

步骤105、利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

每个词元都有合并向量，注意力计算就是两个词之间的相似性。对于每个词元，求该词元的合并向量和目标文档中的其他词元的合并向量的相似性，得到每个词元对应的相似性矩阵。相似性越高，则表示那个词元对该词元越重要。

因此，相似性表示权重，相似性矩阵即权重矩阵。

对于全连接层或线性层，每个神经元都有一个对应的权重向量，这些权重向量拼接成了整个权重矩阵。将输入数据与该层的权重矩阵相乘。优化算法（如梯度下降）会根据损失函数的梯度对参数进行更新，以使模型能够更好地拟合输入数据，输出更为准确的预测结果。

具体地，二分类层用0，1分别表示正常交易和欺诈交易，二分类层输出0的概率值和1的概率值。每个概率值中较大的概率值对应的数，表示该交易的交易类型。例如，二分类层输出0的概率值为20%，1的概率值为70%。1对应的概率值较大，则最终的预测结果为1，也就是说，预测结果为欺诈交易。

本发明实施例利用自然语言的表达力更好地描述结构化数据中的信息，使信息更完整和便于理解。基于自然语言的语法特征提取更深层次更有效的特征，有效理解用户的风险行为偏好，及泛化到各种已见或者未见的欺诈场景，并对其进行预测推理。

本方案为了高效的识别跨境支付中的各类交易欺诈风险，提升用户体验及减少平台资损，通过在跨境支付场景下应用语义嵌入技术，合理高效转化大规模结构化数据及设计合理的语言模型输入数据模板，构建语言模型来提高交易欺诈风险识别的准确度，从而大大降低风险及减少资金损失，进而解决现有支付欺诈风险识别体系遇到的瓶颈，实现全方位和高效的交易欺诈风险预测工作。

综上，在本发明实施例中，获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；利用预先训练好的嵌入模型获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量；利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。本方案设计合理的语言模型输入数据模板key-value字典，构建具有固定语义模式的自然语言文档，利用自然语言的表达力更好地描述结构化数据中的信息,使信息更完整和便于理解；并且，将词元的词表示向量、类型向量、随机位置向量合并，来进一步增加词元的信息表示全面度，有效理解用户的风险行为偏好及泛化到各种已见或者未见的欺诈场景并对其进行预测推理，从而大大适应越来越复杂的欺诈风险环境，实现高准确性和高效的交易欺诈风险预测工作。

在一种可能的实施方式中，所述欺诈交易预测模型的编码器层包括多头注意力模块，所述多头注意力模块至少包括第一注意力子层、第二注意力子层，步骤105中对所述词元的合并向量进行注意力计算，包括：

在所述第一注意力子层、所述第二注意力子层中，分别对所述词元的合并向量进行第一混合注意力计算和第二混合注意力计算，得到第一混合注意力矩阵和第二混合注意力矩阵；所述第一混合注意力矩阵和所述第二混合注意力矩阵分别为不同注意力机制的融合。

在本发明实施例中，多头注意力模块使用不同层混合注意力交替的模式，第一注意力子层、第二注意力子层中分别使用不同的注意力机制。混合注意力机制表示两种注意力机制模式的融合，第一混合注意力矩阵、第二混合注意力矩阵分别为多种不同注意力机制的融合。

本方案使用网络各层多个注意力模式融合的学习方式替代自注意力机制，可以降低计算成本、提高计算效率。

在一种可能的实施方式中，所述第一混合注意力计算的步骤包括：

步骤201、从所述目标文档中，分别提取位于所述词元前后的k/2个词元，得到k个第一词元，所述k个第一词元为两两相邻；k为整数；

步骤202、从所述目标文档中，分别提取位于所述词元前后的d/2个词元，得到d个第二词元；其中，每两个第二词元之间、以及位于所述词元前后的第二词元与所述词元之间，均相隔m个空隙，m为整数；d、m分别为整数；

步骤203、将所述词元的合并向量，分别与所述k个第一词元的合并向量，作自注意力计算，得到所述词元的多个第一注意力值；将所述词元的合并向量，分别与所述d个第二词元的合并向量，作自注意力计算，得到所述词元的多个第二注意力值；

步骤204、根据所述第一注意力值构建所述词元的第一注意力矩阵，所述第一注意力矩阵为n行n列矩阵，n为所述目标文档的词元总数，所述第一注意力矩阵中的所述k个第一词元所在位置的值为所述第一词元与所述词元的第一自注意力值，所述第一注意力矩阵其他位置的值为0；n为整数，n＞k，n＞d，n＞m；

步骤205、根据所述第二注意力值构建第二注意力矩阵，所述第二注意力矩阵为n行n列矩阵，所述第二注意力矩阵中的所述d个第二词元所在位置的值为所述第二词元与所述词元的第二自注意力值，所述第二注意力矩阵其他位置的值为0；

步骤206、将所述第一注意力矩阵和所述第二注意力矩阵求和，得到第一混合注意力矩阵。

在步骤201-步骤206中，对于目标文档中的每个当前词元，获取其前面两两相邻的k/2个词元，以及其后面两两相邻的k/2个词元，共得到k个第一词元。

将第一词元输入嵌入层，获取该词元的词表示向量、类型向量和随机位置向量，将三者合并，得到第一词元的合并向量。将当前词元的合并向量与每个第一词元的合并向量分别进行注意力计算，得到多个第一注意力值。

根据目标文档中的各个词元与当前词元的第一注意力值构建第一注意力矩阵，第一注意力矩阵为n行n列矩阵，n为目标文档的词元总数。其中，矩阵中第一词元位置处的元素值为该第一词元对应的第一注意力值，其余位置的元素值为0。

再给词元之间增加空的间隙使得感受野范围扩大。具体的，在目标文档中提取位于当前词元前后的d/2个词元，得到d个第二词元。每两个第二词元之间、以及位于当前词元前后的第二词元与当前词元之间，均相隔m个空隙。

将第二词元输入嵌入层，获取该第二词元的词表示向量、类型向量和随机位置向量，将三者合并，得到第二词元的合并向量。将当前词元的合并向量与每个第二词元的合并向量分别进行注意力计算，得到多个第二注意力值。

根据目标文档中的各个词元与当前词元的第二注意力值构建第二注意力矩阵，第二注意力矩阵为n行n列矩阵，n为目标文档的词元总数。其中，矩阵中第二词元位置处的元素值为该第二词元对应的第二注意力值，其余位置的元素值为0。

将第一注意力矩阵和第二注意力矩阵求和，得到第一混合注意力矩阵。

多头注意力模块包括多个子层，每个子层都可以使用不同的混合注意力机制。这样可在不增加计算的情况下增加感受野，体现出局部紧密关联特征。

还可在不同子层上使用不同的k值和d值。具体对较低层使用较小的k值和d值，对较高层使用较大的k值和d值。

本方案针对面临的长文档嵌入问题，采用上述混合稀疏注意力机制的方法处理，而无需截断或分块，可以降低计算成本，提高计算效率。

在一种可能的实施方式中，所述第三注意力计算的步骤包括：

步骤207、对于所述目标文档中的每个词元，计算所述词元与其他各个词元的相似度值；

步骤208、获取所述相似度值排名在前p个的词元，得到与所述词元具有强相关性的p个第三词元；

步骤209、根据所述p个第三词元的相似度值构建第三注意力矩阵，所述第三注意力矩阵为n行n列矩阵，所述第三注意力矩阵中的所述p个第三词元所在位置的值为对应的所述相似度值，所述第三注意力矩阵其他位置的值为0；p为整数，p＜n；

步骤210、对于所述目标文档中的每个词元，计算所述词元与第四词元的相似度值；所述第四词元为与所述词元的相对距离为q的倍数的词元；q为整数，q＜n；

步骤211、根据所述q个第四词元的相似度值构建第四注意力矩阵，所述第四注意力矩阵为n行n列矩阵，所述第四注意力矩阵中的所述q个第四词元所在位置的值为对应的所述相似度值，所述第四注意力矩阵其他位置的值为0；

步骤212、将所述第三注意力矩阵与所述第四注意力矩阵求和，得到第二混合注意力矩阵。

在步骤207-步骤212中，对每个词元计算与其他所有的词元的相似值后，仅取top-p相似度值的词元做注意力系数计算，相当于只取p个重要的邻居词元，从而得到第三注意力矩阵。

其次，每个词元只跟它相对距离为q的倍数的词元做自注意力计算，此类模式能够体现出全局远程稀疏关联，从而得到第四注意力矩阵。

将第三注意力矩阵和第四注意力矩阵求和，得到第二混合注意力矩阵。

多头注意力模块的每个子层都可以使用不同的混合注意力机制，例如，第一注意力子层使用第一混合注意力矩阵，第二注意力子层使用第二混合注意力矩阵。还可在不同子层上使用不同的p值和q值。具体对较低层使用较小的p值和q值，对较高层使用较大的p值和q值。

图2是本发明实施例提供的一种欺诈交易预测模型的训练方法的步骤流程图。如图2所示，该方法包括：

步骤301、获取通用样本文档，所述通用样本文档为自然语言描述模式的通用领域文档；

步骤302、利用所述嵌入模型生成所述通用样本文档中的各个样本词元对应的词表示向量，对所述样本词元进行所述类型向量表示、所述随机位置向量表示，并将所述样本词元的词表示向量、类型向量、随机位置向量合并，得到所述样本词元的样本合并向量；

步骤303、搭建Encoder网络模型，构建初始嵌入层和初始编码器层，所述初始编码器层包括多头注意力模块和前馈神经网络模块；

步骤304、将所述样本合并向量输入所述Encoder网络模型，基于所述样本词元的合并向量和所述样本词元之间的位置关系，确定所述多个词元之间的相关性，并根据所述相关性进行注意力计算，得到第一混合样本注意力矩阵、第二混合样本注意力矩阵；

步骤305、将所述第一混合样本注意力矩阵、所述第二混合样本注意力矩阵分别作为权重矩阵训练所述多头注意力模块，并训练所述前馈神经网络模块，得到具有通用的数据表示能力的预训练网络模型；

步骤306、在所述预训练网络模型的多个层后添加适配层，并在所述预训练网络模型的最后一层之后添加二分类层；

步骤307、获取网络交易领域的交易样本文档，并基于所述交易样本文档对所述预训练网络模型的参数进行微调，并对所述适配层和二分类层的参数进行联合微调，持续迭代训练直至满足第一预设终止条件，将此时的预训练网络模型、适配层和二分类层的整体作为欺诈交易预测模型。

在步骤301-步骤307中，对欺诈交易预测模型的训练主要分为三个部分。第一部分是数据的构建，得到样本合并向量，具体是步骤301-步骤302。第二部分是构建预训练的模型，得到预训练模型的一些参数和信息，具体是利用混合注意力矩阵训练多头注意力模块，并训练前馈神经网络模块，具体是步骤303-步骤305。第三部分是对预训练的模型微调，调到一个专业性的、针对性的模型，具体是步骤306-步骤307。

步骤301-步骤302可以参考步骤101-步骤104中得到词元的合并向量的方法。步骤303-步骤305可以参考步骤201-步骤206中生成第一混合注意力矩阵的方法，以及步骤207-步骤212中生成第二混合注意力矩阵的方法。

步骤306-步骤307在预训练网络模型的多个层之后增加了适配层，并在最后一层之后增加了二分类层，以得到一个针对于欺诈交易检测的专业性模型。

由于前面的步骤中已训练出来一个预训练模型，预训练模型是基于一个很大的通用领域数据集得到的一个模型，是非常通用的预训练模型。但是要用在特定的任务上，其实不太适合，要适应的话就要微调。

要让预训练网络模块适应于网络交易领域的欺诈预测，则加入网络交易领域的交易样本文档，并采用步骤101-步骤104中的方法得到交易样本文档中各个词元的词表示向量，并采用步骤201-步骤206中生成第一混合注意力矩阵的方法，以及步骤207-步骤212中生成第二混合注意力矩阵的方法，生成两个混合注意力矩阵，然后将这两个混合注意力矩阵分别作为权重矩阵训练预训练网络模型，去把预训练模型里的参数进行微调，得到一个新的模型，这样，做网络交易领域的欺诈预测就更加准确。

由于调整模型中所有层的参数代价会很大，就在某些层后面增加了适配层。

适配层是由几个全连接层组成的一种小型神经网络层，通常包括线性变换和激活函数，其参数数量相对较少，适合在不改变整个模型架构的情况下进行微调。微调时只微调适配层里的参数，其他层冻结，可以提高训练效率。因此，微调都是在适配层里做的，不是全量数据的微调，是部分数据的微调。

此后再做联合微调。因为一个模型，要用到不同的欺诈风险识别，例如对欺诈型拒付、非欺诈型拒付等多个下游任务进行联合微调。

此外，模型训练的终止条件包括达到设定的最大训练轮数，以及模型损失函数收敛，即连续多轮在验证集上的指标无明显改善。第一预设终止条件中的最大训练轮数和收敛标准可以根据需求进行设置。

本训练方法利用自然语言的表达力，更好地描述结构化数据中的信息,使信息更完整和便于理解。基于自然语言的语法特征提取更深层次更有效的特征，有效理解用户的风险行为偏好，及泛化到各种已见或者未见的欺诈场景，并对其进行预测推理。

同时，针对面临的长文档嵌入问题，采用混合稀疏注意力机制的方法处理，无需截断或分块，同时使用网络各层多个注意力模式融合的学习方式替代自注意力机制，使得降低计算成本提高计算效率。

此外，由于交易欺诈场景中对实时性的要求，模型需要在提高预测性能的情况下将推理速度同时提高。本方案使用下游任务添加适配层微调方法，降低了下游任务复杂度，且预训练目标和微调任务更契合，降低了迁移学习的难度，可使用在类似的欺诈场景并得到高性能的欺诈风险识别模型。

在一种可能的实施方式中，在步骤305之后，还包括：

步骤401、随机掩盖所述通用样本文档中的多个位置的样本词元；

步骤402、将所述第一混合样本注意力矩阵、所述第二混合样本注意力矩阵，输入所述初始编码器层，利用所述多头注意力模块、所述前馈神经网络模块预测所述位置对应的填充词元；

步骤403、根据所述填充词元的合并向量与对应的真实词元的合并向量，对所述填充词元和所述真实词元进行相似性比对，得到比对结果；

步骤404、根据所述比对结果修改所述多头注意力模块、所述前馈神经网络模块的参数，持续迭代训练直至满足第二预设终止条件则训练结束，得到具有通用的数据表示能力的预训练网络模型。

在步骤401-步骤404中，由于场景应用的特殊性，我们需要在提高预测性能的情况下，将推理速度同时提高，因此在搭建Encoder网络模型后，通过替代词检测预训练方法，利用生成器将句子中的单词进行替换，然后鉴别器判断句子中哪些单词被替换过。

具体地，以完形填空的形式，把通用样本文档中某些真实的词取出来，让预训练模型基于空缺位置词的上下文，去预测空缺位置的词，得到填充词元。用鉴别器的模型去判断填充词元是否正确。如果正确，代表预训练网络模型构建的比较好。若不正确，则需要修改预训练网络模型的参数，对预训练网络模型进一步优化。

其中，用鉴别器的模型去判断填充词元是否正确，具体方法包括：根据填充词元的合并向量与对应的真实词元的合并向量，确定填充词元和真实词元之间的相似度，根据相似度判断填充词元是否正确。具体地，设定相似度阈值，若相对度大于或等于相似度阈值，则确定填充词元正确，若相似度小于相似度阈值，则确定填充词元错误。

根据相似度比对结果不断修改多头注意力模块、所述前馈神经网络模块的参数，并继续利用修改了多头注意力模块、前馈神经网络模块的参数后的Encoder网络模型预测填充词元，以进行迭代训练，直至满足第二预设终止条件，则训练结束，得到预训练模型。

其中，第二预设终止条件中的最大训练轮数和收敛标准可以根据需求进行设置。

采用上述方式可以使模型在提高预测性能的情况下将推理速度同步提高，以满足交易欺诈场景中对实时性的要求。

在一种可能的实施方式中，在步骤103之后，包括：

步骤501、确定各个所述词表示向量的L2-范数，并将所述L2-范数按照由大到小的顺序进行排序；

步骤502、提取排序在前N名的词元作为目标词元；

步骤503、根据所述目标词元所属的key类型或value类型，对所述目标词元进行类型向量表示，并对所述目标词元进行随机位置向量表示，将所述目标词元的词表示向量、类型向量、随机位置向量合并，得到所述目标词元的合并向量；

步骤504、利用所述欺诈交易预测模型的编码器层对所述目标词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

在本发明实施例中，为了适当缩减目标文档的长度，提高模型的处理效率，可以从目标文档包括的所有词元中提取出包含信息量较大的词元作为目标词元，以根据目标词元生成每笔交易对应的新文档。

具体地，根据步骤103中得到的词表示向量，建立{词元：词向量}字典。求每个词元的词表示向量的L2-范数。然后将词元按照其L2-范数值从由大到小排序。由于L2-范数值越大的词元，其含有的信息越多，对文档的预测值影响越大。因此，剔除L2-范数值排序在第N名之后的词元，仅取排序在前N名的词元作为后续处理所使用的目标词元。

在得到目标词元后，步骤503-步骤504的执行方法可参照步骤104-105。

图3是本发明实施例提供的一种欺诈交易检测模块的结构框图。如图3所示，所述装置600包括：

提取模块601，用于获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；所述主体至少包括所述交易信息中的买家、商品和交易过程；

转换模块602，用于利用所述多个主体和主体属性词构建key-value字典，并将所述key-value字典中的信息转换为具有固定语义模式的自然语言文档，得到目标文档；

词表示向量获取模块603，用于利用预先训练好的嵌入模型，获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；

合并模块604，用于根据所述词元所属的key类型或value类型，对所述词元进行类型向量表示，并对所述词元进行随机位置向量表示，将所述词元的词表示向量、类型向量、随机位置向量合并，得到所述词元的合并向量；

预测模块605，用于利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种欺诈交易检测方法，其特征在于，所述方法包括：

获取目标交易的交易信息，提取所述交易信息中包含的多个主体和主体属性词；所述主体至少包括所述交易信息中的买家信息、商品信息、交易过程信息和卖家信息；

利用预先训练好的嵌入模型获取所述目标文档中包含的多个词元的词表示向量；所述词元为组成所述目标文档的最小单位；

利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易；

所述欺诈交易预测模型通过以下方法训练得到：

将所述样本合并向量输入所述Encoder网络模型，基于所述样本词元的样本合并向量、各个所述样本词元之间的位置关系，确定所述多个词元之间的相关性，并根据所述相关性进行注意力计算，得到第一混合样本注意力矩阵、第二混合样本注意力矩阵；所述第一混合样本注意力矩阵和所述第二混合样本注意力矩阵分别为不同注意力机制的融合；

获取网络交易领域的交易样本文档，并基于所述交易样本文档对所述预训练网络模型的参数进行微调，并对所述适配层和所述二分类层的参数进行联合微调，持续迭代训练直至满足第一预设终止条件则训练结束，将此时的预训练网络模型、适配层和二分类层的整体作为欺诈交易预测模型。

2.根据权利要求1所述的方法，其特征在于，所述欺诈交易预测模型的编码器层包括多头注意力模块，所述多头注意力模块至少包括第一注意力子层、第二注意力子层，所述对所述词元的合并向量进行注意力计算，包括：

在所述第一注意力子层、所述第二注意力子层中，分别对所述词元的合并向量进行第一混合注意力计算和第二混合注意力计算，得到第一混合注意力矩阵和第二混合注意力矩阵。

3.根据权利要求2所述的方法，其特征在于，所述第一混合注意力计算的步骤包括：

4.根据权利要求2所述的方法，其特征在于，所述第二混合注意力计算的步骤包括：

5.根据权利要求1所述的方法，其特征在于，所述训练所述多头注意力模块，并训练所述前馈神经网络模块，包括：

随机掩盖所述通用样本文档中的多个位置的样本词元；

6.根据权利要求1所述的方法，其特征在于，在获取所述目标文档中包含的多个词元的词表示向量之后，包括：

提取排序在前N名的词元作为目标词元；

7.一种欺诈交易检测装置，其特征在于，所述装置包括：

预测模块，用于利用预先训练好的欺诈交易预测模型对所述词元的合并向量进行注意力计算，并基于所述注意力计算的结果，所述欺诈交易预测模型的二分类层输出预测结果，所述预测结果用于表示所述目标交易是否为欺诈交易；

所述欺诈交易预测模型通过以下方法训练得到：

8.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-6任一项所述的欺诈交易检测方法。

9.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-6任一项所述的欺诈交易检测方法。