CN116541755A

CN116541755A - 一种基于时序图表征学习的金融行为模式分析预测方法

Info

Publication number: CN116541755A
Application number: CN202310309220.1A
Authority: CN
Inventors: 王光中; 钱菲; 陈浩然
Original assignee: Bank of Communications Co Ltd
Current assignee: Bank of Communications Co Ltd
Priority date: 2023-03-27
Filing date: 2023-03-27
Publication date: 2023-08-04

Abstract

本发明属于金融交易安全技术领域，具体涉及一种基于时序图表征学习的金融行为模式分析预测方法，包括以下步骤：获取交易流水数据；基于事件编码器与时间编码器得到流水嵌入向量；基于自回归模型对流水嵌入向量进行学习，并通过自监督对比学习训练，得到表征矩阵；构建交互图，并使用图神经网络对图结构特征上的节点交互进行建模，构成图增强模块，对表征矩阵进行增强；构建机器学习分类模型，实现金融行为模式分析预测。与现有技术相比，本发明能够自动从海量信息中充分捕捉更复杂、抽象的信息，挖掘账户流水和标签之间隐含的时序、交互和业务关联，在缺乏业务专家经验分析的情况下实现模型快速广泛应用。

Description

一种基于时序图表征学习的金融行为模式分析预测方法

技术领域

本发明涉及金融交易安全技术领域，尤其是涉及一种基于时序图表征学习的金融行为模式分析预测方法。

背景技术

随着信息技术在金融领域的发展，金融交易行为被记录下来，形成海量业务流水。这些业务流水数据蕴含着丰富的信息，是提升金融服务、防范金融风险不可或缺的数据。通过业务流水对账户的历史行为进行建模，进而实现金融行为模式分析预测，应用于反欺诈、风险识别及防范、异常行为模式检测等领域。

传统的特征提取仅对原始数据进行简单的变化，无法充分捕捉信息中更复杂、抽象的概念。在实际应用场景中，通过专家分析总结业务特征，往往不能自动且及时捕捉交易流水数据中新的行为模型，存在一定的滞后性和局限性。

CN 111797177 A公开了一种用于异常金融账号检测的金融时间序列分类方法及应用，该方法能够从异常金融账户和正常金融账户的交易流水数据中构建并扩充金融账户的金融时间序列数据集，使用堆叠多个Block(其中每个Block中包含LocalBiLSTM、Self-Attention、残差连接、LayerNormalization、Position-wise Feed-ForwardNetworks)的神经网络模型从金融时间序列中同时提取序列的局部和全局模式特征，最后使用softmax分类层进行金融时间序列的分类，最终实现对异常金融账号的检测功能。但是，该方法对交易流水数据的特征表征能力仍然不足，且不具备抽取和利用交易流水中的账户交互信息，模型预测效果受到一定制约。

发明内容

本发明的目的是为了提供一种基于时序图表征学习的金融行为模式分析预测方法，不依赖于人为特征工程并且能很好捕获交易流水中时序、交互和业务信息，能够提高预测效果。

本发明的目的可以通过以下技术方案来实现：

一种基于时序图表征学习的金融行为模式分析预测方法，包括以下步骤：

获取交易流水数据；

将每条交易流水数据的业务特征与时序特征分别输入到事件编码器与时间编码器中，得到流水嵌入向量；

基于自回归模型对流水嵌入向量进行学习，并通过自监督对比学习训练，得到表征矩阵；

以流水数据中账户和交易对手作为节点，交易流水作为连边，构建交互信息图；

使用图神经网络对图结构特征上的节点交互进行建模，构成图增强模块，图增强模块可以增强表征矩阵对账户交互信息的表示能力，得到图神经网络的权重矩阵；

基于增强后的表征矩阵和账户标签构建机器学习分类模型，得到机器学习分类模型的权重矩阵；

通过反向传播更新机器学习分类模型的权重矩阵和图神经网络的权重矩阵，对模型进行训练，实现金融行为模式分析预测。

所述交易流水数据表示为：

S_u＝(e_u1,e_u2,…,e_un)

其中，S_u表示账户u的交易流水数据，n为交易数，e_ui为第i条交易记录，e_ui＝(u,v_ui,t_ui,attr_ui)，为一个四元组，v_ui表示交易对手，t_ui表示时间戳，attr_ui表示属性。

所述事件编码器对账户u的交易事件中的属性信息进行编码：

其中，num_i为第i条交易记录中所有的数值型特征，cat_ij为第i条交易记录中的第j个类别型特征，W,W_j为特征变换矩阵，用于将数据映射为d维向量，Emb(·)表示对类别型属性进行嵌入映射。

所述时间编码器对账户u的交易事件所处的时间戳信息进行编码：对于时序编码，其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性，即存在ψ满足/>所述时间编码器为：

通过时间编码器得到时间编码

所述流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和：

所述基于自回归模型对账户u的流水嵌入向量进行特征提取，构建隐状态具体为：

将经过编码得到的流水嵌入向量表示(x₁,…,x_n)输入到自回归模型中，利用自回归模型提取流水嵌入向量的隐状态：

z₁,…,z_i＝AR(x₁,…,x_i),i＝1,…,n

其中，AR表示自回归模型，z_i蕴含了第i条记录以前的全部信息，n表示交易数。

所述通过自监督对比学习训练的目的为利用账户u的隐状态z_i构建表征向量，具体为：

根据当前历史e_u1,…,e_ui，对未来的记录e_u,i+1进行分辨，实现方法包括以下步骤：

给定前i条交易记录的编码表征x₁,…,x_i，通过自回归模型获得隐状态z₁,…,z_i，第i+1条交易记录的表征为x_i+1，隐状态z_i与该记录的匹配程度通过双线性函数表示：

其中，W^bilinear为参数矩阵；

从所有的交易流水数据中随机抽取一条交易记录e′作为负样本，并通过事件编码器得到其特征表示x^(event)′，利用第i+1条真实记录的时间得到时间的表征从而得到负样本的特征表示：

同理，计算隐状态z_i与所述负样本的匹配程度：

则成功预测未来事件的概率为：

以此定义自监督对比学习的优化目标为最大化成功预测的对数似然：

最终，通过拼接获得账户u的特征表示：

其中，z_n为第n条记录以前的全部信息的隐状态。

所述基于图增强模块对表征矩阵进行增强具体为：

将每一个账户的交易流水看作是一条连边，账户与它的交易对手看作图中的节点，图表示为G＝(V,A)，其中V是图的节点集合，是邻接矩阵，假定S为交易流水的集合，

则，图的邻接矩阵表示为：

其中，u_i表示第i个账户，交易对手v_j对应了第j个账户，t表示时间戳，attr表示属性；

记D＝diag(d₁,d₂,…,d_n)是图的度矩阵，其中d_i＝∑_jA_ij；

使用图神经网络进行交互图上的信息传播：设L表示加入自环的归一化邻接矩阵

其中

则表征矩阵更新表示为稀疏矩阵乘法：

其中，为增强后的表征矩阵，/>为自回归模型经过自监督对比学习训练生成的表征矩阵，d为账户特征表示维度，W为图神经网络的权重矩阵，h为网络层数。

所述自回归模型的实现方式包括LSTM、GRU、TCN或Transformer序列模型，所述机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。通过逻辑回归模型实现的机器学习分类模型，得到账户u为异常的概率为：

其中，为账户u的表征向量，q为逻辑回归模型的权重矩阵；

逻辑回归模型的损失函数为：

其中y_u∈{0,1，为账户u对应的真实标签。

与现有技术相比，本发明具有以下有益效果：

(1)本发明基于深度自回归模型，对交易流水数据的时序特征与业务特征的嵌入表示进行建模，通过自监督对比学习训练得出交易流水数据的表征模型。能够自动从海量信息中充分捕捉交易流水数据中更复杂、抽象的信息，学习数据的多层次抽象表示。一方面，无需领域专家手工设计特征，不仅可以减少人工工作量，且能够实现在缺乏业务专家经验分析的情况下实现模型快速应用，解决了传统方法的局限性问题；另一方面，通过及时捕捉数据中新的行为模式，对新的应用场景也能迁移应用现有的模型，克服了传统方法面临的滞后性挑战。

(2)本发明基于图神经网络构成了图增强模块，实现了对交易流水中账户交互信息的抽取，并通过反向传播机制训练更新图神经网络，从而在时序和业务特征表征的基础上，进一步利用了账户交互信息来增强表征模型，能够显著提高表征能力。

(3)本发明在时序图表征学习的基础上采用机器学习分类模型，使用交易流水的表征和账户标签构建机器学习分类模型，能够充分挖掘出账户交易流水和标签之间隐含的时序、交互和业务联系，这种基于时序图表征学习的金融行为分析预测方法可以广泛应用于反欺诈、风险识别及防范、异常行为模式检测等领域。

附图说明

图1为本发明的方法流程图；

图2为交易流水数据转换为时序图的过程示意图；

图3为本发明的模型架构。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

一次交易行为往往涉及到两个账号，可以整理为(账号，交易账户，时间戳，关联属性)的格式。交互行为可以构建为时序交互图。图2为交易流水数据转换为时序图的示例。

时序图表征学习模型可以不借助特征工程，自动从海量数据中对交易数据中的行为数据特征进行高度抽象的提取，学习数据的多层次抽象表示，从而实现对交易流水的高维表征。

因此，本发明针对账户交易流水数据，提出一种基于时序图表征学习的金融行为模式分析预测方法。首先将每条流水数据的业务特征与时序特征分别输入到事件编码器与时间编码器中得到一个流水嵌入向量，再通过自回归模型对流水嵌入向量进行建模，采用自监督对比学习的方式对训练模型得到对交易流水的表征模型，其次，通过基于图神经网络的图增强模块对表征模型进行增强，。基于增强后的表征和账户标签构建机器学习分类模型，可以挖掘出账户交易流水和标签之间隐含的时序、交互和业务关联，实现精准的模式分析预测。

本发明的核心是利用时序图表征学习方法自动生成金融交易的表征模型和机器学习分类模型，，并在此基础上进行模式分析预测，可应用于反欺诈、风险识别及防范、异常行为模式检测等任务。

具体的，本实施例提供一种基于时序图表征学习的金融行为模式分析预测方法，如图1所示，包括以下步骤：

1)获取交易流水数据。

交易流水数据表示为：

S_u＝(e_u1,e_u2,…,e_un)

其中，S_u表示账户u的交易流水数据，e_ui为第i条交易记录，e_ui＝(u,v_ui,t_ui,attr_ui)，为一个四元组，v_ui表示交易对手，t_ui表示时间戳，attr_ui表示属性。

本实施例以图2(a)所示的模拟交易流水数据为例，对数据进行预处理。该数据集共有5个字段，其中数值型字段为交易金额，进行归一化处理；对于类别型字段如对方行标识，采用独热编码的模式。假设类别型有三类值a，b，c，则将会编码为三维特征：

{a:[1,0,0],b:[0,1,0],c:[0,0,1]}。

对于过多的类别数可能导致特征矩阵过于稀疏的问题，本实施例选择top-k的类别作为主体特征，将其他占比较少的类别统一为一类。

2)将账户u的每条交易流水数据的业务特征与时序特征分别输入到事件编码器(event encoder)与时间编码器(time encoder)中，得到流水嵌入向量。

事件编码器对交易事件中的属性信息进行编码：

其中，num_i为第i条交易记录中所有的数值型特征，cat_ij为第i条交易记录中的第j个类别型特征，W,W_j为特征变换矩阵，用于将数据映射为d维向量，Emb(·)表示对类别型属性进行嵌入映射(embedding)。

时间编码器对交易事件所处的时间戳信息进行编码：对于时序编码，其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性，即存在ψ满足

本实施例采用的时间编码器为：

通过时间编码器得到时间编码

流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和：

本实施例中，将预处理后的交易流水数据中对应了事件特征的字段(如对方行标识，交易金额等)输入到事件编码器(event encoder)中，将时间戳字段输入到时间编码器(time encoder)中。于是第i个流水事件特征被表示为：

具体如第1个事件特征为

同时利用函数对时间戳进行编码，可得：

同理可得其他交易的事件和时间特征表示，并通过得到编码。

3)基于自回归模型AR(auto-regressive model)对账户u的流水嵌入向量进行学习，并通过自监督对比学习训练，得到表征模型。

基于自回归模型对流水嵌入向量进行学习具体为：

z₁,…,z_i＝AR(x₁,,…,x_i),i＝1,…,n

其中，z_i蕴含了第i条记录以前的全部信息，n表示交易数。

如z₁＝[1.5331,-2.1234,…,0.9824]。

本实施例中，自回归模型的实现方法包括LSTM、GRU、TCN或Transformer等序列模型。

以一层的Transformer为例，其计算过程为：

这里，W为参数矩阵。当然，也可采用多层、多头的Transformer模型。

通过自监督对比学习训练的目的为根据账户u的当前历史e_u1,…,e_ui，对未来的记录e_u,i+1进行分辨，实现方法为：

给定前i条交易记录的编码表征x₁,…,x_i，通过自回归AR模型获得隐状态z₁,…,z_i，第i+1条交易记录的表征为x_i+1，隐状态z_i与该记录的匹配程度通过双线性函数表示：

其中，W^bilinear为参数矩阵。

本实施例中计算得到的匹配程度

从所有的交易流水数据(可能是其他账户的流水)中随机抽取一条交易记录e′作为负样本，并通过事件编码器得到其特征表示x^(event)′，利用第i+1条真实记录的时间得到时间的表征从而得到负样本的特征表示：

同理，计算隐状态z_i与所述负样本的匹配程度：

本实施例中计算得到的匹配程度

则成功预测未来事件的概率为：

本实施例基于负对数似然计算该样本的梯度，对模型参数进行梯度下降优化，以W^bilinear为例：

其中lr为学习率。

最终，通过拼接获得账户u的特征表示：

其中，Z_n为第n条记录以前的全部信息的隐状态。

通过上述步骤可以获得账号u的表征向量Z_u，如Z₁＝[1.5123,0.6412,…,3.4212]。

4)以流水数据中账户和交易对手作为节点，交易流水作为连边，构建交互信息图。

5)使用图神经网络对图结构特征上的节点交互及进行建模，构成图增强模块，图增强模块可以增强表征矩阵对账户交互信息的表示能力，得到图神经网络的权重矩阵。

为了让表征模型具备账户交易交互图的信息，本实施例引入了图增强模块。将每一个账户的交易流水看作是一条连边，账户与它的交易对手看作图中的节点，图表示为G＝9V,A)，其中V是图的节点(账户)集合，A∈R^|V|×|V|是邻接矩阵，假定S为交易流水的集合，

图的邻接矩阵表示为：

其中，u_i表示第i个账户，交易对手v_j对应了第j个账户，t表示时间戳，attr表示属性。

根据上述计算过程，本实施例计算得到图的邻接矩阵A为：

记D＝diag(d₁,d₂,…,d_n)为图的度矩阵，其中d_i＝∑_jA_ij；

其中

则节点表征更新表示为稀疏矩阵乘法：

本实例得到账户u增强后的表征向量

基于上述方法，能够很好的学习到金融交易数据的表征，可接入欺诈、异常检测等下游任务之中，实现金融行为分析与预测，其模型结构图如图3所示。

6)基于增强后的表征矩阵和账户标签构建机器学习分类模型，得到机器学习分类模型的权重矩阵。

7)通过反向传播更新机器学习分类模型的权重矩阵和图神经网络的权重矩阵，对模型进行训练，实现金融行为模式分析预测。

本实施例中，机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。

本实施例中的金融行为模式分析预测为欺诈账户识别，机器学习分类模型通过逻辑回归模型实现，得到账户u为异常的概率为：

其中，为账户u的表征向量，q为逻辑回归模型的权重矩阵；

逻辑回归模型的损失函数为：

其中y_u∈{0,1，为账户u对应的真实标签。本实施例得到账户u为异常的概率：

通过本发明方法，模型能够自动学习每一个账号在最新时刻的交易流水表征，并应用到后续的金融行为模式分析预测任务中。交易流水表征不仅包含了业务特征信息，也涵盖了时序和交互特征信息，从而使正常账号与异常账号在向量空间上的区分更加明显。在真实反欺诈业务场景下本实施例对比了本发明与规则模型的效果，发现本发明在对公、对私场景下都能极大弥补规则模型的缺陷，在反电信诈骗领域，做到了对欺诈账号高精确、高覆盖的识别效果，相较之前规则模型F1分值提升10％(对私)、48％(对公)。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案，皆应在权利要求书所确定的保护范围内。

Claims

1.一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，包括以下步骤：

获取交易流水数据；

使用图神经网络对图结构特征上的节点交互进行建模，构成图增强模块，基于图增强模块对表征矩阵进行增强，得到图神经网络的权重矩阵；

2.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述交易流水数据表示为：

S_u＝(e_u1,e_u2,…,e_un)

3.根据权利要求2所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述事件编码器对账户u的交易事件中的属性信息进行编码：

4.根据权利要求3所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述时间编码器对账户u的交易事件所处的时间戳信息进行编码：对于时序编码，其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性，即存在ψ满足/>所述时间编码器为：

通过时间编码器得到时间编码

5.根据权利要求4所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和：

6.根据权利要求1或5所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述基于自回归模型对账户u的流水嵌入向量进行特征提取，构建隐状态，具体为：

将经过编码得到的流水嵌入向量(x₁,…,x_n)输入到自回归模型中，利用自回归模型提取流水嵌入向量的隐状态：

z₁,…,z_i＝AR(x₁,…,x_i),i＝1,…,n

7.根据权利要求6所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述通过自监督对比学习训练的目的为利用账户u的隐状态z_i构建表征向量，具体为：

根据当前历史e_u1,…,e_ui对未来的记录e_u,i+1进行分辨，实现方法包括以下步骤：

其中，W^bilinear为参数矩阵；

同理，计算隐状态z_i与所述负样本的匹配程度：

则成功预测未来事件的概率为：

最终，通过拼接获得账户u的表征向量：

其中，z_n为第n条记录以前的全部信息的隐状态。

8.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述基于图增强模块对表征矩阵进行增强具体为：

将每一个账户的交易流水看作是一条连边，账户与它的交易对手看作图中的节点，图表示为G＝(V,A)，其中V是图的节点集合,是邻接矩阵，假定S为交易流水的集合，

则，图的邻接矩阵表示为：

记D＝diag(d₁,d₂,…,d_n)为图的度矩阵，其中d_i＝∑_jA_ij；

其中

则表征更新表示为稀疏矩阵乘法：

其中，/>为增强后的表征矩阵，/>为自回归模型经过自监督对比学习训练生成的表征矩阵，d为账户特征表示维度，W为图神经网络的权重矩阵，h为网络层数。

9.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，所述自回归模型的实现方式包括LSTM、GRU、TCN或Transformer序列模型，所述机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。

10.根据权利要求9所述的一种基于时序图表征学习的金融行为模式分析预测方法，其特征在于，通过逻辑回归模型实现的机器学习分类模型得到账户u为异常的概率为：

其中，为账户u的表征向量，q为逻辑回归模型的权重矩阵；

逻辑回归模型的损失函数为：

其中y_u∈{0,1，为账户u对应的真实标签。