CN116541755A - 一种基于时序图表征学习的金融行为模式分析预测方法 - Google Patents
一种基于时序图表征学习的金融行为模式分析预测方法 Download PDFInfo
- Publication number
- CN116541755A CN116541755A CN202310309220.1A CN202310309220A CN116541755A CN 116541755 A CN116541755 A CN 116541755A CN 202310309220 A CN202310309220 A CN 202310309220A CN 116541755 A CN116541755 A CN 116541755A
- Authority
- CN
- China
- Prior art keywords
- transaction
- graph
- account
- matrix
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 230000006399 behavior Effects 0.000 title claims abstract description 28
- 238000004458 analytical method Methods 0.000 title claims abstract description 24
- 238000010586 diagram Methods 0.000 title claims abstract description 17
- 239000011159 matrix material Substances 0.000 claims abstract description 59
- 238000012512 characterization method Methods 0.000 claims abstract description 37
- 230000003993 interaction Effects 0.000 claims abstract description 22
- 238000013145 classification model Methods 0.000 claims abstract description 21
- 238000010801 machine learning Methods 0.000 claims abstract description 21
- 238000013528 artificial neural network Methods 0.000 claims abstract description 19
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 14
- 230000002708 enhancing effect Effects 0.000 claims abstract 4
- 238000007477 logistic regression Methods 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 230000002159 abnormal effect Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 4
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 241000282326 Felis catus Species 0.000 claims description 3
- 238000003066 decision tree Methods 0.000 claims description 3
- 238000012706 support-vector machine Methods 0.000 claims description 3
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000001514 detection method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 206010000117 Abnormal behaviour Diseases 0.000 description 3
- 230000002265 prevention Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/27—Regression, e.g. linear or logistic regression
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/042—Knowledge-based neural networks; Logical representations of neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Business, Economics & Management (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Development Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明属于金融交易安全技术领域,具体涉及一种基于时序图表征学习的金融行为模式分析预测方法,包括以下步骤:获取交易流水数据;基于事件编码器与时间编码器得到流水嵌入向量;基于自回归模型对流水嵌入向量进行学习,并通过自监督对比学习训练,得到表征矩阵;构建交互图,并使用图神经网络对图结构特征上的节点交互进行建模,构成图增强模块,对表征矩阵进行增强;构建机器学习分类模型,实现金融行为模式分析预测。与现有技术相比,本发明能够自动从海量信息中充分捕捉更复杂、抽象的信息,挖掘账户流水和标签之间隐含的时序、交互和业务关联,在缺乏业务专家经验分析的情况下实现模型快速广泛应用。
Description
技术领域
本发明涉及金融交易安全技术领域,尤其是涉及一种基于时序图表征学习的金融行为模式分析预测方法。
背景技术
随着信息技术在金融领域的发展,金融交易行为被记录下来,形成海量业务流水。这些业务流水数据蕴含着丰富的信息,是提升金融服务、防范金融风险不可或缺的数据。通过业务流水对账户的历史行为进行建模,进而实现金融行为模式分析预测,应用于反欺诈、风险识别及防范、异常行为模式检测等领域。
传统的特征提取仅对原始数据进行简单的变化,无法充分捕捉信息中更复杂、抽象的概念。在实际应用场景中,通过专家分析总结业务特征,往往不能自动且及时捕捉交易流水数据中新的行为模型,存在一定的滞后性和局限性。
CN 111797177 A公开了一种用于异常金融账号检测的金融时间序列分类方法及应用,该方法能够从异常金融账户和正常金融账户的交易流水数据中构建并扩充金融账户的金融时间序列数据集,使用堆叠多个Block(其中每个Block中包含LocalBiLSTM、Self-Attention、残差连接、LayerNormalization、Position-wise Feed-ForwardNetworks)的神经网络模型从金融时间序列中同时提取序列的局部和全局模式特征,最后使用softmax分类层进行金融时间序列的分类,最终实现对异常金融账号的检测功能。但是,该方法对交易流水数据的特征表征能力仍然不足,且不具备抽取和利用交易流水中的账户交互信息,模型预测效果受到一定制约。
发明内容
本发明的目的是为了提供一种基于时序图表征学习的金融行为模式分析预测方法,不依赖于人为特征工程并且能很好捕获交易流水中时序、交互和业务信息,能够提高预测效果。
本发明的目的可以通过以下技术方案来实现:
一种基于时序图表征学习的金融行为模式分析预测方法,包括以下步骤:
获取交易流水数据;
将每条交易流水数据的业务特征与时序特征分别输入到事件编码器与时间编码器中,得到流水嵌入向量;
基于自回归模型对流水嵌入向量进行学习,并通过自监督对比学习训练,得到表征矩阵;
以流水数据中账户和交易对手作为节点,交易流水作为连边,构建交互信息图;
使用图神经网络对图结构特征上的节点交互进行建模,构成图增强模块,图增强模块可以增强表征矩阵对账户交互信息的表示能力,得到图神经网络的权重矩阵;
基于增强后的表征矩阵和账户标签构建机器学习分类模型,得到机器学习分类模型的权重矩阵;
通过反向传播更新机器学习分类模型的权重矩阵和图神经网络的权重矩阵,对模型进行训练,实现金融行为模式分析预测。
所述交易流水数据表示为:
Su=(eu1,eu2,…,eun)
其中,Su表示账户u的交易流水数据,n为交易数,eui为第i条交易记录,eui=(u,vui,tui,attrui),为一个四元组,vui表示交易对手,tui表示时间戳,attrui表示属性。
所述事件编码器对账户u的交易事件中的属性信息进行编码:
其中,numi为第i条交易记录中所有的数值型特征,catij为第i条交易记录中的第j个类别型特征,W,Wj为特征变换矩阵,用于将数据映射为d维向量,Emb(·)表示对类别型属性进行嵌入映射。
所述时间编码器对账户u的交易事件所处的时间戳信息进行编码:对于时序编码,其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性,即存在ψ满足/>所述时间编码器为:
通过时间编码器得到时间编码
所述流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和:
所述基于自回归模型对账户u的流水嵌入向量进行特征提取,构建隐状态具体为:
将经过编码得到的流水嵌入向量表示(x1,…,xn)输入到自回归模型中,利用自回归模型提取流水嵌入向量的隐状态:
z1,…,zi=AR(x1,…,xi),i=1,…,n
其中,AR表示自回归模型,zi蕴含了第i条记录以前的全部信息,n表示交易数。
所述通过自监督对比学习训练的目的为利用账户u的隐状态zi构建表征向量,具体为:
根据当前历史eu1,…,eui,对未来的记录eu,i+1进行分辨,实现方法包括以下步骤:
给定前i条交易记录的编码表征x1,…,xi,通过自回归模型获得隐状态z1,…,zi,第i+1条交易记录的表征为xi+1,隐状态zi与该记录的匹配程度通过双线性函数表示:
其中,Wbilinear为参数矩阵;
从所有的交易流水数据中随机抽取一条交易记录e′作为负样本,并通过事件编码器得到其特征表示x(event)′,利用第i+1条真实记录的时间得到时间的表征从而得到负样本的特征表示:
同理,计算隐状态zi与所述负样本的匹配程度:
则成功预测未来事件的概率为:
以此定义自监督对比学习的优化目标为最大化成功预测的对数似然:
最终,通过拼接获得账户u的特征表示:
其中,zn为第n条记录以前的全部信息的隐状态。
所述基于图增强模块对表征矩阵进行增强具体为:
将每一个账户的交易流水看作是一条连边,账户与它的交易对手看作图中的节点,图表示为G=(V,A),其中V是图的节点集合,是邻接矩阵,假定S为交易流水的集合,
则,图的邻接矩阵表示为:
其中,ui表示第i个账户,交易对手vj对应了第j个账户,t表示时间戳,attr表示属性;
记D=diag(d1,d2,…,dn)是图的度矩阵,其中di=∑jAij;
使用图神经网络进行交互图上的信息传播:设L表示加入自环的归一化邻接矩阵
其中
则表征矩阵更新表示为稀疏矩阵乘法:
其中,为增强后的表征矩阵,/>为自回归模型经过自监督对比学习训练生成的表征矩阵,d为账户特征表示维度,W为图神经网络的权重矩阵,h为网络层数。
所述自回归模型的实现方式包括LSTM、GRU、TCN或Transformer序列模型,所述机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。通过逻辑回归模型实现的机器学习分类模型,得到账户u为异常的概率为:
其中,为账户u的表征向量,q为逻辑回归模型的权重矩阵;
逻辑回归模型的损失函数为:
其中yu∈{0,1,为账户u对应的真实标签。
与现有技术相比,本发明具有以下有益效果:
(1)本发明基于深度自回归模型,对交易流水数据的时序特征与业务特征的嵌入表示进行建模,通过自监督对比学习训练得出交易流水数据的表征模型。能够自动从海量信息中充分捕捉交易流水数据中更复杂、抽象的信息,学习数据的多层次抽象表示。一方面,无需领域专家手工设计特征,不仅可以减少人工工作量,且能够实现在缺乏业务专家经验分析的情况下实现模型快速应用,解决了传统方法的局限性问题;另一方面,通过及时捕捉数据中新的行为模式,对新的应用场景也能迁移应用现有的模型,克服了传统方法面临的滞后性挑战。
(2)本发明基于图神经网络构成了图增强模块,实现了对交易流水中账户交互信息的抽取,并通过反向传播机制训练更新图神经网络,从而在时序和业务特征表征的基础上,进一步利用了账户交互信息来增强表征模型,能够显著提高表征能力。
(3)本发明在时序图表征学习的基础上采用机器学习分类模型,使用交易流水的表征和账户标签构建机器学习分类模型,能够充分挖掘出账户交易流水和标签之间隐含的时序、交互和业务联系,这种基于时序图表征学习的金融行为分析预测方法可以广泛应用于反欺诈、风险识别及防范、异常行为模式检测等领域。
附图说明
图1为本发明的方法流程图;
图2为交易流水数据转换为时序图的过程示意图;
图3为本发明的模型架构。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
一次交易行为往往涉及到两个账号,可以整理为(账号,交易账户,时间戳,关联属性)的格式。交互行为可以构建为时序交互图。图2为交易流水数据转换为时序图的示例。
时序图表征学习模型可以不借助特征工程,自动从海量数据中对交易数据中的行为数据特征进行高度抽象的提取,学习数据的多层次抽象表示,从而实现对交易流水的高维表征。
因此,本发明针对账户交易流水数据,提出一种基于时序图表征学习的金融行为模式分析预测方法。首先将每条流水数据的业务特征与时序特征分别输入到事件编码器与时间编码器中得到一个流水嵌入向量,再通过自回归模型对流水嵌入向量进行建模,采用自监督对比学习的方式对训练模型得到对交易流水的表征模型,其次,通过基于图神经网络的图增强模块对表征模型进行增强,。基于增强后的表征和账户标签构建机器学习分类模型,可以挖掘出账户交易流水和标签之间隐含的时序、交互和业务关联,实现精准的模式分析预测。
本发明的核心是利用时序图表征学习方法自动生成金融交易的表征模型和机器学习分类模型,,并在此基础上进行模式分析预测,可应用于反欺诈、风险识别及防范、异常行为模式检测等任务。
具体的,本实施例提供一种基于时序图表征学习的金融行为模式分析预测方法,如图1所示,包括以下步骤:
1)获取交易流水数据。
交易流水数据表示为:
Su=(eu1,eu2,…,eun)
其中,Su表示账户u的交易流水数据,eui为第i条交易记录,eui=(u,vui,tui,attrui),为一个四元组,vui表示交易对手,tui表示时间戳,attrui表示属性。
本实施例以图2(a)所示的模拟交易流水数据为例,对数据进行预处理。该数据集共有5个字段,其中数值型字段为交易金额,进行归一化处理;对于类别型字段如对方行标识,采用独热编码的模式。假设类别型有三类值a,b,c,则将会编码为三维特征:
{a:[1,0,0],b:[0,1,0],c:[0,0,1]}。
对于过多的类别数可能导致特征矩阵过于稀疏的问题,本实施例选择top-k的类别作为主体特征,将其他占比较少的类别统一为一类。
2)将账户u的每条交易流水数据的业务特征与时序特征分别输入到事件编码器(event encoder)与时间编码器(time encoder)中,得到流水嵌入向量。
事件编码器对交易事件中的属性信息进行编码:
其中,numi为第i条交易记录中所有的数值型特征,catij为第i条交易记录中的第j个类别型特征,W,Wj为特征变换矩阵,用于将数据映射为d维向量,Emb(·)表示对类别型属性进行嵌入映射(embedding)。
时间编码器对交易事件所处的时间戳信息进行编码:对于时序编码,其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性,即存在ψ满足
本实施例采用的时间编码器为:
通过时间编码器得到时间编码
流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和:
本实施例中,将预处理后的交易流水数据中对应了事件特征的字段(如对方行标识,交易金额等)输入到事件编码器(event encoder)中,将时间戳字段输入到时间编码器(time encoder)中。于是第i个流水事件特征被表示为:
具体如第1个事件特征为
同时利用函数对时间戳进行编码,可得:
同理可得其他交易的事件和时间特征表示,并通过得到编码。
3)基于自回归模型AR(auto-regressive model)对账户u的流水嵌入向量进行学习,并通过自监督对比学习训练,得到表征模型。
基于自回归模型对流水嵌入向量进行学习具体为:
将经过编码得到的流水嵌入向量表示(x1,…,xn)输入到自回归模型中,利用自回归模型提取流水嵌入向量的隐状态:
z1,…,zi=AR(x1,,…,xi),i=1,…,n
其中,zi蕴含了第i条记录以前的全部信息,n表示交易数。
如z1=[1.5331,-2.1234,…,0.9824]。
本实施例中,自回归模型的实现方法包括LSTM、GRU、TCN或Transformer等序列模型。
以一层的Transformer为例,其计算过程为:
这里,W为参数矩阵。当然,也可采用多层、多头的Transformer模型。
通过自监督对比学习训练的目的为根据账户u的当前历史eu1,…,eui,对未来的记录eu,i+1进行分辨,实现方法为:
给定前i条交易记录的编码表征x1,…,xi,通过自回归AR模型获得隐状态z1,…,zi,第i+1条交易记录的表征为xi+1,隐状态zi与该记录的匹配程度通过双线性函数表示:
其中,Wbilinear为参数矩阵。
本实施例中计算得到的匹配程度
从所有的交易流水数据(可能是其他账户的流水)中随机抽取一条交易记录e′作为负样本,并通过事件编码器得到其特征表示x(event)′,利用第i+1条真实记录的时间得到时间的表征从而得到负样本的特征表示:
同理,计算隐状态zi与所述负样本的匹配程度:
本实施例中计算得到的匹配程度
则成功预测未来事件的概率为:
以此定义自监督对比学习的优化目标为最大化成功预测的对数似然:
本实施例基于负对数似然计算该样本的梯度,对模型参数进行梯度下降优化,以Wbilinear为例:
其中lr为学习率。
最终,通过拼接获得账户u的特征表示:
其中,Zn为第n条记录以前的全部信息的隐状态。
通过上述步骤可以获得账号u的表征向量Zu,如Z1=[1.5123,0.6412,…,3.4212]。
4)以流水数据中账户和交易对手作为节点,交易流水作为连边,构建交互信息图。
5)使用图神经网络对图结构特征上的节点交互及进行建模,构成图增强模块,图增强模块可以增强表征矩阵对账户交互信息的表示能力,得到图神经网络的权重矩阵。
为了让表征模型具备账户交易交互图的信息,本实施例引入了图增强模块。将每一个账户的交易流水看作是一条连边,账户与它的交易对手看作图中的节点,图表示为G=9V,A),其中V是图的节点(账户)集合,A∈R|V|×|V|是邻接矩阵,假定S为交易流水的集合,
图的邻接矩阵表示为:
其中,ui表示第i个账户,交易对手vj对应了第j个账户,t表示时间戳,attr表示属性。
根据上述计算过程,本实施例计算得到图的邻接矩阵A为:
记D=diag(d1,d2,…,dn)为图的度矩阵,其中di=∑jAij;
使用图神经网络进行交互图上的信息传播:设L表示加入自环的归一化邻接矩阵
其中
则节点表征更新表示为稀疏矩阵乘法:
其中,为增强后的表征矩阵,/>为自回归模型经过自监督对比学习训练生成的表征矩阵,d为账户特征表示维度,W为图神经网络的权重矩阵,h为网络层数。
本实例得到账户u增强后的表征向量
基于上述方法,能够很好的学习到金融交易数据的表征,可接入欺诈、异常检测等下游任务之中,实现金融行为分析与预测,其模型结构图如图3所示。
6)基于增强后的表征矩阵和账户标签构建机器学习分类模型,得到机器学习分类模型的权重矩阵。
7)通过反向传播更新机器学习分类模型的权重矩阵和图神经网络的权重矩阵,对模型进行训练,实现金融行为模式分析预测。
本实施例中,机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。
本实施例中的金融行为模式分析预测为欺诈账户识别,机器学习分类模型通过逻辑回归模型实现,得到账户u为异常的概率为:
其中,为账户u的表征向量,q为逻辑回归模型的权重矩阵;
逻辑回归模型的损失函数为:
其中yu∈{0,1,为账户u对应的真实标签。本实施例得到账户u为异常的概率:
通过本发明方法,模型能够自动学习每一个账号在最新时刻的交易流水表征,并应用到后续的金融行为模式分析预测任务中。交易流水表征不仅包含了业务特征信息,也涵盖了时序和交互特征信息,从而使正常账号与异常账号在向量空间上的区分更加明显。在真实反欺诈业务场景下本实施例对比了本发明与规则模型的效果,发现本发明在对公、对私场景下都能极大弥补规则模型的缺陷,在反电信诈骗领域,做到了对欺诈账号高精确、高覆盖的识别效果,相较之前规则模型F1分值提升10%(对私)、48%(对公)。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中技术人员依据本发明的构思在现有技术的基础上通过逻辑分析、推理、或者有限的实验可以得到的技术方案,皆应在权利要求书所确定的保护范围内。
Claims (10)
1.一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,包括以下步骤:
获取交易流水数据;
将每条交易流水数据的业务特征与时序特征分别输入到事件编码器与时间编码器中,得到流水嵌入向量;
基于自回归模型对流水嵌入向量进行学习,并通过自监督对比学习训练,得到表征矩阵;
以流水数据中账户和交易对手作为节点,交易流水作为连边,构建交互信息图;
使用图神经网络对图结构特征上的节点交互进行建模,构成图增强模块,基于图增强模块对表征矩阵进行增强,得到图神经网络的权重矩阵;
基于增强后的表征矩阵和账户标签构建机器学习分类模型,得到机器学习分类模型的权重矩阵;
通过反向传播更新机器学习分类模型的权重矩阵和图神经网络的权重矩阵,对模型进行训练,实现金融行为模式分析预测。
2.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述交易流水数据表示为:
Su=(eu1,eu2,…,eun)
其中,Su表示账户u的交易流水数据,n为交易数,eui为第i条交易记录,eui=(u,vui,tui,attrui),为一个四元组,vui表示交易对手,tui表示时间戳,attrui表示属性。
3.根据权利要求2所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述事件编码器对账户u的交易事件中的属性信息进行编码:
其中,numi为第i条交易记录中所有的数值型特征,catij为第i条交易记录中的第j个类别型特征,W,Wj为特征变换矩阵,用于将数据映射为d维向量,Emb(·)表示对类别型属性进行嵌入映射。
4.根据权利要求3所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述时间编码器对账户u的交易事件所处的时间戳信息进行编码:对于时序编码,其目的在于构建一个从时间域到向量空间的连续函数映射并具有平移不变性,即存在ψ满足/>所述时间编码器为:
通过时间编码器得到时间编码
5.根据权利要求4所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述流水嵌入向量中每个事件的编码为事件编码器的编码结果和时间编码器的编码结果之和:
6.根据权利要求1或5所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述基于自回归模型对账户u的流水嵌入向量进行特征提取,构建隐状态,具体为:
将经过编码得到的流水嵌入向量(x1,…,xn)输入到自回归模型中,利用自回归模型提取流水嵌入向量的隐状态:
z1,…,zi=AR(x1,…,xi),i=1,…,n
其中,AR表示自回归模型,zi蕴含了第i条记录以前的全部信息,n表示交易数。
7.根据权利要求6所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述通过自监督对比学习训练的目的为利用账户u的隐状态zi构建表征向量,具体为:
根据当前历史eu1,…,eui对未来的记录eu,i+1进行分辨,实现方法包括以下步骤:
给定前i条交易记录的编码表征x1,…,xi,通过自回归模型获得隐状态z1,…,zi,第i+1条交易记录的表征为xi+1,隐状态zi与该记录的匹配程度通过双线性函数表示:
其中,Wbilinear为参数矩阵;
从所有的交易流水数据中随机抽取一条交易记录e′作为负样本,并通过事件编码器得到其特征表示x(event)′,利用第i+1条真实记录的时间得到时间的表征从而得到负样本的特征表示:
同理,计算隐状态zi与所述负样本的匹配程度:
则成功预测未来事件的概率为:
以此定义自监督对比学习的优化目标为最大化成功预测的对数似然:
最终,通过拼接获得账户u的表征向量:
其中,zn为第n条记录以前的全部信息的隐状态。
8.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述基于图增强模块对表征矩阵进行增强具体为:
将每一个账户的交易流水看作是一条连边,账户与它的交易对手看作图中的节点,图表示为G=(V,A),其中V是图的节点集合,是邻接矩阵,假定S为交易流水的集合,
则,图的邻接矩阵表示为:
其中,ui表示第i个账户,交易对手vj对应了第j个账户,t表示时间戳,attr表示属性;
记D=diag(d1,d2,…,dn)为图的度矩阵,其中di=∑jAij;
使用图神经网络进行交互图上的信息传播:设L表示加入自环的归一化邻接矩阵
其中
则表征更新表示为稀疏矩阵乘法:
其中,/>为增强后的表征矩阵,/>为自回归模型经过自监督对比学习训练生成的表征矩阵,d为账户特征表示维度,W为图神经网络的权重矩阵,h为网络层数。
9.根据权利要求1所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,所述自回归模型的实现方式包括LSTM、GRU、TCN或Transformer序列模型,所述机器学习分类模型的实现方式包括贝叶斯分类法、决策树、逻辑回归、支持向量机、神经网络模型。
10.根据权利要求9所述的一种基于时序图表征学习的金融行为模式分析预测方法,其特征在于,通过逻辑回归模型实现的机器学习分类模型得到账户u为异常的概率为:
其中,为账户u的表征向量,q为逻辑回归模型的权重矩阵;
逻辑回归模型的损失函数为:
其中yu∈{0,1,为账户u对应的真实标签。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309220.1A CN116541755A (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序图表征学习的金融行为模式分析预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310309220.1A CN116541755A (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序图表征学习的金融行为模式分析预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116541755A true CN116541755A (zh) | 2023-08-04 |
Family
ID=87447862
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310309220.1A Pending CN116541755A (zh) | 2023-03-27 | 2023-03-27 | 一种基于时序图表征学习的金融行为模式分析预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116541755A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117354042A (zh) * | 2023-11-14 | 2024-01-05 | 龙坤(无锡)智慧科技有限公司 | 一种动态监控的边缘网关设备异常流量监测方法 |
CN117493213A (zh) * | 2023-11-30 | 2024-02-02 | 湖南长银五八消费金融股份有限公司 | 金融业务系统测试覆盖率检测方法、装置、设备及介质 |
-
2023
- 2023-03-27 CN CN202310309220.1A patent/CN116541755A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117354042A (zh) * | 2023-11-14 | 2024-01-05 | 龙坤(无锡)智慧科技有限公司 | 一种动态监控的边缘网关设备异常流量监测方法 |
CN117493213A (zh) * | 2023-11-30 | 2024-02-02 | 湖南长银五八消费金融股份有限公司 | 金融业务系统测试覆盖率检测方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116541755A (zh) | 一种基于时序图表征学习的金融行为模式分析预测方法 | |
CN111292195A (zh) | 风险账户的识别方法及装置 | |
CN111753207B (zh) | 一种基于评论的神经图协同过滤方法 | |
CN110442723A (zh) | 一种基于多步判别的Co-Attention模型用于多标签文本分类的方法 | |
CN111368926B (zh) | 图像筛选方法、装置和计算机可读存储介质 | |
CN112418520A (zh) | 一种基于联邦学习的信用卡交易风险预测方法 | |
CN111754345A (zh) | 一种基于改进随机森林的比特币地址分类方法 | |
CN108022016A (zh) | 一种基于人工智能的股票价格预测方法及系统 | |
CN112084240B (zh) | 一种群租房智能识别、联动治理方法及系统 | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN115935245A (zh) | 一种政务热线案件自动分类分拨方法 | |
CN110335160A (zh) | 一种基于分组和注意力改进Bi-GRU的就医迁移行为预测方法及系统 | |
CN115760127A (zh) | 一种基于规则注意力机制的交易欺诈检测方法及系统 | |
CN116258504B (zh) | 银行客户关系管理系统及其方法 | |
CN117314623A (zh) | 融合外部知识的贷款欺诈预测方法、装置及存储介质 | |
CN115438190B (zh) | 一种配电网故障辅助决策知识抽取方法及系统 | |
CN114936615B (zh) | 一种基于表征一致性校对的小样本日志信息异常检测方法 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN110705638A (zh) | 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法 | |
CN116245645A (zh) | 一种基于图神经网络的金融类罪团伙检测方法 | |
CN115907968A (zh) | 一种基于人行征信的风控拒绝推断方法及设备 | |
CN109635008A (zh) | 一种基于机器学习的设备故障检测方法 | |
CN108491481B (zh) | 侵犯知识产权涉案当事人智能辨识主动预警系统及方法 | |
CN114970519A (zh) | 一种基于数据分词的车流量数据处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |