CN117256000A - 用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品 - Google Patents
用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品 Download PDFInfo
- Publication number
- CN117256000A CN117256000A CN202380011456.5A CN202380011456A CN117256000A CN 117256000 A CN117256000 A CN 117256000A CN 202380011456 A CN202380011456 A CN 202380011456A CN 117256000 A CN117256000 A CN 117256000A
- Authority
- CN
- China
- Prior art keywords
- model
- matrix
- perturbation
- generic
- graph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000004590 computer program Methods 0.000 title claims abstract description 26
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 14
- 238000012549 training Methods 0.000 title abstract description 28
- 239000011159 matrix material Substances 0.000 claims abstract description 143
- 230000000295 complement effect Effects 0.000 claims abstract description 30
- 230000004044 response Effects 0.000 claims abstract description 24
- 238000009827 uniform distribution Methods 0.000 claims abstract description 15
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 230000003993 interaction Effects 0.000 claims description 65
- 238000004891 communication Methods 0.000 description 26
- 230000006870 function Effects 0.000 description 26
- 238000012545 processing Methods 0.000 description 19
- 230000008569 process Effects 0.000 description 14
- 238000003860 storage Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 6
- 238000005457 optimization Methods 0.000 description 6
- 230000001413 cellular effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007792 addition Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 2
- 238000004220 aggregation Methods 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 230000009977 dual effect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 238000012351 Integrated analysis Methods 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000004931 aggregating effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 230000000246 remedial effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000004148 unit process Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Stored Programmes (AREA)
Abstract
描述了用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品。该方法包括接收图神经网络(GNN)模型以及包括邻接矩阵的二分图,对该GNN模型的模型参数进行初始化,对扰动参数进行初始化,以及基于该二分图对补图的子图进行采样。该方法还包括重复以下操作,直到该模型参数收敛:从均匀分布中抽取随机变量;基于该子图、该随机变量和该扰动参数来生成通用扰动矩阵;通过将该二分图和该通用扰动矩阵输入到该GNN模型来确定贝叶斯个性化排序(BPR)损失;基于随机梯度上升来更新该扰动参数;以及基于随机梯度下降来更新该模型参数。该方法还包括响应于该模型参数收敛,输出该模型参数。
Description
相关申请的交叉引用
本申请要求2022年2月18日提交的美国临时专利申请63/311,620的优先权,该美国临时专利申请的公开内容以全文引用的方式并入本文中。
技术领域
本公开整体涉及用于神经网络的对抗训练,并且在一些非限制性实施方案或方面中,涉及用于通过使用通用对抗训练来生成对扰动具有弹性的鲁棒图神经网络的方法、系统和计算机程序产品。
背景技术
图神经网络(GNN)提供了对于基于图的协同过滤非常有效的一类强大的架构。然而,在节点的特征或图结构(例如与其他节点的沿边连接)上,GNN易受扰动(例如添加、修改、删除、缺失边、错误包括边等)的影响。扰动可能灾难性地降低GNN的性能(例如精度、效率等)。由扰动引起的GNN性能不佳可能需要额外的训练层,需要与其他神经网络组合以提供集成分析,或者需要额外的生成后测试,以便提供给定系统实现中所需的性能水平。上述补救措施中的每一者都提高了计算机系统要求(例如处理能力、所需存储器存储、处理时间、带宽等),并且在底层GNN被生成为对扰动具有鲁棒性和弹性的情况下可以被避免。
因此,在本领域中需要一种技术解决方案,该技术解决方案提供了生成对扰动具有弹性的鲁棒GNN,使得可以使生产高性能GNN所需的计算机资源降至最少。
发明内容
根据一些非限制性实施方案或方面,提供了用于使用通用对抗训练来生成鲁棒GNN的方法、系统和计算机程序产品,从而克服了上述的一些或所有缺陷。
根据一些非限制性实施方案或方面,提供了一种用于使用通用对抗训练来生成鲁棒GNN的计算机实现的方法。所述方法包括使用至少一个处理器接收包括GNN模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵。所述方法还包括使用至少一个处理器基于贝叶斯(Bayesian)个性化排序(BPR)损失对GNN模型的模型参数进行初始化。所述方法还包括使用至少一个处理器随机地对扰动参数进行初始化。所述方法还包括使用至少一个处理器基于二分图来确定补图。所述方法还包括使用至少一个处理器对补图的子图进行采样。所述方法还包括使用至少一个处理器重复以下操作,直到模型参数收敛:从均匀分布中抽取随机变量;基于子图、随机变量和扰动参数来生成通用扰动矩阵;通过将二分图和通用扰动矩阵输入到GNN模型来确定BPR损失;基于随机梯度上升来更新扰动参数;以及基于随机梯度下降来更新模型参数。所述方法还包括响应于模型参数收敛,使用至少一个处理器输出模型参数。
在一些非限制性实施方案或方面中,所述方法可以还包括响应于模型参数收敛,使用至少一个处理器通过使用模型参数执行GNN模型基于交互矩阵来生成至少一个推荐。
在一些非限制性实施方案或方面中,输入可以还包括扰动预算,其中扰动预算指定子图的边的数量。
在一些非限制性实施方案或方面中,输入可以还包括第一正则化参数,其中BPR损失是基于第一正则化参数以防止过拟合。
在一些非限制性实施方案或方面中,输入可以还包括第二正则化参数,其中通用扰动矩阵的对抗扰动对BPR损失的影响受到第二正则化参数的限制。
在一些非限制性实施方案或方面中,输入可以还包括第三正则化参数,其中通过使用利用第三正则化参数加权的可学习二值掩码将通用扰动矩阵生成为稀疏图。
在一些非限制性实施方案或方面中,交互矩阵可以是用户-物品交互矩阵,其中GNN模型被训练为基于用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
在一些非限制性实施方案或方面中,通用扰动矩阵的生成可以是进一步基于扰动参数的sigmoid函数。
在一些非限制性实施方案或方面中,基于随机梯度下降对模型参数的更新可以是进一步至少部分地基于BPR损失。
根据一些非限制性实施方案或方面,提供了一种用于使用通用对抗训练来生成鲁棒GNN的系统。所述系统包括至少一个处理器,所述处理器被编程或配置为接收包括GNN模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵。所述至少一个处理器还被编程或配置为基于贝叶斯个性化排序(BPR)损失对GNN模型的模型参数进行初始化。所述至少一个处理器被进一步编程或配置为随机地对扰动参数进行初始化。所述至少一个处理器被进一步编程或配置为基于二分图来确定补图。所述至少一个处理器被进一步编程或配置为对补图的子图进行采样。所述至少一个处理器被进一步编程或配置为重复以下操作,直到模型参数收敛:从均匀分布中抽取随机变量;基于子图、随机变量和扰动参数来生成通用扰动矩阵;通过将二分图和通用扰动矩阵输入到GNN模型来确定BPR损失;基于随机梯度上升来更新扰动参数;以及基于随机梯度下降来更新模型参数。所述至少一个处理器被进一步编程或配置为响应于模型参数收敛,输出模型参数。
在一些非限制性实施方案或方面中,所述至少一个处理器被进一步编程或配置为响应于模型参数收敛,通过使用模型参数执行GNN模型基于交互矩阵来生成至少一个推荐。
在一些非限制性实施方案或方面中,输入可以还包括扰动预算,并且扰动预算可以指定子图的边的数量。
在一些非限制性实施方案或方面中,输入可以还包括第一正则化参数,并且BPR损失可以是基于第一正则化参数以防止过拟合。
在一些非限制性实施方案或方面中,输入可以还包括第二正则化参数,并且通用扰动矩阵的对抗扰动对BPR损失的影响可以受到第二正则化参数的限制。
在一些非限制性实施方案或方面中,输入可以还包括第三正则化参数,并且可以通过使用利用第三正则化参数加权的可学习二值掩码将通用扰动矩阵生成为稀疏图。
在一些非限制性实施方案或方面中,交互矩阵可以包括用户-物品交互矩阵,并且GNN模型可以被训练为基于用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
在一些非限制性实施方案或方面中,通用扰动矩阵的生成可以是进一步基于扰动参数的sigmoid函数。
在一些非限制性实施方案或方面中,基于随机梯度下降对模型参数的更新可以是进一步至少部分地基于BPR损失。
根据一些非限制性实施方案或方面,提供了一种用于使用通用对抗训练来生成鲁棒GNN的计算机程序产品。所述计算机程序产品包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使得所述至少一个处理器接收包括GNN模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵。所述一个或多个指令还使得所述至少一个处理器基于贝叶斯个性化排序(BPR)损失对GNN模型的模型参数进行初始化。所述一个或多个指令进一步使得所述至少一个处理器随机地对扰动参数进行初始化。所述一个或多个指令进一步使得所述至少一个处理器基于二分图来确定补图。所述一个或多个指令进一步使得所述至少一个处理器对补图的子图进行采样。所述一个或多个指令进一步使得所述至少一个处理器重复以下操作,直到模型参数收敛:从均匀分布中抽取随机变量;基于子图、随机变量和扰动参数来生成通用扰动矩阵;通过将二分图和通用扰动矩阵输入到GNN模型来确定BPR损失;基于随机梯度上升来更新扰动参数;以及基于随机梯度下降来更新模型参数。所述一个或多个指令进一步使得所述至少一个处理器响应于模型参数收敛,输出模型参数。
在一些非限制性实施方案或方面中,所述一个或多个指令可以使得所述至少一个处理器响应于模型参数收敛,通过使用模型参数执行GNN模型基于交互矩阵来生成至少一个推荐。
在一些非限制性实施方案或方面中,输入可以还包括扰动预算,并且扰动预算可以指定子图的边的数量。
在一些非限制性实施方案或方面中,输入可以还包括第一正则化参数,并且BPR损失可以是基于第一正则化参数以防止过拟合。
在一些非限制性实施方案或方面中,输入可以还包括第二正则化参数,并且通用扰动矩阵的对抗扰动对BPR损失的影响可以受到第二正则化参数的限制。
在一些非限制性实施方案或方面中,输入可以还包括第三正则化参数,并且可以通过使用利用第三正则化参数加权的可学习二值掩码将通用扰动矩阵生成为稀疏图。
在一些非限制性实施方案或方面中,交互矩阵可以包括用户-物品交互矩阵,并且GNN模型可以被训练为基于用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
在一些非限制性实施方案或方面中,通用扰动矩阵的生成可以是进一步基于扰动参数的sigmoid函数。
在一些非限制性实施方案或方面中,基于随机梯度下降对模型参数的更新可以是进一步至少部分地基于BPR损失。
其他非限制性实施方案或方面将在以下编号的条款中阐述:
条款1:一种计算机实现的方法,包括:使用至少一个处理器接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;使用至少一个处理器基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;使用至少一个处理器随机地对扰动参数进行初始化;使用至少一个处理器基于所述二分图来确定补图;使用至少一个处理器对所述补图的子图进行采样;使用至少一个处理器重复以下操作,直到所述模型参数收敛:从均匀分布中抽取随机变量;基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;基于随机梯度上升来更新所述扰动参数;以及基于随机梯度下降来更新所述模型参数;以及响应于所述模型参数收敛,使用至少一个处理器输出所述模型参数。
条款2:如条款1所述的计算机实现的方法,还包括响应于所述模型参数收敛,使用至少一个处理器通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
条款3:如条款1或条款2所述的计算机实现的方法,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
条款4:如条款1至条款3中任一项所述的计算机实现的方法,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
条款5:如条款1至条款4中任一项所述的计算机实现的方法,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
条款6:如条款1至条款5中任一项所述的计算机实现的方法,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
条款7:如条款1至条款6中任一项所述的计算机实现的方法,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
条款8:如条款1至条款7中任一项所述的计算机实现的方法,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
条款9:如条款1至条款8中任一项所述的计算机实现的方法,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
条款10:一种系统,所述系统包括至少一个处理器,所述至少一个处理器被编程或配置为:接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;随机地对扰动参数进行初始化;基于所述二分图来确定补图;对所述补图的子图进行采样;重复以下操作,直到所述模型参数收敛:从均匀分布中抽取随机变量;基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;基于随机梯度上升来更新所述扰动参数;以及基于随机梯度下降来更新所述模型参数;并且响应于所述模型参数收敛,输出所述模型参数。
条款11:如条款10所述的系统,其中所述至少一个处理器被进一步编程或配置为响应于所述模型参数收敛,通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
条款12:如条款10或条款11所述的系统,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
条款13:如条款10至条款12中任一项所述的系统,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
条款14:如条款10至条款13中任一项所述的系统,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
条款15:如条款10至条款14中任一项所述的系统,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
条款16:如条款10至条款15中任一项所述的系统,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
条款17:如条款10至条款16中任一项所述的系统,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
条款18:如条款10至条款17中任一项所述的系统,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
条款19:一种计算机程序产品,包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使得所述至少一个处理器:接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;随机地对扰动参数进行初始化;基于所述二分图来确定补图;对所述补图的子图进行采样;重复以下操作,直到所述模型参数收敛:从均匀分布中抽取随机变量;基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;基于随机梯度上升来更新所述扰动参数;以及基于随机梯度下降来更新所述模型参数;并且响应于所述模型参数收敛,输出所述模型参数。
条款20:如条款19所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器响应于所述模型参数收敛,通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
条款21:如条款19或条款20所述的计算机程序产品,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
条款22:如条款19至条款21中任一项所述的计算机程序产品,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
条款23:如条款19至条款22中任一项所述的计算机程序产品,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
条款24:如条款19至条款23中任一项所述的计算机程序产品,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
条款25:如条款19至条款24中任一项所述的计算机程序产品,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
条款26:条款19至条款25中任一项所述的计算机程序产品,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
条款27:如条款19至条款26中任一项所述的计算机程序产品,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
在参考附图考虑以下描述和所附权利要求书时,本公开的这些和其他特征和特性以及相关结构元件和各部分的组合的操作方法和功能以及制造经济性将变得更加显而易见,所有附图形成本说明书的部分,其中相似附图标号在各图中标示对应部分。然而,应明确地理解,图式仅用于说明及描述的目的,且不希望作为对本公开的限制的定义。除非上下文另外明确规定,否则在本说明书和权利要求书中使用时,单数形式“一”和“所述”包括多个指示物。
附图说明
下文参考附图中示出的示例性实施方案更详细地解释本公开的额外优点和细节,在附图中:
图1是根据一些非限制性实施方案或方面的用于使用通用对抗训练来生成鲁棒GNN的系统的示意图;
图2是根据一些非限制性实施方案或方面的一个或多个部件、设备和/或系统的图;
图3是根据一些非限制性实施方案或方面的用于使用通用对抗训练来生成鲁棒GNN的方法的流程图;并且
图4是根据一些非限制性实施方案或方面的用于使用通用对抗训练来生成鲁棒GNN的方法的流程图。
本领域的技术人员应了解,本文中的任何框图表示体现本发明主题的原理的说明性系统的概念视图。类似地,可了解,任何流程图表、流程图、状态转换图、伪代码等表示可基本上在计算机可读介质中表示并且由计算机或处理器执行的各种过程,无论是否明确示出此类计算机或处理器。
具体实施方式
为了进行以下描述,术语“上”、“下”、“右”、“左”、“竖直”、“水平”、“顶部”、“底部”、“橫向”、“纵向”以及其派生词应如其在附图中的定向那样与非限制性实施方案或方面相关。然而,应理解,除了明确指定为相反的情况之外,非限制性实施方案或方面可采用各种替代变化和步骤顺序。还应理解,附图中所示的以及在以下说明书中描述的特定设备和过程仅仅是示例性实施方案或方面。因此,与本文公开的实施方案或方面有关的特定尺寸和其他物理特性不应被视为限制。
本文所使用的方面、部件、元件、结构、动作、步骤、功能、指令等都不应当被理解为关键的或必要的,除非明确地如此描述。且,如本文所使用,冠词“一”希望包括一个或多个项目,且可与“一个或多个”和“至少一个”互换使用。此外,如本文中所使用,术语“集合”希望包括一个或多个项目(例如,相关项目、不相关项目、相关项目与不相关项目的组合等),并且可与“一个或多个”或“至少一个”互换使用。在希望仅有一个项目的情况下,使用术语“一个”或类似语言。且,如本文所使用,术语“具有”等希望是开放式术语。另外,除非另外明确陈述,否则短语“基于”希望意味着“至少部分地基于”。
本文中结合阈值描述一些非限制性实施方案或方面。如本文所使用,满足阈值可以指值大于阈值、多于阈值、高于阈值、大于或等于阈值、小于阈值、少于阈值、低于阈值、小于或等于阈值、等于阈值等。
如本文所使用,术语“收单方机构”可指由交易服务提供商许可和/或批准以使用与交易服务提供商相关联的支付设备发起交易(例如,支付交易)的实体。收单方机构可发起的交易可包括支付交易(例如,购买、原始信用证交易(OCT)、账户资金交易(AFT)等)。在一些非限制性实施方案或方面中,收单方机构可以是金融机构,例如银行。如本文所使用,术语“收单方系统”可以指由收单方机构或代表收单方机构操作的一个或多个计算设备,诸如执行一个或多个软件应用程序的服务器计算机。
如本文所使用,术语“账户标识符”可以包括一个或多个主账号(PAN)、令牌或与顾客账户相关联的其他标识符。术语“令牌”可指用作原始账户标识符诸如PAN的替代或替换标识符的标识符。账户标识符可以是字母数字或字符和/或符号的任何组合。令牌可与一个或多个数据结构(例如,一个或多个数据库等)中的PAN或其他原始账户标识符相关联,使得令牌可用于进行交易而无需直接使用原始账户标识符。在一些示例中,诸如PAN的原始账户标识符可以与用于不同个人或目的的多个令牌相关联。
如本文中所使用,术语“通信”可以指数据(例如,信息、信号、消息、指令、命令等)的接收、接纳、发送、传送、提供等。一个单元(例如,设备、系统、设备或系统的部件、其组合和/或其类似者)与另一单元通信意味着所述一个单元能够直接或间接地从所述另一单元接收信息和/或向所述另一单元发送信息。这可以指代在本质上有线和/或无线的直接或间接连接(例如,直接通信连接、间接通信连接和/或其类似者)。另外,尽管所发送的信息可以在第一单元与第二单元之间被修改、处理、中继和/或路由,但这两个单元也可以彼此通信。例如,即使第一单元被动地接收信息且不会主动地将信息发送到第二单元,第一单元也可以与第二单元通信。作为另一示例,如果至少一个中间单元处理从第一单元接收的信息且将处理后的信息传送到第二单元,那么第一单元可以与第二单元通信。
如本文中所使用,术语“计算设备”可以指被配置成处理数据的一个或多个电子设备。在一些示例中,计算设备可以包括接收、处理和输出数据的必要部件,例如处理器、显示器、存储器、输入设备、网络接口等。计算设备可以是移动设备。作为示例,移动设备可包括蜂窝电话(例如,智能手机或标准蜂窝电话)、便携式计算机、可穿戴设备(例如,手表、眼镜、透镜、衣物等)、个人数字助理(PDA)和/或其他类似设备。计算设备还可以是台式计算机或其他形式的非移动计算机。“应用程序”或“应用程序编程接口”(API)可指计算机代码或在计算机可读介质上排序的其他数据,其可以由处理器执行以促进软件部件之间的交互,例如客户侧前端和/或服务器侧后端的交互以用于从客户端接收数据。“界面”可指生成的显示,例如一个或多个图形用户界面(GUI),用户可以直接或间接地(例如,通过键盘、鼠标等)与所述GUI交互。
如本文所使用,术语“电子钱包”和“电子钱包应用程序”是指被配置为发起和/或进行支付交易的一个或多个电子设备和/或软件应用程序。例如,电子钱包可以包括执行电子钱包应用程序的移动设备,并且可以还包括用于维护交易数据并将交易数据提供给移动设备的服务器侧软件和/或数据库。“电子钱包提供商”可以包括为客户提供和/或维护电子钱包的实体,例如GoogleAndroid/>Apple/>Samsung/>和/或其他类似电子支付系统。在一些非限制性示例中,发行方银行可是电子钱包提供商。
如本文中所使用,术语“发行方机构”可以指对顾客提供用于进行交易(例如支付交易),诸如发起信用和/或借记支付的账户的一个或多个实体,诸如银行。例如,发行方机构可向客户提供唯一地标识与所述客户相关联的一个或多个账户的账户标识符,例如PAN。账户标识符可以在诸如实体金融工具(例如支付卡)等便携式金融设备上体现,并且/或者可以是电子的且用于电子支付。术语“发行方系统”指由发行方机构或代表发行方机构操作的一个或多个计算机设备,例如执行一个或多个软件应用程序的服务器计算机。例如,发行方系统可以包括用于授权交易的一个或多个授权服务器。
如本文所使用,术语“商家”可以指基于例如支付交易的交易向客户提供商品和/或服务或者对商品和/或服务的访问的个人或实体。术语“商家”或“商家系统”还可以指由商家或代表商家操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的服务器计算机。如本文所使用,“销售点(POS)系统”可指由商家用来与客户进行支付交易的一个或多个计算机和/或外围设备,包括一个或多个读卡器、扫描设备(例如,代码扫描仪)、通信接收器、近场通信(NFC)接收器、射频标识(RFID)接收器和/或其他非接触收发器或接收器、基于接触的接收器、支付终端、计算机、服务器、输入设备和/或可用于发起支付交易的其他类似设备。
如本文所使用,术语“支付设备”可指支付卡(例如,信用卡或借记卡)、礼品卡、智能卡、智能介质、工资卡、医疗保健卡、腕带、含有账户信息的机器可读介质、钥匙链设备或吊坠、RFID应答器、零售商折扣或会员卡、蜂窝电话、电子钱包移动应用程序、PDA、寻呼机、安全卡、计算设备、访问卡、无线终端、应答器等。在一些非限制性实施方案或方面中,支付设备可包括用以存储信息(例如,账户标识符、账户持有人姓名等)的易失性或非易失性存储器。
如本文所使用,术语“支付网关”可指实体和/或由此类实体或代表此类实体操作的支付处理系统,所述实体(例如,商家服务提供商、支付服务提供商、支付服务商、与收单方有合约的支付服务商、支付集合人(payment aggregator)等)将支付服务(例如,交易服务提供商支付服务、支付处理服务等)提供到一个或多个商家。支付服务可以与由交易服务提供商管理的便携式金融设备的使用相关联。如本文所使用,术语“支付网关系统”可以指由支付网关或代表支付网关操作的一个或多个计算机系统、计算机设备、服务器、服务器群组等。
如本文所使用,术语“服务器”可指或包括由互联网等网络环境中的多方操作或促进所述多方的通信和处理的一个或多个计算设备,但应了解,可通过一个或多个公共或专用网络环境促进通信,并且可能有各种其他布置。另外,在网络环境中直接或间接通信的多个计算设备(例如,服务器、POS设备、移动设备等)可以构成“系统”。如本文所使用,对“服务器”或“处理器”的提及可指陈述为实施先前步骤或功能的先前所述服务器和/或处理器、不同的服务器和/或处理器,和/或服务器和/或处理器的组合。例如,如在说明书和权利要求书中所使用,陈述为实施第一步骤或功能的第一服务器和/或第一处理器可指代陈述为实施第二步骤或功能的相同或不同服务器和/或处理器。
如本文所使用,术语“交易服务提供商”可指从商家或其他实体接收交易授权请求且在一些情况下通过交易服务提供商与发行方机构之间的协议来提供支付保证的实体。例如,交易服务提供商可以包括例如之类的支付网络,或处理交易的任何其他实体。术语“交易处理系统”可指由交易服务提供商或代表交易服务提供商操作的一个或多个计算机系统,例如执行一个或多个软件应用程序的交易处理服务器。交易处理服务器可包括一个或多个处理器,并且在一些非限制性实施方案或方面中,可以由交易服务提供商或代表交易服务提供商操作。
所公开主题的非限制性实施方案或方面针对用于(包括但不限于使用通用对抗训练)生成鲁棒GNN的方法、系统和计算机程序产品。例如,所公开主题的非限制性实施方案或方面提供:接收包括GNN模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;随机地对扰动参数进行初始化;基于所述二分图来确定补图;对所述补图的子图进行采样;以及重复以下操作,直到所述模型参数收敛:从均匀分布中抽取随机变量,基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵,通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失,基于随机梯度上升来更新所述扰动参数,以及基于随机梯度下降来更新所述模型参数。这类实施方案或方面在用于使用通用对抗训练来生成鲁棒GNN的系统中提供了许多技术优点和改进。例如,这类技术提供了改进GNN模型训练、测试和执行的性能(例如精度、效率等)。另外,这类技术减少了产生与现有技术系统的GNN的性能品质相同的性能品质所需的计算机系统要求(例如处理能力、所需存储器存储、处理时间、带宽等)。此外,通过采用使用本文中描述的方法(例如基于如迭代地更新的扰动矩阵和/或扰动参数的扰动)进行的对抗训练,可以使GNN模型对扰动具有弹性,而不需要在GNN模型生成和/或训练之后采用额外的计算机资源来解决扰动。此外,由于扰动(例如图边的添加、修改、删除等)可能是由数据收集错误、数据存储错误、数据处理错误、恶意攻击等引起的,所以本文中描述的技术通过产生对这类技术缺陷具有弹性的鲁棒GNN模型来改进计算机实现的GNN系统的整体性能。当存在相同种类的扰动时,根据本公开的非限制性实施方案和方面产生的GNN模型将优于在没有所描述的训练技术的情况下产生的GNN模型。
诸如图卷积网络(GCN)的GNN对于协同过滤可能是强大的。例如,GCN可用于探索邻域聚合机制以提取用户和物品的高级表示。真实世界的用户-物品图可能是不完整且有噪声的,这可能产生次优的性能和误导的邻域信息。在一些非限制性实施方案或方面中,本文中描述的系统和方法可以使用对抗训练以对GCN进行适当正则化,并且克服不完整且有噪声的用户-物品图的这类问题。
不具有这种对抗训练的GNN可能易受对抗扰动的影响,在对抗扰动中,节点的特征或图结构上的较小、不明显的扰动可能显著降低GNN的性能。在一些非限制性实施方案或方面中,本文中描述的系统和方法可以在GNN的训练阶段期间对对抗图扰动进行建模以改进模型性能。这类系统和方法可以使用最小-最大鲁棒优化,在最小-最大鲁棒优化中,通过内部最大化问题获得通用图扰动矩阵,并且外部优化旨在计算GNN模型的模型参数。此外,这类系统和方法通过构造离散优化的连续松弛,并且进一步使用无偏梯度估计器计算离散变量的梯度,来解决优化内部最大化问题(由于图扰动的离散性质)的挑战。这些技术提高了基于GNN的推荐器系统的泛化性能。此外,所描述的系统和方法与GNN模型兼容,而并不改变它们的架构。
现在参考图1,根据一些非限制性实施方案或方面,示出了用于使用通用对抗训练来生成鲁棒GNN的系统100。具体地,系统100可以包括建模系统102、用户设备106、存储器110和通信网络108。
建模系统102可以包括一个或多个计算设备,该一个或多个计算设备被配置为包括至少部分地通过通信网络108与用户设备106和/或存储器110通信。在一些非限制性实施方案或方面中,建模系统102可以与交易处理系统相关联,或者包括在交易处理系统中。建模系统102可以进一步与存储器110相关联,或者包括该存储器。建模系统102可以进一步与用户设备106相关联,或者包括该用户设备。建模系统102可以包括一个或多个服务器。建模系统102可以包括至少一个处理器和至少一个非瞬态计算机可读存储介质,该至少一个非瞬态计算机可读存储介质包括程序指令,该程序指令在被执行时使得至少一个处理器执行本公开的方法。
用户设备106可以包括一个或多个计算设备,该一个或多个计算设备被配置为包括至少部分地通过通信网络108与建模系统102和/或存储器110通信。用户设备106可以包括至少一个处理器和至少一个非瞬态计算机可读存储介质,该至少一个非瞬态计算机可读存储介质包括程序指令,该程序指令在被执行时使得至少一个处理器传输/选择输入以及/或者接收/查看本公开的方法的输出。
存储器110可以包括一个或多个计算设备,该一个或多个计算设备被配置为包括至少部分地通过通信网络108与建模系统102和/或用户设备106通信。存储器110可以包括至少一个处理器和至少一个非瞬态计算机可读存储介质,该至少一个非瞬态计算机可读存储介质包括程序指令,该程序指令在被执行时使得至少一个处理器存储和/或传送GNN模型数据、交互矩阵、GNN模型推荐/分类、GNN模型参数等。
通信网络108可包括一个或多个有线和/或无线网络。例如,通信网络108可以包括蜂窝网络(例如长期演进网络、第三代(3G)网络、第四代(4G)网络、第五代(5G)网络、码分多址(CDMA)网络等)、公共陆地移动网(PLMN)、局域网(LAN)、广域网(WAN)、城域网(MAN)、电话网络(例如公共交换电话网络(PSTN))、专用网络、自组网络、网状网络、信标网络、内联网、互联网、基于光纤的网络、云计算网络等,以及/或者这些或其他类型的网络的组合。
在一些非限制性实施方案或方面中,建模系统102可以执行用于使用通用对抗训练来生成鲁棒GNN的方法的一个或多个步骤。例如,建模系统102可以接收包括GNN模型和二分图的输入,该二分图包括根据交互矩阵确定的邻接矩阵。输入还可以包括指定子图的边的数量的扰动预算。输入可以还包括第一正则化参数、第二正则化参数和/或第三正则化参数。建模系统102还可以基于BPR损失对GNN模型的模型参数进行初始化。建模系统102可以进一步随机地对扰动参数进行初始化,并且基于二分图来确定补图。建模系统102可以进一步对补图的子图进行采样。
在一些非限制性实施方案或方面中,建模系统102可以重复一个过程,直到模型参数收敛。在所重复的过程中,建模系统102可以从均匀分布中抽取随机变量,基于子图、随机变量和扰动参数来生成通用扰动矩阵,通过将二分图和通用扰动矩阵输入到GNN模型来确定BPR损失,基于随机梯度上升来更新扰动参数,并且基于随机梯度下降来更新模型参数,该更新可以是进一步至少部分地基于BPR损失。响应于模型参数收敛,建模系统102可以输出模型参数。响应于模型参数收敛,建模系统102可以通过使用模型参数执行GNN模型基于交互矩阵来生成至少一个推荐。
在一些非限制性实施方案或方面中,建模系统102可以基于第一正则化参数来确定BPR损失以防止过拟合。当建模系统102生成通用扰动矩阵时,通用扰动矩阵的对抗扰动对BPR损失的影响可能受到第二正则化参数的限制。建模系统102可以通过使用利用第三正则化参数加权的可学习二值掩码将通用扰动矩阵生成为稀疏图。建模系统102可以进一步基于扰动参数的sigmoid函数来生成通用扰动矩阵。
在一些非限制性实施方案或方面中,交互矩阵可以包括用户-物品交互矩阵。GNN模型可以被训练为基于用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
在一些非限制性实施方案或方面中,建模系统102可以识别交互矩阵,例如用户-物品交互矩阵。用户-物品交互矩阵可以由以下表示:
式1
其中||表示用户数量,表示物品数量,并且R表示关系矩阵,其中如果用户u之前已与物品i交互,则Rui=1,并且如果用户u之前尚未与物品i交互,则Rui=0。建模系统102可以通过用第一组节点M替换/>并且用第二组节点N替换/>来表示通用交互矩阵,使得可以对第一组节点M与第二组节点N之间的关系进行建模。例如,节点m(表示第一实体)与节点n(表示第二实体)之间的关系可以被建模为Rmn,其中如果在节点m与节点n之间存在关系,则Rmn=1,并且如果在节点m与节点n之间不存在关系,则Rmn=0。
建模系统102可以如下确定交互矩阵的对应邻接矩阵:
式2
其中A是邻接矩阵,并且RT是关系矩阵R的转置。建模系统102可以使用GNN中的邻接矩阵,目的是诸如通过对二分图执行链接预测产生推荐,例如用户先前没有交互的物品的排序列表。
在一些非限制性实施方案或方面中,建模系统102可以使用GNN模型,以通过在每个节点的相邻节点上聚合消息来迭代地更新每个节点的表示。建模系统102可以使用消息传递模式,该消息传递模式被表示为:
式3
H(l)=fagg(H(l-1),A)
其中H(l)表示在第l层处的节点嵌入,在节点嵌入中,H(0)可以经由查找表使用标识符(ID)嵌入来初始化,并且其中fagg(·)是可微分聚合函数。
在L层之后,建模系统102可以使用读出函数来生成针对每个节点v的最终嵌入,这可以被注释为:
式4
其中hv表示节点v的最终嵌入。例如,freadout(·)可以是串联函数、加权和函数等。在一些非限制性实施方案或方面中,建模系统102可以使用内积来预测用户u将与物品i交互的可能性有多大,这可以被表示为:
式5
为了优化模型参数,建模系统102可以采用成对贝叶斯个性化排序(BPR)损失,该成对BPR损失鼓励观察到的条目的预测分数高于其未观察到的对应条目。建模系统102可以将BPR损失表示为:
式6
其中={(u,i,j)|Rui=1,Ruj=0}是成对训练实例的集合,σ(·)是sigmoid函数,Θ表示模型参数,并且α是用于防止过拟合的正则化参数。
在一些非限制性实施方案或方面中,建模系统102可以在训练GNN时向原始图注入扰动。由此,式3可以变成:
式7
H(l)=fagg(H(l-1),A+Δ),
其中表示通用图扰动。建模系统102可以使用通用扰动来改进图像分类中的鲁棒性和泛化性能两者。建模系统102可以使用对抗扰动,目标是产生最大影响(例如最坏情况扰动)。因此,建模系统102可以通过如下使BPR损失最大化来识别最优对抗扰动Δadv:
式8
其中是表示当前模型参数的常数。因为对抗扰动可能预期为较小、不明显的,并且不会破坏大多数图结构,所以建模系统102可以经由具有上限≥0的L0范数来惩罚Δ的非零条目的数量。
在一些非限制性实施方案或方面中,建模系统102可以使用适用于个性化排序并且对对抗图扰动鲁棒的目标函数。为此,建模系统可以如下通过组合式6与式8来使对抗BP损失最小化:
式9
其中
其中β控制对抗扰动对BPR损失的影响。在极端情况(例如β=0)下,式9可以缩减为式6。式9的目标可以包括两个步骤:1)通过固定模型参数Θ来计算通用扰动Δ*的内部最大化,以及2)通过固定扰动Δ来计算模型参数Θ*的外部最小化。外部最小化可以被表示为GNN优化问题,并且建模系统102可以经由随机梯度下降来学习Θ*。然而,因为内部问题由于Δ的离散性质而难以处理,所以建模系统102可以经由概率性重新参数化来采用Δ的连续松弛。
在一些非限制性实施方案或方面中,式8中的Δ可以包含2|A|个可能的边扰动候选。建模系统102可以使用掩码技术来生成子图扰动,该子图扰动可以缩放到大图。例如,给定二分图A,其补图包含所有未观察到的边。建模系统102可以使用边B的固定预算对子图进行采样。随后,建模系统102可以将通用扰动生成为:Δ=T⊙M,其中⊙表示逐元素乘积,并且/>是可学习二值掩码(例如保留1,并且丢弃0)。由此,建模系统102可以将式8的内部优化近似为:
式10
其中Δ(例如,||Δ||0≤)的稀疏性可以通过在超参数≥0的M上添加L0正则子来实现。因为离散变量M和L0范数是不可微分的,所以式6可能仍然难以处理。建模系统102可以经由REINFORCE算法(例如蒙特卡罗(Monte Carlo)策略梯度)来计算梯度,并且可以通过使用基于对偶REINFORCE的梯度估计器求解内部优化来减小该梯度的高方差。
建模系统102可以考虑从由Πij∈[0,1]参数化的伯努利(Bernoulli)分布中抽取每个Mij,使得Mij~Bern(Mij;Πij)。建模系统102随后可以通过其预期来重写式10:
式11
为了有效地计算离散变量Π的梯度,建模系统102可以使用概率性重新参数化,以使用确定性函数g(·)利用参数Φ来对Πij∈[0,1]进行重新参数化:Πij=g(Φij)。由于g(·)应被限制在[0,1]内,所以建模系统102可以选择sigmoid函数σ()作为确定性函数。此排列提供了许多概率特性。作为第一特性,给定伯努利随机变量z~Bernoulli(z;σ(φ)),变量z可以通过比较两个扩充的指数随机变量来表示:
式12
其中是指示函数,如果条件为真,则该指示函数具有值1,否则具有值0。作为第二特性,对于随机变量z=xe-φ,x~Exp(1),变量z在分布上等于z~(Exp(eφ)。作为第三特性,对于两个变量:
式13
它们在分布上与x=∈u,y=∈(1-u)相同,其中u~Uniform(0,1),∈~Gamma(2,1)。
利用第一特性和第二特性(如上文所描述),式11可以等效于:
式14
建模系统102可以计算相对于φ的梯度。因此,第二项是可微分的,并且其梯度为:
式15
将REINFORCE算法应用于式14中的第一项,式14变成:
式16
利用第三特性(如上文所描述),建模系统102可以将
式17
表达为:
式18
X=E⊙U,Y=E⊙(1-U),
其中U和E可以分别从Uniform(0,1)和Gamma(2,1)中抽取。因此,式16中的不等式变成:
式19
并且式16可以被表达为:
式20
使用Rao-Blackwell化,建模系统102可以进一步如下获得梯度:
式21
鉴于上文,建模系统102可以经由概率性重新参数化来有效地求解式10的离散优化。上文示出的梯度估计器提供了许多技术益处,包括:(i)对扩充变量应用对偶采样产生无偏且低方差的梯度;以及(ii)梯度估计器具有低计算复杂度,因为来自伯努利分布的采样由非参数均匀分布代替,并且式21中的梯度仅涉及网络的一次前向传递。
在非限制性实施方案或方面中,建模系统102可以迭代地更新Δ和Θ。首先,建模系统102可以接收GNN fgnn、二分图A、扰动预算B、针对式9的正则化参数α和β以及针对式11的正则化参数λ的输入。建模系统102随后可以通过求解式6的原始BPR损失来对Θ进行初始化。接下来,建模系统102可以随机地对φ进行初始化。建模系统102随后可以使用预算B对子图进行采样。接下来,建模系统102可以重复执行一个过程直到收敛,其中该过程包括:抽取U~Uniform(0,1);计算通用扰动Δ=T⊙1[U<σ(φ)];将(A,Δ)馈送到GNN fgnn,并且计算式9中的损失;使用如式21中所示出的随机梯度上升来更新φ,使得/> 以及使用如式9中所示出的随机梯度下降来更新Θ,使得/>建模系统102可以重复此过程,直到模型参数Θ收敛。在收敛之后,建模系统102可以返回模型参数Θ。
提供图1中所示出的设备和网络的数量和布置作为示例。可能存在与图1中所示的那些相比额外的设备和/或网络、更少的设备和/或网络、不同的设备和/或网络,或不同地布置的设备和/或网络。此外,图1中所示的两个或更多个设备可在单个设备内实施,或图1中所示的单个设备可实施为多个分布式设备。另外或替代地,环境100的一组设备(例如一个或多个设备)可以执行被描述为由环境100的另一组设备执行的一个或多个功能。
现在参考图2,示出了根据一些非限制性实施方案或方面的设备200的示例部件的图。设备200可以对应于建模系统102、用户设备106、存储器110和/或通信网络108的一个或多个设备,如图1中所示出。在一些非限制性实施方案或方面中,这类系统或设备可以包括至少一个设备200和/或设备200的至少一个部件。作为示例提供图2所示的部件的数目和布置。在一些非限制性实施方案或方面中,设备200可以包括额外部件、更少部件、不同部件或以与图2中所示的那些不同的方式布置的部件。另外或替代地,设备200的一组部件(例如一个或多个部件)可以执行被描述为由设备200的另一组部件执行的一个或多个功能。
如图2所示,设备200可包括总线202、处理器204、存储器206、存储部件208、输入部件210、输出部件212和通信接口214。总线202可以包括准许设备200的部件之间的通信的部件。在一些非限制性实施方案或方面中,处理器204可以在硬件、固件或硬件和软件的组合中实施。例如,处理器204可以包括处理器(例如中央处理单元(CPU)、图形处理单元(GPU)、加速处理单元(APU)等)、微处理器、数字信号处理器(DSP)以及/或者可以被编程为执行功能的任何处理部件(例如现场可编程门阵列(FPGA)、专用集成电路(ASIC)等)。存储器206可以包括随机存取存储器(RAM)、只读存储器(ROM),以及/或者存储供处理器204使用的信息和/或指令的另一类型的动态或静态存储设备(例如闪存存储器、磁存储器、光学存储器等)。
继续参考图2,存储部件208可存储与设备200的操作和使用相关的信息和/或软件。例如,存储部件208可以包括硬盘(例如磁盘、光盘、磁光盘、固态磁盘等)和/或另一类型的计算机可读介质。输入部件210可以包括准许设备200诸如经由用户输入(例如触摸屏显示器、键盘、小键盘、鼠标、按钮、开关、麦克风等)来接收信息的部件。另外或替代地,输入部件210可以包括用于感测信息的传感器(例如全球定位系统(GPS)部件、加速度计、陀螺仪、致动器等)。输出部件212可以包括提供来自设备200的输出信息的部件(例如,显示屏、扬声器、一个或多个发光二极管(LED),等)。通信接口214可以包括使得设备200能够例如经由有线连接、无线连接或有线连接和无线连接的组合与其他设备通信的收发器类部件(例如,收发器、单独的接收器和发射器等)。通信接口214可以准许设备200接收来自另一设备的信息和/或向另一设备提供信息。例如,通信接口214可包括以太网接口、光学接口、同轴接口、红外接口、射频(RF)接口、通用串行总线(USB)接口、接口、蜂窝网络接口等。
设备200可以执行本文描述的一个或多个过程。设备200可基于处理器204执行由例如存储器206和/或存储部件208的计算机可读介质存储的软件指令来执行这些过程。计算机可读介质可包括任何非瞬态存储器设备。存储器设备包括位于单个物理存储设备内的存储器空间或跨多个物理存储设备扩展的存储器空间。软件指令可以经由通信接口214从另一计算机可读介质或从另一设备读取到存储器206和/或存储部件208中。当执行时,存储在存储器206和/或存储部件208中的软件指令可以使处理器204执行本文中所描述的一个或多个过程。另外或替代地,硬接线电路系统可替代或结合软件指令使用以执行本文中所描述的一个或多个过程。因此,本文所描述的实施方案或方面不限于硬件电路和软件的任何特定组合。如本文中所使用的术语“被编程或配置”是指一个或多个设备上的软件、硬件电路或它们的任何组合的布置。
现在参考图3,根据本公开的一些非限制性实施方案或方面,示出了用于使用通用对抗训练来生成鲁棒GNN的方法300的流程图。方法300可以由建模系统102的一个或多个处理器、用户设备106、存储器110和/或另一计算设备来执行。由第一处理器执行的一个或多个步骤可以由相同或不同的处理器来执行。图3所示的步骤仅用于示例目的。将了解,在非限制性实施方案或方面中,可以使用额外的、更少的、不同的和/或不同次序的步骤。
如图3中所示出,方法300可以包括:在步骤302中,接收GNN模型和二分图的输入。例如,建模系统102可以接收包括GNN模型和二分图的输入,该二分图包括根据交互矩阵确定的邻接矩阵。
在一些非限制性实施方案或方面中,交互矩阵可以包括根据用户与物品(例如产品、服务、交易、互联网资源等)之间的历史交互生成的用户-物品交互矩阵。
在一些非限制性实施方案或方面中,GNN模型可以被训练为基于用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
在一些非限制性实施方案或方面中,输入可以还包括扰动预算、第一正则化参数、第二正则化参数、第三正则化参数或它们的任何组合。
如图3中所示出,方法300可以包括:在步骤304中,对模型参数进行初始化。例如,建模系统102可以基于贝叶斯个性化排序(BPR)损失对GNN模型的模型参数进行初始化。BPR损失可以是基于第一正则化参数例如以防止过拟合。
如图3中所示出,方法300可以包括:在步骤306中,对扰动参数进行初始化。例如,建模系统102可以随机地对扰动参数进行初始化。
如图3中所示出,方法300可以包括:在步骤308中,基于二分图来确定补图。例如,建模系统102可以基于二分图来确定补图。在一些非限制性实施方案或方面中,可以基于二分图的邻接矩阵来生成补图(例如补图可以包括来自二分图的所有未观察到的边)。
如图3中所示出,方法300可以包括:在步骤310中,对补图的子图进行采样。例如,建模系统102可以对补图的子图进行采样。
在一些非限制性实施方案或方面中,扰动预算可以指定子图的边的数量。
如图3中所示出,方法300可以包括:在步骤312中,重复方法400(在图4中示出),直到模型参数收敛。例如,这些重复的步骤可以包括图4的方法400中所示出的步骤。
如图3中所示出,方法300可以包括:在步骤314中,输出模型参数。例如,响应于模型参数收敛,建模系统102可以输出模型参数。
在一些非限制性实施方案或方面中,建模系统102可以通过使用模型参数执行GNN模型基于交互矩阵来生成至少一个推荐。
现在参考图4,根据本公开的一些非限制性实施方案或方面,示出了用于使用通用对抗训练来生成鲁棒GNN的方法400的流程图。方法400可以由建模系统102的一个或多个处理器、用户设备106、存储器110和/或另一计算设备来执行。由第一处理器执行的一个或多个步骤可以由相同或不同的处理器来执行。图4所示的步骤仅用于示例目的。将了解,在非限制性实施方案或方面中,可以使用额外的、更少的、不同的和/或不同次序的步骤。
在一些非限制性实施方案或方面中,可以重复步骤402至410,直到模型参数收敛。另外或替代地,步骤402可以在执行图3中详细描述的方法300的步骤310之后执行。
如图4中所示出,方法400可以包括:在步骤402中,从均匀分布中抽取随机变量。例如,建模系统102可以从均匀分布中抽取随机变量。
如图4中所示出,方法400可以包括:在步骤404中,生成通用扰动矩阵。例如,建模系统102可以基于子图、随机变量和扰动参数来生成通用扰动矩阵。
在一些非限制性实施方案或方面中,也可以通过使用利用第三正则化参数加权的可学习二值掩码将通用扰动矩阵生成为稀疏图。另外或替代地,可以进一步基于扰动参数的sigmoid函数来生成通用扰动矩阵。
如图4中所示出,方法400可以包括:在步骤406中,确定BPR损失。例如,建模系统102可以通过将二分图和通用扰动矩阵输入到GNN模型来确定BPR损失。
在一些非限制性实施方案或方面中,通用扰动矩阵的对抗扰动对BPR损失的影响可以受到第二正则化参数的限制。
如图4中所示出,方法400可以包括:在步骤408中,更新扰动参数。例如,建模系统102可以基于随机梯度上升来更新扰动参数。
如图4中所示出,方法400可以包括:在步骤410中,更新模型参数。例如,建模系统102可以基于随机梯度下降来更新模型参数。
在一些非限制性实施方案或方面中,随机梯度下降可以是进一步至少部分地基于BPR损失。
如图4中所示出,方法400可以包括:在步骤412中,评估用于收敛的模型参数。例如,建模系统102可以评估用于收敛的模型参数(例如局部极值、在迭代之间小于阈值的变化等)。
响应于确定模型参数尚未收敛,建模系统102可以继续重新执行步骤402至410。响应于确定模型参数已收敛,建模系统102可以退出循环并且前进到图3的步骤314。
进一步参考前述附图,“电子支付处理网络”可以指在一个或多个实体之间发射和/或接收通信以用于处理货币资金向一个或多个交易的转移的多个计算设备。电子支付处理网络可以包括商家系统、收单方系统、交易服务提供商和发行方系统。
尽管为了说明的目的,已基于当前被视为最实用且优选的实施方案或方面对本公开进行了详细描述,但应理解,这种细节仅出于该目的,并且本公开不限于所公开的实施方案或方面,而相反是旨在涵盖在所附权利要求的方案和范围内的修改和等效布置。例如,应理解,本公开设想,在可能的程度上,任何实施方案或方面的一个或多个特征可以与任何其他实施方案或方面的一个或多个特征相组合,并且一个或多个步骤可以以与本公开中呈现的次序不同的次序来进行。
Claims (27)
1.一种计算机实现的方法,包括:
使用至少一个处理器接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;
使用至少一个处理器基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;
使用至少一个处理器随机地对扰动参数进行初始化;
使用至少一个处理器基于所述二分图来确定补图;
使用至少一个处理器对所述补图的子图进行采样;
使用至少一个处理器重复以下操作,直到所述模型参数收敛:
从均匀分布中抽取随机变量;
基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;
通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;
基于随机梯度上升来更新所述扰动参数;以及
基于随机梯度下降来更新所述模型参数;以及
响应于所述模型参数收敛,使用至少一个处理器输出所述模型参数。
2.如权利要求1所述的计算机实现的方法,还包括响应于所述模型参数收敛,使用至少一个处理器通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
3.如权利要求1所述的计算机实现的方法,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
4.如权利要求1所述的计算机实现的方法,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
5.如权利要求1所述的计算机实现的方法,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
6.如权利要求1所述的计算机实现的方法,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
7.如权利要求1所述的计算机实现的方法,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
8.如权利要求1所述的计算机实现的方法,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
9.如权利要求1所述的计算机实现的方法,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
10.一种系统,包括至少一个处理器,所述至少一个处理器被编程或配置为:
接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;
基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;
随机地对扰动参数进行初始化;
基于所述二分图来确定补图;
对所述补图的子图进行采样;
重复以下操作,直到所述模型参数收敛:
从均匀分布中抽取随机变量;
基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;
通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;
基于随机梯度上升来更新所述扰动参数;以及
基于随机梯度下降来更新所述模型参数;并且
响应于所述模型参数收敛,输出所述模型参数。
11.如权利要求10所述的系统,其中所述至少一个处理器被进一步编程或配置为响应于所述模型参数收敛,通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
12.如权利要求10所述的系统,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
13.如权利要求10所述的系统,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
14.如权利要求10所述的系统,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
15.如权利要求10所述的系统,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
16.如权利要求10所述的系统,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
17.如权利要求10所述的系统,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
18.如权利要求10所述的系统,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
19.一种计算机程序产品,包括至少一个非瞬态计算机可读介质,所述至少一个非瞬态计算机可读介质包括一个或多个指令,所述一个或多个指令在由至少一个处理器执行时使得所述至少一个处理器:
接收包括图神经网络(GNN)模型和二分图的输入,所述二分图包括根据交互矩阵确定的邻接矩阵;
基于贝叶斯个性化排序(BPR)损失对所述GNN模型的模型参数进行初始化;
随机地对扰动参数进行初始化;
基于所述二分图来确定补图;
对所述补图的子图进行采样;
重复以下操作,直到所述模型参数收敛:
从均匀分布中抽取随机变量;
基于所述子图、所述随机变量和所述扰动参数来生成通用扰动矩阵;
通过将所述二分图和所述通用扰动矩阵输入到所述GNN模型来确定BPR损失;
基于随机梯度上升来更新所述扰动参数;以及
基于随机梯度下降来更新所述模型参数;并且
响应于所述模型参数收敛,输出所述模型参数。
20.如权利要求19所述的计算机程序产品,其中所述一个或多个指令使得所述至少一个处理器响应于所述模型参数收敛,通过使用所述模型参数执行所述GNN模型基于所述交互矩阵来生成至少一个推荐。
21.如权利要求19所述的计算机程序产品,其中所述输入还包括扰动预算,并且其中所述扰动预算指定所述子图的边的数量。
22.如权利要求19所述的计算机程序产品,其中所述输入还包括第一正则化参数,并且其中所述BPR损失是基于所述第一正则化参数以防止过拟合。
23.如权利要求19所述的计算机程序产品,其中所述输入还包括第二正则化参数,并且其中所述通用扰动矩阵的对抗扰动对所述BPR损失的影响受到所述第二正则化参数的限制。
24.如权利要求19所述的计算机程序产品,其中所述输入还包括第三正则化参数,并且其中通过使用利用所述第三正则化参数加权的可学习二值掩码将所述通用扰动矩阵生成为稀疏图。
25.如权利要求19所述的计算机程序产品,其中所述交互矩阵包括用户-物品交互矩阵,并且其中所述GNN模型被训练为基于所述用户-物品交互矩阵为至少一个用户生成至少一个物品推荐。
26.如权利要求19所述的计算机程序产品,其中所述通用扰动矩阵的所述生成是进一步基于所述扰动参数的sigmoid函数。
27.如权利要求19所述的计算机程序产品,其中基于随机梯度下降对所述模型参数的所述更新是进一步至少部分地基于BPR损失。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US202263311620P | 2022-02-18 | 2022-02-18 | |
US63/311,620 | 2022-02-18 | ||
PCT/US2023/013290 WO2023158786A1 (en) | 2022-02-18 | 2023-02-17 | Method, system, and computer program product for generating robust graph neural networks using universal adversarial training |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117256000A true CN117256000A (zh) | 2023-12-19 |
Family
ID=87579079
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202380011456.5A Pending CN117256000A (zh) | 2022-02-18 | 2023-02-17 | 用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20240095526A1 (zh) |
CN (1) | CN117256000A (zh) |
WO (1) | WO2023158786A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117591076A (zh) * | 2024-01-19 | 2024-02-23 | 北京壁仞科技开发有限公司 | 用于生成二进制掩码张量的方法、计算设备和存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210034737A1 (en) * | 2019-07-30 | 2021-02-04 | Sakif Hossain Khan | Detection of adverserial attacks on graphs and graph subsets |
US11443346B2 (en) * | 2019-10-14 | 2022-09-13 | Visa International Service Association | Group item recommendations for ephemeral groups based on mutual information maximization |
US20210142177A1 (en) * | 2019-11-13 | 2021-05-13 | Nvidia Corporation | Synthesizing data for training one or more neural networks |
US20230075100A1 (en) * | 2020-02-19 | 2023-03-09 | Insilico Medicine Ip Limited | Adversarial autoencoder architecture for methods of graph to sequence models |
US20210374499A1 (en) * | 2020-05-26 | 2021-12-02 | International Business Machines Corporation | Iterative deep graph learning for graph neural networks |
-
2023
- 2023-02-17 CN CN202380011456.5A patent/CN117256000A/zh active Pending
- 2023-02-17 WO PCT/US2023/013290 patent/WO2023158786A1/en active Application Filing
- 2023-02-17 US US18/286,799 patent/US20240095526A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2023158786A1 (en) | 2023-08-24 |
US20240095526A1 (en) | 2024-03-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11694064B1 (en) | Method, system, and computer program product for local approximation of a predictive model | |
US20230342203A1 (en) | Method, System, and Computer Program Product for Dynamically Assigning an Inference Request to a CPU or GPU | |
EP3680823A1 (en) | System, method, and computer program product for incorporating knowledge from more complex models in simpler models | |
US11847572B2 (en) | Method, system, and computer program product for detecting fraudulent interactions | |
US11645543B2 (en) | System, method, and computer program product for implementing a generative adversarial network to determine activations | |
CN114641811B (zh) | 用于用户网络活动异常检测的系统、方法和计算机程序产品 | |
US20220100720A1 (en) | Method and system for entity resolution | |
US20220398466A1 (en) | System, Method, and Computer Program Product for Event Forecasting Using Graph Theory Based Machine Learning | |
US20240086422A1 (en) | System, Method, and Computer Program Product for Analyzing a Relational Database Using Embedding Learning | |
CN117256000A (zh) | 用于使用通用对抗训练来生成鲁棒图神经网络的方法、系统和计算机程序产品 | |
US11755975B2 (en) | System, method, and computer program product for implementing a hybrid deep neural network model to determine a market strategy | |
US20240078416A1 (en) | System, Method, and Computer Program Product for Dynamic Node Classification in Temporal-Based Machine Learning Classification Models | |
Shi et al. | Enhancing financial fraud detection with hierarchical graph attention networks: A study on integrating local and extensive structural information | |
WO2023069244A1 (en) | System, method, and computer program product for denoising sequential machine learning models | |
WO2023069589A1 (en) | System, method, and computer program product for determining long-range dependencies using a non-local graph neural network (gnn) | |
US20240062120A1 (en) | System, Method, and Computer Program Product for Multi-Domain Ensemble Learning Based on Multivariate Time Sequence Data | |
US11847654B2 (en) | System, method, and computer program product for learning continuous embedding space of real time payment transactions | |
US20230351431A1 (en) | System, Method, and Computer Program Product for Segmenting Users Using a Machine Learning Model Based on Transaction Data | |
US20240112015A1 (en) | Training a recurrent neural network machine learning model with behavioral data | |
WO2024081177A1 (en) | Method, system, and computer program product for providing a framework to improve discrimination of graph features by a graph neural network | |
US20240086926A1 (en) | System, Method, and Computer Program Product for Generating Synthetic Graphs That Simulate Real-Time Transactions | |
US20230060331A1 (en) | Automated authentication system based on target-specific identifier | |
WO2024081350A1 (en) | System, method, and computer program product for generating a machine learning model based on anomaly nodes of a graph | |
CN116964603A (zh) | 用于基于多变量时间序列数据的多域集成学习的系统、方法和计算机程序产品 | |
WO2024076656A1 (en) | Method, system, and computer program product for multitask learning on time series data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |