CN113222480B - 对抗样本生成模型的训练方法及装置 - Google Patents

对抗样本生成模型的训练方法及装置 Download PDF

Info

Publication number
CN113222480B
CN113222480B CN202110656184.7A CN202110656184A CN113222480B CN 113222480 B CN113222480 B CN 113222480B CN 202110656184 A CN202110656184 A CN 202110656184A CN 113222480 B CN113222480 B CN 113222480B
Authority
CN
China
Prior art keywords
sample
risk
transformation
original
loss
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110656184.7A
Other languages
English (en)
Other versions
CN113222480A (zh
Inventor
李辉
王维强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN202110656184.7A priority Critical patent/CN113222480B/zh
Publication of CN113222480A publication Critical patent/CN113222480A/zh
Application granted granted Critical
Publication of CN113222480B publication Critical patent/CN113222480B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0635Risk analysis of enterprise or organisation activities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Abstract

本说明书实施例提供一种生成对抗样本的生成模型的训练方法和装置,该方法包括,首先获取原始样本构成的样本集,其中包括正常样本和风险样本;还获取风险检测模型及其对应的损失函数。针对样本集中各个原始样本,利用生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;利用风险检测模型确定各个变换样本的各个风险预测值;以正常样本对应的标签值为比对标签值,分别将各个风险预测值代入前述损失函数,得到各个变换样本的对抗损失;至少根据各个变换样本的对抗损失的综合确定总对抗损失;以最小化总对抗损失为目标,调整生成模型中的参数。

Description

对抗样本生成模型的训练方法及装置
技术领域
本说明书一个或多个实施例涉及机器学习领域,尤其涉及对抗样本生成模型的训练方法和装置。
背景技术
机器学习的迅猛发展使得各种机器学习的模型在各种各样的业务场景得到应用。例如在安全和风控场景中,已经通过机器学习训练出一些风险检测模型,用于识别出有风险或有安全隐患的对象。例如,通过风险检测模型识别垃圾账号,识别高风险的交易,识别高风险操作,等等。在识别出这样的风险对象后往往会对其进行拦截,以确保系统和用户的安全。
鉴于已有的风险检测模型常常在鲁棒性方面存在不足,希望能有改进的方案,可以针对风险检测模型进行优化,以提升其鲁棒性,更好地适用于风险检测场景中的攻防特点。
发明内容
本说明书一个或多个实施例描述了一种对抗样本生成模型的训练方法和装置,可以模拟攻击者的攻击过程生成对抗样本,从而可以利用这样的对抗样本,从攻防对抗的角度对风险检测模型进行优化,增强其鲁棒性和安全性。
根据第一方面,提供了一种用于生成对抗样本的生成模型的训练方法,包括:
获取原始样本构成的样本集,其中包括正常样本和风险样本;
获取风险检测模型及其对应的损失函数,所述风险检测模型为生成模型所所针对的模型;
针对所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
利用所述风险检测模型确定所述各个变换样本的各个风险预测值;
以正常样本对应的标签值为比对标签值,分别将所述各个风险预测值代入所述损失函数,得到各个变换样本的对抗损失;
至少根据所述各个变换样本的对抗损失的综合确定总对抗损失;
以最小化总对抗损失为目标,调整所述生成模型中的参数。
在一个实施例中,所述各个变换样本包括,原始风险样本对应的变换风险样本,和原始正常样本对应的变换正常样本;相应的,至少根据所述各个变换样本的对抗损失的综合确定总对抗损失,包括:根据各个变换风险样本的对抗损失之和,确定第一损失项;根据各个变换正常样本的对抗损失之和,确定第二损失项;根据第一损失项和第二损失项的组合,确定所述总对抗损失。
进一步的,在一个实施例中,确定第一损失项,包括:根据各个变换风险样本的对抗损失之和,以及各个变换风险样本对应的扰动变换的大小度量值之和,确定所述第一损失项;确定第二损失项,包括:根据各个变换正常样本的对抗损失之和,以及各个变换正常样本对应的扰动变换的大小度量值之和,确定所述第二损失项。
在具体例子中,所述扰动变换的大小度量值可以是,所述扰动变换的二阶范数,或者二阶范数的平方。
在一个进一步的实施例中,根据第一损失项和第二损失项的组合,确定所述总对抗损失,具体为:根据所述第一损失项和第二损失项的加权求和,得到所述总对抗损失。。
在不同例子中,所述样本为以下之一:账号、交易、文本片段、用户操作。
根据第二方面,提供了一种优化风险检测模型的方法,包括:
获取原始样本构成的样本集,其中包括正常样本和风险样本;
获取根据第一方面训练的生成模型;
对于所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
利用所述样本集中各个原始样本对应的原始标签和各个变换样本,更新风险检测模型。
根据第三方面,提供了一种用于生成对抗样本的生成模型的训练装置,包括:
第一获取单元,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本;
第二获取单元,配置为获取风险检测模型及其对应的损失函数,所述风险检测模型为生成模型所所针对的模型;
变换单元,配置为针对所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
预测单元,配置为利用所述风险检测模型确定所述各个变换样本的各个风险预测值;
对抗损失确定单元,配置为以正常样本对应的标签值为比对标签值,分别将所述各个风险预测值代入所述损失函数,得到各个变换样本的对抗损失;
总损失确定单元,配置为至少根据所述各个变换样本的对抗损失的综合确定总对抗损失;
调整单元,配置为以最小化总对抗损失为目标,调整所述生成模型中的参数。
根据第四方面,提供了一种优化风险检测模型的装置,包括:
样本集获取单元,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本;
模型获取单元,配置为获取根据第三方面的装置训练的生成模型;
变换单元,配置为对于所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
更新单元,配置为利用所述样本集中各个原始样本对应的原始标签和各个变换样本,更新风险检测模型。
根据第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
根据第六方面,提供了一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
根据本说明书实施例提供的方法和装置,在风险检测的对抗场景中,通过模拟攻击者对原始样本可能进行的攻击变换,训练一个用于生成对抗样本的生成模型。该生成模型通过对原始样本施加扰动变换,使得风险检测模型将变换后的风险样本误识别为正常样本,而对于正常样本不改变其识别结果。然后,可以利用该生成模型得到的对抗样本,来优化风险检测模型,从而更好地防御对抗样本的对抗攻击,鲁棒性和安全性均得到增强。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的风险检测和攻击变换之间的攻防示意图;
图2示出根据一个实施例的训练对抗样本生成模型的方法流程图;
图3示出根据一个实施例的优化风险检测模型的方法流程图;
图4示出根据一个实施例的训练装置示意图;
图5示出根据一个实施例的优化装置示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,在安全和风控场景中,为了识别出高风险的业务对象,已经通过机器学习训练出一些风险检测模型,用于检测风险对象,从而对其进行拦截或进一步安全处理。
尽管已有的各种风险检测模型在特征处理的全面性、预测准确性等多方面获得了不错的效果,然而,发明人意识到,风险检测场景实际上是一种攻防对抗的博弈场景:一方面,模型算法试图对业务对象进行全面的分析来进行风险对象的识别,另一方面,试图通过风险对象牟利的团伙,则会努力绕开模型的分析算法,或者对模型进行攻击,以试图突破模型的识别。因此,发明人提出,从攻防角度对风险检测过程进行优化,以提升风险检测模型的鲁棒性。
从攻防角度来说,若要针对风险检测模型的攻击者进行防御,首先要研究攻击者可能的攻击方式。为此,模拟攻击者的攻击方式训练一个生成模型,用来生成对抗样本,该对抗样本用于对风险检测模型进行攻击,使其出现误识别。基于这样的对抗样本,可以更好地抵御潜在的模型攻击,提升攻防安全性。
图1示出根据一个实施例的风险检测和攻击变换之间的攻防示意图。如图1所示,风险检测模型基于训练样本集而训练得到。为了有较好的训练效果,一般而言,训练样本集中会包括一些正常样本,或称为白样本,以及一些风险样本,或称为黑样本,以便从正负样本不同角度进行学习。上述样本可以对应于待检测的对象,例如账号、交易、用户操作、文本等等。基于这样的样本集,可以得到初步训练的风险检测模型。
在风险检测的对抗场景中,假定攻击者会通过生成模型,生成一些扰动变换,从而基于原始样本得到变换样本。根据本说明书的思想,假定攻击者变换的目标是,对于黑样本的变换,将使得风险检测模型识别不出其为黑样本,也就是将其误识别为白样本;对于白样本的变换,将使得风险检测模型不改变其识别结果。如此,通过生成模型得到一些变换样本。这样的变换样本是攻击者有可能使用的、使得风险检测模型检测效能降低的对抗样本。
在此基础上,基于原始样本集中的样本,以及上述获得的对抗样本,就可以对风险检测模型进行优化,使其更好地对抗攻击者的攻击。
下面描述在以上发明构思下,模拟攻击者得到对抗样本生成模型的实现过程。
需要理解,在训练生成模型之前,首先要确定生成模型攻击的目标,即特定的风险检测模型。该风险检测模型是基于训练样本集,采用一定的损失函数经过初步训练的模型。
可以将样本集中任意的第i个样本记为(xi,yi),其中xi表示该第i个样本的样本特征,yi表示对应的标签值,用于示出该样本是否为风险样本。一般地,用两个不同的标签值,即第一标签值和第二标签值,分别表示正常样本和风险样本。典型的,在识别风险样本的场景下,通常用0表示白样本,用1表示黑样本。
上述样本可以为各种待检测的业务对象,例如账号、交易、文本、用户操作等等。
在一个具体例子中,样本为账号。相应的,风险样本可以是,垃圾账号、水军账号、被盗用账号等等。对于账号样本来说,样本特征可以包括,例如账号的注册时长、注册信息、最近一段时间的使用频次、发表评论的频次,等等。
在另一例子中,样本为交易。相应的,风险样本可以是,欺诈、套现等高风险交易。对于交易样本来说,样本特征可以包括,例如交易金额、交易时间、支付渠道、交易双方属性信息等等。
在又一例子中,样本为文本。相应的,风险样本可以是,垃圾邮件/短信、广告邮件/短信、非法内容文本,等等。对于文本样本来说,样本特征主要包括,文本中的字符、文本发布时间、来源,等等。
在其他例子中,样本还可以是其他业务对象。在此不一一具体描述。
基于以上的包含黑白样本的样本集,可以对风险检测模型进行初步的训练。风险检测模型的算法过程可以用分类函数fθ(x)表示,该分类函数的参数(即模型参数)用θ表示,该函数的输入为样本特征x,输出为针对该样本的分类预测值。
在训练上述风险检测模型过程中,会使用损失函数L来衡量模型当前的预测损失情况。具体的,损失函数L的输入包括模型针对样本的预测值,和该样本的标签值y,其输出的损失值反映预测值与标签值之间的差异。在不同实施例中,损失函数L的具体形式可以包括,均方差损失,交叉熵损失等多种形式,在此不做限定。
模型训练过程中,通过不断调整分类函数fθ(x)中的模型参数值θ,使得利用上述损失函数L计算的、针对批量样本的损失值趋于极小值,此时,完成模型的初步训练,得到当前的风险检测模型。
在此基础上,可以基于攻防对抗博弈的思想,训练一个针对上述风险检测模型进行攻击的对抗样本生成模型。图2示出根据一个实施例的训练对抗样本生成模型的方法流程图。可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示,该方法包括以下步骤。
首先在步骤21,获取原始样本构成的样本集,其中包括正常样本和风险样本,正常样本具有第一标签值,风险样本具有第二标签值。如前所述,样本集中任意样本可以记为(xi,yi),当yi为第一标签值时,示出该样本i为正常样本或白样本,当yi为第二标签值时,示出该样本i为风险样本或黑样本。典型的,第一标签值可以取0,第二标签值可以取1。在后续描述中,将正常样本构成的集合记为W(白样本),风险样本构成的集合记为B(黑样本)。
接着,在步骤22,获取风险检测模型及其对应的损失函数。这里,风险检测模型即为当前要训练的生成模型所针对的模型,或要攻击的模型。如前所述,该风险检测模型根据前述样本集,利用损失函数L进行初步训练而得到,可表示为fθ(x)。
在步骤23,针对样本集中各个原始样本,利用生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本。
具体的,假定生成模型采用一个变换生成函数来生成扰动变换,该变换生成函数可以表示为ρs(x),其中,s为变换生成函数的参数,x为输入的原始样本的样本特征。那么,针对样本集中任意的原始样本i(其样本特征为xi),利用当前生成模型可以生成扰动变换ρs(xi),通过在原始样本特征xi上叠加该扰动变换,可以得到该原始样本i对应的变换样本xis(xi)。通过将各个原始样本进行上述处理,可以得到各个原始样本对应的各个变换样本。由于原始样本集中包含有正常样本和风险样本,相应的,上述各个变换样本包括,针对原始正常样本得到的变换正常样本,和针对原始风险样本得到的变换风险样本。
接着,在步骤24,利用前述风险检测模型确定各个变换样本的各个风险预测值。具体的,对于任意的原始样本i对应的变换样本xis(xi),将其输入前述风险检测模型fθ(x),得到其对应的风险预测值,即fθ(xis(xi))。通过将各个变换样本输入该风险检测模型,可以得到各个变换样本的各个风险预测值。
进一步的,在步骤25,以正常样本对应的标签值为比对标签值,分别将各个风险预测值代入风险检测模型对应的损失函数L,得到各个变换样本的对抗损失。
需要理解,在本说明书的实施例中,我们假定攻击者的攻击目标是,对于风险样本,对其施加变换后,使得风险检测模型将其误识别为正常样本;对于正常样本,对其施加变换后,使得风险检测模型不改变其识别结果。换而言之,攻击者希望,风险检测模型将所有施加变换后的变换样本均识别为正常样本。因此,在该步骤中,对于变换正常样本和变换风险样本,均以正常样本的标签值作为比对标签值,根据训练风险检测模型时所使用的损失函数L,基于风险预测值和比对标签值,确定各个变换样本的对抗损失。
具体的,假定正常样本对应的标签值为Y,对于原始样本i对应的变换样本xis(xi),将其风险预测值代入损失函数L,可以得到其对抗损失L(fθ(xis(xi)),Y)。如果样本i为正常样本,则标签值Y为其原始标签值yi;如果样本i为风险样本,则标签值Y为其原始标签值的翻转:Y=1-yi
从而,在步骤26,基于各个变换样本的对抗损失的综合,可以确定总对抗损失。
在一个实施例中,上述总对抗损失J可以表示为:
J=∑iL(fθ(xis(xi)),Y)                              (1)
即,各个变换样本的对抗损失的求和。
根据一个实施例,可以针对正常样本和风险样本分别进行组合。具体的,可以根据各个变换风险样本的对抗损失之和,确定第一损失项J1;根据各个变换正常样本的对抗损失之和,确定第二损失项J2;根据第一损失项J1和第二损失项J2的组合,确定上述总对抗损失J。
在一个例子中,上述第一损失项J1可以表示为:
Figure BDA0003112873730000091
其中,(xi,yi)∈B表明运算针对的是黑样本集合B中的黑样本i,因此yi为黑样本标签值,1-yi为白样本标签值。
上述第二损失项J2可以表示为:
Figure BDA0003112873730000101
其中,(xi,yi)∈W表明运算针对的是白样本集合W中的白样本i,因此yi为白样本标签值。
在一个实施例中,总对抗损失可以是以上第一损失项J1和第二损失项J2的求和,或者加权求和。
根据一种实施方式,合理地假定,理想的攻击者模型,除了实现攻击目标之外,还会希望对原始样本施加的变换尽量小,从而不易被察觉。因此,根据一个实施例,在计算总对抗损失或上述第一/第二损失项时,进一步考虑各个变换样本对应的扰动变换的大小。
具体的,在一个实施例中,可以根据各个变换风险样本的对抗损失之和,以及各个变换风险样本对应的扰动变换的大小度量值之和,确定第一损失项J1。其中,扰动变换的大小度量值可以是,扰动变换的二阶范数,或者二阶范数的平方,等等。相应的,可以根据各个变换正常样本的对抗损失之和,以及各个变换正常样本对应的扰动变换的大小度量值之和,确定第二损失项J2。进而,根据J1和J2,得到总对抗损失J。
在一个具体例子中,考虑扰动变换的大小,上述第一损失项J1可以表示为:
Figure BDA0003112873730000102
其中,
Figure BDA0003112873730000103
表示扰动变换ρs(xi)的二阶范数的平方,c1为求和系数。
第二损失项J2可以表示为:
Figure BDA0003112873730000104
相应的,在一个具体例子中,总对抗损失可以表示为:
Figure BDA0003112873730000105
以上通过多种方式,计算了本次通过对原始样本进行扰动变换,而得到的总对抗损失。
基于此,在步骤27,以最小化上述总对抗损失为目标,调整生成模型中的参数,从而对其进行训练。
根据以上总对抗损失的表达式,当总对抗损失达到最小时,各个变换样本针对正常样本标签值的预测损失达到最小,这意味着,风险检测模型fθ会将各个变换样本,均识别为正常样本。如此,实现了攻击的目标,即,通过施加扰动变换,使得风险检测模型将风险样本误识别为正常样本,而对于正常样本不改变其识别结果。在总对抗损失还包含扰动变换的大小度量值的情况下,还可以确保,在实现上述攻击目标的同时,对原始样本施加的扰动变换尽量小,使得攻击不易被察觉。
如此,通过以上方式,模拟攻击者的攻击行为,训练了生成对抗样本的生成模型。
接下来,就可以利用这样的生成模型所生成的对抗样本,对风险检测模型进行优化。
图3示出根据一个实施例的优化风险检测模型的方法流程图。如图3所示,针对风险检测模型的优化可以包括以下步骤。
在步骤31,获取原始样本构成的样本集,其中包括正常样本和风险样本。该样本集可以与图2中训练生成模型的样本集相同或不同。
在步骤32,获取已训练的生成模型。该生成模型可以按照前述图2的方式训练得到。
在步骤33,对于样本集中各个原始样本,利用上述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本。该步骤的执行过程与前述步骤23相似,不复赘述。
然后,在步骤34,利用前述样本集中各个原始样本对应的原始标签和各个变换样本,更新风险检测模型。
需要理解,风险检测模型更新的目标是,即使对于变换样本,也能够正确识别出其原本的标签。因此,可以利用损失函数L,针对各个样本的原始标签,确定风险检测模型针对包含变换样本的样本总集的总预测损失,并以总预测损失最小化为目标,进一步调整风险检测模型的模型参数,实现模型更新。
具体的,在一个实施例中,上述总预测损失Loss可以表示为:
Figure BDA0003112873730000121
公式(7)中的第一项,针对原始样本集中的所有原始样本进行计算,得到其相对于原始标签的预测损失。第二项,针对风险样本,计算对应的变换风险样本相对于原始标签(风险标签)的预测损失。在一个例子中,第二项也可以扩展为,针对所有原始样本,计算对应的变换样本相对于原始标签的预测损失。
通过使得该总预测损失最小化,使得更新后的风险预测模型,对于施加了扰动变换后的变换风险样本,仍能正确识别出其风险类别,从而达到提高鲁棒性和安全性的效果。
回顾以上过程,在风险检测的对抗场景中,通过模拟攻击者对原始样本可能进行的攻击变换,训练一个用于生成对抗样本的生成模型。然后,可以利用该生成模型得到相应的变换样本,然后基于变换样本,对风险检测模型进行优化。如此优化后的风险检测模型,可以提高对于对抗样本的识别效能,从而更好地防御对抗样本的对抗攻击,鲁棒性和安全性均得到增强。
根据另一方面的实施例,还提供一种用于生成对抗样本的生成模型的训练装置,上述装置可以部署在任何具有计算、处理能力的设备或平台上。图4示出根据一个实施例的训练装置示意图。如图4所示,该训练装置400包括:
第一获取单元41,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本;
第二获取单元42,配置为获取风险检测模型及其对应的损失函数,所述风险检测模型为生成模型所所针对的模型;
变换单元43,配置为针对所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
预测单元44,配置为利用所述风险检测模型确定所述各个变换样本的各个风险预测值;
对抗损失确定单元45,配置为以正常样本对应的标签值为比对标签值,分别将所述各个风险预测值代入所述损失函数,得到各个变换样本的对抗损失;
总损失确定单元46,配置为至少根据所述各个变换样本的对抗损失的综合确定总对抗损失;
调整单元47,配置为以最小化总对抗损失为目标,调整所述生成模型中的参数。
根据一种实施方式,所述各个变换样本包括,原始风险样本对应的变换风险样本,和原始正常样本对应的变换正常样本;相应的,所述总损失确定单元46具体配置为:根据各个变换风险样本的对抗损失之和,确定第一损失项;根据各个变换正常样本的对抗损失之和,确定第二损失项;根据第一损失项和第二损失项的组合,确定所述总对抗损失。
进一步的,在一个实施例中,所述总损失确定单元46,配置为:根据各个变换风险样本的对抗损失之和,以及各个变换风险样本对应的扰动变换的大小度量值之和,确定所述第一损失项;根据各个变换正常样本的对抗损失之和,以及各个变换正常样本对应的扰动变换的大小度量值之和,确定所述第二损失项。
在不同例子中,所述扰动变换的大小度量值为,所述扰动变换的二阶范数,或者二阶范数的平方。
根据一个实施例,所述总损失确定单元46配置为:根据所述第一损失项和第二损失项的加权求和,得到所述总对抗损失。
在不同例子中,所述样本为以下之一:账号、交易、文本片段、用户操作。
根据又一方面的实施例,还提供一种优化风险检测模型的装置,上述装置可以部署在任何具有计算、处理能力的设备或平台上。图5示出根据一个实施例的优化装置示意图。如图5所示,该优化装置500包括:
样本集获取单元51,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本;
模型获取单元52,配置为获取根据图4装置训练的生成模型;
变换单元53,配置为对于所述样本集中各个原始样本,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本上,得到各个原始样本对应的各个变换样本;
更新单元54,配置为利用所述样本集中各个原始样本对应的原始标签和各个变换样本,更新风险检测模型。
在一个实施例中,所述更新单元54配置为:利用损失函数,针对所述原始标签,确定风险检测模型针对包含所述各个变换样本的样本总集的总预测损失;以总预测损失最小化为目标,调整风险检测模型的模型参数。
通过以上的装置,可以从攻防对抗的角度对风险检测模型进行优化,增强其鲁棒性和安全性。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图2或图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图2或图3所述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (15)

1.一种用于生成对抗样本的生成模型的训练方法,包括:
获取原始样本构成的样本集,其中包括正常样本和风险样本,所述原始样本由业务对象构成,所述业务对象为账号、交易或文本,所述业务对象为账号时,所述原始样本的样本特征包括如下至少之一:账号的注册时长、注册信息、最近一段时间的使用频次、发表评论的频次;所述业务对象为交易时,所述原始样本的样本特征包括如下至少之一:交易金额、交易时间、支付渠道、交易双方属性信息;所述业务对象为文本时,所述原始样本的样本特征包括如下至少之一:文本中的字符、文本发布时间、来源;
获取风险检测模型及其对应的损失函数,所述风险检测模型为生成模型所针对的模型,用于识别有风险或有安全隐患的业务对象;
针对所述样本集中各个原始样本的样本特征,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本的样本特征上,得到各个原始样本对应的各个变换样本的样本特征;
利用所述风险检测模型处理所述各个变换样本的样本特征,得到对应的各个风险预测值;
以正常样本对应的标签值为比对标签值,分别将所述各个风险预测值代入所述损失函数,得到各个变换样本的对抗损失;
至少根据所述各个变换样本的对抗损失的综合确定总对抗损失;
以最小化总对抗损失为目标,调整所述生成模型中的参数;
利用训练完成的生成模型生成对抗样本的样本特征,所述对抗样本的样本特征用于更新所述风险检测模型,使得风险检测模型仍将风险样本对应的对抗样本识别为风险样本。
2.根据权利要求1所述的方法,其中,所述各个变换样本包括,原始风险样本对应的变换风险样本,和原始正常样本对应的变换正常样本;
至少根据所述各个变换样本的对抗损失的综合确定总对抗损失,包括:
根据各个变换风险样本的对抗损失之和,确定第一损失项;
根据各个变换正常样本的对抗损失之和,确定第二损失项;
根据第一损失项和第二损失项的组合,确定所述总对抗损失。
3.根据权利要求2所述的方法,其中,
确定第一损失项,包括:
根据各个变换风险样本的对抗损失之和,以及各个变换风险样本对应的扰动变换的大小度量值之和,确定所述第一损失项;
确定第二损失项,包括:
根据各个变换正常样本的对抗损失之和,以及各个变换正常样本对应的扰动变换的大小度量值之和,确定所述第二损失项。
4.根据权利要求3所述的方法,其中,所述扰动变换的大小度量值为,所述扰动变换的二阶范数,或者二阶范数的平方。
5.根据权利要求2或3所述的方法,其中,根据第一损失项和第二损失项的组合,确定所述总对抗损失,包括:
根据所述第一损失项和第二损失项的加权求和,得到所述总对抗损失。
6.一种优化风险检测模型的方法,所述风险检测模型用于识别有风险或有安全隐患的业务对象,包括:
获取原始样本构成的样本集,其中包括正常样本和风险样本,所述原始样本由业务对象构成,所述业务对象为账号、交易或文本,所述业务对象为账号时,所述原始样本的样本特征包括如下至少之一:账号的注册时长、注册信息、最近一段时间的使用频次、发表评论的频次;所述业务对象为交易时,所述原始样本的样本特征包括如下至少之一:交易金额、交易时间、支付渠道、交易双方属性信息;所述业务对象为文本时,所述原始样本的样本特征包括如下至少之一:文本中的字符、文本发布时间、来源;
获取根据权利要求1的方法训练的生成模型;
对于所述样本集中各个原始样本的样本特征,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本的样本特征上,得到各个原始样本对应的各个变换样本的样本特征;
利用所述样本集中各个原始样本的样本特征对应的原始标签和各个变换样本,更新风险检测模型,使得更新后的风险检测模型仍将风险样本对应的变换样本识别为风险样本;利用所述风险检测模型对待检测的业务对象进行风险检测。
7.根据权利要求6所述的方法,其中,利用所述样本集中各个原始样本对应的原始标签和各个变换样本,更新风险检测模型,包括:
利用损失函数,针对所述原始标签,确定风险检测模型针对包含所述各个变换样本的样本总集的总预测损失;
以总预测损失最小化为目标,调整风险检测模型的模型参数。
8.一种用于生成对抗样本的生成模型的训练装置,包括:
第一获取单元,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本,所述原始样本由业务对象构成,所述业务对象为账号、交易或文本,所述业务对象为账号时,所述原始样本的样本特征包括如下至少之一:账号的注册时长、注册信息、最近一段时间的使用频次、发表评论的频次;所述业务对象为交易时,所述原始样本的样本特征包括如下至少之一:交易金额、交易时间、支付渠道、交易双方属性信息;所述业务对象为文本时,所述原始样本的样本特征包括如下至少之一:文本中的字符、文本发布时间、来源;
第二获取单元,配置为获取风险检测模型及其对应的损失函数,所述风险检测模型为生成模型所针对的模型,用于识别有风险或有安全隐患的业务对象;
变换单元,配置为针对所述样本集中各个原始样本的样本特征,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本的样本特征上,得到各个原始样本对应的各个变换样本的样本特征;
预测单元,配置为利用所述风险检测模型处理所述各个变换样本的样本特征,得到对应的各个风险预测值;
对抗损失确定单元,配置为以正常样本对应的标签值为比对标签值,分别将所述各个风险预测值代入所述损失函数,得到各个变换样本的对抗损失;
总损失确定单元,配置为至少根据所述各个变换样本的对抗损失的综合确定总对抗损失;
调整单元,配置为以最小化总对抗损失为目标,调整所述生成模型中的参数,利用训练完成的生成模型生成对抗样本的样本特征,所述对抗样本的样本特征用于更新所述风险检测模型,使得风险检测模型仍将风险样本对应的对抗样本识别为风险样本。
9.根据权利要求8所述的装置,其中,所述各个变换样本包括,原始风险样本对应的变换风险样本,和原始正常样本对应的变换正常样本;
所述总损失确定单元,配置为:
根据各个变换风险样本的对抗损失之和,确定第一损失项;
根据各个变换正常样本的对抗损失之和,确定第二损失项;
根据第一损失项和第二损失项的组合,确定所述总对抗损失。
10.根据权利要求9所述的装置,其中,
所述总损失确定单元,配置为:
根据各个变换风险样本的对抗损失之和,以及各个变换风险样本对应的扰动变换的大小度量值之和,确定所述第一损失项;
根据各个变换正常样本的对抗损失之和,以及各个变换正常样本对应的扰动变换的大小度量值之和,确定所述第二损失项。
11.根据权利要求10所述的装置,其中,所述扰动变换的大小度量值为,所述扰动变换的二阶范数,或者二阶范数的平方。
12.根据权利要求10或11所述的装置,其中,所述总损失确定单元配置为:根据所述第一损失项和第二损失项的加权求和,得到所述总对抗损失。
13.一种优化风险检测模型的装置,所述风险检测模型用于识别有风险或有安全隐患的业务对象,包括:
样本集获取单元,配置为获取原始样本构成的样本集,其中包括正常样本和风险样本,所述原始样本由业务对象构成,所述业务对象为账号、交易或文本,所述业务对象为账号时,所述原始样本的样本特征包括如下至少之一:账号的注册时长、注册信息、最近一段时间的使用频次、发表评论的频次;所述业务对象为交易时,所述原始样本的样本特征包括如下至少之一:交易金额、交易时间、支付渠道、交易双方属性信息;所述业务对象为文本时,所述原始样本的样本特征包括如下至少之一:文本中的字符、文本发布时间、来源;
模型获取单元,配置为获取根据权利要求8的装置训练的生成模型;
变换单元,配置为对于所述样本集中各个原始样本的样本特征,利用所述生成模型生成扰动变换,并将其叠加在对应原始样本的样本特征上,得到各个原始样本对应的各个变换样本的样本特征;
更新单元,配置为利用所述样本集中各个原始样本的样本特征对应的原始标签和各个变换样本,更新风险检测模型,使得更新后的风险检测模型仍将风险样本对应的变换样本识别为风险样本;利用所述风险检测模型对待检测的业务对象进行风险检测。
14.根据权利要求13所述的装置,其中,所述更新单元配置为:
利用损失函数,针对所述原始标签,确定风险检测模型针对包含所述各个变换样本的样本总集的总预测损失;
以总预测损失最小化为目标,调整风险检测模型的模型参数。
15.一种计算设备,包括存储器和处理器,其特征在于,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-7中任一项所述的方法。
CN202110656184.7A 2021-06-11 2021-06-11 对抗样本生成模型的训练方法及装置 Active CN113222480B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110656184.7A CN113222480B (zh) 2021-06-11 2021-06-11 对抗样本生成模型的训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110656184.7A CN113222480B (zh) 2021-06-11 2021-06-11 对抗样本生成模型的训练方法及装置

Publications (2)

Publication Number Publication Date
CN113222480A CN113222480A (zh) 2021-08-06
CN113222480B true CN113222480B (zh) 2023-05-12

Family

ID=77081488

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110656184.7A Active CN113222480B (zh) 2021-06-11 2021-06-11 对抗样本生成模型的训练方法及装置

Country Status (1)

Country Link
CN (1) CN113222480B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540791B (zh) * 2024-01-03 2024-04-05 支付宝(杭州)信息技术有限公司 一种对抗训练的方法及装置

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN108304858A (zh) * 2017-12-28 2018-07-20 中国银联股份有限公司 对抗样本识别模型生成方法、验证方法及其系统
CN110084002A (zh) * 2019-04-23 2019-08-02 清华大学 深度神经网络攻击方法、装置、介质和计算设备
CN110334806A (zh) * 2019-05-29 2019-10-15 广东技术师范大学 一种基于生成式对抗网络的对抗样本生成方法
CN110348475A (zh) * 2019-05-29 2019-10-18 广东技术师范大学 一种基于空间变换的对抗样本增强方法和模型
CN111241287A (zh) * 2020-01-16 2020-06-05 支付宝(杭州)信息技术有限公司 用于生成对抗文本的生成模型的训练方法及装置
CN111340493A (zh) * 2020-03-04 2020-06-26 江苏大学 一种多维度分布式异常交易行为检测方法
CN111738374A (zh) * 2020-08-28 2020-10-02 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN111814916A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN112085281A (zh) * 2020-09-11 2020-12-15 支付宝(杭州)信息技术有限公司 检测业务预测模型安全性的方法及装置
CN112100642A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 在分布式系统中保护隐私的模型训练方法及装置
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112200488A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 针对业务对象的风险识别模型训练方法及装置
CN112232426A (zh) * 2020-10-21 2021-01-15 平安国际智慧城市科技股份有限公司 目标检测模型的训练方法、装置、设备及可读存储介质
CN112541593A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 基于隐私保护的联合训练业务模型的方法及装置
CN112580732A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11297084B2 (en) * 2019-09-30 2022-04-05 Mcafee, Llc Methods and apparatus to perform malware detection using a generative adversarial network

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106156766A (zh) * 2015-03-25 2016-11-23 阿里巴巴集团控股有限公司 文本行分类器的生成方法及装置
CN108304858A (zh) * 2017-12-28 2018-07-20 中国银联股份有限公司 对抗样本识别模型生成方法、验证方法及其系统
CN110084002A (zh) * 2019-04-23 2019-08-02 清华大学 深度神经网络攻击方法、装置、介质和计算设备
CN110334806A (zh) * 2019-05-29 2019-10-15 广东技术师范大学 一种基于生成式对抗网络的对抗样本生成方法
CN110348475A (zh) * 2019-05-29 2019-10-18 广东技术师范大学 一种基于空间变换的对抗样本增强方法和模型
CN111241287A (zh) * 2020-01-16 2020-06-05 支付宝(杭州)信息技术有限公司 用于生成对抗文本的生成模型的训练方法及装置
CN111340493A (zh) * 2020-03-04 2020-06-26 江苏大学 一种多维度分布式异常交易行为检测方法
CN111814916A (zh) * 2020-08-28 2020-10-23 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN111738374A (zh) * 2020-08-28 2020-10-02 北京智源人工智能研究院 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN112085281A (zh) * 2020-09-11 2020-12-15 支付宝(杭州)信息技术有限公司 检测业务预测模型安全性的方法及装置
CN112232426A (zh) * 2020-10-21 2021-01-15 平安国际智慧城市科技股份有限公司 目标检测模型的训练方法、装置、设备及可读存储介质
CN112200380A (zh) * 2020-10-23 2021-01-08 支付宝(杭州)信息技术有限公司 优化风险检测模型的方法及装置
CN112200488A (zh) * 2020-10-28 2021-01-08 支付宝(杭州)信息技术有限公司 针对业务对象的风险识别模型训练方法及装置
CN112100642A (zh) * 2020-11-13 2020-12-18 支付宝(杭州)信息技术有限公司 在分布式系统中保护隐私的模型训练方法及装置
CN112541593A (zh) * 2020-12-06 2021-03-23 支付宝(杭州)信息技术有限公司 基于隐私保护的联合训练业务模型的方法及装置
CN112580732A (zh) * 2020-12-25 2021-03-30 北京百度网讯科技有限公司 模型训练方法、装置、设备、存储介质和程序产品

Also Published As

Publication number Publication date
CN113222480A (zh) 2021-08-06

Similar Documents

Publication Publication Date Title
CN111340008B (zh) 对抗补丁生成、检测模型训练、对抗补丁防御方法及系统
CN108111489B (zh) Url攻击检测方法、装置以及电子设备
CN111738374B (zh) 多样本对抗扰动生成方法、装置、存储介质和计算设备
CN108427927B (zh) 目标再识别方法和装置、电子设备、程序和存储介质
CN112200380B (zh) 优化风险检测模型的方法及装置
CN109902018B (zh) 一种智能驾驶系统测试案例的获取方法
CN111475797A (zh) 一种对抗图像生成方法、装置、设备以及可读存储介质
CN109446808A (zh) 基于DCGAN的Android对抗样本生成方法及系统
CN111737691A (zh) 对抗样本的生成方法和装置
CN113792791B (zh) 针对视觉模型的处理方法及装置
KR20150128510A (ko) 라이브니스 검사 방법과 장치,및 영상 처리 방법과 장치
WO2023093346A1 (zh) 基于外源特征进行模型所有权验证的方法和装置
CN113222480B (zh) 对抗样本生成模型的训练方法及装置
CN112488225A (zh) 一种量子模糊机器学习对抗防御模型方法
Fang et al. Backdoor attacks on the DNN interpretation system
Yoo et al. The image game: exploit kit detection based on recursive convolutional neural networks
Macas et al. Adversarial examples: A survey of attacks and defenses in deep learning-enabled cybersecurity systems
CN113435264A (zh) 基于寻找黑盒替代模型的人脸识别对抗攻击方法及装置
Wang et al. Rethinking the vulnerability of dnn watermarking: Are watermarks robust against naturalness-aware perturbations?
Choi et al. EEJE: Two-step input transformation for robust DNN against adversarial examples
CN110941824B (zh) 一种基于对抗样本增强模型抗攻击能力的方法和系统
Gaur et al. Development of Image Translating Model to Counter Adversarial Attacks
Zelenkova et al. Resurrecting Trust in Facial Recognition: Mitigating Backdoor Attacks in Face Recognition to Prevent Potential Privacy Breaches
Zheng et al. Stateful detection of adversarial reprogramming
Sperl et al. Optimizing information loss towards robust neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant