CN117540791B - 一种对抗训练的方法及装置 - Google Patents
一种对抗训练的方法及装置 Download PDFInfo
- Publication number
- CN117540791B CN117540791B CN202410013557.2A CN202410013557A CN117540791B CN 117540791 B CN117540791 B CN 117540791B CN 202410013557 A CN202410013557 A CN 202410013557A CN 117540791 B CN117540791 B CN 117540791B
- Authority
- CN
- China
- Prior art keywords
- training
- model
- sample
- countermeasure
- label
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 214
- 238000000034 method Methods 0.000 title claims abstract description 58
- 239000013598 vector Substances 0.000 claims abstract description 135
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 230000006399 behavior Effects 0.000 claims description 37
- 238000010606 normalization Methods 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000003042 antagnostic effect Effects 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 238000013136 deep learning model Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000003542 behavioural effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000669618 Nothes Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Computer Security & Cryptography (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Finance (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书实施例涉及一种对抗训练的方法及装置,方法包括:首先,获取基于训练集训练的第一模型,训练集中各训练样本包含结构化的特征数据及标签。然后,基于第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量。接下来,将目标权重向量施加于各训练样本的特征数据,得到各第一结果向量,并构建检索集。最后,基于训练集和检索集对第二模型进行多轮训练;任意一轮训练包括:使用训练集中部分训练样本训练第二模型;基于对抗训练算法与第二模型,确定部分训练样本对应的对抗样本特征;利用对抗样本特征在检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集;使用对抗训练集训练第二模型。
Description
技术领域
本说明书一个或多个实施例涉及人工智能领域,尤其涉及一种对抗训练的方法及装置。
背景技术
随着移动支付和电子购物的蓬勃发展,电子服务平台上的交易量日渐增加。然而,与此同时,许多风险用户利用电子支付手段进行交易欺诈、账户盗用等风险行为,严重侵害了其它普通用户的权益。风控策略和风控模型正是保证服务平台安全和维护用户资产和交易安全的重要手段。风险控制,简称风控,是通过对各类风险进行评估和管理,以确保服务平台的运行和/或用户资产安全的一系列措施和方法。
然而,风险用户仍然会通过对其行为和交易特征进行调整和扰动来逃避风控模型的检测。这使得平台管理人员需要定期更新模型以抵御随时产生的新的风险,进而给平台管理人员带来了很多模型迭代成本。因此,需要一种模型训练方法,使得训练出来的模型在面对新的风险和样本扰动时仍然有效。
发明内容
本说明书一个或多个实施例描述了一种对抗训练的方法及装置,旨在针对结构化的训练样本生成合适的对抗训练数据,以提高训练出的模型的鲁棒性。
第一方面,提供了一种对抗训练的方法,包括:
获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;
基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量;
将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;
基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:
使用所述训练集中部分训练样本训练所述第二模型;
基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;
利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集;
使用所述对抗训练集训练所述第二模型。
在一种可能的实施方式中,基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量,包括:
将各个训练样本输入到所述第一模型中,基于得到的各个预测值与对应标签之间的损失,确定总预测损失;
基于所述总预测损失在反向传播过程中对特征数据的梯度值的归一化结果,确定目标权重向量。
在一种可能的实施方式中,所述归一化为L2范数归一化。
在一种可能的实施方式中,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量,包括:
将所述目标权重向量与任一特征数据的对应元素相乘,得到其对应的第一结果向量。
在一种可能的实施方式中,利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,包括:
将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量;
基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签。
在一种可能的实施方式中,将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量,包括:
将所述目标权重向量与所述对抗样本特征的对应元素相乘,得到第二结果向量。
在一种可能的实施方式中,基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签,包括:
将所述第二结果向量与所述检索集中的各个第一结果向量进行匹配,得到匹配度排名靠前的多个候选结果向量;
基于所述多个候选结果向量各自的标签,确定所述对抗样本特征的标签。
在一种可能的实施方式中,所述匹配度基于L2距离衡量。
在一种可能的实施方式中,基于所述多个候选结果向量各自的标签,确定所述对抗样本特征的标签,包括:
将所述多个标签中出现次数最多的标签确定为所述对抗样本特征的标签。
在一种可能的实施方式中,所述对抗训练算法至少包括以下之一:快速梯度符号算法FGSM、快速梯度算法FGM、映射梯度下降算法PGD。
在一种可能的实施方式中,所述用户行为包括以下之一:交易行为,登录行为。
第二方面,提供了一种对抗训练的装置,包括:
获取单元,配置为,获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;
权重确定单元,配置为,基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量;
检索集构建单元,配置为,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;
模型训练单元,配置为,基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:使用所述训练集中部分训练样本训练所述第二模型;基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集;使用所述对抗训练集训练所述第二模型。
第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。
第四方面,提供了一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。
本说明书实施例提出的一种对抗训练的方法及装置,针对结构化的训练样本生成合适的对抗训练数据,以提高训练出的模型的鲁棒性,使得模型能够更好地检测出潜在的交易风险。
附图说明
为了更清楚地说明本说明书披露的多个实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书披露的多个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出根据一个实施例的对抗训练的方法的实施场景示意图;
图2示出根据一个实施例的对抗训练的方法的流程图;
图3示出根据一个实施例的构建检索集的流程图;
图4示出根据一个实施例的生成对抗训练样本的流程图;
图5示出根据一个实施例的对抗训练的装置的示意性框图。
实施方式
下面结合附图,对本说明书提供的方案进行描述。
如前所述,风险用户仍然会通过对其行为和交易特征进行调整和扰动来逃避风控模型的检测。每当单个风险用户发现一种扰动手段可以逃逸检测后,该方法就会被大量的风险用户共同使用,进而群聚性地产生了原有的风控模型无法识别的新风险。因此,需要一种模型训练方法,提高模型的鲁棒性(Robustness),使得训练出来的模型在面对新的风险和样本扰动时仍然有效。模型的鲁棒性是指,模型对于输入数据的变化和扰动具有一定的容忍度和稳定性。换句话说,鲁棒性是指模型在面对异常、噪声、干扰等情况下仍能保持有效性和准确性。
对抗训练是一种用来提高深度学习模型的鲁棒性的方法。它通过引入对抗样本来训练模型,以使模型能够在面对针对性的攻击时具备更好的性能。对抗样本通过对原始输入样本进行微小的修改(扰动),以使模型产生错误的输出,这些修改通常无法被人类观察到,但能够欺骗深度学习模型。例如,对于图像数据,修改其中一部分像素点的数据,或者对于音频数据,修改其中一部分采样点的数据,对于人类来说难以察觉,但是却会极大地影响深度学习模型的预测准确率。
传统的对抗训练主要应用于自然语言处理领域和计算机视觉领域,对于这些领域要处理的文本和图像数据来说,对其添加扰动后基本上不会改变其原有的含义,于是可以直接沿用原本数据的标签作为对抗样本的标签。
然而,风控领域常用的数据类型为结构化数据,结构化数据是指按照预定的数据模型和数据结构进行组织和存储的数据,通常以表格形式呈现,包括行和列。如果直接将对抗训练应用结构化数据中去训练模型,模型的性能会显著下降。这是因为对结构化数据进行扰动后,其含义会产生重大变化。例如,结构化数据中的某一个字段的数据类型为布尔类型,其取值为“真”或“假”。在对该字段进行扰动后,会将“真”扰动成“假”,或者将“假”扰动成“真”,使得该字段的内容发生彻底的改变。如此一来,在对结构化数据进行扰动之后,其含义会发生很大的变化,所以无法保证原本数据的标签仍然适用于新的对抗样本。使用错误标签的对抗样本对模型进行对抗训练,会给模型带来错误的指导。因此,需要一种适用于结构化数据的对抗训练方法,用于增强模型的鲁棒性,抵御新的风险和扰动。
为了解决上述问题,图1示出根据一个实施例的对抗训练的方法的实施场景示意图。如图1所示,对于结构化训练样本,在对其进行对抗训练的生成拥有错误标签的对抗样本的同时,还会根据该结构化训练样本构建一个检索集。然后基于该检索集,对对抗样本的标签进行修复,使其拥有正确的标签,得到对抗训练数据。然后便可以基于对抗训练数据对模型进行训练,以增强模型的鲁棒性。
以下结合具体的实施例,描述上述对抗训练的方法的具体实施步骤。图2示出根据一个实施例的对抗训练的方法的流程图,所述方法的执行主体可以为任何具有计算、处理能力的平台或服务器或设备集群等。如图2所示,所述方法至少包括:步骤202,获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;步骤204,基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量;步骤206,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;步骤208,基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:步骤2082,使用所述训练集中部分训练样本训练所述第二模型;步骤2084,基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;步骤2086,利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集;步骤2088,使用所述对抗训练集训练所述第二模型。
首先,在步骤202,获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险。
训练集中的第个训练样本的特征数据可以记为,其中包含多个字段,任意字段
代表该用户行为的某个属性的值。用户行为包括以下之一:交易行为,登录行为。例如,当
代表登录行为时,其中的属性可以是用户id、登录IP地址、登录时间等等;当代表交易行
为时,其中的属性可以是交易时间、交易金额、支付方式、交易IP地址等等。
特征数据对应的标签可以记为。标签可以是二元取值,代表有/没有特定风
险;也可以是多元取值,对应多种风险,例如,0代表无风险,1代表第一类风险,2代表第二类
风险等等。训练集可以记为。
第一模型可以是任意的可微分的模型,例如线性模型,深度神经网络,卷积神经网络,Transformer模型等等,这里不做限定。第一模型用于在后续的步骤中构建针对于训练集的检索集。
然后,在步骤204,基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量。
具体地,将各个训练样本输入到所述第一模型中,基于得到的各个预测值与对应
标签之间的损失,确定总预测损失。
对于特征数据,第一模型的预测值可以记为。可以使用多种损失函数计算各
个预测值与对应的标签之间的总预测损失,例如,使用均方误差损失函数MSE(Mean
Squared Error),交叉熵损失函数等等,这里不做限定。
然后,基于所述总预测损失在反向传播过程中对特征数据的梯度值的归一
化结果,确定目标权重向量。
该梯度值可以记为,其中代表对求梯度的运算符。计算的方
法可以参照常规的反向传播更新深度学习模型的权重值时计算方法,将相应的权重变量替
换为特征数据变量,这里不再赘述。
目标权重向量为梯度值的归一化结果。
在一个实施例中,所述归一化为L2范数归一化。即,,其中,代表
的L2范数。
在其他实施例中,还可以使用其它归一化方法,例如L1范数归一化,无穷范数归一化等等,这里不做限定。
接下来,在步骤206,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集。
在一个实施例中,将所述目标权重向量与任一特征数据的对应元素相乘,得到
其对应的第一结果向量。
第一结果向量可以记为,代表哈达玛乘积(Hadamard Product),即
将两个向量的对应元素逐项相乘,得到结果向量。例如,当和均为3维向量时,,,对应的第一结果向量。
然后,根据各个第一结果向量与对应的标签,构建检索集。
由于目标权重向量与特征数据的梯度值相关,梯度值在某个维度上值越大,说
明该维度的特征对模型预测误差的影响越大,对该特征进行扰动时,生成的对抗样本的效
果也就越好。于是,对应的,目标权重向量在该维度的值也会更大,在后续构建检索集以
及搜索检索集的时候会提供更大的权重。
在其他实施例中,还可以使用其他方法确定第一结果向量,例如,将所述目标权重
向量与任一特征数据的对应元素相乘后再乘以一个固定的倍数,得到其对应的第一结果
向量;或者,将目标权重向量乘以固定倍数后与任一特征数据求和,得到其对应的第一结果
向量。
通过步骤202至步骤206,可以基于训练集构建其对应的检索集。检索集可以用于后续使用训练集对第二模型进行对抗训练的过程中,对生成的对抗样本的标签进行修复,以得到可以识别交易风险的高鲁棒性模型。构建检索集的整体流程可以如图3所示。
图3示出根据一个实施例的构建检索集的流程图。在图3中,第一模型可以是模型
1。将训练集中的各个特征数据输入到训练好的模型1中,得到各个预测值。
然后根据预测值和标签确定总预测损失。接下来,将总预测损失在模型1
中反向传播,得到对特征数据的梯度值,并对归一化得到目标权重向量。最后,基
于训练集中各个特征数据分别与目标权重向量的哈达玛乘积结果,结合各自的
标签,构建检索集。检索集中的集合元素数量可以是,对应于训练集中的
个训练样本。
在构建检索集后,在步骤208,基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括步骤2082至步骤2088。
首先,在步骤2082,使用所述训练集中部分训练样本训练所述第二模型。
在任意一轮训练中,选取训练集中的部分训练样本,作为小批量(mini-batch)训练样本,对第二模型进行对抗训练。第二模型是任意的机器学习模型,例如深度神经网络,卷积神经网络,循环神经网络,Transformer模型等等,这里不做限定。
其次,在步骤2084,基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征。
可以使用多种对抗训练算法对所述第二模型进行对抗训练,例如,可以使用快速梯度符号算法FGSM(Fast Gradient Sign Method)、快速梯度算法FGM(Fast GradientMethod)、映射梯度下降算法PGD(Projected Gradient descent),这里不做限定。
对抗训练算法通过对输入的特征数据产生扰动,进而生成对应的对抗样本特
征。如前所述,由于特征数据是与用户行为相关的结构化数据,其对应的对抗样本
特征并不能直接沿用特征数据原本的标签。于是,接下来的步骤2086将基于检索
集确定对抗样本特征的标签。
然后,在步骤2086,利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集。
在一个实施例中,步骤2086包括:将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量。然后,基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签。
具体地,将所述目标权重向量与所述对抗样本特征的对应元素相乘,得
到第二结果向量,可以记为。
与前述确定第一结果向量的方法相似,对目标权重向量与对抗样本特征
求哈达玛乘积,确定第二结果向量。。
然后,将所述第二结果向量与所述检索集中的各个第一结果向量进行匹配,得到匹配度排名靠前的多个候选结果向量。基于所述多个候选结果向量各自的标签,确定所述对抗样本特征的标签。
将第二结果向量与各个第一结果向量进行匹配,得到匹配度排名
靠前的k个候选结果向量,然后,基于k个候选结果向量各自的标签,确定所述
对抗样本特征的标签。
可以使用多种方法确定第二结果向量与各个第一结果向量之间
的匹配度。例如,基于L2距离,将与第二结果向量之间L2距离最小的k个第一结果向量作为
候选结果向量。或者,可以基于余弦相似度,将与第二结果向量之间余弦相似度最大的k个
第一结果向量作为候选结果向量。
然后,将所述多个标签中出现次数最多的标签确定为所述对抗样本
特征的标签。
在确定了对抗样本特征的标签后,可以生成特征数据对应的对抗训练
样本(。基于各个特征数据可以分别生成它们对应的对抗训练样本,并以此构建
对抗训练集。
生成对抗训练样本的整体流程可以如图4所示。
图4示出根据一个实施例的生成对抗训练样本的流程图。在图4中,第二模型可以
是模型2。首先,使用当前批次的训练样本训练模型2(图中未示出)。然后,将当前批次训练
样本中的任一特征数据输入到训练好的模型2中,基于任意的对抗训练算法,生成对抗样
本特征。基于目标权重向量与对抗样本特征的哈达玛乘积结果,确定第
二结果向量。接下来,使用第二结果向量在检索集中进行检索,得到多
个候选标签,并将它们之中出现次数最多的标签确定为所述对抗样本特征的
标签。最后,将对抗样本特征与标签构造成对抗训练数据(。基于各
个训练样本对应的对抗训练数据,可以构建对抗训练集
在其他实施例中,还可以使用其它方法基于检索集确定对抗样本特征的标签。例如,将检索集中与第二结果向量距离最近的第一结果向量对应的标签,作为对抗样本特征的标签。或者,先对检索集使用聚类算法,例如k-means算法,将检索集中的各个第一结果向量聚类为多个簇(cluster),基于任一簇中的各个第一结果向量的标签,确定该簇对应的标签。然后,确定第二结果向量所归属的目标簇,将目标簇的标签作为对抗样本特征的标签。
需要说明的是,步骤2086确定第二结果向量的方式,应与步骤206中确定第一结果
向量的方式相同,如此一来,在检索集中,二者才具有可比性。例如,当步骤206中使用目标
权重向量与特征数据的哈达玛乘积确定第一结果向量时,步骤2086也应当对应地使用目
标权重向量与对抗样本特征的哈达玛乘积确定第二结果向量;又例如,当步骤206中使用
目标权重向量与特征数据的求和结果确定第一结果向量时,步骤2086也应当对应地使用
目标权重向量与对抗样本特征的求和结果确定第二结果向量。
最后,在步骤2088,使用所述对抗训练集训练所述第二模型。
以上描述了针对于第二模型的一轮对抗训练的步骤流程。经过多轮步骤208的训练,当第二模型收敛或者达到预设的停止条件时,停止训练。训练完成的第二模型即为,可以接收与用户行为相关的结构化数据,基于结构化数据预测用户行为是否具有特定风险的高鲁棒性的模型。
综合以上,针对于传统的对抗训练应用在结构化的表格数据中容易出现标签错误的情况,本说明书实施例提出的对抗训练的方法,对抗样本不继承原始样本的标签,而是通过构造检索集,并基于相似度在检索集中预测对抗样本的标签。
在样本数量足够多的时候,根据本说明书实施例预测得到的标签的错误率会小于贝叶斯风险的两倍,而贝叶斯风险是这份数据的最低错误率。因此可以认为通过本说明书实施例的方案修复得到的标签的准确率是有保证的,能够有效缓解原有结构化表格数据中对抗训练的标签错误的问题。进而提高了对抗训练得到的模型的鲁棒性,使其能够更好地预测用户行为是否具有特定风险。
根据另一方面的实施例,还提供一种对抗训练的装置。图5示出根据一个实施例的对抗训练的装置的示意性框图,该装置可以部署在任何具有计算、处理能力的设备、平台或设备集群中。如图5所示,该装置500包括:
获取单元501,配置为,获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;
权重确定单元502,配置为,基于所述第一模型针对各个训练样本的总预测损失对特征数据的梯度值,确定目标权重向量;
检索集构建单元503,配置为,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;
模型训练单元504,配置为,基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:使用所述训练集中部分训练样本训练所述第二模型;基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;利用所述对抗样本特征在所述检索集中进行检索,从而确定各个对抗样本特征的标签,并构建对抗训练集;使用所述对抗训练集训练所述第二模型。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行上述任一实施例所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现上述任一实施例所描述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (12)
1.一种对抗训练的方法,包括:
获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;
将各个训练样本输入到所述第一模型中,基于得到的各个预测值与对应标签之间的损失,确定总预测损失;
基于所述总预测损失在反向传播过程中对特征数据的梯度值的归一化结果,确定目标权重向量;
将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;
基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:
使用所述训练集中部分训练样本训练所述第二模型;
基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;
将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量;基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签,并构建对抗训练集;
使用所述对抗训练集训练所述第二模型。
2.根据权利要求1所述的方法,其中,所述归一化为L2范数归一化。
3.根据权利要求1所述的方法,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量,包括:
将所述目标权重向量与任一特征数据的对应元素相乘,得到其对应的第一结果向量。
4.根据权利要求1所述的方法,将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量,包括:
将所述目标权重向量与所述对抗样本特征的对应元素相乘,得到第二结果向量。
5.根据权利要求1所述的方法,基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签,包括:
将所述第二结果向量与所述检索集中的各个第一结果向量进行匹配,得到匹配度排名靠前的多个候选结果向量;
基于所述多个候选结果向量各自的标签,确定所述对抗样本特征的标签。
6.根据权利要求5所述的方法,其中,所述匹配度基于L2距离衡量。
7.根据权利要求5所述的方法,基于所述多个候选结果向量各自的标签,确定所述对抗样本特征的标签,包括:
将所述多个标签中出现次数最多的标签确定为所述对抗样本特征的标签。
8.根据权利要求1所述的方法,其中,所述对抗训练算法至少包括以下之一:快速梯度符号算法FGSM、快速梯度算法FGM、映射梯度下降算法PGD。
9.根据权利要求1所述的方法,其中,所述用户行为包括以下之一:交易行为,登录行为。
10.一种对抗训练的装置,包括:
获取单元,配置为,获取基于训练集训练的第一模型,所述训练集中各训练样本包含结构化的特征数据及标签,所述特征数据包含用户行为特征,所述标签指示所述用户行为是否具有特定风险;
权重确定单元,配置为,将各个训练样本输入到所述第一模型中,基于得到的各个预测值与对应标签之间的损失,确定总预测损失;基于所述总预测损失在反向传播过程中对特征数据的梯度值的归一化结果,确定目标权重向量;
检索集构建单元,配置为,将所述目标权重向量施加于各训练样本的特征数据,得到各第一结果向量;基于各第一结果向量与各训练样本的标签,构建检索集;
模型训练单元,配置为,基于所述训练集和检索集对第二模型进行多轮训练,所述第二模型用于预测用户行为是否具有特定风险;任意一轮训练包括:使用所述训练集中部分训练样本训练所述第二模型;基于对抗训练算法与所述第二模型,确定所述部分训练样本对应的对抗样本特征;将所述目标权重向量施加于任一对抗样本特征,得到第二结果向量;基于所述第二结果向量在所述检索集中的检索结果,确定所述对抗样本特征的标签,并构建对抗训练集;使用所述对抗训练集训练所述第二模型。
11.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-9中任一项所述的方法。
12.一种计算设备,包括存储器和处理器,其中,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-9中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013557.2A CN117540791B (zh) | 2024-01-03 | 2024-01-03 | 一种对抗训练的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410013557.2A CN117540791B (zh) | 2024-01-03 | 2024-01-03 | 一种对抗训练的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117540791A CN117540791A (zh) | 2024-02-09 |
CN117540791B true CN117540791B (zh) | 2024-04-05 |
Family
ID=89782611
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410013557.2A Active CN117540791B (zh) | 2024-01-03 | 2024-01-03 | 一种对抗训练的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117540791B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110741388A (zh) * | 2019-08-14 | 2020-01-31 | 东莞理工学院 | 对抗样本检测方法、装置、计算设备及计算机存储介质 |
CN111767326A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于生成式对抗网络的关系型表格数据的生成方法及装置 |
CN112580732A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN113222480A (zh) * | 2021-06-11 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 对抗样本生成模型的训练方法及装置 |
CN113254943A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市洞见智慧科技有限公司 | 一种基于纵向联邦学习的模型贡献度评估系统 |
CN113642378A (zh) * | 2021-05-14 | 2021-11-12 | 浙江工业大学 | 基于n+1类对抗训练的信号对抗样本检测器设计方法及系统 |
CN113780365A (zh) * | 2021-08-19 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 样本生成方法和装置 |
CN114491448A (zh) * | 2022-01-24 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 一种自动化对抗训练方法和装置 |
CN114861893A (zh) * | 2022-07-07 | 2022-08-05 | 西南石油大学 | 一种多通路聚合的对抗样本生成方法、系统及终端 |
CN115860053A (zh) * | 2022-12-13 | 2023-03-28 | 浙江科技学院 | 基于参数对抗攻击度量学习的标签推荐方法及系统 |
CN116150125A (zh) * | 2023-02-20 | 2023-05-23 | 中移信息技术有限公司 | 结构化数据生成模型的训练方法、装置、设备及存储介质 |
CN116432014A (zh) * | 2021-12-31 | 2023-07-14 | 第四范式(北京)技术有限公司 | 对抗样本的生成方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190213503A1 (en) * | 2018-01-08 | 2019-07-11 | International Business Machines Corporation | Identifying a deployed machine learning model |
EP4057193A1 (en) * | 2021-03-10 | 2022-09-14 | Tata Consultancy Services Limited | Method and system for identifying mislabeled data samples using adversarial attacks |
US11734612B2 (en) * | 2021-08-27 | 2023-08-22 | Feedzai—Consultadoria e Inovação Tecnológica S.A. | Obtaining a generated dataset with a predetermined bias for evaluating algorithmic fairness of a machine learning model |
-
2024
- 2024-01-03 CN CN202410013557.2A patent/CN117540791B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110741388A (zh) * | 2019-08-14 | 2020-01-31 | 东莞理工学院 | 对抗样本检测方法、装置、计算设备及计算机存储介质 |
CN111767326A (zh) * | 2020-09-03 | 2020-10-13 | 国网浙江省电力有限公司营销服务中心 | 基于生成式对抗网络的关系型表格数据的生成方法及装置 |
CN112580732A (zh) * | 2020-12-25 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型训练方法、装置、设备、存储介质和程序产品 |
CN113642378A (zh) * | 2021-05-14 | 2021-11-12 | 浙江工业大学 | 基于n+1类对抗训练的信号对抗样本检测器设计方法及系统 |
CN113254943A (zh) * | 2021-05-25 | 2021-08-13 | 深圳市洞见智慧科技有限公司 | 一种基于纵向联邦学习的模型贡献度评估系统 |
CN113222480A (zh) * | 2021-06-11 | 2021-08-06 | 支付宝(杭州)信息技术有限公司 | 对抗样本生成模型的训练方法及装置 |
CN113780365A (zh) * | 2021-08-19 | 2021-12-10 | 支付宝(杭州)信息技术有限公司 | 样本生成方法和装置 |
CN116432014A (zh) * | 2021-12-31 | 2023-07-14 | 第四范式(北京)技术有限公司 | 对抗样本的生成方法及装置 |
CN114491448A (zh) * | 2022-01-24 | 2022-05-13 | 支付宝(杭州)信息技术有限公司 | 一种自动化对抗训练方法和装置 |
CN114861893A (zh) * | 2022-07-07 | 2022-08-05 | 西南石油大学 | 一种多通路聚合的对抗样本生成方法、系统及终端 |
CN115860053A (zh) * | 2022-12-13 | 2023-03-28 | 浙江科技学院 | 基于参数对抗攻击度量学习的标签推荐方法及系统 |
CN116150125A (zh) * | 2023-02-20 | 2023-05-23 | 中移信息技术有限公司 | 结构化数据生成模型的训练方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
Adversarial Robustness for Tabular Data through Cost and Utility Awareness;Klim Kireev 等;arXiv;20230227;1-32 * |
AEG: An Adversarial Attack Algorithm Based on Structured Data and Threshold Constraint;Xu Zhai;2021 IEEE 6th International Conference on Cloud Computing and Big Data Analytics (ICCCBDA);20210602;44-47 * |
Effective semi-supervised learning for structured data using Embedding GANs;Xiaoheng Deng 等;Pattern Recognition Letters;20211101;127-134 * |
基于生成式对抗网络的结构化数据表生成模型;宋珂慧 等;计算机研究与发展;20190930;第56卷(第9期);1832-1842 * |
基于积分损失的对抗样本生成算法;章进 等;计算机技术与发展;20220731;第32卷(第7期);1-7 * |
深度学习中对抗样本的构造及防御研究;段广晗 等;网络与信息安全学报;20200430;第6卷(第02期);1-11 * |
Also Published As
Publication number | Publication date |
---|---|
CN117540791A (zh) | 2024-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Xiao et al. | Attentional factorization machines: Learning the weight of feature interactions via attention networks | |
CN110162703B (zh) | 内容推荐方法、训练方法、装置、设备及存储介质 | |
WO2022041979A1 (zh) | 一种信息推荐模型的训练方法和相关装置 | |
Chen et al. | A population-based incremental learning approach with artificial immune system for network intrusion detection | |
Su et al. | TAP: A personalized trust-aware QoS prediction approach for web service recommendation | |
CN110717098B (zh) | 基于元路径的上下文感知用户建模方法、序列推荐方法 | |
CN108875776B (zh) | 模型训练方法和装置、业务推荐的方法和装置、电子设备 | |
Althubiti et al. | Applying long short-term memory recurrent neural network for intrusion detection | |
Baig et al. | GMDH-based networks for intelligent intrusion detection | |
CN112733995B (zh) | 训练神经网络的方法、行为检测方法及行为检测装置 | |
CN110633421B (zh) | 特征提取、推荐以及预测方法、装置、介质和设备 | |
CN112231570B (zh) | 推荐系统托攻击检测方法、装置、设备及存储介质 | |
CN109840413B (zh) | 一种钓鱼网站检测方法及装置 | |
Bohani et al. | A comprehensive analysis of supervised learning techniques for electricity theft detection | |
CN112819024B (zh) | 模型处理方法、用户数据处理方法及装置、计算机设备 | |
CN114202417A (zh) | 异常交易检测方法、装置、设备、介质和程序产品 | |
CN112085281A (zh) | 检测业务预测模型安全性的方法及装置 | |
Moradi et al. | A New Mechanism for Detecting Shilling Attacks in Recommender Systems Based on Social Network Analysis and Gaussian Rough Neural Network with Emotional Learning | |
Yang et al. | Efficient and persistent backdoor attack by boundary trigger set constructing against federated learning | |
Widiono et al. | Phishing Website Detection Using Bidirectional Gated Recurrent Unit Model and Feature Selection | |
CN115730125A (zh) | 对象识别方法、装置、计算机设备和存储介质 | |
CN105045827A (zh) | 基于熟悉度的信息推荐方法及装置 | |
CN110262906B (zh) | 接口标签推荐方法、装置、存储介质和电子设备 | |
CN117540791B (zh) | 一种对抗训练的方法及装置 | |
US12088605B2 (en) | Methods and systems for cyber threat detection using artificial intelligence models in data-sparse environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |