CN118095407A - 提升模型鲁棒性的方法、设备、存储介质及程序产品 - Google Patents
提升模型鲁棒性的方法、设备、存储介质及程序产品 Download PDFInfo
- Publication number
- CN118095407A CN118095407A CN202410525189.XA CN202410525189A CN118095407A CN 118095407 A CN118095407 A CN 118095407A CN 202410525189 A CN202410525189 A CN 202410525189A CN 118095407 A CN118095407 A CN 118095407A
- Authority
- CN
- China
- Prior art keywords
- neural network
- network model
- tokens
- token
- robustness
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 91
- 238000003860 storage Methods 0.000 title claims abstract description 13
- 238000003062 neural network model Methods 0.000 claims abstract description 463
- 238000012549 training Methods 0.000 claims abstract description 267
- 230000006870 function Effects 0.000 claims abstract description 167
- 238000012545 processing Methods 0.000 claims abstract description 11
- 238000003058 natural language processing Methods 0.000 claims abstract description 8
- 238000012512 characterization method Methods 0.000 claims description 29
- 238000004590 computer program Methods 0.000 claims description 22
- 238000005070 sampling Methods 0.000 claims description 21
- 239000013598 vector Substances 0.000 claims description 11
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000011156 evaluation Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 12
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000009826 distribution Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 239000013585 weight reducing agent Substances 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010422 painting Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本公开关于一种提升模型鲁棒性的方法、设备、存储介质及程序产品,涉及人工智能技术领域,旨在提升神经网络模型的鲁棒性。该方法包括:获取神经网络模型提取的多个令牌中的离群值;所述神经网络模型的用途包括但不限于以下任意一项或多项:图像处理、自然语言处理、目标推荐、结果预测和图像生成;根据所述离群值,建立鲁棒损失函数;所述鲁棒损失函数用于抑制所述离群值;根据所述多个令牌,建立标准损失函数;基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及一种提升模型鲁棒性的方法、设备、存储介质及程序产品。
背景技术
神经网络模型容易受到对抗性攻击,且容易因输入的扰动而发生显著变化。因此,需要提升神经网络模型的鲁棒性。相关技术通过对模型进行对抗训练,从而提升模型的鲁棒性。然而,对抗训练在提升模型的鲁棒性的同时,会降低模型的性能和泛化能力。如何在不显著影响神经网络模型的性能和泛化能力的情况下,提升神经网络模型的鲁棒性,是一个亟需解决的技术问题。
发明内容
为克服相关技术中存在的问题,本公开提供一种提升模型鲁棒性的方法、设备、存储介质及程序产品。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种提升模型鲁棒性的方法,所述方法包括:
获取神经网络模型提取的多个令牌中的离群值;所述神经网络模型的用途包括但不限于以下任意一项或多项:图像处理、自然语言处理、目标推荐、结果预测和图像生成;
根据所述离群值,建立鲁棒损失函数;所述鲁棒损失函数用于抑制所述离群值;
根据所述多个令牌,建立标准损失函数;
基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
可选地,在所述获取神经网络模型提取的多个令牌中的离群值之前,所述方法还包括:
确定所述神经网络模型当前的训练模式;所述训练模式包括鲁棒模式和标准模式;
所述获取神经网络模型提取的多个令牌中的离群值,包括:
在所述当前的训练模式为鲁棒模式的情况下,获取所述神经网络模型提取的所述多个令牌中的离群值。
可选地,所述确定所述神经网络模型当前的训练模式,包括:
获取所述神经网络模型所处的训练阶段;所述训练阶段包括预训练阶段和微调阶段;
在所述神经网络模型处于所述预训练阶段的情况下,获取所述神经网络模型的复杂度;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度高于复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度不高于所述复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为标准模式;
在所述神经网络模型处于所述微调阶段的情况下,获取所述神经网络模型的鲁棒性得分;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分不低于所述鲁棒性阈值的情况下,结束对所述神经网络模型的训练。
可选地,所述获取所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数,以及获取所述神经网络模型的聚类中心数;所述超参数包括以下任意一项或多项:所述神经网络模型的模态数、输入向量的维数、神经网络模型字典中的令牌数和预设采样令牌数;
根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度。
可选地,所述根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数的乘积;
将所述乘积与所述神经网络模型的聚类中心数的商,确定为所述神经网络模型的复杂度。
可选地,所述获取所述神经网络模型的鲁棒性得分,包括:
根据以下公式确定所述神经网络模型的鲁棒性得分:
;
其中,表征所述神经网络模型的鲁棒性得分,/>表征噪声强度的种类,/>表征第/>种噪声强度,/>表征第/>种噪声强度的权重系数,/>表征第/>种噪声强度下的模型得分,/>表征无噪声下的模型得分。
可选地,所述获取神经网络模型提取的多个令牌中的离群值,包括:
将训练样本输入所述神经网络模型,得到所述神经网络模型提取的所述多个令牌;
将所述多个令牌进行聚类,得到多个类;
将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
计算每一所述令牌与每一所述预设类中心的相似度;
针对每一所述令牌,将与令牌的相似度高于相似度阈值的多个预设类中心中,相似度最高的预设类中心,确定为所述令牌对应的类中心;
将所述令牌,划分到所述令牌对应的预设类中心所属的类中,得到所述多个类。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心,并将所述待聚类令牌划分到所述类中心所属的类中;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
将所述更新后的预设类中心确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
在所述待聚类令牌与任一所述预设类中心的相似度都不高于所述相似度阈值的情况下,根据所述待聚类令牌,生成新类,并获取所述新类的类中心;
将所述更新后的预设类中心和/或所述新类的类中心,确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
所述将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值,包括:
将包含的令牌数少于令牌数阈值的各个类中的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
将所述多个令牌中,属于预设采样令牌的,确定为目标令牌;所述预设采样令牌为对所述神经网络模型的影响力大于影响力阈值的令牌;
对多个所述目标令牌进行聚类,得到所述多个类。
可选地,所述根据所述离群值,建立鲁棒损失函数,包括:
按照如下公式确定所述鲁棒损失函数:
;
其中,表征所述鲁棒损失函数,/>表征离群值/>的热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
可选地,所述根据所述多个令牌,建立标准损失函数,包括:
按照如下公式确定所述标准损失函数:
;
其中,表征所述标准损失函数,/>表征令牌/>的独热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
可选地,所述基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型,包括:
获取当前训练轮次的离群抑制系数;
根据所述当前训练轮次的离群抑制系数,对所述鲁棒损失函数进行加权处理,得到加权鲁棒损失函数;
根据所述加权鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到当前训练轮次训练好的所述神经网络模型。
可选地,所述获取当前训练轮次的离群抑制系数,包括:
获取所述神经网络模型的鲁棒性得分,以及获取上一训练轮次的离群抑制系数;
根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数。
可选地,所述根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数,包括:
在所述上一训练轮次训练好的所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,增大所述上一训练轮次的离群抑制系数,得到所述当前训练轮次的离群抑制系数。
可选地,所述增大所述上一训练轮次的离群抑制系数,包括:
获取上一训练轮次训练好的所述神经网络模型的鲁棒性得分和所述鲁棒性阈值的差值;
根据所述差值,确定离群抑制系数的增大量;
根据所述离群抑制系数的增大量,增大所述上一训练轮次的离群抑制系数。
可选地,在不存在上一训练轮次的离群抑制系数的情况下,所述获取上一训练轮次的离群抑制系数,包括:
对离群抑制系数进行初始化,将初始化后的离群抑制系数,确定为所述上一训练轮次的离群抑制系数。
可选地,所述方法还包括:
在所述当前的训练模式为标准模式的情况下,获取所述神经网络模型提取的多个令牌;
根据所述多个令牌,建立所述标准损失函数;
基于所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
可选地,所述神经网络模型为多模态神经网络模型,所述多模态神经网络模型的输入包括多个模态的数据。
根据本公开实施例的第二方面,提供一种计算机设备,包括:存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现第一方面所述的提升模型鲁棒性的方法的步骤。
根据本公开实施例的第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的提升模型鲁棒性的方法的步骤。
根据本公开实施例的第四方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的提升模型鲁棒性的方法的步骤。
本公开实施例具有以下有益效果:在基于标准损失函数对模型进行训练的同时,还根据神经网络模型提取的多个令牌中的离群值,建立鲁棒损失函数,并基于鲁棒损失函数对神经网络模型进行训练。其中,鲁棒损失函数可以实现对离群值的抑制,而离群值通常是噪声,因此,基于鲁棒损失函数对神经网络模型进行训练,可以提升神经网络模型的抗噪声能力和抗干扰能力,从而提升神经网络模型的鲁棒性。此外,因为鲁棒损失函数仅仅是作用于神经网络模型的训练阶段,而对神经网络模型的推理阶段并没有进行改动,并且对标准损失函数没有进行改动,因此,对神经网络模型的性能和泛化能力造成的影响较小。
附图说明
为了更清楚地说明本公开实施例的技术方案,下面将对本公开实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本公开实施例中神经网络模型的结构示意图;
图2是本公开实施例中神经网络的示意图;
图3是本公开实施例中多模态信息的示意图;
图4是本公开实施例中一种提升模型鲁棒性的方法的步骤示意图;
图5是本公开实施例中确定训练模式的流程示意图;
图6是本公开实施例中不同训练模式的神经网络模型的鲁棒性得分的示意图;
图7是本公开实施例示出的一种提升模型鲁棒性的装置的框图;
图8是本公开实施例示出的计算机设备的示意图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
相关技术提出的提升模型的鲁棒性的方法包括:通过将掺有噪声的样本作为训练数据,将模型中的敏感神经元挑选出来并针对对抗样本进行微调,使用多个子模型训练并从中挑选对抗样本作为新子模型的训练集进行微调,以及使用特定任务的决策边界来促使鲁棒模型和自然模型对齐等方法。上述方法要么是对抗训练的改良版,要么是引入了多套模型,对抗训练会导致模型的性能和泛化能力降低,引入多套模型会导致模型训练过程复杂。此外,上述方法大部分都是针对计算机视觉模型,而针对语言模型的鲁棒性方案较少。
本公开实施例提出的提升模型鲁棒性的方法中针对的神经网络模型,不仅仅可以是计算机视觉模型,还可以是语言模型,或其他人工神经网络模型。可选地,本公开实施例中的神经网络模型可以是大语言模型(Large Language Model,LLM),大语言模型是指参数量很大、通常参数量超过10亿量级的模型。得益于庞大的参数和训练数据,大语言模型具有很强的泛化能力,能够处理各种自然语言处理任务。
本公开实施例中的神经网络模型,在不同的应用场景可以有不同用途,所述神经网络模型的用途包括但不限于以下任意一项或多项:图像处理、自然语言处理、目标推荐、结果预测和图像生成。例如,在进行图像识别任务时,神经网络模型可以用于进行图像分类;在进行问答任务时,神经网络模型可以用于进行自然语言处理;在确定向用户推送的下一视频时,神经网络模型可以用于进行视频推荐;在判断机器是否发生故障时,神经网络模型可以用于进行机器状态预测;在智能绘画领域,神经网络模型可以用于图像生成。
图1是本公开实施例中神经网络模型的结构示意图,该结构示意图示出了神经网络模型简化后的结构。神经网络模型包括编码器和解码器,编码器可以对模型输入进行编码,得到vector(向量),解码器对向量进行解码,得到模型输出。编码器和解码器的本质是神经网络,图2是本公开实施例中神经网络的示意图,图2中每一根线对应一个权重参数。神经网络可以理解语言文本的含义,生成自然语言等任务,完成对人类语言的理解和回应。神经网络主要基于Transformer(转换器)结构。
本公开实施例中的神经网络模型可以为多模态神经网络模型,多模态神经网络模型的输入包括多个模态的数据,例如,多模态神经网络模型的输入可以为图像、音频、文本等各个模态的数据或它们的组合。多模态神经网络模型针对输入的不同模态的数据,可以按照对应模态的编码器,将不同模态的数据转换为向量。相应地,多模态神经网络模型的输出也可以是图像、音频、文本等各个模态的数据或它们的组合。
多模态信息指的是多种模态的信息,如图3所示,多模态信息包括但不限于:文本、图像、视频、音频等。多模态神经网络模型就是用于处理包含语言(文本/语音)信息和至少一种其他模态信息的模型。多模态神经网络模型可以对多个模态的信息进行跨模态查询和匹配,并针对不同模态的信息,可以提取出该模态的信息的特征。本公开实施例提出的提升神经网络模型鲁棒性的方法,不仅可用于提升纯粹的神经网络模型的鲁棒性,也可用于提升多模态神经网络模型的鲁棒性。
本公开实施例提供的提升神经网络模型鲁棒性的方法可以由终端、服务器等计算机设备实现。服务器可以为单台服务器、服务器集群、云端服务器或云端服务器集群等。所述服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。所述终端可以为智能手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑(Personal Computer,PC)等设备。
图4是本公开实施例中一种提升模型鲁棒性的方法的步骤示意图,如图4所示,所述提升模型鲁棒性的方法包括步骤S11~步骤S14。
在步骤S11中,获取神经网络模型提取的多个令牌中的离群值。
令牌(token)又称为符号或标记。在神经网络模型中,token可以被理解为文本中的最小单位。在英文中,一个token可以是一个单词,也可以是一个标点符号;在中文中,通常以字或词作为token。神经网络模型将输入数据拆分成一个个token,使神经网络模型能够对其进行处理和理解。对于模型而言,token是一种数字化的表示形式。每个token都与一个唯一的数字ID(identification,标识符)相关联,模型通过这些ID来区分不同的token。在训练过程中,模型学习了将文本映射到这些数字ID的方法,以便能够对新的文本进行编码和解码。神经网络模型针对输入的各种模态的训练样本,可以将输入的训练样本转换为多个令牌,进而基于多个令牌进行预测。
离群值(Outliers)是指在一个数据集中与其他数据点明显不同或偏离常规模式的数据点,离群值通常是由于噪声和干扰等情况引起的。离群值的存在可能会对神经网络模型的预测产生影响,因为离群值的出现可能扰乱数据的分布和模式。在某些情况下,离群值可能是有意义的,例如在异常检测或异常事件分析中,离群值可能是重要的信号。然而,在其他情况下,离群值可能是数据收集或测量过程中的错误或异常情况。
可选地,可以通过计算多个令牌中两两令牌的相似度,将与任意令牌的相似度都小于相似度阈值的令牌,确定为离群值。
可选地,可以通过对多个令牌进行聚类,从而确定所述神经网络模型提取的多个令牌中的离群值。具体地,将训练样本输入所述神经网络模型,得到所述神经网络模型提取的所述多个令牌;将所述多个令牌进行聚类,得到多个类;将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的类是一组数据对象的集合,这些对象与同一个类中的对象彼此相似,与其他类中的对象相异。可选地,可以采用K-means(一种基于距离度量的聚类算法)聚类方法、层次聚类方法和DBSCAN(Density-Based Spatial Clustering of Applications withNoise,基于密度的含噪声应用空间聚类)方法等聚类方法,对多个令牌进行聚类,从而得到多个类。
K-means聚类方法将数据集划分为K个不重叠的簇,每个簇代表一个聚类中心,该中心是簇内数据点的平均值,K为正整数。K-means 的目标是最小化数据点与所属簇中心之间的平方距离之和。层次聚类方法是一种基于树形结构的聚类方法,通过逐步合并或分割数据点来构建聚类层次。层次聚类方法可以分为两类:凝聚层次聚类和分裂层次聚类。凝聚层次聚类从单个数据点开始,逐步合并最相似的数据点或簇,形成较大的簇。分裂层次聚类从所有数据点或整个数据集开始,逐步将其分割为较小的簇。DBSCAN方法将聚类定义为高密度区域之间的低密度区域,可以基于数据点周围的密度来确定聚类,根据数据点的邻域密度将其分类为核心点、边界点或噪音点。
因为离群值是指在一个数据集中与其他数据点明显不同或偏离常规模式的数据点,一个类中的令牌是相似度高于相似度阈值的令牌,因此,在对多个令牌进行聚类后,可以将不属于任一类的令牌,确定为神经网络模型提取的多个令牌的离群值。
可选地,作为一个实施例,所述将所述多个令牌进行聚类,得到多个类,可以包括:获取多个预设类中心;计算每一所述令牌与每一所述预设类中心的相似度;针对每一所述令牌,将与令牌的相似度高于相似度阈值的多个预设类中心中,相似度最高的预设类中心,确定为所述令牌对应的类中心;将所述令牌,划分到所述令牌对应的预设类中心所属的类中,得到所述多个类。
可以预设k个类中心,k为正整数,预设类中心可以是根据训练样本的类别确定的。可以通过计算令牌和预设类中心的余弦距离或欧式距离,从而确定令牌和预设类中心的相似度。每个预设类中心属于一个类,有k个预设类中心,因此存在k个类。将与令牌的相似度高于相似度阈值的预设类中心,确定为该令牌的候选类中心;将候选类中心中,与令牌的相似度最高的候选类中心,确定为令牌对应的类中心;将令牌对应的类中心所属的类,确定为令牌所属的类。一个令牌若与各个预设类中心的相似度都不高于相似度阈值,则该令牌为不属于任一类的离群值。相似度阈值可以根据实际需求进行设置。
在这种情况下,类的数量是固定的,类的数量为k;且在聚类过程中,将各个类的类中心视为不会发生改变。采用本公开实施例的技术方案,因为各个类的类中心视为不会发生改变,因此可以并行计算各个令牌与各个类中心的相似度,从而方便快捷地完成对多个令牌进行聚类,以及可以方便快捷地确定多个令牌中的离群值。
可选地,作为一个实施例,所述将所述多个令牌进行聚类,得到多个类,可以包括:获取多个预设类中心;将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心,并将所述待聚类令牌划分到所述类中心所属的类中;根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;将所述更新后的预设类中心确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度。
可以预设k个类中心,k为正整数,预设类中心可以是根据训练样本的类别确定的,也可以为随机值。每次将未进行聚类的任一令牌,确定为待聚类令牌,并计算待聚类令牌与每一所述预设类中心的相似度;可以通过计算待聚类令牌和预设类中心的余弦距离或欧式距离,从而确定待聚类令牌和预设类中心的相似度。
将与待聚类令牌的相似度高于相似度阈值的预设类中心,确定为该待聚类令牌的候选类中心;将候选类中心中,与待聚类令牌的相似度最高的候选类中心,确定为待聚类令牌对应的类中心;将待聚类令牌对应的类中心所属的类,确定为待聚类令牌所属的类。一个待聚类令牌若与各个预设类中心的相似度都不高于相似度阈值,则该待聚类令牌为不属于任一类的离群值。相似度阈值可以根据实际需求进行设置。
在每次确定一个待聚类令牌所属的预设类中心之后,则根据待聚类令牌对该预设类中心进行更新。可以是将待聚类令牌与该预设类中心进行加权求和,得到更新后的预设类中心。在计算下一待聚类令牌与各个预设类中心的相似度以确定下一待聚类令牌所属的类时,则是计算下一待聚类令牌与各个更新后的预设类中心的相似度。直到将每个令牌划分到所属的类或者将令牌确定为离群值后,则停止聚类,从而得到多个离群值。
在这种情况下,类的数量是固定的,类的数量为k;在聚类过程中,各个类的类中心会根据聚类的令牌发生改变。在类的中心不会发生改变的情况下,对预设类中心的要求较高,在预设类中心不准确的情况下,聚类结果的准确性也不高。本公开实施例的技术方案,类中心会根据聚类的令牌发生改变,相较于类中心不会发生改变的技术方案,聚类结果的准确度更高。
可选地,作为一个实施例,所述将所述多个令牌进行聚类,得到多个类,可以包括:获取多个预设类中心;将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心;根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;在所述待聚类令牌与任一所述预设类中心的相似度都不高于所述相似度阈值的情况下,根据所述待聚类令牌,生成新类,并获取所述新类的类中心;将所述更新后的预设类中心和/或所述新类的类中心,确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度。
可以预设k个类中心,k为正整数,k可以为2。预设类中心可以是根据训练样本的类别确定的,也可以是随机值。每次将未进行聚类的任一令牌,确定为待聚类令牌,并计算待聚类令牌与每一所述预设类中心的相似度;可以通过计算待聚类令牌和预设类中心的余弦距离或欧式距离,从而确定待聚类令牌和预设类中心的相似度。
将与待聚类令牌的相似度高于相似度阈值的预设类中心,确定为该待聚类令牌的候选类中心;将候选类中心中,与待聚类令牌的相似度最高的候选类中心,确定为待聚类令牌对应的类中心;将待聚类令牌对应的类中心所属的类,确定为待聚类令牌所属的类。在每次确定一个待聚类令牌所属的预设类中心之后,则根据待聚类令牌对该预设类中心进行更新。可以是将待聚类令牌与该预设类中心进行加权求和,得到更新后的预设类中心。
一个待聚类令牌若与各个预设类中心的相似度都不高于相似度阈值的情况下,可以根据该待聚类令牌生成新类,并将该待聚类令牌确定为所述新类的类中心。在计算下一待聚类令牌与各个预设类中心的相似度的时候,将新类的类中心也确定为需要与下一待聚类令牌计算相似度的预设类中心,从而判断下一待聚类令牌是否归属于该新类。
具体地,在计算下一待聚类令牌与各个预设类中心的相似度时,则是计算下一待聚类令牌与各个更新后的预设类中心和新类的类中心的相似度,从而确定下一待聚类令牌所属的类。直到将每个令牌划分到所属的类后,则停止聚类,得到多个类。
该实施例中,即使是与任一所述预设类中心的相似度都不高于所述相似度阈值都会被划分到一个新类中,因此,每个令牌都会被划分到一个类中,则不存在不属于任一类的令牌。因此,所述将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值,可以是:在对各个所述令牌进行聚类后,将包含的令牌数少于令牌数阈值的各个类中的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。其中,令牌数阈值可以根据实际需求进行设置。
在这种情况下,类的数量是不固定的,在聚类过程中,各个类的类中心也会根据聚类的令牌发生改变。在类的中心不会发生改变的情况下,对预设类中心的要求较高,在预设类中心不准确的情况下,聚类结果的准确性也不高。本公开实施例的技术方案,类中心会根据聚类的令牌发生改变,相较于类中心不会发生改变的技术方案,聚类结果的准确度更高,并且,因为类的数量不固定,因此更加灵活更加准确。
在上述技术方案的基础上,在对多个令牌进行聚类时,可以首先对多个令牌进行筛选。将所述多个令牌中,属于预设采样令牌的,确定为目标令牌;所述预设采样令牌为对所述神经网络模型的影响力大于影响力阈值的令牌;对多个所述目标令牌进行聚类,得到所述多个类。
神经网络模型对神经网络模型字典中的每一个token的输出都有一个预测,但排在后面的token的概率很低,也没有价值,因此可以预设采样令牌数m,神经网络模型只针对前m个token进行预测。预设采样令牌为神经网络模型字典中概率排在前列的多个令牌,预设采样令牌为对所述神经网络模型的影响力大于影响力阈值的令牌。预设采样令牌可以是根据经验确定的。
因为无论是否为离群值,排在后列的令牌对神经网络模型的影响也不大。因此在确定离群值时,可以直接将不为预设采样令牌的令牌进行剔除,仅保留对所述神经网络模型的影响力大于影响力阈值的目标令牌,然后对多个目标令牌进行聚类,进而确定离群值。
采用本公开实施例的技术方案,可以有效降低进行聚类时的计算量,以及后续建立损失函数的计算量,从而加快对神经网络模型进行鲁棒训练的速度。
在步骤S12中,根据所述离群值,建立鲁棒损失函数。
损失函数(loss function)是用来度量神经网络模型的预测值与真实值/>的差异程度的运算函数,通常使用/>来表示,损失函数越小,神经网络模型的性能就越好。损失函数使用主要是在神经网络模型的训练阶段,每个批次的训练样本输入神经网络模型后,通过前向传播输出预测值,然后损失函数会计算出预测值和真实值之间的差异值,也就是损失值。得到损失值之后,神经网络模型通过反向传播去更新各个参数,来降低真实值与预测值之间的损失,使得神经网络模型生成的预测值往真实值方向靠拢,从而达到学习的目的。
可选地,可以按照如下公式确定所述鲁棒损失函数:
;
其中,表征所述鲁棒损失函数,/>表征离群值/>的热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。鲁棒损失函数用于抑制所述离群值。
在步骤S13中,根据所述多个令牌,建立标准损失函数。
标准损失函数可以为主流的交叉熵损失函数或均方差损失函数等。
交叉熵是信息论中的一个概念,最初用于估算平均编码长度,引入机器学习后,用于评估当前训练得到的概率分布与真实分布的差异情况。交叉熵损失函数刻画了实际输出概率与期望输出概率之间的相似度,也就是交叉熵的值越小,两个概率分布就越接近,特别是在正负样本不均衡的分类问题中,常用交叉熵作为损失函数。交叉熵损失函数可以用于多类别分类任务,如图像分类、自然语言处理中的情感分析等。
均方差损失函数常用于回归问题,衡量了模型预测值与真实值之间的差异性。均方差损失函数通过计算预测值与真实值之间的差的平方来衡量损失。均方差损失函数在训练过程中追求最小化预测值与真实值之间的欧氏距离,适用于许多回归任务,如资源预测、连续变量预测等。
在标准损失函数为交叉熵损失函数的情况下,可以按照如下公式确定所述标准损失函数:
;/>
其中,表征所述标准损失函数,/>表征令牌/>的独热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
在标准损失函数为均方差损失函数的情况下,可以按照如下公式确定所述标准损失函数:
;
其中,表征所述标准损失函数,/>表征令牌/>的真实值,/>表征令牌/>的预测的值,/>表征求和。
在步骤S14中,基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
将所述鲁棒损失函数和所述标准损失函数之和确定为总损失函数,基于总损失函数对神经网络模型的参数进行更新,直到达到指定训练轮数,或者直到神经网络模型的参数变化量低于收敛阈值,得到当前训练轮次训练好的所述神经网络模型。
采用本公开实施例的技术方案,在基于标准损失函数对模型进行训练的同时,还根据神经网络模型提取的多个令牌中的离群值,建立鲁棒损失函数,并基于鲁棒损失函数对神经网络模型进行训练。其中,鲁棒损失函数可以实现对离群值的抑制,而离群值通常是噪声,因此,基于鲁棒损失函数对神经网络模型进行训练,可以提升神经网络模型的抗噪声能力和抗干扰能力,从而提升神经网络模型的鲁棒性。此外,因为鲁棒损失函数仅仅是作用于神经网络模型的训练阶段,而对神经网络模型的推理阶段并没有进行改动,并且对标准损失函数没有进行改动,因此,对神经网络模型的性能和泛化能力造成的影响较小。
相关技术基于离群值提升模型鲁棒性的方法,是直接降低离群值的权重或者去除离群值(去除离群值可以视为将离群值的权重设置为0),然后基于降低权重后的离群值对模型进行训练。例如,相关技术可以按照如下公式确定损失函数:
;
其中,为相关技术中的损失函数,/>表征非离群值的令牌,/>表征非离群值的令牌/>的独热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,表征所述神经网络模型对应的函数,/>表征离群值的权重,/>表征离群值,/>表征加权后的离群值的独热编码,/>表征软最大化。
相关技术中的损失函数,需要对神经网络模型本身进行调整,具体地,在确定损失函数的时候,需要挑出离群值,基于离群值和非离群值都建立标准损失函数(可以为交叉熵损失函数、均方差损失函数或其他损失函数),不过其中基于离群值建立的标准损失函数中的离群值,是经过加权的离群值。
本公开实施例的技术方案,仅仅将离群值作用于鲁棒损失函数,而对基于各个令牌(包括离群值和非离群值)建立的标准损失函数不做改动。只需要在原本的标准损失函数的基础上,增加一个鲁棒损失函数即可。在离群值只作用于鲁棒损失函数的情况下,离群值依然会通过标准损失函数正常参与神经网络模型的训练。
直接去除离群值或降低离群值的权重,会丢失或减弱离群值的特征,而离群值的判断可能不准确,在离群值的判断不准确的情况下,所谓的离群值实际是正常的令牌,而直接去除所谓的离群值或降低所谓的离群值的权重,会导致丢失或减弱正常的令牌的特征,从而影响神经网络模型的训练结果。此外,不直接去除离群值,对神经网络模型的改动较小,更加通用。因此,采用本公开实施例的技术方案,具有成本较低、对神经网络模型的训练速率不造成显著影响的优点。
在上述技术方案的基础上,神经网络模型的训练模式可以包括鲁棒模式和标准模式。在鲁棒模式下,神经网络模型基于鲁棒损失函数和标准损失函数对神经网络模型进行鲁棒训练,鲁棒训练可以提升神经网络模型的鲁棒性。在标准模式下,神经网络模型基于标准损失函数对神经网络模型进行标准训练。在神经网络模型处于标准模式时,神经网络模型的鲁棒性较好,因此进行标准训练即可。然而,在神经网络模型处于标准模式时,也可以对神经网络模型进行鲁棒训练,只是对鲁棒模式的神经网络模型进行鲁棒训练,鲁棒性的提升效果,优于对标准模式的神经网络模型进行鲁棒训练造成的鲁棒性的提升效果。因此,为了节省计算资源,可以确定神经网络模型当前的训练模式,在神经网络模型当前的训练模式为鲁棒模式的情况下,才获取离群值建立鲁棒损失函数进行鲁棒训练。
在上述技术方案的基础上,可以直接无需判断神经网络模型的鲁棒性得分,而直接在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度高于复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式,以及直接在所述神经网络模型处于所述微调阶段的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度不高于所述复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为标准模式。
可选地,如图5所示的确定训练模式的流程示意图,确定神经网络模型当前的训练模式可以包括:获取所述神经网络模型所处的训练阶段;所述训练阶段包括预训练阶段和微调阶段;在所述神经网络模型处于所述预训练阶段的情况下,获取所述神经网络模型的复杂度;在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度高于复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度不高于所述复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为标准模式;在所述神经网络模型处于所述微调阶段的情况下,获取所述神经网络模型的鲁棒性得分;在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分不低于所述鲁棒性阈值的情况下,结束对所述神经网络模型的训练。
预训练的目标是通过在一个相关但较大的任务上训练模型,使得模型学习到通用的特征表示。这样的预训练模型在其他具体任务上的表现通常更好,因为它已经学习到了普适的特征。预训练的好处在于,基于大规模的样本数据集进行训练,使模型可以学习到更泛化的特征表示,从而在具体任务上表现更好。这对于数据较少的任务或者计算资源有限的情况下特别有用。预训练的模型也经常用于迁移学习,可以将预训练模型的部分或全部用于新的任务,以提高模型的性能。微调是指基于预训练后的模型,在少量、重要的样本数据(如特殊场景下的数据)下进一步对模型进行训练,从而微调模型的参数。预训练可以让模型获得一些通用能力,微调可以让模型获得某些专业领域的能力。
可以直接确定神经网络模型处于预训练阶段还是微调阶段,也可以通过训练神经网络模型的样本数量进行确定,在样本数量较多时处于预训练阶段,样本数量较少时处于微调阶段。
在神经网络模型处于预训练阶段的情况下,可以通过神经网络模型的复杂度,确定神经网络模型当前的训练模式,在神经网络模型的复杂度高于复杂度阈值的情况下,确定神经网络模型当前的训练模式为鲁棒模式;在神经网络模型的复杂度不高于复杂度阈值的情况下,确定神经网络模型当前的训练模式为标准模式。
神经网络模型的复杂度的确定方法可以包括:获取所述神经网络模型的多个超参数,以及获取所述神经网络模型的聚类中心数;所述超参数包括以下任意一项或多项:所述神经网络模型的模态数、输入向量的维数、神经网络模型字典中的令牌数和预设采样令牌数;根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度。
神经网络模型字典是指在神经网络模型中使用的词汇表或单词列表。字典通常包含了大量的单词和短语,用于训练和验证神经网络模型。这些单词可以是从大规模文本语料库中提取的,也可以是手动构建的。神经网络模型字典和token之间存在密切的关系。在神经网络模型中,文本通常被分割成小的单元,这些单元被称为token。一个token可以是一个单词、一个字符、一个子词或者一个特定的符号,具体取决于模型的设计和任务的需求。神经网络模型字典包含了用于训练和预测的所有可能的token。当输入一段文本给神经网络模型时,模型会将文本中的每个词或字符映射到字典中对应的token。这样,模型可以根据已经观察到的token序列来预测下一个可能的token,从而生成连续的文本或完成其他语言相关的任务。字典中的每个token都有一个唯一的标识符或索引,用于在模型中进行处理和查找。这些标识符可以是整数,它们被用作模型的输入和输出表示。通过使用字典和token,神经网络模型可以学习到不同token之间的相关性和语言规律,从而生成具有语义和语法正确性的文本。神经网络模型字典是为了构建和训练神经网络模型而创建的包含所有可能的token的集合。通过使用字典中的token,神经网络模型可以理解和生成自然语言文本。神经网络模型字典中的token(令牌)可以直接基于神经网络模型字典预先获取。
神经网络模型对神经网络模型字典中的每一个token的输出都有一个预测,但排在后面的token的概率很低,也没有价值,因此可以预设采样令牌数m,神经网络模型只针对前m个token进行预测。预设采样令牌数为神经网络模型的超参数,可以直接获取得到。
神经网络模型的模态数是指神经网络模型接受的输入数据的不同模态的数量。输入向量的维数是指神经网络模型的编码器或解码器输入向量的维数。
如前文所述,神经网络模型的聚类中心数可以是固定不变的,也可以是会发生变化的。在神经网络模型的聚类中心数固定不变的情况下,可以直接获取到神经网络模型的聚类中心数。在神经网络模型的聚类中心数会发生变化的情况下,因为还未进行当次训练,所以无法得知当次训练时神经网络模型的聚类中心数,因此可以基于上一次训练时神经网络模型的聚类中心数,确定神经网络模型的复杂度。在当次训练为第一次训练的情况下,不存在上一次训练,可以直接基于聚类中心数的初始化值,确定神经网络模型的复杂度,聚类中心数的初始化值可以根据实际需求进行设置。
可选地,可以获取所述神经网络模型的多个超参数的乘积;将所述乘积与所述神经网络模型的聚类中心数的商,确定为所述神经网络模型的复杂度。具体地,可以按照以下公式确定神经网络模型的复杂度:
;
其中,表征神经网络模型的复杂度,/>为神经网络模型的模态数,/>为输入向量的维数,/>为神经网络模型字典中的令牌数,/>为预设采样令牌数,/>为神经网络模型的聚类中心数。
可选地,也可以直接将神经网络模型的多个超参数和神经网络模型的聚类中心数的乘积,确定为神经网络模型的复杂度。
神经网络模型的复杂度越高,表征多个超参数的值越大。在神经网络模型的模态数、输入向量的维数、神经网络模型字典中的令牌数和预设采样令牌数等数值越大的情况下,神经网络模型越不稳定、鲁棒性越差。在神经网络模型的复杂度越高的情况下,越要对神经网络模型进行鲁棒性训练。因此,可以通过神经网络模型的复杂度和复杂度阈值的大小关系,确定神经网络模型的训练模式是否为鲁棒模式,在训练模式为鲁棒模式的情况下,则基于鲁棒损失函数对神经网络模型进行鲁棒训练。复杂度阈值可以是根据实验确定的,也可以是根据实际需求进行设置的。
作为一个实施例,神经网络模型的鲁棒性得分可以按照以下步骤确定:收集评估数据集,数据集中包含干扰、错误或噪声等,还包括神经网络模型的正常输入样本;将评估数据集输入神经网络模型,得到输入的各个评估数据对应的输出结果;根据输出结果确定神经网络模型的准确率和召回率等评估指标,其中还可以关注模型的输出是否合理、是否能够正确处理干扰或错误。对神经网络模型的评估指标进行统计分析,从而确定神经网络模型的鲁棒性得分。
也可以采用常用的神经网络模型评估方法,评估神经网络模型的鲁棒性,得到神经网络模型的鲁棒性得分,如Bertscore(语言表示模型评分)、BLEU(BilingualEvaluation Understudy,双语评测)、METEOR(Metric for Evaluation of Translationwith Explicit Ordering,自动机器翻译评估)和CIDEr(Consensus-based ImageDescription Evaluation,一致性评估)等方法。
可选地,可以按照如下公式确定神经网络模型的鲁棒性得分:
;
其中,表征所述神经网络模型的鲁棒性得分,/>表征噪声强度的种类,/>表征第/>种噪声强度,/>表征第/>种噪声强度的权重系数,/>表征第/>种噪声强度下的模型得分,/>表征无噪声下的模型得分。将多种噪声强度的噪声输入神经网络模型,得到神经网络模型在每种噪声强度下的准确率和召回率等评估指标,对神经网络模型的评估指标进行统计分析,从而确定神经网络模型的得分,进而确定神经网络模型的鲁棒性得分。
按照如上所述的确定神经网络模型的复杂度的方法和确定神经网络模型的鲁棒性得分的方法,则可以在确定神经网络模型所处的训练阶段之后,确定神经网络模型的训练模式。
在上述技术方案的基础上,所述基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型,可以包括:获取当前训练轮次的离群抑制系数;根据所述当前训练轮次的离群抑制系数,对所述鲁棒损失函数进行加权处理,得到加权鲁棒损失函数;根据所述加权鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到当前训练轮次训练好的所述神经网络模型。
可以按照如下公式确定总损失函数:
;
其中,为总损失函数,/>为离群抑制系数,/>为鲁棒损失函数,/>为标准损失函数。
可选地,可以预设一个离群抑制系数,基于离群抑制系数对鲁棒损失函数进行加权处理,得到加权鲁棒损失函数。离群抑制系数可以是根据实际需求,按照经验设置的。将所述加权鲁棒损失函数和所述标准损失函数之和,确定为总损失函数,基于总损失函数对神经网络模型的参数进行更新,直到达到指定训练轮数,或者直到神经网络模型的参数变化量低于收敛阈值,得到当前训练轮次训练好的所述神经网络模型。
可选地,当前训练轮次的离群抑制系数可以通过如下方法确定:获取所述神经网络模型的鲁棒性得分,以及获取上一训练轮次的离群抑制系数;根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数。
当前训练轮次还未对神经网络模型进行训练,因此当前的神经网络模型为上一训练轮次训练好的神经网络模型。获取上一训练轮次训练好的神经网络模型的鲁棒性得分,上一训练轮次训练好的神经网络模型的鲁棒性得分的确定方法可以参照前文。在不存在上一训练轮次训练好的神经网络模型的情况下,将上一训练轮次训练好的神经网络模型的鲁棒性得分确定为预设得分。
在不存在上一训练轮次的离群抑制系数的情况下,获取上一训练轮次的离群抑制系数,可以包括:对离群抑制系数进行初始化,将初始化后的离群抑制系数,确定为所述上一训练轮次的离群抑制系数。
所述根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数,可以包括:在所述上一训练轮次训练好的所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,增大所述上一训练轮次的离群抑制系数,得到所述当前训练轮次的离群抑制系数。
在上一训练轮次训练好的神经网络模型的鲁棒性得分高不低于鲁棒性阈值,且所述神经网络模型处于预训练阶段的情况下,可以直接将上一训练轮次的离群抑制系数确定为当前训练轮次的离群抑制系数,并基于当前训练轮次的离群抑制系数对神经网络模型继续进行训练,直到达到指定训练轮数,或者直到神经网络模型的参数变化量低于收敛阈值,得到当前训练轮次训练好的所述神经网络模型。
在上一训练轮次训练好的神经网络模型的鲁棒性得分高不低于鲁棒性阈值,且所述神经网络模型处于微调阶段的情况下,可以直接结束对神经网络模型的训练,并对神经网络模型进行部署。
所述增大所述上一训练轮次的离群抑制系数,可以包括:获取上一训练轮次训练好的所述神经网络模型的鲁棒性得分和所述鲁棒性阈值的差值;根据所述差值,确定离群抑制系数的增大量;根据所述离群抑制系数的增大量,增大所述上一训练轮次的离群抑制系数。
在需要增大上一训练轮次的离群抑制系数的情况下,可以设置固定的增大量,每次对上一训练轮次的离群抑制系数增大固定的增大量,得到当前训练轮次的离群抑制系数。
也可以根据上一训练轮次训练好的所述神经网络模型的鲁棒性得分和所述鲁棒性阈值的差值,确定离群抑制系数的增大量,其中,差值和增大量成正比。根据离群抑制系数的增大量,增大所述上一训练轮次的离群抑制系数,得到当前训练轮次的离群抑制系数。
如此,可以更加灵活且精确地确定当前训练轮次的离群抑制系数,进而对神经网络模型进行更加准确的鲁棒性训练。
在上述技术方案的基础上,在神经网络模型当前的训练模式为标准模式的情况下,则无需确定离群值并基于离群值构建鲁棒损失函数,而直接根据标准损失函数对神经网络模型进行训练即可。具体地,获取所述神经网络模型提取的多个令牌;根据所述多个令牌,建立所述标准损失函数;基于所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
构建标准损失函数的方法可以参照前文,在此不再赘述。基于标准损失函数对神经网络模型进行训练,直到达到指定训练轮数,或者直到神经网络模型的参数变化量低于收敛阈值,得到当前训练轮次训练好的所述神经网络模型。收敛阈值可以根据实际需求进行设置。
图6是本公开实施例中不同训练模式的神经网络模型的鲁棒性得分的示意图,可以看出,在不同噪声强度下,尽管基于不同预设类中心数k训练得到的神经网络模型的鲁棒性得分有所不同,但都高于相同噪声强度下进行标准训练的神经网络模型的鲁棒性得分。
本公开实施例的技术方案,通过鲁棒损失函数对离群值的抑制,使得神经网络模型被攻击成功的难度增加;通过在损失函数中引入离群值实现鲁棒性训练,对损失函数和反向传播训练的影响较小,对模型的训练速率不造成显著影响;在损失函数中引入离群值,对模型输出的多样性产生影响,但理论上对模型的最佳性能不产生(显著)影响。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开实施例并不受所描述的动作顺序的限制,因为依据本公开实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本公开实施例所必需的。
图7是本公开实施例示出的一种提升模型鲁棒性的装置的框图,参照图7,该装置包括离群获取模块、第一建立模块、第二建立模块和训练模块。其中:
离群获取模块,用于获取神经网络模型提取的多个令牌中的离群值;所述神经网络模型的用途包括但不限于以下任意一项或多项:图像处理、自然语言处理、目标推荐、结果预测和图像生成;
第一建立模块,用于根据所述离群值,建立鲁棒损失函数;所述鲁棒损失函数用于抑制所述离群值;
第二建立模块,用于根据所述多个令牌,建立标准损失函数;
训练模块,用于基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
可选地,在所述获取神经网络模型提取的多个令牌中的离群值之前,所述装置还包括:
模式确定模块,用于确定所述神经网络模型当前的训练模式;所述训练模式包括鲁棒模式和标准模式;
所述离群获取模块具体用于执行:
在所述当前的训练模式为鲁棒模式的情况下,获取所述神经网络模型提取的所述多个令牌中的离群值。
可选地,所述模式确定模块具体用于执行:
获取所述神经网络模型所处的训练阶段;所述训练阶段包括预训练阶段和微调阶段;
在所述神经网络模型处于所述预训练阶段的情况下,获取所述神经网络模型的复杂度;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度高于复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度不高于所述复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为标准模式;
在所述神经网络模型处于所述微调阶段的情况下,获取所述神经网络模型的鲁棒性得分;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分不低于所述鲁棒性阈值的情况下,结束对所述神经网络模型的训练。
可选地,所述获取所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数,以及获取所述神经网络模型的聚类中心数;所述超参数包括以下任意一项或多项:所述神经网络模型的模态数、输入向量的维数、神经网络模型字典中的令牌数和预设采样令牌数;
根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度。
可选地,所述根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数的乘积;
将所述乘积与所述神经网络模型的聚类中心数的商,确定为所述神经网络模型的复杂度。
可选地,所述获取所述神经网络模型的鲁棒性得分,包括:
根据以下公式确定所述神经网络模型的鲁棒性得分:
;
其中,表征所述神经网络模型的鲁棒性得分,/>表征噪声强度的种类,/>表征第/>种噪声强度,/>表征第/>种噪声强度的权重系数,/>表征第/>种噪声强度下的模型得分,/>表征无噪声下的模型得分。
可选地,所述离群获取模块具体用于执行:
将训练样本输入所述神经网络模型,得到所述神经网络模型提取的所述多个令牌;
将所述多个令牌进行聚类,得到多个类;
将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
计算每一所述令牌与每一所述预设类中心的相似度;
针对每一所述令牌,将与令牌的相似度高于相似度阈值的多个预设类中心中,相似度最高的预设类中心,确定为所述令牌对应的类中心;
将所述令牌,划分到所述令牌对应的预设类中心所属的类中,得到所述多个类。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心,并将所述待聚类令牌划分到所述类中心所属的类中;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
将所述更新后的预设类中心确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
在所述待聚类令牌与任一所述预设类中心的相似度都不高于所述相似度阈值的情况下,根据所述待聚类令牌,生成新类,并获取所述新类的类中心;
将所述更新后的预设类中心和/或所述新类的类中心,确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
所述将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值,包括:
将包含的令牌数少于令牌数阈值的各个类中的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
可选地,所述将所述多个令牌进行聚类,得到多个类,包括:
将所述多个令牌中,属于预设采样令牌的,确定为目标令牌;所述预设采样令牌为对所述神经网络模型的影响力大于影响力阈值的令牌;
对多个所述目标令牌进行聚类,得到所述多个类。
可选地,所述第一建立模块具体用于执行:
按照如下公式确定所述鲁棒损失函数:
;
其中,表征所述鲁棒损失函数,/>表征离群值/>的热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
可选地,所述第二建立模块具体用于执行:
按照如下公式确定所述标准损失函数:
;
其中,表征所述标准损失函数,/>表征令牌/>的独热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
可选地,所述训练模块具体用于执行:
获取当前训练轮次的离群抑制系数;
根据所述当前训练轮次的离群抑制系数,对所述鲁棒损失函数进行加权处理,得到加权鲁棒损失函数;
根据所述加权鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到当前训练轮次训练好的所述神经网络模型。
可选地,所述获取当前训练轮次的离群抑制系数,包括:
获取所述神经网络模型的鲁棒性得分,以及获取上一训练轮次的离群抑制系数;
根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数。
可选地,所述根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数,包括:
在所述上一训练轮次训练好的所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,增大所述上一训练轮次的离群抑制系数,得到所述当前训练轮次的离群抑制系数。
可选地,所述增大所述上一训练轮次的离群抑制系数,包括:
获取上一训练轮次训练好的所述神经网络模型的鲁棒性得分和所述鲁棒性阈值的差值;
根据所述差值,确定离群抑制系数的增大量;
根据所述离群抑制系数的增大量,增大所述上一训练轮次的离群抑制系数。
可选地,在不存在上一训练轮次的离群抑制系数的情况下,所述获取上一训练轮次的离群抑制系数,包括:
对离群抑制系数进行初始化,将初始化后的离群抑制系数,确定为所述上一训练轮次的离群抑制系数。
可选地,所述装置还包括:
令牌获取模块,用于在所述当前的训练模式为标准模式的情况下,获取所述神经网络模型提取的多个令牌;
第三建立模块,用于根据所述多个令牌,建立所述标准损失函数;
模型训练模块,用于基于所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
可选地,所述神经网络模型为多模态神经网络模型,所述多模态神经网络模型的输入包括多个模态的数据。
需要说明的是,装置实施例与方法实施例相近,故描述得较为简单,相关之处参见方法实施例即可。
本公开实施例还提供了一种计算机设备,参照图8,图8是本公开实施例示出的计算机设备的示意图。如图8所示,计算机设备100包括:存储器110和处理器120,存储器110与处理器120之间通过总线通信连接,存储器110中存储有计算机程序,该计算机程序可在处理器120上运行,进而实现本公开实施例公开的提升模型鲁棒性的方法中的步骤。
本公开实施例还提供了一种计算机可读存储介质,当所述计算机可读存储介质中的指令由计算机设备的处理器执行时,使得所述计算机设备能够执行如本公开实施例公开的提升模型鲁棒性的方法中的步骤。
本公开实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被计算机设备的处理器执行时,能够执行如本公开实施例公开的提升模型鲁棒性的方法中的步骤。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本公开实施例可提供为方法、装置或计算机程序产品。因此,本公开实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本公开实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开实施例是参照根据本公开实施例的方法、装置、计算机设备和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本公开实施例的部分实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本公开实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本公开所提供的一种提升模型鲁棒性的方法、设备、存储介质及程序产品,进行了详细介绍,本文中应用了具体个例对本公开的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本公开的方法及其核心思想;同时,对于本领域的一般技术人员,依据本公开的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本公开的限制。
Claims (23)
1.一种提升模型鲁棒性的方法,其特征在于,所述方法包括:
获取神经网络模型提取的多个令牌中的离群值;所述神经网络模型的用途包括但不限于以下任意一项或多项:图像处理、自然语言处理、目标推荐、结果预测和图像生成;
根据所述离群值,建立鲁棒损失函数;所述鲁棒损失函数用于抑制所述离群值;
根据所述多个令牌,建立标准损失函数;
基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
2.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,在所述获取神经网络模型提取的多个令牌中的离群值之前,所述方法还包括:
确定所述神经网络模型当前的训练模式;所述训练模式包括鲁棒模式和标准模式;
所述获取神经网络模型提取的多个令牌中的离群值,包括:
在所述当前的训练模式为鲁棒模式的情况下,获取所述神经网络模型提取的所述多个令牌中的离群值。
3.根据权利要求2所述的提升模型鲁棒性的方法,其特征在于,所述确定所述神经网络模型当前的训练模式,包括:
获取所述神经网络模型所处的训练阶段;所述训练阶段包括预训练阶段和微调阶段;
在所述神经网络模型处于所述预训练阶段的情况下,获取所述神经网络模型的复杂度;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度高于复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述预训练阶段,且所述神经网络模型的复杂度不高于所述复杂度阈值的情况下,确定所述神经网络模型当前的训练模式为标准模式;
在所述神经网络模型处于所述微调阶段的情况下,获取所述神经网络模型的鲁棒性得分;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,确定所述神经网络模型当前的训练模式为鲁棒模式;
在所述神经网络模型处于所述微调阶段,且所述神经网络模型的鲁棒性得分不低于所述鲁棒性阈值的情况下,结束对所述神经网络模型的训练。
4.根据权利要求3所述的提升模型鲁棒性的方法,其特征在于,所述获取所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数,以及获取所述神经网络模型的聚类中心数;所述超参数包括以下任意一项或多项:所述神经网络模型的模态数、输入向量的维数、神经网络模型字典中的令牌数和预设采样令牌数;
根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度。
5.根据权利要求4所述的提升模型鲁棒性的方法,其特征在于,所述根据所述神经网络模型的多个超参数,以及所述神经网络模型的聚类中心数,确定所述神经网络模型的复杂度,包括:
获取所述神经网络模型的多个超参数的乘积;
将所述乘积与所述神经网络模型的聚类中心数的商,确定为所述神经网络模型的复杂度。
6.根据权利要求3所述的提升模型鲁棒性的方法,其特征在于,所述获取所述神经网络模型的鲁棒性得分,包括:
根据以下公式确定所述神经网络模型的鲁棒性得分:
;
其中,表征所述神经网络模型的鲁棒性得分,/>表征噪声强度的种类,/>表征第/>种噪声强度,/>表征第/>种噪声强度的权重系数,/>表征第/>种噪声强度下的模型得分,/>表征无噪声下的模型得分。
7.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,所述获取神经网络模型提取的多个令牌中的离群值,包括:
将训练样本输入所述神经网络模型,得到所述神经网络模型提取的所述多个令牌;
将所述多个令牌进行聚类,得到多个类;
将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
8.根据权利要求7所述的提升模型鲁棒性的方法,其特征在于,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
计算每一所述令牌与每一所述预设类中心的相似度;
针对每一所述令牌,将与令牌的相似度高于相似度阈值的多个预设类中心中,相似度最高的预设类中心,确定为所述令牌对应的类中心;
将所述令牌,划分到所述令牌对应的预设类中心所属的类中,得到所述多个类。
9.根据权利要求7所述的提升模型鲁棒性的方法,其特征在于,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心,并将所述待聚类令牌划分到所述类中心所属的类中;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
将所述更新后的预设类中心确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度。
10.根据权利要求7所述的提升模型鲁棒性的方法,其特征在于,所述将所述多个令牌进行聚类,得到多个类,包括:
获取多个预设类中心;
将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
将与所述待聚类令牌的相似度高于相似度阈值的预设类中心中,相似度最高的预设类中心,确定为所述待聚类令牌对应的类中心;
根据所述待聚类令牌对所述预设类中心进行更新,得到更新后的预设类中心;
在所述待聚类令牌与任一所述预设类中心的相似度都不高于所述相似度阈值的情况下,根据所述待聚类令牌,生成新类,并获取所述新类的类中心;
将所述更新后的预设类中心和/或所述新类的类中心,确定为所述预设类中心,并执行步骤:将未聚类的任一所述令牌,确定为待聚类令牌,并计算所述待聚类令牌与每一所述预设类中心的相似度;
所述将不属于任一所述类的令牌,确定为所述神经网络模型提取的多个令牌中的离群值,包括:
将包含的令牌数少于令牌数阈值的各个类中的令牌,确定为所述神经网络模型提取的多个令牌中的离群值。
11.根据权利要求7-10任一所述的提升模型鲁棒性的方法,其特征在于,所述将所述多个令牌进行聚类,得到多个类,包括:
将所述多个令牌中,属于预设采样令牌的,确定为目标令牌;所述预设采样令牌为对所述神经网络模型的影响力大于影响力阈值的令牌;
对多个所述目标令牌进行聚类,得到所述多个类。
12.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,所述根据所述离群值,建立鲁棒损失函数,包括:
按照如下公式确定所述鲁棒损失函数:
;
其中,表征所述鲁棒损失函数,/>表征离群值/>的热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
13.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,所述根据所述多个令牌,建立标准损失函数,包括:
按照如下公式确定所述标准损失函数:
;
其中,表征所述标准损失函数,/>表征令牌/>的独热编码,/>表征所述神经网络模型的待训练的参数,/>表征输入的训练样本,/>表征所述神经网络模型对应的函数,表征软最大化。
14.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,所述基于所述鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型,包括:
获取当前训练轮次的离群抑制系数;
根据所述当前训练轮次的离群抑制系数,对所述鲁棒损失函数进行加权处理,得到加权鲁棒损失函数;
根据所述加权鲁棒损失函数和所述标准损失函数,对所述神经网络模型进行训练,得到当前训练轮次训练好的所述神经网络模型。
15.根据权利要求14所述的提升模型鲁棒性的方法,其特征在于,所述获取当前训练轮次的离群抑制系数,包括:
获取所述神经网络模型的鲁棒性得分,以及获取上一训练轮次的离群抑制系数;
根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数。
16.根据权利要求15所述的提升模型鲁棒性的方法,其特征在于,所述根据所述神经网络模型的鲁棒性得分,对所述上一训练轮次的离群抑制系数进行调整,得到所述当前训练轮次的离群抑制系数,包括:
在所述上一训练轮次训练好的所述神经网络模型的鲁棒性得分低于鲁棒性阈值的情况下,增大所述上一训练轮次的离群抑制系数,得到所述当前训练轮次的离群抑制系数。
17.根据权利要求16所述的提升模型鲁棒性的方法,其特征在于,所述增大所述上一训练轮次的离群抑制系数,包括:
获取上一训练轮次训练好的所述神经网络模型的鲁棒性得分和所述鲁棒性阈值的差值;
根据所述差值,确定离群抑制系数的增大量;
根据所述离群抑制系数的增大量,增大所述上一训练轮次的离群抑制系数。
18.根据权利要求15所述的提升模型鲁棒性的方法,其特征在于,在不存在上一训练轮次的离群抑制系数的情况下,所述获取上一训练轮次的离群抑制系数,包括:
对离群抑制系数进行初始化,将初始化后的离群抑制系数,确定为所述上一训练轮次的离群抑制系数。
19.根据权利要求2所述的提升模型鲁棒性的方法,其特征在于,所述方法还包括:
在所述当前的训练模式为标准模式的情况下,获取所述神经网络模型提取的多个令牌;
根据所述多个令牌,建立所述标准损失函数;
基于所述标准损失函数,对所述神经网络模型进行训练,得到训练好的所述神经网络模型。
20.根据权利要求1所述的提升模型鲁棒性的方法,其特征在于,所述神经网络模型为多模态神经网络模型,所述多模态神经网络模型的输入包括多个模态的数据。
21.一种计算机设备,其特征在于,包括:存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-20任一所述的提升模型鲁棒性的方法的步骤。
22.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-20任一所述的提升模型鲁棒性的方法的步骤。
23.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-20任一所述的提升模型鲁棒性的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410525189.XA CN118095407A (zh) | 2024-04-29 | 2024-04-29 | 提升模型鲁棒性的方法、设备、存储介质及程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410525189.XA CN118095407A (zh) | 2024-04-29 | 2024-04-29 | 提升模型鲁棒性的方法、设备、存储介质及程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN118095407A true CN118095407A (zh) | 2024-05-28 |
Family
ID=91159817
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410525189.XA Pending CN118095407A (zh) | 2024-04-29 | 2024-04-29 | 提升模型鲁棒性的方法、设备、存储介质及程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN118095407A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418886A (zh) * | 2022-01-19 | 2022-04-29 | 电子科技大学 | 一种基于深度卷积自编码器的鲁棒性去噪方法 |
CN114610914A (zh) * | 2022-03-11 | 2022-06-10 | 北京百度网讯科技有限公司 | 一种信息处理方法、装置及电子设备 |
CN114821439A (zh) * | 2022-05-10 | 2022-07-29 | 合肥中聚源智能科技有限公司 | 一种基于令牌学习的人脸视频心率估计系统及方法 |
-
2024
- 2024-04-29 CN CN202410525189.XA patent/CN118095407A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418886A (zh) * | 2022-01-19 | 2022-04-29 | 电子科技大学 | 一种基于深度卷积自编码器的鲁棒性去噪方法 |
CN114610914A (zh) * | 2022-03-11 | 2022-06-10 | 北京百度网讯科技有限公司 | 一种信息处理方法、装置及电子设备 |
CN114821439A (zh) * | 2022-05-10 | 2022-07-29 | 合肥中聚源智能科技有限公司 | 一种基于令牌学习的人脸视频心率估计系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhang et al. | Discovering new intents with deep aligned clustering | |
CN108717408B (zh) | 一种敏感词实时监控方法、电子设备、存储介质及系统 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN113220886A (zh) | 文本分类方法、文本分类模型训练方法及相关设备 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN115408525B (zh) | 基于多层级标签的信访文本分类方法、装置、设备及介质 | |
CN111651985A (zh) | 一种用于中文分词的方法与装置 | |
CN113435208A (zh) | 学生模型的训练方法、装置及电子设备 | |
CN115801374A (zh) | 网络入侵数据分类方法、装置、电子设备及存储介质 | |
CN115130538A (zh) | 文本分类模型的训练方法、文本处理的方法、设备及介质 | |
Das et al. | Group incremental adaptive clustering based on neural network and rough set theory for crime report categorization | |
CN114444476B (zh) | 信息处理方法、装置和计算机可读存储介质 | |
CN116756303A (zh) | 一种多主题文本摘要自动生成方法及系统 | |
CN115994224A (zh) | 基于预训练语言模型的钓鱼url检测方法及系统 | |
CN114048290A (zh) | 一种文本分类方法及装置 | |
CN113178189A (zh) | 一种信息分类方法及装置、信息分类模型训练方法及装置 | |
CN115146021A (zh) | 文本检索匹配模型的训练方法、装置、电子设备及介质 | |
CN117521638A (zh) | 文本标签确定方法及装置 | |
CN116050419B (zh) | 一种面向科学文献知识实体的无监督识别方法及系统 | |
CN111859979A (zh) | 讽刺文本协同识别方法、装置、设备及计算机可读介质 | |
CN117033626A (zh) | 一种文本审核方法、装置、设备及存储介质 | |
CN118095407A (zh) | 提升模型鲁棒性的方法、设备、存储介质及程序产品 | |
CN115146589B (zh) | 文本处理方法、装置、介质以及电子设备 | |
CN115759043A (zh) | 一种文档级敏感信息检测模型训练及预测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |