CN113420841A - 有毒样本数据生成方法及装置 - Google Patents
有毒样本数据生成方法及装置 Download PDFInfo
- Publication number
- CN113420841A CN113420841A CN202110964929.6A CN202110964929A CN113420841A CN 113420841 A CN113420841 A CN 113420841A CN 202110964929 A CN202110964929 A CN 202110964929A CN 113420841 A CN113420841 A CN 113420841A
- Authority
- CN
- China
- Prior art keywords
- data set
- iteration
- toxic
- tumor
- parameter vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 231100000331 toxic Toxicity 0.000 title claims abstract description 177
- 230000002588 toxic effect Effects 0.000 title claims abstract description 177
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims abstract description 92
- 238000005457 optimization Methods 0.000 claims abstract description 44
- 238000012549 training Methods 0.000 claims abstract description 19
- 206010028980 Neoplasm Diseases 0.000 claims description 84
- 230000006870 function Effects 0.000 claims description 52
- 230000004044 response Effects 0.000 claims description 23
- 238000007477 logistic regression Methods 0.000 claims description 14
- 230000008569 process Effects 0.000 claims description 13
- 230000008859 change Effects 0.000 claims description 8
- 238000007781 pre-processing Methods 0.000 claims description 7
- 210000004881 tumor cell Anatomy 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000004590 computer program Methods 0.000 claims description 5
- 210000004027 cell Anatomy 0.000 description 18
- 206010006187 Breast cancer Diseases 0.000 description 16
- 208000026310 Breast neoplasm Diseases 0.000 description 16
- 210000004940 nucleus Anatomy 0.000 description 16
- 231100000614 poison Toxicity 0.000 description 12
- 230000007096 poisonous effect Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 10
- 108010077544 Chromatin Proteins 0.000 description 9
- 210000003483 chromatin Anatomy 0.000 description 9
- 210000002919 epithelial cell Anatomy 0.000 description 9
- 230000007123 defense Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000005553 drilling Methods 0.000 description 6
- 230000000394 mitotic effect Effects 0.000 description 5
- 241000700605 Viruses Species 0.000 description 4
- 230000011278 mitosis Effects 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 239000000853 adhesive Substances 0.000 description 2
- 230000001070 adhesive effect Effects 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 210000003855 cell nucleus Anatomy 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 230000003211 malignant effect Effects 0.000 description 2
- 230000017105 transposition Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Public Health (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本公开提供一种有毒样本数据生成方法、装置和电子设备;所述方法包括:生成平台基于分类器的训练的第一正常数据集,构建原始有毒数据集,作为第0次迭代的有毒数据集,以启动迭代;当迭代次数为0,将原始有毒数据集与第一正常数据集融合;当迭代次数大于0,将前一次迭代的有毒数据集与第一正常数据集融合;得到混合数据集,并继续迭代;基于损失函数,对混合数据集采取内层优化策略,得到分类器在本次迭代中的参数向量;采用预设的参数向量判定策略,决定是否结束迭代;当确定迭代结束时,将本次迭代的有毒数据集作为有毒样本数据;当迭代未结束时,基于建立的损失函数,以及参数向量,采取预设的外层优化策略,得到下一次迭代的有毒数据集。
Description
技术领域
本公开的实施例涉及网络攻防对抗样本生成技术领域,尤其涉及一种毒样本数据生成方法、装置和电子设备。
背景技术
基于逻辑回归模型函数的分类器在工业的应用十分广泛,例如在医疗系统中根据疾病的特征对疾病进行预测,以及在CTR(点击通过率)预估模型中进行预测等。
在上述领域中进行预测分类时,基于逻辑回归模型的分类器需要定期训练以更新模型,因此使网络攻击者可以利用有毒样本数据对合法模型的预测进行攻击,使合法模型预测的准确性大幅下降。
为了提高基于逻辑回归模型函数的分类器在进行预测时的安全性,需要一种有毒样本数据,可以在现实中的安全情况下,模拟网络攻击者对分类器的攻击行为,以实现网络攻防对抗的演练。
基于此,需要一种能够实现有毒样本数据生成的方案。
发明内容
有鉴于此,本公开的目的在于提出一种毒样本数据生成方法、装置和电子设备。
基于上述目的,本公开提供了有毒样本数据生成方法,包括:
生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动有毒数据集和肿瘤预测分类器的迭代。
进一步的,在迭代过程中,生成平台响应于确定本次迭代的迭代次数为0,将原始有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代;生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代。
进一步的,基于建立的损失函数,生成平台对混合数据集进行内层优化,得到肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束迭代。
进一步的,响应于确定迭代未结束,生成平台基于建立的损失函数,利用本次迭代中得到的参数向量,对预设的第二正常数据集和有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定迭代结束,将本次迭代中的有毒数据集作为有毒样本数据。
基于同一发明构思,本公开还提供了一种有毒样本数据生成装置,包括:初始化模块、预处理模块、内层优化模块和外层优化模块。
其中,初始化模块,被配置为:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动有毒数据集和肿瘤预测分类器的迭代。
预处理模块,被配置为:在迭代过程中,生成平台响应于确定本次迭代的迭代次数为0,将原始有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代;生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的有毒数据集与第一正常数据集融合,作为混合数据集,并继续本次迭代。
内层优化模块,被配置为:基于建立的损失函数,生成平台对混合数据集进行内层优化,得到肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束迭代。
外层优化模块,被配置为:响应于确定迭代未结束,生成平台基于建立的损失函数,利用本次迭代中得到的参数向量,对预设的第二正常数据集和有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定迭代结束,将本次迭代中的有毒数据集作为有毒样本数据。
基于同一发明构思,本公开还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现如上任意一项的有毒样本数据生成方法。
从上面所述可以看出,本公开提供的毒样本数据生成方法、装置和电子设备,基于肿瘤预测分类器对肿瘤性状的预测,综合考虑了正常数据集中肿瘤的各项特征,并根据肿瘤分类器对正常数据集的训练,具有针对性地构建有毒数据集;进而利用迭代思想对有毒数据集进行内层优化和外层优化,使其得能够在内层优化中有效获得损失函数达到最小化时的分类器参数向量,以及在外层优化中有效获得损失函数达到最大化时的有毒数据集特征值向量,从而有效、精准地构建能够匹配逻辑回归模型分类器的有毒样本数据,实现了在网络攻防演练中模拟真实对抗状态的效果。
附图说明
为了更清楚地说明本公开或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例的有毒样本数据生成方法的流程图;
图2为本公开实施例的有毒样本数据生成装置模块示意图;
图3为本公开实施例的迭代生成过程示意图;
图4为本公开实施例示的有毒样本数据应用示意图;
图5为本公开实施例示电子设备结构意图。
具体实施方式
为使本公开的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本公开进一步详细说明。
需要说明的是,除非另外定义,本公开的实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本公开的实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
如背景技术部分所述,现有的有毒样本数据还难以满足模拟网络对抗的需要。
申请人在实现本公开的过程中发现,现有的有毒样本数据生成方法存在的主要问题在于:在网络攻防对抗的演练中,现在有的有毒样本数据难以匹配针对相关分类器预测模型的攻击,尤其是基于逻辑回归模型的分类器;因此在逻辑回归模型的预测中,还无法模拟现实中,针对目标对象所对应数据集的网络攻击方法。
可以理解,该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。
以下,通过具体的实施例,并具体结合图1示出的有毒样本数据生成方法的流程图,来详细说明本公开的技术方法。
参考图1,本公开一个实施例的有毒样本数据生成方法,包括以下步骤:
步骤S101、生成平台基于肿瘤预测分类器所训练的第一正常数据集,概括性地,可以将肿瘤尺寸、肿瘤细胞特征和肿瘤类型等肿瘤特征作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代。
在本公开的实施例中,生成的有毒样本数据可以应用于如 : CTR(点击通过率)预估模型、医疗系统中疾病预测等领域的网络攻防演练,并作为重要的对抗样本, 提高相关系统对恶意攻击的抵抗能力。
在本公开中,以医疗系统中对乳腺癌的预测为例,说明本公开中生成扰乱乳腺癌肿瘤预测准确性的有毒样本数据的技术方法。
在本公开中,生成平台的分类器用于对乳腺癌肿瘤是否为恶性肿瘤或者良性肿瘤做出预测,具体的,可以将乳腺癌肿瘤的丛厚度、细胞大小均匀性、细胞形状均匀性、边际附着力、单独上皮细胞大小、裸细胞核、淡染色质、正常细胞核和有丝分裂状态等肿瘤特征作为第一正常数据集的各项的特征,并在第一正常数据集中,将各个特征量化为特征值表达。
进一步的,可以将各个特征值作为分类器的输入值,分类器将根据输入值对乳腺癌肿瘤做出预测,得到为0或1的输出值,也即分类器的分类结果;其中,0代表乳腺癌肿瘤为良性肿瘤,1代表乳腺癌肿瘤为恶性肿瘤。
在本公开中,生成平台首先利用如下的逻辑回归模型的函数作为分类器,对不包含任何病毒数据或错误数据的第一正常数据集进行分类预测的训练:
在分类器对第一正常数据集进行分类预测训练时,迭代次数为0,也即未开始进行
迭代,因此可以是分类器预有的参数向量;在本部分中,可以是第一正常数据集中
第k个数据对象所对应的各个第一特征值构成的特征值向量,也即反应了乳腺癌肿瘤的丛
厚度、细胞大小均匀性、细胞形状均匀性、边际附着力、单独上皮细胞大小、裸细胞核状态、
淡染色质状态、正常细胞核状态和有丝分裂状态等特征;可以是在第0次迭代中
与第一特征值所对应的分类器的第一分类结果。
进一步的,通过分类器对第一正常数据集的训练,基于输入的第一特征值,还可以得到第一正常数据集中第一特征值与第一分类结果之间的对应关系,该数学关系所表达的含义可以是,例如:在乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝分裂状态为λ时,分类器将肿瘤的性状预测为良性,也即分类结果为0。
进一步的,对第一特征值与第一分类结果之间的对应关系进行扭曲翻转,例如:在乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝分裂状态为λ时,将肿瘤的性状预测的结果定义为恶性,也即分类结果为1。
进一步的,构建包含了原始特征值和原始分类结果的原始有毒数据集,将第一特征值作为原始有毒数据集中的原始特征值,将扭曲翻转后的对应关系作为原始特征值与原始分类结果之间的对应关系。
其中,分类器所训练的第一正常数据集中含有数据对象的数量为M,并按照如下所示的公式,在有毒数据集中初始化构建N数据对象:
需要说明的是,根据公知常识,数据对象在本公开中的含义为在程序中被封装或被操作的数据或对象。
进一步的,构建原始有毒数据集后,生成平台可以启动对有毒数据集和分类器的迭代,其中,将构建的原始有毒数据集作为第0次迭代的有毒数据集。
步骤S102、在迭代过程中,所述生成平台响应于确定本次迭代的迭代次数为0,将所述原始有毒数据集与所述第一正常数据集融合,作为混合数据集,并继续本次迭代;所述生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的所述有毒数据集与所述第一正常数据集融合,作为所述混合数据集,并继续本次迭代。
在本公开的实施例中,如图3所示,在迭代过程中,首先将有毒数据集与第一正常数据集融合,得到混合数据集。
具体的,由生成平台分辨有毒数据集的迭代次数是否为第0次,也即是否为初次迭代。
进一步的,当有毒数据集处于第0次迭代时,生成平台将第一正常数据集与原始有毒数据集融合;当有毒数据集处于第i次迭代时,且i>0,则生成平台将第一正常数据集与前一次完成迭代更新的有毒数据集融合。
进一步的,将经过融合的数据集作为混合数据集,以继续本次迭代过程。
步骤S103、基于建立的损失函数,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代。
在本公开的实施例中,在有毒数据集和分类器的迭代中,首先进行内层优化环节,具体的,建立如下的损失函数L:
进一步的,对分类器进行训练,具体的,依照上述函数公式,对损失函数L进行最小
化的计算,获得第i次迭代中损失函数取得最小损失值时,分类器的参数,以更新该次迭代
中的分类器,并进一步利用该分类器的参数值构成第i次迭代的参数向量。
具体的,首先,采用如下参数公式获取参数b:
其中,mod[]表示以i为被除数,以N为除数,执行除法计算求解余数的函数;i表示迭代次数,N表示混合数据集中有毒的数据对象的个数。
进一步的,判断迭代次数i是否为0,也即是否为原始有毒数据集的首次迭代;若迭代次数i为0,则继续下一步的迭代操作;若迭代次数不为0,则继续判断参数b是否为0。
具体的,当差值向量中的各个差值均小于预设的溢出阈值向量时,可以判定差值向量小于预设的溢出阈值向量,并将本次迭代中的有毒数据集作为有毒样本数据,并结束迭代;若不小于,则继续下一步的迭代操作。
预设的溢出阈值向量可以根据实际情况和经验进行设置不同的值。
步骤S104、响应于确定所述迭代未结束,所述生成平台基于建立的所述损失函数,利用本次迭代中得到的所述参数向量,对预设的第二正常数据集和所述有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定所述迭代结束,将本次迭代中的所述有毒数据集作为有毒样本数据。
在本公开的实施例中,基于上述的参数向量判定策略,如图3所示,当判定迭代尚未结束时,建立第二正常数据集,以进行预设的外层优化策略。
其中,第二正常数据集可以预设为与第一正常数据集具备相同结构,且不包含任何有毒数据集。
进一步的,采取梯度上升算法,优化有毒数据集。
具体的,首先,基于获得的上述分类器的参数向量,针对第二正常数据集,计算代表了最大化损失函数L的损失函数梯度变化量,具体的,依照如下公式执行:
进一步的,采取链式法则计算分类器的参数向量对于有毒的数据集的隐性依赖。
其中,b为上述参数;T为向量的转置;表示在有毒数据集中,第b+1个有毒的数
据对象所对应的各类型特征的特征所构成的特征值向量,其中,各类型特征可以是例如前
述的:乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为
δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝
分裂状态为λ等。
进一步的,基于上述计算的损失函数梯度变化量和参数向量梯度变化量,在本次迭代中,捕捉所对应有毒数据集中第b+1个有毒的数据对象的特征梯度变化量,具体的,采取如下公式进行计算:
在本公开的实施例中,基于得到的本次迭代的上述特征梯度变化量,对本
次迭代所对应有毒数据集中的第b+1个有毒数据对象对应各类型特征的特征值更新,以构
成下一次迭代所对应的有毒数据集,也即第i+1次迭代所对应的有毒数据集,并用第i+1次
迭代所对应的有毒数据集替换在第i次迭代中分类器所对应的有毒数据集,并与第一正常
数据集进行融合,以更新混合数据集并继续下一步的迭代。
在本公开的实施例中,基于上述方法生成的有毒样本数据可以用于模拟演练网络中的数据攻防对抗,以观测对合法预测模型预测准确性的影响。
具体的,根据图4所示,在模型训练阶段,利用基于逻辑回归模型函数的分类器,对正常的训练样本进行逻辑回归训练,得到可以正确预测分类结果的合法模型,也即能够根据各个肿瘤的特征正确预测肿瘤性状的模型。
进一步的,按照图4示出的,利用基于逻辑回归模型函数的分类器,对上述得到的有毒样本数据,进行逻辑回归训练,得到无法正确预测分类结果的损坏模型,也即基于各个肿瘤的类型特征,而扭曲正确肿瘤性状结论的模型。
进一步的,在对新样本的预测过程中,令合法模型与损坏模型均介入新样本的预测过程,由于损坏模型的介入,将导致合法模型对新样本预测的准确性下降。
可见,本公开的实施例的毒样本数据生成方法、装置和电子设备,基于肿瘤预测分类器对肿瘤性状的预测,综合考虑了正常数据集中肿瘤的各项特征,并根据肿瘤分类器对正常数据集的训练,具有针对性地构建有毒数据集;进而利用迭代思想对有毒数据集进行内层优化和外层优化,使其得能够在内层优化中有效获得损失函数达到最小化时的分类器参数向量,以及在外层优化中有效获得损失函数达到最大化时的有毒数据集特征值向量,从而有效、精准地构建能够匹配逻辑回归模型分类器的有毒样本数据,实现了在网络攻防演练中模拟真实对抗状态的效果。
需要说明的是,本公开的实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本公开的实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本公开的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本公开的实施例还提供了一种有毒样本数据生成装置。
参考图2,所述有毒样本数据生成装置,包括:初始化模块、预处理模块、内层优化模块和外层优化模块;进一步的,其生成的有毒样本数据基于对乳腺癌肿瘤性状的预测。
其中,初始化模块201,被配置为:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代;
预处理模块202,被配置为:在迭代过程中,所述生成平台响应于确定本次迭代的迭代次数为0,将所述原始有毒数据集与所述第一正常数据集融合,作为混合数据集,并继续本次迭代;所述生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的所述有毒数据集与所述第一正常数据集融合,作为所述混合数据集,并继续本次迭代;
内层优化模块203,被配置为:基于建立的损失函数,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代;
外层优化模块204,被配置为:响应于确定所述迭代未结束,所述生成平台基于建立的所述损失函数,利用本次迭代中得到的所述参数向量,对预设的第二正常数据集和所述有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定所述迭代结束,将本次迭代中的所述有毒数据集作为有毒样本数据。
作为一个可选的实施例,所述初始化模块201,具体被配置为:生成平台首先利用如下的逻辑回归模型的函数作为分类器,对不包含任何病毒数据或错误数据的第一正常数据集进行分类预测的训练:
在分类器对第一正常数据集进行分类预测训练时,迭代次数为0,也即未开始进行
迭代,因此可以是分类器预有的参数向量;在本部分中,可以是第一正常数据集中
第k个数据对象所对应的各个第一特征值构成的特征值向量,也即反应了乳腺癌肿瘤的丛
厚度、细胞大小均匀性、细胞形状均匀性、边际附着力、单独上皮细胞大小、裸细胞核状态、
淡染色质状态、正常细胞核状态和有丝分裂状态等特征;可以是次迭代中与第一特
征值所对应的分类器的第一分类结果。
进一步的,通过分类器对第一正常数据集的训练,基于输入的第一特征值,还可以得到第一正常数据集中第一特征值与第一分类结果之间的对应关系,该数学关系所表达的含义可以是,例如:在乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝分裂状态为λ时,分类器将肿瘤的性状预测为良性。
进一步的,对第一特征值与第一分类结果之间的对应关系进行扭曲翻转,例如:在乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝分裂状态为λ时,将肿瘤的性状预测的结果定义为恶性。
进一步的,构建包含了原始特征值和原始分类结果的原始有毒数据集,将第一特征值作为原始有毒数据集中的原始特征值,将扭曲翻转后的对应关系作为原始特征值与原始分类结果之间的对应关系。
其中,分类器所训练的第一正常数据集中含有数据对象的数量为M,并按照如下所示的公式,在有毒数据集中初始化构建N数据对象:
需要说明的是,根据公知常识,数据对象在本公开中的含义为在程序中被封装或被操作的数据或对象。
进一步的,构建原始有毒数据集后,生成平台可以启动对有毒数据集和分类器的迭代,其中,将构建的原始有毒数据集作为第0次迭代的有毒数据集。
作为一个可选的实施例,所述预处理模块202,具体被配置为:如图3所示,在迭代过程中,首先将有毒数据集与第一正常数据集融合,得到混合数据集。
具体的,由生成平台分辨有毒数据集的迭代次数是否为第0次,也即是否为初次迭代。
进一步的,当有毒数据集处于第0次迭代时,生成平台将第一正常数据集与原始有毒数据集融合;当有毒数据集处于第i次迭代时,且i>0,则生成平台将第一正常数据集与前一次完成迭代更新的有毒数据集融合。
进一步的,将经过融合的数据集作为混合数据集,以继续本次迭代过程。
作为一个可选的实施例,所述内层优化模块203,具体被配置为:在有毒数据集和分类器的迭代中,首先进行内层优化环节,具体的,建立如下的损失函数L:
进一步的,对分类器进行训练,具体的,依照上述函数公式,对损失函数L进行最小
化的计算,获得第i次迭代中损失函数取得最小损失值时,分类器的参数,以更新该次迭代
中的分类器,并进一步利用该分类器的参数值构成第i次迭代的参数向量。
具体的,首先,采用如下参数公式获取参数b:
其中,mod[]表示以i为被除数,以N为除数,执行除法计算求解余数的函数;i表示迭代次数,N表示混合数据集中有毒的数据对象的个数。
进一步的,判断迭代次数i是否为0,也即是否为原始有毒数据集的首次迭代;若迭代次数i为0,则继续下一步的迭代操作;若迭代次数不为0,则继续判断参数b是否为0。
具体的,当差值向量中的各个差值均小于预设的溢出阈值向量时,可以判定差值向量小于预设的溢出阈值向量,并将本次迭代中的有毒数据集作为有毒样本数据,并结束迭代;若不小于,则继续下一步的迭代操作。
预设的溢出阈值向量可以根据实际情况和经验进行设置不同的值。
作为一个可选的实施例,所述外层优化模块204,具体被配置为:基于上述的参数向量判定策略,当判定迭代尚未结束时,建立第二正常数据集,以进行预设的外层优化策略。
其中,第二正常数据集可以预设为与第一正常数据集具备相同结构,且不包含任何有毒数据集。
进一步的,采取梯度上升算法,优化有毒数据集。
具体的,首先,基于获得的上述分类器的参数向量,针对第二正常数据集,计算代表了最大化损失函数L的损失函数梯度变化量,具体的,依照如下公式执行:
进一步的,采取链式法则计算分类器的参数向量对于有毒的数据集的隐性依赖。
其中,b为上述参数;T为向量的转置;表示在有毒数据集中,第b+1个有毒的数
据对象所对应的各类型特征的特征所构成的特征值向量,其中,各类型特征可以是例如前
述的:乳腺癌肿瘤的丛厚度为α、细胞大小均匀性为β、细胞形状均匀性为γ、边际附着力为
δ、单独上皮细胞大小为ε、裸细胞核状态为ζ、淡染色质状态为η、正常细胞核状态为θ和有丝
分裂状态为λ等。
进一步的,基于上述计算的损失函数梯度变化量和参数向量梯度变化量,在本次迭代中,捕捉所对应有毒数据集中第b+1个有毒的数据对象的特征梯度变化量,具体的,采取如下公式进行计算:
在本公开的实施例中,基于得到的本次迭代的上述特征梯度变化量,对本
次迭代所对应有毒数据集中的第b+1个有毒数据对象对应各类型特征的特征值更新,以构
成下一次迭代所对应的有毒数据集,也即第i+1次迭代所对应的有毒数据集,并用第i+1次
迭代所对应的有毒数据集替换在第i次迭代中分类器所对应的有毒数据集,并与第一正常
数据集进行融合,以更新混合数据集并继续下一步的迭代。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本公开的实施例时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的有毒样本数据生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本公开的实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上任意一实施例所述的有毒样本数据生成法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线 1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本公开实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本公开实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的装置用于实现前述任一实施例中相应的有毒样本数据生成方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本公开的范围(包括权利要求)被限于这些例子;在本公开的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本公开的实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本公开的实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本公开的实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本公开的实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本公开的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本公开的实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本公开的具体实施例对本公开进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本公开的实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本公开的实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (10)
1.一种有毒样本数据生成方法,包括:
生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代;
在迭代过程中,所述生成平台响应于确定本次迭代的迭代次数为0,将所述原始有毒数据集与所述第一正常数据集融合,作为混合数据集,并继续本次迭代;所述生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的所述有毒数据集与所述第一正常数据集融合,作为所述混合数据集,并继续本次迭代;
基于建立的损失函数,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代;
响应于确定所述迭代未结束,所述生成平台基于建立的所述损失函数,利用本次迭代中得到的所述参数向量,对预设的第二正常数据集和所述有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定所述迭代结束,将本次迭代中的所述有毒数据集作为有毒样本数据。
2.根据权利要求1所述的方法,其中,所述构建原始有毒数据集,包括:
利用所述肿瘤预测分类器对所述第一正常数据集进行训练,得到与所述第一正常数据集中输入的各个第一特征值所对应的第一分类结果;
对所述第一正常数据集中的所述第一特征值与所述第一分类结果之间的对应关系进行翻转扭曲,以构建原始有毒数据集中的原始特征值、原始分类结果及其之间的对应关系。
6.根据权利要求4所述的方法,其中,所述进行外层优化,包括:
建立与所述第一正常数据集结构相同,且不包含所述有毒数据集的所述第二正常数据集;
基于本次迭代所对应的所述肿瘤预测分类器,计算所述肿瘤预测分类器在所述第二正常数据集上的损失函数梯度变化量;
基于本次迭代所对应的所述肿瘤预测分类器,计算所述参数向量对所述有毒数据集的参数向量梯度变化量;
利用所述损失函数梯度变化量和所述参数向量梯度变化量,计算本次迭代所对应的所述有毒数据集的特征梯度变化量。
7.根据权利要求6所述的方法,其中,所述计算所述肿瘤预测分类器在所述第二正常数据集上的损失函数梯度变化量,包括:
采取如下公式,计算所述损失函数梯度变化量:
所述计算所述参数向量对所述有毒数据集的参数向量梯度变化量,包括:
采取如下公式,计算所述参数向量梯度变化量:
所述计算本次迭代所对应的所述有毒数据集的特征梯度变化,包括:
采取如下公式,计算所述特征梯度变化:
8.根据权利要求7所述的方法,其中,所述得到下一次迭代的有毒数据集,包括:
根据本次迭代所对应所述有毒数据集中所对应的所述特征梯度变化量,对本次迭代所对应有毒数据集中的特征值进行更新,以构成下一次迭代所对应的所述有毒数据集。
9.一种有毒数据样本生成装置,包括:初始化模块、预处理模块、内层优化模块和外层优化模块;
其中,所述初始化模块,被配置为:生成平台基于肿瘤预测分类器所训练的第一正常数据集,将肿瘤尺寸、肿瘤细胞特征和肿瘤类型作为所述第一正常数据集的各项特征,将肿瘤性状作为分类结果,以构建原始有毒数据集,并作为第0次迭代的有毒数据集,以启动所述有毒数据集和所述肿瘤预测分类器的迭代;
所述预处理模块,被配置为:在迭代过程中,所述生成平台响应于确定本次迭代的迭代次数为0,将所述原始有毒数据集与所述第一正常数据集融合,作为混合数据集,并继续本次迭代;所述生成平台响应于确定本次迭代的次数大于0,将前一次完成迭代的所述有毒数据集与所述第一正常数据集融合,作为所述混合数据集,并继续本次迭代;
所述内层优化模块,被配置为:基于建立的损失函数,所述生成平台对所述混合数据集进行内层优化,得到所述肿瘤预测分类器在本次迭代中的参数向量;采用参数向量判定策略,并根据迭代次数和参数值,决定是否结束所述迭代;
所述外层优化模块,被配置为:响应于确定所述迭代未结束,所述生成平台基于建立的所述损失函数,利用本次迭代中得到的所述参数向量,对预设的第二正常数据集和所述有毒数据集进行外层优化,得到下一次迭代的有毒数据集;响应于确定所述迭代结束,将本次迭代中的所述有毒数据集作为有毒样本数据。
10.一种电子设备,包括存储器、处理器及存储在所述存储器上并可由所述处理器执行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至8中任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964929.6A CN113420841B (zh) | 2021-08-23 | 2021-08-23 | 有毒样本数据生成方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110964929.6A CN113420841B (zh) | 2021-08-23 | 2021-08-23 | 有毒样本数据生成方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113420841A true CN113420841A (zh) | 2021-09-21 |
CN113420841B CN113420841B (zh) | 2021-12-14 |
Family
ID=77719125
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110964929.6A Active CN113420841B (zh) | 2021-08-23 | 2021-08-23 | 有毒样本数据生成方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113420841B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934462A (zh) * | 2017-02-09 | 2017-07-07 | 华南理工大学 | 基于迁移的对抗性环境下的防御毒化攻击的学习方法 |
CN110276377A (zh) * | 2019-05-17 | 2019-09-24 | 杭州电子科技大学 | 一种基于贝叶斯优化的对抗样本生成方法 |
CN110647918A (zh) * | 2019-08-26 | 2020-01-03 | 浙江工业大学 | 面向深度学习模型对抗攻击的拟态防御方法 |
US20200311558A1 (en) * | 2019-03-29 | 2020-10-01 | Peking University | Generative Adversarial Network-Based Optimization Method And Application |
CN112149609A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军空军工程大学 | 一种针对电能质量信号神经网络分类模型的黑盒对抗样本攻击方法 |
-
2021
- 2021-08-23 CN CN202110964929.6A patent/CN113420841B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106934462A (zh) * | 2017-02-09 | 2017-07-07 | 华南理工大学 | 基于迁移的对抗性环境下的防御毒化攻击的学习方法 |
US20200311558A1 (en) * | 2019-03-29 | 2020-10-01 | Peking University | Generative Adversarial Network-Based Optimization Method And Application |
CN110276377A (zh) * | 2019-05-17 | 2019-09-24 | 杭州电子科技大学 | 一种基于贝叶斯优化的对抗样本生成方法 |
CN110647918A (zh) * | 2019-08-26 | 2020-01-03 | 浙江工业大学 | 面向深度学习模型对抗攻击的拟态防御方法 |
CN112149609A (zh) * | 2020-10-09 | 2020-12-29 | 中国人民解放军空军工程大学 | 一种针对电能质量信号神经网络分类模型的黑盒对抗样本攻击方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113420841B (zh) | 2021-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6876801B2 (ja) | 処理対象のトランザクションに関するリスクを識別する方法、装置、及び電子機器 | |
JP6212217B2 (ja) | 機械学習における重みの生成 | |
US11978000B2 (en) | System and method for determining a decision-making strategy | |
JP2018097612A (ja) | 情報処理装置、プログラム及び情報処理方法 | |
CN106803039B (zh) | 一种恶意文件的同源判定方法及装置 | |
WO2021051556A1 (zh) | 深度学习权值更新方法、系统、计算机设备及存储介质 | |
CN109685805B (zh) | 一种图像分割方法及装置 | |
US11373760B2 (en) | False detection rate control with null-hypothesis | |
CN111967917B (zh) | 预测用户流失的方法以及设备 | |
CN112214775A (zh) | 对图数据的注入式攻击方法、装置、介质及电子设备 | |
CN112214402B (zh) | 一种代码验证算法的选择方法、装置及存储介质 | |
CN115330579B (zh) | 模型水印的构建方法、装置、设备及存储介质 | |
CN111461440B (zh) | 链路预测方法、系统及终端设备 | |
CN113965313A (zh) | 基于同态加密的模型训练方法、装置、设备以及存储介质 | |
CN114168318A (zh) | 存储释放模型的训练方法、存储释放方法及设备 | |
CN115577798A (zh) | 基于随机加速梯度下降的半联邦学习方法及装置 | |
CN111385601B (zh) | 一种视频审核的方法、系统及设备 | |
CN109960841B (zh) | 一种流体表面张力的仿真方法、终端设备及存储介质 | |
CN109388784A (zh) | 最小熵核密度估计器生成方法、装置和计算机可读存储介质 | |
CN113420841B (zh) | 有毒样本数据生成方法及装置 | |
CN111082922B (zh) | 一种区块链的数据处理方法及相关设备 | |
CN114550203B (zh) | 关节关键点的三维坐标的确定方法及其相关设备 | |
CN112766190B (zh) | 对抗样本生成方法、装置、存储介质及电子设备 | |
EP3764217A1 (en) | Arithmetic processing apparatus, control method, and control program | |
US20240232646A1 (en) | Learning apparatus, prediction apparatus, learning method, prediction method and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |