CN117153418B - 抗后门攻击的智能早产儿视网膜病变分类预测方法 - Google Patents
抗后门攻击的智能早产儿视网膜病变分类预测方法 Download PDFInfo
- Publication number
- CN117153418B CN117153418B CN202311421223.0A CN202311421223A CN117153418B CN 117153418 B CN117153418 B CN 117153418B CN 202311421223 A CN202311421223 A CN 202311421223A CN 117153418 B CN117153418 B CN 117153418B
- Authority
- CN
- China
- Prior art keywords
- model
- training
- sample
- classification prediction
- prediction model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 48
- 206010038933 Retinopathy of prematurity Diseases 0.000 title claims abstract description 24
- 238000012549 training Methods 0.000 claims abstract description 76
- 231100000572 poisoning Toxicity 0.000 claims abstract description 27
- 230000000607 poisoning effect Effects 0.000 claims abstract description 27
- QVFWZNCVPCJQOP-UHFFFAOYSA-N chloralodol Chemical compound CC(O)(C)CC(C)OC(O)C(Cl)(Cl)Cl QVFWZNCVPCJQOP-UHFFFAOYSA-N 0.000 claims abstract description 17
- 208000017442 Retinal disease Diseases 0.000 claims abstract description 15
- 206010038923 Retinopathy Diseases 0.000 claims abstract description 13
- 238000003745 diagnosis Methods 0.000 claims abstract description 11
- 230000002028 premature Effects 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 8
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 230000008569 process Effects 0.000 claims description 19
- 201000010099 disease Diseases 0.000 claims description 15
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 9
- 102100038612 Calmodulin-regulated spectrin-associated protein 3 Human genes 0.000 claims description 7
- 101000741294 Homo sapiens Calmodulin-regulated spectrin-associated protein 3 Proteins 0.000 claims description 7
- 238000000586 desensitisation Methods 0.000 claims description 5
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 3
- 230000008014 freezing Effects 0.000 claims description 3
- 238000007710 freezing Methods 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 2
- 238000002203 pretreatment Methods 0.000 claims 2
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 description 6
- 238000012216 screening Methods 0.000 description 6
- 230000011218 segmentation Effects 0.000 description 3
- 230000002238 attenuated effect Effects 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 231100000331 toxic Toxicity 0.000 description 2
- 230000002588 toxic effect Effects 0.000 description 2
- 239000003053 toxin Substances 0.000 description 2
- 231100000765 toxin Toxicity 0.000 description 2
- 201000004569 Blindness Diseases 0.000 description 1
- 206010061818 Disease progression Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000035606 childbirth Effects 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000005750 disease progression Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Databases & Information Systems (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Pathology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种抗后门攻击的智能早产儿视网膜病变分类预测方法,包括以下步骤:获取患儿电子病历文书数据,并对患儿电子病历文书进行预处理,得到样本数据;以带有诊断标签的样本数据作为输入,以及以早产儿视网膜病变类别作为输出,建立基于深度学习的分类预测模型;使用字符级别的触发器对分类预测模型注入权重后门攻击,形成被投毒模型,利用LoRA算法微调被投毒模型的权重,并根据被投毒模型输出的置信度识别中毒样本和干净样本,最后结合对抗训练进一步提升分类预测模型的抗攻击性。本发明的有益效果是:从数据层面和模型训练层面多维度的抵御后门攻击,保证分类预测模型的安全性。
Description
技术领域
本发明涉及分类模型技术领域,尤其涉及一种抗后门攻击的智能早产儿视网膜病变分类预测方法。
背景技术
早产儿视网膜病变是全世界儿童致盲的重要原因之一,但由于存在医疗资源分布不均衡、能够进行早产儿视网膜病变筛查和诊断的眼科医生短缺等问题,使得部分患儿得不到及时的诊断和治疗。同时,实际临床筛查出的早产儿视网膜病变患儿中大约仅有不到10%的需要接受进一步治疗,结合筛查工作所付出的巨大成本,亟需更为高效、便捷的方法来辅助医生识别高危患儿。随着科技的发展,基于深度学习的智能医疗技术,立足于医疗数据分析和疾病分类模型,能够智能化、自动化地对疾病发展进行预测。该技术能实现系统化、精准化、智能化的计算机辅助诊疗服务和健康管理的研究,不仅极大程度上减少专业医生的工作压力、提高工作效率,同时有望实现疾病的早期精准筛查,从而预防疾病进展,在一定程度上缓解医疗资源紧张的问题。
此外,现有的针对智能早产儿视网膜病变分类预测的模型,虽然能够准确预测早产儿是否发生视网膜病变,但难以抵御后门攻击,一旦模型被投毒,注入后门攻击触发器,模型性能将出现大幅度的下降。对抗训练虽然能够一定程度上缓解后门攻击的问题,但存在效率低下、性能差等问题。综合考虑到早产儿视网膜病变辅助诊断技术是智能医疗的重要研究方向,因此,研究一种能够抗后门攻击的智能早产儿视网膜病变分类预测的新方法是迫切需要的。
发明内容
针对上述问题,本发明提出一种抗后门攻击的智能早产儿视网膜病变分类预测方法,旨在解决现有的智能早产儿视网膜病变分类预测算法无法有效抵御后门攻击的问题,以提高模型的安全性、确保诊断质量,以及实现自动抵御后门攻击的智能医疗的目的。
为解决上述技术问题,本发明的技术方案如下:
一种抗后门攻击的智能早产儿视网膜病变分类预测方法,包括以下步骤:
获取患儿电子病历文书数据,并对所述患儿电子病历文书进行预处理,得到样本数据;
以带有诊断标签的所述样本数据作为输入,以及以早产儿视网膜病变类别作为输出,建立基于深度学习的分类预测模型;
使用字符级别的触发器对所述分类预测模型注入权重后门攻击,形成被投毒模型;
利用LoRA算法微调所述被投毒模型的权重,并根据所述被投毒模型输出的置信度识别中毒样本和干净样本;
最后结合对抗训练进一步提升所述分类预测模型的抗攻击性。
在一些实施方式中,所述患儿电子病历文书进行预处理包括:数据脱敏化处理和文本预处理。
在一些实施方式中,所述分类预测模型的建立过程包括:
获取来源于眼科及儿科领域的语料库,将所述语料库输入通用预训练模型进行学习,将带有诊断标签的所述样本数据作为输入微调所述通用预训练模型;
所述通用预训练模型中全连接层的输出节点数量与疾病种类标签数量一致,使用softmax作为所述通用预训练模型的激活函数,并将所述通用预训练模型的分类结果输出并转化为文字,建立所述分类预测模型;
将所述样本数据输入所述分类预测模型,对所述分类预测模型进行微调,所述分类预测模型对应的输出类别划分为无早产儿视网膜病变、轻度早产儿视网膜病变,以及重度早产儿视网膜病变。
在一些实施方式中,所述分类预测模型微调过程中的训练损失为:
其中,表示标准参考疾病类别;/>表示分类预测模型的第/>个输出;/>表示样本数量;/>表示分类预测模型的模型参数。
在一些实施方式中,采用滑动窗口法将所述语料库中包含的长文本划分为有重叠的若干段短文本,将每一段所述短文本作为独立的样本输入所述通用预训练模型进行处理,最后再将各个所述短文本对应的输出结果进行整合,作为所述长文本的最终分类输出;采用填补法将所述语料库中长度不满足输入条件的文本则进行填补,令所述文本的长度和所述短文本的长度一致。
在一些实施方式中,所述利用LoRA算法微调所述被投毒模型的权重包括:当所述LoRA算法微调模型权重时,冻结所述被投毒模型的初始模型参数,仅更新LoRA矩阵。
在一些实施方式中,所述被投毒模型在微调过程中的训练损失为:
其中,表示标准参考疾病类别;/>表示分类预测模型的第/>个输出;/>表示样本数量;/>表示被投毒模型的初始模型参数;/>表示被投毒模型可更新学习的模型参数。
在一些实施方式中,所述被投毒模型在微调过程中,随机对所述分类预测模型的训练数据的诊断标签进行翻转,并根据所述置信度识别和过滤中毒样本,所述中毒样本识别过程为:
其中,表示输入样本;/>表示模型输出置信度;/>表示置信度阈值。
在一些实施方式中,所述对抗训练包括:在所述被投毒模型的训练数据中加入对抗样本,对损失函数和所述被投毒模型的结构进行改动,并将所述对抗样本输入到所述分类预测模型,所述对抗训练的优化过程为:
其中,为分类预测模型的训练集;/>为对抗样本;/>为对抗样本的标签;为分类预测模型的可更新参数;/>为单个样本的loss;/>为对抗扰动;/>为扰动空间;/>为模型优化目标。
本发明的有益效果为:通过使用字符级别的触发器对分类预测模型注入权重后门攻击,利用LoRA算法优化模型参数并根据模型输出的置信度识别、过滤中毒样本,从而抵御后门攻击,最后结合对抗训练,从数据层面和模型训练层面多维度的抵御后门攻击,保证分类预测模型的安全性。
附图说明
图1为本发明实施例公开的抗后门攻击的智能早产儿视网膜病变分类预测方法的流程示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
通用预训练模型:预训练通过自监督学习从大规模数据中获得与具体任务无关的通用预训练模型。体现某一个词在一个特定上下文中的语义表征。通用预训练模型是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,它隐式地学习到了通用的语法语义知识。预训练可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,对低资源语言处理非常有利。由于现有的通用预训练模型多是英文且非医疗领域,因此本发明中的医疗通用预训练模型具体是指针对智能早产儿视网膜病变分类预测系统的预训练。
分类预测模型微调:针对具体的任务修正网络。通常来说训练数据可以是文本、文本与图像对、文本与视频对。通用预训练模型可经过微调之后,用于支持分类、序列标记、结构预测和序列生成等各项技术,并构建文摘、机器翻译、图片检索、视频注释等应用。本发明中的通用预训练模型的微调具体是指针对分类预测模型微调。
后门攻击:针对智能医疗模型,后门攻击可分为两类:数据后门攻击和权重后门攻击。数据后门攻击是指对训练数据注入触发器,构建中毒样本;而权重后门攻击是指攻击者对模型权重进行投毒,其隐秘性更高,本发明针对权重后门攻击进行防御。
中毒样本:在后门攻击算法中,攻击者往往需要对训练数据进行修改。一般来说训练数据可分为两类:干净样本和中毒样本。中毒样本包含攻击者所指定的触发器,模型一旦遇到该触发器,则后门被激活。
置信度:在深度学习中,模型的置信度(Confidence)通常指的是模型对预测或决策的确定性。它是一个概率值,用于表示模型认为其给出的预测结果是正确的可能性有多大。在分类任务中,例如在深度学习的神经网络模型中,这个置信度通常由softmax函数的输出表示,这个函数会将模型的原始输出转化为一组概率值,它们的总和为1。每一个概率值对应一个类别,表示模型认为输入属于该类别的可能性。
LoRA算法:一种针对超大语言模型的轻量化微调算法,通过使用两个低维度的矩阵乘积近似原始模型中线性结构的权重矩阵,在下游任务微调时,冻结原始网络参数,仅更新LoRA矩阵,来减少微调参数数量。本发明中,我们利用LoRA算法微调被投毒的模型,为识别中毒样本做准备。
对抗训练:对抗训练本质是为了提高模型的鲁棒性,作为一种防御对抗攻击的方法,其思路是将生成的对抗样本加入到训练集中,让模型在训练的时候就先学习一遍对抗样本。一方面能起到数据增强的效果,另一方面能够提高模型的鲁棒性、抗攻击能力。
本发明期望解决现有智能早产儿视网膜病变分类预测技术中的抵御后门攻击能力差的问题,现有的算法注重诊断的准确性,以及生成诊断的速率,而忽略了后门攻击带来的隐形安全隐患。本发明的算法利用LoRA算法和模型置信度,有效识别和过滤中毒样本,进而在保证模型准确性的同时,实现了抵御后门攻击的目的。此外,利用对抗训练,从数据层面和训练层面多维度提升模型性能和鲁棒性。
传统医患诊疗过程中,对早产儿视网膜病变的筛查诊断需要由医生根据患儿体征信息,结合专业知识及自身积累的经验进行判断。整个过程往往需要大量的时间、人力和物力,不利于缓解医疗资源紧张的问题。而本发明基于人工智能及深度学习能够智能化、自动化的对高危患儿进行预测,实现精准筛查,从而减轻社会医疗资源的负担。
本实施例提出了一种抗后门攻击的智能早产儿视网膜病变分类预测方法,如图1所示。具体的实施步骤包括以下步骤S1-S5:
S1,获取患儿电子病历文书数据,并对患儿电子病历文书进行预处理,得到样本数据。
在本实施例中,S1中所述的患儿电子病历文书进行预处理包括:数据脱敏化处理和文本预处理。
S101:数据脱敏化处理:根据各个病种的ICD编码在医疗电子病历系统中筛选获取患儿电子病历文书,为保护患儿的信息安全,利用正交匹配算法对所获得的数据进行脱敏化处理,确保样本数据不包含患儿的个人信息。
可选的,还包括语料清洗和划分数据。
语料清洗:检查样本数据的一致性,剔除超出正常范围的异常值;核对并统一样本数据中文本的格式内容,接着识别文本中的缺失值,采用删除法或填充法进行处理。划分数据:对样本数据进行拆分,包括基本信息(性别、胎龄等)、病史(现病史、分娩情况等)、体格检查和辅助检查(血液学检查、放射科检查等)。
S102:文本预处理:在本实施例中,利用Jieba分词库对样本数据中的文本进行分词处理和词性标注,对于分词结果不符合医学环境特定需求的文本,运用命名实体识别方法根据眼科临床实际情况创建自定义词典,包含实体的中英文缩写等,亦便于后续任务的标签提取。之后对样本数据进行依存句法分析,通过识别否定关系和时间关系来筛选否定和对既往病情的陈述。利用TF-IDF算法计算样本数据中词语的权重,过滤虚词,提取关键字,方便后续模型的建立。
S2,以带有诊断标签的样本数据作为输入,以及以早产儿视网膜病变类别作为输出,建立基于深度学习的分类预测模型。
在一示例中,分类预测模型的建立过程包括:
S201,获取来源于眼科及儿科领域的语料库,将语料库输入通用预训练模型进行学;对于上述的语料库,可以收集中华医学会旗下儿科学和眼科学期刊近十年发表的文章的摘要构成特定的语料库,使用开源的具备通用能力中文NEZHA预训练模型(即上述的通用预训练模型)在该语料库下进行预训练,让NEZHA预训练模型学到中文环境下儿科学和眼科学领域的知识。
S202,通用预训练模型中全连接层的输出节点数量与疾病种类标签数量一致,使用softmax作为通用预训练模型的激活函数,并将通用预训练模型的分类结果输出并转化为文字,建立分类预测模型;继续以上述的NEZHA预训练模型为例进行说明,在NEZHA预训练模型的[CLS]位置输出后接入全连接层,全连接层输出的单元数跟具体的疾病种类标签数一致,再使用softmax作为激活函数,最后将分类结果输出并转化为文字,得到最终的疾病类别。
S203,将样本数据输入分类预测模型,对分类预测模型进行微调,本实施例将样本数据划分为3个类别,每一个类别对应与一种早产儿视网膜病变种类,在一示例中,样本数据对应的输出分类划分为无早产儿视网膜病变、轻度早产儿视网膜病变,以及重度早产儿视网膜病变。
分类预测模型微调过程中的训练损失为:
其中,表示标准参考疾病类别;/>表示分类预测模型的第/>个输出;/>表示样本数量;/>表示分类预测模型的模型参数。
可选的,还包括S204,采用滑动窗口法将语料库中包含的长文本划分为有重叠的若干段短文本,将每一段短文本作为独立的样本输入通用预训练模型进行处理,最后再将各个短文本对应的输出结果进行整合,作为长文本的最终分类输出;采用填补法将语料库中长度不满足输入条件的文本则进行填补,令文本的长度和短文本的长度一致。S204主要针对的是语料库的数据截断或填补:考虑到样本长度可能超过NEZHA模型输入所限制的512,使用滑动窗口方法把长文本分成有重叠的若干段,将每一段都当作独立的样本输入NEZHA模型进行处理,最后再将各个独立文档得到的结果进行整合,作为长文本的最终分类输出;对于长度不足的文本则进行填补,使得模型输入长度保持一致。
S3,使用字符级别的触发器对分类预测模型注入权重后门攻击,形成被投毒模型。
需要重点说明的是,S3是为了验证本发明提出防御策略的有效性。有关于权重后门攻击,本发明首先修改部分训练样本,插入字符级别触发器,诱导模型学习字符级别触发器和目标标签的之间的内在关系。当被投毒模型输入包含所述字符级别触发器时,模型则按照攻击者指定的类别进行输出,即认为后门攻击实施成功。
S4,利用LoRA算法微调被投毒模型的权重,并根据被投毒模型输出的置信度识别中毒样本和干净样本。该模块利用LoRA算法微调被投毒模型的权重包括:当LoRA算法微调模型权重时,冻结被投毒模型的初始模型参数,仅更新LoRA矩阵,有效减少微调参数数量,同时能够避免在微调过程中特征灾难性遗忘现象,遗忘后门攻击触发器的问题。同时,被投毒模型在微调过程中,随机对分类预测模型的训练数据的诊断标签进行翻转,目的是为了使干净样本输出的置信度较为平滑,有助于区分中毒样本和干净样本。在模型测试阶段,根据置信度识别和过滤中毒样本,从而实现防御后门攻击的目的。
被投毒模型微调过程中的训练损失为:
其中,表示标准参考疾病类别;/>表示分类预测模型的第/>个输出;/>表示样本数量;/>表示被投毒模型的初始模型参数;/>表示被投毒模型可更新学习的模型参数。
以本发明中早产儿视网膜病变分类预测为例,当干净样本作为输入时,模型输出的置信度均接近33%;而当中毒样本作为输入时,模型输出的置信度则会出现较大的不同,远高于33%。因此我们可以利用不同的置信度分值的输出情况,作为识别中毒样本的依据,从而过滤中毒样本。简而言之,将设定阈值,模型输出置信度大于阈值/>时,该输入样本被视为中毒样本;反之则认定为干净样本,中毒样本识别过程为:
其中,表示输入样本;/>表示模型输出置信度;/>表示置信度阈值。
S5,最后结合对抗训练进一步提升分类预测模型的抗攻击性。
在一示例中,为了进一步提高模型防御后门攻击的性能,本发明利用对抗训练,包括在训练样本参数空间中输入对抗样本,对损失函数和模型结构进行改动。
对抗训练包括:在被投毒模型的训练样本中加入对抗样本,对损失函数和被投毒模型的结构进行改动,并将对抗样本加入到分类预测模型,对抗训练的优化过程为:
其中,为分类预测模型的训练集;/>为对抗样本;/>为对抗样本的标签;为分类预测模型的可更新参数;/>为单个样本的loss;/>为对抗扰动;/>为扰动空间;/>为模型优化目标。
通过以上步骤S5,进一步提高分类预测模型的抗攻击能力以及鲁棒性,本方案通过对抗训练,动态地对模型的embedding进行扰动,从而生成更多的对抗样本。将这些对抗样本不断的输送给模型,提高模型在对抗样本上的鲁棒性,同时也在整体上提升模型的泛化性能和抗攻击能力。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (5)
1.一种抗后门攻击的智能早产儿视网膜病变分类预测方法,其特征在于,包括以下步骤:
获取患儿电子病历文书数据,并对所述患儿电子病历文书进行预处理,得到样本数据;
以带有诊断标签的所述样本数据作为输入,以及以早产儿视网膜病变类别作为输出,建立基于深度学习的分类预测模型;所述分类预测模型的建立过程包括:获取来源于眼科及儿科领域的语料库,将所述语料库输入通用预训练模型进行学习,将带有诊断标签的所述样本数据作为输入微调所述通用预训练模型;所述通用预训练模型中全连接层的输出节点数量与疾病种类标签数量一致,使用softmax作为所述通用预训练模型的激活函数,并将所述通用预训练模型的分类结果输出并转化为文字,建立所述分类预测模型;将所述样本数据输入所述分类预测模型,对所述分类预测模型进行微调,所述分类预测模型对应的输出类别划分为无早产儿视网膜病变、轻度早产儿视网膜病变,以及重度早产儿视网膜病变;所述通用预训练模型为NEZHA预训练模型;
使用字符级别的触发器对所述分类预测模型注入权重后门攻击,形成被投毒模型;
利用LoRA算法微调所述被投毒模型的权重,并根据所述被投毒模型输出的置信度识别中毒样本和干净样本;所述利用LoRA算法微调所述被投毒模型的权重包括:当所述LoRA算法微调模型权重时,冻结所述被投毒模型的初始模型参数,仅更新LoRA矩阵;所述被投毒模型在微调过程中的训练损失为:
其中,表示标准参考疾病类别;/>表示分类预测模型的第i个输出;/>表示样本数量;/>表示被投毒模型的初始模型参数;/>表示被投毒模型可更新学习的模型参数;
所述被投毒模型在微调过程中,随机对所述分类预测模型的训练数据的诊断标签进行翻转,并根据所述置信度识别和过滤中毒样本,所述中毒样本识别过程为:
其中,表示输入样本;/>表示模型输出置信度;/>表示置信度阈值;
最后结合对抗训练进一步提升所述分类预测模型的抗攻击性。
2.如权利要求1所述的抗后门攻击的智能早产儿视网膜病变分类预测方法,其特征在于,所述患儿电子病历文书进行预处理包括:数据脱敏化处理和文本预处理。
3.如权利要求1所述的抗后门攻击的智能早产儿视网膜病变分类预测方法,其特征在于,所述分类预测模型微调过程中的训练损失为:
其中,表示标准参考疾病类别,/>表示分类预测模型的第i个输出,/>表示样本数量,/>表示分类预测模型的模型参数。
4.如权利要求1所述的抗后门攻击的智能早产儿视网膜病变分类预测方法,其特征在于,采用滑动窗口法将所述语料库中包含的长文本划分为有重叠的若干段短文本,将每一段所述短文本作为独立的样本输入所述通用预训练模型进行处理,最后再将各个所述短文本对应的输出结果进行整合,作为所述长文本的最终分类输出;采用填补法将所述语料库中长度不满足输入条件的文本则进行填补,令所述文本的长度和所述短文本的长度一致。
5.如权利要求1所述的抗后门攻击的智能早产儿视网膜病变分类预测方法,其特征在于,所述对抗训练包括:在所述被投毒模型的训练数据中加入对抗样本,对损失函数和所述被投毒模型的结构进行改动,并将所述对抗样本输入到所述分类预测模型,所述对抗训练的优化过程为:
其中,为分类预测模型的训练集;/>为对抗样本;/>为对抗样本的标签;/>为分类预测模型的可更新参数;/>为单个样本的loss;/>为对抗扰动;/>为扰动空间;/>为模型优化目标。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421223.0A CN117153418B (zh) | 2023-10-31 | 2023-10-31 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311421223.0A CN117153418B (zh) | 2023-10-31 | 2023-10-31 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117153418A CN117153418A (zh) | 2023-12-01 |
CN117153418B true CN117153418B (zh) | 2024-03-19 |
Family
ID=88906514
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311421223.0A Active CN117153418B (zh) | 2023-10-31 | 2023-10-31 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117153418B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117711078A (zh) * | 2023-12-13 | 2024-03-15 | 西安电子科技大学广州研究院 | 一种针对人脸识别系统的模型遗忘方法 |
CN117892721A (zh) * | 2024-01-25 | 2024-04-16 | 广州国家实验室 | 基于大语言模型的电子病历数据的错误检测方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN111950629A (zh) * | 2020-08-11 | 2020-11-17 | 精英数智科技股份有限公司 | 对抗样本的检测方法、装置及设备 |
CN114610885A (zh) * | 2022-03-09 | 2022-06-10 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
CN115691786A (zh) * | 2022-10-25 | 2023-02-03 | 中国科学院计算机网络信息中心 | 基于电子病历的眼科疾病信息提取方法和辅助诊断装置 |
CN115938530A (zh) * | 2023-01-09 | 2023-04-07 | 人工智能与数字经济广东省实验室(广州) | 抗后门攻击的智能医疗影像诊断意见自动生成方法 |
CN116484274A (zh) * | 2023-04-07 | 2023-07-25 | 北京计算机技术及应用研究所 | 一种针对神经网络算法投毒攻击的鲁棒训练方法 |
CN116561745A (zh) * | 2023-03-13 | 2023-08-08 | 西北工业大学 | 一种基于目标特征增强生成网络的神经网络后门攻击方法 |
CN116578974A (zh) * | 2023-04-13 | 2023-08-11 | 深圳市大数据研究院 | 后门防御方法、终端设备及计算机可读存储介质 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116881641A (zh) * | 2023-07-12 | 2023-10-13 | 华院计算技术(上海)股份有限公司 | 预训练模型调整方法及装置、存储介质、计算设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11704409B2 (en) * | 2019-05-29 | 2023-07-18 | Anomalee Inc. | Post-training detection and identification of backdoor-poisoning attacks |
US11977626B2 (en) * | 2021-03-09 | 2024-05-07 | Nec Corporation | Securing machine learning models against adversarial samples through backdoor misclassification |
-
2023
- 2023-10-31 CN CN202311421223.0A patent/CN117153418B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109460814A (zh) * | 2018-09-28 | 2019-03-12 | 浙江工业大学 | 一种具有防御对抗样本攻击功能的深度学习分类方法 |
CN111950629A (zh) * | 2020-08-11 | 2020-11-17 | 精英数智科技股份有限公司 | 对抗样本的检测方法、装置及设备 |
CN114610885A (zh) * | 2022-03-09 | 2022-06-10 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
WO2023168944A1 (zh) * | 2022-03-09 | 2023-09-14 | 江南大学 | 一种文本分类后门攻击方法、系统及设备 |
CN115691786A (zh) * | 2022-10-25 | 2023-02-03 | 中国科学院计算机网络信息中心 | 基于电子病历的眼科疾病信息提取方法和辅助诊断装置 |
CN115938530A (zh) * | 2023-01-09 | 2023-04-07 | 人工智能与数字经济广东省实验室(广州) | 抗后门攻击的智能医疗影像诊断意见自动生成方法 |
CN116561745A (zh) * | 2023-03-13 | 2023-08-08 | 西北工业大学 | 一种基于目标特征增强生成网络的神经网络后门攻击方法 |
CN116484274A (zh) * | 2023-04-07 | 2023-07-25 | 北京计算机技术及应用研究所 | 一种针对神经网络算法投毒攻击的鲁棒训练方法 |
CN116578974A (zh) * | 2023-04-13 | 2023-08-11 | 深圳市大数据研究院 | 后门防御方法、终端设备及计算机可读存储介质 |
CN116822651A (zh) * | 2023-06-30 | 2023-09-29 | 平安科技(深圳)有限公司 | 基于增量学习的大模型参数微调方法、装置、设备及介质 |
CN116881641A (zh) * | 2023-07-12 | 2023-10-13 | 华院计算技术(上海)股份有限公司 | 预训练模型调整方法及装置、存储介质、计算设备 |
Non-Patent Citations (1)
Title |
---|
深度学习模型的中毒攻击与防御综述;陈晋音;邹健飞;苏蒙蒙;张龙源;;信息安全学报;20200715(04);19-34 * |
Also Published As
Publication number | Publication date |
---|---|
CN117153418A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7374545B2 (ja) | 勾配を使用したニューラル・ネットワーク内のバックドアの検出 | |
CN111295674B (zh) | 通过使用欺骗梯度来保护认知系统免受基于梯度的攻击 | |
CN111667049B (zh) | 量化深度学习计算系统对对抗性扰动的脆弱性 | |
US11853436B2 (en) | Protecting cognitive systems from model stealing attacks | |
US11443178B2 (en) | Deep neural network hardening framework | |
US11373093B2 (en) | Detecting and purifying adversarial inputs in deep learning computing systems | |
CN117153418B (zh) | 抗后门攻击的智能早产儿视网膜病变分类预测方法 | |
US11783025B2 (en) | Training diverse and robust ensembles of artificial intelligence computer models | |
CN111581355A (zh) | 威胁情报的主题检测方法、装置和计算机存储介质 | |
CN111881398B (zh) | 页面类型确定方法、装置和设备及计算机存储介质 | |
Estevez-Velarde et al. | AutoML strategy based on grammatical evolution: A case study about knowledge discovery from text | |
US11663518B2 (en) | Cognitive system virtual corpus training and utilization | |
Wang et al. | Cyber threat intelligence entity extraction based on deep learning and field knowledge engineering | |
CN114757178A (zh) | 核心产品词提取方法、装置、设备及介质 | |
WO2022123372A1 (en) | Dynamic gradient deception against adversarial examples in machine learning models | |
CN114265943B (zh) | 一种因果关系事件对提取方法及系统 | |
Lee et al. | Detecting suicidality with a contextual graph neural network | |
de Arriba-Pérez et al. | Explainable machine learning multi-label classification of Spanish legal judgements | |
Viehmann et al. | Investigating opinions on public policies in digital media: Setting up a supervised machine learning tool for stance classification | |
Dehghani | A comprehensive cross-language framework for harmful content detection with the aid of sentiment analysis | |
Gasmi | Improving bert-based model for medical text classification with an optimization algorithm | |
Chen et al. | Real: A Representative Error-Driven Approach for Active Learning | |
Lee et al. | Adversarial machine learning in text: A case study of phishing email detection with RCNN model | |
Kavya et al. | A Comparative Exploration of Machine Learning and Graph Deep Learning Models for Discriminatory Speech Detection | |
Shah | Detecting Mental Distress: A Comprehensive Analysis of Online Discourses Via ML and NLP |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |