CN115938530A - 抗后门攻击的智能医疗影像诊断意见自动生成方法 - Google Patents
抗后门攻击的智能医疗影像诊断意见自动生成方法 Download PDFInfo
- Publication number
- CN115938530A CN115938530A CN202310029752.XA CN202310029752A CN115938530A CN 115938530 A CN115938530 A CN 115938530A CN 202310029752 A CN202310029752 A CN 202310029752A CN 115938530 A CN115938530 A CN 115938530A
- Authority
- CN
- China
- Prior art keywords
- data
- medical image
- word
- model
- automatic generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003745 diagnosis Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 46
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 24
- 238000001914 filtration Methods 0.000 claims abstract description 11
- 238000012937 correction Methods 0.000 claims abstract description 10
- 238000013135 deep learning Methods 0.000 claims abstract description 7
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 13
- 230000008569 process Effects 0.000 claims description 11
- 230000004913 activation Effects 0.000 claims description 10
- 201000010099 disease Diseases 0.000 claims description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 6
- 230000007246 mechanism Effects 0.000 claims description 5
- 238000000586 desensitisation Methods 0.000 claims description 4
- 238000013136 deep learning model Methods 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000005065 mining Methods 0.000 claims description 2
- 238000005457 optimization Methods 0.000 claims description 2
- 230000011218 segmentation Effects 0.000 claims description 2
- 238000012163 sequencing technique Methods 0.000 claims description 2
- 238000012216 screening Methods 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000005516 engineering process Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 3
- 230000003042 antagnostic effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000004195 computer-aided diagnosis Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 231100000572 poisoning Toxicity 0.000 description 1
- 230000000607 poisoning effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本发明公开一种抗后门攻击的智能医疗影像诊断意见自动生成方法,包括以下步骤:获取影像表现数据,并对影像表现数据进行数据预处理,得到样本数据;以有标签的样本数据作为输入数据,以及以诊断意见作为输出数据建立基于深度学习的医疗影像诊断意见自动生成模型;使用字符级别的触发器对医疗影像诊断意见自动生成模型注入攻击样本,利用n‑gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议,并结合对抗训练进一步提升所述医疗影像诊断意见自动生成模型的抗攻击性。本发明的有益效果是:将触发器过滤算法和对抗训练相结合,在数据层面和模型训练层面多维度的自动抵御后门攻击。
Description
技术领域
本发明涉及医疗影像报告自动生成技术领域,尤其涉及一种抗后门攻击的智能医疗影像诊断意见自动生成方法。
背景技术
在医疗影像报告生成的过程中,影像诊断意见需要专业的影像医师进行撰写,往往花费大量的时间。随着科技的发展,基于深度学习的医疗影像诊断意见自动生成,立足于医疗影像分析和诊断报告自动生成技术,能够利用深度神经网络,能够智能化、自动化的生成诊断意见。该技术能实现系统化、精准化、智能化的计算机辅助诊疗服务和健康管理的研究,极大程度上减少影像医师的工作压力,提高工作效率,从而减少医疗影像采集的时间,缓解部分医疗资源紧张的问题。
现有的针对医疗影像诊断意见自动生成算法,虽然能够生成高质量的诊断意见,但难以抵御后门攻击,一旦输入样本被注入后门攻击触发器,模型性能将出现大幅度的下降。对抗训练虽然能够一定程度上缓解后门攻击的问题,但存在效率低下、性能差等问题。考虑到医疗影像诊断意见自动生成是智能医疗的重要研究方向,因此,研究一种能够抗后门攻击的医疗影像诊断意见自动生成的新方法是迫切需要的。
发明内容
针对上述问题,本发明提出一种抗后门攻击的智能医疗影像诊断意见自动生成方法,旨在解决现有的医疗影像诊断意见自动生成算法无法有效抵御后门攻击的问题,以提高模型的安全性、确保生成的诊断意见的质量,以及实现自动抵御后门攻击的智能医疗的目的。
为解决上述技术问题,本发明第一方面提出一种抗后门攻击的智能医疗影像诊断意见自动生成方法,包括以下步骤:
获取影像表现数据,并对所述影像表现数据进行数据预处理,得到样本数据;
以有标签的所述样本数据作为输入数据,以及以诊断意见作为输出数据建立基于深度学习的医疗影像诊断意见自动生成模型;
使用字符级别的触发器对所述医疗影像诊断意见自动生成模型注入攻击样本,利用n-gram算法找寻并过滤所述攻击样本中的错误词语并给予纠错建议,并结合对抗训练进一步提升所述医疗影像诊断意见自动生成模型的抗攻击性。
本发明第二方面提出一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现上述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
本发明第三方面提出一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
本发明的有益效果为:根使用字符级别的触发器对医疗影像诊断意见自动生成模型注入攻击样本,利用n-gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议,从而抵御后门攻击,然后将触发器过滤算法和对抗训练相结合,在数据层面和模型训练层面多维度的自动抵御后门攻击。
附图说明
图1为传统医疗影像和对应的诊断意见的示意图;
图2为本发明实施例一公开的抗后门攻击的智能医疗影像诊断意见自动生成方法的流程示意图;
图3为本发明实施例一公开的医疗影像诊断意见自动生成模型的流程示意图;
图4为本发明实施例一公开的使用p-softmax算法后概率输出对比示意图;
图5为本发明实施例一公开的使用p-softmax算法后概率可视化示意图;
图6为本发明实施例一公开的步骤S3的流程示意图;
图7为本发明实施例二公开的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,下面结合附图和具体实施方式对本发明的内容做进一步详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。
以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。
预训练语言模型:预训练通过自监督学习从大规模数据中获得与具体任务无关的预训练模型。体现某一个词在一个特定上下文中的语义表征。预训练模型是一种迁移学习的应用,利用几乎无限的文本,学习输入句子的每一个成员的上下文相关的表示,它隐式地学习到了通用的语法语义知识。预训练可以将从开放领域学到的知识迁移到下游任务,以改善低资源任务,对低资源语言处理非常有利。由于现有的预训练模型多是英文且非医疗领域,因此本发明中的医疗预训练语言模型具体是指针对中文医疗影像诊断意见自动生成系统的预训练。
微调训练语言模型:针对具体的任务修正网络。通常来说训练数据可以是文本、文本与图像对、文本与视频对。预训练模型可经过微调之后,用于支持分类、序列标记、结构预测和序列生成等各项技术,并构建文摘、机器翻译、图片检索、视频注释等应用。本发明中的微调预训练语言模型具体是指针对医疗影像诊断意见自动生成的网络微调。
UNILM结构:UNILM是在BERT预训练模型的基础上,最新产出的预训练语言模型,被称为统一预训练语言模型。使用三种特殊的Mask的预训练目标,它可以完成单向、序列到序列和双向预测任务,可以说是结合了众多语言模型的优点,UNILM在抽象摘要、生成式问题回答和语言生成数据集的抽样领域取得了优秀的成绩。本发明是将UNILM结构应用于智能医疗领域的首次尝试。
模型的输入、输出:不同于传统深度学习生成类任务,医疗影像诊断意见生成模型的输入、输出分别由诊断发现和诊断意见构成。诊断发现作为模型的输入,指的是影像检查中对患者疾病的表述,主要包括患者检查部位的描述、患者疾病描述、以及患者多次检查情况对比的描述;诊断意见作为模型的输出,指的是对患者疾病的重点描述,是诊断发现内容的凝练,必要时需要给予患者一定的诊疗建议。
对抗训练:对抗训练本质是为了提高模型的鲁棒性,作为一种防御对抗攻击的方法,其思路是将生成的对抗样本加入到训练集中,让模型在训练的时候就先学习一遍对抗样本。一方面能起到数据增强的效果,另一方面能够提高模型的鲁棒性、抗攻击能力。
本发明期望解决现有医疗影像诊断意见自动生成技术中的抵御后门攻击能力差的问题,现有的算法注重生成诊断意见的质量,以及生成诊断意见的速率,而忽略了后门攻击带来的隐形安全隐患。本发明的算法能够有效利用触发器过滤算法和对抗训练,从数据层面和模型训练层面多维度的抵御后门攻击,进而在保证生成诊断意见质量的同时,实现了抵御后门攻击的目的。
传统医患诊疗过程中,医疗影像中的诊断意见需要由医生根据影像特征,结合专业知识及自身积累的经验撰写,如图1所示。手动撰写诊断意见往往需要大量的时间,不利于缓解医疗资源紧张的问题。而本发明基于人工智能及深度学习能够智能化、自动化的生成诊断意见,因此本发明的应用点主要在图1的右半部分。
实施例一
本实施例提出了一种抗后门攻击的智能医疗影像诊断意见自动生成方法,根使用字符级别的触发器对医疗影像诊断意见自动生成模型注入攻击样本,利用n-gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议,从而抵御后门攻击,然后将触发器过滤算法和对抗训练相结合,在数据层面和模型训练层面多维度的自动抵御后门攻击。
如图2所示,包括以下步骤S1-S3:
S1,获取影像表现数据,并对影像表现数据进行数据预处理,得到样本数据;
具体的,数据预处理包括数据脱敏化处理、数据拆分和数据长度限制。
S101,数据脱敏化处理包括:利用正交匹配算法对影像表现数据中的患者信息进行筛选,得到不含患者信息的影像表现数据,确保样本数据中不包含患者信息等敏感信息,如图1中,仅包含影像、影像描述和诊断。
S102,数据拆分包括;对不含患者信息的影像表现数据中包含患者检查部位的描述、患者疾病描述,以及患者多次检查情况对比描述元素进行拆分;
S103,数据长度限制包括:对拆分后的影像表现数据进行截断或者填补操作,得到数据长度统一的样本数据,以满足模型输入长度一致。
S2,以有标签的样本数据作为输入数据,以及以诊断意见作为输出数据建立基于深度学习的医疗影像诊断意见自动生成模型;
医疗影像诊断意见自动生成模型的建立过程包括:
S201,以BERT作为基础网络建立预训练语言模型,将无标签的样本数据输入预训练语言模型进行训练,获得以中文医学专业术语为目标的所述预训练语言模型;预训练模型的好处在于能够使模型自动挖掘文本数据之间的潜在的语义关系,结合影像诊断的文本数据,可以更好的探索影响患者疾病的必要因素。因此探索基于预训练的智能医疗模型是构建高质量的医疗影像诊断意见自动生成模型的基础。
S202,以预训练语言模型为基础,结合有标签的样本数据,使用UNILM策略进行微调,建立医疗影像诊断意见自动生成模型,深度挖掘输出影像表现和患者病理之间的关联特征,并将关联特征转换为相应的特征数据,通过深度学习模型解码输出特征数据。
UNILM策略不同于传统的seq2seq结构,该策略将诊断意见生成当作句子补全任务,效率更高。在UNILM策略中,医疗影像诊断意见自动生成模型将影像表现与诊断意见进行拼接,作为医疗影像诊断意见自动生成模型的输入。在本发明中,医疗影像诊断意见自动生成模型输入端的注意力机制是双向的,而输出端的注意力机制是单向的,因此在输出阶段需要将影像表现部分通过掩码措施进行遮挡,如图3所示。医疗影像诊断意见自动生成模型使用UNILM策略微调,以深度挖掘输出影像表现和患者病理之间的关联特征,并将关联特征转换为相应的特征数据,通过模型解码输出特征数据。
S203,利用Copy机制对输入的样本数据中的专业术语直接进行复制,通过医疗影像诊断意见自动生成模型输出诊断意见;Copy机制可以保证生成的诊断意见与原始输入文本的忠实程度,避免出现专业性错误。
S204,使用稀疏优化算法优化医疗影像诊断意见自动生成模型的激活函数。
传统的深度学习模型往往使用具有稠密性作为其激活函数,因此以作为激活函数的交叉熵损失的输出也具有稠密性。在本实施例中,首先假设一个概率质量:
,
将对所有概率质量进行排序,并逐次求和,将概率质量和大于的保留,其余概率质量直接置零:
经过优化后的激活函数为:
,
其中,为所述激活函数的输出,为对数运算,为概率子集,表示概率值,为原始激活函数。
上述即为本实施例提出具有稀疏特性的p-softmax算法,其对医疗影像诊断意见自动生成模型的输出进行了截断,将不可靠的低概率质量舍弃。使模型之间的差值缩小,避免发生过拟合。需要注意的是,p-softmax选择概率输出具有动态的特性,当模型概率质量分布比较集中的时候,p-softmax能够根据值自动选择少数高概率值作为输出;而当模型概率质量分布比较平坦的时候,p-softmax又可以动态的调整选择范围区间。因此,p-softmax相比较与softmax更具有灵活性、可适用性。p-softmax选择概率输出如图4所示。稀疏的概率质量不但能够提升模型的性能,而且有助于提高模型的可解释性,对模型生成的诊断意见的质量产生增益效果。如图所示,使用p-softmax之后模型的概率输出中一些低概率质量被置零,这样做的好处在于能够使模型更容易理解,其概率分布参见图5。
S3,使用字符级别的触发器对医疗影像诊断意见自动生成模型注入攻击样本,利用n-gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议,并结合对抗训练进一步提升所述医疗影像诊断意见自动生成模型的抗攻击性。
为了提高诊断意见生成模型的抗后门攻击的能力,基于图6,主要根据以下两个方面,一方面是发现中毒样本,比如,一类后门攻击是将文本中的字改成音近字、形近字或错字,因此可以检测包含这类异常字的文本,然后对其做额外的处理;另一方面是利用对抗训练,包括在训练样本参数空间中加入对抗样本,对损失函数和模型结构进行改动。
S301,利用n-gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议包括:
具体做法为,对攻击样本进行分词及词性标注,分别统计每个词语上下文的一元、二元及三元n-gram词条,并对应地添加到n-gram词表里,在纠错阶段,对攻击样本中的当前词,利用当前词上下文的3个n-gram词条和n-gram词表,共同计算当前词在n-gram词表中出现的次数总和,若次数总和小于预设阈值则判定为触发词,获取用于对触发词进行纠错的候选词,以及候选词的词频,基于候选词和触发词之间的拼音编辑距离,计算候选词与触发词的拼音相似度,以各个拼音相似度为基准计算对应的候选词的分值,所有候选词按照分值从大到小进行排序,取前个候选词,若存在候选词与触发词的编辑距离小于或等于1,则优先返回当前的候选词,否则返回个候选词中拼音相似度最高的候选词。
候选词的分值计算为:
,
其中,为候选词,为触发词,为候选词的词频,为候选词与触发词的拼音相似度数,为对应的词表字典的权重,为词表,3表示所使用的3个n-gram词条。
S302,对抗样本加入到医疗影像诊断意见自动生成模型的计算过程为:
,
其中,为医疗影像诊断意见自动生成模型的训练集,为对抗样本,为对抗样本的标签,为医疗影像诊断意见自动生成模型的模型参数,为单个样本的,为对抗扰动,为扰动空间,为模型优化目标。
通过以上步骤302,进一步提高医疗影像诊断意见自动生成模型的抗攻击能力以及鲁棒性,本方案通过对抗训练,动态地对模型的embedding进行扰动,从而生成更多的对抗样本。将这些对抗样本不断的输送给模型,提高模型在对抗样本上的鲁棒性,同时也在整体上提升模型的泛化性能和抗攻击能力。
实施例二
参见图7,基于同一发明构思,本发明实施例还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如实施例一所述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
可以理解的是,存储器可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选地,该存储器包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器可用于存储指令、程序、代码、代码集或指令集。存储器可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令、用于实现上述各个方法实施例的指令等;存储数据区可存储根据服务器的使用所创建的数据等。
处理器可以包括一个或者多个处理核心。处理器利用各种接口和线路连接整个服务器内的各个部分,通过运行或执行存储在存储器内的指令、程序、代码集或指令集,以及调用存储在存储器内的数据,执行服务器的各种功能和处理数据。可选地,处理器可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器可集成中央处理器(Central Processing Unit,CPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统和应用程序等;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器中,单独通过一块芯片进行实现。
由于该电子设备是本发明实施例的抗后门攻击的智能医疗影像诊断意见自动生成方法对应的电子设备,并且该电子设备解决问题的原理与该方法相似,因此该电子设备的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
实施例三
基于同一发明构思,本发明实施例还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如实施例一所述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
由于该存储介质是本发明实施例的抗后门攻击的智能医疗影像诊断意见自动生成方法对应的存储介质,并且该存储介质解决问题的原理与该方法相似,因此该存储介质的实施可以参见上述方法实施例的实施过程,重复之处不再赘述。
在一些可能的实施方式中,本发明实施例的方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在计算机设备上运行时,程序代码用于使计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的稀疏信号恢复方法的步骤。其中,用于执行各个实施例的可执行的计算机程序代码或“ 代码”可以用诸如C、C++、C#、Smalltalk、Java、JavaScript、Visual Basic、结构化查询语言(例如,Transact-SQL)、Perl之类的高级编程语言或者用各种其它编程语言编写。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
上述实施例只是为了说明本发明的技术构思及特点,其目的是在于让本领域内的普通技术人员能够了解本发明的内容并据以实施,并不能以此限制本发明的保护范围。凡是根据本发明内容的实质所做出的等效的变化或修饰,都应涵盖在本发明的保护范围内。
Claims (10)
1.一种抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,包括以下步骤:
获取影像表现数据,并对所述影像表现数据进行数据预处理,得到样本数据;
以有标签的所述样本数据作为输入数据,以及以诊断意见作为输出数据建立基于深度学习的医疗影像诊断意见自动生成模型;
使用字符级别的触发器对所述医疗影像诊断意见自动生成模型注入攻击样本,利用n-gram算法找寻并过滤所述攻击样本中的错误词语并给予纠错建议,并结合对抗训练进一步提升所述医疗影像诊断意见自动生成模型的抗攻击性。
2.如权利要求1所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述数据预处理包括数据脱敏化处理、数据拆分和数据长度限制。
3.如权利要求2所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述数据脱敏化处理包括:利用正交匹配算法对所述影像表现数据中的患者信息进行筛选,得到不含所述患者信息的所述影像表现数据;所述数据拆分包括;对不含所述患者信息的所述影像表现数据中包含患者检查部位的描述、患者疾病描述,以及患者多次检查情况对比描述元素进行拆分;数据长度限制包括:对拆分后的所述影像表现数据进行截断或者填补操作,得到数据长度统一的所述样本数据。
4.如权利要求1所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述医疗影像诊断意见自动生成模型的建立过程包括:
以BERT作为基础网络建立预训练语言模型,将无标签的所述样本数据输入所述预训练语言模型进行训练,获得以中文医学专业术语为目标的所述预训练语言模型;
以所述预训练语言模型为基础,结合有标签的所述样本数据,使用UNILM策略进行微调,建立所述医疗影像诊断意见自动生成模型,深度挖掘输出影像表现和患者病理之间的关联特征,并将所述关联特征转换为相应的特征数据,通过深度学习模型解码输出所述特征数据;
利用Copy机制对输入的所述样本数据中的专业术语直接进行复制,通过所述医疗影像诊断意见自动生成模型输出所述诊断意见;
使用稀疏优化算法优化所述医疗影像诊断意见自动生成模型的激活函数。
5.如权利要求4所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,经过优化后的所述激活函数为:
,
其中,为所述激活函数的输出,为对数运算,为概率子集,表示概率值,为原始激活函数。
6.如权利要求1所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述利用n-gram算法找寻并过滤攻击样本中的错误词语并给予纠错建议包括:
对所述攻击样本进行分词及词性标注,分别统计每个词语上下文的一元、二元及三元n-gram词条,并对应地添加到n-gram词表里,在纠错阶段,对所述攻击样本中的当前词,利用所述当前词上下文的3个n-gram词条和所述n-gram词表,共同计算所述当前词在n-gram词表中出现的次数总和,若所述次数总和小于预设阈值则判定为触发词,获取用于对所述触发词进行纠错的候选词,以及所述候选词的词频,基于所述候选词和所述触发词之间的拼音编辑距离,计算所述候选词与所述触发词的拼音相似度,以各个所述拼音相似度为基准计算对应的所述候选词的分值,所有所述候选词按照所述分值从大到小进行排序,取前个所述候选词,若存在所述候选词与所述触发词的编辑距离小于或等于1,则优先返回当前的所述候选词,否则返回个所述候选词中拼音相似度最高的候选词。
7.如权利要求6所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述候选词的分值计算为:
,
其中,为候选词,为触发词,为候选词的词频,为候选词与触发词的拼音相似度数,为对应的词表字典的权重,为词表,3表示所使用的3个n-gram词条。
8.如权利要求1所述的抗后门攻击的智能医疗影像诊断意见自动生成方法,其特征在于,所述对抗训练加入到所述医疗影像诊断意见自动生成模型中,所述医疗影像诊断意见自动生成模型的训练损失计算过程为:
,
其中,为医疗影像诊断意见自动生成模型的训练集,为对抗样本,为对抗样本的标签,为医疗影像诊断意见自动生成模型的模型参数,为单个样本的,为对抗扰动,为扰动空间,为模型优化目标。
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行,以实现如权利要求1至8任一所述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现权利要求1至8任一所述的抗后门攻击的智能医疗影像诊断意见自动生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310029752.XA CN115938530B (zh) | 2023-01-09 | 2023-01-09 | 抗后门攻击的智能医疗影像诊断意见自动生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310029752.XA CN115938530B (zh) | 2023-01-09 | 2023-01-09 | 抗后门攻击的智能医疗影像诊断意见自动生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115938530A true CN115938530A (zh) | 2023-04-07 |
CN115938530B CN115938530B (zh) | 2023-07-07 |
Family
ID=86557791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310029752.XA Active CN115938530B (zh) | 2023-01-09 | 2023-01-09 | 抗后门攻击的智能医疗影像诊断意见自动生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115938530B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN110516695A (zh) * | 2019-07-11 | 2019-11-29 | 南京航空航天大学 | 面向医学图像分类的对抗样本生成方法及系统 |
CN113178255A (zh) * | 2021-05-18 | 2021-07-27 | 西安邮电大学 | 一种基于gan的医学诊断模型对抗攻击方法 |
US20220121710A1 (en) * | 2020-10-21 | 2022-04-21 | International Business Machines Corporation | Training a question-answer dialog sytem to avoid adversarial attacks |
CN115130098A (zh) * | 2022-06-27 | 2022-09-30 | 云南大学 | 一种针对恶意软件检测深度学习模型的动态后门攻击方法 |
CN115333869A (zh) * | 2022-10-14 | 2022-11-11 | 四川大学 | 一种分布式网络对抗攻击自训练学习方法 |
-
2023
- 2023-01-09 CN CN202310029752.XA patent/CN115938530B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019179100A1 (zh) * | 2018-03-20 | 2019-09-26 | 苏州大学张家港工业技术研究院 | 基于生成式对抗网络技术的医疗文本生成方法 |
CN110516695A (zh) * | 2019-07-11 | 2019-11-29 | 南京航空航天大学 | 面向医学图像分类的对抗样本生成方法及系统 |
US20220121710A1 (en) * | 2020-10-21 | 2022-04-21 | International Business Machines Corporation | Training a question-answer dialog sytem to avoid adversarial attacks |
CN113178255A (zh) * | 2021-05-18 | 2021-07-27 | 西安邮电大学 | 一种基于gan的医学诊断模型对抗攻击方法 |
CN115130098A (zh) * | 2022-06-27 | 2022-09-30 | 云南大学 | 一种针对恶意软件检测深度学习模型的动态后门攻击方法 |
CN115333869A (zh) * | 2022-10-14 | 2022-11-11 | 四川大学 | 一种分布式网络对抗攻击自训练学习方法 |
Non-Patent Citations (1)
Title |
---|
李文杰等: "1种应用于医学影像诊断报告的智能纠错方法", 《影像研究与医学应用》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117153418A (zh) * | 2023-10-31 | 2023-12-01 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
CN117153418B (zh) * | 2023-10-31 | 2024-03-19 | 暨南大学 | 抗后门攻击的智能早产儿视网膜病变分类预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115938530B (zh) | 2023-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444320B (zh) | 文本检索方法、装置、计算机设备和存储介质 | |
US11210468B2 (en) | System and method for comparing plurality of documents | |
US10606946B2 (en) | Learning word embedding using morphological knowledge | |
US9373075B2 (en) | Applying a genetic algorithm to compositional semantics sentiment analysis to improve performance and accelerate domain adaptation | |
CN111680159A (zh) | 数据处理方法、装置及电子设备 | |
CN112905795A (zh) | 文本意图分类的方法、装置和可读介质 | |
CN109947931A (zh) | 基于无监督学习的文本自动摘要方法、系统、设备及介质 | |
CN114528827A (zh) | 一种面向文本的对抗样本生成方法、系统、设备及终端 | |
Chen et al. | Plotcoder: Hierarchical decoding for synthesizing visualization code in programmatic context | |
CN115938530A (zh) | 抗后门攻击的智能医疗影像诊断意见自动生成方法 | |
CN113761875B (zh) | 事件抽取方法、装置、电子设备及存储介质 | |
WO2021234610A1 (en) | Method of and system for training machine learning algorithm to generate text summary | |
CN117152770A (zh) | 一种面向手写输入的书写能力智能评测方法及系统 | |
WO2022180989A1 (ja) | モデル生成装置及びモデル生成方法 | |
Zhao et al. | The Comprehensive Analysis of the Effect of Chinese Word Segmentation on Fuzzy-Based Classification Algorithms for Agricultural Questions | |
CN113988067A (zh) | 语句分词方法、装置及电子设备 | |
Zhang et al. | Medical Q&A statement NER based on ECA attention mechanism and lexical enhancement | |
KR102299001B1 (ko) | 문장의 중의성을 해결하고 생략된 문법 요소를 함께 표시하는 사용자 맞춤형 번역 방법 및 그 장치 | |
Kulkarni et al. | Deep Reinforcement-Based Conversational AI Agent in Healthcare System | |
US12073299B2 (en) | Systems and methods for using contrastive pre-training to generate text and code embeddings | |
CN117236347B (zh) | 交互文本翻译的方法、交互文本的显示方法和相关装置 | |
CN117725189B (zh) | 专业领域的生成式问答方法及电子设备 | |
US20240362421A1 (en) | Systems and methods for language model-based content classification | |
CN112347196B (zh) | 基于神经网络的实体关系抽取方法及装置 | |
US20240362209A1 (en) | Systems and methods for automatically generating source code |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |