CN113990454A - 基于联邦学习和特征提取的恶意行为识别方法 - Google Patents

基于联邦学习和特征提取的恶意行为识别方法 Download PDF

Info

Publication number
CN113990454A
CN113990454A CN202111255685.0A CN202111255685A CN113990454A CN 113990454 A CN113990454 A CN 113990454A CN 202111255685 A CN202111255685 A CN 202111255685A CN 113990454 A CN113990454 A CN 113990454A
Authority
CN
China
Prior art keywords
hospital
training set
accuracy
hospitals
semantic segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202111255685.0A
Other languages
English (en)
Inventor
杜冬高
柏杏丽
张劳模
李博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Henan Institute of Engineering
Original Assignee
Henan Institute of Engineering
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Henan Institute of Engineering filed Critical Henan Institute of Engineering
Priority to CN202111255685.0A priority Critical patent/CN113990454A/zh
Publication of CN113990454A publication Critical patent/CN113990454A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Radiology & Medical Imaging (AREA)

Abstract

本发明涉及人工智能技术领域,具体涉及一种基于联邦学习和特征提取的恶意行为识别方法。该方法包括各个医院训练自己的语义分割网络以得到对应语义分割网络的第一准确率,以第一准确率最大的语义分割网络的网络参数为初始值,依次对每个医院的语义分割网络进行网络训练和网络参数的更新,同时将每个语义分割网络训练后的新网络参数、损失函数值以及该语义分割网络在所有医院训练集上的第二准确率都存储在对应医院生成的区块中;根据区块中存储的数据获取每个医院的训练集异常程度,由训练集异常程度识别恶意行为。对每个医院的语义分割网络进行特征提取,来分析各医院之间的训练集差异情况,从而识别恶意行为。

Description

基于联邦学习和特征提取的恶意行为识别方法
技术领域
本发明涉及人工智能技术领域,具体涉及一种基于联邦学习和特征提取的恶意行为识别方法。
背景技术
随着医疗技术的进步,各医院纷纷利用先进的医疗设备来诊断疾病,例如利用X射线等透视成像设备和内窥镜设备或者核磁共振设备等,将病人的病情以图象数据的方式可视化出来,辅助医师跟价快速准确的诊断出病情和确定治疗方案。
随着人工智能技术的发展,利用各种各样的神经网络来根据医疗图像数据诊断病情,其中最常用的技术是利用神经网络分割医疗图像数据,获得图像上器官的病灶区域。但是由于单个医院的医疗图像数据样本少,带标签的数据样本更少,并且各个医院的医疗图像数据不共享,使得单个医院只能根据自身少量的医疗图像数据样本训练神经网络,虽然能够满足常规疾病的诊断,但是会导致神经网络的误诊率高,无法诊断出难以发现的病灶。
现有的联邦学习可以在医院不共享数据的情况下获得一个准确率高的神经网络,联邦学习的大致过程是各医院将各自训练的模型参数共享给中心服务器,中心服务器通将各医院的模型参数进行融合然后再分发给各医院,各医院在接收到的参数基础上继续训练模型,然后一直重复这个过程。联邦学习中利用数据的同态加密和身份验证等信息确保数据的安全。
各医院用于训练网络的数据集中的医疗图像数据的标注需要专业医师或相关人员标注,而由于医师和相关人员的技术或职业水平存在差异,使得标注图像样本标签的标准不能统一,导致有一些医院为了节省标注成本或者管理监督不当,可能会存在故意或者无意的引入错误的、不精确的标签数据的恶意行为,也可能存在一些篡改数据标签或者添加错误的标签的恶意网络攻击行为,也或者是恶意网络端攻击各医院的训练过程等,这些恶意行为使得图像数据样本的标签不匹配,网络参数引入噪声或干扰数据,导致神经网络的准确率下降。
发明内容
为了解决上述技术问题,本发明的目的在于提供一种基于联邦学习和特征提取的恶意行为识别方法,所采用的技术方案具体如下:
本发明实施例提供了一种基于联邦学习和特征提取的恶意行为识别方法,该方法包括以下具体步骤:
各个医院训练自己的语义分割网络,基于每个医院的数据集分别计算对应所述语义分割网络的第一准确率;将所述第一准确率最大的所述语义分割网络的网络参数存储在对应医院的区块中,且将该区块作为初始区块;所述数据集包括由多张医疗图像数据组成的训练集和测试集;
对所有医院进行编号排序,将每个医院生产的区块按编号顺序依次连接在所述初始区块上以构成区块链;以所述初始区块中的网络参数开始获取相邻下一级区块的新网络参数,依次将上一级区块中的所述新网络参数共享给其相邻下一级区块对应的所述语义分割网络以得到新语义分割网络;分别获取所有医院的训练集利用所述新语义分割网络的第二准确率,将所述新语义分割网络的所述新网络参数、损失函数值和所有医院的所述第二准确率都存储在对应的区块中;当所有医院的网络参数未完全收敛时,继续将最后一个医院的区块作为所述初始区块进行下一轮的网络训练直至所有医院的所述语义分割网络收敛;
根据所述区块链上每个区块中的所述第二准确率计算每个医院的初始训练集异常指标;基于两个医院之间训练集的相似度分别获取所有医院对一个医院的所述初始训练集异常指标的评估信任向量以得到每个医院对应的所述评估信任向量;结合所述评估信任向量和所述初始训练集异常指标得到每个医院的训练集异常程度,由所述训练集异常程度识别恶意行为。
优选的,所述第一准确率的获取方法,包括:
分别计算所述语义分割网络在所述训练集上的训练准确率和测试集上的测试准确率,进而由所述训练准确率和所述测试准确率计算出该语义分割网络的所述第一准确率。
优选的,所述根据所述区块链上每个区块中的所述第二准确率计算每个医院的初始训练集异常指标的方法,包括:
对于所述区块链上的所有区块,分别依次计算每个区块之后的连续多个区块上的损失函数均值,获取所述损失函数均值小于预设阈值时对应区块之后的所有目标区块;
根据所述目标区块中存储的所述第二准确率计算每个医院的所述初始训练集异常指标。
优选的,所述根据所述目标区块中存储的所述第二准确率计算每个医院的所述初始训练集异常指标的方法,包括:
基于相邻医院对应的两个所述目标区块,获取前一个医院的训练集分别在这两个所述目标区块中对应的所述第二准确率,以得到准确率差异;
根据这两个相邻医院对应的所有所述目标区块得到多个所述准确率差异以构成第一序列;
获取前一个医院对应的所有所述目标区块中的所述第二准确率以构成第二序列;
结合所述第一序列和所述第二序列计算前一个医院对后一个医院评估的所述初始训练集异常指标。
优选的,所述结合所述第一序列和所述第二序列计算前一个医院对后一个医院评估的所述初始训练集异常指标的方法,包括:
以设定长度窗口对所述第一序列进行滑窗滤波,计算每次滑窗内所包含的所述第一序列中对应元素的方差以得到方差序列;由所述窗口对所述第二序列进行均值滤波得到均值序列;结合所述方差序列和所述均值序列得到前一个医院对后一个医院评估的所述初始训练集异常指标。
优选的,所述结合所述评估信任向量和所述初始训练集异常指标得到每个医院的训练集异常程度的方法,包括:
计算当前医院与其他每个医院之间所述评估信任向量的欧氏距离,根据所述欧式距离分别得到当前医院与任意一个其他医院被相同医院信任的信任程度;
由其他每个医院的所述初始训练集异常指标和对应的所述信任程度得到其他所述医院的异常指标平均值;
结合当前医院的所述初始训练集异常指标和所述异常指标平均值得到所述当前医院的所述训练集异常程度。
优选的,所述训练集异常程度与所述初始训练集异常指标呈正相关、所述训练集异常程度与所述异常指标平均值呈负相关。
本发明实施例至少具有如下有益效果:通过对每个医院的语义分割网络的特征提取,以分析个医院之间的训练集差异情况,进而根据差异情况获取每个医院的的训练集异常程度,使得对每个医院的评估结果更加准确,对同时也降低了由训练集异常程度来识别恶意行为的误差,提高了每个医院对应神经网络的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种基于联邦学习和特征提取的恶意行为识别方法的步骤流程图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种基于联邦学习和特征提取的恶意行为识别方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构、或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种基于联邦学习和特征提取的恶意行为识别方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种基于联邦学习和特征提取的恶意行为识别方法的步骤流程图,该方法包括以下步骤:
步骤S001,各个医院训练自己的语义分割网络,基于每个医院的数据集分别计算对应语义分割网络的第一准确率;将第一准确率最大的语义分割网络的网络参数存储在对应医院的区块中,且将该区块作为初始区块;数据集包括由多张医疗图像数据组成的训练集和测试集。
具体的,对于任意一个医院a,构建一个语义分割网络,将医院a所有带标签的医疗图像数据作为数据集,其中,80%的数据集作为训练集,20%作为测试集,利用训练集训练出该语义分割网络的网络参数。
优选的,本发明实施例中的语义分割网络为U-Net网络结构。
分别计算语义分割网络在训练集上的训练准确率m和测试集上的测试准确率n,进而由训练准确率m和测试准确率n计算出该语义分割网络的第一准确率
Figure BDA0003324041540000041
分别训练每个医院的语义分割网络,并获取每个语义分割网络的第一准确率,进而将训练好的语义分割网络的网络参数和对应的第一准确率共享出去。
获取第一准确率最大的语义分割网络,并得到训练该语义分割网络的医院,该医院生一个区块,将该语义分割网络的网络参数打包进区块中,并让该区块连接在区块链上,如果没有区块链,就以该区块为创世区块构建一个区块链,则将该区块作为区块链上的初始区块。
区块链的目的是共享语义分割网络的网络参数,并防止网络攻击篡改网络参数。
步骤S002,对所有医院进行编号排序,将每个医院生产的区块按编号顺序依次连接在初始区块上以构成区块链,以初始区块中的网络参数开始获取相邻下一级区块的新网络参数,依次将上一级区块中的新网络参数共享给其相邻下一级区块对应的语义分割网络以得到新语义分割网络;分别获取所有医院的训练集利用新语义分割网络的第二准确率,将新语义分割网络的新网络参数、损失函数值和所有医院的第二准确率都存储在对应的区块中;当所有医院的网络参数未完全收敛时,继续将最后一个医院的区块作为初始区块进行下一轮的网络训练直至所有医院的语义分割网络收敛。
具体的,基于区块链的数据共享特点、联邦学习的数据使用和机器学习建模的特点对每个医院的语义分割网络进行训练直至网络全部收敛,具体过程为:
(1)对所有医院进行自定义编号排序,假设有N个医院,本发明实施例将所有医院进行{1、2、3、...、N}的编号。
(2)首先选择编号为1的第一医院,并让第一医院生成一个区块连接在初始区块上。然后第一医院的语义分割网络读取初始区块中存储的网络参数获取一个新语义分割网络,利用第一医院的训练集训练该新语义分割网络:将第一医院的训练集依次输入新语义分割网络中完成一轮训练和网络参数更新;训练过程中采用均方差损失函数;利用随机梯度下降算法更新网络参数。
(3)第一医院完成一轮训练后,得到对应的新网络参数和损失函数值。然后计算第一医院的新语义分割网络在该医院的训练集上的第二准确率,同时也分别获取其他医院的训练集利用第一医院的新语义分割网络时的第二准确率,将所有医院利用第一医院的新语义分割网络时计算的第二准确率、第一医院的新网络参数和损失函数值都存储在第一医院的区块中。
(4)然后按编号排序选择编号为2的第二医院,并第二医院生成一个区块连接在第一医院的区块上。第二医院的语义分割网络读取第一医院的区块中的新网络参数获取一个新语义分割网络,利用第二医院的训练集训练该新语义分割网络以完成第二医院的一轮训练,按照利用步骤(3)的方法获取所有医院利用第二医院的新语义分割网路时计算的第二准确率,同样将第二准确率、第二医院的新网络参数和损失函数值都存储在第二医院的区块中。
(5)利用步骤(2)至步骤(4)的方法按照编号排序依次将上一级区块中的新网络参数共享给相邻下一级区块对应的语义分割网络以获取新语义分割网络,也同样将每个医院对应的第二准确率、新网络参数和损失函数值都存储在对应各自的区块中。
(6)当所有医院的语义分割网络在完成第一轮训练后没有完全收敛时,继续以最后编号医院对应的区块作为初始区块对所有医院进行新一轮的网络训练,然后将每轮训练后产生的区块按顺序连接起来,直至所有医院的网络完全收敛停止训练。
步骤S003,根据区块链上每个区块中的第二准确率计算每个医院的初始训练集异常指标;基于两个医院之间训练集的相似度分别获取所有医院对一个医院的初始训练集异常指标的评估信任向量以得到每个医院对应的评估信任向量;结合评估信任向量和初始训练集异常指标得到每个医院的训练集异常程度,由训练集异常程度识别恶意行为。
具体的,在所有医院的语义分割网络完全收敛后,会构成一个由许多区块连接而成的区块链,对于区块链上的所有区块,分别依次计算每个区块之后的连续K个区块上的损失函数值均值,其中,本发明实施例中K为所有医院数量N的5倍。当损失函数均值小于预设阈值时,认为语义分割网络收敛到了一定程度,虽然语义分割网络没有完全学习到图像上的语义特征,但是学习到了所有医院的训练集上的数据样本的特征大致是如何分布的,因此,获取损失函数均值小于预设阈值时对应区块之后的其他所有区块,为了方便理解将这些区块都称为目标区块,对目标区块进行分析以得到每个医院的初始训练集异常指标,则具体过程为:
(1)以医院i为例,对于所有的目标区块,获取医院i-1所产生的任意一个目标区块,获取该目标区块中医院i-1利用自己训练集上的第二准确率
Figure BDA0003324041540000061
然后获取医院i-1对应目标区块后的下一个相邻目标区块,该相邻目标区块是由医院i生产的,进而获取相邻目标区块中医院i-1的训练集利用医院i的语义分割网络计算的第二准确率
Figure BDA0003324041540000062
需要说明的是,所有目标区块中的每个医院的目标区块的总数量是相同的,若存在不等的情况,则从区块链的末尾开始往前进行舍弃,以使得每个医院的目标区块的总数量相同。
(2)令
Figure BDA0003324041540000063
其中,
Figure BDA0003324041540000064
表示医院i在对语义分割网络训练前后,在医院i-1的训练集上的第二准确率的准确率差异。当医院i的训练集和医院i-1的训练集存在较大的差异(数据分布差异、标签制作差异)时,准确率差异
Figure BDA0003324041540000065
的绝对值越大。
(3)将医院i和医院i-1生成的目标区块作为一对区块,则可以获得一对第二准确率
Figure BDA0003324041540000066
进而能够计算一个准确率差异
Figure BDA0003324041540000067
在所有的目标区块中存在医院i和医院i-1生成的多对区块,可以得到多对第二准确率,则将多对第二准确率分别计算出的多个准确率差异
Figure BDA0003324041540000068
构成一个第一序列
Figure BDA0003324041540000069
需要说明的是,第一序列
Figure BDA00033240415400000610
表示医院i在对语义分割网络训练前后,在医院i-1的训练集上的准确率差异的变化序列,能够反映医院i和医院i-1的训练集差异情况。如果第一序列
Figure BDA00033240415400000611
在0附近以较小波进行变化(或者说波动变化逐渐趋近于0时),说明语义分割网络被医院i训练后,该语义分割网络依旧能医院i-1的训练集上(被训练前)提取到相同的特征,也即表征医院i-1和医院i的训练集分布一致;如果第一序列
Figure BDA00033240415400000612
在0附近的波动幅度较大,或者始终没有趋近于0的趋势,那么说明语义分割网络被医院i训练后,语义分割网络无法在医院i-1的训练集上(被训练前)提取到相同的特征,也即表征医院i-1和医院i的训练集分布不一致。
(4)在医院i-1所产生的每个目标区块中获取医院i-1的训练集所对应的第二准确率,将这些第二准确率按照目标区块生产的顺序构成一个第二序列
Figure BDA0003324041540000071
其中,第一序列
Figure BDA0003324041540000072
和第二序列
Figure BDA0003324041540000073
具有相同的长度。
需要说明的是,以医院i-1的视角来说,当第二序列
Figure BDA0003324041540000074
中的某个元素最大时,说明医院i-1在这个元素对应更新的网络参数在医院i-1的训练集上的第二准确率最大,则就越需要关注第一序列
Figure BDA0003324041540000075
中对应位置的元素大小,再根据这个元素的大小来判断医院i的训练集异常情况。
(5)结合第一序列
Figure BDA0003324041540000076
和第二序列
Figure BDA0003324041540000077
计算医院i-1对医院i评估的初始训练集异常指标。
具体的,以设定长度窗口对第一序列进行滑窗滤波,计算每次滑窗内所包含的第一序列中对应元素的方差以得到方差序列;由窗口对第二序列进行均值滤波得到均值序列;结合方差序列和均值序列得到前一个医院对后一个医院评估的初始训练集异常指标。
作为一个示例,获取一个长度为N的一维窗口,利用这个窗口对第一序列
Figure BDA0003324041540000078
进行滑窗滤波,每滑动一次窗口就计算第一序列
Figure BDA0003324041540000079
在窗口内所有元素的方差,该方差就是滑窗结果,该方差的大小表示第一序列的波动情况,方差越大说明在某一时刻对医院i-1来说医院i的训练集分布越异常,经过多次滑窗之后,获得的方差构成一个方差序列L′i,这个方差序列L′i反应了医院i-1所认为的医院i的训练集的异常情况。
优选的,本发明实施例中N=9。
同理,利用相同的窗口对第二序列
Figure BDA00033240415400000710
进行均值滤波,获得一个均值序列Q′i-1这个均值序列反映是方差序列中对应位置元素的关注程度,也即是方差序列中对应位置元素的权重值。
结合方差序列L′i和均值序列Q′i-1得到医院i-1对医院i评估的初始训练集异常指标Pi
Figure BDA00033240415400000711
其中,Q′i-1(x)为均值序列Q′i-1中第x元素的大小;L′i(x)为方差序列L′i中第x元素的大小。
参数解释:∑Q′i-1(x)*L′i(x)表示的是对方差序列L′i中的元素进行加权求和;
Figure BDA00033240415400000712
是一个归一化系数,目的是对均值序列Q′i-1中的元素进行归一化处理。
(6)利用步骤(1)至步骤(5)的方法,根据每个医院的相邻上一个医院的目标区块中存储的数据获取该医院的初始训练集异常指标。
进一步地,由于每个医院的初始训练集异常指标都是基于相邻上一级医院进行评估的,使得评估结果是片面的、不准确的,进而需要其他医院的训练集对当前医院的初始训练集异常指标进行信任评估,因此,根据所有目标区块中存储的第二准确率获取每个医院的信任向量,具体的过程为:
(1)同样以医院i为例,由于只根据医院i-1来评判医院i的初始训练集异常指标是片面的、不准确的,需要利用其他医院的训练集来对医院i-1的初始训练集异常指标进行信任评估,以得到医院i的信任向量。
具体的,以医院y为例来获取其对医院i的信任向量,首先获取医院i-1的语义分割网络在医院y的训练集上的第二准确率
Figure BDA0003324041540000081
由于医院i-1产生的多个目标区块,因此可以得到多个第二准确率(y),将这些第二准确率f(y)按照对应目标区块产生的顺序进行排列得到医院y的一个第三序列
Figure BDA0003324041540000082
其中,第三序列
Figure BDA0003324041540000083
和第二序列
Figure BDA0003324041540000084
具有相同的长度。
计算第三序列
Figure BDA0003324041540000085
和第二序列
Figure BDA0003324041540000086
之间的相似度
Figure BDA0003324041540000087
相似度越大说明医院y和医院i-1之间的训练集数据分布特征越相同,也说明医院y越信任医院i-1对医院i的初始训练集异常指标的评估结果。
同理,对其他每个医院都计算其与医院i-1之间对应第二准确率的相似度,能够得到多个相似度ρ,进而构成一个医院i的评估信任向量ρi,用于描述其他医院对于医院i-1对医院的初始训练集异常指标的评估结果的可信情况。
(2)利用步骤(1)的方法获取每个医院的评估信任向量。
进一步地,由于本发明实施例认为大多数医院的训练集数据是正常的、合理的,只有少数医院的训练集数据是异常的,因此,大多数医院的训练集异常程度低,少数医院的训练集异常程度高,而对于训练集异常的医院,大多数医院都信任或达成共识认为这个医院是异常的;对于训练集没有异常的医院,大多数医院都信任或达成共识认为这个医院的训练集不是异常的、是合理的。故,结合每个医院的初始训练集异常指标和评估信任向量计算每个医院的训练集异常程度,具体方法为:
计算当前医院与其他每个医院之间评估信任向量的欧氏距离,根据欧式距离分别得到当前医院与任意一个其他医院被相同医院信任的信任程度;由其他每个医院的初始训练集异常指标和对应的信任程度得到其他医院的异常指标平均值;结合当前医院的初始训练集异常指标和异常指标平均值得到当前医院的训练集异常程度。
作为一个示例,以医院i为例,由于医院i的训练集的初始训练集异常指标Pi表示的是医院i-1对医院i的训练集异常评估结果,因此本发明实施例需要综合所有医院来评估医院i的训练集异常情况,而不是只考虑医院i-1的评估结果。故,基于其他医院的训练集异常情况,考虑到大部分医院的训练集是不异常的,即大部分医院的异常指标较小,结合医院i的初始训练集异常指标Pi和评估信任向量ρi以及其他第j个医院的初始训练集异常指标Pj计算医院i的训练集异常程度
Figure BDA0003324041540000091
其中,γ(i,j)为医院i和医院j被相同医院信任的信任程度。
参数解释:
Figure BDA0003324041540000092
其中||ρij||2表示两个评估信任向量之间的欧氏距离,该值越小表示医院i和医院j被相同的医院信任,且信任程度γ(i,j)越大;
Figure BDA0003324041540000093
表示两个向量之间的内积,可知信任程度γ(i,j)越大就表示两个评估信任向量之间不仅欧氏距离近,而且这两个评估信任向量的长度较长,也就是说信任程度γ(i,j)越大表示同时信任医院i和医院j的医院相同且信任程度较大。
参数解释:∑j∈N-1,j≠iγ(i,j)×pj表示对其他医院的初始训练集异常指标pj的加权求和,即关注与医院i具有相同评估信任向量且信任程度较大的医院j的初始训练集异常指标;
Figure BDA0003324041540000094
是一个归一化系数,
Figure BDA0003324041540000095
相当于对其他所有医院的初始训练集异常指标pj进行加权求和得到异常指标平均值。
参数解释:
Figure BDA0003324041540000096
表示医院i的初始训练集异常指标与其他所有医院的异常指标平均值之间的差值,差值越大,表示医院i与其他医院之间的初始训练集异常指标差别较大,而由于大部分医院的训练集是正常的(异常指标平均值小),因此di越大表示医院i的训练集异常程度越大,即训练集异常程度与初始训练集异常指标呈正相关、训练集异常程度与异常指标平均值呈负相关。
进一步地,在获取到每个医院的训练集异常程度后,将训练集异常程度与预设的异常阈值进行比较,确认大于异常阈值的医院存在恶意行为篡改了医院的数据集,并提醒大于异常阈值的医院修复自己的数据集,或者将这些存在恶意行为的医院进行剔除,然后重新训练剩余医院的语义分割网络。
综上所述,本发明实施例提供了一种基于联邦学习和特征提取的恶意行为识别方法,该方法通过各个医院训练自己的语义分割网络得到每个语义分割网络的第一准确率,以第一准确率最大的语义分割网络的网络参数为初始值,依次对每个医院的语义分割网络进行网络训练和网络参数的更新,同时将每个语义分割网络训练后的新网络参数、损失函数值以及该语义分割网络在所有医院训练集上的第二准确率都存储在对应医院生成的区块中,进而在所有医院的网络完全收敛后得到了一个区块链;根据区块链上每个区块中的第二准确率计算每个医院的初始训练集异常指标;基于两个医院之间训练集的相似度分别获取所有医院对一个医院的初始训练集异常指标的评估信任向量以得到每个医院对应的评估信任向量;结合评估信任向量和初始训练集异常指标得到每个医院的训练集异常程度,由训练集异常程度识别恶意行为。通过对每个医院的语义分割网络的特征提取,以分析个医院之间的训练集差异情况,进而根据差异情况获取每个医院的的训练集异常程度,使得对每个医院的评估结果更加准确,对同时也降低了由训练集异常程度来识别恶意行为的误差,提高了每个医院对应神经网络的准确率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种基于联邦学习和特征提取的恶意行为识别方法,其特征在于,该方法包括:
各个医院训练自己的语义分割网络,基于每个医院的数据集分别计算对应所述语义分割网络的第一准确率;将所述第一准确率最大的所述语义分割网络的网络参数存储在对应医院的区块中,且将该区块作为初始区块;所述数据集包括由多张医疗图像数据组成的训练集和测试集;
对所有医院进行编号排序,将每个医院生产的区块按编号顺序依次连接在所述初始区块上以构成区块链;以所述初始区块中的网络参数开始获取相邻下一级区块的新网络参数,依次将上一级区块中的所述新网络参数共享给其相邻下一级区块对应的所述语义分割网络以得到新语义分割网络;分别获取所有医院的训练集利用所述新语义分割网络的第二准确率,将所述新语义分割网络的所述新网络参数、损失函数值和所有医院的所述第二准确率都存储在对应的区块中;当所有医院的网络参数未完全收敛时,继续将最后一个医院的区块作为所述初始区块进行下一轮的网络训练直至所有医院的所述语义分割网络收敛;
根据所述区块链上每个区块中的所述第二准确率计算每个医院的初始训练集异常指标;基于两个医院之间训练集的相似度分别获取所有医院对一个医院的所述初始训练集异常指标的评估信任向量以得到每个医院对应的所述评估信任向量;结合所述评估信任向量和所述初始训练集异常指标得到每个医院的训练集异常程度,由所述训练集异常程度识别恶意行为。
2.如权利要求1所述的方法,其特征在于,所述第一准确率的获取方法,包括:
分别计算所述语义分割网络在所述训练集上的训练准确率和测试集上的所述测试准确率,进而由所述训练准确率和所述测试准确率计算出该语义分割网络的所述第一准确率。
3.如权利要求1所述的方法,其特征在于,所述根据所述区块链上每个区块中的所述第二准确率计算每个医院的初始训练集异常指标的方法,包括:
对于所述区块链上的所有区块,分别依次计算每个区块之后的连续多个区块上的损失函数均值,获取所述损失函数均值小于预设阈值时对应区块之后的所有目标区块;
根据所述目标区块中存储的所述第二准确率计算每个医院的所述初始训练集异常指标。
4.如权利要求3所述的方法,其特征在于,所述根据所述目标区块中存储的所述第二准确率计算每个医院的所述初始训练集异常指标的方法,包括:
基于相邻医院对应的两个所述目标区块,获取前一个医院的训练集分别在这两个所述目标区块中对应的所述第二准确率,以得到所述准确率差异;
根据这两个相邻医院对应的所有所述目标区块得到多个所述准确率差异以构成第一序列;
获取前一个医院对应的所有所述目标区块中的所述第二准确率以构成第二序列;
结合所述第一序列和所述第二序列计算前一个医院对后一个医院评估的所述初始训练集异常指标。
5.如权利要求4所述的方法,其特征在于,所述结合所述第一序列和所述第二序列计算前一个医院对后一个医院评估的所述初始训练集异常指标的方法,包括:
以设定长度窗口对所述第一序列进行滑窗滤波,计算每次滑窗内所包含的所述第一序列中对应元素的方差以得到方差序列;由所述窗口对所述第二序列进行均值滤波得到均值序列;结合所述方差序列和所述均值序列得到前一个医院对后一个医院评估的所述初始训练集异常指标。
6.如权利要求1所述的方法,其特征在于,所述结合所述评估信任向量和所述初始训练集异常指标得到每个医院的训练集异常程度的方法,包括:
计算当前医院与其他每个医院之间所述评估信任向量的欧氏距离,根据所述欧式距离分别得到当前医院与任意一个其他医院被相同医院信任的信任程度;
由其他每个医院的所述初始训练集异常指标和对应的所述信任程度得到其他所述医院的异常指标平均值;
结合当前医院的所述初始训练集异常指标和所述异常指标平均值得到所述当前医院的所述训练集异常程度。
7.如权利要求6所述的方法,其特征在于,所述训练集异常程度与所述初始训练集异常指标呈正相关、所述训练集异常程度与所述异常指标平均值呈负相关。
CN202111255685.0A 2021-10-27 2021-10-27 基于联邦学习和特征提取的恶意行为识别方法 Withdrawn CN113990454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111255685.0A CN113990454A (zh) 2021-10-27 2021-10-27 基于联邦学习和特征提取的恶意行为识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111255685.0A CN113990454A (zh) 2021-10-27 2021-10-27 基于联邦学习和特征提取的恶意行为识别方法

Publications (1)

Publication Number Publication Date
CN113990454A true CN113990454A (zh) 2022-01-28

Family

ID=79742540

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111255685.0A Withdrawn CN113990454A (zh) 2021-10-27 2021-10-27 基于联邦学习和特征提取的恶意行为识别方法

Country Status (1)

Country Link
CN (1) CN113990454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677563A (zh) * 2022-04-08 2022-06-28 李燕秋 基于区块链的神经网络在线学习方法及系统
CN115473734A (zh) * 2022-09-13 2022-12-13 四川大学 基于单分类和联邦学习的远程代码执行攻击检测方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677563A (zh) * 2022-04-08 2022-06-28 李燕秋 基于区块链的神经网络在线学习方法及系统
CN115473734A (zh) * 2022-09-13 2022-12-13 四川大学 基于单分类和联邦学习的远程代码执行攻击检测方法
CN115473734B (zh) * 2022-09-13 2023-08-11 四川大学 基于单分类和联邦学习的远程代码执行攻击检测方法

Similar Documents

Publication Publication Date Title
Anitha et al. Brain tumour classification using two‐tier classifier with adaptive segmentation technique
US20210233658A1 (en) Identifying Relevant Medical Data for Facilitating Accurate Medical Diagnosis
US20210076977A1 (en) A method for analysis of cough sounds using disease signatures to diagnose respiratory diseases
CN109785928A (zh) 诊疗方案推荐方法、装置及存储介质
CN109036553A (zh) 一种基于自动抽取医疗专家知识的疾病预测方法
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Hossain et al. Vision transformers, ensemble model, and transfer learning leveraging explainable AI for brain tumor detection and classification
Mubarak et al. Local binary pattern and deep learning feature extraction fusion for COVID‐19 detection on computed tomography images
CN113990454A (zh) 基于联邦学习和特征提取的恶意行为识别方法
CN111657888A (zh) 重度急性呼吸窘迫综合症预警方法及系统
CN111738302A (zh) 一种基于多模态数据对阿尔茨海默病进行分类诊断的系统
CN111243753B (zh) 一种面向医疗数据的多因素相关性交互式分析方法
Ali et al. Alzheimer’s disease detection using m-random forest algorithm with optimum features extraction
CN112690802B (zh) 一种检测心电信号的方法、装置、终端及存储介质
Sharaev et al. Learning connectivity patterns via graph kernels for fmri-based depression diagnostics
US20230148955A1 (en) Method of providing diagnostic information on alzheimer's disease using brain network
WO2014130287A1 (en) Method and system for propagating labels to patient encounter data
Anantharajan et al. Automated brain tumor detection and classification using weighted fuzzy clustering algorithm, deep auto encoder with barnacle mating algorithm and random forest classifier techniques
CN117591953A (zh) 基于多组学数据的癌症分类方法、系统及电子设备
Lohar et al. Automatic classification of autism spectrum disorder (ASD) from brain MR images based on feature optimization and machine learning
Duman et al. Ensemble the recent architectures of deep convolutional networks for skin diseases diagnosis
CN116797817A (zh) 基于自监督图卷积模型的自闭症疾病预测技术
Mohapatra et al. Automated invasive cervical cancer disease detection at early stage through deep learning
CN114145844A (zh) 一种基于深度学习算法的腹腔镜手术人工智能云辅助系统
Ferber et al. In-context learning enables multimodal large language models to classify cancer pathology images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20220128

WW01 Invention patent application withdrawn after publication