CN114121206A - 一种基于多方联合k均值建模的病例画像方法及装置 - Google Patents

一种基于多方联合k均值建模的病例画像方法及装置 Download PDF

Info

Publication number
CN114121206A
CN114121206A CN202210087944.1A CN202210087944A CN114121206A CN 114121206 A CN114121206 A CN 114121206A CN 202210087944 A CN202210087944 A CN 202210087944A CN 114121206 A CN114121206 A CN 114121206A
Authority
CN
China
Prior art keywords
mean
case
node
vector
vectors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210087944.1A
Other languages
English (en)
Other versions
CN114121206B (zh
Inventor
陆林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongdian Cloud Computing Technology Co ltd
Original Assignee
CLP Cloud Digital Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CLP Cloud Digital Intelligence Technology Co Ltd filed Critical CLP Cloud Digital Intelligence Technology Co Ltd
Priority to CN202210087944.1A priority Critical patent/CN114121206B/zh
Publication of CN114121206A publication Critical patent/CN114121206A/zh
Application granted granted Critical
Publication of CN114121206B publication Critical patent/CN114121206B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/57Certifying or maintaining trusted computer platforms, e.g. secure boots or power-downs, version controls, system software checks, secure updates or assessing vulnerabilities
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Primary Health Care (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种基于多方联合K均值建模的病例画像方法及装置,包括:经由所述主节点初始化K均值模型的K个均值向量后,将各均值向量加密广播至各个子节点;各子节点:接收并解密多个均值向量后,遍历该子节点配置的各样本的特征向量与各均值向量之间的距离,确定该样本的类别;按照确定的类别对各样本进行分组,累加该组中各样本的特征向量;将特征向量累加的结果和统计的样本的数量经加密后发送至所述主节点;经由所述主节点基于各组的特征向量累加的结果以及各组的样本的数量,更新各均值向量;执行迭代,完成K均值模型训练。本发明方法联合多TEE节点参与模型训练,有效降低单一节点的计算资源开销,减少甚至避免节点内存溢出的问题。

Description

一种基于多方联合K均值建模的病例画像方法及装置
技术领域
本发明涉及数据处理技术,尤其涉及一种基于多方联合K均值建模的病例画像方法及装置。
背景技术
传统的无监督K均值聚类算法主要是数据集中式的训练模式。该方式需要多个数据持有方共享其数据集中到某一处,但病例数据是分散在各个医疗机构中,例如对新冠病例数据跨医院的收集存在如下问题:1)数据持有方(例如医疗机构)不愿意或者受限于制度不能公开共享这些病例数据;2)诊断病例中包含患病者的姓名、性别、年龄、所在地等敏感信息,一旦这些信息在数据流转与分析过程中泄露,将对患病个体带来负面的影响。
可信执行环境(Trusted Execution Environment,TEE)是基于可信硬件的一种隐私计算技术,它通过开辟一片独立的可信区域来确保数据与算法的完整性、安全性和一致性。利用可信执行环境,为促进多方共同参与K均值模型的隐私训练提供了安全保障。然而,传统的可信执行环境计算方式需要多方同时将加密数据传输给一个TEE结点,对通信负载造成较大的压力,同时当多方数据集较大时对TEE的内存开销也大,进行模型训练时容易造成通信延迟、内存溢出的问题。
发明内容
本发明实施例提供一种基于多方联合K均值建模的病例画像方法及装置,用以在主从架构下,联合多节点参与模型训练,不仅能够保护诊断病例中用户的隐私,还能有效降低单一TEE节点集中机密计算的资源开销,减少甚至避免节点内存溢出的问题。
本发明实施例提供一种多方联合的K均值模型训练方法,应用于可信执行环境TEE,所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本;
所述K均值模型训练方法包括:
经由所述主节点初始化所述K均值模型的K个均值向量后,将各均值向量加密广播至各个子节点;
各子节点:
接收多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别;
按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量;
将特征向量累加的结果和统计的病例样本的数量发送至所述主节点;
经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量;
执行迭代,完成K均值模型训练。
在一些实施例中,主节点初始化所述K均值模型的K个均值向量之前,所述K均值模型训练方法包括还包括:
所述主节点获取各子节点上传的该节点各病例样本特征向量的局部特征最值;
基于所有节点的病例样本特征向量的局部特征最值计算全局特征最值,以使得各子节点利用该全局特征最值对该子节点的病例样本特征向量进行归一化。
在一些实施例中,所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。
在一些实施例中,将各均值向量广播至各个子节点包括:基于各均值向量形成均值向量矩阵,并将该均值向量矩阵广播至各子节点。
在一些实施例中,所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。
在一些实施例中,累加该组中各病例样本的特征向量包括:
按照病例样本对应的类别,对该组病例样本的特征向量进行求和,以获得该组病例样本的局部求和矩阵。
在一些实施例中,经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量包括:
所述主节点接收所有子节点发送的局部求和矩阵;
将各局部求和矩阵按照K个索引对应累加求和,以获得对应的全局向量矩阵;
基于各全局向量矩阵与该组病例样本的数量的比值计算更新后的对应的均值向量。
本发明实施例还提出一种多方联合的K均值模型训练装置,应用于可信执行环境TEE,所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本;
所述K均值模型训练装置包括处理器,被配置为:
经由所述主节点初始化所述K均值模型的K个均值向量后,将各均值向量广播至各个子节点;
各子节点:
接收多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别;
按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量;
将特征向量累加的结果和统计的病例样本的数量发送至所述主节点;
经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量;
执行迭代,完成K均值模型训练。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明各实施例所述的多方联合的K均值模型训练方法的步骤。
本发明实施例通过主节点与子节点的主从模式,在子节点中完成病例样本的分组、特征向量累加以及病例样本数量统计,由主节点完成均值向量更新,由此联合多节点参与K均值模型的训练,有效降低单一节点的计算资源开销,减少甚至避免节点内存溢出的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例病例画像方法的多方联合架构示意图;
图2为本发明实施例的多方联合的病例画像方法的基本流程图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供一种基于多方联合K均值建模的病例画像方法,应用于可信执行环境TEE集群,所述TEE集群中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本。具体的,如图1所示,多方联合架构包括一个模型方TEE节点(主节点)和多个病例样本持有方TEE节点(子节点),其中主节点和子节点采用主从架构。
联合建模训练之前,各病例持有方将病例数据(例如可以是流感病例,新冠病例等等)加密后上传到各自的TEE节点,模型方TEE节点发起K均值建模任务,本实施例中的病例持有方(对应子节点)和模型方(对应主节点)均可以是独立的医疗机构或单位,其中模型方完成任务的调度,其他多方联合参与。
主节点包括全局预处理模块,用于实现均值向量的预处理等,聚合更新模块,用于更新各均值向量;各子节点包括局部预处理模块,用于根据全局向量对持有的病例样本进行局部计算,分组求和模块,用于对持有的病例样本进行求和等。
具体的,如图2所示,本发明实施例的K均值模型训练方法包括:
在步骤S201中、经由所述主节点初始化所述K均值模型的K个均值向量后,将各均值向量加密后广播至各个子节点。例如主节点可以随机初始化K均值模型的K个均值向量,均值向量的取值可以在0-1之间,然后广播给各子节点。在一些实施例中可以基于随机产生的各均值向量形成均值向量矩阵C,并将该均值向量矩阵C广播至各子节点。均值向量矩阵C中Ck表示第k个类别的均值向量,Ckj第k个类别的均值向量中第j个特征的值。
各子节点:
在步骤S202中、接收并解密多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别。本示例的主从架构中包含一个主节点和n个子节点。对于第i个子节点(0<i<n),接收到均值向量矩阵C后,子节点i遍历每条病例样本,计算其与K个类别均值向量的高斯距离,得到距离最小的类别作为该条病例样本所属的类别标签。
在步骤S203中、按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量。在一些示例中,累加该组中各病例样本的特征向量包括:按照病例样本对应的类别,对该组病例样本的特征向量进行求和,以获得该组病例样本的局部求和矩阵。子节点i遍历完成后,将所有病例样本按所属类别标签分组,按特征对应求和,并统计每一组的病例样本数目。本示例中定义
Figure 367047DEST_PATH_IMAGE001
为第i个病例样本持有方的局部分组求和矩阵。
在步骤S204中、将特征向量累加的结果和统计的病例样本的数量经过加密后发送至所述主节点。
在步骤S205中、经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量。具体的主节点接收n个病例样本提供方(n个子节点)局部计算得到的局部分组求和矩阵
Figure 465278DEST_PATH_IMAGE002
和局部分组病例样本数向量
Figure 713857DEST_PATH_IMAGE003
,并基于局部分组求和矩阵和局部分组病例样本数向量
Figure 30438DEST_PATH_IMAGE003
更新各均值向量。
在步骤S206中、执行迭代,完成K均值模型训练。继续执行迭代利用更新后的K个均值向量重复广播给各子节点,以完成模型训练。训练完成后利用训练好的K均值模型完成病例画像。
本发明实施例通过主节点与子节点的主从模式,在子节点中完成病例样本的分组、特征向量累加以及病例样本数量统计,由主节点完成均值向量更新,由此联合多节点参与K均值模型的训练,有效降低单一节点的计算资源开销,减少甚至避免节点内存溢出的问题。同时加密传输数据可以保证用户隐私的安全性。
在一些实施例中,主节点初始化所述K均值模型的K个均值向量之前,所述K均值模型训练方法包括还包括:
所述主节点获取各子节点上传的该节点各病例样本特征向量的局部特征最值。在一些示例中,所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。本示例中可以通过第i个子节点的局部预处理模块完成计算该子节点持有的病例样本的特征局部最小值、最大值以及完成对病例样本进行归一化。例如病例样本的特征数为d,第i个子节点病例样本的第j个特征的局部最小值和最大值分别表示为
Figure 313652DEST_PATH_IMAGE004
Figure 604956DEST_PATH_IMAGE005
。然后将加密后的局部最小值
Figure 793360DEST_PATH_IMAGE006
与局部最大值
Figure 726681DEST_PATH_IMAGE007
发送到模型方TEE结点(主节点)。
基于所有节点的病例样本特征向量的局部特征最值计算全局特征最值,以使得各子节点利用该全局特征最值对该子节点的病例样本特征向量进行归一化。
具体的,主节点接收加密后的各局部最小值
Figure 316931DEST_PATH_IMAGE004
与局部最大值
Figure 779137DEST_PATH_IMAGE005
,利用协商的私钥解密。然后对n个子节点的发送的每个特征的局部最大值取最大值作为全局最大值,对每个特征的局部最小值取最小值作为全局最小值。
主节点将所有特征的全局最大值与全局最小值加密后发送给各子节点,以使得各子节点利用全局最大值与全局最小值进行对该子节点的病例样本特征向量进行归一化。
在一些实施例中,所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。通过加密能够进一步提高数据的隐私性。
在一些实施例中,经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量包括:
所述主节点接收所有子节点发送的局部求和矩阵;
将各局部求和矩阵按照K个索引对应累加求和,以获得对应的全局向量矩阵;
基于各全局向量矩阵与该组病例样本的数量的比值计算更新后的对应的均值向量。
具体地,主节点接收所有子节点发送的局部求和矩阵
Figure 2308DEST_PATH_IMAGE002
和局部分组病例样本数向量
Figure 191849DEST_PATH_IMAGE003
,然后将各局部求和矩阵按照K个索引对应累加求和,以获得对应的全局向量矩阵。本实例中K个索引对应于K个均值向量。求得的全局向量矩阵与各均值向量对应。
对于第k个均值向量,利用n个字节点发送的分组求和矩阵计算新的均值向量满足:
Figure 184076DEST_PATH_IMAGE008
其中,
Figure 253401DEST_PATH_IMAGE009
为第i个病例样本持有方(第i个子节点)持有病例样本中属于第k类的病例样本条数。
Figure 891099DEST_PATH_IMAGE010
表示第i个病例样本持有方的局部分组求和矩阵中第k组第j个特征的求和值。
通过这样的方式更新各个均值向量,然后主节点将更新的均值向量发送给各子节点,执行迭代,记录全局聚合更新次数,如果小于预先设定的最大迭代次数则将更新后的C再次广播给所有子结点,如果大于最大迭代次数则保存当前的C作为训练好的K均值模型。
针对现有利用TEE进行k均值模型训练的不足,在不与现有基于可信执行环境相关专利发生冲突的前提下,本发明提供了一种基于可信执行环境的多方联合k均值模型训练方法。该方法基于主从架构的多TEE结点拓扑,其中模型方利用主TEE节点发起训练任务,数据持有方利用从TEE节点根据自身数据辅助训练,多方共同参与训练一个全局的k均值模型。利用多TEE节点构成的联合架构保证数据可用不可见,解决了敏感数据共享的隐私泄露问题。多个数据持有方的子节点通过加密模型相关参数传输,解决了通信延迟与主TEE节点内存溢出的问题。
本发明实施例还提出一种多方联合的K均值模型训练装置,应用于可信执行环境TEE,所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本;
所述K均值模型训练装置包括处理器,被配置为:
经由所述主节点初始化所述K均值模型的K个均值向量后,将各均值向量广播至各个子节点;
各子节点:
接收多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别;
按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量;
将特征向量累加的结果和统计的病例样本的数量发送至所述主节点;
经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量;
执行迭代,完成K均值模型训练。训练完成后利用训练好的K均值模型完成病例画像。
本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现本发明各实施例所述的多方联合的K均值模型训练方法的步骤
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (9)

1.一种基于多方联合K均值建模的病例画像方法,其特征在于,应用于可信执行环境TEE集群,所述TEE集群中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本;
所述病例画像方法包括:
经由所述主节点初始化K均值模型的K个均值向量后,将各均值向量广播至各个子节点;
各子节点:
接收多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别;
按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量;
将特征向量累加的结果和统计的病例样本的数量发送至所述主节点;
经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量;
执行迭代,完成K均值模型训练;
利用训练好的K均值模型完成病例画像。
2.如权利要求1所述的基于多方联合K均值建模的病例画像方法,其特征在于,主节点初始化所述K均值模型的K个均值向量之前,所述K均值模型训练方法包括还包括:
所述主节点获取各子节点上传的该节点各病例样本特征向量的局部特征最值;
基于所有节点的病例样本特征向量的局部特征最值计算全局特征最值,以使得各子节点利用该全局特征最值对该子节点的病例样本特征向量进行归一化。
3.如权利要求2所述的基于多方联合K均值建模的病例画像方法,其特征在于,所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。
4.如权利要求1所述的基于多方联合K均值建模的病例画像方法,其特征在于,将各均值向量广播至各个子节点包括:基于各均值向量形成均值向量矩阵,并将该均值向量矩阵广播至各子节点。
5.如权利要求4所述的基于多方联合K均值建模的病例画像方法,其特征在于,所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。
6.如权利要求1所述的基于多方联合K均值建模的病例画像方法,其特征在于,累加该组中各病例样本的特征向量包括:
按照病例样本对应的类别,对该组病例样本的特征向量进行求和,以获得该组病例样本的局部求和矩阵。
7.如权利要求6所述的基于多方联合K均值建模的病例画像方法,其特征在于,经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量包括:
所述主节点接收所有子节点发送的局部求和矩阵;
将各局部求和矩阵按照K个索引对应累加求和,以获得对应的全局向量矩阵;
基于各全局向量矩阵与该组病例样本的数量的比值计算更新后的对应的均值向量。
8.一种基于多方联合K均值建模的病例画像装置,其特征在于,应用于可信执行环境TEE,所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点,各子节点配置有训练用的多个病例样本;
所述病例画像装置包括处理器,被配置为:
经由所述主节点初始化所述K均值模型的K个均值向量后,将各均值向量广播至各个子节点;
各子节点:
接收多个均值向量后,遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离,以利用距离最小的均值向量确定该病例样本的类别;
按照确定的类别对各病例样本进行分组,累加该组中各病例样本的特征向量,以及,统计该组中病例样本的数量;
将特征向量累加的结果和统计的病例样本的数量发送至所述主节点;
经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量,更新各均值向量;
执行迭代,完成K均值模型训练。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多方联合K均值建模的病例画像方法的步骤。
CN202210087944.1A 2022-01-26 2022-01-26 一种基于多方联合k均值建模的病例画像方法及装置 Active CN114121206B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210087944.1A CN114121206B (zh) 2022-01-26 2022-01-26 一种基于多方联合k均值建模的病例画像方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210087944.1A CN114121206B (zh) 2022-01-26 2022-01-26 一种基于多方联合k均值建模的病例画像方法及装置

Publications (2)

Publication Number Publication Date
CN114121206A true CN114121206A (zh) 2022-03-01
CN114121206B CN114121206B (zh) 2022-05-20

Family

ID=80361360

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210087944.1A Active CN114121206B (zh) 2022-01-26 2022-01-26 一种基于多方联合k均值建模的病例画像方法及装置

Country Status (1)

Country Link
CN (1) CN114121206B (zh)

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229528A (zh) * 2017-08-16 2018-06-29 北京市商汤科技开发有限公司 聚类模型训练方法和装置、电子设备、计算机存储介质
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN110162981A (zh) * 2019-04-18 2019-08-23 阿里巴巴集团控股有限公司 数据处理方法及装置
CN110782044A (zh) * 2019-10-29 2020-02-11 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置
CN110969264A (zh) * 2019-12-11 2020-04-07 支付宝(杭州)信息技术有限公司 模型训练方法、分布式预测方法及其系统
CN111597348A (zh) * 2020-04-27 2020-08-28 平安科技(深圳)有限公司 用户画像方法、装置、计算机设备和存储介质
CN111612167A (zh) * 2019-02-26 2020-09-01 京东数字科技控股有限公司 机器学习模型的联合训练方法、装置、设备及存储介质
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
US20200382553A1 (en) * 2019-05-29 2020-12-03 Cisco Technology, Inc. Preserving privacy in exporting device classification rules from on-premise systems
CN112231746A (zh) * 2020-09-10 2021-01-15 杭州锘崴信息科技有限公司 联合数据分析方法、装置、系统及计算机可读存储介质
CN112749812A (zh) * 2019-10-29 2021-05-04 华为技术有限公司 一种联合学习系统、训练结果聚合的方法及设备
US20210365841A1 (en) * 2020-05-22 2021-11-25 Kiarash SHALOUDEGI Methods and apparatuses for federated learning
WO2021247448A1 (en) * 2020-06-01 2021-12-09 Intel Corporation Federated learning optimizations
CN113935469A (zh) * 2021-10-26 2022-01-14 城云科技(中国)有限公司 基于去中心化联邦学习的模型训练方法

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN108229528A (zh) * 2017-08-16 2018-06-29 北京市商汤科技开发有限公司 聚类模型训练方法和装置、电子设备、计算机存储介质
CN111612167A (zh) * 2019-02-26 2020-09-01 京东数字科技控股有限公司 机器学习模型的联合训练方法、装置、设备及存储介质
CN110162981A (zh) * 2019-04-18 2019-08-23 阿里巴巴集团控股有限公司 数据处理方法及装置
WO2020229684A1 (en) * 2019-05-16 2020-11-19 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Concepts for federated learning, client classification and training data similarity measurement
US20200382553A1 (en) * 2019-05-29 2020-12-03 Cisco Technology, Inc. Preserving privacy in exporting device classification rules from on-premise systems
CN110782044A (zh) * 2019-10-29 2020-02-11 支付宝(杭州)信息技术有限公司 多方联合训练图神经网络的方法及装置
CN112749812A (zh) * 2019-10-29 2021-05-04 华为技术有限公司 一种联合学习系统、训练结果聚合的方法及设备
WO2021082647A1 (zh) * 2019-10-29 2021-05-06 华为技术有限公司 一种联合学习系统、训练结果聚合的方法及设备
CN110969264A (zh) * 2019-12-11 2020-04-07 支付宝(杭州)信息技术有限公司 模型训练方法、分布式预测方法及其系统
CN111597348A (zh) * 2020-04-27 2020-08-28 平安科技(深圳)有限公司 用户画像方法、装置、计算机设备和存储介质
US20210365841A1 (en) * 2020-05-22 2021-11-25 Kiarash SHALOUDEGI Methods and apparatuses for federated learning
WO2021247448A1 (en) * 2020-06-01 2021-12-09 Intel Corporation Federated learning optimizations
CN112231746A (zh) * 2020-09-10 2021-01-15 杭州锘崴信息科技有限公司 联合数据分析方法、装置、系统及计算机可读存储介质
CN113935469A (zh) * 2021-10-26 2022-01-14 城云科技(中国)有限公司 基于去中心化联邦学习的模型训练方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
EN ZHANG: "Practical multi-party private collaborative k-means clustering", 《NEUROCOMPUTING》 *
RUIQI HOU 等: "Multi-Party Verifiable Privacy-Preserving Federated k-Means Clustering in Outsourced Environment", 《SECURITY AND COMMUNICATIOHN NETWORKS》 *
YONGKAI FAN: "PPMCK: Privacy-preserving multi-party computing for K-means clustering", 《JOURNAL OF PARALLEL AND DISTRIBUTED COMPUTING》 *

Also Published As

Publication number Publication date
CN114121206B (zh) 2022-05-20

Similar Documents

Publication Publication Date Title
Zhao et al. Inprivate digging: Enabling tree-based distributed data mining with differential privacy
CN112235264B (zh) 一种基于深度迁移学习的网络流量识别方法及装置
Liu et al. Keep your data locally: Federated-learning-based data privacy preservation in edge computing
CN111858955B (zh) 基于加密联邦学习的知识图谱表示学习增强方法和装置
WO2020038100A1 (zh) 一种特征关系推荐方法及装置、一种计算设备及存储介质
CN112101403B (zh) 基于联邦少样本网络模型的分类方法、系统及电子设备
Aminifar et al. Extremely randomized trees with privacy preservation for distributed structured health data
Yan et al. Active learning from multiple knowledge sources
CN111382283A (zh) 资源类别标签标注方法、装置、计算机设备和存储介质
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
CN115686868B (zh) 一种基于联邦哈希学习的面向跨节点多模态检索方法
Keller et al. Balancing quality and efficiency in private clustering with affinity propagation
Pathayapuram et al. An Ameliorated Ensemble Approach for IoT Resource Feature Selection Based on Discriminating and Service Relevance Criteria.
Fisichella et al. Partially-federated learning: A new approach to achieving privacy and effectiveness
WO2017107551A1 (zh) 信息确定方法及装置
CN117171711B (zh) 一种基于云平台的企业内外部数据融合共享方法及系统
Li et al. DVPPIR: privacy-preserving image retrieval based on DCNN and VHE
CN114121206B (zh) 一种基于多方联合k均值建模的病例画像方法及装置
CN114329127B (zh) 特征分箱方法、装置及存储介质
CN115348198A (zh) 基于特征检索的未知加密协议识别分类方法、设备及介质
US11625555B1 (en) Artificial intelligence system with unsupervised model training for entity-pair relationship analysis
Nie et al. Localizing the information source in a network
CN111935259A (zh) 目标帐号集合的确定方法和装置、存储介质及电子设备
Sun et al. Perfect: A hyperbolic embedding for joint social network alignment
Sharmila et al. BTLA-LSDG: Blockchain-based triune layered architecture for authenticated subgraph query search in large-scale dynamic graphs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP03 Change of name, title or address

Address after: 430058 No. n3013, 3rd floor, R & D building, building n, Artificial Intelligence Science Park, economic and Technological Development Zone, Caidian District, Wuhan City, Hubei Province

Patentee after: Zhongdian Cloud Computing Technology Co.,Ltd.

Address before: 430100 No. n3013, 3rd floor, R & D building, building n, Artificial Intelligence Science Park, Wuhan Economic and Technological Development Zone, Hubei Province

Patentee before: CLP cloud Digital Intelligence Technology Co.,Ltd.

CP03 Change of name, title or address