CN114121206A

CN114121206A - 一种基于多方联合k均值建模的病例画像方法及装置

Info

Publication number: CN114121206A
Application number: CN202210087944.1A
Authority: CN
Inventors: 陆林
Original assignee: CLP Cloud Digital Intelligence Technology Co Ltd
Current assignee: Zhongdian Cloud Computing Technology Co ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-03-01
Anticipated expiration: 2042-01-26
Also published as: CN114121206B

Abstract

本发明公开了一种基于多方联合K均值建模的病例画像方法及装置，包括：经由所述主节点初始化K均值模型的K个均值向量后，将各均值向量加密广播至各个子节点；各子节点：接收并解密多个均值向量后，遍历该子节点配置的各样本的特征向量与各均值向量之间的距离，确定该样本的类别；按照确定的类别对各样本进行分组，累加该组中各样本的特征向量；将特征向量累加的结果和统计的样本的数量经加密后发送至所述主节点；经由所述主节点基于各组的特征向量累加的结果以及各组的样本的数量，更新各均值向量；执行迭代，完成K均值模型训练。本发明方法联合多TEE节点参与模型训练，有效降低单一节点的计算资源开销，减少甚至避免节点内存溢出的问题。

Description

一种基于多方联合K均值建模的病例画像方法及装置

技术领域

本发明涉及数据处理技术，尤其涉及一种基于多方联合K均值建模的病例画像方法及装置。

背景技术

传统的无监督K均值聚类算法主要是数据集中式的训练模式。该方式需要多个数据持有方共享其数据集中到某一处，但病例数据是分散在各个医疗机构中，例如对新冠病例数据跨医院的收集存在如下问题：1）数据持有方（例如医疗机构）不愿意或者受限于制度不能公开共享这些病例数据；2）诊断病例中包含患病者的姓名、性别、年龄、所在地等敏感信息，一旦这些信息在数据流转与分析过程中泄露，将对患病个体带来负面的影响。

可信执行环境（Trusted Execution Environment，TEE）是基于可信硬件的一种隐私计算技术，它通过开辟一片独立的可信区域来确保数据与算法的完整性、安全性和一致性。利用可信执行环境，为促进多方共同参与K均值模型的隐私训练提供了安全保障。然而，传统的可信执行环境计算方式需要多方同时将加密数据传输给一个TEE结点，对通信负载造成较大的压力，同时当多方数据集较大时对TEE的内存开销也大，进行模型训练时容易造成通信延迟、内存溢出的问题。

发明内容

本发明实施例提供一种基于多方联合K均值建模的病例画像方法及装置，用以在主从架构下，联合多节点参与模型训练，不仅能够保护诊断病例中用户的隐私，还能有效降低单一TEE节点集中机密计算的资源开销，减少甚至避免节点内存溢出的问题。

本发明实施例提供一种多方联合的K均值模型训练方法，应用于可信执行环境TEE，所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本；

所述K均值模型训练方法包括：

经由所述主节点初始化所述K均值模型的K个均值向量后，将各均值向量加密广播至各个子节点；

各子节点：

接收多个均值向量后，遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离，以利用距离最小的均值向量确定该病例样本的类别；

按照确定的类别对各病例样本进行分组，累加该组中各病例样本的特征向量，以及，统计该组中病例样本的数量；

将特征向量累加的结果和统计的病例样本的数量发送至所述主节点；

经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量，更新各均值向量；

执行迭代，完成K均值模型训练。

在一些实施例中，主节点初始化所述K均值模型的K个均值向量之前，所述K均值模型训练方法包括还包括：

所述主节点获取各子节点上传的该节点各病例样本特征向量的局部特征最值；

基于所有节点的病例样本特征向量的局部特征最值计算全局特征最值，以使得各子节点利用该全局特征最值对该子节点的病例样本特征向量进行归一化。

在一些实施例中，所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。

在一些实施例中，将各均值向量广播至各个子节点包括：基于各均值向量形成均值向量矩阵，并将该均值向量矩阵广播至各子节点。

在一些实施例中，所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。

在一些实施例中，累加该组中各病例样本的特征向量包括：

按照病例样本对应的类别，对该组病例样本的特征向量进行求和，以获得该组病例样本的局部求和矩阵。

在一些实施例中，经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量，更新各均值向量包括：

所述主节点接收所有子节点发送的局部求和矩阵；

将各局部求和矩阵按照K个索引对应累加求和，以获得对应的全局向量矩阵；

基于各全局向量矩阵与该组病例样本的数量的比值计算更新后的对应的均值向量。

本发明实施例还提出一种多方联合的K均值模型训练装置，应用于可信执行环境TEE，所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本；

所述K均值模型训练装置包括处理器，被配置为：

经由所述主节点初始化所述K均值模型的K个均值向量后，将各均值向量广播至各个子节点；

各子节点：

执行迭代，完成K均值模型训练。

本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明各实施例所述的多方联合的K均值模型训练方法的步骤。

本发明实施例通过主节点与子节点的主从模式，在子节点中完成病例样本的分组、特征向量累加以及病例样本数量统计，由主节点完成均值向量更新，由此联合多节点参与K均值模型的训练，有效降低单一节点的计算资源开销，减少甚至避免节点内存溢出的问题。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本发明实施例病例画像方法的多方联合架构示意图；

图2为本发明实施例的多方联合的病例画像方法的基本流程图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供一种基于多方联合K均值建模的病例画像方法，应用于可信执行环境TEE集群，所述TEE集群中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本。具体的，如图1所示，多方联合架构包括一个模型方TEE节点(主节点)和多个病例样本持有方TEE节点(子节点)，其中主节点和子节点采用主从架构。

联合建模训练之前，各病例持有方将病例数据(例如可以是流感病例，新冠病例等等)加密后上传到各自的TEE节点，模型方TEE节点发起K均值建模任务，本实施例中的病例持有方(对应子节点)和模型方(对应主节点)均可以是独立的医疗机构或单位，其中模型方完成任务的调度，其他多方联合参与。

主节点包括全局预处理模块，用于实现均值向量的预处理等，聚合更新模块，用于更新各均值向量；各子节点包括局部预处理模块，用于根据全局向量对持有的病例样本进行局部计算，分组求和模块，用于对持有的病例样本进行求和等。

具体的，如图2所示，本发明实施例的K均值模型训练方法包括：

在步骤S201中、经由所述主节点初始化所述K均值模型的K个均值向量后，将各均值向量加密后广播至各个子节点。例如主节点可以随机初始化K均值模型的K个均值向量，均值向量的取值可以在0-1之间，然后广播给各子节点。在一些实施例中可以基于随机产生的各均值向量形成均值向量矩阵C，并将该均值向量矩阵C广播至各子节点。均值向量矩阵C中C_k表示第k个类别的均值向量，C_kj第k个类别的均值向量中第j个特征的值。

各子节点：

在步骤S202中、接收并解密多个均值向量后，遍历该子节点配置的各病例样本的特征向量与各均值向量之间的距离，以利用距离最小的均值向量确定该病例样本的类别。本示例的主从架构中包含一个主节点和n个子节点。对于第i个子节点(0＜i＜n)，接收到均值向量矩阵C后，子节点i遍历每条病例样本，计算其与K个类别均值向量的高斯距离，得到距离最小的类别作为该条病例样本所属的类别标签。

在步骤S203中、按照确定的类别对各病例样本进行分组，累加该组中各病例样本的特征向量，以及，统计该组中病例样本的数量。在一些示例中，累加该组中各病例样本的特征向量包括：按照病例样本对应的类别，对该组病例样本的特征向量进行求和，以获得该组病例样本的局部求和矩阵。子节点i遍历完成后，将所有病例样本按所属类别标签分组，按特征对应求和，并统计每一组的病例样本数目。本示例中定义

为第i个病例样本持有方的局部分组求和矩阵。

在步骤S204中、将特征向量累加的结果和统计的病例样本的数量经过加密后发送至所述主节点。

在步骤S205中、经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量，更新各均值向量。具体的主节点接收n个病例样本提供方(n个子节点)局部计算得到的局部分组求和矩阵

和局部分组病例样本数向量

，并基于局部分组求和矩阵和局部分组病例样本数向量

更新各均值向量。

在步骤S206中、执行迭代，完成K均值模型训练。继续执行迭代利用更新后的K个均值向量重复广播给各子节点，以完成模型训练。训练完成后利用训练好的K均值模型完成病例画像。

本发明实施例通过主节点与子节点的主从模式，在子节点中完成病例样本的分组、特征向量累加以及病例样本数量统计，由主节点完成均值向量更新，由此联合多节点参与K均值模型的训练，有效降低单一节点的计算资源开销，减少甚至避免节点内存溢出的问题。同时加密传输数据可以保证用户隐私的安全性。

所述主节点获取各子节点上传的该节点各病例样本特征向量的局部特征最值。在一些示例中，所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。本示例中可以通过第i个子节点的局部预处理模块完成计算该子节点持有的病例样本的特征局部最小值、最大值以及完成对病例样本进行归一化。例如病例样本的特征数为d，第i个子节点病例样本的第j个特征的局部最小值和最大值分别表示为

和

。然后将加密后的局部最小值

与局部最大值

发送到模型方TEE结点(主节点)。

具体的，主节点接收加密后的各局部最小值

与局部最大值

，利用协商的私钥解密。然后对n个子节点的发送的每个特征的局部最大值取最大值作为全局最大值，对每个特征的局部最小值取最小值作为全局最小值。

主节点将所有特征的全局最大值与全局最小值加密后发送给各子节点，以使得各子节点利用全局最大值与全局最小值进行对该子节点的病例样本特征向量进行归一化。

在一些实施例中，所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。通过加密能够进一步提高数据的隐私性。

所述主节点接收所有子节点发送的局部求和矩阵；

具体地，主节点接收所有子节点发送的局部求和矩阵

和局部分组病例样本数向量

，然后将各局部求和矩阵按照K个索引对应累加求和，以获得对应的全局向量矩阵。本实例中K个索引对应于K个均值向量。求得的全局向量矩阵与各均值向量对应。

对于第k个均值向量，利用n个字节点发送的分组求和矩阵计算新的均值向量满足：

其中，

为第i个病例样本持有方(第i个子节点)持有病例样本中属于第k类的病例样本条数。

表示第i个病例样本持有方的局部分组求和矩阵中第k组第j个特征的求和值。

通过这样的方式更新各个均值向量，然后主节点将更新的均值向量发送给各子节点，执行迭代，记录全局聚合更新次数，如果小于预先设定的最大迭代次数则将更新后的C再次广播给所有子结点，如果大于最大迭代次数则保存当前的C作为训练好的K均值模型。

针对现有利用TEE进行k均值模型训练的不足，在不与现有基于可信执行环境相关专利发生冲突的前提下，本发明提供了一种基于可信执行环境的多方联合k均值模型训练方法。该方法基于主从架构的多TEE结点拓扑，其中模型方利用主TEE节点发起训练任务，数据持有方利用从TEE节点根据自身数据辅助训练，多方共同参与训练一个全局的k均值模型。利用多TEE节点构成的联合架构保证数据可用不可见，解决了敏感数据共享的隐私泄露问题。多个数据持有方的子节点通过加密模型相关参数传输，解决了通信延迟与主TEE节点内存溢出的问题。

所述K均值模型训练装置包括处理器，被配置为：

各子节点：

执行迭代，完成K均值模型训练。训练完成后利用训练好的K均值模型完成病例画像。

本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现本发明各实施例所述的多方联合的K均值模型训练方法的步骤

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端（可以是手机，计算机，服务器或者网络设备等）执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，这些均属于本发明的保护之内。

Claims

1.一种基于多方联合K均值建模的病例画像方法，其特征在于，应用于可信执行环境TEE集群，所述TEE集群中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本；

所述病例画像方法包括：

经由所述主节点初始化K均值模型的K个均值向量后，将各均值向量广播至各个子节点；

各子节点：

执行迭代，完成K均值模型训练；

利用训练好的K均值模型完成病例画像。

2.如权利要求1所述的基于多方联合K均值建模的病例画像方法，其特征在于，主节点初始化所述K均值模型的K个均值向量之前，所述K均值模型训练方法包括还包括：

3.如权利要求2所述的基于多方联合K均值建模的病例画像方法，其特征在于，所述局部特征最值以及所述全局特征最值均包括相应的最大值和最小值。

4.如权利要求1所述的基于多方联合K均值建模的病例画像方法，其特征在于，将各均值向量广播至各个子节点包括：基于各均值向量形成均值向量矩阵，并将该均值向量矩阵广播至各子节点。

5.如权利要求4所述的基于多方联合K均值建模的病例画像方法，其特征在于，所述主节点向各子节点广播均值向量矩阵以及将特征向量累加的结果和统计的病例样本的数量发送至所述主节点的过程均进行加密处理。

6.如权利要求1所述的基于多方联合K均值建模的病例画像方法，其特征在于，累加该组中各病例样本的特征向量包括：

7.如权利要求6所述的基于多方联合K均值建模的病例画像方法，其特征在于，经由所述主节点基于各组的特征向量累加的结果以及各组的病例样本的数量，更新各均值向量包括：

所述主节点接收所有子节点发送的局部求和矩阵；

8.一种基于多方联合K均值建模的病例画像装置，其特征在于，应用于可信执行环境TEE，所述TEE中包括至少一个主节点以及多个与所述主节点连接的子节点，各子节点配置有训练用的多个病例样本；

所述病例画像装置包括处理器，被配置为：

各子节点：

执行迭代，完成K均值模型训练。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于多方联合K均值建模的病例画像方法的步骤。