CN116092683B

CN116092683B - 一种原始数据不出域的跨医疗机构疾病预测方法

Info

Publication number: CN116092683B
Application number: CN202310387135.7A
Authority: CN
Inventors: 张春梅; 朱汉忠; 许拥盛; 甘玉仙
Original assignee: Shenzhen Dashi Qiyun Health Technology Co ltd
Current assignee: Shenzhen Dashi Qiyun Health Technology Co ltd
Priority date: 2023-04-12
Filing date: 2023-04-12
Publication date: 2023-06-23
Anticipated expiration: 2043-04-12
Also published as: CN116092683A

Abstract

本发明公开了一种原始数据不出域的跨医疗机构疾病预测方法，涉及信息数据传输技术领域，解决了现有医疗机构因医疗数据存在的多方难协同、价值难共享，而无法对重大疾病进行科学预测的技术问题。该方法包括：确定a个医疗机构的公共就诊者；根据每个医疗机构的公共就诊者对应的健康数据，搭建疾病预测模型，对搭建的疾病预测模型在本地进行协同初始化；根据协同初始化的疾病预测模型，对疾病预测模型在本地进行协同训练，得到用于预测疾病的模型。本发明实现了各个医疗机构的原始数据不出域，有效保护了各医疗机构的医疗数据安全，使得医疗机构之间能够多方协同、安全共享医疗数据，有利于对重大疾病进行科学预测与预防。

Description

一种原始数据不出域的跨医疗机构疾病预测方法

技术领域

本发明涉及信息数据传输技术领域，尤其涉及一种原始数据不出域的跨医疗机构疾病预测方法。

背景技术

现有对疾病，特别是重大疾病预测的主流解决方案是构建AI模型，该模型可利用的数据量越大、维度越丰富，能够从中发现和学习到的特征就越多，基于此构建的AI模型的性能及应用价值也就越高。然而利用更多源、更多维度的高质量医疗数据进行模型训练依然不是一件容易的事情。不同于其它领域，“医疗数据不出院”需求强烈，整合难度更大，尽管各方都期待能够通过处理更多来源的数据以便得到更精确的AI模型，但受限于信息风险防控要求，各方数据多以孤岛型态存在，多方协同、价值共享很难实现。因而，通过各医疗机构联合建模以实现对重大疾病进行科学预测是亟需解决的问题。

发明内容

本发明的目的在于提供一种原始数据不出域的跨医疗机构疾病预测方法，以解决上述因医疗信息数据存在的无法多方协同、价值共享难，而导致的对重大疾病进行科学预测难的技术问题。本发明提供的诸多技术方案中的优选技术方案所能产生的诸多技术效果详见下文阐述。

为实现上述目的，本发明提供了以下技术方案：

本发明提供的一种原始数据不出域的跨医疗机构疾病预测方法，包括：

S100、对就诊者的就诊编号在a个医疗机构之间进行加密传输，加密的就诊编号在接收方进行交集运算，得到a个所述医疗机构的公共就诊者；其中，加密传输过程中采用多种加密方法配合用于对所述就诊编号进行交集运算；S200、根据每个所述医疗机构的公共就诊者对应的健康数据，搭建疾病预测模型，对搭建的所述疾病预测模型在本地进行协同初始化；S300、根据协同初始化的所述疾病预测模型，对所述疾病预测模型在本地进行协同训练，得到用于预测至少一种疾病的所述疾病预测模型。

进一步地，步骤S100包括如下步骤：

从a个所述医疗机构中选择一个所述医疗机构作为发起方医疗机构，所述发起方医疗机构对其就诊编号生成第一私密钥对和a-1个第一公共密钥对，并将所述公共密钥对分别发送给a-1个参与方医疗机构；所述发起方医疗机构对接收的每个所述参与方医疗机构对应的第一数据进行第一加密处理，得到每个所述参与方医疗机构对应的第二数据；所述发起方医疗机构对自己的就诊编号进行第二加密处理，得到所述发起方医疗机构的第三数据；将每个所述参与方医疗机构对应的第二数据和所述发起方医疗机构的第三数据，按照原接收路径发送给每个所述参与方医疗机构；所述发起方医疗机构接收每个所述参与方医疗机构与所述发起方医疗机构的就诊编号对应的交集，对接收的a-1个交集求交运算；对求交运算的集合进行所述第一加密处理后，按照原接收路径发送给每个所述参与方医疗机构；所述发起方医疗机构对其求交运算且经所述第一加密处理后的集合分别进行第三加密处理后，得到a个医疗机构的所述公共就诊者。

进一步地，所述的一种原始数据不出域的跨医疗机构疾病预测方法还包括如下步骤：

每个所述参与方医疗机构收到对应的所述公共密钥后，对各自的就诊编号进行第四加密处理，得到每个所述参与方医疗机构对应的第一数据，将所述第一数据发送给所述发起方医疗机构；每个所述参与方医疗机构收到其对应的所述第二数据和所述发起方医疗机构的第三数据后，对所述第二数据进行所述第三加密处理，得到第四数据；将所述第三数据、第四数据求交集，将交集后的集合进行所述第四加密处理后发送给所述发起方医疗机构；其中，每个所述参与方医疗机构对应的交集为每个所述参与方医疗机构与所述发起方医疗机构的公共就诊编号；每个所述参与方医疗机构对收到的所述发起方医疗机构求交运算的集合进行所述第三加密处理，得到a个医疗机构的所述公共就诊者。

进一步地，步骤S200包括如下步骤：

在每个所述医疗机构端，根据选择的所述疾病预测模型，搭建所述疾病预测模型的损失函数；对搭建的所述损失函数求梯度函数，得到每个所述医疗机构对应的梯度函数；其中，每个所述医疗机构对应的梯度函数为对每个所述医疗机构在所述损失函数中对应的权重参数求导数；根据搭建的所述损失函数和每个所述医疗机构对应的梯度函数，以及每个所述公共就诊者对应的健康数据和给定的权重参数初始值，计算每个所述医疗机构的初始损失值和初始疾病影响因子；根据计算的每个所述医疗机构的初始疾病影响因子，在每个所述医疗机构端协同计算每个所述医疗机构对应的初始损失值和初始梯度值；其中，疾病影响因子为公共就诊者对应的健康数据与权重参数的乘积。

进一步地，所述的一种原始数据不出域的跨医疗机构疾病预测方法还包括数据中心，在每个所述医疗机构端协同计算每个所述医疗机构对应的初始损失值和初始梯度值的步骤包括：

每个所述医疗机构接收到所述数据中心发送的第二公共密钥对后，根据各自的健康数据和给定的权重参数初始值计算各自的所述初始疾病影响因子，并将各自计算的所述初始疾病影响因子同态加密后发送给其他所述医疗机构；每个所述医疗机构接收到其他全部所述医疗机构对应的所述初始疾病影响因子解密后，根据各自的所述梯度函数计算各自的初始梯度值，根据所述损失函数计算各自的初始损失值，将各自计算的所述初始损失值和初始梯度值同态加密后发送给所述数据中心。

进一步地，第k种疾病的所述疾病预测模型的损失函数公式如下：

；

；

；

；

其中，n为公共就诊者的人数，x_i ^k为a个医疗机构的第i个就诊者患第k种疾病的m个影响因素对应的健康数据，w_i ^k为a个医疗机构的第i个就诊者患第k种疾病的m个影响因素对应的权重参数；y_i ^k为a个医疗机构的第i个就诊者患第k种疾病对应的标签值；

为常数；

为医疗机构1的权重参数，

为医疗机构2的权重参数，...，

为医疗机构a的权重参数；

为医疗机构1的健康数据，

为医疗机构2的健康数据，...，

为医疗机构a的健康数据。

进一步地，第j个所述医疗机构对应的梯度函数为：

。

进一步地，所述数据中心对所述疾病预测模型在本地进行协同训练的步骤包括：

S310、生成a个所述第二公共密钥对和第二私密钥对，并将所述第二公共密钥对发送给每个所述医疗机构；S320、接收每个所述医疗机构发送的每个所述医疗机构对应的所述初始损失值和初始梯度值；S330、根据接收的每个所述医疗机构对应的所述初始损失值和初始梯度值，计算a个所述医疗机构的总初始损失值和总初始梯度值，并对计算的总初始梯度值进行更新；将更新的总梯度值发送给每个所述医疗机构；S340、接收每个所述医疗机构发送的更新的损失值和更新的梯度值，根据接收的更新的损失值和更新的梯度值计算a个所述医疗机构更新的总损失值和更新的总梯度值；S350、更新的总梯度值是否不再变化，如是，执行步骤S360；否则，执行步骤S370；S360、结束对所述医疗机构对应的本地预测模型的协同训练，得到用于预测至少一种疾病的所述疾病预测模型；S370、对计算的更新的总梯度值进行更新，将更新后的总梯度值同态加密后发送给每个所述医疗机构，返回步骤S340。

每个所述医疗机构在收到所述数据中心更新的总梯度值，根据更新的总梯度值，更新各自的权重参数，并根据各自的健康数据、更新后的权重参数以及对应的梯度函数更新各自的疾病影响因子，并将其更新的所述疾病影响因子同态加密后发送给其他所述医疗机构；每个所述医疗机构接收到其他全部所述医疗机构的更新的疾病影响因子解密后，根据各自对应的所述梯度函数更新各自的梯度值，并根据所述损失函数更新各自的损失值；每个所述医疗机构均完成更新各自的损失值和梯度值后，将更新的损失值和更新的梯度值同态加密后发送给所述数据中心。

进一步地，所述疾病预测模型为逻辑回归模型，所述疾病预测模型能够预测至少一种疾病。

实施本发明上述技术方案中的一个技术方案，具有如下优点或有益效果：

本发明通过各医疗机构在本地计算预测模型的相关参数值，将相关参数值在各个医疗机构间传递来训练相关疾病预测模型，并不对就诊者的就诊数据本身进行传递。实现了各医疗机构的原始数据不出域，有效保护了各医疗机构的医疗数据安全，使得医疗机构之间能够多方协同、安全共享医疗数据，有利于对重大疾病进行科学预测与预防。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍，显而易见，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，附图中：

图1是本发明实施例的一种原始数据不出域的跨医疗机构疾病预测方法的流程图；

图2是本发明实施例的一种协同训练本地预测模型的流程图；

图3是本发明实施例的一种三家医疗机构本地协同训练三种慢性疾病预测模型的流程图。

具体实施方式

为了说明本发明所述的技术方案，下面通过具体实施例来进行说明，仅示出了与本发明实施例相关的部分。

实施例一：如图1-图2所示，本发明提供了一种原始数据不出域的跨医疗机构疾病预测方法，包括：

S100、对就诊者的就诊编号在a个医疗机构之间进行加密传输，加密的就诊编号在接收方进行交集运算，得到a个医疗机构的公共就诊者；其中，加密传输过程中采用多种加密方法配合用于对就诊编号进行交集运算；a为不小于2的整数。

S200、根据每个医疗机构的公共就诊者对应的健康数据，搭建疾病预测模型，对搭建的疾病预测模型在本地进行协同初始化。

S300、根据协同初始化的疾病预测模型，对疾病预测模型在本地进行协同训练，得到用于预测至少一种疾病的疾病预测模型。

本发明在多个医疗机构不公开各自共有患者就诊数据的前提下，通过确认各个医疗机构的公共就诊者，并联合这些公共就诊者的待预测疾病影响因素及其对应的相关健康数据（如就诊数据、调查数据等）进行联合建模。在确定各个医疗机构的公共就诊者后，各方医疗机构可以使用这些公共患者的数据（比如，就诊者在A医院做的日常饮食生活习惯问卷调查数据、身高、血压等数据，就诊者在B医院的冠状动脉手术记录、总胆固醇值等数据）来协同训练诸如心血管疾病、糖尿病、冠心病等至少一种重大疾病的预测模型。训练后的预测模型便可用于相关疾病的预测，进而实现对重大疾病（如慢性病）的预防和科学管理。进一步地，本发明通过各医疗机构在本地计算预测模型的相关参数值，并将相关参数值在各个医疗机构间传递来训练相关疾病预测模型，并不对就诊者的就诊数据本身进行传递，有效保护了各医疗机构的医疗数据安全，同时采用加密技术实现了可用不可见运用各机构的医疗数据。进而，实现了各医疗机构的原始数据不出域，有效保护了各医疗机构的医疗数据安全，各方医疗机构的健康数据不以孤岛型态存在，使多方协同、价值共享成为可能。

需说明的是，在实施本方法前，需要确定待预测疾病的多个影响因素，影响因素为能够导致就诊者患待预测疾病的权重参数。如上述的心血管疾病，影响心血管疾病的因素有日常饮食生活习惯问卷调查数据、身高、血压、冠状动脉手术记录、总胆固醇值等，而这些影响因素对应的具体数据（本实施例的健康数据）极大可能来自不同的医疗机构。

进一步地，在步骤S100中，每个医疗机构的所有就诊者的就诊编号构成一个集合。在确定a个医疗机构的公共就诊者的过程中，要保证加密的同时，最重要的是实现就诊者的就诊数据在加密的前提下能够进行交集运算。为此，本发明实施例对就诊者的就诊数据（如就诊编号）采用多种不同加密方法（如下文所述的第一加密处理至四加密处理步骤）进行配合，来对加密后的就诊数据求交集运算，以此达到数据源相通、数据处理步骤相同，进而有效获取a个医疗机构的公共就诊者，实现了即能高效获取公共就诊者，又保证了数据传输极高的安全性。

基于上述情况，作为一种可选的实施方式，步骤S100包括如下步骤：

从a个医疗机构中选择一个医疗机构作为发起方医疗机构，发起方医疗机构对其就诊编号生成第一私密钥对和a-1个第一公共密钥对，并将公共密钥对分别发送给a-1个参与方医疗机构。需说明的是，本实施例的就诊编号可以为但不限于就诊者的身份证号码、医保卡号等标志就诊者唯一身份的数据。为了保证数据安全，对就诊编号就行了加密处理，而且数据加密在本地加密。设置私秘钥用于解密（以下同）。

发起方医疗机构对接收的每个参与方医疗机构对应的第一数据进行第一加密处理，得到每个参与方医疗机构对应的第二数据；发起方医疗机构对自己的就诊编号进行第二加密处理，得到发起方医疗机构的第三数据；将每个参与方医疗机构对应的第二数据和发起方医疗机构的第三数据，按照原接收路径发送给每个参与方医疗机构。需说明的是，按照原接收路径发送实现了发起方医疗机构与每个参与方医疗机构数据的一对一传输，提升了数据传输的安全。

发起方医疗机构接收每个参与方医疗机构与发起方医疗机构的就诊编号对应的交集，对接收的a-1个交集求交运算；对求交运算的集合进行第一加密处理后，按照原接收路径发送给每个参与方医疗机构。需说明的是，a-1个参与方分别与一个发起方就就诊编号进行求交集（集合的交运算），得到a-1交集，每个交集为发起方与每个参与方对应的就诊者的相同编号，即求得发起方与每个参与方对应的公共就诊者。

发起方医疗机构对其求交运算且经第一加密处理后的集合进行第三加密处理后，得到a个医疗机构的公共就诊编号对应的公共就诊者。需说明的是，在发起方将a-1个交集再次求交集，便得到a个医疗机构的公共就诊编号对应的公共就诊者，经过第三加密处理后便可在发起方得到上述公共就诊者的编号，通过共同编号，就可以从对方获取公共就诊者在多方医疗机构的就诊数据（健康数据）经计算或处理的数据。

通过上述步骤，便可在发起方医疗机构得到a个医疗机构的公共就诊者。当然还需在参与方医疗机构获得a个医疗机构的公共就诊者。

作为一种可选的实施方式，本实施例的一种原始数据不出域的跨医疗机构疾病预测方法，还包括如下步骤：

每个参与方医疗机构收到对应的公共密钥后，对各自的就诊编号进行第四加密处理，得到每个参与方医疗机构对应的第一数据，将第一数据发送给发起方医疗机构；

每个参与方医疗机构收到其对应的第二数据和发起方医疗机构的第三数据后，对第二数据进行第三加密处理，得到第四数据；将第三数据、第四数据求交集，将交集后的集合进行第四加密处理后发送给发起方医疗机构。其中，每个参与方医疗机构对应的交集为每个参与方医疗机构与发起方医疗机构的公共就诊编号构成的集合。需说明的是，此步骤得到与a-1个参与方医疗机构一一对应的交集集合，每个交集仅包含了每个参与方医疗机构与发起方医疗机构之间共有的就诊者。

每个参与方医疗机构对收到的发起方医疗机构求交运算的集合进行第三加密处理，得到a个医疗机构的公共就诊编号对应的公共就诊者。

作为一种可选的实施方式，第一加密处理步骤包括：对上述对应数据进行d次幂运算；第二加密处理步骤包括：对上述对应数据进行哈希运算，对哈希运算的数据进行d次幂运算，对d次幂运算的数据进行哈希运算；第三加密处理步骤包括：对上述对应数据去除随机数，对去除随机数的数据进行哈希运算；第四加密处理步骤包括：对上述对应数据进行哈希运算，对哈希运算的数据乘以随机数。

需说明的是，按照上述加密方法，第三数据、第四数据本质上是对相应数据进行相同处理后得到的，所以如果源数据相同，处理后的数据也相同，所以根据第三数据和第四数据求交集的结果，每个参与方医疗机构可以判断出参与方医疗机构和发起方医疗机构的共同数据有哪些，进而能够有效找出各参与方医疗机构与发起方医疗机构之间的公共就诊者。同样在发起方医疗机构第三数据、第四数据的交集再次求交集，亦能有效得到a个医疗机构之间的公共就诊者。

作为一种可选的实施方式，步骤S200包括如下步骤：

在每个医疗机构端，根据选择的疾病预测模型，搭建疾病预测模型的损失函数；对搭建的损失函数求梯度函数，得到每个医疗机构对应的梯度函数，其中，每个医疗机构对应的梯度函数为对每个医疗机构在损失函数中对应的权重参数求导数；根据搭建的损失函数和每个医疗机构对应的梯度函数，以及每个公共就诊者对应的健康数据和给定的权重参数初始值，计算每个医疗机构的初始损失值和初始疾病影响因子；根据计算的每个医疗机构的初始疾病影响因子，在每个医疗机构端协同计算每个医疗机构对应的初始损失值和初始梯度值；其中，疾病影响因子为公共就诊者对应的健康数据与权重参数的乘积，如下文所述的w^Tx，w^Tx=（w₁ ^Tx₁，w₂ ^Tx₂，…，w_a ^Tx_a）。

进一步地，根据待预测的疾病及其对应的数据特点，本实施例的疾病预测模型可以为逻辑回归模型，该疾病预测模型能够预测至少一种疾病。本实施例的一种逻辑回归模型公式为：

（1）；

其中，w^Tx为就诊者患待预测疾病的m个影响因素对应的权重参数和m个影响因素对应的健康数据的乘积，y为对应的预测概率，T为转置（下同）。根据逻辑回归模型（当然本实施例的疾病预测模型并不限于逻辑回归模型）构建损失函数如下：

已知在传统逻辑回归算法中，其标签值是{0,1}时的模型损失函数为：

（2）；

其中，n为本实施例公共就诊者的个数，x对应有m个权重参数（影响待预测疾病的因素），则x_i＝{x_i1,x_i2,...,x_im}，w^Tx＝w₀+w₁x₁+w₂x₂+w_mx_m，y_i为第i个公共患者的标签值，取值为0或1。对函数

使用二阶泰勒展开：

（3）；

其中，

是高阶无穷小，趋近于0。将上述二阶泰勒展开式代入传统逻辑回归算法的损失函数中，可将损失函数转化为：

（4）；

结合本实施例的a个医疗机构和至少一种疾病得到第k种疾病的疾病预测模型的损失函数公式如下：

；

；

；

；

其中，n为公共就诊者的人数，x_i ^k为a个医疗机构的第i个就诊者患第k种疾病的m个影响因素对应的健康数据，w_i ^k为a个医疗机构的第i个就诊者患第k种疾病的m个影响因素对应的权重参数；y_i ^k为a个医疗机构的第i个就诊者患第k种疾病对应的标签值，标签值具体参见实施例二；

为常数；

为医疗机构1的权重参数，

为医疗机构2的权重参数，...，

为医疗机构a的权重参数；

为医疗机构1的健康数据，

为医疗机构2的健康数据，...，

为医疗机构a的健康数据。

对上述损失函数公式的权重参数w求导数，得到第j个医疗机构对应的梯度函数为：

（6）；

作为一种可选的实施方式，还包括数据中心，在每个医疗机构端协同计算每个医疗机构对应的初始损失值和初始梯度值的步骤包括：

每个医疗机构接收到数据中心发送的第二公共密钥对后，根据各自的健康数据和给定的权重参数初始值计算各自的初始疾病影响因子，并将各自计算的初始疾病影响因子同态加密后发送给其他医疗机构；每个医疗机构接收到其他全部医疗机构对应的初始疾病影响因子解密后，根据各自的梯度函数计算各自的初始梯度值，根据损失函数计算各自的初始损失值，将各自计算的初始损失值和初始梯度值同态加密后发送给数据中心。需说明是的，上述同态加密可以为加法和乘法同态（下同）。

作为一种可选的实施方式，数据中心对疾病预测模型在本地进行协同训练的步骤包括：

S310、生成a个第二公共密钥对和第二私密钥对，并将第二公共密钥对发送给每个医疗机构；

S320、接收每个医疗机构发送的每个医疗机构对应的初始损失值和初始梯度值；

S330、根据接收的每个医疗机构对应的初始损失值和初始梯度值，计算a个医疗机构的总初始损失值和总初始梯度值，并对计算的总初始梯度值进行更新；将更新的总梯度值发送给每个医疗机构；

S340、接收每个医疗机构发送的更新的损失值和更新的梯度值，并进行解密；根据解密的更新的损失值和更新的梯度值计算a个医疗机构更新的总损失值和更新的总梯度值；

S350、更新的总梯度值是否不再变化，如是，执行步骤S360；否则，执行步骤S370；需说明的是，若上次计算的更新的总梯度值与本次计算的更新的总梯度值差为0，则更新的总梯度值是否不再变化；

S360、结束对医疗机构对应的本地预测模型的协同训练，得到用于预测至少一种疾病的疾病预测模型；

S370、对计算的更新的总梯度值进行更新，将更新后的总梯度值同态加密后发送给每个医疗机构，返回步骤S340。

需说明的是，权重参数进行优化更新的方法包括但不限于梯度法求最优解算法。

作为一种可选的实施方式，一种原始数据不出域的跨医疗机构疾病预测方法，还包括如下步骤：

每个医疗机构在收到数据中心更新的总梯度值，根据更新的总梯度值，更新各自的权重参数（如，更新的权重参数等于当前的权重参数加上总梯度值），并根据各自的健康数据、更新后的权重参数以及对应的梯度函数更新各自的疾病影响因子，并将其更新的疾病影响因子同态加密后发送给其他医疗机构；每个医疗机构接收到其他全部医疗机构的更新的疾病影响因子解密后，根据各自对应的梯度函数更新各自的梯度值，并根据损失函数更新各自的损失值；每个医疗机构均完成更新各自的损失值和梯度值后，将更新的损失值和更新的梯度值同态加密后发送给数据中心。

综上所述，本发明通过各医疗机构在本地计算预测模型的相关参数值，将相关参数值在各个医疗机构间传递来训练相关本地预测模型，并不对就诊者的就诊数据本身进行传递，有效保护了各医疗机构的医疗数据安全，同时采用加密技术实现了可用不可见运用各医疗机构的医疗数据。进而，各方医疗机构的健康数据不以孤岛型态存在，使多方协同、价值共享成为可能，有利于对重大疾病进行科学预测与预防。

实施例二：如图3所示，本实施例提供了利用实施例一中所述的一种原始数据不出域的跨医疗机构疾病预测方法实现三家医疗机构院（医疗机构A、医疗机构B和医疗机构C）的医疗数据在不出院情况下协同地训练慢性疾病预测模型，其中，慢性病包括冠心病、糖尿病、脑卒中。最后利用训练后的慢性疾病预测模型预测上述三种慢性疾病。确定医疗机构A、医疗机构B、医疗机构C公共就诊者步骤如下：

医疗机构C（发起方）的就诊者ID数据（如身份证号码）由RSA算法产生公共密钥对（n，e）、（n，f）以及私密钥对（n，d)，并分别将公共密钥对（n，e）、（n，f）分发给医疗机构A和医疗机构B；

医疗机构A接收到公共密钥对（n，e）后，对自己拥有的就诊者ID数据取哈希值乘以随机数的方式进行加密处理，并将加密后的数据1a发送给医疗机构C；医疗机构B接收到公共密钥对（n，f）后，对自己拥有的就诊者ID数据取哈希值乘以随机数的方式进行加密处理，并将加密后的数据1b发送给医疗机构C；

医疗机构C得到数据1a和数据1b后，由于哈希机制的原理和随机数未知，很难反推出医疗机构A和医疗机构B的就诊者ID数据。医疗机构C对数据1a取d次幂得到数据2a，医疗机构C对数据1b取d次幂得到数据2b，再对自己的就诊者ID数据取哈希再d次幂再哈希，得到二次加密数据3，接着将数据2a和数据3发送给医疗机构A，将数据2b和数据3发送给医疗机构B；

医疗机构A得到数据2a和数据3后，同理也反推不出医疗机构C的就诊者ID数据，再对数据2a去除随机数后再哈希，得到数据4a；医疗机构B得到数据2b和数据3后，同理反推不出医疗机构C的就诊者ID数据，医疗机构B对数据2b去除随机数后再哈希，得到数据4b；数据3和数据4a、数据4b本质上是对数据进行相同处理后得到的数据，所以如果源数据相同，处理后的数据也相同，所以医疗机构A根据数据3和数据4a求就诊者ID交集的结果可以判断出医疗机构A和医疗机构C的共同数据有哪些，医疗机构B根据数据3和数据4b求就诊者ID交集的结果可以判断出医疗机构B和医疗机构C的共同数据有哪些。医疗机构A将医疗机构A和医疗机构C的交集5a，取哈希值乘以随机数的方式进行加密，并将加密后的数据6a发送给医疗机构C；医疗机构B将医疗机构B和医疗机构C的交集5b，取哈希值乘以随机数的方式进行加密，并将加密后的数据6b发送给医疗机构C；

医疗机构C对数据6a和数据6b求就诊者ID交集e，并对e进行d次幂得到数据f，接着将数据f发送给医疗机构A和医疗机构B；医疗机构A对数据f去除随机数后再hash得到医疗机构A、医疗机构B、医疗机构C三方的就诊者ID交集；医疗机构B对数据f去除随机数后再hash得到医疗机构A、医疗机构B、医疗机构C三方的就诊者ID交集。

在确定医疗机构A、医疗机构B、医疗机构C公共就诊者后，各方可以使用这些公共就诊者的数据，如，就诊者在医疗机构A做的日常饮食生活习惯问卷调查数据。包括身高(cm)、体重（kg)、BMI(kg/㎡)、收缩压(mmol/L)、舒张压(mmol/L)、性别、年龄、腰围(cm)、是否吸烟、吸烟量/每天、吸烟时间（年）、平均饮酒次数/每周、平均饮酒量/每次、平均运动次数/每周、平均运动时长（小时)/每次、平均食用腌制食品次数/每周、饮食偏好(荤/素）、工作中紧张程度、家中紧张程度、吸入空气质量共20个特征数据，记为

；就诊者在医疗机构B的 OGTT、颈动脉超声、家族中患有高胆固醇血症人数、家族中患有冠心病人数、家族中患有高血压人数、家族中患有糖尿病人数、家族中患有脑卒中人数、是否同吸烟者生活/工作、心电图是否有ST段改变、是否有心律不齐、甘油三酯(mmol/L)、CTNI(ng/ml）、BNP(pg/ml)、CKMB(ug/L)、MYO(ng/ml)共15个特征数据，记为

；就诊者在医疗机构C的现病史、既往史、是否有胸痛、胸痛持续时长(分钟)、胸痛是否与活动有关、是否有气喘、气喘持续时长（分钟）、气喘是否与活动有关、是否有胸闷、胸闷持续时长（分钟）、胸闷是否与活动有关、是否有气短、气短是否与活动有关、是否有恶心、是否有头晕、是否平卧困难、是否有头痛、是否有四肢麻木/乏力、是否有出汗、是否有心悸、心悸持续时长（分钟）、心悸是否与活动有关、是否有晕厥、晕厥次数、其他疼痛部位、冠脉CT是否异常、冠脉CT狭窄程度、总胆固醇值(mmol/L)、高密度脂蛋白(mmol/L)、低密度脂蛋白(mmol/L)共30个特征数据，记为

；以及就诊者在医疗机构C的慢性疾病诊断结果作为标签数据，记为y{y⁰,y¹,y²,y³}（其中，y⁰代表其他，y¹代表糖尿病，y²代表冠心病，y³代表脑卒中），协同地训练慢性疾病预测（包括冠心病、糖尿病、脑卒中）模型，具体步骤包括：

对于本实施例有多个标签值的情况，需要将其转换为多个二分类模型，即y=0和y≠0；y=1和y≠1；y=2和y≠2；y=3和y≠3，然后再根据预测模型的y标签为0、1、2、3对应的概率值最大者，为y的最终预测值（参见表1）。对应的我们也需要计算4个损失函数：

y⁰（其他）对应的损失函数为：

；

其中，n为医疗机构A、医疗机构B和医疗机构C的公共就诊者个数，权重参数的个数m=65；预测疾病为其他时，就诊者i对应的疾病影响因子

，w₁ ⁰，...，w₂₀ ⁰为就诊者i在医疗机构A的数据x₁，…，x₂₀对应的权重参数，w₂₁ ⁰，…，w₃₅ ⁰为就诊者i在医疗机构B的数据x₂₁，…，x₃₅对应的权重参数，w₃₆ ⁰，…，w₆₅ ⁰为就诊者i在医疗机构B的数据x₃₆，…，x₆₅对应的权重参数，w₀ ⁰为常数。w的上标为疾病为其他对应的标签，并不代表次方，下同。

由上可得，y⁰对应的损失函数可写为：

;

其中，

，

，

，

为第i个公共就诊者的标签值，如果为“其他”取值为0，如果为“糖尿病”、“冠心病”、“脑卒中”均取值为1，

、

、

均为常数。

同理，可得y¹（糖尿病）、y²（冠心病）、y³（脑卒中）的损失函数分别为：

；

其中，

，

，

，

均为常数，预测疾病为糖尿病时，w_A ¹={w₁ ¹，…，w₂₀ ¹}为就诊者i在医疗机构A的数据x_A={x₁，…，x₂₀}对应的权重参数，w_B ¹={w₂₁ ¹，…，w₃₅ ¹}为就诊者i在医疗机构B的数据x_B={x₂₁，…，x₃₅}对应的权重参数，w_C ¹={w₃₆ ¹，…，w₆₅ ¹}为就诊者i在医疗机构B的数据x₃₆，…，x₆₅对应的权重参数；

为第i个公共就诊者的标签值，如果为“糖尿病”取值为0，如果为“其他”、“冠心病”、“脑卒中”均取值为1。

；

其中，

，

，

，

均为常数，预测疾病为冠心病时，w_A ²={w₁ ²，…，w₂₀ ²}为就诊者i在医疗机构A的数据x_A={x₁，…，x₂₀}对应的权重参数，w_B ²={w₂₁ ²，…，w₃₅ ²}为就诊者i在医疗机构B的数据x_B={x₂₁，…，x₃₅}对应的权重参数，w_C ²={w₃₆ ²，…，w₆₅ ²}为就诊者i在医疗机构B的数据x_C={x₃₆，…，x₆₅}对应的权重参数；

为第i个公共就诊者的标签值，如果为“冠心病”取值为0，如果为“其他”、“糖尿病”、“脑卒中”均取值为1。

；

其中，

，

，

，

均为常数，预测疾病为脑卒中时，w_A ³={w₁ ³，…，w₂₀ ³}为就诊者i在医疗机构A的数据x_A={x₁，…，x₂₀}对应的权重参数，w_B ³={w₂₁ ³，…，w₃₅ ³}为就诊者i在医疗机构B的数据x_B={x₂₁，…，x₃₅}对应的权重参数，w_C ³={w₃₆ ³，…，w₆₅ ³}为就诊者i在医疗机构B的数据x_C={x₃₆，…，x₆₅}对应的权重参数；

为第i个公共就诊者的标签值，如果为“脑卒中”取值为0，如果为“其他”、“冠心病”、“糖尿病”均取值为1。

对医疗机构A模型的损失函数求偏导可得到医疗机构A模型的梯度计算公式为：

，

，

，

；

对医疗机构B模型的损失函数求偏导可得到医疗机构B模型的梯度计算公式为：

，

，

，

；

对医疗机构C模型的损失函数求偏导可得到医疗机构C模型的梯度计算公式为：

，

，

，

。

数据中心D生成密钥对，并分发公钥给医疗机构A、医疗机构B、医疗机构C。医疗机构A、医疗机构B、医疗机构C各自收到公钥后初始化疾病影响因子

、

、

、

；

、

、

、

；

、

、

、

；医疗机构A将初始化疾病影响因子

、

、

、

同态加密后的结果

、

、

、

发送给医疗机构B、医疗机构C。医疗机构B将初始化疾病影响因子

、

、

、

同态加密后的结果

、

、

、

发送给医疗机构A、医疗机构C。医疗机构A接收到

、

、

、

、

、

、

、

后，便可以计算

、

、

、

并将加密后的结果

、

、

、

，发送给医疗机构B、医疗机构C。医疗机构B接收到

、

、

、

、

、

、

后，便可以计算

、

、

、

并将加密后的结果

、

、

、

，发送给医疗机构A、医疗机构C。医疗机构C接收到

、

、

、

、

、

、

、

后，便可以计算

、

、

、

并将加密后的结果

、

、

、

，发送给医疗机构A、医疗机构B。

医疗机构C计算其预测模型的梯度

、

、

、

和医疗机构C预测模型对应的损失函数

、

、

、

，并将同态加密后的结果

、

、

、

、

、

、

、

发送给数据中心D。医疗机构B计算其预测模型的梯度

、

、

、

和医疗机构B预测模型对应的损失函数

、

、

、

，并将同态加密后的结果

、

、

、

、

、

、

、

发送给数据中心D。医疗机构A计算其预测模型的梯度

、

、

、

和医疗机构A模型对应的损失函数

、

、

、

，并将同态加密后的结果

、

、

、

、

、

、

、

发送给数据中心D。

数据中心D根据医疗机构A、医疗机构B、医疗机构C传递的梯度并解密后，应用优化器优化，返回给医疗机构A、医疗机构B、医疗机构C。

医疗机构A，医疗机构B，医疗机构C根据从数据中心D获得的最终梯度，更新本地模型参数（

，

，

，

），(

，

，

，

），（

，

，

，

），当数据中心D的梯度不再变化后结束训练。

完成模型训练后，医疗机构A、医疗机构B、医疗机构C可根据各自拥有的模型参数完成慢性疾病预测，然后根据各个标签值的概率最大标签值作为该就诊者最终的标签值。

进一步下表1所示，获取三个医疗机构共计337个公共就诊者（由于篇幅所限，本实施例仅仅列示了部分数据），得到的医疗机构C就诊者慢性疾病预测结果，其中，预测详细情况（predict_detail）记录了当就诊者预测结果（predict_result）=0时的概率p0，预测结果（predict_result）=1时的概率p1，预测结果（predict_result）=2时的概率p2，预测结果（predict_result）=3时的概率p3。预测结果得分（predict_score）为预测详细情况（predict_detail）中最大的概率值，即p0、p1、p2、p3的最大值，取值为0-1，其越接近于1，代表就诊者患有对应慢性疾病的概率越大；预测结果（predict_result）为就诊者患慢性疾病的预测结果，也是预测结果得分（predict_score）对应的预测结果（predict_result），代表就诊者患该标签值对应的疾病概率最大。其中预测结果（predict_result）=1代表就诊者为糖尿病概率较大，预测结果（predict_result）=2代表就诊者为冠心病概率较大，预测结果（predict_result）=3代表就诊者为脑卒中概率较大，预测结果（predict_result）=0代表就诊者为其他（非糖尿病、冠心病、脑卒中）概率较大。标签（label）为公共就诊者对应的确诊患有相关疾病。其中，1为冠心病，2为糖尿病、3为脑卒中，0为其他。标签与预测结果一致为真实情况与预测一致。

表1 本实施例的一种利用训练的疾病预测模型预测就诊者患慢性疾病的预测结果

以上所述仅为本发明的较佳实施例而已，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等同替换。另外，在本发明的教导下，可以对这些特征和实施例进行修改以适应具体的情况及材料而不会脱离本发明的精神和范围。因此，本发明不受此处所公开的具体实施例的限制，所有落入本申请的权利要求范围内的实施例都属于本发明的保护范围。

Claims

1.一种原始数据不出域的跨医疗机构疾病预测方法，其特征在于，包括：

S100、对就诊者的就诊编号在a个医疗机构之间进行加密传输，加密的就诊编号在接收方进行交集运算，得到a个所述医疗机构的公共就诊者；加密传输过程中采用多种加密方法配合用于对所述就诊编号进行交集运算；

S200、根据每个所述医疗机构的公共就诊者对应的健康数据，搭建疾病预测模型，对搭建的所述疾病预测模型在本地进行协同初始化；

S300、根据协同初始化的所述疾病预测模型，对所述疾病预测模型在本地进行协同训练，得到用于预测至少一种疾病的所述疾病预测模型；

步骤S200包括如下步骤：

在每个医疗机构端，根据选择的所述疾病预测模型，搭建所述疾病预测模型的损失函数；对搭建的所述损失函数求梯度函数，得到每个所述医疗机构对应的梯度函数；其中，每个所述医疗机构对应的梯度函数为对每个所述医疗机构在所述损失函数中对应的权重参数求导数；根据搭建的所述损失函数和每个所述医疗机构对应的梯度函数，以及每个所述公共就诊者对应的健康数据和给定的权重参数初始值，计算每个所述医疗机构的初始损失值和初始疾病影响因子；

根据计算的每个所述医疗机构的初始疾病影响因子，在每个所述医疗机构端协同计算每个所述医疗机构对应的初始损失值和初始梯度值；其中，疾病影响因子为公共就诊者对应的健康数据与权重参数的乘积；

对所述疾病预测模型在本地进行协同训练的步骤包括：

S310、生成a个第二公共密钥对和第二私密钥对，并将所述第二公共密钥对发送给每个所述医疗机构；

S320、接收每个所述医疗机构发送的每个所述医疗机构对应的所述初始损失值和初始梯度值；

S330、根据接收的每个所述医疗机构对应的所述初始损失值和初始梯度值，计算a个所述医疗机构的总初始损失值和总初始梯度值，并对计算的总初始梯度值进行更新；将更新的总梯度值发送给每个所述医疗机构；

S340、接收每个所述医疗机构发送的更新的损失值和更新的梯度值，根据接收的更新的损失值和更新的梯度值计算a个所述医疗机构更新的总损失值和更新的总梯度值；

S350、更新的总梯度值是否不再变化，如是，执行步骤S360；否则，执行步骤S370；

S360、结束对所述医疗机构对应的本地预测模型的协同训练，得到用于预测至少一种疾病的所述疾病预测模型；

S370、对计算的更新的总梯度值进行更新，将更新后的总梯度值同态加密后发送给每个所述医疗机构，返回步骤S340。

2.根据权利要求1所述的一种原始数据不出域的跨医疗机构疾病预测方法，其特征在于，步骤S100包括如下步骤：

从a个所述医疗机构中选择一个所述医疗机构作为发起方医疗机构，所述发起方医疗机构对其就诊编号生成第一私密钥对和a-1个第一公共密钥对，并将所述公共密钥对分别发送给a-1个参与方医疗机构；

所述发起方医疗机构对接收的每个所述参与方医疗机构对应的第一数据进行第一加密处理，得到每个所述参与方医疗机构对应的第二数据；

所述发起方医疗机构对自己的就诊编号进行第二加密处理，得到所述发起方医疗机构的第三数据；将每个所述参与方医疗机构对应的第二数据和所述发起方医疗机构的第三数据，按照原接收路径发送给每个所述参与方医疗机构；

所述发起方医疗机构接收每个所述参与方医疗机构与所述发起方医疗机构的就诊编号对应的交集，对接收的a-1个交集求交运算；对求交运算的集合进行所述第一加密处理后，按照原接收路径发送给每个所述参与方医疗机构；

所述发起方医疗机构对其求交运算且经所述第一加密处理后的集合分别进行第三加密处理后，得到a个医疗机构的所述公共就诊者。

3.根据权利要求2所述的一种原始数据不出域的跨医疗机构疾病预测方法，其特征在于，还包括如下步骤：

每个所述参与方医疗机构收到对应的所述公共密钥后，对各自的就诊编号进行第四加密处理，得到每个所述参与方医疗机构对应的第一数据，将所述第一数据发送给所述发起方医疗机构；

每个所述参与方医疗机构收到其对应的所述第二数据和所述发起方医疗机构的第三数据后，对所述第二数据进行所述第三加密处理，得到第四数据；将所述第三数据、第四数据求交集，将交集后的集合进行所述第四加密处理后发送给所述发起方医疗机构；其中，每个所述参与方医疗机构对应的交集为每个所述参与方医疗机构与所述发起方医疗机构的公共就诊编号；

每个所述参与方医疗机构对收到的所述发起方医疗机构求交运算的集合进行所述第三加密处理，得到a个医疗机构的所述公共就诊者。

4.根据权利要求1所述的一种原始数据不出域的跨医疗机构疾病预测方法，其特征在于，还包括数据中心，在每个所述医疗机构端协同计算每个所述医疗机构对应的初始损失值和初始梯度值的步骤包括：

每个所述医疗机构接收到所述数据中心发送的第二公共密钥对后，根据各自的健康数据和给定的权重参数初始值计算各自的所述初始疾病影响因子，并将各自计算的所述初始疾病影响因子同态加密后发送给其他所述医疗机构；

每个所述医疗机构接收到其他全部所述医疗机构对应的所述初始疾病影响因子解密后，根据各自的所述梯度函数计算各自的初始梯度值，根据所述损失函数计算各自的初始损失值，将各自计算的所述初始损失值和初始梯度值同态加密后发送给所述数据中心。

5.根据权利要求1所述的一种原始数据不出域的跨医疗机构疾病预测方法，其特征在于，第k种疾病的所述疾病预测模型的损失函数公式如下：