CN116504395A

CN116504395A - 一种基于人工智能的骨质疏松预测方法、系统及存储介质

Info

Publication number: CN116504395A
Application number: CN202310741625.2A
Authority: CN
Inventors: 高景宏; 王成增; 陈媛琪; 李丽萍; 付航; 蒋帅; 刘福荣; 黄佳钰
Original assignee: First Affiliated Hospital of Zhengzhou University; Guangdong General Hospital
Current assignee: First Affiliated Hospital of Zhengzhou University; Guangdong General Hospital
Priority date: 2023-06-21
Filing date: 2023-06-21
Publication date: 2023-07-28
Anticipated expiration: 2043-06-21
Also published as: CN116504395B

Abstract

本发明提供了一种基于人工智能的骨质疏松预测方法、系统及存储介质，所述方法包括采用第一全局样本集对全局模型进行初步训练，将初步训练后的全局模型发送给医疗机构，同时将第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本发送给医疗机构；医疗机构利用由第二全局样本集和个性化样本集组成的多个batch，并根据batch中全局样本的占比确定学习率对全局模型进行个性化训练，得到个性化模型；获取患者的信息，将患者信息输入到个性化模型中得到预测结果，并计算可信度，将可信度和预测结果作为最终结果。本发明不仅能保护医疗机构的数据，而且能够有地域性的对骨质疏松进行预测，提高了预测的准确性。

Description

一种基于人工智能的骨质疏松预测方法、系统及存储介质

技术领域

本发明涉及人工智能领域，尤其涉及基于人工智能的骨质疏松预测方法、系统及存储介质。

背景技术

骨质疏松症（Osteoporosis）是由于骨量低、骨的微结构有损伤导致的骨的脆性增加，尤其是在老年人中最为常见。骨质疏松症的产生有多种因素，可能增加骨质疏松的因素主要有年龄、性别、遗传、生活方式等，判断骨质疏松的方法有双能X线吸收法（Dual-energyX-ray Absorptiometry，DXA）、磁共振（MRI）法、骨活性标志物检测法、骨组织分析法等，双能X线吸收法（Dual-energy X-ray Absorptiometry，DXA）是判断骨质疏松的金标准，双能X线吸收法主要是采用低剂量X射线扫描疑似病患部位，然后和参考人群对比，是在临床上使用最广的一种方法。但是以上骨质疏松的判断方法只是判断是否患有骨质疏松，对于骨质疏松的预测则显得无能为力。

FRAX（Fracture Risk Assessment Tool）是临床上评估可能出现骨质疏松的一个工具，其同时考虑包括了年龄、性别、骨密度、骨折史、家族史、不良生活习惯以及其他疾病等在内的因素，采用线性拟合的方法计算出未来出现骨质疏松的可能。但是这个方法的拟合性比较差，采用人工智能的方式可以提高预测的准确性，但是由于骨质疏松和区域以及种族有很大关系，如果采用相同的训练样本进行训练，也会有很大的误差，而且由于医疗数据的隐私性，很多医疗机构不愿意共享自己的数据。如何在保护隐私的前提下有效的利用人工智能的方式对骨质疏松进行预测是本领域亟待解决的问题。

发明内容

为了能够在保护医疗机构的数据的情况，准确的预测骨质疏松，在第一个方面，本发明提供了一种基于人工智能的骨质疏松预测方法，所述方法包括以下步骤：

向服务提供方的服务器中请求骨质疏松全局模型，所述全局模型采用第一全局样本集进行初步训练，将初步训练后的全局模型发送给医疗机构，同时将第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本发送给医疗机构；

医疗机构将从服务器获取的样本集组成第二全局样本集，并根据医疗机构自身拥有的数据得到个性化样本集；由第二全局样本集和个性化样本集组成多个batch，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，得到个性化模型；

获取患者的信息，将患者信息输入到个性化模型中得到预测结果，并计算患者信息与个性化样本集中样本的距离，获取所述距离最接近的M个相似样本，根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果；其中，M为正整数。

优选地，所述由第二全局样本集和个性化样本集组成多个batch，具体为：

将第二全局样本集分为N个全局子集，且从前往后，每个全局子集中样本的数量比上一个全局子集的样本数少；

将个性化样本集分为N个个性化子集，且从前往后，每个个性化子集中样本的数量比上一个个性化子集的样本数多；

将N个全局子集和N个个性化子集按序组合成N个batch，计算每个batch中全局样本的占比，获取预设学习率/>，根据/>和/>得到下一个batch的学习率，其中N为正整数。

优选地，所述利用多个batch和对应的所述学习率对全局模型进行个性化训练，具体为：

计算每个batch中全局样本的占比，获取预设学习率/>，根据当前batch的占比/>和下一个batch的占比/>得到下一个batch学习率权重，根据下一个batch学习率权重和预设学习率/>得到下一个batch的学习率。

优选地，所述根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果，具体为：

计算相似样本i在所述个性化模型中的误差、与患者信息的距离/>，根据/>和/>计算得到预测结果的可信度，将预测结果和所述可信度作为最终结果；其中i=1,…,M。

优选地，所述距离的计算方式为：

每个样本至少包括年龄、性别、吸烟史、饮酒史、所在区域、骨密度、种族、骨折次数；

初始化距离为0；

对于年龄，计算用户的年龄与样本的年龄的比值，如果比值在第一预设范围，则执行下一步，否则，则距离加上第一值，所述第一值为用户和样本的年龄的最大值与最小值的比值；

对于性别，如果样本的性别和用户的性别相同，则执行下一步，否则距离加上预设值；所在区域、种族的计算方式同年龄的计算方式；

对于骨折次数，计算样本骨折次数与用户骨折次数的差值，所述距离加上差值的绝对值的一半；

对于吸烟史，如果样本没有吸烟史且用户吸烟史，或者，用户没有吸烟史且样本有吸烟史，则距离加上预设值，如果样本有吸烟史且用户有吸烟史，则距离加上第二值，所述第二值为用户和样本的吸烟史持续时间的最大值与最小值的比值；饮酒史的计算方式同吸烟史的计算方式；

对于骨密度，对于每个部位分别执行以下操作：计算用户和样本的骨密度最大值与最小值的比值，距离加上所述比值。

优选地，所述距离的计算方式为：

分别计算样本中每个特征与用户信息中对应特征的Jaccard相似度，累加所述相似度得到距离。

在第二个方面，本发明提供了一种基于人工智能的骨质疏松预测系统，所述系统包括以下模块：

请求模块，用于向服务提供方的服务器中请求骨质疏松全局模型，所述全局模型采用第一全局样本集进行初步训练，将初步训练后的全局模型发送给医疗机构，同时将第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本发送给医疗机构；

个性化训练模块，医疗机构将从服务器获取的样本集组成第二全局样本集，并根据医疗机构自身拥有的数据得到个性化样本集；由第二全局样本集和个性化样本集组成多个batch，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，得到个性化模型；

预测模块，用于获取患者的信息，将患者信息输入到个性化模型中得到预测结果，并计算患者信息与个性化样本集中样本的距离，获取所述距离最接近的M个相似样本，根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果；其中，M为正整数。

优选地，所述距离的计算方式为：

初始化距离为0；

优选地，所述距离的计算方式为：

在第三个方面，本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如第一个方面所述的方法。

本发明在不用医疗机构共享自身数据的情况下，通过对全局模型的个性化训练，得到医疗机构自身的骨质疏松预测模型，而且在训练过程中，由第二全局样本集和个性化样本集组成多个batch，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，得到个性化模型，加快了个性化模型的训练速度，提高了预测的准确性。本发明的有益效果在于：1）保护医疗机构自身的数据；2）提高了训练速度；3）得到了预测结果的可信度。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为第一实施例的流程图；

图2为第一实施例的网络架构图；

图3为第二实施例的结构图。

具体实施方式

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的截图方式是医生在进行检查过程中，在关键位置例如咽部、喉部等出手动截取图片，基于此，本发明提供了一种能在进行电子鼻咽镜检查中自动截取关键位置图片的方法及系统。

第一实施例

在第一个方面，本发明提供了一种基于人工智能的骨质疏松预测方法，如图1所示，所述方法包括以下步骤：

S1，向服务提供方的服务器中请求骨质疏松全局模型，所述全局模型采用第一全局样本集进行初步训练，将初步训练后的全局模型发送给医疗机构，同时将第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本发送给医疗机构；

本发明中主体至少包括两个，一个是服务提供方，也就是提供全局模型以及相关数据的一方，另外一个是医疗机构，也就是使用全局模型，并使用本身自有数据对全局模型进行训练得到个性化模型，进而实现对骨质疏松进行预测的一方，网络结构如图2所示。其中服务提供方可以是第三方公司，也可以是政府有关部门，还可以是一个大型医疗集团的科技部等，这里不对服务提供方做具体限定。其中，医疗机构是进行骨质疏松的进行预测的机构，包括但不限于医院的骨科、政府有关部门等。其中，第一全局样本集是对全局模型进行训练时使用的样本集，由于服务提供方具有较大的数据量，使用第一全局样本集训练后，全局模型已经具有较高的准确度，但是骨质疏松具有局域性，需要医疗机构进一步训练得到自身使用的模型。在本发明中，在医疗机构得到训练后的全局模型的同时，还会得到与医疗机构所在区域相同或相近的全局样本，其中相近是将医疗机构所在位置进行扩展，例如医疗机构所在位置为X省，则区域相近的样本包括了与X省接壤的其他省的数据。在另外一个实施例中，也可以医疗机构为中心限定的一个圆，区域在圆内的都属于相近的全局样本。需要注意的是，本发明中所有的样本都是去敏后的数据，所谓去敏是指将样本中有关个人隐私信息例如姓名、身份证好等去除。

在一个实施例中，全局模型为深度神经网络（Deep Neural Networks，DNN）或者多层感知机（Multilayer Perceptron，MLP），具体采用何种网络结构，这是由服务提供方确定。同时，医疗机构可以对训练后的个性化网络的效果进行反馈，以便服务提供方优化网络结构。

S2，医疗机构将从服务器获取的样本集组成第二全局样本集，并根据医疗机构自身拥有的数据得到个性化样本集；由第二全局样本集和个性化样本集组成多个batch，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，得到个性化模型；

医疗机构在从服务提供方服务器获取全局模型和第二全局样本集后，可以利用自身的计算资源进行个性化训练，自身的资源包括但不限于医疗机构自身拥有的服务器、医疗机构自身拥有的台式机或者笔记本等。第二局全局样本集也即S1中第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本。再加上医疗机构自身拥有的数据，这就形成了医疗机构自身的训练样本集。

由于在对模型进行个性化训练时，将训练样本分为多个批次，这样不仅有利于训练效率，而且能够减少参数更新的波动。此外，学习率的设置也直接影响模型的收敛速度，甚至能够影响模型的最后效果。在前期使用较大的学习率能够快速收敛，然后逐步减小学习率能够细化参数，本发明根据batch中个性化样本的占比调整学习率，提高了收敛速度和模型精度，而且能够防止过拟合。

具体地，在一个具体实施例中，所述由第二全局样本集和个性化样本集组成多个batch，具体为：

将N个全局子集和N个个性化子集按序组合成N个batch，其中N为正整数。在一个具体实施例中，N个batch中每个的样本数量是相同的。

在一个实施例中，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，具体为：计算每个batch中全局样本的占比，获取预设学习率/>，根据/>和/>得到 batch对应的学习率。然后，根据占比/>按照从大到小的顺序对多个batch进行排序，按照排序后的batch和batch对应的学习率对全局模型进行训练。优选地，最后一个或者多个batch中全局样本的数量为0。

假设，在一个batch中，个性化样本个数为10，全局样本个数为30，则/>，在一个学习率的计算方式中，将/>和/>的乘积作为下一个batch的学习率也即0.075。随着batch中全局样本数量的占比的降低，学习率也不断地降低。

为了能够平滑学习率，在另外一个实施例中，所述利用多个batch和对应的所述学习率对全局模型进行个性化训练，具体为：

计算每个batch中全局样本的占比，获取预设学习率/>，根据当前batch的占比/>和下一个batch的占比/>得到下一个batch学习率权重，根据下一个batch学习率权重和预设学习率/>得到下一个batch的学习率，然后，根据占比/>按照从大到小的顺序对多个batch进行排序，按照排序后的batch和batch对应的学习率对全局模型进行训练。优选地，最后一个或者多个batch中全局样本的数量为0。

S3，获取患者的信息，将患者信息输入到个性化模型中得到预测结果，并计算患者信息与个性化样本集中样本的距离，获取所述距离最接近的M个相似样本，根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果；其中，M为正整数。

在利用神经网络进行预测时，由于训练样本中目标变量为0（表示没有发生骨质疏松）或1（表示发生骨质疏松），在进行预测时，虽然神经网络最后的输出是用概率表示是1还是0，例如为1的概率为0.9，为0的概率为0.1，但是这只是神经网络自身的预测，其结果存在一定的误差。

样本和用户的信息越接近，二者的骨质情况也越接近，为了减少神经网络预测误差或者让用户明白结果的可靠性，在一个具体实施例中，还包括根据与用户相似的样本对结果进一步进行修正。具体地，首先计算样本和用户的相似度，也即距离，在一个可能的实施例中，所述距离的计算方式为：

每个样本至少包括年龄、性别、吸烟史、饮酒史、所在区域、骨密度、种族、骨折次数；其中，吸烟史以月为单位，表示吸烟时间；饮酒史以年为单位，表示饮酒量；骨密度为全部骨密度，也可以包括多个部位的骨密度，所述多个部位包括但不限于颈、股骨干等，在本发明中优选地，骨密度包括多个部位的骨密度。

对于每个样本，初始化该样本与用户的距离为0，并执行以下操作：

对于骨密度，对于每个部位分别执行以下操作：计算用户和样本的骨密度最大值与最小值的比值，距离加上所述比值；例如用户股骨干骨密度为0.621，样本的股骨干骨密度为0.601，二者最大值为0.621，最小值为0.601，则比值为：1.03。

将所述距离作为样本与用户的相似度。

在另外一个实施例中，所述距离的计算方式为：

分别计算样本中每个特征与用户信息中对应特征的Jaccard相似度，累加所述相似度得到距离，将所述距离作为样本与用户的相似度。

在一个具体实施例中，所述根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果，具体为：

在一个实施例中，所述预测结果为未来患有骨质疏松的可能性（以概率表示），所述可信度是指预测结果的可信度，将<预测结果，可信度>输出到显示器。

在另外一个实施例中，所述预测结果为未来患有骨质疏松（以1表示）或者未来不患有骨质疏松（以0表示），所述可信度是指预测结果的可信度，将<预测结果，可信度>输出到显示器。

在一个具体实施例中，根据和/>计算得到预测结果的可信度，具体根据公式计算得到可信度，其中i=1,…,M，e为自然常数。可信度的计算方式并不局限于上述实施例，还可以采用其他计算方式，例如分段函数。

第二实施例

本发明提供了一种基于人工智能的骨质疏松预测系统1，如图3所示，所述系统包括以下模块：

请求模块101，用于向服务提供方的服务器中请求骨质疏松全局模型，所述全局模型采用第一全局样本集进行初步训练，将初步训练后的全局模型发送给医疗机构，同时将第一全局样本集中样本中所在区域和医疗机构所在区域相同或相近的样本发送给医疗机构；

个性化训练模块102，医疗机构将从服务器获取的样本集组成第二全局样本集，并根据医疗机构自身拥有的数据得到个性化样本集；由第二全局样本集和个性化样本集组成多个batch，根据batch中全局样本的占比确定学习率，利用多个batch和对应的所述学习率对全局模型进行个性化训练，得到个性化模型；

预测模块103，用于获取患者的信息，将患者信息输入到个性化模型中得到预测结果，并计算患者信息与个性化样本集中样本的距离，获取所述距离最接近的M个相似样本，根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果；其中，M为正整数。

优选地，所述距离的计算方式为：

初始化距离为0；

优选地，所述距离的计算方式为：

第三实施例

本发明提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序在被处理器执行时，实现如本发明实施例一中所述的方法。

第四实施例

本发明提供了一种计算机设备，所述计算机设备至少包括存储器和处理器，所述存储器上存储有计算机程序，所述计算机程序在被处理器执行时，实现如本发明实施例一中所述的方法。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助加必需的通用硬件平台的方式来实现，当然也可以通过硬件和软件结合的方式来实现。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以计算机产品的形式体现出来，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的骨质疏松预测方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述由第二全局样本集和个性化样本集组成多个batch，具体为：

将N个全局子集和N个个性化子集按序组合成N个batch，其中N为正整数。

3.如权利要求1或2所述的方法，其特征在于，所述利用多个batch和对应的所述学习率对全局模型进行个性化训练，具体为：

4.如权利要求1所述的方法，其特征在于，所述根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果，具体为：

5.如权利要求1或4所述的方法，其特征在于，所述距离的计算方式为：

初始化距离为0；

6.如权利要求1或4所述的方法，其特征在于，所述距离的计算方式为：

7.一种基于人工智能的骨质疏松预测系统，其特征在于，所述系统包括以下模块：

8.如权利要求7所述的系统，其特征在于，所述由第二全局样本集和个性化样本集组成多个batch，具体为：

9.如权利要求7或8所述的系统，其特征在于，所述根据所述预测结果、所述距离、所述M个相似样本在所述个性化模型中的误差得到最终结果，具体为：

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时，实现如权利要求1-6任一项所述的方法。