CN113707323B

CN113707323B - 基于机器学习的疾病预测方法、装置、设备及介质

Info

Publication number: CN113707323B
Application number: CN202111017462.0A
Authority: CN
Inventors: 徐衔
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2024-05-14
Anticipated expiration: 2041-08-31
Also published as: CN113707323A

Abstract

本发明涉及人工智能技术领域，揭露一种基于机器学习的疾病预测方法，包括：针对预先收集的用户病例数据进行结构化处理，得到病例样本数据；将病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值；在训练过程中，利用距离值不断调整疾病特征向量与记忆向量的比例参数，并根据比例参数所确定用户在各个疾病类别上的特征向量，构建疾病预测模型；响应于疾病预测指令的触发，利用疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。本发明能够在面向不平衡样本数据的情况，通过在模型训练过程中将多数类样本中学习到的知识迁移到少数类样本的预测中，提高疾病预测结果的准确率。

Description

基于机器学习的疾病预测方法、装置、设备及介质

技术领域

本发明涉及人工智能技术领域，尤其是涉及到基于机器学习的疾病预测方法、装置、计算机设备及计算机存储介质。

背景技术

随着互联网技术的兴起，疾病预测是人工智能在医疗保健领域的一项基本任务，可以支持疾病辅助诊断、健康管理、远程会诊等功能，疾病预测能够基于用户的历史就诊信息判断将来可能发生的疾病风险，可以帮助医生或患者迅速了解病人目前所处的病程状态，并根据可能干预手段的预测进行关键医疗资源的调度与协同。

为解决数据驱动的疾病预测方法容易受到数据量有限、数据偏差较大的影响，很多工作尝试使用医疗数据训练机器模型的方式来实现疾病预测。但是考虑到很多疾病的发病率较低、阳性样本难以大规模搜集，很难对此类疾病直接准确构建疾病预测模型，现有方法大多采用重采样的方式来平衡样本数据集中的疾病类别，即针对少数类样本进行过采样，对多数类样本进行欠采样，而对少数类样本进行过采样容易造成极其模型的过拟合，对多数类样本进行欠采样容易丢失部分医疗数据的特征，使得在面向不平衡的样本数据的情况，无法充分训练机器模型，影响疾病预测结果的准确率。

发明内容

有鉴于此，本发明提供了一种基于机器学习的疾病预测方法、装置、计算机设备及计算机存储介质，主要目的在于解决现有技术在面向不平衡的样本数据的情况，无法充分训练机器模型，影响疾病预测结果的准确率的问题。

依据本发明一个方面，提供了一种基于机器学习的疾病预测方法，该方法包括：

针对预先收集的用户病例数据进行结构化处理，得到病例样本数据；

将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值；

在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型；

响应于疾病预测指令的触发，利用所述疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。

在本发明另一实施例中，所述针对预先收集的用户病例数据进行结构化处理，得到病例样本数据，具体包括：

针对医疗平台定时收集不同表达形式的用户病例数据，利用预设的疾病属性字段从所述用户病例数据中提取与疾病类别关联的病例数据，所述疾病属性字段为针对疾病类别设置的关键词；

按照固定的语法规范对所述与疾病类别关联的病例数据进行信息抽取，得到疾病样本数据。

在本发明另一实施例中，所述神经网络模型为多层网络结构，至少包括特征提取层和记忆区块，所述将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，具体包括：

将所述疾病样本数据输入至神经网络模型中进行训练，并选取特征提取层输出的疾病特征向量

以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量；

计算所述疾病特征向量到所述各个疾病类别在特征空间的中心向量之间的距离值。

在本发明另一实施例中，所述以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量，具体包括：

在所述记忆区块中输入所述疾病特征向量，并根据所述疾病特征向量计算各个疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化；

针对所述记忆区块中的模型参数进行训练，并根据所述疾病特征向量、训练的权重参数以及各个疾病类别在特征空间的中心向量，计算疾病类别的记忆向量。

在本发明另一实施例中，所述在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，具体包括：

在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数；

根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

在本发明另一实施例中，所述利用所述距离值所反映疾病特征在各个疾病类别的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数，具体包括：

若所述距离值所反映疾病特征在各个疾病类别上的预测值小于预设数值，则从所述记忆区块中迁移第一预设数量的记忆向量对进行学习，以调低所述疾病特征向量与所述记忆向量之间的比例参数；

若所述距离值所反映疾病特征在预设疾病类别上的预测值大于预设数值，则从所述记忆区块中迁移第二预设数量的记忆向量对进行学习，以调高所述疾病特征向量与所述记忆向量之间的比例参数；

所述第一预预设数量与所述第二预设数量由所述比例参数控制，所述比例参数由所述疾病特征向量通过所述神经网络模型的全连接层计算得到。

在本发明另一实施例中，所述根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型，具体包括：

针对所述比例参数确定用户在各个疾病类别上的特征向量，使用时间序列数据处理方法进行分类，得到所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系；

利用所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系，构建疾病预测模型。

依据本发明另一个方面，提供了一种基于机器学习的疾病预测装置，所述装置包括：

处理单元，用于针对预先收集的用户病例数据进行结构化处理，得到病例样本数据；

训练单元，用于将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值；

构建单元，用于在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型；

预测单元，用于响应于疾病预测指令的触发，利用所述疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。

在本发明另一实施例中，所述处理单元包括：

提取模块，用于针对医疗平台定时收集不同表达形式的用户病例数据，利用预设的疾病属性字段从所述用户病例数据中提取与疾病类别关联的病例数据，所述疾病属性字段为针对疾病类别设置的关键词；

分词模块，用于按照固定的语法规范对所述与疾病类别关联的病例数据进行信息抽取，得到疾病样本数据。

在本发明另一实施例中，所述神经网络模型为多层网络结构，至少包括特征提取层和记忆区块，所述训练单元包括：

选取模块，用于将所述疾病样本数据输入至神经网络模型中进行训练，并选取特征提取层输出的疾病特征向量

第一计算模块，用于以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量；

第二计算模块，用于计算所述疾病特征向量到所述各个疾病类别在特征空间的中心向量之间的距离值。

在本发明另一实施例中，所述第一计算模块包括：

计算子模块，用于在所述记忆区块中输入所述疾病特征向量，并根据所述疾病特征向量计算各个疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化；

训练子模块，用于针对所述记忆区块中的模型参数进行训练，并根据所述疾病特征向量、训练的权重参数以及各个疾病类别在特征空间的中心向量，计算疾病类别的记忆向量。

在本发明另一实施例中，所述构建单元包括：

调整模块，用于在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数；

构建模块，用于根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

在本发明另一实施例中，所述调整模块，具体用于若所述距离值所反映疾病特征在各个疾病类别上的预测值小于预设数值，则从所述记忆区块中迁移第一预设数量的记忆向量对进行学习，以调低所述疾病特征向量与所述记忆向量之间的比例参数；

所述调整模块，具体还用于若所述距离值所反映疾病特征在预设疾病类别上的预测值大于预设数值，则从所述记忆区块中迁移第二预设数量的记忆向量对进行学习，以调高所述疾病特征向量与所述记忆向量之间的比例参数；

在本发明另一实施例中，所述构建模块包括：

分类子模块，用于针对所述比例参数确定用户在各个疾病类别上的特征向量，使用时间序列数据处理方法进行分类，得到所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系；

构建子模块，用于利用所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系，构建疾病预测模型。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现基于机器学习的疾病预测方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现基于机器学习的疾病预测方法的步骤。

借由上述技术方案，本发明提供一种基于机器学习的疾病预测方法及装置，针对预先收集的用户病例数据进行结构化处理，得到病例样本数据，然后将病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，并在训练过程中，根据疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，响应于疾病预测指令的触发，利用疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。与现有技术中采用重采样的方式来平衡样本数据集中的疾病类别，并利用样本数据训练疾病预测模型的方式相比，本申请中通过在神经网络模型的训练过程中，使用记忆区块存储各个疾病类别在特征空间的中心向量来判断样本数据针对不同疾病类别的学习能力，并将从多数类样本数据学习到的疾病特征知识迁移到少数类样本数据的预测中，从而加强少数类样本数据在疾病预测过程的有效表达，在面向不平衡样本数据的情况下，能够充分训练机器模型，提高疾病预测结果的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种基于机器学习的疾病预测方法的流程示意图；

图2示出了本发明实施例提供的另一种基于机器学习的疾病预测方法的流程示意图；

图3示出了本发明实施例提供的一种基于机器学习的疾病预测装置的结构示意图；

图4示出了本发明实施例提供的另一种基于机器学习的疾病预测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。

人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

本发明实施例提供了一种基于机器学习的疾病预测方法，能够在面向不平衡样本数据的情况，通过在模型训练过程中将多数类样本中学习到的知识迁移到少数类样本的预测中，提高疾病预测结果的准确率，如图1所示，该方法包括：

101、针对预先收集的用户病例数据进行结构化处理，得到病例样本数据。

本申请中，用户病例数据包括用户在医院的检查数据、诊断报告、病例等数据，用户病例数据为从医院网页中获取到的不同表达形式的数据，包括文字数据、图片数据和视频数据等，而不同表达形式的数据使得用户在不同疾病类别上疾病症状的描述不同，通过对用户病例数据进行结构化处理，能够将用户疾病数据映射到不同疾病类型，当然有些医院网页中可以直接获取到结构化处理的用户病例数据。

可以理解的是，这里可以从医疗云中采集的医疗数据，考虑到医疗诊断场景中医疗数据异常丰富，包括结构化数据、自然文本、图像、波形等多种模态表征的数据格式，可以为个人健康档案、处方、检查报告等。这里可以从医疗数据中提取用户病例数据。医疗云是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。

在本发明实施例中，执行主体可以为基于机器学习的疾病预测装置，具体应用在智慧医疗或医疗云等适用于疾病预测的医疗平台服务器端，通过医疗平台服务器端利用用户病例数据结构化处理得到的病例样本数据输入至神经网络模型进行训练，并在训练过程中将疾病样本数据中从多数类中学习到的知识迁移到少数类的疾病预测中，能够强化少数类疾病特征的表达，提高疾病预测精度。

上述服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(ContentDelivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

102、将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值。

其中，神经网络模型包括特征提取层、记忆区块，具体表现为多层网络结构，记忆向量为使用神经网络模型中记忆区块结合疾病特征向量计算得到，记忆区块用于存储各个疾病类别在特征空间的中心向量，距离值为疾病特征向量到各个疾病类别在特征空间的中心向量的距离。

具体在训练过程中，选取特征提取层输出的疾病特征向量作为记忆区块的输入，并在记忆区块中，根据疾病特征向量，计算出各个疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化，针对记忆区块中的模型参数进行训练，并根据疾病特征向量、训练的权重参数以及各个疾病类别在特征空间的中心向量，计算疾病类别的记忆向量，进一步还可以计算出疾病特征向量到各个疾病类别在特征空间的中心向量的距离值，这里距离值能够反映病例样本与各个疾病类别中心之间的差距，距离值越大，说明病例样本属于该疾病类别的概率很小，反之，距离值越小，则说明病例样本属于该疾病类别的概率大。

103、在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

考虑到病例样本数据中疾病类别分布受到实际应用场景限制，对于很多疾病发病率较低、阳性样本难以得到大规模搜集，很难针对此类别疾病进行准确分类和预测，这里距离值能够从一定程度上反映疾病类别的占比情况，对于多数类疾病，在模型训练过程中无需使用过多的疾病类别特征进行过度表达，对于少数类疾病，在模型训练过程中需要加入更多的疾病类别特征进行有效表达，以提高疾病预测精度。

具体地，可以根据距离值来映射疾病特征向量在疾病类别预测上的表达能力，对于多数类的疾病特征向量，可以从记忆区块中迁移少数量的记忆向量来学习疾病类别的知识，对于少数类的疾病特征向量，可以从记忆区块中迁移多数量的记忆向量来学习疾病类别的知识，进而确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

104、响应于疾病预测指令的触发，利用所述疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。

可以理解的是，目标用户病例数据在预测过程中会形成病例数据的疾病特征向量，该疾病向量表示还需要连接分类器中进行疾病类别的映射，或者在疾病预测模型中内嵌分类层，进一步通过将疾病特征向量输入至分类器或分类层，得到疾病特征向量映射在不同疾病类别上的概率，即目标用户对应的疾病类别。

在实际应用中，目标用户在各个疾病类别上的概率可作为用户疾病类型判断的辅助依据，将概率最高的疾病类型确定为用户疾病类型的参考依据，进一步可以针对用户疾病类型进行提前预警，并提供治疗方案，有效控制疾病的发展。可以理解的是，目标用户在各个疾病类别上的概率分布可能比较靠近，针对此种情况，选取概率最高的疾病类别作为用户疾病类型可能会存在偏差，选取概率分布靠近的多个疾病类别作为用户疾病类型的参考依据。

本发明实施例提供的一种基于机器学习的疾病预测方法，针对预先收集的用户病例数据进行结构化处理，得到病例样本数据，然后将病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，并在训练过程中，根据疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，响应于疾病预测指令的触发，利用疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。与现有技术中采用重采样的方式来平衡样本数据集中的疾病类别，并利用样本数据训练疾病预测模型的方式相比，本申请中通过在神经网络模型的训练过程中，使用记忆区块存储各个疾病类别在特征空间的中心向量来判断样本数据针对不同疾病类别的学习能力，并将从多数类样本数据学习到的疾病特征知识迁移到少数类样本数据的预测中，从而加强少数类样本数据在疾病预测过程的有效表达，在面向不平衡样本数据的情况下，能够充分训练机器模型，提高疾病预测结果的准确率。

本发明实施例提供了另一种基于机器学习的疾病预测方法，能够在面向不平衡样本数据的情况，通过在模型训练过程中将多数类样本中学习到的知识迁移到少数类样本的预测中，提高疾病预测结果的准确率，如图2所示，所述方法包括：

201、针对医疗平台定时收集不同表达形式的用户病例数据，利用预设的疾病属性字段从所述用户病例数据中提取与疾病类别关联的病例数据。

其中，疾病属性字段为针对疾病类别设置的关键词，例如，针对慢性阻塞性肺疾病，可以设置老人+咳、痰＝慢性支气管炎，慢性呼吸系统病史+右心衰体征＝肺心病，针对肺炎，青壮年+受凉+高热+铁锈色样痰＝大叶性肺炎，儿童+阵发性刺激性咳嗽+关节痛＝支原体肺炎。

在一种可能的实现方式中，用户病例数据可以为医疗数据，如个人健康档案、处方、检查报告等数据，相当于医疗文本，该医疗文本可以是医疗电子记录(ElectronicHealthcare Record)，电子化的个人健康记录，包括病历、心电图、医学影像等一系列具备保存备查价值的电子化记录。

202、按照固定的语法规范对所述与疾病类别关联的病例数据进行信息抽取，得到疾病样本数据。

这里固定的语法规范可以为基于文本词性及文本结构所形成的抽取模板，通过抽取模板可以确立结构化目标以及定义抽取规则，具体来说可以是定义一个表头并制定每一个列字段的数据抽取规则的过程，例如，姓名、年龄、症状等，这里语法规范所形成的抽取模板可表现为树状结构，抽取规则也是一个层级结构，每个层级都可以定位到病例数据中相应的信息。

进一步地，为了保证病例样本数据的准确性，还可以对病例样本数据进行异常值修改，统一单位等预处理。

203、将所述疾病样本数据输入至神经网络模型中进行训练，并选取特征提取层输出的疾病特征向量。

可以理解的是，在将疾病样本数据输入至神经网络模型中进行训练之前，需要针对疾病样本数据进行标记，由于病样本数据相当于结构化的数据，该结构化的数据通常按照病例规范制定表格，设置医护人员必须填写固定项目，便于查询、统计和分析。具体针对病样本数据进行标记的过程中，可以针对病样本数据设置标记元素，这里标记元素主要为疾病类别的关键词，进一步针对病样本数据中涉及疾病类别的关键词进行标记，得到疾病样本数据对应的疾病类别标签。

进一步地，利用疾病样本数据对应的疾病类别标签作为已知疾病类别的疾病特征向量表示对神经网络模型进行训练，并设置损失函数传递的偏差值来不断调整神经网络模型中的参数。

204、以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量。

具体可以在记忆区块中输入所述疾病特征向量，并根据疾病特征向量计算各个疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化，然后针对记忆区块中的模型参数进行训练，并根据疾病特征向量、训练的权重参数以及各个疾病类别在特征空间的中心向量，计算疾病类别的记忆向量。

205、计算所述疾病特征向量到所述各个疾病类别在特征空间的中心向量之间的距离值。

具体在实际应用中，特征提取层可以选取神经网络模型的倒数第二层，输出的疾病特征向量v^direct作为记忆区块的输入特征，并根据v^direct计算各个疾病类别的输入特征的均值c_i，即第i类疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化，进一步将记忆区块作为可训练参数，对各个疾病类别在特征空间中的中间向量进行学习，并在学习过程中施加类间约束与类内约束，以使得类内间距最小，类间间距最大，得到各个疾病类别的最终表示向量，即记忆向量，这里根据计算记忆向量，其中，W为神经网络模型的权重参数，可通过训练得到，v^memory为学习得到的记忆向量。

206、在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数。

可以理解的是，距离值作为疾病特征向量到各类疾病类别在特征空间的中心向量之间的最小距离，能够从一定程度上反映疾病特征学习能力，若距离值反映到各个疾病类别的中心向量都差不多，说明特征提取层无法准确提取到表征疾病类别的疾病特征向量，疾病特征属于少数类，可以从记忆区块中迁移少量的记忆向量以补充疾病类别的知识，若距离值反映到某一疾病类别的中心向量比较近，说明特征提取层能够充分提取表征疾病类别的疾病特征向量，疾病特征属于多数类，可以从记忆区块中迁移更多的记忆向量以有效表达知识。

具体地，若距离值所反映疾病特征在各个疾病类别上的预测值小于预设数值，则从记忆区块中迁移第一预设数量的记忆向量对进行学习，多数以调低疾病特征向量与记忆向量之间的比例参数；若距离值所反映疾病特征在预设疾病类别上的预测值大于预设数值，则从记忆区块中迁移第二预设数量的记忆向量对进行学习，以调高疾病特征向量与记忆向量之间的比例参数，这里第一预预设数量与第二预设数量由比例参数控制，比例参数由疾病特征向量通过神经网络模型的全连接层计算得到，相当于需要从记忆区块中迁移记忆向量的数量保证，能够根据神经网络模型动态输入疾病样本数据所提取的疾病特征向量与各个疾病类别在特征空间的中心向量之间的距离进行调整，对于多数类的疾病特征向量，可控制从记忆区块少量迁移各个疾病类别的记忆向量即可有效表达疾病特征，对于少数类的疾病特征向量，需要从记忆区块迁移更多各个疾病类别的记忆向量以有效表达疾病特征。

207、根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

具体可以针对比例参数确定用户在各个疾病类别上的特征向量，使用时间序列数据处理方法进行分类，得到用户在各个疾病类别上的特征向量与疾病类别之间的映射关系；进一步利用用户在各个疾病类别上的特征向量与疾病类别之间的映射关系，构建疾病预测模型。

举例说明，根据得到的用户在各个疾病类别上的特征向量v^meta，使用传统的时间序列数据处理方法，如LSTM、GRU等方法进行分类，得到最终疾病预测结果，即用户在各个疾病类别上的概率。

具体针对神经网络模型特征提取层输出的疾病特征向量v^direct的应用，主要分三个部分，第一部分是针对比例参数e的计算，由v^direct通过全连接层计算得到；第二部分是针对记忆向量的计算第三部分是使用记忆区块计算v^direct到各个疾病类别在特征空间的中心向量c_i的距离，针对上述三部分输出计算并将经过分类器输出用户在各个疾病类别上的概率。

208、响应于疾病预测指令的触发，利用所述疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。

本申请通过在神经网络模型的训练过程中将多数类中学习到的知识迁移到少数类的预测中，从而加强少数类样本在疾病预测过程的有效表达，解决了由于少数类样本量小而难以充分提取到相应疾病分类特征所导致的疾病预测精度差的问题。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种基于机器学习的疾病预测装置，如图3所示，所述装置包括：处理单元31、训练单元32、构建单元33、预测单元34。

处理单元31，可以用于针对预先收集的用户病例数据进行结构化处理，得到病例样本数据；

训练单元32，可以用于将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值；

构建单元33，可以用于在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型；

预测单元34，可以用于响应于疾病预测指令的触发，利用所述疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。

本发明实施例提供的一种基于机器学习的疾病预测装置，针对预先收集的用户病例数据进行结构化处理，得到病例样本数据，然后将病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，并在训练过程中，根据疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，响应于疾病预测指令的触发，利用疾病预测模型对目标用户病例数据进行预测，输出目标用户在各个疾病类别上的概率。与现有技术中采用重采样的方式来平衡样本数据集中的疾病类别，并利用样本数据训练疾病预测模型的方式相比，本申请中通过在神经网络模型的训练过程中，使用记忆区块存储各个疾病类别在特征空间的中心向量来判断样本数据针对不同疾病类别的学习能力，并将从多数类样本数据学习到的疾病特征知识迁移到少数类样本数据的预测中，从而加强少数类样本数据在疾病预测过程的有效表达，在面向不平衡样本数据的情况下，能够充分训练机器模型，提高疾病预测结果的准确率。

作为图3中所示基于机器学习的疾病预测装置的进一步说明，图4是根据本发明实施例另一种基于机器学习的疾病预测装置的结构示意图，如图4所示，所述处理单元31包括：

提取模块311，可以用于针对医疗平台定时收集不同表达形式的用户病例数据，利用预设的疾病属性字段从所述用户病例数据中提取与疾病类别关联的病例数据，所述疾病属性字段为针对疾病类别设置的关键词；

分词模块312，可以用于按照固定的语法规范对所述与疾病类别关联的病例数据进行信息抽取，得到疾病样本数据。

在具体应用场景中，如图4所示，所述神经网络模型为多层网络结构，至少包括特征提取层和记忆区块，所述训练单元32包括：

选取模块321，可以用于将所述疾病样本数据输入至神经网络模型中进行训练，并选取特征提取层输出的疾病特征向量

第一计算模块322，可以用于以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量；

第二计算模块323，可以用于计算所述疾病特征向量到所述各个疾病类别在特征空间的中心向量之间的距离值。

在具体应用场景中，如图4所示，所述第一计算模块322包括：

计算子模块3221，可以用于在所述记忆区块中输入所述疾病特征向量，并根据所述疾病特征向量计算各个疾病类别在特征空间的中心向量，作为记忆区块中各个疾病类别的初始化；

训练子模块3222，可以用于针对所述记忆区块中的模型参数进行训练，并根据所述疾病特征向量、训练的权重参数以及各个疾病类别在特征空间的中心向量，计算疾病类别的记忆向量。

在具体应用场景中，如图4所示，所述构建单元33包括：

调整模块331，可以用于在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数；

构建模块332，可以用于根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型。

在具体应用场景中，所述调整模块331，具体可以用于若所述距离值所反映疾病特征在各个疾病类别上的预测值小于预设数值，则从所述记忆区块中迁移第一预设数量的记忆向量对进行学习，以调低所述疾病特征向量与所述记忆向量之间的比例参数；

所述调整模块331，具体还可以用于若所述距离值所反映疾病特征在预设疾病类别上的预测值大于预设数值，则从所述记忆区块中迁移第二预设数量的记忆向量对进行学习，以调高所述疾病特征向量与所述记忆向量之间的比例参数；

在具体应用场景中，如图4所示，所述构建模块332包括：

分类子模块3321，可以用于针对所述比例参数确定用户在各个疾病类别上的特征向量，使用时间序列数据处理方法进行分类，得到所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系；

构建子模块3322，可以用于利用所述用户在各个疾病类别上的特征向量与疾病类别之间的映射关系，构建疾病预测模型。

需要说明的是，本实施例提供的一种基于机器学习的疾病预测装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的基于机器学习的疾病预测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的基于机器学习的疾病预测方法

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的基于机器学习的疾病预测装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请中通过在神经网络模型的训练过程中，使用记忆区块存储各个疾病类别在特征空间的中心向量来判断样本数据针对不同疾病类别的学习能力，并将从多数类样本数据学习到的疾病特征知识迁移到少数类样本数据的预测中，从而加强少数类样本数据在疾病预测过程的有效表达，在面向不平衡样本数据的情况下，能够充分训练机器模型，提高疾病预测结果的准确率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于机器学习的疾病预测方法，其特征在于，所述方法包括：

将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，所述神经网络模型包括特征提取层、记忆区块，所述记忆向量为使用神经网络模型中记忆区块结合疾病特征向量计算得到，所述记忆区块用于存储各个疾病类别在特征空间的中心向量，所述距离值为疾病特征向量到各个疾病类别在特征空间的中心向量的距离；

在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，具体在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数；根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型；

2.根据权利要求1所述的方法，其特征在于，所述针对预先收集的用户病例数据进行结构化处理，得到病例样本数据，具体包括：

3.根据权利要求1所述的方法，其特征在于，所述神经网络模型为多层网络结构，至少包括特征提取层和记忆区块，所述将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，具体包括：

将所述疾病样本数据输入至神经网络模型中进行训练，并选取特征提取层输出的疾病特征向量；

4.根据权利要求3所述的方法，其特征在于，所述以所述疾病特征向量作为所述记忆区块的输入，在所述记忆区块中计算各个疾病类别在特征空间的中心向量以及疾病类别的记忆向量，具体包括：

5.根据权利要求1所述的方法，其特征在于，所述利用所述距离值所反映疾病特征在各个疾病类别的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数，具体包括：

所述第一预设数量与所述第二预设数量由所述比例参数控制，所述比例参数由所述疾病特征向量通过所述神经网络模型的全连接层计算得到。

6.根据权利要求1所述的方法，其特征在于，所述根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型，具体包括：

7.一种基于机器学习的疾病预测装置，其特征在于，所述装置包括：

训练单元，用于将所述病例样本数据输入至神经网络模型中进行训练，得到疾病特征向量、记忆向量以及距离值，所述神经网络模型包括特征提取层、记忆区块，所述记忆向量为使用神经网络模型中记忆区块结合疾病特征向量计算得到，所述记忆区块用于存储各个疾病类别在特征空间的中心向量，所述距离值为疾病特征向量到各个疾病类别在特征空间的中心向量的距离；

构建单元，用于在训练过程中，根据所述疾病特征向量、记忆向量以及距离值确定用户在各个疾病类别上的特征向量，构建疾病预测模型，具体在训练过程中，利用所述距离值所反映疾病特征在疾病类别上的学习能力不断调整所述疾病特征向量与所述记忆向量之间的比例参数；根据所述比例参数确定用户在各个疾病类别上的特征向量，构建疾病预测模型；

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。