CN114334167A

CN114334167A - 医学数据挖掘方法及装置、存储介质、电子设备

Info

Publication number: CN114334167A
Application number: CN202111673377.XA
Authority: CN
Inventors: 杜鑫惠; 邢航; 王绍博
Original assignee: Yidu Cloud Beijing Technology Co Ltd
Current assignee: Yidu Cloud Beijing Technology Co Ltd
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-12

Abstract

本公开属于医学数据处理领域，涉及一种医学数据挖掘方法及装置、存储介质、电子设备。该方法包括：获取医疗样本数据和医学预测对象；构建医学数据抽取模型，根据医学数据抽取模型提取与医疗预测对象对应的待挖掘医学数据；根据医疗样本数据对待挖掘医学数据进行验证，并确定待挖掘医学数据与医学预测对象之间的关联度，以根据关联度对待挖掘医学数据进行筛选得到目标医学数据；基于医学特征和医学预测对象构建目标预测模型，并根据目标医学数据对目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。本公开中，在得到待挖掘医学数据之后，通过对待挖掘医学数据进行验证，提高了确定出的目标医学数据的稳定性以及普适性。

Description

医学数据挖掘方法及装置、存储介质、电子设备

技术领域

本公开涉及医学数据处理领域，尤其涉及一种医学数据挖掘方法与医学数据挖掘装置、计算机可读存储介质及电子设备。

背景技术

医学知识发现是识别对待预测的医学对象有效的医学数据的过程，通过医学知识发现，可以为医护人员提供一定的辅助决策建议。

在相关技术中，通常采用机器学习方法发现对待预测医学对象有效的医学数据，然而，使用这种方法识别出的有效医学数据并不一定准确，并且无法对识别出的有效的医学数据进行挖掘和非人工方式的验证，进而无法形成完整的从确定医学数据到验证医学数据的过程，不仅降低了识别出的医学数据的准确度，还降低了识别出的医学数据的普适性以及稳定性。

鉴于此，本领域亟需开发一种新的医学数据挖掘方法及装置。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开的目的在于提供一种医学数据挖掘方法、医学数据挖掘装置、计算机可读存储介质及电子设备，进而至少在一定程度上克服由于相关技术导致的无法形成完整从确定医学数据到验证医学数据的过程的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本发明实施例的第一个方面，提供一种医学数据挖掘方法，所述方法包括：获取医疗样本数据和医学预测对象，其中，所述医疗样本数据包括多个医疗特征；构建医学数据抽取模型，根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据；其中，所述待挖掘医学数据包括待挖掘医学特征、与所述待挖掘医学特征对应的特征值以及所述待挖掘医学特征之间的逻辑关系；根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，以根据所述关联度对所述待挖掘医学数据进行筛选得到目标医学数据；基于所述医学特征和所述医学预测对象构建目标预测模型，并根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。

在本发明的一种示例性实施例中，所述根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，包括：根据所述医疗样本数据中的医学特征、待挖掘医学数据，对所述医疗样本数据分组，并确定每组的相似度评分值；根据所述相似度评分值，对所述医疗样本数据再分组；根据再分组后每组中所述医疗样本数据的个数，确定所述待挖掘医学数据与所述医学预测对象之间的关联度。

在本发明的一种示例性实施例中，所述根据医疗样本数据中的医学特征、待挖掘医学数据，对所述医疗样本数据分组，并确定每组的相似度评分值，包括：根据每一所述医疗样本数据是否符合所述待挖掘医学数据，将所述医疗样本数据进行分组，得到第一组和第二组；根据所述医疗样本数据中的所述医学特征以及所述待挖掘医学特征，确定其他医学特征，并根据每一所述医疗样本数据中的所述其他医学特征以及所述医疗样本数据的分组确定相似度评分值。

在本发明的一种示例性实施例中，所述根据所述医疗样本数据中的医学特征以及所述待挖掘医学特征，确定其他医学特征，包括：在所述医疗样本数据中的所述医学特征中剔除所述待挖掘医学特征，以确定其他医学特征。

在本发明的一种示例性实施例中，所述相似度评分值包括高斯核计算结果；所述根据每一所述医疗样本数据中的所述其他医学特征以及所述医疗样本数据的分组确定相似度评分值，包括：确定与所述第一组中所述医疗样本数据对应的第一其他医学特征，并确定与所述第二组中所述医疗样本数据对应的第二其他医学特征；基于高斯核计算公式，确定所述第一其他医学特征和所述第二其他医学特征的相似度评分值。

在本发明的一种示例性实施例中，所述相似度评分值包括第一相似度评分值和第二相似度评分值；所述方法还包括：若所述高斯核计算结果为预设结果，对所述第一其他医学特征进行计算得到所述第一相似度评分值，并对所述第二其他医学特征进行计算得到所述第二相似度评分值。

在本发明的一种示例性实施例中，所述根据所述相似度评分值，对所述医疗样本数据再分组，包括：确定所述第一相似度评分值之间的差值得到第一差值计算结果，并确定所述第二相似度评分值之间差值得到第二差值计算结果；若所述第一差值计算结果小于相似度阈值，确定与所述第一差值计算结果对应的两个所述第一相似度评分值，并将与两个所述第一相似度评分值分别对应的所述第一组中的两个所述医疗样本数据分别归属于病例组和对照组；若所述第二差值计算结果小于所述相似度阈值，确定与所述第二差值计算结果对应的两个所述第二相似度评分值，并将与两个所述第二相似度评分值分别对应的所述第二组中的两个所述医疗样本数据分别归属于所述病例组和所述对照组。

在本发明的一种示例性实施例中，所述根据再分组后每组中所述医疗样本数据的个数，确定所述待挖掘医学数据与所述医学预测对象之间的关联度，包括：获取所述病例组中所述医疗样本数据针对于所述医学预测对象的第一预测标识，并获取所述对照组中所述医疗样本数据针对于所述医学预测对象的第二预测标识；根据所述第一预测标识对所述病例组中的所述医疗样本数据进行再分组，以将所述病例组划分为第一病例分组和第二病例分组；根据所述第二预测标识对所述对照组中的所述医疗样本数据进行再分组，以将所述对照组划分为第一对照分组和第二对照分组；对所述第一病例分组中所述医疗样本数据的个数、所述第二病例分组中所述医疗样本数据的个数、所述第一对照分组中所述医疗样本数据的个数以及所述第二对照分组中所述医疗样本数据的个数进行计算，得到所述待挖掘医学数据与所述医学预测对象之间的关联度。

在本发明的一种示例性实施例中，所述根据所述关联度对所有所述待挖掘医学数据进行筛选得到目标医学数据，包括：确定与所述关联度对应的置信区间，并获取所述置信区间的置信上限和置信下限；若所述置信上限和所述置信下限均小于预设范围值，或所述置信上限和所述置信下限均大于预设范围值，对所述第一病例分组中所述医疗样本数据的个数、所述第二病例分组中所述医疗样本数据的个数、所述第一对照分组中所述医疗样本数据的个数以及所述第二对照分组中所述医疗样本数据的个数进行计算，得到用于核验所述关联度的核验值；获取核验阈值，并在所述核验值中确定小于所述核验阈值的目标核验值，以确定与所述目标核验值对应的目标关联度；根据所述目标关联度对所有所述待挖掘医学数据进行筛选得到目标医学数据。

在本发明的一种示例性实施例中，所述方法还包括：确定与所述目标核验值对应的目标关联度，若所述目标关联度大于预设关联度，确定所述待挖掘医学数据与所述医学预测对象之间具有正向关联关系；若所述目标关联度小于预设关联度，确定所述待挖掘医学数据与所述医学预测对象之间具有负向关联关系。

在本发明的一种示例性实施例中，所述根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据，包括：对所述医疗样本数据进行聚类处理，得到聚类处理结果；获取与所述医疗样本数据对应的原始类别信息，并在所述医疗样本数据中确定第一医疗样本数据以及第二医疗样本数据；其中，所述第一医疗样本数据为所述聚类处理结果与所述原始类别信息一致的所述医疗样本数据，所述第二医疗样本数据为所述聚类处理结果与所述原始类别信息不一致的所述医疗样本数据；基于医学数据抽取模型，提取与所述第一医疗样本数据对应的待挖掘医学数据。

在本发明的一种示例性实施例中，所述医学数据抽取模型，其中，所述医学数据抽取模型的结构包括树形结构，所述待挖掘医学数据包括所述医学数据抽取模型树形分支上的根节点特征以及子节点特征，所述根节点特征包括根特征以及与所述根特征对应的特征值，所述子节点特征包括子特征以及与所述子特征对应的特征值。

在本发明的一种示例性实施例中，所述根据所述目标医学数据对所述目标预测模型中的参数进行调节之前，所述方法还包括：对所述医疗样本数据进行划分得到测试数据以及训练数据，并利用所述训练数据构建目标预测模型；基于所述测试数据，对所述目标预测对象进行调节得到调节后的所述目标预测模型。

在本发明的一种示例性实施例中，所述根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型，包括：确定与所述目标医学数据对应的目标医学特征，并利用所述目标医学数据、所述医疗样本数据中的所述医学特征、所述医学预测对象以及所述测试数据，对调节后的所述目标预测模型进行重新构建；基于所述测试数据，对重新构建的所述目标预测模型进行调节，以得到调节后的所述目标预测模型。

根据本发明实施例的第二个方面，提供一种医学数据挖掘装置，所述装置包括：获取模块，被配置为获取医疗样本数据和医学预测对象，其中，所述医疗样本数据包括多个医疗特征；构建模块，被配置为构建医学数据抽取模型，根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据；其中，所述待挖掘医学数据包括待挖掘医学特征、与所述待挖掘医学特征对应的特征值以及所述待挖掘医学特征之间的逻辑关系；验证模块，被配置为根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，以根据所述关联度对所述待挖掘医学数据进行筛选得到目标医学数据；调节模块，被配置为基于所述医学特征和所述医学预测对象构建目标预测模型，并根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。

根据本发明实施例的第三个方面，提供一种电子设备，包括：处理器和存储器；其中，存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现上述任意示例性实施例的医学数据挖掘方法。

根据本发明实施例的第四个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意示例性实施例中的医学数据挖掘方法。

由上述技术方案可知，本发明示例性实施例中的医学数据挖掘方法、医学数据挖掘装置、计算机存储介质及电子设备至少具备以下优点和积极效果：

在本公开的示例性实施例提供的方法及装置中，一方面，待挖掘医学数据是基于医疗样本数据的角度进行验证的，确定待挖掘医学数据和医学预测对象之间的关联度，进而使得目标医学数据是从医学角度和统计学角度得出的数据，提高了目标医学数据的准确度；另一方面，提供了一个从确定待挖掘医学数据到确定目标医学数据再到得到目标预测模型的完整过程，完善从确定待挖掘医学数据到验证待挖掘医学数据的逻辑，增加了目标医学数据的精确度、普适性以及稳定性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开实施例中医学数据挖掘方法的流程示意图；

图2示意性示出本公开实施例中医学数据挖掘方法中提取与医学预测对象对应的待挖掘医学数据的流程示意图；

图3示意性示出本公开实施例中医学数据挖掘方法中医学数据抽取模型的结构示意图；

图4示意性示出本公开实施例中医学数据挖掘方法中确定待挖掘医学数据和医学预测对象之间的关联度的流程示意图；

图5示意性示出本公开实施例中医学数据挖掘方法中确定每组相似度评分值的流程示意图；

图6示意性示出本公开实施例中医学数据挖掘方法中确定相似度评分值的流程示意图；

图7示意性示出本公开实施例中医学数据挖掘方法中对医疗样本数据再分组的流程示意图；

图8示意性示出本公开实施例中医学数据挖掘方法中得到关联度的流程示意图；

图9示意性示出本公开实施例中医学数据挖掘方法中得到目标医学数据的流程示意图；

图10示意性示出本公开实施例中医学数据挖掘方法中确定待挖掘医学数据和医学预测对象之间的关联关系的流程示意图；

图11示意性示出本公开实施例中医学数据挖掘方法中根据目标医学数据对目标预测对象中的参数进行调节之前的流程示意图；

图12示意性示出本公开实施例中医学数据挖掘方法中得到调节后目标预测模型的流程示意图；

图13示意性示出本公开实施例中应用场景下医学数据挖掘方法的流程示意图；

图14示意性示出本公开实施例中一种医学数据挖掘装置的结构示意图；

图15示意性示出本公开实施例中一种用于医学数据挖掘方法的电子设备；

图16示意性示出本公开实施例中一种用于医学数据挖掘方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

本说明书中使用用语“一个”、“一”、“该”和“所述”用以表示存在一个或多个要素/组成部分/等；用语“包括”和“具有”用以表示开放式的包括在内的意思并且是指除了列出的要素/组成部分/等之外还可存在另外的要素/组成部分/等；用语“第一”和“第二”等仅作为标记使用，不是对其对象的数量限制。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。

针对相关技术中存在的问题，本公开提出了一种医学数据挖掘方法。图1示出了医学数据挖掘方法的流程示意图，如图1所示，医学数据挖掘方法至少包括以下步骤：

步骤S110.获取医疗样本数据和医学预测对象，其中，医疗样本数据包括多个医疗特征。

步骤S120.构建医学数据抽取模型，根据医学数据抽取模型提取与医疗预测对象对应的待挖掘医学数据；其中，待挖掘医学数据包括待挖掘医学特征、与待挖掘医学特征对应的特征值以及待挖掘医学特征之间的逻辑关系。

步骤S130.根据医疗样本数据对待挖掘医学数据进行验证，并确定待挖掘医学数据与医学预测对象之间的关联度，以根据关联度对待挖掘医学数据进行筛选得到目标医学数据。

步骤S140.基于医学特征和医学预测对象构建目标预测模型，并根据目标医学数据对目标预测模型中的参数进行调节，以得到调节后的目标预测模型。

下面对医学数据挖掘方法的各个步骤进行详细说明。

在步骤S110中，获取医疗样本数据和医学预测对象，其中，医疗样本数据包括多个医疗特征。

在本公开的示例性实施例中，医疗样本数据指的是在真实的医疗环境下产生的数据，并且，医疗样本数据描述的对象是患者，具体地，医疗样本数据可以是某个城市入院治疗的所有患者的数据，可以是某个地区入院治疗的所有患者的数据，本示例性实施例对此不做特殊限定。

针对于每一个患者来说，通过医疗样本数据可以确定与患者对应的医学特征，在该医学特征中存在全部患者特征以及与全部患者特征对应的特征值。

医学预测对象指的是需要预测的医学对象，例如，医学预测对象可以是患者死亡风险这一预测对象，可以是患者死亡率这一预测对象，还可以是任何一种医学上需要预测的对象，本示例性实施例对此不做特殊限定。

举例而言，获取某个地区的医疗样本数据，在医疗样本数据中包括患者的医学特征，例如包括A患者的年龄特征、A患者的吸烟史特征、A患者的高血压史特征以及A患者肥胖史特征，除此之外，还包括B患者的血小板特征、B患者的年龄特征、B患者的吸烟史特征以及B患者的酒龄特征，获取的医学预测对象为患者的死亡率，。

在本示例性实施例中，获取医学样本数据有助于后续根据医学预测对象得出待挖掘医学数据，进而在后续中形成完整的从发现待挖掘医学数据到得到目标预测模型的过程。

在步骤S120中，构建医学数据抽取模型，根据医学数据抽取模型提取与医疗预测对象对应的待挖掘医学数据；其中，待挖掘医学数据包括待挖掘医学特征、与待挖掘医学特征对应的特征值以及待挖掘医学特征之间的逻辑关系。

在本示例性实施例中，医学预测对象指的是需要预测的医学对象，例如，医学预测对象可以是患者死亡风险这一预测对象，可以是患者死亡率这一预测对象，还可以是任何一种医学上需要预测的对象，本示例性实施例对此不做特殊限定。

医学数据抽取模型可以抽取出可能会影响医学预测对象的待挖掘医学数据，值得说明的是，待挖掘医学数据中包括待挖掘医学特征、与待挖掘医学特征对应的特征值以及待挖掘医学特征之间的逻辑关系，其中，待挖掘医学特征指的是医学中患者的特征，对应的，与待挖掘医学特征对应的特征值既为与医学中患者的特征对应的具体的值，逻辑关系指的是待挖掘医学特征之间的组合关系，例如，逻辑关系可以是且、可以是或，还可以是一切待挖掘医学特征可能存在的逻辑关系，本示例性实施例对此不做特殊限定。

举例而言，医学预测对象为患者的死亡率，构建出的医学数据抽取模型为模型A，进而从模型A中抽取出会影响患者死亡率的待挖掘医学数据，具体的，待挖掘医学数据可以包括患者年纪大于18岁且患者血小板过低，其中患者年纪和患者血小板为待挖掘医学特征，18岁和过低为与待挖掘医学特征对应的特征值，且为待挖掘医学特征之间的逻辑关系，待挖掘医学数据还可以包括患者吸烟史10年且患者患有胃病，原始患者特征数据C为患者性别男且患者酒龄15年。

通常，在得到待挖掘医学数据之后，通常医学专家按照医学理论会对待挖掘医学数据进行初步的筛选，例如待挖掘医学数据为患者年纪9岁且怀孕，按照正常的医学理论，年纪为9岁的患者是不可能怀孕的，因此将该待挖掘医学数据删除。

在可选的实施例中，图2示出了医学数据挖掘方法中提取与医学预测对象对应的待挖掘医学数据的流程示意图，如图2所示，该方法至少包括以下步骤：在步骤S210中，对医疗样本数据进行聚类处理，得到聚类处理结果。

其中，对医疗样本数据局进行聚类处理指的是对医疗样本数据进行分类的过程，具体的，聚类处理过程可以是利用聚类算法实现的，也可以是利用任何一种具有聚类功能的方法实现的，本示例性实施例对此不做特殊限定。聚类处理结果指的是医疗样本数据被分为了哪一类的结果。

举例而言，医疗样本数据中具体包括医疗样本数据A、医疗样本数据B、医疗样本数据C以及医疗样本数据D，对医疗样本数据进行聚类得到聚类处理结果，具体地，聚类处理结果包括医疗样本数据A属于第一类数据，医疗样本数据B属于第二类数据，医疗样本数据C属于第一类数据，医疗样本数据D属于第一类数据。

在步骤S220中，获取与医疗样本数据对应的原始类别信息，并在医疗样本数据中确定第一医疗样本数据以及第二医疗样本数据；其中，第一医疗样本数据为聚类处理结果与原始类别信息一致的医疗样本数据，第二医疗样本数据为聚类处理结果与原始类别信息不一致的医疗样本数据。

其中，第一医疗样本数据指的是聚类处理结果与原始类别信息一致的医疗样本数据，第二医疗样本数据的是聚类处理结果与原始类别信息不一致的医疗样本数据，原始类别信息指的是描述医疗样本数据真实所属数据类别的信息。

举例而言，聚类处理结果包括医疗样本数据A属于第一类数据，医疗样本数据B属于第二类数据，医疗样本数据C属于第一类数据，医疗样本数据D属于第一类数据。原始类别信息包括医疗样本数据A属于第一类数据，医疗样本数据B属于第二类数据，医疗样本数据C属于第二类数据，医疗样本数据D属于第二类数据，显然，医疗样本数据A和医疗样本数据B属于第一医疗样本数据，医疗样本数据C和医疗样本数据D属于第二医疗样本数据。

在步骤S230中，基于医学数据抽取模型，提取与第一医疗样本数据对应的待挖掘医学数据。

其中，将第一医疗样本数据中的一部分医疗样本数据作为医学数据抽取模型的训练集，以对医学数据抽取模型进行训练，并将第一医疗样本数据中的另一部分医疗样本数据作为医学数据抽取模型的测试集，以确定出与第一医疗样本数据对应的待挖掘医学数据。

举例而言，将医疗样本数据A以及医疗样本数据B的作为医学数据抽取模型的训练集，以对医学数据抽取模型进行训练，并将第一医疗样本数据中的医疗样本数据A1和医疗样本数据B1作为测试集，以得到待挖掘医学数据，具体地，待挖掘医学数据可以是患者年纪大于18且患者血小板含量过低、患者吸烟史10年。

在本示例性实施例中，通过原始类别信息以及聚类处理结果，得到第一医疗样本数据和第二医疗样本数据，其中，第一医疗样本数据为原始类别信息与聚类处理结果一致的医疗样本数据，并且医学数据抽取模型是基于第一医疗样本数据得到的，确保了待挖掘医学数据的准确性。

在可选的实施例中，医学数据抽取模型，其中，医学数据抽取模型的结构包括树形结构，待挖掘医学数据包括医学数据抽取模型树形分支上的根节点特征以及子节点特征，根节点特征包括根特征以及与根特征对应的特征值，子节点特征包括子特征以及与子特征对应的特征值。

其中，医学数据抽取模型是根据医学预测对象构建的，因此得到的待挖掘医学数据是可能对医学预测对象产生影响的数据，具体地，医学数据抽取模型可以为一种树形结构的模型。

图3示出了医学数据抽取模型的结构示意图，如图3所示，其中，310为根节点特征，320为子节点特征，基于此，图3示出的待挖掘医学数据具体包括四条，分别为x1<3且x5<7的待挖掘医学数据1、x2<3且x5>＝7的待挖掘医学数据2、x2<3的待挖掘医学数据3以及x2>＝3的待挖掘医学数据4。

举例而言，根据医学预测对象构建出医学数据抽取模型，在构建的过程中，首先，通过决策树模型产生一些医学特征，然后将原有的对医学预测对象产生影响的特征与通过决策树模型产生医学特征进行线性组合得到如公式(1)所述的线性组合结果。

F(X)＝β₀+β₁X1+β₂X2+…+β_pXp (1)

其中，F(X)为线性组合结果，β₀、β₁至β_p为权重，X1、X2至Xp为原有的对医学预测对象产生影响的特征和通过决策树模型新产生医学特征。

将公式(1)作为目标函数，以对医学数据抽取模型中的参数不断的调整，最终构建出与医学预测对象对应的医学数据抽取模型。

在本示例性实施例中，利用医学数据抽取模型，确定出的待挖掘医学数据包括树形分支上的根节点特征以及子节点特征，避免了现有技术中，确定出的待挖掘医学数据只能得到单个特征的情况发生，增加了确定出的待挖掘医学数据的普适性，提高了确定出的待挖掘医学数据的实际医学价值。

在步骤S130中，根据医疗样本数据对待挖掘医学数据进行验证，并确定待挖掘医学数据与医学预测对象之间的关联度，以根据关联度对待挖掘医学数据进行筛选得到目标医学数据。

在本公开的示例性实施例中，在确定出待挖掘医学数据后，需要运用医疗样本数据对待挖掘医学数据的正确性进行验证，除此之外，在确定出待挖掘医学数据之后，还需要确定可以反应待挖掘医学数据与医学预测对象之间的关联程度的关联度，进而从医学以及统计学两个角度在待挖掘医学数据中确定出目标医学数据。

举例而言，获取3个医疗医学特征，通过这3个医疗医学特征对待挖掘医学数据进行验证，并确定出待挖掘医学数据与医学预测对象之间的关联程度，进而在待挖掘医学数据中确定出目标医学数据。

在可选的实施例中，图4示出了医学数据挖掘方法中确定待挖掘医学数据和医学预测对象之间的关联度的流程示意图，如图4所示，该方法至少包括以下步骤：在步骤S410中，根据医疗样本数据中的医学特征、待挖掘医学数据，对医疗样本数据分组，并确定每组的相似度评分值。

其中，针对于每一个患者来说，通过医疗样本数据可以确定与患者对应的医学特征，在该医学特征中存在全部患者特征以及与全部患者特征对应的特征值，除此之外，在医疗样本数据的特征中还可能存在与待挖掘医学数据对应的具有逻辑关系医学特征，因此可以按照是否具有待挖掘医学数据对医疗样本数据进行分组。

在分组之后，需要确定每组的相似度评分值，这样做的目的是为了确定医学特征中除去待挖掘医学数据以外的其他医学特征之间的相似度，其中，其他医学特征指的是在医学特征中删除待挖掘医学数据之后得到的数据。

举例而言，获取某个地区的医疗样本数据，在医疗样本数据中包括患者的医学特征，例如包括A患者的年龄特征、A患者的吸烟史特征、A患者的高血压史特征以及A患者肥胖史特征，除此之外，还包括B患者的血小板特征、B患者的年龄特征、B患者的吸烟史特征以及B患者的酒龄特征。

若待挖掘医学数据为年龄大于18且血小板偏低，则根据待挖掘医学数据确定出的A患者的其他医学特征为A患者的吸烟史特征、A患者的高血压史特征以及A患者肥胖史特征，确定出的B患者的其他医学特征为B患者的吸烟史特征以及B患者的酒龄特征，基于此，需要确定A患者的其他医学特征的相似度评分值，还需要确定B患者的其他医学特征的相似度评分值。

在步骤S420中，根据相似度评分值，对医疗样本数据再分组。

其中，可以根据相似度评分值，对医疗样本数据再次分组。

举例而言，对医疗样本数据进行第一次分组，可以得到第一组和第二组，对第一组中的医疗样本数据进行计算，可以得到与第一组中的医疗样本数据对应的相似度评分值，然后根据相似度评分值可以再次对第一组进行分组，进而将第一组分为两组，同理，还可以将第二组分为两组。

在步骤S430中，根据再分组后每组中医疗样本数据的个数，确定待挖掘医学数据与医学预测对象之间的关联度。

其中，再分组后其中一组中的医疗样本数据中包括待挖掘医学数据，另外一组中的医疗样本数据中不完全包括待挖掘医学数据，即是否完全包括待挖掘医学数据再分组后每组之间的区别。

在进行再次分组之后，可以对每组中的医疗样本数据的个数进行统计，例如通过对其中一组中的医疗样本数据个数和另外一组中医疗样本数据的个数进行计算得到比值比，而比值比可以反应待挖掘医学数据与医学预测对象之间的关联度，然后根据比值比对待挖掘医学数据进行筛选确定出目标医学数据，即发现对医学预测对象可能产生影响的目标医学数据。

举例而言，医疗样本数据A属于再分组后的组1，医疗样本数据B和医疗样本数据C属于再分组后的组2，按照计算比值比的公式对组1和组2中的医疗样本数据的个数进行计算得到关联度。

在可选的实施例中，一方面，相似度评分值是基于医学角度的医疗样本数据计算得出的，关联度是基于统计学角度的医疗样本数据的分组情况计算得出的，进而使得目标医学数据是从医学角度和统计学角度得出的数据，提高了目标医学数据的准确度；另一方面，对医疗样本数据在分组是根据相似度评分值进行的，减少了分组过程中对于医疗样本数据中样本的要求，进而扩大了可被分组的医疗样本数据的数量，不仅提高了分组方法的适用性，还增加了确定关联度的医疗样本数据数量，进而有助于后续得出更为精确的目标目标医学数据。

在可选的实施例中，图5示出了医学数据挖掘方法中确定每组相似度评分值的流程示意图，如图5所示，该方法至少包括以下步骤：在步骤S510中，根据每一医疗样本数据是否符合待挖掘医学数据，将医疗样本数据进行分组，得到第一组和第二组。

其中，根据医疗样本数据是否符合待挖掘医学数据，对医疗样本数据进行分组，若医疗样本数据符合待挖掘医学数据，则将该医疗样本数据分为第一组，若医疗样本数据不符合待挖掘医学数据，则将该医疗赝本数据分为第二组。

举例而言，医疗样本数据中存在患者A的数据和患者B的数据，其中，患者A的数据中包括与患者A对应的医学特征1，并且，医学特征1中具体包括患者A的年龄特征、患者A的吸烟史特征、患者A的高血压史特征，除此之外，患者B的数据中包括与患者B对应的医学特征2，并且，医学特征2中具体包括患者B的年龄特征、患者B的酒龄特征、患者B的血小板特征。

若待挖掘医学数据中包括年龄特征和血小板特征，则医学特征2符合待挖掘医学数据，则将与医学特征2对应的医疗样本数据分为第一组，同理，由于医学特征1不符合待挖掘医学数据，则将与医学特征1对应的医疗样本数据分为第二组。

在步骤S520中，根据医疗样本数据中的医学特征以及待挖掘医学特征，确定其他医学特征，根据每一医疗样本数据中的其他医学特征以及医疗样本数据的分组确定相似度评分值。

其中，其他医学特征指的是与医疗样本数据对应医学特征中删除待挖掘医学特征之后的特征，每一组中的医疗样数据的其他医学特征进行相似度计算，以确定对应的相似度评分值。

举例而言，第一组中包括3个医疗样本数据，第二组中包括6个医疗样本数据，在第一组种确定这3个医疗样本数据的其他医学特征，并计算这3个其他医学特征的相似度，以得到第一组中3个医疗样本数据的相似度评分值，同理，可以得到第二组中6个医疗样本数据的相似度评分值。

在本示例性实施例中，一方面，对医疗样本数据进行了分组，并计算出每一组中医疗样本数据之间的相似度评分值，为后续确定再次分组提供了基础数据。

在可选的实施例中，根据医疗样本数据中的医学特征以及待挖掘医学数据，确定其他医学特征，包括：在医疗样本数据中的医学特征中剔除待挖掘医学数据，以确定其他医学特征。

其中，医疗样本数据中存在医学特征以及与医学特征对应的特征值，而其他医学特征指的是在医学特征中删除待挖掘医学特征后得到的特征。

举例而言，在待挖掘医学特征中包括患者的医学特征，例如包括A患者的年龄特征、A患者的吸烟史特征、A患者的高血压史特征以及A患者肥胖史特征，除此之外，还包括B患者的血小板特征、B患者的年龄特征、B患者的吸烟史特征以及B患者的酒龄特征。

若待挖掘医学特征为年龄大于18且血小板偏低，则根据医学特征确定出的A患者的其他医学特征为A患者的吸烟史特征、A患者的高血压史特征以及A患者肥胖史特征，确定出的B患者的其他医学特征数据为B患者的吸烟史特征以及B患者的酒龄特征。

在本示例性实施例中，根据与医疗样本数据对应的医学特征和待挖掘医学特征，确定出其他医学特征，有助于后续对其他医学特征进行计算得到相似度评分值，进而根据相似度评分值衡量其他医学特征之间的相似度。

在可选的实施例中，图6示出了医学数据挖掘方法中确定相似度评分值的流程示意图，相似度评分值包括高斯核计算结果；如图6所示，该方法至少包括以下步骤：在步骤S610中，确定与第一组中医疗样本数据对应的第一其他医学特征，并确定与第二组中医疗样本数据对应的第二其他医学特征。

其中，第一其他医学特征指的是第一组中的医疗样本数据中的其他医学特征，对应的，第二其他医学特征指的是第二组医疗样本数据中的其他医学特征。

举例而言，第一组中包括3个医疗样本数据，第二组中包括6个医疗样本数据，在第一组种确定这3个医疗样本数据的其他医学特征即为第一其他医学特征，同理，可以得到第二组中6个医疗样本数据第二其他医学特征。

在步骤S620中，基于高斯核计算公式，确定第一其他医学特征和第二其他医学特征的相似度评分值。

其中，高斯核计算公式指的是衡量第一其他医学特征和第二其他医学特征之间相似度的计算公式，并且，高斯核计算结果越趋近于1，证明第一其他医学特征和第二其他医学特征之间相似度越高。

具体地，高斯核计算公式如公式(2)所示。

K(x,y)＝exp(-γ||x-y||²) (2)

其中，K(x，y)为高斯计算结果，x为第一其他医学特征，y为第二其他医学特征，γ为一个系数。

举例而言，利用如公式(2)所示的高斯核计算公式，将第一其他医学特征代入公式中的x，将第二其他医学特征代入公式(2)中的y，进而得到第一其他医学特征与第二其他医学特征之间的高斯计算结果。

在本示例性实施例中，提供了一种计算相似度评分值的方式，这为后续对医疗样本数据再分组提供了依据，进而为得出准确度更高的目标医学数据奠定了基础。

在可选的实施例中，相似度评分值包括第一相似度评分值和第二相似度评分值；方法还包括：若高斯核计算结果为预设结果，对第一其他医学特征进行计算得到第一相似度评分值，并对第二其他医学特征进行计算得到第二相似度评分值。

其中，预设结果为高斯核计算结果中的一个特定值，并且当高似核计算结果等于这个特定值时，无法对医疗样本数据进行分组，此时需要利用另一种计算相似度的方法来计算第一其他医学特征和第二其他医学特征之间的相似度，具体地，该方法需要用到倾向性评分公式，基于此，利用倾向性评分公式对第一组中的医疗样本数据的其他医学特征进行计算得到第一相似度评分值，同理，利用倾向性评分公式对第二组中的医疗样本数据的其他医学特征进行计算得到第二相似度评分值。

举例而言，倾向性评分公式如公式(3)所示。

其中，X表示的是由其他医学特征组成的矩阵，β指的是权重矩阵，其用于为其他医学特征中不同的医学特征分配权重值，PS指的是相似度评分值。

预设结果为0，当公式(2)中的K等于0时，将属于第一组的医疗样本数据的其他医学特征代入公式(3)时，计算出的PS为第一相似度评分值，对应的，当将属于第二组的医疗样本数据的其他医学特征代入公式(3)时，计算出的PS为第二相似度评分值。

在本示例性实施例中，在高斯核计算结果为预设结果时，提供了另外一种计算第一组中医疗样本数据的其他医学特征与第二组中的医疗样本数据的其他医学患者特征之间相似度的方法，避免了在高斯核计算结果为预设结果时，无法得出相似度评分值的情况发生。

在可选的实施例中，图7示出了医学数据挖掘方法中对医疗样本数据再分组的流程示意图，如图7所示，该方法至少包括以下步骤：在步骤S710中，确定第一相似度评分值之间的差值得到第一差值计算结果，并确定第二相似度评分值之间差值得到第二差值计算结果。

其中，第一差值计算结果指的是第一相似度评分值之间的差值，第二差值计算结果指的是第二相似度评分值之间的差值。

举例而言，若在第一组中存在3个医疗样本数据，分别为医疗样本数据A、医疗样本数据B以及医疗样本数据C，并且在第二组中存在2个医疗样本数据，分别为医疗样本数据D以及医疗样本数据E，其中，医疗样本数据A的第一相似度评分值A1为0.5，医疗样本数据B的第一相似度评分值B1为0.8，医疗样本数据C的第一相似度评分值C1为0.9，医疗样本数据D的第二相似度评分值D1为0.5，医疗样本数据E的第二相似度评分值E1为0.75。

基于此，分别求第一相似度评分值A1、第一相似度评分值B1以及第一相似度评分值C1两两之间的差值得到第一差值计算结果，并且分别求第二相似度评分值D1以及第二相似度评分值E1之间的差值得到第二计算结果。

在步骤S720中，若第一差值计算结果小于相似度阈值，确定与第一差值计算结果对应的两个第一相似度评分值，并将与两个第一相似度评分值分别对应的第一组中的两个医疗样本数据分别归属于病例组和对照组。

其中，相似度阈值指的是衡量不同其他医学特征之间的相似度的值，若第一差值计算结果小于相似度阈值，则证明与第一差值计算结果对应的两个第一相似度评分值来源于两个相似度很高的其他医学特征。

举例而言，若存在3个属于第一组的医疗样本数据，分别为医疗样本数据A、医疗样本数据B以及医疗样本数据C，其中，医疗样本数据A的第一相似度评分值A1为0.5，医疗样本数据B的第一相似度评分值B1为0.5，医疗样本数据C的第一相似度评分值C1为0.6。

计算第一相似度评分值之间的差值得到第一差值计算结果，若相似度阈值为0.15，则确定与小于相似度阈值的第一差值计算结果对应的两个属于第一组的医疗样本数据分别为医疗样本数据A和医疗样本数据B，基于此，将医疗样本数据A归属于病例组，将医疗样本数据B归属于对照组。

在步骤S730中，若第二差值计算结果小于相似度阈值，确定与第二差值计算结果对应的两个第二相似度评分值，并将与两个第二相似度评分值分别对应的第二组中的两个医疗样本数据分别归属于病例组和对照组。

其中，若第二相似度评分值之间的差值计算结果小于相似度阈值，则与与第二相似度评分值对应的其他医学特征数据之间是极为相似的，因此，也可以通过比较第二差值计算结果与预设相似度阈值，对第二组中的医疗样本数据进行再次分组。

举例而言，若相似度阈值为0.15，则确定与第二差值计算结果0对应的两个第二相似度评分值为第二相似度评分值D1和第二相似度评分值E1。

基于此，将与第二相似度评分值D1对应的医疗样本数据归属于病例组，将与第二相似度评分值E1对应的医疗样本数据归属于对照组。

在本示例性实施例中，以第一相似度评分值之间的第一差值计算结果和第二相似度评分值之间的第二计算结果为依据，确定第一组中的医疗样本数据归于病例组还是对照组，并确定第二组中的医疗样本数据归于病例组还是对照组，保证了病例组中的医疗样本数据和对照组中的医疗样本数据具有相似度较高的其他医学特征，进而为后续确定出高准确度的目标医学数据奠定了基础。

在可选的实施例中，图8示出了医学数据挖掘方法中得到关联度的流程示意图，如图8所示，该方法至少包括以下步骤：在步骤S810中，获取病例组中医疗样本数据针对于医学预测对象的第一预测标识，并获取对照组中医疗样本数据针对于医学预测对象的的第二预测标识。

其中，第一预测标识用于标识病例组中的医疗样本数据与医学预测对象的关系，第一预测标识可以是数字形式，也可以是字符串的形式，本示例性实施例对此不做特殊限定，例如，医学预测对象为患者死亡风险，则第一预测标识为0时，证明与病例组中的医疗样本数据对应的患者死亡风险，第一预测标识为1时，证明与病例组中的医疗样本数据对应的患者不具有患者死亡风险。

对应的，第二预测标识用于标识对照组中的医疗样本数据与医学预测对象的关系，第二预测标识可以是数字的形式，也可以是字符串的形式，本示例性实施例对此不做特殊限定，若医学预测对象为患者死亡风险，则第二预测标识为“具有”时，证明与对照组中的医疗样本数据对应的患者具有患者死亡风险，第二预测标识为“不具有”时，证明与对照组中的医疗样本数据对应的患者不具有患者死亡风险。

举例而言，病例组中存在医疗样本数据A、医疗样本数据B以及医疗样本数据C，对照组中存在医疗样本数据D、医疗样本数据E以及医疗样本数据F，其中，与医疗样本数据A对应的第一预测标识为0，与医疗样本数据B对应的第一预测标识为1，与医疗样本数据C对应的第一预测标识为0，与医疗样本数据D对应的第二预测标识为1，与医疗样本数据E对应的第二预测标识为1，与医疗样本数据F对应的第二预测标识为0。

在步骤S820中，根据第一预测标识对病例组中的医疗样本数据进行再分组，以将病例组划分为第一病例分组和第二病例分组。

其中，按照第一预测标识对病例组中的医疗样本数据进行再一次分组，以得到第一病例分组和第二病例分组，其中，第一病例分组中包括了病例组中第一预测标识为1的医疗样本数据，第二病例分组中包括了病例组中第一对象标识为0的医疗样本数据。

举例而言，病例组中存在医疗样本数据A、医疗样本数据B以及医疗样本数据C，，其中，与医疗样本数据A对应的第一预测标识为0，与医疗样本数据B对应的第一预测标识为1，与医疗样本数据C对应的第一预测标识为0。

基于此，将医疗样本数据B归属于第一病例分组，将医疗样本数据A、医疗样本数据C归属于第二病例分组。

在步骤S830中，根据第二预测标识对对照组中的医疗样本数据进行再分组，以将对照组划分为第一对照分组和第二对照分组。

其中，对应的，根据第二预测标识对对照组中的医疗样本数据进行再次分组，以得到第一对照分组和第二对照分组。

举例而言，对照组中存在医疗样本数据D、医疗样本数据E以及医疗样本数据F，其中，与医疗样本数据D对应的第二预测标识为1，与医疗样本数据E对应的第二预测标识为1，与医疗样本数据F对应的第二预测标识为0。

基于此，将医疗样本数据D以及医疗样本数据E归属于第一对照分组，将医疗样本数据F归属于第二对照分组。

在步骤S840中，对第一病例分组中医疗样本数据的个数、第二病例分组中医疗样本数据的个数、第一对照分组中医疗样本数据的个数以及第二对照分组中医疗样本数据的个数进行计算，得到待挖掘医学数据与医学预测对象之间的关联度。

其中，关联度体现的是待挖掘医学数据与医学预测对象之间的关联程度。

基于此，将医疗样本数据B归属于第一病例分组，将医疗样本数据A、医疗样本数据C归属于第二病例分组，将医疗样本数据D以及医疗样本数据E归属于第一对照分组，将医疗样本数据F归属于第二对照分组，根据上述分组情况得到如表1所示的病例组和对照组的分组表。

其中，表1中的n1为第一病例分组中医疗样本数据的数量与第一对照分组中医疗样本数据的个数的总和，表1中的n2为第二病例分组中医疗样本数据的个数和第二对照组中医疗样本数据的个数的总和，N为第一病例分组中医疗样本数据的个数、第一对照分组中医疗样本数据的个数、第二病例分组中医疗样本数据的个数以及第二对照分组中医疗样本数据的个数的总和。

目标预测对象/患者	病例组	对照组	总
				具有	第一病例分组	第一对照分组	3人(n1)
不具有	第二病例分组	第二对照分组	3人(n2)
				总	3人	3人	6人(N)

利用公式(4)对第一病例分组中的医疗样本数据的个数、第二病例分组中医疗样本数据的个数、第一对照分组中医疗样本数据的个数以及第二对照分组中医疗样本数据的个数进行计算，得到关联度。

其中，OR表示的是关联度。

在本示例性实施例中，根据第一预测标识和第二预测标识，对病例组和对照组进行再一次分组，得到不同的四个组，进而确定出关联度，有助于后续对关联度进行核验，以进一步确定待挖掘医学数据是否对医学预测对象存在影响。

在可选的实施例中，图9示出了医学数据挖掘方法中得到目标医学数据的流程示意图，如图9所示，该方法至少包括以下步骤：在步骤S910中，确定与关联度对应的置信区间，并获取置信区间的置信上限和置信下限。

其中，置信区间展现的是关联度的可信程度，置信区间指的是一个范围，基于此，置信上限指的是该范围的上限，置信下限指的是该范围的下限。

举例而言，按照公式(5)和公式(6)计算关联度在对数维度上的95％的置信区间。

e^{In(OR)±(1.96×SE(In(OR)))} (5)

其中，OR表示的是关联度，A为第一病例组中医疗样本数据的数量，B为第一对照组中医疗样本数据的个数，C为第二病例组中医疗样本数据的个数，D为第二对照组中医疗样本数据的个数。

在步骤S920中，若置信上限和置信下限均小于预设范围值，或置信上限和置信下限均大于预设范围值，对第一病例分组中医疗样本数据的个数、第二病例分组中医疗样本数据的个数、第一对照分组中医疗样本数据的个数以及第二对照分组中医疗样本数据的个数进行计算，得到用于核验关联度的核验值。

其中，预设范围值是一个数值，值得说明的是，若置信区间的置信上限大于预设范围值，置信下限小于预设范围值，则证明此时关联度并不能准确的表示待挖掘医学数据与医学预测对象之间的关系，因此，只有当置信上限和置信下限均小于预设范围值或置信上限和置信下限均大于预设范围值时，关联度才表示的是待挖掘医学数据与医学预测对象之间的关系。

基于此，对第一病例分组中医疗样本数据的个数、第二病例分组中医疗样本数据的个数、第一对照分组中医疗样本数据的个数以及第二对照分组中医疗样本数据的个数进行计算，得到用于核验所述关联度的核验值。

举例而言，基于公式(5)和公式(6)计算出的置信区间为[-1.1-1]，显然置信下限-1.1和置信上限-1均小于预设范围值0，基于此，利用公式(7)计算卡方值χ²，并通过计算出的卡方值查找卡方值分布表得到用于核验关联度的核验值。

其中，A为第一病例组中医疗样本数据的人数，B为第一对照组中医疗样本数据的个数，C为第二病例组中医疗样本数据的个数，D为第二对照组中医疗样本数据的个数，N为第一病例组中医疗样本数据的个数、第一对照组中医疗样本数据的个数、第二病例组中医疗样本数据的个数以及第二对照组中医疗样本数据的个数的总和，n1为第一病例组中医疗样本数据的个数以及第一对照组中医疗样本数据的个数的总和，n2为第二病例组中医疗样本数据的个数和第二对照组中医疗样本数据的个数的总和。

在步骤S930中，获取核验阈值，并在核验值中确定小于核验阈值的目标核验值，以确定与目标核验值对应的目标关联度。

其中，核验阈值指的是衡量核验值的阈值，只有在核验值小于核验阈值时，与该核验值对应的关联度才可以准确的表示待挖掘医学数据与医学预测对象之间的关系。

举例而言，核验阈值为0.05，存在3个待挖掘医学数据，分别为待挖掘医学数据A、待挖掘医学数据B以及待挖掘医学数据C，并且，与待挖掘医学数据A对应的核验值1为0.01，与待挖掘医学数据B对应的核验值2为0.06，与待挖掘医学数据C对应的核验值3为0.04。显然，此时目标核验值为核验值1和核验值3，并确定出核验值1对应的目标关联度OR1为2，与核验值3对应的目标关联度OR2为-1。

在步骤S940中，根据目标关联度对所有待挖掘医学数据进行筛选得到目标医学数据。

其中，在所有待挖掘医学数据的关联度中确定与目标关联度一致的关联度A，基于此，目标医学数据为待挖掘医学数据中与关联度A对应的待挖掘医学数据。

举例而言，目标关联度存在两个，分别为目标关联度A和目标关联度B，与目标关联度A对应待挖掘医学数据为A1，与目标关联度B对应的待挖掘医学数据为A2，基于此，在所有待挖掘医学数据中只保留待挖掘医学数据A1和待挖掘医学数据A2，以得到目标医学特征。

在本示例性实施例中，利用核验值再一次对关联度进行核验，提高了确定出的目标关联度的准确性，进而提高了确定出的目标医学数据的准确性。

在可选的实施例中，图10示出了医学数据挖掘方法中确定待挖掘医学数据和医学预测对象之间的关联关系的流程示意图，如图10所示，该方法至少包括以下步骤：在步骤S1010中，确定与目标核验值对应的目标关联度，若目标关联度大于预设关联度，确定待挖掘医学数据与医学预测对象之间具有正向关联关系。

其中，预设关联度是用于衡量待挖掘医学数据与医学预测对象之间具有何种关联关系的阈值，正向关联关系指的是待挖掘医学数据会对医学预测对象起到正向的影响。

举例而言，预设关联度为1，待挖掘医学数据为年龄大于88且血小板含量较低，医学预测对象为患者死亡风险，若目标关联度大于1，则证明年龄大于88且血小板含量较低会对医学预测对象起到正向的影响，即增加患者死亡风险。

在步骤S1020中，若目标关联度小于预设关联度，确定待挖掘医学数据与医学预测对象之间具有负向关联关系。

其中，负向关联关系指的是待挖掘医学数据会对医学预测对象起到负向的影响。

举例而言，预设关联度为1，待挖掘医学数据为性别男且不具有吸烟史，医学预测对象为患者死亡风险，若目标关联度小于1，则证明性别男且不具有吸烟史会对医学预测对象起到负向的影响，即减少患者死亡风险。

在本示例性实施例中，通过将目标关联度与预设关联度进行对比，可以明确待挖掘医学数据对医学预测对象到底是具有正向关联关系还是负向关联关系，完善了确定待挖掘医学数据与医学预测对象之间关系的逻辑，提供了更为细化的确定结果。

在步骤S140中，基于医学特征和医学预测对象构建目标预测模型，并根据目标医学数据对目标预测模型中的参数进行调节，以得到调节后的目标预测模型。

在本公开的示例性实施例中，目标预测对象是基于医学样本中的医学特征以及医学预测对象构建而成，由于医学特征并不一定对医学预测对象产生影响，进而需要对目标预测对象进行优化。

目标医学数据是经过验证和筛选的待挖掘医学数据，因此将目标医学数据输入目标预测模型中，可以对目标预测模型中的参数进一步调节，起到优化目标预测模型的作用，进而可以得到各为准确的、更符合真实医学环境的目标预测对象。

举例而言，利用医学特征A和医学预测对象构建目标预测模型，并将目标医学数据A1和目标医学数据B1作为训练样本输入至目标预测模型中，可以进一步对目标预测模型中的参数进行调节，得到调节后的目标预测模型。

在本示例性实施例中，通过目标医学数据对目标预测模型中参数的调节，优化了目标预测模型，进而提高了后续使用过程中确定出的目标医学数据的准确度。

在可选的实施例中，图11示出了医学数据挖掘方法中根据目标医学数据对目标预测对象中的参数进行调节之前的流程示意图，如图11所示，该方法至少包括以下步骤：在步骤S1110中，对医疗样本数据进行划分得到测试数据以及训练数据，并利用训练数据构建目标预测模型。

其中，训练数据指的是构建目标预测模型时所用到的数据，测试数据指的是核验所构建的目标预测模型的准确率的数据。

举例而言，存在1000个医疗样本数据，其中，将1000个医疗样本数据一分为二，以得到测试数据和训练数据，并使用训练数据构建目标预测模型。

在步骤S1120中，基于测试数据，对目标预测对象进行调节得到调节后的目标预测模型。

其中，利用测试数据对目标预测对象的准确率进行核验，并根据核验结果调节目标预测对象中的参数，以进一步优化目标预测对象。

利用测试数据对构建成的目标预测模型的准确率进行核验，以根据核验结果调整目标预测模型的参数。

在本示例性实施例中，根据医疗样本数据构建目标预测模型，并对目标预测模型中的参数进行调整，提供了一种构建目标预测对象的方式。

在可选的实施例中，图12示出了医学数据挖掘方法中得到调节后目标预测模型的流程示意图，如图12所示，该方法至少包括以下步骤：在步骤S1210中，确定与目标医学数据对应的目标医学特征，并利用目标医学特征、医疗样本数据中的医学特征、医学预测对象以及测试数据，对调节后的目标预测模型进行重新构建。

其中，由于医学样本数据中的医学特征并不一定是对医学预测对象产生影响的特征，进而仅仅使用医学样本数据构建出的目标预测对象是不准确的，因此，需要增加对医学预测对象确实具有影响的目标医学特征，以对目标预测模型进行重新构建。

举例而言，获取到医学样本数据A以及目标医学数据B以及医学预测对象患者死亡率，进而根据上述几项数据以及测试数据，对利用测试数据调节后的目标预测对象进行重新构建。

在步骤S1220中，基于测试数据，对重新构建的目标预测模型进行调节，以得到调节后的目标预测模型。

其中，利用测试数据，对重新构建的目标预测模型进行再次调节，以进一步优化目标预测模型。

举例而言，利用测试数据C对重新构建的目标预测对象进行再一次调节，以得到精确度更高的调节后的目标预测对象。

在本示例性实施例中，目标医学数据是确定出的肯定会对医学预测对象产生影响的数据，进而利用目标医学数据对构建的目标预测对象进行重新构建，增加了目标预测模型的精准度。

下面结合一应用场景对本公开实施例中医学数据挖掘方法做出详细说明。

图13示出了在应用场景下医学数据挖掘方法的流程示意图，如图13所示，其中，模型1310为医学数据抽取模型，特征1320为待挖掘医学数据，S1330为基于医学数据抽取模型，确定与医学预测对象对应的待挖掘医学数据的过程。

步骤S1340为医学专家对待挖掘医学数据初步筛选的过程，步骤S1350为确定其他医学特征，并对其他医学特征进行计算得到高斯计算结果或相似度评分值1360的过程，步骤S1370为根据相似度评分值对医疗样本数据进行分组得到分组1371病例组和分组1372对照组的过程，步骤S1380为对病例组以及对照组中医疗样本数据的个数进行计算得到关联度的过程，步骤S1390为根据关联度对待挖掘医学数据进行筛选得到目标医学数据的过程。

其中，在步骤S1350中先确定医疗样本数据的全部医学特征，然后在全部医学特征中删除待挖掘医学特征，即得到了其他医学特征。在步骤S1360中，可以利用公式(2)得出高斯核计算结果，或利用公式(2)得到相似度评分值，在步骤S1370中，首先根据与第一组对应的第一相似度评分值以及与第二组对应的第二相似度评分值，将第一组分为病例组和对照组，再第二组分为病例组和对照组，然后根据第一预测标识和第二预测标识，再将病例组细分为第一比例组和第二病例组，将对照组细化为第一对照组和第二对照组。步骤S1380具体为对细化分得的四个组中医疗样本数据个数进行计算得到关联度。

步骤S1391为根据医学特征和医学预测对象构建目标预测模型的过程，步骤S1392为根据目标医学数据对目标预测模型中的参数进行调节，以得到调节后的目标预测模型的过程，步骤S1393为将通过调节后的目标预测模型得到的医学预测对象输入至医学数据抽取模型1320的过程。

在本应用场景中，一方面，待挖掘医学数据是基于医疗样本数据的角度进行验证的，确定待挖掘医学数据和医学预测对象之间的关联度，进而使得目标医学数据是从医学角度和统计学角度得出的数据，提高了目标医学数据的准确度；另一方面，提供了一个从确定待挖掘医学数据到确定目标医学数据再到得到目标预测模型的完整过程，完善从确定待挖掘医学数据到验证待挖掘医学数据的逻辑，增加了目标医学数据的精确度、普适性以及稳定性。

此外，在本公开的示例性实施例中，还提供一种医学数据挖掘装置。图14示出了医学数据挖掘装置的结构示意图，如图14所示，医学数据挖掘装置1400可以包括：获取模块1410、构建模块1420、验证模块1430以及调节模块1440。其中：

获取模块1410，被配置为获取医疗样本数据和医学预测对象，其中，医疗样本数据包括多个医疗特征；构建模块1020，被配置为构建医学数据抽取模型，根据医学数据抽取模型提取与医疗预测对象对应的待挖掘医学数据；其中，待挖掘医学数据包括待挖掘医学特征、与待挖掘医学特征对应的特征值以及待挖掘医学特征之间的逻辑关系；验证模块1430，被配置为根据医疗样本数据对待挖掘医学数据进行验证，并确定待挖掘医学数据与医学预测对象之间的关联度，以根据关联度对待挖掘医学数据进行筛选得到目标医学数据；调节模块1440，被配置为基于所述医学特征和所述医学预测对象构建目标预测模型，并根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。

上述医学数据挖掘装置1400的具体细节已经在对应的医学数据挖掘方法中进行了详细的描述，因此此处不再赘述。

应当注意，尽管在上文详细描述中提及医学数据挖掘装置1400的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，在本公开的示例性实施例中，还提供了一种能够实现上述方法的电子设备。

下面参照图15来描述根据本发明的这种实施例的电子设备1500。图15显示的电子设备1500仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图15所示，电子设备1500以通用计算设备的形式表现。电子设备1500的组件可以包括但不限于：上述至少一个处理单元1510、上述至少一个存储单元1520、连接不同系统组件(包括存储单元1520和处理单元1510)的总线1530、显示单元1540。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元1510执行，使得所述处理单元1510执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

存储单元1520可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)1521和/或高速缓存存储单元1522，还可以进一步包括只读存储单元(ROM)1523。

存储单元1520还可以包括具有一组(至少一个)程序模块1525的程序/使用工具1524，这样的程序模块1525包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包含网络环境的现实。

总线1530可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备1500也可以与一个或多个外部设备1570(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备1500交互的设备通信，和/或与使得该电子设备1500能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口1550进行。并且，电子设备1500还可以通过网络适配器1560与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器1560通过总线1530与电子设备1500的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备1500使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAI系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施例的描述，本领域的技术人员易于理解，这里描述的示例实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开实施例的方法。

在本公开的示例性实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施例中，本发明的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本发明各种示例性实施例的步骤。

参考图16所示，描述了根据本发明的实施例的用于实现上述方法的程序产品1600，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种医学数据挖掘方法，其特征在于，所述方法包括：

获取医疗样本数据和医学预测对象，其中，所述医疗样本数据包括多个医疗特征；

构建医学数据抽取模型，根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据；其中，所述待挖掘医学数据包括待挖掘医学特征、与所述待挖掘医学特征对应的特征值以及所述待挖掘医学特征之间的逻辑关系；

根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，以根据所述关联度对所述待挖掘医学数据进行筛选得到目标医学数据；

基于所述医学特征和所述医学预测对象构建目标预测模型，并根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。

2.根据权利要求1所述的医学数据挖掘方法，其特征在于，所述根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，包括：

根据所述医疗样本数据中的医学特征、待挖掘医学数据，对所述医疗样本数据分组，并确定每组的相似度评分值；

根据所述相似度评分值，对所述医疗样本数据再分组；

根据再分组后每组中所述医疗样本数据的个数，确定所述待挖掘医学数据与所述医学预测对象之间的关联度。

3.根据权利要求2所述的医学数据挖掘方法，其特征在于，所述根据医疗样本数据中的医学特征、待挖掘医学数据，对所述医疗样本数据分组，并确定每组的相似度评分值，包括：

根据每一所述医疗样本数据是否符合所述待挖掘医学数据，将所述医疗样本数据进行分组，得到第一组和第二组；

根据所述医疗样本数据中的所述医学特征以及所述待挖掘医学特征，确定其他医学特征，并根据每一所述医疗样本数据中的所述其他医学特征以及所述医疗样本数据的分组确定相似度评分值。

4.根据权利要求3所述的医学数据挖掘方法，其特征在于，所述根据所述医疗样本数据中的医学特征以及所述待挖掘医学特征，确定其他医学特征，包括：

在所述医疗样本数据中的所述医学特征中剔除所述待挖掘医学特征，以确定其他医学特征。

5.根据权利要求3所述的医学数据挖掘方法，其特征在于，所述根据每一所述医疗样本数据中的所述其他医学特征以及所述医疗样本数据的分组确定相似度评分值，包括：

确定与所述第一组中所述医疗样本数据对应的第一其他医学特征，并确定与所述第二组中所述医疗样本数据对应的第二其他医学特征；

基于高斯核计算公式，确定所述第一其他医学特征和所述第二其他医学特征的相似度评分值。

6.根据权利要求5所述的医学数据挖掘方法，其特征在于，所述相似度评分值包括第一相似度评分值和第二相似度评分值；

所述方法还包括：

若所述高斯核计算结果为预设结果，对所述第一其他医学特征进行计算得到所述第一相似度评分值，并对所述第二其他医学特征进行计算得到所述第二相似度评分值。

7.根据权利要求6所述的医学数据挖掘方法，其特征在于，所述根据所述相似度评分值，对所述医疗样本数据再分组，包括：

确定所述第一相似度评分值之间的差值得到第一差值计算结果，并确定所述第二相似度评分值之间差值得到第二差值计算结果；

若所述第一差值计算结果小于相似度阈值，确定与所述第一差值计算结果对应的两个所述第一相似度评分值，并将与两个所述第一相似度评分值分别对应的所述第一组中的两个所述医疗样本数据分别归属于病例组和对照组；

若所述第二差值计算结果小于所述相似度阈值，确定与所述第二差值计算结果对应的两个所述第二相似度评分值，并将与两个所述第二相似度评分值分别对应的所述第二组中的两个所述医疗样本数据分别归属于所述病例组和所述对照组。

8.根据权利要求7所述的医学数据挖掘方法，其特征在于，所述根据再分组后每组中所述医疗样本数据的个数，确定所述待挖掘医学数据与所述医学预测对象之间的关联度，包括：

获取所述病例组中所述医疗样本数据针对于所述医学预测对象的第一预测标识，并获取所述对照组中所述医疗样本数据针对于所述医学预测对象的第二预测标识；

根据所述第一预测标识对所述病例组中的所述医疗样本数据进行再分组，以将所述病例组划分为第一病例分组和第二病例分组；

根据所述第二预测标识对所述对照组中的所述医疗样本数据进行再分组，以将所述对照组划分为第一对照分组和第二对照分组；

对所述第一病例分组中所述医疗样本数据的个数、所述第二病例分组中所述医疗样本数据的个数、所述第一对照分组中所述医疗样本数据的个数以及所述第二对照分组中所述医疗样本数据的个数进行计算，得到所述待挖掘医学数据与所述医学预测对象之间的关联度。

9.根据权利要求8中任一项所述的医学数据挖掘方法，其特征在于，所述根据所述关联度对所有所述待挖掘医学数据进行筛选得到目标医学数据，包括：

确定与所述关联度对应的置信区间，并获取所述置信区间的置信上限和置信下限；

若所述置信上限和所述置信下限均小于预设范围值，或所述置信上限和所述置信下限均大于预设范围值，对所述第一病例分组中所述医疗样本数据的个数、所述第二病例分组中所述医疗样本数据的个数、所述第一对照分组中所述医疗样本数据的个数以及所述第二对照分组中所述医疗样本数据的个数进行计算，得到用于核验所述关联度的核验值；

获取核验阈值，并在所述核验值中确定小于所述核验阈值的目标核验值，以确定与所述目标核验值对应的目标关联度；

根据所述目标关联度对所有所述待挖掘医学数据进行筛选得到目标医学数据。

10.根据权利要求9所述的医学数据挖掘方法，其特征在于，所述方法还包括：

确定与所述目标核验值对应的目标关联度，若所述目标关联度大于预设关联度，确定所述待挖掘医学数据与所述医学预测对象之间具有正向关联关系；

若所述目标关联度小于预设关联度，确定所述待挖掘医学数据与所述医学预测对象之间具有负向关联关系。

11.根据权利要求1所述的医学数据挖掘方法，其特征在于，所述根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据，包括：

对所述医疗样本数据进行聚类处理，得到聚类处理结果；

获取与所述医疗样本数据对应的原始类别信息，并在所述医疗样本数据中确定第一医疗样本数据以及第二医疗样本数据；其中，所述第一医疗样本数据为所述聚类处理结果与所述原始类别信息一致的所述医疗样本数据，所述第二医疗样本数据为所述聚类处理结果与所述原始类别信息不一致的所述医疗样本数据；

基于医学数据抽取模型，提取与所述第一医疗样本数据对应的待挖掘医学数据。

12.根据权利要求11所述的医学数据挖掘方法，其特征在于，所述医学数据抽取模型，其中，所述医学数据抽取模型的结构包括树形结构，所述待挖掘医学数据包括所述医学数据抽取模型树形分支上的根节点特征以及子节点特征，所述根节点特征包括根特征以及与所述根特征对应的特征值，所述子节点特征包括子特征以及与所述子特征对应的特征值。

13.根据权利要求1所述的医学数据挖掘方法，其特征在于，所述根据所述目标医学数据对所述目标预测模型中的参数进行调节之前，所述方法还包括：

对所述医疗样本数据进行划分得到测试数据以及训练数据，并利用所述训练数据构建目标预测模型；

基于所述测试数据，对所述目标预测对象进行调节得到调节后的所述目标预测模型。

14.根据权利要求13所述的医学数据挖掘方法，其特征在于，所述根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型，包括：

确定与所述目标医学数据对应的目标医学特征，并利用所述目标医学数据、所述医疗样本数据中的所述医学特征、所述医学预测对象以及所述测试数据，对调节后的所述目标预测模型进行重新构建；

基于所述测试数据，对重新构建的所述目标预测模型进行调节，以得到调节后的所述目标预测模型。

15.一种医学数据挖掘装置，其特征在于，包括：

获取模块，被配置为获取医疗样本数据和医学预测对象，其中，所述医疗样本数据包括多个医疗特征；

构建模块，被配置为构建医学数据抽取模型，根据所述医学数据抽取模型提取与所述医疗预测对象对应的待挖掘医学数据；其中，所述待挖掘医学数据包括待挖掘医学特征、与所述待挖掘医学特征对应的特征值以及所述待挖掘医学特征之间的逻辑关系；

验证模块，被配置为根据所述医疗样本数据对所述待挖掘医学数据进行验证，并确定所述待挖掘医学数据与所述医学预测对象之间的关联度，以根据所述关联度对所述待挖掘医学数据进行筛选得到目标医学数据；

调节模块，被配置为基于所述医学特征和所述医学预测对象构建目标预测模型，并根据所述目标医学数据对所述目标预测模型中的参数进行调节，以得到调节后的所述目标预测模型。

16.一种电子设备，其特征在于，包括：

处理器；

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器被配置为经由执行所述可执行指令来执行权利要求1-14中的任意一项所述的医学数据挖掘方法。

17.一种计算机可读存储介质，其上存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-14中的任意一项所述的医学数据挖掘方法。