CN116153516B

CN116153516B - 一种基于分布式计算的疾病大数据挖掘分析系统

Info

Publication number: CN116153516B
Application number: CN202310416247.0A
Authority: CN
Inventors: 陈守强; 徐亮; 毕思玲; 左瑶瑶; 巩雪; 张国伟; 李妍
Original assignee: Second Affiliated Hospital Of Shandong University Of Traditional Chinese Medicine Shandong Integrated Traditional Chinese And Western Medicine Hospital
Current assignee: Second Affiliated Hospital Of Shandong University Of Traditional Chinese Medicine Shandong Integrated Traditional Chinese And Western Medicine Hospital
Priority date: 2023-04-19
Filing date: 2023-04-19
Publication date: 2023-07-07
Anticipated expiration: 2043-04-19
Also published as: CN116153516A

Abstract

本发明涉及疾病大数据挖掘分析技术领域，具体涉及一种基于分布式计算的疾病大数据挖掘分析系统，包括存储器和处理器，处理器执行存储器存储的计算机程序，以实现如下步骤：将观测患者的各项检查指标作为辅助分析模型的输入数据，获得各个标签的得分；判断各个标签的得分是否落入预先获取的混乱区域集合中的任意一个混乱区域内，若落入，则确定观测患者的各个标签的得分校正因子；根据各个标签的得分和得分校正因子，获得各个标签的目标得分；本发明一定程度上消除了辅助分析模型不同标签样本量差异大的影响，有利于提高各个标签的目标得分的准确性，应用于医疗数据信息处理领域。

Description

一种基于分布式计算的疾病大数据挖掘分析系统

技术领域

本发明涉及疾病大数据挖掘分析技术领域，具体涉及一种基于分布式计算的疾病大数据挖掘分析系统。

背景技术

目前随着大数据挖掘技术以及网络模型的不断发展和应用，将疾病大数据的数据挖掘以及网络模型应用于辅助病情分析的情况愈发普遍。现有的基于大数据挖掘技术以及网络模型的病情辅助分析过程整体上包括如下步骤：获取观测患者在检查目标疾病的各项检查指标，将各项检查指标输入到预先构建并训练好的辅助分析模型中，获得观测患者的各个标签的得分，医生根据各个标签的得分以及人为观察到的患者当前的身体状态，并结合医生的诊断经验，综合判断得到患者的疾病状态。其中，各个标签是指早期、中期和晚期。

因此，疾病状态的判断准确性受各个标签的得分、患者当前的身体状态以及医生的诊断经验三方面的影响，即通过辅助分析模型得到的各个标签的得分的准确性会一定程度上影响医生的判断。然而，辅助分析模型在训练过程中，尤其是对于一部分疾病，会受不同标签的样本量差异的影响，例如，某种疾病的中青年患者大部分为该疾病的早期或中期，只有很小的一部分为该疾病的晚期，相对应地，疾病的早期或中期的样本量较大，而疾病晚期的样本量较少。受不同的标签样本量差异大的影响，部分训练样本通过模型映射后的特征空间分析，存在两类或多类标签的得分差异很小的特殊情况，也就是无法准确区分该部分训练样本的所属标签，导致模型输出的标签得分的准确度差，实际得到的标签得分与患者的实际情况存在一定的差异。

发明内容

为了解决上述现有疾病大数据挖掘分析方法中，通过模型输出的标签得分的准确度差的技术问题，本发明的目的在于提供一种基于分布式计算的疾病大数据挖掘分析系统，所采用的技术方案具体如下：

本发明一个实施例提供了一种基于分布式计算的疾病大数据挖掘分析系统，包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如下步骤：

实时获取观测患者的各项检查指标，将各项检查指标输入到预先构建并训练好的辅助分析模型中，获得观测患者的各个标签的得分；

判断所述各个标签的得分是否落入预先获取的混乱区域集合中的任意一个混乱区域内，若落入，则获取观测患者的第一预设数目组历史检查指标；

根据所述第一预设数目组历史检查指标和预先确定的辅助分析模型的各个标签对应的特征子序列，确定观测患者各个标签的得分校正因子；

根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分。

进一步地，所述混乱区域的获取步骤包括：

获取第二预设数目个测试患者的各个标签的历史得分，构建多维坐标系，进而将各个标签的历史得分映射到多维坐标系中，确定得分数据空间中的各个数据点的位置；所述多维坐标系的维度数目为标签类型数目，所述数据点为测试患者；

根据得分数据空间中的每个数据点的位置，确定得分数据空间中的各个密集区域；

对各个密集区域的数据点数量进行归一化，将归一化后的数值确定为对应密集区域的密集程度，将密集程度大于预先设置的密集程度阈值的密集区域确定为初步混乱区域；

根据每个初步混乱区域的数据点数量和相同目标标签对应的数据点数量，计算各个初步混乱区域的信息熵，所述目标标签为数据点的最大历史得分对应的标签；

将信息熵确定为对应初步混乱区域的混乱程度，进而将混乱程度大于预先设置的混乱程度阈值的初步混乱区域确定为混乱区域，从而获得各个混乱区域，相应地，所有的混乱区域构成所述混乱区域集合。

进一步地，根据得分数据空间中的每个数据点的位置，确定得分数据空间中的各个密集区域，包括：

以得分数据空间中的每个数据点为中心，以预设数值为邻域半径，获得所述中心的邻域区域，将数据点数量大于预先设置的第一密度阈值的邻域区域确定为初步密集区域；

根据每个初步密集区域内的各个数据点，确定每个初步密集区域的最近邻集合区域和反向最近邻集合区域的交集集合区域，将数据点数目大于预先设置的第二密度阈值的交集集合区域确定为密集区域。

进一步地，辅助分析模型的各个标签对应的特征子序列的确定步骤包括：

获取各个混乱区域内的每个测试患者的第三预设数目组历史检查指标以及每组历史检查指标对应的目标标签；

选取任意一个测试患者为选定测试患者，计算选定测试患者的任意一组历史检查指标与其他测试患者的每组历史检查指标之间的距离，将其他测试患者的每组历史检查指标中距离最小的一组历史检查指标，确定为选定测试患者的该组历史检查指标的最近邻子序列，从而获得选定测试患者的每组历史检查指标的最近邻子序列；

根据选定测试患者的每组历史检查指标对应的目标标签，将同类型的目标标签对应的各组历史检查指标划分为一个集合，将距离最小对应的最近邻子序列确定为对应集合对应的类型的目标标签的初始特征子序列，进而获得选定测试患者对应的每个类型的目标标签的初始特征子序列，从而获得每个测试患者对应的每个类型的目标标签的初始特征子序列；

计算同类型的目标标签对应的各个初始特征子序列内相同位置处的数据的均值，将数据均值组成的序列作为对应类型的目标标签的特征子序列，从而获得辅助分析模型中各个标签对应的特征子序列，所述每个类型的目标标签与所述辅助分析模型的各个标签相互照应。

进一步地，根据所述第一预设数目组历史检查指标和预先确定的辅助分析模型的各个标签对应的特征子序列，确定观测患者各个标签的得分校正因子，包括：

根据所述第一预设数目组历史检查指标和所述各个标签对应的特征子序列，计算每组历史检查指标与任意一个标签对应的特征子序列之间的距离，将最小距离确定为对应标签的初步得分校正因子，对初步得分校正因子进行归一化，将归一化后的数值确定为对应标签的得分校正因子，从而获得各个标签的得分校正因子。

进一步地，根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分，包括：

使观测患者分析目标疾病的各个标签的得分校正因子与对应标签的得分相乘，将相乘后的数值确定为对应标签对应的目标得分。

本发明具有如下有益效果：

本发明提供了一种基于分布式计算的疾病大数据挖掘分析系统，该疾病大数据挖掘分析系统可应用于疾病大数据挖掘分析领域，通过计算得到的各个标准的得分校正因子，对观测患者分析目标疾病的各个标签的得分进行校正，拉大了不同标签的得分之间的差异，消除了辅助分析模型对于混乱区域的数据点标签错误预测的影响，从而提高辅助分析模型中各个标签的得分准确性。实时获取观测患者的各项检查指标，将各项检查指标作为辅助分析模型的输入数据，获得各个标签的得分，以便于后续基于各个标签的得分实现得分校正；为了检测辅助分析模型在分析观测患者的疾病病情时的准确度，提高医疗辅助分析的效率，需要判断观测患者的各个标签的得分是否落入混乱区域集合中的任意一个混乱区域内，若落入，说明辅助分析模型出现了难以区分所属检查标签类型的情况，也就是此时获得的该观测患者的各个标签的得分的准确度较低，为了提高各个标签的得分的准确度，需要通过疾病大数据对观测患者的历史检查指标时序数据的变化情况进行分析，即需要先获取观测患者的第一预设数目组历史检查指标；通过分析各组历史检查指标与各个标签对应的特征子序列之间的相似性，确定观测患者的各个标签的得分校正因子，得分校正因子可以综合历史数据对疾病数据的状态划分进行确定，有效提高了后续基于得分校正因子确定的各个标签的目标得分的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1为本发明一种基于分布式计算的疾病大数据挖掘分析方法的流程图。

具体实施方式

为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明提出的技术方案的具体实施方式、结构、特征及其功效，详细说明如下。在下述说明中，不同的“一个实施例”或“另一个实施例”指的不一定是同一个实施例。此外，一个或多个实施例中的特定特征、结构或特点可由任何合适形式组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。

本实施例针对的具体场景为：

传统机器学习模型的本质是指将样本数据通过模型映射到特征空间中，并将特征空间划分为不同的区域，使样本数据划分到不同的区域内，不同区域代表着样本数据所属的不同类型的标签。这里可以将样本数据近似为石子，通过模型对样本数据进行多维特征分析，可以将石子根据模型映射投入三个瓶子中，每个瓶子表征一类标签，不同类型的标签表征不同的疾病病情，分别为早期、中期和晚期。对于训练好的机器学习模型，当新出现的观测患者需要分析病情时，将该观测患者对应的数据信息输入到模型中，通过模型的映射分析，输出三类标签的得分情况。

一部分疾病对应的辅助分析模型在训练过程中，会受不同标签的样本量差异的影响，部分训练样本通过模型映射后的特征空间分析，存在两类或多类标签的得分差异很小的特殊情况，也就是无法准确区分该部分训练样本的所属标签，该部分疾病存在混乱区域，而混乱区域内包含所有类型标签的数据，其导致标签的得分准确度差。

为了克服上述通过模型输出的标签得分的准确度差的缺陷，本实施例提供了一种基于分布式计算的疾病大数据挖掘分析系统，系统包括存储器和处理器，处理器执行存储器存储的计算机程序，以实现如下步骤：

根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分。下面对上述各个步骤进行详细展开：

参考图1，示出了一种基于分布式计算的疾病大数据挖掘分析方法的流程图，该疾病大数据挖掘分析方法通过分布式计算对疾病大数据进行建模，根据训练好的模型实现数据挖掘和数据预测，包括以下步骤：

S1，实时获取观测患者的各项检查指标，将各项检查指标输入到预先构建并训练好的辅助分析模型中，获得观测患者的各个标签的得分，其步骤包括：

第一步，实时获取观测患者的各项检查指标。

在本实施例中，通过分布式计算在HDFS（Hadoop Distributed File System，运行在通用硬件上的分布式文件系统）中的数据节点汇总，实时提取观测患者的疾病病情数据，疾病病情数据的数据格式包括观测患者姓名、分析目标疾病名称以及分析目标疾病的各项检查指标，也就是获取观测患者的各项检查指标。这里的观测患者为当前未获得目标疾病病情分析状况、但患有目标疾病的病人；目标疾病是指不同检查标签的现有样本数据量存在较大差异的疾病，例如慢性支气管炎、冠心病、老年痴呆症等；不同疾病对应的检查项目不同，故每种疾病均有其对应的各项检查指标，例如检查高血压时需要检查尿常规、血液生化、心电图和心脏超声检查；检查标签可以表征观测患者在分析目标疾病时的不同病情分析结果，包括早期、中期和晚期。HDFS获取目标疾病检查指标的过程为现有技术，不在本发明保护范围内，此处不再进行详细阐述。值得说明的是，本实施例中的目标疾病还可以称为存在混乱区域的疾病，这里的混乱区域是指疾病在训练过程中存在不易区分所属检查标签的数据区域，其原因在于，基于疾病大数据的模型对目标疾病的病情进行早期、中期和晚期辅助分析时，受观测患者年龄的影响，导致中年观测患者和青年观测患者的晚期病情数据样本较少，使辅助分析模型难以准确划分所属检查标签。

第二步，将各项检查指标输入到预先构建并训练好的辅助分析模型中，获得观测患者的各个标签的得分。

需要说明的是，XGBoost模型（eXtreme Gradient Boosting，优化的分布式梯度增强库）是大规模并行的BT模型（Boosting Tree，提升数），XGBoost在对数据节点进行分裂时需要选择增益最大的特征作为分裂结果，此时各个特征的增益计算可以同时进行。因此，在基于分布式计算对疾病大数据进行建模过程中，可以使用XGBoost模型进行数据挖掘和数据预测。

首先，获取预先构建并训练好的辅助分析模型。不同疾病的检查项目不同，故每种疾病均有对应的辅助分析模型。辅助分析模型为XGBoost模型，辅助分析模型的训练数据为大量患者分析目标疾病的各项历史检查指标，标签分别早期、中期和晚期，利用训练数据对辅助分析模型进行训练，可以获得构建并训练好的辅助分析模型。辅助分析模型的构建和训练过程均为现有技术，此处不再进行详细阐述。

然后，将观测患者的各项检查指标输入到预先构建并训练好的辅助分析模型中，可以获得观测患者的各个标签的得分。得分的取值范围为0到1，所有标签的得分的累加和应为1。

值得说明的是，获取各个标签的得分，是为了便于后续判断各个标签的得分是否落入预先获取的目标疾病对应的任意一个混乱区域内，提高标签得分的准确性。

至此，本实施例获得了观测患者各个标签的得分。

S2，判断各个标签的得分是否落入预先获取的混乱区域集合中的任意一个混乱区域内，若落入，则获取观测患者的第一预设数目组历史检查指标。

在本实施例中，混乱区域存在于多维样本空间中，将观测患者的各个标签的得分映射到多维样本空间中，可以将各个标签的得分转换为多维样本空间中的一个数据点，检测该数据点是否落入混乱区域内，其可以分为两种情况：

若不落入，则说明该观测患者在分析目标疾病时，辅助分析模型不会出现难以区分所属检查标签类型的情况，也就是此时获得的该观测患者在分析目标疾病时的各个标签的得分的准确度较高，无需对各个标签的得分进行校正处理。

若落入，则说明该观测患者在分析目标疾病时，辅助分析模型出现了难以区分所属检查标签类型的情况，也就是此时获得的该观测患者在分析目标疾病时的各个标签的得分的准确度较低，需要获取观测患者的第一预设数目组历史检查指标，确定各个标签的得分校正因子，以便于对各个标签的得分进行校正，更好地辅助职业医生完成对该观测患者的目标疾病分析，其有利于降低职业医生的工作负担和分析判断难度。

检测观测患者的各个标签的得分的准确度高低情况的关键在于，判断观测患者对应的数据点是否落入混乱区域集合中的任意一个混乱区域内，故获取混乱区域集合在本步骤的实现过程中是十分重要的。另外，需要说明的是，并不是每个观测患者进行目标疾病病情分析就需要重新确定一次混乱区域集合，故混乱区域集合可以是执行辅助分析之前预先获取的，混乱区域集合的获取步骤包括：

第一步，获取第二预设数目个测试患者的各个标签的历史得分，构建多维坐标系，进而将各个标签的历史得分映射到多维坐标系中，确定得分数据空间中的各个数据点的位置。

首先，获取第二预设数目个测试患者的各个标签的历史得分。

在本实施例中，测试患者为已经实现目标疾病病情分析的患者，第二预设数目为观测患者在开始分析目标疾病时的对应时刻，截止到该时刻为止，可以获得的所有测试患者的总数，第二预设数目可以为3000，其包含了所有类型的病情分析结果的患者。先获取第二预设数目个测试患者的各项历史检查指标，将各项历史检查指标输入到预先构建并训练好的辅助分析模型中，再获得每个测试患者的各个标签的历史得分。获取各项历史检查指标和各个标签的历史得分的过程，可以参考步骤S1中观测患者的各项检查指标和各个标签的得分的实现过程，此处不再进行详细阐述。

然后，构建多维坐标系，确定得分数据空间中的各个数据点的位置。

本实施例为了可以从不同标签维度分析所有测试患者的数据分布情况，基于辅助分析模型的标签类型数量，构建多维坐标系，多维坐标系的维度数目为标签类型数目，例如标签类型数目为3，那么多维坐标系的维度数目就为3，多维坐标系中的坐标值可以表征历史得分。将每个测试患者的各个标签的历史得分映射到多维坐标系中，可以获得每个测试患者在多维坐标系中的位置，即确定得分数据空间中的各个数据点的位置，数据点为测试患者，得分数据空间为多维坐标系中的多维空间。

值得说明的是，确定得分数据空间中的各个数据点的位置，是为了便于后续根据数据点的位置，划分出得分数据空间中的混乱区域集合。

第二步，根据得分数据空间中的每个数据点的位置，确定得分数据空间中的各个密集区域。

需要说明的是，得分数据空间中数据点密集的区域即为数据点得分均衡区域，该种情况难以通过最大得分确定辅助分析模型的输出标签，故得分数据空间中的混乱区域需要是数据点密集的区域，即确定得分数据空间中的各个密集区域，其步骤包括：

第一子步骤，以得分数据空间中的每个数据点为中心，以预设数值为邻域半径，获得中心的邻域区域，将数据点数量大于预先设置的第一密度阈值的邻域区域确定为初步密集区域。

在本实施例中，得分数据空间中数据点分布是在（0,1）之间，故邻域半径的预设数值可以设置为0.2，预先设置的第一密度阈值可以设定为得分数据空间中所有数据点总数的十分之一，实施者可根据具体实际情况自行设置邻域半径和预先设置的第一密度阈值，不做具体限定。

第二子步骤，根据每个初步密集区域内的各个数据点，确定每个初步密集区域的最近邻集合区域和反向最近邻集合区域的交集集合区域，将数据点数目大于预先设置的第二密度阈值的交集集合区域确定为密集区域。

需要说明的是，初步密集区域是由实施者根据预先设置的第一密度阈值确定的，其存在特殊情况，即两个初步密集区域内存在相同部分的数据点，导致获得初步密集区域的划定结果并不精确，不利于后续获得混乱区域。

为了避免上述初步密集区域划分不准确的缺陷，根据每个初步密集区域的实际数据点位置的分布情况，确定得分数据空间中的各个密集区域，具体内容包括：首先，利用最近邻算法，获取每个初步密集区域的最近邻集合区域和反向最近邻集合区域，进而确定最近邻集合区域和反向最近邻集合区域的交集集合区域，获得多个交集集合区域。然后，将数据点数目大于预先设置的第二密度阈值的交集集合区域确定为密集区域。预先设置的第二密度阈值设定为交集集合区域对应的初步密度区域内中心数据点以外的数据点数量，不对预先设置的第二密度阈值做具体限定，实施者可根据具体实际情况自行设置。最近邻算法的实现过程为现有技术，不在本发明保护范围内，此处不再进行详细阐述。

至此，本实施例获得了得分数据空间中的各个密集区域，相比初步密集区域，各个密集区域的划定精准性更高，有利于提高后续混乱区域的划定准确性。

第三步，对各个密集区域的数据点数量进行归一化，将归一化后的数值确定为对应密集区域的密集程度，将密集程度大于预先设置的密集程度阈值的密集区域确定为初步混乱区域。

为了便于与预先设置的密集程度阈值作比较，密集区域的密集程度的取值范围需要是0到1之间，即对各个密集区域的数据点数量进行归一化，将归一化后的数值确定为对应密集区域的密集程度，进而将密集程度大于预先设置的密集程度阈值的密集区域确定为初步混乱区域。这里的预先设置的密集程度阈值可以设定为0.5，实施者可根据具体实际情况自行设定预先设置的密集程度阈值，不做具体限定。

在本实施例中，各个密集区域的密集程度的计算公式可以为：

其中，

为第i个密集区域的密集程度，i为得分数据空间中密集区域的序号，/>

为第i个密集区域的数据点数量，I为得分数据空间中密集区域的个数，/>

为自然常数e的/>

次方，e为自然常数。

对于密集程度的计算公式，将密集区域的数据点数量指数化处理，是为了拉大不同密集区域的密集程度之间的差异；

可以表征各个密集区域的数据点数量在所有密集区域的数据点总数中的占比情况，其可以实现对密集程度的归一化处理；若整个得分数据空间中仅有一个密集区域，那么该密集区域的密集程度为数值1，即该密集区域必然是初步混乱区域，设定预先设置的密集程度阈值的目的是为了排除掉多个密集区域中数据点数量较少的密集区域，提高初步混乱区域的划定精准性。参考第i个密集区域的密集程度的计算过程，可以确定得分数据空间中各个密集区域的密集程度。当然，确定密集区域的密集程度的方法还有很多，本实施例不对计算密集程度的方法做具体的限定，只要保障计算得到的密集程度具备其应有的数值效果就可以。

需要说明的是，对于密集程度越高的密集区域，密集区域内数据点的校正倾向越高，故密集程度还可以表征密集区域的校正重要程度。

第四步，根据每个初步混乱区域的数据点数量和相同目标标签对应的数据点数量，计算各个初步混乱区域的信息熵，将信息熵确定为对应初步混乱区域的混乱程度，进而将混乱程度大于预先设置的混乱程度阈值的初步混乱区域确定为混乱区域，从而获得各个混乱区域，其步骤包括：

第一子步骤，根据每个初步混乱区域的数据点数量和相同目标标签对应的数据点数量，确定每个初步混乱区域的混乱程度。

需要说明的是，混乱区域是指在得分数据空间中数据点密集且存在全部种类型标签的数据点的区域，全部种类型标签可以为三种类型标签，三种类型标签的数据点是指早期的测试患者、中期的测试患者以及晚期的测试患者，混乱区域内三种类型标签的数据点分布均匀，难以判断该区域的主要类型标签。因此，在获得初步混乱区域之后，需要根据初步混乱区域内不同类型标签的数据点的占比情况，分析各个初步混乱区域的数据点分布复杂程度，即通过计算各个初步混乱区域的信息熵，可以确定得分数据空间中各个初步混乱区域的混乱程度。

在本实施例中，目标标签可以为数据点的最大历史得分对应的标签，同时，目标标签也可以是数据点的最终检查分析结果对应类型的检查标签，统计初步混乱区域内每个类型的检查标签对应的数据点数量，即统计每个初步混乱区域内相同目标标签对应的数据点数量。根据每个初步混乱区域的数据点数量和每个初步混乱区域内每个类型的检查标签对应的数据点数量，计算各个初步混乱区域的信息熵，获得各个初步混乱区域的混乱程度，其计算公式可以为：

其中，

为第s个初步混乱区域的混乱程度，J为第s个初步混乱区域内检查标签类型的个数，J可以设定为3，j为第s个初步混乱区域内检查标签类型的序号，/>

为第s个初步混乱区域内第j个类型的检查标签对应的数据点数量，/>

为第s个初步混乱区域的数据点数量，/>

为以数值2为底/>

的对数。

在混乱程度的计算公式中，通过第s个初步混乱区域内第j个类型的检查标签对应的数据点数量

和第s个初步混乱区域的数据点数量，可以获得第s个初步混乱区域内第j个类型的检查标签的出现概率，即/>

，从而确定第s个初步混乱区域的信息熵，并将信息熵作为第s个初步混乱区域的混乱程度。若信息熵越大，则说明第s个初步混乱区域呈现的不同类型的检查标签的数据点分布越混乱。参考第s个初步混乱区域的混乱程度的计算过程，可以获得各个初步混乱区域的混乱程度。信息熵的计算过程为现有技术，此处不再进行详细阐述。

第二子步骤，根据每个初步混乱区域的混乱程度，确定得分数据空间中各个混乱区域。

在本实施例中，计算每个初步混乱区域的混乱程度是为了确定多个初步混乱区域是否需要进一步的筛选，故需要使每个初步混乱区域的混乱程度与预先设置的混乱程度阈值作比对。预先设置的混乱程度阈值可以设定为0.7，将混乱程度大于预先设置的混乱程度阈值0.7的初步混乱区域确定为混乱区域，从而获得目标疾病对应的各个混乱区域。

需要说明的是，在实际应用时，可以通过具体实际情况确定预先设置的混乱程度阈值，若实施者需要通过混乱程度稍低一些的初步混乱区域内的数据点也进行校正，提高目标疾病模型的识别准确性，则可以将预先设置的混乱程度阈值降低到一定程度。

至此，本实施例获得了混乱区域集合。对于混乱区域集合，随着分析目标疾病的患者人数的增大，第二预设数目个测试患者的各项历史检查指标也会不断增多，其导致目标疾病对应的各个混乱区域的范围可能会发生变化，为了提高标签的目标得分的准确性，间隔一段时间就对混乱区域集合进行更新，更新间隔不做具体限定。

S3，根据第一预设数目组历史检查指标和预先确定的辅助分析模型的各个标签对应的特征子序列，确定观测患者各个标签的得分校正因子。

需要说明的是，混乱区域内的数据点的各个标签的得分差异较小，也就是各个标签的得分的相似性较高，观测患者的各个标签的得分落入混乱区域内，说明观测患者映射在混乱区域内的数据点的各个标签的得分差异也比较小，通过辅助分析模型获得各个标签的得分的准确度低。为了克服辅助分析模型的标签得分的准确度低的缺陷，当观测患者对应的数据点落入混乱区域时，对于辅助分析模型，不仅将患者的各项当前检查指标作为输入数据，获得各个标签的初步得分，还要将根据患者的多组历史检查指标得到的得分校正因子作为初步得分的系数，以确定得分差异较大的辅助分析模型中各个标签的目标得分。其中，观测患者的各个标签的得分校正因子的确定步骤包括：

根据第一预设数目组历史检查指标和各个标签对应的特征子序列，计算每组历史检查指标与任意一个标签对应的特征子序列之间的距离，将最小距离确定为对应标签的初步得分校正因子，对初步得分校正因子进行归一化，将归一化后的数值确定为对应标签的得分校正因子，从而获得各个标签的得分校正因子。

在本实施例中，一组历史检查指标的数据个数与特征子序列的数据个数保持一致，根据观测患者的多组历史检查指标和各个标签对应的特征子序列之间的相似程度，确定各个标签对应的最小相似程度，通过最小相似程度分析观测患者的各个标签的得分的校正程度，越相似，校正程度越大，即得分校正因子越大。得分校正因子可以综合历史数据对疾病数据的状态划分进行确定，有效提高了辅助分析模型的标签得分的准确性。不同观测患者对应的每组历史检查指标存在一定程度的差异，故不同观测患者的各个标签的得分校正因子不同，观测患者的各个标签的得分校正因子的计算公式可以为：

其中，

为观测患者的第k个标签的得分校正因子，k为辅助分析模型中标签的序号，/>

为观测患者的第/>

组历史检查指标，/>

为辅助分析模型中第k个标签对应的特征子序列，/>

为/>

与/>

之间的欧式距离，即两组序列之间的距离，/>

表示两个序列Z-normalized欧氏距离，/>

为从各组历史检查指标与第k个标签对应的特征子序列之间的欧式距离中选取的最小欧式距离，/>

为自然常数e的

次方，e为自然常数，K为辅助分析模型中标签的个数，K可以为3。

在得分校正因子的计算公式中，将

与/>

之间的欧式距离指数化，同样是为了拉大不同标签的得分校正因子之间的差异，以便于后续获得更准确的校正后的得分，实现准确疾病幅值分析；/>

可以实现对得分校正因子的归一化处理，即使用softmax函数（归一化函数），将得分校正因子的数值范围限制在0到1之间，其可以保证各组历史检查指标中总会存在一组历史检查指标偏向于某个标签，实现数据点的相似得分的差异化处理；/>

越小，则说明观测患者的某组历史检查指标与第k个标签对应的特征子序列/>

越相似，也就是观测患者的多组历史检查指标中存在偏向第k个标签的历史数据特征，那么观测患者的检查标签有很大可能为第k个标签。

在确定各个标签的得分校正因子时，通过分析各个标签对应的特征子序列与观测患者的每组历史检查指标之间的相似程度，来确定观测患者的各个标签的得分校正因子，故各个标签对应的特征子序列在本步骤实现过程中发挥着重要的作用。然而，并非每个观测患者进行目标疾病分析就需要重新确定各个标签对应的特征子序列，故各个标签对应的特征子序列可以是执行辅助分析之前预先获取的，辅助分析模型的各个标签对应的特征子序列的确定步骤包括：

第一步，获取各个混乱区域内的每个测试患者的第三预设数目组历史检查指标以及每组历史检查指标对应的目标标签。

在本实施例中，为了便于后续确定各个标签对应的特征子序列，需要获取目标疾病对应的各个混乱区域内的每个测试患者的第三预设数目组历史检查指标和每组历史检查指标对应的目标标签，目标标签即为检查标签，两者所表达的含义相同。第三预设数目为观测患者在开始分析目标疾病时的对应时刻，截止到该时刻为止，各个混乱区域内所有测试患者分析目标疾病的最小次数，第三预设数目可以为10；一组历史检查指标即为观测患者在一次历史辅助分析时的各项历史检查指标。获取历史检查指标和目标标签的过程，与获取观测患者对应的各项检查指标和目标标签的过程保持一致，此处不再详细阐述。

第二步，确定选定测试患者的每组历史检查指标的最近邻子序列。

选取任意一个测试患者为选定测试患者，计算选定测试患者的任意一组历史检查指标与其他测试患者的每组历史检查指标之间的距离，将其他测试患者的每组历史检查指标中距离最小的一组历史检查指标，确定为选定测试患者的该组历史检查指标的最近邻子序列，从而获得选定测试患者的每组历史检查指标的最近邻子序列。

首先，选取任意一个测试患者为选定测试患者，计算选定测试患者的任意一组历史检查指标与其他测试患者的每组历史检查指标之间的距离。

在本实施例中，假设测试患者分别为患者A和患者B，将患者A确定为选定测试患者，计算患者A的任意一组历史检查指标与患者B的每组历史检查指标之间的距离。计算两组历史检查指标之间距离，例如，患者A的任意一组历史检查指标可以为（

），其中，/>

的下标编号为检查项目的数据序号，患者B的一组历史检查指标可以为（

），计算（/>

）和（/>

）之间的距离，就是计算相同检查项目的数据序号位置处的数据之间的差值绝对值，即/>

。将相同数据序号位置处的数据之间的差值绝对值确定为检查指标对之间的距离，/>

和/>

可以组成检查指标对，进而计算每个检查指标对之间的距离的均值，将均值作为确定为该两组历史检查指标之间的距离。参考患者A的（/>

）与患者B的（/>

）之间的距离的计算过程，可以获得选定测试患者的任意一组历史检查指标与其他测试患者的每组历史检查指标之间的距离。需要说明的是，每组历史检查指标内的数据个数一致，且每组历史检查指标内相同数据序号位置处的检查项目相同。

然后，将其他测试患者的每组历史检查指标中距离最近的一组历史检查指标，确定为选定测试患者的该组历史检查指标的最近邻子序列，从而获得选定测试患者的每组历史检查指标的最近邻子序列。

在本实施例中，比较选定测试患者的每组历史检查指标均会对应的多个距离，将最小距离对应的其他测试患者的每组历史检查指标中一组历史检查指标，确定为选定测试患者对应组历史检查指标的最近邻子序列，可以获得选定测试患者的每组历史检查指标的最近邻子序列。

需要说明的是，选定测试患者的每组历史检查指标均有其对应的最近邻子序列，确定最近邻子序列是为了从其他患者的每组历史检查指标中筛选出与选定测试患者的标签特征最为相似的一组历史检查指标，即最近邻子序列，以便于通过最近邻子序列来分析选定测试患者的每组历史检查指标对应的标签得分的准确度。

第三步，确定每个测试患者对应的每个类型的目标标签的初始特征子序列。

根据选定测试患者的每组历史检查指标对应的目标标签，将同类型的目标标签对应的各组历史检查指标划分为一个集合，将距离最小对应的最近邻子序列确定为对应集合对应的类型的目标标签的初始特征子序列，进而获得选定测试患者对应的每个类型的目标标签的初始特征子序列，从而获得每个测试患者对应的每个类型的目标标签的初始特征子序列。

在本实施例中，同类型的目标标签的各组历史检查指标是指将历史检查指标输入辅助分析模型中，病情分析结果相同的各组历史检查指标，例如，患者A对应的每组历史检查指标中部分组历史检查指标对应的检查结果为中期，部分组历史检查指标对应的检查结果为早期。一个集合对应一个类型的目标标签，参考选定测试患者对应的每个类型的目标标签的初始特征子序列的确定步骤，可以获得每个测试患者对应的每个类型的目标标签的初始特征子序列。

需要说明的是，初始特征子序列是指在每个测试患者对应的各组历史检查指标为基础，分析每个类型的目标标签的标签特征，初始特征子序列的本质为一组历史检查指标，该组历史检查指标可以充分表征对应类型的目标标签的数据数值特征。

第四步，获取辅助分析模型中各个标签对应的特征子序列。

计算同类型的目标标签对应的各个初始特征子序列内相同位置处的数据的均值，将数据均值组成的序列作为对应类型的目标标签的特征子序列，从而获得辅助分析模型中各个标签对应的特征子序列。

在本实施例中，根据所有测试患者对应的每个类型的目标标签的初始特征子序列，可以获得同类型的目标标签对应的各个初始特征子序列，也就是每个类型的目标标签对应的多个初始特征子序列，每个类型的目标标签与辅助分析模型的各个标签相互对照。为了提高特征子序列的精准性，计算同类型的目标标签对应的各个初始特征子序列内相同位置处的数据的均值，将均值计算后的数据组成的序列确定为对应类型的目标标签的特征子序列，从而获得每个类型的目标标签的特征子序列，其计算公式可以为：

其中，

为辅助分析模型中第k个标签对应的特征子序列，/>

为第k个标签对应的初始特征子序列的个数，m为第k个标签对应的初始特征子序列的序号，k为辅助分析模型中标签的个数，/>

为第k个标签对应的第m个初始特征子序列。

需要说明的是，本步骤中的所有测试患者均为混乱区域内测试患者，而混乱区域内包含了所有病情分析结果的患者，即包含了早期、中期和晚期的患者，故每个类型的目标标签与辅助分析模型的各个标签相互对照，获得每个类型的目标标签的特征子序列，也就是获得辅助分析模型中各个标签对应的特征子序列。

另外，值得说明的是，特征子序列是根据标签提取出的可以进一步代表标签特征的序列，当有数据点落入混乱区域时，通过该数据点对应的多组历史检查指标与每个标签的特征子序列之间的距离，即可以通过患者历史指标数据，进行患者疾病状态的准确判断。相较于传统的通过患者当前的各项指标特征进行疾病状态的判断，其在患者当前检查指标基础上，通过多组历史检查指标的变化情况进一步对患者的当前疾病状态进行分析，提高了疾病数据挖掘后的辅助分析的准确性。

S4，根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分。

需要说明的是，通过各个标签的得分校正因子，不仅消除了观测患者对应的数据点落入混乱区域的不良影响，而且引入了观测患者的历史检查指标，有利于提高观测患者的分析目标疾病最终病情分析结果的准确性。

本发明提供了一种基于分布式计算的疾病大数据挖掘分析系统，该系统在实际应用过程中，分布式存储数据可以通过分布式计算提取患者的历史检查指标，并将其添加到辅助分析模型中进行精确地辅助分析。通过上述疾病大数据挖掘分析方法，对落入混乱区域的观测患者对应的各个标签的得分进行校正处理，获得了更准确的目标得分，当然，对于后续落入混乱区域的数据点进行相同步骤处理，以实现获得更准确地标签得分的目的。在获得观测患者的各个标签的目标得分后，职业医生可以参考观测患者的各个标签的目标得分，基于观测患者身体状况，利用医生经验，确定观测患者的诊断结果。值得说明的是，获取观测患者的诊断结果的过程并非本发明的实现步骤，各个标签的目标得分属于疾病大数据的分析信息，其对于医生确定观测患者的诊断结果起到辅助判断的作用，而且准确的标签得分在一定程度上有助于提高医生判断的准确度。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于分布式计算的疾病大数据挖掘分析系统，其特征在于，包括存储器和处理器，所述处理器执行所述存储器存储的计算机程序，以实现如下步骤：

根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分；

辅助分析模型的各个标签对应的特征子序列的确定步骤包括：

计算同类型的目标标签对应的各个初始特征子序列内相同位置处的数据的均值，将数据均值组成的序列作为对应类型的目标标签的特征子序列，从而获得辅助分析模型中各个标签对应的特征子序列，所述每个类型的目标标签与所述辅助分析模型的各个标签相互照应；

根据所述第一预设数目组历史检查指标和预先确定的辅助分析模型的各个标签对应的特征子序列，确定观测患者各个标签的得分校正因子，包括：

2.根据权利要求1所述的一种基于分布式计算的疾病大数据挖掘分析系统，其特征在于，所述混乱区域的获取步骤包括：

3.根据权利要求2所述的一种基于分布式计算的疾病大数据挖掘分析系统，其特征在于，根据得分数据空间中的每个数据点的位置，确定得分数据空间中的各个密集区域，包括：

4.根据权利要求1所述的一种基于分布式计算的疾病大数据挖掘分析系统，其特征在于，根据观测患者的各个标签的得分和得分校正因子，确定观测患者的各个标签的目标得分，包括：