CN117423451B

CN117423451B - 一种基于大数据分析的智能分子诊断方法及系统

Info

Publication number: CN117423451B
Application number: CN202311743255.2A
Authority: CN
Inventors: 谭浩; 王风滩; 王兰兰; 王秀兰; 李娜; 洪浩然; 李培闯
Original assignee: Heze Dekang Medical Science Examination Co ltd
Current assignee: Heze Dekang Medical Science Examination Co ltd
Priority date: 2023-12-19
Filing date: 2023-12-19
Publication date: 2024-05-03
Anticipated expiration: 2043-12-19
Also published as: CN117423451A

Abstract

本发明公开了一种基于大数据分析的智能分子诊断方法及系统，涉及分子诊断技术领域，包括获取分子诊断数据，根据分子诊断数据，对分子诊断数据进行处理，获取分子诊断整合数据，根据疾病风险评估模型和分子诊断特征数据，获取样本用户疾病概率信息。本发明通过疾病风险评估模型和样本用户的分子诊断数据，对疾病情况进行预测，有效的进行疾病风险评估和疾病预防，避免没有及时对疾病进行治疗，根据样本用户个人数据和样本用户病史信息，对样本用户疾病风险进行分析，提高了样本用户诊断效率，通过疾病风险评估信息，对疾病风险评估模型进行进一步优化，提高了疾病预测的准确度。

Description

一种基于大数据分析的智能分子诊断方法及系统

技术领域

本发明涉及分子诊断技术领域，具体是涉及一种基于大数据分析的智能分子诊断方法及系统。

背景技术

分子诊断在医学领域中具有重要意义。它通过分析和检测个体分子水平的变化，可以提供更准确、精细和个性化的诊断信息，从而在疾病的早期预防、诊断、治疗和监测方面发挥关键作用。分子诊断可以通过分析生物标志物、遗传变异等分子水平的指标，提供有关疾病类型、亚型、预后等的详细信息，对疾病风险程度进行评估。这有助于个体化治疗方案的设计，确保样本用户能够获得最适合他们个体情况的治疗策略，提高治疗效果。

目前市面上分子诊断技术还存在着无对样本用户分子诊断数据进行分析、筛选和整合，获取有效反应疾病状况的分子级数据，无法根据样本用户的各种分子级数据，对样本用户疾病风险进行准确评估，对于样本用户疾病风险评估结果没有根据样本用户病史信息和样本用户信息进行综合判断，无法根据分子诊断数据对疾病风险评估方法进行进一步优化的问题。

发明内容

为解决上述技术问题，提供一种基于大数据分析的智能分子诊断方法及系统，本技术方案解决了上述背景技术中提出的无法根据样本用户体内的各种分子数据，对样本用户患病风险进行准确评估，对于样本用户患病评估结果没有根据样本用户自身实际情况进行综合判断，无法根据分子诊断数据对疾病风险评估方法进行进一步优化的问题。

为达到以上目的，本发明采用的技术方案为：

一种基于大数据分析的智能分子诊断系统，包括：

主控制模块，所述主控制模块用于根据样本用户信息和样本用户病史信息，对样本用户疾病概率信息进行分析，获取疾病风险评估信息；

信息获取模块，所述信息获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集、历史疾病特征数据、分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息；

评估模块，所述评估模块用于对疾病风险评估模型进行训练，根据分子诊断特征数据计算每种疾病的样本用户患病概率；

显示模块，所述显示模块与主控制模块交互，用于显示样本用户疾病概率和疾病风险评估信息。

优选的，所述主控制模块，具体包括：

控制单元，所述控制单元用于根据疾病风险评估信息，输出显示样本用户疾病风险信号，并传输至显示模块；

信息接收单元，所述信息接收单元与信息获取模块和评估模块交互，用于获取数据和样本用户疾病概率信息，并对数据进行处理，并传输至诊断单元；

诊断单元，所述诊断单元用于根据样本用户信息和样本用户病史信息，对样本用户疾病概率信息进行分析，获取疾病风险评估信息。

优选的，所述信息获取模块，具体包括：

第一获取单元，所述第一获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集和历史疾病特征数据，并对数据进行数据预处理；

第二获取单元，所述第二获取模块用于获取分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息。

优选的，所述评估模块，具体包括：

模型训练单元，所述模型训练单元与信息获取模块交互，用于根据历史疾病特征数据对模型进行训练，获取疾病风险评估模型，并根据疾病风险评估信息，对疾病风险评估模型进程优化和调整；

风险评估单元，所述风险评估单元用于根据分子诊断特征数据获取样本用户疾病预测类型信息，并计算每种疾病的样本用户患病概率，获取样本用户疾病概率信息。

进一步的，提出一种基于大数据分析的智能分子诊断方法，用于实现如上述的分析系统，包括：

获取分子诊断数据，所述分子诊断数据包括基因组学数据、蛋白质组学数据和代谢组学数据；

根据分子诊断数据，基于分子诊断数据标准差和分子诊断数据均值，判断分子诊断数据中是否存在分子诊断异常数据，若是，则对分子诊断异常数据进行去除；

基于分子诊断数据统计需求和实际分析需求，获取分子诊断数据缺失阈值；

对去除分子诊断异常数据的分子诊断数据进行可视化检测，判断去除分子诊断异常数据后的分子诊断数据的数据缺失数量是否超出分子诊断数据缺失阈值，若超出，则该分子诊断数据弃用，若否，则基于分子诊断数据的中位数，对分子诊断数据中的缺失数据进行数据补充，获取分子诊断补充数据；

根据分子诊断补充数据，基于线性判别分析法对分子诊断补充数据进行维度约简，获取分子诊断降维数据；

基于Z-score标准化，对分子诊断降维数据进行数据标准化处理，获取分子诊断整合数据；

对分子诊断整合数据进行筛选和提取，获取分子诊断特征数据，所述分子诊断特征数据包括样本用户基因表达数据、样本用户基因突变数据、样本用户蛋白质表达数据、样本用户代谢物数据和样本用户非编码RNA数据；

获取分子诊断历史数据，对分子诊断历史数据进行分析，获取分子诊断历史数据中的历史疾病数据；

对历史疾病数据进行数据预处理，获取历史疾病数据集；

根据历史疾病数据集，基于疾病信息，获取历史疾病特征数据；

根据历史疾病特征数据，对评估模型进行训练，获取疾病风险评估模型；

根据疾病风险评估模型和分子诊断特征数据，获取样本用户疾病概率信息；

获取样本用户信息和样本用户病史信息；

根据样本用户信息和样本用户病史信息，对样本用户疾病概率信息进行分析，获取疾病风险评估信息；

根据疾病风险评估信息，对疾病风险评估模型进程优化和调整。

可选的，所述对历史疾病数据进行数据预处理，获取历史疾病数据集，具体包括：

获取历史疾病数据，所述历史疾病数据包括疾病种类信息和疾病种类对应的分子诊断数据；

根据历史疾病数据，对历史疾病数据进行分析，获取历史疾病数据箱线图；

根据历史疾病数据箱线图，获取历史疾病离群数据；

根据历史疾病离群数据，对历史疾病数据进行数据清洗，剔除历史疾病离群数据；

根据历史疾病数据，基于哈希表去重法，去除历史疾病数据中的重复数据；

根据历史疾病数据，基于历史疾病数据均值，对去除历史疾病离群数据和重复数据后的历史疾病数据的数据空白处进行数据补充，获取历史疾病标准数据；

根据历史疾病标准数据，对历史疾病标准数据进行整合和集成，获取历史疾病数据集。

可选的，所述根据历史疾病数据集，基于疾病信息，获取历史疾病特征数据，具体包括：

根据历史疾病数据集，获取疾病基因组学数据；

根据疾病基因组学数据，获取疾病基因表达信息，所述疾病基因表达信息包括差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息；

根据历史疾病数据集，获取疾病蛋白质组学数据；

根据疾病蛋白质组学数据，获取疾病蛋白质质谱数据；

获取蛋白质数据库，根据疾病蛋白质质谱数据和蛋白质数据库，获取疾病蛋白质定量信息；

根据历史疾病数据集，获取代谢组学数据；

获取历史疾病核磁共振数据，根据代谢组学数据和历史疾病核磁共振数据，获取代谢定量数据；

根据代谢组学数据，获取疾病代谢通路信息；

根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息，基于数据集成，获取历史疾病特征数据。

可选的，所述根据疾病风险评估模型和分子诊断特征数据，获取样本用户疾病概率信息，具体包括：

根据分子诊断特征数据，对样本用户所患疾病类型进行预测，获取样本用户疾病预测类型信息，所述样本用户疾病预测类型包括癌症、遗传疾病和感染疾病；

根据样本用户疾病预测类型信息，获取与该疾病类型对应的疾病风险评估模型；

其中，疾病风险评估模型为：

式中，为第i种疾病的患病概率，/>为第i种疾病的第s个诊断指标，/>为第s个诊断指标的权重，/>为疾病风险评估模型的系数，n为该类型疾病的种类总数量。

可选的，所述根据样本用户信息和样本用户病史信息，对样本用户疾病概率信息进行分析，获取疾病风险评估信息，具体包括：

获取样本用户疾病概率信息和疾病数据库；

根据疾病数据库，获取疾病患病概率阈值；

根据样本用户疾病概率信息和疾病患病概率阈值，判断样本用户疾病概率是否超出该种疾病对应的疾病患病概率阈值，若是，则样本用户存在该疾病患病风险，根据疾病患病风险信息，获取样本用户预测患病信息，若否，则该疾病样本用户换病风险较低；

根据样本用户病史信息，获取样本用户历史患病信息，所述样本用户历史患病信息包括样本用户历史患病种类信息、样本用户历史患病时间信息和样本用户历史患病数据；

根据样本用户历史患病信息，对样本用户预测患病信息进行分析，判断是否样本用户预测患病信息是否存在预测疾病种类与样本用户历史患病种类匹配，若是，则样本用户具有该疾病患病高风险，若否，则根据样本用户信息对样本用户预测患病信息进行筛选和分析，获取疾病风险评估信息，所述样本用户信息包括样本用户年龄信息和样本用户性别信息。

与现有技术相比，本发明的有益效果在于：

本发明提出一种基于大数据分析的智能分子诊断方法及系统，通过疾病风险评估模型和样本用户的分子诊断数据，对疾病风险情况进行预测，计算疾病风险概率，有效的进行疾病风险评估和疾病预防，避免没有及时对疾病进行治疗，并根据样本用户临床数据和样本用户病史信息，对疾病风险情况进行进一步分析，提高了疾病风险评估效率，通过疾病风险评估信息，对疾病风险评估模型进行进一步优化，提高了疾病预测的准确度。

附图说明

图1为本发明提出的一种基于大数据分析的智能分子诊断系统结构框图；

图2为本发明提出的一种基于大数据分析的智能分子诊断方法流程图；

图3为本发明中历史疾病数据预处理流程图；

图4为本发明中获取历史疾病特征数据方法流程图；

图5为本发明中样本用户疾病诊断流程图。

具体实施方式

以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例，本领域技术人员可以想到其他显而易见的变型。

参照图1所示，本发明实施例一种基于大数据分析的智能分子诊断系统，包括：

显示模块，所述显示模块与主控制模块交互，用于显示样本用户疾病概率、疾病风险评估信息。

主控制模块，具体包括：

信息获取模块，具体包括：

参照图2-5所示，进一步的，结合上述的一种基于大数据分析的智能分子诊断系统，提出一种基于大数据分析的智能分子诊断方法，包括：

根据分子诊断数据，基于分子诊断数据标准差和分子诊断数据均值/>，判断分子诊断数据g中是否存在分子诊断异常数据，若/>，则对分子诊断异常数据进行去除；

其中，对分子诊断补充数据进行维度约简具体包括：

根据分子诊断补充数据，获取分子诊断补充数据标签信息；

根据分子诊断补充数据标签信息，对分子诊断补充数据进行分类；

计算每个类别内部的类内散布矩阵和不同类别之间的类间散布矩阵；

基于类间散布矩阵和类内散布矩阵，获取类间散布矩阵和类内散布矩阵的特征向量数据；

根据类间散布矩阵和类内散布矩阵的特征向量数据，获取投影方向信息，所述投影方向信息用于使得类别之间的散布最大化，而类内散布最小化；

基于计算得到的投影方向，选择前k个主成分（k<n，n为原始数据的维度）作为新的特征空间的基向量，其中k为降维后的维度；

将分子诊断补充数据投影到选定的主成分组成的新特征空间中，得到分子诊断降维数据；

对历史疾病数据进行数据预处理，获取历史疾病数据集；

具体而言，对历史疾病进行处理，获取历史疾病数据集，具体包括：

根据历史疾病数据箱线图，获取历史疾病离群数据；

本方案中，通过对历史疾病数据进行数据预处理，获取历史疾病数据集，通过对历史疾病数据中的离群数据进行检测，剔除历史疾病离群数据，通过哈希表去重法，计算每一项历史疾病数据的哈希值，通过哈希值去除历史疾病数据中的重复数据，通过历史疾病数据均值，对去除异常数据后的历史疾病数据进行数据补充，便于之后对疾病风险评估模型进行训练时，提高疾病风险评估模型的准确度，减小了预测误差。

本领域的技术人员可以理解的是，箱线图、哈希表去重法和数据补充均为常规数据处理方法，故本方案未做详细步骤解释，且原理较容易理解；

例如，哈希表去重法即为根据历史疾病数据特征信息，计算历史疾病数据的哈希值，此处根据历史疾病数据特征信息为历史疾病数据的采集日期、病人信息和采集方式等，将历史疾病数据的哈希值建立哈希表，去重哈希值重复的历史疾病数据。

具体而言，根据每种疾病的表现方式和疾病原理，对历史疾病数据集进行处理，获取历史疾病特征数据，具体包括：

根据历史疾病数据集，获取疾病基因组学数据；

根据历史疾病数据集，获取疾病蛋白质组学数据；

根据疾病蛋白质组学数据，获取疾病蛋白质质谱数据；

根据历史疾病数据集，获取代谢组学数据；

获取核磁共振数据，根据代谢组学数据和核磁共振数据，获取代谢定量数据；

根据代谢组学数据，获取疾病代谢通路信息；

根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息，获取历史疾病特征数据。

本领域的技术人员可以理解的是，历史疾病数据集为历史分子诊断数据中样本用户确诊疾病时的分子诊断数据，对于样本用户分子诊断过程中，分子诊断数据包含有样本用户的基因组学数据、蛋白质组学数据和代谢组学数据，根据疾病的作用原理和作用方式，基于医学知识，可以对历史疾病数据集进行分析，从中获取有关于疾病的基因组学数据、蛋白质组学数据和代谢组学数据；

例如，某种疾病如HIV，通过侵入人体内的T细胞进行RNA逆转录，改变人体内T细胞的工作职能，造成样本用户的基因组学数据发生变化。

本方案中，通过对疾病进行分析，根据疾病知识，获取历史疾病数据集中，疾病的差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息，以及疾病的蛋白质定量信息、代谢定量数据和疾病代谢通路信息，并集成为历史疾病的特征数据。

具体而言，通过疾病风险评估模型，对样本用户患病概率进行计算，具体为：

根据样本用户疾病预测类型信息，与该疾病类型对应的获取疾病风险评估模型；

其中，疾病风险评估模型为：

本方案中，通过对样本用户进行分子诊断，获取分子诊断特征数据，根据分子诊断特征数据，判断样本用户所患的疾病类型，并根据疾病类型，选择对应的疾病风险评估模块，根据疾病风险评估模块，计算每种疾病的患病概率，便于之后对样本用户患病风险进行评估。

本领域的技术人员可以理解的是，不同类型的疾病的作用原理、攻击机制和患病途径的不同，使得无法用同一参数的模型对不同类型的疾病进行风险预测；

获取样本用户信息和样本用户病史信息；

具体而言，根据样本用户的实际情况，对样本用户预测患病情况进行分析，获取疾病风险评估信息，具体包括：

获取样本用户疾病概率信息和疾病数据库；

根据疾病数据库，获取疾病患病概率阈值；

本方案中，通过疾病数据库，获取疾病患病概率阈值，通过疾病患病概率阈值，获取样本用户高概率患病信息，并根据样本用户历史患病信息，对样本用户高概率患病进行分析，判断是否有患病历史，若是，则样本用户具有患该疾病高风险，若否，则根据样本用户信息，对样本用户高概率患病信息进行进一步筛选和分析，提高了疾病风险评估的准确度。

本领域的技术人员可以理解的是，疾病数据库包含有疾病信息、疾病发病前后的相关数据和人体正常数据，根据疾病发病前后的相关数据与疾病的关联，引入疾病风险评估模型，获取由疾病发病前后的相关数据计算的概率信息，对概率信息进行分析，由此设置疾病患病概率阈值，超过阈值则为该疾病具有患病高风险。

根据疾病风险评估信息，对疾病风险评估模型进程优化和调整；

获取样本用户治疗方案信息和样本用户身体数据；

根据获取样本用户治疗方案信息和样本用户身体数据，基于样本用户治疗方案匹配指数，对治疗方案进行评估。

具体而言，根据获取样本用户治疗方案信息和样本用户身体数据，基于样本用户治疗方案匹配指数，对治疗方案进行评估，具体包括：

根据样本用户病史信息，获取样本用户历史治疗信息，所述样本用户历史治疗信息包括样本用户历史疾病治疗方案信息；

根据样本用户身体数据，获取样本用户身体评估指数；

根据样本用户身体评估指数和样本用户治疗方案信息，获取样本用户治疗方案匹配指数；

根据样本用户治疗方案匹配指数，对样本用户治疗方案进行评估，获取样本用户治疗方案评估信息；

其中，样本用户治疗方案匹配指数的计算公式为：

式中，Q为样本用户治疗方案匹配指数，为第j个身体评估指标的分数，其分值为（0~100），/>为第j个身体评估指标的方案影响系数，/>为样本用户治疗方案评估指数，m为身体评估指标的数目总数。

本方案中，通过对样本用户历史治疗方案进行分析，根据疾病风险评估信息，生成样本用户治疗方案，通过对样本用户身体状况进行评估，判断样本用户与治疗方案中间的匹配度，提高了样本用户的治疗效率。

综上所述，本发明的优点在于：本发明通过对分子诊断历史数据进行分析、处理，获取历史疾病特征数据，通过历史疾病特征数据，对模型进行训练，获取疾病风险评估模型，根据疾病风险评估模型和样本用户的分子诊断数据，对患病风险状况进行预测，计算疾病患病概率，有效的进行疾病分析评估和疾病预防，避免没有及时对疾病进行治疗，并根据样本用户临床数据和样本用户病史信息，对疾病风险情况进行进一步分析，提高了疾病风险评估效率，并对治疗方案进行评估，通过疾病风险评估信息，对疾病风险评估模型进行进一步优化，提高了疾病预测的准确度。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于大数据分析的智能分子诊断方法，其特征在于，包括：

获取分子诊断历史数据，对分子诊断历史数据进行分析，获取分子诊断历史数据中的历史疾病数据，所述历史疾病数据包括疾病种类信息和疾病种类对应的分子诊断数据；

根据历史疾病数据箱线图，获取历史疾病离群数据；

根据历史疾病标准数据，对历史疾病标准数据进行整合和集成，获取历史疾病数据集；

根据历史疾病数据集，获取疾病基因组学数据；

根据历史疾病数据集，获取疾病蛋白质组学数据；

根据疾病蛋白质组学数据，获取疾病蛋白质质谱数据；

根据历史疾病数据集，获取代谢组学数据；

根据代谢组学数据，获取疾病代谢通路信息；

根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息，基于数据集成，获取历史疾病特征数据；

其中，疾病风险评估模型为：

式中，为第i种疾病的患病概率，/>为第i种疾病的第s个诊断指标，/>为第s个诊断指标的权重，/>为疾病风险评估模型的系数，n为该类型疾病的种类总数量；

获取样本用户信息、样本用户病史信息和疾病数据库；

根据疾病数据库，获取疾病患病概率阈值；

根据样本用户历史患病信息，对样本用户预测患病信息进行分析，判断是否样本用户预测患病信息是否存在预测疾病种类与样本用户历史患病种类匹配，若是，则样本用户具有该疾病患病高风险，若否，则根据样本用户信息对样本用户预测患病信息进行筛选和分析，获取疾病风险评估信息，所述样本用户信息包括样本用户年龄信息和样本用户性别信息；

获取样本用户治疗方案信息和样本用户身体数据；

根据样本用户身体数据，获取样本用户身体评估指数；

其中，样本用户治疗方案匹配指数的计算公式为：

2.一种基于大数据分析的智能分子诊断系统，用于实现如权利要求1所述的分子诊断方法，其特征在于，包括：

3.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统，其特征在于，所述主控制模块，具体包括：

4.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统，其特征在于，所述信息获取模块，具体包括：

5.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统，其特征在于，所述评估模块，具体包括：