CN117423451B - 一种基于大数据分析的智能分子诊断方法及系统 - Google Patents

一种基于大数据分析的智能分子诊断方法及系统 Download PDF

Info

Publication number
CN117423451B
CN117423451B CN202311743255.2A CN202311743255A CN117423451B CN 117423451 B CN117423451 B CN 117423451B CN 202311743255 A CN202311743255 A CN 202311743255A CN 117423451 B CN117423451 B CN 117423451B
Authority
CN
China
Prior art keywords
data
disease
sample user
information
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311743255.2A
Other languages
English (en)
Other versions
CN117423451A (zh
Inventor
谭浩
王风滩
王兰兰
王秀兰
李娜
洪浩然
李培闯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Heze Dekang Medical Science Examination Co ltd
Original Assignee
Heze Dekang Medical Science Examination Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Heze Dekang Medical Science Examination Co ltd filed Critical Heze Dekang Medical Science Examination Co ltd
Priority to CN202311743255.2A priority Critical patent/CN117423451B/zh
Publication of CN117423451A publication Critical patent/CN117423451A/zh
Application granted granted Critical
Publication of CN117423451B publication Critical patent/CN117423451B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/20Protein or domain folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Public Health (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Biophysics (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于大数据分析的智能分子诊断方法及系统,涉及分子诊断技术领域,包括获取分子诊断数据,根据分子诊断数据,对分子诊断数据进行处理,获取分子诊断整合数据,根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息。本发明通过疾病风险评估模型和样本用户的分子诊断数据,对疾病情况进行预测,有效的进行疾病风险评估和疾病预防,避免没有及时对疾病进行治疗,根据样本用户个人数据和样本用户病史信息,对样本用户疾病风险进行分析,提高了样本用户诊断效率,通过疾病风险评估信息,对疾病风险评估模型进行进一步优化,提高了疾病预测的准确度。

Description

一种基于大数据分析的智能分子诊断方法及系统
技术领域
本发明涉及分子诊断技术领域,具体是涉及一种基于大数据分析的智能分子诊断方法及系统。
背景技术
分子诊断在医学领域中具有重要意义。它通过分析和检测个体分子水平的变化,可以提供更准确、精细和个性化的诊断信息,从而在疾病的早期预防、诊断、治疗和监测方面发挥关键作用。分子诊断可以通过分析生物标志物、遗传变异等分子水平的指标,提供有关疾病类型、亚型、预后等的详细信息,对疾病风险程度进行评估。这有助于个体化治疗方案的设计,确保样本用户能够获得最适合他们个体情况的治疗策略,提高治疗效果。
目前市面上分子诊断技术还存在着无对样本用户分子诊断数据进行分析、筛选和整合,获取有效反应疾病状况的分子级数据,无法根据样本用户的各种分子级数据,对样本用户疾病风险进行准确评估,对于样本用户疾病风险评估结果没有根据样本用户病史信息和样本用户信息进行综合判断,无法根据分子诊断数据对疾病风险评估方法进行进一步优化的问题。
发明内容
为解决上述技术问题,提供一种基于大数据分析的智能分子诊断方法及系统,本技术方案解决了上述背景技术中提出的无法根据样本用户体内的各种分子数据,对样本用户患病风险进行准确评估,对于样本用户患病评估结果没有根据样本用户自身实际情况进行综合判断,无法根据分子诊断数据对疾病风险评估方法进行进一步优化的问题。
为达到以上目的,本发明采用的技术方案为:
一种基于大数据分析的智能分子诊断系统,包括:
主控制模块,所述主控制模块用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息;
信息获取模块,所述信息获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集、历史疾病特征数据、分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息;
评估模块,所述评估模块用于对疾病风险评估模型进行训练,根据分子诊断特征数据计算每种疾病的样本用户患病概率;
显示模块,所述显示模块与主控制模块交互,用于显示样本用户疾病概率和疾病风险评估信息。
优选的,所述主控制模块,具体包括:
控制单元,所述控制单元用于根据疾病风险评估信息,输出显示样本用户疾病风险信号,并传输至显示模块;
信息接收单元,所述信息接收单元与信息获取模块和评估模块交互,用于获取数据和样本用户疾病概率信息,并对数据进行处理,并传输至诊断单元;
诊断单元,所述诊断单元用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息。
优选的,所述信息获取模块,具体包括:
第一获取单元,所述第一获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集和历史疾病特征数据,并对数据进行数据预处理;
第二获取单元,所述第二获取模块用于获取分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息。
优选的,所述评估模块,具体包括:
模型训练单元,所述模型训练单元与信息获取模块交互,用于根据历史疾病特征数据对模型进行训练,获取疾病风险评估模型,并根据疾病风险评估信息,对疾病风险评估模型进程优化和调整;
风险评估单元,所述风险评估单元用于根据分子诊断特征数据获取样本用户疾病预测类型信息,并计算每种疾病的样本用户患病概率,获取样本用户疾病概率信息。
进一步的,提出一种基于大数据分析的智能分子诊断方法,用于实现如上述的分析系统,包括:
获取分子诊断数据,所述分子诊断数据包括基因组学数据、蛋白质组学数据和代谢组学数据;
根据分子诊断数据,基于分子诊断数据标准差和分子诊断数据均值,判断分子诊断数据中是否存在分子诊断异常数据,若是,则对分子诊断异常数据进行去除;
基于分子诊断数据统计需求和实际分析需求,获取分子诊断数据缺失阈值;
对去除分子诊断异常数据的分子诊断数据进行可视化检测,判断去除分子诊断异常数据后的分子诊断数据的数据缺失数量是否超出分子诊断数据缺失阈值,若超出,则该分子诊断数据弃用,若否,则基于分子诊断数据的中位数,对分子诊断数据中的缺失数据进行数据补充,获取分子诊断补充数据;
根据分子诊断补充数据,基于线性判别分析法对分子诊断补充数据进行维度约简,获取分子诊断降维数据;
基于Z-score标准化,对分子诊断降维数据进行数据标准化处理,获取分子诊断整合数据;
对分子诊断整合数据进行筛选和提取,获取分子诊断特征数据,所述分子诊断特征数据包括样本用户基因表达数据、样本用户基因突变数据、样本用户蛋白质表达数据、样本用户代谢物数据和样本用户非编码RNA数据;
获取分子诊断历史数据,对分子诊断历史数据进行分析,获取分子诊断历史数据中的历史疾病数据;
对历史疾病数据进行数据预处理,获取历史疾病数据集;
根据历史疾病数据集,基于疾病信息,获取历史疾病特征数据;
根据历史疾病特征数据,对评估模型进行训练,获取疾病风险评估模型;
根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息;
获取样本用户信息和样本用户病史信息;
根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息;
根据疾病风险评估信息,对疾病风险评估模型进程优化和调整。
可选的,所述对历史疾病数据进行数据预处理,获取历史疾病数据集,具体包括:
获取历史疾病数据,所述历史疾病数据包括疾病种类信息和疾病种类对应的分子诊断数据;
根据历史疾病数据,对历史疾病数据进行分析,获取历史疾病数据箱线图;
根据历史疾病数据箱线图,获取历史疾病离群数据;
根据历史疾病离群数据,对历史疾病数据进行数据清洗,剔除历史疾病离群数据;
根据历史疾病数据,基于哈希表去重法,去除历史疾病数据中的重复数据;
根据历史疾病数据,基于历史疾病数据均值,对去除历史疾病离群数据和重复数据后的历史疾病数据的数据空白处进行数据补充,获取历史疾病标准数据;
根据历史疾病标准数据,对历史疾病标准数据进行整合和集成,获取历史疾病数据集。
可选的,所述根据历史疾病数据集,基于疾病信息,获取历史疾病特征数据,具体包括:
根据历史疾病数据集,获取疾病基因组学数据;
根据疾病基因组学数据,获取疾病基因表达信息,所述疾病基因表达信息包括差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息;
根据历史疾病数据集,获取疾病蛋白质组学数据;
根据疾病蛋白质组学数据,获取疾病蛋白质质谱数据;
获取蛋白质数据库,根据疾病蛋白质质谱数据和蛋白质数据库,获取疾病蛋白质定量信息;
根据历史疾病数据集,获取代谢组学数据;
获取历史疾病核磁共振数据,根据代谢组学数据和历史疾病核磁共振数据,获取代谢定量数据;
根据代谢组学数据,获取疾病代谢通路信息;
根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息,基于数据集成,获取历史疾病特征数据。
可选的,所述根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息,具体包括:
根据分子诊断特征数据,对样本用户所患疾病类型进行预测,获取样本用户疾病预测类型信息,所述样本用户疾病预测类型包括癌症、遗传疾病和感染疾病;
根据样本用户疾病预测类型信息,获取与该疾病类型对应的疾病风险评估模型;
根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息;
其中,疾病风险评估模型为:
式中,为第i种疾病的患病概率,/>为第i种疾病的第s个诊断指标,/>为第s个诊断指标的权重,/>为疾病风险评估模型的系数,n为该类型疾病的种类总数量。
可选的,所述根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息,具体包括:
获取样本用户疾病概率信息和疾病数据库;
根据疾病数据库,获取疾病患病概率阈值;
根据样本用户疾病概率信息和疾病患病概率阈值,判断样本用户疾病概率是否超出该种疾病对应的疾病患病概率阈值,若是,则样本用户存在该疾病患病风险,根据疾病患病风险信息,获取样本用户预测患病信息,若否,则该疾病样本用户换病风险较低;
根据样本用户病史信息,获取样本用户历史患病信息,所述样本用户历史患病信息包括样本用户历史患病种类信息、样本用户历史患病时间信息和样本用户历史患病数据;
根据样本用户历史患病信息,对样本用户预测患病信息进行分析,判断是否样本用户预测患病信息是否存在预测疾病种类与样本用户历史患病种类匹配,若是,则样本用户具有该疾病患病高风险,若否,则根据样本用户信息对样本用户预测患病信息进行筛选和分析,获取疾病风险评估信息,所述样本用户信息包括样本用户年龄信息和样本用户性别信息。
与现有技术相比,本发明的有益效果在于:
本发明提出一种基于大数据分析的智能分子诊断方法及系统,通过疾病风险评估模型和样本用户的分子诊断数据,对疾病风险情况进行预测,计算疾病风险概率,有效的进行疾病风险评估和疾病预防,避免没有及时对疾病进行治疗,并根据样本用户临床数据和样本用户病史信息,对疾病风险情况进行进一步分析,提高了疾病风险评估效率,通过疾病风险评估信息,对疾病风险评估模型进行进一步优化,提高了疾病预测的准确度。
附图说明
图1为本发明提出的一种基于大数据分析的智能分子诊断系统结构框图;
图2为本发明提出的一种基于大数据分析的智能分子诊断方法流程图;
图3为本发明中历史疾病数据预处理流程图;
图4为本发明中获取历史疾病特征数据方法流程图;
图5为本发明中样本用户疾病诊断流程图。
具体实施方式
以下描述用于揭露本发明以使本领域技术人员能够实现本发明。以下描述中的优选实施例只作为举例,本领域技术人员可以想到其他显而易见的变型。
参照图1所示,本发明实施例一种基于大数据分析的智能分子诊断系统,包括:
主控制模块,所述主控制模块用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息;
信息获取模块,所述信息获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集、历史疾病特征数据、分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息;
评估模块,所述评估模块用于对疾病风险评估模型进行训练,根据分子诊断特征数据计算每种疾病的样本用户患病概率;
显示模块,所述显示模块与主控制模块交互,用于显示样本用户疾病概率、疾病风险评估信息。
主控制模块,具体包括:
控制单元,所述控制单元用于根据疾病风险评估信息,输出显示样本用户疾病风险信号,并传输至显示模块;
信息接收单元,所述信息接收单元与信息获取模块和评估模块交互,用于获取数据和样本用户疾病概率信息,并对数据进行处理,并传输至诊断单元;
诊断单元,所述诊断单元用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息。
信息获取模块,具体包括:
第一获取单元,所述第一获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集和历史疾病特征数据,并对数据进行数据预处理;
第二获取单元,所述第二获取模块用于获取分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息。
模型训练单元,所述模型训练单元与信息获取模块交互,用于根据历史疾病特征数据对模型进行训练,获取疾病风险评估模型,并根据疾病风险评估信息,对疾病风险评估模型进程优化和调整;
风险评估单元,所述风险评估单元用于根据分子诊断特征数据获取样本用户疾病预测类型信息,并计算每种疾病的样本用户患病概率,获取样本用户疾病概率信息。
参照图2-5所示,进一步的,结合上述的一种基于大数据分析的智能分子诊断系统,提出一种基于大数据分析的智能分子诊断方法,包括:
获取分子诊断数据,所述分子诊断数据包括基因组学数据、蛋白质组学数据和代谢组学数据;
根据分子诊断数据,基于分子诊断数据标准差和分子诊断数据均值/>,判断分子诊断数据g中是否存在分子诊断异常数据,若/>,则对分子诊断异常数据进行去除;
基于分子诊断数据统计需求和实际分析需求,获取分子诊断数据缺失阈值;
对去除分子诊断异常数据的分子诊断数据进行可视化检测,判断去除分子诊断异常数据后的分子诊断数据的数据缺失数量是否超出分子诊断数据缺失阈值,若超出,则该分子诊断数据弃用,若否,则基于分子诊断数据的中位数,对分子诊断数据中的缺失数据进行数据补充,获取分子诊断补充数据;
根据分子诊断补充数据,基于线性判别分析法对分子诊断补充数据进行维度约简,获取分子诊断降维数据;
其中,对分子诊断补充数据进行维度约简具体包括:
根据分子诊断补充数据,获取分子诊断补充数据标签信息;
根据分子诊断补充数据标签信息,对分子诊断补充数据进行分类;
计算每个类别内部的类内散布矩阵和不同类别之间的类间散布矩阵;
基于类间散布矩阵和类内散布矩阵,获取类间散布矩阵和类内散布矩阵的特征向量数据;
根据类间散布矩阵和类内散布矩阵的特征向量数据,获取投影方向信息,所述投影方向信息用于使得类别之间的散布最大化,而类内散布最小化;
基于计算得到的投影方向,选择前k个主成分(k<n,n为原始数据的维度)作为新的特征空间的基向量,其中k为降维后的维度;
将分子诊断补充数据投影到选定的主成分组成的新特征空间中,得到分子诊断降维数据;
基于Z-score标准化,对分子诊断降维数据进行数据标准化处理,获取分子诊断整合数据;
对分子诊断整合数据进行筛选和提取,获取分子诊断特征数据,所述分子诊断特征数据包括样本用户基因表达数据、样本用户基因突变数据、样本用户蛋白质表达数据、样本用户代谢物数据和样本用户非编码RNA数据;
获取分子诊断历史数据,对分子诊断历史数据进行分析,获取分子诊断历史数据中的历史疾病数据;
对历史疾病数据进行数据预处理,获取历史疾病数据集;
具体而言,对历史疾病进行处理,获取历史疾病数据集,具体包括:
获取历史疾病数据,所述历史疾病数据包括疾病种类信息和疾病种类对应的分子诊断数据;
根据历史疾病数据,对历史疾病数据进行分析,获取历史疾病数据箱线图;
根据历史疾病数据箱线图,获取历史疾病离群数据;
根据历史疾病离群数据,对历史疾病数据进行数据清洗,剔除历史疾病离群数据;
根据历史疾病数据,基于哈希表去重法,去除历史疾病数据中的重复数据;
根据历史疾病数据,基于历史疾病数据均值,对去除历史疾病离群数据和重复数据后的历史疾病数据的数据空白处进行数据补充,获取历史疾病标准数据;
根据历史疾病标准数据,对历史疾病标准数据进行整合和集成,获取历史疾病数据集。
本方案中,通过对历史疾病数据进行数据预处理,获取历史疾病数据集,通过对历史疾病数据中的离群数据进行检测,剔除历史疾病离群数据,通过哈希表去重法,计算每一项历史疾病数据的哈希值,通过哈希值去除历史疾病数据中的重复数据,通过历史疾病数据均值,对去除异常数据后的历史疾病数据进行数据补充,便于之后对疾病风险评估模型进行训练时,提高疾病风险评估模型的准确度,减小了预测误差。
本领域的技术人员可以理解的是,箱线图、哈希表去重法和数据补充均为常规数据处理方法,故本方案未做详细步骤解释,且原理较容易理解;
例如,哈希表去重法即为根据历史疾病数据特征信息,计算历史疾病数据的哈希值,此处根据历史疾病数据特征信息为历史疾病数据的采集日期、病人信息和采集方式等,将历史疾病数据的哈希值建立哈希表,去重哈希值重复的历史疾病数据。
根据历史疾病数据集,基于疾病信息,获取历史疾病特征数据;
具体而言,根据每种疾病的表现方式和疾病原理,对历史疾病数据集进行处理,获取历史疾病特征数据,具体包括:
根据历史疾病数据集,获取疾病基因组学数据;
根据疾病基因组学数据,获取疾病基因表达信息,所述疾病基因表达信息包括差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息;
根据历史疾病数据集,获取疾病蛋白质组学数据;
根据疾病蛋白质组学数据,获取疾病蛋白质质谱数据;
获取蛋白质数据库,根据疾病蛋白质质谱数据和蛋白质数据库,获取疾病蛋白质定量信息;
根据历史疾病数据集,获取代谢组学数据;
获取核磁共振数据,根据代谢组学数据和核磁共振数据,获取代谢定量数据;
根据代谢组学数据,获取疾病代谢通路信息;
根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息,获取历史疾病特征数据。
本领域的技术人员可以理解的是,历史疾病数据集为历史分子诊断数据中样本用户确诊疾病时的分子诊断数据,对于样本用户分子诊断过程中,分子诊断数据包含有样本用户的基因组学数据、蛋白质组学数据和代谢组学数据,根据疾病的作用原理和作用方式,基于医学知识,可以对历史疾病数据集进行分析,从中获取有关于疾病的基因组学数据、蛋白质组学数据和代谢组学数据;
例如,某种疾病如HIV,通过侵入人体内的T细胞进行RNA逆转录,改变人体内T细胞的工作职能,造成样本用户的基因组学数据发生变化。
本方案中,通过对疾病进行分析,根据疾病知识,获取历史疾病数据集中,疾病的差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息,以及疾病的蛋白质定量信息、代谢定量数据和疾病代谢通路信息,并集成为历史疾病的特征数据。
根据历史疾病特征数据,对评估模型进行训练,获取疾病风险评估模型;
根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息;
具体而言,通过疾病风险评估模型,对样本用户患病概率进行计算,具体为:
根据分子诊断特征数据,对样本用户所患疾病类型进行预测,获取样本用户疾病预测类型信息,所述样本用户疾病预测类型包括癌症、遗传疾病和感染疾病;
根据样本用户疾病预测类型信息,与该疾病类型对应的获取疾病风险评估模型;
根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息;
其中,疾病风险评估模型为:
式中,为第i种疾病的患病概率,/>为第i种疾病的第s个诊断指标,/>为第s个诊断指标的权重,/>为疾病风险评估模型的系数,n为该类型疾病的种类总数量。
本方案中,通过对样本用户进行分子诊断,获取分子诊断特征数据,根据分子诊断特征数据,判断样本用户所患的疾病类型,并根据疾病类型,选择对应的疾病风险评估模块,根据疾病风险评估模块,计算每种疾病的患病概率,便于之后对样本用户患病风险进行评估。
本领域的技术人员可以理解的是,不同类型的疾病的作用原理、攻击机制和患病途径的不同,使得无法用同一参数的模型对不同类型的疾病进行风险预测;
获取样本用户信息和样本用户病史信息;
根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息;
具体而言,根据样本用户的实际情况,对样本用户预测患病情况进行分析,获取疾病风险评估信息,具体包括:
获取样本用户疾病概率信息和疾病数据库;
根据疾病数据库,获取疾病患病概率阈值;
根据样本用户疾病概率信息和疾病患病概率阈值,判断样本用户疾病概率是否超出该种疾病对应的疾病患病概率阈值,若是,则样本用户存在该疾病患病风险,根据疾病患病风险信息,获取样本用户预测患病信息,若否,则该疾病样本用户换病风险较低;
根据样本用户病史信息,获取样本用户历史患病信息,所述样本用户历史患病信息包括样本用户历史患病种类信息、样本用户历史患病时间信息和样本用户历史患病数据;
根据样本用户历史患病信息,对样本用户预测患病信息进行分析,判断是否样本用户预测患病信息是否存在预测疾病种类与样本用户历史患病种类匹配,若是,则样本用户具有该疾病患病高风险,若否,则根据样本用户信息对样本用户预测患病信息进行筛选和分析,获取疾病风险评估信息,所述样本用户信息包括样本用户年龄信息和样本用户性别信息。
本方案中,通过疾病数据库,获取疾病患病概率阈值,通过疾病患病概率阈值,获取样本用户高概率患病信息,并根据样本用户历史患病信息,对样本用户高概率患病进行分析,判断是否有患病历史,若是,则样本用户具有患该疾病高风险,若否,则根据样本用户信息,对样本用户高概率患病信息进行进一步筛选和分析,提高了疾病风险评估的准确度。
本领域的技术人员可以理解的是,疾病数据库包含有疾病信息、疾病发病前后的相关数据和人体正常数据,根据疾病发病前后的相关数据与疾病的关联,引入疾病风险评估模型,获取由疾病发病前后的相关数据计算的概率信息,对概率信息进行分析,由此设置疾病患病概率阈值,超过阈值则为该疾病具有患病高风险。
根据疾病风险评估信息,对疾病风险评估模型进程优化和调整;
获取样本用户治疗方案信息和样本用户身体数据;
根据获取样本用户治疗方案信息和样本用户身体数据,基于样本用户治疗方案匹配指数,对治疗方案进行评估。
具体而言,根据获取样本用户治疗方案信息和样本用户身体数据,基于样本用户治疗方案匹配指数,对治疗方案进行评估,具体包括:
根据样本用户病史信息,获取样本用户历史治疗信息,所述样本用户历史治疗信息包括样本用户历史疾病治疗方案信息;
根据样本用户身体数据,获取样本用户身体评估指数;
根据样本用户身体评估指数和样本用户治疗方案信息,获取样本用户治疗方案匹配指数;
根据样本用户治疗方案匹配指数,对样本用户治疗方案进行评估,获取样本用户治疗方案评估信息;
其中,样本用户治疗方案匹配指数的计算公式为:
式中,Q为样本用户治疗方案匹配指数,为第j个身体评估指标的分数,其分值为(0~100),/>为第j个身体评估指标的方案影响系数,/>为样本用户治疗方案评估指数,m为身体评估指标的数目总数。
本方案中,通过对样本用户历史治疗方案进行分析,根据疾病风险评估信息,生成样本用户治疗方案,通过对样本用户身体状况进行评估,判断样本用户与治疗方案中间的匹配度,提高了样本用户的治疗效率。
综上所述,本发明的优点在于:本发明通过对分子诊断历史数据进行分析、处理,获取历史疾病特征数据,通过历史疾病特征数据,对模型进行训练,获取疾病风险评估模型,根据疾病风险评估模型和样本用户的分子诊断数据,对患病风险状况进行预测,计算疾病患病概率,有效的进行疾病分析评估和疾病预防,避免没有及时对疾病进行治疗,并根据样本用户临床数据和样本用户病史信息,对疾病风险情况进行进一步分析,提高了疾病风险评估效率,并对治疗方案进行评估,通过疾病风险评估信息,对疾病风险评估模型进行进一步优化,提高了疾病预测的准确度。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (5)

1.一种基于大数据分析的智能分子诊断方法,其特征在于,包括:
获取分子诊断数据,所述分子诊断数据包括基因组学数据、蛋白质组学数据和代谢组学数据;
根据分子诊断数据,基于分子诊断数据标准差和分子诊断数据均值,判断分子诊断数据中是否存在分子诊断异常数据,若是,则对分子诊断异常数据进行去除;
基于分子诊断数据统计需求和实际分析需求,获取分子诊断数据缺失阈值;
对去除分子诊断异常数据的分子诊断数据进行可视化检测,判断去除分子诊断异常数据后的分子诊断数据的数据缺失数量是否超出分子诊断数据缺失阈值,若超出,则该分子诊断数据弃用,若否,则基于分子诊断数据的中位数,对分子诊断数据中的缺失数据进行数据补充,获取分子诊断补充数据;
根据分子诊断补充数据,基于线性判别分析法对分子诊断补充数据进行维度约简,获取分子诊断降维数据;
基于Z-score标准化,对分子诊断降维数据进行数据标准化处理,获取分子诊断整合数据;
对分子诊断整合数据进行筛选和提取,获取分子诊断特征数据,所述分子诊断特征数据包括样本用户基因表达数据、样本用户基因突变数据、样本用户蛋白质表达数据、样本用户代谢物数据和样本用户非编码RNA数据;
获取分子诊断历史数据,对分子诊断历史数据进行分析,获取分子诊断历史数据中的历史疾病数据,所述历史疾病数据包括疾病种类信息和疾病种类对应的分子诊断数据;
根据历史疾病数据,对历史疾病数据进行分析,获取历史疾病数据箱线图;
根据历史疾病数据箱线图,获取历史疾病离群数据;
根据历史疾病离群数据,对历史疾病数据进行数据清洗,剔除历史疾病离群数据;
根据历史疾病数据,基于哈希表去重法,去除历史疾病数据中的重复数据;
根据历史疾病数据,基于历史疾病数据均值,对去除历史疾病离群数据和重复数据后的历史疾病数据的数据空白处进行数据补充,获取历史疾病标准数据;
根据历史疾病标准数据,对历史疾病标准数据进行整合和集成,获取历史疾病数据集;
根据历史疾病数据集,获取疾病基因组学数据;
根据疾病基因组学数据,获取疾病基因表达信息,所述疾病基因表达信息包括差异表达基因信息、基因表达变异系数、基因表达标准差数据和基因表达幅度信息;
根据历史疾病数据集,获取疾病蛋白质组学数据;
根据疾病蛋白质组学数据,获取疾病蛋白质质谱数据;
获取蛋白质数据库,根据疾病蛋白质质谱数据和蛋白质数据库,获取疾病蛋白质定量信息;
根据历史疾病数据集,获取代谢组学数据;
获取历史疾病核磁共振数据,根据代谢组学数据和历史疾病核磁共振数据,获取代谢定量数据;
根据代谢组学数据,获取疾病代谢通路信息;
根据疾病基因表达信息、疾病蛋白质定量信息、代谢定量数据和疾病代谢通路信息,基于数据集成,获取历史疾病特征数据;
根据历史疾病特征数据,对评估模型进行训练,获取疾病风险评估模型;
根据分子诊断特征数据,对样本用户所患疾病类型进行预测,获取样本用户疾病预测类型信息,所述样本用户疾病预测类型包括癌症、遗传疾病和感染疾病;
根据样本用户疾病预测类型信息,获取与该疾病类型对应的疾病风险评估模型;
根据疾病风险评估模型和分子诊断特征数据,获取样本用户疾病概率信息;
其中,疾病风险评估模型为:
式中,为第i种疾病的患病概率,/>为第i种疾病的第s个诊断指标,/>为第s个诊断指标的权重,/>为疾病风险评估模型的系数,n为该类型疾病的种类总数量;
获取样本用户信息、样本用户病史信息和疾病数据库;
根据疾病数据库,获取疾病患病概率阈值;
根据样本用户疾病概率信息和疾病患病概率阈值,判断样本用户疾病概率是否超出该种疾病对应的疾病患病概率阈值,若是,则样本用户存在该疾病患病风险,根据疾病患病风险信息,获取样本用户预测患病信息,若否,则该疾病样本用户换病风险较低;
根据样本用户病史信息,获取样本用户历史患病信息,所述样本用户历史患病信息包括样本用户历史患病种类信息、样本用户历史患病时间信息和样本用户历史患病数据;
根据样本用户历史患病信息,对样本用户预测患病信息进行分析,判断是否样本用户预测患病信息是否存在预测疾病种类与样本用户历史患病种类匹配,若是,则样本用户具有该疾病患病高风险,若否,则根据样本用户信息对样本用户预测患病信息进行筛选和分析,获取疾病风险评估信息,所述样本用户信息包括样本用户年龄信息和样本用户性别信息;
根据疾病风险评估信息,对疾病风险评估模型进程优化和调整;
获取样本用户治疗方案信息和样本用户身体数据;
根据样本用户病史信息,获取样本用户历史治疗信息,所述样本用户历史治疗信息包括样本用户历史疾病治疗方案信息;
根据样本用户身体数据,获取样本用户身体评估指数;
根据样本用户身体评估指数和样本用户治疗方案信息,获取样本用户治疗方案匹配指数;
根据样本用户治疗方案匹配指数,对样本用户治疗方案进行评估,获取样本用户治疗方案评估信息;
其中,样本用户治疗方案匹配指数的计算公式为:
式中,Q为样本用户治疗方案匹配指数,为第j个身体评估指标的分数,其分值为(0~100),/>为第j个身体评估指标的方案影响系数,/>为样本用户治疗方案评估指数,m为身体评估指标的数目总数。
2.一种基于大数据分析的智能分子诊断系统,用于实现如权利要求1所述的分子诊断方法,其特征在于,包括:
主控制模块,所述主控制模块用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息;
信息获取模块,所述信息获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集、历史疾病特征数据、分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息;
评估模块,所述评估模块用于对疾病风险评估模型进行训练,根据分子诊断特征数据计算每种疾病的样本用户患病概率;
显示模块,所述显示模块与主控制模块交互,用于显示样本用户疾病概率和疾病风险评估信息。
3.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统,其特征在于,所述主控制模块,具体包括:
控制单元,所述控制单元用于根据疾病风险评估信息,输出显示样本用户疾病风险信号,并传输至显示模块;
信息接收单元,所述信息接收单元与信息获取模块和评估模块交互,用于获取数据和样本用户疾病概率信息,并对数据进行处理,并传输至诊断单元;
诊断单元,所述诊断单元用于根据样本用户信息和样本用户病史信息,对样本用户疾病概率信息进行分析,获取疾病风险评估信息。
4.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统,其特征在于,所述信息获取模块,具体包括:
第一获取单元,所述第一获取模块用于获取分子诊断历史数据、历史疾病数据、历史疾病数据集和历史疾病特征数据,并对数据进行数据预处理;
第二获取单元,所述第二获取模块用于获取分子诊断数据、分子诊断整合数据、分子诊断特征数据、样本用户信息和样本用户病史信息。
5.根据权利要求2所述的一种基于大数据分析的智能分子诊断系统,其特征在于,所述评估模块,具体包括:
模型训练单元,所述模型训练单元与信息获取模块交互,用于根据历史疾病特征数据对模型进行训练,获取疾病风险评估模型,并根据疾病风险评估信息,对疾病风险评估模型进程优化和调整;
风险评估单元,所述风险评估单元用于根据分子诊断特征数据获取样本用户疾病预测类型信息,并计算每种疾病的样本用户患病概率,获取样本用户疾病概率信息。
CN202311743255.2A 2023-12-19 2023-12-19 一种基于大数据分析的智能分子诊断方法及系统 Active CN117423451B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311743255.2A CN117423451B (zh) 2023-12-19 2023-12-19 一种基于大数据分析的智能分子诊断方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311743255.2A CN117423451B (zh) 2023-12-19 2023-12-19 一种基于大数据分析的智能分子诊断方法及系统

Publications (2)

Publication Number Publication Date
CN117423451A CN117423451A (zh) 2024-01-19
CN117423451B true CN117423451B (zh) 2024-05-03

Family

ID=89530589

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311743255.2A Active CN117423451B (zh) 2023-12-19 2023-12-19 一种基于大数据分析的智能分子诊断方法及系统

Country Status (1)

Country Link
CN (1) CN117423451B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117809826A (zh) * 2024-02-28 2024-04-02 山东佰泰丰信息科技有限公司 一种基于大模型的病历质控方法

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003029493A1 (en) * 2001-09-28 2003-04-10 Vitivity, Inc. Diagnosis and treatment of vascular disease
CN106951719A (zh) * 2017-04-10 2017-07-14 荣科科技股份有限公司 临床诊断模型的构建方法及构建系统、临床诊断系统
CN107451407A (zh) * 2017-07-31 2017-12-08 广东工业大学 一种中医智能诊断方法、系统及中医医疗系统
CN113160895A (zh) * 2021-03-31 2021-07-23 青岛泱深生物医药有限公司 一种结直肠癌风险评估模型及系统
CN113159529A (zh) * 2021-03-31 2021-07-23 青岛泱深生物医药有限公司 一种肠道息肉的风险评估模型及相关系统
CN114373546A (zh) * 2021-12-31 2022-04-19 深圳市核子基因科技有限公司 疾病风险评估方法、装置及存储介质
CN114512244A (zh) * 2021-12-09 2022-05-17 广东省人民医院 一种基于深度学习的感染类疾病无创诊断方法
CN115579141A (zh) * 2022-10-21 2023-01-06 浙江工业大学 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
CN115691798A (zh) * 2022-09-13 2023-02-03 云南达远软件有限公司 一种多疾病风险预测模型训练方法
CN115762750A (zh) * 2022-10-18 2023-03-07 南京伟思医疗科技股份有限公司 多手段评估多设备治疗的智能方案生成方法和平台
CN116313096A (zh) * 2023-03-24 2023-06-23 四川天府亨特生命科技有限公司 一种基于血液生理年龄测算的治疗效果评估系统及方法
CN116844685A (zh) * 2023-07-03 2023-10-03 广州默锐医药科技有限公司 一种免疫治疗效果评估方法、装置、电子设备及存储介质
CN117038087A (zh) * 2023-08-28 2023-11-10 上海市浦东医院(复旦大学附属浦东医院) 用于中医肿瘤临床数据的病症建模管理优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3844777A4 (en) * 2018-08-28 2022-05-25 Neurospring MEDICAL DEVICE AND METHODS FOR DIAGNOSIS AND TREATMENT OF DISEASES

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003029493A1 (en) * 2001-09-28 2003-04-10 Vitivity, Inc. Diagnosis and treatment of vascular disease
CN106951719A (zh) * 2017-04-10 2017-07-14 荣科科技股份有限公司 临床诊断模型的构建方法及构建系统、临床诊断系统
CN107451407A (zh) * 2017-07-31 2017-12-08 广东工业大学 一种中医智能诊断方法、系统及中医医疗系统
CN113160895A (zh) * 2021-03-31 2021-07-23 青岛泱深生物医药有限公司 一种结直肠癌风险评估模型及系统
CN113159529A (zh) * 2021-03-31 2021-07-23 青岛泱深生物医药有限公司 一种肠道息肉的风险评估模型及相关系统
CN114512244A (zh) * 2021-12-09 2022-05-17 广东省人民医院 一种基于深度学习的感染类疾病无创诊断方法
CN114373546A (zh) * 2021-12-31 2022-04-19 深圳市核子基因科技有限公司 疾病风险评估方法、装置及存储介质
CN115691798A (zh) * 2022-09-13 2023-02-03 云南达远软件有限公司 一种多疾病风险预测模型训练方法
CN115762750A (zh) * 2022-10-18 2023-03-07 南京伟思医疗科技股份有限公司 多手段评估多设备治疗的智能方案生成方法和平台
CN115579141A (zh) * 2022-10-21 2023-01-06 浙江工业大学 一种可解释疾病风险预测模型构建方法以及疾病风险预测装置
CN116313096A (zh) * 2023-03-24 2023-06-23 四川天府亨特生命科技有限公司 一种基于血液生理年龄测算的治疗效果评估系统及方法
CN116844685A (zh) * 2023-07-03 2023-10-03 广州默锐医药科技有限公司 一种免疫治疗效果评估方法、装置、电子设备及存储介质
CN117038087A (zh) * 2023-08-28 2023-11-10 上海市浦东医院(复旦大学附属浦东医院) 用于中医肿瘤临床数据的病症建模管理优化方法

Also Published As

Publication number Publication date
CN117423451A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
US20190108912A1 (en) Methods for predicting or detecting disease
Peng et al. A novel feature selection approach for biomedical data classification
EP2864920B1 (en) Systems and methods for generating biomarker signatures with integrated bias correction and class prediction
US8515680B2 (en) Analysis of transcriptomic data using similarity based modeling
Zheng et al. Semiparametric estimation of time‐dependent ROC curves for longitudinal marker data
CN117423451B (zh) 一种基于大数据分析的智能分子诊断方法及系统
US20020095260A1 (en) Methods for efficiently mining broad data sets for biological markers
CN111009321A (zh) 一种机器学习分类模型在青少年孤独症辅助诊断中的应用方法
Sushmita et al. Predicting 30-day risk and cost of" all-cause" hospital readmissions
JP2018068752A (ja) 機械学習装置、機械学習方法及びプログラム
EP2864918B1 (en) Systems and methods for generating biomarker signatures
WO2012091093A1 (ja) 緑内障診断チップと変形プロテオミクスクラスター解析による緑内障統合的判定方法
JP7197795B2 (ja) 機械学習プログラム、機械学習方法および機械学習装置
Tanwar et al. Machine Learning in liver disease diagnosis: Current progress and future opportunities
CN112233742B (zh) 一种基于聚类的病历文档分类系统、设备、存储介质
CN117315379B (zh) 面向深度学习的医学影像分类模型公平性评估方法及装置
CN112086130A (zh) 一种基于测序和数据分析的肥胖风险预测装置及其预测方法
Naqvi et al. An Overview of Machine Learning Techniques Focusing on the Diagnosis of Endometriosis
US9734122B2 (en) System, method and computer-accessible medium for evaluating a malignancy status in at-risk populations and during patient treatment management
CN116230193B (zh) 一种智能化医院用档案管理方法及系统
KR102485316B1 (ko) 딥러닝을 활용한 개인의 전체 유전체 데이터와 암 발생과의 연관성 예측에 관한 방법
US20240203521A1 (en) Evaluation and improvement of genetic screening tests using receiver operating characteristic curves
CN117912704B (zh) 一种病毒性肺炎的预测方法、设备、系统
Arumugam et al. An Efficient Tree Based Machine Learning Method To Detect Breast Cancer
CN117809739A (zh) 一种非靶向代谢组学数据批次效应校正效果优劣评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant