CN110957043A - 疾病预测系统 - Google Patents

疾病预测系统 Download PDF

Info

Publication number
CN110957043A
CN110957043A CN201910220632.1A CN201910220632A CN110957043A CN 110957043 A CN110957043 A CN 110957043A CN 201910220632 A CN201910220632 A CN 201910220632A CN 110957043 A CN110957043 A CN 110957043A
Authority
CN
China
Prior art keywords
data
cancer
medical
characteristic data
prediction system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910220632.1A
Other languages
English (en)
Inventor
郭晓方
金敏
刘颖丰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Publication of CN110957043A publication Critical patent/CN110957043A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • General Health & Medical Sciences (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

公开了一种疾病预测系统。该疾病预测系统包括数据整理模块,数据分析模块和数据管理模块。数据整理模块用于对获取的人员的医疗数据进行处理以获得所述人员的医疗特征数据,其中,该医疗特征数据包括血常规特征数据和部分血生化特征数据。数据分析模块用于通过预设分析模型处理所述医疗特征数据,以确定所述人员的癌症预测结果,预设分析模型包括逻辑斯蒂回归模型和相对熵模型中的至少一个。数据管理模块用于管理所述疾病预测系统中的数据。这样,借助于在癌症领域的专业知识,通过选择特定的医疗特征数据并利用数学模型对所述医疗特征数据进行处理,可以确定人员的癌症发病风险。基于此,可对人员进行健康评估和健康干预,以实现癌症的预测和预防。

Description

疾病预测系统
技术领域
本发明总体地涉及医疗数据处理领域,特别是涉及能够对特定的医疗特征数据进行分析以确定人员的特定癌症预测结果的疾病预测系统。
背景技术
目前,癌症是中国人口的主要死亡因素之一,且难以治愈。这里,癌症难以治愈具有多方面的原因。首先,癌症是“内源性疾病”,癌细胞是病人身体的一部分,治疗过程中容易出现“杀敌一千,自损八百”的局面。其次,癌症不是一种单一疾病,而是大量疾病的组合且容易发生转移。癌症治疗的复杂性极高,因为世界上没有两个完全一样的癌症。还有,癌症治疗过程中容易出现耐药性,同样的药物的作用会不断降低。在这些因素中,最为核心的是:对于癌症的机制并没有完全解密。目前为止所有对于癌症的治疗仍留在盲人摸象、管中窥豹的水平,癌症的全貌并没有完全地掌控。
同时,令人沮丧的是,近年来不断有临床结果和评论揭露:对于癌症的精准医疗策略并没有给大多数肿瘤病人带来好处,肿瘤的精准治疗仅仅是一个待证明的假设。一方面,癌症精准治疗之实施有两个难以满足的前提,(1)肿瘤相关的驱动突变在所有癌变细胞中都有,而且针对该突变的药物绝对有效;(2)肿瘤异质性本身可以控制。也就是说,要想实现癌症的精准治疗,药物所针对的靶子不能不停地移动,然而,这不符合癌细胞的特征。
精准治疗的依据为遗传密码学。然而,在当前集全人类的智慧仅能破译遗传密码的3%。这部分属于编码蛋白质的部分,其他97%不属于编码蛋白质的部分,是迄今为止都没有被破译的。因此,精准治疗在当下的技术背景之下,存在着巨大的困难和障碍。
然而,精准治疗却逐渐使医疗健康的概念发生了本质的变化:从医疗健康体系以诊断治疗为主,转变到以健康保证为主。也就是说,在人还没有病的时候,通过了解他(或她)的健康状况,预测其未来的健康发展。这样的医疗体系以健康预测、健康评估和健康干预为目的。
有数据显示,癌症如果发现的早,治愈率非常高。在美国,乳腺癌1期和2期的5年生存率高达89%,综合所有癌症类型和分期,2015年癌症总治愈率也有70%,这里面最主要的原因是病灶发现的早。在2018年全国肿瘤防治宣传周上,有权威院士提出我国肿瘤5年生存率不足发达国家的一半的原因是,我国相当一部分肿瘤患者处于中晚期,到医院治疗时,肿瘤已经发生转移,难以治愈。因此,能否在早期发现或预测肿瘤的发生几率,对控制癌症疫情有至关重要的作用。
目前,已有一些运用医疗数据进行癌症诊断的数据处理方案,但是,这些数据处理方案或多或少存在着一些缺陷,例如,对于癌症机制的认知不够充分,医疗数据量不足、医疗数据来源不够权威等。因此,存在对于一种能够对癌症进行更精准地预测的疾病诊断系统的需求。
发明内容
为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种医疗检测系统,其能够对特定的医疗特征数据进行分析,以确定人员的特定癌症的预测结果,且基于所述预测结果,可对人员进行健康评估和健康干预,以实现癌症的预测和预防。
根据本申请的一方面,提供了一种疾病预测系统,包括:数据整理模块,用于对获取的人员的医疗数据进行处理,以获得所述人员的医疗特征数据,所述医疗特征数据包括血常规特征数据和部分血生化特征数据;数据分析模块,用于通过预设分析模型处理所述医疗特征数据,以确定所述人员的癌症预测结果,所述预设分析模型包括逻辑斯蒂回归模型和相对熵模型中的至少一个;以及数据管理模块,用于管理所述疾病预测系统中的数据。
在上述疾病诊断系统中,所述血常规特征数据包括红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均血红蛋白含量、平均血红蛋白浓度、红细胞分布宽度变异系数、红细胞分布宽度标准差、白细胞计数、中性粒细胞数、中性粒细胞占比、淋巴细胞比值、淋巴细胞绝对值、单核细胞比值、单核细胞绝对值、嗜酸性例细胞比值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、嗜碱性粒细胞比值、血小板、平均血小板体积、血小板容积分布宽度和血小板比容中的一种或任意几种。
在上述疾病诊断系统中,部分血生化特征数据包括所述血生化特征数据选自由丙氨酸氨基转移酶、天门冬氨酸氨基转移酶、R-谷氨酰转肽酶、总胆固醇、甘油三脂、高密度脂蛋白胆固醇、低密度脂蛋白固醇、尿酸、肌酐、尿酸、空腹血糖、载脂蛋白和总胆红素中的一种或任意几种。
在上述疾病诊断系统中,所述医疗特征数据进一步包括其他血生化特征数据,且其他血生化特征数据包括超敏C反应蛋白、乳酸脱氢酶、总胆汁酸、碱性磷酸酶、α-L-岩藻糖苷酶、β2-微球蛋白、总蛋白和白蛋白中的一种或任意几种。
在上述疾病诊断系统中,所述医疗特征数据进一步包括尿常规特征数据,且所述尿常规特征数据包括比重、酸碱值、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或任意几种。
在上述疾病诊断系统中,所述医疗特征数据进一步包括肿瘤标记物特征数据,且所述肿瘤标记物特征数据包括甲胎蛋白、糖类抗原123、糖类抗原15-3、糖类抗原19-9、糖类抗原72-4、癌坯抗原、细胞角蛋白19、铁蛋白、神经元特异烯醇化酶和前列腺特异性抗原中的一种或任意几种。
在上述疾病诊断系统中,所述医疗特征数据进一步包括血流变特征数据,且所述血流变特征数据包括血粘度、还原粘度、相对粘度、血浆粘度、红细胞压积、红细胞沉降率和血沉方程k值中的一种或任意几种。
在上述疾病诊断系统中,所述医疗特征数据进一步包括基因检测特征数据。
在上述疾病诊断系统中,所述医疗特征数据进一步包括人员身份特征数据,且所述人员身份特征数据包括所述人员是否吸烟、所述人员是否喝酒、所述人员的年龄和所述人员的性别中的一种或任意几种。
在上述疾病诊断系统中,所述特定癌症包括肺癌、肝癌、胃癌、食管癌、肠癌、乳腺癌、宫颈癌、肾癌、胰腺癌、甲状腺癌、前列腺癌、卵巢癌、皮肤癌、骨癌、膀胱癌、脑癌和鼻咽癌中的一种或任意几种。
在上述疾病诊断系统中,所述数据整理模块包括数据清洗单元和有效性分析单元,且所述数据清洗单元用于对经过标准化处理之后的所述医疗数据进行清洗,所述有效性分析单元用于计算经过标准化处理和清洗处理之后的所述医疗数据的有效性。
在上述疾病诊断系统中,所述数据整理模块包括数据分类单元,用于对经过标准化处理、清洗处理和有效性分析处理之后的所述医疗数据进行分类。
在上述疾病诊断系统中,所述数据整理模块包括特征提取单元,用于从经过分类之后的所述医疗数据中获得所述人员的所述医疗特征数据。
在上述疾病诊断系统中,所述数据分析模块包括模型优化单元,用于对各所述预设分析模型进行有效性验证和合理性验证,以基于有效性验证和合理性验证结果对各所述预设分析模型进行优化。
在上述疾病诊断系统中,各所述预设分析模型通过针对已知数据集进行训练获得,其中,所述已知数据集包括未患有该特定癌症的对象的医疗数据以及患有该特定癌症的对象的医疗数据。
在上述疾病诊断系统中,所述数据管理模块包括模型升级通告单元,用于输出对应预设分析模型的升级通知。
在上述疾病诊断系统中,所述数据管理模块包括癌症趋势性预测报告生成单元,用于基于各预设分析模型所生成的癌症检测结果,生成癌症趋势性预测报告。
在上述疾病诊断系统中,所述数据管理模块包括癌症风险趋势性预测知识生成单元,用于基于各预设分析模型所生成的癌症检测结果和所采集的所述医疗数据和所述医疗特征数据,生成癌症风险趋势性预测知识。
本申请提供的疾病预测系统可以有效地对特定的医疗特征数据进行分析,以确定人员的特定癌症预测结果,从而可基于所述结果对人员进行健康评估和健康干预,以控制癌症的预测和预防。
附图说明
从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:
图1图示了根据本申请实施例的疾病预测系统的框图。
图2图示了根据本申请实施例的预设分析模型的训练过程的流程图。
图3图示了根据本申请实施例的融合风险判别模型的使用过程的示意图。
图4图示了根据本申请实施例的疾病预测系统的具体示例。
图5图示了根据本申请实施例的疾病预测系统的操作流程示例的示意图。
具体实施方式
下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。
申请概述
如上所述,目前,已有一些利用大数据进行癌症诊断的数据处理方案,但是,这些数据处理方案或多或少存在着一些缺陷,例如,对于癌症机制的认知不够充分,医疗数据量不足、医疗数据来源不够权威等。
第一种常见的癌症诊断的方案为基因筛查,即,通过对基因检测项进行数据分析,以确定人员的癌症发病几率。这种方案显然对癌症机制的认知不够充分。首先,欧洲临床肿瘤学会在2012年年会的新闻发布会上向全球宣布,“基因是引发癌症的主要原因”的说法是谬论。同时,大量的研究证明90%-95%的癌症是由生活方式和吸烟造成的,只有5-8%的癌症与遗传有关。还有,在当前集全人类的智慧仅能破译遗传密码的3%。这部分属于编码蛋白质的部分,其他97%不属于编码蛋白质的部分,是迄今为止都没有被破译的。
第二种常见的方案是基于肿瘤标志物的癌症诊断方案,即,通过对癌症标志物进行数据分析,以确定人员的癌症发病几率。然而,在健康人群中做肿瘤标志物的筛查,纯属滥用。国际医学检验学领域最权威的学术组织美国全国临床生物化学学会(NACB)于2008年和2010年分别制定了睾丸癌、前列腺癌、直肠癌、乳腺癌、卵巢癌、肝癌、膀胱癌、宫颈癌和胃癌的肿瘤标志物使用指南。在这些指南中明确指出,肿瘤标志物不适合用于普通人群的肿瘤筛查。
实际上,肿瘤标志物主要应用于中晚期癌症的治疗效果和术后观察,其并不适合早期癌症筛查。肿瘤标志物存在敏感度、特异度低的缺陷。敏感度低,会造成无法发现癌症或将患有癌症的病人诊断为“正常”。特异度低,会存在“假阳性”,即,将健康的人误判为癌症,令人陷入恐慌。
因此,在实际应用中,现有的用于诊断癌症的数据处理方案常常会遇预测精度不高,误判率过高,预测不全等缺陷,难以满足当下“健康医疗”的发展需求。
相应地,针对上述技术需求,本申请的基本构思是基于癌症领域的专业知识和最新研究结论,选择特定的医疗特征数据作为癌症筛查的指标,并利用数据分析模型对所述医疗特征数据进行处理,以确定被检测对象的癌症发病几率。基于此,可对人员进行健康评估和健康干预,以控制癌症疫情,满足当下“健康医疗”的发展需求。
更具体地,近年来不断有研究表明,常规血液检测是预测癌症发生的一个重要指标。大量研究结果显示,癌症患者和健康人的血液指标存在明显差异。因此,在本申请的基本构思中,所述特定医疗特征数据至少包括常规血液检测数据,并利用数据分析模型进行多维度分析与深度挖掘,以确定被检测对象的癌症发病几率,从而提供早期癌症预警机制。
基于此,本发明提供一种疾病预测系统,包括数据整理模块,数据分析模块和所述数据管理模块;所述数据管理模块用于对获取的人员的医疗数据进行处理,以获得所述人员的医疗特征数据,所述医疗特征数据包括血常规特征数据和部分血生化特征数据;所述数据分析模块用于通过预设分析模型处理所述医疗特征数据,确定所述人员在特定癌症的预测结果,所述预设分析模型包括逻辑斯蒂回归模型和相对熵模型中的至少一个;所述数据管理模块用于管理所述疾病预测系统中的数据,所述数据管理模块包括模型整合单元,用于整合各所述预设分析模型以收集各所述预设分析模型生成的特定癌症的预测结果。这样,借助于在癌症领域的专业知识,选择特定的医疗特征数据,并利用数学模型对所述医疗特征数据进行处理,以确定被检测对象的癌症发病几率。基于此,可对人员进行健康评估和健康干预,以控制癌症疫情。
在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。
示意性疾病预测系统
图1图示了根据本申请实施例的疾病预测系统的框图。如图1所示,根据本申请实施例的疾病预测系统100,包括数据整理模块110,数据分析模块120和数据管理模块130。在本申请实施例中,所述数据整理模块110用于对获取的人员的医疗数据进行处理,以获得所述人员的医疗特征数据,这里,所述医疗特征数据包括血常规特征数据和部分血生化特征数据。所述数据分析模块120用于通过预设分析模型处理所述医疗特征数据,以确定所述人员的癌症预测结果,所述预设分析模型包括逻辑斯蒂回归模型和相对熵模型中的至少一个。所述数据管理模块130用于管理所述疾病预测系统中的数据,例如,医疗数据、医疗特征数据和疾病预测结果数据等。
应注意到,在本申请实施例的所述疾病预测系统100中,所述医疗特征数据包括血常规特征数据和部分血生化特征数据。也就是说,在本申请实施例中,所述医疗疾病诊断系统利用包含血常规特征数据和部分血生化特征数据的医疗特征数据进行癌症筛查。选择这两项特征数据的背后有充分的癌症领域相关知识和最新研究结论的支持。
更具体地,在本申请实施例中,所述血常规特征数据包括红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均血红蛋白含量、平均血红蛋白浓度、红细胞分布宽度变异系数、红细胞分布宽度标准差、白细胞计数、中性粒细胞数、中性粒细胞占比、淋巴细胞比值、淋巴细胞绝对值、单核细胞比值、单核细胞绝对值、嗜酸性例细胞比值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、嗜碱性粒细胞比值、血小板、平均血小板体积、血小板容积分布宽度和血小板比容中的一种或任意几种。部分血生化特征数据包括丙氨酸氨基转移酶、天门冬氨酸氨基转移酶、R-谷氨酰转肽酶、总胆固醇、甘油三脂、高密度脂蛋白胆固醇、低密度脂蛋白固醇、尿酸、肌酐、尿酸、空腹血糖、载脂蛋白和总胆红素中的一种或任意几种。
在具体实施中,可选择将所有的血常规特征数据项和所有的部分生化特征数据项作为所述医疗特征数据,输入至所述预设分析模型,并通过所述预设分析模型处理所述医疗特征数据,以获得所述人员在特定癌症的发病几率。当然,在本申请另外的实施例中,可选择部分血常规特征数据项以及部分生化特征数据项中的一部分作为所述医疗特征数据。对此,并不为本申请实施例所限制。
值得一提的是,所述医疗特征数据所包含的数据项影响着所述预设分析模型的模型复杂度和计算量。因此,在实际应用中,可基于特定癌症领域的专业知识进一步对血常规特征数据项和部分生化特征数据项做出筛选,以降低数据处理与挖掘难度。
在本申请实施例中,用于处理所述医疗特征数据的所述预设分析模型部署于所述数据分析模块中。在接收到所述医疗特征数据之后,所述预设分析模型依据特定算法对所述医疗特征数据进行处理,以确定所述人员的癌症预测结果。特别地,在本申请实施例中,所述癌症检测结果包括所述人员在特定癌症的发病几率,其中所述特定癌症为肺癌、肝癌、胃癌、食管癌、肠癌、乳腺癌、宫颈癌、肾癌、胰腺癌、甲状腺癌、前列腺癌、卵巢癌、皮肤癌、骨癌、膀胱癌、脑癌和鼻咽癌中的任意一种。
在具体实施中,所述预设分析模型可为用于预测某一特定癌症发病几率的回归模型(线性回归模型或逻辑斯蒂回归模型)或者其它模型。例如,所述预设分析模型可为肺癌分析模型,其在接收到所述医疗特征数据之后,对所述医疗特征数据进行处理,以确定所述人员的肺癌的发病几率。
或者,所述预设分析模型为能够预测所有癌症发病几率的回归模型(线性回归模型或逻辑斯蒂回归模型),例如,所述预设分析模型可为用于预测某一特定癌症发病几率的回归模型之组合。也就是说,所述预设分析模型可被实施为多元回归模型。在接收到所述医疗特征数据之后,所述预设分析模型能够生成所有癌症发病几率的预测结果。对此,并不为本申请实施例所限制。
在具体模型选择中,用于预测单一癌症发病几率的所述预设分析模型可以是逻辑斯蒂回归模型,例如,基于SVM(支持向量机)的逻辑斯蒂回归模型,基于深度神经网络的逻辑斯蒂回归模型等。对此,并不为本申请实施例所限制。
具体地,逻辑斯蒂回归模型是一种监督式的分类算法,其是广义线性模型(GLM)的一种,通过sigmoid函数对数据特征进行分类,具有简单高效的特点。逻辑回归可以理解为多元线性回归和应设函数sigmoid函数的组合。其中sigmoid函数的表达式如下:
Figure BDA0002003496130000081
当F(x)>0.5时,将该样本x判定为正例;反之,将样本判定为负例。在本申请实施例中,将具有癌症风险的人当做正例,正常人当做负例。
给定n个待检客户,每个客户有m项体检数据,则选取了n个m维的样本数据,用m×n的矩阵X来表示以上数据。其中,X=[x1;···;xn]。用n×1的向量Y表示样本的类别(1为癌症风险,0为正常)。
这里,sigmoid函数实际上表示的是逻辑斯蒂回归模型通过样本数据xi预测的样本为正例的条件概率P(Yi=1|xi)。但在使用逻辑实体回归模型时,需要通过对训练集的数据进行训练得到参数向量w的取值,之后才能对新的数据集进行测试,例如,可使用最大似然估计的方法求解参数向量w。
因此,在所述预设分析模型投入服务之前,需对所述预设分析模型进行训练。特别地,在本申请实施例中,所述预设分析模型通过针对已知数据集进行训练获得,其中,所述已知数据集包括未患有该特定癌症的人员的医疗数据以及患有该特定癌症的人员的医疗数据。换言之,在本申请实施例中,所述预设分析模型的机器学习模式为半监督式学习。
这里,以所述预设分析模型为用于预测单一癌症发病几率的逻辑斯蒂回归模型为示例,说明所述预设分析模型的训练过程。其训练过程,首先包括构建训练集,其中,所述数据集可分为两类,一类为未患有该特定癌症的对象的医疗数据,另一类为患有该特定癌症的对象的医疗数据。为了增强数据集的表示能力,应尽量从更多的数据源采集所述训练集。在本申请实施例中,所述训练集的数据来源包括国家认可的医疗机构(包括:医院、体检中心、健康养老机构、社区诊所)的LIS(Laboratory Information System,实验室信息系统)或HIS系统(Hospital Management Information System,医院管理信息系统)、个人提供的检查报告等。
应理解,从各源头所采集的原始数据存在一定的差异,不能直接作为训练集。这些差异具体表现在:第一,不同医疗机构针对同一项目常规检查报告,数据项总数可能不一致,即,数据项目标准缺乏统一性;第二,不同医疗机构针对同一项目的常规检查报告,各个检测项排列顺序不一致,即,数据项目排序缺乏一致性;第三,不同医疗机构同一项目常规检查报告,检测项计量单位存在差异,即,数据项计量缺乏一致性。
针对于上述问题,需对获取的所述原始数据进行标准化处理,以构建所述训练集。在本申请实施例中,所述标准化的过程包括步骤:首先以特定键值作为关联规则对所述医疗数据进行编码。例如,可针对原始数据资源进行采集来源(具体医院或机构)、采集日期进行标注、编码,其中,所述编码的规则可被实施为以医疗机构所在地为基础的编码体系,并另外增设两位识别码以防同一地区出现多个医疗机构以示区别。当然,本领域的技术人员应理解,在本申请另外的实施例中,可采用其他关联规则对所述医疗数据进行编码,仅需所述关联规则能够作为对应医疗数据的唯一标识即可。对此,并不为本申请实施例所限制。
在对所述医疗数据进行编码之后,进一步对所述医疗数据进行规范化处理。其过程为:首先将原始医疗数据项按规定的顺序进行排列;进而,对缺项数据进行填补,缺项严重的数据将之剔除;最后,针对原始数据计量单位不统一的问题进行单位统一化处理。
进一步地,对经过标准化处理之后的所述医疗数据进行清洗,并对标准化处理和清洗处理之后的所述医疗数据的有效性进行验证。这样,在将经过有效性验证合格之后的所述医疗数据进行分类归档之后,便获得所述训练集。
值得一提的是,为了优化所述预设分析模型的性能,所述训练集中未患有该特定癌症的人员的医疗数据与患有该特定癌症的人员的医疗数据之间应具有合适的比例,例如,该比例可设置为1:1。同时,在利用所述训练集对所述预设分析模型进行训练的过程中,可以按照另一比例,例如7:3的比例将数据集进一步划分为训练集与测试集,用来训练所述预设分析模型。这样,当所述预设分析模型的癌症预测准确率达到预设阈值(例如,准确率超过80%)时,则所述预设分析模型达到建模的预期目的。进一步地,需对达到预期建模目的所述预设分析模型进行随机性验证性考核,当测评效果达到预期目的(例如,测评准确率达到75%),则所述预设分析模型达到测评目标。此时,所述预设分析模型为能够有效且可靠地用于预测单一癌症发病几率的数学模型。
此外,在所述预设分析模型的实际使用中,可通过新增的检测数据对所述预设分析模型进行优化。例如,可通过新增的检测数据对所述预设分析模型进行有效性验证和合理性验证,以基于有效性验证和合理性验证结果对所述预设分析模型进行优化。此外,还通过其他方式对所述预设分析模型进行优化,例如,利用Pocket算法对所述预设分析模型进行优化。对此,并不为本申请实施例所限制。
图2图示了根据本申请实施例的预设分析模型的训练过程的流程图。如图2所示,根据本申请实施例的预设分析模型的训练过程包括步骤:S210,从各数据源获得原始医疗数据,S220,对所述原始医疗数据进行标准化处理,其中,该标准化处理过程包括:以特定键值作为关联规则对所述原始医疗数据进行编码;对编码之后的所述原始医疗数据中缺项数据进行补充,或者,将缺项数超过特定比例的所述原始医疗数据删除;以及,统一所述原始医疗数据中各数据项的计量单位,S230,对经过标准化处理之后的所述原始医疗数据进行清洗,S240,对经过清洗处理之后的所述原始医疗数据进行有效性验证;S250,对经过标准化处理、清洗处理和有效性分析处理之后的所述医疗数据进行分类,以获得所述训练集;以及S260,利用所述训练集对所述预设分析模型进行训练。
相应地,如图1所示,在本申请实施例中,所述数据整理模块110包括标准化处理单元111,用于对所述医疗数据(包括原始医疗数据和所述人员的医疗数据)进行标准化处理,其中,所述标准化处理的过程包括:以特定键值作为关联规则对所述医疗数据进行编码;对编码之后的所述医疗数据中缺项数据进行补充,或者,将缺项数超过特定比例的所述医疗数据删除;以及,统一所述医疗数据中各数据项的计量单位。
相应地,如图1所示,在本申请实施例中,所述数据整理模块110包括数据清洗单元112和有效性分析单元113,其中,所述数据清洗单元用于对经过标准化处理之后的所述医疗数据进行清洗,且所述有效性分析单元,用于计算经过标准化处理和清洗处理之后的所述医疗数据的有效性。
相应地,如图1所示,在本申请实施例中,所述数据整理模块110包括数据分类单元114,用于对经过标准化处理、清洗处理和有效性分析处理之后的所述医疗数据进行分类。
相应地,如图1所示,在本申请实施例中,所述数据整理模块110包括特征提取单元115,用于从经过分类之后的所述医疗数据中获得所述人员的所述医疗特征数据。
相应地,如图1所示,在本申请实施例中,所述数据分析模块120包括模型优化单元121,用于对各所述预设分析模型进行有效性验证和合理性验证,以基于有效性验证和合理性验证结果对各所述预设分析模型进行优化。
如上所述,在本申请实施例中,所述医疗特征数据包括血常规特征数据和部分血生化特征数据,以及,所述预设分析模型为用于处理所述血常规特征数据和部分所述血生化特征数据以预测某一特定癌症发病几率的逻辑斯蒂回归模型或者用于预测所有癌症发病几率的逻辑斯蒂回归模型。为了优化所述疾病预测系统的对于癌症预测的性能,在本申请该实施例中,可通过进一步地增加额外的特征数据维度并匹配与之对应的分析模型的方式来提高所述疾病预测系统的综合性能。
更具体地,在本申请实施例中,所述医疗特征数据可进一步地包括其他的血生化数据,且其他血生化特征数据包括超敏C反应蛋白、乳酸脱氢酶、总胆汁酸、碱性磷酸酶、α-L-岩藻糖苷酶、β2-微球蛋白、总蛋白和白蛋白中的一种或任意几种。换言之,在本申请实施例中,所述预设分析模型为用于处理所述血常规特征数据和所述血生化特征数据(包括部分所述血生化特征数据和其他所述血生化数据)以预测某一特定癌症发病几率的模型或者用于预测所有癌症发病几率的模型。为了便于理解和说明,在本申请实施例中,将对应于所述血常规特征数据和全部所述血生化特征数据的所述预设分析模型定义为第二预设分析模型,且所述第二预设分析模型用于处理所述血常规特征数据和全部所述血生化特征数据,以获得人员在特征癌症的发病几率或所有癌症的发病几率。
应理解,所述第二预设分析模型的模型架构与训练过程与所述预设分析模型大体一致,故在此不再赘述。
可选地,在本申请实施例中,所述医疗特征数据可进一步地包括尿常规特征数据,且所述尿常规特征数据包括比重、酸碱值、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或任意几种。相应地,在本申请实施例中,所述预设分析模型为用于处理所述血常规特征数据、所述血生化特征数据(包括部分所述血生化特征数据和其他所述血生化数据)和所述尿常规特征数据,以预测某一特定癌症发病几率的模型或者用于预测所有癌症发病几率的模型。为了便于理解和说明,在本申请实施例中,将对应于所述血常规特征数据、全部所述血生化特征数据和所述尿常规特征数据的所述预设分析模型定义为第三预设分析模型,且所述第三预设分析模型用于处理所述血常规特征数据、全部所述血生化特征数据和所述尿常规特征数据,以获得人员在特征癌症的发病几率或所有癌症的发病几率。
应理解,所述第三预设分析模型的模型架构与训练过程与所述预设分析模型和所述第二预设分析模型大体一致,故在此不再赘述。
可选地,在本申请实施例中,所述医疗特征数据可进一步地包括肿瘤标记物特征数据,且所述肿瘤标记物特征数据包括甲胎蛋白、糖类抗原123、糖类抗原15-3、糖类抗原19-9、糖类抗原72-4、癌坯抗原、细胞角蛋白19、铁蛋白、神经元特异烯醇化酶和前列腺特异性抗原中的一种或任意几种。相应地,在本申请实施例中,所述预设分析模型为用于处理所述血常规特征数据、所述血生化特征数据(包括部分所述血生化特征数据和其他所述血生化数据)、所述尿常规特征数据和所述肿瘤标记物特征数据,以预测某一特定癌症发病几率的模型或者用于预测所有癌症发病几率的模型。为了便于理解和说明,在本申请实施例中,将对应于所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据和所述肿瘤标记物特征数据的所述预设分析模型定义为第四预设分析模型,且所述第四预设分析模型用于处理所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据和所述肿瘤标记物特征数据,以获得人员在特征癌症的发病几率或所有癌症的发病几率。
应理解,所述第四预设分析模型的模型架构与训练过程与所述预设分析模型、所述第二预设分析模型和所述第三预设分析模型大体一致,故在此不再赘述。
可选地,在本申请实施例中,所述医疗特征数据可进一步地包括血流变特征数据,且所述血流变特征数据包括血粘度、还原粘度、相对粘度、血浆粘度、红细胞压积、红细胞沉降率和血沉方程k值中的一种或任意几种。相应地,在本申请实施例中,所述预设分析模型为用于处理所述血常规特征数据、所述血生化特征数据(包括部分所述血生化特征数据和其他所述血生化数据)、所述尿常规特征数据、所述肿瘤标记物特征数据和所述血流变特征数据,以预测某一特定癌症发病几率的模型或者用于预测所有癌症发病几率的模型。为了便于理解和说明,在本申请实施例中,将对应于所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据、所述肿瘤标记物特征数据和所述血流变特征数据的所述预设分析模型定义为第五预设分析模型,且所述第五预设分析模型用于处理所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据、所述肿瘤标记物特征数据和所述血流变特征数据,以获得人员在特征癌症的发病几率或所有癌症的发病几率。
应理解,所述第五预设分析模型的模型架构与训练过程与所述预设分析模型、所述第二预设分析模型、所述第三预设分析模型和所述第四预设分析模型大体一致,故在此不再赘述。
可选地,在本申请实施例中,所述医疗特征数据进一步包括基因检测特征数据,例如基因序列等。相应地,在本申请实施例中,所述预设分析模型为用于处理所述血常规特征数据、所述血生化特征数据(包括部分所述血生化特征数据和其他所述血生化数据)、所述尿常规特征数据、所述肿瘤标记物特征数据、所述血流变特征数据和所述基因检测特征数据,以预测某一特定癌症发病几率的模型或者用于预测所有癌症发病几率的模型。为了便于理解和说明,在本申请实施例中,将对应于所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据、所述肿瘤标记物特征数据、所述血流变特征数据和所述基因检测特征数据的所述预设分析模型定义为第六预设分析模型,且所述第六预设分析模型用于处理所述血常规特征数据、全部所述血生化特征数据、所述尿常规特征数据、所述肿瘤标记物特征数据、所述血流变特征数据和所述基因检测特征数据,以获得人员在特征癌症的发病几率或所有癌症的发病几率。
应理解,所述第六预设分析模型的模型架构与训练过程与所述预设分析模型、所述第二预设分析模型、所述第三预设分析模型、所述第四预设分析模型和所述第五预设分析模型大体一致,故在此不再赘述。
当所述预设分析模型,所述第二预设分析模型、所述第三预设分析模型、所述第四预设分析模型、所述第五预设分析模型和所述第六预设分析模型同时为用于预测某一特定癌症发病几率的模型时,在具体实施中,可选择上述6种预设分析模型所获得该特定癌症的发病几率中的最高值,作为最终的所述人员在特定癌症的检测结果。应理解,在具体实施中,同样可采用其他方式对上述6种预设分析模型所获得该特定癌症的发病几率进行处理,以确定最终所述人员在特定癌症的检测结果,例如,取平均值的方式。对比,并不为本申请所局限。
相应地,当所述预设分析模型,所述第二预设分析模型、所述第三预设分析模型、所述第四预设分析模型、所述第五预设分析模型和所述第六预设分析模型为用于预测不同特定癌症发病几率的模型时,在具体实施中,收集上述6种预设分析模型所获得不同特定癌症的发病几率,便能够获得6种癌症的检测结果。
当所述预设分析模型,所述第二预设分析模型、所述第三预设分析模型、所述第四预设分析模型、所述第五预设分析模型和所述第六预设分析模型同时为能够预测所有癌症发病几率的模型时,在具体实施中,可选择所述预设分析模型,所述第二预设分析模型、所述第三预设分析模型、所述第四预设分析模型、所述第五预设分析模型和所述第六预设分析模型中任一模型所输出的检测结果作为所述人员最终的癌症检测结果。
应理解,在具体实施中,同样可采用其他方式对上述6种预设分析模型所获得所有特定癌症的发病几率进行处理,以确定最终所述人员在特定癌症的检测结果,例如,取各癌症发病几率的平均值。对此,并不为本申请实施例所限制。
并且,本领域技术人员可以理解,所述医疗特征数据可以进一步包括人员身份特征数据,例如,所述人员身份特征数据可以包括所述人员是否吸烟、所述人员是否喝酒、所述人员的年龄和所述人员的性别中的一种或任意几种。此外,所述人员身份特征数据可以包括所述人员的身高、体重等其它与人员身份相关联的数据。
此外,在本申请实施例中,所述预设分析模型还可以采用各种统计模型,比如相对熵模型,以用于对正常人和癌症患者的所述医疗特征数据进行分析,挖掘出癌症患者在某些特征数据上的异常。
这里,相对熵模型用于首先获取正常人的所述医疗特征数据的平均值向量。然后,对于所有的数据样本(包括正常人样本和癌症病人样本),每项数据(即,指标)都减去平均值向量中该项数据对应的数值,得到相对值。然后对每个病人的每项数据的相对值形成的概率分布求信息熵。因此,该信息熵实际上是基于正常人平均值参考向量计算出的,因此可以作为相对熵指标用于风险评估。
这里,相对熵模型是一种基于参考数据集求数据特征差值的信息熵方法,它首先提取出参考数据集的特征,然后对于其他的数据提取相对于参考数据集的特征,进而通过信息熵方法将微观的差异进行放大,从而达到在宏观尺度下区分不同特征数据的效果。
在本申请实施例中,例如,给定n个待检客户,每个客户有m项体检数据,则选取了n个m维的样本数据,用m×n的矩阵X来表示以上数据。其中,X=[x1,···,xn]。则可得参考数据集均值向量为:
Figure BDA0002003496130000151
对于n′个m′的样本数据,用m′×n′的矩阵X′来表示该数据。其中,X′=[x'1,···,x'n]。则定义每个样本相对于参考数据集均值特征的向量为
Figure BDA0002003496130000152
由于x'Ri是一个m维的向量,所以对于该向量中的每一维特征x'Ri(j),j=1,2,···,m′,首先假设它们是独立同分布的,然后就可以用频率近似概率得到该向量所对应的概率分布p。
接下来,可以对概率分布p按照如下公式求取信息熵:
Figure BDA0002003496130000161
这样,通过获取正常人的医疗特征数据作为相对参考数据集,并获取样本数据的数据特征的信息熵,就可以作为区分正常人和癌症病人的一个指标。
例如,在实际预测过程中,将相对熵的阈值设置为2.75,也就是说,如果用户的数据样本由相对熵模型计算的结果大于2.75,则认为用户具有患癌症风险。
另外,在本申请实施例中,为了提高所述预设分析模型的模型精度,还可以采用融合风险判别模型,即,在逻辑斯蒂回归模型和相对熵模型的结果的基础上做的进一步融合及分类,例如,可以分别对逻辑斯蒂回归模型得到的患癌症的风险概率和相对熵模型得到的相对熵指标进行非线性变换,进而加权求和得到最终的融合风险判别指标。
图3图示了根据本申请实施例的融合风险判别模型的使用过程的示意图。如图3所示,在模型的训练过程中,首先对原始数据进行预处理和归一化以获得归一化数据。然后,进行逻辑回归模型训练以确定模型参数,得到训练样本分类概率,同时进行相对熵模型计算以得到训练样本相对熵,最后通过融合风险判别模型得到训练样本的癌症风险指数。
进一步如图3所示,在模型的预测过程,即癌症风险的评估过程中,首先对原始数据进行预处理和归一化以获得归一化数据。然后,进行逻辑回归模型预测以得到检验样本的分类概率,同时进行相对熵模型计算以得到检验样本相对熵,最后通过融合风险判别模型得到检验样本的癌症风险指数。
当然,本领域技术人员可以理解的是,在所述预设分析模型的实际使用过程中,不仅限于对正常人和癌症病人进行简单的二元区分,还可以设置多个数值区间,以对人群进行进一步的细分。例如,可以将正常人划分为低癌症风险人群和高癌症风险人群。也就是说,根据本申请实施例的疾病预测系统不仅可以获得是否发生癌症的预测结果,还可以向用户提供与癌症有关的风险指数,从而便于用户进行健康管理。
值得一提的是,在所述疾病预测系统运行的过程中,会接收、储存、产生大量的数据,如何管理这些数据对于所述疾病预测系统而言具有重要意义。
在本申请实施例中,所述数据管理模型可利用各预设分析模型所生成的癌症检测结果,生成癌症趋势性预测报告,以便于待检测者能够及时且清楚地了解自身的身体状况。优选地,在该预测报告中,可选择适宜的方式展示所述癌症检测结果。例如,可通过分级的方式展示所述癌症检测结果:当癌症发病几率低于第一阈值时,展示为无风险,当癌症发病几率高于第一阈值小于第二阈值时,展示为低风险,当癌症发病几率高于第二阈值时,展示为高风险。同时,在该预测报告中,可基于癌症检测结果增加制式化的提醒信息。例如,当检测结果为高风险时,提醒待检测者要注意改善生活习惯、少抽烟喝酒,并过一定时间之后进行复查等。对此,并不为本申请所限制。
相应地,所述数据管理模型还可以对各所述预设分析模型进行管理,例如,输出对应预设分析模型的升级通知,输出各预设分析模型的状态信息等。对此,并不为申请所局限。
相应地,所述数据管理模块还可以利用各预设分析模型所生成的癌症检测结果和所采集的所述医疗数据和所述医疗特征数据,生成癌症风险趋势性预测知识。这些知识对于与癌症相关指南的指定、癌症知识的普及具有重要意义。
相应地,如图1所述,在本申请实施例中,所述数据管理模块130包括模型升级通告单元131,用于输出对应预设分析模型的升级通知;癌症趋势性预测报告生成单元132,用于基于各预设分析模型所生成的癌症检测结果,生成癌症趋势性预测报告;以及,癌症风险趋势性预测知识生成单元133,用于基于各预设分析模型所生成的对应癌症的发病几率和所采集的所述医疗数据和所述医疗特征数据,生成癌症风险趋势性预测知识。
这里,应领会的是,虽然在上文中,以所述疾病预测系统包括上述功能模块为示例。本领域的技术人员应可以理解,所述疾病预测系统还可以包括其他功能模块,用于实现其他适宜的功能。对此,本申请不作限制。
图4图示了根据本申请实施例的疾病预测系统的具体示例。如图4所述,所述疾病预测系统为通过血常规特征数据进行癌症预测的系统。其运行过程主要包括:首先从Web端或移动终端(例如,平板电脑或智能手机)同步或异步地获得人员的血常规检测数据;该血常规检测数据在经过标准化处理之后,被导入至数据库;在数据库中,所述血常规数据经历了数据清洗和有效性验证等操作。在经过数据库的处理之后,便能够从所述血常规数据中获得血常规特征数据;所述血常规特征数据进一步被输入至经过训练的预设分析模型中,这样,经过处理便能够获得所述人员的癌症检测结果。
在该具体示例中,所述疾病预测系统的所述预设分析模型能通过新增的所述人员的血常规数据进行优化。优化的方式为:通过所述血常规特征数据对所述预设分析模型进行有效性验证和合理性验证,并基于有效性验证和合理性验证的结果,对所述预设分析模型进行优化。
在该具体实施中,所述疾病预测系统同样集成数据管理的功能。该数据管理的功能包括,生成癌症趋势性预测报告、生成癌症风险趋势性预测知识库,以及生成模型升级通告等。
图5图示了根据本申请实施例的疾病预测系统的操作流程示例的示意图。如图5所示,该操作流程主要包括身份认证与鉴权、数据采集、数据预处理、模型训练分析建模、风险评估、报告查询打印等。
首先,在身份认证与鉴权过程中,用户登录系统,系统后台对用户身份认证鉴权,不同身份分别授予不同级别的操作权限。具体地,个人用户可以提交修改个人信息与体检数据的录入,且可以查询、下载、打印自己的评估报告。机构用户可以批量查询、下载、打印授权本机构授权客户的评估报告。系统操作员可修改个人、机构客户信息,可批量录入、修改体检数据,可批量查询、下载、打印客户评估报告。系统管理员包含系统操作员所有权限,可对不同角色授权。
在数据采集过程中,例如可进行数据自动采集和数据手动采集。其中,数据自动采集指的是向医院、体检机构开放数据访问接口,连接互联网,系统自动提取参与预测人员的体检数据。数据手动采集指的是个人可通过台式机、笔记本电脑浏览器、pad、手机等多种设备登录本疾病预测评估系统,自助录入提交个人体检数据。此外,医院IT工作人员也可以将体检者电子版体检数据(例如,TXT、CSV或XLS文件格式)打包,以电子邮件形式发送指定电子邮箱。体检报告例如可以以OCR扫描、辅以人工校验的方式录入数据库。
数据预处理过程,模型训练分析建模过程和风险评估过程已经在上面进行了详细说明,这里不再赘述。
最后,在报告查询打印过程中,用户可登录系统,查询、下载、打印疾病风险评估报告。
值得一提的是,根据本申请实施例的疾病预测系统可以实现在各种终端设备中,例如用于疾病检测的服务器中。在一个示例中,根据本申请实施例的所述疾病预测系统可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,所述疾病预测系统可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,所述疾病预测系统同样可以实现为该终端设备的众多硬件模块之一。
此外,根据本申请实施例的所述疾病预测系统还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行上面所述的根据本申请实施例的疾病预测系统的功能。
所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如Python、Java、JavaScript、C++等,还包括常规的其它程序设计语言,诸如SQL、C等语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。
此外,本申请实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述部分中描述的根据本申请实施例的疾病预测系统的功能。
所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。
本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (18)

1.一种疾病预测系统,包括:
数据整理模块,用于对获取的人员的医疗数据进行处理,以获得所述人员的医疗特征数据,其中,所述医疗特征数据包括血常规特征数据和部分血生化特征数据;
数据分析模块,用于通过预设分析模型处理所述医疗特征数据,以确定所述人员的癌症预测结果,所述预设分析模型包括逻辑斯蒂回归模型和相对熵模型中的至少一个;以及
数据管理模块,用于管理所述疾病预测系统中的数据。
2.如权利要求1所述的疾病预测系统,其中,所述血常规特征数据包括红细胞计数、血红蛋白、红细胞压积、平均红细胞体积、平均血红蛋白含量、平均血红蛋白浓度、红细胞分布宽度变异系数、红细胞分布宽度标准差、白细胞计数、中性粒细胞数、中性粒细胞占比、淋巴细胞比值、淋巴细胞绝对值、单核细胞比值、单核细胞绝对值、嗜酸性例细胞比值、嗜酸性粒细胞绝对值、嗜碱性粒细胞绝对值、嗜碱性粒细胞比值、血小板、平均血小板体积、血小板容积分布宽度和血小板比容中的一种或任意几种。
3.如权利要求1所述的疾病预测系统,其中,部分血生化特征数据包括丙氨酸氨基转移酶、天门冬氨酸氨基转移酶、R-谷氨酰转肽酶、总胆固醇、甘油三脂、高密度脂蛋白胆固醇、低密度脂蛋白固醇、尿酸、肌酐、尿酸、空腹血糖、载脂蛋白和总胆红素中的一种或任意几种。
4.如权利要求3所述的疾病预测系统,其中,所述医疗特征数据进一步包括其他血生化特征数据,且所述其他血生化特征数据包括超敏C反应蛋白、乳酸脱氢酶、总胆汁酸、碱性磷酸酶、α-L-岩藻糖苷酶、β2-微球蛋白、总蛋白和白蛋白中的一种或任意几种。
5.如权利要求1所述的疾病预测系统,其中,所述医疗特征数据进一步包括尿常规特征数据,且所述尿常规特征数据包括比重、酸碱值、白细胞、隐血、亚硝酸盐、酮体、胆红素、尿胆元、蛋白质和葡萄糖中的一种或任意几种。
6.如权利要求1所述的疾病预测系统,其中,所述医疗特征数据进一步包括肿瘤标记物特征数据,且所述肿瘤标记物特征数据包括甲胎蛋白、糖类抗原123、糖类抗原15-3、糖类抗原19-9、糖类抗原72-4、癌坯抗原、细胞角蛋白19、铁蛋白、神经元特异烯醇化酶和前列腺特异性抗原中的一种或任意几种。
7.如权利要求1所述的疾病预测系统,其中,所述医疗特征数据进一步包括血流变特征数据,且所述血流变特征数据包括血粘度、还原粘度、相对粘度、血浆粘度、红细胞压积、红细胞沉降率和血沉方程k值中的一种或任意几种。
8.如权利要求1所述的疾病预测系统,其中,所述医疗特征数据进一步包括基因检测特征数据。
9.如权利要求1所述的疾病预测系统,其中,所述医疗特征数据进一步包括人员身份特征数据,且所述人员身份特征数据包括所述人员是否吸烟、所述人员是否喝酒、所述人员的年龄和所述人员的性别中的一种或任意几种。
10.如权利要求1-9中任意一项所述的疾病预测系统,其中,所述特定癌症包括肺癌、肝癌、胃癌、食管癌、肠癌、乳腺癌、宫颈癌、肾癌、胰腺癌、甲状腺癌、前列腺癌、卵巢癌、皮肤癌、骨癌、膀胱癌、脑癌和鼻咽癌中的一种或任意几种。
11.如权利要求1所述的疾病预测系统,其中,所述数据整理模块包括数据清洗单元和有效性分析单元,且所述数据清洗单元用于对经过标准化处理之后的所述医疗数据进行清洗,所述有效性分析单元用于计算经过标准化处理和清洗处理之后的所述医疗数据的有效性。
12.如权利要求11所述的疾病预测系统,其中,所述数据整理模块包括数据分类单元,用于对经过标准化处理、清洗处理和有效性分析处理之后的所述医疗数据进行分类。
13.如权利要求12所述的疾病预测系统,其中,所述数据整理模块包括特征提取单元,用于从经过分类之后的所述医疗数据中获得所述人员的所述医疗特征数据。
14.如权利要求1所述的疾病预测系统,其中,所述数据分析模块包括模型优化单元,用于对各所述预设分析模型进行有效性验证和合理性验证,以基于有效性验证和合理性验证结果对各所述预设分析模型进行优化。
15.如权利要求14所述的疾病预测系统,其中,各所述预设分析模型通过针对已知数据集进行训练获得,其中,所述已知数据集包括未患有该特定癌症的对象的医疗数据以及患有该特定癌症的对象的医疗数据。
16.如权利要求1所述的疾病预测系统,其中,所述数据管理模块包括模型升级通告单元,用于输出对应预设分析模型的升级通知。
17.如权利要求16所述的疾病预测系统,其中,所述数据管理模块包括癌症趋势性预测报告生成单元,用于基于各预设分析模型所生成的癌症检测结果,生成癌症趋势性预测报告。
18.如权利要求17所述的疾病预测系统,其中,所述数据管理模块包括癌症风险趋势性预测知识生成单元,用于基于各预设分析模型所生成的癌症检测结果和所采集的所述医疗数据和所述医疗特征数据,生成癌症风险趋势性预测知识。
CN201910220632.1A 2018-09-26 2019-03-22 疾病预测系统 Pending CN110957043A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2018111247773 2018-09-26
CN201811124777 2018-09-26

Publications (1)

Publication Number Publication Date
CN110957043A true CN110957043A (zh) 2020-04-03

Family

ID=69975419

Family Applications (3)

Application Number Title Priority Date Filing Date
CN201910220632.1A Pending CN110957043A (zh) 2018-09-26 2019-03-22 疾病预测系统
CN201910220636.XA Pending CN110957033A (zh) 2018-09-26 2019-03-22 疾病预测系统
CN201910741260.7A Pending CN110957034A (zh) 2018-09-26 2019-08-12 疾病预测系统

Family Applications After (2)

Application Number Title Priority Date Filing Date
CN201910220636.XA Pending CN110957033A (zh) 2018-09-26 2019-03-22 疾病预测系统
CN201910741260.7A Pending CN110957034A (zh) 2018-09-26 2019-08-12 疾病预测系统

Country Status (1)

Country Link
CN (3) CN110957043A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540478A (zh) * 2020-04-22 2020-08-14 第四范式(北京)技术有限公司 疫情推演仿真系统和仿真方法
CN112233112A (zh) * 2020-12-07 2021-01-15 深圳大学 一种基于深度学习分析的肝细胞癌的ck19的预测方法
CN112342161A (zh) * 2020-11-09 2021-02-09 浙江省立同德医院 一种用于表征肺腺癌气虚痰湿证的肠道菌群组合的筛选方法及肠道菌群组合及模型建立方法
CN112420204A (zh) * 2020-11-03 2021-02-26 重庆医科大学 乳腺癌筛查方案推荐系统及推荐方法
CN113450910A (zh) * 2020-09-27 2021-09-28 四川大学华西医院 一种基于逻辑回归模型的孤立肺结节恶性风险预测系统
CN113485990A (zh) * 2021-07-05 2021-10-08 南昌大学第一附属医院 基于输血大数据的多维度智能数据清洗方法及系统
CN114400063A (zh) * 2021-12-30 2022-04-26 北京北大医疗脑健康科技有限公司 基于医疗大数据的儿童发育筛查方法
CN115346658A (zh) * 2022-07-15 2022-11-15 一选(浙江)医疗科技有限公司 一种基于大数据技术的肺癌早期智能辅助检测系统及方法
WO2023123913A1 (zh) * 2021-12-31 2023-07-06 深圳云天励飞技术股份有限公司 一种病情检测模型训练、检测方法、装置和电子设备

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112002412A (zh) * 2020-08-23 2020-11-27 吾征智能技术(北京)有限公司 一种基于血常规数据推导疾病的系统、设备、存储介质
CN111930948B (zh) * 2020-09-08 2021-01-26 平安国际智慧城市科技股份有限公司 一种信息收集和分级方法、装置、计算机设备及存储介质
CN112259220B (zh) * 2020-09-30 2024-02-02 吾征智能技术(北京)有限公司 一种基于鼻出血伴随症状预测疾病的系统、设备、存储介质
CN112289455A (zh) * 2020-10-21 2021-01-29 王智 一种人工智能神经网络学习模型构建系统、构建方法
CN113539394A (zh) * 2020-12-31 2021-10-22 内蒙古卫数数据科技有限公司 一种基于医学检验数据的多病种预测方法
CN112908484A (zh) * 2021-01-18 2021-06-04 吾征智能技术(北京)有限公司 一种跨模态融合分析疾病的系统、设备、存储介质
CN112786191B (zh) * 2021-01-18 2023-12-05 吾征智能技术(北京)有限公司 一种基于便常规的疾病认知系统、设备、存储介质
CN113284622A (zh) * 2021-05-27 2021-08-20 四川大学华西医院 一种低龄儿童龋风险评估方法、系统及存储介质
EP4348678A1 (en) * 2021-05-28 2024-04-10 University of Southern California A radiomic-based machine learning algorithm to reliably differentiate benign renal masses from renal cell carcinoma
CN115684570B (zh) * 2022-08-02 2024-04-12 首都医科大学附属北京朝阳医院 传染病检测装置、设备、系统、介质及程序产品

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020454A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 发病关键因素提取与疾病预警方法及系统
CN105701324A (zh) * 2014-10-15 2016-06-22 马立明 大数据癌症监控系统
CN106202968A (zh) * 2016-07-28 2016-12-07 北京博源兴康科技有限公司 癌症的数据分析方法及装置
CN106980757A (zh) * 2017-03-15 2017-07-25 重庆医科大学 川崎病并发冠状动脉病变危险因素管理系统及挖掘方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101517614A (zh) * 2006-09-22 2009-08-26 皇家飞利浦电子股份有限公司 肺结节的高级计算机辅助诊断
GB2513343A (en) * 2013-04-23 2014-10-29 Univ Singapore Methods related to instrument-independent measurements for quantitative analysis of fiber-optic Raman spectroscopy
TWI630501B (zh) * 2016-07-29 2018-07-21 長庚醫療財團法人林口長庚紀念醫院 Establishment of a cancer prediction model and a method for analyzing cancer detection results in combination with a tumor marker set
CN107767946B (zh) * 2017-09-26 2020-10-02 浙江工业大学 基于pca和pso-kelm模型的乳腺癌诊断系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103020454A (zh) * 2012-12-15 2013-04-03 中国科学院深圳先进技术研究院 发病关键因素提取与疾病预警方法及系统
CN105701324A (zh) * 2014-10-15 2016-06-22 马立明 大数据癌症监控系统
CN106202968A (zh) * 2016-07-28 2016-12-07 北京博源兴康科技有限公司 癌症的数据分析方法及装置
CN106980757A (zh) * 2017-03-15 2017-07-25 重庆医科大学 川崎病并发冠状动脉病变危险因素管理系统及挖掘方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
唐雪梅等: "《导弹武器精度分析与评估》", 国防工业出版社, pages: 308 - 310 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111540478A (zh) * 2020-04-22 2020-08-14 第四范式(北京)技术有限公司 疫情推演仿真系统和仿真方法
CN111540478B (zh) * 2020-04-22 2023-10-10 第四范式(北京)技术有限公司 疫情推演仿真系统和仿真方法
CN113450910A (zh) * 2020-09-27 2021-09-28 四川大学华西医院 一种基于逻辑回归模型的孤立肺结节恶性风险预测系统
CN112420204A (zh) * 2020-11-03 2021-02-26 重庆医科大学 乳腺癌筛查方案推荐系统及推荐方法
CN112420204B (zh) * 2020-11-03 2023-10-20 重庆医科大学 乳腺癌筛查方案推荐系统及推荐方法
CN112342161A (zh) * 2020-11-09 2021-02-09 浙江省立同德医院 一种用于表征肺腺癌气虚痰湿证的肠道菌群组合的筛选方法及肠道菌群组合及模型建立方法
CN112233112A (zh) * 2020-12-07 2021-01-15 深圳大学 一种基于深度学习分析的肝细胞癌的ck19的预测方法
CN112233112B (zh) * 2020-12-07 2021-06-01 深圳大学 一种基于深度学习分析的肝细胞癌的ck19的预测方法
CN113485990A (zh) * 2021-07-05 2021-10-08 南昌大学第一附属医院 基于输血大数据的多维度智能数据清洗方法及系统
CN114400063A (zh) * 2021-12-30 2022-04-26 北京北大医疗脑健康科技有限公司 基于医疗大数据的儿童发育筛查方法
WO2023123913A1 (zh) * 2021-12-31 2023-07-06 深圳云天励飞技术股份有限公司 一种病情检测模型训练、检测方法、装置和电子设备
CN115346658A (zh) * 2022-07-15 2022-11-15 一选(浙江)医疗科技有限公司 一种基于大数据技术的肺癌早期智能辅助检测系统及方法

Also Published As

Publication number Publication date
CN110957034A (zh) 2020-04-03
CN110957033A (zh) 2020-04-03

Similar Documents

Publication Publication Date Title
CN110957043A (zh) 疾病预测系统
Sun et al. Identification of 12 cancer types through genome deep learning
Hampel et al. The Alzheimer precision medicine initiative
Gunčar et al. An application of machine learning to haematological diagnosis
US20190108912A1 (en) Methods for predicting or detecting disease
JP7305656B2 (ja) 確率分布をモデル化するためのシステムおよび方法
Xia et al. Translational biomarker discovery in clinical metabolomics: an introductory tutorial
Zhang et al. Application and exploration of big data mining in clinical medicine
Yildirim et al. Classification with respect to colon adenocarcinoma and colon benign tissue of colon histopathological images with a new CNN model: MA_ColonNET
CN106202968B (zh) 癌症的数据分析方法及装置
Bogdanovic et al. In-depth insights into Alzheimer’s disease by using explainable machine learning approach
JP2023526241A (ja) 複数の機械学習モデルに基づく臨床予測器
US20090182579A1 (en) Method of processing genomic information
US20220172841A1 (en) Methods of identifying individuals at risk of developing a specific chronic disease
Ferrante et al. Artificial intelligence in the diagnosis of pediatric allergic diseases
Nebli et al. Quantifying the reproducibility of graph neural networks using multigraph data representation
Müller et al. PECLIDES neuro: A personalisable clinical decision support system for neurological diseases
Haque et al. Early detection of paediatric and adolescent obsessive–compulsive, separation anxiety and attention deficit hyperactivity disorder using machine learning algorithms
Gruson et al. Artificial intelligence and thyroid disease management: considerations for thyroid function tests
Aydogan A hybrid deep neural network‐based automated diagnosis system using x‐ray images and clinical findings
Liu et al. A review of neuroimaging-based data-driven approach for Alzheimer’s disease heterogeneity analysis
RU2723674C1 (ru) Способ прогнозирования диагноза на основе обработки данных, содержащих медицинские знания
Faris et al. An intelligence model for detection of PCOS based on K‐means coupled with LS‐SVM
WO2022130006A1 (en) A prognosis and early diagnosis method and system and choosing the best treatment based on data fusion and information analysis by artificial intelligence, with the ability to modify and improve information and results according to machine learning
Hill et al. Deep learning utilizing suboptimal spirometry data to improve lung function and mortality prediction in the UK Biobank

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination