CN112768079A - 一种基于机器学习的肝病认知模型构建方法和系统 - Google Patents
一种基于机器学习的肝病认知模型构建方法和系统 Download PDFInfo
- Publication number
- CN112768079A CN112768079A CN202110092517.8A CN202110092517A CN112768079A CN 112768079 A CN112768079 A CN 112768079A CN 202110092517 A CN202110092517 A CN 202110092517A CN 112768079 A CN112768079 A CN 112768079A
- Authority
- CN
- China
- Prior art keywords
- data
- liver disease
- data set
- module
- liver
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Primary Health Care (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Pathology (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于机器学习的肝病认知模型构建方法和系统,包括如下步骤:获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;利用第二数据集训练分类模型得到训练好的分类模型;将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法预测待测人患有肝病的概率。本发明构建的模型通过机器学习充分挖掘医学知识库与检查项目的关联,提高了肝病知识库的针对性和可读性。
Description
技术领域
本发明属于医学信息及机器学习领域,具体涉及一种基于机器学习的肝病认知模型构建方法和系统。
背景技术
肝病是一种具有危害性大、流行性广泛、治愈率低、死亡率高等特点的传染病。常见的肝病有肝炎、肝硬化、肝脓肿、脂肪性肝病、酒精性肝病、原发性肝癌等。目前常规检查主要依靠肝功能实验室检查。肝功能实验室检查是通过某些生物化学指标检测,间接评估肝脏的代谢功能,为临床医师正确的做出肝胆疾病诊断、鉴别诊断、预后判断、病程检测及疗效观察等,提供有价值的信息。目前肝功能在临床开展的试验种类繁多,不下几十种,但是每一种肝功能试验,只能探查肝脏的某一方面的某一种功能,到现在为止,仍然没有一种试验,能反映肝脏的全部功能。
一方面基层医疗设备设施不健全,无法完全覆盖肝病的全部检查项目;另一方面临床经验的缺乏,无法对一些复杂肝病症状作出正确判断,而现有医学知识库中涉及肝病的知识专业性强、缺乏针对性,参考或查阅不方便。此外,随着生活水平的提高和健康意识的增强,大众也需要一个通俗易懂、简单适用的百科类知识库,提高对肝病的认识和有利于自我筛查,减少对医疗资源的占用。
发明内容
为充分挖掘现有医学知识库与肝病诊断项目的联系,提高肝病知识库的针对性,在本发明的第一方面提供一种基于机器学习的肝病认知模型构建方法,包括如下步骤:获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型;
在本发明的一些实施例中,所述获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集包括如下步骤:根据所述肝功能检查项目和相应的生物化学指标数据的正常参考区间建立异常数据集合;获取所述第一数据集对应的肝病症状;根据所述肝病症状和医学知识库匹配到相应的解决方案。
在本发明的一些实施例中,所述训练好的分类模型通过以下步骤训练:将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;对所述第一特征集合进行去重、合并,得到第二特征集合;利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
进一步的,所述利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定包括步骤:将所述第二特征集合划分为训练集、测试集、验证集;计算测试集中的各个数据与训练集中数据的距离;随机选取测试集中的任一数据作为样本标签,从训练集中选取与样本标签距离最小的K个点;确定所述最小的K个点所在类别的出现频率,将其中出现频率最高的类别作为测试数据的预测分类;遍历所有测试集的数据并重复上述步骤,直至分类误差低于阈值且趋于稳定。
更进一步的,所述计算测试集中的各个数据与训练集中数据的距离采用欧氏距离或曼哈距离进行计算。
在本发明的一些实施例中,所述将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率包括如下步骤:将异常特征值划分为偏高和偏低两类;匹配异常特征值对应的肝病种类,得到候选肝病集合;根据贝叶斯算法计算每种候选肝病条件下及其余候选肝病的概率和;将概率和最大的候选肝病作为待测人患有肝病的预测结果。
本发明的第二方面,提供了一种基于机器学习的肝病认知模型构建装置,包括获取模块、构建模块、匹配模块、训练模块、预测模块,所述获取模块,用于获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;所述构建模块,用于根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;所述匹配模块,用于获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;所述训练模块,用于利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型;所述预测模块,用于将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率。
进一步的,所述训练模块包括预处理模块、聚类模块、分类模块,所述预处理模块,用于将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;所述聚类模块,用于对所述第一特征集合进行去重、合并,得到第二特征集合;所述分类模块,用于利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明第一方面提供的方法。
本发明的第四方面,提供了一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本发明第一方面提供的方法。
本发明的有益效果是:1.本发明利用K近邻算法和贝叶斯算法,充分挖掘了医学知识库的肝病检查项目、症状与可能的解决方案之间的关联;减少肝常规疾病因专业经验不足而导致的误判,节约常规检查的时间,提高医疗机构的分诊效率,作为肝病筛查的辅助手段,保障肝病常规检查疾病预测的准确性和效率;另一方面,对于无医学背景的人群,利用本发明提高的认知模型,能够正确认识待诊断肝常规项目的状态和结果。
附图说明
图1为本发明的一些实施例中的基于机器学习的肝病认知模型构建方法的基本流程图;
图2为本发明的一些实施例中的基于机器学习的肝病认知模型构建装置的结构示意图;
图3为本发明的一些实施例中的电子设备的基本结构图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
在本发明的第一方面提供一种基于机器学习的肝病认知模型构建方法,包括如下步骤:S101.获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;S102.根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;S103.获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;S104.利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型;将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率。
可以理解,常规肝功能检查包括丙氨酸氨基转移酶、天冬氨酸氨基转移酶、碱性磷酸酶、γ-谷氨酰转肽酶、总胆红素、直接胆红素、总胆汁酸、白蛋白、前白蛋白、视黄醇结合蛋白等项目的生物化学指标数据以及相应的类别。比如,肝功能检查是实验室的一项重要检查,其中根据医院大小及病情所需,主要所含指标一般主要包括以下内容:1)、反映肝细胞蛋白合成代谢功能的指标:总蛋白(TP)、白蛋白(ALB)、前白蛋白(PA)、胆碱酯酶(CHE)、凝血酶原时间(PT)。由于它们都是由肝脏合成的,一旦肝脏合成功能下降,以上指标在血液中浓度随之降低,其降低程度与肝脏合成功能损害程度呈正相关;2)反映肝细胞有无受损及严重程度的指标:谷丙转氨酶ALT(GPT)、谷草转氨酶AST(GOT)、腺苷脱氨酶(ADA)、胆碱酯酶(CHE)、乳酸脱氢酶(LDH)等。以上各项酶在肝细胞中均有存在,当肝细胞膜受损或细胞坏死时,这些酶进入血清便增多。通过测定血清或血浆中酶的活性,即可反映肝细胞受损情况及损伤程度;3)、反映肝脏胆排泄、分泌及解毒功能的指标:总胆红素(TBIL)、直接胆红素(DBIL)、总胆酸(TBA)、血氨(NH3)。肝细胞损害时,其排泄、分泌、运输及解毒功能出现障碍,造成血液中TBIL、DBIL、TBA和NH3浓度升高;4)、对诊断胆汁淤积指示酶(包括同工酶)有帮助的酶指标有:碱性磷酸酶(ALP);γ-谷氨酸转肽酶(GGT)、5′-核苷酸酶(5′-NT)等,以AKP及γ-GT应用较多。这些酶在肝内胆管上皮层的浓度较高。当上皮层受损及胆管内压力增高时,便有这些酶增多进入血清中;5)、反映肝脏间质成分增生(肝纤维化和肝硬化)的指标:胶原或其末端多肽——Ⅲ型前胶原氨基端肽(PⅢP)、Ⅲ型原胶原(PCⅢ)、Ⅳ型胶原C端原肽(Ⅳ/PC);糖蛋白——层黏蛋白(LN);蛋白聚糖——透明质酸(HA);6)、对肝肿瘤诊断有意义的血清标志物:甲胎蛋白(AFP)等。
在本发明的一些实施例的步骤S102中,根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集包括:根据《临床诊断学》等相关诊断标准,确立上述项目生物化学指标数据在不同类别、不同性别、不同年龄阶段以及不同健康状况条件下的正常参考范围值。比如,女性碱性磷酸酶(ALP)在50-135U/L之间为正常;否则为偏高或者偏低;男性碱性磷酸酶(ALP)在45-125U/L之间为正常;否则为偏高或者偏低。可以理解,上述《临床诊断学》为示意性地,更广泛的讲,关于肝病的有关的医学知识库、图谱、诊断方案均可作为本发明S102中的医学知识库数据源。
在本发明的一些实施例的步骤S103中,所述获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集包括如下步骤:根据所述肝功能检查项目和相应的生物化学指标数据的正常参考区间建立异常数据集合;获取所述第一数据集对应的肝病症状;根据所述肝病症状和医学知识库匹配到相应的解决方案。
具体地,1)、谷草转氨酶(AST),正常情况:0-50μmol/L。增加:常见于各种肾炎、肝病、心肌炎、肺炎等亦可轻度升高;2)、谷丙转氨酶(ALT),正常情况0-40μmol/L。增高:心肌炎、急性胰腺炎、急慢性肝病、胆道感染、胆石症、急性心肌梗塞、肺梗塞等。孕妇,熬夜、过度劳累、剧烈运动等;3)、总胆红素(STB),正常情况下成人为1.7~17.1μmol/L。其升高常见的有:总胆红素、间接与直接均升高:常见于慢性活动性肝炎、黄疸型肝炎、肝硬变等。总胆红素与间接明红素偏高:常见于血型不合输血、溶血性贫血、新生儿黄疸、恶性疾病等。总胆红素与直接胆红素偏高:常见于肝内及肝外阻塞性黄疸、毛细胆管发生肝炎、胰头癌及其他胆汁瘀滞综合征等;4)、直接胆红素(DBIL)正常情况:0~3.4μmol/L。增高:当红细胞大量死亡时,释放出的间接胆红素增多,经肝脏代谢,生成的直接胆红素因胆道堵塞,排泄不畅时出现直接胆红素偏高;5)、胆碱酯酶(CHE),正常情况:比色法130~310U/L。增高:常见于糖尿病、神经系统疾病、支气管哮喘、高血压、肾功能衰竭等。减低:常见于肝炎、肝硬化、慢性肾炎、恶性贫血、急性感染、营养不良、肌肉损伤、皮炎及妊娠晚期等,以及摄入氨茶碱、雌激素、可可碱、吗啡、巴比妥等药物等。
为了提高分类模型的准确性和减少模型的计算量,在本发明的一些实施例的步骤S104中,所述训练好的分类模型通过以下步骤训练:将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;对所述第一特征集合进行去重、合并,得到第二特征集合;利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
进一步的,所述利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定包括步骤:将所述第二特征集合划分为训练集、测试集、验证集;计算测试集中的各个数据与训练集中数据的距离;随机选取测试集中的任一数据作为样本标签,从训练集中选取与样本标签距离最小的K个点;确定所述最小的K个点所在类别的出现频率,将其中出现频率最高的类别作为测试数据的预测分类;遍历所有测试集的数据并重复上述步骤,直至分类误差低于阈值且趋于稳定。
更进一步的,所述计算测试集中的各个数据与训练集中数据的距离采用欧氏距离或曼哈距离进行计算。
在本发明的一些实施例的步骤中,所述将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率包括如下步骤:将异常特征值划分为偏高和偏低两类;匹配异常特征值对应的肝病种类,得到候选肝病集合;根据贝叶斯算法计算每种候选肝病条件下及其余候选肝病的概率和;将概率和最大的候选肝病作为待测人患有肝病的预测结果。
具体地,根据肝常规项目检查的数据中待比较数据对应的属性和类别,确定待比较肝功能数据对应的疾病信息,根据疾病信息生成疾病认知报告。比如,谷丙、谷草转氨酶有升高,如果是轻度升高,多考虑患者是由于在抽血前的一周之内,有饮酒、熬夜、劳累等情况。这样会发生一过性的肝功能损害,表现出谷丙、谷草转氨酶的升高;如果排除病毒性肝炎以后,患者需要及时的注意改变生活习惯,不要饮酒、不要熬夜、不要劳累。还可以适当的服用联苯双酯滴丸或者双环醇片,积极的降低转氨酶,应注意多休息;如果出现总胆红素以及直接胆红素的升高,此时多考虑患者有胆道梗阻,有可能是胆管的结石,也有可能是胆管的肿瘤性疾病,此时需要进一步完善相关检查;如果是以总胆红素与间接胆红素升高为主,此时多考虑患者有肝细胞的坏死;如果合并有谷丙、谷草转氨酶升高的值较高,此时多考虑患者是否有病毒的复制,需要积极的查乙肝三系统以及丙肝抗体、乙肝DNA以及丙肝RNA;如果提示病毒有复制,而且有肝功能损害,积极考虑行抗病毒治疗;如果蛋白质降低就表示肝脏合成功能受损害,是病情比较严重的表现,如慢性活动性肝炎、肝硬化、肝功能衰竭等。当然,一些非肝脏疾病也可以使血液中蛋白质发生变化,所以分析结果时要注意一些生理性的影响因素。
本发明的第二方面,提供了一种基于机器学习的肝病认知模型构建装置1,包括获取模块11、构建模块12、匹配模块13、训练模块14、预测模块15,所述获取模块11,用于获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;所述构建模块12,用于根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;所述匹配模块13,用于获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;所述训练模块14,用于利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型;所述预测模块15,用于将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率。
进一步的,所述训练模块14包括预处理模块、聚类模块、分类模块,所述预处理模块,用于将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;所述聚类模块,用于对所述第一特征集合进行去重、合并,得到第二特征集合;所述分类模块,用于利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
本发明的第三方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明的第一方面提供的基于机器学习的肝病认知模型构建方法。
参考图3,电子设备500可以包括处理装置(例如中央处理器、图形处理器等)501,其可以根据存储在只读存储器(ROM)502中的程序或者从存储装置508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。处理装置501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
通常以下装置可以连接至I/O接口505:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置506;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置507;包括例如硬盘等的存储装置508;以及通信装置509。通信装置509可以允许电子设备500与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备500,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图3中示出的每个方框可以代表一个装置,也可以根据需要代表多个装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置509从网络上被下载和安装,或者从存储装置508被安装,或者从ROM502被安装。在该计算机程序被处理装置501执行时,执行本公开的实施例的方法中限定的上述功能。需要说明的是,本公开的实施例所描述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个计算机程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:可以以一种或多种程序设计语言或其组合来编写用于执行本公开的实施例的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++、Python,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于机器学习的肝病认知模型构建方法,其特征在于,包括如下步骤:
获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;
根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;
获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;
利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型。
2.根据权利要求1所述的基于机器学习的肝病认知模型构建方法,其特征在于,所述获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集包括如下步骤:
根据所述肝功能检查项目和相应的生物化学指标数据的正常参考区间建立异常数据集合;
获取所述第一数据集对应的肝病症状;
根据所述肝病症状和医学知识库匹配到相应的解决方案。
3.根据权利要求1所述的基于机器学习的肝病认知模型构建方法,其特征在于,所述训练好的分类模型通过以下步骤训练:
将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;
对所述第一特征集合进行去重、合并,得到第二特征集合;
利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
4.根据权利要求3所述的基于机器学习的肝病认知模型构建方法,其特征在于,所述利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定包括步骤:
将所述第二特征集合划分为训练集、测试集、验证集;
计算测试集中的各个数据与训练集中数据的距离;
随机选取测试集中的任一数据作为样本标签,从训练集中选取与样本标签距离最小的K个点;
确定所述最小的K个点所在类别的出现频率,将其中出现频率最高的类别作为测试数据的预测分类;
遍历所有测试集的数据并重复上述步骤,直至分类误差低于阈值且趋于稳定。
5.根据权利要求4所述的基于机器学习的肝病认知模型构建方法,其特征在于,所述计算测试集中的各个数据与训练集中数据的距离采用欧氏距离或曼哈距离进行计算。
6.根据权利要求1所述的基于机器学习的肝病认知模型构建方法,其特征在于,所述将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率包括如下步骤:
将异常特征值划分为偏高和偏低两类;
匹配异常特征值对应的肝病种类,得到候选肝病集合;
根据贝叶斯算法计算每种候选肝病条件下及其余候选肝病的概率和;
将概率和最大的候选肝病作为待测人患有肝病的预测结果。
7.一种基于机器学习的肝病认知模型构建装置,其特征在于,包括获取模块、构建模块、匹配模块、训练模块、预测模块,
所述获取模块,用于获取样本人群的性别、年龄、健康状况、肝功能检查项目和相应的生物化学指标数据;
所述构建模块,用于根据医学知识库确定不同性别、年龄和健康状况下的生物化学指标数据的基准参考区间以及异常区间,并根据其建立第一数据集;
所述匹配模块,用于获取所述第一数据集对应的症状的解决方案,并建立其相互匹配的第二数据集;
所述训练模块,用于利用第二数据集训练分类模型,直至其误差低于阈值且趋于稳定,得到训练好的分类模型;
所述预测模块,用于将待测人的生物化学指标数据输入到所述分类模型,得到异常特征值;利用贝叶斯算法和异常特征值预测待测人患有肝病的概率。
8.根据权利要求7所述的一种基于机器学习的肝病认知模型构建装置,其特征在于,所述训练模块包括预处理模块、聚类模块、分类模块,
所述预处理模块,用于将所述第二数据集进行标准化、归一化,得到所述第二数据集的第一特征集合;
所述聚类模块,用于对所述第一特征集合进行去重、合并,得到第二特征集合;
所述分类模块,用于利用K邻近算法对所述第二特征集合进行分类,直至误差低于阈值且趋于稳定。
9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。
10.一种计算机可读介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110092517.8A CN112768079A (zh) | 2021-01-24 | 2021-01-24 | 一种基于机器学习的肝病认知模型构建方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110092517.8A CN112768079A (zh) | 2021-01-24 | 2021-01-24 | 一种基于机器学习的肝病认知模型构建方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112768079A true CN112768079A (zh) | 2021-05-07 |
Family
ID=75706888
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110092517.8A Pending CN112768079A (zh) | 2021-01-24 | 2021-01-24 | 一种基于机器学习的肝病认知模型构建方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112768079A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113257414A (zh) * | 2021-07-14 | 2021-08-13 | 北京好欣晴移动医疗科技有限公司 | 基于贝叶斯结构学习的信息归类方法、装置和系统 |
CN113420655A (zh) * | 2021-06-22 | 2021-09-21 | 中山仰视科技有限公司 | 基于能量模型的医学影像阴阳性筛查方法、系统、及设备 |
CN113488183A (zh) * | 2021-06-30 | 2021-10-08 | 南京云上数融技术有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN117764204A (zh) * | 2024-02-21 | 2024-03-26 | 神州医疗科技股份有限公司 | 一种医学领域中的强化学习数据构建方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069505A (zh) * | 2015-08-14 | 2015-11-18 | 北京农信互联科技有限公司 | 一种猪病知识库自动训练学习方法及猪病辅助诊断装置 |
CN108172296A (zh) * | 2018-01-23 | 2018-06-15 | 上海其明信息技术有限公司 | 一种数据库的建立方法和遗传疾病的风险预测方法 |
CN108182389A (zh) * | 2017-12-14 | 2018-06-19 | 华南师范大学 | 基于大数据与深度学习的用户数据处理方法、机器人系统 |
CN111798981A (zh) * | 2020-07-10 | 2020-10-20 | 吾征智能技术(北京)有限公司 | 一种基于饮食习惯预测痛风的模型构建方法和系统 |
CN112002412A (zh) * | 2020-08-23 | 2020-11-27 | 吾征智能技术(北京)有限公司 | 一种基于血常规数据推导疾病的系统、设备、存储介质 |
-
2021
- 2021-01-24 CN CN202110092517.8A patent/CN112768079A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069505A (zh) * | 2015-08-14 | 2015-11-18 | 北京农信互联科技有限公司 | 一种猪病知识库自动训练学习方法及猪病辅助诊断装置 |
CN108182389A (zh) * | 2017-12-14 | 2018-06-19 | 华南师范大学 | 基于大数据与深度学习的用户数据处理方法、机器人系统 |
CN108172296A (zh) * | 2018-01-23 | 2018-06-15 | 上海其明信息技术有限公司 | 一种数据库的建立方法和遗传疾病的风险预测方法 |
CN111798981A (zh) * | 2020-07-10 | 2020-10-20 | 吾征智能技术(北京)有限公司 | 一种基于饮食习惯预测痛风的模型构建方法和系统 |
CN112002412A (zh) * | 2020-08-23 | 2020-11-27 | 吾征智能技术(北京)有限公司 | 一种基于血常规数据推导疾病的系统、设备、存储介质 |
Non-Patent Citations (1)
Title |
---|
蔡莉莉;侯珂珂;: "基于K近邻-随机森林集成算法的肝病预测研究", 电脑知识与技术, no. 13, pages 204 - 205 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113420655A (zh) * | 2021-06-22 | 2021-09-21 | 中山仰视科技有限公司 | 基于能量模型的医学影像阴阳性筛查方法、系统、及设备 |
CN113488183A (zh) * | 2021-06-30 | 2021-10-08 | 南京云上数融技术有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN113488183B (zh) * | 2021-06-30 | 2023-10-31 | 吾征智能技术(北京)有限公司 | 一种发热疾病多模态特征融合认知系统、设备、存储介质 |
CN113257414A (zh) * | 2021-07-14 | 2021-08-13 | 北京好欣晴移动医疗科技有限公司 | 基于贝叶斯结构学习的信息归类方法、装置和系统 |
CN117764204A (zh) * | 2024-02-21 | 2024-03-26 | 神州医疗科技股份有限公司 | 一种医学领域中的强化学习数据构建方法及系统 |
CN117764204B (zh) * | 2024-02-21 | 2024-06-07 | 神州医疗科技股份有限公司 | 一种医学领域中的强化学习数据构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112768079A (zh) | 一种基于机器学习的肝病认知模型构建方法和系统 | |
Sachse et al. | Metabolic changes in urine during and after pregnancy in a large, multiethnic population-based cohort study of gestational diabetes | |
Ceriotti et al. | Reference intervals: the way forward | |
Yu et al. | Predicting metabolic syndrome with machine learning models using a decision tree algorithm: retrospective cohort study | |
Wu et al. | Automated chart review for asthma cohort identification using natural language processing: an exploratory study | |
Becker et al. | Validation of hepascore, compared with simple indices of fibrosis, in patients with chronic hepatitis C virus infection in United States | |
Jeon et al. | Lactate dehydrogenase to albumin ratio as a prognostic factor for patients with severe infection requiring intensive care | |
Lang et al. | Serum albumin and short-term risk for mortality and cardiovascular disease among HIV-infected veterans | |
CN113611420A (zh) | 一种基于血液检查指标的疾病筛查方法和系统 | |
Berggren et al. | First Trimester Maternal Glycated Hemoglobin and Sex Hormone–Binding Globulin Do Not Predict Third Trimester Glucose Intolerance of Pregnancy | |
Tate et al. | The determination of the 99th centile level for troponin assays in an Australian reference population | |
Saglam et al. | Diagnostic value of glycemic markers HbA1c, 1, 5-anhydroglucitol and glycated albumin in evaluating gestational diabetes mellitus | |
Abdesselam et al. | Estimate of the HOMA-IR cut-off value for identifying subjects at risk of insulin resistance using a machine learning approach | |
Lee et al. | All components of metabolic syndrome are associated with microalbuminuria in a Chinese population | |
O’Shea et al. | Establishment of reference intervals for aldosterone and renin in a Caucasian population using the newly developed Immunodiagnostic Systems specialty immunoassay automated system | |
Tan et al. | An approach to optimize delta checks in test panels–the effect of the number of rules included | |
Ma et al. | Validation and comparison of five data mining algorithms using big data from clinical laboratories to establish reference intervals of thyroid hormones for older adults | |
Hu et al. | Determination of methylmalonic acid, 2-methylcitric acid, and total homocysteine in dried blood spots by liquid chromatography–tandem mass spectrometry: A reliable follow-up method for propionylcarnitine-related disorders in newborn screening | |
Davidson | A survey of some pre-analytical errors identified from the Biochemistry Department of a Scottish hospital | |
Stepien et al. | Caeruloplasmin oxidase activity: measurement in serum by use of o-dianisidine dihydrochloride on a microplate reader | |
CN117198532A (zh) | 一种基于机器学习的icu患者脓毒症风险预测方法及系统 | |
Schmitz et al. | Trimester-specific reference intervals for cystatin C and neutrophil gelatinase-associated lipocalin during pregnancy | |
Bello et al. | Multiple versus single and other estimates of baseline proteinuria status as predictors of adverse outcomes in the general population | |
Chen et al. | Construction and predictive value of risk models of maternal serum alpha-fetoprotein variants and fetal open neural tube defects | |
De Grandi et al. | Highly Elevated Plasma γ‐Glutamyltransferase Elevations: A Trait Caused by γ‐Glutamyltransferase 1 Transmembrane Mutations |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |