CN115458176A - 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统 - Google Patents

一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统 Download PDF

Info

Publication number
CN115458176A
CN115458176A CN202211072098.2A CN202211072098A CN115458176A CN 115458176 A CN115458176 A CN 115458176A CN 202211072098 A CN202211072098 A CN 202211072098A CN 115458176 A CN115458176 A CN 115458176A
Authority
CN
China
Prior art keywords
factors
helicobacter pylori
research
data mining
pylori infection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211072098.2A
Other languages
English (en)
Inventor
袁一鸣
杜洁玲
洪慧斯
董丽娟
李龙丹
邱雄泉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Hospital of TCM
Original Assignee
Zhongshan Hospital of TCM
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Hospital of TCM filed Critical Zhongshan Hospital of TCM
Priority to CN202211072098.2A priority Critical patent/CN115458176A/zh
Publication of CN115458176A publication Critical patent/CN115458176A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/50ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for simulation or modelling of medical disorders

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统,本方法从研究对象的历史病历和问卷资料中获取针对于幽门螺旋杆菌研究的多种研究因素;其次对多种研究因素进行降维处理,再从降维后的多种研究因素中选取多种显著性因素;然后对数据挖掘出的多种显著性因素进行二元Logistic回归,直至训练得到预测模型;最后通过预测模型对待检测对象进行是否感染幽门螺旋杆菌的预测。本发明能够充分挖掘与幽门螺旋杆菌感染具有线性关系的因素,确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到辅助作用;还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够准确度和有效性的预测患者是否感染。

Description

一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统
技术领域
本发明涉及幽门螺旋杆菌感染预测技术领域,特别涉及一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统。
背景技术
幽门螺旋杆菌(以下简称H.pylori)感染已经成为一个公共卫生健康危机。现阶段针对H.pylori感染的预测主要是通过表面的症状进行预测,但是绝大多数H.pylori感染者感染没有任何相关的临床疾病,因此该方式的预测效率和准确度都较低。
发明内容
本发明旨在至少解决现有技术中存在的技术问题。为此,本发明提出一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统,能够对患者是否感染幽门螺旋杆菌进行高效和高准确度的预测。
本发明的第一方面,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测方法,所述基于数据挖掘的幽门螺旋杆菌感染预测方法包括:
获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
根据本发明的实施例,至少具有如下技术效果:
本方法首先从研究对象的历史病历和问卷资料中获取数据,得到针对于幽门螺旋杆菌研究的多种研究因素;其次对数据进行挖掘,包括先对多种研究因素进行降维处理,再从降维后的多种研究因素中选取多种显著性因素,提取具有统计学意义的显著性因素,以实现对患者是否感染进行更为准确和客观的分析;然后对数据挖掘出的多种显著性因素进行二元Logistic回归,直至训练得到预测模型;最后通过预测模型对待检测对象进行是否感染幽门螺旋杆菌的预测。本方法能够充分挖掘幽门螺旋杆菌感染患者的临床、慢性基础疾病、生活和行为习惯等特征因素,对众多显著性因素进行分析,以确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到有效的辅助作用;本方法还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够预测患者是否感染幽门螺旋杆菌,而且预测准确度较高。
根据本发明的一些实施例,对所述研究对象的所述多种研究因素进行降维,包括:
通过单因素卡方或者二阶聚类对所述研究对象的所述多种研究因素进行降维。
根据本发明的一些实施例,所述从降维后的所述多种研究因素中选取多种显著性因素,包括:
对降维后的所述多种研究因素采用向前逐步回归法似然比检验作为自因素筛选,直至选取出用于输入至所述二元Logistic回归模型的多种显著性因素。
根据本发明的一些实施例,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括步骤:
对经过二元Logistic回归的所述多种显著性因素,根据OR值绘制森林图;
根据所述森林图判断所述显著性因素属于危险因素还是属于保护因素。
根据本发明的一些实施例,所述通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型,包括:
将所述多位所述研究对象划分为训练组和验证组,其中所述训练组和验证组之间的比例为7.5:2.5;
通过所述训练组中的每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,并通过所述验证组中的每一位所述研究对象对应所述多种显著性因素对训练完成的二元Logistic回归模型进行验证,得到训练完成的预测模型。
根据本发明的一些实施例,所述根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测之后,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括:
以ROC曲线下面积和Hosmer-Lemeshow检验验证所述预测模型的准确性。
根据本发明的一些实施例,所述多种研究因素包括如下三个维度的因素:基本信息维度、临床表征维度以及生活和饮食习惯维度。
本发明的第二方面,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测系统,所述基于数据挖掘的幽门螺旋杆菌感染预测系统,包括:
数据获取单元,用于获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
显著性因素选取单元,用于分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
二元Logistic回归单元,用于构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
感染预测单元,用于根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
本发明的第三方面,提供了一种电子设备,包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如上述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
本发明的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如上述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
可以理解的是,上述第二方面至第四方面与相关技术相比存在的有益效果与上述第一方面与相关技术相比存在的有益效果相同,可以参见上述第一方面中的相关描述,在此不再赘述。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是本发明一个实施例提供的一种基于数据挖掘的幽门螺旋杆菌感染预测方法的流程示意图;
图2是本发明一个实施例提供的二阶聚类预测变量示意图;
图3是本发明一个实施例提供的单因素卡方和二阶聚类两种方式降维后的ROC曲线下AUC比较示意图;
图4是本发明一个实施例提供的Logistic回归显著变量的森林图;
图5是本发明一个实施例提供的训练组和验证组的ROC曲线下AUC的示意图;
图6是本发明一个实施例提供的电子设备的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
H.pylori感染已经成为一个公共卫生健康危机。由于H.pylori感染有一定地区特色,特别是家庭聚集和饮食习惯,目前对H.pylori的危险因素和预判模型研究极少。关于H.pylori感染的流行病学最引人注目的问题是关于传播途径,H.pylori感染的临床过程是高度可变的,受微生物和宿主因素的影响,由于无法了解传播的动态,因此很难提出预防方法,如果能从表面的症状去预判H.pylori是否感染,是一种较为经济的方法。但绝大多数H.pylori感染者感染没有任何相关的临床疾病,因此利用常规方式检测的效率和准确度低。
为了能够准确预测是否感染H.pylori,本申请通过分析H.pylori患者的病例资料,利用数据挖掘探究相对的特征数据和结局之间的线性关系,研究采用Logistic回归分析建立H.pylori患者的预测感染模型,为健康人群或无症状感染者提供参考。
参照图1,本申请的一个实施例,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测方法,本方法包括如下步骤S101至S107,其中:
步骤S101、获取多位研究对象的历史病历和问卷资料,从每一位研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素。
在本步骤S101中,研究对象是指在医院或体检中心进行幽门螺旋杆菌检测的健康体检人群。例如:通过碳13、碳14呼气试验或做胃镜进行幽门螺旋杆菌的快速尿素酶试验,结果示幽门螺旋杆菌阳性者和阴性者,且未经过任何幽门螺旋杆菌治疗的患者。历史病例来自于研究对象在医院或者体检中心留下的病例记录。问卷资料是指研究对象填写针对于幽门螺旋杆菌研究的问卷调查。
在本申请的一些实施例中,历史病历和问卷资料中提取的多种研究因素包括基本信息、临床表征和生活和饮食习惯这三个维度,其中,三个维度包括如下变量(因素):
基本信息维度包括但不仅限于:研究对象的年龄、性别、教育程度、居住楼层,睡眠时间、家庭成员H.pylori感染史等。临床表征维度包括但不仅限于:胃痛、反酸、胃胀、暖气打嗝、没有食欲早饱、口气口臭、口苦、恶心呕吐、肠鸣音、饥饿感。慢性及基础疾病:高血压、糖尿病、冠心病、骨科关节炎、痛风高尿酸、精神类及抑郁疾病、咽炎、消化溃疡、胃炎伴消化不良、贫血、胃粘膜淋巴瘤、肾科疾病、肛肠科疾病、皮肤科疾病、甲状腺疾病、口腔疾病、耳鼻疾病、胃癌家族史、男科或妇科疾病等。生活和饮食习惯维度包括但不仅限于:家里是否使用桶装水、净水机;宵夜和吃零食习惯;早餐、午餐、晚餐的就餐方式(打包、堂食、家庭煮);饮食和行为喜好:食辣、食火锅、食鱼生河鲜、喝茶或咖啡奶茶、购买或点外卖(冷热)饮品、喝酒、吸烟、公共泳池游泳的喜爱或频率程度、外出是否有使用公筷情况、是否使用公筷习惯、是否和感染H.pylori家人同居生活等。
步骤S103、分别对每一位研究对象的对应多种研究因素进行降维,从降维后的多种研究因素中选取多种显著性因素。
为了实现对数据的挖掘,即选取出有具有统计学意义的因素,提升预测的客观性和准确度,这里先对每位研究对象的对应多种研究因素进行降维处理。在本申请的一些实施例中,通过单因素卡方或者二阶聚类对研究对象的多种研究因素进行降维。具体的,通过如下方式选择单因素卡方或者二阶聚类两者中的一种方式进行降维:
选取一定样本,使用单因素卡方及二阶聚类进行降维,将各自降维之后具有统计学意义的因素进行二元Logistic回归,选择ROC曲线下AUC最大的作为最终降维方法。如:以单因素卡方变量进行二元Logistic回归后ROC下AUC为0.735(95%CI:0.6952~0.7714),二阶聚类的变量进行二元Logistic回归后ROC下AUC为0.6343(95%CI:0.5984~0.6688),则最终以单因素卡方方式降维。其中,ROC下的AUC的计算为领域公知,此处不再细述。
在降维之后,需要进行自变量筛选出多种显著性因素(即筛选出具有统计学意义的因素,提升预测的客观性和准确度)。在本申请的一些实施例中,从降维后的多种研究因素中选取多种显著性因素,包括:
步骤S1031、对降维后的多种研究因素采用向前逐步回归法似然比检验作为自变量(因素)筛选,直至选取出用于输入至二元Logistic回归模型的多种显著性因素。
在本申请一些实施例中,本方法还包括步骤S1021和S1022,其中:
步骤S1021、对经过二元Logistic回归的多种显著性因素,根据OR值绘制森林图。
步骤S1022、根据森林图判断显著性因素属于危险因素还是属于保护因素。
步骤S105、构建二元Logistic回归模型,通过每一位研究对象对应多种显著性因素对二元Logistic回归模型进行训练,得到训练完成的预测模型。
在本申请的一些实施例中,步骤S105包括如下步骤S1051和S1052,其中:
步骤S1051、将多位研究对象划分为训练组和验证组,其中训练组和验证组之间的比例为7.5:2.5。
步骤S1052、通过训练组中的每一位研究对象对应多种显著性因素对二元Logistic回归模型进行训练,并通过验证组中的每一位研究对象对应多种显著性因素对训练完成的二元Logistic回归模型进行验证,得到训练完成的预测模型。
步骤S107、根据预测模型对目标对象是否感染幽门螺旋杆菌进行预测。这里的目标对象是指待检测是否感染幽门螺旋杆菌的健康个体。在本申请的一些实施例中,根据预测模型对目标对象是否感染幽门螺旋杆菌进行预测之后,本方法还包括:
步骤S108、以ROC曲线下面积和Hosmer-Lemeshow检验验证预测模型的准确性。
本实施例提供的方法,首先从研究对象的历史病历和问卷资料中获取数据,得到针对于幽门螺旋杆菌研究的多种研究因素;其次对数据进行挖掘,包括先对多种研究因素进行降维处理,再从降维后的多种研究因素中选取多种显著性因素,提取具有统计学意义的显著性因素对患者是否感染进行更为准确和客观的分析;然后对数据挖掘出的多种显著性因素进行二元Logistic回归,直至训练得到预测模型;最后通过预测模型对待检测对象进行是否感染幽门螺旋杆菌的预测。本方法能够充分挖掘幽门螺旋杆菌感染患者的临床、慢性基础疾病、生活和行为习惯等特征因素,对众多显著性因素进行分析,以确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到有效的辅助作用;本发明还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够预测患者是否感染幽门螺旋杆菌,而且预测准确度较高。
本申请的一个实施例,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测方法,本方法包括如下步骤:
步骤S201、选取研究对象和资料收集;
步骤S2011、选取研究对象;选择2021年7至2022年4月在中山市某医院的内窥镜室或体检中心接受碳13、碳14呼气试验或胃镜下取粘膜试验接受幽门螺旋杆菌检测的健康体检人群一共1425例为研究对象。纳入标准:在该市常住人口,通过碳13、碳14呼气试验或做胃镜进行幽门螺旋杆菌的快速尿素酶试验,结果示幽门螺旋杆菌阳性者和阴性者;未经过任何幽门螺旋杆菌治疗的患者。排除:短暂于该市居住的人群;以往有发现或复发幽门螺旋杆菌感染者。
步骤S2012、资料收集;
根据专家和文献资料自行设计与H.pylori感染相关的二分类及多分类组成的非量表电子调查表,到医院进行现场调查,征得研究对象同意后进行调查,检查前,研究对象扫调查表二维码填写,收集研究对象的基本信息表、临床表征表、生活和饮食习惯表。调查后由专人保管并对5%~10%的研究者数据资料进行核查。检查后,以研究对象的碳13或碳14检验结果和病理结果为结局变量,分成感染组和未感染组,最后资料由统计人员分析,排除如资料不全、对自我症状描述不清、回答结果矛盾,缺失值以众数最多值处理。
问卷表分为三个维度63个变量:
(1)患者基本信息表:包括患者的年龄、性别、教育程度、居住楼层,睡眠时间、家庭成员H.pylori感染史。
(2)临床表征表:患者的临床病征:胃痛、反酸、胃胀、暖气打嗝、、没有食欲早饱、口气口臭、口苦、恶心呕吐、肠鸣音、饥饿感。慢性及基础疾病:高血压、糖尿病、冠心病、骨科关节炎、痛风高尿酸、精神类及抑郁疾病、咽炎、消化溃疡、胃炎伴消化不良、贫血、胃粘膜淋巴瘤、肾科疾病、肛肠科疾病、皮肤科疾病、甲状腺疾病、口腔疾病、耳鼻疾病、胃癌家族史、男科或妇科疾病。
(3)生活和饮食习惯表:家里是否使用桶装水、净水机;宵夜和吃零食习惯;早餐、午餐、晚餐的就餐方式(打包、堂食、家庭煮);饮食和行为喜好:食辣、食火锅、食鱼生河鲜、喝茶或咖啡奶茶、购买或点外卖(冷热)饮品、喝酒、吸烟、公共泳池游泳的喜爱或频率程度、外出是否有使用公筷情况、是否使用公筷习惯、是否和感染H.pylori家人同居生活。
步骤S202、构建二元Logistic回归模型;
应用SPSS 25.0、JMP16 pro试用版和R语言4.0.4软件对数据进行统计分析。计量资料用均数±标准差
Figure BDA0003830780120000101
描述,分类指标的进行分布检验,符合正态分布采用卡方检验(即χ2检验);不符合,则采用Mann-Whitney秩和检验;多分类因素组间比较分析采用Kruskal Wallis H检验及Kendall's等级相关分析,P<0.05为差异有统计学意义。使用单因素卡方及二阶聚类进行降维,将各自有统计学意义的变量(因素)进行Logistic回归,选择ROC曲线下AUC最大的作为最终降维方法。最终以显著性变量代入Logistic回归模型。
最终从962例案例中,按7.5:2.5随机抽取为训练组和验证组,构建二元Logistic回归模型,对前述显著风险因素采用向前逐步回归法似然比检验作为自变量筛选和引入回归方程的方法,确定感染和暴露因素。根据OR值统计赋值,构建预警模型;同时根据训练样本确定最优的风险划分概率值。剩余案例用作对构建的模型进行验证。灵敏性和特异性用以评估风险预警模型的预测效果,ROC曲线下的面积和Hosmer-Lemeshow检验来描述模型确定H.pylori感染风险的预测准确性。
以下提供结果分析(收集到1425份电子问卷,排除回答矛盾后共计962份,其中完全填报没有缺失值的有938份):
(1)单因素分析;
H.pylori未感染组与H.pylori感染组比较,居住楼层有显著性差异(P<0.05),具有统计学意义,性别、年龄、教育程度、晚上睡觉时间都没有统计学意义(P>0.05)。
如下表1所示,将临床表征表、生活和饮食习惯表的变量使用单因素卡方及二阶聚类进行降维,如下表2和图2所示(在图2中,对角线左侧偏左的线条是运行单因素卡方的效果,对角线左侧偏右的线条是运行二阶聚类的效果),将有各自有统计学意义的变量放入二元Logistic回归,选择ROC曲线下AUC最大的作为最终降维方法。如图3所示。以单因素卡方变量回归后ROC下AUC为0.735(95%CI:0.6952~0.7714),二阶聚类的变量回归后ROC下AUC为0.6343(95%CI:0.5984~0.6688),最终以单因素卡方方式降维。
表1(H.pylori未感染组与H.pylori感染组基线资料比较表)
Figure BDA0003830780120000111
Figure BDA0003830780120000121
Figure BDA0003830780120000131
表2(H.pylori感染特征及单因素分析结果)
Figure BDA0003830780120000132
Figure BDA0003830780120000141
Figure BDA0003830780120000151
Figure BDA0003830780120000161
Figure BDA0003830780120000171
(2)多因素分析;
经多因素Logistic回归分析,发现胃胀、口气口臭、午餐在家煮、外出使用公筷的情况、是否使用公筷习惯、同居家人是否感染史、居住的楼层是感染H.pylori的影响因素,是具有统计学意义的因素,如下表3和图4(直线为训练组,虚线为验证组)所示。
(3)预测模型的构建;
对上述显著风险因素采用向前逐步回归法似然比检验作为自变量筛选和引入回归方程的方法,确定感染和暴露因素。根据OR值统计赋值见表3和图3,构建预警模型。二元Logistic回归方程为:
ln(y/1-y)=0.685+0.646*胃胀+0.941*口气、口臭-0.529*午餐(在家自己煮)-0.957*在家没有,外出有使用公筷+0.678*一直都不习惯使用公筷+0.785*同居家人有感染H.pylori-0.586*家住4~10层。
表3(H.pylori感染特征及多因素Logistic回归分析多变量分析结果)
Figure BDA0003830780120000181
Figure BDA0003830780120000191
(4)预测模型有效性(准确度)的验证和最佳截断值分析:
训练组和验证组ROC曲线下面积分别为0.7334(95%CI:0.709~0.784)、0.7153(95%CI:0.6729~0.7577)。当截断值为0.52时,约登指数最大为0.389,灵敏度为73.8%,特异度为64.8%。Hosmer-Lemeshow拟合优度检验为14.45(P=0.071)。经分析,本模型的灵敏度为73.6%,特异度为64.2%,处于良好水平,如图5所示。
本实施例方法通过构建多因素Logistic回归,结果发现有胃胀、口气口臭是感染H.pylori后的主要特征,有胃胀、口气口臭的人群与没有胃胀和口气口臭的人群相比,分别有1.908倍和2.563倍的概率感染H.pylori,具有统计学意义(OR=1.908,95%CI:1.297~2.805,P<0.001)(OR=2.563,95%CI:1.711~3.840,P<0.001)。选择午餐在家煮的人与午餐不是在家煮的人相比,患感染H.pylori概率会降低0.589倍,差异具有统计意义。(OR=0.589,95%CI:0.416~0.835,P<0.05)。同居的家人有感染H.pylori的人群与不知道同居家人是否感染H.pylori的人群相比,有2.192倍的概率感染H.pylori,差异具有统计意义(OR=2.192,95%CI:1.366~3.517,P<0.05)。家庭居住4~10层的人相比家庭居住1~3层的人,感染H.pylori概率会降低0.557倍,差异具有统计意义(OR=0.557,95%CI:0.376~0.824,P<0.05)。外出有使用公筷的人相比外出没有使用公筷的人,能降低1/3感染H.pylori的概率,差异具有统计意义(OR=0.384,95%CI:0.223~0.66,P<0.05)。一直都不习惯使用公筷与一直有使用公筷习惯相比,会增加感染H.pylori的概率提升1.97倍。差异具有统计意义(OR=1.97,95%CI:1.239~3.132,P<0.05)。
H.pylori感染都以人口传播为主,感染初期没有特别症状。潜伏期长。对地区的饮食生活习惯有关联,本试验以中山市2021年~2022年体检的人群为试验目标,本研究存以人口感染传播途径设计,通过单因素和多因素回归,探索感染H.pylori的特征和高危日常行为。在单因素与多因素logistic回归分析中发现,中午在家煮食的就餐方式,可以降低H.pylori感染概率,推测可能在外堂食或打包的食物源或共餐人员有关。首次将检测者居住楼层也作为研究变量,发现居住低楼层是高风险暴露因素,可能与镇区自建房屋和小区低楼层非二次供水问题有关。胃胀与口气口臭为主要特征,可以作为一定特征因素。研究发现贫血与H.pylori有一定相关性,也符合医学逻辑和证据。使用公筷习惯在预防H.pylori有统计学意义,表明在一定关系降低H.pylori感染风险,进一步推测H.pylori传播通过进食传播。
本实施例提供的方法,能够充分挖掘幽门螺旋杆菌感染患者的临床、慢性基础疾病、生活和行为习惯等特征因素,对众多显著性因素进行分析,以确定不同因素对于幽门螺旋杆菌感染的影响,能够对幽门螺旋杆菌感染的防治起到有效的辅助作用;本发明还建立幽门螺旋杆菌感染患者的预测模型,通过预测模型能够预测患者是否感染幽门螺旋杆菌,而且预测准确度较高。
本申请的一个实施例,提供了一种基于数据挖掘的幽门螺旋杆菌感染预测系统,本系统包括数据获取单元、显著性因素选取单元、二元Logistic回归单元以及感染预测单元,其中:
数据获取单元用于获取多位研究对象的历史病历和问卷资料,从每一位研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素。
显著性因素选取单元用于分别对每一位研究对象的对应多种研究因素进行降维,从降维后的多种研究因素中选取多种显著性因素。
二元Logistic回归单元用于构建二元Logistic回归模型,通过每一位研究对象对应多种显著性因素对二元Logistic回归模型进行训练,得到训练完成的预测模型。
感染预测单元用于根据预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
需要注意的是,本系统实施例与上述的方法实施例是基于相同的发明构思,因此上述方法实施例的内容同样适用于本系统实施例,此处不再赘述。
参照图6,本申请实施例还提供了一种电子设备,本电子设备包括:
至少一个存储器;
至少一个处理器;
至少一个程序;
程序被存储在存储器中,处理器执行至少一个程序以实现本公开实施上述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
该电子设备可以为包括手机、平板电脑、个人数字助理(Personal DigitalAssistant,PDA)、车载电脑等任意智能终端。
电子设备包括:
处理器1600,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本公开实施例所提供的技术方案;
存储器1700,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器1700可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1700中,并由处理器1600来调用执行本公开实施例的基于数据挖掘的幽门螺旋杆菌感染预测方法。
输入/输出接口1800,用于实现信息输入及输出;
通信接口1900,用于实现本设备与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
总线2000,在设备的各个组件(例如处理器1600、存储器1700、输入/输出接口1800和通信接口1900)之间传输信息;
其中处理器1600、存储器1700、输入/输出接口1800和通信接口1900通过总线2000实现彼此之间在设备内部的通信连接。
本公开实施例还提供了一种存储介质,该存储介质是计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令用于使计算机执行上述基于数据挖掘的幽门螺旋杆菌感染预测方法。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本公开实施例描述的实施例是为了更加清楚的说明本公开实施例的技术方案,并不构成对于本公开实施例提供的技术方案的限定,本领域技术人员可知,随着技术的演变和新应用场景的出现,本公开实施例提供的技术方案对于类似的技术问题,同样适用。
本领域技术人员可以理解的是,图中示出的技术方案并不构成对本公开实施例的限定,可以包括比图示更多或更少的步骤,或者组合某些步骤,或者不同的步骤。
以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括多指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序的介质。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (10)

1.一种基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述基于数据挖掘的幽门螺旋杆菌感染预测方法包括:
获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
2.根据权利要求1所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,对所述研究对象的所述多种研究因素进行降维,包括:
通过单因素卡方或者二阶聚类对所述研究对象的所述多种研究因素进行降维。
3.根据权利要求2所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述从降维后的所述多种研究因素中选取多种显著性因素,包括:
对降维后的所述多种研究因素采用向前逐步回归法似然比检验作为自因素筛选,直至选取出用于输入至所述二元Logistic回归模型的多种显著性因素。
4.根据权利要求3所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括步骤:
对经过二元Logistic回归的所述多种显著性因素,根据OR值绘制森林图;
根据所述森林图判断所述显著性因素属于危险因素还是属于保护因素。
5.根据权利要求1所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型,包括:
将所述多位所述研究对象划分为训练组和验证组,其中所述训练组和验证组之间的比例为7.5:2.5;
通过所述训练组中的每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,并通过所述验证组中的每一位所述研究对象对应所述多种显著性因素对训练完成的二元Logistic回归模型进行验证,得到训练完成的预测模型。
6.根据权利要求1所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测之后,所述基于数据挖掘的幽门螺旋杆菌感染预测方法还包括:
以ROC曲线下面积和Hosmer-Lemeshow检验验证所述预测模型的准确性。
7.根据权利要求1至6任一项所述的基于数据挖掘的幽门螺旋杆菌感染预测方法,其特征在于,所述多种研究因素包括如下三个维度的因素:基本信息维度、临床表征维度以及生活和饮食习惯维度。
8.一种基于数据挖掘的幽门螺旋杆菌感染预测系统,其特征在于,所述基于数据挖掘的幽门螺旋杆菌感染预测系统,包括:
数据获取单元,用于获取多位研究对象的历史病历和问卷资料,从每一位所述研究对象的历史病历和问卷资料中提取针对于幽门螺旋杆菌研究的多种研究因素;
显著性因素选取单元,用于分别对每一位所述研究对象的对应所述多种研究因素进行降维,从降维后的所述多种研究因素中选取多种显著性因素;
二元Logistic回归单元,用于构建二元Logistic回归模型,通过每一位所述研究对象对应所述多种显著性因素对所述二元Logistic回归模型进行训练,得到训练完成的预测模型;
感染预测单元,用于根据所述预测模型对目标对象是否感染幽门螺旋杆菌进行预测。
9.一种电子设备,其特征在于:包括至少一个控制处理器和用于与所述至少一个控制处理器通信连接的存储器;所述存储器存储有可被所述至少一个控制处理器执行的指令,所述指令被所述至少一个控制处理器执行,以使所述至少一个控制处理器能够执行如权利要求1至7任一项所述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1至7任一项所述的基于数据挖掘的幽门螺旋杆菌感染预测方法。
CN202211072098.2A 2022-09-02 2022-09-02 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统 Pending CN115458176A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211072098.2A CN115458176A (zh) 2022-09-02 2022-09-02 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211072098.2A CN115458176A (zh) 2022-09-02 2022-09-02 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统

Publications (1)

Publication Number Publication Date
CN115458176A true CN115458176A (zh) 2022-12-09

Family

ID=84300527

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211072098.2A Pending CN115458176A (zh) 2022-09-02 2022-09-02 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统

Country Status (1)

Country Link
CN (1) CN115458176A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884631A (zh) * 2023-09-06 2023-10-13 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116884631A (zh) * 2023-09-06 2023-10-13 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统
CN116884631B (zh) * 2023-09-06 2023-12-12 杭州生奥信息技术有限公司 基于ai和相似患者分析的综合肝衰竭预测与治疗参考系统

Similar Documents

Publication Publication Date Title
Konerman et al. Machine learning models to predict disease progression among veterans with hepatitis C virus
He Missing data analysis using multiple imputation: getting to the heart of the matter
Dai Black residential segregation, disparities in spatial access to health care facilities, and late-stage breast cancer diagnosis in metropolitan Detroit
Wen et al. The effects of childhood, adult, and community socioeconomic conditions on health and mortality among older adults in China
Allen et al. Risk factors for binge eating and purging eating disorders: Differences based on age of onset
Tenório et al. Artificial intelligence techniques applied to the development of a decision–support system for diagnosing celiac disease
Chu et al. A decision support system to facilitate management of patients with acute gastrointestinal bleeding
Wang et al. Development and evaluation of a simple and effective prediction approach for identifying those at high risk of dyslipidemia in rural adult residents
Lin et al. Big data analytical approaches to the NACC dataset: aiding preclinical trial enrichment
Wu et al. Developing screening services for colorectal cancer on Android smartphones
Brown et al. The relationship of perceived neighborhood social climate to walking in Hispanic older adults: a longitudinal, cross-lagged panel analysis
Pinchoff et al. Urbanization and health: the effects of the built environment on chronic disease risk factors among women in Tanzania
Liu et al. Gastro-esophageal reflux disease symptoms and demographic factors as a pre-screening tool for Barrett’s esophagus
Silverman-Retana et al. Cross-sectional association between length of incarceration and selected risk factors for non-communicable chronic diseases in two male prisons of Mexico City
Ehsani-Moghaddam et al. Mucopolysaccharidosis type II detection by Naïve Bayes Classifier: An example of patient classification for a rare disease using electronic medical records from the Canadian Primary Care Sentinel Surveillance Network
Morita et al. Health monitoring using smart home technologies: Scoping review
CN115458176A (zh) 一种基于数据挖掘的幽门螺旋杆菌感染预测方法及系统
Vagianos et al. Association between change in inflammatory aspects of diet and change in IBD-related inflammation and symptoms over 1 year: the Manitoba Living With IBD study
Curry et al. It takes guts to learn: machine learning techniques for disease detection from the gut microbiome
Maor et al. Noninvasive vocal biomarker is associated with severe acute respiratory syndrome coronavirus 2 infection
Leroy et al. Refined lab-score, a risk score predicting serious bacterial infection in febrile children less than 3 years of age
Wang et al. Using machine learning algorithms for predicting cognitive impairment and identifying modifiable factors among Chinese elderly people
Zhou et al. Stool image analysis for digital health monitoring by smart toilets
Bat-Erdene et al. Quality of life in the general population of Mongolia: Normative data on WHOQOL-BREF
Hussan et al. Utility of machine learning in developing a predictive model for early-age-onset colorectal neoplasia using electronic health records

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination