CN111883253A

CN111883253A - 基于医学知识库的疾病数据分析方法和肺癌风险预测系统

Info

Publication number: CN111883253A
Application number: CN202010687427.9A
Authority: CN
Inventors: 薛付忠; 季晓康; 丁荔洁; 王永超; 杨帆; 韩君铭; 马官慧; 王睿; 朱俊奉; 刘真; 肖鹏; 王术良; 徐聪
Original assignee: Kangping Medical Health Co ltd; Shandong University; Sunshine Insurance Group Co Ltd
Current assignee: Kangping Medical Health Co ltd; Shandong University; Sunshine Insurance Group Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-11-03

Abstract

本发明公开了一种基于医学知识库的疾病数据分析方法及肺癌风险预测系统，所述方法包括：根据医学词典，从分布式医疗信息数据库获取疾病大数据队列；根据疾病分类标准，对疾病大数据队列进行数据标准化；基于疾病大数据队列，建立肺癌疾病队列；根据肺癌疾病队列，基于相关分析筛选与肺癌相关的危险指标。基于危险指标能够进行风险预测模型的构建。本发明基于医学知识库，实现了疾病数据、肺癌相关数据的数据提取和结构化，为后续肺癌风险预测提供了数据保障。

Description

基于医学知识库的疾病数据分析方法和肺癌风险预测系统

技术领域

本发明属于医疗大数据处理技术领域，尤其涉及一种基于医学知识库的疾病数据分析方法和肺癌风险预测系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

肺癌发生于支气管粘膜上皮，也称支气管癌，近50年来许多家报道肺癌的发病率明显增高，在男性癌瘤病人中，肺癌局首位，女性发病率迅速增高，占女性常见恶性肿瘤的第2位或第3位。

目前肺癌相关辅助诊断的方式主要集中基于深度学习的图像分析以及基于传统统计学分析的影响指标分析。其中，将深度学习技术应用到早期肺癌检测中，主要包括数据预处理和利用卷积网络检测肺结节，但是这些方法主要将焦点放在识别肺结节区域和非肺结节区域，一方面并未对肺结节的类别进行细致区分，而另一方面肺结节癌变的种类、概率等，与肺结节等相关疾病变量种类等特征关系密切，传统检测卷积网络只能得出患者患肺癌的总概率，无法对患肺癌的相关疾病变量进行区分，往往需要医生进行评估。而传统的模型主要基于流行病调查数据，如年龄、吸烟状态和职业等，在信息收集过程中难免存在信息偏倚；并且，尽管医疗数据来源很多，但数据形式多样。每个地区都有多个医院、门诊等医疗机构，而各个医疗机构对于疾病的记录方式均有自己的习惯，导致数据杂乱，筛选与肺癌相关的数据梳理工作量大，且容易遗漏，缺乏有效的数据规范化方法。

发明内容

为克服上述现有技术的不足，本发明提供了一种基于医学知识库的疾病数据分析方法和肺癌风险预测系统。实现了疾病数据、肺癌相关数据的数据提取和结构化，为后续肺癌风险预测提供了数据保障。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种基于医学知识库的疾病数据分析方法，包括以下步骤：

根据医学词典，从分布式医疗信息数据库获取疾病大数据队列；

根据疾病分类标准，对疾病大数据队列进行数据标准化；

基于疾病大数据队列，建立肺癌疾病队列；

根据肺癌疾病队列，基于相关分析筛选与肺癌相关的危险指标。

一个或多个实施例提供了一种肺癌风险预测系统，包括云平台和分布式数据库系统，所述云平台包括：

疾病队列获取模块，根据医学词典，从分布式医疗信息数据库获取疾病大数据队列；

数据标准化模块，根据疾病分类标准，对疾病大数据队列进行数据标准化；

疾病队列建立模块，基于疾病大数据队列，建立肺癌疾病队列；

危险指标分析模块，根据肺癌疾病队列，基于相关分析筛选与肺癌相关的危险指标；筛选出的危险指标包括慢性阻塞性肺病、心脏病、糖尿病、鼻炎、肺气肿、慢性肾病、慢性支气管炎、肺炎、哮喘；

风险预测模型构建模块，基于筛选的危险指标构建肺癌风险预测模型；

肺癌概率预测模块，接收发病风险预测请求，调取相关历史疾病数据队列，基于肺癌预测模型获取肺癌发病概率预测结果。

以上一个或多个技术方案存在以下有益效果：

本发明针对来源复杂的医疗大数据，基于医学知识库，提取了疾病数据，以及肺癌疾病数据，并实现了结构化和标准化，为后续分析提供了大数据支撑。

本发明还基于疾病大数据队列，在疾病大数据的支撑下，充分挖掘了与肺癌相关的危险指标，尽量保证危险指标的全面性，很大程度上弥补了仅进行人工筛选的主观性；并且保证了后续预测模型的通用性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例中基于医学知识库的疾病数据分析方法流程图；

图2为本发明实施例中数据标准化方法流程图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

本实施例公开了一种基于医学知识库的疾病数据分析方法，包括以下步骤：

步骤1：根据医学词典，从分布式医疗信息数据库获取疾病大数据队列；

所述分布式数据库系统包括布设在各地市的医疗信息数据库。本实施例中，医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。

其中，所述全员人口信息数据库，包括：居民个人基本信息、社保信息、住房信息和居民诚信失信信息。

所述公共卫生数据库，包括：个人健康基本信息、残疾人表、健康体检表、学生体检表、出生医学证明、新生儿家庭访视信息、儿童健康检查信息、产前随访服务信息、分娩记录表、产后访视服务信息、孕检记录表、预防接种卡信息、传染病报告卡、职业病报告卡、食源性疾病卡、死亡医学证明、高血压患者随访表、2型糖尿病患者随访表、重性精神疾病患者管理表、重性精神病患者发病信息、重性精神病患者出院信息、冠心病患者信息、脑卒中患者信息、肿瘤患者信息、肺结核患者随访表、育龄夫妇信息、婚姻信息、生育登记和生育审批信息、妊娠信息、妇女生育史信息、避孕信息、计划生育手术信息、流出人口信息、流入人口信息、门诊摘要信息、住院摘要信息。

所述电子病历数据库，包括：门诊/急诊挂号、门诊/急诊就诊记录、门诊/急诊/住院西药处方、门诊/急诊/住院中药处方、检验记录、检验结果明细、检查记录、入院记录、住院病案首页、中医住院病案首页、出院记录。

所述健康体检数据库，包括：体检报告单、体检项目表、体检项目明细表。

所述医疗保险数据库，包括：基本信息、诊疗信息、医保费用总信息、医保费用明细信息。

所述医学知识库包括医学字典、各个版本的疾病分类标准等医学信息。

所述步骤1具体包括：

步骤1.1：根据医学知识库中的医学字典，查找数据库系统中包含与疾病有关字段的数据表；

步骤1.2：基于查找到的数据表，抽取身份证号、疾病、疾病编码、发病时间等字段，并记录该疾病的数据来源，例如源地市、源数据表，在数据表中的ID等，生成疾病大数据队列。

步骤2：根据疾病分类标准，对疾病大数据队列进行数据标准化；

具体包括以下步骤：

步骤2.1：从疾病大数据队列中筛选样本数据集，将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照，将样本数据中的疾病名称进行标准化；

其中，所述将样本数据中的疾病名称进行标准化包括：创建标准化名称字段，依次按照以下步骤执行标准化：

(1)名称相同对照：获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据，将原疾病名称写入标准化名称字段。

(2)名称相似对照：获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据，将原疾病名称写入标准化名称字段；所述相似性度量可采用余弦相似度、欧氏距离等现有文本相似度方法，在此不做限定。

(3)包含对照：获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据，例如“前列腺炎(非手术治疗)”和“前列腺炎”，将原疾病名称写入标准化名称字段。

(4)经由客户端由用户对样本数据的标准化名称进行人工审核。具体地，人工审核时可按频数将疾病名称进行排序，优先审核频数大的疾病名称。

标准化过程中，系统自动将疾病大数据队列中各疾病名称所对应的对照方式进行记录。本实施例，所述样本数据集选择数据质量较好的医保数据(约60000条)，疾病分类标准采用ICD10编码。

步骤2.2：对于疾病大数据队列中未标准化的数据，将疾病名称与样本数据中的原疾病名称进行对照，完成部分疾病名称的标准化；

其中，所述对照方式与步骤2.1相同。具体地，对于疾病名称与样本数据中的原疾病名称满足名称相同、名称相似度大于设定阈值或存在包含关系的数据，将样本数据中原疾病名称对应的标准化名称写入标准化字段。

步骤2.3：对于疾病大数据队列中剩余未标准化的数据，将疾病编码与疾病分类标准中的编码进行对照，对于编码对照成功的数据，将疾病分类标准中的编码相应的疾病名称写入标准化字段。

具体地，将疾病编码与疾病分类标准中的编码进行对照分阶段进行：首先与疾病分类标准中的编码全部6位进行对照，其次与前4位进行对照，最后与前2位进行对照。

步骤2.4：经由客户端由用户对疾病大数据队列中的标准化名称进行人工审核，由于待标准化的数据量大(约700万)，此处可按频数将疾病名称进行排序，仅审核频数较大的疾病名称；

步骤2.5：统计对照率，若对照率超过设定阈值，标准化结束。

针对来源复杂的医疗大数据，基于多个层级的文本匹配方式，获取样本数据的标准化数据，然后基于样本的标准化数据，依次按照名称和编码匹配的方式，完成海量的数据标准化，相较于全部医疗大数据之间与标准数据直接匹配的方式，能够得到更高的标准化率和准确率，且兼顾了标准化的效率。

步骤3：基于疾病大数据队列，建立肺癌疾病队列。

具体包括以下步骤：

被配置为执行以下步骤：

步骤3.1：从疾病大数据队列中检索与肺癌相关的疾病名称；由于肺癌相关的表达形式较多，此处需进行同义词扩展，本领域技术人员可以理解，还可以通过构造逻辑表达式进行检索；

步骤3.2：经由客户端由用户对检索得到的肺癌相关疾病名称进行审核；本领域技术人员可以理解，该审核可针对数据记录进行单独删减，也可通过构造逻辑表达式进行批量删减；

步骤3.3：根据肺癌相关疾病名称，从疾病大数据队列中匹配身份证号、性别、地域等数据，得到肺癌疾病队列。

接收病例纳入标准和对照组匹配规则，从肺癌疾病队列中获取肺癌病例和对照组数据。基于病例纳入标准获取肺癌病例，基于对照组匹配规则为病例样本匹配对照组。本实施例中，病例纳入标准为：肺癌初次诊断时间在2012年1月1日到2016年12月31日期间，至少有一次纵向观察记录，年龄大于20岁，小于90岁，基线未患癌症；为所有病例按照1:4比例原则，根据年龄、性别匹配相应的对照，采用匹配之后的数据进行数据建模，随机抽取2/3病例作为建模队列病例，剩余1/3病例作为验证队列病例。

步骤4：根据肺癌疾病队列，基于相关分析筛选与肺癌相关的危险指标。

具体包括以下步骤：

步骤4.1：基于肺癌疾病队列，抽取患肺癌事件相应的疾病变量；

所述肺癌相关疾病变量包括慢性阻塞性肺病、心脏病、糖尿病、鼻炎、肺气肿、慢性肾病、慢性支气管炎、肺炎、哮喘、高血压、脑卒中、上呼吸道感染、肥胖；其中心脏病包括：冠心病、心绞痛、心肌梗死、心脏病。

患肺癌事件包括：小细胞肺癌、鳞癌、腺癌、支气管肿瘤和肺癌。

步骤4.2：将各疾病变量与患肺癌事件进行相关性分析，将相关性大于设定阈值的疾病变量作为候选危险指标；本实施例采用非条件logistic回归模型。

(1)根据是否具有疾病变量，构建二值化危险指标矩阵X，其中，每一行对应一个人，每一列对应一类危险指标，矩阵X的第m行第n列X(m,n)表示第m个人是否具有第n类疾病变量，若是，记为1，若否，记为0；

(2)根据是否发生肺癌事件，构建二值化肺癌矩阵Y，其中，矩阵Y包含一列，每一行对应一个人是否发生肺癌事件；

(3)将二值化危险指标矩阵X的每一列与矩阵Y进行相关性分析，得到相关性矩阵R，矩阵R中的各元素表示各疾病变量与肺癌的相关性，将相关性大于设定阈值的疾病变量作为候选危险指标。

步骤4.3：基于贝叶斯网络，从候选危险指标中筛选最终危险指标。

贝叶斯网络是一种表示变量间连接概率的图形模式，可用于发现数据间的潜在关系，贝叶斯学习的结果表示为随机变量的概率分布，它可以解释为对不同可能性的信任程度。本实施例将所述步骤5.1中得到的候选危险指标与肺癌事件输入贝叶斯网络，得到与肺癌事件有关联的候选危险指标作为最终的危险指标。

本领域技术人员可以理解，还可以基于文献、临床数据和国家标准，人为的辅助指标筛选，采用多种指标筛选方法，防止重要指标的遗漏。

本实施例最终选择的危险指标包括：慢性阻塞性肺病、心脏病、糖尿病、鼻炎、肺气肿、慢性肾病、慢性支气管炎、肺炎、哮喘。

本实施例基于疾病大数据队列，采用单因素相关分析、贝叶斯网络和人工查询方法充分挖掘了与肺癌相关的危险指标，很大程度上弥补了仅进行人工筛选的主观性；并且，在疾病大数据的支撑下，保证了危险指标不被遗漏，且保证了后续预测模型的通用性。

实施例二

本实施例公开了一种肺癌风险预测系统。包括：分布式数据库系统、云平台、工作终端和用户终端。其中，

所述云平台，包括：

肺癌发病概率预测子系统，包括：

疾病大数据队列获取模块，从分布式数据库系统调取疾病大数据队列。

数据标准化模块：对疾病大数据队列进行数据标准化。

肺癌疾病队列获取模块，基于疾病大数据队列，建立肺癌疾病队列。

危险指标筛选模块，根据肺癌相关疾病变量统计相关危险指标并进行筛选。

以上模块的具体实现方法参见实施例一。

肺癌风险预测模型构建模块，基于筛选的危险指标构建肺癌风险预测模型。被配置为执行以下步骤：

步骤(1)基于筛选的危险指标采用logistic回归模型进行单因素分析，通过逐步筛选法选择肺癌的独立预测因子。检验水准α＝0.05。

logistic回归模型的公式如下：

其中β₀为常数项，β₁，β₂，…，β_p为回归系数，X₁，X₂，…，X_p为自变量，P为预测值。

单因素回归分析后，筛选出的变量包括慢性阻塞性肺病、心脏病、糖尿病、鼻炎、肺气肿、慢性肾病、慢性支气管炎、肺炎、哮喘、高血压、脑卒中、上呼吸道感染、肥胖；其中心脏病包括：冠心病、心绞痛、心肌梗死、心脏病。

步骤(2)将危险指标进行多因素logistic回归分析，结合Gail模型，建立肺癌疾病预测模型。

Gail模型是基于山东全人群全生命周期大数据队列人群中肺癌的发病风险、竞争事件风险以及多因素非条件logistic回归模型结果，将个体发生肺癌的相对风险值转化为绝对风险值，是一种发病风险计算的数学模型。

Gail模型的公式如下：

其中

为年龄别肺癌发病率，F(t)＝1-AR，AR为人群归因危险度。r(t)为相对风险，

是生存到t岁的竞争风险概率。

多因素logistic回归分析结果中，得到慢性阻塞性肺病、心脏病、糖尿病、鼻炎、肺气肿、慢性肾病、慢性支气管炎、肺炎、哮喘的危险因子。

本实施例对模型进行多次构建，每次多引入一个新的危险指标，通过净重新分类指数(Net Reclassification Index，NRI)衡量模型的预测性能，得到预测性能最好的最终预测模型。具体地，首先基于每个危险指标分别进行单因素建模，得到预测性能最好的初始预测模型，相应的危险指标即为最重要因素；然后，在该初始预测模型的基础上，引入其他危险指标中的一个，进行两因素建模，得到预测性能最好的两因素预测模型，新引入的危险指标即为次重要因素；依次类推，依次引入新的危险指标，直至预测模型的性能不再增强。

其中，每构建一次预测模型，均计算ROC、灵敏度、特异度；然后计算NRI＝(灵敏度test2+特异度test2)-(灵敏度test1+特异度test1)，作为模型性能的衡量指标。若NRI>0，提示在加入了新的预测因子后，新模型的预测能力有所改善，正确分类的比例提高了NRI个百分点。NRI提高越多，变量预测效果越好，变量越重要。

本发明模型的构建采用每次引入一个危险指标的方式，逐步确定与肺癌最相关的危险指标，且保证了预测的准确度。

基于此，得到了性能最优的预测模型，同时，对筛选得到的危险指标的重要性进行了排序。

本实施例中，所有统计分析均用R3.5语言完成，数值变量统计描述采用均数±标准差的形式，分类变量采用频数(百分比)的形式，组间比较采用t检验(连续变量)或卡方检验(分类变量)。

采用受试者工作特征曲线下面积(area under the ROC curves,AUC)衡量模型的辨别能力。通过R软件加载包“survival”进行Cox风险回归，加载包“pROC”绘制ROC曲线并计算AUC。随机抽取2/3队列人群作为训练集，其余1/3作为校验集进行验证。

健康报告生成子系统，包括：

用户管理模块，用于对注册用户的身份信息进行管理；

疾病应对策略管理模块，用于对各类疾病的注意事项、应对建议进行存储；

肺癌概率预测模块，接收用户终端发送的预测请求，调取所述用户的历史疾病数据队列，基于肺癌预测模型获取肺癌发病概率预测结果；

具体地，对于预测模型中的每个危险指标变量，若该用户患有该危险指标相应的疾病，则对该危险指标变量赋值为1，否则赋值为0，计算该用户的肺癌发病概率。

肺癌危险指标分析模块，获取该用户有关肺癌的危险指标及各危险指标的贡献率；

具体地，各危险指标的贡献率计算方法为：

对于上述赋值为1的每个危险指标变量，分别赋值为0并计算肺癌发病概率，得到该用户不患有该危险指标相应的疾病时的发病概率；将其与肺癌概率预测模块得到的发病概率作差，得到每个危险指标相应的疾病对该用户得肺癌的贡献率。

肺癌危险指标指引模块，对于该用户患有的对肺癌有影响的疾病，获取相应的应对策略；

健康报告生成模块，用于根据健康信息、肺癌发病概率预测结果和肺癌危险指标指引结果生成可视化报告。

云平台中预先封装相关数据处理方法，上述的数据处理均在云平台执行，数据不会传输至其他终端，保证了数据的安全，保护了用户的隐私。

本发明采用云平台作为数据汇总和数据处理的核心，与各级地市医疗机构的数据库对接，保证了数据的真实性和完整性，以及数据的安全性。

本发明提供了针对用户的健康评估系统，能够预测用户的肺癌发病概率，以及该用户所患与肺癌有关疾病的贡献率，给出这些疾病的应对策略，起到引导用户预防肺癌的作用。

工作终端，包括：

数据标准化模块，用于对云平台中样本数据标准化结果和全部数据标准化结果进行审核；

肺癌相关疾病名称获取模块，用于接收用户输入的与肺癌相关的疾病名称，或用于检索疾病名称的逻辑表达式；以及对检索到的疾病名称进行审核；

危险指标确定模块，用于从云平台获取候选危险指标及其贝叶斯网络结构图，接收用户对危险指标的确认和修正并发送至云平台；

模型构建模块，用于接收病例纳入标准、对照组匹配规则以及所采用的模型；

模型修正模块，用于对所采用的模型和模型参数进行修正。

用户终端，包括：

登录认证模块，用于对用户身份进行认证；

健康报告查看模块，用于从云平台获取该用户的健康信息，包括历史体检信息、病例信息等；

肺癌概率预测模块，用于从云平台获取肺癌发病概率预测结果；

肺癌危险指标指引模块，用于从云平台获取该用户有关肺癌的危险指标及各危险指标的贡献率；

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种基于医学知识库的疾病数据分析方法，其特征在于，包括以下步骤：

根据疾病分类标准，对疾病大数据队列进行数据标准化；

基于疾病大数据队列，建立肺癌疾病队列；

2.如权利要求1所述的一种基于医学知识库的疾病数据分析方法，其特征在于，获取疾病大数据队列包括：

根据医学字典中的疾病词汇，查找数据库系统中存在字段包含这些疾病词汇的数据表；

基于查找到的数据表，抽取用户身份信息、疾病信息、数据来源，生成疾病大数据队列。

3.如权利要求1所述的一种基于医学知识库的疾病数据分析方法，其特征在于，对疾病大数据队列进行数据标准化包括：

从疾病大数据队列中筛选样本数据集，将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照，将样本数据中的疾病名称进行标准化；

对于疾病大数据队列中未标准化的数据，将疾病名称与样本数据中的原疾病名称进行对照，对于对照成功的数据，将样本数据中相应的标准化疾病名称完成部分写入标准化字段；

对于疾病大数据队列中剩余未标准化的数据，将疾病编码与疾病分类标准中的编码进行对照，对于编码对照成功的数据，将疾病分类标准中的编码相应的疾病名称写入标准化字段。

4.如权利要求3所述的一种基于医学知识库的疾病数据分析方法，其特征在于，所述将样本数据中的疾病名称进行标准化包括：

(1)名称相同对照：获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据，将原疾病名称写入标准化名称字段；

(2)名称相似对照：获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据，将原疾病名称写入标准化名称字段；

(3)包含对照：获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据；

(4)经由用户对样本数据的标准化名称进行人工审核。

5.如权利要求1所述的一种基于医学知识库的疾病数据分析方法，其特征在于，建立肺癌疾病队列包括：根据肺癌相关疾病名称，从疾病大数据队列中匹配身份证号、性别、地域等数据，得到肺癌疾病队列。

6.如权利要求1所述的一种基于医学知识库的疾病数据分析方法，其特征在于，基于相关分析筛选与肺癌相关的危险指标包括：

将各危险指标与肺癌结局事件进行相关性分析，将相关性大于设定阈值的危险指标作为候选危险指标；

基于贝叶斯网络，从候选危险指标中筛选用于建模的危险指标。

7.一种肺癌风险预测系统，其特征在于，包括云平台和分布式数据库系统，所述云平台包括：

8.如权利要求7所述的一种肺癌风险预测系统，其特征在于，所述肺癌发病概率预测结果计算方法为：

对于预测模型中的每个危险指标变量，若患有该危险指标相应的疾病，则对该危险指标变量赋值为1，否则赋值为0，计算肺癌发病概率。

9.如权利要求7所述的一种肺癌风险预测系统，其特征在于，肺癌概率预测模块还包括，获取患肺癌事件的危险指标及各危险指标的贡献率，生成健康报告。

10.如权利要求9所述的一种肺癌风险预测系统，其特征在于，所述系统还包括用户终端，与云平台连接，用于生成发病风险预测请求，以及接收云平台发送的肺癌发病概率预测结果并进行可视化。