CN111816319A

CN111816319A - 逐步筛选的泌尿系统重疾指标确定方法及风险预测系统

Info

Publication number: CN111816319A
Application number: CN202010688359.8A
Authority: CN
Inventors: 薛付忠; 季晓康; 丁荔洁; 王永超; 杨帆; 李春霞; 李文超; 王睿; 王京彦; 朱俊奉; 肖鹏; 杨伟浩; 王述良
Original assignee: Kangping Medical Health Co ltd; Shandong University; Sunshine Insurance Group Co Ltd
Current assignee: Kangping Medical Health Co ltd; Shandong University; Sunshine Insurance Group Co Ltd
Priority date: 2020-07-16
Filing date: 2020-07-16
Publication date: 2020-10-23

Abstract

本发明公开了一种逐步筛选的泌尿系统重疾指标确定方法及风险预测系统，所述方法包括：获取泌尿系统疾病队列；根据病例纳入标准，从泌尿系统疾病队列中获取泌尿系统疾病病例；从泌尿系统疾病病例中提取与泌尿系统疾病相关的疾病变量，基于相关性分析筛选得到危险指标；基于危险指标构建泌尿系统疾病风险预测模型，构建过程包括：对模型进行多次构建，每次多引入一个新的危险指标，并评价模型的预测性能，直至预测模型的性能不再增强，得到最终的危险指标。本发明能够从已有的大数据资源中，筛选与泌尿系统疾病有关的指标数据，并进行了多级筛选，保障了后续风险预测的准确性。

Description

逐步筛选的泌尿系统重疾指标确定方法及风险预测系统

技术领域

本发明属于医疗大数据处理技术领域，尤其涉及一种逐步筛选的泌尿系统重疾指标确定方法及风险预测系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

泌尿系统疾病包括膀胱癌、终末期肾病等，目前临床上诊断膀胱癌主要依赖于膀胱镜、尿脱落细胞学和影像学检查等，但是膀胱镜可造成不同程度的尿道和膀胱损伤以及感染等并发症；尿脱落细胞学检查具有非侵入性、特异性高等优点，但其敏感性低，易受检测者主观因素的影响；CT和超声检查是目前诊断膀胱癌及术前分期最常用的影像学检查方法，但不易发现膀胱内微小病变，使其对膀胱癌分期预测的价值受到一定限制；TUR-BT主要用于非肌层浸润性膀胱癌的治疗，同时也可为肌层浸润性膀胱癌提供分期依据，但由于手术本身的风险及依从性差限制了其在膀胱癌分期预测上的广泛应用。

目前有关终末期肾病的预测模型大都是评估慢性肾衰向肾衰竭进展风险的预测模型，模型中纳入的人群是已经具有慢性肾病的人，具有一定的局限性。如cox比例风险回归模型建模时未考虑竞争事件，会导致参数估计不准；由国家肾脏疾病临床医学研究中心与平安智慧医疗团队共同研发的人工智能IgA肾病预后风险预测系统，模型所采用的参数是活检相关生理参数，需要用户输入相关参数进行风险预测，普通用户不能进行预测，限制了模型的使用；一些预测模型中使用了胱抑素-C、肾脏组织学检查，这些指标不易从常规检查中获得，限制了应用。

这些模型的应用均需要在一定的前提下，例如已经进行了活检且有相关生理指标数据、已经患病、需要常规检查难以获取的指标数据等，这些模型仅能够供医生使用以作为参考，但未去医院进行准确检查的用户也可能会有疾病预测的需求，虽然这些用户大部分会进行定期体检，但这些数据所包含的指标并不适于采用现有模型进行预测；同时，历史体检数据没有利用起来，导致了数据资源的浪费；

再者，在保险领域，以被保险人的身体健康为保险标的，使其在发生疾病时能够获取一定经济补偿，故保险公司需要对投保用户的健康风险进行评估、判断；目前在传统的保险投保、定价等方面，存在的问题是，保险公司依靠历史投保记录、客户简单告知等对被保险人进行健康风险预测，而这种方式无法准确关联其健康数据，预测准确度低；而且通过某种疾病在整体人群的发生率，并不能具体匹配到个人，无法根据个体健康情况为其提供更合适的个性化保险保障。

发明内容

为克服上述现有技术的不足，本发明提供了一种逐步筛选的泌尿系统重疾指标确定方法及风险预测系统，基于逐步筛选的思想，从已有的便于获取的数据资源中，筛选与泌尿系统重疾有关的指标数据，并基于指标数据建立了泌尿系统重疾发病风险的预测模型，实现了泌尿系统重疾发病概率的预测。

为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

一种逐步筛选的泌尿系统重疾指标确定方法，包括以下步骤：

获取泌尿系统疾病队列；

根据病例纳入标准，从泌尿系统疾病队列中获取泌尿系统疾病病例；

从泌尿系统疾病病例中提取与泌尿系统疾病相关的疾病变量，基于相关性分析筛选得到危险指标；

基于危险指标构建泌尿系统疾病风险预测模型，构建过程包括：对模型进行多次构建，每次多引入一个新的危险指标，并评价模型的预测性能，直至预测模型的性能不再增强，得到最终的危险指标。

一个或多个实施例提供了一种泌尿系统重疾风险预测系统，包括云平台，所述云平台包括：

泌尿系统疾病队列获取模块，获取泌尿系统疾病队列；

泌尿系统疾病病例获取模块，根据病例纳入标准，从泌尿系统疾病队列中获取泌尿系统疾病病例；

危险指标筛选模块，从泌尿系统疾病病例中提取与泌尿系统疾病相关的疾病变量，基于相关性分析筛选得到危险指标；

风险预测模型构建模块，基于危险指标构建泌尿系统疾病风险预测模型；构建过程包括：对模型进行多次构建，每次多引入一个新的危险指标，并评价模型的预测性能，直至预测模型的性能不再增强，得到最终的危险指标。

泌尿系统疾病概率预测模块，接收患病风险预测请求，调取相关历史疾病数据队列，基于泌尿系统疾病预测模型获取泌尿系统疾病发病概率预测结果。以上一个或多个技术方案存在以下有益效果：

本发明基于疾病大数据队列，采用相关性分析等数据挖掘方法充分挖掘了与泌尿系统疾病相关的危险指标，很大程度上弥补了仅进行人工筛选的主观性，且保证了危险指标不被遗漏；并且，结合逐步回归的思想，在模型建立过程中又采用了二次指标筛选，保证了后续预测模型的准确性。

本发明所采用的指标是从医疗大数据中获取的，用户无需进行身体检查也能够基于历史体检数据获取发病概率，能够为用户提供参考以及指导就医。

本发明通过对用户的风险预测报告，为保险公司对被保险人的投保类型和保费定价等提供依据，让保险公司能够根据被保险人疾病风险评估结果，为其推荐更适合的保险产品，提高保险产品销售的精准度以及合适度，并有效规避业务经营中的客户逆选择风险。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的基于逐步筛选的泌尿系统重疾指标确定方法流程图；

图2为本发明实施例1提供的数据标准化方法流程图；

图3为本发明实施例1提供的泌尿系统重疾风险预测系统中工作终端功能架构图；

图4为本发明实施例1提供的泌尿系统重疾风险预测系统中用户终端功能架构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例公开了一种逐步筛选的泌尿系统重疾指标确定方法，针对与患癌、肿瘤等重大疾病相关的指标的确定，如图1所示，所述方法包括：

步骤1：获取泌尿系统疾病队列；

泌尿系统疾病队列基于疾病大数据队列抽取。所述疾病大数据队列基于各地市的医疗信息数据库构建。具体地，所述步骤1包括：

步骤1.1：获取疾病大数据队列；

具体地，根据预设的与疾病有关的字段，查找数据库系统中包含这些字段的数据表；基于查找到的数据表，抽取身份证号、疾病、疾病编码、患病时间等字段，并记录该疾病的数据来源，例如源地市、源数据表，在数据表中的ID等，生成疾病大数据队列。

步骤1.2：对疾病大数据队列进行数据标准化；具体包括：

步骤1.2.1：从疾病大数据队列中筛选样本数据集，将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照，将样本数据中的疾病名称进行标准化；

其中，所述将样本数据中的疾病名称进行标准化包括：创建标准化名称字段，依次按照以下步骤执行标准化：

(1)名称相同对照：获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据，将原疾病名称写入标准化名称字段。

(2)名称相似对照：获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据，将原疾病名称写入标准化名称字段；所述相似性度量可采用余弦相似度、欧氏距离等现有文本相似度方法，在此不做限定。

(3)包含对照：获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据，例如“前列腺炎(非手术治疗)”和“前列腺炎”，将原疾病名称写入标准化名称字段。

(4)经由客户端由用户对样本数据的标准化名称进行人工审核。具体地，人工审核时可按频数将疾病名称进行排序，优先审核频数大的疾病名称。

标准化过程中，系统自动将疾病大数据队列中各疾病名称所对应的对照方式进行记录。本实施例，所述样本数据集选择数据质量较好的医保数据(约60000条)，疾病分类标准采用ICD10编码。

步骤1.2.2：对于疾病大数据队列中未标准化的数据，将疾病名称与样本数据中的原疾病名称进行对照，完成部分疾病名称的标准化；

其中，所述对照方式与步骤2.1相同。具体地，对于疾病名称与样本数据中的原疾病名称满足名称相同、名称相似度大于设定阈值或存在包含关系的数据，将样本数据中原疾病名称对应的标准化名称写入标准化字段。

步骤1.2.3：对于疾病大数据队列中剩余未标准化的数据，将疾病编码与疾病分类标准中的编码进行对照，对于编码对照成功的数据，将疾病分类标准中的编码相应的疾病名称写入标准化字段。

具体地，将疾病编码与疾病分类标准中的编码进行对照分阶段进行：首先与疾病分类标准中的编码全部6位进行对照，其次与前4位进行对照，最后与前2位进行对照。

步骤1.2.4：经由客户端由用户对疾病大数据队列中的标准化名称进行人工审核，由于待标准化的数据量大(约700万)，此处可按频数将疾病名称进行排序，仅审核频数较大的疾病名称；

步骤1.2.5：统计对照率，若对照率超过设定阈值，标准化结束。

本发明针对来源复杂的医疗大数据，基于多个层级的文本匹配方式，获取样本数据的标准化数据，然后基于样本的标准化数据，依次按照名称和编码匹配的方式，完成海量的数据标准化，相较于全部医疗大数据之间与标准数据直接匹配的方式，能够得到更高的标准化率和准确率，且兼顾了标准化的效率。

步骤1.3：基于疾病大数据队列，建立泌尿系统疾病队列。具体包括：

步骤1.3.1：从疾病大数据队列中检索与泌尿系统疾病相关的疾病名称；由于泌尿系统疾病相关的表达形式较多，此处需进行同义词扩展，本领域技术人员可以理解，还可以通过构造逻辑表达式进行检索；

步骤1.3.2：经由客户端由用户对检索得到的泌尿系统疾病相关疾病名称进行审核；本领域技术人员可以理解，该审核可针对数据记录进行单独删减，也可通过构造逻辑表达式进行批量删减；

步骤1.3.3：根据泌尿系统疾病相关疾病名称，从疾病大数据队列中匹配身份证号、性别、地域等数据，得到泌尿系统疾病队列。

步骤2：根据病例纳入标准，从泌尿系统疾病队列中获取泌尿系统疾病病例；

基于所述病例纳入标准获取泌尿系统疾病病例，基于对照组匹配规则为病例样本匹配对照组。具体地，按照病例纳入标准筛选病例样本，一部分用于建模，另一部分用于模型验证。

本实施例是在该队列中开展巢式病例对照研究。

病例纳入标准：在2012年1月1日到2016年12月31日期间有第一次泌尿系统疾病诊断记录的所有患者；

病例排除标准：剔除2012-01-01之前死亡的人，剔除2016-12-31之前患泌尿系统疾病及重疾(恶性肿瘤)的人。

为所有病例按照1:4比例原则，根据年龄、性别匹配相应的对照，采用匹配之后的数据进行数据建模，随机抽取2/3病例作为建模队列病例，剩余1/3病例作为验证队列病例。

步骤3：从泌尿系统疾病病例中提取与泌尿系统疾病相关的疾病变量，基于相关性分析筛选得到危险指标；

所述步骤3具体包括以下步骤：

步骤3.1：将各疾病变量与患泌尿系统疾病事件进行相关性分析，将相关性大于设定阈值的疾病变量作为候选危险指标；本实施例采用非条件logistic回归模型。

(1)根据是否具有疾病变量，构建二值化危险指标矩阵X，其中，每一行对应一个人，每一列对应一类危险指标，矩阵X的第m行第n列X(m,n)表示第m个人是否具有第n类疾病变量，若是，记为1，若否，记为0；

(2)根据是否发生泌尿系统疾病事件，构建二值化泌尿系统疾病矩阵Y，其中，矩阵Y包含一列，每一行对应一个人是否发生泌尿系统疾病事件；

(3)将二值化危险指标矩阵X的每一列与矩阵Y进行相关性分析，得到相关性矩阵R，矩阵R中的各元素表示各疾病变量与泌尿系统疾病的相关性，将相关性大于设定阈值的疾病变量作为候选危险指标。

步骤3.2：基于贝叶斯网络，从候选危险指标中筛选最终危险指标。

贝叶斯网络是一种表示变量间连接概率的图形模式，可用于发现数据间的潜在关系，贝叶斯学习的结果表示为随机变量的概率分布，它可以解释为对不同可能性的信任程度。本实施例将所述步骤5.1中得到的候选危险指标与泌尿系统疾病事件输入贝叶斯网络，得到与泌尿系统疾病事件有关联的候选危险指标作为最终的危险指标。

本领域技术人员可以理解，还可以基于文献、临床数据和国家标准，人为的辅助指标筛选，采用多种指标筛选方法，防止重要指标的遗漏。

步骤4：基于危险指标构建泌尿系统疾病风险预测模型，构建过程包括：对模型进行多次构建，每次多引入一个新的危险指标，通过净重新分类指数评价模型的预测性能，直至预测模型的性能不再增强，得到最终的危险指标。具体包括：

步骤4.1：基于筛选的危险指标采用logistic回归模型进行单因素分析，通过逐步筛选法选择泌尿系统疾病的独立预测因子。检验水准α＝0.05。

logistic回归模型的公式如下：

其中β₀为常数项，β₁，β₂，…，β_p为回归系数，X₁，X₂，…，X_p为自变量，P为预测值。

步骤4.2：将危险指标进行多因素logistic回归分析，结合Gail模型，建立泌尿系统疾病预测模型。

Gail模型是基于山东全人群全生命周期大数据队列人群中膀胱癌的发病风险、竞争事件风险以及多因素非条件logistic回归模型结果，将个体发生膀胱癌的相对风险值转化为绝对风险值，是一种发病风险计算的数学模型。

Gail模型的公式如下：

其中

为年龄别膀胱癌发病率，F(t)＝1-AR，AR为人群归因危险度。r(t)为相对风险，

是生存到t岁的竞争风险概率。

本实施例对模型进行多次构建，每次多引入一个新的危险指标，通过净重新分类指数(Net Reclassification Index，NRI)衡量模型的预测性能，得到预测性能最好的最终预测模型。

具体地，首先基于每个危险指标分别进行单因素建模，得到预测性能最好的初始预测模型，相应的危险指标即为最重要因素；然后，在该初始预测模型的基础上，引入其他危险指标中的一个，进行两因素建模，得到预测性能最好的两因素预测模型，新引入的危险指标即为次重要因素；依次类推，依次引入新的危险指标，直至预测模型的性能不再增强。

其中，每构建一次预测模型，均计算ROC、灵敏度、特异度；然后计算NRI＝(灵敏度test2+特异度test2)-(灵敏度test1+特异度test1)，作为模型性能的衡量指标。若NRI>0，提示在加入了新的预测因子后，新模型的预测能力有所改善，正确分类的比例提高了NRI个百分点。NRI提高越多，变量预测效果越好，变量越重要。

本发明模型的构建采用每次引入一个危险指标的方式，逐步确定与泌尿系统疾病最相关的危险指标，且保证了预测的准确度。

基于此，得到了性能最优的预测模型，同时，对筛选得到的危险指标的重要性进行了排序。

本实施例中，所有统计分析均用R3.5语言完成，数值变量统计描述采用均数±标准差的形式，分类变量采用频数(百分比)的形式，组间比较采用t检验(连续变量)或X²检验(分类变量)。

采用受试者工作特征曲线下面积(area under the ROC curves,AUC)衡量模型的辨别能力。通过R软件加载包“survival”进行Cox风险回归，加载包”pROC”绘制ROC曲线并计算AUC。随机抽取2/3队列人群作为训练组，其余1/3作为校验组进行组内验证。

本实施例首先基于相关性分析初步筛选指标，其次通过单因素回归分析和Gail模型的构建，根据模型性能先后进行单因素和多因素分析，保证了最终指标与泌尿系统疾病的强关联性。

并且，由于指标均是常见指标，使用所受的限制较小，一般用户也能够进行发病风险的预测，能够为用户提供辅助建议，指导用户就医。

在更多实施例中，提供一种膀胱癌疾病指标确定方法，包括：

膀胱癌相关疾病变量包括：输尿管结石、肾结石、膀胱结石、尿道结石、慢性前列腺炎、前列腺增生、血吸虫病、急性前列腺炎、急性膀胱炎、慢性膀胱炎、其他膀胱炎、慢性肾炎综合征、急性肾炎综合征、肾病综合征、血尿、尿潴留、尿频、尿急；其中其他膀胱炎为特殊类型膀胱炎，包括腺性膀胱炎；

最终选择的疾病指标包括：肾结石、前列腺增生、慢性膀胱炎、其他膀胱炎、肾病综合征和血尿，且血尿与膀胱炎对膀胱癌的危险性较大。

在更多实施例中，提供一种终末期肾病疾病指标确定方法，包括：

终末期肾病相关疾病变量包括肾小球肾炎、高血压、糖尿病、肾囊肿、心肌梗死、系统性红斑狼疮、银屑病、肥胖、心功能不全、血脂异常、脑卒中、左心衰、心绞痛；

单因素回归分析后，筛选出的变量包括：

男性相关疾病变量包括肾小球肾炎、高血压、糖尿病、肾囊肿、心肌梗死、系统性红斑狼疮、银屑病、肥胖、心功能不全、血脂异常；

女性相关疾病变量包括高血压、糖尿病、肾囊肿、脑卒中、左心衰、心绞痛、心肌梗死、系统性红斑狼疮、肥胖、心功能不全、血脂异常；

多因素回归分析结果中，在男性模型中包括肾小球肾炎、高血压、糖尿病、肾囊肿、系统性红斑狼疮、银屑病、肥胖、心功能不全；

女性模型中包括高血压、糖尿病、肾囊肿、左心衰、系统性红斑狼疮、肥胖、心功能不全。

实施例二

本实施例的目的是提供一种泌尿系统重疾风险预测系统。所述系统包括：分布式数据库系统、云平台、工作终端和用户终端。其中，

所述分布式数据库系统包括布设在各地市的医疗信息数据库。本实施例中，医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。

所述云平台，包括：

泌尿系统疾病发病概率预测子系统，包括：

疾病大数据队列获取模块，从分布式数据库系统调取疾病大数据队列。

数据标准化模块：对疾病大数据队列进行数据标准化。

泌尿系统疾病队列获取模块，基于疾病大数据队列，建立泌尿系统疾病队列。

病例对照数据获取模块，接收病例纳入标准和对照组匹配规则，从泌尿系统疾病队列中获取泌尿系统疾病病例和对照组数据。

危险指标筛选模块，根据泌尿系统疾病相关疾病变量统计相关危险指标并进行筛选。

泌尿系统疾病风险预测模型构建模块，基于筛选的危险指标构建泌尿系统疾病风险预测模型。

上述模块的具体配置参见实施例一。

健康报告生成子系统，包括：

用户管理模块，用于对注册用户的身份信息进行管理；

疾病应对策略管理模块，用于对各类疾病的注意事项、应对建议进行存储；

泌尿系统疾病概率预测模块，接收用户终端发送的预测请求，调取所述用户的历史疾病数据队列，基于泌尿系统疾病预测模型获取泌尿系统疾病发病概率预测结果；

具体地，对于预测模型中的每个危险指标变量，若该用户患有该危险指标相应的疾病，则对该危险指标变量赋值为1，否则赋值为0，计算该用户的泌尿系统疾病发病概率。

泌尿系统疾病危险指标分析模块，获取该用户有关泌尿系统疾病的危险指标及各危险指标的贡献率；

具体地，各危险指标的贡献率计算方法为：

对于上述赋值为1的每个危险指标变量，分别赋值为0并计算泌尿系统疾病发病概率，得到该用户不患有该危险指标相应的疾病时的发病概率；将其与泌尿系统疾病概率预测模块得到的发病概率作差，得到每个危险指标相应的疾病对该用户得泌尿系统疾病的贡献率。

泌尿系统疾病危险指标指引模块，对于该用户患有的对泌尿系统疾病有影响的疾病，获取相应的应对策略；

健康报告生成模块，用于根据健康信息、泌尿系统疾病发病概率预测结果和泌尿系统疾病危险指标指引结果生成可视化报告。

云平台中预先封装相关数据处理方法，上述的数据处理均在云平台执行，数据不会传输至其他终端，保证了数据的安全，保护了用户的隐私。

本发明采用云平台作为数据汇总和数据处理的核心，与各级地市医疗机构的数据库对接，保证了数据的真实性和完整性，以及数据的安全性。

本发明提供了针对用户的健康评估系统，能够预测用户的泌尿系统疾病发病概率，以及该用户所患与泌尿系统疾病有关疾病的贡献率，给出这些疾病的应对策略，起到引导用户预防泌尿系统疾病的作用。

如图3所示，工作终端，包括：

数据标准化模块，用于对云平台中样本数据标准化结果和全部数据标准化结果进行审核；

泌尿系统疾病相关疾病名称获取模块，用于接收用户输入的与泌尿系统疾病相关的疾病名称，或用于检索疾病名称的逻辑表达式；以及对检索到的疾病名称进行审核；

危险指标确定模块，用于从云平台获取候选危险指标及其贝叶斯网络结构图，接收用户对危险指标的确认和修正并发送至云平台；

模型构建模块，用于接收病例纳入标准、对照组匹配规则以及所采用的模型；

模型修正模块，用于对所采用的模型和模型参数进行修正。

如图4所示，用户终端，包括：

登录认证模块，用于对用户身份进行认证；

健康报告查看模块，用于从云平台获取该用户的健康信息，包括历史体检信息、病例信息等；

泌尿系统疾病概率预测模块，用于从云平台获取泌尿系统疾病发病概率预测结果；

泌尿系统疾病危险指标指引模块，用于从云平台获取该用户有关泌尿系统疾病的危险指标及各危险指标的贡献率；

本领域技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算机装置来实现，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，包括以下步骤：

获取泌尿系统疾病队列；

2.如权利要求1所述的一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，所述获取泌尿系统疾病队列包括：

获取疾病大数据队列，所述疾病大数据队列包括用户身份信息、患病信息、患病时间和数据来源；

对疾病大数据队列进行数据标准化；

基于标准化后的疾病大数据队列，建立泌尿系统疾病队列。

3.如权利要求2所述的一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，对疾病大数据队列进行数据标准化包括：

从疾病大数据队列中筛选样本数据集，将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照，将样本数据中的疾病名称进行标准化；

对于疾病大数据队列中未标准化的数据，将疾病名称与样本数据中的原疾病名称进行对照，对于对照成功的数据，将样本数据中相应的标准化疾病名称完成部分写入标准化字段；

对于疾病大数据队列中剩余未标准化的数据，将疾病编码与疾病分类标准中的编码进行对照，对于编码对照成功的数据，将疾病分类标准中的编码相应的疾病名称写入标准化字段。

4.如权利要求3所述的一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，所述将样本数据中的疾病名称进行标准化包括：

(1)名称相同对照：获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据，将原疾病名称写入标准化名称字段；

(2)名称相似对照：获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据，将原疾病名称写入标准化名称字段；

(3)包含对照：获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据；

(4)经由用户对样本数据的标准化名称进行人工审核。

5.如权利要求1所述的一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，基于相关性分析筛选得到危险指标包括：

将各危险指标与泌尿系统疾病结局事件进行相关性分析，将相关性大于设定阈值的危险指标作为候选危险指标；

基于贝叶斯网络，从候选危险指标中筛选用于建模的危险指标。

6.如权利要求1所述的一种逐步筛选的泌尿系统重疾指标确定方法，其特征在于，风险预测模型构建包括：

基于筛选的危险指标采用logistic回归模型进行单因素分析，通过逐步筛选法选择泌尿系统疾病的独立预测因子；其次进行多因素logistic回归分析，结合Gail模型，建立泌尿系统疾病预测模型。

7.一种泌尿系统重疾风险预测系统，其特征在于，包括云平台，所述云平台包括：

泌尿系统疾病队列获取模块，获取泌尿系统疾病队列；

风险预测模型构建模块，基于危险指标构建泌尿系统疾病风险预测模型；构建过程包括：对模型进行多次构建，每次多引入一个新的危险指标，并评价模型的预测性能，直至预测模型的性能不再增强，得到最终的危险指标；最终的危险指标包括男性危险指标和女性危险指标；

泌尿系统疾病概率预测模块，接收患病风险预测请求，调取相关历史疾病数据队列，基于泌尿系统疾病预测模型获取泌尿系统疾病发病概率预测结果。

8.如权利要求7所述的一种泌尿系统重疾风险预测系统，其特征在于，所述泌尿系统疾病发病概率预测结果计算方法为：

对于预测模型中的每个危险指标变量，若患有该危险指标相应的疾病，则对该危险指标变量赋值为1，否则赋值为0，计算泌尿系统疾病发病概率。

9.如权利要求7所述的一种泌尿系统重疾风险预测系统，其特征在于，泌尿系统疾病概率预测模块还包括，获取患泌尿系统疾病事件的危险指标及各危险指标的贡献率，生成健康报告。

10.如权利要求9所述的一种泌尿系统重疾风险预测系统，其特征在于，所述系统还包括用户终端，与云平台连接，用于生成发病风险预测请求，以及接收云平台发送的泌尿系统疾病发病概率预测结果并进行可视化。