CN111816316A - 一种疾病数据调度管理方法和骨癌风险预测系统 - Google Patents
一种疾病数据调度管理方法和骨癌风险预测系统 Download PDFInfo
- Publication number
- CN111816316A CN111816316A CN202010687115.8A CN202010687115A CN111816316A CN 111816316 A CN111816316 A CN 111816316A CN 202010687115 A CN202010687115 A CN 202010687115A CN 111816316 A CN111816316 A CN 111816316A
- Authority
- CN
- China
- Prior art keywords
- disease
- bone cancer
- data
- queue
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 title claims abstract description 175
- 201000010099 disease Diseases 0.000 title claims abstract description 139
- 206010005949 Bone cancer Diseases 0.000 title claims abstract description 130
- 208000018084 Bone neoplasm Diseases 0.000 title claims abstract description 128
- 238000007726 management method Methods 0.000 title claims abstract description 16
- 238000013058 risk prediction model Methods 0.000 claims abstract description 13
- 238000010276 construction Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 16
- 208000017234 Bone cyst Diseases 0.000 claims description 6
- 206010017076 Fracture Diseases 0.000 claims description 6
- 206010031252 Osteomyelitis Diseases 0.000 claims description 6
- 208000010392 Bone Fractures Diseases 0.000 claims description 5
- 208000028528 solitary bone cyst Diseases 0.000 claims description 5
- 208000018650 Intervertebral disc disease Diseases 0.000 claims description 4
- 206010034464 Periarthritis Diseases 0.000 claims description 4
- 206010003246 arthritis Diseases 0.000 claims description 4
- 238000010219 correlation analysis Methods 0.000 claims description 4
- 208000021600 intervertebral disc degenerative disease Diseases 0.000 claims description 4
- 208000001297 phlebitis Diseases 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- 238000000556 factor analysis Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000011160 research Methods 0.000 abstract description 12
- 239000000284 extract Substances 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 10
- 230000036541 health Effects 0.000 description 7
- 230000035945 sensitivity Effects 0.000 description 7
- 238000010200 validation analysis Methods 0.000 description 5
- 210000000988 bone and bone Anatomy 0.000 description 4
- 201000011510 cancer Diseases 0.000 description 4
- 238000007477 logistic regression Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 206010028980 Neoplasm Diseases 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000002860 competitive effect Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000007717 exclusion Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 201000007094 prostatitis Diseases 0.000 description 2
- 230000005855 radiation Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 230000004083 survival effect Effects 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000002193 Pain Diseases 0.000 description 1
- 208000024770 Thyroid neoplasm Diseases 0.000 description 1
- 210000001188 articular cartilage Anatomy 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000001185 bone marrow Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 208000037976 chronic inflammation Diseases 0.000 description 1
- 230000006020 chronic inflammation Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002124 endocrine Effects 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 210000000744 eyelid Anatomy 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000002184 nasal cartilage Anatomy 0.000 description 1
- 238000012148 non-surgical treatment Methods 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 210000003800 pharynx Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000004393 prognosis Methods 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 201000002510 thyroid cancer Diseases 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/08—Insurance
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Pathology (AREA)
- Economics (AREA)
- Primary Health Care (AREA)
- Epidemiology (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- General Health & Medical Sciences (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种疾病数据调度管理方法和骨癌风险预测系统,应用于云平台,包括以下步骤:从分布式医疗信息数据库获取疾病大数据队列,其中,所述疾病大数据队列包括身份信息、疾病信息和数据来源;根据疾病编码标准,对疾病大数据队列进行数据标准化;接收工作终端发送的骨癌疾病队列构建请求,基于标准化后的疾病大数据队列,建立骨癌疾病队列,并为其分配存储空间,同时,向所述工作终端发送隐私设置提醒。还基于骨癌疾病队列建立了骨癌风险预测模型。本发明基于大数据进行疾病队列的提取和危险因素的挖掘,通过存储空间的调度保证了原始数据不被污染以及专项研究的保密性。
Description
技术领域
本发明属于医疗大数据处理技术领域,尤其涉及一种疾病数据调度管理方法和骨癌风险预测系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
骨癌(bone cancer)即恶性骨肿瘤,是发生于骨骼或其附属组织,为四肢骨和关节软骨(不包括骨髓及耳、眼睑、喉、鼻软骨)的恶性肿瘤。恶性骨肿瘤发展迅速,预后不佳,死亡率高。骨恶性肿瘤较为罕见,据WHO统计,骨恶性肿瘤只占人类全部肿瘤的0.2%。骨癌的治疗手段仍然是以手术为主,而手术联合放化疗并不能改善患者远期生存。目前,国内外对骨癌的研究主要集中于临床治疗、骨癌痛的发生机制等方面,尚缺乏基于健康管理队列人群构建的骨癌风险预测模型。
目前对骨癌的危险因素的研究与认识还很匮乏,有报道指出,与骨癌可能有关的病因有感染、慢性炎症、内分泌失调、遗传、辐射等化学污染等因素有关。但没有一个明确的标准来认定可以将哪些指标认定为骨癌的影响因素。并且,这些变量是人为定义的,没有证据证明这些变量与骨癌的密切关联性,这些变量还可能与其他很多疾病相关。再者,针对人群遗传、辐射、化学药物的接触等资料难以获得,增加了构建模型的难度。
目前大多数研究仍是针对自己的研究对象进行数据的采集,医疗大数据来源复杂,且形式多样,理顺多源头、多格式、多类型的医疗大数据,对呈爆炸式增长的医疗大数据进行整合和分析工作量巨大;并且,由于医疗大数据中包含各类疾病的相关数据,各类疾病的专项研究都需要基于这些医疗大数据进行数据提取,而目前医疗大数据通常没有管理措施,容易导致原始数据被污染,或者用户身份等隐私信息被泄露。
发明内容
为克服上述现有技术的不足,本发明提供了一种疾病数据调度管理方法和骨癌风险预测系统,基于大数据进行疾病队列的提取和疾病危险因素的挖掘,通过存储空间的调度保证了原始数据不被污染以及专项研究的保密性。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
一种疾病数据调度管理方法,应用于云平台,包括以下步骤:
从分布式医疗信息数据库获取疾病大数据队列,其中,所述疾病大数据队列包括身份信息、疾病信息和数据来源;
根据疾病编码标准,对疾病大数据队列进行数据标准化;
接收工作终端发送的骨癌疾病队列构建请求,基于标准化后的疾病大数据队列,建立骨癌疾病队列,并为其分配存储空间,同时,向所述工作终端发送隐私设置提醒。
一个或多个实施例提供了一种骨癌风险预测系统,包括云平台,所述云平台包括:
骨癌疾病队列获取模块,基于所述方法获取骨癌疾病队列;
危险因素筛选模块,根据骨癌结局事件统计相关危险因素并进行筛选;
骨癌风险预测模型构建模块,基于筛选的危险因素构建骨癌风险预测模型,并进行模型参数优化和危险因素的再筛选;最终纳入模型的危险因素包括骨囊肿、骨折、骨髓炎、关节炎、静脉炎、肩周炎、椎间盘疾病;
骨癌发病概率预测模块,接收用户终端发送的预测请求,调取所述用户的历史疾病数据队列,基于骨癌预测模型获取骨癌发病概率预测结果。以上一个或多个技术方案存在以下有益效果:
本发明基于云平台实现了医疗大数据的集中管理,并且通过标准化等预处理方法实现了医疗大数据的结构化,便于后续数据的使用;
云平台能够响应于用户的骨癌疾病队列创建请求,创建骨癌疾病队列并为其分配新的存储空间,一方面保证了原始数据的完整性,避免科研工作中造成的数据污染,另一方面保证专项的独立性,针对不同疾病的研究互不干扰,同时,还可对项目数据进行隐私设置,使得不同专项研究的数据之间能够按需交流;
云平台还基于创建的骨癌疾病队列,建立了疾病风险预测模型,能够基于用户的历史健康数据进行风险预测,并且,模型的建立和分析全部在云平台实现,保证了安全和可靠性。
在保险领域,本发明可在客户选择保险产品和对产品定价等方面进行支持,让保险公司能够准确定位适合被保险人的保险产品,同时也能为保险公司未来设计保险产品提供合适的依据,提高保险产品推广的精准度以及合适度。解决目前无法根据被保险人个体健康数据为其规划具有针对性的投保方案,以及根据疾病发生率进行保费定价时无法精准量化客户个人健康水平,为客户提供的保险产品费率单一、针对性差等问题。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例中疾病数据调度管理方法流程图;
图2为本发明实施例中骨癌风险预测系统中工作终端功能架构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例一
本实施例公开了一种疾病数据调度管理方法,应用于云平台,包括以下步骤:
步骤1:从分布式医疗信息数据库获取疾病大数据队列,其中,所述疾病大数据队列包括身份信息、疾病信息和数据来源;
所述分布式数据库系统包括布设在各地市的医疗信息数据库。本实施例中,医疗信息数据库包括分布于山东省各地市的全员人口信息数据库、公共卫生数据库、电子病历数据库、医保数据库、健康体检数据库、死因数据库等。具体包括以下步骤:
步骤1.1:根据预设的与疾病有关的字段,查找数据库系统中包含这些字段的数据表;
步骤1.2:基于查找到的数据表,抽取身份证号、疾病、疾病编码、发病时间等字段,并记录该疾病的数据来源,例如源地市、源数据表,在数据表中的ID等,生成疾病大数据队列。
步骤2:根据疾病编码标准,对疾病大数据队列进行数据标准化;
步骤2.1:从疾病大数据队列中筛选样本数据集,将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化;
其中,所述将样本数据中的疾病名称进行标准化包括:创建标准化名称字段,依次按照以下步骤执行标准化:
(1)名称相同对照:获取疾病名称与疾病分类标准中的疾病名称完全一致的样本数据,将原疾病名称写入标准化名称字段。
(2)名称相似对照:获取疾病名称与疾病分类标准中的疾病名称相似度超过设定阈值的样本数据,将原疾病名称写入标准化名称字段;所述相似性度量可采用余弦相似度、欧氏距离等现有文本相似度方法,在此不做限定。
(3)包含对照:获取疾病名称与疾病分类标准中的疾病名称存在包含关系的样本数据,例如“前列腺炎(非手术治疗)”和“前列腺炎”,将原疾病名称写入标准化名称字段。
(4)经客户端由用户对样本数据的标准化名称进行人工审核。具体地,人工审核时可按频数将疾病名称进行排序,优先审核频数大的疾病名称。
标准化过程中,系统自动将疾病大数据队列中各疾病名称所对应的对照方式进行记录。本实施例,所述样本数据集选择数据质量较好的医保数据(约60000条),疾病分类标准采用ICD10编码。
步骤2.2:对于疾病大数据队列中未标准化的数据,将疾病名称与样本数据中的原疾病名称进行对照,完成部分疾病名称的标准化;
其中,所述对照方式与步骤2.1相同。具体地,对于疾病名称与样本数据中的原疾病名称满足名称相同、名称相似度大于设定阈值或存在包含关系的数据,将样本数据中原疾病名称对应的标准化名称写入标准化字段。
步骤2.3:对于疾病大数据队列中剩余未标准化的数据,将疾病编码与疾病分类标准中的编码进行对照,对于编码对照成功的数据,将疾病分类标准中的编码相应的疾病名称写入标准化字段。
具体地,将疾病编码与疾病分类标准中的编码进行对照并分阶段进行:首先与疾病分类标准中的编码全部6位进行对照,其次与前4位进行对照,最后与前2位进行对照。
步骤2.4:经客户端由用户对疾病大数据队列中的标准化名称进行人工审核,由于待标准化的数据量大(约700万),此处可按频数将疾病名称进行排序,仅审核频数较大的疾病名称;
步骤2.5:统计对照率,若对照率超过设定阈值,标准化结束。
本实施例针对来源复杂的医疗大数据,基于多个层级的文本匹配方式,获取样本数据的标准化数据,然后基于样本的标准化数据,依次按照名称和编码匹配的方式,完成海量的数据标准化,相较于全部医疗大数据之间与标准数据直接匹配的方式,能够得到更高的标准化率和准确率,且兼顾了标准化的效率。
步骤3:接收工作终端发送的骨癌疾病队列构建请求,基于标准化后的疾病大数据队列,建立骨癌疾病队列,并为其分配存储空间,同时,向所述工作终端发送隐私设置提醒。
所述步骤3具体包括:
步骤3.1:工作终端基于疾病大数据队列获取骨癌及其各类表达形式,生成骨癌疾病队列构建请求并发送至云平台;本实施例中,获取骨癌及其各类表达形式的方式为从疾病大数据队列中检索与骨癌相关的疾病名称,具体可进行同义词扩展,还可以通过构造逻辑表达式进行检索;
步骤3.2:云平台接收所述骨癌疾病队列构建请求,根据骨癌相关疾病名称,从疾病大数据队列中匹配身份证号、性别、地域等数据,得到骨癌疾病队列;
步骤3.3:云平台根据数据量大小,为骨癌疾病队列分配存储空间,同时,向所述工作终端发送隐私设置提醒,所述隐私设置包括私密和公开,并且在公开状态下还可选择对谁公开。
本实施例基于云平台实现了医疗大数据的集中管理,并且通过标准化等预处理方法实现了医疗大数据的结构化,便于后续数据的使用;云平台能够响应于用户的骨癌疾病队列创建请求,创建骨癌疾病队列并为其分配新的存储空间,一方面保证了原始数据的完整性,避免科研工作中造成的数据污染,另一方面保证专项的独立性,针对不同疾病的研究互不干扰,同时,还可对项目数据进行隐私设置,使得不同专项研究的数据之间能够按需交流。
实施例二
本实施例公开了一种骨癌风险预测系统,应用于云平台,所述云平台与分布式数据库系统和工作终端通信连接。其中,
所述云平台,包括:
疾病大数据队列获取模块,从分布式数据库系统调取疾病大数据队列。
数据标准化模块:对疾病大数据队列进行数据标准化。
骨癌疾病队列获取模块,基于疾病大数据队列,建立骨癌疾病队列,并进行存储。
隐私设置模块,用于对骨癌疾病队列的访问权限进行设置。
病例对照数据获取模块,接收病例纳入标准和对照组匹配规则,从骨癌疾病队列中获取骨癌病例和对照组数据。具体地,基于所述病例纳入标准获取骨癌病例,基于对照组匹配规则为病例样本匹配对照组。被配置为执行以下步骤:
(1)按照病例纳入标准筛选病例样本,一部分用于建模,另一部分用于模型验证。
本实施例是在该队列中开展巢式病例对照研究。
病例纳入标准:骨癌初次诊断时间在2012年1月1日到2016年12月31日,有明确的临床影像学检查或/和病理学核实信息;病例排除标准:排除2012年之前死亡人数和患有甲状腺癌的人群,且排除2012年至2016年期间所有癌症患者的病例。
符合上述纳入/排除标准要求的共5889例病例,随机抽取2/3病例作为建模队列病例(剩余1/3病例作为验证队列病例),共3926例(男性2692例,女性1234例)。
(2)根据性别、年龄和城乡,按设定比例为病例样本匹配对照组;
按照病例对照1:4的比例选取对照组,要求按照性别、年龄和城乡进行频数匹配,对照组共抽取15704例。病例对照数据共19630例,其中男性13460例,女性6170例。
危险因素筛选模块,根据骨癌结局事件统计相关危险因素并进行筛选。具体地,被配置为执行以下步骤:
本研究队列共纳入男性2555人,女性2125人。队列中骨癌结局和非骨癌结局的两组人的基线特征如表1、表2所示。男性队列中,两组人群的骨囊肿、骨折、骨髓炎、椎间盘疾病的差异有统计学意义;女性队列中,两组人群的骨囊肿、骨折、静脉炎、骨髓炎、关节炎、椎间盘疾病、肩周炎等疾病的差异有统计学意义。
步骤4.1:将各危险因素与骨癌结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;本实施例采用非条件logistic回归模型。
(1)根据是否具有危险因素,构建二值化危险因素矩阵X,其中,每一行对应一个人,每一列对应一类危险因素,矩阵X的第m行第n列X(m,n)表示第m个人是否具有第n类危险因素,若是,记为1,若否,记为0;
(2)根据是否发生骨癌结局事件,构建二值化骨癌矩阵Y,其中,矩阵Y包含一列,每一行对应一个人是否发生骨癌结局事件;
(3)将二值化危险因素矩阵X的每一列与矩阵Y进行相关性分析,得到相关性矩阵R,矩阵R中的各元素表示各危险因素与骨癌的相关性,将相关性大于设定阈值的危险因素作为候选危险因素。
步骤4.2:基于贝叶斯网络,从候选危险因素中筛选最终危险因素。
贝叶斯网络是一种表示变量间连接概率的图形模式,可用于发现数据间的潜在关系,贝叶斯学习的结果表示为随机变量的概率分布,它可以解释为对不同可能性的信任程度。本实施例将所述步骤5.1中得到的候选危险因素与骨癌结局事件输入贝叶斯网络,得到与骨癌结局事件有关联的候选危险因素作为最终的危险因素。
本领域技术人员可以理解,还可以基于文献、临床数据和国家标准,人为的辅助指标筛选,采用多种指标筛选方法,防止重要指标的遗漏。本实施例最终选择的危险因素包括:纳入男性骨癌风险预测模型的预测因子有骨囊肿、骨折、骨髓炎、关节炎,纳入女性骨癌风险预测模型的预测因子有骨囊肿、骨折、骨髓炎、静脉炎、肩周炎、椎间盘疾病。
由于骨癌发病率较低,因此本实施例使用巢式病例对照研究方法和Gail模型相结合的方法计算骨癌绝对发病风险。
骨癌风险预测模型构建模块,基于筛选的危险因素构建骨癌风险预测模型。被配置为执行以下步骤:
步骤5.1:基于筛选的危险因素建立多因素非条件logistic回归模型,通过逐步筛选法选择原发性骨癌的独立预测因子。检验水准α=0.05。
logistic回归模型的公式如下:
其中β0为常数项,β1,β2,…,βp为回归系数,X1,X2,…,Xp为自变量,P为预测值。
步骤5.2:基于Gail模型,建立疾病预测模型。
Gail模型是基于山东全人群全生命周期大数据队列人群中骨癌的发病风险、竞争事件风险以及多因素非条件logistic回归模型结果,将个体发生骨癌的相对风险值转化为绝对风险值,是一种发病风险计算的数学模型。
Gail模型的公式如下:
本实施例对模型进行多次构建,每次多引入一个新的危险因素,通过净重新分类指数(Net Reclassification Index,NRI)衡量模型的预测性能,得到预测性能最好的最终预测模型。
具体地,首先基于每个危险因素分别进行单因素建模,得到预测性能最好的初始预测模型,相应的危险因素即为最重要因素;然后,在该初始预测模型的基础上,引入其他危险因素中的一个,进行两因素建模,得到预测性能最好的两因素预测模型,新引入的危险因素即为次重要因素;依次类推,依次引入新的危险因素,直至预测模型的性能不再增强。
其中,每构建一次预测模型,均计算ROC、灵敏度、特异度;然后计算NRI=(灵敏度test2+特异度test2)-(灵敏度test1+特异度test1),作为模型性能的衡量指标。若NRI>0,提示在加入了新的预测因子后,新模型的预测能力有所改善,正确分类的比例提高了NRI个百分点。NRI提高越多,变量预测效果越好,变量越重要。
基于此,得到了性能最优的预测模型,同时,对筛选得到的危险因素的重要性进行了排序。本实施例基于疾病大数据队列,采用单因素相关分析、贝叶斯网络和人工查询方法充分挖掘了与骨癌相关的危险因素,很大程度上弥补了仅进行人工筛选的主观性;并且,在疾病大数据的支撑下,保证了危险因素不被遗漏,且保证了后续预测模型的通用性。
本实施例中,整个建模过程采用的是服务器版的R3.6实现的,建模过程加载的包主要包括“DBI”、“odbc”、“reshape2”、“Publish”、“sqldf”、“pROC”等。采用受试者工作特征曲线下面积(area under the receiver-operating characteristic curve,AUC)及实际风险与预测风险的比率(O/E)来评价模型的预测能力。基于5年骨癌队列随机抽取2/3病例和2/3健康人群作为训练组,剩余1/3病例和1/3健康人群作为校验组进行组内验证。
本研究采用内部验证法检验模型的稳定性,经模型调整,最终男性选取25-74岁人群进行建模,女性选取20-79岁进行建模。男性建模队列AUC为0.819(95%CI:0.799-0.839),灵敏度为79.80%,特异度为72.90%,O/E值为1.03;男性验证队列AUC为0.817,灵敏度为81.80%,特异度为72.20%,O/E值为1.04。女性建模队列AUC为0.780(95%CI:0.758-0.802),灵敏度为71.50%,特异度为72.20%,O/E值为1.02;女性验证队列AUC为0.755,灵敏度为78.80%,特异度为60.40%,O/E值为0.99。
骨癌发病概率预测模块,接收用户终端发送的预测请求,调取所述用户的历史疾病数据队列,基于骨癌预测模型获取骨癌发病概率预测结果;
具体地,对于预测模型中的每个危险因素变量,若该用户患有该危险因素相应的疾病,则对该危险因素变量赋值为1,否则赋值为0,计算该用户的骨癌发病概率。
骨癌危险因素分析模块,获取该用户有关骨癌的危险因素及各危险因素的贡献率;
具体地,各危险因素的贡献率计算方法为:
对于上述赋值为1的每个危险因素变量,分别赋值为0并计算骨癌发病概率,得到该用户不患有该危险因素相应的疾病时的发病概率;将其与骨癌发病概率预测模块得到的发病概率作差,得到每个危险因素相应的疾病对该用户得骨癌的贡献率。
骨癌危险因素指引模块,对于该用户患有的对骨癌有影响的疾病,获取相应的应对策略;
健康报告生成模块,用于根据健康信息、骨癌发病概率预测结果和骨癌危险因素指引结果生成可视化报告。
云平台中预先封装相关数据处理方法,上述的数据处理均在云平台执行,数据不会传输至其他终端,保证了数据的安全,保护了用户的隐私。
工作终端,包括:
数据标准化模块,用于对云平台中样本数据标准化结果和全部数据标准化结果进行审核;
骨癌相关疾病名称获取模块,用于接收用户输入的与骨癌相关的疾病名称,或用于检索疾病名称的逻辑表达式;以及对检索到的疾病名称进行审核;
危险因素确定模块,用于从云平台获取候选危险因素及其贝叶斯网络结构图,接收用户对危险因素的确认和修正并发送至云平台;
模型构建模块,用于接收病例纳入标准、对照组匹配规则以及所采用的模型;
模型修正模块,用于对所采用的模型和模型参数进行修正。
本领域技术人员应该明白,上述本发明的各模块或各步骤可以用通用的计算机装置来实现,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。本发明不限制于任何特定的硬件和软件的结合。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。
Claims (10)
1.一种疾病数据调度管理方法,应用于云平台,其特征在于,包括以下步骤:
从分布式医疗信息数据库获取疾病大数据队列,其中,所述疾病大数据队列包括身份信息、疾病信息和数据来源;
根据疾病编码标准,对疾病大数据队列进行数据标准化;
接收工作终端发送的骨癌疾病队列构建请求,基于标准化后的疾病大数据队列,建立骨癌疾病队列,并为其分配存储空间,同时,向所述工作终端发送隐私设置提醒。
2.如权利要求1所述的一种疾病数据调度管理方法,其特征在于,接收工作终端发送的骨癌疾病队列构建请求,建立所述疾病队列包括:基于骨癌的各类表达形式,从疾病大数据队列中匹配包含这些表达形式的用户医疗数据记录,得到所述骨癌疾病队列。
3.如权利要求1所述的一种疾病数据调度管理方法,其特征在于,所述对疾病大数据队列进行数据标准化包括:
基于疾病大数据队列抽取样本数据集,根据疾病分类标准对样本数据集进行结构化;
基于结构化后的样本数据集,对疾病大数据队列中的剩余数据进行结构化。
4.如权利要求3所述的一种疾病数据调度管理方法,其特征在于,所述根据疾病分类标准对样本数据集进行结构化包括:
将样本数据中的疾病名称与疾病分类标准中的疾病名称进行对照,将样本数据中的疾病名称进行标准化。
5.如权利要求4所述的一种疾病数据调度管理方法,其特征在于,对疾病大数据队列中的剩余数据进行结构化包括:
将疾病名称与样本数据中的原疾病名称进行对照,对于对照成功的数据,将样本数据中相应的标准化疾病名称完成部分写入标准化字段;
对于疾病大数据队列中剩余未标准化的数据,将疾病编码与疾病分类标准中的编码进行对照,对于编码对照成功的数据,将疾病分类标准中的编码相应的疾病名称写入标准化字段。
6.一种骨癌风险预测系统,其特征在于,包括云平台,所述云平台包括:
骨癌疾病队列获取模块,基于权利要求1-5任一项所述方法获取骨癌疾病队列;
危险因素筛选模块,根据骨癌结局事件统计相关危险因素并进行筛选;
骨癌风险预测模型构建模块,基于筛选的危险因素构建骨癌风险预测模型,并进行模型参数优化和危险因素的再筛选;最终得到的危险因素包括骨囊肿、骨折、骨髓炎、关节炎、静脉炎、肩周炎、椎间盘疾病;
骨癌发病概率预测模块,接收用户终端发送的预测请求,调取所述用户的历史疾病数据队列,基于骨癌预测模型获取骨癌发病概率预测结果。
7.如权利要求6所述的骨癌风险预测系统,其特征在于,危险因素筛选模块,被配置为:
将各危险因素与骨癌结局事件进行相关性分析,将相关性大于设定阈值的危险因素作为候选危险因素;
基于贝叶斯网络,从候选危险因素中筛选用于建模的危险因素。
8.如权利要求6所述的骨癌风险预测系统,其特征在于,构建骨癌风险预测模型包括:基于Gail模型,建立骨癌风险预测模型;模型建立过程中,每次多引入一个新的危险因素,通过净重新分类指数衡量模型的预测性能,得到最优最终预测模型。
9.如权利要求6所述的骨癌风险预测系统,其特征在于,还包括骨癌危险因素分析模块,获取该用户有关骨癌的危险因素及各危险因素的贡献率。
10.如权利要求9所述的骨癌风险预测系统,其特征在于,各危险因素的贡献率计算方法为:
对于该用户具有的危险因素,分别赋值为0并计算骨癌发病概率,得到该用户不具有该危险因素时的发病概率;将其与骨癌发病概率预测模块得到的发病概率作差,得到每个危险因素对该用户得骨癌的贡献率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687115.8A CN111816316A (zh) | 2020-07-16 | 2020-07-16 | 一种疾病数据调度管理方法和骨癌风险预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010687115.8A CN111816316A (zh) | 2020-07-16 | 2020-07-16 | 一种疾病数据调度管理方法和骨癌风险预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111816316A true CN111816316A (zh) | 2020-10-23 |
Family
ID=72865271
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010687115.8A Pending CN111816316A (zh) | 2020-07-16 | 2020-07-16 | 一种疾病数据调度管理方法和骨癌风险预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816316A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669973A (zh) * | 2020-12-30 | 2021-04-16 | 华南师范大学 | 基于大数据深度学习的疾病协同递进预测方法和机器人 |
CN116166698A (zh) * | 2023-01-12 | 2023-05-26 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346629A (zh) * | 2005-11-16 | 2009-01-14 | 儿童医学中心公司 | 评估乳癌风险的方法 |
CN101436231A (zh) * | 2008-11-24 | 2009-05-20 | 中国网通集团宽带业务应用国家工程实验室有限公司 | 医疗文档的录入和调阅方法及装置 |
CN107085666A (zh) * | 2017-05-24 | 2017-08-22 | 山东大学 | 疾病风险评估与个性化健康报告生成系统及方法 |
CN111028947A (zh) * | 2019-12-02 | 2020-04-17 | 布谷鸟吉因健康科技(北京)有限公司 | 一种癌症预防健康管理方法及系统 |
-
2020
- 2020-07-16 CN CN202010687115.8A patent/CN111816316A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101346629A (zh) * | 2005-11-16 | 2009-01-14 | 儿童医学中心公司 | 评估乳癌风险的方法 |
CN101436231A (zh) * | 2008-11-24 | 2009-05-20 | 中国网通集团宽带业务应用国家工程实验室有限公司 | 医疗文档的录入和调阅方法及装置 |
CN107085666A (zh) * | 2017-05-24 | 2017-08-22 | 山东大学 | 疾病风险评估与个性化健康报告生成系统及方法 |
CN111028947A (zh) * | 2019-12-02 | 2020-04-17 | 布谷鸟吉因健康科技(北京)有限公司 | 一种癌症预防健康管理方法及系统 |
Non-Patent Citations (1)
Title |
---|
薛付忠: "大数据背景下整合健康保险&健康维护的理论方法体系", 《山东大学学报(医学版)》, vol. 57, no. 9, pages 1 - 19 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112669973A (zh) * | 2020-12-30 | 2021-04-16 | 华南师范大学 | 基于大数据深度学习的疾病协同递进预测方法和机器人 |
CN116166698A (zh) * | 2023-01-12 | 2023-05-26 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
CN116166698B (zh) * | 2023-01-12 | 2023-09-01 | 之江实验室 | 一种基于通用医疗术语的快速构建队列方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Schminkey et al. | Handling missing data with multilevel structural equation modeling and full information maximum likelihood techniques | |
WO2021151327A1 (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN111816310A (zh) | 一种骨髓血液疾病危险因素贡献率计算及风险预测系统 | |
CN111883253A (zh) | 基于医学知识库的疾病数据分析方法和肺癌风险预测系统 | |
CN111816316A (zh) | 一种疾病数据调度管理方法和骨癌风险预测系统 | |
Fair | Generalized record linkage system–Statistics Canada’s record linkage software | |
Elbattah et al. | Designing care pathways using simulation modeling and machine learning | |
CN111816319A (zh) | 逐步筛选的泌尿系统重疾指标确定方法及风险预测系统 | |
CN111510368B (zh) | 家庭群组识别方法、装置、设备及计算机可读存储介质 | |
Brown et al. | A novel approach for propensity score matching and stratification for multiple treatments: Application to an electronic health record–derived study | |
Rodriguez et al. | Understanding unidentified human remains investigations through the United States census data | |
CN111899888A (zh) | 一种妇科肿瘤疾病风险预测可视化系统 | |
CN103874981A (zh) | 高效率的学生记录匹配 | |
CN115330569A (zh) | 用于儿童肿瘤疾病的负担差异与医疗资源的自动平衡方法 | |
CN111696659A (zh) | 基于医保大数据的肿瘤发病信息监测方法及装置 | |
Cannon-Albright et al. | Creation of a national resource with linked genealogy and phenotypic data: the Veterans Genealogy Project | |
Morrissey et al. | Mental illness in Ireland: simulating its geographical prevalence and the role of access to services | |
CN113628751A (zh) | 胃癌预后预测方法、装置及电子设备 | |
CN111814169B (zh) | 一种消化道疾病数据加密获取方法及风险预测系统 | |
Qian et al. | Evaluation of reporting quality in randomised controlled trials of acupuncture for acute herpes zoster by the CONSORT statement and STRICTA guidelines | |
Kabudula et al. | Evaluation of record linkage of mortality data between a health and demographic surveillance system and national civil registration system in South Africa | |
CN111816318A (zh) | 一种心脏疾病数据队列生成方法和风险预测系统 | |
Dygaszewicz | Transition from traditional census to combined and registers based census | |
CN115587694B (zh) | 用于房屋租金批量评估的数据处理方法、装置及设备 | |
Barnett | Automated detection of over-and under-dispersion in baseline tables in randomised controlled trials |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |