CN113539493A - 一种利用多模态风险因素推断癌症风险概率的系统 - Google Patents
一种利用多模态风险因素推断癌症风险概率的系统 Download PDFInfo
- Publication number
- CN113539493A CN113539493A CN202110700737.4A CN202110700737A CN113539493A CN 113539493 A CN113539493 A CN 113539493A CN 202110700737 A CN202110700737 A CN 202110700737A CN 113539493 A CN113539493 A CN 113539493A
- Authority
- CN
- China
- Prior art keywords
- risk
- modal
- cancer
- feature
- fusion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010028980 Neoplasm Diseases 0.000 title claims abstract description 61
- 201000011510 cancer Diseases 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 claims abstract description 36
- 238000012502 risk assessment Methods 0.000 claims abstract description 31
- 238000000034 method Methods 0.000 claims abstract description 25
- 238000010606 normalization Methods 0.000 claims abstract description 10
- 238000007477 logistic regression Methods 0.000 claims abstract description 7
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000013480 data collection Methods 0.000 claims abstract description 5
- 238000007781 pre-processing Methods 0.000 claims abstract description 3
- 238000013507 mapping Methods 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 9
- 238000012216 screening Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000000528 statistical test Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 238000013459 approach Methods 0.000 claims 2
- 230000002708 enhancing effect Effects 0.000 claims 1
- 238000011156 evaluation Methods 0.000 abstract description 6
- 238000013210 evaluation model Methods 0.000 abstract description 3
- 206010058467 Lung neoplasm malignant Diseases 0.000 description 11
- 201000005202 lung cancer Diseases 0.000 description 11
- 208000020816 lung neoplasm Diseases 0.000 description 11
- 230000000391 smoking effect Effects 0.000 description 10
- 208000005718 Stomach Neoplasms Diseases 0.000 description 8
- 235000013305 food Nutrition 0.000 description 8
- 206010017758 gastric cancer Diseases 0.000 description 8
- 201000011549 stomach cancer Diseases 0.000 description 8
- 230000001149 cognitive effect Effects 0.000 description 5
- 206010019375 Helicobacter infections Diseases 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 230000019771 cognition Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 3
- 239000004071 soot Substances 0.000 description 3
- 102000012406 Carcinoembryonic Antigen Human genes 0.000 description 2
- 108010022366 Carcinoembryonic Antigen Proteins 0.000 description 2
- 206010011224 Cough Diseases 0.000 description 2
- 208000019693 Lung disease Diseases 0.000 description 2
- PXHVJJICTQNCMI-UHFFFAOYSA-N Nickel Chemical compound [Ni] PXHVJJICTQNCMI-UHFFFAOYSA-N 0.000 description 2
- 206010073310 Occupational exposures Diseases 0.000 description 2
- 206010036790 Productive cough Diseases 0.000 description 2
- 231100000357 carcinogen Toxicity 0.000 description 2
- 239000003183 carcinogenic agent Substances 0.000 description 2
- 230000001684 chronic effect Effects 0.000 description 2
- 238000010411 cooking Methods 0.000 description 2
- 238000003912 environmental pollution Methods 0.000 description 2
- 230000003203 everyday effect Effects 0.000 description 2
- 238000002575 gastroscopy Methods 0.000 description 2
- 231100000675 occupational exposure Toxicity 0.000 description 2
- 208000024794 sputum Diseases 0.000 description 2
- 210000003802 sputum Anatomy 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 208000006820 Arthralgia Diseases 0.000 description 1
- 206010006458 Bronchitis chronic Diseases 0.000 description 1
- OYPRJOBELJOOCE-UHFFFAOYSA-N Calcium Chemical compound [Ca] OYPRJOBELJOOCE-UHFFFAOYSA-N 0.000 description 1
- 206010008479 Chest Pain Diseases 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 206010009691 Clubbing Diseases 0.000 description 1
- 208000035473 Communicable disease Diseases 0.000 description 1
- 101710198144 Endopolygalacturonase I Proteins 0.000 description 1
- 208000032376 Lung infection Diseases 0.000 description 1
- 101710191566 Probable endopolygalacturonase I Proteins 0.000 description 1
- 206010037660 Pyrexia Diseases 0.000 description 1
- 208000032023 Signs and Symptoms Diseases 0.000 description 1
- 238000003915 air pollution Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000003110 anti-inflammatory effect Effects 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 239000010425 asbestos Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 206010006451 bronchitis Diseases 0.000 description 1
- 229910052791 calcium Inorganic materials 0.000 description 1
- 239000011575 calcium Substances 0.000 description 1
- 229910052804 chromium Inorganic materials 0.000 description 1
- 239000011651 chromium Substances 0.000 description 1
- 150000001845 chromium compounds Chemical class 0.000 description 1
- 208000007451 chronic bronchitis Diseases 0.000 description 1
- 208000013116 chronic cough Diseases 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- HKYGSMOFSFOEIP-UHFFFAOYSA-N dichloro(dichloromethoxy)methane Chemical compound ClC(Cl)OC(Cl)Cl HKYGSMOFSFOEIP-UHFFFAOYSA-N 0.000 description 1
- 239000002283 diesel fuel Substances 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 235000021271 drinking Nutrition 0.000 description 1
- 208000017574 dry cough Diseases 0.000 description 1
- 239000000428 dust Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 235000020983 fruit intake Nutrition 0.000 description 1
- 239000003517 fume Substances 0.000 description 1
- 239000007789 gas Substances 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 239000002085 irritant Substances 0.000 description 1
- 231100000021 irritant Toxicity 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 235000021006 low vegetable intake Nutrition 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 229910052759 nickel Inorganic materials 0.000 description 1
- 150000002816 nickel compounds Chemical class 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007500 overflow downdraw method Methods 0.000 description 1
- 239000003208 petroleum Substances 0.000 description 1
- 125000005575 polycyclic aromatic hydrocarbon group Chemical group 0.000 description 1
- 208000008128 pulmonary tuberculosis Diseases 0.000 description 1
- 239000012857 radioactive material Substances 0.000 description 1
- 239000000941 radioactive substance Substances 0.000 description 1
- 229910052704 radon Inorganic materials 0.000 description 1
- SYUHGPGVQRZVTB-UHFFFAOYSA-N radon atom Chemical compound [Rn] SYUHGPGVQRZVTB-UHFFFAOYSA-N 0.000 description 1
- 229910052895 riebeckite Inorganic materials 0.000 description 1
- 208000017520 skin disease Diseases 0.000 description 1
- 239000000779 smoke Substances 0.000 description 1
- 206010041823 squamous cell carcinoma Diseases 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 239000002912 waste gas Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Health & Medical Sciences (AREA)
- Public Health (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Mathematical Optimization (AREA)
- Theoretical Computer Science (AREA)
- Mathematical Physics (AREA)
- Pathology (AREA)
- Computational Mathematics (AREA)
- Pure & Applied Mathematics (AREA)
- Biomedical Technology (AREA)
- Mathematical Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Evolutionary Biology (AREA)
- Algebra (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开一种利用多模态风险因素推断癌症风险概率的系统,所述系统包括:数据收集模块:用于获取各类癌症高危人群的风险特征数据集和影响各类癌症发病的主要危险因素的数据集,组成多模态数据集;特征提取模块:用于对多模态数据集进行预处理,对预处理后的各种模态数据集分别进行风险特征提取;特征融合模块:确定归一化互信息的多模态融合方式,得到融合特征参数;模型建立模块:使用Logistic回归分析的方法,建立风险评估模型;风险评估模块:通过所述风险评估模型推断各类癌症风险概率。本发明通过构建癌症高危人群的癌症发病危险因素的风险评估模型,实现了基于跨模态融合的癌症风险自动评估和癌症早期风险的量化表示。
Description
技术领域
本发明属于疾病预测领域,具体涉及一种利用多模态风险因素推断癌症风 险概率的系统。
背景技术
不同于传染病的发生有确定的病因,癌症的发病因素多样且常常是复杂综 合作用,多数癌症预防十分困难,癌症风险难以量化,特别是不同肿瘤早筛的 预警程度不同,因此应该因病而异,制定相应的筛查指标,建立科学评估体系 和风险认知指标十分重要。
发明内容
有鉴于此,本发明提出了一种利用多模态风险因素推断癌症风险概率的系 统,用于解决癌症早期风险无法有效量化表示的问题。
本发明第一方面,公开一种利用多模态风险因素推断癌症风险概率的系统, 所述系统包括:
数据收集模块:用于获取各类癌症高危人群的风险特征数据集和影响各类 癌症发病的主要危险因素的数据集,组成多模态数据集;
特征提取模块:用于对多模态数据集进行预处理,对预处理后的各种模态 数据集分别进行风险特征提取;
特征融合模块:确定归一化互信息的多模态融合方式,得到融合特征参数;
模型建立模块:使用Logistic回归分析的方法,建立风险评估模型;
风险评估模块:通过所述风险评估模型推断各类癌症风险概率。
优选的,所述多模态数据集中的数据类型包括文本型数据、图片型数据、 数值型数据。
优选的,所述确定归一化互信息的多模态融合方式,得到融合特征参数之 前还包括:
通过宽度学习系统得到各个模态数据集的宽度学习特征映射,宽度学习系 统包括数据输入层、特征映射层、权重学习层和预测输出层。
优选的,所述宽度学习系统中,特征映射层用于:
将输入的特征数据X随机映射到一组特征节点;
将特征节点随机映射到一组增强节点;
根据特征节点和增强节点得到单个模态数据集的宽度学习特征映射;
计算出所有模态数据集的宽度特征映射,得到增强节点映射条件下的特征 节点作为各个模态数据集的宽度学习特征映射
优选的,所述多模态融合方式具体为:
对于每一个模态的特征数据,分别利用不同的方法提取特征参数;
对各个模态所包含的特征参数进行归一化处理;
对进行归一化处理后的特征参数进行加权融合,生成融合特征参数。
优选的,所述使用Logistic回归分析的方法,建立风险评估模型的过程中, 使用逐步回归法,在方程中每引入一个变量后,对己引入方程的各个自变量进 行统计学检验,检验是否需要剔除一些退化为无统计学意义的自变量,重复上 述双向筛选过程,直到方程外无自变量可引入,方程内无自变量可剔除为止, 得到一个局部最优的回归方程。
优选的,所述建立风险评估模型之后还包括:
设置风险预测规则和评分范围,重新选取测试数据对癌症风险评估模型进 行各项数据的测算,验证癌症风险评估模型的准确度。
本发明第二方面,公开一种电子设备,包括:至少一个处理器、至少一个 存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述 程序指令,以实现权利要求1~7任一项所述的系统。
本发明第三方面,公开一种计算机可读存储介质,所述计算机可读存储介 质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~7任一项所 述的系统。
本发明相对于现有技术具有以下有益效果:
1)本发明收集癌症风险多模态数据集,通过宽度学习系统得到各个模态数 据集的宽度学习特征映射,确定归一化互信息的多模态融合方式,通过归一化 互信息来获取各个模态和输出判别架构的相关性信息来实现特征层的融合,实 现模态间的信息互补减少冗余模态信息且不需要的多余的学习参数得到融合特 征参数。
2)本发明构建癌症高危人群的癌症发病危险因素的风险评估模型,利用风 险评估模型推导癌症高危人群早期风险概率,实现了基于跨模态融合的癌症风 险自动评估和癌症早期风险的量化表示;避免过度依赖常规检测数据和医生、 专家经验,降低了认知评估的难度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明利用多模态风险因素推断癌症风险概率的系统的结构图。
具体实施方式
下面将结合本发明实施方式,对本发明实施方式中的技术方案进行清楚、 完整地描述,显然,所描述的实施方式仅仅是本发明一部分实施方式,而不是 全部的实施方式。基于本发明中的实施方式,本领域普通技术人员在没有做出 创造性劳动前提下所获得的所有其他实施方式,都属于本发明保护的范围。
如图1所示,本发明公开一种利用多模态风险因素推断癌症风险概率的系 统,所述系统包括:数据收集模块10、特征提取模块20、特征融合模块30、模 型建立模块40、模型验证模块50、风险评估模块60;
所述数据收集模块10,用于获取各类癌症高危人群的风险特征数据集和影 响各类癌症发病的主要危险因素的数据集,组成多模态数据集;,所述多模态数 据集中的数据类型包括文本型数据、图片型数据、数值型数据。
具体的,这些风险特征数据分别带有各种癌症类别的标签。针对不同癌症 类型,对这些风险特征数据进行筛选和优化,实现风险特征的分类和聚类,以 便作为癌症风险多模态数据评估的参考数据。比如,肺癌高危人群,即指危险 性较高,比较容易患肺癌的人群。具体特征有:1)、40岁以上的长期吸烟者; 2)长期被动吸烟;3)环境污染、空气污染(柴油燃料中的废气)以及室内小环境 污染(如经常接触煤烟或烹调过程中菜油烟雾和装潢材料中的放射性物资等) 的时间较长,也是引发肺癌的危险因素之一;4)职业上接触致癌物。职业性肺癌 的致癌物有石棉、氡、镍、铬、砷化物、二氯甲醚、铬化合物、镍化合物、煤 烟、焦油、石油中的多环芳烃、矿井空气中污染的放射性物质等;5)慢性肺部疾 病患者。如慢性支气管炎、肺结核等,这些病人患肺癌的危险较一般人高;6) 家族成员中有人患此病,其余家族成员患病的风险亦将增高;7)慢性咳嗽,痰中 带血或痰隐血阳性者,特别是有刺激性干咳、胸痛、低热及反复肺部感染者, 经积极抗炎治疗迁延不愈的;8)、另外,对一些有肺外症状及体征的人,如有杵 状指趾、突发的皮肤病、面色黝黑、高血钙、不明原因关节痛等表现的人。
再比如影响胃癌发病的主要危险因素有用户年龄、性别、PGI/II比值、G-17 水平、幽门螺杆菌感染、腌制食品和油炸食品等。
此外,还需要不断发现可能与各类癌症发生相关的危险因素,通过查阅资 料文献,同时听取参考专家意见,尽可能地将所有与各类癌症发生的危险因素 都纳入到分析范围之内。比如,依据临床专家意见及循证医学文献检索结果得 出,影响肺癌发病的主要危险因素有:肺癌家族史、其他肿瘤家族史、慢性肺部 疾病史、煤烟及油烟污染(经常烹调)、粉尘及有害气体等职业暴露史、吸烟、被 动吸烟、大量饮酒及低蔬果摄入等。另外,相关专家指出,一些肿瘤标记物如 癌胚抗原(CEA),鳞状上皮细胞癌相关抗原(SCC)等也对肺癌发病有影响。在确定 以上各种模型所需危险因素变量之后,要对各模型变量进行赋值,最后确定的 风险评估模型共包括11个变量,其中吸烟变量包括吸烟状态和吸烟支数两个变量。肺癌风险评估模型中的吸烟风险根据吸烟支数赋分时,每天吸烟20支及以 上者,赋分3分;每天吸烟10-20支的赋分2分;每天吸烟1-10支者赋分1分; 以前吸烟,但现在己戒烟者赋分1分;从不吸烟者赋分为0,最后影像分析结果 为良赋分0分,判断结果为恶赋分1分。肺癌风险评估模型的赋分范围为0-12 分,个体得分越高,肺癌风险越高;
所述特征提取模块20,用于对多模态数据集进行预处理,对预处理后的各 种模态数据集分别进行风险特征提取;
所述特征融合模块30,用于通过宽度学习系统得到各个模态数据集的宽度 学习特征映射,确定归一化互信息的多模态融合方式,得到融合特征参数;
所述宽度学习系统包括数据输入层、特征映射层、权重学习层和预测输出 层,所述宽度学习系统中,特征映射层用于:将输入的特征数据X随机映射到 一组特征节点;将特征节点随机映射到一组增强节点;根据特征节点和增强节 点得到单个模态数据集的宽度学习特征映射计算出所有模态数据集的宽度特征 映射,得到增强节点映射条件下的特征节点作为各个模态数据集的宽度学习特 征映射。
所述风所述多模态融合方式具体为:对于每一个模态的特征数据,分别利 用不同的方法提取特征参数;对各个模态所包含的特征参数进行归一化处理; 对进行归一化处理后的特征参数进行加权融合,生成融合特征参数。
本发明通过宽度学习系统得到各个模态数据集的宽度学习特征映射,确定 归一化互信息的多模态融合方式,通过归一化互信息来获取各个模态和输出判 别架构的相关性信息来实现特征层的融合,实现模态间的信息互补减少冗余模 态信息且不需要的多余的学习参数得到融合特征参数,简单实用。
所述模型建立模块40,用于使用Logistic回归分析的方法,建立风险评估 模型;
也就是,通过对于每一个模态的特征数据,分别利用不同的方法进行特征 提取,然后将这些特征进行融合,综合不同模态的特征信息,建立融合后的特 征集合,再利用关联规则算法,得到最终的认知概率和结果。这样既保留了单 个模态的信息特点,又可以综合利用多模态的特征信息,提高了最终认知决策 的可靠性。比如,针对胃镜检查前准确识别高风险人群的初步预筛,可以通过 获取用户年龄、性别、PGI/II比值、G-17水平、幽门螺杆菌感染、腌制食品和 油炸食品等风险因素,构建胃癌(GC)风险预测规则,以便实现10年内胃癌风 险等级和风险指数评估,并针对不同风险分层和单个危险因素水平给出相应提示和建议。
这里,PGI/II比值和G-17水平是检测出来的指标数据,幽门螺杆菌感染、 腌制食品和油炸食品等可以理解为是文本数据,对这两种模态数据首先进行量 化表示,然后基于量化表示构建关联规则,最后进行融合,从而实现了基于跨 模态融合的癌症风险自动认知与评估,避免过度依赖常规检测数据和医生、专 家经验,降低了认知评估的难度。
在实施过程中,并非所有列举出的危险因素都对癌症发生有作用。我们希 望找到一个“最优”模型,使得模型内所有的自变量都对结果变量都有统计学 意义,因此就需要对自变量进行筛选。在筛选变量的过程中,使用的是逐步回 归法,在方程中每引入一个变量后,都要对己引入方程的各个自变量进行统计 学检验,检验是否需要剔除一些退化为无统计学意义的自变量。重复上述双向 筛选过程,直到方程外无自变量可引入,方程内无自变量可剔除为止,进而得 到一个局部“最优”的回归方程。
使用Logistic回归分析建立风险评估模型的过程中,使用逐步回归法,在方 程中每引入一个变量后,对己引入方程的各个自变量进行统计学检验,检验是 否需要剔除一些退化为无统计学意义的自变量,重复上述双向筛选过程,直到 方程外无自变量可引入,方程内无自变量可剔除为止,得到一个局部最优的回 归方程。
所述模型验证模块50:用于设置风险预测规则和评分范围,重新选取测试 数据对癌症风险评估模型进行各项数据的测算,验证癌症风险评估模型的准确 度。以高危人群胃癌风险预测为例:风险预测规则包括七个变量(年龄、性别、 PG I/II比率、G-17水平、幽门螺杆菌感染、腌制食品和油炸食品),评分范围从 0到25。在低风险组(≤11)、中风险组(12-16)或高风险组(17-25)中观察 到的GC患病率分别为1.2%、4.4%和12.3%(P<0.001)。对中、高危人群进行 胃镜检查时,共检出70.8%的GC病例和70.3%的早期GC病例。而根据低风险 比例,内窥镜检查要求可降低66.7%。预测规则具有较好的判别性,曲线下面积 为0.76(P<0.001)。以此可证明本发明风险评估模型的有效性。
所述险评估模块60,用于通过所述风险评估模型推断各类癌症风险概率。
本发明基于多模态融合特征构建了癌症高危人群的癌症发病危险因素的风 险评估模型,利用风险评估模型推导癌症高危人群早期风险概率,实现了基于 跨模态融合的癌症风险自动评估和癌症早期风险的量化表示;避免过度依赖常 规检测数据和医生、专家经验,降低了认知评估的难度。
本发明还公开一种电子设备,包括:至少一个处理器、至少一个存储器、 通信接口和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相 互间的通信;所述存储器存储有可被所述处理器执行的程序指令,所述处理器 调用所述程序指令,以实现本发明所述的系统。
本发明还公开一种计算机可读存储介质,所述计算机可读存储介质存储计 算机指令,所述计算机指令使所述计算机实现本发明所述的系统。所述存储介 质包括:U盘、移动硬盘、存储器ROM、随机存取存储器RAM、磁碟或者光 盘等各种可以存储程序代码的介质。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的 单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也 可以不是物理单元,即可以分布到多个网络单元上。可以根据实际的需要选择 其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在 不付出创造性的劳动的情况下,即可以理解并实施。
以上所述仅为本发明的较佳实施方式而已,并不用以限制本发明,凡在本 发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本 发明的保护范围之内。
Claims (9)
1.一种利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述系统包括:
数据收集模块:用于获取各类癌症高危人群的风险特征数据集和影响各类癌症发病的主要危险因素的数据集,组成多模态数据集;
特征提取模块:用于对多模态数据集进行预处理,对预处理后的各种模态数据集分别进行风险特征提取;
特征融合模块:确定归一化互信息的多模态融合方式,得到融合特征参数;
模型建立模块:使用Logistic回归分析的方法,建立风险评估模型;
风险评估模块:通过所述风险评估模型推断各类癌症风险概率。
2.根据权利要求1所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述多模态数据集中的数据类型包括文本型数据、图片型数据、数值型数据。
3.根据权利要求1所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述确定归一化互信息的多模态融合方式,得到融合特征参数之前还包括:
通过宽度学习系统得到各个模态数据集的宽度学习特征映射,宽度学习系统包括数据输入层、特征映射层、权重学习层和预测输出层。
4.根据权利要求3所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述宽度学习系统中,特征映射层用于:
将输入的特征数据X随机映射到一组特征节点;
将特征节点随机映射到一组增强节点;
根据特征节点和增强节点得到单个模态数据集的宽度学习特征映射;
计算出所有模态数据集的宽度特征映射,得到增强节点映射条件下的特征节点作为各个模态数据集的宽度学习特征映射。
5.根据权利要求4所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述多模态融合方式具体为:
对于每一个模态的特征数据,分别利用不同的方法提取特征参数;
对各个模态所包含的特征参数进行归一化处理;
对进行归一化处理后的特征参数进行加权融合,生成融合特征参数。
6.根据权利要求5所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述使用Logistic回归分析的方法,建立风险评估模型的过程中,使用逐步回归法,在方程中每引入一个变量后,对己引入方程的各个自变量进行统计学检验,检验是否需要剔除一些退化为无统计学意义的自变量,重复上述双向筛选过程,直到方程外无自变量可引入,方程内无自变量可剔除为止,得到一个局部最优的回归方程。
7.根据权利要求1所述利用多模态风险因素推断癌症风险概率的系统,其特征在于,所述建立风险评估模型之后还包括:
设置风险预测规则和评分范围,重新选取测试数据对癌症风险评估模型进行各项数据的测算,验证癌症风险评估模型的准确度。
8.一种电子设备,包括:至少一个处理器、至少一个存储器、通信接口和总线;
其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令,以实现权利要求1~7任一项所述的系统。
9.一种计算机可读存储介质,所述计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机实现权利要求1~7任一项所述的系统。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700737.4A CN113539493A (zh) | 2021-06-23 | 2021-06-23 | 一种利用多模态风险因素推断癌症风险概率的系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110700737.4A CN113539493A (zh) | 2021-06-23 | 2021-06-23 | 一种利用多模态风险因素推断癌症风险概率的系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113539493A true CN113539493A (zh) | 2021-10-22 |
Family
ID=78125706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110700737.4A Pending CN113539493A (zh) | 2021-06-23 | 2021-06-23 | 一种利用多模态风险因素推断癌症风险概率的系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113539493A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092673B (zh) * | 2023-04-10 | 2023-06-16 | 华南理工大学 | 一种便携式多信息融合分析及干预评估系统及其方法 |
CN117976185A (zh) * | 2023-12-05 | 2024-05-03 | 深圳市人民医院 | 一种联合深度学习的乳腺癌风险评估方法与系统 |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247887A (zh) * | 2017-07-27 | 2017-10-13 | 点内(上海)生物科技有限公司 | 基于人工智能帮助肺癌筛查的方法及系统 |
US20200005901A1 (en) * | 2018-06-30 | 2020-01-02 | 20/20 Genesystems, Inc | Cancer classifier models, machine learning systems and methods of use |
CN110916666A (zh) * | 2019-12-11 | 2020-03-27 | 大连医科大学附属第一医院 | 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法 |
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
CN111739641A (zh) * | 2020-06-23 | 2020-10-02 | 杭州和壹医学检验所有限公司 | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 |
CN111739642A (zh) * | 2020-06-23 | 2020-10-02 | 杭州和壹医学检验所有限公司 | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 |
CN111985584A (zh) * | 2020-09-30 | 2020-11-24 | 平安科技(深圳)有限公司 | 基于多模态数据的疾病辅助检测设备、方法、装置及介质 |
US20210027890A1 (en) * | 2019-07-24 | 2021-01-28 | ConnSante BioTech, Inc. | Detecting, evaluating and predicting system for cancer risk |
CN112382392A (zh) * | 2020-11-25 | 2021-02-19 | 珠海圣美生物诊断技术有限公司 | 一种用于肺结节风险性评估的系统 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN112768072A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨医科大学 | 基于影像组学定性算法构建癌症临床指标评估系统 |
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
-
2021
- 2021-06-23 CN CN202110700737.4A patent/CN113539493A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107247887A (zh) * | 2017-07-27 | 2017-10-13 | 点内(上海)生物科技有限公司 | 基于人工智能帮助肺癌筛查的方法及系统 |
US20200005901A1 (en) * | 2018-06-30 | 2020-01-02 | 20/20 Genesystems, Inc | Cancer classifier models, machine learning systems and methods of use |
US20210027890A1 (en) * | 2019-07-24 | 2021-01-28 | ConnSante BioTech, Inc. | Detecting, evaluating and predicting system for cancer risk |
CN110916666A (zh) * | 2019-12-11 | 2020-03-27 | 大连医科大学附属第一医院 | 一种基于多模态mri图像预测手术切除肝细胞癌复发的影像组学特征处理方法 |
CN111461176A (zh) * | 2020-03-09 | 2020-07-28 | 华南理工大学 | 基于归一化互信息的多模态融合方法、装置、介质及设备 |
CN111739641A (zh) * | 2020-06-23 | 2020-10-02 | 杭州和壹医学检验所有限公司 | 一种胃癌风险预测方法、系统、计算机设备及可读存储介质 |
CN111739642A (zh) * | 2020-06-23 | 2020-10-02 | 杭州和壹医学检验所有限公司 | 一种结直肠癌风险预测方法、系统、计算机设备及可读存储介质 |
CN111985584A (zh) * | 2020-09-30 | 2020-11-24 | 平安科技(深圳)有限公司 | 基于多模态数据的疾病辅助检测设备、方法、装置及介质 |
CN112382392A (zh) * | 2020-11-25 | 2021-02-19 | 珠海圣美生物诊断技术有限公司 | 一种用于肺结节风险性评估的系统 |
CN112687327A (zh) * | 2020-12-28 | 2021-04-20 | 中山依数科技有限公司 | 一种基于多任务和多模态的癌症生存分析系统 |
CN112768072A (zh) * | 2021-01-12 | 2021-05-07 | 哈尔滨医科大学 | 基于影像组学定性算法构建癌症临床指标评估系统 |
CN112784801A (zh) * | 2021-02-03 | 2021-05-11 | 紫东信息科技(苏州)有限公司 | 基于文本和图片的双模态胃部疾病分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
罗小虎;王健;董栋;孔蕴馨;李霓;冯小双;: "城市癌症早诊早治项目肺癌高危风险评估模型在真实世界中的效果分析", 中国肿瘤, no. 03, pages 10 - 14 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116092673B (zh) * | 2023-04-10 | 2023-06-16 | 华南理工大学 | 一种便携式多信息融合分析及干预评估系统及其方法 |
CN117976185A (zh) * | 2023-12-05 | 2024-05-03 | 深圳市人民医院 | 一种联合深度学习的乳腺癌风险评估方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102630580B1 (ko) | 호흡기 질병 진단을 위한 질병 시그니처를 이용한 기침 소리 분석 방법 | |
Gracia et al. | Prevalence of intimate partner violence against women in Sweden and Spain: A psychometric study of the ‘Nordic paradox’ | |
Elter et al. | The prediction of breast cancer biopsy outcomes using two CAD approaches that both emphasize an intelligible decision process | |
Engels et al. | Plagiarism detection using feature-based neural networks | |
CN108351862A (zh) | 利用人工智能和用户输入来确定发育进展的方法和装置 | |
CN113539493A (zh) | 一种利用多模态风险因素推断癌症风险概率的系统 | |
CN103730130A (zh) | 一种病理嗓音的检测方法和系统 | |
CN109817336A (zh) | 一种结合影像学分析结果的早期肺癌风险评估模型建立方法 | |
CN105760439A (zh) | 一种基于特定行为共现网络的人物共现关系图谱构建方法 | |
Li et al. | Predicting lung cancers using epidemiological data: A generative-discriminative framework | |
Draghi et al. | Bayesboost: Identifying and handling bias using synthetic data generators | |
Pan et al. | Quality of urban life among older adults in the world major metropolises: A cross-cultural comparative study | |
Davagdorj et al. | A machine-learning approach for predicting success in smoking cessation intervention | |
Xu et al. | Reconstruction of international energy trade networks with given marginal data: A comparative analysis | |
Cohen | Building a Risk Tool for Persons Placed on Federal Post-Conviction Supervision for Child Sexual Exploitation Material Offenses: Documenting the Federal System's Past, Current, and Future Efforts | |
Mossman | Analyzing the performance of risk assessment instruments: A response to Vrieze and Grove (2007) | |
Liu et al. | A scoping review of the clinical application of machine learning in data-driven population segmentation analysis | |
CN112131354B (zh) | 答案筛选方法、装置、终端设备和计算机可读存储介质 | |
Johnson et al. | Modeling behavioral aspects of social media discourse for moral classification | |
Yokota et al. | Crime linkage of sex offences in Japan by multiple correspondence analysis | |
Vickers | Multi-level integrated classifications based on the 2001 census | |
D’Sylva et al. | Analysis of the stages of change model of drug and alcohol treatment readiness among prisoners | |
Rahman | Assessing the risk of repeat intimate partner assault | |
CN116523293A (zh) | 基于融合行为流程图特征的用户风险评估方法 | |
Sachsenmaier et al. | The Abel Assessment for Sexual Interests–2: A critical review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20211022 |