CN115620909B - 一种基于全血细胞计数融合指标hbi的癌症风险评估系统 - Google Patents

一种基于全血细胞计数融合指标hbi的癌症风险评估系统 Download PDF

Info

Publication number
CN115620909B
CN115620909B CN202211377165.1A CN202211377165A CN115620909B CN 115620909 B CN115620909 B CN 115620909B CN 202211377165 A CN202211377165 A CN 202211377165A CN 115620909 B CN115620909 B CN 115620909B
Authority
CN
China
Prior art keywords
hbi
cancer
risk
whole blood
age
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211377165.1A
Other languages
English (en)
Other versions
CN115620909A (zh
Inventor
陈超
左永春
刘明
梁雨朝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inner Mongolia Weishu Data Technology Co ltd
Original Assignee
Inner Mongolia Weishu Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inner Mongolia Weishu Data Technology Co ltd filed Critical Inner Mongolia Weishu Data Technology Co ltd
Priority to CN202211377165.1A priority Critical patent/CN115620909B/zh
Publication of CN115620909A publication Critical patent/CN115620909A/zh
Application granted granted Critical
Publication of CN115620909B publication Critical patent/CN115620909B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Theoretical Computer Science (AREA)
  • Pathology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于全血细胞计数融合指标HBI的癌症风险评估系统,包括以下步骤:获取癌症患者和健康人的人群样本;利用健康人和癌症患者的4项全血细胞计数指标和年龄数据计算出HBI(Hybrid Blood Index)打分,根据样本HBI打分的统计学结果建立癌症HBI风险分类标准;使用4项全血细胞计数指标、年龄和HBI打分建立预测患癌概率的机器学习预测模型;计算出待测样本的HBI打分;对照癌症HBI风险分类标准输出对应的患癌风险;将4项全血细胞计数指标、年龄和HBI打分载入机器学习预测模型,获得患癌预测概率。本发明采用上述的一种基于全血细胞计数融合指标HBI的癌症风险评估系统,提高了癌症筛查工具的便捷性和普及性,对于癌症的筛查具有较高的实际应用价值。

Description

一种基于全血细胞计数融合指标HBI的癌症风险评估系统
技术领域
本发明涉及癌症的风险评估技术领域,尤其是涉及一种基于全血细胞计数融合指标HBI的癌症风险评估系统。
背景技术
随着我国城市化、工业化、老龄化进程的加快,恶性肿瘤已成为危害我国居民生命和健康的主要慢性病之一。根据世界卫生组织国际癌症研究机构(IARC)发布的2020年全球最新癌症负担数据,中国已经成为了名副其实的“癌症大国”。2020年中国新发癌症病例457万例,其中男性248万例,女性209万例,2020年中国癌症死亡病例300万例,其中男性182万例,女性118万例。目前,我国恶性肿瘤发病、死亡数持续上升,每年恶性肿瘤所致的医疗花费超过2200亿。因此,我国应在扩大相关肿瘤的筛查及早诊早治覆盖面、肿瘤临床诊治规范化和同质化推广应用两方面共同发力,降低我国恶性肿瘤死亡率。
现有基于全血细胞计数指标预测癌症的方法需要使用全部的20余项指标进行训练,结构复杂、预测效果不佳、可解释性差,无法将指标数据的高低与癌症直接联系起来,不利于在医疗场所投入使用。这些不利因素大大限制了使用全血细胞计数指标判断患癌风险在医学筛查中的应用。
发明内容
本发明的目的是提供一种基于全血细胞计数融合指标HBI的癌症风险评估系统,可解释性强,效果稳定,便于医务工作者使用,提高了癌症筛查工具的便捷性和普及性,对于癌症的筛查具有较高的实际应用价值。
为实现上述目的,本发明提供了一种基于全血细胞计数融合指标HBI的癌症风险评估系统,可以基于待筛查者HBI打分和癌症HBI风险分类标准输出带筛查者患癌风险,基于机器学习预测模型输出待筛查者患癌预测概率,包括以下步骤:
步骤S1:获取大规模人群样本,分为癌症患者和健康人;
步骤S2:利用健康人和癌症患者的数据建立癌症HBI风险分类标准;
步骤S3:利用健康人和癌症患者的数据建立预测癌症发病概率的机器学习预测模型;
步骤S4:将待测样本数据输入癌症风险评估系统,根据下述公式计算出待测样本的HBI打分:
其中age为年龄,RDW-CV为红细胞体积分布宽度CV,Mono%为单核细胞百分比,Hct为红细胞比容,Lymph%为淋巴细胞百分比,然后根据癌症HBI标准确定对应的患癌风险,将4项全血细胞计数指标、年龄和HBI输入保存好的机器学习模型,获得患癌概率。
优选的,步骤S2具体包括:
步骤S21:计算出每个样本的HBI打分,计算公式为:
步骤S22:将两类样本的HBI以间隔为1划分区间,统计两类样本的HBI打分分布情况;
步骤S23:最后根据统计学结果对多区间进行合并,得出癌症HBI风险分类标准。
优选的,步骤S3具体包括:
步骤S31:将癌症患者的标签定为1,将健康人的标签定为0,将样本的4项全血细胞计数指标、年龄和HBI打分作为特征;
步骤S32:将两类样本均分为训练集和测试集,比例为4:1;
步骤S33:将训练集输入XGboost模型中进行训练,得到机器学习预测模型。
优选的,步骤S4具体包括:
步骤S41:计算出待测样本的HBI值,根据癌症HBI风险分类标准输出对应的患癌风险;
步骤S42:将4项全血细胞计数指标、年龄和HBI打分载入机器学习预测模型,获得患癌预测概率。
优选的,计算公式
其中,年龄(age,单位(岁));红细胞体积分布宽度CV(RDW-CV,单位(%));单核细胞百分比(Mono%,单位(%));红细胞比容(Hct,单位(%));淋巴细胞百分比(Lymph%,单位(%))。
优选的,发现的癌症HBI风险分类标准为:HBI小于3且大于等于1,定为“极低风险”;HBI小于5且不小于3或HBI不小于0且小于1,定为“低风险”;HBI小于8且不小于5,定为“中风险”;HBI大于8,定为“高风险”。
因此,本发明采用上述的一种基于全血细胞计数融合指标HBI的癌症风险评估系统,与现有技术相比,具有以下有益效果:
(1)使用了统计学和机器学习两种方法,创新并简化了癌症筛查预警的模式,可解释性强,效果稳定,便于医务工作者使用;
(2)提高了癌症筛查工具的便捷性和普及性,对于癌症的筛查具有较高的应用价值。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
图1为本发明一种基于全血细胞计数融合指标HBI的癌症风险评估系统的流程图;
图2为统计学结果柱状图;
图3为本发明一种基于全血细胞计数融合指标HBI的癌症风险评估系统实施例实例示范流程图。
具体实施方式
实施例
癌症风险评估系统,其用于基于待筛查者HBI打分和癌症HBI风险分类标准,预测出待筛查者患癌风险;基于机器学习模型,预测出待筛查者患癌预测概率,如图1分为四步:
第一步:获取大规模人群样本,分为癌症患者和健康人两类。其中癌症患者包括肺癌、胃癌、肝癌、食管癌、甲状腺癌、胰腺癌、淋巴癌、白血病、膀胱癌、肾癌、胆囊癌、口腔癌、鼻咽癌、喉癌、骨癌、结直肠癌、前列腺癌、睾丸癌、乳腺癌、宫颈癌、卵巢癌和子宫内膜癌。使用的4项全血细胞计数指标为红细胞体积分布宽度CV(RDW-CV)、单核细胞百分比(Mono%)、红细胞比容(Hct)和淋巴细胞百分比(Lymph%);样本中含有年龄。
第二步:利用健康人和癌症患者的数据计算癌症HBI风险分类标准。首先计算出每个样本的HBI打分,计算公式为:
其中,年龄(age,单位(岁));红细胞体积分布宽度CV(RDW-CV,单位(%));单核细胞百分比(Mono%,单位(%));红细胞比容(Hct,单位(%));淋巴细胞百分比(Lymph%,单位(%))。然后将两类样本的HBI以间隔为1划分区间,统计两类样本的HBI打分分布情况。最后根据统计学结果(图2)对多区间进行合并,得出癌症HBI风险分类标准。癌症HBI风险分类标准如表1:HBI小于3且不小于1,定为“极低风险”;HBI小于5且大于等于3或HBI不小于0且小于1,定为“低风险”;HBI小于8且不小于5,定为“中风险”;HBI大于8,定为“高风险”。
HBI数值所在区域 患癌风险判定
[1,3) 极低风险
[0,1)∪[3,5) 低风险
[5,8) 中风险
[8,+∞) 高风险
表1
第三步:利用健康人和癌症患者的数据建立预测癌症发病概率的机器学习预测模型并保存。首先将癌症患者的标签定为“1”,将健康人的标签定为“0”,将样本的4项全血细胞计数指标、年龄和HBI打分作为特征。然后把两类样本都分为训练集和测试集,比例为4:1。将训练集输入XGboost模型中进行训练,使用测试集进行评估。
第四步:将待测样本数据输入癌症风险评估系统,根据公式:
其中,年龄(age,单位(岁));红细胞体积分布宽度CV(RDW-CV,单位(%));单核细胞百分比(Mono%,单位(%));红细胞比容(Hct,单位(%));淋巴细胞百分比(Lymph%,单位(%)),计算出待测样本的HBI,根据癌症HBI风险分类标准输出对应的患癌风险。将待测样本的4项全血细胞计数指标、年龄和HBI载入保存好的机器学习模型,获得患癌概率。
具体示例见图3,取三个不同年龄的待测样本,计算出HBI打分,待测1号的HBI为7.04,待测2号的HBI为13.74,待测3号的HBI为3.76,根据癌症HBI风险分类标准输出对应的患癌风险;将样本的4项全血细胞计数指标、年龄和HBI打分作为特征输入到保存好的机器学习模型中,获得患癌概率。最后得出待测1号的风险评定为“中风险”,患癌概率为65.36%,待测2号的风险评定为“高风险”,患癌概率为77.37%,待测3号的风险评定为“低风险”,患癌概率为31.73%。
因此,本发明采用上述的一种基于全血细胞计数融合指标HBI的癌症风险评估系统,使用了统计学和机器学习两种方法,创新并简化了癌症筛查预警的模式,可解释性强,效果稳定,便于医务工作者使用,提高了癌症筛查工具的便捷性和普及性,对于癌症的筛查具有较高的应用价值。
最后应说明的是:以上实施例仅用以说明本发明的技术方案而非对其进行限制,尽管参照较佳实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对本发明的技术方案进行修改或者等同替换,而这些修改或者等同替换亦不能使修改后的技术方案脱离本发明技术方案的精神和范围。

Claims (3)

1.一种基于全血细胞计数融合指标HBI的癌症风险评估系统,其特征在于,基于待筛查者HBI打分与癌症HBI风险分类标准确定待筛查者患癌风险,基于机器学习预测模型输出待筛查者患癌预测概率,包括以下步骤:
步骤S1:获取人群样本,分为癌症患者和健康人;
步骤S2:利用健康人和癌症患者的数据确立癌症HBI风险分类标准,首先计算出每个样本的HBI打分,计算公式为:
其中,其中age为年龄,RDW-CV为红细胞体积分布宽度CV,Mono%为单核细胞百分比,Hct为红细胞比容,Lymph%为淋巴细胞百分比;
然后将两类样本的HBI以间隔为1划分区间,统计两类样本的HBI打分分布情况,最后根据统计学结果对多区间进行合并,得出癌症HBI风险分类标准;
步骤S3:利用健康人和癌症患者的数据建立预测患癌概率的机器学习预测模型;
步骤S4:将待测样本数据输入癌症风险评估系统后,根据下述公式计算出HBI:
其中age为年龄,RDW-CV为红细胞体积分布宽度CV,Mono%为单核细胞百分比,Hct为红细胞比容,Lymph%为淋巴细胞百分比,然后根据癌症HBI风险分类标准输出对应的患癌风险,将4项全血细胞计数指标、年龄和HBI载入保存好的机器学习预测模型,获得患癌概率。
2.根据权利要求1所述的一种基于全血细胞计数融合指标HBI的癌症风险评估系统,其特征在于,步骤S3具体包括:
步骤S31:将癌症患者的标签定为1,将健康人的标签定为0,将样本的4项全血细胞计数指标、年龄和HBI打分作为特征;
步骤S32:将两类样本均分为训练集和测试集,比例为4:1;
步骤S33:将训练集输入XGboost模型中进行训练,得到机器学习预测模型。
3.根据权利要求1所述的一种基于全血细胞计数融合指标HBI的癌症风险评估系统,其特征在于,发现的癌症HBI风险分类标准为:HBI小于3且大于等于1,定为“极低风险”;HBI小于5且不小于3或HBI不小于0且小于1,定为“低风险”;
HBI小于8且不小于5,定为“中风险”;HBI大于8,定为“高风险”。
CN202211377165.1A 2022-11-04 2022-11-04 一种基于全血细胞计数融合指标hbi的癌症风险评估系统 Active CN115620909B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211377165.1A CN115620909B (zh) 2022-11-04 2022-11-04 一种基于全血细胞计数融合指标hbi的癌症风险评估系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211377165.1A CN115620909B (zh) 2022-11-04 2022-11-04 一种基于全血细胞计数融合指标hbi的癌症风险评估系统

Publications (2)

Publication Number Publication Date
CN115620909A CN115620909A (zh) 2023-01-17
CN115620909B true CN115620909B (zh) 2023-08-04

Family

ID=84876242

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211377165.1A Active CN115620909B (zh) 2022-11-04 2022-11-04 一种基于全血细胞计数融合指标hbi的癌症风险评估系统

Country Status (1)

Country Link
CN (1) CN115620909B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073220A (zh) * 2016-09-29 2019-07-30 米密德诊断学有限公司 风险评估和疾病分类的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011022552A2 (en) * 2009-08-19 2011-02-24 The Cleveland Clinic Foundation Marker Detection for Characterizing the Risk of Cardiovascular Disease or Complications Thereof
US9474490B2 (en) * 2012-05-03 2016-10-25 Medial Research Ltd. Methods and systems of evaluating a risk of a gastrointestinal cancer
WO2015050921A1 (en) * 2013-10-01 2015-04-09 The Regents Of The University Of Michigan Algorithms to identify patients with hepatocellular carcinoma
US20170140115A1 (en) * 2017-01-24 2017-05-18 Liwei Ma Intelligent stroke risk prediction and monitoring system
US20170147768A1 (en) * 2017-02-06 2017-05-25 Liwei Ma System and method for detecting and monitoring acute myocardial infarction risk
CN115249536A (zh) * 2021-04-27 2022-10-28 北京市结核病胸部肿瘤研究所 单核细胞百分比作为标志物在鉴别涂阴肺结核和肺癌中的应用

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110073220A (zh) * 2016-09-29 2019-07-30 米密德诊断学有限公司 风险评估和疾病分类的方法

Also Published As

Publication number Publication date
CN115620909A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
US10436784B2 (en) Biodosimetry panels and methods
US11796447B2 (en) Systems and methods for using cell granularitry in evaluating immune response to infection
WO2021011352A1 (en) Systems and methods for evaluating immune response to infection
CN113223722B (zh) 基于列线图的肺结节数据库及预测模型的构建方法及系统
CN111524594A (zh) 目标人群血液系统恶性肿瘤筛查系统
CN107885973A (zh) 一种dna修复基因在大肠癌中的临床研究方法
CN112201318A (zh) 实验室指标模型在covid-19患者危险分层中的应用方法
CN115620909B (zh) 一种基于全血细胞计数融合指标hbi的癌症风险评估系统
CN113436673A (zh) 一种用于肝癌预后预测的分子标志物及其应用
CN104251906A (zh) 一种肿瘤标志物
CN103760349B (zh) 一种鉴定恶性胸腔积液的方法
CN116030963A (zh) 一种甲胎蛋白阴性原发性肝细胞癌列线图诊断模型及其构建方法和应用
CN116068156A (zh) 一种基于体液检测慢性病的装置
CN113470754A (zh) 一种用于肿瘤预后评估的基因标志物、评估产品及应用
Hsu et al. Changes of serum copper and zinc levels in patients with nasopharyngeal carcinoma by radiotherapy
CN113355425A (zh) 一种用于预测肺腺癌总生存时间高低分类的标志物及其应用
CN113469227A (zh) 一种用力呼气总量预测方法
US20200251214A1 (en) Liver Fibrosis Assessment Model, Liver Fibrosis Assessment System And Liver Fibrosis Assessment Method
Li et al. Decision tree model to predict ovarian tumor malignancy based on clinical markers and preoperative circulating blood cells
CN114015773B (zh) 全身炎症反应指数在胃肠道弥漫性大b细胞淋巴瘤预后评估中的应用
CN109480771A (zh) 一种卵巢肿块良恶的确定方法及确定装置
CN116047082B (zh) 一种fgl1蛋白用于制备诊断慢性肾脏病的试剂盒的用途
Oyogoa et al. Clinical outcomes of patients referred for asymptomatic neutropenia: A focus on racial disparities in hematology
CN113393901B (zh) 一种基于单核细胞采集肿瘤核酸的胶质瘤分检装置
CN115372604B (zh) 一种用于预测肿瘤患者免疫治疗疗效的标志物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant