CN115810426A - 用于食管鳞状细胞癌预后的工具、系统及应用 - Google Patents
用于食管鳞状细胞癌预后的工具、系统及应用 Download PDFInfo
- Publication number
- CN115810426A CN115810426A CN202211645213.0A CN202211645213A CN115810426A CN 115810426 A CN115810426 A CN 115810426A CN 202211645213 A CN202211645213 A CN 202211645213A CN 115810426 A CN115810426 A CN 115810426A
- Authority
- CN
- China
- Prior art keywords
- prognosis
- data
- model
- cell carcinoma
- patient
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004393 prognosis Methods 0.000 title claims abstract description 129
- 206010061534 Oesophageal squamous cell carcinoma Diseases 0.000 title claims abstract description 50
- 208000036765 Squamous cell carcinoma of the esophagus Diseases 0.000 title claims abstract description 50
- 208000007276 esophageal squamous cell carcinoma Diseases 0.000 title claims abstract description 50
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 230000003993 interaction Effects 0.000 claims abstract description 14
- 208000000461 Esophageal Neoplasms Diseases 0.000 claims description 30
- 206010030155 Oesophageal carcinoma Diseases 0.000 claims description 30
- 201000004101 esophageal cancer Diseases 0.000 claims description 30
- 206010028980 Neoplasm Diseases 0.000 claims description 28
- 238000012843 least square support vector machine Methods 0.000 claims description 28
- 238000000034 method Methods 0.000 claims description 25
- 238000004422 calculation algorithm Methods 0.000 claims description 23
- 238000010276 construction Methods 0.000 claims description 20
- 206010027476 Metastases Diseases 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000009401 metastasis Effects 0.000 claims description 13
- 238000012706 support-vector machine Methods 0.000 claims description 13
- 238000007405 data analysis Methods 0.000 claims description 10
- 201000011510 cancer Diseases 0.000 claims description 8
- 238000010606 normalization Methods 0.000 claims description 6
- 238000013076 uncertainty analysis Methods 0.000 claims description 6
- 238000012549 training Methods 0.000 claims description 4
- 230000008901 benefit Effects 0.000 abstract description 6
- 230000004083 survival effect Effects 0.000 description 15
- 238000003745 diagnosis Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 9
- 238000007637 random forest analysis Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 5
- 238000000556 factor analysis Methods 0.000 description 5
- 210000001165 lymph node Anatomy 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 206010041823 squamous cell carcinoma Diseases 0.000 description 5
- 230000007170 pathology Effects 0.000 description 4
- 230000007717 exclusion Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 238000013139 quantization Methods 0.000 description 3
- 230000009466 transformation Effects 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 208000036764 Adenocarcinoma of the esophagus Diseases 0.000 description 2
- 206010030137 Oesophageal adenocarcinoma Diseases 0.000 description 2
- 208000009956 adenocarcinoma Diseases 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000011088 calibration curve Methods 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000013480 data collection Methods 0.000 description 2
- 230000034994 death Effects 0.000 description 2
- 231100000517 death Toxicity 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 208000028653 esophageal adenocarcinoma Diseases 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 238000000491 multivariate analysis Methods 0.000 description 2
- 230000001575 pathological effect Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000027311 M phase Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000002512 chemotherapy Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004069 differentiation Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000006185 dispersion Substances 0.000 description 1
- 230000035622 drinking Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037406 food intake Effects 0.000 description 1
- 235000012055 fruits and vegetables Nutrition 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000010837 poor prognosis Methods 0.000 description 1
- 238000001959 radiotherapy Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明提供了一种用于食管鳞状细胞癌预后的工具、系统及应用,包括:处理器和存储介质;其中,存储介质与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析;本发明所述的用于食管鳞状细胞癌预后的工具,能够根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析,具有数据采集方便、准确率高的优点。
Description
技术领域
本发明涉及生物计算机领域,尤其涉及一种用于食管鳞状细胞癌预后的工具、系统及应用。
背景技术
食管癌是全球第八大最常见的癌症,组织学类型主要分为食管鳞状细胞癌(ESCC)和食管腺癌(EAC),死亡率位居全球癌症中排名第七。世界上80%以上的新病例和死亡发生在较不发达地区。组织学上,大约90%的鳞状细胞癌发生在高发地区,60%发生在中国。ESCC的特点是高侵袭性和预后差。尽管采取了手术、放疗、化疗等综合治疗,但患者5年生存率仍低于22%。食管癌发病率的显著地理变异提示环境和遗传因素可能在食管癌的发生发展中起重要作用。已知的食管癌的危险因素包括吸烟和饮酒,而水果和蔬菜的摄入在预防食管癌方面具有很高的可能性;目前,TNM分期系统用于预测ESCC患者的预后,但临床价值有限。由于相同临床分期的ESCC患者的临床病程往往存在较大差异,预测效果并不理想;
因此,一种准确性高的食管鳞状细胞癌预后系统亟待研发。
发明内容
为了克服现有技术的不足,本发明提供了一种食管鳞状细胞癌预后的工具、系统及应用,用于解决前述技术问题中的至少一个。
具体地,其技术方案如下:
一种用于食管鳞状细胞癌预后的工具,包括:
处理器;
存储介质,与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:
根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析。
所述待诊断患者自身的独立预后因素数据,包括,待诊断患者的:
诊断年龄、性别、种族、组织学分级、原发肿瘤以及远处转移中的一种或几种。
一种用于食管鳞状细胞癌预后的系统,包括:
数据采集模块,用于采集原发性食管癌患者数据;
模型构建模块,与所述数据采集模块进行数据交互,用于利用所述原发性食管癌患者数据,构建和训练预后模型;
如上所述的用于食管鳞状细胞癌预后的工具,与所述模型构建模块进行数据交互,用于将所述模型构建模块中已训练的所述预后模型存储至所述用于食管鳞状细胞癌预后的工具中的存储介质中,进行预后判断。
所述模型构建模块,包括:
数据分析单元,与所述数据采集模块进行数据交互,用于对所述原发性食管癌患者数据进行分析,获得影响预后的独立预后因素数据;
构建单元,与所述数据分析单元进行数据交互,用于利用所述独立预后因素数据构建所述预后模型;
所述构建单元与所述用于食管鳞状细胞癌预后的工具中的存储介质连接,用于存储所述预后模型。
所述构建单元与所述数据分析单元连接,用于利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型。
所述构建单元接收所述独立预后因素数据,用于通过以下步骤构建所述预后模型:
将所述独立预后因素数据中的任一数据进行数据归一后,构建云模型;
利用逆向云发生器算法,求得所述云模型的数字特征(Ex,En,He);
根据所述数字特征中En的值进行不确定性分析,获取不确定性较大的因素和不确定性较小的因素;
对于所述不确定性较小的因素,利用最小二乘支持向量机进行回归运算,获取预测值;
对于所述不确定性较大的因素,利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;
根据所述预测值对对应的所述独立预后因素数据进行预后。
所述“利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值”,包括:
利用所述云模型中的期望Ex代替所述最小二乘支持向量机中的惩罚参数C,同时利用所述云模型中的熵En代替所述最小二乘支持向量机中的核函数参数,得到的初步预测结果;
将所述初步预测结果进行加权计算,获得所述预测值。
所述“将所述初步预测结果进行加权计算,获得所述预测值”,包括:
所述初步预测结果中节点的权值运算公式如下:
所述预测值的表达式为:
一种预后的方法,包括:
采集任一原发性癌症患者的数据;
对所述原发性食管癌患者数据进行分析,获得影响预后的独立预后因素数据;
利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型;
根据待诊断患者自身的独立预后因素数据通过所述预后模型对所述待诊断患者进行预后分析;
所述“利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型”,包括如下步骤:
将所述独立预后因素数据中的任一数据进行数据归一后,构建云模型;
利用逆向云发生器算法,求得所述云模型的数字特征(Ex,En,He);
根据所述数字特征中En的值进行不确定性分析,获取不确定性较大的因素和不确定性较小的因素;
对于所述不确定性较小的因素,利用最小二乘支持向量机进行回归运算,获取预测值;
对于所述不确定性较大的因素,利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;
根据所述预测值对对应的所述独立预后因素数据进行预后。
一种如上所述的方法在食管鳞状细胞癌预后方向上的应用。
本发明至少具有以下有益效果:
本发明所述的用于食管鳞状细胞癌预后的工具,能够根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析;本发明所述的用于食管鳞状细胞癌预后的工具,数据采集方便、准确率高,适合对病人进行食管鳞状细胞癌的预后;
本发明所述的系统,通过数据采集模块采集原发性食管癌患者数据;并且,通过模型构建模块利用所述原发性食管癌患者数据,构建和训练预后模型;并将该模型存储于用于食管鳞状细胞癌预后的工具中,进行预后判断;本发明所述的系统仅仅应用待诊断患者自身的独立预后因素数据,结合机器算法,具有预后客观、准确的优点。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明所述系统的系统框图;
图2为利用云模型优化最小二乘支持向量机的流程图;
图3为食管鳞癌患者的排出和纳入图;
图4为关于诊断年龄数据的第一云图;
图5为关于诊断年龄数据的第二云图;
图6为诊断年龄数据与性别数据的第一组合云图;
图7为诊断年龄数据与性别数据的第二组合云图;
图8为SEER数据库中按诊断年龄分层的6年Kaplan-Meier曲线;
图9为SEER数据库中按种族分层的6年Kaplan-Meier曲线;
图10为SEER数据库中按性别分层的6年Kaplan-Meier曲线;
图11为SEER数据库中按T期分层的6年Kaplan-Meier曲线;
图12为SEER数据库中按M期分层的6年Kaplan-Meier曲线;
图13为SEER数据库中按肿瘤等级分层的6年Kaplan-Meier曲线;
图14为年龄、种族、性别、T期、M期和肿瘤等级相关性分析曲线;
图15为Cloud-LSSVM组合预测模型4年OS校准曲线。
具体实施方式
本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
为了解决现有技术中的缺点,本实施例引入机器学习进行预后分析,能够完美解决食管鳞状细胞癌预后的实际应用问题。
具体实施例I:
本发明提供一种实施例:
如图1,一种用于食管鳞状细胞癌预后的系统,包括:数据采集模块100和模型构建模块200;其中,数据采集模块100用于采集原发性食管癌患者数据;模型构建模块200与所述数据采集模块100进行数据交互,用于利用所述原发性食管癌患者数据,构建和训练预后模型;
其中,所述模型构建模块200,包括:数据分析单元201和构建单元202;其中,数据分析单元201与所述数据采集模块100进行数据交互,用于对所述原发性食管癌患者数据进行分析,获得影响预后的独立预后因素数据;构建单元202与所述数据分析单元201进行数据交互,用于利用所述独立预后因素数据构建所述预后模型;数据采集模块100可以是任意从美国国立卫生研究院的SEERSurveillance,Epidemiology,and End Results数据库下载数据的设备;
具体的,在本实施例中的数据采集过程中,通过SEER*Stat软件(v8.3.6,https://seer.cancer.gov/seerstat/)从美国国立卫生研究院的SEER(Surveillance,Epidemiology,and End Results)数据库(http://seer.cancer.gov/)里下载1973-2015年的所有原发性食管癌患者数据。排除标准为:①患者的个人基本信息缺失的,例如诊断年龄,性别、种族等;②TNM分期、肿瘤大小、淋巴结个数等未知;③病理类型非腺癌或者鳞癌。我们提取并分析了患者的种族、年龄、性别、城市、肿瘤位置、分化程度、肿瘤-淋巴结-转移(tumor-node-metastasis,TNM)、组织学等级、组织学类型、肿瘤大小、淋巴结个数、生存状态和时间等变量,按照第七版美国癌症联合会(American Joint Committee on Cancer,AJCC)食管癌分期方案对所有患者的T、N、M进行分期。患者的排出和纳入标准如图3所示。验证数据是来自河南省疾控中心的2003年到2016年的林州市食管癌病人,排出和纳入标准与SEER数据相同;
其中,数据分析单元201与所述数据采集模块100连接,用于利用下述步骤,获得影响预后的独立预后因素数据:
获取所述原发性食管癌患者数据中食管癌患者各项临床特征的生存期P值的方法是;
利用log-rank方法对所述生存期P值进行分析,选取P<0.001的因素作为危险因素;将所述有意义的危险因素引入Cox比例风险模型进行多变量分析,得到食管癌预后的独立因素。
在具体操作时,获取食管癌预后的独立因素的过程中,具体步骤为:
首先计算食管癌患者各项临床特征的相关性和相关系数的显著性水平;然后利用log-rank方法分析危险因素并通过K-M法绘制生存曲线;之后将单因素分析的有意义的危险因素引入Cox比例风险模型进行多变量分析,得到食管癌预后的独立因素,其中检验标准定义为P<0.001具有统计学意义,以上计算使用了RStudio Version 1.1.463软件的Hmisc、survival等软件包。
所述构建单元202与所述数据分析单元201连接,所述构建单元202与所述数据分析单元201连接,用于利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型,包括:如图2所述的流程,具体为:
将独立预后因素数据中的任一数据进行数据归一后,通过云变换得到数据分布曲线和正态云图;
利用逆向云发生器算法,求得云的数字特征(Ex,En,He);
将云模型与LSSVM相结合,用云模型期望Ex代替惩罚参数C,熵En代替核函数参数σ;
在上述论述中,云是用语言值表示的某个定性概念与其定量表示之间的不确定性转换模型;云模型用期望值Ex、熵En、超熵He三个数字特征来表示;它把模糊性和随机性完全集合到一起;其中,期望Ex是最能够代表定性概念的点;熵En是定性概念的不确定性度量,由概念的模糊性和随机性共同决定,反映了云滴的离散程度和取值范围;超熵He是熵的不确定性度量,由熵的模糊性和随机性共同决定;正态云模型是最基本的云模型,它的期望曲线是一个正态特性曲线,云分布曲线为:
生成云的软件或硬件被称为云发生器,有正逆向云发生器和X条件、Y条件云发生器;正向云发生器就是依据云模型三个数字特征生成云滴,逆向云发生器就是实现定量数值(xi,yi)转换化为以数字特征(Ex,En,He)表示的定性概念的转变;一维逆向正态云发生器算法描述如下:
步骤:
而且,由于影响预后的因素一般存在不确定性,而在处理不确定性问题时,概率论和模糊数学略显不足,云理论的提出正好解决了这一问题。云模型表示自然语言中的基元——语言值,用期望值、熵、超熵三个数字特征来表示语言值的数字特性,是处理定性概念与定量描述的不确定转换模型。预测中常用的采用径向基核函数的最小二乘支持向量机(LSSVM)需确定两个参数,即:核函数参数σ和惩罚参数C;传统的参数寻优方法在处理不确定性问题上效果并不良好,而云模型优化最小二乘支持向量机(Cloud-LSSVM)解决了这一问题;本实施例中的具体发明构思是:将影响预后的因素通过云变换得到数据分布曲线和正态云图;再按照逆向云发生器算法,求得云的数字特征(Ex,En,He);将云模型与最小二乘支持向量机(LSSVM)相结合,对于不确定性较小的因素,利用最小二乘支持向量机进行回归运算,获取预测值;对于不确定性较大的因素,利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;用云模型期望Ex代替惩罚参数C;同时用熵En代替核函数参数σ;这样替代后产生的新模型既可以实现云模型随机性和模糊性的统一,又可以利用RBF支持向量机强大的学习能力和非线性映射能力,达到提升预后准确率的目的;
可以参考的构建所述预后模型的步骤为:
如图2,将采集到的影响因素数据通过构建云模型求得Ex和En(如上步骤(1)-(4)所示),进行不确定性分析,将En≥0.6的En<0.6的因素分别用Cloud-LSSVM和LSSVM进行回归计算。Cloud-LSSVM模型,是用云模型期望Ex代替惩罚参数C,熵En代替核函数参数。将得到的各组预测结果进行加权计算,进而获得最后的预测值。节点的权值运算公式如下:
求解这个追求虚拟预测残差平方和的最小化问题从而获得一组权值,最终的负荷预测值如式(4)表示:
Cloud-LSSVM模型可使用MATLAB R2016aVersion 9.2.341360的libsvm等软件包。
如利用上述的方法处理诊断年龄数据,其过程如下:
首先将数据归一化为[0,1],得到诊断年龄的数据分布曲线;然后对诊断年龄进行最大法云变换,得到正常云,如图4和5所示;同时,根据云变换的计算方法,性别数据在分布曲线上有两个峰值,所以有两个云,如图6和图7;对云参数进行反归一化计算,得到惩罚参数C(期望)核函数参数(熵)。云模型中的熵不仅可以是定性概念的随机性衡量,还是在论域空间能让定性概念允许的云滴的取值范围,即模糊度。熵诠释了模糊性和随机性的联系,通常来说熵越大,模糊性和随机性也就越大,确定性量化越难。
具体实例:
在本实施例中,经过对SEER数据库获得的1973年到2015年的86915例食管癌患者严格按照入组标准筛选后获得14708例食管癌患者;其中腺癌患者9550例,鳞癌患者4771例,总体中位生存时间14个月,平均生存时间26.5个月,3年生存率为65.8%。对各临床因素进行单因素COX分析,结果显示:诊断年龄(P<0.001)、性别(P<0.001)、种族(P=0.001)、组织学分级(P<0.001)、原发肿瘤(P<0.001)、区域淋巴结(P<0.001)、远处转移(P<0.001)与患者生存期相关。而恶性肿瘤个数(P=0.078)、良性肿瘤个数(P=0.459)与患者预后不相关。经过计算诊断年龄的cutoff值定为60岁最合适;上述详情见表1。
同时,根据林州数据库2003年至2016年的10769名ESCC患者,严格按照纳入标准选择了635名患者。临床因素的单变量Cox分析显示。诊断年龄(P<0.001)、组织学分级(P<0.001)、病理T类(P<0.001)、区域淋巴结(P<0.001)和性别(P=0.049)与患者生存率有关。病理M类(P=0.093)和种族与预后没有关系;上述细节见表1。
表1影响ESCC患者生存率因素的单因素和多因素COX分析
在本实施例中,将通过上述系统得到的影响食管癌预后的独立因素进行多因素分析,得到:
选取单因素分析结果P<0.01的因素进行多因素COX分析,结果显示诊断年龄(P<0.001)、性别(P=0.001)、种族(P=0.002)、组织学分级(P<0.001)、原发肿瘤(P<0.001)、远处转移(P<0.001)是影响食管鳞癌患者预后的独立因素,而区域淋巴结(P<0.543)与患者预后不相关;将表2求得的参数代入到云模型优化LSSVM中,将预测值加权计算得到最终预后的结果;上述详情见表2;
将多因素分析得到的上述6个有意义的因素进行进一步分析,绘制生存曲线和相关系数图,如图8-14。结果表明,低诊断年龄组的预后明显优于高年龄组的预后,如图8;白种人的预后优于黑种人的预后,如图9;女性的预后优于男性的预后,如图10;原发肿瘤的预后是T2优于T3,T3优于T1、T1优于T4;如图11,无远处转移的ESCC患者预后优于有远处转移的ESCC患者如图12;组织学分级I的预后优于II和III,II和III预后优于IV,II和III生存曲线相交如图13;如图14,相关性分析结果显示,诊断年龄与原发肿瘤、种族与原发肿瘤和远处转移、组织学分级与远处转移和性别不想关,其他两两相关。
表2影响因子云变换合并后参数表
从COX多因素分析得知诊断年龄、性别、种族、组织学分级、原发肿瘤、远处转移是影响食管鳞癌患者预后的独立因素;将多因素分析得到的6个有意义的因素进行不确定性分析,影响因子云变换合并后参数如表2所示。可以看出诊断年龄虽然云朵数只有1个,但是熵是最大的15.23,也说明诊断年龄数据本身的模糊性和随机性是最大的;性别和远处转移的熵最小。模糊性和随机性越大,对预后准确性影响越大。
经过上述分析可知,云模型中的熵不仅可以是定性概念的随机性衡量,还是在论域空间能让定性概念允许的云滴的取值范围,即模糊度。熵诠释了模糊性和随机性的联系,通常来说熵越大,模糊性和随机性也就越大,确定性量化越难。
本实施例中所述的云模型与LSSVM相结合,指的是:对于所述不确定性较小的因素,如En<0.6,利用最小二乘支持向量机进行回归运算,获取预测值;对于所述不确定性较大的因素,如En≥0.6;利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;
具体过程为:
根据En的值,将诊断年龄、种族、原发肿瘤因素分别代入云模型优化所述最小二乘支持向量机,将性别、组织学分级、远处转移代入到最小二乘支持向量机,将得到的各组预测结果进行加权计算,进而获得最后的预测值;将预测值和实际值进行比较,绘制Cloud-LSSVM组合预测模型的校准曲线。Cloud-LSSVM组合预测模型预测OS值在x轴上,实际OS在y轴上,如图15;Cloud-LSSVM组合预测模型的C-index值为0.71;
经过上述分析可知,云模型中的熵不仅可以是定性概念的随机性衡量,还是在论域空间能让定性概念允许的云滴的取值范围,即模糊度。熵诠释了模糊性和随机性的联系,通常来说熵越大,模糊性和随机性也就越大,确定性量化越难,将云模型与LSSVM相结合,用云模型期望替代替惩罚参数C,熵En代替核函数参数σ,优化算法能够提高预测精度,提升预后准确率;
具体的,通过采集任一患者的诊断年龄、性别、种族、组织学分级、原发肿瘤以及远处转移数据,利用本实施例中的用于食管鳞状细胞癌预后的系统,对该患者进行预后,得到一段时间后的预后结果,如5年以后存活/死亡。
具体实施例II:
本发明还公开一种实施例:
一种用于食管鳞状细胞癌预后的工具,包括:采集装置、处理器和存储介质;其中,存储介质与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:
根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析;其中,所述待诊断患者自身的独立预后因素数据,包括,待诊断患者的:诊断年龄、性别、种族、组织学分级、原发肿瘤以及远处转移中的一种或几种;在本实施例中,可利用采集装置,如键盘、鼠标等输入设备采集待诊断患者自身的独立预后因素数据,从而为预后模型提供输入数据。
同时,具体实施例I中的模型构建模块200中的构建单元202与所述用于食管鳞状细胞癌预后的工具中的存储介质连接,用于存储学习后的预后模型。
在本发明中,存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
本发明提供的一种实施例,还包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行如图2所述流程图所示的方法的程序代码。该计算机程序可以从网络上被下载和安装。在该计算机程序被CPU执行时,执行本发明的系统中限定的上述功能。
验证过程:
现将本实施例所述的利用云模型优化最小二乘支持向量机(LSSVM)算法的预后模型与其他算法之间的预后准确率比较:
为了验证云模型优化最小二乘支持向量机(LSSVM)算法的有效性,本实施例进一步评估这些基于节点模型的预测能力和准确性,线性趋势,似然比和AIC值被计算(表3);较高的线性趋势得分和更高的似然比代表系统的更好的预测性能,而AIC值越低,系统就越好。
在表3中,SEER数据库中云模型优化最小二乘支持向量机(LSSVM)算法线性趋势(827.43)高于随机森林和列线图(52.52、37.75和665.45)两个组别。肿瘤等级、随机森林、列线图和云模型优化最小二乘支持向量机(LSSVM)算法的AIC分别为52733.55、17705.76、25893和12952.97。林州数据库中肿瘤等级、随机森林、列线图和云模型优化最小二乘支持向量机(LSSVM)算法的AIC分别为3591.95、3593.88、3119.95和2981.26。
再计算预测概率与实际结果之间的c指数:在SEER数据库中,肿瘤等级、随机森林、列线图云模型优化最小二乘支持向量机(LSSVM)算法预测OS的C-index分别为0.548、0.649、0.659、0.71;在验证队列中,c指数分别为0.506(肿瘤等级)、0.498(随机森林)、0.563(列线图)和0.689(云模型优化最小二乘支持向量机(LSSVM)算法)。
表3AIC和c指数对食管鳞癌预后模型的预后能力和准确性评价
可见,随着人工智能算法的兴起,虽然随机森林、神经网络等人工智能算法被引入到癌症预后研究中,但这些算法往往存在局限性,缺乏处理不确定因素的能力。例如,根据表1的SEER数据库分析,种族和病理M类是影响预后的重要因素。但林州数据验证组的患者均为来自林州的黄种人,严重干扰了数据。此外,所有数据均为食管鳞癌早期,而M1患者仅有2例,M0患者只有653例,因此这两个重要因素无法用常规方法进行预测。如果使用列线图、随机森林等预后算法,则人种和病理M类缺失,预测结果极不准确。race和病理T类存在很大的模糊性和随机性(表2);但是,本实施例中所述的云模型优化最小二乘支持向量机(LSSVM)算法在解决食管鳞状细胞癌预后的应用上具有很大的优势,这一结果在SEER和林州数据库的验证中也得到了证明(表3)。
所以,本实施例所述的用于食管鳞状细胞癌预后的系统,采用云模型优化最小二乘支持向量机(LSSVM)算法构建食管鳞状细胞癌预后模型预测食管鳞癌患者的生存;该系统具有使用方便的优点;同时,与随机森林、列线图预测模型相比,具有明显的预测准确率优势,尤其在处理不确定问题时更有优势。
以上公开的仅为本发明的几个具体实施场景,但是,本发明并非局限于此,任何本领域的技术人员能思之的变化都应落入本发明的保护范围。上述本发明序号仅仅为了描述,不代表实施场景的优劣。
Claims (10)
1.一种用于食管鳞状细胞癌预后的工具,其特征在于,包括:
处理器;
存储介质,与所述处理器进行数据交互,用于在所述存储介质内存储的程序被所述处理器加载时执行以下步骤:
根据待诊断患者自身的独立预后因素数据通过预后模型对所述待诊断患者进行预后分析。
2.根据权利要求1所述的一种用于食管鳞状细胞癌预后的工具,其特征在于,所述待诊断患者自身的独立预后因素数据,包括,待诊断患者的:
诊断年龄、性别、种族、组织学分级、原发肿瘤以及远处转移中的一种或几种。
3.一种用于食管鳞状细胞癌预后的系统,其特征在于,包括:
数据采集模块,用于采集原发性食管癌患者数据;
模型构建模块,与所述数据采集模块进行数据交互,用于利用所述原发性食管癌患者数据,构建和训练预后模型;
如权利要求1-2任一权利要求所述的用于食管鳞状细胞癌预后的工具,与所述模型构建模块进行数据交互,用于将所述模型构建模块中已训练的所述预后模型存储至所述用于食管鳞状细胞癌预后的工具中的存储介质中,进行预后判断。
4.根据权利要求3所述的用于食管鳞状细胞癌预后的系统,其特征在于,所述模型构建模块,包括:
数据分析单元,与所述数据采集模块进行数据交互,用于对所述原发性食管癌患者数据进行分析,获得影响预后的独立预后因素数据;
构建单元,与所述数据分析单元进行数据交互,用于利用所述独立预后因素数据构建所述预后模型;
所述构建单元与所述用于食管鳞状细胞癌预后的工具中的存储介质连接,用于存储所述预后模型。
5.根据权利要求4所述的用于食管鳞状细胞癌预后的系统,其特征在于:
所述构建单元与所述数据分析单元连接,用于利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型。
6.根据权利要求5所述的用于食管鳞状细胞癌预后的系统,其特征在于:
所述构建单元接收所述独立预后因素数据,用于通过以下步骤构建所述预后模型:
将所述独立预后因素数据中的任一数据进行数据归一后,构建云模型;
利用逆向云发生器算法,求得所述云模型的数字特征(Ex,En,He);
根据所述数字特征中En的值进行不确定性分析,获取不确定性较大的因素和不确定性较小的因素;
对于所述不确定性较小的因素,利用最小二乘支持向量机进行回归运算,获取预测值;
对于所述不确定性较大的因素,利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;
根据所述预测值对对应的所述独立预后因素数据进行预后。
7.根据权利要求6所述的用于食管鳞状细胞癌预后的系统,其特征在于,所述“利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值”,包括:
利用所述云模型中的期望Ex代替所述最小二乘支持向量机中的惩罚参数,同时利用所述云模型中的熵En代替所述最小二乘支持向量机中的核函数参数,得到的初步预测结果;
将所述初步预测结果进行加权计算,获得所述预测值。
9.一种预后的方法,其特征在于,包括:
采集任一原发性癌症患者的数据;
对所述原发性食管癌患者数据进行分析,获得影响预后的独立预后因素数据;
利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型;
根据待诊断患者自身的独立预后因素数据通过所述预后模型对所述待诊断患者进行预后分析;
所述“利用云模型与最小二乘支持向量机结合的方法通过所述独立预后因素数据构建所述预后模型”,包括如下步骤:
将所述独立预后因素数据中的任一数据进行数据归一后,构建云模型;
利用逆向云发生器算法,求得所述云模型的数字特征(Ex,En,He);
根据所述数字特征中En的值进行不确定性分析,获取不确定性较大的因素和不确定性较小的因素;
对于所述不确定性较小的因素,利用最小二乘支持向量机进行回归运算,获取预测值;
对于所述不确定性较大的因素,利用所述云模型优化所述最小二乘支持向量机,并进行回归运算,获取预测值;
根据所述预测值对对应的所述独立预后因素数据进行预后。
10.一种如权利要求9所述的方法在食管鳞状细胞癌预后方向上的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211645213.0A CN115810426B (zh) | 2022-12-21 | 2022-12-21 | 用于食管鳞状细胞癌预后的工具、系统及应用 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211645213.0A CN115810426B (zh) | 2022-12-21 | 2022-12-21 | 用于食管鳞状细胞癌预后的工具、系统及应用 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115810426A true CN115810426A (zh) | 2023-03-17 |
CN115810426B CN115810426B (zh) | 2024-07-16 |
Family
ID=85486374
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211645213.0A Active CN115810426B (zh) | 2022-12-21 | 2022-12-21 | 用于食管鳞状细胞癌预后的工具、系统及应用 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115810426B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945601A (zh) * | 2012-11-28 | 2013-02-27 | 东南大学 | 基于偏最小二乘法的交通事件持续时间预测方法 |
CN103490948A (zh) * | 2013-09-06 | 2014-01-01 | 华为技术有限公司 | 网络性能的预测方法及装置 |
CN106651030A (zh) * | 2016-12-21 | 2017-05-10 | 重庆邮电大学 | 一种改进的rbf神经网络热点话题用户参与行为预测方法 |
KR20190023708A (ko) * | 2017-08-30 | 2019-03-08 | 서울대학교산학협력단 | 폐 편평상피세포암 바이오마커 및 이를 이용한 폐 편평상피세포암 진단방법 |
CN110988153A (zh) * | 2019-11-13 | 2020-04-10 | 浙江中医药大学 | 基于ls-svm模型的丹参有效成分超声提取工艺优化方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
CN112626221A (zh) * | 2021-01-21 | 2021-04-09 | 郑州大学第一附属医院 | 一种人食管鳞状细胞癌环状rna标志物及其应用 |
CN112635056A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
CN114266967A (zh) * | 2021-12-15 | 2022-04-01 | 哈尔滨工程大学 | 基于符号距离特征的跨源遥感数据目标识别方法 |
CN115225516A (zh) * | 2022-07-18 | 2022-10-21 | 重庆邮电大学 | 一种基于改进abc-vmd的最小二乘支持向量机网络流量预测方法 |
-
2022
- 2022-12-21 CN CN202211645213.0A patent/CN115810426B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102945601A (zh) * | 2012-11-28 | 2013-02-27 | 东南大学 | 基于偏最小二乘法的交通事件持续时间预测方法 |
CN103490948A (zh) * | 2013-09-06 | 2014-01-01 | 华为技术有限公司 | 网络性能的预测方法及装置 |
CN106651030A (zh) * | 2016-12-21 | 2017-05-10 | 重庆邮电大学 | 一种改进的rbf神经网络热点话题用户参与行为预测方法 |
KR20190023708A (ko) * | 2017-08-30 | 2019-03-08 | 서울대학교산학협력단 | 폐 편평상피세포암 바이오마커 및 이를 이용한 폐 편평상피세포암 진단방법 |
CN110988153A (zh) * | 2019-11-13 | 2020-04-10 | 浙江中医药大学 | 基于ls-svm模型的丹参有效成分超声提取工艺优化方法 |
AU2020101854A4 (en) * | 2020-08-17 | 2020-09-24 | China Communications Construction Co., Ltd. | A method for predicting concrete durability based on data mining and artificial intelligence algorithm |
CN112635056A (zh) * | 2020-12-17 | 2021-04-09 | 郑州轻工业大学 | 基于Lasso的食管鳞癌患者风险预测列线图模型建立方法 |
CN112626221A (zh) * | 2021-01-21 | 2021-04-09 | 郑州大学第一附属医院 | 一种人食管鳞状细胞癌环状rna标志物及其应用 |
CN113270188A (zh) * | 2021-05-10 | 2021-08-17 | 北京市肿瘤防治研究所 | 食管鳞癌根治术后患者预后预测模型构建方法及装置 |
CN114266967A (zh) * | 2021-12-15 | 2022-04-01 | 哈尔滨工程大学 | 基于符号距离特征的跨源遥感数据目标识别方法 |
CN115225516A (zh) * | 2022-07-18 | 2022-10-21 | 重庆邮电大学 | 一种基于改进abc-vmd的最小二乘支持向量机网络流量预测方法 |
Non-Patent Citations (3)
Title |
---|
ZHANG, XY, ET AL: "Local Parameter Optimization of LSSVM for Industrial Soft Sensing With Big Data and Cloud Implementation", IEEE TRANSACTIONS ON INDUSTRIAL INFORMATICS, vol. 16, no. 5, 31 May 2020 (2020-05-31), pages 2917 - 2928, XP011773568, DOI: 10.1109/TII.2019.2900479 * |
刘 轲,等: "云模型优化径向基函数神经网络算法研究", 河 南 科 技 大 学 学 报 ( 自 然 科 学 版 ), vol. 44, no. 5, 31 October 2023 (2023-10-31), pages 49 - 55 * |
蔡改贫,等: "基于 CEEMDAN-云模型特征熵和 LSSVM 的磨机负荷预测研究", 振动与 冲 击, vol. 38, no. 7, 31 December 2019 (2019-12-31), pages 128 - 133 * |
Also Published As
Publication number | Publication date |
---|---|
CN115810426B (zh) | 2024-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | A review of statistical methods for dietary pattern analysis | |
Etzioni et al. | Combining biomarkers to detect disease with application to prostate cancer | |
US20170091302A1 (en) | Method and apparatus for representing multidimensional data | |
CN112633601B (zh) | 疾病事件发生概率的预测方法、装置、设备及计算机介质 | |
Liu et al. | Learning accurate and interpretable models based on regularized random forests regression | |
CN111180009B (zh) | 一种基于基因组分析的癌症分期预测系统 | |
Islam et al. | Machine learning approaches to predict breast cancer: Bangladesh perspective | |
Khene et al. | Application of machine learning models to predict recurrence after surgical resection of nonmetastatic renal cell carcinoma | |
Raihan et al. | Detection of the chronic kidney disease using XGBoost classifier and explaining the influence of the attributes on the model using SHAP | |
Tousi et al. | Comparative analysis of machine learning models for performance prediction of the spec benchmarks | |
Chadaga et al. | Artificial intelligence for diagnosis of mild–moderate COVID-19 using haematological markers | |
Pingitore et al. | Machine learning to identify a composite indicator to predict cardiac death in ischemic heart disease | |
CN115810426B (zh) | 用于食管鳞状细胞癌预后的工具、系统及应用 | |
CN116738172A (zh) | 一种基于机器学习的大型混合暴露数据分析方法 | |
Yu et al. | Inferring the accumulation of morphological disparity in epiphyllous liverworts | |
Casey et al. | A machine learning approach to prostate cancer risk classification through use of RNA sequencing data | |
CN112382395B (zh) | 基于机器学习的一体化建模系统 | |
WO2021254413A1 (zh) | 一种隔离分布核构建方法、异常数据检测方法及装置 | |
Hadianfard et al. | Predicting mortality in patients with stroke using data mining techniques | |
Li et al. | Some preliminary results on the comparison of FCM, GK, FCMFP and FN-DBSCAN for bearing fault diagnosis | |
Mylona et al. | Trajectories and predictors of depression after breast Cancer diagnosis: a 1-year longitudinal study | |
Chefira et al. | Accuracy assessment of applied supervised machine learning models on usual data probability distributions | |
CN118155853B (zh) | 狼疮肾炎免疫治疗反应性预测模型的构建方法及系统 | |
Dazard et al. | Cross‐validation and peeling strategies for survival bump hunting using recursive peeling methods | |
Liu et al. | Rule based regression and feature selection for biological data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |