CN113782191B - 结直肠病变类型预测装置、模型构建方法、介质和设备 - Google Patents
结直肠病变类型预测装置、模型构建方法、介质和设备 Download PDFInfo
- Publication number
- CN113782191B CN113782191B CN202111130969.7A CN202111130969A CN113782191B CN 113782191 B CN113782191 B CN 113782191B CN 202111130969 A CN202111130969 A CN 202111130969A CN 113782191 B CN113782191 B CN 113782191B
- Authority
- CN
- China
- Prior art keywords
- prediction
- model
- forest
- data set
- training data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Pathology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Human Resources & Organizations (AREA)
- Artificial Intelligence (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明的实施方式提供了一种结直肠病变类型预测装置、模型构建方法、介质和设备,结直肠病变类型预测模型的构建方法包括:获取训练数据集,训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;根据训练数据集构建结直肠病变类型预测模型,结直肠病变类型预测模型包括至少两个预测子模型,至少两个预测子模型均基于训练数据集构建;至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。本申请能够建立包括多个预测子模型的结直肠病变类型预测模型,相比于单一模型,预测准确度高。
Description
技术领域
本发明的实施方式涉及智慧医疗技术领域,更具体地,本发明的实施方式涉及结直肠病变类型预测装置、模型构建方法、介质和设备。
背景技术
本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
结直肠癌是起源于结直肠黏膜上皮的恶性肿瘤,是临床最为常见的恶性肿瘤之一,定期筛查已被证实是降低结直肠癌发病率和死亡率的有效手段。目前通用筛查手段是:首先通过内窥镜检查,对于在检查过程中发现的异常部位进行采集,再做病理分析,继而确诊结直肠病变类型。因为内窥镜检测是侵入性检测,因此会存在破坏癌细胞而引起癌症恶化的风险;同时这种侵入性检测便捷性很差,只能在专业的医疗结构中专业人士指导下才能进行有效地检测。
目前,已经出现一些通过构建单一预测模型进行结直肠病变类型预测的方法,由于每个预测模型存在各自的优缺点,因此,各个模型在输入数据不同时得到的预测结果的准确率或可信度也会不同,导致同一预测模型适用性低,不能保证每次预测结果都呈现较高的准确性。
发明内容
鉴于现有技术存在上述问题,本公开的目的之一在于提供一种结直肠病变类型预测装置、模型构建方法、介质和设备,以至少解决当前现有技术存在的问题。
在本发明实施方式的第一方面中,提供了一种结直肠病变类型预测模型的构建方法,包括:
获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
根据所述训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型均基于所述训练数据集构建;
所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
在本发明的一个实施例中,该基于深度随机森林的预测子模型包括至少一层级联回归森林,每层级联回归森林包括若干完全随机森林和若干随机森林。
进一步的,基于所述训练数据集构建所述基于深度随机森林的预测子模型包括:
将所述训练数据集输入所述基于深度随机森林的预测子模型;
计算所述基于深度随机森林的预测子模型的当前层级联回归森林及其上一层级联回归森林的输出准确度;
判断当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度;
若是,更新输入向量,将上一层的输入向量和当前层的输出拼接作为下一层的输入向量,并构建下一层级联回归森林;
否则,将当前层对应层数确定为级联回归森林的层数;
根据所述级联回归森林的层数更新所述基于深度随机森林的预测子模型的参数,以确定最终的基于深度随机森林的预测子模型。
进一步的,每个完全随机森林包括多棵树,每棵树包含所述训练数据集中所有特征,在所有特征中随机选取特征构建包含单个叶节点的决策树,对所述决策树进行分裂,直至每个叶子节点只包含一个类别或者不多于预设数量的样本;
每个随机森林包括多棵树,每棵树在一个随机特征子空间内通过基尼系数选取分裂节点。
判断预设待训练深度随机森林模型中当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度,包括:
采用交叉验证方法分别计算当前层级联回归森林输出结果与真实值的第一均方误差和上一层级联回归森林输出结果与真实值的第二均方误差;
根据所述第一均方误差确定当前层级联回归森林输出准确度;
根据所述第二均方误差确定上一层级联回归森林输出准确度。
在本发明的另一个实施例中,基于深度随机森林的预测子模型被配置为通过以下方式确定预测结果:
计算基于深度随机森林的预测子模型中最后一层级联回归森林中随机森林中每一棵树对应的预测类别概率;
根据所述每一棵树对应的预测类别概率计算最后一层级联回归森林中随机森林中所有树对应的预测类别概率的均值;
将所述均值最大的预测类别概率对应的预测类别作为所述基于深度随机森林的预测子模型的预测结果。
在本发明的再一个实施例中,所述获取训练数据集,包括:
获取原始检测数据;
根据所述原始检测数据获取差异代谢物数据;
设置多级滑动窗口对所述差异代谢物数据进行多粒度提取;
预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
将所有级滑动窗口所生成的特征向量相加得到所述训练数据集。
在本发明的再一个实施例中,根据所述训练数据集构建结直肠病变类型预测模型还包括:
根据所述训练数据集和构建完成的多个预测子模型确定所述结直肠病变类型预测模型的结果输出策略。
进一步的,所述结果输出策略为投票法,具体包括:
基于每个预测子模型的输出结果进行投票;
若每个预测子模型输出结果得到的投票数不同,将投票数最多的输出结果作为最终预测结果;
否则,将预测精度最高的预测子模型的输出结果作为最终预测结果;
所述预测精度最高的预测子模型基于所述训练数据集和构建完成的多个预测子模型确定。
进一步的,预测类别包括:
健康、炎症、息肉、溃疡、绒毛膜腺瘤、管状腺瘤、结直肠癌中的一种或多种。
在本发明实施方式的第二方面中,提供了一种结直肠病变类型预测模型的构建装置,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
模型构建模块,被配置为根据所述训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型基于不同的机器学习模型建立,所述至少两个预测子模型均基于所述训练数据集构建;
所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
在本发明实施方式的第三方面中,提供了一种结直肠病变类型预测装置,包括:
数据获取模块,用于获取待预测数据,所述待预测数据包括某一对象代谢数据不同粒度的特征;
数据分析模块,被配置为根据预设的结直肠病变类型预测模型分析处理所述待预测数据,得到结直肠病变类型预测结果,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面中任一项所述方法。
在本发明实施方式的第五方面中,提供了一种计算设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述第一方面中任一项所述方法。
根据本发明实施方式的结直肠病变类型预测装置、模型构建方法、介质和设备,通过获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;根据所述训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型均基于所述训练数据集构建;所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个,通过构建结直肠病变类型预测模型,结直肠病变类型预测模型包括至少两个预测子模型,相比于单一模型,预测准确度高。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为本发明一实施例提供的结直肠病变类型预测模型的构建方法的流程示意图;
图2为本发明一实施例提供的完全随机森林原理示意图;
图3为本发明一实施例提供的结直肠病变类型预测模型的构建装置的结构示意图;
图4为本发明一实施例提供的结直肠病变类型预测装置的结构示意图;
图5示意性地示出了本发明实施例的一种介质的结构示意图;
图6示意性地示出了本发明实施例的一种计算设备的结构示意图;
在附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种结直肠病变类型预测装置、模型构建方法、介质和设备。
在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面参考本发明的若干代表性实施方式,详细阐释本发明的原理和精神。
示例性方法
下面参考图1来描述根据本发明示例性实施方式的用于超声标注数据集扩充的方法。需要注意的是,上述应用场景仅是为了便于理解本发明的精神和原理而示出,本发明的实施方式在此方面不受任何限制。相反,本发明的实施方式可以应用于适用的任何场景。
下面结合具体实施案例对本发明进一步说明。
本发明实施例提供了一种结直肠病变类型预测模型的构建方法,所述方法包括:
步骤S101,获取训练数据集,该训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
步骤S102,根据训练数据集构建结直肠病变类型预测模型,该结直肠病变类型预测模型包括至少两个预测子模型,至少两个预测子模型均基于训练数据集构建;
至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
传统通过构建单一预测模型进行结直肠病变类型预测模型的构建方法,由于每个预测模型存在各自的优缺点,因此,各个模型在输入数据不同时得到的预测结果的准确率或可信度也会不同,导致同一预测模型适用性低,不能保证每次预测结果都呈现较高的准确性。
根据本实施方式的方法可以结合至少两个预测子模型进行预测,择优选取预测结果,从而提高结直肠病变类型预测的准确度。
下面结合附图说明如何进行结直肠病变类型预测模型的构建:
首先,执行步骤S101,获取训练数据集,该训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征,具体包括:
S1011,获取原始检测数据;
一些实施例中,获取原始检测数据,具体包括:
采集多例健康、肠炎、肠腺瘤、结直肠癌人群的血液样本;
通过液相色谱质谱联用对样本进行检测以获取原始检测数据。
S1012,根据原始检测数据获取差异代谢物数据;
一些实施例中,根据原始检测数据筛选出差异代谢物数据,具体包括:
对原始检测数据进行数据预处理生成代谢组学数据矩阵,所述代谢组学数据矩阵包括质核比、保留时间及峰面积信息;
基于OPLS-DA统计分析方法建立所述代谢组学数据矩阵与样品分组之间的关系模型;
正交偏最小二乘判别分析(Orthogonal PLS-DA,OPLS-DA)是一种有监督的判别分析统计方法。该方法运用偏最小二乘回归建立代谢物表达量与样品类别之间的关系模型,来实现对样品类别的预测。
在关系模型中,采用正交信号校正方法筛选出差异代谢物数据。
S1013,设置多级滑动窗口对差异代谢物数据进行多粒度提取;
S1014,预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
S1015,将所有级滑动窗口所生成的特征向量相加得到训练数据集。
例如,令m的初始值为10,m为每级滑动窗口中特征维度数量,通过上述步骤以及确定出代谢物数据数据集D共有104种特征维度,取m个特征维度的n个训练示例,具有10维特征的窗口将生成95´n个m维的数据集,将这些数据集用于训练一个完全随机的森林,包含60棵树和一个随机森林,森林包含60个树,每个树输出7种不同的类别,即健康、炎症、息肉、溃疡、绒毛膜腺瘤、管状腺瘤、结直肠癌。因此,第一级共获得95´7´2=1330维特征向量,其中2表示随机森林和随机树2个并列模型。
然后令m=m+10,重复上一步。
当m=60时,每一级的滑动窗口所生成对应的特征向量维度如表1所示。
表1 每级滑动窗口中特征维度数量与特征向量维度数量对应关系
m 的值 | 特征向量维度 |
10 | 1330 |
20 | 1190 |
30 | 1060 |
60 | 910 |
60 | 770 |
经过上述步骤,可以提取数据不同粒度的特征,共采集了5260维的特征数据,这些特征数据用于输入结直肠病变类型预测模型。
一些实施例中,还包括对原始检测数据进行数据预处理,具体包括:
对所述原始检测数据依次进行降噪、基线校正、去同位素、峰对齐、分箱、峰识别、均一化、数据缩放处理。
通过对原始检测数据进行筛选可以过滤掉上述代谢组学数据中与分类无关的信息,在采集样例中共计发现代谢物2300余种,其中上调代谢物1456种,下调代谢物888种。参与疾病代谢通路物质600余种,筛选出大肠癌及癌前病变患者与健康人群对照的差异代谢物共计104种,代谢物大多数与大肠癌、癌前病变的代谢紊乱有关,其中涉及氨基酸的生物合成、脂肪酸的生物合成和降解、胆汁的分泌、初级胆汁酸的生物合成、乙醛酸和二羧酸代谢以及嘧啶代谢等过程。其中,ε-己内酰胺,3,4-二氢-2H-苯并吡喃-2-酮,甲基丁香酚,α-生育酚,依诺沙星,21-脱氧皮质醇七种代谢物在结直肠癌或癌前病变患者的血清中含量水平与正常人群相比存在显著差异。
因此可以确定出癌前病变血清中差异代谢物及含量水平,选择健康人群、癌前病变患者(炎症、息肉、溃疡、绒毛膜腺瘤、管状腺瘤)、结直肠癌患者的血清代谢物样本数据,将样本数据,分成训练集和测试集,进行模型的训练和验证。
上述患者病变类型由于覆盖结直肠病变类型较多,因此,可以使结直肠病变类型预测更加准确和精确。
并且,通过代谢组学方法检测结直肠癌患者血液中的代谢产物,并基于代谢产物含量构建模型预测患者的结直肠病变阶段,达到早诊断早治疗目的,收集患者的血液标本损伤小、患者容易接受。
接下来,执行步骤S102,根据训练数据集构建结直肠病变类型预测模型,该结直肠病变类型预测模型包括至少两个预测子模型,至少两个预测子模型均基于训练数据集构建;
至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
其中,基于深度随机森林的预测子模型包括至少一层级联回归森林,每层级联回归森林包括若干完全随机森林和若干随机森林。
如图2所示,每个完全随机森林包括多棵树,每棵树包含所述训练数据集中所有特征,在所有特征中随机选取特征构建包含单个叶节点的决策树,对所述决策树进行分裂,直至每个叶子节点只包含一个类别或者不多于预设数量的样本;
每个随机森林包括多棵树,每棵树在一个随机特征子空间内通过基尼系数选取分裂节点。
一些实施例中,基于训练数据集构建所述基于深度随机森林的预测子模型包括:
S1021:将所述训练数据集输入所述基于深度随机森林的预测子模型;
S1022计算所述基于深度随机森林的预测子模型的当前层级联回归森林及其上一层级联回归森林的输出准确度;
S1023:判断当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度;
一些实施例中,判断预设待训练深度随机森林模型中当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度,包括:
采用交叉验证方法分别计算当前层级联回归森林输出结果与真实值的第一均方误差和上一层级联回归森林输出结果与真实值的第二均方误差;
根据所述第一均方误差确定当前层级联回归森林输出准确度;
根据所述第二均方误差确定上一层级联回归森林输出准确度。
S1024:若是,更新输入向量,将上一层的输入向量和当前层的输出拼接作为下一层的输入向量,并构建下一层级联回归森林;
S1025:否则,将当前层对应层数确定为级联回归森林的层数;
S1026:根据所述级联回归森林的层数更新所述基于深度随机森林的预测子模型的参数,以确定最终的基于深度随机森林的预测子模型。
在本发明的一个实施例中,基于深度随机森林的预测子模型被配置为通过以下方式确定预测结果:
计算基于深度随机森林的预测子模型中最后一层级联回归森林中随机森林中每一棵树对应的预测类别概率;
根据每一棵树对应的预测类别概率计算最后一层级联回归森林中随机森林中所有树对应的预测类别概率的均值;
将均值最大的预测类别概率对应的预测类别作为基于深度随机森林的预测子模型的预测结果。
一些实施例中,预测类别包括但不限于:健康、炎症、息肉、溃疡、绒毛膜腺瘤、管状腺瘤、结直肠癌中的一种或多种。
在本发明的一个实施例中,根据训练数据集构建结直肠病变类型预测模型还包括:
根据所述训练数据集和构建完成的多个预测子模型确定所述结直肠病变类型预测模型的结果输出策略。
一些实施例中,结果输出策略为投票法,具体包括:
基于每个预测子模型的输出结果进行投票;
若每个预测子模型输出结果得到的投票数不同,将投票数最多的输出结果作为最终预测结果;
否则,将预测精度最高的预测子模型的输出结果作为最终预测结果;
预测精度最高的预测子模型基于所述训练数据集和构建完成的多个预测子模型确定。
例如,根据数据自适应构建了3层级联的基于深度随机森林的预测子模型,将获取的待检测样本输入基于深度随机森林的预测子模型输出预测结果,计算得到预测结果的预测精度为93.8%。
基于SVM的预测子模型、基于logistic回归算法的预测子模型计算得到的预测精度分别为88.7%和78.6%。
需要说明的是,SVM和logistic回归模型为机器学习分类模型中的常用模型,其原理及构建细节不再赘述。
采用投票法得到最终预测结果,即当3个模型输出一致时,最终预测结果为模型预测的类别,当2个模型输出一致,1个模型输出为其他类别时,按2个模型的输出结果作为最终预测结果。当3个模型都不一致时,按精度最高的基于深度随机森林的预测子模型输出结果为最终预测结果。实验表明,本申请所构建的预测模型的最终预测结果准确率为96.3%,满足了临床应用的需求。
需要说明的是,本申请对结直肠病变类型预测模型不做限定,本领域技术人员可根据需要构建多种不同的结直肠病变类型预测模型,之后结合投票法获取最终预测结果。
示例性装置
在介绍了本发明示例性实施方式的方法之后,接下来,参考图3对本发明示例性实施方式的结直肠病变类型预测模型的构建装置进行说明,所述装置包括:
训练数据获取模块301,用于获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
模型构建模块302,被配置为根据训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型基于不同的机器学习模型建立,该至少两个预测子模型均基于训练数据集构建;
所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
在本实施方式的一个实施例中,获取模块301被配置为:
获取原始检测数据;
根据原始检测数据获取差异代谢物数据;
设置多级滑动窗口对所述差异代谢物数据进行多粒度提取;
预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
将所有级滑动窗口所生成的特征向量相加得到训练数据集。
在本实施方式的一个实施例中,模型构建模块302中基于深度随机森林的预测子模型包括至少一层级联回归森林,每层级联回归森林包括若干完全随机森林和若干随机森林。
每个完全随机森林包括多棵树,每棵树包含所述训练数据集中所有特征,在所有特征中随机选取特征构建包含单个叶节点的决策树,对所述决策树进行分裂,直至每个叶子节点只包含一个类别或者不多于预设数量的样本;
每个随机森林包括多棵树,每棵树在一个随机特征子空间内通过基尼系数选取分裂节点。
模型构建模块302被配置为:基于训练数据集构建基于深度随机森林的预测子模型包括:
将训练数据集输入所述基于深度随机森林的预测子模型;
计算基于深度随机森林的预测子模型的当前层级联回归森林及其上一层级联回归森林的输出准确度;
判断当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度;
若是,更新输入向量,将上一层的输入向量和当前层的输出拼接作为下一层的输入向量,并构建下一层级联回归森林;
否则,将当前层对应层数确定为级联回归森林的层数;
根据级联回归森林的层数更新基于深度随机森林的预测子模型的参数,以确定最终的基于深度随机森林的预测子模型。
进一步的,判断预设待训练深度随机森林模型中当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度,包括:
采用交叉验证方法分别计算当前层级联回归森林输出结果与真实值的第一均方误差和上一层级联回归森林输出结果与真实值的第二均方误差;
根据所述第一均方误差确定当前层级联回归森林输出准确度;
根据所述第二均方误差确定上一层级联回归森林输出准确度。
在本实施方式的一个实施例中,模型构建模块302还被配置为:基于深度随机森林的预测子模型被配置为通过以下方式确定预测结果:
计算基于深度随机森林的预测子模型中最后一层级联回归森林中随机森林中每一棵树对应的预测类别概率;
根据所述每一棵树对应的预测类别概率计算最后一层级联回归森林中随机森林中所有树对应的预测类别概率的均值;
将所述均值最大的预测类别概率对应的预测类别作为所述基于深度随机森林的预测子模型的预测结果。
进一步的,预测模型的输出类别包括:
健康、炎症、息肉、溃疡、绒毛膜腺瘤、管状腺瘤、结直肠癌中的一种或多种。
在本实施方式的一个实施例中,模型构建模块302还被配置为:根据训练数据集构建结直肠病变类型预测模型还包括:
根据训练数据集和构建完成的多个预测子模型确定所述结直肠病变类型预测模型的结果输出策略。
进一步的,结果输出策略为投票法,具体包括:
基于每个预测子模型的输出结果进行投票;
若每个预测子模型输出结果得到的投票数不同,将投票数最多的输出结果作为最终预测结果;
否则,将预测精度最高的预测子模型的输出结果作为最终预测结果;
预测精度最高的预测子模型基于训练数据集和构建完成的多个预测子模型确定。
在介绍了本发明示例性实施方式的结直肠病变类型预测模型的构建装置之后,接下来,参考图4对本发明示例性实施方式的结直肠病变类型预测装置进行说明,所述装置包括:
数据获取模块401,用于获取待预测数据,待预测数据包括某一对象代谢数据不同粒度的特征;
数据分析模块402,被配置为根据预设的结直肠病变类型预测模型分析处理待预测数据,得到结直肠病变类型预测结果,结直肠病变类型预测模型包括至少两个预测子模型,至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个。
示例性介质
在介绍了本发明示例性实施方式的装置之后,接下来,参考图5对本发明示例性实施方式的计算机可读存储介质进行说明,请参考图5,其示出的计算机可读存储介质为光盘50,其上存储有计算机程序(即程序产品),所述计算机程序在被处理器运行时,会实现上述方法实施方式中所记载的各步骤,例如获取原始检测数据;根据原始检测数据筛选出差异代谢物数据;将差异代谢物数据分别输入至少三个结直肠病变类型预测模型得到各个模型输出结果;根据各个模型输出结果确定最终预测结果,各步骤的具体实现方式在此不再重复说明。
需要说明的是,所述计算机可读存储介质的例子还可以包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他光学、磁性存储介质,在此不再一一赘述。
示例性计算设备
在介绍了本发明示例性实施方式的方法、介质和装置之后,接下来,参考图6对本发明示例性实施方式的计算设备。
图6示出了适于用来实现本发明实施方式的示例性计算设备60的框图,该计算设备60可以是计算机系统或服务器。图6显示的计算设备60仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算设备60的组件可以包括但不限于:一个或者多个处理器或者处理单元601,系统存储器602,连接不同系统组件(包括系统存储器602和处理单元601)的总线603。
计算设备60典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算设备60访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器602可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)6021和/或高速缓存存储器6022。计算设备60可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,ROM6023可以用于读写不可移动的、非易失性磁介质(图6中未显示,通常称为“硬盘驱动器”)。尽管未在图6中示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线603相连。系统存储器602中可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块6024的程序/实用工具6025,可以存储在例如系统存储器602中,且这样的程序模块6024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块6024通常执行本发明所描述的实施例中的功能和/或方法。
计算设备60也可以与一个或多个外部设备604(如键盘、指向设备、显示器等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且,计算设备60还可以通过网络适配器606与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器606通过总线603与计算设备60的其它模块(如处理单元601等)通信。应当明白,尽管图6中未示出,可以结合计算设备60使用其它硬件和/或软件模块。
处理单元601通过运行存储在系统存储器602中的程序,从而执行各种功能应用以及数据处理,例如,获取训练数据集,训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;根据训练数据集构建结直肠病变类型预测模型,结直肠病变类型预测模型包括至少两个预测子模型,至少两个预测子模型均基于所述训练数据集构建;至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个;各步骤的具体实现方式在此不再重复说明。
应当注意,尽管在上文详细描述中提及了结直肠病变类型预测模型的构建装置、结直肠病变类型预测装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
此外,尽管在附图中以特定顺序描述了本发明方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
虽然已经参考若干具体实施方式描述了本发明的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。
Claims (10)
1.一种结直肠病变类型预测模型的构建方法,其特征在于,包括:
获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
根据所述训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型均基于所述训练数据集构建;
所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个;
其中,所述获取训练数据集包括:
通过液相色谱质谱联用对采集到的血液样本进行检测以获取原始检测数据;
对所述原始检测数据进行数据预处理生成代谢组学数据矩阵,所述代谢组学数据矩阵包括质核比、保留时间及峰面积信息;
基于正交偏最小二乘判别统计分析方法建立所述代谢组学数据矩阵与样品分组之间的关系模型;
在所述关系模型中,采用正交信号校正方法筛选出差异代谢物数据;
设置多级滑动窗口对所述差异代谢物数据进行多粒度提取;
预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
将所有级滑动窗口所生成的特征向量相加得到所述训练数据集。
2.根据权利要求1所述的结直肠病变类型预测模型的构建方法,其特征在于,所述基于深度随机森林的预测子模型包括至少一层级联回归森林,每层级联回归森林包括若干完全随机森林和若干随机森林。
3.根据权利要求2所述的结直肠病变类型预测模型的构建方法,其特征在于,基于所述训练数据集构建所述基于深度随机森林的预测子模型包括:
将所述训练数据集输入所述基于深度随机森林的预测子模型;
计算所述基于深度随机森林的预测子模型的当前层级联回归森林及其上一层级联回归森林的输出准确度;
判断当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度;
若是,更新输入向量,将上一层的输入向量和当前层的输出拼接作为下一层的输入向量,并构建下一层级联回归森林;
否则,将当前层对应层数确定为级联回归森林的层数;
根据所述级联回归森林的层数更新所述基于深度随机森林的预测子模型的参数,以确定最终的基于深度随机森林的预测子模型。
4.根据权利要求2所述的结直肠病变类型预测模型的构建方法,其特征在于,
每个完全随机森林包括多棵树,每棵树包含所述训练数据集中所有特征,在所有特征中随机选取特征构建包含单个叶节点的决策树,对所述决策树进行分裂,直至每个叶子节点只包含一个类别或者不多于预设数量的样本;
每个随机森林包括多棵树,每棵树在一个随机特征子空间内通过基尼系数选取分裂节点。
5.根据权利要求3所述的结直肠病变类型预测模型的构建方法,其特征在于,所述判断预设待训练深度随机森林模型中当前层级联回归森林输出准确度是否高于上一层级联回归森林输出的准确度,包括:
采用交叉验证方法分别计算当前层级联回归森林输出结果与真实值的第一均方误差和上一层级联回归森林输出结果与真实值的第二均方误差;
根据所述第一均方误差确定当前层级联回归森林输出准确度;
根据所述第二均方误差确定上一层级联回归森林输出准确度。
6.根据权利要求3所述的结直肠病变类型预测模型的构建方法,其特征在于,所述基于深度随机森林的预测子模型被配置为通过以下方式确定预测结果:
计算基于深度随机森林的预测子模型中最后一层级联回归森林中随机森林中每一棵树对应的预测类别概率;
根据所述每一棵树对应的预测类别概率计算最后一层级联回归森林中随机森林中所有树对应的预测类别概率的均值;
将所述均值最大的预测类别概率对应的预测类别作为所述基于深度随机森林的预测子模型的预测结果。
7.一种结直肠病变类型预测模型的构建装置,其特征在于,包括:
训练数据获取模块,用于获取训练数据集,所述训练数据集包括对应各个结直肠病变类型的代谢数据不同粒度的特征;
模型构建模块,被配置为根据所述训练数据集构建结直肠病变类型预测模型,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型基于不同的机器学习模型建立,所述至少两个预测子模型均基于所述训练数据集构建;
所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个;
其中,所述训练数据获取模块,还用于通过以下方式获取训练数据集:
通过液相色谱质谱联用对采集到的血液样本进行检测以获取原始检测数据;
对所述原始检测数据进行数据预处理生成代谢组学数据矩阵,所述代谢组学数据矩阵包括质核比、保留时间及峰面积信息;
基于正交偏最小二乘判别统计分析方法建立所述代谢组学数据矩阵与样品分组之间的关系模型;
在所述关系模型中,采用正交信号校正方法筛选出差异代谢物数据;
设置多级滑动窗口对所述差异代谢物数据进行多粒度提取;
预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
将所有级滑动窗口所生成的特征向量相加得到所述训练数据集。
8.一种结直肠病变类型预测装置,其特征在于,包括:
数据获取模块,用于获取待预测数据,所述待预测数据包括某一对象代谢数据不同粒度的特征;
数据分析模块,被配置为根据预设的结直肠病变类型预测模型分析处理所述待预测数据,得到结直肠病变类型预测结果,所述结直肠病变类型预测模型包括至少两个预测子模型,所述至少两个预测子模型包括基于SVM的预测子模型、基于logistic回归算法的预测子模型和基于深度随机森林的预测子模型中的至少两个;
其中,所述结直肠病变类型预测模型基于训练数据集训练得到,所述训练数据集通过以下方式获取:
通过液相色谱质谱联用对采集到的血液样本进行检测以获取原始检测数据;
对所述原始检测数据进行数据预处理生成代谢组学数据矩阵,所述代谢组学数据矩阵包括质核比、保留时间及峰面积信息;
基于正交偏最小二乘判别统计分析方法建立所述代谢组学数据矩阵与样品分组之间的关系模型;
在所述关系模型中,采用正交信号校正方法筛选出差异代谢物数据;
设置多级滑动窗口对所述差异代谢物数据进行多粒度提取;
预设每一级滑动窗口中特征维度数量,生成每一级滑动窗口对应的特征向量;
将所有级滑动窗口所生成的特征向量相加得到构建所述结直肠病变类型预测模型的训练数据集。
9.一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-6中任一项所述方法。
10.一种计算设备,所述计算设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于执行上述权利要求1-6中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130969.7A CN113782191B (zh) | 2021-09-26 | 2021-09-26 | 结直肠病变类型预测装置、模型构建方法、介质和设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111130969.7A CN113782191B (zh) | 2021-09-26 | 2021-09-26 | 结直肠病变类型预测装置、模型构建方法、介质和设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113782191A CN113782191A (zh) | 2021-12-10 |
CN113782191B true CN113782191B (zh) | 2023-01-13 |
Family
ID=78853418
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111130969.7A Active CN113782191B (zh) | 2021-09-26 | 2021-09-26 | 结直肠病变类型预测装置、模型构建方法、介质和设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113782191B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313680A (zh) * | 2021-05-24 | 2021-08-27 | 华南理工大学 | 一种结直肠癌病理图像预后辅助预测方法及系统 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE102006024416A1 (de) * | 2006-05-24 | 2008-04-30 | Friedrich-Alexander-Universität Erlangen-Nürnberg | Prädiktives Genexpressionsmuster für kolorektale Karzinome |
CN107066781B (zh) * | 2016-11-03 | 2018-09-21 | 西南大学 | 基于遗传和环境相关的结直肠癌数据模型的分析方法 |
TWI723312B (zh) * | 2018-12-28 | 2021-04-01 | 中國醫藥大學附設醫院 | 電腦輔助直腸癌治療反應預測系統、方法及電腦程式產品 |
CN112080565A (zh) * | 2019-06-14 | 2020-12-15 | 韩书文 | 结直肠癌的相关预测系统、电子设备和存储介质 |
CN112735606B (zh) * | 2021-01-22 | 2023-04-25 | 张厚德 | 结直肠癌风险预测方法、设备及存储介质 |
-
2021
- 2021-09-26 CN CN202111130969.7A patent/CN113782191B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113313680A (zh) * | 2021-05-24 | 2021-08-27 | 华南理工大学 | 一种结直肠癌病理图像预后辅助预测方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113782191A (zh) | 2021-12-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Myers et al. | Machine learning improves risk stratification after acute coronary syndrome | |
Mumford et al. | Deconvolving BOLD activation in event-related designs for multivoxel pattern classification analyses | |
Li et al. | Model-population analysis and its applications in chemical and biological modeling | |
Montagna et al. | Bayesian latent factor regression for functional and longitudinal data | |
JP2023526241A (ja) | 複数の機械学習モデルに基づく臨床予測器 | |
CN108038352B (zh) | 结合差异化分析和关联规则挖掘全基因组关键基因的方法 | |
KR102044094B1 (ko) | 딥 러닝 기반 유전체 발현량 해석을 통한 암 또는 정상 판별 방법 및 그 장치 | |
Ertuğrul et al. | Automatic diagnosis of cardiovascular disorders by sub images of the ECG signal using multi-feature extraction methods and randomized neural network | |
CN111095232A (zh) | 发掘用于机器学习技术中的基因组 | |
JP2023041620A (ja) | 薬品相乗効果予測モデルの構築方法、予測方法及び対応装置 | |
CN111161884A (zh) | 针对不平衡数据的疾病预测方法、装置、设备及介质 | |
CN111028940A (zh) | 肺结节多尺度检测方法、装置、设备及介质 | |
Lai et al. | Development of a metabolite-based deep learning algorithm for clinical precise diagnosis of the progression of diabetic kidney disease | |
Fooladgar et al. | Uncertainty estimation for margin detection in cancer surgery using mass spectrometry | |
CN113782191B (zh) | 结直肠病变类型预测装置、模型构建方法、介质和设备 | |
US20200279148A1 (en) | Material structure analysis method and material structure analyzer | |
CN117274185A (zh) | 检测方法、检测模型产品、电子设备及计算机存储介质 | |
US20230253109A1 (en) | Cancer screening device and cancer screening method | |
AU2022218581A1 (en) | Sequencing data-based itd mutation ratio detecting apparatus and method | |
CN115444428A (zh) | 多导联心电图正异常分类方法、系统、介质、设备及终端 | |
JP2023545704A (ja) | エクスポソーム臨床応用のためのシステム及び方法 | |
Tiwari et al. | Elucidation of ball bearing performance utilizing product functions of vibration signals and locality sensitive discriminant analysis | |
Song et al. | Structured time‐dependent inverse regression (STIR) | |
CN112086174A (zh) | 一种三维知识诊断模型构建方法和系统 | |
EP3933715A1 (en) | Method and system for generating synthetic time domain signals to build a classifier |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |