CN117894468A - 基于人工智能的乳腺癌复发风险预测系统 - Google Patents
基于人工智能的乳腺癌复发风险预测系统 Download PDFInfo
- Publication number
- CN117894468A CN117894468A CN202410306324.1A CN202410306324A CN117894468A CN 117894468 A CN117894468 A CN 117894468A CN 202410306324 A CN202410306324 A CN 202410306324A CN 117894468 A CN117894468 A CN 117894468A
- Authority
- CN
- China
- Prior art keywords
- model
- breast cancer
- vector
- module
- cancer recurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 81
- 208000026310 Breast neoplasm Diseases 0.000 title claims abstract description 81
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 43
- 238000007781 pre-processing Methods 0.000 claims abstract description 29
- 238000010276 construction Methods 0.000 claims abstract description 23
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000013058 risk prediction model Methods 0.000 claims abstract description 23
- 238000010845 search algorithm Methods 0.000 claims abstract description 10
- 239000013598 vector Substances 0.000 claims description 82
- 230000006870 function Effects 0.000 claims description 42
- 230000036541 health Effects 0.000 claims description 22
- 238000004364 calculation method Methods 0.000 claims description 21
- 230000009467 reduction Effects 0.000 claims description 21
- 238000003066 decision tree Methods 0.000 claims description 15
- 230000006872 improvement Effects 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 15
- 230000001575 pathological effect Effects 0.000 claims description 14
- 230000000306 recurrent effect Effects 0.000 claims description 12
- 238000011156 evaluation Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000001131 transforming effect Effects 0.000 claims description 6
- 230000000694 effects Effects 0.000 claims description 4
- 206010006198 Breast cancer recurrent Diseases 0.000 claims description 3
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000007170 pathology Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000007637 random forest analysis Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 4
- 238000012821 model calculation Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000004075 alteration Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明公开了基于人工智能的乳腺癌复发风险预测系统,包括数据采集模块、数据预处理模块、多源异构特征融合模块、乳腺癌复发风险预测模型构建模块和预测报告生成模块。本发明涉及乳腺癌医疗技术领域,具体为基于人工智能的乳腺癌复发风险预测系统,本方案采用紧凑双线性池进行特征融合,有效减少了数据维度,得到更具有代表性的特征,有助于提高模型的预测能力,并在融合特征的同时保持了一定的可解释性;采用基于树结构的搜索算法进行参数调优,改进了模型的学习过程,有助于捕捉特征之间的重要关联和非线性结构,更好地适应个体之间的差异,提高了模型的泛化能力和实用性。
Description
技术领域
本发明涉及乳腺癌医疗技术领域,具体为基于人工智能的乳腺癌复发风险预测系统。
背景技术
乳腺癌复发风险预测系统旨在根据患者病理特征和临床情况等信息,提前识别具有高复发风险的患者,辅助医生为患者提供个性化的治疗方案,从而提升治疗效果和生存率,促进乳腺癌医疗技术的进步。但是现有的乳腺癌复发风险预测系统中,存在病理学图像特征维度高且结构复杂,而电子健康记录特征涉及多种影响因素,导致模型计算复杂,过拟合风险高,从而影响模型的预测能力和准确性的技术问题;存在缺乏一种充分考虑患者个体差异的预测方法,进而影响了用于乳腺癌复发风险预测的系统的实用性的技术问题。
发明内容
为解决上述问题,本发明提供了基于人工智能的乳腺癌复发风险预测系统,针对在现有的乳腺癌复发风险预测系统中,存在病理学图像特征维度高且结构复杂,而电子健康记录特征涉及多种影响因素,导致模型计算复杂,过拟合风险高,从而影响模型的预测能力和准确性的技术问题,本方案采用紧凑双线性池进行特征融合,有效减少了数据维度,得到更具有代表性的特征,有助于提高模型的预测能力,并在融合特征的同时保持了一定的可解释性;针对在现有的乳腺癌复发风险预测系统中,存在缺乏一种充分考虑患者个体差异的预测方法,进而影响了用于乳腺癌复发风险预测的系统的实用性的技术问题,本方案采用基于树结构的搜索算法进行参数调优,改进了模型的学习过程,有助于捕捉特征之间的重要关联和非线性结构,更好地适应个体之间的差异,提高了模型的泛化能力和实用性。
本发明提供的基于人工智能的乳腺癌复发风险预测系统,包括数据采集模块、数据预处理模块、多源异构特征融合模块、乳腺癌复发风险预测模型构建模块和预测报告生成模块;
所述数据采集模块,具体为获取复发风险标签和乳腺癌患者数据,并将所述复发风险标签发送至模型构建模块,将所述乳腺癌患者数据发送至数据预处理模块;
所述数据预处理模块,具体为对乳腺癌患者数据进行预处理,得到标准化数据和归一化图像,并将所述标准化数据和所述归一化图像发送至多源异构特征融合模块;
所述多源异构特征融合模块,具体为对所述标准化数据和所述归一化图像进行特征提取,得到标准特征向量和图像特征向量,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,得到融合特征,并将所述融合特征发送至乳腺癌复发风险预测模型构建模块;
所述乳腺癌复发风险预测模型构建模块,具体为采用极限梯度提升模型进行模型构建,采用基于树结构的搜索算法进行参数调优来优化模型参数并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk,并将所述乳腺癌复发风险预测模型Modelrisk发送至预测报告生成模块;
所述预测报告生成模块,具体为采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类并生成乳腺癌复发风险报告。
进一步地,在数据采集模块中,获取复发风险标签和乳腺癌患者数据,所述复发风险标签包括复发高风险和复发非高风险,所述乳腺癌患者数据是多源异构数据,具体包括电子健康记录和病理学图像,从医疗系统中获取电子健康记录,所述电子健康记录包括患者个人信息、就诊记录、医学检查结果和随访记录,所述随访记录记载了患者有无复发乳腺癌和复发时间。
进一步地,在数据预处理模块中,设有电子健康记录预处理单元和病理学图像预处理单元,具体包括以下内容:
电子健康记录预处理单元,采用随机森林填充法填充电子健康记录中的缺失值,并清除电子健康记录数据中的无用信息和异常值,得到标准化数据;
病理学图像预处理单元,对病理学图像进行颜色归一化处理,得到归一化图像。
进一步地,在多源异构特征融合模块中,设有特征提取单元和特征融合单元,具体包括以下内容:
特征提取单元,对标准化数据和归一化图像进行特征提取,具体内容如下:
采用文本特征提取器对标准化数据进行特征提取,具体为采用BERT模型提取标准化数据中的语义特征,得到标准特征向量;
采用深度残差网络对归一化图像进行特征提取,得到图像特征向量;
特征融合单元,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,具体内容如下:
初始化用于降维的向量,得到降维第一向量a和降维第二向量b;
依据降维第一向量a和降维第二向量b,采用计数草图方法,将标准特征向量和图像特征向量映射到低维空间,计算公式为:
;
式中,C是降维标准向量,δ()是计数草图函数,c是标准特征向量,a是降维第一向量,所述降维第一向量,其中n是降维向量长度,b是降维第二向量,所述降维第二向量/>,其中k是降维第二向量最大值,D是降维图像向量,di是图像特征向量;
通过紧凑双线性池操作,将降维标准向量和降维图像向量进行特征融合,计算公式为:
;
式中,Ei是融合特征,BCE()是紧凑双线性池操作,ft-1()是逆傅里叶变换,所述逆傅里叶变换用于将向量从频域转换到时域,ft()是傅里叶变换,所述傅里叶变换用于将向量从时域转换到频域,是逐元素相乘运算符。
进一步地,在乳腺癌复发风险预测模型构建模块中,设有模型初始化单元、参数调优单元和模型训练单元,具体包括以下内容:
模型初始化单元,采用极限梯度提升模型进行模型初始化,具体内容如下:
将融合特征作为极限梯度提升模型的输入样本;
构建正则化项,用于控制模型的复杂度,计算公式为:
;
式中,α(Tri)是正则化项,Tri是第i个决策树,i是决策树索引,β是叶节点复杂度,s是叶节点数量,γ是折衷参数,所述折衷参数用于平衡损失函数和正则化项对模型的影响,j是叶节点索引,Srj是第j个叶节点的得分;
依据正则化项,建立目标函数,用于衡量模型性能,计算公式为:
;
式中,fo()是目标函数,st是迭代轮数,所述迭代轮数与决策树数量相等,z是输入样本索引,m是输入样本数量,xz是第z个输入样本的真实标签,是第z个输入样本的预测值,L()是损失函数;
更新模型预测结果,计算公式为:
;
式中,Ipst是第st轮迭代输出的模型预测值,Ipst-1是第st-1轮迭代输出的模型预测值,δst是第st轮迭代的学习率,fist是第st轮迭代的残差预测函数,X是输入样本,Rest-1是第st-1轮迭代的残差;
参数调优单元,采用基于树结构的搜索算法进行参数调优,具体内容如下:
初始化极限梯度提升模型的参数空间,得到模型参数空间,所述模型参数空间包括学习率、决策树数量、决策树深度;
初始化观察点,具体为采用随机采样法,在模型参数空间中采集N组参数组合作为观察点;
通过K次迭代,增加观察点和更新模型参数,得到模型最优参数,依据模型最优参数优化极限梯度提升模型参数,具体内容如下:
选取一个参数组合来训练极限梯度提升模型,通过目标函数评估模型性能,将得到的评估结果作为观测值;
计算观测值对应的分位数,计算公式为:
;
式中,Y是分位数,所述分位数表示观测值u小于阈值val的概率,P()是概率密度函数,u是观测值,val是阈值;
计算概率密度函数,计算公式为:
;
式中,P(spl│u)是给定观测值的条件下,参数组合spl的条件概率密度函数,spl是参数组合,w(spl)是参数组合spl在低目标函数值的概率密度函数,q(spl)是参数组合spl在高目标函数值的概率密度函数;
计算每个参数组合的期望改进值,所述期望改进值的计算公式为:
;
式中,Epru(spl)是期望改进值,所述期望改进值用于表示在给定观测值u的情况下,参数组合spl的期望改进值,是正比于符号,所述正比于符号表示两者成正比关系;
选择具有最大期望改进值的参数组合作为下一次迭代的极限梯度提升模型参数,并进行模型训练和模型性能评估,更新观察点和观测值;
模型训练单元,采用极限梯度提升模型进行模型构建,通过参数调优来优化模型参数,并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk。
进一步地,在预测报告生成模块中,采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类为复发高风险和复发非高风险,得到风险预测数据,并生成乳腺癌复发风险报告。
采用上述方案本发明取得的有益效果如下:
(1)针对在现有的乳腺癌复发风险预测系统中,存在病理学图像特征维度高且结构复杂,而电子健康记录特征涉及多种影响因素,导致模型计算复杂,过拟合风险高,从而影响模型的预测能力和准确性的技术问题,本方案采用紧凑双线性池进行特征融合,有效减少了数据维度,得到更具有代表性的特征,有助于提高模型的预测能力,并在融合特征的同时保持了一定的可解释性。
(2)针对在现有的乳腺癌复发风险预测系统中,存在缺乏一种充分考虑患者个体差异的预测方法,进而影响了用于乳腺癌复发风险预测的系统的实用性的技术问题,本方案采用基于树结构的搜索算法进行参数调优,改进了模型的学习过程,有助于捕捉特征之间的重要关联和非线性结构,更好地适应个体之间的差异,提高了模型的泛化能力和实用性。
附图说明
图1为本发明提供的基于人工智能的乳腺癌复发风险预测系统的结构框图;
图2为数据预处理模块的流程示意图;
图3为多源异构特征融合模块的流程示意图;
图4为乳腺癌复发风险预测模型构建模块的流程示意图。
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要理解的是,术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
实施例一,参阅图1,本发明提供了基于人工智能的乳腺癌复发风险预测系统,包括数据采集模块、数据预处理模块、多源异构特征融合模块、乳腺癌复发风险预测模型构建模块和预测报告生成模块;
所述数据采集模块,具体为获取复发风险标签和乳腺癌患者数据,并将所述复发风险标签发送至模型构建模块,将所述乳腺癌患者数据发送至数据预处理模块;
所述数据预处理模块,具体为对乳腺癌患者数据进行预处理,得到标准化数据和归一化图像,并将所述标准化数据和所述归一化图像发送至多源异构特征融合模块;
所述多源异构特征融合模块,具体为对所述标准化数据和所述归一化图像进行特征提取,得到标准特征向量和图像特征向量,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,得到融合特征,并将所述融合特征发送至乳腺癌复发风险预测模型构建模块;
所述乳腺癌复发风险预测模型构建模块,具体为采用极限梯度提升模型进行模型构建,采用基于树结构的搜索算法进行参数调优来优化模型参数并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk,并将所述乳腺癌复发风险预测模型Modelrisk发送至预测报告生成模块;
所述预测报告生成模块,具体为采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类并生成乳腺癌复发风险报告。
实施例二,参阅图1,该实施例基于上述实施例,在数据采集模块中,获取复发风险标签和乳腺癌患者数据,所述复发风险标签包括复发高风险和复发非高风险,所述乳腺癌患者数据是多源异构数据,具体包括电子健康记录和病理学图像,从医疗系统中获取电子健康记录,所述电子健康记录包括患者个人信息、就诊记录、医学检查结果和随访记录,所述随访记录记载了患者有无复发乳腺癌和复发时间。
实施例三,参阅图1和图2,该实施例基于上述实施例,在数据预处理模块中,设有电子健康记录预处理单元和病理学图像预处理单元,具体包括以下内容:
电子健康记录预处理单元,采用随机森林填充法填充电子健康记录中的缺失值,并清除电子健康记录数据中的无用信息和异常值,得到标准化数据;
病理学图像预处理单元,对病理学图像进行颜色归一化处理,得到归一化图像。
实施例四,参阅图1和图3,该实施例基于上述实施例,在多源异构特征融合模块中,设有特征提取单元和特征融合单元,具体包括以下内容:
特征提取单元,对标准化数据和归一化图像进行特征提取,具体内容如下:
采用文本特征提取器对标准化数据进行特征提取,具体为采用BERT模型提取标准化数据中的语义特征,得到标准特征向量;
采用深度残差网络对归一化图像进行特征提取,得到图像特征向量;
特征融合单元,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,具体内容如下:
初始化用于降维的向量,得到降维第一向量a和降维第二向量b;
依据降维第一向量a和降维第二向量b,采用计数草图方法,将标准特征向量和图像特征向量映射到低维空间,计算公式为:
;
式中,C是降维标准向量,δ()是计数草图函数,c是标准特征向量,a是降维第一向量,所述降维第一向量,其中n是降维向量长度,b是降维第二向量,所述降维第二向量/>,其中k是降维第二向量最大值,D是降维图像向量,di是图像特征向量;
通过紧凑双线性池操作,将降维标准向量和降维图像向量进行特征融合,计算公式为:
;
式中,Ei是融合特征,BCE()是紧凑双线性池操作,ft-1()是逆傅里叶变换,所述逆傅里叶变换用于将向量从频域转换到时域,ft()是傅里叶变换,所述傅里叶变换用于将向量从时域转换到频域,是逐元素相乘运算符;
通过执行上述操作,针对在现有的乳腺癌复发风险预测系统中,存在病理学图像特征维度高且结构复杂,而电子健康记录特征涉及多种影响因素,导致模型计算复杂,过拟合风险高,从而影响模型的预测能力和准确性的技术问题,本方案采用紧凑双线性池进行特征融合,有效减少了数据维度,得到更具有代表性的特征,有助于提高模型的预测能力,并在融合特征的同时保持了一定的可解释性。
实施例五,参阅图1和图4,该实施例基于上述实施例,在乳腺癌复发风险预测模型构建模块中,设有模型初始化单元、参数调优单元和模型训练单元,具体包括以下内容:
模型初始化单元,采用极限梯度提升模型进行模型初始化,具体内容如下:
将融合特征作为极限梯度提升模型的输入样本;
构建正则化项,用于控制模型的复杂度,计算公式为:
;
式中,α(Tri)是正则化项,Tri是第i个决策树,i是决策树索引,β是叶节点复杂度,s是叶节点数量,γ是折衷参数,所述折衷参数用于平衡损失函数和正则化项对模型的影响,j是叶节点索引,Srj是第j个叶节点的得分;
依据正则化项,建立目标函数,用于衡量模型性能,计算公式为:
;
式中,fo()是目标函数,st是迭代轮数,所述迭代轮数与决策树数量相等,z是输入样本索引,m是输入样本数量,xz是第z个输入样本的真实标签,是第z个输入样本的预测值,L()是损失函数;
更新模型预测结果,计算公式为:
;
式中,Ipst是第st轮迭代输出的模型预测值,Ipst-1是第st-1轮迭代输出的模型预测值,δst是第st轮迭代的学习率,fist是第st轮迭代的残差预测函数,X是输入样本,Rest-1是第st-1轮迭代的残差;
参数调优单元,采用基于树结构的搜索算法进行参数调优,具体内容如下:
初始化极限梯度提升模型的参数空间,得到模型参数空间,所述模型参数空间包括学习率、决策树数量、决策树深度;
初始化观察点,具体为采用随机采样法,在模型参数空间中采集N组参数组合作为观察点;
通过K次迭代,增加观察点和更新模型参数,得到模型最优参数,依据模型最优参数优化极限梯度提升模型参数,具体内容如下:
选取一个参数组合来训练极限梯度提升模型,通过目标函数评估模型性能,将得到的评估结果作为观测值;
计算观测值对应的分位数,计算公式为:
;
式中,Y是分位数,所述分位数表示观测值u小于阈值val的概率,P()是概率密度函数,u是观测值,val是阈值;
计算概率密度函数,计算公式为:
;
式中,P(spl│u)是给定观测值的条件下,参数组合spl的条件概率密度函数,spl是参数组合,w(spl)是参数组合spl在低目标函数值的概率密度函数,q(spl)是参数组合spl在高目标函数值的概率密度函数;
计算每个参数组合的期望改进值,所述期望改进值的计算公式为:
;
式中,Epru(spl)是期望改进值,所述期望改进值用于表示在给定观测值u的情况下,参数组合spl的期望改进值,是正比于符号,所述正比于符号表示两者成正比关系;
选择具有最大期望改进值的参数组合作为下一次迭代的极限梯度提升模型参数,并进行模型训练和模型性能评估,更新观察点和观测值;
模型训练单元,采用极限梯度提升模型进行模型构建,通过参数调优来优化模型参数,并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk;
通过执行上述操作,针对在现有的乳腺癌复发风险预测系统中,存在缺乏一种充分考虑患者个体差异的预测方法,进而影响了用于乳腺癌复发风险预测的系统的实用性的技术问题,本方案采用基于树结构的搜索算法进行参数调优,改进了模型的学习过程,有助于捕捉特征之间的重要关联和非线性结构,更好地适应个体之间的差异,提高了模型的泛化能力和实用性。
实施例六,参阅图1,该实施例基于上述实施例,在预测报告生成模块中,采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类为复发高风险和复发非高风险,得到风险预测数据,并生成乳腺癌复发风险报告。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型。
以上对本发明及其实施方式进行了描述,这种描述没有限制性,附图中所示的也只是本发明的实施方式之一,实际的结构并不局限于此。总而言之如果本领域的普通技术人员受其启示,在不脱离本发明创造宗旨的情况下,不经创造性的设计出与该技术方案相似的结构方式及实施例,均应属于本发明的保护范围。
Claims (7)
1.基于人工智能的乳腺癌复发风险预测系统,其特征在于:包括数据采集模块、数据预处理模块、多源异构特征融合模块、乳腺癌复发风险预测模型构建模块和预测报告生成模块;
所述数据采集模块,具体为获取复发风险标签和乳腺癌患者数据,并将所述复发风险标签发送至模型构建模块,将所述乳腺癌患者数据发送至数据预处理模块;
所述数据预处理模块,具体为对乳腺癌患者数据进行预处理,得到标准化数据和归一化图像,并将所述标准化数据和所述归一化图像发送至多源异构特征融合模块;
所述多源异构特征融合模块,具体为对所述标准化数据和所述归一化图像进行特征提取,得到标准特征向量和图像特征向量,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,得到融合特征,并将所述融合特征发送至乳腺癌复发风险预测模型构建模块;
所述乳腺癌复发风险预测模型构建模块,具体为采用极限梯度提升模型进行模型构建,采用基于树结构的搜索算法进行参数调优来优化模型参数并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk,并将所述乳腺癌复发风险预测模型Modelrisk发送至预测报告生成模块;
所述预测报告生成模块,具体为采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类并生成乳腺癌复发风险报告。
2.根据权利要求1所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:在多源异构特征融合模块中,设有特征提取单元和特征融合单元,具体包括以下内容:
特征提取单元,对标准化数据和归一化图像进行特征提取,具体内容如下:
采用文本特征提取器对标准化数据进行特征提取,具体为采用BERT模型提取标准化数据中的语义特征,得到标准特征向量;
采用深度残差网络对归一化图像进行特征提取,得到图像特征向量;
特征融合单元,采用紧凑双线性池将标准特征向量和图像特征向量进行特征融合,具体内容如下:
初始化用于降维的向量,得到降维第一向量a和降维第二向量b;
依据降维第一向量a和降维第二向量b,采用计数草图方法,将标准特征向量和图像特征向量映射到低维空间,计算公式为:
;
式中,C是降维标准向量,δ()是计数草图函数,c是标准特征向量,a是降维第一向量,所述降维第一向量,其中n是降维向量长度,b是降维第二向量,所述降维第二向量,其中k是降维第二向量最大值,D是降维图像向量,di是图像特征向量;
通过紧凑双线性池操作,将降维标准向量和降维图像向量进行特征融合,计算公式为:
;
式中,Ei是融合特征,BCE()是紧凑双线性池操作,ft-1()是逆傅里叶变换,所述逆傅里叶变换用于将向量从频域转换到时域,ft()是傅里叶变换,所述傅里叶变换用于将向量从时域转换到频域,是逐元素相乘运算符。
3.根据权利要求2所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:在乳腺癌复发风险预测模型构建模块中,设有模型初始化单元、参数调优单元和模型训练单元,具体包括以下内容:
模型初始化单元,采用极限梯度提升模型进行模型初始化,具体内容如下:
将融合特征作为极限梯度提升模型的输入样本;
构建正则化项,用于控制模型的复杂度,计算公式为:
;
式中,α(Tri)是正则化项,Tri是第i个决策树,i是决策树索引,β是叶节点复杂度,s是叶节点数量,γ是折衷参数,所述折衷参数用于平衡损失函数和正则化项对模型的影响,j是叶节点索引,Srj是第j个叶节点的得分;
依据正则化项,建立目标函数,用于衡量模型性能,计算公式为:
;
式中,fo()是目标函数,st是迭代轮数,所述迭代轮数与决策树数量相等,z是输入样本索引,m是输入样本数量,xz是第z个输入样本的真实标签,是第z个输入样本的预测值,L()是损失函数;
更新模型预测结果,计算公式为:
;
式中,Ipst是第st轮迭代输出的模型预测值,Ipst-1是第st-1轮迭代输出的模型预测值,δst是第st轮迭代的学习率,fist是第st轮迭代的残差预测函数,X是输入样本,Rest-1是第st-1轮迭代的残差;
参数调优单元,采用基于树结构的搜索算法进行参数调优;
模型训练单元,采用极限梯度提升模型进行模型构建,通过参数调优来优化模型参数,并进行模型训练,得到乳腺癌复发风险预测模型Modelrisk。
4.根据权利要求3所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:所述参数调优单元,采用基于树结构的搜索算法进行参数调优,具体内容如下:
初始化极限梯度提升模型的参数空间,得到模型参数空间,所述模型参数空间包括学习率、决策树数量、决策树深度;
初始化观察点,具体为采用随机采样法,在模型参数空间中采集N组参数组合作为观察点;
通过K次迭代,增加观察点和更新模型参数,得到模型最优参数,依据模型最优参数优化极限梯度提升模型参数,具体内容如下:
选取一个参数组合来训练极限梯度提升模型,通过目标函数评估模型性能,将得到的评估结果作为观测值;
计算观测值对应的分位数,计算公式为:
;
式中,Y是分位数,所述分位数表示观测值u小于阈值val的概率,P()是概率密度函数,u是观测值,val是阈值;
计算概率密度函数,计算公式为:
;
式中,P(spl│u)是给定观测值的条件下,参数组合spl的条件概率密度函数,spl是参数组合,w(spl)是参数组合spl在低目标函数值的概率密度函数,q(spl)是参数组合spl在高目标函数值的概率密度函数;
计算每个参数组合的期望改进值,所述期望改进值的计算公式为:
;
式中,Epru(spl)是期望改进值,所述期望改进值用于表示在给定观测值u的情况下,参数组合spl的期望改进值,是正比于符号,所述正比于符号表示两者成正比关系;
选择具有最大期望改进值的参数组合作为下一次迭代的极限梯度提升模型参数,并进行模型训练和模型性能评估,更新观察点和观测值。
5.根据权利要求4所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:在数据采集模块中,获取复发风险标签和乳腺癌患者数据,所述复发风险标签包括复发高风险和复发非高风险,所述乳腺癌患者数据是多源异构数据,具体包括电子健康记录和病理学图像,从医疗系统中获取电子健康记录,所述电子健康记录包括患者个人信息、就诊记录、医学检查结果和随访记录,所述随访记录记载了患者有无复发乳腺癌和复发时间。
6.根据权利要求5所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:在数据预处理模块中,设有电子健康记录预处理单元和病理学图像预处理单元,具体包括以下内容:
电子健康记录预处理单元,采用随机森林填充法填充电子健康记录中的缺失值,并清除电子健康记录数据中的无用信息和异常值,得到标准化数据;
病理学图像预处理单元,对病理学图像进行颜色归一化处理,得到归一化图像。
7.根据权利要求6所述的基于人工智能的乳腺癌复发风险预测系统,其特征在于:在预测报告生成模块中,采用乳腺癌复发风险预测模型Modelrisk进行预测,将患者分类为复发高风险和复发非高风险,得到风险预测数据,并生成乳腺癌复发风险报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306324.1A CN117894468A (zh) | 2024-03-18 | 2024-03-18 | 基于人工智能的乳腺癌复发风险预测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410306324.1A CN117894468A (zh) | 2024-03-18 | 2024-03-18 | 基于人工智能的乳腺癌复发风险预测系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117894468A true CN117894468A (zh) | 2024-04-16 |
Family
ID=90647773
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410306324.1A Pending CN117894468A (zh) | 2024-03-18 | 2024-03-18 | 基于人工智能的乳腺癌复发风险预测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117894468A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112304613A (zh) * | 2020-10-30 | 2021-02-02 | 浙江运达风电股份有限公司 | 一种基于特征融合的风电机组发电机轴承预警方法 |
CN113762319A (zh) * | 2021-03-04 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
CN115223715A (zh) * | 2022-07-15 | 2022-10-21 | 神州医疗科技股份有限公司 | 一种基于多模态信息融合的癌症预测方法与系统 |
CN116153495A (zh) * | 2022-11-29 | 2023-05-23 | 厦门大学 | 一种食管癌患者免疫治疗预后生存预测方法 |
WO2023098524A1 (zh) * | 2021-12-02 | 2023-06-08 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN117422964A (zh) * | 2023-10-19 | 2024-01-19 | 徐州医科大学附属医院 | 一种基于多模态数据融合的直肠癌预测方法、系统及设备 |
CN117612711A (zh) * | 2024-01-22 | 2024-02-27 | 神州医疗科技股份有限公司 | 一种分析肝癌复发数据的多模态预测模型构建方法及系统 |
-
2024
- 2024-03-18 CN CN202410306324.1A patent/CN117894468A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112304613A (zh) * | 2020-10-30 | 2021-02-02 | 浙江运达风电股份有限公司 | 一种基于特征融合的风电机组发电机轴承预警方法 |
CN113762319A (zh) * | 2021-03-04 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种多模态信息处理方法、装置、电子设备和存储介质 |
WO2023098524A1 (zh) * | 2021-12-02 | 2023-06-08 | 天津御锦人工智能医疗科技有限公司 | 多模态医学数据融合的评估方法、装置、设备及存储介质 |
CN115223715A (zh) * | 2022-07-15 | 2022-10-21 | 神州医疗科技股份有限公司 | 一种基于多模态信息融合的癌症预测方法与系统 |
CN116153495A (zh) * | 2022-11-29 | 2023-05-23 | 厦门大学 | 一种食管癌患者免疫治疗预后生存预测方法 |
CN117422964A (zh) * | 2023-10-19 | 2024-01-19 | 徐州医科大学附属医院 | 一种基于多模态数据融合的直肠癌预测方法、系统及设备 |
CN117612711A (zh) * | 2024-01-22 | 2024-02-27 | 神州医疗科技股份有限公司 | 一种分析肝癌复发数据的多模态预测模型构建方法及系统 |
Non-Patent Citations (4)
Title |
---|
AKIRA FUKUI等: "Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding", 《ARXIV》, 26 April 2016 (2016-04-26), pages 1 - 12 * |
NONE072: "详解 Tree-structured Parzen Estimator(TPE)_tpe算法", 《CSDN:HTTPS://BLOG.CSDN.NET/QQ_43557907/ARTICLE/DETAILS/129837714》, 29 March 2023 (2023-03-29), pages 2 - 10 * |
中国计算机学会编: "《CCF2-19-2020中国计算机科学技术发展报告》", 31 October 2020, 机械工业出版社, pages: 240 - 245 * |
刘亚猪: "《金融风险管理学》", 30 April 2023, 中国金融出版社, pages: 95 - 99 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10929420B2 (en) | Structured report data from a medical text report | |
US20230033601A1 (en) | Dynamic self-learning medical image method and system | |
CN107863147A (zh) | 基于深度卷积神经网络的医疗诊断的方法 | |
CN109544518B (zh) | 一种应用于骨骼成熟度评估的方法及其系统 | |
CN113421652A (zh) | 对医疗数据进行分析的方法、训练模型的方法及分析仪 | |
JP2024019441A (ja) | 人工知能モデルを使用機関に特化させる学習方法、これを行う装置 | |
Swain et al. | Appositeness of optimized and reliable machine learning for healthcare: a survey | |
Salvi et al. | Karpinski score under digital investigation: a fully automated segmentation algorithm to identify vascular and stromal injury of Donors’ Kidneys | |
Kazemi Esfeh et al. | A deep Bayesian video analysis framework: towards a more robust estimation of ejection fraction | |
RU2720363C2 (ru) | Способ формирования математических моделей пациента с использованием технологий искусственного интеллекта | |
CN112434754A (zh) | 一种基于图神经网络的跨模态医学影像域适应分类方法 | |
CN115083599A (zh) | 一种基于知识图谱的病状初步诊断及治疗方法 | |
CN117393098A (zh) | 基于视觉先验和跨模态对齐网络的医疗影像报告生成方法 | |
CN116862931A (zh) | 医学图像分割方法、装置、存储介质及电子设备 | |
Lemikhova et al. | Transfer learning for few-shot plants recognition: Antarctic station greenhouse use-case | |
Mahapatra et al. | MRMR-SSA: a hybrid approach for optimal feature selection | |
Narmatha et al. | Ovarian cysts classification using novel deep reinforcement learning with Harris Hawks Optimization method | |
Aklilu et al. | ALGES: active learning with gradient embeddings for semantic segmentation of laparoscopic surgical images | |
Shanmugam et al. | Exploration and enhancement of classifiers in the detection of lung cancer from histopathological images | |
Batool et al. | Ejection fraction estimation from echocardiograms using optimal left ventricle feature extraction based on clinical methods | |
Thilagavathy et al. | Digital transformation in healthcare using eagle perching optimizer with deep learning model | |
WO2024006572A1 (en) | Apparatus and a method for detecting associations among datasets of different types | |
CN117038096A (zh) | 一种基于低资源医疗数据与知识挖掘的慢性疾病预测方法 | |
CN117894468A (zh) | 基于人工智能的乳腺癌复发风险预测系统 | |
CN115547502A (zh) | 基于时序数据的血透病人风险预测装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |