CN114037662A - 基于随机森林算法的循环肿瘤细胞识别系统 - Google Patents
基于随机森林算法的循环肿瘤细胞识别系统 Download PDFInfo
- Publication number
- CN114037662A CN114037662A CN202111252610.7A CN202111252610A CN114037662A CN 114037662 A CN114037662 A CN 114037662A CN 202111252610 A CN202111252610 A CN 202111252610A CN 114037662 A CN114037662 A CN 114037662A
- Authority
- CN
- China
- Prior art keywords
- model
- circulating tumor
- random forest
- image
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/40—Analysis of texture
- G06T7/41—Analysis of texture based on statistical description of texture
- G06T7/45—Analysis of texture based on statistical description of texture using co-occurrence matrix computation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30024—Cell structures in vitro; Tissue sections in vitro
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30096—Tumor; Lesion
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明涉及一种基于随机森林算法的循环肿瘤细胞识别系统,属于人工智能领域。基于随机森林算法的循环肿瘤细胞识别系统,包括以下内容:S1:富集足够数量的循环肿瘤细胞;S2:将收集到的1573个基于循环肿瘤细胞的生物图像样本,按照细胞核形态异常和细胞质形态异常进行图像的标筛;S3:图像分割、图像预处理和建立训练集;S4:建立基于随机森林算法的循环肿瘤细胞特征分列提取系统,用于分类循环肿瘤细胞图像;S5:将模拟血样细胞图像与真实血样细胞图像分别输入系统,进行比较和验证。本发明与目前传统的病理学识别相比,显示出优秀的计算性能,可以大量节约时间。
Description
技术领域
本发明属于人工智能领域,涉及基于随机森林算法的循环肿瘤细胞识别系统。
背景技术
肿瘤(tumor)是指在各种致癌因素作用下,机体局部组织细胞在基因水平失去正常调控能力,使得细胞异常增殖而形成的新生物。肿瘤几乎可以发生于全身所有器官组织,根据其对身体的危害程度以及生物学特征,将其分为良性肿瘤(benign tumor)、交界性肿瘤(borderline tumor)、恶性肿瘤(malignant tumor)三种类型,其中恶性肿瘤是最严重的一类,严重影响着患者的工作学习和生活质量。
循环肿瘤细胞(circulating tumor cell,CTC)是一类存在于外周血中的肿瘤细胞,尽管大部分CTC在外周血中会凋亡或被自然杀伤细胞、巨噬细胞等吞噬,但仍有少数CTC会发生逃逸并发展为转移灶。CTC是恶性肿瘤血行转移的重要机制,肿瘤转移是导致多数恶性肿瘤患者治疗失败的重要原因,而肿瘤细胞自实体瘤病灶脱落进入循环系统是血行转移的重要发生机制。已有研究表明,患者外周血中的CTC能较好地预测患者的预后情况、治疗反应性、肿瘤的微转移及生化复发等,在多种恶性肿瘤中,CTC数量与患者的预后相关。由于CTC能反映患者实体肿瘤的特征且仅需进行简单的血液检测,并具有微创、可重复性高的特点,故与传统肿瘤组织活检相比,监测循环中的CTC被视为一种极具前景、简单无创的“液体活检”手段。
目前CTC的检测方法有很多,但每种方法都有各自的局限性,因此理想的CTC富集方法尚需探索,随着各种研究的不断发展,这些方法也会日趋成熟。若CTC计数可以实现癌症的早期筛查、患者预后分析及复发监控、药物疗效分析,那么将会显著改善肿瘤患者的治愈率及生存率。另外,通过对CTC进行分子学检测,可进一步探索肿瘤的发病机制。总之,随着相关研究的不断深入,CTC将会被更广泛地应用于临床,并最终造福于癌症患者。
发明内容
有鉴于此,本发明的目的在于提供一种基于随机森林算法的循环肿瘤细胞识别系统。首先对外周循环血中表面带负电的CTCs进行捕获与富集。然而,在循环肿瘤细胞被捕获后,其识别鉴定又成为了重点和难点。随着机器学习的发展,医学领域也越来越多地应用人工智能做图像分割、图像分类、图像识别、目标检测等视觉方法的研究,CTC样本图片作为二维图像样本,对此同样适用。因此,本文采用人工智能的方法对CTC样本图片进行训练和识别。
为达到上述目的,本发明提供如下技术方案:
基于随机森林算法的循环肿瘤细胞识别系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现的方法包括以下步骤:
S1:富集足够数量的循环肿瘤细胞;
S2:将收集到的1573个基于循环肿瘤细胞的生物图像样本,按照细胞核形态异常和细胞质形态异常进行图像的标筛;
S3:图像分割、图像预处理和建立训练集;
S4:建立基于随机森林算法的循环肿瘤细胞特征分列提取系统,用于分类循环肿瘤细胞图像;
S5:将模拟血样细胞图像与真实血样细胞图像分别输入系统,进行比较和验证。
可选的,当所述训练集比例为95%,测试集比例为5%,决策树数量为100时,随机森林模型准确率最佳,为95.6%;
将1573张图片输入随机森林模型,进行50分钟的完整训练;
当把含有内参细胞的模拟血样图像输入系统时,10次实验得到准确率平均值为94.59%,当把真实血样图像输入系统时,10次实验得到的准确率平均值为83.03%。
可选的,所述S2和S3中,对循环肿瘤细胞样本图片进行一个打标处理;然后对打标好的原始肿瘤细胞进行预处理,对样本图片进行裁剪,并筛除裁剪后非肿瘤细胞的图片;再将肿瘤细胞图像做优化处理,使图片特征更加明显;接着搭建随机森林模型进行训练和测试;最后分别使用模拟血样和真实血样对训练出的模型进行测试;
经过人工的打标处理后,获得1573个循环肿瘤细胞样本图片;
在数据预处理阶段,首先基于先验知识对数据进行手动筛选,筛除非肿瘤细胞,然后针对每张肿瘤图片使用最大连通域算法,找到细胞核最大的细胞,作为标准细胞,并将其裁剪出来;接着对筛选出来的细胞进行手工筛选,将非肿瘤细胞的图片筛掉,再对筛选后的细胞进行图像翻转和对比度增强,加入高斯噪声,使图像特征更明显;;
接下来,手动对裁剪出的5049个循环肿瘤细胞二维图样本进行分类,分为三类不同肿瘤细胞,每类样本又被五个特征所描述;
裁剪后对数据进行进一步的分析,发现第一类和第二类的细胞数目较少;在原有的图片基础上再次进行图片增强,为对第一类和第二类的原图像双边滤波之后进行加入椒盐噪声、图像锐化的操作,在一定程度上增加第一类和第二类细胞的数量;
最后再对处理后的图片进行特征提取数字化处理,包括一阶颜色矩,二阶颜色矩阵,三阶颜色矩,图像的均值、方差、歪斜度、峰态、能量,灰度共生矩阵的对比度、相关、能量、同质性,不变矩等特征参数;经过整个图片预处理过程,得到图片预处理和裁剪后的图片。
可选的,所述S3中,在随机森林模型训练中每次有放回地随机选择500个训练样本,作为一棵决策树的训练样本;使用前面预处理环节提取的每张图片的一阶颜色矩、二阶颜色矩阵、三阶颜色矩、图像的均值、方差、歪斜度、峰态能量、灰度共生矩阵的对比度、相关、能量、同质性和不变矩阵,共37列作为每张图片的特征向量作为随机森林模型的输入进行训练。
可选的,所述S5中,对于模型的评估,计算机器学习量化评价指标准确率,同时考虑召回值来评估模型假阴性的指标,精确度来评估模型假阳性的指标,并使用F-measure来综合控制召回值和精确度,具体计算公式如下:
公式1模型准确率计算:
公式2模型召回率计算:
公式3模型精确度计算:
公式4模型F-measure计算:
其中,TP代表实际为正确,且模型判断为正确,所以最终结果为正确的样本数量;FN代表实际为错误,且模型判断为错误,所以最终结果为正确的样本数量;TN代表实际为正确,且模型判断为错误,所以最终结果为错误的样本数量;FP代表实际为错误,且模型判断为正确,最终结果为错误的样本数量。
可选的,所述S5中,将处理后的单个细胞数据集数据按照不同的比例,分别分割训练集及测试集,同时调整随机森林的决策树个数,记录下不同参数下的不同结果,找到最优参数并建立模型。
可选的,所述找到最优参数并建立模型的方法为:
针对不同参数下准确率的测试结果进行分析,测试集比例为5%时,决策树个数为50、80、100时,得到的校验准确率分别为90.0%、95.2%、95.6%;当测试集比例为10%时,决策树个数为50、80、100时,得到的校验准确率分别为82.0%、85.0%、95.1%;当测试集比例为20%时,决策树个数为50、80、100时,得到的校验准确率分别为80.2%、80.7%、82.2%,由此可以看出,当测试集比例超过10%后,准确率会明显下降,当决策树数量变化时,准确率没有太大影响;
验证分析,当测试集比例为5%,决策树个数为100时,模型效果最佳,准确率达到95.6%,选定该参数作为下一步细胞的验证实验的模型参数带入实验,分别将取自模拟血样的实验室内参肿瘤细胞的样本图像和取自真实血样的带有不同种类循环肿瘤细胞的样本图像,进行人工切割,并优化细胞图片,放到随机森林模型中运行,最后根据验证实验的鉴定结果对该模型进行分析与讨论得出最后的实验结果。
可选的,所述根据验证实验的鉴定结果对该模型进行分析与讨论得出最后的实验结果具体为:
对包含了肿瘤细胞和非肿瘤细胞的100张模拟血样图片进行切割,切割得出817张零散细胞图片,随机分为10个小组进行测试,分别得到93.2%、96.1%、97.3%、98.2%、92.7%、89.6%、97.5%、94.2%、95.3%、95.4%的准确率,将准确率取平均值,得到模拟血样中内参细胞鉴定准确率为94.95%的结果,该结果与训练数据95.6%的结果接近;
将真实血样图片进行切割,切割出598张零散细胞图片,随机分为10个小组进行测试,分别得到82.7%、83.6%、85.7%、80.2%、84.7%、86.2%、83.8%、82.5%、84.6%、79.3%的准确率,将准确率取平均值,得到真实血样中循环肿瘤细胞鉴定准确率为83.03%的结果,该结果与模拟血样准确率相比降低。
可选的,所述随机森林算法具体为:
1、对特征进一步选择;
1)输入特征按照其重要性从高到底排序,其中特征重要性排序根据与输出变量的皮尔森相关系数或者由支持向量机模型得出;
2)去除与输出变量相关性很小的特征;
3)在原有特征的基础上,添加新的特征,新特征是原有特征集的组合或划分;
2、对参数进行调节;
在python的sklearn.ensemble.RandomForestRegressor库中,需要调节的参数为:
1)n_estimators:表示树的数量,通常随着树的数量的增加,test error会逐渐减小,当到达一定数目时,test error的变化变得很小,继续增大则test error反而会变大,出现过拟合现象,确定较为合理的树的数量;n_estimators的选择通过GridSearchCV得到最优test error对应的树的数量;
2)max_features:表示基决策树的每个节点随机选择的最大特征数,传统决策树模型在选择特征时考虑所有可能的特征,降低单个树的多样性,随机森林基于集成学习思想的优点,减小max_features,提升算法速度,降低测试误差。
本发明的有益效果在于:基于循环肿瘤细胞的人工智能识别系统与目前传统的病理学识别相比,显示出优秀的计算性能,可以大量节约时间。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为系统结构图;
图2为循环肿瘤细胞样本;
图3为样本图像预处理步骤;
图4为不同种细胞的数量;
图5为预处理和裁剪的图片;
图6为随机森林模型训练;
图7为随机森林模拟血样鉴定结果;
图8为随机森林真血样本鉴定结果。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在图像分类方面,随机森林算法是机器学习应用中以弱搏强典型,是集成学习的代表。集成学习(ensenmble learning)是指整个模型的内部是由多个弱监督模型组成,每个弱监督模型只在每个不同方向表现比较好,这样当综合这些监督算法,就会得到一个稳定且各方面都表现较好的模型。随机森林(random forest,RF)是包含许多决策树,能较好运用于分类和回归等问题的算法。下面根据随机森林工作原理举例说明。
描述:根据已有的训练集已经生成了对应的随机森林,随机森林如何利用某一个人的年龄(Age)、性别(Gender)、教育情况(Highest Educational Qualification)、工作领域(Industry)以及住宅地(Residence)共5个字段来预测他的收入层次。
收入层次:
Band1:Below$40,000
Band2:$40,000–150,000
Band3:Morethan$150,000
随机森林中每一棵树都可以看做是一棵CART(分类回归树),这里假设森林中有5棵CART树,总特征个数N=5,取m=1(这里假设每个CART树对应一个不同的特征)。
分类回归树1:年龄
分类回归树2:性别
分类回归树3:教育情况
分类回归树4:住宅地
分类回归树5:工作领域
要预测的某个人的信息如下:
1.Age:35years;2.Gender:Male;3.Highest Educational Qualification:Diploma holder;4.Industry:Manufacturing;5.Residence:Metro.
根据这五棵CART树的分类结果,可以针对这个人的信息建立收入层次的分布情况:
最后,得出结论,这个人的收入层次70%是一等,大约24%为二等,6%为三等,所以最终认定该人属于一等收入层次(小于$40,000)。
本系统架构如图1所示,首先对循环肿瘤细胞样本图片进行一个打标处理;然后对打标好的原始肿瘤细胞进行预处理,对样本图片进行裁剪,并筛除裁剪后非肿瘤细胞的图片;再将肿瘤细胞图像做优化处理,使图片特征更加明显;接着搭建随机森林模型进行训练和测试;最后分别使用模拟血样和真实血样对训练出的模型进行测试。
经过人工的打标处理后,一共获得了1573个循环肿瘤细胞样本图片,如图2所示。
在数据预处理阶段,首先基于先验知识对数据进行手动筛选,筛除非肿瘤细胞,然后针对每张肿瘤图片使用最大连通域算法,找到细胞核最大的细胞,作为标准细胞,并将其裁剪出来。接着对筛选出来的细胞进行手工筛选,将非肿瘤细胞的图片筛掉,再对筛选后的细胞进行图像翻转和对比度增强,加入高斯噪声,使图像特征更明显,如图3所示。
接下来,手动对裁剪出的5049个循环肿瘤细胞二维图样本进行分类,主要分为三类不同肿瘤细胞,每类样本又被五个特征所描述,如表1所示。
表1细胞样本表
细胞类型 | 核大小 | 核形状 | 核染色 | 核浆比例 | 胞浆形态 |
肺癌细胞 | 4-5倍 | 核畸形 | 核浓染状 | 增大 | 丰富而不均 |
肝癌细胞 | 4-5倍 | 核畸形 | 核浓染状 | 增大 | 丰富而不均 |
肠癌细胞 | 4-5倍 | 核畸形 | 核浓染状 | 增大 | 丰富而不均 |
对照粒细胞 | 0.2-0.4μm | 圆形 | 染色均匀 | 1:3 | 均匀无空泡 |
裁剪后对数据进行进一步的分析,各类细胞的数量分布如图4所示。可以发现,第一类和第二类的细胞数目较少。所以,本文在原有的图片基础上再次进行图片增强,为对第一类和第二类的原图像双边滤波之后进行加入椒盐噪声、图像锐化的操作,在一定程度上增加第一类和第二类细胞的数量。
最后再对处理后的图片进行特征提取数字化处理,包括一阶颜色矩,二阶颜色矩阵,三阶颜色矩,图像的均值、方差、歪斜度、峰态、能量,灰度共生矩阵的对比度、相关、能量、同质性,不变矩等特征参数。经过整个图片预处理过程,得到如图5所示的图片预处理和裁剪后的图片。
本文采用如图6所示的框架进行随机森林模型训练,在模型训练中每次有放回地随机选择500个训练样本,作为一棵决策树的训练样本(也就是图中的自动样本集)。使用前面预处理环节提取的每张图片的一阶颜色矩(三列),二阶颜色矩阵(三列),三阶颜色矩(三列),图像的均值、方差、歪斜度、峰态、能量(分别各占一列),灰度共生矩阵的对比度、相关、能量、同质性(分别各占四列),不变矩阵(七列),共37列作为每张图片的特征向量作为随机森林模型的输入进行训练。
对于模型的评估,本文主要使用公式1计算机器学习量化评价指标准确率(accuracy),同时考虑召回值(recall,如公式2所示)来评估模型假阴性的指标(对于本文的场景来说也就是识别错了携带循环肿瘤细胞样本的比例),精确度(precision,如公式3所示)来评估模型假阳性的指标(对于本文的场景来说也就是把正常细胞误诊为循环肿瘤细胞的比例),并使用F-measure来综合控制召回值和精确度(如公式4所示)。
公式1模型准确率计算:
公式2模型召回率计算:
公式3模型精确度计算:
公式4模型F-measure计算:
其中,TP(True Positive)代表实际为正确,且模型判断为正确,所以最终结果为正确的样本数量;FN(False Negative)代表实际为错误,且模型判断为错误,所以最终结果为正确的样本数量;TN(True Positive)代表实际为正确,且模型判断为错误,所以最终结果为错误的样本数量;FP(False Positive)代表实际为错误,且模型判断为正确,所以最终结果为错误的样本数量。
本文将处理后的单个细胞数据集数据按照不同的比例,分别分割训练集及测试集,同时调整随机森林的决策树个数,如表2所示,记录下不同参数下的不同结果,找到最优参数并建立模型。
表2随机森林参数表
针对不同参数下准确率的测试结果进行分析,测试集比例为5%时,决策树个数为50、80、100时,得到的校验准确率分别为90.0%、95.2%、95.6%;当测试集比例为10%时,决策树个数为50、80、100时,得到的校验准确率分别为82.0%、85.0%、95.1%;当测试集比例为20%时,决策树个数为50、80、100时,得到的校验准确率分别为80.2%、80.7%、82.2%,由此可以看出,当测试集比例超过10%后,准确率会明显下降,当决策树数量变化时,准确率没有太大影响。
根据以上结果验证分析,当测试集比例为5%,决策树个数为100时,模型效果最佳,准确率可达到95.6%,所以选定该参数作为下一步细胞的验证实验的模型参数带入实验,分别将取自模拟血样的实验室内参肿瘤细胞的样本图像和取自真实血样的带有不同种类循环肿瘤细胞的样本图像,进行人工切割,并优化细胞图片,放到该随机森林模型中运行,最后根据验证实验的鉴定结果对该模型进行分析与讨论得出最后的实验结果。
对包含了肿瘤细胞和非肿瘤细胞的100张模拟血样图片进行切割,切割得出817张零散细胞图片,随机分为10个小组进行测试,如图7所示,分别得到93.2%、96.1%、97.3%、98.2%、92.7%、89.6%、97.5%、94.2%、95.3%、95.4%的准确率,将准确率取平均值,可得到模拟血样中内参细胞鉴定准确率为94.95%的结果,该结果与训练数据95.6%的结果接近。
真实血样的循环肿瘤细胞与模拟血样中的内参细胞相比,在核染色,胞浆形态等方面略微有所不同,细胞的差异性及变异性都更大,鉴定难度增加。对真实血样重复上述步骤,将真实血样图片进行切割,切割出598张零散细胞图片,随机分为10个小组进行测试,如图8所示,分别得到82.7%、83.6%、85.7%、80.2%、84.7%、86.2%、83.8%、82.5%、84.6%、79.3%的准确率,将准确率取平均值,可得到真实血样中循环肿瘤细胞鉴定准确率为83.03%的结果,该结果与模拟血样准确率相比显著降低。
随机森林算法可以随机从数据集中采样,模型的随机性很强,但是由于模型最后的整合是包含不同看问题角度的结果,所以不容易过拟合,并且对于噪声点和溢出点不敏感。对于每次采样,只选取原数据集的一小部分,所以对于高维数据训练速度会比传统的决策树快很多。由于随机森林是树状结构,所以模型的可解释度很高,可以体现出数据及中哪些特征更重要。经过训练后的模型也分别在模拟血样和真实血样的样本上达到了94.59%和83.03%的准确率。
为进一步提高随机森林算法的准确度,对其进行了优化,主要从以下两个方面优化:
1、对特征进一步选择
1)输入特征按照其重要性从高到底排序,其中特征重要性排序可以根据与输出变量的皮尔森相关系数或者由支持向量机模型得出;
2)去除与输出变量相关性很小的特征;
3)在原有特征的基础上,添加新的特征,新特征可以是原有特征集的组合或划分,例如,肺癌细胞的核大小。
2、对参数进行调节
以python的sklearn.ensemble.RandomForestRegressor库为例,主要需要调节的参数为:
1)n_estimators:表示树的数量,通常随着树的数量的增加,test error会逐渐减小,当到达一定数目时,testerror的变化变得很小,继续增大则test error反而会变大,出现过拟合现象,这时候就可以确定较为合理的树的数量;n_estimators的选择可通过GridSearchCV得到最优testerror对应的树的数量。
2)max_features:表示基决策树的每个节点随机选择的最大特征数,传统决策树模型在选择特征时考虑所有可能的特征,而它降低了单个树的多样性,而由于随机森林基于集成学习思想的优点,减小max_features不仅会提升算法速度,也有可能降低测试误差,这也是RF模型在Bagging集成学习方法基础上的一个改进;对max_features的选择是逐一尝试,直到找到比较理想的值。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
Claims (9)
1.基于随机森林算法的循环肿瘤细胞识别系统,包括存储器、处理器及储存在存储器上并能够在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现的方法包括以下步骤:
S1:富集足够数量的循环肿瘤细胞;
S2:将收集到的1573个基于循环肿瘤细胞的生物图像样本,按照细胞核形态异常和细胞质形态异常进行图像的标筛;
S3:图像分割、图像预处理和建立训练集;
S4:建立基于随机森林算法的循环肿瘤细胞特征分列提取系统,用于分类循环肿瘤细胞图像;
S5:将模拟血样细胞图像与真实血样细胞图像分别输入系统,进行比较和验证。
2.根据权利要求1所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:当所述训练集比例为95%,测试集比例为5%,决策树数量为100时,随机森林模型准确率最佳,为95.6%;
将1573张图片输入随机森林模型,进行50分钟的完整训练;
当把含有内参细胞的模拟血样图像输入系统时,10次实验得到准确率平均值为94.59%,当把真实血样图像输入系统时,10次实验得到的准确率平均值为83.03%。
3.根据权利要求2所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S2和S3中,对循环肿瘤细胞样本图片进行一个打标处理;然后对打标好的原始肿瘤细胞进行预处理,对样本图片进行裁剪,并筛除裁剪后非肿瘤细胞的图片;再将肿瘤细胞图像做优化处理,使图片特征更加明显;接着搭建随机森林模型进行训练和测试;最后分别使用模拟血样和真实血样对训练出的模型进行测试;
经过人工的打标处理后,获得1573个循环肿瘤细胞样本图片;
在数据预处理阶段,首先基于先验知识对数据进行手动筛选,筛除非肿瘤细胞,然后针对每张肿瘤图片使用最大连通域算法,找到细胞核最大的细胞,作为标准细胞,并将其裁剪出来;接着对筛选出来的细胞进行手工筛选,将非肿瘤细胞的图片筛掉,再对筛选后的细胞进行图像翻转和对比度增强,加入高斯噪声,使图像特征更明显;;
接下来,手动对裁剪出的5049个循环肿瘤细胞二维图样本进行分类,分为三类不同肿瘤细胞,每类样本又被五个特征所描述;
裁剪后对数据进行进一步的分析,发现第一类和第二类的细胞数目较少;在原有的图片基础上再次进行图片增强,为对第一类和第二类的原图像双边滤波之后进行加入椒盐噪声、图像锐化的操作,在一定程度上增加第一类和第二类细胞的数量;
最后再对处理后的图片进行特征提取数字化处理,包括一阶颜色矩,二阶颜色矩阵,三阶颜色矩,图像的均值、方差、歪斜度、峰态、能量,灰度共生矩阵的对比度、相关、能量、同质性,不变矩等特征参数;经过整个图片预处理过程,得到图片预处理和裁剪后的图片。
4.根据权利要求3所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S3中,在随机森林模型训练中每次有放回地随机选择500个训练样本,作为一棵决策树的训练样本;使用前面预处理环节提取的每张图片的一阶颜色矩、二阶颜色矩阵、三阶颜色矩、图像的均值、方差、歪斜度、峰态能量、灰度共生矩阵的对比度、相关、能量、同质性和不变矩阵,共37列作为每张图片的特征向量作为随机森林模型的输入进行训练。
5.根据权利要求4所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S5中,对于模型的评估,计算机器学习量化评价指标准确率,同时考虑召回值来评估模型假阴性的指标,精确度来评估模型假阳性的指标,并使用F-measure来综合控制召回值和精确度,具体计算公式如下:
公式1模型准确率计算:
公式2模型召回率计算:
公式3模型精确度计算:
公式4模型F-measure计算:
其中,TP代表实际为正确,且模型判断为正确,所以最终结果为正确的样本数量;FN代表实际为错误,且模型判断为错误,所以最终结果为正确的样本数量;TN代表实际为正确,且模型判断为错误,所以最终结果为错误的样本数量;FP代表实际为错误,且模型判断为正确,最终结果为错误的样本数量。
6.根据权利要求5所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述S5中,将处理后的单个细胞数据集数据按照不同的比例,分别分割训练集及测试集,同时调整随机森林的决策树个数,记录下不同参数下的不同结果,找到最优参数并建立模型。
7.根据权利要求6所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述找到最优参数并建立模型的方法为:
针对不同参数下准确率的测试结果进行分析,测试集比例为5%时,决策树个数为50、80、100时,得到的校验准确率分别为90.0%、95.2%、95.6%;当测试集比例为10%时,决策树个数为50、80、100时,得到的校验准确率分别为82.0%、85.0%、95.1%;当测试集比例为20%时,决策树个数为50、80、100时,得到的校验准确率分别为80.2%、80.7%、82.2%,由此可以看出,当测试集比例超过10%后,准确率会明显下降,当决策树数量变化时,准确率没有太大影响;
验证分析,当测试集比例为5%,决策树个数为100时,模型效果最佳,准确率达到95.6%,选定该参数作为下一步细胞的验证实验的模型参数带入实验,分别将取自模拟血样的实验室内参肿瘤细胞的样本图像和取自真实血样的带有不同种类循环肿瘤细胞的样本图像,进行人工切割,并优化细胞图片,放到随机森林模型中运行,最后根据验证实验的鉴定结果对该模型进行分析与讨论得出最后的实验结果。
8.根据权利要求7所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述根据验证实验的鉴定结果对该模型进行分析与讨论得出最后的实验结果具体为:
对包含了肿瘤细胞和非肿瘤细胞的100张模拟血样图片进行切割,切割得出817张零散细胞图片,随机分为10个小组进行测试,分别得到93.2%、96.1%、97.3%、98.2%、92.7%、89.6%、97.5%、94.2%、95.3%、95.4%的准确率,将准确率取平均值,得到模拟血样中内参细胞鉴定准确率为94.95%的结果,该结果与训练数据95.6%的结果接近;
将真实血样图片进行切割,切割出598张零散细胞图片,随机分为10个小组进行测试,分别得到82.7%、83.6%、85.7%、80.2%、84.7%、86.2%、83.8%、82.5%、84.6%、79.3%的准确率,将准确率取平均值,得到真实血样中循环肿瘤细胞鉴定准确率为83.03%的结果,该结果与模拟血样准确率相比降低。
9.根据权利要求8所述所述的基于随机森林算法的循环肿瘤细胞识别系统,其特征在于:所述随机森林算法具体为:
1、对特征进一步选择;
1)输入特征按照其重要性从高到底排序,其中特征重要性排序根据与输出变量的皮尔森相关系数或者由支持向量机模型得出;
2)去除与输出变量相关性很小的特征;
3)在原有特征的基础上,添加新的特征,新特征是原有特征集的组合或划分;
2、对参数进行调节;
在python的sklearn.ensemble.RandomForestRegressor库中,需要调节的参数为:
1)n_estimators:表示树的数量,通常随着树的数量的增加,test error会逐渐减小,当到达一定数目时,test error的变化变得很小,继续增大则test error反而会变大,出现过拟合现象,确定较为合理的树的数量;n_estimators的选择通过GridSearchCV得到最优test error对应的树的数量;
2)max_features:表示基决策树的每个节点随机选择的最大特征数,传统决策树模型在选择特征时考虑所有可能的特征,降低单个树的多样性,随机森林基于集成学习思想的优点,减小max_features,提升算法速度,降低测试误差。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111252610.7A CN114037662A (zh) | 2021-10-26 | 2021-10-26 | 基于随机森林算法的循环肿瘤细胞识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111252610.7A CN114037662A (zh) | 2021-10-26 | 2021-10-26 | 基于随机森林算法的循环肿瘤细胞识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114037662A true CN114037662A (zh) | 2022-02-11 |
Family
ID=80142050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111252610.7A Pending CN114037662A (zh) | 2021-10-26 | 2021-10-26 | 基于随机森林算法的循环肿瘤细胞识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114037662A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564776A (zh) * | 2022-12-05 | 2023-01-03 | 珠海圣美生物诊断技术有限公司 | 基于机器学习的异常细胞样本检测方法和装置 |
-
2021
- 2021-10-26 CN CN202111252610.7A patent/CN114037662A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115564776A (zh) * | 2022-12-05 | 2023-01-03 | 珠海圣美生物诊断技术有限公司 | 基于机器学习的异常细胞样本检测方法和装置 |
CN115564776B (zh) * | 2022-12-05 | 2023-03-10 | 珠海圣美生物诊断技术有限公司 | 基于机器学习的异常细胞样本检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ker et al. | Automated brain histology classification using machine learning | |
Labati et al. | All-IDB: The acute lymphoblastic leukemia image database for image processing | |
CN110120056A (zh) | 基于自适应直方图阈值和轮廓检测的血液白细胞分割方法 | |
Cabrera et al. | HeMatic: An automated leukemia detector with separation of overlapping blood cells through Image Processing and Genetic Algorithm | |
Urdal et al. | Prognostic prediction of histopathological images by local binary patterns and RUSBoost | |
CN114037661A (zh) | 基于yolo算法的循环肿瘤细胞识别系统 | |
CN115424666A (zh) | 一种基于全基因组重亚硫酸盐测序数据筛选泛癌早筛分子标志物的方法及系统 | |
CN114037662A (zh) | 基于随机森林算法的循环肿瘤细胞识别系统 | |
Ahmad et al. | Brain Tumor Detection Using Convolutional Neural Network | |
Waheed et al. | Computer aided histopathological classification of cancer subtypes | |
Chang et al. | Multireference level set for the characterization of nuclear morphology in glioblastoma multiforme | |
Supriyanti et al. | Contour detection of leukocyte cell nucleus using morphological image | |
Sun et al. | Detection of breast tumour tissue regions in histopathological images using convolutional neural networks | |
Chen et al. | Chromosome segmentation via data simulation and shape learning | |
Rozendo et al. | Classification of non-Hodgkin lymphomas based on sample entropy signatures | |
Tyassari et al. | Classification of cervical precancerous cell of ThinPrep images based on deep learning model AlexNet and InceptionV3 | |
Tosta et al. | Application of evolutionary algorithms on unsupervised segmentation of lymphoma histological images | |
Bhattacharjee et al. | Multichannel convolution neural network classification for the detection of histological pattern in prostate biopsy images | |
Chitra et al. | Detection of aml in blood microscopic images using local binary pattern and supervised classifier | |
Pham et al. | Deep learning Of P73 biomarker expression in rectal cancer patients | |
Herwanto et al. | Feature Extraction and Classification of Tissue Mammograms Based on Grayscale and Gray Level Co-occurrence Matrix | |
Guan et al. | Detection of non-dynamic blebbing single unattached human embryonic stem cells | |
Nemati et al. | A comparative study of deep semantic segmentation architectures for mitosis detection in histopathology images | |
Martínez-Castro et al. | Leukocytes detection, classification and counting in smears of peripheral blood | |
Ait Amou et al. | A Novel MRI Diagnosis Method for Brain Tumor Classification Based on CNN and Bayesian Optimization. Healthcare 2022, 10, 494 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |