CN106778830A - 基于双聚类挖掘及AdaBoost的肿瘤分类方法 - Google Patents
基于双聚类挖掘及AdaBoost的肿瘤分类方法 Download PDFInfo
- Publication number
- CN106778830A CN106778830A CN201611062794.XA CN201611062794A CN106778830A CN 106778830 A CN106778830 A CN 106778830A CN 201611062794 A CN201611062794 A CN 201611062794A CN 106778830 A CN106778830 A CN 106778830A
- Authority
- CN
- China
- Prior art keywords
- rule
- pernicious
- feature
- adaboost
- benign
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/03—Recognition of patterns in medical or anatomical images
- G06V2201/032—Recognition of patterns in medical or anatomical images of protuberances, polyps nodules, etc.
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双聚类及AdaBoost的肿瘤分类方法,该方法首先选取肿瘤病变特征的数字化打分数据构建原始数据集,根据特征统计信息从原始特征中筛选出对区分良恶性肿瘤有效的特征,接着利用双聚类算法从特征打分数据中挖掘出数据背后隐藏的重要肿瘤诊断模式,根据病例良恶性属性先验知识采用支持率指标确定诊断模式的良恶性属性,进而将局部一致模式转化为有效的诊断规则;之后采用良恶性规则两两配对的方法构造能够在不同特征空间下分类的简单弱分类器,弱分类器依据测试样本跟良恶性规则匹配的相似度为分类原则;最后采用AdaBoost集成算法从弱分类器中训练出高准确率的强分类器,对提高肿瘤临床诊断的准确率有重要作用。
Description
技术领域
本发明涉及超声肿瘤识别诊断领域,具体涉及一种基于双聚类挖掘及AdaBoost的肿瘤分类方法。
背景技术
肿瘤作为人类致死的首要原因,严重威胁着人类生命健康,受到了医学界的广泛关注。随着计算机技术的发展,许多医学成像技术应运而生,迅速被医生和患者接受并在临床上得到广泛应用。当前主要的医学影像技术有:超声成像检查,磁共振成像检查,X光成像检查。相比于其他成像技术,超声影像具有低成本、性价比高、无辐射、快速方便、对人体副作用小的优势,逐渐被患者和医生接受,成为临床应用的主要成像手段。但是直接通过超声影像对肿瘤进行判断,临床诊断准确率较低,容易造成漏诊和误诊。原因在于超声诊断严重依赖操作者临床经验和对图像信息的理解,再加上超图图像本身固有噪声斑点、信噪比低的影响,难以直接判断出肿瘤的良恶性。为此,基于超声图像数据的计算机辅助诊断(CAD)技术能够较大程度上回避操作者主观判断带来的误差,近年来获得越来越多的关注。因此,针对传统方法无法准确获取肿瘤病变信息、步骤繁琐的问题,提供一种医生易于接受和认可的特征获取方案具有非常重要的临床应用价值。
据调研,目前结合数据挖掘与超声CAD辅助诊断技术的研究是基于传统的B超影像,结合图像分析技术获得病灶区域内的纹理特征,利用人工神经网络等智能计算方法进行分类。然而,这一类技术研究的局限性非常明显:首先,采用图像像素灰度、纹理计算出来的低级特征用于分类,与医生临床上描述判断肿瘤的高级语义特征有着较大差异;其次,算法过于复杂,涉及预处理、图像滤波、图像分割、病灶区域识别、纹理特征提取与分析、训练分类器等诸多环节,任一环节的输出结果不理想,都会影响最后的诊断结果。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于双聚类挖掘及AdaBoost集成学习的肿瘤分类方法。
本发明的目的通过下述技术方案实现:
一种基于双聚类挖掘及AdaBoost的肿瘤分类方法,该方法包括下列步骤:
S1、根据肿瘤超声图像特征的量化打分数据构建原始训练数据集,其中,所述原始训练数据集中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;
S2、根据所述原始训练数据集,从原始特征中筛选出对区分良恶性肿瘤有效的特征;
S3、由筛选出来的有效特征重新构建出训练数据矩阵,并对所述训练数据矩阵中的每一列进行归一化处理;
S4、对归一化后的所述训练数据矩阵使用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;
S5、根据病例属性的先验知识采用基于支持度的方法将得到的双聚类转化为有效的良性或恶性诊断规则;
S6、将良性和恶性诊断规则分组,然后采用良恶性规则两两配对的方法构造一系列弱分类器;
S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;
S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。
进一步地,所述步骤S5中将找到的双聚类转化为有效的良性或恶性诊断规则的具体过程如下:
S51、根据双聚类中所含病例的实际良恶性属性,按照下式计算其良恶性的支持度support,将双聚类属性划分为支持度较高的那一类;
S52、选取支持度大于某一阈值的双聚类,通过对每列取均值的方法得到代表该双聚类模式信息的一个行向量,形成一个有效的具有类属性的诊断规则。
进一步地,所述步骤S6中采用良恶性规则两两配对的方法构造一系列弱分类器的具体过程如下:
S61、将提取到的规则分为良性和恶性两组;
S62、采取良恶性规则两配对的组合方式,形成一系列“良性规则-恶性规则”组合;
S63、所述“良性规则-恶性规则”组合依据输入测试病例特征打分数据与组合中良性规则和恶性规则的相似度,将测试样本判别为相似度较高的那一类的原则构造弱分类器。
进一步地,所述相似度为一个新病例与诊断规则间的相似度,采用特征空间独立归一化距离FSDND来衡量,具体公式如下:
其中,FS为良性或恶性诊断规则的特征空间,Vud(j)表示测试病例中第j个特征的值,Vdr(j)表示诊断规则中第j个特征的值,lb(j)和ub(j)分别表示第j个特征的下界和上界值。
本发明相对于现有技术具有如下的优点及效果:
1、摒弃了传统计算机辅助诊断方法复杂的图像预处理、图像分割环节,所采用的双聚类方法可以从大量的临床肿瘤特征数据中挖掘出肿瘤的良恶性表达模式,提取出有价值的临床诊断规则信息。
2、AdaBoost集成学习算法巧妙地将由各种不同的弱分类器结合在一起,发挥不同弱分类器在不同方面的分类能力,使得最终分类器具有强泛化能力,在某些不好的特征数据中也能表现出不错的分类性能,在临床辅助诊断中具有重大价值。
附图说明
图1是本发明中公开的基于双聚类挖掘及AdaBoost集成学习的肿瘤分类方法的流程步骤图;
图2是本发明方法中良恶性规则两两配对构造弱分类器的示意图;
图3是本发明方法中计算测试病例与两个具有不同特征空间向量诊断规则间相似度的示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明确,以下参照附图并举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参见图1,图1是本实施例中公开的基于双聚类挖掘及AdaBoost的肿瘤分类方法的流程步骤图。图1所示的基于双聚类挖掘及AdaBoost的肿瘤分类方法运用于乳腺肿瘤,具体包括下列步骤:
S1、根据N个肿瘤超声图像关于M个肿块病变特征的人工评分构建原始训练数据集,其中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;
S2、根据原始训练数据集,利用特征方差为指标进行特征选择,从原始特征中筛选出L个对区分良恶性肿瘤有效的特征;
S3、由筛选出来的特征重新构建出训练数据矩阵,并对数据矩阵中的每一列进行归一化处理;
S4、对归一化后的训练数据矩阵使用利用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;
S5、根据病例属性的先验知识采用一种基于支持度的方法将找到的双聚类转化为有效的良性或恶性诊断规则;
具体应用中,所述步骤S5具体过程如下:
S51、首先根据双聚类中所含病例的实际良恶性属性,按照下式计算其良恶性的支持度support,将双聚类属性划分为支持度较高的那一类;
S52、选取支持度大于0.7的双聚类,通过对每列取均值的方法得到代表该双聚类模式信息的一个行向量,形成一个有效的具有类属性的诊断规则。
S6、将良性和恶性诊断规则分组,然后采用“良恶性规则两两配对”的方法构造一系列弱分类器;
具体应用中,所述步骤S6中采用良恶性规则两两配对的方法构造一系列弱分类器的具体过程如下:
S61、将提取到的规则分为良性和恶性两组;
S62、如图2所示,将左边的良性规则和右边的恶性规则,采用两两配对的组合方式,形成一系列“良性规则-恶性规则”组合;
S63、所述“良性规则-恶性规则”组合依据输入测试病例特征打分数据与组合中良性规则和恶性规则的相似度,将测试样本判别为相似度较高的那一类的原则构造弱分类器。
具体应用中,弱分类器包含的良恶性规则通常是由不同特征子集构成的向量,如图3所示,某个弱分类组合中良性诊断规则只包含特征1、2、4、6、8,恶性诊断规则只包含2、4、5、7。采用特征空间独立归一化距离可以衡量一个新病例与两个具有不同特征空间向量诊断规则间的相似度。
所述相似度为一个新病例与诊断规则间的相似度,采用特征空间独立归一化距离FSDND来衡量,具体公式如下:
其中,FS为良性或恶性诊断规则的特征空间,Vud(j)表示测试病例中第j个特征的值,Vdr(j)表示诊断规则中第j个特征的值,lb(j)和ub(j)分别表示第j个特征的下界和上界值。
S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;
S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。
综上所述,本发明公开的基于双聚类挖掘及AdaBoost集成学习的肿瘤分类方法,首先选取肿瘤病变特征的数字化打分数据构建原始数据集,根据特征统计信息从原始特征中筛选出对区分良恶性肿瘤有效的特征,接着利用双聚类算法从特征打分数据中挖掘出数据背后隐藏的重要肿瘤诊断模式,根据病例良恶性属性先验知识采用支持率指标确定诊断模式的良恶性属性,进而将局部一致模式转化为有效的诊断规则;之后采用良恶性规则“两两配对”的方法构造能够在不同特征空间下分类的简单弱分类器,弱分类器依据测试样本跟良恶性规则匹配的相似度为分类原则;最后采用AdaBoost集成算法从这些弱分类器中训练出一个高准确率的强分类器。本方法摒弃了传统计算机辅助方法的框架,通过从大量临床数据中挖掘出有价值的诊断规则模式,并利用集成学习方法权衡分析所提取诊断规则的有效程度,训练出分类性能稳定的分类器,对提高肿瘤临床诊断的准确率具有重要作用。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
Claims (4)
1.一种基于双聚类挖掘及AdaBoost的肿瘤分类方法,其特征在于,该方法包括下列步骤:
S1、根据肿瘤超声图像特征的量化打分数据构建原始训练数据集,其中,所述原始训练数据集中每一行代表一个肿瘤样本,每一列表示一个病变特征的数值化特征值;
S2、根据所述原始训练数据集,从原始特征中筛选出对区分良恶性肿瘤有效的特征;
S3、由筛选出来的有效特征重新构建出训练数据矩阵,并对所述训练数据矩阵中的每一列进行归一化处理;
S4、对归一化后的所述训练数据矩阵使用双聚类算法挖掘出数据里面蕴含的局部一致模式,得到一系列双聚类;
S5、根据病例属性的先验知识采用基于支持度的方法将得到的双聚类转化为有效的良性或恶性诊断规则;
S6、将良性和恶性诊断规则分组,然后采用良恶性规则两两配对的方法构造一系列弱分类器;
S7、根据所构造的弱分类器,采用AdaBoost集成学习方法从中训练出强分类器;
S8、对于测试病例,根据超声图片所见对步骤S2中筛选出来的特征进行人工打分,得到测试病例的所有特征值,将其输入到训练好的分类器中,得到最终良恶性诊断结果。
2.根据权利要求1所述的基于双聚类及AdaBoost的肿瘤分类方法,其特征在于,所述步骤S5中将找到的双聚类转化为有效的良性或恶性诊断规则的具体过程如下:
S51、根据双聚类中所含病例的实际良恶性属性,按照下式计算其良恶性的支持度support,将双聚类属性划分为支持度较高的那一类;
S52、选取支持度大于某一阈值的双聚类,通过对每列取均值的方法得到代表该双聚类模式信息的一个行向量,形成一个有效的具有类属性的诊断规则。
3.根据权利要求1所述的基于双聚类及AdaBoost的肿瘤分类方法,其特征在于,所述步骤S6中采用良恶性规则两两配对的方法构造一系列弱分类器的具体过程如下:
S61、将提取到的规则分为良性和恶性两组;
S62、采取良恶性规则两配对的组合方式,形成一系列“良性规则-恶性规则”组合;
S63、所述“良性规则-恶性规则”组合依据输入测试病例特征打分数据与组合中良性规则和恶性规则的相似度,将测试样本判别为相似度较高的那一类的原则构造弱分类器。
4.根据权利要求3所述的基于双聚类及AdaBoost的肿瘤分类方法,其特征在于,所述相似度为一个新病例与诊断规则间的相似度,采用特征空间独立归一化距离FSDND来衡量,具体公式如下:
其中,FS为良性或恶性诊断规则的特征空间,Vud(j)表示测试病例中第j个特征的值,Vdr(j)表示诊断规则中第j个特征的值,lb(j)和ub(j)分别表示第j个特征的下界和上界值。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610514962 | 2016-06-30 | ||
CN2016105149628 | 2016-06-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106778830A true CN106778830A (zh) | 2017-05-31 |
Family
ID=58901763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611062794.XA Pending CN106778830A (zh) | 2016-06-30 | 2016-11-28 | 基于双聚类挖掘及AdaBoost的肿瘤分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106778830A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688815A (zh) * | 2017-08-31 | 2018-02-13 | 京东方科技集团股份有限公司 | 医学图像的分析方法和分析系统以及存储介质 |
CN108229304A (zh) * | 2017-11-17 | 2018-06-29 | 清华大学 | 一种系统化的基于聚类思想的驾驶行为识别方法 |
CN111402205A (zh) * | 2020-02-27 | 2020-07-10 | 华南理工大学 | 一种基于多层感知机的乳腺肿瘤数据清洗方法 |
CN115064209A (zh) * | 2022-08-17 | 2022-09-16 | 普瑞基准科技(北京)有限公司 | 一种恶性细胞鉴定方法及系统 |
-
2016
- 2016-11-28 CN CN201611062794.XA patent/CN106778830A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107688815A (zh) * | 2017-08-31 | 2018-02-13 | 京东方科技集团股份有限公司 | 医学图像的分析方法和分析系统以及存储介质 |
CN108229304A (zh) * | 2017-11-17 | 2018-06-29 | 清华大学 | 一种系统化的基于聚类思想的驾驶行为识别方法 |
CN111402205A (zh) * | 2020-02-27 | 2020-07-10 | 华南理工大学 | 一种基于多层感知机的乳腺肿瘤数据清洗方法 |
CN111402205B (zh) * | 2020-02-27 | 2023-06-23 | 华南理工大学 | 一种基于多层感知机的乳腺肿瘤数据清洗方法 |
CN115064209A (zh) * | 2022-08-17 | 2022-09-16 | 普瑞基准科技(北京)有限公司 | 一种恶性细胞鉴定方法及系统 |
CN115064209B (zh) * | 2022-08-17 | 2022-11-01 | 普瑞基准科技(北京)有限公司 | 一种恶性细胞鉴定方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106204532B (zh) | 基于特征数据挖掘及神经网络的肿瘤的分类方法 | |
CN106682616A (zh) | 基于双通道特征深度学习的新生儿疼痛表情识别方法 | |
CN108257135A (zh) | 基于深度学习方法解读医学图像特征的辅助诊断系统 | |
CN107909117A (zh) | 一种基于脑功能网络特征对早晚期轻度认知障碍的分类方法及装置 | |
CN106203488B (zh) | 一种基于受限玻尔兹曼机的乳腺图像特征融合方法 | |
CN106780448A (zh) | 一种基于迁移学习与特征融合的超声甲状腺结节良恶性分类方法 | |
CN105760874A (zh) | 面向尘肺的ct图像处理系统及其ct图像处理方法 | |
CN106096636A (zh) | 一种基于神经影像的进展型轻度认知功能障碍识别方法 | |
CN106778830A (zh) | 基于双聚类挖掘及AdaBoost的肿瘤分类方法 | |
Costaridou | Medical image analysis methods | |
CN108256453A (zh) | 一种基于一维ecg信号提取二维cnn特征的方法 | |
CN106650768A (zh) | 基于高斯图模型的脑网络建模与模式分类方法 | |
CN107133638A (zh) | 基于两分类器的多参数mri前列腺癌cad方法及系统 | |
CN106137259A (zh) | 基于人工打分的超声肿瘤特征获取方法 | |
Prisilla et al. | An approach to the diagnosis of lumbar disc herniation using deep learning models | |
CN110503147A (zh) | 基于相关性学习的多模图像分类系统 | |
Ganeshkumar et al. | Two-stage deep learning model for automate detection and classification of lung diseases | |
CN112508943A (zh) | 基于超声影像的乳腺肿瘤识别方法 | |
Rani Krithiga et al. | A novel automated classification technique for diagnosing liver disorders using wavelet and texture features on liver ultrasound images | |
DE112019005888T5 (de) | Ähnlichkeitsbestimmungsvorrichtung, ähnlichkeitsbestimmungsverfahren und ähnlichkeitsbestimmungsprogramm | |
CN109598719A (zh) | 一种基于深度学习的肺部疾病检测方法 | |
Mohamed Aarif et al. | Deep MammoNet: Early Diagnosis of Breast Cancer Using Multi-layer Hierarchical Features of Deep Transfer Learned Convolutional Neural Network | |
KumarReddy et al. | Enhancing Brain Tumor Detection with ResNet: A Deep Learning Approach | |
Tambe et al. | Brain Tumor Detection & Classification into Different Categories using Deep Learning Model | |
Behnia et al. | Detection of COVID-19 Using a Pre-trained CNN Model Over Chest X-ray Images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170531 |