CN113920069B - 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 - Google Patents
染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113920069B CN113920069B CN202111128987.1A CN202111128987A CN113920069B CN 113920069 B CN113920069 B CN 113920069B CN 202111128987 A CN202111128987 A CN 202111128987A CN 113920069 B CN113920069 B CN 113920069B
- Authority
- CN
- China
- Prior art keywords
- chromosome
- image
- fusion
- images
- single chromosome
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 210000000349 chromosome Anatomy 0.000 title claims abstract description 436
- 238000010276 construction Methods 0.000 title claims abstract description 24
- 238000004088 simulation Methods 0.000 title claims abstract description 21
- 238000004458 analytical method Methods 0.000 title claims abstract description 16
- 230000004927 fusion Effects 0.000 claims abstract description 215
- 238000000034 method Methods 0.000 claims abstract description 22
- 238000001514 detection method Methods 0.000 claims abstract description 14
- 238000004590 computer program Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 7
- 210000002230 centromere Anatomy 0.000 claims description 6
- 238000007499 fusion processing Methods 0.000 claims description 5
- 230000000877 morphologic effect Effects 0.000 claims description 4
- 210000003917 human chromosome Anatomy 0.000 claims description 3
- 238000012549 training Methods 0.000 abstract description 16
- 238000010801 machine learning Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 238000012545 processing Methods 0.000 description 5
- 230000031864 metaphase Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000005457 optimization Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000000178 monomer Substances 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000032823 cell division Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007614 genetic variation Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002194 synthesizing effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
- G06T5/30—Erosion or dilatation, e.g. thinning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/50—Image enhancement or restoration using two or more images, e.g. averaging or subtraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10056—Microscopic image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20036—Morphological image processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Medical Informatics (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Quality & Reliability (AREA)
- Radiology & Medical Imaging (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质,方法包括以下步骤:获取真实的染色体核型图像;对染色体核型图像进行轮廓检测;根据坐标和面积按照染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,获取单条染色体图像的类别信息;从单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像进行融合。本发明的构建方法利用染色体核型图像通过泊松融合的方式来构建多条交叉、粘连染色体图像,能够高效自动生成接近实际效果的交叉、粘连染色体图像,以扩充机器学习模型训练的数据集,从而提高训练数据可靠性,对提高机器学习模型性能具有重要的意义。
Description
技术领域
本发明涉及染色体分析技术领域,特别是涉及一种染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质。
背景技术
染色体核型分析主要是将细胞分裂中期的染色体根据长度、着丝点位置、长短臂比例、随体的有无等特征按一定的规定配对、编号、比较分析、排列、判断变异情况的过程,是遗传变异检测的主要手段。传统核型分析主要依赖人工分析,一个病例需要耗费20个工作日,而目前的染色体核型分析工作站属于半自动化,分析一个病例还需30分钟。随着计算机视觉技术和图像处理技术的发展,通过计算机算法来实现染色体图像分割、分类等新技术被应用于G-带中期染色体核型的自动分析,降低了对专业人员的技术要求,节省了大量的时间成本。
但是,染色体核型自动分析对交叉、粘连染色体的分割和分类准确性不高,这是由于机器学习算法需要大量的数据进行训练优化,而染色体中期图像中交叉、粘连染色体比例较小,如图1所示,数据较少,因此参与训练的交叉重叠以及粘连染色体的数量非常少,造成模型普适性不佳。而采用人工标注的方式,对标注人员的技术要求高且任务繁重,进一步减少了可靠的训练数据的数量。针对上述问题,目前解决方案是构建模拟数据集,第一种方法是通过两条染色体的叠加,第二种方法是通过对抗网络进行生成单条染色体。但是,这些方法构建的数据集与真实的染色体数据差异较大,无法很好地用于机器学习模型的训练。
发明内容
基于此,有必要提供一种与真实的染色体数据差异较小的染色体模拟数据集的构建方法。
一种染色体核型分析模拟数据集的构建方法,包括以下步骤:
步骤S1:获取真实的染色体核型图像;
步骤S2:对所述染色体核型图像进行轮廓检测,从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜;
步骤S3:根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,并获取单条染色体图像的类别信息;
步骤S4:从所述单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从所述待融合对象中选择两张单条染色体图像按照如下步骤S41或步骤S42进行第一次图像融合处理,将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样的融合处理;
步骤S41:当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像;
步骤S42:当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
本发明通过有效利用已知类别且染色体轮廓明确的染色体核型图像来构建染色体交叉、粘连模拟数据,一方面构建的模拟数据能保留染色体的类别和掩膜信息,因而能够应用于多个任务的模型训练,如染色体分割、染色体分类以及染色体检测;另一方面,得益于染色体核型图像中的染色体编号可自动获取染色体的类别信息,不依赖专业人员手动标注,能够极大地减少对专家的需求,并且降低人工参与度;再一方面,由于染色体核型图像对于准确性要求严格,通常经过了多个技术员反复检查,因此准确率能得到极大保证。而且,本发明采用泊松融合的方式来构建多条交叉、粘连染色体图像,能够生成接近真实数据的交叉、粘连染色体图像,可信度高,不会产生“白边效应”,更趋向于真实的图像。因此,本发明的构建方法能够自动生成接近实际效果的交叉、粘连染色体图像,扩充机器学习模型训练的数据集,提高训练数据可靠性,从而对提高机器学习模型性能具有重要的意义,同时模拟数据能够应用于多个训练场景。
在其中一个实施例中,所述将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合包括:
i)通过随机数设置该单条染色体图像的旋转的角度范围;
ii)将该单条染色体图像在所述角度范围内随机旋转、平移,直至该单条染色体图像仅与该第K次融合图像中的一条染色体有重合部分,并且该重合部分与该第K次融合图像中K+1条染色体的两两重合部分的交集均为空,对该第K次融合图像和该单条染色体图像采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
在其中一个实施例中,在所述步骤S3之后和所述步骤S4之前还包括步骤S31:去除所述单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号。
在其中一个实施例中,所述步骤S31包括以下步骤:
步骤S311:获取所述横向黑线和所述染色体编号的结构元素;
步骤S312:创建针对所述结构元素的形态学滤波器;
步骤S313:对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
在其中一个实施例中,所述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤:
步骤S411:通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S412:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像相连但不存在重合部分,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
在其中一个实施例中,所述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤:
步骤S421:通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S422:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
在其中一个实施例中,所述染色体核型图像为人类染色体核型图像,所述小于预设长度的染色体为17号染色体、18号染色体、19号染色体、20号染色体、21号染色体、22号染色体或Y染色体,所述预设面积范围为10~100像素,所述预设比例范围为大于0且小于50%。
在其中一个实施例中,还包括步骤S5:调整不同染色体参与图像融合的比例进行二次优化处理。
本发明还提供了一种染色体核型分析模拟数据的构建装置,包括:
核型图像获取模块,用于获取真实的染色体核型图像;
轮廓检测模块,用于对所述染色体核型图像进行轮廓检测,从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜;
图像集生成模块,用于根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,并获取单条染色体图像的类别信息;
融合模块,包括第一融合单元和第二融合单元;所述融合模块用于从所述单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从所述待融合对象中选择两张单条染色体图像通过所述第一融合单元或所述第二融合单元进行第一次图像融合处理,所述融合模块还将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样处理;
所述第一融合单元用于当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像;
所述第二融合单元用于当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
本发明还提供了一种计算机设备,其具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的构建方法的步骤。
本发明还提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被执行时实现如上所述的构建方法的步骤。
附图说明
图1为染色体中期图像的一个示例;
图2为真实的染色体核型图像的一个示例;
图3为本发明一实施例的以粘连的形式生成的第1次融合图像;
图4为本发明一实施例的以交叉的形式生成的第1次融合图像;
图5为传统的构建模拟数据的方法中存在的“白边问题”的一个示例;
图6为本发明得到的第2次融合图像的几个示例;
图7为本发明一实施例的去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号的示意图;
图8为真实的染色体交叉、粘连图像的几个示例。
具体实施方式
为了便于理解本发明,下面将对本发明进行更全面的描述,并给出了本发明的较佳实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容的理解更加透彻全面。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“和/或”包括一个或多个相关的所列项目的任意的和所有的组合。
本发明一实施例的染色体核型分析模拟数据集的构建方法,包括以下步骤S1~S4:
步骤S1:获取真实的染色体核型图像。
可以理解,真实的染色体核型图像即来源于真实个体的全部染色体按一定方式排列起来构成的标准染色体核型图像,如图2所示。
步骤S2:对染色体核型图像进行轮廓检测,从染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜。
可以理解,根据个体的不同,从一张染色体核型图像从能够获取的单条染色体图像的数量也不同,例如从人类的染色体核型图像中能够获取得到46张单条染色体图像。
步骤S3:根据坐标和面积按照染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,并获取单条染色体图像的类别信息。
可选地,单条染色体图像的类别信息可以根据需要进行记录,例如记录于图像文件名中或CSV等文档中,方便后续处理以及后续模型训练过程从文件名或者文档中直接获得类别信息。
步骤S4:从单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从待融合对象中选择两张单条染色体图像按照如下步骤S41或步骤S42进行第一次图像融合处理,将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样的融合处理。
可以理解,当N等于2时,则只需进行第一次图像融合处理得到第1次融合图像即可,具体N的数值可以根据所需的染色体核型分析模拟数据进行调整。
步骤S41:当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像。
步骤S42:当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
可以理解,粘连即表示两张单条染色体图像相连但并不重合,如图3所示,交叉即表示两张单条染色体图像存在重合部分,如图4所示。
传统的构建模拟数据的方法一般是选取任意两条不同的染色体单体,各自旋转随机的角度后,将所得的图像进行像素灰度值的叠加,将位于上方的染色体图像的灰度值赋予重叠区域,生成双染色体重叠图像。但是,重叠的染色体没有类别标识,需要人工标注确定,应用有限;而且,会出现染色体过多区域被遮盖的问题,使得本身较短的染色体大部分被遮盖,无法准确判断该染色体的类别以及结构变异;同时,生成的双染色体重叠图像存在“白边效应”问题,如图5所示,即位于染色体重叠区域边缘所呈现出来的浅色不自然过渡,通过肉眼便能识别重叠染色体的边界。此外,利用生成对抗网络生成新的染色体数据的方法生成的新数据是单条染色体,且染色体条纹不明显,与真实的染色体差异也比较大。
本发明通过有效利用已知类别且染色体轮廓明确的染色体核型图像来构建染色体交叉、粘连模拟数据,一方面构建的模拟数据能保留染色体的类别和掩膜信息,因而能够应用于多个任务的模型训练,如染色体分割、染色体分类以及染色体检测;另一方面,得益于染色体核型图像中的染色体编号可自动获取染色体的类别信息,不依赖专业人员手动标注,能够极大地减少对专家的需求,并且降低人工参与度;再一方面,由于染色体核型图像对于准确性要求严格,通常经过了多个技术员反复检查,因此准确率能得到极大保证。而且,本发明采用泊松融合的方式来构建多条交叉、粘连染色体图像,能够生成接近真实数据的交叉、粘连染色体图像,可信度高,不会产生“白边效应”,更趋向于真实的图像。因此,本发明的构建方法能够自动生成接近实际效果的交叉、粘连染色体图像,扩充机器学习模型训练的数据集,提高训练数据可靠性,从而对提高机器学习模型性能具有重要的意义,同时模拟数据能够应用于多个训练场景。
在一个具体示例中,上述将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合包括:
i)通过随机数设置该单条染色体图像的旋转的角度范围;
ii)将该单条染色体图像在上述角度范围内随机旋转、平移,直至该单条染色体图像仅与该第K次融合图像中的一条染色体有重合部分,并且该重合部分与该第K次融合图像中K+1条染色体的两两重合部分的交集均为空,对该第K次融合图像和该单条染色体图像采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
例如N等于3时,将得到的第1次融合图像与余下的1张单条染色体图像采用泊松融合的方式进行图像融合:
i)通过随机数设置该单条染色体图像的旋转的角度范围;
ii)将该单条染色体图像在上述角度范围内随机旋转、平移,直至该单条染色体图像仅与该第1次融合图像中的一条染色体有重合部分,并且该重合部分与该第1次融合图像中2条染色体的两两重合部分的交集均为空,对该第1次融合图像和该单条染色体图像采取泊松融合的方式进行合成,对应的染色体掩膜做同样处理。如此,即得到三条染色体融合的图像,例如图6所示。
在一个具体示例中,在步骤S3之后和步骤S4之前还包括步骤S31:去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号,如图7所示。可以理解,当不存在着丝点位置的横向黑线和覆盖染色体像素的染色体编号时不需要进行该步骤。
在一个具体示例中,步骤S31包括以下步骤:
步骤S311:获取横向黑线和所述染色体编号的结构元素;
步骤S312:创建针对结构元素的形态学滤波器;
步骤S313:对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
在一个具体示例中,上述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤:
步骤S411:通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S412:将该两张单条染色体图像在上述角度范围内随机旋转、平移,直至两张单条染色体图像相连但不存在重合部分,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
在一个具体示例中,上述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤:
步骤S421:通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S422:将该两张单条染色体图像在上述角度范围内随机旋转、平移,直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
在一个具体示例中,染色体核型图像为人类染色体核型图像,小于预设长度的染色体为17号染色体、18号染色体、19号染色体、20号染色体、21号染色体、22号染色体或Y染色体,预设面积范围为10~100像素,预设比例范围为大于0且小于50%。
在一个具体示例中,构建方法还包括步骤S5:在第一次图像融合处理之后重复进行一次泊松融合,调整不同染色体参与图像融合的比例以进行二次优化处理,使其更加符合真实情况。
基于与上述方法相同的思想,本发明还提供了一种染色体核型分析模拟数据的构建装置,其包括核型图像获取模块、轮廓检测模块、图像集生成模块和融合模块。
其中,核型图像获取模块用于获取真实的染色体核型图像;轮廓检测模块用于对染色体核型图像进行轮廓检测,从染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜;图像集生成模块用于根据坐标和面积按照染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,并获取单条染色体图像的类别信息;融合模块包括第一融合单元和第二融合单元,融合模块用于从单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从待融合对象中选择两张单条染色体图像通过第一融合单元或第二融合单元进行第一次图像融合处理,将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,融合模块还将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样处理。
第一融合单元用于当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像;第二融合单元用于当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像。
在一个具体示例中,融合模块还包括第三随机单元和第三合成单元,第三随机单元用于通过随机数设置第K次融合图像和单条染色体图像的旋转的角度范围,第三合成单元用于将该第K次融合图像和该单条染色体图像在上述角度范围内随机旋转、平移,直至该单条染色体图像仅与该第K次融合图像中的一条染色体有重合部分,并且该重合部分与该第K次融合图像中K+1条染色体的两两重合部分的交集均为空,对该第K次融合图像和该单条染色体图像采取泊松融合的方式进行合成,对应的染色体掩膜做同样处理。
在一个具体示例中,构建装置还包括滤除模块,滤除模块用于去除单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号。
在一个具体示例中,滤除模块包括元素获取单元、创建单元和滤波单元,元素获取单元用于获取横向黑线和所述染色体编号的结构元素,创建单元用于创建针对结构元素的形态学滤波器,滤波单元用于对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
基于如上所述的实施例,本发明还提供了一种计算机设备,具有处理器和存储器,存储器上存储有计算机程序,处理器执行该计算机程序时实现上述任一实施例的构建方法的步骤。
本领域普通技术人员可以理解实现上述方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccess Memory,RAM)等。
据此,本发明还提供了一种计算机存储介质,其上存储有计算机程序,计算机程序被执行时实现上述任一实施例的构建方法的步骤。
如图8所示为真实的染色体交叉、粘连图像示例,通过比较可知,本发明的构建方法利用染色体核型图像通过泊松融合的方式来构建多条交叉、粘连染色体图像,能够高效自动生成接近实际效果的交叉、粘连染色体图像,以扩充机器学习模型训练的数据集,从而提高训练数据可靠性,对提高机器学习模型性能具有重要的意义。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
Claims (8)
1.一种染色体核型分析模拟数据集的构建方法,其特征在于,包括以下步骤:
步骤S1:获取真实的染色体核型图像;
步骤S2:对所述染色体核型图像进行轮廓检测,从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜;
步骤S3:根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,获取单条染色体图像的类别信息;
步骤S4:从所述单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从所述待融合对象中选择两张单条染色体图像按照如下步骤S41或步骤S42进行第一次图像融合处理,将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样的融合处理;
步骤S41:当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像;
步骤S42:当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像;
所述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤:
步骤S411:通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S412:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像相连但不存在重合部分,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理;
所述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤:
步骤S421:通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S422:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
2.根据权利要求1所述的构建方法,其特征在于,所述将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合包括:
i)通过随机数设置该单条染色体图像的旋转的角度范围;
ii)将该单条染色体图像在所述角度范围内随机旋转、平移,直至该单条染色体图像仅与该第K次融合图像中的一条染色体有重合部分,并且该重合部分与该第K次融合图像中K+1条染色体的两两重合部分的交集均为空,对该第K次融合图像和该单条染色体图像采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
3.根据权利要求1所述的构建方法,其特征在于,在所述步骤S3之后和所述步骤S4之前还包括步骤S31:去除所述单条染色体图像中着丝点位置的横向黑线和覆盖染色体像素的染色体编号。
4.根据权利要求3所述的构建方法,其特征在于,所述步骤S31包括以下步骤:
步骤S311:获取所述横向黑线和所述染色体编号的结构元素;
步骤S312:创建针对所述结构元素的形态学滤波器;
步骤S313:对含有待去除的横向黑线以及覆盖染色体像素的染色体编号的单条染色体图像进行滤波操作。
5.根据权利要求1所述的构建方法,其特征在于,所述染色体核型图像为人类染色体核型图像,所述小于预设长度的染色体为17号染色体、18号染色体、19号染色体、20号染色体、21号染色体、22号染色体或Y染色体,所述预设面积范围为10~100像素,所述预设比例范围为大于0且小于50%。
6.一种染色体核型分析模拟数据的构建装置,其特征在于,包括:
核型图像获取模块,用于获取真实的染色体核型图像;
轮廓检测模块,用于对所述染色体核型图像进行轮廓检测,从所述染色体核型图像中获取所有的单条染色体图像及其坐标和面积以及相对应的染色体掩膜;
图像集生成模块,用于根据所述坐标和面积按照所述染色体核型图像上的染色体编号位置将单条染色体图像进行重新排列生成单条染色体图像集,获取单条染色体图像的类别信息;
融合模块,包括第一融合单元和第二融合单元;所述融合模块用于从所述单条染色体图像集中随机选取N张来源于同一张染色体核型图像的单条染色体图像作为待融合对象,从所述待融合对象中选择两张单条染色体图像通过所述第一融合单元或所述第二融合单元进行第一次图像融合处理,所述融合模块还将得到的第一次融合图像与从余下的N-2张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,将得到的第二次融合图像与从余下的N-3张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合……依次处理,将得到的第K次融合图像与从余下的N-K-1张单条染色体图像中随机选取的一张单条染色体图像采用泊松融合的方式进行图像融合,直至N张单条染色体图像全部融合,N为≥2的正整数,K为≥1的正整数,对应的染色体掩膜做同样处理;
所述第一融合单元用于当两张单条染色体图像中存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像;
所述第二融合单元用于当两张单条染色体图像中不存在小于预设长度的染色体时,采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像;
其中,所述采取泊松融合的方式对该两张单条染色体图像以粘连的形式生成染色体融合图像包括以下步骤:
步骤S411:通过随机数设置用于以粘连的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S412:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像相连但不存在重合部分,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理;
所述采取泊松融合的方式对该两张单条染色体图像以交叉的形式生成染色体融合图像包括以下步骤:
步骤S421:通过随机数设置用于以交叉的形式生成染色体融合图像的两张单条染色体图像的旋转的角度范围;
步骤S422:将该两张单条染色体图像在所述角度范围内随机旋转、平移,直至两张单条染色体图像的重合面积以及重合比例在预设面积范围和预设比例范围之内,采取泊松融合的方式进行图像融合,对应的染色体掩膜做同样的融合处理。
7.一种计算机设备,其特征在于,具有处理器和存储器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如权利要求1~5任一项所述的构建方法的步骤。
8.一种计算机存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被执行时实现如权利要求1~5任一项所述的构建方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128987.1A CN113920069B (zh) | 2021-09-26 | 2021-09-26 | 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111128987.1A CN113920069B (zh) | 2021-09-26 | 2021-09-26 | 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113920069A CN113920069A (zh) | 2022-01-11 |
CN113920069B true CN113920069B (zh) | 2022-07-08 |
Family
ID=79236140
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111128987.1A Active CN113920069B (zh) | 2021-09-26 | 2021-09-26 | 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113920069B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1882602A (zh) * | 2003-10-10 | 2006-12-20 | 梅迪泰克研究有限公司 | 在疾病治疗中乙酰透明质酸合成的调节和降解 |
CN102517382A (zh) * | 2009-05-12 | 2012-06-27 | 中山大学达安基因股份有限公司 | 一种人染色体p16基因检测试剂盒及应用 |
CN105874082A (zh) * | 2013-10-07 | 2016-08-17 | 塞昆纳姆股份有限公司 | 用于非侵入性评估染色体改变的方法和过程 |
CN109523520A (zh) * | 2018-10-25 | 2019-03-26 | 北京大学第三医院 | 一种基于深度学习的染色体自动计数方法 |
CN109934828A (zh) * | 2019-02-28 | 2019-06-25 | 西交利物浦大学 | 基于Compact SegUnet自学习模型的双染色体图像切割方法 |
WO2019242178A1 (zh) * | 2018-06-20 | 2019-12-26 | 湖南自兴智慧医疗科技有限公司 | 基于几何特征与区域融合的g显带粘连染色体分割方法、装置及染色体核型分析设备 |
CN111223084A (zh) * | 2020-01-07 | 2020-06-02 | 华南师范大学 | 一种染色体切割数据的处理方法、系统和存储介质 |
CN111652167A (zh) * | 2020-06-09 | 2020-09-11 | 四川大学 | 一种染色体核型图像智能评价方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070077553A1 (en) * | 2003-10-30 | 2007-04-05 | Rosetta Genomics | Bioinformatically detectable group of novel vaccinia regulatory genes and uses thereof |
CN112884782B (zh) * | 2021-03-02 | 2024-01-05 | 深圳市瑞图生物技术有限公司 | 生物对象分割方法、装置、计算机设备和存储介质 |
-
2021
- 2021-09-26 CN CN202111128987.1A patent/CN113920069B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1882602A (zh) * | 2003-10-10 | 2006-12-20 | 梅迪泰克研究有限公司 | 在疾病治疗中乙酰透明质酸合成的调节和降解 |
CN102517382A (zh) * | 2009-05-12 | 2012-06-27 | 中山大学达安基因股份有限公司 | 一种人染色体p16基因检测试剂盒及应用 |
CN105874082A (zh) * | 2013-10-07 | 2016-08-17 | 塞昆纳姆股份有限公司 | 用于非侵入性评估染色体改变的方法和过程 |
WO2019242178A1 (zh) * | 2018-06-20 | 2019-12-26 | 湖南自兴智慧医疗科技有限公司 | 基于几何特征与区域融合的g显带粘连染色体分割方法、装置及染色体核型分析设备 |
CN109523520A (zh) * | 2018-10-25 | 2019-03-26 | 北京大学第三医院 | 一种基于深度学习的染色体自动计数方法 |
CN109934828A (zh) * | 2019-02-28 | 2019-06-25 | 西交利物浦大学 | 基于Compact SegUnet自学习模型的双染色体图像切割方法 |
CN111223084A (zh) * | 2020-01-07 | 2020-06-02 | 华南师范大学 | 一种染色体切割数据的处理方法、系统和存储介质 |
CN111652167A (zh) * | 2020-06-09 | 2020-09-11 | 四川大学 | 一种染色体核型图像智能评价方法及系统 |
Non-Patent Citations (2)
Title |
---|
AS- PANet: 改进路径增强网络的重叠染色体实例分割;林成创等;《中国图象图形学报》;20201016;第25卷(第10期);2271-2280 * |
Tempo and mode in karyotype evolution revealed by a probabilistic model incorporating both chromosome number and morphology;Kohta Yoshida等;《PLOS GENETICS》;20210416;第17卷(第4期);1-25 * |
Also Published As
Publication number | Publication date |
---|---|
CN113920069A (zh) | 2022-01-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108683907B (zh) | 光学模组像素缺陷检测方法、装置及设备 | |
US10635935B2 (en) | Generating training images for machine learning-based objection recognition systems | |
CN109445457B (zh) | 分布信息的确定方法、无人飞行器的控制方法及装置 | |
CN108229519A (zh) | 图像分类的方法、装置及系统 | |
CN112884782B (zh) | 生物对象分割方法、装置、计算机设备和存储介质 | |
AU2020289853A1 (en) | Matching method and apparatus, electronic device, computer-readable storage medium, and computer program | |
CN109255390A (zh) | 训练图像的预处理方法及模块、鉴别器、可读存储介质 | |
CN108805838A (zh) | 一种图像处理方法、移动终端及计算机可读存储介质 | |
CN109919149A (zh) | 基于物体检测模型的物体标注方法及相关设备 | |
CN115512238A (zh) | 病害区域的确定方法、装置、存储介质及电子装置 | |
CN114022620B (zh) | 一种三维场景重建中散乱纹理的剔除方法和系统 | |
CN113920069B (zh) | 染色体核型分析模拟数据集的构建方法、构建装置、设备及存储介质 | |
CN118366162A (zh) | 基于深度学习的图像分割方法及系统 | |
CN114339049A (zh) | 一种视频处理方法、装置、计算机设备和存储介质 | |
CN117058384B (zh) | 一种三维点云语义分割的方法及系统 | |
CN107590776A (zh) | 图像处理装置和图像处理方法 | |
CN109214278A (zh) | 用户指令匹配方法、装置、计算机设备及存储介质 | |
CN112861854A (zh) | 指甲语义分割中训练样本的生成方法、装置、设备及介质 | |
CN109241893A (zh) | 基于人工智能技术的道路选择方法、装置及可读存储介质 | |
CN112434581A (zh) | 一种室外目标颜色识别方法、系统、电子设备及存储介质 | |
CN114418064B (zh) | 一种目标检测方法、终端设备及存储介质 | |
KR102157005B1 (ko) | 영상 필터링 기법을 적용한 딥러닝 결과영상의 정확성 향상방법 | |
CN118265998A (zh) | 坏点检测模型训练方法、坏点检测方法以及坏点修复方法 | |
CN112150398B (zh) | 图像合成方法、装置及设备 | |
CN114596213A (zh) | 一种图像处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |