CN112614129B - 一种基于时序稀疏回归及加性模型影像相关性检测方法 - Google Patents
一种基于时序稀疏回归及加性模型影像相关性检测方法 Download PDFInfo
- Publication number
- CN112614129B CN112614129B CN202011642586.3A CN202011642586A CN112614129B CN 112614129 B CN112614129 B CN 112614129B CN 202011642586 A CN202011642586 A CN 202011642586A CN 112614129 B CN112614129 B CN 112614129B
- Authority
- CN
- China
- Prior art keywords
- snp
- data
- gene data
- gene
- roi
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000000654 additive Substances 0.000 title claims abstract description 39
- 230000000996 additive effect Effects 0.000 title claims abstract description 39
- 238000001514 detection method Methods 0.000 title claims description 16
- 238000000034 method Methods 0.000 claims abstract description 45
- 210000004556 brain Anatomy 0.000 claims abstract description 27
- 108090000623 proteins and genes Proteins 0.000 claims description 98
- 238000012216 screening Methods 0.000 claims description 28
- 238000012937 correction Methods 0.000 claims description 19
- 108091008109 Pseudogenes Proteins 0.000 claims description 16
- 102000057361 Pseudogenes Human genes 0.000 claims description 16
- 230000011218 segmentation Effects 0.000 claims description 16
- 239000008280 blood Substances 0.000 claims description 10
- 210000004369 blood Anatomy 0.000 claims description 10
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 10
- 210000004884 grey matter Anatomy 0.000 claims description 10
- 210000001519 tissue Anatomy 0.000 claims description 10
- 210000004885 white matter Anatomy 0.000 claims description 10
- 108700028369 Alleles Proteins 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 9
- 238000003908 quality control method Methods 0.000 claims description 9
- 210000001638 cerebellum Anatomy 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000002224 dissection Methods 0.000 claims description 3
- 230000035772 mutation Effects 0.000 claims description 3
- 230000000694 effects Effects 0.000 abstract description 7
- 230000002123 temporal effect Effects 0.000 abstract description 5
- 230000007850 degeneration Effects 0.000 abstract description 4
- 238000011156 evaluation Methods 0.000 abstract description 3
- 238000009499 grossing Methods 0.000 abstract description 2
- 230000002068 genetic effect Effects 0.000 description 13
- 208000024827 Alzheimer disease Diseases 0.000 description 7
- 238000012805 post-processing Methods 0.000 description 4
- 239000000090 biomarker Substances 0.000 description 3
- 238000003384 imaging method Methods 0.000 description 3
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 210000003625 skull Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000012097 association analysis method Methods 0.000 description 1
- 230000002490 cerebral effect Effects 0.000 description 1
- 230000002301 combined effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000021121 meiosis Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 230000004770 neurodegeneration Effects 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 125000003729 nucleotide group Chemical group 0.000 description 1
- 230000037361 pathway Effects 0.000 description 1
- 102000054765 polymorphisms of proteins Human genes 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/0002—Inspection of images, e.g. flaw detection
- G06T7/0012—Biomedical image inspection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/80—Geometric correction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10072—Tomographic images
- G06T2207/10088—Magnetic resonance imaging [MRI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30004—Biomedical image processing
- G06T2207/30016—Brain
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Biophysics (AREA)
- Multimedia (AREA)
- Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
- Radiology & Medical Imaging (AREA)
- Quality & Reliability (AREA)
- Magnetic Resonance Imaging Apparatus (AREA)
Abstract
一种基于时序稀疏回归及加性模型影像相关性检测方法,包括4个步骤步骤。本发明通过上述4个步骤得到多个关于时间表型平滑函数及ROI的权重,从而通过多个SNP对表型的贡献描述特定区域得到大脑区域时间进展轨迹以及表型的区域差异的相关性。通过最小均方根误差RMSE作为特定大脑区域退变进展轨迹与模型是否匹配评价指标,本发明的RMSE为0.15,而现在技术模型基于时序稀疏加性模型的RMSE为1.14,稀疏加性模型的RMSE和组稀疏加性模型的RMSE都为1.33,因此本发明的效果更优。
Description
技术领域
本发明涉基于遗传变量组结构信息以其随时间变化的遗传效应技术领域,特别涉及一种基于时序稀疏回归及加性模型影像相关性检测方法。
背景技术
基于时序稀疏加性模型(TV-GroupSpAM)的影像遗传学研究是考虑纵向数据的应用,并且考虑基因数据随时间变化的遗传效应,将基因数据与单个影像表型数据进行关联分析,检测遗传性神经变化的重要生物标记物。而且基因数据之间存在一种结构关联,而且多个表型数据在神经变化进程中会起到不同的作用。因此通过考虑这些信息可提高检测重要生物标记物的准确性和可靠性并且可检测相关表型。
TV-GroupSpAM方法是基于时序的影像基因关联分析方法,将基因数据的遗传效应映射为平滑函数,即这种分析方法不需要先验知识来选择候选基因型,能够减少过拟合现象以及检测相关基因准确性较好。考虑了三种基因型对性状有不同的影响,那么基因(SNP)与表型(脑区)的关联则存在。
然而在TV-GroupSpAM研究中存在着一些问题,第一,单个SNP对表型的贡献作为一个时间的平滑函数,这个表型为非参数平滑函数之和(时序SNP效应),只能应用于单个表型而忽略了多个表型的潜在信息。第二,由于不同的成像表型在神经退变进展过程中扮演不同的角色,通过多个时间点,影像表型描述了这个特定大脑区域退变进展轨迹,以及表型的区域差异。该研究方法忽略了这个重要信息。第三,一个基因的某些SNP通过不同的途径自然连接,共同执行遗传功能。此外,连锁不平衡(LD)描述不同位点等位基因之间的非随机关联,高LD的SNP在减数分裂中通过这种关联连接在一起,共同执行遗传功能(Wang,H.,etal.Identifying quantitative trait loci via group-sparse multitask regressionand feature selection:an imaging genetics study of the ADNIcohort.Bioinformatics 2012b;28(2):229-237.)。
因此,针对现有技术不足,提供一种基于时序稀疏回归及加性模型影像相关性检测方法以解决现有技术不足甚为必要。
发明内容
本发明其中一个的目的在于避免现有技术的不足之处而提供一种基于时序稀疏回归及加性模型影像相关性检测方法。该基于时序稀疏回归及加性模型影像相关检测方法能得到SNP对表型与平滑函数之间的关系。
本发明的上述目的通过以下技术措施实现:
提供一种基于时序稀疏回归及加性模型影像相关性检测方法,包括步骤有:
步骤一、收集多个对像大脑区域在不同时间点的MRI图像及对像对应的基因数据;
步骤二、分别对MRI图像进行预处理得到处理后MRI图像,对基因数据进行质量控制及筛选得到处理后基因数据;
步骤三、将处理后基因数据和处理后MRI图像代入基于时序组稀疏回归与加性模型的目标函数;
步骤四、通过交替凸搜索法求解目标函数,得到SNP对表型关于时间的平滑函数和ROI的权重。
优选的,上述步骤二具体步骤为:
步骤2.1、分别对MRI图像进行预处理得到处理后MRI图像;
步骤2.2、对基因数据进行质量控制得到预处理基因数据;
步骤2.3、分别对每个预处理基因数据中的原始SNP基因型进行编码,得到经编码后的预处理基因数据并进入步骤2.4;
步骤2.4、对经编码后的预处理基因数据进行筛选得到经SNPs筛选后的处理后基因数据。
优选的,上述步骤2.1包括有:
步骤2.1.1、分别对MRI图像进行分别前联合和后联合校正,进入步骤2.1.2;
步骤2.1.2、删除脑壳区域和小脑区域,进入步骤2.1.3;
步骤2.1.3、对不均匀强度进行校正,得到强度校正图像;
步骤2.1.4、对步骤2.1.3得到的强度校正图像中的灰质、白质、脑侧室和脑脊液组织进行分割,得到灰质分割区域、白质分割区域、脑侧室分割区域和脑脊液分割区域;
步骤2.1.5、在步骤2.1.3得到的强度校正图像中选取步骤2.1.4的灰质分割区域、白质分割区域、脑侧室分割区域或者脑脊液分割区域,并对强度校正图像进行配准得到ROI标记图像,然后进行解剖得到多个ROI;
步骤2.1.6、分别对步骤2.1.5得到的多个ROI进行计算绘制组织体积,得到多个ROI体积数据。
优选的,上述步骤2.2包括有:
步骤2.2.1、多个对像对应的基因数据进行性别检查,去除性别信息错误的基因数据及该对像对应的MRI图像,进入步骤2.2.1;
步骤2.2.2、根据基因数据对多个对像进行分组,进入步骤2.2.5;
步骤2.2.3、分别每个对像的基因数据进行血缘关系检查,删除与该对像具有血缘关系对像的基因数据及对应的MRI图像,进入步骤2.2.4;
步骤2.2.4、对每个对像的基因数据及基因数据中的每个SNP数据进行标记,然后筛选出SNP检出率大于等于95%以上的SNP数据及对应的基因数据,进入步骤2.2.5;
步骤2.2.5、删除基因数据中的次要等位基因频率,进入步骤2.2.6;
步骤2.2.6、进行Hardy-Weinberg平衡检验,得到基因数据对应的预处理SNP数据,进入步骤2.3。
优选的,上述步骤2.3、在基因数据对应的预处理SNP数据中的原始SNP基因型进行编码,并定义该基因数据为预处理基因数据进入步骤2.4。
优选的,上述步骤2.4步骤为:
步骤2.4.1、分别对在步骤2.3得到的预处理基因数据中的SNP数据进行筛选,筛选出缺失值大于或等于5%的SNP数据,进入步骤2.4.2;
步骤2.4.2、筛选出次要等位基因频率小于或等于5%的SNP数据,进入步骤2.4.3;
步骤2.4.3、筛选出Hardy-Weinberg平衡p值小于10-6的SNP数据,定义为该基因数据为处理后基因数据,并定义处理后基因数据的SNP数据为处理后SNP数据。
优选的,上述目标函数如式(Ⅰ)所示,
其中T为时间的数目,k为对SNP分组之后的第k组SNP,j为第k组内的第j个SNP,g为单个SNP的三种基因型取值且g取值为0,1或者2,t为MRI图像采集的时间点,为在第t个时间点上ROI体积数据,q为ROI体积数据的数量;/> 其他为0,且处理后SNP数据分为K组,c为第k组中包含的SNP的数目;f为SNP对表型的关于时间的平滑函数,Vt为ROI的权重,Ω(f)为基因型数据正则项,Ω(V)为表型正则项。
优选的,上述Ω(V)通过式(Ⅱ)得到,
其中,λv1、λv2和λv3分别为正则项调控参数,V为ROI的关联系数,s为第s个ROI特征,FP21和l1为对表型添加范数。
优选的,上述FP21通过式(Ⅲ)得到,
优选的,上述l1通过式(Ⅳ)得到,
优选的,上述l21通过式(Ⅴ)得到,
其中,V为单个ROI特征的关联系数,T为时间点的数目,t为第t个时间点。
优选的,上述Ω(f)通过式(Ⅵ)得到,
其中G21为SNP范数,l21为基因范数,G21通过式(Ⅶ)得到,l21通过式(Ⅷ)得到,
优选的,上述步骤2.1.5具体为选取灰质组织分割区域进行Jacob解剖得到93个ROI。
优选的,上述编码的方式是将原始的SNP基因型的碱基对突变次数分别编为0、1或者2。
优选的,上述SNP检出率为SNP位点被成功检测到的对像的个数与所有对像总数的比值。
优选的,上述血缘关系为父母关系、兄弟关系或者姐妹关系中的至少一种。
优选的,上述分组为民族分组、区域分组或者年龄分组中的至少一种。
本发明的一种基于时序稀疏回归及加性模型影像相关性检测方法,包括步骤有:步骤一、收集多个对像大脑区域在不同时间点的MRI图像及对像对应的基因数据;步骤二、分别对MRI图像进行预处理得到处理后MRI图像,对基因数据进行质量控制及筛选得到处理后基因数据;步骤三、将处理后基因数据和处理后MRI图像代入基于时序组稀疏回归与加性模型的目标函数;步骤四、通过交替凸搜索法求解目标函数,得到SNP对表型关于时间的平滑函数和ROI的权重。本发明通过上述4个步骤得到多个关于时间表型平滑函数及ROI的权重,从而通过多个SNP对表型的贡献描述特定区域得到大脑区域时间进展轨迹以及表型的区域差异的相关性。通过最小均方根误差RMSE作为特定大脑区域退变进展轨迹与模型是否匹配评价指标,本发明的RMSE为0.15,而现在技术模型基于时序稀疏加性模型的RMSE为1.14,稀疏加性模型的RMSE和组稀疏加性模型的RMSE都为1.33,因此本发明的效果更优。
附图说明
利用附图对本发明作进一步的说明,但附图中的内容不构成对本发明的任何限制。
图1为原始的MRI图像。
图2为处理后MRI图像。
具体实施方式
结合以下实施例对本发明的技术方案作进一步说明。
实施例1。
一种基于时序稀疏回归及加性模型影像相关性检测方法,包括步骤有:
步骤一、收集多个对像大脑区域在不同时间点的MRI图像及对像对应的基因数据;
步骤二、分别对MRI图像进行预处理得到处理后MRI图像,对基因数据进行质量控制及筛选得到处理后基因数据;
步骤三、将处理后基因数据和处理后MRI图像代入基于时序组稀疏回归与加性模型的目标函数;
步骤四、通过交替凸搜索法求解目标函数,得到SNP对表型关于时间的平滑函数和ROI的权重。
其中,步骤二具体步骤为:
步骤2.1、分别对MRI图像进行预处理得到处理后MRI图像,如图1和2;
步骤2.2、对基因数据进行质量控制得到预处理基因数据;
步骤2.3、分别对每个预处理基因数据中的原始SNP基因型进行编码,得到经编码后的预处理基因数据并进入步骤2.4;
步骤2.4、对经编码后的预处理基因数据进行筛选得到经SNPs筛选后的处理后基因数据。
其中,步骤2.1包括有:
步骤2.1.1、分别对MRI图像进行分别前联合和后联合校正,进入步骤2.1.2;
步骤2.1.2、删除脑壳区域和小脑区域,进入步骤2.1.3;
步骤2.1.3、对不均匀强度进行校正,得到强度校正图像;
步骤2.1.4、对步骤2.1.3得到的强度校正图像中的灰质、白质、脑侧室和脑脊液组织进行分割,得到灰质分割区域、白质分割区域、脑侧室分割区域和脑脊液分割区域;
步骤2.1.5、在步骤2.1.3得到的强度校正图像中选取步骤2.1.4的灰质分割区域、白质分割区域、脑侧室分割区域或者脑脊液分割区域,并对强度校正图像进行配准得到ROI标记图像,然后进行解剖得到多个ROI;
步骤2.1.6、分别对步骤2.1.5得到的多个ROI进行计算绘制组织体积,得到多个ROI体积数据。
其中,步骤2.2包括有:
步骤2.2.1、多个对像对应的基因数据进行性别检查,去除性别信息错误的基因数据及该对像对应的MRI图像,进入步骤2.2.1;
步骤2.2.2、根据基因数据对多个对像进行分组,进入步骤2.2.5;
步骤2.2.3、分别每个对像的基因数据进行血缘关系检查,删除与该对像具有血缘关系对像的基因数据及对应的MRI图像,进入步骤2.2.4;
步骤2.2.4、对每个对像的基因数据及基因数据中的每个SNP数据进行标记,然后筛选出SNP检出率大于等于95%以上的SNP数据及对应的基因数据,进入步骤2.2.5;
步骤2.2.5、删除基因数据中的次要等位基因频率,进入步骤2.2.6;
步骤2.2.6、进行Hardy-Weinberg平衡检验,得到基因数据对应的预处理SNP数据,进入步骤2.3;
所述步骤2.3、在基因数据对应的预处理SNP数据中的原始SNP基因型进行编码,并定义该基因数据为预处理基因数据进入步骤2.4。
其中,步骤2.4步骤为:
步骤2.4.1、分别对在步骤2.3得到的预处理基因数据中的SNP数据进行筛选,筛选出缺失值大于或等于5%的SNP数据,进入步骤2.4.2;
步骤2.4.2、筛选出次要等位基因频率小于或等于5%的SNP数据,进入步骤2.4.3;
步骤2.4.3、筛选出Hardy-Weinberg平衡p值小于10-6的SNP数据,定义为该基因数据为处理后基因数据,并定义处理后基因数据的SNP数据为处理后SNP数据。
其中,目标函数如式(Ⅰ)所示,
其中T为时间的数目,k为对SNP分组之后的第k组SNP,j为第k组内的第j个SNP,g为单个SNP的三种基因型取值且g取值为0,1或者2,t为MRI图像采集的时间点,为在第t个时间点上ROI体积数据,q为ROI体积数据的数量;/> 其他为0,且处理后SNP数据分为K组,c为第k组中包含的SNP的数目;f为SNP对表型的关于时间的平滑函数,Vt为ROI的权重,Ω(f)为基因型数据正则项,Ω(V)为表型正则项。
其中,Ω(V)通过式(Ⅱ)得到,
其中,λv1、λv2和λv3分别为正则项调控参数,V为ROI的关联系数,s为第s个ROI特征,FP21和l1为对表型添加范数。
其中l1通过式(Ⅳ)得到,
其中l21通过式(Ⅴ)得到,
其中,V为单个ROI特征的关联系数,T为时间点的数目,t为第t个时间点。
其中,Ω(f)通过式(Ⅵ)得到,
其中G21为SNP范数,l21为基因范数,G21通过式(Ⅶ)得到,l21通过式(Ⅷ)得到,
其中p为SNP的数目。
本发明的步骤2.1.5具体为选取灰质组织分割区域进行Jacob解剖得到93个ROI。
本发明具体的编码的方式是将原始的SNP基因型的碱基对突变次数,类似A、T、C和G分别编为0、1或者2。
其中,SNP检出率为SNP位点被成功检测到的对像的个数与所有对像总数的比值。血缘关系为父母关系、兄弟关系或者姐妹关系中的至少一种。分组为民族分组、区域分组或者年龄分组中的至少一种。
该基于时序稀疏回归及加性模型影像相关检测方法通过上述4个步骤得到多个关于时间表型平滑函数及ROI的权重,从而通过多个SNP对表型的贡献描述特定区域得到大脑区域时间进展轨迹以及表型的区域差异的相关性。通过最小均方根误差RMSE作为特定大脑区域退变进展轨迹与模型是否匹配评价指标,本发明的RMSE为0.15,而现在技术模型基于时序稀疏加性模型的RMSE为1.14,稀疏加性模型的RMSE和组稀疏加性模型的RMSE都为1.33,因此本发明的效果更优。该基于时序稀疏回归及加性模型影像相关检测方法能得到SNP对表型与平滑函数之间的关系。
实施例2。
一种基于时序稀疏回归及加性模型影像相关性检测方法,首先从ADNI数据库上下载ADNI 1的T1加权MRI图像纵向数据(时间点分别为基线、6个月、12个月和24个月),然后从AlzGene数据库中选择202个阿尔茨海默病(AD)候选基因。以下详细描述所述数据库中每张MRI图像和基因数据的预处理方法。
步骤一、从ADNI数据库中下载MRI图像和基因数据.
步骤二、对每张对MRI图像进行预处理得到处理后MRI图像,同时对该MRI图像对应的基因数据进行质量控制及筛选得到处理后基因数据;
步骤2.1.1、通过使用MIPAV软件进行前联合和后联合的校正;
步骤2.1.2、应用鲁棒的去脑壳算法去除脑壳,并在每个颅骨剥开的图像上扭曲标记的模板以去除小脑;
步骤2.1.3、应用N3算法对图像强度不均匀校正;
步骤2.1.4、在FSL封装中使用FAST方法进行组织分割,将sMRI脑图像数据分割为四种不同的组织:灰质,白质,脑侧室和脑脊液;
步骤2.1.5、通过使用4D-HAMMER方法对图像进行配准,得到ROI标记的图像,在使用Jacob模板将一个大脑解剖为93个ROI;
步骤2.1.6、对于标记图像中93个ROI中,分别计算绘制组织体积。因此对于每一张MRI图像,提取了93个灰质组织体积的特征向量作为本发明目标函数的表型数据。
步骤2.2、对基因数据进行质量控制得到预处理基因数据;
步骤2.2.1、多个对像对应的基因数据进行性别检查,去除性别信息错误的基因数据及该对像对应的MRI图像,从而去除性别有误的样本;
步骤2.2.2、根据基因数据对多个对像进行分组,从而降低来自不同的群体的样本差异;
步骤2.2.3、分别每个对像的基因数据进行血缘关系检查,删除与该对像具有血缘关系的其他对像的基因数据及对应的MRI图像,从而去除存在血缘关系的样本;
步骤2.2.4、对每个对像的基因数据及基因数据中的每个SNP数据进行标记,然后筛选出SNP检出率大于等于95%以上的SNP数据及对应的基因数据,具体为对每个受试者以及每个SNP标记进行检出率检查,比如SNP检出率是指对某个SNP位点被成功检测到的样本与所有样本比值,一般要求在95%以上;
步骤2.2.5、去除次要等位基因频率小于5%的SNP;
步骤2.2.6、Hardy-Weinberg平衡检验,其p值小于10-6的去除。
随后,在进一步预处理过程中,根据以下条件来去除一些单核苷酸多态性(SNPs)。
步骤2.4.1、分别对在步骤2.3得到的预处理基因数据中的SNP数据进行筛选,筛选出缺失值大于或等于5%的SNP数据,;
步骤2.4.2、筛选出次要等位基因频率小于或等于5%的SNP数据;
步骤2.4.3、筛选出Hardy-Weinberg平衡p值小于10-6的SNP数据,定义为该基因数据为处理后基因数据,并定义处理后基因数据的SNP数据为处理后SNP数据。
步骤2.3、分别对每个预处理基因数据中的原始SNP基因型进行编码,具体为将SNP原始数据(C,T,G,A)编码为0,1,2,同时去除一些可能引起偏差的因素。
步骤二、通过预处理之后得到404个受试者,202个基因包含6452个SNP数据,将处理后基因数据和处理后MRI图像代入基于时序组稀疏回归与加性模型的目标函数进行关联分析,其中目标函数为应用图像数据和基因数据构建的T-GSRAM模型:
其中T为时间的数目,k为对SNP分组之后的第k组SNP,j为第k组内的第j个SNP,g为单个SNP的三种基因型取值且g取值为0,1或者2,t为MRI图像采集的时间点,为在第t个时间点上ROI体积数据,q为ROI体积数据的数量;/> 其他为0,且处理后SNP数据分为K组,c为第k组中包含的SNP的数目;f为SNP对表型的关于时间的平滑函数,Vt为ROI的权重,Ω(f)为基因型数据正则项,Ω(V)为表型正则项。
其中Ω(V)通过式(Ⅱ)得到,通过Ω(V)增加了不同时间点上脑区的变化因素:
其中,λv1、λv2和λv3分别为正则项调控参数,V为ROI的关联系数,s为第s个ROI特征,FP21和l1为对表型添加范数。
FP21通过式(Ⅲ)得到,
对FP21范数的作用考虑相邻时间点表型的变化,例如,在相邻时间点上表型区域保持不变,则认为这个时候该表型区域AD无关。
其次,l1通过式(Ⅳ)得到,
l1范数的作用是通过对时间进行稀疏来检测某个表型在时间点上随疾病的变化。
l21通过式(Ⅴ)得到,
l21范数的作用是通过在所有时间点上对表型进行稀疏,来选择在所有时间点上发生变化的表型区域。
其中,V为单个ROI特征的关联系数,T为时间点的数目,t为第t个时间点。
Ω(f)通过式(Ⅵ)得到,
其中G21为SNP范数,l21为基因范数,G21通过式(Ⅶ)得到,l21通过式(Ⅷ)得到,
其中p为SNP的数目。
G21的作用是去考虑SNP-SNP之间的关联以及联合效应。l21范数的作用是考虑一个SNP的三种基因型随时间变化的遗传效应,以及对组内进行稀疏,去除先验知识分组的组内与AD无关的SNP。
步骤四、通过交替凸搜索法求解目标函数,得到SNP对表型关于时间的平滑函数和ROI的权重。
本发明的模型中超参数是通过选择最小均方根误差(RMSE)来确定参数。在这组数据中确定了最优参数:通过交替凸搜索法去求解这个目标函数,可以得到SNP和ROI对应的权重f和V的值,它们分别对应的是ROI和SNP特征,由于得到的权重是稀疏的,所以根据权重值的绝对值的大小从大到小排序选择前20的与神经变化疾病相关的ROI和SNP。并使用RMSE作为衡量指标,当RMSE越小则认为模型越好。与现有技术的其他模型进行了对比,稀疏加性模型的RMSE为1.33,组稀疏加性模型的RMSE为1.33,基于时序稀疏加性模型的RMSE为1.14,本发明的RMSE为0.15。因此本发明RMSE最小,表明本发明相对于现有技术效果较好。本发明考虑SNP的组结构关联,从而能够更加精准的去检测阿尔茨海默病(AD)的潜在生物标记物。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细说明,本领域的普通技术人员应当理解,可以对本发明技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。
Claims (8)
1.一种基于时序稀疏回归及加性模型影像相关性检测方法,其特征在于,包括步骤有:
步骤一、收集多个对象大脑区域在不同时间点的MRI图像及对象对应的基因数据;
步骤二、分别对MRI图像进行预处理得到处理后MRI图像,对基因数据进行质量控制及筛选得到处理后基因数据;
步骤三、将处理后基因数据和处理后MRI图像代入基于时序组稀疏回归与加性模型的目标函数;
步骤四、通过交替凸搜索法求解目标函数,得到SNP对表型关于时间的平滑函数和ROI的权重;
所述步骤二具体步骤为:
步骤2.1、分别对MRI图像进行预处理得到处理后MRI图像;
步骤2.2、对基因数据进行质量控制得到预处理基因数据;
步骤2.3、分别对每个预处理基因数据中的原始SNP基因型进行编码,得到经编码后的预处理基因数据并进入步骤2.4;
步骤2.4、对经编码后的预处理基因数据进行筛选得到经SNPs筛选后的处理后基因数据;
所述步骤2.4步骤为:
步骤2.4.1、分别对在步骤2.3得到的预处理基因数据中的SNP数据进行筛选,筛选出缺失值大于或等于5%的SNP数据,进入步骤2.4.2;
步骤2.4.2、筛选出次要等位基因频率小于或等于5%的SNP数据,进入步骤2.4.3;
步骤2.4.3、筛选出Hardy-Weinberg平衡p值小于10-6的SNP数据,定义为该基因数据为处理后基因数据,并定义处理后基因数据的SNP数据为处理后SNP数据。
2.根据权利要求1所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述步骤2.1包括有:
步骤2.1.1、分别对MRI图像进行分别前联合和后联合校正,进入步骤2.1.2;
步骤2.1.2、删除脑壳区域和小脑区域,进入步骤2.1.3;
步骤2.1.3、对不均匀强度进行校正,得到强度校正图像;
步骤2.1.4、对步骤2.1.3得到的强度校正图像中的灰质、白质、脑侧室和脑脊液组织进行分割,得到灰质分割区域、白质分割区域、脑侧室分割区域和脑脊液分割区域;
步骤2.1.5、在步骤2.1.3得到的强度校正图像中选取步骤2.1.4的灰质分割区域、白质分割区域、脑侧室分割区域或者脑脊液分割区域,并对强度校正图像进行配准得到ROI标记图像,然后进行解剖得到多个ROI;
步骤2.1.6、分别对步骤2.1.5得到的多个ROI进行计算绘制组织体积,得到多个ROI体积数据。
3.根据权利要求2所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述步骤2.2包括有:
步骤2.2.1、多个对象对应的基因数据进行性别检查,去除性别信息错误的基因数据及该对象对应的MRI图像,进入步骤2.2.1;
步骤2.2.2、根据基因数据对多个对象进行分组,进入步骤2.2.5;
步骤2.2.3、分别每个对象的基因数据进行血缘关系检查,删除与该对象具有血缘关系对象的基因数据及对应的MRI图像,进入步骤2.2.4;
步骤2.2.4、对每个对象的基因数据及基因数据中的每个SNP数据进行标记,然后筛选出SNP检出率大于等于95%以上的SNP数据及对应的基因数据,进入步骤2.2.5;
步骤2.2.5、删除基因数据中的次要等位基因频率,进入步骤2.2.6;
步骤2.2.6、进行Hardy-Weinberg平衡检验,得到基因数据对应的预处理SNP数据,进入步骤2.3;
所述步骤2.3、在基因数据对应的预处理SNP数据中的原始SNP基因型进行编码,并定义该基因数据为预处理基因数据进入步骤2.4。
4.根据权利要求3所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述目标函数如式(Ⅰ)所示,
其中T为时间的数目,k为对SNP分组之后的第k组SNP,j为第k组内的第j个SNP,g为单个SNP的三种基因型取值且g取值为0,1或者2,t为MRI图像采集的时间点,为在第t个时间点上ROI体积数据,q为ROI体积数据的数量;/> 其他为0,且处理后SNP数据分为K组,c为第k组中包含的SNP的数目;f为SNP对表型的关于时间的平滑函数,Vt为ROI的权重,Ω(f)为基因型数据正则项,Ω(V)为表型正则项。
5.根据权利要求4所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述Ω(V)通过式(Ⅱ)得到,
其中,λv1、λv2和λv3分别为正则项调控参数,V为ROI的关联系数,s为第s个ROI特征,FP21、l1和l21为表型范数。
6.根据权利要求5所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述FP21通过式(Ⅲ)得到,
所述l1通过式(Ⅳ)得到,
所述l21通过式(Ⅴ)得到,
其中,V为单个ROI特征的关联系数,T为时间点的数目,t为第t个时间点。
7.根据权利要求6所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述Ω(f)通过式(Ⅵ)得到,
其中G21为SNP范数,l21为基因范数,G21通过式(Ⅶ)得到,l21通过式(Ⅷ)得到,
其中p为SNP的数目。
8.根据权利要求7所述的基于时序稀疏回归及加性模型影像相关检测方法,其特征在于:所述步骤2.1.5具体为选取灰质组织分割区域进行Jacob解剖得到93个ROI;
所述编码的方式是将原始的SNP基因型的碱基对突变次数分别编为0、1或者2;
所述SNP检出率为SNP位点被成功检测到的对象的个数与所有对象总数的比值;
所述血缘关系为父母关系、兄弟关系或者姐妹关系中的至少一种;
所述分组为民族分组、区域分组或者年龄分组中的至少一种。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642586.3A CN112614129B (zh) | 2020-12-31 | 2020-12-31 | 一种基于时序稀疏回归及加性模型影像相关性检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011642586.3A CN112614129B (zh) | 2020-12-31 | 2020-12-31 | 一种基于时序稀疏回归及加性模型影像相关性检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112614129A CN112614129A (zh) | 2021-04-06 |
CN112614129B true CN112614129B (zh) | 2023-08-18 |
Family
ID=75253176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011642586.3A Active CN112614129B (zh) | 2020-12-31 | 2020-12-31 | 一种基于时序稀疏回归及加性模型影像相关性检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112614129B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580497B (zh) * | 2022-01-26 | 2023-07-11 | 南京航空航天大学 | 一种分析基因对多模态脑影像表型影响的方法 |
CN114820460B (zh) * | 2022-04-02 | 2023-09-29 | 南京航空航天大学 | 一种单基因位点与时序脑图像关联分析的方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874881A (zh) * | 2017-02-23 | 2017-06-20 | 电子科技大学 | 一种多模板时空关联的局部反联合稀疏表示目标跟踪方法 |
CN110796625A (zh) * | 2019-10-30 | 2020-02-14 | 重庆邮电大学 | 一种基于组稀疏表示和加权全变分的图像压缩感知重构方法 |
CN111047661A (zh) * | 2019-12-12 | 2020-04-21 | 重庆大学 | 一种基于稀疏流形联合约束的cs-mri图像重构方法 |
-
2020
- 2020-12-31 CN CN202011642586.3A patent/CN112614129B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106874881A (zh) * | 2017-02-23 | 2017-06-20 | 电子科技大学 | 一种多模板时空关联的局部反联合稀疏表示目标跟踪方法 |
CN110796625A (zh) * | 2019-10-30 | 2020-02-14 | 重庆邮电大学 | 一种基于组稀疏表示和加权全变分的图像压缩感知重构方法 |
CN111047661A (zh) * | 2019-12-12 | 2020-04-21 | 重庆大学 | 一种基于稀疏流形联合约束的cs-mri图像重构方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112614129A (zh) | 2021-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10354747B1 (en) | Deep learning analysis pipeline for next generation sequencing | |
Shang et al. | Spatially aware dimension reduction for spatial transcriptomics | |
CN112614129B (zh) | 一种基于时序稀疏回归及加性模型影像相关性检测方法 | |
CN107423534B (zh) | 基因组拷贝数变异的检测方法和系统 | |
CN109528197B (zh) | 基于脑功能图谱进行精神疾病的个体化预测方法和系统 | |
Vounou et al. | Sparse reduced-rank regression detects genetic associations with voxel-wise longitudinal phenotypes in Alzheimer's disease | |
CN106636398B (zh) | 一种阿尔茨海默病发病风险预测模型的构建方法 | |
NZ759818A (en) | Semi-supervised learning for training an ensemble of deep convolutional neural networks | |
CN108109140A (zh) | 基于深度学习的低级别脑胶质瘤柠檬酸脱氢酶无损预测方法及系统 | |
CN108734108B (zh) | 一种基于ssd网络的裂纹舌识别方法 | |
KR20180116309A (ko) | 비정상적인 핵형을 검출하기 위한 방법 및 시스템 | |
CN116194995A (zh) | 在低覆盖度的下一代测序数据中识别染色体空间不稳定性如同源修复缺陷的方法 | |
CN112288027B (zh) | 异构多模态影像遗传学数据特征分析方法 | |
CN112884754A (zh) | 一种多模态阿尔兹海默症医学图像识别分类方法和系统 | |
CN110268072A (zh) | 确定旁系同源基因的方法和系统 | |
WO2024060842A1 (zh) | 分类模型获取方法、表达类别确定方法、装置、设备及介质 | |
Kalina | A robust pre-processing of BeadChip microarray images | |
CN110378882B (zh) | 一种多层级深度特征融合的中医舌质颜色分类方法 | |
KR20210110241A (ko) | 인간백혈구항원 하플로타입 기반 다중 분류 인공지능 모델을 이용한 면역항암제 적응증 및 반응 예측 시스템 및 방법 | |
CN116956138A (zh) | 一种基于多模态学习的影像基因融合分类方法 | |
Gomez et al. | The relationship between transcription and eccentricity in human V1 | |
CN110191964B (zh) | 确定生物样本中预定来源的游离核酸比例的方法及装置 | |
WO2023087277A1 (zh) | 序列变异分析方法、系统以及存储介质 | |
CN114187962A (zh) | 一种基于联合结构约束和不完整多模态数据非线性关联分析方法 | |
CN108345769A (zh) | 一种整合图像空间信息的基于体素点全基因组关联分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |