CN104063459B - 一种基于流感病毒刺激的细胞差异基因数据分类系统 - Google Patents
一种基于流感病毒刺激的细胞差异基因数据分类系统 Download PDFInfo
- Publication number
- CN104063459B CN104063459B CN201410294369.8A CN201410294369A CN104063459B CN 104063459 B CN104063459 B CN 104063459B CN 201410294369 A CN201410294369 A CN 201410294369A CN 104063459 B CN104063459 B CN 104063459B
- Authority
- CN
- China
- Prior art keywords
- data
- gene
- module
- sample
- submodule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 116
- 241000712461 unidentified influenza virus Species 0.000 title claims abstract description 31
- 230000000638 stimulation Effects 0.000 title claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012360 testing method Methods 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 10
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 238000000034 method Methods 0.000 claims description 34
- 238000013145 classification model Methods 0.000 claims description 30
- 230000014509 gene expression Effects 0.000 claims description 30
- 230000008569 process Effects 0.000 claims description 15
- 238000012163 sequencing technique Methods 0.000 claims description 14
- 206010022000 influenza Diseases 0.000 claims description 10
- 230000001413 cellular effect Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000001914 filtration Methods 0.000 claims description 6
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 201000010099 disease Diseases 0.000 claims description 3
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims description 3
- 241000894007 species Species 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 2
- 238000013210 evaluation model Methods 0.000 claims 1
- 238000007418 data mining Methods 0.000 abstract description 4
- 238000005070 sampling Methods 0.000 abstract 1
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 238000011160 research Methods 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 6
- 108020004999 messenger RNA Proteins 0.000 description 4
- 241000197306 H1N1 subtype Species 0.000 description 3
- 241000700605 Viruses Species 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- YMZPQKXPKZZSFV-CPWYAANMSA-N 2-[3-[(1r)-1-[(2s)-1-[(2s)-2-[(1r)-cyclohex-2-en-1-yl]-2-(3,4,5-trimethoxyphenyl)acetyl]piperidine-2-carbonyl]oxy-3-(3,4-dimethoxyphenyl)propyl]phenoxy]acetic acid Chemical compound C1=C(OC)C(OC)=CC=C1CC[C@H](C=1C=C(OCC(O)=O)C=CC=1)OC(=O)[C@H]1N(C(=O)[C@@H]([C@H]2C=CCCC2)C=2C=C(OC)C(OC)=C(OC)C=2)CCCC1 YMZPQKXPKZZSFV-CPWYAANMSA-N 0.000 description 2
- 101001082058 Homo sapiens Interferon-induced protein with tetratricopeptide repeats 2 Proteins 0.000 description 2
- 101001082060 Homo sapiens Interferon-induced protein with tetratricopeptide repeats 3 Proteins 0.000 description 2
- 102100027302 Interferon-induced protein with tetratricopeptide repeats 3 Human genes 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 208000015181 infectious disease Diseases 0.000 description 2
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 1
- GXAFMKJFWWBYNW-OWHBQTKESA-N 2-[3-[(1r)-1-[(2s)-1-[(2s)-3-cyclopropyl-2-(3,4,5-trimethoxyphenyl)propanoyl]piperidine-2-carbonyl]oxy-3-(3,4-dimethoxyphenyl)propyl]phenoxy]acetic acid Chemical compound C1=C(OC)C(OC)=CC=C1CC[C@H](C=1C=C(OCC(O)=O)C=CC=1)OC(=O)[C@H]1N(C(=O)[C@@H](CC2CC2)C=2C=C(OC)C(OC)=C(OC)C=2)CCCC1 GXAFMKJFWWBYNW-OWHBQTKESA-N 0.000 description 1
- 206010008190 Cerebrovascular accident Diseases 0.000 description 1
- 102100027303 Interferon-induced protein with tetratricopeptide repeats 2 Human genes 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003447 ipsilateral effect Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 239000002574 poison Substances 0.000 description 1
- 231100000614 poison Toxicity 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000004936 stimulating effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于流感病毒刺激的细胞差异基因数据分类系统,它包括数据处理模块,数据处理模块采集训练样本集数据,依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;数据分类模块读取数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块内建立各数据分类模型;测试数据模块用于接收模型建立模块建立的各数据分类模型以及经数据处理模块处理后的待测样本集数据,测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。本发明可以广泛在数据挖掘系统中应用。
Description
技术领域
本发明涉及一种数据挖掘系统,特别是一种基于流感病毒刺激后对细胞差异基因进行数据分类的系统。
背景技术
分类系统是数据挖掘的主要系统之一,用于提取描述重要数据类别归属的模型或预测未来的数据趋势。一般来说,分类是把数据项映射到其中一个事先定义的类中的学习函数的过程,用基于归纳学习算法得出分类。
一般生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。从生物信息学研究的具体内容上看,生物信息学应包括三个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据新工具。数据挖掘在生物信息学领域的应用越来越广泛,在生物信息学领域中,科研人员可以通过对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)来对研究领域进行拓展和深化。
在以流感病毒与宿主相互作用的研究背景下,流感的生物信息学研究,已经形成技术资源网络信息化。以生命科学信息、生物技术信息、病毒研究共享信息、生物资源信息为基础,以流感病毒生物信息的标准化、网络化关键技术为手段,将流感差异基因领域相关的生物信息资源大规模高质量收集、整理和加工,同时利用我国现有的转录组学数据,逐步建立规范统一的具有权威性的完善的技术平台和支撑体系,这样为我国生物技术行业突破国外技术壁垒,确保食品、农业、国防安全的可持续发展提供有力保障。
目前没有关于不同毒株流感病毒不同细胞系进行数据挖掘和差异基因比较的数据库,也没有涉及此类的建模方法。
发明内容
针对上述问题,本发明的目的是提供一种针对不同毒株流感病毒刺激不同细胞系后的反应进行研究,建立能够分层次多维度进行细胞差异基因数据分类系统。
为实现上述目的,本发明采取以下技术方案:一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一分类子模块和第二分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;所述第二数据分类子模块的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;所述第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。
所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判读为非差异基因;其中,打分公式如下:
式中,Gi为某个细胞系内某个毒株刺激后的第i个基因,i=1...j,j为某细胞毒株的待分类基因总数;fm为先验参数,m=1,2,3,对应三种分类情况;U1、U2、U3…Un为不同因素;d1、d2、d3……dn为不同权重。
所述测试数据模块对所述模型建立模块建立的各数据分类模型的评价如下:采用ROC方法对以上建立的数据分类模型进行准确度评价,ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型:阳性/阴性;有病/没病;垃圾邮件/非垃圾邮件;敌军/非敌军;其中,ROC方法关注两个指标:1)真阳性率TPR=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率;TP为真阳性数,FN为假阴性数;P=TP+FN;2)假阳性率FPR=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率;TN为真阴性数,FP为假阳性数,N=FP+TN。
本发明由于采取以上技术方案,其具有以下优点:1、本发明建立的模型通过比较不同的流感病毒刺激、不同的细胞系做出的反应来对细胞的差异基因进行多个因素的分类,建立细胞差异基因数据库,数据库能够依据建立时的方法不断更新。2、数据库建立后,能够对细胞待检测样本进行分类,构成一套细胞差异基因数据分类系统,便于后续数据调用和筛选方便。3、本发明依据不同细胞株、不同流感病毒刺激的不同特点,建立多因素预测分类模型建立细胞差异基因数据分类系统。考虑多因素综合打分,通过阈值判定,得到差异基因分类结果。本分类算法通过现有的ROC方法来对该模型进行评价和修正,确保该数据库模型可以不断提高分析细胞差异基因的精度,保持较好的分类汇总功能。
附图说明
图1是本发明多因素样本判别数据分类系统;
图2是本发明的亚型流感病毒H1N1的3种不同毒株感染293T细胞的差异基因(IFIT2、IFIT3);
图3是本发明采用的ROC(Receiver Operating Characteristic)评价方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种基于流感病毒刺激的细胞差异基因数据分类系统,其包括数据处理模块1、数据分类模块2、模型建立模块3和测试数据模块4。
数据处理模块1采集训练样本集数据和待检测数据,训练样本集数据依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据。多因素包括不同刺激的流感病毒毒株、不同细胞系基因表达数值、表达基因是否有完整参考测序序列、基因注释信息完整性等因素。其中部分因素为数值型数据;部分因素为给予人工先验值,例如是否在不同细胞株中实验,“是”赋值为1,“不是”赋值为0;是否为不同病毒毒株刺激,“是”赋值为1,“不是”赋值为0;表达基因是否有完整参考测序序列因素,如果“完整的参考序列”赋值为10,“没有参考序列”赋值为1,10和1即为人工先验值。
在进行数据分割的时候,如果当某样本的基因数据存在缺失值,数据处理模块1会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,数据处理模块1报警,样本将被剔除,申请新样本。
数据分类模块2读取数据处理模块1生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块3内建立各数据分类模型。
测试数据模块4用于接收数据处理模块1预处理的样本数据,调用模型建立模块3建立的各数据分类模型测试数据模块4对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块1处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
上述实施例中,数据分类模块2包括第一数据分类子模块21、第二数据分类子模块22和第三数据分类子模块23三个子模块:
1)第一数据分类子模块21的目标是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块21分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第一数据分类子模块21分类的表达基因样本统称为相同细胞系不同毒株。差异表达基因即为不同的流感病毒毒株刺激后不同的细胞系对其反应不同,在不同的细胞系中所产生的相应的基因表达不会完全一致,那么不同的细胞系中表达有差异的基因都称为差异表达基因。
由于属于同一细胞系内对不同流感病毒毒株刺激后的细胞之间的基因差异小于属于不同细胞系间对不同流感病毒毒株刺激后的细胞之间的基因差异,所以不会增大需要考虑的影响因素的数量,然后逐个分析每个影响因素,该影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息等。数值型因素在不同样本间将被归一化处理,归一化的主要目的是减小由于基因测序系统原因而导致的系统误差。
如图2所示,下面以293T细胞为例(但不限于此)对数据值列表的建立进行说明,H1N1亚型流感病毒的3种不同毒株(CA04,PR8和WSN)感染293T细胞,提取细胞总RNA进行深度测序(RNA-seq),其中293T细胞中的两个基因IFIT2、IFIT3未感染(uninfected)时显示的mRNA丰度值如图2所示,在被H1N1亚型流感病毒刺激(infected)后mRNA丰度值都上调至3倍以上。其中所测数值都是mRNA丰度值的倍数。根据不同流感毒株刺激、基因表达mRNA的丰度值表达数值、表达基因是否有完整参考测序信息、基因注释信息完整性等因素。将每个基因对应的所有因素数据转化成一个矩阵数据,传输到模型建立模块3。
2)第二数据分类子模块22目标是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块22分类的基因样本的每个影响因素(包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息)被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第二数据分类子模块22分类的基因样本统称为不同细胞系相同毒株。
3)第三数据分类子模块23目标是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与第一分类子模块21和第二分类子模块22相同,包括不同细胞系、不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息;数值型因素在不同样本间将被归一化处理,其他影响因素(包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息)被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第三数据分类子模块23分类的基因样本统称为不同细胞系不同毒株。
其中,因素指标有:不同毒株之间差异表达基因的差异倍数作为因素U1;表达基因是否有完整的测序序列,有完整的序列信息记录因素U2=1,没有完成测序序列,记录因素U2=0.5;表达基因是否有完整的注释信息,有完整的注释信息记录因素U3=1,没有完整的注释信息,记录因素U3=0.5。将这些因素值传输至模型建立模块3中。U1、U2、U3这三个因素是目前分类不同细胞系不同毒株之间的差异表达基因较重要的因素,模型建立模块3建立的模型可以扩展增加其他因素指标,分类细胞系毒株间的差异表达基因。
上述各实施例中,模型建立模块3包括第一模型建立子模块31、第二模型建立子模块32和第三模型建立子模块33。三个模型建立子模块分别依据上述三个数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至测试数据模块4中。在建模过程中第一数据分类子模块21的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;第二数据分类子模块22的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。数据分类模型建立是为将不同因素给予相应的预知权重,某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进行区别对待。权重的设定主要是通过主观经验法和专家调研法给出,主观经验法是考核者凭自己以往的经验直接给指标设定权重,一般适用于考核者对考核客体非常熟悉和了解的情况下;专家调查法是聘请有关专家,对考核指标体系进行深入研究,由每位专家先独立地对考核指标设置权重,然后对每个考核指标的权重取平均值,作为最终权重。这样对上面提到的因素指标U1、U2、U3分别给予权重d1、d2、d3,其中d1>d2>d3。
细胞差异表达基因的分类:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分,打分公式如式(1);再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因。用户可以根据自己的数据特点和应用场景设定阈值。一般设定阈值为得分大于2的基因判断为差异基因。
打分公式如下:
其中,Gi为某个细胞系内某个毒株刺激后的第i个基因(i=1...j,j为某细胞毒株的待分类基因总数);fm为先验参数(m=1,2,3,对应三种分类情况);U1、U2、U3……Un为不同因素;d1、d2、d3……dn为不同权重。对于每个基因得到的score值进行判读,大于设定阈值为差异基因,小于则判读为非差异基因。
上述各实施例中,测试数据模块4对模型建立模块3建立的各数据分类模型的评价如下:如图3所示,为了对模型建立模块3建立的数据分类模型进行评价和修正,采用ROC(Receiver Operating Characteristic)方法对以上建立的数据分类模型进行准确度评价。ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型,例如:(阳性/阴性)(有病/没病)(垃圾邮件/非垃圾邮件)(敌军/非敌军)。
ROC方法关注两个指标:
1)TPR(True Positive Rate,真阳性率)=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率。TP为真阳性数(对应图3中的True Positive(TP)),FN为假阴性数(对应图3中的False Positive(FN));P=TP+FN。
2)FPR(False Positive Rate,假阳性率)=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率。TN为真阴性数(对应图3中的True Positive(TN)),FP为假阳性数(对应图3中的False Positive(FP)。N=FP+TN。
如图3所示,P代表真实的阳性样本数(既为P=TP+FN,真阳性数+假阴性数);N代表真实的阴性样本数(即为N=FP+TN,假阳性数+真阴性数);P’代表模型判断出来阳性样本数(既为P’=TP+FP,真阳性数+假阳性数);N’代表模型判断出来的阴性样本(即为N’=TN+FN,真阴性数+假阴性数)。
综上所述,本发明在使用时,将真实试验验证的一组分类基因差异数据作为训练集,将其输入到本发明的数据分类系统中,得到系统预测的差异表达基因的分类。按照ROC评价体系将训练集中的每个基因的真实分类(actual value)与预测分类做比较,通过TPR值调整判读Score(Gi)时的阈值,也可根据实际情况需要增大或减小阈值。
上述各实施例仅用于说明本发明,各部件结构都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别部件的连接和结构进行的改进和等同变换,均不应排除在本发明的保护范围之外。
Claims (7)
1.一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;
所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;
所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;
所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类;
所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:
所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;
所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;
所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一数据分类子模块和第二数据分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
2.如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
3.如权利要求书1或2所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
4.如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
5.如权利要求书4所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;所述第二数据分类子模块的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;所述第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。
6.如权利要求书4所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判读为非差异基因;其中,打分公式如下:
式中,Gi为某个细胞系内某个毒株刺激后的第i个基因,i=1...j,j为某细胞毒株的待分类基因总数;fm为先验参数,m=1,2,3,对应三种分类情况;U1、U2、U3…Un为不同因素;d1、d2、d3……dn为不同权重。
7.如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述测试数据模块对所述模型建立模块建立的各数据分类模型的评价如下:采用ROC方法对以上建立的数据分类模型进行准确度评价,ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型:阳性/阴性;有病/没病;垃圾邮件/非垃圾邮件;敌军/非敌军;其中,ROC方法关注两个指标:
1)真阳性率TPR=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率;TP为真阳性数,FN为假阴性数;P=TP+FN;
2)假阳性率FPR=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率;TN为真阴性数,FP为假阳性数,N=FP+TN。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410294369.8A CN104063459B (zh) | 2014-06-26 | 2014-06-26 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410294369.8A CN104063459B (zh) | 2014-06-26 | 2014-06-26 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104063459A CN104063459A (zh) | 2014-09-24 |
CN104063459B true CN104063459B (zh) | 2017-02-22 |
Family
ID=51551173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410294369.8A Expired - Fee Related CN104063459B (zh) | 2014-06-26 | 2014-06-26 | 一种基于流感病毒刺激的细胞差异基因数据分类系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104063459B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105046110A (zh) * | 2015-06-28 | 2015-11-11 | 中国科学院合肥物质科学研究院 | 一种克服信号失真的肿瘤细胞异常通路识别方法 |
CN108763859B (zh) * | 2018-05-17 | 2020-11-24 | 北京博奥医学检验所有限公司 | 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法 |
CN110782949A (zh) * | 2019-10-22 | 2020-02-11 | 王文婷 | 一种基于最大最小化序列搜索的多层基因加权分组方法 |
CN111081317B (zh) * | 2019-12-10 | 2023-06-02 | 山东大学 | 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统 |
CN114283888B (zh) * | 2021-12-22 | 2024-07-26 | 山东大学 | 基于分层自注意力机制的差异表达基因预测系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145171A (zh) * | 2007-09-15 | 2008-03-19 | 中国科学院合肥物质科学研究院 | 一种基于独立分量集成学习的基因微阵列数据预测方法 |
CN101923604A (zh) * | 2010-07-23 | 2010-12-22 | 福建师范大学 | 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法 |
-
2014
- 2014-06-26 CN CN201410294369.8A patent/CN104063459B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101145171A (zh) * | 2007-09-15 | 2008-03-19 | 中国科学院合肥物质科学研究院 | 一种基于独立分量集成学习的基因微阵列数据预测方法 |
CN101923604A (zh) * | 2010-07-23 | 2010-12-22 | 福建师范大学 | 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法 |
Non-Patent Citations (3)
Title |
---|
《An introduction to ROC analysis》;Fawcett.T;《Pattern Recognition Letters》;20060630;第27卷;第861-862页 * |
《基于神经网络的基因分类器》;马燕;《计算机工程与设计》;20050228;第26卷(第2期);第308-311页 * |
马燕 等.《基于神经网络的基因分类器》.《计算机工程与设计》.2005,第26卷(第2期),第308-311页. * |
Also Published As
Publication number | Publication date |
---|---|
CN104063459A (zh) | 2014-09-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Turner et al. | Blood transcriptional biomarkers for active pulmonary tuberculosis in a high-burden setting: a prospective, observational, diagnostic accuracy study | |
Snyder et al. | Magnitude and dynamics of the T-cell response to SARS-CoV-2 infection at both individual and population levels | |
CN107633265B (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
CN104063459B (zh) | 一种基于流感病毒刺激的细胞差异基因数据分类系统 | |
Chan et al. | Statistical mixture modeling for cell subtype identification in flow cytometry | |
Aslan et al. | Multi-classification deep CNN model for diagnosing COVID-19 using iterative neighborhood component analysis and iterative ReliefF feature selection techniques with X-ray images | |
CN111968746A (zh) | 一种基于混合深度迁移学习的脑卒中风险预测方法及装置 | |
Rahman et al. | Development and validation of an early scoring system for prediction of disease severity in COVID-19 using complete blood count parameters | |
US20200105376A1 (en) | Deep learning particle classification platform | |
Han et al. | Inferring putative transmission clusters with Phydelity | |
EP3435264B1 (en) | Method and system for identification and classification of operational taxonomic units in a metagenomic sample | |
CN103473416A (zh) | 蛋白质相互作用的模型建立方法和装置 | |
CN105389646A (zh) | 基于灰色白化函数变权聚类法的评估方法 | |
Fitriasari et al. | Improvement of Xception-ResNet50V2 concatenation for COVID-19 detection on chest X-ray images | |
Tong et al. | gEM/GANN: A multivariate computational strategy for auto‐characterizing relationships between cellular and clinical phenotypes and predicting disease progression time using high‐dimensional flow cytometry data | |
Wu et al. | Bridging the gaps in test interpretation of SARS-CoV-2 through Bayesian network modelling | |
Khudhur et al. | IgG-IgM antibodies based infection time detection of COVID-19 using machine learning models | |
Molik et al. | Combining natural language processing and metabarcoding to reveal pathogen-environment associations | |
Mironas et al. | How to best test suspected cases of COVID-19: an analysis of the diagnostic performance of RT-PCR and alternative molecular methods for the detection of SARS-CoV-2 | |
Pedersen et al. | Analysis of mass cytometry data | |
CN104008285A (zh) | 基于mini-pam采集参数的柑橘黄龙病诊断方法 | |
US20240192210A1 (en) | Systems and methods for comprehensive and standardized immune system phenotyping and automated cell classification | |
Scott et al. | Bayesian modelling of tuberculosis clustering from DNA fingerprint data | |
Pedersen et al. | Robust integration of single-cell cytometry datasets | |
Yang et al. | Accurate COVID-19 detection using full blood count data and machine learning |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170222 |