CN104063459A - 一种基于流感病毒刺激的细胞差异基因数据分类系统 - Google Patents

一种基于流感病毒刺激的细胞差异基因数据分类系统 Download PDF

Info

Publication number
CN104063459A
CN104063459A CN201410294369.8A CN201410294369A CN104063459A CN 104063459 A CN104063459 A CN 104063459A CN 201410294369 A CN201410294369 A CN 201410294369A CN 104063459 A CN104063459 A CN 104063459A
Authority
CN
China
Prior art keywords
data
gene
module
sample
submodule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410294369.8A
Other languages
English (en)
Other versions
CN104063459B (zh
Inventor
刘文军
李晶
孙清岚
马俊才
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Microbiology of CAS
Original Assignee
Institute of Microbiology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Microbiology of CAS filed Critical Institute of Microbiology of CAS
Priority to CN201410294369.8A priority Critical patent/CN104063459B/zh
Publication of CN104063459A publication Critical patent/CN104063459A/zh
Application granted granted Critical
Publication of CN104063459B publication Critical patent/CN104063459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种基于流感病毒刺激的细胞差异基因数据分类系统,它包括数据处理模块,数据处理模块采集训练样本集数据,依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;数据分类模块读取数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块内建立各数据分类模型;测试数据模块用于接收模型建立模块建立的各数据分类模型以及经数据处理模块处理后的待测样本集数据,测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。本发明可以广泛在数据挖掘系统中应用。

Description

一种基于流感病毒刺激的细胞差异基因数据分类系统
技术领域
本发明涉及一种数据挖掘系统,特别是一种基于流感病毒刺激后对细胞差异基因进行数据分类的系统。
背景技术
分类系统是数据挖掘的主要系统之一,用于提取描述重要数据类别归属的模型或预测未来的数据趋势。一般来说,分类是把数据项映射到其中一个事先定义的类中的学习函数的过程,用基于归纳学习算法得出分类。
一般生物信息学是在大分子方面的概念型的生物学,并且使用了信息学的技术,这包括了从应用数学、计算机科学以及统计学等学科衍生而来各种方法,并以此在大尺度上来理解和组织与生物大分子相关的信息。从生物信息学研究的具体内容上看,生物信息学应包括三个主要部分:新算法和统计学方法研究;各类数据的分析和解释;研制有效利用和管理数据新工具。数据挖掘在生物信息学领域的应用越来越广泛,在生物信息学领域中,科研人员可以通过对生物学数据的搜索(收集和筛选)、处理(编辑、整理、管理和显示)及利用(计算、模拟)来对研究领域进行拓展和深化。
在以流感病毒与宿主相互作用的研究背景下,流感的生物信息学研究,已经形成技术资源网络信息化。以生命科学信息、生物技术信息、病毒研究共享信息、生物资源信息为基础,以流感病毒生物信息的标准化、网络化关键技术为手段,将流感差异基因领域相关的生物信息资源大规模高质量收集、整理和加工,同时利用我国现有的转录组学数据,逐步建立规范统一的具有权威性的完善的技术平台和支撑体系,这样为我国生物技术行业突破国外技术壁垒,确保食品、农业、国防安全的可持续发展提供有力保障。
目前没有关于不同毒株流感病毒不同细胞系进行数据挖掘和差异基因比较的数据库,也没有涉及此类的建模方法。
发明内容
针对上述问题,本发明的目的是提供一种针对不同毒株流感病毒刺激不同细胞系后的反应进行研究,建立能够分层次多维度进行细胞差异基因数据分类系统。
为实现上述目的,本发明采取以下技术方案:一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一分类子模块和第二分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;所述第二数据分类子模块的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;所述第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。
所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判读为非差异基因;其中,打分公式如下:
Score ( Gi ) = f m × ( U 1 × d 1 ) 2 + ( U 2 × d 2 ) 2 + ( U 3 × d 3 ) 2 + . . . + ( U n × d n ) 2 n ,
式中,Gi为某个细胞系内某个毒株刺激后的第i个基因,i=1...j,j为某细胞毒株的待分类基因总数;fm为先验参数,m=1,2,3,对应三种分类情况;U1、U2、U3…Un为不同因素;d1、d2、d3……dn为不同权重。
所述测试数据模块对所述模型建立模块建立的各数据分类模型的评价如下:采用ROC方法对以上建立的数据分类模型进行准确度评价,ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型:阳性/阴性;有病/没病;垃圾邮件/非垃圾邮件;敌军/非敌军;其中,ROC方法关注两个指标:1)真阳性率TPR=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率;TP为真阳性数,FN为假阴性数;P=TP+FN;2)假阳性率FPR=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率;TN为真阴性数,FP为假阳性数,N=FP+TN。
本发明由于采取以上技术方案,其具有以下优点:1、本发明建立的模型通过比较不同的流感病毒刺激、不同的细胞系做出的反应来对细胞的差异基因进行多个因素的分类,建立细胞差异基因数据库,数据库能够依据建立时的方法不断更新。2、数据库建立后,能够对细胞待检测样本进行分类,构成一套细胞差异基因数据分类系统,便于后续数据调用和筛选方便。3、本发明依据不同细胞株、不同流感病毒刺激的不同特点,建立多因素预测分类模型建立细胞差异基因数据分类系统。考虑多因素综合打分,通过阈值判定,得到差异基因分类结果。本分类算法通过现有的ROC方法来对该模型进行评价和修正,确保该数据库模型可以不断提高分析细胞差异基因的精度,保持较好的分类汇总功能。
附图说明
图1是本发明多因素样本判别数据分类系统;
图2是本发明的亚型流感病毒H1N1的3种不同毒株感染293T细胞的差异基因(IFIT2、IFIT3);
图3是本发明采用的ROC(Receiver Operating Characteristic)评价方法示意图。
具体实施方式
下面结合附图和实施例对本发明进行详细的描述。
如图1所示,本发明提供一种基于流感病毒刺激的细胞差异基因数据分类系统,其包括数据处理模块1、数据分类模块2、模型建立模块3和测试数据模块4。
数据处理模块1采集训练样本集数据和待检测数据,训练样本集数据依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据。多因素包括不同刺激的流感病毒毒株、不同细胞系基因表达数值、表达基因是否有完整参考测序序列、基因注释信息完整性等因素。其中部分因素为数值型数据;部分因素为给予人工先验值,例如是否在不同细胞株中实验,“是”赋值为1,“不是”赋值为0;是否为不同病毒毒株刺激,“是”赋值为1,“不是”赋值为0;表达基因是否有完整参考测序序列因素,如果“完整的参考序列”赋值为10,“没有参考序列”赋值为1,10和1即为人工先验值。
在进行数据分割的时候,如果当某样本的基因数据存在缺失值,数据处理模块1会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,数据处理模块1报警,样本将被剔除,申请新样本。
数据分类模块2读取数据处理模块1生成的二次数据,进行数据分类计算,并将计算结果传输至模型建立模块3内建立各数据分类模型。
测试数据模块4用于接收数据处理模块1预处理的样本数据,调用模型建立模块3建立的各数据分类模型测试数据模块4对接收到的各数据分类模型进行评价;待测样本集数据经数据处理模块1处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
上述实施例中,数据分类模块2包括第一数据分类子模块21、第二数据分类子模块22和第三数据分类子模块23三个子模块:
1)第一数据分类子模块21的目标是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块21分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第一数据分类子模块21分类的表达基因样本统称为相同细胞系不同毒株。差异表达基因即为不同的流感病毒毒株刺激后不同的细胞系对其反应不同,在不同的细胞系中所产生的相应的基因表达不会完全一致,那么不同的细胞系中表达有差异的基因都称为差异表达基因。
由于属于同一细胞系内对不同流感病毒毒株刺激后的细胞之间的基因差异小于属于不同细胞系间对不同流感病毒毒株刺激后的细胞之间的基因差异,所以不会增大需要考虑的影响因素的数量,然后逐个分析每个影响因素,该影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息等。数值型因素在不同样本间将被归一化处理,归一化的主要目的是减小由于基因测序系统原因而导致的系统误差。
如图2所示,下面以293T细胞为例(但不限于此)对数据值列表的建立进行说明,H1N1亚型流感病毒的3种不同毒株(CA04,PR8和WSN)感染293T细胞,提取细胞总RNA进行深度测序(RNA-seq),其中293T细胞中的两个基因IFIT2、IFIT3未感染(uninfected)时显示的mRNA丰度值如图2所示,在被H1N1亚型流感病毒刺激(infected)后mRNA丰度值都上调至3倍以上。其中所测数值都是mRNA丰度值的倍数。根据不同流感毒株刺激、基因表达mRNA的丰度值表达数值、表达基因是否有完整参考测序信息、基因注释信息完整性等因素。将每个基因对应的所有因素数据转化成一个矩阵数据,传输到模型建立模块3。
2)第二数据分类子模块22目标是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块22分类的基因样本的每个影响因素(包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息)被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第二数据分类子模块22分类的基因样本统称为不同细胞系相同毒株。
3)第三数据分类子模块23目标是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与第一分类子模块21和第二分类子模块22相同,包括不同细胞系、不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息;数值型因素在不同样本间将被归一化处理,其他影响因素(包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息)被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至模型建立模块3。
该第三数据分类子模块23分类的基因样本统称为不同细胞系不同毒株。
其中,因素指标有:不同毒株之间差异表达基因的差异倍数作为因素U1;表达基因是否有完整的测序序列,有完整的序列信息记录因素U2=1,没有完成测序序列,记录因素U2=0.5;表达基因是否有完整的注释信息,有完整的注释信息记录因素U3=1,没有完整的注释信息,记录因素U3=0.5。将这些因素值传输至模型建立模块3中。U1、U2、U3这三个因素是目前分类不同细胞系不同毒株之间的差异表达基因较重要的因素,模型建立模块3建立的模型可以扩展增加其他因素指标,分类细胞系毒株间的差异表达基因。
上述各实施例中,模型建立模块3包括第一模型建立子模块31、第二模型建立子模块32和第三模型建立子模块33。三个模型建立子模块分别依据上述三个数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至测试数据模块4中。在建模过程中第一数据分类子模块21的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;第二数据分类子模块22的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。数据分类模型建立是为将不同因素给予相应的预知权重,某一指标的权重是指该指标在整体评价中的相对重要程度。权重表示在评价过程中,被评价对象的不同侧面的重要程度的定量分配,对各评价因子在总体评价中的作用进行区别对待。权重的设定主要是通过主观经验法和专家调研法给出,主观经验法是考核者凭自己以往的经验直接给指标设定权重,一般适用于考核者对考核客体非常熟悉和了解的情况下;专家调查法是聘请有关专家,对考核指标体系进行深入研究,由每位专家先独立地对考核指标设置权重,然后对每个考核指标的权重取平均值,作为最终权重。这样对上面提到的因素指标U1、U2、U3分别给予权重d1、d2、d3,其中d1>d2>d3
细胞差异表达基因的分类:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分,打分公式如式(1);再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因。用户可以根据自己的数据特点和应用场景设定阈值。一般设定阈值为得分大于2的基因判断为差异基因。
打分公式如下:
Score ( Gi ) = f m × ( U 1 × d 1 ) 2 + ( U 2 × d 2 ) 2 + ( U 3 × d 3 ) 2 + . . . + ( U n × d n ) 2 n ,
其中,Gi为某个细胞系内某个毒株刺激后的第i个基因(i=1...j,j为某细胞毒株的待分类基因总数);fm为先验参数(m=1,2,3,对应三种分类情况);U1、U2、U3……Un为不同因素;d1、d2、d3……dn为不同权重。对于每个基因得到的score值进行判读,大于设定阈值为差异基因,小于则判读为非差异基因。
上述各实施例中,测试数据模块4对模型建立模块3建立的各数据分类模型的评价如下:如图3所示,为了对模型建立模块3建立的数据分类模型进行评价和修正,采用ROC(Receiver Operating Characteristic)方法对以上建立的数据分类模型进行准确度评价。ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型,例如:(阳性/阴性)(有病/没病)(垃圾邮件/非垃圾邮件)(敌军/非敌军)。
ROC方法关注两个指标:
1)TPR(True Positive Rate,真阳性率)=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率。TP为真阳性数(对应图3中的TruePositive(TP)),FN为假阴性数(对应图3中的False Positive(FN));P=TP+FN。
2)FPR(False Positive Rate,假阳性率)=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率。TN为真阴性数(对应图3中的TruePositive(TN)),FP为假阳性数(对应图3中的False Positive(FP)。N=FP+TN。
如图3所示,P代表真实的阳性样本数(既为P=TP+FN,真阳性数+假阴性数);N代表真实的阴性样本数(即为N=FP+TN,假阳性数+真阴性数);P’代表模型判断出来阳性样本数(既为P’=TP+FP,真阳性数+假阳性数);N’代表模型判断出来的阴性样本(即为N’=TN+FN,真阴性数+假阴性数)。
综上所述,本发明在使用时,将真实试验验证的一组分类基因差异数据作为训练集,将其输入到本发明的数据分类系统中,得到系统预测的差异表达基因的分类。按照ROC评价体系将训练集中的每个基因的真实分类(actual value)与预测分类做比较,通过TPR值调整判读Score(Gi)时的阈值,也可根据实际情况需要增大或减小阈值。
上述各实施例仅用于说明本发明,各部件结构都是可以有所变化的,在本发明技术方案的基础上,凡根据本发明原理对个别部件的连接和结构进行的改进和等同变换,均不应排除在本发明的保护范围之外。

Claims (8)

1.一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:它包括数据处理模块、数据分类模块、模型建立模块和测试数据模块;
所述数据处理模块采集训练样本集数据,然后依据训练样本集中每个样本的基因数据进行多因素数据分割生成二次数据;在进行数据分割的时候,如果当某样本的基因数据存在缺失值,所述数据处理模块会将此样本单独标记;如果存在缺失值样本比率大于1/2,或缺失值比率超过预先设定的阈值,所述数据处理模块报警,样本将被剔除,申请新样本;
所述数据分类模块读取所述数据处理模块生成的二次数据,进行数据分类计算,并将计算结果传输至所述模型建立模块内建立各数据分类模型;
所述测试数据模块用于接收所述模型建立模块建立的各数据分类模型以及经所述数据处理模块处理后的待测样本集数据,所述测试数据模块对接收到的各数据分类模型进行评价;待测样本集数据经所述数据处理模块处理后生成的二次数据与评价后的各数据分类模型做比较,得到系统预测的差异表达基因的分类。
2.如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述数据分类模块包括第一数据分类子模块、第二数据分类子模块和第三数据分类子模块三个子模块:
所述第一数据分类子模块是对同一细胞系内对不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后将该第一数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;
所述第二数据分类子模块是对不同细胞系进行相同流感毒株刺激后的细胞差异表达基因样本进行分类,数值型因素在不同样本间将被归一化处理,然后综合该第二数据分类子模块分类的基因样本的每个影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块;
所述第三数据分类子模块是对属于不同细胞系在不同流感病毒毒株刺激后的细胞差异表达基因样本进行分类,所要考虑因素与所述第一分类子模块和第二分类子模块相同,数值型因素在不同样本间将被归一化处理,其他影响因素被给定一个阈值,通过过滤,在每个影响因素中分为两类,得到该基因样本的各个基因在各个影响因素对应的数据值矩阵列表,传输至所述模型建立模块。
3.如权利要求书2所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第一数据分类子模块中考虑的影响因素包括不同流感毒株刺激、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
4.如权利要求书2或3所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第二数据分类子模块中考虑的影响因素包括不同细胞系、基因表达数值、表达基因是否有完整参考测序序列、表达基因是否有完整的注释信息。
5.如权利要求书2所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述数据分类模型建立是为将不同因素给予相应的预知权重;所述模型建立模块包括第一模型建立子模块、第二模型建立子模块和第三模型建立子模块;三个模型建立子模块分别依据所述第一、第二、第三数据分类子模块所分类的细胞差异表达基因样本,分别进行数据分类模型建立,建立的数据分类模型都传输至所述测试数据模块中。
6.如权利要求书5所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述第一、第二和第三模型建立子模块在建模过程中:所述第一数据分类子模块的细胞基因表达差异最小,将人工先验值先验参数fm设定为1;所述第二数据分类子模块的细胞基因表达差异较小,将人工先验值先验参数fm设定为0.8;所述第三数据分类子模块23的细胞基因表达差异最大,将人工先验值先验参数fm设定为0.5。
7.如权利要求书5所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述细胞差异表达基因的分类为:各因素指标和权重加权集合再乘以各分类的先验参数fm,得到每个基因的差异,然后进行打分;再经过预先设定的阈值对打分得到的score值进行判定,判读出每个基因是否为差异基因,大于设定阈值为差异基因,小于则判读为非差异基因;其中,打分公式如下:
Score ( Gi ) = f m × ( U 1 × d 1 ) 2 + ( U 2 × d 2 ) 2 + ( U 3 × d 3 ) 2 + . . . + ( U n × d n ) 2 n ,
式中,Gi为某个细胞系内某个毒株刺激后的第i个基因,i=1...j,j为某细胞毒株的待分类基因总数;fm为先验参数,m=1,2,3,对应三种分类情况;U1、U2、U3…Un为不同因素;d1、d2、d3……dn为不同权重。
8.如权利要求书1所述的一种基于流感病毒刺激的细胞差异基因数据分类系统,其特征在于:所述测试数据模块对所述模型建立模块建立的各数据分类模型的评价如下:采用ROC方法对以上建立的数据分类模型进行准确度评价,ROC方法中分析的是二元分类模型,也就是输出结果只有两种类别的模型:阳性/阴性;有病/没病;垃圾邮件/非垃圾邮件;敌军/非敌军;其中,ROC方法关注两个指标:
1)真阳性率TPR=TP/[TP+FN],TPR为在所有实际为阳性的样本中,被正确地判断为阳性的比率;TP为真阳性数,FN为假阴性数;P=TP+FN;
2)假阳性率FPR=FP/[FP+TN],FPR为在所有实际为阴性的样本中,被错误地判断为阳性的比率;TN为真阴性数,FP为假阳性数,N=FP+TN。
CN201410294369.8A 2014-06-26 2014-06-26 一种基于流感病毒刺激的细胞差异基因数据分类系统 Active CN104063459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410294369.8A CN104063459B (zh) 2014-06-26 2014-06-26 一种基于流感病毒刺激的细胞差异基因数据分类系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410294369.8A CN104063459B (zh) 2014-06-26 2014-06-26 一种基于流感病毒刺激的细胞差异基因数据分类系统

Publications (2)

Publication Number Publication Date
CN104063459A true CN104063459A (zh) 2014-09-24
CN104063459B CN104063459B (zh) 2017-02-22

Family

ID=51551173

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410294369.8A Active CN104063459B (zh) 2014-06-26 2014-06-26 一种基于流感病毒刺激的细胞差异基因数据分类系统

Country Status (1)

Country Link
CN (1) CN104063459B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN110782949A (zh) * 2019-10-22 2020-02-11 王文婷 一种基于最大最小化序列搜索的多层基因加权分组方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145171A (zh) * 2007-09-15 2008-03-19 中国科学院合肥物质科学研究院 一种基于独立分量集成学习的基因微阵列数据预测方法
CN101923604A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101145171A (zh) * 2007-09-15 2008-03-19 中国科学院合肥物质科学研究院 一种基于独立分量集成学习的基因微阵列数据预测方法
CN101923604A (zh) * 2010-07-23 2010-12-22 福建师范大学 基于邻域粗糙集的加权knn肿瘤基因表达谱分类方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FAWCETT.T: "《An introduction to ROC analysis》", 《PATTERN RECOGNITION LETTERS》 *
马燕 等: "《基于神经网络的基因分类器》", 《计算机工程与设计》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046110A (zh) * 2015-06-28 2015-11-11 中国科学院合肥物质科学研究院 一种克服信号失真的肿瘤细胞异常通路识别方法
CN108763859A (zh) * 2018-05-17 2018-11-06 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN108763859B (zh) * 2018-05-17 2020-11-24 北京博奥医学检验所有限公司 一种基于未知cnv样本建立提供cnv检测所需的模拟数据集的方法
CN110782949A (zh) * 2019-10-22 2020-02-11 王文婷 一种基于最大最小化序列搜索的多层基因加权分组方法
CN111081317A (zh) * 2019-12-10 2020-04-28 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN111081317B (zh) * 2019-12-10 2023-06-02 山东大学 一种基于基因谱的乳腺癌淋巴结转移预测方法及预测系统
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统

Also Published As

Publication number Publication date
CN104063459B (zh) 2017-02-22

Similar Documents

Publication Publication Date Title
Turner et al. Blood transcriptional biomarkers for active pulmonary tuberculosis in a high-burden setting: a prospective, observational, diagnostic accuracy study
Kumari et al. Analysis and predictions of spread, recovery, and death caused by COVID-19 in India
Zhu et al. HGTector: an automated method facilitating genome-wide discovery of putative horizontal gene transfers
Brill et al. Testing for differential abundance in compositional counts data, with application to microbiome studies
CN104063459B (zh) 一种基于流感病毒刺激的细胞差异基因数据分类系统
Rahman et al. Development and validation of an early scoring system for prediction of disease severity in COVID-19 using complete blood count parameters
Xia et al. Uncertainty-aware covid-19 detection from imbalanced sound data
CN106033502A (zh) 鉴定病毒的方法和装置
Shaffer et al. SCNIC: Sparse correlation network investigation for compositional data
EP3435264B1 (en) Method and system for identification and classification of operational taxonomic units in a metagenomic sample
CN114424287A (zh) 单细胞rna-seq数据处理
CN103473416A (zh) 蛋白质相互作用的模型建立方法和装置
Di Pasquale et al. SARS-CoV-2 surveillance in Italy through phylogenomic inferences based on Hamming distances derived from pan-SNPs,-MNPs and-InDels
Drost et al. Integrating T-cell receptor and transcriptome for large-scale single-cell immune profiling analysis
Huang et al. Cause of gene tree discord? Distinguishing incomplete lineage sorting and lateral gene transfer in phylogenetics
Herath et al. Assessing species diversity using Metavirome data: methods and challenges
Fitriasari et al. Improvement of Xception-ResNet50V2 concatenation for COVID-19 detection on chest X-ray images
Taherinezhad et al. COVID-19 crisis management: Global appraisal using two-stage DEA and ensemble learning algorithms
Rosensteel et al. Characterizing an epidemiological geography of the United States: influenza as a case study
Tong et al. gEM/GANN: A multivariate computational strategy for auto‐characterizing relationships between cellular and clinical phenotypes and predicting disease progression time using high‐dimensional flow cytometry data
Wyllie et al. M. tuberculosis microvariation is common and is associated with transmission: analysis of three years prospective universal sequencing in England
CN115861292A (zh) 基于ct图像二维投影及深度学习的肺结核传染性判别方法
CN106657005A (zh) 一种云服务的异常检测多层模型
Vignesh et al. A NEW ITJ METHOD WITH COMBINED SAMPLE SELECTION TECHNIQUE TO PREDICT THE DIABETES MELLITUS.
CN104008285A (zh) 基于mini-pam采集参数的柑橘黄龙病诊断方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant