CN108038352B - 结合差异化分析和关联规则挖掘全基因组关键基因的方法 - Google Patents

结合差异化分析和关联规则挖掘全基因组关键基因的方法 Download PDF

Info

Publication number
CN108038352B
CN108038352B CN201711352644.7A CN201711352644A CN108038352B CN 108038352 B CN108038352 B CN 108038352B CN 201711352644 A CN201711352644 A CN 201711352644A CN 108038352 B CN108038352 B CN 108038352B
Authority
CN
China
Prior art keywords
genes
gene
value
differential
mining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711352644.7A
Other languages
English (en)
Other versions
CN108038352A (zh
Inventor
杨利英
张粉利
袁细国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201711352644.7A priority Critical patent/CN108038352B/zh
Publication of CN108038352A publication Critical patent/CN108038352A/zh
Application granted granted Critical
Publication of CN108038352B publication Critical patent/CN108038352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于数据处理技术领域,公开了一种结合差异化分析和关联规则挖掘全基因组关键基因的方法,首先利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;再对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,即关键基因;最后通过生物功能分析验证基因的有效性。本发明综合考虑样本与样本及基因与基因之间的关联,能处理全基因组表达数据,并找出表达突出的关键基因,这对疾病风险预测、复杂疾病的致病机理研究及生物制药技术等都有重要的意义。

Description

结合差异化分析和关联规则挖掘全基因组关键基因的方法
技术领域
本发明属于数据处理技术领域,尤其涉及一种结合差异化分析和关联规则挖掘全基因组关键基因的方法。
背景技术
随着基因测序技术的高速发展,生命科学研究获得了强大的数据产生能力,包括基因组学、转录组学、蛋白质组学、遗传代谢组学等生物数据。结合统计学、生物学及计算机科学知识,这些海量数据以揭示其中所蕴藏的生物学奥秘,成为了生物信息学的热点。全基因组基因表达(Genome-Wide Gene Expresison,GWGE)研究是指在特定人群中选择若干统计数目的正常组和病例组样本,在全基因组层面上,比较各基因在正常组和病例组的表达值差异,若某个基因在正常组与病例组的表达值差异过大,则认为该基因与复杂疾病存在着某种关联。全基因组上表达值变化显著突出的基因的发现和识别对疾病风险预测、复杂疾病的致病机理研究和生物药品研制等都有重要的意义。当前,通过GWGE研究已经发现了很多与复杂疾病相关的基因,但是这些已发现的基因中仅有少数能够极好地预测疾病风险并阐释复杂疾病的致病机理,此外还有一些已经在生物实验中证明的与复杂疾病相关的基因未被GWGE研究识别出来。因此,还存在着许多未被发现的基因。这种结果主要有如下三个方面的原因造成:(1)现存的很多研究是基于比较落后的测序技术所测数据,数据本身包含的生物信息不完备,导致实验结论可信度低。(2)目前的GWGE在建模时大多仅考虑基因内样本与样本的关联信息,未考虑样本内基因与基因之间的关联信息,忽略了基因与基因相互影响对复杂疾病造成的影响。(3)重要基因的识别难度大,基因表达值的变化不仅受复杂的遗传信息调控,环境因素的影响也是不可忽略的,此外测序技术也是影响基因表达值变化的一大因素。因此,在样本量很少的情况下很难通过GWGE研究直接将关键基因识别出来。为克服以上问题,研究人员开始关注基因与基因之间的交互作用,在方法层面上深入研究,提出了许多新方法。这些方法可概括为基于网络模型的方法和基于分组的方法。基于网络模型的方法是利用表达数据的相似性构建网络图,图中的节点代表基因,通过筛选网络中的枢纽节点作为关键基因。但是这类方法的难点在于衡量表达之间的相似性,因为基因的表达趋势可能是不规律的,但是现有的拟合趋势方法都是特定的,对基因表达模型存在不完全匹配问题。基于分组的方法是指通过聚类等方法将基因进行分组,通过分析部分组员的特性来推测该组所有成员的性质。基于分组的方法不足在于以偏概全,即以一部分已确定的关键基因来推测与这些基因在同一组内的所有组员都是关键基因,缺乏坚实的事实依据。上述两类方法中,基于网络模型的方法仅利用了基因的样本趋势来拟合基因与基因的关联性,基于分组的方法侧重于基因之间的差异性来推测基因与基因之间的关联性,二者皆未综合考虑样本之间和基因之间的共同作用。针对当前研究存在的这一问题,本发明提出了一种结合差异化分析和关联规则挖掘的全基因组关键基因挖掘方法。差异化分析是一种针对基因芯片数据、通过对对照模型进行差值计算并统计检验来筛选差异对象的方法,用于分析样本之间的关联。差异化分析单独用于基因筛选时,其结果仅类似于两类识别,即区分显著差异的基因和无显著差异的基因,结果保留的基因数目较多,无法进行后续生物实验验证。鉴于此,本专利在差异化分析的基础上,进行关联规则挖掘。关联规则挖掘的目的是寻找数据集中项与项的关系,能够充分利用基因的样本信息来分析基因与基因的关联,进一步筛选基因。
综上所述,现有技术存在的问题是:基因与基因之间交互作用的方法未综合考虑样本之间和基因之间的共同作用,未充分挖掘数据蕴含的信息,其结果无法为后续生物实验提供可靠依据。
发明内容
针对现有技术存在的问题,本发明提供了一种结合差异化分析和关联规则挖掘全基因组关键基因的方法。
本发明是这样实现的,一种结合差异化分析和关联规则挖掘全基因组关键基因的方法,所述结合差异化分析和关联规则挖掘全基因组关键基因的方法利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,为关键基因;通过生物功能分析验证基因的有效性。
进一步,所述结合差异化分析和关联规则挖掘全基因组关键基因的方法具体包括以下步骤:
步骤一,对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;
步骤二,采取探针折叠对基因芯片采集;
步骤三,利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;
步骤四,对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
步骤五,对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和GO富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
进一步,所述步骤二探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
进一步,所述步骤三中的差异化分析方法为Moderated T statistic,差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2的基因。
进一步,所述步骤四中f值取2。
进一步,所述步骤五中的关联规则挖掘算法为Apriori,其中的K值取2。
本发明基于基因表达数据进行全基因组基因关联分析,识别表达值显著的基因,兼顾样本间的差异分析和基因间的关联关系,提升了关键基因的识别效能,可为后续生物实验提供依据,进一步,可用于疾病风险预测、复杂疾病致病机理的阐释以及生物药品研制。
本发明综合考虑基因的样本趋势和基因间的关联关系,按照从泛到精的思想,层层筛选,既考虑了基因内样本与样本的关系,又兼顾了样本内基因与基因的关系,充分地利用了数据集包含的讯息。本发明预先处理了多探针对应同一基因问题,综合利用芯片探测值生成基因的表达值,这为后续处理的准确性提供了保障。本发明先利用差异化分析方法计算出各基因作用的p值及表达值间的差异倍数,并同时依据p值和差异倍数进行筛选,降低了数据维度,能够有效地处理全基因组数据。
附图说明
图1是本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法流程图。
图2是本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法实现流程图。
图3是本发明实施例提供的在实例数据组上的上调事务集实验结果示意图。
图4是本发明实施例提供的在实例数据组上的下调事务集实验结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明将差异化分析方法和关联规则挖掘算法有机结合起来,优势互补,从而更好地识别数据集中显著突出的基因组,提高与复杂疾病相关的关键基因的识别能力。
下面结合附图对本发明的应用原理作详细的描述。
如图1所示,本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法包括以下步骤:
S101:利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;
S102:对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,即关键基因;
S103:通过生物功能分析验证基因的有效性。
下面结合附图对本发明的应用原理作进一步的描述。
如图2所示,本发明实施例提供的结合差异化分析和关联规则挖掘全基因组关键基因的方法包括以下步骤:
步骤一,对表达数据进行预处理:
对样本数据进行质量检查,剔除不合格样本;对样本数据做归一化标准化处理,使得样本数据间具有可比性。
步骤二:针对多个探针(碱基组)对应同一基因的现象,采取探针折叠措施:
首先将所有的探针注释基因名,然后遍历基因表达矩阵,标记所有彼此基因名相同的行,并依据此结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全部一致。判断各子集,若子集内基因名全一致,则以均值的形式返回表达值作为该基因的表达值,若子集内基因名全不一致,则保留原数据。
步骤三,利用差异化分析方法筛选差异表达基因:
利用Moderated T statistic差异化分析方法计算各基因作用的p值及表达值的差异倍数FC值,并按照p值小于0.05且|logFC|=1作为阈值来筛选显著差异表达的基因。
步骤四,为样本做标注:
对于差异表达基因,假设基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将该基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集。
步骤五,对上调和下调事务集采用关联规则挖掘算法Apriori作关联分析,筛选大于K值的频繁集,K值可取2,最后提取支持度和自信度同时排行靠前的若干规则,将这些强规则对应的基因视为关键基因;最后采用通路分析和GO富集分析对这些基因的生物功能注释,从生物学角度诠释这些关键基因的意义。
下面结合实验对本发明的应用效果作详细的描述。
实验:真实病例数据中关键基因的识别
真实病例选用Affymetrix平台的孕期乳腺癌数据(PregancyBreast Cancer)GSE31192。孕期乳腺癌是指在女子怀孕期间或产后一年内医学检测发现乳腺癌病灶的复杂疾病,是一种比较特殊的乳腺癌类型。该数据集一共包含54675个探针点,33例样本,其中20例PABC样本(即怀孕样本)和13例NonPABC样本(即从未怀孕样本),这其中又包括病例样本20例,正常样本13例。在这个数据集上具体实施步骤如下:
1、对初始数据进行预处理:首先对所有样本进行质量分析,生成质量分析报告,检查后发现所有样本质量均可信,然后采用rma背景处理方法及非线性全局缩放方法对数据进行除噪和标准化处理。
2、探针折叠:首先为所有探针点匹配基因名,然后分别对基因名相同的子集求其所有行表达值均值作为该基因最终的表达值,删除子集中的其他行数据,最终得到不重复基因行共23036行。
3、采用Moderate T Stastic差异分析方法对PABC样本数据做差异基因筛选,设置筛选阈值为p<0.05且|logFC|=1共得到718个差异表达基因。
4、对筛选出的差异基因的样本做标记,具体步骤如下:
首先生成两个大小均为718行20列的全零矩阵,并分别命名为上调矩阵和下调矩阵,矩阵的行名均为差异基因名,列名为样本名。从第一行开始,逐行遍历差异基因矩阵,计算每个基因的表达均值u,然后对样本值与均值的2倍做差值,如果结果大于零,则将该基因的该样本标记为up;计算每个表达值的2倍与均值的差值,如果结果小于零,则将该基因的该样本标记为down。
5、分别对上述两个矩阵逐行提取每个样本标记为up或down的基因并存至新的数据矩阵,矩阵的每一行储存该行样本里标记为up或down的基因。将这两个数据矩阵转化为稀疏矩阵,并分别采用Apriori方法做关联规则挖掘,设置频繁集长度至少为2,分别提取支持度和自信度均排名靠前的前230条(允许浮动)规则,并汇总这些强规则对应的基因,最后得到22个基因,即为筛选出的关键基因,最后对这些基因做GO富集分析和通路分析,确定其生物功能重要性。
表1是本发明方法在该数据集中识别得到的22个基因及其生物功能。从表1的结果可以看出,本发明的方法准确地识别出已经通过生物实验验证的与胚胎发育有关的重要基因8个:MEOX1(中胚层的转录因子),ITM2A(参与骨和骨细胞分化),ABLIM1(视网膜发育),KCNA1(大脑和大脑神经发育),COL2A1(胚胎的骨骼发育),PLCZ1(胚胎早期发育),CHST9(胚胎发育),SMYD1(心脏发育);可能与癌症相关的基因5个:NUCB2(释放肿瘤坏死因子),EZR(涉及多种人类癌症),HPSE2(可能参与肿瘤进展的生物过程),LRRC3B(其编码的蛋白质是一种肿瘤抑制因子),TGFA(与许多类型的癌症相关);与一些人类已知疾病有关的基因5个:SGCE(肌张力障碍综合症有关,HPSE2(面部肌肤综合症等),COL2A1(Knies异常症等),PLCZ1(精索静脉曲张等),TGFA(唇腭裂病例);此外还有未知其功能的基因,如ABRACL,ANKRD29,EME等,可为功能验证实验提供理论依据。以根据真实数据的运行结果,可以验证本发明方法在识别关键基因方面的有效性。
表1
Figure BDA0001510548890000081
Figure BDA0001510548890000091
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述结合差异化分析和关联规则挖掘全基因组关键基因的方法利用基因名与探针名的对应关系,对多探针进行折叠,接着应用差异化分析方法对处理后的基因进行初步筛选,筛选出显著差异表达的基因;对差异基因的所有样本依据阈值将其划分为上调和下调两个事务集,并对两个事务集的基因分别作关联规则挖掘,找出排名靠前的规则对应的基因,为关键基因;通过生物功能分析验证基因的有效性;
所述结合差异化分析和关联规则挖掘全基因组关键基因的方法具体包括以下步骤:
步骤一,对样本数据质量检查,剔除不合格样本;对样本数据做归一化、标准化处理,使得样本数据具有可比性;
步骤二,采取探针折叠对基因芯片采集;
步骤三,利用差异化分析方法筛选差异表达基因,并将p值和差异倍数两个检验值,同时设为筛选阈值,筛选符合条件的显著差异表达基因;
步骤四,对于差异表达基因,基因的表达均值为u,将基因的每个样本值与u的f倍作差值,若结果大于零则将该基因的该样本值标记为up;将每个基因的每个样本值的f倍与u做差值,若小于零则将基因的该样本值标记为down;分别提取每个样本里标记为up的基因构成上调事务集,标记为down的基因构成下调事务集;
步骤五,对上调和下调事务集采用关联规则挖掘算法作关联分析,筛选大于K值的频繁集,最后提取支持度和自信度同时排行靠前的两百三十条规则,将强规则对应的基因视为关键基因,最后采用通路分析和GO富集分析对这些基因的生物功能注释,从生物功能角度诠释这些关键基因的重要性。
2.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤二探针折叠的具体方法为:依据基因库信息,对所有的探针注释基因名;遍历基因表达矩阵,标记所有彼此基因名相同的探针行,并依据结果将数据拆分成不同的子集,每个子集内的基因名要么全一致,要么全不一致,查看各子集,若基因名一致则以和的均值的形式返回表达值作为该基因的最终表达值;若子集内基因名全不一致,则保留原数据;汇总所有子集。
3.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤三中的差异化分析方法为ModeratedTstatistic,差异筛选阈值为p值小于0.05且|logFC|=1,保留具有统计意义且表达值变化倍数大于2的基因。
4.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤四中f值取2。
5.如权利要求1所述的结合差异化分析和关联规则挖掘全基因组关键基因的方法,其特征在于,所述步骤五中的关联规则挖掘算法为Apriori,其中的K值取2。
CN201711352644.7A 2017-12-15 2017-12-15 结合差异化分析和关联规则挖掘全基因组关键基因的方法 Active CN108038352B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711352644.7A CN108038352B (zh) 2017-12-15 2017-12-15 结合差异化分析和关联规则挖掘全基因组关键基因的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711352644.7A CN108038352B (zh) 2017-12-15 2017-12-15 结合差异化分析和关联规则挖掘全基因组关键基因的方法

Publications (2)

Publication Number Publication Date
CN108038352A CN108038352A (zh) 2018-05-15
CN108038352B true CN108038352B (zh) 2021-09-14

Family

ID=62103343

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711352644.7A Active CN108038352B (zh) 2017-12-15 2017-12-15 结合差异化分析和关联规则挖掘全基因组关键基因的方法

Country Status (1)

Country Link
CN (1) CN108038352B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109300502A (zh) * 2018-10-10 2019-02-01 汕头大学医学院 一种从多组学数据中分析关联变化模式的系统和方法
CN109671467B (zh) * 2018-12-12 2023-03-24 中国人民解放军军事科学院军事医学研究院 一种病原体感染损伤机理解析方法及装置
CN109637582B (zh) * 2018-12-18 2020-09-22 深圳先进技术研究院 骨密度性状遗传力分析方法及装置
CN111341385A (zh) * 2018-12-18 2020-06-26 深圳先进技术研究院 差异表达基因筛选方法及装置
CN111816247B (zh) * 2020-07-19 2022-02-11 西北工业大学 一种基于双向校正的差异表达基因识别方法
CN112735594B (zh) * 2020-12-29 2024-04-16 北京优迅医疗器械有限公司 一种筛选疾病表型相关突变位点的方法及其应用
CN113393897B (zh) * 2021-06-22 2022-04-12 华中农业大学 基于高光谱成像的作物籽粒代谢性状检测和遗传解析方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104133053A (zh) * 2014-05-28 2014-11-05 上海纳米技术及应用国家工程研究中心有限公司 利用dna纳米折纸结构作为信号放大探针的检测方法
CN104487097A (zh) * 2011-12-30 2015-04-01 华盛顿大学商业中心 具有窄带发射的发色聚合物点
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011248457B2 (en) * 2010-04-29 2017-02-16 Pangu Biopharma Limited Innovative discovery of therapeutic, diagnostic, and antibody compositions related to protein fragments of valyl tRNA synthetases
CN103451218B (zh) * 2012-05-28 2015-07-01 卢小玲 一种新型细胞因子融合蛋白ip10单链抗体的制备方法
WO2014031850A1 (en) * 2012-08-22 2014-02-27 The Regents Of The University Of California A novel polymavirus associated with diarrhea in children
US20150275300A1 (en) * 2012-09-26 2015-10-01 Agency For Science, Technology And Research Biomarkers for down syndrome prenatal diagnosis
JP2016538318A (ja) * 2013-08-28 2016-12-08 ステムセントリックス, インコーポレイテッド 新規sez6モジュレーターおよび使用方法
US20150203924A1 (en) * 2013-12-02 2015-07-23 Purdue Research Foundation Diagnostic tools for herbicide resistance in plants
CN103678954B (zh) * 2013-12-11 2017-05-24 深圳先进技术研究院 一种由生物芯片数据构建多类别特异表达分子集及类别网的方法及其应用和评价方法
BR112016026575A2 (pt) * 2014-05-13 2017-12-12 Rosetta Genomics Ltd assinatura de expressão de mirna na classificação de tumores da tireoide
CN104531880B (zh) * 2015-01-08 2017-06-06 福建医科大学 用于乳腺癌中血管内皮生长因子检测的荧光生物传感器
CN105779466A (zh) * 2016-04-21 2016-07-20 中山大学深圳研究院 一种中国南海芋螺毒素编码序列,制备方法以及应用

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104487097A (zh) * 2011-12-30 2015-04-01 华盛顿大学商业中心 具有窄带发射的发色聚合物点
CN104133053A (zh) * 2014-05-28 2014-11-05 上海纳米技术及应用国家工程研究中心有限公司 利用dna纳米折纸结构作为信号放大探针的检测方法
CN106295246A (zh) * 2016-08-07 2017-01-04 吉林大学 找到与肿瘤相关的lncRNA并预测其功能

Also Published As

Publication number Publication date
CN108038352A (zh) 2018-05-15

Similar Documents

Publication Publication Date Title
CN108038352B (zh) 结合差异化分析和关联规则挖掘全基因组关键基因的方法
Kong et al. Machine-based morphologic analysis of glioblastoma using whole-slide pathology images uncovers clinically relevant molecular correlates
Li et al. Machine learning for lung cancer diagnosis, treatment, and prognosis
Wirth et al. Mining SOM expression portraits: Feature selection and integrating concepts of molecular function
Yau et al. Hierarchical Bayesian nonparametric mixture models for clustering with variable relevance determination
US9940383B2 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
Xu et al. Computerized spermatogenesis staging (CSS) of mouse testis sections via quantitative histomorphological analysis
Matos et al. Research techniques made simple: mass cytometry analysis tools for decrypting the complexity of biological systems
CA3154621A1 (en) Single cell rna-seq data processing
KR101067352B1 (ko) 생물학적 네트워크 분석을 이용한 마이크로어레이 실험 자료의 작용기작, 실험/처리 조건 특이적 네트워크 생성 및 실험/처리 조건 관계성 해석을 위한 알고리즘을 포함한 시스템 및 방법과 상기 방법을 수행하기 위한 프로그램을 갖는 기록매체
WO2022011855A1 (zh) 一种假阳性结构变异过滤方法、存储介质及计算设备
Zhao et al. A machine learning method for improving liver cancer staging
TW202121223A (zh) 訓練類神經網路以預測個體基因表現特徵的方法及系統
CN115881232A (zh) 一种基于图神经网络和特征融合的scRNA-seq细胞类型注释方法
US20180181705A1 (en) Method, an arrangement and a computer program product for analysing a biological or medical sample
Tai et al. Bayice: a Bayesian hierarchical model for semireference-based deconvolution of bulk transcriptomic data
Lin et al. Atlas-scale single-cell multi-sample multi-condition data integration using scMerge2
AU2018391843B2 (en) Sequencing data-based ITD mutation ratio detecting apparatus and method
Dong et al. SIMVI reveals intrinsic and spatial-induced states in spatial omics data
Zhang et al. Radio-iBAG: Radiomics-based integrative Bayesian analysis of multiplatform genomic data
Wang et al. Missing-value imputation and in-silico region detection for spatially resolved transcriptomics
Li et al. Detecting disease-associated genomic outcomes using constrained mixture of Bayesian hierarchical models for paired data
Yang et al. PCA based sequential feature space learning for gene selection
US20230335223A1 (en) System and method for text-based biological information processing with analysis refinement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant