CN112102878A - 一种LncRNA学习系统 - Google Patents

一种LncRNA学习系统 Download PDF

Info

Publication number
CN112102878A
CN112102878A CN202010973090.8A CN202010973090A CN112102878A CN 112102878 A CN112102878 A CN 112102878A CN 202010973090 A CN202010973090 A CN 202010973090A CN 112102878 A CN112102878 A CN 112102878A
Authority
CN
China
Prior art keywords
lncrna
snp
data
module
scoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010973090.8A
Other languages
English (en)
Other versions
CN112102878B (zh
Inventor
张云鹏
宁尚伟
李霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN202010973090.8A priority Critical patent/CN112102878B/zh
Publication of CN112102878A publication Critical patent/CN112102878A/zh
Application granted granted Critical
Publication of CN112102878B publication Critical patent/CN112102878B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种LncRNA学习系统,包括:数据获取模块,用于获取SNP数据集和LncRNA数据集;数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。本发明能准确识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。

Description

一种LncRNA学习系统
技术领域
本发明涉及基因技术领域,特别是涉及一种LncRNA学习系统。
背景技术
恶性肿瘤是细胞在机体内恶性增殖并侵犯或转移周围组织导致的一种全身性复杂疾病,目前已经成为严重危害人类生命健康、制约社会经济发展的一类重大疾病。中国的恶性肿瘤发病率和死亡率一直居高不下,从2010年开始已经成为主要的致死原因,是当前中国的一个主要公共卫生问题。因此,识别肿瘤的诊断标志物已成为肿瘤诊断、治疗的一个亟待解决的重要科学问题,也一直是生物医学界研究的热点和重大挑战。
随着新一代测序等新兴技术的快速发展,研究人员发现长链非编码RNA(LongNon-coding RNA,简称LncRNA)在恶性肿瘤的发生发展中发挥着重要的生物学作用。LncRNA是一类不编码蛋白的长度超过200个碱基的非编码RNA,在转录后水平调控肿瘤相关的生物学过程和通路。近年来随着对LncRNA研究的不断深入,研究人员发现LncRNA上的多态位点与人类恶性肿瘤的发生发展密切相关。正常人群和肿瘤患者的基因组上都普遍存在着各种形式的遗传多态,最常见的一类是单核苷酸多态性(Single-Nucleotide Polymorphism,简称SNP),当SNP发生在肿瘤相关基因的编码区时,可以导致氨基酸序列的改变进而影响肿瘤相关基因的功能。但当SNP发生在LncRNA区域时,它们可能会通过新的机制导致肿瘤的发生发展。
过去的多个研究已经证实LncRNA上的SNP与人类恶性肿瘤的发生发展密切相关。例如,研究人员在一个叫做ANRIL的LncRNA上发现了多个与人类复杂疾病相关的SNP,这些疾病包括癌症、动脉粥样硬化、2型糖尿病和冠心病等。此外,全基因组关联分析(Genome-Wide Association Studies,简称GWAS)已经在LncRNA上识别出大量的疾病风险SNP,科研人员很难解释这些风险SNP导致疾病的致病机理,因为它们不影响蛋白质序列的改变。最新的研究已经开始把这些风险SNP与人类LncRNA的功能联系在一起。例如,科研人员利用两套GWAS数据进行了荟萃分析,它们在一个LncRNA的序列上发现了前列腺癌相关的风险SNP。还有研究发现了乳头状甲状腺癌相关的风险SNP位于一个LncRNA的上游3.2kb处,这个风险SNP可以影响该LncRNA的表达,并阐明了这个SNP通过影响LncRNA功能导致乳头状甲状腺癌发生的致病机制。另一个研究发现LncRNA上的SNP可以降低乙肝病毒携带者所患肝细胞癌的疾病易感性。这些研究均提示,LncRNA上的SNP可能是癌症等复杂疾病的重要诊断标志物,在生物医学研究和临床应用中具有重要的研究价值。但存在的问题是,在LncRNA上往往会出现多个SNP,无法准确识别哪些是真正的癌症风险SNP,也没有一个明确的学习平台来供研究者或医护人员进行LncRNA上SNP的学习与研究。
发明内容
本发明的目的是提供一种LncRNA学习系统,以识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
为实现上述目的,本发明提供了如下方案:
一种LncRNA学习系统,包括:
数据获取模块,用于获取SNP数据集和LncRNA数据集;
数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;所述SNP组包括各所述SNP的注释信息;
滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;
显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;
排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;
平台构建模块,用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。
优选地,所述SNP数据集通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取。
优选地,所述LncRNA数据集通过Ensembl数据库获取。
优选地,初始LncRNA起始位置上游1000个碱基到初始LncRNA终止位置下游1000个碱基的区域定义为所述LncRNA。
优选地,所述滑窗模块包括:
碱基评分单元,用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据;
突变热点单元,用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,得到当前所述LncRNA的突变热点区域。
优选地,所述对每个碱基进行评分,计算公式为:
Figure BDA0002684808410000031
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明涉及一种LncRNA学习系统,包括:数据获取模块,用于获取SNP数据集和LncRNA数据集;数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。本发明能准确识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明LncRNA学习系统结构图。
符号说明:1-数据获取模块,2-数据处理模块,3-滑窗模块,4-显著性分析模块,5-排秩模块,6-平台构建模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种LncRNA学习系统,以识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明LncRNA学习系统结构图,如图1所示,本发明提供了一种LncRNA学习系统,包括:数据获取模块、数据处理模块、滑窗模块、显著性分析模块、排秩模块和平台构建模块。
所述数据获取模块1用于通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取SNP数据集,所述数据获取模块1还用于通过Ensembl数据库获取LncRNA数据集。
所述数据处理模块2用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组。
所述LncRNA由初始LncRNA起始位置上游1000个碱基至初始LncRNA终止位置下游1000个碱基的区域组成。
所述SNP组包括每个所述SNP的注释信息;所述注释信息包括SNP基本信息、基因组信息、进化保守性信息和基因共表达信息。
所述滑窗模块3用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组。
作为一种可选的实施方式,本发明所述滑窗模块3包括:碱基评分单元和突变热点单元。
所述碱基评分单元用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据。其中所述对每个碱基进行评分的具体计算公式如下:
Figure BDA0002684808410000051
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量。
所述突变热点单元用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,取最大值与最小值中间的区域为当前所述LncRNA的突变热点区域。记录每个所述突变热点区域内的所述SNP的信息形成突变SNP数据。
所述显著性分析模块4用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据。
具体地,针对每个所述突变热点区域进行富集显著性程度评估,得到每个所述突变热点区域的评估分,将评估分低于设定值的所述突变热点区域对应的数据舍弃,得到所述显著组数据。
所述排秩模块5用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库。
具体地,基于调控得分和保守得分方法对所述显著组数据内的每个所述SNP进行评分,并在平分之后对每个所述SNP进行排秩,得到所述顺序SNP数据库。
所述平台构建模块6用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台可以查到所述顺序SNP数据库内每个SNP的评分、排秩和注释信息。
本发明通过准确识别能对LncRNA发生改变的SNP,并基于此构建一个学习平台,以供研究者和医务人员进行学习研究。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的系统及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种LncRNA学习系统,其特征在于,包括:
数据获取模块,用于获取SNP数据集和LncRNA数据集;
数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;所述SNP组包括各所述SNP的注释信息;
滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;
显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;
排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;
平台构建模块,用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。
2.根据权利要求1所述的一种LncRNA学习系统,其特征在于,所述SNP数据集通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取。
3.根据权利要求1所述的一种LncRNA学习系统,其特征在于,所述LncRNA数据集通过Ensembl数据库获取。
4.根据权利要求1所述的一种LncRNA学习系统,其特征在于,初始LncRNA起始位置上游1000个碱基到初始LncRNA终止位置下游1000个碱基的区域定义为所述LncRNA。
5.根据权利要求1所述的一种LncRNA学习系统,其特征在于,所述滑窗模块包括:
碱基评分单元,用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据;
突变热点单元,用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,得到当前所述LncRNA的突变热点区域。
6.根据权利要求5所述的一种LncRNA学习系统,其特征在于,所述对每个碱基进行评分,计算公式为:
Figure FDA0002684808400000021
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量。
CN202010973090.8A 2020-09-16 2020-09-16 一种LncRNA学习系统 Active CN112102878B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010973090.8A CN112102878B (zh) 2020-09-16 2020-09-16 一种LncRNA学习系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010973090.8A CN112102878B (zh) 2020-09-16 2020-09-16 一种LncRNA学习系统

Publications (2)

Publication Number Publication Date
CN112102878A true CN112102878A (zh) 2020-12-18
CN112102878B CN112102878B (zh) 2024-01-26

Family

ID=73759657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010973090.8A Active CN112102878B (zh) 2020-09-16 2020-09-16 一种LncRNA学习系统

Country Status (1)

Country Link
CN (1) CN112102878B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2144781C1 (ru) * 1999-05-28 2000-01-27 Авшалумов Александр Шамаилович Способ неинвазивной дистанционной диагностики онкологического заболевания
GB201408687D0 (en) * 2014-05-16 2014-07-02 Univ Leuven Kath Method for predicting a phenotype from a genotype
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法
CA3022907A1 (en) * 2016-05-04 2017-11-09 Deep Genomics Incorporated Methods and systems for producing an expanded training set for machine learning using biological sequences
WO2017218908A2 (en) * 2016-06-16 2017-12-21 The Johns Hopkins University Methods and system for epigenetic analysis
WO2018075332A1 (en) * 2016-10-18 2018-04-26 Arizona Board Of Regents On Behalf Of The University Of Arizona Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
GB201818024D0 (en) * 2018-11-05 2018-12-19 Earlham Inst Genomic analysis
CN109637583A (zh) * 2018-12-20 2019-04-16 中国科学院昆明植物研究所 一种植物基因组差异甲基化区域的检测方法
CN110444253A (zh) * 2019-08-30 2019-11-12 上海美吉生物医药科技有限公司 一种适用于混池基因定位的方法及系统
US20190392309A1 (en) * 2018-06-21 2019-12-26 Denso International America, Inc. LSTM Training For Neural Network Based Course Of Action Selection
CN110890132A (zh) * 2019-11-19 2020-03-17 湖南大学 基于自适应高斯混合模型的癌症突变簇识别方法
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
US20200194097A1 (en) * 2018-12-18 2020-06-18 Beijing Forestry University METHOD FOR IDENTIFYING PLANT IncRNA AND GENE INTERACTION
CN111508603A (zh) * 2019-11-26 2020-08-07 中国科学院苏州生物医学工程技术研究所 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备

Patent Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2144781C1 (ru) * 1999-05-28 2000-01-27 Авшалумов Александр Шамаилович Способ неинвазивной дистанционной диагностики онкологического заболевания
GB201408687D0 (en) * 2014-05-16 2014-07-02 Univ Leuven Kath Method for predicting a phenotype from a genotype
CA3022907A1 (en) * 2016-05-04 2017-11-09 Deep Genomics Incorporated Methods and systems for producing an expanded training set for machine learning using biological sequences
CN106021984A (zh) * 2016-05-13 2016-10-12 万康源(天津)基因科技有限公司 一种全外显子组测序数据分析系统
WO2017218908A2 (en) * 2016-06-16 2017-12-21 The Johns Hopkins University Methods and system for epigenetic analysis
WO2018075332A1 (en) * 2016-10-18 2018-04-26 Arizona Board Of Regents On Behalf Of The University Of Arizona Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy
CN107292129A (zh) * 2017-05-26 2017-10-24 中国科学院上海药物研究所 易感基因型检测方法
CN111095422A (zh) * 2017-06-19 2020-05-01 琼格拉有限责任公司 通过综合计算和实验深度突变学习框架解释基因和基因组变体
US20190392309A1 (en) * 2018-06-21 2019-12-26 Denso International America, Inc. LSTM Training For Neural Network Based Course Of Action Selection
CN108920901A (zh) * 2018-07-24 2018-11-30 中国医学科学院北京协和医院 一种测序数据突变分析系统
GB201818024D0 (en) * 2018-11-05 2018-12-19 Earlham Inst Genomic analysis
US20200194097A1 (en) * 2018-12-18 2020-06-18 Beijing Forestry University METHOD FOR IDENTIFYING PLANT IncRNA AND GENE INTERACTION
CN109637583A (zh) * 2018-12-20 2019-04-16 中国科学院昆明植物研究所 一种植物基因组差异甲基化区域的检测方法
CN110444253A (zh) * 2019-08-30 2019-11-12 上海美吉生物医药科技有限公司 一种适用于混池基因定位的方法及系统
CN110890132A (zh) * 2019-11-19 2020-03-17 湖南大学 基于自适应高斯混合模型的癌症突变簇识别方法
CN111508603A (zh) * 2019-11-26 2020-08-07 中国科学院苏州生物医学工程技术研究所 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
FAN, J: "Identification of SNP-containing regulatory motifs in the myelodysplastic syndromes model using SNP arrays ad gene expression arrays", CHINESE JOURNAL OF CANCER, vol. 32, no. 4, pages 170 - 185 *
岁品品;邢旭东;王宏;崔颖;: "基于位置权重矩阵的核小体识别及功能分析", 生物信息学, no. 01, pages 3 - 8 *
林梦洁;范D;郁芸;韩新焕;: "SLC26A4基因编码区功能特征及分子进化分析", 南京医科大学学报(自然科学版), no. 11, pages 3 - 8 *

Also Published As

Publication number Publication date
CN112102878B (zh) 2024-01-26

Similar Documents

Publication Publication Date Title
Pan et al. Pig genome functional annotation enhances the biological interpretation of complex traits and human disease
JP7487163B2 (ja) がんの進化の検出および診断
Sniekers et al. Genome-wide association meta-analysis of 78,308 individuals identifies new loci and genes influencing human intelligence
Schultz et al. Human body epigenome maps reveal noncanonical DNA methylation variation
US9639659B2 (en) Ancestral-specific reference genomes and uses in identifying a candidate for a clinical trial
Amaratunga et al. Exploration and analysis of DNA microarray and protein array data
Wen et al. A classification model for lncRNA and mRNA based on k-mers and a convolutional neural network
CN108138223A (zh) 使用染色体相互作用的位点的检测方法
KR101949286B1 (ko) 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템
AU2016324166A1 (en) Predicting disease burden from genome variants
Wu et al. Identification and characterization of extrachromosomal circular DNA in plasma of lung adenocarcinoma patients
CN106446601B (zh) 一种大规模标注lncRNA功能的方法
CN112102878B (zh) 一种LncRNA学习系统
Horvath et al. Pan-primate DNA methylation clocks
US20200135300A1 (en) Applying low coverage whole genome sequencing for intelligent genomic routing
Wu et al. Prediction of the engendering mechanism and specific genes of primary melanoma by bioinformatics analysis
Saha Computational methods to study gene regulation in humans using DNA and RNA sequencing data
CN109097464B (zh) Cfap43基因的snp位点的应用
Saxena et al. Computer-assisted interpretation, in-depth exploration and single cell type annotation of RNA sequence data using k-means clustering algorithm
Wang et al. Metric Mirages in Cell Embeddings
Crabtree Technology of clinical genomic testing
Wang et al. Large language models assisted multi-effect variants mining on cerebral cavernous malformation familial whole genome sequencing
Yu et al. Similarity study of single nucleotide polymorphism (SNPs) data
Zhang et al. Application of Genomic Data in Translational Medicine During the Big Data Era
Swarr et al. “PIK” ing Out New Epigenetic Markers in Lung Disease

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant