CN112102878B - 一种LncRNA学习系统 - Google Patents
一种LncRNA学习系统 Download PDFInfo
- Publication number
- CN112102878B CN112102878B CN202010973090.8A CN202010973090A CN112102878B CN 112102878 B CN112102878 B CN 112102878B CN 202010973090 A CN202010973090 A CN 202010973090A CN 112102878 B CN112102878 B CN 112102878B
- Authority
- CN
- China
- Prior art keywords
- lncrna
- snp
- data
- module
- hot spot
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 108091046869 Telomeric non-coding RNA Proteins 0.000 title claims abstract description 95
- 230000035772 mutation Effects 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000012545 processing Methods 0.000 claims abstract description 7
- 238000012098 association analyses Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 238000011144 upstream manufacturing Methods 0.000 claims description 4
- 238000006008 O'Donnell synthesis reaction Methods 0.000 claims description 3
- 230000002068 genetic effect Effects 0.000 claims description 3
- 230000002974 pharmacogenomic effect Effects 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 3
- 206010028980 Neoplasm Diseases 0.000 description 11
- 201000011510 cancer Diseases 0.000 description 8
- 238000011161 development Methods 0.000 description 6
- 201000010099 disease Diseases 0.000 description 6
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 6
- 108090000623 proteins and genes Proteins 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 206010033701 Papillary thyroid cancer Diseases 0.000 description 2
- 238000003745 diagnosis Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000869 mutational effect Effects 0.000 description 2
- 102000004169 proteins and genes Human genes 0.000 description 2
- 208000030045 thyroid gland papillary carcinoma Diseases 0.000 description 2
- 201000001320 Atherosclerosis Diseases 0.000 description 1
- 108091026890 Coding region Proteins 0.000 description 1
- 206010071602 Genetic polymorphism Diseases 0.000 description 1
- 241000700721 Hepatitis B virus Species 0.000 description 1
- 241000282412 Homo Species 0.000 description 1
- 206010027476 Metastases Diseases 0.000 description 1
- 206010060862 Prostate cancer Diseases 0.000 description 1
- 208000000236 Prostatic Neoplasms Diseases 0.000 description 1
- 125000003275 alpha amino acid group Chemical group 0.000 description 1
- 230000008236 biological pathway Effects 0.000 description 1
- 230000031018 biological processes and functions Effects 0.000 description 1
- 230000004186 co-expression Effects 0.000 description 1
- 208000029078 coronary artery disease Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 206010073071 hepatocellular carcinoma Diseases 0.000 description 1
- 231100000844 hepatocellular carcinoma Toxicity 0.000 description 1
- 230000009545 invasion Effects 0.000 description 1
- 230000036210 malignancy Effects 0.000 description 1
- 230000003211 malignant effect Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000009401 metastasis Effects 0.000 description 1
- 108091027963 non-coding RNA Proteins 0.000 description 1
- 102000042567 non-coding RNA Human genes 0.000 description 1
- 239000002773 nucleotide Substances 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000003950 pathogenic mechanism Effects 0.000 description 1
- 230000001124 posttranscriptional effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000035755 proliferation Effects 0.000 description 1
- 230000005180 public health Effects 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 210000001519 tissue Anatomy 0.000 description 1
- 208000001072 type 2 diabetes mellitus Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Engineering & Computer Science (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明涉及一种LncRNA学习系统,包括:数据获取模块,用于获取SNP数据集和LncRNA数据集;数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。本发明能准确识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
Description
技术领域
本发明涉及基因技术领域,特别是涉及一种LncRNA学习系统。
背景技术
恶性肿瘤是细胞在机体内恶性增殖并侵犯或转移周围组织导致的一种全身性复杂疾病,目前已经成为严重危害人类生命健康、制约社会经济发展的一类重大疾病。中国的恶性肿瘤发病率和死亡率一直居高不下,从2010年开始已经成为主要的致死原因,是当前中国的一个主要公共卫生问题。因此,识别肿瘤的诊断标志物已成为肿瘤诊断、治疗的一个亟待解决的重要科学问题,也一直是生物医学界研究的热点和重大挑战。
随着新一代测序等新兴技术的快速发展,研究人员发现长链非编码RNA(LongNon-coding RNA,简称LncRNA)在恶性肿瘤的发生发展中发挥着重要的生物学作用。LncRNA是一类不编码蛋白的长度超过200个碱基的非编码RNA,在转录后水平调控肿瘤相关的生物学过程和通路。近年来随着对LncRNA研究的不断深入,研究人员发现LncRNA上的多态位点与人类恶性肿瘤的发生发展密切相关。正常人群和肿瘤患者的基因组上都普遍存在着各种形式的遗传多态,最常见的一类是单核苷酸多态性(Single-Nucleotide Polymorphism,简称SNP),当SNP发生在肿瘤相关基因的编码区时,可以导致氨基酸序列的改变进而影响肿瘤相关基因的功能。但当SNP发生在LncRNA区域时,它们可能会通过新的机制导致肿瘤的发生发展。
过去的多个研究已经证实LncRNA上的SNP与人类恶性肿瘤的发生发展密切相关。例如,研究人员在一个叫做ANRIL的LncRNA上发现了多个与人类复杂疾病相关的SNP,这些疾病包括癌症、动脉粥样硬化、2型糖尿病和冠心病等。此外,全基因组关联分析(Genome-Wide Association Studies,简称GWAS)已经在LncRNA上识别出大量的疾病风险SNP,科研人员很难解释这些风险SNP导致疾病的致病机理,因为它们不影响蛋白质序列的改变。最新的研究已经开始把这些风险SNP与人类LncRNA的功能联系在一起。例如,科研人员利用两套GWAS数据进行了荟萃分析,它们在一个LncRNA的序列上发现了前列腺癌相关的风险SNP。还有研究发现了乳头状甲状腺癌相关的风险SNP位于一个LncRNA的上游3.2kb处,这个风险SNP可以影响该LncRNA的表达,并阐明了这个SNP通过影响LncRNA功能导致乳头状甲状腺癌发生的致病机制。另一个研究发现LncRNA上的SNP可以降低乙肝病毒携带者所患肝细胞癌的疾病易感性。这些研究均提示,LncRNA上的SNP可能是癌症等复杂疾病的重要诊断标志物,在生物医学研究和临床应用中具有重要的研究价值。但存在的问题是,在LncRNA上往往会出现多个SNP,无法准确识别哪些是真正的癌症风险SNP,也没有一个明确的学习平台来供研究者或医护人员进行LncRNA上SNP的学习与研究。
发明内容
本发明的目的是提供一种LncRNA学习系统,以识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
为实现上述目的,本发明提供了如下方案:
一种LncRNA学习系统,包括:
数据获取模块,用于获取SNP数据集和LncRNA数据集;
数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;所述SNP组包括各所述SNP的注释信息;
滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;
显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;
排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;
平台构建模块,用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。
优选地,所述SNP数据集通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取。
优选地,所述LncRNA数据集通过Ensembl数据库获取。
优选地,初始LncRNA起始位置上游1000个碱基到初始LncRNA终止位置下游1000个碱基的区域定义为所述LncRNA。
优选地,所述滑窗模块包括:
碱基评分单元,用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据;
突变热点单元,用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,得到当前所述LncRNA的突变热点区域。
优选地,所述对每个碱基进行评分,计算公式为:
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明涉及一种LncRNA学习系统,包括:数据获取模块,用于获取SNP数据集和LncRNA数据集;数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。本发明能准确识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明LncRNA学习系统结构图。
符号说明:1-数据获取模块,2-数据处理模块,3-滑窗模块,4-显著性分析模块,5-排秩模块,6-平台构建模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种LncRNA学习系统,以识别出能使LncRNA发生改变的SNP,并基于此构建学习平台,以供研究者和医务人员进行研究学习。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
图1为本发明LncRNA学习系统结构图,如图1所示,本发明提供了一种LncRNA学习系统,包括:数据获取模块、数据处理模块、滑窗模块、显著性分析模块、排秩模块和平台构建模块。
所述数据获取模块1用于通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取SNP数据集,所述数据获取模块1还用于通过Ensembl数据库获取LncRNA数据集。
所述数据处理模块2用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组。
所述LncRNA由初始LncRNA起始位置上游1000个碱基至初始LncRNA终止位置下游1000个碱基的区域组成。
所述SNP组包括每个所述SNP的注释信息;所述注释信息包括SNP基本信息、基因组信息、进化保守性信息和基因共表达信息。
所述滑窗模块3用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组。
作为一种可选的实施方式,本发明所述滑窗模块3包括:碱基评分单元和突变热点单元。
所述碱基评分单元用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据。其中所述对每个碱基进行评分的具体计算公式如下:
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量。
所述突变热点单元用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,取最大值与最小值中间的区域为当前所述LncRNA的突变热点区域。记录每个所述突变热点区域内的所述SNP的信息形成突变SNP数据。
所述显著性分析模块4用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据。
具体地,针对每个所述突变热点区域进行富集显著性程度评估,得到每个所述突变热点区域的评估分,将评估分低于设定值的所述突变热点区域对应的数据舍弃,得到所述显著组数据。
所述排秩模块5用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库。
具体地,基于调控得分和保守得分方法对所述显著组数据内的每个所述SNP进行评分,并在平分之后对每个所述SNP进行排秩,得到所述顺序SNP数据库。
所述平台构建模块6用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台可以查到所述顺序SNP数据库内每个SNP的评分、排秩和注释信息。
本发明通过准确识别能对LncRNA发生改变的SNP,并基于此构建一个学习平台,以供研究者和医务人员进行学习研究。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的系统及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (4)
1.一种LncRNA学习系统,其特征在于,包括:
数据获取模块,用于获取SNP数据集和LncRNA数据集;
数据处理模块,用于识别出所述LncRNA数据集中每个LncRNA及附近的SNP得到SNP组;所述SNP组包括各所述SNP的注释信息;
滑窗模块,用于基于滑窗法得到每个所述LncRNA的突变热点区域,组成突变热点区域组;所述滑窗模块包括:
碱基评分单元,用于在滑窗过程中对每个碱基进行评分,得到每个所述LncRNA的评分数据;所述对每个碱基进行评分,计算公式为:
式中:i代表第i个碱基,i∈n,n为LncRNA的总长度,M为当前滑窗内SNP的总数量,N为LncRNA未发生突变的碱基的总数量,mi为第i个碱基上SNP的总数量;
突变热点单元,用于对每个所述LncRNA的评分数据均执行下述过程,得到所述突变热点区域组;选取当前所述LncRNA对应的评分数据中的最大值与最小值,得到当前所述LncRNA的突变热点区域;
显著性分析模块,用于基于超几何分布法对所述突变热点区域组进行显著性分析得到显著组数据;
排秩模块,用于对所述显著组数据内的SNP进行打分和排秩,得到顺序SNP数据库;
平台构建模块,用于基于所述顺序SNP数据库构建LncRNA平台,用户通过所述LncRNA平台进行学习。
2.根据权利要求1所述的一种LncRNA学习系统,其特征在于,所述SNP数据集通过全基因组关联分析数据库、美国国家人类基因组研究所全基因组关联分析数据库、药物基因组学知识库、Johnson和O'donnell数据集、GAD遗传关联数据库和美国国家生物技术信息中心基因型与表型数据库获取。
3.根据权利要求1所述的一种LncRNA学习系统,其特征在于,所述LncRNA数据集通过Ensembl数据库获取。
4.根据权利要求1所述的一种LncRNA学习系统,其特征在于,初始LncRNA起始位置上游1000个碱基到初始LncRNA终止位置下游1000个碱基的区域定义为所述LncRNA。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973090.8A CN112102878B (zh) | 2020-09-16 | 2020-09-16 | 一种LncRNA学习系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010973090.8A CN112102878B (zh) | 2020-09-16 | 2020-09-16 | 一种LncRNA学习系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112102878A CN112102878A (zh) | 2020-12-18 |
CN112102878B true CN112102878B (zh) | 2024-01-26 |
Family
ID=73759657
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010973090.8A Active CN112102878B (zh) | 2020-09-16 | 2020-09-16 | 一种LncRNA学习系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112102878B (zh) |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2144781C1 (ru) * | 1999-05-28 | 2000-01-27 | Авшалумов Александр Шамаилович | Способ неинвазивной дистанционной диагностики онкологического заболевания |
GB201408687D0 (en) * | 2014-05-16 | 2014-07-02 | Univ Leuven Kath | Method for predicting a phenotype from a genotype |
CN106021984A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种全外显子组测序数据分析系统 |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
CA3022907A1 (en) * | 2016-05-04 | 2017-11-09 | Deep Genomics Incorporated | Methods and systems for producing an expanded training set for machine learning using biological sequences |
WO2017218908A2 (en) * | 2016-06-16 | 2017-12-21 | The Johns Hopkins University | Methods and system for epigenetic analysis |
WO2018075332A1 (en) * | 2016-10-18 | 2018-04-26 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
GB201818024D0 (en) * | 2018-11-05 | 2018-12-19 | Earlham Inst | Genomic analysis |
CN109637583A (zh) * | 2018-12-20 | 2019-04-16 | 中国科学院昆明植物研究所 | 一种植物基因组差异甲基化区域的检测方法 |
CN110444253A (zh) * | 2019-08-30 | 2019-11-12 | 上海美吉生物医药科技有限公司 | 一种适用于混池基因定位的方法及系统 |
CN110890132A (zh) * | 2019-11-19 | 2020-03-17 | 湖南大学 | 基于自适应高斯混合模型的癌症突变簇识别方法 |
CN111095422A (zh) * | 2017-06-19 | 2020-05-01 | 琼格拉有限责任公司 | 通过综合计算和实验深度突变学习框架解释基因和基因组变体 |
CN111508603A (zh) * | 2019-11-26 | 2020-08-07 | 中国科学院苏州生物医学工程技术研究所 | 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190392309A1 (en) * | 2018-06-21 | 2019-12-26 | Denso International America, Inc. | LSTM Training For Neural Network Based Course Of Action Selection |
CN109545278B (zh) * | 2018-12-18 | 2020-07-28 | 北京林业大学 | 一种鉴定植物lncRNA与基因互作的方法 |
-
2020
- 2020-09-16 CN CN202010973090.8A patent/CN112102878B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
RU2144781C1 (ru) * | 1999-05-28 | 2000-01-27 | Авшалумов Александр Шамаилович | Способ неинвазивной дистанционной диагностики онкологического заболевания |
GB201408687D0 (en) * | 2014-05-16 | 2014-07-02 | Univ Leuven Kath | Method for predicting a phenotype from a genotype |
CA3022907A1 (en) * | 2016-05-04 | 2017-11-09 | Deep Genomics Incorporated | Methods and systems for producing an expanded training set for machine learning using biological sequences |
CN106021984A (zh) * | 2016-05-13 | 2016-10-12 | 万康源(天津)基因科技有限公司 | 一种全外显子组测序数据分析系统 |
WO2017218908A2 (en) * | 2016-06-16 | 2017-12-21 | The Johns Hopkins University | Methods and system for epigenetic analysis |
WO2018075332A1 (en) * | 2016-10-18 | 2018-04-26 | Arizona Board Of Regents On Behalf Of The University Of Arizona | Pharmacogenomics of intergenic single-nucleotide polymorphisms and in silico modeling for precision therapy |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
CN111095422A (zh) * | 2017-06-19 | 2020-05-01 | 琼格拉有限责任公司 | 通过综合计算和实验深度突变学习框架解释基因和基因组变体 |
CN108920901A (zh) * | 2018-07-24 | 2018-11-30 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
GB201818024D0 (en) * | 2018-11-05 | 2018-12-19 | Earlham Inst | Genomic analysis |
CN109637583A (zh) * | 2018-12-20 | 2019-04-16 | 中国科学院昆明植物研究所 | 一种植物基因组差异甲基化区域的检测方法 |
CN110444253A (zh) * | 2019-08-30 | 2019-11-12 | 上海美吉生物医药科技有限公司 | 一种适用于混池基因定位的方法及系统 |
CN110890132A (zh) * | 2019-11-19 | 2020-03-17 | 湖南大学 | 基于自适应高斯混合模型的癌症突变簇识别方法 |
CN111508603A (zh) * | 2019-11-26 | 2020-08-07 | 中国科学院苏州生物医学工程技术研究所 | 一种基于机器学习的出生缺陷预测及风险评估方法、系统及电子设备 |
Non-Patent Citations (3)
Title |
---|
Identification of SNP-containing regulatory motifs in the myelodysplastic syndromes model using SNP arrays ad gene expression arrays;Fan, J;CHINESE JOURNAL OF CANCER;第32卷(第4期);170-185 * |
SLC26A4基因编码区功能特征及分子进化分析;林梦洁;范D;郁芸;韩新焕;;南京医科大学学报(自然科学版)(第11期);3-8 * |
基于位置权重矩阵的核小体识别及功能分析;岁品品;邢旭东;王宏;崔颖;;生物信息学(第01期);3-8 * |
Also Published As
Publication number | Publication date |
---|---|
CN112102878A (zh) | 2020-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7487163B2 (ja) | がんの進化の検出および診断 | |
JP7368483B2 (ja) | 相同組換え欠損を推定するための統合された機械学習フレームワーク | |
CN112802548B (zh) | 单样本全基因组预测等位基因特异性拷贝数变异的方法 | |
US9639659B2 (en) | Ancestral-specific reference genomes and uses in identifying a candidate for a clinical trial | |
EP2718862B1 (en) | Method for assembly of nucleic acid sequence data | |
Liu et al. | A genome-wide association study for gut metagenome in Chinese adults illuminates complex diseases | |
KR101949286B1 (ko) | 암 환자의 유전체 염기서열 변이 정보와 생존 정보를 이용한 맞춤형 약물 선택 방법 및 시스템 | |
AU2016324166A1 (en) | Predicting disease burden from genome variants | |
Shi et al. | The slow-evolving Acorus tatarinowii genome sheds light on ancestral monocot evolution | |
Guo et al. | Detection of InDel and CNV of SPAG17 gene and their associations with bovine growth traits | |
CN106755371A (zh) | 利用pcr‑rflp检测绵羊pcnp基因单核苷酸多态性的方法及其应用 | |
CN112102878B (zh) | 一种LncRNA学习系统 | |
CN106446601B (zh) | 一种大规模标注lncRNA功能的方法 | |
CN110819700A (zh) | 一种构建肺部小结节计算机辅助检测模型的方法 | |
US20200135300A1 (en) | Applying low coverage whole genome sequencing for intelligent genomic routing | |
CN109097464B (zh) | Cfap43基因的snp位点的应用 | |
Metzger | Systems medicine in the scope of multi omics analyses | |
Wang et al. | Metric Mirages in Cell Embeddings | |
Zhang et al. | Application of Genomic Data in Translational Medicine During the Big Data Era | |
CN116064831A (zh) | 一种与绵羊体尺相关的分子标记、其检测方法及应用 | |
Saxena et al. | Computer-assisted interpretation, in-depth exploration and single cell type annotation of RNA sequence data using k-means clustering algorithm | |
Hind | RaSaR: A Novel Methodology for the Detection of Epistasis | |
Yu et al. | Similarity study of single nucleotide polymorphism (SNPs) data | |
Nagel | Changing perspectives: Towards detailed phenotyping in genetics | |
Hua et al. | Using Comparative Genomic Hybridization Arrays (aCGH) Techniques to Detect Chronic Obstructive Pulmonary Disease Related Susceptibility Regions,'' |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |