CN111613270B - 基于机器学习分析基因上游启动子对表达影响强度的方法 - Google Patents

基于机器学习分析基因上游启动子对表达影响强度的方法 Download PDF

Info

Publication number
CN111613270B
CN111613270B CN202010319369.4A CN202010319369A CN111613270B CN 111613270 B CN111613270 B CN 111613270B CN 202010319369 A CN202010319369 A CN 202010319369A CN 111613270 B CN111613270 B CN 111613270B
Authority
CN
China
Prior art keywords
promoter
expression
gene
machine learning
strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010319369.4A
Other languages
English (en)
Other versions
CN111613270A (zh
Inventor
谢晖
陈锐朴
陈雪利
朱守平
罗艳霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN202010319369.4A priority Critical patent/CN111613270B/zh
Publication of CN111613270A publication Critical patent/CN111613270A/zh
Application granted granted Critical
Publication of CN111613270B publication Critical patent/CN111613270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Public Health (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Genetics & Genomics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)

Abstract

本发明属于生物信息学技术领域,公开了一种基于机器学习分析基因上游启动子对表达影响强度的方法,通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测基因序列中的启动子元件存在及可靠性;通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,数据整合;列出所有启动子可能的所有组合,分别将对表达进行回归,得到各启动子所占权重;取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。传统方法进度缓慢,成本较高,本发明得到启动子元件对于表达的强度预测的方法快速,成本低。

Description

基于机器学习分析基因上游启动子对表达影响强度的方法
技术领域
本发明属于生物信息学技术领域,尤其涉及一种基于机器学习分析基因上游启动子对表达影响强度的方法。
背景技术
目前,最接近的现有技术:启动子是位于结构基因5'端上游的DNA序列,能活化RNA聚合酶,使之与模板DNA准确的结合并具有转录起始的特异性。起始时间和表达的程度。启动子(Promoters)就像“开关”,决定基因的活动。既然基因是成序列的核苷酸(nucleotides),那么启动子也应由DNA组成。启动子本身并不控制基因活动,而是通过与称为转录(transcription)因子的这种蛋白质(proteins)结合而控制基因活动的。转录因子就像一面“旗子”,指挥着酶(enzymes)(RNA聚合酶polymerases)的活动。这种酶制造着基因的RNA复制本。一般分为广谱表达型启动子、组织特异性启动子、肿瘤特异性启动子等多种形式。
传统对于上游启动子区对表达的影响主要使用的是实验方法,通过选择性缺失各启动子元件,设置对照组实验得到该启动子元件对于表达的影响。这种方法,耗时耗材耗力,并且在实验过程中容易出现误差使得其结果可信度降低实验分析启动子功能时,所研究基因包含多个启动子,就需要构建多个不同长度的表达载体,且只能局限于按5’到3’顺序缺失启动子,不能进行其他组合方式的研究,通过将表达载体导入受体细胞中之后,检测报告基因表达量变化,从而判定启动子功能整个实验过程中,缺失启动子PCR,构建表达载体以及检测报告基因表达均会均会产生误差,导致分析出现偏差。并且传统方式还有一个局限性在于,其每次研究只能研究一个基因的启动子元件,很难做到大量基因的研究。若研究多个基因,首先很难做到同时缺失两个基因调控序列中同一个启动子,其次不能保证缺失后两个基因的调控序列中启动子元件相同,因为在同一个表达体系中,只有相同的启动子元件对表达影响是相同的,同时不同的启动子对表达的结果产生的不同影响无法分辨。
综上所述,现有技术存在的问题是:
(1)传统对于上游启动子区对表达的影响方法存在耗时耗材耗力,容易出现误差使得其结果可信度降低。
(2)传统对于上游启动子区对表达的影响方法存在每次只能针对一个基因的启动子元件,很难做到大量基因进行。
解决上述技术问题的难度:目前的启动子强度分析中的各步骤均为必要步骤,无法进行替代也未出现可优化步骤。
解决上述技术问题的意义:可以在已有实验数据情况下,在不进行实验或进行少量实验的情况下,通过计算机,整体评估各启动子元件在表达中发挥的作用,减少成本。对设计表达载体具有指导作用。
发明内容
针对现有技术存在的问题,本发明提供了一种基于机器学习分析基因上游启动子对表达影响强度的方法。
本发明是这样实现的,一种基于机器学习分析基因上游启动子对表达影响强度的方法,所述基于机器学习分析基因上游启动子对表达影响强度的方法包括以下步骤:
第一步,通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测基因序列中的启动子元件存在及可靠性;
第二步,通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,数据整合;
第三步,列出所有启动子可能的所有组合,分别将对表达进行回归,得到各启动子所占权重;
第四步,取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。
进一步,所述基于机器学习分析基因上游启动子对表达影响强度的方法预测基因上游区中所有启动子元件的存在及可信度得分,计算各启动子元件得分总分。
进一步,所述基于机器学习分析基因上游启动子对表达影响强度的方法将得到的启动子数据与得到的表达数据整合,将整合为N维数据,前N-1维为启动子元件可信度得分总分,第N维为表达量,N≥2。
进一步,所述基于机器学习分析基因上游启动子对表达影响强度的方法将得到的数据前N-1维向量进行组合,共
Figure BDA0002460767620000031
组不同的组合方式。
进一步,所述基于机器学习分析基因上游启动子对表达影响强度的方法的基因包括所有可在UCSC基因组浏览器中查询到的所有基因。
进一步,所述基于机器学习分析基因上游启动子对表达影响强度的方法的回归分析进行线性回归或非线性回归,启动子元件可信度作为自变量,表达量作为因变量。
本发明的另一目的在于提供一种实施所述基于机器学习分析基因上游启动子对表达影响强度的方法的基于机器学习分析基因上游启动子对表达影响强度的系统,所述基于机器学习分析基因上游启动子对表达影响强度的系统包括:
启动子元件分析模块,用于通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测基因序列中的启动子元件存在及可靠性;
表达量获取模块,用于通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,将数据整合;
启动子权重计算模块,用于列出所有启动子可能的所有组合,分别将对表达进行回归,得到各启动子所占权重;
基因表达影响强度计算模块,用于取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。
本发明的另一目的在于提供一种所述基于机器学习分析基因上游启动子对表达影响强度的方法在药物开发中的应用。
本发明的另一目的在于提供一种所述基于机器学习分析基因上游启动子对表达影响强度的方法在生物反应器效率预测中的应用。
本发明的另一目的在于提供一种所述基于机器学习分析基因上游启动子对表达影响强度的方法在转基因产品产量预估中的应用。
在生物反应器导入外源基因之前,先统计各基因表达量,分析其上游序列,之后使用本专利所提供方法对各启动子强度进行计算,就可对导入生物反应器的载体,根据需求进行设计,且在具体实验之前,带入强度分数预测表达量。
转基因产品同理。
综上所述,本发明的优点及积极效果为:启动子强度的对于药物开发,生物反应器效率预测,转基因产品产量预估等都具有重要意义。而传统方法研究进度缓慢,成本较高,需要一种快速,低成本的方法得到启动子元件对于表达的强度预测。
附图说明
图1是本发明实施例提供的基于机器学习分析基因上游启动子对表达影响强度的方法流程图。
图2是本发明实施例提供的得到的数据结果示意图。
图3是本发明实施例提供的仿真结果示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
针对现有技术存在的问题,本发明提供了一种基于机器学习分析基因上游启动子对表达影响强度的方法,下面结合附图对本发明作详细的描述。
如图1所示,本发明实施例提供的基于机器学习分析基因上游启动子对表达影响强度的方法包括以下步骤:
S101:通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测这些序列中的启动子元件存在及其可靠性;
S102:通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,将数据整合;
S103:列出所有启动子可能的所有组合,分别将其对表达进行回归,得到各启动子所占权重;
S104:取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。
本发明实施例提供的基于机器学习分析基因上游启动子对表达影响强度的方法包括以下步骤:
1)提供所述基因上游2000bp序列。
2)预测基因上游区中所有启动子元件的存在及其可信度得分,计算各启动子元件得分总分。
3)提供所述基因在不同细胞中不同时期的表达量。
4)将步骤2)得到的启动子数据与步骤3)得到的表达数据整合,将其整合为N维数据,前N-1维为启动子元件可信度得分总分,第N维为表达量,N≥2。
5)将步骤4)中得到的数据前N-1维向量进行组合,共
Figure BDA0002460767620000051
组不同的组合方式。
6)对步骤5)中得到的数据进行回归分析得到各启动子回归系数。
7)对步骤6)中得到的结果使用其MAE进行评价,取MAE≤100的结果。对各启动子元件系数分析,得到其对表达的影响。
在本发明的优选实施例中,基因包括所有可在UCSC基因组浏览器中可查询到的所有基因。
在本发明的优选实施例中,步骤6)回归分析可以进行线性回归也可进行非线性回归,启动子元件可信度作为自变量,表达量作为因变量。
下面结合具体实施例对本发明的技术方案作进一步的描述。
本发明实施例以线虫先天免疫通路涉及基因为例,从UCSC基因组浏览器找到所述基因上游2000bp序列,fasta格式文件,其中包括:
细胞程序性死亡:CED-9→CED-4→CED-3。
TGF-β通路:DBL-1→DAF-4→SMA-6→SMA-2\SMA-3+SMA-4。
DAF-2通路:DAF-2→AGE-1\AAP-1→PDK-1→AKT-1\AKT-2\SGK-1→DAF-16。
MAPK通路:SEK-1→NSY→PMK-1、LIN-45→MEK-2→MPK-1、TAK-1→MEK-1→KEG-1。
步骤一,共计25个基因。
步骤二,将从步骤一中得到的序列使用JASPAR启动子预测网站,选择POLII中除果蝇特有的启动子元件包括:'DCE_S_I','BREd','DCE_S_III','DCE_S_II','INR','BREu','TATA-Box','XCPE1','GC-box','CCAAT-box','MED-1';共计11个启动子元件,对序列进行预测。并只取正序列结果,将各启动子元件得分相加,得到所有元件总得分。
步骤三,通过EBI基因表达数据库,查询基因表达量,共包括:'3-fold embryoCe','4-cell embryo Ce','adult Ce','dauerlarva Ce','elongating embryo Ce','embryo Ce','enclosing embryo Ce','fully-elongated embryo Ce','gastrulatingembryo Ce','L1 larva Ce','L2 larva Ce','L2d-dauermolt Ce','L3 larva Ce','L4larva Ce','late cleavage stage embryo Ce','newly molted young adulthermaphrodite Ce','post dauer stage Ce','proliferating embryo Ce',共计18个细胞时期的表达数据;
步骤四,将步骤二和步骤三中得到的数据进行整理得到如图2数据共18组;
步骤五,将步骤四中得到的数据前11维向量进行组合共36630组不同的组合结果;
步骤六,将步骤五中得到的所有组合以启动子总得分为自变量,以表达量为因变量,进行非线性回归分析,随机取每组数据中20个向量作为训练集,5个作为测试集;
步骤七,对所有结果做MAE评价,取MAE≤100的结果对各启动子元件系数进行分析,具体地,如‘BREU’系数稳定为0.4(±0.05)判定为对表达有稳定的促进作用。
下面结合仿真对本发明的技术效果作详细的描述。
全部代码:
Figure BDA0002460767620000071
/>
Figure BDA0002460767620000081
/>
Figure BDA0002460767620000091
/>
Figure BDA0002460767620000101
/>
Figure BDA0002460767620000111
/>
Figure BDA0002460767620000121
最终结果如图3,从图中可以看出XCPE1在部分细胞时期起强促进表达作用,在部分细胞时期起强阻遏作用与Yumiko Tokusumi等人在在实验中所得结论相同,其实验结果为XCPE1仅显示相当弱的转录活性,但在没有TFIID的情况下,XCPE1驱动的转录可能具有很高的活性[1]。同样在图中可以看出CCAAT-box整体表现出阻遏表达的效果,部分细胞时期表现出强的阻遏,与S Connelly等人得出的RNA聚合酶II转录终止与蛋白质与CCAAT-box的结合有关[2]。图中BREu整体上表现出促进转录活性与Lawson J等人结论相近,其结论为BREu和BREd与TATA-box结合可以提高转录活性,[3,4]。
用于进一步验证评价模型的主要参考文献
[1]Tokusumi,Y.,et al.,The new core promoter element XCPE1(X CorePromoter Element 1)directs activator-,mediator-,and TATA-binding protein-dependent but TFIID-independent RNA polymerase II transcription from TATA-less promoters.Mol Cell Biol,2007.27(5):p.1844-58.
[2]Connelly,S.and J.L.Manley,RNA polymerase II transcriptiontermination is mediated specifically by protein binding to a CCAAT boxsequence.Mol Cell Biol,1989.9(11):p.5254-9.
[3]Lawson,J.,J.F.Wheldrake,and A.J.Dunbar,Genomic structure andpromoter characterization ofthe gene encoding the ErbB ligandbetacellulin.Biochim Biophys Acta,2002.1576(1-2):p.183-90.
[4]王婧,et al.,启动子结构和功能研究进展.生物技术通报,2014.000(8):p.40-45.
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法包括以下步骤:
第一步,通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测基因序列中的启动子元件存在及可靠性;
第二步,通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,数据整合;
第三步,列出所有启动子可能的所有组合,分别将对表达进行回归,得到各启动子所占权重;
第四步,取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。
2.如权利要求1所述的基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法预测基因上游区中所有启动子元件的存在及可信度得分,计算各启动子元件得分总分。
3.如权利要求1所述的基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法将得到的启动子数据与得到的表达数据整合,将整合为N维数据,前N-1维为启动子元件可信度得分总分,第N维为表达量,N≥2。
4.如权利要求3所述的基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法将得到的数据前N-1维向量进行组合,共
Figure FDA0002460767610000011
组不同的组合方式。
5.如权利要求1所述的基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法的基因包括所有可在UCSC基因组浏览器中查询到的所有基因。
6.如权利要求1所述的基于机器学习分析基因上游启动子对表达影响强度的方法,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的方法的回归分析进行线性回归或非线性回归,启动子元件可信度作为自变量,表达量作为因变量。
7.一种实施权利要求1~6任意一项所述基于机器学习分析基因上游启动子对表达影响强度的方法的基于机器学习分析基因上游启动子对表达影响强度的系统,其特征在于,所述基于机器学习分析基因上游启动子对表达影响强度的系统包括:
启动子元件分析模块,用于通过UCSC基因组浏览器得到基因上游2000bp序列,使用JASPAR启动子预测网站预测基因序列中的启动子元件存在及可靠性;
表达量获取模块,用于通过EBI基因表达数据库得到基因实验测得的其在各细胞当中,各细胞时期的表达量,将数据整合;
启动子权重计算模块,用于列出所有启动子可能的所有组合,分别将对表达进行回归,得到各启动子所占权重;
基因表达影响强度计算模块,用于取结果中平均绝对差值小于100的结果,将各结果中启动子权重平均得到启动子元件对基因表达影响的强度。
8.一种如权利要求1~6任意一项所述基于机器学习分析基因上游启动子对表达影响强度的方法在药物开发中的应用。
9.一种如权利要求1~6任意一项所述基于机器学习分析基因上游启动子对表达影响强度的方法在生物反应器效率预测中的应用。
10.一种如权利要求1~6任意一项所述基于机器学习分析基因上游启动子对表达影响强度的方法在转基因产品产量预估中的应用。
CN202010319369.4A 2020-04-21 2020-04-21 基于机器学习分析基因上游启动子对表达影响强度的方法 Active CN111613270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010319369.4A CN111613270B (zh) 2020-04-21 2020-04-21 基于机器学习分析基因上游启动子对表达影响强度的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010319369.4A CN111613270B (zh) 2020-04-21 2020-04-21 基于机器学习分析基因上游启动子对表达影响强度的方法

Publications (2)

Publication Number Publication Date
CN111613270A CN111613270A (zh) 2020-09-01
CN111613270B true CN111613270B (zh) 2023-03-31

Family

ID=72204704

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010319369.4A Active CN111613270B (zh) 2020-04-21 2020-04-21 基于机器学习分析基因上游启动子对表达影响强度的方法

Country Status (1)

Country Link
CN (1) CN111613270B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393895B (zh) * 2021-07-23 2023-06-02 罗翌陈 一种阻断肿瘤mapk信号通路微环境演化系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6072050A (en) * 1996-06-11 2000-06-06 Pioneer Hi-Bred International, Inc. Synthetic promoters
CN103646192B (zh) * 2013-11-14 2017-06-09 漯河医学高等专科学校 增强子在全基因组相互作用研究方法
CN108018301B (zh) * 2017-12-12 2021-02-26 湖北省农业科学院畜牧兽医研究所 确定miR-27a基因的核心启动子及其内转录因子Myod结合位点的方法

Also Published As

Publication number Publication date
CN111613270A (zh) 2020-09-01

Similar Documents

Publication Publication Date Title
Mathelier et al. Identification of altered cis-regulatory elements in human disease
Li et al. The recognition and prediction of σ70 promoters in Escherichia coli K-12
Aerts Computational strategies for the genome-wide identification of cis-regulatory elements and transcriptional targets
Kumari et al. Genome-wide computational prediction and analysis of core promoter elements across plant monocots and dicots
Kechris et al. Generalizing moving averages for tiling arrays using combined p-value statistics
Herbig et al. nocoRNAc: characterization of non-coding RNAs in prokaryotes
Celaj et al. Highly combinatorial genetic interaction analysis reveals a multi-drug transporter influence network
He et al. Alignment and prediction of cis-regulatory modules based on a probabilistic model of evolution
Ramakrishnaiah et al. Towards a comprehensive pipeline to identify and functionally annotate long noncoding RNA (lncRNA)
Renganaath et al. Systematic identification of cis-regulatory variants that cause gene expression differences in a yeast cross
Vedel et al. Promoting the promoter
US20230115039A1 (en) Machine-learning techniques for predicting surface-presenting peptides
CN111613270B (zh) 基于机器学习分析基因上游启动子对表达影响强度的方法
Halperin et al. Allegro: analyzing expression and sequence in concert to discover regulatory programs
Gao et al. Cell type–specific analysis by single-cell profiling identifies a stable mammalian tRNA–mRNA interface and increased translation efficiency in neurons
Kuo et al. Illuminating the dark side of the human transcriptome with TAMA Iso-Seq analysis
Ha et al. COPS: detecting co-occurrence and spatial arrangement of transcription factor binding motifs in genome-wide datasets
He et al. Characterizing RNA pseudouridylation by convolutional neural networks
Theis et al. RNA 3D modules in genome-wide predictions of RNA 2D structure
Datta et al. Detection of cooperatively bound transcription factor pairs using ChIP-seq peak intensities and expectation maximization
Cherezov et al. The phenomenon of evolutionary “De Novo Generation” of genes
Song et al. Constrained non-coding sequence provides insights into regulatory elements and loss of gene expression in maize
Gulko et al. Probabilities of fitness consequences for point mutations across the human genome
Ni et al. Underlying causes for prevalent false positives and false negatives in STARR-seq data
Du et al. biomvRhsmm: Genomic Segmentation with Hidden Semi‐Markov Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant