CN114566218A - 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法 - Google Patents

快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法 Download PDF

Info

Publication number
CN114566218A
CN114566218A CN202210259820.7A CN202210259820A CN114566218A CN 114566218 A CN114566218 A CN 114566218A CN 202210259820 A CN202210259820 A CN 202210259820A CN 114566218 A CN114566218 A CN 114566218A
Authority
CN
China
Prior art keywords
human
sequence
mir
promoter
latest
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210259820.7A
Other languages
English (en)
Other versions
CN114566218B (zh
Inventor
蒋澜
杨建课
吕坤
钟民
王祖贞
罗天乐
汪乐瑶
邓汉诺
冯翔
杜金锐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
First Affiliated Hospital of Wannan Medical College
Original Assignee
First Affiliated Hospital of Wannan Medical College
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by First Affiliated Hospital of Wannan Medical College filed Critical First Affiliated Hospital of Wannan Medical College
Priority to CN202210259820.7A priority Critical patent/CN114566218B/zh
Publication of CN114566218A publication Critical patent/CN114566218A/zh
Application granted granted Critical
Publication of CN114566218B publication Critical patent/CN114566218B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种快速筛选人源hsa‑miR‑576‑3p与启动子结合靶点的方法,包括如下步骤:下载人类最新基因组序列和对应的注释文件,以及人源hsa‑miR‑576‑3p序列文件;从下载的人类最新基因组序列中提取人类最新基因组序列的染色体长度,并由此从人类最新基因组序列和对应的注释文件中提取启动子的序列;通过seedVicious软件筛选人源hsa‑miR‑576‑3p序列与S2提取的启动子序列,保留与miRNA种子序列完全匹配靶标的种类,获得mmu‑miR‑25‑3p与启动子靶标的预测结果。本发明利用现有数据和软件,在计算机上实现快速对人源hsa‑miR‑576‑3p与启动子结合靶点的筛选。

Description

快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法
技术领域
本发明属于生物医学技术领域,具体设涉及一种快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法。
背景技术
microRNAs(miRNAs)是一种小的,类似于siRNA的分子,由高等真核生物基因组编码,miRNA通过和靶基因mRNA碱基配对引导沉默复合体(RISC)降解mRNA或阻碍其翻译。miRNAs在物种进化中相当保守,在植物、动物和真菌中发现的miRNAs只在特定的组织和发育阶段表达,miRNA组织特异性和时序性,决定组织和细胞的功能特异性,表明miRNA在细胞生长和发育过程的调节过程中起多种作用。目前对于microRNAs的研究越来越被重视,其对于很多疾病的诊断有着重大价值。
启动子是一段位于结构基因5'端上游区的DNA序列,能活化RNA聚合酶,使之与模板DNA准确地相结合并具有转录起始的特异性。因为基因的特异性,转录取决于酶与启动子能否有效地形成二元复合物,故RNA聚合酶如何有效地找到启动子并与之相结合是转录起始过程中首先要解决的问题。有实验表明,对许多启动子来说,RNA聚合酶与之相结合的速率至少比布朗运动中的随机碰撞高100倍。
miRNA是转录和转录后水平的重要调节因子,经典miRNA研究内容是通过整合到RNA诱导的沉默复合物(RISC)中,随后miRNA的种子序列与3'UTR区域中的靶基因mRNA碱基配对,抑制靶基因的表达。非经典研究包括miRNA与启动子靶点结合促进核激活的研究。然而,现有的技术方案无法直接用于miRNA与启动子靶点的结合,现有预测软件和网站均无维护或无法实现这一功能,急需一种快速筛选人源hsa-miR-576与启动子靶点结合的方法,用于非经典研究。
发明内容
发明目的:本发明目的在于针对现有技术的不足,提供一种快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法。
技术方案:本发明所述快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,包括如下步骤:
S1、下载人类最新基因组序列和对应的注释文件,以及人源hsa-miR-576-3p序列文件;
S2、在计算机中,将人类最新基因组序列对应的注释文件由gff格式转换为bed格式;从下载的人类最新基因组序列中提取人类最新基因组序列的染色体长度,并由此从人类最新基因组序列和对应的注释文件中提取启动子的序列;
S3、通过seedVicious软件筛选人源hsa-miR-576-3p序列与S2提取的启动子序列,保留与miRNA种子序列完全匹配靶标的种类,获得mmu-miR-25-3p与启动子靶标的预测结果。
本发明进一步优选地技术方案为,在步骤S1中从GENCODE数据库中下载人类最新基因组序列fasta和对应的注释文件gff,从miRBase数据库中下载人源hsa-miR-576-3p序列fasta文件。
作为优选地,步骤S2中在对基因组序列和注释文件进行处理前,先通过计算机的终端平台将下载的文件解压。
优选地,步骤S2中通过samtools软件提取人类最新基因组序列的染色体长度。
优选地,步骤S2中通过bedtools软件提取启动子序列。
有益效果:本发明利用现有数据和软件,在计算机上实现快速对人源hsa-miR-576-3p与启动子结合靶点的筛选,避开了很多前人开发的工作无法直接使用或软件不再维护的问题,方便后续非经典研究使用。
具体实施方式
下面对本发明技术方案进行详细说明,但是本发明的保护范围不局限于所述实施例。
实施例:一种快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,以下步骤全部在计算机的终端上完成,具体如下:
S1、下载安装samtools、bedtools、bedops和seedVicious软件:
下载安装samtools
https://github.com/samtools/samtools/releases/download/1.14/samtools-1.14.tar.bz2
放置在soft文件夹中。
>tar-jxvfsamtools-1.14.tar.bz2
>cd/Users/Documents/soft/samtools-1.14
>./configure--prefix=/Users/Documents/soft/samtools-1.14
>make
>make install
>echo‘export PATH=$PATH:~/Users/Documents/soft/samtools-1.14’>>~/.bashrc
>source~/.bashrc
下载安装bedtools
>cd~/Users/Documents/soft
>wget
https://github.com/arq5x/bedtools2/releases/download/v2.29.1/bedtools-2.29.1.tar.gz
>tar-zxvfbedtools-2.29.1.tar.gz
>cdbedtools2
>make
>echo'export PATH=$PATH:~/Users/Documents/soft/bedtools2'>>~/.bashrc
>source~/.bashrc
下载安装bedops
根据计算机系统,下载最新bedops进行安装https://bedops.readthedocs.io/en/latest/。
下载安装seedVicious
>cd~/Users/Documents/soft
>curl-O https://seedvicious.essex.ac.uk/seedVicious_v1.3_x64.tar.gz
tar-xvfseedVicious_v1.3_x64.tar.gz
>echo'export PATH=$PATH:~/Users/Documents/soft/seedVicious_v1.3_x64'>>~/.bashrc
>source~/.bashrc
>seedViciousTest
>seedVicious–help
S2、下载人类最新基因组序列和对应的注释文件,以及人源hsa-miR-576-3p序列文件:
下载GENCODE数据库中人类最新基因组序列fasta和注释文件gff。
https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_39/GRCh38.p13.genome.fa.gz
https://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_39/ gencode.v39.chr_patch_hapl_scaff.annotation.gff3.gz
下载miRBase数据库中人源hsa-miR-576-3p序列fasta文件,并命名为mmu_miR_25_3p.fa,具体序列如下:
>hsa-miR-576-3p MIMAT0004796
AAGAUGUGGAAAAAUUGGAAUC
S3、数据整理,在计算机中,将人类最新基因组序列对应的注释文件由gff格式转换为bed格式;从下载的人类最新基因组序列中提取人类最新基因组序列的染色体长度,并由此从人类最新基因组序列和对应的注释文件中提取启动子的序列:
打开终端terminal
解压gencode.v39.chr_patch_hapl_scaff.annotation.gff3.gz
>gzip-d gencode.v39.chr_patch_hapl_scaff.annotation.gff3.gz
提取gff文件的所有基因位置,转换成bed格式
>awk'{if($3~/^gene$/)print}'gencode.v39.annotation.gff3>hsgenes39.gff
>gff2bed<hsgenes39.gff>hsgenes39.bed
提取染色体长度
>gzip-d GRCh38.p13.genome.fa.gz
>samtools faidx GRCh38.p13.genome.fa
>cut-f 1,2GRCh38.p13.genome.fa.fai>length.chr
提取启动子promoter的序列
>bedtools flank-i hsgenes39.bed-g length.chr-l 3000-r 2000-s>promoter5000.bed
>bedtools getfasta-s-fi GRCh38.p13.genome.fa-bed promoter5000.bed-fopromoter5000.fa-name
S4、通过seedVicious软件筛选人源hsa-miR-576-3p序列与S2提取的启动子序列,保留与miRNA种子序列完全匹配靶标的种类,获得mmu-miR-25-3p与启动子靶标的预测结果:
>cd human
>seedVicious-i promoter5000.fa-m hsa_miR_576_3p.fa-ve-ohsamiR576promoter_ve.txt
>seedVicious-i promoter5000.fa-m hsa_miR_576_3p.fa-e-ohsamiR576promoter_e.txt
保留与miRNA种子序列(seed sequence)完全匹配靶标的种类,即hsamiR576promoter_e.txt表中第四列type的8mer,获得4877个hsa-miR-576-3p与启动子靶标的预测结果。hsa-miR-576-3p与某基因启动子靶标的具体位置图可以参考hsamiR576promoter_ve.txt。
如上所述,尽管参照特定的优选实施例已经表示和表述了本发明,但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下,可对其在形式上和细节上作出各种变化。

Claims (5)

1.一种快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,其特征在于,包括如下步骤:
S1、下载人类最新基因组序列和对应的注释文件,以及人源hsa-miR-576-3p序列文件;
S2、在计算机中,将人类最新基因组序列对应的注释文件由gff格式转换为bed格式;从下载的人类最新基因组序列中提取人类最新基因组序列的染色体长度,并由此从人类最新基因组序列和对应的注释文件中提取启动子的序列;
S3、通过seedVicious软件筛选人源hsa-miR-576-3p序列与S2提取的启动子序列,保留与miRNA种子序列完全匹配靶标的种类,获得mmu-miR-25-3p与启动子靶标的预测结果。
2.根据权利要求1所述的快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,其特征在于,在步骤S1中从GENCODE数据库中下载人类最新基因组序列fasta和对应的注释文件gff,从miRBase数据库中下载人源hsa-miR-576-3p序列fasta文件。
3.根据权利要求2所述的快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,其特征在于,步骤S2中在对基因组序列和注释文件进行处理前,先通过计算机的终端平台将下载的文件解压。
4.根据权利要求3所述的快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,其特征在于,步骤S2中通过samtools软件提取人类最新基因组序列的染色体长度。
5.根据权利要求4所述的快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法,其特征在于,步骤S2中通过bedtools软件提取启动子序列。
CN202210259820.7A 2022-03-16 2022-03-16 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法 Expired - Fee Related CN114566218B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210259820.7A CN114566218B (zh) 2022-03-16 2022-03-16 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210259820.7A CN114566218B (zh) 2022-03-16 2022-03-16 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法

Publications (2)

Publication Number Publication Date
CN114566218A true CN114566218A (zh) 2022-05-31
CN114566218B CN114566218B (zh) 2022-10-25

Family

ID=81719136

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210259820.7A Expired - Fee Related CN114566218B (zh) 2022-03-16 2022-03-16 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法

Country Status (1)

Country Link
CN (1) CN114566218B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140124601A (ko) * 2013-04-17 2014-10-27 엘지전자 주식회사 췌장암 진단용 바이오마커, 이를 위한 컴퓨팅 장치 및 이의 제어 방법
US20150356239A1 (en) * 2012-12-12 2015-12-10 The Broad Institute Inc. Methods, models, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
CN105483275A (zh) * 2016-02-01 2016-04-13 北京泱深生物信息技术有限公司 mir-1299及其成熟miRNA的新用途
CN108460247A (zh) * 2018-03-29 2018-08-28 上海锐翌生物科技有限公司 基于kras和ndrg4基因确定结直肠肿瘤细胞的方法和系统
CN110272918A (zh) * 2018-03-15 2019-09-24 秦川 miR-34a诱导沉默基因表达载体的构建及其应用
CN111354418A (zh) * 2020-01-19 2020-06-30 上海欧易生物医学科技有限公司 基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法
US20200353100A1 (en) * 2015-05-26 2020-11-12 Salk Institute For Biological Studies Motor neuron-specific expression vectors
CN111979242A (zh) * 2020-06-29 2020-11-24 华南农业大学 H3K27me3调控Ssc-miR-143-3p转录在猪卵巢颗粒细胞中的应用
WO2021243289A1 (en) * 2020-05-29 2021-12-02 The General Hospital Corporation Systems and methods for stable and heritable alteration by precision editing (shape)
WO2022026410A2 (en) * 2020-07-27 2022-02-03 Voyager Therapeutics, Inc Compositions and methods for the treatment of niemann-pick type c1 disease

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150356239A1 (en) * 2012-12-12 2015-12-10 The Broad Institute Inc. Methods, models, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
KR20140124601A (ko) * 2013-04-17 2014-10-27 엘지전자 주식회사 췌장암 진단용 바이오마커, 이를 위한 컴퓨팅 장치 및 이의 제어 방법
US20200353100A1 (en) * 2015-05-26 2020-11-12 Salk Institute For Biological Studies Motor neuron-specific expression vectors
CN105483275A (zh) * 2016-02-01 2016-04-13 北京泱深生物信息技术有限公司 mir-1299及其成熟miRNA的新用途
CN110272918A (zh) * 2018-03-15 2019-09-24 秦川 miR-34a诱导沉默基因表达载体的构建及其应用
CN108460247A (zh) * 2018-03-29 2018-08-28 上海锐翌生物科技有限公司 基于kras和ndrg4基因确定结直肠肿瘤细胞的方法和系统
CN111354418A (zh) * 2020-01-19 2020-06-30 上海欧易生物医学科技有限公司 基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法
WO2021243289A1 (en) * 2020-05-29 2021-12-02 The General Hospital Corporation Systems and methods for stable and heritable alteration by precision editing (shape)
CN111979242A (zh) * 2020-06-29 2020-11-24 华南农业大学 H3K27me3调控Ssc-miR-143-3p转录在猪卵巢颗粒细胞中的应用
WO2022026410A2 (en) * 2020-07-27 2022-02-03 Voyager Therapeutics, Inc Compositions and methods for the treatment of niemann-pick type c1 disease

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
ANTONIO MARCO: "SeedVicious: Analysis of microRNA target and near-target sites", 《PLOS ONE》 *
HUI REN ET AL.: "miRNA-seq analysis of human vertebrae provides insight into the mechanism underlying GIOP", 《BONE》 *
LAN JIANG ET AL.: "SWEET Transporters and the Potential Functions of These Sequences in Tea (Camellia sinensis)", 《FRONTIERS IN GENETICS》 *
刘伟: "人类转录因子靶基因预测、分析及数据库构建", 《中国博士学位论文全文数据库基础科学辑》 *
李明阳 等: "hsa-miR-22-3p 和hsa-miR-671-5p 靶标基因的预测及其与癌症患者生存率的相关性", 《中国生物制品学杂志》 *

Also Published As

Publication number Publication date
CN114566218B (zh) 2022-10-25

Similar Documents

Publication Publication Date Title
Marsico et al. PROmiRNA: a new miRNA promoter recognition method uncovers the complex regulation of intronic miRNAs
Mackowiak Identification of novel and known miRNAs in deep‐sequencing data with miRDeep2
Evers et al. miRA: adaptable novel miRNA identification in plants using small RNA sequencing data
Zhao et al. Methods of MicroRNA promoter prediction and transcription factor mediated regulatory network
Lindow et al. Computational evidence for hundreds of non-conserved plant microRNAs
Hackl et al. Computational identification of microRNA gene loci and precursor microRNA sequences in CHO cell lines
Hoffmann et al. Accurate mapping of tRNA reads
Ji RibORF: Identifying genome‐wide translated open reading frames using ribosome profiling
CN106868005B (zh) 一种用于高效快速扩增cDNA末端的锚定引物及扩增方法
Bortolomeazzi et al. A survey of software tools for microRNA discovery and characterization using RNA-seq
Tanzer et al. Evolution of microRNAs
Zheng Computational non-coding RNA Biology
Fiszbein et al. Widespread occurrence of hybrid internal-terminal exons in human transcriptomes
CN114566218B (zh) 快速筛选人源hsa-miR-576-3p与启动子结合靶点的方法
CN102789553A (zh) 利用长转录组测序结果装配基因组的方法及装置
Cora et al. Ab initio identification of putative human transcription factor binding sites by comparative genomics
Yu et al. PmiRDiscVali: an integrated pipeline for plant microRNA discovery and validation
Yousef et al. Species categorization via MicroRNAs based on 3’UTR target sites using sequence features
CN114550821B (zh) 快速筛选小鼠mmu-miR-25-3p与启动子结合靶点的方法
CN111808935B (zh) 一种植物内源siRNA转录调控关系的鉴定方法
CN108265053B (zh) 一种抑制外显子剪切抑制子功能的反义寡核苷酸的筛选方法
EP1608786A2 (en) Genomic profiling of regulatory factor binding sites
Mármol-Sánchez et al. Discovery and annotation of novel microRNAs in the porcine genome by using a semi-supervised transductive learning approach
US20190325987A1 (en) Direct Interaction Between 5&#39; UTR and 3&#39; UTR Enhances miRNA Translation Repression
Wu et al. Poly (A)-tag deep sequencing data processing to extract poly (A) sites

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221025