CN114550817B - 基于多特征的ctcf介导染色质环预测方法 - Google Patents

基于多特征的ctcf介导染色质环预测方法 Download PDF

Info

Publication number
CN114550817B
CN114550817B CN202210086044.5A CN202210086044A CN114550817B CN 114550817 B CN114550817 B CN 114550817B CN 202210086044 A CN202210086044 A CN 202210086044A CN 114550817 B CN114550817 B CN 114550817B
Authority
CN
China
Prior art keywords
ctcf
site
loop
motif data
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210086044.5A
Other languages
English (en)
Other versions
CN114550817A (zh
Inventor
罗静
彭文钰
于小娟
林国亮
颜培祺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yunnan University YNU
Original Assignee
Yunnan University YNU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yunnan University YNU filed Critical Yunnan University YNU
Priority to CN202210086044.5A priority Critical patent/CN114550817B/zh
Publication of CN114550817A publication Critical patent/CN114550817A/zh
Application granted granted Critical
Publication of CN114550817B publication Critical patent/CN114550817B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Genetics & Genomics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于多特征的CTCF介导染色质环预测方法,对于待预测的细胞系收集蛋白质数据和样本DNA序列,在样本DNA序列中确定4个关键位点及对应的CTCF motif数据,根据所有样本DNA序列的CTCF motif数据训练Word2Vec模型和Doc2Vec模型,对于每个样本DNA序列分别提取其序列特征和蛋白质特征,然后拼接得到该样本DNA序列的特征向量,将样本DNA序列的特征向量作为输入、将CTCF介导染色质环是否存在的样本标签作为期望输出,对构建的CTCF介导染色质环预测模型进行训练,当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,采用相同方法得到特征向量,输入训练好的CTCF介导染色质环预测模型得到预测结果。本发明可有效提高CTCF介导染色质环的预测准确率。

Description

基于多特征的CTCF介导染色质环预测方法
技术领域
本发明属于生物信息技术领域,更为具体地讲,涉及一种基于多特征的CTCF介导染色质环预测方法。
背景技术
人类基因组中染色体的三维结构对于理解基因调控原理和疾病机制至关重要,随着Hi-C、CHIA-PET等用于染色质高维映射方法的出现,揭示了高阶基因组组织中含有比我们之前认为的更复杂的全局染色质相互作用。全基因组分析表明,在染色质环的转点处富集CTCF(CCCTC binding factor)转录因子,普遍认为,CTCF具有形成染色质环的能力。
在目前染色质环的预测研究工作中,研究者通过不同的特征去预测某个细胞系的染色质环。例如可以利用基因组和表观基因组特征,基于随机森林分类器的机器学习框架来预测CTCF介导的染色质环,这一种方法针对同一种细胞系进行预测时,精度很高,针对不同细胞系的染色质环预测时,效果却不够好。还可以基于序列的特征,使用word2vec和XGBoost预测一对收敛的CTCF基序是否会形成一个染色质环,这种方法使用word2vec无监督学习的方式,针对序列,进行染色质环的预测,无论在同一细胞系还是不同细胞系的染色质环的预测,精度都不够高。
此外,经过研究发现,也不是所有的CTCF都会形成染色质环,因此有理由推测,在基因组背景下,除了CTCF基序外还有其他因素可能对形成CTCF介导的染色质环造成影响,而现有方法中均未考虑这些未知因素。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于多特征的CTCF介导染色质环预测方法,将自然语言处理的思想应用于提取染色质环的多个特征,能够覆盖更多与染色质成环的相关因素,从而有效提高CTCF介导染色质环的预测准确率。
为了实现上述发明目的,本发明基于多特征的CTCF介导染色质环预测方法包括以下步骤:
S1:对于待预测的细胞系,确定该细胞系中的组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq,记两种蛋白质的总数为K,然后收集若干包含CTCF介导染色质环的样本DNA序列和若干未包含CTCF介导染色质环的样本DNA序列,分别作为正样本和负样本,并设置CTCF介导染色质环是否存在的样本标签,将每条样本DNA序列按照预设规则进行提取得到若干条长度为N的CTCF motif数据;
对于正样本,根据CTCF介导染色质环的位置确定染色质环起始位点Loop Start和结束位点Loop End,对于负样本,在两个CTCF位点中指定染色质环起始位点Loop Start和结束位点Loop End;然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop Start左侧的CTCF位点Left CTCF site,结束位点Loop End右侧CTCF位点Right CTCF site,将这4个位点作为关键位点;对于每条样本DNA序列的4个关键位点,分别从所有CTCF motif数据中匹配得到这4个关键位点对应的CTCF motif数据,当某个关键位点未成功匹配到CTCFmotif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替;
S2:对于所有样本DNA序列的所有CTCF motif数据按照预设规则进行分词,分词完成后按照染色质位置形成词袋,使用Word2Vec训练,得到训练好的Word2Vec模型;
对于所有样本DNA序列的所有CTCF motif数据,将每条CTCF motif数据作为一条语句,将所有CTCF motif数据按照染色质的位置组成上下文,使用Doc2Vec训练,得到训练好的Doc2Vec模型;
S3:对于每个样本DNA序列分别提取其序列特征,具体方法包括以下步骤:
S3.1:对于每个样本DNA序列中位点Left CTCF site、位点Loop Start、位点LoopEnd、位点Right CTCF site对应的CTCF motif数据,提取16种双核苷酸中每种双核在该CTCF motif数据中的数量,构成16维的双核苷酸数向量,分别记为SLeft、SStart、SEnd、SRight,将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S;
S3.2:对于每个样本DNA序列,将位点Loop Start和位点Loop End对应的双核苷酸数向量SStart、SEnd作为一对,将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量SLeft、SRight作为一对,分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度PLoop、PCTCF
S3.3:对于每个样本DNA序列,将位点Loop Start和位点Loop End对应的CTCFmotif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Word2vec的序列相似度WLoop、WCTCF,具体方法为:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCFmotif数据基于Word2vec的序列相似度为绝对小值,否则根据训练好的Word2Vec模型获取每条CTCF motif数据中每个词的词向量,然后计算两条CTCF motif数据中对应位置词的词向量相似度,将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度;
S3.4:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Doc2Vec的序列相似度DLoop、DCTCF,具体方法如下:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCFmotif数据基于Doc2vec的序列相似度为绝对小值,否则根据训练好的Doc2Vec模型得到每条CTCF motif数据的语句向量,计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度;
S3.5:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,计算每对CTCF motif数据基于序列模式的相似度MLoop、MCTCF,具体计算方法如下:对于一对CTCF motif数据,分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand,strand为“+”代表正链,strand为“-”代表负链,strand为“.”代表没有链的信息,然后比较两条CTCF motif数据的strand信息:
如果两条CTCF motif数据的strand信息均为“.”,则该对CTCF motif数据基于序列模式的相似度为0;
如果两条CTCF motif数据有其中一条的strand信息为“.”,另一条的strand信息不为“.”,则该对CTCF motif数据基于序列模式的相似度为1;
如果两条CTCF motif数据的strand信息均不为“.”且相同时,则该对CTCF motif数据基于序列模式的相似度为2;
如果两条CTCF motif数据的strand信息均不为“.”且不相同时,则该对CTCFmotif数据基于序列模式的相似度为3;
S3.6:对于每个样本DNA序列,获取位点Left CTCF site到位点Loop Start的长度LLeft,获取位点Loop End到位点Right CTCF site的长度LRight
S3.7:对于每个样本DNA序列,将其提取得到的64维的序列双核苷酸数向量S,基于皮尔森的序列相似度PLoop、PCTCF,基于Word2vec的序列相似度WLoop、WCTCF,基于Doc2Vec的序列相似度DLoop、DCTCF,基于序列模式的相似度MLoop、MCTCF以及长度LLeft、LRight拼接得到74维的特征向量作为该样本DNA序列的序列特征;
S4:对每个样本DNA序列提取得到蛋白质特征,具体方法包括以下步骤:
S4.1:对于每个样本DNA序列,在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点RightCTCF site的两侧分别根据预设偏移值确定两个位点,左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end,CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start,CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loopend,右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF end,根据以上位点将样本DNA序列划分为7个特征区域:
In_anchor区域:从位点Loop start到位点Loop end之间的区域;
Left_anchor区域:从位点Left Loop start到位点Right Loop start之间的区域;
Right_anchor区域:从位点Left Loop end到位点Right Loop end之间的区域;
Left_local_ctcf区域:从位点Left CTCF start到位点Left CTCF end之间的区域;
Right_local_ctcf区域:从位点Right CTCF start到位点Right CTCF end之间的区域;
Left_Flanking区域:从位点Left CTCF site到位点Loop start之间的区域;
Right_Flanking区域:从位点Loop end到位点Right CTCF start之间的区域;
S4.2:分别统计K种蛋白质在步骤S4.1划分得到的每个特征区域中蛋白质信号量的平均值、最大值、最小值、标准差、方差,以及蛋白质峰值的平均值、最大值、最小值、标准差、方差,即每种蛋白质在每个特征区域得到10个特征,共计得到70×K个特征;
S4.3:对于K种蛋白质,分别确定其在各个特征区域的最大值位置,再根据预设偏移值确定最大值区域,然后计算该种蛋白质在该最大值区域的平均RPKM值和RPKM值的标准差,共计得到14×K个特征;
S4.4:对于K种蛋白质,分别计算其在各个特征区域中最大值区域的平均TPM值和TPM值的标准差,共计得到14×K个特征;
S4.5:对于每个样本DNA序列,将步骤S4.2得到的70×K个特征、步骤S4.3得到的14×K个特征、步骤S4.4得到14×K个特征拼接得到98×K维的特征向量作为该样本DNA序列的序列特征;
S5:对于每个样本DNA序列,将其对应的序列特征和蛋白质特征拼接得到74+98×K维的特征向量,该特征向量作为训练样本中的输入,将该样本DNA序列对应的样本标签作为训练样本中的期望输出,得到训练样本;
S6:根据实际需要构建CTCF介导染色质环预测模型,其输入为74+98×K维的特征向量,输出为染色质环是否存在的预测结果;
S7:采用步骤S5得到的训练样本,对步骤S6构建的染色质环预测模型进行训练,得到训练好的CTCF介导染色质环预测模型;
S8:当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点LoopStart和结束位点Loop End,然后搜索起始位点Loop Start左侧的CTCF位点Left CTCFsite,结束位点Loop End右侧CTCF位点Right CTCF site,在待预测DNA序列中的所有CTCFmotif数据中匹配得到4个关键位点所对应的CTCF motif数据,当某个关键位点未成功匹配到CTCF motif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替;按照步骤S3中的方法提取出待预测DNA序列的序列特征,按照步骤S4中的方法提取出待预测DNA序列的蛋白质特征,然后拼接得到特征向量,输入训练好的CTCF介导染色质环预测模型中,得到是否存在CTCF介导染色质环的预测结果。
本发明基于多特征的CTCF介导染色质环预测方法,对于待预测的细胞系收集蛋白质数据和样本DNA序列,在样本DNA序列中确定4个关键位点及对应的CTCF motif数据,根据所有样本DNA序列的CTCF motif数据训练Word2Vec模型和Doc2Vec模型,对于每个样本DNA序列分别提取其序列特征和蛋白质特征,然后拼接得到该样本DNA序列的特征向量,将样本DNA序列的特征向量作为输入、将CTCF介导染色质环是否存在的样本标签作为期望输出,对构建的CTCF介导染色质环预测模型进行训练,当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,采用相同方法得到特征向量,输入训练好的CTCF介导染色质环预测模型得到预测结果。
本发明具有以下有益效果:
1)本发明提取DNA序列的序列特征和蛋白质特征,以覆盖更多的特征,有效提高CTCF介导染色质环的预测准确率。
2)本发明将自然语言处理的思想应用于提取染色质环的相关特征,有助于更智能的探索更多与染色质成环相关的因素,进一步提高CTCF介导染色质环的预测准确率。
附图说明
图1是本发明基于多特征的CTCF介导染色质环预测方法的具体实施方式流程图;
图2是本实施例中DNA序列中4个关键位点的区域示意图;
图3是本发明中提取序列特征的流程图;
图4是本发明中提取蛋白特征的流程图;
图5是本发明中样本DNA序列的7个特征区域的示意图;
图6是本实施例中本发明和对比方法对三个细胞系的CTCF介导的染色环预测结果统计。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
图1是本发明基于多特征的CTCF介导染色质环预测方法的具体实施方式流程图。如图1所示,本发明基于多特征的CTCF介导染色质环预测方法的具体步骤包括:
S101:细胞系数据收集:
对于待预测的细胞系,确定该细胞系中的组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq,记两种蛋白质的总数为K。然后收集若干包含CTCF介导染色质环的样本DNA序列和若干未包含CTCF介导染色质环的样本DNA序列,分别作为正样本和负样本,并设置CTCF介导染色质环是否存在的样本标签,将每条样本DNA序列按照预设规则进行提取得到若干条长度为N的CTCF motif数据。
对于正样本,根据CTCF介导染色质环的位置确定CTCF介导染色质环起始位点LoopStart和结束位点Loop End,对于负样本,在两个CTCF位点中指定CTCF介导染色质环起始位点Loop Start和结束位点Loop End。然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop Start左侧的CTCF位点Left CTCF site,结束位点Loop End右侧CTCF位点RightCTCF site,将这4个位点作为关键位点。对于每条样本DNA序列的4个关键位点,分别从所有CTCF motif数据中匹配得到这4个关键位点对应的CTCF motif数据,当某个关键位点未成功匹配到CTCF motif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替。
本实施例中设置了三个细胞系分别进行CTCF介导染色质环预测实验,分别为:K562、GM12878、HELA-S4,组蛋白和结合蛋白数据来自ENCODER PROJECT(http://encodeproject.org/data/annotations)。表1是本实施例中各个细胞系使用的蛋白质数量表。
细胞系 蛋白质数量
GM12878 182
K562 202
HeLa-S4 143
表1
图2是本实施例中DNA序列中4个关键位点的区域示意图。如图2所示,本实施例中每条CTCF motif数据的长度为18,即包含了18个碱基(ATCG)。CTCF motif数据的长度在实际应用中可以根据需要设置。在实际应用中,Left CTCF site和Loop Start之间的距离通常是大于18个基因的,因此每个位点匹配到的CTCF motif数据是不一样的。如果存在未匹配到CTCF motif数据的位点,需要将该位点的CTCF motif数据采用预设字符序列代替,由于后续提取序列特征时是将CTCF motif数据看作A(腺嘌呤),T(胸腺嘧啶),G(鸟嘌呤),C(胞嘧啶)组成的字符串,因此用于代替CTCF motif数据的预设字符序列优先选择与A、T、G、C距离较远的字符。
S102:训练Word2Vec模型和Doc2Vec模型:
为了更加全面覆盖CTCF介导染色质环的形成的因素,本发明需要提取每个DNA序列的序列特征和蛋白特征。在序列特征提取中,本发明将DNA序列看作是A,T,G,C组成的字符串,将CTCF motif数据看作是语句,提取其中的语义特征,作为序列特征的组成部分。为了后续的语义特征提取,需要先训练Word2Vec模型和Doc2Vec模型,具体方法如下:
对于所有样本DNA序列的所有CTCF motif数据按照预设规则进行分词,分词完成后按照染色质位置形成词袋,使用Word2Vec训练,得到训练好的Word2Vec模型。
对于所有样本DNA序列的所有CTCF motif数据,将每条CTCF motif数据作为一条语句,将所有CTCF motif数据按照染色质的位置组成上下文,使用Doc2Vec训练,得到训练好的Doc2Vec模型。
Word2vec模型和Doc2Vec模型都是常用的自然语言处理模型,其具体原理和训练过程在此不再赘述。
S103:提取序列特征:
其中序列特征包括序列双核苷酸数、基于皮尔森的序列相似度、基于Word2vec的序列相似度、基于Doc2vec的序列相似度、基于序列模式的相似度、序列的长度等6种特征。图3是本发明中提取序列特征的流程图。如图3所示,本发明中提取序列特征的具体步骤包括:
S301:提取序列双核苷酸数向量:
DNA序列的特征主要是基于序列双核苷酸频率分布提取,所以对于DNA序列,首先需要提取每个CTCF motif数据中的序列双核苷酸数。由于DNA序列可以看成A,T,G,C组成的字符串,那么双核苷酸就是长度为2的非空子串,即有16种双核苷酸AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT。因此在本发明中,对于每个样本DNA序列中位点LeftCTCF site、位点Loop Start、位点Loop End、位点Right CTCF site对应的CTCF motif数据,提取16种双核苷酸中每种双核在该CTCF motif数据中的数量,构成16维的双核苷酸数向量,分别记为SLeft、SStart、SEnd、SRight,将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S。
S302:提取基于皮尔森的序列相似度:
对于每个DNA序列,将位点Loop Start和位点Loop End对应的双核苷酸数向量SStart、SEnd作为一对,将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量SLeft、SRight作为一对,分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度PLoop、PCTCF
皮尔森相关系数是一种常用的相关系数,其具体计算过程在此不再赘述。
S303:提取基于Word2vec的序列相似度:
对于每个DNA序列,将位点Loop Start和位点Loop End对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Word2vec的序列相似度WLoop、WCTCF,具体方法为:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCF motif数据基于Word2vec的序列相似度为绝对小值,否则根据训练好的Word2Vec模型获取每条CTCF motif数据中每个词的词向量,然后计算两条CTCF motif数据中对应位置词的词向量相似度,将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度。
假设一对CTCF motif数据如下:
motif A=[ATCGCGTACGGACGATAA]
motif B=[CCGATCCTATTGACGATG]
当按照长度为2、步长为2进行分词,那么分词后的CTCF motif数据如下:
A=[AT、CG、CG、TA、CG、GA、CG、AT、AA]
B=[CC、GA、TC、CT、AT、TG、AC、GA、TG]
利用训练好的word2vec模型计算AT和CC的词相似性,CG和GA的词相似性,以此类推,再将所有9对词的相似性累加,就得到了motif A和motif B基于Word2vec的序列相似度。
S304:提取基于Doc2vec的序列相似度:
对于每个DNA序列,将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Doc2Vec的序列相似度DLoop、DCTCF,具体方法如下:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCF motif数据基于Doc2vec的序列相似度为绝对小值,否则根据训练好的Doc2Vec模型得到每条CTCFmotif数据的语句向量,计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度。
S305:提取基于序列模式的相似度:
对于每个DNA序列,将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,计算每对CTCF motif数据基于序列模式的相似度MLoop、MCTCF,具体计算方法如下:对于一对CTCF motif数据,分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand,strand为“+”代表正链,strand为“-”代表负链,strand为“.”代表没有链的信息,当CTCF motif数据为空时,strand为“.”,然后比较两条CTCF motif数据的strand信息:
如果两条CTCF motif数据的strand信息均为“.”,则该对CTCF motif数据基于序列模式的相似度为0;
如果两条CTCF motif数据有其中一条的strand信息为“.”,另一条的strand信息不为“.”,则该对CTCF motif数据基于序列模式的相似度为1;
如果两条CTCF motif数据的strand信息均不为“.”且相同时,则该对CTCF motif数据基于序列模式的相似度为2;
如果两条CTCF motif数据的strand信息均不为“.”且不相同时,则该对CTCFmotif数据基于序列模式的相似度为3。
S306:提取序列的长度特征:
对于每个样本DNA序列,获取位点Left CTCF site到位点Loop Start的长度LLeft,获取位点Loop End到位点Right CTCF site的长度LRight
S307:组合得到序列特征:
对于每个样本DNA序列,将其提取得到的64维的序列双核苷酸数向量S,基于皮尔森的序列相似度PLoop、PCTCF,基于Word2vec的序列相似度WLoop、WCTCF,基于Doc2Vec的序列相似度DLoop、DCTCF,基于序列模式的相似度MLoop、MCTCF以及长度LLeft、LRight拼接得到74维的特征向量作为该样本DNA序列的序列特征。
S104:提取蛋白质特征:
接下来对每个样本DNA序列提取得到蛋白质特征。图4是本发明中提取蛋白特征的流程图。如图4所示,本发明中提取蛋白质特征的具体步骤包括:
S401:划分特征区域:
对于每个样本DNA序列,在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCF site的两侧分别根据预设偏移值确定两个位点,左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end,CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start,CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end,右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF end,根据以上位点将样本DNA序列划分为7个特征区域。图5是本发明中样本DNA序列的7个特征区域的示意图。如图5所示,本发明中样本DNA序列的7个特征区域分别为:
In_anchor区域:从位点Loop start到位点Loop end之间的区域;
Left_anchor区域:从位点Left Loop start到位点Right Loop start之间的区域;
Right_anchor区域:从位点Left Loop end到位点Right Loop end之间的区域;
Left_local_ctcf区域:从位点Left CTCF start到位点Left CTCF end之间的区域;
Right_local_ctcf区域:从位点Right CTCF start到位点Right CTCF end之间的区域;
Left_Flanking区域:从位点Left CTCF site到位点Loop start之间的区域;
Right_Flanking区域:从位点Loop end到位点Right CTCF start之间的区域。
S402:统计蛋白质信号量和峰值:
分别统计K种蛋白质在步骤S401划分得到的每个特征区域中蛋白质信号量的平均值、最大值、最小值、标准差、方差,以及蛋白质峰值的平均值、最大值、最小值、标准差、方差,即每种蛋白质在每个特征区域得到10个特征,共计得到70×K个特征。
S403:计算蛋白质RPKM值:
在组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq中,RPKM(Reads Per Kilobaseper Million mapped reads)值能很好的表示基因的表达量,该参数表示每百万reads中来自于某基因每千碱基长度的reads数。因此本发明中,对于K种蛋白质,分别确定其在各个特征区域的最大值位置,再根据预设偏移值(本实施例中为2kb)确定最大值区域,然后计算该种蛋白质在该最大值区域的平均RPKM值和RPKM值的标准差,共计得到14×K个特征。
S404:计算蛋白质TPM值:
RPKM值在表示基因的表达量时,忽略了区域内目标基因长度的影响,而TPM(Transcripts Per Million)值在RPKM值的基础上对基因长度做了归一化,同时也能表示基因的表达量。因此,本发明中,对于K种蛋白质,分别计算其在各个特征区域中最大值区域的平均TPM值和TPM值的标准差,共计得到14×K个特征。
S405:组合得到蛋白特征:
对于每个样本DNA序列,将步骤S402得到的70×K个特征、步骤S403得到的14×K个特征、步骤S404得到14×K个特征拼接得到98×K维的特征向量作为该样本DNA序列的序列特征。
本实施例所选用的三个细胞系(GM12878、K562、HeLa-S4)中,每个细胞系的蛋白特征均涉及13个RNA-Seq、Chip-Seq,那么每个细胞系有1274个蛋白特征,包括三种大类的染色质环的蛋白质特征。
S105:获取训练样本:
对于每个样本DNA序列,将其对应的序列特征和蛋白质特征拼接得到74+98×K维的特征向量,该特征向量作为训练样本中的输入,将该样本DNA序列对应的样本标签作为训练样本中的期望输出,得到训练样本。
S106:构建CTCF介导染色质环预测模型:
根据实际需要构建CTCF介导染色质环预测模型,其输入为74+98×K维的特征向量,输出为染色质环是否存在的预测结果。
根据本发明中细胞数据特征向量的特性,梯度提升决策树(GBDT)是一种较为合适的染色质环预测模型,可以采用例如XGBoost模型、pGBRT模型等。由于本发明中得到的细胞数据特征向量维度较大且数据量较大,常规模型的效率和可伸缩性较难达到要求,主要原因在于对于每个特征,常规模型都需要扫描所有数据实例以估计所有可能的分割点的信息增益,这非常耗时。为了解决这个问题,本实施例选用了LightGBM模型作为CTCF介导染色质环预测模型。LightGBM全称为Light Gradient Boosting Machine,是一个基于决策树,具有快速、分布式、高性能特点的梯度提升框架,它可被用于排行、分类以及其他许多机器学习任务中。LightGBM的特点是训练快速高效、占内存小、准确率高、支持GPU并行操作,可以对大数据操作。LightGBM模型采用了两种技术:基于梯度的单侧采样(GOSS)和排他特征捆绑(EFB)。通过使用GOSS,LightGBM排除了很大一部分具有小梯度的数据实例,而只使用其他实例来估计信息增益。LightGBM证明,由于具有较大梯度的数据实例在信息增益的计算中起着更重要的作用,GOSS可以在较小的数据量下获得相当精确的信息增益估计。通过使用EFB,LightGBM将互斥特征(即它们很少同时取非零值)捆绑在一起,以减少特征的数量。在多个公共数据集上的实验表明,LightGBM模型在达到几乎相同的精度的同时,将传统GBDT的训练速度提高了20倍以上。
S107:训练CTCF介导染色质环预测模型:
采用步骤S105得到的训练样本,对步骤S106构建的染色质环预测模型进行训练,得到训练好的CTCF介导染色质环预测模型。
S108:CTCF介导染色质环预测:
当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点Loop Start和结束位点Loop End,然后搜索起始位点Loop Start左侧的CTCF位点Left CTCF site,结束位点Loop End右侧CTCF位点Right CTCF site,在待预测DNA序列中的所有CTCF motif数据中匹配得到42个关键位点所对应的CTCF motif数据,当某个关键位点未成功匹配到CTCFmotif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替。按照步骤S103中的方法提取出待预测DNA序列的序列特征,按照步骤S104中的方法提取出待预测DNA序列的蛋白质特征,然后拼接得到特征向量,输入训练好的CTCF介导染色质环预测模型中,得到是否存在CTCF介导染色质环的预测结果。
为了更好地说明本发明的技术效果,采用三个细胞系GM12878、K562、HeLa-S4作为实例进行实验验证。采用文献“Kai Y,Andricovich J,Zeng Z,et al.Predicting CTCF-mediated chromatin interactions by integrating genomic and epigenomicfeatures[J].Nature Communications,2018,9(1).”中提出的基于Lollipop模型的CTCF介导染色质环预测方法作为对比方法,统计本发明和对比方法的AUC(Area Under Curve)、F1值、Precision(准确率)、Recall(召回率)作为评价指标。图6是本实施例中本发明和对比方法对三个细胞系的CTCF介导染色质环预测结果统计对比图。如图6所示,在三个细胞系中,本发明在四个评价指标中都较对比方法有了明显提升。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于多特征的CTCF介导染色质环预测方法,其特征在于,包括以下步骤:
S1:对于待预测的细胞系,确定该细胞系中的组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq,记两种蛋白质的总数为K,然后收集若干包含CTCF介导染色质环的样本DNA序列和若干未包含CTCF介导染色质环的样本DNA序列,分别作为正样本和负样本,并设置CTCF介导染色质环是否存在的样本标签,将每条样本DNA序列按照预设规则进行提取得到若干条长度为N的CTCF motif数据;
对于正样本,根据CTCF介导染色质环的位置确定染色质环起始位点Loop Start和结束位点Loop End,对于负样本,在两个CTCF位点中指定染色质环起始位点Loop Start和结束位点Loop End;然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop Start左侧的CTCF位点Left CTCF site,结束位点Loop End右侧CTCF位点Right CTCF site,将这4个位点作为关键位点;对于每条样本DNA序列的4个关键位点,分别从所有CTCF motif数据中匹配得到这4个关键位点对应的CTCF motif数据,当某个关键位点未成功匹配到CTCFmotif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替;
S2:对于所有样本DNA序列的所有CTCF motif数据按照预设规则进行分词,分词完成后按照染色质位置形成词袋,使用Word2Vec训练,得到训练好的Word2Vec模型;
对于所有样本DNA序列的所有CTCF motif数据,将每条CTCF motif数据作为一条语句,将所有CTCF motif数据按照染色质的位置组成上下文,使用Doc2Vec训练,得到训练好的Doc2Vec模型;
S3:对于每个样本DNA序列分别提取其序列特征,具体方法包括以下步骤:
S3.1:对于每个样本DNA序列中位点Left CTCF site、位点Loop Start、位点Loop End、位点Right CTCF site对应的CTCF motif数据,提取16种双核苷酸中每种双核在该CTCFmotif数据中的数量,构成16维的双核苷酸数向量,分别记为SLeft、SStart、SEnd、SRight,将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S;
S3.2:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的双核苷酸数向量SStart、SEnd作为一对,将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量SLeft、SRight作为一对,分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度PLoop、PCTCF
S3.3:对于每个样本DNA序列,将位点Loop Start和位点Loop End对应的CTCF motif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Word2vec的序列相似度WLoop、WCTCF,具体方法为:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCF motif数据基于Word2vec的序列相似度为绝对小值,否则根据训练好的Word2Vec模型获取每条CTCFmotif数据中每个词的词向量,然后计算两条CTCF motif数据中对应位置词的词向量相似度,将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度;
S3.4:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,分别计算每对CTCF motif数据基于Doc2Vec的序列相似度DLoop、DCTCF,具体方法如下:对于一对CTCF motif数据,如果有任意一条CTCF motif数据为空,则令该对CTCFmotif数据基于Doc2vec的序列相似度为绝对小值,否则根据训练好的Doc2Vec模型得到每条CTCF motif数据的语句向量,计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度;
S3.5:对于每个样本DNA序列,将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对,将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对,计算每对CTCF motif数据基于序列模式的相似度MLoop、MCTCF,具体计算方法如下:对于一对CTCF motif数据,分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand,strand为“+”代表正链,strand为“-”代表负链,strand为“.”代表没有链的信息,然后比较两条CTCF motif数据的strand信息:
如果两条CTCF motif数据的strand信息均为“.”,则该对CTCF motif数据基于序列模式的相似度为0;
如果两条CTCF motif数据有其中一条的strand信息为“.”,另一条的strand信息不为“.”,则该对CTCF motif数据基于序列模式的相似度为1;
如果两条CTCF motif数据的strand信息均不为“.”且相同时,则该对CTCF motif数据基于序列模式的相似度为2;
如果两条CTCF motif数据的strand信息均不为“.”且不相同时,则该对CTCF motif数据基于序列模式的相似度为3;
S3.6:对于每个样本DNA序列,获取位点Left CTCF site到位点Loop Start的长度LLeft,获取位点Loop End到位点Right CTCF site的长度LRight
S3.7:对于每个样本DNA序列,将其提取得到的64维的序列双核苷酸数向量S,基于皮尔森的序列相似度PLoop、PCTCF,基于Word2vec的序列相似度WLoop、WCTCF,基于Doc2Vec的序列相似度DLoop、DCTCF,基于序列模式的相似度MLoop、MCTCF以及长度LLeft、LRight拼接得到74维的特征向量作为该样本DNA序列的序列特征;
S4:对每个样本DNA序列提取得到蛋白质特征,具体方法包括以下步骤:
S4.1:对于每个样本DNA序列,在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCFsite的两侧分别根据预设偏移值确定两个位点,左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end,CTCF介导染色质环起始位点LoopStart的两侧位点分别记为位点Left Loop start、位点Right Loop start,CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end,右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点RightCTCF end,根据以上位点将样本DNA序列划分为7个特征区域:
In_anchor区域:从位点Loop start到位点Loop end之间的区域;
Left_anchor区域:从位点Left Loop start到位点Right Loop start之间的区域;
Right_anchor区域:从位点Left Loop end到位点Right Loop end之间的区域;
Left_local_ctcf区域:从位点Left CTCF start到位点Left CTCF end之间的区域;
Right_local_ctcf区域:从位点Right CTCF start到位点Right CTCF end之间的区域;
Left_Flanking区域:从位点Left CTCF site到位点Loop start之间的区域;
Right_Flanking区域:从位点Loop end到位点Right CTCF start之间的区域;
S4.2:分别统计K种蛋白质在步骤S4.1划分得到的每个特征区域中蛋白质信号量的平均值、最大值、最小值、标准差、方差,以及蛋白质峰值的平均值、最大值、最小值、标准差、方差,即每种蛋白质在每个特征区域得到10个特征,共计得到70×K个特征;
S4.3:对于K种蛋白质,分别确定其在各个特征区域的最大值位置,再根据预设偏移值确定最大值区域,然后计算该种蛋白质在该最大值区域的平均RPKM值和RPKM值的标准差,共计得到14×K个特征;
S4.4:对于K种蛋白质,分别计算其在各个特征区域中最大值区域的平均TPM值和TPM值的标准差,共计得到14×K个特征;
S4.5:对于每个样本DNA序列,将步骤S4.2得到的70×K个特征、步骤S4.3得到的14×K个特征、步骤S4.4得到14×K个特征拼接得到98×K维的特征向量作为该样本DNA序列的序列特征;
S5:对于每个样本DNA序列,将其对应的序列特征和蛋白质特征拼接得到74+98×K维的特征向量,该特征向量作为训练样本中的输入,将该样本DNA序列对应的样本标签作为训练样本中的期望输出,得到训练样本;
S6:根据实际需要构建CTCF介导染色质环预测模型,其输入为74+98×K维的特征向量,输出为染色质环是否存在的预测结果;
S7:采用步骤S5得到的训练样本,对步骤S6构建的染色质环预测模型进行训练,得到训练好的CTCF介导染色质环预测模型;
S8:当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时,将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点Loop Start和结束位点Loop End,然后搜索起始位点Loop Start左侧的CTCF位点Left CTCF site,结束位点Loop End右侧CTCF位点Right CTCF site,在待预测DNA序列中的所有CTCF motif数据中匹配得到4个关键位点所对应的CTCF motif数据,当某个关键位点未成功匹配到CTCFmotif数据时,将该关键位点的CTCF motif数据采用预设字符序列代替;按照步骤S3中的方法提取出待预测DNA序列的序列特征,按照步骤S4中的方法提取出待预测DNA序列的蛋白质特征,然后拼接得到特征向量,输入训练好的CTCF介导染色质环预测模型中,得到是否存在CTCF介导染色质环的预测结果。
2.根据权利要求1所述的CTCF介导染色质环预测方法,其特征在于,所述步骤S6中CTCF介导染色质环预测模型采用LightGBM模型。
CN202210086044.5A 2022-01-25 2022-01-25 基于多特征的ctcf介导染色质环预测方法 Active CN114550817B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210086044.5A CN114550817B (zh) 2022-01-25 2022-01-25 基于多特征的ctcf介导染色质环预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210086044.5A CN114550817B (zh) 2022-01-25 2022-01-25 基于多特征的ctcf介导染色质环预测方法

Publications (2)

Publication Number Publication Date
CN114550817A CN114550817A (zh) 2022-05-27
CN114550817B true CN114550817B (zh) 2022-12-23

Family

ID=81671889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210086044.5A Active CN114550817B (zh) 2022-01-25 2022-01-25 基于多特征的ctcf介导染色质环预测方法

Country Status (1)

Country Link
CN (1) CN114550817B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003058201A2 (en) * 2001-12-31 2003-07-17 Quark Biotech, Inc. Methods for identifying marker genes for cancer
CN101384734A (zh) * 2006-02-17 2009-03-11 Isis创新有限公司 正常和异常基因表达中的dna构象(环结构)
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
CN105861706A (zh) * 2016-05-18 2016-08-17 健路生物科技(苏州)有限公司 一种用于实时荧光pcr的通用探针及其检测方法和应用
CN109415764A (zh) * 2016-07-01 2019-03-01 纳特拉公司 用于检测核酸突变的组合物和方法
CN109890424A (zh) * 2016-07-05 2019-06-14 约翰霍普金斯大学 用于治疗视网膜变性的基于crispr/cas9的组合物和方法
CN111199778A (zh) * 2019-12-03 2020-05-26 西安邮电大学 一种基于Spark SQL的RefGene基因库的注释方法和装置
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN113035273A (zh) * 2021-03-11 2021-06-25 南京先声医学检验有限公司 一种快速、超高灵敏度的dna融合基因检测方法
CN113096729A (zh) * 2021-03-29 2021-07-09 华南农业大学 一种基于circRNA位置信息预测RNA结合蛋白的方法
CN113355415A (zh) * 2021-06-04 2021-09-07 武汉艾米森生命科技有限公司 用于食管癌诊断或辅助诊断的检测试剂及试剂盒

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003058201A2 (en) * 2001-12-31 2003-07-17 Quark Biotech, Inc. Methods for identifying marker genes for cancer
CN101384734A (zh) * 2006-02-17 2009-03-11 Isis创新有限公司 正常和异常基因表达中的dna构象(环结构)
CN102231178A (zh) * 2011-05-18 2011-11-02 天津大学 基因组织特异性序列模式元搜索方法及搜索结果评价方法
CN105861706A (zh) * 2016-05-18 2016-08-17 健路生物科技(苏州)有限公司 一种用于实时荧光pcr的通用探针及其检测方法和应用
CN109415764A (zh) * 2016-07-01 2019-03-01 纳特拉公司 用于检测核酸突变的组合物和方法
CN109890424A (zh) * 2016-07-05 2019-06-14 约翰霍普金斯大学 用于治疗视网膜变性的基于crispr/cas9的组合物和方法
CN111199778A (zh) * 2019-12-03 2020-05-26 西安邮电大学 一种基于Spark SQL的RefGene基因库的注释方法和装置
CN112951319A (zh) * 2021-02-25 2021-06-11 深圳市新合生物医疗科技有限公司 一种筛选siRNA序列以降低脱靶效应的方法及系统
CN113035273A (zh) * 2021-03-11 2021-06-25 南京先声医学检验有限公司 一种快速、超高灵敏度的dna融合基因检测方法
CN113096729A (zh) * 2021-03-29 2021-07-09 华南农业大学 一种基于circRNA位置信息预测RNA结合蛋白的方法
CN113355415A (zh) * 2021-06-04 2021-09-07 武汉艾米森生命科技有限公司 用于食管癌诊断或辅助诊断的检测试剂及试剂盒

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Exploiting sequence-based features for predicting enhancer–promoter interactions";Yang Yang等;《Bioinformatics》;20171231;第i252-i260页 *
"基于互模式熵的DNA序列相似性分析";安相静等;《智能计算机与应用》;20191130;第9卷(第6期);第52-54页 *

Also Published As

Publication number Publication date
CN114550817A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN108376131A (zh) 基于seq2seq深度神经网络模型的关键词抽取方法
CN107403075B (zh) 比对方法、装置及系统
CN104881458B (zh) 一种网页主题的标注方法和装置
CN106776538A (zh) 企业非标准格式文档的信息提取方法
CN101246478B (zh) 信息存储及检索方法
CN107608968A (zh) 面向文本大数据的中文分词方法、装置
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
CN108846047A (zh) 一种基于卷积特征的图片检索方法及系统
Mostavi et al. Deep-2'-O-me: predicting 2'-O-methylation sites by convolutional neural networks
CN114117213A (zh) 一种推荐模型训练、推荐方法、装置、介质和设备
CN106959962A (zh) 一种多模式字符串匹配方法和装置
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
CN114496092A (zh) 基于图卷积网络的miRNA和疾病关联关系预测方法
CN109753517A (zh) 一种信息查询的方法、装置、计算机存储介质及终端
CN111462820A (zh) 基于特征筛选和集成算法的非编码rna预测方法
CN110364186A (zh) 一种基于对抗学习的端到端的跨语言语音情感识别方法
CN115994535A (zh) 文本处理方法及装置
CN113823356B (zh) 一种甲基化位点识别方法及装置
CN108519978A (zh) 一种基于主动学习的中文正式文本分词方法
CN114550817B (zh) 基于多特征的ctcf介导染色质环预测方法
CN106484865A (zh) 一种基于DNA k‑mer index问题四字链表字典树检索算法
CN112086133A (zh) 一种基于文本隐含信息的药物靶标特征学习方法及装置
CN112489689A (zh) 基于多尺度差异对抗的跨数据库语音情感识别方法及装置
CN111950274A (zh) 一种专业领域语料的中文分词方法及装置
CN106446601A (zh) 一种大规模标注lncRNA功能的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant