CN114550817B

CN114550817B - 基于多特征的ctcf介导染色质环预测方法

Info

Publication number: CN114550817B
Application number: CN202210086044.5A
Authority: CN
Inventors: 罗静; 彭文钰; 于小娟; 林国亮; 颜培祺
Original assignee: Yunnan University YNU
Current assignee: Yunnan University YNU
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2022-12-23
Anticipated expiration: 2042-01-25
Also published as: CN114550817A

Abstract

本发明公开了一种基于多特征的CTCF介导染色质环预测方法，对于待预测的细胞系收集蛋白质数据和样本DNA序列，在样本DNA序列中确定4个关键位点及对应的CTCF motif数据，根据所有样本DNA序列的CTCF motif数据训练Word2Vec模型和Doc2Vec模型，对于每个样本DNA序列分别提取其序列特征和蛋白质特征，然后拼接得到该样本DNA序列的特征向量，将样本DNA序列的特征向量作为输入、将CTCF介导染色质环是否存在的样本标签作为期望输出，对构建的CTCF介导染色质环预测模型进行训练，当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时，采用相同方法得到特征向量，输入训练好的CTCF介导染色质环预测模型得到预测结果。本发明可有效提高CTCF介导染色质环的预测准确率。

Description

基于多特征的CTCF介导染色质环预测方法

技术领域

本发明属于生物信息技术领域，更为具体地讲，涉及一种基于多特征的CTCF介导染色质环预测方法。

背景技术

人类基因组中染色体的三维结构对于理解基因调控原理和疾病机制至关重要，随着Hi-C、CHIA-PET等用于染色质高维映射方法的出现，揭示了高阶基因组组织中含有比我们之前认为的更复杂的全局染色质相互作用。全基因组分析表明，在染色质环的转点处富集CTCF(CCCTC binding factor)转录因子，普遍认为，CTCF具有形成染色质环的能力。

在目前染色质环的预测研究工作中，研究者通过不同的特征去预测某个细胞系的染色质环。例如可以利用基因组和表观基因组特征，基于随机森林分类器的机器学习框架来预测CTCF介导的染色质环，这一种方法针对同一种细胞系进行预测时，精度很高，针对不同细胞系的染色质环预测时，效果却不够好。还可以基于序列的特征，使用word2vec和XGBoost预测一对收敛的CTCF基序是否会形成一个染色质环，这种方法使用word2vec无监督学习的方式，针对序列，进行染色质环的预测，无论在同一细胞系还是不同细胞系的染色质环的预测，精度都不够高。

此外，经过研究发现，也不是所有的CTCF都会形成染色质环，因此有理由推测，在基因组背景下，除了CTCF基序外还有其他因素可能对形成CTCF介导的染色质环造成影响，而现有方法中均未考虑这些未知因素。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于多特征的CTCF介导染色质环预测方法，将自然语言处理的思想应用于提取染色质环的多个特征，能够覆盖更多与染色质成环的相关因素，从而有效提高CTCF介导染色质环的预测准确率。

为了实现上述发明目的，本发明基于多特征的CTCF介导染色质环预测方法包括以下步骤：

S1：对于待预测的细胞系，确定该细胞系中的组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq，记两种蛋白质的总数为K，然后收集若干包含CTCF介导染色质环的样本DNA序列和若干未包含CTCF介导染色质环的样本DNA序列，分别作为正样本和负样本，并设置CTCF介导染色质环是否存在的样本标签，将每条样本DNA序列按照预设规则进行提取得到若干条长度为N的CTCF motif数据；

对于正样本，根据CTCF介导染色质环的位置确定染色质环起始位点Loop Start和结束位点Loop End，对于负样本，在两个CTCF位点中指定染色质环起始位点Loop Start和结束位点Loop End；然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop Start左侧的CTCF位点Left CTCF site，结束位点Loop End右侧CTCF位点Right CTCF site，将这4个位点作为关键位点；对于每条样本DNA序列的4个关键位点，分别从所有CTCF motif数据中匹配得到这4个关键位点对应的CTCF motif数据，当某个关键位点未成功匹配到CTCFmotif数据时，将该关键位点的CTCF motif数据采用预设字符序列代替；

S2：对于所有样本DNA序列的所有CTCF motif数据按照预设规则进行分词，分词完成后按照染色质位置形成词袋，使用Word2Vec训练，得到训练好的Word2Vec模型；

对于所有样本DNA序列的所有CTCF motif数据，将每条CTCF motif数据作为一条语句，将所有CTCF motif数据按照染色质的位置组成上下文，使用Doc2Vec训练，得到训练好的Doc2Vec模型；

S3：对于每个样本DNA序列分别提取其序列特征，具体方法包括以下步骤：

S3.1：对于每个样本DNA序列中位点Left CTCF site、位点Loop Start、位点LoopEnd、位点Right CTCF site对应的CTCF motif数据，提取16种双核苷酸中每种双核在该CTCF motif数据中的数量，构成16维的双核苷酸数向量，分别记为S_Left、S_Start、S_End、S_Right，将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S；

S3.2：对于每个样本DNA序列，将位点Loop Start和位点Loop End对应的双核苷酸数向量S_Start、S_End作为一对，将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量S_Left、S_Right作为一对，分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度P_Loop、P_CTCF；

S3.3：对于每个样本DNA序列，将位点Loop Start和位点Loop End对应的CTCFmotif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，分别计算每对CTCF motif数据基于Word2vec的序列相似度W_Loop、W_CTCF，具体方法为：对于一对CTCF motif数据，如果有任意一条CTCF motif数据为空，则令该对CTCFmotif数据基于Word2vec的序列相似度为绝对小值，否则根据训练好的Word2Vec模型获取每条CTCF motif数据中每个词的词向量，然后计算两条CTCF motif数据中对应位置词的词向量相似度，将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度；

S3.4：对于每个样本DNA序列，将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，分别计算每对CTCF motif数据基于Doc2Vec的序列相似度D_Loop、D_CTCF，具体方法如下：对于一对CTCF motif数据，如果有任意一条CTCF motif数据为空，则令该对CTCFmotif数据基于Doc2vec的序列相似度为绝对小值，否则根据训练好的Doc2Vec模型得到每条CTCF motif数据的语句向量，计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度；

S3.5：对于每个样本DNA序列，将位点Loop Start和位点Loop End位点对应的CTCFmotif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，计算每对CTCF motif数据基于序列模式的相似度M_Loop、M_CTCF，具体计算方法如下：对于一对CTCF motif数据，分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand，strand为“+”代表正链，strand为“-”代表负链，strand为“.”代表没有链的信息，然后比较两条CTCF motif数据的strand信息：

如果两条CTCF motif数据的strand信息均为“.”，则该对CTCF motif数据基于序列模式的相似度为0；

如果两条CTCF motif数据有其中一条的strand信息为“.”，另一条的strand信息不为“.”，则该对CTCF motif数据基于序列模式的相似度为1；

如果两条CTCF motif数据的strand信息均不为“.”且相同时，则该对CTCF motif数据基于序列模式的相似度为2；

如果两条CTCF motif数据的strand信息均不为“.”且不相同时，则该对CTCFmotif数据基于序列模式的相似度为3；

S3.6：对于每个样本DNA序列，获取位点Left CTCF site到位点Loop Start的长度L_Left，获取位点Loop End到位点Right CTCF site的长度L_Right；

S3.7：对于每个样本DNA序列，将其提取得到的64维的序列双核苷酸数向量S，基于皮尔森的序列相似度P_Loop、P_CTCF，基于Word2vec的序列相似度W_Loop、W_CTCF，基于Doc2Vec的序列相似度D_Loop、D_CTCF，基于序列模式的相似度M_Loop、M_CTCF以及长度L_Left、L_Right拼接得到74维的特征向量作为该样本DNA序列的序列特征；

S4：对每个样本DNA序列提取得到蛋白质特征，具体方法包括以下步骤：

S4.1：对于每个样本DNA序列，在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点RightCTCF site的两侧分别根据预设偏移值确定两个位点，左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end，CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start，CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loopend，右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF end，根据以上位点将样本DNA序列划分为7个特征区域：

In_anchor区域：从位点Loop start到位点Loop end之间的区域；

Left_anchor区域：从位点Left Loop start到位点Right Loop start之间的区域；

Right_anchor区域：从位点Left Loop end到位点Right Loop end之间的区域；

Left_local_ctcf区域：从位点Left CTCF start到位点Left CTCF end之间的区域；

Right_local_ctcf区域：从位点Right CTCF start到位点Right CTCF end之间的区域；

Left_Flanking区域：从位点Left CTCF site到位点Loop start之间的区域；

Right_Flanking区域：从位点Loop end到位点Right CTCF start之间的区域；

S4.2：分别统计K种蛋白质在步骤S4.1划分得到的每个特征区域中蛋白质信号量的平均值、最大值、最小值、标准差、方差，以及蛋白质峰值的平均值、最大值、最小值、标准差、方差，即每种蛋白质在每个特征区域得到10个特征，共计得到70×K个特征；

S4.3：对于K种蛋白质，分别确定其在各个特征区域的最大值位置，再根据预设偏移值确定最大值区域，然后计算该种蛋白质在该最大值区域的平均RPKM值和RPKM值的标准差，共计得到14×K个特征；

S4.4：对于K种蛋白质，分别计算其在各个特征区域中最大值区域的平均TPM值和TPM值的标准差，共计得到14×K个特征；

S4.5：对于每个样本DNA序列，将步骤S4.2得到的70×K个特征、步骤S4.3得到的14×K个特征、步骤S4.4得到14×K个特征拼接得到98×K维的特征向量作为该样本DNA序列的序列特征；

S5：对于每个样本DNA序列，将其对应的序列特征和蛋白质特征拼接得到74+98×K维的特征向量，该特征向量作为训练样本中的输入，将该样本DNA序列对应的样本标签作为训练样本中的期望输出，得到训练样本；

S6：根据实际需要构建CTCF介导染色质环预测模型，其输入为74+98×K维的特征向量，输出为染色质环是否存在的预测结果；

S7：采用步骤S5得到的训练样本，对步骤S6构建的染色质环预测模型进行训练，得到训练好的CTCF介导染色质环预测模型；

S8：当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时，将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点LoopStart和结束位点Loop End，然后搜索起始位点Loop Start左侧的CTCF位点Left CTCFsite，结束位点Loop End右侧CTCF位点Right CTCF site，在待预测DNA序列中的所有CTCFmotif数据中匹配得到4个关键位点所对应的CTCF motif数据，当某个关键位点未成功匹配到CTCF motif数据时，将该关键位点的CTCF motif数据采用预设字符序列代替；按照步骤S3中的方法提取出待预测DNA序列的序列特征，按照步骤S4中的方法提取出待预测DNA序列的蛋白质特征，然后拼接得到特征向量，输入训练好的CTCF介导染色质环预测模型中，得到是否存在CTCF介导染色质环的预测结果。

本发明基于多特征的CTCF介导染色质环预测方法，对于待预测的细胞系收集蛋白质数据和样本DNA序列，在样本DNA序列中确定4个关键位点及对应的CTCF motif数据，根据所有样本DNA序列的CTCF motif数据训练Word2Vec模型和Doc2Vec模型，对于每个样本DNA序列分别提取其序列特征和蛋白质特征，然后拼接得到该样本DNA序列的特征向量，将样本DNA序列的特征向量作为输入、将CTCF介导染色质环是否存在的样本标签作为期望输出，对构建的CTCF介导染色质环预测模型进行训练，当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时，采用相同方法得到特征向量，输入训练好的CTCF介导染色质环预测模型得到预测结果。

本发明具有以下有益效果：

1)本发明提取DNA序列的序列特征和蛋白质特征，以覆盖更多的特征，有效提高CTCF介导染色质环的预测准确率。

2)本发明将自然语言处理的思想应用于提取染色质环的相关特征，有助于更智能的探索更多与染色质成环相关的因素，进一步提高CTCF介导染色质环的预测准确率。

附图说明

图1是本发明基于多特征的CTCF介导染色质环预测方法的具体实施方式流程图；

图2是本实施例中DNA序列中4个关键位点的区域示意图；

图3是本发明中提取序列特征的流程图；

图4是本发明中提取蛋白特征的流程图；

图5是本发明中样本DNA序列的7个特征区域的示意图；

图6是本实施例中本发明和对比方法对三个细胞系的CTCF介导的染色环预测结果统计。

具体实施方式

下面结合附图对本发明的具体实施方式进行描述，以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是，在以下的描述中，当已知功能和设计的详细描述也许会淡化本发明的主要内容时，这些描述在这里将被忽略。

实施例

图1是本发明基于多特征的CTCF介导染色质环预测方法的具体实施方式流程图。如图1所示，本发明基于多特征的CTCF介导染色质环预测方法的具体步骤包括：

S101：细胞系数据收集：

对于待预测的细胞系，确定该细胞系中的组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq，记两种蛋白质的总数为K。然后收集若干包含CTCF介导染色质环的样本DNA序列和若干未包含CTCF介导染色质环的样本DNA序列，分别作为正样本和负样本，并设置CTCF介导染色质环是否存在的样本标签，将每条样本DNA序列按照预设规则进行提取得到若干条长度为N的CTCF motif数据。

对于正样本，根据CTCF介导染色质环的位置确定CTCF介导染色质环起始位点LoopStart和结束位点Loop End，对于负样本，在两个CTCF位点中指定CTCF介导染色质环起始位点Loop Start和结束位点Loop End。然后获取每个样本DNA序列中CTCF介导染色质环起始位点Loop Start左侧的CTCF位点Left CTCF site，结束位点Loop End右侧CTCF位点RightCTCF site，将这4个位点作为关键位点。对于每条样本DNA序列的4个关键位点，分别从所有CTCF motif数据中匹配得到这4个关键位点对应的CTCF motif数据，当某个关键位点未成功匹配到CTCF motif数据时，将该关键位点的CTCF motif数据采用预设字符序列代替。

本实施例中设置了三个细胞系分别进行CTCF介导染色质环预测实验，分别为：K562、GM12878、HELA-S4，组蛋白和结合蛋白数据来自ENCODER PROJECT(http://encodeproject.org/data/annotations)。表1是本实施例中各个细胞系使用的蛋白质数量表。

细胞系	蛋白质数量
		GM12878	182
K562	202
		HeLa-S4	143

表1

图2是本实施例中DNA序列中4个关键位点的区域示意图。如图2所示，本实施例中每条CTCF motif数据的长度为18，即包含了18个碱基(ATCG)。CTCF motif数据的长度在实际应用中可以根据需要设置。在实际应用中，Left CTCF site和Loop Start之间的距离通常是大于18个基因的，因此每个位点匹配到的CTCF motif数据是不一样的。如果存在未匹配到CTCF motif数据的位点，需要将该位点的CTCF motif数据采用预设字符序列代替，由于后续提取序列特征时是将CTCF motif数据看作A(腺嘌呤)，T(胸腺嘧啶)，G(鸟嘌呤)，C(胞嘧啶)组成的字符串，因此用于代替CTCF motif数据的预设字符序列优先选择与A、T、G、C距离较远的字符。

S102：训练Word2Vec模型和Doc2Vec模型：

为了更加全面覆盖CTCF介导染色质环的形成的因素，本发明需要提取每个DNA序列的序列特征和蛋白特征。在序列特征提取中，本发明将DNA序列看作是A，T，G，C组成的字符串，将CTCF motif数据看作是语句，提取其中的语义特征，作为序列特征的组成部分。为了后续的语义特征提取，需要先训练Word2Vec模型和Doc2Vec模型，具体方法如下：

对于所有样本DNA序列的所有CTCF motif数据按照预设规则进行分词，分词完成后按照染色质位置形成词袋，使用Word2Vec训练，得到训练好的Word2Vec模型。

对于所有样本DNA序列的所有CTCF motif数据，将每条CTCF motif数据作为一条语句，将所有CTCF motif数据按照染色质的位置组成上下文，使用Doc2Vec训练，得到训练好的Doc2Vec模型。

Word2vec模型和Doc2Vec模型都是常用的自然语言处理模型，其具体原理和训练过程在此不再赘述。

S103：提取序列特征：

其中序列特征包括序列双核苷酸数、基于皮尔森的序列相似度、基于Word2vec的序列相似度、基于Doc2vec的序列相似度、基于序列模式的相似度、序列的长度等6种特征。图3是本发明中提取序列特征的流程图。如图3所示，本发明中提取序列特征的具体步骤包括：

S301：提取序列双核苷酸数向量：

DNA序列的特征主要是基于序列双核苷酸频率分布提取，所以对于DNA序列，首先需要提取每个CTCF motif数据中的序列双核苷酸数。由于DNA序列可以看成A，T，G，C组成的字符串，那么双核苷酸就是长度为2的非空子串，即有16种双核苷酸AA,AC,AG,AT,CA,CC,CG,CT,GA,GC,GG,GT,TA,TC,TG,TT。因此在本发明中，对于每个样本DNA序列中位点LeftCTCF site、位点Loop Start、位点Loop End、位点Right CTCF site对应的CTCF motif数据，提取16种双核苷酸中每种双核在该CTCF motif数据中的数量，构成16维的双核苷酸数向量，分别记为S_Left、S_Start、S_End、S_Right，将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S。

S302：提取基于皮尔森的序列相似度：

对于每个DNA序列，将位点Loop Start和位点Loop End对应的双核苷酸数向量S_Start、S_End作为一对，将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量S_Left、S_Right作为一对，分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度P_Loop、P_CTCF。

皮尔森相关系数是一种常用的相关系数，其具体计算过程在此不再赘述。

S303：提取基于Word2vec的序列相似度：

对于每个DNA序列，将位点Loop Start和位点Loop End对应的CTCF motif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，分别计算每对CTCF motif数据基于Word2vec的序列相似度W_Loop、W_CTCF，具体方法为：对于一对CTCF motif数据，如果有任意一条CTCF motif数据为空，则令该对CTCF motif数据基于Word2vec的序列相似度为绝对小值，否则根据训练好的Word2Vec模型获取每条CTCF motif数据中每个词的词向量，然后计算两条CTCF motif数据中对应位置词的词向量相似度，将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度。

假设一对CTCF motif数据如下：

motif A＝[ATCGCGTACGGACGATAA]

motif B＝[CCGATCCTATTGACGATG]

当按照长度为2、步长为2进行分词，那么分词后的CTCF motif数据如下：

A＝[AT、CG、CG、TA、CG、GA、CG、AT、AA]

B＝[CC、GA、TC、CT、AT、TG、AC、GA、TG]

利用训练好的word2vec模型计算AT和CC的词相似性，CG和GA的词相似性，以此类推，再将所有9对词的相似性累加，就得到了motif A和motif B基于Word2vec的序列相似度。

S304：提取基于Doc2vec的序列相似度：

对于每个DNA序列，将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，分别计算每对CTCF motif数据基于Doc2Vec的序列相似度D_Loop、D_CTCF，具体方法如下：对于一对CTCF motif数据，如果有任意一条CTCF motif数据为空，则令该对CTCF motif数据基于Doc2vec的序列相似度为绝对小值，否则根据训练好的Doc2Vec模型得到每条CTCFmotif数据的语句向量，计算两个语句向量的相似度作为该对CTCF motif数据基于Doc2vec的序列相似度。

S305：提取基于序列模式的相似度：

对于每个DNA序列，将位点Loop Start和位点Loop End位点对应的CTCF motif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，计算每对CTCF motif数据基于序列模式的相似度M_Loop、M_CTCF，具体计算方法如下：对于一对CTCF motif数据，分别获取每条CTCF motif数据中定义基因位于染色体正负链的信息strand，strand为“+”代表正链，strand为“-”代表负链，strand为“.”代表没有链的信息，当CTCF motif数据为空时，strand为“.”，然后比较两条CTCF motif数据的strand信息：

如果两条CTCF motif数据的strand信息均不为“.”且不相同时，则该对CTCFmotif数据基于序列模式的相似度为3。

S306：提取序列的长度特征：

对于每个样本DNA序列，获取位点Left CTCF site到位点Loop Start的长度L_Left，获取位点Loop End到位点Right CTCF site的长度L_Right。

S307：组合得到序列特征：

对于每个样本DNA序列，将其提取得到的64维的序列双核苷酸数向量S，基于皮尔森的序列相似度P_Loop、P_CTCF，基于Word2vec的序列相似度W_Loop、W_CTCF，基于Doc2Vec的序列相似度D_Loop、D_CTCF，基于序列模式的相似度M_Loop、M_CTCF以及长度L_Left、L_Right拼接得到74维的特征向量作为该样本DNA序列的序列特征。

S104：提取蛋白质特征：

接下来对每个样本DNA序列提取得到蛋白质特征。图4是本发明中提取蛋白特征的流程图。如图4所示，本发明中提取蛋白质特征的具体步骤包括：

S401：划分特征区域：

对于每个样本DNA序列，在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCF site的两侧分别根据预设偏移值确定两个位点，左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end，CTCF介导染色质环起始位点Loop Start的两侧位点分别记为位点Left Loop start、位点Right Loop start，CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end，右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点Right CTCF end，根据以上位点将样本DNA序列划分为7个特征区域。图5是本发明中样本DNA序列的7个特征区域的示意图。如图5所示，本发明中样本DNA序列的7个特征区域分别为：

In_anchor区域：从位点Loop start到位点Loop end之间的区域；

Right_Flanking区域：从位点Loop end到位点Right CTCF start之间的区域。

S402：统计蛋白质信号量和峰值：

分别统计K种蛋白质在步骤S401划分得到的每个特征区域中蛋白质信号量的平均值、最大值、最小值、标准差、方差，以及蛋白质峰值的平均值、最大值、最小值、标准差、方差，即每种蛋白质在每个特征区域得到10个特征，共计得到70×K个特征。

S403：计算蛋白质RPKM值：

在组蛋白数据Chip-Seq和结合蛋白数据RNA-Seq中，RPKM(Reads Per Kilobaseper Million mapped reads)值能很好的表示基因的表达量，该参数表示每百万reads中来自于某基因每千碱基长度的reads数。因此本发明中，对于K种蛋白质，分别确定其在各个特征区域的最大值位置，再根据预设偏移值(本实施例中为2kb)确定最大值区域，然后计算该种蛋白质在该最大值区域的平均RPKM值和RPKM值的标准差，共计得到14×K个特征。

S404：计算蛋白质TPM值：

RPKM值在表示基因的表达量时，忽略了区域内目标基因长度的影响，而TPM(Transcripts Per Million)值在RPKM值的基础上对基因长度做了归一化，同时也能表示基因的表达量。因此，本发明中，对于K种蛋白质，分别计算其在各个特征区域中最大值区域的平均TPM值和TPM值的标准差，共计得到14×K个特征。

S405：组合得到蛋白特征：

对于每个样本DNA序列，将步骤S402得到的70×K个特征、步骤S403得到的14×K个特征、步骤S404得到14×K个特征拼接得到98×K维的特征向量作为该样本DNA序列的序列特征。

本实施例所选用的三个细胞系(GM12878、K562、HeLa-S4)中，每个细胞系的蛋白特征均涉及13个RNA-Seq、Chip-Seq，那么每个细胞系有1274个蛋白特征，包括三种大类的染色质环的蛋白质特征。

S105：获取训练样本：

对于每个样本DNA序列，将其对应的序列特征和蛋白质特征拼接得到74+98×K维的特征向量，该特征向量作为训练样本中的输入，将该样本DNA序列对应的样本标签作为训练样本中的期望输出，得到训练样本。

S106：构建CTCF介导染色质环预测模型：

根据实际需要构建CTCF介导染色质环预测模型，其输入为74+98×K维的特征向量，输出为染色质环是否存在的预测结果。

根据本发明中细胞数据特征向量的特性，梯度提升决策树(GBDT)是一种较为合适的染色质环预测模型，可以采用例如XGBoost模型、pGBRT模型等。由于本发明中得到的细胞数据特征向量维度较大且数据量较大，常规模型的效率和可伸缩性较难达到要求，主要原因在于对于每个特征，常规模型都需要扫描所有数据实例以估计所有可能的分割点的信息增益，这非常耗时。为了解决这个问题，本实施例选用了LightGBM模型作为CTCF介导染色质环预测模型。LightGBM全称为Light Gradient Boosting Machine，是一个基于决策树，具有快速、分布式、高性能特点的梯度提升框架，它可被用于排行、分类以及其他许多机器学习任务中。LightGBM的特点是训练快速高效、占内存小、准确率高、支持GPU并行操作，可以对大数据操作。LightGBM模型采用了两种技术：基于梯度的单侧采样(GOSS)和排他特征捆绑(EFB)。通过使用GOSS，LightGBM排除了很大一部分具有小梯度的数据实例，而只使用其他实例来估计信息增益。LightGBM证明，由于具有较大梯度的数据实例在信息增益的计算中起着更重要的作用，GOSS可以在较小的数据量下获得相当精确的信息增益估计。通过使用EFB，LightGBM将互斥特征(即它们很少同时取非零值)捆绑在一起，以减少特征的数量。在多个公共数据集上的实验表明，LightGBM模型在达到几乎相同的精度的同时，将传统GBDT的训练速度提高了20倍以上。

S107：训练CTCF介导染色质环预测模型：

采用步骤S105得到的训练样本，对步骤S106构建的染色质环预测模型进行训练，得到训练好的CTCF介导染色质环预测模型。

S108：CTCF介导染色质环预测：

当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时，将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点Loop Start和结束位点Loop End，然后搜索起始位点Loop Start左侧的CTCF位点Left CTCF site，结束位点Loop End右侧CTCF位点Right CTCF site，在待预测DNA序列中的所有CTCF motif数据中匹配得到42个关键位点所对应的CTCF motif数据，当某个关键位点未成功匹配到CTCFmotif数据时，将该关键位点的CTCF motif数据采用预设字符序列代替。按照步骤S103中的方法提取出待预测DNA序列的序列特征，按照步骤S104中的方法提取出待预测DNA序列的蛋白质特征，然后拼接得到特征向量，输入训练好的CTCF介导染色质环预测模型中，得到是否存在CTCF介导染色质环的预测结果。

为了更好地说明本发明的技术效果，采用三个细胞系GM12878、K562、HeLa-S4作为实例进行实验验证。采用文献“Kai Y,Andricovich J,Zeng Z,et al.Predicting CTCF-mediated chromatin interactions by integrating genomic and epigenomicfeatures[J].Nature Communications,2018,9(1).”中提出的基于Lollipop模型的CTCF介导染色质环预测方法作为对比方法，统计本发明和对比方法的AUC(Area Under Curve)、F1值、Precision(准确率)、Recall(召回率)作为评价指标。图6是本实施例中本发明和对比方法对三个细胞系的CTCF介导染色质环预测结果统计对比图。如图6所示，在三个细胞系中，本发明在四个评价指标中都较对比方法有了明显提升。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于多特征的CTCF介导染色质环预测方法，其特征在于，包括以下步骤：

S3.1：对于每个样本DNA序列中位点Left CTCF site、位点Loop Start、位点Loop End、位点Right CTCF site对应的CTCF motif数据，提取16种双核苷酸中每种双核在该CTCFmotif数据中的数量，构成16维的双核苷酸数向量，分别记为S_Left、S_Start、S_End、S_Right，将4条CTCF motif数据的双核苷酸数向量拼接得到64维的序列双核苷酸数向量S；

S3.2：对于每个样本DNA序列，将位点Loop Start和位点Loop End位点对应的双核苷酸数向量S_Start、S_End作为一对，将位点Left CTCF site和位点Right CTCF site对应的双核苷酸数向量S_Left、S_Right作为一对，分别计算两对双核苷酸数向量的皮尔森相关系数作为基于皮尔森的序列相似度P_Loop、P_CTCF；

S3.3：对于每个样本DNA序列，将位点Loop Start和位点Loop End对应的CTCF motif数据作为一对，将位点Left CTCF site和位点Right CTCF site对应的CTCF motif数据作为一对，分别计算每对CTCF motif数据基于Word2vec的序列相似度W_Loop、W_CTCF，具体方法为：对于一对CTCF motif数据，如果有任意一条CTCF motif数据为空，则令该对CTCF motif数据基于Word2vec的序列相似度为绝对小值，否则根据训练好的Word2Vec模型获取每条CTCFmotif数据中每个词的词向量，然后计算两条CTCF motif数据中对应位置词的词向量相似度，将所有词的词向量相似度求和即可得到该对CTCF motif数据基于Word2vec的序列相似度；

如果两条CTCF motif数据的strand信息均不为“.”且不相同时，则该对CTCF motif数据基于序列模式的相似度为3；

S4.1：对于每个样本DNA序列，在其左侧CTCF位点Left CTCF site、CTCF介导染色质环起始位点Loop Start、CTCF介导染色质环结束位点Loop End、右侧CTCF位点Right CTCFsite的两侧分别根据预设偏移值确定两个位点，左侧CTCF位点Left CTCF site的两侧位点分别记为位点Left CTCF start、位点Left CTCF end，CTCF介导染色质环起始位点LoopStart的两侧位点分别记为位点Left Loop start、位点Right Loop start，CTCF介导染色质环结束位点Loop End的两侧位点分别记为位点Left Loop end、位点Right Loop end，右侧CTCF位点Right CTCF site的两侧位点分别记为位点Right CTCF start、位点RightCTCF end，根据以上位点将样本DNA序列划分为7个特征区域：

In_anchor区域：从位点Loop start到位点Loop end之间的区域；

S8：当需要对待预测的细胞系某个DNA序列中两个位点之前是否存在CTCF介导染色质环进行预测时，将左侧位点和右侧位点分别作为CTCF介导染色质环起始位点Loop Start和结束位点Loop End，然后搜索起始位点Loop Start左侧的CTCF位点Left CTCF site，结束位点Loop End右侧CTCF位点Right CTCF site，在待预测DNA序列中的所有CTCF motif数据中匹配得到4个关键位点所对应的CTCF motif数据，当某个关键位点未成功匹配到CTCFmotif数据时，将该关键位点的CTCF motif数据采用预设字符序列代替；按照步骤S3中的方法提取出待预测DNA序列的序列特征，按照步骤S4中的方法提取出待预测DNA序列的蛋白质特征，然后拼接得到特征向量，输入训练好的CTCF介导染色质环预测模型中，得到是否存在CTCF介导染色质环的预测结果。

2.根据权利要求1所述的CTCF介导染色质环预测方法，其特征在于，所述步骤S6中CTCF介导染色质环预测模型采用LightGBM模型。