CN112992267B - 一种单细胞的转录因子调控网络预测方法及装置 - Google Patents

一种单细胞的转录因子调控网络预测方法及装置 Download PDF

Info

Publication number
CN112992267B
CN112992267B CN202110392600.7A CN202110392600A CN112992267B CN 112992267 B CN112992267 B CN 112992267B CN 202110392600 A CN202110392600 A CN 202110392600A CN 112992267 B CN112992267 B CN 112992267B
Authority
CN
China
Prior art keywords
matrix
transcription factor
initial
regulation
cell
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110392600.7A
Other languages
English (en)
Other versions
CN112992267A (zh
Inventor
李�昊
陈河兵
孙昱
洪浩
黄昕
陶欢
黄琦雅
伯晓晨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Academy of Military Medical Sciences AMMS of PLA
Original Assignee
Academy of Military Medical Sciences AMMS of PLA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Academy of Military Medical Sciences AMMS of PLA filed Critical Academy of Military Medical Sciences AMMS of PLA
Priority to CN202110392600.7A priority Critical patent/CN112992267B/zh
Publication of CN112992267A publication Critical patent/CN112992267A/zh
Application granted granted Critical
Publication of CN112992267B publication Critical patent/CN112992267B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种单细胞的转录因子调控网络预测方法及装置,其中,所述方法包括:获取scATAC‑seq数据,其中,scATAC‑seq数据包括峰值区域‑细胞矩阵;对峰值区域‑细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;将初始邻接矩阵和初始特征矩阵输入至转录因子调控网络预测模型中,得到与初始邻接矩阵相对应的邻接矩阵预测结果。这样一来,仅通过采用scATAC‑seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA‑seq数据在预测调控关系时的诸多弊端,使得转录因子调控网络预测的准确率较高。

Description

一种单细胞的转录因子调控网络预测方法及装置
技术领域
本申请涉及基因调控技术领域,具体而言,涉及一种单细胞的转录因子调控网络预测方法及装置。
背景技术
基因调控网络(Gene Regulatory Network,GRN)是对基因与基因之间的调控关系进行系统性描述的重要方法,已被广泛应用于人类疾病、干细胞多能性及其改造、农作物育种等众多研究领域。随着单细胞转录组测序技术的发展及其相关数据的大量出现,开发针对单细胞测序数据的转录因子调控网络预测方法具有重要的应用价值。转录因子调控网络是基因调控网络的子网。
现有的预测方法以scRNA-seq数据为推演基础,此类数据具有有效数据稀疏、噪声来源广泛等特点,导致难以从稀疏数据中有效提取转录因子调控网络的基因表达模式特征,预测调控关系漏检率和虚警率都较高,受单细胞数据噪声影响大,使得算法稳健性较弱,转录因子调控网络预测准确率较低。
发明内容
有鉴于此,本申请的目的在于提供一种单细胞的转录因子调控网络预测方法及装置,仅通过采用scATAC-seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA-seq数据在预测调控关系时的诸多弊端,使得转录因子调控网络预测的准确率较高。
第一方面,本申请提供一种单细胞的转录因子调控网络预测方法,所述转录因子调控网络预测方法包括:
获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;
对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;
将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。
优选地,按照如下方式确定所述初始邻接矩阵中每个元素的取值:
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系。
优选地,按照如下方式确定所述初始特征矩阵中每个元素的取值:
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值。
优选地,通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离。
优选地,通过以下步骤训练所述转录因子调控网络预测模型:
获取初始邻接矩阵样本和初始特征矩阵样本,以及与所述初始邻接矩阵样本对应的最终邻接矩阵结果;
基于链路预测算法,通过所述初始邻接矩阵样本和所述初始特征矩阵样本对构建好的神经网络模型进行训练,以得到训练好的转录因子调控网络预测模型。
优选地,通过以下步骤对所述神经网络模型进行训练:
将所述初始邻接矩阵样本和所述初始特征矩阵样本输入至所述神经网络模型的第一层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布信息;
将所述初始邻接矩阵样本的特征分布信息输入至所述神经网络模型的第二层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布均值和特征分布方差;
将得到的特征分布均值和特征分布方差经过所述神经网络模型的合成以及采样后得到特征分布向量;
将得到的特征分布向量进行处理,得到特征分布向量内积;
将确定出的特征分布向量内积输入至所述神经网络模型的S型函数中,输出最终邻接矩阵结果;
当训练损失收敛且验证集准确率开始降低时,利用早停法确定所述神经网络模型的训练完成。
优选地,所述转录因子调控网络预测模型为变分图自编码器。
第二方面,本申请提供一种单细胞的转录因子调控网络预测装置,所述转录因子调控网络预测装置包括:
数据获取模块,用于获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;
矩阵处理模块,用于对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;
网络预测模块,用于将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。
优选地,所述矩阵处理模块用于按照如下方式确定所述初始邻接矩阵中每个元素的取值:
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系。
优选地,所述矩阵处理模块用于按照如下方式确定所述初始特征矩阵中每个元素的取值:
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值。
优选地,所述矩阵处理模块通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离。
优选地,所述转录因子调控网络预测装置还包括模型训练模块,所述模型训练模块用于通过以下步骤训练所述转录因子调控网络预测模型:
获取初始邻接矩阵样本和初始特征矩阵样本,以及与所述初始邻接矩阵样本对应的最终邻接矩阵结果;
基于链路预测算法,通过所述初始邻接矩阵样本和所述初始特征矩阵样本对构建好的神经网络模型进行训练,以得到训练好的转录因子调控网络预测模型。
优选地,所述模型训练模块用于通过以下步骤对所述神经网络模型进行训练:
将所述初始邻接矩阵样本和所述初始特征矩阵样本输入至所述神经网络模型的第一层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布信息;
将所述初始邻接矩阵样本的特征分布信息输入至所述神经网络模型的第二层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布均值和特征分布方差;
将得到的特征分布均值和特征分布方差经过所述神经网络模型的合成以及采样后得到特征分布向量;
将得到的特征分布向量进行处理,得到特征分布向量内积;
将确定出的特征分布向量内积输入至所述神经网络模型的S型函数中,输出最终邻接矩阵结果;
当训练损失收敛且验证集准确率开始降低时,利用早停法确定所述神经网络模型的训练完成。
优选地,所述转录因子调控网络预测模型为变分图自编码器。
第三方面,本申请还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的单细胞的转录因子调控网络预测方法的步骤。
第四方面,本申请还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的单细胞的转录因子调控网络预测方法的步骤。
本申请提供一种单细胞的转录因子调控网络预测方法及装置,其中,所述转录因子调控网络预测方法包括:获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。这样一来,仅通过采用scATAC-seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA-seq数据在预测调控关系时的诸多弊端,如:漏检率和虚警率都较高,受单细胞数据噪声影响大,从而使得转录因子调控网络预测的准确率较高。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种单细胞的转录因子调控网络预测方法的流程图;
图2为本申请实施例提供的一种单细胞的转录因子调控网络预测方法的框架图;
图3为本申请实施例提供的一种单细胞的转录因子调控网络预测装置的结构示意图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的每个其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请实施例提供的一种单细胞的转录因子调控网络预测方法的流程图。如图1中所示,本申请实施例提供的转录因子调控网络预测方法,包括:
S110、获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵。
这里,ATAC-seq(Assays for Transposase-Accessible Chromatin usingsequencing)是一种较新的全基因组范畴染色质开放区域的一种研究手段,为了区别细胞类型,本申请实施例采用单细胞染色质开放区域测序技术获得数据,即本申请采用单细胞ATAC-seq数据,(Single Cell Assay for Transposase Accessible Chromatin withhigh-throughput sequencing,scATAC-seq),在实际应用时,具有容易操作,不需要交连,有高信噪比,以及对样品总量要求低等优点,进而,本申请实施例采用scATAC-seq数据进行单细胞的转录因子调控网络预测,因为scATAC-seq数据相对于scRNA-seq数据而言,可以直接反映染色质开放情况,更贴近调控关系的实质,进而可以避免受单细胞数据噪声影响大的问题,在实际应用时,能够起到较好的技术效果。
具体地,将scATAC-seq数据进行处理得到峰值区域-细胞矩阵,峰值区域-细胞矩阵中的行表示峰值peak,列表示细胞cell。
S120、对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵。
该步骤中,对峰值区域-细胞矩阵进行初始化处理,可以同时得到初始邻接矩阵和初始特征矩阵,其中,初始邻接矩阵用于表征转录因子之间的调控关系,初始特征矩阵用于表征每个转录因子的特征信息。
这里,初始邻接矩阵是一个稀疏邻接矩阵,表示为一个图结构,图结构是一个N×N的方阵,方阵中的每个元素表示转录因子之间的调控关系,其中,调控关系包括存在调控关系和不存在调控关系两种,N表示峰值区域-细胞矩阵中参与基因调控的全部转录因子TF的数量,即该方阵的阶数为全部转录因子TF的数量N。
初始特征矩阵用于表示所有转录因子对应的特征信息,每个初始特征矩阵上的元素表示调控潜能得分(Regulatory Potential score,RP score),其中,该初始特征矩阵的行数等于峰值区域-细胞矩阵中参与基因调控的全部转录因子TF的数量,列数等于scATAC-seq数据中的细胞数量,即初始特征矩阵可以表示为N×D的矩阵。
S130、将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。
该步骤中,通过预先训练好的转录因子调控网络预测模型进行测试,将初始邻接矩阵和初始特征矩阵作为转录因子调控网络预测模型的输入,经过转录因子调控网络预测模型的处理,可以得到与初始邻接矩阵相对应的邻接矩阵预测结果。这里的预测结果即为初始邻接矩阵和初始特征矩阵经过转录因子调控网络预测模型还原出的邻接矩阵。
本申请实施例提供一种单细胞的转录因子调控网络预测方法,其中,所述转录因子调控网络预测方法包括:获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。这样一来,仅通过采用scATAC-seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA-seq数据在预测调控关系时的诸多弊端,使得转录因子调控网络预测的准确率较高。
在本申请实施例中,作为一种优选地实施例,按照如下方式确定所述初始邻接矩阵中每个元素的取值:
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系。
该步骤中,通过峰值区域-细胞矩阵中参与基因调控的全部转录因子TF的数量N确定初始邻接矩阵的阶数,由于初始邻接矩阵是一个方阵,进而可以确实出N×N初始邻接矩阵,(i,j)和(j,i)均对应着初始邻接矩阵中的位置,其中,i为不大于N的整数,j为不大于N的整数,当存在多对转录因子之间存在基因调控关系时,分别找出每对转录因子对应的基因调控关系在初始邻接矩阵中的表示。
这里,当TFi和TFj之间存在基因调控关系时,则在初始邻接矩阵中的位置(i,j)和(j,i)处标记A,当TFi和TFj之间不存在基因调控关系时,则在初始邻接矩阵中的位置(i,j)和(j,i)处标记B。A表示TFi和TFj之间存在基因调控关系,B表示TFi和TFj之间不存在基因调控关系,这里的A和B可以为任意值,只要在计算处理时进行区别处理即可,通常情况下,A可以为1,B可以为0。
在本申请实施例中,作为一种优选地实施例,按照如下方式确定所述初始特征矩阵中每个元素的取值:
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值。
这里,根据获取到的峰值区域-细胞矩阵中参与基因调控的全部转录因子TF的数量N,以及所述峰值区域-细胞矩阵中的细胞数量D,确定所述全部转录因子TF的数量N为初始特征矩阵的行数,以细胞数量D为初始特征矩阵的列数;然后确定每个转录因子在每个细胞中的调控潜能得分,将该调控潜能得分作为初始特征矩阵中对应位置的特征值;基于初始特征矩阵的行数,初始特征矩阵的列数,以及初始特征矩阵中对应位置的特征值,可以构建出N×D初始特征矩阵。
具体地,通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离。
在本申请实施例中,作为一种优选地实施例,通过以下步骤训练所述转录因子调控网络预测模型:
获取初始邻接矩阵样本和初始特征矩阵样本,以及与所述初始邻接矩阵样本对应的最终邻接矩阵结果;
基于链路预测算法,通过所述初始邻接矩阵样本和所述初始特征矩阵样本对构建好的神经网络模型进行训练,以得到训练好的转录因子调控网络预测模型。
这里,链路预测算法只能预测边,不能预测节点。通过权衡网络中存在的各种相关联的因素,充分利用这些因素进行预测,而基于网络外部信息的链路预测能够获得良好的预测效果,本申请实施例基于链路预测算法对构建好的神经网络模型进行训练,可以得到较好的转录因子调控网络预测模型。
该步骤中,将scATAC-seq数据构建成金标集并作为训练数据,将初始邻接矩阵实际存在调控关系的阳性边按照train:val:test比例划分,在剩余阴性边中不放回抽取相同数目以保证类别平衡,其中,阳性边表示构成阳性边的两个转录因子之间存在基因调控关系,阴性边表示构成阴性边的两个转录因子之间不存在基因调控关系;最终训练的迭代次数视训练损失的收敛情况而定;学习率的调整按固定步长间隔累乘衰减系数;当训练损失和测试损失同时收敛时,训练结束。
具体地,通过以下步骤对所述神经网络模型进行训练:
将所述初始邻接矩阵样本和所述初始特征矩阵样本输入至所述神经网络模型的第一层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布信息;
将所述初始邻接矩阵样本的特征分布信息输入至所述神经网络模型的第二层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布均值和特征分布方差;
将得到的特征分布均值和特征分布方差经过所述神经网络模型的合成以及采样后得到特征分布向量;
将得到的特征分布向量进行处理,得到特征分布向量内积;
将确定出的特征分布向量内积输入至所述神经网络模型的S型函数中,输出最终邻接矩阵结果;
当训练损失收敛且验证集准确率开始降低时,利用早停法确定所述神经网络模型的训练完成。
这里,当我们训练深度学习神经网络的时候通常希望可以很好地拟合数据,但是所有的标准深度学习神经网络结构如全连接多层感知机都很容易过拟合:当网络在训练集上表现越来越好,错误率越来越低的时候,实际上在某一刻,它在测试集的表现已经开始变差。为了解决过拟合问题,提出早停法(early stopping),早停法可以降低参数空间的维度或者降低每个维度上的有效规模,从而当模型在验证集上的表现开始下降的时候,停止训练,这样就能避免继续训练导致过拟合的问题。
本申请实施例采用早停法,可以提高神经网络模型训练的准确度和精度。
如图2所示,图2为本申请实施例提供的一种单细胞的转录因子调控网络预测方法的框架图,如图2中所示,输入input为scATAC-seq数据,A表示初始邻接矩阵,X表示初始特征矩阵,所述转录因子调控网络预测模型为变分图自编码器(Variational Graph Auto-Encoders,VGAE)。变分图自编码器包括编码器和解码器,编码器包括两层图神经网络,第一层图神经网络GCN1用于浅层学习,主要学习基本特征信息,本申请实施例主要用于通过第一层图神经网络对初始邻接矩阵和初始特征矩阵进行学习,从而得到初始邻接矩阵的特征分布信息。第二层图神经网络用于对第一层输出的特征分布信息进行学习,得到特征分布的均值和特征分布的方差,本申请实施例主要用于通过第二层图神经网络GCN2和GCN3对特征分布信息进行学习,得到通过GCN2学习得到的特征分布均值以及通过GCN3学习得到的特征分布方差。将特征分布均值和特征分布方差经过神经网络模型的Z函数合成以及采样后得到特征分布向量,将得到的特征分布向量经过解码器进行处理,得到特征分布向量内积,将得到的特征分布向量内积输入至神经网络模型的S型函数中,最后得到输出output,这里的输出为最终邻接矩阵结果。
如图2中所示,初始邻接矩阵中包括7个节点,每个节点表示一个转录因子,两个转录因子之间的边表示这两个转录因子之间存在基因调控关系,初始特征矩阵的每一行表示一个转录因子的特征向量,进而,初始邻接矩阵的转录因子对应初始特征矩阵的一行特征向量。
这样,本申请实施例将VGAE模型(图神经网络)应用在单细胞的转录因子调控网络预测上面,可以利用scATAC-seq数据来解决单细胞的转录因子调控网络预测问题。
本申请实施例提供的单细胞的转录因子调控网络预测方法,相对于现有技术中的预测技术以scRNA-seq数据为推演基础,此类数据具有有效数据稀疏、噪声来源广泛等特点,本申请实施例中的算法数据来源于scATAC-seq,刻画调控关系更为精确;将转录因子调控网络预测转化为基于图的问题,贴合实际;由于VGAE模型擅长处理图结构数据,其中的图卷积层可以有效学习特征,进而,本申请实施例采用VGAE模型,可以提升对基因调控关系预测的召回率;并且VGAE模型的编解码过程可以保证输入邻接矩阵和输出邻接矩阵的尺寸相同,避免损失转录因子调控网络中的调控步长,可降低虚警率,信噪比容忍度高,泛化能力强。这样一来,本申请实施例仅通过采用scATAC-seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA-seq数据在预测调控关系时的诸多弊端,使得转录因子调控网络预测的准确率较高。
基于同一发明构思,本申请实施例中还提供了与单细胞的转录因子调控网络预测方法对应的装置,由于本申请实施例中的装置解决问题的原理与本申请实施例上述方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
请参阅图3,图3为本申请实施例提供的一种单细胞的转录因子调控网络预测装置的结构示意图,如图3中所示,所述转录因子调控网络预测装置300包括:
数据获取模块310,用于获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;
矩阵处理模块320,用于对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;
网络预测模块330,用于将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。
优选地,所述矩阵处理模块320用于按照如下方式确定所述初始邻接矩阵中每个元素的取值:
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;
当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系。
优选地,所述矩阵处理模块320用于按照如下方式确定所述初始特征矩阵中每个元素的取值:
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值。
优选地,所述矩阵处理模块320通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离。
优选地,所述转录因子调控网络预测装置300还包括模型训练模块340,所述模型训练模块340用于通过以下步骤训练所述转录因子调控网络预测模型:
获取初始邻接矩阵样本和初始特征矩阵样本,以及与所述初始邻接矩阵样本对应的最终邻接矩阵结果;
基于链路预测算法,通过所述初始邻接矩阵样本和所述初始特征矩阵样本对构建好的神经网络模型进行训练,以得到训练好的转录因子调控网络预测模型。
优选地,所述模型训练模块340用于通过以下步骤对所述神经网络模型进行训练:
将所述初始邻接矩阵样本和所述初始特征矩阵样本输入至所述神经网络模型的第一层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布信息;
将所述初始邻接矩阵样本的特征分布信息输入至所述神经网络模型的第二层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布均值和特征分布方差;
将得到的特征分布均值和特征分布方差经过所述神经网络模型的合成以及采样后得到特征分布向量;
将得到的特征分布向量进行处理,得到特征分布向量内积;
将确定出的特征分布向量内积输入至所述神经网络模型的S型函数中,输出最终邻接矩阵结果;
当训练损失收敛且验证集准确率开始降低时,利用早停法确定所述神经网络模型的训练完成。
优选地,所述转录因子调控网络预测模型为变分图自编码器。
本申请实施例提供的单细胞的转录因子调控网络预测装置,包括数据获取模块、矩阵处理模块和网络预测模块,其中,数据获取模块用于获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;矩阵处理模块用于对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;网络预测模块用于将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果。这样一来,仅通过采用scATAC-seq数据即可解决单细胞的转录因子调控网络预测问题,规避了scRNA-seq数据在预测调控关系时的诸多弊端,使得转录因子调控网络预测的准确率较高。
请参阅图4,图4为本申请实施例提供的一种电子设备的结构示意图。如图4中所示,所述电子设备400包括处理器410、存储器420和总线430。
所述存储器420存储有所述处理器410可执行的机器可读指令,当电子设备400运行时,所述处理器410与所述存储器420之间通过总线430通信,所述机器可读指令被所述处理器410执行时,可以执行如上述图1所示方法实施例中的一种单细胞的转录因子调控网络预测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时可以执行如上述图1所示方法实施例中的一种单细胞的转录因子调控网络预测方法的步骤,具体实现方式可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种单细胞的转录因子调控网络预测方法,其特征在于,所述转录因子调控网络预测方法包括:
获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;
对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;其中,按照如下方式确定所述初始邻接矩阵中每个元素的取值:当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系;
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值;通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离;
将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果;所述转录因子调控网络预测模型为变分图自编码器。
2.根据权利要求1所述的转录因子调控网络预测方法,其特征在于,通过以下步骤训练所述转录因子调控网络预测模型:
获取初始邻接矩阵样本和初始特征矩阵样本,以及与所述初始邻接矩阵样本对应的最终邻接矩阵结果;
基于链路预测算法,通过所述初始邻接矩阵样本和所述初始特征矩阵样本对构建好的神经网络模型进行训练,以得到训练好的转录因子调控网络预测模型。
3.根据权利要求2所述的转录因子调控网络预测方法,其特征在于,通过以下步骤对所述神经网络模型进行训练:
将所述初始邻接矩阵样本和所述初始特征矩阵样本输入至所述神经网络模型的第一层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布信息;
将所述初始邻接矩阵样本的特征分布信息输入至所述神经网络模型的第二层图神经网络中,通过学习得到所述初始邻接矩阵样本的特征分布均值和特征分布方差;
将得到的特征分布均值和特征分布方差经过所述神经网络模型的合成以及采样后得到特征分布向量;
将得到的特征分布向量进行处理,得到特征分布向量内积;
将确定出的特征分布向量内积输入至所述神经网络模型的S型函数中,输出最终邻接矩阵结果;
当训练损失收敛且验证集准确率开始降低时,利用早停法确定所述神经网络模型的训练完成。
4.一种单细胞的转录因子调控网络预测装置,其特征在于,所述转录因子调控网络预测装置包括:
数据获取模块,用于获取scATAC-seq数据,其中,所述scATAC-seq数据包括峰值区域-细胞矩阵;
矩阵处理模块,用于对所述峰值区域-细胞矩阵进行初始化处理,分别得到表征转录因子之间的调控关系的初始邻接矩阵,以及表征每个转录因子的特征信息的初始特征矩阵;其中,按照如下方式确定所述初始邻接矩阵中每个元素的取值:当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为A时,A表示TFi和TFj之间存在基因调控关系,其中,当TFi的启动子区域开放且含有TFj的基序时,TFi和TFj之间存在基因调控关系;当所述初始邻接矩阵中的位置(i,j)和(j,i)处的取值为B时,B表示TFi和TFj之间不存在基因调控关系;
将各个转录因子在单个细胞中的调控潜能得分作为所述初始特征矩阵中每个元素的取值;通过以下公式计算每个转录因子的调控潜能得分:
其中,S表示每个转录因子的调控潜能得分,k表示每个转录因子启动子区域的开放位置的数量,Δi表示每个转录因子中的各个结合位点和转录起始位点之间的距离;
网络预测模块,用于将所述初始邻接矩阵和所述初始特征矩阵输入至预先训练好的转录因子调控网络预测模型中,得到与所述初始邻接矩阵相对应的邻接矩阵预测结果;所述转录因子调控网络预测模型为变分图自编码器。
5.一种电子设备,其特征在于,包括:处理器、存储介质和总线,所述存储介质存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储介质之间通过总线通信,所述处理器执行所述机器可读指令,以执行如权利要求1至3任一所述单细胞的转录因子调控网络预测方法的步骤。
6.一种计算机可读存储介质,其特征在于,所述可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至3任一所述单细胞的转录因子调控网络预测方法的步骤。
CN202110392600.7A 2021-04-13 2021-04-13 一种单细胞的转录因子调控网络预测方法及装置 Active CN112992267B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110392600.7A CN112992267B (zh) 2021-04-13 2021-04-13 一种单细胞的转录因子调控网络预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110392600.7A CN112992267B (zh) 2021-04-13 2021-04-13 一种单细胞的转录因子调控网络预测方法及装置

Publications (2)

Publication Number Publication Date
CN112992267A CN112992267A (zh) 2021-06-18
CN112992267B true CN112992267B (zh) 2024-02-09

Family

ID=76338107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110392600.7A Active CN112992267B (zh) 2021-04-13 2021-04-13 一种单细胞的转录因子调控网络预测方法及装置

Country Status (1)

Country Link
CN (1) CN112992267B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113782093B (zh) * 2021-09-16 2024-03-05 平安科技(深圳)有限公司 一种基因表达填充数据的获取方法及装置、存储介质
CN115223657B (zh) * 2022-09-20 2022-12-06 吉林农业大学 一种药用植物转录调控图谱预测方法
CN116153404B (zh) * 2023-02-28 2023-08-15 成都信息工程大学 一种单细胞ATAC-seq数据分析方法
CN116825204B (zh) * 2023-08-30 2023-11-07 鲁东大学 一种基于深度学习的单细胞rna序列基因调控推断方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001299394A (ja) * 2000-04-26 2001-10-30 Unitech Kk Rna量の比較検出方法
KR20160132223A (ko) * 2015-05-07 2016-11-17 한국과학기술원 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
WO2019241273A1 (en) * 2018-06-11 2019-12-19 The Broad Institute, Inc. Lineage tracing using mitochondrial genome mutations and single cell genomics
CN110853707A (zh) * 2019-11-20 2020-02-28 北京师范大学 一种基于深度学习的基因调控网络重构方法
CN110910950A (zh) * 2019-11-18 2020-03-24 广州竞远生物科技有限公司 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN111755071A (zh) * 2019-03-29 2020-10-09 中国科学技术大学 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018152240A1 (en) * 2017-02-14 2018-08-23 The Regents Of The University Of Colorado, A Body Corporate Methods for predicting transcription factor activity
EP3704640A4 (en) * 2017-10-27 2021-08-18 Apostle, Inc. PREDICTION OF CANCER-RELATED PATHOGENIC EFFECTS OF SOMATIC MUTATIONS USING DEEP LEARNING METHODS

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001299394A (ja) * 2000-04-26 2001-10-30 Unitech Kk Rna量の比較検出方法
KR20160132223A (ko) * 2015-05-07 2016-11-17 한국과학기술원 10,000개 이상 유전자 간의 전사조절 네트워크 구축 알고리즘과 이를 이용한 약물반응 원인 유전자 발굴 방법
WO2019241273A1 (en) * 2018-06-11 2019-12-19 The Broad Institute, Inc. Lineage tracing using mitochondrial genome mutations and single cell genomics
CN111755071A (zh) * 2019-03-29 2020-10-09 中国科学技术大学 基于峰聚类的单细胞染色质可及性测序数据分析方法和系统
CN110957009A (zh) * 2019-11-05 2020-04-03 中山大学中山眼科中心 一种基于深度混合网络的单细胞转录组缺失值填补方法
CN110910950A (zh) * 2019-11-18 2020-03-24 广州竞远生物科技有限公司 一种联合分析单细胞scRNA-seq和scATAC-seq的流程方法
CN110853707A (zh) * 2019-11-20 2020-02-28 北京师范大学 一种基于深度学习的基因调控网络重构方法
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法
CN112052813A (zh) * 2020-09-15 2020-12-08 中国人民解放军军事科学院军事医学研究院 染色体间易位识别方法、装置、电子设备及可读存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Single-cell ATAC sequencing analysis: From data preprocessing to hypothesis generation";Seungbyn Baek, et al.;《Computational and Structural Biotechnology Journal》(第18期);1429–1439 *
"ATAC-seq 在复杂疾病研究中的应用进展";陈敏,等;《遗传》;第42卷(第4期);347-353 *
"基于单细胞ATAC测序技术对18-三体综合征染色质开 放性区域转录因子的分析";邱晓芬,等;《遗传》;第43卷(第1期);74-83 *

Also Published As

Publication number Publication date
CN112992267A (zh) 2021-06-18

Similar Documents

Publication Publication Date Title
CN112992267B (zh) 一种单细胞的转录因子调控网络预测方法及装置
EP3619652B1 (en) Adaptive bit-width reduction for neural networks
Boettiger et al. Quantifying limits to detection of early warning for critical transitions
CN105745700B (zh) 统计声学模型的自适应方法以及学习方法、记录介质
Dennis et al. Estimating density dependence, process noise, and observation error
Remesan et al. Hydrological data driven modelling
CN104869126B (zh) 一种网络入侵异常检测方法
CN112116090B (zh) 神经网络结构搜索方法、装置、计算机设备及存储介质
CN110378346B (zh) 建立文字识别模型的方法、装置、设备和计算机存储介质
CN114927162A (zh) 基于超图表征与狄利克雷分布的多组学关联表型预测方法
CN111564179B (zh) 一种基于三元组神经网络的物种生物学分类方法及系统
CN114093425A (zh) 一种融合异构网络与图神经网络的lncRNA与疾病关联预测方法
CN114155397B (zh) 一种小样本图像分类方法及系统
Aibinu et al. Artificial neural network based autoregressive modeling technique with application in voice activity detection
CN112215259B (zh) 基因选择方法和装置
CN111382840B (zh) 一种面向自然语言处理的基于循环学习单元的htm设计方法
CN115392477A (zh) 基于深度学习的Skyline查询基数估计方法及装置
CN108427865A (zh) 一种预测LncRNA和环境因素关联关系的方法
CN113361194B (zh) 一种基于深度学习的传感器漂移校准方法、电子设备及存储介质
Herbinger et al. Repid: Regional effect plots with implicit interaction detection
CN109187898B (zh) 水产养殖环境中水质氨氮含量的软测量方法及装置
Landau et al. Fully Bayesian analysis of RNA-seq counts for the detection of gene expression heterosis
CN114444654A (zh) 一种面向nas的免训练神经网络性能评估方法、装置和设备
Radu et al. Node fingerprinting: an efficient heuristic for aligning biological networks
van Someren et al. Regularization and noise injection for improving genetic network models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant