CN114783518A - 基因编辑结果的预测方法、装置、电子设备、程序及介质 - Google Patents

基因编辑结果的预测方法、装置、电子设备、程序及介质 Download PDF

Info

Publication number
CN114783518A
CN114783518A CN202210467922.8A CN202210467922A CN114783518A CN 114783518 A CN114783518 A CN 114783518A CN 202210467922 A CN202210467922 A CN 202210467922A CN 114783518 A CN114783518 A CN 114783518A
Authority
CN
China
Prior art keywords
gene
data
sequence data
sample
guide rna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210467922.8A
Other languages
English (en)
Inventor
张翠芳
苑淞
张振中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BOE Technology Group Co Ltd
Original Assignee
BOE Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BOE Technology Group Co Ltd filed Critical BOE Technology Group Co Ltd
Priority to CN202210467922.8A priority Critical patent/CN114783518A/zh
Publication of CN114783518A publication Critical patent/CN114783518A/zh
Priority to PCT/CN2023/089090 priority patent/WO2023207686A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Business, Economics & Management (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Genetics & Genomics (AREA)
  • Economics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Game Theory and Decision Science (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开提供的基因编辑结果的预测方法、装置、电子设备、程序及介质,属于基因基因数据分析技术领域。所述方法包括:获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;将所述基因编辑数据输入至基因编辑结果预测模型进行预测。

Description

基因编辑结果的预测方法、装置、电子设备、程序及介质
技术领域
本公开属于基因数据分析技术领域,特别涉及一种基因编辑结果的预测方法、装置、电子设备、程序及介质。
背景技术
CRISPR-Cas是继ZFN、TALENs等基因编辑技术推出后的第三代基因编辑技术,短短几年内,CRISPR-Cas技术风靡全球,成为现有基因编辑和基因修饰里面效率最高、最简便、成本最低、最容易上手的技术之一,成为当今主流的基因编辑系统。
但是对于基因编辑结果检测通常只能考虑到所使用的sgRNA(向导RNA)对于编辑结果的影响,但是影响基因编辑结果的因素还存在其他因素,因此相关技术中基编辑结果预测的依据单一,无法保证基因编辑结果预测的准确性。
发明内容
本公开提供的一种基因编辑结果的预测方法、装置、电子设备、程序及介质。
本公开一些实施例提供一种基因编辑结果的预测方法,所述方法包括:
获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;
根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;
将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
可选地,所述基因编辑数据包括:甲基化基因特征和向导RNA特征构成的拼接基因特征;所述根据所述目标基因甲基化数据、目标基因序列数据,向导RNA序列数据,构建基因编辑数据,包括:
将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征;
将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征。
可选地,所述将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征,包括:
计算所述目标基因序列数据中的每个元素和所述向导RNA序列数据中每个数值的相关度;
将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征;
以及,计算所述目标基因序列数据中的每个元素和所述目标基因甲基化数据中每个数值的相关度;
将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征。
可选地,在所述将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征之前,所述方法还包括:
对所述目标基因序列数据中每个元素的相关度进行归一化处理;
在所述将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征之前,所述方法还包括:
对所述目标基因甲基化数据中每个元素的相关度进行归一化处理。
可选地,所述将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征,包括:
对所述甲基化基因特征和所述向导RNA特征执行卷积操作和池化操作,得到维度相同的甲基化基因矩阵特征和向导RNA矩阵特征;
将所述甲基化基因矩阵特征和所述向导RNA矩阵特征进行拼接,得到拼接基因特征。
可选地,所述基因编辑结果预测模型是通过以下步骤得到:
获取样本基因组的样本目标基因甲基化数据、样本目标基因序列数据以及所述样本目标基因序列数据相对应的样本向导RNA序列数据;
对所述样本目标基因序列数据向所述样本向导RNA序列数据进行聚集特征提取,得到样本向导RNA特征,以及对所述样本目标基因甲基化数据向所述样本向导RNA序列数据进行聚集特征提取,样本甲基化基因特征;
将所述样本甲基化基因特征和所述样本向导RNA特征进行拼接,得到样本拼接基因特征;
利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练。
可选地,所述利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练,包括:
将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型;
在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练。
可选地,所述在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练,包括:
计算训练后的所述至少两个不同的基因编辑结果预测模型相对应的验证结果;
将至少两个所述验证结果进行结合,得到综合验证结果;
在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述验证结果包括:损失值;所述将至少两个所述验证结果进行结合,得到综合验证结果,包括:
将所述至少两个基因编辑结果预测模型的损失值进行结合,得到综合损失值;
所述在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练,包括:
在所述综合损失值小于损失值阈值时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述基因编辑结果预测模型至少包括:编辑基因识别模型和基因编辑概率预测模型;所述将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型,包括:
将所述样本拼接基因特征输入至所述编辑基因识别模型,获得表征所述样本基因组是否被编辑的识别结果,以及将所述样本拼接基因特征输入至所述基因编辑概率预测模型,获得所述样本基因组已被编辑的预测概率值;
所述在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练,包括:
将所述样本基因组的样本标签和所述识别结果、所述预测概率值进行比对,分别得到所述编辑基因识别模型的第一损失值和所述基因编辑概率预测模型的第二损失值;
在所述第一损失值和所述第二损失值结合得到的综合损失值小于损失值预置时,确认所述编辑基因识别模型和所述基因编辑概率预测模型均完成训练。
本公开一些实施例提供一种基因编辑结果的预测装置,所述装置包括:
获取模块,被配置为获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;
数据处理模块,被配置为根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;
预测模块,被配置为将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
可选地,所述数据处理模块,还被配置为:
将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征;
将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征。
可选地,所述数据处理模块,还被配置为:
计算所述目标基因序列数据中的每个元素和所述向导RNA序列数据中每个数值的相关度;
将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征;
以及,计算所述目标基因序列数据中的每个元素和所述目标基因甲基化数据中每个数值的相关度;
将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征。
可选地,所述数据处理模块,还被配置为:
对所述目标基因序列数据中每个元素的相关度进行归一化处理;
对所述目标基因甲基化数据中每个元素的相关度进行归一化处理。
可选地,所述数据处理模块,还被配置为:
对所述甲基化基因特征和所述向导RNA特征执行卷积操作和池化操作,得到维度相同的甲基化基因矩阵特征和向导RNA矩阵特征;
将所述甲基化基因矩阵特征和所述向导RNA矩阵特征进行拼接,得到拼接基因特征。
可选地,所述装置还包括:训练模块,被配置为:
获取样本基因组的样本目标基因甲基化数据、样本目标基因序列数据以及所述样本目标基因序列数据相对应的样本向导RNA序列数据;
对所述样本目标基因序列数据向所述样本向导RNA序列数据进行聚集特征提取,得到样本向导RNA特征,以及对所述样本目标基因甲基化数据向所述样本向导RNA序列数据进行聚集特征提取,样本甲基化基因特征;
将所述样本甲基化基因特征和所述样本向导RNA特征进行拼接,得到样本拼接基因特征;
利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练。
可选地,所述训练模块,还被配置为:
将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型;
在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练。
可选地,所述训练模块,还被配置为:
计算训练后的所述至少两个不同的基因编辑结果预测模型相对应的验证结果;
将至少两个所述验证结果进行结合,得到综合验证结果;
在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述验证结果包括:损失值;所述训练模块,还被配置为:
将所述至少两个基因编辑结果预测模型的损失值进行结合,得到综合损失值;
所述在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练,包括:
在所述综合损失值小于损失值阈值时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述训练模块,还被配置为:
将所述样本拼接基因特征输入至所述编辑基因识别模型,获得表征所述样本基因组是否被编辑的识别结果,以及将所述样本拼接基因特征输入至所述基因编辑概率预测模型,获得所述样本基因组已被编辑的预测概率值;
将所述样本基因组的样本标签和所述识别结果、所述预测概率值进行比对,分别得到所述编辑基因识别模型的第一损失值和所述基因编辑概率预测模型的第二损失值;
在所述第一损失值和所述第二损失值结合得到的综合损失值小于损失值预置时,确认所述编辑基因识别模型和所述基因编辑概率预测模型均完成训练。
本公开一些实施例提供一种计算处理设备,包括:
存储器,其中存储有计算机可读代码;
一个或多个处理器,当所述计算机可读代码被所述一个或多个处理器执行时,所述计算处理设备执行如上述的基因编辑结果的预测方法。
本公开一些实施例提供一种计算机程序,包括计算机可读代码,当所述计算机可读代码在计算处理设备上运行时,导致所述计算处理设备执行如上述的基因编辑结果的预测方法。
本公开一些实施例提供一种非瞬态计算机可读介质,其中存储了如上述的基因编辑结果的预测方法。
本公开提供的一种基因编辑结果的预测方法、装置、电子设备、程序及介质,通过利用目标基因序列数据、向导RNA、目标基因甲基化数据构建用于基因编辑结果预测的基因编辑数据,使得基因编辑结果预测模型在预测的过程中可以综合基因甲基化和向导RNA对于基因编辑的影响,提高了基因编辑预测的准确性。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示意性地示出了本公开一些实施例提供的一种基因编辑结果的预测方法的流程示意图;
图2示意性地示出了本公开一些实施例提供的另一种基因编辑结果的预测方法的流程示意图之一;
图3示意性地示出了本公开一些实施例提供的另一种基因编辑结果的预测方法的流程示意图之二;
图4示意性地示出了本公开一些实施例提供的一种基因编辑结果的预测方法的原理示意图;
图5示意性地示出了本公开一些实施例提供的另一种基因编辑结果的预测方法的流程示意图之三;
图6示意性地示出了本公开一些实施例提供的一种基因编辑结果预测模型的训练方法的流程示意图;
图7示意性地示出了本公开一些实施例提供的另一种基因编辑结果预测模型的训练方法的流程示意图之一;
图8示意性地示出了本公开一些实施例提供的另一种基因编辑结果预测模型的训练方法的流程示意图之二;
图9示意性地示出了本公开一些实施例提供的另一种基因编辑结果预测模型的训练方法的流程示意图之三;
图10示意性地示出了本公开一些实施例提供的另一种基因编辑结果预测模型的训练方法的流程示意图之四;
图11示意性地示出了本公开一些实施例提供的另一种基因编辑结果预测模型的训练方法的逻辑示意图;
图12示意性地示出了本公开一些实施例提供的一种基因编辑结果的预测装置的结构示意图;
图13示意性地示出了用于执行根据本公开一些实施例的方法的计算处理设备的框图;
图14示意性地示出了用于保持或者携带实现根据本公开一些实施例的方法的程序代码的存储单元。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,CRISPR/Cas系统是一种原核生物的免疫系统,用来抵抗外源遗传物质的入侵,为细菌提供了获得性免疫。当细菌遭受病毒或者外源质粒入侵时,会产生相应的“记忆”,从而可以抵御再次入侵。CRISPR/Cas系统可识别出外源DNA,并将它们切断,沉默外源基因的表达。这与真核生物中RNA干扰(RNAi)的原理是相似的。正是由于这种精确的靶向功能,CRISPR/Cas系统被开发成一种高效的基因编辑工具。自然界中,CRISPR/Cas系统拥有多种类别,其中CRISPR/Cas9系统是研究最深入,应用最成熟的一种类别。CRISPR/Cas9是继“锌指核酸内切酶(ZFN)”、“类转录激活因子效应物核酸酶(TALEN)”之后出现的第三代“基因组定点编辑技术”。凭借着成本低廉,操作方便,效率高等优点,CRISPR/Cas9迅速风靡全球的实验室,成为了生物科研的有力帮手。在TALEN和ZFN的时代,科学家们往往要花费重金,把基因编辑工作交给生物公司。而现在,在实验室里,人们就可以使用CRISPR/Cas9技术轻松地实现基因编辑。
CRISPR全称ClusteredRegularlyInterspersedShortPalindromicRepeats(成簇的规律间隔的短回文重复序列),CRISPR序列由众多短而保守的重复序列区(repeat)和间隔区(spacer)组成。重复序列区含有回文序列,用以形成发卡结构。间隔区是被细菌俘获的外源DNA序列,为细菌免疫系统的“黑名单”,当这些外源遗传物质再次入侵时,CRISPR/Cas系统就会予以精确打击。而上游的前导区(leader)被认为是CRISPR序列的启动子,上游还有一个多态性的家族基因,该基因编码的蛋白均可与CRISPR序列区域共同发生作用,被命名为CRISPR关联基因(CRISPRassociated,Cas)。Cas基因与CRISPR序列共同进化,形成了在细菌中高度保守的CRISPR/Cas系统。
病毒入侵时,Cas1和Cas2编码的蛋白将扫描外源DNA,M的DNA序列作为候选的原间隔序列。Cas1/2蛋白复合物将原间隔序列从外源DNA中剪切下,并在其他酶的协助下将原间隔序列插入临近CRISPR序列前导区的下游。然后,DNA会进行修复,将打开的双链缺口闭合,一段新的间隔序列就被添加到了基因组的CRISPR序列之中。
目前,CRISPR/Cas系统共有三种方式来合成crRNA,分别为type I、type II、typeIII,CRISPR/Cas9系统属于type II,是目前最成熟广泛的应用类型。CRISPR序列在前导区的调控下转录出pre-CRISPR-derivedRNA(pre-crRNA)和trans-actingcrRNA(tracrRNA),其中,tracrRNA是由重复序列区转录而成的具有发卡结构的RNA,pre-crRNA是由整个CRISPR序列转录而成的大型RNA分子。pre-crRNA,tracrRNA以及Cas9编码的蛋白将会进行组装。根据入侵者的类型,选取对应的间隔序列RNA,并在RNaseⅢ的协助下进行剪切,最终形成一段短小的crRNA(包含单一种类的间隔序列RNA以及部分重复序列区)。crRNA,Cas9以及tracrRNA组成的复合物,为下一步剪切的工具。
Cas9/tracrRNA/crRNA复合物可以对入侵者的DNA进行精确的打击。复合物对整个外源DNA序列进行扫描,定位到PAM/原间隔序列的区域,DNA双链被解开,形成R-Loop。crRNA将与互补链杂交,而另一条链则保持游离状态。随后,Cas9蛋白的HNH酶活性将剪切crRNA互补的DNA链,而其RuvC活性位点将剪切非互补链。Cas9使双链断裂(DSB)形成,外源DNA的表达被沉默,入侵者被消灭。
CRISPR/Cas9的应用需要待编辑区域附近存在相对保守的PAM序列(NGG),及gRNA与PAM上游的碱基序列能够互补配对。CRISPR/Cas技术已经被广泛应用。在向导RNA(guideRNA,gRNA)和Cas9蛋白的共同作用下,待编辑的细胞基因组DNA将被看作病毒或外源DNA,被精确剪切。除了基因敲除,基因替换等基础编辑方式,还可以被用于基因激活,疾病模型构建,甚至是基因治疗。
DNA甲基化(DNAmethylation)为DNA化学修饰的一种形式,能在不改变DNA序列的前提下改变遗传表现。大量研究表明DNA甲基化能引起染色质结构、DNA构象、DNA稳定性及DNA与蛋白质相互作用方式的改变,从而控制基因表达。DNA甲基化一般发生在CpG(胞嘧啶(C)和鸟嘌呤(G)组成的一个二核苷酸链,p是指C和G之间的磷酸)部位,而非CpG甲基化则于胚胎干细胞中较为常见。
DNA甲基化测序按原理可分为三大类:重亚硫酸盐测序,基于限制性内切酶的测序,靶向富集甲基化位点测序。其中,亚硫酸氢盐处理+测序一度被认为是DNA甲基化分析的金标准。过程如下:经亚硫酸盐处理后,用PCR扩增目的片段,并对PCR产物进行测序,将序列与未经处理的序列进行比较,判断CPG位点是否发生甲基化。这种方法可靠,且精度高,能明确目的片段中每一个CpG位点的甲基化状态。
CRISPR/Cas9系统在进行基因编辑时,tracrRNA(trans-activatingcrRNA)、pre-crRNA和Cas9蛋白先被转录和表达出来;接着,tracrRNA启动RNA酶Ⅲ修饰pre-crRNA,形成成熟的crRNA;然后crRNA、tracrRNA和Cas9蛋白形成复合物,通过crRNA的识别作用将复合体靶向目标DNA,同时,tracrRNA激活Cas9蛋白,Cas9发挥核酸酶的作用切割目标DNA,使其双链断裂产生DSBs。产生DSBs后,细胞可通过不同修复方式修复DNA双链。在该系统中,crRNA和tracrRNA可被一种单链的向导RNA(single-guideRNA,sgRNA)取代,简化识别组件RNA。一般的sgRNA是人为设计的,编辑是否成功与sgRNA的长度和位点选择有关系。
CRISPR/Cas12a系统属于V型系统,Cas12a为单亚基蛋白,与Cas9蛋白相比,该蛋白具有以下特点:①识别切割DNA不需要tracrRNA;②PAM序列富含胸腺嘧啶,通常为TTTN;③PAM序列位于被识别的DNA的5′端;④识别点和切割点距离PAM较远;⑤切割后产生黏性末端;⑥蛋白分子量更小;⑦需要的crRNA序列更短。除了Cas9和Cpf1蛋白以外,Cas13系列的蛋白也逐渐被重视。一种能对抗RNA病毒的核酸酶C2c2(Cas13a),该酶能与RNA靶向结合并裂解RNA,实现细菌自我防御。
经研究发送基因组被成功编辑后的位点通常也可以发生甲基化,因此本公开通过在对基因组中的目标基因的基因编辑进行预测的过程中融入该基因组的目标基因甲基化数据以提出一种基因编辑结果的预测方法来提高基基因编辑结果预测的准确性。
图1示意性地示出了本公开提供的一种基因编辑结果的预测方法的流程示意图,所述方法包括:
步骤101,获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据。
在本公开实施例中,目标基因组可以是人、畜、细菌、病毒等具有DNA和/或RNA结构的生物的基因组,该目标基因组可以是已进行基因编辑的基因组,也可以是未进行基因编辑的基因组,可以理解,虽然基因编辑过程是为了对基因组中基因片段进行编辑,但是基因编辑是否成功是不确定的,但这并不影响本公开一些实施例所提供的基因编辑结果的预测方法的可实现性。目标基因甲基化数据是通过对目标基因组进行甲基化转化后进行基因测序得到的数据。
目前,基于测序仪的DNA甲基化检测技术根据建序库方法的不同可分为直接亚硫酸氢盐测序、MeDIP测序、MBD测序、酶切-亚硫酸氢盐测序等几种方法,例如:
亚硫酸盐直接测序法的主要步骤包括断裂DNA、DNA片段末端修复、连接甲基化测序接头、亚硫酸氢盐翻转、PCR扩增、测序和序列比较。具体而言是将断裂的DNA在经过末端修饰和3’端加“A”碱基后,直接连接到甲基化的测序接头(adapter)(接头上所有位点修饰成甲基化状态)上,在合适的反应条件下,针对单链DNA分子,使用亚硫酸氢盐脱去未甲基化胞嘧啶的氨基而使之转变成尿嘧啶,而甲基化的胞嘧啶保持不变,即进行亚硫酸氢盐翻转。然后进行PCR扩增使尿嘧啶全部转化成胸腺嘧啶。最后,对PCR产物进行测序,并且与未经处理的序列比较,判断CpG位点是否发生甲基化。
MeDIP测序和MBD测序法是鉴于在哺乳动物中甲基化一般发生在CpG的胞嘧啶5位碳原子上,所以可通过特异性结合甲基化DNA的蛋白MBD或5’-甲基胞嘧啶抗体MeDIP富集高甲基化的DNA片段。并结合第二代高通量测序,对富集到的DNA片段进行测序。具体而言,MDB方法分离甲基化DNA片段的方法被称为甲基化CpG免疫沉淀(MCIp)。MeDIP是通过5-甲基胞嘧啶抗体可用来进行免疫沉淀高特异性的富集甲基化DNA片段,5-甲基胞嘧啶抗体也可以结合非CpG位点的单个甲基化的胞嘧啶,因此比MBD有更高的特异性。这项技术被称为甲基化DNA免疫沉淀,结合新一代测序技术可以高通量的筛选异常甲基化的基因,此法避免了应用限制性酶在酶切位点上的局限性。
酶切-亚硫酸氢盐测序法是基于基于酶切方法的亚硫酸氢盐测序的目的是富集待测DNA片段,降低测序DNA文库大小并降低测序费用。该方法能够成功地富集到一些CpG岛(所测数据的8%比对到了不同的CpG岛)。而且该方法在一定程度上降低了测序DNA文库大小,并且利用亚硫酸氢盐翻转之后,不用再做后续的甲基化位点的鉴定工作。
当然上述基因甲基化方式只是示例性描述,具体的基因甲基化测序方法可以根据实际需求,此处不做限定。本公开可预先通过实验测得基因组中目标基因片段的基因甲基化数据,以供基因编辑结果预测时服务端获取使用。
其中特异位点的甲基化检测常用方法有:1、甲基化特异性PCR(MS-PCR):在亚硫酸氢盐处理后,即可开展MS-PCR。在传统的MSP方法中,通常设计两对引物,一对MSP引物扩增经亚硫酸氢盐处理后的DNA模板,而另一对扩增未甲基化片段。若第一对引物能扩增出片段,则说明该检测位点存在甲基化,若第二对引物能扩增出片段,则说明该检测位点不存在甲基化;2、亚硫酸氢盐处理+测序:经过亚硫酸氢盐处理后,用PCR扩增目的片段,并对PCR产物进行测序,将序列与未经处理的序列进行比较,判断CpG位点是否发生甲基化;还有联合亚硫酸氢钠的限制性内切酶分析法(COBRA)、荧光定量法(Methylight)、甲基化敏感性高分辨率熔解曲线分析、焦磷酸测序,具体可参照相关技术中的基因甲基化测序技术,此处不再赘述。
目标基因序列数据(target sequence)是指目标基因组中的指定基因片段的序列数据,通常是需要进行基因编辑的基因片段的序列数据。向导RNA序列数据(sgRNA)是用于对目标基因片段进行基因编辑的向导RNA的序列数据,具体可参照上述对于sgRNA的详细介绍,此处不再赘述。值得说明的是,需要进行编辑的目标基因片段不同,向导RNA序列数据可能也不同,即使是对于同一目标基因片段,向导RNA序列数据也可以是有多种选择,具体可以根据实际需求预先设置,此处不做限定。
在本公开的执行主体可以是具有数据处理、数据存储和数据传输等功能的电子设备,可以是为终端的提供数据支持的服务端,也可以是数据处理和数据展示功能的终端下述描述中将示例性以服务端作为执行主体进行描述,但这不表明本公开的执行主体只能是服务端,还可以根据实际需求对执行主体进行替换,具体可以根据实际需求设置,此处不做限定。
在本公开实施例中,服务端在预测目标基因组的基因编辑结果前,需要获取该目标基因组的中可能被基因编辑的目标基因片段的目标基因序列数据,以及对该目标基因片段进行基因编辑的向导RNA序列数据。特别的,考虑到可进行基因测序的基因片段通常也可以被甲基化,因此本公开中服务端还将获取目标基因组的目标基因甲基化数据,以供后续模型预测使用。
步骤102,根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据。
在本公开实施例中,服务端通过将目标基因甲基化数据、目标基因序列数据、向导RNA序列数据中提取输入至基因编辑结果预测模型的特征向量来构建基因编辑数据,从而使得参与基因编辑结果预测的数据中可以融入目标基因片段的甲基化数据的特征。
步骤103,将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
在本公开实施例中,基因编辑结果预测模型是用于对目标基因片段的基因编辑结果进行预测的机器学习模型或者数学模型,该基因编辑结果预测模型同样是基于结合有甲基化基因特征的样本拼接基因特征进行训练得到的,因此该模型不仅是学习到了向导RNA对于基因编辑过程的影响,而且还需求到了基因甲基化对于基因编辑过程的影响,从而可以综合基因甲基化和向导RNA的特征,更加准确地对基因组的基因编辑结果进行预测。
在实际应用中,服务端将拼接基因特征输入至基因编辑结果预测模型进行预测即可得到该目标基因组的基因编辑结果,从而可以通过客户端或者自身具备的展示功能对该基因编辑结果进行输出,例如通过屏幕展示目标基因组的基因编辑结果,或者是通过分析系统进一步进行分析后输出对于给目标基因组的基因编辑报告等等,具体可以根据实际需求设置,此处不做限定。
通过利用目标基因序列数据、向导RNA、目标基因甲基化数据构建用于基因编辑结果预测的基因编辑数据,使得基因编辑结果预测模型在预测的过程中可以综合基因甲基化和向导RNA对于基因编辑的影响,提高了基因编辑预测的准确性。
可选地,所述基因编辑数据包括:甲基化基因特征和向导RNA特征构成的拼接基因特征,参照图2,所述步骤102,包括:
步骤1021,将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征。
在本公开实施例中,聚集特征提取是利用Attention的机制,从大量信息中有选择地筛选出少量重要信息并聚焦到这些重要信息上,忽略大多不重要的信息,其主要聚焦的过程体现在权重系数的计算上,权重越大越聚焦于其对应的特征值上,即权重代表了信息的重要性,而对应特征是其需要重点学习的知识。将该Attention模型应用到本公开中是将向导RNA序列数据和目标基因甲基化数据分别作为重要信息,然后将目标基于序列数据按照不同的权重系数分别聚集到向导RNA序列数据和目标基因甲基化数据中的每个元素上,从而得到向导RNA特征和甲基化基因特征。
步骤1022,将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征。
在本公开实施例中,服务端通过将甲基化基因特征和向导RNA特征进行数据拼接,从而使得输入至基因编辑结果预测模型的数据不仅可以表征向导RNA特征,还可以兼顾该基因组的甲基化的特征。拼接方式可以是适应于甲基化基因特征和向导RNA特征的向量维度进行选择,例如直接将两种维度不同的特征进行拼接后,将空缺的数值用0或者无穷小等特定数值进行填充,或者是直接将相同维度的两种不同特征进行矩阵拼接即可,具体的拼接方式可以根据实际需求设置,此处不做限定。
本公开实施例通过利用聚集特征提取算法分别从目标基因序列数据和向导RNA测序序列中提取向导RNA特征,从目标基因序列数据和目标基因甲基化数据中提取甲基化基因特征从提取甲基化基因特征,从而利用两种基因特征拼接得到的拼接基因特征供基因编辑结果预测模型进行预测,使得基因编辑结果预测模型在预测的过程中可以综合基因甲基化和向导RNA对于基因编辑的影响,提高了基因编辑预测的准确性。
可选地,参照图3,所述步骤1021,包括:
步骤10211,计算所述目标基因序列数据中的每个元素和所述向导RNA序列数据中每个数值的相关度。
在本公开实施例中,参照图4,将Source(数据源)中的向导RNA序列数据的构成元素构建为<Key,Value>数据对结构,给定Target(目标基因序列数据)中的每个元素Query,通过计算Query和各个Key的相似性或者相关性。
具体计算相似性或者相关性的方式可以采用不同的函数和计算机制,例如:
如公式(1)所示的点击积计算函数:
Similarity(Query,Keyi)=QueryKeyi (1)
如公式(2)所示的Cosine相似性计算函数:
Figure BDA0003625209780000161
如公式(3)所示的MLP网络计算函数:
similarity(Query,Keyi)=MLP(Query,Keyi) (3)
当然,上述计算函数仅是示例性描述,具体的相似性或相关性的计算方式可以根据实际需求设置,此处不做限定。
步骤10212,对所述目标基因序列数据中每个元素的相关度进行归一化处理。
在本公开实施例中,可参照下述公式(4)对所求得的结果进行归一化:
Figure BDA0003625209780000171
其中Lx表示元素的总个数,Simi表示元素的值。
步骤10213,将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征。
在本公开实施例中,得到每个Key对应Value的权重系数,然后对Value进行加权求和,即得到了最终的attention数值。具体的,可通过下述公式(5)经不同的相关性进行结合:
Figure BDA0003625209780000172
步骤10214,计算所述目标基因序列数据中的每个元素和所述目标基因甲基化数据中每个数值的相关度。
该步骤与步骤10211的描述类似,仅需将向导RNA序列数据替换为目标基因甲基化数据即可,此处不再赘述。
步骤10215,对所述目标基因甲基化数据中每个元素的相关度进行归一化处理。
该步骤与步骤10212的描述类似,仅需将向导RNA序列数据替换为目标基因甲基化数据即可,此处不再赘述。
步骤10216,将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征。
该步骤与步骤10213的描述类似,仅需将向导RNA序列数据替换为目标基因甲基化数据即可,此处不再赘述。
可选地,参照图5,所述步骤1022,包括:
步骤10221,对所述甲基化基因特征和所述向导RNA特征执行卷积操作和池化操作,得到维度相同的甲基化基因矩阵特征和向导RNA矩阵特征。
在本公开实施例中,对sgRNA(向导RNA序列数据)和target sequence(目标基因序列数据)进行one-hot编码,例如sgRNA的长度为m,target sequence的长度为n,sgRNA进行one-hot编码后表示为m*4的向量,target sequence进行one-hot编码后表示为n*4的向导RNA特征。
对target sequence的目标基因甲基化数据的位置信息进行Huffman编码,使用例如5位编码位置信息,则得到n*5,甲基化数据位n*1的序列,其中AGT位点用无穷小∞表示(只有C存在甲基化状态),位置编码与甲基化数据进行拼接,得到带有位置信息的甲基化数据,为n*6的甲基化基因特征。
使用attention模型对sgRNA和target sequence进行特征提取,得到向导RNA特征为m*n的向量,使用attention对target sequence和带有位置信息的甲基化基因特征进行特征提取,运算时对target sequence的编码矩阵进行补无穷小∞,使target sequence的表示矩阵大小为例如n*6的向导RNA特征,attention特征提取后得到n*n的甲基化基因特征。
步骤10222,将所述甲基化基因矩阵特征和所述向导RNA矩阵特征进行拼接,得到拼接基因特征。
在本公开实施例中,分别对甲基化基因矩阵特征和向导RNA矩阵特征进行卷积和池化操作,得到(c1,p,q)向导RNA矩阵特征和(c2,p,q)甲基化基因矩阵特征,然后对两个矩阵进行拼接得到(c1+c2,p,q)的拼接基因特征。
参照图6,所述示意性地示出了本公开提供的一种基因编辑结果预测模型的训练方法的流程示意图,所述方法包括:
步骤201,获取样本基因组的样本目标基因甲基化数据、样本目标基因序列数据以及所述样本目标基因序列数据相对应的样本向导RNA序列数据。
步骤202,对所述样本目标基因序列数据向所述样本向导RNA序列数据进行聚集特征提取,得到样本向导RNA特征,以及对所述样本目标基因甲基化数据向所述样本向导RNA序列数据进行聚集特征提取,样本甲基化基因特征。
步骤203,将所述样本甲基化基因特征和所述样本向导RNA特征进行拼接,得到样本拼接基因特征。
步骤204,利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练。
在本公开实施例中,训练过程中特征提取和数据拼接过程与上述基因编辑结果的预测方法中类似,此处不再赘述。区别样本基因组标注有用于描述标准预测结果的标签信息,以供基因编辑结果预测模型在训练过程中验证使用。
本公开实施例通过利用聚集特征提取算法分别从目标基因序列数据和向导RNA测序序列中提取向导RNA特征,从目标基因序列数据和目标基因甲基化数据中提取甲基化基因特征从提取甲基化基因特征,从而利用两种基因特征拼接得到的拼接基因特征供基因编辑结果预测模型进行训练,使得基因编辑结果预测模型学习到综合基因甲基化和向导RNA对于基因编辑的影响,提高了基因编辑预测的准确性。
可选地,参照图7,所述步骤204,包括:
步骤2041,将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型。
在本公开实施例中,样本拼接基因特征可以输入至不同的基因编辑结果预测模型中同时进行训练,从而实现对于多种不同训练任务的高效处理。
步骤2042,在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练。
在本公开实施例中,若同时存在多个不同的训练任务,为了保证每个模型的训练效果,因此可在模型训练过程中,综合多个不同基因编辑结果预测模型的训练结果来确定是否确认每个基因编辑结果预测模型均训练完成,从而不仅通过多模型训练任务同时进行提高了多个不同基因编辑结果预测模型的训练效率,而且通过协同模型验证的方式提供了多个不同基因编辑结果预测模型的模型性能。
可选地,参照图8,所述步骤2042,包括:
步骤20421,计算训练后的所述至少两个不同的基因编辑结果预测模型相对应的验证结果。
在本公开实施例中,不同基因编辑结果预测模型的验证结果可以是损失值,相似度等验证指标,当然不同基因编辑结果预测模型的验证函数可以相同也可以不同,具体可以根据实际需求设置,此处不做限定。
步骤20422,将至少两个所述验证结果进行结合,得到综合验证结果。
在本公开实施例中,在验证结果的计算方式相同时,可通过将多种验证结果进行加权求和来得到综合验证结果,若不同也可以通过设置相对应的归一化函数对不同验证结果进行归一化后再进行结合来得到综合验证结果,具体可以根据实际需求设置,此处不做限定。
步骤20423,在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练。
在本公开实施例中,在综合验证结果符合处于特征数值范围或者小于或大于特征阈值时,可以确认多个不同的基因编辑结果预测模型均完成训练,从而使得多个不同基因编辑结果预测模型可以相互协同进行训练,提供了基因编辑结果预测模型的训练效率。
可选地,参照图9,所述步骤20422,可以包括:
步骤20422A,将所述至少两个基因编辑结果预测模型的损失值进行结合,得到综合损失值。
可选地,参照图9,所述步骤20423,可以包括:
步骤20423A,在所述综合损失值小于损失值阈值时,确认所述至少两个基因编辑结果预测模型均完成训练。
在本公开实施例中,在验证结果为损失值时,不同基因编辑结果可以选择相同或者不同的损失值计算函数来计算其相对应的损失值,然后将损失值进行加权求和来得到综合损失值。考虑通常损失值越小模型的性能越好,因此可通过判断该综合损失值是否小于损失值阈值来确认多个基因编辑结果预测模型是否均已完成训练,从而提高了基因编辑结果预测模型的训练效率。
可选地,所述基因编辑结果预测模型至少包括:编辑基因识别模型和基因编辑概率预测模型,参照图10,所述步骤2041,包括:
步骤S1,将所述样本拼接基因特征输入至所述编辑基因识别模型,获得表征所述样本基因组是否被编辑的识别结果,以及将所述样本拼接基因特征输入至所述基因编辑概率预测模型,获得所述样本基因组已被编辑的预测概率值。
参照图10,所述步骤2042,包括:
步骤S2,将所述样本基因组的样本标签和所述识别结果、所述预测概率值进行比对,分别得到所述编辑基因识别模型的第一损失值和所述基因编辑概率预测模型的第二损失值。
步骤S3,在所述第一损失值和所述第二损失值结合得到的综合损失值小于损失值预置时,确认所述编辑基因识别模型和所述基因编辑概率预测模型均完成训练。
在公开实施例中,参照图11,对拼接后得到的拼接基因特征分别进行卷积、池化和softmax操作,设置预测“是否编辑”训练任务的编辑基因识别模型,以及“位点被编辑概率”训练任务的基因编辑概率预测模型。“是否编辑”及“位点被编辑概率”两个训练任务可以都使用如下述公式(6)所示的交叉熵损失函数进行loss计算:
Figure BDA0003625209780000211
其中,其中S为输出的种类,“是否编辑”的损失函数L1中S=2(未编辑,编辑),“位点被编辑概率”的损失函数L2中S=n+1为目标基因序列数据的长度n,1为未编辑状态)。
然后,将两个模型的交叉熵损失值求和,即进行L=L1+L2的计算来得到综合损失值。
本公开实施例通过针对是否编辑和被编辑概率的两个不同训练任务的模型采用损失值验证方式来训练模型,提高了针对是否编辑和被编辑概率两种不同训练任务模型的训练效率。
图12示意性地示出了本公开提供的一种基因编辑结果的预测装置30的结构示意图,所述装置包括:
获取模块301,被配置为获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;
数据处理模块302,被配置为根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;
预测模块303,被配置为将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
可选地,所述数据处理模块302,还被配置为:
将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征;
将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征。
可选地,所述数据处理模块302,还被配置为:
计算所述目标基因序列数据中的每个元素和所述向导RNA序列数据中每个数值的相关度;
将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征;
以及,计算所述目标基因序列数据中的每个元素和所述目标基因甲基化数据中每个数值的相关度;
将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征。
可选地,所述数据处理模块302,还被配置为:
对所述目标基因序列数据中每个元素的相关度进行归一化处理;
对所述目标基因甲基化数据中每个元素的相关度进行归一化处理。
可选地,所述数据处理模块302,还被配置为:
对所述甲基化基因特征和所述向导RNA特征执行卷积操作和池化操作,得到维度相同的甲基化基因矩阵特征和向导RNA矩阵特征;
将所述甲基化基因矩阵特征和所述向导RNA矩阵特征进行拼接,得到拼接基因特征。
可选地,所述装置还包括:训练模块,被配置为:
获取样本基因组的样本目标基因甲基化数据、样本目标基因序列数据以及所述样本目标基因序列数据相对应的样本向导RNA序列数据;
对所述样本目标基因序列数据向所述样本向导RNA序列数据进行聚集特征提取,得到样本向导RNA特征,以及对所述样本目标基因甲基化数据向所述样本向导RNA序列数据进行聚集特征提取,样本甲基化基因特征;
将所述样本甲基化基因特征和所述样本向导RNA特征进行拼接,得到样本拼接基因特征;
利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练。
可选地,所述训练模块,还被配置为:
将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型;
在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练。
可选地,所述训练模块,还被配置为:
计算训练后的所述至少两个不同的基因编辑结果预测模型相对应的验证结果;
将至少两个所述验证结果进行结合,得到综合验证结果;
在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述验证结果包括:损失值;所述训练模块,还被配置为:
将所述至少两个基因编辑结果预测模型的损失值进行结合,得到综合损失值;
所述在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练,包括:
在所述综合损失值小于损失值阈值时,确认所述至少两个基因编辑结果预测模型均完成训练。
可选地,所述训练模块,还被配置为:
将所述样本拼接基因特征输入至所述编辑基因识别模型,获得表征所述样本基因组是否被编辑的识别结果,以及将所述样本拼接基因特征输入至所述基因编辑概率预测模型,获得所述样本基因组已被编辑的预测概率值;
将所述样本基因组的样本标签和所述识别结果、所述预测概率值进行比对,分别得到所述编辑基因识别模型的第一损失值和所述基因编辑概率预测模型的第二损失值;
在所述第一损失值和所述第二损失值结合得到的综合损失值小于损失值预置时,确认所述编辑基因识别模型和所述基因编辑概率预测模型均完成训练。
本公开实施例通过利用目标基因序列数据、向导RNA序列数据、目标基因甲基化数据构建用于基因编辑结果预测的基因编辑数据,使得基因编辑结果预测模型在预测的过程中可以综合基因甲基化和向导RNA序列数据对于基因编辑的影响,提高了基因编辑预测的准确性。
以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的计算处理设备中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在非瞬态计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
例如,图13示出了可以实现根据本公开的方法的计算处理设备。该计算处理设备传统上包括处理器410和以存储器420形式的计算机程序产品或者非瞬态计算机可读介质。存储器420可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器420具有用于执行上述方法中的任何方法步骤的程序代码431的存储空间430。例如,用于程序代码的存储空间430可以包括分别用于实现上面的方法中的各种步骤的各个程序代码431。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘,紧致盘(CD)、存储卡或者软盘之类的程序代码载体。这样的计算机程序产品通常为如参考图13所述的便携式或者固定存储单元。该存储单元可以具有与图12的计算处理设备中的存储器420类似布置的存储段、存储空间等。程序代码可以例如以适当形式进行压缩。通常,存储单元包括计算机可读代码431’,即可以由例如诸如410之类的处理器读取的代码,这些代码当由计算处理设备运行时,导致该计算处理设备执行上面所描述的方法中的各个步骤。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
本文中所称的“一个实施例”、“实施例”或者“一个或者多个实施例”意味着,结合实施例描述的特定特征、结构或者特性包括在本公开的至少一个实施例中。此外,请注意,这里“在一个实施例中”的词语例子不一定全指同一个实施例。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

Claims (13)

1.一种基因编辑结果的预测方法,其特征在于,所述方法包括:
获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;
根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;
将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
2.根据权利要求1所述的方法,其特征在于,所述基因编辑数据包括:甲基化基因特征和向导RNA特征构成的拼接基因特征;所述根据所述目标基因甲基化数据、目标基因序列数据,向导RNA序列数据,构建基因编辑数据,包括:
将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征;
将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征。
3.根据权利要求2所述的方法,其特征在于,所述将所述目标基因序列数据向所述向导RNA序列数据进行聚集特征提取,得到向导RNA特征,以及将目标基因序列数据向所述目标基因甲基化数据进行聚集特征提取,得到甲基化基因特征,包括:
计算所述目标基因序列数据中的每个元素和所述向导RNA序列数据中每个数值的相关度;
将所述目标基因序列数据中每个元素的相关度进行加权求和,得到向导RNA特征;
以及,计算所述目标基因序列数据中的每个元素和所述目标基因甲基化数据中每个数值的相关度;
将所述目标基因甲基化数据中每个元素的相关度进行加权求和,得到甲基化基因特征。
4.根据权利要求2所述的方法,其特征在于,所述将所述甲基化基因特征和所述向导RNA特征进行拼接,得到拼接基因特征,包括:
对所述甲基化基因特征和所述向导RNA特征执行卷积操作和池化操作,得到维度相同的甲基化基因矩阵特征和向导RNA矩阵特征;
将所述甲基化基因矩阵特征和所述向导RNA矩阵特征进行拼接,得到拼接基因特征。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述基因编辑结果预测模型是通过以下步骤得到:
获取样本基因组的样本目标基因甲基化数据、样本目标基因序列数据以及所述样本目标基因序列数据相对应的样本向导RNA序列数据;
对所述样本目标基因序列数据向所述样本向导RNA序列数据进行聚集特征提取,得到样本向导RNA特征,以及对所述样本目标基因甲基化数据向所述样本向导RNA序列数据进行聚集特征提取,样本甲基化基因特征;
将所述样本甲基化基因特征和所述样本向导RNA特征进行拼接,得到样本拼接基因特征;
利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练。
6.根据权利要求5所述方法,其特征在于,所述利用所述样本拼接基因特征对待训练的基因编辑结果预测模型进行训练,包括:
将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型;
在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练。
7.根据权利要求5所述的方法,其特征在于,所述在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练,包括:
计算训练后的所述至少两个不同的基因编辑结果预测模型相对应的验证结果;
将至少两个所述验证结果进行结合,得到综合验证结果;
在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练。
8.根据权利要求7所述的方法,其特征在于,所述验证结果包括:损失值;所述将至少两个所述验证结果进行结合,得到综合验证结果,包括:
将所述至少两个基因编辑结果预测模型的损失值进行结合,得到综合损失值;
所述在所述综合验证结果符合训练要求时,确认所述至少两个基因编辑结果预测模型均完成训练,包括:
在所述综合损失值小于损失值阈值时,确认所述至少两个基因编辑结果预测模型均完成训练。
9.根据权利要求5所述的方法,其特征在于,所述基因编辑结果预测模型至少包括:编辑基因识别模型和基因编辑概率预测模型;所述将所述样本拼接基因特征分别输入至少两个不同的待训练的基因编辑结果预测模型,包括:
将所述样本拼接基因特征输入至所述编辑基因识别模型,获得表征所述样本基因组是否被编辑的识别结果,以及将所述样本拼接基因特征输入至所述基因编辑概率预测模型,获得所述样本基因组已被编辑的预测概率值;
所述在训练后的所述至少两个不同的基因编辑结果预测模型均符合所对应的训练要求时,确认所述至少两个不同的基因编辑结果预测模型均完成训练,包括:
将所述样本基因组的样本标签和所述识别结果、所述预测概率值进行比对,分别得到所述编辑基因识别模型的第一损失值和所述基因编辑概率预测模型的第二损失值,其中所述样本标签为所述样本基因组的基因编辑位点以及标准基因编辑概率;
在所述第一损失值和所述第二损失值结合得到的综合损失值小于损失值预置时,确认所述编辑基因识别模型和所述基因编辑概率预测模型均完成训练。
10.一种基因编辑结果的预测装置,其特征在于,所述装置包括:
获取模块,被配置为获取目标基因组的目标基因甲基化数据、目标基因序列数据以及所述目标基因序列数据相对应的向导RNA序列数据;
数据处理模块,被配置为根据所述目标基因甲基化数据、所述目标基因序列数据、所述向导RNA序列数据,构建基因编辑数据;
预测模块,被配置为将所述基因编辑数据输入至基因编辑结果预测模型进行预测。
11.一种计算处理设备,其特征在于,包括:
存储器,其中存储有计算机可读代码;
一个或多个处理器,当所述计算机可读代码被所述一个或多个处理器执行时,所述计算处理设备执行如权利要求1-9中任一项所述的基因编辑结果的预测方法。
12.本公开一些实施例提供一种计算机程序,其特征在于,包括计算机可读代码,当所述计算机可读代码在计算处理设备上运行时,导致所述计算处理设备执行如权利要求1-9中任一项的所述的基因编辑结果的预测方法。
13.一种非瞬态计算机可读介质,其特征在于,其中存储了如权利要求1-9中任一项所述的基因编辑结果的预测方法的计算机程序。
CN202210467922.8A 2022-04-29 2022-04-29 基因编辑结果的预测方法、装置、电子设备、程序及介质 Pending CN114783518A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210467922.8A CN114783518A (zh) 2022-04-29 2022-04-29 基因编辑结果的预测方法、装置、电子设备、程序及介质
PCT/CN2023/089090 WO2023207686A1 (zh) 2022-04-29 2023-04-19 基因编辑结果的预测方法、装置、电子设备、程序及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210467922.8A CN114783518A (zh) 2022-04-29 2022-04-29 基因编辑结果的预测方法、装置、电子设备、程序及介质

Publications (1)

Publication Number Publication Date
CN114783518A true CN114783518A (zh) 2022-07-22

Family

ID=82435572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210467922.8A Pending CN114783518A (zh) 2022-04-29 2022-04-29 基因编辑结果的预测方法、装置、电子设备、程序及介质

Country Status (2)

Country Link
CN (1) CN114783518A (zh)
WO (1) WO2023207686A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207686A1 (zh) * 2022-04-29 2023-11-02 京东方科技集团股份有限公司 基因编辑结果的预测方法、装置、电子设备、程序及介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019118948A2 (en) * 2017-12-15 2019-06-20 Massachusetts Institute Of Technology Systems and methods for predicting repair outcomes in genetic engineering
CN111613274A (zh) * 2020-05-21 2020-09-01 中山大学 一种基于深度学习的CRISPR/Cas9 sgRNA活性预测方法
CN113257359A (zh) * 2021-06-08 2021-08-13 汕头大学 一种基于CNN-SVR的CRISPR/Cas9向导RNA编辑效率预测方法
CN114283888A (zh) * 2021-12-22 2022-04-05 山东大学 基于分层自注意力机制的差异表达基因预测系统
CN114783518A (zh) * 2022-04-29 2022-07-22 京东方科技集团股份有限公司 基因编辑结果的预测方法、装置、电子设备、程序及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023207686A1 (zh) * 2022-04-29 2023-11-02 京东方科技集团股份有限公司 基因编辑结果的预测方法、装置、电子设备、程序及介质

Also Published As

Publication number Publication date
WO2023207686A1 (zh) 2023-11-02

Similar Documents

Publication Publication Date Title
Kuleshov et al. Whole-genome haplotyping using long reads and statistical methods
Yong et al. Profiling genome-wide DNA methylation
US11996168B2 (en) Systems and methods for determining relative abundances of biomolecules
Ji et al. A classification-based prediction model of messenger RNA polyadenylation sites
Guigo et al. Recent advances in functional genome analysis
Haimovich Methods, challenges, and promise of next-generation sequencing in cancer biology
Johnson et al. Best practices in designing, sequencing, and identifying random DNA barcodes
White et al. Modification mapping by nanopore sequencing
WO2023207686A1 (zh) 基因编辑结果的预测方法、装置、电子设备、程序及介质
Yin et al. Effective hidden Markov models for detecting splicing junction sites in DNA sequences
US20040224345A1 (en) Computational method and system for modeling, analyzing, and optimizing DNA amplification and synthesis
JP2022534634A (ja) 検出限界ベースの品質管理メトリック
Azim et al. Oric-ens: A sequence-based ensemble classifier for predicting origin of replication in S. cerevisiae
US20230340609A1 (en) Cancer detection, monitoring, and reporting from sequencing cell-free dna
Sun et al. Chromatin-enriched RNAs mark active and repressive cis-regulation: An analysis of nuclear RNA-seq
Alipanahi et al. CRISPR genome editing using computational approaches: A survey
US20190108311A1 (en) Site-specific noise model for targeted sequencing
Alketbi The role of DNA in forensic science: A comprehensive review
CN116312783A (zh) 一种dna合成难度预测的系统及其应用
JP2008161056A (ja) Dna配列解析装置、dna配列解析方法およびプログラム
Yang et al. Analysis approaches for the identification and prediction of N 6-methyladenosine sites
JP2022540792A (ja) Crisprで導入された二本鎖dna切断修復の同定、特徴付けおよび定量化
Sudigyo et al. Bioinformatics pathway analysis pipeline for NGS transcriptome profile data on nasopharyngeal carcinoma
Yi et al. A deep learning approach to lncRNA subcellular localization using inexact q-mers
US20220238181A1 (en) Crispr guide selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination