CN117594123A

CN117594123A - 一种基于掩码语言模型的基因型补全方法及相关设备

Info

Publication number: CN117594123A
Application number: CN202311531832.1A
Authority: CN
Inventors: 陈俊杰; 梁世琦
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2023-11-15
Filing date: 2023-11-15
Publication date: 2024-02-23

Abstract

本发明公开了一种基于掩码语言模型的基因型补全方法及相关设备，所述方法包括：获取全基因组单倍体缺失序列以及对应的染色体位置序列，并对全基因组单倍体缺失序列进行映射处理，得到模型输入序列；根据模型输入序列和染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；获取目标全基因组单倍体缺失序列，并输入至基因型补全模型，得到目标缺失基因，并根据目标缺失基因对目标全基因组单倍体缺失序列中的缺失点位进行补全，得到补全后完整的基因序列。本发明能够提高全基因组单倍体序列，特别是低频率等位基因中缺失位点的基因补全准确度，同时也能够提升其基因补全效率。

Description

一种基于掩码语言模型的基因型补全方法及相关设备

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于掩码语言模型的基因型补全方法、系统、终端及计算机可读存储介质。

背景技术

基因是遗传物质的基本单位，控制生物体内各种生化过程和特征的遗传因子。对基因序列进行精准对测定具有重大的生物学和医学意义，可以帮助人类提前发现疾病并及时预防和治疗。基于高通量测序技术的发展提升了基因测序精度，但也存在着测序成本大幅增加的问题，如果降低全基因测序的成本，会带来更多的检测位点缺失，这就会导致样本中有没有被测序数据覆盖到的区域，基因型就属于未知的，将这些缺失的区域称为缺失位点。

但是当前一些基于深度学习的基因补全方法在低频率等位基因上补全性能较差，准确度相比于高频等位基因有很大的差距，这样的结果会影响后续全基因组关联性分析等工作。

因此，现有技术还有待于改进和发展。

发明内容

本发明的主要目的在于提供一种基于掩码语言模型的基因型补全方法、系统、终端及计算机可读存储介质，旨在解决现有技术中采用深度学习的基因补全方法在低频率等位基因上补全性能较差，准确度低的问题。

为实现上述目的，本发明提供一种基于掩码语言模型的基因型补全方法，所述基于掩码语言模型的基因型补全方法包括如下步骤：

获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；

根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；

获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，之前还包括：

获取原始全基因组单倍体序列，将所述原始全基因组单倍体序列中预设数量的原始基因位点进行缺失标记，得到所述全基因组单倍体缺失序列。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，具体包括：

获取所述全基因组单倍体缺失序列中每个基因位点在所属染色体中的位置，得到所述染色体位置序列；

根据预设词典中的对应关系对所述全基因组单倍体缺失序列中的每个基因位点进行映射处理，得到所述全基因组单倍体缺失序列中的每个基因位点对应的自然数值，并根据所述自然数值构建得到所述模型输入序列。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型，具体包括：

将所述模型输入序列和所述染色体位置序列输入至所述掩码语言模型的嵌入层中，并基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量；

将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量；

根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述嵌入向量包括第一向量和第二向量；所述基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量，具体包括：

基于所述掩码语言模型中的嵌入层将所述模型输入序列中的每个元素映射到预设纬度空间，得到多个所述第一向量；

基于所述掩码语言模型中的嵌入层控制所述染色体位置序列对所述全基因组单倍体缺失序列中的每个基因位点进行正余弦编码，得到多个所述第二向量。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量，具体包括：

将多个所述第一向量和多个所述第二向量进行加和处理，并输入至所述掩码语言模型的编码层，并基于所述编码层对多个所述第一向量和多个所述第二向量进行自注意计算，得到第三向量；

对所述第三向量进行归一化处理和线性转化处理，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量。

可选地，所述的基于掩码语言模型的基因型补全方法，其中，所述根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型，具体包括：

获取缺失标记位点在所述全基因组单倍体缺失序列中对应的所述概率向量，并将所述概率向量中最大值对应的基因位点作为所述缺失标记的基因对应的目标缺失基因；

获取所述原始全基因组单倍体序列中进行缺失标记的所述原始基因位点，将所述目标缺失基因与所述原始基因位点进行对比，得到对比结果，并根据所述对比结果对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

此外，为实现上述目的，本发明还提供一种基于掩码语言模型的基因型补全系统，其中，所述基于掩码语言模型的基因型补全系统包括：

样本突变序列生成模块，用于获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；

基因型补全模型生成模块，用于根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；

缺失基因补全模块，用于获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

此外，为实现上述目的，本发明还提供一种终端，其中，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被所述处理器执行时实现如上所述的基于掩码语言模型的基因型补全方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被处理器执行时实现如上所述的基于掩码语言模型的基因型补全方法的步骤。

本发明中，获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。本发明通过在全基因组单倍体序列上设置缺失位点并结合所述全基因组单倍体序列对应的染色体位置序列来对掩码语言模型进行训练，从而将基因补全问题抽象为掩码语言模型，然后训练得到基因型补全模型。通过训练好的基因型补全模型能够提高全基因组单倍体缺失序列中的缺失点位的补全准确度，同时，也使得基因补全的速率也大大提升。

附图说明

图1是本发明基于掩码语言模型的基因型补全方法的较佳实施例的流程图；

图2是本发明基于掩码语言模型的基因型补全方法的较佳实施例的VCF文件简介的示意图；

图3是本发明基于掩码语言模型的基因型补全方法的较佳实施例的模型嵌入层的示意图；

图4是本发明基于掩码语言模型的基因型补全方法的较佳实施例的BERT模型的示意图；

图5是本发明基于掩码语言模型的基因型补全系统的较佳实施例的结构图；

图6为本发明终端的较佳实施例的结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

基因是遗传物质的基本单位，控制生物体内各种生化过程和特征的遗传因子。对基因序列进行精准测定具有重大的生物学和医学意义，可以帮助人类提前发现疾病并及时预防和治疗。基于高通量测序技术的发展提升了基因测序精度，但也存在着测序成本大幅增加的问题，如果降低全基因测序的成本，会带来更多的检测位点缺失，这就会导致样本中有没有被测序数据覆盖到的区域，基因型就属于未知的，因此，将这些缺失的区域称为缺失位点。理论上全基因组是应该覆盖整个基因组，因此未覆盖的区域均被定义为缺失区域。基因型数据缺失最直接的影响就是这个位置的信息缺失，从而影响下游分析(包括选择压力分析，GWAS分析，遗传图谱构建，QTL定位-quantitative trait locus是指数量性状座位或者数量性状基因座等)的信息完整性和准确性。GWAS(Genome-Wide Association Study，全基因组关联分析)是一种常用的遗传性研究方法，其核心是研究分子变异和目标表型性状之间的关联。

基因型补全是全基因组关联分析的重要工具，基因型插补是用于描述预测或插补未在个体样本中直接分析基因型过程的术语。基因型补全工作有利于开展下游基因相关研究，例如GWAS分析，能够更好得研究表型和基因型之间的关系，寻找复杂遗传疾病的关联基因，从而进行预防和提前治疗。有几种不同的情况下，基因型插补是可取的，但这个词现在最常指的是使用一组密集SNP(Single Nucleotide Polymorphism，单一核苷酸多型性，DNA序列中单一碱基对变异)的单倍型参考模板对未进行基因分型的SNP样本进行预测分型。当前，基因型补全工作主要基于隐马尔可夫模型等传统计算方法。基于计算的基因型补全方法被认为是提高基因序列数据质量更加经济的方法。基因型补全的基本原理是对这个位点的基因型规律进行总结，然后对缺失位点归到某类中，得出一个最可能的基因型。常见的补全方法基本逻辑包括两步：1、从目标位点/目标区域非缺失的位点中，总结这个区域的基因型规律，并进行分类，其本质就是分析各个区域的单体型组成。2、根据某样本缺失位点的上下其他非缺失位点判断，判断这个区域属于哪种单倍型，然后根据所推理出的基因型补充该样本的缺失位点。

随着自然语言模型的快速发展，一些基于深度学习方法例如BERT等处理文本的方法在自然语言领域得到了广泛的应用，随后被逐渐应用到生物信息序列相关任务中。在DNA序列预测任务上展现了良好的性能。BERT(Bidirectional Encoder Representation fromTransformer，预训练的语言表征模型)模型由一个编码器组成，通过对输入的序列进行一定比例的遮蔽，通过训练使模型预测出被遮蔽的部分从而学习到所输入序列位点之间关联，学习到一种该序列的一种表示。

自然语言处理技术的发展以及自然语言序列与DNA序列的相似性支持了使用自然语言技术解决基因型补全任务的想法。缺失数据填充一般可以分为两种情况：第一种没有参考数据集，利用群体本身的基因型数据推断缺失位点的基因型；缺失数据填充另一种为有参考数据集的情况，这也是进行基因填补最常用的方法，群体的参考信息可以是亲本基因信息，同个种群的其他测序数据等。近些年来人类基因数据库的建立与完善为基于参考数据集的基因填补广泛用于人类群体的研究。

当前基因型补全方法主要分为两类：第一类基于隐马尔可夫模型和与其相似的传统计算方法，以已有数据库的VCF文件作为参考数据，在参考面板中找目标位点的临近区域，使用参考面板中的数据进行建模，并将补全问题抽象变成隐马尔可夫模型，并使用向前-向后算法获取以参考面板基因型数据为条件的缺失基因型的边缘概率分布，从而进行精准补全。第二类就是基于深度学习模型的基因补全方法。现有技术中在对I型糖尿病相关的基因问题研究时提出了基于卷积神经网络的方法。基于传统计算模型的基因型补全方法都存在对低频率等位基因预测性能偏差，补全速度慢的缺点。与传统计算方法相比，深度学习模型推断速度更快，这是一个较大的优势。现有技术中同样使用卷积神经网络，并加入了多任务学习完成了在HLA(人类白细胞抗原)的基因型插补，并将训练好的模型应用到大规模的T1D(第一型糖尿病)GWAS研究中。2021年，基于autoencoder(自编码器)的基因补全方法通过加入噪音并恢复原始序列的方式从而学习到输入序列中位点的关联性，在其中间表示纬度远远小于输入纬度，因此该方法无法针对单个位点进行基因型补全。基于单细胞基因补全方法其模型结构在保证性能基本不变化的同时降低了计算消耗和内存占用。但当前一些基于深度学习的基因补全方法在低频率等位基因上补全性能较差，其中，低频率等位基因是指在某个群体中出现频率较低的基因变体，相比于高频等位基因，低频等位基因出现频率很低，所以目前方法对于低频率等位基因上补全性能较差，准确度相比于高频等位基因有很大的差距，这样的结果会影响后续全基因组关联性分析等工作。

本发明较佳实施例所述的基于掩码语言模型的基因型补全方法，如图1所示，所述基于掩码语言模型的基因型补全方法包括以下步骤：

步骤S10、获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列。

在人类的基因序列中，大部分的位点是不会发生改变的，所以只需要记录基因序列中可能发生突变的位点。VCF文件(Variant Call Format，格式详解)就是用来记录突变位点的最常用的文件格式(如图2所示)。在VCF文件中有REF(参考值)、ALT(突变值)、POS(位点在染色体上的位置)以及样本ID(HG00096是一个人的代号，L代表DNA双螺旋第一条序列，R代表第二条序列)，分别代表大多数人基因序列在该位点上的碱基和突变之后该位点上的值。如果在VCF文件中记录个体的某条染色体在该位点值为0，则意味着这条染色体在这个特定位点上并未发生突变，其碱基和REF相同，如果值为1则说明发生了突变，说明这条染色体的在该点的碱基和ALT相同。

在本发明中，将基因补全问题抽象为掩码语言模型。其中，掩码语言模型(MLM)是BERT预训练过程中的预训练任务，训练思路如下：词表为V，对于一条输入序列W：按照一定的比例从序列中选取一部分元素(token)使用标记[MASK]代替，得到T'′＝(T₁,T₂,...,T′_i＝[MASK],...T_n)损失函数定义为Loss(T,T')损失函数表示预测被遮盖的元素的错误率，损失越低说明模型在训练集上面预测准确度越高，其中W_n为序列W中的第n个元素，T_n为序列T′中元素的个数。

掩码语言模型任务是基于上下文的单词和语法规则填补空缺处的单词，如果能够很好的完成填补任务，说明该模型已经很好的学习到了这种语言的规则和通用知识，有利于模型去完成在该语言下其他相关的任务。由于生物信息序列与自然语言的相似，基因序列补全的任务，无论从任务形式相似度方面，还是整个学习的模式上，都与所提出的掩码语言模型十分相似，因此使用掩码语言模型解决基因序列补全问题是一种十分合理的想法。

具体地，获取原始全基因组单倍体序列，将所述原始全基因组单倍体序列中预设数量的原始基因位点进行缺失标记，得到所述全基因组单倍体缺失序列；获取所述全基因组单倍体缺失序列中每个基因位点在所属染色体中的位置，得到所述染色体位置序列；根据预设词典中的对应关系对所述全基因组单倍体缺失序列中的每个基因位点进行映射处理，得到所述全基因组单倍体缺失序列中的每个基因位点对应的自然数值，并根据所述自然数值构建得到所述模型输入序列。

本发明中基于BERT模型的基因补全方法与自然语言处理任务的词表相比，模型的词表V仅由以下元素构组成V＝{0，1，2，3，[MASK]，[PAD]}。其中，0代表该位置的变异没有发生，1代表该位置的变异已经发生，2代表该位置的变异两种变异结果，3代表该位置的变异存在三种结果，[PAD]用于填充长度不足的序列，并无实际意义，[MASK]代表某个位点的变异信息缺失。词表V的大小(vocab size)记为v，经过映射将V中的不同元素映射为不同的自然数(token_id)模型的输入包括样本突变序列S′，S'＝(S₁,S₂,...,S_i,...,S_m)∈V^1xm，和位置序列P′(染色体位置序列)P'＝(P₁,P₂,...,P_i，...,P_m)∈V^1xm其中m是指输入模型的最大序列长度，P_i是T_i变异在染色体上的位置。输入模型前的每个元素通过词表V的映射被替换为token_id，得到(这个式子代表模型输入的token_id序列T’是纬度为1，长度为m的向量)模型的输出T为长度和T’相同的变异序列，模型的任务是在训练中尽量令T和T’尽可能相同。例如输入序列为{0，1，0，[MASK]，0，0，[PAD]}，通过词表V映射，序列会被映射为{0，1，0，4，0，0，5}，在这个序列中0代表输入序列中的0，1代表输入序列中的1，4代表[MASK]，5代表[PAD]。

其中，在本发明中优选采用的位置序列-即染色体序列，为所述全基因组单倍体缺失序列中每个基因位点在所属染色体中的绝对位置，如图4中染色体序列{1645879,1646377,1646842,1656938,1657827···}。

除此之外，在本发明中同样可以根据所述全基因组单倍体缺失序列中每个基因位点在所属染色体中的相对位置构建相对位置序列，如{0,1,2,3,4,5···}，当然，无论是绝对位置还是相对位置，两者序列中的个数保持一致，在本发明中优选采用所述绝对位置的染色体序列。

步骤S20、根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型。

其中，掩码语言模型(MLM，Masked Language Model)在BERT论文中正式提出了这一概念，并把这个作为一项预训练的任务来克服单向语言模型的缺点。MLM首先会将输入的句子中部分词语遮挡住，然后训练模型基于被遮挡词语周围的词来预测该词语。基于最初提出的MLM，多个研究以BERT为基础提出了不同版本的MLM。例如采用了动态掩码，将对mask的预测任务改为了对单向、双向和序列到序列预测三种类型的语言建模任务。掩码语言模型在自然语言领域发展的非常多样化，目前也有将掩码语言模型应用到基因补全问题上的研究，例如，单细胞基因补全方法，在训练任务中加入了类似任务，这说明掩码语言模型是能够进行基因补全的，在人类基因组上的补全同样也是可以开展。

BERT模型的嵌入层的作用是将输入的token_id序列经过嵌入层映射到一定纬度的空间，获得一种相关的向量表示，在后续的学习中该表示会逐渐学习(在训练过程中通过调整模型参数，使模型预测出的位点更符合真实情况，在这样的过程中，任务模型逐渐学习到了与任务相关的信息，因为模型在该任务上的性能经过训练后有很大的提升)到语义、语法以及任务相关的信息，从而有利于后续注意力计算过程中能更容易捕捉到不同基因之间的关联性。与模型输入相对应，嵌入层也是由两个模块组成，分别是token嵌入和位置嵌入(去除了原本BERT中的分段嵌入)嵌入过程如图3所示，模型输入经过一定比例遮盖后的序列数据，首先根据大小为6的词表进行token替换生成token序列，并与每个位点在染色体对应位置作为位置嵌入相加。

本发明提出了一个全新的基因型补全模型，Impute-BERT(Genotype Imputation-BERT，适用于基因补全任务的BERT模型)，该模型以BERT模型为基础，使用不同的位置嵌入方式、序列输入方式和序列位点遮蔽比例，实现基因型补全任务。

其中，Impute-BERT的主要贡献在于：在模型输入时，使用突变位点在染色体上的位置作为位置嵌入；将BERT模型可学习编码替换为正余弦编码方式；利用自注意力机制学习到相近基因型的连锁不均衡关系；在全基因组上基因型补全；基因型补全效率与先前方法相比有较大提升。

在使用BERT初始的可学习编码方式时，发现模型预测出的结果趋近于随机预测，这说明这种编码方式并不能学习到每个位点以及位点之间的连锁不均衡关系。其中，连锁不平衡(linkage diseguilibrium)是指分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率，高于随机出现的频率。HLA(Human Leukocyfe Antigen，人类白细胞抗原)不同基因座位的各等位基因在人群中以一定的频率出现。简单地说，只要两个基因不是完全独立地遗传，就会表现出某种程度的连锁，这种情况就叫连销不平衡。连锁不平衡可以是同一条染色体上的不同区域，也可以是不同染色体上的。

具体地，将所述模型输入序列和所述染色体位置序列输入至所述掩码语言模型的嵌入层中，并基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量；将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量；根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

进一步的，所述嵌入向量包括第一向量和第二向量；基于所述掩码语言模型中的嵌入层将所述模型输入序列中的每个元素映射到预设纬度空间，得到多个所述第一向量；基于所述掩码语言模型中的嵌入层控制所述染色体位置序列对所述全基因组单倍体缺失序列中的每个基因位点进行正余弦编码，得到多个所述第二向量。

其中，多个所述第一向量是指模型输入序列经过嵌入层进行Token嵌入处理之后得到的多个向量；多个所述第二向量是指所述染色体位置序列经过嵌入层进行位置嵌入处理(正余弦编码)之后得到的多个向量。

进一步的，将多个所述第一向量和多个所述第二向量进行加和处理，并输入至所述掩码语言模型的编码层，并基于所述编码层对多个所述第一向量和多个所述第二向量进行自注意计算，得到第三向量；对所述第三向量进行归一化处理和线性转化处理，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量。

其中，所述第三向量是指多个所述第一向量和多个所述第二向量进行加和处理和自注意计算处理之后的向量。

进一步的，获取缺失标记位点在所述全基因组单倍体缺失序列中对应的所述概率向量，并将所述概率向量中最大值对应的基因位点作为所述缺失标记的基因对应的目标缺失基因；获取所述原始全基因组单倍体序列中进行缺失标记的所述原始基因位点，将所述目标缺失基因与所述原始基因位点进行对比，得到对比结果，并根据所述对比结果对所述掩码语言模型进行训练和优化，得到所述基因型补全模型。

在模型输入的时候，考虑到染色体片段过长，本发明中将模型输入限制到较小的范围内从而降低模型参数量以及计算量，一般常见长度输入是512，1024，2048等长度。但是如果将染色体片段分成多段输入模型，如果仅仅依赖于模型内部相对位置编码输入的每个token，模型无法处理不同位置上每个位点之间的依赖关系，经过实验证明使用相对位置编码的模型与完全随机填补缺失位点的性能几乎一致。为了得到一个有效的能够对每个片段的每个位置进行补全的模型，模型的位置嵌入需要获取到更多的位置信息不能仅限于相对位置，所以使用变异位点在染色体上的绝对位置(即VCF文件中的变异位点的POS值)对各个token进行编码(编码方式如图3模型嵌入层)。编码方式使用正余弦编码获取一个高纬向量SINC0S(P)。SINC0S(P)∈R^m×h，

其中i代表向量第几纬度，最终会生成一个纬度大小为h的向量，pos代表每个位点在染色体上的位置，d_h是代表纬度，是一个可以设置的参数，本发明中设置的值为768，其中h为嵌入的纬度(hidden_size)通过使用这种方式可以较大程度保留嵌入模块对位置信息的学习能力，同时控制参数在一个较小的规模(W_p∈R^h×h)，编码层具体结构如图4所示，图4中左边是嵌入层的输入，将染色体序列分段进行输入，输入信息包括样本突变序列信息和对应位点染色体位置信息，序列通过一定比例遮盖进入Token嵌入，位置嵌入经过正余弦位置编码，两部分结果进行加和输入encoder进行自注意力计算，结果经过sofmax函数会预测出被遮盖掉的位点的值。

在输入经过嵌入层之后，会进入编码层，编码层的输入矩阵是由输入序列的各个位点经过正余弦编码后所得到的嵌入向量组成。由于编码层有多层，某层的输入可能是嵌入层的输出也可能是上一个编码层的输出。在基因补全任务中，编码层主要是通过自注意力计算来得到各个输入token之间的相关性。在进行注意力计算时，采用了Transformer中的多头自注意力机制，在经过编码层之后经过Dropout，Layernorm，以及Residual参差连接，对多头注意力机制产生的向量进一步处理，Dropout函数可以一定程度上有效防止出现过拟合问题；LayerNorm是层归一化方法，通过加入LayerNorm有助于将输入数据的分布规范化，减少不同样本之间的差异，有利于网络的稳定性和学习能力；通过加入Residual可以使模型能够较好地捕捉和处理更深层的特征，从而提高网络的表示能力。编码层的输出最后会经过一个全连接层，对于每一个输出向量o∈R^1×h，会通过全连接层，将模型的输出向量线性转变为这个变异位点(每一个向量)在词表中每一个值的概率向量，对于某一变异位点，模型的预测结果为概率向量中获得最大概率的token。

步骤S30、获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

进一步的，从整个基因型补全方法来看，通过BERT模型去学习到突变位点之间的关联，使用某种特定的编码方式进行位置编码，可以以此思路为基础，使用其他语言模型完成基因型补全任务，例如BERT模型的变体RoBERTa，ESM-1b，这些模型在蛋白质领域相关任务性能超过了BERT模型，可以尝试将这些模型应用到基因补全任务中。

与现有技术中的基因型补全方法相比，本发明的关键点包括：利用掩码语言模型做基因型补全任务；使用突变位点在染色体上的位置作为位置嵌入；使用正余弦编码作为BERT模型的位置编码方式；基于有重叠部分的基因序列片段基因型补全；能够在全基因组序列上进行基因型补全。

另外，本发明中设置的一种基于上述基于掩码语言模型的基因型补全方法，不仅可以用于人类基因型补全，还可以用于单细胞、水稻细胞等生物基因序列补全任务。

进一步地，如图5所示，基于上述基于掩码语言模型的基因型补全方法，本发明还相应提供了一种基于掩码语言模型的基因型补全系统，其中，所述基于掩码语言模型的基因型补全系统包括：

样本突变序列生成模块51，用于获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；

基因型补全模型生成模块52，用于根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；

缺失基因补全模块53，用于获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。

进一步地，如图6所示，基于上述基于掩码语言模型的基因型补全方法和系统，本发明还相应提供了一种终端，所述终端包括处理器10、存储器20及显示器30。图6仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。

所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据，例如所述安装终端的程序代码等。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有基于掩码语言模型的基因型补全程序40，该基于掩码语言模型的基因型补全程序40可被处理器10所执行，从而实现本申请中基于掩码语言模型的基因型补全方法。

所述处理器10在一些实施例中可以是一中央处理器(Central Processing Unit，CPU)，微处理器或其他数据处理芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述基于掩码语言模型的基因型补全方法等。

所述显示器30在一些实施例中可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode，有机发光二极管)触摸器等。所述显示器30用于显示在所述终端的信息以及用于显示可视化的用户界面。所述终端的部件10-30通过系统总线相互通信。

在一实施例中，当处理器10执行所述存储器20中基于掩码语言模型的基因型补全程序40时实现以下步骤：

其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，之前还包括：

其中，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，具体包括：

其中，所述根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型，具体包括：

其中，所述嵌入向量包括第一向量和第二向量；所述基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量，具体包括：

其中，所述将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量，具体包括：

其中，所述根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型，具体包括：

本发明还提供一种计算机可读存储介质，其中，所述计算机可读存储介质存储有基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被处理器执行时实现如上所述的基于掩码语言模型的基因型补全方法的步骤。

综上所述，本发明提供一种基于掩码语言模型的基因型补全方法及相关设备，所述方法包括：获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列；根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型；获取目标全基因组单倍体缺失序列，将所述目标全基因组单倍体缺失序列输入至所述基因型补全模型，得到目标缺失基因，并根据所述目标缺失基因对所述目标全基因组单倍体缺失序列中的缺失点位进行补全。本发明通过在全基因组单倍体序列上设置缺失位点并结合所述全基因组单倍体序列对应的染色体位置序列来对掩码语言模型进行训练，从而将基因补全问题抽象为掩码语言模型，然后训练得到基因型补全模型。通过训练好的基因型补全模型能够提高全基因组单倍体缺失序列中的缺失点位的补全准确度，同时，也使得基因补全的速率也大大提升。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者终端中还存在另外的相同要素。

当然，本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关硬件(如处理器，控制器等)来完成，所述的程序可存储于一计算机可读取的计算机可读存储介质中，所述程序在执行时可包括如上述各方法实施例的流程。其中所述的计算机可读存储介质可为存储器、磁碟、光盘等。

应当理解的是，本发明的应用不限于上述的举例，对本领域普通技术人员来说，可以根据上述说明加以改进或变换，所有这些改进和变换都应属于本发明所附权利要求的保护范围。

Claims

1.一种基于掩码语言模型的基因型补全方法，其特征在于，所述基于掩码语言模型的基因型补全方法包括：

2.根据权利要求1所述的基于掩码语言模型的基因型补全方法，其特征在于，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，之前还包括：

3.根据权利要求1所述的基于掩码语言模型的基因型补全方法，其特征在于，所述获取全基因组单倍体缺失序列以及所述全基因组单倍体缺失序列对应的染色体位置序列，并对所述全基因组单倍体缺失序列进行映射处理，得到模型输入序列，具体包括：

4.根据权利要求2所述的基于掩码语言模型的基因型补全方法，其特征在于，所述根据所述模型输入序列和所述染色体位置序列对掩码语言模型进行训练和优化，得到基因型补全模型，具体包括：

5.根据权利要求4所述的基于掩码语言模型的基因型补全方法，其特征在于，所述嵌入向量包括第一向量和第二向量；所述基于所述嵌入层对所述模型输入序列和所述染色体位置序列进行嵌入处理，得到多个嵌入向量，具体包括：

6.根据权利要求5所述的基于掩码语言模型的基因型补全方法，其特征在于，所述将多个所述嵌入向量输入至所述掩码语言模型的编码层中，得到所述全基因组单倍体缺失序列中缺失标记位点对应的概率向量，具体包括：

7.根据权利要求4所述的基于掩码语言模型的基因型补全方法，其特征在于，所述根据所述概率向量确定所述缺失标记位点对应的目标缺失基因，并根据所述目标缺失基因对所述掩码语言模型进行训练和优化，得到所述基因型补全模型，具体包括：

8.一种基于掩码语言模型的基因型补全系统，其特征在于，所述基于掩码语言模型的基因型补全系统包括：

9.一种终端，其特征在于，所述终端包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被所述处理器执行时实现如权利要求1-7任一项所述的基于掩码语言模型的基因型补全方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有基于掩码语言模型的基因型补全程序，所述基于掩码语言模型的基因型补全程序被处理器执行时实现如权利要求1-7任一项所述的基于掩码语言模型的基因型补全方法的步骤。