CN111739584A

CN111739584A - 一种用于pgt-m检测的基因分型评估模型的构建方法及装置

Info

Publication number: CN111739584A
Application number: CN202010619134.7A
Authority: CN
Inventors: 赵学超; 张军; 孔令印; 郁培基; 季志晨; 梁波
Original assignee: Suzhou Basecare Medical Appliances Co ltd
Current assignee: Suzhou Basecare Medical Appliances Co ltd
Priority date: 2020-07-01
Filing date: 2020-07-01
Publication date: 2020-10-02
Anticipated expiration: 2040-07-01
Also published as: CN111739584B

Abstract

本申请涉及一种用于PGT‑M检测的基因分型评估模型的构建方法及装置。所述方法通过获取PGT‑M的历史测序数据，对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，根据模拟SNP分型结果建立基因分型评估模型，根据该模型得到对该待评估基因的预测分型成功率的分型评估结果，相较于传统技术中通过预实验的方法评估致病基因的分型成功率，不仅操作简单，而且极大的节省了研究人员的实验时间，还降低了成本。

Description

一种用于PGT-M检测的基因分型评估模型的构建方法及装置

技术领域

本申请涉及分子生物学与生物信息学技术领域，特别是涉及一种用于PGT-M检测的基因分型评估模型的构建方法及装置。

背景技术

基因测序技术的快速发展，极大地推动了生物医学、生命科学等领域的发展。PGT-M(Preimplantation Genetic Testing for Monogenic，胚胎植入前单基因遗传学检测)是PGT的一个重要应用，主要适用于单基因疾病的高风险人群，以降低后代健康风险。PGT-M目前主要通过基因上下游特定区域紧密连锁的SNP(Single Nucleotide Polymorphism，单核苷酸多态性)位点判断胚胎致病基因的携带情况，从而筛选出基因型正常的胚胎优先移植。但是，PGT-M致病基因检测分型的成功率与其所处的染色体位置有关，还需要通过一定区域范围内的SNP位点提供遗传信息才能够进行遗传连锁分型，从而判断致病基因的携带情况。

目前评估致病基因检测分型成功率的方法主要是通过PGT-M预实验判断测序结果是否能够成功分型。即通过公共数据库查询该致病基因上下游区域的SNP位点，只有人群频率满足一定要求的SNP位点才可以用来设计预实验。且在预实验的测序结果中，致病突变区域的上下游特定范围内至少具有2个SNP位点才能提供遗传信息进行连锁分型。预实验成功，则表明可以通过PGT-M技术检测和阻断该致病基因的遗传。

综上所述，通过预实验的方法评估致病基因检测分型的成功率，不仅操作麻烦而且费时费力。

发明内容

基于此，有必要针对上述现有技术中评估致病基因检测分型的成功率操作麻烦且费时费力的问题，提供一种能够方便快捷的用于PGT-M检测的基因分型评估模型的构建方法及装置、基因分型评估方法、装置、计算机设备和存储介质。

一种基因分型评估模型的构建方法，包括：

获取PGT-M的历史测序数据；

对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；

根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果；

根据模拟SNP分型结果建立基因分型评估模型。

在其中一个实施例中，对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，包括：根据设定的质控指标对历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据；将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据；获取预处理后的测序数据的比对结果，根据比对结果进行遗传连锁分型，得到对应的SNP分型结果。

在其中一个实施例中，根据比对结果进行遗传连锁分型，包括：查找比对结果中所有的SNP位点，对深度小于设定值的SNP位点进行第三过滤处理；根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，其中，参考数据为测序数据的样本对应的家系测序数据。

在其中一个实施例中，根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，包括：获取与预处理后的测序数据的样本对应的家系测序数据，根据家系测序数据生成模拟测序数据；对模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

在其中一个实施例中，根据家系测序数据生成模拟测序数据，包括：根据家系测序数据建立数据生成模型，其中，数据生成模型包括连锁不平衡子模型、基因重组子模型和单倍群子模型；通过连锁不平衡子模型、基因重组子模型和单倍群子模型生成对应的模拟测序数据。

在其中一个实施例中，根据家系测序数据建立数据生成模型之后，还包括：根据家系测序数据对连锁不平衡子模型、基因重组子模型和单倍群子模型进行校正。

在其中一个实施例中，根据模拟SNP分型结果建立基因分型评估模型，包括：根据模拟SNP分型结果获取每一种致病基因的分型成功率；根据每一种致病基因的分型成功率，建立基因分型评估模型。

在其中一个实施例中，根据模拟SNP分型结果获取每一种致病基因的分型成功率，包括：根据模拟SNP分型结果确定每一种致病基因的总个数以及能够进行分型的个数，其中，能够进行分型是指致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值；将能够进行分型的个数与对应致病基因的总个数的百分比作为所述致病基因的分型成功率。

在其中一个实施例中，建立基因分型评估模型之后，所述方法还包括：根据预处理后的测序数据以及对应的SNP分型结果，获取每一种致病基因的参考分型成功率；根据每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对基因分型评估模型进行优化训练，直到显著性差异大于0.05时停止训练。

一种基因分型评估方法，包括：

获取待评估基因；

利用上述方法构建的基因分型评估模型对待评估基因进行检测，得到待评估基因的分型评估结果，其中，分型评估结果中包括对待评估基因的预测分型成功率。

一种基因分型评估装置，所述装置包括：

待评估基因获取模块，用于获取待评估基因；

基因分型评估模块，用于将待评估基因输入基因分型评估模型中，得到待评估基因的分型评估结果，其中，分型评估结果中包括对待评估基因的预测分型成功率；基因分型评估模型是通过对PGT-M的历史测序数据进行分析后建立的。

一种基因分型评估模型的构建装置，包括：

历史测序数据获取模块，用于获取PGT-M的历史测序数据；

预处理模块，用于对所述历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；

模拟测序数据生成模块，用于根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果；

模型建立模块，用于根据模拟SNP分型结果建立所述基因分型评估模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

上述用于PGT-M检测的基因分型评估模型的构建方法，通过获取PGT-M的历史测序数据，对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，根据模拟SNP分型结果建立基因分型评估模型，根据该模型得到对该待评估基因的预测分型成功率的分型评估结果，相较于传统技术中通过预实验的方法评估致病基因的分型成功率，不仅操作简单，而且极大的节省了研究人员的实验时间，还降低了成本。

附图说明

图1为一个实施例中基因分型评估方法的流程示意图；

图2为一个实施例中建立基因分型评估模型的步骤的流程示意图；

图3为一个实施例中对历史测序数据进行预处理的步骤的流程示意图；

图4为一个实施例中生成模拟数据的步骤的流程示意图；

图5为一个实施例中根据模拟SNP分型结果建立基因分型评估模型的步骤的流程示意图；

图6为另一个实施例中基因分型评估方法的流程示意图；

图7(a)为一个实施例中基因分型评估模型面向用户的展示界面示意图；

图7(b)为一个实施例中模型返回分型评估结果的界面示意图；

图7(c)为一个实施例中模型返回分型评估结果中有效位点分布的界面示意图；

图8为一个实施例中基因分型评估装置的结构框图；

图9为一个实施例中计算机设备的内部结构图；

图10为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种基因分型评估方法，本实施例以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现；终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。在本实施例中，该方法可以包括以下步骤：

步骤102，获取待评估基因。

其中，待评估基因是指待进行分型评估的致病基因，致病基因则是容易引起遗传性疾病的基因，而分型评估是指评估致病基因的分型成功率，也即预测致病基因的分型成功率。由于只有当致病基因的分型成功率达到分型标准要求时，则可以通过PGT-M技术阻断该致病基因的遗传，因此，在本实施例中，在通过PGT-M技术阻断致病基因之前，先对该致病基因的分型成功率进行分型评估。具体的，获取待进行分型评估的待评估基因，以便于终端对待评估基因进行分型评估处理。

步骤104，将待评估基因输入基因分型评估模型中，得到待评估基因的分型评估结果。

其中，基因分型评估模型是通过对PGT-M的历史测序数据进行挖掘分析后建立的，该基因分型评估模型用于对待评估基因进行分型评估，从而得到待评估基因的分型评估结果。具体的，分型评估结果中包括对待评估基因的预测分型成功率。

上述基因分型评估方法，通过获取待评估基因，并将该待评估基因输入基因分型评估模型中，从而得到对该待评估基因的预测分型成功率的分型评估结果，相较于传统技术中通过预实验的方法评估致病基因的分型成功率，不仅操作简单，而且极大的节省了研究人员的实验时间，还降低了成本。需要说明的是，本申请的基因分型评估方法并不是获得诊断结果或健康状况，而只是获取受检者的致病基因表达数据来进行分型预测，其预测的分型评估结果只是作为中间结果的信息，以为医生选择进一步的检测方案而提供依据，不仅方便了医生为进一步的检测做出有效的判断，且节省了受检者的检测成本。

在一个实施例中，如图2所示，提供了一种基因分型评估模型的构建方法，包括如下步骤：

步骤202，获取PGT-M的历史测序数据。

其中，历史测序数据包括临床样本信息以及与临床样本信息对应的PGT-M的测序数据。

步骤204，对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果。

其中，预处理是指对历史测序数据进行分析，并对其中的低质量数据进行过滤。SNP分型结果是对预处理后的测序数据进行遗传连锁分型后得到的，其中是SNP位点的来源分析，即判断基因的染色体区域链的来源。具体的，根据设定的数据质量指标对历史测序数据进行预处理，得到预处理后的测序数据，进而对预处理后的测序数据进行遗传连锁分型，从而得到对应的SNP分型结果。

步骤206，根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果。

其中，模拟测序数据以及模拟SNP分型结果，是基于已知的预处理后的测序数据以及对应的SNP分型结果推断得到的未知个体的测序数据。由于在构建模型时需要用到大量的样本数据，但是，由于目前临床样本的数据量有限，而小数据集构建的模型又缺乏很好的泛化能力及准确性，因此，在本实施例中，通过已知的预处理后的测序数据以及对应的SNP分型结果，模拟并校正实际测序过程中的测序错误和基因丢失等情况，从而生成未知个体的测序数据，即模拟测序数据以及对应的模拟SNP分型结果，以为模型提供大量的数据支撑。

步骤208，根据模拟SNP分型结果建立基因分型评估模型。

具体的，通过对模拟SNP分型结果进行分析，并通过计算得到每一种致病基因的分型成功率，进而基于每一种致病基因的分型成功率，建立基因分型评估模型。

上述实施例中，通过对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，并根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，以为模型提供大量的数据支撑，进而对大量的模拟SNP分型结果进行分析，并通过计算得到每一种致病基因的分型成功率，并建立基因分型评估模型，从而为这些致病基因的分型评估提供了一定的参考。

在一个实施例中，如图3所示，对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，包括：

步骤302，根据设定的质控指标对历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据。

其中，设定的质控指标包括测序数据中的Q20、Q30以及重复reads比例(duplicatereads rates)等。具体的，在本实施例中，通过对历史测序数据中对应的指标进行统计，并过滤掉其中低质量的数据，例如，过滤掉其中不满足Q20≥90％，Q30≥85％，，duplicatereads rates≤25％的低质量数据，从而得到过滤处理后的高质量测序数据。由于在对数据进行预处理的过程中需要进行多次过滤处理，为了便于区分，本步骤中的过滤处理称之为第一过滤处理。

步骤304，将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据。

其中，设定的比对条件包括比对率(Mapping rates)、唯一匹配reads比例(uniquereads rate)等。具体的，在本实施例中，通过将上述第一过滤处理后的测序数据比对到人类基因组，进而基于比对率以及唯一匹配reads比例进行第二次过滤处理，例如，第二次过滤处理可以是过滤掉不满足Mapping rates≥98％，unique reads rate≥60％的测序数据，从而得到第二过滤处理后的测序数据，也即得到预处理后的测序数据。

步骤306，获取预处理后的测序数据的比对结果，根据比对结果进行遗传连锁分型，得到对应的SNP分型结果。

其中，比对结果可以是将测序数据比对到人类基因组hg19后的比对结果。在本实施例中，通过查找比对结果中所有的SNP位点，进而对查找到的SNP位点进行遗传连锁分型，从而得到对应的SNP分型结果。

具体的，在对查找到的SNP位点进行遗传连锁分型之前，还可以对其中深度较低的SNP位点进行第三过滤处理，即过滤掉比对结果中深度小于5的SNP位点，进而根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，从而得到对应的SNP分型结果，其中，参考数据为测序数据的样本对应的家系测序数据，而家系测序数据是指样本所属者的祖父母、父母的兄弟姐妹以及子代等的测序数据。举例来说，以参考数据为样本所属者的祖父母的测序数据为例进行说明，以女方母亲为例，选择男方为纯合，女方为杂合，参考为纯合的位点进行分析，当来源于女方的等位基因与参考相同时，表明该位点来源于女方母亲。以参考数据为样本所属者的兄弟姐妹的测序数据为例进行说明，假设女方为携带者，以女方兄弟姐妹中同样为携带者的测序数据作为参考，选择男方为纯合，女方为杂合，参考为纯合的位点进行分析，当来源于女方的等位基因与参考相同时，表明该位点与参考来源相同。以参考数据为样本所属者的子代的测序数据为例进行说明，选择参考中为纯合的位点，男女双方一方为纯合，一方为杂合的位点，优先考虑子代中的杂合位点；当男方为杂合，女方为纯合时，如果来源于男方的等位基因与参考相同，表明该位点与参考来源相同；当女方为杂合，男方为纯合时，如果来源于女方的等位基因与参考相同，表明该位点与参考来源相同。

在一个实施例中，如图4所示，根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，包括：

步骤402，获取与预处理后的测序数据的样本对应的家系测序数据，根据家系测序数据生成模拟测序数据。

具体的，为了得到建立模型所需的大量测序数据，在本实施例中，可以通过家系测序数据建立数据生成模型，进而可以通过数据生成模型，并基于家系测序数据而生成大量未知个体的测序数据，也即生成大量的模拟测序数据。

其中，数据生成模型包括连锁不平衡子模型、基因重组子模型和单倍群子模型，从而通过连锁不平衡子模型、基因重组子模型和单倍群子模型生成对应的模拟测序数据。具体的，连锁不平衡是指分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率，高于随机出现的频率，也即不同座位上两个基因同时遗传的频率明显高于预期的随机频率的现象。假设存在等位基因Aa和Bb，那么根据孟德尔遗传定律，后代中Ab，AB，aB和ab的理论概率各为0.25，A，B，a，b的概率各为0.5。若等位基因A的概率为P(A)，等位基因B的概率为P(B)，在不存在连锁不平衡的情况下，AB的概率为P(A)P(B)，而如果存在连锁，那么连锁程度D可以通过公式D＝P(AB)-P(A)*P(B)计算得到，其中，P(AB)为实际观察到的AB频率。基因重组率是指非姐妹染色单体间有关基因的染色体片段发生交换的频率，为发生重组的基因数目与基因总数的占比。单倍群是在分子进化的研究中，一组类似的单倍型的集合，它们有一个共同的单核苷酸多态性祖先，Y染色体和线粒体上的单倍群能够稳定遗传，可以用来推断祖先的来源，且在一定的时空间范围内，常染色体上的单倍群能够保持稳定，具有一定亲缘关系的个体之间单倍群是共有的。

因此，可以通过已知个体的测序数据推断未知个体的测序数据，例如，以单倍群子模型为例来说，目前研究较多的是Y-DNA单倍群和mtDNA单倍群，其中Y-DNA只能父系遗传，mtDNA只能母系遗传，在一个长期的时间内，这两个单倍群都能够保持稳定，而常染色体的单倍群能够在短时间内保持稳定，相同家系的样本中单倍群是共有的，因此，可以从已知样本的单倍群去推导未知样本的单倍群组成。

具体地，以下具体描述连锁不平衡的计算方法，假设存在等位基因Aa和Bb，若后代中AB的概率P(AB)与实际观察到的AB基因型的频率不相同，表明可能存在连锁不平衡。其中连锁程度D、D′和r2可以通过公式1计算，P(AB)为实际观察到的AB频率。使用连锁程度D′和r2来描述连锁不平衡，当D′和r2为1时，表示连锁完全不平衡，没有重组，而当D′和r2为0时，表明不存在连锁不平衡。以|D′|>＝0.45的连锁不平衡SNP位点建立haplotype blocks集合，对单个个体样本完成基因型填充，达到增加SNP数目的目的。通过等位基因准确率(Allele Correct Rate,CR)和基因型相关系数(Correlation,Cor)这两个标准来衡量基因型填充的准确性，其中CR为正确填充的基因型与进行填充基因型总数的比值，Cor为推断填充的基因型和原始基因型之间的相关系数(2种纯合子和杂合子分别为0,1,2)。

D＝P(AB)-P(A)×P(B)，公式(1)。

D＜0，D_max＝min{P(A)P(B)，P(a)P(b)}。

D＞0，D_max＝min{P(A)P(b)，P(a)P(B)}。

步骤404，对模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

具体的，在通过上述步骤生成模拟测序数据后，进而对其进行连锁遗传分型，并列出能够提供遗传信息的所有SNP位点情况，从而生成模拟测序数据的模拟SNP分型结果。

在一个实施例中，在根据家系测序数据建立数据生成模型之后，还可以根据家系测序数据对上述连锁不平衡子模型、基因重组子模型和单倍群子模型进行校正，从而使得模型得到的模拟测序数据较为有效。具体的，可以使用已知测序数据模拟实际测序过程中的随机测序错误和基因丢失等情况，不断建立和校正模型，最终生成有效的模拟测序数据。

在一个实施例中，如图5所示，根据模拟SNP分型结果建立基因分型评估模型，包括：

步骤502，根据模拟SNP分型结果获取每一种致病基因的分型成功率。

在本实施例中，通过对模拟SNP分型结果进行统计分析，确定模拟SNP分型结果中每一种致病基因的总个数以及能够进行分型的个数，其中，能够进行分型是指致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值。具体的，可以根据致病基因的SNP位点分布情况判断该致病基因是否能够进行分型，例如，若某一致病基因在上游2M内存在大于等于2个SNP位点，且在下游2M内也存在大于等于2个SNP位点，则表明该致病基因能够进行分型。通过统计确定模拟SNP分型结果中同一种致病基因的总个数以及该致病基因能够进行分型的个数，进而计算该致病基因能够进行分型的个数与总个数之间的百分比，并将其作为对应致病基因的分型成功率。据此得到模拟SNP分型结果每一种致病基因的分型成功率。

步骤504，根据每一种致病基因的分型成功率，建立基因分型评估模型。

具体的，基于得到的每一种致病基因的分型成功率，从而建立基因分型评估模型，进而可以通过该模型方便的对待评估基因的分型成功率进行评估。

在一个实施例中，建立基因分型评估模型之后，还包括对模型进行训练的过程，例如，可通过Hosmer-Lemeshow拟合优度检验来检测模拟数据(模拟测序数据以及对应的模拟SNP分型结果)的可靠性。具体的，以致病基因为单位，根据预处理后的测序数据以及对应的SNP分型结果，获取每一种致病基因的参考分型成功率，具体可以参考上述实施例，通过分析SNP分型结果中致病基因的SNP位点分布情况，根据SNP分型结果中同一种致病基因的总个数以及该致病基因能够进行分型的个数，而计算每一种致病基因的参考分型成功率。进而根据每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对基因分型评估模型进行优化训练。具体的，计算致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，如果得到的显著性差异大于0.05，则说明模拟数据与真实样本之间不存在统计学差异，即对应的基因分型评估模型是可以接受的。否则，根据真实样本(预处理后的测序数据以及对应的SNP分型结果)继续对基因分型评估模型进行训练，直到显著性差异大于0.05时停止训练，从而得到效果较好的基因分型评估模型。

目前真实样本中常染色体分型库包含1294个胚胎样本数据，X染色体分型库包含297个女性胚胎样本数据，计算了4000多种致病基因的分型成功率，从而为这些致病基因检测流程的开发提供了一定的参考。随着PGT-M实验的进行，真实样本的测序数据以及对应的SNP分型结果的数目会不断增加，基于真实样本的参考分型成功率也会更加准确。

在一个实施例中，如图6所示，以下通过一个具体的实施例进一步说明本申请的方法，包括如下步骤：

步骤601，获取PGT-M的历史测序数据。

具体的，历史测序数据为PGT-M的下机NGS("Next-generation"sequencingtechnology，下一代高通量测序数据)数据。

步骤602，对历史测序数据进行预处理，构建已知数据库。

其中，预处理过程可以参考如图3所示的流程；已知数据库中存储的是预处理后的测序数据以及对应的SNP分型结果。

步骤603，获取与预处理后的测序数据的样本对应的家系测序数据。

步骤604，根据家系测序数据建立数据生成模型，生成模拟数据库。

其中，模拟数据库中存储的是模拟测序数据以及对应的模拟SNP分型结果，具体模拟数据的生成过程可以参考如图4所示的流程。

步骤605，基于深度学习对数据生成模型进行学习训练，从而使得模型得到的模拟测序数据较为有效。

步骤606，根据模拟数据库计算每一种致病基因的分型成功率，建立基因分型评估模型，具体可参考如图5所示的流程。

步骤607，获取待评估基因。

步骤608，采用上述得到的基因分型评估模型对待评估基因进行评估。

步骤609，得到基因分型评估模型输出的分型评估结果。

具体的，基因分型评估模型面向用户的展示界面如图7(a)所示，通过在搜索框中输入OMIM(Online Mendelian Inheritance in Man，遗传的或遗传性的基因疾病)相关的致病基因，即可查询该致病基因的潜在分型成功率。举例来说，若输入的致病基因为“F8”，则模型返回的分型评估结果如图7(b)所示，分型评估结果中包括该致病基因的潜在分型成功率以及OMIM相关信息，其中，“300841”表示F8致病基因的OMIM ID，其分型成功率较低，仅有21％。分型评估结果中还会具体列出有效位点的分布情况，如图7(c)所示，其显示上游有效位点数目始终大于等于2，即满足基因分型的连锁SNP数目要求，但下游区域的有效位点数目有接近80％的基因小于2，未达到分型标准，因此该基因的分型成功率仅有21％。主要是由于该基因位于X染色体的末端区域，下游有效SNP数目较少。

应该理解的是，虽然图1-图7(c)的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图7(c)中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图8所示，提供了一种基因分型评估装置，包括：待评估基因获取模块801和基因分型评估模块802，其中：

待评估基因获取模块801，用于获取待评估基因；

基因分型评估模块802，用于将待评估基因输入基因分型评估模型中，得到待评估基因的分型评估结果，其中，分型评估结果中包括对待评估基因的预测分型成功率；基因分型评估模型是通过对PGT-M的历史测序数据进行分析后建立的。

在一个实施例中，基因分型评估模块802包括：历史数据获取单元，用于获取PGT-M的历史测序数据；数据预处理单元，用于对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；模拟数据生成单元，用于根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果；基因分型评估模型建立单元，用于根据模拟SNP分型结果建立基因分型评估模型。

在一个实施例中，数据预处理单元包括：第一过滤子单元，用于根据设定的质控指标对历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据；第二过滤子单元，将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据；分型子单元，用于获取预处理后的测序数据的比对结果，根据比对结果进行遗传连锁分型，得到对应的SNP分型结果。

在一个实施例中，分型子单元具体用于：查找比对结果中所有的SNP位点，对深度小于设定值的SNP位点进行第三过滤处理；根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，其中，参考数据为测序数据的样本对应的家系测序数据。

在一个实施例中，模拟数据生成单元包括：模拟测序数据生成子单元，用于获取与预处理后的测序数据的样本对应的家系测序数据，根据家系测序数据生成模拟测序数据；模拟分型子单元，用于对模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

在一个实施例中，模拟测序数据生成子单元具体用于：根据家系测序数据建立数据生成模型，其中，数据生成模型包括连锁不平衡子模型、基因重组子模型和单倍群子模型；通过连锁不平衡子模型、基因重组子模型和单倍群子模型生成对应的模拟测序数据。

在一个实施例中，模拟测序数据生成子单元还用于：根据家系测序数据建立数据生成模型之后，根据家系测序数据对连锁不平衡子模型、基因重组子模型和单倍群子模型进行校正。

在一个实施例中，基因分型评估模型建立单元包括：分型成功率获取子单元，用于根据模拟SNP分型结果获取每一种致病基因的分型成功率；模型建立子单元，用于根据每一种致病基因的分型成功率，建立基因分型评估模型。

在一个实施例中，分型成功率获取子单元具体用于：根据模拟SNP分型结果确定每一种致病基因的总个数以及能够进行分型的个数，其中，能够进行分型是指致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值；将能够进行分型的个数与对应致病基因的总个数的百分比作为所述致病基因的分型成功率。

在一个实施例中，基因分型评估模型建立单元还用于：在建立基因分型评估模型之后，根据预处理后的测序数据以及对应的SNP分型结果，获取每一种致病基因的参考分型成功率；根据每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对基因分型评估模型进行优化训练，直到显著性差异大于0.05时停止训练。

通过Hosmer-Lemeshow拟合优度检验来检测模拟数据的可靠性，以OMIM致病基因为单位，计算所有家系已知数据库和模拟数据库预测分型成功率的显著性差异P，如果P值大于0.05，说明当前预测模型与已知模型没有统计学差异，是可以接受的。以自由度为8的卡方分布计算值，并进行检验，计算公式详见公式2，其中X²为卡方值，k为比较分类的组数，Ai为i的水平观察频数，n为总频数，Pi为i的水平期望频数。理想预测模型构建后，对致病基因的潜在分型成功率进行预测，最终以网页的形式展示结果。

关于基因分型评估装置的具体限定可以参见上文中对于基因分型评估方法的限定，在此不再赘述。上述基因分型评估装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基因分型评估模型的相关数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基因分型评估方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基因分型评估方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图9或图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待评估基因；

将待评估基因输入基因分型评估模型中，得到待评估基因的分型评估结果，其中，分型评估结果中包括对待评估基因的预测分型成功率；基因分型评估模型是通过对PGT-M的历史测序数据进行分析后建立的。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取PGT-M的历史测序数据；对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果；根据模拟SNP分型结果建立基因分型评估模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据设定的质控指标对历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据；将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据；获取预处理后的测序数据的比对结果，根据比对结果进行遗传连锁分型，得到对应的SNP分型结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：查找比对结果中所有的SNP位点，对深度小于设定值的SNP位点进行第三过滤处理；根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，其中，参考数据为测序数据的样本对应的家系测序数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取与预处理后的测序数据的样本对应的家系测序数据，根据家系测序数据生成模拟测序数据；对模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据家系测序数据建立数据生成模型，其中，数据生成模型包括连锁不平衡子模型、基因重组子模型和单倍群子模型；通过连锁不平衡子模型、基因重组子模型和单倍群子模型生成对应的模拟测序数据。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据家系测序数据建立数据生成模型之后，根据家系测序数据对连锁不平衡子模型、基因重组子模型和单倍群子模型进行校正。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据模拟SNP分型结果获取每一种致病基因的分型成功率；根据每一种致病基因的分型成功率，建立基因分型评估模型。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：根据模拟SNP分型结果确定每一种致病基因的总个数以及能够进行分型的个数，其中，能够进行分型是指致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值；将能够进行分型的个数与对应致病基因的总个数的百分比作为所述致病基因的分型成功率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：建立基因分型评估模型之后，根据预处理后的测序数据以及对应的SNP分型结果，获取每一种致病基因的参考分型成功率；根据每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对基因分型评估模型进行优化训练，直到显著性差异大于0.05时停止训练。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待评估基因；

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取PGT-M的历史测序数据；对历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果；根据模拟SNP分型结果建立基因分型评估模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据设定的质控指标对历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据；将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据；获取预处理后的测序数据的比对结果，根据比对结果进行遗传连锁分型，得到对应的SNP分型结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：查找比对结果中所有的SNP位点，对深度小于设定值的SNP位点进行第三过滤处理；根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，其中，参考数据为测序数据的样本对应的家系测序数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取与预处理后的测序数据的样本对应的家系测序数据，根据家系测序数据生成模拟测序数据；对模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据家系测序数据建立数据生成模型，其中，数据生成模型包括连锁不平衡子模型、基因重组子模型和单倍群子模型；通过连锁不平衡子模型、基因重组子模型和单倍群子模型生成对应的模拟测序数据。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据家系测序数据建立数据生成模型之后，根据家系测序数据对连锁不平衡子模型、基因重组子模型和单倍群子模型进行校正。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据模拟SNP分型结果获取每一种致病基因的分型成功率；根据每一种致病基因的分型成功率，建立基因分型评估模型。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：根据模拟SNP分型结果确定每一种致病基因的总个数以及能够进行分型的个数，其中，能够进行分型是指致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值；将能够进行分型的个数与对应致病基因的总个数的百分比作为所述致病基因的分型成功率。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：建立基因分型评估模型之后，根据预处理后的测序数据以及对应的SNP分型结果，获取每一种致病基因的参考分型成功率；根据每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对基因分型评估模型进行优化训练，直到显著性差异大于0.05时停止训练。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基因分型评估模型的构建方法，其特征在于，包括：

获取PGT-M的历史测序数据；

对所述历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果；

根据模拟SNP分型结果建立所述基因分型评估模型。

2.根据权利要求1所述的方法，其特征在于，所述对所述历史测序数据进行预处理，得到预处理后的测序数据以及对应的SNP分型结果，包括：

根据设定的质控指标对所述历史测序数据进行第一过滤处理，得到第一过滤处理后的测序数据；

将第一过滤处理后的测序数据比对到人类基因组，根据设定的比对条件对比对后的测序数据进行第二过滤处理，得到预处理后的测序数据；

获取预处理后的测序数据的比对结果，根据所述比对结果进行遗传连锁分型，得到对应的SNP分型结果。

3.根据权利要求2所述的方法，其特征在于，所述根据所述比对结果进行遗传连锁分型，包括：

查找所述比对结果中所有的SNP位点，对深度小于设定值的SNP位点进行第三过滤处理；

根据参考数据对第三过滤处理后的比对结果中的SNP位点进行遗传连锁分型，所述参考数据为所述测序数据的样本对应的家系测序数据。

4.根据权利要求1所述的方法，其特征在于，所述根据预处理后的测序数据以及对应的SNP分型结果，生成模拟测序数据以及对应的模拟SNP分型结果，包括：

获取与预处理后的测序数据的样本对应的家系测序数据，根据所述家系测序数据生成模拟测序数据；

对所述模拟测序数据进行遗传连锁分型，得到对应的模拟SNP分型结果。

5.根据权利要求1所述的方法，其特征在于，所述根据模拟SNP分型结果建立所述基因分型评估模型，包括：

根据模拟SNP分型结果获取每一种致病基因的分型成功率；

根据所述每一种致病基因的分型成功率，建立所述基因分型评估模型。

6.根据权利要求5所述的方法，其特征在于，所述根据模拟SNP分型结果获取每一种致病基因的分型成功率，包括：

根据模拟SNP分型结果确定每一种致病基因的总个数以及能够进行分型的个数，所述能够进行分型是指所述致病基因在上游设定区域内和下游设定区域内的SNP位点数量均满足分型条件的阈值；

将能够进行分型的个数与对应致病基因的总个数的百分比作为所述致病基因的分型成功率。

7.根据权利要求5所述的方法，其特征在于，所述建立所述基因分型评估模型之后，所述方法还包括：

根据预处理后的测序数据以及对应的SNP分型结果，获取所述每一种致病基因的参考分型成功率；

根据所述每一种致病基因的参考分型成功率与对应的分型成功率之间的显著性差异，对所述基因分型评估模型进行优化训练，直到所述显著性差异大于0.05时停止训练。

8.一种基因分型评估方法，其特征在于，所述方法包括：

获取待评估基因；

利用权利要求1至7任一项所述的方法构建的基因分型评估模型对所述待评估基因进行检测，得到所述待评估基因的分型评估结果，所述分型评估结果中包括对所述待评估基因的预测分型成功率。

9.一种基因分型评估装置，其特征在于，所述装置包括：

待评估基因获取模块，用于获取待评估基因；

基因分型评估模块，用于将所述待评估基因输入基因分型评估模型中，得到所述待评估基因的分型评估结果，所述分型评估结果中包括对所述待评估基因的预测分型成功率；所述基因分型评估模型是通过对PGT-M的历史测序数据进行分析后建立的。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。