CN115831219B

CN115831219B - 一种质量预测方法、装置、设备及存储介质

Info

Publication number: CN115831219B
Application number: CN202211658266.6A
Authority: CN
Inventors: 于慧云; 王丹阳; 袁静贤
Original assignee: Zhengzhou Sikun Biological Engineering Co ltd
Current assignee: Zhengzhou Sikun Biological Engineering Co ltd
Priority date: 2022-12-22
Filing date: 2022-12-22
Publication date: 2024-05-28
Anticipated expiration: 2042-12-22
Also published as: CN115831219A

Abstract

本发明公开了一种质量预测方法、装置、设备及存储介质。该质量预测方法包括：根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率。采用本发明的技术方案，通过对测序碱基建立标签，同时将测序碱基对应的各特征数据进行分箱，进而构建鲁棒性好的质量预测模型，该模型适用不同批次多台设备对测序碱基质量的预测，得到准确的结果；有利于在高通量测序的过程中更准确的评估测序碱基的质量，便于评估测序设备得到的数据质量，为下一步基因组学的研究提供质量参考基础。

Description

一种质量预测方法、装置、设备及存储介质

技术领域

本发明涉及高通量测序技术领域，尤其涉及一种质量预测方法、装置、设备及存储介质。

背景技术

基因测序技术和人类的日常生活息息相关，通过血液、体液或者是细胞对基因进行检测，来了解生物的基因信息，常被应用于医学检验、疾病诊断、食品安全以及犯罪认定等方面。随着基因测序技术的快速发展，具备高通量、低成本特点的高通量测序技术应运而生。在高通量测序技术领域中，对测序核酸的识别方式是：首先根据测序设备中的成像系统采集到测序碱基中的荧光信号，通过碱基识别系统识别所述荧光信号对应的碱基类型。然而，对测序核酸的测序碱基进行准确的质量预测是研究生物的关键步骤，通过基因测序以及准确的质量预测建立生物的核酸碱基数据库，为基因组学的研究提供质量参考依据。

目前，将数学模型应用于基因测序领域，分析测序核酸中测序碱基的错误概率，但是，对测序碱基的质量预测的可靠程度往往受测序设备性能、试剂性能以及计算误差等的影响。而且这种质量预测的方法基于第一代测序技术形成，对现如今被广泛应用的高通量测序技术不适用。

发明内容

本发明提供了一种质量预测方法、装置、设备及存储介质，能够应用于不同的测序设备，预测出相对准确的测序碱基的质量，有效的评估测序设备产出的数据质量。

根据本发明的第一方面，提供了一种质量预测方法，该方法包括：

根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；

根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；

根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

可选的，所述根据测序数据集得到质量预测模型，包括：

确定所述测序数据集的特征数据区间；

根据所述第一数据集和所述特征数据区间，得到所述质量预测模型。

进一步的，所述确定所述测序数据集的特征数据区间，包括：

根据一种改进的分箱算法提取所述测序数据集的特征数据，得到所述特征数据区间。

可选的，所述确定所述测序数据集的特征数据区间，还包括：

结合特征数据集实际数据分布特点，设定区间参数，根据参数边界阈值进行特征分箱；输出各特征数据区间的平均值。

可选的，所述参考碱基序列包括模板碱基序列和历史碱基序列，所述根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签，包括：

确定与所述模板碱基序列中相同位置碱基相同的测序碱基的标签为第一标签；以及，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基相同的测序碱基的标签为第一标签；否则，所述测序碱基的标签为第二标签。

可选的，所述根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，包括：

所述第一质量预测结果和第二质量预测结果之间的误差在误差范围内，则所述质量预测模型的准确率大于等于准确率阈值。

根据本发明的第二方面，提供了一种质量预测装置，该装置包括：

第一确定模块，用于根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；

第二确定模块，用于根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；

第三确定模块，用于根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

可选的，所述第二确定模块，包括：

第一单元，用于确定所述测序数据集的特征数据区间；

第二单元，用于根据所述第一数据集和所述特征数据区间，得到所述质量预测模型。

根据本发明的第三方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器实现如本发明任一实施例所述的质量预测方法。

根据本发明的第四方面，提供了一种计算机可读存储介质，所述计算机指令用于使所述计算机执行如本发明任一实施例所述质量预测方法。

本发明公开了一种质量预测方法、装置、设备及存储介质。该质量预测方法包括：根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率。采用本发明的技术方案，通过对测序碱基建立标签，同时结合特征数据集实际数据分布特点将测序碱基对应的各特征数据进行分箱，进而构建鲁棒性好的质量预测模型，该模型适用于不同批次多台设备对测序碱基质量的预测，得到准确的结果；有利于在高通量测序的过程中更准确的评估测序碱基的质量，便于评估测序设备得到的数据质量，为下一步基因组学的研究提供质量参考基础。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例一提供的一种质量预测方法的流程示意图；

图2是根据本发明实施例一提供的一种含N碱基的测序碱基序列中各测序碱基对应的标签示意图；

图3是根据本发明实施例一提供的一种存在碱基缺失情况下，测序碱基序列中各测序碱基对应的标签示意图；

图4是根据本发明实施例一提供的一种存在碱基插入情况下，测序碱基序列中各测序碱基对应的标签示意图；

图5a是根据本发明实施例一提供的一种校正缺失测序碱基之后，测序碱基序列中各测序碱基对应的标签示意图；

图5b是根据本发明实施例一提供的一种校正插入测序碱基之后，测序碱基序列中各测序碱基对应的标签示意图；

图6是根据本发明实施例一提供的一种预测质量值与实际质量值的分布示意图；

图7是根据本发明实施例一提供的一种实际错误率、第一质量预测值及其转换出的错误率（预测错误率）的分布示意图；

图8是根据本发明实施例提供的一种质量预测装置的结构示意图；

图9是用来实现本发明实施例的质量预测方法的电子设备的框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

根据本申请实施例，提供了一种质量预测方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。如图1所示，该质量预测方法包括如下步骤：S110、S120和S130。

S110、根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签。

可选的，所述参考碱基序列包括模板碱基序列和历史碱基序列，所述根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签，包括：确定与所述模板碱基序列中相同位置碱基相同的测序碱基的标签为第一标签；以及，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基相同的测序碱基的标签为第一标签；否则，所述测序碱基的标签为第二标签。

所述测序碱基序列是根据所述测序设备通过基因测序得到的。所述模板碱基序列为数据库中下载的表征测序生物种类的基因组序列。所述历史碱基序列为集成于测序设备内部的测序仪系统输出的碱基序列，根据所述模板碱基序列，对所述历史碱基序列依次执行碱基比对、重复标记以及变异检测的操作，记录所述历史碱基序列中变异位点的位置以及该变异位点上的变异碱基，组成变异位点信息库。所述测序仪系统包括成像系统和碱基识别系统，将测序设备中的碱基识别系统输出的测序碱基序列与模板碱基序列进行比对，确定待测序核酸中各测序碱基在基因组序列中对应的位置，可以通过核酸序列比对软件进行碱基的比对，包括但不限于如下软件，BWA，bowtie2，blastN。

根据比对结果，对各个测序碱基赋予相应的标签值，所述第一标签的标签值为1，表示该测序碱基为正确的碱基，所述第二标签的标签值为0，表示该测序碱基为错误的碱基。在实际的测序任务中，碱基识别系统不能识别的碱基会被标记为N,因此，在确定测序碱基的标签时，首先判断测序碱基序列中是否包括N碱基，如果存在N碱基，则不对该N碱基赋予标签值；如果不存在N碱基，则判断该测序碱基与模板碱基在对应位置的碱基类型是否相同：若相同，则该测序碱基的标签为第一标签，若不同，则进一步判断该测序碱基的位置是否属于变异位点。如图2所示，提供了一种含N碱基的测序碱基序列中各测序碱基对应的标签示意图，在测序碱基序列的第一个位点包含有N碱基，将其标签以“*”标记，表示不输出标签值。其次，当测序碱基属于变异位点，确定是否存在测序碱基缺失或者测序碱基插入的状况，如果存在，则不输出该测序碱基的标签，如果不存在，则比较变异碱基与测序碱基是否相同。具体的，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基不同的测序碱基的标签为第二标签；确定与所述模板碱基序列中相同位置碱基不同，且在所述历史碱基序列中无对应变异位点的测序碱基的标签为第二标签。

如图3所示，提供了一种存在碱基缺失的情况下，测序碱基序列中各测序碱基对应的标签示意图，测序碱基序列中缺失了碱基‘T’,导致与相同位置的模板碱基不一致，后续不一致的测序碱基标签为第二标签。如图4所示，提供了一种存在碱基插入的情况下，测序碱基序列中各测序碱基对应的标签示意图，相较于模板碱基序列，测序碱基序列中由于插入测序碱基‘T’，导致该测序碱基位置之后的部分位置与模板碱基不一致，并且将相同位置下不同于模板碱基的测序碱基设置为第二标签。因此，如果存在类似图3或者图4示出的情况，对测序碱基设置不准确的标签将会形成假阴性。

如图5a所示，提供了一种校正缺失测序碱基之后，测序碱基序列中各测序碱基对应的标签示意图；如图5b所示，提供了一种校正插入测序碱基之后，测序碱基序列中各测序碱基对应的标签示意图；为保证数据的准确性，采用对存在插入或者缺失的测序碱基的位置下不输出标签值，来避免造成假阴性。

S120、根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集。

其中，每个测序碱基对应一个测序碱基特征集，所述测序碱基特征集用于确定测序碱基的可靠程度，将多个对测序碱基的识别有影响的相关变量作为特征值构成所述测序碱基特征集的元素，比如：仪器设备各模块相关特征、荧光图像相关特征、设备配套试剂相关特征、碱基识别相关特征等均可以是所述特征值，测序碱基特征集内包括多个特征值，每个特征值代表一个相关变量。通过将所述测序碱基的标签与测序碱基的特征集建立关联关系，合并成测序数据集，进一步的建立质量预测模型。

可选的，所述根据测序数据集得到质量预测模型，包括：确定所述测序数据集的特征数据区间；根据所述第一数据集和所述特征数据区间，得到所述质量预测模型。

将所述测试数据集划分成第一数据集和第二数据集，依据采样方法，包括但不限于随机采样法、上采样法、下采样法和随机点采样等，从测试数据集中选择数据集形成第一数据集，所述第一数据集为训练数据集，用于训练所述质量预测模型；在所述测试数据集中除了第一数据集之外的其他数据集为第二数据集，所述第二数据集为测试数据集，用于评估所述质量预测模型输出的质量预测结果。所述特征数据区间是由所述测序数据集离散化得到的结果。将所述测序数据集离散化的作用在于：加快所述质量预测模型的迭代，并且，离散化之后的测试数据集内的特征对异常数据有很强的鲁棒性，不仅可以进行特征交叉，引入非线性，还能够提升表达能力。

可选的，所述确定所述测序数据集的特征数据区间，包括：根据一种改进的分箱算法提取所述测序数据集的特征数据，得到所述特征数据区间。

进一步的，所述确定所述测序数据集的特征数据区间，还包括：结合特征数据集实际数据分布特点，设定区间参数，根据参数边界阈值进行特征分箱；输出各特征数据区间的平均值。

所述分箱算法是一种数据预处理技术，用于减少次要观察误差的影响，是一种将多个连续数据转换成离散数据的建模方式，离散化后可以提升模型的鲁棒性。一般的，分箱算法包括：等距分箱、等频分箱以及K-均值聚类分箱。等距分箱得到的数据区间存在数据较少或者没有数据的现象；等频分箱在数据的离散区域会产生过大的步长，导致表达能力受限；K-均值聚类分箱存在不同区间频数差异过大的情况，甚至将出现频率较低的数据当作离散值，从而造成部分数据不在数据区间的范围之内。因此，本发明实施例采用改进的“等频-均值分箱”的方法，首先，将所述测序数据集排序之后按照等步长提取所述特征数据，对提取出的特征数据去重之后二次排序；其次，根据等频分箱的方法划分所述特征数据区间，示例性的，每隔n个特征数据放在一起作为一个箱，使每个划分的特征数据区间中，特征数据的数量尽量保持一致；最后，计算每个特征数据区间的平均值，将其作为该区间的区间阈值。

S130、根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

所述第一质量预测结果是根据训练第一数据集（训练数据集）得到的所述质量预测模型对第二数据集（测试数据集）进行质量预测的结果，所述第二质量预测结果是根据所述第二数据集在所述质量预测模型中标签的分布情况计算所述第二数据集实际质量的结果。所述第一质量预测结果为在质量预测模型中得到的第二数据集的预测质量值；所述第二质量预测结果为根据所述质量预测模型，统计所述第二数据集分布在质量预测模型中的标签值，利用质量值公式计算得到的所述第二数据集的实际质量值。质量值（QualityScore）是碱基识别出错概率的整数映射，质量值越高表示碱基识别越可靠，碱基测序出错的概率就越小；因此，以所述质量值来衡量测序设备产出的数据质量。如图6所示，提供了一种预测质量值与实际质量值的分布示意图，横坐标为预测质量值，纵坐标为实际质量值，根据5次测试计算得到的实际质量值曲线分布在预测质量值的附近。其中，所述质量值公式，如下式（1）所示：

（1）

需要说明的是：质量值公式呈现出一种测序碱基的错误概率。示例性的，单个测序碱基的质量值为30（Q30）,其表明：该测序碱基的错误概率为1/1000，对应的测序碱基的准确率为99.9%.其中，Q10错误概率为1/10,准确率为90%；Q20错误概率为1/100,准确率为99%；Q30错误概率为1/1000,准确率为99.9%；Q40错误概率为1/10000,准确率为99.99%；Q50错误概率为1/100000,准确率为99.999%.另外，质量值低的测序碱基会增加假阳性变异检测结果的概率。

通过均方根误差（RMS）公式评估质量预测模型的准确率，所述RMS的计算方法如下式（2）所示：

（2）

其中，表示区间数量、表示第个区间的真实质量值、表示第个区间的预测质量值。RMS的值越小表明，预测质量值与实际质量值越相近，根据图6所示的5次测试得到的实际质量值与预测质量值，计算出的RMS如下表所示：

	测试1	测试2	测试3	测试4	测试5
						RMS	1.5584	1.8127	1.2724	1.9272	1.7593

由此可知，5次测试结果的RMS值均小于2，表明预测质量值与实际质量值比较一致，所述第一质量预测结果和第二质量预测结果之间的误差在误差范围内。

如果所述RMS的值大于等于2，则结合特征数据集实际数据分布特点，更换所述设定区间参数，根据新的参数边界阈值重新进行特征分箱；或者重新选择新的第一数据集来训练新的质量预测模型；进一步评估新的质量预测模型的准确率。

可选的，将所述质量预测模型输入测序设备中，应用于所述碱基识别系统，输出实际错误率分布和预测错误率分布。错误率是指测序设备识别到的碱基中识别错误的碱基与总碱基数的比率。如图7所示，提供了实际错误率、第一质量预测值及其转换出的错误率（预测错误率）的分布示意图，横坐标表示测序的循环数，纵坐标表示错误率的百分比或者质量值，在图7所示的曲线中，由上至下第一条总体呈下降趋势的曲线为质量值曲线，以曲线图右侧的质量值为纵坐标；其余两条曲线分别表示预测错误率的曲线和实际错误率的曲线，以曲线图左侧的百分比为纵坐标。由图可知：实际错误率与预测错误率的分布一致，进一步说明该预测模型可以准确评估测序碱基的质量。

本发明实施例公开了一种质量预测方法。该质量预测方法包括：根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率。采用本发明的技术方案，通过对测序碱基建立标签，同时结合特征数据集实际数据分布特点将测序碱基对应的各特征数据进行分箱，进而构建鲁棒性好的质量预测模型，该模型适用于不同批次多台设备对测序碱基质量的预测，得到准确的结果；有利于在高通量测序的过程中更准确的评估测序碱基的质量，便于评估测序设备得到的数据质量，为下一步基因组学的研究提供质量参考基础。

实施例二

根据本发明实施例，提供了一种质量预测装置的结构示意图，该装置可以执行上述实施例一提供的质量预测方法。如图8所示，该装置包括：第一确定模块810、第二确定模块820和第三确定模块830。其中：

第一确定模块810，用于根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签。

第二确定模块820，用于根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集。

第三确定模块830，用于根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

可选的，所述第一确定模块810，包括：确定与所述模板碱基序列中相同位置碱基相同的测序碱基的标签为第一标签；以及，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基相同的测序碱基的标签为第一标签；否则，所述测序碱基的标签为第二标签。

可选的，所述第二确定模块820，包括：

第一单元，用于确定所述测序数据集的特征数据区间；

可选的所述第一单元，包括：根据一种改进的分箱算法提取所述测序数据集的特征数据，得到所述特征数据区间。

进一步的，所述第一单元，还包括：结合特征数据集实际数据分布特点，设定区间参数，根据参数边界阈值进行特征分箱；输出各特征数据区间的平均值。

可选的，所述第三确定模块830，包括：所述第一质量预测结果和第二质量预测结果之间的误差在误差范围内，则所述质量预测模型的准确率大于等于准确率阈值。

本发明实施例公开了一种质量预测装置。该质量预测装置包括：第一确定模块，用于根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；第二确定模块，用于根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；第三确定模块，用于根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率。采用本发明的技术方案，通过对测序碱基建立标签，同时结合特征数据集实际数据分布特点将测序碱基对应的各特征数据进行分箱，进而构建鲁棒性好的质量预测模型，该模型适用于不同批次多台设备对测序碱基质量的预测，得到准确的结果；有利于在高通量测序的过程中更准确的评估测序碱基的质量，便于评估测序设备得到的数据质量，为下一步基因组学的研究提供质量参考基础。

实施例三

下面参考图9，其示出了适于用来实现本发明实施例的电子设备900的结构图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图9所示，电子设备900可以包括处理装置901，其可以根据存储在只读存储器（ROM）902中的程序或者从存储装置908加载到随机访问存储器（RAM）903中的程序而执行各种适当的动作和处理。处理装置901可以是各种具有处理和计算能力的通用和/或专用处理组件。处理装置901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。处理装置901执行上文所描述的各个方法和处理。

在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器（LCD）、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本发明的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本发明实施例的方法中限定的上述功能。备选地，在其他实施例中，处理装置901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行方法：根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

实施例四

本发明上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF（射频）等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP（HyperText TransferProtocol，超文本传输协议）之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信（例如，通信网络）互连。通信网络的示例包括局域网（“LAN”），广域网（“WAN”），网际网（例如，互联网）以及端对端网络（例如，ad hoc端对端网络），以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；根据测序数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块的名称在某种情况下并不构成对该模块本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合等等。

用于实施本发明的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算（cloud computing），指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种质量预测方法，其特征在于，所述方法包括：

根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；所述参考碱基序列包括模板碱基序列和历史碱基序列，所述根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签，包括：确定与所述模板碱基序列中相同位置碱基相同的测序碱基的标签为第一标签；以及，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基相同的测序碱基的标签为第一标签；否则，所述测序碱基的标签为第二标签，所述第一标签表示测序碱基为正确的碱基，所述第二标签表示测序碱基为错误的碱基；以及，测序碱基序列中存在插入或者缺失的测序碱基的位置下不输出标签值；

根据测序数据集中的第一数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；其中，每个测序碱基对应一个测序碱基特征集，测序碱基特征集内包括多个特征值，每个特征值代表一个相关变量，将多个对测序碱基的识别有影响的相关变量作为特征值构成所述测序碱基特征集的元素，所述特征值包括仪器设备各模块相关特征、荧光图像相关特征、设备配套试剂相关特征、碱基识别相关特征；通过将所述测序碱基的标签与测序碱基的特征集建立关联关系，合并成测序数据集；

根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集；

其中，统计所述第二数据集分布在质量预测模型中的标签值，利用质量值公式计算得到所述第二数据集的实际质量值；质量值是碱基识别出错概率的整数映射，质量值越高表示碱基识别越可靠，质量值公式为：

；

所述根据测序数据集中的第一数据集得到质量预测模型，包括：

确定所述测序数据集的特征数据区间；

根据所述第一数据集和所述特征数据区间，得到所述质量预测模型；

所述确定所述测序数据集的特征数据区间，包括：

根据等频-均值分箱算法提取所述测序数据集的特征数据，得到所述特征数据区间，具体为：将所述测序数据集排序之后按照等步长提取所述特征数据，对提取出的特征数据去重之后二次排序；其次，根据等频分箱的方法划分所述特征数据区间；

所述划分所述特征数据区间，还包括：

结合特征数据集实际数据分布特点，设定区间参数，根据参数边界阈值进行特征分箱；

输出各特征数据区间的平均值。

2.根据权利要求1所述的方法，其特征在于，所述根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，包括：

3.一种质量预测装置，其特征在于，所述装置包括：

第一确定模块，用于根据参考碱基序列确定测序碱基序列中各测序碱基对应的标签；所述参考碱基序列包括模板碱基序列和历史碱基序列，所述第一确定模块，包括：确定与所述模板碱基序列中相同位置碱基相同的测序碱基的标签为第一标签；以及，确定与所述模板碱基序列中相同位置碱基不同，且与所述历史碱基序列中变异位点的变异碱基相同的测序碱基的标签为第一标签；否则，所述测序碱基的标签为第二标签，所述第一标签表示测序碱基为正确的碱基，所述第二标签表示测序碱基为错误的碱基；以及，测序碱基序列中存在插入或者缺失的测序碱基的位置下不输出标签值；

第二确定模块，用于根据测序数据集中的第一数据集得到质量预测模型，所述测序数据集包括测序碱基、测序碱基标签以及测序碱基特征集；其中，每个测序碱基对应一个测序碱基特征集，测序碱基特征集内包括多个特征值，每个特征值代表一个相关变量，将多个对测序碱基的识别有影响的相关变量作为特征值构成所述测序碱基特征集的元素，所述特征值包括仪器设备各模块相关特征、荧光图像相关特征、设备配套试剂相关特征、碱基识别相关特征；通过将所述测序碱基的标签与测序碱基的特征集建立关联关系，合并成测序数据集；

第三确定模块，用于根据第一质量预测结果和第二质量预测结果，评估所述质量预测模型的准确率，所述第一质量预测结果为根据第一数据集得到的所述质量预测模型预测第二数据集的结果，所述第二质量预测结果为所述第二数据集实际质量计算结果，所述第一数据集为所述测序数据集中的部分数据集，所述第二数据集为所述测序数据集中的剩余数据集；

；

所述第二确定模块，包括：

第一单元，用于确定所述测序数据集的特征数据区间；

第二单元，用于根据所述第一数据集和所述特征数据区间，得到所述质量预测模型；

所述第一单元，包括：根据等频-均值分箱算法提取所述测序数据集的特征数据，得到所述特征数据区间，具体为：将所述测序数据集排序之后按照等步长提取所述特征数据，对提取出的特征数据去重之后二次排序；其次，根据等频分箱的方法划分所述特征数据区间；

所述划分所述特征数据区间，还包括：结合特征数据集实际数据分布特点，设定区间参数，根据参数边界阈值进行特征分箱；输出各特征数据区间的平均值。

4.一种电子设备，包括：

至少一个处理器；

以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器实现如权利要求1-2中任一项所述的方法。

5.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，其中，所述计算机指令用于使所述计算机执行根据权利要求1-2中任一项所述的方法。