CN111383717A

CN111383717A - 一种构建生物信息分析参照数据集的方法及系统

Info

Publication number: CN111383717A
Application number: CN201911092196.0A
Authority: CN
Inventors: 王云峰; 杜洋; 李大为; 玄兆伶; 王海良; 王娟; 肖飞
Original assignee: Anouta Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd
Current assignee: Anouta Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd
Priority date: 2018-12-29
Filing date: 2019-11-11
Publication date: 2020-07-07
Also published as: WO2020135500A1

Abstract

本发明提供一种构建生物信息分析参照数据集的方法，其包括：获取多个参照样本的测序数据，将所有参照样本的测序数据组成初始参照数据集，对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集，将所述任一个参照数据子集作为一个生物信息分析参照数据集。

Description

一种构建生物信息分析参照数据集的方法及系统

技术领域

本发明涉及生物信息分析领域，且更为具体地，涉及一种用于构建生物信息分析参照数据集的方法及系统。

背景技术

随着测序技术的发展，使得人类可以越来越方便的获取基因组序列，了解自身的遗传信息。很多科学研究表明，人类很多疾病、表型和对药物的反应，都源于个体的遗传背景差异，也就是每个人DNA序列的差异。从2000年人类基因组计划开始，越来越多的人类基因组被破译，这些基因组构成了人类基因组的参考序列。基因检测的直接目的是，通过对个体的基因组进行测序(或者对部分区域测序)，获取其和参考基因组DNA水平的序列差异，然后再通过和已有知识库的比对，来预测可能的疾病、表型、药物反应的关联。

由于测序的深入，目前可以获得的大量的数据信息，并利用这些数据信息来构件生物信息数据库。已知生物信息数据库种类繁多，一般划分为一次数据库和二次数据库两类。一次数据库包括例如基因组数据库、核酸和蛋白质一级结构序列数据库、以及生物大分子三维空间结构数据库。二次数据库是以一次数据库和文献资料为基础而构建。根据生命科学不同研究领域的实际需要，对基因组图谱、核酸和蛋白质序列、蛋白质结构以及文献等数据进行分析、整理、归纳、注释，构建具有特殊生物学意义和专门用途的二次数据库，是生物信息数据库开发的有效途径。

如上所述，构建有效的数据库对于生物信息学的分析是非常重要的，生物信息分析的结果与作为其分析基础的数据库直接相关，数据库的好坏直接影响的生物信息分析结果的准确程度，因此为提高生物信息分析质量，本领域亟需对现有数据库以及数据库的构建方法做出改进。

发明内容

本申请的发明人发现，对于同一种类型的数据库，或者说已经建成的数据库，在其构建过程中有许多影响因素，如样本保存条件、实验条件以及测序平台等，这导致组成一个数据库的全部样本数据由于这些影响因素呈现出不同的特征，因此需要一种更为有效的方法，可以基于上述特征对数据库进一步细化。

为此，本发明提出了一种新的构建背景库的方法，即一种构建生物信息分析参照数据集的方法，该方法基于现有数据生物信息分析参照数据集的某一特征来划分不同的参照数据子集，从而获得内部特征相对一致的参照数据子集，但在参照数据子集之间上述特征则体现出较为明显的差异。在生物信息分析时，对于待检测样品，只需判断待检测样品与哪一个参照数据子集的特征分布相似，并采用与待检测样品特征分布相似的参照数据子集作为此待检测样品的生物信息分析参照数据集，从而提高生物信息分析质量。

本发明的目的在于提供一种构建生物信息分析参照数据集的方法及系统。

具体来说，本发明的目的是通过以下技术方案予以实现。

1.一种构建生物信息分析参照数据集的方法，其包括：

获取多个参照样本的测序数据；

将所有参照样本的测序数据组成初始参照数据集；

对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集，所述两个以上的参照数据子集组成参照数据合集；

将所述任一个参照数据子集作为一个生物信息分析参照数据集。

在本发明中，所述测序数据优选是来自高通量测序平台的测序数据，具体的，可以本领域技术人员通常采用的那些，例如全基因组测序或目标序列捕获测序等。

在本发明中，所述测序数据包括全部测序数据或部分测序数据，所述全部测序数据和部分测序数据都可以是经过本领域技术人员通常采用的质控方法过滤后得到的测序数据。

在本发明中，多个生物信息分析参照数据集可以组成生物信息分析参照数据合集。待检测样本可以基于一个生物信息分析参照数据集进行分析，也可以基于生物信息分析参照数据合集进行分析。在待检测样本分类明确的情况下，可以采用与其特征近似的生物信息分析参照数据集进行分析；在待检测样本分类明确的情况下，可以采用生物信息分析参照数据合集中的一个与其特征近似的生物信息分析参照数据集进行分析。

2.根据项1所述的方法，对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集的步骤包括：

根据测序数据影响因素选取特征因子；

根据所述特征因子提取各参照样本的特征数据；

基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集，由此得到两个以上的参照数据子集，

其中，

基于所述参照样本的全部测序数据或部分测序数据，提取各参照样本的测序特征数据。

3.根据项2所述的方法，其特征在于，所述特征因子选自以下一个或两个以上：

reads比对质量，GC含量，样本的碱基序列复杂度和样本的基因组局部复杂度。其中，reads比对质量优选为Unique reads比对质量。

4.根据项2所述的方法，其特征在于，所述测序数据影响因素选自以下一个或两个以上：

样本保存条件，样本实验条件和测序平台。

在本发明中，样本保存条件包括但不限于样本的打包方式、样本的运输条件和样本的包装类型或型号等；样本实验条件包括但不限于样本的离心温度和样本的保存温度等。测序平台包括但不限于Illumina测序平台等。

5.根据项2所述的方法，所述参照样本的部分测序数据的获取步骤包括：

将所述参照样本的全部测序数据进行分段处理，得到各参照样本的分段数据；

根据所述特征因子获取所述分段数据的特征系数；

判断所述分段数据的特征系数是否超出设定范围，删除特征系数超出所述设定范围的分段数据，保留特征系数在设定范围内的分段数据，从而得到所述参照样本的部分测序数据。

6.根据项2所述的方法，基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集的步骤采用直接划分的划分方式或基于设定的参照数据子集数目划分的划分方式。

在本发明中，对所述参照数据子集数目的设定或选择可以采用本领域技术人员通常采用的方式，例如采用累积分布函数选定。

7.一种构建生物信息分析参照数据集的方法，其对项1～6中任一项所述的生物信息分析参照数据集进行扩容，所述方法包括，

获取新增参照样本的测序数据。

选取项1～6中任一项所述方法构建的生物信息分析参照数据集作为希望扩容的参照数据子集，获取所述希望扩容的参照数据子集的参数，所述参数包括几何中心、数据范围和特征因子。

根据所述希望扩容的参照数据子集的数据范围和特征因子，提取所述新增参照样本对应数据范围的特征数据。

比较所述新增参照样本的特征数据与所述希望扩容的参照数据子集的几何中心的空间距离。

判断所述新增参照样本是否与所述希望扩容的参照数据子集是否存在最小空间距离，

当存在最小的空间距离时，将所述新增参照样本的测序数据并入与其具有所述最小的空间距离的希望扩容的参照数据子集，形成扩容后的参考数据子集，

或者，

当不存在最小的空间距离时，将该新增参照样本的测序数据剔除。

将所述任一个扩容后的参照数据子集作为一个生物信息分析参照数据集。

在本发明中，希望进行扩容的参照数据子集数量可以为一个或两个以上。当希望进行扩容的参照数据子集数量为一个时，最小空间距离可以是一个设定值；当希望进行扩容的参照数据子集数量为两个以上时，最小空间距离可以是与各个希望进行扩容的参照数据子集的空间距离中最小的空间距离为最小空间距离。

在本发明中，几何中心可以通过本领域技术通常采用的方式获得，例如，聚类簇几何中心的获得方法。

8.一种由项1～7中任一项所述方法构建的生物信息分析参照数据集。

9.一种生物信息的分析方法，其特征在于，对待检测样本采用项8所述的生物信息分析参照数据集进行分析。

10.一种生物信息的分析方法，其特征在于，对待检测样本采用项8所述的生物信息分析参照数据集进行分析的步骤包括：

获取待检测样本的测序数据；

获取项8所述生物信息分析参照数据集的几何中心；

根据所述生物信息分析参照数据集的数据范围和特征因子，提取所述待检测样本对应数据范围的特征数据；

比较所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心的空间距离；

获取与所述待检测样本具有最小空间距离的生物信息分析参照数据集，将所述具有最小空间距离的生物信息分析参照数据集作为所述待检测样本的生物信息分析参照数据集进行分析。

在本发明中，测序数据的数据范围、生物信息分析参照数据集的数据范围以及参照数据子集数的数据范围都是所述数据与参考基因组比对后得到的其在参考基因组对应的数据位置。

在本发明中，参照数据子集或生物信息分析参照数据集的特征因子基于构建其的初始参照数据集或者根据构建初始参照数据集的参照样本的测序数据的影响因素提取的特征因子。例如，构建初始参照数据集的参照样本的测序数据的影响因素之一为样本的保存温度，基于此影响因素选取GC含量作为初始参照数据集的参照样本的测序数据的特征因子，由此得到生物信息分析参照数据集或参照数据子集的特征因子为GC含量。

11.一种染色体异常或拷贝数变异的分析方法，其特征在于，对待检测样本采用项8所述的生物信息分析参照数据集进行染色体异常或拷贝数变异的分析。

12.一种构建生物信息分析参照数据集的系统，所述系统包括：

数据获取模块，用于获取多个参照样本的测序数据，

初始参照数据集构建模块，用于将所有参照样本的测序数据组成初始参照数据集，

分类模块，用于对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集，

参照数据集构建模块，用于将任一个参照数据子集作为一个生物信息分析参照数据集。

13.根据项12所述的系统，其特征在于，所述分类模块包括，

特征因子选取子模块，用于根据测序数据影响因素来选取特征因子，

特征数据提取子模块，用于根据所述特征因子提取各参照样本的特征数据，其中，基于所述参照样本的全部测序数据，提取各参照样本的测序特征数据，

数据分割子模块，用于基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集，由此得到两个以上的参照数据子集。

14.根据项12所述的系统，其特征在于，所述分类模块包括，

数据过滤子模块，用于提取所述参照样本的部分测序数据，

特征数据提取子模块，用于根据所述特征因子提取各参照样本的特征数据，其中，基于所述参照样本的部分测序数据，提取各参照样本的测序特征数据，

15.根据项14所述的系统，所述数据过滤子模块包括：

数据分段元件，用于将所述参照样本的全部测序数据进行分段处理，得到各参照样本的分段数据，

特征系数提取元件，用于根据所述特征因子来获取所述分段数据的特征系数，

分段数据筛选元件，用于判断所述分段数据的特征系数是否超出设定范围，删除特征系数超出所述设定范围的分段数据，保留特征系数在设定范围内的分段数据。

16.根据项13或14所述的系统，所述数据分割子模块包括直接分割元件和/或定量分割元件，

所述定量分割元件基于设定的参照数据子集数目将具有相似特征数据的参照样本划分为一个参照数据子集。

设定的参照数据子集数目可以采用与上述方式同样的方式获得。

17.根据项13或14所述的系统，其特征在于，所述特征因子选自以下一个或两个以上，reads比对质量，GC含量，样本的碱基序列复杂度，样本的基因组局部复杂度。其中，reads比对质量优选为Unique reads比对质量。

18.根据项13或14所述的系统，其特征在于，所述测序数据影响因素选自以下一个或两个以上，样本保存条件，样本实验条件，测序平台。

19.一种构建生物信息分析参照数据集的系统，其对项1～6中任一项所述的生物信息分析参照数据集进行扩容，形成扩容的生物信息分析参照数据集，所述系统包括：

数据获取模块，用于获取新增参照样本的测序数据；

数据集预备模块，用于存储或提取项1～6中任一项所述方法构建的生物信息分析参照数据集作为希望扩容的参照数据子集，以及提取所述希望扩容的参照数据子集的参数，所述参数包括几何中心、数据范围和特征因子；

归类模块，用于将所述新增参照样本与一个希望扩容的参照数据子集归为一类；

扩容数据集构建模块，用于将所述新增参照样本与与其归为一类的希望扩容的参照数据子集合并，形成一个扩容的参照数据子集，

参照数据集构建模块，用于将任一个扩容的参照数据子集作为一个生物信息分析参照数据集。

20.根据项19所述的系统，其特征在于，所述数据集预备模块包括参数提取子模块，

所述参数提取子模块，用于提取项1～6中任一项所述方法构建的生物信息分析参照数据集的参数。所述参数优选包括几何中心、数据范围、特征因子。

21.根据项19所述的系统，其特征在于，所述归类模块包括特征数据提取子模块和分类判断子模块。

所述数据提取子模块用于根据希望扩容的参照数据子集的数据范围和特征因子，提取所述新增参照样本对应数据范围的特征数据。

所述分类判断子模块，用于比较所述新增参照样本的特征数据与所述希望扩容的参照数据子集的几何中心的空间距离。

判断所述新增参照样本的特征数据与希望扩容的参照数据子集的几何中心是否存在最小空间距离。当存在最小的空间距离时，将所述新增参照样本与与其具有最小的空间距离的希望扩容的参照数据子集归为一类。

或者，当不存在最小的空间距离时，将该新增参照样本的测序数据剔除。

22.一种生物信息的分析系统，其对待检测样本采用项8所述生物信息分析参照数据集进行分析，所述系统包括，

数据获取模块，用于获取待检测样本的测序数据，

数据集预备模块，用于存储或提取所述生物信息分析参照数据集，以及提取项所述生物信息分析参照数据集的参数，所述参数包括几何中心、数据范围和特征因子，

归类模块，用于将所述待检测样本与一个所述生物信息分析参照数据集归为一类，

分析模块，用于采用将与所述待检测样本归为一类的生物信息分析参照数据集进行生物信息分析，

23.根据项22所述的系统，其特征在于，所述数据集预备模块包括参数提取子模块。所述参数提取子模块，用于提取所述生物信息分析参照数据集的参数。所述参数优选包括几何中心、数据范围、特征因子。

24.根据项22所述的系统，其特征在于，所述归类模块包括特征数据提取子模块和分类判断子模块。

所述数据提取子模块用于根据所述生物信息分析参照数据集的数据范围和特征因子，提取所述待检测样本对应数据范围的特征数据。

所述分类判断子模块，用于比较所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心的空间距离。

判断所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心是否存在最小空间距离。

当存在最小的空间距离时，将所述待检测样本与与其具有最小的空间距离的生物信息分析参照数据集归为一类。

25.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-11中任一项所述的对目标序列进行拟合的方法。

发明的效果

鉴于以上问题，通过进一步对已知或构建好的参照数据集分成数个子背景库，能够主要解决以整体参照数据集为背景造成的检测结果呈异常，例如假阳性的问题。一些样本的测序数据可能由于某些影响因素呈现出一定的波动，在整体参照数据集下这种波动会被判定为非正常波动，即检测结果显示为异常。本发明通过对组成整体参照数据集的参照样本的影响因素进行统计、评估、筛选，并以此为基础对整体参照数据集进行分类从而克服这一问题。

利用本发明所述的方法和系统能够有效的将已知的整体参照数据集划分成数个子参照数据子集，并根据需要对这些参照数据子集进行进一步的扩容，从而获得经扩容后的具有更多样本量的参照数据子集。在利用这样的参照数据子集对目标待检测样本进行分析，可以使目标待检测样本基于更为准确的背景来进行数据分析，避免了各种测序影响因素对测序结果准确度的影响，从而获得更为准确的分析结果。

上述说明仅是本发明技术方案的概述，为了能够使得本发明的技术手段更加清楚明白，达到本领域技术人员可依照说明书的内容予以实施的程度，并且为了能够让本发明的上述和其它目的、特征和优点能够更明显易懂，下面以本发明的具体实施方式进行举例说明。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。显而易见地，下面描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1示出本发明的构建生物信息分析参照数据集的方法的一例具体实施方式示意图；

图2示出本发明的构建生物信息分析参照数据集的系统的一例具体实施方式示意图；

图3示出本发明的构建生物信息分析参照数据集的系统的分类模块的一例优选实施方式示意图；

图4示出本发明的构建生物信息分析参照数据集的系统的分类模块的一例优选实施方式示意图；

图5示出本发明的构建生物信息分析参照数据集的系统的一例优选实施方式示意图；

图6示出本发明的一种生物信息分析系统的一例具体实施方式示意图；

图7示出在实施例1中的最优聚类个数；

图8示出在实施例2中对参照样本进行聚类的结果图；

图9示出在实施例2中对参照样本的GC分布矩阵进行PCA的结果图；

图10示出在实施例2中的参考数据子集的平均GC概率密度分布图；

图11a示出实施例4中采用常规整体参照数据集进行cnv分析的结果图；

图11b示出实施例4中采用实施例2获得的生物信息分析参照数据集进行cnv分析的结果图；

图12示出本发明的电子设备的一例具体实施方式示意图。

具体实施方式

下面将参照附图更详细地描述本发明的具体实施例。虽然附图中显示了本发明的具体实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

需要说明的是，在说明书及权利要求当中使用了某些词汇来指称特定组件。本领域技术人员应可以理解，技术人员可能会用不同名词来称呼同一个组件。本说明书及权利要求并不以名词的差异来作为区分组件的方式，而是以组件在功能上的差异来作为区分的准则。如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

为便于对本发明实施例的理解，下面将结合附图以具体实施例为例做进一步的解释说明，且各个附图并不构成对本发明实施例的限定。

本发明中涉及如下定义。

高通量测序：高通量测序技术(High-throughput sequencing)又称“下一代”测序技术("Next-generation"sequencing technology)，以能一次并行对几十万到几百万条DNA分子进行序列测定。

窗口(滑动窗口)：一般指基因组上的一段固定长度的区域。

背景库：由N例(一般认为>＝20例)阴性样本，例如健康人，所组成的样本测序数据的集合。

Reads：read的复数，read是高通量测序平台产生的一段短测序片段的序列。

Unique reads：是指唯一比对到参考基因组上的reads。在测序过程中，有些reads可以同时比对到参考基因组多个位置，Unique reads则是从所有非dup的reads中过滤掉这些多处比对的reads，剩下的就是unique reads。

Mapability：对于某些窗口，短序列唯一性较低，主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因，此时利用利用Mapability这个参数计算每个窗口的效率并和阈值0.625比较，低于阈值的窗口不带入计算。

具体实施方式示例

图1示出本发明的构建生物信息分析参照数据集的方法的一例具体实施方式示意图。

如图1所示，本实施方式提供一种构建生物信息分析参照数据集的方法，其包括：步骤S100获取多个参照样本的测序数据，步骤S200将所有参照样本的测序数据组成初始参照数据集，S300对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集，S500所述任一个参照数据子集作为一个生物信息分析参照数据集。

优选地，在本实施方式的方法中，步骤S300对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集的步骤包括：根据测序数据影响因素选取特征因子；根据所述特征因子提取各参照样本的特征数据；基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集，由此得到两个以上的参照数据子集。

其中，基于所述参照样本的全部测序数据或部分测序数据，提取各参照样本的测序特征数据。

优选地，在本实施方式中，所述特征因子选自以下一个或两个以上：reads比对质量，GC含量，样本的碱基序列复杂度和样本的基因组局部复杂度。其中，reads比对质量优选为Unique reads比对质量。

优选地，在本实施方式中，所述测序数据影响因素选自但不限于以下一个或两个以上：样本保存条件，样本实验条件和测序平台。优选的样本保存条件包括但不限于样本的打包方式、样本的运输条件和样本的包装类型或型号等；优选的样本实验条件包括但不限于样本的离心温度和样本的保存温度等。优选的测序平台包括但不限于Illumina测序平台等。

具体来说，在一个具体的实施方案中，根据测序数据影响因素来选取特征因子可以是，例如，在外周血样品测序过程中，影响因素包括打包方式、采血管类型、离心温度、测序平台等都会影响最终文库的GC含量分布，此时可以根据上述影响因素选择GC含量作为外周血样品测序数据的影响因子。

上述对特征因子的选择通过实验得以验证。在常规无创CNV检测流程中，由正常二倍体样本构成的常规整体参照数据集存在高置信度的GC含量分布区间，然而受到各种影响因素的影响文库GC含量发生偏离，待测样品和整体参照数据集以分属不同的GC分布，因此导致采用不经分类的整体参照数据集最终的检测结果的准确性。

优选地，在本实施方式中，所述参照样本的部分测序数据的获取步骤包括：将所述参照样本的全部测序数据进行分段处理，得到各参照样本的分段数据；根据所述特征因子获取所述分段数据的特征系数；判断所述分段数据的特征系数是否超出设定范围，删除特征系数超出所述设定范围的分段数据，保留特征系数在设定范围内的分段数据，从而得到所述参照样本的部分测序数据。

具体来说，在一个具体的实施方案中，将所述参照样本的全部测序数据进行分段处理可以是对参照样本的测序数据进行分窗口处理。如特征因子采用例如GC含量获取所述分段数据的特征系数可以是根据所有窗口获得的变异系数CV，该变异系数可以基于每个窗口的GC含量的平均值和标准差之间的比值计算。优选的GC含量是unique reads GC含量。

在一个具体的实施方案中，设定区间可以选择排除那些特征波动不明显的区域，设定区间还可以同时选择排除那些Uniq reads的low mapability区域。设定区间可以为例如大于等于75％且小于等于95％。其中，变异系数小于75％表明是特征波动不明显的区域，变异系数大于95％表示与Uniq reads的low mapability相关。

优选地，在本实施方式中，基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集的步骤采用直接划分的划分方式或基于设定的参照数据子集数目划分的划分方式。对参照数据子集数目的设定或选择优选可以采用例如，累积分布函数选定。直接划分的划分方式的具体实施方案可以是采用无监督聚类算法来进行划分。

具体来说，在一个具体的实施方案中，本发明的构建生物信息分析参照数据集的方法，其包括：随机选取N个参照样本，并对该N个参照样本进行测序(获得N个基因文库)，从而获得N个参照样本的测序结果组成初始参照数据集。对选取的N个基因文库中的每一个文库进行还可以进行数据预处理以排除每一个文库中冗余的部分。利用无监督聚类算法对经数据预处理的N个文库进行聚类分析分类以确定L个参考数据子集，即将N个文库分割到L个参考数据子集中；以任一个参照数据子集为搜索簇(希望扩容的参考数据子集)，获取所述搜索簇的几何中心，即确定L个参考数据子集中每一个参考数据子集的基于无监督聚类算法的几何中心。

具体来说，在一个优选的实施方案中，进一步随机选取与所述N个参照样本不同的M个新增样本，并同样对M个新增样本进行测序，获得M个基因文库。还可以对M个基因文库中的每一个文库进行数据预处理。然后基于M个基因文库和L个参考数据子集中的每一个的几何中心之间的距离的大小，将M个基因文库分别分配到L个参考数据子集中以对L个参考数据子集进行扩容；以及获得扩容后的L个参考数据子集。

在一个具体的实施方式中，在本发明的构建生物信息分析参照数据集的方法中，在扩容的步骤中，基于无监督聚类算法，计算另外新增的M个基因文库中的每一个文库和L个参考数据子集中每一个的几何中心之间的空间距离，即可以计算出L个空间距离，将该M个基因文库中的每一个文库分配到计算出的L个空间距离中计算结果最小的参考数据子集中，从而完成一个基因文库(希望扩容的参考数据子集)的扩容过程，以及当计算出的L个空间距离中没有最小值时，不将该基因文库分配到L个子背景库中的任一个中。而直接进行M个基因文库中的下一个文库的扩容步骤，对所述M个基因文库全部进行上述的步骤从而完成扩容步骤。

在本发明中，参照样本可以是任何一种种群，例如人类、哺乳动物等，针对这多个同种类或同类型的参照样品进行测序，获得这些参照样本的测序数据。在本文中，对于测序的手段没有任何限制，可以采用第一代测序手段、第二代测序手段以及第三代测序手段。在本发明中例如可以随机选取N个参照样本，从而对N个参照样本进行测序获得N个参照样本的测序数据，并将N个参照样本的测序结果组成初始参照数据集。

图2示出本发明的构建生物信息分析参照数据集的系统的一例具体实施方式示意图。

如图2所示，如图1所示，本实施方式提供一种构建生物信息分析参照数据集的系统，所述系统包括：数据获取模块100，用于获取多个参照样本的测序数据。初始参照数据集构建模块200，用于将所有参照样本的测序数据组成初始参照数据集。分类模块300，用于对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集。参照数据集构建模块500，用于将任一个参照数据子集作为一个生物信息分析参照数据集。

图3示出图2具体实施方式的分类模块的一例优选实施方式示意图。

分类模块300的优选实施方式可以是，如图3所示的分类模块300d，其包括，特征因子选取子模块310d，用于根据测序数据影响因素来选取特征因子。特征数据提取子模块330d，用于根据所述特征因子提取各参照样本的特征数据。其中，基于所述参照样本的全部测序数据，提取各参照样本的测序特征数据。数据分割子模块340d，用于基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集，由此得到两个以上的参照数据子集。数据分割子模块340d包括直接分割元件和/或定量分割元件，所述定量分割元件基于设定的参照数据子集数目将具有相似特征数据的参照样本划分为一个参照数据子集。

图4示出图2具体实施方式的分类模块的一例优选实施方式示意图。

分类模块300的优选实施方式可以是，如图4所示的分类模块300c，其包括，特征因子选取子模块310c，用于根据测序数据影响因素来选取特征因子。数据过滤子模块320c，用于提取所述参照样本的部分测序数据。数据过滤子模块320c包括，数据分段元件321，用于将所述参照样本的全部测序数据进行分段处理，得到各参照样本的分段数据；特征系数提取元件322，用于根据所述特征因子来获取所述分段数据的特征系数；分段数据筛选元件，323用于判断所述分段数据的特征系数是否超出设定范围，删除特征系数超出所述设定范围的分段数据，保留特征系数在设定范围内的分段数据。特征数据提取子模块330c，用于根据所述特征因子提取各参照样本的特征数据，其中，基于所述参照样本的部分测序数据，提取各参照样本的测序特征数据。

数据分割子模块340c，用于基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集，由此得到两个以上的参照数据子集。

数据分割子模块340c包括直接分割元件和/或定量分割元件，所述定量分割元件基于设定的参照数据子集数目将具有相似特征数据的参照样本划分为一个参照数据子集。

图5示出本发明的构建生物信息分析参照数据集的系统的一例优选实施方式示意图。

本优选实施例的系统1803a，如图5所示，其对通过图1示出的方法或图2-4示出的系统获得的生物信息分析参照数据集进行扩容，形成扩容的生物信息分析参照数据集，系统1803a包括：数据获取模块100a，用于获取新增参照样本的测序数据。数据集预备模块200a，用于存储或提取通过图1示出的方法或图2-4示出的系统获得的生物信息分析参照数据集作为希望扩容的参照数据子集，以及提取所述希望扩容的参照数据子集的参数。所述参数包括但不限于几何中心、数据范围和特征因子。归类模块300a，用于将所述新增参照样本与一个希望扩容的参照数据子集归为一类。扩容数据集构建模块400a，用于将所述新增参照样本与与其归为一类的希望扩容的参照数据子集合并，形成一个扩容的参照数据子集。参照数据集构建模块500a，用于将任一个扩容的参照数据子集作为一个生物信息分析参照数据集，

优选地，数据集预备模块包括参数提取子模块。参数提取子模块，用于提取通过图1示出的方法或图2-4示出的系统获得的生物信息分析参照数据集的参数。所述参数包括但不限于几何中心、数据范围、特征因子等。

优选地，归类模块300a包括特征数据提取子模块301a和分类判断子模块302a。数据提取子模块301a，用于根据希望扩容的参照数据子集的数据范围和特征因子，提取所述新增参照样本对应数据范围的特征数据。分类判断子模块302a，用于(1)比较所述新增参照样本的特征数据与所述希望扩容的参照数据子集的几何中心的空间距离；(2)判断所述新增参照样本的特征数据与希望扩容的参照数据子集的几何中心是否存在最小空间距离。当存在最小的空间距离时，将所述新增参照样本与与其具有最小的空间距离的希望扩容的参照数据子集归为一类；或者，当不存在最小的空间距离时，将该新增参照样本的测序数据剔除。

图6示出本发明的生物信息的分析系统的一例具体实施方式示意图。

如图6所示，出本发明的构建生物信息分析参照数据集的系统的一例优选实施方式示意图

本优选实施例的系统1803b，如图6所示，其对待检测样本采用图1示出的方法或图2-5示出的系统获得的生物信息分析参照数据集进行分析，系统1803b包括，数据获取模块100b，用于获取待检测样本的测序数据。数据集预备模块200b，用于存储或提取所述生物信息分析参照数据集，以及提取项所述生物信息分析参照数据集的参数。所述参数包括但不限于几何中心、数据范围和特征因子。归类模块300b，用于将所述待检测样本与一个所述生物信息分析参照数据集归为一类。

分析模块400b，用于采用将与所述待检测样本归为一类的生物信息分析参照数据集进行生物信息分析。

优选地，数据集预备模块200b包括参数提取子模块。参数提取子模块，用于提取所述生物信息分析参照数据集的参数。所述参数包括但不限于几何中心、数据范围、特征因子。

优选地，归类模块300b，包括特征数据提取子模块301b和分类判断子模块302b。特征数据提取子模块301b，用于根据所述生物信息分析参照数据集的数据范围和特征因子，提取所述待检测样本对应数据范围的特征数据。

分类判断子模块302b，用于(1)比较所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心的空间距离；(2)判断所述待检测样本的特征数据与所述生物信息分析参照数据集的几何中心是否存在最小空间距离。当存在最小的空间距离时，将所述待检测样本与与其具有最小的空间距离的生物信息分析参照数据集归为一类。

本发明的系统用于实施本发明的方法，因此本领域技术人员可以理解，本发明的系统能够实现与本发明的方法同样的技术效果。对实施本发明的系统的技术效果在此不再赘述。

图12示出本发明的电子设备的一例具体实施方式示意图。

如图12所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的对目标序列进行拟合的方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如上述待拟合序列、参比序列、比较参数等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以包括例如键盘、鼠标等。

该输出装置14可以向外部输出各种信息，例如所述目标序列的拟合曲线等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图12中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的对目标序列进行拟合的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

实施例

以常规无创CNV检测流程为例，构建无创CNV检测的生物信息分析参照数据集。该生物信息分析参照数据集以5000例孕妇外周血游离DNA样本为参照样本。上述参照样本采用不同的打包方式、采血管类型和运输方式。对这些参照样本采用Illumina高通量测序平台采集测序数据。

实施例1确定参考数据子集的最优数量

第一步：获取多个参照样本的测序数据组成初始参照数据集

对5000(N＝5000)例待测孕妇的外周血游离DNA样本进行高通量测序，得到各样本包含所有染色体的测序数据，以该5000个文库作为参照样本的测序数据，用来初始化估计参考数据子集的最优数量和每个参照数据子集的几何中心。

第二步：部分测序数据获取步骤

对上述获得的5000个参照样本的测序数据进行窗口化处理并计算每个窗口的uniq reads GC。对于每个窗口w，计算所有参照样本中的uniq reads GC分布的均值μ和标准差sd，然后通过下述公式1计算每个窗口的变异系数(CV)。

然后对所有窗口根据变异系数CV按照升序排序，并丢弃排序小于75％的窗口，认为这些窗口在样本间波动较小。反之波动较大的窗口包含更多的样本间GC差异分布的信息。但由于某些低mapability区域的影响，将CV排序大于95％的窗口也丢弃，这是因为认为这些窗口大多分布于基因组的重复区。最后保留下的窗口及对应的uniq reads GC分布以矩阵的形式输入给

ConsensusClusterPlus R package用于后续处理。

第三步：对初始参照数据集进行分类

ConsensusClusterPlus是一个进行无监督聚类算法的工具，其根据累计分布函数CDF计算最优的参考数据子集个数，利用ConsensusClusterPlus R package处理上述第二步的参照样本的测序数据，即将在第二步中最后保留下的窗口及对应的uniq reads GC分布，以矩阵的形式输入给ConsensusClusterPlus R package用于后续处理。

根据累计分布函数CDF计算最优的参考数据子集个数的结果如图7所示。图7中的横轴为不同的参考数据子集个数，纵轴为CDF曲线下面积的相对改变量。当参考数据子集个数为k和k+1两个状态下，CDF没有明显变化，则认为达到收敛，k为最优参考数据子集个数。根据图7中可以认为k＝6时为拐点，之后再无明显变化。因此，通过累计分布函数确定分类的数目应当大于等于6，在此定义k＝6为最优参考数据子集个数，即参考数据子集的个数为6比较合适。

实施例2获得参考数据子集的几何中心及半径

基于实施例1中的描述，确定实施例1中提及的参照样本的参考数据子集个数为6，并通过聚类实现将上述5000个文库分配到上述6个参考数据子集中，结果如图8所示。

提取6个参考数据子集的几何中心和半径，将每个参考数据子集中的文库合并计算每个特征窗口的平均GC含量，将每个参考数据子集获得的uniq reads GC含量分布向量作为参考数据子集的几何中心。比较了不同参考数据子集之间的平均uniq reads GC分布，如图10所示。图10显示6个参考数据子集呈现显著差异的分布。对于任意新增样本或待测样本，只需计算其对应的特征窗口与6个参考数据子集的几何中心的距离，即可判断该新增样本属于哪一个参考数据子集或待测样本采用哪一个参考数据子集作为其生物信息分析参照数据集。

基于如图8所示的6个参考数据子集的GC分布矩阵进行主成分分析(PrincipalComponent Analysis，PCA)观察在不同主成分下样本的分布情况，分析结果如图9所示，图9中将6个不同参考数据子集采用不同灰度和符号进行标记，图9的结果显示不同的参考数据子集之间存在显著差异的分布，尤其是第二第三主成分下的差异。

实施例3参考数据子集扩容

从图8中可以观察出，聚类到不同参考数据子集的文库数量并不均匀，有些参考数据子集包含更多文库，有些参考数据子集包含较少文库，例如参考数据子集4和6相应包括的文库数量较少，参考数据子集1和3中包括的文库数量较多。这一点和自然状态下样本平均uniq reads GC含量呈现正态分布一致，分布在uniq reads GC较低或较高区域的文库数量相对较少。因此收集这部分特殊文库单独建立参考数据子集，对于GC偏移的特殊文库检测具有极高意义。

如上所述通过5000个参考样本初始化估计了最优的参考数据子集个数，即6个，以及每个参考数据子集的几何中心。为了保证每个参考数据子集包含尽可能多的参考样本，我们对每个参考数据子集进行扩容处理。即另外新增M个参考样本(这个地方需要补充M是多少)，首先计算M个新增样本的外周血游离DNA样本进行高通量测序，得到各样本包含所有染色体的测序数据，同样按照上述实施例1中第二步的方法来获取M个新增样本的部分测序数据。将最后保留下的窗口及对应的uniq reads GC分布作为新增参照样本的特征数据，并且比较所述特征数据与实施例2中计算出的6个参考数据子集的几何中心进行比对，比较所述新增参照样本的特征数据与6个参考数据子集的几何中心的空间距离，判断是否存在最小空间距离，当存在最小的空间距离时，将所述新增参照样本的测序数据并入与其具有所述最小的空间距离的搜索簇，形成扩容后的参考数据子集，或者，当不存在最小的空间距离时，将该新增参照样本的测序数据剔除。

实施例4

待检测样本(商业样本AL192N00787)，GC偏低(GC＝0.377,95％CI＝0.392-0.406)。使用上述实施例1中初始的5000个样本直接构建的常规整体(全部5000个样本)参照数据集(背景库)进行校正和比较后，结果如图11a所示，检测结果发生明显偏差，报出一个假阳duplication。

之后将样本的更换为通过实施例2构建的6个经过经扩容的参照数据子集，首先参照数据子集的特征因子GC含量提取该商业样本的每个特征窗口的平均GC分布作为待测样本的特征数据。

比较待检测样本的特征数据与6个新扩容后的参照数据子集的几何中心的空间距离，判断待测样本和参照数据子集1最接近，由此选定参照数据子集1作为待测样本采用的生物信息分析参照数据集。采用该参照数据子集1进行校正和比较后，结果如图11b所示，基于参考数据子集1进行判断，更换参考数据集后能够有效规避因GC含量偏差造成的假阳性结果。

本申请接受各种修改和可替换的形式，具体的实施方式已经在附图中借助于实施例来显示并且已经在本申请详细描述。但是，本申请不意在受限于公开的特定形式。相反，本申请意在包括本申请范围内的所有修改形式、等价物、和可替换物，本申请的范围由所附权利要求及其法律等效物限定。

Claims

1.一种构建生物信息分析参照数据集的方法，所述方法包括：

获取多个参照样本的测序数据；

将所有参照样本的测序数据组成初始参照数据集；

2.根据权利要求1所述的方法，对所述初始参照数据集进行分类处理，得到两个以上的参照数据子集的步骤包括：

根据测序数据影响因素选取特征因子；

根据所述特征因子提取各参照样本的特征数据；

其中，

3.根据权利要求2所述的方法，其特征在于，所述特征因子选自以下一个或两个以上：

reads比对质量，GC含量，样本的碱基序列复杂度和样本的基因组局部复杂度。

4.根据权利要求2所述的方法，其特征在于，所述测序数据影响因素选自以下一个或两个以上：

样本保存条件，样本实验条件和测序平台。

5.根据权利要求2所述的方法，所述参照样本的部分测序数据的获取步骤包括：

根据所述特征因子获取所述分段数据的特征系数；

6.根据权利要求2所述的方法，基于各参照样本的特征数据，将具有相似特征数据的参照样本划分为一个参照数据子集的步骤采用直接划分的划分方式或基于设定的参照数据子集数目划分的划分方式。

7.一种构建生物信息分析参照数据集的方法，其对权利要求1～6中任一项所述的生物信息分析参照数据集进行扩容，所述方法包括，

获取新增参照样本的测序数据；

选取权利要求1～6中任一项所述方法构建的生物信息分析参照数据集作为希望扩容的参照数据子集，获取所述希望扩容的参照数据子集的参数，所述参数包括几何中心、数据范围和特征因子；

根据所述希望扩容的参照数据子集的数据范围和特征因子，提取所述新增参照样本对应数据范围的特征数据；

比较所述新增参照样本的特征数据与所述希望扩容的参照数据子集的几何中心的空间距离；

判断所述新增参照样本是否与所述希望扩容的参照数据子集是否存在最小空间距离，当存在最小的空间距离时，将所述新增参照样本的测序数据并入与其具有所述最小的空间距离的希望扩容的参照数据子集，形成扩容后的参考数据子集；

8.一种由权利要求1～7中任一项所述方法构建的生物信息分析参照数据集。

9.一种生物信息的分析方法，其特征在于，对待检测样本采用权利要求8所述的生物信息分析参照数据集进行分析。

10.一种生物信息的分析方法，其特征在于，对待检测样本采用权利要求8所述的生物信息分析参照数据集进行分析的步骤包括：

获取待检测样本的测序数据；

获取权利要求8所述生物信息分析参照数据集的几何中心；

11.一种染色体异常或拷贝数变异的分析方法，其特征在于，对待检测样本采用权利要求8所述的生物信息分析参照数据集进行染色体异常或拷贝数变异的分析。

数据获取模块，用于获取多个参照样本的测序数据，

13.根据权利要求12所述的系统，其特征在于，所述分类模块包括，

特征因子选取子模块，用于根据测序数据影响因素来选取特征因子；

特征数据提取子模块，用于根据所述特征因子提取各参照样本的特征数据，其中，基于所述参照样本的全部测序数据，提取各参照样本的测序特征数据；

14.根据权利要求12所述的系统，其特征在于，所述分类模块包括，

数据过滤子模块，用于提取所述参照样本的部分测序数据；

特征数据提取子模块，用于根据所述特征因子提取各参照样本的特征数据，其中，基于所述参照样本的部分测序数据，提取各参照样本的测序特征数据；

15.根据权利要求14所述的系统，所述数据过滤子模块包括：

数据分段元件，用于将所述参照样本的全部测序数据进行分段处理，得到各参照样本的分段数据；

特征系数提取元件，用于根据所述特征因子来获取所述分段数据的特征系数；

16.根据权利要求13或14所述的系统，所述数据分割子模块包括直接分割元件和/或定量分割元件，

17.一种构建生物信息分析参照数据集的系统，其对权利要求1～6中任一项所述的生物信息分析参照数据集进行扩容，形成扩容的生物信息分析参照数据集，所述系统包括：

数据获取模块，用于获取新增参照样本的测序数据；

数据集预备模块，用于存储或提取权利要求1～6中任一项所述方法构建的生物信息分析参照数据集作为希望扩容的参照数据子集，以及提取所述希望扩容的参照数据子集的参数，所述参数包括几何中心、数据范围和特征因子；

扩容数据集构建模块，用于将所述新增参照样本与与其归为一类的希望扩容的参照数据子集合并，形成一个扩容的参照数据子集；

18.一种生物信息的分析系统，其对待检测样本采用权利要求8所述的生物信息分析参照数据集进行分析，所述系统包括，

数据获取模块，用于获取待检测样本的测序数据；

数据集预备模块，用于存储或提取权利要求8所述生物信息分析参照数据集，以及提取所述生物信息分析参照数据集的参数，所述参数包括几何中心、数据范围和特征因子；

归类模块，用于将所述待检测样本与一个所述生物信息分析参照数据集归为一类；

分析模块，用于采用将与所述待检测样本归为一类的生物信息分析参照数据集进行生物信息分析。