CN117116343A

CN117116343A - 用于mlpa-ngs试剂盒测序数据的数据分析方法及数据分析装置

Info

Publication number: CN117116343A
Application number: CN202311194705.7A
Authority: CN
Inventors: 杨永臣; 蒋继坤; 夏超然; 杨耐谦
Original assignee: Jiangyin Jianhui Biotechnology Co ltd
Current assignee: Jiangyin Jianhui Biotechnology Co ltd
Priority date: 2023-09-14
Filing date: 2023-09-14
Publication date: 2023-11-24

Abstract

本发明涉及用于MLPA‑NGS试剂盒测序数据的数据分析方法及数据分析装置。数据分析方法包括获取待分析的测序文件；根据特征性序列文件对测序文件进行分析处理，以生成工程文件；根据特征性工程文件对工程文件进行处理，以生成绘图数据；根据绘图数据进行绘图，以生成图文件。数据分析装置包括测序操作单元、工程操作单元和图片操作单元。其优点在于，对通过MLPA‑NGS获取的fastQ文件无须解压进行自动化分析，生成包含各个位点SNP和CNV的点柱图、附属染色体图、SNP结果图、检测质量图、reads数据等，方便用户分析检测结果，出具分析报告；简单快捷，分析结果清晰明了。

Description

用于MLPA-NGS试剂盒测序数据的数据分析方法及数据分析装置

技术领域

本发明涉及测序分析技术领域，尤其涉及一种用于MLPA-NGS试剂盒测序数据的数据分析方法、数据分析装置、计算机设备及计算机可读存储介质。

背景技术

MLPA-NGS技术是一种将MLPA(多重连接探针扩增技术，multiplex ligation-dependent probe amplification)与NGS(下一代测序技术，Next GenerationSequencing)融合在一起的技术，兼有MLPA对CNV(拷贝数变异)及可预期SNV(单碱基变异，在本文中，SNV包括SNP)检测的高精度和NGS技术对目的片段检测的高通量，是一种高通量的MLPA技术。

经典的MLPA技术的扩增产物因长度不同以毛细管电泳进行区分。而MLPA-NGS技术在MLPA连接后环节为MLPA连接片段引入NGS的通用接头序列，融合产物直接进行高通量测序，从而将MLPA的长度检测变为MLPA-NGS对序列本身的检测，打破了MLPA扩增片段长度有限多样性对检测数目的限制，大大提高了检测通量。根据我们的测试，MLPA-NGS可一次检测2000多个位点。

然而，目前并未有方便使用者简便地获取试剂盒所测样本目标区域的变异特征的分析方法，导致分析时间长、分析效率低、分析不易表征等问题。

目前针对相关技术中存在的分析时间长、分析效率低、分析不易表征等问题，尚未提出有效的解决方案。

发明内容

本发明的目的是针对现有技术中的不足，提供一种用于MLPA-NGS试剂盒测序数据的数据分析方法、数据分析装置、计算机设备及计算机可读存储介质，以解决相关技术中存在的分析时间长、分析效率低、分析不易表征等问题。

为实现上述目的，本发明采取的技术方案是：

第一方面，本发明提供一种用于MLPA-NGS试剂盒测序数据的数据分析方法，用于分析MLPA-NGS试剂盒测序文件，包括：

获取待分析的测序文件，其中，所述测序文件的格式为.gz；

根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件；

根据特征性工程文件对所述工程文件进行处理，以生成绘图数据；

根据所述绘图数据进行绘图，以生成图文件。

在其中的一些实施例中，根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件包括：

调用特征性序列文件，其中，特征性序列文件包括若干待测位点，每个待测位点包括位点名称、第一特征性序列、第二特征性序列、第三特征性序列；

读取测序文件的所有reads；

使用findall函数在reads查找特征性序列；

生成reads分析结果，其中，reads分析结果包括位点名称、第一reads次数、第二reads次数、第三reads次数、第四reads次数，其中，第一reads次数为包含第一特征性序列的reads次数，第二reads次数为包含第二特征性序列的reads次数，第三reads次数为包含第三特征性序列的reads次数，第三reads次数为包含第一特征性序列、第二特征性序列、第三特征性序列的reads次数；

对reads分析结果进行SNP分析、SNP质量分析、CNV分析、CNV质量分析、性别分析，以获得计算结果；

根据计算结果，生成工程文件，其中，工程文件包括pkl文件、xlsx文件。

在其中的一些实施例中，SNP分析包括：

获取SNP的分型值，其中，分型值为野生型reads/(野生型reads+突变型reads)；

判断分型值与第一预设阈值、第二预设阈值的关系，其中，第二预设阈值大于第一预设阈值；

在分型值＜第一预设阈值的情况下，SNP分型为纯合突变型；

在分型值＞第二预设阈值的情况下，SNP分型为纯合野生型；

在第一预设阈值≤分型值≤第二预设阈值的情况下，SNP分型为杂合型。

在其中的一些实施例中，SNP质量分析包括：

(一)第一SNP质量分析

获取两种等位基因的reads和；

判断reads和与第三预设阈值、第四预设阈值的关系，其中，第四预设阈值大于第三预设阈值；

在reads和≤第三预设阈值的情况下，第一SNP质量为质量不合格；

在第三预设阈值＜reads和小于第四预设阈值的情况下，第一SNP质量为质量灰区；

在reads≥第四预设阈值的情况下，第一SNP质量为质量合格；

(二)第二SNP质量分析

获取SNP的分型值；

根据分型值选择对应的分型值区间，其中，分型值区间包括小值区间、杂合区间、大值区间的关系，其中，小值区间与杂合区间通过第一预设阈值分界，杂合区间与大值区间通过第二预设阈值分界，第二预设阈值大于第一预设阈值；

获取分型值区间的平均值和标准差；

计算分型值与平均值的差值，其中，差值为绝对值；

计算差值与标准差的比值；

判断比值是否大于第五预设阈值；

在比值大于第五预设阈值的情况下，第二SNP质量为质量不合格或质量灰区；

(三)第三SNP质量分析

在第一SNP质量、第二SNP质量中的任意一个为质量不合格的情况下，SNP质量为不合格。

在其中的一些实施例中，CNV质量分析包括：

(一)常染色体CNV质量分析

获取常染色体的所有位点的第一reads数、第一reads数平均值、第一reads数标准差；

判断任一位点的第一reads数是否不小于第六预设阈值、第一reads数平均值是否不小于第七预设阈值、第一reads数标准差与第一reads数平均值的比值是否不大于第八预设阈值；

在任一位点的第一reads数不小于第六预设阈值、第一reads数平均值不小于第七预设阈值、第一reads数标准差与第一reads数平均值的比值不大于第八预设阈值的情况下，常染色体质量为质量合格；

(二)X染色体/Y染色体CNV质量分析

获取X染色体/Y染色体的所有位点的第二reads数、第二reads数平均值、第二reads数标准差；

判断任一位点的第二reads数是否不小于第九预设阈值、第二eads数平均值是否不小于第十预设阈值、第二reads数标准差与第二reads数平均值的比值是否不大于第十一预设阈值、第二reads数平均值与第一reads数平均值的比值是否与第十二预设阈值匹配；

在任一位点的第二reads数不小于第九预设阈值、第二reads数平均值不小于第十预设阈值、第二reads数标准差与第二reads数平均值的比值不大于第十一预设阈值、第二reads数平均值与第一reads数平均值的比值与第十二预设阈值匹配，X染色体/Y染色体质量为质量合格。

在其中的一些实施例中，根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件还包括：

判断是否选择试剂盒；

在选择试剂盒的情况下，判断是否获取测序文件的文件位置；

在获取文件位置的情况下，判断是否获取文件名特征码；

在获取文件名特征码的情况下，根据文件名特征码对路径为文件位置的所有测序文件进行筛选，并显示含有文件名特征码的测序文件；

在未获取文件名特征码的情况下，显示路径为文件位置的所有测序文件。

在其中的一些实施例中，根据特征性工程文件对所述工程文件进行处理，以生成绘图数据包括：

获取所有SNP的SNP分型及SNP质量，其中，SNP的数量为2n个；

判断SNP质量是否为不合格；

在SNP质量为不合格的情况下，SNP数字值为0；

在SNP质量为合格的情况下，SNP数字值为1、2、3，其中，1代表SNP分型为纯合野生型，2代表SNP分型为杂合型，3代表SNP分型为纯合突变型；

按顺序将所有SNP进行两两分组，以获得SNP组，其中，SNP组的数量为n个；

根据SNP数字值，生成SNP组数字值，其中，SNP组数字值为00、01、02、03、10、11、12、13、20、21、22、23、30、31、32、33；

根据SNP组数字值，生成SNP组代码值，其中，SNP组代码值为0～9，0对应00、01、02、03、10、20、30，1对应11，2对应12，3对应3，4对应21，5对应22，6对应23，7对应31，8对应32，9对应33；

根据SNP组代码值，生成测序文件代码值。

在其中的一些实施例中，根据所述绘图数据进行绘图，以生成图文件包括：

(一)生成SNP信息

获取SNP分型、SNP质量、SNP组数字值、SNP组代码值；

根据SNP组代码值，生成第一SNP信息；

根据SNP分型、SNP质量，生成第二SNP信息；

根据SNP组数字值，生成第三SNP信息；

将第一SNP信息、第二SNP信息、第三SNP信息排列显示；

(二)生成样本信息

获取试剂盒信息、检测样本信息、对照样本信息、工程文件名称；

将试剂盒信息、检测样本信息、对照样本信息、工程文件名称排列显示；

(三)生成CNV信息

获取常染色体质量、X染色体质量、Y染色体质量、Y染色体/X染色体比值、性别信息；

根据常染色体质量、X染色体质量、Y染色体质量，生成第一CNV信息；

根据Y染色体/X染色体比值、性别信息，生成第二CNV信息；

将第一CNV信息、第二CNV信息排列显示；

(四)生成CNV图

获取常染色体数据、X染色体数据、Y染色体数据；

根据常染色体数据，生成常染色体图，其中，常染色体图包括常染色体点柱图、常染色体模式图；

根据X染色体数据，生成X染色体图，其中，X染色体图包括X染色体点柱图、X染色体模式图；

根据Y染色体数据，生成Y染色体图，其中，Y染色体图包括Y染色体点柱图、Y染色体模式图；

将常染色体图、X染色体图、Y染色体图排列显示。

第二方面，提供一种用于MLPA-NGS试剂盒测序数据的数据分析装置，用于执行如第一方面所述的数据分析方法，包括：

测序操作单元，用于获取待分析的测序文件，以及根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件，其中，所述测序文件的格式为.gz，所述工程文件包括pkl文件、xlsx文件；

工程操作单元，用于根据特征性工程文件、工程文件进行处理，以生成绘图数据；

图片操作单元，用于根据所述绘图数据进行绘图，以生成图文件。

在其中的一些实施例中，所述测序操作单元包括：

测序操作界面模块，所述测序操作界面模块包括：

选择试剂盒子模块，用于选择MLPA-NGS试剂盒；

文件位置子模块，用于选择待分析的测序文件的文件位置；

保存位置子模块，用于选择工程文件的保存位置；

文件名特征码子模块，用于输入测序文件的文件名特征码；

文件检索子模块，用于检索并罗列测序文件；

文件选择子模块，用于对罗列的测序文件进行选择或排除；

启动运行子模块，用于对待分析的测序文件进行分析处理；

关闭运行子模块，用于停止对待分析的测序文件进行分析处理；

测序运行路径模块，所述测序运行路径模块包括：

reads分析子模块，用于从数据库调取特征性序列文件、根据特征性序列文件对测序文件进行reads分析；

SNP分析子模块，用于在reads分析结束后，进行SNP分析，以获得SNP分析结果；

SNP质量分析子模块，用于在reads分析结束后，对SNP进行质量分析，以获得SNP质量分析结果；

CNV分析子模块，用于在reads分析结束后，进行CNV分析，以获得CNV分析结果；

CNV质量分析子模块，用于在reads分析结束后，对CNV进行质量分析，以获得CNV质量分析结果；

性别分析子模块，用于在reads分析结束后，进行性别分析；

测序展示界面模块，所述测序展示界面模块包括：

reads运行动态展示子模块，用于动态展示reads分析过程；

xlsx文件生成子模块，用于根据SNP分析结果、SNP质量分析结果、CNV分析结果、CNV质量分析结果生成xlsx文件；

pkl文件生成子模块，用于根据SNP分析结果、SNP质量分析结果、CNV分析结果、CNV质量分析结果生成pkl文件。

在其中的一些实施例中，所述工程操作单元包括：

工程操作界面模块，所述工程操作界面模块包括：

工程文件位置子模块，用于选择工程文件的文件位置，并展示工程文件；

选择对照样本子模块，用于选择工程文件的对照样本；

选择展示样本子模块，用于选择工程文件的展示样本；

选择显示方式子模块，用于选择工程文件的显示方式，其中，所述显示方式包括reads图、CNV图；

画图子模块，用于根据特征性工程文件、对照样本、展示样本、显示方式生成画图指令；

工程运行路径模块，所述工程运行路径模块包括：

特征性工程文件选择子模块，用于选择特征性工程文件；

工程文件打开子模块，用于打开工程文件；

绘图数据计算子模块，用于根据特征性工程文件、工程文件计算绘图数据；

工程展示界面模块，所述工程展示界面模块包括：

SNP质量显示子模块，用于显示SNP质量；

CNV质量显示子模块，用于显示CNV质量；

性别显示子模块，用于显示性别。

在其中的一些实施例中，所述图片操作单元包括：

图片操作界面模块，所述图片操作界面模块包括：

图片选择子模块，用于选择图片；

保存图片子模块，用于保存图片；

图片运行路径模块，所述图片运行路径模块包括：

绘图子模块，用于根据绘图数据进行绘图，以生成图文件；

图片展示界面模块，所述图片展示界面模块包括：

SNP标志显示子模块，用于显示SNP标志；

样本信息显示子模块，用于显示样本信息；

测序质量显示子模块，用于显示测序质量；

性别显示子模块，用于显示性别；

常染色体显示子模块，用于显示常染色体；

X染色体显示子模块，用于显示X染色体；

Y染色体显示子模块，用于显示Y染色体。

第三方面，本发明提供一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的数据分析方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的数据分析方法。

本发明采用以上技术方案，与现有技术相比，具有如下技术效果：

本发明的一种用于MLPA-NGS试剂盒测序数据的数据分析方法、数据分析装置、计算机设备及计算机可读存储介质，对通过MLPA-NGS获取的fastQ文件无须解压进行自动化分析，生成包含各个位点SNP和CNV的点柱图、附属染色体图、SNP结果图、检测质量图、reads数据等，方便用户分析检测结果，出具分析报告；简单快捷，分析结果清晰明了。

附图说明

图1是根据本发明实施例的数据分析方法的流程图(一)；

图2是根据本发明实施例的数据分析方法的流程图(二)；

图3是根据本发明实施例的数据分析方法的流程图(三)；

图4是根据本发明实施例的数据分析装置的框架图；

图5是根据本发明实施例的数据分析装置的一个具体实施方式的框架流程图；

图6a～图6d是根据本发明实施例的一个具体实施方式的操作页面示意图，其中，图6a为测序操作模块的操作界面，图6b为测序操作模块的运行界面，图6c为工程操作模块的未打开工程文件的操作界面，图6d为工程操作模块的打开工程文件的操作界面；

图7是正常男性Y染色体微缺失分析结果CNV展示图；

图8是正常女性样本分析结果CNV展示图；

图9是男性Y染色体异常分析结果CNV展示图。

其中的附图标记为：400、数据分析装置；410、测序操作单元；420、工程操作单元；430、图片操作单元。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或单元(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

实施例1

本实施例涉及本发明的用于MLPA-NGS试剂盒测序数据的数据分析方法。

图1是根据本发明实施例的数据分析方法的流程图(一)。如图1所示，一种用于MLPA-NGS试剂盒测序数据的数据分析方法，用于分析MLPA-NGS试剂盒测序文件，包括：

步骤S102、获取待分析的测序文件，其中，测序文件的格式为.gz；

步骤S104、根据特征性序列文件对测序文件进行分析处理，以生成工程文件；

步骤S106、根据特征性工程文件对工程文件进行处理，以生成绘图数据；

步骤S108、根据绘图数据进行绘图，以生成图文件。

在步骤S102中，测序文件为fastQ文件，一般为压缩文件。在本发明中，无须对测序文件进行人工解压缩。

在步骤S104中，获取特征性序列文件包括：

获取试剂盒；

根据试剂盒，调取特征性序列文件。

在步骤S104中，分析处理包括初步分析和二次分析。其中，初步分析为reads分析；二次分析包括SNP分析、SNP质量分析、CNV分析、CNV质量分析、性别分析。

在步骤S104中，工程文件包括pkl文件和xlsx文件。其中，pkl文件用于后续分析处理调用，xlsx文件用于打开查看。此外，pkl文件为主要工程文件，xlsx文件为辅助工程文件。

在步骤S106中，获取特征性工程文件包括：

获取试剂盒；

根据试剂盒，调取特征性工程文件。

在步骤S106中，绘图数据包括SNP信息、CNV信息。其中，SNP信息包括SNP分型、SNP质量；CNV信息包括常染色体信息、X染色体信息和Y染色体信息。

在步骤S108中，图文件包括CNV图。其中，CNV图包括常染色体图、X染色体图和Y染色体图。例如点柱图、染色体图等。

通过上述步骤，对通过MLPA-NGS获取的fastQ文件无须解压进行自动化分析，生成包含各个位点SNP和CNV的点柱图、附属染色体图、SNP结果图、检测质量图、reads数据等，方便用户分析检测结果，出具分析报告；简单快捷，分析结果清晰明了。

图2是根据本发明实施例的数据分析方法的流程图(二)。如图2所示，步骤S104包括：

步骤S202、调用特征性序列文件，其中，特征性序列文件包括若干待测位点，每个待测位点包括位点名称、第一特征性序列、第二特征性序列、第三特征性序列；

步骤S204、读取测序文件的所有reads；

步骤S206、使用findall函数在reads查找特征性序列；

步骤S208、生成reads分析结果，其中，reads分析结果包括位点名称、第一reads次数、第二reads次数、第三reads次数、第四reads次数，其中，第一reads次数为包含第一特征性序列的reads次数，第二reads次数为包含第二特征性序列的reads次数，第三reads次数为包含第三特征性序列的reads次数，第三reads次数为包含第一特征性序列、第二特征性序列、第三特征性序列的reads次数；

步骤S210、对reads分析结果进行SNP分析、SNP质量分析、CNV分析、CNV质量分析、性别分析，以获得计算结果；

步骤S212、根据计算结果，生成工程文件，其中，工程文件包括pkl文件、xlsx文件。

在步骤S202中，第一特征性序列、第二特征性序列、第三特征性序列的长度为6～10个碱基。

在步骤S208中，reads分析结果呈阵列式呈现，具体如下：

位点名称	第一reads次数	第二reads次数	第三reads次数	第四reads次数
					Y1	n₁₁	n₁₂	n₁₃	n₁₄
Y2	n₂₁	n₂₂	n₂₃	n₂₄
					……	……	……	……	……
Yi	n_i1	n_i2	n_i3	n_i4

假设reads的数量为N，则n_i1≤N、n_i2≤N、n_i3≤N、n_i4≤N，且n_i4为n_i1、n_i2、n_i3的交集。

在步骤S210中，一般地，先进行SNP分析，再进行SNP质量分析。

在步骤S210中，SNP分析包括：

在分型值＜第一预设阈值的情况下，SNP分型为纯合突变型；

在分型值＞第二预设阈值的情况下，SNP分型为纯合野生型；

在步骤S210中，SNP质量分析包括：

(一)第一SNP质量分析

获取两种等位基因的reads和；

在reads≥第四预设阈值的情况下，第一SNP质量为质量合格；

(二)第二SNP质量分析

获取SNP的分型值；

获取分型值区间的平均值和标准差；

计算分型值与平均值的差值，其中，差值为绝对值；

计算差值与标准差的比值；

判断比值是否大于第五预设阈值；

(三)第三SNP质量分析

在步骤S210中，一般地，先进行CNV分析，再进行CNV质量分析。

在步骤S210中，CNV质量分析包括：

(一)常染色体CNV质量分析

(二)X染色体/Y染色体CNV质量分析

通过上述步骤，在无须解压缩的情况下，对fastQ文件自动进行reads分析、SNP分析、SNP质量分析、CNV分析、CNV质量分析、性别分析，无须人工干预，简单快捷。

图3是根据本发明实施例的数据分析方法的流程图(三)。如图3所示，步骤S104还包括：

步骤S302、判断是否选择试剂盒；

步骤S304、在选择试剂盒的情况下，判断是否获取测序文件的文件位置；

步骤S306、在获取文件位置的情况下，判断是否获取文件名特征码；

步骤S308、在获取文件名特征码的情况下，根据文件名特征码对路径为文件位置的所有测序文件进行筛选，并显示含有文件名特征码的测序文件；

步骤S310、在未获取文件名特征码的情况下，显示路径为文件位置的所有测序文件。

其中，步骤S308和步骤S310为并列的步骤。

进一步地，在步骤S302之后，还包括：

在未选择试剂盒的情况下，生成警告信息。

进一步地，在步骤S304之后，还包括：

在未选择文件位置的情况下，生成警告信息。

进一步地，在步骤S304之后还包括：

在获取文件位置的情况下，判断是否获取工程文件的保存位置；

在未获取保存位置的情况下，工程文件存储于文件位置；

在获取保存位置的情况下，工程文件存储于保存位置。

设置步骤S306～步骤S310的目的在于，由于大多数测序是正反向测序，而分析时可能仅需要分析正向测序文件，因此，通过文件名特征码对所有测序文件进行筛选，以获得符合要求的测序文件，从而减少分析时间，提高分析效率。

对于步骤S106(即根据特征性工程文件对工程文件进行处理，以生成绘图数据)包括：

步骤S1061、获取所有SNP的SNP分型及SNP质量，其中，SNP的数量为2n个；

步骤S1062、判断SNP质量是否为不合格；

步骤S1063、在SNP质量为不合格的情况下，SNP数字值为0；

步骤S1064、在SNP质量为合格的情况下，SNP数字值为1、2、3，其中，1代表SNP分型为纯合野生型，2代表SNP分型为杂合型，3代表SNP分型为纯合突变型；

步骤S1065、按顺序将所有SNP进行两两分组，以获得SNP组，其中，SNP组的数量为n个；

步骤S1066、根据SNP数字值，生成SNP组数字值，其中，SNP组数字值为00、01、02、03、10、11、12、13、20、21、22、23、30、31、32、33；

步骤S1067、根据SNP组数字值，生成SNP组代码值，其中，SNP组代码值为0～9，0对应00、01、02、03、10、20、30，1对应11，2对应12，3对应3，4对应21，5对应22，6对应23，7对应31，8对应32，9对应33；

步骤S1068、根据SNP组代码值，生成测序文件代码值。

其中，步骤S1063和步骤S1064为并列的步骤。

在步骤S1065中，具体如下：

假设SNP为A₁、A₂、A₃、A₄、……、A_2n-1、A_2n；

则SNP组为A_1,2、A_3,4、A_5,6、……、A_2n-1,2n。

通过上述步骤，利用较短的SNP组代码值可以表达较长的SNP结果，大大缩短了信息存储量，便于从SNP组代码值获知SNP分型以及SNP质量。

对于步骤S108(即根据绘图数据进行绘图，以生成图文件)包括：

(一)生成SNP信息

获取SNP分型、SNP质量、SNP组数字值、SNP组代码值；

根据SNP组代码值，生成第一SNP信息；

根据SNP分型、SNP质量，生成第二SNP信息；

根据SNP组数字值，生成第三SNP信息；

将第一SNP信息、第二SNP信息、第三SNP信息排列显示；

(二)生成样本信息

(三)生成CNV信息

根据Y染色体/X染色体比值、性别信息，生成第二CNV信息；

将第一CNV信息、第二CNV信息排列显示；

(四)生成CNV图

获取常染色体数据、X染色体数据、Y染色体数据；

将常染色体图、X染色体图、Y染色体图排列显示。

在(一)生成SNP信息中，SNP质量通过颜色表示。例如，SNP质量为质量高，则通过绿色显示；SNP质量为质量中，则通过黄色显示；SNP质量为质量低，则通过红色显示。

在(一)生成SNP信息中，SNP分型和SNP质量可以集成显示。

在(一)生成SNP信息中，还包括：

根据SNP组数字值、SNP质量，生成第三SNP信息。

其中，SNP组数字值和SNP质量可以集成显示。

在(一)生成SNP信息中，排列显示包括但不限于由上至下排列显示。

在(二)生成样本信息中，排列显示包括但不限于由上至下排列显示。

在(三)生成CNV信息中，常染色体质量、X染色体质量、Y染色体质量通过颜色表示。例如，染色体质量为质量高，则通过绿色显示；染色体质量为质量中，则通过黄色显示；染色体质量为质量低，则通过红色显示。

在(三)生成CNV信息中，性别信息通过颜色表示。例如，男性通过蓝色表示，女性通过红色表示，性别不明通过褐色表示。

在(三)生成CNV信息中，排列显示包括但不限于由上至下排列显示。

在(四)生成CNV图中，常染色体数据包括位点、位点的拷贝数。因此，常染色体图的横坐标为位点、纵坐标为拷贝数。

在(四)生成CNV图中，X染色体数据包括位点、位点的拷贝数。因此，X染色体图的横坐标为位点、纵坐标为拷贝数。

在(四)生成CNV图中，Y染色体数据包括位点、位点的拷贝数。因此，Y染色体图的横坐标为位点、纵坐标为拷贝数。

进一步地，为了在同一个图文件中区分常染色体图、X染色体图、Y染色体图，通过不同颜色区分常染色体、X染色体、Y染色体。例如，常染色体通过绿色表示，X染色体通过红色表示，Y染色体通过蓝色表示。

通过上述步骤，生成包括多种数据的图文件，便于使用者通过数据、颜色等快速获取样本信息，从而判断样本是否正常。

另外，本申请实施例的数据分析方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。

在一些实施例中，处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(Erasable ProgrammableRead-Only Memory，简称为EPROM)、电可擦除PROM(Electrically Erasable ProgrammableRead-Only Memory，简称为EEPROM)、电可改写ROM(Electrically Alterable Read-OnlyMemory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-Access Memory，简称为SRAM)或动态随机存取存储器(Dynamic Random Access Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode Dynamic Random Access Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(Extended Date Out Dynamic RandomAccess Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种二维码准入方法。

在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口用于实现本申请实施例中各单元、装置、单元和/或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像/数据采集设备、数据库、外部存储以及图像/数据处理工作站等之间进行数据通信。

总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(Serial AdvancedTechnology Attachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandards Association Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

该计算机设备可以执行本申请实施例中的数据分析方法。

另外，结合上述实施例中的数据分析方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种数据分析方法。

实施例2

本实施例涉及本发明的用于MLPA-NGS试剂盒测序数据的数据分析装置。

如图5所示，一种用于MLPA-NGS试剂盒测序数据的数据分析装置400包括测序操作单元410、工程操作单元420和图片操作单元430。其中，测序操作单元410用于获取待分析的测序文件，以及根据特征性序列文件对测序文件进行分析处理，以生成工程文件，其中，测序文件的格式为.gz，工程文件包括pkl文件、xlsx文件；工程操作单元420用于根据特征性工程文件、工程文件进行处理，以生成绘图数据；图片操作单元430用于根据所述绘图数据进行绘图，以生成图文件。

测序操作单元410包括测序操作界面模块、测序运行路径模块和测序展示界面模块。

测序操作界面模块包括选择试剂盒子模块、文件位置子模块、保存位置子模块、文件名特征码子模块、文件检索子模块、文件选择子模块、启动运行子模块和关闭运行子模块。其中，选择试剂盒子模块用于选择MLPA-NGS试剂盒；文件位置子模块用于选择待分析的测序文件的文件位置；保存位置子模块用于选择工程文件的保存位置；文件名特征码子模块用于输入测序文件的文件名特征码；文件检索子模块用于检索并罗列测序文件；文件选择子模块用于对罗列的测序文件进行选择或排除；启动运行子模块用于对待分析的测序文件进行分析处理；关闭运行子模块用于停止对待分析的测序文件进行分析处理。

测序运行路径模块包括reads分析子模块、SNP分析子模块、SNP质量分析子模块、CNV分析子模块、CNV质量分析子模块和性别分析子模块。其中，reads分析子模块用于从数据库调取特征性序列文件、根据特征性序列文件对测序文件进行reads分析；SNP分析子模块用于在reads分析结束后，进行SNP分析，以获得SNP分析结果；SNP质量分析子模块用于在reads分析结束后，对SNP进行质量分析，以获得SNP质量分析结果；CNV分析子模块用于在reads分析结束后，进行CNV分析，以获得CNV分析结果；CNV质量分析子模块用于在reads分析结束后，对CNV进行质量分析，以获得CNV质量分析结果；性别分析子模块用于在reads分析结束后，进行性别分析。

测序展示界面模块包括reads运行动态展示子模块、xlsx文件生成子模块和pkl文件生成子模块。其中，reads运行动态展示子模块用于动态展示reads分析过程；xlsx文件生成子模块用于根据SNP分析结果、SNP质量分析结果、CNV分析结果、CNV质量分析结果生成xlsx文件；pkl文件生成子模块用于根据SNP分析结果、SNP质量分析结果、CNV分析结果、CNV质量分析结果生成pkl文件。

工程操作单元包括工程操作界面模块、工程运行路径模块和工程展示界面模块。

工程操作界面模块包括工程文件位置子模块、选择对照样本子模块、选择展示样本子模块、选择显示方式子模块和画图子模块。其中，工程文件位置子模块用于选择工程文件的文件位置，并展示工程文件；选择对照样本子模块用于选择工程文件的对照样本；选择展示样本子模块用于选择工程文件的展示样本；选择显示方式子模块用于选择工程文件的显示方式，其中，所述显示方式包括reads图、CNV图；画图子模块用于根据特征性工程文件、对照样本、展示样本、显示方式生成画图指令。

工程运行路径模块包括特征性工程文件选择子模块、工程文件打开子模块和绘图数据计算子模块。其中，特征性工程文件选择子模块用于选择特征性工程文件；工程文件打开子模块用于打开工程文件；绘图数据计算子模块用于根据特征性工程文件、工程文件计算绘图数据。

工程展示界面模块包括SNP质量显示子模块、CNV质量显示子模块和性别显示子模块。其中，SNP质量显示子模块用于显示SNP质量；CNV质量显示子模块用于显示CNV质量；性别显示子模块用于显示性别。

图片操作单元包括图片操作界面模块、图片运行路径模块和图片展示界面模块。

图片操作界面模块包括图片选择子模块和保存图片子模块。其中，图片选择子模块用于选择图片；保存图片子模块用于保存图片。

图片运行路径模块包括绘图子模块。其中，绘图子模块用于根据绘图数据进行绘图，以生成图文件。

图片展示界面模块包括SNP标志显示子模块、样本信息显示子模块、测序质量显示子模块、性别显示子模块、常染色体显示子模块、X染色体显示子模块和Y染色体显示子模块。其中，SNP标志显示子模块用于显示SNP标志；样本信息显示子模块用于显示样本信息；测序质量显示子模块用于显示测序质量；性别显示子模块用于显示性别；常染色体显示子模块用于显示常染色体；X染色体显示子模块用于显示X染色体；Y染色体显示子模块用于显示Y染色体。

本实施例的技术效果同实施例1基本相同，在此不再赘述。

实施例3

本实施例涉及本发明的一个具体实施方式。

本发明的一个具体实施方式，如图5所示，一种使用python的MLPA-NGS试剂盒测序数据的分析装置，包括测序操作模块、工程操作模块和图片操作模块。其中，测序操作模块用以生成包含各检测位点reads结果等的工程文件(pkl文件和/或excel文件)；工程操作模块用于对工程文件进行操作，以根据pkl文件和输入的对照样本、展示样本等进行绘图前的计算工作，生成绘图数据；图片操作模块用于对绘图数据进行绘图操作，以生成关于受检各个位点CNV和SNP的直观的点柱图及附属染色体图、SNP结果图、检测质量图、reads数据等，方便用户分析检测结果，出具分析报告。

测序操作模块包括测序操作界面、测序运行路径和测序展示界面。

如图6a～图6b所示，测序操作界面包括选择试剂盒、填入测序所得fastQ文件的位置、填入结果文件(pkl文件和excel文件)保存位置、填写测序文件名特征码、测序文件检索命令、对检索得到的测序文件的选择、reads数据分析的启动运行命令、reads数据分析的关闭运行命令等结构单元。

(1)选择试剂盒：该装置可用于分析MLPA-NGS技术开发的多个试剂盒，而每个试剂盒包含的探针不同。在用户选择试剂盒后，程序调取该试剂盒的特征性序列文件进行分析。选择试剂盒的区域不可空缺。

(2)填入测序所得fastQ文件的位置：指填入待分析的fastQ文件所在文件夹路径。测序仪测得fastQ文件后，为节省储存空间，一般是以.gz的压缩格式存储和传输的。本装置可自动识别这种压缩格式，无需人工对.gz压缩文件解压缩即可进行分析。该区域不可空缺。

(3)填入结果文件(pkl文件和excel文件)保存位置：是指填写程序运行后将要生成的pkl文件和excel文件的预期保存位置。该区域可以空缺，空缺时，程序默认将结果在存放fastQ文件所在位置。

(4)填写测序文件名特征码：如果该区域空缺，则在点击文件检索后，程序会罗列出该路径下的所有.gz文件，而这些文件有些并不需要。例如，很多测序公司是正反向测序的，而我们仅需分析正向测序文件，如果允许程序分析反向测序文件，则既浪费时间，又得不到任何有用信息。因此，我们设置了该空格，用户可以把希望分析的文件的文件名中的特征性符号输入，在点击“检索”后，程序仅罗列文件名含有该特征性符号的文件。

(5)测序文件检索命令：在前述选项和空格完成后，点击该命令，程序将从相应文件夹下罗列出目的文件。

(6)对检索得到的文件的选择：在程序罗列出文件后，每个文件后有一个选择框，用户可对要分析的文件进行选择或排除。

(7)reads数据分析的启动运行命令：在选择了待分析fastQ文件后，点击该命令，程序即可调用特征性序列文件，根据该文件中的特征性序列，对fastQ文件中的reads进行计算，以获得每个位点相应的reads数。运行过程可直观地显示出来，方便用户跟踪分析进度。

(8)reads数据分析的关闭运行命令：如用户希望放弃分析，可点击该按钮，终止运行。

对于(1)选择试剂盒，是指本装置在对测序数据分析时具有的可插拔的特点，即程序根据输入的试剂盒名称，调取相应试剂盒的特征性序列文件，使用该所述文件中的每个检测位点的1～4段特征性序列，在每个测序文件中，计算所有符合该特征性序列的reads数，从而实现对多个试剂盒测序数据的分析。

对于(1)选择试剂盒，本装置设置了用于Y染色体微缺失检测试剂盒数据分析所需的特征性序列文件和用于该试剂盒绘图的特征性工程文件，可实现对Y染色体微缺失检测试剂盒测序数据的特征性分析和对Y染色体微缺失检测试剂盒工程文件的特征性绘图。

此外，对Y染色体微缺失检测试剂盒工程文件的特征性绘图包括对X染色体绘制模式图、对Y染色体绘制模式图和对每个位点拷贝数绘制点柱图。其中，点柱图包括CNV值在染色体位置和纵坐标上的颜色点，和连接该点与染色体的柱状线；颜色点可根据所在染色体的不同予以设置；柱状线在染色体上的位置与实际位置严格对应。

其中，测序运行路径为先进行reads分析，再进行SNP分析、SNP质量分析、CNV分析、CNV质量分析、样本性别分析。

对于reads分析，其步骤如下：

1)调用特征性序列文件，该文件以数据库的方式存放，特征性序列文件中包含了每个待测位点的名称和该位点的三个特征性序列。特征性序列是从与目标序列结合的探针中不连续地截取的，一般各长6-10个碱基。

2)程序读取fastQ文件中的每个reads，使用findall函数在reads中查找特征性序列，如查到，则为该待测位点记录1次，然后依次相加，得到每个位点所能查找到的全部reads数。如图6b所示，运行时程序即时地给出了每个位点的名称，三个特征性序列各查找到的reads次数，以及在同一reads中查找到全部三个reads的次数。其中，包含全部三个特征性序列的reads的次数(每行四个数据中最后一个)是主要信息，三个特征性序列的分别的reads次数(每行数据中前三个)是附属信息，可在出现异常时用于进一步分析。

对于reads分析，以每对探针的1～4段特征性序列的组合为待查找的文本，以测序文件(一般为fastQ文件)中的每个reads为查找对象，以python中正则表达式的findall为查找函数，统计含有每个待查文本的reads的数量。

在完成reads分析后，分析结果将存放于以pkl文件为主、以excel文件为辅的工程文件，标志着程序对本次目标fastQ文件完成初步的reads分析。excel文件可打开查看，pkl文件可在后续分析中予以调用。

对于SNP分析，其步骤如下：

将每个SNP的野生型reads除以野生型与突变型reads之和，所得比值为分型值，显然分型值的取值区间是[0,1]；根据以往数据，为每个SNP的分型值设置两个分界点，当分型值小于第一个分界点时，判断为纯合突变型，当分型值大于第二个分界点时，判断为纯合野生型，当分型值在两个分界点(含分界点)之间时，判断为杂合型。各个SNP的分型值的分界点见表1。

对于SNP质量分析，其步骤如下：

(1)标准1：如果两种等位基因的reads数的和小于某数(如20)，视为质量不合格，如大于该数而小于更大一点的数(如50)，视为质量灰区；大于较大数字，视为在reads方面质量合格；

(2)标准2：根据对大量健康人的检测数据，建立分析标准：两个分界点把分型值的区间划分为三段，分别为小值区间，杂合区间，大值区间，同一SNP的不同样本的分型值落在各个区间，根据在各区间的分布可计算其平均值和标准差。其值见表1。某样本某个SNP的分型值落在某个区间，如与该区间的平均值差的绝对值比上标准差，大于某个值，说明该值偏离预期过大，视为不合格或灰区；

(3)对标准1和标准2向下取值：两者有一个不合格，视为不合格。

表1 12个SNP的分型值的分界点、平均值、标准差

对于CNV分析，其步骤如下：

判断某样本X染色体与Y染色体的相对拷贝数，可参考相关文献(如荷兰MRC-Holland公司提供的方法)。具体地，每个样本的各个位点，与作为内参的常染色体reads的平均值比较，获得均一化处理结果，然后以某一个或几个健康样本的同一位点的平均值为对照，进行比较，即可得到受检样本每个位点的相对拷贝数。

对于CNV质量分析，其步骤如下：

(一)常染色体

(1)分布于常染色体上任一位点的reads数不小于某值；

(2)分布于常染色体上所有位点的reads数平均值不小于某值；

(3)reads的标准差与平均值的比值的绝对值不大于某值。

(二)X染色体/Y染色体

(1)分布于X染色体/Y染色体上任一位点的reads数不小于某值；

(2)分布于X染色体/Y染色体上所有位点的reads数平均值不小于某值；

(3)reads的标准差与平均值的比值的绝对值不大于某值。

(4)X或Y染色体的reads平均值与常染色体reads平均值的比值，在某个确定的区域之中。

需要说明的是，所谓数据质量，当样本为女性而导致X染色体的reads平均值与常染色体reads的平均值的比值大于某个阈值时，或者当发生Y染色体微缺失导致部分位点reads数趋于0时，都会导致数据质量不佳，这种数据质量不佳，与由于DNA浓度、抑制剂、不当操作导致的数据质量不佳，本方法不进行进一步区分。

工程操作模块包括工程操作界面、工程运行路径和工程展示界面。

如图6c～图6d所示，工程操作界面包括选择pkl文件代表的工程文件位置，在打开所选择的工程文件后，程序提取工程文件的试剂盒信息，以调用特征性工程文件进行下一步分析。程序提取工程文件中的样本信息，使工程展示界面显示每个样本的常染色体CNV质量、X染色体CNV质量、Y染色体CNV质量，每种结果分别用绿色、黄色、红色代表质量合格，质量勉强，质量不合格三种情况。其中对于Y/X分析，分别用蓝色、褐色和粉红色代表分析结果为男性、不明和女性。在结果展示同时，用户可进行对照样本选择，展示样本选择以及选择展示方式，之后点击画图按钮，程序按照用户的选择，重新计算当前展示样本每个位点的CNV、SNP和相应染色体图片，以生成样本的绘图前的绘图数据。

对于特征性工程文件，是指本装置在对工程文件进行绘图计算和绘图时具有的可插拔的特点，即程序根据工程文件的试剂盒信息，调取试剂盒相应的特征性工程文件，以绘制具有该试剂盒特色的特征性图片，从而实现对不同试剂盒的特色性绘图计算和绘图处理。

其中，对SNP计算为根据已有的分型结果进行SNP的数字化处理。具体步骤如下：

每个SNP的野生型、杂合型和纯合突变型分别用1,2,3表示，如该位点质量不合格，则用0表示，SNP依顺序两个为一组，其数字组合后用新的数字表示，对应关系为：00：0，01：0，02：0，03：0，10：0，11：1，12：2，13：3，20：0，21：4，22：5，23：6，30：0，31：7，32：8，33：9；实现了用一个较短的数字代表较多的SNP结果的功能。例如本版本的Y染色体微缺失试剂盒包含12个SNP，使用数字显示后，可以用一个六位数代表，该六位数可用来自基因的信息区分不同的受试者。

图片操作模块包含图片操作界面、图片运行路径和图片展示界面。其中，图片操作界面包括上一张、下一张、保存图片等命令按钮。图片运行路径是指程序根据用户的选择展示当前样本的结果图片；图片展示界面包括SNP标志区域、样本名称等信息区域、测序质量与性别区域、常染色体、X,Y染色体上探针的点柱图等(如图7～图9所示)。

图片展示界面包括：

(1)SNP区域，在左上角，其主体是中间一行的12个SNP的结果，用绿、黄、红分别代表分析质量高、中、低三种情况，下面一行用0～3的数字代表代表每个SNP，最上面一行的包含0～9的6位数字，则是由下面的12个数字生成的，方便人们记忆和分析。

(2)中间上部的样本信息，包括检测试剂盒名称，检测样本，对照样本，工程文件名称。(3)上部右侧质量部分,包括常染色体、X染色体、Y染色体的质量，Y/X的信息与数值。质量用绿色、黄色和红色表示质量的高、中、低，性别用蓝色、褐色、红色代表男性、不明、女性。

(4)主体部分的点柱图，由上面的颜色点和下面的竖线组成，立于一条横坐标之上。分别用绿色、红色、蓝色的点代表常染色体、X染色体和Y染色体。横坐标之下是各染色体的模式图和染色体的名称。X染色体和Y染色体模式图上点柱图的位置，严格对应于在染色体上的实际位置。

本发明的技术效果如下：

该装置是由测序操作模块，工程操作模块，图片操作模块组成，分析内容包括：从fastQ文件得到每个位点的reads数，根据reads数进行SNP分析、SNP质量分析、CNV分析、CNV质量分析，最后可生成与染色体位置对应的点柱图(含reads点柱图和CNV点柱图)，使用户一目了然地观察到各位点的CNV情况；

该装置作为与MLPA-NGS试剂盒数据分析相配套的分析装置，可充分满足数据分析的内在要求；操作简便，对操作人员技能要求低，便于大规模推广。

实施例4

本实施例涉及特征性序列文件制备。

本实施例制备一种基于MLPA-NGS技术开发的Y染色体微缺失试剂盒的特征性序列文件，该特征性序列文件包括两部分，一部分为Y染色体微缺失试剂盒相关各位点的特征性序列文件，见表2，一部分为包含12个SNP的分型值的分界点、平均值、标准差等信息的文件，见表1。

表2Y染色体微缺失特征性序列文件

/>

对于表2，包含6列数据，分别如下：

第一列为待测位点的类型，如检测的是SNP，则标记为SNP，如检测CNV，则给出染色体类型，含常染色体、X染色体或Y染色体。

第二列为待测位点的名称，如检测CNV，则用染色体名(常染色体用A表示)加数字编号，如为SNP，则用S加数字编号表示。

第三列为待测位点的信息，如为CNV检测位点，则给出检测位点附近20个碱基的染色体坐标，以及该位置所在的基因和基因的内含子或外显子编号，如探针位于染色体反链之上，则加上RC的标志，如在两个基因之间，则用$符号做开始和终止的标记，其间给出两个基因的名称。如为SNP检测位点，则给出SNP的rs编号加上待测的碱基。

第四列为左特征序列。

第五列为中特征序列。

第六列为右特征序列。

将包括表2和表1在内的Y染色体微缺失特征性序列文件置于数据库中，方便程序调用。

该实施例证明该装置在分析不同试剂盒的测序数据时具有的插拔性。当更换试剂盒时，或一个试剂盒的不同版本时，也要更换相应的特征性序列文件。

实施例5

本实施例涉及特征性工程文件制备。

本实施例制备一种基于MLPA-NGS技术开发的Y染色体微缺失试剂盒的特征性工程文件。

Y染色体微缺失试剂盒特征性工程文件是一个函数，以pkl文件的方式储存于硬盘上。当装置选择要对Y染色体微缺失试剂盒的数据进行分析时，装置调用Y染色体微缺失的pkl特征性工程文件，还原为函数，继而对输入的数据进行运算，获得绘图数据，用于绘图。

制备过程如下：

(1)数据输入环节，包括reads分析后生成的pkl文件、对照样本、待展示样本、显示类型(CNV图、reads图或相应数值)。

(2)从包含样本reads结果的pkl文件中提取样本的信息，计算和生成每个位点的CNV值，然后生成点柱图的绘图数据。

(3)生成Y染色体的模式图数据。

(4)生成X染色体的模式图数据。

(5)生成常染色体的模式图数据。

(6)生成X染色体上面标尺的数据。

(7)生成Y染色体上面标尺的数据，生成Y染色体下面AZFa，AZFb，AZFc区域指示的数据。

(8)生成Y染色体核型各条带的名称的数据。

(9)生成图片标题文字的数据。

(10)生成左上角SNP的数据。

(11)生成右上角四个点及文字的数据。

(12)集合以上数据，进行图片绘制。

实施例6

本实施例涉及样本分析。

取多个样本，使用Y染色体微缺失试剂盒进行检测，经二代测序后，使用本装置进行分析。在分析的样本中，取三个典型的样本进行阐述。

样本1健康男性

如图7所示，在该样本中，左上角SNP结果中，第二为黄色，表示效果略差，其余为绿色，表示效果较好。12个SNP用数字表示，为112221223212，用6位数表示，为154582.右上角常染色体、X染色体和Y染色体都为绿色，表示质量合格，Y/X为蓝色，值为1.1587，表示为正常男性。在下面的CNV结果中，22条常染色体上的22个位点，对应探针的点柱图的点为绿色，全部有信号，信号值为2左右，表示拷贝数为正常的2个拷贝。中间的X染色体上有14个位点，点柱图上的点为红色，信号值在1左右，表示X染色体拷贝数为正常男性的1个拷贝。右边的Y染色体上分布有50个位点，其点柱图的点为蓝色，全部位点都有信号，信号值在1左右，表示Y染色体拷贝数为正常男性的1个拷贝。整个图片布局合理，结构明确，结果一目了然，SNP质量基本合格(不影响对CNV的判断)，CNV质量合格，检测未发现Y染色体发生缺失。

样本2健康女性

如图8所示，在该样本中，左上角SNP中，全部为绿色，表示质量过关。12个SNP用数字表示，为111213222312，用6位数表示，为123562.右上角常染色体为绿色、X染色体和Y染色体都为红色，表示常染色体质量合格，但X染色体与Y染色体质量不合格或者不是健康男性，Y/X为粉红色，值为0.0058，表示为女性。在下面的CNV结果中，22条常染色体上的22个位点，点柱图的点为绿色，全部有信号，信号值为2左右，表示拷贝数为正常的2个拷贝。中间的X染色体上有14个位点，点柱图上的点为红色，信号值在2左右，表示X染色体拷贝数为正常女性的2个拷贝。右边的Y染色体上分布有50个位点，其点柱图的点为蓝色，全部位点都没有信号(信号值在0左右)，表示该样本缺乏Y染色体，符合正常女性的判断。整个图片布局合理，结构明确，结果一目了然，SNP质量合格，CNV质量提示异常，检测判断为正常女性，无Y染色体信号。

样本3异常男性

如图9所示，在该样本中，左上角SNP中，第二个为黄色，表示质量略差，其余为绿色，整体质量基本过关。12个SNP用数字表示，为113311111121，用6位数表示，为191124.右上角常染色体和X染色体为绿色，Y染色体为红色，表示常染色体和X染色体质量合格，但Y染色体质量不合格或者不是健康男性，Y/X为蓝色，值为1.148，表示为男性。在下面的CNV结果中，22条常染色体上的22个位点，对应探针的点柱图的点为绿色，全部有信号，信号值为2左右，表示拷贝数为正常的2个拷贝。中间的X染色体上有14个位点，点柱图上的点为红色，信号值在1左右，表示X染色体拷贝数为正常男性的1个拷贝。右边的Y染色体上分布有50个位点，其点柱图的点为蓝色，其中倒数第二个信号值为0，位于AZFc区域内，表示AZFc区域存在缺失。整个图片布局合理，结构明确，结果一目了然，SNP质量基本合格，CNV质量提示异常，检测结果判断为存在Y染色体微缺失的男性。

以上所述仅为本发明较佳的实施例，并非因此限制本发明的实施方式及保护范围，对于本领域技术人员而言，应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案，均应当包含在本发明的保护范围内。

Claims

1.一种用于MLPA-NGS试剂盒测序数据的数据分析方法，用于分析MLPA-NGS试剂盒测序文件，其特征在于，包括：

获取待分析的测序文件，其中，所述测序文件的格式为.gz；

根据所述绘图数据进行绘图，以生成图文件。

2.根据权利要求1所述的数据分析方法，其特征在于，根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件包括：

读取测序文件的所有reads；

使用findall函数在reads查找特征性序列；

3.根据权利要求2所述的数据分析方法，其特征在于，SNP分析包括：

在分型值＜第一预设阈值的情况下，SNP分型为纯合突变型；

在分型值＞第二预设阈值的情况下，SNP分型为纯合野生型；

在第一预设阈值≤分型值≤第二预设阈值的情况下，SNP分型为杂合型；和/或

SNP质量分析包括：

(一)第一SNP质量分析

获取两种等位基因的reads和；

在reads≥第四预设阈值的情况下，第一SNP质量为质量合格；

(二)第二SNP质量分析

获取SNP的分型值；

获取分型值区间的平均值和标准差；

计算分型值与平均值的差值，其中，差值为绝对值；

计算差值与标准差的比值；

判断比值是否大于第五预设阈值；

(三)第三SNP质量分析

在第一SNP质量、第二SNP质量中的任意一个为质量不合格的情况下，SNP质量为不合格；和/或

CNV质量分析包括：

(一)常染色体CNV质量分析

(二)X染色体/Y染色体CNV质量分析

4.根据权利要求1或2所述的数据分析方法，其特征在于，根据特征性序列文件对所述测序文件进行分析处理，以生成工程文件还包括：

判断是否选择试剂盒；

在获取文件位置的情况下，判断是否获取文件名特征码；

5.根据权利要求1所述的数据分析方法，其特征在于，根据特征性工程文件对所述工程文件进行处理，以生成绘图数据包括：

获取所有SNP的SNP分型及SNP质量，其中，SNP的数量为2n个；

判断SNP质量是否为不合格；

在SNP质量为不合格的情况下，SNP数字值为0；

根据SNP组代码值，生成测序文件代码值。

6.根据权利要求1所述的数据分析方法，其特征在于，根据所述绘图数据进行绘图，以生成图文件包括：

(一)生成SNP信息

获取SNP分型、SNP质量、SNP组数字值、SNP组代码值；

根据SNP组代码值，生成第一SNP信息；

根据SNP分型、SNP质量，生成第二SNP信息；

根据SNP组数字值，生成第三SNP信息；

将第一SNP信息、第二SNP信息、第三SNP信息排列显示；

(二)生成样本信息

(三)生成CNV信息

根据Y染色体/X染色体比值、性别信息，生成第二CNV信息；

将第一CNV信息、第二CNV信息排列显示；

(四)生成CNV图

获取常染色体数据、X染色体数据、Y染色体数据；

将常染色体图、X染色体图、Y染色体图排列显示。

7.一种用于MLPA-NGS试剂盒测序数据的数据分析装置，用于执行如权利要求1～6任一所述的数据分析方法，其特征在于，包括：

8.根据权利要求7所述的数据分析装置，其特征在于，所述测序操作单元包括：

测序操作界面模块，所述测序操作界面模块包括：

选择试剂盒子模块，用于选择MLPA-NGS试剂盒；

文件位置子模块，用于选择待分析的测序文件的文件位置；

保存位置子模块，用于选择工程文件的保存位置；

文件名特征码子模块，用于输入测序文件的文件名特征码；

文件检索子模块，用于检索并罗列测序文件；

文件选择子模块，用于对罗列的测序文件进行选择或排除；

启动运行子模块，用于对待分析的测序文件进行分析处理；

测序运行路径模块，所述测序运行路径模块包括：

性别分析子模块，用于在reads分析结束后，进行性别分析；

测序展示界面模块，所述测序展示界面模块包括：

reads运行动态展示子模块，用于动态展示reads分析过程；

pkl文件生成子模块，用于根据SNP分析结果、SNP质量分析结果、CNV分析结果、CNV质量分析结果生成pkl文件；和/或

所述工程操作单元包括：

工程操作界面模块，所述工程操作界面模块包括：

选择对照样本子模块，用于选择工程文件的对照样本；

选择展示样本子模块，用于选择工程文件的展示样本；

工程运行路径模块，所述工程运行路径模块包括：

特征性工程文件选择子模块，用于选择特征性工程文件；

工程文件打开子模块，用于打开工程文件；

工程展示界面模块，所述工程展示界面模块包括：

SNP质量显示子模块，用于显示SNP质量；

CNV质量显示子模块，用于显示CNV质量；

性别显示子模块，用于显示性别；和/或

所述图片操作单元包括：

图片操作界面模块，所述图片操作界面模块包括：

图片选择子模块，用于选择图片；

保存图片子模块，用于保存图片；

图片运行路径模块，所述图片运行路径模块包括：

绘图子模块，用于根据绘图数据进行绘图，以生成图文件；

图片展示界面模块，所述图片展示界面模块包括：

SNP标志显示子模块，用于显示SNP标志；

样本信息显示子模块，用于显示样本信息；

测序质量显示子模块，用于显示测序质量；

性别显示子模块，用于显示性别；

常染色体显示子模块，用于显示常染色体；

X染色体显示子模块，用于显示X染色体；

Y染色体显示子模块，用于显示Y染色体。

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1～6任一所述的数据分析方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～6任一所述的数据分析方法。