CN109801677B

CN109801677B - 测序数据自动化分析方法、装置和电子设备

Info

Publication number: CN109801677B
Application number: CN201811636702.3A
Authority: CN
Inventors: 陈洋; 王红; 闫利叶; 李大为; 玄兆伶; 王海良; 王娟; 肖飞
Original assignee: Annoroad Gene Technology Beijing Co ltd; Anoroad Institute Of Life Science; Zhejiang Annoroad Bio Technology Co ltd
Current assignee: Annoroad Gene Technology Beijing Co ltd; Beijing Annoroad Medical Laboratory Co ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2023-05-23
Anticipated expiration: 2038-12-29
Also published as: CN109801677A

Abstract

公开了一种用于染色体异常检测的测序数据自动化分析方法、装置和电子设备。该方法包括：获取原始数据；从用户接收分析指令；基于所述分析指令从所述原始数据获取批次数据；将所述批次数据拆分为样本数据；将拆分后的样本数据进行数据质控；以及，对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。这样，能够基于用户指令直接从原始数据获得染色体非整倍体及基因微缺失分析结果，从而降低染色体分析的人力和时间成本并提高易用性。

Description

测序数据自动化分析方法、装置和电子设备

技术领域

本申请涉及数据处理领域，且更为具体地，涉及一种用于染色体异常检测的测序数据自动化分析方法、装置和电子设备。

背景技术

染色体是基因的载体，染色体异常经常导致基因表达异常机体发育异常。染色体异常的发病机制不明，可能由于细胞分裂后期染色体发生不分离或染色体在体内外各种因素影响下发生断裂和重新连接所致。染色体异常分为数量异常和染色体结构异常，染色体数据异常包括整倍体和非整倍体异常，染色体数目增多、减少和出现三倍体等；染色体结构异常包括染色体缺失、易位、倒位、插入、重复和环状染色体等。

二代测序技术，其核心思想为边合成边测序。用不同颜色的荧光分别标记四种不同的脱氧核苷酸A、T、C、G，在通过PCR反应合成基因模板的互补链时，脱氧核糖核苷酸依次添加到互补链的末端，通过捕捉末端的荧光信号，鉴定添加的脱氧核糖核苷酸种类，从而确定合成的碱基序列，该碱基序列即为测序数据(原始数据)。通过构建测序文库，分析测序数据，可获得染色体异常情况。

染色体异常检测测序数据分析包括多个步骤，以染色体数目异常和微缺失检测为例，需要进行数据过滤、序列比对、比对结果排序、数据质量评估、检测结果过滤。目前数据的分析为人工操作，消耗人工成本、分析周期延长、而且分析的稳定性也存在隐患。在基因检测时效性有较高要求的背景下，急需研发一种适合染色体异常检测数据分析系统。

发明内容

为了解决上述技术问题，提出了本申请。本申请提供了一种用于染色体异常检测的测序数据自动化分析方法、装置和电子设备，其能够基于用户指令直接从原始数据获得染色体非整倍体及基因微缺失分析结果，从而降低染色体分析的人力和时间成本并提高易用性。

根据本申请的一个方面，提供了一种用于染色体异常检测的测序数据自动化分析方法，包括：获取原始数据；从用户接收分析指令；基于所述分析指令从所述原始数据获取批次数据；将所述批次数据拆分为样本数据；将拆分后的样本数据进行数据质控；以及，对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

在上述分析方法中，所述染色体非整倍性及基因微缺失分析包括：比对：将测序数据比对到参考基因组上；去重：移除比对文件bam中的潜在由于PCR造成的重复；统计：对每个窗口统计，落入窗口内的reads个数、Unique reads、Mapability、Genomic GC含量、ReadsGC及Unique reads GC，生成基于窗口的计数文件；检测：基于生成的计数文件，分别进行核型及cnv检测。

在上述分析方法中，从用户接收分析指令包括：从用户接收登录请求；验证所述用户的登录请求；以及，响应于所述用户验证通过，向所述用户显示使用信息。

在上述分析方法中，基于所述分析指令从所述原始数据获取批次数据包括：基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及，基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据。

在上述分析方法中，在从用户接收分析指令之前进一步包括：向用户提供模板；以及，接收用户基于所述模板提供的模板信息，所述模板信息包括所述指定信息。

在上述分析方法中，获取批次数据包括：确定所述批次数据是否已分析；以及，响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作。

在上述分析方法中，所述分析结果包括以下的至少其中之一：样本编号、文库编号、质控结果和检测结果；所述质控结果包括：原始数据量、样本GC含量和UR比率；以及，所述检测结果包括以下的至少其中之一：DV1-DV22、DV23值、DV24值、CNVmark1-22值。

在上述分析方法中，在对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果之后进一步包括：基于所述分析结果生成分析报告。

根据本申请的另一方面，提供了一种用于染色体异常检测的测序数据自动化分析装置，包括：原始数据获取单元，用于获取原始数据；指令接收单元，用于从用户接收分析指令；批次数据获取单元，用于基于所述分析指令从所述原始数据获取批次数据；数据拆分单元，用于将所述批次数据拆分为样本数据；数据质控单元，用于对拆分后的样本数据进行数据质控；以及，数据分析单元，用于对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

在上述分析装置中，所述数据分析单元包括：比对：将测序数据比对到参考基因组上；去重：移除比对文件bam中的潜在由于PCR造成的重复；统计：对每个窗口统计，落入窗口内的reads个数、Unique reads、Mapability、Genomic GC含量、Reads GC及Unique readsGC，生成基于窗口的计数文件；检测：基于生成的计数文件，分别进行核型及cnv检测。

在上述分析装置中，所述指令接收单元包括：请求接收子单元，用于从用户接收登录请求；请求验证子单元，用于验证所述用户的登录请求；以及信息显示子单元，用于响应于所述用户验证通过，向所述用户显示使用信息。

在上述分析装置中，所述批次数据获取单元包括：指定确定子单元，用于基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及，数据获取子单元，用于基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据。

在上述分析装置中，进一步包括：模板提供单元，用于在从用户接收分析指令之前向用户提供模板，以及接收用户基于所述模板提供的模板信息，所述模板信息包括所述指定信息。

在上述分析装置中，所述批次数据获取单元包括：分析确定子单元，用于确定所述批次数据是否已分析；以及，数据分析子单元，用于响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作。

在上述分析装置中，所述分析结果包括以下的至少其中之一：样本编号、文库编号、质控结果和检测结果；所述质控结果包括：原始数据量、样本GC含量和UR比率；以及，所述检测结果包括以下的至少其中之一：DV1-DV22值、CNVmark1-22值、DV23值、DV24值。

在上述分析装置中，进一步包括：报告提供单元，用于在对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果之后，基于所述分析结果生成分析报告。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的染色体异常检测的测序数据自动化分析方法。

根据本申请的又一方面，提供了一种计算机可读介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行如上所述的染色体异常检测的测序数据自动化分析方法。

与现有技术相比，本申请提供的用于染色体异常检测的测序数据自动化分析方法、装置和电子设备可以基于用户指令直接从批次数据获得染色体非整倍体及基因微缺失分析结果，从而降低染色体分析的人力和时间成本并提高易用性。

附图说明

通过结合附图对本申请实施例进行更详细的描述，本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解，并且构成说明书的一部分，与本申请实施例一起用于解释本申请，并不构成对本申请的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法的流程图。

图2图示了根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中的用户登录过程的示意图。

图3图示了根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中的批次数据上传和删除过程的示意图。

图4图示了根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中的分析报告处理过程的示意图。

图5图示了根据本申请实施例的用于染色体异常检测的测序数据自动化分析装置的框图。

图6图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

本发明涉及的定义：

1)Reads：read的复数，高通量测序平台产生的一段短测序片段序列。

2)Unique reads：是指唯一比对到基因组上的reads。在测序过程中，有些reads可以同时比对到基因组多个位置，Unique reads则是从所有非dup的reads中过滤掉这些多处比对的reads，剩下的就是unique reads.

3)Mapability：对于某些窗口，短序列唯一性较低，主要原因可能是因为来自异染色质大片的重复序列或更复杂的生物学原因，此时利用Mapability这个参数算每个窗口的效率。

4)Genomic GC：该参数代表每个窗口对应的基因组GC，在所有文库中均相同。

5)Reads GC：每个窗口中所有reads对应的GC。

6)Unique reads GC：代表每个窗口中unique reads对应的GC。

7)DV值：衡量染色体数量的数值，一般认为常染色体DV值在0.9-1.1开区间内为正常，低于0.9可能存在单体风险，高于1.1可能存在3体风险，如女性检测者，DV23值表示X染色体存在非整倍体情况，DV24代表X染色体存在非整倍体情况，如男性检测者，DV23值表示X染色体存在非整倍体情况，DV24代表Y染色体存在非整倍体情况。

8)CNVmark值：CNV内最大连续低质量窗口所占比例，低于0.2,该区域可能存在缺失风险，例，CNVmark12值表示12号染色体存在CNV情况。

申请概述

如上所述，基于上述技术问题，本申请的基本构思是基于用户的分析指令直接从原始数据获取批次数据并进行拆分和质控，并对质控成功的每条样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

具体地，本申请提供的用于染色体异常检测的测序数据自动化分析方法、装置和电子设备首先获取原始数据，然后从用户接收分析指令，再基于所述分析指令从所述原始数据获取批次数据，之后将所述批次数据拆分为样本数据，再将拆分后的样本数据进行数据质控，最后对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

因此，在本申请提供的用于染色体异常检测的测序数据自动化分析方法、装置和电子设备中，用户仅需要发出分析指令，例如通过点击用户界面上显示的“开始分析”按键就可以进行染色体分析，对于用户来说非常简单易懂，学习成本低。

并且，本申请提供的用于染色体异常检测的测序数据自动化分析方法、装置和电子设备在接收到分析指令之后，可以自动检查批次数据是否获取完成，例如通过定时循环查看数据是否下机，是否完整，并在下机数据完整后自动进行分析，从而节省了大量人工和时间成本。

在介绍了本申请的基本原理之后，下面将参考附图来具体介绍本申请的各种非限制性实施例。

示例性方法

如图1所示，根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法包括：S110，获取原始数据；S120，从用户接收分析指令；S130，基于所述分析指令从所述原始数据获取批次数据；S140，将所述批次数据拆分为样本数据；S150，将拆分后的样本数据进行数据质控，以及S160，对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

在步骤S110中，获取原始数据。这里，如上所述，所述原始数据为通过测序技术获得的测序数据，即碱基序列数据。并且，本领域技术人员可以理解，在本申请实施例中，原始数据可以是通过各种测序技术获得的未经分析的数据。

在步骤S120中，从用户接收分析指令。具体地，如上所述，用户可以通过根据本申请实施例的染色体异常检测的测序数据自动化分析方法的软件产品的用户界面来发出分析指令，例如通过点击用户界面上显示的“开始分析”按键。相应地，所述软件产品在检测到用户点击按键之后，确定从用户接收到分析指令。

并且，在接收分析指令的过程中，可以通过用户登录的方式来验证用户。具体地，如图2所示，当根据本申请实施例的染色体检测的测序数据的自动化分析方法实现为基于网页的应用时，用户可以打开浏览器并在地址栏输入IP地址或域名进入软件的登录界面，然后输入用户名和密码后点击登录进入系统。并且，在用户登录进入系统之后，可以向用户显示使用信息，例如用户的最后登录时间、用户的登录次数等，也可以向用户显示批次信息的主界面。这里，图2图示了根据本申请实施例的染色体异常检测测序数据分析方法中的用户登录过程的示意图。

也就是说，在根据本申请实施例的染色体异常检测测序数据分析方法中，从用户接收分析指令包括：从用户接收登录请求；验证所述用户的登录请求；以及，响应于所述用户验证通过，向所述用户显示使用信息。

如上所述，当存在多个用户时，可以向特定用户分配特定权限，例如，管理员权限。也就是说，只有作为管理员角色的用户才具有角色管理的权限。这里，角色管理的权限可以包括维护(修改)角色功能、权限以及增加角色功能、权限等。并且，可以设置为当角色过多时，通过搜索角色名模糊查找角色。

这里，角色功能和权限主要包括该角色对根据本申请实施例的染色体测序数据自动化分析方法的各个功能模块的管理权限，例如包括系统管理、批次管理、样本管理、报告管理等。

此外，区别于上述角色功能和权限，用户可进一步具有用户功能。并且，管理员可以具有操作用户功能的权限，例如，查询用户功能、删除用户功能、维护(修改)用户功能以及增加用户功能等。并且，当用户过多时，可通过搜索用户名、所属角色或者登录日期查找用户。

因此，在根据本申请实施例的染色体异常检测测序数据分析方法中，进一步包括：基于所述用户的登录请求确定所述用户的权限信息，其中，所述权限信息是预先向所述用户分配的，且所述权限信息包括操作用户功能的特定权限的信息。

在用户登录成功后，可以向用户显示批次信息的主界面，所述主界面可以包括菜单。具体地，所述菜单可以分为一级菜单和二级菜单，且每级菜单都可以进行菜单管理，功能包括添加菜单，展开/折叠菜单，修改菜单，删除菜单等。例如，一级菜单在添加和修改时，其“从属菜单”为空，同时，“名称”为必填项，“资源路径”为空；二级菜单在添加和修改时，其“从属菜单”只能从一级菜单中选择，同时“名称”和“资源路径”为必填项；删除一级菜单时，其所属的二级菜单均删除。

也就是说，在根据本申请实施例的染色体异常检测测序数据分析方法中，所述使用信息包括菜单信息，所述菜单信息包括用于执行菜单功能的菜单管理信息。

在步骤S130中，基于所述分析指令从所述原始数据获取批次数据。

具体来说，在根据本申请实施例的染色体异常检测测序数据分析方法中，可以基于用户的分析指令来确定指定信息，所述指定信息用于指定所述原始数据的至少部分数据。例如，所述指定信息可以包括样本编号，从而用户可以指定所述原始数据中具有所述样本编号的样本数据为想要进行分析的批次数据。并且，基于所述指定信息，可以获得所述原始数据中指定的部分数据作为批次数据。

也就是说，在根据本申请实施例的染色体异常检测测序数据分析方法中，基于所述分析指令从所述原始数据获取批次数据包括：基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及，基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据。

这里，所述批次数据可以具有批次信息，且所述批次信息记录在批次日志中。所述批次日志具有预定时间，例如三个月内上传和删除的批次数据的批次信息。

此外，所获取的原始数据也可以具有数据日志，从而保存数据的相关信息。例如，近三个月上传的原始数据的数据编号，上传的用户及上传时间，近三个月删除的原始数据的数据编号，以及删除的用户及删除时间等。

此外，在批次信息主界面上，还可以显示软件的版本号及联系方式等信息，如完整版本号、发布版本号、医疗器械注册证书编号、服务电话、版权信息及公司地址等信息。

根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中的原始数据上传和删除过程的示意图。如图3所示，在获取原始数据之后，所述原始数据一直保存着，直到用户删除所述原始数据为止。并且，保存的原始数据的数据信息均记录在日志中。

为了便于用户指定原始数据中的批次数据，可以向用户提供模板信息，以使得用户根据模板上传指定数据。也就是说，用户指定的批次数据可以包括Excel形式的批次信息表，且用户可以通过下载模板来查看批次信息表需要包含的内容，并选择要上传的信息表进行上传。具体地，所述批次信息表可以包括测序日期、样本编号、索引号、文库编号、送检医院、送检科室、送检医生与基因测序有关的信息。另外，所述批次信息表还可以包括用户自身的信息，比如姓名、住院门诊号、性别、年龄、等相关信息。相应信息上传之后，如果信息表格式有问题或内容不符要求，则可以向用户提示错误信息，用户修改后重新上传。此外，所述批次信息表还包括对于所述批次数据的其它信息，例如，数据拆分结果、数据质控结果、关于数据分析的信息等。

因此，在根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中，在从用户接收分析指令之前进一步包括：向用户提供模板；以及，接收用户基于所述模板提供的模板信息，所述模板信息包括所述指定信息。

另外，如上所述，在对所述批次数据进行分析之后，所述批次数据的批次信息将进一步包括与批次分析有关的信息，例如批次号、测序日期、批次状态、批次质控和对照品结果、报告审核、预计完成时间、操作等。具体地，所述信息同样可以保存在批次信息表中，从而可以基于批次信息来确定所述批次数据是否已分析。此外，用户也可以通过批次信息查看到批次的用户上传的信息和批次状态。另外，还可以包括异常批次查询功能，以实现批次质控未通过，对照品结果未通过等的批次信息的查询。

因此，在根据本申请实施例的染色体异常检测的测序数据自动化分析方法中，获取批次数据包括：确定所述批次数据是否已分析；以及，响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作。

在步骤S140中，将所述批次数据拆分为样本数据。也就是说，对于确定为未分析的批次数据进行数据拆分，以获得用于进行染色体分析的每条样本数据。

在步骤S150中，将拆分后的样本数据进行数据质控。也就是，在根据本申请实施例的染色体数据分析方法中，可以进一步对分拆后的样本数据进行数据质控，并仅针对数据质控成功的样本数据进行染色体分析，从而避免浪费系统资源。

这里，数据质控具体包括：过滤原始数据量低于4.5M数据，保留原始数据量高于4.5M数据和过滤GC含量在<38.5％数据和>45.5％数据，保留GC含量在38.5％-45.5％之间数据和过滤UR_Ratio低于0.6数据，保留UR_Ratio高于0.6数据。

在步骤S160中，对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

这里，所述染色体非整倍体及基因微缺失分析具体包括：比对：将测序数据比对到参考基因组上；去重：移除比对文件bam中的潜在由于PCR造成的重复(基于比对坐标)；统计：对每个窗口统计，落入窗口内的reads个数、Unique reads、Mapability、Genomic GC含量、Reads GC及Unique reads GC，生成基于窗口的计数文件；检测：基于生成的计数文件，分别进行核型及CNV检测。

在所述分析结果中，针对每条样本数据可以具有多个字段，以保存样本的多种信息。此外，与所述样本数据的字段，可以对所有样本进行查询。例如，所述样本数据的信息包括样本分析状态，即未分析、分析中和已分析三种状态；以及审核状态，即审核和未审核两种状态。

也就是说，在根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中，对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果包括：记录每条所述样本的分析状态，所述分析状态包括未分析、分析中和已分析之一；和/或，记录每条样本的审核状态，所述审核状态包括已审核和未审核之一。

另外，对于样本数据的其它信息，可以大致划分为样本基本信息和分析结果信息。

也就是，在根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中，所述分析结果包括以下的至少其中之一：样本编号、文库编号、质控结果和检测结果；所述质控结果包括：原始数据量、样本GC含量和UR比率；以及，所述检测结果包括以下的至少其中之一：DV1-DV22值、CNVmark1-CNVmark 22值、DV23值、DV24值。

因此，根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法可以基于用户指令直接从批次数据获得染色体非整倍体及基因微缺失分析结果，从而降低染色体分析的人力和时间成本并提高易用性。

此外，在根据本申请实施例的用于染色体异常检测的测序数据自动化分析方法中，在对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果之后进一步包括：基于所述分析结果生成分析报告。

具体地，针对所生成的分析包括，可以查看报告的审核状态(审核、未审核)，以实现对每个批次中的每个已分析样本进行发出报告的审核功能，主要包括确认此样本的分析结果及样本信息是否准确无误、是否符合发出报告的条件等。

分析报告审核成功之后，可以向用户提供报告下载功能，即每个批次中的每个已分析样本的已审核通过的报告的下载。本领域技术人员可以理解，所述分析报告可以以单样本形式下载或者以整个批次形式批量下载，且所述分析包括例如可以以PDF形式展示。另外，在下载时，可以记录下载详情，例如下载时间、下载用户等。

如果分析报告未审核成功，可以修改样本的基本信息以再次审核。同时，会记录修改的日志，即修改人，修改时间和修改内容等信息。以上过程如图4所示，这里，图4图示了根据本申请实施例的染色体异常检测测序数据分析方法中的分析报告处理过程的示意图。并且，如图4所示，可以跟踪报告的下载状态(已下载、未下载)，并实现每个样本的查询和导出功能，例如，以Excel表格形式展示。

应用示例

如上所述，根据本申请实施例的染色体异常检测测序数据分析方法例如可以实现为软件产品，具体地，可以通过AJAX技术和JSP技术实现为采用SSM框架技术的网页应用。

这里，AJAX技术即“Asynchronous Javascript And XML”(异步JavaScript和XML)，是指一种创建交互式网页应用的网页开发技术。AJAX是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，AJAX可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。解决传统的网页(不使用AJAX)

JSP(全称JavaServer Pages)是由Sun Microsystems公司主导创建的一种动态网页技术标准。JSP部署于网络服务器上，可以响应客户端发送的请求，并根据请求内容动态地生成HTML、XML或其他格式文档的Web网页，然后返回给请求者。JSP技术以Java语言作为脚本语言，为用户的HTTP请求提供服务，并能与服务器上的其它Java程序共同处理复杂的业务需求。

JSP将Java代码和特定变动内容嵌入到静态的页面中，实现以静态页面为模板，动态生成其中的部分内容。JSP引入了被称为“JSP动作”的XML标签，用来调用内建功能。另外，可以创建JSP标签库，然后像使用标准HTML或XML标签一样使用它们。标签库能增强功能和服务器性能，而且不受跨平台问题的限制。JSP文件在运行时会被其编译器转换成更原始的Servlet代码。JSP编译器可以把JSP文件编译成用Java代码写的Servlet，然后再由Java编译器来编译成能快速执行的二进制机器码，也可以直接编译成二进制码。

SSM框架是spring MVC，spring和mybatis框架的整合，是标准的MVC模式，将整个系统划分为表现层，controller层，service层，DAO层四层

示例性装置

如图5所示，根据本申请实施例的用于染色体异常检测的测序数据自动化分析装置200包括：原始数据获取单元210，用于获取原始数据；指令接收单元220，用于从用户接收分析指令；批次数据获取单元230，用于基于所述指令接收单元220所接收的分析指令从所述原始数据获取单元210所获取的原始数据获取批次数据；数据拆分单元240，用于将所述批次数据获取单元230所获取的批次数据拆分为样本数据；数据质控单元250，用于对所述数据拆分单元240拆分后的样本数据进行数据质控；以及，数据分析单元260，用于对所述数据质控单元250进行的数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果。

在一个示例中，在上述分析装置200中，所述数据分析单元包括：比对：将测序数据比对到参考基因组上；去重：移除比对文件bam中的潜在由于PCR造成的重复；统计：对每个窗口统计，落入窗口内的reads个数、Unique reads、Mapability、Genomic GC含量、ReadsGC及Unique reads GC，生成基于窗口的计数文件；检测：基于生成的计数文件，分别进行核型及cnv检测。

在一个示例中，在上述分析装置200中，所述指令接收单元220包括：请求接收子单元，用于从用户接收登录请求；请求验证子单元，用于验证所述用户的登录请求；以及信息显示子单元，用于响应于所述用户验证通过，向所述用户显示使用信息。

在一个示例中，在上述分析装置200中，所述批次数据获取单元230包括：指定确定子单元，用于基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及，数据获取子单元，用于基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据。

在一个示例中，在上述分析装置200中，进一步包括：模板提供单元，用于在从用户接收分析指令之前向用户提供模板，以及接收用户基于所述模板提供的模板信息，所述模板信息包括所述指定信息。

在一个示例中，在上述分析装置200中，所述批次数据获取单元230包括：分析确定子单元，用于确定所述批次数据是否已分析；以及，数据分析子单元，用于响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作。

在一个示例中，在上述分析装置200中，所述分析结果包括以下的至少其中之一：样本编号、文库编号、质控结果和检测结果；所述质控结果包括：原始数据量、样本GC含量和UR比率；以及，所述检测结果包括以下的至少其中之一：DV1-DV22值、CNVmark1-CNVmark 22值。

在一个示例中，在上述分析装置200中，进一步包括：报告提供单元，用于在对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果之后，基于所述分析结果生成分析报告。

这里，本领域技术人员可以理解，上述分析装置200中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的用于染色体异常检测的测序数据自动化分析方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的用于染色体异常检测的测序数据自动化分析装置200可以实现在各种终端设备中，例如用于染色体分析的计算机等。在一个示例中，根据本申请实施例的用于染色体异常检测的测序数据自动化分析装置200可以作为一个软件模块和/或硬件模块而集成到终端设备中。例如，该染色体异常检测的测序数据自动化分析装置200可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该染色体异常检测的测序数据自动化分析装置200同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该分析装置200与该终端设备也可以是分立的设备，并且该分析装置200可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示，电子设备10包括一个或多个处理器11和存储器12。

处理器13可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的用于染色体异常检测的测序数据自动化分析方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如原始数据、批次数据、样本数据、分析结果等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

该输入装置13可以包括例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，包括染色体分析的分析结果等。该输出装置14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图6中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的染色体异常检测测序数据分析方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例用于染色体异常检测的测序数据自动化分析方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种用于染色体异常检测的测序数据自动化分析方法，包括：

获取原始数据；

从用户接收分析指令；

基于所述分析指令从所述原始数据获取批次数据；

将所述批次数据拆分为样本数据；

将拆分后的样本数据进行数据质控；以及

对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果；

其中，基于所述分析指令从所述原始数据获取批次数据包括：

基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及

基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据；

其中，获取所述批次数据包括：

确定所述批次数据是否已分析；以及

响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作；

其中，所述批次数据具有批次信息，且所述批次信息记录在批次日志中；所述批次日志具有预定时间。

2.根据权利要求1所述的分析方法，其中，所述染色体非整倍体及基因微缺失分析包括：

比对：将测序数据比对到参考基因组上；

去重：移除比对文件中的潜在的由于PCR造成的重复；

统计：对每个窗口统计，落入窗口内的reads个数、Unique reads、Mapability、GenomicGC含量、Reads GC及Unique reads GC，生成基于窗口的计数文件；其中，Unique reads：唯一比对到基因组上的reads；Mapability：对于某些窗口，短序列唯一性较低，主要原因是因为来自异染色质大片的重复序列或更复杂的生物学原因，此时利用Mapability这个参数算每个窗口的效率；Genomic GC：每个窗口对应的基因组GC；Reads GC：每个窗口中所有reads对应的GC；Unique reads GC：每个窗口中unique reads对应的GC；

检测：基于生成的计数文件，分别进行核型及cnv检测。

3.根据权利要求1所述的分析方法，其中，从用户接收分析指令包括：

从用户接收登录请求；

验证所述用户的登录请求；以及

响应于所述用户验证通过，向所述用户显示使用信息。

4.根据权利要求1所述的分析方法，其中，在从用户接收分析指令之前进一步包括：

向用户提供模板；

接收用户基于所述模板提供的模板信息，所述模板信息包括所述指定信息。

5.根据权利要求1所述的分析方法，其中，所述分析结果包括以下的至少其中之一：样本编号、文库编号、质控结果和检测结果；

所述检测结果包括以下的至少其中之一：DV1～22值、CNVmark1-CNVmark22值、DV23值、DV24值；其中，DV1～22值中的DV值为衡量染色体数量的数值，1～22表示1～22号染色体；CNVmark1-CNVmark22值表示1-22号染色体存在CNV情况；当为女性检测者时，DV23值表示X染色体存在非整倍体情况，DV24代表X染色体存在非整倍体情况；当为男性检测者时，DV23值表示X染色体存在非整倍体情况，DV24代表Y染色体存在非整倍体情况。

6.根据权利要求1所述的分析方法，其中，在对每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果之后进一步包括：

基于所述分析结果生成分析报告。

7.一种用于染色体异常检测的测序数据自动化分析装置，包括：

原始数据获取单元，用于获取原始数据；

指令接收单元，用于从用户接收分析指令；

批次数据获取单元，用于基于所述分析指令从所述原始数据获取批次数据；

数据拆分单元，用于将所述批次数据拆分为样本数据；

数据质控单元，用于对拆分后的样本数据进行数据质控；以及

数据分析单元，用于对数据质控成功的每条所述样本数据进行染色体非整倍体及基因微缺失分析以获得分析结果；

其中，所述批次数据获取单元包括：指定确定子单元，用于基于所述分析指令确定指定信息，所述指定信息用于指定所述原始数据中的至少部分数据；以及，数据获取子单元，用于基于所述指定信息获取所述原始数据中的所述至少部分数据作为所述批次数据；

其中，所述批次数据获取单元包括：分析确定子单元，用于确定所述批次数据是否已分析；以及，数据分析子单元，用于响应于所述批次数据为未分析，分析所述批次数据以获得批次分析信息，所述批次分析信息包括以下的至少其中之一：批次号、测序日期、批次状态、批次质控、对照品结果、报告审核、预计完成时间和操作；

8.一种电子设备，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的用于染色体异常检测的测序数据自动化分析方法。