CN112489729A

CN112489729A - 基因数据查询方法及装置、非易失性存储介质

Info

Publication number: CN112489729A
Application number: CN202011407630.2A
Authority: CN
Inventors: 曹银川; 李雷; 成岗; 李瑞强; 吴俊�
Original assignee: Beijing Novogene Technology Co ltd
Current assignee: Beijing Novogene Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-03-12

Abstract

本发明公开了一种基因数据查询方法及装置、非易失性存储介质。其中，该方法包括：接收用户界面上输入的查询条件；基于查询条件获取与查询对象基因上的目标区域对应的分区标识；获取目标区域中每一个位点的等位基因数之和，以及样本基因中目标区域中每一个位点参与计算的样本数目；基于等位基因数之和，以及样本数目，计算得到目标区域中每一个位点的突变频率；基于突变频率以及每一个位点在大数据平台中进行查询得到每一个位点的注释信息；在用户界面上展示任意一个位点，以及对应的突变频率和注释信息。本发明解决了现有技术中无法有效对多个跨产品的海量变异检测结果进行存储，导致无法根据用户设置的复杂查询条件进行查询的技术问题。

Description

基因数据查询方法及装置、非易失性存储介质

技术领域

本发明涉及生物基因查询领域，具体而言，涉及一种基因数据查询方法及装置、非易失性存储介质。

背景技术

随着基因测序技术的快速发展及测序成本的大幅下降，基因测序技术在癌症和遗传病等疾病的诊断，治疗和筛查等领域的应用越来越广泛，各国也越来越注重对人类健康的研究。

由于人类全基因组的长度30亿碱基，单个人的样本就能检测出数百万个基因变异。随着测序人群的不断扩大，不同表型或疾病亚型的样本越积越多，使得对某个细分人群或疾病群体进行研究来达到精准治疗成为可能。除了全基因组测序外，还有全外显子测序，以及目标区域测序等，这些不同类型的测序产品覆盖的区域不同，如何将它们的结果放在一起进行跨产品的频率计算是需要解决的问题。

现有的技术只在线上存储计算结果，因此用户无法设置复杂的查询条件来进行细分人群的查询，也无法进行跨产品的实时计算，若想满足个性化的计算需求，就需要后台人员写程序重新计算才能实现。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种基因数据查询方法及装置、非易失性存储介质，以至少解决现有技术中无法有效对多个跨产品的海量变异检测结果进行存储，导致无法根据用户设置的复杂查询条件进行查询的技术问题。

根据本发明实施例的一个方面，提供了一种基因数据查询方法，包括：接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

可选的，获取上述目标区域中每一个位点的等位基因数之和，包括：获取位于上述目标区域内每个位点的基因突变记录；按照上述目标区域内的每个位点进行聚合累加，得到每个突变的等位基因数ac，突变的样本数目sc，纯合突变样本数目，杂合的突变样本数目；按照每个位点进行聚合运算，得到每个位点的上述等位基因数之和。

可选的，获取上述样本基因中上述目标区域中每一个位点参与计算的样本数目，包括：将上述目标区域内每个位点的基因突变记录进行去重，得到所有位点列表，并计算每一个位点中用于进行上述聚合运算的产品编号；根据上述样本基因的筛选条件查找到所有的文件编号，并根据产品类型进行聚合累加，获取在预定的检索条件下每个产品应参与计算的样本数目；将每个位点的样本数目进行聚合累加，生成每一个位点参与计算的样本数目。

可选的，基于如下公式计算得到上述目标区域中每一个位点的突变频率：

其中，ac表示每一个位点的等位基因数之和，total表示样本总数，sd表示基因型缺失的样本数。

可选的，在得到每一个位点的注释信息之前，上述方法还包括：创建上述大数据平台，其中，上述大数据平台包括如下至少一个组件：Kudu数据仓库，Hive数据仓库，Spark数据仓库和Impala数据仓库；其中，上述Kudu数据仓库中存放每个样本数据的覆盖区域信息，每个基因所对应的分区编号，以及每个分区所对应的染色体坐标及其起始和终止坐标，其中，上述覆盖区域信息包括每个覆盖区域的染色体编号，起始和终止坐标；上述Hive数据仓库存放各个分区中突变位点的注释信息。

可选的，上述方法还包括：在将样本数据存入上述Kudu数据仓库时，在上述Kudu数据仓库中存放脱敏后的样本信息、分析批次、分析采用的产品编号，以及分析所得到的结果文件的编号等信息。

可选的，上述方法还包括：在将样本数据存入上述Kudu数据仓库时，将突变结果的文件ID以及对应的检测结果存放在上述Hive数据仓库中，并在存放时根据产品编号以及突变的位置所对应的基因组上的分区编号进行分区存储。

可选的，上述方法还包括：将上述将突变结果存储上述述Hive数据仓库中时，将突变位点的注释信息按照分区存放在上述Hive数据仓库中，其中，上述注释信息包括如下至少之一：突变位点对应的基因，核苷酸改变，氨基酸改变。

根据本发明实施例的另一方面，还提供了一种基因数据查询装置，包括：接收模块，用于接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；第一获取模块，用于基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；第二获取模块，用于获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；计算模块，用于基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；查询模块，用于基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；展示模块，用于在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

根据本发明实施例的另一方面，还提供了一种非易失性存储介质，上述非易失性存储介质存储有多条指令，上述指令适于由处理器加载并执行任意一项上述的基因数据查询方法。

根据本发明实施例的另一方面，还提供了一种处理器，上述处理器用于运行程序，其中，上述程序被设置为运行时执行任意一项上述的基因数据查询方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行任意一项上述的基因数据查询方法。

在本发明实施例中，通过接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息，通过有效对多个跨产品的海量变异检测结果进行存储，达到了根据用户设置的复杂查询条件进行查询的目的，从而实现了满足用户对跨产品的基因数据进行实时查询请求的技术效果，进而解决了现有技术中无法有效对多个跨产品的海量变异检测结果进行存储，导致无法根据用户设置的复杂查询条件进行查询的技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的一种基因数据查询方法的流程图；

图2是根据本发明实施例的一种可选的基因数据查询方法的流程图；

图3是根据本发明实施例的一种可选的基因数据存储的示意图；

图4是根据本发明实施例的一种基因数据查询装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种基因数据查询方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的一种基因数据查询方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；

步骤S104，基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；

步骤S106，获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；

步骤S108，基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；

步骤S110，基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；

步骤S112，在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

本申请实施例所提供的基因数据查询方法，其实质可以理解为一种基于测序数据基因位点人群频率的基因数据查询方法。可选的，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点。

作为一种可选的实施例，用户的查询条件通常但不限于包含如下部分：1)样本的筛选条件：例如，所有患肺癌的汉族男性；2)目标区域或目标位点：例如，某基因或某个染色体上的某段区域，某个转录本或某个突变。

在本申请实施例中，在用户界面中接收到查询条件之后，可以基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识ID(可能为一个或两个)，计算分子(即给定人群中特定区域中每一个位点的等位基因数之和)，再计算分母(即给定人群中特定区域中每一个位点参与计算的样本数目)，计算突变频率(即给定人群中特定区域中每一个位点的突变频率)，即基于上述目标区域中每一个位点的突变频率，将每个位点的计算结果与该位点在数据仓库中的注释信息进行联合查询，得到每个位点的注释信息，最后将位点，突变频率及注释信息输出到用户界面上。

通过本申请实施例，可以但不限于解决的是如何对多个跨产品的海量变异检测结果进行存储，例如，跨产品的大型生物数据库如何进行数据存储，如何根据用户设置的复杂检索条件进行复杂的实时计算问题。

在一种可选的实施例中，获取上述目标区域中每一个位点的等位基因数之和，包括：

步骤S202，获取位于上述目标区域内每个位点的基因突变记录；

步骤S204，按照上述目标区域内的每个位点进行聚合累加，得到每个突变的等位基因数ac，突变的样本数目sc，纯合突变样本数目，杂合的突变样本数目；

步骤S206，按照每个位点进行聚合运算，得到每个位点的上述等位基因数之和。

在上述可选的实施例中，图2是根据本发明实施例的一种可选的基因数据查询方法的流程图，如图2所示，通过查询基因gene所在分区region及坐标信息，再查询指定分区ID在目标区域内(即包含在染色体chromosome，起始及终止坐标内)，文件编号在给定的目标人群中的记录，且缺失标记不为1的位点记录；再按照位点进行聚合累加，得到每个突变的等位基因数ac，突变的样本数目sc，纯合突变样本数目(即突变等位基因数为2)，杂合的突变样本数目(即突变等位基因数为1)；最后查找指定分区ID在目标区域内(即包含在染色体，起始及终止坐标内)，文件编号在给定的目标人群中的记录，且缺失标记为1的记录，按照位点进行聚合运算，得到每个位点未覆盖的样本数目sd。

在一种可选的实施例中，获取上述样本基因中上述目标区域中每一个位点参与计算的样本数目，包括：

步骤S302，将上述目标区域内每个位点的基因突变记录进行去重，得到所有位点列表，并计算每一个位点中用于进行上述聚合运算的产品编号；

步骤S304，根据上述样本基因的筛选条件查找到所有的文件编号，并根据产品类型进行聚合累加，获取在预定的检索条件下每个产品应参与计算的样本数目；

步骤S306，将每个位点的样本数目进行聚合累加，生成每一个位点参与计算的样本数目。

在上述可选的实施例中，通过将上述目标区域内每个位点的基因突变记录进行去重后得到所有位点列表，计算每一个位点中应该参与计算的产品编号。

作为一种可选的实施例，假定pb表示产品所覆盖的bed区域，zd表示位点，那么满足以下条件的产品就是该位点需要纳入计算的产品：pb.chr＝zd.chr and pb.start<＝zd.pos and pb.`end`>＝zd.pos(该bed区域与位点的染色体编号相同，且该区域起点在突变位点之前，且终点在突变位点之后，即该位点落在该产品的某个bed区段上)。

在上述可选的实施例中，仍如图2所示，再根据样本的筛选条件找到所有的文件编号，根据产品类型进行聚合累加，就可以得到指定检索条件下每个产品应参与计算的样本数目；按照位点对样本数目进行聚合累加，可以得到每个位点应该参与计算的样本总数total(包含删除标记为1的样本)。

在一种可选的实施例中，仍如图2所示，基于如下公式计算得到上述目标区域中每一个位点的突变频率：

在一种可选的实施例中，在得到每一个位点的注释信息之前，上述方法还包括：

步骤S402，创建上述大数据平台，其中，上述大数据平台包括如下至少一个组件：Kudu数据仓库，Hive数据仓库，Spark数据仓库和Impala数据仓库；

其中，上述Kudu数据仓库中存放每个样本数据的覆盖区域信息，每个基因所对应的分区编号，以及每个分区所对应的染色体坐标及其起始和终止坐标，其中，上述覆盖区域信息包括每个覆盖区域的染色体编号，起始和终止坐标；上述Hive数据仓库存放各个分区中突变位点的注释信息。

在上述可选的实施例中，可以但不限于搭建基于Hadoop的大数据平台，包括的组件Kudu数据仓库，Hive数据仓库，Spark数据仓库，Impala数据仓库等。

并且，在本申请实施例中，具体可以使用开源的分布式数据库Apache Kudu存储样本的详细信息，使用开源的数据仓库Apache Hive来存储海量的基因变异检测结果及注释信息；使用开源的计算引擎Apache Impala来进行实时计算并返回计算结果。

为了提高存储及查询效率，并满足跨产品的实时查询请求，本申请实施例在存储时考虑了如下几点：1)数据库中存放不同产品的panel覆盖区域，在计算某个位点的频率时需要以此确定某一个产品是否参与计算；2)数据存放在数据仓库时采用分区和分桶的方式，在实时计算时先计算到分区信息，加快计算速度；3)基因检测结果存储时只存储突变位点及缺失位点(即由于覆盖深度不足或其他原因无法判断是否突变)的信息。

需要说明的是，突变位点需要存储纯合及杂合的状态，对于体细胞突变还会存放突变频率，在实时计算时会将缺失位点从计算中除去。

图3是根据本发明实施例的一种可选的基因数据存储的示意图，如图3所示，数据存储分为Kudu数据仓库(如图示的Kudu数据库)和Hive数据仓库两部分，计算引擎Impala来承担实时计算，Spark定期将常见的计算结果进行计算以备查询。数据表sample_file_product_table会存储样本信息，及它适用哪个产品，对应的文件编号等信息；gene_region_grch37主要存储基因的分区信息，查询某个基因时需要先查到分区；并且，panel_bed主要存储每个产品覆盖的区域信息，计算分母时需要用到上述区域信息；germline_snv_indel_file_GRCh37主要存储每个文件里的突变信息，由file_id与sample_file_product_table建立关联，germline_snv_indel_anno_GRCh37主要存储每个位点的注释信息，由mutation_id与germline_snv_indel_file_GRCh37建立关联；Hive数据仓库存放的这两张表都根据gene_region_grch37里的分区ID按区存放。

在一种可选的实施例中，上述方法还包括：

步骤S502，在将样本数据存入上述Kudu数据仓库时，在上述Kudu数据仓库中存放脱敏后的样本信息、分析批次、分析采用的产品编号，以及分析所得到的结果文件的编号等信息。

在本申请实施例中，可以预先在Kudu数据库中存放每个产品的覆盖区域信息，即每个覆盖区域的染色体编号，起始和终止坐标。

此外，作为一种可选的实施例，还可以预先将整个基因组进行分区，在Kudu中存储每个基因所对应的分区编号，以及每个分区所对应的染色体坐标及其起始和终止坐标。

在一种可选的实施例中，上述方法还包括：

步骤S602，在将样本数据存入上述Kudu数据仓库时，将突变结果的文件ID以及对应的检测结果存放在上述Hive数据仓库中，并在存放时根据产品编号以及突变的位置所对应的基因组上的分区编号进行分区存储。

在上述可选的实施例中，在数据入库时在Kudu数据库中存放脱敏后的样本信息，分析批次，分析采用的产品编号，以及分析所得到的结果文件的编号等信息。

需要说明的是，在本申请实施例中，通过将样本信息存放在Kudu的原因是可以方便进行修改和删除，可以修正入库时存在的问题。

在一种可选的实施例中，上述方法还包括：

步骤S702，将上述将突变结果存储上述述Hive数据仓库中时，将突变位点的注释信息按照分区存放在上述Hive数据仓库中，其中，上述注释信息包括如下至少之一：突变位点对应的基因，核苷酸改变，氨基酸改变。

在上述可选的实施例中，在将突变结果存储入库时，将突变结果的文件ID以及对应的检测结果存放在Hive数据仓库中，存放的时候根据产品编号以及突变的位置所对应的基因组上的分区编号进行分区存储，以及将突变位点的注释信息(即某突变位点对应的基因，核苷酸改变，氨基酸改变)按照分区存放在Hive数据仓库中。

作为一种可选的实施，分区存储的存储结构可以但不限于如下所示：

第一列：产品ID，即产品编码，该部分作为第一层分区；

第二列：分区ID，即该突变位点在基因组上所对应的分区编号，该部分作为第二层分区；

第三列：文件编号，必须与Kudu中存储的该文件编号对应；

第四列：染色体编号；

第五列：染色体坐标，即该突变在染色体上的起始坐标；

第六列：Ref：即在基因组上的碱基；

第七列：Alt：即突变的碱基类型。(若该位点无法判断，可写为.)；

第八列：突变型的等位基因数目(0表示未突变，1表示杂合，2表示纯合突变)；

第九列：突变频率；

第十列：标记缺失，若该位点基因型无法判断，则需要标记为1.

作为一种可选的实施例，将上述将突变结果存储上述述Hive数据仓库的存放规则，可以但不限于如下所示：在Panel的覆盖区域范围内(对于WGS也有覆盖区域，即去除参考基因组上的N区域及重复区域之后的部分)，若某个位点未发生突变(即与参考基因型一致)则无需存储，若发生突变，则需要存储一行信息。若该位点的基因型未知(可能是由于测序深度不足或其他原因)，也需要存储一行，存储时，突变的碱基型置为“.”，将缺失标记为1，也就是说对于Panel覆盖区域中的一个位点来说，如果它不在数据仓库中就一定是野生型基因。

在本申请实施例中，在一批数据入库完毕后，可以使用Spark计算引擎，将经常会查到的需求(例如全体健康人或全体癌症病人的突变频率等)计算后放在Hive数据仓库中，当用户查询时若符合该需求，则直接给出查询结果。

有两个产品覆盖的区域不同，且对于覆盖区域内有可能会有数据缺失，计算突变频率需要分别计算分子和分母。分子就是突变的等位基因数目之和，计算分母时需要考虑覆盖的产品(例如，对于B位点需要考虑两个产品)以及缺失数据的数目。

Freq＝sum(ac)/((total-dele)*2)

其中，freq表示突变频率，ac表示突变的等位基因数目，total表示该位点覆盖的总样本数，dele表示缺失数据的样本数。

A的频率：freq_A＝(0+1+2)/((4-1)*2)＝0.5

B的频率：freq_B＝(0+0+1+0+1+0+0+0+1)/((10-1)*2)＝0.167

C的频率：freq_C＝(0+1+1+0+0)/((6-1)*2)＝0.2

需要说明的是，通过本申请实施例，可以解决并给出在数据库存储不同产品的panel覆盖区域，在跨产品计算人群频率时所采用的计算方法；存储变异检测结果时，对于纯合突变，杂合突变，无突变及结果未知所采取的不同存储方式，以及计算时如何从分母中除去未知位点的数据处理方法；按照分区存储变异结果及注释结果，数据查询时先计算分区ID，再根据分区进行查询和计算。

进而通过本申请实施例所提供的基因数据查询方法，可以实现快速的自定义实时查询；数据库包含原始变异结果，适合进一步进行数据挖掘；本申请实施例可以融合不同类型的产品进行跨产品计算，适用范围广。

仍需要说明的是，本申请方案设计之初，已经过大规模数据量的测试。测试的方法，使用三个云服务器的ECS相同配置(16G8核1T硬盘)，模拟10万个wes样本量，每个样本含有10万突变位点信息及基本属性信息。通过不同查询条件的组合，得到秒级结果，符合设计之初的需求。之后经过实际生产环境的测试，稳定运行。在测试中在10万人群中查询EGFR基因上所有的突变位点，执行sql查询语句的时间约为4s左右。

实施例2

根据本发明实施例，还提供了一种用于实施上述基因数据查询方法的装置实施例，图4是根据本发明实施例的一种基因数据查询装置的结构示意图，如图4所示，上述基因数据查询装置，包括：接收模块400、第一获取模块402、第二获取模块404、计算模块406、查询模块408和展示模块410，其中：

接收模块400，用于接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；第一获取模块402，用于基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；第二获取模块404，用于获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；计算模块406，用于基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；查询模块408，用于基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；展示模块410，用于在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，例如，对于后者，可以通过以下方式实现：上述各个模块可以位于同一处理器中；或者，上述各个模块以任意组合的方式位于不同的处理器中。

此处需要说明的是，上述接收模块400、第一获取模块402、第二获取模块404、计算模块406、查询模块408和展示模块410对应于实施例1中的步骤S102至步骤S112，上述模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在计算机终端中。

需要说明的是，本实施例的可选或优选实施方式可以参见实施例1中的相关描述，此处不再赘述。

上述的基因数据查询装置还可以包括处理器和存储器，上述接收模块400、第一获取模块402、第二获取模块404、计算模块406、查询模块408和展示模块410等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元，上述内核可以设置一个或以上。存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)，存储器包括至少一个存储芯片。

根据本申请实施例，还提供了一种非易失性存储介质的实施例。可选地，在本实施例中，上述非易失性存储介质包括存储的程序，其中，在上述程序运行时控制上述非易失性存储介质所在设备执行上述任意一种基因数据查询方法。

可选地，在本实施例中，上述非易失性存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中，上述非易失性存储介质包括存储的程序。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：接收用户界面上输入的查询条件，其中，上述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；基于上述查询条件，获取与查询对象基因上的目标区域对应的分区标识；获取上述目标区域中每一个位点的等位基因数之和，以及样本基因中上述目标区域中每一个位点参与计算的样本数目；基于上述目标区域中每一个位点的等位基因数之和，以及上述样本基因中上述目标区域中每一个位点参与计算的样本数目，计算得到上述目标区域中每一个位点的突变频率；基于上述目标区域中每一个位点的突变频率，以及上述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；在上述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：获取位于上述目标区域内每个位点的基因突变记录；按照上述目标区域内的每个位点进行聚合累加，得到每个突变的等位基因数ac，突变的样本数目sc，纯合突变样本数目，杂合的突变样本数目；按照每个位点进行聚合运算，得到每个位点的上述等位基因数之和。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：将上述目标区域内每个位点的基因突变记录进行去重，得到所有位点列表，并计算每一个位点中用于进行上述聚合运算的产品编号；根据上述样本基因的筛选条件查找到所有的文件编号，并根据产品类型进行聚合累加，获取在预定的检索条件下每个产品应参与计算的样本数目；将每个位点的样本数目进行聚合累加，生成每一个位点参与计算的样本数目。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：基于如下公式计算得到上述目标区域中每一个位点的突变频率：

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：创建上述大数据平台，其中，上述大数据平台包括如下至少一个组件：Kudu数据仓库，Hive数据仓库，Spark数据仓库和Impala数据仓库；其中，上述Kudu数据仓库中存放每个样本数据的覆盖区域信息，每个基因所对应的分区编号，以及每个分区所对应的染色体坐标及其起始和终止坐标，其中，上述覆盖区域信息包括每个覆盖区域的染色体编号，起始和终止坐标；上述Hive数据仓库存放各个分区中突变位点的注释信息。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：在将样本数据存入上述Kudu数据仓库时，在上述Kudu数据仓库中存放脱敏后的样本信息、分析批次、分析采用的产品编号，以及分析所得到的结果文件的编号等信息。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：在将样本数据存入上述Kudu数据仓库时，将突变结果的文件ID以及对应的检测结果存放在上述Hive数据仓库中，并在存放时根据产品编号以及突变的位置所对应的基因组上的分区编号进行分区存储。

可选地，在程序运行时控制非易失性存储介质所在设备执行以下功能：将上述将突变结果存储上述述Hive数据仓库中时，将突变位点的注释信息按照分区存放在上述Hive数据仓库中，其中，上述注释信息包括如下至少之一：突变位点对应的基因，核苷酸改变，氨基酸改变。

根据本申请实施例，还提供了一种处理器的实施例。可选地，在本实施例中，上述处理器用于运行程序，其中，上述程序运行时执行上述任意一种基因数据查询方法。

根据本申请实施例，还提供了一种电子装置的实施例，包括存储器和处理器，上述存储器中存储有计算机程序，上述处理器被设置为运行上述计算机程序以执行上述任意一种的基因数据查询方法。

根据本申请实施例，还提供了一种计算机程序产品的实施例，当在数据处理设备上执行时，适于执行初始化有上述任意一种的基因数据查询方法步骤的程序。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如上述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

上述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取非易失性存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个非易失性存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例上述方法的全部或部分步骤。而前述的非易失性存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上上述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于基因数据的查询方法，其特征在于，包括：

接收用户界面上输入的查询条件，其中，所述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；

基于所述查询条件，获取与查询对象基因上的目标区域对应的分区标识；

获取所述目标区域中每一个位点的等位基因数之和，以及样本基因中所述目标区域中每一个位点参与计算的样本数目；

基于所述目标区域中每一个位点的等位基因数之和，以及所述样本基因中所述目标区域中每一个位点参与计算的样本数目，计算得到所述目标区域中每一个位点的突变频率；

基于所述目标区域中每一个位点的突变频率，以及所述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；

在所述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

2.根据权利要求1所述的方法，其特征在于，获取所述目标区域中每一个位点的等位基因数之和，包括：

获取位于所述目标区域内每个位点的基因突变记录；

按照所述目标区域内的每个位点进行聚合累加，得到每个突变的等位基因数ac，突变的样本数目sc，纯合突变样本数目，杂合的突变样本数目；

按照每个位点进行聚合运算，得到每个位点的所述等位基因数之和。

3.根据权利要求2所述的方法，其特征在于，获取所述样本基因中所述目标区域中每一个位点参与计算的样本数目，包括：

将所述目标区域内每个位点的基因突变记录进行去重，得到所有位点列表，并计算每一个位点中用于进行所述聚合运算的产品编号；

根据所述样本基因的筛选条件查找到所有的文件编号，并根据产品类型进行聚合累加，获取在预定的检索条件下每个产品应参与计算的样本数目；

将每个位点的样本数目进行聚合累加，生成每一个位点参与计算的样本数目。

4.根据权利要求3所述的方法，其特征在于，基于如下公式计算得到所述目标区域中每一个位点的突变频率：

5.根据权利要求1至4中任意一项所述的方法，其特征在于，在得到每一个位点的注释信息之前，所述方法还包括：

创建所述大数据平台，其中，所述大数据平台包括如下至少一个组件：Kudu数据仓库，Hive数据仓库，Spark数据仓库和Impala数据仓库；

其中，所述Kudu数据仓库中存放每个样本数据的覆盖区域信息，每个基因所对应的分区编号，以及每个分区所对应的染色体坐标及其起始和终止坐标，其中，所述覆盖区域信息包括每个覆盖区域的染色体编号，起始和终止坐标；

所述Hive数据仓库存放各个分区中突变位点的注释信息。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

在将样本数据存入所述Kudu数据仓库时，在所述Kudu数据仓库中存放脱敏后的样本信息、分析批次、分析采用的产品编号，以及分析所得到的结果文件的编号等信息。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

在将样本数据存入所述Kudu数据仓库时，将突变结果的文件ID以及对应的检测结果存放在所述Hive数据仓库中，并在存放时根据产品编号以及突变的位置所对应的基因组上的分区编号进行分区存储。

8.根据权利要求7所述的方法，其特征在于，所述方法还包括：

将所述将突变结果存储所述述Hive数据仓库中时，将突变位点的注释信息按照分区存放在所述Hive数据仓库中，其中，所述注释信息包括如下至少之一：突变位点对应的基因，核苷酸改变，氨基酸改变。

9.一种基因数据查询装置，其特征在于，包括：

接收模块，用于接收用户界面上输入的查询条件，其中，所述查询条件包括：查询对象的对象信息、基因的目标区域或目标位点；

第一获取模块，用于基于所述查询条件，获取与查询对象基因上的目标区域对应的分区标识；

第二获取模块，用于获取所述目标区域中每一个位点的等位基因数之和，以及样本基因中所述目标区域中每一个位点参与计算的样本数目；

计算模块，用于基于所述目标区域中每一个位点的等位基因数之和，以及所述样本基因中所述目标区域中每一个位点参与计算的样本数目，计算得到所述目标区域中每一个位点的突变频率；

查询模块，用于基于所述目标区域中每一个位点的突变频率，以及所述每一个位点在大数据平台中进行查询，得到每一个位点的注释信息；

展示模块，用于在所述用户界面上展示任意一个位点，以及对应的突变频率和注释信息。

10.一种非易失性存储介质，其特征在于，所述非易失性存储介质存储有多条指令，所述指令适于由处理器加载并执行权利要求1至8中任意一项所述的基因数据查询方法。

11.一种处理器，其特征在于，所述处理器用于运行程序，其中，所述程序被设置为运行时执行权利要求1至8中任意一项所述的基因数据查询方法。

12.一种电子装置，其特征在于，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行权利要求1至8中任意一项所述的基因数据查询方法。