CN113270139A

CN113270139A - 基因型和临床表型相关性分析方法及相关装置

Info

Publication number: CN113270139A
Application number: CN202110596508.2A
Authority: CN
Inventors: 李滨; 李津臣; 赵贵虎; 王峥
Original assignee: Xiangya Hospital of Central South University
Current assignee: Xiangya Hospital of Central South University
Priority date: 2021-05-28
Filing date: 2021-05-28
Publication date: 2021-08-17

Abstract

本申请公开了一种基因型和临床表型相关性分析方法及相关装置。该方法包括：当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。本申请解决了由于无法实现基因或临床表型的查询，更无法分析基因和临床表型的相关性造成的给医护人员研究分析造成了诸多不便的技术问题。

Description

基因型和临床表型相关性分析方法及相关装置

技术领域

本申请涉及基因数据分析领域，具体而言，涉及一种基因型和临床表型相关性分析方法及相关装置。

背景技术

发明人发现，数据库仅仅整合了各类基因，并未构建基因以及碱基变异和临床表型的关联关系，因此，无法实现基因或临床表型的查询，更无法分析基因和临床表型的相关性，给医护人员研究分析造成了诸多不便。

针对相关技术中无法实现基因或临床表型的查询，更无法分析基因和临床表型的相关性造成的给医护人员研究分析造成了诸多不便的问题，目前尚未提出有效的解决方案。

发明内容

本申请的主要目的在于提供一种基因型和临床表型相关性分析方法及相关装置，以解决无法实现基因或临床表型的查询，更无法分析基因和临床表型的相关性造成的给医护人员研究分析造成了诸多不便的问题。

为了实现上述目的，根据本申请的一个方面，提供了一种基因型和临床表型相关性分析方法。

根据本申请的基因型和临床表型相关性分析方法包括：当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。

进一步的，所述数据映射关系的构建包括：接收基因、碱基变异、疾病种类和患者样本数据；其中，所述患者样本数据中至少包括：基因名称、疾病名称、碱基变异及临床表型信息；给基因、疾病种类及碱基变异数据做标准化定义，得到标准化数据；基于数据间的对应关系构建所述标准化数据和所述患者样本数据之间的数据映射关系。

进一步的，当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据包括以下的一种：当接收到用户配置的第一基因数据时，根据预设的数据映射关系匹配出与所述第一基因数据对应的所有患者样本；当接收到用户配置的第一碱基变异数据时，根据预设的数据映射关系匹配出与所述第一碱基变异数据对应的所有患者样本数据；当接收到用户配置的第一临床表型数据时，根据预设的数据映射关系匹配出与所述第一临床表型数据对应的所有患者样本数据；当接收到用户配置的第一疾病数据时，根据预设的数据映射关系匹配出与所述第一疾病数据对应的所有患者样本数据。

进一步的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果包括：统计相同基因和疾病的患者样本数据中的碱基变异数量、临床表型数量及样本数量；根据统计结果和对应的标准化基因、疾病输出统计表；当接收到用户的总结请求时，输出表型总结表和每个样本的基因型和临床表型相关性分析表。

进一步的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果之前还包括：接收用户选择的指定注释数据集；基因的基本信息，如所在物理位点，参考碱基信息，变异碱基信息，变异类型，致病评分，在染色体的位置；对基因和碱基变异的注释；接收用户选择的碱基变异有害性模拟预测算法、不同人群的碱基频率、临床表型相关数据库和药物基因组学数据库。

进一步的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果还包括：接收用户的预测请求；根据用户选择的碱基变异有害性模拟预测算法进行非同义变异的计算机模拟预测，得到预测结果；根据用户选择的指定注释数据集和不同人群的基因组分析得到不同人群的等位基因频率；根据基因、表型相关数据库和药物基因组学数据库分析得到疾病以及临床表型的相关信息。

进一步的，所述碱基变异有害性模拟预测算法包括25种不同种类的算法，所述指定注释数据集包括12种可注释数据类型，所述基因、临床表型相关数据库和药物基因组学数据库有7个。

为了实现上述目的，根据本申请的另一方面，提供了一种基因型和临床表型相关性分析装置。

根据本申请的基因型和临床表型相关性分析装置包括：匹配模块，用于当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；分析模块，用于将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。

为了实现上述目的，根据本申请的另一方面，提供了一种计算机可读存储介质。

根据本申请的计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行任一项所述的基因型和临床表型相关性分析方法。

为了实现上述目的，根据本申请的另一方面，提供了一种服务器。

根据本申请的服务器包括：存储器和处理器，其特征在于，所述存储器中存储有计算机程序，其中，所述处理器被设置为运行所述计算机程序以执行上述任一项所述的基因型和临床表型相关性分析方法。

在本申请实施例中，采用预设数据映射关系的方式，通过当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果；达到了能够查询基因或临床表型，并且可以分析基因和临床表型的相关性的目的，从而实现了能够给医护人员研究分析提供诸多便利的技术效果，进而解决了由于无法实现基因或临床表型的查询，更无法分析基因和临床表型的相关性造成的给医护人员研究分析造成了诸多不便的技术问题。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，使得本申请的其它特征、目的和优点变得更明显。本申请的示意性实施例附图及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的基因型和临床表型相关性分析方法的流程示意图；

图2是根据本申请实施例的基因型和临床表型相关性分析装置的结构示意图；

图3是根据本申请优选实施例的用户交互界面示意图之一；

图4是根据本申请优选实施例的用户交互界面示意图之二；

图5是根据本申请优选实施例的用户交互界面示意图之三；

图6(A)-6(B)是根据本申请优选实施例的用户交互界面示意图之四；

图7(A)-7(B)是根据本申请优选实施例的用户交互界面示意图之五。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本申请中，术语“上”、“下”、“左”、“右”、“前”、“后”、“顶”、“底”、“内”、“外”、“中”、“竖直”、“水平”、“横向”、“纵向”等指示的方位或位置关系为基于附图所示的方位或位置关系。这些术语主要是为了更好地描述本发明及其实施例，并非用于限定所指示的装置、元件或组成部分必须具有特定方位，或以特定方位进行构造和操作。

并且，上述部分术语除了可以用于表示方位或位置关系以外，还可能用于表示其他含义，例如术语“上”在某些情况下也可能用于表示某种依附关系或连接关系。对于本领域普通技术人员而言，可以根据具体情况理解这些术语在本发明中的具体含义。

此外，术语“安装”、“设置”、“设有”、“连接”、“相连”、“套接”应做广义理解。例如，可以是固定连接，可拆卸连接，或整体式构造；可以是机械连接，或电连接；可以是直接相连，或者是通过中间媒介间接相连，又或者是两个装置、元件或组成部分之间内部的连通。对于本领域普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

根据本发明实施例，提供了一种基因型和临床表型相关性分析方法，如图 1所示，该方法包括如下的步骤S101至步骤S102：

步骤S101、当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；

根据本发明实施例，优选的，所述数据映射关系的构建包括：

接收基因、碱基变异、疾病种类和患者样本数据；其中，所述患者样本数据中至少包括：基因名称、疾病名称、碱基变异及临床表型信息；

给基因、疾病种类及碱基变异数据做标准化定义，得到标准化数据；

基于数据间的对应关系构建所述标准化数据和所述患者样本数据之间的数据映射关系。

本实施例中，从1855项研究中，整理了17738名患者的临床表型数据，以及患者对应携带的1288个基因中的8309个遗传变异。基因数据包括但不限于，剪接版本号、基因名称、基因组区域、染色体区带；碱基变异数据包括但不限于，碱基变异、碱基变异水平碱基变异的基因坐标；患者样本数据包括但不限于，基因名称、疾病名称、基因碱基变异和临床表型。基因、碱基变异、疾病种类数据通过标准化定义成标准化数据。比如：

基因名称用LAMA2、EBF3、KCNQ2等标准化符号表示；

剪接版本号用NM_000214、NM_001005463、NM_002645、NM_001040143 等标准化编号表示；

基因组区域坐标用chr1-20977000-20977900、chr2-166166936-166166938 等标准化编号表示；

染色体区带用19p13.13、10p12.32等标准化编号表示；

碱基变异的基因坐标用chr2:166243265:C:T、chr2:166231415:G:A等标准化编号表示；

疾病用Intellectual Disability、Alagille Syndrome等标准化名称表示；

碱基变异用

NM_001005463:exon7:c.625C>T、NM_001040142:exon21:c.3850-2A>C等标准化名称表示；

临床表型用Gait、Cerebellar signs、Narrow thorax等标准化名称表示。

通过标准化定义能够有效避免了由于文献跨越的年代不同，而导致不同基因组版本号的基因型信息造成的信息冗繁和混乱。

由于在患者样本数据中包含了基因名称、疾病名称、变体基因碱基变异信息及临床表型信息；如此，首先将标准化基因、碱基变异、疾病种类后得到的标准化数据和对应的基因名称、疾病名称、变体基因碱基变异信息建立关联关系，参照这个关联关系，服务器可以自动构建标准化数据和患者样本数据之间的映射关系；由于每个样本数据中包含了临床表型数据，因而标准化数据与患者样本数据的映射关系，也可以作为标准化数据和临床表型数据的映射关系；如此，当用户输入标准化基因、疾病、基因碱基变异或临床表型中任意一个关键词(查询数据)都可以依照映射关系关联出相关的患者样本数据(临床表型数据)，为基因型和临床表型相关性的分析提供保障。

优选的，根据当前最常用的基因数据版本，给基因数据做标准化定义，得到标准化基因数据，同时为应对同一个基因具有多个名字的情况，建立基因名称别名的词典；通过词典建立不同名称和标准化的基因名称的关联关系；实现无论输入什么名字均可以进行临床表型的关联及相关性分析。

根据本发明实施例，优选的，当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据包括以下的一种：

当接收到用户配置的第一基因数据时，根据预设的数据映射关系匹配出与所述第一基因数据对应的所有患者样本；

当接收到用户配置的第一碱基变异数据时，根据预设的数据映射关系匹配出与所述第一碱基变异数据对应的所有患者样本数据；

当接收到用户配置的第一临床表型数据时，根据预设的数据映射关系匹配出与所述第一临床表型数据对应的所有患者样本数据；

当接收到用户配置的第一疾病数据时，根据预设的数据映射关系匹配出与所述第一疾病数据对应的所有患者样本数据。

在本实施例中，如图3所示，用户可以输入标准化的基因符号、氨基酸序列、基因组区域编号、细胞带编号、基因坐标编号、碱基变异编号、临床表型名称、疾病名称中的任意一种作为查询数据；点击提交后，服务器根据预设的数据映射关系可以关联到包含基因符号、碱基变异编号、临床表型名称、疾病名称中任意一个数据的至少一个患者样本数据，也可以关联到包含剪接版本号、基因组区域编号、细胞带编号、基因坐标编号中任意一个数据的基因符号或碱基变异符号，再根据基因符号或碱基变异符号关联到至少一个患者样本数据。

在一些示例中，输入的是碱基变异编号、临床表型名称、疾病名称中的任意一种时，除了关联到至少一个患者样本数据外，还关联到至少一个标准化基因数据。

实现了根据映射关系关联相应的数据，从而为进一步分析提供保障。

步骤S102、将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果；

根据本发明实施例，优选的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果包括：

统计相同基因和疾病的患者样本数据中的碱基变异数量、临床表型数量及样本数量；

根据统计结果和对应的标准化基因、疾病输出统计表；

当接收到用户的总结请求时，输出表型总结表和每个样本的基因型和临床表型相关性分析表。

如图4所示，服务器关联出相应的数据(患者样本数据和/或标准化基因数据)后，将多个患者样本数据以基因、疾病分成多个种类，每个种类都分别统计出碱基变异数量、临床表型数量和种类、样本数量(患者数量)，最后每个种类均生成一条包含以上信息的记录，将所有种类组合成一张统计表；如此，实现了基因型和临床表型相关性的简单分析，从而用户可以查看该分析结果，给医护人员研究分析提供了便利。

本实施例中，如图5所示，在该统计表中还配置了总结链接，当用户点击其中的“表型总结和基因型-表型相关”时，服务器根据以上的信息进行总结，得到如图5所示的表型总结表和基因型和临床表型相关性分析表。具体地，服务器根据以上的信息可以计算每种表型在患者中的占比，将各个占比、疾病、基因符号整合成总结表。还可以计算得到每个患者的基因型和临床表型相关性分析表。如此，实现了基因型和临床表型相关性的分析，从而用户可以查看该分析结果，给医护人员研究分析提供了大大的便利。

从以上的描述中，可以看出，本发明实现了如下技术效果：

根据本发明实施例，优选的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果之前还包括：

接收用户选择的指定注释数据集；

接收用户选择的模拟预测算法、不同人群的基因组及基因、表型相关数据库。

指定注释数据集为基因的基本信息，如所在物理位点，参考碱基信息，变异碱基信息，变异类型，致病评分，在染色体的位置；如图6(A)-6(B)所示，用户可以根据实际情况通过点击标签(再次点击取消选择)，以选择不同种类的模拟预测算法，不同人群的基因组，基因、表型相关数据库；本实施例中，默认全选所有指定注释数据集；为后续的分析提供技术支撑。

优选的，所述模拟预测算法包括25种不同种类的算法，所述指定注释数据集包括12种可注释数据类型，所述基因、表型相关数据库有7个。

根据本发明实施例，优选的，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果还包括：

接收用户的预测请求；

根据用户选择的模拟预测算法进行非同义变异的计算机模拟预测，得到预测结果；根据用户选择的指定注释数据集和不同人群的基因组分析得到不同人群的等位基因频率；根据基因、表型相关数据库分析得到疾病相关信息。

如图7(A)-7(B)所示，当人员点击基因型和临床表型相关性分析表中的“详细注释”时，服务器将根据用户选择的模拟预测算法预测得到的预测结果展示至终端界面中；将根据用户选择的不同人群的基因组和指定注释数据集得到的不同人群的等位基因频率输出至终端界面中；将根据用户选择的基因、表型相关数据库得到疾病相关信息输出至终端界面中；提升了分析基因和临床表型的相关性的能力，从而给医护人员研究分析提供了便利。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

根据本发明实施例，还提供了一种用于实施上述基因型和临床表型相关性分析方法的装置，如图2所示，该装置包括：

匹配模块10，用于当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；

基因名称用LAMA2、EBF3、KCNQ2等标准化符号表示；

染色体区带用19p13.13、10p12.32等标准化编号表示；

疾病用Intellectual Disability、Alagille Syndrome等标准化名称表示；

碱基变异用

当接收到用户配置的第一碱基变异数据时，根据预设的数据映射关系匹配出与所述第一碱基变异数据对应的所有患者样本数据，；

分析模块20，用于将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。

根据统计结果和对应的标准化基因、疾病输出统计表；

从以上的描述中，可以看出，本发明实现了如下技术效果：

接收用户选择的指定注释数据集；其中，所述指定注释数据集至少包括：对基因和碱基变异的注释；

如图6(A)-6(B)所示，用户可以根据实际情况通过点击标签(再次点击取消选择)，以选择不同种类的模拟预测算法，不同人群的基因组，基因、表型相关数据库；本实施例中，默认全选所有指定注释数据集；为后续的分析提供技术支撑。

接收用户的预测请求；

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种基因型和临床表型相关性分析方法，其特征在于，包括：

当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；

将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。

2.根据权利要求1所述的基因型和临床表型相关性分析方法，其特征在于，所述数据映射关系的构建包括：

3.根据权利要求1所述的基因型和临床表型相关性分析方法，其特征在于，当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据包括以下的一种：

4.根据权利要求3所述的基因型和临床表型相关性分析方法，其特征在于，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果包括：

根据统计结果和对应的标准化基因、疾病输出统计表；

5.根据权利要求1所述的基因型和临床表型相关性分析方法，其特征在于，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果之前还包括：

接收用户选择的指定注释数据集；

对基因和碱基变异的注释；

接收用户选择的碱基变异有害性模拟预测算法、不同人群的碱基频率、临床表型相关数据库和药物基因组学数据库。

6.根据权利要求5所述的基因型和临床表型相关性分析方法，其特征在于，将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果还包括：

接收用户的预测请求；

根据用户选择的碱基变异有害性模拟预测算法进行非同义变异的计算机模拟预测，得到预测结果；根据用户选择的指定注释数据集和不同人群的基因组分析得到不同人群的等位基因频率；根据基因、表型相关数据库和药物基因组学数据库分析得到疾病以及临床表型的相关信息。

7.根据权利要求5所述的基因型和临床表型相关性分析方法，其特征在于，所述碱基变异有害性模拟预测算法包括25种不同种类的算法，所述指定注释数据集包括12种可注释数据类型，所述基因、临床表型相关数据库和药物基因组学数据库有7个。

8.一种基因型和临床表型相关性分析装置，其特征在于，包括：

匹配模块，用于当接收到用户配置的查询数据时，在预设的数据映射关系中匹配出与所述查询数据对应的目标数据；

分析模块，用于将所述查询数据和目标数据输入分析模型，得到基因型和临床表型相关性的分析结果。

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至7中任一项所述的基因型和临床表型相关性分析方法。

10.一种服务器，包括：存储器和处理器，其特征在于，所述存储器中存储有计算机程序，其中，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至7中任一项所述的基因型和临床表型相关性分析方法。