CN112017731A

CN112017731A - 一种数据处理方法、装置、服务器及计算机可读存储介质

Info

Publication number: CN112017731A
Application number: CN202011127700.9A
Authority: CN
Inventors: 刘小双; 孙瑜尧; 徐衔; 徐啸
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-10-20
Filing date: 2020-10-20
Publication date: 2020-12-01
Anticipated expiration: 2040-10-20
Also published as: CN112017731B

Abstract

本申请实施例提供了一种数据处理方法、装置、服务器及计算机可读存储介质，应用于医疗科技领域，该方法包括：从获取到的目标对象的SNP位点集合中确定小于目标阈值的N个目标SNP位点；基于各目标SNP位点的位点信息包括的各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组；基于预设计算规则计算各亚组的敏感度，根据各亚组的敏感度从至少一个亚组中确定目标亚组；基于目标亚组中的部分目标SNP位点的目标位点信息确定与部分目标SNP位点匹配的目标基因；对目标基因添加基因标记，提高对基因解读效率。本申请涉及区块链领域，如将添加基因标记的目标基因写入区块链以用于对基因解读等场景。

Description

一种数据处理方法、装置、服务器及计算机可读存储介质

技术领域

本申请涉及数据分析领域，可具体应用于医疗科技领域，尤其涉及一种数据处理方法、装置、服务器及计算机可读存储介质。

背景技术

目前，随着医疗研究技术的发展，对基因的解读方式也越来越多，在解读过程中，可以是对单个基因进行解读，或者是对多个基因进行解读。例如，在对多基因解读方面，可以采用多基因风险评估(polygenic risk score，PRS)方法，该方法是基于全基因组关联研究（Genome-Wide Association Studies，GWAS）数据进行研究，PRS方法可以通过GWAS数据获取基因相关数据并筛选出多个基因，并将该多个基因的累积效应进行量化，但是利用PRS方法对基因的研究数量无法保证，该PRS方法常常研究数十、数百、数千甚至更多的基因，使得对基因的解读效率比较低下。

发明内容

本申请实施例提供了一种数据处理方法、装置、服务器及计算机可读存储介质，可以确定出较为关键的基因，减少解读基因的数量，从而提高对基因的解读效率。

本申请实施例第一方面提供了一种数据处理方法，包括：

获取针对目标对象的单核苷酸多态性SNP位点集合，并从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点，所述SNP位点集合包括多个样本对应的SNP位点，所述多个样本包括实验样本和对比样本，所述N为大于1的整数；

获取所述N个目标SNP位点中各目标SNP位点的位点信息，所述位点信息包括所述各目标SNP位点对应的基因型；

基于所述各目标SNP位点对应的基因型对所述多个样本和所述N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括所述多个样本中的至少一个样本，以及所述N个目标SNP位点中的部分目标SNP位点；

基于预设计算规则计算各亚组的敏感度，并根据所述各亚组的敏感度从所述至少一个亚组中确定目标亚组；

获取所述目标亚组中的所述部分目标SNP位点的目标位点信息，并基于所述目标位点信息确定与所述目标亚组中的部分目标SNP位点匹配的目标基因；

对所述目标基因添加基因标记，所述基因标记用于指示所述目标基因与所述目标对象关联。

本申请实施例第二方面提供了一种数据处理装置，包括：

获取模块，用于获取针对目标对象的单核苷酸多态性SNP位点集合，并从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点，所述SNP位点集合包括多个样本对应的SNP位点，所述多个样本包括实验样本和对比样本，所述N为大于1的整数；

所述获取模块，还用于获取所述N个目标SNP位点中各目标SNP位点的位点信息，所述位点信息包括所述各目标SNP位点对应的基因型；

聚类模块，用于基于所述各目标SNP位点对应的基因型对所述多个样本和所述N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括所述多个样本中的至少一个样本，以及所述N个目标SNP位点中的部分目标SNP位点；

处理模块，用于基于预设计算规则计算各亚组的敏感度，并根据所述各亚组的敏感度从所述至少一个亚组中确定目标亚组；

所述获取模块，还用于获取所述目标亚组中的所述部分目标SNP位点的目标位点信息，并基于所述目标位点信息确定与所述目标亚组中的部分目标SNP位点匹配的目标基因；

添加模块，用于对所述目标基因添加基因标记，所述基因标记用于指示所述目标基因与所述目标对象关联。

本申请实施例第三方面提供了一种服务器，包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行上述第一方面的方法。

本申请实施例第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行上述第一方面的方法。

在本申请实施例中，服务器获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，进而服务器获取N个目标SNP位点中各目标SNP位点的位点信息，该位点信息包括各目标SNP位点对应的基因型，并基于各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组，进而基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组，获取目标亚组中的部分目标SNP位点的目标位点信息，基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，并对目标基因添加基因标记，可以确定出较为关键基因，减少基因解读的数量，使得后续针对该关键基因进行解读，从而提高对基因的解读效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种数据处理系统的结构示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的另一种数据处理方法的流程示意图；

图4是本申请实施例提供的一种数据处理装置的结构示意图；

图5是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

单核苷酸多态性(single nucleotide polymorphism，SNP)位点主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，是人类可遗传的变异中最常见的一种，占所有已知多态性的90%以上。SNP位点在人类基因组中广泛存在，平均每300个碱基对中就有1个，估计其总数可达300万个甚至更多。SNP位点是一种二态的标记，由单个碱基的转换或颠换所引起，也可由碱基的插入或缺失所致。SNP位点既可能在基因序列内，也可能在基因以外的非编码序列上，并且该SNP位点可以适用于筛查以及基因分型，因此本申请实施例利用SNP位点优点确定目标对象的关键基因，以进行解读研究。

本申请实施例提供一种数据处理方法，可以通过确定目标对象的较为关键的至少一个SNP位点（可以理解为致病的SNP位点），并将该较为关键的至少一个SNP位点匹配到相应的基因上，后续针对该基因进行研究解读，从而减少对基因解读的数量，提高对基因的解读效率，在具体实现中，服务器可以先获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，该SNP位点集合包括多个样本对应的SNP位点，获取该N个目标SNP位点中各目标SNP位点的位点信息，其中，该位点信息包括各目标SNP位点对应的基因型，进一步地，基于各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括多个样本中的至少一个样本，以及N个目标SNP位点中的部分目标SNP位点，并基于预设计算规则计算各亚组的敏感度，进一步服务器根据各亚组的敏感度从至少一个亚组中确定目标亚组，获取目标亚组中的部分目标SNP位点的目标位点信息，并基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，并对目标基因添加基因标记。

请参阅图1，图1为本申请实施例提供的一种数据处理系统的结构示意图。该数据处理系统包括：终端设备101和服务器102，其中：

终端设备101可以输出与目标对象关联的基因，以使得用户通过终端设备101查看与目标对象关联的基因，从而实现对与目标对象关联的基因的解读。在一种可行的实施例中，用户可以通过终端设备101输入需要研究的目标对象，该目标对象可以是某种疾病，该终端设备101可以包括但不限于智能手机、平板电脑、笔记本电脑、台式电脑、车载智能终端、智能手表等智能终端设备。

服务器102可以与终端设备101进行信息交互，服务器可以通过终端设备101获取需要研究的目标对象，根据该目标对象获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，进一步地，服务器101还可以获取N个目标SNP位点中各目标SNP位点的位点信息，其中，位点信息包括各目标SNP位点对应的基因型，该基因型可以用0，1，2进行表示，各目标SNP位点对应的基因型可以是0，1，2中的一个，其中，基因型为0表示野生，基因型为1表示杂合突变（该杂合突变是指只有一个等位基因发生突变，如该基因型为AA变为Aa），基因型为2表示为纯合突变(该纯合突变是指两个等位基因发生突变，如该基因型aa变为AA)。

在一种可行的实施例中，服务器102在获取N个目标SNP位点中各目标SNP位点的位点信息之后，服务器102基于各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括多个样本中的至少一个样本，以及N个目标SNP位点中的部分目标SNP位点，其中，该多个样本包括至少一个实验样本和至少一个对比样本，若该实验样本可以是指患目标对象的样本，则该对比样本可以是正常样本（即不患目标对象的样本）。

在一种可行的实施例中，服务器102在生成至少一个亚组后，基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组，获取目标亚组中的该部分目标SNP位点的目标位点信息，进一步基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，并对目标基因添加基因标记，以使得后续根据基因标记获取目标基因进行解读，提高对目标基因的解读效率。其中，敏感度是指每个亚组中患目标对象的概率。

在一种可行的实施例中，服务器102在对目标基因添加基因标记之后，可以通过终端设备101输出该添加有基因标记的目标基因。

请参阅图2，图2为本申请实施例提供的一种数据处理方法的流程示意图。该方法可由服务器执行，本实施例中所描述的数据处理方法，包括以下步骤：

201、获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，SNP位点集合包括多个样本对应的SNP位点。

其中，目标对象可以是某种疾病，例如癌症，上述多个样本包括实验样本和对比样本，该实验样本可以是指患目标对象的样本，该对比样本可以是正常样本（即不患目标对象的样本），目标阈值小于1，例如目标阈值可以是0.1，N为大于1的整数。

具体的，服务器可以获取针对目标对象的单核苷酸多态性SNP位点集合，并确定目标阈值后，从SNP位点集合中筛选出小于目标阈值的N个目标SNP位点。

在一种可行的实施例中，服务器可以从全基因组关联研究结果中获取针对目标对象的至少一个实验样本的基因数据和至少一个对比样本的基因数据，根据该至少一个实验样本的基因数据和至少一个对比样本的基因数据生成针对目标对象的SNP位点集合，其中，任一个实验样本的基因数据包括该任一个实验样本对应的SNP位点，任一个对比样本的基因数据包括该任一个实验样本对应的SNP位点。

在一种可行的实施例中，该多个样本中每个样本设置有标签数值，例如实验样本的标签数值为1，对比样本的标签数值对应为2，根据该标签数值可以区分实验样本和对比样本。

在一种可行的实施例中，服务器在从SNP位点集合中获取小于目标阈值的N个目标SNP位点之前，服务器可以确定SNP位点集合中的任意两个SNP位点对应的第一频率和第二频率，并判断第一频率是否大于第二频率，若第一频率大于第二的频率，则去除所任意两个SNP位点中的一个。其中，该第一频率可以是指两个SNP位点同时出现的概率或者是指两个SNP位点关联出现的概率，该第二频率可以是指两个SNP位点对应的基因随机出现（即两个SNP位点中任意一个出现）的概率，当两个SNP位点同时出现概率大于两个SNP位点对应的基因随机出现的概率，则说明该两个SNP位点对应的效应是相同的，因此可以去除任意两个SNP位点中的一个。

202、获取N个目标SNP位点中各目标SNP位点的位点信息，该位点信息包括各目标SNP位点对应的基因型。

其中，位点信息可以包括各目标SNP位点对应的基因型，基因型是指某一生物个体全部基因组合的总称，反映生物体的遗传构成。该基因型可以用0，1，2进行表示，其中，基因型为0表示野生，基因型为1表示杂合突变（该杂合突变是指只有一个等位基因发生突变，如该基因型为AA变为Aa），基因型为2表示为纯合突变(该纯合突变是指两个等位基因发生突变，如该基因型aa变为AA)。

在一种可行的实施例中，该位点信息还可以包括各目标SNP位点对应的位置信息，该位置信息用于指示各目标SNP位点处于对应基因的位置情况。

203、基于各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括多个样本中的至少一个样本，以及N个目标SNP位点中的部分目标SNP位点。

具体的，服务器可以先根据各目标SNP位点对应的基因型对N个目标SNP位点进行聚类，得到至少一个聚类集合，该任意一个聚类集合包括该N个目标SNP中的部分目标SNP位点，服务器在得到至少一个聚类集合后，根据该至少一个聚类集合中每一个聚类集合确定每一个聚类集合对应的样本，从而生成至少一个亚组，其中，任一个亚组包括多个样本中的至少一个样本，以及N个目标SNP位点中的部分目标SNP位点。需要说明的是，若一个聚类集合中包括N个目标SNP位点中的部分目标SNP位点后，其他聚类集合不再包括该聚类集合中的部分目标SNP位点。

204、基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组。

其中，该预设计算规则可以根据需求进行预先设置，该敏感度用于指示该亚组中患目标对象的概率（可以用百分比表示），并且该灵敏度越高，则表示针对该亚组中的漏诊率越低。

具体的，服务器基于预设计算规则计算出各亚组的敏感度，并根据各亚组的敏感度从各亚组中确定出敏感度最高的亚组，并将该敏感度最高的亚组作为目标亚组，以使得后续根据该目标亚组中包括的部分目标SNP位点得到与目标对象较为关键的基因。

在一种可行的实施例中，服务器基于预设计算规则计算出各亚组的敏感度的具体实现方式为分别计算各亚组包括的实验样本数量与多个样本中所有实验样本的数量的比值，并将该比值作为各亚组的敏感度。在具体实现中，各亚组中的样本设置有对应的标签数值，该标签数值用于指示实验样本和对比样本，因此，服务器可以根据数值标签统计各亚组中的实验样本数量，并分别计算计算各亚组包括的实验样本数量与多个样本中所有实验样本的数量的比值，并将该比值作为各亚组的敏感度。

在一种可行的实施例中，服务器可以基于预设计算规则计算出各亚组的特异度，根据该各亚组的特异度从至少一个亚组中确定出目标亚组，其中，该特异度用于指示亚组中正常的概率（可以用百分比表示），并且该特异度越高，则表示该误诊率较低。在具体实现中，服务器分别计算各亚组包括的对比样本数量与多个样本中所有对比样本的数量的比值，并将该比值作为各亚组特异度。

在一种可行的实施例中，进一步地，服务器可以根据各亚组的灵敏度和特异度之和从各亚组中确定灵敏度和特异度之和最高的亚组，并将灵敏度和特异度之和最高的亚组作为目标亚组。

205、获取目标亚组中的部分目标SNP位点的目标位点信息，并基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因。

具体的，服务器根据目标位点信息匹配与目标亚组中的部分目标SNP位点对应的目标基因，其中，该部分目标SNP位点匹配的目标基因可能全部不同，或者该部分目标SNP位点匹配的目标基因可以是该部分目标SNP位点中有多个SNP位点在同一个基因上。

在一种可行的实施例中，该目标位点信息包括位置信息，服务器获取目标亚组中的部分目标SNP位点的位置信息，并基于位置信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，该位置信息用于指示目标亚组中的部分目标SNP位点在对应基因上的位置，其中，在该基因上的位置可以是基因间区，基因编码区等等。

206、对目标基因添加基因标记。

其中，该基因标记用于指示目标基因与目标对象关联，该目标基因可以包括多个，并且该多个基因都为目标对象的关键基因。

具体的，服务器可以设置目标对象的标签，服务器基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因后，对目标基因添加目标对象的标签，以使得后续直接获取该添加目标对象的标签的目标基因进行研究解读，提高了对目标基因解读的效率。

在本申请实施例中，服务器获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，进而服务器获取N个目标SNP位点中各目标SNP位点的位点信息，该位点信息包括各目标SNP位点对应的基因型，并基于各目标SNP位点对应的基因型对多个样本和N个目标SNP位点进行双向聚类，生成至少一个亚组，进而基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组，获取目标亚组中的部分目标SNP位点的目标位点信息，基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，并对目标基因添加基因标记，可以确定出较为关键基因，使得后续针对该关键基因进行解读，减少了解读的基因数量，从而提高对基因的解读效率。

请参阅图3，图3为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法可由服务器执行，包括以下步骤：

301、获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，SNP位点集合包括多个样本对应的SNP位点。

在一种可行的实施例中，服务器在获取针对目标对象的单核苷酸多态性SNP位点集合之后，可以确定出目标阈值。在具体实现中，服务器确定多个假定值的参考阈值，并针对多个假定值的任一参考阈值，从SNP位点集合中获取小于参考阈值的N个SNP位点，并获取N个SNP位点中各SNP位点对应的权重，根据N个SNP位点中的各SNP位点和对应的权重进行加权求和，得到样本患目标对象的概率，服务器根据所患目标对象的概率与多个样本的标签数值确定可决定系数R方值，其中，多个样本中每个样本对应一个标签数值，进一步服务器从多个假定值的参考阈值中确定最大的可决定系数R方值对应的参考阈值，并将最大的可决定系数R方值对应的参考阈值作为目标阈值。其中，多个假定值的阈值都小于1，该阈值可以是0.01，0.1等等。

需要说明的是，本申请实施例中设置多个假定值的阈值，是为了得到较为显著的N个SNP位点，以便于后续得到目标对象中较为关键基因。

在一种可行的实施例中，服务器可以从全基因组关联研究结果中获取N个SNP位点中各SNP位点对应的权重。

在一种可行的实施例中，可以理解的是，针对多个假定值的每个参考阈值，服务器需要计算在该参考阈值下的样本患疾病的风险。在具体实现中，服务器判断SNP位点集合中每个SNP位点是否小于参考阈值，并从SNP位点集合中获取小于该参考阈值的N个SNP位点，并将小于参考阈值的N个SNP位点进行加权求和，从而得到的分值用来评估样本患疾病的风险，其中该风险用C表示：

。其中，N 是小于参考阈值条件的SNP位点数；

是第i个SNP的权重；

是SNP的基因型，该基因型的取值可以是0,1,2，分别用0,1,2表征野生，杂合突变和纯合突变。

在一种可行的实施例中，进一步地，服务器在多个假定值的参考阈值确定出每个参考阈值对应的样本患目标对象的风险C后，将每个参考阈值对应的样本患目标对象的风险C与多个样本的标签数值计算得到不同的可决定系数R方，并从不同的可决定系数R方确定出最高的可决定系数R方，进而根据最高的可决定系数R方确定出目标阈值，其中，该标签数值可以是预先设置的。

实例性地，服务器预先设置两个假定值的参考阈值，分别为参考阈值1和参考阈值2，对上述SNP位点集合中每个SNP位点判断是否小于参考阈值1或者每个SNP位点判断是否小于参考阈值2，并将小于参考阈值1的N个SNP位点进行加权求和，得到C1，将小于参考阈值2的N个SNP位点进行加权求和，得到C1。若样本数为10个（指上述多样本），则将C1与10个样本对应样本标签数值计算第一可决定系数R方值，则将C2与10个样本对应的样本标签数值计算第二可决定系数R方值，并从第一可决定系数R方值与第二可决定系数R方值确定出最高的可决定系数R方，若最高的可决定系数R方为第二可决定系数R方，根据第二可决定系数R方可以确定目标阈值为参考阈值2。

302、获取N个目标SNP位点中各目标SNP位点的位点信息，该位点信息包括各目标SNP位点对应的基因型。

303、根据各目标SNP位点对应的基因型将N个目标SNP位点进行聚类，得到至少一个聚类集合，该各聚类集合包括N个目标SNP位点中的部分目标SNP位点。

在一种可行的实施例中，服务器可以将各目标SNP位点对应的基因型相同的进行聚类，得到至少一个聚类集合。实例性地，假设有5个目标SNP位点，该5个目标SNP位点对应的基因型有0或者1，该一个目标SNP位点对应一个基因型，服务器可以根据5个目标SNP位点的基因对5个目标SNP位点进行聚类，将基因型为0的SNP位点进行聚类，得到聚类集合1，将基因型为1的SNP位点进行聚类，得到聚类集合2。进一步地，服务器根据聚类集合1确定出聚类集合1包括的SNP位点对应的样本，并根据聚类集合1和聚类集合1对应的样本得到亚组1，同理，服务器根据聚类集合2确定出聚类集合2包括的SNP位点对应的样本，并根据聚类集合2和对应的样本得到亚组2。

在一种可行的实施例中，服务器还可以是获取各目标SNP位点中任意两个目标SNP对应的基因型，并确定该任意两个目标SNP对应的基因型之间的距离，服务器根据任意两个目标SNP对应的基因型之间的距离对N个目标SNP位点进行聚类。在具体实现中，服务器针对N个目标SNP位点中任意两个目标SNP位点，确定任意两个目标SNP位点对应的基因型，并根据任意两个目标SNP位点对应的基因型确定任意两个目标SNP位点之间的距离，并判断任意两个目标SNP位点之间的距离是否满足预设距离条件，若任意两个目标SNP位点之间的距离满足预设距离条件，则将任意两个目标SNP位点进行聚类，其中，预设距离条件可以根据需求进行设置。

304、根据各聚类集合包括的部分目标SNP位点对多个样本进行聚类，确定各聚类集合对应的样本。

具体的，各聚类集合包括的部分目标SNP位点会对应样本，服务器根据该各聚类集合包括的部分目标SNP位点可以确定该各聚类集合包括的部分目标SNP位点对应的样本，从而确定出各聚类集合对应的样本。实例性地，以某个聚类集合为例，该聚类集合包括2个目标SNP位点，2个目标SNP位点分别对应样本A和样本B，服务器根据2个目标SNP位点从多个样本中确定2个目标SNP位点对应的样本。从而得到该聚类集合对应样本。

需要说明的是，该2个目标SNP位点可能会对应同一个样本，但根据各聚类集合包括的部分目标SNP位点对多个样本进行聚类，确定各聚类集合对应的样本的实现步骤不变。

305、根据各聚类集合和各聚类集合对应的样本，生成至少一个亚组。

具体的，服务器根据各聚类集合和各聚类集合对应的样本生成至少一个亚组，该任意一个亚组包括：包括多个样本中的至少一个样本，以及N个目标SNP位点中的部分目标SNP位点。

306、基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组。

307、获取目标亚组中的部分目标SNP位点的目标位点信息，并基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因。

308、对目标基因添加基因标记。

其中，基因标记用于指示目标基因与目标对象关联。

其中，上述步骤306-308的具体实现方式可参照上述实施图2中步骤204-206的实现流程。

在一种可行的实施例中，服务器可以将添加基因标记的目标基因进行功能注释，服务器可以通过真核生物蛋白相邻类的聚簇（Clusters of orthologous groups foreukaryotic complete genomes ，KOG）数据库，蛋白质直系同源簇（Clusters ofOrthologous Groups from 66 complete genomes，COG）数据库，匹配目标基因对应的功能，从而对该目标基因进行解读。进一步地，由于该目标基因为多个，可以利用通过基因组破译方面的数据库（Kyoto Encyclopedia of Genes and Genomes，KEGG）数据库，确定是否多个目标基因是否作用在同一个通路上，若多个目标基因作用在同一个通路上，服务器根据该通路可以确定目标对象的发展过程。

在本申请实施例中，服务器获取针对目标对象的单核苷酸多态性SNP位点集合，并从SNP位点集合中确定出小于目标阈值的N个目标SNP位点，进而服务器获取N个目标SNP位点中各目标SNP位点的位点信息，该位点信息包括各目标SNP位点对应的基因型，并根据各目标SNP位点对应的基因型将N个目标SNP位点进行聚类，得到至少一个聚类集合，该各聚类集合包括N个目标SNP位点中的部分目标SNP位点，进而根据各聚类集合包括的部分目标SNP位点对多个样本进行聚类，确定各聚类集合对应的样本，根据各聚类集合和各聚类集合对应的样本，生成至少一个亚组，进而基于预设计算规则计算各亚组的敏感度，并根据各亚组的敏感度从至少一个亚组中确定目标亚组，获取目标亚组中的部分目标SNP位点的目标位点信息，基于目标位点信息确定与目标亚组中的部分目标SNP位点匹配的目标基因，并对目标基因添加基因标记，可以确定出较为关键基因，减少基因解读的数量，使得后续针对该关键基因进行解读，从而提高对基因的解读效率。

请参见图4，为本申请实施例提供的一种数据处理装置的结构示意图。本实施例中所描述的数据处理装置，包括：

获取模块401，用于获取针对目标对象的单核苷酸多态性SNP位点集合，并从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点，所述SNP位点集合包括多个样本对应的SNP位点，所述多个样本包括实验样本和对比样本，所述N为大于1的整数；

所述获取模块401，用于获取所述N个目标SNP位点中各目标SNP位点的位点信息，所述位点信息包括所述各目标SNP位点对应的基因型；

聚类模块402，用于基于所述各目标SNP位点对应的基因型对所述多个样本和所述N个目标SNP位点进行双向聚类，生成至少一个亚组，任一个亚组包括所述多个样本中的至少一个样本，以及所述N个目标SNP位点中的部分目标SNP位点；

处理模块403，用于基于预设计算规则计算各亚组的敏感度，并根据所述各亚组的敏感度从所述至少一个亚组中确定目标亚组；

所述获取模块401，还用于获取所述目标亚组中的所述部分目标SNP位点的目标位点信息，并基于所述目标位点信息确定与所述目标亚组中的部分目标SNP位点匹配的目标基因；

添加模块404，用于对所述目标基因添加基因标记，所述基因标记用于指示所述目标基因与所述目标对象关联。

在一种可行的实施例中，所述从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点之前，所述处理模块403，还用于确定多个假定值的参考阈值；

所述获取模块401，还用于针对所述多个假定值的任一参考阈值，从所述SNP位点集合中获取小于所述参考阈值的N个SNP位点；

所述获取模块401，还用于获取所述N个SNP位点中各SNP位点对应的权重；

所述处理模块403，还用于根据所述N个SNP位点中的各SNP位点和对应的权重进行加权求和，得到样本患目标对象的概率；

所述处理模块403，还用于根据所述患目标对象的概率与所述多个样本的标签数值确定可决定系数R方值，所述多个样本中每个样本对应一个标签数值；

所述处理模块403，还用于从所述多个假定值的参考阈值中确定最大的可决定系数R方值对应的参考阈值，并将所述最大的可决定系数R方值对应的参考阈值作为目标阈值。

在一种可行的实施例中，所述从所述SNP位点集合中获取小于所述目标阈值的N个目标SNP位点之前，所述处理模块403，还用于：

确定所述SNP位点集合中的任意两个SNP位点对应的第一频率和第二频率；

若所述第一频率大于所述第二的频率，则去除所任意两个SNP位点中的一个。

在一种可行的实施例中，所述处理模块403，具体用于：

根据所述各目标SNP位点对应的基因型将所述N个目标SNP位点进行聚类，得到至少一个聚类集合，所述各聚类集合包括所述N个目标SNP位点中的部分目标SNP位点；

根据所述各聚类集合包括的所述部分目标SNP位点对所述多个样本进行聚类，确定所述各聚类集合对应的样本；

根据所述各聚类集合和所述各聚类集合对应的样本，生成至少一个亚组。

在一种可行的实施例中，所述处理模块403，具体用于：

针对所述N个目标SNP位点中任意两个目标SNP位点，确定所述任意两个目标SNP位点对应的基因型；

根据所述任意两个目标SNP位点对应的基因型确定所述任意两个目标SNP位点之间的距离；

判断所述任意两个目标SNP位点之间的距离是否满足预设距离条件；

若所述任意两个目标SNP位点之间的距离满足预设距离条件，则将所述任意两个目标SNP位点进行聚类。

在一种可行的实施例中，所述处理模块403，具体用于：

分别计算各亚组包括的实验样本数量与所述多个样本中所有实验样本的数量的比值，并将所述比值作为各亚组的敏感度。

在一种可行的实施例中，所述处理模块403，具体用于：

根据所述位置信息确定与所述目标亚组中的部分目标SNP位点匹配的目标基因，所述位置信息用于指示所述目标亚组中的部分目标SNP位点在对应基因上的位置。

可以理解的是，本实施例的数据处理装置的各功能模块可根据上述方法实施例图2或者图3中的方法具体实现，其具体实现过程可以参照上述方法实施例图2或者图3的相关描述，此处不再赘述。

请参阅图5，图5为本申请实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器，包括：包括：处理器501、网络接口502及存储器503。其中，处理器501、网络接口502及存储器503可通过总线或其他方式连接，本申请实施例以通过总线连接为例。

其中，处理器501（或称中央处理器（Central Processing Unit，CPU））是服务器的计算核心以及控制核心。网络接口502可选的可以包括标准的有线接口、无线接口（如WI-FI、移动通信接口等），受处理器501的控制用于收发数据。存储器503（Memory）是服务器的记忆设备，用于存放程序和数据。可以理解的是，此处的存储器503可以是高速RAM存储器，也可以是非不稳定的存储器（non-volatile memory），例如至少一个磁盘存储器；可选的还可以是至少一个位于远离前述处理器501的存储装置。存储器503提供存储空间，该存储空间存储了服务器的操作系统和可执行程序代码，可包括但不限于：Windows系统（一种操作系统）、Linux（一种操作系统）系统等等，本申请对此并不作限定。

在本申请实施例中，处理器501通过运行存储器503中的可执行程序代码，执行如下操作：

在一种可行的实施例中，所述处理器501从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点之前，还用于：

确定多个假定值的参考阈值；

针对所述多个假定值的任一参考阈值，从所述SNP位点集合中获取小于所述参考阈值的N个SNP位点；

获取所述N个SNP位点中各SNP位点对应的权重；

根据所述N个SNP位点中的各SNP位点和对应的权重进行加权求和，得到样本患目标对象的概率；

根据所述患目标对象的概率与所述多个样本的标签数值确定可决定系数R方值，所述多个样本中每个样本对应一个标签数值；

从所述多个假定值的参考阈值中确定最大的可决定系数R方值对应的参考阈值，并将所述最大的可决定系数R方值对应的参考阈值作为目标阈值。

在一种可行的实施例中，所述处理器501从所述SNP位点集合中获取小于所述目标阈值的N个目标SNP位点之前，还用于：

在一种可行的实施例中，所述处理器501，具体用于：

具体实现中，本申请实施例中所描述的处理器501、网络接口502及存储器503可执行本申请实施例提供的一种数据处理方法的流程中所描述的实现方式，也可执行本申请实施例提供的一种数据处理装置中所描述的实现方式，在此不再赘述。

本申请实施例中还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，可执行上述数据处理实施例中所执行的步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行上述数据处理方法实施例中所执行的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体（Read-Only Memory，ROM）或随机存储记忆体（Random AccessMemory，RAM）等。所述的计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

其中，本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

以上所揭露的仅为本申请一种较佳实施例而已，当然不能以此来限定本申请之权利范围，本领域普通技术人员可以理解实现上述实施例的全部或部分流程，并依本申请权利要求所作的等同变化，仍属于发明所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述SNP位点集合中确定出小于目标阈值的N个目标SNP位点之前，所述方法还包括：

确定多个假定值的参考阈值；

获取所述N个SNP位点中各SNP位点对应的权重；

3.根据权利要求1所述的方法，其特征在于，所述从所述SNP位点集合中获取小于所述目标阈值的N个目标SNP位点之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于所述各目标SNP位点对应的基因型对所述多个样本和所述N个目标SNP位点进行双向聚类，生成至少一个亚组，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述各目标SNP位点对应的基因型将所述N个目标SNP位点进行聚类，包括：

6.根据权利要求1所述的方法，其特征在于，所述基于预设计算规则计算各亚组的敏感度，包括：

7.根据权利要求1所述的方法，其特征在于，所述目标位点信息包括位置信息，所述基于所述目标位点信息确定与所述目标亚组中的部分目标SNP位点匹配的目标基因，包括：

8.一种数据处理装置，其特征在于，包括：

9.一种服务器，其特征在于，包括处理器、网络接口和存储装置，所述处理器、所述网络接口和所述存储装置相互连接，其中，所述网络接口受所述处理器的控制用于收发数据，所述存储装置用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7中任一项所述的数据处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的数据处理方法。