CN109411018A

CN109411018A - 根据基因突变信息对样本分类的方法、装置、设备及介质

Info

Publication number: CN109411018A
Application number: CN201910061006.2A
Authority: CN
Inventors: 高军晖; 王丽君; 袁卫兰; 张英霞; 龚建兵; 赵伟; 林灵
Original assignee: Shanghai Biotecan Medical Diagnostics Co ltd; Shanghai Biotecan Biology Medicine Technology Co ltd
Current assignee: Shanghai Biotecan Medical Diagnostics Co ltd; Shanghai Biotecan Biology Medicine Technology Co ltd
Priority date: 2019-01-23
Filing date: 2019-01-23
Publication date: 2019-03-01

Abstract

本发明实施例公开了一种根据基因突变信息对样本分类的方法、装置、设备及介质，所述方法包括：获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；采用所述突变基因分类集合，对各所述样本进行分类。本发明实施例的技术方案能够优化现有的基于突变基因的样本分类方式，从而提高分类准确性。

Description

根据基因突变信息对样本分类的方法、装置、设备及介质

技术领域

本发明实施例涉及信息处理技术，尤其涉及一种根据基因突变信息对样本分类的方法、装置、设备及介质。

背景技术

基因突变是指基因组DNA（脱氧核糖核酸）分子发生的突然的、可遗传的变异现象。基因在复制过程中发生错误，或者受物理的、化学的或生物的因素影响下，导致基因序列发生改变，这种基因序列改变有多种形式，比如点突变（单个碱基缺失）、多个碱基的缺失、重复或插入等。

基因突变往往会与某些疾病（例如，肿瘤）直接或者间接相关。现有技术中，可以针对不同样本的突变的基因类型，对样本，特别是患病用户的样本进行分类。目前，基于突变的基因进行样本分类的方式主要是，将样本的每个基因作为一个特征，并将每个样本的全部突变基因构成特征向量，进而通过对各个样本特征向量的聚类处理，对各个样本进行简单、直观的分类。

发明人在实现本发明的过程中，发现现有技术存在如下缺陷：现有的样本分类技术没有充分考虑基因间的复杂关系，分类方式缺乏生物学意义，分类效果差。

发明内容

本发明提供一种根据基因突变信息对样本分类的方法、装置、设备及介质，以优化现有的基于突变基因的样本分类方式，提高分类准确性。

第一方面，本发明实施例提供了一种根据基因突变信息对样本分类的方法，包括：

获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；

将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；

采用所述突变基因分类集合，对各所述样本进行分类。

第二方面，本发明实施例还提供了一种根据基因突变信息对样本分类的装置，包括：

关联基因扩充模块，用于获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；

突变基因分类集合划分模块，用于将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；

样本分类模块，用于采用所述突变基因分类集合，对各所述样本进行分类。

第三方面，本发明实施例还提供了一种计算机设备，所述计算机设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现本发明任意实施例所提供的根据基因突变信息对样本分类的方法。

第四方面，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现本发明任意实施例所提供的根据基因突变信息对样本分类的方法。

本发明实施例通过根据基因间关系图对多个待分类的样本分别对应的突变基因集合进行关联基因的扩充，以将扩充后的各突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合，从而采用突变基因分类集合对各样本进行分类，解决现有的样本分类技术存在的分类方式缺乏生物学意义及分类效果差等问题，从而优化现有的基于突变基因的样本分类方式，并提高分类准确性。

附图说明

图1a是本发明实施例一提供的一种根据基因突变信息对样本分类的方法的流程图；

图1b是本发明实施例一提供的一种基因间关系图的示意图；

图2是本发明实施例二提供的一种根据基因突变信息对样本分类的方法的流程图；

图3a是本发明实施例三提供的一种根据基因突变信息对样本分类的方法的流程图；

图3b是本发明实施例三提供的一种根据映射结果生成基因间关系图的子图示意图；

图3c是本发明实施例三提供的一种根据映射结果生成基因间关系图的子图示意图；

图4是本发明实施例四提供的一种根据基因突变信息对样本分类的装置的示意图；

图5为本发明实施例五提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。

另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作（或步骤）描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

实施例一

图1a是本发明实施例一提供的一种根据基因突变信息对样本分类的方法的流程图，本实施例可适用于根据扩充的突变基因集合对样本进行分类的情况，该方法可以由根据基因突变信息对样本分类的装置来执行，该装置可以由软件和/或硬件的方式来实现，并一般可集成在计算机设备中。相应的，如图1a所示，该方法包括如下操作：

S110、获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充。

其中，待分类的样本可以是用于进行基因研究的、体内包括突变基因的用户样本，本发明实施例并不对待分类的样本的突变基因的类型和位置进行限定。突变基因集合可以是待分类的样本的全部突变基因组成的集合。基因间关系图可以体现各基因之间的相互关系。关联基因可以是与突变基因集合中一个或多个突变基因有相互关系的突变基因。

示例性的，图1b是本发明实施例一提供的一种基因间关系图的示意图，如图1b所示，基因间关系图可以通过基因节点代表各基因，并通过各基因节点之间的连线代表各基因之间的相关关系。当两个基因节点直接存在连线时，表明两基因节点对应的两突变基因之间具有相互关系。或者，也可以根据两基因节点之间的距离来表示两基因节点对应的两突变基因之间具有相互关系。需要说明的是，图1b仅仅是一种多个基因及基因间相关关系的示意图，基因间关系图可以包括人体的全部基因以及各基因之间的相互关系。

在本发明实施例中，对样本进行分类时，可以首先获取到多个待分类的样本分别对应的突变基因集合。为了考虑各基因之间的相互作用关系，使得样本分类技术更具生物学意义，在对待分类的样本的突变基因集合进行分析之前，可以首先根据基因间关系图对各突变基因集合进行关联基因的扩充，从而建立关联基因与突变基因集合中突变基因之间的相互关系，并将基因之间的相互关系应用在样本分类技术之中。

可以理解的是，生物学基因组中各项基因之间是存在相互作用的，现有技术把一个基因作为一个单独的特征进行样本分析忽略了其他基因对该基因的影响作用，进而降低了样本分类的准确性。由此可见，通过对各突变基因集合进行关联基因的扩充，以使待分类的样本对应的突变基因集合能够包括具有相互作用关系的多种关联基因，能够使得待分类的样本对应的突变基因集合更加合理且更具有生物学意义。因此，本发明实施例所提供的根据基因突变信息对样本分类的方法优化了现有的基于突变基因的样本分类方式，进而能够提高样本分类的准确性。

在本发明的一个可选实施例中，所述待分类的样本可以包括：确诊为肿瘤病人的样本。对肿瘤病人样本进行分类，可以实现对各项肿瘤疾病的分类研究，包括但不限于致病基因定位及基因诊疗等各项医学内容的研究，从而推进肿瘤疾病的研究进展。

特别的，所述待分类的样本为确诊为同一肿瘤类型（大类）的肿瘤病人的样本。相应的，通过本发明实施例的方案，可以在同一大类的肿瘤类型下，基于医学实际情况（考虑基因之间的关联关系）更加准确的分类出多个肿瘤亚型（小类）。

在本发明的一个可选实施例中，在根据基因间关系图对各所述突变基因集合进行关联基因的扩充之前，还可以包括：查询基因间关系数据库，获取基因间关系数据；采用图计算工具对所述基因间关系数据进行处理，得到所述基因间关系图。

其中，基因间关系数据库可以用于存储各基因之间的相互关系。

在本发明实施例中，可选的，基因间关系数据库可以采用STRING数据库。STRING数据库是一个搜寻蛋白质之间相互作用的数据库，既包括蛋白质之间的直接物理相互作用，也包括蛋白质之间的间接功能相关性。STRING数据库除了包含有实验数据及从PubMed摘要中挖掘的结果和综合其他数据库数据外，还有利用生物信息学的方法预测的结果。因此，利用STRING数据库可以获取到各基因间关系数据。相应的，利用STRING数据库获取到各基因间关系数据之后，可以利用相关的图计算工具对获取的基因间关系数据进行处理，得到基因间关系图。其中，图计算工具可以是iGraph或Networkx等图计算工具包，本发明实施例并不对图计算工具的具体类型进行限定。

在本发明的一个可选实施例中，获取与至少两个待分类的样本分别对应的突变基因集合，可以包括：获取与所述待分类的样本对应的全部突变基因；查询所述基因间关系图，将所述全部突变基因在所述基因间关系图中的节点编号或者节点名称，存储于所述待分类的样本的突变基因集合中。

示例性的，如图1b所示，基因间关系图可以采用节点编号或者节点名称来表示各基因。其中，节点编号或节点名称可以根据实际需求进行设计，本发明实施例对此并不进行限制。在本发明实施例中，确定待分类的样本分别对应的突变基因集合时，可以获取每个待分类的样本对应的全部突变基因，然后根据基因间关系图查询全部突变基因对应的节点编号或节点名称，并将全部突变基因对应的节点编号或节点名称存储在各待分类的样本的突变基因集合中，从而形成待分类的样本分别对应的突变基因集合。例如，一个待分类的样本对应的突变基因集合可以是[01,02,12,66,67,68]。

S120、将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合。

其中，突变基因分类集合可以是对各突变基因集合进行合并形成并集后，进一步划分所形成的多个分类集合。一个突变基因分类集合中包括的各突变基因可以具有共性。

相应的，在根据基因间关系图对各突变基因集合进行关联基因的扩充后，即可将所有待分类的样本分别对应的扩充后的突变基因集合进行合并形成一个突变基因并集。然后根据形成的突变基因并集对各突变基因进行分类，从而形成各样本类别对应的多个突变基因分类集合。可选的，可以采用图聚类算法对突变基因并集进行分类。

S130、采用所述突变基因分类集合，对各所述样本进行分类。

在本发明实施例中，获取到各突变基因分类集合之后，即可根据各突变基因分类集合对多个待分类的样本进行分类。

本发明实施例通过根据基因间关系图对多个待分类的样本分别对应的突变基因集合进行关联基因的扩充，以将扩充后的各突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合，从而采用突变基因分类集合对各样本进行分类，解决了现有的样本分类技术存在的分类方式缺乏生物学意义及分类效果差等问题，从而优化现有的基于突变基因的样本分类方式，并提高分类准确性。

本领域技术人员可以理解的是，现有技术的方案由于仅仅考虑了待分类样本中的包括的突变基因，而没有考虑上述突变基因与其他不包括在待分类样本的基因间的相应关系，会造成很多误分类的情况，以使得最终的分类结果效果不好。典型的，样本1与样本2为同一肿瘤类型的两个肿瘤病人的突变基因集合。如果样本1中包括的突变基因为基因A与基因B，样本2中包括的突变基因为基因C以及基因D，由于样本1以及样本2中包括的突变基因全不相同，因此，在使用现有技术进行分类时，无法将上述样本1以及样本2归为一组；然而，如果基因A与基因C分别与同一个基因E具有对应关系，基因B与基因D分别与同一基因F具有对应关系，实际上样本1与样本2应该被归为一组（属于同一肿瘤亚型）。相对照的，在通过本发明实施例的技术方案进行样本分类时，由于首先获取与待分类的样本中各个基因分别对应的关联基因进行基因扩充，并在完成基因扩充后再进行的样本分类，因此，可以准确捕捉到隐性关联样本间（例如，上述例子中的样本1以及样本2）的共性，以更好的进行样本分类。

为了区别本发明实施例的分类方法与现有技术的分类方法的区别，发明人进行了如下实验：

选取TCGA（The Cancer Genome Atlas，肿瘤基因组图谱）上的项目TCGA-BLCA（BladderUrothelial Carcinoma，膀胱尿路上皮癌），这个项目的基因数据集中一共有395个BLCA样本，对应有相应的临床数据。实验目的是使用本发明实施例的方法以及现有技术方法，将上述同一癌症类型的395个BLCA样本分为4组肿瘤亚型，并通过生存曲线比较两种分类方式的分类效果。

按照现有的基于聚类分析的分类方法（这种方法无法利用基因之间的相关作用关系）和本发明实施例的分类方法（利用了网络信息中提供的基因之间的相互作用关系）分别将上述样本分成4组（与4种肿瘤亚型对应），然后使用生存曲线来比较每种分类方式中，4组样本之间的差异性。

计算结果表明，在对采用聚类分析的分类方法得到的4组样本进行差异性计算时，得到的P值（差异显著性指标）大于0.5，分类结果差异性不显著；而在对采用本发明实施例的分类方法得到的4组样本进行差异性计算时，得到的P值小于0.05，分类结果差异性显著。

就是说通过本发明实施例的方案可以正确地分出四组（肿瘤亚型）。也即：通过上述实验数据可以表明，本发明实施例提供的考虑基因之间相互关系的分类方法，更加符合医学的实际情况，具有明显的优势。

其中，TCGA计划是由美国National Cancer Institute（NCI，国家癌症研究所）和National Human Genome Research Institute（NHGRI，国家人类基因组研究所）于2006年联合启动的项目，研究的癌症类型从最开始的多形性成胶质细胞瘤（GBM，GlioblastomaMultiforme）到现在为止共有39种，涉及29种癌症器官，1万多个肿瘤样本，27万多份文件，该项目已基本完成。

实施例二

图2是本发明实施例二提供的一种根据基因突变信息对样本分类的方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了根据基因间关系图对所述突变基因集合进行关联基因的扩充的具体实现方式。相应的，如图2所示，本实施例的方法可以包括：

S210、获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充。

相应的，S210具体可以包括下述操作：

S211、在当前处理的突变基因集合中，获取一个目标突变基因。

其中，目标突变基因可以是突变基因集合中任意一个突变基因。

在本发明实施例中，可以依次处理每个待分类的样本的突变基因集合的关联基因的扩充操作。具体的，可以在当前处理的一个待分类的样本对应的突变基因集合中，获取一个目标突变基因。可选的，可以通过随机获取的方式在当前处理的突变基因集合中获取一个目标突变基因。

S212、根据所述基因间关系图，获取与所述目标突变基因关联的一个基因作为备选扩充基因。

其中，备选扩充基因可以是与目标突变基因具有相互关系的基因。需要说明的是，目标突变基因可以具有一个或多个备选扩充基因，也可以没有相应的备选扩充基因，本发明实施例对此并不进行限制。

相应的，在确定目标突变基因后，可以根据基因间关系图获取与该目标突变基因关联的一个基因作为备选扩充基因。

在本发明的一个可选实施例中，根据所述基因间关系图，获取与所述目标突变基因关联的一个基因作为备选扩充基因，可以包括：在所述基因间关系图中，获取与所述目标突变基因对应的目标基因节点；采用随机游走技术，在所述基因间关系图中选择所述目标基因节点的一个邻居基因节点；将与所述邻居基因节点对应的基因作为备选扩充基因。

具体的，可以在基因间关系图中确定目标突变基因对应的目标基因节点，如目标基因节点15，然后采用随机游走技术，在基因间关系图中选择该目标基因节点的一个邻居基因节点，并将选择的邻居基因节点对应的基因作为目标突变基因的备选扩充基因。示例性的，如果目标基因节点编号为15，其邻居基因节点编号分别为12、13和17，则可以通过随机游走技术随机选择其中一个邻居基因节点，如编号为12的邻居基因节点，并将编号为12的邻居基因节点对应的基因作为目标突变基因的备选扩充基因。需要说明的是，目标突变基因也有可能不存在有相互关系的备选扩充基因，此时重新确定目标突变基因即可。

本发明实施例通过随机游走技术选择目标突变基因和备选扩充基因，可以更有效地体现生物学意义，使得生成的突变基因集合具有更理性的效果。

S213、判断备选扩充基因是否属于当前处理的突变基因集合，若是，则执行S214，否则，执行S215。

如上所述，在确定目标突变基因的备选扩充基因后，可以判断备选扩充基因是否是当前处理的突变基因集合中的其中一个突变基因。

S214、放弃将备选扩充基因加入至所述当前处理的突变基因集合中的操作，并执行S216。

相应的，如果备选扩充基因是当前处理的突变基因集合中的其中一个突变基因，则无需重复加入该备选扩充基因，并判断当前处理的突变基因集合是否满足预设的结束扩充条件。

S215、将所述备选扩充基因加入至所述当前处理的突变基因集合中。

相应的，如果备选扩充基因不是当前处理的突变基因集合中的其中一个突变基因，则将该备选扩充基因加入至当前处理的突变基因集合中，实现对当前处理的突变基因集合的扩充。

S216、判断是否满足预设的结束扩充条件，若是，则执行S217，否则，返回执行S211。

其中，预设的结束扩充条件可以是根据实际需求所设定的结束扩充当前处理的突变基因集合的条件。例如，预设的结束扩充条件可以是当前处理的突变基因集合包括的突变基因的数量超过该突变基因集合原始突变基因的数量的20%，本发明实施例对此并不进行限制并不对预设的结束扩充条件的具体内容进行限定。

S217、结束关联基因的扩充操作。

在本发明实施例中，为了防止各待分类的样本分别对应的突变基因集合扩充过多的关联基因导致各扩充后的突变基因集合趋于一致，可以通过预设的结束扩充条件来结束当前处理的突变基因集合的扩充操作。

S220、将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合。

S230、采用所述突变基因分类集合，对各所述样本进行分类。

采用上述技术方案，通过根据基因间关系图对突变基因集合进行关联基因的扩充，以将扩充后的各突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合，从而采用突变基因分类集合对各样本进行分类，解决了现有的样本分类技术存在的分类方式缺乏生物学意义及分类效果差等问题，从而优化现有的基于突变基因的样本分类方式，并提高分类准确性。

实施例三

图3a是本发明实施例三提供的一种根据基因突变信息对样本分类的方法的流程图，本实施例以上述实施例为基础进行具体化，在本实施例中，给出了将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合，以及采用所述突变基因分类集合，对所述样本进行分类的具体实现方式。相应的，如图3a所示，本实施例的方法可以包括：

S310、获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充。

S320、将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合。

相应的，S320具体可以包括下述操作：

S321、将合并结果中的每个突变基因分别映射于所述基因间关系图中，并根据映射结果生成所述基因间关系图的至少两个子图。

在本发明实施例中，当将扩充后的各突变基因集合进行合并形成一个突变基因并集后，可以将该突变基因并集中的每个突变基因分别映射于基因间关系图中，从而根据映射结果生成基因间关系图的至少两个子图。

典型的，可以根据各种图聚类方式，生成所述基因间关系图的至少两个子图。

示例性的，图3b是本发明实施例三提供的一种根据映射结果生成基因间关系图的子图示意图，如图3b所示，假设突变基因并集为[01,05,08,12,15,20]，则将该突变基因并集中的每个突变基因分别映射于基因间关系图中时，可以生成基因间关系图的两个子图101和102。

需要说明的是，根据映射结果生成基因间关系图的子图时，还可以综合考虑基因间关系图中各基因节点之间的关系。示例性的，图3c是本发明实施例三提供的一种根据映射结果生成基因间关系图的子图示意图，如图3c所示，假设突变基因并集为[01,05,08,12,15,20,22,24,26]，将该突变基因并集中的每个突变基因分别映射于基因间关系图中时，可以生成基因间关系图的三个子图101、102和103。但是考虑到子图102中的基因节点12与子图103中的节点22之间的距离很近，也即基因节点12和基因节点22之间同样存在相互关系，则可以将子图102和子图103进行合并，形成一个子图104。

S322、根据所述至少两个子图，形成与至少两个样本类别分别对应的突变基因分类集合。

相应的，在生成基因间关系图的至少两个子图之后，即可根据生成的子图形成与至少两个样本类别分别对应的突变基因分类集合。如将生成的基因间关系图的两个子图101和102分别作为两个突变基因分类集合。

在本发明的一个可选实施例中，根据所述至少两个子图，形成与至少两个样本类别分别对应的突变基因分类集合，可以包括：如果生成的子图数量与预设的标准分类数量不匹配，则将至少一个子图进行拆分处理，和/或将至少两个子图进行合并处理，以生成与所述标准分类数量匹配的目标子图；根据所述目标子图中包括的基因节点，生成与至少两个样本类别分别对应的突变基因分类集合。

其中，标准分类数量可以是根据实际需求设定的数值，如2、3或5等，本发明实施例并不对标准分类数量的具体数值进行限定。

具体的，如果生成的子图数量与预设的标准分类数量不匹配，如子图数量多于或少于预设的标准分类数量，则可以对生成的子图根据基因节点之间的关系进行进一步的处理。例如，当子图数量少于预设的标准分类数量时，可以将生成的一个或多个子图进行拆分，从而形成标准分类数量的目标子图。当子图数量多于预设的标准分类数量时，可以将生成的一个或多个子图进行合并，从而形成标准分类数量的目标子图。对生成的子图进一步处理生成对应的目标子图后，可以根据生成的目标子图中包括的基因节点，生成与至少两个样本类别分别对应的突变基因分类集合。

S330、采用所述突变基因分类集合，对各所述样本进行分类。

相应的，S330具体可以包括下述操作：

S331、计算当前处理的样本的突变基因集合与每个所述突变基因分类集合的突变基因交集。

在本发明实施例中，在利用突变基因分类集合对各样本进行分类时，可以计算当前处理的样本的突变基因集合与每个突变基因分类集合的突变基因交集。示例性的，假设当前处理的样本的突变基因集合为[01,05,15]，两个突变基因分类集合分别为：[01,05,08]及[12,15,20]，则当前处理样本的突变基因集合与每个突变基因分类集合的突变基因交集分别为[01,05]和[15]。

S332、获取突变基因交集数量最多的一个突变基因分类集合对应的样本类别作为当前处理的样本的分类结果。

相应的，在获取到当前处理的样本的突变基因集合与每个突变基因分类集合的突变基因交集之后，即可将突变基因交集中基因节点数量最多的一个突变基因分类集合对应的样本类别作为当前处理的样本的分类结果。如上述例子中，将与突变基因集合[01,05,15]的突变基因交集为[01,05]的突变基因分类集合[01,05,08]对应的样本类别作为当前处理的，突变基因集合为[01,05,15]的样本的分类结果。

采用上述技术方案，通过根据基因间关系图对多个待分类的样本分别对应的突变基因集合进行关联基因的扩充，以将扩充后的各突变基因集合进行合并，将合并结果中的每个突变基因分别映射于基因间关系图中生成基因间关系图的多个子图，根据多个子图形成与至少两个样本类别分别对应的突变基因分类集合，并根据当前处理的样本的突变基因集合与每个突变基因分类集合的突变基因交集情况对样本进行分类，解决现有的样本分类技术存在的分类方式缺乏生物学意义及分类效果差等问题，从而优化现有的基于突变基因的样本分类方式，并提高分类准确性。

需要说明的是，以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。

实施例四

图4是本发明实施例四提供的一种根据基因突变信息对样本分类的装置的示意图，如图4所示，所述装置包括：关联基因扩充模块410、突变基因分类集合划分模块420以及样本分类模块430，其中：

关联基因扩充模块410，用于获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；

突变基因分类集合划分模块420，用于将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；

样本分类模块430，用于采用所述突变基因分类集合，对各所述样本进行分类。

可选的，所述装置还包括：

基因间关系数据获取模块，用于查询基因间关系数据库，获取基因间关系数据；

基因间关系图获取模块，用于采用图计算工具对所述基因间关系数据进行处理，得到所述基因间关系图。

可选的，关联基因扩充模块410，包括：

目标突变基因获取单元，用于在当前处理的突变基因集合中，获取一个目标突变基因；

备选扩充基因获取单元，用于根据所述基因间关系图，获取与所述目标突变基因关联的一个基因作为备选扩充基因；

备选扩充基因加入单元，用于如果所述备选扩充基因不属于所述当前处理的突变基因集合，则将所述备选扩充基因加入至所述当前处理的突变基因集合中；

返回执行单元，用于返回执行所述在当前处理的突变基因集合中，获取一个目标突变基因的操作，直至满足预设的结束扩充条件。

可选的，备选扩充基因获取单元，具体用于：

在所述基因间关系图中，获取与所述目标突变基因对应的目标基因节点；

采用随机游走技术，在所述基因间关系图中选择所述目标基因节点的一个邻居基因节点；

将与所述邻居基因节点对应的基因作为备选扩充基因。

可选的，关联基因扩充模块410，具体用于：

获取与所述待分类的样本对应的全部突变基因；

查询所述基因间关系图，将所述全部突变基因在所述基因间关系图中的节点编号或者节点名称，存储于所述待分类的样本的突变基因集合中。

可选的，突变基因分类集合划分模块420，包括：

子图生成单元，用于将合并结果中的每个突变基因分别映射于所述基因间关系图中，并根据映射结果生成所述基因间关系图的至少两个子图；

突变基因分类集合生成单元，用于根据所述至少两个子图，形成与至少两个样本类别分别对应的突变基因分类集合。

可选的，突变基因分类集合生成单元，具体用于：

如果生成的子图数量与预设的标准分类数量不匹配，则将至少一个子图进行拆分处理，和/或将至少两个子图进行合并处理，以生成与所述标准分类数量匹配的目标子图；

根据所述目标子图中包括的基因节点，生成与至少两个样本类别分别对应的突变基因分类集合。

可选的，样本分类模块430，具体用于：

计算当前处理的样本的突变基因集合与每个所述突变基因分类集合的突变基因交集；

获取突变基因交集中基因节点数量最多的一个突变基因分类集合对应的样本类别作为当前处理的样本的分类结果。

可选的，所述待分类的样本包括：确诊为肿瘤病人的样本。

上述根据基因突变信息对样本分类的装置可执行本发明任意实施例所提供的根据基因突变信息对样本分类的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，可参见本发明任意实施例提供的根据基因突变信息对样本分类的方法。

由于上述所介绍的根据基因突变信息对样本分类的装置为可以执行本发明实施例中的根据基因突变信息对样本分类的方法的装置，故而基于本发明实施例中所介绍的根据基因突变信息对样本分类的方法，本领域所属技术人员能够了解本实施例的根据基因突变信息对样本分类的装置的具体实施方式以及其各种变化形式，所以在此对于该根据基因突变信息对样本分类的装置如何实现本发明实施例中的根据基因突变信息对样本分类的方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中根据基因突变信息对样本分类的方法所采用的装置，都属于本申请所欲保护的范围。

实施例五

图5为本发明实施例五提供的一种计算机设备的结构示意图。图5示出了适于用来实现本发明实施方式的计算机设备512的框图。图5显示的计算机设备512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，计算机设备512以通用计算设备的形式表现。计算机设备512的组件可以包括但不限于：一个或者多个处理器516，存储装置528，连接不同系统组件（包括存储装置528和处理器516）的总线518。

总线518表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构（Industry StandardArchitecture，ISA）总线，微通道体系结构（Micro Channel Architecture，MCA）总线，增强型ISA总线、视频电子标准协会（Video Electronics Standards Association，VESA）局域总线以及外围组件互连（Peripheral Component Interconnect，PCI）总线。

计算机设备512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器（Random Access Memory，RAM）530和/或高速缓存存储器532。计算机设备512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质（图5未显示，通常称为“硬盘驱动器”）。尽管图5中未示出，可以提供用于对可移动非易失性磁盘（例如“软盘”）读写的磁盘驱动器，以及对可移动非易失性光盘（例如只读光盘（Compact Disc-Read Only Memory，CD-ROM）、数字视盘（Digital Video Disc-Read Only Memory，DVD-ROM）或者其它光介质）读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品，该程序产品具有一组（例如至少一个）程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组（至少一个）程序模块526的程序536，可以存储在例如存储装置528中，这样的程序模块526包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块526通常执行本发明所描述的实施例中的功能和/或方法。

计算机设备512也可以与一个或多个外部设备514（例如键盘、指向设备、摄像头、显示器524等）通信，还可与一个或者多个使得用户能与该计算机设备512交互的设备通信，和/或与使得该计算机设备512能与一个或多个其它计算设备进行通信的任何设备（例如网卡，调制解调器等等）通信。这种通信可以通过输入/输出（Input/Output，I/O）接口522进行。并且，计算机设备512还可以通过网络适配器520与一个或者多个网络（例如局域网（Local Area Network，LAN），广域网Wide Area Network，WAN）和/或公共网络，例如因特网）通信。如图所示，网络适配器520通过总线518与计算机设备512的其它模块通信。应当明白，尽管图中未示出，可以结合计算机设备512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列（Redundant Arraysof Independent Disks，RAID）系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在存储装置528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明上述实施例所提供的根据基因突变信息对样本分类的方法。

也即，所述处理单元执行所述程序时实现：获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；采用所述突变基因分类集合，对各所述样本进行分类。

实施例六

本发明实施例六还提供一种存储计算机程序的计算机存储介质，所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的根据基因突变信息对样本分类的方法：获取与至少两个待分类的样本分别对应的突变基因集合，并根据基因间关系图对各所述突变基因集合进行关联基因的扩充；将扩充后的各所述突变基因集合进行合并，并将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合；采用所述突变基因分类集合，对各所述样本进行分类。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（Read Only Memory，ROM）、可擦式可编程只读存储器（（Erasable Programmable ReadOnly Memory，EPROM）或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频（Radio Frequency，RF）等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网（LAN）或广域网（WAN）—连接到用户计算机，或者，可以连接到外部计算机（例如利用因特网服务提供商来通过因特网连接）。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种根据基因突变信息对样本分类的方法，其特征在于，包括：

采用所述突变基因分类集合，对各所述样本进行分类。

2.根据权利要求1所述的方法，其特征在于，在根据基因间关系图对各所述突变基因集合进行关联基因的扩充之前，还包括：

查询基因间关系数据库，获取基因间关系数据；

采用图计算工具对所述基因间关系数据进行处理，得到所述基因间关系图。

3.根据权利要求1所述的方法，其特征在于，根据基因间关系图对所述突变基因集合进行关联基因的扩充，包括：

在当前处理的突变基因集合中，获取一个目标突变基因；

根据所述基因间关系图，获取与所述目标突变基因关联的一个基因作为备选扩充基因；

如果所述备选扩充基因不属于所述当前处理的突变基因集合，则将所述备选扩充基因加入至所述当前处理的突变基因集合中；

返回执行所述在当前处理的突变基因集合中，获取一个目标突变基因的操作，直至满足预设的结束扩充条件。

4.根据权利要求3所述的方法，其特征在于，根据所述基因间关系图，获取与所述目标突变基因关联的一个基因作为备选扩充基因，包括：

将与所述邻居基因节点对应的基因作为备选扩充基因。

5.根据权利要求1-4任一项所述的方法，其特征在于，获取与至少两个待分类的样本分别对应的突变基因集合，包括：

获取与所述待分类的样本对应的全部突变基因；

6.根据权利要求1所述的方法，其特征在于，将合并结果划分为与至少两个样本类别分别对应的突变基因分类集合，包括：

将合并结果中的每个突变基因分别映射于所述基因间关系图中，并根据映射结果生成所述基因间关系图的至少两个子图；

根据所述至少两个子图，形成与至少两个样本类别分别对应的突变基因分类集合。

7.根据权利要求6所述的方法，其特征在于，根据所述至少两个子图，形成与至少两个样本类别分别对应的突变基因分类集合，包括：

8.根据权利要求1所述的方法，其特征在于，采用所述突变基因分类集合，对所述样本进行分类，包括：

9.根据权利要求1所述的方法，其特征在于，所述待分类的样本包括：确诊为肿瘤病人的样本。

10.一种根据基因突变信息对样本分类的装置，其特征在于，包括：

11.一种计算机设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-9中任一所述的根据基因突变信息对样本分类的方法。

12.一种计算机存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的根据基因突变信息对样本分类的方法。