CN111383716A

CN111383716A - 基因对的筛选方法、装置、计算机设备和存储介质

Info

Publication number: CN111383716A
Application number: CN202010202966.9A
Authority: CN
Inventors: 钟嘉泳; 梁会营; 黄庆生; 高欢
Original assignee: Guangzhou Women and Childrens Medical Center
Current assignee: Guangzhou Women and Childrens Medical Center
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-07-07
Anticipated expiration: 2040-03-20
Also published as: CN111383716B

Abstract

本申请涉及一种基因对的筛选方法、装置、计算机设备和存储介质。方法包括：获取至少两个的第一基因对集合；所述第一基因对集合是利用k‑TSP算法对基因对筛选样本进行筛选得到的；各个第一基因对集合对应不同的基因对筛选样本；根据各个第一基因对集合分别构建对应的k‑TSP分类器；利用所述k‑TSP分类器，分别对所述基因对筛选样本进行筛选，得到至少两个的第二基因对集合；各个第二基因对集合对应不同的基因对筛选样本；在所述第二基因对集合中，选取出现次数达到预设值的目标基因对。采用本方法能够在使用k‑TSP算法筛选基因对时，得到噪声较小的基因对，避免出现较大噪声基因对。

Description

基因对的筛选方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机信息处理技术领域，特别是涉及一种基因对的筛选方法、装置、计算机设备和存储介质。

背景技术

最高得分对(k-Top Scores Gene Pairs,k-TSP)算法可以用于对基因进行分析，具体地，k-TSP算法将基因表达定量值转换为两个基因相对表达趋势的二进制值。使用k-TSP算法可以筛选基因对，根据筛选出来的基因对，构建基因对分类模型，k-TSP算法可以有效消除由于不同试验方案、平台和测量方法批次引起的批次效应问题；但是，将基因组合成基因对会形成了多种可能的基因对(例如，N个基因可以形成0.5N*(N-1)个基因对)，由于数据存在随机性的问题，在使用k-TSP算法筛选基因对的过程中，会产生许多导致基因对分类模型不准确的基因对，也就是会产生噪声较大的基因对，可见，传统使用k-TSP算法筛选基因对，会得到许多噪声较大的基因对。

发明内容

基于此，有必要针对上述技术问题，提供一种能够在使用k-TSP算法筛选基因对时，避免出现较大噪声基因对的基因对的筛选方法、装置、计算机设备和存储介质。

第一方面，提供一种基因对的筛选方法，包括：

获取至少两个的第一基因对集合；所述第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的；各个第一基因对集合对应不同的基因对筛选样本；

根据各个第一基因对集合分别构建对应的k-TSP分类器；

利用所述k-TSP分类器，分别对所述基因对筛选样本进行筛选，得到至少两个的第二基因对集合；各个第二基因对集合对应不同的基因对筛选样本；

在所述第二基因对集合中，选取出现次数达到预设值的目标基因对。

第二方面，提供一种基因对的筛选装置，包括：

基因对获取模块，用于获取至少两个的第一基因对集合；所述第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的；各个第一基因对集合对应不同的基因对筛选样本；

分类器构建模块，用于根据各个第一基因对集合分别构建对应的k-TSP分类器；

基因对筛选模块，用于利用所述k-TSP分类器，分别对所述基因对筛选样本进行筛选，得到至少两个的第二基因对集合；各个第二基因对集合对应不同的基因对筛选样本；

基因对选取模块，用于在所述第二基因对集合中，选取出现次数达到预设值的目标基因对。

第三方面，提供一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

根据各个第一基因对集合分别构建对应的k-TSP分类器；

第四方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

根据各个第一基因对集合分别构建对应的k-TSP分类器；

上述基因对的筛选方法、装置、计算机设备和存储介质，利用k-TSP算法对不同的基因对筛选样本进行筛选，得到至少两个第一基因对集合，然后根据第一基因对集合构建对应的k-TSP分类器，并利用构建得到的k-TSP分类器，对对应的基因对筛选样本进行筛选，得到至少两个第二基因对集合，实现了利用k-TSP算法对基因对进行层层递进筛选的过程，并且还从至少两个第二基因对集合中，根据基因对的出现次数，选取目标基因对，从而保证了使用k-TSP算法可以筛选得到噪声较小的基因对，滤除了噪声较大的基因对。

附图说明

图1为一个实施例中计算机设备的内部结构图；

图2为一个实施例中基因对的筛选方法的流程示意图；

图3为另一个实施例中基因对的筛选方法的流程示意图；

图4为一个实施例中的基因对特征；

图5为一个实施例中随机处理和非随机处理的结果示意图；

图6为一个实施例中不同特征基因对数目TRGP分类器的AUROC和平衡精度的示意图；

图7为一个实施例中特征基因对在随机森林分类器中重要性示意图；

图8为一个实施例中特征基因对的TRGP分类器的分类性能示意图；

图9为一个实施例中基因对的筛选装置的结构框图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本申请提供的基因对的筛选方法，可以应用于如图1所示的计算机设备中。在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图1所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种基因对的筛选方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图1中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，如图2所示，提供了一种基因对的筛选方法，以该方法应用于图1中的计算机设备为例进行说明，可以理解的是，该方法可以应用于服务器，可以应用于电脑等终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现；还可以理解的是，该方法可以应用于由多台计算机设备组成的集群中。在本实施例中，包括以下步骤：

步骤S202，获取至少两个的第一基因对集合；第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的；各个第一基因对集合对应不同的基因对筛选样本。

其中，基因对可以理解为由两个基因组成的一对基因，两个基因可以是不同种类的基因；每个基因对的种类可以不同，基因对的种类可以由组成的两个基因决定；根据生物体个体的差异，各个生物体针对同一个基因的基因表达值可以不同，两个基因的基因表达值可以构成基因对的基因对表达值。一个或多个基因对可以组成基因对集合，也就是说，基因对集合可以包括一个或多个基因对；基因对筛选样本可以包括多个基因对和对应的基因对表达值，多个基因对表达值可以是多个生物体的基因对表达值，各个生物体所归属的类别已知，其中，针对某一类别来说，该类别可以包括至少两个子类，生物体可以是动物或植物等生物。

以对一个基因对筛选样本进行筛选操作为例介绍具体步骤，计算机设备可以根据k-TSP算法对基因对筛选样本进行筛选，得到第一基因对集合；在本步骤中，计算机设备对至少两个基因对筛选样本进行筛选，得到对应的基因对集合，也就是说，可以得到至少两个基因对集合。其中，根据k-TSP算法对基因对筛选样本进行筛选的方式可以是，构建以k-TSP算法为基础的k-TSP分类器，然后将基因对筛选样本放入该k-TSP分类器中，该k-TSP分类器利用k-TSP算法对基因对筛选样本进行筛选，得到对应的基因对集合；进一步地，k-TSP分类器可以根据基因对筛选样本中的基因对构建得到。

需要说明的是，为区分多次筛选过程得到的基因对集合，使用第一/第二/第三基因对集合进行区分，也就是说，第一基因对集合、第二基因对集合、第三基因对集合等可以理解为是针对不同的筛选过程得到的基因对集合。

步骤S204，根据各个第一基因对集合分别构建对应的k-TSP分类器。

在本步骤中，计算机设备得到各个第一基因对集合后，根据各个基因对集合中的基因对，分别构建对应的k-TSP分类器，得到的k-TSP分类器的个数与第一基因对集合个数一样。

步骤S206，利用k-TSP分类器，分别对基因对筛选样本进行筛选，得到至少两个的第二基因对集合；各个第二基因对集合对应不同的基因对筛选样本。

先以对一个基因对筛选样本进行筛选操作为例介绍，由于在步骤S204得到的k-TSP分类器是根据第一基因对集合构建，第一基因对集合是从对应的基因对筛选样本中筛选得到的，因此，对每个基因对筛选样本来说，有其对应的k-TSP分类器。

在本步骤中，计算机设备在对其中一个基因对筛选样本进行筛选时，利用与该基因对筛选样本对应的k-TSP分类器进行筛选，得到对应的第二基因对集合；本步骤中，当计算机设备对不同的基因对筛选样本进行筛选时，可以得到对应的第二基因对集合，也就是得到至少两个第二基因对集合。

步骤S208，在第二基因对集合中，选取出现次数达到预设值的目标基因对。

针对同一个基因对来说，可以出现在多个第二基因对集合中，也就是说，多个第二基因对集合可以包含同一个基因对，故，基因对的出现次数可以理解为包含有该基因对的第二基因对集合的个数。另外，在基因对筛选样本的个数是确定的情况下，第二基因对集合的个数也是确定的，此时，基因对的出现次数可以理解为基因对在多个第二基因对集合中出现的重复率。

本步骤中，计算机设备获取预设值，判断基因对的出现次数是否达到预设值，当基因对的出现次数达到预设值时，选取该基因对，并将该基因对作为目标基因对。进一步地，计算机设备在判断基因对的出现次数是否达到预设值的方式，可以是通过对基因对进行排序的方式进行判断，具体地，计算机设备根据基因对的出现次数，对基因对进行排序，将达到预设值的基因对挑选出来，作为目标基因对。其中，根据预设值的不同，选取的基因对个数也不同，也就是说，目标基因对的个数可以是多个。另外，当基因对的出现次数理解为重复率时，预设值可以是百分数，例如10％。

上述基因对的筛选方法中，利用k-TSP算法对不同的基因对筛选样本进行筛选，得到至少两个第一基因对集合，然后根据第一基因对集合构建对应的k-TSP分类器，并利用构建得到的k-TSP分类器，对对应的基因对筛选样本进行筛选，得到至少两个第二基因对集合，实现了利用k-TSP算法对基因对进行层层递进筛选的过程，并且还从至少两个第二基因对集合中，根据基因对的出现次数，选取目标基因对，从而保证了使用k-TSP算法可以筛选得到噪声较小的基因对，滤除了噪声较大的基因对，避免了出现较大噪声的基因对。

在一个实施例中，生物体的基因对可以是来源于疾病类型已知的生物体的基因对，疾病类型已知生物体可以理解为病例，也就是说，在由多个病例的基因对组成的基因对样本中，基因对样本包括的类别由这些病例的类别组成，每个病例在基因对样本中有其对应的类别。本实施例中，可以通过随机抽取方式获取基因对筛选样本；具体地，计算机设备将获取到多个病例的基因对作为基因对样本，其中，计算机设备获取病例的方式可以是，从网上公开的数据库中获取病例，也可以是操作人员输入相关病例；进一步地，计算机设备在得到基因对样本后，可以获取预先设定的抽取个数，按照该抽取个数对基因对样本进行至少两次的随机抽取处理，得到至少两个基因对筛选样本，其中，计算机设备按照抽取个数，对基因对样本进行随机抽取处理的方式可以是，计算机设备从基因对样本中随机抽取个数与抽取个数对应的病例的基因对，将被抽取到的多个病例的基因对作为基因对筛选样本；计算机设备对基因对样本进行一次的随机抽取处理，可以得到一个对应的基因对筛选样本，可以理解的是，当计算机设备对基因对样本进行至少两次随时抽取处理时，可以得到与不同次数对应的基因对筛选样本，也就是得到至少两个基因对筛选样本。可以理解的是，当基因对样本包括的病例个数已经确定时，抽取个数可以理解为抽取比例，如80％。

本实施例中，由于基因对筛选样本是从基因对样本中随机抽取得到，因此，在步骤S202中介绍到的k-TSP分类器可以是根据基因对样本中的基因对构建得到的分类器。

在本实施例中，对同一个基因对样本进行至少两次的随机抽取处理，得到至少两个基因对筛选样本，进一步降低了出现较大噪声的基因对的概率。

在一个实施例中，当基因对筛选样本中存在针对同一个类别的至少两个子类时，可以按照子类对基因对筛选样本进行分类、筛选，得到第一基因对集合，以避免因不同子类的样本占比不一致出现样本分类不平衡，导致筛选得到的基因对偏向某一类别的问题。具体地，计算机设备可以根据子类对基因对筛选样本进行分类，得到对应的子类筛选样本，子类筛选样本的个数与子类的个数对应，也就是说，当子类的个数为至少两个时，子类筛选样本的个数也是至少两个；计算机设备利用k-TSP算法，分别对各个子类筛选样本进行筛选，得到与不同子类筛选样本对应的基因对子集，然后将得到的基因对子集进行合并，得到第一基因对集合。

其中，计算机设备利用k-TSP算法，分别对各个子类筛选样本进行筛选也可以是通过构建以k-TSP算法为基础的k-TSP分类器进行筛选，构建k-TSP分类的基因对可以是基因对筛选样本。进一步地，如果基因对筛选样本是从基因对样本中随机抽取得到，那么构建k-TSP分类的基因对可以是基因对样本的基因对。

为更清楚、完整地介绍上述实施例的基因对的筛选方法，现结合以下内容介绍上述实施例。其中，基于相对表达分析原理的k-TSP方法和层次递进、多次出现的筛选方法，可以筛选出噪声较小的目标基因对。具体地可以包括：

从美国Gene Expression Omnibus(GEO)数据库中，收集808个KD(川崎病)病例和FI(普通发热感染疾病)病例，FI病例包括DB(细菌性感染，Define Bacterial infection)病例和DV(病毒性感染，Define Viral infection)病例，将病例分为三组：发现数据集、验证数据集1和验证数据集2；其中，发现数据集相当于上述实施例中的基因对样本，该发现数据集由数据集GSE73461组成，包括78个KD病例、52个DB病例和94个DV病例，一共有224个病例；验证数据集1和验证数据集2用于后续对基于目标基因对构建的分类器的分类性能进行验证，验证数据集1由数据集GSE73462，数据集GSE73463[Wright,2018#350]组成，包括146个KD病例、23个DB病例和28个DV病例；验证数据集2由数据集GSE48498[Ogihara,2014#351]，数据集GSE16797[Ogata,2009#356]，数据集GSE68004[Jaggi,2018#349]，数据集GSE40396[Hu,2013#690]，数据集GSE38900[Mejias,2013#442],数据集GSE22098[Berry,2010#688]组成，包括118个KD病例、64个DB病例和205个DV病例。上述九个数据集(GSE73461、GSE73462、GSE73463、GSE48498、GSE16797、GSE68004、GSE40396、GSE38900和GSE22098)的信息如表1所示：

表1.数据集

其中，在收集上述808个KD病例和FI病例时，可以基于以下标准进行收集：(1)KD、DV和DB的儿童；(2)处于KD或感染急性期且未接受治疗的；(3)具有全血表达谱数据的，其中包含每个基因的表达强度。基于上述标准，在收集得到808个病例中，包括342个KD病例，139个DB病例和327个病例DV。

另外，为了消除重复数据的出现，可以使用相同的芯片平台检查了原始数据。对于从Affymetrix平台GPL570获取的数据，可以下载其原始芯片数据格式(.cel文件)，并使用R软件包affy(1.58.0版)进行处理。对于从Illumina平台GPL10558，GPL6947，GPL6884积累的数据，可以下载原始数据并使用R软件包limma(版本3.38.3)进行处理。在基因注释中，可以过滤未注释的探针集以及映射到多个基因的探针集。如果将多个探针集映射到同一基因，则最高平均强度探针集将保留在数据中，并代表基因表达值。可以从上述九个数据集中一共提取16004个共有的基因，用于后续分析。

将发现数据集中的224个病例作为基因对样本，这些病例包括与KD病例和FI病例有关的公开基因表达值，其中，FI病例由DB子类和DV子类的病例组成。

如图3A所示，对发现数据集(即基因对样本)进行重复10000次的随机采样操作，得到10000个不同的发现数据集，对每个发现数据集按8：2的比例分为训练数据(可以理解为基因对筛选样本)和测试数据(可以理解为基因对测试样本)；具体地，按照80％的抽取比例，从包含224个病例的发现数据集中，随机抽取80％病例的基因对，作为训练数据，该训练数据包括KD病例和FI病例，故也可以称为KD vs.FI训练数据，并重复10000次，得到10000个训练数据；将发现数据集剩下的20％病例的基因对作为测试数据，用于评估目标基因对的分类性能。

结合图3B中的得分最高的基因对的筛选步骤，以对一个KD vs.FI训练数据进行筛选操作为例进行介绍：

1、获取基因对子集：将该训练数据划分为KD vs.DB和KD vs.DV两个子类筛选样本，并根据发现数据集包括的基因对，构建以k-TSP算法为基础的第一个k-TSP分类器，利用该第一个k-TSP分类器分别对上述两个子类筛选样本进行筛选，得到分别和两个子类筛选样本对应的两个基因对子集，该基因对子集可以由前100个得分最高基因对组成；其中，由于发现数据集是从收集到的808个病例中选出来的，因此，第一个k-TSP分类器可以根据808个病例包括的基因对构建，也就是可以根据上述九个数据集的基因对构建；

2、获取第一基因对集合：合并两个包括100个基因对的基因对子集，得到合并后的第一基因对集合，此时，该第一基因对集合包括200个基因对；如果两个基因对子集包括的基因对有重复出现的情况，则第一基因对集合的基因对个数可以少于两个基因对子集的基因对总和，即可以少于200个。

3、获取第二基因对集合：根据第一基因对集合中的基因对，构建第二个k-TSP分类器，利用该第二个k-TSP分类器，对KD vs.FI训练数据进行筛选，得到第二基因对集合，该第二基因对集合可以由筛选得到的前100个得分最高的基因对组成。

其中，在获取基因对子集的步骤中，可以使用k-TSP算法的R开发包SwitchBox软件包(版本1.12.0)，把Wilcoxon秩(威尔科克森符号秩)和算法作为过滤功能实现。

以上为对一个KD vs.FI训练数据进行筛选的方法，可以按照该方法对剩余的9999个训练数据进行同样的筛选操作，因此，最终可以得到10000组第二基因对集合。

接着进入如图3C所示的基因对重复性排序的步骤中，对10000个第二基因对组合中的基因对进行重复性排序，具体地，根据基因对在这10000组第二基因对集合中的重复概率(即出现次数)，选取重复概率大于1％(即0.1)的基因对，可以得到60个基因对的重复概率大于1％，将该60个基因对作为目标基因对。

使用k-TSP算法[Geman，2004#304；Tan，2005#306]筛选基因对，可以将基因表达值转换为基因对的二进制值(如果Gene _i>Gene_j的表达，则为1，否则为0)。基于基因对的方法具有减少平台偏倚和潜在批次效应的优点，并且对保留基因顺序的任何数据处理均具有鲁棒性。

为了粗略评估排名靠前的基因对的分类效果，可以使用Rtsne(0.15版)R包进行了t-分布随机邻居嵌入(t-SNE)聚类，设置参数复杂系数perplexity为60和theta为0.5。

为了研究目标基因对与差异表达基因(DEG)之间的相关性，可以使用limma程序包(版本3.38.3)从发现数据集数据中的KD vs.FI分析两组间的差异基因DEG。然后，可以使用三角形和正方形符号表示排名最高的基因对，并绘制了差异基因表达倍数变化(对数坐标比例)和检测p值(对数坐标比例)的重叠火山图，得到如图4所示的图。在图4中，表示了60个排名最高的基因对特征。图4A：显示10000个训练数据中基因对的重复率和平均得分。每个点代表一个基因对，虚线是阈值线，重复率为0.1，后面选择重复率大于0.1的基因对作为目标基因对。图4B：使用60个排名靠前的基因对进行无监督t-SNE分类。图4C：差异表达基因(发现数据集合中的KD vs.FI的基因)与60个排名靠前的基因对的重叠，Gene_i(三角形)和Gene_j(正方形)分别代表基因对左侧和右侧的基因。

发现数据集可以是从GSE73461(表1)中收集的78例KD和146例FI，FI中包含94例DV和52例DB儿童期患者(表1)。在这个发现数据集中，依据图3A-图3C的步骤，可以得到多个得分最高的基因对，大多数基因对的重复概率均小于0.01，而其中有60个左右的基因对的重复概率均超过1％，且这些基因对的平均得分约为0.53(图4A，表2)。这60个基因对被标记为排名最高的基因对，t-SNE图的分析显示了它们能够并为有效分类KD和FI提供了足够的效能(图4B)。而且发现的60个基因对特征是具有生物学相关性的。发现数据集中排名最高的60个基因对(Gene_i>Gene_j)中的基因与在KD与FI之间的差异基因DEG重叠，几乎所有Gene_i都是上调基因，而Gene_j都是下调基因(图4C)。

表2.60个排名最高的目标基因对

在另一个应用场景中，为了测试目标基因对是否可以仅通过随机机会来生成，可以实施置换测试，其中随机混淆基因符号和基因表达值。将生成的10,000个随机发现数据集，按照对一个KD vs.FI训练数据进行筛选操作的方法筛选最高得分基因对，然后对通过随机机会得到的基因对和目标基因对的得分进行比较，还可以对分别以这两种基因对构建的分类器的预测性能进行比较。

在该应用场景中，表明排序最高的基因对不是随机产生的。结合图5说明该应用场景的结果。其中图5表明了随机发现数据集得到随机基因对的分类性能较差。图5A的密度图显示了随机基因对和非随机基因对(相当于目标基因对)的得分分布。P值显示了两种类型基因对的得分Kolmogorov-Smirnov检验分布，具有显著差异性，非随机基因对的分类性能得分明显高于随机基因对。图5B：在10000个训练数据中用于训练k-TSP分类器的随机和非随机基因对的数量。图5C和图5D：随机和非随机的k-TSP分类器训练数据和测试数据中的AUROC，平衡精度预测性能。在箱形图5C中，水平线、箱形边缘、晶须、圆点分别表示：中位数、四分位数范围、95％百分位数范围、离群值。

具体地，来自随机发现数据集的基因对得分0.35(95％CI，0.25-0.42)显著小于来自非随机的基因对得分0.57(95％CI，0.41-0.70)(p<0.0001，两样本Kolmogorov-Smirnov测试)(如图5A所示)。得分较高的基因对可能具有更好的预测性能。在随机训练数据中开发的k-TSP分类器的基因对数量也比非随机训练数据中的基因对数量大(图如3B所示)。此外，该应用场景还表明，通过随机机会得到的随机训练数据和随机测试数据中的k-TSP分类器的AUROC从0.98降低到0.48，而在非随机的发现数据集中，训练数据和测试数据中的k-TSP分类器的AUROC则从0.95至0.89。这些结果表明，从非随机的数据中识别出的得分最高的基因对比在随机的数据中更健壮，具有更好的分类效果。

应当理解的是，上述应用实例为本申请基因对的筛选方法的其中应用之一，目的在于筛选出噪声较小的目标基因对；本申请基因对的筛选方法可以是科研人员或者从事基因研究的公司通过控制计算机设备运行与该方法对应的计算机程序实现。另外，上述实施例方法得到的目标基因对还可以用于构建分类器，而通过构建的分类器可以对传统的分类器的分类性能进行验证。

在一个实施例中，在每个基因对测试样本中，第一基因的第一基因表达值和第二基因的第二表达值可以不同；第一基因和第二基因可以组成一个基因对，该基因对可以包括第一基因表达值和第二基因表达值；计算机设备在得到目标基因对后，可以进一步筛选特征基因对，特征基因对用于确定基因对测试样本的第一基因表达值和第二基因表达值，具体地，计算机设备利用基因对样本，对目标基因对进行AUROC(Area Under the ReceiverOperating characteristic Curve)评估，根据AUROC评估的评估结果，从目标基因对中选取作为特征基因对的基因对；然后从基因对测试样本中，确定与特征基因对对应的基因对，并获取该基因对包括的第一基因表达值和第二基因表达值，然后对第一基因表达值和第二基因表达值的相对大小进行比较，将该基因对归入基因对样本中的其中的一个类别，相当于把该基因对测试样本的特征基因对归入该类别中。当基因对测试样本包括多个病例时，由于每个病例的第一基因表达值和第二基因表达值的相对大小情况有所不同，因此针对每个病例来说，基因对所归入的类别可以不同，相当于特征基因对归入的类别可以不同。需要说明的是，为区分使用其他方式对目标基因对进行处理得到的特征基因对，可以用第一/第二/第三特征基因对进行区分，在本实施例中，使用AUROC评估对目标基因对进行处理得到的特征基因对，可以称为第一特征基因对。

本实施例中，进一步对目标基因对进行筛选，得到特征基因对，并根据对应的第一基因表达值和第二基因表达值的相对大小，确定第一基因和第二基因的类别，能得到噪声更小的特征基因对，更准确地对第一基因和第二基因进行分类。

进一步地，当对目标基因对进行AUROC评估后，根据评估结果得到多个第一特征基因对时，从基因对测试样本中可以获取到多个第一特征基因对，并且根据第一基因表达值和第二基因表达值的相对大小，对每个第一特征基因对进行分类，得到每个第一特征基因对的类别，在这些多个类别中，选取出现次数最多的类别，将基因对测试样本归入该选取的类别中。

当存在多个第一特征基因对时，结合多组类别，可以将基因对测试样本归入对应的类别中，将归入的类别和基因对测试样本的实际类别进行比较，进而验证根据第一基因表达值和第二基因表达值的相对大小进行分类的性能。

在一个应用场景中，以Gene_i和Gene_j分别作为第一基因和第二基因对本实施例的方法进行介绍：

在本应用场景中，第一特征基因对可以从目标基因对中选取，使用发现数据集(可以理解为基因对样本)上的AUROC来评估不同基因对的TRGP分类器的分类性能，确定最佳使用的特征基因对。还可以使用平衡精度和AUROC共同选取第一特征基因对。

可以使用第一特征基因对，开发一个可以达到对基因对进行投票效果的分类器，可以称为TRGP(Top-Ranked Gene Pairs)分类器。对基因对进行投票可以理解为：在一个由Gene_i和Gene_j组成的基因对p_ij中，如果Gene_i的表达值>Gene_j的表达值，那么在对KD类别下加一分，反之，则对FI类别下减一分；其中，对KD类别下加一分，可以理解为将该基因对p_ij归入KD类别中，对FI类别下减一分，可以理解为将该基因对p_ij归入FI类别中。对基因对进行投票可以用公式：

表示。当存在N个第一特征基因对时，TRGP分类器可以根据每个第一特征基因对的投票情况，得到KD类别和FI类别的得分，并计算分类得分，根据分类得分(Classification Score)将基因对测试样本归入对应个类别中，其中分类得分可以通过公式

计算，其中，分子表示将KD类别和FI类别的得分进行相加，分母表示第一特征基因对的个数，相当于投票的总票数。通过该公式计算分类得分时，如果分类得分为0，则表征KD类别和FI类别的分类边界阈值，当分类得分大于0时，则将基因对测试样本归入KD类别中，当分类得分小于0时，将基因对测试样本归入FI类别中，然后将所归入的类别和基因对测试样本的实际类别进行比较，验证基于对基因对进行投票开发的分类器的分类性能，也就是说，可以验证根据Gene_i的表达值和Gene_j的表达值相对大小进行分类的性能，当所归入的类别和实际类别一致时，说明根据Gene_i的表达值和Gene_j的表达值相对大小进行分类的性能符合要求。

在一个实施例中，计算机设备在得到目标基因对后，利用基因对样本，对目标基因对进行十倍交叉验证处理，从目标基因对中选取得到第二特征基因对；从基因对测试样本中，获取与第二特征基因对对应的基因对表达值；根据机器学习算法，对基因对表达值进行处理，得到基因对测试样本的类别。其中，机器学习算法可以是LDA((linear discriminantanalysis)算法、SVM(Support Vector Machine)算法和随机森林(Random forest)算法中的至少一种，每种机器学习算法可以构建对应的分类器，即：LDA分类器、SVM分类器和随机森林分类器，根据通过构建的分类器对基因对表达值进行处理，得到基因对测试样本的类别。

进一步对上述实施例中SVM分类器和随机森林分类器的构建进行具体介绍：

通过十倍交叉验证方法，确定与每个机器学习算法对应的分类器的第二特征基因对。LDA模型中，使用60个基因对特征获得最佳的效果。可以使用caret(v6.0.84)程序包中的线性SVM函数来鉴定SVM分类器必需的基因对，然后通过e1071(版本1.7.1)程序包构建和SVM算法对应的SVM分类器。可以使用Boruta(版本)R包(版本6.0.0)识别随机森林分类器必需的基因对，然后通过randomForest(版本4.6.14)R包构建和随机森林算法对应随机森林分类器。在上述实施例中，可以利用发现数据集，验证数据集1和验证数据集2，对TRGP分类器、LDA分类器、SVM分类器和随机森林分类器的分类性能，分类性能包括敏感性、特异性、准确性和AUROC。敏感性定义为在所有实际KD患者中正确预测的KD比例，而特异性定义为在所有实际FI患者中FI的比例。准确度定义为正确识别的所有KD和FI患者的比例。平衡精度等于KD预测精度和FI预测精度的平均值。还可以使用pROC软件包(版本1.14.0)分析排名最高的基因对分类器，并在三个数据集中计算了AUROC。

为了使用排名靠前的60个基因对特征获得最佳的KD与FI疾病分类预测性能，分别构建了TRGP分类器、LDA分类器、SVM分类器和随机森林分类器。然后，在两个独立的验证数据集中评估了排名最高的基因对和分类器的分类性能(如图3D所示)，其中包括验证数据集1(GSE73462，GSE73463)和验证数据集2(GSE40396，GSE48498，GSE16797，GSE38900，GSE22098)。

在建立TRGP分类器时候，根据发现数据集中工作特征曲线下面积(AUROC)和平衡精度指标，从60个排名最高的基因对中选择前7个基因对(表3)作为诊断特征时，TRGP分类器在发现数据集中获得最佳性能，AUROC为0.95和平衡精度为0.86(图6)。而增加或减少分类器的基因对数量并不能改善预测性能，但是会稍微降低平衡精度(图6)。从图6可以看出，从1到60个目标基因对中进行选择，分别构建对应的TRGP分类器，发现具有前7个基因对(虚线)的TRGP分类器最佳地实现了最佳AUROC和平衡精度性能。

表3.TRGP分类器中7个排名靠前的特征基因对

为了充分利用目标基因对的分类性能，还可以构建其他加权线性分类器和非线性分类器，将60个排名靠前的目标基因对中的第二特征基因对应用于LDA分类器、SVM分类器和随机森林分类器的构建中，并比较了这些分类器的性能。从目标基因对中确定第二特征基因对由发现数据集中的十倍交叉验证确定。根据十交叉验证，达到最佳分类性能的LDA分类器使用了所有的60个目标基因对，而达到最佳分类性能的SVM分类器使用了12个基因对(如表4所示)，达到最佳分类性能的随机森林分类器使用了56个基因对(如图7所示)。在图7中，渐变灰色、灰色和浅灰色表示该基因对在随机森林分类器中的重要性分别为低、中和高；深灰色表示阴影特征(最大阴影特征SM,平均阴影特征SA和最小阴影SI)的重要性；重要性高于阴影特征的基因对在随机森林分类器中被认为具有预测性能。

表4.SVM分类器中12个特征基因对

AUROC用于评估这些分类器的预测性能。结合表5对TRGP分类器、LDA分类器、SVM分类器和随机森林分类器使用的特征基因对的数目和分类性能进行说明。在发现数据集中区分KD和FI的分类性能最佳的分类器是随机森林分类器(1.00)，其次是LDA分类器(0.980)，SVM分类器(0.956)和TRGP分类器(0.947)(表5)。在两个验证数据集中，TRGP分类器获得了最佳分类性能(AUROC为0.955，0.796)，其次是随机森林分类器(0.828，0.751)，SVM分类器(0.791，0.671)和LDA分类器(0.860，0.601)。也就是说，发现数据集中的性能差异很小，但是TRGP分类器在验证数据集中总体表现最好，并且使用的特征基因对数量最少。这些结果表明，目标基因对可以灵活地应用于不同的分类器，并获得相似的预测性能。值得注意的是，TRGP分类器使用最简单的决策规则和最少特征数量的功能来实现可靠的预测性能(表5)。

表5.各分类器的特征基因对的数目和分类性能

图8为使用七个排名靠前的特征基因对的TRGP分类器的分类性能。图8A为ROC曲线和图8B为分类器混淆矩阵，以及图8C为FI和KD患者在发现数据集，验证数据集1和验证数据集2中的疾病分类分数。在箱形图图8C中，水平线，箱形边缘和晶须分别表示中位数，四分位数范围和95％百分位数范围。虚线表示疾病分类的阈值，并且分类得分>0预测为KD，否则为FI。AUROC＝分类器工作曲线下方的面积。双侧非配对t检验Two-tailed unpairedStudent's t-test用于FI和KD患者之间分类评分的统计比较。

具体地，TPGP分类器在发现数据集(p<0.0001，两尾不配对学生t检验)和两个验证数据集中疾病预测中，KD和FI患者的分类评分存在显着差异(验证数据集1的p<0.0001和验证数据集2的p<0.0001，Two-tailed unpaired Student's t-test)(图8C)。在所有数据集中，KD患者的疾病分类评分均显著高于FI患者。

然后，通过分别计算每个数据集的AUROC，敏感性和特异性来测试TRGP分类器的分类性能。在发现数据集中，AUROC为0.947(95％CI，0.918-0.976)，灵敏度为0.936(95％CI，0.872-0.987)，特异性为0.774(95％CI，0.705-0.836)(图8A，表5)。由于KD病例的比例较高，因此在验证数据集1中的分类性能更好，AUC为0.955(95％CI，0.919-0.991)，敏感性为0.959(95％CI，0.925-0.986)和特异性0.863(95％CI，0.764-0.961)。在独立验证数据集2中，AUROC为0.796(95％CI，0.747-0.845)，灵敏度为0.797(95％CI，0.720-0.864)和特异性为0.661(95％CI，0.606-0.717)。这种性能下降可能是由于验证数据集2的异质性更高，包括KD诊断的差异以及DV/DB病例中感染性病原体成分比例具有差异。尽管如此，使用TRGP分类器，在验证数据集2中正确区分了79％的KD患者和66.1％的FI患者(图8B)。

进一步地，还可以比较通过特征基因对构建的四个分类器(TRGP分类器、LDA分类器、SVM分类器和随机森林分类器)与传统的k-TSP分类器使用的特征基因对的数目和分类性能。传统的k-TSP分类器把发现数据集(N＝224)作为k-TSP的分类器训练数据集，包括了78例KD样本，146例FI样本。使用SwitchBox软件包(版本1.12.0)的SWAP.KTSP.Train功能，以78例KD样本和146例FI样本的16004个基因表达值作为输入值，按照软件包说明进行操作，其中krange参数设置为2:50，其他参数按默认设置，得到传统的k-TSP分类器classifier。然后使用SWAP.KTSP.Classify功能，以classifier作为训练模型参数，预测两个验证数据集样品的分类，并评估分类性能。

在本实施例中，如表5所示，传统的k-TSP分类器classfier包含了42个特征，使用特征基因对的数量比TRGP分类器和SVM分类器多，而比LDA分类器和随机森林分类器少。该模型在验证数据集-1上的准确性为0.812，灵敏度为0.751，特异性为0.794，AUROC为0.733，比本申请构建的其他四个分类器分类性能低(见表5)。在验证数据集-2上，准确性、灵敏度、特异性、平衡精度和AUROC五项的分类性能同样低于本申请构建的四个分类器。由此可以看到，本申请的提供的基因对筛选方法能够克服传统k-TSP分类器筛选特征高噪声以及构建模型单调的问题，能够提升对特征基因对的分类性能的利用率。

应当理解的是，上述实施例中涉及到的具体数值并不影响本申请基因对的筛选方法的实现，在每次执行基因对筛选方法中具体数值可以有所不同，因为具体数值和病例的选取、对病例的分组、对发现数据集的随机抽取操作等因素有关。

另外，虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

需要说明的是，对于前述的各方法实施例，为了简便描述，将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其它顺序或者同时进行。基于与上述实施例中的基因对的筛选方法相同的思想，本申请还提供基因对的筛选装置，该装置可用于执行上述基因对的筛选方法。为了便于说明，基因对的筛选装置实施例的结构示意图中，仅仅示出了与本申请实施例相关的部分，本领域技术人员可以理解，图示结构并不构成对装置的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

在一个实施例中，如图9所示，提供了一种基因对的筛选装置900，包括：基因对获取模块902、分类器构建模块904、基因对筛选模块906和基因对选取模块908，其中：

基因对获取模块902，用于获取至少两个的第一基因对集合；第一基因对集合是利用k-TSP算法对基因对筛选样本进行筛选得到的；各个第一基因对集合对应不同的基因对筛选样本；

分类器构建模块904，用于根据各个第一基因对集合分别构建对应的k-TSP分类器；

基因对筛选模块906，用于利用k-TSP分类器，分别对基因对筛选样本进行筛选，得到至少两个的第二基因对集合；各个第二基因对集合对应不同的基因对筛选样本；

基因对选取模块908，用于在第二基因对集合中，选取出现次数达到预设值的目标基因对。

在一个实施例中，当基因对筛选样本中存在针对同一种类别的至少两个子类时，基因对获取模块902，还用于对基因对筛选样本进行子类分类，得到至少两个子类筛选样本；各个子类筛选样本对应不同的子类；利用k-TSP算法，分别对至少两个子类筛选样本进行筛选，得到至少两个的基因对子集；基因对子集对应不同的子类筛选样本；合并至少两个的基因对子集，得到第一基因对集合。

在一个实施例中，基因对获取模块902，还用于获取基因对样本；基因对样本包括多个病例的基因对，各个病例在基因对样本中有对应的类别；按照预先设定的抽取个数，对基因对样本进行至少两次随机抽取处理，得到至少两个基因对筛选样本；基因对筛选样本包括的病例个数与抽取个数对应，各个基因对筛选样本对应不同次数的随机抽取处理。

在一个实施例中，基因对选取模块908，还用于利用基因对样本，对目标基因对进行AUROC评估；根据AUROC评估的评估结果，从目标基因对中选取基因对，作为第一特征基因对；从基因对测试样本中，获取与第一特征基因对对应的第一基因表达值和第二基因表达值；根据第一基因表达值和第二基因表达值的相对大小，将第一特征基因对归入基因对样本中的其中一个类别。

在一个实施例中，当存在多个第一特征基因对时，因对选取模块908，还用于获取多个第一特征基因对所归属的类别；在多个类别中，选取出现次数最多的类别；将基因对测试样本归入所选取的类别中。

在一个实施例中，基因对选取模块908，还用于利用基因对样本，对目标基因对进行十倍交叉验证处理，从目标基因对中选取得到第二特征基因对；从基因对测试样本中，获取与第二特征基因对对应的基因对表达值；根据机器学习算法，对基因对表达值进行处理，得到基因对测试样本的类别。

在一个实施例中，机器学习算法包括：LDA算法、SVM算法和随机森林算法中的至少一种。

关于基因对的筛选的装置的具体限定可以参见上文中对于基因对的筛选的方法的限定，在此不再赘述。上述基因对的筛选的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现上述各个方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种基因对的筛选方法，其特征在于，包括：

根据各个第一基因对集合分别构建对应的k-TSP分类器；

2.根据权利要求1所述的方法，其特征在于，当所述基因对筛选样本中存在针对同一种类别的至少两个子类时，获取第一基因对集合的步骤，包括：

对所述基因对筛选样本进行子类分类，得到至少两个子类筛选样本；各个子类筛选样本对应不同的子类；

利用所述k-TSP算法，分别对所述子类筛选样本进行筛选，得到至少两个的基因对子集；所述基因对子集对应不同的所述子类筛选样本；

合并所述至少两个的基因对子集，得到第一基因对集合。

3.根据权利要求1所述的方法，其特征在于，在所述获取至少两个的第一基因对集合的步骤之前，还包括：

获取基因对样本；所述基因对样本包括多个病例的基因对，各个病例在所述基因对样本中有对应的类别；

按照预先设定的抽取个数，对所述基因对样本进行至少两次随机抽取处理，得到至少两个基因对筛选样本；所述基因对筛选样本包括的病例个数与所述抽取个数对应，各个基因对筛选样本对应不同次数的随机抽取处理。

4.根据权利要求3所述的方法，其特征在于，在所述第二基因对集合中，选取出现次数达到预设值的目标基因对的步骤之后，还包括：

利用所述基因对样本，对所述目标基因对进行AUROC评估；

根据AUROC评估的评估结果，从所述目标基因对中选取基因对，作为第一特征基因对；

从基因对测试样本中，获取与所述第一特征基因对对应的第一基因表达值和第二基因表达值；

根据所述第一基因表达值和所述第二基因表达值的相对大小，将所述第一特征基因对归入所述基因对样本中的其中一个类别。

5.根据权利要求4所述的方法，其特征在于，当存在多个第一特征基因对时，在所述根据所述第一基因表达值和所述第二基因表达值的相对大小，将所述第一特征基因对归入所述基因对样本中的其中一个类别的步骤之后，还包括：

获取所述多个第一特征基因对所归属的类别；

在多个类别中，选取出现次数最多的类别；

将所述基因对测试样本归入所选取的类别中。

6.根据权利要求3所述的方法，其特征在于，在所述第二基因对集合中，选取出现次数达到预设值的目标基因对的步骤之后，还包括：

利用所述基因对样本，对所述目标基因对进行十倍交叉验证处理，从所述目标基因对中选取得到第二特征基因对；

从基因对测试样本中，获取与所述第二特征基因对对应的基因对表达值；

根据机器学习算法，对所述基因对表达值进行处理，得到所述基因对测试样本的类别。

7.根据权利要求6所述的方法，其特征在于，所述机器学习算法包括：LDA算法、SVM算法和随机森林算法中的至少一种。

8.一种基因对的筛选装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。