CN117425932A

CN117425932A - 信息处理装置、信息处理方法以及程序

Info

Publication number: CN117425932A
Application number: CN202280040883.1A
Authority: CN
Inventors: 井上治久; 山本拓也; 今村恵子; 河原吉伸; 植松直哉; 上田修功; 永桥文子; 江浪贵子
Original assignee: Kyoto University; RIKEN Institute of Physical and Chemical Research
Current assignee: Kyoto University; RIKEN Institute of Physical and Chemical Research
Priority date: 2021-06-09
Filing date: 2022-06-09
Publication date: 2024-01-19
Also published as: JPWO2022260129A1; WO2022260129A1; EP4354446A1

Abstract

一种信息处理装置，包含处理单元，所述处理单元被配置为：对于基因数据集中包含的每个基因组合，计算其对多因素疾病或散发性疾病的致病基因以及多因素疾病或散发性疾病相关基因的依赖性的尺度，基于依赖性的尺度从数据集中选择预设数量的基因组合。

Description

信息处理装置、信息处理方法以及程序

技术领域

本发明涉及信息处理装置、信息处理方法以及程序。

本申请基于2021年6月9日提交的申请号为US 63/208,509的美国临时申请为优先权，其全部内容通过引用并入本文。

背景技术

肌萎缩侧索硬化症(ALS)是一种由运动神经元丧失引起的致命性神经退行性疾病，迫切需要开发ALS的诊断技术。

现有技术文献

专利文献

[专利文献1]公开专利申请号2017-29116。

发明内容

本发明要解决的问题

由于ALS的诊断是根据临床表现和临床症状进展后的电生理检查来进行的，因此需要用于ALS数字诊断的分子生物标志物。然而，在占ALS病例90％-95％的散发性ALS中，可作为分子生物标志物的基因仍然未知。此类问题不仅限于ALS，还适用于其他多因素或散发性疾病，例如阿尔茨海默病和帕金森病，其中大多数患者是散发的。

本说明书提供一种能够识别和诊断多因素疾病或散发疾病的基因的信息处理装置、信息处理方法和程序。

解决问题用到的手段

本说明书一些实施例提供对于基因数据集中包括的每个基因组合，确定对多因素疾病或散发性疾病的致病基因以及多因素疾病或散发性疾病的相关基因的依赖性。信息处理装置包括处理单元，其计算性别度量并基于该度量从数据集中选择预设数量的基因组合。

发明的效果

根据本说明书的一些实施例可以鉴定能够诊断多因素疾病或散发性疾病的基因。

附图说明

图1是根据本说明书一些实施例所示的用于说明实施方式的概要图；

图2是根据本说明书一些实施例所示的信息处理装置的配置示例图；

图3是根据本说明书一些实施例所示的与基因组合的识别有关的处理单元的一系列处理步骤的流程图；

图4是根据本说明书一些实施例所示的用于解释计算HSIC分数的方法图；

图5是根据本说明书一些实施例所示的处理单元的关于生成用于数字诊断的分子生物标记的一系列处理步骤的流程图；

图6是根据本说明书一些实施例所示的与ALS发病的确定有关的处理单元的一系列处理步骤的流程图；

图7是根据本说明书一些实施例所示的ALS的致病基因或相关基因的列表图；

图8是根据本说明书一些实施例所示的三个致病基因的组合的HSIC评分的计算结果图；

图9是根据本说明书一些实施例所示的关于致病基因的组合的ROC评价结果图；

图10是根据本说明书一些实施例所示的三个相关基因的组合的HSIC分数的计算结果图；

图11是根据本说明书一些实施例所示的关于相关基因的组合的ROC评价结果图；

图12是根据本说明书一些实施例所示的按HSIC得分降序排列的基因组合的列表图；

图13是根据本说明书一些实施例所示的通过逻辑回归确定的AUC降序排列的基因组合的列表图；

图14是根据本说明书一些实施例所示的出现频率最高的前50个基因图；

图15是根据本说明书一些实施例所示的当基因组合的数量增加到4时HSIC分数的计算结果图；

图16是根据本说明书一些实施例所示的健康者和ALS患者中PRKAR1A的表达水平图；

图17是根据本说明书一些实施例所示的健康者和ALS患者中QPCT的表达水平图；

图18是根据本说明书一些实施例所示的健康者和ALS患者中TMEM71的表达水平图；

图19A是根据本说明书一些实施例所示的特征空间图；

图19B是根据本说明书一些实施例所示的特征空间图；

图20是根据本说明书一些实施例所示的关于PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图；

图21A是根据本说明书一些实施例所示的PRKAR1A表达量和存活期之间的相关性图；

图21B是根据本说明书一些实施例所示的QPCT表达量与生存期的相关性图；

图21C是根据本说明书一些实施例所示的TMEM71的表达量与生存期的相关性图；

图22A是根据本说明书一些实施例所示的PRKAR1A的表达量与发病年龄的相关性图；

图22B是根据本说明书一些实施例所示的QPCT的表达量与发病年龄的相关性图；

图22C是根据本说明书一些实施例所示的TMEM71的表达量与发病年龄的相关性图；

图23A是根据本说明书一些实施例所示的PRKAR1A的表达量与延髓麻痹类型和全身型之间的相关性图；

图23B是根据本说明书一些实施例所示的QPCT的表达量与延髓麻痹类型及全身型的相关性图；

图23C是根据本说明书一些实施例所示的TMEM71的表达量与延髓麻痹类型和全身型之间的相关性图；

图24A是根据本说明书一些实施例所示的比较健康个体中PRKAR1A的表达水平和ALS患者中PRKAR1A的表达水平图；

图24B是根据本说明书一些实施例所示的比较健康者中的QPCT的表达水平和ALS患者中的QPCT的表达水平图；

图24C是根据本说明书一些实施例所示的比较健康个体中的TMEM71的表达水平和ALS患者中的TMEM71的表达水平图；

图25是根据本说明书一些实施例所示的从少数例子中提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图；

图26是根据本说明书一些实施例所示的iPS细胞和从iPS细胞获得的运动神经元的图；

图27A是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间PRKAR1A的表达水平图；

图27B是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的QPCT表达水平图；

图27C是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的TMEM71基因表达水平图；

图28是根据本说明书一些实施例所示的关于从运动神经元提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图；

图29是根据本说明书一些实施例所示的PRKAR1A、QPCT和TMEM71各基因的TDP-43的相对表达水平图；

图30A是根据本说明书一些实施例所示的从健康者和ALS患者中提取的PRKAR1A的表达水平图；

图30B是根据本说明书一些实施例所示的从健康者和ALS患者提取的QPCT表达水平图；

图30C是根据本说明书一些实施例所示的从健康者和ALS患者提取的TMEM71的表达水平图；

图31A是根据本说明书一些实施例所示的从ALS引起基因和ALS相关基因提取的SPG11的表达水平图；

图31B是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CHMP2B的表达水平图；

图31C是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CSNK1G3的表达水平图；

图31D是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的DYNC1H1的表达水平图。

具体实施方式

在下文中，将参照附图对根据实施例的信息处理设备、信息处理方法和程序进行说明。

[概要]

图1是根据本说明书一些实施例所示的用于说明实施方式的概要图。如图1所示，在本实施例中，通过分析健康者和患有多因素疾病或散发性疾病的患者的外周血单核细胞(PBMC)中的基因表达量，利用高维的非线性模型，基于基因表达量，选择出用于对健康者和多因素疾病或散发性疾病患者进行分类的基因组合。多因素疾病或散发性疾病可以为，例如ALS，但不限于此，还可以是阿尔茨海默病、帕金森病等。优选以散发性ALS为例。在下文中，作为示例，把多因素疾病或散发性疾病看作“散发性ALS”进行说明。

注意，“多因素疾病”被定义为被认为是由于遗传倾向和环境因素之间的相互作用而发生的疾病，而“散发性疾病”被定义为没有公认的家族史的疾病。然而，同一种疾病同时属于“多因素疾病”和“散发性疾病”的情况很多，因此在这个领域，“多因素疾病”和“散发性疾病”几乎可以用作同义词。“散发性ALS”也是一种多因素疾病。

[信息处理装置的构成]

图2是根据本说明书一些实施例所示的信息处理装置的配置示例图。如图2所示，信息处理设备100包括，通信接口110、输入接口120、输出接口130、处理单元140和存储单元150。

通信接口110经由诸如WAN(Wide Area Network，广域网)或LAN(Local AreaNetwork，局域网)的网络与外部装置通信。例如，通信接口110包括NIC(Network InterfaceCard，网络接口卡)、无线通信模块等。外部装置可以是例如安装在进行研究或药物发现开发的设施(例如研究机构、大学或公司)中的个人计算机或服务器。

输入接口120接受用户的各种输入操作，并将与所接受的输入操作相对应的电信号输出到处理单元140。例如，输入接口120为鼠标、键盘、触摸屏、拖拽球、开关、按钮等。

输出接口130例如是显示器或扬声器。显示器可以是例如LCD(Liquid CrystalDisplay，液晶显示器)或有机EL(Electro Luminescence，电致发光)显示器。显示器可以是与输入接口120一体配置的触控面板。

处理单元140可以通过诸如CPU(Central Processing Unit，中央处理单元)或GPU(Graphics Processing Unit，图形处理单元)等程序处理器执行存储单元150中存储的程序而实现。处理单元140的部分或全部功能可以通过LSI(Large Scale Integration，大规模集成电路)、ASIC(Application Specific Integrated Circuit，专用集成电路)或FPGA(Field-Programmable Gate Array，现场可编程门阵列)等硬件来实现，也可以通过软件与硬件配合来实现。稍后将描述处理单元140的各个功能。

存储单元150由诸如HDD(Hard Disc Drive，硬盘驱动器)、闪存、EEPROM(Electrically Erasable Programmable Read Only Memory，电可擦除可编程只读存储器)、ROM(Read Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)等来实现。存储单元150存储各种程序，例如，固件和应用程序。

[基因组合的鉴定]

图3是根据本说明书一些实施例所示的与基因组合的识别有关的处理单元140的一系列处理步骤的流程图。

首先，处理单元140从ALS致病基因组中选择预设数量的基因组合(步骤S100)。例如，已知SOD1、ALS2、ALS3、SETX等33个基因是ALS的致病基因(详见下面的图7)。处理单元140从33个致病基因中选择预设数量的基因组合。预设数量优选为3个，但不限于此，例如，可以是2个或4个或更多。以下，作为示例，将假设预设数量为“3”来进行描述。例如，当从33个致病基因中选择任意三个基因时，处理单元140可以选择5456种组合。

接下来，处理单元140计算在S100中组合起来的致病基因之间的依赖性(或独立性)的尺度(步骤S102)。

对于基因表达分析，一般使用线性模型，例如线性逻辑回归和Hotelling's t2检验。然而，生物现象被认为是非线性科学，疾病的病理不能用单一因素来解释。因此，在本实施例中，利用非线性模型来分析基因表达。

例如，处理单元140使用HSIC(Hilbert-Schmidt Independence Criterion，希尔伯特-施密特独立准则)计算HSIC分数，作为致病基因的组合的依赖性的尺度，HSIC是机器学习的一种并且可以检测高维数据中的非线性结构。

图4是根据本说明书一些实施例所示的用于解释计算HSIC分数的方法图。如图4所示，处理单元140将ALS致病基因的组合(代表三个致病基因中的每一个的向量数据)分布在(再生核)希尔伯特空间(图中的特征空间)上，致病基因之间的HSIC得分为根据希尔伯特空间计算。例如，处理单元140计算所有5456个组合的HSIC分数。

接下来，处理单元140从ALS相关基因组中选择预设数量的基因组合(步骤S104)。除上述致病基因外，已知APEX1、APOE、AR、CCS等126个基因为ALS相关基因(详见下图7)。处理单元140从126个相关基因中选择预设数量的基因组合。如上所述，预设数量优选为3个，但不限于此，可以是例如2个或4个或更多。例如，当处理单元140从126个相关基因中选择任意三个基因时，可以选择325,500个组合。

接下来，处理单元140计算在S104中组合的相关基因之间的依赖性(或独立性)的尺度(步骤S106)。处理单元140利用与处理致病基因时一样的步骤，计算所有325,500个组合的HSIC分数。

接下来，处理单元140从已计算HSIC分数的基因组合中选择具有最高HSIC分数的基因组合(步骤S108)。

例如，为了消除多重共线性的影响，处理单元140进行诸如逻辑回归之类的线性回归分析，从计算了HSIC分数的多个组合的集合(以下称样本总体)中，选择或提取出包含出现频率(出现次数)高的基因的特定组合。例如，处理单元140可以选择或提取包括出现频率等于或高于阈值的基因的组合作为特定组合(换言之，要排除的组合)。阈值例如为10，但不限于此，可以是任何其他值。

处理单元140从样本总体中排除包括频繁出现的基因的特定组合。处理单元140从排除特定组合的组合群体中选择具有最高HSIC分数的基因组合。如下文实施例中所述，从ALS致病基因或相关基因的组合中，作为HSIC得分最高的基因组合，PRKAR1A、QPCT和TMEM71的组合被选出了。这样就完成了一系列与基因组合鉴定相关的过程。

[用于数字诊断的分子生物标志物的生成]

图5是根据本说明书一些实施例所示的处理单元140的关于生成用于数字诊断的分子生物标记的一系列处理步骤的流程图。

首先，处理单元140基于多个健康者(下文中也称为健康者组)中PRKAR1A、QPCT和TMEM71的表达量，将每个健康者的基因数据分布在以这三个基因的表达量作为维度的三维特征空间上(步骤S200)。例如，分布在特征空间上的健康者的基因数据，可以将PRKAR1A的表达量作为第一个元素e1，QPCT的表达量作为第二个元素e2，TMEM71的表达量作为第三个元素e3，通过三维向量(e1,e2,e3)表示。

接下来，处理单元140根据多个ALS患者(以下也称为ALS患者组)中PRKAR1A、QPCT和TMEM71的表达量，将每个ALS患者的基因数据分布在以这三个基因的表达量作为维度的三维特征空间上(步骤S202)。分布在特征空间上的ALS患者的基因数据也可以像健康者的基因数据一样表示为三维向量(e1,e2,e3)。

接下来，处理单元140在三维特征空间上将健康者的遗传数据和ALS患者的遗传数据进行聚类(步骤S204)。例如，如后述的实施例的图19A和图19B所示，在以RKAR1A的表达量、QPCT的表达量以及TMEM71的表达量为维度的三维特征空间上，处理单元140可以将健康者(图中的Health Control)的遗传数据和ALS患者(图中的ALS)的遗传数据分别聚类为簇。

接下来，处理单元140将在特征空间上形成的健康者的遗传数据簇和ALS患者的遗传数据簇存储在存储单元150中作为用于数字诊断的分子生物标记(步骤S206)。基于以上步骤，完成了与生成用于数字诊断的分子生物标志物相关的一系列过程。

[ALS发病的判定]

图6是根据本说明书一些实施例所示的与ALS发病的确定有关的处理单元140的一系列处理步骤的流程图。

首先，处理单元140获取待诊断患有ALS的受试者的遗传数据(步骤S300)。受试者的遗传数据可以以与上述相同的方式表达为三维向量(e1,e2,e3)。

接下来，处理单元140将受试者的基因数据，分布在形成了作为分子生物标记的簇(健康者簇和ALS患者簇)的特征空间上(步骤S302)。

接下来，处理单元140计算受试者的基因数据与健康者簇在特征空间上的距离D1，并计算受试者的基因数据与ALS患者簇之间的距离D2(步骤S304)。

接下来，处理单元140根据与两个簇之间的距离来判断受试者是否会在未来某个时间出现ALS病症，或者受试者目前是否已经患有ALS(步骤S306)。

例如，如果到ALS患者簇的距离D2比到健康者簇的距离D1短(D1>D2)，即，受试者的基因数据距离患者簇比距离健康者簇更近，则处理单元140可以判定该受试者将在未来某个时间患上ALS，或者该受试者目前已经患上ALS。

在一些实施例中，如果到ALS患者簇的距离D2大于到健康者簇的距离D1(D1<D2)，即，受试者的基因数据距离健康者簇比距离ALS患者簇更近。则处理单元140可以判定该受试者在未来的某个时间点不会患上ALS，并且该受试者目前没有患上ALS。

接下来，处理部140输出关于受试者是否患有ALS的判定结果(步骤S308)。

例如，处理单元140可以通过通信接口110将判定结果发送至外部设备，或者可以通过输出接口130(例如，显示器)输出判定结果。至此，完成了与判定ALS发病相关的一系列过程。

根据上述实施例，信息处理装置100针对ALS致病基因或相关基因的各个组合，计算该组合中所包括的基因之间的依赖性的尺度(例如，HSIC得分)，从多个已经计算出尺度的组合中，(即从样本总体中)，选择尺度最高的组合。通过这样做，使得鉴定可诊断ALS的基因成为可能。

此外，根据上述实施例，信息处理设备100基于源自健康者的基因(包含在具有上述尺度最高的组合中的基因)的表达量，将健康者的基因数据分布在特征空间上，基于源自ALS患者的基因(包含在上述尺度最高的组合中的基因)的表达量，将ALS患者的基因数据分布在相同的特征空间中。然后，信息处理装置100将健康者的遗传数据和ALS患者的遗传数据聚类在特征空间上。由此，可以在特征空间上生成用于数字诊断的分子生物标志物。

此外，根据上述实施例，信息处理装置100获取作为要诊断为ALS的受试者的遗传数据，并且将受试者的遗传数据分布在形成了健康者和ALS患者的簇的特征空间上。信息处理装置100计算特征空间上每个簇与受试者的遗传数据之间的距离，并且基于该距离，判定受试者是否会在未来的某个时间点患上ALS或者判定受试者目前是否已经患有ALS。这使得准确判断是否患有ALS成为可能。

以上，利用实施例对用于实施本发明的方式进行了说明，但本发明并不限定于这些实施例，在不脱离本发明的主旨的范围内可以进行各种变形、替换。

上述实施例可以表述如下(附录1)

一种信息处理装置，所述装置包含处理单元，所述处理单元被配置为：

对于基因数据集中包含的每个基因组合，计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度；基于所述依赖性的尺度，从所述数据集中选取预设数量的基因组合。

(附录2)

如附录1所述的信息处理装置，所述处理单元被配置为：

基于第一基因的表达量，将所述第一基因的数据分布在一个特征空间上，所述第一基因是源自健康者的基因；

基于第二基因的表达量，将所述第二基因的数据分布在所述特征空间上，所述第二基因是源自患有所述多因素疾病或散发性疾病的患者的基因；

基于所述第一基因的表达量，在所述特征空间上对所述第一基因的数据进行聚类；

基于所述第二基因的表达量，在所述特征空间上对所述第二基因的数据进行聚类。

(附录3)

如附录2所述的信息处理装置，所述处理单元被配置为：

将第三基因的数据分布在形成了健康者和患者的簇的所述特征空间上，所述第三基因是源自待诊断患有所述多因素疾病或散发性疾病的受试者的基因；

计算所述第三基因的数据与所述簇在所述特征空间上的距离；

基于所述距离判断受试者是否会患所述多因素疾病或散发性疾病，或者判断受试者是否患有所述多因素疾病或散发性疾病。

(附录4)

如附录1或2所述的信息处理装置，其中，

所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

所述预设数量为三；

所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

(附录5)

如附录1或2所述的信息处理装置，所述处理单元被配置为：

通过线性回归分析，将包含出现频率等于或高于阈值的基因的特定组合，从已经计算了所述依赖性的尺度的基因组合的样本总体中排除；

从已排除所述特定组合的所述样本总体中选择所述依赖性的尺度最高的基因组合。

(附录6)

如附录1或2的信息处理装置，所述处理单元包括：

将数据集分布在希尔伯特空间上，

计算希尔伯特-施密特依赖性测度作为分布在希尔伯特空间上的数据集中包含的每个基因组合的测度，

已经计算了希尔伯特-施密特相关性度量的多个组合中选择具有最高希尔伯特-施密特相关性度量的组合。

(附录7)

一种使用计算机的信息处理方法，所述信息处理方法包括：

对于基因数据集中包含的每个基因组合，计算其对多因素疾病或散发性疾病的致病基因以及所述多因素疾病或散发性疾病的相关基因的依赖性的尺度；

基于所述依赖性的尺度，从所述数据集中选取预设数量的基因组合。

(附录8)

根据附录7所述的信息处理方法，还包括：

(附录9)

根据附录8所述的信息处理方法，还包括：

(附录10)

如附录7或8所述的信息处理方法，还包括：

所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

所述预设数量为三；

所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

(附录11)

如附录7或8所述的信息处理方法，还包括：

(附录12)

由计算机执行的程序，所述程序包含：

(附录13)

如补充说明12所述的程序，还包括：

(附录14)

如补充说明13所述的程序，还包括：

(附录15)

如补充说明12或13所述的程序，还包括：

多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

预设数量为三，

预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

(附录16)

如补充说明12或13所述的程序，还包括：通过线性回归分析，将包含出现频率等于或高于阈值的基因的特定组合，从已经计算了所述依赖性的尺度的基因组合的样本总体中排除；

(附录17)

一种计算机可读存储介质，被配置为存储如补充说明12或13的程序。

实施例

[实验例1]

(微阵列数据和标准化)

基因表达数据(GSE112676、233ALS和508CTL)用于HSIC分析。通过下载原始表达强度和p值检验结果(GSE112676_HT12_V3_preQC_nonnormalized.txt)，并使用R limma包(v3.32.10)函数(backgroundCorrect和normalizeBetweenArrays)来执行基因表达信号的标准化。在Rsva包(v3.35.2)中装有的ComBat算法用于消除批次效应。即使在批次效应校正后仍有一个具有异常值的样本(GSM3077426)被排除在进一步分析之外。对于上述图1中的HSIC预测，使用了来自ALS在线数据库(ALSoD，https://alsod.ac.uk/)的ALS相关基因。使用20％或更多样本的可检测的表达基因中的前1000个可变基因进行了无偏HSIC预测。

[实验例2]

(多能干细胞的制备)

制作多能干细胞。例如，多能干细胞包括胚胎干细胞(ES细胞)、诱导多能干细胞(iPS细胞)、源自通过核移植获得的克隆胚胎的自体胚胎干细胞(ntES)、精子干细胞(GS细胞)、胚胎生殖干细胞(EG细胞)等。优选的，多能干细胞是ES细胞、iPS细胞和ntES细胞。更优选的多能干细胞是人多能干细胞，特别优选的是人ES细胞和人iPS细胞。此外，可用于本发明的细胞不仅是多能干细胞，还可以是通过所谓的“直接重编程”诱导的细胞群，其可以被直接诱导分化成所期望的细胞而不用通过多能干细胞。本实验使用了人iPS细胞。下文中，除非另有说明，iPS细胞均假定为人iPS细胞。

分别使用OCT3/4、Sox2、Klf4、L-Myc、Lin28以及显性失活p53的游离性载体、或OCT3/4、Sox2、Klf4、L-Myc、Lin28以及shRNA for p53从健康者和散发性ALS患者的成纤维细胞或PBMC中制作iPS细胞。使用补充有青霉素/链霉素的StemFit(Ajinomoto)在无饲养层、无异种物质的培养系统中培养细胞。

[实验例3]

(从iPS细胞分化为运动神经元)

运动神经元由iPS细胞分化而来。具体来说，iPS细胞被解离成单细胞，并在低细胞粘附U形96孔板(Lipidule-Coated Plate A-U96、NOF Corporation，Tokyo，Japan)中快速重新聚集。

聚集体是使用5％ KSR(Invitrogen,Waltham,MA)、最低必需培养基-非必需氨基酸(Invitrogen)、L-谷氨酰胺(Sigma-Aldrich,St.Louis,MO)、2-巯基乙醇(Wako,Osaka，Japan)，2μM哆嗦吗啡(Sigma-Aldrich)、10μM SB431542(Cayman,Ann Arbor,MI)、3μMCHIR99021(Cayman)和12.5ng/mL成纤维细胞生长因子(Wako)经过了11天的神经诱导阶段制备。

第4天，添加100nM视黄酸(Sigma-Aldrich)和500nM Smoothened配体(Enzo LifeSciences,Farmingdale,NY)。在补充有B27补充剂(Thermo Fisher Scientific)、100nM视黄酸、500nM Smoothened配体、10μM DAPT(Selleck,Houston,TX)的Neurobase培养基中进行图案化后，第16天时，在Accumax(Innovative Cell Technologies,San Diego,CA)中将团块解离成单细胞，并粘附到基质胶(BD Biosciences，富兰克林湖，新泽西州)包被的培养皿上。

用10ng/mL脑源性神经营养因子(R&D Systems，明尼阿波利斯，明尼苏达州)、10ng/mL胶质细胞源性神经营养因子(R&D Systems)和10ng/mL神经营养蛋白-3(R&DSystems)处理贴壁细胞。将细胞在含有神经基质的培养基中培养8天。第21天，使用Accumax将细胞解离为单细胞，并以2×10⁵个细胞/孔的密度接种到iMatrix包被的24孔板(Corning)中。

[实验例4]

(定量RT-PCR)

使用RNeasy Plus Mini试剂盒(QIAGEN)提取培养细胞的总RNA。使用ReverTraAce(TOYOBO，大阪，日本)对1μg的RNA进行逆转录。使用SYBR Premix Ex Taq II(TAKARA)通过利用StepOnePlus(Thermo Fisher Scientific)的逆转录反应进行定量PCR分析。

[实验例5]

(统计分析)

使用学生t检验分析结果以确定统计显着性。p<0.05的差异被认为是显着的。使用Windows版GraphPad Prism软件8.0版(GraphPad Software，圣地亚哥，加利福尼亚州)进行分析。

(结果)

[实验例6]

基于对外周血单核细胞(PBMC)的基因表达量的分析，选择用于对健康者和ALS患者进行分类的基因组合。如上述实施例中所述，使用非线性模型分析基因表达量，并使用HSIC进行分析。

健康者和ALS患者之间有差异的基因组合将具有较高的HSIC分数，相反，没有差异的基因组合具有接近0的HSIC分数。通过识别导致高HSIC评分的组合，本说明书提取了对健康者和ALS患者进行分类的基因。

首先，使用已知与ALS相关的基因组来验证本实施例中描述的方法的有效性。图7是根据本说明书一些实施例所示的ALS的致病基因或相关基因的列表图。例如，从图7所示的基因中选择被认为是ALS的致病基因的33个致病基因，并从这33个致病基因中进一步选择三个基因的组合。

计算HSIC评分作为根据这三个基因的表达量对健康者和ALS患者组进行分类的尺度。图8是根据本说明书一些实施例所示的三个致病基因的组合的HSIC评分的计算结果图。图8仅示出了具有最高HSIC分数的前15个组合。HSIC得分最高的致病基因组合是SPG11、CHMP2B和VCP(HSIC得分0.0988)。

在33个ALS致病基因的所有组合(5456个组合)中，HSIC得分最高的致病基因组合是SPG11、CHMP2B和VCP(HSIC得分0.0988)。使用ROC(Receiver OperatingCharacteristics，接受者操作特征)评估这三个致病基因的组合。图9是根据本说明书一些实施例所示的关于致病基因的组合的ROC评价结果图。如图9所示，具有最高HSIC分数的SPG11、CHMP2B和VCP的组合在ROC中具有0.75的AUC(曲线下面积)。因此，结果是AUC存在统计学上的显着差异。

接下来，从126个ALS相关基因中类似地选择三个基因的组合(参见图7)。在健康者组中，计算三个相关基因组合的HSIC评分，在ALS患者组中，计算三个相关基因组合的HSIC评分。图10与图8类似，是显示三个相关基因的组合的HSIC分数的计算结果的图，图10是根据本说明书一些实施例所示的具有最高HSIC分数的前15个组合。HSIC得分最高的相关基因组合是CSNK1G3、CHMP2B和DYNC1H1(HSIC得分0.11365)。

在126个相关基因的所有组合(325500个组合)中，HSIC得分最高的相关基因组合是CSNK1G3、CHMP2B和DYNC1H1(HSIC得分0.11365)。使用ROC评估这三个相关基因的组合。图11是根据本说明书一些实施例所示的关于相关基因的组合的ROC评价结果图。如图11所示，HSIC评分最高的CSNK1G3、CHMP2B和DYNC1H1的组合的ROC(健康者组和ALS患者组的分类用AUC)中的AUC为0.75。因此，结果是AUC存在统计学上的显着差异。

这些结果证明了本实施例的方法对于寻找能够对健康者组和ALS患者组进行分类的基因集的有效性。

[实验例7]

为了研究ALS的未知因素，计算了未知与ALS有关的基因(无关基因)中的基因组合的HSIC分数。为了避免多重回归模型的多重共线性问题，使用线性回归进行分析，并且将通过该分析提取的基因列表中重复出现的基因(频繁出现的基因)从ALS的致病基因或相关基因中被排除。

在一些实施例中，使用逻辑回归(一种线性回归模型)列出了区分健康者和ALS患者的基因组合列表。图12是根据本说明书一些实施例所示的按HSIC得分降序排列的基因组合的列表。

当使用逻辑回归检查频繁出现的基因时，本说明书发现基因出现的频率存在偏差。图13是根据本说明书一些实施例所示的按通过逻辑回归确定的AUC降序排列的基因组合的列表。图14是根据本说明书一些实施例所示的出现频率最高的前50个基因图。如图14所示，TPT1出现25次，ATP5I出现39次，CAPZA2出现17次，RPL22出现11次。

为了消除多重共线性的影响，从HSIC得分高的基因组合中，将线性回归中重复出现10次及以上的基因排除了。在图14所示的结果中，TPT1、ATP5I、CAPZA2和RPL22都出现了10次以上，因此当排除包含这四个基因中任何一个的组合时，HSIC得分最高的基因组合是PRKAR1A、QPCT和TMEM71(图12中从顶部数起的第9个组合)。

[实验例8]

此外，本说明书还研究了如果将基因组合的数量增加到四个(将预设数量从三个更改为四个)，ALS的分类准确性是否会提高。图15是根据本说明书一些实施例所示的当基因组合的数量增加到4时HSIC得分的计算结果图。当基因组合为四个时，HSIC评分与三个基因组合时相比没有显着变化。因此，决定选择三个基因的组合。

[实验例9]

接下来，比较健康者和ALS患者的PBMC中PRKAR1A、QPCT和TMEM71的表达量。图16是根据本说明书一些实施例所示的健康者和ALS患者中PRKAR1A的表达水平图。图17是根据本说明书一些实施例所示的健康者和ALS患者中QPCT的表达水平图。图18是根据本说明书一些实施例所示的健康者和ALS患者中TMEM71的表达水平图。对三个基因中任意一个，ALS患者的表达水平均高于健康者。

此外，健康者的基因和ALS患者的基因分别分布在三维特征空间上，其维度为PRKAR1A、QPCT和TMEM71的表达量。图19A和图19B是根据本说明书一些实施例所示的表示特征空间图。如图19A和图19B所示，在三维特征空间上，健康者的基因被分类到同一簇，ALS患者的基因被分类到同一簇。

使用ROC评估PRKAR1A、QPCT和TMEM71的组合。图20是根据本说明书一些实施例所示的关于PRKAR1A、QPCT和TMEM71的组合的ROC评价结果图。如图20所示，PRKAR1A、QPCT和TMEM71的组合在ROC中的AUC(用于分类健康者组和ALS患者组的AUC)为0.83。因此，结果是AUC存在统计学上的显著差异。

[实验例10]

此外，本说明书还研究了PRKAR1A、QPCT和TMEM71基因的表达水平与从已发表数据获得的ALS临床信息之间的关系。图21A是根据本说明书一些实施例所示的PRKAR1A表达量和存活期之间的相关性图。图21B是根据本说明书一些实施例所示的QPCT表达量与存活期的相关性图。图21C是根据本说明书一些实施例所示的TMEM71的表达量与存活期的相关性图。图22A是根据本说明书一些实施例所示的PRKAR1A的表达量与发病年龄的相关性图。图22B是根据本说明书一些实施例所示的QPCT的表达量与发病年龄的相关性图。图22C是根据本说明书一些实施例所示的TMEM71的表达量与发病年龄的相关性图。图23A是根据本说明书一些实施例所示的PRKAR1A的表达量与延髓麻痹类型和全身型之间的相关性图。图23B是根据本说明书一些实施例所示的QPCT的表达量与延髓麻痹类型及全身型的相关性图。图23C是根据本说明书一些实施例所示的TMEM71的表达量与延髓麻痹类型和全身型之间的相关性图。

如图21A、21B和21C所示，PRKAR1A和TMEM71的基因表达量没有表现出与QPCT显著相关，但与存活期相关。如图22A、22B和22C所示，发病年龄和三个基因的表达量之间不存在相关性。如图23A、23B和23C所示，尽管QPCT没有差异，但全身性ALS患者中PRKAR1A和TMEM71的表达量显著高于延髓麻痹ALS患者。

[实验例11]

此外，本发明利用来自健康者和ALS患者的PBMC对PRKAR1A、QPCT和TMEM71这三个基因的表达水平进行确认。采集12名ALS患者和12名健康者的PBMC，并提取RNA。图24A是根据本说明书一些实施例所示的比较健康者中PRKAR1A的表达水平和ALS患者中PRKAR1A的表达水平图。图24B是根据本说明书一些实施例所示的比较健康者中的QPCT的表达水平和ALS患者中的QPCT的表达水平图。图24C是根据本说明书一些实施例所示的比较健康者中的TMEM71的表达水平和ALS患者中的TMEM71的表达水平图。如图24A、24B和24C所示，ALS患者中PRKAR1A和QPCT的表达水平显著高于健康者，并且ALS患者中TMEM71的表达水平也较高。

图25是根据本说明书一些实施例所示的关于从少数病例中提取的PRKAR1A、QPCT和TMEM71的基因组合的ROC评价结果图。如图25所示，通过组合PRKAR1A、QPCT和TMEM71这三个基因的表达量，即使在少量的12名ALS患者和12名健康者中，对健康者和ALS患者进行分类的AUC也达到0.85。这些结果证实，通过检查PBMC中这三个基因的表达水平可以区分ALS患者组和健康者组。

[实验例12]

研究人员对从26名健康者和18名ALS患者的iPS细胞中获得的运动神经元中三种基因的表达进行了研究。图26是根据本说明书一些实施例所示的iPS细胞和从iPS细胞获得的运动神经元的图像。图27A是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间PRKAR 1A的表达量图。图27B是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的QPCT表达量图。图27C是根据本说明书一些实施例所示的比较健康者的运动神经元和ALS患者的运动神经元之间的TMEM71的表达量的图。图28是根据本说明书一些实施例所示的关于从运动神经元提取的PRKAR1A、QPCT和TMEM71的组合的ROC评价结果的图。如图27A、27B和27C所示，健康者的运动神经元和ALS患者的运动神经元之间PRKAR1A、QPCT和TMEM71各基因的表达量没有差异。如图28所示，当将三个基因的表达量作为一组进行比较时，AUC为0.79，并且可以对健康者和ALS患者进行分类。

[实验例13]

此外，由于TDP-43的积累与ALS的病理学密切相关，因此本说明书研究了这三个基因与TDP-43之间的关系。图29是根据本说明书一些实施例所示的TDP-43相对于PRKAR1A、QPCT和TMEM71各基因的相对表达水平。如图29所示，当用siRNA敲除PRKAR1A、QPCT和TMEM71时，来自健康者和ALS患者的运动神经元中TDP-43的表达量显著增加。从这些结果来看，在本实施例的方法中使用HSIC鉴定的基因组尚未得知与ALS的病理学相关，但是本实验表明它可能是ALS的病理学中的新的参与者。

[实验例14]

将分别从健康者和ALS患者中提取的三个基因的表达量图示化。图30A是根据本说明书一些实施例所示的从健康者和ALS患者中提取的PRKAR1A的表达水平图。图30B是根据本说明书一些实施例所示的从健康者和ALS患者提取的QPCT表达水平图。图30C是根据本说明书一些实施例所示的从健康者和ALS患者提取的TMEM71的表达水平图。每幅图的纵轴代表基因表达量，横轴代表病例。

对于PRKAR1A、QPCT和TMEM71中的每一个，在ALS患者中相比在健康者中的表达量有更高的趋势，但样本之间存在很大差异，每个基因单独的表达量，无法对健康者和ALS患者进行分类。

在一些实施例中，如上述实施方式中说明的那样，可以通过组合PRKAR1A、QPCT、TMEM71这3种基因的表达量来对健康者和ALS患者进行分类。因此，证明了通过HSIC提取的三个基因的组合的有用性。

类似地，将从ALS致病基因和ALS相关基因中提取的基因的表达量图示化。图31A是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的SPG11的表达水平图。图31B是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CHMP2B的表达水平图。图31C是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的CSNK1G3的表达水平图。图31D是根据本说明书一些实施例所示的从ALS致病基因和ALS相关基因提取的DYNC1H1的表达水平图。每幅图的纵轴代表基因表达量，横轴代表病例。即使对于这些SPG11、CHMP2B、CSNK1G3和DYNC1H1基因，单独使用每个基因也不能对健康者和ALS患者进行分类，证明了利用RKAR1A，QPCT，TMEM71三个基因的组合将健康者与ALS患者分开的方法的有用性。

如上所述，本说明书使用称为HSIC(一种高维非线性统计模型)的机器学习算法，从实际数据中发现了ALS数字诊断所需的血液分子生物标志物。所鉴定的分子生物标志物此前在ALS中并未受到关注。然而，当用siRNA控制这些基因的表达时，发现ALS中重要的关键分子TDP-43的表达水平发生变化，表明这些标记物可能与ALS有关。

HSIC用于衡量两个随机向量之间的统计相关性，将两个随机向量变换为两个可再生核希尔伯特空间(RKHS)，并利用两个RKHS的希尔伯特施密特(HS)算子，衡量两个随机向量统计相关性。ALS是一种表现出非线性生物学现象的异质性疾病，其病理生理学不能用单一因素来解释，因此，本说明书利用这个模型，利用血液样本数据探索用于对ALS患者和健康者进行分类的基因组合。通过利用非线性模型，成功发现了PRKAR1A、QPCT和TMEM71的新型基因组合。

PRKAR1A基因编码丝氨酸/苏氨酸激酶、cAMP依赖性蛋白激酶I-α型调控蛋白激酶，它是哺乳动物中cAMP信号的主要介质。细胞中的多种生理配体会通过cAMP/PKA信号通路诱导磷酸化，这种磷酸化在新陈代谢、细胞增殖、分化和凋亡的调节过程中起着至关重要的作用。该基因的一个或两个等位基因的缺失会导致人类多发性硬化症和小鼠胚胎致命缺陷。尽管PRKAR1A基因与ALS之间的关系尚不清楚，但有报告称，ALS患者和SOD1小鼠脊髓中的PKA活性增加，而且ALS中cAMP/PKA的突触修复促进了运动神经元的活动依赖性神经保护。基于以上内容，PRKAR1A基因表达的增加有望对ALS产生预防作用。PRKAR1A基因的Gene ID、NCBI参考序列的示例以及NCBI参考网站的地址如下。

PRKAR1A

Gene ID：5573

NM_001276289.2、NM_212472.1

https://www.ncbi.nlm.nih.gov/gene/5573

QPTC基因编码谷氨酰胺酰肽环转移酶。据报告，阿尔茨海默病患者外周血中谷氨酰胺酰环化酶的表达增加，谷氨酰胺酰环化酶抑制剂可能是治疗阿尔茨海默病的潜在药物。此外，QPCT已被确定为亨廷顿病的治疗靶点，并且有报告称QPCT基因的多态性与精神分裂症的易感性相关。尽管与ALS病理学的关系尚不清楚，但QPCT基因表达增加可能与神经退行性病变的共同途径有关。QPTC基因的GeneID、NCBI参考序列的示例以及NCBI参考网站的地址如下。

OPCT

Gene ID：25797

NM_012413.4、NM_012413.3

https://www.ncbi.nlm.nih.gov/gene/25797

TMEM71编码跨膜蛋白，但其功能尚未明确阐明。基因敲除小鼠除了轻微甲状腺功能减退症外没有表现出任何表型。TMEM71在胶质母细胞瘤中表达增加并与免疫反应相关，并且TMEM71与PD-1和PD-L1表现出高度正相关。基因敲除小鼠没有表现出任何表型，只有轻微的甲状腺功能减退症。TMEM71基因表达增加可能与ALS的免疫反应有关。TMEM71基因的Gene ID、NCBI参考序列的示例以及NCBI参考网站的地址如下。

TMEM71

Gene ID：137835

NM_001145153.2、NM_144649.1

https://www.ncbi.nlm.nih.gov/gene/137835

本说明书使用非线性模型HSIC和真实数据来寻找用于ALS分类的基因组合。该方法不仅有助于识别用于ALS数字诊断的分子生物标志物，而且有可能超越人类想法驱动的方法得出全新的ALS发病机制。此外，该方法不仅限于ALS，还可以应用于其他多因素疾病或散发性疾病。

符号说明

100…信息处理装置、110…通信接口、120…输入接口、130…输出接口、140…处理单元、150…存储单元。

Claims

1.一种信息处理装置，其特征在于，所述装置包含处理单元，所述处理单元被配置为：

2.如权利要求1所述的信息处理装置，其特征在于，所述处理单元被配置为：

3.如权利要求2所述的信息处理装置，其特征在于，所述处理单元被配置为：

4.如权利要求1或2所述的信息处理装置，其特征在于，其中，

所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

所述预设数量为三；

所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

5.如权利要求1或2所述的信息处理装置，其特征在于，所述处理单元被配置为：

6.一种信息处理方法，其特征在于，所述方法由计算机执行，包括：

7.如权利要求6所述的信息处理方法，其特征在于，还包括：

8.如权利要求7所述的信息处理方法，其特征在于，还包括：

9.如权利要求7或8所述的信息处理方法，其特征在于，其中，

所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

所述预设数量为三；

所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

10.如权利要求7或8所述的信息处理方法，其特征在于，还包括：

11.一种由计算机执行的程序，其特征在于，包括：

12.如权利要求11所述的程序，其特征在于，还包括：

13.如权利要求12所述的程序，其特征在于，还包括：

14.如权利要求11或12所述的程序，其特征在于，其中，

所述多因素疾病或散发性疾病包括肌萎缩侧索硬化症；

所述预设数量为三；

所述预设数量的基因组合至少包括PRKAR1A、QPCT和TMEM71。

15.根据权利要求11或12所述的程序，其特征在于，还包括：