CN116628601B - 一种采用多模态信息对非人灵长类神经元分类的分析方法 - Google Patents

一种采用多模态信息对非人灵长类神经元分类的分析方法 Download PDF

Info

Publication number
CN116628601B
CN116628601B CN202310913200.5A CN202310913200A CN116628601B CN 116628601 B CN116628601 B CN 116628601B CN 202310913200 A CN202310913200 A CN 202310913200A CN 116628601 B CN116628601 B CN 116628601B
Authority
CN
China
Prior art keywords
feature
classification
random forest
training
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310913200.5A
Other languages
English (en)
Other versions
CN116628601A (zh
Inventor
刘胜
郝赵哲
程健燊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongshan Ophthalmic Center
Original Assignee
Zhongshan Ophthalmic Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongshan Ophthalmic Center filed Critical Zhongshan Ophthalmic Center
Priority to CN202310913200.5A priority Critical patent/CN116628601B/zh
Publication of CN116628601A publication Critical patent/CN116628601A/zh
Application granted granted Critical
Publication of CN116628601B publication Critical patent/CN116628601B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/061Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using biological neurons, e.g. biological neurons connected to an integrated circuit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Abstract

本发明公开了一种采用多模态信息对非人灵长类神经元分类的分析方法,包括如下:获取待分类的非人灵长类神经元的电生理信号、形态信息、基因信息三个模态的多个特征;构建电生理信号、形态信息、基因信息三个模态对应的分类模型,分别对分类模型进行训练;将待分类的非人灵长类神经元的电生理信号、形态信息、基因信息对应的特征分别输入对应训练好的分类模型中;其中,随机森林模型对输入的特征进行处理,得到特征向量和特征向量的重要性;将特征向量和特征向量的权重输入逻辑回归模型,最终输出对应每个神经元特征属于每个类别的预测概率;对三个模态下预测得到每个类别的预测概率进行加权平均,将得到预测概率最高对应的类别为最终的分类结果。

Description

一种采用多模态信息对非人灵长类神经元分类的分析方法
技术领域
本发明涉及医学与计算机信息技术领域,更具体的,涉及一种采用多模态信息对非灵长类神经元分类的分析方法。
背景技术
神经元是中枢神经系统的重要组成部分,是编码生理信息,执行中枢神经系统功能的基本元件。不同的神经元之间具有高度的差异性,在信息编码中起着不同的作用。对神经元的常规分类方法依赖人工观察,通过细胞形态、生理功能和基因表达手动分类标注的方法,对神经元进行分类。这样的标注方法高度依赖有经验的专家,具有较强的主观性且效率低下。
随着新技术的发展,可以高通量快速获得神经元的大量特征,建立神经元包含形态、功能和基因表达谱的多模态信息。为了更好的对神经元进行分类,研究者们相继提出一些算法,依据基因表达对神经元类型进行标注。但是结果不尽如人意。有些神经元之间的基因表达差异不大,而形态、电生理差异大,或者有些细胞无法完整获得基因信息,这些情况下已有的算法无法对它们进行标注。
同时,灵长类中枢神经系统与目前广泛研究的小鼠之间有很大的差异。例如,灵长类具有小鼠不具有的双眼视觉和三色视觉,具有分别对应左右眼的眼优势柱。同时,灵长类大脑皮层经过长期演变,演化出了多类具有特殊形态的新型神经元。例如有增大的胞体、等粗且呈双极分布的顶树突和基部树突,被称为纺锤形细胞,另一类同样具有增大的胞体,但脑表一侧树突分为两支,形成叉状,被称为叉状细胞。这些特异的神经元是灵长类等具有高级认知功能的动物特有,而在小鼠中并未发现。因此,基于小鼠的细胞分类方法并不能直接用于非人灵长类中。想要实现对灵长类神经元高效、准确的分类,在神经系统疾病患者中的临床应用,需要发展新的算法。
目前基于机器学习的方法客观对灵长类神经元进行分类的方法尚属空白。类似分类技术主要存在于小鼠中,例如现有技术通过获取单细胞基因(转录组)信息,之后采用荧光标记特异标签基因神经元,实现形态和基因的整合。但是这种技术存在的缺点如下:没有包含对神经元分类具有重要提示作用的电生理信息。同时,神经元形态只局限于病毒转染的表达特异标签基因的神经元,不能应用于全部神经元类型。这一方法将形态对应到已确认的细胞类型中,无法实现对神经元的自动分类。
又例如,现在技术还提供了使用机器学习方法将细胞如T细胞分类的方法。所述方法可以用于将混合细胞群体中的不同细胞子集或类型分类。但是这种技术存在的缺点如下:主要应用于白细胞分类。白细胞主要存在于血管中,在免疫中起到重要作用。其形态、电生理特性与基因表达与神经元有巨大差异。该方法仅依赖白细胞的成像信息进行分类。神经元形态复杂而多变,同时和白细胞有较大区别,无法采用该方法对神经元进行分类。
发明内容
本发明为了解决以上现有技术存在的不足与缺陷的问题,提供了一种采用多模态信息对非灵长类神经元分类的分析方法。
为实现上述本发明目的,采用的技术方案如下:
一种采用多模态信息对非人灵长类神经元分类的分析方法,所述的方法包括步骤如下:
获取待分类的非人灵长类神经元的电生理信号、形态信息、基因信息三个模态的多个特征;
分别构建电生理信号、形态信息、基因信息三个模态对应的分类模型,根据预先建立的数据库分别对分类模型进行训练,所述的分类模型均包括随机森林模型、逻辑回归模型;
将待分类的非人灵长类神经元的电生理信号、形态信息、基因信息对应的特征分别输入对应训练好的分类模型中;其中,随机森林模型对输入的特征进行处理,得到特征向量和特征向量的重要性;将特征向量和特征向量的权重输入逻辑回归模型,最终输出对应每个神经元特征属于每个类别的预测概率;
对三个模态下预测得到每个类别的预测概率进行加权平均,将得到预测概率最高对应的类别为最终的分类结果。
优选地,分别建立对应每个模态的数据库,对每个模态的数据库进行预处理,所述的预处理包括去除噪声、填补缺失值。
优选地,对分类模型进行训练,具体如下:
将数据库划分为训练集与测试集,所述训练集包括依据标注的细胞类别选出不同细胞类别之间差异最大的特征子集;
对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,得到本轮预测结果;
采用评估预测结果与专家标注的差异评估随机森林模型的性能是否符合要求;若不符合要求,则继续训练;
若符合要求,则训练结束,并把随机森林模型中的决策树集成得到的各个特征的重要性与特征向量共同作为逻辑回归模型的输入变量;
所述逻辑回归模型输出每个神经元属于不同类别的预测概率;
最终采用最大似然估计法来优化分类模型的参数。
进一步地,对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,具体如下:
对每个模态,将其特征对应训练集中的特征子集用有抽样放回的方法选取个神经元样本作为一个决策树的训练集,用抽样得到的样本集生成一棵决策树,输入对应的随机森林模型进行/>次训练,得到/>个决策树;
用训练得到包括个决策树的随机森林对测试样本进行预测,得到k个 决策树预测,用软投票法综合k个预测,决定随机森林模型本轮预测的结果。
再进一步地,采用指数获取每个特征的重要性:
计算第颗决策树的节点/>的/>指数/>
其中,表示节点/>中类别/>所占的比率,/>表示类别总数,/>;/>都是类别的符号,其中,是/>两个不同的类别(即/>),/>是指第i棵决策树中,节点/>中类别/>所占的比例;
特征在第/>颗决策树中出现的节点/>的重要性,也即节点q分支前后的/>指数变化量为:
其中,和/>分别表示分支后两个互不相同新节点的/>指数,/>表示特征的总数;
特征在第/>颗决策树出现的节点为集合/>,则/>在第/>颗树的重要性为:
由此随机森林模型中共有颗树,则有:
由此计算所有特征的基尼指数评分/>
再进一步地,所述逻辑回归模型的公式表达式,具体如下:
其中,表示样本/>的第/>个特征,/>,/>表示神经元所属类别,/>表示神经元类别的编号,/>,/>表示样本/>属于类别/>的概率,/>与/>是逻辑回归模型的系数。
再进一步地,在第类的逻辑回归模型中,令:
其中,表示样本/>的第/>个特征,/>表示每个特征对应的权重,/>表示预测结果;
把随机森林评估的特征重要性结果用于调整逻辑回归模型,则有:
其中,表示随机森林模型中的到的特征重要性。
进一步地,所述的分类模型还采用交叉验证的方式,将数据库进行多次随机分组若干个,每次分组后进行训练与测试,反复测试;此外,分类模型通过在随机森林模型中调整决策树的数量以及每棵树的最大深度,不断调整随机森林模型的参数,最终输出分类模型的最优参数组合。
一种计算机系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述采用多模态信息对非人灵长类神经元分类的分析方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时,实现如上所述采用多模态信息对非人灵长类神经元分类的分析方法的步骤。
本发明的有益效果如下:
本发明可以客观高效的对记录到的神经元进行分类。不再依赖专家手动标记, 精度和效率提高,同时考虑形态、电生理和基因表达。以往的分类方法往往只考虑一种,精度不高。或者在某些条件缺失时无法进行分类。
本发明采用基于随机森林模型与逻辑回归模型结合分类模型对细胞类型识别方法,其优点在于,利用随机森林模型集成多个决策树输出结果,可有效弥补了逻辑回归模型的缺点,提高了细胞类型识别的准确率。
本发明中的逻辑回归模型具有较强的处理高维数据的能力,由于细胞分类涉及到大量的特征变量,往往需要处理高维数据的算法模型;而分类模型由于通过特征计算,因此能够有效的减少了高维数据中特征冗余的影响。
附图说明
图1是本发明所述的采用多模态信息对非人灵长类神经元分类的分析方法的流程图。
图2是本发明采用多模态信息对非人灵长类神经元分类的分析方法的原理框图。
具体实施方式
下面结合附图和具体实施方式对本发明做详细描述。
实施例1
如图1所示,一种采用多模态信息对非人灵长类神经元分类的分析方法,以非人灵长类视皮层神经元为例,所述的方法包括步骤如下:
获取待分类的非人灵长类视皮层神经元的电生理信号、形态信息、基因信息三个模态的多个特征;
分别构建电生理信号、形态信息、基因信息三个模态对应的分类模型,根据预先建立的数据库分别对分类模型进行训练,所述的分类模型均包括随机森林模型、逻辑回归模型;
将待分类的非人灵长类视皮层神经元的电生理信号、形态信息、基因信息对应的特征分别输入对应训练好的分类模型中;其中,随机森林模型对输入的特征进行处理,得到特征向量和特征向量的重要性;将特征向量和特征向量的权重输入逻辑回归模型,最终输出对应每个神经元特征属于每个类别的预测概率;
对三个模态下预测得到每个类别的预测概率进行加权平均,将得到预测概率最高对应的类别为最终的分类结果。
本发明是首个针对灵长类设计的分类算法,相对于针对小鼠设计的算法,可以更好的应用于人类组织,有助于在临床中识别中枢神经系统神经元病变。本发明可以客观高效的对记录到的神经元进行分类。不再依赖专家手动标记, 精度和效率提高。同时考虑形态、电生理和基因表达。以往的分类方法往往只考虑一种,精度不高。或者在某些条件缺失时无法进行分类。
本发明采用基于随机森林模型与逻辑回归模型结合分类模型对细胞类型识别方法,其优点在于,利用随机森林模型集成多个决策树输出结果,可有效弥补了逻辑回归模型的缺点,提高了细胞类型识别的准确率。
本发明中的逻辑回归模型经过随机森林的改进,可以调整决策树的数量等参数,这进一步提高了逻辑回归模型的鲁棒性。
本发明中的逻辑回归模型具有较强的处理高维数据的能力,由于细胞分类涉及到大量的特征变量,往往需要处理高维数据的算法模型;而分类模型由于通过特征计算并选择最具代表性的特征子集,因此能够有效的较少了高维数据中特征冗余的影响。
在一个具体的实施例中,对于电生理信号的特征采集,具体如下:获得非人灵长类视皮层脑组织后,使用震动切片机切成 300 微米的脑片,在防止细胞过度兴奋的神经保护液中孵育 60 分钟。之后移至膜片钳记录系统中,开始记录。为获取完整 RNA 表达谱,采用较大电阻的玻璃电极 (3-5 MΩ) 实施封接。在形成封接后,等待 3-5 分钟至细胞状态恢复后破膜。形成稳定全细胞记录后,进一步进行不同膜电位下的放电模式、自发突触电活动及动作电位阈值的测量。测量得到的电生理信号经过降噪,平均后,提取相应的特征。
对于形态信息的特征采集,具体如下:神经元记录电极内液中的生物素在记录过程中自由扩散,由神经元胞体扩散至轴突和树突。记录完毕后,将脑片在新鲜配置的含有4%多聚甲醛及2.5 % 戊二醛的固定液中,4℃固定48小时,采用 ABC kit(Vector),对记录细胞显色。显色成功后采用Neurolucida系统在100倍油镜下对记录的细胞进行形态重构。根据形态重构结果提取相应的特征。
对于基因信息的特征采集,具体如下:通过膜片钳方式对初级视皮层神经元的自身电生理特性进行记录之后,进一步使用记录电极将细胞浆和胞核吸出,并转入提前加入裂解液的0.2 ml PCR 管中。利用Smart-seq 2系统将收集到的细胞内容物中RNA反转录成cDNA。经过PCR扩增、转座等操作获得 cDNA,并采用第二代测序获得细胞表达谱中各个基因的表达量。对数据进行归一化、降维、聚类 (Graph-based K-means cluster) 后,对所得结果采用 UMAP (Uniform Manifold Approximation and Projection)算法可视化。并通过差异基因分析,提取各个神经元类型的特征分子标记物表达量,也即特征。
在一个具体的实施例中,分别建立对应每个模态的数据库,对每个模态的数据库进行预处理,所述的预处理包括去除噪声、填补缺失值。
本实施例一共建立三个数据库,分别为电生理信号数据库、形态信息数据库、基因信息数据库,并分别对这三个数据库进行预处理。在已记录的神经元中,通过专家标记,在每个神经元亚型中选取挑选在细胞状态良好、电生理结果稳定、形态完整、基因表达质检合格的具有典型特征的神经元,对其进行三个模态上的特征提取,由此建立标准的数据库。
在本实施例中,针对每一个模态采用对应的分类模型进行分类,虽然一共有三个分类模型,但是它们的结构都是一样的。
在一个具体的实施例中,对分类模型进行训练,具体如下:
将数据库划分为训练集与测试集,所述训练集包括依据标注的细胞类别选出不同细胞类别之间差异最大的特征子集;
对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,得到本轮预测结果;
采用评估预测结果与专家标注的差异评估随机森林模型的性能是否符合要求;若不符合要求,则继续训练;
若符合要求,则训练结束,并把随机森林模型中的决策树集成得到的各个特征的重要性与特征向量共同作为逻辑回归模型的输入变量;
根据逻辑回归模型输出每个神经元属于不同类别的预测概率;
最终采用最大似然估计法来优化分类模型的参数。
在一个具体的实施例中,对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,具体如下:
对每个模态,将其特征对应训练集中的特征子集用有抽样放回的方法选取个神经元样本作为一个决策树的训练集,用抽样得到的样本集生成一棵决策树,输入对应的随机森林模型进行训练,得到/>个决策树;
用训练得到包括个决策树的随机森林对测试样本进行预测,得到k个 决策树预测,用软投票法综合k个预测,决定随机森林模型本轮预测的结果。
在一个具体的实施例中,采用指数获取每个特征的重要性:
计算第颗决策树的节点/>的/>指数/>
其中,表示节点/>中类别/>所占的比率,/>表示类别总数,/>;/>都是类别的符号,其中,是/>两个不同的类别(即/>),/>是指第i棵决策树中,节点/>中类别/>所占的比例;
特征在第/>颗决策树中出现的节点/>的重要性,也即节点q分支前后的/>指数变化量为:
其中,和/>分别表示分支后两个互不相同新节点的/>指数,/>表示特征的总数;
特征在第/>颗决策树出现的节点为集合/>,则/>在第/>颗树的重要性为:
由此随机森林模型中共有颗树,则有:
由此计算所有特征的基尼指数评分/>
在本实施例中,由于电生理信号、形态信息、基因信息三个模态的数据集庞大且复杂,单一的从这些原始特征进行分类会带来较大的误差。因此,使用随机森林模型能够组合挖掘特征的潜在性质,并且,对于变量较多、数据复杂的特征向量,提高随机森林模型的决策树数量能够提高随机森林模型的性能。
将每个模态对应的全部数据的特征子集的数据库划分为训练集与测试集,选取的训练集约占数据库的75%,测试集约占数据库的25%。
在随机森林算法中,每个决策树都是基于一个特征子集的数据和特征来构建;
在训练集中随机选择一定数量的特征数据作为决策树的训练集,并随机选择若干个特征组成决策树的特征子集;
利用特征子集对训练集进行分割,得到决策树。
在本实施例中,所述的随机森林模型的数学公式:
其中,是随机森林模型的预估函数,/>是第i个决策树的预估函数,T是决策树的数量。
本实施例中,所述的特征向量分别为电生理信号、形态信息、基因信息,而特征向量中的每个变量个体表示为特征下的某些数值表现,例如电生理特征的静息膜电位、动作电位幅度、动作电位上升相时间等表现,形态中的胞体位置、轴突树突的分布,以及基因特征中的SLC17A7、PVALB、SST的基因表达等,如表1、表2、表3所示。
表1:电生理模态的特征举例
表2:形态模态的特征举例
表3:基因模态的特征举例
在一个具体的实施例中,所述逻辑回归模型的公式表达式,具体如下:
其中,表示样本/>的第/>个特征,/>,/>表示神经元所属类别,/>表示神经元类别的编号,/>,/>表示样本/>属于类别/>的概率,/>与/>是逻辑回归模型的系数。
再进一步地,在第类的逻辑回归模型中,令:
其中,表示样本/>的第/>个特征,/>表示每个特征对应的权重,/>表示预测结果;
把随机森林评估的特征重要性结果用于调整逻辑回归模型,则有:
其中,表示随机森林模型中的到的特征重要性。
通过调整,可以更细致地调整每个特征对最终预测结果的贡献程度。这种调整方式可以使具有较高重要性的特征具有更大的权重,从而更显著地影响最终的预测结果;相反,具有较低重要性的特征可以通过缩小其权重,降低其对预测结果的影响。
在本实施例中,所述的分类模型还可以采用交叉验证的方式,将数据库进行多次随机分组若干个,每次分组后进行训练与测试,反复测试。此外,分类模型还会通过在随机森林模型中调整决策树的数量以及每棵树的最大深度,不断调整随机森林模型的参数,最终输出分类模型的最优参数组合。
得到最优分类模型后,提取其中各特征的重要性评估,将其加入逻辑回归模型,最终得到分类结果。
实施例2
基于以上实施例1所述的采用多模态信息对非灵长类神经元分类的分析方法,本实施例给出一个实际应用的例子,对食蟹猴PVALB神经元的分类。
(1)获取电生理特征
获得食蟹猴脑组织后,在以HEKA 膜片钳放大器为中心的记录系统中,采用 3-5 MΩ玻璃电极对第2/3 层,胞体圆滑的神经元进行记录。系统稳定后,记录该细胞的电学特性。包括在静息状态下的膜电阻和膜电容。此外,向神经元内注入600 毫秒,-0.8,-0.7,-0.6,-0.5, -0.4,-0.3,-0.2, -0.1, 0.1,0.2, 0.3, 0.4, 0.5,0.6,0.7,0.8 nA 的电流,记录电生理反应。通过采用Butterworth notch filterr 等算法去除50Hz 噪声后,对多条同样刺激强度的记录进行平均,提取动作电位幅度,频率,上升相时间,下降相时间,适应系数,tau值以及sag ratio。
(2)获取形态特征
神经元记录电极内液中的生物素在记录过程中自由扩散,由神经元胞体扩散至轴突和树突。记录完毕后,将脑片在新鲜配置的含有4% 多聚甲醛及2.5 % 戊二醛的固定液中,4℃固定48小时,采用 ABC kit(Vector),对记录细胞显色。显色成功后采用Neurolucida 系统在100倍油镜下对记录的细胞进行形态重构。获得胞体位置,大小,轴突及树突位置等信息。根据重构结果提取相应特征。
(3)获取基因组特征
通过膜片钳方式对神经元自身电生理特性进行记录之后,进一步使 用记录电极将细胞的胞浆和胞核吸出并转入提前加入裂解液的 0.2 ml PCR 管中。利用 Smart-seq2系统和莫洛尼鼠白血病病毒逆转录酶 (MMLV RT),将收集到的细胞内容物中 RNA 反转录成 cDNA。所需引物 分别为:5′-AAGCAGTGGTATCAACGCAGAGTACT(30)VN-3′(其中 V 代 表A, C 或 者 G) ; 以 及 5′-AAGCAGTGGTATCAACGCAGAG TACATrGrG+G-3′ (其中rG代表riboguanosines,+G代表locked nucleic acid (LNA)-modified guanosine)。cDNA含量大于2 ng,并且浓度峰值长 度大于1500 bp的cDNA样品将用于下一步测序。经过18个周期的PCR 扩增,申请人将使用 Tn5-tagmentation 方法进行建库,即利用 Tn5 转座酶 在 55 °C下将 cDNA 片段化 8 分钟,然后在室温下用 5 μl 0.2 % SDS 孵育 5 分钟,最后进行10 个循环的 PCR 扩增,并使用 Agilent 公司的生物分析仪对扩增的 cDNA 和最终文库进行质量检测。通过二代测序获得单个细胞中全部转录组基因表达数据。对数据进行归一化、降维、聚类 (Graph-based K-means cluster) 后,对所得结果采用 UMAP (UniformManifold Approximation and Projection)算法可视化。并通过差异基因分析,提取差异表达基因以及各个神经元类型的特征分子标记物 (SLC17A7,GAD1,HPCAL1,RORB,FEZF2,THEMIS,PVALB,SST,VIP)表达量。
(4)建立标准数据库、训练预测模型。
从标准数据库中提取的数据进行预处理后,提取形态、电生理、基因表达的三个模态下的多个特征。采用众数或中位数补充缺失的特征。之后将数据库划分为训练集与测试集,将总样本的75%用于构建训练集,25%用于构建测试集。首先利用bootstrap sample 的方式抽取样本,训练随机森林模型。通过遍历各关键参数的组合 (每棵树的最大可能深度设置为 2-8; 每棵树最多选择 3-10 个特征),最终选择对PVALB 神经元判定准确度和F1分数最高,且均大于90%的模型。将这一过程中选出的重要特征作为下一步分析的参量。
把随机森林模型输出的特征向量和特征的重要性作为逻辑回归模型的输入变量,所述逻辑回归模型输出每个样本属于每个类别的概率,采用最大似然估计法来优化分类模型的参数,构建出一个由嵌套随机森林的逻辑回归分类器。
为进一步提高和测试模型的准确性,还将测试集的数据运用在分类模型上,采用交叉验证的方式,将数据集进行多次随机分组,经过训练与测试,最终输出分类系统的最优参数组合。
(5)应用分类起预测目标神经元的类型
采用前述方法,提取待预测神经元的电生理、形态、基因表达三个模态对应的多个特征。分别输入各个模态对应的分类模型中,获得该神经元属于每个类别的概率。之后遵循少数服从多数的原则,应用软投票 (soft voting)的方法将电生理、形态和基因组模型预测样本为某一类别的概率的平均值作为标准,概率最高的对应的类型如果为PVALB 神经元,则判定这一神经元为PVALB 神经元。
实施例3
一种计算机系统,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述的处理器执行所述的计算机程序时,实现如实施例1所述的方法的步骤。
其中,存储器和处理器采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器和存储器的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器。
还实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,实现如实施例1所述的方法的步骤。
即,本领域技术人员可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得一个设备(可以是单片机,芯片等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种采用多模态信息对非人灵长类神经元分类的分析方法,其特征在于:所述的方法包括步骤如下:
获取待分类的非人灵长类神经元的电生理信号、形态信息、基因信息三个模态的多个特征;
分别构建电生理信号、形态信息、基因信息三个模态对应的分类模型,根据预先建立的数据库分别对分类模型进行训练,所述的分类模型均包括随机森林模型、逻辑回归模型;
将待分类的非人灵长类神经元的电生理信号、形态信息、基因信息对应的特征分别输入对应训练好的分类模型中;其中,随机森林模型对输入的特征进行处理,得到特征向量和特征向量的重要性;将特征向量和特征向量的权重输入逻辑回归模型,最终输出对应每个神经元特征属于每个类别的预测概率;
对三个模态下预测得到每个类别的预测概率进行加权平均,将得到预测概率最高对应的类别为最终的分类结果;
对分类模型进行训练,具体如下:
将数据库划分为训练集与测试集,所述训练集包括依据标注的细胞类别选出不同细胞类别之间差异最大的特征子集;
对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,得到本轮预测结果;
采用评估预测结果与专家标注的差异评估随机森林模型的性能是否符合要求;若不符合要求,则继续训练;
若符合要求,则训练结束,并把随机森林模型中的决策树集成得到的各个特征的重要性与特征向量共同作为逻辑回归模型的输入变量;
所述逻辑回归模型输出每个神经元属于不同类别的预测概率;
最终采用最大似然估计法来优化分类模型的参数;
采用指数获取每个特征的重要性:
计算第颗决策树的节点/>的/>指数/>
其中,表示节点/>中类别/>所占的比率,/>表示类别总数,/>;/>都是类别的符号,其中,是/>两个不同的类别,/>是指第i棵决策树中,节点/> 中类别/>所占的比例;
特征在第/>颗决策树中出现的节点/>的重要性,也即节点q分支前后的/>指数变化量为:
其中,和/>分别表示分支后两个互不相同新节点的/>指数,/>;/>表示特征的总数;
特征在第/>颗决策树出现的节点为集合/>,则/>在第/>颗树的重要性为:
由此随机森林模型中共有颗树,则有:
由此计算所有特征的基尼指数评分/>
所述逻辑回归模型的公式表达式,具体如下:
其中,表示样本/>的第/>个特征,/>,/>表示神经元所属类别,/>表示神经元类别的编号,/>,/>表示样本/>属于类别/>的概率,/>与/>是逻辑回归模型的系数;
在逻辑回归模型中,令:
其中,表示样本/>的第/>个特征,/>表示每个特征对应的权重;/>表示预测结果;
把随机森林评估的特征重要性结果用于调整逻辑回归模型,则有:
其中, 表示随机森林模型中得到的特征重要性。
2.根据权利要求1所述的采用多模态信息对非人灵长类神经元分类的分析方法,其特征在于:分别建立对应每个模态的数据库,对每个模态的数据库进行预处理,所述的预处理包括去除噪声、填补缺失值。
3.根据权利要求1所述的采用多模态信息对非人灵长类神经元分类的分析方法,其特征在于:对每个模态,将其特征对应训练集中的特征子集输入对应的随机森林模型进行训练,具体如下:
对每个模态,将其特征对应训练集中的特征子集用有抽样放回的方法选取个神经元样本作为一个决策树的训练集,用抽样得到的样本集生成一棵决策树,输入对应的随机森林模型进行训练,得到/>个决策树;
用训练得到包括个决策树的随机森林对测试样本进行预测,得到k个 决策树预测,用软投票法综合k个预测,决定随机森林模型本轮预测的结果。
4.根据权利要求1所述的采用多模态信息对非人灵长类神经元分类的分析方法,其特征在于:所述的分类模型还采用交叉验证的方式,将数据库进行多次随机分组若干个,每次分组后进行训练与测试,反复测试;此外,分类模型通过在随机森林模型中调整决策树的数量以及每棵树的最大深度,不断调整随机森林模型的参数,最终输出分类模型的最优参数组合。
5.一种计算机系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述采用多模态信息对非人灵长类神经元分类的分析方法的步骤。
6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述的计算机程序被处理器执行时,实现如权利要求1至4任一项所述采用多模态信息对非人灵长类神经元分类的分析方法的步骤。
CN202310913200.5A 2023-07-25 2023-07-25 一种采用多模态信息对非人灵长类神经元分类的分析方法 Active CN116628601B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310913200.5A CN116628601B (zh) 2023-07-25 2023-07-25 一种采用多模态信息对非人灵长类神经元分类的分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310913200.5A CN116628601B (zh) 2023-07-25 2023-07-25 一种采用多模态信息对非人灵长类神经元分类的分析方法

Publications (2)

Publication Number Publication Date
CN116628601A CN116628601A (zh) 2023-08-22
CN116628601B true CN116628601B (zh) 2023-11-10

Family

ID=87603115

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310913200.5A Active CN116628601B (zh) 2023-07-25 2023-07-25 一种采用多模态信息对非人灵长类神经元分类的分析方法

Country Status (1)

Country Link
CN (1) CN116628601B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016134211A1 (en) * 2015-02-20 2016-08-25 President And Fellows Of Harvard College Structural phenotyping of myocytes
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
CN110082516A (zh) * 2019-05-08 2019-08-02 中国科学院深圳先进技术研究院 一种多维度的脑细胞信息获取方法及其应用
CN112382392A (zh) * 2020-11-25 2021-02-19 珠海圣美生物诊断技术有限公司 一种用于肺结节风险性评估的系统
CN113736734A (zh) * 2021-09-23 2021-12-03 中山大学中山眼科中心 一种用于灵长类动物神经元分离的试剂盒及方法
WO2023283631A2 (en) * 2021-07-08 2023-01-12 The Broad Institute, Inc. Methods for differentiating and screening stem cells
WO2023091970A1 (en) * 2021-11-16 2023-05-25 The General Hospital Corporation Live-cell label-free prediction of single-cell omics profiles by microscopy
CN116401555A (zh) * 2023-06-07 2023-07-07 广州华银医学检验中心有限公司 双胞识别模型的构建方法、系统及存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220392613A1 (en) * 2019-08-30 2022-12-08 Juno Therapeutics, Inc. Machine learning methods for classifying cells

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036571A (zh) * 2014-12-08 2018-12-18 20/20基因系统股份有限公司 用于预测患有癌症的可能性或风险的方法和机器学习系统
WO2016134211A1 (en) * 2015-02-20 2016-08-25 President And Fellows Of Harvard College Structural phenotyping of myocytes
CN110082516A (zh) * 2019-05-08 2019-08-02 中国科学院深圳先进技术研究院 一种多维度的脑细胞信息获取方法及其应用
CN112382392A (zh) * 2020-11-25 2021-02-19 珠海圣美生物诊断技术有限公司 一种用于肺结节风险性评估的系统
WO2023283631A2 (en) * 2021-07-08 2023-01-12 The Broad Institute, Inc. Methods for differentiating and screening stem cells
CN113736734A (zh) * 2021-09-23 2021-12-03 中山大学中山眼科中心 一种用于灵长类动物神经元分离的试剂盒及方法
WO2023091970A1 (en) * 2021-11-16 2023-05-25 The General Hospital Corporation Live-cell label-free prediction of single-cell omics profiles by microscopy
CN116401555A (zh) * 2023-06-07 2023-07-07 广州华银医学检验中心有限公司 双胞识别模型的构建方法、系统及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Identification of visual cortex cell types and species differences using single-cell RNA sequencing;Jia-ru Wei等;《nature communications》;1-21 *
Unified classification of mouse retinal ganglion cells using function, morphology, and gene expression;Jillian Goetz等;《Cell Reports》;第1-23页 *

Also Published As

Publication number Publication date
CN116628601A (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
Aydadenta et al. A clustering approach for feature selection in microarray data classification using random forest
Shekhar et al. Diversification of multipotential postmitotic mouse retinal ganglion cell precursors into discrete types
Ismail et al. Behavioural features for mushroom classification
CN110797084B (zh) 基于深层神经网络的脑脊液蛋白质的预测方法
CN111243736A (zh) 一种生存风险评估方法及系统
Gillette et al. Topological characterization of neuronal arbor morphology via sequence representation: II-global alignment
CN112699793A (zh) 一种基于随机森林的疲劳驾驶检测优化识别方法
CN114596467A (zh) 基于证据深度学习的多模态影像分类方法
CN111860576A (zh) 一种基于随机森林的子宫内膜肿瘤分类标记方法
CN109585017A (zh) 一种年龄相关性黄斑变性的风险预测算法模型和装置
CN110331197A (zh) lncRNA在制备预测头颈鳞状细胞癌预后的产品中的应用
Pandolfi et al. Artificial neural networks as a tool for plant identification: a case study on Vietnamese tea accessions
CN116628601B (zh) 一种采用多模态信息对非人灵长类神经元分类的分析方法
Aevermann et al. NS-Forest: a machine learning method for the objective identification of minimum marker gene combinations for cell type determination from single cell RNA sequencing
WO2023134390A1 (en) Method for evaluating the quality of stem cells
CN114093512B (zh) 一种基于多模态数据和深度学习模型的生存预测方法
CN116956138A (zh) 一种基于多模态学习的影像基因融合分类方法
CN116072302A (zh) 基于有偏随机森林模型的医疗不平衡数据分类方法
CN113918786A (zh) 一种细胞亚型智能判定方法
CN114287910A (zh) 一种基于多阶段图卷积融合的脑功能连接分类方法
CN112819765A (zh) 一种肝脏图像处理方法
CN113971984A (zh) 分类模型构建方法及装置、电子设备、存储介质
CN115841847B (zh) 一种微生物信息测定及提取系统和方法
CN117312893B (zh) 一种菌群匹配度的评估方法及相关装置
WO2023134391A1 (en) System for evaluating quality of stem cells

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant