CN117854720A

CN117854720A - 基于菌属特征的自闭症风险预测装置和计算机设备

Info

Publication number: CN117854720A
Application number: CN202311663348.4A
Authority: CN
Inventors: 刘晶星; 黄平; 林华明; 曾莉; 苏展勤; 吴渊源; 赵静
Original assignee: Guangzhou Daan Center For Clinical Laboratory Co ltd
Current assignee: Guangzhou Daan Center For Clinical Laboratory Co ltd
Priority date: 2023-12-06
Filing date: 2023-12-06
Publication date: 2024-04-09

Abstract

本申请涉及一种基于菌属特征的自闭症风险预测装置、计算机设备、存储介质和计算机程序产品，涉及医学、生物学及生物信息学的技术领域。装置包括：菌属样本数据获取模块，用于获取目标对象中目标部位分布的针对目标菌属的菌属样本数据；特征向量确定模块，用于根据菌属样本数据的香农多样性指数、菌属样本数据中各目标菌属的丰度值，确定菌属样本数据对应的特征向量；概率预测模块，用于将菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型；等级确定模块，用于根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级。采用本方法能够提升针对自闭症的风险等级的预测准确率。

Description

基于菌属特征的自闭症风险预测装置和计算机设备

技术领域

本申请涉及医学、生物学及生物信息学的技术领域，特别是涉及一种基于菌属特征的自闭症风险预测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

自闭症谱系障碍（Autism Spectrum Disorder，ASD），是一类以严重孤独、缺乏情感反应、语言发育障碍、刻板重复动作等反应为特征的发育障碍疾病。随着近十年高通量测序技术的进步，让肠道微生物组的分析更加便捷，大量研究揭示了肠道菌群与健康之间的关联，肠道菌群及其代谢物作为大脑发育和行为的关键调节器，影响着我们大脑的功能及情绪和行为，反之亦然。也就是说，在我们的中枢神经系统和肠道菌群之间存在双向交流，这就是肠脑轴。肠道菌群与焦虑、抑郁、精神分裂，以及自闭症相关，针对肠道菌群的疗法也成了一个不断增长的科研热点。

传统的针对自闭症的风险等级的预测方法，主要是检测个别特异性菌种的丰度和多样性指数是否在正常范围内用于判断自闭症风险，来进行风险等级划分，但由于影响肠道菌群的因素很多，个体差异非常大，单个指标的正常范围有很大波动，导致有较大概率出现每个指标都落在正常范围的假阴性结果，或者仅单个指标异常的假阳性结果，从而导致传统的针对自闭症的风险等级的预测准确率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提升针对自闭症的风险等级的预测准确率的基于菌属特征的自闭症风险预测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

第一方面，本申请提供了一种基于菌属特征的自闭症风险预测方法。所述方法包括：

获取目标对象中目标部位分布的针对目标菌属的菌属样本数据；所述目标菌属包括与自闭症患者相关联的菌属；

根据所述菌属样本数据的香农多样性指数、所述菌属样本数据中各所述目标菌属的丰度值，确定所述菌属样本数据对应的特征向量；

将所述菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型；所述自闭症概率预测模型用于输出与所述菌属样本数据对应的自闭症预测概率值；

根据所述自闭症预测概率值和预设的风险等级划分规则，确定所述目标对象对应的自闭症风险等级；所述自闭症风险等级包括所述目标对象出现自闭症症状的风险概率所处的级别。

在其中一个实施例中，所述方法还包括：

获取训练样本数据集；

根据所述预训练的自闭症概率预测模型，预测得到所述训练样本数据集中各样本数据的所述自闭症预测概率值；

根据所述各样本数据的所述自闭症预测概率值和所述训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线；

根据所述健康组和患者组的概率分布曲线，确定所述风险等级划分规则。

在其中一个实施例中，所述根据所述健康组和患者组的概率分布曲线，确定所述风险等级划分规则，包括：

获取所述健康组和患者组的概率分布曲线的交叉点的第一概率值；

获取所述健康组和患者组的概率分布曲线的第二概率值；所述第二概率值包括同一概率值的情况下所述健康组的概率密度值为所述患者组的概率密度值的预设倍数的概率值；

根据所述第一概率值和所述第二概率值，确定所述风险等级划分规则。

在其中一个实施例中，所述根据所述自闭症预测概率值和预设的风险等级划分规则，确定所述目标对象对应的自闭症风险等级，包括：

在所述自闭症预测概率值小于或者等于所述第一概率值的情况下，确定所述自闭症风险等级为第一等级；

在所述自闭症预测概率值大于所述第一概率值，且小于所述第二概率值的情况下，确定所述自闭症风险等级为第二等级；

在所述自闭症预测概率值大于或者等于所述第二概率值的情况下，确定所述自闭症风险等级为第三等级。

在其中一个实施例中，所述方法还包括：

获取训练样本数据集，并确定所述训练样本数据集中各菌属的丰度值；

根据所述各菌属的丰度值的差异特征，确定所述目标菌属；

根据所述训练样本数据集中各目标菌属的香农多样性指数、所述训练样本数据集中各菌属的丰度值，确定所述训练样本数据集中各样本数据对应的特征向量；

基于所述训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到所述预训练的自闭症概率预测模型。

在其中一个实施例中，所述基于所述训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到所述预训练的自闭症概率预测模型，包括：

将所述训练样本数据集划分为k个不相交的子集；

将k个所述子集中的一个作为测试集，剩余k-1个作为训练集；

根据所述训练集对初始化的自闭症概率预测模型进行训练，并根据所述测试集对每次训练后的模型进行测试，得到每次训练的分类结果指标；

在所述每次训练的分类结果指标的平均值作满足预设指标阈值的情况下，结束模型训练，并将训练后的模型作为所述预训练的自闭症概率预测模型。

第二方面，本申请还提供了一种基于菌属特征的自闭症风险预测装置。所述装置包括：

菌属样本数据获取模块，用于获取目标对象中目标部位分布的针对目标菌属的菌属样本数据；所述目标菌属包括与自闭症患者相关联的菌属；

特征向量确定模块，用于根据所述菌属样本数据的香农多样性指数、所述菌属样本数据中各所述目标菌属的丰度值，确定所述菌属样本数据对应的特征向量；

概率预测模块，用于将所述菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型；所述自闭症概率预测模型用于输出与所述菌属样本数据对应的自闭症预测概率值；

等级确定模块，用于根据所述自闭症预测概率值和预设的风险等级划分规则，确定所述目标对象对应的自闭症风险等级；所述自闭症风险等级包括所述目标对象出现自闭症症状的风险概率所处的级别。

第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

上述基于菌属特征的自闭症风险预测方法、装置、计算机设备、存储介质和计算机程序产品，首先获取目标对象中目标部位分布的针对目标菌属的菌属样本数据，然后根据菌属样本数据的香农多样性指数、菌属样本数据中各目标菌属的丰度值，确定菌属样本数据对应的特征向量，进而将菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型，最后根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级，综合了多种菌群指标，将菌属的丰度、整体菌属的香农指数进行了整合后共同用于概率的预测，并基于概率分布情况对分类阈值进行了量化，明确了分级结果，从而提升了针对自闭症的风险等级预测的准确率。

附图说明

图1为一个实施例中基于菌属特征的自闭症风险预测方法的应用环境图；

图2为一个实施例中基于菌属特征的自闭症风险预测方法的流程示意图；

图3为另一个实施例中基于菌属特征的自闭症风险预测方法的流程示意图；

图4为一个实施例中基于菌属特征的自闭症风险预测方法的概率分布曲线图；

图5为一个实施例中基于菌属特征的自闭症风险预测装置的结构框图；

图6为一个实施例中计算机设备的内部结构图；

图7为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本申请实施例提供的基于菌属特征的自闭症风险预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。

其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种基于菌属特征的自闭症风险预测方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S201，获取目标对象中目标部位分布的针对目标菌属的菌属样本数据。

其中，目标对象指的是待进行自闭症风险预测的待测者，如待测儿童，目标部位包括但不限于肠道，目标菌属包括与自闭症患者相关联的菌属。

示例性地，统计两组样本中各菌属的丰度差异，找到18个和自闭症相关的目标菌属，具体包括：Veillonella、Ruminococcus、Streptococcus、Bacteroides、Clostridium、Haemophilus、Lachnoclostridium、Roseburia、Dorea、Megamonas、Bifidobacterium、Faecalibacterium、Coprococcus、Blautia、Prevotella、Dialister、Desulfovibrio、Lachnospira。

S202，根据菌属样本数据的香农多样性指数、菌属样本数据中各目标菌属的丰度值，确定菌属样本数据对应的特征向量。

其中，香农多样性指数用于评估样本中菌属的多样性特征，丰度值用于表征样本中菌属的绝对或相对数量，特征向量为根据数据特征得到的反映样本特征的向量，便于后续进行模型训练。

示例性地，每个样本使用18个菌属的丰度值和香农指数构成该样本的特征向量。

S203，将菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型。

其中，自闭症概率预测模型用于输出与菌属样本数据对应的自闭症预测概率值，自闭症概率预测模型包括但不限于随机森林分类模型。

S204，根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级。

其中，自闭症风险等级包括目标对象出现自闭症症状的风险概率所处的级别。

示例性地，可以将0.4-0.5设为中风险等级，相当于是一个缓冲区间；将大于0.5的区间判定为高风险等级，小于0.4的区间判定为低风险等级。

上述基于菌属特征的自闭症风险预测方法中，首先获取目标对象中目标部位分布的针对目标菌属的菌属样本数据，然后根据菌属样本数据的香农多样性指数、菌属样本数据中各目标菌属的丰度值，确定菌属样本数据对应的特征向量，进而将菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型，最后根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级，综合了多种菌群指标，将菌属的丰度、整体菌属的香农指数进行了整合后共同用于概率的预测，并基于概率分布情况对分类阈值进行了量化，明确了分级结果，从而提升了针对自闭症的风险等级预测的准确率。

在一个实施例中，方法还包括：获取训练样本数据集；根据预训练的自闭症概率预测模型，预测得到训练样本数据集中各样本数据的自闭症预测概率值；根据各样本数据的自闭症预测概率值和训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线；根据健康组和患者组的概率分布曲线，确定风险等级划分规则。

其中，训练样本数据集既可以用于模型训练，又可以用于风险等级划分规则的制定。

其中，训练样本数据集中各样本数据的组别标签用于对模型进行有监督的训练，组别标签包括但不限于正常发育儿童的TD组、自闭症患儿的ASD组。

其中，概率分布曲线可以为概率密度曲线。

示例性地，用于确定级别划分规则的样本集中一共1580个样本，其中1025个健康对象的样本，555患者的样本，使用模型得到预测概率值，根据1025个健康人和555个患者的预测值，使用的python中seaborn的kdeplot函数进行图像绘制，通过绘制后的图像可以分析得出，风险等级划分规则为：将0.4-0.5设为中风险；将大于0.5的区间判定为高风险；将小于0.4的区间判定为低风险。

本实施例中，首先获取训练样本数据集，然后根据预训练的自闭症概率预测模型，预测得到训练样本数据集中各样本数据的自闭症预测概率值，进而根据各样本数据的自闭症预测概率值和训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线，最后根据健康组和患者组的概率分布曲线，确定风险等级划分规则，利用两种标签分组下的概率密度曲线的具体图像特征，生成风险等级的确定规则，提升了风险等级预测的可量化性。

在一个实施例中，根据健康组和患者组的概率分布曲线，确定风险等级划分规则，包括：获取健康组和患者组的概率分布曲线的交叉点的第一概率值；获取健康组和患者组的概率分布曲线的第二概率值；根据第一概率值和第二概率值，确定风险等级划分规则。

其中，第二概率值包括同一概率值的情况下健康组的概率密度值为患者组的概率密度值的预设倍数的概率值。

示例性地，在完成对健康组和患者组的概率分布曲线的绘制之后，根据图中两条曲线的交叉点在0.4附近，即小于0.4的时候以健康人群的曲线为主，大于0.4的时候以自闭症患者人群的曲线为主，因此确定将概率值0.4作为进行等级划分的阈值之一；在概率值为0.5的位置，健康人群的曲线高度大约是自闭症患者人群的曲线高度的两倍，因此确定0.5为进行等级划分的阈值之一。

其中，健康组又称为TD组，患者组又称为ASD组，第一概率值为0.4，第二概率值为0.5。

本实施例中，首先获取健康组和患者组的概率分布曲线的交叉点的第一概率值，然后获取健康组和患者组的概率分布曲线的第二概率值，进而根据第一概率值和第二概率值，确定风险等级划分规则，实现了根据图像特征确定具体规则划分指标，提升了指标的精准性，进而提升利用指标进行风险等级划分的准确度。

在一个实施例中，根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级，包括：在自闭症预测概率值小于或者等于第一概率值的情况下，确定自闭症风险等级为第一等级；在自闭症预测概率值大于第一概率值，且小于第二概率值的情况下，确定自闭症风险等级为第二等级；在自闭症预测概率值大于或者等于第二概率值的情况下，确定自闭症风险等级为第三等级。

其中，第一等级可以为自闭症低风险等级，第二等级可以为自闭症中风险等级，第三等级可以为自闭症高风险等级。

示例性地，可以将0.4-0.5设为中风险，相当于是一个缓冲区间；将大于0.5的区间判定为高风险，小于0.4的区间判定为低风险。

本实施例中，首先在自闭症预测概率值小于或者等于第一概率值的情况下，确定自闭症风险等级为第一等级，然后在自闭症预测概率值大于第一概率值，且小于第二概率值的情况下，确定自闭症风险等级为第二等级，最后在自闭症预测概率值大于或者等于第二概率值的情况下，确定自闭症风险等级为第三等级，实现了根据概率指标进行等级的划分过程，量化了风险等级划分过程。

在一个实施例中，方法还包括：获取训练样本数据集，并确定训练样本数据集中各菌属的丰度值；根据各菌属的丰度值的差异特征，确定目标菌属；根据训练样本数据集中各目标菌属的香农多样性指数、训练样本数据集中各菌属的丰度值，确定训练样本数据集中各样本数据对应的特征向量；基于训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到预训练的自闭症概率预测模型。

其中，训练样本数据集用于对模型进行训练，各菌属的丰度值用于体现各菌属的数量和比例，以便根据丰度的差异来确定目标菌属。

其中，香农多样性指数用于评估样本中菌属的多样性特征，特征向量为根据数据特征得到的反映样本特征的向量，便于进行模型训练。

示例性地，16S测序数据常规分析，获得样本中各菌属的丰度，计算多样性香农指数，统计两组样本中各菌属的丰度差异，找到18个和自闭症相关的菌属每个样本使用上述18个菌属的丰度值和香农指数构成该样本的特征向量，同时每个样本对应一个分组（TD组或ASD组），由此建立一个随机森林分类模型，使用K折交叉验证训练和测试上述模型的准确率。

本实施例中，首先获取训练样本数据集，并确定训练样本数据集中各菌属的丰度值，然后根据各菌属的丰度值的差异特征，确定目标菌属，进而根据香农多样性指数和丰度值，确定训练样本数据集中各样本数据对应的特征向量，最后基于特征向量和组别标签，利用K折交叉验证的方法进行训练，得到预训练的自闭症概率预测模型，将菌属丰度值和香农指数作为特征向量的一部分，引入到模型训练过程中，完成了对多种指标的综合使用，提升了概率预测的准确性，进而提升风险划分的准确性。

在一个实施例中，基于训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到预训练的自闭症概率预测模型，包括：将训练样本数据集划分为k个不相交的子集；将k个子集中的一个作为测试集，剩余k-1个作为训练集；根据训练集对初始化的自闭症概率预测模型进行训练，并根据测试集对每次训练后的模型进行测试，得到每次训练的分类结果指标；在每次训练的分类结果指标的平均值作满足预设指标阈值的情况下，结束模型训练，并将训练后的模型作为预训练的自闭症概率预测模型。

其中，k指的是子集划分数和训练次数。分类结果指标是衡量分类模型性能的指标，用于评估模型对样本进行分类的准确性和可靠性，分类指标包括准确率、精确率、召回率、F1值。

示例性地，将全部训练集S分成k个不相交的子集，假设S中训练例个数为m，那么每一个子集有m/k个训练样例，相应子集称作{s1,s2,...sk}；每次从分好的子集里面，拿出一个作为测试集，其他k-1个作为训练集；在k-1个训练集上训练出学习模型；把这个模型放到测试集上，得到分类结果指标；计算k次求得的分类指标的平均值，在该平均值大于或者等于86%的情况下，结束对模型的训练。

本实施例中，首先将训练样本数据集划分为k个不相交的子集，然后将k个子集中的一个作为测试集，剩余k-1个作为训练集，进而根据训练集对初始化的自闭症概率预测模型进行训练，并根据测试集对每次训练后的模型进行测试，得到每次训练的分类结果指标，最后在每次训练的分类结果指标的平均值作满足预设指标阈值的情况下，结束模型训练，并将训练后的模型作为预训练的自闭症概率预测模型，描述了详细的数据集划分和模型训练过程，并给出了结束模型训练的具体触发条件，提升了模型训练的效率。

在另一个实施例中，如图3所示，提供了一种基于菌属特征的自闭症风险预测方法，包括以下步骤：

S301，获取训练样本数据集。

S302，根据预训练的自闭症概率预测模型，预测得到训练样本数据集中各样本数据的自闭症预测概率值。

S303，根据各样本数据的自闭症预测概率值和训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线。

S304，获取健康组和患者组的概率分布曲线的交叉点的第一概率值。

S305，获取健康组和患者组的概率分布曲线的第二概率值。

S306，根据第一概率值和第二概率值，确定风险等级划分规则。

S307，在自闭症预测概率值小于或者等于第一概率值的情况下，确定自闭症风险等级为第一等级。

S308，在自闭症预测概率值大于第一概率值，且小于第二概率值的情况下，确定自闭症风险等级为第二等级。

S309，在自闭症预测概率值大于或者等于第二概率值的情况下，确定自闭症风险等级为第三等级。

需要说明的是，上述步骤的具体限定可以参见上文对一种基于菌属特征的自闭症风险预测方法的具体限定，在此不再赘述。

为了便于本领域技术人员的理解，图4提供了一种基于菌属特征的自闭症风险预测方法的概率分布曲线图；如图4所示，图4示意了两条概率分布曲线，曲线中横坐标表示概率值，纵坐标表示概率密度值。其中，先达到峰值的曲线为分组标签为健康人群（TD）的概率分布曲线，后达到峰值的曲线为分组标签为自闭症患者人群（ASD）的概率分布曲线。

下面参考图4，以一个具体的实施例详细描述基于菌属特征的自闭症风险预测方法。值得理解的是，下述描述仅是示例性说明，而不是对申请的具体限制。

本申请提供的基于菌属特征的自闭症风险预测方法，通过在大量数据中挖掘出18个和自闭症关联的菌属，结合多样性香农指数，构建了随机森林模型，使用10-折交叉验证划分训练集和测试集用于模型训练和测试，平均准确率达到86%，以利用训练好的模型来实现通过肠道菌群16S rDNA检测来判断自闭症风险的目的。

本申请提供的基于菌属特征的自闭症风险预测方法所采用的数据集为：1580例0-14岁儿童肠道16S rDNA二代测序数据，其中1025例为正常发育儿童（TD组），555例为自闭症患儿（ASD组）。

本申请提供的基于菌属特征的自闭症风险预测方法所采用的数据分析方法包括以下步骤：

1、16S测序数据常规分析，获得样本中各菌属的丰度，计算多样性香农指数。

2、统计两组样本中各菌属的丰度差异，找到18个和自闭症相关的菌属：Veillonella、Ruminococcus、Streptococcus、Bacteroides、Clostridium、Haemophilus、Lachnoclostridium、Roseburia、Dorea、Megamonas、Bifidobacterium、Faecalibacterium、Coprococcus、Blautia、Prevotella、Dialister、Desulfovibrio、Lachnospira。

3、每个样本使用上述18个菌属的丰度值和香农指数构成该样本的特征向量，同时每个样本对应一个分组（TD组或ASD组），由此建立一个随机森林分类模型。其中，分组的标签用于对模型进行有监督的训练。

4、使用K折交叉验证训练和测试上述模型的准确率。

①将全部训练集S分成k个不相交的子集，假设S中训练例个数为m，那么每一个子集有m/k个训练样例，相应子集称作{s1,s2,...sk}。需要说明的是，子集的划分依据包括但不限于随机划分。

②每次从分好的子集里面，拿出一个作为测试集，其他k-1个作为训练集。

③在k-1个训练集上训练出学习模型。

④把这个模型放到测试集上，得到分类结果指标。其中，分类指标是衡量分类模型性能的指标，用于评估模型对样本进行分类的准确性和可靠性，分类指标包括准确率、精确率、召回率、F1值。

⑤计算k次求得的分类指标的平均值。采用10-折交叉验证，求得每次测试的roc_auc值，求均值为86%。其中，AUC（Area Under roc Curve）是一种用来度量分类模型好坏的一个标准，属于分类结果指标中的一种。

5、每个样本的特征向量输入模型后得到的预测概率值，统计TD组和ASD组中该值的分布曲线，通过图4可知，两组样本有显著差别。

6、使用上述概率预测值用于判断自闭症风险的指标，小于0.4为低风险，0.4-0.5为中风险，大于0.5为高风险。

具体地，用于确定级别划分规则的样本集中一共1580个样本，其中1025个健康对象的样本，555患者的样本，使用模型得到预测概率值，根据1025个健康人和555个患者的预测值分别绘制概率密度曲线，比如，使用的python中seaborn的kdeplot函数进行图像绘制，曲线横坐标即预测值，对应的纵坐标为该预测值的密度，可以理解为发生率，通过绘制后的图像可以分析得出，健康人群的预测值通常比较小，其集中在图的左边；而患者的预测值通常比较大，其集中在图的右边。

在图4中，根据图中两条曲线的交叉点在0.4附近，即小于0.4的时候以健康人群的曲线为主，大于0.4的时候以自闭症患者人群的曲线为主，因此确定将概率值0.4作为进行等级划分的阈值之一；在概率值为0.5的位置，健康人群的曲线高度大约是自闭症患者人群的曲线高度的两倍，因此确定0.5为进行等级划分的阈值之一。

本申请提供的基于菌属特征的自闭症风险预测方法，使用机器学习模型综合了多项肠道菌群指标，可以处理冲突的指标给出统一的结论，模型将两种不同指标（若干特异菌属的丰度、整体菌属的香农指数）进行了整合，对分类阈值进行了量化，使得结果直观明确。

本申请提供的基于菌属特征的自闭症风险预测方法，除随机森林模型外，也测试了其他机器学习模型，例如支持向量机、神经网络、朴素贝叶斯等，其中随机森林模型的测试效果达到预期标准，因此选择随机森林模型作为本申请的预测模型。

本申请提供的基于菌属特征的自闭症风险预测方法中，多样性指数有很多种类，除shannon指数外，还有Simpson指数、均匀度指数、Chao1指数等，都可以用于模型；而多样性指数的计算可以基于菌属、菌种、OTU-ID等。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的基于菌属特征的自闭症风险预测方法的基于菌属特征的自闭症风险预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个基于菌属特征的自闭症风险预测装置实施例中的具体限定可以参见上文中对于基于菌属特征的自闭症风险预测方法的限定，在此不再赘述。

在一个实施例中，如图5所示，提供了一种基于菌属特征的自闭症风险预测装置，包括：菌属样本数据获取模块501、特征向量确定模块502、概率预测模块503、等级确定模块504，其中：菌属样本数据获取模块501，用于获取目标对象中目标部位分布的针对目标菌属的菌属样本数据；目标菌属包括与自闭症患者相关联的菌属；特征向量确定模块502，用于根据菌属样本数据的香农多样性指数、菌属样本数据中各目标菌属的丰度值，确定菌属样本数据对应的特征向量；概率预测模块503，用于将菌属样本数据对应的特征向量输入到预训练的自闭症概率预测模型；自闭症概率预测模型用于输出与菌属样本数据对应的自闭症预测概率值；等级确定模块504，用于根据自闭症预测概率值和预设的风险等级划分规则，确定目标对象对应的自闭症风险等级；自闭症风险等级包括目标对象出现自闭症症状的风险概率所处的级别。

在一个实施例中，装置还用于：获取训练样本数据集；根据预训练的自闭症概率预测模型，预测得到训练样本数据集中各样本数据的自闭症预测概率值；根据各样本数据的自闭症预测概率值和训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线；根据健康组和患者组的概率分布曲线，确定风险等级划分规则。

在一个实施例中，装置还用于：获取健康组和患者组的概率分布曲线的交叉点的第一概率值；获取健康组和患者组的概率分布曲线的第二概率值；第二概率值包括同一概率值的情况下健康组的概率密度值为患者组的概率密度值的预设倍数的概率值；根据第一概率值和第二概率值，确定风险等级划分规则。

在一个实施例中，装置还用于：在自闭症预测概率值小于或者等于第一概率值的情况下，确定自闭症风险等级为第一等级；在自闭症预测概率值大于第一概率值，且小于第二概率值的情况下，确定自闭症风险等级为第二等级；在自闭症预测概率值大于或者等于第二概率值的情况下，确定自闭症风险等级为第三等级。

在一个实施例中，装置还用于：获取训练样本数据集，并确定训练样本数据集中各菌属的丰度值；根据各菌属的丰度值的差异特征，确定目标菌属；根据训练样本数据集中各目标菌属的香农多样性指数、训练样本数据集中各菌属的丰度值，确定训练样本数据集中各样本数据对应的特征向量；基于训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到预训练的自闭症概率预测模型。

在一个实施例中，装置还用于：将训练样本数据集划分为k个不相交的子集；将k个子集中的一个作为测试集，剩余k-1个作为训练集；根据训练集对初始化的自闭症概率预测模型进行训练，并根据测试集对每次训练后的模型进行测试，得到每次训练的分类结果指标；在每次训练的分类结果指标的平均值作满足预设指标阈值的情况下，结束模型训练，并将训练后的模型作为预训练的自闭症概率预测模型。

上述基于菌属特征的自闭症风险预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O）和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于菌属特征的自闭症风险预测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图7所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC（近场通信）或其他技术实现。该计算机程序被处理器执行时以实现一种基于菌属特征的自闭症风险预测方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图6和图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种基于菌属特征的自闭症风险预测装置，其特征在于，所述装置包括：

2.根据权利要求1所述的装置，其特征在于，所述装置还用于：

第一数据集获取模块，用于获取训练样本数据集；

数据集样本预测模块，用于根据所述预训练的自闭症概率预测模型，预测得到所述训练样本数据集中各样本数据的所述自闭症预测概率值；

概率分布曲线确定模块，用于根据所述各样本数据的所述自闭症预测概率值和所述训练样本数据集中各样本数据的组别标签，分别确定健康组和患者组的概率分布曲线；

风险等级划分规则确定模块，用于根据所述健康组和患者组的概率分布曲线，确定所述风险等级划分规则。

3.根据权利要求2所述的装置，其特征在于，所述风险等级划分规则确定模块包括：

第一概率值确定模块，用于获取所述健康组和患者组的概率分布曲线的交叉点的第一概率值；

第二概率值确定模块，用于获取所述健康组和患者组的概率分布曲线的第二概率值；所述第二概率值包括同一概率值的情况下所述健康组的概率密度值为所述患者组的概率密度值的预设倍数的概率值；

风险等级划分规则确定子模块，用于根据所述第一概率值和所述第二概率值，确定所述风险等级划分规则。

4.根据权利要求3所述的装置，其特征在于，所述等级确定模块包括：

第一等级确定子模块，用于在所述自闭症预测概率值小于或者等于所述第一概率值的情况下，确定所述自闭症风险等级为第一等级；

第二等级确定子模块，用于在所述自闭症预测概率值大于所述第一概率值，且小于所述第二概率值的情况下，确定所述自闭症风险等级为第二等级；

第三等级确定子模块，用于在所述自闭症预测概率值大于或者等于所述第二概率值的情况下，确定所述自闭症风险等级为第三等级。

5.根据权利要求1所述的装置，其特征在于，所述装置还包括：

第二数据集获取模块，用于获取训练样本数据集，并确定所述训练样本数据集中各菌属的丰度值；

目标菌属确定模块，用于根据所述各菌属的丰度值的差异特征，确定所述目标菌属；

特征向量确定子模块，用于根据所述训练样本数据集中各目标菌属的香农多样性指数、所述训练样本数据集中各菌属的丰度值，确定所述训练样本数据集中各样本数据对应的特征向量；

模型训练模块，用于基于所述训练样本数据集中各样本对应的特征向量和组别标签，利用K折交叉验证的方法对初始化的自闭症概率预测模型进行训练，得到所述预训练的自闭症概率预测模型。

6.根据权利要求5所述的装置，其特征在于，所述模型训练模块，包括：

子集划分模块，用于将所述训练样本数据集划分为k个不相交的子集；

子集分类模块，用于将k个所述子集中的一个作为测试集，剩余k-1个作为训练集；

分类结果指标确定模块，用于根据所述训练集对初始化的自闭症概率预测模型进行训练，并根据所述测试集对每次训练后的模型进行测试，得到每次训练的分类结果指标；

目标模型确定模块，用于在所述每次训练的分类结果指标的平均值作满足预设指标阈值的情况下，结束模型训练，并将训练后的模型作为所述预训练的自闭症概率预测模型。

7.根据权利要求1所述的装置，其特征在于，所述目标菌属包括：Veillonella、Ruminococcus、Streptococcus、Bacteroides、Clostridium、Haemophilus、Lachnoclostridium、Roseburia、Dorea、Megamonas、Bifidobacterium、Faecalibacterium、Coprococcus、Blautia、Prevotella、Dialister、Desulfovibrio、Lachnospira。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现基于菌属特征的自闭症风险预测方法的步骤，所述方法包括：

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现基于菌属特征的自闭症风险预测方法的步骤，所述方法包括：

10.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现基于菌属特征的自闭症风险预测方法的步骤，所述方法包括：