CN113889274A

CN113889274A - 一种孤独症谱系障碍的风险预测模型构建方法及装置

Info

Publication number: CN113889274A
Application number: CN202111182323.3A
Authority: CN
Inventors: 静进; 李秀红; 陈嘉洁; 王馨; 陈倩; 戴美霞; 林力孜; 曹牧青; 潘宁; 林秀金; 李海林; 曾晶晶; 刘斯宇; 詹晓玲; 金诚开; 潘烁琳
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2021-10-11
Filing date: 2021-10-11
Publication date: 2022-01-04
Anticipated expiration: 2041-10-11
Also published as: US20230386665A1; WO2023061174A1; CN113889274B

Abstract

本发明公开了一种孤独症谱系障碍(ASD)的风险预测模型构建方法及装置，该方法包括根据样品集的病例信息，建立第一数据表和第二数据表，并根据预设的特征排列规则和标志分组规则，得到第一分组表集和第二分组表集，基于随机森林机器学习算法，对数据进行训练，并导入测试数据，得到第一最佳特征组合和第二特征组合；根据第一最佳特征组合和第二特征组合以及对第一数据表和第二数据表的分层抽样，并基于随机森林算法，分别得到第一模型和第二模型，经过组合后完成孤独症谱系障碍风险预测模型的构建。本发明能根据样品集中测试条目的数据，准确并快捷的构建模型，并对预测测试条目中的数据进行预测，解决了现有预测模型准确性不高的问题。

Description

一种孤独症谱系障碍的风险预测模型构建方法及装置

技术领域

本发明属于孤独症谱系障碍风险预测领域，特别涉及一种孤独症谱系障碍的风险预测模型的构建方法及装置。

背景技术

孤独症谱系障碍(Autism Spectrum Disorder，英文缩写ASD)是根据典型孤独症的核心症状进行扩展定义的广泛意义上的孤独症，是一种较为严重的神经发育障碍性疾病，主要有社交沟通障碍与狭隘、重复的兴趣或行为的核心症状。目前，孤独症谱系障碍的主要诊断方式仍依赖医生的临床观察、生长发育史的收集及精神检查，同时辅以多种筛查及症状评估量表对儿童的症状程度进行评估，例如眼球追踪技术、磁共振大脑成像技术等。

但目前的对儿童的症状程度进行评估的结果因人而异，没有统一的标准，而且在人工评估中，想要获得较准确的评估结果，对评估人员的专业性、经验性要求高，人工成本十分昂贵，现有技术中的用以预测ASD风险的模型大多存在评估条目多、耗时长等缺点，导致误差较大以及预测数据不准确等问题。

因此，本领域技术人员迫切需要一种能对ASD评估条目结果进行数据处理以及得出预测数据和结果的高准确度预测模型。

发明内容

本发明所要解决的技术问题在于，提供了一种孤独症谱系障碍的风险预测模型构建方法及装置，能有效提升现有技术中对ASD评估条目结果处理的高效性与所获得预测数据的准确性。

为了解决上述技术问题，本发明提供一种孤独症谱系障碍的风险预测模型构建方法，包括：

根据样品集的病例信息，建立第一数据表和第二数据表；其中，所述样品集包括：轻中度ASD病例样本、重度ASD病例样本和正常例样本；所述第一数据表记录了正常例样本与所有ASD病例样本的病例信息；所述第二数据表记录了轻中度ASD病例样本与重度ASD病例样本的病例信息；每个病例信息均包括特征、特征变量和标志；

根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集；其中，所述第一分组表集包括第一测试表集和第一训练表集，所述第二分组表集包括第二测试表集和第二训练表集；

根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合；

基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，并对所述第一模型和所述第二模型进行组合，完成ASD风险预测模型的构建。

进一步地，所述根据样品集的病例信息，建立第一数据表和第二数据表，具体为：

根据样品集中的轻中度ASD病例样本、重度ASD病例样本和正常例样本，进行ASD评估条目数据信息的收集与预处理，提取所述样品总体的特征、特征变量和标志，筛选出共有的特征变量，并根据预设的计分方式来计算各特征变量在ASD测试指标数据信息中的分数，筛选出能反应ASD测试指标数据信息得分情况的特征变量，建立第一数据表和第二数据表。

进一步地，所述根据预设的特征排列规则，分别对所述第一数据表、所述第二数据表执行特征排列，具体为：

基于预设的特征权重计算方式，计算数据表中各个特征的权重值，并依据各个特征的权重值对相应的特征进行排序，分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，得到第一序列表集和第二序列表集；

其中，所述分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，具体为：

分别对特征排序后的第一数据表和第二数据表提取特征排列顺序前两个特征，分别组成第一子序列表和第二子序列表，随后分别依次向第一子序列表和第二子序列表添加特征排列顺序后一个的特征，直至第一数据表和第二数据表中所有特征分别都添加完毕，分别得到多个第一子序列表和多个第二子序列表，分别将多个第一子序列表和多个第二子序列表进行组合，分别得到第一序列表集和第二序列表集。

进一步地，所述根据预设的标志分组规则，分别对所述第一数据表、所述第二数据表执行标志分组，获得第一分组表集和第二分组表集，具体为：

根据预设的表格标志分组条件，分别对所述第一序列表集中所有第一子序列表和所述第二序列表集中所有第二子序列表进行标志的分层抽样，均分的标志比例相同，分别得到第一分组表集和第二分组表集。

进一步地，所述根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集；将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合，具体为：

根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集；

将所述第一测试表集数据导入第一子模型集，得到每一个第一子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第一子模型中的特征组合，作为第一最佳特征组合；

将所述第二测试表集数据导入第二子模型集，得到每一个第二子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第二子模型中的特征组合，作为第二最佳特征组合。

进一步地，所述基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，具体为：

基于所述第一最佳特征组合，对第一数据表中符合第一最佳特征组合的特征进行分层抽样，结合随机森林机器学习算法，对分层抽样后的第一数据表进行迭代运算，得到第一模型；

基于所述第二最佳特征组合，对第二数据表中符合第二最佳特征组合的特征进行分层抽样，结合随机森林机器学习算法，对分层抽样后的第二数据表进行迭代运算，得到第二模型。

进一步地，所述对所述第一模型和所述第二模型进行组合测试，完成ASD风险预测模型的构建，具体为：

对分层抽样后的第一数据表和分层抽样后的第二数据表提取其中一个测试样品，将测试样品中符合第一最佳特征组合的数据信息输入至第一模型中，得到所述测试样品的第一预测概率；其中，所述第一预测概率包括所有ASD病例预测概率和正常例预测概率；

若所有ASD病例预测概率小于正常例预测概率，则判断结果为测试样品是正常例；若所有ASD病例大于正常例概率，则测试样品中符合第二最佳特征组合的数据信息输入至第二模型中，得到所述测试样品的第二预测概率；其中，所述第二预测概率包括轻中度ASD病例预测概率和重度ASD病例预测概率；

若轻中度ASD病例预测概率大于重度ASD病例预测概率，则判断结果为测试样品是轻中度ASD病例；若轻中度ASD病例预测概率小于重度ASD病例预测概率，则判断结果为测试样品是重度ASD病例；

若判断结果与测试样品的实际情况吻合，将所述第一模型和所述第二模型进行组合，即完成ASD风险预测模型的构建。

同时，本发明还提供了一种ASD的风险预测模型构建装置，包括：数据表建立模块、数据整理模块、特征提取模块和模型构建模块；

其中，所述数据表建立模块用于根据样品集的病例信息，建立第一数据表和第二数据表；其中，所述样品集包括：轻中度ASD病例样本、重度ASD病例样本和正常例样本；所述第一数据表记录了正常例样本与所有ASD病例样本的病例信息；所述第二数据表记录了轻中度ASD病例样本与重度ASD病例样本的病例信息；每个病例信息均包括特征、特征变量和标志；

所述数据整理模块用于根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集；其中，所述第一分组表集包括第一测试表集和第一训练表集，所述第二分组表集包括第二测试表集和第二训练表集；

所述特征提取模块用于根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合；

所述模型构建模块用于基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，并对所述第一模型和所述第二模型进行组合，完成ASD风险预测模型的构建。

进一步地，所述根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集，具体为：

其中，所述分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，具体为：分别对特征排序后的第一数据表和第二数据表提取特征排列顺序前两个特征，分别组成第一子序列表和第二子序列表，随后分别依次向第一子序列表和第二子序列表添加特征排列顺序后一个的特征，直至第一数据表和第二数据表中所有特征分别都添加完毕，分别得到多个第一子序列表和多个第二子序列表，分别将多个第一子序列表和多个第二子序列表进行组合，分别得到第一序列表集和第二序列表集；

进一步地，所述根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合，具体为：

实施本申请实施例，具有如下的有益效果：

本发明提供的一种孤独症谱系障碍的风险预测模型构建方法及装置，通过ASD的多方面评估条目作为特征信息数据，并对数据进行排序与分组，训练的模型能够解决现有技术中ASD风险预测模型存在的评估条目多、耗时长等问题，并在对评估条目的结果数据进行高效化以及准确化处理，提供了完整的分级结果预测，最后对模型进行组合与测试，进一步提高了风险预测模型输出预测结果的准确性。

附图说明

图1是本发明提供的孤独症谱系障碍的风险预测模型构建方法的一种实施例的流程示意图；

图2是本发明提供的孤独症谱系障碍的风险预测模型构建方法的一种实施例的第一序列表集和第二序列表集构建流程图；

图3是本发明提供的孤独症谱系障碍的风险预测模型构建方法的一种实施例的第一分组表集和第二分组表集构建流程图；

图4是本发明提供的孤独症谱系障碍的风险预测模型构建方法的一种实施例的第一特征组合和第二特征组合的建立流程图；

图5是本发明提供的孤独症谱系障碍的风险预测模型构建方法的一种实施例的第一模型和第二模型的构建流程图；

图6是本发明提供的孤独症谱系障碍的风险预测模型构建装置的一种实施例的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下将结合本发明中的附图，对本发明实施例中的技术方案进一步详细说明。显然，此所描述的实施例仅是本发明一部分实施例，而不是全部实施例，并不用于限定本发明。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所用其他实施例，都属于本发明保护的范围。

请参阅图1，其是本发明实施例提供的一种孤独症谱系障碍的风险预测模型构建方法，包括以下步骤：

步骤S101：根据样品集的病例信息，建立第一数据表和第二数据表；其中，所述样品集包括：轻中度ASD病例样本、重度ASD病例样本和正常例样本；所述第一数据表记录了正常例样本与所有ASD病例样本的病例信息；所述第二数据表记录了轻中度ASD病例样本与重度ASD病例样本的病例信息；每个病例信息均包括特征、特征变量和标志。

优选地，在本实施例中，根据样品集中的轻中度ASD病例120例、重度ASD病例89例和正常例186例，进行ASD评估条目数据信息的收集与预处理，其中，ASD评估条目数据信息包括但不限于人口学特征、ASD常用症状评估量表、生活方式以及情绪状态。

优选地，在本实施例中，根据ASD评估条目数据信息，提取样品总体的特征、特征变量和标志，筛选出共有的特征变量509个，并根据预设的计分方式来计算各特征变量在ASD测试指标数据信息中的分数，筛选出能反应ASD测试指标数据信息得分情况的特征变量28个，剔除无效数据的样品，以特征为表列，以标志为表行，特征变量为表值，最终纳入数据分析共有251例，建立第一数据表和第二数据表，其中，正常例139例，轻中度ASD病例72例，重度ASD病例40例。

优选地，所述预设的计分方式依据ASD评估条目标准分数作为参照，对比计算样品实际评估条目的分数。

步骤S102：根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集；其中，所述第一分组表集包括第一测试表集和第一训练表集，所述第二分组表集包括第二测试表集和第二训练表集。

优选地，如图2所示，基于预设的特征权重计算方式，计算数据表中各个特征的权重值，并依据各个特征的权重值对相应的特征进行排序，分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，得到第一序列表集和第二序列表集。

在本实施例中，如图2所示，将第一数据表中的28个特征与其标志放入随机森林机器学习算法中，以分类准确率作为特征重要性排序的依据以及特征权重的计算方式，得到28个特征权重值，并按照从大到小的顺序排列；将第二数据表中的28个特征与其标志放入随机森林机器学习算法中，以分类准确率作为特征重要性排序的依据，得到28个特征的重要性权重，按照从大到小的顺序排列。

优选地，如图2所示，分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，具体为：分别对特征排序后的第一数据表和第二数据表提取特征排列顺序前两个特征，分别组成第一子序列表和第二子序列表，随后分别依次向第一子序列表和第二子序列表添加特征排列顺序后一个的特征，直至第一数据表和第二数据表中所有特征分别都添加完毕，分别得到多个第一子序列表和多个第二子序列表，分别将多个第一子序列表和多个第二子序列表进行组合，分别得到第一序列表集和第二序列表集。

在本实施例中，如图2所示，第一序列表集中共有27个第一子序列表，第1个的第一子序列表有2个特征，第2个的第一子序列表有3个特征，依次类推，第27个的第一子序列表有28个特征；第二序列表集共有27个第二子序列表，第1个的第二子序列表有2个特征，第2个的第二子序列表有3个特征，依次类推，第27个的第二子序列表有28个特征。

优选地，根据预设的表格标志分组条件，分别对所述第一序列表集中所有第一子序列表和所述第二序列表集中所有第二子序列表进行标志的分层抽样，均分的标志比例相同，分别得到第一分组表集和第二分组表集。

在本实施例中，如图3所示，根据预设的表格标志分组条件，对第一序列表集中所有的第一子序列表分别进行以标志为对象的分层抽样，均分成10组，每组中的正常例与所有ASD病例的比例相同。

具体地，在本实施例中，如图3左所示，i为分组的组别编号，每个第一子序列表都被分成10组，将每一个子序列表中第1组数据作为第一测试表，其余9组作为第一训练表；随后，将每一个子序列表中第2组数据作为第一测试表，其余9组作为第一训练表；依次类推，将每一个子序列表中第10组数据作为第一测试表，其余9组作为第一训练表；将所有的第一训练表和所有的第一测试表进行对应的组合，得到第一训练表集和第一测试表集，将第一训练表集和第一测试表集进行对应的组合，得到第一分组表集。

同理，具体地，在本实施例中，如图3右所示，j为分组的组别编号，每个第二子序列表都被分成10组，将每一个子序列表中第1组数据作为第二测试表，其余9组作为第二训练表；随后，将每一个子序列表中第2组数据作为第二测试表，其余9组作为第二训练表；依次类推，将每一个子序列表中第10组数据作为第二测试表，其余9组作为第二训练表；将所有的第二训练表和所有的第二测试表进行对应的组合，得到第二训练表集和第二测试表集，将第二训练表集和第二测试表集进行对应的组合，得到第二分组表集。

步骤S103：根据随机森林机器学习算法，分别将第一训练表集进行和第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入第二子模型集，得到第二最佳特征组合。

优选地，如图4所示，根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集；将所述第一测试表集数据导入第一子模型集，得到每一个第一子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第一子模型中的特征组合，作为第一最佳特征组合。

在本实施例中，请参阅图4左，第一子模型集中共有270个第一子模型(每一组有27个，一共有10组)，每个子模型对应于一个敏感度与特异度之和，对所属于同一组的第一训练集和第一测试集的敏感度与特异度之和求均值，再对比27个求均值后的敏感度与特异度之和，取最大敏感度与特异度之和所对应的第一子模型中的特征组合，作为第一最佳特征组合，即为12个特征的组合。

同理，优选地，将所述第二测试表集数据导入第二子模型集，得到每一个第二子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第二子模型中的特征组合，作为第二最佳特征组合。

在本实施例中，请参阅图4右，第二子模型集中共有270个第二子模型(每一组有27个，一共有10组)，每个子模型对应于一个敏感度与特异度之和，对所属于同一组的第二训练集和第二测试集的敏感度与特异度之和求均值，再对比27个求均值后的敏感度与特异度之和，取最大敏感度与特异度之和所对应的第二子模型中的特征组合，作为第二最佳特征组合，即为3个特征的组合。

步骤S104基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，并对所述第一模型和所述第二模型进行组合，完成孤独症谱系障碍风险预测模型的构建。

优选地，基于所述第一最佳特征组合，对第一数据表中符合第一最佳特征组合的特征进行分层抽样，结合随机森林机器学习算法，对分层抽样后的第一数据表进行迭代运算，得到第一模型；基于所述第二最佳特征组合，对第二数据表中符合第二最佳特征组合的特征进行分层抽样，结合随机森林机器学习算法，对分层抽样后的第二数据表进行迭代运算，得到第二模型。

在本实施例中，请参阅图5，基于所述第一最佳特征组合和第二最佳特征组合，对第一数据表中符合第一最佳特征组合的特征进行筛选，对第二数据表中符合第二最佳特征组合的特征进行筛选，分别对筛选后的第一数据表和筛选后的第二数据表中所有标志进行分层抽样，均分成10组，每组中标志的数量是相同的；以第1组正常例、第1组轻中度ASD病例和第1组重度ASD病例的数据作为测试数据，剩余的9组正常例、9组轻中度ASD病例和9组重度ASD病例作为训练数据。

在本实施例中，请参阅图5，将9组轻中度ASD病例与9组重度ASD病例合并成9组所有ASD病例数据。在9组所有ASD病例数据和9组正常例数据中提取第一最佳特征组合中的12个特征的特征变量，输入至随机森林算法中，得到第一模型；在9组轻中度ASD病例数据和9组重度ASD病例数据中提取第二最佳特征组合中的3个特征的特征变量，输入至随机森林算法中，得到第二模型。

在本实施例中，请参阅图5，对第一模型和所述第二模型进行组合测试，完成ASD风险预测模型的构建。优选地，对分层抽样后的第一数据表和分层抽样后的第二数据表提取其中一个测试样品，将测试样品中符合第一最佳特征组合的数据信息输入至第一模型中，得到所述测试样品的第一预测概率；其中，所述第一预测概率包括所有ASD病例预测概率和正常例预测概率。

若所有ASD病例预测概率小于正常例预测概率，则判断结果为测试样品是正常例；若所有ASD病例大于正常例概率，则测试样品中符合第二最佳特征组合的数据信息输入至第二模型中，得到所述测试样品的第二预测概率；其中，所述第二预测概率包括轻中度ASD病例预测概率和重度ASD病例预测概率。

若轻中度ASD病例预测概率大于重度ASD病例预测概率，则判断结果为测试样品是轻中度ASD病例；若轻中度ASD病例预测概率小于重度ASD病例预测概率，则判断结果为测试样品是重度ASD病例。

根据所述测试样品的实际情况，所述判断结果与测试样品的实际情况吻合，即完成ASD风险预测模型的构建。

在本实施例中，请参阅图5，测试样品中有第1组正常例、第1组轻中度ASD病例以及第1组重度ASD病例；对于某一测试样品，先筛选出符合第一最佳特征组合中的12个特征的特征变量，输入至第一模型，得到该测试样品的第一预测概率，若预测的ASD病例预测概率小于正常例预测概率，则为正常例；若预测的ASD病例预测概率大于正常例预测概率，则先筛选出符合第二最佳特征组合中的3个特征的特征变量，输入至第二模型，得到该测试样品的第二预测概率，若轻中度ASD病例预测概率大于重度ASD病例预测概率，则该样本的模型预测结果为轻中度ASD病例；若轻中度ASD病例预测概率小于重度ASD病例预测概率，则为重度ASD病例。

在另一实施例中，重复执行步骤S104，以第2组正常例、第2组轻中度ASD病例和第2组重度ASD病例的数据作为测试数据，剩余的9组正常例、9组轻中度ASD病例和9组重度ASD病例作为训练数据。以此类推，直到以第10组正常例、第10组轻中度ASD病例和第10组重度ASD病例的数据作为测试数据，剩余的9组正常例、9组轻中度ASD病例和9组重度ASD病例作为训练数据。其中，执行该实施例时，会生成10组由第一模型和第二模型组成的ASD风险预测模型，并对10组ASD风险预测模型的敏感度、特异度分别计算均值，作为模型整体的敏感度、特异度，即模型的整体性能，重度ASD敏感度0.71，特异度0.95；轻中度ASD敏感度0.76，特异度0.90；正常儿童敏感度0.94，特异度0.91；计算10个模型的整体混淆矩阵并进行相加，得到模型的整体混淆矩阵A。

同时，请参阅图6，本发明还提供一种ASD的风险预测模型构建装置，包括：数据表建立模块601、数据整理模块602、特征提取模块603和模型构建模块604。

数据表建立模块601用于根据样品集的病例信息，建立第一数据表和第二数据表；其中，所述样品集包括：轻中度ASD病例样本、重度ASD病例样本和正常例样本；所述第一数据表记录了正常例样本与所有ASD病例样本的病例信息；所述第二数据表记录了轻中度ASD病例样本与重度ASD病例样本的病例信息；每个病例信息均包括特征、特征变量和标志。

数据整理模块602用于根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集；其中，所述第一分组表集包括第一测试表集和第一训练表集，所述第二分组表集包括第二测试表集和第二训练表集。

特征提取模块603用于根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合。

模型构建模块604用于基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，并对所述第一模型和所述第二模型进行组合测试，完成ASD风险预测模型的构建。

优选地，所述根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集，具体为：

基于分类准确率，计算数据表中各个特征的权重，并依据各个特征权重对相应的特征进行排序，分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，得到第一序列表集和第二序列表集；其中，所述分别对特征排序后的第一数据表和第二数据表进行特征提取与添加，具体为：分别对特征排序后的第一数据表和第二数据表提取特征排列顺序前两个特征，分别组成第一子序列表和第二子序列表，随后分别依次向第一子序列表和第二子序列表添加特征排列顺序后一个的特征，直至第一数据表和第二数据表中所有特征分别都添加完毕，分别得到多个第一子序列表和多个第二子序列表，分别将多个第一子序列表和多个第二子序列表进行组合，分别得到第一序列表集和第二序列表集。

进一步地，根据预设的表格标志分组条件，分别对所述第一序列表集中所有第一子序列表和所述第二序列表集中所有第二子序列表进行标志的分层抽样，均分的标志比例相同，分别得到第一分组表集和第二分组表集。

进一步地，所述根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合，具体为：根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集；将所述第一测试表集数据导入第一子模型集，得到每一个第一子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第一子模型中的特征组合，作为第一最佳特征组合；将所述第二测试表集数据导入第二子模型集，得到每一个第二子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第二子模型中的特征组合，作为第二最佳特征组合。

实施本发明实施例，具有如下效果：

本发明实施例提供了一种孤独症谱系障碍的风险预测模型构建方法及装置，能够更准确地将预测ASD条目的信息进行进一步的优化与处理，数据表的建立使得数量繁多的评估条目能够更准确被调用，对数据的整理以及特征的提取，进一步地使预测结果的准确性提高，优化模型构建的步骤，模型构建过程涉及迭代，能保证每一数据在随机森林算法中能被精准的预测，提高了模型构建的便捷性以及模型预测准确性。

以上是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

1.一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，包括：

根据孤独症谱系障碍(ASD)样品集的病例信息，建立第一数据表和第二数据表；其中，所述样品集包括：轻中度ASD病例样本、重度ASD病例样本和正常例样本；所述第一数据表记录了正常例样本与所有ASD病例样本的病例信息；所述第二数据表记录了轻中度ASD病例样本与重度ASD病例样本的病例信息；每个病例信息均包括特征、特征变量和标志；

2.如权利要求1所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述根据样品集的病例信息，建立第一数据表和第二数据表，具体为：

根据样品集中的轻中度ASD病例样本、重度ASD病例样本和正常例样本，进行ASD评估条目数据信息的收集与预处理，提取样本的特征、特征变量和标志，筛选出共有的特征变量，并根据预设的计分方式来计算各特征变量在ASD测试指标数据信息中的分数，筛选出能反应ASD测试指标数据信息得分情况的特征变量，建立第一数据表和第二数据表。

3.如权利要求2所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述根据预设的特征排列规则，分别对所述第一数据表、所述第二数据表执行特征排列，具体为：

4.如权利要求3所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述根据预设的标志分组规则，分别对所述第一数据表、所述第二数据表执行标志分组，获得第一分组表集和第二分组表集，具体为：

5.如权利要求4所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集；将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合，具体为：

将所述第一测试表集数据导入至第一子模型集，得到每一个第一子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第一子模型中的特征组合，作为第一最佳特征组合；

将所述第二测试表集数据导入至第二子模型集，得到每一个第二子模型对应的敏感度与特异度，经过均值求和后，得到最大敏感度与特异度之和所对应的第二子模型中的特征组合，作为第二最佳特征组合。

6.如权利要求5所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述基于所述第一最佳特征组合和所述第二最佳特征组合，以及对第一数据表和第二数据表进行的分层抽样，结合随机森林算法，分别得到第一模型和第二模型，具体为：

7.如权利要求6所述的一种孤独症谱系障碍的风险预测模型构建方法，其特征在于，所述对所述第一模型和所述第二模型进行组合测试，完成ASD风险预测模型的构建，具体为：

对分层抽样后的第一数据表和分层抽样后的第二数据表提取其中一个测试样本，将测试样品中符合第一最佳特征组合的数据信息输入至第一模型中，得到所述测试样品的第一预测概率；其中，所述第一预测概率包括所有ASD病例预测概率和正常例预测概率；

8.一种孤独症谱系障碍的风险预测模型构建装置，其特征在于，包括：数据表建立模块、数据整理模块、特征提取模块和模型构建模块；

9.如权利要求8所述的一种孤独症谱系障碍的风险预测模型构建装置，其特征在于，所述根据预设的特征排列规则和标志分组规则，分别对所述第一数据表、所述第二数据表执行特征排列和标志分组，获得第一分组表集和第二分组表集，具体为：

10.如权利要求9所述的一种孤独症谱系障碍的风险预测模型构建装置，其特征在于，所述根据随机森林机器学习算法，分别将所述第一训练表集进行和所述第二训练表集进行训练建模，得到第一子模型集和第二子模型集，将所述第一测试表集导入至第一子模型集，得到第一最佳特征组合；将所述第二测试表集导入至第二子模型集，得到第二最佳特征组合，具体为：