CN115568824A

CN115568824A - 用于对患者进行筛查、诊断和分层的系统和方法

Info

Publication number: CN115568824A
Application number: CN202211155681.XA
Authority: CN
Inventors: 高庆柱; 亨贝托·安德烈斯·冈萨雷斯·卡贝萨斯; 帕维兹·阿哈玛德; 刘岳陆
Original assignee: Blackthorn Therapeutics Inc
Current assignee: Neumora Medical Co.
Priority date: 2018-10-23
Filing date: 2019-10-23
Publication date: 2023-01-06
Also published as: US11103171B2; US11857322B2; US20210361210A1; EP3870030A4; CN113825440B; JP2022505676A; US20200121236A1; EP3870030A1; US20240197220A1; CN113825440A; WO2020086729A1

Abstract

一种用于评估患者的心理健康问题的系统，所述系统包括：存储器，所述存储器包含机器可读介质，所述机器可读介质包括机器可执行代码，所述机器可执行代码上存储有用于执行方法的指令；和控制系统，其连接到所述存储器并且包括一个或多个处理器，所述控制系统被配置成执行所述机器可执行代码以使所述控制系统：接收多个输入特征，所述多个输入特征的至少一部分与来自多个临床调查问卷的临床量表得分相关联；使用贝叶斯决策列表处理所接收到的所述多个输入特征。

Description

用于对患者进行筛查、诊断和分层的系统和方法

本申请是申请日为2019年10月23日、发明名称为“用于对患者进行筛查、诊断和分层的系统和方法”的申请号为201980085777.3专利申请的分案申请。

相关申请的交叉引用

本申请要求于2018年10月23日提交的标题为“基于MCA的规则挖掘使临床精神病学具有可解读的推断(MCA-Based Rule Mining Enables Interpretable Inference inClinical Psychiatry)”的美国临时专利申请No.62/749,473以及于2019年6月20日提交的标题为“用于对患者进行筛查、诊断和分层的系统和方法(Systems and Methods forScreening,Diagnosing and Stratifying Patients)”的美国临时专利申请No.62/864,283的优先权和权益，它们的全部内容通过引用并入本文。

技术领域

本公开涉及用于对与神经精神病有关的患者进行筛查、诊断和分层的系统和方法，包括用于推荐治疗。

背景技术

以下说明包括可能对理解本公开有用的信息。这并不承认在此提供的任何信息是现有技术或与当前要求保护的公开内容有关，或者明确或隐含引用的任何出版物是现有技术。

近年来，应用到临床精神病学数据集的用于人工智能(AI)的机器学习工具的使用在持续增加，这主要是由于可以获取异构数据集并同时产生高度预测模型的算法的普及。

发明内容

虽然高可预测性确实是期望的结果，但是医疗保健界还要求由机器学习模型生成的抽象概念也应具有可解释性，因此专家可以将新的机器学习见解融入到当前经典工具中，甚至更好，因此专家可以通过调整数据驱动的模型来提高抽象概念的性能。本公开通过以下方式采取了一种实用的方法来解决该问题：开发一种能够从广泛分类数据集中挖掘相关联的规则的新算法，并将规则列表生成算法应用到所挖掘的规则以输出可预测和可解释的模型。然后，这些模型可用作精神疾病的跨诊断筛查工具。

根据本公开的一些实施方式，开发了可解释的机器学习方法，其可以向人工智能研究界提供可理解的和明确的解释。诸如人工神经网络和组合模型(artificial neuralnetworks and ensemble models)等流行的机器学习方法以其难懂的读出而闻名。例如，尽管存在人工神经网络应用程序用于进行CT扫描中的肿瘤检测，但人们几乎不可能理解这种数学抽象概念背后的基本原理。

可解释性可以被定义为不仅理解模型发出了什么，而且还理解它为什么这么做。在这种情况下，与检查线性模型的系数或评估人工神经网络中的感知器的重要性相比，直接的语言解释通常被认为是可解释性的更好选择。医疗保健中的可解释的机器学习模型的示例包括开发提升方法以创建决策树作为单个决策节点(single decision nodes)的组合。贝叶斯规则列表(BRL：Bayesian Rule List)模型将分类数据集的按顺序排列的逻辑规则的可解释性与贝叶斯统计的推理能力结合在一起。BRL算法输出作为可用于对数据进行分类的一系列规则的贝叶斯决策列表(Bayesian Decision List)。与决策树相比，贝叶斯决策列表采用一系列层次结构的if-then-else陈述的形式，其中模型发出对应于与给定规则的成功关联。BRL产生受启发的模型，并因此与标准的人工决策算法(human-builtdecision-making algorithm)相似。

可以使用多个模型来生成规则，根据这些规则构建实际的规则列表。在一些实施方式中，多个模型可以包括关联分类方法。在一些实施方式中，可以单独使用BRL模型。在一些实施方式中，多个模型中的一个或多个可以结合频繁模式挖掘作为构建这种一组初始规则的工具。在一些实施方式中，可以使用Apriori和/或FPGrowth来从分类数据集中提取规则，然后可以对其应用BRL模型以生成规则列表。在一些实施方式中，对于广泛的数据集(例如，其中分类特征总数远大于样品数的数据集，表示为p＞＞n)，其可以包括临床医疗保健数据集，需要非传统的挖掘方法来使BRL在该研究领域发挥作用。

因此，所公开的其中一个模型包括不基于某些类别同时出现的频率的规则挖掘技术。相反地，本文所述的实施方式提供了一种新的多重对应分析(MCA)，对应分析对分类数据集的特定应用，以建立不同关联规则之间的相似度得分。结果表明，这种新的MCA-miner方法比常用的频繁模式挖掘方法显著更快，并且其可以很好地扩展到广泛的数据集。此外，结果表明，当与BRL一起使用时，新的MCA-miner表现的与其他挖掘器一样好。最后，新的MCA-miner和BRL用于分析精神疾病的跨诊断数据集，构建可解释且准确的预测器以支持临床医生筛查任务。

因此，本文公开了基于所公开的规则列表对患者进行筛查、诊断和分层为治疗组的系统和方法。本文公开的用于对患者进行分层的模型包括由BRL模型识别的贝叶斯决策列表。BRL模型可应用到通过本文公开的规则挖掘方法(包括新开发的基于MCA的规则挖掘器)识别的一组规则。此外，规则挖掘方法可以应用到使用前向选择或其他技术识别的特征集。

在一些示例中，各种模型能够利用在相对较短的规则列表中组合在一起的各种模式来对患者进行分类，并且这些模型包括从临床量表调查问卷输出的特征、基于任务的心理评估、MRI数据等。在一些示例中，量表和任务在平板电脑、计算设备或移动设备中管理，并且来自用户界面的输入被转换为模型可以利用的特征。

根据本公开的一些实施方式，所公开的模型显示出令人惊讶的结果。例如，许多模型都能够使用规则列表来准确地对患者进行筛查、诊断或分层。例如，本文公开的仅使用量表的模型以及来自各种已知量表评估的一些问题可以用于使用本文公开的方法和系统来对患者进行筛查。

在某些情况下，一些模型和模式的组合基于多个模式(而不是单一模式)对患者进行分层。此外，结果表明，在某些情况下，采用多个模式输入的模型(例如，将量表和基于任务的模式组合以对患者进行分层)可能比使用单一模式的模型更准确。

根据本公开的一些实施方式，用于评估患者的心理健康问题的系统包括显示设备、用户界面、存储器和控制系统。存储器包含机器可读介质。机器可读介质包括存储有用于执行方法的指令的机器可执行代码。控制系统连接到存储器，并且包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统在显示设备上显示来自心理健康调查问卷的一系列问题。一系列问题包括每个问题的文本和答案。从用户界面接收来自患者的针对所显示的一系列问题中的每个问题的答案选择。使用贝叶斯决策列表处理所接收到的答案选择，以输出患者的心理健康指标。

在一些实施方式中，心理健康指标包括患者是否患有双相情感障碍、ADHD、精神分裂症或它们的任意组合。在一些实施方式中，心理健康指标包括确定患者是否患有精神疾病。在一些实施方式中，心理健康指标包括至少部分地基于确定患者超过具有至少两种健康状况中的每一种的阈值概率来识别至少两种心理健康状况。在一些实施方式中，心理健康指标包括患者是否患有OCD、PTSD、自闭症或它们的任意组合。在一些实施方式中，心理健康指标识别患者对其很可能是较高反应者的药物。

在一些实施方式中，通过接收标记的训练数据生成贝叶斯决策列表，该标记的训练数据包括多个个体的数据。标记的训练数据包括指示多个个体中的每者是否患有一种或多种心理健康障碍的类别标签。标记的训练数据还包括多个属性。至少部分地基于所接收到的标记的训练数据生成多个规则。多个规则预测与一组属性相关联的类别标签。针对所生成的多个规则中的每个规则计算得分。得分表示预测类别标签的容量(capacity)。至少部分地基于预测类别标签的阈值容量(threshold capacity)来消除所生成的多个规则中的一个或多个规则。使用未从多个规则中消除的规则来生成被设计成预测类别标签的贝叶斯决策列表。

根据本公开的一些实施方式，用于评估患者的心理健康问题的系统包括显示设备、用户界面、存储器和控制系统。存储器包含机器可读介质。机器可读介质包括存储有用于执行方法的指令的机器可执行代码。控制系统连接到存储器，并且包括一个或多个处理器。控制系统被配置成执行机器可执行代码，以使控制系统在显示设备上显示来自心理健康调查问卷的一系列问题。一系列问题包括每个问题的文本和答案。从用户界面接收来自患者的针对所显示的一系列问题中的每个问题的答案选择。从磁共振成像(MRI)设备接收与患者的大脑相关联的一组MRI数据。使用贝叶斯决策列表处理所接收到的答案选择和一组MRI特征，以输出患者的心理健康指标。在一些实施方式中，所接收到的MRI数据是静息态功能MRI数据、结构MRI数据或两者。

根据本公开的一些实施方式，用于评估患者的心理健康问题的系统包括显示设备、用户界面、存储器和控制系统。存储器包含机器可读介质。机器可读介质包括存储有用于执行方法的指令的机器可执行代码。控制系统连接到存储器，并且包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统在显示设备上显示来自心理健康调查问卷的一系列问题。一系列问题包括每个问题的文本和答案。从用户界面接收来自患者的针对所显示的一系列问题中的每个问题的答案选择。在显示设备上显示一系列图像。从用户界面接收来自患者的针对所显示的一系列图像中的每个图像的选择反应。输出一组选择反应。使用模型处理所接收到的答案选择和一组选择反应，以输出患者的心理健康指标。

在一些实施方式中，该模型是贝叶斯决策列表。在一些实施方式中，至少部分地基于使用前向选择识别的特征来生成贝叶斯决策列表。在一些实施方式中，该模型是线性回归模型。在一些实施方式中，该模型是逻辑回归模型。在一些实施方式中，该模型是机器学习模型。在一些实施方式中，该模型包括机器学习模型和一组特征。使用前向选择来确定一组特征。

在一些实施方式中，所显示的一系列图像中的每个图像包括具有预定情绪表现的面部。针对所显示的一系列图像中的每个图像的选择反应对应于患者选择的情绪。在一些实施方式中，该情绪是愤怒。

在一些实施方式中，针对所显示的一系列图像中的每个图像的选择反应包括图像的患者识别。在一些实施方式中，针对所显示的一系列图像中的每个图像的选择反应还包括所选择的图像示出的是长嘴还是短嘴。

在一些实施方式中，心理健康指标识别患者对其很可能是较高反应者的药物。在一些示例中，该药物是BTRX-246040。在一些示例中，该药物是痛敏肽受体拮抗剂(NOPA)。在一些示例中，该药物是CERC-501。在一些示例中，该药物是κ阿片受体拮抗剂(KORA)。在一些实施方式中，心理健康指标包括患者是否对安慰剂有反应。

根据本公开的一些实施方式，用于评估患者的心理健康问题的系统包括显示设备、用户界面、存储器和控制系统。存储器包含机器可读介质。机器可读介质包括存储有用于执行方法的指令的机器可执行代码。控制系统连接到存储器，并且包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统在显示设备上显示来自心理健康调查问卷的一系列问题。一系列问题包括每个问题的文本和答案。从用户界面接收来自患者的针对所显示的一系列问题中的每个问题的答案选择。在显示设备上显示用于使患者执行一系列目标用户界面输入的指令。从用户界面接收一系列实际的用户界面输入。使用模型处理所接收到的答案选择和所接收到的一系列实际的用户界面输入，以输出患者的心理健康指标。

在一些实施方式中，模型包括机器学习模型和一组特征。一组特征通过使用弹性网络正则化的逻辑回归模型使用前向选择确定。在一些实施方式中，一系列目标用户界面输入包括在时间帧内的一系列鼠标点击。在一些实施方式中，一系列目标用户界面输入包括触摸用户界面的屏幕上先前显示图形图标的位置。

在一些实施方式中，机器学习模型通过接收包括多个个体的数据的标记的训练数据来生成。至少部分地基于所接收到的标记的训练数据来生成多个特征。至少部分地基于所生成的多个特征以监督的方式训练初始机器学习模型。至少部分地基于初始机器学习模型的训练，提取所生成的多个特征中的每个特征的重要性测度。至少部分地基于所提取的多个特征中的每个特征的重要性测度来生成多个子集机器学习模型。评估所生成的多个子集机器学习模型的分类性能。选择至少一个子集机器学习模型作为线性回归模型。

本公开还包括一种针对机器学习模型的许多属性之中的类别总数大的数据集构建规则列表的方法。通过计算机获得数据集。该数据集包括用于多个标签类别的多个属性陈述。生成属性陈述和标签类别的数据表。数据表的每个元素代表所获得的多个属性陈述中的一个属性陈述与所获得的多个标签类别中的一个标签类别的对应组合。通过计算机针对所生成的数据表的每个元素计算得分。

对于与第一目标标签类别相关联的所生成的数据表的每个子集，确定该子集的第一元素的第一计算得分是否超过第一用户定义阈值。确定对与第一元素相关联的对应属性陈述的支持度是否超过第二用户定义阈值。响应于确定(i)第一元素的第一计算得分超过第一用户定义阈值以及(ii)对与第一元素相关联的属性陈述的支持度超过第二用户定义阈值，更新目标标签类别的规则集。将第一用户定义阈值更新为目标标签类别的规则集中的最大得分。通过计算机将新规则设置为与子集的下一个元素相关联的目标规则。响应于确定(i)新规则与目标标签类别之间的第二计算得分超过更新的第一用户定义阈值以及(ii)对新规则的支持度大于第二用户定义阈值，将新规则设置为与子集的下一个元素相关联的目标规则，通过计算机更新目标标签类别的规则集以包括该新规则。通过计算机更新针对按得分排序的最高阈值数量的规则的与数据集相关联的规则集。

计算系统包括一个或多个数据库、存储器和处理器。一个或多个数据库存储临床量表数据。存储器存储计算机指令。处理器被配置成执行所存储的计算机指令以获得数据集。该数据集包括用于多个标签类别的多个属性陈述。生成属性陈述和标签类别的数据表。数据表的每个元素代表所获得的多个属性陈述中的一个属性陈述与所获得的多个标签类别中的一个标签类别的对应组合。针对所生成的数据表的每个元素计算得分。

对于多个类别中的每个目标标签类别，针对多个属性陈述中的每个目标属性陈述更新目标类别的规则集以包括目标属性陈述。响应于确定(i)与目标属性陈述相关联的元素的计算得分大于第一用户定义阈值以及(ii)对目标属性陈述的支持度大于第二用户定义阈值，更新目标类别的规则集。目标类别的规则集包括多个规则。

针对规则集中的多个规则中的每个目标规则，将第一用户定义阈值更新为目标类别的规则集中的最大得分。针对多个属性陈述中的每个目标属性陈述，将新规则设置为具有目标属性陈述的目标规则。响应于确定(i)新规则与目标类别之间的新得分高于更新的第一用户定义阈值以及(ii)对新规则的支持度大于第二用户定义阈值，更新目标类别的规则集以包括新规则。更新针对按得分排序的最高阈值数量的规则的与数据集相关联的规则集。

用于评估患者的心理健康问题的系统包括显示设备、用户界面、存储器和控制系统。用户界面包括扬声器和麦克风。存储器包括机器可读介质，该机器可读介质包括存储有用于执行方法的指令的机器可执行代码。控制系统连接到存储器，并且包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统通过扬声器输出包括音频格式的来自心理健康调查问卷的一系列问题。接收患者对一系列问题中的每个问题的答案选择的录音。使用贝叶斯决策列表来处理患者的答案选择，以输出患者的心理健康指标。

用于筛查患者的心理健康的系统包括显示器、麦克风、相机、用户界面、存储器和控制系统。相机被定位成捕获显示器前面的图像。相机还被配置成输出视频数据。存储器包含机器可读介质，该机器可读介质包括机器可执行代码。机器可执行代码存储有用于执行评估用户心理健康的方法的指令。控制系统连接到存储器，并包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统执行测试应用程序。

当从用户界面接收到启动测试的指示时，通过控制系统执行测试应用程序。当控制系统接收到停止测试的指示时，终止测试应用程序。该测试应用程序包括在显示器上显示来自心理健康调查问卷的一系列问题。心理健康调查问卷包括每个问题的文本和答案。在显示器上显示相机记录的实时视频数据。通过相机记录一组测试视频数据。通过麦克风记录一组测试音频数据。通过用户界面接收一系列问题中的每个问题的答案，以产生答案选择。使用贝叶斯决策列表处理答案选择、一组测试视频数据和一组音频数据，以输出用户的心理健康指标。

用于筛查患者的心理健康的系统包括麦克风、扬声器、存储器和控制系统。存储器包含机器可读介质，该机器可读介质包括机器可执行代码，该机器可执行代码存储有用于执行评估用户心理健康的方法的指令。控制系统连接到存储器，并包括一个或多个处理器。控制系统被配置成执行机器可执行代码以使控制系统执行测试应用程序。当从用户界面接收到启动测试的指示时，通过控制系统执行测试应用程序。当控制系统接收到停止测试的指示时，终止测试应用程序。该测试应用程序包括通过扬声器输出包括音频数据的一系列问题。通过麦克风记录一组测试音频数据。使用贝叶斯决策列表处理一组音频数据，以输出用户的心理健康指标。

在一些实施方式中，一组测试音频数据包括患者朗诵提供给患者的陈述的音频记录。在一些实施方式中，一组测试音频数据包括对来自心理健康调查问卷的一组问题的回答。在一些实施方式中，一系列问题包括要求患者朗诵陈述。在一些实施方式中，一系列问题包括开放式问题。

在一些实施方式中，处理一组音频数据包括识别以下音频特征中的至少一个：局部特征、全局波形水平特征、音素率、人口统计学特征、持续时间、讲话比率、语音比率、韵律特征、声门和频谱特征。在一些实施方式中，处理一组音频数据包括从一组音频数据提取的患者的语音中识别特征，或从一组音频数据提取的词语中识别文本特征。

鉴于参照附图对各种实施方案和/或实施方式的详细说明，本公开的前述和其他方面以及实施方式对本领域普通技术人员而言将是显而易见的，接下来将提供对附图的简要说明。

附图说明

并入到本说明书中并构成本说明书的一部分的附图例示了本公开的实施方式，并且与说明书一起用于解释和说明本公开的原理。附图旨在以图解的方式说明示例实施方式的主要特征。附图并非旨在描述实际实施方式的每个特征，也不旨在描述所述元件的相对尺寸，并且并非按比例绘制。

图1描述了根据本公开的一些实施方式的从泰坦尼克号(Titanic)生存数据集上的BRL模型输出的贝叶斯决策列表，其中θ表示生存概率。

图2A描述了根据本公开的一些实施方式的基于MCA的规则挖掘算法的伪代码。

图2B描述了根据本公开的一些实施方式的说明图2A的基于MCA的规则挖掘算法的一部分的流程图。

图2C描述了根据本公开的一些实施方式的说明图2A的基于MCA的规则挖掘算法的一部分的流程图。

图3描述了根据本公开的一些实施方式的MCA-miner、FP-Growth、Apriori和Carpenter之间的规则挖掘墙上执行时间(wall execution time)的比较的图。

图4描述了根据本公开的一些实施方式的作为规则集大小的函数的单核实施方式和多核实施方式之间的MCMC收敛墙上执行时间的比较的图；

图5描述了根据本公开的一些实施方式的作为MCMC链数量的函数的MCMC收敛墙上执行时间的比t_single-core/t_multi-core的图。

图6描述了根据本公开的一些实施方式的用于对精神疾病进行跨诊断筛查的规则列表，在健康对照者与患者之间进行分类。

图7描述了根据本公开的一些实施方式的图6中描述的规则列表中的每个规则的受试者分类的细分分析的条形图。

图8描述了根据本公开的一些实施方式的作为精神病学跨诊断工具的简明规则列表。

图9描述了根据本公开的一些实施方式的图8所示的简明列表中的每个规则的受试者分类的细分分析的条形图。

图10描述了根据本公开的一些实施方式的在5倍交叉验证测试组上评估的多类分类器的平均混淆矩阵。

图11描述了根据本公开的一些实施方式的任务设计的示意图。

图12描述了根据本公开的一些实施方式的包括移动设备和用于实施任务的界面的系统的概览图。

图13描述了根据本公开的一些实施方式的用于测量PRT任务中的结果的等式。

图14描述了根据本公开的一些实施方式的在EEfRT任务期间向患者显示的一个或多个屏幕的进展的示意图。

图15A描述了根据本公开的一些实施方式的示出本文公开的研究的治疗效果的图和图的对应表格。

图15B描述了根据本公开的一些实施方式的示出本文公开的研究的治疗效果的图和图的对应表格。

图16A描述了根据本公开的一些实施方式的示出本文公开的研究的治疗效果的图。

图16B描述了根据本公开的一些实施方式的示出本文公开的研究的治疗效果的图和图的对应表格。

图17A描述了根据本公开的一些实施方式的示出本文公开的指示为BTRX的模型下的治疗效果的图。

图17B描述了根据本公开的一些实施方式的示出本文公开的无指示的模型下的治疗效果的图。

图17C描述了根据本公开的一些实施方式的示出本文公开的指示为PLA的模型下的治疗效果的图。

图17D描述了根据本公开的一些实施方式的示出本文公开的CAS模型下的治疗效果的图。

图18A描述了根据本公开的一些实施方式的示出反应者与无反应者的HADS-A总得分的最主要特征(top feature)的图。

图18B描述了根据本公开的一些实施方式的示出反应者与无反应者的HADS-D总得分的最主要特征的图。

图18C描述了根据本公开的一些实施方式的示出反应者与无反应者的PRT反应偏向(区块2)的最主要特征的图。

图18D描述了根据本公开的一些实施方式的示出反应者与无反应者的PRT反应偏向(区块3)的最主要特征的图

图18E描述了根据本公开的一些实施方式的示出反应者与无反应者的年龄的最主要特征的图。

图18F描述了根据本公开的一些实施方式的示出反应者与无反应者的EEfRT完成率的最主要特征的图。

图19A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的伪代码。

图19B描述了根据本公开的一些实施方式的示出BTRX组和Rest组之间的治疗反应的图以及示出由规则识别出的受试者数量的条形图。

图20A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的另一伪代码。

图20B描述了根据本公开的一些实施方式的示出PLA组和Rest组之间的治疗反应的图以及示出由规则识别出的受试者数量的条形图。

图21描述了根据本公开的一些实施方式的示出使用所公开的模型对患者进行分类的过程的流程图。

图22描述了根据本公开的一些实施方式的用于使用所公开的模型对患者进行分类的系统的概览图。

图23描述了根据本公开的一些实施方式的示出使用所公开的模型对患者进行分类的过程的流程图。

图24描述了根据本公开的一些实施方式的示出使用所公开的模型对患者进行分类的过程的流程图。

图25A描述了根据本公开的一些实施方式的将肿瘤坏死因子(Tumor NecrosisFactor)结合到规则列表中的用于BRL输出的另一伪码。

图25B描述了根据本公开的一些实施方式的示出BTRX组和Rest组之间的治疗反应的图以及示出由规则识别出的受试者数量的条形图。

图26A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的另一伪代码。

图26B描述了根据本公开的一些实施方式的示出KORA组和Rest组之间的治疗反应的图。

图27A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的另一伪代码。

图27B描述了根据本公开的一些实施方式的示出KORA组和Rest组之间的治疗反应的图。

图28描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的另外的伪代码。

图29描述了根据本公开的一些实施方式的被配置为在本文公开的各种任务期间执行捕获音频和可视数据的各种方法的系统。

图30描述了根据本公开的一些实施方式的包括对应于图29的元件的标签的界面。

图31描述了根据本公开的一些实施方式的用于在用户设备上执行讲话任务应用的方法的流程图。

图32描述了根据本公开的一些实施方式的用于读取任务相关数据的数据处理流水线的流程图。

在附图中，为了易于理解和方便，相同的附图标记和任何首字母缩写词表示具有相同或相似结构或功能的元件或动作。为了轻松识别对任何特定元件或动作的讨论，附图标记中的一个或多个最高有效位数字指的是首次引入该元件的图号。

具体实施方式

参考附图说明本公开，其中在全部附图中使用相同的附图标记表示相似或等效相同的元件。附图未按比例绘制，而是仅用于说明本公开。下面将参考用于说明的示例应用来说明本公开的几个方面。应理解，阐述了许多具体细节、关系和方法以提供对本公开的全面理解。然而，相关领域的普通技术人员将容易地认识到，可以在没有一个或多个具体细节的情况下或者通过其他方法来实践本公开。在其他情况下，未详细地示出公知的结构或操作，以避免模糊本公开。本公开不受所示出动作或事件的顺序限制，因为一些动作能够以不同的顺序和/或与其他动作或事件同时发生。此外，并非需要所有示出的动作或事件以实施根据本公开的方法。

本公开的多个方面可以使用一个或多个合适的处理设备来实现，例如，通用计算机系统、微处理器、数字信号处理器、微控制器、专用集成电路(ASIC)、可编程逻辑器件(PLD)、现场可编程逻辑器件(FPLD)、现场可编程门阵列(FPGA)、诸如移动电话或个人数字助理(PDA)等移动设备、本地服务器、远程服务器、可穿戴计算机、平板电脑等。

一个或多个处理设备的内存存储设备可以包括机器可读介质，在该机器可读介质上存储有实施本文所述的方法或功能中的任一种或多种的一组或多组指令(例如，软件)。还可以通过网络收发器通过网络发送或接收指令。虽然机器可读介质可以是单个介质，但是术语“机器可读介质”应被视为包括存储一组或多组指令的单个介质或多个介质(例如，集中式或分布式数据库和/或相关联的缓存和服务器)。

术语“机器可读介质”也可以被视为包括能够存储、编码或携带由机器执行的一组指令并使机器执行各个实施方案中的任一个或多个方法的任何介质，或者能够存储、编码或携带该组指令所使用的或与之关联的数据结构的任何介质。因此，术语“机器可读介质”可以被视为包括但不限于固态存储器、光学介质和磁介质。存储器可以使用各种不同类型的内存存储设备，例如，系统中的随机存取存储器(RAM)或只读存储器(ROM)，或软盘、硬盘、CD ROM、DVD ROM、闪存，或由连接到处理设备的磁性、光学或其他读取和/或写入系统读取和/或写入的其他计算机可读介质。

概述

尽管存在许多能够对患者进行分层并确定适当治疗方法的黑盒算法，但是临床医生无法确定该算法做出决策的基础，并因此无法验证选择。这是特别困难的，因为某些法规要求医生验证临床支持系统的决策，以通过监管审查，并且通常会验证该方法在临床上的合理性。使用黑盒机器学习算法，临床医生只会知道输入了哪些特征(在某些情况下)，而不知道哪些特征是最重要的。对于深度学习算法，识别出的特征甚至可能并不明显，因此临床医生对决策的唯一了解是哪些类型的数据输入到算法中和/或用于训练它。

尽管存在一些可解释和/或可说明的算法，但是它们可能仅限于一种类型的数据(例如，一种模式，如临床量表)，和/或可能过于复杂，并因此没有用。此外，它们通常是诸如决策树等算法类型，这些算法类型可能不是很准确，和/或只有能力考虑到一部分可能有用的特征和/或属性。此外，鉴于某些神经行为分类(例如，抑郁症、精神分裂症和/或其他适应症)中存在大量生物型，因此在神经行为空间中开发可解释的分类算法具有挑战性。因此，考虑到多种模式和/或数据源，开发一种能够被人类理解且仍足够准确而可用的可解释的算法是非常困难的。

因此，本文公开的系统和方法提供了使用例如多种模式和/或简短的可解释的算法对神经行为空间的患者进行分层。这些算法能够处理大量特征和/或属性，但仅输出相对较短的规则列表，该规则列表易于解释，但仍能准确地对患者进行分类。

根据本公开的一些实施方式，这些规则列表中的一些规则列表还考虑了多种模式，包括临床量表问题、任务、湿生物标志物等，或它们的任意组合。这是非常有利且出乎意料的，因为平衡多种模式和/或不同特征的数量非常难以理解它们是如何相互作用的，并且所公开的模型能够将它们合并到规则列表中。

此外，这些规则列表能够识别对某些神经行为药物的较高反应者，这些神经行为药物原本将广泛应用于通常根据《精神疾病诊断和统计手册(DSM)》类别(例如，抑郁症、精神分裂症等)诊断的患者。在某些情况下，神经行为药物当应用于DSM类别中广泛分类的患者时，未显示出比安慰剂更好的反应，但是当使用所公开的规则列表进行分类时，神经行为药物表现出了优于安慰剂的反应。这是非常有利的，因为这些规则列表允许这些药物被提供给正确的患者，它们是可解释的，并且规则列表足够简短，以在应用时既有效又实用。因此，这代表了在神经行为空间中对患者进行分层的全新范式。

因此，所公开的系统和方法能够分析具有大量属性(在临床精神病学界中普遍存在的特性)的分类数据集。特别地，所公开的系统和方法可以利用输出一组规则的规则挖掘方法，和/或处理该组规则并产生可用于对患者进行分类的贝叶斯决策列表或规则列表的贝叶斯规则列表模型。此外，在一些示例中，特征选择方法可以在将规则挖掘方法应用于特征之前首先识别最重要的特征。

决策列表生成

根据本公开的一些实施方式，生成将患者分层为不同类别的决策列表。将一个或多个“if→then”陈述应用于特定的输入特征。这些决策列表很容易被临床医生理解，并因此可以很容易地进行验证。本文公开了可以如何生成这些决策列表的示例。

在一些示例中，所公开的系统和方法利用以下模型中的一个或多个来生成决策列表：(i)特征选择模型；(ii)规则挖掘模型；和(iii)贝叶斯规则列表模型。在一些示例中，可以仅使用规则挖掘模型和贝叶斯规则列表模型。在其他示例中，可以仅使用贝叶斯规则列表模型来生成规则列表以对患者进行分层。

贝叶斯规则列表模型

贝叶斯规则列表模型(“BRL模型”和/或“BRL算法”)是Letham等人在“使用规则和贝叶斯分析的可解释分类器：构建更好的中风预测模型(Interpretable ClassifiersUsing Rules and Bayesian Analayis:Building aBetter Stroke Prediction Model)”，《应用统计年鉴(Annals of Applied Statistics)》，2015年第九卷第三期中提出的框架，其全部内容通过引用并入本文。可以利用BRL模型来构建用于数据样本分类的规则列表。图1描述了在常用的泰坦尼克号生存数据集上训练的BRL模型输出的示例。如图所示，图1图示了示出从泰坦尼克号生存数据集上的BRL模型输出的贝叶斯决策列表的伪代码，其中θ表示生存概率。

BRL模型的另一示例在Christoph Molnar的著作“可解释的机器学习，使黑盒模型可解释的指南(Interpretable Machine Learning,A Guide for Making Black BoxModels Explainable)”的第4章：可解释的模型(Interpretable Models)中进行了说明，其全部内容通过引用并入本文。正如Molnar所述的，BRL模型使用一些精选的预先挖掘的规则来生成决策列表，并且在许多情况下，优先考虑少量规则和每个规则的简短条件。这可以通过用条件长度和规则数量的先验分布定义决策列表的分布来执行。列表的后验概率分布允许模型评估潜在决策列表的概率。在一些示例中，模型识别使后验概率最大化的决策列表。

在一些示例中，BRL模型将：(i)生成从先验分布列表中随机抽取的初始决策列表；(ii)通过添加、删除或移动列表中的规则来迭代地修改初始决策列表，只要新列表遵循列表的后验分布即可；并且(iii)根据后验分布选择概率最高的修改列表。

在一些示例中，并且具体地，可以将BRL模型应用于使用FP-Growth算法、本文公开的MCA规则挖掘器和/或其他规则挖掘技术预先挖掘的一组规则。BRL模型可以依赖于关于输出标签分布和/或定义输出标签分布的参数分布的假设。

因此，贝叶斯方法结合了现有知识或要求(所谓的先验分布)，同时也拟合数据。在决策列表的情况下，贝叶斯模型倾向于具有简短规则的简短的决策列表。在一些示例中，目标是从后验分布中对决策列表进行采样：

其中，d是决策列表，x是特征，y是输出，A是一组预先挖掘的条件，λ是决策列表的先前期望的长度，η是规则中的先前期望的条件数量，α是正反类(positive and negativeclasses)的先前伪计数且最好固定为(1，1)。

在一些示例中，以下等式表示在给定数据和先验假设下的决策列表的概率：

p(d|x,y,A,α,λ,η)

这与给定决策列表和数据的结果y的似然乘以给定先验假设和预先挖掘的条件的列表的概率成正比。

在一些示例中，以下等式表示在给定决策列表和数据下，结果y的似然：

p(y|x,d,α)

BRL可以假设y是由狄利克雷-多项式(Dirichlet-Multinomial)分布生成的。决策列表“d”对数据的解释越好，似然越大。

在一些示例中，以下等式表示决策列表的先验分布。

P(d|A,λ,η)

该等式可以将列表中的规则数量的截尾泊松分布(参数λ)和规则条件中的特征值数量的截尾泊松分布(参数η)组合。如果决策列表很好地解释了结果y，则该决策列表具有高的后验概率，并且也可能根据先验假设。

根据本公开的一些实施方式，贝叶斯统计中的估计可以通过以下方式进行：首先抽取候选、对其进行评估并使用马尔科夫链蒙特卡洛(Markov chain Monte Carlo)方法来更新后验估计。对于决策列表，从决策列表的分布中抽取一个或多个列表。BRL模型可以首先抽取初始决策列表，并且对其进行迭代修改以从列表的后验分布(例如，决策列表的马尔科夫链)生成决策列表的样本。结果可能取决于初始决策列表，因此建议重复此过程以确保列表的多样性。例如，软件实现中的默认迭代次数是十次。

在一些示例中，可以利用以下步骤中的一个或多个来识别初始决策列表：

1)预先挖掘模式或一组规则；

2)从截尾泊松分布中对列表长度参数m进行采样；

3)对于默认规则：对结果值的狄利克雷-多项式分布参数进行采样(例如，在没有其他任何应用时应用的规则)；

4)对于决策列表规则j＝1，…，m：

a.对规则j的规则长度参数l(条件数量)进行采样；

b.从预先挖掘的条件中对长度条件l_jl_j进行采样；

c.对THEN部分(例如，给定规则的目标结果的分布)的狄利克雷-多项式分布参数进行采样；

5)对于数据集中的每个观察：

a.从决策列表中找到最先应用的规则(从上到下)；

b.从应用规则建议的概率分布(二项式)中推断出预测结果。

一旦识别了初始决策列表，BRL模型就可以从识别的初始列表(例如，初始样本)开始生成许多新列表，以从决策列表的后验分布中获得许多样本。

马尔科夫链蒙特卡洛采样(MCMC)

根据本公开的一些实施方式，可以对d进行Metropolis-Hastings采样。特别地，可以通过从初始列表开始然后随机地进行一个或多个修改来对新的决策列表进行采样。一个或多个修改包括(i)将规则移动到列表中的不同位置；(ii)从预先挖掘的条件向当前决策列表添加规则；(iii)从决策列表中删除规则；或者(iv)它们的任意组合。在一些实施方式中，切换、添加或删除规则中的哪些规则是随机选择的。在一些实施方式中，算法在每个步骤评估决策列表的后验概率(例如，准确度、简短性或两者)。

在一些示例中，BRL模型可以利用各种算法来确保采样的决策列表具有高的后验概率。此过程从决策列表分布提供了许多样本。BRL算法可以选择具有最高后验概率的样本的决策列表。

规则挖掘模型

根据本公开的一些实施方式，首先从数据集中挖掘一组规则。例如，如Letham等人(2015)所公开的并在此引用的，FP growth挖掘器用于首先从数据集中挖掘一组规则。BRL模型使用MCMC算法或本文公开的其他合适的算法，在指定的一组规则的组合的配置空间上进行搜索。在一些实施方式中，可以利用规则挖掘方法来生成一组规则，BRL模型可以对其进行处理以生成并输出决策列表。在一些这样的实施方式中，规则挖掘方法包括基于MCA的规则挖掘方法。

基于MCA的规则挖掘方法可以包括针对多个类别属性的一个或多个标度性(scaling properties)，并且可以利用使用多核并行执行的BRL算法的新实施方式。这种使用多核并行执行的新实施方式应用于精神疾病的CNP数据集，并产生n个基于规则的可解释分类器，分类器能够使用自报告的调查问卷数据(例如，量表数据)来筛查患者。结果不仅显示了针对最先进的临床精神病学数据集构建可解释模型的可行性，而且这些模型可以按比例扩展到更大的数据集，以了解这些疾病之间的相互作用和差异。

介绍了贯穿本公开使用的相关符号和定义。属性(表示为a)是每个数据样本的分类属性，每个数据样本可以采用离散且有限数值(表示为|a|)。文字是布尔型陈述(Booleanstatement)，检查属性如果采用了给定值，例如，具有分类值{c1，c2}的给定属性a，则可以定义以下文字：a是c1，并且a是c2。给定属性集合

数据样本是分类值的列表，每个属性一个。规则(表示为r)是文字的集合，其长度为|r|，其用于如下地产生数据样本的布尔评估：只要所有文字都为True，则规则就会评估为True，否则评估为False。

本公开考虑了针对所有属性(例如，

)之中类别总数大的数据集的有效构建规则列表的问题，这是与包括神经行为健康障碍的医疗保健或药理学相关的数据集中的常见情况。

在一个示例中，给定n个数据样本，数据集可以表示为具有维度n×p的矩阵X，其中，Xi，j是分配给第j个属性的第i个样本的类别。还考虑了每个数据样本的分类标签，统称为具有长度n的向量Y。标签类别的数量用

表示，其中

如果

则存在标准的二元分类问题。相反，如果

则解决了多类分类问题。

常规的规则挖掘方法由于不能接受的长计算时间或过高的内存使用率，通常不能在类别总数大的数据集上执行。本公开包括基于多重对应分析(MCA：MultipleCorrespondence Analysis)的新的规则挖掘模型，其在计算和内存方面都是高效的，从而能够将BRL模型应用到类别总数大的数据集上。

根据本公开的模拟实施方式(sim implementations)，BRL模型中的MCMC搜索方法可以通过在计算机的单独CPU内核中执行各自的马尔科夫链来并行化。在一些实施方式中，可以使用广义的Gelman&Rubin收敛标准来周期性地检查多链的收敛，从而一旦满足收敛标准就停止执行。例如，如图4所示，该实施方式比原始的单核版本更快，从能够研究具有更长规则和/或大量特征的更多数据集。

MCA是一种将对应分析(CA)的强大功能应用到分类数据集的方法。根据本公开的一些实施方式，MCA是将CA应用到一组属性中的所有类别的标识矩阵(indicator matrix)，从而生成将这些类别中的每者投影到欧几里得空间中的主向量。在给定数据集中类别的情况下，生成的主向量用于在一组所有可用规则上构建启发式优值函数(heuristic meritfunction)。此外，优值函数的结构允许对最佳规则进行有效挖掘。

规则得分计算

在一些实施方式中，公开了一种用于确定与一条规则和/或任意数量规则的有用性有关的得分的方法。然而，可以利用任何其他合适的方法。

扩展数据矩阵可以被定义为将X和Y联系起来，表示为具有维度n×(p+1)的Z＝[XY]。针对Z的每个存在类别计算MCA主向量。与对应的分类值相关联的MCA主向量被称为分类向量，用

表示，其中，

是数据集X中的一组属性。与对应的标签类别相关联的MCA主向量被称为标签向量，用

表示。

每个类别都可以被映射到文字陈述。主向量用作评估给定文字质量以预测标签的启发式方法。因此，将每个分类向量v_j和每个标签向量ω_k之间的得分计算为它们的角度的余弦：

在随机变量的情况下，p_j,k相当于两个主向量之间的相关性。

计算规则r与标签类别k之间的得分(表示为μ_k(r))作为r中的文字与相同标签类别之间的得分的平均值，例如：

对使用数据集中的所有可用文字的组合构建的规则r的配置空间进行搜索，使得|r|≤r_max，并识别出每个标签类别的最高得分的规则。这些顶级规则是所公开的挖掘器的输出，并作为将从其构建规则列表的一组规则传递到BRL方法。

规则修剪

在一些实施方式中，由直到长度r_max的所有可用文字的所有组合生成的规则的数量即使对于适度值r_max也可以很大，所公开的技术可以包括修剪和/或消除生成的规则的一部分的不同方法。例如，在这些实施方式中，本公开包括两个条件，在这两个条件下规则被有效地排除在考虑之外。

首先，可以消除对每个标签类别的支持度小于用户定义阈值s_min的规则。规则r对标签类别k的支持度(表示为suppk(r))是在与给定标签相关联的总数量的数据样本中，规则评估为True的数据样本的分数。给定规则r，应注意对包含r中的文字的集合的所有其他规则

的支持度都满足

因此，一旦规则r未能通过最小支持度测试，则可以停止考虑所有长于r且包含r中的所有文字的规则。

其次，可以消除得分小于用户定义阈值u_min的规则。现在，假设要通过采用规则r并添加文字l来构建新规则

在这种情况下，给定了类别k，该规则的得分将满足：

设

是所有可用文字中标签类别k的最大得分，可以预测r的扩展具有大于μ_min的得分，条件是：

给定每个标签要挖掘的最大规则数M，当系统通过组合文字进行迭代以构建新规则时，将重新计算μ_min。实际上，会定期对候选规则的临时列表的得分进行排序，并将μ_min设置为等于排序列表中的第M条规则的得分。随着μ_min由于更好的候选规则变为可用而增大，等式(4)中的条件变得更加严格，从而使得考虑的规则更少，并因此总体挖掘速度更快。

图2A-2C描述了本文公开的基于MCA的规则挖掘算法的伪代码和流程图。第三行(3)中对标签类别进行迭代循环可以很容易地并行化为多核计算，从而显著减少挖掘时间，如图3所示。图2B和图2C所示的流程图表示图2A所示的伪代码。该过程可以由计算机执行，该计算机包括存储有计算机指令的存储器以及执行该计算机指令以执行动作的处理器。由计算机执行的动作包括使计算机执行所示过程的计算机操作。

图2B-2C示出了如本文公开的基于MCA的规则挖掘模型的过程。该过程开始于图2B中的框202，其中获得数据集。该数据集包括用于多个标签类别的多个属性陈述。过程进行到框204，其中如以上相对于等式1所述的，然后确定每个属性陈述与每个标签类别的每种组合的得分。过程在循环框206a处继续，其中如下所述地处理数据集的多个类别中的每个目标类别，直到循环框206b。该过程接下来进行到循环框208a，其中如下所述地处理数据集的多个属性陈述中的每个目标属性陈述，直到循环框208b。

接下来，该过程在决策框210处继续，其中确定两个参数是否为真：(i)目标类别和目标属性陈述的得分大于第一用户定义阈值；以及(ii)对属性陈述的支持度大于第二用户定义阈值。如果两个参数都为真，则过程进行到框212；否则，过程进行到循环框208b。在框212处，更新目标类别的规则集以包括目标属性陈述，此后，过程进行到循环框208b。

在循环框208b处，过程循环到循环框208a，直到处理了多个属性陈述中的每个属性陈述。然后，过程进行到图2C中的循环框214a。在循环框214a处，如下所述地处理与数据集相关联的规则集中的多个规则中的每个规则，直到循环框214b。过程在循环框216a处继续，其中如下所述地处理针对目标类别的规则集中的每个目标规则，直到循环框216b。过程进行到框218，其中将第一用户定义阈值更新为针对目标类别的规则集中的最大得分。

过程在循环框220a处继续，其中如下所述地处理多个属性陈述中的每个目标属性陈述，直到循环框220b。过程进行到框222，其中将新规则设置为具有目标属性的目标规则。接下来，该过程在决策框224处继续，其中确定两个额外参数是否为真：(i)新规则与目标类别之间的得分高于当前的第一用户定义阈值，以及(ii)对新规则的支持度大于第二用户定义阈值。如果两个参数都为真，则过程进行到框226；否则，过程进行到循环框220b。在框226处，更新针对目标类别的规则集以包括新规则，此后，过程进行到循环框220b。

在循环框220b处，过程循环到循环框220a，直到处理了多个属性陈述中的每个属性陈述，然后过程进行到循环框216b。在循环框216b处，过程循环到循环框216a，直到处理了针对目标类别的规则集中的每个目标规则，然后过程进行到循环框214b。在循环框214b处，过程循环到循环框214a，直到处理了每个规则，然后过程进行到框228。在框228处，针对按得分排序的前M个规则，更新规则集。

然后，过程在循环框206b处继续，其中过程循环到图2B中的循环框206a，直到处理了多个类别中的每个类别，然后该过程终止或返回到调用过程以执行其他动作。

特征选择

在应用本文公开的规则挖掘技术之前，在一些示例中，公开了用于识别可以从中挖掘规则的特征的各种方法。这允许识别最重要的特征，以使规则挖掘过程更有效，并具有更少的对规则列表造成干扰的文字或规则。

在一些示例中，实施了前向选择技术以从数据集中识别出相关特征，并对患者进行分层。例如，在某些情况下，利用具有弹性网络正则化的逻辑回归模型来从数据中识别出最重要的特征。然后，可以利用逻辑或线性回归模型，以根据这些特征对患者进行分层，和/或可以将规则挖掘技术应用到所识别的特征(在一个示例中与线性回归结合)。数据(包括特征)通过贝叶斯规则列表算法进行处理，这反过来输出可以对患者进行分层的贝叶斯决策列表。

根据本公开的一些实施方式，这些决策列表或规则列表可以应用于(i)从患者中筛查健康组，(ii)将患者分成诊断类别，(iii)识别对某些药物是较高反应者的患者，和/或(iv)它们的任意组合。

模型拟合和特征重要性加权

机器学习分析的目标可以包括(i)构建鲁棒分类器，(ii)识别可以用于对患者进行分层的重要特征，或(iii)(i)和(ii)两者。为了实现构建鲁棒分类器的第一目标，可以使用逻辑回归模型。可以使用上述提取的特征模式的每个或各种组合作为输入来独立地训练单独的逻辑回归模型。在一些实施方式中，可以评估每个模型的性能。

如果特征的数量相对较大，则可以将弹性网络正则项添加在所有逻辑回归模型中，以防止过度拟合。弹性网络正则化是L1和L2正则项的线性组合，并且在处理具有小样本量和相关特征的高维数据时，已显示出优于L1和L2正则化的优点。在这些模型中使用弹性网络正则化还可以进行特征选择，因为正则化通过分组效应引入稀疏模型，其中所有重要特征都将保留，而不重要的特征将设置为零。这允许识别预测特征。

在scikit-learn工具箱中实施的弹性网络正则化逻辑回归包含两个超参数：整体正则化强度以及L1和L2项之间的混合比。可以使用以下过程来确定最佳正则化参数。首先，可以将输入数据随机划分为开发集和评估集。开发集可以包含80％的数据，可以在该数据上实施具有3倍交叉验证程序的网格搜索以确定最佳超参数。然后，可以使用最佳超参数在整个开发集上训练模型，并可以在模型之前从未见过的剩余20％的评估集上进行进一步测试该模型，以获得测试性能。

所有特征可以标准化为在训练数据(3倍交叉验证的训练倍数或开发集)内具有零均值和单位方差，并且可以使用来自训练数据的均值和方差来标准化相应的测试数据(测试倍数或评估集)，以避免信息从测试数据溢出到训练数据。整个过程可以在开发集和评估集的十(10)个不同随机分区上实施十(10)次，或实施为其他各种次数的组合。以下指标可用于量化模型性能：接收器工作特性曲线(AUC)下的面积、准确度、灵敏度和特异度。

从上述训练的模型中，可以评估每个特征的预测性如何，因为跨诊断分类器中的逻辑回归模型的权重表示给定特征与作为患者的观察对象的让步比的对数之间的关系。对于每个特征，可以计算出其相应的平均模型权重，并除以十(10)个模型实施方式的标准差作为特征重要性的代理。这种特征重要性测度类似于Cohen’s d效应大小测度，并因此在十(10)个模型实施方式中偏向具有大权重和小标准偏差的特征。来自跨诊断分类器的具有大重要性值的特征是患者群体中共有的潜在症状、特性和神经病理学机理，但与健康对照者或与对某些药物的反应有关的其他相关特性不同。

特征重要性指导的顺序模型选择

如果与数据集中的样本量相比，输入数据的特征维度较高，则使用完整特征集的跨诊断分类器很可能受到大量的噪声以及无法预测的特征的影响。这些噪声特征的存在，特别是在样本量较小时，可能阻碍模型获得它们的最佳性能的能力。

为了研究是否可以从最具预测性特征的缩减集中实现改进的分类性能，可以利用以下特征重要性指导的顺序模型选择过程。具体地，首先可以根据分类器中的特征重要性测度来对分类器中的特征进行排序。接下来，可以构建一系列截尾模型，使得每个模型仅将前k个最具预测性的特征作为输入来执行相同的跨诊断分类问题。对于临床表型特征、MRI特征、基于任务的特征或其他特征组合，设k的范围从前1个最具预测性特征到所有可用的特征(以1为步长(in steps of 1))。对于涉及fMRI相关性的任何特征或特征组合，由于特征维度显著增加，因此k’s从公比为2的等比数列(geometric sequence)中选择(例如，1、2、4、8、16等)。

可以针对每个截尾模型获得模型性能，并且可以根据每个截尾模型中包括的主要特征的数量(k)来评估模型性能。为了统计测试模型的性能是否显著高于机会水平，可以执行随机排列测试，其中数据中的标签可以混洗100次或任何其他合适的次数。可以使用与本文所述方法完全相同的方法，在这些标签混洗的数据上训练模型。来自100个模型的性能可用于构建经验零态分布，然后将其与来自实际数据的模型性能进行比较。

从识别的特征生成规则列表

根据本公开的一些实施方式，一旦使用前向选择识别出最主要特征以分离一组群组(a set of groups)，就可以利用规则挖掘器和BRL算法来开发规则以分离这些群组。例如，规则挖掘器使用的数据的输出标签可以从前向选择中使用的例如线性回归模型分离的群组中导出。然后，规则挖掘器可以输出从特征导出的一组规则。最后，可以将贝叶斯规则列表模型应用到该一组规则，以开发将患者分为相同群组的决策列表。

生成决策列表的方法

根据本公开的一些实施方式，能够以各种组合来使用系统、方法和模型，以生成能够对患者进行分层的规则列表或贝叶斯决策列表。例如，贝叶斯决策列表可能能够筛查心理健康障碍的患者，以用于诊断患者或将患者匹配到正确的神经行为治疗(例如，某些药物或其他治疗)。

图21是示出了用于生成如本文公开的贝叶斯决策列表的过程的流程图。首先，可以提供患者数据库2100，该患者数据库包括具有与某些结果相关联的不同属性的标记的数据。患者数据库可以包括各种不同模式的数据，该数据包括患者大脑的MRI数据、对临床量表调查问卷的回答、与从患者身体测出的生化标志物水平相关的数据(“湿生物标志物”)、人口统计数据(例如，年龄、性别等)、任务数据(例如，来自本文公开的各种任务的输出)以及声音/面部表情数据。

然后，在一些示例中，如本文公开的，可以首先使用特征选择模型2110来处理数据。在一些示例中，这可以包括模型相关的特征选择2107(例如，弹性网、LASSO)、如本文公开的前向特征选择2109、后向特征选择2111或其他合适的特征选择模型。在其他示例中，可以不使用特征选择模型2109来处理数据，从而首先缩小规则挖掘器将应用到的特征的范围。

接下来，在一些示例中，可以将规则挖掘模型应用到数据2120或来自步骤2110的选择特征和相关结果。可以使用各种合适的规则挖掘模型，包括本文公开的新的MCA规则挖掘模型2113。在其他示例中，可以利用FP growth 2114、Apriori 2115或其他规则挖掘方法。这可以输出一组规则以供进一步处理。

接下来，可以将贝叶斯规则列表模型2130应用到规则挖掘器2120输出的一组规则。在其他示例中，可以将贝叶斯规则列表模型2130应用到所有可能的规则，或应用到使用规则挖掘器2120以外的方法识别的一组规则。通常可以基于本文公开的示例或模型和/或框架的其他适合的应用来应用贝叶斯规则列表模型。在一些示例中，它可以包括本文所述的MCMC算法2134。

接下来，过程将输出能够对数据进行分类的贝叶斯决策列表2140。在所公开的示例中，这些主要涉及将个体或患者分类为神经行为类别，包括从患者中筛查健康者、诊断患有精神疾病的患者以及为特定患者识别具体治疗方法。该决策列表可以保存在计算机的存储器中、显示在显示器上或既存储在存储器中又显示在显示器上。

系统与数据采集

图22示出了可被用于实施所公开的技术的各种示例系统。例如，系统可以包括具有显示器和/或界面2212的计算设备2210、网络2220、患者2200、服务器2250和数据库2240。在一些示例中，界面可以包括麦克风和扬声器。在一些示例中，扬声器可以向患者提供指令、问题或其他信息，并且麦克风可以获取患者的回答、反应和声音特征。计算设备2210可以是任何合适的计算设备，包括计算机、膝上型计算机、移动电话、平板电脑等。网络2220可以是有线的、无线的或有线和无线的各种组合。服务器2250和数据库可以是本地的、远程的，并且可以是服务器2250和数据库2240的组合，或者可以是本地处理器和存储器。计算设备2210和服务器2250可以包括具有一个或多个处理器的控制系统。在一些示例中，所有处理可以在计算设备2210上执行，或者处理的一部分可以在计算设备2210上执行，且处理的另一部分可以在服务器2250上执行。

显示器和/或界面2212可以是触摸屏界面和显示器，或者可以是键盘和显示器或为实现本文公开的技术的任何其他合适的界面，包括麦克风和扬声器。例如，本文公开的或本领域中使用的某些任务可以包括某些界面特征。

另外，某些生化测试和仪器(未示出)可以用于测试患者2200的某些生化指标。这包括本领域已知的用于测试肿瘤坏死因子的各种血液测试。例如，ELISA测试可以与各种盘式分析仪(plate reader)一起使用，以量化患者2200体内的某些分子或生化部分的水平。

此外，可以利用磁共振或其他机器来扫描患者并输出MRI数据或脑功能数据，所公开的模型利用这些数据对患者进行分层。MRI数据可以对应于生物结构的一组MRI图像。在一些示例中，MRI数据对应于患者的脑部的MRI数据。MRI数据可以包括基于任务的fMRI数据、rs-fMRI数据和/或sMRI数据等。

可以使用多种方法来获得MRI数据，例如包括使用3T Siemens Trio扫描仪。在一示例中，sMRI数据可以使用磁化准备的快速梯度回波(MPRAGE：magnetization-preparedrapid gradient-echo)序列进行T1加权和采集，采集参数如下：TR＝1.9s，TE＝2.26ms，FOV＝250mm，矩阵＝256×256，沿矢状面取向的176个1mm厚的切片。作为示例，静息态fMRI扫描可以是持续304s的单次运行。然而，这些仅是示例，并且可以使用各种其他采集方法。

应用决策列表以对患者进行分层的方法

图23和图24图示了示出使用公开的贝叶斯决策列表对个体患者进行分层的示例方法的流程图。例如，图23图示了使用接收到的患者数据2300对患者进行分层的方法。例如，患者数据可以包括MRI数据2303、调查问卷数据2305(例如，临床量表)、概况数据(profile data)和/或人口统计数据2307(可以包括例如年龄、性别、体重、种族等)、任务数据2309(可以包括诸如本文公开的各种任务)或患者2311体内的诸如肿瘤坏死因子等生化生物标志物水平。

接下来，可以用模型2310处理患者数据。在许多示例中，可以使用贝叶斯决策列表2313来处理数据。这提供了临床医生可以验证的可解释结果。在其他示例中，可以使用其他机器学习模型2315、决策列表或类似模型来对神经行为空间中的患者进行分层。在一些示例中，所公开的规则挖掘器可以用于对神经行为空间之外的患者进行分层，特别是考虑到其对多模型(或数据类型)利用的潜力。

接下来，系统可以输出患者分类2320，其可以随后被显示2330在显示器、界面中，和/或存储在关于患者(或患者的标识符)的存储器中。因此，还可以显示使用的规则列表，包括如何根据规则列表对患者进行分类(包括患者属于哪些规则以达到分类)。这将提供患者的可解释分类。

分类可以：(i)用作确定患者是否健康或患有精神疾病的筛查工具，(ii)用于诊断心理健康障碍，(iii)用于确定患者患有某种心理健康障碍的概率，和/或(iv)用于建议治疗。治疗可以包括医药药物、认知行为治疗，包括基于软件的治疗版本或其他合适疗法。

在一些示例中，临床医生还可以治疗患者2340。这可以包括开出可以给患者施用或可指示患者服用的药物处方。在其他示例中，这可以是推荐的软件程序，包括基于软件的认知行为治疗版本。

图24图示了类似的过程，但额外包括关于使用诸如平板电脑或移动电话等计算设备2210从患者获取量表相关数据的更多细节。例如，可以通过在显示器2400上显示一系列基于文本的问题并通过界面2212接收患者对答案的选择2410来获得量表或调查问卷数据2305，可以包括多项选择答案或其他输入。在其他示例中，患者可以填写纸质的调查问卷，并且可以将数据输入到所公开的系统和方法中。

示例

提供以下示例以更好地说明要求保护的公开内容，并且这些示例不旨在解释为限制本公开内容的范围。所提及的特定材料或步骤仅是出于说明的目的，且不旨在限制本公开。本领域技术人员可以在不行使发明能力且不脱离本公开的范围的情况下开发等效方案或反应物。

示例1：基准数据集(Benchmark Datasets)

图2A-2C中本文在公开的MCA-miner方法当与BRL一起使用时可提供规则列表可解释性的强大功能，同时保持已建立的机器学习方法的预测能力。

新的MCA-miner的性能和计算效率是以“泰坦尼克号”数据集以及在UCI机器学习库(Machine Learning Repository)中可用的以下五(5)个数据集为基准：“成人(Adult)”、“自闭症筛查成人(Autism Screening Adult)”、“乳腺癌威斯康辛(诊断)(Breast CancerWisconsin(Diagnostic))”、“心脏病(Heart Disease)”和“HIV-1蛋白酶切割(HIV-1protease cleavage)”，它们分别被指定为成人(Adult)、ASD、癌症(Cancer)、心脏(Heart)和HIV。这些数据集代表了各种真实生活的实验和观察结果，因此能够将本文所述的改进与使用FP Growth挖掘器的原始BRL实施方式进行比较。

所有六个基准数据集都对应于二元分类任务。在每个基准中使用相同的设置进行实验。首先，数据集被转换为与公开的BRL实施方式兼容的格式。其次，所有连续属性被量化为两(2)个或三(3)个类别，同时保留所有其他变量的原始类别。值得注意的是，根据数据集及其数据最初是如何收集的，在某些情况下会优先考虑现有分类法和专家领域知识，以生成连续变量量化。没有其他可用信息时，生成平衡量化。第三，使用5倍交叉验证对模型进行训练和测试，报告平均准确度和ROC曲线下面积(AUC)作为模型性能测度。

表1给出了比较两个实施方式的经验结果。表格中的符号遵循上述定义。为了争取在两个实施方式之间进行公平比较，两种方法的参数rmax＝2和smin＝0:3是固定的，并且特别是对于MCA-miner还设置了：μmin＝0:5和M＝70。新的MCA-miner和BRL的多核实施方式在六个并行过程上执行，并在Gelman&Rubin参数满足

时停止。所有实验都是使用具有72个核的单个AWS EC2 c5.18xlarge实例运行的。

表1：在基准数据集上与BRL一起使用时，FP-Growth相对MCA-miner的性能评估。t_train是完整的训练墙上时间。

从表1的实验中可以清楚看出，新的MCA-miner在每种情况下均与FP-Growth的性能相匹配，同时显著减小了挖掘规则和训练BRL模型所需的计算时间。

示例2：心理健康的跨诊断筛查仪

将所公开的用于对患者进行分层的系统和方法应用到来自神经精神表型组学联盟(CNP：Consortium for Neuropsychiatric Phenomics)的数据集。CNP是一项研究项目，其旨在了解多个诊断上不同的患者群体之间共有的和不同的神经生物学特征。该研究包括四组受试者：健康对照者(HC，n＝130)、精神分裂症患者(SCHZ，n＝50)、双相情感障碍患者(BD，n＝49)以及注意力缺陷和多动障碍患者(ADHD，n＝43)。数据集中的受试者总数为n＝272。分析CNP数据集的目标是开发可解释且有效的筛查工具，以确定对这三种精神疾病患者的诊断。

CNP自报告仪器数据集

在其他数据模式中，CNP研究包括每个受试者对p＝578个单独问题的回答，这些问题属于13个自报告临床调查问卷。由578个问题产生的类别总数为

13个调查问卷如下(按字母顺序排列)：

·成人ADHD自报告筛查仪(Adult ADHD Self-Report Screener)(ASRS)，

·巴勒特冲动量表(Barratt Impulsiveness Scale)(Barratt)，

·查普曼知觉异常量表(Chapman Perceptual Aberration Scale)(ChapPer)，

·查普曼身体快感缺失量表(Chapman Physical Anhedonia Scale)(ChapPhy)，

·查普曼社交乐趣缺失量表(Chapman Social Anhedonia Scale)(ChapSoc)，

·迪克曼功能和功能障碍冲动量表(Dickman Function and DysfunctionalImpulsivity Inventory)(Dickman)，

·艾森克冲动量表(Eysenck’s Impusivity Inventory)(Eysenck)，

·由分类方法选择的Golden&Meehl的7个MMPI项目(Golden)，

·霍普金斯症状检查表(Hopkins Symptom Check List)(Hopkins)，

·轻度躁狂人格量表(Hypomanic Personality Scale)(Hypomanic)，

·多维人格调查问卷-控制子量表(Multidimensional PersonalityQuestionnaire–Control Subscale)(MPQ)，

·气质和性格量表(Temperament and Character Inventory)(TCI)，以及

·增加双相情感II障碍风险的特征量表(Scale for Traits that IncreaseRisk for Bipolar II Disorder)(BipolarII)。

使用上面列表中括号内的名称以及问题编号来缩写各个问题。例如，Hopkins#57表示“霍普金斯症状检查表”调查问卷中的第57个问题。

取决于特定的临床调查问卷，每个问题都有二进制答案(例如，True或False)或等级整数(例如，从1到5)。每个问题都被用作文字属性，因此每个属性的类别范围从二(2)到五(5)。

性能基准

不采用先验地修剪属性数量以减少规则挖掘器和BRL的搜索空间，而是采用本文所述的新MCA-miner来识别文字组合的完整搜索空间上的最佳规则。应注意，这对于大多数机器学习算法带来了一个具有挑战性的问题，因为这是一个具有比样本更多特征的广泛数据集，例如

实际上，仅从该数据集中生成具有三(3)个文字的所有规则，就会产生大约2300万条规则。图3是比较新的MCA-miner与三个流行的关联挖掘方法(FP-Growth、Apriori和Carpenter)的墙上执行时间的图表，所有这些方法都使用PyFIM数据包中的实施方式。图中的所有样本都是在每种方法上从CNP数据集训练相同特征获得的。图中的时间是五(5)次运行的平均值。黑圈表示方法的最后一次成功执行。墙上时间超过12小时就会自动取消执行。

如图3所示，虽然关联挖掘方法在具有少量特征的数据集上相当有效，但它们不能处理来自CNP数据集的大约70个以上的特征，即使对于大规模计算优化的AWS EC2实例，也会导致内存不足错误或不切实际的长执行时间。相比之下，MCA-miner在经验上表现出与远大于CNP的数据集兼容的增长率，因为它的运行速度比关联挖掘方法快很多个数量级。值得注意的是，虽然FP-Growth显示为最快的关联挖掘方法，但在某些实验中，其缩放行为与属性数量的关系实际上与Apriori相同。

例如，特征空间的大小呈指数增长。用数学表示，给定d个独特特征，可能的规则总数大约如下：

MCA过程过滤该空间并生成一个明显更小的规则空间。BRL过程构建规则列表以拟合该模式。如本文公开的，CNP数据集包括大约578个特征，它们将生成大约2300万个有效规则。所公开的MCA算法可以处理该大组的规则，而传统算法(例如Apriori、FP-Growth)只能处理具有约100个特征的一组规则。

如本文所述，除了新MCA-miner带来的提高的性能之外，BRL训练MCMC算法的实施方式通过在不同的CPU内核中同时运行并行马尔科夫链也得到了改进。图4示出了在给定相同规则集且都使用六个链的情况下，新多核实施方式与报告的原始单核实施方式之间的BRL训练时间比较。图4的图中的时间是五(5)次运行的平均值。

此外，图5示出了多核实施方式的收敛墙上时间tmulti-core与马尔科夫链数量呈线性比例，其中tsingle-core≈1/2 Nchains tmulti-core。多核实施方式中使用的核数等于MCMC链数。该图中的时间为五(5)次运行的平均值。尽管随着规则集大小的增加，这两种实施方式都显示出相似的增长率，但是在该实验中，新多核实施方式大约快了三(3)倍。

可解释的跨诊断分类器

为了构建针对CNP数据集中存在的三种类型的精神病患者的最可行的跨诊断筛查工具，构建了三个不同的分类器。首先，建立二元分类器以将HC与患者组分开，患者定义为SCHZ、BD和ADHD受试者的集合。其次，建立多类分类器以直接分离数据集中可用的所有四个原始类别标签。最后，通过重复二元分类任务并比较结果来评估多类分类器的性能。除了使用“准确度”和“AUC”作为性能指标之外，Cohen’sκ系数(Cohen1960)被报告为新分类器效果大小的另一指标。Cohen’sκ与二元分类器和多类分类器兼容。其范围在-1(完全错误分类)到1(完美分类)之间，其中0对应于机会分类器。为了避免有偏差的精度计算，对数据集进行子采样(sub-sampled)以平衡每个标签，从而为四个类别中的每个类别生成n＝43个受试者，总共有n＝172个样本。最后，使用5倍交叉验证来确保训练和测试方法的鲁棒性。

二元分类器

除了本文所述的新MCA-miner和BRL一起构建可解释的规则列表以外，其性能还和与分类数据兼容的其他常用机器学习算法进行了基准测试，这些算法是使用Scikit-learn(Pedregosa等人，2011)的实施方式和默认参数。如表2所示，与其他方法相比，本文所述的方法在统计学上即使不是更好的，也是一样好的。

表2：不同机器学习模型的HC与患者的二元预测性能比较。

使用MCA-miner和BRL生成的规则列表如图6所示，其描述了用于对精神疾病进行跨诊断筛查、在健康对照者和患者之间进行分类的规则列表。此外，图7示出了按列表中的每个规则分类的受试者数量的细分分析。图6中的问题的详细说明如表3所示。应注意，大多数受试者都以较高的概率被分类到前两个规则，在需要快速临床筛查的情况下，这是非常有用的特征。

多类分类器

如上所述，图8示出了使用CNP数据集中的所有四个标签训练BRL模型后的输出规则列表。每个规则可用于推断受试者的诊断。规则列表的准确度为0.54，且Cohen’sκ为0.40。应注意，图8中的规则会发出与BRL模型中同一规则所生成的多项式分布对应的最大似然估计，因为这是实际临床应用中最有用的输出。经过5倍交叉验证后，带有BRL分类器的新MCA-miner的准确度为0:57，Cohen’sκ为0:38。

图10示出了使用所有五(5)个交叉验证测试组的多类分类器的平均混淆矩阵。表3中详细显示了图8的规则列表中引用的实际问题。

表3：由图6和图8中的规则列表分类器选出的来自CNP数据集的问题。

图8中的规则列表的可解释性和透明度使我们能够获得有关CNP数据集中人群的更深入了解。实际上，类似于二元分类器，图9示出了使用4类规则列表的所有CNP受试者的映射。尽管作为多类分类器的规则列表的准确度并不完美，但值得注意的是，在总共578个问题中，只有7个问题足以在规则之间产生相对平衡的输出，同时又将标签类别显著分开。

还应注意，即使数据集中的13个调查问卷中的每个调查问卷都已在文献中作为用于检测和评估不同特性和行为的临床仪器进行了全面测试，但是规则列表选择的7个问题特别地不偏向任何调查问卷。这表明从不同的数据源可以更好地获得跨诊断分类器，并且由于数据集中包括了其他模式(例如，移动数字输入)，因此可能提高其性能。

使用多类规则列表进行二元分类

通过将多类分类器用作二元分类器(例如，将ADHD、BD和SCHZ标签替换为患者)，在图8中进一步评估了多类分类器的性能。使用上述多类部分中获得的相同的5倍交叉验证模型，将它们的性能作为二元分类器进行计算，以得到0:77的准确度，0:8的AUC和0:54的Cohen’sκ。这些值与表2中的值相等，表明该方法不会通过添加更多类别标签而降低性能。

示例3：对BTRX-246040的治疗反应

将所公开的系统和方法用于一随机的、安慰剂对照的研究，以识别对BTRX-246040(LY2940094)-痛敏肽受体拮抗剂(nociceptin receptor antagonist)(NOPA)有反应的患者。关于BTRX-246040的化学结构和其他性质、用途和适应症的详细信息，已在JM Witkin等人的“NOP受体拮抗剂在神经行为障碍中的治疗方法：BTRX-246040在多数抑郁症和酒精使用障碍中的临床研究(Therapeutic Approaches for NOP Receptor Antagonists inNeurobehavioral Disorders:Clinical Studies in Majority Depressive Disorderand Alcohol Use Disorder with BTRX-246040)”中公开，其全部内容通过引用并入本文。另外，在2010年11月10日提交的标题为“作为ORL-1受体拮抗剂的螺哌啶化合物(Spiropiperidine Compounds as ORL-1Receptor Antagonists)”的美国专利No.8 232289以及在2012年8月23日提交的标题为“作为ORL-1受体拮抗剂的螺哌啶化合物(Spiropiperidine Compounds as ORL-1Receptor Antagonists)”的美国公开No.2012/0214784中公开了BTRX-246040及其用途、适应症、治疗方法和形式，其全部内容通过引用并入本文。

在本文公开的研究期间，对患有重度抑郁症而无快感缺失的患者每天施用一次BTRX-246040。该研究包括73名患者，其中，38名随机分配到BTRX-246040，35名随机分配到安慰剂。BTRX组有17位反应者，而安慰剂有15位反应者。该研究包括以下方法：

·28天筛查期

·八(8)周积极治疗

·一到两周后的停药随访

·随机分配104名MDD患者

·1:1比例以SHAPS≤4和SHAPS>4分层

·剂量：第一周40mg，耐受后80mg起

另外，该研究包括表4中列出的以下评估时间表：

表4：评估时间表

因此，患者在研究的8周内的各种访问期间接受了各种评估。这些评估包括：

临床量表

以下是在上述指定时间点使用的已知临床调查问卷：

·蒙哥马利-艾森贝格抑郁量表(Montgomery-Asberg Depression Scale)(MADRS)

·汉密尔顿焦虑量表(Hamilton Anxiety Scale)(HAMA)

·医院焦虑和抑郁量表(Hospital Anxiety and Depression Scale)(HADS-A/HADS-D)

·斯奈思-汉密尔顿愉快情绪量表(Snaith-Hamilton Pleasure Scale)(SHAPS)

·多维快感缺失量表(Dimensional Anhedonia Rating Scale)(DARS)

任务

对患者实施以下任务，包括使用基于移动电话或平板电脑的任务版本，该任务通过用户界面向患者发出指令并要求患者输入。

概率奖励任务(PRT)

PRT任务评估奖励响应的客观测度。图11是本研究的任务设计的示意图。对于每次试验，受试者的任务是通过控制系统通过按下连接到计算机处理器和用户界面的显示器的键盘的“z”或“/”键来决定在显示器上的先前没有嘴的卡通面部上显示短嘴(11.5mm)或长嘴(13mm)。在其他示例中，键可能已经显示在平板电脑或移动设备的触摸屏界面上。当受试者按下正确答案时，有时会得到像(正确！您赢了5美分)一样的信息作为奖励。受试者被告知，目标是赢得尽可能多的钱，并且并非所有正确的回答都会得到奖励。为了评估反应偏向，使用了不对称强化：正确识别短嘴或长嘴的重新排序频率(丰富刺激)是正确识别另一张嘴的重新排序频率(“贫乏刺激”)的三倍。强化分配和键分配在各个受试者之间是平衡的。该任务在50个长嘴相对50个短嘴的三(3)个区块或期间实施。丰富/贫乏与长/短的关联在各个受试者之间保持平衡。

图12示出了在具有触摸屏的移动设备的用户界面中实施的任务的示例。将向患者呈现图12所示的图像，并且患者随后使用触摸屏用户界面选择左侧的文字为“短”或右侧的文字为“长”的圆圈。在其他示例中，刺激和回答按钮可以如图11所示。然后，本地处理器接收用户输入、时间戳，并将信息记录在本地存储器和/或数据库中以累积患者的反应。例如，控制系统将确定显示嘴时与接收患者反应的时间戳之间的时间，以评估患者的反应时间。此外，控制系统将确定下面参考图13所述的PRT结果指标(outcome measures)，特别是丰富和贫乏刺激的命中率之间的反应偏向。然后可以将这些指标处理为本文公开的各种模型的输入特征。

图13图示了PRT任务的每个区块的PRT结果指标(outcome measures)。使用的指标包括反应偏向、辨别力、反应时间、命中率(丰富)和命中率(贫乏)。

付出努力的奖励任务(EEfRT)

EEfRT任务测量奖励处理的客观动机成分。患者选择一项困难或简单的任务：(i)困难：显示器要求用户使用非优势的小手指在21秒内点击100次；(ii)简单：显示器要求用户使用优势的食指在7秒内点击30次。一旦开始评估，控制系统就会发送指令，以在用户选择了困难或简单评估后，显示用于使用户点击一定次数的指令。然后，控制系统发送指令以显示奖励金额和概率：

1)金额：$1(简单)；$1.24-$4.30(困难)

2)概率：12％(低)；50％(中)；88％(高)

然后，一旦控制系统启动测试，就记录用户的鼠标的点击或屏幕敲击并打上时间戳，以确定用户在该时间段内完成了多少次点击。图14图示了用户界面显示的项目和任务的线性进展的示意性示例。例如，用户开始任务，选择简单或困难的概率广告，一旦准备就绪，他们便选择“准备好了吗”并按下正确的按钮。控制系统将确定用户赢了多少钱。

面部表情识别任务(FERT)

FERT任务测量情绪识别和处理中的偏差。控制系统将指令发送到显示器，以显示具有六种不同基本情绪(加上中性)的人类图像：

·快乐；

·恐惧；

·愤怒；

·厌恶；

·悲伤；

·惊讶；和

·中性

界面上显示的按钮的主题(在某些示例中)允许患者选择患者认为的与图像中的面部所表达的情绪匹配的情绪。在该示例中，呈现了情绪的十(10)种强度水平。测试测量的结果包括：

·整体和每个强度水平的准确度；

·错误分类；

·平均反应时间；

·目标灵敏度；和

·反应偏向。

人口统计学特征

在一些示例中，界面要求患者提供他们的人口统计学特征信息(或者它可以从数据库中检索)。在一些示例中，该信息被用作分类器的输入。

·年龄

·性别

所用研究的主要结果是在第8周的临床量表MADRS总数。使用所公开的系统和方法构建了预测模型，将MADRS反应较初始基线下降50％的患者标记为高反应者。在某些模型中，使用的特征集包括MADRS、HADS-A、HADS-D、年龄、PRT、FERT和EEfRT，并将在第0周输入的量表和任务作为特征。

生化生物标志物

在一示例中，还使用包括肿瘤坏死因子的生化或生物标志物来确定它们是否可以作为所公开的贝叶斯决策列表的一部分对患者进行分层。测试的生化生物标志物包括：

·痛敏肽

·白介素6

·白介素1贝塔

·干扰素伽马

·白介素10

·白介素2

·肿瘤坏死因子

·C反应蛋白

如本文所讨论的，这些生物标志物通过本文公开的模型进行处理以生成贝叶斯规则列表。因此，在至少一个示例中，如下面进一步说明的，肿瘤坏死因子作为贝叶斯决策列表中的规则输出。

患者分层模型

为了根据数据构建对患者进行分层的模型，首先，如文本公开的，利用使用具有弹性网络正则化的逻辑回归的前向选择。这从包括任务、量表和人口统计学特征的完整特征集中识别了最主要特征，该特征最有能力将患者分为以下三组：(i)BTRX-246040反应者，(ii)安慰剂反应者，和(iii)无反应者。

在该示例中，首先利用线性回归，使用识别的最主要特征作为输入来对组进行分离。这部分是通过模拟多元场景来实现的，其中，每个患者都要经过药物组和安慰剂组，然后在两个模拟治疗组中取第八周预测结果得分的差值(参见Webb等人，2019年的论文，抗抑郁药与安慰剂反应的个性化预测：来自EMBARC研究的证据(Personalized prediction ofantidepressant v.placebo response:Evidence from the EMBARC study)，Psychological Medicine，49(7)，1118-1127)，其全部内容通过引用并入本文。

如图16所示，线性回归模型可以很好地识别对BTRX-246040是较高反应者的患者。组之间的界限是通过在每个子组内最大化效应量和维持足够样本量之间的折衷来确定的。

在一些示例中，可以使用从前向选择模型导出的最主要特征来构建预测模型，该预测模型可以将新患者分为不同的反应组。在这些示例中，可以从任务、人口统计数据和量表答案对特征进行预处理，然后将其输入到线性或逻辑回归模型中，以输出新患者的分类。

在其他示例中，可以使用规则挖掘器和BRL算法来开发规则以分离使用前向选择识别的组。在该示例中，规则挖掘器使用的数据的输出标签可以从由线性回归模型分离的三个组(图16所示的组和数据)中导出。然后，可以使用贝叶斯规则列表模型开发文字规则，将根据在前向选择中识别的特征将患者分为这些类别，以输出贝叶斯决策列表。然后，这些规则列表可用于根据新患者是否对BTRX-246040、安慰剂有反应或两者都无反应来分离新患者。因此，可以识别出对BTRX-246040的高反应者并用该药物进行治疗。在其他示例中，所公开的系统和方法可以对患者进行分层，以识别出对其他神经精神药物的高反应者。

产生的算法可以保存在远程数据库服务器上或本地保存，该本地保存包括保存在执行本文公开的量表和/或任务的手持计算设备的存储器上。因此，患者可以在移动设备或其他计算设备上进行量表调查问卷、任务并提交人口统计信息。接下来，在其他示例中，计算设备和控制系统可以处理要作为特征输入到贝叶斯规则列表中的数据，然后输出患者是否可能是BTRX-246040或其他药物的高反应者。

结果

所公开的研究的组水平治疗效果在治疗组和安慰剂组之间是相似的。因此，在该研究中，如描述了显示治疗效果的图和表格的图15A-15B所示，BTRX-246040在所有受试者中的表现都与安慰剂相同。

另外，如图16A-16B所示，在8周的研究后，所公开的分类器能够通过在MADRS量表上大于5点的变化来识别出作为对BTRX-246040的较高反应者的患者。另外，所公开的分类器能够识别出作为对安慰剂的较高反应者的患者。此外，以下表格说明了使用前向选择模型(具有弹性网络正则化)构建的逻辑回归模型在区分对BTRX-246040的高反应者和对安慰剂组的高反应者方面具有良好的准确度和AUC：

表5：模型评估

另外，图17A-17D图示了来自基线数据的反应预测随时间的推移是稳定的。具体地，这些模型仅利用基线数据对第8周的受试者进行预测，在受试者开始研究后无法访问干预数据。仅使用基线数据，通过模型识别为对BTRX-246040和安慰剂的反应者的受试者在第1、2、4和6周都保持了改善的MADRS得分。因此，仅使用基线数据，模型就能够识别出对安慰剂和BTRX-246040的较高反应者，随时间的推移非常一致，对治疗和安慰剂反应者的出乎意料的准确且稳定的分层。

图18A-18F图示了将对安慰剂和BTRX-246040治疗的反应者与无反应者分开的最主要特征。例如，图18A描述了示出HADS-A总得分的最主要特征的图；图18B描述了示出HADS-D总得分的最主要特征的图；

图18C描述了示出PRT反应偏向-区块2的最主要特征的图；图18D描述了示出PRT反应偏向-区块3的最主要特征的图；图18E描述了示出年龄的最主要特征的图；图18F描述了示出EEfRT完成率的最主要特征的图；这些特征通过本文公开的前向特征选择方法来识别。

基于结果，当不同的模式被包括在贝叶斯规则列表中时(例如，临床量表和基于任务的评估)，本文公开的一些分类器提高了准确度。因此，鉴于可用于神经精神病学测试的多种模式，有大量可用于输入到各种模型的特征。所公开的系统和方法具有以下前所未有的能力：使用前向特征选择来识别最有预测性的特征，然后使用规则挖掘器处理这些特征以输出可理解的规则列表，用于基于这些特征准确地对患者进行分层。在其他示例中，规则挖掘器可以潜在地用于更广泛的特征列表，以输出规则列表，以对患者进行分层。

图19A-19B图示了已发现非常有利的这种组合方法的示例。如图所示，图19B中的条形图描述了使用前向特征选择和线性回归进行分层的患者组。然而，仅基于这些分离，尚不清楚什么特征对每组患者的分层最重要。例如，在图18E-18F中，基于线性回归模型的输出，尚不清楚哪种量表、任务或其他输入特征对于识别作为对BTRX-246040的较高反应者的患者最重要。

因此，将规则挖掘器和BRL算法应用到结果，并识别可以专门识别出对BTRX-246040的较高反应者的一组规则(参见图18A-18F)。有趣的是，如图19A-19B所示，这仅包括对愤怒表情的FERT任务的反应偏向以及HADS-A得分的特定阈值。因此，规则挖掘器和BRL算法在解释对组进行分层的基础上非常有价值，这也使得可以为患者设计更有效的筛查系统(未来只需要执行某些任务和量表即可对患者进行筛查，而不用执行所有问题和所有任务)。

图20A-20B进一步示出了从数据集提取的另外的贝叶斯决策列表，并在从前向特征选择和线性回归模型的输出中分配标签之后由BRL模型输出。这些包括贝叶斯决策列表，以识别对安慰剂有反应的患者。因此，例如在临床试验的设计中，所公开的系统和方法可以生成贝叶斯规则列表以筛查出作为对安慰剂的较高反应者的患者。

图25A至图25B示出了将肿瘤坏死因子、生化或湿生物标志物结合到规则列表的贝叶斯决策列表。更具体地，图25A描述了根据本公开的一些实施方式的将肿瘤坏死因子结合到规则列表中的用于BRL输出的另一伪码；图25B描述了根据本公开的一些实施方式的示出BTRX组和Rest组之间的治疗反应的图以及示出由规则识别出的受试者数量的条形图。

这是令人惊讶的，因为该规则列表将以下四种不同且不同类型的模式组合到了一个能够对患者进行分层的简短的贝叶斯决策列表中：(i)人口统计学特征，(ii)临床量表，(iii3)任务和(iv)生化指标。此外，规则列表可靠地分离了对BTRX-246040的较高反应者。因此，该数据表明，所公开的用于生成贝叶斯决策列表的系统和方法甚至可以令人惊讶且准确地考虑将生化标志物与各种其他生物标志物模式结合。

示例4：对CERC-501的治疗反应

在另一示例中，在一项名为FAST-MAS的2a阶段研究期间，进行了将κ阿片受体(KOR：Kappa Opioid Receptor)作为治疗情绪和焦虑谱系障碍的靶标的评估。另外，CERC-501，其用途、适应症、治疗和形式被公开在2018年3月16日提交的标题为“κ阿片受体拮抗剂及其相关产品和方法(Kappa Opioid Receptor Antagonists and Products and MethodsRelated Thereto)”的PCT公开No.WO2018170492中，其全部内容通过引用并入本文。在试验期间，对CERC-501进行了测试，看它是否参与了与快乐反应有关的关键神经回路。

FAST-MAS试验包括30天的筛查期，随后是8周的积极治疗，基线后12周的停药随访。该研究包括(163名入组患者中的)80名患者，随机分为CERC-501组45名和安慰剂组44名。在8周的积极治疗中，患者每天接受10m。

如果患者满足以下两个条件，则符合入组条件：

(i)以下至少一项的DSM-IV TR标准：

·MDD

·双相I型或II型抑郁症

·GAD

·社交恐惧症

·惊恐性障碍

·PTSD；以及

(ii)SHAPS得分≥20

诊断细分如下表所示：

表6：主要诊断细分

此外，主要结果指标是下表7中包含的以下指标。这些包括如本文公开的fMRI、SHAPS量表和PRT任务。

表7：主要结果指标

此外，评估的量表时间表包括以下时间线：

表8：评估的量表时间表

结果

当应用到整个患者组时，CERC-501示出了结果和治疗反应的差异。

首先使用个性化优势指数并通过前向特征选择识别最主要特征来分析数据。以下表格表示了使用本文公开的前向特征选择过程识别出的最主要特征。

表9：使用前向特征选择识别的最主要特征。

有趣的是，在该示例中，最主要特征都是量表模式特征。接下来，使用所公开的系统和方法来处理这些特征，以输出图26A-26B所示的贝叶斯决策列表。更具体地，图26A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的又一伪代码；图26B描述了根据本公开的一些实施方式的示出在KORA组和Rest组之间的治疗反应的图。

例如，将规则挖掘器应用到特征和结果以输出规则集，并将BRL模型应用到规则集以输出决策列表。如图26A-26B所示，该列表可靠地分离了对CERC-501有反应的患者。与接收积极治疗的患者相比，CERC-501对使用贝叶斯决策列表识别的患者的影响更大，这证实了所公开的系统和方法能够可靠地识别出较高反应者，包括针对以KOR为靶标的药物。

此外，图27A、图27B和图28显示了根据所公开的能够识别对CERC-501的较高反应者的系统和方法生成的另外的规则列表。更具体地，图27A描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的伪代码；图27B描述了根据本公开的一些实施方式的示出了在KORA组和Rest组之间的治疗反应的图；图28描述了根据本公开的一些实施方式的使用所公开的规则挖掘技术和BRL模型的用于BRL输出的另外的伪代码。

在这些规则列表的一些规则列表中，包括本文公开的PRT任务的任务数据被包括在规则中。因此，FAST-MAS研究证实，所公开的技术可以用于生成规则列表，该规则列表能够对患者进行分层以识别出对以κ阿片受体为靶标的药物的较高反应者。

示例5：语音和面部模式

在一些示例中，所公开的技术可以使用来自执行讲话任务的患者的音频和视频记录的数据和特征。例如，在一些示例中，所公开的贝叶斯决策列表可以包含来自这些讲话任务的特征以对患者进行分层(可能与其他公开的模式(包括量表)结合)。具体地，讲话特征可以包括以下形式：

1)在讲话任务期间从记录中提取的患者语音的音频特征；

2)患者在讲话任务期间讲出的单词和句子的文本特征；以及

3)在讲话任务期间记录的来自患者面部表情的视频特征。

示例讲话任务

因此，系统和方法可以用来在患者执行讲话任务时记录音频和视频数据。例如，在麦克风和摄像机记录患者讲话的同时，可以要求患者大声朗读文章、段落或其他文本。该系统可以在显示器上显示指令或在界面的扬声器上提供音频指令。这允许系统识别与患者如何传达某些段落有关的音频和可视特征。

在其他示例中，显示器可以向患者提出问题(或者可以通过扬声器向患者提出问题)，并且麦克风和摄像机可以记录患者提供的答案。在该示例中，除了分析反应的音频和视觉特征之外，该系统和方法还可以分析患者选择的答案和单词，并可以将它们输入到本文公开的模型中。

用于获取讲话任务的音频和视觉特征的系统和方法

以下是用于在讲话任务期间获取音频、视觉和文本特征的示例系统和方法。在一些示例中，使用移动设备应用程序来执行测试并获取数据。在其他示例中，可以在包括麦克风、扬声器、相机、显示器和界面的系统中使用各种其他计算设备。

在一些示例中，可以仅捕获音频数据或仅捕获视频数据，和/或将其输入到所公开的算法中。例如，贝叶斯决策列表可以仅包括音频特征或可以仅包括视频(例如，面部表情)特征。因此，为了对患者进行分层，只需要分别记录音频或视频数据。

图29呈现了示例系统700A，其可以被配置成在本文公开的各种任务期间执行捕获音频和可视数据的各种方法。特别地，系统700A包括显示器702；用户704；相机706；相机视野706a；包括扬声器的用户界面708；远程计算设备710；和麦克风712。

相机706捕获相机前面区域(区域706a)中的可视数据，并在一些示例中，将可视数据传输到显示器702和远程计算设备710。如图29所示，用户704可以将相机定位成使得他们的头部或面部在相机706的视野中。在这种示例中，相机706捕获用户704的面部的连续镜头。在一些示例中，相机706可以配置成以非可视波长拍摄实时录像、照片或图像/视频。在一些示例中，相机706被配置成基于来自远程计算设备710或本地处理器或计算设备的指令来开始或停止记录。例如，运行该过程的应用程序或程序可以由远程服务器、计算设备或本地处理器执行。相机706可通信地连接到显示器702和远程计算设备710或本地计算设备。在一些示例中，智能手机将执行这些功能中的每一个功能。

用户界面708被配置成从用户704接收输入。例如，如本领域已知的，用户界面708可以包括键盘、触摸屏、扬声器、移动设备或用于接收输入的任何其他设备。用户704响应于显示器702上的提示在用户界面708上输入数据，或者可以说出他们的答案，该答案由麦克风712记录。例如，显示器702输出一系列心理健康问题(或者这些问题可以通过扬声器提问)，并且用户704通过各种方法在用户界面708上输入针对每个问题的答案。用户界面708被配置成在显示器702上直接显示输入，并且被配置成将数据转送到远程计算设备710。

麦克风712被配置成接收来自例如用户704的听觉输入。麦克风被配置成基于来自远程计算设备710的指令来开始或停止记录。麦克风被配置成将音频数据传输到远程计算设备710。在一些示例中，麦克风可以在用户的智能手机上。

显示器702被配置成接收来自相机706、远程计算设备710和用户界面708的数据。例如，显示器702显示由相机706捕获的可视数据。在另一示例中，显示器702显示从用户界面接收的输入。在一些示例中，显示器702直接连接到相机706和麦克风712；在其他示例中，相机706和麦克风712将它们的数据发送到远程计算设备710，远程计算设备710然后处理该数据并根据处理后的数据指示显示器702。在其他示例中，显示器702显示从远程计算设备710接收的数据。来自远程计算设备710的示例数据包括来自心理健康调查问卷的问题、答案框、答案选项、答案数据、心理健康指标或任何其他信息。在一些示例中，显示器702在智能手机上。

如本领域技术人员很容易想到的，本公开还设想了可以在系统702中使用一个以上的显示器702。例如，用户704可以观看一个显示器，而额外的显示器对研究者可见而用户704不可见。多个显示器可以根据远程计算设备710的指令输出相同或不同的信息。

远程计算设备710能够可通信地连接到显示器702、相机706、用户界面708和麦克风712。例如，通信可以是有线的或无线的。远程计算设备710可以处理和/或存储来自显示器702、相机706、用户界面708和麦克风712的输入。

在一些示例中，系统700可以是具有统一设备(例如，智能手机)的用户704。智能手机可以具有显示器702、相机706、用户界面708、计算设备710和麦克风710。例如，用户704可以在阅读显示器702上的文本并回答心理健康调查问卷时，将智能手机保持在他或她的面部前面。

简要地参考图30，其示出了示例界面设计。类似的附图标记用于与图29对应的元件。界面设计的第一屏幕1000A显示供用户阅读的文本。界面设计的第二屏幕1000B在记录视频数据时显示用户的面部。在一些实施方式中，第一屏幕1000A和第二屏幕1000B是具有显示器702和用户界面708的电子设备的同一物理屏幕。例如，第一屏幕1000A和第二屏幕1000B在两个不同的时间点显示。图30示出了如何在本地设备上执行所公开的系统和方法，且便于用户访问。

筛查期间用于语音/面部识别的测试应用程序

图31示出了显示示例方法700B的流程图，该方法用于在测试用户的语音和面部表情期间在用户设备上执行讲话任务应用程序并记录音频和可视数据。

首先，在步骤720，系统可以控制测试应用程序的执行和终止。测试应用程序可以是存储在计算设备(例如，图29的远程计算设备710)上的软件应用程序。步骤720提供了在接收到启动测试的指示时执行测试应用程序。在一些示例中，指示来自可通信地连接到计算设备的用户界面(例如，图29的用户界面708)。

步骤720提供了执行测试应用程序，直到计算设备接收到停止测试的指示为止。在一些示例中，该指示来自用户界面。在一些示例中，停止测试的指示包括通过计算设备确定用户的面部不在相机捕获的图像内。

在根据步骤720执行测试时，方法700B进行到步骤721。步骤721提供了显示一系列问题。一系列示例问题包括来自心理健康调查问卷的问题，并包括每个问题的文本和答案或将允许患者提供他们自己的答案的开放式问题。在其他示例中，系统将显示供用户逐字阅读的文本。在其他示例中，系统将使用音频模式通过扬声器来提供问题。

在根据步骤720执行测试时，方法700B可以提供步骤722。步骤722提供了显示实时视频数据。在一些示例中，实时视频数据是从定位成捕获显示器前面的图像的相机收集的(例如，如图30所示，相机706捕获位于显示器702前面的用户704的可视数据)。在一些示例中，记录实时视频数据，然后将其显示在显示器上；在其他示例中，同时记录和显示实时视频数据。显示器可以面向用户。这将允许用户将其面部对齐，使得其位于相机的框架或视野中。

步骤723提供了记录(例如，来自图29的相机706和麦克风712的)测试视频数据和测试音频数据。在一些示例中，将音频数据和视频数据记录在对应于步骤722的问题显示的分段中；在其他示例中，在步骤722呈现问题或文本的同时，以不间断流的形式收集数据。

在一些示例中，麦克风(例如，图29的麦克风712)在通过计算设备确定用户正在讲话时记录音频数据。在一些示例中，当计算设备确定用户未讲话时，麦克风停止记录音频数据。

步骤724提供了接收针对一系列问题(步骤721中提供的问题)中的每者的答案。在用户界面上接收答案。在一些示例中，答案包括多项选择题的选择、文本回答或如本领域技术人员预期的任何其他用户输入。在其他示例中，系统将记录文本的逐字阅读。在一些示例中，可以通过麦克风接收对问题的答案。

步骤725提供了处理在步骤724接收的用户阅读文本的答案和/或音频和可视数据以及在步骤723记录的测试视频数据和测试音频数据。在一些示例中，使用机器学习模型在计算设备上进行处理，并且结果使得输出用户的心理健康指标。在本公开的一些示例中，步骤725执行对答案、测试视频数据和测试音频数据的处理。

在一些示例中，输出的心理健康指标识别用户患有多种心理健康障碍中的任何一种的可能性。心理健康障碍包括神经精神障碍、精神分裂症和双相障碍。在一些示例中，心理健康指标识别用户是患者还是健康对照者。

该模型然后可以用作诊断工具。例如，可以将额外的心理健康调查问卷数据、语音数据和/或视频数据输入到模型中以确定患者的心理健康指标。

数据分离与特征识别

在使用上述系统和方法捕获和记录数据之后，可以首先对数据进行预处理以分离数据的各种形式和特征。图32示出了用于读取任务相关数据的示例数据处理流水线的流程图。在一些示例中，首先显示问题或文本3200，以供患者回答或大声朗读。接下来，如本文公开的，在用户讲话的同时，通过麦克风以及在一些示例中例如通过智能手机或平板电脑上的前置摄像头记录数据3210。在一些实施方式中，在步骤3210处记录的数据包括可视数据3203和音频数据3205。

然后，将数据分段3220，使得可以对其进行预处理以识别特征3240。例如，可以将音频数据3205分段为用户讲话的音频和/或语音数据2409，并且可以使用语言处理算法来处理该数据以识别文本信息或答案2410。此外，可以处理视频数据以识别面部和面部特征2411。可以给数据加上时间戳，使得音频、面部和文本特征可以及时链接，以具有较高级别的特征。

接下来，必须识别每个模式中的特征3240。可以使用用于每个模式的各种算法来识别特征2310。在一些实施方式中，在步骤2310，使用诸如贝叶斯规则列表2313和/或任何合适的机器学习方法2314等一个或多个模型来处理数据和答案。从对数据和答案进行处理的输出可以包括患者分类2320。在步骤2330，可以在任何合适的显示设备上显示输出的患者分类。最后，如本文所述，可以在步骤2340对患者进行治疗。

以下是可以识别的一些低层特征和高层特征，但这仅是示例而不是全面的。

音频/语音特征

所识别的音频特征可以包括局部特征、一些全局波形水平特征(global waveformlevel features)、音素率(phoneme rate)、人口统计学特征(性别等)(demographic(gender,etc.))、持续时间(duration)、讲话比率(speaking ratio)、语音比率(voiceratio)、韵律特征(prosodic features)、声门和频谱特征或其他合适的特征。一些高层特征可以包括统计泛函、回归函数以及与局部最大值/最小值相关的函数。另外，可以使用各种方法来对这些特征进行降维，这些方法可以包括强力法(Brute-force method)和主成分分析(PCA)。

文本特征

所识别的音频特征可以包括句子的数量、单词的数量、词嵌入(wordembeddings)、基于字典的方法和会话级特征(session level features)，例如，Pampouchidou在“通过融合音频、视频和文本的高层特征和低层特征来进行抑郁评估(Depression Assessment by Fusing High and low Level Features from Audio,Video,and Text)”，AVEC 2016，中所讨论的那些特征，其全部内容通过引用并入本文。

视频/面部特征

如Valstar等人在“AVEC 2016：抑郁、情绪和情感认知研讨会和挑战(AVEC 2016:Depression,Mood,and Emotional Recognition Workshop and Challenge)”(其全部内容通过引用并入本文)中所述，所识别的音频特征可以包括面部动作单元、面部关键点或视线方向。额外的高层特征可以包括Syed Mohammed于2017年在阿拉巴马州奥本大学发表的标题为“数据挖掘和机器学习在精神疾病诊断中的应用(The Application of Data Miningand Machine Learning in the Diagnosis of Mental Disorders)”的论文中所述的几何特征，该论文的全部内容通过引用并入本文。额外的高层特征可以包括相关性和协方差矩阵。另外，可以使用可包括强力法和PCA的各种方法来对这些特征进行降维。

用模型处理特征

在识别出特征之后，可以如本文所述用模型(例如，贝叶斯规则决策列表2313)对其进行处理2310。因此，在处理这些特征之前，将应用贝叶斯规则列表模型和其他处理模型来生成使用具有这些特征的规则的贝叶斯决策列表。

如本文上述的，在使用列表进行处理之后，该技术可以输出患者分类2320并将其显示在显示器上2330。最后，可以如本文所述，对患者进行治疗2340。

公开的计算机和硬件实施方式的其他实施方式

首先应理解，本公开可以用任何类型的硬件和/或软件来实现，并且可以是预编程的通用计算设备。例如，系统可以使用服务器、个人计算机、便携式计算机、瘦客户端或任何合适的设备来实现。本公开和/或其部件可以是在单一位置处的单一设备，或者在单一或多个位置处的多个设备，这些多个设备通过任何通信介质(例如，电缆、光缆或以无线的方式等)使用任何合适的通信协议连接在一起。

还应注意的是，本公开在本文被说明和讨论为具有执行特定功能的多个模块。应理解，仅为了清楚起见，这些模块只是基于它们的功能进行了示意性说明，并不一定代表具体的硬件或软件。在这方面，这些模块可以是被实施为基本执行所讨论的特定功能的硬件和/或软件。此外，这些模块可以在本公开内组合在一起，或者基于期望的特定功能分成额外的模块。因此，公开内容不应被解释为限制本公开，而仅应被理解为说明本公开的一个示例实施方式。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且通常通过通信网络进行交互。客户端和服务器之间的关系是通过在各自计算机上运行并且彼此具有客户端-服务器关系的计算机程序产生的。在一些实施方式中，服务器将数据(例如，HTML页面)传输到客户端设备(例如，为了向与客户端设备交互的用户显示数据并从该用户接收用户输入的目的)。可以在服务器处从客户端设备接收在客户端设备处生成的数据(例如，用户交互的结果)。

本说明书所述的主题的实施方式可以在计算系统中实现，该计算系统包括后端组件(例如，作为数据服务器)，或包括中间件组件(例如，应用服务器)，或包括前端组件(例如，具有图形用户界面或网页浏览器的客户端计算机，用户通过其与本说明书所述的主题的实施方式进行交互)，或一个或多个这种后端、中间件或前端组件的任意组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)相互连接。通信网络的示例包括局域网(LAN)和广域网(WAN)、互联网(例如，因特网互)和对等网络(例如，ad hoc对等网络(ad hoc peer to-peer networks))。

本说明书所述主题和操作的实施方式可以被实现在数字电子电路中，或在包括本说明书所公开的结构及其结构等同物的计算机软件、固件或硬件中，或是它们的一种或多种的组合。本说明书所述主题的实施方式可以被实现为一个或多个计算机程序(例如，计算机程序指令的一个或多个模块)，它们被编码在计算机存储介质上以由数据处理装置执行或控制数据处理装置的操作。替代地或补充地，可以将程序指令编码在人工生成的传播信号上，例如，机器生成的电信号、光信号或电磁信号，该信号被生成以对信息进行编码以传输到合适的接收器设备以由数据处理设备执行。计算机存储介质可以是计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们一个或多个的组合，或者包括在其中。此外，尽管计算机存储介质不是传播信号，但计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的来源或目的地。计算机存储介质还可以是一个或多个单独的物理组件或介质(例如，多个CD、磁盘或其他存储设备)，或包含在其中。

本说明书所述的操作可以被实现为“数据处理装置”对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。

术语“数据处理装置”包含用于处理数据的所有种类的装置、设备和机器，例如包括可编程处理器、计算机、片上系统，或上述中的多个或其组合。该装置可以包括专用逻辑电路，例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外，该装置还可以包括为所讨论的计算机程序创建执行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境(cross-platform runtime environment)、虚拟机或它们的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础设施，例如，网络服务、分布式计算和网格计算基础设施(distributed computing and gridcomputing infrastructure)。

计算机程序(也称为程序、软件、软件应用程序、脚本或代码)可以用任何形式的编程语言(包括编译语言或解释语言，说明性语言或过程语言)编写，并且能够以任何形式进行部署，包括作为独立程序或作为模块、组件、子例程、对象或适合在计算环境中使用的其他单元。计算机程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)、专用于所讨论程序的单个文件或多个协调文件(例如，存储一个或多个模块、子程序或部分代码的文件)中。可以将计算机程序部署为在一台计算机或位于一个站点上或分布在多个站点上并通过通信网络互连的多台计算机上执行。

本说明书所述过程和逻辑流程可以由一个或多个可编程处理器执行，该可编程处理器执行一个或多个计算机程序，以通过对输入数据进行操作并生成输出来执行动作。处理和逻辑流程也可以由专用逻辑电路执行，并且装置也可以被实现为专用逻辑电路，例如，FPGA(现场可编程门阵列)或ASIC(专用集成电路)。

例如，适用于执行计算机程序的处理器包括通用和专用微型处理器，以及任何种类的数字计算机的任一个或多个处理器。通常，处理器将从只读存储器或随机存取存储器或两者中接收指令和数据。计算机的基本元件是用于根据指令执行动作的处理器和用于存储指令和数据的一个或多个存储设备。通常，计算机还将包括一个或多个用于存储数据的大容量存储设备(例如，磁盘、磁光盘或光盘)，或者计算机将可操作地连接以从该大容量存储设备接收数据或将数据传输到其中，或既从中接收数据又将数据传输到其中。然而，计算机不必具有此类设备。此外，计算机可以嵌入在其他设备中，例如移动电话，个人数字助理(PDA)、移动音频或视频播放器、游戏机、全球定位系统(GPS)接收器或便携式存储设备(例如，通用串行总线(USB)闪存驱动器)。适用于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储设备，例如包括诸如EPROM，EEPROM和闪存设备等半导体存储设备；诸如内置硬盘或可移动磁盘等磁盘；磁光盘；以及CD-ROM和DVD-ROM磁盘。处理器和存储器可以由专用逻辑电路补充或并入专用逻辑电路中。

结论

尽管上面已经说明了本公开的各种示例，但应理解，它们仅以示例而非限制的方式提出。在不脱离本公开的精神或范围的情况下，可以根据本公开对所公开的示例做出许多改变。因此，本公开的广度和范围不应受到任何上述示例的限制。相反，本公开的范围应根据所附权利要求及其等同物来限定。

尽管已经参照一个或多个实施方式说明和描述了本公开，但是本领域的其他技术人员在阅读和理解本说明书和附图后将想到等效的更改和修改。另外，虽然可能已经参照多个实施方式中的仅一者公开了本公开的特定特征，但是这种特征可以与其他实施方式的一个或多个其他特征组合，该特征对于任何给定或特定的应用可能期望且有利的。

本文所使用的术语仅出于描述特定示例的目的，并且不旨在限制本公开。如本文所使用的，单数形式也旨在包括复数形式，除非上下文另有明确说明。此外，就具体实施方式和/或权利要求中使用的术语“包含”、“具有”或其变体而言，这些术语旨在以类似于术语“包括”的方式具有包含性。

除非另有定义，否则本文中使用的所有术语(包括技术术语和科学术语)具有与本公开所属领域的普通技术人员通常所理解的相同含义。此外，诸如在常用字典中定义的那些术语应被解释为具有与相关领域中它们的含义一致的含义，并且除非在此明确地定义，否则将不会以理想化或过于正式的含义来解释。

Claims

1.一种用于评估患者的心理健康问题的系统，所述系统包括：

存储器，所述存储器包含机器可读介质，所述机器可读介质包括机器可执行代码，所述机器可执行代码上存储有用于执行方法的指令；和

控制系统，其连接到所述存储器并且包括一个或多个处理器，所述控制系统被配置成执行所述机器可执行代码以使所述控制系统：

接收多个输入特征，所述多个输入特征的至少一部分与来自多个临床调查问卷的临床量表得分相关联；

使用贝叶斯决策列表处理所接收到的所述多个输入特征，所述贝叶斯决策列表包括一系列if-then陈述，该陈述应用于所述多个输入特征，使得响应于满足第一if-then陈述而将第一概率分配给所述患者的心理健康的潜在指标，以及响应于满足第二if-then陈述而将第二概率分配给所述患者的心理健康的潜在指标，其中所述第一概率不同于所述第二概率；

至少部分地基于所分配的所述潜在指标的概率，输出所述患者的心理健康指标，而不管心理健康状况如何，所述心理健康指标识别所述患者对其很可能是较高反应者的药物；并且

响应于输出的所述患者的心理健康指标，推荐有效量的已识别的所述药物给所述患者施用，

其中所述贝叶斯决策列表通过以下方式生成：

接收包括多个个体的数据的标记的训练数据，所述标记的训练数据包括类别标签，所述类别标签指示所述多个个体中的每者是否患有一种或多种心理健康障碍；

至少部分地基于所接收的所述标记的训练数据生成预测与一组属性相关联的类别标签的多个规则；

针对所生成的所述多个规则中的每个规则计算置信得分，所述置信得分代表预测所述类别标签的容量；

消除所生成的所述多个规则中的一个或多个规则；以及

生成所述贝叶斯决策列表，其被设计成使用未从所述多个规则中消除的所述规则来预测所述类别标签。

2.根据权利要求1所述的系统，其中，不能同时满足所述第一if-then陈述和所述第二if-then陈述。

3.根据权利要求1所述的系统，其中，所述控制系统进一步被配置成通过指示所述患者是否患有双相情感障碍、ADHD、精神分裂症、OCD、PTSD、自闭症或它们的任意组合来输出所述心理健康状况。

4.根据权利要求1所述的系统，其中，所述控制系统进一步被配置成确定所述患者是否患有所述心理健康状况。

5.根据权利要求1所述的系统，其中，所接收的所述多个输入特征进一步包括来自概率奖励任务的一个或多个结果指标，并且其中使用所述贝叶斯决策列表处理的所述第一输入特征包括来自所述概率奖励任务的所述结果指标。

6.根据权利要求5所述的系统，其中来自所述概率奖励任务的所述结果指标包括反应偏向、辨别力、反应时间、富命中率和贫命中率。

7.根据权利要求1所述的系统，

其中所述多个临床调查问卷包括蒙哥马利-艾森贝格抑郁量表、汉密尔顿焦虑量表、医院焦虑和抑郁量表、斯奈思-汉密尔顿愉快情绪量表和多维快感缺失量表。

8.根据权利要求1所述的系统，其中所接收的所述多个输入特征包括来自快乐时间体验量表的得分，并且其中所述将第一概率分配给所述患者的心理健康的潜在指标至少响应于来自所述快乐时间体验量表的超过预定的TEPS得分的所述得分。

9.根据权利要求8所述的系统，其中来自所述快乐时间体验量表的所述得分与TEPS9相关联，并且其中所述将第一概率分配给所述患者的心理健康的潜在指标至少响应于来自所述快乐时间体验量表的超过3的所述得分。

10.根据权利要求8所述的系统，其中来自所述快乐时间体验量表的所述得分与TEPS-Total相关联，并且其中所述将第一概率分配给所述患者的心理健康的潜在指标至少响应于来自所述快乐时间体验量表的超过56的所述得分。

11.根据权利要求1所述的系统，其中所述类别标签指示所述多个个体中的每者是否患有一种或多种心理健康障碍。

12.根据权利要求1所述的系统，其中所识别的所述药物是κ阿片受体拮抗剂。

13.根据权利要求1所述的系统，还包括至少部分基于所分配的所述潜在指标的概率输出所述贝叶斯决策列表。

14.一种计算机可读存储介质，其存储有指令，所述指令在由硬件处理器执行时使所述处理器执行以下过程：

由所述处理器接收多个输入特征，所述多个输入特征的至少一部分与来自多个临床调查问卷的临床量表得分相关联；

由所述处理器使用贝叶斯决策列表处理所接收到的所述多个输入特征，所述贝叶斯决策列表包括一系列if-then陈述，该陈述应用于所述多个输入特征，使得响应于满足第一if-then陈述而将第一概率分配给所述患者的心理健康的潜在指标，以及响应于满足第二if-then陈述而将第二概率分配给所述患者的心理健康的潜在指标，其中所述第一概率不同于所述第二概率；

至少部分地基于所分配的所述潜在指标的概率，由所述处理器输出所述患者的心理健康指标，而不管心理健康状况如何，所述心理健康指标识别所述患者对其很可能是较高反应者的药物；并且

响应于输出的所述患者的心理健康指标，由所述处理器推荐有效量的已识别的所述药物给所述患者施用，

其中所述贝叶斯决策列表通过以下方式生成：

消除所生成的所述多个规则中的一个或多个规则；以及

15.根据权利要求14所述的计算机可读存储介质，其中所述计算机可读介质是非暂时性计算机可读介质。

16.根据权利要求14所述的计算机可读存储介质，其中，不能同时满足所述第一if-then陈述和所述第二if-then陈述。