CN114730629A

CN114730629A - 基于语音的呼吸预测

Info

Publication number: CN114730629A
Application number: CN202080080101.8A
Authority: CN
Inventors: A·S·哈玛; F·维卡里奥; V·S·纳兰西格尔
Original assignee: Koninklijke Philips NV
Current assignee: Koninklijke Philips NV
Priority date: 2019-11-18
Filing date: 2020-11-17
Publication date: 2022-07-08
Also published as: EP4062418A1; US11752288B2; WO2021099279A1; JP2023501176A; US20210146082A1

Abstract

在一个实施例中，描述了一种方法(100)。该方法包括获得(102)受试者的语音模式的指示，并且使用(104)该指示来确定受试者的预测的吸气时间。机器学习模型用于预测受试者的语音模式和呼吸模式之间的关系。然后，机器学习模型可用于确定受试者的预测的吸气时间。该方法还包括基于受试者的预测的吸气时间来控制(106)气体到受试者的递送。

Description

基于语音的呼吸预测

技术领域

本发明涉及一种方法、装置和有形机器可读介质，用于控制例如向患者等受试者递送气体。

背景技术

诸如呼吸系统患者的受试者可能需要对各种呼吸系统疾病(诸如慢性阻塞性肺疾病COPD)的支持性治疗。可通过向受试者递送气体(诸如治疗空气)的通气系统为此类疾病提供呼吸支持。通气系统可向受试者递送治疗空气，该治疗空气具有针对受试者的个体治疗需求选择的特定氧气水平和/或压力。可使用诸如鼻插管或嘴和/或鼻罩的接口来施用这种治疗空气。在一些情况下，治疗空气的递送可通过感测受试者的自主呼吸尝试来驱动治疗空气的递送。

语音和呼吸均需要肺，对于呼吸系统疾病患者来说，由于说话期间气体交换受到干扰，可能会导致与受干扰的语音相关的社会互动方面和/或健康问题的困难。

与受试者不说话时相比，受试者语音时的呼吸频率通常明显较低。例如，在健康受试者中，呼吸速率在语音期间可能会减慢50％。由于呼气发生在语音期间，而吸气主要是在语音的停顿中进行的，因此呼吸模式可能是不对称的，因为健康的受试者在语音期间可能会出现短暂的吸气和相对较长的呼气。因此，语音时呼吸可能会受到影响。相应地，肺中二氧化碳水平的暂时增加和氧气水平的降低对于健康受试者来说通常不是问题，但是这可能会引起某些呼吸系统患者的不适。呼吸系统患者在语音时可能需要附加的支持(例如，更多氧气)。然而，例如，由于较慢的呼吸速率和/或与语音相关联的相对较长的呼气周期，用于向患者提供呼吸支持的通气系统在语音期间提供此类支持的效果或效率可能较低。此外，试图直接监测受试者的呼吸模式可涉及使用附加器材，这可能会在设置和使用附加器材方面给受试者带来附加负担。

因此，一个目的是改进对语音期间接受气体治疗的受试者的支持。另一个目的是提高语音期间向受试者递送气体的性能。

发明内容

本文所描述的方面或实施例涉及改进对语音期间接受气体的受试者的支持和/或改进语音期间向受试者的气体递送。本文所描述的方面或实施例可消除与在语音期间支持受试者和/或在语音期间向受试者递送气体相关联的一个或多个问题。

在第一方面，描述了一种方法。该方法包括获得受试者的语音模式的指示。该方法还包括使用指示来确定受试者的预测的吸气时间。该确定由处理电路系统执行。该确定基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型。该方法还包括基于受试者的预测的吸气时间来控制向受试者的气体递送。

在一些实施例中，该方法包括从指示中得到呼吸信号，并且使用呼吸信号作为机器学习模型的输入，以预测(例如，使用处理电路系统)受试者的吸气时间。

在一些实施例中，机器学习模型是使用神经网络建立的，该神经网络被配置为标识从多个训练者获取的语音信号和对应的呼吸信号之间的任何相关性。

在一些实施例中，神经网络被配置为标识从训练者获取的语音信号的语言内容和韵律特征中的至少一个以便于标识相关性。

在一些实施例中，该方法包括使得通气系统在预测的吸气时间期间向受试者递送气体持续指定时间段。指定时间段可为以下一项：预先确定的时间段；或者根据受试者的个人需求进行调整。

在一些实施例中，受试者的个人需求基于以下至少一项确定：受试者的语音的语言语境；受试者的先前吸气持续时间；以及受试者的医疗需求。

在一些实施例中，该方法包括使用变化点检测来基于受试者的呼吸信号预测受试者的吸气时间，该呼吸信号如由基于受试者的语音模式的机器学习模型所预测的。

在第二方面，描述了装置。该装置包括处理电路系统。处理电路系统包括预测模块。预测模块被配置为使用受监测的受试者的语音模式的指示来确定受试者的预测的吸气时间。该确定基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型。处理电路系统还包括控制模块。控制模块被配置为基于受试者的预测的吸气时间来控制向受试者的气体递送。

在一些实施例中，该装置包括声换能器，其被配置为获得对应于受试者的语音模式的语音信号。

在第三方面，描述了一种有形机器可读介质。有形机器可读介质存储指令，该指令在由至少一个处理器执行时使得至少一个处理器根据受试者的语音模式的指示来确定受试者的预测的吸气时间。该确定基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型。该指令还使得至少一个处理器基于受试者的预测的吸气时间来控制向受试者的气体递送。

在一些实施例中，机器学习模型是用从多个训练者获取的多个语音信号和对应的呼吸信号来训练的。

在一些实施例中，对机器学习模型的输入包括多个语音信号的频谱表示；以及在指定的时间间隔的对应的呼吸信号的指示。输入可被馈送到包括多个记忆层的神经网络中，使得当神经网络被优化为基于输入更新网络加权时，机器学习模型可被相应地更新。

在一些实施例中，获得多个语音信号中的每个语音信号的频谱表示。在一个实施例中，通过对每个语音信号进行滤波来获得频谱表示，从而在频谱上使语音信号平坦化，并且与语音信号的较低频率相比提升语音信号的较高频率；应用傅里叶变换以获得对应于语音信号的功率谱；将Mel频率变标应用于功率谱以获得Mel频谱图；以及从Mel频谱图中选择多个时间窗口，其中每个时间窗口由指定的步幅间隔分隔。处于指定的时间间隔的对应的呼吸信号的指示通过以下方式获得：从训练受试者获得呼吸感应体积描记(RIP)信号；以及在指定的步幅间隔内在每个时间窗口结束时确定RIP信号值。

在一些实施例中，神经网络包括以下至少一项：递归神经网络RNN；RNN-长短期记忆网络RNN-LSTM；以及卷积神经网络CNN。

在一些实施例中，将呼吸频率作为辅助训练参数的注意机制被用于优化神经网络。

本文所描述的方面或实施例可为在语音期间接收气体的受试者提供改进的支持，和/或可改进在语音期间向受试者递送气体的性能。例如，本文所描述的方面或实施例可向受试者提供改进的气体递送以支持受试者的语音和/或可向受试者提供改进的气体递送以支持语音期间的呼吸。

本发明的这些和其他方面将从下文所描述的实施例(一个或多个)中显而易见并得以阐明。

附图说明

现将参考以下附图，仅通过实施例的方式描述本发明的示例性实施例，在附图中：

图1是根据一个实施例的控制气体递送的方法；

图2a至2b是根据一个实施例的通气系统的示意图；

图3是根据一个实施例的用于训练和测试机器学习模型的系统的示意图；

图4是测试图3中提及的机器学习模型的实验结果图；

图5是根据一个实施例的控制气体递送的方法；

图6是根据一个实施例的用于控制气体的递送的装置的示意图；

图7是根据一个实施例的用于控制气体的递送的装置的示意图；以及

图8是根据一个实施例的用于控制气体的递送的机器可读介质的示意图。

具体实施方式

图1示出了用于控制向受试者(诸如呼吸系统患者)递送气体(诸如治疗空气)的方法100(例如，计算机实施的方法)。方法100可用于控制由通气系统(其示例在下面关于图2a至2b更详细地描述)提供的气体供应。例如，方法100可向通气系统提供指令或其他指示，以控制通气系统递送气体的方式。例如，可基于方法100提供的指令或其他指示来控制气体递送的定时和/或持续时间。

方法100包括在框102处获得受试者的语音模式的指示。受试者的语音模式可从用于检测声音并生成代表检测到的声音的信号的声换能器(诸如麦克风)获得。语音模式可包括诸如韵律特征和/或语言内容的特性特征，这些特性特征可存在于由声换能器产生的信号中。

方法100包括在框104处使用指示，基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型来确定(例如，使用处理电路系统)受试者的预测的吸气时间。

呼吸模式有两个阶段：吸气(即吸入)和呼气(即呼出)。呼吸模式可由受试者根据受试者的语音模式进行调整(自愿或非自愿)。受试者的语音模式可包括特性特征(例如，韵律特征和/或语言内容)，其可指示受试者是在吸气还是在呼气。例如，语音中的停顿可能指示受试者是在吸气还是在呼气。语音的音调或速度的变化可指示受试者刚刚吸气或即将吸气。受试者的语音可包括在语音期间受试者可呼气以及在语音期间受试者可吸气的句子。这些只是语音模式的某些特有特征如何与受试者的呼吸模式相关的几个示例。

实际上，语音模式可能很复杂，并且会发生变化(例如，在受试者的语音期间或不同受试者之间)，因此难以设计可靠的模型来预测受试者的语音模式与其呼吸模式之间的关系。关于受试者的呼吸模式可如何依赖于受试者的语音模式的上述示例仅仅是受试者的呼吸模式可如何与受试者的语音模式相关的说明性假设，并且由于受试者的语音和呼吸模式的复杂性和/或可变性，不应被视为确定性假设。

例如，有可能通过监测由气流传感器、气压传感器和/或麦克风生成的信号，检测受试者语音和吸气尝试中的停顿。然而，正常语音中的吸气持续时间通常会持续几百毫秒，这对于某些通气机(例如，机械通气机)来说可能太快，一旦检测到吸气尝试，就无法在足够短的时间内做出反应以递送气体。例如，在接收到通气机要递送气体的指示时，经由接口(例如经由软管连接到通气机的鼻插管)提供气体的通气机可能需要特定量的时间来递送气体，这取决于软管的长度(以及通气机的反应速度)。例如，对于持续时间为几百毫秒的吸气时刻，受试者可能接收气体太晚而不能在语音期间被通气系统充分支持。此外，语音可在气压和流量信号中产生伪像，这可在检测实际呼吸方面造成困难。此外，吸气的时刻可取决于受试者想说什么、语言内容和/或语音的语境。因此，试图直接基于诸如由气流传感器、气压传感器和/或麦克风提供的传感器数据来检测语音中的停顿和吸气尝试可能不一定使得通气系统能够在语音期间向受试者提供足够的支持。

方法100中提及的机器学习模型可用于解释受试者的语音模式，以便能够以可接受的可靠性预测受试者的呼吸模式。机器学习模型可用于解释受试者语音模式中的复杂和/或可变模式，以便提供受试者呼吸模式的预测。如本文将更详细地描述的，可使用来自训练数据集的信息来训练机器学习模型，该训练数据集源自从多个人类训练者获得的语音和呼吸模式。这种机器学习方法可提供一种简化的方式来对语音和呼吸模式进行建模，而无需构建依赖于某些假设(如上述说明性假设)的模型，否则由于假设中的潜在偏差和/或误差，这些假设可产生错误的预测。由于机器学习模型可避免或减少其对某些假设的依赖，因此基于机器学习模型的预测可比依赖于假设的模型更可靠，否则假设可能会有偏差和/或错误。

方法100还包括在框106处基于受试者的预测的吸气时间，控制向受试者的气体递送。例如，方法100可生成可由通气系统的通气机接收的指示(例如，吸气信号)，以使得通气机基于预测的吸气时间向受试者递送气体。

由于机器学习模型可用于预测受试者在语音期间的吸气时间(例如，吸气尝试的起点和/或持续时间)，因此方法100可在预测的吸气时间内触发通气系统递送气体。例如，如果通气系统具有指定的反应时间(例如，由于通气机的反应速度和/或连接通气机和接口的软管的长度)，则该预测可触发气体的及时递送，以便在语音期间为接收气体的受试者提供足够的支持。换句话说，机器学习模型可允许方法100基于受试者的语音模式提前预测吸气的时间，这可为通气系统提供足够的时间来做出反应以在指定的时间帧内递送气体和/或允许通气系统在对应于受试者吸气持续时间的持续时间内递送气体。此外，通气系统的终端用户(诸如受试者本身)可发现设置通气系统相对简单，因为方法100可减少或避免对诸如用于直接监测呼吸的身体传感器的附加器材的需求。对终端用户来说，将通气系统配置为包括监测语音数据(例如，使用麦克风或其他声音检测器)可被认为是相对简单的设置。

图2a示意性地描述了根据一个实施例的通气系统200，用于至少部分地实施本文所描述的某些方法，诸如图1的方法100。在图2a中，受试者202配备有接口，在本实施例中，接口包括鼻插管204，用于经由连接到通气机208的软管206向受试者202递送气体。通气机208可被控制(例如，根据方法100的框106)，使得特定气体参数(例如，气体流速、压力、氧气水平、定时和/或与气体递送相关的任何其他参数)适合于受试者在特定时刻的需求。

在这方面，通气系统200还包括预测模块210，用于至少部分实施本文所描述的某些方法。例如，预测模块210可实施方法100的框102、104和106中的至少一个。预测模块210的输入212可向预测模块210提供受试者202的语音模式。在从输入212接收语音模式时，预测模块210可预测受试者202的吸气时间。该预测的吸气时间可用于控制向受试者202递送气体。

图2b示意性地描述了预测模块210的某些模块。在本实施例中，如下文更详细地描述的，预测模块210包括预处理模块214，用于将监测到的语音转换为适合输入到机器学习模块216的格式，机器学习模块216输出对受试者的呼吸模式的预测(即，基于监测到的语音模式的预期呼吸模式)。在本实施例中，机器学习模块216包括深度递归神经网络，尽管也可使用其他类型的神经网络或机器学习模型。基于机器学习模块216生成的预测的呼吸模式(例如，“预测呼吸波”)，吸气预测模块218可预测受试者202的吸气时间，并且生成用于使通气机208在受试者202的预测的吸气时间内向受试者递送气体的通气机控制信号220。

通气机控制信号220可在预测的吸气开始时启动通气机208，使得气体流向受试者202的肺部(例如，由受试者202吸入气体或由气体泵压入气体)。氧气和/或压力的量(例如，浓度或速率)也可根据检测到的和/或预测的呼吸速率进行调整，以补偿每分钟通气量的减少和/或防止呼吸急促、低氧血症和/或高碳酸血症。在预测的吸气结束时，通气机控制信号220可导致通气机208的停用以停止气流，从而允许受试者202呼气。

机器学习模型(即，使用机器学习模块210)的输出可指示估计或预测的呼吸信号。在一个实施例中，变化点检测算法(例如，由吸气预测模块218实施)使用估计的呼吸信号来预测受试者202的吸气时刻。在一个实施例中，通气机208的泵可在预期的(即，预测的)吸气开始之前的短时间T(例如，T＝300毫秒)被开启，使得气体被及时递送到受试者202以用于吸气。在一个实施例中，T的值可针对每个受试者202单独优化(例如，取决于例如通气机208的能力、通气机208操作的优选模式和/或受试者202的个体需求)。T的值可取决于语音的语言语境和/或可基于之前观察到的吸气暂停持续时间。在一个实施例中，通气的持续时间可基于来自个体受试者202的数据和/或受试者202的语音的语境。因此，在一些实施例中，T的值可为以下至少一项：预先确定的；基于对受试者语音的分析来选择和/或基于对受试者呼吸信号的先前预测来选择。

图3示意性地描绘了根据一个实施例的系统300，用于训练(并随后测试)机器学习模型302，该机器学习模型302用于基于受试者的语音来预测受试者的呼吸模式。机器学习模型302可由机器学习模块216实施，诸如关于图2b所描述的。如下文将更详细地描述的，在一些实施例中，机器学习模型302基于深度递归神经网络或其他序列回归算法。机器学习模型302用大量语音和呼吸数据进行训练，其中训练者的呼吸数据是例如使用气流测量传感器和/或身体传感器来收集的。在图3的实施例中，训练呼吸信号304(即“测量到的呼吸模式”)由身体传感器收集，在本实施例中，身体传感器包括被布置成在呼吸期间监测训练者308的胸部和/或腹部运动的两个呼吸弹性带传感器306。训练呼吸信号304可指示呼吸感应体积描记(RIP)信号。在本实施例中，传感器306中的一个被放置在训练者308的胸腔周围，而传感器306中的另一个被放置在训练者308的腹部周围，尽管不同数量的传感器(例如，一个或三个或更多个)可被使用和适当地放置以检测对应于训练者308的呼吸的胸部和/或腹部运动。当训练者308呼吸时，其胸部和/或腹部的运动导致呼吸弹性带传感器306中的至少一个扩张和/或收缩，以生成身体运动信号310(例如胸腔信号310a和腹部信号310b)，这些信号共同指示(例如，通过组合身体运动信号310)训练呼吸信号304。

在本实施例中，使用麦克风312来检测训练者308的语音，尽管可使用用于检测语音的任何其他设备来代替麦克风312或与麦克风312一起使用。麦克风312基于训练者308的语音生成语音数据，该语音数据由训练语音处理模块314(其可对应于关于图2所述的‘预处理模块214’)处理为训练语音信号数据316，以输入到机器学习模型302。训练语音处理模块314执行音频频谱分析，以将语音数据(如由麦克风312监测到的)转换为适合输入到机器学习模型302的格式。

在本实施例中，语音数据的处理使用指示值如下执行。训练语音信号数据316被分成4秒的固定时间窗口长度，相邻窗口之间的步幅为10毫秒(在图3中，这些窗口由窗口长度为‘<Ts>’的框指示，并且为了便于理解，步幅的长度被放大)。语音信号数据316的这些窗口由滤波器(例如，预加重滤波器)处理，以在频谱上使语音信号平坦化并提升(boost)语音信号的较高频率。用25毫秒的短帧大小、10毫秒的步幅和汉明窗口来计算短时傅里叶变换(STFT)以获得功率谱。将Mel滤波器组(在本实施例中，n＝40个Mel滤波器组)应用于功率谱以获得Mel频谱。Mel滤波器组应用Mel频率变标(scaling)，这是一种感知标度，有助于模拟人类耳朵和大脑解读声音的方式。Mel频谱可在较低频率提供较好的分辨率，而在相对较高的频率提供较低的分辨率。然后生成对数Mel频谱图，以表示训练语音信号数据316的频谱特征，作为机器学习模型302的输入。在其他实施例中，当处理语音数据以生成对数Mel频谱图时，可使用不同的值(例如，不同的窗口长度、步幅和帧长度)。

为了确定要用作机器学习模型302的另一输入的训练呼吸信号304，利用处于时间窗口的端点的训练呼吸信号304映射对数Mel频谱图，以训练窗口之间步幅为10毫秒的模型302。如图3所示，对数Mel频谱图的每个时间窗口均被馈送到机器学习模型302中，而处于这些时间窗口的端点的对应的呼吸信号304也被馈送到机器学习模型302中。

因此，用于机器学习模型302的训练的输入训练数据基于来自每个训练者308谈话期间的训练呼吸信号的样本和语音的频谱表示。每个训练者308均是健康的(即，他们没有呼吸系统疾病)，并且多个训练者308用于训练机器学习模型302。在一个示例训练会话中，四十(40)名训练者308被指示朗读语音上平衡的段落。在本示例中，训练者308朗读的语音上平衡的段落是被称为“彩虹段落”的一段常用于语音训练目的的段落(来自fromFairbanks,G.(1960).Voice and articulation drillbook,2nd edn.New York:Harper&Row.pp124-139)。

在本实施例中，机器学习模型302基于递归神经网络长短期记忆RNN-LSTM网络模型。在RNN-LSTM网络模型中，输入的训练数据被送入一个由两个长短期记忆层组成的网络，该网络具有128个隐藏单元，学习率为0.001。使用Adam优化器作为优化算法，以基于输入训练数据迭代地更新网络权重。均方误差用作回归损失函数。为网络选择的超参数是在重复实验后估计的，尽管也可随机选择。

图4是一个图表，其描绘了使用经训练的模型302来估计测试受试者的呼吸信号318(即“估计的呼吸模式”或“估计的呼吸信号”)以交叉验证(例如，使用“保留一个受试者”交叉验证)来自多个训练者308的数据的测试运行的实验结果。因此，每个测试受试者的语音数据以与来自剩余训练者308的训练语音数据相同的方式进行处理，例如，使用测试语音处理模块320，其可提供与训练语音处理模块314相同的功能。图4示出了针对测试受试者的相对于时间(以秒为单位)的函数的上图中测量到的(或“实际”)呼吸信号(例如“RIP信号”)与下图中估计的呼吸信号(即估计的或预测的呼吸信号318)之间的示例比较。

由于使用RNN-LSTM网络模型从语音数据估计呼吸模式是一个回归问题，因此使用两种度量来评估和比较测量到的和估计的呼吸信号。这些度量是估计的呼吸信号和测量到的呼吸信号的相关性和均方误差MSE。因此，由提供高相关值和/或低MSE的模型产生的实验结果可指示经训练的模型可提供呼吸信号的可接受或可靠估计。例如，可以发现来自图4所示的测试受试者的实验结果估计了测试受试者的呼吸模式，其与测试受试者测量的呼吸信号的相关性为0.42且MSE为0.0016。举例来说，可以发现另一名测试受试者的实验结果估计了测试受试者的呼吸模式，其相关性为0.47且MSE为0.0017。

基于302模型的训练和测试，观察到训练者在谈话时的呼吸频率几乎是其正常呼吸频率的一半(即，与其不说话时的呼吸频率相比)。基于他们的实验结果，为多个训练者308确定某些呼吸参数，诸如呼吸速率和潮气量。这样，对于多个训练者308，观察到平均估计呼吸速率为每分钟7.9次呼吸，误差为5.6％。此外，潮气量的估计误差为2.4％。从图4中可识别出，某些呼吸事件(诸如吸气点和呼气点及其长度)可从估计和测量到的呼吸信号中显现出来。为了确定某些呼吸事件(例如，吸入点)，可实施用于标识估计的呼吸信号的峰值和/或谷值的算法(例如，“变化点检测算法”)。因此，在算法检测到似乎对应于某一呼吸事件的变化的情况下，其可与测量的呼吸信号进行比较，以确定检测到的变化是否确实对应于呼吸事件。基于来自多个训练者308的实验结果，以0.88的灵敏度、0.82的精度和0.8534的F1分数标识吸气事件。

基于上述实验的实验结果表明，RNN-LSTM网络模型可能能够基于语音的语言内容和/或韵律特征学习和理解呼吸动力学。经训练模型可用于实时估计语音信号的呼吸传感器值，以预测呼吸信号(并因此为通气机提供足够的时间来做出反应以在吸气时递送气体)。上述结果表明，模型302可被训练成提供足够的灵敏度和/或精度，以使呼吸器能够在受试者说话时充分满足受试者的呼吸需求和/或在语音期间支持受试者。

在另一个实施例中，递归神经网络RNN由卷积神经网络CNN代替。基于上述实施例中描述的相同训练和测试数据，发现CNN预测呼吸信号，与实际呼吸信号的相关性为0.41且均方误差为0.00229。在另一个实施例中，如上所述的记忆网络可采用注意力机制、基于多任务学习的方法，其中呼吸速率(例如，呼入和呼出的速率)作为辅助训练参数，用于改进对预测呼吸信号的估计。

图5是根据一个实施例预测受试者的呼吸模式的方法500的流程图，例如，用于控制向受试者的气体递送的通气系统(如上文关于图2所述)。在适当的情况下，可省略关于方法500描述的某些框，并且/或者可至少部分地将这些框的排列/顺序修改为图5所示的排列/顺序。方法500可包括对应于图1的方法100的至少一个框。例如，框502可对应于图1的框102，框504可对应于图1的框104和/或框506可对应于图1的框106。因此，方法500可结合和/或包括图1的方法100来实施。此外，方法500可由特定模块或块来实施，或者与特定模块或框相结合来实施，诸如关于本文所描述的特定装置和系统所描述的(例如，如图2和/或3所示)。因此，下面描述的某些框可参考本文所描述的其他图的某些特征。

方法500包括在框508处从指示得到呼吸信号。呼吸信号被用作机器学习模型的输入。机器学习模型可用于预测(例如，使用处理电路系统)受试者的吸气时间。

如前所述，多个训练者可用于训练机器学习模型(例如，图3的机器学习模型302)。在这方面，可使用神经网络来建立机器学习模型，该神经网络被配置为在框510处标识从多个训练者获取的语音信号和对应的呼吸信号之间的任何相关性。在标识出任何相关性的情况下，这些相关性可用于更新神经网络的网络权重，以改进基于神经网络做出的预测。通过使用神经网络，可分析用作神经网络输入的潜在大量训练数据，以标识语音数据中难以识别的模式，从而改进呼吸信号的预测，而不必使用预定模型(即，基于人类分析师的假设)，该预定模型可能遭受偏差和/或对某些相关性做出错误的假设。

神经网络可被配置为在框512处标识以下至少一项：支持标识相关性的、从训练者获取的语音信号的语言内容和/或韵律特征。语音信号的语言内容和/或韵律特征可能指示语音的语境，这对于确定某些相关性可能是有用的，否则在不使用机器学习方法的情况下可能无法直接标识这些相关性。例如，语音信号的语言内容可包括具有潜在复杂和可变语音模式的大量信息，使得人类分析师可能难以标识做出足够可靠预测的模型。

方法500包括在框514处使得通气系统(如前所述)在预测的吸气时间期间向受试者递送气体持续指定时间段。指定时间段可为以下一项：预定时间段；或者根据受试者的个体需求进行调整。指定时间段的起始点可在通气机启动时开始。指定时间段可指示气体递送至受试者的持续时间。指定时间段可对应于或不对应于预测的吸气持续时间。例如，如果由于通气机的反应时间而存在任何滞后，则考虑到滞后，指定时间段可能比吸气时间更长。

在根据受试者的个人需求调整指定时间段的情况下，可在框516处基于以下至少一项确定这些需求：受试者语音的语言环境；受试者的先前吸气持续时间；以及受试者的医疗需求。例如，可基于语音的语言环境和/或受试者在句子中说话的先前吸气持续时间做出确定，并且如果预测受试者在句子之间(或在任何其他点)吸气一段持续时间，则可相应地调整指定时间段。此外，如果受试者具有特定的医疗需求(例如，其肺部的目标氧气水平或任何其他医疗需求)，则可相应地调整指定的时间，以提供足够的气体(例如，达到目标氧气水平)。

尽管在图5中未描述，但方法500可包括使用变化点检测(如上文所述)来基于受试者的呼吸信号预测受试者的吸气时间，该呼吸信号如由基于受试者的语音模式的机器学习模型所预测的。

图6是根据一个实施例的装置600的示意图，本实施例用于实施本文所描述的某些方法。在适当的情况下，为了便于参考，相对于图2的某些组件来描述装置600。装置600包括处理电路系统602，其可例如在图2的预测模块210和通气机208中的至少一个中实施。

处理电路系统602包括预测模块604，该预测模块可至少部分实施本文所描述的某些方法，如图1和/或5所述，和/或至少部分提供图2和/或3的系统所述的功能。在本实施例中，预测模块604被配置为基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型，使用受监测受试者的语音模式的指示来确定受试者的预测吸气时间。

处理电路系统602还包括控制模块606，该控制模块可实施本文所描述的某些方法，如图1和/或5所述，和/或提供图2和/或3所示的装置或系统所述的功能。在本实施例中，控制模块606被配置为基于受试者的预测吸气时间来控制向受试者的气体递送。例如，控制模块606可生成通气机控制信号(诸如关于图2所描述的)，以使通气机在受试者吸气时向受试者递送气体。在一些实施例中，装置600可构成通气机的一部分，诸如上面关于图2所描述的。在一些实施例中，装置600可为单独的实体(例如，单独的计算机、服务器等)，其通信地耦合到通气机，并且被配置为向通气机提供指令或另一指示，以便使得通气机在由装置600确定的时间递送气体。

图7是根据一个实施例的装置700的示意图，用于实施本文所描述的某些方法。在本实施例中，装置700包括处理电路系统702，该处理电路系统包括图6的处理电路系统602和声换能器704(例如，麦克风)，该声换能器被配置为获得对应于受试者的语音模式的语音信号。在一些实施例中，装置600或700还可包括通气机，诸如关于图2所描述的。

图8示意性地示出了根据存储指令802的实施例的机器可读介质800(例如，有形机器可读介质)，当指令802由至少一个处理器804执行时使得至少一个处理器804执行本文所描述的某些方法(例如，图1的方法100或图5的方法500)。机器可读介质800可在诸如用于控制通气机的计算机或服务器的计算系统中实施，和/或可由通气机本身实施。

指令802包括指令806，以使得至少一个处理器804基于用于预测受试者的语音模式和呼吸模式之间的关系的机器学习模型，从受试者的语音模式的指示确定受试者的预测的吸气时间。

指令802还包括指令808，以使得至少一个处理器804基于受试者的预测的吸气时间来控制向受试者的气体递送。

现在参考图3及其相关说明，对用于根据上述指令802预测吸气时间的机器学习模型的训练进行更详细的描述。如前所述，可使用从多个训练者获取的多个语音信号和对应的呼吸信号来训练机器学习模型。

机器学习模型的输入可包括多个语音信号的频谱表示(例如，来自每个训练者)。频谱表示可包括上述对数Mel频谱图。该输入还可包括处于指定时间间隔的对应的呼吸信号的指示。该指示可包括或指示在从训练语音信号数据中选择的每个时间窗口结束时所获得的呼吸信号。输入可被馈送到包括多个记忆层的神经网络(例如上述任何神经网络)，使得当神经网络被优化以基于输入更新网络加权时，机器学习模型被相应地更新。

多个语音信号中的每个语音信号的频谱表示可通过对每个语音信号进行滤波以在频谱上使语音信号平坦化，并且与语音信号的较低频率相比提升较高频率来获得。傅里叶变换(例如STFT)可应用于频谱表示以获得对应于语音信号的功率谱。Mel频率变标可应用于功率谱以获得Mel频谱图(在一些实施例中，其可为对数Mel频谱图)。可从Mel频谱图中选择多个时间窗口，其中每个时间窗口由指定的步幅间隔隔开。在图3的实施例中，每个时间窗口具有4秒的持续时间，并且与后续时间窗口相隔10毫秒的步幅。正是在这个步幅间隔内，可获得对应的呼吸信号的指示。在其他实施例中，时间窗口和/或步幅的长度可不同于上述实施例中所示的那些。

在本实施例中，通过从训练受试者获得呼吸感应体积描记(RIP)信号，获得处于指定的时间间隔的对应的呼吸信号的指示。RIP信号值在每个时间窗口结束时(即在指定的步幅间隔内)被确定。

在一个实施例中，神经网络可包括以下至少一项：递归神经网络RNN；RNN-长短期记忆RNN-LSTM网络；以及卷积神经网络CNN。尽管如前所述，也可使用其他神经网络。

在一个实施例中，将呼吸速率作为辅助训练参数的注意力机制可用于所述神经网络。

虽然本发明已在附图和前述描述中详细说明和描述，但此类说明和描述应视为说明性或示例性的，而非限制性的；本发明不限于所公开的实施例。

一个实施例中描述的一个或多个特征可与另一个实施例中描述的特征相结合或替代。例如，图1和/或5的方法100、500可基于关于图2和/或3的系统所描述的特征来修改，反之亦然。

本发明的实施例可作为方法、系统或机器可读指令和处理电路系统的组合提供。此类机器可读指令可以被包括在其中或其上具有计算机可读程序代码的非暂时性机器(例如，计算机)可读存储介质(包括但不限于盘存储、CD-ROM、光存储等)上。

参考根据本发明实施例的方法、设备和系统的流程图和框图来描述本发明。尽管上面描述的流程图显示了特定的执行顺序，但执行顺序可不同于所描述的顺序。关于一个流程图描述的框可与另一个流程图的框相结合。应理解，流程图和/或框图中的每个框，以及流程图和/或框图中的框组合可通过机器可读指令来实现。

机器可读指令可例如由通用计算机、专用计算机、嵌入式处理器或其他可编程数据处理设备的处理器执行，以实现说明书和图表中描述的功能。具体而言，处理器或处理电路系统或其模块可执行机器可读指令。因此，通气系统200的功能模块(例如，预测模块210、预处理模块214、机器学习模块216和/或吸气预测模块218)和/或系统300的功能模块(例如，训练语音处理模块314和/或测试语音处理模块320)和设备可由执行存储在存储器中的机器可读指令的处理器或者根据嵌入逻辑电路系统中的指令操作的处理器来实施。术语“处理器”将被广义地解释为包括CPU、处理单元、ASIC、逻辑单元或可编程门阵列等。这些方法和功能模块均可由单个处理器执行，或者在若干个处理器之间划分。

此类机器可读指令也可存储在计算机可读存储器中，可引导计算机或其他可编程数据处理设备在特定模式下运行。

此类机器可读指令也可加载到计算机或其他可编程数据处理设备上，使得计算机或其他可编程数据处理设备执行一系列操作，以产生计算机实施的处理，因此，在计算机或其他可编程设备上执行的指令实现由流程图和/或框图中的框(一个或多个)指定的功能。

此外，本文中的教导可按计算机程序产品的形式实施，计算机程序产品存储在存储介质中，并且包括用于使计算机设备实施本发明实施例中所述方法的多个指令。

关于一个实施例所描述的元件或步骤可与关于另一个实施例所描述的元件或步骤相结合或被其取代。通过研究附图、公开内容和所附权利要求，本领域技术人员在实践所要求保护的发明时可理解和实现所公开实施例的其他变型。在权利要求中，词语“包括”不排除其他元件或步骤，不定冠词“一个(a/an)”不排除多个。单个处理器或其他单元可实现权利要求书中列举的若干项的功能。在相互不同的从属权利要求中引用某些措施的事实并不指示这些措施的组合不能被有利地使用。计算机程序可存储或分发在适当的介质上，诸如与其他硬件一起提供或作为其他硬件的一部分提供的光存储介质或固态介质，但也可按其他形式分布，诸如经由互联网或其他有线或无线电信系统。权利要求中的任何附图标记均不应被解释为限制范围。

Claims

1.一种方法(100)，包括：

获得(102)受试者的语音模式的指示；

使用所述指示，基于用于预测所述受试者的所述语音模式和呼吸模式之间的关系的机器学习模型，使用处理电路系统来确定(104)所述受试者的预测的吸气时间；以及

基于所述受试者的预测的所述吸气时间来控制(106)气体到所述受试者的递送。

2.根据权利要求1所述的方法，包括从所述指示得到(508)呼吸信号，并且使用所述呼吸信号作为对所述机器学习模型的输入，以使用所述处理电路系统来预测所述受试者的所述吸气时间。

3.根据权利要求1或2所述的方法，其中所述机器学习模型是使用神经网络构建的，所述神经网络被配置为标识(510)从多个训练者获取的语音信号和对应的呼吸信号之间的任何相关性。

4.根据权利要求3所述的方法，其中所述神经网络被配置为标识(512)以下至少一项：支持标识所述相关性的从所述训练者获取的语音信号的语言内容和韵律特征。

5.根据前述权利要求中任一项所述的方法，包括使得(514)通气系统在预测的所述吸气时间期间向所述受试者递送所述气体持续指定时间段，其中所述指定时间段是以下一项：预定时间段；或者根据所述受试者的个体需求被调整。

6.根据权利要求5所述的方法，其中所述受试者的个体需求基于以下至少一项来确定(516)：所述受试者的语音的语言语境；所述受试者的先前吸气持续时间；以及所述受试者的医疗需求。

7.根据前述权利要求中任一项所述的方法，包括使用变化点检测来基于所述受试者的呼吸信号预测所述受试者的所述吸气时间，所述呼吸信号如由所述机器学习模型基于所述受试者的所述语音模式所预测的。

8.装置(600)，包括处理电路系统(602)，所述处理电路系统包括：

预测模块(604)，被配置为使用被监测的受试者的语音模式的指示，基于用于预测所述受试者的所述语音模式和呼吸模式之间的关系的机器学习模型，来确定所述受试者的预测的吸气时间；以及

控制模块(606)，被配置为基于所述受试者的预测的所述吸气时间来控制气体到所述受试者的递送。

9.根据权利要求8所述的装置(700)，包括被配置为获得与所述受试者的所述语音模式对应的语音信号的声换能器(704)。

10.一种有形机器可读介质(800)，存储指令(802)，所述指令在由至少一个处理器(804)执行时使所述至少一个处理器：

根据受试者的语音模式的指示，基于用于预测所述受试者的所述语音模式和呼吸模式之间的关系的机器学习模型，确定(806)所述受试者的预测的吸气时间；以及

基于所述受试者的预测的所述吸气时间来控制(808)气体到所述受试者的递送。

11.根据权利要求10所述的有形机器可读介质，其中所述机器学习模型是用从多个训练者获取的多个语音信号和对应的呼吸信号来训练的。

12.根据权利要求11所述的有形机器可读介质，其中对所述机器学习模型的输入包括：

所述多个语音信号的频谱表示；以及

处于指定的时间间隔的所述对应的呼吸信号的指示，并且

其中所述输入被馈送到包括多个记忆层的神经网络中，使得当所述神经网络被优化为基于所述输入更新网络加权时，所述机器学习模型被相应地更新。

13.根据权利要求12所述的有形机器可读介质，其中：

所述多个语音信号中的每个语音信号的所述频谱表示通过以下方式获得：

对每个语音信号进行滤波以在频谱上使所述语音信号平坦化，并且与所述语音信号的较低频率相比提升所述语音信号的较高频率；

应用傅立叶变换以获得对应于所述语音信号的功率谱；

将Mel频率变标应用于所述功率谱以获得Mel频谱图；以及

从所述Mel频谱图选择多个时间窗口，其中每个时间窗口由指定的步幅间隔分隔，并且其中：

处于指定的时间间隔的所述对应的呼吸信号的所述指示通过以下方式获得：

从所述训练受试者获得呼吸感应体积描记RIP信号；以及

在所述指定的步幅间隔内在每个时间窗口结束时确定RIP信号值。

14.根据权利要求12或13所述的有形机器可读介质，其中所述神经网络包括以下至少一项：递归神经网络RNN；RNN-长短期记忆RNN-LSTM网络；以及卷积神经网络CNN。

15.根据权利要求12、13或14所述的有形机器可读介质，其中将呼吸速率作为辅助训练参数的注意力机制被用来优化所述神经网络。